JPH0773279A - 文字変換装置 - Google Patents

文字変換装置

Info

Publication number
JPH0773279A
JPH0773279A JP5232815A JP23281593A JPH0773279A JP H0773279 A JPH0773279 A JP H0773279A JP 5232815 A JP5232815 A JP 5232815A JP 23281593 A JP23281593 A JP 23281593A JP H0773279 A JPH0773279 A JP H0773279A
Authority
JP
Japan
Prior art keywords
character
kanji
code
candidate
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5232815A
Other languages
English (en)
Inventor
Jun Ito
純 伊藤
Hiroyuki Kumai
裕之 隈井
Akira Nakajima
晃 中島
Yasumasa Matsuda
泰昌 松田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5232815A priority Critical patent/JPH0773279A/ja
Publication of JPH0773279A publication Critical patent/JPH0773279A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】辞書の単語の単漢読みごとに圧縮コードに置換
し、漢字またはかなに戻しながら辞書検索を行うこと。 【構成】インデクス作成手段105において、辞書10
7の圧縮コードを、圧縮コードテーブル106を参照し
ながら、漢字またはかなに戻す。比較手段104は、イ
ンデクス作成手段が作成するインデクス文字列と検索文
字列を比較する。 【効果】従来の手書き入力用のかな漢字変換で使用する
辞書に比べ、小サイズな辞書を提供することができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、漢字かな混じり文字列
に対し、形態素解析処理を行う情報処理装置に関する。
【0002】
【従来の技術】キーボードに不慣れなユーザでも情報処
理装置を容易に操作できるように、ペン入力機能を備え
た情報処理装置がある。この装置では、表示一体型タブ
レットを備え、表示一体型タブレットに手書きで文字を
筆記することで、文字を入力する事ができる。
【0003】入力する文字が漢字である場合には、漢字
を直接筆記して入力する事ができる(以下、直接入力と
称する)。しかし、画数の多い漢字は入力に労力を要
し、漢字を思い出せない場合もある。このような場合で
も、容易に漢字を入力できるように、かな漢字変換手段
を備えた装置がある。この装置によれば、上記のように
画数の多い漢字、及び、思い出せない漢字はかなで筆記
し、かな漢字変換手段により漢字に変換して入力する事
ができる(以下、変換入力と称する)。
【0004】たとえば、単語「会議」を入力する場合
に、「会」は漢字で筆記し、「議」は画数が多いために
かなで筆記する場合がある。この時、入力文字列は「会
ぎ」であり、手書き入力用のかな漢字変換手段は、「会
ぎ」から「会議」に変換しなければならない。この場合
のかな漢字変換手段は、従来のキーボード用のかな漢字
変換と比べて、入力文字列に漢字が存在する点が異な
る。
【0005】キーボード用のかな漢字変換手段は、かな
文字列から漢字へ変換するために、かな文字列のインデ
クスと、表記文字列を対応づけた辞書を備えていた。と
ころが、手書き入力用のかな漢字変換手段は、辞書のイ
ンデクスが、かな文字列だけでは、「会ぎ」のような漢
字かな混じり単語の検索ができない。そこで、インデク
スを漢字かな混じり文とした辞書がある(特開昭62-
209667号公報・特開平2-112058号公報・
特開平3-129459号公報記載)。
【0006】また、キーボード用のかな漢字変換手段に
は、用語学習、文節学習があった。用語学習は、ユーザ
が変換結果を修正した際に、修正した単語を単語単位で
記憶し、また、文節学習は、ユーザが変換結果を修正し
た際に、修正した部分の単語と単語の関係を記憶する。
以降の変換では、先に記憶した単語を優先して第1候補
とする機能で、これにより、ユーザにあった変換結果を
出力する事ができた。
【0007】また、文字認識手段においても、以前にユ
ーザの入力した文字コードを、入力回数の多い順に、ま
たは、最近入力された順に記憶し、認識候補を表示する
際に、優先して表示する学習機能が機能があった。
【0008】
【発明が解決しようとする課題】上述のように、インデ
クスを漢字かな混じり文とした辞書は、辞書サイズが大
きい。たとえば、「会議」という漢字を辞書に登録する
場合には、「かいぎ」「会ぎ」「かい議」のような漢字
かな混じり文をインデクスとして登録する必要があっ
た。また、漢字で入力された文字列を形態素解析するた
めには、「会議」の品詞も取得する必要があるため、
「会議」もインデクスとして登録する必要があった。
【0009】本発明の第1の目的は、従来の手書き入力
用の辞書に比べ、小サイズな辞書を提供する事にある。
【0010】また、本発明の第2の目的は、ペン用のか
な漢字変換の学習機能については、用語学習、文節学習
だけでは、以下の点で不十分であった。前述のように手
書き入力の場合、どの字を漢字で書いて、どの字をかな
で書くかは、ユーザごとに固有の癖がある。ここで、単
語を構成する文字を、漢字で書くかかなで書くかの情報
を「混ぜ書きパターン」と称する。例えば、「会ぎ」と
いう入力に対しては、「漢字+かな」が混ぜ書きパター
ンとなる。この癖を学習し、第1候補の選択に使用すれ
ば、変換率の向上が図れる。
【0011】しかし、従来のように単語単位で学習して
いては、ある単語をユーザがどのような混ぜ書きパター
ンで入力するかを記憶する事は不可能であった。
【0012】
【課題を解決するための手段】本発明の第1の目的を達
成するための本発明の第1の特徴は、読み文字コードと
圧縮コードを対応づけた圧縮コードテーブルと、圧縮コ
ードをインデクスとして格納すると共に、表記文字コー
ドを格納した電子辞書と、該圧縮コードテーブルを参照
して、該電子辞書の圧縮コードを読み文字コードに変換
する圧縮コード変換手段と、該電子辞書の圧縮コードと
対応した該読み文字コードを表記文字コードに置換する
圧縮コード置換手段と、該圧縮コード変換手段と、該圧
縮コード置換手段とを切り替えながらインデクス文字列
を作成するインデクス作成手段とを備え、該電子辞書の
圧縮コードは、表記文字の読みごとに圧縮されているこ
とを特徴とする文字変換装置である。
【0013】本発明の第2の目的を達成するための本発
明の第2の特徴は、ユーザの入力した文字列を形態素解
析し、形態素木を作成する形態素解析手段と、ユーザが
形態素木上の単語列を選択するユーザ選択手段と、該ユ
ーザ選択手段により単語列が選択されると、選択された
単語列の入力された際の混ぜ書きパターンを単語ごとに
記憶する記憶手段と、形態素木上から、単語列を自動選
択する自動選択手段とを備え、自動選択手段は、記憶し
た混ぜ書きパターンを参照し、単語列を自動選択するこ
とを特徴とする文字変換装置である。
【0014】また、本発明の第2の目的を達成するため
の本発明の第3の特徴は、ユーザの入力した文字列を形
態素解析し、形態素木を作成する形態素解析手段と、ユ
ーザが形態素木上の単語列を選択するユーザ選択手段
と、該ユーザ選択手段により単語列が選択されると、選
択された単語列の入力された際の混ぜ書きパターンを単
語ごとに記憶する記憶手段と、形態素木上から、第1候
補の単語列を選択する第1候補選択手段とを備え、第1
候補選択手段は、記憶した混ぜ書きパターンを参照し、
第1候補の単語列を選択することを特徴とする文字変換
装置である。
【0015】また、本発明の第2の目的を達成するため
の本発明の第4の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段によりユーザの
入力した文字コードと累積回数の情報とを対応して記憶
する頻度記憶手段と、文字認識手段により変換された1
つ以上の文字コードを入力し、かな漢字変換する形態素
解析手段とを備え、該形態素解析手段は、該頻度記憶手
段に記憶した内容を参照し、変換候補の優先度を換える
手段を有することを特徴とする文字変換装置である。
【0016】また、本発明の第2の目的を達成するため
の本発明の第5の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段により変換され
た1つ以上の文字コードを入力し、かな漢字変換する形
態素解析手段と、形態素解析手段によりユーザの入力し
た漢字の文字コードと累積回数の情報とを対応して記憶
する頻度記憶手段とを備え、該文字認識手段は、該頻度
記憶手段に記憶した内容を参照し、認識候補の優先度を
決定する手段を有することを特徴とする文字変換装置で
ある。
【0017】また、本発明の第2の目的を達成するため
の本発明の第6の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段により変換され
た1つ以上の文字コードを入力し、かな漢字変換する形
態素解析手段とを備え、該文字認識手段によりユーザの
入力した文字コードと累積回数の情報とを対応して記憶
し、該形態素解析手段によりユーザの入力した漢字の文
字コードと累積回数の情報とを対応して記憶し、該文字
認識手段により入力された場合と、該形態素解析手段に
より入力された場合で、加算する累積回数の情報を区別
して格納する頻度記憶手段とを備え、該形態素解析手
段、及び該文字認識手段は、該頻度記憶手段を参照し、
認識候補、及び、変換候補の優先度を決定することを有
することを特徴とする文字変換装置である。
【0018】
【作用】ユーザが手書きによりタブレットに入力した座
標データを、文字認識手段により文字コードに変換す
る。変換した文字コードは、形態素解析手段で漢字かな
混じり文字列に変換する。形態素解析手段は、この際
に、入力した文字コード列の一部を比較手段に出力し、
比較手段からの比較結果と一致単語を用いて形態素解析
処理を行う。
【0019】インデクス作成手段は、辞書から読みだし
た単語のインデクス部に格納された圧縮コードを単漢字
の読みに変換する。変換には、圧縮コードテーブルを参
照する。変換された単漢字の読みと、表記を混合し、イ
ンデクス文字列を作成する。比較手段は、入力した検索
文字列と、インデクス文字列を比較する。制御手段は、
上記各手段を制御する。
【0020】また、ユーザが文字認識手段で文字を入力
する度に、また、形態素解析手段で漢字を入力する度
に、入力された累積回数を頻度記憶手段に記憶する。ま
た、形態素解析手段は、変換結果が確定される度に、変
換結果から形態素ごとの混ぜ書きパターンを抽出し、混
ぜ書きパターン学習手段により学習する。
【0021】形態素解析手段は、変換候補を作成する際
に頻度記憶手段と辞書に格納した混ぜ書きパターンを参
照し、第1候補を作成する。また、文字認識手段は、認
識候補を作成する際に頻度記憶手段を参照し、第1候補
を作成する。
【0022】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
【0023】図1は、本実施例の文字変換装置の基本ブ
ロック図である。本装置は、タブレット101、文字認
識手段102、形態素解析手段103、比較手段10
4、インデクス作成手段105、圧縮コードテーブル1
06、辞書107、表示手段108、制御手段109か
ら構成される。
【0024】まず、文字認識手段102は、タブレット
101で検知した座標データ群を、文字コードに変換し
て形態素解析手段103に出力する。本発明では、この
文字コードに漢字を許容し、「会ぎ」のような文字列を
漢字に変換する。形態素解析手段103は、入力した文
字コード群から検索文字列を切り出し、比較手段104
に出力する。形態素解析手段では、比較手段104の比
較結果により、形態素木を作成し、一番尤もらしい候補
を変換結果として表示手段108に出力する。比較手段
104は、インデクス作成手段105を使用し、辞書か
ら順次単語を得る。取得した単語のインデクス文字列と
検索文字列を比較し、一致したか否かの比較結果を形態
素解析手段103に出力する。インデクス作成手段10
5は、まず辞書107から単語を1つ読みだし、単語に
格納した圧縮コードを圧縮コードテーブル106を参照
してインデクス文字列を作成する。ここで、タブレッ
ト、文字認識手段は、手書き文字をオンラインで形態素
解析手段に入力するためのもので、オフラインで入力す
る際には、スキャナーと文字認識手段でも良い。
【0025】次に、本発明と同じように漢字とかなの混
在した文字列(例えば「会ぎ」)を、漢字の文字列(例
えば「会議」)に変換するための従来の辞書について説
明する。
【0026】図2は、上記従来の辞書の構造を模式的に
示した図である。本辞書は、インデクス201と、表記
列202のフィールドから構成される。検索の際には、
検索文字列と、インデクス201を比較し、一致した単
語の表記列202を取得する。ところが、例えば「日
立」という表記列を検索するのに、「ひたち」、「ひ
立」、「日たち」、「日立」の単語を辞書に登録しなけ
れば、漢字とかなの混在した文字列を検索できないた
め、辞書語数が膨大になる。このため、辞書を記憶する
メモリを多く消費していた。
【0027】そこで、上記辞書を改善し、辞書の容量を
小さくする事を目的とする。このために、インデクスに
特定の区切り記号を挿入し、「日立」を検索するのに1
つの登録語で済むようにした。図3は、その改善した辞
書の構造を模式的に示した図である。本辞書は、インデ
クス301と、表記列302のフィールドから構成され
る。ここで、インデクス301には、表記列302の1
表記に対応する読みごとに(図3では「日」に対応する
読みとして「ひ」、「立」に対応する読みとして「た
ち」)、区切り記号を挿入する。検索の際には、読みと
漢字を区切り記号ごとに置き換えながらインデクス文字
列303を作成し、入力した検索文字列と比較する。こ
の方法によれば、単語が、漢字とかなの混在する文字列
として入力されても、表記列を検索するための登録語は
1単語で済み、辞書容量を小さくできる。ところが、イ
ンデクス301には、区切り記号を挿入する必要があ
り、表記数が増えれば、その分区切り記号も多く登録し
なければならなかった。
【0028】本発明の実施例では、さらに区切り記号を
不要とする辞書構造を提供する。図4は、本発明の実施
例の辞書の構造を模式的に示した図である。本辞書40
1は、圧縮インデクス402、表記列403から構成さ
れる。圧縮インデクス402は、表記列の単漢字に対応
する読み(例えば「ひ」、「たち」)ごとに、2バイト
の圧縮コードに置き換えてある。圧縮コードテーブル4
04には、圧縮コードから単漢字の読みを取得する為
に、圧縮コードごとに単漢字の読みが対応づけて格納し
てある。単漢字の読みの種類は、32768種類以下で
あり、2バイトの圧縮コードで足りる。このように、単
漢字の読みごとに固定長2バイトの圧縮コードで置き換
えてあるので、図3の辞書のような区切り記号を必要と
しない。本辞書においてインデクス文字列を作成するた
めには、まず辞書から1単語を検索し、圧縮インデクス
402から圧縮コードを取得する。次に圧縮コードテー
ブル404を参照し、取得した圧縮コードに対応する単
漢字の読みを取得する。取得した読みと表記列を圧縮コ
ードごとに置き換えながらインデクス文字列407を作
成する。
【0029】以上のように、インデクス作成手段は、辞
書の単語から作成できる全てのインデクス文字列を作成
する。これでは、辞書容量を小さくしても検索に時間が
かかる。このために、検索文字列を逐次参照し、作成す
るインデクス文字列の個数を減らす事で、インデクス文
字列を作成する時間を高速にできる。以下は、高速化の
ためのインデクス作成手段について述べる。基本ブロッ
ク図の図1では、比較手段とインデクス作成手段を合わ
せた処理110にあたる。
【0030】図5に効率的なインデクス文字列作成の処
理フローを示す。まず、ステップ501において、検索
文字列を取得する。次にステップ502において、検索
文字列上のポインタ変数である「対象文字」を検索文字
列の先頭に設定する。ステップ503において辞書から
1単語取得する。ここで検索文字列の対象文字を調べ、
かなであるか否かを判定する(ステップ504)。かな
であればステップ505において、圧縮コードを単漢字
の読みに置換する。この際には、圧縮コードテーブルを
使用する。また、もし漢字コードであったらステップ5
06において、表記列403から圧縮コードに対応する
表記に置換する。ここで、対応する表記とは、現在対象
としている圧縮コードが2番目の圧縮コードであれば、
対応する表記は、表記列403上の2番目の表記を指
す。置換した後、今置換した単漢字の読み、または表記
が、対象文字と等しいか否かを判定する(ステップ50
7)。もし異なれば、この単語に対する一致検索を打ち
切り、ステップ508において、辞書のおわりまで上記
の処理を繰り返す。辞書に次の単語がなくなった場合に
は、比較結果を不一致とする(ステップ509)。
【0031】ステップ507において、一致すれば検索
文字列の残りがあるか否かを判定する。なければステッ
プ511において、辞書の圧縮インデクス402に次の
コードがあるか否かを判定する。もし、ステップ511
において、偽であれば、検索文字列と辞書文字列は、一
致している事になるので、ステップ512において、比
較結果を一致とする。ステップ511において真であれ
ば、辞書文字列の方が長いので、検索を続行する。ステ
ップ510において真であれば、やはり辞書文字列の残
りがあるか否かを判定する(ステップ513)。偽であ
れば検索を続行し、真であれば、ステップ514におい
て、対象文字を進める。進める文字数は、ステップ50
4の判定結果により異なり、表記に置換した場合は1文
字進め、かなに置換した場合は置換した読みの読み長だ
け進める。
【0032】以上のような方法により、通常の単語は格
納できる。ところが、熟語訓のように、単漢字ごとに読
みの区切れが明確でない単語については、考慮していな
い。例えば、「今日(きょう)」「五月(さつき)」な
どは、単語の読みが音訓読みでないために、表記と読み
の対応がつかない。
【0033】この場合、本発明の実施例の辞書は、単語
の読みをそのまま文字コードで格納する。単漢字の読み
は32768種類以下であるので、圧縮コードの数値を
文字コードとして使用しない領域に割り当てるれば、2
バイト系文字コード体系で、圧縮コードと読みコードの
格納が可能である。例えば、熟語訓の場合の文字コード
はそのままシフトJISコードなどを使用できる。シフトJ
ISコードは、最上位ビットが常にonであるので、圧縮コ
ードは最上位ビットがoffであるコード領域を使用する
事で、圧縮コードと文字コードを高速に識別できる。
【0034】次に、本辞書を用いたの学習機能について
説明する。従来のかな漢字変換では、単語単位に学習を
行い、学習された単語を優先して候補出力する事によ
り、ユーザにあった第1候補を出力していた。手書き用
のかな漢字変換においては、単語単位の学習では、以下
の点で不十分である。
【0035】手書き入力用のかな漢字変換では、前述の
ように入力文字列に漢字が存在する場合がある。この
時、どの字を漢字で書いて、どの字をかなで書くかは、
ユーザごとに癖がでる。この癖を学習し、第1候補の選
択に使用すれば、変換率の向上が図れる。
【0036】本発明では、混ぜ書きパターンを辞書の一
部に学習する。図6は、このための辞書構造を示した図
である。図4の辞書構造に加えて、混ぜ書きパターン部
601を設ける。混ぜ書きパターン部には、表記列40
3の各文字が、漢字で入力されたか、かなで入力された
かを記憶する。
【0037】以下、「船出」「荷船」を例にとり、説明
する。ユーザが「船出」を「ふな出」と筆記し、「荷
船」を「に船」と筆記したとする。
【0038】ここでは、「に船」を例にとり、説明す
る。図13は、タブレットと表示手段を一体化した表示
一体型タブレットの表示画面例である。ユーザは、入力
枠1301に1文字づつ手書き文字を入力する。次に、
変換指示キー1302をペンでタッチすることで、手書
き文字は文字認識され、さらに形態素解析手段により漢
字に変換される。ここで、形態素解析手段の変換候補
は、「に(助詞)/船/で/行く」と、「荷船/で/行
く」の2通りが作成され、自動選択手段は、前者を選択
したとする。結果として、結果表示領域1303に第1
候補として「に船で行く」が表示される。ところが、こ
の自動選択手段の結果を変更したい場合には、図14に
示すように、修正したい部分をペン1402でタッチす
ることで、他の変換候補の表示を指示する。ユーザ選択
手段は、変換候補を候補表示領域1401に表示する。
ユーザは、変換候補から所望の候補を選び、図15のよ
うにペン1402でタッチする。ユーザ選択手段は、選
択された候補とそれに続く漢字を形態素木から選びだ
し、図16のように結果表示領域に表示する。以上の操
作により、ユーザは形態素木から変換候補を自由に選択
できる。このとき「に船」が「荷船」に変換されたこと
になり、このユーザの癖を、辞書の「荷船」混ぜ書きパ
ターン部601に記憶する。結果として、図6に示すよ
うに、混ぜ書きパターンが記憶される。この後、「10
時に船でする」が入力された場合、形態素解析手段によ
る変換結果として、(1)「10時に船出する」と(2)「1
0時荷船でする」が候補として存在するが、(1)は「船
で」が「船出」に変換された事になり、記憶した混ぜ書
きパターン「かな+漢字」と一致しない。(2)は、「に
船」が「荷船」に変換された事になり、記憶した混ぜ書
きパターン「かな+漢字」と一致する。よって、(2)を
第1候補として表示する。
【0039】以上のように、ユーザごとの混ぜ書きパタ
ーンを記憶し、形態素解析の結果と比較する事により、
第1候補の選択に使用する。これにより、学習後の第1
候補にユーザの癖を反映させる事ができる。
【0040】混ぜ書きパターンの学習情報は、辞書と別
に格納しても実現できる。また、学習情報は「漢字」か
「かな」かの2値を格納するだけでなく、使用頻度に対
応して多値をとっても実現できる。つまり、混ぜ書きパ
ターンの情報を、漢字で入力された回数として数えるよ
うにする。かなで入力された場合には、1回につき(−
1回)と数えるようにする。例えば、「に船」が1文に
3回入力された場合は、混ぜ書きパターンを「漢字(−
3回)+漢字3回」と格納しておく。つぎに、「荷船」
が1回入力された場合は、混ぜ書きパターンを「漢字
(−2回)+漢字4回」に更新する。この学習情報か
ら、このユーザは、「荷船」という単語については「か
な+漢字」の混ぜ書きパターンを用いることが多いこと
が分かる。しかし、場合によっては、「漢字+漢字」を
使用することも分かる。こうすることにより、第1候補
を選択する際に、第1候補を一意に決定できなかった場
合に、学習回数の多い候補を優先したり、より一定の入
力パターンを用いている単語を優先して候補表示する事
ができる。
【0041】次に、文字認識手段と、形態素解析手段に
よる学習を利用して、お互いの認識率・変換率を向上さ
せる第2の実施例について説明する。
【0042】図7は、第2の実施例である文字変換装置
の基本ブロック図である。図1の基本ブロック図に頻度
記憶手段709、混ぜ書きパターン学習手段710を追
加した。
【0043】頻度記憶手段709は、文字認識手段10
2によって入力された文字の文字コード、または、形態
素解析手段103により変換された文字の文字コード
を、入力された累積回数と組にして記憶する。混ぜ書き
パターン学習手段710は、ユーザが変換結果を確定し
た際に、ユーザの入力した単語の混ぜ書きパターンを抽
出し、辞書に格納した混ぜ書きパターン部に記録する。
【0044】以下、各部について詳細に説明する。
【0045】図8は、頻度記憶手段709のデータ構造
を模式的に示した図である。
【0046】ここでは、文字認識手段102の学習情報
と、形態素解析手段103の学習情報を共通に記憶し、
文字認識手段102の認識候補の選択、形態素解析手段
103の変換候補の選択に使用する事により、認識率、
変換率を向上させる。
【0047】頻度記憶手段709は、漢字コード801
と、頻度学習情報802から成る。頻度学習情報は、漢
字コードの入力された回数の累積値を格納する。この際
に、文字認識手段102によって入力された漢字は、1
回につき、マイナス1を加算し、形態素解析手段103
によって入力された漢字は、1回につき、プラス1を加
算する。
【0048】例えば、漢字「一(イチ)」は、ひらがな
で「いち」と書いてかな漢字変換するよりも、直接漢字
の「一」を筆記した方が、入力操作が簡単であり、この
操作が過去に3回、行われたとする。このとき、漢字
「一」は、文字認識手段102によって入力が確認さ
れ、形態素解析手段103では確認できない。このと
き、頻度学習情報802としては、マイナス1が、3回
累積され、マイナス3となる。
【0049】また、漢字「位置(イチ)」は、漢字で
「位置」と直接筆記するよりも、ひらがなで「いち」と
書いてかな漢字変換した方が、入力操作が簡単であり、
この操作が過去に5回、行われたとする。このとき、漢
字「位」と「置」は、形態素解析手段103により、入
力が確認され、文字認識手段102では、確認できな
い。このとき、頻度学習情報802としては、プラス1
が、5回累積され、プラスの5となる。
【0050】また、あるユーザは、漢字「船出」を「ふ
な出」と筆記し、漢字「荷船」を「に船」と筆記する癖
があった場合、以上の操作を3回づつ繰り返すと、「船
出」について漢字「船:プラス3」、漢字「出:マイナ
ス3」、「荷船」について漢字「荷:プラス3」、漢字
「船:−3」が累積され、あわせて「船:0」「出:マ
イナス3」「荷:プラス3」となる。つまり、この例の
場合、漢字「船」は、単語によって、ひらがなで入力し
たり、漢字で入力したりするため、頻度学習情報802
は、「ゼロ」となる。
【0051】図8の各数値は、以上のような入力が行わ
れた結果の頻度記憶手段709の状態を示す。このよう
に、頻度学習情報802は、単に入力された回数の累積
値を格納するのではなく、マイナスであれば直接入力、
プラスであれば変換した文字入力がされたことがわか
る。また、「ゼロ」に近い場合は、入力回数が少ない
か、もしくは、直接入力、変換した文字の入力のいずれ
かに偏りの少ない漢字である事を示す。ここで、プラ
ス、マイナスの割り付けは、逆でも良い。
【0052】以上の頻度記憶手段709への記録のタイ
ミングは、ユーザが認識候補、または、変換候補を選
択、または、表示中の候補を確定した際に行う。頻度記
憶手段709に記録した情報は、文字認識手段102が
第1候補を決定する際、または、形態素解析手段103
が第1候補を決定する際、に使用する(後述)。
【0053】次に、混ぜ書きパターン学習手段710に
ついて説明する。
【0054】ここでは、ユーザの入力した混ぜ書きパタ
ーンを記憶し、混ぜ書き文字列のかな漢字変換率を向上
させる混ぜ書きパターン学習において、前述の学習をよ
り効率的にする方法について述べる。前述の混ぜ書きパ
ターンの学習では、入力された文字列と確定された変換
結果から、常に最新の混ぜ書きパターンを取得し、図6
の辞書の混ぜ書きパターン部601に上書きしていた。
この場合の学習では、過去の学習データを継承すること
無く、混ぜ書きパターン部の書き換えが行われるので、
異なる混ぜ書きパターンを入力する度に、それ以前の混
ぜ書きパターンは消去されてしまう。
【0055】そこで、混ぜ書きパターン部を漢字で入力
された累積回数として格納する。つまり、漢字で直接入
力された漢字については、プラスとして混ぜ書きパター
ンを累積し、かなで入力された漢字については、マイナ
スとして混ぜ書きパターンを累積するようにする。
【0056】例えば、単語「船出」を、あるユーザは
「ふな出」と入力する癖のあった場合、漢字「船」は、
かなで入力されたため、混ぜ書きパターン部にマイナス
1を加算する。また、漢字「出」は、漢字で入力された
ため、混ぜ書きパターン部にプラス1を加算する。よっ
て、単語「船出」の混ぜ書きパターン部は、「−1,+
1」となる。図9(b)に示した辞書107内における混
ぜ書きパターン部の数値901は、この操作を3回繰り
返したの結果の状態を示す。
【0057】以上のように、混ぜ書きパターン部を、単
に「漢字」か「かな」かの混ぜ書きパターンでなく、累
積値とすることで、過去の学習を生かしながら、学習値
を更新することができる。
【0058】ところが、単に累積するだけであると、あ
る混ぜ書きパターンを学習したのち、ユーザの混ぜ書き
パターンの癖が変ったり、異なるユーザが使用して混ぜ
書きパターンの傾向が変った場合、初期の学習値を打ち
消すのに、時間がかかる。つまり、初期の混ぜ書きパタ
ーン学習値が「船出:−3,+3」であったものを「船
出:+3,−3」に書き変えるには、最低6回の再学習
が必要となる。混ぜ書きパターンの記憶方法を累積値と
することで、過去のデータを生かした学習値の更新が行
えるようになったが、その分、一度学習すると更新に時
間がかかるという問題も残る。
【0059】そこで、旧学習値と最新の学習値の重みを
変えることで、さらに、学習の効率を向上させる。図9
は、混ぜ書きパターン学習手段710が学習値を更新す
る際の処理フローを示す図である。
【0060】まず、図9のステップ902において、辞
書107の混ぜ書きパターン部を読みだす。ステップ9
03において、1.0未満の特定値αを読みだした学習
値にかける。ステップ904において、α倍した旧学習
値に対して、新学習値を加算する。ステップ905にお
いて、加算した新学習値を辞書の混ぜ書きパターン部に
書き込む。
【0061】以上のように、旧学習値に1.0未満の特
定値αをかけることで、過去の学習値の重みを軽くして
から、最新学習値を加算する。
【0062】図10は、最新学習値と旧学習値の重みを
グラフにしたものである。最新の学習値は、α倍される
ことが無いが、1回前の学習値はα倍され、2回前の学
習値は、(αの2乗)倍されていることになり、一般に
n回前の学習値は、(αのn乗)倍されることになる。
αは1未満であるので、過去になればなるほど、重みを
軽くしながら、最新学習を加算している事になり、処理
も簡単であるため、効果が大きい。
【0063】次に、形態素解析手段103について説明
する。形態素解析手段103では、入力した文字コード
列から辞書を検索し、形態素木を作る。図11は、形態
素木を模式的に示した図である。これは、入力文字列
「10じに船でいちする」を形態素解析した結果の一例
である。
【0064】形態素の区切り方として「10/じ/に船
/で/いち/する」と、「10/じ/に/船で/いち/
する」の2通りある。更に、単語「いち」に対して
「一」「位置」の同音語がある。よって、組み合わせと
して、変換候補(a)〜(d)の4通りが作成された例であ
る。
【0065】また、各変換候補ごとに、入力文字列11
01、変換候補1102を記憶する。入力文字列、変換
候補は、形態素区切りごとに格納されている。更に、
「船出」や「荷船」や「位置」など、変換候補に漢字を
複数含む単語は、読みと表記の対応がつくように、単漢
読みごとに「/(スラッシュ)」を句切り記号として挿
入してある。
【0066】本実施例では、以上の変換候補に対し、従
来の文節数最小法、最長一致法などの評価法、また、用
語学習、文節学習、などの学習法を併用して、第1候補
の選択を行うが、更に、混ぜ書きパターン学習による混
ぜ書き評価値1103と、頻度記憶手段709による頻
度学習評価値1104を記憶し、これらを含めた評価を
行うことにより、よりユーザにあった変換候補を選択す
ることができる。
【0067】混ぜ書き評価値1103は、入力文字列1
101の混ぜ書きパターンと、辞書に格納した混ぜ書き
パターン部とを比較し、一致しているか否かを記憶す
る。本実施例では、一致していれば″1″、不一致であ
れば″0″を格納する。また、辞書107の混ぜ書きパ
ターン部601の累積値の絶対値を考慮して、「強く一
致/弱く一致/弱く不一致/強く不一致」のように多値
化してもよい。
【0068】頻度学習評価値1104は、頻度記憶手段
709を参照し、過去に変換入力された事のある単語か
否かを頻度学習情報802で記録する。
【0069】混ぜ書き評価値1103、及び頻度学習評
価値1104を設定する処理の処理フローを図12に示
す。ステップ1201において、形態素解析手段103
の作成した検索文字列が辞書にあるか否かを、比較手段
104で比較し、比較手段104により検索文字列が、
辞書107の単語に一致したことをうけると、ステップ
1202において、辞書107から検索された表記を変
換候補1102に格納する。また、ステップ1203に
おいて、入力文字列1101、変換候補1102に句切
り記号を挿入する。区切り位置は、インデクス作成手段
を使用すればよい。ステップ1204、1205におい
て、混ぜ書き評価値1103を記入する。ステップ12
04において、形態素解析手段103は、辞書107の
混ぜ書きパターン部601より一致した単語の混ぜ書き
パターンを読みだし、入力文字列の混ぜ書きパターンと
比較する。
【0070】ステップ1205において、比較の結果を
混ぜ書き評価値1103に格納する。次に、ステップ1
206、1207、1208において、頻度学習評価値
を記入する。ステップ1206において、頻度記憶手段
709より変換候補1102の漢字1字づつの頻度学習
情報802を取得する。この際、ステップ1207にお
いて、1つの形態素に複数の漢字がある場合には、漢字
それぞれの頻度学習情報802を合計し、ステップ12
08において頻度学習評価値1104に格納する。以上
の操作を、変換候補の形態素すべてについて終了したあ
と、ステップ1209において、混ぜ書き評価値、及び
頻度学習評価値1104を変換候補ごとに合計する。結
果は、混ぜ書き評価値合計1105と、頻度学習評価値
合計1106に格納する。
【0071】これらの評価値は、第1候補の選択の際に
使用する。まず、文節数最小法、または、最長一致法な
どの評価法、更に用語学習、文節学習による学習法によ
り、変換候補を絞り込み、残った変換候補に対して、混
ぜ書き評価値合計、頻度学習評価値合計を比較して、第
1候補を決定する。本実施例の場合、混ぜ書き評価値合
計、及び、頻度学習評価値合計の大きい変換候補ほど、
ユーザの学習値を反映した候補である。
【0072】これにより、従来の用語学習、文節学習で
は絞りきれない場合でも、ユーザの過去の混ぜ書きパタ
ーン、変換入力したか、直接入力したか、を反映した第
1候補を提供できる。
【0073】一方、文字認識手段102では、上記の形
態素解析手段103と同様に、複数の認識候補が存在す
る場合、認識候補それぞれの頻度学習情報802を取得
し、直接入力された回数の多い漢字、つまり頻度学習情
報802がマイナス側に大きければ大きい程、優先度を
高くし、プラス側に大きければ大きい程、優先度を低く
して、第1候補を決定する、または、認識候補を表示す
るようにすればよい。
【0074】尚、前述の評価法、学習法によって候補を
絞り込む際に、上記実施例の混ぜ書き評価値、頻度学習
評価値を含めて第1候補を決定してもよい。また、混ぜ
書きパターン学習手段、及び、頻度記憶手段は、辞書の
構造によらない。また、本実施例では、混ぜ書きパター
ンの学習を辞書に記憶したが、辞書とは別に記憶しても
よい。また、本実施例で、頻度記憶手段は入力頻度を累
積回数として記憶したが、累積回数の代わりに、入力さ
れた時間の新しい順に配列し、配列の順位を入力頻度の
代わりに使用してもよい。また、頻度記憶手段709
は、特開平05−7802号公報の「情報処理システム
及び個人照合システム」を記載のペンに格納した記憶手
段に格納することにより、個人ごとの学習情報をより有
効に活用することができる。
【0075】
【発明の効果】以上説明したように、本発明によれば、
従来の手書き入力用のかな漢字変換で使用する辞書に比
べ、小サイズな辞書を提供できる。また、本発明の学習
により文字認識率、変換率を向上させる事ができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例に係る文字変換装置の基
本ブロック図である。
【図2】従来の辞書を示す説明図である。
【図3】インデクス作成処理を示す説明図である。
【図4】圧縮コードからのインデクス作成を示す説明図
である。
【図5】インデクス作成のフローチャートである。
【図6】混ぜ書きパターンの記憶方法を示す図である。
【図7】本発明の第2の実施例に係る文字変換装置の基
本ブロック図である。
【図8】本発明の第2の実施例における頻度記憶手段を
示す説明図である。
【図9】交ぜ書きパターン学習手段を示す説明図であ
る。
【図10】学習値の重み付けを示す説明図である。
【図11】混ぜ書き評価値と頻度学習評価値を示す説明
図である。
【図12】混ぜ書き評価値、頻度学習評価値の設定を示
す説明図である。
【図13】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第1の図である。
【図14】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第2の図である。
【図15】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第3の図である。
【図16】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第4の図である。
【符号の説明】
101…タブレット、 102…文字認識手段、 103…形態素解析手段、 104…比較手段、 105…インデクス作成手段、 106…圧縮コードテーブル、 107…辞書、 108…表示手段、 109…制御手段。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06K 9/68 8623−5L (72)発明者 松田 泰昌 神奈川県横浜市戸塚区吉田町292番地株式 会社日立製作所映像メディア研究所内

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】読み文字コードと圧縮コードを対応づけた
    圧縮コードテーブルと、 圧縮コードをインデクスとして格納すると共に、表記文
    字コードを格納した電子辞書と、 該圧縮コードテーブルを参照して、該電子辞書の圧縮コ
    ードを読み文字コードに変換する圧縮コード変換手段
    と、 該電子辞書の圧縮コードと対応した該読み文字コードを
    表記文字コードに置換する圧縮コード置換手段と、 該圧縮コード変換手段と、該圧縮コード置換手段とを切
    り替えながらインデクス文字列を作成するインデクス作
    成手段とを備え、 該電子辞書の圧縮コードは、表記文字の読みごとに圧縮
    されていることを特徴とする文字変換装置。
  2. 【請求項2】該電子辞書の圧縮コードは、単語が当て字
    または熟語訓の場合に読み文字コードを格納することを
    特徴とする請求項1記載の文字変換装置。
  3. 【請求項3】請求項1記載の文字変換装置において、 該インデクス作成手段は、電子辞書の単語と一致検索す
    る為の検索文字列がかなであるか漢字であるかのパター
    ン(以下、混ぜ書きパターンと称する。)によって、圧
    縮コード変換手段と圧縮コード置換手段を切り替えるこ
    とを特徴とする文字変換装置。
  4. 【請求項4】ユーザの入力した文字列を形態素解析し、
    形態素木を作成する形態素解析手段と、 ユーザが形態素木上の単語列を選択するユーザ選択手段
    と、 該ユーザ選択手段により単語列が選択されると、選択さ
    れた単語列の入力された際の混ぜ書きパターンを単語ご
    とに記憶する記憶手段と、 形態素木上から、単語列を自動選択する自動選択手段と
    を備え、 自動選択手段は、記憶した混ぜ書きパターンを参照し、
    単語列を自動選択することを特徴とする文字変換装置。
  5. 【請求項5】ユーザの入力した文字列を形態素解析し、
    形態素木を作成する形態素解析手段と、 ユーザが形態素木上の単語列を選択するユーザ選択手段
    と、 該ユーザ選択手段により単語列が選択されると、選択さ
    れた単語列の入力された際の混ぜ書きパターンを単語ご
    とに記憶する記憶手段と、 形態素木上から、第1候補の単語列を選択する第1候補
    選択手段とを備え、 第1候補選択手段は、記憶した混ぜ書きパターンを参照
    し、第1候補の単語列を選択することを特徴とする文字
    変換装置。
  6. 【請求項6】請求項4記載の文字変換装置において、 該記憶手段は、混ぜ書きパターンが繰返し入力された場
    合にパターンごとに入力回数を、混ぜ書きパターンと共
    に記憶し、該自動判定手段が、一意に単語列を選択でき
    ない場合には、混ぜ書きパターンの入力回数を比較し、
    入力回数の多い形態素木を選択することを特徴とする文
    字変換装置。
  7. 【請求項7】筆記データから文字コードに変換する文字
    認識手段と、 文字認識手段によりユーザの入力した文字コードと累積
    回数の情報とを対応して記憶する頻度記憶手段と、 文字認識手段により変換された1つ以上の文字コードを
    入力し、かな漢字変換する形態素解析手段とを備え、 該形態素解析手段は、該頻度記憶手段に記憶した内容を
    参照し、変換候補の優先度を換える手段を有することを
    特徴とする文字変換装置。
  8. 【請求項8】請求項7記載の文字変換装置において、該
    形態素解析手段は、かな漢字変換した結果の第1候補を
    決定する際に、該頻度記憶手段に記憶された内容を参照
    し、累積回数の多い漢字を含む候補は、変換候補の優先
    度を下げることを特徴とする文字変換装置。
  9. 【請求項9】筆記データから文字コードに変換する文字
    認識手段と、 文字認識手段により変換された1つ以上の文字コードを
    入力し、かな漢字変換する形態素解析手段と、 形態素解析手段によりユーザの入力した漢字の文字コー
    ドと累積回数の情報とを対応して記憶する頻度記憶手段
    とを備え、 該文字認識手段は、該頻度記憶手段に記憶した内容を参
    照し、認識候補の優先度を決定する手段を有することを
    特徴とする文字変換装置。
  10. 【請求項10】請求項9記載の文字変換装置において、 該文字認識手段は、文字認識された結果の第1候補を決
    定する際に、該頻度記憶手段に記憶した内容を参照し、
    累積回数の多い漢字は、文字認識候補の優先度を下げる
    ことを特徴とする文字変換装置。
  11. 【請求項11】筆記データから文字コードに変換する文
    字認識手段と、 文字認識手段により変換された1つ以上の文字コードを
    入力し、かな漢字変換する形態素解析手段とを備え、 該文字認識手段によりユーザの入力した文字コードと累
    積回数の情報とを対応して記憶し、該形態素解析手段に
    よりユーザの入力した漢字の文字コードと累積回数の情
    報とを対応して記憶し、該文字認識手段により入力され
    た場合と、該形態素解析手段により入力された場合で、
    加算する累積回数の情報を区別して格納する頻度記憶手
    段とを備え、 該形態素解析手段、及び該文字認識手段は、該頻度記憶
    手段を参照し、認識候補、及び、変換候補の優先度を決
    定することを有することを特徴とする文字変換装置。
  12. 【請求項12】請求項11記載の文字変換装置におい
    て、 該形態素解析手段は、かな漢字変換した結果の第1候補
    を決定する際に、該頻度記憶手段に記憶した内容を参照
    し、 該文字認識手段による累積回数の多い漢字を含む候補
    は、変換候補の優先度を下げ、該文字認識手段は、認識
    候補の第1候補を決定する際に、該頻度記憶手段に記憶
    した内容を参照し、該形態素解析手段による累積回数の
    多い漢字は、認識候補の優先度を下げることを特徴とす
    る文字変換装置。
  13. 【請求項13】請求項4記載の文字変換装置において、 該記憶手段は、混ぜ書きパターンを数値として格納し、 混ぜ書きパターンを更新する際に、既に記憶している混
    ぜ書きパターンを読みだし、1未満の数値を乗算し、新
    たな混ぜ書きパターンを加算し、結果を更新値として格
    納することを特徴とする文字変換装置。
JP5232815A 1993-07-05 1993-09-20 文字変換装置 Pending JPH0773279A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5232815A JPH0773279A (ja) 1993-07-05 1993-09-20 文字変換装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP16534293 1993-07-05
JP5-165342 1993-07-05
JP5232815A JPH0773279A (ja) 1993-07-05 1993-09-20 文字変換装置

Publications (1)

Publication Number Publication Date
JPH0773279A true JPH0773279A (ja) 1995-03-17

Family

ID=26490115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5232815A Pending JPH0773279A (ja) 1993-07-05 1993-09-20 文字変換装置

Country Status (1)

Country Link
JP (1) JPH0773279A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143954A1 (en) * 2015-07-24 2018-05-24 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180143954A1 (en) * 2015-07-24 2018-05-24 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method
US10747946B2 (en) * 2015-07-24 2020-08-18 Fujitsu Limited Non-transitory computer-readable storage medium, encoding apparatus, and encoding method

Similar Documents

Publication Publication Date Title
US4903206A (en) Spelling error correcting system
JP2726568B2 (ja) 文字認識方法及び装置
US5724457A (en) Character string input system
US5835635A (en) Method for the recognition and completion of characters in handwriting, and computer system
WO1998008688A1 (en) Speed typing apparatus and method
JPH08194719A (ja) 検索装置および辞書/テキスト検索方法
JPH07160389A (ja) データ入力ワークステーション
CN101667099B (zh) 一种连笔键盘文字输入的方法和设备
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH0773279A (ja) 文字変換装置
JP3803253B2 (ja) 漢字入力のための方法および装置
JP2634926B2 (ja) かな漢字変換装置
JPH07192095A (ja) 文字列入力装置
JPH07191986A (ja) 文章入力装置
JPH1021262A (ja) 情報検索装置
JP2744241B2 (ja) 文字処理装置
JPH08292941A (ja) 中国語情報処理装置
JP3342026B2 (ja) かな漢字変換装置
JP3350070B2 (ja) かな漢字変換装置
JPH06223055A (ja) 文章入力装置
JPH06223054A (ja) 手書き入力機能付き文字処理装置
JPH0863487A (ja) 文書検索方法及び文書検索装置
JPH08106509A (ja) 情報処理装置
JPH09128491A (ja) 手書き文字認識方法
JPH06332949A (ja) 電子ファイリング装置