JP2698458B2 - 文字処理装置 - Google Patents

文字処理装置

Info

Publication number
JP2698458B2
JP2698458B2 JP1309997A JP30999789A JP2698458B2 JP 2698458 B2 JP2698458 B2 JP 2698458B2 JP 1309997 A JP1309997 A JP 1309997A JP 30999789 A JP30999789 A JP 30999789A JP 2698458 B2 JP2698458 B2 JP 2698458B2
Authority
JP
Japan
Prior art keywords
priority
candidate
word
semantic
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1309997A
Other languages
English (en)
Other versions
JPH03167657A (ja
Inventor
英一朗 戸島
雄二 小林
和世 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP1309997A priority Critical patent/JP2698458B2/ja
Publication of JPH03167657A publication Critical patent/JPH03167657A/ja
Application granted granted Critical
Publication of JP2698458B2 publication Critical patent/JP2698458B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は仮名漢字変換により漢字仮名混り文を入力す
る文字処理装置に関する。
[従来の技術] 現在、日本ワードプロセッサなどの文字処理装置は漢
字仮名混り文の入力を仮名漢字変換を使って行なうこと
が一般的である。
仮名漢字変換は辞書を参照することにより、入力され
た読み列を漢字に変換するものである。辞書においては
各単語に対して名詞、サ変名詞、副詞、形容詞、形容動
詞等の品詞情報が記述されており、仮名漢字変換は読み
列を解析して可能な文節候補を作成し、それらを組み合
わせて変換候補を決定し、尤もらしい順に提示する。提
示された変換候補の中からオペレータが望む候補を選択
する。
例えば、読み列「しんぶんやにいった」に対しては
「新聞屋に」「新聞屋」「新聞や」「新聞」「ヤニ」
「矢に」「矢」「似」「言った」「行った」などの文節
候補が作成され、これらを組み合わせた「新聞屋に言っ
た」「新聞屋に行った」が変換候補として出力表示され
る。「言った」「行った」の中では、どちらの頻度が高
いとは言えないので、どちらが第1候補としては変換さ
れるとは限らない。
そこで、変換率を高めるために用例変換という手法が
提案されている。用例変換は、共起する単語のペア(用
例)を予め用例辞書中に登録しておき、変換時に用例辞
書を参照し、第1候補を用例辞書中の用例に従って変更
する手法である。例えば、「委員会に/諮る」というパ
ターンを用例辞書に記憶しておき、「いいんかいにはか
った」という入力に対しては「委員会に諮った」が第1
候補として変換される様にする。
上記の例は単語と単語の関係を記述した個別用例の例
であるが、意味分類との関係を記述した意味用例という
ものも提案されている。例えば、「〜にいった」という
文脈においては「〜」が場所を表すときには「行った」
という表記が尤もらしく、「〜」が人間を表わすときに
は「言った」という表記が尤もらしい。この変換を正し
く行なうために「《人間》に/言う」[《場所》に/行
く」という意味用例を用例辞書にあらかじめ登録してお
くのである。なお、《人間》《場所》などは意味分類で
あり、辞書中の全ての単語には《人間》であるか《場
所》であるかそうでないかが記述されている。この仕組
みにより「市長に言った」「市役所に行った」などを正
しく変換することができる。
[発明が解決しようとしている課題] ところが、従来の用例変換の技術は、複数の用例が適
用可能なとき、すなわち、用例が競合するとき、どの用
例を優先すれば良いかは特に指定していなかった。わず
かに個別用例と意味用例が競合したときは個別用例を優
先するという指針が示されているぐらいであり、その他
の状況においてはどの用例を優先して良いかが分からな
かった。そのため、適当な用例を採用して、適当に第1
候補が決めていたため、微妙な状況での変換率が芳しく
なかった。
[課題を解決するための手段(及び作用)] 本発明の文字処理装置は、仮名文字列を入力するため
の入力手段と、単語の読みと、表記及び該単語の意味分
類ごとの優先度とを対応づけて記憶した単語辞書手段
と、単語と、該単語と併用される特定の単語とを対応づ
けて個別用例とし、単語と、該単語と併用される単語の
意味分類とを対応づけて意味用例として、各用例に用例
の優先度を付して記憶する用例辞書手段と、前記単語辞
書手段を参照して、前記入力手段より入力された仮名文
字列を読みとする表記の候補を作成する候補作成手段
と、前記候補作成手段により作成された同じ読みに対す
る表記の候補に含まれる単語の組み合わせに関して、前
記用例辞書手段に、該組み合わせが該当する個別用例が
ある場合には、該個別用例の前記用例辞書手段に記憶さ
れた優先度に基づいて、前記組み合わせの優先度を決定
し、前記用例辞書手段に、前記組み合わせの一方の単語
と他方の単語の意味分類とが該当する意味用例がある場
合には、該意味用例の前記用例辞書手段に記憶された優
先度を、前記他方の単語の該当する意味用例における意
味分類の前記単語辞書手段に記憶された優先度を用いた
演算により加工して、前記組み合わせの優先度を決定す
る優先度決定手段と、該優先度決定手段によって決定さ
れた前記組み合わせの優先度に基づいて、前記候補作成
手段により作成された表記候補の優先度を決定する候補
優先度決定手段と、該候補優先度決定手段によって表記
候補の優先度に応じて、該表記候補を表示する候補表示
手段とを具えることにより、表示の候補中の単語の組み
合わせに該当する用例がある場合には、個別用例では、
個別用例の優先度に基づいて、意味用例では、意味用例
の優先度を、その用例に意味分類が該当する単語の意味
分類の優先度を用いた演算により加工して、単語の組み
合わせの優先度を決定し、この単語の組み合わせの優先
度に基づいて、表記候補の優先度を決定するようにした
ものである。
[実施例] 以下図面を参照しながら本発明を詳細に説明する。
第1図は本発明の全体構成の一例である。
図示の構成において、CPUは、マイクロプロセッサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。
アドレスバスABはマイクロプロセッサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセッサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。
つぎにROMは、読出し専用の固定メモリであり、第12
図〜第19図につき後述するマイクロプロセッサCPUによ
る制御の手順を記憶させておく。
また、RAMは、1ワード16ビットの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。IBUFはキー入力された
キーデータを記憶する入力バッファであり、OBUFは仮名
漢字変換された結果を一時的に記憶する出力バッファで
ある。DICは仮名漢字変換を行なうための辞書である。Y
DICは単語ある違背未分類間の共起関係を記述した用例
辞書である。BCTBLは変換途中の文節候補を記憶する文
節候補テーブルである。TBUFはテキストバッファであ
り、入力編集中のテキストデータが記憶される。DOBUF
は同音語バッファであり、テキストバッファTBUFに記憶
される文字に同音語候補が存在するときはその候補が記
憶される。
KBはキーボードであって、アルファベットキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
変換キー、次候補キー、選択キー等の本文字処理装置に
対する各種機能を指示するための各種のファンクション
キーを備えている。
DISKは文書データを記憶するための外部記憶部であ
り、テキストバッファTBUF上に作成された文書の保管を
行ない、保管された文書はキーボードの指示により、必
要な時呼び出される。
CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対応する表
示装置CRT上の位置にカーソルを表示する。
DBUFは表示用バッファメモリで、表示すべきデータの
パターンを蓄える。テキストの内容を表示するときはテ
キストバッファTBUFの内容に応じて表示パターンがDBUF
に作成されることにより、表示されることになる。
CRTCはカーソルレジスタCR及びバッファDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。
またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドット構成の表示パターンおよび
カーソルの表示をCRTコントローラで制御する。
さらに、CGはキャラクタジェネレータであって、表示
装置CRTに表示する文字、記号のパターンを記憶するも
のである。
かかる各構成要素からなる本発明文字処理装置におい
ては、キーボードKBからの各種の入力に応じて作動する
ものであって、キーボードKBからの入力が供給される
と、まず、インタラプト信号がマイクロプロセッサCPU
に送られ、そのマイクロプロセッサCPUがROM内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って各種の制御が行なわれる。
第2図は本発明装置による変換例を示した図である。
図中「」はそこで変換キーを打鍵するという意味であ
る。
「やおやにいった」と入力した場合は、第1候補とし
て「八百屋に行った」と変換される。これは用例辞書に
「《場所》に/行く」という意味用例が登録されてお
り、「八百屋」の意味分類として《場所》が登録されて
いるからである。この様な用例変換の仕組みがないと、
「いった」については「行った」「言った」「要った」
などの同音語があるので、正しく変換されるとは限らな
くなってしまう。また、第2候補としては「八百屋に言
った」と変換される。これは用例辞書に「《人間》に/
言う」という意味用例が登録されており、「八百屋」の
意味分類として《人間》が登録されているからである。
「八百屋」についは意味分類として《人間》よりも《場
所》の方の優先度を高くしているのでこの様に変換され
るのである。
次の例は「しんぶんやにいった」と入力した場合であ
る。「新聞屋」と言う単語にも意味分類として《人間》
《場所》の両方が登録されているが、「新聞屋」の場合
には《人間》の優先度を《場所》より高くしているの
で、第1の例と異なり、第1候補が「新聞屋に言った」
第2候補が「新聞屋に行った」となる。
第3図は本発明装置による意味分類の学習の例を示し
た図である。3−1はまず初期画面を示したものであ
る。3−2は読み列「しんぶんやにいった」を入力した
時の画面を示している。カーソルは入力読み列の次に表
示されている。ここで変換キーを打鍵すると3−3の画
面になる。3−3では読み列「しんぶんやにいった」が
「新聞屋に言った」と変換されている。「新聞屋」は意
味分類として《人間》《場所》を持っており、「《人
間》に/言う」「《場所》に/行く」という用例が存在
するが、「新聞屋」については最も優先度が高い《人
間》の用例が適用されて変換されている。オペレータは
「新聞屋に行った」と変換を望んだとして、次候補キー
を打鍵すると3−4の画面になる。ここで「いった」の
変換候補が表示される。第1候補は「言った」であり、
第2候補は「行った」である。現在の候補は第2候補の
「行った」であり、2が反転表示している。ここで選択
キーを打鍵すると、3−5の画面になる。第2候補の
「行った」が確定してテキストデータの中に格納され、
同時に「新聞屋」の意味分類《場所》が学習され、優先
度が向上する。もう一度「しんぶんやにいった」と入力
すると3−6の画面になる。更に変換キーを打鍵すると
3−7の画面になり、今度は意味分類《場所》が学習さ
れているので、優先的に適用され、第1候補として「新
聞屋に行った」が表示されている。
第4図は入力バッファIBUF、出力バッファOBUFの構成
を示した図である。
IBUF、OBUFともに同じ構成である。最初の2バイトは
各バッファのサイズ情報であり、バッファに格納されて
いる文字数から1を減じたものを2倍した数値が入る。
入力バッファの末尾にある「」はそこで変換キーが打
鍵されたことを意味する。各文字は1文字2バイトで構
成され、JIS X 0208コード等で格納される。
第5図は辞書DICの構成を示した図である。「読み」
「表記」「品詞」「単語尤度」「意味分類」のフィール
ドから構成される。
「読み」には単語の読み、「表記」には単語の表記、
「品詞」には単語の品詞が格納される。
「単語尤度」は頻度情報等のその単語自体の尤もらし
さを示す情報が1〜5の値で格納される。尤度値5は最
も尤もらしいという意味であり、値が小さくなるにつれ
疑わしいと解釈される。尤度値0は全く考えられないと
いうことを意味するので単語尤度の値としては存在しな
い。
「意味分類」にはその単語の意味分類が、《組織》
《場所》《人間》などと、一般には複数個記述される。
更に、各意味分類のそれぞれに、その単語をその意味分
類に属すると解釈した場合の尤もらしさ(優先度情報)
が1〜5の値で格納される。優先度5は最も尤もらしい
という意味であり、値が小さくなるにつれ疑わしいと解
釈される。優先度0は全く考えられないということを意
味するので値としては存在しない。ただし、意味分類は
その単語が名詞の場合のみ記述される。
第6図は用例辞書YDICの構成を示した図である。「第
1単語」「第2単語」「助詞」「優先度」のフィールド
から構成される。
「第1単語」「第2単語」には共起する単語のペアを
記述する。もし、個別用例ではなくて意味用例であると
きは単語の代わりに意味分類が記述される。
「助詞」には単語のペアを結び付ける助詞を記述す
る。
「優先度」にはその用例の尤もらしさを示す情報が1
〜5の値で格納される。尤度値5は最も尤もらしいとい
う意味であり、値が小さくなるにつれ疑わしいと解釈さ
れる。尤度値0は全く考えられないということを意味す
るので優先度の値としては存在しない。
すなわち、図中に示される用例は「《場所》に/行
く」(優先度2)「《人間》に/言う」(優先度2)
「委員会に/諮る」(優先度5)「《動物》を/飼育す
る」(優先度2)となる。
なお、意味用例は一般に個別用例よりも優先度が低く
押えてある。こうすることにより、「個別用例は意味用
例に優先する」という原則が自然と実現されることにな
る。
第7図は文節候補テーブルBCTBLの概念を示した図で
ある。文節候補テーブルは入力読みの解析の結果、考え
られる文節候補をバイナリートリーで表現したものであ
る。図中、横線は子ポインタを意味し、縦線は弟ポイン
タを意味する。弟ポインタはある読み位置から始まる他
の文節候補(通常はより短い候補)をリンクし、子ポイ
ンタはその文節に引き続く文節候補をリンクする。
入力読み列「しんぶんやにいった」の先頭部分は「新
聞屋に」「新聞屋」「新聞や」「新聞」などの解釈が存
在し、これらは順に弟ポインタ(縦線)でリンクされて
いる。
「新聞屋に」引き続く文節は「言った」が考えられ、
子ポインタでリンクされている。
この様な文節候補テーブルができ上がると、「新聞屋
に言った」「新聞屋に行った」「新聞や似言った」「新
聞ヤニ行った」などと文節候補列を作成することは容易
である。
第8図は文節候補テーブルBCTBLの具体的構成を示し
た図である。
「自立語」は文節候補の自立語が存在する辞書上の先
頭位置へポインタを格納する。
「付属語列」は2バイトで構成され、文節候補の自立
語に引き続く付属語列を特定する領域である。先頭1バ
イトが入力バッファ上の付属語列先頭文字をインデック
スし、次の1バイトが入力バッファ上の付属語列の末尾
文字をインデックスする。例えば、第4図に示す入力バ
ッファのとき、「った」を表現するには第1バイトに1
4、第2バイトに16を設定する。付属語列が存在しない
ときは図中で「φ」で示している。
「弟リンク」はその文節候補と同じ読み位置から始ま
る別の文節候補をリンクする。
「子リンク」はその文節候補に引き続く文節候補をリ
ンクする。
なお、リンクは値0のときに終端することを意味す
る。
例えば、文節候補0(新聞屋に)の弟リンクは50であ
り、文節候補50(新聞屋)をリンクする。文節候補0
(新聞屋に)の子リンクは500であり、文節候補500(言
った)をリンクする。文節候補500の子リンクは0であ
り、そこで入力読みが終端していることが分かる。
第9図はテキストバッファTBUFの構成を示した図であ
る。
テキストバッファは文字の羅列から構成され、各文字
は2バイトで構成される。各文字のMSBは同音語フラグ
であり、0は通常文字、1が同音語を意味する。残りの
15ビットは通常文字のときは文字コードを表現し、同音
語のときは同音語番号を表現する。文字コードは例え
ば、JIS X 0208コードを使用する。同音語番号は第10図
に示す同音語バッファDOBUF上のどの同音語であるかを
示す番号である。
第10図は同音語バッファDOBUFの構成を示した図であ
る。各同音語には同音語番号が付いており、それによっ
て識別される。
各同音語は「読み」「候補総数」「現候補番号」「第
i候補情報」からなる。
「読み」はその同音語の読みを格納する。
「候補総数」はその同音に含まれる候補の総数を格納
する。
「現候補番号」はその同音語の現在表示されている候
補番号が格納される。変換直後初値に第1候補が表示さ
れるから「1」が格納される。
「第i候補情報」は各候補の「表記」「単語アドレ
ス」「適用意味分類」が格納される。
「表記」にはその候補の表記が格納される。
「単語アドレス」「適用意味分類」には、その候補に
適用される意味用例があったとき、意味用例が記述する
意味分類とマッチする単語の存在アドレスと、その意味
分類コードを格納する。通常、その候補に適用される用
例は複数個存在するので、「存在アドレス」「適用意味
分類」には複数個の分類が入る。
例えば、「新聞屋に言った」と変換された場合、候補
「言った」については、「単語アドレス」として「新聞
屋」のアドレス、「適用意味分類」として《人間》が格
納される。もし、「新聞屋に行った」と変換されたとき
は、候補「行った」について、「単語アドレス」として
「新聞屋」、「適用意味分類」として《場所》が格納さ
れる。
第11図は文尤度の計算例を示した図である。本尤度は
文節候補列である文の尤もらしさを表現するものであ
り、値が大きいほど尤もらしいことを意味する。
文尤度は、文節尤度の和、文節間尤度の和、用例尤度
の和を全て加算することにより計算される。
文節尤度は各文節候補の尤もらしさを表現するもので
あり、値が大きいほど尤もらしいことを意味する。文節
尤度はその文節の自立語の辞書DICに記載されている単
語尤度が使用される。
文節間尤度は隣接する文節候補間の接続の尤もらしさ
を表現するものであり、本実施例では値−20で固定とす
る。その文がn文節で構成されていたとすると、文節間
は(n−1)あるので、文節間尤度の和は必ず−20(n
−1)となる。
用例尤度は各文節間に適用されている、用例の一つ一
つについて文尤度に加算される。用例尤度は個別用例の
場合と意味用例の場合で計算式が異なる。個別用例の場
合、各用例に記述されている優先度の4倍から、その用
例を適用する際に飛び越す文節の数の2倍を減じたもの
が用例尤度となる。意味用例の場合、各用例に記述され
ている優先度の4倍に意味分類の優先度を乗じ5を除し
たものから、その用例を適用する際に飛び越す文節の数
の2倍を減じたものが用例尤度となる。
第11図によると、「新聞屋に/行った」の文尤度は−
8.2であり、「新聞屋に/言った」の文尤度は−6.6であ
るので、文尤度の値の大きい例2の「新聞屋に言った」
が第1位に変換されることが分かる。
この様に正しく変換される理由は、例1では「新聞
屋」が解釈される意味分類《場所》の優先度が3である
のに対し、例2で「新聞屋」が解釈される意味分類《人
間》の優先度は4であり、「新聞屋」を《人間》と解釈
する文の方が有利に変換されるからである。
なお、《人間》と《場所》の優先度を逆転させれば、
第1候補と第2候補が逆の順に変換されることになる。
上述の実施例の動作をフローに従って説明する。
第12図はキー入力を取り込み、処理を行なう部分のフ
ローチャートである。
ステップ12−1はキーボードからのデータを取り込む
処理である。ステップ12−2で取り込まれたキーの種別
を判定し、各キーの処理ルーチンに分岐する。
変換キーであったときはステップ12−3に分岐し、ス
テップ12−3において第13図に詳述するように仮名漢字
変換の変換処理が行なわれる。次候補キーであったとき
はステップ12−4において第18図に詳述する次候補処理
を行なう。選択キーであったときはステップ12−5にお
いて第19図に詳述する選択処理を行なう。その他のキー
のときはステップ12−6に分岐し、挿入、削除等の通常
の文字処理装置において行なわれるその他の処理が行な
われる。その後ステップ12−1に分岐する。
第13図はステップ12−3の「変換処理」を詳細化した
フローチャートである。
ステップ13−1において、第14図に詳述する文節候補
作成処理を行ない、文節候補テーブルBCTBLを作成す
る。
ステップ13−2において、第15図に詳述する第1候補
決定処理を行なう。
ステップ13−3において、決定された第1候補に基づ
いて変換結果を作成し、出力する。
第14図はステップ13−1の「文節候補作成処理」を詳
細化したフローチャートである。
ステップ14−1において、入力バッファインデックス
i、文節候補テーブルインデックスjを0に初期設定す
る。
ステップ14−2においてiの示す入力バッファ中の読
みに基づき、辞書をサーチし、単語候補を求める。
ステップ14−3において、見つかった単語候補に対し
て接続する付属語列を解析する形態素解析処理を行な
う。この結果、文節効果が得られる。
ステップ14−4において得られた文節候補を文節候補
テーブルに格納する。格納する時はj+1番目のエント
リーに格納する。また、必要な情報を設定する。例え
ば、この文節候補を子、あるいは弟とする文節候補につ
いては、子リンク、弟リンクを設定する。格納後jの値
をカウントアップする。
ステップ14−5において文節候補テーブルからターミ
ネートしていない文節候補、すなわち、子リンクがまだ
決まっていない文節候補を見つけその次の読み位置をi
に代入する。
ステップ14−6において、全ての文節候補の子リンク
が決定しているかどうか判定し、決定していないものが
あればステップ14−2に分岐する。そうでなければリタ
ーンする。
第15図はステップ13−2の「第1候補決定処理」を詳
細化したフローチャートである。
ステップ15−1において、最尤文尤度を処理上許され
る最小値、例えば、−32767に初期設定する。
ステップ15−2において文節候補テーブルより文節候
補列を1つ取り出す。
ステップ15−3において、第16図に詳述するようにそ
の取り出された文節候補列に適用可能な用例を検索し、
用例尤度の和である「用例尤度和」を算出する。
ステップ15−4において、文節候補列の文尤度を第11
図に示す様に算出する。
ステップ15−5において、算出された文尤度が最尤文
尤度より尤もらしいか、具体的には大きいかを判定し、
大きいときはステップ15−6において最尤文尤度を算出
された文尤度に更新する。また、ステップ15−7におい
て現在の文節候補列を最尤文尤度に対応した文節候補列
として記憶する。
ステップ15−8において文節候補テーブルから別の文
節候補列が取り出せるかどうかを判定し、取り出せると
きはステップ15−2に分岐する。そうでないときはリタ
ーンする。
これにより、最尤文尤度を算出するもとになった文節
候補列が第1候補として決定される。
第16図はステップ15−3の「用例尤度和の算出」を詳
細化したフローチャートである。
ステップ16−1において、用例尤度和をまず0に初期
設定する。
ステップ16−2において、文節候補列から1文節を着
目文節として取り出す。以下の処理ではこの着目文節に
関係する用例の尤度を求めることになる。
ステップ16−3において最尤用例尤度を0に初期設定
する。
ステップ16−4において、着目文節とペアになる文節
を文節候補列から取り出す。
ステップ16−5において、着目文節のペア文節を取り
出すことができなかったときは、それ以上の着目文節の
処理を諦め、ステップ16−8に分岐する。
ステップ16−6において、第17図に詳述するように、
着目文節とペア文節の間の用例が適用されているかどう
かを調べ、その適用状況に応じて用例尤度を設定する。
ステップ16−7において、求まった用例尤度が最尤用
例尤度より尤もらしい(すなわち大きいか)かどうかを
調べ、尤もらしければ(すなわち大きければ)、用例尤
度の値を最尤用例尤度に代入する。その後ステップ16−
4に分岐し、別のペアについて用例尤度を求める。
ステップ16−8において、着目文節の処理が終ったの
で、次の着目文節の処理に移るが、未処理の文節が残っ
ているかどうか判定する。残っていないときはそのまま
リターンするが、残っているときはステップ16−9に分
岐し、前回求まった最尤用例尤度を用例尤度和に加算す
る。その後、ステップ16−2に分岐し、次の着目文節を
取り出す。
第17図はステップ16−6「用例尤度の値設定」を詳細
化したフローチャートである。
ステップ17−1において、着目文節とペア文節の2文
節間に適用される用例があるかどうか、あるとすれば個
別用例か意味用例か、を判断する。
適用用例がないときはステップ17−2に分岐し、用例
尤度に0を代入し、リターンする。
個別用例が適用されるときはステップ17−3分岐し、
用例尤度としてその用例の優先度に4を乗じたものを代
入する。その後ステップ17−5に分岐する。
意味用例が適用されるときは、ステップ17−4に分岐
し、用例尤度としてその用例の優先度に4を乗じ、更に
意味分類の優先度を乗じて5で除したものを代入する。
その後ステップ17−5に分岐する。
ステップ17−5において2文節間の距離、すなわち、
飛び越す文節の数を求め、その値に2を乗じて用例尤度
から減算する。もし、隣接する2文節であれば、飛び越
す文節は0であるので、用例尤度から0を減じることに
なる。
ステップ17−6において上記計算された用例尤度の値
が負になっていないかどうか判定し、負のときはステッ
プ17−7において0になるように補正し、リターンす
る。負でないときは値をいじらずにそのままリターンす
る。
第18図はステップ12−4の「次候補処理」を詳細化し
たフローチャートである。
ステップ18−1において、次候補を見るべき同音語の
同音語番号をテキストバッファTBUFより求める。
ステップ18−2において、同音語番号から同音語バッ
ファの位置を求めて、現候補番号をカウントアップす
る。
ステップ18−3において、候補一覧を表示する。
第19図はステップ12−5の「選択処理」を詳細化した
フローチャートである。
ステップ19−1において、選択すべき同音語の同音語
番号をテキストバッファTBUFより求める。
ステップ19−2において、同音語番号から同音語バッ
ファの位置を求めて、現候補番号の示す候補情報から表
記を取り出し、テキストバッファTBUFに確定文字として
設定する。
ステップ19−3において、同様に、現候補番号の示す
候補情報から単語アドレス、適用意味分類を求め、その
示された単語の意味分類の優先度をカウントアップす
る。
ステップ19−4において、同様に、第1候補の示す候
補情報から単語アドレス、適用意味分類を求め、その示
された単語の意味分類の優先度をカウントダウンする。
[他の実施例] 以上の説明において、用例辞書は共起する2単語(あ
るいは分類)のペアであるとして説明したが、3つ組あ
るいは更に一般的にn個組であっても同様に処理するこ
とができる。
また、尤度の計算は単に例を示しただけであり、用例
に付与された優先度を尤度計算の過程で考慮する様に構
成すれば、別の計算方法であっても特に本発明の趣旨を
損なうものではない。
また、意味分類の学習の仕組みは各単語に記述された
意味分類の優先度を直接操作するように構成している。
しかし、この方式以外に、単語の各意味分類に対応した
学習ビットを持ち、学習ビットを操作するように処理し
ても、特に本発明の趣旨を損なうものではない。
[発明の効果] 以上説明したように、本発明によれば、表記の候補中
の単語の組み合わせに該当する用例がある場合には、個
別用例では、個別用例の優先度に基づいて、意味用例で
は、意味用例の優先度を、その用例に意味分類が該当す
る単語の意味分類の優先度を用いた演算により加工し
て、単語の組み合わせの優先度を決定し、この単語の組
み合わせの優先度に基づいて、表記候補の優先度を決定
するようにしたので、同一の単語を異なる意味分類と見
る複数の意味用例、あるいは個別用例と意味用例に該当
する単語の組み合わせを含んだ表記の候補が複数存在す
る場合にも、より適切な候補へ優先的に変換を行うこと
ができるという効果がある。
また、意味分類の優先度情報を学習により変更するこ
とができるので、単語を特殊な意味に使用するオペレー
タにとっても、自分の好みの変換に改良することができ
る。
これにより変換率の高い、快適な文字処理装置を実現
することができる。
【図面の簡単な説明】
第1図は本発明の全体構成のブロック図、 第2図は本発明における仮名漢字変換の変換例を示した
図、 第3図は本発明における用例の優先度の学習効果を示し
た図、 第4図は本発明における入力バッファIBUFと出力バッフ
ァOBUFの構成を示した図、 第5図は本発明における仮名漢字変換用辞書DICの構成
を示した図、 第6図は本発明における用例辞書YDICの構成を示した
図、 第7図は本発明における文節候補テーブルBCTBLの記憶
内容を概念的に示した図、 第8図は本発明における文節候補テーブルBCTBLの構成
を示した図、 第9図は本発明におけるテキストバッファTBUFの構成を
示した図、 第10図は本発明における同音語バッファDOBUFの構成を
示した図、 第11図は本発明における尤度計算の方式を示した図、 第12図〜第19図は本発明文字処理装置の動作を示すフロ
ーチャート。 DISK……外部記憶部 CPU……マイクロプロセッサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ IBUF……入力バッファ OBUF……出力バッファ DIC……仮名漢字変換用辞書 YDIC……用例辞書 BCTBL……文節候補テーブル TBUF……テキストバッファ DOBUF……同音語バッファ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 池田 和世 東京都大田区下丸子3丁目30番2号 キ ヤノン株式会社内 (56)参考文献 特開 昭61−40672(JP,A) 特開 平1−228058(JP,A)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】仮名文字列を入力するための入力手段と、 単語の読みと、表記及び該単語の意味分類ごとの優先度
    とを対応づけて記憶した単語辞書手段と、 単語と、該単語と併用される特定の単語とを対応づけて
    個別用例とし、単語と、該単語と併用される単語の意味
    分類とを対応づけて意味用例として、各用例に用例の優
    先度を付して記憶する用例辞書手段と、 前記単語辞書手段を参照して、前記入力手段より入力さ
    れた仮名文字列を読みとする表記の候補を作成する候補
    作成手段と、 前記候補作成手段により作成された同じ読みに対する表
    記の候補に含まれる単語の組み合わせに関して、前記用
    例辞書手段に、該組み合わせが該当する個別用例がある
    場合には、該個別用例の前記用例辞書手段に記憶された
    優先度に基づいて、前記組み合わせの優先度を決定し、
    前記用例辞書手段に、前記組み合わせの一方の単語と他
    方の単語の意味分類とが該当する意味用例がある場合に
    は、該意味用例の前記用例辞書手段に記憶された優先度
    を、前記他方の単語の該当する意味用例における意味分
    類の前記単語辞書手段に記憶された優先度を用いた演算
    により加工して、前記組み合わせの優先度を決定する優
    先度決定手段と、 該優先度決定手段によって決定された前記組み合わせの
    優先度に基づいて、前記候補作成手段により作成された
    表記候補の優先度を決定する候補優先度決定手段と、 該候補優先度決定手段によって表記候補の優先度に応じ
    て、該表記候補を表示する候補表示手段とを有すること
    を特徴とする文字処理装置。
  2. 【請求項2】前記候補表示手段により表示される候補の
    1つを選択する選択手段と、 該選択手段により、前記候補表示手段が最優先に表示し
    た候補以外の候補を選択したときに、当該選択された候
    補または前記最優先に表示した候補に係わる意味用例が
    あった場合に、該意味用例に意味分類が該当する単語に
    関して、前記単語辞書手段に記憶された該意味分類の優
    先度を更新する優先度更新手段とを有することを特徴と
    する請求項1記載の文字処理装置。
JP1309997A 1989-11-28 1989-11-28 文字処理装置 Expired - Fee Related JP2698458B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1309997A JP2698458B2 (ja) 1989-11-28 1989-11-28 文字処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1309997A JP2698458B2 (ja) 1989-11-28 1989-11-28 文字処理装置

Publications (2)

Publication Number Publication Date
JPH03167657A JPH03167657A (ja) 1991-07-19
JP2698458B2 true JP2698458B2 (ja) 1998-01-19

Family

ID=17999900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1309997A Expired - Fee Related JP2698458B2 (ja) 1989-11-28 1989-11-28 文字処理装置

Country Status (1)

Country Link
JP (1) JP2698458B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 多品詞解消処理方式
JPH01228058A (ja) * 1988-03-08 1989-09-12 Ricoh Co Ltd かな漢字変換装置

Also Published As

Publication number Publication date
JPH03167657A (ja) 1991-07-19

Similar Documents

Publication Publication Date Title
US7403888B1 (en) Language input user interface
US5214583A (en) Machine language translation system which produces consistent translated words
JP2698458B2 (ja) 文字処理装置
JP3236190B2 (ja) 文字処理装置及びその方法
JPH0640328B2 (ja) 文字処理装置
JPH08185396A (ja) 中国語漢字検索方式
JP2675912B2 (ja) 文字処理装置
JP3278148B2 (ja) 文字処理装置及びその方法
JP2899087B2 (ja) 文字処理装置
JP2798931B2 (ja) 中国語の語音区切方式および語音漢字変換方式
JP2714239B2 (ja) 文字処理装置
JPH0638260B2 (ja) 文字処理装置及びその方法
JPH01204174A (ja) 文字処理装置
JPS59186030A (ja) カナ漢字変換処理装置
JPH03116360A (ja) 文字処理装置及びその方法
JPH03116361A (ja) 文字処理装置
JPH01214966A (ja) 文字処理装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH0728805A (ja) 文字処理装置及びその方法
JPH0619771B2 (ja) 文字処理装置
JPS58101326A (ja) カナ漢字変換処理装置
JPH0232460A (ja) 文書処理装置
JPH0623974B2 (ja) 文字処理装置
JPS6278673A (ja) 仮名漢字変換装置
JPH0442347A (ja) 文字処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees