JP2714238B2 - 文字処理装置 - Google Patents

文字処理装置

Info

Publication number
JP2714238B2
JP2714238B2 JP2229671A JP22967190A JP2714238B2 JP 2714238 B2 JP2714238 B2 JP 2714238B2 JP 2229671 A JP2229671 A JP 2229671A JP 22967190 A JP22967190 A JP 22967190A JP 2714238 B2 JP2714238 B2 JP 2714238B2
Authority
JP
Japan
Prior art keywords
candidate
word
learning
speech
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2229671A
Other languages
English (en)
Other versions
JPH04111042A (ja
Inventor
英一朗 戸島
和世 池田
雄二 小林
大記 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2229671A priority Critical patent/JP2714238B2/ja
Publication of JPH04111042A publication Critical patent/JPH04111042A/ja
Application granted granted Critical
Publication of JP2714238B2 publication Critical patent/JP2714238B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は仮名漢字変換により漢字仮名混り文を入力す
る文字処理装置に関する。
[従来の技術] 現在、日本ワードプロセッサなどの文字処理装置は漢
字仮名混り文の入力を仮名漢字変換を使って行なうこと
が一般的である。
仮名漢字変換は辞書を参照することにより、入力され
た読み列を漢字に変換するものである。辞書においては
各単語に対して名詞、サ変名詞、副詞、形容詞、形容動
詞等の品詞情報が記述されており、仮名漢字変換は読み
列を解析して可能な文節候補を作成し、それらを組み合
わせて変換候補を決定し、尤もらしい順に提示する。そ
して、提示された変換候補の中からオペレータが望む候
補を選択する。
例えば、読み列「きかいたいそうはきかいである」に
対しては「機械」「器械」「奇怪」「体操は」「機械で
ある」「器械である」「奇怪である」「帰化」「板」
「破棄」「下位である」「貴」「解体」「走破」「体
操」「大層」などの文節候補が作成され、これらを組み
合わせた「機械体操は機械である」「器械体操は奇怪で
ある」「帰化板位相破棄下位である」などが変換候補と
して出力表示される。オペレータはこのように提示され
た変換候補の中から自分の望む「器械体操は奇怪であ
る」を選択確定することになる。
ところで、「きかいたいそうはきかいである」と入力
する度に毎回「器械体操は奇怪である」を選択させるの
では操作が煩雑に過ぎるので、一度選択操作を行なうと
次回からはその通りに変換される学習機能というものが
提供されるのが一般的である。従来、学習機能の実現の
ために、短期学習、長期学習という方式が提案されてい
る。
短期学習は各単語に学習フラグを1ビット用意し、単
語が選択されたときに学習フラグをONし、仮名漢字変換
時には学習フラグがONになっている単語を優先的に変換
しようというものである。
長期学習は、各単語の学習情報を複数ビット用意し、
単語が選択されたときに学習レベルを1増加させ、仮名
漢字変換時には学習されている単語は学習情報に応じて
優先的に変換しようというものである。
短期学習においては、変換候補の中の2つの単語を交
互に使用した場合、両方の単語の学習フラグがONになっ
てしまう。その結果、片方の単語だけが常に第1位に変
換され、他方の単語については学習効果が得られなくな
るので、ある単語の学習フラグをONすると同時に対立候
補(選択単語よりも高い優先度で変換された候補)の学
習フラグをOFFするという処理も一般に行なわれてい
る。
同様に長期学習においても、対立候補の学習レベルが
最高レベルに達してしまうと、選択単語の学習レベルを
上げる代わりに、対立候補の学習レベルを下げるという
処理が一般に行なわれている。
また、このような短期学習、長期学習を併用すること
で、欠点を補いあう方式も一般に行なわれている。
[発明が解決しようとしている課題] ところが、上述の長期学習方式では、各単語につき複
数のビット(最低2ビット)が必要であり、メモリが多
量に必要であるという欠点がある。更に、一回の選択で
学習レベルは1段階しか上がらないので、何回も選択し
なければ学習効果が現われないという欠点もある。これ
に対し、短期学習はメモリ的には各単語に対して1ビッ
トで済むが、対立候補を交互に使用するような場合、
(例えば、仕様と仕様を交互に使用する場合)、一方を
選択する度に他方の学習効果が消えてしまうことになる
という欠点がある。また、長期学習、短期学習を併用す
る方式は、長期学習のみの場合以上にメモリが必要(1
単語につき長期学習の2ビットと短期学習の1ビットで
合計3ビットが最低必要)という欠点がある。
[課題を解決するための手段(及び作用)] 本発明によれば、文字処理装置に、読みを入力する入
力手段と、各単語につき、単語の読みと、表記と、品詞
と、3段階以上のレベルを有する学習レベルとを対応づ
けて記憶する記憶手段と、該記憶手段を参照し、前記入
力手段より入力された読みを持つ同音の単語の中から、
品詞の優先関係において優先すべき品詞の単語及び学習
レベルの高い単語を優先させて、第1候補の単語を決定
し、当該第1候補の単語の表記を表示する第1候補表示
手段と、前記第1候補より下位の候補の表記を表示する
次候補表示手段と、該次候補表示手段または前記第1候
補表示手段により表記が表示された候補より1つの候補
を選択する選択手段と、該選択手段により選択された単
語の学習レベルを向上させる学習手段と、前記優先関係
に基づいて、前記選択された単語の品詞と、当該選択さ
れた単語より上位の候補の各単語の品詞とのいずれが優
先されるかを判別する判別手段と、該判別手段による判
別の結果、前記上位の候補の各々につき、前記選択され
た単語の品詞より当接上位の候補の単語の品詞が優先さ
れると判別された場合は、当該上位の候補の単語の学習
レベルを低下させ、当該上位の候補の単語の品詞より前
記選択された単語の品詞が優先されると判別された場合
は、当該上位の候補の単語の学習レベルを不変とする抑
制手段とを具えることにより、選択された候補の学習レ
ベルを向上させるとともに、それ以外の候補のうち、学
習レベルを低下させる必要のある候補の学習レベルを低
下させ、学習レベルを低下させる必要のない候補の学習
レベルを不変とし、選択された候補以外の候補の学習レ
ベルを不必要に変更することを防止する。
[実施例] 以下図面を参照しながら本発明を詳細に説明する。
第1図は本発明の全体構成の一例である。
図示の構成において、CPUは、マイクロプロセッサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。
アドレスバスABはマイクロプロセッサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセッサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。
つぎにROMは、読出し専用の固定メモリであり、第13
図〜第18図につき後述するマイクロプロセッサCPUによ
る制御の手順を記憶させておく。
また、RAMは、1ワード16ビットの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。IBUFはキー入力された
キーデータを記憶する入力バッファであり、OBUFは仮名
漢字変換された結果を一時的に記憶する出力バッファで
ある。DICは仮名漢字変換を行なうための辞書である。B
CTBLは変換途中の文節候補を記憶する文節候補テーブル
である。CTBL1は文節とそれに後続する付属語間の接続
規則を記憶した文節接続マトリックスである。CTBL2は
文節とそれに後続する接尾語間の接続規則を記憶した文
節接続マトリックスである。CTBL3は接頭語とそれに後
続する文節間の接続規則を記憶した文節接続マトリック
スである。TBUFはテキストバッファであり、入力編集中
のテキストデータが記憶される。DOBUFは同音語バッフ
ァであり、テキストバッファTBUFに記憶される文字に同
音語候補が存在するときはその候補が記憶される。
KBはキーボードであって、アルファベットキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
変換キー、次候補キー、選択キー等の本文字処理装置に
対する各種機能を指示するための各種のファンクション
キーを備えている。
DISKは文書データを記憶するための外部記憶部であ
り、テキストバッファTBUF上に作成された文書の保管を
行ない、保管された文書はキーボードの指示により、必
要な時呼び出される。
CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対応する表
示装置CRT上の位置にカーソルを表示する。
DBUFは表示用バッファメモリで、表示すべきデータの
パターンを蓄える。テキストの内容を表示するときはテ
キストバッファTBUFの内容に応じて表示パターンがDBUF
に作成されることにより、表示されることになる。
CRTCはカーソルレジスタCR及びバッファDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。
またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドット構成の表示パターンおよび
カーソルの表示をCRTコントローラで制御する。
さらに、CGはキャラクタジェネレータであって、表示
装置CRTに表示する文字、記号のパターンを記憶するも
のである。
かかる各構成要素からなる本発明文字処理装置におい
ては、キーボードKBからの各種の入力に応じて作動する
ものであって、キーボードKBからの入力が供給される
と、まず、インタラプト信号がマイクロプロセッサCPU
に送られ、そのマイクロプロセッサCPUがROM内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って各種の制御が行なわれる。
第2図は短期学習のみを行なう従来の文字処理装置に
よる変換選択操作の例を示した図である。2−1はまず
初期画面を示したものである。画面上部はテキスト及び
入力中の読みが表示される画面であり、下部は候補一覧
が表示される画面である。カーソルはアンダラインで示
される。2−2は読み列「きかい」を入力した時の画面
を示している。入力読み列はアンダラインが付いて表示
され、カーソルは入力読み列の次に表示されている。こ
こで変換キーを打鍵すると2−3の画面になり、読み列
「きかい」が「機械」と変換されている。「きかい」に
は「機械」「器械」「奇怪」などの候補があるが、一般
に「機械」の頻度が最も高いので第1候補に変換され
る。オペレータは「器械」という変換を望んだとして、
次候補キーを打鍵すると2−4の画面になる。ここで
「きかい」の変換候補が表示される。第1候補は「機
械」、第2候補は「器械」、第3候補は「奇怪」であ
る。現在の候補は第2候補の「器械」であり、2が反転
表示している。ここで選択キーを打鍵すると、2−5の
画面になる。第2候補の「器械」が確定してテキストデ
ータの中に格納され、同時に「器械」の学習フラグがON
となり、優先度が向上する。次に「きかい」と入力する
と2−6の画面になり、更に変換キーを打鍵すると2−
7の画面になる。「器械」が学習されているので、第1
候補として表示されている。ここで次候補キーを打鍵す
ると2−8の画面になり、「きかい」の第2候補として
標準頻度がもともと高い「機械」、第3候補に「奇怪」
が表示される。ここで「奇怪」を選択すると2−9の画
面となり、「奇怪」が確定されてテキストデータに格納
される。同時に「奇怪」の学習フラグがONとなり、反対
に「器械」の学習フラグはOFFとなる。次にもう一度
「きかい」と入力すると2-10の画面になり、更に変換キ
ーを打鍵すると2-11の画面の様に「奇怪」が第1候補と
して変換される。次候補キーを打鍵すると、2-12の画面
のように、学習されているのは「奇怪」のみであるの
で、第1候補「奇怪」第2候補「機械」第3候補「器
械」と表示される。「器械」は一度選択されたが、「奇
怪」が選択されたときに学習候補が消えてしまって、最
下位に表示される。以上の様に「器械」と「奇怪」を交
互に入力しているかぎり、互いに学習の効果を消しあっ
て、必ず候補一覧から目的の候補を選択する作業が必要
となる。
第3図は本発明に係る文字処理装置による変換選択操
作の例を示した図である。3−1は初期画面である。3
−2は読み列「きかい」を入力した時の画面を示してい
る。ここで変換キーを打鍵すると3−3の画面になり、
読み列「きかい」が「機械」と変換されている。オペレ
ータが次候補キーを打鍵し、3−4の画面のように「き
かい」の変換候補を表示させる。第1候補は「機械」、
第2候補は「器械」、第3候補は「奇怪」である。ここ
で選択キーを打鍵すると、3−5の画面のように第2候
補の「器械」が確定してテキストデータの中に格納され
る。同時に「器械」の学習レベルが最高レベルになり、
優先度が向上する。次に「きかい」と入力すると3−6
の画面になり、更に変換キーを打鍵すると3−7の画面
になる。「器械」の学習レベルが最高なので、第1候補
として表示されている。ここで次候補キーを打鍵すると
3−8の画面になり、「きかい」の第2候補として標準
頻度がもともと高い「機械」、第3候補に「奇怪」が表
示される。ここで「奇怪」を選択すると3−9の画面と
なり、「奇怪」が確定されてテキストデータに格納され
る。同時に今度は「奇怪」の学習レベルが最高レベルと
なり、反対に「器械」の学習フラグは最高レベル−1と
なる。このように対立する候補を選択しても従来装置に
様に学習効果が全く消えるわけではない。次にもう一度
「きかい」と入力すると3-10の画面になり、更に変換キ
ーを打鍵すると3-11の画面の様に「奇怪」が第1候補と
して変換される。次候補キーを打鍵すると、3-12の画面
のように、第1候補に学習レベルが最高の「奇怪」、第
2候補に学習レベルが2番目の「器械」、第3候補に学
習されていない「機械」が表示される。このように「奇
怪」が選択されても「器械」の学習効果が消えるわけで
はないので、「器械」と「奇怪」を交互に入力すると、
候補一覧の先頭付近(1番目と2番目)に両者の候補が
表示されるので、目的の候補を選択する作業が容易とな
る。
第4図は入力バッファIBUF、出力バッファOBUFの構成
を示した図である。
IBUF、OBUFともに同じ構成である。最初の2バイトは
各バッファのサイズ情報であり、バッファに格納されて
いる文字数から1を減じたものを2倍した数値が入る。
入力バッファの末尾にある「//」はそこで変換キーが打
鍵されたことを意味する。各文字は1文字2バイトで構
成され、JIS X 0208コード等で格納される。
第5図は辞書DICの構成を示した図である。「読み」
「表記」「品詞」「標準頻度」「品詞細分類」「学習レ
ベル」のフィールドから構成される。
「読み」には単語の読み、「表記」には単語の表記、
「品詞」には単語の品詞が格納される。
「標準頻度」は頻度情報等のその単語自体の尤もらし
さを示す情報が1〜5の値で格納される。尤度値5は最
も尤もらしいという意味であり、値が小さくなるにつれ
疑わしいと解釈される。尤度値0は全く考えられないと
いうことを意味するので単語尤度の値としては存在しな
い。
「品詞細分類」にはその単語の品詞を更に細分類した
情報が格納される。例えば、接頭語は更に何種類かに細
分類され、品詞フィールドに接頭語と記入した場合には
接頭語の細分類情報を品詞細分類に記述する。接頭語
「逆」に対しては「接頭語23」という細分類コードを割
り振っている。名詞の場合には、「抽象概念」「物品」
「行動」などの細分類情報が格納される。特に細分類情
報が存在しない品詞の場合(例えば、形容動詞)には値
は入らない。
「学習レベル」は学習レベルであり、その単語が学習
の状況を2ビットで示す。学習レベルが0のとき、その
単語は学習されていないことを意味する。学習レベル1
〜3はその単語が学習されていることを意味し、値が大
きいほど優先的に変換されることを意味する。すなわ
ち、学習レベル3の単語が最も優先的に変換されること
になる。初期状態ではすべての単語の学習レベルは0で
ある。
第6図は文節候補テーブルBCTBLの概念を示した図で
ある。文節候補テーブルは入力読みの解析の結果、考え
られる文節候補をバイナリートリーで表現したものであ
る。図中、横線は子ポインタを意味し、縦線は弟ポイン
タを意味する。弟ポインタはある読み位置から始まる他
の文節候補(通常はより短い候補)をリンクし、子ポイ
ンタはその文節に引き続く文節候補をリンクする。
入力読み列「きかいたいそうはきかいである」の先頭
部分は「機械」「器械」「奇怪」「帰化」「貴」などの
解釈が存在し、これらは順に弟ポインタ(縦線)でリン
クされている。
「機械」に引き続く文節は「体操は」が考えられ、子
ポインタでリンクされている。
この様な文節候補テーブルができ上がると、「機械体
操は機械である」「器械体操は奇怪である」「帰化板走
破奇怪であるなどと文節候補列を作成することは容易で
ある。
第7図は文節候補テーブルBCTBLの具体的構成を示し
た図である。
「自立語」は文節候補の自立語が存在する辞書上の先
頭位置へポインタを格納する。
「付属語列」は2バイトで構成され、文節候補の自立
語に引き続く付属語列を特定する領域である。先頭1バ
イトが入力バッファ上の付属語列先頭文字をインデック
スし、次の1バイトが入力バッファ上の付属語列の末尾
文字をインデックスする。例えば、第4図に示す入力バ
ッファのとき、「で」を表現するには第1バイトに22、
第2バイトに22を設定する。付属語列が存在しないとき
は図中で「φ」で示している。
「弟リンク」はその文節候補と同じ読み位置から始ま
る別の文節候補をリンクする。
「子リンク」はその文節候補に引き続く文節候補をリ
ンクする。
なお、リンクは値0のときに終端することを意味す
る。
例えば、文節候補0(機械)の弟リンクは1であり、
文節候補1(器械)をリンクする。文節候補0(機械)
の子リンクは100であり、文節候補100(体操は)をリン
クする。更に文節候補100(体操は)の弟リンクは101で
あり、文節候補101(体操)をリンクする。文節候補101
(体操は)の子リンクは200であり、文節候補200(機械
で)をリンクする。文節候補200(機械で)の子リンク
は300であり、候補300(ある)をリンクする。文節候補
300(ある)の子リンクは0であり、そこで入力読みが
終端していることが分かる。
「自立部タイプ」はその文節の自立部のタイプを記述
する。これは隣接文節間の接続可能性を判定するときに
使用される。例えば、0:名詞、10:副詞、500:付属語
「ある」、などと記述される。
「文節タイプ」はその文節のタイプを記述する。これ
は隣接文節間の接続可能性を判定するときに使用され
る。例えば、0:名詞で終了する文節、7:副助詞「は」で
終了する文節、8:格助詞「で」で終了する文節、9:補助
動詞「ある」で終了する文節、などと記述される。
第8図は文節間の接続可能性を判定する文節接続マト
リックスの構成を示した図である。
第8図の(1)は文節とそれに後続する付属語の接続
可能性を判定するCTBL1である。1は接続可を意味し、
0は接続不可を意味する。例えば、文節タイプ=2の文
節の後に付属語125の文節は後続し得るが、文節タイプ
=3の文節の後に付属語125の文節は後続し得ないこと
がこれで分かる。
(2)は文節とそれに後続する接尾語の接続可能性を
判定するCTBL2である。1は接続可を意味し、0は接続
不可を意味する。例えば、文節タイプ=3の文節の後に
接尾語15の文節は後続し得るが、文節タイプ=2の文節
の後に接尾語15の文節は後続し得ないことがこれで分か
る。
(3)は接頭語とそれに後続する文節の接続可能性を
判定するCTBL3である。1は接続可を意味し、0は接続
不可を意味する。例えば、接頭語23の文節の後に自立部
タイプ=2の文節は後続し得るが、接頭語23の文節の文
節の後に自立部タイプ=3の文節は後続し得ないことが
これで分かる。
第9図はテキストバッファTBUFの構成を示した図であ
る。
テキストバッファは文字の羅列から構成され、各文字
は2バイトで構成される。各文字のMSBは同音語フラグ
であり、0は通常文字、1が同音語を意味する。残りの
15ビットは通常文字のときは文字コードを表現し、同音
語のときは同音語番号を表現する。文字コードは例え
ば、JIS X 0208コードを使用する。同音語番号は第10図
に示す同音語バッファDOBUF上のどの同音語であるかを
示す番号である。
第10図は同音語バッファDOBUFの構成を示した図であ
る。各同音語には同音語番号が付いており、それによっ
て識別される。
各同音語は「読み」「候補総数」「現候補番号」「第
i候補情報」からなる。
「読み」はその同音語の読みを格納する。
「候補総数」はその同音に含まれる候補の総数を格納
する。
「現候補番号」はその同音語の現在表示されている候
補番号が格納される。変換直後初値に第1候補が表示さ
れるから「1」が格納される。
「第i候補情報」は各候補の「表記」「単語アドレ
ス」が格納される。
「表記」にはその候補の表記が格納される。
「単語アドレス」にはその単語候補が辞書DIC上に存
在するアドレスを格納する。
第11図は文尤度の計算例を示した図である。文尤度は
文節候補列である文の尤もらしさを表現するものであ
り、値が大きいほど尤もらしいことを意味する。
文尤度は、文節尤度の和、文節間尤度の和を加算する
ことにより計算される。
文節尤度は各文節候補の尤もらしさを表現するもので
あり、値が大きいほど尤もらしいことを意味する。文節
尤度はその文節の自立語の辞書DICに記載されている標
準頻度が使用される。ただし、学習レベルが0以外のと
きは5+学習レベルが文節尤度となる。
文節間尤度は隣接する文節候補間の接続の尤もらしさ
を表現するものであり、本実施例では後続文節が付属語
のとき0、先行文節が接頭語のとき−10、後続文節が接
尾語のとき−10、その他のとき−20とする。このように
定めることにより、付属語は自立語より優先的に変換さ
れ、接頭語、接尾語は名詞より優先的に変換されること
になる。例えば、その文がn文節で構成されていたと
し、その全てが上記のその他の場合であれば、文節間は
(n−1)あるので、文節間尤度の和は−20(n−1)
となる。
第12図は、第11図の文尤度の計算例を説明した図であ
る。
第12図の(1)は特に学習がされていない場合の「器
械/体操は/奇怪で/ある」の計算例であり、文尤度は
−25である。
(2)は「奇怪」の学習レベルが3(最高レベル)の
ときの「奇怪」の計算例であり、文尤度は8である。
(3)は「器械」の学習レベルが2のときの「器械」
の計算例であり、文尤度は7である。
(4)は「機械」の学習レベルが0(学習されていな
い)のときの「機械」の計算例であり、文尤度は5であ
る。
すなわち、各候補は学習がない状態では、標準頻度の
順に表示され、学習されている候補があるときは学習レ
ベルの高い物から順番に表示されることが分かる。
上述の実施例の動作を第13図〜第18図のフローチャー
トに従って説明する。
第13図はキー入力を取り込み、処理を行なう部分のフ
ローチャートである。
ステップ13-1はキーボードからのデータを取り込む処
理である。ステップ13-2で取り込まれたキーの種別を判
定し、各キーの処理ルーチンに分岐する。
変換キーであったときはステップ13-3に分岐し、ステ
ップ13-3において第14図に詳述するように仮名漢字変換
の変換処理が行なわれる。次候補キーであったときはス
テップ13-4において第17図に詳述する次候補処理を行な
う。選択キーであったときはステップ13-5において第18
図に詳述する選択処理を行なう。その他のキーのときは
ステップ13-6に分岐し、挿入、削除等の通常の文字処理
装置において行なわれるその他の処理が行なわれる。そ
の後ステップ13-1にループする。
第14図はステップ13-3の「変換処理」を詳細化したフ
ローチャートである。
ステップ14-1において、第15図に詳述する文節候補作
成処理を行ない、文節候補テーブルBCTBLを作成する。
ステップ14-2において、第16図に詳述する第1候補決
定処理を行なう。
ステップ14-3において、決定された第1候補に基づい
て同音語バッファ及び変換結果を作成し、出力する。
第15図はステップ14-1の「文節候補作成処理」を詳細
化したフローチャートである。
ステップ15-1において、入力バッファインデックス
i、文節候補テーブルインデックスjを0に初期設定す
る。
ステップ15-2においてiの示す入力バッファ中の読み
に基づき、辞書をサーチし、単語候補を求める。
ステップ15-3において、見つかった単語候補に対して
接続する付属語列を解析する形態素解析処理を行なう。
この結果、文節候補が得られる。
ステップ15-4において、形態素解析の結果に基づき、
その文節の自立部タイプ、文節タイプを決定する。
ステップ15-5において、文節接続マトリックスを参照
し、隣接文節の接続可能性を調べる。隣接文節と接続し
得る文節のみを残す。また、文節候補テーブル上での子
リンク、弟リンクを決定する。
ステップ15-6において得られた文節候補を文節候補テ
ーブルに格納する。格納する時はj+1番目のエントリ
ーに格納する。また、必要な情報を設定する。例えば、
この文節候補を子、あるいは弟とする文節候補について
は、子リンク、弟リンクを設定する。格納後jの値をカ
ウントアップする。
ステップ15-7において文節候補テーブルからターミネ
ートしていない文節候補、すなわち、子リンクがまだ決
まっていない文節候補を見つけその次の読み位置をiに
代入する。
ステップ15-8において、全ての文節候補の子リンクが
決定しているかどうか判定し、決定していないものがあ
ればステップ15-2に分岐する。そうでなければリターン
する。
第16図はステップ14-2の「第1候補決定処理」を詳細
化したフローチャートである。
ステップ16-1において、最尤文尤度を処理上許される
最小値、例えば、−32767に初期設定する。
ステップ16-2において文節候補テーブルより文節候補
列を1つ取り出す。
ステップ16-3において、文節候補列の文尤度を第11図
に示す様に算出する。
ステップ16-4において、算出された文尤度が最尤文尤
度より尤もらしいか、具体的には大きいかを判定し、大
きいときはステップ16-5において最尤文尤度を算出され
た文尤度に更新する。また、ステップ16-6において現在
の文節候補列を最尤文尤度に対応した文節候補列として
記憶する。
ステップ16-7において文節候補テーブルから別の文節
候補列が取り出せるかどうかを判定し、取り出せるとき
はステップ16-2に分岐する。そうでないときはリターン
する。
これにより、最尤文尤度を算出するもとになった文節
候補列が第1候補として決定される。
第17図はステップ13-4の「次候補処理」を詳細化した
フローチャートである。
ステップ17-1において、次候補を見るべき同音語の同
音語番号をテキストバッファTBUFより求める。
ステップ17-2において、同音語番号から同音語バッフ
ァの位置を求めて、現候補番号をカウントアップする。
ステップ17-3において、候補一覧を表示する。
第18図はステップ13-5の「選択処理」を詳細化したフ
ローチャートである。
ステップ18-1において、選択すべき同音語の同音語番
号をテキストバッファTBUFより求める。
ステップ18-2において、同音語番号から同音語バッフ
ァの位置を求めて、現候補番号の示す候補情報から表記
を取り出し、テキストバッファTBUFに確定文字として設
定する。
ステップ18-3において、同様に、現候補番号の示す候
補情報から単語アドレスを求め、その示された単語の学
習レベルを最高レベル(=3)に変更する。
ステップ18-4において、選択された候補と対立する候
補、すなわち、候補一覧上で選択候補よりも上位に表示
される候補を1つずつ取り出す。
ステップ18-5において、全ての対立候補について処理
が終り、これ以上取り出せなくなれば、リターンする。
ステップ18-6において、選択候補及び対立候補の属す
るカテゴリーすなわち品詞を調べ、対立候補のカテゴリ
ーが選択候補のカテゴリーよりも優先度の低いカテゴリ
ーであれば、対立候補の学習レベルを操作せずにそのま
まステップ18-4にループする。例えば、選択候補が接頭
語で対立候補が名詞のときはステップ18-4にループす
る。また、選択候補が付属語で対立候補が名詞、動詞な
どの自立語であればステップ18-4にループする。
ステップ18-7において、対立候補のカテゴリーの優先
度と選択候補のカテゴリーの優先度が等しいかどうか判
定し、等しくないとき(すなわち、対立候補のカテゴリ
ーが選択候補のカテゴリーよりも優先度の高いカテゴリ
ーであれば)、ステップ18-10に分岐し、対立候補の学
習レベルを最低レベル(=0)に変更し、ステップ18-4
にループする。
対立候補のカテゴリーの優先度と選択候補のカテゴリ
ーの優先度が等しいときは、ステップ18-8において、対
立候補の学習レベルが最高レベル(=3)であるかどう
か判定し、最高レベルでなければ、ステップ18-4にルー
プする。最高レベルであれば、ステップ18-9において、
対立候補の学習レベルを最高レベル−1(=2)に変更
する。その後、ステップ18-4にループする。
[他の実施例] 本発明の本質は、単語選択の学習の際に対立候補の学
習レベルの補正量を最小限にとどめようというものであ
る。従って、本発明は学習データの実際の格納形式とは
無関係である。
例えば、以上の説明においては学習データは辞書の各
単語に付随する2ビットの形で格納されているが、辞書
の中に学習情報を含めずに第19図に示すように学習デー
タだけを独立して格納することも出来る。このとき、学
習された単語は、その単語の存在する辞書上のアドレス
の形でリスト形式で記憶される。リストの上位にあるも
のの学習レベルが高く、リストの下位にあるものの学習
レベルが低いと解釈される。第19図ではリストには3単
語分のみ格納され、もっとも上の単語1の学習レベルが
3、単語2の学習レベルが2、単語3の学習レベルが1
と解釈される。そして、リストに乗っていない単語の学
習レベルはすべて0と解釈される。この場合、単語の学
習が行なわれると、選択単語が最上位に格納され、それ
までリストに格納されていた単語はすべて1単語ずつ下
位にシフトするように処理が構成される。
[発明の効果] 以上説明したように、本発明によれば、選択された候
補の学習レベルを向上させるとともに、それ以外の候補
のうち、学習レベルを低下させる必要のある候補の学習
レベルを低下させ、学習レベルを低下させる必要のない
候補の学習レベルを不変とするので、選択された候補以
外の候補の学習レベルを不必要に変更することを防止で
き、ある単語に一度設定された学習レベルによる学習効
果が、不必要に消えてしまうことが防止できるという効
果がある。
これにより、ある単語を選択して学習レベルを向上さ
せる際に、それ以前に選択された他の単語の向上された
学習レベルを不必要に変更することを防止でき、各単語
に一度設定された学習レベルによる学習効果をできるだ
け保存して、変換率の高い文字処理装置を実現すること
ができる。
【図面の簡単な説明】
第1図は本発明に係る文字処理装置の全体構成のブロッ
ク図、 第2図は従来装置における変換・学習の操作例を示した
図、 第3図は本発明における変換・学習の操作例を示した
図、 第4図は本発明における入力バッファIBUFと出力バッフ
ァOBUFの構成を示した図、 第5図は本発明における仮名漢字変換用辞書DICの構成
を示した図、 第6図は本発明における文節候補テーブルBCTBLの記憶
内容を概念的に示した図、 第7図は本発明における文節候補テーブルBCTBLの構成
を示した図、 第8図は本発明における文節接続マトリックスCTBL1、C
TBL2、CTBL3の構成を示した図、 第9図は本発明におけるテキストバッファTBUFの構成を
示した図、 第10図は本発明における同音語バッファDOBUFの構成を
示した図、 第11図は本発明における尤度計算の方式を示した図、 第12図は本発明における尤度計算の例を示した図、 第13図〜第18図は本発明文字処理装置の動作を示すフロ
ーチャート、 第19図は学習データの他の実現方法を示した図。 DISK……外部記憶部 CPU……マイクロプロセッサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ IBUF……入力バッファ OBUF……出力バッファ DIC……仮名漢字変換用辞書 BCTBL……文節候補テーブル CBUF1……文節接続マトリックス1(文節×付属語用) CBUF2……テキストバッファ2(文節×接尾語用) CBUF3……テキストバッファ3(接頭語×文節用) TBUF……テキストバッファ DOBUF……同音語バッファ

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】読みを入力する入力手段と、 各単語につき、単語の読みと、表記と、品詞と、3段階
    以上のレベルを有する学習レベルとを対応づけて記憶す
    る記憶手段と、 該記憶手段を参照し、前記入力手段より入力された読み
    を持つ同音の単語の中から、品詞の優先関係において優
    先すべき品詞の単語及び学習レベルの高い単語を優先さ
    せて、第1候補の単語を決定し、当該第1候補の単語の
    表記を表示する第1候補表示手段と、 前記第1候補より下位の候補の表記を表示する次候補表
    示手段と、 該次候補表示手段または前記第1候補表示手段により表
    記が表示された候補より1つの候補を選択する選択手段
    と、 該選択手段により選択された単語の学習レベルを向上さ
    せる学習手段と、 前記優先関係に基づいて、前記選択された単語の品詞
    と、当該選択された単語より上位の候補の各単語の品詞
    とのいずれが優先されるかを判別する判別手段と、 該判別手段による判別の結果、前記上位の候補の各々に
    つき、前記選択された単語の品詞より当該上位の候補の
    単語の品詞が優先されると判別された場合は、当該上位
    の候補の単語の学習レベルを低下させ、当該上位の候補
    の単語の品詞より前記選択された単語の品詞が優先され
    ると判別された場合は、当該上位の候補の単語の学習レ
    ベルを不変とする制御手段とを具備したことを特徴とす
    る文字処理装置。
  2. 【請求項2】前記学習手段は、選択された単語の学習レ
    ベルを最高値に設定することを特徴とする請求項1に記
    載の文字処理装置。
  3. 【請求項3】前記判別手段による判別の結果、前記上位
    の候補の各々につき、前記選択された単語の品詞と当該
    上位の候補の単語の品詞とが前記優先関係において同等
    と判別された場合は、当該上位の候補の単語の学習レベ
    ルを判定する判定手段と、 該判定手段の判定の結果、当該上位の候補の単語の学習
    レベルが最高値と判定された場合は、当該上位の候補の
    単語の学習レベルの値を低下させる第2の抑制手段とを
    具備したことを特徴とする請求項2に記載の文字処理装
    置。
  4. 【請求項4】前記優先関係において、付属語を自立語よ
    り優先させることを特徴とする請求項1に記載の文字処
    理装置。
  5. 【請求項5】前記優先関係において、接頭語及び接尾語
    を名詞より優先させることを特徴とする請求項1に記載
    の文字処理装置。
JP2229671A 1990-08-30 1990-08-30 文字処理装置 Expired - Fee Related JP2714238B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2229671A JP2714238B2 (ja) 1990-08-30 1990-08-30 文字処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2229671A JP2714238B2 (ja) 1990-08-30 1990-08-30 文字処理装置

Publications (2)

Publication Number Publication Date
JPH04111042A JPH04111042A (ja) 1992-04-13
JP2714238B2 true JP2714238B2 (ja) 1998-02-16

Family

ID=16895857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2229671A Expired - Fee Related JP2714238B2 (ja) 1990-08-30 1990-08-30 文字処理装置

Country Status (1)

Country Link
JP (1) JP2714238B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3308723B2 (ja) * 1994-07-22 2002-07-29 日本電気株式会社 統語解析装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5549771A (en) * 1978-10-02 1980-04-10 Canon Inc Character processing unit
JPS63136252A (ja) * 1986-11-28 1988-06-08 Hitachi Ltd 文書作成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5549771A (en) * 1978-10-02 1980-04-10 Canon Inc Character processing unit
JPS63136252A (ja) * 1986-11-28 1988-06-08 Hitachi Ltd 文書作成装置

Also Published As

Publication number Publication date
JPH04111042A (ja) 1992-04-13

Similar Documents

Publication Publication Date Title
US7403888B1 (en) Language input user interface
JP3579351B2 (ja) 日本語文字用ユーザインターフェースを実現するためのシステムおよび方法
JP2714238B2 (ja) 文字処理装置
JPH05113964A (ja) 電子辞書
JP2675912B2 (ja) 文字処理装置
JP2714239B2 (ja) 文字処理装置
JP2899087B2 (ja) 文字処理装置
JP2786260B2 (ja) かな漢字変換装置
JP2698458B2 (ja) 文字処理装置
JP3847801B2 (ja) 文字処理装置及びその処理方法
JP3278148B2 (ja) 文字処理装置及びその方法
JPH0640328B2 (ja) 文字処理装置
JPH11184854A (ja) 電子辞書
JPH0619770B2 (ja) 文字処理装置
JPH0442350A (ja) 文字処理装置
JPH10187700A (ja) 文書処理装置
JPS59165124A (ja) 日本語ワ−ド・プロセツサ
JPH10187705A (ja) 文書処理方法及びその装置
JPH0421063A (ja) 自然言語処理装置
JPH0442347A (ja) 文字処理装置
JPH0619771B2 (ja) 文字処理装置
JPH0638261B2 (ja) 文字処理装置及びその方法
JPH0638260B2 (ja) 文字処理装置及びその方法
JPH07306856A (ja) 文字処理装置及びその方法
JPH0442349A (ja) 文字処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees