JP3873299B2 - Kana-kanji conversion device and kana-kanji conversion method - Google Patents

Kana-kanji conversion device and kana-kanji conversion method Download PDF

Info

Publication number
JP3873299B2
JP3873299B2 JP18078595A JP18078595A JP3873299B2 JP 3873299 B2 JP3873299 B2 JP 3873299B2 JP 18078595 A JP18078595 A JP 18078595A JP 18078595 A JP18078595 A JP 18078595A JP 3873299 B2 JP3873299 B2 JP 3873299B2
Authority
JP
Japan
Prior art keywords
word
dependency
phrase
kana
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18078595A
Other languages
Japanese (ja)
Other versions
JPH0869463A (en
Inventor
泰男 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP18078595A priority Critical patent/JP3873299B2/en
Publication of JPH0869463A publication Critical patent/JPH0869463A/en
Application granted granted Critical
Publication of JP3873299B2 publication Critical patent/JP3873299B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【産業上の利用分野】
本発明は、仮名漢字変換装置および仮名漢字変換方法に関し、詳しくは単語間の係り受けの情報を、文節分かち書きもしくは単語の漢字候補の選択に利用する仮名漢字変換装置および仮名漢字変換方法に関する。
【0002】
【従来の技術】
従来、キーボードなどから入力された仮名文字列を、所望の仮名漢字混じり文に変換する仮名漢字変換装置が、日本語文の入力装置として、あるいは日本語文の編集装置として、種々提案されている。こうした仮名漢字変換装置としては、使用者が単語や文節の区切り位置をいちいち指定する必要がなく、しかも変換後の文字列は使用者が望んだ表記となるものが望まれている。日本語には、同音異議語や同訓異議語が多数存在することから、誤りなく所望の仮名漢字混じり文を得るためには、最終的には文の意味を解析しなければならないが、意味を解析するためには、少なくとも有機的に関連づけられた数万に上る言葉の知識ベースが必要となり、実現は極めて困難である。
【0003】
そこで、従来の仮名漢字変換装置では、文節分かち書きの処理や、同音異議語の選択における学習処理を工夫し、意味を解析することなく、使用者が望む結果が得られるよう試みている。文節分かち書きの処理としては、2文節を基本単位とし成り立ち得る文節の中で最長の文節が得られる文節を第1候補とする2文節最長一致法や、文節を構成する単語の候補となり得る単語および単語同士の組合わせにコストを付け、この点数が所定の条件を満たす文節を第1候補とする最小コスト法などがある。また、学習処理には、同音異議語の中から直前に使用者が選択した単語を最優先で次回の候補とする同音異議語の学習や、ある単語を含んだ文節の長さとして直前に使用者が指定した長さを最優先とする文節長の学習などが知られている。
【0004】
更に、最近では、単語同士の特定の関係(例えば、「熱いお茶」の「熱い」と「お茶」、あるいは「暑い夏」の「暑い」と「夏」)に着目し、この関係を記憶した辞書を用意することで、一方の単語(例えば「お茶」)が特定されたとき、この単語に関係のある言葉(例えば「熱い」)を第1候補として選択するものも提案されている(例えば特開平3−105664号の「かな漢字変換装置」や特開平4−277861号公報の「かな漢字変換装置」など)。こうした単語間の特定の関係は、「係り受け」あるいは「共起」と呼ばれる。
【0005】
【発明が解決しようとする課題】
しかしながら、これらの仮名漢字変換装置では、一旦文節分かち書きを行なって得られた文節における単語同士の関係を見ているに過ぎないので、文節分かち書きが誤っていれば、せっかく用意した単語間の関係を記憶した辞書も役に立たない。そもそも、単語間の関係としてせいぜい隣接する単語間の関係を見ているに過ぎないので、日本語として最も自然な仮名漢字混じり文を得ることができない場合があった。かといって、むやみに単語間の関係を検討する範囲を広げれば、その組合わせの数は、入力した仮名文字の数の増加に応じて等比級数的に増加するから、仮名漢字変換の完了までに、許容できない長い時間がかかってしまう。
【0006】
また、こうした単語間の関係として、単純に2以上の単語が近接して使用される程度の情報(以下、広い意味で「共起」と呼ぶ)では、日本語における助詞の役割が看過され、正しい変換結果を得ることができない。例えば「記者」と「帰社(する)」が共起関係にあるという情報を記憶しているだけでは、「きしゃがきしゃする」は「記者が帰社する」に正しく変換できても、「きしゃにきしゃする」では、「記者に帰社する」となってしまい正しい変換とならない。そこで、係り受けの情報として、「名詞」+「助詞」+「用言」(例えば「記者」+「が」または「は」+「帰社する」)のように、係り語と受け語の間に許容される付属語(助詞など)の情報を含めて係り受け情報とし、これを記憶する方法が考えられるが、日本語の場合、受動や使役などの表現では、付属語である助詞が変化するため、今度は、「きしゃにきしゃさせる」を正しく変換できないという問題を招致する。とはいえ、受動や使役の場合の係り受けの成立を認めるために、許容する付属語の範囲を広げたのでは、係り受けによる仮名漢字変換の精度が低下してしまう。
【0007】
更に、日本語の場合、「受付」と「受け付け」、あるいは「受付け」のように、同じ言葉であっても異なる表記が許されているものがあるという特徴があり、これらの表記に関して係り受けをすべて認めようとすると、総ての表記の単語を単語辞書に登録するだけでなく、係り受け辞書にも登録しておかねばならないという問題があった。派生的なこれらの表記をすべて係り受けの対象とするために総ての派生表記を登録しておくと、係り受け辞書の容量が極めて大きなものとなってしまうばかりでなく、係り受けの検定に要する時間も増大し、許容できないものとなってしまうことも考えられた。
【0008】
本発明の仮名漢字変換装置および仮名漢字変換方法は、こうした問題を解決し、入力した文字列の分かち書きや漢字候補の優先順位の変更を、使役や受動を勘案した係り受けの関係を利用して行ない、所望の仮名漢字混じり文を得ることを目的としてなされ、次の構成を採った。
【0009】
【課題を解決するための手段および作用】
本発明の仮名漢字変換装置は、
単語辞書を参照して、入力された仮名文字列を文節分かち書きして文節分かち書き候補を作成し、該文節分かち書き候補を用いて仮名漢字混じり文を構成する候補文字列を生成する仮名漢字変換装置であって、
所定の文節同士の係り受けを構成する係り語と受け語の情報を、該係り語と受け語の間に許される許容付属語の情報と共に記憶した係り受け情報辞書と、
前記入力された文字列を文節分かち書きする処理を行なうとき、自立語を記憶した自立語辞書および付属語を記憶した付属語辞書を参照し、前記入力された仮名文字列から生成しうる単語同士の組合せを網羅的に生成する生成手段と、
該生成された単語同士の組合せの中から、前記係り受け情報を参照して、前記係り語と受け語の情報に該当する単語を備えた文節を検索する文節検索手段と、
該係り語と受け語の情報に該当する単語を備えた文節が検索されたとき、前記係り語に付属する語が前記許容付属語であるかを判定する第1の判定手段と、
前記係り語と受け語の情報に該当する単語を備えた文節が検索されたとき、該受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかを判定する第2の判定手段と、
該第1および第2の判定手段のいずれかが肯定判断した場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補とし、いずれもが肯定判断しなかった場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補としない文節候補制限手段と
を備えたことを要旨とする。
【0010】
この仮名漢字変換装置に対応する仮名漢字変換方法は、
単語辞書を参照して、入力された仮名文字列を文節分かち書きし、コンピュータにより、仮名漢字混じり文字列候補を生成する仮名漢字変換方法であって、
キーボードから入力された前記仮名文字列を文節分かち書きする処理を行なうとき、自立語を記憶した自立語辞書および付属語を記憶した付属語辞書を参照し、前記入力された仮名文字列から生成しうる単語同士の組合せを、コンピュータにより、網羅的に生成し、
該生成された単語同士の組合せの中から、所定の文節同士の係り受けの情報を該係り語と受け語の間に許される許容付属語の情報と共に記憶した係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を、コンピュータにより検索し、
該係り語と受け語の情報に該当する単語を備えた文節が検索されて見い出されたとき、
前記係り語に付属する語が前記許容付属語であるかを判定し、
該受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかを判定し、
該いずれかの判定結果が肯定判断である場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補とし、いずれの判定結果も肯定判断でなかった場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補としないことで、前記文節分かち書きの候補を、コンピュータにより制限すること
を要旨とする。
【0011】
以上のように構成された本発明の第1の仮名漢字変換装置および仮名漢字変換方法によれば、係り受け情報辞書に所定の文節同士の係り受けを構成する係り語と受け語の情報を両語の間に許される許容付属語の情報と共に記憶しておき、入力された文字列を文節分かち書きする処理を行なうとき、この係り受け情報辞書に記憶された係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を検索する。係り語と受け語の情報に該当する文節が検索されたとき、係り語に付属する語が許容付属語であるかの判定、および受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかの判定を行なう。この検索結果に基づいて、文節分かち書きの候補を制限する。従って、係り受けの情報が存在する場合、単純に両語の存在によって係り受けの成立を見るのではなく、係り語に付属する語が、両語の関係を許す場合に係り受けの成立とし、かつ受け語が使役または受動を示す語である場合には、係り語に付属する語が使役または受動に対応した語である場合に、係り受けの成立として、文節候補の制限を行なうから、文節分かち書きの非所望な候補は選択され難くなり、所望の分かち書きがなされる可能性が高くなる。なお、文節候補の制限に代えて、既に他の手法により推定された文節分かち書きを前提として、各文節毎の漢字候補の優先順位を変更するものとすれば、所望の漢字候補を第1候補として得られる可能性を高めることができる。
【0012】
ここで、前記辞書が、単語の読みと該読みに対応する表記とを記憶した単語辞書であって、単語の読みに対応する表記として、複数の表記が存在する場合には、代表表記として定めた表記と、派生表記として定めた表記とを記憶した表記情報部を備えるものとし、
前記文節検索手段を、前記単語辞書に記憶された代表表記のみを用いて前記係り受けの検索を行なう手段とし、
更に、
前記文節分かち書き候補については、前記単語辞書の表記情報部に記憶された代表表記および派生表記を用いて、変換後の候補文字列を表示する候補文字列表示手段を備えるものとすることができる。
【0013】
この仮名漢字変換装置では、単語辞書には、代表表記と派生表記とが記憶されており、第1の仮名漢字変換装置において文節分かち書きされた各文節についての係り受けの検定については、代表表記のみを用いて行なって単語を特定し、特定された単語についての候補文字列の表示については、代表表記および派生表記を用いて行なう。
【0014】
更に、上記仮名漢字変換装置において、
前記文節候補制限手段に代えて、該第1および第2の判定手段の判定結果に基づいて、前記文節毎の漢字候補の優先順位を変更する漢字候補優先手段を備えるものとすることもできる。この場合には、係り受けに該当しないものも漢字候補としては残されるが、漢字候補としては係り受けが成立するものが優先されることになり好適である。
【0015】
また、仮名漢字変換装置における文節検索手段を、
後方の文節を起点として、既に登録された検索済み範囲を除いて、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段と、
該検索により係り受け情報に該当する単語を備えた文節が見いだされたとき、該起点となった文節から該見いだされた文節までを、係り受け情報の検索済み範囲として登録する既検索範囲登録手段とを備えたものとすることもできる。こうしておけば、次の検索時には、この範囲は検索範囲から除かれるから、分かち書きのための検索時間が短くて済み、更に鎖交した係り受けを誤って選択するということがない。
【0016】
上記仮名漢字変換装置における文節候補制限手段を、前記第1または第2の判定手段が、該当する係り語と受け語とその付属語の存在を判定したとき、該語を含む文節分かち書きを優先的に選択する手段を備えるものとすれば、係り受けが成立する分かち書きを優先することになり、好適である。
【0017】
前記漢字候補優先手段を備えた仮名漢字変換装置において、
この漢字候補優先手段を、前記第1または第2の判定手段が、該当する係り語と受け語とその付属語の存在を判定したとき、該語を含む文節分かち書きを優先的に選択すると共に、該単語を仮名漢字変換の第1候補として選択する手段を備えるものとすることができる。この場合には、分かち書きおよび第1候補の選択が、係り受けに基づいてなされることになり、係り受けの成立がもっとも優先されることになる。
【0018】
更に、上記文節検索手段を、係り受け関係を有する単語間に存在する補助的な語が、予め定めた特定の文法構造を有する語である場合には、係り受け関係は成立と判断する手段を備えるものとすれば、付属語に関する情報量を低減することが可能となる。
【0019】
また、文節検索手段を備えた仮名漢字変換装置において、
文節検索手段を、
所定の文節を起点として、前記係り受け辞書に記憶された係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を、該起点とした文節に隣接する文節以外の文節まで検索する隔文節検索手段と、
前記隔文節検索手段により係り受けの関係が見いだされたとき、前記起点となった文節から該見いだされた文節までの範囲を、次の隔文節検索手段による検索範囲から除外する検索範囲除外手段と
を備えるものとすることもできる。
【0020】
この場合には、係り受けの交差を排除して正しい係り受けの誤判定を回避すると共に、係り受けの検索の高速化を図ることが可能となる。
【0021】
なお、こうした仮名漢字変換装置において、係り受け辞書を参照して係り受けの関係にある単語を含む文節が見い出されなかった範囲については、既知の文節分かち書きの手法を適用することができる。例えば、2文節最長一致法を用いても良いし、単語間または/および文節間の結合の生じ易さに点数(コスト)を付け、この結合の生じ易さが最大(最小コスト)となるよう単語または/および文節を選択するものとしても良い。望ましくは、単語間の結合および文節間の結合の生じ易さが最大となる組合わせを選択するよう構成すればよい。
【0024】
この仮名漢字変換装置および仮名漢字変換方法では、係り受け情報辞書を参照して係り受け検定を行なう際、単語辞書に登録された代表表記のみを用いて検定を行なって、入力された文字列を構成する単語を特定するが、この特定された単語の候補文字列を表示する際には、単語辞書に記憶された代表表記のみならず、派生表記を用いて表示を行なう。従って、係り受けを含む文法処理の高速化と表記の多様性とを両立させることができる。
【0025】
【実施例】
以上説明した本発明の構成・作用を一層明らかにするために、以下本発明の好適な実施例について説明する。図1は、仮名漢字変換の制御ロジックを示すブロック図、図2は、この仮名漢字変換制御ロジックが実際に動作するハードウェアを示すブロック図である。図2に示すように、この装置は、周知のCPU21を中心にバス31により相互に接続された次の各部を備える。CPU21とバス31により相互に接続された各部について、簡単に説明する。
【0026】
ROM22:仮名漢字変換プログラム等を記憶するマスクメモリ、
RAM23:主記憶を構成する読み出しおよび書き込みが可能なメモリ、
キーボードインタフェース25:キーボード24からのキー入力を司るインタフェース、
CRTC27:カラーで表示可能なCRT26への信号出力を制御するCRTコントローラ、
プリンタインタフェース29:プリンタ28へのデータの出力を制御するインタフェース、
ハードディスクコントローラ(HDC)30;ハードディスク32を制御するインタフェース、
である。ハードディスク32には、RAM23にロードされて実行される各種プログラムやデバイスドライバの形式で提供される仮名漢字変換処理プログラム、あるいはその仮名漢字変換処理プログラムが参照する各種変換辞書などが記憶されている。
【0027】
こうして構成されたハードウエアにより、文章が入力,仮名漢字変換,編集,表示,印刷などがなされる。すなわち、キーボード24から入力された文字列は、CPU21により所定の処理がなされ、RAM23の所定領域に格納され、CRTC27を介してCRT26の画面上に表示される。
【0028】
次に、こうして構成されたハードウエアにより実行される機能を図1を用いて説明する。図1に示した各部の構成と働きについて概説するが、ここで行なわれる処理は、キーボード24より入力されたデータに基づき、中央処理装置(CPU21)が実行するものである。このCPU21により、総ての処理がおこなわれる。仮名漢字変換については、キーボード24が操作されたとき、所定の割込処理が起動し、入力したキーイメージを対応する仮名文字列に変換し、更にこれを仮名漢字混じり文字列に変換するデバイスドライバが起動する。もとより、並列処理可能なコンピュータであれば、仮名漢字変換を一つのアプリケーション(インプットメソッド)が行なうものとし、変換結果を、必要とするアプリケーションに引き渡す構成としても差し支えない。この場合には、キーボード24からの入力をインプットメソッドが一括して引き受けることになる。
【0029】
キーボード24からのキーイメージは、文字入力部40により受け付けられ、ここで、対応する仮名文字列に変換される。ローマ字入力の場合には所定の変換テーブルを参照して、仮名文字列に変換する。一つの仮名文字が得られる度に文字入力部40は、その仮名文字を変換制御部42に送出する。この変換制御部42は、仮名漢字変換の中心的な役割を果たす所であり、後述する種々の仮名漢字変換を制御して、結果を変換後文字列出力部44に送出する。変換後文字列出力部44は、現実には、CRTC27に信号を送り、CRT26に変換後文字列を表示する。
【0030】
変換制御部42は、受け取った仮名文字を文字列入力部50に引き渡す。文字列入力部50は、文字格納部52に仮名文字列を格納する。この文字列に基づいて、自立語候補作成部54と付属語候補作成部64とが、単語データの候補を作成する。自立語候補作成部54は、ハードディスク32に予め記憶された自立語辞書58を用い、自立語解析位置管理部56の管理の下で、得られた仮名文字列から自立語候補を抽出する処理を行なう。一方、付属語候補作成部64は、同じく付属語辞書68を用い、付属語解析位置管理部66の管理の下で、得られた仮名文字列から付属語候補を抽出する処理を行なう。解析位置を移動しつつ、自立語候補と付属語候補を抽出する処理については、後述する。
【0031】
ここで、自立語辞書58は、学習により、同音異義語や接辞などの優先順位を変更する。この学習処理を行なうのが、係り受け学習部70,自立語学習部72,補助語学習部74,接辞学習部76,文字変換学習部78である。係り受け学習部70は、係り受けが成立する条件で、使用者が係り受けに該当する単語以外の語を選択した場合、同じ単語の組合わせでは、使用者が選択した組合わせを優先するよう係り受けの関係を学習するものである。自立語学習部72は、同音異義語の存在する自立語群において、最後に選択された単語を最優先の候補とするよう学習するものである。補助語学習部74は、例えば「ください」などの補助語を「ください」「下さい」など、いずれの語形で変換するかを学習するものである。更に、接辞学習部76は、接頭語,接尾語などの変換形式(例えば、「御」「ご」など)を学習するものである。文字変換学習部78は、入力した文字列をそのままひらがなやカタカナとして確定させた場合に、その文字列を学習し、次回以降の変換処理では確定させたひらがなまたはカタカナを候補として出力するものである。
【0032】
自立語候補作成部54,付属語候補作成部64により、作成された語候補を得て、単語データ作成部80が、各語候補についてのデータを作成する。即ち、得られた自立語と付属語、自立語と自立語、更には「自立語+付属語」からなる文節間の接続を接続検定テーブル84を参照して接続検定部82が行なった結果、および全体のコスト計算をコスト計算部86が行なった結果を得て、単語毎のデータとして出力するのである。この単語データは、一旦単語データ格納部100に格納され、係り受け候補調整部90からの調整出力を受けて、文節分かち書きの処理に用いられる。
【0033】
係り受け候補調整部90は、自立語候補作成部54,付属語候補作成部64からの語候補を受けて、係り受けの検定を行なうものである。係り受けの検定は、ハードディスク32に予め用意された係り受け辞書98を参照することによって行なわれる。係り受けの検定を行なう範囲は、係り受け範囲管理部96により管理される。また、係り受けの関係の検定には、いくつかの許容条件があり、これが使役・受動解析部92,助詞許容解析部94等により判定される。以上の係り受けの検定により調整された係り受け候補と、先に説明した単語データとは、単語データ格納部100により統合され、文節分かち書き部102による文節分かち書きの処理に供される。文節分かち書き部102は、得られたデータから文節分かち書きの第1候補を決定する。
【0034】
以上の処理により文節分かち書きの第1候補と、その文節毎の仮名漢字変換の第1候補が決定される。文節分かち書き部102は、その候補を文節データ格納部106に格納し、格納された候補は、変換文字列出力部108により変換制御部42に出力される。変換制御部42は、この文字列を候補文字列として表示すると共に、非所望の文字列が候補となる場合もありえるから、使用者による指示を受けて、次候補の表示や選択などの処理を行なう。これらの指示や選択の結果などは、文節データ格納部106や既述した各学習部70ないし78に入力され、文節の一部確定や学習による優先順位の書き換えなどに用いられる。なお、図示していないが、使用者により文字列の確定処理がなされると、各部に一時的に保存されたデータは総て消去され、次の変換に備える。
【0035】
以上、仮名文字の入力から変換語文字列の出力までを概説したが、次に各処理の詳細について説明する。まず最初に一般的な文節分かち書きの処理について説明し、次に本発明の要部である係り受けの処理について説明する。図3は、最小コスト法による文節分かち書きの処理の概要を示すフローチャートである。図示するように、まず、一時的に保存されたデータの消去や解析位置を1桁目に初期化するなどの初期化の処理(ステップS200)を行なった後、解析位置を求める処理を行なう(ステップS210)。解析位置とは、それまでに入力された仮名文字列の先頭から順に一つずつ進められていく位置である。例えば、図4に示す例文「くるまではこをはこぶ」という仮名文字列が入力されているとすれば、最初の解析位置は1桁目の「く」の位置である。この解析位置で、ハードディスク32に記憶された自立語辞書58および付属語辞書68を検索する処理を行なう(ステップS220)。
【0036】
辞書の検索を行なった後、得られた単語についてそれ以前の単語との結合をチェックする処理を行ない(ステップS230)、単語間の結合がありえない語しか得られていない場合には、更に辞書を検索する。例えば、図4に示した例では、「こをはこぶ」の「は」について付属語辞書68から検索された係助詞の「は」は、そのなど直前の格助詞「を」との結合がありえないと判断されるから、単語データ作成部80,接続検定部82による接続の検定により、無効なデータとして扱われる。図4では、こうした結合チェックにより無効と判断された語に符号「×」を付けた。なお、単語間の結合は、接続検定テーブル84に予め記憶されているが、この接続検定テーブル84は、単語の品詞同士の結合の可能性についての情報を与えるテーブルであり、実施例では、400×400程度のマトリックスとして与えられている。一つの解析位置での辞書検索と結合チェックが終われば、解析位置を順に進めて更に処理を繰り返す。
【0037】
結合の可能性のある単語については、次にコスト計算を行ない、その語の最小総コストを求める処理を行なう(ステップS240)。この処理は、コスト計算部86が行なうもので、図4(A)に示す例では、「くるま」は、例えば「く」+「る」+「ま」、「くる」+「ま」「くるま」と分けることができ、これらに単語を当てはめてゆくとき、自立語=2、付属語=0のコストを持つものとし、「苦」(自立語)+「流」(自立語)ならば、「流」の総コストは4、と求めるものである。この時、「間」のコストが4となるのは、最小の総コストを求めるからであり、「苦」+「流」+「間」のコスト6ではなく、「来る」+「間」の場合のコスト4を採用するからである。「で」「は」は付属語なので、それ以前の単語のうち最小のコストの単語「車」=2のコストがそれ自身のコストとなる。図4には、各語のコストを右下に示した。
【0038】
以上のコスト計算の後で、各単語のコストをチェックし、不適切なコストのものを無効とする処理を行なう(ステップS250)。不適切なコストとは、他の語の組合わせと比べてコストが大きくなってしまう語の組合わせである。即ち、「区」+「留」といった語の組合わせを選択することは、その位置までで得られる他の語「来る」や「繰る」のコストより高くなってしまうので、不適切なコストと判断して、これを文節候補から除外するのである。この最小コストの考え方から採用されない語を、図4では、語の右上に「●」として示した。なお、図4において、「○」は、その語が、上述した結合チェックとコストチェックの結果、文節候補を形成する可能性のある語として残ったものであることを示している。
【0039】
次に、こうしてコストが与えられた単語候補をリンクする処理を行なう(ステップS260)。即ち、結合が有効とされた語について、その結合関係をポインタを設定することで関係づけるのである。図4の例では、「来る」「繰る」「車」「まで」「で」「は」「では」などが無効でない語として最小総コストの計算がなされたから、「来る」「繰る」については「まで」にリンクし、「車」については「で」「では」にリンクするというように関係づけるのである。こうした結合チェックやコスト計算、そしてリンクづけの処理を、一つの解析位置で総ての単語の検索が完了する間で繰り返す。また、その解析位置での辞書の検索が完了すると、更に解析位置を一つ進めて、新たな単語の成立を検討し、同様に結合チェックやコスト計算などを繰り返す。
【0040】
解析位置が、既に入力された最後の仮名文字の位置に至り、全語について解析が完了した場合には(ステップS265)、以上の処理を前提として、最小コストのパスを検索する処理を行なう(ステップS270)。この処理は、文節分かち書き部102が行なうもので、有効とされた語の組合わせのなかで、語に付与されたコストの総和が最小になるものを検索する処理である。「くるまではこをはこぶ」の例では、図4(B)に実線Jのパスとして示すように、「車で」+「箱を」+「運ぶ」という分かち書きが総コスト18となるので、最小コストとして選択される。なお、最小コストではないが、他の文節分かち書きの候補も検索される。例えば、図4(B)に破線Bのパスとして示すように、「車では」+「子を」+「運ぶ」という分かち書き(コスト=20)である。こうして分かち書きの候補を作成した後(ステップS280)、今度は各文節の内部での候補を作成する処理を行なう(ステップS290)。即ち、ひとつの文節分かち書きの内部で、例えば「はこを」に対して「箱を」や「函を」といった候補を用意するのである。これらの文節の候補や単語の候補は、使用者により文節の分け方をかえるよう指示されたり、次候補を表示するよう指示された場合に使用される。
【0041】
いま一つの文節分かち書きの例を図5に示す。この例は、後述する係り受けの説明に用いるものであるが、係り受けを考慮しない最小コスト法による文節分かち書きを、「きしゃをきしゃさせる」について適用したものを示す。この例では、結合チェック(ステップS230)により、「ゃ」は名詞との直接の結合が無効であることから除外される(×印)。また、「木」や「氏」、あるいは「社」などは、最小総コストのチェック(ステップS250)から除外される(●印)。この結果、図5に示した例では、「きしゃを」+「きしゃ」という文節分かち書きがなされ、各語の優先順位が図5に示した順序であるとすれば、「きしゃ」の第1候補としては「貴社」が選ばれることになる。なお、後半の「きしゃ」については、解析が「きしゃ」の末尾までまでしか至っていない場合には、前半の第1候補と同一の「貴社」が選ばれることになるが、「きしゃ」の後に「させ」や「する」などが付属する場合には、例えば使役「させ」が付属する語であることを考慮して「帰社」を第1候補として表示することができる。
【0042】
なお、以上の説明では、コスト計算は、各語自身についてのみ行なったが、実際には、単語同士の結合のしやすさの度合いに応じてコストを下げるポイントを付与したり、文節同士の結合について文法的な規則に基づいて同様に結合し易い文節同士の組合わせにコストを下げるポイントを付与することもできる。ここでは、文節分かち書きの処理に対する理解の便を図って、最も簡易な手法を用いて説明したに過ぎない。
【0043】
以上の文節分かち書きの処理を踏まえ、次に係り受けによる文節分かち書きの処理について説明する。図6は、係り受け検定を行なう処理を取り出して示すフローチャートである。この処理は、図3に示したステップS220ないしステップS250の処理と並行して実施される。実際には、解析位置を求めた後(ステップS210)、各種辞書を検索する際、自立語辞書58,付属語辞書68の検索に併せて、係り受け辞書98も検索し、結合チェック、最小総コストの計算に伴うコストチェックと共に、次の係り受け検定処理がなされる。この処理が開始されると、まず、解析位置において候補となり得る語(○印の語)について、係り受け候補調整部90が係り受け辞書98を検索し、係り受け情報が存在する語であるか否かの判断を行なう(ステップS300)。なお、解析位置における語が、接続詞、感動詞、独立語の場合には、係り受けは存在しないとして、その単語についての処理は直ちに終了する。
【0044】
例として、「きしゃをきしゃさせる」という仮名文字が入力されて、解析が「きしゃをきしゃ」まで進んだ場合を取り挙げて説明する。この時、後半の「きしゃ」の候補としては、「記者」「貴社」「汽車」「帰社」などが得られるから、これらの各語について、係り受け辞書98内に何らかの情報が存在するかを調べるのである。なお受け語となる語が「聞いた」や「利いた」など用言であって活用形を有する場合には、語幹「聞」や「利」あるいは基本形「聞く」や「利く」をキーワードにして、係り受け辞書98は参照可能に構成されている。
【0045】
実施例における係り受け辞書98の構造の一例を図7に示す。本実施例の係り受け辞書98は、[見出し+受け語(語幹)+1つの係り語+付属語情報]を単位とする構造を持っており、図7の例では、受け語「帰社」について、見出し「きしゃ」+受け語「帰社」+係り語「記者」+「が」、見出し「きしゃ」+受け語「帰社」+係り語「貴社」+「に」、見出し「きしゃ」+受け語「帰社」+係り語「汽車」+「で」・・・・・というように、一つの受け語について、複数の組みのデータを持っている。更に、見出し「きしゃ」,受け語「記者」については、係り語群「貴社,新聞,通信社・・・」を構成する各語について、同様に、見出し「きしゃ」+受け語「記者」+係り語「貴社」+「の」などのように、一つの係り語毎にデータを持っている。これらのデータは、受け語についての見出し語の五十音順に並んでいる。もとより、他の語についても、同様の係り受け情報が記憶されている。係り受け候補調整部90は、この係り受け辞書を検索し、該当する見出しおよび受け語が存在する場合には、係り語の候補を辞書から取り出して、係り受けの検定に供するのである。なお、これらのデータは、見出しと受け語は同一であるから、データ群全体の頭に見出し語と受け語を用意し、係り語と付属語の情報を、個々に用意するものとしても良い。
【0046】
また、図7の例では、係り受けの検定を分かりやすく示すため、最小限の情報のみ示したが、実際の係り受け辞書98は、「受け単語見出し+係り単語見出し」、「受け単語見出し長」、「受け単語漢字」、「受け単語品詞」、「係り単語見出し長」、「係り単語漢字」、「係り単語品詞」、「係り受け関係」などの詳細な情報からなる。受け単語や係り単語の品詞は、係り受けの成立と付属語の許容を検討するために必要であり、見出し長のデータは、辞書98から高速に切り出しを行なうのに必要である。
【0047】
係り受けの情報が存在する語(以下、受け語という)が見い出された場合には、次に、係り受けが既に成立したとして登録された範囲を除き、前方に向かって係り受けに対応する語(以下、係り語という)が存在するか検索を行ない(ステップS310)、対応する係り語があるか否かの判断を行なう(ステップS320)。この時、係り語の検索は、最小総コストとなっている語のみならず、他の語についても行なわれる。いま、係り受け辞書98には、図7に示したように、「記者(が)帰社」、「貴社(に)帰社」、「貴社(の)記者」、「汽車(で)帰社」という係り受けが記憶されているものとする。ここで()内の仮名は、係り受け関係を有するとされる語の間に存在する可能性があるとして許容されている付属語である。ステップS300において受け語となり得ると判断された「帰社」「記者」について、係り受け情報に受け語が存在するので、これらについて各々係り語が存在するか判断すると、図5に示した例では、「帰社」については「きしゃ」という文字列の候補である「記者」「貴社」「汽車」が該当すると判断され、「記者」については「きしゃ」という文字列の候補である「貴社」が該当すると判断される。ステップS320で、係り語が存在すると判断された場合には、次に両語の間に存在する付属語が、係り受けの存在を許容する語であるか否かの判断を行なう(ステップS330)。
【0048】
助詞の許容解析は、係り受けのタイプにより定義された許容関係を見たしているかを判断するものであり、係り受けのタイプ毎に次の類型を持つ。
[I]連用修飾型
▲1▼名詞+助詞+用言の場合の助詞
格助詞「が」「から」「で」「と」「に」「へ」「より」「を」「の」
係助詞「は」
▲2▼用言連用形+用言の場合
▲3▼名詞+用言(助詞省略型)の場合の省略可能な助詞
「が」「は」係助詞,副助詞
[II]連体修飾型
▲4▼名詞+助詞+名詞の場合の助詞
「の」
▲5▼体言+体言(並列)の場合の助詞
「や」「と」
▲6▼用言連体形+名詞の場合
▲7▼連体詞+名詞の場合
【0049】
即ち、係り受け関係にあると判断された2つの語の関係が上記の▲1▼ないし▲7▼のいずれかに属するとして、係り受け関係にある両語の間に存在する付属語(大部分は助詞もしくは助詞的表現)が上記のいずれかに該当する場合は、係り受け辞書98には係り受け関係を有する語について許容する助詞の設定がなされているから、これを検定するのである。例えば、「機転」と「利く」との間の係り受けが助詞の許容設定(の・が)を伴っている場合、上記▲1▼のケース(名詞+助詞+用言)に属するから、「の」「が」は両語間に存在可能であるけれども(機転が利いた、機転の利いた→○)、他の格助詞「から」「で」などは許容できない(機転から利いた、機転で利いた→×)ということになる。
【0050】
▲1▼ないし▲7▼の各関係について、そこに挙げられたもの以外については、許容されると判断する。この許容されると判断する例を以下に列挙するが、これらは、係り受けとしては実際の表現としては成り立たない場合を含む可能性がある。しかし、係り受けは、実際の人間の言語活動としては、広い概念であり、あまりに厳格な係り受けの取り決めはむしろ現実にそぐわないことが多い。また、余りに厳密な係り受けの取り決めは係り受け辞書98のいたずらな増大を招くだけであり、係り受け検定の速度も低下させる。そこで、本実施例では、付属語の許容について、係り受けの生じる関係を▲1▼から▲7▼に分け、その中で許容・非許容の明確なものについては、係り受け辞書に許容するものとして係り受け関係の成り立つ語と共に記憶し、それ以外については、許容するものとしたのである。
【0051】
[III]許容される表現−連用修飾形の場合
・名詞+格助詞的表現+用言における格助詞的表現
「ずつ」「として」「のため」「において」「によって」など、
・名詞+係助詞+用言における係助詞
「こそ」「さえ」「しか」「でも」「も」など、
・名詞+副助詞+用言における副助詞
「きり」「くらい」「ずつ」「だけ」など、
・名詞+副助詞的表現+用言における副助詞的表現
「なので」「なら」など、
・用言+助詞+用言における助詞
「のは」など
・接続助詞 「ので」「から」「から」「て」など、
・接続助詞的表現 「からには」「ためには」「ほど」「うえ」など、
・用言+用言を並列させる表現 「か」「し」「たり」「と同時に」など、
【0052】
[IV]許容される表現−連体修飾形
・名詞+助詞的表現+名詞における助詞的表現
「における」「に関する」「に基づいて」など、
・用言+助詞的表現+名詞における助詞的表現
「ための」「といった」「に伴う」「などの」「ごとき」など、
・体言+体言を並列させる表現 「か」。
【0053】
以上の規則に従って、係り受けの関係が見い出された2つの語の間の付属語の許容について判断する。例として挙げた「記者」「帰社」の場合には、許容される格助詞は「が」であるから、「きしゃをきしゃ」については係り受けの成立が認められない。そこで、これを判定し(ステップS340)、係り受けを成立させる係り語と受け語か存在するするにもかかわらず、係り受けが成立しないと判断された場合には、次に使役・受動の係り受けの検定処理を行なう(ステップS342)。
【0054】
使役・受動の係り受け検定処理は、図1に示した使役受動解析部92により行なわれる。この処理について詳しく説明する。図5に示した文例では、更に解析が図8に示すように「きしゃをきしゃさせ」まで進むと、使役・受動であると判断でき、使役・受動の場合を考慮した係り受け処理を行なうことになる(ステップS342)。この処理は、ステップS320,S330と同様に、対応する係り語があるかと言う点とその場合の付属語が許容される語であるかと言う判断である。「きしゃ」に対して「帰社」に着目すると、対応する語「記者」は存在し、次に付属語の解析を行なうと、使役の場合には、本来の付属語「が」については「を」が許容されることが予め記憶されているから、係り受けが成立すると判断することになる。なお、「帰社」と「貴社」との関係は、本来許容される付属語が「に」であり、使役の場合であっても「を」が許容される関係ではないので、係り受けの成立は認められない。同様に「帰社」と「汽車」+「で」についても係り受けの検定を行ない、係り語と受け語との間に使役であることにより許容される付属語は存在しないことが分かる。
【0055】
そこで、これらの解析結果を基に係り受けの成立について判断し(ステップS344)、使役・受動を考慮して係り受けが成立していると判断された場合には、ステップS340で通常の係り受けが成立していると判断された場合と共々、優先的にその語を含んだ文節を、最小総コストの違いを越えて文節候補とする処理を行なう(ステップS350)。更にこうして見い出された受け語から係り語までの間を係り受け成立済み範囲として登録し、これを管理する処理を行ない(ステップS360)、全範囲について係り受けの検索を行なったか否かの判断(ステップS370)に進む。なお、通常の係り受けはもとより使役・受動を考慮しても係り受けの成立が否定された場合には、ステップS350,360を行なわず、ステップS370に移行する。
【0056】
係り受けを、受け語から前方に検索して、検索済みとして登録された範囲を除いて総ての語について完了するまで、上記の処理(ステップS310ないし370)を繰り返し、全範囲についての検索が完了すると、次に受け語についての複数の候補について、係り受けの検定が完了したか否かの判断を行なう(ステップS380)。即ち、この例では、受け語となる後半の「きしゃ」についての候補「貴社」「帰社」「記者」「汽車」などについて、総て係り受けの関係が成立するものがあるか、検定するのである。係り受けの関係が成立する語が見い出され、付属語の許容解析もパスし、係り受けが成立したと判断された語は、文節候補として最も高い優先順位に設定される(ステップS350)。複数の候補単語について係り受けの関係が成立した場合には、辞書に登録されていた順に優先順位の高い文節候補とする。
【0057】
ここで、係り受けの成立した語を含む文節を文節候補とする際、その文節が最小総コストとなっていない語を含む文節であっても優先されるという点について説明する。「きしゃをきしゃさせ」の例では、選択される文節「きしゃを」「きしゃさせ」は、係り受けによる検定を行なわない最小総コスト法による文節候補と、文節の分け方自体は同じである。しかし、例えば、「じょうききしゃをきしゃさせ」という仮名文字列が入力され、「蒸気汽車」という自立語が存在したと仮定すると、図9に示すように、「蒸気汽車を」「帰社させ」が最小コストのパス(実線G)となって第1候補となってしまう。これに対して、係り受け関係(「記者(が)帰社」)の使役・受動による検定がなされた場合には、最小コストのパスとはならない「上記」「記者を」「帰社させ」が第1候補とされる(図9破線B)。
【0058】
最初の例文「きしゃをきしゃさせる」について、単語間の接続チェックなどを行なって接続し得ない候補を削除して最終的に得られた文節候補を図10に示す。従って、この文節分かち書きの第1候補は、「記者を帰社させる」となる。
【0059】
以上使役表現の一例について説明したが、その類型としては、名詞N1,動詞Pと表記するものとして、以下のものがある。
「N1を+Pさせる/せる」が、「N1が+P」の使役型
「N1に+Pさせる/せる」が、「N1に+P」の使役型
「N1+Pさせる/せる」が、「N1 +P」の使役型
【0060】
なお、本実施例では、2文節以上に亘る助詞検定必要な下記のような使役の型は許容しない。
「N1に+対して+P(動詞未然形)させる」
「N1を+P(形容動詞)に+する」
「N1を+P(形容詞)く+する」
「N1を+P(名詞)に+する」
「N1を+P(動詞終止形)ように+する」
「N1を+Pせしめる」
【0061】
更に、受動の場合の係り受けの処理について例示する。係り受けとして「生徒(を)教える」が存在する場合に、入力した仮名文字列「せいとがおしえられる」を文節分かち書きするばあいの処理を例にとって説明する。図11は、「せいとをおしえ」まで解析位置が進み、「教え」について、前方に遡って係り語が存在するかを検索する場合を示している。「教え」を受け語とする係り受けはもとより「生徒(を)教える」だけではなく、「数学(を)教える」とか「先生(が)教える」なども存在するが、これらは係り受け辞書98に登録されており、「教」を見出しとして検索することができる。この検索は、前方に遡ってなされるから、「緒」「尾」から検定が開始され、「聖徒が」「生徒が」に至って、「教」を見出しとする係り受けの中の「生徒(を)教える」の「生徒」を見い出すことになる。この係り受けは、そのままでは「生徒が教え」なので付属語の許容解析をパスせず、係り受けの検定は一旦打ち切られる。その後、文節分かち書きの検定が進んで「おしえられ」まで至って、再度係り受けの検定がなされると、使役・受動の係り受けの検定により初めて付属語の許容解析をパスする。従って、受動の場合の係り受けとして成立と判断され、「生徒が」と「教えられ」とが文節分かち書きの第1候補となる。この様子を図12に示す。得られる第1候補は、「生徒が教えられ」となる。ここで、「生徒が」から「教えられ」までは、係り受けの成立範囲として、その後の係り受けの検索範囲からは除外される。
【0062】
以上受動表現の一例について説明したが、その類型としては、名詞N1,動詞Pと表記するものとして、以下のものがある。
「N1が+Pられる/れる」が、「N1を+P」の受動型
「N1に+Pられる/れる」が、「N1が+P」の受動型
「N1+Pせれる/れる」が、「N1 +P」の受動型
【0063】
なお、本実施例では、2文節以上に亘る助詞検定必要な下記のような受動の型は許容しない。
「N1に(によって)+Pられる」
「N1に(により)+Pられる」
「N1が+N2に+Pられる」
「N1の+Pられる」
「N1は+N2に+P(さ)れる」
「N1から+P(さ)れた+N2」
【0064】
以上説明した本実施例によれば、単語のコストを計算して文節分かち書きの候補を求める処理の過程で同時に使役・受動の場合を含む係り受け情報も検索しているので、文節分かち書きの候補を求める段階で、使役・受動を含む係り受けの情報を反映させることができる。係り受けの情報は、高次の言語活動なので、単語間や文節間のコスト計算による文節分かち書きの選択の画一性による弊害を回避して、より使用者の意図に沿った文節分かち書きの候補を求めることが可能となる。しかも、自立語辞書58や付属語辞書68を参照して行なわれる最小コスト法による文節分かち書きの処理と同時に係り受けの処理もなされるから、係り受けの情報を用いた文節分かち書きの処理を短時間の内に完了することができる。文節分かち書きを済ませてから改めて係り受け辞書98を参照しにゆく場合には、係り受けの情報を用いて文節の分け方を変更することができないばかりか、辞書の参照を再度行なうので、処理に時間を要する。
【0065】
また、係り受けが一旦成立したと判断された場合には、その受け語から係り語までの範囲を係り受け成立範囲として、その後の検索範囲から除外するので、係り受けの範囲が交差することがない。また、2以上の受け語が一つの係り語を受けるという判断をすることもない。また、係り受けの成立を隣接する文節を越えて判断するので、副詞などによる修飾が係り受け関係の間に入っても係り受けの検定を正しく行なうことができる。従って、複数の係り受けが成立する場合には、図13(A)に示すように、独立した係り受けが別個に成立する組合わせか、図13(B)に示すように、一つの受け語が2以上の係り語を受ける組合わせか、図13(C)に示すように、一つの係り受けを跨ぐようにもう一つの係り受けが成立する組合わせが許されることになる。
【0066】
次に、本発明の第2実施例について説明する。第2実施例では、第1実施例と同様のハードウェア構成を用い、その機能ブロックも図1に示すものとほぼ同一である。機能ブロックにおいて異なるのは、自立語辞書58の構造と、係り受け辞書98の構造であり、辞書構造の相違に伴う単語検索処理,係り受け検定処理および表示処理である。第2実施例における処理に従って、これらの相違点および辞書構造の相違について順次説明する。
【0067】
図14は、第2実施例における仮名漢字変換処理ルーチンを示すフローチャートである。この処理ルーチンは、キーボード24から一ないし複数の仮名文字が入力された後、変換キー(例えば「スペースキー」)が押されたとき、開始される処理である。なお、変換キーが操作されなくても所定数の仮名文字が入力されたとき、あるいは「。」や「、」「.」などの区切り記号が入力されたときに、図14の仮名漢字変換処理が開始されるものとしても差し支えない。この処理が開始されると、まず単語検索処理(ステップS400)と分かち書き処理(ステップS420)とが行なわれる。これらの処理は、第1実施例における図3の処理に該当する処理である。
【0068】
図15に、単語検索処理ルーチンの詳細を示す。図示するように、単語検索処理ルーチンが起動されると、まず単語検索の開始位置Mを値1、即ち入力された仮名文字列の先頭位置とする処理を行なう(ステップS402)。次に、単語検索における読みの長さを示す変数Lを値1に初期化する処理を行ない(ステップS404)、この読みの長さLの語を自立語辞書58,付属語辞書68から検索する処理を行なう(ステップS405)。ここで、自立語辞書58は、図16に示すように、ヘッダとインデックスと辞書本体からなる。ヘッダは、辞書自体を管理するための情報である。インデックスおよび辞書本体は、基本単語と派生単語と意味用例とに分けて管理されている。基本単語とは、一つの単語が派生表記を有する場合、例えば「取り扱い」に対して「取扱」や「取扱い」などが表記として許されている場合、これらの表記を代表する単語として予め定められた単語である。即ち、基本単語とは、文節分かち書きや係り受けの処理において代表的に用いられる単語を意味しているに過ぎない。単語辞書に記録されている語であるため、代表単語と呼ぶが、言語における基本的に単語という意味ではない。以下、基本単語のことを、その表示については、「代表表記」と呼び、派生単語については「派生表記」と呼ぶ。
【0069】
意味用例についての領域は、第1実施例で説明した係り受けに関する情報と同一の情報が管理されている領域である。したがって、第2実施例では、自立語辞書58と係り受け辞書98とが、一体化されている。意味用例の領域に記憶された情報は、基本単語を中心とする係り受けの情報である。係り受けの情報と基本単語および派生単語との関係については、後述する。
【0070】
これらの基本単語,派生単語,意味用例は、辞書本体においては、B−Tree構造により管理されている。B−Tree構造は、多数のデータを検索する場合に採用される周知の管理構造であり、多数のデータが存在する場合、データが適正に編成されていれば、目的とするデータにたどり着くまでの時間が平均的な時間になる構造として知られている。辞書本体におけるB-Tree構造の一例を図17に示した。読み(仮名文字列)に基づいてB−Tree制御ブロックを辿って単語ブロックに至ると、ここに実際の単語データがおかれている。
【0071】
基本単語領域などの単語データは、大まかには、図18に示すデータ構造を有している。即ち、先頭に単語データのデータ長Xを示すデータが存在し、その後、Xバイトの実データが続いている。実データの先頭には、見出し語の長さYが記録されており、続いてYバイトの見出し語が記録されている。実際の単語データは、その後に続いている。単語データは、その先頭に単語長Wが記録されており、その直後に漢字データの有無などを示す1バイトのフラグが記録されている。フラグの後には、漢字データが記録されているが、この漢字データは、漢字データ長と実際の漢字文字列を示す漢字コードから構成されている。その後、単語情報および品詞情報(場合によっては複数の品詞情報)が記録されている。単語情報は、単語情報の長さを示すデータと、実際の単語情報とからなる。
【0072】
このように、基本単語でも派生単語でも、B−Tree構造を用いて、単語の見出し文字列に基づいて、所望の単語に関する情報を取り出すことができる。これらの単語情報は、更に図19に示すように、セパレータとこれに続くデータとから構成されている。セパレータとしては、それ以後に続くデータが表示される漢字のデータであることを示す表示漢字セパレータや、データが読み情報であることを示す読み情報セパレータ、派生表記であることを示す派生表記セパレータなどがある。表示漢字とは、一つの単語に代表表記と派生表記とがある場合に、デフォルトで漢字を表示するために、代表表記に対応する漢字での表記を記録しているものである。派生表記セパレータは、図19に示すように、セパレータの下位3ビットが派生表記の数に対応しており、その後に続く派生表記1,派生表記2は、図20に例示したように、代表表記に対する変容の形態を番号で示したものとなっている。即ち、派生表記1が、例えば番号5であれば、代表表記が「メモリ」であれば、「長音あり」が派生表記として存在することを示し、「メモリー」を意味する。即ち、派生表記の情報としては、実際の派生表記そのものが記憶されている訳ではなく、派生表記の形態が番号で記憶されているのである。また、読み情報は、単語の読みを与えるものであり、見出し語が漢字である場合などにその読みを与えるものである。この情報は、漢字から意味を同じくする他の漢字を検索する連想変換などの際に用いられる。なお、一つの基本単語とこの基本単語(代表表記)に対応する派生単語(派生表記)とは、別々の領域で管理されているが、単語の読み(見出し)と単語の品詞情報とが一致するものについて、対応関係があるとみなしている。
【0073】
図15に戻って、辞書検索を行なった後(ステップS405)、開始位置Mから長さLの読みの仮名文字列に合致する単語が見つかったか否かを判定する(ステップS406)。該当語が見つかった場合には、次に、その代表単語に付属するデータのうち派生表記に関するものを読み込む処理を行なう(ステップS408)。代表単語に対して種々の派生表記が存在し、派生単語管理領域に派生単語が記憶されている場合には、代表単語の付属データに派生表記への差し替えの必要・不要を示すフラグが保存されている。そこで、かかるフラグが参照し、代表単語を派生単語に差し替えるよう指示がなされている単語であるか否かを判断する(ステップS410)。このフラグに、派生単語への差し替えの必要を示す値が設定されている場合には、先に検索した代表単語を展開バッファに展開する共に、その単語にマークを付与する(ステップS411)。展開バッファとは、入力した仮名文字列に対して、この仮名文字列を構成し得る総ての代表単語および付属語を展開するための記憶領域であり、RAM23上に確保されたメモリ領域である。
【0074】
派生単語への差し替えの指示がなされていない場合、もしくは派生単語への差し替えが指示されていて代表単語にマークを付与した後、処理は、ステップS405に戻って、読みの長さLの語を更に検索する処理から繰り返す。読みの長さLの語がもはや自立語辞書58に存在しないと判断された場合には(ステップS406)、検索単語の長さをのばすことができるか否かを判断する(ステップS412)。入力された仮名文字列の全長さAに対してM+L<Aならば、読みの長さLを大きくすることができると判断し、読みを一文字分長くする処理(即ち、Lを値1だけインクリメントする処理)を行なう(ステップS414)。読みの長さLを値1だけ増加した後、ステップS405から上述した処理を繰り返す。
【0075】
この結果、展開バッファには、開始位置Mにおける長さ1から最大長さまでの読みの全単語が展開される。単語の展開およびコスト付与などについては、第1実施例と同様に行なわれる(図4参照)。読みの長さを順次長くしていって、単語長が伸ばせなくなると(ステップS412)、次に単語検索の開始位置Mを、入力した仮名文字列の末尾に向かって移動可能か否かを判断する(ステップS416)。移動可能であれば、その開始位置Mを先頭とする単語の検索はすべて終わったと判断し、開始位置Mを値1だけインクリメントする処理を行なった後(ステップS418)、読みの長さLを値1に戻して、上述した処理を繰り返すか越す。従って、これらの処理が行なわれると、展開バッファには、入力した仮名文字列を構成し得る可能性のある総ての代表単語および付属語が展開され、かつ派生表記のある代表単語については、これにマークを付与した状態とされる。
【0076】
以上の処理により単語検索処理(図14ステップS400)が完了する。そこで、次に文節分かち書き処理が行なわれる(ステップS420)。文節分かち書きは、周知のものであり、展開バッファに展開した上記単語を用い、各単語に付与した値の総和がもっとも小さな値となるように、文節の組み合わせを決定する。文節分かち書きの処理については第1実施例と変わるところは特にない。
【0077】
次に係り受けの検定処理を行なう(ステップS430)。係り受けの検定についてもその内容は第1実施例と同様であるが、本実施例では、上述したように、展開バッファには代表単語のみが展開されており、派生単語は展開されていない。第1実施例では、例えば「規則」+「が」+「変わる」という係り受けが存在する場合、「変わる」について派生表記「変る」が存在すれば、係り受け辞書には「規則が変わる」という係り受けと「規則が変る」という係り受けとが記憶されていた。本実施例では、係り受けの検定自体は、代表表記のみで行なうので、「きそく」+「が」+「かわる」という文字列に対する係り受けの検定は、「規則」+「が」+「変わる」のみについて行なわれる。したがって、係り受けの検定に要する時間は短縮されている。なお、本実施例では、係り受け辞書は、自立語辞書58の内部に含まれており、意味用例の管理領域に記憶されている。係り受け辞書の一例を図21に示す。係り受け辞書の内容は、第1実施例(図7参照)と同様、読み、受け語、係り語、許容する付属語からなる。また、使役や受動についても係り受けの判断や、係り受けの規則についても第1実施例と同様の規則を適用している(図13参照)。
【0078】
こうして係り受けの検定を行ない、文節分かち書きによっては決定できない単語候補(例えば「きそくがかわる」における「変わる」と「替わる」)が見いだされたものについて、係り受けが成立する単語が見いだされれば、この単語を第1候補とする処理が行なわれる。その後、第1候補とされた単語について、単語の表記を差し替える処理を行なう(ステップS440)。単語の差し替え処理は、第1候補とされた語(例えば「変わる」)について派生表記があるか否かを判断し、派生表記が存在する場合には、代表表記,派生表記の中で、最前に使用された表記を調べ、その表記に差し替えるものである。直前に使用された語が「変る」であれば、単語検索,分かち書き処理,係り受けの検定で一貫して用いてきた代表単語に代えて、派生表記である「変る」を用いるのである。
【0079】
単語差し替え処理を行なう処理ルーチンを図22に示す。この処理ルーチンでは、まず差し替えを行なう対象単語を、文節分かち書き処理により分かち書きされた最初の文節の単語に設定し(ステップS500)、その対象単語にマークがついているか否かの判断を行なう(ステップS510)。マークがついていれば派生表記が存在しかつ派生表記への差し替えが指示されている判断できるから、その後の第1候補を表示単語に差し替える処理を行なう(ステップS520)。表示単語とは、代表表記が以前に使用されていれば代表単語そのものであり、以前に派生表記が使用され学習されていればその派生単語である。対象単語にマークがついていなければ、表示単語の差し替えは行なわない。
【0080】
その後、未処理の単語がまだ残っているかを判断し(ステップS530)、残っていれば対象単語を一つ後ろにずらし(ステップS540)、上述したステップS510から処理を繰り返す。対象単語が残っていなければ、本処理ルーチンを終了する。なお、上述した処理において、派生表記が存在する場合に表示単語としてどの表記を用いるかの学習は、派生単語の管理領域の先頭に存在する単語を表示単語として利用するものとすれば容易である。この場合、代表単語を使用する場合には、派生単語の先頭に、代表表記自体(もしくは代表表記に相当する派生表記情報)を記憶しておいても良いし、派生単語の先頭に代表表記を使用するか派生表記を使用するかを示すフラグを記憶するものとしても良い。また、派生表記を用いる場合には、その表記を代表単語の管理領域に記憶しておくことも可能である。
【0081】
単語差し替え処理に続く、表示処理では、差し替えた単語の表記に従い、仮名漢字変換された後の語候補をCRT26上に表示する処理を行なう。なお、派生表記は、図19および図20に示したように、派生表記に対応した漢字を用意しているのではなく、派生表記の種別を示す番号を、派生表記セパレータの後に記録しているに過ぎない。従って、表示処理では、この番号に従って、例えば派生表記情報が「4」であれば、送りがなの「許容」であると判断し、代表単語「変わる」を「変る」と表示するのである。
【0082】
以上説明した本実施例によれば、入力された仮名文字列に対して単語を検索し分かち書き処理を行ない、係り受け処理を行なうまでは、語候補は代表単語のみを用いる。したがって、派生表記が認められている単語を検索した場合でも、派生表記については考慮する必要がなく、各々の処理を高速に行なうことができる。また、語候補を展開する展開バッファの容量も小さなものですませることができる。更に、複数の係り受けが存在する場合でも、係り受けの判定を容易に行なうことができるという利点が得られる。これを、図21の例を用いて説明する。図21に例示するように、「規則」+「が」+「変わる」、「取り扱い」+「が」+「変わる」、「荷物」+「の」+「取り扱い」という三種類の係り受けがあり、各単語について「変る」「取扱い」という派生表記が存在するとする。この場合、例えば「規則が変わる」について、「規則」+「が」+「変る」という表記が学習されたとする。この場合、「変わる」と「変る」を別々に係り受け情報として管理していると、「とりあつかいがかわる」を変換する際と、「きそくがかわる」の変換において「変る」が学習されていても、「取り扱い」+「が」+「変わる」と変換されてしまう。これに対して本実施例では、「変わる」については「本則」ではなく派生表記の「許容」を用いると言う学習がなされることになるので、他の係り受けが成立しても「変わる」については「変る」が一貫して用いられることになる。
【0083】
また、「にもつのとりあつかいがかわる」を変換する場合には、従来の係り受けの判断では、「荷物の/取り扱い」という係り受け情報があっても、「荷物の/取扱い」という係り受けが存在しないと、「荷物の/取り扱いが/変わる」という係り受けの連鎖の成立と、「取扱いが/変わる」という連鎖の成立とを比較し、前者の係り受けの成立を優先してしまうことになる。この結果、直前に「取扱いが/変わる」が学習されていても、「荷物の/取り扱いが/変わる」と変換されてしまう。これに対して本実施例では、「取り扱い」という語について「許容」の派生表記を用いることが学習されるのみなので、一旦「取扱い」を学習すれば正しく「荷物の/取扱いが/変わる」と変換することになる。
【0084】
なお、この実施例では、単語検索,文節分かち書き処理,係り受け検定までを代表単語で行なっているが、これらの処理の一部を代表表記と派生表記とを用いて行なうものとすることも差し支えない。
【0085】
以上本発明のいくつかの実施例について説明したが、本発明はこうした実施例に何等限定されるものではなく、例えば最小コスト法に代えて2文節最長一致法などの他の文節分かち書きの手法を用いた構成など、本発明の要旨を逸脱しない範囲内において、種々なる態様で実施し得ることは勿論である。
【0086】
【発明の効果】
以上説明したように本発明の第1の仮名漢字変換装置および仮名漢字変換方法では、係り語と受け語の情報に該当する文節が検索されたとき、係り語に付属する語が許容付属語であるかの判定、および受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかの判定を行ない、この検索結果に基づいて、文節分かち書きの候補を制限する。従って、係り受けの情報が存在する場合、単純に両語の存在によって係り受けの成立を見るのではなく、係り語に付属する語が、両語の関係を許す場合に係り受けの成立とし、かつ受け語が使役または受動を示す語である場合には、係り語に付属する語が使役または受動に対応した語である場合に、係り受けの成立として、文節候補の制限を行なうから、文節分かち書きの非所望な候補は選択され難くなり、所望の分かち書きがなされる可能性が高くなるという優れた効果を奏する。なお、文節候補の制限に代えて、既に他の手法により推定された文節分かち書きを前提として、各文節毎の漢字候補の優先順位を変更するものとすれば、所望の漢字候補を第1候補として得られる可能性を高めることができる。単に係り受けの情報を用いて単語の候補の優先順位を変更するだけでなく、文節分かち書きの段階で係り受けの情報に用い、更に係り受けの成立を使役や受動の場合にも判定できるので、高次の言語活動である係り受けを生かした分かち書き候補を得ることができるのである。また、使役・受動の係り受けの解析に特別な辞書を用意する必要がなく、処理も高速に行なうことができる。
【0087】
この他、請求項2の仮名漢字変換装置によれば、係り受けの検定においては、代表表記のみを用いるので、係り受けの検定に要する時間および必要なメモリ容量を低減できるという効果を奏する。更に、請求項3の仮名漢字変換装置では、上記の使役・受動を含む係り受け情報を用いて、文節分かち書きの制限に代えて文節毎の漢字候補の優先順位を変更するから、係り受けの情報を用いて所望の漢字候補を高い優先順位で得ることが可能となる。また、請求項4の仮名漢字変換装置によれば、分かち書きのための検索時間が短くて済み、更に鎖交した係り受けを誤って選択するということがないという効果を奏する。
【0088】
請求項5記載の仮名漢字変換装置によれば、係り受けの成立する語ほど優先的に文節候補にできるという効果を奏する。また、請求項6記載の仮名漢字変換装置によれば、係り受けに基づいて文節分かち書きを優先的に選択すると共に、係り受けの成立する語を仮名漢字変換の第1候補とするという効果を奏する。
【0089】
請求項7記載の仮名漢字変換装置によれば、付属語に関する情報量を低減することが可能となる。請求項8記載の仮名漢字変換装置によれば、係り受けを形成する係り語と受け語との間に修飾する語が存在するような場合にも、係り受けを見い出すことができるという効果を奏する。加えて、この係り受けの関係が見いだされたとき、前記起点となった文節から該見いだされた文節までの範囲を、次の係り受けの検索範囲から除外するものとすれば、係り受けの交差を排除して正しい係り受けの誤判定を回避すると共に、係り受けの検索の高速化を図ることが可能となる。
【0090】
請求項9記載の仮名漢字変換装置によれば、係り受けの関係にある単語を含む文節が見いだされなかった場合にも、適正な単語候補を選択することができる。
【0091】
本発明の第2の仮名漢字変換装置および仮名漢字変換方法によれば、係り受け情報辞書を参照して係り受け検定を行なう際、単語辞書に登録された代表表記のみを用いて検定を行なって、入力された文字列を構成する単語を特定するが、この特定された単語の候補文字列を表示する際には、単語辞書に記憶された代表表記のみならず、派生表記を用いて表示を行なうから、係り受けを含む文法処理の高速化と表記の多様性とを両立させることができるという効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である仮名漢字変換装置における仮名漢字変換機能の実現形態を示す機能ブロック図である。
【図2】実施例としての仮名漢字変換装置が実現されるハードウェアを示すブロック図である。
【図3】文節分かち書き部102において実行される文節分かち書き処理を示すフローチャートである。
【図4】最小コスト法による文節分かち書きの様子を示す説明図である。
【図5】最小コスト法による文節分かち書きの他の例を示す説明図である。
【図6】実施例における係り受け検定の処理を示す説明図である。
【図7】第1実施例における係り受け辞書の一例を示す説明図である。
【図8】係り受けの情報を用いて行なわれる文節分かち書きの処理の一例を示す説明図である。
【図9】同じく他の文例の処理の様子を示す説明図である。
【図10】同じくその場合の仮名漢字変換の候補の優先順位を示す説明図である。
【図11】異なる類型の係り受けの処理の様子を示す説明図である。
【図12】その場合の仮名漢字変換の候補の優先順位を示す説明図である。
【図13】一つの入力文字列に内に複数の係り受けが存在する場合の類型を示す説明図である。
【図14】第2実施例における仮名漢字変換処理ルーチンを示すフローチャートである。
【図15】その単語検索処理の詳細を示すフローチャートである。
【図16】自立語辞書58の内部構成を示す説明図である。
【図17】基本単語領域の管理の様子を示す説明図である。
【図18】単語データの構成を示す説明図である。
【図19】単語情報の詳細を各セパレータとともに示す説明図である。
【図20】派生表記の例を示す説明図である。
【図21】係り受け辞書の概略構成と代表表記・派生表記の一例を示す説明図である。
【図22】単語差し替え処理ルーチンを示すフローチャートである。
【符号の説明】
21…CPU
22…ROM
23…RAM
24…キーボード
25…キーボードインタフェース
26…CRT
27…CRTC
28…プリンタ
29…プリンタインタフェース
30…ハードディスクコントローラ(HDC)
31…バス
32…ハードディスク
40…文字入力部
42…変換制御部
44…変換後文字列出力部
50…文字列入力部
52…文字格納部
54…自立語候補作成部
56…自立語解析位置管理部
58…自立語辞書
64…付属語候補作成部
66…付属語解析位置管理部
68…付属語辞書
70…係り受け学習部
70…学習部
72…自立語学習部
74…補助語学習部
76…接辞学習部
78…文字変換学習部
80…単語データ作成部
82…接続検定部
84…接続検定テーブル
86…コスト計算部
90…係り受け候補調整部
92…受動解析部
94…助詞許容解析部
96…係り受け範囲管理部
98…係り受け辞書
100…単語データ格納部
102…文節分かち書き部
104…係り受け転置情報調整部
106…文節データ格納部
108…変換文字列出力部
[0001]
[Industrial application fields]
The present invention relates to a kana-kanji conversion device and a kana-kanji conversion method, and more particularly to a kana-kanji conversion device and a kana-kanji conversion method that use dependency information between words for phrase segmentation or word kanji candidate selection.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, various kana-kanji conversion devices that convert a kana character string input from a keyboard or the like into a desired kana-kanji mixed sentence have been proposed as a Japanese sentence input device or a Japanese sentence editing apparatus. As such a kana-kanji conversion device, it is not necessary for the user to designate the position of separating words and phrases one by one, and it is desired that the converted character string has the notation desired by the user. In Japanese, there are many homonyms and homonyms, so in order to obtain the correct kana-kanji mixed sentence without error, the meaning of the sentence must be analyzed in the end. In order to analyze, it is necessary to have a knowledge base of tens of thousands of words that are at least organically related.
[0003]
Therefore, the conventional kana-kanji conversion device attempts to obtain the result desired by the user without analyzing the meaning by devising the phrase segmentation process and the learning process for selecting the homonym. The segment segmentation process includes a two-segment longest match method in which a longest phrase is obtained as a first candidate among phrases that can be composed of two phrases as a basic unit, a word that can be a candidate for a word constituting the phrase, and There is a minimum cost method in which a cost is given to a combination of words, and a phrase whose score satisfies a predetermined condition is a first candidate. Also, in the learning process, learning of homophones with the highest priority given to the word selected by the user immediately prior to the homophone is used as the next candidate, or used as the length of the phrase containing a word. Learning the phrase length that gives the highest priority to the length specified by the person is known.
[0004]
Furthermore, recently, we have focused on specific relationships between words (for example, “hot” and “tea” in “hot tea” or “hot” and “summer” in “hot summer”) and remembered this relationship. By preparing a dictionary, when one word (for example, “tea”) is identified, a word related to the word (for example, “hot”) is selected as the first candidate (for example, JP-A-3-105664 “Kana-Kanji conversion device” and JP-A-4-278761 “Kana-Kanji conversion device”). These specific relationships between words are called “dependency” or “co-occurrence”.
[0005]
[Problems to be solved by the invention]
However, these Kana-Kanji conversion devices only look at the relationship between words in a segment obtained by segmenting a segment once. Memorized dictionaries are also useless. In the first place, since only the relationship between adjacent words is seen as the relationship between words, the most natural kana-kanji mixed sentence in Japanese may not be obtained. However, if you broaden the scope of studying the relationship between words, the number of combinations will increase geometrically as the number of input kana characters increases, thus completing the kana-kanji conversion. It takes an unacceptably long time.
[0006]
In addition, as the relationship between these words, the role of particles in Japanese is overlooked in the information that only two or more words are used in close proximity (hereinafter referred to as “co-occurrence” in a broad sense) A correct conversion result cannot be obtained. For example, just remembering the information that "reporter" and "return to work" have a co-occurrence relationship, even if "quick crazy" can be correctly converted to "reporter will return to work" “To go to work” will be “returned to the reporter” and will not be converted correctly. Therefore, as the dependency information, “noun” + “particle” + “use” (for example, “reporter” + “ga” or “ha” + “go home”), Dependent information including information on adjuncts (particles, etc.) that are allowed to be used can be stored and stored, but in Japanese, the particles that are adjuncts change in expressions such as passive and servants. Therefore, this time invites a problem that “cannot be crisp” cannot be correctly converted. Nonetheless, if the range of allowed adjuncts is expanded in order to allow the formation of dependency in the case of passive or use, the accuracy of kana-kanji conversion by dependency will be reduced.
[0007]
Furthermore, in Japanese, there is a feature that there are some cases where different notation is permitted even for the same word, such as “reception” and “acceptance”, or “acceptance”. In order to accept all of the above, there is a problem that not only all of the written words must be registered in the word dictionary but also in the dependency dictionary. Registering all derivative notations in order to make all these derivative notations subject to dependency not only makes the dependency dictionary very large, The time required also increased, and it was thought that it would be unacceptable.
[0008]
The kana-kanji conversion device and the kana-kanji conversion method of the present invention solve these problems, and use the dependency relationship in consideration of usage and passiveness to split the input character string and change the priority order of the kanji candidates. This was done for the purpose of obtaining a desired kana-kanji mixed sentence, and the following structure was adopted.
[0009]
[Means and Actions for Solving the Problems]
The kana-kanji conversion device of the present invention is
A kana-kanji conversion device that refers to a word dictionary and creates a phrase kanji writing candidate by segmenting an input kana character string and generating a candidate character string constituting a kana-kanji mixed sentence using the phrase kanji writing candidate There,
A dependency information dictionary that stores information on a dependency word and a reception word that constitute a dependency between predetermined phrases together with information on an allowable adjunct allowed between the dependency word and the reception word;
When performing the process of segmenting the input character string, referring to the independent word dictionary storing the independent words and the auxiliary word dictionary storing the auxiliary words, the words between the words that can be generated from the input kana character string Generating means for generating the combination comprehensively;
A phrase search means for searching a phrase having a word corresponding to the information of the dependency word and the received word with reference to the dependency information from the generated combination of words;
First determination means for determining whether a word attached to the related word is the permissible attached word when a phrase having a word corresponding to the related word and the received word information is searched;
When a clause having a word corresponding to the related word and the received word information is searched, if the attached word following the received word is a word representing a use or passive, the word attached to the related word is A second determination means for determining whether the word corresponds to a use or passive character;
When either of the first and second determination means makes an affirmative determination, the combination of the searched words is regarded as a priority candidate in the phrase segmentation, and when neither of them makes an affirmative determination A phrase candidate restriction unit that does not set the combination of the searched words as a priority candidate in the phrase segmentation;
The main point is that
[0010]
The Kana-Kanji conversion method corresponding to this Kana-Kanji conversion device is
A kana-kanji conversion method for referring to a word dictionary, writing an input kana character string into phrases, and generating a kana-kanji mixed character string candidate by a computer,
When performing the process of segmenting the kana character string input from the keyboard, it can be generated from the input kana character string by referring to the independent word dictionary storing the independent words and the auxiliary word dictionary storing the auxiliary words A comprehensive combination of words is generated by a computer,
Dependency information is stored by referring to the dependency information stored in the combination of the generated words together with the information on the allowable adjunct allowed between the dependency words. Use a computer to search for phrases with words that correspond to the received information,
When a phrase having a word corresponding to the related word and received word information is searched and found,
Determining whether the word attached to the dependency word is the allowable adjunct;
If the adjunct word following the received word is a word representing a use or passive character, it is determined whether the word attached to the related word is a word corresponding to the use character or passive;
If any one of the determination results is an affirmative determination, the combination of the searched words is set as a preferential candidate in the phrase segmentation, and if any determination result is not an affirmative determination, Limiting the phrase segmentation candidates by a computer by not using a combination of searched words as a priority candidate in the segment segmentation.
Is the gist.
[0011]
According to the first kana-kanji conversion apparatus and the kana-kanji conversion method of the present invention configured as described above, both the dependency words and the received word information constituting the dependency between predetermined phrases are stored in the dependency information dictionary. This is stored together with information on allowable adjunct words allowed between words, and when the input character string is segmented, the dependency information stored in the dependency information dictionary is referred to. Search for phrases with words that correspond to the information. When a clause corresponding to the related word and the received word information is searched, it is determined whether the word attached to the related word is an allowable adjunct, and the adjoining word following the received word is a word representing a working or passive word. Determines whether the word attached to the dependency word is a word corresponding to the use or passive. Based on the search result, the phrase segmentation candidates are limited. Therefore, when there is dependency information, instead of simply looking at the establishment of the dependency due to the presence of both words, it is assumed that the dependency attached when the word attached to the dependency language allows the relationship between the two words, If the received word is a word indicating a service or passive, and if the word attached to the dependency word is a word corresponding to the service or passive, the phrase candidate is limited as the formation of the dependency. Undesired candidates for the split writing are difficult to select, and there is a high possibility that the desired split writing is performed. If the priority order of kanji candidates for each phrase is to be changed on the premise of phrase segmentation that has already been estimated by another method instead of the restriction of phrase candidates, the desired kanji candidate is set as the first candidate. The possibility of being obtained can be increased.
[0012]
Here, the dictionary is a word dictionary storing a word reading and a notation corresponding to the reading, and when there are a plurality of notations as a notation corresponding to the word reading, it is determined as a representative notation. And a notation information section that stores the notation defined as a derived notation,
The phrase search means is a means for searching for the dependency using only the representative notation stored in the word dictionary,
Furthermore,
The phrase segmentation candidate may include candidate character string display means for displaying the converted candidate character string using the representative notation and the derived notation stored in the notation information part of the word dictionary.
[0013]
In this kana-kanji conversion device, a representative notation and a derived notation are stored in the word dictionary, and only the representative notation is used for the dependency test for each phrase written in the first kana-kanji conversion device. A word is specified by using and a candidate character string for the specified word is displayed using a representative notation and a derived notation.
[0014]
Furthermore, in the kana-kanji conversion device,
Instead of the phrase candidate restricting means, a kanji candidate priority means for changing the priority order of kanji candidates for each phrase based on the determination results of the first and second determining means may be provided. In this case, although those that do not fall under dependency are left as candidates for kanji, those having dependency are preferred as candidates for kanji.
[0015]
Moreover, the phrase search means in the kana-kanji conversion device is
A backward search means for searching for phrases including words corresponding to the dependency information in order forward, excluding the already registered searched range, starting from the backward phrase;
Searched range registration means for registering from the starting phrase to the found phrase as a searched range of dependency information when a phrase having a word corresponding to the dependency information is found by the search Can also be provided. In this way, at the time of the next search, this range is excluded from the search range, so that the search time for the division can be shortened, and there is no possibility of erroneously selecting linked dependency.
[0016]
The phrase candidate restriction means in the kana-kanji conversion device is preferentially selected from the phrase segmentation including the word when the first or second determination means determines the presence of the corresponding quasi-word, the received word, and its associated word. If a means for selecting is provided, it is preferable to preferentially use the split writing in which the dependency is established.
[0017]
In the kana-kanji conversion device comprising the kanji candidate priority means,
This kanji candidate priority means, when the first or second determination means determines the presence of the relevant vocabulary, receiver, and its adjunct, preferentially selects the phrase segmentation including the word, Means for selecting the word as a first candidate for kana-kanji conversion may be provided. In this case, the division and the selection of the first candidate are made based on the dependency, and the establishment of the dependency has the highest priority.
[0018]
Further, the phrase search means includes means for determining that the dependency relation is established when the auxiliary word existing between the words having the dependency relation is a word having a predetermined specific grammatical structure. If it is provided, it is possible to reduce the amount of information related to attached words.
[0019]
In the kana-kanji conversion device provided with the phrase search means,
The phrase search means
Starting from a predetermined phrase, refer to the dependency information stored in the dependency dictionary, and search for a phrase having a word corresponding to the dependency information up to a phrase other than the phrase adjacent to the phrase as the origin. Means to search for alternate phrases,
Search range exclusion means for excluding the range from the starting phrase to the found phrase from the search range by the next phrase search means when a dependency relationship is found by the separate phrase search means;
It can also be provided.
[0020]
In this case, it is possible to avoid the erroneous determination of the correct dependency by eliminating the intersection of the dependency and to speed up the search for the dependency.
[0021]
In such a kana-kanji conversion device, a known phrase segmentation technique can be applied to a range in which a phrase including a word having a dependency relationship is not found with reference to the dependency dictionary. For example, a two-segment longest match method may be used, and a score (cost) is added to the likelihood of coupling between words or / and between phrases, so that the likelihood of coupling is maximized (minimum cost). A word or / and a phrase may be selected. Desirably, a combination that maximizes the likelihood of coupling between words and between phrases may be selected.
[0024]
In this kana-kanji conversion device and kana-kanji conversion method, when performing dependency testing with reference to the dependency information dictionary, the test is performed using only the representative notation registered in the word dictionary, and the input character string is converted. Although the word which comprises is specified, when displaying the candidate character string of this specified word, not only the representative notation memorize | stored in the word dictionary but a derivative notation is displayed. Therefore, it is possible to achieve both high-speed grammar processing including dependency and diversity of notation.
[0025]
【Example】
In order to further clarify the configuration and operation of the present invention described above, preferred embodiments of the present invention will be described below. FIG. 1 is a block diagram showing a control logic for kana-kanji conversion, and FIG. 2 is a block diagram showing hardware on which the kana-kanji conversion control logic actually operates. As shown in FIG. 2, this apparatus includes the following units connected to each other by a bus 31 around a known CPU 21. The units connected to each other by the CPU 21 and the bus 31 will be briefly described.
[0026]
ROM 22: mask memory for storing a kana-kanji conversion program, etc.
RAM 23: Readable and writable memory constituting main memory,
Keyboard interface 25: An interface for managing key inputs from the keyboard 24.
CRTC 27: CRT controller that controls signal output to the CRT 26 that can display in color.
Printer interface 29: an interface for controlling output of data to the printer 28;
A hard disk controller (HDC) 30; an interface for controlling the hard disk 32;
It is. The hard disk 32 stores various programs loaded into the RAM 23 and executed, a kana-kanji conversion processing program provided in the form of a device driver, or various conversion dictionaries referenced by the kana-kanji conversion processing program.
[0027]
With the hardware configured in this manner, text can be input, kana-kanji conversion, editing, display, printing, and the like. That is, the character string input from the keyboard 24 is subjected to predetermined processing by the CPU 21, stored in a predetermined area of the RAM 23, and displayed on the screen of the CRT 26 via the CRTC 27.
[0028]
Next, functions executed by the hardware thus configured will be described with reference to FIG. The configuration and operation of each unit shown in FIG. 1 will be outlined. The processing performed here is executed by the central processing unit (CPU 21) based on data input from the keyboard 24. All processing is performed by the CPU 21. As for kana-kanji conversion, a predetermined interrupt process is activated when the keyboard 24 is operated, and the input key image is converted into a corresponding kana character string, and further converted into a kana-kanji mixed character string. Starts. Of course, in a computer capable of parallel processing, kana-kanji conversion may be performed by one application (input method), and the conversion result may be transferred to a required application. In this case, inputs from the keyboard 24 are collectively accepted by the input method.
[0029]
The key image from the keyboard 24 is received by the character input unit 40 and is converted into a corresponding kana character string here. In the case of romaji input, it is converted into a kana character string with reference to a predetermined conversion table. Each time one kana character is obtained, the character input unit 40 sends the kana character to the conversion control unit 42. The conversion control unit 42 plays a central role in kana-kanji conversion, controls various kana-kanji conversion described later, and sends the result to the converted character string output unit 44. The post-conversion character string output unit 44 actually sends a signal to the CRTC 27 and displays the post-conversion character string on the CRT 26.
[0030]
The conversion control unit 42 passes the received kana character to the character string input unit 50. The character string input unit 50 stores the kana character string in the character storage unit 52. Based on this character string, the independent word candidate creation unit 54 and the adjunct word candidate creation unit 64 create word data candidates. The independent word candidate creation unit 54 uses the independent word dictionary 58 stored in advance in the hard disk 32 and performs processing for extracting independent word candidates from the obtained kana character string under the management of the independent word analysis position management unit 56. Do. On the other hand, the adjunct word candidate creation unit 64 uses the adjunct word dictionary 68 and performs processing for extracting an adjunct word candidate from the obtained kana character string under the management of the adjunct analysis position management unit 66. The process of extracting independent word candidates and auxiliary word candidates while moving the analysis position will be described later.
[0031]
Here, the independent word dictionary 58 changes priorities such as homonyms and affixes by learning. This learning process is performed by the dependency learning unit 70, the independent word learning unit 72, the auxiliary word learning unit 74, the affix learning unit 76, and the character conversion learning unit 78. The dependency learning unit 70 gives priority to the combination selected by the user in the same word combination when the user selects a word other than the word corresponding to the dependency under the condition that the dependency is satisfied. It learns dependency relationships. The independent word learning unit 72 learns the last selected word as the highest priority candidate in the independent word group in which the homonyms exist. The auxiliary word learning unit 74 learns which word form is used to convert an auxiliary word such as “please”, for example, “please” or “please”. Further, the affix learning unit 76 learns conversion formats (for example, “Go”, “Go”, etc.) such as prefixes and suffixes. The character conversion learning unit 78 learns a character string when the input character string is confirmed as hiragana or katakana as it is, and outputs the hiragana or katakana determined in the subsequent conversion processing as a candidate. .
[0032]
The independent word candidate creation unit 54 and the attached word candidate creation unit 64 obtain the created word candidates, and the word data creation unit 80 creates data for each word candidate. That is, as a result of the connection verification unit 82 referring to the connection verification table 84 for connection between the obtained independent words and ancillary words, independent words and independent words, and connection between phrases consisting of “independent words + ancillary words”, The result of the cost calculation unit 86 performing the overall cost calculation is obtained and output as data for each word. This word data is temporarily stored in the word data storage unit 100, receives the adjustment output from the dependency candidate adjustment unit 90, and is used for the phrase segmentation process.
[0033]
The dependency candidate adjustment unit 90 receives the word candidates from the independent word candidate creation unit 54 and the adjunct word candidate creation unit 64, and tests the dependency. The dependency test is performed by referring to a dependency dictionary 98 prepared in advance on the hard disk 32. The range in which the dependency test is performed is managed by the dependency range management unit 96. In addition, there are several allowable conditions for the dependency relationship test, which are determined by the service / passive analysis unit 92, the particle allowable analysis unit 94, and the like. The dependency candidates adjusted by the above-described dependency test and the word data described above are integrated by the word data storage unit 100 and used for the phrase segmentation processing by the phrase segmentation unit 102. The phrase segmentation unit 102 determines a first phrase segmentation candidate from the obtained data.
[0034]
With the above processing, the first candidate for phrase segmentation and the first candidate for kana-kanji conversion for each phrase are determined. The phrase segmentation unit 102 stores the candidate in the phrase data storage unit 106, and the stored candidate is output to the conversion control unit 42 by the conversion character string output unit 108. The conversion control unit 42 displays this character string as a candidate character string, and an undesired character string may be a candidate. Therefore, in response to an instruction from the user, processing such as display and selection of the next candidate is performed. Do. These instructions and selection results are input to the phrase data storage unit 106 and each of the learning units 70 to 78 described above, and are used to determine part of the phrase or rewrite priority by learning. Although not shown, when the character string is finalized by the user, all data temporarily stored in each unit is deleted and prepared for the next conversion.
[0035]
The outline from the input of the kana character to the output of the conversion word character string has been outlined above. Next, details of each process will be described. First, general phrase segmentation processing will be described, and then dependency processing, which is a main part of the present invention, will be described. FIG. 3 is a flowchart showing an outline of phrase segmentation processing by the minimum cost method. As shown in the figure, first, after performing initialization processing (step S200) such as erasing temporarily stored data and initializing the analysis position to the first digit, processing for obtaining the analysis position is performed (step S200). Step S210). The analysis position is a position where the kana character string input so far is advanced one by one in order. For example, if the kana character string “Kagaku wa hako hakubu” is input as shown in FIG. 4, the first analysis position is the position of the first digit “ku”. At this analysis position, a process for searching the independent word dictionary 58 and the attached word dictionary 68 stored in the hard disk 32 is performed (step S220).
[0036]
After searching the dictionary, a process for checking the combination of the obtained word with the previous word is performed (step S230). If only words that cannot be combined between words are obtained, the dictionary is further stored. Search for. For example, in the example shown in FIG. 4, “wa” of the counsel retrieved from the adjunct dictionary 68 for “ha” of “kohahakobu” cannot be combined with the immediately preceding case particle “wo”. Therefore, it is treated as invalid data by the connection verification by the word data creation unit 80 and the connection verification unit 82. In FIG. 4, a symbol “x” is attached to a word that is determined to be invalid by such a combination check. The connection between words is stored in advance in the connection verification table 84. This connection verification table 84 is a table that gives information on the possibility of connection between parts of speech of a word. It is given as a matrix of × 400. When the dictionary search and the combination check at one analysis position are completed, the analysis position is advanced in order and the process is further repeated.
[0037]
For words that are likely to be combined, cost calculation is performed next, and processing for obtaining the minimum total cost of the words is performed (step S240). This process is performed by the cost calculation unit 86. In the example shown in FIG. 4A, “car” is, for example, “ku” + “ru” + “ma”, “car” + “ma”, “car”. , And when applying words to them, it is assumed that it has the cost of independent words = 2 and attached words = 0, and if it is “suffer” (independent words) + “style” (independent words), The total cost of “flow” is calculated as 4. At this time, the cost of “between” is 4 because the minimum total cost is calculated, and “come” + “between” is not the cost 6 of “bitter” + “flow” + “between”. This is because the case cost 4 is adopted. Since “de” and “ha” are attached words, the cost of the word “car” = 2 with the lowest cost among the previous words becomes its own cost. In FIG. 4, the cost of each word is shown in the lower right.
[0038]
After the above cost calculation, the cost of each word is checked, and a process of invalidating an inappropriate cost is performed (step S250). Inappropriate cost is a combination of words that is costly compared to other word combinations. In other words, selecting a combination of words such as “ku” + “toru” will be more expensive than other words “coming” and “repeating” obtained up to that position. Judgment is made and excluded from the phrase candidates. In FIG. 4, words that are not adopted based on this concept of minimum cost are shown as “●” in the upper right of the word. In FIG. 4, “◯” indicates that the word remains as a word that may form a phrase candidate as a result of the above-described combination check and cost check.
[0039]
Next, a process for linking the word candidates thus given the cost is performed (step S260). That is, for words for which coupling is valid, the coupling relationship is related by setting a pointer. In the example of FIG. 4, “come”, “carry”, “car”, “to”, “de”, “ha”, “ha”, etc. have been calculated as the minimum total cost. It links to “to” and “car” to “de” and “to”. This combination check, cost calculation, and linking process are repeated while searching for all words at one analysis position is completed. Further, when the dictionary search at the analysis position is completed, the analysis position is further advanced by one, the establishment of a new word is examined, and the connection check and cost calculation are repeated in the same manner.
[0040]
When the analysis position reaches the position of the last input kana character and the analysis is completed for all words (step S265), a process of searching for the path with the minimum cost is performed on the assumption of the above processing (step S265). Step S270). This process is performed by the phrase segmentation unit 102, and is a process of searching for a combination of valid words that minimizes the sum of the costs assigned to the words. In the example of “Humps until coming”, as shown by the solid line J in FIG. 4B, the division cost of “by car” + “carrying a box” + “carrying” is a total cost of 18, so the minimum Selected as a cost. Although not the minimum cost, other phrase segmentation candidates are also searched. For example, as shown by a broken line B in FIG. 4B, the division is “by car” + “child” + “carry” (cost = 20). In this way, after the candidate for the division is created (step S280), the process for creating the candidate inside each phrase is performed (step S290). That is, for example, candidates such as “box” and “box” are prepared for “hako wa” within one phrase segment. These phrase candidates and word candidates are used when the user is instructed to change the way of segmenting or to display the next candidate.
[0041]
An example of another phrase segmentation is shown in FIG. This example is used to explain the dependency described later, but shows a case where the phrase segmentation by the minimum cost method that does not consider the dependency is applied to “make a person squeak”. In this example, the combination check (step S230) excludes “ゃ” because the direct combination with the noun is invalid (x mark). Also, “Thu”, “Mr.”, “Company”, etc. are excluded from the minimum total cost check (step S250) (marked with ●). As a result, in the example shown in FIG. 5, the phrase segment “Kisakuo” + “Kisaku” is written, and if the priority order of each word is the order shown in FIG. “Your company” will be selected as the first candidate. As for “Kisha” in the second half, if the analysis has only reached the end of “Kisha”, the same “Your company” as the first candidate in the first half will be selected. When “seed”, “do”, etc. are attached after “”, “returning to office” can be displayed as the first candidate in consideration of, for example, the word “usage” attached.
[0042]
In the above explanation, the cost calculation is performed only for each word itself. However, in practice, a point for reducing the cost is given according to the degree of ease with which words are joined, or clauses are joined. Similarly, it is possible to give a point for reducing the cost to a combination of phrases that are easily combined based on grammatical rules. Here, in order to facilitate the understanding of the phrase segmentation process, only the simplest method has been described.
[0043]
Based on the above phrase segmentation process, the phrase segmentation process by dependency will be described next. FIG. 6 is a flowchart showing a process for performing a dependency test. This process is performed in parallel with the processes of steps S220 to S250 shown in FIG. Actually, after obtaining the analysis position (step S210), when searching various dictionaries, the dependency dictionary 98 is also searched along with the search of the independent word dictionary 58 and the attached word dictionary 68, and the combined check and the minimum total The following dependency verification process is performed together with the cost check accompanying the cost calculation. When this process is started, first, the dependency candidate adjustment unit 90 searches the dependency dictionary 98 for words that can be candidates at the analysis position (words with a circle), and whether the dependency information exists is a word. It is determined whether or not (step S300). Note that if the word at the analysis position is a conjunction, a moving verb, or an independent word, there is no dependency, and the processing for that word is immediately terminated.
[0044]
As an example, a case will be described in which the kana character “Kisaku Seki” is input and the analysis proceeds to “Kisaku Sakusha”. At this time, “reporter”, “your company”, “train”, “return home”, etc. are obtained as candidates for “Kisha” in the latter half, so whether there is any information in the dependency dictionary 98 for each of these words Is examined. If the word to be received is a predicate such as “heard” or “handed” and has a usage form, the word “hearing” or “handy” or the basic form “listening” or “handed” is used as a keyword. Thus, the dependency dictionary 98 is configured to be referable.
[0045]
An example of the structure of the dependency dictionary 98 in the embodiment is shown in FIG. The dependency dictionary 98 of the present embodiment has a structure in which [headline + reception language (stem) +1 dependency word + attached word information] as a unit. In the example of FIG. Headline “Kissha” + Receiving Word “Return to Home” + Spoken Word “Reporter” + “Ga”, Headline “Kisha” + Spoken Word “Returning Home” + Spoken Word “Your Company” + “Ni”, Headline “Kissha” + There are multiple sets of data for a single spoken language, such as the spoken language “returning to the office” + clerk “train” + “de”. Furthermore, for the headline “Kissha” and the received word “Reporter”, the headline “Kissha” + the received word “Reporter” is similarly applied to each word constituting the related word group “Your company, newspaper, news agency ...”. ”+ Linguistic words“ your company ”+“ no ”etc., each linguistic word has data. These data are arranged in the order of the Japanese syllabary of the headwords for the received words. Of course, similar dependency information is stored for other words. The dependency candidate adjustment unit 90 searches the dependency dictionary, and when there are corresponding headlines and received words, the candidate candidates are taken out of the dictionary and used for the dependency test. Since these data have the same heading and spoken word, the heading word and the catching word may be prepared at the head of the entire data group, and the information of the related words and the attached words may be individually prepared.
[0046]
Further, in the example of FIG. 7, only the minimum information is shown in order to show the dependency test in an easy-to-understand manner, but the actual dependency dictionary 98 includes “received word header + dependent word header”, “received word header length”. ”,“ Received Word Kanji ”,“ Received Word Part of Speech ”,“ Dependency Word Heading Length ”,“ Modified Word Kanji ”,“ Dependent Word Part of Speech ”,“ Dependency Relationship ”, and the like. The part-of-speech of the received word or the dependency word is necessary for examining the establishment of the dependency and the admissibility of the attached word, and the heading length data is necessary for cutting out from the dictionary 98 at high speed.
[0047]
If a word for which dependency information exists (hereinafter referred to as a received word) is found, the next word corresponding to the dependency is forwarded, except for the range where the dependency has already been established. A search is performed to determine whether or not there is a related term (step S310), and it is determined whether or not there is a corresponding related term (step S320). At this time, the search for the related words is performed not only for the word having the minimum total cost but also for other words. Now, in the dependency dictionary 98, as shown in FIG. 7, “reporter (returned to the company)”, “returned to the company”, “customer (to) reporter”, and “return to the train (train)” It is assumed that the receiver is stored. Here, the kana in () is an adjunct that is allowed as possibly existing between words that have a dependency relationship. For the “return to office” and “reporter” determined to be possible to be received in step S300, there are received words in the dependency information. When it is determined whether there is a related word for each of them, in the example shown in FIG. For "Return to work", the character string candidates "Kisha" are judged as "Reporter", "Your company", and "Car". For "Reporter", the character string candidate "Kisha" is "Your company" Is determined to be applicable. If it is determined in step S320 that there is a dependency word, it is next determined whether or not an adjunct word existing between both words is a word that allows the presence of dependency (step S330). .
[0048]
The particle admissibility analysis is to determine whether or not the allowable relationship defined by the dependency type is viewed, and has the following types for each dependency type.
[I] Continuous modification type
▲ 1 Noun + particle + particle in the case of a predicate
Case particles "ga""from""de""to""ni""to""more""to""no"
Particle particle "ha"
(2) In the case of idioms + idioms
(3) Optional particle in the case of noun + predicate (particle abbreviation type)
"GA""HA" particle, adjunct particle
[II] Complex modification type
(4) Noun + particle + particle in case of noun
"of"
(5) Particles in the case of body + body (parallel)
"Ya""To"
(6) In the case of predicate form + noun
(7) In case of conjunction + noun
[0049]
That is, it is assumed that the relationship between two words determined to be in a dependency relationship belongs to any one of the above-mentioned (1) to (7), and an adjunct word existing between both words in the dependency relationship (mostly Is a particle or a particle expression), the dependency dictionary 98 is set with an allowable particle for a word having a dependency relationship, and this is verified. For example, when the dependency between “promotion” and “handedness” is accompanied by the allowable setting of the particle (no ·), it belongs to the case (1) above (noun + particle + probe). “” And “ga” can exist between the two words (smooth, savvy → ○), but other case particles “kara” and “de” are unacceptable. Would be good →→).
[0050]
Regarding the relations (1) to (7), it is judged that the relations other than those listed are allowed. Examples of determinations that are permitted are listed below, but these may include cases where the dependency does not hold as an actual expression. However, dependency is a broad concept as an actual human language activity, and a too strict dependency arrangement is often not suitable for reality. Also, a too strict dependency arrangement will only lead to a mischievous increase in the dependency dictionary 98 and will also reduce the speed of dependency verification. Therefore, in this embodiment, with respect to the admissibility of attached words, the relations in which dependency occurs are divided from (1) to (7), and those that are clearly permitted or not permitted are permitted in the dependency dictionary. It is memorized as a word with a dependency relationship, and the others are allowed.
[0051]
[III] Permissible expressions-in the case of continuous modification
・ Noun + case particle expression + case particle expression in predicate
“By”, “As”, “For”, “In”, “By”, etc.
・ Noun + particle + verb particle
“Some”, “Even”, “Shi”, “But”, “M”, etc.
・ Noun + adverb + adjunct in adjunct
"Kiri""About""One by one""Only", etc.
・ Noun + adverbial expression + adverbial expression in predicate
"So,""If", etc.
・ Phrase + particle + particle
"Noha" etc.
・ Connecting particles “So” “From” “From” “Te”, etc.
・ Conjunctive particle-like expressions
・ Expression that parallels preaching + preaching “ka” “shi” “ri” “simultaneously”, etc.
[0052]
[IV] Permissible expressions-complex modifications
・ Noun + particle-like expression + particle-like expression in noun
"In", "related", "based on", etc.
・ Phrase + particle-like expression + particle-like expression in noun
"For", "like", "with", "etc."
・ Expression that parallels body language + body language "ka".
[0053]
According to the above rules, the admissibility of an adjunct word between two words for which a dependency relationship is found is determined. In the case of “reporter” and “return home” as an example, the allowable case particle is “ga”, and therefore, the establishment of dependency is not permitted for “Kisha wo Kisa”. Therefore, this is judged (step S340), and if it is determined that the dependency does not hold despite the presence of the dependency word and the reception word to establish the dependency, the next use / passive relationship is determined. A receiving test process is performed (step S342).
[0054]
The use / passive dependency test process is performed by the use / passive analysis unit 92 shown in FIG. This process will be described in detail. In the sentence example shown in FIG. 5, when the analysis further proceeds to “quickly crawl” as shown in FIG. 8, it can be determined that the service is active / passive, and the dependency processing considering the case of active / passive is performed. This is to be performed (step S342). Similar to steps S320 and S330, this process is a determination as to whether there is a corresponding related word and whether an attached word in that case is an allowable word. Focusing on “return to work” for “Kisha”, the corresponding word “reporter” exists, and then the analysis of the ancillary word shows that in the case of a service, the original adjunct “ga” is “ Since it is previously stored that “is allowed”, it is determined that the dependency is established. The relationship between “returning to work” and “your company” is “Ni”, which is an allowed adjunct. It is not allowed. Similarly, “returning to office” and “train” + “de” are also tested for dependency, and it can be seen that there is no admissible adjunct between the dependency and the reception.
[0055]
Therefore, it is determined whether the dependency is established based on the analysis results (step S344). If it is determined that the dependency is established in consideration of the use / passive, the normal dependency is determined in step S340. When it is determined that is established, the phrase including the word is preferentially processed as a phrase candidate beyond the difference in the minimum total cost (step S350). Further, the range from the received word to the related word thus found is registered as a dependency established range, a process for managing this is performed (step S360), and it is determined whether or not dependency search has been performed for the entire range ( Proceed to step S370). In addition, when the establishment of the dependency is denied in consideration of the use / passive as well as the normal dependency, the process proceeds to step S370 without performing steps S350 and 360.
[0056]
The above processing (steps S310 to 370) is repeated until the dependency is searched forward from the received word and all words except the range registered as searched have been completed. When completed, it is next determined whether or not the dependency test has been completed for a plurality of candidates for the received language (step S380). In other words, in this example, the candidate “your company”, “return home”, “reporter”, “train”, etc. for the latter half of the spoken word “Kissha” is tested to see if there is any dependency relationship. It is. A word for which a dependency relationship is established is found, the admissible analysis of the attached word is passed, and a word that is determined to have a dependency relationship is set to the highest priority as a phrase candidate (step S350). When a dependency relationship is established for a plurality of candidate words, phrase candidates with higher priorities are set in the order registered in the dictionary.
[0057]
Here, a description will be given of the fact that when a phrase including a word with a dependency is set as a phrase candidate, the phrase is prioritized even if the phrase includes a word whose minimum total cost is not reached. In the example of “Kisakusakushaseki”, the selected phrases “Kisakuo” and “Kisashise” are phrase candidates based on the minimum total cost method that does not perform dependency tests, and how to divide the phrases themselves. The same. However, for example, assuming that the kana character string “Jikkishashashasha” is input and the independent word “steam train” exists, as shown in FIG. "Becomes the first candidate with a minimum cost path (solid line G). On the other hand, if the dependency relationship (“Reporter (G)) Return to work”) is tested by the working / passive, “the above”, “Reporter” and “Return to work” will not be the minimum cost path. One candidate is selected (broken line B in FIG. 9).
[0058]
FIG. 10 shows phrase candidates that are finally obtained by deleting candidates that cannot be connected by performing connection check between words or the like for the first example sentence “Make a chat”. Therefore, the first candidate for the phrase segmentation is “return the reporter to the office”.
[0059]
As described above, an example of the usage expression has been described. As types, there are the following as nouns N1 and verbs P.
“N1 + P” is “N1 is + P”.
“N1 + P / Can” is “N1 + P”
“N1 + P make / can do” is “N1 + P”
[0060]
In the present embodiment, the following types of usage that require particle verification over two or more phrases are not allowed.
“Make + P (verb form) for N1 +”
“+ N1 to + P (adjective verb)”
"+ N1 + P (adjective)"
“+ N1 to + P (noun)”
“+ N1 like + P (verb ending form)”
“Make N1 + P”
[0061]
Furthermore, the dependency process in the case of passive is illustrated. An explanation will be given by taking as an example a process in which the input kana character string “I can tell you” is written as a phrase when “student (teaching)” exists as a dependency. FIG. 11 shows a case in which the analysis position advances to “Tell me a word” and “Teach” is searched backward to find whether there is a related word. There are not only "teaching" and "teaching" as well as "teaching" but also "teaching mathematics" and "teacher". These are the dependency dictionary 98. And can search for “teaching” as a headline. Since this search is performed retroactively, the test starts from “O” and “Tail”, then “Saint is” and “Student is” and “Student ( You will find “students” in “Teach”. Since this dependency is “student teaches” as it is, the acceptance analysis of the attached word is not passed, and the dependency test is temporarily terminated. After that, when the verification of the phrase segmentation progresses to “assertion” and the dependency test is performed again, the admissible analysis of the attached word is passed for the first time by the test of the active / passive dependency test. Therefore, it is determined that it is established as a dependency in the case of passive, and “Student” and “Teached” are the first candidates for phrase segmentation. This is shown in FIG. The obtained first candidate is “student taught”. Here, the range from “student” to “taught” is excluded from the subsequent search range of dependency as a dependency formation range.
[0062]
Although an example of the passive expression has been described above, examples of the type include those described below as the noun N1 and the verb P.
“N1 is + P is / can be” but “N1 is + P” passive type
"N1 is + P / can be" is "N1 is + P" passive type
"N1 + P can / can't" is "N1 + P" passive type
[0063]
In the present embodiment, the following passive types that require particle test over two or more phrases are not allowed.
“N1 + P)”
“N1 + P)”
“N1 is + Ped to + N2”
“N1's + P”
“N1 is + P (sa) to + N2”
“+ N2 from + N1”
[0064]
According to the present embodiment described above, since the dependency cost information including the case of active / passive is simultaneously searched in the process of calculating the word cost and obtaining the phrase segmentation candidate, the phrase segmentation candidate is selected. At the requesting stage, it is possible to reflect the dependency information including duty / passive. Since the dependency information is a high-level language activity, it avoids adverse effects due to the uniformity of the selection of segmentation by the cost calculation between words and between clauses, and the candidate for segmentation according to the user's intention It can be obtained. In addition, since the dependency processing is performed simultaneously with the phrase segmentation processing by the minimum cost method performed with reference to the independent word dictionary 58 and the attached word dictionary 68, the phrase segmentation processing using the dependency information is performed in a short time. Can be completed within. In the case of referring to the dependency dictionary 98 again after completing the phrase segmentation, not only the method of dividing the phrase cannot be changed using the dependency information but also the reference of the dictionary is performed again. It takes time.
[0065]
In addition, if it is determined that the dependency has been established, the range from the received word to the dependency word is excluded from the subsequent search range as the dependency establishment range, so the dependency ranges may intersect. Absent. In addition, it is not determined that two or more spoken words receive a single dependent word. In addition, since the establishment of the dependency is judged beyond the adjacent clauses, the dependency test can be correctly performed even if the modification by the adverb or the like enters between the dependency relationships. Therefore, when a plurality of dependencies are established, as shown in FIG. 13A, a combination in which independent dependencies are established separately, or as shown in FIG. Or a combination in which another dependency is established so as to straddle one dependency, as shown in FIG. 13C.
[0066]
Next, a second embodiment of the present invention will be described. In the second embodiment, the same hardware configuration as that of the first embodiment is used, and the functional blocks thereof are almost the same as those shown in FIG. The functional blocks differ in the structure of the independent word dictionary 58 and the structure of the dependency dictionary 98, which are a word search process, a dependency test process, and a display process associated with the difference in the dictionary structure. These differences and the differences in the dictionary structure will be described in order according to the processing in the second embodiment.
[0067]
FIG. 14 is a flowchart showing a kana-kanji conversion processing routine in the second embodiment. This processing routine is started when a conversion key (for example, “space key”) is pressed after one or more kana characters are input from the keyboard 24. When a predetermined number of kana characters are input even when the conversion key is not operated, or when a delimiter such as “.”, “,” “.”, Or the like is input, the kana-kanji conversion processing of FIG. Can be started. When this process is started, first a word search process (step S400) and a segmentation process (step S420) are performed. These processes correspond to the processes of FIG. 3 in the first embodiment.
[0068]
FIG. 15 shows details of the word search processing routine. As shown in the figure, when the word search processing routine is started, first, a process of setting the word search start position M to the value 1, that is, the start position of the input kana character string is performed (step S402). Next, the variable L indicating the reading length in the word search is initialized to the value 1 (step S404), and the word having the reading length L is searched from the independent word dictionary 58 and the attached word dictionary 68. Processing is performed (step S405). Here, as shown in FIG. 16, the independent word dictionary 58 includes a header, an index, and a dictionary body. The header is information for managing the dictionary itself. The index and the dictionary body are managed separately for basic words, derived words, and semantic examples. A basic word is defined in advance as a word representing these notations when one word has a derived notation, for example, when “handling” or “handling” is allowed as a notation for “handling”. Is the word. In other words, the basic word only means a word that is typically used in phrase segmentation and dependency processing. Since it is a word recorded in the word dictionary, it is called a representative word, but it does not basically mean a word in the language. Hereinafter, the basic word is referred to as “representative notation” for display, and the derived word is referred to as “derivation notation”.
[0069]
The area for the semantic example is an area in which the same information as the information regarding the dependency described in the first embodiment is managed. Therefore, in the second embodiment, the independent word dictionary 58 and the dependency dictionary 98 are integrated. The information stored in the semantic example area is dependency information centered on the basic word. The relationship between dependency information and basic words and derived words will be described later.
[0070]
These basic words, derived words, and semantic examples are managed by the B-Tree structure in the dictionary body. The B-Tree structure is a well-known management structure that is adopted when searching for a large number of data. If there are a large number of data, if the data is properly organized, the process until the target data is reached. It is known as a structure in which time becomes an average time. An example of the B-Tree structure in the dictionary body is shown in FIG. When the B-Tree control block is traced to the word block based on the reading (kana character string), the actual word data is placed here.
[0071]
The word data such as the basic word region roughly has a data structure shown in FIG. That is, there is data indicating the data length X of the word data at the head, followed by actual data of X bytes. The headword length Y is recorded at the head of the actual data, and then a Y-byte headword is recorded. The actual word data follows. The word data has a word length W recorded at the beginning thereof, and a 1-byte flag indicating the presence or absence of kanji data is recorded immediately after the word data. After the flag, kanji data is recorded. This kanji data is composed of a kanji code length indicating a kanji data length and an actual kanji character string. Thereafter, word information and part-of-speech information (in some cases, a plurality of part-of-speech information) are recorded. The word information includes data indicating the length of the word information and actual word information.
[0072]
As described above, information on a desired word can be extracted based on the heading character string of the word using the B-Tree structure for both the basic word and the derived word. As shown in FIG. 19, these pieces of word information are composed of a separator and subsequent data. As separators, a display kanji separator that indicates that the subsequent data is displayed kanji data, a reading information separator that indicates that the data is reading information, a derivative notation separator that indicates that the data is derived notation, etc. There is. The display kanji is a record in which kanji corresponding to the representative notation is recorded in order to display kanji by default when one word has a representative notation and a derived notation. In the derivation notation separator, as shown in FIG. 19, the lower 3 bits of the separator correspond to the number of derivation notations, and the subsequent derivation notation 1 and derivation notation 2 are representative notations as illustrated in FIG. The form of transformation with respect to is indicated by a number. That is, if the derivation notation 1 is, for example, the number 5, if the representative notation is “memory”, it means that “with long sound” exists as a derivation notation, and means “memory”. That is, as the information of the derivation notation, the actual derivation notation itself is not stored, but the form of the derivation notation is stored as a number. The reading information gives a reading of the word, and gives the reading when the headword is a Chinese character. This information is used at the time of associative conversion or the like for searching for another kanji having the same meaning from the kanji. Note that one basic word and the derived word (derived notation) corresponding to this basic word (representative notation) are managed in different areas, but the word reading (heading) matches the word part-of-speech information. It is considered that there is a corresponding relationship for what to do.
[0073]
Returning to FIG. 15, after performing a dictionary search (step S405), it is determined whether or not a word matching the kana character string of the length L is found from the start position M (step S406). If the corresponding word is found, next, a process for reading data related to the derivative notation among the data attached to the representative word is performed (step S408). If there are various derivation expressions for the representative word and the derivation word is stored in the derivation word management area, a flag indicating whether or not replacement with the derivation expression is necessary is stored in the attached data of the representative word. ing. Therefore, it is determined whether or not the flag is referred to and the instruction is made to replace the representative word with the derived word (step S410). If this flag is set to a value indicating that replacement with a derived word is required, the representative word searched earlier is expanded in the expansion buffer, and a mark is added to the word (step S411). The expansion buffer is a storage area for expanding all representative words and adjunct words that can form the kana character string for the input kana character string, and is a memory area secured on the RAM 23. .
[0074]
If the instruction to replace the derived word is not given, or the replacement to the derived word is instructed and a mark is given to the representative word, the process returns to step S405, and the word with the reading length L is returned. Repeat the search process. If it is determined that the word with the reading length L no longer exists in the free word dictionary 58 (step S406), it is determined whether or not the length of the search word can be increased (step S412). If M + L <A with respect to the total length A of the input kana character string, it is determined that the reading length L can be increased, and the process of increasing the reading by one character (ie, incrementing L by 1) Process) (step S414). After increasing the reading length L by the value 1, the above-described processing is repeated from step S405.
[0075]
As a result, all words of reading from the length 1 to the maximum length at the start position M are expanded in the expansion buffer. Word expansion and cost assignment are performed in the same manner as in the first embodiment (see FIG. 4). When the length of the reading is sequentially increased and the word length cannot be increased (step S412), it is then determined whether or not the word search start position M can be moved toward the end of the input kana character string. (Step S416). If it is possible to move, it is determined that all the search for the word starting from the start position M is completed, and after the process of incrementing the start position M by 1 (step S418), the reading length L is set to the value. Return to 1 and repeat or pass the above process. Therefore, when these processes are performed, all the representative words and attached words that may constitute the input kana character string are expanded in the expansion buffer, and the representative words with the derived notation are expanded. A mark is added to this.
[0076]
With the above process, the word search process (step S400 in FIG. 14) is completed. Therefore, next, a segment segmentation process is performed (step S420). Phrase segmentation is well-known, and the combination of phrases is determined using the above-described words expanded in the expansion buffer so that the sum of the values assigned to each word becomes the smallest value. There is no particular difference from the first embodiment regarding the phrase segmentation process.
[0077]
Next, a dependency verification process is performed (step S430). The contents of the dependency test are the same as those in the first embodiment, but in this embodiment, as described above, only representative words are expanded in the expansion buffer, and derived words are not expanded. In the first embodiment, for example, when there is a dependency of “rule” + “ga” + “change”, if there is a derived expression “change” for “change”, “the rule changes” in the dependency dictionary. And the dependency that "the rules change" were memorized. In the present embodiment, since the dependency test itself is performed only by the representative notation, the dependency test for the character string “Kisoku” + “ga” + “alternate” is “rule” + “ga” + “ It is done only for “change”. Therefore, the time required for checking the dependency is shortened. In this embodiment, the dependency dictionary is included in the independent word dictionary 58 and stored in the management area of the semantic example. An example of the dependency dictionary is shown in FIG. The contents of the dependency dictionary include readings, received words, dependency words, and allowed attached words as in the first embodiment (see FIG. 7). Further, the same rules as those in the first embodiment are applied to the determination of the dependency on the duty and the passive and the rule of the dependency (see FIG. 13).
[0078]
In this way, if a dependency test is performed and a word candidate (for example, “change” and “alternate” in “Kisoku-ga-wa”) is found that cannot be determined by phrase writing, a word for which dependency is established is found. Then, the process of setting this word as the first candidate is performed. Thereafter, a process of replacing the word notation is performed for the word that is the first candidate (step S440). In the word replacement process, it is determined whether or not there is a derivation notation for the word that is the first candidate (for example, “change”). The notation used in is examined and replaced with that notation. If the word used immediately before is “changed”, the derived notation “change” is used instead of the representative word that has been used consistently in word search, segmentation processing, and dependency test.
[0079]
FIG. 22 shows a processing routine for performing word replacement processing. In this processing routine, first, the target word to be replaced is set to the word of the first phrase segmented by the segment segmentation process (step S500), and it is determined whether or not the target word is marked (step S510). ). If the mark is attached, it can be determined that the derived notation is present and the replacement to the derived notation is instructed, and the process of replacing the subsequent first candidate with the display word is performed (step S520). The display word is the representative word itself if the representative notation has been used before, and the derived word if the derived notation has been used and learned before. If the target word is not marked, the display word is not replaced.
[0080]
Thereafter, it is determined whether or not an unprocessed word still remains (step S530). If it remains, the target word is shifted backward by one (step S540), and the process is repeated from step S510 described above. If no target word remains, this processing routine ends. In the above-described processing, when there is a derived notation, learning which notation is used as a display word is easy if the word existing at the head of the management area of the derived word is used as the display word. . In this case, when using a representative word, the representative notation itself (or derivative notation information corresponding to the representative notation) may be stored at the beginning of the derived word, or the representative notation may be stored at the beginning of the derived word. A flag indicating whether to use or use a derived notation may be stored. Further, when using a derivation notation, it is also possible to store the notation in the representative word management area.
[0081]
In the display process following the word replacement process, a process of displaying the word candidates after the kana-kanji conversion on the CRT 26 is performed in accordance with the notation of the replaced word. As shown in FIG. 19 and FIG. 20, the derivation notation does not prepare kanji corresponding to the derivation notation, but records a number indicating the type of the derivation notation after the derivation notation separator. Only. Therefore, in the display process, according to this number, for example, if the derivative notation information is “4”, it is determined that the feed is “permitted” and the representative word “change” is displayed as “change”.
[0082]
According to the present embodiment described above, only candidate words are used as word candidates until a word is searched for the input kana character string, the dividing process is performed, and the dependency process is performed. Therefore, even when a word for which derivation notation is permitted is searched, it is not necessary to consider the derivation notation, and each process can be performed at high speed. In addition, the capacity of the expansion buffer for expanding word candidates can be reduced. Furthermore, even when there are a plurality of dependencies, there is an advantage that the determination of the dependencies can be easily performed. This will be described with reference to the example of FIG. As illustrated in FIG. 21, there are three types of dependency of “rule” + “ga” + “change”, “handling” + “ga” + “change”, “luggage” + “no” + “handling”. It is assumed that there is a derivative notation of “change” and “handling” for each word. In this case, for example, it is assumed that the expression “rule” + “ga” + “change” is learned for “the rule changes”. In this case, if “change” and “change” are managed separately as dependency information, “change” is learned in the conversion of “replacement” and “conversion”. However, it is converted to “handling” + “ga” + “change”. On the other hand, in the present embodiment, learning that “change” is to use “allowance” in the derived notation instead of “main rule” is made, so “change” even if another dependency is established. For, "change" will be used consistently.
[0083]
In addition, when converting “the handling of a child”, in the conventional dependency determination, even if there is dependency information “package / handling”, there is a dependency “package / handling”. If it does not exist, it will compare the establishment of the chain of dependency of "package / handling / changing" with the formation of the chain of "handling / changing" and give priority to the formation of the former dependency Become. As a result, even if “handling / change” is learned immediately before, it is converted to “package / handling / change”. On the other hand, in the present embodiment, since it is only learned to use the derivation of “acceptable” for the word “handling”, once “handling” is learned, the “handling / handling of baggage / changes” correctly. Will be converted.
[0084]
In this embodiment, the word search, the phrase segmentation process, and the dependency test are performed using the representative word. However, a part of these processes may be performed using the representative notation and the derived notation. Absent.
[0085]
Although several embodiments of the present invention have been described above, the present invention is not limited to these embodiments. For example, instead of the minimum cost method, another phrase segmentation method such as a two-phrase longest match method may be used. It goes without saying that the present invention can be implemented in various modes within a range that does not depart from the gist of the present invention, such as the configuration used.
[0086]
【The invention's effect】
As described above, in the first kana-kanji conversion device and the kana-kanji conversion method of the present invention, when a phrase corresponding to the information of the related word and the received word is searched, the word attached to the related word is an allowable attached word. If the attached word following the received word is a word representing a use or passive, it is determined whether the word attached to the related word is a word corresponding to the use or passive. Limit phrase segmentation candidates based on search results. Therefore, when there is dependency information, instead of simply looking at the establishment of the dependency due to the presence of both words, it is assumed that the dependency attached when the word attached to the dependency language allows the relationship between the two words, If the received word is a word indicating a service or passive, and if the word attached to the dependency word is a word corresponding to the service or passive, the phrase candidate is limited as the formation of the dependency. An undesired candidate for split writing becomes difficult to select, and there is an excellent effect that the possibility of desired split writing is increased. If the priority order of kanji candidates for each phrase is to be changed on the premise of phrase segmentation that has already been estimated by another method instead of the restriction of phrase candidates, the desired kanji candidate is set as the first candidate. The possibility of being obtained can be increased. Not only can you change the priority order of word candidates using dependency information, but it can also be used for dependency information at the segmental writing stage, and it can be determined whether the dependency is established in the case of use or passive. It is possible to obtain a handwriting candidate that makes use of dependency, which is a higher level language activity. In addition, it is not necessary to prepare a special dictionary for analysis of usage / passive dependency, and processing can be performed at high speed.
[0087]
In addition, according to the kana-kanji conversion device of claim 2, since only the representative notation is used in the dependency test, the time required for the dependency test and the required memory capacity can be reduced. Further, in the kana-kanji conversion device according to claim 3, since the dependency information including the above-mentioned usage / passive is used to change the priority order of the kanji candidates for each phrase instead of the restriction of the phrase segmentation, the dependency information It is possible to obtain a desired kanji candidate with high priority using. In addition, according to the kana-kanji conversion device of claim 4, there is an effect that the search time for the split writing is short, and the linked dependency is not selected erroneously.
[0088]
According to the kana-kanji conversion device according to claim 5, there is an effect that a phrase candidate can be preferentially made a phrase candidate. Further, according to the kana-kanji conversion device according to claim 6, there is an effect that the phrase segmentation is preferentially selected based on the dependency and the word for which the dependency is established is set as the first candidate for kana-kanji conversion. .
[0089]
According to the kana-kanji conversion device of claim 7, it is possible to reduce the amount of information related to the attached word. According to the kana-kanji conversion device according to claim 8, there is an effect that the dependency can be found even when there is a modification word between the dependency word forming the dependency and the reception word. . In addition, when this dependency relationship is found, if the range from the starting phrase to the found phrase is excluded from the search range of the next dependency, This makes it possible to avoid erroneous determination of correct dependency and to speed up the search for dependency.
[0090]
According to the kana-kanji conversion device of claim 9, even when a phrase including a word having a dependency relationship is not found, an appropriate word candidate can be selected.
[0091]
According to the second kana-kanji conversion device and the kana-kanji conversion method of the present invention, when performing the dependency test with reference to the dependency information dictionary, the test is performed using only the representative notation registered in the word dictionary. The word constituting the input character string is specified. When displaying the candidate character string of the specified word, not only the representative notation stored in the word dictionary but also the derivative notation is used for display. As a result, it is possible to achieve both speeding up of grammar processing including dependency and diversity of notation.
[Brief description of the drawings]
FIG. 1 is a functional block diagram showing an implementation form of a kana-kanji conversion function in a kana-kanji conversion apparatus according to an embodiment of the present invention.
FIG. 2 is a block diagram illustrating hardware that realizes a kana-kanji conversion device as an embodiment;
FIG. 3 is a flowchart showing a phrase segmentation process executed in the segment segmentation unit 102;
FIG. 4 is an explanatory diagram showing a state of phrase segmentation by a minimum cost method.
FIG. 5 is an explanatory diagram showing another example of phrase segmentation by the minimum cost method.
FIG. 6 is an explanatory diagram showing a dependency test process in the embodiment.
FIG. 7 is an explanatory diagram illustrating an example of a dependency dictionary according to the first embodiment.
FIG. 8 is an explanatory diagram showing an example of phrase segmentation processing performed using dependency information.
FIG. 9 is an explanatory diagram showing a state of processing of another sentence example.
FIG. 10 is an explanatory diagram showing priorities of candidates for kana-kanji conversion in that case as well.
FIG. 11 is an explanatory diagram showing a state of different types of dependency processing;
FIG. 12 is an explanatory diagram showing priorities of candidates for kana-kanji conversion in that case.
FIG. 13 is an explanatory diagram showing a type when there are a plurality of dependencies in one input character string.
FIG. 14 is a flowchart showing a kana-kanji conversion processing routine in the second embodiment.
FIG. 15 is a flowchart showing details of the word search processing;
FIG. 16 is an explanatory diagram showing an internal configuration of the independent word dictionary 58;
FIG. 17 is an explanatory diagram showing how a basic word area is managed.
FIG. 18 is an explanatory diagram showing a configuration of word data.
FIG. 19 is an explanatory diagram showing details of word information together with each separator.
FIG. 20 is an explanatory diagram illustrating an example of derivation notation.
FIG. 21 is an explanatory diagram showing a schematic configuration of a dependency dictionary and an example of representative notation and derivative notation;
FIG. 22 is a flowchart showing a word replacement processing routine.
[Explanation of symbols]
21 ... CPU
22 ... ROM
23 ... RAM
24 ... Keyboard
25 ... Keyboard interface
26 ... CRT
27 ... CRTC
28 ... Printer
29 ... Printer interface
30: Hard disk controller (HDC)
31 ... Bus
32 ... Hard disk
40 ... Character input part
42. Conversion control unit
44 ... converted character string output section
50 ... Character string input part
52 ... Character storage
54 ... Independent word candidate creation section
56 ... Independent word analysis position management department
58 ... Autonomous dictionary
64 ... Attached word candidate creation part
66 ... Attached word analysis position management section
68 ... Attached word dictionary
70. Dependency learning department
70 ... Learning Department
72 ... Independent language learning department
74 ... Auxiliary Language Learning Department
76 ... Affix Learning Department
78 ... Character conversion learning unit
80: Word data creation unit
82 ... Connection verification department
84 ... Connection verification table
86 ... Cost calculator
90 ... Dependency candidate adjustment section
92 ... Passive analysis section
94 ... Participant tolerance analysis part
96 ... Dependency range management department
98 ... Dependency dictionary
100: Word data storage unit
102 ... sentence segment writing section
104 ... Dependency transposition information adjustment unit
106 ... phrase data storage unit
108 ... Conversion character string output section

Claims (9)

単語辞書を参照して、入力された仮名文字列を文節分かち書きして文節分かち書き候補を作成し、該文節分かち書き候補を用いて仮名漢字混じり文を構成する候補文字列を生成する仮名漢字変換装置であって、
所定の文節同士の係り受けを構成する係り語と受け語の情報を、該係り語と受け語の間に許される許容付属語の情報と共に記憶した係り受け情報辞書と、
前記入力された文字列を文節分かち書きする処理を行なうとき、自立語を記憶した自立語辞書および付属語を記憶した付属語辞書を参照し、前記入力された仮名文字列から生成しうる単語同士の組合せを網羅的に生成する生成手段と、
該生成された単語同士の組合せの中から、前記係り受け情報を参照して、前記係り語と受け語の情報に該当する単語を備えた文節を検索する文節検索手段と、
該係り語と受け語の情報に該当する単語を備えた文節が検索されたとき、前記係り語に付属する語が前記許容付属語であるかを判定する第1の判定手段と、
前記係り語と受け語の情報に該当する単語を備えた文節が検索されたとき、該受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかを判定する第2の判定手段と、
該第1および第2の判定手段のいずれかが肯定判断した場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補とし、いずれもが肯定判断しなかった場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補としない文節候補制限手段と
を備えた仮名漢字変換装置。
A kana-kanji conversion device that refers to a word dictionary and creates a phrase kanji writing candidate by segmenting an input kana character string and generating a candidate character string constituting a kana-kanji mixed sentence using the phrase kanji writing candidate There,
A dependency information dictionary that stores information on a dependency word and a reception word that constitute a dependency between predetermined phrases together with information on an allowable adjunct allowed between the dependency word and the reception word;
When performing the process of segmenting the input character string, referring to the independent word dictionary storing the independent words and the auxiliary word dictionary storing the auxiliary words, the words between the words that can be generated from the input kana character string Generating means for generating the combination comprehensively;
A phrase search means for searching a phrase having a word corresponding to the information of the dependency word and the received word with reference to the dependency information from the generated combination of words;
First determination means for determining whether a word attached to the related word is the permissible attached word when a phrase having a word corresponding to the related word and the received word information is searched;
When a clause having a word corresponding to the related word and the received word information is searched, if the attached word following the received word is a word representing a use or passive, the word attached to the related word is A second determination means for determining whether the word corresponds to a use or passive character;
When either of the first and second determination means makes an affirmative determination, the combination of the searched words is regarded as a priority candidate in the phrase segmentation, and when neither of them makes an affirmative determination Kana-kanji conversion device comprising: phrase candidate restriction means that does not make the combination of the searched words a priority candidate in the phrase segmentation.
請求項1記載の仮名漢字変換装置であって、
前記辞書は、単語の読みと該読みに対応する表記とを記憶した単語辞書であって、単語の読みに対応する表記として、複数の表記が存在する場合には、代表表記として定めた表記と、派生表記として定めた表記とを記憶した表記情報部を備え、
前記文節検索手段は、前記単語辞書に記憶された代表表記のみを用いて前記係り受けの検索を行なう手段であり、
更に、
前記文節分かち書き候補については、前記単語辞書の表記情報部に記憶された代表表記および派生表記を用いて、変換後の候補文字列を表示する候補文字列表示手段と
を備えた仮名漢字変換装置。
A kana-kanji conversion device according to claim 1,
The dictionary is a word dictionary storing a word reading and a notation corresponding to the reading, and when there are a plurality of notations as a notation corresponding to the word reading, , With a notation information section that stores the notation defined as a derivative notation,
The phrase search means is means for searching for the dependency using only the representative notation stored in the word dictionary,
Furthermore,
A kana-kanji conversion device comprising candidate character string display means for displaying the converted candidate character string using the representative notation and the derived notation stored in the notation information section of the word dictionary for the phrase segmentation candidate.
請求項1または2記載の仮名漢字変換装置であって、
前記文節検索手段は、
後方の文節を起点として、既に登録された検索済み範囲を除いて、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段と、
該検索により係り受け情報に該当する単語を備えた文節が見いだされたとき、該起点となった文節から該見いだされた文節までを、係り受け情報の検索済み範囲として登録する既検索範囲登録手段とを備えた
仮名漢字変換装置。
A kana-kanji conversion device according to claim 1 or 2,
The phrase search means includes:
A backward search means for searching for phrases including words corresponding to the dependency information in order forward, excluding the already registered searched range, starting from the backward phrase;
Searched range registration means for registering from the starting phrase to the found phrase as a searched range of dependency information when a phrase having a word corresponding to the dependency information is found by the search Kana-Kanji conversion device with
請求項1または2記載の仮名漢字変換装置であって、
前記文節候補制限手段は、前記第1または第2の判定手段が、該当する係り語と受け語とその付属語の存在を判定したとき、該語を含む文節分かち書き候補を優先的に選択する手段を備えた仮名漢字変換装置。
A kana-kanji conversion device according to claim 1 or 2,
The phrase candidate restriction unit is a unit that preferentially selects a phrase segmentation candidate including the word when the first or second determination unit determines the presence of the corresponding quasiword, the received word, and its associated word. Kana-Kanji conversion device with
文節検索手段は、係り受け関係を有する単語間に存在する補助的な語が、予め定めた特定の文法構造を有する語である場合には、係り受け関係は成立と判断する手段を備えた請求項1または2記載の仮名漢字変換装置。  The phrase search means includes means for determining that the dependency relation is established when the auxiliary word existing between the words having the dependency relation is a word having a predetermined specific grammatical structure. Item 3. A kana-kanji conversion device according to item 1 or 2. 請求項1または2記載の仮名漢字変換装置であって、
文節検索手段は、所定の文節を起点として、前記係り受け辞書に記憶された係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を、該起点とした文節に隣接する文節以外の文節まで検索する隔文節検索手段と、
前記隔文節検索手段により係り受けの関係が見いだされたとき、前記起点となった文節から該見いだされた文節までの範囲を、次の隔文節検索手段による検索範囲から除外する検索範囲除外手段と
を備えた仮名漢字変換装置。
A kana-kanji conversion device according to claim 1 or 2,
The phrase search means refers to dependency information stored in the dependency dictionary with a predetermined phrase as a starting point, and a phrase having a word corresponding to the dependency information as a starting phrase An alternative phrase search means for searching to phrases other than
Search range exclusion means for excluding the range from the starting phrase to the found phrase from the search range by the next phrase search means when a dependency relationship is found by the separate phrase search means; Kana-Kanji conversion device with
請求項1または2記載の仮名漢字変換装置であって、
係り受け辞書を参照して係り受けの関係にある単語を含む文節が見い出されなかった範囲については、単語間の結合および文節間の結合の生じ易さが最大となる組合わせを選択する手段を備えた仮名漢字変換装置。
A kana-kanji conversion device according to claim 1 or 2,
With respect to a range in which a phrase including a word having a dependency relationship is not found with reference to the dependency dictionary, means for selecting a combination that maximizes the combination of words and the likelihood of the combination of phrases. Kana-kanji conversion device provided.
単語辞書を参照して、入力された仮名文字列を文節分かち書きし、コンピュータにより、仮名漢字混じり文字列候補を生成する仮名漢字変換方法であって、
キーボードから入力された前記仮名文字列を文節分かち書きする処理を行なうとき、自立語を記憶した自立語辞書および付属語を記憶した付属語辞書を参照し、前記入力された仮名文字列から生成しうる単語同士の組合せを、コンピュータにより、網羅的に生成し、
該生成された単語同士の組合せの中から、所定の文節同士の係り受けの情報を該係り語と受け語の間に許される許容付属語の情報と共に記憶した係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を、コンピュータにより検索し、
該係り語と受け語の情報に該当する単語を備えた文節が検索されて見い出されたとき、
前記係り語に付属する語が前記許容付属語であるかを判定し、
該受け語に続く付属語が使役もしくは受動を表わす語である場合には、前記係り語に付属する語が、使役もしくは受動に対応した語であるかを判定し、
該いずれかの判定結果が肯定判断である場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補とし、いずれの判定結果も肯定判断でなかった場合には、前記検索された単語同士の組合せを、前記文節分かち書きにおける優先的な候補としないことで、前記文節分かち書きの候補を、コンピュータにより制限する
仮名漢字変換方法。
A kana-kanji conversion method for referring to a word dictionary, writing an input kana character string into phrases, and generating a kana-kanji mixed character string candidate by a computer,
When performing the process of segmenting the kana character string input from the keyboard, it can be generated from the input kana character string by referring to the independent word dictionary storing the independent words and the auxiliary word dictionary storing the auxiliary words A comprehensive combination of words is generated by a computer,
Dependency information is stored by referring to the dependency information stored in the combination of the generated words together with the information on the allowable adjunct allowed between the dependency words. Use a computer to search for phrases with words that correspond to the received information,
When a phrase having a word corresponding to the related word and received word information is searched and found,
Determining whether the word attached to the dependency word is the allowable adjunct;
If the adjunct word following the received word is a word representing a use or passive character, it is determined whether the word attached to the related word is a word corresponding to the use character or passive;
If any one of the determination results is an affirmative determination, the combination of the searched words is set as a preferential candidate in the phrase segmentation, and if any determination result is not an affirmative determination, A kana-kanji conversion method that restricts candidates for phrase segmentation by a computer by not using a combination of searched words as a priority candidate in the segment segmentation.
請求項8記載の仮名漢字変換方法であって、
単語の読みと該読みに対応する表記とを記憶した単語辞書に、単語の読みに対応する表記として、複数の表記が存在する場合には、代表表記として定めた表記と、派生表記として定めた表記とを記憶し、
前記分かち書きされた各文節について、前記単語辞書に記憶された代表表記のみを用いて、前記係り受け情報辞書を用いた係り受けの検定を行なって、該入力された文字列を構成する単語を、コンピュータにより特定し、
該特定された単語について、前記単語辞書に記憶された代表表記および派生表記を用いて、変換後の候補文字列を表示装置に表示する
仮名漢字変換方法。
A kana-kanji conversion method according to claim 8,
When there are a plurality of notations as notation corresponding to the word reading in the word dictionary storing the reading of the word and the notation corresponding to the reading, the notation determined as the representative notation and the derived notation are determined. Remember the notation,
For each of the segmented phrases, only the representative notation stored in the word dictionary is used to perform a dependency test using the dependency information dictionary, and the words constituting the input character string are Identified by computer,
A kana-kanji conversion method for displaying a converted candidate character string on a display device using the representative notation and derivative notation stored in the word dictionary for the identified word.
JP18078595A 1994-06-22 1995-06-22 Kana-kanji conversion device and kana-kanji conversion method Expired - Fee Related JP3873299B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18078595A JP3873299B2 (en) 1994-06-22 1995-06-22 Kana-kanji conversion device and kana-kanji conversion method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP16454294 1994-06-22
JP6-164542 1994-06-22
JP18078595A JP3873299B2 (en) 1994-06-22 1995-06-22 Kana-kanji conversion device and kana-kanji conversion method

Publications (2)

Publication Number Publication Date
JPH0869463A JPH0869463A (en) 1996-03-12
JP3873299B2 true JP3873299B2 (en) 2007-01-24

Family

ID=26489601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18078595A Expired - Fee Related JP3873299B2 (en) 1994-06-22 1995-06-22 Kana-kanji conversion device and kana-kanji conversion method

Country Status (1)

Country Link
JP (1) JP3873299B2 (en)

Also Published As

Publication number Publication date
JPH0869463A (en) 1996-03-12

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
JP2002215617A (en) Method for attaching part of speech tag
JPS6231467A (en) Sentence preparation device
JPH11110416A (en) Method and device for retrieving document from data base
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
Aliwy Arabic morphosyntactic raw text part of speech tagging system
JP3873299B2 (en) Kana-kanji conversion device and kana-kanji conversion method
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
JPH11238051A (en) Chinese input conversion processor, chinese input conversion processing method and recording medium stored with chinese input conversion processing program
JP3873305B2 (en) Kana-kanji conversion device and kana-kanji conversion method
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
JP3873291B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP3680489B2 (en) Machine translation apparatus and computer-readable recording medium recording machine translation processing program
JP3700193B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JPH0561902A (en) Mechanical translation system
JP3873293B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2000200268A (en) Handwritten character input and converting device, document preparing device, and computer-readable recording medium
JP3061855B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP4023384B2 (en) Natural language translation method and apparatus and natural language translation program
JP3884001B2 (en) Language analysis system and method
JPH09179865A (en) Machine translation device with deciding function for translation object area
JPH08241315A (en) Word registering mechanism for document processor
JPH1139347A (en) Text retrieval system, index generation device, text retrieval device and recording medium which computer can read
JPH0785040A (en) Inscription nonuniformity detecting method and kana/ kanji converting method
JPH07200602A (en) Mechanical translation device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees