JP3873291B2 - 仮名漢字変換装置および仮名漢字変換方法 - Google Patents

仮名漢字変換装置および仮名漢字変換方法 Download PDF

Info

Publication number
JP3873291B2
JP3873291B2 JP11032794A JP11032794A JP3873291B2 JP 3873291 B2 JP3873291 B2 JP 3873291B2 JP 11032794 A JP11032794 A JP 11032794A JP 11032794 A JP11032794 A JP 11032794A JP 3873291 B2 JP3873291 B2 JP 3873291B2
Authority
JP
Japan
Prior art keywords
dependency
word
kana
phrase
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP11032794A
Other languages
English (en)
Other versions
JPH07295975A (ja
Inventor
泰男 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP11032794A priority Critical patent/JP3873291B2/ja
Publication of JPH07295975A publication Critical patent/JPH07295975A/ja
Application granted granted Critical
Publication of JP3873291B2 publication Critical patent/JP3873291B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、仮名漢字変換装置および仮名漢字変換方法に関し、詳しくは単語間の係り受けの情報を、文節分かち書きもしくは単語の漢字候補の選択に利用する仮名漢字変換装置および仮名漢字変換方法に関する。
【0002】
【従来の技術】
従来、キーボードなどから入力された仮名文字列を、所望の仮名漢字混じり文に変換する仮名漢字変換装置が、日本語文の入力装置として、あるいは日本語文の編集装置として、種々提案されている。こうした仮名漢字変換装置は、使用者が単語や文節の区切り位置をいちいち指定する必要がなく、しかも変換後の文字列は使用者が望んだ表記となるものが望まれている。日本語には、同音異議語や同訓異議語が多数存在することから、誤りなく所望の仮名漢字混じり文を得るためには、おそらく最終的には文の意味を解析しなければならないが、意味を解析するためには、少なくとも有機的に関連づけられた数万に上る言葉の知識ベースが必要となり、実現は極めて困難である。
【0003】
そこで、従来の仮名漢字変換装置では、文節分かち書きの処理や、同音異議語の選択における学習処理を工夫し、意味の解析なしで、使用者が望む結果を得るよう試みている。文節分かち書きの処理としては、2文節を基本単位とし成り立ち得る文節の中で最長の文節が得られる2文節を第1候補とする2文節最長一致法や、文節を構成する単語の候補となり得る単語および単語同士の組合わせにコストを付け、この点数が所定の条件を満たす文節を第1候補とする最小コスト法などがある。また、学習処理には、同音異議語の中から直前に使用者が選択した単語を最優先で次回の候補とする同音異議語の学習や、ある単語を含んだ文節の長さとして直前に使用者が指定した長さを最優先とする文節長の学習などが知られている。
【0004】
更に、最近では、単語同士の特定の関係(例えば、「熱いお茶」の「熱い」と「お茶」、あるいは「暑い夏」の「暑い」と「夏」)に着目し、この関係を記憶した辞書を用意することで、一方の単語(例えば「お茶」)が特定されたとき、この単語に関係のある言葉(例えば「熱い」)を第1候補として選択するものも提案されている(例えば特開平3−105664号の「かな漢字変換装置」や特開平4−277861号公報の「かな漢字変換装置」など)。こうした単語間の特定の関係は、「係り受け」あるいは「共起」と呼ばれる。
【0005】
【発明が解決しようとする課題】
しかしながら、これらの仮名漢字変換装置では、一旦文節分かち書きを行なって得られた文節における単語同士の関係を見ているに過ぎないので、文節分かち書きが誤っていれば、せっかく用意した単語間の関係を記憶した辞書も役に立たない。そもそも、単語間の関係としてせいぜい隣接する単語間の関係を見ているに過ぎないので、日本語として最も自然な仮名漢字混じり文を得るにはほど遠いのが実状であった。かといって、むやみに単語間の関係を検討する範囲を広げれば、その組合わせの数は、入力した仮名文字の数の増加に応じて等比級数的に増加するから、仮名漢字変換の完了までに、許容できない長い時間がかかってしまう。
【0006】
本発明の仮名漢字変換装置および仮名漢字変換方法は、こうした問題を解決し、入力した文字列の分かち書きを係り受けの関係を利用して行ない、所望の仮名漢字混じり文を得ることを目的としてなされ、次の構成を採った。
【0007】
【課題を解決するための手段】
本発明の仮名漢字変換装置は、
仮名文字列を入力し、辞書を参照して、該入力された仮名文字列を文節分かち書きし、仮名漢字混じり文字列候補を生成する仮名漢字変換装置であって、
日本語を構成する自立語と付属語に異なるコストを付与すると共に、各語の読みに相当する仮名文字列と変換後の文字列とを記憶した仮名漢字辞書と、
所定の単語同士が文において共に用いられる特定の関係であることを示す係り受けの情報を、係り語と受け語と該係り語および受け語と間の許容される付属語の情報として記憶した係り受け情報辞書と、
前記入力された仮名文字列を文節分かち書きする処理を行なう際、前記仮名漢字辞書に記憶された前記自立語および前記付属語から、前記入力した仮名文字列を構成し得る語の配列を網羅的に生成し、該生成された配列のうち、各配列を構成する語のコストから許容される全配列を求め、該配列により前記入力された仮名文字列を構成し得る文節を生成する文節生成手段と、
前記係り受け情報辞書に記憶された係り受け情報を参照して、前記総ての配列について、後方に位置する単語を受け語として前方に位置する係り語の存在を、前記係り語に付属した付属語が前記許容される付属語に該当することを条件として検索する文節検索手段と、
該検索結果に基づいて、前記係り受けが成立する文節を、前記文節分かち書きの第1候補とする候補制限手段と、
前記係り受けが成立すると判断された係り語から受け語までを、係り受けの成立範囲として登録すると共に、次に前記文節検索手段が検索する範囲から除く手段と
を備えたことを要旨とする。
【0009】
また、本発明の仮名漢字変換方法は、
辞書を参照して、入力された仮名文字列を文節分かち書きし、仮名漢字混じり文字列候補を生成する仮名漢字変換方法であって、
日本語を構成する自立語と付属語に異なるコストを予め付与すると共に、各語の読みに相当する仮名文字列と変換後の文字列とを、仮名漢字辞書として記憶装置に記憶し、
所定の単語同士が文において共に用いられる特定の関係であることを示す係り受けの情報である、係り語と受け語と該係り語および受け語と間の許容される付属語の情報とを、係り受け辞書として、記憶装置に記憶し、
前記入力された仮名文字列を文節分かち書きする処理を行なう際、前記仮名漢字辞書に記憶された前記自立語および前記付属語から、前記入力した仮名文字列を構成し得る語の配列を網羅的にコンピュータが生成し、該生成された配列のうち、各配列を構成する語のコストから許容される全配列を求め、該配列により前記入力された仮名文字列を構成し得る文節をコンピュータが生成し、
所定の文節同士の係り受けの情報を記憶した係り受け情報を参照して、前記総ての配列について、後方に位置する単語を受け語として前方に位置する係り語の存在を、前記係り語に付属した付属語が前記許容される付属語に該当することを条件としてコンピュータが検索し、
該検索結果に基づいて、前記係り受けが成立する文節が存在するとき、該文節を、コンピュータが前記文節分かち書きの第1候補とし、
前記係り受けが成立すると判断された係り語から受け語までを、係り受けの成立範囲として登録すると共に、コンピュータが、次に係り語と受け語の検索を行なう範囲から除くこと
を要旨とする。
【0010】
【作用】
以上のように構成された本発明の仮名漢字変換装置および仮名漢字変換方法によれば、係り受け情報辞書に所定の文節同士の係り受けの情報を記憶しておき、入力された文字列を文節分かち書きする処理を行なうとき、この係り受け情報辞書に記憶された係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を検索する。この検索結果に基づいて、文節分かち書きの候補を制限する。従って、係り受けの情報が存在する場合には、この情報によって、文節分かち書きの非所望な候補は選択され難くなり、所望の分かち書きがなされる可能性が高くなる。
【0011】
ここで、係り受け情報辞書を参照して係り受け情報に該当する単語を備えた文節を検索する文節検索手段は、後方の文節を起点として、既に登録された検索済み範囲を除いて、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段を備える構成とすることも好適である。一旦、係り受けの情報に該当する単語が見いだされたとき、その範囲を検索済み範囲として登録すると、次の検索時には、この範囲は検索範囲から除かれるから、分かち書きのための検索時間が短くて済み、更に鎖交した係り受けを誤って選択するということがない。
【0012】
また、これとは逆に、前方の文節を起点として、既に登録された検索済み範囲を除いて、後方に向かって順次係り受け情報に該当する単語を備えた文節を検索し、検索により係り受け情報に該当する単語を備えた文節が見いだされたとき、該起点となった文節から該見いだされた文節までを、係り受け情報の検索済み範囲として登録することもできる。係り受けには、先行する文節により後ろの文節に影響を及ぼすタイプのものが存在するからである。
【0013】
更に、文節検索手段として、後方の文節を起点として、前記係り受け情報辞書に記憶された係り受けの関係を参照し、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段と、前方の文節を起点として、前記係り受け情報辞書に記憶された係り受けの関係の前後を逆に参照し、後方に向かって順次係り受け情報に該当する単語を備えた文節を検索する順行検索手段とを備えた構成とすることも可能である。この場合には、2種類の係り受けの情報を効率よく処理することができる。
【0014】
また、こうした検索結果に基づいて、文節分かち書きの候補を制限する候補制限手段は、文節検索手段により係り受け情報に該当する単語を備えた文節が見いだされたとき、該文節を含む分かち書きを優先的に選択する手段を備えたものとすることができる。同時に、その単語を仮名漢字変換の第1候補として選択することも望ましい。
【0015】
係り受け情報を記憶した係り受け情報辞書は、係り受けの情報を、係り受け関係を生じる2以上の単語の読みと漢字および該単語間に存在し得る補助的な語から構成しておき、文節検索手段は、所定の文節において候補とされた各単語について、前記係り受け情報辞書を参照して、係り受け関係を有する他の単語が、該所定の文節以外に存在するか否かを判定し、係り受け関係を有する単語の存在が見いだされたとき、前記係り受け情報辞書を参照して、見いだされた単語間に存在する語が、単語間に存在し得るとされた補助的な語であると判別されたとき、係り受け関係は成立と判断するものとすることも好適である。単語と単語の間に成立する係り受けは、助詞や助動詞の種類によって初めて、係り受けを許容するものとなる場合があるからである。
【0016】
ここで、係り受け関係を有する単語間に存在する補助的な語が、予め定めた特定の文法構造を有する語である場合には、係り受け関係は成立と判断するものとすることもできる。係り受けが成り立つ場合を総て分類することは、情報量としても判断に要する時間にしても、膨大な容量を必要とする。一定の文法構造を有する語については、係り受けの関係が成立するとみなして処理を行なうものとして、処理の簡易化を図ることができる。
【0018】
以上説明した仮名漢字変換装置および方法では、係り受け情報を用いて、係り受けの関係にある単語を含む文節における処理を行なうが、係り受けの関係にある単語が見い出された文節以外の文節については、既知の文節分かち書きの手法を適用することができる。例えば、2文節最長一致法を用いても良いし、単語間または/および文節間の結合の生じ易さに点数(コスト)を付け、この結合の生じ易さが最大(最小コスト)となるよう単語または/および文節を選択するものとしても良い。
【0019】
【実施例】
以上説明した本発明の構成・作用を一層明らかにするために、以下本発明の好適な実施例について説明する。図1は、仮名漢字変換の制御ロジックを示すブロック図、図2は、この仮名漢字変換制御ロジックが実際に動作するハードウェアを示すブロック図である。図2に示すように、この装置は、周知のCPU21を中心にバス31により相互に接続された次の各部を備える。CPU21とバス31により相互に接続された各部について、簡単に説明する。
【0020】
ROM22:仮名漢字変換プログラム等を記憶するマスクメモリ、
RAM23:主記憶を構成する読み出しおよび書き込みが可能なメモリ、
キーボードインタフェース25:キーボード24からのキー入力を司るインタフェース、
CRTC27:カラーで表示可能なCRT26への信号出力を制御するCRTコントローラ、
プリンタインタフェース29:プリンタ28へのデータの出力を制御するインタフェース、
ハードディスクコントローラ(HDC)30;ハードディスク32を制御するインタフェース、
である。ハードディスク32には、RAM23にロードされて実行される各種プログラムやデバイスドライバの形式で提供される仮名漢字変換処理プログラム、あるいはその仮名漢字変換処理プログラムが参照する各種変換辞書などが記憶されている。
【0021】
こうして構成されたハードウエアにより、文章が入力,仮名漢字変換,編集,表示,印刷などがなされる。すなわち、キーボード24から入力された文字列は、CPU21により所定の処理がなされ、RAM23の所定領域に格納され、CRTC27を介してCRT26の画面上に表示される。
【0022】
次に、こうして構成されたハードウエアにより実行される機能を図1を用いて説明する。図1に示した各部の構成と働きについて概説するが、ここで行なわれる処理は、キーボード24より入力されたデータに基づき、中央処理装置(CPU21)が実行するものである。このCPU21により、総ての処理がおこなわれる。仮名漢字変換については、キーボード24が操作されたとき、所定の割込処理が起動し、入力したキーイメージを対応する仮名文字列に変換し、更にこれを仮名漢字混じり文字列に変換するデバイスドライバが起動する。もとより、並列処理可能なコンピュータであれば、仮名漢字変換を一つのアプリケーション(インプットメソッド)が行なうものとし、変換結果を、必要とするアプリケーションに引き渡す構成としても差し支えない。この場合には、キーボード24からの入力をインプットメソッドが一括して引き受けることになる。
【0023】
キーボード24からのキーイメージは、文字入力部40により受け付けられ、ここで、対応する仮名文字列に変換される。ローマ字入力の場合には所定の変換テーブルを参照して、仮名文字列に変換する。一つの仮名文字が得られる度に文字入力部40は、その仮名文字を変換制御部42に送出する。この変換制御部42は、仮名漢字変換の中心的な役割を果たす所であり、後述する種々の仮名漢字変換を制御して、結果を変換後文字列出力部44に送出する。変換後文字列出力部44は、現実には、CRTC27に信号を送り、CRT26に変換後文字列を表示する。
【0024】
変換制御部42は、受け取った仮名文字を文字列入力部50に引き渡す。文字列入力部50は、文字格納部52に仮名文字列を格納する。この文字列に基づいて、自立語候補作成部54と付属語候補作成部64とが、単語データの候補を作成する。自立語候補作成部54は、ハードディスク32に予め記憶された自立語辞書58を用い、自立語解析位置管理部56の管理の下で、得られた仮名文字列から自立語候補を抽出する処理を行なう。一方、付属語候補作成部64は、同じく付属語辞書68を用い、付属語解析位置管理部66の管理の下で、得られた仮名文字列から付属語候補を抽出する処理を行なう。解析位置を移動しつつ、自立語候補と付属語候補を抽出する処理については、後述する。
【0025】
ここで、自立語辞書58は、学習により、同音異義語や接辞などの優先順位を変更する。この学習処理を行なうのが、係り受け学習部70,自立語学習部72,補助語学習部74,接辞学習部76,文字変換学習部78である。係り受け学習部70は、係り受けが成立する条件で、使用者が係り受けに該当する単語以外の語を選択した場合、同じ単語の組合わせでは、使用者が選択した組合わせを優先するよう係り受けの関係を学習するものである。自立語学習部72は、同音異義語の存在する自立語群において、最後に選択された単語を最優先の候補とするよう学習するものである。補助語学習部74は、例えば「ください」などの補助語を「ください」「下さい」など、いずれの語形で変換するかを学習するものである。更に、接辞学習部76は、接頭語,接尾語などの変換形式(例えば、「御」「ご」など)を学習するものである。文字変換学習部78は、入力した文字列をそのままひらがなやカタカナとして確定させた場合に、その文字列を学習し、次回以降の変換処理では確定させたひらがなまたはカタカナを候補として出力するものである。
【0026】
自立語候補作成部54,付属語候補作成部64により、作成された語候補を得て、単語データ作成部80が、各語候補についてのデータを作成する。即ち、得られた自立語と付属語、自立語と自立語、更には「自立語+付属語」からなる文節間の接続を接続検定テーブル84を参照して接続検定部82が行なった結果、および全体のコスト計算をコスト計算部86が行なった結果を得て、単語毎のデータとして出力するのである。この単語データは、一旦単語データ格納部100に格納され、係り受け候補調整部90からの調整出力を受けて、文節分かち書きの処理に用いられる。
【0027】
係り受け候補調整部90は、自立語候補作成部54,付属語候補作成部64からの語候補を受けて、係り受けの検定を行なうものである。係り受けの検定は、ハードディスク32に予め用意された係り受け辞書98を参照することによって行なわれる。係り受けの検定を行なう範囲は、係り受け範囲管理部96により管理される。また、係り受けの関係の検定には、いくつかの許容条件があり、これが使役・受動解析部92,助詞許容解析部94等により判定される。以上の係り受けの検定により調整された係り受け候補と、先に説明した単語データとは、単語データ格納部100により統合され、文節分かち書き部102による文節分かち書きの処理に供される。文節分かち書き部102は、得られたデータから文節分かち書きの第1候補を決定する。
【0028】
以上の処理により文節分かち書きの第1候補と、その文節毎の仮名漢字変換の第1候補が決定される。文節分かち書き部102は、その候補を文節データ格納部106に格納し、格納された候補は、変換文字列出力部108により変換制御部42に出力される。変換制御部42は、この文字列を候補文字列として表示すると共に、非所望の文字列が候補となる場合もありえるから、使用者による指示を受けて、次候補の表示や選択などの処理を行なう。これらの指示や選択の結果などは、文節データ格納部106や既述した各学習部70ないし78に入力され、文節の一部確定や学習による優先順位の書換などに用いられる。なお、図示していないが、使用者により文字列の確定処理がなされると、各部に一時的に保存されたデータは総て消去され、次の変換に備える。
【0029】
以上、仮名文字の入力から変換語文字列の出力までを概説したが、次に各処理の詳細について説明する。まず最初に一般的な文節分かち書きの処理について説明し、次に本発明の要部である係り受けの処理について説明する。図3は、最小コスト法による文節分かち書きの処理の概要を示すフローチャートである。図示するように、まず、一時的に保存されたデータの消去や解析位置を1桁目に初期化するなどの初期化の処理(ステップS200)を行なった後、解析位置を求める処理を行なう(ステップS210)。解析位置とは、それまでに入力された仮名文字列の先頭から順に一つずつ進められていく位置である。例えば、図4に示す例文「くるまではこをはこぶ」という仮名文字列が入力されているとすれば、最初の解析位置は1桁目の「く」の位置である。この解析位置で、ハードディスク32に記憶された自立語辞書58および付属語辞書68を検索する処理を行なう(ステップS220)。
【0030】
辞書の検索を行なった後、得られた単語についてそれ以前の単語との結合をチェックする処理を行ない(ステップS230)、単語間の結合がありえない語しか得られていない場合には、更に辞書を検索する。例えば、図4に示した例では、「こをはこぶ」の「は」について付属語辞書68から検索された係助詞の「は」は、そのなど直前の格助詞「を」との結合がありえないと判断されるから、単語データ作成部80,接続検定部82による接続の検定により、無効なデータとして扱われる。図4では、こうした結合チェックにより無効と判断された語に符号「×」を付けた。なお、単語間の結合は、接続検定テーブル84に予め記憶されているが、この接続検定テーブル84は、単語の品詞同士の結合の可能性についての情報を与えるテーブルであり、実施例では、400×400程度のマトリックスとして与えられている。一つの解析位置での辞書検索と結合チェックが終われば、解析位置を順に進めて更に処理を繰り返す。
【0031】
結合の可能性のある単語については、次にコスト計算を行ない、その語の最小総コストを求める処理を行なう(ステップS240)。この処理は、コスト計算部86が行なうもので、図4(A)に示す例では、「くるま」は、例えば「く」+「る」+「ま」、「くる」+「ま」「くるま」と分けることができ、これらに単語を当てはめてゆくとき、自立語=2、付属語=0のコストを持つものとし、「苦」(自立語)+「流」(自立語)ならば、「流」の総コストは4、と求めるものである。この時、「間」のコストが4となるのは、最小の総コストを求めるからであり、「苦」+「流」+「間」のコスト6ではなく、「来る」+「間」の場合のコスト4を採用するからである。「で」「は」は付属語なので、それ以前の単語のうち最小のコストの単語「車」=2のコストがそれ自身のコストとなる。図4には、各語のコストを右下に示した。
【0032】
以上のコスト計算の後で、各単語のコストをチェックし、不適切なコストのものを無効とする処理を行なう(ステップS250)。不適切なコストとは、他の語の組合わせと比べてコストが大きくなってしまう語の組合わせである。即ち、「区」+「留」といった語の組合わせを選択することは、その位置までで得られる他の語「来る」や「繰る」のコストより高くなってしまうので、不適切なコストと判断して、これを文節候補から除外するのである。この最小コストの考え方から採用されない語を、図4では、語の右上に「●」として示した。なお、図4において、「○」は、その語が、上述した結合チェックとコストチェックの結果、文節候補を形成する可能性のある語として残ったものであることを示している。
【0033】
次に、こうしてコストが与えられた単語候補をリンクする処理を行なう(ステップS260)。即ち、結合が有効とされた語について、その結合関係をポインタを設定することで関係づけるのである。図4の例では、「来る」「繰る」「車」「まで」「で」「は」「では」などが無効でない語として最小総コストの計算がなされたから、「来る」「繰る」については「まで」にリンクし、「車」については「で」「では」にリンクするというように関係づけるのである。こうした結合チェックやコスト計算、そしてリンクづけの処理を、一つの解析位置で総ての単語の検索が完了する間で繰り返す。また、その解析位置での辞書の検索が完了すると、更に解析位置を一つ進めて、新たな単語の成立を検討し、同様に結合チェックやコスト計算などを繰り返す。
【0034】
解析位置が、既に入力された最後の仮名文字の位置に至り、全語について解析が完了した場合には(ステップS265)、以上の処理を前提として、最小コストのパスを検索する処理を行なう(ステップS270)。この処理は、文節分かち書き部102が行なうもので、有効とされた語の組合わせのなかで、語に付与されたコストの総和が最小になるものを検索する処理である。「くるまではこをはこぶ」の例では、図4(B)に実線Jのパスとして示すように、「車で」+「箱を」+「運ぶ」という分かち書きが総コスト18となるので、最小コストとして選択される。なお、最小コストではないが、他の文節分かち書きの候補も検索される。例えば、図4(B)に破線Bのパスとして示すように、「車では」+「子を」+「運ぶ」という分かち書き(コスト=20)である。こうして分かち書きの候補を作成した後(ステップS280)、今度は各文節の内部での候補を作成する処理を行なう(ステップS290)。即ち、ひとつの文節分かち書きの内部で、例えば「はこを」に対して「箱を」や「函を」といった候補を用意するのである。これらの文節の候補や単語の候補は、使用者により文節の分け方をかえるよう指示されたり、次候補を表示するよう指示された場合に使用される。
【0035】
いま一つの文節分かち書きの例を図5に示す。この例は、後述する係り受けの説明に用いるものであるが、係り受けを考慮しない最小コスト法による文節分かち書きを、「きてんのきいた」について適用したものを示す。この例では、結合チェック(ステップS230)により、「ん」は「が」との結合が無効であることから除外され、付属語「た」は、「居」とは結合可能であるが、「奇異」などの名詞とは結合しないことから除外される(×印)。また、「木」や「点」、あるいは「奇異」などは、最小総コストのチェック(ステップS250)から除外される(●印)。この結果、図5に示した例では、「きてんが」+「きいた」という文節分かち書きがなされ、各語の優先順位が図5に示した順序であるとすれば、「きてん」の第1候補としては「貴店」が、「きいた」の第1候補としては「聞いた」が表示されることになる。
【0036】
なお、以上の説明では、コスト計算は、各語自身についてのみ行なったが、実際には、単語同士の結合のしやすさの度合いに応じてコストを下げるポイントを付与したり、文節同士の結合について文法的な規則に基づいて同様に結合し易い文節同士の組合わせにコストを下げるポイントを付与することもできる。ここでは、文節分かち書きの処理に対する理解の便を図って、最も簡易な手法を用いて説明したに過ぎない。
【0037】
以上の文節分かち書きの処理を踏まえ、本発明の要点である係り受けによる文節分かち書きの処理について説明する。図6は、係り受け検定を行なう処理を取り出して示すフローチャートである。この処理は、図3に示したステップS220ないしステップS250の処理と並行して実施される。実際には、解析位置を求めた後(ステップS210)、各種辞書を検索する際、自立語辞書58,付属語辞書68の検索に併せて、係り受け辞書98も検索し、結合チェック、最小総コストの計算に伴うコストチェックと共に、次の係り受け検定処理がなされる。この処理が開始されると、まず、解析位置において候補となり得る語(○印の語)について、係り受け候補調整部90が係り受け辞書98を検索し、係り受け情報が存在する語であるか否かの判断を行なう(ステップS300)。なお、解析位置における語が、接続詞、感動詞、独立語の場合には、係り受けは存在しないとして、その単語についての処理は直ちに終了する。
【0038】
例として、「きてんのきいたせんでんがきいた」という仮名文字が入力されて、解析が「きてんのきいた」まで進んだ場合を取り挙げて説明する。この時、候補としては、「聞いた」「聴いた」「利いた」「効いた」などが得られるから、これらの各語について、係り受け辞書98内に何らかの情報が存在するかを調べるのである。もとより、「聞いた」などは、活用形なので、語幹「聞」や「利」あるいは基本形「聞く」や「利く」をキーワードにして係り受け辞書98は構築されている。
【0039】
実施例における係り受け辞書98の構造の一例を図7に示す。本実施例の係り受け辞書98は、[見出し+受け語(語幹)+1つの係り語+付属語情報]を単位とする構造を持っており、図7の例では、受け語「聞く」について、見出し「き」+受け語「聞」+係り語「話」+「を」、見出し「き」+受け語「聞」+係り語「演説」+「を」、見出し「き」+受け語「聞」+係り語「ラジオ」+「を」、・・・・・というように、一つの受け語について、複数の組みのデータを持っている。更に、見出し「き」,受け語「利く」については、係り語群「機転、薬、無理、気・・・」を構成する各語について、同様に、見出し「き」+受け語「利」+係り語「機転」+「が、の」などのように、一つの係り語毎にデータを持っている。これらのデータは、見出し語の五十音順に並んでいる。もとより、他の語についても、同様の係り受け情報が記憶されている。係り受け候補調整部90は、この係り受け辞書を検索し、該当する見出しおよび受け語が存在する場合には、係り語の候補を辞書から取り出して、係り受けの検定に供するのである。なお、これらのデータは、見出しと受け語は同一であるから、データ群全体の頭に見出し語と受け語を用意し、係り語と付属語の情報を、個々に用意するものとしても良い。こうした係り受け辞書98の他の例については、後述する他の実施例で説明する。
【0040】
また、図7の例では、係り受けの検定を分かりやすく示すため、最小限の情報のみ示したが、実際の係り受け辞書98は、「受け単語見出し+係り単語見出し」、「受け単語見出し長」、「受け単語漢字」、「受け単語品詞」、「係り単語見出し長」、「係り単語漢字」、「係り単語品詞」、「係り受け関係」などの詳細に情報からなる。受け単語や係り単語の品詞は、係り受けの成立と付属語の許容を検討するために必要であり、見出し長のデータは、辞書98から高速に切り出しを行なうのに必要である。
【0041】
係り受けの情報が存在する語(以下、受け語という)が見い出された場合には、次に、係り受けが既に成立したとして登録された範囲を除き、前方に向かって係り受けに対応する語(以下、係り語という)が存在するか検索を行ない(ステップS310)、対応する係り語があるか否かの判断を行なう(ステップS320)。この時、係り語の検索は、最小総コストとなっている語のみならず、他の語についても行なわれる。いま、係り受け辞書98には、「機転(の・が)利く」という係り受けと、「宣伝(が)効く」という係り受けとが記憶されているとする。ここで()内の仮名は、係り受け関係を有するとされる語の間に存在する可能性があるとして許容されている付属語である。ステップS300において受け語となり得ると判断された「利いた」「効いた」について、各々係り語が存在するか判断すると、図5に示した例では、「きてん」という文字列の候補である「機転」が該当すると判断される。ステップS320で、係り語が存在すると判断された場合には、次に両語の間に存在する付属語が、係り受けの存在を許容する語であるか否かの判断を行なう(ステップS330)。
【0042】
助詞の許容解析は、係り受けのタイプにより定義された許容関係を見たしているかを判断するものであり、係り受けのタイプ毎に次の類型を持つ。
[I]連用修飾型
▲1▼名詞+助詞+用言の場合の助詞
格助詞「が」「から」「で」「と」「に」「へ」「より」「を」「の」
係助詞「は」
▲2▼用言連用形+用言の場合
▲3▼名詞+用言(助詞省略型)の場合の省略可能な助詞
「が」「は」係助詞,副助詞
[II]連体修飾型
▲4▼名詞+助詞+名詞の場合の助詞
「の」
▲5▼体言+体言(並列)の場合の助詞
「や」「と」
▲6▼用言連体形+名詞の場合
▲7▼連体詞+名詞の場合
【0043】
即ち、係り受け関係にあると判断された2つの語の関係が上記の▲1▼ないし▲7▼のいずれかに属するとして、係り受け関係にある両語の間に存在する付属語(大部分は助詞もしくは助詞的表現)が上記のいずれかに該当する場合は、係り受け辞書98には係り受け関係を有する語について許容する助詞の設定がなされているから、これを検定するのである。例えば、「機転」と「利く」との間の係り受けが助詞の許容設定(の・が)を伴っている場合、上記▲1▼のケース(名詞+助詞+用言)に属するから、「の」「が」は両語間に存在可能であるけれども(機転が利いた、機転の利いた→○)、他の格助詞「から」「で」などは許容できない(機転から利いた、機転で利いた→×)ということになる。
【0044】
▲1▼ないし▲7▼の各関係について、そこに挙げられたもの以外については、許容されると判断する。この許容されると判断する例を以下に列挙するが、これらは、係り受けとしては実際の表現としては成り立たない場合を含む可能性がある。しかし、係り受けは、実際の人間の言語活動としては、広い概念であり、あまりに厳格な係り受けの取り決めはむしろ現実にそぐわないことが多い。また、余りに厳密な係り受けの取り決めは係り受け辞書98のいたずらな増大を招くだけであり、係り受け検定の速度も低下させる。そこで、本実施例では、付属語の許容について、係り受けの生じる関係を▲1▼から▲7▼に分け、その中で許容・非許容の明確なものについては、係り受け辞書に許容するものとして係り受け関係の成り立つ語と共に記憶し、それ以外については、許容するものとしたのである。
【0045】
[III]許容される表現−連用修飾形の場合
・名詞+格助詞的表現+用言における格助詞的表現
「ずつ」「として」「のため」「において」「によって」など、
・名詞+係助詞+用言における係助詞
「こそ」「さえ」「しか」「でも」「も」など、
・名詞+副助詞+用言における副助詞
「きり」「くらい」「ずつ」「だけ」など、
・名詞+副助詞的表現+用言における副助詞的表現
「なので」「なら」など、
・用言+助詞+用言における助詞
「のは」など
・接続助詞 「ので」「から」「から」「て」など、
・接続助詞的表現 「からには」「ためには」「ほど」「うえ」など、
・用言+用言を並列させる表現 「か」「し」「たり」「と同時に」など、
【0046】
[IV]許容される表現−連体修飾形
・名詞+助詞的表現+名詞における助詞的表現
「における」「に関する」「に基づいて」など、
・用言+助詞的表現+名詞における助詞的表現
「ための」「といった」「に伴う」「などの」「ごとき」など、
・体言+体言を並列させる表現 「か」。
【0047】
以上の規則に従って、係り受けの関係が見い出された2つの語の間の付属語の許容について判断する。例として挙げた「機転」「利いた」の場合には、許容される格助詞は「が」「の」であるから、この場合は係り受けの成立が認められる。そこで、これを判定し(ステップS340)、係り受けが成立した場合には、優先的にその語を含んだ文節を、最小総コストの違いを越えて文節候補とする処理を行なう(ステップS350)。更にこうして見い出された受け語から係り語までの間を係り受け成立済み範囲として登録し、これを管理する処理を行ない(ステップS360)、全範囲について係り受けの検索を行なったか否かの判断(ステップS370)に進む。なお、両語間に存在する付属語により係り受けの成立が否定された場合には、ステップS350,360を行なわず、ステップS370に移行する。
【0048】
係り受けを、受け語から前方に検索して、検索済みとして登録された範囲を除いて総ての語について完了するまで、上記の処理(ステップS310ないし370)を繰り返し、全範囲についての検索が完了すると、次に受け語についての複数の候補について、係り受けの検定が完了したか否かの判断を行なう(ステップS380)。即ち、この例では、「きいた」についての候補「利いた」「効いた」「聞いた」「聴いた」などについて、総て係り受けの関係が成立するものがあるか、検定するのである。係り受けの関係が成立する語が見い出され、付属語の許容解析もパスし、係り受けが成立したと判断された語は、文節候補として最も高い優先順位に設定される(ステップS350)。複数の候補単語について係り受けの関係が成立した場合には、辞書に登録されていた順に優先順位の高い文節候補とする。
【0049】
ここで、係り受けの成立した語を含む文節を文節候補とする際、その文節が最小総コストとなっていない語を含む文節であっても優先されるという点について説明する。「きてんがきいた」の例では、選択される文節「きてんが」「きいた」は、係り受けによる検定を行なわない最小総コスト法による文節候補と、文節の分け方自体は同じである。しかし、例えば、「はんぶんきてんがきいた」という仮名文字列が入力され、「反分岐点」という自立語が存在したと仮定すると、図8に示すように、「反分岐点が」「聴いた」が最小コストのパス(実線G)となって第1候補となってしまう。これに対して、係り受け関係(「機転(が・の)利いた」)の検定がなされた場合には、最小コストのパスとはならない「半分」「機転が」「利いた」が第1候補とされる(図8破線D)。
【0050】
例として取り上げた「きてんがきいたせんでんがきいた」の後半「せんでんがきいた」についても、続けて入力がなされた場合には、同様に最小総コストによるコストの設定と、係り受けの検定とがなされ、図9に示すように、分析がなされる。ここで、後半の「きいた」まで解析位置が進んだ時点で「利」「効」「聞」「聴」について係り受けの検定がされことになるが、「利」について前方に向けて検索しても、「機転が利いた」の範囲については、既に係り受けの成立範囲として登録されており、検索の対象から除かれる。従って、「利」については係り受けが見い出されず、「効」について「せんでん」を見出し語とする「宣伝」が係り語として見い出される。そこで、これについても同様に付属語の許容解析を行ない、許容される場合には、これを文節候補として最優先にリンクする。
【0051】
単語間の接続チェックなどを行なって接続し得ない候補を削除して最終的に得られた文節候補を図10に示す。従って、この文節分かち書きの第1候補は、「機転が利いた宣伝が効いた」となる。
【0052】
更に、体言+助詞+用言の形式の係り受けにおいて、受け語と係り語の間に副詞が存在する文例の係り受けの処理について例示する。係り受けとして「音楽(を)聴く」が存在する場合に、入力した仮名文字列「おんがくをしばしゆっくりきく」を文節分かち書きするばあいの処理を例にとって説明する。図11は、「きく」まで解析位置が進み、「聴」について、前方に遡って係り語が存在するかを検索する場合を示している。「聴」を受け語とする係り受けはもとより「音楽(を)聴く」だけではなく、「ジャズ(を)聴く」とか「ラジオ(を)聴く」なども存在するが、これらは係り受け辞書98に登録されており、「聴」を見出しとして検索することができる。この検索は、前方に遡ってなされるから、「ゆっくり」「湯」「油」「しばし」「芝」「柴」「師」「死」「詩」の順になされ、「音楽を」「御楽を」に至って、「聴」を見出しとする係り受けの中の「音楽(を)聴く」の「音楽」を見い出すことになる。この係り受けは、付属語の許容解析もパスするから、係り受けは成立として、「音楽を」と「聴く」とが文節分かち書きの第1候補となる。この様子を図12に示す。得られる第1候補は、「音楽をしばしゆっくり聴く」となる。ここで、「音楽を」から「聴く」までは、係り受けの成立範囲として、その後の係り受けの検索範囲からは除外される。
【0053】
以上説明した本実施例によれば、単語のコストを計算して文節分かち書きの候補を求める処理の過程で同時に係り受け情報も検索しているので、文節分かち書きの候補を求める段階で、係り受けの情報を反映させることができる。係り受けの情報は、高次の言語活動なので、単語間や文節間のコスト計算による文節分かち書きの選択の画一性による弊害を回避して、より使用者の意図に沿った文節分かち書きの候補を求めることが可能となる。しかも、自立語辞書58や付属語辞書68を参照して行なわれる最小コスト法による文節分かち書きの処理と同時に係り受けの処理もなされるから、係り受けの情報を用いた文節分かち書きの処理を短時間の内に完了することができる。文節分かち書きを済ませてから改めて係り受け辞書98を参照しにゆく場合には、係り受けの情報を用いて文節の分け方を変更することができないばかりか、辞書の参照を再度行なうので、処理に時間を要する。
【0054】
また、係り受けが一旦成立したと判断された場合には、その受け語から係り語までの範囲を係り受け成立範囲として、その後の検索範囲から除外するので、係り受けの範囲が交差することがない。また、2以上の受け語が一つの係り語を受けるという判断をすることもない。また、係り受けの成立を隣接する文節を越えて判断するので、副詞などによる修飾が係り受け関係の間に入っても係り受けの検定を正しく行なうことができる。従って、複数の係り受けが成立する場合には、図13(A)に示すように、独立した係り受けが別個に成立する組合わせか、図13(B)に示すように、一つの受け語が2以上の係り語を受ける組合わせか、図13(C)に示すように、一つの係り受けを跨ぐようにもう一つの係り受けが成立する組合わせが許されることになる。
【0055】
次に本発明の第2の実施例について説明する。第2実施例の仮名漢字変換装置は、第1実施例の構成に加えて、係り受けの後方への検索・検定を行なうものである。即ち、第1実施例では、図6に示したように、係り受け成立範囲を除き、前方にのみ検索したが(図6、ステップS310)、この検索に加えて、係り受け成立範囲を除き後方に検索する処理も併せて行なうのである。後方に検索する場合には、係り受け辞書98が、図7の形式であることから、例えば最小コスト法による文節分かち書き処理の過程において、「話を」+「聞く」という文節候補に対して前方に向かって検索することで係り受けが見い出されるように、「聞いた」+「話」という文節候補が、後方に向かって検索することで見い出される。即ち、図7に示した辞書構造を備える場合には、文節候補を検定する処理の中で、前方検索、後方検索いずれにも、この辞書を利用することが可能となる。
【0056】
同様の係り受け処理を「かたいけっしん」という文字列に対して適用した例について、図14に従って説明する。図14(A)に示すように、「かたいけっしん」という入力文字列が、最小コスト法および第1実施例の係り受け検定により、「かたい」+「けっしん」と文節分かち書きされる。係り受けの検定がなければ、それまでの単語の学習情報に従って、各文節の第1候補が定められるはずである。図14(B)に示す例では、「かたい」の第1候補として「過怠」が、「けっしん」の第1候補として「結審」が選択されてしまう。しかし、係り受けの後方検索により、次のように各文節の第1候補が、決定される。なお、係り受け辞書98には、「決心(が・は)固」という係り受け情報が記憶されているものとする。
【0057】
係り受けの検定は、末尾の文節から開始されるが、ここで、「結審」もしくは「決心」を受け語とする係り受けは見い出されず、次に係り受けの検定位置は、一つ前の文節「池」に移る。これらの語を受け語とする係り受けが、前方はもとより後方向かって検索しても見い出されないと、更に検定の位置は一つ前に遡って、文節「かたい」を取り出し、その最初の候補「過怠」について、係り受け辞書98に係り受け情報が存在するかを判断する。候補「固い」を選んだとき、この語についての係り受けの情報が、係り受け辞書98に存在するから、次に係り受けが成立したとして既に登録されている範囲を除き、後方に向かって係り受けの検索を行なう。
【0058】
この検索により、「決心(が・は)固」という体言+助詞+用言というタイプの係り受けの情報をに合致する語、即ち「決心」が見い出され場合には、「固い決心」という連体修飾型が成り立つとして、「固い」と「決心」とをその文節における最優先の候補としてそれぞれ最上位にリンクする。その後、「固い」から「決心」までの文節は係り受けが成立したとして、係り受けの成立範囲として、以後の検索から除く。以上の処理により、図14に示した例では、最終的な文節分かち書きの候補は、同図(C)に示すように、「固い」+「決心」となる。
【0059】
以上説明した第2実施例によれば、第1実施例と同様の効果に加えて、1種類の係り受け辞書98により、極めて簡単に逆向きの係り受けも検定して、文節候補を切り出すことができるという効果が得られる。従って、体言+用言のように後方に用言が位置する係り受けの情報を用いて、連体修飾型のように後方に体言が位置する係り受けを検定して、係り受けに該当するものが存在する場合には、その係り受けが成立する文節分かち書きを優先的に選択すると共に、各文節の第1候補を係り受けの情報に従って選択することができる。従って、高次の言語活動である係り受けを優先して第1候補を表示することができ、仮名漢字変換の精度を向上することができる。図6におけるステップS310での検索で範囲を限定せずに、前方および後方に検索すれば良いから、処理は容易である。
【0060】
次に本発明の第3の実施例について説明する。第3実施例の仮名漢字変換装置は、図15に示すように、第1実施例の仮名漢字変換に加えて、係り受け転置情報調整部104により逆向きの係り受けの検定を行なうものである。係り受け転置情報調整部104は、文節分かち書き部102により決定された文節分かち書きの候補に対して、更に、係り受けが成立していない文節の単語について、逆方向から係り受けの成立の可能性について検定し、係り受けが成立すると判断した場合に、係り受けの成立する候補を第1候補とする処理を行なうものである。係り受け転置情報調整部104によって行なわれる係り受けの逆向きの検定について、図16のフローチャートを用いて説明する。この逆向き検定は、上述した文節分かち書きの処理が完了し、分かち書きと各文節の単語候補が得られた後で起動される。この処理は、図6として示した係り受け検定処理と類似の処理であり、ステップS395において、解析位置を対象としている入力文字列の先頭に設定する処理の後になされる各ステップS400ないしS420、S450ないしS480は、図6の下2桁が等しいステップS300ないしS320、S350ないしS380と同一である。
【0061】
なお、本実施例における係り受け辞書98の構造の一例を図17に示す。図17の例では、受け語「聞く」について、見出し「き」,受け語「聞く」,係り語群「話、演説、ラジオ・・・・」が一体となって、更に、見出し「き」,受け語「利く」,係り語群「機転、薬、無理、気・・・」が一体となって、見出し語の五十音順に並んでいる。もとより、他の語についても、同様の係り受け情報が記憶されている。係り受け候補調整部90は、この係り受け辞書を検索し、該当する見出しおよび受け語が存在する場合には、係り語の候補を辞書から取り出して、係り受けの検定に供するのである。
【0062】
逆向きの検定を行なう例として、図14(A)に示すように、「かたいけっしん」という入力文字列が、最小コスト法および第1実施例の係り受け検定により、「かたい」+「けっしん」と文節分かち書きされ、図14(B)に示すように、「かたい」の第1候補として「過怠」が、「けっしん」の第1候補として「結審」が選択された場合を取り上げる。これらのデータは、文節分かち書き部102により用意され、係り受け転置情報調整部104による逆向きの係り受け検定に供される。また、係り受け辞書98には、「決心(が・は)固」という係り受け情報が記憶されているものとする。
【0063】
係り受け転置情報調整部104による処理が開始されると、最初の解析位置として第1の文節「かたい」を取り出し、その最初の候補「過怠」について、係り受け辞書98に係り受け情報が存在するかを判断する。存在しなければ、総ての候補について完了したか判断し(ステップS480)、完了していなければ、順次候補を選択して係り受けの情報の有無を判断する。候補「固い」を選んだとき、この語には係り受けの情報が存在するから、次に係り受けが成立したとして登録されている範囲を除き、後方に向かって係り受けの検索を行なう(ステップS410)。この検索により対応する語(ここでは、「決心」)が存在しなければ(ステップS420)、処理は一旦終了し、次の候補について再度係り受けの情報の有無の判断からやり直す(ステップS480,400)。
【0064】
「決心(が・は)固」という体言+助詞+用言というタイプの係り受けの情報をに合致する語、即ち「決心」が見い出され場合には、「固い決心」という連体修飾型が成り立つとして、「固い」と「決心」とをその文節における最優先の候補としてそれぞれ最上位にリンクし直す(ステップS450)。その後、「固い」から「決心」までの文節は係り受けが成立したとして、係り受けの成立範囲として管理する処理を行なう(ステップS460)。これ以降の検索において係り受けの検索対象から除くのである。
【0065】
その後、係り受けの検索が残っている範囲がないか判断し(ステップS470)、残っていれば再度ステップS410から処理を繰り返し、全範囲について検索が完了すれば、係り受けの検定がなされていない候補が残っているか判断し(ステップS480)、全語について処理が完了するまで繰り返す。同一の文節の異なる2以上の候補について係り受けが成立した場合には、辞書の登録順序に従って優先順位を決めても良いし、学習による優先順位に基づいて第1候補を定めても良い。図14に示した例では、最終的な文節分かち書きの候補は、同図(C)に示すように、「固い」+「決心」となる。
【0066】
以上説明した第3実施例によれば、図17に示した単純な構造の係り受け辞書98を用いて、体言+用言のように後方に用言が位置する係り受けの情報を用いて、連体修飾型のように後方に体言が位置する係り受けを検定して、係り受けに該当するものが存在する場合には、これを第1候補とすることができる。従って、高次の言語活動である係り受けを優先して第1候補を表示することができ、仮名漢字変換の精度を向上することができる。また、辞書構造が簡単なので、辞書の容量を小さく抑えることができ、しかも係り受けの逆向きの検定に要する時間を短くすることができる。これは、一旦文節分かち書きを済ませた後で、選ばれた文節候補についてのみ、係り受けの逆向きの検定を行なっているからである。第2実施例では、文節分かち書きの処理に係り受けの逆向きの検定を組み込んでおり、この点で両者は異なる。
【0067】
なお、第2,第3実施例では、用言を起点とする係り受けの前方への検定(第1実施例)と体言を起点とする係り受けの後方への検定とを共に行なったが、図16に示した体言を起点とする係り受けの検定のみを行なうものとしても差し支えない。また、第3実施例では、係り受けの検索を隣接する文節を越えて行なうものとし、係り受けの情報は、文節分かち書き自身の制限には利用していない。第1実施例と同様係り受けの逆向きの検定でも、文節分かち書きの制限に利用しても差し支えない。
【0068】
また、第1実施例の辞書構造(図7)をとる場合には、受け語の見出しのみならず係り語の見出しにもインデックスを付け、文節分かち書きの検定を行う際、前方もしくは後方の一方向のみの探索とし、着目した単語について受け語による検索と係り語による検索を両方行うことで、用言を起点とする係り受けの検定と体言を起点とする係り受けの検定とを同時に実現してもよい。この場合には探索の方向を一方向で済ませながら、両者の係り受けの検定を実現することができる。
【0069】
以上本発明の実施例について説明したが、本発明はこうした実施例に何等限定されるものではなく、例えば最小コスト法に代えて2文節最長一致法などの他の文節分かち書きの手法を用いた構成など、本発明の要旨を逸脱しない範囲内において、種々なる態様で実施し得ることは勿論である。
【0070】
【発明の効果】
以上説明したように本発明の第1の仮名漢字変換装置および仮名漢字変換方法では、係り受けの情報を用いて文節分かち書きの候補を制限するから、係り受けの情報が存在する場合には、この情報によって、文節分かち書きの非所望な候補は選択され難くなり、所望の分かち書きがなされる可能性が高くなるという優れた効果を奏する。単に係り受けの情報を用いて単語の候補の優先順位を変更するだけでなく、文節分かち書きの段階で係り受けの情報に用いるので、高次の言語活動である係り受けを生かした分かち書き候補を得ることができるのである。
【0071】
また、本発明の第2の仮名漢字変換装置は、係り受け情報に該当する単語を備えた文節を、検索の起点とした文節に隣接する文節以外の文節まで検索し、この検索結果に基づいて、仮名漢字変換の第1候補を選択し、更に、こうして係り受けの関係が見いだされたとき、検索の起点となった文節から係り受けの関係が見いだされた文節までの範囲を、次の係り受けの検索範囲から除外するから、係り受けの関係が隣接した文節間以外で成立している場合でも、係り受けの検索を高速に行なって、所望の漢字仮名混じり文を得ることができるという優れた効果を奏する。
【図面の簡単な説明】
【図1】本発明の一実施例である仮名漢字変換装置における仮名漢字変換機能の実現形態を示す機能ブロック図である。
【図2】実施例としての仮名漢字変換装置が実現されるハードウェアを示すブロック図である。
【図3】文節分かち書き部102において実行される文節分かち書き処理を示すフローチャートである。
【図4】最小コスト法による文節分かち書きの様子を示す説明図である。
【図5】最小コスト法による文節分かち書きの他の例を示す説明図である。
【図6】実施例における係り受け検定の処理を示す説明図である。
【図7】第1実施例における係り受け辞書の一例を示す説明図である。
【図8】係り受けの情報を用いて行なわれる文節分かち書きの処理の一例を示す説明図である。
【図9】同じく他の文例の処理の様子を示す説明図である。
【図10】同じくその場合の仮名漢字変換の候補の優先順位を示す説明図である。
【図11】異なる類型の係り受けの処理の様子を示す説明図である。
【図12】その場合の仮名漢字変換の候補の優先順位を示す説明図である。
【図13】一つの入力文字列に内に複数の係り受けが存在する場合の類型を示す説明図である。
【図14】第2,第3実施例における逆向きの係り受けの検定の処理の様子を示す説明図である。
【図15】第3実施例としての仮名漢字変換装置の概略構成図である。
【図16】第3実施例における係り受けの逆向き検定処理の詳細示すフローチャートである。
【図17】第3実施例における辞書の一例を示す説明図である。
【符号の説明】
21…CPU
22…ROM
23…RAM
24…キーボード
25…キーボードインタフェース
26…CRT
27…CRTC
28…プリンタ
29…プリンタインタフェース
30…ハードディスクコントローラ(HDC)
31…バス
32…ハードディスク
40…文字入力部
42…変換制御部
44…変換後文字列出力部
50…文字列入力部
52…文字格納部
54…自立語候補作成部
56…自立語解析位置管理部
58…自立語辞書
64…付属語候補作成部
66…付属語解析位置管理部
68…付属語辞書
70…係り受け学習部
70…学習部
72…自立語学習部
74…補助語学習部
76…接辞学習部
78…文字変換学習部
80…単語データ作成部
82…接続検定部
84…接続検定テーブル
86…コスト計算部
90…係り受け候補調整部
92…受動解析部
94…助詞許容解析部
96…係り受け範囲管理部
98…係り受け辞書
100…単語データ格納部
102…文節分かち書き部
104…係り受け転置情報調整部
106…文節データ格納部
108…変換文字列出力部

Claims (11)

  1. 仮名文字列を入力し、辞書を参照して、該入力された仮名文字列を文節分かち書きし、仮名漢字混じり文字列候補を生成する仮名漢字変換装置であって、
    日本語を構成する自立語と付属語に異なるコストを付与すると共に、各語の読みに相当する仮名文字列と変換後の文字列とを記憶した仮名漢字辞書と、
    所定の単語同士が文において共に用いられる特定の関係であることを示す係り受けの情報を、係り語と受け語と該係り語および受け語と間の許容される付属語の情報として記憶した係り受け情報辞書と、
    前記入力された仮名文字列を文節分かち書きする処理を行なう際、前記仮名漢字辞書に記憶された前記自立語および前記付属語から、前記入力した仮名文字列を構成し得る語の配列を網羅的に生成し、該生成された配列のうち、各配列を構成する語のコストから許容される全配列を求め、該配列により前記入力された仮名文字列を構成し得る文節を生成する文節生成手段と、
    前記係り受け情報辞書に記憶された係り受け情報を参照して、前記総ての配列について、後方に位置する単語を受け語として前方に位置する係り語の存在を、前記係り語に付属した付属語が前記許容される付属語に該当することを条件として検索する文節検索手段と、
    該検索結果に基づいて、前記係り受けが成立する文節を、前記文節分かち書きの第1候補とする候補制限手段と、
    前記係り受けが成立すると判断された係り語から受け語までを、係り受けの成立範囲として登録すると共に、次に前記文節検索手段が検索する範囲から除く手段と
    を備えた仮名漢字変換装置。
  2. 請求項1記載の仮名漢字変換装置であって、
    前記文節検索手段は、
    後方の文節を起点として、既に登録された検索済み範囲を除いて、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段を備えた仮名漢字変換装置。
  3. 請求項1記載の仮名漢字変換装置であって、
    前記候補制限手段は、前記文節検索手段により係り受け情報に該当する単語を備えた文節が見いだされたとき、該文節を含む分かち書きを優先的に選択する手段を備えた仮名漢字変換装置。
  4. 請求項1記載の仮名漢字変換装置であって、
    前記第1候補を含む文節候補のうち確定された文節の使用について学習し、次回以降の仮名漢字変換において、該学習された文節を優先的に候補とする手段を備えた仮名漢字変換装置。
  5. 請求項1記載の仮名漢字変換装置であって、
    前記文節検索手段は、
    前方の文節を起点として、既に登録された検索済み範囲を除いて、後方に向かって順次係り受け情報に該当する単語を備えた文節を検索する順行検索手段を備えた仮名漢字変換装置。
  6. 請求項1記載の仮名漢字変換装置であって、
    前記文節検索手段は、
    後方の文節を起点として、前記係り受け情報辞書に記憶された係り受けの関係を参照し、前方に向かって順次係り受け情報に該当する単語を備えた文節を検索する遡行検索手段と、
    前方の文節を起点として、前記係り受け情報辞書に記憶された係り受けの関係の前後を逆に参照し、後方に向かって順次係り受け情報に該当する単語を備えた文節を検索する順行検索手段とを備えた
    仮名漢字変換装置。
  7. 請求項1記載の仮名漢字変換装置であって、
    前記文節検索手段は、
    所定の文節において候補とされた各単語について、前記係り受け情報辞書を参照して、係り受け関係を有する他の単語が、該所定の文節以外に存在するか否かを判定する手段と、
    該手段により係り受け関係を有する単語の存在が見いだされたとき、前記係り受け情報辞書を参照して、該見いだされた単語間に存在する語が、前記単語間に存在し得るとされた付属語か否かを判別する手段とを備え、
    該付属語であると判別されたとき、係り受け関係は成立と判断する
    仮名漢字変換装置。
  8. 文節検索手段は、係り受け関係を有する単語間に存在する補助的な語が、予め定めた特定の文法構造を有する語である場合には、係り受け関係は成立と判断する手段を備えた請求項7記載の仮名漢字変換装置。
  9. 請求項1記載の仮名漢字変換装置であって、
    前記入力された仮名文字列について前記文節生成手段より前記文節を生成した後、所定の文節を起点として、該係り受け情報を参照して、係り受け情報に該当する単語を備えた文節を、該起点とした文節に隣接する文節以外の文節まで検索する隔文節検索手段と、
    該検索の結果、前記係り受け情報に該当する文節が見い出され場合には、該文節を仮名漢字変換の第1候補として選択する漢字候補選択手段と、
    前記隔文節検索手段により係り受けの関係が見いだされたとき、前記起点となった文節から該見いだされた文節までの範囲を、次の隔文節検索手段により検索範囲から除外する検索範囲除外手段と
    を備えた仮名漢字変換装置。
  10. 請求項1または請求項9の仮名漢字変換装置であって、
    係り受け辞書を参照して係り受けの関係にある単語を含む文節が見い出されなかった範囲については、単語間の結合および文節間の結合の生じ易さが最大となる組合わせを選択する手段を備えた仮名漢字変換装置。
  11. 辞書を参照して、入力された仮名文字列を文節分かち書きし、仮名漢字混じり文字列候補を生成する仮名漢字変換方法であって、
    日本語を構成する自立語と付属語に異なるコストを予め付与すると共に、各語の読みに相当する仮名文字列と変換後の文字列とを、仮名漢字辞書として記憶装置に記憶し、
    所定の単語同士が文において共に用いられる特定の関係であることを示す係り受けの情報である、係り語と受け語と該係り語および受け語と間の許容される付属語の情報とを、係り受け辞書として、記憶装置に記憶し、
    前記入力された仮名文字列を文節分かち書きする処理を行なう際、前記仮名漢字辞書に記憶された前記自立語および前記付属語から、前記入力した仮名文字列を構成し得る語の配列を網羅的にコンピュータが生成し、該生成された配列のうち、各配列を構成する語のコストから許容される全配列を求め、該配列により前記入力された仮名文字列を構成し得る文節をコンピュータが生成し、
    所定の文節同士の係り受けの情報を記憶した係り受け情報を参照して、前記総ての配列について、後方に位置する単語を受け語として前方に位置する係り語の存在を、前記係り語に付属した付属語が前記許容される付属語に該当することを条件としてコンピュータが検索し、
    該検索結果に基づいて、前記係り受けが成立する文節が存在するとき、該文節を、コンピュータが、前記文節分かち書きの第1候補とし、
    前記係り受けが成立すると判断された係り語から受け語までを、係り受けの成立範囲として登録すると共に、コンピュータが、次に係り語と受け語の検索を行なう範囲から除く
    仮名漢字変換方法。
JP11032794A 1994-04-25 1994-04-25 仮名漢字変換装置および仮名漢字変換方法 Expired - Fee Related JP3873291B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11032794A JP3873291B2 (ja) 1994-04-25 1994-04-25 仮名漢字変換装置および仮名漢字変換方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11032794A JP3873291B2 (ja) 1994-04-25 1994-04-25 仮名漢字変換装置および仮名漢字変換方法

Publications (2)

Publication Number Publication Date
JPH07295975A JPH07295975A (ja) 1995-11-10
JP3873291B2 true JP3873291B2 (ja) 2007-01-24

Family

ID=14532928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11032794A Expired - Fee Related JP3873291B2 (ja) 1994-04-25 1994-04-25 仮名漢字変換装置および仮名漢字変換方法

Country Status (1)

Country Link
JP (1) JP3873291B2 (ja)

Also Published As

Publication number Publication date
JPH07295975A (ja) 1995-11-10

Similar Documents

Publication Publication Date Title
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
TWI496012B (zh) 管理電子形式之中文、日文及韓文語言資料的模組系統與方法
US7191119B2 (en) Integrated development tool for building a natural language understanding application
JP2002215617A (ja) 品詞タグ付けをする方法
Soni et al. A systematic review of automated grammar checking in English language
Unnikrishnan et al. A novel approach for English to South Dravidian language statistical machine translation system
Bugert et al. Generalizing cross-document event coreference resolution across multiple corpora
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Tufiş et al. DIAC+: A professional diacritics recovering system
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
Koleva et al. An automatic part-of-speech tagger for Middle Low German
Demilie et al. Automated all in one misspelling detection and correction system for Ethiopian languages
de Mendonça Almeida et al. Evaluating phonetic spellers for user-generated content in Brazilian Portuguese
JP3873291B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
Behera Odia parts of speech tagging corpora: suitability of statistical models
Schulz et al. From 0 to 10 million annotated words: part-of-speech tagging for Middle High German
Lu et al. Language model for Mongolian polyphone proofreading
Aydinov et al. Investigation of automatic part-of-speech tagging using CRF, HMM and LSTM on misspelled and edited texts
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
L’haire FipsOrtho: A spell checker for learners of French
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
Rodrigues et al. Arabic data science toolkit: An api for arabic language feature extraction
JP5853688B2 (ja) 言語処理プログラム、言語処理装置および言語処理方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091102

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101102

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111102

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121102

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131102

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees