JP3884807B2

JP3884807B2 - 文書処理方法及びその装置

Info

Publication number: JP3884807B2
Application number: JP35023596A
Authority: JP
Inventors: 浩司前川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-27
Filing date: 1996-12-27
Publication date: 2007-02-21
Anticipated expiration: 2016-12-27
Also published as: JPH10187704A

Description

【０００１】
【発明の属する技術分野】
本発明は入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法及びその装置に関するものである。
【０００２】
【従来の技術】
従来の文書処理方法における仮名漢字変換によると、以下のようないくつかの不都合が生じていた。
第１の例としては、予め基本文節の変換候補に含まれない単語の情報は第１候補として出力できないため、何度その単語を選択しても第１候補にならず、それがよく使われる単語だった場合には、他の大部分がうまく変換されていてもユーザに不快感を与える。
【０００３】
すなわち、入力仮名文字列に対して辞書サーチや接続チェックなどの情報をもとに解析を行って、可能性のある幾つかの基本文節候補を抽出し、抽出された基本文節候補の中から文節の接続状況などのパラメータを用いて基本文節を決定する。次に、基本文節の仮名文字列に基づいて、基本文節のもととなる自立部を変換した候補（以下基本文節変換候補）の中から、学習データ等の優先順位決定データなどを用いて、第１候補となる自立部が変換された基本文節を決定する。
【０００４】
ところが、以前の変換処理でユーザにより選択された自立部が、上記基本文節変換候補にある単語であった場合には、この単語が優先順位決定データに記憶されることにより学習されるので、次回の変換処理ではユーザにより選択された自立部を含む基本文節変換候補が第１候補として選択されるが、上記基本文節変換候補に無い単語であった場合には、優先順位決定データに記憶されることにより学習されていても、次回の変換処理ではユーザにより選択された自立部を含む基本文節変換候補が無いので、他の単語が選択され出力されてしまう。
【０００５】
例えば、「じしょしようときめる」と仮名文字列が入力されて、「じしょしようと」が基本文節として決定され、先にユーザによって「辞書仕様と」が選択された場合には、図１４に示すように、「辞書」と「仕様」とが基本文節変換候補の中の優先順位決定データとして学習されるが、もし「辞書しようと」という基本文節変換候補が予め登録されてなければ、同じ仮名文字列が入力されても、基本文節変換時に最優先候補の、例えば「自書しようと」にしか変換されないので、所望の「辞書仕様と」が第１候補として表示されない。
【０００６】
第２の例としては、学習データとして使用した自立部の単語情報しか格納していないので、最後に使用した単語が第１候補として出力され易くなり、同じ読みの自立部が繰返えされる場合には、学習しても希望する同音語が第１候補とされない場合がある。
例えば、「きのうのきのうときょうのきのうは」という仮名文字列が入力された場合を考えると、以前のユーザによる選択結果が、図２４に示すような「昨日の機能と今日の機能は」であった場合に、新たに同じ仮名文字列が入力された時には、優先順位決定データには最後に選択された「機能」が最優先候補として記憶されているので、上記基本文節変換候補からは「機能」を含む基本文節が選択され、出力結果は図２５のように「機能の機能と今日の機能は」となってしまう。
【０００７】
第３の例としては、変換機能の向上のために複数ブロック又は複数種類の辞書を有する場合に、上記学習データを記憶する学習領域をブロック又は辞書毎に持っているため、全体での学習領域が大きくなると共に、学習データの適用・登録処理が複雑になっていた。
例えば、従来の仮名漢字変換における標準単語辞書と学習領域（同音語情報等の学習データの記憶）との構造は、図３３のように標準単語辞書の各辞書ブロック１〜Ｎに各学習ブロック１〜Ｎが対応する構造になっている。ここで、辞書ブロックとは、標準単語辞書をある一定のサイズ（図３３の例では３２Ｋバイト単位）で分割したその１単位である。そして、従来の学習ブロックの構造は、図３４のような構造になっており、１バイトの学習データをＭ個記憶することができ、学習データをこの学習ブロックへ登録することにより、その学習データに対応する単語の学習効果を得ることができる。また、従来の標準単語辞書以外の学習領域は、図３５のようになっている。即ち、それぞれの単語ごとに学習ビットが割り当てられていて、学習ビットをＯＮにすることによって、そのビットに対応する単語の学習効果を得ることができる。
【０００８】
このような、辞書と学習領域との構成により最優先候補を選択しようとする場合に、大別して、最後の登録のみを残すことにより常に最新の選択が優先される方法と、複数の辞書又は辞書ブロックに対応して同音語を登録し、辞書の種類や品詞、あるいは登録の新旧等で予め優先度を決めておき、この優先度に従って最優先候補を決める方法とがある。
【０００９】
しかしながら、上記学習においては、辞書又は辞書ブロックごとに学習領域を持っているために、全体での学習領域が大きくなり処理が複雑になるが、更に、前者の方法を実施した場合には、最後の登録以外の学習データが無くなる上に、ある学習ブロックでは頻繁に学習データの追い出しが起こるのに対し、他の学習ブロックではブロック内に学習データがほとんど格納されていないという状況が起き、学習領域に無駄な部分が生じて使用効率が悪くなる。また後者の場合には、最優先候補の決定時に使用するファクター（辞書の種類は品詞等）に不確定要素が多いために、最新の学習同音語が次の変換時に必ず第１候補になるとは限らない等、学習の効果が曖昧になり学習の仕様が複雑になる。
【００１０】
【発明が解決しようとする課題】
本発明が解決しようとする課題は、予め基本文節変換候補に存在しない単語の情報も第１候補として出力できる文書処理方法及びその装置を提供する。
【００１１】
本発明が解決しようとしている更なる課題は、学習の効果を充分保持したままで、学習領域の容量を削減し且つ処理を簡単にして、辞書の使用効率を高める文書処理方法及びその装置を提供する。
【００１２】
【課題を解決するための手段】
本発明は上述の課題を解決することを目的としてなされたもので、上述の課題を解決する手段として以下の構成を備える。
即ち、仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段と、プログラムに基づいて各種処理を実行する処理手段と、前記プログラムが記憶されたプログラム記憶手段とを備え、かつ前記処理手段及び前記プログラム記憶手段が協働することによって実現される基本文節決定手段、学習データサーチ手段、自立語変更手段、同音語決定手段、及び学習データ記憶制御手段を備えた文書処理装置において、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法であって、前記基本文節決定手段が、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第１候補となる基本文節を決定する行程と、前記学習データサーチ手段が、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする行程と、前記自立語変更手段が、前記自立語の読みに対する学習データが前記学習データ記憶手段から見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する行程と、前記同音語決定手段が、前記基本文節の同音語を決定する行程と、前記同音語決定手段が、前記同音語を決定する行程において前記基本文節の基となる自立語を他の同音語へ変更した場合に、前記学習データ記憶制御手段が、変更前の自立語の読みデータと変更後の自立語の単語表記とを学習データとして前記学習データ記憶手段に記憶する行程とを備えることを特徴とする。
【００１３】
ここで、前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書データからの学習データを格納するようにした。
【００１５】
また、仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段とを備え、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理装置であって、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第１候補となる基本文節を決定する基本文節決定手段と、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする学習データサーチ手段と、前記自立語の読みに対する学習データが見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する自立語変更手段と、前記基本文節の同音語を決定する時に前記基本文節の基となる自立語を他の同音語へ変更した場合に、変更前の自立語の読みデータと変更後の自立語の単語識別情報とを学習データとして前記学習データ記憶手段に記憶する学習データ記憶制御手段とを備えることを特徴とする。
【００１６】
ここで、前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書データからの学習データを格納するようにした。
【００１７】
ここで、前記学習データ記憶手段は、読みごとに対応して辞書ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ辞書内の学習データ領域に全ての辞書の学習データを格納するようにした。
【００１８】
【発明の実施の形態】
（実施の形態１）
実施の形態１は、読みとペアで単語情報を学習データとして持つことにより、変換候補に存在しない単語の情報を第１候補として出力するようにしたもので、以下詳細に説明をする。
【００１９】
実施の形態１を記憶装置５に記憶された図１に示す原理フローチャートならびに、図３〜図１３を用いて説明する。本例では、従来例と同様に「じしょしようときめる」が入力される場合を説明する。
なお、図２は本実施の形態を実現するために必要な情報処理システムのブロック図である。図２で、１はキーボードなどの入力装置、２は中央演算処理装置、３はＣＲＴなどの出力装置、５はＲＯＭ，ＲＡＭなどの記憶装置であり、プログラム５１ａ、辞書５２、学習データ５３等を含む。
【００２０】
図１のステップＳ１１では基本文節の決定を行う。この基本文節処理を図３に示す。図３では、入力読み文字列の解析を行って基本文節候補を抽出する。その基本文節候補の中から次に基本文節を決定する。本例では、「じしょしようと」が基本文節に決定される。
図１のステップＳ１２では、優先順位決定データ（学習データ）をサーチして、基本文節を作成するもととなった変換候補と一致するデータを検索する。この優先順位決定データサーチの処理を図４に示す。最初は優先順位決定データが無いので、一致データなしと応答される。ステップＳ１３では、図５に示すように、学習データのサーチ結果を用いて、第１候補となる自立部を決定する。本例では、優先順位決定データが無かったので、「自書しようと」が第１候補となる。ステップＳ１４では、図６に示すように、基本文節、すなわち第１候補の分割処理を行って同音語単位に分割する。「自書」と「しようと」に分割される。
【００２１】
ステップＳ１５では、図７に示すように、付属語として切り出された同音語の決定処理を行い（付属語単文節決定処理）、最終的には図８に示すように出力結果となる。本例では、付属語単文節「しようと」はそのまま「しようと」で出力される。
ステップＳ１６では、出力結果がユーザの希望する結果であるかが判定され、出力結果がユーザの希望する結果ではなかった場合、ステップＳ１７で同音語の変更、選択および決定を行う。図９は、前述のステップＳ１７の例を示す図である。本例では、「自書」は「辞書」へ、「しようと」は「仕様と」に変更／決定される。出力確定の結果は、ステップＳ１８で、図１０に示すように変更結果情報の保存（学習データへの記憶）を行う。すなわち、自立部の優先順位決定データとして「じしょ（読み），辞書（変換単語）」が記憶され、付属部の優先順位決定データとして「仕様」が記憶される。
【００２２】
さて、１回目の処理で作成された学習データを使用して、２回目以降の処理を以下に説明する。
基本文節の決定処理を行い、図１１のように基本文節候補を格納する。１回目と同様に「じしょしようと」が選ばれる。基本文節の変換候補の自立語読みで学習データをサーチして、一致する学習データが存在した場合には、その学習データをもとに自立部の第１候補を変更する（図１２参照）。自立部変換候補には「辞書」は無いが、１回目に自立部の優先順位決定データとして「じしょ（読み），辞書（変換単語）」が記憶されているので、「じしょ」が「辞書」に変更される。以降、一回目の処理と同様の処理を行い、付属語の優先順位決定データとして「仕様」が記憶されているので、図１３の出力結果「辞書」「仕様と」が出力される。
【００２３】
本実施の形態によれば、従来の処理では自動変換できなかった単語を、読みとペアで単語情報として記憶することにより、自立部変換候補に存在しない単語の情報を第１候補として出力することができるようになる。この結果、一度選択したにもかかわらず第１候補にならないということがなくなり、学習後の変換率の向上となる。
【００２４】
（実施の形態２）
実施の形態２は、決定した自立語がどのような状況で使用されたかを判断し、自立語の使用された状況の情報を仕様単語状況記憶データ（学習データ）に記憶することにより、希望する同音語が第１候補として変換されるもので、以下その実施の形態を詳細に説明する。
【００２５】
実施の形態２を、記憶装置５に記憶された図１５の原理フローチャートならびに、図１６〜図２３を用いて説明する。本例では、「きのうのきのうときょうのきのうは」を例に説明する。
なお、図１６は本実施の形態を実現するために必要な処理システムのブロック図である。図１６で、１はキーボードなどの入力装置、２は中央演算処理装置、３はＣＲＴなどの出力装置、５はＲＯＭ，ＲＡＭなどの記憶装置であり、プログラム５１ｂ、辞書５２、自立部／使用状況５４等を含む。
【００２６】
ステップＳ２１では文字列の入力を行う。ステップＳ２２では、入力文字列を解析して基本文節候補を抽出し、基本文節を決定する。基本文節として図１７の基本文節１〜４を決定する。すなわち、「きのうの」「きのうは」「きょうの」「きのうは」と決定される。
ステップＳ２３では、基本文節の変換候補（図１７の変換候補１〜４）からそれぞれ学習データなどを参照し、ステップＳ４で第１候補を決定する。単語使用状況にはまだ何も記憶されていないので、それぞれの基本文節が図１７の第１候補のように決定される。ステップＳ２５では図１８のような結果を出力する。すなわち、「昨日の」「昨日は」「今日の」「昨日は」と出力される。
【００２７】
ステップＳ２６では、ステップＳ２５で決定した出力結果が希望する同音語かどうかオペレータが判断し、希望とする同音語だった場合はステップＳ３０へスキップする。希望する同音語でなかった場合はステップＳ２７の処理を行う。
実施の形態２では、第１候補２と第１候補４が希望する結果でなかったので、ステップＳ２７の同音語変換処理によって同音語候補を抽出し、ステップＳ２８ではそれぞれの同音語候補を出力する。ステップＳ２９では、図１９のようにそれぞれの同音語候補の中から、希望する同音語を選択する。ステップＳ３０では、以上の処理によって、図２０のような希望する同音語候補を得ることができる。本例では、２番目と４番目の文節が変更されて、「昨日の」「機能と」「今日の」「機能は」と確定する。
【００２８】
ステップＳ３１では、確定結果からそれぞれの文節を構成する自立群がどのような状況で使用されたかを判断し、使用した独立語の情報とその自立語を使用した状況の情報を学習データに記憶する。図２１の例では、（１）使用した自立語の単語情報と、（２）使用した状況の情報として自立語に付属した付属語の情報とを、学習データに記憶している。すなわち、「昨日」「の」、「機能」「と」、「機能」「は」等のペアで記憶される。
【００２９】
以上のように学習データを作成し、この学習データを使用してもう一度同じ文章を入力した時の例を次に説明する。
２回目の変換として、図２２では、１回目と同様に入力文字列を解析して基本文節を決定している。基本文節１〜４までを決定し、その変換候補から第１候補を決定する。第１変換候補は「きのう」が「昨日」、「きょう」が「今日」であるが、ここで、１回目で記憶された単語使用状況の記憶データが使用される。
【００３０】
変換候補の自立語の情報と学習データに格納されている自立語の情報とが一致するかどうかをサーチし、自立語の情報が一致した変換候補について、付属する付属語と学習データに格納されている付属語の情報とが一致するかどうかチェックする。使用自立語と使用状況との両方が一致したとき、その同音語を最優先する。したがって、図２３のような「昨日の」「機能と」「今日の」「機能は」の出力結果になる。
【００３１】
本実施の形態によれば、従来の技術ではできなかった、単語の使い分けを実現できる。
尚、本実施の形態では、「機能の機能と今日の機能は」としか自動変換できない入力文字列を、「昨日の機能と今日の機能は」と変換可能であることを示した。この他にも、「気の聞いた話を聞く」が「気の利いた話を聞く」に、「彼に聞いた薬は聞く」が「彼に聞いた薬は効く」に、「穏やかな聞こうと聞く」が「穏やかな気候と聞く」に変換可能である。このように、用言の活用により使い別けることができるので、用言データが同一の場合でも単語の使い分けをすることができるようになり、使い込んでいくほど学習効果により使用しやすくなっていき、変換率および操作性の向上につながる。また、用言データの一部は本実施の形態により不要になるために、辞書サイズの小型化などにも有効である。
【００３２】
（実施の形態３）
実施の形態３は、実施の形態１及び２で学習データを記憶した学習領域の好ましい構成を示す。従来の辞書ごとに学習領域を持つという概念、即ち辞書ブロックという概念を廃止し、読みごとの学習を行うための読み索引を設け、学習ブロックも読みごとに分割して読み索引によるその選択を得ることができるものである。以下詳細に説明する。
【００３３】
実施の形態３を記憶装置５に記憶された図２６に示すフローチャートならびに図２７，図２８〜図３２を用いて説明する。
図２７は、本実施の形態の文書処理方法が実現される情報処理システムの構成をあらわしたブロック図である。キーボードなどの入力装置１から入力された文字列は、中央処理装置２によって処理される。処理の結果は、ＲＯＭ，ＲＡＭなどの記憶装置５によって決定され、決定した処理結果は、記憶装置５に記憶される。また、同時に処理結果はＣＲＴなどの出力装置３によって出力される。なお、記憶装置５はプログラム５１ｃ、辞書及び学習データ５５を含む。
【００３４】
図２８は、本実施の形態で使用する学習領域の構造である。従来技術の辞書ブロックという概念を廃止し、読みごとの学習を行うための読み索引を設けている。学習ブロックも読みごとに分割されていて、読み索引によりその先頭を得ることができる。図２９は、本実施の形態で使用する学習データである。従来技術の単語識別情報の他に、辞書を識別するためのコードが付加されている。本実施の形態では、以上のデータを使用して学習処理を行う。
【００３５】
図２６は、本実施の形態の処理の流れをあらわすフローチャートである。図２６を基に本実施の形態を説明する。
ステップＳ１０１は基本文節決定処理であり、入力の読み列を解析して文節の候補を抽出する。抽出した文字列のなかで、もっとも自然な文章になる文節を基本文節として決定する。ステップＳ１０２は学習適用処理であり、変換候補に対して学習データの適用処理を行う。ステップＳ１０２では、図３０に示すように、学習領域索引を参照して学習ブロックを取得し、学習ブロックを参照する。変換候補と比較処理を行い、最も先に一致した学習データの変換候補を一致データとする。すなわち、「さんじゅう」が入力された場合には、学習領域索引から「さ」が参照されて、学習ブロックが取得される。学習ブロックの「さんじゅう」に一致する先頭データは「三重」なので、これが一致データとなる。ここで、学習データの前にある「標」，「数」等は辞書を識別するための辞書識別コードである。尚、学習データをすべてサーチしても一致する学習データがみつからなかった場合は、一致データはなしとする。ステップＳ１０３では、第１候補となった単語（一致データがある場合には、その同音語が第１候補となる。一致データがなかった場合には、単語自体の持つ優先順位などにより、第１候補を決定する）を出力装置に出力する。
【００３６】
ステップＳ１０４では、出力された同音語が希望する単語かどうか判断し、希望する同音語でなかった場合、ステップＳ１０５の処理を行う。ステップＳ１０５では、同音語変換処理を行い同音語候補一覧を出力装置に出力する。ステップＳ１０６では、同音語候補の中から希望する同音語候補を選択する。ステップＳ１０７では、図３１に示すように、選択した同音語の学習データを学習領域へ登録する。すなわち、学習領域の検索を参照して学習ブロックを取得し、学習ブロックの先頭に登録する学習データを格納する。
【００３７】
本実施の形態によれば、標準単語辞書の学習領域の構造から辞書ブロックという概念を廃止し、読みごとの辞書ブロックを設けることと、格納する学習データに辞書を識別するためのコードを付加したことによって、同じ辞書領域内にすべての辞書の学習データを格納することが可能となった。
具体的には、以下のような効果が達成された。
【００３８】
１．複数の辞書を学習するために、同数必要だった学習領域を１つにまとめることができるために、学習領域として使用するサイズが大幅に削減できる。
２．学習領域が１つであるので、学習データの適用処理、登録処理がそれぞれ１つの処理で処理することができ、処理が簡潔になり、かつプログラムサイズが大幅に削減できる。
【００３９】
３．最初に見つかった単語を一致データとして、出力するとよいので学習の仕様が簡単になり、かつ細心に使用された同音語が必ず一致データとして検索される。
４．他の同音語候補が学習されていた場合でも、他の同音語候補の学習を無効にする必要がなくなり、処理が簡潔になる。
【００４０】
５．索引を持つことにより、それぞれの領域の同音語の数に応じて学習ブロックの大きさを変更することが可能となった。
同音語候補の多いブロックは学習ブロックを大きく取り、学習候補の少ないブロックは小さくすることにより、ブロックの空きという問題が解決でき、学習領域を効率良く使用することができる。
【００４１】
学習領域を効率よく使うことは、変換率を向上させる効果もある。
６．図３２に示すように、複数の同音語候補を同時に学習できるために、変換率を向上することができる。
７．また、今までより記憶しているデータの情報が多くなったために、将来の拡張性が豊である（長期学習への応用など）。
【００４２】
尚、本実施の形態では、特別の入力文字列に基づいて説明したが、他の入力文字列においても同様な効果が奏されることは、当業者には自明のことである。
なお、本発明は、複数の機器（例えばホストコンピュータ，インタフェイス機器，リーダ，プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機，ファクシミリ装置など）に適用してもよい。
【００４３】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【００４４】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【００４５】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【００４６】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応する処理を実行するプログラムコードを格納することになる。
【００４７】
【発明の効果】
本発明により、予め基本文節変換候補に存在しない単語の情報も第１候補として出力できる文書処理方法及びその装置を提供できる。
【００４８】
更に、学習の効果を充分保持したままで、学習領域の容量を削減し且つ処理を簡単にして、辞書の使用効率を高める文書処理方法及びその装置を提供できる。
【図面の簡単な説明】
【図１】実施の形態１の原理フローチャートである。
【図２】実施の形態１を実現するために必要な情報処理システムのブロック図である。
【図３】実施の形態１の基本文節決定処理の例を示す図である。
【図４】実施の形態１の優先順位決定データ（学習データ）サーチ処理の例を示す図である。
【図５】実施の形態１の第１候補決定処理の例を示す図である。
【図６】実施の形態１の基本文節分割処理の例を示す図である。
【図７】実施の形態１の付属語同音語決定処理の例を示す図である。
【図８】実施の形態１の出力結果の例を示す図である。
【図９】実施の形態１の同音語変換／選択／決定処理の例を示す図である。
【図１０】実施の形態１の同音語変更結果情報保存処理（学習処理）の例を示す図である。
【図１１】実施の形態１の基本文節決定処理の例を示す図である。
【図１２】実施の形態１の学習データサーチ処理および第１候補決定処理の例を示す図である。
【図１３】実施の形態１の出力結果の例を示す図である。
【図１４】従来の第１候補決定処理を説明するための図である。
【図１５】実施の形態２の原理フローチャートである。
【図１６】実施の形態２を実現するために必要な情報処理システムのブロック図である。
【図１７】実施の形態２の１回目の変換の例を示す図である。
【図１８】実施の形態２の１回目の出力結果の例を示す図である。
【図１９】実施の形態２の同音語変換の結果と、同音語候補出力／選択結果の例を示す図である。
【図２０】実施の形態２の同音語選択の結果、同音語候補の確定結果の例を示す図である。
【図２１】実施の形態２の学習データに同音語確定結果を格納する例を示す図である。
【図２２】実施の形態２の２回目の変換の例を示す図である。
【図２３】実施の形態２の２回目の出力結果の例を示す図である。
【図２４】実施の形態２の同音語変換−選択処理の従来の例を示す図である。
【図２５】従来の出力結果（２回目）の例を示す図である。
【図２６】実施の形態３のフローチャートである。
【図２７】実施の形態３を実施する為の情報処理システムの構成を表わすブロック図である。
【図２８】実施の形態３の学習領域の構造を表わした図である。
【図２９】実施の形態３の学習データの構造を表わした図である。
【図３０】実施の形態３の学習データ適用処理の例を示す図である。
【図３１】実施の形態３の学習データ登録処理の例を示す図である。
【図３２】実施の形態３の複数の同音語学習データを登録することによるメリットの１例を示す図である。
【図３３】従来技術の学習領域１の構造を表わした図である。
【図３４】従来技術の学習ブロックの構造を表わした図である。
【図３５】従来技術の学習領域２の構造を表わした図である。
【符号の説明】
１入力装置
２中央演算処理装置
３出力装置
４文書処理方法
５記憶装置
５１ａ，５１ｂ，５１ｃプログラム
５２辞書
５３学習データ
５４自立部／使用状況
５５辞書及び学習データ

Claims

仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段と、プログラムに基づいて各種処理を実行する処理手段と、前記プログラムが記憶されたプログラム記憶手段とを備え、かつ前記処理手段及び前記プログラム記憶手段が協働することによって実現される基本文節決定手段、学習データサーチ手段、自立語変更手段、同音語決定手段、及び学習データ記憶制御手段を備えた文書処理装置において、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法であって、
前記基本文節決定手段が、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第１候補となる基本文節を決定する行程と、
前記学習データサーチ手段が、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする行程と、
前記自立語変更手段が、前記自立語の読みに対する学習データが前記学習データ記憶手段から見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する行程と、
前記同音語決定手段が、前記基本文節の同音語を決定する行程と、
前記同音語決定手段が、前記同音語を決定する行程において前記基本文節の基となる自立語を他の同音語へ変更した場合に、前記学習データ記憶制御手段が、変更前の自立語の読みデータと変更後の自立語の単語表記とを学習データとして前記学習データ記憶手段に記憶する行程とを備えることを特徴とする文書処理方法。
前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書の学習データを格納するようにしたことを特徴とする請求項１記載の文書処理方法。
仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段とを備え、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理装置であって、
前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第１候補となる基本文節を決定する基本文節決定手段と、
前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする学習データサーチ手段と、
前記自立語の読みに対する学習データが見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する自立語変更手段と、
前記基本文節の同音語を決定する時に前記基本文節の基となる自立語を他の同音語へ変更した場合に、変更前の自立語の読みデータと変更後の自立語の単語識別情報とを学習データとして前記学習データ記憶手段に記憶する学習データ記憶制御手段とを備えることを特徴とする文書処理装置。
前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書の学習データを格納するようにしたことを特徴とする請求項３記載の文書処理装置。