JP3884807B2 - 文書処理方法及びその装置 - Google Patents

文書処理方法及びその装置 Download PDF

Info

Publication number
JP3884807B2
JP3884807B2 JP35023596A JP35023596A JP3884807B2 JP 3884807 B2 JP3884807 B2 JP 3884807B2 JP 35023596 A JP35023596 A JP 35023596A JP 35023596 A JP35023596 A JP 35023596A JP 3884807 B2 JP3884807 B2 JP 3884807B2
Authority
JP
Japan
Prior art keywords
learning data
word
learning
dictionary
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP35023596A
Other languages
English (en)
Other versions
JPH10187704A (ja
Inventor
浩司 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP35023596A priority Critical patent/JP3884807B2/ja
Publication of JPH10187704A publication Critical patent/JPH10187704A/ja
Application granted granted Critical
Publication of JP3884807B2 publication Critical patent/JP3884807B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法及びその装置に関するものである。
【0002】
【従来の技術】
従来の文書処理方法における仮名漢字変換によると、以下のようないくつかの不都合が生じていた。
第1の例としては、予め基本文節の変換候補に含まれない単語の情報は第1候補として出力できないため、何度その単語を選択しても第1候補にならず、それがよく使われる単語だった場合には、他の大部分がうまく変換されていてもユーザに不快感を与える。
【0003】
すなわち、入力仮名文字列に対して辞書サーチや接続チェックなどの情報をもとに解析を行って、可能性のある幾つかの基本文節候補を抽出し、抽出された基本文節候補の中から文節の接続状況などのパラメータを用いて基本文節を決定する。次に、基本文節の仮名文字列に基づいて、基本文節のもととなる自立部を変換した候補(以下基本文節変換候補)の中から、学習データ等の優先順位決定データなどを用いて、第1候補となる自立部が変換された基本文節を決定する。
【0004】
ところが、以前の変換処理でユーザにより選択された自立部が、上記基本文節変換候補にある単語であった場合には、この単語が優先順位決定データに記憶されることにより学習されるので、次回の変換処理ではユーザにより選択された自立部を含む基本文節変換候補が第1候補として選択されるが、上記基本文節変換候補に無い単語であった場合には、優先順位決定データに記憶されることにより学習されていても、次回の変換処理ではユーザにより選択された自立部を含む基本文節変換候補が無いので、他の単語が選択され出力されてしまう。
【0005】
例えば、「じしょしようときめる」と仮名文字列が入力されて、「じしょしようと」が基本文節として決定され、先にユーザによって「辞書仕様と」が選択された場合には、図14に示すように、「辞書」と「仕様」とが基本文節変換候補の中の優先順位決定データとして学習されるが、もし「辞書しようと」という基本文節変換候補が予め登録されてなければ、同じ仮名文字列が入力されても、基本文節変換時に最優先候補の、例えば「自書しようと」にしか変換されないので、所望の「辞書仕様と」が第1候補として表示されない。
【0006】
第2の例としては、学習データとして使用した自立部の単語情報しか格納していないので、最後に使用した単語が第1候補として出力され易くなり、同じ読みの自立部が繰返えされる場合には、学習しても希望する同音語が第1候補とされない場合がある。
例えば、「きのうのきのうときょうのきのうは」という仮名文字列が入力された場合を考えると、以前のユーザによる選択結果が、図24に示すような「昨日の機能と今日の機能は」であった場合に、新たに同じ仮名文字列が入力された時には、優先順位決定データには最後に選択された「機能」が最優先候補として記憶されているので、上記基本文節変換候補からは「機能」を含む基本文節が選択され、出力結果は図25のように「機能の機能と今日の機能は」となってしまう。
【0007】
第3の例としては、変換機能の向上のために複数ブロック又は複数種類の辞書を有する場合に、上記学習データを記憶する学習領域をブロック又は辞書毎に持っているため、全体での学習領域が大きくなると共に、学習データの適用・登録処理が複雑になっていた。
例えば、従来の仮名漢字変換における標準単語辞書と学習領域(同音語情報等の学習データの記憶)との構造は、図33のように標準単語辞書の各辞書ブロック1〜Nに各学習ブロック1〜Nが対応する構造になっている。ここで、辞書ブロックとは、標準単語辞書をある一定のサイズ(図33の例では32Kバイト単位)で分割したその1単位である。そして、従来の学習ブロックの構造は、図34のような構造になっており、1バイトの学習データをM個記憶することができ、学習データをこの学習ブロックへ登録することにより、その学習データに対応する単語の学習効果を得ることができる。また、従来の標準単語辞書以外の学習領域は、図35のようになっている。即ち、それぞれの単語ごとに学習ビットが割り当てられていて、学習ビットをONにすることによって、そのビットに対応する単語の学習効果を得ることができる。
【0008】
このような、辞書と学習領域との構成により最優先候補を選択しようとする場合に、大別して、最後の登録のみを残すことにより常に最新の選択が優先される方法と、複数の辞書又は辞書ブロックに対応して同音語を登録し、辞書の種類や品詞、あるいは登録の新旧等で予め優先度を決めておき、この優先度に従って最優先候補を決める方法とがある。
【0009】
しかしながら、上記学習においては、辞書又は辞書ブロックごとに学習領域を持っているために、全体での学習領域が大きくなり処理が複雑になるが、更に、前者の方法を実施した場合には、最後の登録以外の学習データが無くなる上に、ある学習ブロックでは頻繁に学習データの追い出しが起こるのに対し、他の学習ブロックではブロック内に学習データがほとんど格納されていないという状況が起き、学習領域に無駄な部分が生じて使用効率が悪くなる。また後者の場合には、最優先候補の決定時に使用するファクター(辞書の種類は品詞等)に不確定要素が多いために、最新の学習同音語が次の変換時に必ず第1候補になるとは限らない等、学習の効果が曖昧になり学習の仕様が複雑になる。
【0010】
【発明が解決しようとする課題】
本発明が解決しようとする課題は、予め基本文節変換候補に存在しない単語の情報も第1候補として出力できる文書処理方法及びその装置を提供する。
【0011】
本発明が解決しようとしている更なる課題は、学習の効果を充分保持したままで、学習領域の容量を削減し且つ処理を簡単にして、辞書の使用効率を高める文書処理方法及びその装置を提供する。
【0012】
【課題を解決するための手段】
本発明は上述の課題を解決することを目的としてなされたもので、上述の課題を解決する手段として以下の構成を備える。
即ち、仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段と、プログラムに基づいて各種処理を実行する処理手段と、前記プログラムが記憶されたプログラム記憶手段とを備え、かつ前記処理手段及び前記プログラム記憶手段が協働することによって実現される基本文節決定手段、学習データサーチ手段、自立語変更手段、同音語決定手段、及び学習データ記憶制御手段を備えた文書処理装置において、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法であって、前記基本文節決定手段が、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第1候補となる基本文節を決定する行程と、前記学習データサーチ手段が、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする行程と、前記自立語変更手段が、前記自立語の読みに対する学習データが前記学習データ記憶手段から見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する行程と、前記同音語決定手段が、前記基本文節の同音語を決定する行程と、前記同音語決定手段が、前記同音語を決定する行程において前記基本文節の基となる自立語を他の同音語へ変更した場合に、前記学習データ記憶制御手段が、変更前の自立語の読みデータと変更後の自立語の単語表記とを学習データとして前記学習データ記憶手段に記憶する行程とを備えることを特徴とする。
【0013】
ここで、前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書データからの学習データを格納するようにした。
【0015】
また、仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段とを備え、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理装置であって、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第1候補となる基本文節を決定する基本文節決定手段と、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする学習データサーチ手段と、前記自立語の読みに対する学習データが見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する自立語変更手段と、前記基本文節の同音語を決定する時に前記基本文節の基となる自立語を他の同音語へ変更した場合に、変更前の自立語の読みデータと変更後の自立語の単語識別情報とを学習データとして前記学習データ記憶手段に記憶する学習データ記憶制御手段とを備えることを特徴とする。
【0016】
ここで、前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロックに複数の辞書データからの学習データを格納するようにした。
【0017】
ここで、前記学習データ記憶手段は、読みごとに対応して辞書ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ辞書内の学習データ領域に全ての辞書の学習データを格納するようにした。
【0018】
【発明の実施の形態】
(実施の形態1)
実施の形態1は、読みとペアで単語情報を学習データとして持つことにより、変換候補に存在しない単語の情報を第1候補として出力するようにしたもので、以下詳細に説明をする。
【0019】
実施の形態1を記憶装置5に記憶された図1に示す原理フローチャートならびに、図3〜図13を用いて説明する。本例では、従来例と同様に「じしょしようときめる」が入力される場合を説明する。
なお、図2は本実施の形態を実現するために必要な情報処理システムのブロック図である。図2で、1はキーボードなどの入力装置、2は中央演算処理装置、3はCRTなどの出力装置、5はROM,RAMなどの記憶装置であり、プログラム51a、辞書52、学習データ53等を含む。
【0020】
図1のステップS11では基本文節の決定を行う。この基本文節処理を図3に示す。図3では、入力読み文字列の解析を行って基本文節候補を抽出する。その基本文節候補の中から次に基本文節を決定する。本例では、「じしょしようと」が基本文節に決定される。
図1のステップS12では、優先順位決定データ(学習データ)をサーチして、基本文節を作成するもととなった変換候補と一致するデータを検索する。この優先順位決定データサーチの処理を図4に示す。最初は優先順位決定データが無いので、一致データなしと応答される。ステップS13では、図5に示すように、学習データのサーチ結果を用いて、第1候補となる自立部を決定する。本例では、優先順位決定データが無かったので、「自書しようと」が第1候補となる。ステップS14では、図6に示すように、基本文節、すなわち第1候補の分割処理を行って同音語単位に分割する。「自書」と「しようと」に分割される。
【0021】
ステップS15では、図7に示すように、付属語として切り出された同音語の決定処理を行い(付属語単文節決定処理)、最終的には図8に示すように出力結果となる。本例では、付属語単文節「しようと」はそのまま「しようと」で出力される。
ステップS16では、出力結果がユーザの希望する結果であるかが判定され、出力結果がユーザの希望する結果ではなかった場合、ステップS17で同音語の変更、選択および決定を行う。図9は、前述のステップS17の例を示す図である。本例では、「自書」は「辞書」へ、「しようと」は「仕様と」に変更/決定される。出力確定の結果は、ステップS18で、図10に示すように変更結果情報の保存(学習データへの記憶)を行う。すなわち、自立部の優先順位決定データとして「じしょ(読み),辞書(変換単語)」が記憶され、付属部の優先順位決定データとして「仕様」が記憶される。
【0022】
さて、1回目の処理で作成された学習データを使用して、2回目以降の処理を以下に説明する。
基本文節の決定処理を行い、図11のように基本文節候補を格納する。1回目と同様に「じしょしようと」が選ばれる。基本文節の変換候補の自立語読みで学習データをサーチして、一致する学習データが存在した場合には、その学習データをもとに自立部の第1候補を変更する(図12参照)。自立部変換候補には「辞書」は無いが、1回目に自立部の優先順位決定データとして「じしょ(読み),辞書(変換単語)」が記憶されているので、「じしょ」が「辞書」に変更される。以降、一回目の処理と同様の処理を行い、付属語の優先順位決定データとして「仕様」が記憶されているので、図13の出力結果「辞書」「仕様と」が出力される。
【0023】
本実施の形態によれば、従来の処理では自動変換できなかった単語を、読みとペアで単語情報として記憶することにより、自立部変換候補に存在しない単語の情報を第1候補として出力することができるようになる。この結果、一度選択したにもかかわらず第1候補にならないということがなくなり、学習後の変換率の向上となる。
【0024】
(実施の形態2)
実施の形態2は、決定した自立語がどのような状況で使用されたかを判断し、自立語の使用された状況の情報を仕様単語状況記憶データ(学習データ)に記憶することにより、希望する同音語が第1候補として変換されるもので、以下その実施の形態を詳細に説明する。
【0025】
実施の形態2を、記憶装置5に記憶された図15の原理フローチャートならびに、図16〜図23を用いて説明する。本例では、「きのうのきのうときょうのきのうは」を例に説明する。
なお、図16は本実施の形態を実現するために必要な処理システムのブロック図である。図16で、1はキーボードなどの入力装置、2は中央演算処理装置、3はCRTなどの出力装置、5はROM,RAMなどの記憶装置であり、プログラム51b、辞書52、自立部/使用状況54等を含む。
【0026】
ステップS21では文字列の入力を行う。ステップS22では、入力文字列を解析して基本文節候補を抽出し、基本文節を決定する。基本文節として図17の基本文節1〜4を決定する。すなわち、「きのうの」「きのうは」「きょうの」「きのうは」と決定される。
ステップS23では、基本文節の変換候補(図17の変換候補1〜4)からそれぞれ学習データなどを参照し、ステップS4で第1候補を決定する。単語使用状況にはまだ何も記憶されていないので、それぞれの基本文節が図17の第1候補のように決定される。ステップS25では図18のような結果を出力する。すなわち、「昨日の」「昨日は」「今日の」「昨日は」と出力される。
【0027】
ステップS26では、ステップS25で決定した出力結果が希望する同音語かどうかオペレータが判断し、希望とする同音語だった場合はステップS30へスキップする。希望する同音語でなかった場合はステップS27の処理を行う。
実施の形態2では、第1候補2と第1候補4が希望する結果でなかったので、ステップS27の同音語変換処理によって同音語候補を抽出し、ステップS28ではそれぞれの同音語候補を出力する。ステップS29では、図19のようにそれぞれの同音語候補の中から、希望する同音語を選択する。ステップS30では、以上の処理によって、図20のような希望する同音語候補を得ることができる。本例では、2番目と4番目の文節が変更されて、「昨日の」「機能と」「今日の」「機能は」と確定する。
【0028】
ステップS31では、確定結果からそれぞれの文節を構成する自立群がどのような状況で使用されたかを判断し、使用した独立語の情報とその自立語を使用した状況の情報を学習データに記憶する。図21の例では、(1)使用した自立語の単語情報と、(2)使用した状況の情報として自立語に付属した付属語の情報とを、学習データに記憶している。すなわち、「昨日」「の」、「機能」「と」、「機能」「は」等のペアで記憶される。
【0029】
以上のように学習データを作成し、この学習データを使用してもう一度同じ文章を入力した時の例を次に説明する。
2回目の変換として、図22では、1回目と同様に入力文字列を解析して基本文節を決定している。基本文節1〜4までを決定し、その変換候補から第1候補を決定する。第1変換候補は「きのう」が「昨日」、「きょう」が「今日」であるが、ここで、1回目で記憶された単語使用状況の記憶データが使用される。
【0030】
変換候補の自立語の情報と学習データに格納されている自立語の情報とが一致するかどうかをサーチし、自立語の情報が一致した変換候補について、付属する付属語と学習データに格納されている付属語の情報とが一致するかどうかチェックする。使用自立語と使用状況との両方が一致したとき、その同音語を最優先する。したがって、図23のような「昨日の」「機能と」「今日の」「機能は」の出力結果になる。
【0031】
本実施の形態によれば、従来の技術ではできなかった、単語の使い分けを実現できる。
尚、本実施の形態では、「機能の機能と今日の機能は」としか自動変換できない入力文字列を、「昨日の機能と今日の機能は」と変換可能であることを示した。この他にも、「気の聞いた話を聞く」が「気の利いた話を聞く」に、「彼に聞いた薬は聞く」が「彼に聞いた薬は効く」に、「穏やかな聞こうと聞く」が「穏やかな気候と聞く」に変換可能である。このように、用言の活用により使い別けることができるので、用言データが同一の場合でも単語の使い分けをすることができるようになり、使い込んでいくほど学習効果により使用しやすくなっていき、変換率および操作性の向上につながる。また、用言データの一部は本実施の形態により不要になるために、辞書サイズの小型化などにも有効である。
【0032】
(実施の形態3)
実施の形態3は、実施の形態1及び2で学習データを記憶した学習領域の好ましい構成を示す。従来の辞書ごとに学習領域を持つという概念、即ち辞書ブロックという概念を廃止し、読みごとの学習を行うための読み索引を設け、学習ブロックも読みごとに分割して読み索引によるその選択を得ることができるものである。以下詳細に説明する。
【0033】
実施の形態3を記憶装置5に記憶された図26に示すフローチャートならびに図27,図28〜図32を用いて説明する。
図27は、本実施の形態の文書処理方法が実現される情報処理システムの構成をあらわしたブロック図である。キーボードなどの入力装置1から入力された文字列は、中央処理装置2によって処理される。処理の結果は、ROM,RAMなどの記憶装置5によって決定され、決定した処理結果は、記憶装置5に記憶される。また、同時に処理結果はCRTなどの出力装置3によって出力される。なお、記憶装置5はプログラム51c、辞書及び学習データ55を含む。
【0034】
図28は、本実施の形態で使用する学習領域の構造である。従来技術の辞書ブロックという概念を廃止し、読みごとの学習を行うための読み索引を設けている。学習ブロックも読みごとに分割されていて、読み索引によりその先頭を得ることができる。図29は、本実施の形態で使用する学習データである。従来技術の単語識別情報の他に、辞書を識別するためのコードが付加されている。本実施の形態では、以上のデータを使用して学習処理を行う。
【0035】
図26は、本実施の形態の処理の流れをあらわすフローチャートである。図26を基に本実施の形態を説明する。
ステップS101は基本文節決定処理であり、入力の読み列を解析して文節の候補を抽出する。抽出した文字列のなかで、もっとも自然な文章になる文節を基本文節として決定する。ステップS102は学習適用処理であり、変換候補に対して学習データの適用処理を行う。ステップS102では、図30に示すように、学習領域索引を参照して学習ブロックを取得し、学習ブロックを参照する。変換候補と比較処理を行い、最も先に一致した学習データの変換候補を一致データとする。すなわち、「さんじゅう」が入力された場合には、学習領域索引から「さ」が参照されて、学習ブロックが取得される。学習ブロックの「さんじゅう」に一致する先頭データは「三重」なので、これが一致データとなる。ここで、学習データの前にある「標」,「数」等は辞書を識別するための辞書識別コードである。尚、学習データをすべてサーチしても一致する学習データがみつからなかった場合は、一致データはなしとする。ステップS103では、第1候補となった単語(一致データがある場合には、その同音語が第1候補となる。一致データがなかった場合には、単語自体の持つ優先順位などにより、第1候補を決定する)を出力装置に出力する。
【0036】
ステップS104では、出力された同音語が希望する単語かどうか判断し、希望する同音語でなかった場合、ステップS105の処理を行う。ステップS105では、同音語変換処理を行い同音語候補一覧を出力装置に出力する。ステップS106では、同音語候補の中から希望する同音語候補を選択する。ステップS107では、図31に示すように、選択した同音語の学習データを学習領域へ登録する。すなわち、学習領域の検索を参照して学習ブロックを取得し、学習ブロックの先頭に登録する学習データを格納する。
【0037】
本実施の形態によれば、標準単語辞書の学習領域の構造から辞書ブロックという概念を廃止し、読みごとの辞書ブロックを設けることと、格納する学習データに辞書を識別するためのコードを付加したことによって、同じ辞書領域内にすべての辞書の学習データを格納することが可能となった。
具体的には、以下のような効果が達成された。
【0038】
1.複数の辞書を学習するために、同数必要だった学習領域を1つにまとめることができるために、学習領域として使用するサイズが大幅に削減できる。
2.学習領域が1つであるので、学習データの適用処理、登録処理がそれぞれ1つの処理で処理することができ、処理が簡潔になり、かつプログラムサイズが大幅に削減できる。
【0039】
3.最初に見つかった単語を一致データとして、出力するとよいので学習の仕様が簡単になり、かつ細心に使用された同音語が必ず一致データとして検索される。
4.他の同音語候補が学習されていた場合でも、他の同音語候補の学習を無効にする必要がなくなり、処理が簡潔になる。
【0040】
5.索引を持つことにより、それぞれの領域の同音語の数に応じて学習ブロックの大きさを変更することが可能となった。
同音語候補の多いブロックは学習ブロックを大きく取り、学習候補の少ないブロックは小さくすることにより、ブロックの空きという問題が解決でき、学習領域を効率良く使用することができる。
【0041】
学習領域を効率よく使うことは、変換率を向上させる効果もある。
6.図32に示すように、複数の同音語候補を同時に学習できるために、変換率を向上することができる。
7.また、今までより記憶しているデータの情報が多くなったために、将来の拡張性が豊である(長期学習への応用など)。
【0042】
尚、本実施の形態では、特別の入力文字列に基づいて説明したが、他の入力文字列においても同様な効果が奏されることは、当業者には自明のことである。
なお、本発明は、複数の機器(例えばホストコンピュータ,インタフェイス機器,リーダ,プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機,ファクシミリ装置など)に適用してもよい。
【0043】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0044】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0045】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
【0046】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応する処理を実行するプログラムコードを格納することになる。
【0047】
【発明の効果】
本発明により、予め基本文節変換候補に存在しない単語の情報も第1候補として出力できる文書処理方法及びその装置を提供できる。
【0048】
更に、学習の効果を充分保持したままで、学習領域の容量を削減し且つ処理を簡単にして、辞書の使用効率を高める文書処理方法及びその装置を提供できる。
【図面の簡単な説明】
【図1】実施の形態1の原理フローチャートである。
【図2】実施の形態1を実現するために必要な情報処理システムのブロック図である。
【図3】実施の形態1の基本文節決定処理の例を示す図である。
【図4】実施の形態1の優先順位決定データ(学習データ)サーチ処理の例を示す図である。
【図5】実施の形態1の第1候補決定処理の例を示す図である。
【図6】実施の形態1の基本文節分割処理の例を示す図である。
【図7】実施の形態1の付属語同音語決定処理の例を示す図である。
【図8】実施の形態1の出力結果の例を示す図である。
【図9】実施の形態1の同音語変換/選択/決定処理の例を示す図である。
【図10】実施の形態1の同音語変更結果情報保存処理(学習処理)の例を示す図である。
【図11】実施の形態1の基本文節決定処理の例を示す図である。
【図12】実施の形態1の学習データサーチ処理および第1候補決定処理の例を示す図である。
【図13】実施の形態1の出力結果の例を示す図である。
【図14】従来の第1候補決定処理を説明するための図である。
【図15】実施の形態2の原理フローチャートである。
【図16】実施の形態2を実現するために必要な情報処理システムのブロック図である。
【図17】実施の形態2の1回目の変換の例を示す図である。
【図18】実施の形態2の1回目の出力結果の例を示す図である。
【図19】実施の形態2の同音語変換の結果と、同音語候補出力/選択結果の例を示す図である。
【図20】実施の形態2の同音語選択の結果、同音語候補の確定結果の例を示す図である。
【図21】実施の形態2の学習データに同音語確定結果を格納する例を示す図である。
【図22】実施の形態2の2回目の変換の例を示す図である。
【図23】実施の形態2の2回目の出力結果の例を示す図である。
【図24】実施の形態2の同音語変換−選択処理の従来の例を示す図である。
【図25】従来の出力結果(2回目)の例を示す図である。
【図26】実施の形態3のフローチャートである。
【図27】実施の形態3を実施する為の情報処理システムの構成を表わすブロック図である。
【図28】実施の形態3の学習領域の構造を表わした図である。
【図29】実施の形態3の学習データの構造を表わした図である。
【図30】実施の形態3の学習データ適用処理の例を示す図である。
【図31】実施の形態3の学習データ登録処理の例を示す図である。
【図32】実施の形態3の複数の同音語学習データを登録することによるメリットの1例を示す図である。
【図33】従来技術の学習領域1の構造を表わした図である。
【図34】従来技術の学習ブロックの構造を表わした図である。
【図35】従来技術の学習領域2の構造を表わした図である。
【符号の説明】
1 入力装置
2 中央演算処理装置
3 出力装置
4 文書処理方法
5 記憶装置
51a,51b,51c プログラム
52 辞書
53 学習データ
54 自立部/使用状況
55 辞書及び学習データ

Claims (4)

  1. 仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段と、プログラムに基づいて各種処理を実行する処理手段と、前記プログラムが記憶されたプログラム記憶手段とを備え、かつ前記処理手段及び前記プログラム記憶手段が協働することによって実現される基本文節決定手段、学習データサーチ手段、自立語変更手段、同音語決定手段、及び学習データ記憶制御手段を備えた文書処理装置において、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理方法であって、
    前記基本文節決定手段が、前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第1候補となる基本文節を決定する行程と、
    前記学習データサーチ手段が、前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする行程と、
    前記自立語変更手段が、前記自立語の読みに対する学習データが前記学習データ記憶手段から見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する行程と、
    前記同音語決定手段が、前記基本文節の同音語を決定する行程と、
    前記同音語決定手段が、前記同音語を決定する行程において前記基本文節の基となる自立語を他の同音語へ変更した場合に、前記学習データ記憶制御手段が、変更前の自立語の読みデータと変更後の自立語の単語表記とを学習データとして前記学習データ記憶手段に記憶する行程とを備えることを特徴とする文書処理方法。
  2. 前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書の学習データを格納するようにしたことを特徴とする請求項1記載の文書処理方法。
  3. 仮名文字列を受け付ける入力手段と、辞書データを記憶する辞書記憶手段と、単語の読みと表記とを対応付けた学習データを記憶する学習データ記憶手段とを備え、入力された仮名文字列より仮名漢字変換を行って文書を作成する文書処理装置であって、
    前記入力手段より受け付けられた仮名文字列により前記辞書記憶手段に記憶された辞書データをサーチして、第1候補となる基本文節を決定する基本文節決定手段と、
    前記基本文節の基となる自立語の読みにより前記学習データ記憶手段に記憶された学習データをサーチする学習データサーチ手段と、
    前記自立語の読みに対する学習データが見つかった場合に、前記基本文節の基となる自立語を当該学習データに含まれる単語表記に対応する自立語へ変更する自立語変更手段と、
    前記基本文節の同音語を決定する時に前記基本文節の基となる自立語を他の同音語へ変更した場合に、変更前の自立語の読みデータと変更後の自立語の単語識別情報とを学習データとして前記学習データ記憶手段に記憶する学習データ記憶制御手段とを備えることを特徴とする文書処理装置。
  4. 前記学習データ記憶手段は、読みごとに対応して学習ブロックを設け、格納する学習データに辞書識別コードを付加し、同じ学習ブロック内に複数の辞書の学習データを格納するようにしたことを特徴とする請求項3記載の文書処理装置。
JP35023596A 1996-12-27 1996-12-27 文書処理方法及びその装置 Expired - Fee Related JP3884807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35023596A JP3884807B2 (ja) 1996-12-27 1996-12-27 文書処理方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP35023596A JP3884807B2 (ja) 1996-12-27 1996-12-27 文書処理方法及びその装置

Publications (2)

Publication Number Publication Date
JPH10187704A JPH10187704A (ja) 1998-07-21
JP3884807B2 true JP3884807B2 (ja) 2007-02-21

Family

ID=18409143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35023596A Expired - Fee Related JP3884807B2 (ja) 1996-12-27 1996-12-27 文書処理方法及びその装置

Country Status (1)

Country Link
JP (1) JP3884807B2 (ja)

Also Published As

Publication number Publication date
JPH10187704A (ja) 1998-07-21

Similar Documents

Publication Publication Date Title
US7526423B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
US6233544B1 (en) Method and apparatus for language translation
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JP3884807B2 (ja) 文書処理方法及びその装置
JP3330719B2 (ja) テキスト音声変換システム
JP2001243245A (ja) 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
FI103156B (fi) Menetelmä ja järjestely informaation kääntämiseksi
JP2001067375A (ja) 名称検索装置、キーボード及び名称検索プログラムを記録した記録媒体
JP2000181909A (ja) 辞書学習方法及び文書作成装置
JP2000276479A (ja) 電子辞書装置及び電子辞書プログラムを記録した記録媒体
JP2638777B2 (ja) かな漢字変換装置
JPH0969104A (ja) 仮名漢字変換装置および仮名漢字変換方法
JP5344649B2 (ja) 文字列変換装置、文字列変換方法、プログラムおよび記録媒体
JP3884001B2 (ja) 言語解析システムおよび方法
JPH1011428A (ja) 仮名漢字変換装置
JPS63140339A (ja) バ−ジヨン識別予約語管理方式
JPH10187699A (ja) 文書処理装置及びその方法
JPH01297768A (ja) 文書処理装置
JPS60112175A (ja) 仮名漢字変換装置における略称語変換方式
JPH06289890A (ja) 自然言語処理装置
JPH07210571A (ja) 単語検索処理装置及び単語検索処理方法
JP2000057135A (ja) 文書作成装置
JPH10187697A (ja) 文字処理装置及びその方法
JPH0727526B2 (ja) かな漢字変換装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050411

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060403

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101124

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111124

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121124

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131124

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees