JP3387582B2 - 文字処理装置 - Google Patents

文字処理装置

Info

Publication number
JP3387582B2
JP3387582B2 JP29092693A JP29092693A JP3387582B2 JP 3387582 B2 JP3387582 B2 JP 3387582B2 JP 29092693 A JP29092693 A JP 29092693A JP 29092693 A JP29092693 A JP 29092693A JP 3387582 B2 JP3387582 B2 JP 3387582B2
Authority
JP
Japan
Prior art keywords
homophone
candidate
processing
homophones
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29092693A
Other languages
English (en)
Other versions
JPH07141351A (ja
Inventor
浩司 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP29092693A priority Critical patent/JP3387582B2/ja
Publication of JPH07141351A publication Critical patent/JPH07141351A/ja
Application granted granted Critical
Publication of JP3387582B2 publication Critical patent/JP3387582B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、仮名漢字変換処理を行
う文字処理装置に関するものである。
【0002】
【従来の技術】(1)従来の仮名漢字変換処理を、図3
から図6を用いて説明する。
【0003】図3では、入力した読み文字列を「区切り
位置記憶領域」の記憶状況を参照して解析し、複数の基
本文節の候補を抽出する。この基本文節候補より、文節
の接続状況などを参照して、第一候補となる基本文節の
長さを決定する。
【0004】図4では、変換候補の中より、「使用単語
記憶領域」の記憶状況や、自立語のもつ使用頻度などを
参照して、第一候補となる変換候補を決定する。
【0005】図5では、基本文節を同音語の単位で分割
し、分割した同音語を出力装置に出力する。
【0006】また、決定された同音語が希望する同音語
ではなかった場合、図6に示すような、同音語選択処理
を行って同音語候補の一覧を画面に出力し、同音語候補
の中より希望する同音語候補を選択し、決定する。
【0007】選択した同音語は、「使用同音語記憶領
域」に格納し、次の変換では第一候補として出力するよ
うにしていた。
【0008】(2)従来のその他の仮名漢字変換処理
を、図15から図31を用いて説明する。
【0009】図15では、入力した読み文字列に対して
「区切り位置記憶領域」に記憶されている区切り位置を
参照して基本文節候補を作成する。「区切り位置記憶領
域」に格納されている区切り位置が有効であるので、そ
の区切り位置を越える基本文節候補を作らない。抽出さ
れた基本文節より、文節の長さなど、文節の情報を参照
して、第一候補となる基本文節の長さを決定する。
【0010】図16では、基本文節の変換候補の中よ
り、「使用同音語記憶領域」に記憶されている同音語の
状況や、同音語のもつ使用頻度などを参照して、第一候
補となる変換候補を決定する。図の例では、「使用同音
語記憶領域」に[辞書]が記憶されているため、[辞
書]を第一候補として決定する。
【0011】図17では、基本文節を同音語の単位で分
割して、分割した同音語を同音語1として出力装置に出
力する。
【0012】同様に、後続する入力読み文字列について
も、図18から図20に示すような処理を行い、同音語
を出力装置に出力する。
【0013】図18では、入力した読み文字列に対して
「区切り位置記憶領域」に記憶されている区切り位置を
参照して基本文節候補を作成する。「区切り位置記憶領
域」に格納されている区切り位置が有効でないので、区
切り位置の指定は行わない。抽出された基本文節候補よ
り、文節の長さなど、文節の情報を参照して、第一候補
となる基本文節の長さを決定する。
【0014】図19では、基本文節の変換候補の中よ
り、「使用同音語記憶領域」に記憶されている同音語の
状況や、同音語のもつ使用頻度などを参照して、第一候
補となる変換候補を決定する。図の例では、「使用同音
語記憶領域」に一致する同音語が存在しないため、自立
語の頻度などの情報から第一候補となる変換候補を決定
する。
【0015】図20では、基本文節を同音語の単位で分
割して、分割した同音語を同音語2として出力装置に出
力する。
【0016】出力結果として、図21に示すような結果
が得られる。
【0017】第一候補として、決定された同音語が希望
する同音語でなかった場合、図22に示すように、同音
語選択処理を行い同音語候補の一覧を出力装置に出力す
る。このとき、変換候補同音語として、ひらがな候補が
なかった場合は、候補外同音語として同音語候補一覧と
して出力装置に出力する。
【0018】次に、同音語候補の中より希望する同音語
を選択し、決定する。
【0019】選択した同音語が変換候補同音語だった場
合、「使用同音語記憶領域」に記憶し、次の変換では第
一候補として出力するようにしている。
【0020】また、図23に示すように、選択した同音
語が候補外同音語だった場合は、「使用同音語記憶領
域」に記憶されない。
【0021】同音語選択処理を行なうことにより、図2
4に示すような、希望する出力結果を得ることができ
る。
【0022】次に、同じ様な読み文字列が再び入力さ
れ、変換された場合について説明する。
【0023】図25に示すように、「区切り位置記憶領
域」に記憶されている区切り位置を参照して、先ほどと
同じ基本文節が得られる。
【0024】図26に示すように、変換候補と一致する
同音語が「使用同音語記憶領域」に記憶されているの
で、先ほど選んだ同音語を第一候補として、得ることが
できる。
【0025】図27では、同音語単位に第一候補を分割
して同音語1として、出力装置に出力する。
【0026】次に、後続する入力読み列に対して、基本
文節を決定する(図28)。
【0027】決定した基本文節を「使用同音語記憶領
域」に記憶されている同音語、自立語情報などをもとに
第一候補を決定する(図29)。
【0028】決定した第一候補を同音語単位に分割し
て、同音語2として出力装置に出力する(図30)。
【0029】以上の処理を行った結果、第一候補として
図31に示すような第一候補が出力される。
【0030】
【発明が解決しようとする課題】(1)従来技術の
(1)項で述べた従来の文字処理方法では、第一候補決
定処理において、変換候補として抽出される自立語の数
よりも同音語選択処理で抽出される同音語候補の数のほ
うが多い場合があった(図4,図6参照)。
【0031】そのために、同音語選択処理において、
「使用同音語記憶領域」に記憶した自立語が次の変換時
の第一候補決定処理において変換候補の自立語の中に存
在しない場合があった。
【0032】例えば図7に示すように、変換候補中に
「使用同音語記憶領域」に記憶した自立語が存在しない
場合、その情報は参照されず、前の第一候補決定処理と
同じ結果になる。
【0033】したがって、選択した同音語を記憶するこ
とによる変換率向上の学習効果はなく、見かけ上、学習
がされていないように見えるという欠点があった。
【0034】(2)また、従来技術の(2)項で述べた
従来の文字処理方法では、図24で示したような、記憶
されている区切り位置の後の同音語を同音語選択し、自
立語に付属する付属語を選択した場合、次に同じ読み文
字列を入力し変換したとき、図31に示したように、記
憶されている区切り位置の後の同音語は、一回目の変換
の第一候補と同じ(図21、同音語2)になり、希望す
る同音語(図24,同音語2)とは、異なる結果となっ
ていた。
【0035】したがって、選択した同音語を記憶するこ
とによる変換率の向上という学習効果はなく、見かけ
上、学習されていないように見えるという欠点があっ
た。
【0036】よって本発明の目的は上述の点に鑑み、見
かけ上、単語学習が効いていないように見える従来技術
の矛盾を解決し、単語学習を適用できる範囲を広げた文
字処理装置を提供することにある。
【0037】
【課題を解決するための手段】かかる目的を達成するた
めに、本発明は、入力された読み文字列より、第一候補
となる基本文節を決定する手段と、前記基本文節の変換
候補より、第一候補を決定する手段と、前記第一候補と
決定された基本文節を同音語単位に分割する手段と、前
記第一候補となる同音語が希望する同音語でなかった場
合、同音語を選択する手段とを有する文字処理装置にお
いて、前記同音語を選択する手段の対象となった同音語
の情報を取得する手段と、当該同音語に隣接する同音語
の情報を取得する手段と、前記隣接する同音語が、前記
同音語を選択する手段の対象となった同音語との間で文
法的に接続可能か否かを判断する手段と、前記判断によ
り同音語間の接続が不可能とされた場合、当該同音語間
の区切り位置を記憶する手段とを具備したものである。
【0038】また、前記判断により同音語間の接続が可
能とされた場合には、当該同音語間の区切り位置の記憶
を解除する手段を追加することも可能である。
【0039】
【作用】本発明の上記構成によれば、見かけ上、単語学
習が効いていないように見える従来技術の矛盾を解決
し、単語学習を適用できる範囲を広げることが可能とな
る。
【0040】
【実施例】以下、本発明の実施例を詳細に説明する。
【0041】実施例1 図2は、本発明の一実施例による情報処理システムの構
成を表したブロック図である。本図において、入力装置
1(キーボードなど)から入力された文字列は、中央演
算処理装置(以下、CPUという)2によって処理さ
れ、その処理結果は記憶装置4(RAMなど)に記憶
し、出力装置3(CRTなど)によって出力される。
【0042】図1は、本情報処理システムが実行すべき
手順を示したフローチャートであり、その内容はCPU
2の内蔵ROM(図示せず)に記憶されている。
【0043】図1において、s1〜s6で示す処理ステ
ップ1は、本発明の従来技術(図3〜図6)として既に
説明した内容と同じであるので、ここでは簡単に説明す
る。
【0044】s1では、入力された読み列に対して基本
文節決定処理を行い、変換候補の抽出を行う。
【0045】s2では、変換候補の中から第一候補の決
定処理を行う。
【0046】s3では、第一候補となった文節を同音語
単位での分割を行う。
【0047】s4では、第一候補となった同音語が希望
する同音語かどうかを判断し、希望する同音語であった
ならば処理を終了し、希望する同音語でない場合は以下
の処理を行う。
【0048】s5では、同音語選択を行い、同音語候補
の中から希望する同音語の選択を行う。
【0049】s6では、同音語選択処理で選択した同音
語を次の変換から第一候補として出力するため、記憶装
置4に確保されている「使用単語記憶領域」に記憶す
る。
【0050】以上、s1〜s6の処理を行うことによっ
て得られた同音語に対して、s7では、同音語選択の対
象となった同音語1(辞書)の情報をCPU2が取得す
る。
【0051】s8では、同音語選択の対象となった同音
語に隣接する同音語2(しようと)の情報をCPU2が
取得する。
【0052】ここで、CPU2が取得する同音語の情報
としては、同音語の表記と読みが必要となる(図8参
照)。
【0053】s9では、図9に示すように、CPU2が
取り出した同音語情報をもとに再変換読み列を作成し、
再変換候補を取得する。但し、再変換処理のときは、
「区切り位置記憶領域」は参照しない。
【0054】s10では、図10に示すように、選択し
た同音語の表記と一致する表記を持つ再変換候補を検索
する。
【0055】s11では、s10において選択した同音
語と一致する候補が再変換候補中にあるかどうかを検索
し、一致する表記が存在したならば、文法的に正しいと
して処理を終了する。他方、選択同音語と一致する候補
が再変換候補中にない場合は、文法的に誤っているとし
て、s12の処理を行う。
【0056】s12では、図11に示すように同音語1
と同音語2の間が文法的に接続することが不可能なため
に、次の変換時にひとつの文節として変換処理で判断さ
れないように、同音語1と同音語2の間の区切り位置を
記憶装置に確保されている「区切り位置記憶領域」に記
憶する。
【0057】次に、同じ様な読み列が再び入力読み文字
列として入力された場合について説明する。
【0058】まずs1では、図12に示すように、S1
2で「区切り位置記憶領域」に記憶された区切り位置が
参照され、区切り位置が指定している位置よりも長い文
節は抽出されず、基本文節として[じしょ]が選択され
る。
【0059】s2では、図13に示すように、基本文節
として[じしょ]が選択されたので、先ほどの同音語選
択で出力された同音語候補と基本文節抽出で得られる変
換候補とが一致する。すなわち、変換候補に含まれる
[辞書]と、記憶装置4の「使用同音語記憶領域」に記
憶されている[辞書]が一致するので、[辞書]を第1
候補として決定する。
【0060】s3では、[辞書]はこれ以上の同音語に
分割することが出来ないので、分割はせずに、そのまま
同音語として出力装置3に出力する。
【0061】実施例2 本発明の第2の実施例は、図2に示した情報処理システ
ムと同一の構成を有する。
【0062】図14は、本実施例の制御手順を示したフ
ローチャートであり、その内容はCPU2の内蔵ROM
(図示せず)に記憶されている。
【0063】図14において、s11〜s16で示す処
理ステップは、本発明の従来技術(図15〜図31)と
して既に説明した内容と同じであるので、ここでは簡単
に説明する。
【0064】s11では、入力された読み列に対して基
本文節決定処理を行い、変換候補の抽出を行う。
【0065】s12では、変換候補の中から第一候補の
決定処理を行う。
【0066】s13では、第一候補となった文節を同音
語単位での分割を行う。
【0067】s14では、第一候補となった同音語が希
望する同音語かどうかを判断し希望する同音語であった
ならば処理を終了し、希望する同音語でない場合は以下
の処理を行う。
【0068】s15では、同音語選択を行い同音語候補
の中から希望する同音語の選択を行う。
【0069】s16では、同音語選択処理で選択した同
音語を次の変換から第一候補として出力するため、記憶
装置に確保されている「使用単語記憶領域」に記憶す
る。
【0070】以上、s11〜s16の処理を行うことに
よって得られた同音語に対して、s17では、同音語選
択の対象となった同音語1(辞書)の情報をCPU2が
取得する。
【0071】s18では、同音語選択の対象となった同
音語に隣接する同音語2(しようと)の情報をCPU2
が取得する。
【0072】CPU2が取得する同音語の情報として同
音語の表記と読みが必要となる(図32参照)。
【0073】s19では、図33に示すように、CPU
2が取り出した同音語情報をもとに再変換読み列を作成
し、再変換候補を取得する。
【0074】再変換処理のときは、「区切り位置記憶領
域」は参照しない。
【0075】s20では、図34に示すように、選択し
た同音語の表記と一致する表記を持つ再変換候補を検索
する。
【0076】s21では、s20において選択した同音
語と一致する候補が再変換候補中にあるかどうかを検索
し、一致する表記が存在したならば、文法的に正しいと
して、s22の処理を行う。
【0077】選択同音語と一致する候補が再変換中にな
い場合は、文法的に誤っているとして、処理を終了す
る。
【0078】s22では、図35に示すように、同音語
1と同音語2の間が文法的に接続することが可能なため
に、次の変換時にひとつの文節として変換処理で判断さ
れるように、同音語1と同音語2の間で「区切り位置記
憶領域」に記憶されている区切り位置を解除(削除)す
る。
【0079】次に、同じ様な読み列が再び入力読み文字
列として入力された場合について説明する。
【0080】まずs11では、図36に示すように、基
本文節候補を決定する。
【0081】このとき、先ほどのs17からs22の処
理で「区切り位置記憶領域」に記憶されている区切り位
置は削除されているので、基本文節候補は、むりやり区
切り位置を指定されるのではなく、接続可能な長さで抽
出される。
【0082】s12では、図37に示すように、記憶装
置に確保されている「使用同音語記憶領域」に記憶され
ている同音語を参照して第一候補となる変換候補を決定
する。
【0083】s13では、図38に示すように、第一候
補を同音語単位に分割し出力する。その出力として、図
39に示す出力結果4が得られる。
【0084】
【発明の効果】以上説明したとおり本発明によれば、見
かけ上、単語学習が効いていない様に見える従来技術の
文字処理の矛盾を解決し、単語学習の適用できる範囲が
広がるので、変換率の向上や、操作性の向上などを図る
ことができる。
【図面の簡単な説明】
【図1】本発明の一実施例の動作を示すフローチャート
である。
【図2】本発明を適用した情報処理システムの構成を表
すブロック図である。
【図3】基本文節決定処理の例を示す図である。
【図4】第1候補決定処理の例を示す図である。
【図5】基本文節分割処理の例を示す図である。
【図6】同音語選択処理および単語学習の例を示す図で
ある。
【図7】第1候補決定処理の例を示す図である。
【図8】同音語情報取得処理の例を示す図である。
【図9】再変換処理の例を示す図である。
【図10】同音語間接続チェックの例を示す図である。
【図11】区切り位置記憶処理の例を示す図である。
【図12】基本文節決定処理の例を示す図である。
【図13】第1候補決定処理の例を示す図である。
【図14】本発明の他の実施例の動作を示すフローチャ
ートである。
【図15】基本文節決定処理の例を示す図である。
【図16】第一候補決定処理の例を示す図である。
【図17】基本文節分割処理の例を示す図である。
【図18】基本文節決定処理の例を示す図である。
【図19】第一候補決定処理の例を示す図である。
【図20】基本文節分割処理の例を示す図である。
【図21】出力結果の例を示す図である。
【図22】同音語選択処理の例を示す図である。
【図23】同音語選択処理の例を示す図である。
【図24】出力結果の例を示す図である。
【図25】基本文節決定処理の例を示す図である。
【図26】第一候補決定処理の例を示す図である。
【図27】基本文節分割処理の例を示す図である。
【図28】基本文節決定処理の例を示す図である。
【図29】第一候補決定処理の例を示す図である。
【図30】基本文節分割処理の例を示す図である。
【図31】出力結果の例を示す図である。
【図32】同音語情報取得の例を示す図である。
【図33】再変換処理の例を示す図である。
【図34】同音語間接続チェック処理の例を示す図であ
る。
【図35】区切り位置記憶解除処理の例を示す図であ
る。
【図36】基本文節決定処理の例を示す図である。
【図37】第一候補決定処理の例を示す図である。
【図38】基本文節分割処理の例を示す図である。
【図39】出力結果の例を示す図である。
【符号の説明】
1 入力装置 2 中央演算処理装置(CPU) 3 出力装置 4 記憶装置

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された読み文字列より、第一候補と
    なる基本文節を決定する手段と、 前記基本文節の変換候補より、第一候補を決定する手段
    と、 前記第一候補と決定された基本文節を同音語単位に分割
    する手段と、 前記第一候補となる同音語が希望する同音語でなかった
    場合、同音語を選択する手段とを有する文字処理装置に
    おいて、 前記同音語を選択する手段の対象となった同音語の情報
    を取得する手段と、 当該同音語に隣接する同音語の情報を取得する手段と、 前記隣接する同音語が、前記同音語を選択する手段の対
    象となった同音語との間で文法的に接続可能か否かを判
    断する手段と、 前記判断により同音語間の接続が不可能とされた場合、
    当該同音語間の区切り位置を記憶する手段とを具備した
    ことを特徴とする文字処理装置。
  2. 【請求項2】 請求項1において、前記判断により同音
    語間の接続が可能とされた場合には、当該同音語間の区
    切り位置の記憶を解除する手段を具備したことを特徴と
    する文字処理装置。
JP29092693A 1993-11-19 1993-11-19 文字処理装置 Expired - Fee Related JP3387582B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29092693A JP3387582B2 (ja) 1993-11-19 1993-11-19 文字処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29092693A JP3387582B2 (ja) 1993-11-19 1993-11-19 文字処理装置

Publications (2)

Publication Number Publication Date
JPH07141351A JPH07141351A (ja) 1995-06-02
JP3387582B2 true JP3387582B2 (ja) 2003-03-17

Family

ID=17762302

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29092693A Expired - Fee Related JP3387582B2 (ja) 1993-11-19 1993-11-19 文字処理装置

Country Status (1)

Country Link
JP (1) JP3387582B2 (ja)

Also Published As

Publication number Publication date
JPH07141351A (ja) 1995-06-02

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JPS6359660A (ja) 情報処理装置
JP3387582B2 (ja) 文字処理装置
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP4756764B2 (ja) プログラム及び情報処理装置並びに情報処理方法
JP3768577B2 (ja) 文字処理方法
JP2838850B2 (ja) 仮名漢字変換装置
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JP3329476B2 (ja) かな漢字変換装置
JP3037776B2 (ja) 用語分解装置
JP2918380B2 (ja) 文字認識結果の後処理方法
JPH1021222A (ja) 機械翻訳方法及び専門用語辞書選択方法
JP3021224B2 (ja) 辞書検索装置
JPH0668070A (ja) 複合語辞書登録装置
JP2839515B2 (ja) 文字読取システム
JP2003178263A (ja) 文字認識装置及び記録媒体
JP3466669B2 (ja) 文字処理方法
JP2812443B2 (ja) 文字処理装置
JPH01297768A (ja) 文書処理装置
JP3375978B2 (ja) 文書処理装置
JP3408007B2 (ja) 形態素解析処理装置
JPH0721182A (ja) 文字処理装置およびその方法
JPH0721798B2 (ja) 言語処理装置
JP2000137706A (ja) 日本語入力システム及びその登録単語制御方法ならびに登録単語制御プログラムを格納した記憶媒体
JPH05108703A (ja) 機械翻訳機

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100110

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees