JPH07141354A - 漢字変換学習装置 - Google Patents

漢字変換学習装置

Info

Publication number
JPH07141354A
JPH07141354A JP5283361A JP28336193A JPH07141354A JP H07141354 A JPH07141354 A JP H07141354A JP 5283361 A JP5283361 A JP 5283361A JP 28336193 A JP28336193 A JP 28336193A JP H07141354 A JPH07141354 A JP H07141354A
Authority
JP
Japan
Prior art keywords
unit
conversion
learning
meaning
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5283361A
Other languages
English (en)
Inventor
Toshitake Kaku
俊桔 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5283361A priority Critical patent/JPH07141354A/ja
Priority to CN94106045A priority patent/CN1085859C/zh
Publication of JPH07141354A publication Critical patent/JPH07141354A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 二音節の候補語間の意味類似度及び使用頻度
に基づき漢字変換の正確率を向上させた漢字変換学習装
置を提供する。 【構成】 文字変換が、入力された読み記号を検索要素
として同音語学習辞書部、基本辞書部を参照し各候補音
節に対応するすべての候補語及びそれらの意味コードを
取り出す。意味類似度計算部が、前後の候補語の意味コ
ードに基づき、意味類似度を算出する。頻度重み計算手
段部が同音語学習辞書部内の使用頻度を参照し頻度重み
を算出する。文字変換部が得られた意味類似度及び頻度
重みに基づき、各候補語群について、動的計画法で最適
な変換の経路を見つめてから、この経路上における語を
一応の結果として出力部により表示する。使用者により
最終的に正しいとされた変換結果に基づき、意味学習辞
書更新部と同音語学習辞書更新部により意味学習辞書
部、同音語学習辞書部を更新する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、学習機能を持つ中国語
入力用の漢字変換学習装置に関する。
【0002】
【従来の技術】本発明を、これに関係する従来の技術、
実施例等により説明するに先立ち、本明細書で使用する
重要な語句等の定義、説明をしておく。本発明の主対象
は、中国語ワードプロセッサー、日本語ワードプロセッ
サー等である。このため、「読みコード」、「読み記
号」とは、「使用者が漢字変換により出力若しくは表示
を意図する語を特定する記号」という意味であり、アル
ファベットのような表音文字、日本語の「かな」のよう
な音素文字はもとより、アラビア数字のごとき表意文字
的な文字、オンモン、中国にて使用される「V」、
「−」、「/」、「\」に類似した音調記号(本発明の
要旨に関係せず、また電子システムによる出願の都合
上、外形の似た記号で代用して表示する。)等をも含
む。
【0003】また、変換の結果若しくは目標たる「漢
字」、「単語」、「語」、「字」とは、「使用者が漢字
変換の結果出力若しくは表示を意図する記号」という意
味であり、漢字のごとき表意文字の他、「受する」のご
とく漢字と仮名とが結合したもの、「々(ノマ)」のご
とき記号,そして文法上の内容の面からは単語、熟語は
もとより「天上天下唯我独尊」のごとき文や節や句をも
含む。
【0004】また、漢字列等における「列」とは、入力
される読み記号、出力される漢字とも複数のものが一体
となって変換処理の対象となることが多い一方で、日本
語では単数と複数の区別がないため、このことを可能な
限り正確に表現するため使用するものである。ただし、
本来日本語には単複の区別がないため、「列」があるか
ら複数、ないから単数とは限定してはいない。
【0005】次に、中国語では、原則として一音節が一
の漢字に該当するが、日本語等他国語では必ずしも該当
しない。従って、本明細書でも一音節一漢字とは限定し
ない。また、中国語ワードプロセッサーにおいては、入
力された読み記号の漢字変換の対象としての切り出し
は、入力された読み記号列を対象として第1に単語を構
成する音節の多さを、第2に先に入力された音節を優先
して一応切り出した上で辞書に登録されているか否かを
調べるという最長一致法によりなされることが多い。た
だし、日本語等他語のワードプロセッサーについては、
この限りでない。
【0006】なお、最長一致法については、別途本願出
願人が特願平5 −75911 号、同75912 号等で明らかにし
ているがごとくいわば周知の技術であるため、その説明
は省略する。以下、本発明に直接関係する従来の技術に
ついて説明する。中国語ワードプロセッサー等で使用さ
れている読み記号による入力方式においては、例えばキ
ーボードにより漢字の読み記号が入力され、その読み記
号に相応する同音の漢字又は同音異義語の中から、入力
者の意図するものと想定されるものを所定の手順で自動
的に選択する事により漢字列が生成される。この際、も
し生成された漢字列が入力者の意図する漢字列でない場
合には人手により修正がなされる。従って、同音の漢
字、異義語の候補中から正しい漢字、或いは単語が早く
正確に選び出されるならば、この漢字の読み記号による
入力方式の効率を向上させることができる。このため、
同音異義語の選択問題を解決するべく、一般には学習機
能が利用されている。これは、使用者の使用経験を記録
した上、これを同音異義語を選択するのに利用するもの
である。ところで、この学習は、記録された使用経験を
利用する際に反映する時間の長短により、短期学習と長
期学習の二種類に分けられる。
【0007】(一)短期学習とは、使用者の最新に選択
した同音異義語が最優先して選択されるものである。例
えば、中国語の読み記号「i4」の同音異義字は「意、
億、易、亦、益、翼、......」等があり、また通常は極
普通の人、平均的な文章での統計等をもとにこの順序で
表示、変換されるべく配列されているが、もし、使用者
が目下作成中の文章中の「i4」の音では直前に「翼」を
選択しておれば、「i4」の同音異義字の配列順序は自動
的に「翼、意、億、易、亦、益、......」とされ、今度
また「i4」を入力すると、「翼」という文字が自動的に
最優先して選択されるものである。
【0008】(二)長期学習とは、同音異義語について
各読み記号列毎にその読み記号列に相応する各語の使用
回数を一定期間累計して記憶し、この上で個々の読み記
号列毎にその読み記号に相応する同音異義語の中では、
その使用回数(使用頻度)の多い順に格納し、この上で
各同音異議の語の中では配列順序の一番目の語から順に
優先して選択されるものである。
【0009】ところで、これらの学習方式は、いずれも
単に一つの漢字か、一つの単語についての学習である。
従って、短期学習ならばあまり使用されていない漢字さ
えも学習の対象とされ、この結果、文章の如何によって
は常用される字がほとんど優先選択の対象とされないこ
ととなり、変換率に大きな悪影響を与えかねない。ま
た、長期学習であれば、目下作成中の文によく使用され
ている漢字、単語に素早くは反映され難い。このため、
これら両学習方式の欠点をなくすため、文中の相隣接す
る二文字、二単語を対象として学習する方法も提案され
ている。しかし、任意の二文字、二単語の組み合わせは
事実上無限に近いため、この方法は大量の記憶資源を必
要とし、ひいてはそのままでは実用的でない。このた
め、この方法は、相隣接する二文字、二単語の意味を利
用するよう改良されてきている。
【0010】ところで、このような学習機能を有する従
来の漢字変換学習装置としては、例えば、日本国特開平
3 −74763 号に示されているようなものがある。図10は
この漢字変換学習装置の構成図である。本図において、
1は、英数字、漢字、変換などの命令が入力されるキー
ボードである。2は、キーボードから入力された命令に
応じて処理を実行する中央処理装置である。3は、CR
Tディスプレイなどからなり、変換前及び変換後の文章
などを表示する表示装置である。4は、各候補の漢字或
いは単語の意味を分類の上記憶している類語分類辞書部
であり、その記憶内容を図11に概念的に示す。5は、
隣接する二文字或いは二単語の意味分類及び使用頻度を
記憶する学習バッファであり、その記憶内容を図12に
概念的に示す。
【0011】次に、この漢字変換学習装置の動作につい
て説明する。キーボード1から読み記号列が入力される
と、中央処理装置2は関係する辞書部を参照し、第1に
漢字や単語を構成する音節の長さを、第2に先に入力さ
れた音節を優先して切り出した上で辞書と比較するとい
う最長一致法等により音節を切り出してから、辞書部の
配列順序に基づいて各音節の候補語を取り出す。そし
て、類語分類辞書部4を参照し、各候補語の分類情報を
取り出し、隣接する文節同志の分類情報の組み合わせ全
てを作成する。そして、これらの組み合わせが学習バッ
ファ5に存在するか否かを調べる。もし、存在すれば、
これらの二漢字、二単語を漢字変換の対象として優先し
て選択する。もし、複数の組み合わせが学習バッファ5
に存在している場合は、分類情報の使用頻度が一番高い
組み合わせをより優先する。この上で変換結果を表示装
置3に表示する。この上で、最終的には使用による正し
い漢字変換か否かの認識、誤っている場合には訂正等が
なされる。以上の処理にしたがって学習バッファ5内に
記憶されている組み合わせが漢字変換に利用され、その
都度当該組み合わせの使用頻度が加算して記憶され、学
習に反映されていく。
【0012】
【発明が解決しようとする課題】しかしながら、以上の
ような漢字変換学習装置には、以下のような問題点があ
る。 (1)相隣接する二つの漢字、単語しか判断対象としな
いため、関連する漢字、単語が相隣接していない場合に
は役にたたない。例えば、仮に「敵軍*攻勢*非常*猛
烈」という文を入力しようとする場合に、学習バッファ
には既に「攻勢」〜「猛烈」という組み合わせが記憶さ
れているとする。しかし、これは相隣接していないため
判断対象とされない。しかもこの場合、入力を意図しよ
うとする文ではその二単語の間に「非常」という単語が
あるため、もしも、「非常」という単語に対する前の入
力の際の学習経験が「攻勢」ではなく「工事」であった
とすれば、正確に漢字変換することができず「適軍*工
事*非常*猛烈」と漢字変換されることとなる。そし
て、使用者がこれを本来意図する文に修正すれば、これ
により、二つの語「攻勢」と「工事」の使用が短期学習
され、短期学習バッファ(図示せず)に格納されること
となる。このため今度、「我軍*工事*非常*堅固」と
いう文を入力しようとするときには、学習バッファの記
憶により意図しない「我軍*攻勢*非常*堅固」という
文に変換される。(なお、ここに*は音節ごとに区切る
記号であり、また「攻勢」、「工事」とも読み記号は
「gong1sh4」である。)。
【0013】(2)類語を荒く分類するれば、相隣接す
る二つの漢字や単語の学習効果は低下し、その一方細か
く分類すれば、必要な記憶資源が増大する。 (3)類語分類を利用するので、前後の漢字単語の分類
が完全に一致しない限り利用できない。すなわち、意味
の近い語を利用できないため、変換率の向上が限られ
る。
【0014】このため、隣接する二文字、単語の意味、
分類を有効に利用しえる上必要な記憶資源量が少なく、
かつ正確率が高い漢字変換学習装置の実現が望まれてい
る。
【0015】
【課題を解決するための手段】以上の目的を達成するた
め、請求項1の発明においては、読みコードとそれに対
応するすべての同音語及びそのすべての同意語の意味コ
ードを記憶している基本辞書部と、学習された相隣接す
る後語の意味コードと前語の意味コードとの組み合わせ
を記録する意味学習辞書部と、入力された読みコードか
ら現在の漢字変換の対象となる音節列を所定の手順で切
り出した上、基本辞書部から該コードに対応する全ての
同音語及び各同音語の意味コードを検出する候補語検出
部と、上記意味学習辞書部を参照の上、二音節の候補語
間の意味類似度を所定の演算により計算する意味類似度
計算部と、上記意味類似度計算部により計算された意味
類似度に基づき、上記候補語検出部により検出された候
補語について最適な変換の経路を取り出し、この経路上
における語を一応の変換結果とする文字変換部と、上記
文字変換部の一応の変換結果を参照した使用者の選択指
示により、上記の文字変換部で検出された同音語の中か
ら意図する語を選択させ、最終的な変換結果を得る選択
部と、選択部の最終的な変換結果に基づき、上記意味学
習辞書部内の組み合わせを更新する意味学習辞書部更新
部とを備えたことを特徴とする漢字変換学習装置として
いる。
【0016】請求項2の発明においては、読みコードと
それに対応するすべての同音語、及びそのすべての同音
語の過去の使用頻度が記録されている同音語学習辞書部
と、使用者の選択部を介しての選択指示により上記同音
語学習辞書部内の使用頻度の記録を更新する同音語学習
辞書部更新部とを有し、更に、上記候補語検出部は、同
音語学習辞書部、基本辞書部の順で対応するすべての同
音語及びそれらの意味コードを検出することを特徴とす
る請求項1記載の漢字変換学習装置としている。
【0017】請求項3の発明においては、同音語学習辞
書部を参照し同じ音節の候補語の使用頻度の重みを所定
の手順で計算する頻度重み計算部を有し、上記文字変換
部は上記頻度重み計算部により計算された頻度重み及び
上記意味類似度計算部により計算された意味類似度に基
づき、入力された読み列の候補語について最適な変換の
経路を取り出し、この経路上における語を変換結果とす
ることを特徴とする請求項2記載の漢字変換学習装置と
している。
【0018】
【作用】上記の構成により、請求項1の発明において
は、基本辞書部には読みコード(コード化された表音文
字列)及びそれに対応する(原則として、その表音文字
列で示される発音)すべての同音語(同音異漢字又は同
音異義単語)並びに各同音語の意味コード(語の表す意
味の分類に応じて作成されたコード)が予め作成の上、
消去は不能な形で記憶されている。候補語検出部が、入
力された現在の変換の対象となる音節列を所定の手順で
切り出した上で、基本辞書部から対応する同音語(この
段階では、変換の候補である候補語)及び同音語の意味
コードを検出する。意味学習辞書部には、学習された相
隣接する後語の意味コードと前語の意味コードとの組み
合わせが記録(学習の結果、更新、変化等しえる。)さ
れている。意味類似度計算部が、上記意味学習辞書部を
参照し、所定の演算により二音節の候補語間の意味類似
度を計算する。文字変換部が、上記意味類似度計算部に
より計算された意味類似度に基づき、上記候補語検出部
により検出された候補語について最適な経路を取り出
し、この経路上における語を一応の変換結果とする。選
択部が、文字変換部の一応の変換結果を参照した使用者
の選択指示により、上記文字変換部で検出された同音語
の中から意図する語を選択させ、最終的な変換を得る。
意味学習辞書部更新部が、選択部の最終的な変換結果に
基づき上記の意味学習辞書部内の組み合わせを更新す
る。
【0019】請求項2の発明においては、同音語学習辞
書部には読みコードとそれに対応するすべての同音語及
びその過去の使用頻度(使用の頻度に関係するデータと
いう意味であり、使用回数をも含む概念である。)が記
録されている。同音語学習辞書部更新部が、使用者の選
択部を介しての選択指示により同音語学習辞書部内の使
用頻度の記録を更新する。候補語検出部が、同音語学習
辞書部、基本辞書部の順で対応するすべての同音語及び
それらの意味コードを検出する。
【0020】請求項3の発明においては、頻度重み計算
部が同音語学習辞書部を参照し、同じ読みコードの候補
語の使用頻度の重みを所定の手順で計算する。文字変換
部は、頻度重み計算部により計算された頻度重み及び意
味類似度計算部により計算された意味類似度に基づき、
入力された読みコードの候補語について最適な変換の経
路を取り出し、この経路上における語を変換結果とす
る。
【0021】
【実施例】以下、本発明を実施例に基づいて説明する。
本実施例は、意味コード作成の基本、根拠として意味分
類(semantic categorization) 方法を採用する。本分類
方法は、一つの形態素のすべての分類情報を大分類(一
桁目)、中分類(二桁目)、小分類(三桁目)、及び細
分類(四桁目)の十六進の四桁の数字により示すもので
ある。なお、ここに16進の数字を採用したのは、計算
機で16進(2バイト)の数字が広く採用されているの
と、16進なら1桁で各分類に充分対応可能なことによ
る。この類語字典は、図9に示すようにすべての漢字、
単語等を自然、性状、変動、行動、心情、人物、性向、
社会、学芸、物品の十個の大分類に分け、また各大分類
を十個の中分類とし、各中分類、小分類も同様の方法に
より、より細く分類される。このような階層的な分類コ
ードにおいては、上位の意味コードの意味範囲は下位よ
り広い。つまり、より下位の意味コードの意味範囲は狭
い。例えば、 0 (″自然″類に属する) 02 (″自然″類の″気象″類に属する) 028 (″気象″類の″風″類に属する) 028a (″風″類の″強弱″類に属する) なお、これについては例えば角川書店刊 「類語字典」
(1985年刊)等に詳しく記載されていることであり、ま
た本発明の要旨そのものではなく、前提としている事が
らであるため、これ以上の説明は省略する。
【0022】本発明の基本は、以上の意味分類コードに
基づき意味類似度を計算することにより、正確な漢字変
換を目指すものである。図1は、本発明に係る漢字変換
学習装置の一実施例の構成図である。本図において、40
0 は各読み記号に区分けした上で対応する各同音語をそ
の過去の使用回数と併わせて記録する同音語学習辞書部
である。なお、この同音語学習辞書部400 の記録状態を
図6に概念的に示す。410 は、読み記号とそれに対応す
るすべての同音語及び各同音語の意味コードを記憶する
基本辞書部である。なお、この基本辞書部410 の記憶状
態を図7に概念的に示す。420 は、相隣接する前後二つ
の語の意味コードを記憶する意味学習辞書部である。な
お、この意味学習辞書部420 の記録状態を図8に概念的
に示す。100 は、キーボードからなり、入力しようとす
る読み記号列か命令を入力する入力部である。210 は、
意味学習辞書部420を参照し、入力された各音節列に対
応する、そして変換候補である同音語の意味類似度を計
算する意味類似度計算部である。220 は、同音語学習辞
書部400 の使用頻度を参照し、候補の各同音語の使用頻
度の重みを所定の手順で計算する頻度重み計算部であ
る。200 は、入力された読み記号列について内蔵する音
節切り出し手段(図示せず)により音節を切り出してか
ら、同音語学習辞書部400 或いは基本辞書部410 を参照
し、各音節の可能な候補語及びそれらに関係する意味コ
ードを取り出した後、意味類似度計算部210 及び頻度重
み計算部220 を起動し、候補語群の最適な変換の経路を
取り出して、この取り出された経路における漢字或いは
単語を変換結果とする文字変換部である。600 は、変換
済みの文字列に基づき、相隣接する漢字或いは単語の意
味を学習し、意味学習辞書部420 を更新する意味学習辞
書部更新部である。300 は、使用者の修正指示に従って
同音語学習辞書部400 及び基本辞書部410を参照し、
変換された文字列中の誤りのある漢字、単語を修正した
り正しい変換であったならばそれを確認する同音語選択
部である。500 は、最終的に変換された文字列に基づ
き、同音語学習辞書部400 を更新する同音語学習辞書部
更新部である。700 は、ディスプレイからなり、変換済
みの文字列を出力する出力部であり、ディスプレイは使
用者による一応の変換結果の確認、誤りの場合の修正指
示にも使用される。
【0023】以上の他、正しく変換された漢字列、単語
を作成中の文の所定位置に移す変換後漢字移動手段、第
2、第3の優先順位の候補語等を表示装置の所定位置に
表示させる予備候補語表示手段等ワードプロセッサーと
しての作用発揮に必要な構成部を有するが、これらは自
明のことであるので図示、説明は省略する。以下、本実
施例の動作の流れを図を参照しつつ説明する。
【0024】図2は、本実施例の全体の処理動作の流れ
図である。以下、本図の各ステップを説明する。(s20
1)では、入力された読み記号列について、所定の音節
切り出し規則、本実施例では最長一致法により音節を切
り出す。(s202)では、切り出された各音節の読みを検
索要素として、同音語学習辞書部400 そして基本辞書部
410 という順で参照し、各音節に相応する同音語及びそ
れら同音語の意味コードを取り出す。
【0025】(s203)では、前向きダイナミックプログ
ラミング(forward dynamic programming) という後部の
隣接語を優先して前部の隣接語を推測する方法により各
音節の候補語のノードi までの累計最大値f(i)、ここに
f(i)=max[tij+f(j)] ,を獲得する。なお、j はi と連
結している後ろのノードである。tij はi 候補ノード及
びj 候補ノードの意味類似度プラス頻度重みである。な
お、これらについては、後により具体的に説明する。
【0026】(s204)では、累計最大値f を持つ最適な
変換の経路における単語を変換結果として出力する。図
3は、意味類似度計算部210 の処理流れ図である。以下
本図の各ステップを説明する。(s301)では、前のノー
ドの意味コード及び後ろのノードの意味コードをそれぞ
れ変数sem1とsem2[i],i=1...,n(後ろの確定のノード
数)に入れる。
【0027】(s302)では、sem2[i],i=1...,nを各々検
索要素として、意味学習辞書部420を参照し、可能な隣
接意味を取り出すとともに変数possisem[i],i=1...,nに
格納する。(s303)では、sem1とpossisem[i] とを集合
論理積演算(set intersection)をし、この演算の結果を
変数result[i],i=1,...,n に格納する。なお、この演算
についても後に具体的に例をあげて説明する。
【0028】(s304)では、各result[i] を参照し、意
味類似度を決める。例えば、result値は7124である場
合、もし、前のノードの四つのコードは同じであれば、
意味類似度は1にする。もし、result値は712 であるな
らば、三つのコードが一致しているので、意味類似度は
3/4にする。そして、result[i] の意味類似度を累加
して、文字変換部200 へ出力する。
【0029】以上によりこの意味類似度計算の処理を終
える。図4は、頻度重み計算部220 の処理流れ図であ
る。以下本図の各ステップを説明する。(s401)では、
まず候補単語の読み記号と候補単語とをそれぞれAレジ
スタ、Bレジスタに格納すると共に、C, D, E, Fの
四つのレジスタを初期化する。
【0030】(s402)では、Aレジスタに格納されてい
る候補単語の読み記号を検索要素として、同音語学習辞
書部400 を参照し、対応する同音単語及びそれらにかか
る使用頻度、本実施例では使用回数を採用する、をCレ
ジスタに格納する。(s403)では、Bレジスタに格納さ
れている候補単語を検索要素として、Cレジスタを参照
し、対応する使用頻度を取り出しDレジスタに格納す
る。
【0031】(s404)では、Cレジスタの各同音単語の
使用頻度を取り出して累加してから、加算した結果をE
レジスタに記憶する。(s405)では、Dレジスタの値を
Eレジスタの値で割って、得られた頻度重みをFレジス
タに格納する。この計算についても、後に実施例をあげ
て説明する。(s406)では、Fレジスタの値を文字変換
部200 へ出力する。
【0032】以上により頻度重み計算部220 の処理が終
わる。図5は、意味学習辞書部更新部600 の処理流れ図
である。以下、本図の各ステップを説明する。(s501)
では、同音語選択部300 から変換された文字列及びそれ
らにかかる単語の意味コードが渡される。
【0033】(s502)では、左から右へ連続する文字列
の相隣接する単語につき、その前語の意味コードをAレ
ジスタに、後語の意味コードをBレジスタに格納する。
(s503)では、Bレジスタは空集合か否かを判断する。
空集合でない場合には(s504)へ行き、空集合ならば
(s512)へ行く。(s504)では、Bレジスタの値を検索
要素として、意味学習辞書部420 を参照し、一致するデ
ータをCレジスタに格納する。
【0034】(s505)では、Cレジスタは空集合か否か
を判断する。空集合であれば、(s506)へ行き、空集合
でなければ(s507)へ行く。(s506)では、Bレジスタ
の値を検索要素としてAレジスタの値を意味学習辞書部
420 に格納してから、(s502)に戻る。(s507)では、
AレジスタとCレジスタについて集合論理積演算をし
て、演算された結果をDレジスタに格納する。
【0035】(s508)では、Dレジスタが空集合か否か
を判断する。空集合ではないと判断すると、(s502)に
戻る。空集合の場合には、(s509)へ行く。(s509)で
は、AレジスタとCレジスタについて論理和演算をし、
この結果をAレジスタに格納する。(s510)では、意味
コード圧縮方法、例えば、意味コードを同一化する方法
などによりAレジスタの値を圧縮してから、Aレジスタ
に格納する。
【0036】(s511)では、Bレジスタの値を検索要素
としてAレジスタの値を意味学習辞書部420 に格納した
後、(s502)に戻る。(s512)では、意味学習辞書部42
0 の後語の意味コードにより、学習結果をソートして意
味学習辞書部420 に格納する。以上により、意味学習辞
書部420 の更新処理を終える。
【0037】さて、意味コードは、図9に示すように階
層式で表わされている。このため、二音節の候補語間の
意味類似度は集合論理積の演算を行うことにより得られ
る。例えば、意味コード「7140」と「714a」との集合論
理積(set intersection)の演算結果は「714 」となる。
この場合、三つのコードが一致しているので、意味類似
度は3/4となる。なお、全部のコードが一致している
場合には、意味類似度は1、二つのコードが一致してい
る場合には、意味類似度は2/4、一つのコードが一致
している場合には、意味類似度は1/4、全てが一致し
ない場合には、0とする。
【0038】次に、中国語の読み記号列を具体的に例に
とって上記作用を説明する。ただし、最長一致法の説明
は省略する。「di2jyuen1gong1sh4fei1ccang2jian1gu
4」が入力された場合を例にとって、この漢字変換を具
体的に説明する。(s201)では、入力部から入力された
この音節列の漢字変換の対象としての切り出しを行い、
「di2jyuen1 gong1sh4 fei1ccang2 jian1gu4」が得られ
る。この際の可能な候補語を図13に示す。
【0039】(s202)では、この図13に示している各ノ
ードについて、前向きダイナミックプログラミング方法
により各ノードの意味類似度+頻度重み+確定経路の累
計最大値f(i)という演算を行い、その結果以下のような
演算がなされることとなる。 f(7)=max[1]=1, f(6)=max[0+2+f(7)]=3, f(5)=max[1+1.18+f(6)]=5.18, f(4)=max[0+1.20+f(6)]=4.20, f(3)=max[0+1.20+f(6)]=4.20, f(2)=max[0+1.42+f(6)]=4.42, f(1)=max[0+1.42+f(2),0+1.2+f(3),0+1.2+f(4),0.75+1.
18+f(5)]=max(5.84,5.4,5.4,7.11)=7.11 (ここに、max(…) は、( ) 内の…のうち最大のものを
とることを意味する。)次に、上記演算の内容を説明す
る。
【0040】「工事」という単語の頻度重みは、図6の
同音語学習辞書部400 の情報を参照することにより、12
/(28+13+13+12)=0.18 と算出される。同様に「公式」、
「公事」、「攻勢」は各々0.42,0.20,0.20となる。ま
た、「gongish4」以外の音節は同音語がないので、それ
らの頻度重みは全て1にする。従って、f(6)における
頻度重みは1+1=2となり、f(5)、f(4)、f
(3)、f(2)は、各々1 +0.18,1+0.2,1+0.2,1 +
0.42となり上式の値となる。意味類似度の計算において
は、図13に示す各音節の意味コードを検索要素として、
図8にその内容を示す意味学習辞書部420 を参照する。
「工事」の意味コード「3950」しか意味学習辞書部420
に載っていないので、前の可能な単語の意味コード「71
4a」を前の単語「敵軍」の意味コード「7140」と比較す
る。そして、三つのコードが一致しているので、意味類
似度を3/4にするものである。また、f(5)を計算す
る時、図8に示すように、「非常」と「工事」の意味類
似度は0であるが、確定経路の「堅固」と「工事」の意
味類似度は1である。以上の演算結果からわかるよう
に、最適な変換経路はノード1ー5ー6ー7からなるの
で、″敵軍工事非常堅固″という正しい変換結果が得ら
れる。更に、以上の計算結果に基づき、以下のように意
味学習辞書部420 を更新する。
【0041】3950ーーー7140,714a,7330 1950ーーー3950 135aーーー1950,3950 その上で、同音語学習辞書部400 も以下のように更新す
る。
【0042】di2jyuen1 ーーー敵軍,1 gongish4 ーーー公式,28 、工事,13 、公事,13 、攻
勢,13 fei1ccang2ーーー非常,1 jian1gu4 ーーー堅固,1 以上、本発明を実施例に基づき説明してきたが、本発明
は何も上記実施例に限定されないのは勿論である。すな
わち、例えば、 (1)他の階層式や分類の意味コードを使用する。
【0043】(2)意味類似度だけを利用する。 (3)他の演算方法、例えば、整数計画法などを使用す
る。 (4)相隣接する二単語の前語を検索要素とし、後語を
検索対象とする、あるいはそのような機能の発揮も使用
者が選択可能とする。日本語の場合は、この方が適切で
あろう。
【0044】具体的には、入力された音素文字が「かみ
をきる」の場合に、その前部の単語等が「バリカンで」
あるならば「髪を切る」と変換され、「ナイフで」ある
ならば「紙を切る」と変換され、「鋏で」であるならば
使用頻度が大きく影響するであろう。 (5)入力された読みコードから漢字変換の対象となる
音節列の切り出しは、文字入力者による空欄や/等所定
の記号の入力によりなされる。
【0045】(6)意味類似度の演算は、集合論理積で
なく、相隣接はしないが同一文章中の確定した他の単語
をも直接の検討対象とし、この際両単語の間に介在する
音節数や切り出された音節列の数をも考慮する。
【0046】
【発明の効果】以上説明したように本発明の漢字変換学
習装置は、 (1)長期学習と短期学習とを併用する上に、隣接語同
志の意味の学習方法をも考慮するため、現在以上に同音
異義語を正確に選び出し、また変換の正確率を向上する
ことができる。
【0047】(2)ダイナミックプログラミングを採用
するため、隣接していない意味学習も利用可能となる。
例えば、中国語の「一隻狗」の「狗」の読みを「鉛筆」
の読みに修正する場合、「鉛筆」の読み記号が入力され
るにつれて、「隻」も自動的に「枝」に修正されるの
で、複雑な文法,用語の情報の入力がなくとも「一枝鉛
筆」という正しい変換結果が得られこれにより、知能型
の入力が可能となる。
【0048】(3)階層式の意味コードを採用するの
で、少ないメモリで隣接語の意味の学習を記憶すること
ができる。 このため、本発明の実用性が非常に高い。
【図面の簡単な説明】
【図1】本発明に係る漢字変換学習装置の一実施例の構
成図である。
【図2】上記実施例における文字変換部を中心とした動
作流れ図である。
【図3】上記実施例における意味類似度計算部を中心と
した動作流れ図である。
【図4】上記実施例における頻度重み計算部を中心とし
た動作流れ図である。
【図5】上記実施例における意味学習辞書部更新部を中
心とした動作流れ図である。
【図6】上記実施例における同音語学習辞書部の記憶す
るデータ構造の概念図である。
【図7】上記実施例における基本辞書部の記憶するデー
タ構造の概念図である。
【図8】上記実施例における意味学習辞書部の記憶する
データ構造の概念図である。
【図9】上記実施例における意味コードを示す説明図で
ある。
【図10】従来の漢字変換学習装置の構成図である。
【図11】従来の漢字変換学習装置の類語分類辞書部の
記憶内容の概念図である。
【図12】従来の漢字変換学習装置の学習バッファの記
憶内容の概念図である。
【図13】上記実施例における有向ネットワークを示す
説明図である。
【符号の説明】
100 入力部 200 文字変換部 210 意味類似度計算部 220 頻度重み計算部 300 同音語選択部 400 同音語学習辞書部 410 基本辞書部 420 意味学習辞書部 500 同音語学習辞書部更新部 600 意味学習辞書部更新部 700 出力部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】読みコードとそれに対応するすべての同音
    語及びそのすべての同意語の意味コードを記憶している
    基本辞書部と、 学習された相隣接する後語の意味コードと前語の意味コ
    ードとの組み合わせを記録する意味学習辞書部と、 入力された読みコードから現在の漢字変換の対象となる
    音節列を所定の手順で切り出した上、基本辞書部から該
    コードに対応する全ての同音語及び各同音語の意味コー
    ドを検出する候補語検出部と、 上記意味学習辞書部を参照の上、二音節の候補語間の意
    味類似度を所定の演算により計算する意味類似度計算部
    と、 上記意味類似度計算部により計算された意味類似度に基
    づき、上記候補語検出部により検出された候補語につい
    て最適な変換の経路を取り出し、この経路上における語
    を一応の変換結果とする文字変換部と、 上記文字変換部の一応の変換結果を参照した使用者の選
    択指示により、上記の文字変換部で検出された同音語の
    中から意図する語を選択させ、最終的な変換結果を得る
    選択部と、 選択部の最終的な変換結果に基づき、上記意味学習辞書
    部内の組み合わせを更新する意味学習辞書部更新部とを
    備えたことを特徴とする漢字変換学習装置。
  2. 【請求項2】読みコードとそれに対応するすべての同音
    語及びそのすべての同音語の過去の使用頻度が記録され
    ている同音語学習辞書部と、 前記選択部からの最終的な変換結果により上記同音語学
    習辞書部内の使用頻度の記録を更新する同音語学習辞書
    部更新部とを有し、 更に、上記候補語検出部は、同音語学習辞書部、基本辞
    書部の順で対応するすべての同音語及びそれらの意味コ
    ードを検出することを特徴とする請求項1記載の漢字変
    換学習装置。
  3. 【請求項3】同音語学習辞書部を参照し、同じ読みコー
    ドに相応する各候補語の使用頻度の重みを所定の手順で
    計算する頻度重み計算部を有し、 上記文字変換部は上記頻度重み計算部により計算された
    頻度重み及び上記意味類似度計算部により計算された意
    味類似度に基づき、入力された読みコードの候補語につ
    いて最適な漢字変換の経路を取り出し、この経路上にお
    ける語を変換結果とすることを特徴とする請求項2記載
    の漢字変換学習装置。
JP5283361A 1993-11-12 1993-11-12 漢字変換学習装置 Pending JPH07141354A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5283361A JPH07141354A (ja) 1993-11-12 1993-11-12 漢字変換学習装置
CN94106045A CN1085859C (zh) 1993-11-12 1994-05-07 汉字变换学习装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5283361A JPH07141354A (ja) 1993-11-12 1993-11-12 漢字変換学習装置

Publications (1)

Publication Number Publication Date
JPH07141354A true JPH07141354A (ja) 1995-06-02

Family

ID=17664499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5283361A Pending JPH07141354A (ja) 1993-11-12 1993-11-12 漢字変換学習装置

Country Status (2)

Country Link
JP (1) JPH07141354A (ja)
CN (1) CN1085859C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750831A (zh) * 2015-04-01 2015-07-01 广东小天才科技有限公司 一种汉字智能学习方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN86102518A (zh) * 1986-09-10 1988-03-23 施国梁 模糊词汇键盘输入技术

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750831A (zh) * 2015-04-01 2015-07-01 广东小天才科技有限公司 一种汉字智能学习方法及系统

Also Published As

Publication number Publication date
CN1103494A (zh) 1995-06-07
CN1085859C (zh) 2002-05-29

Similar Documents

Publication Publication Date Title
CN107305768B (zh) 语音交互中的易错字校准方法
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
CN105404621B (zh) 一种用于盲人读取汉字的方法及系统
US7475065B1 (en) Phonetic searching
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US20110106792A1 (en) System and method for word matching and indexing
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111429886B (zh) 一种语音识别方法及系统
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
JPH07141354A (ja) 漢字変換学習装置
JP2001229162A (ja) 中国語文書自動校正方法及び装置
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPS58123129A (ja) 仮名漢字変換装置
CN112786002B (zh) 一种语音合成方法、装置、设备及存储介质
US20230419959A1 (en) Information processing systems, information processing method, and computer program product
JP3084864B2 (ja) 文章入力装置
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
JPH11344991A (ja) 音声認識装置および記憶媒体
Boyd Pronunciation modeling in spelling correction for writers of English as a foreign language
Kang et al. Prosodic words prediction from lexicon words with CRF and TBL joint method