JP2003108545A

JP2003108545A - かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Info

Publication number: JP2003108545A
Application number: JP2001304040A
Authority: JP
Inventors: Hiroyuki Segi; 寛之世木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2001-09-28
Filing date: 2001-09-28
Publication date: 2003-04-11

Abstract

(57)【要約】【課題】かな漢字変換処理に手間をかけることなく、
変換処理速度を高速に維持することができるかな漢字変
換方法およびかな漢字変換装置ならびにかな漢字変換プ
ログラムを提供する。【解決手段】かな漢字変換装置１は、入力される記号
列を特定の単語に対応させる入力記号列辞書と、単語間
の接続確率とを記憶する記憶手段を有するものであっ
て、記号列を入力する入力手段と、この入力手段によっ
て、入力された記号列と、入力記号列辞書に含まれてい
る単語とを比較し、これらの類似の度合いを表す類似度
スコアを算出する類似度スコア算出手段３ａと、類似度
スコアおよび単語の接続確率に基づいた言語モデルスコ
アを参照して、入力手段によって入力された記号列を、
かなおよび漢字を含む文字列に変換するかな漢字変換手
段３ｃと、変換された文字列を出力する出力手段とを備
えている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された記号列
を、かな漢字を含む文字列に変換するかな漢字変換方法
およびかな漢字変換装置ならびにかな漢字変換プログラ
ムに関する。

【０００２】

【従来の技術】一般に、キーボード等の入力装置を使っ
て、入力される読みかな等から、かな漢字が含まれる文
字列を生成するものとして、ワードプロセッサ等のかな
漢字変換装置が知られている。この従来のかな漢字変換
装置では、単語（自立語と付属語）を単位とする単語辞
書が備えられており、入力した記号列（読み仮名等）を
単語単位で解析し、品詞および各単語間の接続の可否情
報（以下、構文解析という）が考慮されて、かなおよび
漢字を含む文字列に変換する、かな漢字変換が行われて
いる。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
かな漢字変換装置では、構文解析の結果に基づいて、入
力された記号列（読みがな）が文字列に変換されるの
で、変換処理手順が膨大となって処理速度が制約される
という問題がある。また、構文解析の精度によって、入
力された記号列から文字列への変換性能が影響され、新
規の単語を変換させるためには、使用している単語辞書
に当該新規の単語を追加すると共に、この単語の品詞情
報を入力してやらなければならず、手間がかかるという
問題がある。

【０００４】さらに、発声された音声（例えば、ニュー
ス等）を、従来のかな漢字変換装置を使用して、当該装
置の使用者が、実時間でかな漢字を含む文字列に書き起
こす場合を想定する。この場合、従来のかな漢字変換装
置の構文解析では、日本語に多種類の同音異義語が存在
し、自立した単語（名詞）と付属した単語（助詞）との
語句間の接続が多様であるので、入力した記号列（読み
がな）をかな漢字を含む文字列に速く変換できない場合
があり、音声の発声に比べ、書き起こしが遅れてしまう
という問題がある。

【０００５】本発明の目的は前記した従来の技術が有す
る課題を解消し、かな漢字変換処理に手間をかけること
なく、変換処理速度を高速に維持することができるかな
漢字変換方法およびかな漢字変換装置ならびにかな漢字
変換プログラムを提供することにある。

【０００６】

【課題を解決するための手段】前記目的を達成するた
め、請求項１記載のかな漢字変換方法は、入力される記
号列を特定の単語に対応させる入力記号列辞書と、単語
間の接続確率とを利用するかな漢字変換方法であって、
入力手段を用いて、記号列を入力する入力ステップと、
この入力ステップにより、入力された記号列と、前記入
力記号列辞書に含まれている単語とを比較し、これらの
類似の度合いを表す類似度スコアを算出する類似度スコ
ア算出ステップと、前記類似度スコアおよび前記単語の
接続確率に基づいた言語モデルスコアを参照して、前記
入力手段によって入力された記号列を、かなおよび漢字
を含む文字列に変換するかな漢字変換ステップと、この
かな漢字変換ステップにより、変換された文字列を出力
する出力ステップと、を含んでなることを特徴とする。

【０００７】この方法では、入力ステップにより、記号
列が入力され、類似度スコア算出ステップにより、入力
された記号列と入力記号列辞書に含まれている単語とが
比較され、類似度スコアが算出される。なお、類似度ス
コアは、変換後の文字列が存在する確率、入力された記
号列が存在する確率、を想定した場合、変換後の文字列
が出力されると仮定されたときに入力された記号列が得
られる確率として求められるものである。そして、かな
漢字変換ステップにより、類似度スコアと言語モデルス
コアが参照され、入力された記号列が文字列に変換さ
れ、出力ステップにより出力される。すなわち、このか
な漢字変換方法では、入力された記号列を品詞に分解し
て、構文解析することなく、音声認識の手法に基づき、
入力された記号列を、不特定の波形とみなして、この波
形を認識する方法が応用されている。

【０００８】また、請求項２記載のかな漢字変換装置
は、入力される記号列を特定の単語に対応させる入力記
号列辞書と、単語間の接続確率とを記憶する記憶手段を
有するかな漢字変換装置であって、記号列を入力する入
力手段と、この入力手段によって、入力された記号列
と、前記入力記号列辞書に含まれている単語とを比較
し、これらの類似の度合いを表す類似度スコアを算出す
る類似度スコア算出手段と、前記類似度スコアおよび前
記単語の接続確率に基づいた言語モデルスコアを参照し
て、前記入力手段によって入力された記号列を、かなお
よび漢字を含む文字列に変換するかな漢字変換手段と、
このかな漢字変換手段によって、変換された文字列を出
力する出力手段と、を備えることを特徴とする。

【０００９】かかる構成によれば、入力手段によって、
記号列が入力されると、類似度スコア算出手段によっ
て、入力された記号列と記憶手段に記憶されている入力
記号列辞書に含まれている単語とが比較され、類似度ス
コアが算出される。そして、かな漢字変換手段によっ
て、算出された類似度スコアおよび単語の接続確率に基
づいた言語モデルスコアが参照され、入力された記号列
が文字列に変換され、出力手段によって出力される。す
なわち、このかな漢字変換装置では、入力された記号列
を品詞に分解して、構文解析することなく、音声認識の
手法に基づき、入力された記号列を、不特定の波形とみ
なして、この波形を認識する手段が応用されている。

【００１０】また、請求項３記載のかな漢字変換プログ
ラムは、入力される記号列を、かなおよび漢字を含む文
字列に変換する装置を以下に記す手段により機能させる
ものである。すなわち、各手段は、前記記号列を入力す
る入力手段、この入力手段によって、入力される記号列
を特定の単語に対応させる入力記号列辞書と、単語間の
接続確率とを記憶する記憶手段、前記入力手段によっ
て、入力された記号列と、前記入力記号列辞書に含まれ
ている単語とを比較し、これらの類似の度合いを表す類
似度スコアを算出する類似度スコア算出手段、前記類似
度スコアおよび前記単語の接続確率に基づいた言語モデ
ルスコアを参照して、前記入力手段によって入力された
記号列を、かなおよび漢字を含む文字列に変換するかな
漢字変換手段、このかな漢字変換手段によって、変換さ
れた文字列を出力する出力手段である。

【００１１】かかる構成によれば、入力手段によって、
記号列が入力され、類似度スコア算出手段によって、入
力された記号列と記憶手段に記憶されている入力記号列
辞書に含まれている単語とが比較され、類似度スコアが
算出される。そして、かな漢字変換手段によって、算出
された類似度スコアおよび単語の接続確率に基づいた言
語モデルスコアが参照され、入力された記号列が文字列
に変換され、出力手段によって出力される。すなわち、
このかな漢字変換プログラムでは、入力された記号列を
品詞に分解して、構文解析することなく、音声認識の手
法に基づき、入力された記号列を、不特定の波形とみな
して、この波形を認識する手段が応用されている。

【００１２】

【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。（かな漢字変換装置の構
成）図１は、かな漢字変換装置の概略を説明した説明図
である。図１に示すように、かな漢字変換装置１は、複
数のトークン計算部３と、記憶部５とを備えて構成され
ている。

【００１３】このかな漢字変換装置１は、図示を省略し
たキーボード、マウス等の入力手段が使用されて、記号
列（読み仮名等）が入力された場合、音声認識に用いら
れるトークンを利用して、当該記号列をかなおよび漢字
を含んだ文字列に変換する装置である。

【００１４】なお、この実施の形態では、かな漢字変換
装置１は、一般的なコンピュータであって、その本体内
部にＣＰＵ、メインメモリ、ハードディスク等が備えら
れ、これらがデータバス等で接続されている。また、本
体外部にキーボード、マウス等（入力手段）が備えられ
ており、さらに、表示出力用のディスプレイ等が備えら
れて構成されている。

【００１５】そして、図１に示した複数のトークン計算
部３は、かな漢字変換装置１のＣＰＵ、メインメモリを
含んでなる主制御部（図示せず）に展開しているプログ
ラムであり、後記（動作例の説明）するように、入力さ
れた記号列を文字列に変換する過程において、必要に応
じて、並列的に複数個、主制御部に展開するものであ
る。

【００１６】トークン計算部３は、入力記号列データ、
例えば、ローマ字、ひらがな、単語を指定可能な記号が
入力されると、次のトークン計算部３にトークンを出力
するものである。それぞれのトークン計算部３では、類
似度スコア算出手段３ａ、スコア加算手段３ｂ、トーク
ン削除手段３ｃ、を含んで構成されている。

【００１７】なお、トークンとは、かな漢字変換におけ
る、かな漢字変換結果の候補であって、スコアと履歴
（単語の履歴）とを含んでなるものである。このかな漢
字変換装置１のかな漢字変換では、入力記号列に従っ
て、記号列に含まれると予測される単語から単語へとト
ークンが「伝達」し、履歴を持つようになる。

【００１８】類似度スコア算出手段３ａは、入力された
入力記号列データと、記憶部５に記憶されている入力記
号列辞書に含まれている単語とを比較し、これらの類似
の度合いを表す類似度スコアを算出するものである。な
お、類似度スコアは、変換後のかな漢字変換文字列が存
在する確率、入力された入力記号列データが存在する確
率、を想定した場合、変換後のかな漢字変換文字列が出
力されると仮定されたときに入力された入力記号列が得
られる確率として求められるものである。スコア加算手
段３ｂは、類似度スコア算出手段によって算出された類
似度スコアと、単語の接続確率に基づいて得られた言語
モデルスコアとを加算したトークンの全スコアを求める
ものである。

【００１９】トークン削除手段３ｃは、全てのトークン
の中で最大のスコアの値から予め決められた閾値以内に
入っていないスコアを持つトークン（ビームと呼ばれる
閾値以下のトークン）を削除するものである。

【００２０】記憶部５は、ハードディスク等によって構
成されており、入力記号列辞書と単語の接続確率を記憶
するものである。なお、入力記号列辞書は、自立語と付
属語とからなる膨大な単語を含んで構成されるデータベ
ースである。また、単語の接続確率は、予め、過去のニ
ュース原稿等を利用して求められたもので、ｎ−ｇｒａ
ｍを使用する場合には、Ｐ（ｋｎ｜ｋ１，ｋ２・・・ｋ
ｎ−１）である。

【００２１】ここで、図１のかな漢字変換装置１の図示
の仕方に関して、補足しておく。かな漢字変換装置１の
内部において、複数のトークン計算部３が複数行（３
行）に配置されており、その行に含まれるトークン計算
部３の数が異なっているのは、先頭のトークン計算部３
により、複数個の変換結果の候補（この場合３個であ
り、それゆえに３行）が想定され、さらに、トークン計
算部３から次のトークン計算部３に伝達されるトークン
に含まれるスコアによって、入力単語列データ（かな漢
字変換対象）が伝達されない場合が生じるからであり、
このことを模式的に表現したためである。

【００２２】（かな漢字変換の原理について）ここで、
入力記号列データを、かなおよび漢字を含んだ文字列
（単語列）に変換する原理について説明する。入力記号
列Ｍが入力されたときの、かな漢字変換単語列Ｋが現出
する確率値で最大となるものを、かな漢字変換単語列Ｋ
´とする。この場合、このかな漢字変換単語列Ｋ´の確
率は、かな漢字変換単語列Ｋが存在する確率Ｐ（Ｋ）、
入力単語列Ｍが存在する確率Ｐ（Ｍ）、かな漢字変換単
語列Ｋが出力されると仮定されたときに入力記号列Ｍが
得られる確率Ｐ（Ｍ｜Ｋ）とすると、Ｐ（Ｋ´｜Ｍ）＝ｍａｘ（Ｐ（Ｋ）×Ｐ（Ｍ｜Ｋ）／Ｐ
（Ｍ））と表すことができる（ベイズの定理）。

【００２３】ここで、Ｐ（Ｍ）は、すべてのかな漢字変
換単語列Ｋにおいて、変化しないので考慮する必要がな
い。Ｐ（Ｋ）はｎ−ｇｒａｍモデルを用いて、Ｐ（Ｋ）＝Ｐ（ｋ１）×Ｐ（ｋ２｜ｋ１）×Ｐ（ｋ３｜
ｋ１ｋ２）×Ｐ（ｋ４｜ｋ１ｋ２ｋ３）×・・・と記述できる。ただし、ｋ１、ｋ２、ｋ３・・・は、か
な漢字変換単語列Ｋにおける１番目の単語、２番目の単
語、３番目の単語、・・・のそれぞれを表している。

【００２４】つまり、このＰ（Ｋ）が言語スコアを表し
ている。また、Ｐ（Ｍ｜Ｋ）は、入力記号列と入力記号
列辞書に含まれる単語との比較結果である類似度スコア
を表し、Ｐ（Ｍ｜Ｋ）＝ｍａｘ｛Ｐ（ｍ１｜ｋ１）×Ｐ（ｍ２｜
ｋ２）×Ｐ（ｍ３｜ｋ３）×・・・｝と記述できる。ただし、ｍ１、ｍ２、ｍ３・・・は、入
力記号列Ｍをかな漢字変換単語列Ｋに割り振ったときの
ｋ１に対応する部分、ｋ２に対応する部分、ｋ３に対応
する部分・・・のそれぞれを表している。Ｐ（ｍ１｜ｋ
１）は、入力記号列ｍ１と単語ｋ１との類似度スコアを
表しており、この実施の形態では、Ｐ（ｍ１｜ｋ１）＝
ｍ１とｋ１とをＤＰマッチングした時の距離と定義し
た。

【００２５】なお、ｎ−ｇｒａｍとは、音声認識におい
て利用される、単語や音素間の関係の統計量に基づくモ
デルであって、単語の系列をマルコフ連鎖としてモデル
化したものである。つまり、ある単語の生起確率は、直
前の（ｎ−１）単語にのみ依存するというモデルで、ｎ
単語連鎖の統計量（出現頻度）を数え上げることにより
推定される。

【００２６】また、ＤＰマッチングとは、動的計画法
（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）を利用し
たパターンマッチング的な手法の一つであり、入力され
た記号列と入力記号列辞書に含まれている単語の標準的
なパターン（使用方法、用途例等）とをマッチングさ
せ、対応する単語間と標準的なパターンとの類似の度合
いを“距離”とみなし、この距離を入力された入力記号
列にわたって累積し、この累積距離が最小となる標準的
なパターンを出力するものである。

【００２７】（かな漢字変換装置の動作）次に、図２に
示すフローチャートを参照して、かな漢字変換装置１の
動作を説明する。まず、かな漢字変換装置１の図示を省
略した主制御部は、入力記号列があるかどうかを判断す
る（Ｓ１）。入力記号列があると判断された場合には、
トークン計算部３は、未計算のトークンがあるかどうか
を判断する（Ｓ２）。

【００２８】未計算のトークンがあると判断した場合に
は、トークン計算部３の類似度スコア算出手段３ａとス
コア加算手段３ｂとによって、入力記号列および入力記
号列辞書に含まれている単語を比較し（ＤＰマッチング
したときの距離）、類似度スコアを算出し、全スコアに
加算する（Ｓ３）。続いて、トークン削除手段３ｃによ
って、全スコアがビームと呼ばれる閾値以下のトークン
が削除され、トークン計算部３は、未計算のトークンが
なくなるまで類似度スコアの算出を続ける。

【００２９】そして、Ｓ２で未計算トークンがあると判
断されない場合（未計算トークンがないと判断された場
合）、トークン計算部３は、次のトークン計算部３に伝
達していないトークンがあるかどうかが判断される（Ｓ
４）。伝達していないトークンがあると判断された場合
には、単語末のトークンであるかどうかが判断される
（Ｓ５）。単語末のトークンであると判断されない場合
には、次のトークン計算部３にトークンが伝達される
（Ｓ６）。

【００３０】Ｓ５で、単語末のトークンであると判断さ
れた場合には、全スコアに次の単語の言語スコア（つま
り、かな漢字変換の原理のところで説明したＰ（Ｋ））
を加算し、次のトークン計算部３にトークンを伝達する
（Ｓ７）。そして、Ｓ４で、伝達していないトークンが
あると判断されない場合には、Ｓ１に戻り、入力記号列
があるかどうかが判断され、ないと判断された場合に
は、先頭のトークン計算部３によって、当該トークン計
算部３に伝達されたトークンの中で最大のスコアを持つ
単語履歴がかな漢字変換単語列として出力される（Ｓ
８）。

【００３１】（かな漢字変換装置の動作例）次に、かな
漢字変換装置１の動作例（変換例）を、図３を参照して
説明する。入力記号列として（ｋ，ｕ，ｊ，ｉ，ｄ，
ｅ，ｓ，ｕ）が順に入力された場合に「九、時、籤、で
す」の４つの単語にかな漢字変換される場合について説
明する。

【００３２】予め、各単語が文頭にくる確率値をトーク
ンのスコアにする。つまり、図３に示すように、ｋｕ
（九）が文頭にくるトークンのスコアは、−１０７であ
り、ｊｉ（時）が文頭にくるトークンのスコアは、−３
０７であり、ｋｕｊｉ（籤）が文頭にくるトークンのス
コアは、−１５７であり、ｄｅｓｕ（です）が文頭にく
るトークンのスコアは、−５０７である。

【００３３】次に、ｋが入力されると、それぞれのトー
クン計算部３の各トークンについて、類似度スコア算出
手段３ａによって、入力された入力記号列と、入力記号
列辞書に含まれている単語とに基づいて、類似度スコア
が計算される。そして、この類似度スコアが、スコア加
算手段３ｂによって、トークンの全スコアに加算され
る。このときＨＩＴであれば、類似度スコアは０とし、
ＩＮＳＥＲＴＩＯＮもしくはＤＥＬＥＴＩＯＮであれ
ば、類似度スコアは−０．７とし、ＳＵＢＳＴＩＴＵＴ
ＩＯＮであれば、類似度スコアは−１とする。全てのト
ークンについて計算した後、全てのトークンの中で最大
スコアから５００以下に入っているスコアを持つトーク
ンが、トークン削除手段３ｃによって削除される。

【００３４】単語末に達したトークンについて、全スコ
アに次の単語との言語スコアを、スコア加算手段３ｂに
よって加算して、この加算されたスコアが新しい全スコ
アとなる。これらの動作が繰り返し実行される。つま
り、生き残ったトークンについて、類似度スコアが計算
され、全スコアに加算され、この加算された全スコアが
閾値以下のトークンが消去され、単語末では言語スコア
が加算される。最後に先頭のトークン計算部３に入力記
号列が来なくなった時点（入力がなくなった時点）で単
語末に到達しているトークンの中で最大スコアを持つ単
語履歴がかな漢字変換単語列（出力単語列）として出力
される。

【００３５】この実施の形態では以下の効果を奏す。キ
ーボード等にによって、記号列が入力され、トークン計
算部３の類似度スコア算出手段３ａによって、入力され
た記号列と記憶部５に記憶されている入力記号列辞書に
含まれている単語とが比較され、類似度スコアが算出さ
れ、スコア加算手段３ｂによって、全スコアに加算され
る。そして、トークン削除手段３ｃによって、閾値以下
のトークンが削除され、算出された類似度スコアおよび
単語の接続確率に基づいた言語モデルスコアが参照さ
れ、入力された記号列がかな漢字変換単語列に変換され
る。すなわち、このかな漢字変換装置１では、入力され
た記号列を品詞に分解して、構文解析することなく、音
声認識の手法に基づき、入力された記号列を、不特定の
波形とみなして、この波形を認識する方法が応用されて
いるので、従来のかな漢字変換装置に比べ、例えば、当
該装置に記憶されている辞書に単語を付加した場合に、
この単語の品詞情報をその都度加える手間をかけること
なく、かな漢字変換が実行できる。また、たとえ品詞数
が増加しても、構文解析によらずにかな漢字変換してい
るので、変換処理速度を高速に維持することができる。

【００３６】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。例え
ば、かな漢字変換装置１で実現されている各構成の処理
を、一つずつの工程とみなしたかな漢字変換方法として
捉えることも可能である。この場合、かな漢字変換装置
１で得られた効果と同様な効果が得られる。

【００３７】また、かな漢字変換装置１における各構成
の処理を、汎用のプログラムで記述したかな漢字変換プ
ログラムとみなすことも可能である。この場合もかな漢
字変換装置１で得られる効果と同様な効果が得られる。
さらに、このプログラムを特定の記憶媒体に記憶し、流
通させることも可能である。方法でもいいし、プログラ
ムでもいい。

【００３８】

【発明の効果】以上、一実施の形態に基づいて説明した
ように、本発明は、以下に示す優れた効果を奏する。請
求項１記載の発明によれば、かな漢字変換方法におい
て、入力ステップにより、記号列が入力され、類似度ス
コア算出ステップにより、入力された記号列と入力記号
列辞書に含まれている単語とが比較され、類似度スコア
が算出され、かな漢字変換ステップにより、類似度スコ
アと言語モデルスコアが参照され、入力された記号列が
文字列に変換される。すなわち、このかな漢字変換方法
では、入力された記号列を品詞に分解して、構文解析す
ることなく、音声認識の手法に基づき、入力された記号
列を、不特定の波形とみなして、この波形を認識する方
法が応用されているので、従来のかな漢字変換方法に比
べ、例えば、単語を付加した場合に、この単語の品詞情
報をその都度加える手間をかけることなく、かな漢字変
換が実行できる。

【００３９】請求項２記載の発明によれば、かな漢字変
換装置において、入力手段によって、記号列が入力さ
れ、類似度スコア算出手段によって、入力された記号列
と記憶手段に記憶されている入力記号列辞書に含まれて
いる単語とが比較され、類似度スコアが算出され、かな
漢字変換手段によって、算出された類似度スコアおよび
単語の接続確率に基づいた言語モデルスコアが参照さ
れ、入力された記号列が文字列に変換される。すなわ
ち、このかな漢字変換装置では、入力された記号列を品
詞に分解して、構文解析することなく、音声認識の手法
に基づき、入力された記号列を、不特定の波形とみなし
て、この波形を認識する手段が応用されているので、か
な漢字変換処理において、例えば、従来のかな漢字変換
装置に比べ、単語を追加した場合に、この単語の品詞情
報をその都度加える手間をかけることなく、かな漢字変
換が実行できる。

【００４０】請求項３記載の発明によれば、かな漢字変
換プログラムにおいて、入力手段によって、記号列が入
力され、類似度スコア算出手段によって、入力された記
号列と記憶手段に記憶されている入力記号列辞書に含ま
れている単語とが比較され、類似度スコアが算出され、
かな漢字変換手段によって、算出された類似度スコアお
よび単語の接続確率に基づいた言語モデルスコアが参照
され、入力された記号列が文字列に変換される。すなわ
ち、このかな漢字変換プログラムでは、入力された記号
列を品詞に分解して、構文解析することなく、音声認識
の手法に基づき、入力された記号列を、不特定の波形と
みなして、この波形を認識する手段が応用されているの
で、従来のかな漢字変換に比べ、例えば、単語を追加し
た場合に、この単語の品詞情報をその都度加える手間を
かけることなく、かな漢字変換が実行できる。

【図面の簡単な説明】

【図１】本発明による一実施の形態であるかな漢字変換
装置の概略を説明したブロック図である。

【図２】かな漢字変換装置の動作を説明したフローチャ
ートである。

【図３】かな漢字変換装置の動作例を説明した概念図で
ある。

【符号の説明】

１かな漢字変換装置３トークン計算部３ａ類似度スコア算出手段３ｂスコア加算手段３ｃトークン削除手段５記憶手段

Claims

【特許請求の範囲】

【請求項１】入力される記号列を特定の単語に対応さ
せる入力記号列辞書と、単語間の接続確率とを利用する
かな漢字変換方法であって、入力手段を用いて、記号列を入力する入力ステップと、この入力ステップにより、入力された記号列と、前記入
力記号列辞書に含まれている単語とを比較し、これらの
類似の度合いを表す類似度スコアを算出する類似度スコ
ア算出ステップと、前記類似度スコアおよび前記単語の接続確率に基づいた
言語モデルスコアを参照して、前記入力手段によって入
力された記号列を、かなおよび漢字を含む文字列に変換
するかな漢字変換ステップと、このかな漢字変換ステップにより、変換された文字列を
出力する出力ステップと、を含んでなることを特徴とす
るかな漢字変換方法。
【請求項２】入力される記号列を特定の単語に対応さ
せる入力記号列辞書と、単語間の接続確率とを記憶する
記憶手段を有するかな漢字変換装置であって、記号列を入力する入力手段と、この入力手段によって、入力された記号列と、前記入力
記号列辞書に含まれている単語とを比較し、これらの類
似の度合いを表す類似度スコアを算出する類似度スコア
算出手段と、前記類似度スコアおよび前記単語の接続確率に基づいた
言語モデルスコアを参照して、前記入力手段によって入
力された記号列を、かなおよび漢字を含む文字列に変換
するかな漢字変換手段と、このかな漢字変換手段によって、変換された文字列を出
力する出力手段と、を備えることを特徴とするかな漢字
変換装置。
【請求項３】入力される記号列を、かなおよび漢字を
含む文字列に変換する装置を、前記記号列を入力する入力手段、この入力手段によって、入力される記号列を特定の単語
に対応させる入力記号列辞書と、単語間の接続確率とを
記憶する記憶手段、前記入力手段によって、入力された記号列と、前記入力
記号列辞書に含まれている単語とを比較し、これらの類
似の度合いを表す類似度スコアを算出する類似度スコア
算出手段、前記類似度スコアおよび前記単語の接続確率に基づいた
言語モデルスコアを参照して、前記入力手段によって入
力された記号列を、かなおよび漢字を含む文字列に変換
するかな漢字変換手段、このかな漢字変換手段によって、変換された文字列を出
力する出力手段、として機能させることを特徴とするか
な漢字変換プログラム。