JP2009093671A - かな漢字変換装置およびかな漢字変換プログラム - Google Patents
かな漢字変換装置およびかな漢字変換プログラム Download PDFInfo
- Publication number
- JP2009093671A JP2009093671A JP2008322114A JP2008322114A JP2009093671A JP 2009093671 A JP2009093671 A JP 2009093671A JP 2008322114 A JP2008322114 A JP 2008322114A JP 2008322114 A JP2008322114 A JP 2008322114A JP 2009093671 A JP2009093671 A JP 2009093671A
- Authority
- JP
- Japan
- Prior art keywords
- score
- token
- word
- kana
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【課題】かな漢字変換処理に手間をかけることなく、変換処理速度を高速に維持することができるかな漢字変換装置およびかな漢字変換プログラムを提供する。
【解決手段】かな漢字変換装置1は、入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段を有するものであって、記号列を入力する入力手段と、この入力手段によって、入力された記号列と、入力記号列辞書に含まれている単語とを比較し、これらの類似の度合いを表す類似度スコアを算出する類似度スコア算出手段3aと、類似度スコアおよび単語の接続確率に基づいた言語モデルスコアを参照して、入力手段によって入力された記号列を、かなおよび漢字を含む文字列に変換するかな漢字変換手段3cと、変換された文字列を出力する出力手段とを備えている。
【選択図】図1
【解決手段】かな漢字変換装置1は、入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段を有するものであって、記号列を入力する入力手段と、この入力手段によって、入力された記号列と、入力記号列辞書に含まれている単語とを比較し、これらの類似の度合いを表す類似度スコアを算出する類似度スコア算出手段3aと、類似度スコアおよび単語の接続確率に基づいた言語モデルスコアを参照して、入力手段によって入力された記号列を、かなおよび漢字を含む文字列に変換するかな漢字変換手段3cと、変換された文字列を出力する出力手段とを備えている。
【選択図】図1
Description
本発明は、入力された記号列を、かな漢字を含む文字列に変換するかな漢字変換装置およびかな漢字変換プログラムに関する。
一般に、キーボード等の入力装置を使って、入力される読みかな等から、かな漢字が含まれる文字列を生成するものとして、ワードプロセッサ等のかな漢字変換装置が知られている。この従来のかな漢字変換装置では、単語(自立語と付属語)を単位とする単語辞書が備えられており、入力した記号列(読み仮名等)を単語単位で解析し、品詞および各単語間の接続の可否情報(以下、構文解析という)が考慮されて、かなおよび漢字を含む文字列に変換する、かな漢字変換が行われている(例えば、特許文献1参照)。
特許文献1に記載の発明は、文字や品詞の優先度を事前に計算し、かな漢字変換候補の文章の評価によって絞り込むことで、少数の文章に対してNグラムの評価を行うことを可能とし、最適なかな漢字変換候補を選択するものである。
特許第3622841号公報
しかしながら、従来のかな漢字変換装置では、構文解析の結果に基づいて、入力された記号列(読みがな)が文字列に変換されるので、変換処理手順が膨大となって処理速度が制約されるという問題がある。また、構文解析の精度によって、入力された記号列から文字列への変換性能が影響され、新規の単語を変換させるためには、使用している単語辞書に当該新規の単語を追加すると共に、この単語の品詞情報を入力してやらなければならず、手間がかかるという問題がある。
さらに、発声された音声(例えば、ニュース等)を、従来のかな漢字変換装置を使用して、当該装置の使用者が、実時間でかな漢字を含む文字列に書き起こす場合を想定する。この場合、従来のかな漢字変換装置の構文解析では、日本語に多種類の同音異義語が存在し、自立した単語(名詞)と付属した単語(助詞)との語句間の接続が多様であるので、入力した記号列(読みがな)をかな漢字を含む文字列に速く変換できない場合があり、音声の発声に比べ、書き起こしが遅れてしまうという問題がある。
本発明の目的は前記した従来の技術が有する課題を解消し、かな漢字変換処理に手間をかけることなく、変換処理速度を高速に維持することができるかな漢字変換装置およびかな漢字変換プログラムを提供することにある。
前記目的を達成するため、請求項1記載のかな漢字変換装置は、入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段を有するかな漢字変換装置であって、前記記号列を入力する入力手段と、類似度スコア算出手段とスコア加算手段とトークン削除手段とを備え、かな漢字変換の候補であってスコアと単語履歴とを含むトークンが前記単語末の前記トークンであるかどうかを判断するトークン計算部と、を備え、前記類似度スコア算出手段は、前記入力手段によって、入力された前記記号列と、前記入力記号列辞書に含まれている単語とを比較し、動的計画法におけるマッチングをしたときの距離を前記単語の数だけ累積し、この累積した累積距離が最大となる、これらの類似の度合いを表す類似度スコアを算出し、前記スコア加算手段は、前記類似度スコア算出手段によって算出された類似度スコアと、前記単語間の接続確率に基づいて得られたn−gramモデルの言語スコアとを加算した前記トークンの全スコアを求めると共に、前記単語末に達した前記トークンについて、当該全スコアに次の単語の前記言語スコアを加算し、前記トークン削除手段は、前記スコア加算手段が求めた全ての前記トークンの中で最大の前記スコアの値から予め決められた閾値以内に入っていない前記スコアのトークンを削除し、前記トークン計算部は、前記単語末に達したトークンの中で、最大の前記スコアを持つ単語履歴をかな漢字変換単語列として出力することを特徴とする。
このかな漢字変換装置では、入力された記号列を品詞に分解して、構文解析することなく、音声認識の手法に基づき、入力された記号列を、不特定の波形とみなして、この波形を認識する手段が応用されている。
また、請求項2記載のかな漢字変換プログラムは、入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段と、前記記号列を入力する入力手段と、を備えるコンピュータを、類似度スコア算出手段とスコア加算手段とトークン削除手段とを備え、かな漢字変換の候補であってスコアと単語履歴とを含むトークンが前記単語末の前記トークンであるかどうかを判断するトークン計算部、として機能させ、前記類似度スコア算出手段は、前記入力手段によって、入力された前記記号列と、前記入力記号列辞書に含まれている単語とを比較し、動的計画法におけるマッチングをしたときの距離を前記単語の数だけ累積し、この累積した累積距離が最大となる、これらの類似の度合いを表す類似度スコアを算出し、前記スコア加算手段は、前記類似度スコア算出手段によって算出された類似度スコアと、前記単語間の接続確率に基づいて得られたn−gramモデルの言語スコアとを加算した前記トークンの全スコアを求めると共に、前記単語末に達した前記トークンについて、当該全スコアに次の単語の前記言語スコアを加算し、前記トークン削除手段は、前記スコア加算手段が求めた全ての前記トークンの中で最大の前記スコアの値から予め決められた閾値以内に入っていない前記スコアのトークンを削除し、前記トークン計算部は、前記単語末に達したトークンの中で、最大の前記スコアを持つ単語履歴をかな漢字変換単語列として出力することを特徴とする。
本発明は、以下に示す優れた効果を奏する。
請求項1、2記載の発明によれば、入力された記号列を品詞に分解して、構文解析することがないので、かな漢字変換処理において、例えば、従来のかな漢字変換装置に比べ、単語を追加した場合に、この単語の品詞情報をその都度加える手間をかけることなく、かな漢字変換が実行できる。
請求項1、2記載の発明によれば、入力された記号列を品詞に分解して、構文解析することがないので、かな漢字変換処理において、例えば、従来のかな漢字変換装置に比べ、単語を追加した場合に、この単語の品詞情報をその都度加える手間をかけることなく、かな漢字変換が実行できる。
以下、本発明の一実施形態を図面に基づいて詳細に説明する。
(かな漢字変換装置の構成)
図1は、かな漢字変換装置の概略を説明した説明図である。図1に示すように、かな漢字変換装置1は、複数のトークン計算部3と、記憶部5とを備えて構成されている。
(かな漢字変換装置の構成)
図1は、かな漢字変換装置の概略を説明した説明図である。図1に示すように、かな漢字変換装置1は、複数のトークン計算部3と、記憶部5とを備えて構成されている。
このかな漢字変換装置1は、図示を省略したキーボード、マウス等の入力手段が使用されて、記号列(読み仮名等)が入力された場合、音声認識に用いられるトークンを利用して、当該記号列をかなおよび漢字を含んだ文字列に変換する装置である。
なお、この実施の形態では、かな漢字変換装置1は、一般的なコンピュータであって、その本体内部にCPU、メインメモリ、ハードディスク等が備えられ、これらがデータバス等で接続されている。また、本体外部にキーボード、マウス等(入力手段)が備えられており、さらに、表示出力用のディスプレイ等が備えられて構成されている。
そして、図1に示した複数のトークン計算部3は、かな漢字変換装置1のCPU、メインメモリを含んでなる主制御部(図示せず)に展開しているプログラムであり、後記(動作例の説明)するように、入力された記号列を文字列に変換する過程において、必要に応じて、並列的に複数個、主制御部に展開するものである。
トークン計算部3は、入力記号列データ、例えば、ローマ字、ひらがな、単語を指定可能な記号が入力されると、次のトークン計算部3にトークンを出力するものである。それぞれのトークン計算部3では、類似度スコア算出手段3a、スコア加算手段3b、トークン削除手段3c、を含んで構成されている。
なお、トークンとは、かな漢字変換における、かな漢字変換結果の候補であって、スコアと履歴(単語の履歴)とを含んでなるものである。このかな漢字変換装置1のかな漢字変換では、入力記号列に従って、記号列に含まれると予測される単語から単語へとトークンが「伝達」し、履歴を持つようになる。
類似度スコア算出手段3aは、入力された入力記号列データと、記憶部5に記憶されている入力記号列辞書に含まれている単語とを比較し、これらの類似の度合いを表す類似度スコアを算出するものである。なお、類似度スコアは、変換後のかな漢字変換文字列が存在する確率、入力された入力記号列データが存在する確率、を想定した場合、変換後のかな漢字変換文字列が出力されると仮定されたときに入力された入力記号列が得られる確率として求められるものである。
スコア加算手段3bは、類似度スコア算出手段によって算出された類似度スコアと、単語の接続確率に基づいて得られた言語モデルスコアとを加算したトークンの全スコアを求めるものである。
トークン削除手段3cは、全てのトークンの中で最大のスコアの値から予め決められた閾値以内に入っていないスコアを持つトークン(ビームと呼ばれる閾値以下のトークン)を削除するものである。
記憶部5は、ハードディスク等によって構成されており、入力記号列辞書と単語の接続確率を記憶するものである。なお、入力記号列辞書は、自立語と付属語とからなる膨大な単語を含んで構成されるデータベースである。また、単語の接続確率は、予め、過去のニュース原稿等を利用して求められたもので、n−gramを使用する場合には、P(kn|k1,k2・・・kn−1)である。
ここで、図1のかな漢字変換装置1の図示の仕方に関して、補足しておく。かな漢字変換装置1の内部において、複数のトークン計算部3が複数行(3行)に配置されており、その行に含まれるトークン計算部3の数が異なっているのは、先頭のトークン計算部3により、複数個の変換結果の候補(この場合3個であり、それゆえに3行)が想定され、さらに、トークン計算部3から次のトークン計算部3に伝達されるトークンに含まれるスコアによって、入力単語列データ(かな漢字変換対象)が伝達されない場合が生じるからであり、このことを模式的に表現したためである。
(かな漢字変換の原理について)
ここで、入力記号列データを、かなおよび漢字を含んだ文字列(単語列)に変換する原理について説明する。
入力記号列Mが入力されたときの、かな漢字変換単語列Kが現出する確率値で最大となるものを、かな漢字変換単語列K´とする。この場合、このかな漢字変換単語列K´の確率は、かな漢字変換単語列Kが存在する確率P(K)、入力単語列Mが存在する確率P(M)、かな漢字変換単語列Kが出力されると仮定されたときに入力記号列Mが得られる確率P(M|K)とすると、
P(K´|M)=max(P(K)×P(M|K)/P(M))
と表すことができる(ベイズの定理)。
ここで、入力記号列データを、かなおよび漢字を含んだ文字列(単語列)に変換する原理について説明する。
入力記号列Mが入力されたときの、かな漢字変換単語列Kが現出する確率値で最大となるものを、かな漢字変換単語列K´とする。この場合、このかな漢字変換単語列K´の確率は、かな漢字変換単語列Kが存在する確率P(K)、入力単語列Mが存在する確率P(M)、かな漢字変換単語列Kが出力されると仮定されたときに入力記号列Mが得られる確率P(M|K)とすると、
P(K´|M)=max(P(K)×P(M|K)/P(M))
と表すことができる(ベイズの定理)。
ここで、P(M)は、すべてのかな漢字変換単語列Kにおいて、変化しないので考慮する必要がない。P(K)はn−gramモデルを用いて、
P(K)=P(k1)×P(k2|k1)×P(k3|k1 k2)
×P(k4|k1 k2 k3)×・・・
と記述できる。ただし、k1、k2、k3・・・は、かな漢字変換単語列Kにおける1番目の単語、2番目の単語、3番目の単語、・・・のそれぞれを表している。
P(K)=P(k1)×P(k2|k1)×P(k3|k1 k2)
×P(k4|k1 k2 k3)×・・・
と記述できる。ただし、k1、k2、k3・・・は、かな漢字変換単語列Kにおける1番目の単語、2番目の単語、3番目の単語、・・・のそれぞれを表している。
つまり、このP(K)が言語スコアを表している。また、P(M|K)は、入力記号列と入力記号列辞書に含まれる単語との比較結果である類似度スコアを表し、
P(M|K)=max{P(m1|k1)×P(m2|k2)×P(m3|k3
)
×・・・}
と記述できる。ただし、m1、m2、m3・・・は、入力記号列Mをかな漢字変換単語列Kに割り振ったときのk1に対応する部分、k2に対応する部分、k3に対応する部分・・・のそれぞれを表している。P(m1|k1)は、入力記号列m1と単語k1との類似度スコアを表しており、この実施の形態では、P(m1|k1)=m1とk1とをDPマッチングした時の距離と定義した。
P(M|K)=max{P(m1|k1)×P(m2|k2)×P(m3|k3
)
×・・・}
と記述できる。ただし、m1、m2、m3・・・は、入力記号列Mをかな漢字変換単語列Kに割り振ったときのk1に対応する部分、k2に対応する部分、k3に対応する部分・・・のそれぞれを表している。P(m1|k1)は、入力記号列m1と単語k1との類似度スコアを表しており、この実施の形態では、P(m1|k1)=m1とk1とをDPマッチングした時の距離と定義した。
なお、n−gramとは、音声認識において利用される、単語や音素間の関係の統計量に基づくモデルであって、単語の系列をマルコフ連鎖としてモデル化したものである。つまり、ある単語の生起確率は、直前の(n−1)単語にのみ依存するというモデルで、n単語連鎖の統計量(出現頻度)を数え上げることにより推定される。
また、DPマッチングとは、動的計画法(Dynamic Programming)を利用したパターンマッチング的な手法の一つであり、入力された記号列と入力記号列辞書に含まれている単語の標準的なパターン(使用方法、用途例等)とをマッチングさせ、対応する単語間と標準的なパターンとの類似の度合いを“距離”とみなし、この距離を入力された入力記号列にわたって累積し、この累積距離が最小となる標準的なパターンを出力するものである。
(かな漢字変換装置の動作)
次に、図2に示すフローチャートを参照して、かな漢字変換装置1の動作を説明する。
まず、かな漢字変換装置1の図示を省略した主制御部は、入力記号列があるかどうかを判断する(S1)。入力記号列があると判断された場合には、トークン計算部3は、未計算のトークンがあるかどうかを判断する(S2)。
次に、図2に示すフローチャートを参照して、かな漢字変換装置1の動作を説明する。
まず、かな漢字変換装置1の図示を省略した主制御部は、入力記号列があるかどうかを判断する(S1)。入力記号列があると判断された場合には、トークン計算部3は、未計算のトークンがあるかどうかを判断する(S2)。
未計算のトークンがあると判断した場合には、トークン計算部3の類似度スコア算出手段3aとスコア加算手段3bとによって、入力記号列および入力記号列辞書に含まれている単語を比較し(DPマッチングしたときの距離)、類似度スコアを算出し、全スコアに加算する(S3)。続いて、トークン削除手段3cによって、全スコアがビームと呼ばれる閾値以下のトークンが削除され、トークン計算部3は、未計算のトークンがなくなるまで類似度スコアの算出を続ける。
そして、S2で未計算トークンがあると判断されない場合(未計算トークンがないと判断された場合)、トークン計算部3は、次のトークン計算部3に伝達していないトークンがあるかどうかが判断される(S4)。伝達していないトークンがあると判断された場合には、単語末のトークンであるかどうかが判断される(S5)。単語末のトークンであると判断されない場合には、次のトークン計算部3にトークンが伝達される(S6)。
S5で、単語末のトークンであると判断された場合には、全スコアに次の単語の言語スコア(つまり、かな漢字変換の原理のところで説明したP(K))を加算し、次のトークン計算部3にトークンを伝達する(S7)。
そして、S4で、伝達していないトークンがあると判断されない場合には、S1に戻り、入力記号列があるかどうかが判断され、ないと判断された場合には、先頭のトークン計算部3によって、当該トークン計算部3に伝達されたトークンの中で最大のスコアを持つ単語履歴がかな漢字変換単語列として出力される(S8)。
そして、S4で、伝達していないトークンがあると判断されない場合には、S1に戻り、入力記号列があるかどうかが判断され、ないと判断された場合には、先頭のトークン計算部3によって、当該トークン計算部3に伝達されたトークンの中で最大のスコアを持つ単語履歴がかな漢字変換単語列として出力される(S8)。
(かな漢字変換装置の動作例)
次に、かな漢字変換装置1の動作例(変換例)を、図3を参照して説明する。
入力記号列として(k,u,j,i,d,e,s,u)が順に入力された場合に「九、時、籤、です」の4つの単語にかな漢字変換される場合について説明する。
次に、かな漢字変換装置1の動作例(変換例)を、図3を参照して説明する。
入力記号列として(k,u,j,i,d,e,s,u)が順に入力された場合に「九、時、籤、です」の4つの単語にかな漢字変換される場合について説明する。
予め、各単語が文頭にくる確率値をトークンのスコアにする。つまり、図3に示すように、ku(九)が文頭にくるトークンのスコアは、−107であり、ji(時)が文頭にくるトークンのスコアは、−307であり、kuji(籤)が文頭にくるトークンのスコアは、−157であり、desu(です)が文頭にくるトークンのスコアは、−507である。
次に、kが入力されると、それぞれのトークン計算部3の各トークンについて、類似度スコア算出手段3aによって、入力された入力記号列と、入力記号列辞書に含まれている単語とに基づいて、類似度スコアが計算される。そして、この類似度スコアが、スコア加算手段3bによって、トークンの全スコアに加算される。
このときHITであれば、類似度スコアは0とし、INSERTIONもしくはDELETIONであれば、類似度スコアは−0.7とし、SUBSTITUTIONであれば、類似度スコアは−1とする。全てのトークンについて計算した後、全てのトークンの中で最大スコアから500以下に入っているスコアを持つトークンが、トークン削除手段3cによって削除される。
単語末に達したトークンについて、全スコアに次の単語との言語スコアを、スコア加算手段3bによって加算して、この加算されたスコアが新しい全スコアとなる。
これらの動作が繰り返し実行される。つまり、生き残ったトークンについて、類似度スコアが計算され、全スコアに加算され、この加算された全スコアが閾値以下のトークンが消去され、単語末では言語スコアが加算される。最後に先頭のトークン計算部3に入力記号列が来なくなった時点(入力がなくなった時点)で単語末に到達しているトークンの中で最大スコアを持つ単語履歴がかな漢字変換単語列(出力単語列)として出力される。
これらの動作が繰り返し実行される。つまり、生き残ったトークンについて、類似度スコアが計算され、全スコアに加算され、この加算された全スコアが閾値以下のトークンが消去され、単語末では言語スコアが加算される。最後に先頭のトークン計算部3に入力記号列が来なくなった時点(入力がなくなった時点)で単語末に到達しているトークンの中で最大スコアを持つ単語履歴がかな漢字変換単語列(出力単語列)として出力される。
この実施の形態では以下の効果を奏す。
キーボード等によって、記号列が入力され、トークン計算部3の類似度スコア算出手段3aによって、入力された記号列と記憶部5に記憶されている入力記号列辞書に含まれている単語とが比較され、類似度スコアが算出され、スコア加算手段3bによって、全スコアに加算される。そして、トークン削除手段3cによって、閾値以下のトークンが削除され、算出された類似度スコアおよび単語の接続確率に基づいた言語モデルスコアが参照され、入力された記号列がかな漢字変換単語列に変換される。
キーボード等によって、記号列が入力され、トークン計算部3の類似度スコア算出手段3aによって、入力された記号列と記憶部5に記憶されている入力記号列辞書に含まれている単語とが比較され、類似度スコアが算出され、スコア加算手段3bによって、全スコアに加算される。そして、トークン削除手段3cによって、閾値以下のトークンが削除され、算出された類似度スコアおよび単語の接続確率に基づいた言語モデルスコアが参照され、入力された記号列がかな漢字変換単語列に変換される。
すなわち、このかな漢字変換装置1では、入力された記号列を品詞に分解して、構文解析することなく、音声認識の手法に基づき、入力された記号列を、不特定の波形とみなして、この波形を認識する方法が応用されているので、従来のかな漢字変換装置に比べ、例えば、当該装置に記憶されている辞書に単語を付加した場合に、この単語の品詞情報をその都度加える手間をかけることなく、かな漢字変換が実行できる。また、たとえ品詞数が増加しても、構文解析によらずにかな漢字変換しているので、変換処理速度を高速に維持することができる。
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
また、かな漢字変換装置1における各構成の処理を、汎用のプログラムで記述したかな漢字変換プログラムとみなすことも可能である。この場合もかな漢字変換装置1で得られる効果と同様な効果が得られる。さらに、このプログラムを特定の記憶媒体に記憶し、流通させることも可能である。方法でもいいし、プログラムでもいい。
また、かな漢字変換装置1における各構成の処理を、汎用のプログラムで記述したかな漢字変換プログラムとみなすことも可能である。この場合もかな漢字変換装置1で得られる効果と同様な効果が得られる。さらに、このプログラムを特定の記憶媒体に記憶し、流通させることも可能である。方法でもいいし、プログラムでもいい。
1 かな漢字変換装置
3 トークン計算部
3a 類似度スコア算出手段
3b スコア加算手段
3c トークン削除手段
5 記憶手段
3 トークン計算部
3a 類似度スコア算出手段
3b スコア加算手段
3c トークン削除手段
5 記憶手段
Claims (2)
- 入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段を有するかな漢字変換装置であって、
前記記号列を入力する入力手段と、
類似度スコア算出手段とスコア加算手段とトークン削除手段とを備え、かな漢字変換の候補であってスコアと単語履歴とを含むトークンが前記単語末の前記トークンであるかどうかを判断するトークン計算部と、を備え、
前記類似度スコア算出手段は、前記入力手段によって、入力された前記記号列と、前記入力記号列辞書に含まれている単語とを比較し、動的計画法におけるマッチングをしたときの距離を前記単語の数だけ累積し、この累積した累積距離が最大となる、これらの類似の度合いを表す類似度スコアを算出し、
前記スコア加算手段は、前記類似度スコア算出手段によって算出された類似度スコアと、前記単語間の接続確率に基づいて得られたn−gramモデルの言語スコアとを加算した前記トークンの全スコアを求めると共に、前記単語末に達した前記トークンについて、当該全スコアに次の単語の前記言語スコアを加算し、
前記トークン削除手段は、前記スコア加算手段が求めた全ての前記トークンの中で最大の前記スコアの値から予め決められた閾値以内に入っていない前記スコアのトークンを削除し、
前記トークン計算部は、前記単語末に達したトークンの中で、最大の前記スコアを持つ単語履歴をかな漢字変換単語列として出力することを特徴とするかな漢字変換装置。 - 入力される記号列を特定の単語に対応させる入力記号列辞書と、単語間の接続確率とを記憶する記憶手段と、前記記号列を入力する入力手段と、を備えるコンピュータを、
類似度スコア算出手段とスコア加算手段とトークン削除手段とを備え、かな漢字変換の候補であってスコアと単語履歴とを含むトークンが前記単語末の前記トークンであるかどうかを判断するトークン計算部、として機能させ、
前記類似度スコア算出手段は、前記入力手段によって、入力された前記記号列と、前記入力記号列辞書に含まれている単語とを比較し、動的計画法におけるマッチングをしたときの距離を前記単語の数だけ累積し、この累積した累積距離が最大となる、これらの類似の度合いを表す類似度スコアを算出し、
前記スコア加算手段は、前記類似度スコア算出手段によって算出された類似度スコアと、前記単語間の接続確率に基づいて得られたn−gramモデルの言語スコアとを加算した前記トークンの全スコアを求めると共に、前記単語末に達した前記トークンについて、当該全スコアに次の単語の前記言語スコアを加算し、
前記トークン削除手段は、前記スコア加算手段が求めた全ての前記トークンの中で最大の前記スコアの値から予め決められた閾値以内に入っていない前記スコアのトークンを削除し、
前記トークン計算部は、前記単語末に達したトークンの中で、最大の前記スコアを持つ単語履歴をかな漢字変換単語列として出力することを特徴とするかな漢字変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008322114A JP4769286B2 (ja) | 2008-12-18 | 2008-12-18 | かな漢字変換装置およびかな漢字変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008322114A JP4769286B2 (ja) | 2008-12-18 | 2008-12-18 | かな漢字変換装置およびかな漢字変換プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001304040A Division JP2003108545A (ja) | 2001-09-28 | 2001-09-28 | かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009093671A true JP2009093671A (ja) | 2009-04-30 |
JP4769286B2 JP4769286B2 (ja) | 2011-09-07 |
Family
ID=40665524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008322114A Expired - Fee Related JP4769286B2 (ja) | 2008-12-18 | 2008-12-18 | かな漢字変換装置およびかな漢字変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4769286B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118780A (ja) * | 2009-12-04 | 2011-06-16 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
JP2011210149A (ja) * | 2010-03-30 | 2011-10-20 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0261700A (ja) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | 音声認識装置 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
-
2008
- 2008-12-18 JP JP2008322114A patent/JP4769286B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0261700A (ja) * | 1988-08-27 | 1990-03-01 | Brother Ind Ltd | 音声認識装置 |
JP2001236089A (ja) * | 1999-12-17 | 2001-08-31 | Atr Interpreting Telecommunications Res Lab | 統計的言語モデル生成装置、音声認識装置、情報検索処理装置及びかな漢字変換装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118780A (ja) * | 2009-12-04 | 2011-06-16 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
JP2011210149A (ja) * | 2010-03-30 | 2011-10-20 | Baidu Japan Inc | 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4769286B2 (ja) | 2011-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abandah et al. | Automatic diacritization of Arabic text using recurrent neural networks | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP4249538B2 (ja) | 表意文字言語のマルチモーダル入力 | |
JP6245846B2 (ja) | 音声認識における読み精度を改善するシステム、方法、およびプログラム | |
US9990919B2 (en) | Methods and apparatus for joint stochastic and deterministic dictation formatting | |
US20110218796A1 (en) | Transliteration using indicator and hybrid generative features | |
Kirchhoff et al. | Novel speech recognition models for Arabic | |
EP2950306A1 (en) | A method and system for building a language model | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Silfverberg et al. | Data-driven spelling correction using weighted finite-state methods | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
Li et al. | Asr2k: Speech recognition for around 2000 languages without audio | |
Naptali et al. | Topic-Dependent-Class-Based $ n $-Gram Language Model | |
JP5231484B2 (ja) | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 | |
JP4820240B2 (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
JP4653598B2 (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
JP4769286B2 (ja) | かな漢字変換装置およびかな漢字変換プログラム | |
JP6001944B2 (ja) | 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP2004184951A (ja) | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム | |
Cissé et al. | Automatic Spell Checker and Correction for Under-represented Spoken Languages: Case Study on Wolof | |
KR20120042381A (ko) | 음성인식 문장의 문형식별 장치 및 방법 | |
Saychum et al. | Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140624 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |