JP2003108545A - かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム - Google Patents

かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Info

Publication number
JP2003108545A
JP2003108545A JP2001304040A JP2001304040A JP2003108545A JP 2003108545 A JP2003108545 A JP 2003108545A JP 2001304040 A JP2001304040 A JP 2001304040A JP 2001304040 A JP2001304040 A JP 2001304040A JP 2003108545 A JP2003108545 A JP 2003108545A
Authority
JP
Japan
Prior art keywords
kana
input
symbol string
kanji conversion
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001304040A
Other languages
English (en)
Inventor
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2001304040A priority Critical patent/JP2003108545A/ja
Publication of JP2003108545A publication Critical patent/JP2003108545A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 かな漢字変換処理に手間をかけることなく、
変換処理速度を高速に維持することができるかな漢字変
換方法およびかな漢字変換装置ならびにかな漢字変換プ
ログラムを提供する。 【解決手段】 かな漢字変換装置1は、入力される記号
列を特定の単語に対応させる入力記号列辞書と、単語間
の接続確率とを記憶する記憶手段を有するものであっ
て、記号列を入力する入力手段と、この入力手段によっ
て、入力された記号列と、入力記号列辞書に含まれてい
る単語とを比較し、これらの類似の度合いを表す類似度
スコアを算出する類似度スコア算出手段3aと、類似度
スコアおよび単語の接続確率に基づいた言語モデルスコ
アを参照して、入力手段によって入力された記号列を、
かなおよび漢字を含む文字列に変換するかな漢字変換手
段3cと、変換された文字列を出力する出力手段とを備
えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力された記号列
を、かな漢字を含む文字列に変換するかな漢字変換方法
およびかな漢字変換装置ならびにかな漢字変換プログラ
ムに関する。
【0002】
【従来の技術】一般に、キーボード等の入力装置を使っ
て、入力される読みかな等から、かな漢字が含まれる文
字列を生成するものとして、ワードプロセッサ等のかな
漢字変換装置が知られている。この従来のかな漢字変換
装置では、単語(自立語と付属語)を単位とする単語辞
書が備えられており、入力した記号列(読み仮名等)を
単語単位で解析し、品詞および各単語間の接続の可否情
報(以下、構文解析という)が考慮されて、かなおよび
漢字を含む文字列に変換する、かな漢字変換が行われて
いる。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
かな漢字変換装置では、構文解析の結果に基づいて、入
力された記号列(読みがな)が文字列に変換されるの
で、変換処理手順が膨大となって処理速度が制約される
という問題がある。また、構文解析の精度によって、入
力された記号列から文字列への変換性能が影響され、新
規の単語を変換させるためには、使用している単語辞書
に当該新規の単語を追加すると共に、この単語の品詞情
報を入力してやらなければならず、手間がかかるという
問題がある。
【0004】さらに、発声された音声(例えば、ニュー
ス等)を、従来のかな漢字変換装置を使用して、当該装
置の使用者が、実時間でかな漢字を含む文字列に書き起
こす場合を想定する。この場合、従来のかな漢字変換装
置の構文解析では、日本語に多種類の同音異義語が存在
し、自立した単語(名詞)と付属した単語(助詞)との
語句間の接続が多様であるので、入力した記号列(読み
がな)をかな漢字を含む文字列に速く変換できない場合
があり、音声の発声に比べ、書き起こしが遅れてしまう
という問題がある。
【0005】本発明の目的は前記した従来の技術が有す
る課題を解消し、かな漢字変換処理に手間をかけること
なく、変換処理速度を高速に維持することができるかな
漢字変換方法およびかな漢字変換装置ならびにかな漢字
変換プログラムを提供することにある。
【0006】
【課題を解決するための手段】前記目的を達成するた
め、請求項1記載のかな漢字変換方法は、入力される記
号列を特定の単語に対応させる入力記号列辞書と、単語
間の接続確率とを利用するかな漢字変換方法であって、
入力手段を用いて、記号列を入力する入力ステップと、
この入力ステップにより、入力された記号列と、前記入
力記号列辞書に含まれている単語とを比較し、これらの
類似の度合いを表す類似度スコアを算出する類似度スコ
ア算出ステップと、前記類似度スコアおよび前記単語の
接続確率に基づいた言語モデルスコアを参照して、前記
入力手段によって入力された記号列を、かなおよび漢字
を含む文字列に変換するかな漢字変換ステップと、この
かな漢字変換ステップにより、変換された文字列を出力
する出力ステップと、を含んでなることを特徴とする。
【0007】この方法では、入力ステップにより、記号
列が入力され、類似度スコア算出ステップにより、入力
された記号列と入力記号列辞書に含まれている単語とが
比較され、類似度スコアが算出される。なお、類似度ス
コアは、変換後の文字列が存在する確率、入力された記
号列が存在する確率、を想定した場合、変換後の文字列
が出力されると仮定されたときに入力された記号列が得
られる確率として求められるものである。そして、かな
漢字変換ステップにより、類似度スコアと言語モデルス
コアが参照され、入力された記号列が文字列に変換さ
れ、出力ステップにより出力される。すなわち、このか
な漢字変換方法では、入力された記号列を品詞に分解し
て、構文解析することなく、音声認識の手法に基づき、
入力された記号列を、不特定の波形とみなして、この波
形を認識する方法が応用されている。
【0008】また、請求項2記載のかな漢字変換装置
は、入力される記号列を特定の単語に対応させる入力記
号列辞書と、単語間の接続確率とを記憶する記憶手段を
有するかな漢字変換装置であって、記号列を入力する入
力手段と、この入力手段によって、入力された記号列
と、前記入力記号列辞書に含まれている単語とを比較
し、これらの類似の度合いを表す類似度スコアを算出す
る類似度スコア算出手段と、前記類似度スコアおよび前
記単語の接続確率に基づいた言語モデルスコアを参照し
て、前記入力手段によって入力された記号列を、かなお
よび漢字を含む文字列に変換するかな漢字変換手段と、
このかな漢字変換手段によって、変換された文字列を出
力する出力手段と、を備えることを特徴とする。
【0009】かかる構成によれば、入力手段によって、
記号列が入力されると、類似度スコア算出手段によっ
て、入力された記号列と記憶手段に記憶されている入力
記号列辞書に含まれている単語とが比較され、類似度ス
コアが算出される。そして、かな漢字変換手段によっ
て、算出された類似度スコアおよび単語の接続確率に基
づいた言語モデルスコアが参照され、入力された記号列
が文字列に変換され、出力手段によって出力される。す
なわち、このかな漢字変換装置では、入力された記号列
を品詞に分解して、構文解析することなく、音声認識の
手法に基づき、入力された記号列を、不特定の波形とみ
なして、この波形を認識する手段が応用されている。
【0010】また、請求項3記載のかな漢字変換プログ
ラムは、入力される記号列を、かなおよび漢字を含む文
字列に変換する装置を以下に記す手段により機能させる
ものである。すなわち、各手段は、前記記号列を入力す
る入力手段、この入力手段によって、入力される記号列
を特定の単語に対応させる入力記号列辞書と、単語間の
接続確率とを記憶する記憶手段、前記入力手段によっ
て、入力された記号列と、前記入力記号列辞書に含まれ
ている単語とを比較し、これらの類似の度合いを表す類
似度スコアを算出する類似度スコア算出手段、前記類似
度スコアおよび前記単語の接続確率に基づいた言語モデ
ルスコアを参照して、前記入力手段によって入力された
記号列を、かなおよび漢字を含む文字列に変換するかな
漢字変換手段、このかな漢字変換手段によって、変換さ
れた文字列を出力する出力手段である。
【0011】かかる構成によれば、入力手段によって、
記号列が入力され、類似度スコア算出手段によって、入
力された記号列と記憶手段に記憶されている入力記号列
辞書に含まれている単語とが比較され、類似度スコアが
算出される。そして、かな漢字変換手段によって、算出
された類似度スコアおよび単語の接続確率に基づいた言
語モデルスコアが参照され、入力された記号列が文字列
に変換され、出力手段によって出力される。すなわち、
このかな漢字変換プログラムでは、入力された記号列を
品詞に分解して、構文解析することなく、音声認識の手
法に基づき、入力された記号列を、不特定の波形とみな
して、この波形を認識する手段が応用されている。
【0012】
【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。(かな漢字変換装置の構
成)図1は、かな漢字変換装置の概略を説明した説明図
である。図1に示すように、かな漢字変換装置1は、複
数のトークン計算部3と、記憶部5とを備えて構成され
ている。
【0013】このかな漢字変換装置1は、図示を省略し
たキーボード、マウス等の入力手段が使用されて、記号
列(読み仮名等)が入力された場合、音声認識に用いら
れるトークンを利用して、当該記号列をかなおよび漢字
を含んだ文字列に変換する装置である。
【0014】なお、この実施の形態では、かな漢字変換
装置1は、一般的なコンピュータであって、その本体内
部にCPU、メインメモリ、ハードディスク等が備えら
れ、これらがデータバス等で接続されている。また、本
体外部にキーボード、マウス等(入力手段)が備えられ
ており、さらに、表示出力用のディスプレイ等が備えら
れて構成されている。
【0015】そして、図1に示した複数のトークン計算
部3は、かな漢字変換装置1のCPU、メインメモリを
含んでなる主制御部(図示せず)に展開しているプログ
ラムであり、後記(動作例の説明)するように、入力さ
れた記号列を文字列に変換する過程において、必要に応
じて、並列的に複数個、主制御部に展開するものであ
る。
【0016】トークン計算部3は、入力記号列データ、
例えば、ローマ字、ひらがな、単語を指定可能な記号が
入力されると、次のトークン計算部3にトークンを出力
するものである。それぞれのトークン計算部3では、類
似度スコア算出手段3a、スコア加算手段3b、トーク
ン削除手段3c、を含んで構成されている。
【0017】なお、トークンとは、かな漢字変換におけ
る、かな漢字変換結果の候補であって、スコアと履歴
(単語の履歴)とを含んでなるものである。このかな漢
字変換装置1のかな漢字変換では、入力記号列に従っ
て、記号列に含まれると予測される単語から単語へとト
ークンが「伝達」し、履歴を持つようになる。
【0018】類似度スコア算出手段3aは、入力された
入力記号列データと、記憶部5に記憶されている入力記
号列辞書に含まれている単語とを比較し、これらの類似
の度合いを表す類似度スコアを算出するものである。な
お、類似度スコアは、変換後のかな漢字変換文字列が存
在する確率、入力された入力記号列データが存在する確
率、を想定した場合、変換後のかな漢字変換文字列が出
力されると仮定されたときに入力された入力記号列が得
られる確率として求められるものである。スコア加算手
段3bは、類似度スコア算出手段によって算出された類
似度スコアと、単語の接続確率に基づいて得られた言語
モデルスコアとを加算したトークンの全スコアを求める
ものである。
【0019】トークン削除手段3cは、全てのトークン
の中で最大のスコアの値から予め決められた閾値以内に
入っていないスコアを持つトークン(ビームと呼ばれる
閾値以下のトークン)を削除するものである。
【0020】記憶部5は、ハードディスク等によって構
成されており、入力記号列辞書と単語の接続確率を記憶
するものである。なお、入力記号列辞書は、自立語と付
属語とからなる膨大な単語を含んで構成されるデータベ
ースである。また、単語の接続確率は、予め、過去のニ
ュース原稿等を利用して求められたもので、n−gra
mを使用する場合には、P(kn|k1,k2・・・k
n−1)である。
【0021】ここで、図1のかな漢字変換装置1の図示
の仕方に関して、補足しておく。かな漢字変換装置1の
内部において、複数のトークン計算部3が複数行(3
行)に配置されており、その行に含まれるトークン計算
部3の数が異なっているのは、先頭のトークン計算部3
により、複数個の変換結果の候補(この場合3個であ
り、それゆえに3行)が想定され、さらに、トークン計
算部3から次のトークン計算部3に伝達されるトークン
に含まれるスコアによって、入力単語列データ(かな漢
字変換対象)が伝達されない場合が生じるからであり、
このことを模式的に表現したためである。
【0022】(かな漢字変換の原理について)ここで、
入力記号列データを、かなおよび漢字を含んだ文字列
(単語列)に変換する原理について説明する。入力記号
列Mが入力されたときの、かな漢字変換単語列Kが現出
する確率値で最大となるものを、かな漢字変換単語列K
´とする。この場合、このかな漢字変換単語列K´の確
率は、かな漢字変換単語列Kが存在する確率P(K)、
入力単語列Mが存在する確率P(M)、かな漢字変換単
語列Kが出力されると仮定されたときに入力記号列Mが
得られる確率P(M|K)とすると、 P(K´|M)=max(P(K)×P(M|K)/P
(M)) と表すことができる(ベイズの定理)。
【0023】ここで、P(M)は、すべてのかな漢字変
換単語列Kにおいて、変化しないので考慮する必要がな
い。P(K)はn−gramモデルを用いて、 P(K)=P(k1)×P(k2|k1)×P(k3|
k1 k2)×P(k4|k1 k2 k3)×・・・ と記述できる。ただし、k1、k2、k3・・・は、か
な漢字変換単語列Kにおける1番目の単語、2番目の単
語、3番目の単語、・・・のそれぞれを表している。
【0024】つまり、このP(K)が言語スコアを表し
ている。また、P(M|K)は、入力記号列と入力記号
列辞書に含まれる単語との比較結果である類似度スコア
を表し、 P(M|K)=max{P(m1|k1)×P(m2|
k2)×P(m3|k3)×・・・} と記述できる。ただし、m1、m2、m3・・・は、入
力記号列Mをかな漢字変換単語列Kに割り振ったときの
k1に対応する部分、k2に対応する部分、k3に対応
する部分・・・のそれぞれを表している。P(m1|k
1)は、入力記号列m1と単語k1との類似度スコアを
表しており、この実施の形態では、P(m1|k1)=
m1とk1とをDPマッチングした時の距離と定義し
た。
【0025】なお、n−gramとは、音声認識におい
て利用される、単語や音素間の関係の統計量に基づくモ
デルであって、単語の系列をマルコフ連鎖としてモデル
化したものである。つまり、ある単語の生起確率は、直
前の(n−1)単語にのみ依存するというモデルで、n
単語連鎖の統計量(出現頻度)を数え上げることにより
推定される。
【0026】また、DPマッチングとは、動的計画法
(Dynamic Programming)を利用し
たパターンマッチング的な手法の一つであり、入力され
た記号列と入力記号列辞書に含まれている単語の標準的
なパターン(使用方法、用途例等)とをマッチングさ
せ、対応する単語間と標準的なパターンとの類似の度合
いを“距離”とみなし、この距離を入力された入力記号
列にわたって累積し、この累積距離が最小となる標準的
なパターンを出力するものである。
【0027】(かな漢字変換装置の動作)次に、図2に
示すフローチャートを参照して、かな漢字変換装置1の
動作を説明する。まず、かな漢字変換装置1の図示を省
略した主制御部は、入力記号列があるかどうかを判断す
る(S1)。入力記号列があると判断された場合には、
トークン計算部3は、未計算のトークンがあるかどうか
を判断する(S2)。
【0028】未計算のトークンがあると判断した場合に
は、トークン計算部3の類似度スコア算出手段3aとス
コア加算手段3bとによって、入力記号列および入力記
号列辞書に含まれている単語を比較し(DPマッチング
したときの距離)、類似度スコアを算出し、全スコアに
加算する(S3)。続いて、トークン削除手段3cによ
って、全スコアがビームと呼ばれる閾値以下のトークン
が削除され、トークン計算部3は、未計算のトークンが
なくなるまで類似度スコアの算出を続ける。
【0029】そして、S2で未計算トークンがあると判
断されない場合(未計算トークンがないと判断された場
合)、トークン計算部3は、次のトークン計算部3に伝
達していないトークンがあるかどうかが判断される(S
4)。伝達していないトークンがあると判断された場合
には、単語末のトークンであるかどうかが判断される
(S5)。単語末のトークンであると判断されない場合
には、次のトークン計算部3にトークンが伝達される
(S6)。
【0030】S5で、単語末のトークンであると判断さ
れた場合には、全スコアに次の単語の言語スコア(つま
り、かな漢字変換の原理のところで説明したP(K))
を加算し、次のトークン計算部3にトークンを伝達する
(S7)。そして、S4で、伝達していないトークンが
あると判断されない場合には、S1に戻り、入力記号列
があるかどうかが判断され、ないと判断された場合に
は、先頭のトークン計算部3によって、当該トークン計
算部3に伝達されたトークンの中で最大のスコアを持つ
単語履歴がかな漢字変換単語列として出力される(S
8)。
【0031】(かな漢字変換装置の動作例)次に、かな
漢字変換装置1の動作例(変換例)を、図3を参照して
説明する。入力記号列として(k,u,j,i,d,
e,s,u)が順に入力された場合に「九、時、籤、で
す」の4つの単語にかな漢字変換される場合について説
明する。
【0032】予め、各単語が文頭にくる確率値をトーク
ンのスコアにする。つまり、図3に示すように、ku
(九)が文頭にくるトークンのスコアは、−107であ
り、ji(時)が文頭にくるトークンのスコアは、−3
07であり、kuji(籤)が文頭にくるトークンのス
コアは、−157であり、desu(です)が文頭にく
るトークンのスコアは、−507である。
【0033】次に、kが入力されると、それぞれのトー
クン計算部3の各トークンについて、類似度スコア算出
手段3aによって、入力された入力記号列と、入力記号
列辞書に含まれている単語とに基づいて、類似度スコア
が計算される。そして、この類似度スコアが、スコア加
算手段3bによって、トークンの全スコアに加算され
る。このときHITであれば、類似度スコアは0とし、
INSERTIONもしくはDELETIONであれ
ば、類似度スコアは−0.7とし、SUBSTITUT
IONであれば、類似度スコアは−1とする。全てのト
ークンについて計算した後、全てのトークンの中で最大
スコアから500以下に入っているスコアを持つトーク
ンが、トークン削除手段3cによって削除される。
【0034】単語末に達したトークンについて、全スコ
アに次の単語との言語スコアを、スコア加算手段3bに
よって加算して、この加算されたスコアが新しい全スコ
アとなる。これらの動作が繰り返し実行される。つま
り、生き残ったトークンについて、類似度スコアが計算
され、全スコアに加算され、この加算された全スコアが
閾値以下のトークンが消去され、単語末では言語スコア
が加算される。最後に先頭のトークン計算部3に入力記
号列が来なくなった時点(入力がなくなった時点)で単
語末に到達しているトークンの中で最大スコアを持つ単
語履歴がかな漢字変換単語列(出力単語列)として出力
される。
【0035】この実施の形態では以下の効果を奏す。キ
ーボード等にによって、記号列が入力され、トークン計
算部3の類似度スコア算出手段3aによって、入力され
た記号列と記憶部5に記憶されている入力記号列辞書に
含まれている単語とが比較され、類似度スコアが算出さ
れ、スコア加算手段3bによって、全スコアに加算され
る。そして、トークン削除手段3cによって、閾値以下
のトークンが削除され、算出された類似度スコアおよび
単語の接続確率に基づいた言語モデルスコアが参照さ
れ、入力された記号列がかな漢字変換単語列に変換され
る。すなわち、このかな漢字変換装置1では、入力され
た記号列を品詞に分解して、構文解析することなく、音
声認識の手法に基づき、入力された記号列を、不特定の
波形とみなして、この波形を認識する方法が応用されて
いるので、従来のかな漢字変換装置に比べ、例えば、当
該装置に記憶されている辞書に単語を付加した場合に、
この単語の品詞情報をその都度加える手間をかけること
なく、かな漢字変換が実行できる。また、たとえ品詞数
が増加しても、構文解析によらずにかな漢字変換してい
るので、変換処理速度を高速に維持することができる。
【0036】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。例え
ば、かな漢字変換装置1で実現されている各構成の処理
を、一つずつの工程とみなしたかな漢字変換方法として
捉えることも可能である。この場合、かな漢字変換装置
1で得られた効果と同様な効果が得られる。
【0037】また、かな漢字変換装置1における各構成
の処理を、汎用のプログラムで記述したかな漢字変換プ
ログラムとみなすことも可能である。この場合もかな漢
字変換装置1で得られる効果と同様な効果が得られる。
さらに、このプログラムを特定の記憶媒体に記憶し、流
通させることも可能である。方法でもいいし、プログラ
ムでもいい。
【0038】
【発明の効果】以上、一実施の形態に基づいて説明した
ように、本発明は、以下に示す優れた効果を奏する。請
求項1記載の発明によれば、かな漢字変換方法におい
て、入力ステップにより、記号列が入力され、類似度ス
コア算出ステップにより、入力された記号列と入力記号
列辞書に含まれている単語とが比較され、類似度スコア
が算出され、かな漢字変換ステップにより、類似度スコ
アと言語モデルスコアが参照され、入力された記号列が
文字列に変換される。すなわち、このかな漢字変換方法
では、入力された記号列を品詞に分解して、構文解析す
ることなく、音声認識の手法に基づき、入力された記号
列を、不特定の波形とみなして、この波形を認識する方
法が応用されているので、従来のかな漢字変換方法に比
べ、例えば、単語を付加した場合に、この単語の品詞情
報をその都度加える手間をかけることなく、かな漢字変
換が実行できる。
【0039】請求項2記載の発明によれば、かな漢字変
換装置において、入力手段によって、記号列が入力さ
れ、類似度スコア算出手段によって、入力された記号列
と記憶手段に記憶されている入力記号列辞書に含まれて
いる単語とが比較され、類似度スコアが算出され、かな
漢字変換手段によって、算出された類似度スコアおよび
単語の接続確率に基づいた言語モデルスコアが参照さ
れ、入力された記号列が文字列に変換される。すなわ
ち、このかな漢字変換装置では、入力された記号列を品
詞に分解して、構文解析することなく、音声認識の手法
に基づき、入力された記号列を、不特定の波形とみなし
て、この波形を認識する手段が応用されているので、か
な漢字変換処理において、例えば、従来のかな漢字変換
装置に比べ、単語を追加した場合に、この単語の品詞情
報をその都度加える手間をかけることなく、かな漢字変
換が実行できる。
【0040】請求項3記載の発明によれば、かな漢字変
換プログラムにおいて、入力手段によって、記号列が入
力され、類似度スコア算出手段によって、入力された記
号列と記憶手段に記憶されている入力記号列辞書に含ま
れている単語とが比較され、類似度スコアが算出され、
かな漢字変換手段によって、算出された類似度スコアお
よび単語の接続確率に基づいた言語モデルスコアが参照
され、入力された記号列が文字列に変換される。すなわ
ち、このかな漢字変換プログラムでは、入力された記号
列を品詞に分解して、構文解析することなく、音声認識
の手法に基づき、入力された記号列を、不特定の波形と
みなして、この波形を認識する手段が応用されているの
で、従来のかな漢字変換に比べ、例えば、単語を追加し
た場合に、この単語の品詞情報をその都度加える手間を
かけることなく、かな漢字変換が実行できる。
【図面の簡単な説明】
【図1】本発明による一実施の形態であるかな漢字変換
装置の概略を説明したブロック図である。
【図2】かな漢字変換装置の動作を説明したフローチャ
ートである。
【図3】かな漢字変換装置の動作例を説明した概念図で
ある。
【符号の説明】
1 かな漢字変換装置 3 トークン計算部 3a 類似度スコア算出手段 3b スコア加算手段 3c トークン削除手段 5 記憶手段

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力される記号列を特定の単語に対応さ
    せる入力記号列辞書と、単語間の接続確率とを利用する
    かな漢字変換方法であって、 入力手段を用いて、記号列を入力する入力ステップと、 この入力ステップにより、入力された記号列と、前記入
    力記号列辞書に含まれている単語とを比較し、これらの
    類似の度合いを表す類似度スコアを算出する類似度スコ
    ア算出ステップと、 前記類似度スコアおよび前記単語の接続確率に基づいた
    言語モデルスコアを参照して、前記入力手段によって入
    力された記号列を、かなおよび漢字を含む文字列に変換
    するかな漢字変換ステップと、 このかな漢字変換ステップにより、変換された文字列を
    出力する出力ステップと、を含んでなることを特徴とす
    るかな漢字変換方法。
  2. 【請求項2】 入力される記号列を特定の単語に対応さ
    せる入力記号列辞書と、単語間の接続確率とを記憶する
    記憶手段を有するかな漢字変換装置であって、 記号列を入力する入力手段と、 この入力手段によって、入力された記号列と、前記入力
    記号列辞書に含まれている単語とを比較し、これらの類
    似の度合いを表す類似度スコアを算出する類似度スコア
    算出手段と、 前記類似度スコアおよび前記単語の接続確率に基づいた
    言語モデルスコアを参照して、前記入力手段によって入
    力された記号列を、かなおよび漢字を含む文字列に変換
    するかな漢字変換手段と、 このかな漢字変換手段によって、変換された文字列を出
    力する出力手段と、を備えることを特徴とするかな漢字
    変換装置。
  3. 【請求項3】 入力される記号列を、かなおよび漢字を
    含む文字列に変換する装置を、 前記記号列を入力する入力手段、 この入力手段によって、入力される記号列を特定の単語
    に対応させる入力記号列辞書と、単語間の接続確率とを
    記憶する記憶手段、 前記入力手段によって、入力された記号列と、前記入力
    記号列辞書に含まれている単語とを比較し、これらの類
    似の度合いを表す類似度スコアを算出する類似度スコア
    算出手段、 前記類似度スコアおよび前記単語の接続確率に基づいた
    言語モデルスコアを参照して、前記入力手段によって入
    力された記号列を、かなおよび漢字を含む文字列に変換
    するかな漢字変換手段、 このかな漢字変換手段によって、変換された文字列を出
    力する出力手段、として機能させることを特徴とするか
    な漢字変換プログラム。
JP2001304040A 2001-09-28 2001-09-28 かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム Pending JP2003108545A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001304040A JP2003108545A (ja) 2001-09-28 2001-09-28 かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001304040A JP2003108545A (ja) 2001-09-28 2001-09-28 かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2008322114A Division JP4769286B2 (ja) 2008-12-18 2008-12-18 かな漢字変換装置およびかな漢字変換プログラム

Publications (1)

Publication Number Publication Date
JP2003108545A true JP2003108545A (ja) 2003-04-11

Family

ID=19124025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001304040A Pending JP2003108545A (ja) 2001-09-28 2001-09-28 かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Country Status (1)

Country Link
JP (1) JP2003108545A (ja)

Similar Documents

Publication Publication Date Title
CN111369996B (zh) 一种特定领域的语音识别文本纠错方法
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US8185376B2 (en) Identifying language origin of words
US7251600B2 (en) Disambiguation language model
US5949961A (en) Word syllabification in speech synthesis system
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
CN117935785A (zh) 用于在端到端模型中跨语言语音识别的基于音素的场境化
Kirchhoff et al. Novel speech recognition models for Arabic
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
JP5590549B2 (ja) 音声検索装置および音声検索方法
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP4769286B2 (ja) かな漢字変換装置およびかな漢字変換プログラム
Lin et al. Improved features and models for detecting edit disfluencies in transcribing spontaneous mandarin speech
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2938865B1 (ja) 音声認識装置
Azim et al. Using Character-Level Sequence-to-Sequence Model for Word Level Text Generation to Enhance Arabic Speech Recognition
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
Taşdemir A large vocabulary online handwriting recognition system for Turkish
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Saychum et al. Efficient Thai Grapheme-to-Phoneme Conversion Using CRF-Based Joint Sequence Modeling.
JP2003108545A (ja) かな漢字変換方法およびかな漢字変換装置ならびにかな漢字変換プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080729

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081028

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20081128