JP5480844B2 - 単語追加装置、単語追加方法及びそのプログラム - Google Patents

単語追加装置、単語追加方法及びそのプログラム Download PDF

Info

Publication number
JP5480844B2
JP5480844B2 JP2011109005A JP2011109005A JP5480844B2 JP 5480844 B2 JP5480844 B2 JP 5480844B2 JP 2011109005 A JP2011109005 A JP 2011109005A JP 2011109005 A JP2011109005 A JP 2011109005A JP 5480844 B2 JP5480844 B2 JP 5480844B2
Authority
JP
Japan
Prior art keywords
word
appearance probability
class
unigram
similarity distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011109005A
Other languages
English (en)
Other versions
JP2012242421A (ja
Inventor
祥子 山畠
義和 山口
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011109005A priority Critical patent/JP5480844B2/ja
Publication of JP2012242421A publication Critical patent/JP2012242421A/ja
Application granted granted Critical
Publication of JP5480844B2 publication Critical patent/JP5480844B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は音声認識システムに用いる言語モデルに単語を追加する単語追加装置、単語追加方法及びそのプログラムに関する。
言語モデルに単語を追加する場合、その単語が適切な場所で正しく認識され、それ以外の場所では出現しないように確率を調整する必要がある。
誤認識が起こる理由の一つに、発音の類似した単語との置換誤りが挙げられる。追加単語が発話されたとき、発音の類似した別の単語として認識されてしまう、もしくは追加単語と発音の類似した単語が発話されたとき、それが追加単語として認識されてしまう、という問題である。
特に、新規に追加される単語においては、追加後の使用頻度が高くなると見込まれるため、発音の類似した別の単語として認識される現象を防ぐことが重要となる。
追加単語の確率付与に関する技術が特許文献1に記載されている。特許文献1では追加単語のクラス内単語出現確率の初期値を定め、その初期値を用いて音声認識を実施し、その認識結果における追加単語の湧き出し数をもとに追加単語のクラス内単語出現確率を調整するものとなっており、具体的には以下のような方法を採用している。
即ち、音声認識の認識結果と書き起こしデータを比較し、追加単語の湧き出し頻度を誤り値として、誤り値が所定の閾値より小さければ適当に定めたクラス内単語出現確率の初期値以上の値を追加単語のクラス内単語出現確率とする。また、誤り値が閾値より大きい場合は、クラス内単語出現確率を初期値より小さくし、再び誤り値の評価を行う。誤り値が1回目に比べ、小さくなり、閾値以下となれば、小さくしたクラス内単語出現確率をもとに追加単語のクラス内単語出現確率を定める。
一方、誤り値が十分に小さくならない場合には、クラス内単語出現確率をさらに小さくすると、単語が出現しなくなってしまうため、1回目及び2回目の単語の正解値をもとに追加単語のクラス内単語出現確率を決定するものとなっている。ここで、正解値とは追加単語が出現すべき場所で正しく認識されている頻度である。
特開2009−271465号公報
上述した特許文献1に記載されている従来の方法では、言語モデルに単語を追加する際に必要な追加単語のクラス内単語出現確率を決定するために、追加単語を多く含む例えば数時間程度の評価音声データベースを用意しなければならない。しかしながら、既存の評価音声データベースにこれから使う追加単語が多く含まれているとは一般に考えにくいため、そのような追加単語を多く含む評価音声データベースを用意しなければならず、その点で手間がかかり、また単語を追加する都度、その追加単語を多く含む評価音声データベースが必要になることから、汎用性の点で劣るものとなっていた。
この発明の目的はこのような問題に鑑み、追加単語を多く含む評価音声データベースのような追加のリソースを必要とすることなく、追加単語のクラス内単語出現確率を適切に決定することができ、よって従来に比し、簡易で汎用性が高い単語追加装置及び単語追加方法を提供することにある。
請求項1の発明によれば、単語追加装置は、追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を言語モデルに追加し、追加単語を単語辞書に追加するクラス内単語出現確率付与部とを備え、判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与する。
請求項2の発明によれば、単語追加装置は、追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、それらユニグラム出現確率の発音類似距離に応じた重み付き平均を計算し、その重み付き平均を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を言語モデルに追加し、追加単語を単語辞書に追加するクラス内単語出現確率付与部とを備え、判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与する。
請求項3の発明では請求項1又は2の発明において、発音類似距離計算部はDPマッチングのコストの決定にConfusion Matrixを用いる。
請求項4の発明では請求項1乃至3のいずれかの発明において、発音類似距離計算部は発音類似距離の計算に用いる既存単語から機能語を除外する。
請求項5の発明によれば、単語追加方法は、追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算過程と、発音類似距離計算過程で計算された発音類似距離が閾値以下か否かを判定する判定過程と、判定過程で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出過程と、言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を言語モデルに追加し、追加単語を単語辞書に追加するクラス内単語出現確率付与過程とを含み、判定過程における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与する。
この発明によれば、追加する単語のクラス内単語出現確率を、既存の発音が類似する単語の出現確率をもとに計算するものとなっており、これにより追加単語のクラス内単語出現確率を適切に決定することができ、誤認識を防ぐことができる。
また、追加単語を多く含む評価音声データベースのような追加のリソースを必要とする従来例と異なり、追加のリソースを必要としないため、その点で従来例に比し、簡易で汎用性が高い単語追加装置及び方法を提供することができる。
この発明による単語追加装置の実施例1の機能構成を示すブロック図。 図1に示した単語追加装置の処理フローを示すフローチャート。 この発明による単語追加装置の実施例2におけるDPマッチングのコストの決定方法を説明するための図。 この発明による単語追加装置の実施例3における処理フローを示すフローチャート。
以下、この発明の実施形態を図面を参照して実施例により説明する。
図1はこの発明による単語追加装置の実施例1の機能構成を示したものであり、図2はその処理フローを示したものである。
単語追加装置100はこの例では追加単語記憶部10と発音類似距離計算部20と判定部30と発音類似単語記憶部40とN-best発音類似単語抽出部50とN-best発音類似単語記憶部60とクラス内単語出現確率付与部70と制御部80とを備えている。制御部80は単語追加装置100全体の動作を制御する。なお、図1では単語辞書を記憶する単語辞書記憶部200と言語モデルを記憶する言語モデル記憶部300を併せて示している。既存単語は単語クラス毎に単語辞書に登録されている。
単語追加装置100には言語モデルに新規に追加する追加単語Aとその音素列aが入力される。また、この際、追加単語Aを登録するクラスCも入力される。クラスCは単語辞書に予め存在するクラス(例えば、未知語クラスなど)から選ぶものとする。入力された追加単語Aとその音素列a,クラスCは追加単語記憶部10に記憶される。
追加単語記憶部10に記憶されている追加単語Aとその音素列aは発音類似距離計算部20に入力される。発音類似距離計算部20は追加単語Aが単語辞書に登録されている既存単語と、発音がどれくらい類似しているかを計算する。即ち、発音類似距離計算部20は追加単語Aの音素列aと、単語辞書に登録されている既存単語W(Wは単語辞書に登録されているi番目の単語を示す)の音素列bの距離を、単語辞書に登録されている全ての既存単語について計算する(ステップS1)。
距離の計算はDPマッチングにより行われ、DPマッチングのコストはこの例では下記文献1に記載されている編集距離を用いて決定する。ここでは、編集距離における置換・削除・挿入それぞれのコストを1として計算する。計算された距離を発音類似距離DWiとする。
文献1:Daniel Jurafsky and James H.Martin,「Speech and Language Processing
(2nd Edition)」,Prentice Hall;2版,2008年5月,p.73-77
既存単語Wと発音類似距離DWiは判定部30に入力され、判定部30は発音類似距離DWiが閾値θ以下か否かを判定する(ステップS2)。閾値θの値は3〜4程度が適切であるが、音素列aの長さによって適宜調整する。
発音類似距離DWiが閾値θ以下と判定された既存単語(以下、発音類似単語と言う)Wとその発音類似距離DWiは判定部30から発音類似単語記憶部40に入力され、発音類似単語記憶部40は判定部30から入力された発音類似単語Wとその発音類似距離DWiを記憶する(ステップS3)。
N-best発音類似単語抽出部50は発音類似単語記憶部40に発音類似距離DWiが閾値θ以下の発音類似単語Wが存在する(記憶されている)か否かを調べ(ステップS4)、存在していれば、発音類似距離DWiが小さい上位N個の発音類似単語を抽出する(ステップS5)。抽出されたN個の発音類似単語(N-best発音類似単語)はN-best発音類似単語記憶部60に記憶される(ステップS6)。
クラス内単語出現確率付与部70はN-best発音類似単語記憶部60に記憶されているN-best発音類似単語をもとに、追加単語Aのクラス内単語出現確率を計算する。
まず、言語モデルを参照して、N-best発音類似単語群として抽出された単語Wのユニグラム出現確率P(W)を求める(ステップS7)。ユニグラム出現確率P(W)は、
P(W)=P(W|C)P(C
と表される。CはWの属するクラスである。
クラス内単語出現確率P(W|C)やクラスユニグラム出現確率P(C)は言語モデルに保存されているので、ユニグラム出現確率P(W)を求めることができる。
求めた中で最大のユニグラム出現確率を追加単語Aのユニグラム出現確率P(A)とする。N-best発音類似単語群の中でユニグラム出現確率が最大となった単語をWmaxとすれば、
P(A)=P(Wmax)=P(A|C)P(C
となる。クラスユニグラム出現確率P(C)は言語モデルに保存されており、追加単語AのクラスCは予め指定されて追加単語記憶部10に記憶されている。従って、
P(A|C)=P(Wmax)/P(C
を計算することができ、これにより、追加単語Aのクラス内単語出現確率P(A|C)を求めることができる(ステップS8)。
このように、N-best発音類似単語群の中からユニグラム出現確率が最大の単語Wmaxを選び、その単語Wmaxのユニグラム出現確率P(Wmax)を追加単語Aのユニグラム出現確率P(A)としてクラス内単語出現確率P(A|C)を求めることにより、追加単語Aが類似した発音をもつ別の単語として認識されることを防ぐことができる。
一方、判定部30における判定において、発音類似距離DWiが閾値θ以下の既存単語Wが存在しなかった場合、発音類似単語記憶部40には発音類似単語Wが存在せず(ステップS4)、よってN-best発音類似単語抽出部50はN-best発音類似単語を発音類似単語記憶部40から抽出することができない。この場合、N-best発音類似単語抽出部50は発音類似単語が存在しないことをクラス内単語出現確率付与部70に通知する。
発音類似距離DWiが閾値θ以下の発音類似単語が存在しない場合、クラス内単語出現確率付与部70は追加単語Aに対して指定されたクラスCにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語Aに付与する(ステップS9)。
このように、発音類似距離DWiが閾値θ以下の発音類似単語が存在しないときは、発音が類似した単語が少数であり、誤認識が起こりにくいと考えられるため、クラス内単語出現確率が最大の既存単語と同じ確率を付与することで、音声認識において追加単語Aが十分に出現するようにすることができる。
クラス内単語出現確率付与部70は上記のようにして求めた追加単語Aのクラス内単語出現確率P(A|C)を言語モデル記憶部300に記憶されている言語モデルに追加し(ステップS10)、また追加単語Aとその音素列aを単語辞書記憶部200に記憶されている単語辞書に追加する。
上述した単語追加装置100及びその単語追加方法によれば、使用するデータは従来用いてきた単語辞書及び言語モデルのみであって、追加のリソースを必要とせず、その点で汎用性に優れ、また簡易に単語を追加することができる。
実施例1では発音類似距離計算部20におけるDPマッチングによる発音類似距離の計算において、DPマッチングのコストを編集距離を用いて決定するものとなっていたが、実施例2では音素間のConfusion Matrixを用いてDPマッチングのコストを決定する。
Confusion Matrixとは下記文献2に記載されているように、任意の音素xとして発音された音声が、任意の音素yとして出力される確率px,yの推定値を行列の要素C(x,y)とし、全ての音素についてまとめた行列である。
文献2:Savitha Srinivasan and Dragutin Petkovic,「Phonetic Confusion Matrix
Based Spoken Document Retrieval」,Proceedings of SIGIR 2000,2000年
7月,p.81-87
要素C(x,y)は評価音声データの書き起こし文及びその評価音声データに対して音声認識を行った音声テキストデータを用いて計算される。書き起こし文中に出現する任意の音素xに対応して、音声テキストデータ中に出現する音素yの出現回数をカウントする。対応する音素が欠落している場合には、空音素φとしてカウントする。音声テキストデータ中に出現する音素yの出現回数を書き起こし文中に出現する音素xの総出現回数で割り、これをpx,ynとする。同様にして、全ての音素についてpx,yを求め、これを表にまとめる。
Confusion Matrixを用いたDPマッチングによる発音類似距離算出の例を図3に示す。ここでは、「kao」及び「kigo」という2つの音素列を例にとる。DPマッチングでは図3(B)のDPマッチングの図に示すように、比較する記号列を縦、横に並べ、ラティスを構成し、各アークに重み付けする。ここから、重み(コスト)が最小になるように経路を選択する。
各アークの重み付け(コスト決定)の方法について説明する。Confusion Matrixでは2つの音素x,yが類似していればしている程、その要素C(x,y)の値が大きくなる。一方、発音類似距離は音素x,yが類似していれば、その値は小さくなる。従って、Confusion Matrixの要素C(x,y)の逆数をとった値I(x,y)をコストとして用いる。
図3(B)に示したように、startから伸びるアークのコストは0である。斜めに向くアークは、アークの始点ノードに対応する音素ペアが等しい場合は0を、それ以外の場合はI(x,y)+I(y,x)をコストとする。これは、異なる音素ペアから斜めに進む場合、音素の置換を意味するためである。縦向きのアークには、縦軸に並べた音素列におけるアークの始点となる音素xに対応する空音素の要素の逆数I(x,φ)を用いる。また、横向きのアークには、横軸に並べた音素列におけるアークの始点となる音素xに対応する空音素の要素の逆数I(x,φ)を用いる。これは、例えば図3(B)のDPマッチングの図において、ノード5からノード8への移動は、横軸に並べられた音素列に対して縦軸の音素iの削除を意味するためである。
以上のようにコストを付加したラティスに対して最適経路探索を行い、そのコストを発音類似距離とする。
実施例2では上述したように、発音類似距離計算部20はDPマッチングのコストをConfusion Matrixを用いて決定し、追加単語Aの音素列aと既存単語Wの音素列bの発音類似距離DWiを計算するものとなっており、他の構成及び処理フローは実施例1と同じである。
上述したような実施例2のDPマッチングのコストの決定方法によれば、発音類似距離が音素ごとの類似度を含んだものになるため、より信頼性の高い発音類似距離を算出することができる。なお、Confusion Matrixの作成には音声データベースが必要となるが、音素の認識間違いを検出できればよいため、既存の音声データベースを用いればよく、よって追加のリソースは必要としない。
実施例1ではクラス内単語出現確率付与部70はN-best発音類似単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、追加単語のクラス内単語出現確率を求めていたが、実施例3ではN-best発音類似単語のユニグラム出現確率の発音類似距離に応じた重み付き平均を求め、その重み付き平均を追加単語Aのユニグラム出現確率P(A)として、追加単語Aのクラス内単語出現確率P(A|C)を求める。追加単語Aのユニグラム出現確率P(A)は、
Figure 0005480844
となる。
図4は実施例3の処理フローを示したものであり、前述の図2に示した実施例1の処理フローのステップS6〜S8に替えてステップS11〜S13を実行する。
即ち、この例ではN-best発音類似単語抽出部50で抽出されたN-best発音類似単語とその発音類似距離がN-best発音類似単語記憶部60に記憶され(ステップS11)、クラス内単語出現確率付与部70はN-best発音類似単語群として抽出された単語Wのユニグラム出現確率P(W)を言語モデルを参照して求め、それら求めたユニグラム出現確率P(W)の発音類似距離DWiに応じた重み付き平均を求める(ステップS12)。そして、求めた重み付き平均を式(1)に示すように追加単語Aのユニグラム出現確率P(A)として、
P(A|C)=P(A)/P(C
より、追加単語Aのクラス内単語出現確率P(A|C)を求める(ステップS13)。なお、他の処理ステップS1〜S5及びS9,S10では実施例1と同じ処理が実行される。
この実施例3と実施例1とを比較すると、実施例1では、N-best発音類似単語群の中で最大のユニグラム出現確率を有する単語Wmaxの発音類似距離がN-best発音類似単語群の中でも特に小さく、かつユニグラム出現確率P(Wmax)が他のN-best発音類似単語のユニグラム出現確率と比較して著しく大きい場合(例えば、10〜100倍程度)、追加単語Aのユニグラム出現確率P(A)は他の発音類似単語群と比べて大きいものになる。従って、湧き出しが多くなり、音声認識における認識精度が下がってしまうおそれがある。
これに対し、実施例3では、発音が類似している既存単語の確率をより強く反映させたユニグラム出現確率を追加単語のユニグラム出現確率とすることで、過度に大きいクラス内単語出現確率を追加単語に付与することを防ぐことができ、よって湧き出しを実施例1に比し、少なくすることができる。
なお、発音類似距離が閾値θ以下の発音類似単語が存在しなければ、追加単語Aの誤認識は起こりにくく、よって実施例1と同様にステップS9が実行され、追加単語AのクラスCにおけるクラス内単語出現確率の最大値を追加単語Aのクラス内単語出現確率P(A|C)とする。
実施例1では追加単語Aの音素列aと、単語辞書に登録されている既存単語Wの音素列bの発音類似距離を、単語辞書に登録されている全ての既存単語について計算し、発音類似距離が閾値θ以下となった既存単語からN-best発音類似単語を抽出して、それらのユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語Aのユニグラム出現確率P(A)とするものとなっている。
また、実施例3では実施例1と同様に抽出したN-best発音類似単語群のユニグラム出現確率の発音類似距離に応じた重み付き平均を求め、その重み付き平均を追加単語Aのユニグラム出現確率P(A)とするものとなっている。
この場合、単語辞書に登録されている既存単語群には、助詞や助動詞といった主に文の構成に関わる(文法的な役割を持つ)機能語と、それ以外の一般的な意味を持つ内容語が混在しているため、N-best発音類似単語群に機能語と内容語が混在することが考えられ、このようなN-best発音類似単語群をもとに追加単語Aのユニグラム出現確率P(A)を求めると、内容語に比べて出現確率の高い機能語にユニグラム出現確率P(A)の値が引きずられてしまい、湧き出しが頻出するといった状況が起こりうる。
これを防ぐため、実施例4では発音類似距離計算部20は発音類似距離の計算に用いる既存単語から機能語を除外するものとする。追加単語Aは一般に固有名詞のような内容語と考えられ、このようにN-best発音類似単語群に機能語が含まれないようにすることにより、追加単語Aの湧き出しを防ぐことができる。
なお、単語辞書は一般に登録単語の品詞情報を保有しているため、これをもとに機能語を除外することができる。また、例えば単語辞書に品詞情報がない場合には形態素解析を行うことにより品詞を決定することができる。
以上説明したように、この発明によれば、追加単語Aのクラス内単語出現確率P(A|C)を適切に決定することができ、その点で音声認識精度の向上に寄与することができる。P(C)などのクラスユニグラム出現確率やP(C|C)などのクラスバイグラム出現確率のようなクラスN-gram出現確率は言語モデルに保存されているので、クラス内単語出現確率P(A|C)を決定することで、追加単語AのN-gramを求めることができる。
上述した単語追加装置、単語追加方法はコンピュータと、コンピュータにインストールされた単語追加プログラムによって実現することができる。コンピュータにインストールされた単語追加プログラムはコンピュータのCPUによって解読されてコンピュータに上述した単語追加方法を実行させる。

Claims (6)

  1. 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、
    前記発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、
    前記判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、
    言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与部とを備え、
    前記判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、前記クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加装置。
  2. 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算部と、
    前記発音類似距離計算部で計算された発音類似距離が閾値以下か否かを判定する判定部と、
    前記判定部で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出部と、
    言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、それらユニグラム出現確率の発音類似距離に応じた重み付き平均を計算し、その重み付き平均を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与部とを備え、
    前記判定部における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、前記クラス内単語出現確率付与部は追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加装置。
  3. 請求項1又は2記載の単語追加装置において、
    前記発音類似距離計算部は前記DPマッチングのコストの決定にConfusion Matrixを用いることを特徴とする単語追加装置。
  4. 請求項1乃至3記載のいずれかの単語追加装置において、
    前記発音類似距離計算部は発音類似距離の計算に用いる既存単語から機能語を除外することを特徴とする単語追加装置。
  5. 追加単語の音素列と単語辞書に登録されている既存単語の音素列の発音類似距離を、単語辞書に登録されている全ての既存単語についてDPマッチングにより計算する発音類似距離計算過程と、
    前記発音類似距離計算過程で計算された発音類似距離が閾値以下か否かを判定する判定過程と、
    前記判定過程で発音類似距離が閾値以下と判定された既存単語から、発音類似距離が小さい上位N個の既存単語を抽出するN-best発音類似単語抽出過程と、
    言語モデルを参照して、前記N個の既存単語のユニグラム出現確率を求め、求めた中で最大のユニグラム出現確率を追加単語のユニグラム出現確率として、そのユニグラム出現確率と追加単語に対して指定されたクラスのクラスユニグラム出現確率とから追加単語のクラス内単語出現確率を求め、求めたクラス内単語出現確率を前記言語モデルに追加し、追加単語を前記単語辞書に追加するクラス内単語出現確率付与過程とを含み、
    前記判定過程における判定において発音類似距離が閾値以下の既存単語が存在しなかった場合、追加単語に対して指定されたクラスにおけるクラス内単語出現確率が最大の既存単語と同じクラス内単語出現確率を追加単語に付与することを特徴とする単語追加方法。
  6. 請求項1乃至4記載のいずれかの単語追加装置としてコンピュータを動作させるためのプログラム。
JP2011109005A 2011-05-16 2011-05-16 単語追加装置、単語追加方法及びそのプログラム Active JP5480844B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011109005A JP5480844B2 (ja) 2011-05-16 2011-05-16 単語追加装置、単語追加方法及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011109005A JP5480844B2 (ja) 2011-05-16 2011-05-16 単語追加装置、単語追加方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2012242421A JP2012242421A (ja) 2012-12-10
JP5480844B2 true JP5480844B2 (ja) 2014-04-23

Family

ID=47464240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011109005A Active JP5480844B2 (ja) 2011-05-16 2011-05-16 単語追加装置、単語追加方法及びそのプログラム

Country Status (1)

Country Link
JP (1) JP5480844B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102166446B1 (ko) * 2018-09-28 2020-10-15 우석대학교 산학협력단 음성을 이용한 키워드 추출 방법 및 서버

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3907880B2 (ja) * 1999-09-22 2007-04-18 日本放送協会 連続音声認識装置および記録媒体
JP4245530B2 (ja) * 2004-08-19 2009-03-25 三菱電機株式会社 言語モデル作成装置及び方法並びにプログラム
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
JP4897737B2 (ja) * 2008-05-12 2012-03-14 日本電信電話株式会社 単語追加装置、単語追加方法、そのプログラム

Also Published As

Publication number Publication date
JP2012242421A (ja) 2012-12-10

Similar Documents

Publication Publication Date Title
CN107305768B (zh) 语音交互中的易错字校准方法
US10037758B2 (en) Device and method for understanding user intent
JP6066354B2 (ja) 信頼度計算の方法及び装置
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
US9978364B2 (en) Pronunciation accuracy in speech recognition
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2008262279A (ja) 音声検索装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
US20150340035A1 (en) Automated generation of phonemic lexicon for voice activated cockpit management systems
US20150178274A1 (en) Speech translation apparatus and speech translation method
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
JP5183120B2 (ja) 平方根ディスカウンティングを使用した統計的言語による音声認識
US10867525B1 (en) Systems and methods for generating recitation items
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5480844B2 (ja) 単語追加装置、単語追加方法及びそのプログラム
Liang et al. An efficient error correction interface for speech recognition on mobile touchscreen devices
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2011175046A (ja) 音声検索装置および音声検索方法
JP2010231149A (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140214

R150 Certificate of patent or registration of utility model

Ref document number: 5480844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150