JP2005534983A

JP2005534983A - 自動音声認識の方法

Info

Publication number: JP2005534983A
Application number: JP2004526650A
Authority: JP
Inventors: シュライフェル、ラルフ; キースリンク、アンドレアス; − ギーンテルハーシュ、ハンス
Original assignee: テレフォンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2002-08-01
Filing date: 2002-08-01
Publication date: 2005-11-17
Anticipated expiration: 2022-08-01
Also published as: AU2002325930A1; US20050273334A1; CN1639768B; JP4246703B2; DE60212725D1; EP1525577A1; EP1525577B1; WO2004015686A1; DE60212725T2; CN1639768A

Abstract

入力音声からキーワードを認識する方法は、少なくとも１つのキーワード・モデルと複数のガーベイジ・モデルに基づく。入力音声の一部がキーワード・モデルまたはガーベイジ・シーケンス・モデルのいずれかと最も良く一致すると、その入力音声のその一部は、認識されるべきキーワードとして査定される。ここでガーベイジ・シーケンス・モデルは、その複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルである。

Description

本発明は、自動音声認識の方法に関する。本発明は特に入力音声（spoken utterance）からキーワードを認識する方法に関する。

入力音声の中の１つまたは複数のキーワードが認識される自動音声認識の方法はキーワード・スポッティングと呼ばれることが多い。認識されるキーワードごとにキーワード・モデルが訓練され格納される。各キーワード・モデルは、話者に依存する音声認識または話者に依存しない音声認識のいずれかに対して訓練される。例えば、単語または句を表す。入力音声自体または入力音声の一部が、以前に生成され格納されているキーワード・モデルのいずれかと最も良く一致する場合は、入力音声からキーワードが抽出される。

近年は、例えば、移動電話機のような移動機器の中でこのような音声認識の方法が使用されている。その上、移動機器は、キーボードを使用する代わりに、音声による命令によって部分的にまたは完全に制御されうる。この方法は、キーボードで移動電話機を操作することが禁止されている車内で使われるハンズフリー機器で使用可能であることが望ましい。このため、移動電話機は、ユーザの入力音声からキーワードが決定されると直ちに起動する。次に移動電話機はさらなる入力音声を注意深く聴取して、入力音声の一部が格納されているキーワード・モデルのいずれかと最も良く一致する場合は、その一部が認識されるべきキーワードであると査定（assess）する。

キーワードは、移動機器が使用される音響環境に依存して、または、例えば、発音のようなユーザの挙動に依存してほぼ正しいと認識される。例えば、入力音声の一部が格納されているキーワードの１つと一致しているが、そのキーワードが認識されるべき所望のキーワードではない場合、査定は誤りでありうる。結果として、発話されたキーワードの総数に対する正しく認識されたキーワードの数であるヒット率は、音響環境とユーザの挙動に強く依存する。

従来の技術とは区別できる自動音声認識の方法は、キーワード・モデルに加えていわゆるガーベイジ・モデルを使用することが多い（参考文献：キーワード・スポッティングのための新しい方法（A new approach towards Keyword Spotting）、Jean-Marc Boite、EUROSPEECH Berlin,1993,1273-1276ページ）。このために複数のガーベイジ・モデルが生成される。いくつかのガーベイジ・モデルは、例えば、唇から出る音（lip smacks）、呼吸、または「ああ（aeh）」とか「うむ（em）」のような時間つなぎの意味のない単語のようなキーワードではない音声を表している。他のガーベイジ・モデルは背景雑音を表すために生成される。ガーベイジ・モデルは、例えば、音素（phoneme）、音素でカバされるクラス（phoneme cover classes）または完全な単語である。これらのガーベイジ・モデルを使用することによって、単位時間当たりの誤って認識されたキーワードの数である誤り警報率（false alarm rate）は低下する。その理由は、キーワードではない音声を含む入力音声の複数部分が、格納されているキーワード・モデルの１つに直接写像される（mapped）からである。しかし、このような方法を使用するとヒット率は低下する。何故ならば、入力音声の一部が、キーワード・モデル自体に対するよりも、複数のガーベイジ・モデルの１つまたは複数とよりよく一致するからである。例えば、認識段階中の音響環境が悪いと、入力音声の一部が、このような音響環境を表すガーベイジ・モデルと一致するからである。結果として、その部分はキーワードの音声ではないと査定されるが、これが所望の結果でないことは勿論である。

したがって、本発明の目的は、ヒット率を向上させ、既知の従来の技術の欠点を回避する音声認識方法を提供することである。

これは、請求項１に記載の方法によって解決される。本発明によれば、少なくとも１つのキーワード・モデルと複数のガーベイジ・モデルにより入力音声からキーワードを認識する方法が提供され、この中で、入力音声の一部がキーワード・モデルまたはガーベイジ・シーケンス・モデルのいずれかと最もよく一致する場合は、その一部が認識されるべきキーワードとして査定され、ガーベイジ・シーケンス・モデルは、その複数ガーベイジ・モデルからの一連の連続したガーベイジ・モデルである。

また本発明の方法は、入力音声の一部がガーベイジ・シーケンス・モデルと最も良く一致する場合は、本質的に入力音声のその一部を認識されるべきキーワードとして査定した。すると、本発明の利点としてヒット率が上がる。その理由は、入力音声からキーワードを認識するために、キーワード・モデルとガーベイジ・シーケンス・モデルの２つのモデルが使用されることである。ここで本発明の文脈における入力音声の一部は、着信音声（incoming utterance）の何らかの時間間隔である。時間間隔の長さは完全な音声か、または音声の短い連続であってもよい。

都合の良いことに、キーワード・モデル自体よりもより良く入力音声と一致するガーベイジ・モデルが連続して存在している場合、本発明による方法はヒット率が低下することを回避する。したがって、本発明の自動音声認識方法は、既存の従来の技術による音声認識方法よりも強靱である。

ガーベイジ・シーケンス・モデルは、認識されるべきキーワードを表すキーワードの音声と複数のガーベイジ・モデルを比較するとともに、該キーワードと最も良く一致するその一連の連続ガーベイジ・モデルを検出することによって決定されることが望ましい。その上、ガーベイジ・シーケンス・モデルは、従来の技術による音声認識方法に使用されている既存のガーベイジ・モデルに基づいて容易に生成される。このような従来の技術は、例えば、何らかの着信音声からキーワードを認識するために１つまたは複数のキーワード・モデルと複数のガーベイジ・モデルが使用される有限状態シンタックス（finite state syntax）に基づいている。本発明によれば、有限状態シンタックスを用いてガーベイジ・シーケンス・モデルが生成されると、このガーベイジ・シーケンス・モデルは複数のガーベイジ・モデルだけを含むが、キーワード・モデルを含まない。キーワードの音声であって、キーワードを表す着信音声は、複数の格納されているガーベイジ・モデルと比較される。この複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルが、キーワードを最も良く表すガーベイジ・シーケンス・モデルとして決定される。本発明によれば、入力音声の一部がキーワード・モデル、または、その決定されたガーベイジ・シーケンス・モデルのいずれかと一致する場合は、入力音声からキーワードを認識するためにこのガーベイジ・シーケンス・モデルが使用される。

本発明の方法によれば、決定されたガーベイジ・シーケンス・モデルは、複数のガーベイジ・モデルを通る他の経路に対して特権が与えられる。特に決定されたガーベイジ・シーケンス・モデルは、同じ一連の連続ガーベイジ・モデルを含むいかなる経路に対しても特権が与えられる。これにより、入力音声の一部が認識されるべきキーワードとして査定されるが、複数のガーベイジ・モデルを通る同様な経路も存在する。したがって、ヒット率が上がる。何故ならば、入力音声のその一部が認識されるべきキーワードとして査定されることが望ましいからである。

本発明の第１の態様によれば、そのキーワードを表すいくつかのさらなるガーベイジ・シーケンス・モデルが決定されると、入力音声の一部が、そのいくつかのガーベイジ・シーケンス・モデルのどれかと最も良く一致する場合は、入力音声のその一部が、認識されるべきキーワードとして査定される。次にガーベイジ・シーケンス・モデルの総数とキーワード・モデルは、キーワードを認識するために使用される。その上、ヒット率が上がる。何故ならば、わずかに悪い入力音声も、さらなるガーベイジ・シーケンス・モデルのいずどれかと一致することがあるので、キーワードとして査定されるからである。

ガーベイジ・シーケンス・モデルの総数は、ガーベイジ・シーケンス・モデルごとに確率の値を計算するとともに、ガーベイジ・シーケンス・モデル総数として、確率の値が所定の値よりも上にあるそれらガーベイジ・シーケンス・モデルを選択することによって決定されることが望ましい。モデルに対するこのような確率値の計算は、一般に使用される。したがって、キーワードを表すか表さないモデルとして、ガーベイジ・シーケンス・モデルを分類するために使用される所定の確率値が経験的に決定される。

本発明の第２の態様によれば、
−複数のガーベイジ・モデルを通り、入力音声の一部と最も良く一致する経路が検出され、
−ガーベイジ・シーケンス・モデルがその経路に含まれている場合は、その経路に対して尤度が計算され、
−尤度が閾値より上にある場合は、入力音声の一部を認識されるべきキーワードとして査定するため、複数のガーベイジ・モデルを通るその経路が、ガーベイジ・シーケンス・モデルとして仮定される。

このためには、最も良くキーワードを表す１つのガーベイジ・シーケンス・モデルが必要である。このガーベイジ・シーケンス・モデルは、認識段階の前に決定され即座に格納される。認識段階中に複数のガーベイジ・モデルを通り、入力音声と最も良く一致する経路が検出されると、次に続く後処理ステップが適用される。その後処理において、その経路に所定のガーベイジ・シーケンス・モデルが含まれている場合は、尤度が決定される。この尤度が閾値より上にあると、その経路またはその経路の一部はガーベイジ・シーケンス・モデルとして仮定される。その仮定を用いると、入力音声の一部は、認識されるべきキーワードとして査定される。１つだけのガーベイジ・シーケンス・モデルが格納されなければならないので、本発明の第２の態様による認識方法は、メモリの消費がより少ない。したがって、例えば、移動電話機の中のようにメモリの大きさが制限される場合には、この方法を有利に利用することができる。都合の良いことに、閾値は必要に応じていつでも調整されるので、第２の態様による認識方法の融通性は高い。

望ましくは、決定されたガーベイジ・シーケンス・モデル、複数のガーベイジ・モデルを通る検出された経路およびガーベイジ・モデル・コンフュージョン・マトリックスに基づいて尤度が計算されるが、ここでガーベイジ・モデル・コンフュージョン・マトリックスは、ガーベイジ・モデルｉが認識され、仮定されたガーベイジ・モデルｊが与えられている確率P(i|j)を含む。

都合の良いことに、認識されるべき新しいキーワードのためにキーワード・モデルが生成される場合、少なくとも１つのガーベイジ・シーケンス・モデルが決定される。これによって、本発明の第１と第２の態様による音声認識方法は融通性に富むことになる。何故ならば、ガーベイジ・モデル・シーケンスが、新しいキーワードが生成されると直ちに決定されるからである。これは、話者に依存する認識方法にとっては利点である。この場合、キーワード・モデルは、一般にユーザである一人の話者からの１つまたは複数の入力音声から生成される。この方法は、ユーザからの新しいキーワードが生成されると直ちに適用される。

本発明のさらなる態様は、コンピュータプログラム製品が計算装置の中で実行される場合に、本発明による認識方法を実行するプログラムコード手段を備えたコンピュータプログラム製品に関連する。

望ましくは、このコンピュータプログラム製品は、コンピュータ可読記録用媒体上に格納される。

添付の図とともに以下に記載する好適実施例の詳細な説明を読むと、本発明の利点が明らかになるであろう。

自動音声認識は、入力音声から１つまたは複数のキーワードを認識するために使用される。したがって、適用される認識方法は、有限状態シンタックス（finite state syntax）として描かれる。図４は、１つのキーワードを認識するための従来の技術による有限状態シンタックスを示している。このような有限状態シンタックスは、着信音声（incoming utterance）のあらゆる部分と、認識されるべきキーワードを表すモデルを比較する。図４の中に、認識されるべきキーワードのために生成されたキーワード・モデルが１つの経路として示されている。s更にｉを整数とする複数のガーベイジ・モデル、ｇ_ｉが示されている。例えば、いくつかのガーベイジ・モデルは、例えば埋め込まれた休止「うむ（em）」または唇から出る音のような発話事象を表す。さらなるガーベイジ・モデルは、背景雑音のような、非発話事象を表している。ガーベイジ・モデルｇ_ｉを予め決めておくためには、キーワードの集合、音声認識が使用される音響環境およびガーベイジ・モデルによってカバーされる発話事象に関する知識を有することが重要である。それだけでなく、有限状態シンタックスの中には、ＳＩＬモデルと呼ばれる代表的な無音時間を表すさらなる経路が含まれる。認識が活性化すると直ちに、有限状態シンタックスの中の格納されているモデルと各着信音声またはその一部が比較される。そのため、有限状態シンタックスの中で所定のキーワード・モデル、ＳＩＬモデルおよびガーベイジ・モデルのいずれかを通る経路が決定されると、この経路は、着信音声と最も良く一致する。ここで、経路はモデルの１つだけ、または一連のモデルだけを含むことができる。キーワード・モデル自体が経路の中に含まれている場合は、キーワードが認識される。

本発明の原理的概念によれば、ガーベイジ・シーケンス・モデルが生成されると、そのガーベイジ・シーケンス・モデルはキーワードを表す。ガーベイジ・シーケンス・モデルが着信音声またはその一部と最も良く一致する場合は、このガーベイジ・シーケンス・モデルは着信音声またはそれの一部を、認識されるべきキーワードとして査定するために使用される。本発明におけるガーベイジ・シーケンス・モデルは、一連の連続ガーベイジ・モデルｇ_ｉとして定義される。このようなガーベイジ・モデルは、図２に描かれた有限状態シンタックスに基づいて生成されることが望ましい。ここでガーベイジ・シーケンス・モデルを決定する有限状態シンタックスは、ＳＩＬモデルと複数のガーベイジ・モデルｇ_ｉだけを含む。ＳＩＬモデルはオプションである。ガーベイジ・モデルｇ_ｉは、正規の認識段階中に有限状態シンタックスの中で使用されるガーベイジ・モデルと同じである。ガーベイジ・シーケンス・モデルを決定する場合、認識されるべきキーワードの入力音声に、図２に示す有限状態シンタックスが適用される。次に複数のガーベイジ・モデルｇ_ｉを通る経路が選択されると、その経路はキーワードの音声と最も良く一致する。一連の連続ガーベイジ・モデルｇ_ｉであるこの決定された経路は、音声認識段階中に使用され、音声の任意の部分を認識されるべきキーワードとして査定する。本発明によるガーベイジ・シーケンス・モデルの生成は、話者に依存する音声認識と話者に依存しない音声認識とに対して使用されうる。話者に依存する音声認識の場合、所望のキーワードを表すキーワードの音声は、一人の話者から収集された音声である。通常、その話者は、音声認識方法が実施される移動機器のユーザである。話者に依存しない音声認識の場合、キーワードの音声は、複数の話者の抽出標本から収集された音声である。代替方法として、キーワードの音声は、既に訓練され格納されている参照モデルである。

本発明の第１の態様による方法を図１に示す例によって説明する。ここで、有限状態シンタックスは、１つのキーワード・モデル、１つのＳＩＬモデルおよび複数のガーベイジ・モデルｇ_ｉを有する。その上、本発明に従って生成された正確に１つのガーベイジ・シーケンス・モデルが使用される。この例におけるガーベイジ・シーケンス・モデルは、図２に示すシンタックスに基づいて決定される連続ガーベイジ・モデルｇ_７−ｇ_３−ｇ_０−ｇ_２−ｇ_１−ｇ_５から構成される。次に図１に示す有限状態シンタックスが着信音声に適用される。その上、ヒット率が上がる。何故ならば、入力音声の一部がキーワード・モデルか決定されたガーベイジ・シーケンス・モデルのいずれかと最も良く一致する場合は、キーワードが認識されるからである。図１に示す有限状態シンタックスに基づいて本発明の第１の態様による方法が説明され、正確に１つのガーベイジ・シーケンス・モデルが使用されているとしても、本発明はその例に限定されない。認識されるべきキーワードごとにＮ個のさらなるガーベイジ・シーケンス・モデルが存在することができる。最初に決定されたガーベイジ・シーケンス・モデルに追加されるこれらのＮ個のガーベイジ・シーケンス・モデルにより、ヒット率は更に上がる。総数Ｎは、Ｎ＋１個のガーベイジ・シーケンス・モデルのそれぞれがキーワードを表す確率に基づいて限定される。したがって、決定されたガーベイジ・シーケンス・モデルごとに確率値が計算される。次にこれらのガーベイジ・シーケンス・モデルは、確率値がある閾値以上である総数Ｎ＋１個のガーベイジ・シーケンス・モデルとして選択される。代表的な閾値は、最大の使用可能な確率値の９０％である確率値として仮定されるが、ここで最大の使用可能な確率値とは最良のガーベイジ・シーケンス・モデルの確率値である。ガーベイジ・シーケンス・モデルの総数Ｎ＋１個を動作可能な量に限定するため、使用されるガーベイジ・シーケンス・モデルの総数Ｎ＋１個は最大１０に限定されなければならない。

都合の良いことに、決定されたガーベイジ・シーケンス・モデルは、複数のガーベイジ・モデルを通るどの経路に対しても特権が与えられる。特にガーベイジ・シーケンス・モデルを決定したその一連の連続ガーベイジ・モデルは、複数のガーベイジ・モデルからの同じ一連の連続ガーベイジ・モデルよりも常に高く重み付けされる。そのためヒット率が上がる。何故ならば、一連の連続ガーベイジ・モデルが入力音声と最も良く一致すると直ちに、ガーベイジ・シーケンス・モデルが選択され、入力音声の一部が、認識されるべきキーワードとして査定されるからである。本発明が、１つのキーワードに対する有限状態シンタックスに基づいて説明されているとしても、本発明は２つ以上のキーワードに対しても使用可能である。そのガーベイジ・シーケンス・モデルに特権を与えるため、複数のガーベイジ・モデルからのガーベイジ・モデルに対してペナルティが定義される。これによって、複数のガーベイジ・モデルを通る同一の一連のガーベイジ・モデルに比較して、ガーベイジ・シーケンス・モデルの確率がより高くなる。

複数のガーベイジ・モデルを通る経路から所定のガーベイジ・シーケンス・モデルに対するマッピングが図３に示されている。キーワード・モデルと最も良く一致する決定されたガーベイジ・シーケンス・モデルｇ_７−ｇ_３−ｇ_０−ｇ_２−ｇ_１−ｇ_５が横座標に示されている。着信入力音声の一部と最も良く一致し、複数のガーベイジ・モデルを通る検出された経路がｔ軸に示されている。例えば、図２に示す有限状態シンタックスに従って実行される決定されたガーベイジ・シーケンス・モデルは既に定義されている。しかし、第１の態様による方法とは反対に、そのガーベイジ・シーケンス・モデルを直接使用せずに入力音声の一部を認識されるべきキーワードとして査定する。むしろ認識のためには、図４に示す従来の技術による有限状態シンタックスが使用される。第１のステップで、複数のガーベイジ・モデルを通る経路が検出されると、その経路は入力音声と最も良く一致する。次に後処理において、その検出された経路は所定のガーベイジ・シーケンス・モデルと比較される。したがって、所定のガーベイジ・シーケンス・モデルが検出された経路の中に含まれる尤度が計算される。この尤度がある閾値以上の場合、最終的にその経路がガーベイジ・シーケンス・モデルとして仮定される。その経路がガーベイジ・シーケンス・モデルと仮定される場合、入力音声の一部は、認識されるべきキーワードとして査定される。また本発明の第２の態様による方法は、ヒット率を上げる。第１の態様による方法とは反対に、この方法はより融通性に富んでいるが、より多くの計算量を必要とする。ここでは、キーワード・モデルごとに１つだけのガーベイジ・シーケンス・モデルが格納されなければならず、認識処理は後処理計算である。図３に基づいて、キーワードが査定される後処理計算を詳細に説明する。複数のガーベイジ・モデルを通る検出された経路の中にガーベイジ・シーケンス・モデルが含まれる尤度を計算することによって、ソフト比較（soft comparison）が適用される。この尤度は、例えば、ダイナミックプログラミング（参考文献：ダイナミックプログラミング、Bellman. R.E.、プリンストン大学出版局、１９７２）とガーベイジ・モデル・コンフュージョン・マトリックスを使用することによって計算される。図３に示されている格子の各点において、所定のガーベイジ・シーケンス・モデルと、決定された経路が一致する尤度を説明する確率が計算される。したがって、ガーベイジ・モデル・コンフュージョン・マトリックスから知られているｉ≠ｊでｉ、ｊを整数とする確率P（g_i|g_j）が、放出（emission）の確率として使用される。代替方法として、同様により高いオーダの統計的モデルを使用しても良い。時間ｔにおけるガーベイジ・モデルｇ_ｉから離散時間t+1におけるガーベイジ・モデルｇ_ｊへ移行する遷移確率は、すべてのｉ、ｊ、ｔに対して一定であるので、検索において考慮されなくても良い。またｔからｔ＋１までの間にガーベイジ・シーケンス・モデルの同じガーベイジ・モデルの中にとどまるか、次のガーベイジ・モデルに移行するか、ガーベイジ・モデルをスキップするかのいずれかが許される。したがって、図３に示すように、ガーベイジ・シーケンス・モデルが経路の中で正確に発見されない場合は、ダイナミックプログラミングによる検索は、ｔ_０から（ｔ_０＋Ｍ）までの時間間隔内のガーベイジ・シーケンスに対して最良の確率を与える。後処理ステップにおいては、格子回路を通るすべての可能な経路が計算され、確率が最高の経路が、査定するステップのために使用される。最終ステップにおいてはダイナミックプログラミングにより所定の閾値より高い確率が与えられる場合は、認識されるべきキーワードとして入力音声の一部が査定される。この場合も本発明の第２の態様による方法は、１つだけのキーワードの認識に限定されない。２つ以上のキーワードの場合、この方法は、複数のキーワードのそれぞれに対して適用される。

本発明の原理的概念による方法は、ヒット率を上げる。ヒット率は、説明した本発明の両態様によって更に上がる。本発明の第１の態様による方法は、実施が容易であるとともに、あまり計算量を必要としない。本発明の第２の態様による方法の融通性はより大きい。本発明の第１と第２の態様の特徴を組み合わせる方法を適用すると、ヒット率を更に上げることができる。したがって、本発明の第１の態様に従って経路が１つまたは複数の所定のガーベイジ・シーケンス・モデルと直接最も良く一致する場合、または、本発明の第２の態様に従って経路がガーベイジ・シーケンス・モデルとして仮定される場合、入力音声の一部はキーワードとして査定される。その上、本発明の音声認識方法は融通性があるとともに、本発明が実施される移動機器内の、例えば、メモリサイズが限定されているような移動機器の限界に十分適応する。

図５は、例えば、移動電話機のような移動機器内の自動音声認識装置１００のブロック図を示している。（図示のように）いくつかの部分として、または１つの中央部分として構成される音声認識装置１００の中央部分は、パターン整合器１２０、メモリ部分１３０およびコントローラ部分１４０である。パターン整合器１２０は、キーワード・モデル、ガーベイジ・モデル、ＳＩＬモデルおよびガーベイジ・シーケンス・モデルを格納することができるメモリ部分１３０と接続される。キーワード・モデル、ＳＩＬモデルおよびガーベイジ・モデルは、周知の従来の技術による手法に従って生成される。ガーベイジ・シーケンス・モデルは、上記説明のように、本発明に従って決定される。コントローラ部分１４０は、パターン整合器１２０とメモリ部分１３０に接続される。コントローラ部分１４０、パターン整合器１２０およびメモリ部分１３０は、本発明の自動音声認識方法のいずれかを実行する中央部分である。移動機器のユーザから発話される音声は、マイクロフォン２１０からアナログ信号に変換される。このアナログ信号は、ＡＤ変換器２２０からデジタル信号に変換される。そのデジタル信号は、プリプロセッサ部分１１０からパラメトリック記述（parametric description）に変換される。プリプロセッサ部分１１０は、コントローラ部分１４０とパターン整合器１２０に接続される。パターン整合器１２０は本発明による有限状態シンタックスに基づいて、入力音声のパラメトリック記述と、メモリ部分１３０の中に格納されている各種モデルを比較する。入力音声の少なくとも一部からのパラメトリック記述がメモリ部分１３０の中に格納されたモデルの１つと一致すると、何が認識されると査定されるかの表示がユーザに与えられる。表示された認識結果は、移動機器の拡声器によって、またはディスプレイ（図示されず）上でユーザに伝えられる。

従来の技術から周知されている音声認識装置とは反対に、本発明による自動音声認識装置は、入力音声のいずれかの部分が、決定されメモリ部分に格納されたガーベイジ・シーケンス・モデルの少なくとも１つと最も良く一致する場合は、入力音声のその部分を認識されるべきキーワードとして査定する。その上、ヒット率が上がる。

本発明の第１の態様によるキーワード・スポッティング用有限状態シンタックスを示す図である。本発明に従ってガーベイジ・シーケンス・モデルを決定するための有限状態シンタックスを示す図である。本発明の第２の態様に従って複数のガーベイジ・モデルを通る経路をガーベイジ・シーケンス・モデルにマッピングすることを示す図である。従来の技術によるキーワード・スポッティング用有限状態シンタックスを示す図である。移動機器内の自動音声認識装置のブロック図を示す図である。

Claims

少なくとも１つのキーワード・モデルと複数のガーベイジ・モデルとにより入力音声からキーワードを認識する方法において、
入力音声の一部が前記キーワードまたはガーベイジ・シーケンス・モデルと最も良く一致する場合は、前記入力音声の一部は認識されるべきキーワードとして査定され、
前記ガーベイジ・シーケンス・モデルは、前記複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルである方法。
請求項１に記載の方法において、前記ガーベイジ・シーケンス・モデルは、
−認識されるべきキーワードを表すキーワードの音声と、前記複数のガーベイジ・モデルを比較するとともに、
−前記複数のガーベイジ・モデルから、認識されるべきキーワードと最も良く一致する一連の連続ガーベイジ・モデルを検出することによって、
決定される前記方法。
請求項１または請求項２に記載の方法において、
−前記決定されたガーベイジ・シーケンス・モデルは、前記複数のガーベイジ・モデルを通るいずれの経路に対しても特権が与えられる前記方法。
請求項１から請求項３のいずれかに記載の方法であって、更に、
−認識されるべき前記キーワードを表すいくつか（Ｎ個）のさらなるガーベイジ・シーケンス・モデルを決定し、
−前記入力音声の前記一部が前記個数（Ｎ個）のガーベイジ・シーケンス・モデルのいずれかと最も良く一致する場合は、前記入力音声の前記一部を、認識されるべき前記キーワードとして査定する、
前記方法。
請求項４に記載の方法において、総数（Ｎ＋１個）のガーベイジ・シーケンス・モデルは、
−ガーベイジ・シーケンス・モデルごとに確率値を計算するとともに、
−これらのガーベイジ・シーケンス・モデルを、前記確率値が所定の値より上の総数（Ｎ＋１個）のガーベイジ・シーケンス・モデルとして選択することによって、
決定される前記方法。
請求項１から請求項５のいずれかに記載の方法であって、更に、
−前記複数のガーベイジ・モデルを通るとともに前記入力音声と最も良く一致する経路を決定し、
−前記ガーベイジ・シーケンス・モデルが前記経路の中に含まれている場合は、前記経路の尤度を計算する、
前記方法において、
−前記尤度が閾値より上の場合、前記入力音声の一部を認識されるべきキーワードとして査定するために、前記複数のガーベイジ・モデルを通る前記経路は前記ガーベイジ・シーケンス・モデルと仮定される、
前記方法。
請求項６に記載の方法において、
−前記尤度は、前記決定されたガーベイジ・シーケンス・モデル、前記複数のガーベイジ・モデルを通る前記検出された経路およびガーベイジ・モデル・コンフュージョン・マトリックスに基づいて計算され、
−前記ガーベイジ・モデル・コンフュージョン・マトリックスは、ガーベイジ・モデルｉが認識され、仮定されたガーベイジ・モデルｊが与えられている確率P(i|j)を含む、
前記方法。
請求項７に記載の方法において、前記尤度は、ダイナミックプログラミングの手法を用いて計算される前記方法。
請求項１から請求項８のいずれかに記載の方法において、少なくとも１つのガーベイジ・シーケンス・モデルは、認識されるべき新しいキーワードのためにキーワード・モデルが生成される場合に決定される前記方法。
請求項１から請求項９のいずれかに記載の方法において、キーワード入力音声は、一人の話者から収集された音声である前記方法。
請求項１から請求項９のいずれかに記載の方法において、キーワード入力音声は、複数の話者の抽出標本から収集された音声である前記方法。
請求項１から請求項９のいずれかに記載の方法において、キーワード入力音声は、参照モデルである前記方法。
コンピュータプログラム製品が計算装置内で実行される場合、請求項１から請求項１２の１つに記載のステップを実行するプログラムコード手段を備えたコンピュータプログラム製品。
コンピュータ可読記録媒体上に格納され、請求項１３に記載のプログラムコード手段を備えたコンピュータプログラム製品。
請求項１から請求項１２のいずれかに記載の方法が実施される自動音声認識装置１００であって、
−マイクロフォン（２１０）に向かって発話され、ＡＤ変換器の中で変換されるデジタル信号を、パラメトリック記述に変換することができる前処理部分（１１０）と、
−キーワード・モデル、ＳＩＬモデル、ガーベイジ・モデルおよびガーベイジ・シーケンス・モデルを格納可能なメモリ部分（１３０）と、
−前記入力音声の前記パラメトリック記述が、前記格納されたキーワード・モデル、ＳＩＬモデル、ガーベイジ・モデルおよびガーベイジ・シーケンス・モデルと比較可能であるパターン整合器（１２０）と、
前記パターン整合器（１２０）と前記メモリ部分（１３０）の組み合わせで自動音声認識が実行可能であるコントローラ部分（１４０）と、
を含む自動音声認識装置。
請求項１５に記載の自動音声認識装置を備えた移動機器において、該移動機器は、移動電話機である移動機器。