JP6199994B2

JP6199994B2 - コンテキスト情報を使用した音声認識システムにおける誤警報低減

Info

Publication number: JP6199994B2
Application number: JP2015553683A
Authority: JP
Inventors: ビアトフ，コンスタンティン; ガナパティラジュ，アラビンド; ワイス，フェリックス，イマニュエル
Original assignee: インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date: 2013-01-22
Filing date: 2013-01-22
Publication date: 2017-09-20
Anticipated expiration: 2033-01-22
Also published as: CA2896801C; BR112015015900A2; EP2948943A4; EP2948943B1; NZ724941A; NZ709320A; AU2013375318B2; CA2896801A1; WO2014116199A1; EP2948943A1; JP2016503908A; AU2013375318A1; ZA201504570B; BR112015015900B1

Description

現在開示されている実施形態は一般的に自動音声認識システムと同様に通信システム及び方法に関する。より具体的には、現在開示されている実施形態は自動音声認識システム及び誤警報の低減に関係する。

システム及び方法は語彙レベル、音素レベル、音響レベルでグローバル及びローカルコンテキストを利用することにより誤警報を低減するための話し言葉検証を使用するために提示される。誤警報の低減は単語が検出されたか否か、又はそれが誤警報であるかを判定するプロセスを経て発生してもよい。トレーニング例はテスト単語例と比較される内部及び外部のコンテキストのモデルを生成するために使用される。単語は比較結果に基づいて受理又は拒否されてもよい。比較は単語が拒否されたか否かを判定するプロセスの終了時又はプロセスの複数のステップのいずれかで行われてもよい。

一実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ：ａ）単語のセットのコンテキストを分析するステップ；ｂ）前記単語のためのコンテキストを取得するステップ；ｃ）前記単語のためのトレーニング例のセットを取得するステップ；ｄ）コンテキストのモデルのセットを生成するステップ；ｅ）テスト単語のセットを受信するステップ；ｆ）前記テスト単語のセットを前記モデルのセットと比較するステップ；ｇ）モデル比較のための閾値を取得するステップ；ｈ）前記テスト単語のセットをモデルのセットのうちの第１の１つと比較した結果が閾値内にあるか否かを判定するステップ；及びｉ）結果が閾値内にない場合は単語を拒否するステップを含む。

別の実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ：ａ）単語のセットのコンテキストを分析するステップ；ｂ）前記単語のコンテキストを取得するステップ；ｃ）前記単語のためのトレーニング例のセットを取得するステップ；ｄ）コンテキストのモデルのセットを生成するステップ；ｅ）テスト単語のセットを受信するステップ；ｆ）前記テスト単語のセットをモデルのセットのうちの第１の１つと比較するステップ；ｇ）モデル比較のための閾値を取得するステップ；ｈ）前記テスト単語のセットをモデルのセットのうちの第１の１つと比較した結果が前記第１のモデルのための閾値内にあるか否かを判定するステップ；ｉ）結果が閾値内にない場合は単語を拒否するステップ；ｊ）前記テスト単語のセットをモデルのセットのうちの第２の１つと比較した結果が前記第２のモデルのための閾値内にあるか否かを判定するステップ；及びｋ）結果が第２のモデルの閾値を満たしていない場合は単語を拒否するステップを含む。

別の実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ：ａ）トレーニング例を受信するステップ；ｂ）トレーニング例の音響コンテキストのモデルを生成するステップ；ｃ）トレーニング例の音声コンテキストのモデルを生成するステップ；及びｄ）トレーニング例の言語コンテキストのモデルを生成するステップを含む。

別の実施形態では、音声認識システムで誤警報を低減するためのシステムが開示され、以下：ａ）単語のセットのコンテキストを分析する手段；ｂ）前記単語のコンテキストを取得する手段；ｃ）前記単語のトレーニング例のセットを取得する手段；ｄ）コンテキストのモデルのセットを生成する手段；ｅ）テスト単語のセットを受信する手段；ｆ）前記テスト単語のセットを前記モデルのセットと比較する手段；ｇ）モデル比較のための閾値を取得する手段；ｈ）前記テスト単語のセットをモデルのセットのうちの第１の１つと比較した結果が閾値内にあるか否かを判定する手段；及びｉ）結果が閾値内にない場合は単語を拒否する手段を備える。

キーワードスポッターの一実施形態における基本的なコンポーネントを示す図である。キーワードスポッターの変形実施形態を示す図である。音声認識システムの一実施形態における基本的なコンポーネントを示す図である。音声認識システムの変形実施形態を示す図である。単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。モデルを判定するためのプロセスの一実施形態を示すフローチャートである。単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。

本発明の原理の理解を促進する目的で、図面に示された実施形態について参照がこれから行われ、及び特定の言語が同じものを記述するために使用される。それにもかかわらず、それによって本発明の範囲を限定することが意図されないことが理解されるであろう。説明された実施形態における任意の変更及びさらなる修正、及び本明細書に説明された本発明の原理としての任意のさらなる応用は、本発明が関係する当業者に通常想起されるであろうと考えられる。

誤警報又は偽陽性の判定は音声信号内の１つ以上の話し言葉の検出及び認識で発生することがある。検出された話し言葉がシステムによりユーザ定義の単語と同一であることが誤って判定された際に発生が起こる可能性がある。誤警報に関連した検出された（１又は複数の）単語がユーザ定義の単語のいくつかの部分に音響的に類似しているかもしれない場合には、検出エラーが発生することがある。検出された単語はまた複数の単語の部分に音響的に類似しているかもしれず、検出誤差が結果として生じる可能性がある。例えば、音響的、音声的、及び語彙的などの複数のレベルでの、グローバルコンテキスト及びローカルコンテキストなどのコンテキストの使用は、例えばキーワードスポッティングのために設計されたシステム内の誤検出を回避する及び誤警報率を低減してもよい。

システム及び方法は、例えば語彙的、音声的、及び音響的などの複数のレベルでグローバル及びローカルなどのコンテキストを利用することにより誤警報を低減するための話し言葉検証を使用するために提示される。説明された実施形態は文法ベースの音声認識システム又はキーワードスポッティングシステムなどの、しかしこれらに限定されない音声認識システムで使用されてもよい。説明された実施形態はまた一般的な音声テキストエンジンを調整するために使用されてもよい。例えば、キーワードスポッティングシステムでは、方法はキーワードが正しくスポットされていることの検証を提供するためにキーワードがスポットされた後に適用されてもよい。少なくとも１つの実施形態では、トレーニングフェーズは方法に含まれる。トレーニングフェーズの前に、キーワードスポッティングシステムはキーワード検証なしで動作すると仮定されてもよい。スポットされたキーワードは正しく又は誤ってスポットされたとしてラベル付けされてもよい。認識されたキーワードのコンテキストは自動的に選択されてもよい。正しく認識された単語のコンテキストは正の例のコンテキストとラベル付けされてもよい。誤って認識されたキーワードのコンテキストは負の例のコンテキストとラベル付けされてもよい。トレーニングフェーズ中には、統計モデルはコンテキストごとにトレーニングされてもよい。モデルはコンテキストの各種類の特徴をコンパクトに表していてもよい。

音響レベルでは、コンテキスト抽出は追加の単語又は副単語（例えば、音素、音節）の認識を必要とせずに実行されてもよい。音響コンテキストはオーディオ信号から抽出された特徴ベクトルのシーケンスを参照してもよい。ローカル音響内部コンテキストは単語の境界内に含まれる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。ローカル音響外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。１つの単語のためのコンテキストの１つのタイプを表す特徴ベクトルシーケンスは１つのシーケンスで組み合わせられてもよい。各単語コンテキストタイプについて、このようなシーケンスが収集されてもよい。対応するコンテキストのモデルは単語ごとにこのコンテキストをコンパクトに表すようにトレーニングされてもよい。少なくとも１つの実施形態では、左内部、右内部、左外部、及び右外部のモデルは単語ごとにトレーニングされる。

少なくとも１つの実施形態では、例えばキーワードスポッティングシステムにおけるものなどのように、一旦コンテキストのモデルが準備されるとキーワードスポッティングが開始され、及び検証方法が利用される。キーワードスポッティングシステムはキーワードを検出する、しかしながら、キーワードが正しくスポットされない場合がある。各認識されたキーワードの音響内部及び外部コンテキストは自動的に抽出され、特徴ベクトルのシーケンスとして表されてもよい。各認識されたキーワードに対して、ローカル内部及びローカル外部コンテキストはローカル左内部コンテキストのモデル及びローカル右内部コンテキストのモデルと、及びローカル左外部コンテキストのモデル及び右外部コンテキストのモデルと比較されてもよい。次にモデル比較はキーワード又は誤警報の真の検出を定義する閾値内にあるか否かを判定されてもよい。閾値はトレーニングフェーズ中に人間により定義されてもよいか、又はこの閾値はクロスバリデーションセットを使用して自動的に学習され得るかのいずれかである。

少なくとも１つの実施形態では、閾値はトレーニングフェーズ中に監督された方法で取得されてもよい。閾値を取得する際に、ユーザはバリデーションセットを利用し、閾値のセットを定義し、及び閾値の１つを使用して誤警報を低減するために話し言葉検証を順次適用してもよい。最小限の誤った拒否で最大限の誤警報低減を提供する閾値は次にさらなるプロセスのために選択されてもよい。閾値は各単語に対して別々に選択されてもよく、又は共通の閾値がすべての単語のために定義されてもよい。

少なくとも１つの実施形態では、閾値はモデルのトレーニングに使用されていないバリデーションセット、又は開発セットの一部を使用して自動的に学習されてもよい。閾値の事前定義されたセットは値、例えば、０．５、０．６、０．７、０．８…２．２、２．３…４．５のシーケンスとして判定されてもよい。自動的に定義可能な閾値選択のために、誤警報を低減するための検証の方法は開発セットからの単語の各々に順次適用されてもよい。各閾値は閾値セットから利用されてもよい。開発セットでは、単語は正しく検出された又は誤って検出されたとしてラベル付けされてもよい。開発セットからの単語のローカル内部コンテキスト及びローカル外部コンテキストは事前定義された閾値セットからの１つの閾値を使用してローカル左及びローカル右内部コンテキストのモデルと、及びローカル左及びローカル右外部コンテキストのモデルと比較されてもよい。真の検出又は誤警報は各閾値に対して取得される。この検出は人間のラベル付けと自動的に比較され、及び比較の結果はさらなるプロセスのために収集される。結果は、例えば誤警報として拒否された単語のパーセント、又は誤って拒否された正しい単語のパーセントとされてもよい。誤って拒否された単語に対する正しく拒否された単語の最高比率の結果は収集された比較結果から選択されてもよく、及びこの結果に対応する閾値はさらなるプロセスのために事前定義された閾値として使用されてもよい。この閾値は各単語に対して別々に選択されてもよく、又は共通の閾値がすべての単語のために定義されてもよい。

音声レベルでは、コンテキストは自動音素認識の結果取得された音素の事前定義された長さシーケンスを参照してもよい。ローカル音声内部コンテキストは単語の境界内に含まれる単語の先頭の位置及び最後の位置に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。ローカル音声外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。コンテキストの１つのタイプを表す音素シーケンスは一緒に組み合わせられてもよい。これらのシーケンスは各単語のコンテキストのために収集されてもよい。各単語のコンテキストモデルはこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも１つの実施形態では、各単語について左内部、右内部、左外部及び右外部モデルはトレーニングされてもよい。音声レベルでは、モデルはｎグラム言語モデルとして表されてもよい。少なくとも１つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。

音素言語モデルに関する未知の音素シーケンスの低パープレキシティはモデルがこの音素のシーケンスによく適合していることを示していてもよい。コンテキストのモデルは音素言語モデルとして表されてもよい。各新しくスポットされた単語の内部及び外部のコンテキストは自動的に抽出され、及び音素のシーケンスとして表されてもよい。パープレキシティテストは左右音声コンテキスト依存単語の統計モデル及びテスト単語の左右音声コンテキストとの間の一致を評価するテスト手順として使用されてもよい。モデルの比較が単語の真の検出又は真の誤警報を定義するための閾値内にあるか否かが次に判定されてもよい。少なくとも１つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた例えば音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。

語彙レベルでは、グローバルコンテキストは関心のある（対象となっている）単語と一緒に１つの文中で共起する単語を参照してもよい。左コンテキストはこれらの単語が関心のある単語の左側に共起することを示していてもよい。右コンテキストはこれらの単語が関心のある単語の右側に共起することを示していてもよい。このような単語は元のオーディオ信号の自動単語認識の結果として取得されてもよい。少なくとも１つの実施形態では、グローバルコンテキストは左グローバル語彙コンテキスト及び右グローバル語彙コンテキストとともに話し言葉のトレーニングされた正及び負の例を受信することにより分析されてもよい。トレーニングされた単語は被験者による監督されたトレーニングの間にラベル付けされてもよい。ラベルは例えばトレーニングされた単語が正しく検出されたか又は誤検出されたか否かを反映してもよい。共起モデルは話し言葉の左語彙コンテキスト及び右語彙コンテキストとして生成されてもよい。コンテキスト単語シーケンスは、１つの文中の単語で共起する単語の左側及び右側で、標準的な言語モデルによりキャプチャされない、２つ以上のノンストップ単語を備えていてもよい。ストップ単語は、ｔｈｅ、ｉｓ、ａｔ、ｗｈｉｃｈ、及びｏｎなどのような一般的な、短い機能語として定義されてもよい。これらの単語はほとんど意味情報をもたらさなくてもよく、及び音声認識システムにより検出することが困難である。

語彙コンテキストをモデル化するために、統計的モデルが利用されてもよい。このようなモデルは正及び負の例のための左グローバル語彙コンテキスト及び右グローバル語彙コンテキストのスパースベクトルの形式であってもよい。新しい話し言葉の左右の語彙コンテキストは次に左右語彙コンテキストの共起モデルと比較されてもよい。少なくとも１つの実施形態では、コサイン距離などの合理的な距離メトリックは真の単語グローバル語彙コンテキスト及びテスト単語グローバル語彙コンテキストとの間の一致を評価するために使用されてもよい。コサイン距離は内積の尺度、重み付き距離、及び単語周波数の差分を含んでいてもよいがこれらに限定されない。次にモデル比較が単語の真の検出又は誤警報を定義するための閾値内にあるか否かが判定されてもよい。少なくとも１つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた例えば前述のように音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。

コンテキストサイズの選択はコンテキストがさらなる正確なモデルのトレーニングのための同一の単語タイプに属する際に、音響的に均質なコンテキストを取得するための平均音素及び音節の継続時間に基づいていてもよい。均質なコンテキストはローカル外部及びローカル内部コンテキストのサイズを定義することにより取得されてもよい。

いくつかの戦略（方策）は上記のような技術を使用して誤警報を低減するために使用されてもよい。ワンステップ戦略では、各新しい単語は以下でさらに詳細に図３で説明するようにメソッドを通過される。コンテキストはモデルに対してテストされ、しかしながら単語が受理又は拒否されるかを判定するか否かを判断するのはテストの終わりである。

引き続きの戦略では、各新しい単語は以下でさらに詳細に図６で説明するように引き続きメソッドを通過されてもよい。コンテキストはモデルに対してテストされる。特定のステップの後、単語は受理又は拒否として判定されてもよい。拒否された単語は破棄される一方、受理された単語は次のステップに通過される。すべてのステップを通過する単語は真に検出されたとして受理される。

マルチレベル戦略はまた以下でさらに詳細に図５及び図６で説明するように使用されてもよい。マルチレベル戦略では、各新しい単語は音響コンテキストに基づいてテストを通過される。受理された仮説は次に音声コンテキストに基づいてテストを通過される。最後に、受理された仮説はグローバル語彙コンテキストに基づいてテストを通過される。これは受理又は拒否についての判定が各コンテキストのテストの後に行われていない点、及びすべてのテストが完了した後の最後に遅延される点でワンステップ戦略とは異なる。

図１は１００で一般的に示されるキーワードスポッターの一実施形態における基本的なコンポーネントを示す図である。キーワードスポッター１００の基本的なコンポーネントは以下：ユーザデータ／キーワード１０５；キーワードモデル１１０；知識ソース１１５、音響モデル１２０及び発音辞書／予測子１２５を含んでいてもよい；オーディオストリーム１３０；フロントエンド特徴計算機１３５；認識エンジン（パターンマッチング）１４０；及びリアルタイムで発見されたキーワードを含む結果１４５を含んでいてもよい。

ユーザデータ／キーワード１０５はユーザの好みに応じてシステムのユーザにより定義されてもよい。キーワードモデル１１０は音素隠れマルコフモデル（ＨＭＭｓ）を連結することにより形成されてもよい。キーワードモデル１１０はユーザ及び知識ソース１１５に基づいてキーワードモデル１１０への入力により定義されるキーワード１０５に基づいて構成されてもよい。このような知識ソースは音響モデル１２０及び発音辞書／予測子１２５を含んでいてもよい。

音素は音の基本単位であると仮定されてもよい。このような音素の事前定義されたセットは特定の言語のすべての音を完全に記述すると仮定されてもよい。知識ソース１１５は、音声信号から抽出された特徴ベクトルのシーケンスなどの発音（音素）及び音響イベントとの間の関係の確率モデル、例えば隠れマルコフモデル‐ガウス混合モデル（ＨＭＭ−ＧＭＭ）を記憶してもよい。隠れマルコフモデル（ＨＭＭ）は観測されたオーディオ信号及び観測されない音素との関係を符号化してもよい。トレーニングプロセスは次に転写されたトレーニングデータの大きな集合にわたって所与の音素に対応するＨＭＭ状態により放出された特徴ベクトルの統計的特性を学習してもよい。音素の所与のＨＭＭ状態における特徴ベクトルのための放出確率密度はトレーニングプロセスを通じて学習されてもよい。このプロセスはまた音響モデルトレーニングと呼ばれてもよい。トレーニングはまたトライフォンのために実行されてもよい。トライフォンの例はセンターフォンに対応した音声表記シーケンス内の３音素のタプルであってもよい。トライフォンのいくつかのＨＭＭ状態は共通の放出確率密度関数を共有するために互いに接続されている。典型的には、放出確率密度関数はガウス混合モデル（ＧＭＭ）を使用してモデル化される。これらＧＭＭｓ及びＨＭＭｓのセットは音響モデルと名付けられる。

知識ソース１１５は大量のオーディオデータを分析することにより開発されてもよい。音響モデル１２０及び発音辞書／予測子１２５は、例えば「ｈｅｌｌｏ」などの単語及び単語を備える音素を調べることにより作成される。システム内のすべてのキーワードは音素と呼ばれるそれを構成するサブ単語単位の統計的モデルにより表される。標準の音素辞書に定義された「ｈｅｌｌｏ」のための音素は「ｈｈ」、「ｅｈ」、「ｌ」、及び「ｏｗ」である。これらは次にトライフォンのシーケンス、例えば「ｓｉｌ−ｈｈ＋ｅｈ」、「ｈｈ−ｅｈ＋ｌ」、「ｅｈ−ｌ＋ｏｗ」、「ｌ−ｏｗ＋ｓｉｌ」に変換され、ここで「ｓｉｌ」はサイレントフォン（無音）である。最後に、前述のように、すべての可能なトライフォンのＨＭＭ状態は束縛状態にマッピングされてもよい。束縛状態は音響モデルトレーニングが実行されてもよい一意的な状態である。これらのモデルは言語依存であってもよい。また多言語サポートを提供するために、複数の知識ソースが設けられてもよい。

音響モデル１２０は特定の言語で発生する様々な音を統計的にモデル化することにより形成されてもよい。発音辞書１２５は単語を音素のシーケンスに分解することに責任があってもよい。例えば、ユーザから提示された単語は特定の言語の書記素／アルファベットなどのように人間が読み取り可能な形態であってもよい。しかしながら、パターンマッチングアルゴリズムはキーワードの発音を表す音素のシーケンスに依存してもよい。一旦音素のシーケンスが取得されると、音響モデル内の音素の各々に対応する統計モデルは調べられてもよい。これらの統計モデルの連結は関心のある単語を、キーワードスポッティングを実行するために使用されてもよい。辞書中に存在しない単語に関して、言語の規則に基づいた予測子は発音を解決するために使用されてもよい。

オーディオストリーム１３０はフロントエンド特徴計算機１３５に供給されてもよく、オーディオストリームをオーディオストリームの表現又はスペクトル特徴のシーケンスに変換してもよい。オーディオストリーム１３０はユーザによりシステム内で話された単語から構成されてもよい。オーディオ分析は、例えばメル周波数ケプストラム係数（ＭＦＣＣ）及び／又はその変換などのスペクトル特徴の計算により実行されてもよい。

音素隠れマルコフモデル（ＨＭＭｓ）を連結することにより形成されるキーワードモデル１１０、及びオーディオストリーム１３０からの信号の両方は次にパターンマッチング１４０のための認識エンジンに供給されてもよい。例えば、認識エンジンのタスクは単語のセットを取り、また語彙集とも呼ばれ、及びそのオーディオ信号で話される最も可能性の高い文を判定するために音響モデルからの確率を使用して提示されたオーディオストリームを検索してもよい。音声認識エンジンの一例はキーワードスポッティングシステムを含んでいてもよいがこれに限定されるものではない。例えば、特徴計算機１３５により構成される多次元空間では、話し言葉は音響空間内の軌跡を形成するＭＦＣＣベクトルのシーケンスになってもよい。キーワードスポッティングはキーワードモデルに与えられた軌道を生成する確率を計算する問題に現在単になることがあってもよい。この動作はダイナミックプログラミングの周知の原理、特にキーワードモデルをオーディオ信号の最良のセグメントに整列させ、及び一致スコアを結果としてもたらすビタビアルゴリズムを使用することにより達成されてもよい。一致スコアが有意である場合、キーワードスポッティングアルゴリズムはキーワードが話されたことを推測し、及びキーワードスポッティングのイベントをレポートする。

単語の結果として生じるシーケンス１４５は次にリアルタイムでレポートされてもよい。例えば、レポートは単語が発見された信頼度値を有するオーディオストリーム内のキーワード又は文の開始時刻及び終了時刻として提示されてもよい。主要な信頼度値はキーワードが如何に話されているかの関数であってもよい。例えば、単一の単語の複数の発音の場合、キーワード「ｔｏｍａｔｏ」は「ｔｕｈ−ｍａｈ−ｔｏｗ」及び「ｔｕｈ−ｍａｙ−ｔｏｗ」と話されてもよい。単語はあまり一般的ではない発音で話されている際、又は単語がうまく発音されていない際には、主要な信頼度値は低くてもよい。特定の認識の一部である発音の明確な変異体はまたレポートに表示されてもよい。

図２は２００で一般的に示される修正されたキーワードスポッターの一実施形態を示す図である。キーワードスポッター１００の基本的なコンポーネントは以下：ユーザデータ／キーワード１０５；キーワードモデル１１０；知識ソース１１５、音響モデル１２０及び発音辞書／予測子１２５を含んでいてもよい；オーディオストリーム１３０；フロントエンド特徴計算機１３５；認識エンジン（パターンマッチング）１４０；及び前述のようにリアルタイムで発見されたキーワード１４５を包含する結果等のようなものに含まれてもよい。少なくとも１つの実施形態では、修正は誤受理モジュール２０５、フロントエンド特徴計算機１３５からの入力２１０、知識ソース１１５からの入力２１５、及び最終結果２２０を含んでいてもよい。誤受理モジュール２０５は誤警報拒否を改善するために利用可能な知識ソース１１５からの入力２１５及びフロントエンド特徴計算機１３５からの入力２１０を利用してもよい。このプロセスは次のように詳細に説明される。最終結果２２０は次に誤受理モジュール２０５から出力される。

図３は音声認識システムの一実施形態における基本的なコンポーネントを示す図である。音声認識システムの基本的なコンポーネントは以下：知識ソース１１５、音響モデル１２０及び発音辞書／予測子１２５；オーディオストリーム１３０；フロントエンド特徴計算機１３５；認識エンジン（パターンマッチング）１４０；及び前述のようにリアルタイムで発見された単語１４５を含む結果等のような、システム１００のエレメントを含んでいてもよい。少なくとも１つの実施形態では、音声認識システムは単語語彙集／語彙３０５及び統計的言語モデル３１０を含んでいてもよい。

単語語彙集／語彙３０５は音声認識エンジンが認識可能な単語のセットを備えていてもよい。前述のようなキーワードスポッターなどの音声認識エンジンについては、単語のセットは例えば数百に達するのみであってもよい。大語彙音声認識エンジンについては、このセットは非常に多くの数を含んでいてもよい。音声認識システムは検索空間を定義するために語彙又は語彙集を使用してもよい。

統計的言語モデル３１０は自然言語処理アプリケーションのための少なくとも１つの実施形態で使用されてもよい。このような自然言語処理アプリケーションは音声認識、機械翻訳、品詞タグ付け、構文解析、及び情報検索を備えていてもよい。統計的言語モデル３１０は言語の特性を捕捉するために使用されてもよい。統計的言語モデル３１０はまた音声シーケンス内の次の単語を予測するために使用されてもよい。少なくとも実施形態では、統計的言語モデル３１０はキーワードスポッター内のキーワードのセットなどの単語のセットを備えていてもよい。少なくとも実施形態では、統計的言語モデル３１０は可能な単語のシーケンスにより多くの構造を付加する文法を備えていてもよい。少なくとも実施形態では、統計的言語モデル３１０はまた自由形式の会話音声の転写に使用されるより複雑及び強力なｎグラム言語モデルを備えていてもよい。ｎグラム言語モデルはシーケンス内の過去の単語数、又はＮで与えられる次の単語の予測に役立つ統計的言語モデルを備えていてもよい。

図４は一般的に４００で示される変更された音声認識システムの一実施形態を示す図である。音声認識システム３００の基本的なコンポーネントは以下：単語語彙集／語彙３０５；統計的言語モデル３１０；知識ソース１１５、音響モデル１２０及び発音辞書／予測子１２５；オーディオストリーム１３０；フロントエンド特徴計算機１３５；認識エンジン（パターンマッチング）１４０；及び前述のようにリアルタイムで発見された単語１４５を含む結果のようなものを含んでいてもよい。少なくとも１つの実施形態では、変更は誤受理モジュール２０５、フロントエンド特徴計算機１３５からの入力２１０、知識ソース１１５からの入力２１５、及び最終結果２２０を含んでいてもよい。誤受理モジュール２０５は誤警報の拒否を改善するために入手可能な知識ソース１１５からの入力２１５及びフロントエンド特徴計算機１３５からの入力２１０を利用してもよい。このプロセスは次のように詳細に説明される。最終結果２２０は次に誤受理モジュール２０５から出力される。

図５に示されるように単語の受理を判定するためのプロセス５００の一実施形態が提供される。プロセス５００はシステム２００（図２）及び４００（図４）の誤受理モジュール２０５内で動作してもよい。

動作５０５において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はそれらのローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有している。いくつかの実施形態では、コンテキストのサイズは、キャプチャされた音響が各単語タイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作５１０に渡され、及びプロセス５００は継続する。

動作５１０において、左内部コンテキストのモデルが生成される。例えば、左内部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左内部コンテキストについて、単語の先頭が使用されてもよい。いくつかの実施形態では、コンテキストのサイズは平均音節サイズよりも小さく、及び平均音素サイズよりも大きい。これはユーザ定義の値又は経験的に選択された値であってもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述などの音響特徴の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは次に１つの単語タイプのすべてのトレーニング例のための左内部コンテキストの挙動を記述することをトレーニングされてもよい。少なくとも１つの実施形態では、単語コンテキストのモデルのサンプルは完全対角共分散を有するガウス混合モデル、隠れマルコフモデルなどを含んでいてもよい。制御は動作５１５に渡され、及びプロセス５００は継続する。

動作５１５において、右内部コンテキストのモデルが生成される。例えば、右内部コンテキストのモデルはトレーニングモデルを使用して各単語タイプについて生成される。右内部コンテキストは単語の最後で終了されてもよい。右内部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作５１０と同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは次に１つの単語タイプのすべてのトレーニング例のための右内部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作５２０に渡され、及びプロセス５００は継続する。

動作５２０において、左外部コンテキストのモデルが生成される。例えば、ローカル左外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左外部コンテキストは単語の先頭で終了してもよい。左外部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作５１０と同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左外部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは１つの単語タイプのすべてのトレーニング例のための左外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作５２５に渡され、及びプロセス５００は継続する。

動作５２５において、右外部コンテキストのモデルが生成される。例えば、ローカル右外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。右外部コンテキストは単語の最後で開始されてもよい。右外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作５１０で述べたものと同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右外部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは１つの単語タイプのすべてのトレーニング例のための右外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作５３０に渡され、及びプロセス５００は継続する。

動作５３０において、単語のテスト例が受信される。例えば、単語のテスト例及びその外部コンテキストが受信される。少なくとも１つの実施形態では、音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後で定義される。少なくとも１つの実施形態では、外部コンテキストを使用するテスト単語の検証について、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。コンテキストは検証手順のために受信されるべきである。制御は動作５３５に渡され、及びプロセス５００は継続する。

動作５３５において、テスト単語例はモデルと比較される。例えば、各テスト単語の例は左内部コンテキスト、右内部コンテキスト、左外部コンテキスト、及び右外部コンテキストのためのモデルと同時に比較される。各単語タイプについて、これらの単語タイプの左内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの左外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。制御は動作５４０に渡され、及びプロセス５００は継続する。

動作５４０において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ５５０に渡され、及びプロセス５００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ５４５に渡され、及びプロセス５００は継続する。

動作５４０における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。試験された単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次に試験された単語は検出されたとして受理される。試験された単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次に試験された単語は検出されたとして拒否される。

動作５４５において、単語は拒否される。プロセス５００は終了する。

動作５５０において、単語は検出されたとして受理される。プロセス５００は終了する。

図６に示すように、単語の受理を判定するためのプロセスの一実施形態が提供され、及び一般的に６００で示される。プロセス６００はシステム２００（図２）及び４００（図４）の誤受理モジュール２０５内で動作してもよい。

動作６０５において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有している。いくつかの実施形態では、コンテキストのサイズは、キャプチャされた音響が各単語タイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作６１０に渡され、及びプロセス６００は継続する。

動作６１０において、左内部コンテキストのモデルが生成される。例えば、左内部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左内部コンテキストについては、単語の先頭が使用されてもよい。いくつかの実施形態では、コンテキストのサイズは平均音節サイズよりも小さく、及び平均音素サイズよりも大きい。これはユーザ定義の値又は経験的に選択された値であってもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは次に１つの単語タイプのすべてのトレーニング例のための左内部コンテキストの挙動を記述することをトレーニングされてもよい。少なくとも１つの実施形態では、単語コンテキストのモデルのサンプルは完全対角共分散を有するガウス混合モデル、隠れマルコフモデルなどを含んでいてもよい。制御は動作６１５に渡され、及びプロセス６００は継続する。

動作６１５において、右内部コンテキストのモデルが生成される。例えば、右内部コンテキストのモデルはトレーニングモデルを使用して各単語タイプについて生成される。右内部コンテキストは単語の最後で終了してもよい。右内部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作６１０と同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右内部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは１つの単語タイプのすべてのトレーニング例のための右内部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作６２０に渡され、及びプロセス６００は継続する。

動作６２０において、左外部コンテキストのモデルが生成される。例えば、ローカル左外部コンテキストモデルはトレーニング例を使用して各単語タイプについて生成される。左外部コンテキストは単語の先頭で終了してもよい。左外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作６１０と同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左外部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは１つの単語タイプのすべてのトレーニング例のための左外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作６２５に渡され、及びプロセス６００は継続する。

動作６２５において、右外部コンテキストのモデルが生成される。例えば、ローカル右外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。右外部コンテキストは単語の最後で開始してもよい。右外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作６１０で述べたのと同じ方法で定義されてもよい。少なくとも１つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右外部コンテキストのコンパクトな表現を含んでいてもよい。１つの生成的な統計モデルは次に１つの単語タイプのすべてのトレーニング例のための右外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作６３０に渡され、及びプロセス６００は継続する。

動作６３０において、単語のテスト例が受信される。例えば、単語のテキスト例及びその外部コンテキストが受信される。少なくとも１つの実施形態では、音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後で定義される。少なくとも１つの実施形態では、外部コンテキストを使用するテスト単語の検証のため、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。コンテキストは検証手順のために受信されるべきである。制御は動作６３５に渡され、及びプロセス６００は継続する。

動作６３５において、テスト単語例は左内部コンテキストモデルと比較される。例えば、各テスト単語例は左内部コンテキストモデルと比較される。制御は動作６４０に渡され、及びプロセス６００は継続する。

動作６４０において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ６５０に渡され、及びプロセス６００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ６４５に渡され、及びプロセス６００は継続する。

動作６４０における判定は任意の適切な基準に基づいて行われてもよい。例えば、結果が閾値内にある場合、次に単語は他のタイプのコンテキストで調べられるためにさらにプロセスを通過する。結果が閾値内にない場合、次に単語はステップ６４５で誤警報として拒否される。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストが単語タイプの左内部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。左内部コンテキストのモデルに属する単語の確率がユーザ定義の閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から除外される。それ以外の場合には、単語は右内部コンテキストのモデルに関してさらに評価される。

動作６４５において、単語は拒否される。プロセス６００は終了する。

動作６５０において、テスト単語例は右内部コンテキストモデルと比較される。例えば、各テスト単語例は右内部コンテキストのモデルと比較される。制御は動作６５５に渡され、及びプロセス６００は継続する。

動作６５５において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ６６５に渡され、及びプロセス６００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ６６０に渡され、及びプロセス６００は継続する。

動作６５５における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。右内部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から除外される。それ以外の場合には、単語は左外部コンテキストのモデルに関してさらに評価される。

動作６６０において、単語は拒否される。プロセス６００は終了する。

動作６６５において、テスト単語例は左外部コンテキストモデルと比較される。例えば、各テスト単語例はローカル左外部コンテキストのモデルと比較される。制御は動作６７０に渡され、及びプロセス６００は継続する。

動作６７０において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ６８０に渡され、及びプロセス６００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ６７５に渡され、及びプロセス６００は継続する。

動作６７０における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。左外部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から拒否される。それ以外の場合には、単語は右外部コンテキストのモデルに関してさらに評価される。

動作６７５において、単語は拒否される。プロセス６００は終了する。

動作６８０において、テスト単語例は右外部コンテキストモデルと比較される。例えば、各テスト単語右外部コンテキストはローカル右外部コンテキストのモデルと比較される。制御は動作６８５に渡され、及びプロセス６００は継続する。

動作６８５において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ６９５に渡され、及びプロセス６００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ６９０に渡され、及びプロセス６００は継続する。

動作６８５における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値内にあるか否かを判定するために閾値と比較される。右外部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から拒否される。それ以外の場合には、単語は検出されたとして受理される。

動作６９０において、単語は拒否される。プロセス６００は終了する。

動作６９５において、単語は検出されたとして受理される。プロセス６００は終了する。

図７に示すように、マルチレベル戦略での使用のためのモデルを生成するためのプロセスの一実施形態（以下で図８にさらに説明される）が提供され、及び一般的に７００で示される。プロセス７００はシステム２００（図２）及び４００（図４）の誤受理モジュール２０５内で動作してもよい。

動作７０５において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有してもよい。いくつかの実施形態では、コンテキストのサイズはキャプチャされた音響が各単語のタイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作７１０に渡され、及びプロセス７００は継続する。

動作７１０において、モデルは音響コンテキストで生成される。音響レベルでは、コンテキストは追加の単語又は副単語（例えば、音素、音節）認識を必要とせずに実行されてもよい。音響コンテキストはオーディオ信号から抽出された特徴ベクトルのシーケンスを参照してもよい。ローカル音響内部コンテキストは単語の境界内に含まれる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。ローカル音響外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。１つの単語の１つのタイプのコンテキストを表す特徴ベクトルシーケンスは１つのシーケンスに結合される。各単語コンテキストタイプについて、そのようなシーケンスは収集される。対応するコンテキストのモデルは各単語についてこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも１つの実施形態では、左内部、右内部、左外部及び右外部モデルは各単語についてトレーニングされる。制御は動作７１５に渡され、及びプロセス７００は継続する。

動作７１５において、モデルは音声コンテキストで生成される。音声レベルでは、コンテキストは自動音素認識の結果として取得された音素の事前定義された長さのシーケンスを参照してもよい。ローカル音声内部コンテキストは単語の境界内に含まれる単語の先頭位置及び最後の位置に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。ローカル音声外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。１つのタイプのコンテキストを表す音素シーケンスは一緒に結合されてもよい。これらのシーケンスは各単語コンテキストについて収集されてもよい。各単語のコンテキストモデルはこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも１つの実施形態では、各単語について左内部、右内部、左外部及び右外部モデルはトレーニングされてもよい。音声レベルでは、モデルはｎグラム言語モデルとして表されてもよい。少なくとも１つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。制御は動作７２０に渡され、及びプロセス７００は継続する。

動作７２０において、モデルは言語のコンテキストで生成され、及びプロセスは終了する。語彙レベル上で、グローバルコンテキストは単語と一緒に１つの文章内で共起する単語を参照してもよい。左コンテキストはこれらの単語が単語の左側に共起することを示していてもよい。右コンテキストはこれらの単語が単語の右側に共起することを示していてもよい。このような単語は元のオーディオ信号の自動単語認識の結果として取得されてもよい。少なくとも１つの実施形態では、グローバルコンテキストはその左グローバル語彙コンテキスト及び右グローバル語彙コンテキストで話し言葉のトレーニングをされた正及び負の例を受信することにより分析されてもよい。トレーニングされた言葉は人間の被験者による監督されたトレーニングの間にラベル付けされてもよい。ラベルは、例えばトレーニングされた言葉が正しく検出されたか又は誤って検出されたか否かを反映していてもよい。共起モデルは話し言葉の左語彙コンテキスト及び右語彙コンテキストで生成されてもよい。コンテキスト単語シーケンスは２つ以上のノンストップ単語を含んでいてもよく、１つの文の単語と共起する単語の左側及び右側上で標準的な言語モデルによりキャプチャされない。ストップ単語は、ｔｈｅ、ｉｓ、ａｔ、ｗｈｉｃｈ、及びｏｎなどのような一般的な、短い機能語として定義されてもよい。これらの単語は典型的にはほとんど意味情報をもたらさなくてもよく、及び音声認識システムにより検出することが困難である。語彙コンテキストをモデル化するために、統計モデルが利用されてもよい。このようなモデルは正及び負の例のための左グローバル語彙コンテキスト及び右グローバル語彙コンテキストのスパースベクトルの形式であってもよい。

図８に示すように、単語の受理を判定するためのプロセスの一実施形態が提供され、一般的に８００で示される。プロセス８００はシステム２００（図２）及び４００（図４）の誤受理モジュール２０５で動作してもよい。マルチレベル戦略は受理又は拒否に関する判定が各コンテキストテスト後に行われない、及びすべてのテストの完了後に最後まで遅延されるという点で、ワンステップ戦略とは異なる。

動作８０５において、単語のテスト例が受信される。例えば、単語のテスト例及びその外部コンテキストが受信される。音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後により定義される。少なくとも１つの実施形態では、外部コンテキストを使用するテスト単語の検証について、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。制御は動作８１０に渡され、及びプロセス８００は継続する。

動作８１０において、単語のテスト例は音響コンテキストモデルと比較される。例えば、各テスト単語の例は左内部コンテキスト、右内部コンテキスト、左外部コンテキスト、及び右外部コンテキストのためのモデルと同時に比較される。各単語タイプについて、これらの単語タイプの左内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの左外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。制御は動作８１５に渡され、及びプロセス８００は継続する。

動作８１５において、テスト単語例とモデルとの比較が閾値又は最適な自動的に判定された閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ８２５に渡され、及びプロセス８００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、次に制御はステップ８２０に渡され、及びプロセス８００は継続する。

動作８１５における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次にテストされた単語は検出されたとして受理される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次にテストされた単語は検出されたとして拒否される。

動作８２０において、単語は拒否される。プロセス８００は終了する。

動作８２５において、単語のテスト例は音声コンテキストモデルと比較される。少なくとも１つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。

音素言語モデルに関する未知の音素シーケンスの低パープレキシティはモデルがこの音素シーケンスによく適合することを示していてもよい。コンテキストのモデルは音素言語モデルとして表されてもよい。各新しいスポットされた単語の内部及び外部コンテキストは自動的に抽出され、及び音素のシーケンスとして表されてもよい。パープレキシティテストは左右音声コンテキストに依存する単語の統計モデル及びテスト単語の左右音声コンテキストとの間の一致を評価するテスト手順として使用されてもよい。モデルの比較が単語の定義された真の検出又は真の誤警報の閾値内にあるか否かが次に判定されてもよい。少なくとも１つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた、例えば音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。制御は動作８３０に渡され、プロセス８００は継続する。

動作８３０において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ８４０に渡され、及びプロセス８００は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ８３５に渡され、及びプロセス８００は継続する。

動作８３０における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次にテストされた単語は検出されたとして受理される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次にテストされた単語は検出されたとして拒否される。

動作８３５において、単語は拒否される。プロセス８００は終了する。

動作８４０において、単語のテスト例は言語コンテキストモデルと比較される。新しい話し言葉の左右の語彙コンテキストは次に左右の語彙コンテキストの共起モデルと比較されてもよい。少なくとも１つの実施形態では、コサイン距離などの合理的な距離メトリックは真の単語グローバル語彙コンテキスト及びテスト単語グローバル語彙コンテキストとの間の一致を評価するために使用されてもよい。コサイン距離は内積、重み付き距離、及び単語周波数の差分の測定値を含んでいてもよいが、これらに限定されない。モデル比較が単語の真の検出又は誤警報を定義するための閾値内にあるか否かが次に判定されてもよい。少なくとも一実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた、例えば前述のように音響レベルと同じ方法でクロスバリデーションセットを使用して自動的に学習されてもよい。制御は動作８４５に渡され、及びプロセス８００は継続する。

動作８４５において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ８５５に渡され、及びプロセス８００は継続する。テスト単語例とモデルとの比較が定義された閾値内に入らないと判定された場合、制御はステップ８５０に渡され、及びプロセス８００は継続する。

動作８３０における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が閾値内にある場合、次にテストされた単語は検出されたとして受理される。テスト単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が閾値内にない場合、テストされた単語は検出されたとして拒否される。

動作８５０において、単語は拒否される。プロセス８００は終了する。

動作８５５において、単語は受理される。プロセス８００は終了する。

本発明は図面及び前述の説明において詳細に図示及び説明されてきたが、同じことは例示的であり、及び文字において限定的ではないと考えられるべきであり、好ましい実施形態のみが示され、及び説明されていること、及び本明細書に記載される本発明の趣旨の範囲内に入る、及び／又は添付の特許請求の範囲によるすべての等価物、変更、及び修正が保護されることが望まれることを理解されたい。

したがって、本発明の適切な範囲は、すべてのそのような変更ならびに図面に示され、及び明細書に記載されたこれらと同等のすべての関係を包含するように、添付の特許請求の範囲の最も広い解釈により決定されるべきである。

Claims

音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
複数のトレーニング例を受信するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による左内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左内部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による右内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右内部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による左外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左外部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による右外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右外部コンテキストのモデルを生成するステップと、
外部コンテキストを含む少なくとも１つのテスト単語を受信するステップと、
前記少なくとも１つのテスト単語の前記外部コンテキストを、前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
前記少なくとも１つのテスト単語が前記閾値内に入らない場合に、前記少なくとも１つのテスト単語を拒否するステップと、
を含むことを特徴とする方法。
前記テスト単語は、アナログのコンテキストである、請求項１に記載の方法。
前記テスト単語をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項２に記載の方法。
前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み、
前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される、請求項１に記載の方法。
前記複数のトレーニング例における各トレーニング例は、テスト単語及びローカルコンテキストの表現を含み、
各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項１に記載の方法。
前記比較するステップは、前記少なくとも１つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項１に記載の方法。
前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルは、複数のコンパクトな表現を含む、請求項１に記載の方法。
音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
各々が話し言葉及びローカルコンテキストの表現を含む複数のトレーニング例を受信するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による音響コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも１つの前記音響コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による音声コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも１つの前記音声コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による言語コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも１つの前記言語コンテキストのモデルを生成するステップと、
外部コンテキストを含む少なくとも１つのテスト単語を受信するステップと、
前記少なくとも１つのテスト単語を、前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
前記少なくとも１つのテスト単語が前記閾値内に入らない場合に、前記少なくとも１つのテスト単語を拒否するステップと、
を含むことを特徴とする方法。
前記話し言葉は、アナログのコンテキストである、請求項８に記載の方法。
前記話し言葉をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項９に記載の方法。
前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み、
前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される、請求項８に記載の方法。
前記複数のトレーニング例における各トレーニング例は、話し言葉及びローカルコンテキストの表現を含み、
各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項８に記載の方法。
前記比較するステップは、前記少なくとも１つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項８に記載の方法。
前記音響コンテキストのモデルを生成するステップは、前記複数のトレーニング例の中の各話し言葉に対して、左内部モデル、右内部モデル、左外部モデル、及び右外部モデルを生成するステップを含む、請求項８に記載の方法。