JP6199994B2 - コンテキスト情報を使用した音声認識システムにおける誤警報低減 - Google Patents

コンテキスト情報を使用した音声認識システムにおける誤警報低減 Download PDF

Info

Publication number
JP6199994B2
JP6199994B2 JP2015553683A JP2015553683A JP6199994B2 JP 6199994 B2 JP6199994 B2 JP 6199994B2 JP 2015553683 A JP2015553683 A JP 2015553683A JP 2015553683 A JP2015553683 A JP 2015553683A JP 6199994 B2 JP6199994 B2 JP 6199994B2
Authority
JP
Japan
Prior art keywords
context
model
word
threshold
external
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015553683A
Other languages
English (en)
Other versions
JP2016503908A (ja
Inventor
ビアトフ,コンスタンティン
ガナパティラジュ,アラビンド
ワイス,フェリックス,イマニュエル
Original Assignee
インタラクティブ・インテリジェンス・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インタラクティブ・インテリジェンス・インコーポレイテッド filed Critical インタラクティブ・インテリジェンス・インコーポレイテッド
Publication of JP2016503908A publication Critical patent/JP2016503908A/ja
Application granted granted Critical
Publication of JP6199994B2 publication Critical patent/JP6199994B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Description

現在開示されている実施形態は一般的に自動音声認識システムと同様に通信システム及び方法に関する。より具体的には、現在開示されている実施形態は自動音声認識システム及び誤警報の低減に関係する。
システム及び方法は語彙レベル、音素レベル、音響レベルでグローバル及びローカルコンテキストを利用することにより誤警報を低減するための話し言葉検証を使用するために提示される。誤警報の低減は単語が検出されたか否か、又はそれが誤警報であるかを判定するプロセスを経て発生してもよい。トレーニング例はテスト単語例と比較される内部及び外部のコンテキストのモデルを生成するために使用される。単語は比較結果に基づいて受理又は拒否されてもよい。比較は単語が拒否されたか否かを判定するプロセスの終了時又はプロセスの複数のステップのいずれかで行われてもよい。
一実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ:a)単語のセットのコンテキストを分析するステップ;b)前記単語のためのコンテキストを取得するステップ;c)前記単語のためのトレーニング例のセットを取得するステップ;d)コンテキストのモデルのセットを生成するステップ;e)テスト単語のセットを受信するステップ;f)前記テスト単語のセットを前記モデルのセットと比較するステップ;g)モデル比較のための閾値を取得するステップ;h)前記テスト単語のセットをモデルのセットのうちの第1の1つと比較した結果が閾値内にあるか否かを判定するステップ;及びi)結果が閾値内にない場合は単語を拒否するステップを含む。
別の実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ:a)単語のセットのコンテキストを分析するステップ;b)前記単語のコンテキストを取得するステップ;c)前記単語のためのトレーニング例のセットを取得するステップ;d)コンテキストのモデルのセットを生成するステップ;e)テスト単語のセットを受信するステップ;f)前記テスト単語のセットをモデルのセットのうちの第1の1つと比較するステップ;g)モデル比較のための閾値を取得するステップ;h)前記テスト単語のセットをモデルのセットのうちの第1の1つと比較した結果が前記第1のモデルのための閾値内にあるか否かを判定するステップ;i)結果が閾値内にない場合は単語を拒否するステップ;j)前記テスト単語のセットをモデルのセットのうちの第2の1つと比較した結果が前記第2のモデルのための閾値内にあるか否かを判定するステップ;及びk)結果が第2のモデルの閾値を満たしていない場合は単語を拒否するステップを含む。
別の実施形態では、音声認識システムで誤警報を低減するコンピュータ実装方法が開示され、以下のステップ:a)トレーニング例を受信するステップ;b)トレーニング例の音響コンテキストのモデルを生成するステップ;c)トレーニング例の音声コンテキストのモデルを生成するステップ;及びd)トレーニング例の言語コンテキストのモデルを生成するステップを含む。
別の実施形態では、音声認識システムで誤警報を低減するためのシステムが開示され、以下:a)単語のセットのコンテキストを分析する手段;b)前記単語のコンテキストを取得する手段;c)前記単語のトレーニング例のセットを取得する手段;d)コンテキストのモデルのセットを生成する手段;e)テスト単語のセットを受信する手段;f)前記テスト単語のセットを前記モデルのセットと比較する手段;g)モデル比較のための閾値を取得する手段;h)前記テスト単語のセットをモデルのセットのうちの第1の1つと比較した結果が閾値内にあるか否かを判定する手段;及びi)結果が閾値内にない場合は単語を拒否する手段を備える。
キーワードスポッターの一実施形態における基本的なコンポーネントを示す図である。 キーワードスポッターの変形実施形態を示す図である。 音声認識システムの一実施形態における基本的なコンポーネントを示す図である。 音声認識システムの変形実施形態を示す図である。 単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。 単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。 モデルを判定するためのプロセスの一実施形態を示すフローチャートである。 単語の受理を判定するためのプロセスの一実施形態を示すフローチャートである。
本発明の原理の理解を促進する目的で、図面に示された実施形態について参照がこれから行われ、及び特定の言語が同じものを記述するために使用される。それにもかかわらず、それによって本発明の範囲を限定することが意図されないことが理解されるであろう。説明された実施形態における任意の変更及びさらなる修正、及び本明細書に説明された本発明の原理としての任意のさらなる応用は、本発明が関係する当業者に通常想起されるであろうと考えられる。
誤警報又は偽陽性の判定は音声信号内の1つ以上の話し言葉の検出及び認識で発生することがある。検出された話し言葉がシステムによりユーザ定義の単語と同一であることが誤って判定された際に発生が起こる可能性がある。誤警報に関連した検出された(1又は複数の)単語がユーザ定義の単語のいくつかの部分に音響的に類似しているかもしれない場合には、検出エラーが発生することがある。検出された単語はまた複数の単語の部分に音響的に類似しているかもしれず、検出誤差が結果として生じる可能性がある。例えば、音響的、音声的、及び語彙的などの複数のレベルでの、グローバルコンテキスト及びローカルコンテキストなどのコンテキストの使用は、例えばキーワードスポッティングのために設計されたシステム内の誤検出を回避する及び誤警報率を低減してもよい。
システム及び方法は、例えば語彙的、音声的、及び音響的などの複数のレベルでグローバル及びローカルなどのコンテキストを利用することにより誤警報を低減するための話し言葉検証を使用するために提示される。説明された実施形態は文法ベースの音声認識システム又はキーワードスポッティングシステムなどの、しかしこれらに限定されない音声認識システムで使用されてもよい。説明された実施形態はまた一般的な音声テキストエンジンを調整するために使用されてもよい。例えば、キーワードスポッティングシステムでは、方法はキーワードが正しくスポットされていることの検証を提供するためにキーワードがスポットされた後に適用されてもよい。少なくとも1つの実施形態では、トレーニングフェーズは方法に含まれる。トレーニングフェーズの前に、キーワードスポッティングシステムはキーワード検証なしで動作すると仮定されてもよい。スポットされたキーワードは正しく又は誤ってスポットされたとしてラベル付けされてもよい。認識されたキーワードのコンテキストは自動的に選択されてもよい。正しく認識された単語のコンテキストは正の例のコンテキストとラベル付けされてもよい。誤って認識されたキーワードのコンテキストは負の例のコンテキストとラベル付けされてもよい。トレーニングフェーズ中には、統計モデルはコンテキストごとにトレーニングされてもよい。モデルはコンテキストの各種類の特徴をコンパクトに表していてもよい。
音響レベルでは、コンテキスト抽出は追加の単語又は副単語(例えば、音素、音節)の認識を必要とせずに実行されてもよい。音響コンテキストはオーディオ信号から抽出された特徴ベクトルのシーケンスを参照してもよい。ローカル音響内部コンテキストは単語の境界内に含まれる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。ローカル音響外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。1つの単語のためのコンテキストの1つのタイプを表す特徴ベクトルシーケンスは1つのシーケンスで組み合わせられてもよい。各単語コンテキストタイプについて、このようなシーケンスが収集されてもよい。対応するコンテキストのモデルは単語ごとにこのコンテキストをコンパクトに表すようにトレーニングされてもよい。少なくとも1つの実施形態では、左内部、右内部、左外部、及び右外部のモデルは単語ごとにトレーニングされる。
少なくとも1つの実施形態では、例えばキーワードスポッティングシステムにおけるものなどのように、一旦コンテキストのモデルが準備されるとキーワードスポッティングが開始され、及び検証方法が利用される。キーワードスポッティングシステムはキーワードを検出する、しかしながら、キーワードが正しくスポットされない場合がある。各認識されたキーワードの音響内部及び外部コンテキストは自動的に抽出され、特徴ベクトルのシーケンスとして表されてもよい。各認識されたキーワードに対して、ローカル内部及びローカル外部コンテキストはローカル左内部コンテキストのモデル及びローカル右内部コンテキストのモデルと、及びローカル左外部コンテキストのモデル及び右外部コンテキストのモデルと比較されてもよい。次にモデル比較はキーワード又は誤警報の真の検出を定義する閾値内にあるか否かを判定されてもよい。閾値はトレーニングフェーズ中に人間により定義されてもよいか、又はこの閾値はクロスバリデーションセットを使用して自動的に学習され得るかのいずれかである。
少なくとも1つの実施形態では、閾値はトレーニングフェーズ中に監督された方法で取得されてもよい。閾値を取得する際に、ユーザはバリデーションセットを利用し、閾値のセットを定義し、及び閾値の1つを使用して誤警報を低減するために話し言葉検証を順次適用してもよい。最小限の誤った拒否で最大限の誤警報低減を提供する閾値は次にさらなるプロセスのために選択されてもよい。閾値は各単語に対して別々に選択されてもよく、又は共通の閾値がすべての単語のために定義されてもよい。
少なくとも1つの実施形態では、閾値はモデルのトレーニングに使用されていないバリデーションセット、又は開発セットの一部を使用して自動的に学習されてもよい。閾値の事前定義されたセットは値、例えば、0.5、0.6、0.7、0.8…2.2、2.3…4.5のシーケンスとして判定されてもよい。自動的に定義可能な閾値選択のために、誤警報を低減するための検証の方法は開発セットからの単語の各々に順次適用されてもよい。各閾値は閾値セットから利用されてもよい。開発セットでは、単語は正しく検出された又は誤って検出されたとしてラベル付けされてもよい。開発セットからの単語のローカル内部コンテキスト及びローカル外部コンテキストは事前定義された閾値セットからの1つの閾値を使用してローカル左及びローカル右内部コンテキストのモデルと、及びローカル左及びローカル右外部コンテキストのモデルと比較されてもよい。真の検出又は誤警報は各閾値に対して取得される。この検出は人間のラベル付けと自動的に比較され、及び比較の結果はさらなるプロセスのために収集される。結果は、例えば誤警報として拒否された単語のパーセント、又は誤って拒否された正しい単語のパーセントとされてもよい。誤って拒否された単語に対する正しく拒否された単語の最高比率の結果は収集された比較結果から選択されてもよく、及びこの結果に対応する閾値はさらなるプロセスのために事前定義された閾値として使用されてもよい。この閾値は各単語に対して別々に選択されてもよく、又は共通の閾値がすべての単語のために定義されてもよい。
音声レベルでは、コンテキストは自動音素認識の結果取得された音素の事前定義された長さシーケンスを参照してもよい。ローカル音声内部コンテキストは単語の境界内に含まれる単語の先頭の位置及び最後の位置に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。ローカル音声外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。コンテキストの1つのタイプを表す音素シーケンスは一緒に組み合わせられてもよい。これらのシーケンスは各単語のコンテキストのために収集されてもよい。各単語のコンテキストモデルはこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも1つの実施形態では、各単語について左内部、右内部、左外部及び右外部モデルはトレーニングされてもよい。音声レベルでは、モデルはnグラム言語モデルとして表されてもよい。少なくとも1つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。
音素言語モデルに関する未知の音素シーケンスの低パープレキシティはモデルがこの音素のシーケンスによく適合していることを示していてもよい。コンテキストのモデルは音素言語モデルとして表されてもよい。各新しくスポットされた単語の内部及び外部のコンテキストは自動的に抽出され、及び音素のシーケンスとして表されてもよい。パープレキシティテストは左右音声コンテキスト依存単語の統計モデル及びテスト単語の左右音声コンテキストとの間の一致を評価するテスト手順として使用されてもよい。モデルの比較が単語の真の検出又は真の誤警報を定義するための閾値内にあるか否かが次に判定されてもよい。少なくとも1つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた例えば音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。
語彙レベルでは、グローバルコンテキストは関心のある(対象となっている)単語と一緒に1つの文中で共起する単語を参照してもよい。左コンテキストはこれらの単語が関心のある単語の左側に共起することを示していてもよい。右コンテキストはこれらの単語が関心のある単語の右側に共起することを示していてもよい。このような単語は元のオーディオ信号の自動単語認識の結果として取得されてもよい。少なくとも1つの実施形態では、グローバルコンテキストは左グローバル語彙コンテキスト及び右グローバル語彙コンテキストとともに話し言葉のトレーニングされた正及び負の例を受信することにより分析されてもよい。トレーニングされた単語は被験者による監督されたトレーニングの間にラベル付けされてもよい。ラベルは例えばトレーニングされた単語が正しく検出されたか又は誤検出されたか否かを反映してもよい。共起モデルは話し言葉の左語彙コンテキスト及び右語彙コンテキストとして生成されてもよい。コンテキスト単語シーケンスは、1つの文中の単語で共起する単語の左側及び右側で、標準的な言語モデルによりキャプチャされない、2つ以上のノンストップ単語を備えていてもよい。ストップ単語は、the、is、at、which、及びonなどのような一般的な、短い機能語として定義されてもよい。これらの単語はほとんど意味情報をもたらさなくてもよく、及び音声認識システムにより検出することが困難である。
語彙コンテキストをモデル化するために、統計的モデルが利用されてもよい。このようなモデルは正及び負の例のための左グローバル語彙コンテキスト及び右グローバル語彙コンテキストのスパースベクトルの形式であってもよい。新しい話し言葉の左右の語彙コンテキストは次に左右語彙コンテキストの共起モデルと比較されてもよい。少なくとも1つの実施形態では、コサイン距離などの合理的な距離メトリックは真の単語グローバル語彙コンテキスト及びテスト単語グローバル語彙コンテキストとの間の一致を評価するために使用されてもよい。コサイン距離は内積の尺度、重み付き距離、及び単語周波数の差分を含んでいてもよいがこれらに限定されない。次にモデル比較が単語の真の検出又は誤警報を定義するための閾値内にあるか否かが判定されてもよい。少なくとも1つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた例えば前述のように音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。
コンテキストサイズの選択はコンテキストがさらなる正確なモデルのトレーニングのための同一の単語タイプに属する際に、音響的に均質なコンテキストを取得するための平均音素及び音節の継続時間に基づいていてもよい。均質なコンテキストはローカル外部及びローカル内部コンテキストのサイズを定義することにより取得されてもよい。
いくつかの戦略(方策)は上記のような技術を使用して誤警報を低減するために使用されてもよい。ワンステップ戦略では、各新しい単語は以下でさらに詳細に図3で説明するようにメソッドを通過される。コンテキストはモデルに対してテストされ、しかしながら単語が受理又は拒否されるかを判定するか否かを判断するのはテストの終わりである。
引き続きの戦略では、各新しい単語は以下でさらに詳細に図6で説明するように引き続きメソッドを通過されてもよい。コンテキストはモデルに対してテストされる。特定のステップの後、単語は受理又は拒否として判定されてもよい。拒否された単語は破棄される一方、受理された単語は次のステップに通過される。すべてのステップを通過する単語は真に検出されたとして受理される。
マルチレベル戦略はまた以下でさらに詳細に図5及び図6で説明するように使用されてもよい。マルチレベル戦略では、各新しい単語は音響コンテキストに基づいてテストを通過される。受理された仮説は次に音声コンテキストに基づいてテストを通過される。最後に、受理された仮説はグローバル語彙コンテキストに基づいてテストを通過される。これは受理又は拒否についての判定が各コンテキストのテストの後に行われていない点、及びすべてのテストが完了した後の最後に遅延される点でワンステップ戦略とは異なる。
図1は100で一般的に示されるキーワードスポッターの一実施形態における基本的なコンポーネントを示す図である。キーワードスポッター100の基本的なコンポーネントは以下:ユーザデータ/キーワード105;キーワードモデル110;知識ソース115、音響モデル120及び発音辞書/予測子125を含んでいてもよい;オーディオストリーム130;フロントエンド特徴計算機135;認識エンジン(パターンマッチング)140;及びリアルタイムで発見されたキーワードを含む結果145を含んでいてもよい。
ユーザデータ/キーワード105はユーザの好みに応じてシステムのユーザにより定義されてもよい。キーワードモデル110は音素隠れマルコフモデル(HMMs)を連結することにより形成されてもよい。キーワードモデル110はユーザ及び知識ソース115に基づいてキーワードモデル110への入力により定義されるキーワード105に基づいて構成されてもよい。このような知識ソースは音響モデル120及び発音辞書/予測子125を含んでいてもよい。
音素は音の基本単位であると仮定されてもよい。このような音素の事前定義されたセットは特定の言語のすべての音を完全に記述すると仮定されてもよい。知識ソース115は、音声信号から抽出された特徴ベクトルのシーケンスなどの発音(音素)及び音響イベントとの間の関係の確率モデル、例えば隠れマルコフモデル‐ガウス混合モデル(HMM−GMM)を記憶してもよい。隠れマルコフモデル(HMM)は観測されたオーディオ信号及び観測されない音素との関係を符号化してもよい。トレーニングプロセスは次に転写されたトレーニングデータの大きな集合にわたって所与の音素に対応するHMM状態により放出された特徴ベクトルの統計的特性を学習してもよい。音素の所与のHMM状態における特徴ベクトルのための放出確率密度はトレーニングプロセスを通じて学習されてもよい。このプロセスはまた音響モデルトレーニングと呼ばれてもよい。トレーニングはまたトライフォンのために実行されてもよい。トライフォンの例はセンターフォンに対応した音声表記シーケンス内の3音素のタプルであってもよい。トライフォンのいくつかのHMM状態は共通の放出確率密度関数を共有するために互いに接続されている。典型的には、放出確率密度関数はガウス混合モデル(GMM)を使用してモデル化される。これらGMMs及びHMMsのセットは音響モデルと名付けられる。
知識ソース115は大量のオーディオデータを分析することにより開発されてもよい。音響モデル120及び発音辞書/予測子125は、例えば「hello」などの単語及び単語を備える音素を調べることにより作成される。システム内のすべてのキーワードは音素と呼ばれるそれを構成するサブ単語単位の統計的モデルにより表される。標準の音素辞書に定義された「hello」のための音素は「hh」、「eh」、「l」、及び「ow」である。これらは次にトライフォンのシーケンス、例えば「sil−hh+eh」、「hh−eh+l」、「eh−l+ow」、「l−ow+sil」に変換され、ここで「sil」はサイレントフォン(無音)である。最後に、前述のように、すべての可能なトライフォンのHMM状態は束縛状態にマッピングされてもよい。束縛状態は音響モデルトレーニングが実行されてもよい一意的な状態である。これらのモデルは言語依存であってもよい。また多言語サポートを提供するために、複数の知識ソースが設けられてもよい。
音響モデル120は特定の言語で発生する様々な音を統計的にモデル化することにより形成されてもよい。発音辞書125は単語を音素のシーケンスに分解することに責任があってもよい。例えば、ユーザから提示された単語は特定の言語の書記素/アルファベットなどのように人間が読み取り可能な形態であってもよい。しかしながら、パターンマッチングアルゴリズムはキーワードの発音を表す音素のシーケンスに依存してもよい。一旦音素のシーケンスが取得されると、音響モデル内の音素の各々に対応する統計モデルは調べられてもよい。これらの統計モデルの連結は関心のある単語を、キーワードスポッティングを実行するために使用されてもよい。辞書中に存在しない単語に関して、言語の規則に基づいた予測子は発音を解決するために使用されてもよい。
オーディオストリーム130はフロントエンド特徴計算機135に供給されてもよく、オーディオストリームをオーディオストリームの表現又はスペクトル特徴のシーケンスに変換してもよい。オーディオストリーム130はユーザによりシステム内で話された単語から構成されてもよい。オーディオ分析は、例えばメル周波数ケプストラム係数(MFCC)及び/又はその変換などのスペクトル特徴の計算により実行されてもよい。
音素隠れマルコフモデル(HMMs)を連結することにより形成されるキーワードモデル110、及びオーディオストリーム130からの信号の両方は次にパターンマッチング140のための認識エンジンに供給されてもよい。例えば、認識エンジンのタスクは単語のセットを取り、また語彙集とも呼ばれ、及びそのオーディオ信号で話される最も可能性の高い文を判定するために音響モデルからの確率を使用して提示されたオーディオストリームを検索してもよい。音声認識エンジンの一例はキーワードスポッティングシステムを含んでいてもよいがこれに限定されるものではない。例えば、特徴計算機135により構成される多次元空間では、話し言葉は音響空間内の軌跡を形成するMFCCベクトルのシーケンスになってもよい。キーワードスポッティングはキーワードモデルに与えられた軌道を生成する確率を計算する問題に現在単になることがあってもよい。この動作はダイナミックプログラミングの周知の原理、特にキーワードモデルをオーディオ信号の最良のセグメントに整列させ、及び一致スコアを結果としてもたらすビタビアルゴリズムを使用することにより達成されてもよい。一致スコアが有意である場合、キーワードスポッティングアルゴリズムはキーワードが話されたことを推測し、及びキーワードスポッティングのイベントをレポートする。
単語の結果として生じるシーケンス145は次にリアルタイムでレポートされてもよい。例えば、レポートは単語が発見された信頼度値を有するオーディオストリーム内のキーワード又は文の開始時刻及び終了時刻として提示されてもよい。主要な信頼度値はキーワードが如何に話されているかの関数であってもよい。例えば、単一の単語の複数の発音の場合、キーワード「tomato」は「tuh−mah−tow」及び「tuh−may−tow」と話されてもよい。単語はあまり一般的ではない発音で話されている際、又は単語がうまく発音されていない際には、主要な信頼度値は低くてもよい。特定の認識の一部である発音の明確な変異体はまたレポートに表示されてもよい。
図2は200で一般的に示される修正されたキーワードスポッターの一実施形態を示す図である。キーワードスポッター100の基本的なコンポーネントは以下:ユーザデータ/キーワード105;キーワードモデル110;知識ソース115、音響モデル120及び発音辞書/予測子125を含んでいてもよい;オーディオストリーム130;フロントエンド特徴計算機135;認識エンジン(パターンマッチング)140;及び前述のようにリアルタイムで発見されたキーワード145を包含する結果等のようなものに含まれてもよい。少なくとも1つの実施形態では、修正は誤受理モジュール205、フロントエンド特徴計算機135からの入力210、知識ソース115からの入力215、及び最終結果220を含んでいてもよい。誤受理モジュール205は誤警報拒否を改善するために利用可能な知識ソース115からの入力215及びフロントエンド特徴計算機135からの入力210を利用してもよい。このプロセスは次のように詳細に説明される。最終結果220は次に誤受理モジュール205から出力される。
図3は音声認識システムの一実施形態における基本的なコンポーネントを示す図である。音声認識システムの基本的なコンポーネントは以下:知識ソース115、音響モデル120及び発音辞書/予測子125;オーディオストリーム130;フロントエンド特徴計算機135;認識エンジン(パターンマッチング)140;及び前述のようにリアルタイムで発見された単語145を含む結果等のような、システム100のエレメントを含んでいてもよい。少なくとも1つの実施形態では、音声認識システムは単語語彙集/語彙305及び統計的言語モデル310を含んでいてもよい。
単語語彙集/語彙305は音声認識エンジンが認識可能な単語のセットを備えていてもよい。前述のようなキーワードスポッターなどの音声認識エンジンについては、単語のセットは例えば数百に達するのみであってもよい。大語彙音声認識エンジンについては、このセットは非常に多くの数を含んでいてもよい。音声認識システムは検索空間を定義するために語彙又は語彙集を使用してもよい。
統計的言語モデル310は自然言語処理アプリケーションのための少なくとも1つの実施形態で使用されてもよい。このような自然言語処理アプリケーションは音声認識、機械翻訳、品詞タグ付け、構文解析、及び情報検索を備えていてもよい。統計的言語モデル310は言語の特性を捕捉するために使用されてもよい。統計的言語モデル310はまた音声シーケンス内の次の単語を予測するために使用されてもよい。少なくとも実施形態では、統計的言語モデル310はキーワードスポッター内のキーワードのセットなどの単語のセットを備えていてもよい。少なくとも実施形態では、統計的言語モデル310は可能な単語のシーケンスにより多くの構造を付加する文法を備えていてもよい。少なくとも実施形態では、統計的言語モデル310はまた自由形式の会話音声の転写に使用されるより複雑及び強力なnグラム言語モデルを備えていてもよい。nグラム言語モデルはシーケンス内の過去の単語数、又はNで与えられる次の単語の予測に役立つ統計的言語モデルを備えていてもよい。
図4は一般的に400で示される変更された音声認識システムの一実施形態を示す図である。音声認識システム300の基本的なコンポーネントは以下:単語語彙集/語彙305;統計的言語モデル310;知識ソース115、音響モデル120及び発音辞書/予測子125; オーディオストリーム130;フロントエンド特徴計算機135;認識エンジン(パターンマッチング)140;及び前述のようにリアルタイムで発見された単語145を含む結果のようなものを含んでいてもよい。少なくとも1つの実施形態では、変更は誤受理モジュール205、フロントエンド特徴計算機135からの入力210、知識ソース115からの入力215、及び最終結果220を含んでいてもよい。誤受理モジュール205は誤警報の拒否を改善するために入手可能な知識ソース115からの入力215及びフロントエンド特徴計算機135からの入力210を利用してもよい。このプロセスは次のように詳細に説明される。最終結果220は次に誤受理モジュール205から出力される。
図5に示されるように単語の受理を判定するためのプロセス500の一実施形態が提供される。プロセス500はシステム200(図2)及び400(図4)の誤受理モジュール205内で動作してもよい。
動作505において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はそれらのローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有している。いくつかの実施形態では、コンテキストのサイズは、キャプチャされた音響が各単語タイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作510に渡され、及びプロセス500は継続する。
動作510において、左内部コンテキストのモデルが生成される。例えば、左内部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左内部コンテキストについて、単語の先頭が使用されてもよい。いくつかの実施形態では、コンテキストのサイズは平均音節サイズよりも小さく、及び平均音素サイズよりも大きい。これはユーザ定義の値又は経験的に選択された値であってもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述などの音響特徴の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは次に1つの単語タイプのすべてのトレーニング例のための左内部コンテキストの挙動を記述することをトレーニングされてもよい。少なくとも1つの実施形態では、単語コンテキストのモデルのサンプルは完全対角共分散を有するガウス混合モデル、隠れマルコフモデルなどを含んでいてもよい。制御は動作515に渡され、及びプロセス500は継続する。
動作515において、右内部コンテキストのモデルが生成される。例えば、右内部コンテキストのモデルはトレーニングモデルを使用して各単語タイプについて生成される。右内部コンテキストは単語の最後で終了されてもよい。右内部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作510と同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは次に1つの単語タイプのすべてのトレーニング例のための右内部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作520に渡され、及びプロセス500は継続する。
動作520において、左外部コンテキストのモデルが生成される。例えば、ローカル左外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左外部コンテキストは単語の先頭で終了してもよい。左外部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作510と同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左外部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは1つの単語タイプのすべてのトレーニング例のための左外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作525に渡され、及びプロセス500は継続する。
動作525において、右外部コンテキストのモデルが生成される。例えば、ローカル右外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。右外部コンテキストは単語の最後で開始されてもよい。右外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作510で述べたものと同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右外部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは1つの単語タイプのすべてのトレーニング例のための右外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作530に渡され、及びプロセス500は継続する。
動作530において、単語のテスト例が受信される。例えば、単語のテスト例及びその外部コンテキストが受信される。少なくとも1つの実施形態では、音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後で定義される。少なくとも1つの実施形態では、外部コンテキストを使用するテスト単語の検証について、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。コンテキストは検証手順のために受信されるべきである。制御は動作535に渡され、及びプロセス500は継続する。
動作535において、テスト単語例はモデルと比較される。例えば、各テスト単語の例は左内部コンテキスト、右内部コンテキスト、左外部コンテキスト、及び右外部コンテキストのためのモデルと同時に比較される。各単語タイプについて、これらの単語タイプの左内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの左外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。制御は動作540に渡され、及びプロセス500は継続する。
動作540において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ550に渡され、及びプロセス500は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ545に渡され、及びプロセス500は継続する。
動作540における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。試験された単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次に試験された単語は検出されたとして受理される。試験された単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次に試験された単語は検出されたとして拒否される。
動作545において、単語は拒否される。プロセス500は終了する。
動作550において、単語は検出されたとして受理される。プロセス500は終了する。
図6に示すように、単語の受理を判定するためのプロセスの一実施形態が提供され、及び一般的に600で示される。プロセス600はシステム200(図2)及び400(図4)の誤受理モジュール205内で動作してもよい。
動作605において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有している。いくつかの実施形態では、コンテキストのサイズは、キャプチャされた音響が各単語タイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作610に渡され、及びプロセス600は継続する。
動作610において、左内部コンテキストのモデルが生成される。例えば、左内部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。左内部コンテキストについては、単語の先頭が使用されてもよい。いくつかの実施形態では、コンテキストのサイズは平均音節サイズよりも小さく、及び平均音素サイズよりも大きい。これはユーザ定義の値又は経験的に選択された値であってもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左内部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは次に1つの単語タイプのすべてのトレーニング例のための左内部コンテキストの挙動を記述することをトレーニングされてもよい。少なくとも1つの実施形態では、単語コンテキストのモデルのサンプルは完全対角共分散を有するガウス混合モデル、隠れマルコフモデルなどを含んでいてもよい。制御は動作615に渡され、及びプロセス600は継続する。
動作615において、右内部コンテキストのモデルが生成される。例えば、右内部コンテキストのモデルはトレーニングモデルを使用して各単語タイプについて生成される。右内部コンテキストは単語の最後で終了してもよい。右内部コンテキストのサイズはユーザ定義の値を有していてもよく、及び動作610と同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右内部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは1つの単語タイプのすべてのトレーニング例のための右内部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作620に渡され、及びプロセス600は継続する。
動作620において、左外部コンテキストのモデルが生成される。例えば、ローカル左外部コンテキストモデルはトレーニング例を使用して各単語タイプについて生成される。左外部コンテキストは単語の先頭で終了してもよい。左外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作610と同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で左外部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは1つの単語タイプのすべてのトレーニング例のための左外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作625に渡され、及びプロセス600は継続する。
動作625において、右外部コンテキストのモデルが生成される。例えば、ローカル右外部コンテキストのモデルはトレーニング例を使用して各単語タイプについて生成される。右外部コンテキストは単語の最後で開始してもよい。右外部コンテキストのサイズはユーザ定義の値を有していてもよく、動作610で述べたのと同じ方法で定義されてもよい。少なくとも1つの実施形態では、モデルの生成はスペクトル、ケプストラム、又は正弦波の記述の形式で右外部コンテキストのコンパクトな表現を含んでいてもよい。1つの生成的な統計モデルは次に1つの単語タイプのすべてのトレーニング例のための右外部コンテキストの挙動を記述することをトレーニングされてもよい。制御は動作630に渡され、及びプロセス600は継続する。
動作630において、単語のテスト例が受信される。例えば、単語のテキスト例及びその外部コンテキストが受信される。少なくとも1つの実施形態では、音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後で定義される。少なくとも1つの実施形態では、外部コンテキストを使用するテスト単語の検証のため、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。コンテキストは検証手順のために受信されるべきである。制御は動作635に渡され、及びプロセス600は継続する。
動作635において、テスト単語例は左内部コンテキストモデルと比較される。例えば、各テスト単語例は左内部コンテキストモデルと比較される。制御は動作640に渡され、及びプロセス600は継続する。
動作640において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ650に渡され、及びプロセス600は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ645に渡され、及びプロセス600は継続する。
動作640における判定は任意の適切な基準に基づいて行われてもよい。例えば、結果が閾値内にある場合、次に単語は他のタイプのコンテキストで調べられるためにさらにプロセスを通過する。結果が閾値内にない場合、次に単語はステップ645で誤警報として拒否される。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストが単語タイプの左内部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。左内部コンテキストのモデルに属する単語の確率がユーザ定義の閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から除外される。それ以外の場合には、単語は右内部コンテキストのモデルに関してさらに評価される。
動作645において、単語は拒否される。プロセス600は終了する。
動作650において、テスト単語例は右内部コンテキストモデルと比較される。例えば、各テスト単語例は右内部コンテキストのモデルと比較される。制御は動作655に渡され、及びプロセス600は継続する。
動作655において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ665に渡され、及びプロセス600は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ660に渡され、及びプロセス600は継続する。
動作655における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。右内部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から除外される。それ以外の場合には、単語は左外部コンテキストのモデルに関してさらに評価される。
動作660において、単語は拒否される。プロセス600は終了する。
動作665において、テスト単語例は左外部コンテキストモデルと比較される。例えば、各テスト単語例はローカル左外部コンテキストのモデルと比較される。制御は動作670に渡され、及びプロセス600は継続する。
動作670において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ680に渡され、及びプロセス600は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ675に渡され、及びプロセス600は継続する。
動作670における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値ベースの制限内にあるか否かを判定するために閾値と比較される。左外部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から拒否される。それ以外の場合には、単語は右外部コンテキストのモデルに関してさらに評価される。
動作675において、単語は拒否される。プロセス600は終了する。
動作680において、テスト単語例は右外部コンテキストモデルと比較される。例えば、各テスト単語右外部コンテキストはローカル右外部コンテキストのモデルと比較される。制御は動作685に渡され、及びプロセス600は継続する。
動作685において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ695に渡され、及びプロセス600は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ690に渡され、及びプロセス600は継続する。
動作685における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。計算された確率は次に単語の確率が閾値内にあるか否かを判定するために閾値と比較される。右外部コンテキストのモデルに属する単語の確率が閾値外にある場合、単語は誤警報としてみなされ、及びさらなる評価から拒否される。それ以外の場合には、単語は検出されたとして受理される。
動作690において、単語は拒否される。プロセス600は終了する。
動作695において、単語は検出されたとして受理される。プロセス600は終了する。
図7に示すように、マルチレベル戦略での使用のためのモデルを生成するためのプロセスの一実施形態(以下で図8にさらに説明される)が提供され、及び一般的に700で示される。プロセス700はシステム200(図2)及び400(図4)の誤受理モジュール205内で動作してもよい。
動作705において、トレーニング例が受信される。例えば、話し言葉のためのトレーニング例はローカルコンテキストで受信される。内部及び外部の両方のローカルコンテキストのサイズはコンテキストのサイズを調べることにより判定されてもよい予測された値を有してもよい。いくつかの実施形態では、コンテキストのサイズはキャプチャされた音響が各単語のタイプのためのコンテキストの各タイプ、例えば左及び右について均質であることを保証するために、平均音素継続時間よりも小さくはなく、及び平均音節継続時間よりも大きくはない。外部コンテキストを有する話し言葉はデジタル又はアナログ形式で受信されてもよい。言葉がアナログ形式で受信された場合、次にアナログ形式からデジタル形式へのデジタル化が実行される。制御は動作710に渡され、及びプロセス700は継続する。
動作710において、モデルは音響コンテキストで生成される。音響レベルでは、コンテキストは追加の単語又は副単語(例えば、音素、音節)認識を必要とせずに実行されてもよい。音響コンテキストはオーディオ信号から抽出された特徴ベクトルのシーケンスを参照してもよい。ローカル音響内部コンテキストは単語の境界内に含まれる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。ローカル音響外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する単語の音響コンテキストを参照してもよい。1つの単語の1つのタイプのコンテキストを表す特徴ベクトルシーケンスは1つのシーケンスに結合される。各単語コンテキストタイプについて、そのようなシーケンスは収集される。対応するコンテキストのモデルは各単語についてこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも1つの実施形態では、左内部、右内部、左外部及び右外部モデルは各単語についてトレーニングされる。制御は動作715に渡され、及びプロセス700は継続する。
動作715において、モデルは音声コンテキストで生成される。音声レベルでは、コンテキストは自動音素認識の結果として取得された音素の事前定義された長さのシーケンスを参照してもよい。ローカル音声内部コンテキストは単語の境界内に含まれる単語の先頭位置及び最後の位置に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。ローカル音声外部コンテキストは単語の境界外に横たわる単語の先頭及び最後に隣接する事前定義されたサイズの音素シーケンスを参照してもよい。1つのタイプのコンテキストを表す音素シーケンスは一緒に結合されてもよい。これらのシーケンスは各単語コンテキストについて収集されてもよい。各単語のコンテキストモデルはこのコンテキストをコンパクトに表すためにトレーニングされてもよい。少なくとも1つの実施形態では、各単語について左内部、右内部、左外部及び右外部モデルはトレーニングされてもよい。音声レベルでは、モデルはnグラム言語モデルとして表されてもよい。少なくとも1つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。制御は動作720に渡され、及びプロセス700は継続する。
動作720において、モデルは言語のコンテキストで生成され、及びプロセスは終了する。語彙レベル上で、グローバルコンテキストは単語と一緒に1つの文章内で共起する単語を参照してもよい。左コンテキストはこれらの単語が単語の左側に共起することを示していてもよい。右コンテキストはこれらの単語が単語の右側に共起することを示していてもよい。このような単語は元のオーディオ信号の自動単語認識の結果として取得されてもよい。少なくとも1つの実施形態では、グローバルコンテキストはその左グローバル語彙コンテキスト及び右グローバル語彙コンテキストで話し言葉のトレーニングをされた正及び負の例を受信することにより分析されてもよい。トレーニングされた言葉は人間の被験者による監督されたトレーニングの間にラベル付けされてもよい。ラベルは、例えばトレーニングされた言葉が正しく検出されたか又は誤って検出されたか否かを反映していてもよい。共起モデルは話し言葉の左語彙コンテキスト及び右語彙コンテキストで生成されてもよい。コンテキスト単語シーケンスは2つ以上のノンストップ単語を含んでいてもよく、1つの文の単語と共起する単語の左側及び右側上で標準的な言語モデルによりキャプチャされない。ストップ単語は、the、is、at、which、及びonなどのような一般的な、短い機能語として定義されてもよい。これらの単語は典型的にはほとんど意味情報をもたらさなくてもよく、及び音声認識システムにより検出することが困難である。語彙コンテキストをモデル化するために、統計モデルが利用されてもよい。このようなモデルは正及び負の例のための左グローバル語彙コンテキスト及び右グローバル語彙コンテキストのスパースベクトルの形式であってもよい。
図8に示すように、単語の受理を判定するためのプロセスの一実施形態が提供され、一般的に800で示される。プロセス800はシステム200(図2)及び400(図4)の誤受理モジュール205で動作してもよい。マルチレベル戦略は受理又は拒否に関する判定が各コンテキストテスト後に行われない、及びすべてのテストの完了後に最後まで遅延されるという点で、ワンステップ戦略とは異なる。
動作805において、単語のテスト例が受信される。例えば、単語のテスト例及びその外部コンテキストが受信される。音声ファイル又はオーディオストリーム内の単語の位置は単語スポッティングから結果としてもたらされてもよい。単語の検出後、検証手順は単語が誤って検出されたか又は正しく検出されたか否かを検証するために適用されてもよい。検出された単語の位置は音声ファイル又はオーディオストリーム内の単語の先頭及び最後により定義される。少なくとも1つの実施形態では、外部コンテキストを使用するテスト単語の検証について、単語の先頭及び最後、及び左外部コンテキストの先頭及び右外部コンテキストの最後が必要とされる。制御は動作810に渡され、及びプロセス800は継続する。
動作810において、単語のテスト例は音響コンテキストモデルと比較される。例えば、各テスト単語の例は左内部コンテキスト、右内部コンテキスト、左外部コンテキスト、及び右外部コンテキストのためのモデルと同時に比較される。各単語タイプについて、これらの単語タイプの左内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左内部コンテキストについて、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右内部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右内部コンテキストについて、新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの左外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の左外部コンテキストについて、新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が計算される。各単語タイプについて、これらの単語タイプの右外部コンテキストを記述する統計モデルがトレーニングされる。新しいテスト単語例の右外部コンテキストについて、新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が計算される。制御は動作815に渡され、及びプロセス800は継続する。
動作815において、テスト単語例とモデルとの比較が閾値又は最適な自動的に判定された閾値内に入るか否かが判定される。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ825に渡され、及びプロセス800は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、次に制御はステップ820に渡され、及びプロセス800は継続する。
動作815における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次にテストされた単語は検出されたとして受理される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次にテストされた単語は検出されたとして拒否される。
動作820において、単語は拒否される。プロセス800は終了する。
動作825において、単語のテスト例は音声コンテキストモデルと比較される。少なくとも1つの実施形態では、パープレキシティ尺度は未知の音素シーケンスと言語モデルとの比較のために使用されてもよい。測定の他の方法が使用されてもよい。
音素言語モデルに関する未知の音素シーケンスの低パープレキシティはモデルがこの音素シーケンスによく適合することを示していてもよい。コンテキストのモデルは音素言語モデルとして表されてもよい。各新しいスポットされた単語の内部及び外部コンテキストは自動的に抽出され、及び音素のシーケンスとして表されてもよい。パープレキシティテストは左右音声コンテキストに依存する単語の統計モデル及びテスト単語の左右音声コンテキストとの間の一致を評価するテスト手順として使用されてもよい。モデルの比較が単語の定義された真の検出又は真の誤警報の閾値内にあるか否かが次に判定されてもよい。少なくとも1つの実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた、例えば音響レベルのそれと同様の方法でクロスバリデーションセットを使用して自動的に学習されてもよい。制御は動作830に渡され、プロセス800は継続する。
動作830において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、制御はステップ840に渡され、及びプロセス800は継続する。テスト単語例とモデルとの比較が閾値内に入らないと判定された場合、制御はステップ835に渡され、及びプロセス800は継続する。
動作830における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にある場合、次にテストされた単語は検出されたとして受理される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が定義された閾値内にない場合、次にテストされた単語は検出されたとして拒否される。
動作835において、単語は拒否される。プロセス800は終了する。
動作840において、単語のテスト例は言語コンテキストモデルと比較される。新しい話し言葉の左右の語彙コンテキストは次に左右の語彙コンテキストの共起モデルと比較されてもよい。少なくとも1つの実施形態では、コサイン距離などの合理的な距離メトリックは真の単語グローバル語彙コンテキスト及びテスト単語グローバル語彙コンテキストとの間の一致を評価するために使用されてもよい。コサイン距離は内積、重み付き距離、及び単語周波数の差分の測定値を含んでいてもよいが、これらに限定されない。モデル比較が単語の真の検出又は誤警報を定義するための閾値内にあるか否かが次に判定されてもよい。少なくとも一実施形態では、人はトレーニングフェーズ中に閾値を定義してもよい。閾値はまた、例えば前述のように音響レベルと同じ方法でクロスバリデーションセットを使用して自動的に学習されてもよい。制御は動作845に渡され、及びプロセス800は継続する。
動作845において、テスト単語例とモデルとの比較が閾値内に入るか否かが判定される。閾値はユーザ定義の閾値又は最適な自動的に判定された閾値であってもよい。テスト単語例とモデルとの比較が閾値内に入ると判定された場合、次に制御はステップ855に渡され、及びプロセス800は継続する。テスト単語例とモデルとの比較が定義された閾値内に入らないと判定された場合、制御はステップ850に渡され、及びプロセス800は継続する。
動作830における判定は任意の適切な基準に基づいて行われてもよい。例えば、新しいテスト単語の左内部コンテキストがこの単語タイプの左内部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右内部コンテキストがこの単語タイプの右内部コンテキストモデルに属することの確率が判定される。新しいテスト単語の左外部コンテキストがこの単語タイプの左外部コンテキストのモデルに属することの確率が判定される。新しいテスト単語の右外部コンテキストがこの単語タイプの右外部コンテキストのモデルに属することの確率が判定される。テストされた単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が閾値内にある場合、次にテストされた単語は検出されたとして受理される。テスト単語の左右の内部コンテキスト及び左右の外部コンテキストの確率が閾値内にない場合、テストされた単語は検出されたとして拒否される。
動作850において、単語は拒否される。プロセス800は終了する。
動作855において、単語は受理される。プロセス800は終了する。
本発明は図面及び前述の説明において詳細に図示及び説明されてきたが、同じことは例示的であり、及び文字において限定的ではないと考えられるべきであり、好ましい実施形態のみが示され、及び説明されていること、及び本明細書に記載される本発明の趣旨の範囲内に入る、及び/又は添付の特許請求の範囲によるすべての等価物、変更、及び修正が保護されることが望まれることを理解されたい。
したがって、本発明の適切な範囲は、すべてのそのような変更ならびに図面に示され、及び明細書に記載されたこれらと同等のすべての関係を包含するように、添付の特許請求の範囲の最も広い解釈により決定されるべきである。

Claims (14)

  1. 音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
    複数のトレーニング例を受信するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による左内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左内部コンテキストのモデルを生成するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による右内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右内部コンテキストのモデルを生成するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による左外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左外部コンテキストのモデルを生成するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による右外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右外部コンテキストのモデルを生成するステップと、
    外部コンテキストを含む少なくとも1つのテスト単語を受信するステップと、
    前記少なくとも1つのテスト単語の前記外部コンテキストを、前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
    前記少なくとも1つのテスト単語が前記閾値内に入らない場合に、前記少なくとも1つのテスト単語を拒否するステップと、
    を含むことを特徴とする方法。
  2. 前記テスト単語は、アナログのコンテキストである、請求項1に記載の方法。
  3. 前記テスト単語をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項に記載の方法。
  4. 前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み
    前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される、請求項1に記載の方法。
  5. 前記複数のトレーニング例における各トレーニング例は、テスト単語及びローカルコンテキストの表現を含み、
    各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項1に記載の方法。
  6. 前記比較するステップは、前記少なくとも1つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項1に記載の方法。
  7. 前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルは、複数のコンパクトな表現を含む、請求項1に記載の方法。
  8. 音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
    各々が話し言葉及びローカルコンテキストの表現を含む複数のトレーニング例を受信するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による音響コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記音響コンテキストのモデルを生成するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による音声コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記音声コンテキストのモデルを生成するステップと、
    スペクトル、ケプストラム、又は正弦波形状の形式による言語コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記言語コンテキストのモデルを生成するステップと、
    外部コンテキストを含む少なくとも1つのテスト単語を受信するステップと、
    前記少なくとも1つのテスト単語を、前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
    前記少なくとも1つのテスト単語が前記閾値内に入らない場合に、前記少なくとも1つのテスト単語を拒否するステップと、
    を含むことを特徴とする方法。
  9. 前記話し言葉は、アナログのコンテキストである、請求項に記載の方法。
  10. 前記話し言葉をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項9に記載の方法。
  11. 前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み、
    前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される請求項8に記載の方法。
  12. 前記複数のトレーニング例における各トレーニング例は、話し言葉及びローカルコンテキストの表現を含み、
    各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項に記載の方法。
  13. 前記比較するステップは、前記少なくとも1つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項に記載の方法。
  14. 前記音響コンテキストのモデルを生成するステップは、前記複数のトレーニング例の中の各話し言葉に対して、左内部モデル、右内部モデル、左外部モデル、及び右外部モデルを生成するステップを含む、請求項に記載の方法。
JP2015553683A 2013-01-22 2013-01-22 コンテキスト情報を使用した音声認識システムにおける誤警報低減 Active JP6199994B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/022495 WO2014116199A1 (en) 2013-01-22 2013-01-22 False alarm reduction in speech recognition systems using contextual information

Publications (2)

Publication Number Publication Date
JP2016503908A JP2016503908A (ja) 2016-02-08
JP6199994B2 true JP6199994B2 (ja) 2017-09-20

Family

ID=51227875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015553683A Active JP6199994B2 (ja) 2013-01-22 2013-01-22 コンテキスト情報を使用した音声認識システムにおける誤警報低減

Country Status (8)

Country Link
EP (1) EP2948943B1 (ja)
JP (1) JP6199994B2 (ja)
AU (1) AU2013375318B2 (ja)
BR (1) BR112015015900B1 (ja)
CA (1) CA2896801C (ja)
NZ (2) NZ709320A (ja)
WO (1) WO2014116199A1 (ja)
ZA (1) ZA201504570B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113284513B (zh) * 2021-07-26 2021-10-15 中国科学院自动化研究所 基于音素时长特征的虚假语音检测方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621922B2 (ja) * 2001-02-01 2005-02-23 松下電器産業株式会社 文認識装置、文認識方法、プログラム、および媒体
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
US20030009335A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Speech recognition with dynamic grammars
US20040148169A1 (en) * 2003-01-23 2004-07-29 Aurilab, Llc Speech recognition with shadow modeling
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
ES2311872T3 (es) * 2004-12-28 2009-02-16 Loquendo S.P.A. Sistema y procedimiento de reconocimiento vocal automatico.
JP2011227758A (ja) * 2010-04-21 2011-11-10 Sony Corp 情報処理装置、情報処理方法及びプログラム
US9081760B2 (en) * 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
EP2851895A3 (en) * 2011-06-30 2015-05-06 Google, Inc. Speech recognition using variable-length context

Also Published As

Publication number Publication date
CA2896801C (en) 2021-11-23
BR112015015900A2 (pt) 2017-09-26
EP2948943A4 (en) 2016-12-07
EP2948943B1 (en) 2021-08-25
NZ724941A (en) 2017-12-22
NZ709320A (en) 2017-02-24
AU2013375318B2 (en) 2019-05-02
CA2896801A1 (en) 2014-07-31
WO2014116199A1 (en) 2014-07-31
EP2948943A1 (en) 2015-12-02
JP2016503908A (ja) 2016-02-08
AU2013375318A1 (en) 2015-07-09
ZA201504570B (en) 2018-12-19
BR112015015900B1 (pt) 2021-11-16

Similar Documents

Publication Publication Date Title
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US9911413B1 (en) Neural latent variable model for spoken language understanding
JP3361732B2 (ja) 音声認識方法および音声認識装置
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
Aldarmaki et al. Unsupervised automatic speech recognition: A review
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US20100223056A1 (en) Various apparatus and methods for a speech recognition system
US11158307B1 (en) Alternate utterance generation
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Mary et al. Searching speech databases: features, techniques and evaluation measures
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
Kou et al. Fix it where it fails: Pronunciation learning by mining error corrections from speech logs
Hwang et al. Building a highly accurate Mandarin speech recognizer
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Siniscalchi et al. An attribute detection based approach to automatic speech processing
Williams A study of the use and evaluation of confidence measures in automatic speech recognition
JPH08248988A (ja) 音声認識方法
Scharenborg et al. 'Early recognition'of words in continuous speech
Chen Resource-dependent acoustic and language modeling for spoken keyword search.
He Segmental models with an exploration of acoustic and lexical grouping in automatic speech recognition
Mary et al. Modeling and fusion of prosody for speaker, language, emotion, and speech recognition
Fanty et al. Neural networks for alphabet recognition
Wang et al. High-resolution acoustic modeling and compact language modeling of language-universal speech attributes for spoken language identification.
Liu et al. Query-by-example spoken term detection using bottleneck feature and Hidden Markov model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170824

R150 Certificate of patent or registration of utility model

Ref document number: 6199994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250