JP2008501991A - 対話的音声認識システムのためのパフォーマンス予測 - Google Patents
対話的音声認識システムのためのパフォーマンス予測 Download PDFInfo
- Publication number
- JP2008501991A JP2008501991A JP2007514272A JP2007514272A JP2008501991A JP 2008501991 A JP2008501991 A JP 2008501991A JP 2007514272 A JP2007514272 A JP 2007514272A JP 2007514272 A JP2007514272 A JP 2007514272A JP 2008501991 A JP2008501991 A JP 2008501991A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- noise
- performance level
- user
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 81
- 230000004913 activation Effects 0.000 claims description 31
- 230000003993 interaction Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000013145 classification model Methods 0.000 abstract description 22
- 230000008569 process Effects 0.000 description 20
- 238000013138 pruning Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000004397 blinking Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本発明は、記録された背景ノイズに基づいて音声認識手順のパフォーマンスレベルを決定するための対話的音声認識システムおよび対応する方法を提供する。本発明のシステムは、音声認識の対象となる発話をユーザーが入力する前に生じる発話空白期間を効率的に利用する。好ましくは、本発明のパフォーマンス予測は、トレーニングされたノイズ分類モデルを効率的に使用する。さらに、予測されたパフォーマンスレベルは、音声認識手順のパフォーマンスについての信頼できるフィードバックを与えるため、ユーザーに対して示される。このようにして、対話的音声認識システムは、信頼できる音声認識を生成するには不適切なノイズ条件に反応しうる。
Description
本発明は対話的音声認識の分野に関する。
自動音声認識システム(ASR: automatic speech recognition system)のパフォーマンスおよび信頼性は背景ノイズの特性およびレベルに強く依存する。システムパフォーマンスを上げ、多様な種々のノイズ条件に対処するためにいくつかのアプローチが存在する。大まかな発想としては、音声とノイズの間の信号対雑音比(SNR: signal to noise ratio)を上げるためのノイズ削減およびノイズ抑制方法に基づいている。主に、これは適切なノイズフィルタによって実現できる。
他のアプローチは特定の背景ノイズのシナリオに固有のノイズ分類モデルに焦点を当てる。そのようなノイズ分類モデルは自動音声認識のための音響モデルまたは言語モデルに組み込まれうるもので、特定のノイズ条件のもとでのトレーニングを必要とする。よって、ノイズ分類モデルによって、音声認識プロセスはさまざまなあらかじめ定義されたノイズシナリオに適応できる。さらに、先験的な知識を分類モデルに取り入れる明示的なノイズ堅牢な音響モデル化が適用できる。
しかしながら、これらのアプローチはみな、音声品質の向上やさまざまなノイズ条件への適合を、それらが典型的な応用シナリオにおいて生じるにつれて試みるものである。これらのノイズ分類モデルの多様性および品質に関わりなく、膨大な数の予測不能なノイズおよび摂動シナリオは、穏当なノイズ削減および/またはノイズ適合の努力によってカバーすることはできない。
したがって、自動音声認識システムのユーザーに対して、該ユーザーが誤った音声認識につながりうる問題のある録音環境に気づくよう、瞬間的なノイズレベルを指示することが実際上有用である。最も典型的には、ノイズインジケーターがマイクロホン入力の瞬間的なエネルギーレベルを表示し、ユーザー自身が、指示されたレベルが十分な品質の音声認識を許容する好適な領域にあるかどうかを評価できる。
たとえば、WO02/095726A1がそのような音声品質指示を開示している。ここでは、受領された音声信号は音声品質評価器に与えられ、そこで信号の音声品質が定量化される。結果として得られる音声品質指標はインジケーター駆動器に与えられ、該インジケーター駆動器が現在受領されている音声品質の適切な指示を生成する。この指示は、インジケーターによって、声伝達装置のユーザーに対して明白にされる。音声品質評価器が音声品質を定量化するのはさまざまな方法がありうる。音声品質指標について用いることのできる二つの簡単な例は(i)音声信号レベル、(ii)音声の信号対雑音比である。
ユーザーに対して表示される音声信号レベルおよび信号対雑音比は、問題のある録音環境を指示するよう適応されることもできるが、主としては自動音声認識システムの音声認識のパフォーマンスには直接関係しない。たとえばある特定のノイズ信号が十分フィルタ処理できる場合、いくぶん低い信号対雑音比も必ずしも音声認識システムの低パフォーマンスに相関するとは限らない。さらに、従来技術において知られている解決策は典型的には、現在受領している音声品質に基づく指示信号を生成するよう適応される。これはしばしば、受領した音声のある割合がすでに認識手順にかけられていることを含意する。よって、音声品質指標の生成は典型的には、すでに音声認識手順にかけられた記録された音声および/または音声信号に基づく。いずれの場合にも、音声の少なくともある割合は、ユーザーが記録条件を改善したり、あるいはノイズレベルを削減したりする機会をもつ前にすでに処理されてしまっている。
本発明は、ユーザーの発話を認識する対話的(interactive)音声認識(speech recognition)システムを提供する。本発明の音声認識システムは、背景ノイズを含む音響信号(acoustic signal)を受領する手段と、受領した音響信号に基づいてノイズモデルを選択する手段と、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、その予測されたパフォーマンスレベルをユーザーに指示する手段とを有する。具体的には、前記音響信号を受領する手段は、ノイズレベルを、好ましくはユーザーが当該対話的音声認識システムに何らかの発話信号(speech signal)を与えるより前に記録する。このようにして、背景ノイズを指示する音響信号が、音声認識手順にかけられる発話信号が生成すらされないうちに得られる。特に、ダイアログ(dialogue)システムでは、適切な発話空白期間(speech pause)が何らかの所定の時点において生じ、ノイズ固有の音響信号を記録するために効果的に利用できる。
本発明の対話的音声認識システムはさらに、音声認識システムの特定の応用条件のもとでトレーニングされたノイズ分類モデルを利用するよう適応される。好ましくは、音声認識システムは多様なノイズ分類モデルへのアクセスを有する。各ノイズ分類モデルは特定のノイズ条件を指示するものである。ノイズモデルの選択は、典型的には受領した音響信号の解析および保存されている以前にトレーニングされたノイズモデルとの比較を参照する。そうして、受領され、解析された音響信号に最もよく適合する特定のノイズモデルが選択される。
この選択されたノイズモデルに基づき、音声認識手順のパフォーマンスレベルが予測される。したがって、パフォーマンスレベルの予測のための前記手段は、実際の音声認識が始まりもしないうちに音声認識手順の品質指標の推定を提供する。これは、具体的なノイズレベルを音声認識ステップのシーケンスにおいてできるだけ早期に推定し、認識する効率的な手段を提供する。ひとたび音声認識手順のパフォーマンスレベルが予測されたら、前記指示する手段は、その予測されたパフォーマンスレベルをユーザーに通知するよう適応されている。
特に、音声認識プロセスの推定された品質指標をユーザーに指示することによって、ユーザーは不十分な音声認識条件を可能な限り早期に通知されうる。このようにして、ユーザーは、当該音声認識システムを実際に使いもしないうちに、不十分な音声認識条件に反応できる。そのような機能性は、ユーザーが音響的に制御コマンドや要求を入力するダイアログシステムにおいてとりわけ有利である。したがって、本発明の音声認識システムは好ましくは、公共交通機関の時刻表情報システムなどといったユーザーの発話による入力を処理し、要求された情報を提供するよう適応されている自動ダイアログシステム内に実装される。
本発明のあるさらなる好ましい実施形態によれば、前記パフォーマンスレベルを予測する手段はさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応される。これらのノイズパラメータはたとえば、音声記録レベルまたは信号対雑音比を指示するものであり、さらに音声認識手順のパフォーマンスレベルの予測のために利用されることができる。このようにして、本発明は、一般的な諸ノイズ固有パラメータをもつ諸ノイズ分類モデルの適用を組み合わせて単一のパラメータ、すなわち音声認識システムの音声認識パフォーマンスを直接的に指示するパフォーマンスレベルにする効果的な手段を提供する。
あるいはまた、前記パフォーマンスレベルを予測する手段は、ノイズモデルまたはノイズパラメータのいずれかを別個に使ってもよい。だが、選択されたノイズモデルを別個に生成されたノイズパラメータと組み合わせて評価することによって、より信頼できるパフォーマンスレベルが期待されることになる。よって、前記パフォーマンスレベルを予測する手段は、音声認識手順の特定的な誤り率を直接的に指示する現実的なパフォーマンスレベルを提供するために、複数のノイズ指示入力信号を普遍的に利用してもよい。
本発明のあるさらなる好ましい実施形態によれば、対話的音声認識システムはさらに、音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するよう適応される。このようにして、予測されたパフォーマンスレベルは、ユーザーに適切なパフォーマンス情報を提供するために使用されるばかりでなく、能動的に音声品質プロセスを改善するためにも使用される。典型的な音声認識パラメータはたとえば、典型的には隠れマルコフモデル(HMM: hidden Markov models)を使用する統計的手順に基づく言語認識プロセスのための有意な音素シーケンスの有効範囲を指定する枝刈りレベル(pruning level)である。
典型的には、枝刈りレベルを上げれば誤り率の低下につながるが、著しくより高い計算力が必要となり、それは今度は音声認識プロセスのスピード低下につながる。誤り率はたとえば、単語誤り率(WER: word error rate)または概念誤り率(CER: concept error rate)のことを指しうる。予測されたパフォーマンスレベルに基づいて音声認識パラメータを調整することによって、音声認識手順は、その期待されるパフォーマンスに応じて普遍的に修正されることができる。
あるさらなる好ましい実施形態によれば、本対話的音声認識システムはさらに、予測されたパフォーマンスレベルに基づいてあらかじめ定義される対話モードを切り換える手段を有している。特にダイアログシステムにおいては、音声認識および/またはダイアログシステムの複数の対話および連絡モードが存在する。特に、音声認識システムおよび/またはダイアログシステムは、認識された発話を再生し、認識された発話をユーザーに対して提供するよう適応されうる。ユーザーのほうでは音声認識プロセスの結果を確認または拒否しなければならない。
そのような検証要求(verification prompt)をトリガーすることは、前記の予測されたパフォーマンスレベルによって効率的に支配されることができる。たとえば、パフォーマンスレベルが悪い場合には非常に頻繁に検証要求がトリガーされうる一方で、パフォーマンスレベルが高い場合はそのような検証要求はダイアログ中でごくまれにしか挿入されなくてもよい。その他の対話モードは、受領した発話シーケンスの完全な拒否を含みうる。これは、非常に劣悪なノイズ条件で特に理にかなっている。この場合、ユーザーは単に背景ノイズレベルを下げるか、あるいは発話シーケンスを繰り返すよう指示されうる。あるいはまた、ノイズレベルの上昇を補償するためより多くの計算時間を必要とするより高い枝刈りレベルに内的に切り換えるときに、ユーザーが単に、音声認識システムの対応する遅延またはパフォーマンス低下について通知されるのでもよい。
本発明のあるさらなる好ましい実施形態によれば、前記音響信号を受領する手段はさらに、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するよう適応される。作動モジュールによって生成された作動信号は、前記音響信号を受領する手段をトリガーする。前記音響信号を受領する手段は好ましくはユーザーの発声の生起に先立って背景ノイズを記録するよう適応されるので、作動モジュールは、発話の不在が期待されるときに選択的に前記音響信号を受領する手段をトリガーする。
このことは、ユーザーが押す作動ボタンと準備完了インジケーターとの組み合わせによって効率的に実現できる。作動ボタンを押すことによって、ユーザーは音声認識システムを注意を払っている状態に切り換え、短い遅延ののち、音声認識システムは準備完了であることを指示する。この遅延の間、ユーザーはまだ話していないことが想定できる。したがって、作動ボタンの押下とシステムの準備完了の指示との間の遅延が、瞬間的背景ノイズを測定および記録するために効率的に使用できる。
あるいはまた、作動ボタン押下は、声制御に基づいて実行されてもよい。そのような実施形態では、音声認識システムは、特定の作動フレーズを捕らえるよう特別に適応された別個の堅牢な音声認識器に基づく連続的な監視(listening)モードにある。ここでも、システムは、認識された作動フレーズに即座に応答するのではなく、背景ノイズ情報の収集のために所定の遅延を利用するよう適応される。
さらに、ダイアログシステム内に実装されるとき、典型的にはダイアログシステムの挨拶メッセージのあと、発話空白期間が生じる。よって、本発明の音声認識システムは、根底にある背景ノイズを十分に決定するため、よく定義された、あるいは人工的に生成された発話空白期間を効率的に利用する。好ましくは、背景ノイズの決定は、自然な発話空白期間または音声認識および/もしくはダイアログシステムにとって典型的である発話空白期間を利用することによって組み込まれて、ユーザーは背景ノイズ記録ステップに気づかないようにされる。
本発明のあるさらなる好ましい実施形態によれば、前記予測されたパフォーマンスをユーザーに指示する手段は、予測されたパフォーマンスレベルを指示する可聴および/または視覚信号を生成するよう適応される。たとえば、予測されたパフォーマンスレベルは、LEDなどのカラーエンコードされた点滅または明滅によってユーザーに表示されうる。緑、黄色、赤のような種々の色が良好、中くらい、または低いパフォーマンスレベルを指示しうる。さらに、複数の光点が直線に沿って配列されてもよく、パフォーマンスのレベルが同時に点滅する光点の数によって指示されうる。さらに、パフォーマンスレベルはビープ音によって指示されることもでき、より洗練された環境では、本音声認識システムは、該音声認識システムによって再生できる所定の発話シーケンスを介してユーザーに可聴的に指示してもよい。後者は、電話などを介してのみアクセスできるダイアログシステムに基づく音声認識において実装されることが好ましい。ここで、予測されたパフォーマンスレベルが低い場合、対話的音声認識システムはユーザーに、ノイズレベルを下げるか、および/または話された言葉を繰り返すよう指示しうる。
別の側面においては、本発明は、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、その予測されたパフォーマンスレベルをユーザーに指示するステップを有する対話的音声認識の方法を提供する。
本発明のあるさらなる好ましい実施形態では、前記トレーニングされたノイズモデルのそれぞれは特定のノイズを指示するもので、対応するノイズ条件下で実行される第一のトレーニング手順によって生成される。これは前記複数のノイズモデルの生成のための専用のトレーニング手順を必要とする。たとえば、本発明の音声認識システムを自動車の環境に適応させると、対応するノイズモデルは自動車の条件か、あるいは少なくともシミュレーションされた自動車の条件のもとでトレーニングされる必要がある。
本発明のあるさらなる好ましい実施形態では、音声認識手順のパフォーマンスレベルの予測は、第二のトレーニング手順に基づいている。第二のトレーニング手順は、選択されたノイズ条件および選択されたノイズモデルに基づいてパフォーマンスレベルの予測をトレーニングするはたらきをする。したがって、第二のトレーニング手順は、第一のトレーニング手順によって生成された特定のノイズモデルに対応するそれぞれのノイズ条件について音声認識手順のパフォーマンスをモニタリングするよう適応される。よって、第二のトレーニング手順は、音声認識においてある個別のノイズモデルが使われた具体的なノイズ条件下で測定された、音声認識手順のWERまたはCERなどのような特定の誤り率を表すトレーニングされたデータを提供するはたらきをする。
別の側面では、本発明は対話的音声認識システムのためのコンピュータプログラムプロダクトを提供する。本発明のコンピュータプログラムプロダクトは、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいてノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、その予測されたパフォーマンスレベルをユーザーに指示するために適応されたコンピュータプログラム手段を有する。
さらに別の側面では、本発明は、ユーザーによって生成された音声入力を処理することによってユーザーにサービスを提供するダイアログシステムを提供する。該ダイアログシステムは本発明の対話的音声認識システムを含む。よって、本発明の音声認識システムは、公共交通機関の情報を提供する自動時刻表情報システムなどのようなダイアログシステムの一体的な部分として組み込まれる。
さらに、請求項において何らかの参照符号があったとしても、本発明の範囲を限定するものと解釈されるべきではないことを注意しておく。
以下では本発明の好ましい実施形態について図面を参照することによって詳細に述べる。
図1は、本発明の対話的音声認識システム100のブロック図を示している。本音声認識システムは、音声認識モジュール102、ノイズ記録モジュール104、ノイズ分類モジュール106、パフォーマンス予測モジュール108および指示モジュール110を有している。ユーザー112は、音声認識システム100によって認識されるべき音声を与えることによって、および指示モジュール110を介して音声認識のパフォーマンスを指示するフィードバックを受け取ることによって、音声認識システム100と対話しうる。
単一のモジュール102…110は、音声認識システム100のパフォーマンス予測機能性を実現するために設計されている。さらに、音声認識システム100は、明示的に示されてはいないが従来技術において知られている標準的な音声認識コンポーネントを有する。
ユーザー112によって与えられる音声が音声認識システム100に入力されるのは、音響信号を音声認識システム100によって処理できる対応する電気信号に変換するマイクなどといった何らかの種類の記録装置による。音声認識モジュール102は音声認識システム100の中心的なコンポーネントを表しており、記録された音素の解析を提供し、言語モデルによって提供される単語シーケンスまたはフレーズへのマッピングを実行する。原理的には、いかなる音声認識技術も本発明とともに適用可能である。さらに、ユーザー112によって入力された音声は、音声認識目的のために音声認識モジュール102に直接に提供される。
ノイズ記録およびノイズ分類モジュール104、106ならびにパフォーマンス予測モジュール108は、音声認識モジュール102によって実行される音声認識プロセスのパフォーマンスを、記録された背景ノイズのみに基づいて予測するために設計されている。ノイズ記録モジュール104は、背景ノイズを記録して、記録されたノイズ信号をノイズ分類モジュール106に提供するよう設計されている。たとえば、ノイズ記録モジュール104は、音声認識システム100の遅延の間、ノイズ信号を記録する。典型的には、ユーザー112は音声認識システム100を作動させ、音声認識システムは所定の遅延期間が経過したのちに準備完了であることをユーザー112に指示する。この遅延の間、ユーザー112は音声認識システムの準備完了状態を単に待っており、したがっていかなる発話も発生させないことが想定できる。よって、この遅延期間の間は、記録される音響信号は背景ノイズのみを表していることが期待される。
ノイズ記録モジュール104によるノイズの記録ののち、ノイズ分類モジュールは記録されたノイズ信号を識別するはたらきをする。好ましくは、ノイズ分類モジュール106は、音声認識システム100に保存されている、さまざまな背景ノイズシナリオに固有なノイズ分類モデルを利用する。こうしたノイズ分類モデルは典型的には対応するノイズ条件のもとでトレーニングされる。たとえば、ある具体的なノイズ分類モデルは自動車の背景ノイズを指示しうる。ユーザー112が音声認識システム100を自動車の環境において使用するとき、記録されたノイズ信号が、ノイズ分類モジュール106によって自動車のノイズとして同定されることは非常にありそうであり、個別的な自動車のノイズ分類モデルが選択されうる。また、特定のノイズ分類モデルの選択がノイズ分類モジュール106によって実行される。ノイズ分類モジュール106はさらに、ノイズ信号レベルまたは信号対雑音比のようなさまざまなノイズパラメータを抽出および指定するよう適応されうる。
一般に、選択されたノイズ分類モジュールは、ノイズ分類モジュール106によって決定および選択されたその他のノイズ固有パラメータと同様に、パフォーマンス予測モジュール108に与えられる。パフォーマンス予測モジュール108はさらに、ノイズ記録モジュール104から変更されていない記録されたノイズ信号を受け取ってもよい。次いでパフォーマンス予測モジュール108は音声認識モジュール102の期待されるパフォーマンスを、与えられたノイズ信号、ノイズ固有パラメータまたは選択されたノイズ分類モデルのうちの任意のものに基づいて計算する。さらに、パフォーマンス予測モジュール108は、与えられたノイズ固有入力のうちさまざまなものを使用することによってパフォーマンス予測を決定するよう適応される。たとえば、パフォーマンス予測モジュール108は、音声認識プロセスの信頼できるパフォーマンス予測を決定するために、選択されたノイズ分類モジュールとノイズ固有パラメータを効率的に組み合わせる。結果として、パフォーマンス予測モジュール108は、指示モジュール110と音声認識モジュール102に与えられるパフォーマンスレベルを生成する。
音声認識プロセスの決定されたパフォーマンスレベルを指示モジュール110に与えることによって、音声認識プロセスの期待されるパフォーマンスおよび信頼性をユーザー112に効率的に通知できる。指示モジュール110は複数の異なる方法で実装しうる。ユーザー112が解釈する必要のある点滅するカラーエンコードされた出力を生成してもよい。より洗練された実施形態では、指示モジュール110は、ユーザー112に可聴出力を生成するための音声合成手段を備えていてもよく、該音声合成手段はそれぞれ発話の品質を改善するため、および/または背景ノイズを削減するためにユーザー112に何らかの動作を実行するよう指示さえしてもよい。
音声認識モジュール102はさらに、入力信号をユーザー112から、記録されたノイズ信号をノイズ記録モジュール104から、ノイズパラメータおよび選択されたノイズ分類モデルをノイズ分類モジュール106から、そして音声認識手順の予測されたパフォーマンスレベルをパフォーマンス予測モジュール108から直接受領するよう適応される。生成されたパラメータの任意のものを音声認識モジュール102に提供することにより、音声認識プロセスの期待されるパフォーマンスが決定できるばかりでなく、音声認識プロセスそのものが効果的に現在のノイズ状況に適応されることができる。
特に、音声認識モジュール102に対して選択されたノイズモデルおよび関連するノイズパラメータをノイズ分類モジュール106によって提供することによって、根底にある音声認識手順は選択されたノイズモデルを効率的に使用できる。さらに、期待されるパフォーマンスレベルをパフォーマンス予測モジュール108によって音声認識モジュール102に提供することによって、音声認識手順は適切に調整できる。たとえば、パフォーマンス予測モジュール108によって比較的高い誤り率が決定された場合、音声認識手順の枝刈りレベルは、音声認識プロセスの信頼性を増すために適応的に調整されることができる。枝刈りレベルをより高い値に動かすことは、かなりの追加的計算時間を必要とするため、根底にある音声認識プロセスの全体的な効率は実質的に低下しうる。結果として、音声認識プロセス全体は、速度低下を代償として信頼性を増すことになる。この場合、この種のパフォーマンス低下を指示モジュール110を使ってユーザー112に対して指示することが理にかなっている。
図2は、対話的音声認識システム100のより洗練された実施形態を示している。図1に示した実施形態と比べ、図2には対話的音声認識システム100の追加的なコンポーネントが示されている。ここでは、音声認識システム100はさらに、対話モジュール114、ノイズモジュール116、作動モジュール118および制御モジュール120を有している。好ましくは、音声認識モジュール102は、図1ですでに示したように、さまざまなモジュール104…108に接続されている。制御モジュール120はやりとりを制御し、対話的音声認識システム100のさまざまなモジュールの機能性を調整するよう適応されている。
対話モジュール114は、パフォーマンス予測モジュール108から予測されたパフォーマンスレベルを受領し、指示モジュール110を制御するよう適応されている。好ましくは、対話モジュール114は、ユーザー112との連絡のために適用できるさまざまな対話戦略を提供する。たとえば、対話モジュー114は、指示モジュール110によるユーザー112への検証要求の提供をトリガーするよう適応される。そのような検証要求はユーザー112の認識された音声の再生を含んでもよい。するとユーザー112は、その再生された音声がユーザーのもともとの発話の意味内容を本当に表しているかどうかに応じて、再生された音声を確認または破棄しなければならない。
対話モジュール114は好ましくは、音声認識手順の予測されたパフォーマンスレベルによって支配される。予測されたパフォーマンスレベルに依存して、検証要求のトリガーがしかるべく適応されうる。パフォーマンスレベルが信頼できる音声認識が不可能であると指示するような極端な場合には、対話モジュール114は、指示モジュール110をしてユーザー112に背景ノイズを減らすよう指示するなどのような適切なユーザー指示を生成させさえしてもよい。
ノイズモデルモジュール116はさまざまなノイズ分類モデルの記憶装置としてのはたらきをする。複数の異なるノイズ分類モデルは好ましくは、それぞれのノイズ条件下で実行される対応するトレーニング手順によって生成される。具体的には、ノイズ分類モジュール106は、特定のノイズモデルの選択のためにノイズモデルモジュール116にアクセスする。代替的には、ノイズモデルの選択は、ノイズモデルモジュール116によって実現されてもよい。この場合、ノイズモデルモジュール116はノイズ記録モジュール104から記録されたノイズ信号を受領し、その受領ノイズ信号のある割合をさまざまな保存されているノイズ分類モジュールと比較し、記録されたノイズの前記割合に合致するノイズ分類モデルの少なくとも一つを決定する。次いで最もよく一致するノイズ分類モデルがノイズ分類モジュール106に与えられ、そこでさらなるノイズ固有パラメータが生成されうる。
作動モジュール118は、ノイズ記録モジュール104のためのトリガーとしてのはたらきをする。好ましくは、作動モジュール118は、ユーザーが話すある種の作動フレーズを捕らえるよう適応されている特別設計の音声認識器として実装される。作動フレーズの受領およびそれに応じた該作動フレーズの識別に反応して、作動モジュール118はノイズ記録モジュール104を作動させる。さらに、作動モジュール118は、準備可能の状態をユーザー112に指示するために制御モジュール120を介して指示モジュール110をトリガーすることもする。好ましくは、準備完了の状態の指示は、ノイズ記録モジュール104が作動されたのちに実行される。この遅延の間、ユーザー112は話さず、音声認識システム100の準備完了を待っていると想定できる。よって、この遅延期間は純粋に実際の背景ノイズを示す音響信号を記録するのに理想的に適している。
別個の音声認識モジュールを使って作動モジュール118を実装する代わりに、作動モジュールは他の何らかの種類の作動手段によって実装されてもよい。たとえば、作動モジュール118は作動ボタンを供えていて、音声認識システムを作動させるためにユーザー112がそれを押さなければならないのでもよい。ここでも、背景ノイズを記録するための必要な遅延がしかるべく実装できる。特に、対話的音声認識システムが電話ベースのダイアログシステムに実装されているとき、作動モジュール118は、ダイアログシステムの何らかの種類のメッセージがユーザー112に提供されたのちにノイズ記録を作動させるよう適応されていてもよい。最も典型的には、ユーザー112にウェルカムメッセージを提供したのち、好適な発話空白期間が生じ、これが背景ノイズ記録のために利用できる。
図3は、本発明の対話的音声認識システムのパフォーマンスレベルを予測するためのフローチャートである。第一のステップ200では、作動信号が受領される。作動信号は、ユーザー112によるか、電話ベースのダイアログシステムに実装されたときにはユーザーによって話された作動フレーズの受領によるか、またはユーザー112に挨拶メッセージを提供したのちのボタン押下のことを指しうる。ステップ200で作動信号を受領したのに反応して、後続のステップ202ではノイズ信号が記録される。作動信号は無音期間の開始を指示するので、記録される信号が一意的に背景ノイズを表していることは非常にありそうである。ステップ202で背景ノイズが記録されたのち、次のステップ204では記録されたノイズ信号がノイズ分類モジュール106によって評価される。ノイズ信号の評価とは、ステップ206における特定のノイズモデルの選択およびステップ208におけるノイズパラメータの生成を指す。ステップ206、208によって、具体的なノイズモデルおよび関連するノイズパラメータが決定される。
選択されたノイズモデルおよび生成されたノイズパラメータに基づいて、次のステップ210において、音声認識手順のパフォーマンスレベルがパフォーマンス予測モジュール108によって予測される。次いでステップ212で、予測されたパフォーマンスレベルが指示モジュール110を使うことによってユーザーに対して指示される。パフォーマンスレベルの予測は音声の入力に先立つノイズ入力に基づいているため、原理的には、予測されるパフォーマンスレベルはユーザーが話し始めさえしないうちにユーザー112に表示されることができる。
さらに、予測されるパフォーマンスレベルは、さまざまなノイズモデルおよびノイズパラメータと測定された誤り率との間の関係を与える追加的なトレーニング手順に基づいて生成されうる。よって、予測されたパフォーマンスレベルは、音声認識プロセスの期待される出力に焦点を当てる。予測され、期待されるパフォーマンスレベルは好ましくは、ユーザーに対して指示されるのみならず、音声認識手順によって誤り率を下げるためにも利用される。
図4は、音声認識手順内で予測されるパフォーマンスレベルを利用するためのフローチャートを示している。ステップ300から308は、すでに図3で示されたステップ200ないし208に対応する。ステップ300で作動信号が受領され、ステップ302でノイズ信号が記録され、その後ステップ304で記録されたノイズ信号が評価される。ノイズ信号の評価は、特定のノイズモデルが選択され、対応するノイズパラメータが生成されるステップ306および308を指す。ひとたびステップ308でノイズ固有パラメータが生成されれば、生成されたパラメータがステップ318で音声認識手順の認識パラメータを調整するために使われる。枝刈りレベルなどといった音声認識パラメータがステップ318で調整されたのち、ステップ320で音声認識手順が処理される。ダイアログシステム中に実装されるときには、対応するダイアログもステップ320で実行される。一般に、ステップ318およびステップ320は、音声認識プロセスの改良のためにノイズ固有パラメータを利用する従来技術の解決策を表している。対照的に、ステップ310ないし316は、背景ノイズの評価に基づく、音声認識手順の本発明のパフォーマンス予測を表している。
ステップ306でノイズモデルが選択されたのち、ステップ310は実行された選択が成功だったかどうかを検査する。特定のノイズモデルが選択できなかった場合には、本方法はステップ318に進み、そこで、決定されたノイズパラメータを使って音声認識手順の認識パラメータが調整される。ステップ310で特定のノイズ分類モデルの選択成功が確認された場合には、本方法はステップ312に進んで、そこで、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルが予測される。さらに、パフォーマンスレベルの予測は、ステップ308で決定されたノイズ固有パラメータの利用を組み込んでいてもよい。ステップ312でパフォーマンスレベルが予測されたのち、ステップ314ないし318は同時または交互に実行される。
ステップ314では、対話モジュール114のための対話パラメータが、予測されたパフォーマンスレベルに鑑みて調整される。これらの対話パラメータは時間期間を指定し、ダイアログシステムにおいてその時間期間が経過すると検証要求が出されなければならない。代替的に、対話パラメータは対話的音声認識システムとユーザーとの間のさまざまな対話シナリオを指定しうる。たとえば、対話パラメータは、ユーザーが背景ノイズを低下させて初めて音声認識手順が実行できると規定しうる。ステップ316では、決定されたパフォーマンスレベルが指示モジュール110を使うことによってユーザーに指示される。このようにして、ユーザー112は、パフォーマンスの度合い、よって音声認識プロセスの信頼性を効率的に知らされる。さらに、ステップ318で実行される認識パラメータの調整は、ステップ312で予測されたパフォーマンスレベルを効率的に利用できる。
ステップ314、316、318は同時、逐次的または選択的に実行されうる。選択的な実行とは、ステップ314、316、318のうち一つまたは二つしか実行されないような場合をいう。しかし、ステップ314、316、318のいずれかの実行後は、ステップ320で音声認識プロセスが実行される。
したがって、本発明は音声認識手順のパフォーマンスレベルを記録された背景ノイズに基づいて推定する効率的な手段を提供する。好ましくは、本発明の対話的音声認識システムは、認識システムに発話が入力さえされないうちにユーザー112に対して適切なパフォーマンスフィードバックを提供するよう適応される。予測されたパフォーマンスレベルの利用は複数の異なる方法で実現できるので、本発明の実行予測はさまざまな既存の音声認識システムにあまねく実装できる。特に、本発明のパフォーマンス予測は、既存のノイズ削減および/またはノイズレベル指示システムとあまねく組み合わせることができる。
100 音声認識システム
102 音声認識モジュール
104 ノイズ記録モジュール
106 ノイズ分類モジュール
108 パフォーマンス予測モジュール
110 指示モジュール
112 ユーザー
114 対話モジュール
116 ノイズモデルモジュール
118 作動モジュール
120 制御モジュール
102 音声認識モジュール
104 ノイズ記録モジュール
106 ノイズ分類モジュール
108 パフォーマンス予測モジュール
110 指示モジュール
112 ユーザー
114 対話モジュール
116 ノイズモデルモジュール
118 作動モジュール
120 制御モジュール
Claims (12)
- ユーザーの発話を認識する対話的音声認識システムであって:
・背景ノイズを含む音響信号を受領する手段と、
・受領した音響信号に基づいてノイズモデルを選択する手段と、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、
・その予測されたパフォーマンスレベルをユーザーに指示する手段、
とを有することを特徴とするシステム。 - 前記パフォーマンスレベルを予測する手段がさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
- 音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するようさらに適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
- 予測されたパフォーマンスレベルに基づいてあらかじめ定義されている対話モードを切り換える手段をさらに有することを特徴とする、請求項1記載の対話的音声認識システム。
- 前記パフォーマンスレベルを予測する手段がパフォーマンスレベルの予測を音声認識手順の実行に先立って行うよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
- 前記音響信号を受領する手段が、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するようさらに適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
- 前記予測されたパフォーマンスをユーザーに指示する手段が、予測されたパフォーマンスレベルを指示する可聴および/または視覚信号を生成するよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
- ・背景ノイズを含む音響信号を受領し、
・受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、
・その予測されたパフォーマンスレベルをユーザーに指示する、
ステップを有することを特徴とする対話的音声認識の方法。 - 前記ノイズモデルのそれぞれを、対応するノイズ条件下で第一のトレーニング手順を使うことによって生成することをさらに含むことを特徴とする、請求項8記載の方法。
- 音声認識手順のパフォーマンスレベルの予測がある第二のトレーニング手順に基づいており、該第二のトレーニング手順はノイズ条件のそれぞれについての音声認識手順のパフォーマンスをモニタリングするよう適応されたものであることを特徴とする、請求項8記載の方法。
- 対話的音声認識システムのためのコンピュータプログラムであって:
・背景ノイズを含む音響信号を受領し、
・受領した音響信号に基づいてノイズモデルを選択し、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、
・予測されたパフォーマンスレベルをユーザーに指示する、
ために適応されたコンピュータプログラム手段を有することを特徴とするコンピュータプログラム。 - 請求項1記載の対話的音声認識システムを有することを特徴とする、自動ダイアログシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04102513 | 2004-06-04 | ||
PCT/IB2005/051687 WO2005119193A1 (en) | 2004-06-04 | 2005-05-24 | Performance prediction for an interactive speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008501991A true JP2008501991A (ja) | 2008-01-24 |
Family
ID=34968483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007514272A Pending JP2008501991A (ja) | 2004-06-04 | 2005-05-24 | 対話的音声認識システムのためのパフォーマンス予測 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090187402A1 (ja) |
EP (1) | EP1756539A1 (ja) |
JP (1) | JP2008501991A (ja) |
CN (1) | CN1965218A (ja) |
WO (1) | WO2005119193A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532742A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Families Citing this family (203)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
DE102006041453A1 (de) * | 2006-09-04 | 2008-03-20 | Siemens Ag | Verfahren zur Spracherkennung |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR20080035754A (ko) * | 2006-10-20 | 2008-04-24 | 현대자동차주식회사 | 운전자의 능동적 음성인식률 향상을 위한 음성인식가능상태표시장치 및 방법 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE102008024258A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
CN102714034B (zh) * | 2009-10-15 | 2014-06-04 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9244984B2 (en) * | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8972256B2 (en) | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10019983B2 (en) * | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN113470641B (zh) | 2013-02-07 | 2023-12-15 | 苹果公司 | 数字助理的语音触发器 |
US20140278395A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Determining a Motion Environment Profile to Adapt Voice Recognition Processing |
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
EP2816554A3 (en) * | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
CN104347081B (zh) * | 2013-08-07 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 一种测试场景说法覆盖度的方法和装置 |
CN104378774A (zh) * | 2013-08-15 | 2015-02-25 | 中兴通讯股份有限公司 | 一种语音质量处理的方法及装置 |
US20150149169A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | Method and apparatus for providing mobile multimodal speech hearing aid |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
CN104078040A (zh) * | 2014-06-26 | 2014-10-01 | 美的集团股份有限公司 | 语音识别方法及系统 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6466762B2 (ja) * | 2015-04-01 | 2019-02-06 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびプログラム |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10147423B2 (en) * | 2016-09-29 | 2018-12-04 | Intel IP Corporation | Context-aware query recognition for electronic devices |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN110603901B (zh) * | 2017-05-08 | 2022-01-25 | 昕诺飞控股有限公司 | 使用语音识别来控制实用程序的方法和控制系统 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10446138B2 (en) * | 2017-05-23 | 2019-10-15 | Verbit Software Ltd. | System and method for assessing audio files for transcription services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
KR102544250B1 (ko) | 2018-07-03 | 2023-06-16 | 삼성전자주식회사 | 소리를 출력하는 디바이스 및 그 방법 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
US10430708B1 (en) | 2018-08-17 | 2019-10-01 | Aivitae LLC | System and method for noise-based training of a prediction model |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP2020160144A (ja) * | 2019-03-25 | 2020-10-01 | 株式会社Subaru | 音声認識装置 |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110197670B (zh) * | 2019-06-04 | 2022-06-07 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
EP3764179A1 (en) * | 2019-07-08 | 2021-01-13 | ABB Schweiz AG | Assessing conditions of instustrial equipment and processes |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11157823B2 (en) | 2020-02-04 | 2021-10-26 | Vignet Incorporated | Predicting outcomes of digital therapeutics and other interventions in clinical research |
US11151462B2 (en) | 2020-02-04 | 2021-10-19 | Vignet Incorporated | Systems and methods for using machine learning to improve processes for achieving readiness |
EP4367664A1 (en) * | 2021-08-09 | 2024-05-15 | Google Llc | Joint acoustic echo cancelation, speech enhancement, and voice separation for automatic speech recognition |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778959B1 (en) * | 1999-10-21 | 2004-08-17 | Sony Corporation | System and method for speech verification using out-of-vocabulary models |
US7219058B1 (en) * | 2000-10-13 | 2007-05-15 | At&T Corp. | System and method for processing speech recognition results |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
US7047200B2 (en) * | 2002-05-24 | 2006-05-16 | Microsoft, Corporation | Voice recognition status display |
-
2005
- 2005-05-24 WO PCT/IB2005/051687 patent/WO2005119193A1/en not_active Application Discontinuation
- 2005-05-24 JP JP2007514272A patent/JP2008501991A/ja active Pending
- 2005-05-24 US US11/569,709 patent/US20090187402A1/en not_active Abandoned
- 2005-05-24 EP EP05742503A patent/EP1756539A1/en not_active Withdrawn
- 2005-05-24 CN CNA2005800183020A patent/CN1965218A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532742A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
EP1756539A1 (en) | 2007-02-28 |
WO2005119193A1 (en) | 2005-12-15 |
US20090187402A1 (en) | 2009-07-23 |
CN1965218A (zh) | 2007-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2008501991A (ja) | 対話的音声認識システムのためのパフォーマンス予測 | |
CN110428810B (zh) | 一种语音唤醒的识别方法、装置及电子设备 | |
US20130311184A1 (en) | Method and system for speech recognition | |
KR100834679B1 (ko) | 음성 인식 오류 통보 장치 및 방법 | |
WO2019129511A1 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
Fukuda et al. | Long-term spectro-temporal and static harmonic features for voice activity detection | |
CN111429899A (zh) | 基于人工智能的语音响应处理方法、装置、设备及介质 | |
CN108701456A (zh) | 语音识别装置 | |
CN107656461A (zh) | 一种基于用户年龄调节语音的方法及洗衣机 | |
US8219396B2 (en) | Apparatus and method for evaluating performance of speech recognition | |
JP2002506241A (ja) | 話者照合の多重解像システム及び方法 | |
JP2008256802A (ja) | 音声認識装置および音声認識方法 | |
JP5051882B2 (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
CN107600075A (zh) | 车载系统的控制方法和装置 | |
CN111145763A (zh) | 一种基于gru的音频中的人声识别方法及系统 | |
US20070198268A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
CN110767240B (zh) | 儿童口音识别的设备控制方法、设备、存储介质及装置 | |
JP2009122598A (ja) | 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
JP5039879B2 (ja) | スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置 | |
KR20040038419A (ko) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 | |
KR20050049207A (ko) | 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법 | |
JP2003330491A (ja) | 音声認識装置および音声認識方法ならびにプログラム | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
KR20070022296A (ko) | 대화식 음성 인식 시스템을 위한 성능 예측 |