JP2008501991A - 対話的音声認識システムのためのパフォーマンス予測 - Google Patents

対話的音声認識システムのためのパフォーマンス予測 Download PDF

Info

Publication number
JP2008501991A
JP2008501991A JP2007514272A JP2007514272A JP2008501991A JP 2008501991 A JP2008501991 A JP 2008501991A JP 2007514272 A JP2007514272 A JP 2007514272A JP 2007514272 A JP2007514272 A JP 2007514272A JP 2008501991 A JP2008501991 A JP 2008501991A
Authority
JP
Japan
Prior art keywords
speech recognition
noise
performance level
user
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007514272A
Other languages
English (en)
Inventor
ショル,ホルガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008501991A publication Critical patent/JP2008501991A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本発明は、記録された背景ノイズに基づいて音声認識手順のパフォーマンスレベルを決定するための対話的音声認識システムおよび対応する方法を提供する。本発明のシステムは、音声認識の対象となる発話をユーザーが入力する前に生じる発話空白期間を効率的に利用する。好ましくは、本発明のパフォーマンス予測は、トレーニングされたノイズ分類モデルを効率的に使用する。さらに、予測されたパフォーマンスレベルは、音声認識手順のパフォーマンスについての信頼できるフィードバックを与えるため、ユーザーに対して示される。このようにして、対話的音声認識システムは、信頼できる音声認識を生成するには不適切なノイズ条件に反応しうる。

Description

本発明は対話的音声認識の分野に関する。
自動音声認識システム(ASR: automatic speech recognition system)のパフォーマンスおよび信頼性は背景ノイズの特性およびレベルに強く依存する。システムパフォーマンスを上げ、多様な種々のノイズ条件に対処するためにいくつかのアプローチが存在する。大まかな発想としては、音声とノイズの間の信号対雑音比(SNR: signal to noise ratio)を上げるためのノイズ削減およびノイズ抑制方法に基づいている。主に、これは適切なノイズフィルタによって実現できる。
他のアプローチは特定の背景ノイズのシナリオに固有のノイズ分類モデルに焦点を当てる。そのようなノイズ分類モデルは自動音声認識のための音響モデルまたは言語モデルに組み込まれうるもので、特定のノイズ条件のもとでのトレーニングを必要とする。よって、ノイズ分類モデルによって、音声認識プロセスはさまざまなあらかじめ定義されたノイズシナリオに適応できる。さらに、先験的な知識を分類モデルに取り入れる明示的なノイズ堅牢な音響モデル化が適用できる。
しかしながら、これらのアプローチはみな、音声品質の向上やさまざまなノイズ条件への適合を、それらが典型的な応用シナリオにおいて生じるにつれて試みるものである。これらのノイズ分類モデルの多様性および品質に関わりなく、膨大な数の予測不能なノイズおよび摂動シナリオは、穏当なノイズ削減および/またはノイズ適合の努力によってカバーすることはできない。
したがって、自動音声認識システムのユーザーに対して、該ユーザーが誤った音声認識につながりうる問題のある録音環境に気づくよう、瞬間的なノイズレベルを指示することが実際上有用である。最も典型的には、ノイズインジケーターがマイクロホン入力の瞬間的なエネルギーレベルを表示し、ユーザー自身が、指示されたレベルが十分な品質の音声認識を許容する好適な領域にあるかどうかを評価できる。
たとえば、WO02/095726A1がそのような音声品質指示を開示している。ここでは、受領された音声信号は音声品質評価器に与えられ、そこで信号の音声品質が定量化される。結果として得られる音声品質指標はインジケーター駆動器に与えられ、該インジケーター駆動器が現在受領されている音声品質の適切な指示を生成する。この指示は、インジケーターによって、声伝達装置のユーザーに対して明白にされる。音声品質評価器が音声品質を定量化するのはさまざまな方法がありうる。音声品質指標について用いることのできる二つの簡単な例は(i)音声信号レベル、(ii)音声の信号対雑音比である。
ユーザーに対して表示される音声信号レベルおよび信号対雑音比は、問題のある録音環境を指示するよう適応されることもできるが、主としては自動音声認識システムの音声認識のパフォーマンスには直接関係しない。たとえばある特定のノイズ信号が十分フィルタ処理できる場合、いくぶん低い信号対雑音比も必ずしも音声認識システムの低パフォーマンスに相関するとは限らない。さらに、従来技術において知られている解決策は典型的には、現在受領している音声品質に基づく指示信号を生成するよう適応される。これはしばしば、受領した音声のある割合がすでに認識手順にかけられていることを含意する。よって、音声品質指標の生成は典型的には、すでに音声認識手順にかけられた記録された音声および/または音声信号に基づく。いずれの場合にも、音声の少なくともある割合は、ユーザーが記録条件を改善したり、あるいはノイズレベルを削減したりする機会をもつ前にすでに処理されてしまっている。
本発明は、ユーザーの発話を認識する対話的(interactive)音声認識(speech recognition)システムを提供する。本発明の音声認識システムは、背景ノイズを含む音響信号(acoustic signal)を受領する手段と、受領した音響信号に基づいてノイズモデルを選択する手段と、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、その予測されたパフォーマンスレベルをユーザーに指示する手段とを有する。具体的には、前記音響信号を受領する手段は、ノイズレベルを、好ましくはユーザーが当該対話的音声認識システムに何らかの発話信号(speech signal)を与えるより前に記録する。このようにして、背景ノイズを指示する音響信号が、音声認識手順にかけられる発話信号が生成すらされないうちに得られる。特に、ダイアログ(dialogue)システムでは、適切な発話空白期間(speech pause)が何らかの所定の時点において生じ、ノイズ固有の音響信号を記録するために効果的に利用できる。
本発明の対話的音声認識システムはさらに、音声認識システムの特定の応用条件のもとでトレーニングされたノイズ分類モデルを利用するよう適応される。好ましくは、音声認識システムは多様なノイズ分類モデルへのアクセスを有する。各ノイズ分類モデルは特定のノイズ条件を指示するものである。ノイズモデルの選択は、典型的には受領した音響信号の解析および保存されている以前にトレーニングされたノイズモデルとの比較を参照する。そうして、受領され、解析された音響信号に最もよく適合する特定のノイズモデルが選択される。
この選択されたノイズモデルに基づき、音声認識手順のパフォーマンスレベルが予測される。したがって、パフォーマンスレベルの予測のための前記手段は、実際の音声認識が始まりもしないうちに音声認識手順の品質指標の推定を提供する。これは、具体的なノイズレベルを音声認識ステップのシーケンスにおいてできるだけ早期に推定し、認識する効率的な手段を提供する。ひとたび音声認識手順のパフォーマンスレベルが予測されたら、前記指示する手段は、その予測されたパフォーマンスレベルをユーザーに通知するよう適応されている。
特に、音声認識プロセスの推定された品質指標をユーザーに指示することによって、ユーザーは不十分な音声認識条件を可能な限り早期に通知されうる。このようにして、ユーザーは、当該音声認識システムを実際に使いもしないうちに、不十分な音声認識条件に反応できる。そのような機能性は、ユーザーが音響的に制御コマンドや要求を入力するダイアログシステムにおいてとりわけ有利である。したがって、本発明の音声認識システムは好ましくは、公共交通機関の時刻表情報システムなどといったユーザーの発話による入力を処理し、要求された情報を提供するよう適応されている自動ダイアログシステム内に実装される。
本発明のあるさらなる好ましい実施形態によれば、前記パフォーマンスレベルを予測する手段はさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応される。これらのノイズパラメータはたとえば、音声記録レベルまたは信号対雑音比を指示するものであり、さらに音声認識手順のパフォーマンスレベルの予測のために利用されることができる。このようにして、本発明は、一般的な諸ノイズ固有パラメータをもつ諸ノイズ分類モデルの適用を組み合わせて単一のパラメータ、すなわち音声認識システムの音声認識パフォーマンスを直接的に指示するパフォーマンスレベルにする効果的な手段を提供する。
あるいはまた、前記パフォーマンスレベルを予測する手段は、ノイズモデルまたはノイズパラメータのいずれかを別個に使ってもよい。だが、選択されたノイズモデルを別個に生成されたノイズパラメータと組み合わせて評価することによって、より信頼できるパフォーマンスレベルが期待されることになる。よって、前記パフォーマンスレベルを予測する手段は、音声認識手順の特定的な誤り率を直接的に指示する現実的なパフォーマンスレベルを提供するために、複数のノイズ指示入力信号を普遍的に利用してもよい。
本発明のあるさらなる好ましい実施形態によれば、対話的音声認識システムはさらに、音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するよう適応される。このようにして、予測されたパフォーマンスレベルは、ユーザーに適切なパフォーマンス情報を提供するために使用されるばかりでなく、能動的に音声品質プロセスを改善するためにも使用される。典型的な音声認識パラメータはたとえば、典型的には隠れマルコフモデル(HMM: hidden Markov models)を使用する統計的手順に基づく言語認識プロセスのための有意な音素シーケンスの有効範囲を指定する枝刈りレベル(pruning level)である。
典型的には、枝刈りレベルを上げれば誤り率の低下につながるが、著しくより高い計算力が必要となり、それは今度は音声認識プロセスのスピード低下につながる。誤り率はたとえば、単語誤り率(WER: word error rate)または概念誤り率(CER: concept error rate)のことを指しうる。予測されたパフォーマンスレベルに基づいて音声認識パラメータを調整することによって、音声認識手順は、その期待されるパフォーマンスに応じて普遍的に修正されることができる。
あるさらなる好ましい実施形態によれば、本対話的音声認識システムはさらに、予測されたパフォーマンスレベルに基づいてあらかじめ定義される対話モードを切り換える手段を有している。特にダイアログシステムにおいては、音声認識および/またはダイアログシステムの複数の対話および連絡モードが存在する。特に、音声認識システムおよび/またはダイアログシステムは、認識された発話を再生し、認識された発話をユーザーに対して提供するよう適応されうる。ユーザーのほうでは音声認識プロセスの結果を確認または拒否しなければならない。
そのような検証要求(verification prompt)をトリガーすることは、前記の予測されたパフォーマンスレベルによって効率的に支配されることができる。たとえば、パフォーマンスレベルが悪い場合には非常に頻繁に検証要求がトリガーされうる一方で、パフォーマンスレベルが高い場合はそのような検証要求はダイアログ中でごくまれにしか挿入されなくてもよい。その他の対話モードは、受領した発話シーケンスの完全な拒否を含みうる。これは、非常に劣悪なノイズ条件で特に理にかなっている。この場合、ユーザーは単に背景ノイズレベルを下げるか、あるいは発話シーケンスを繰り返すよう指示されうる。あるいはまた、ノイズレベルの上昇を補償するためより多くの計算時間を必要とするより高い枝刈りレベルに内的に切り換えるときに、ユーザーが単に、音声認識システムの対応する遅延またはパフォーマンス低下について通知されるのでもよい。
本発明のあるさらなる好ましい実施形態によれば、前記音響信号を受領する手段はさらに、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するよう適応される。作動モジュールによって生成された作動信号は、前記音響信号を受領する手段をトリガーする。前記音響信号を受領する手段は好ましくはユーザーの発声の生起に先立って背景ノイズを記録するよう適応されるので、作動モジュールは、発話の不在が期待されるときに選択的に前記音響信号を受領する手段をトリガーする。
このことは、ユーザーが押す作動ボタンと準備完了インジケーターとの組み合わせによって効率的に実現できる。作動ボタンを押すことによって、ユーザーは音声認識システムを注意を払っている状態に切り換え、短い遅延ののち、音声認識システムは準備完了であることを指示する。この遅延の間、ユーザーはまだ話していないことが想定できる。したがって、作動ボタンの押下とシステムの準備完了の指示との間の遅延が、瞬間的背景ノイズを測定および記録するために効率的に使用できる。
あるいはまた、作動ボタン押下は、声制御に基づいて実行されてもよい。そのような実施形態では、音声認識システムは、特定の作動フレーズを捕らえるよう特別に適応された別個の堅牢な音声認識器に基づく連続的な監視(listening)モードにある。ここでも、システムは、認識された作動フレーズに即座に応答するのではなく、背景ノイズ情報の収集のために所定の遅延を利用するよう適応される。
さらに、ダイアログシステム内に実装されるとき、典型的にはダイアログシステムの挨拶メッセージのあと、発話空白期間が生じる。よって、本発明の音声認識システムは、根底にある背景ノイズを十分に決定するため、よく定義された、あるいは人工的に生成された発話空白期間を効率的に利用する。好ましくは、背景ノイズの決定は、自然な発話空白期間または音声認識および/もしくはダイアログシステムにとって典型的である発話空白期間を利用することによって組み込まれて、ユーザーは背景ノイズ記録ステップに気づかないようにされる。
本発明のあるさらなる好ましい実施形態によれば、前記予測されたパフォーマンスをユーザーに指示する手段は、予測されたパフォーマンスレベルを指示する可聴および/または視覚信号を生成するよう適応される。たとえば、予測されたパフォーマンスレベルは、LEDなどのカラーエンコードされた点滅または明滅によってユーザーに表示されうる。緑、黄色、赤のような種々の色が良好、中くらい、または低いパフォーマンスレベルを指示しうる。さらに、複数の光点が直線に沿って配列されてもよく、パフォーマンスのレベルが同時に点滅する光点の数によって指示されうる。さらに、パフォーマンスレベルはビープ音によって指示されることもでき、より洗練された環境では、本音声認識システムは、該音声認識システムによって再生できる所定の発話シーケンスを介してユーザーに可聴的に指示してもよい。後者は、電話などを介してのみアクセスできるダイアログシステムに基づく音声認識において実装されることが好ましい。ここで、予測されたパフォーマンスレベルが低い場合、対話的音声認識システムはユーザーに、ノイズレベルを下げるか、および/または話された言葉を繰り返すよう指示しうる。
別の側面においては、本発明は、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、その予測されたパフォーマンスレベルをユーザーに指示するステップを有する対話的音声認識の方法を提供する。
本発明のあるさらなる好ましい実施形態では、前記トレーニングされたノイズモデルのそれぞれは特定のノイズを指示するもので、対応するノイズ条件下で実行される第一のトレーニング手順によって生成される。これは前記複数のノイズモデルの生成のための専用のトレーニング手順を必要とする。たとえば、本発明の音声認識システムを自動車の環境に適応させると、対応するノイズモデルは自動車の条件か、あるいは少なくともシミュレーションされた自動車の条件のもとでトレーニングされる必要がある。
本発明のあるさらなる好ましい実施形態では、音声認識手順のパフォーマンスレベルの予測は、第二のトレーニング手順に基づいている。第二のトレーニング手順は、選択されたノイズ条件および選択されたノイズモデルに基づいてパフォーマンスレベルの予測をトレーニングするはたらきをする。したがって、第二のトレーニング手順は、第一のトレーニング手順によって生成された特定のノイズモデルに対応するそれぞれのノイズ条件について音声認識手順のパフォーマンスをモニタリングするよう適応される。よって、第二のトレーニング手順は、音声認識においてある個別のノイズモデルが使われた具体的なノイズ条件下で測定された、音声認識手順のWERまたはCERなどのような特定の誤り率を表すトレーニングされたデータを提供するはたらきをする。
別の側面では、本発明は対話的音声認識システムのためのコンピュータプログラムプロダクトを提供する。本発明のコンピュータプログラムプロダクトは、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいてノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、その予測されたパフォーマンスレベルをユーザーに指示するために適応されたコンピュータプログラム手段を有する。
さらに別の側面では、本発明は、ユーザーによって生成された音声入力を処理することによってユーザーにサービスを提供するダイアログシステムを提供する。該ダイアログシステムは本発明の対話的音声認識システムを含む。よって、本発明の音声認識システムは、公共交通機関の情報を提供する自動時刻表情報システムなどのようなダイアログシステムの一体的な部分として組み込まれる。
さらに、請求項において何らかの参照符号があったとしても、本発明の範囲を限定するものと解釈されるべきではないことを注意しておく。
以下では本発明の好ましい実施形態について図面を参照することによって詳細に述べる。
図1は、本発明の対話的音声認識システム100のブロック図を示している。本音声認識システムは、音声認識モジュール102、ノイズ記録モジュール104、ノイズ分類モジュール106、パフォーマンス予測モジュール108および指示モジュール110を有している。ユーザー112は、音声認識システム100によって認識されるべき音声を与えることによって、および指示モジュール110を介して音声認識のパフォーマンスを指示するフィードバックを受け取ることによって、音声認識システム100と対話しうる。
単一のモジュール102…110は、音声認識システム100のパフォーマンス予測機能性を実現するために設計されている。さらに、音声認識システム100は、明示的に示されてはいないが従来技術において知られている標準的な音声認識コンポーネントを有する。
ユーザー112によって与えられる音声が音声認識システム100に入力されるのは、音響信号を音声認識システム100によって処理できる対応する電気信号に変換するマイクなどといった何らかの種類の記録装置による。音声認識モジュール102は音声認識システム100の中心的なコンポーネントを表しており、記録された音素の解析を提供し、言語モデルによって提供される単語シーケンスまたはフレーズへのマッピングを実行する。原理的には、いかなる音声認識技術も本発明とともに適用可能である。さらに、ユーザー112によって入力された音声は、音声認識目的のために音声認識モジュール102に直接に提供される。
ノイズ記録およびノイズ分類モジュール104、106ならびにパフォーマンス予測モジュール108は、音声認識モジュール102によって実行される音声認識プロセスのパフォーマンスを、記録された背景ノイズのみに基づいて予測するために設計されている。ノイズ記録モジュール104は、背景ノイズを記録して、記録されたノイズ信号をノイズ分類モジュール106に提供するよう設計されている。たとえば、ノイズ記録モジュール104は、音声認識システム100の遅延の間、ノイズ信号を記録する。典型的には、ユーザー112は音声認識システム100を作動させ、音声認識システムは所定の遅延期間が経過したのちに準備完了であることをユーザー112に指示する。この遅延の間、ユーザー112は音声認識システムの準備完了状態を単に待っており、したがっていかなる発話も発生させないことが想定できる。よって、この遅延期間の間は、記録される音響信号は背景ノイズのみを表していることが期待される。
ノイズ記録モジュール104によるノイズの記録ののち、ノイズ分類モジュールは記録されたノイズ信号を識別するはたらきをする。好ましくは、ノイズ分類モジュール106は、音声認識システム100に保存されている、さまざまな背景ノイズシナリオに固有なノイズ分類モデルを利用する。こうしたノイズ分類モデルは典型的には対応するノイズ条件のもとでトレーニングされる。たとえば、ある具体的なノイズ分類モデルは自動車の背景ノイズを指示しうる。ユーザー112が音声認識システム100を自動車の環境において使用するとき、記録されたノイズ信号が、ノイズ分類モジュール106によって自動車のノイズとして同定されることは非常にありそうであり、個別的な自動車のノイズ分類モデルが選択されうる。また、特定のノイズ分類モデルの選択がノイズ分類モジュール106によって実行される。ノイズ分類モジュール106はさらに、ノイズ信号レベルまたは信号対雑音比のようなさまざまなノイズパラメータを抽出および指定するよう適応されうる。
一般に、選択されたノイズ分類モジュールは、ノイズ分類モジュール106によって決定および選択されたその他のノイズ固有パラメータと同様に、パフォーマンス予測モジュール108に与えられる。パフォーマンス予測モジュール108はさらに、ノイズ記録モジュール104から変更されていない記録されたノイズ信号を受け取ってもよい。次いでパフォーマンス予測モジュール108は音声認識モジュール102の期待されるパフォーマンスを、与えられたノイズ信号、ノイズ固有パラメータまたは選択されたノイズ分類モデルのうちの任意のものに基づいて計算する。さらに、パフォーマンス予測モジュール108は、与えられたノイズ固有入力のうちさまざまなものを使用することによってパフォーマンス予測を決定するよう適応される。たとえば、パフォーマンス予測モジュール108は、音声認識プロセスの信頼できるパフォーマンス予測を決定するために、選択されたノイズ分類モジュールとノイズ固有パラメータを効率的に組み合わせる。結果として、パフォーマンス予測モジュール108は、指示モジュール110と音声認識モジュール102に与えられるパフォーマンスレベルを生成する。
音声認識プロセスの決定されたパフォーマンスレベルを指示モジュール110に与えることによって、音声認識プロセスの期待されるパフォーマンスおよび信頼性をユーザー112に効率的に通知できる。指示モジュール110は複数の異なる方法で実装しうる。ユーザー112が解釈する必要のある点滅するカラーエンコードされた出力を生成してもよい。より洗練された実施形態では、指示モジュール110は、ユーザー112に可聴出力を生成するための音声合成手段を備えていてもよく、該音声合成手段はそれぞれ発話の品質を改善するため、および/または背景ノイズを削減するためにユーザー112に何らかの動作を実行するよう指示さえしてもよい。
音声認識モジュール102はさらに、入力信号をユーザー112から、記録されたノイズ信号をノイズ記録モジュール104から、ノイズパラメータおよび選択されたノイズ分類モデルをノイズ分類モジュール106から、そして音声認識手順の予測されたパフォーマンスレベルをパフォーマンス予測モジュール108から直接受領するよう適応される。生成されたパラメータの任意のものを音声認識モジュール102に提供することにより、音声認識プロセスの期待されるパフォーマンスが決定できるばかりでなく、音声認識プロセスそのものが効果的に現在のノイズ状況に適応されることができる。
特に、音声認識モジュール102に対して選択されたノイズモデルおよび関連するノイズパラメータをノイズ分類モジュール106によって提供することによって、根底にある音声認識手順は選択されたノイズモデルを効率的に使用できる。さらに、期待されるパフォーマンスレベルをパフォーマンス予測モジュール108によって音声認識モジュール102に提供することによって、音声認識手順は適切に調整できる。たとえば、パフォーマンス予測モジュール108によって比較的高い誤り率が決定された場合、音声認識手順の枝刈りレベルは、音声認識プロセスの信頼性を増すために適応的に調整されることができる。枝刈りレベルをより高い値に動かすことは、かなりの追加的計算時間を必要とするため、根底にある音声認識プロセスの全体的な効率は実質的に低下しうる。結果として、音声認識プロセス全体は、速度低下を代償として信頼性を増すことになる。この場合、この種のパフォーマンス低下を指示モジュール110を使ってユーザー112に対して指示することが理にかなっている。
図2は、対話的音声認識システム100のより洗練された実施形態を示している。図1に示した実施形態と比べ、図2には対話的音声認識システム100の追加的なコンポーネントが示されている。ここでは、音声認識システム100はさらに、対話モジュール114、ノイズモジュール116、作動モジュール118および制御モジュール120を有している。好ましくは、音声認識モジュール102は、図1ですでに示したように、さまざまなモジュール104…108に接続されている。制御モジュール120はやりとりを制御し、対話的音声認識システム100のさまざまなモジュールの機能性を調整するよう適応されている。
対話モジュール114は、パフォーマンス予測モジュール108から予測されたパフォーマンスレベルを受領し、指示モジュール110を制御するよう適応されている。好ましくは、対話モジュール114は、ユーザー112との連絡のために適用できるさまざまな対話戦略を提供する。たとえば、対話モジュー114は、指示モジュール110によるユーザー112への検証要求の提供をトリガーするよう適応される。そのような検証要求はユーザー112の認識された音声の再生を含んでもよい。するとユーザー112は、その再生された音声がユーザーのもともとの発話の意味内容を本当に表しているかどうかに応じて、再生された音声を確認または破棄しなければならない。
対話モジュール114は好ましくは、音声認識手順の予測されたパフォーマンスレベルによって支配される。予測されたパフォーマンスレベルに依存して、検証要求のトリガーがしかるべく適応されうる。パフォーマンスレベルが信頼できる音声認識が不可能であると指示するような極端な場合には、対話モジュール114は、指示モジュール110をしてユーザー112に背景ノイズを減らすよう指示するなどのような適切なユーザー指示を生成させさえしてもよい。
ノイズモデルモジュール116はさまざまなノイズ分類モデルの記憶装置としてのはたらきをする。複数の異なるノイズ分類モデルは好ましくは、それぞれのノイズ条件下で実行される対応するトレーニング手順によって生成される。具体的には、ノイズ分類モジュール106は、特定のノイズモデルの選択のためにノイズモデルモジュール116にアクセスする。代替的には、ノイズモデルの選択は、ノイズモデルモジュール116によって実現されてもよい。この場合、ノイズモデルモジュール116はノイズ記録モジュール104から記録されたノイズ信号を受領し、その受領ノイズ信号のある割合をさまざまな保存されているノイズ分類モジュールと比較し、記録されたノイズの前記割合に合致するノイズ分類モデルの少なくとも一つを決定する。次いで最もよく一致するノイズ分類モデルがノイズ分類モジュール106に与えられ、そこでさらなるノイズ固有パラメータが生成されうる。
作動モジュール118は、ノイズ記録モジュール104のためのトリガーとしてのはたらきをする。好ましくは、作動モジュール118は、ユーザーが話すある種の作動フレーズを捕らえるよう適応されている特別設計の音声認識器として実装される。作動フレーズの受領およびそれに応じた該作動フレーズの識別に反応して、作動モジュール118はノイズ記録モジュール104を作動させる。さらに、作動モジュール118は、準備可能の状態をユーザー112に指示するために制御モジュール120を介して指示モジュール110をトリガーすることもする。好ましくは、準備完了の状態の指示は、ノイズ記録モジュール104が作動されたのちに実行される。この遅延の間、ユーザー112は話さず、音声認識システム100の準備完了を待っていると想定できる。よって、この遅延期間は純粋に実際の背景ノイズを示す音響信号を記録するのに理想的に適している。
別個の音声認識モジュールを使って作動モジュール118を実装する代わりに、作動モジュールは他の何らかの種類の作動手段によって実装されてもよい。たとえば、作動モジュール118は作動ボタンを供えていて、音声認識システムを作動させるためにユーザー112がそれを押さなければならないのでもよい。ここでも、背景ノイズを記録するための必要な遅延がしかるべく実装できる。特に、対話的音声認識システムが電話ベースのダイアログシステムに実装されているとき、作動モジュール118は、ダイアログシステムの何らかの種類のメッセージがユーザー112に提供されたのちにノイズ記録を作動させるよう適応されていてもよい。最も典型的には、ユーザー112にウェルカムメッセージを提供したのち、好適な発話空白期間が生じ、これが背景ノイズ記録のために利用できる。
図3は、本発明の対話的音声認識システムのパフォーマンスレベルを予測するためのフローチャートである。第一のステップ200では、作動信号が受領される。作動信号は、ユーザー112によるか、電話ベースのダイアログシステムに実装されたときにはユーザーによって話された作動フレーズの受領によるか、またはユーザー112に挨拶メッセージを提供したのちのボタン押下のことを指しうる。ステップ200で作動信号を受領したのに反応して、後続のステップ202ではノイズ信号が記録される。作動信号は無音期間の開始を指示するので、記録される信号が一意的に背景ノイズを表していることは非常にありそうである。ステップ202で背景ノイズが記録されたのち、次のステップ204では記録されたノイズ信号がノイズ分類モジュール106によって評価される。ノイズ信号の評価とは、ステップ206における特定のノイズモデルの選択およびステップ208におけるノイズパラメータの生成を指す。ステップ206、208によって、具体的なノイズモデルおよび関連するノイズパラメータが決定される。
選択されたノイズモデルおよび生成されたノイズパラメータに基づいて、次のステップ210において、音声認識手順のパフォーマンスレベルがパフォーマンス予測モジュール108によって予測される。次いでステップ212で、予測されたパフォーマンスレベルが指示モジュール110を使うことによってユーザーに対して指示される。パフォーマンスレベルの予測は音声の入力に先立つノイズ入力に基づいているため、原理的には、予測されるパフォーマンスレベルはユーザーが話し始めさえしないうちにユーザー112に表示されることができる。
さらに、予測されるパフォーマンスレベルは、さまざまなノイズモデルおよびノイズパラメータと測定された誤り率との間の関係を与える追加的なトレーニング手順に基づいて生成されうる。よって、予測されたパフォーマンスレベルは、音声認識プロセスの期待される出力に焦点を当てる。予測され、期待されるパフォーマンスレベルは好ましくは、ユーザーに対して指示されるのみならず、音声認識手順によって誤り率を下げるためにも利用される。
図4は、音声認識手順内で予測されるパフォーマンスレベルを利用するためのフローチャートを示している。ステップ300から308は、すでに図3で示されたステップ200ないし208に対応する。ステップ300で作動信号が受領され、ステップ302でノイズ信号が記録され、その後ステップ304で記録されたノイズ信号が評価される。ノイズ信号の評価は、特定のノイズモデルが選択され、対応するノイズパラメータが生成されるステップ306および308を指す。ひとたびステップ308でノイズ固有パラメータが生成されれば、生成されたパラメータがステップ318で音声認識手順の認識パラメータを調整するために使われる。枝刈りレベルなどといった音声認識パラメータがステップ318で調整されたのち、ステップ320で音声認識手順が処理される。ダイアログシステム中に実装されるときには、対応するダイアログもステップ320で実行される。一般に、ステップ318およびステップ320は、音声認識プロセスの改良のためにノイズ固有パラメータを利用する従来技術の解決策を表している。対照的に、ステップ310ないし316は、背景ノイズの評価に基づく、音声認識手順の本発明のパフォーマンス予測を表している。
ステップ306でノイズモデルが選択されたのち、ステップ310は実行された選択が成功だったかどうかを検査する。特定のノイズモデルが選択できなかった場合には、本方法はステップ318に進み、そこで、決定されたノイズパラメータを使って音声認識手順の認識パラメータが調整される。ステップ310で特定のノイズ分類モデルの選択成功が確認された場合には、本方法はステップ312に進んで、そこで、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルが予測される。さらに、パフォーマンスレベルの予測は、ステップ308で決定されたノイズ固有パラメータの利用を組み込んでいてもよい。ステップ312でパフォーマンスレベルが予測されたのち、ステップ314ないし318は同時または交互に実行される。
ステップ314では、対話モジュール114のための対話パラメータが、予測されたパフォーマンスレベルに鑑みて調整される。これらの対話パラメータは時間期間を指定し、ダイアログシステムにおいてその時間期間が経過すると検証要求が出されなければならない。代替的に、対話パラメータは対話的音声認識システムとユーザーとの間のさまざまな対話シナリオを指定しうる。たとえば、対話パラメータは、ユーザーが背景ノイズを低下させて初めて音声認識手順が実行できると規定しうる。ステップ316では、決定されたパフォーマンスレベルが指示モジュール110を使うことによってユーザーに指示される。このようにして、ユーザー112は、パフォーマンスの度合い、よって音声認識プロセスの信頼性を効率的に知らされる。さらに、ステップ318で実行される認識パラメータの調整は、ステップ312で予測されたパフォーマンスレベルを効率的に利用できる。
ステップ314、316、318は同時、逐次的または選択的に実行されうる。選択的な実行とは、ステップ314、316、318のうち一つまたは二つしか実行されないような場合をいう。しかし、ステップ314、316、318のいずれかの実行後は、ステップ320で音声認識プロセスが実行される。
したがって、本発明は音声認識手順のパフォーマンスレベルを記録された背景ノイズに基づいて推定する効率的な手段を提供する。好ましくは、本発明の対話的音声認識システムは、認識システムに発話が入力さえされないうちにユーザー112に対して適切なパフォーマンスフィードバックを提供するよう適応される。予測されたパフォーマンスレベルの利用は複数の異なる方法で実現できるので、本発明の実行予測はさまざまな既存の音声認識システムにあまねく実装できる。特に、本発明のパフォーマンス予測は、既存のノイズ削減および/またはノイズレベル指示システムとあまねく組み合わせることができる。
音声認識システムのブロック図である。 音声認識システムの詳細なブロック図である。 音声認識システムのパフォーマンスレベルを予測するためのフローチャートである。 パフォーマンスレベル予測が音声認識手順に組み込まれているフローチャートである。
符号の説明
100 音声認識システム
102 音声認識モジュール
104 ノイズ記録モジュール
106 ノイズ分類モジュール
108 パフォーマンス予測モジュール
110 指示モジュール
112 ユーザー
114 対話モジュール
116 ノイズモデルモジュール
118 作動モジュール
120 制御モジュール

Claims (12)

  1. ユーザーの発話を認識する対話的音声認識システムであって:
    ・背景ノイズを含む音響信号を受領する手段と、
    ・受領した音響信号に基づいてノイズモデルを選択する手段と、
    ・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、
    ・その予測されたパフォーマンスレベルをユーザーに指示する手段、
    とを有することを特徴とするシステム。
  2. 前記パフォーマンスレベルを予測する手段がさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
  3. 音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するようさらに適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
  4. 予測されたパフォーマンスレベルに基づいてあらかじめ定義されている対話モードを切り換える手段をさらに有することを特徴とする、請求項1記載の対話的音声認識システム。
  5. 前記パフォーマンスレベルを予測する手段がパフォーマンスレベルの予測を音声認識手順の実行に先立って行うよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
  6. 前記音響信号を受領する手段が、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するようさらに適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
  7. 前記予測されたパフォーマンスをユーザーに指示する手段が、予測されたパフォーマンスレベルを指示する可聴および/または視覚信号を生成するよう適応されていることを特徴とする、請求項1記載の対話的音声認識システム。
  8. ・背景ノイズを含む音響信号を受領し、
    ・受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、
    ・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、
    ・その予測されたパフォーマンスレベルをユーザーに指示する、
    ステップを有することを特徴とする対話的音声認識の方法。
  9. 前記ノイズモデルのそれぞれを、対応するノイズ条件下で第一のトレーニング手順を使うことによって生成することをさらに含むことを特徴とする、請求項8記載の方法。
  10. 音声認識手順のパフォーマンスレベルの予測がある第二のトレーニング手順に基づいており、該第二のトレーニング手順はノイズ条件のそれぞれについての音声認識手順のパフォーマンスをモニタリングするよう適応されたものであることを特徴とする、請求項8記載の方法。
  11. 対話的音声認識システムのためのコンピュータプログラムであって:
    ・背景ノイズを含む音響信号を受領し、
    ・受領した音響信号に基づいてノイズモデルを選択し、
    ・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、
    ・予測されたパフォーマンスレベルをユーザーに指示する、
    ために適応されたコンピュータプログラム手段を有することを特徴とするコンピュータプログラム。
  12. 請求項1記載の対話的音声認識システムを有することを特徴とする、自動ダイアログシステム。
JP2007514272A 2004-06-04 2005-05-24 対話的音声認識システムのためのパフォーマンス予測 Pending JP2008501991A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04102513 2004-06-04
PCT/IB2005/051687 WO2005119193A1 (en) 2004-06-04 2005-05-24 Performance prediction for an interactive speech recognition system

Publications (1)

Publication Number Publication Date
JP2008501991A true JP2008501991A (ja) 2008-01-24

Family

ID=34968483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007514272A Pending JP2008501991A (ja) 2004-06-04 2005-05-24 対話的音声認識システムのためのパフォーマンス予測

Country Status (5)

Country Link
US (1) US20090187402A1 (ja)
EP (1) EP1756539A1 (ja)
JP (1) JP2008501991A (ja)
CN (1) CN1965218A (ja)
WO (1) WO2005119193A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009532742A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム

Families Citing this family (203)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7827032B2 (en) 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7949533B2 (en) 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
DE102006041453A1 (de) * 2006-09-04 2008-03-20 Siemens Ag Verfahren zur Spracherkennung
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR20080035754A (ko) * 2006-10-20 2008-04-24 현대자동차주식회사 운전자의 능동적 음성인식률 향상을 위한 음성인식가능상태표시장치 및 방법
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102714034B (zh) * 2009-10-15 2014-06-04 华为技术有限公司 信号处理的方法、装置和系统
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) * 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8972256B2 (en) 2011-10-17 2015-03-03 Nuance Communications, Inc. System and method for dynamic noise adaptation for robust automatic speech recognition
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US10019983B2 (en) * 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9691377B2 (en) * 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN113470641B (zh) 2013-02-07 2023-12-15 苹果公司 数字助理的语音触发器
US20140278395A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Determining a Motion Environment Profile to Adapt Voice Recognition Processing
US9275638B2 (en) * 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
EP2816554A3 (en) * 2013-05-28 2015-03-25 Samsung Electronics Co., Ltd Method of executing voice recognition of electronic device and electronic device using the same
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
CN104347081B (zh) * 2013-08-07 2019-07-02 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
CN104378774A (zh) * 2013-08-15 2015-02-25 中兴通讯股份有限公司 一种语音质量处理的方法及装置
US20150149169A1 (en) * 2013-11-27 2015-05-28 At&T Intellectual Property I, L.P. Method and apparatus for providing mobile multimodal speech hearing aid
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
CN104078040A (zh) * 2014-06-26 2014-10-01 美的集团股份有限公司 语音识别方法及系统
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6466762B2 (ja) * 2015-04-01 2019-02-06 日本電信電話株式会社 音声認識装置、音声認識方法、およびプログラム
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10147423B2 (en) * 2016-09-29 2018-12-04 Intel IP Corporation Context-aware query recognition for electronic devices
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN110603901B (zh) * 2017-05-08 2022-01-25 昕诺飞控股有限公司 使用语音识别来控制实用程序的方法和控制系统
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10446138B2 (en) * 2017-05-23 2019-10-15 Verbit Software Ltd. System and method for assessing audio files for transcription services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102544250B1 (ko) 2018-07-03 2023-06-16 삼성전자주식회사 소리를 출력하는 디바이스 및 그 방법
CN109087659A (zh) * 2018-08-03 2018-12-25 三星电子(中国)研发中心 音频优化方法及设备
US10430708B1 (en) 2018-08-17 2019-10-01 Aivitae LLC System and method for noise-based training of a prediction model
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
JP2020160144A (ja) * 2019-03-25 2020-10-01 株式会社Subaru 音声認識装置
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110197670B (zh) * 2019-06-04 2022-06-07 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
EP3764179A1 (en) * 2019-07-08 2021-01-13 ABB Schweiz AG Assessing conditions of instustrial equipment and processes
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11157823B2 (en) 2020-02-04 2021-10-26 Vignet Incorporated Predicting outcomes of digital therapeutics and other interventions in clinical research
US11151462B2 (en) 2020-02-04 2021-10-19 Vignet Incorporated Systems and methods for using machine learning to improve processes for achieving readiness
EP4367664A1 (en) * 2021-08-09 2024-05-15 Google Llc Joint acoustic echo cancelation, speech enhancement, and voice separation for automatic speech recognition
WO2023050301A1 (zh) * 2021-09-30 2023-04-06 华为技术有限公司 语音质量评估、语音识别质量预测与提高的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
US7047200B2 (en) * 2002-05-24 2006-05-16 Microsoft, Corporation Voice recognition status display

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009532742A (ja) * 2006-04-03 2009-09-10 ヴォコレクト・インコーポレーテッド 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム

Also Published As

Publication number Publication date
EP1756539A1 (en) 2007-02-28
WO2005119193A1 (en) 2005-12-15
US20090187402A1 (en) 2009-07-23
CN1965218A (zh) 2007-05-16

Similar Documents

Publication Publication Date Title
JP2008501991A (ja) 対話的音声認識システムのためのパフォーマンス予測
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
US20130311184A1 (en) Method and system for speech recognition
KR100834679B1 (ko) 음성 인식 오류 통보 장치 및 방법
WO2019129511A1 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
Fukuda et al. Long-term spectro-temporal and static harmonic features for voice activity detection
CN111429899A (zh) 基于人工智能的语音响应处理方法、装置、设备及介质
CN108701456A (zh) 语音识别装置
CN107656461A (zh) 一种基于用户年龄调节语音的方法及洗衣机
US8219396B2 (en) Apparatus and method for evaluating performance of speech recognition
JP2002506241A (ja) 話者照合の多重解像システム及び方法
JP2008256802A (ja) 音声認識装置および音声認識方法
JP5051882B2 (ja) 音声対話装置、音声対話方法及びロボット装置
CN107600075A (zh) 车载系统的控制方法和装置
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及系统
US20070198268A1 (en) Method for controlling a speech dialog system and speech dialog system
CN110767240B (zh) 儿童口音识别的设备控制方法、设备、存储介质及装置
JP2009122598A (ja) 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
JP4696418B2 (ja) 情報検出装置及び方法
JP5039879B2 (ja) スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JP2003330491A (ja) 音声認識装置および音声認識方法ならびにプログラム
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
KR20070022296A (ko) 대화식 음성 인식 시스템을 위한 성능 예측