JP2008501991A

JP2008501991A - 対話的音声認識システムのためのパフォーマンス予測

Info

Publication number: JP2008501991A
Application number: JP2007514272A
Authority: JP
Inventors: ショル，ホルガー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-06-04
Filing date: 2005-05-24
Publication date: 2008-01-24
Also published as: EP1756539A1; WO2005119193A1; US20090187402A1; CN1965218A

Abstract

本発明は、記録された背景ノイズに基づいて音声認識手順のパフォーマンスレベルを決定するための対話的音声認識システムおよび対応する方法を提供する。本発明のシステムは、音声認識の対象となる発話をユーザーが入力する前に生じる発話空白期間を効率的に利用する。好ましくは、本発明のパフォーマンス予測は、トレーニングされたノイズ分類モデルを効率的に使用する。さらに、予測されたパフォーマンスレベルは、音声認識手順のパフォーマンスについての信頼できるフィードバックを与えるため、ユーザーに対して示される。このようにして、対話的音声認識システムは、信頼できる音声認識を生成するには不適切なノイズ条件に反応しうる。

Description

本発明は対話的音声認識の分野に関する。

自動音声認識システム（ASR: automatic speech recognition system）のパフォーマンスおよび信頼性は背景ノイズの特性およびレベルに強く依存する。システムパフォーマンスを上げ、多様な種々のノイズ条件に対処するためにいくつかのアプローチが存在する。大まかな発想としては、音声とノイズの間の信号対雑音比（SNR: signal to noise ratio）を上げるためのノイズ削減およびノイズ抑制方法に基づいている。主に、これは適切なノイズフィルタによって実現できる。

他のアプローチは特定の背景ノイズのシナリオに固有のノイズ分類モデルに焦点を当てる。そのようなノイズ分類モデルは自動音声認識のための音響モデルまたは言語モデルに組み込まれうるもので、特定のノイズ条件のもとでのトレーニングを必要とする。よって、ノイズ分類モデルによって、音声認識プロセスはさまざまなあらかじめ定義されたノイズシナリオに適応できる。さらに、先験的な知識を分類モデルに取り入れる明示的なノイズ堅牢な音響モデル化が適用できる。

しかしながら、これらのアプローチはみな、音声品質の向上やさまざまなノイズ条件への適合を、それらが典型的な応用シナリオにおいて生じるにつれて試みるものである。これらのノイズ分類モデルの多様性および品質に関わりなく、膨大な数の予測不能なノイズおよび摂動シナリオは、穏当なノイズ削減および／またはノイズ適合の努力によってカバーすることはできない。

したがって、自動音声認識システムのユーザーに対して、該ユーザーが誤った音声認識につながりうる問題のある録音環境に気づくよう、瞬間的なノイズレベルを指示することが実際上有用である。最も典型的には、ノイズインジケーターがマイクロホン入力の瞬間的なエネルギーレベルを表示し、ユーザー自身が、指示されたレベルが十分な品質の音声認識を許容する好適な領域にあるかどうかを評価できる。

たとえば、WO02/095726A1がそのような音声品質指示を開示している。ここでは、受領された音声信号は音声品質評価器に与えられ、そこで信号の音声品質が定量化される。結果として得られる音声品質指標はインジケーター駆動器に与えられ、該インジケーター駆動器が現在受領されている音声品質の適切な指示を生成する。この指示は、インジケーターによって、声伝達装置のユーザーに対して明白にされる。音声品質評価器が音声品質を定量化するのはさまざまな方法がありうる。音声品質指標について用いることのできる二つの簡単な例は(i)音声信号レベル、(ii)音声の信号対雑音比である。

ユーザーに対して表示される音声信号レベルおよび信号対雑音比は、問題のある録音環境を指示するよう適応されることもできるが、主としては自動音声認識システムの音声認識のパフォーマンスには直接関係しない。たとえばある特定のノイズ信号が十分フィルタ処理できる場合、いくぶん低い信号対雑音比も必ずしも音声認識システムの低パフォーマンスに相関するとは限らない。さらに、従来技術において知られている解決策は典型的には、現在受領している音声品質に基づく指示信号を生成するよう適応される。これはしばしば、受領した音声のある割合がすでに認識手順にかけられていることを含意する。よって、音声品質指標の生成は典型的には、すでに音声認識手順にかけられた記録された音声および／または音声信号に基づく。いずれの場合にも、音声の少なくともある割合は、ユーザーが記録条件を改善したり、あるいはノイズレベルを削減したりする機会をもつ前にすでに処理されてしまっている。

本発明は、ユーザーの発話を認識する対話的（interactive）音声認識（speech recognition）システムを提供する。本発明の音声認識システムは、背景ノイズを含む音響信号（acoustic signal）を受領する手段と、受領した音響信号に基づいてノイズモデルを選択する手段と、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、その予測されたパフォーマンスレベルをユーザーに指示する手段とを有する。具体的には、前記音響信号を受領する手段は、ノイズレベルを、好ましくはユーザーが当該対話的音声認識システムに何らかの発話信号（speech signal）を与えるより前に記録する。このようにして、背景ノイズを指示する音響信号が、音声認識手順にかけられる発話信号が生成すらされないうちに得られる。特に、ダイアログ（dialogue）システムでは、適切な発話空白期間（speech pause）が何らかの所定の時点において生じ、ノイズ固有の音響信号を記録するために効果的に利用できる。

本発明の対話的音声認識システムはさらに、音声認識システムの特定の応用条件のもとでトレーニングされたノイズ分類モデルを利用するよう適応される。好ましくは、音声認識システムは多様なノイズ分類モデルへのアクセスを有する。各ノイズ分類モデルは特定のノイズ条件を指示するものである。ノイズモデルの選択は、典型的には受領した音響信号の解析および保存されている以前にトレーニングされたノイズモデルとの比較を参照する。そうして、受領され、解析された音響信号に最もよく適合する特定のノイズモデルが選択される。

この選択されたノイズモデルに基づき、音声認識手順のパフォーマンスレベルが予測される。したがって、パフォーマンスレベルの予測のための前記手段は、実際の音声認識が始まりもしないうちに音声認識手順の品質指標の推定を提供する。これは、具体的なノイズレベルを音声認識ステップのシーケンスにおいてできるだけ早期に推定し、認識する効率的な手段を提供する。ひとたび音声認識手順のパフォーマンスレベルが予測されたら、前記指示する手段は、その予測されたパフォーマンスレベルをユーザーに通知するよう適応されている。

特に、音声認識プロセスの推定された品質指標をユーザーに指示することによって、ユーザーは不十分な音声認識条件を可能な限り早期に通知されうる。このようにして、ユーザーは、当該音声認識システムを実際に使いもしないうちに、不十分な音声認識条件に反応できる。そのような機能性は、ユーザーが音響的に制御コマンドや要求を入力するダイアログシステムにおいてとりわけ有利である。したがって、本発明の音声認識システムは好ましくは、公共交通機関の時刻表情報システムなどといったユーザーの発話による入力を処理し、要求された情報を提供するよう適応されている自動ダイアログシステム内に実装される。

本発明のあるさらなる好ましい実施形態によれば、前記パフォーマンスレベルを予測する手段はさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応される。これらのノイズパラメータはたとえば、音声記録レベルまたは信号対雑音比を指示するものであり、さらに音声認識手順のパフォーマンスレベルの予測のために利用されることができる。このようにして、本発明は、一般的な諸ノイズ固有パラメータをもつ諸ノイズ分類モデルの適用を組み合わせて単一のパラメータ、すなわち音声認識システムの音声認識パフォーマンスを直接的に指示するパフォーマンスレベルにする効果的な手段を提供する。

あるいはまた、前記パフォーマンスレベルを予測する手段は、ノイズモデルまたはノイズパラメータのいずれかを別個に使ってもよい。だが、選択されたノイズモデルを別個に生成されたノイズパラメータと組み合わせて評価することによって、より信頼できるパフォーマンスレベルが期待されることになる。よって、前記パフォーマンスレベルを予測する手段は、音声認識手順の特定的な誤り率を直接的に指示する現実的なパフォーマンスレベルを提供するために、複数のノイズ指示入力信号を普遍的に利用してもよい。

本発明のあるさらなる好ましい実施形態によれば、対話的音声認識システムはさらに、音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するよう適応される。このようにして、予測されたパフォーマンスレベルは、ユーザーに適切なパフォーマンス情報を提供するために使用されるばかりでなく、能動的に音声品質プロセスを改善するためにも使用される。典型的な音声認識パラメータはたとえば、典型的には隠れマルコフモデル（HMM: hidden Markov models）を使用する統計的手順に基づく言語認識プロセスのための有意な音素シーケンスの有効範囲を指定する枝刈りレベル（pruning level）である。

典型的には、枝刈りレベルを上げれば誤り率の低下につながるが、著しくより高い計算力が必要となり、それは今度は音声認識プロセスのスピード低下につながる。誤り率はたとえば、単語誤り率（WER: word error rate）または概念誤り率（CER: concept error rate）のことを指しうる。予測されたパフォーマンスレベルに基づいて音声認識パラメータを調整することによって、音声認識手順は、その期待されるパフォーマンスに応じて普遍的に修正されることができる。

あるさらなる好ましい実施形態によれば、本対話的音声認識システムはさらに、予測されたパフォーマンスレベルに基づいてあらかじめ定義される対話モードを切り換える手段を有している。特にダイアログシステムにおいては、音声認識および／またはダイアログシステムの複数の対話および連絡モードが存在する。特に、音声認識システムおよび／またはダイアログシステムは、認識された発話を再生し、認識された発話をユーザーに対して提供するよう適応されうる。ユーザーのほうでは音声認識プロセスの結果を確認または拒否しなければならない。

そのような検証要求（verification prompt）をトリガーすることは、前記の予測されたパフォーマンスレベルによって効率的に支配されることができる。たとえば、パフォーマンスレベルが悪い場合には非常に頻繁に検証要求がトリガーされうる一方で、パフォーマンスレベルが高い場合はそのような検証要求はダイアログ中でごくまれにしか挿入されなくてもよい。その他の対話モードは、受領した発話シーケンスの完全な拒否を含みうる。これは、非常に劣悪なノイズ条件で特に理にかなっている。この場合、ユーザーは単に背景ノイズレベルを下げるか、あるいは発話シーケンスを繰り返すよう指示されうる。あるいはまた、ノイズレベルの上昇を補償するためより多くの計算時間を必要とするより高い枝刈りレベルに内的に切り換えるときに、ユーザーが単に、音声認識システムの対応する遅延またはパフォーマンス低下について通知されるのでもよい。

本発明のあるさらなる好ましい実施形態によれば、前記音響信号を受領する手段はさらに、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するよう適応される。作動モジュールによって生成された作動信号は、前記音響信号を受領する手段をトリガーする。前記音響信号を受領する手段は好ましくはユーザーの発声の生起に先立って背景ノイズを記録するよう適応されるので、作動モジュールは、発話の不在が期待されるときに選択的に前記音響信号を受領する手段をトリガーする。

このことは、ユーザーが押す作動ボタンと準備完了インジケーターとの組み合わせによって効率的に実現できる。作動ボタンを押すことによって、ユーザーは音声認識システムを注意を払っている状態に切り換え、短い遅延ののち、音声認識システムは準備完了であることを指示する。この遅延の間、ユーザーはまだ話していないことが想定できる。したがって、作動ボタンの押下とシステムの準備完了の指示との間の遅延が、瞬間的背景ノイズを測定および記録するために効率的に使用できる。

あるいはまた、作動ボタン押下は、声制御に基づいて実行されてもよい。そのような実施形態では、音声認識システムは、特定の作動フレーズを捕らえるよう特別に適応された別個の堅牢な音声認識器に基づく連続的な監視（listening）モードにある。ここでも、システムは、認識された作動フレーズに即座に応答するのではなく、背景ノイズ情報の収集のために所定の遅延を利用するよう適応される。

さらに、ダイアログシステム内に実装されるとき、典型的にはダイアログシステムの挨拶メッセージのあと、発話空白期間が生じる。よって、本発明の音声認識システムは、根底にある背景ノイズを十分に決定するため、よく定義された、あるいは人工的に生成された発話空白期間を効率的に利用する。好ましくは、背景ノイズの決定は、自然な発話空白期間または音声認識および／もしくはダイアログシステムにとって典型的である発話空白期間を利用することによって組み込まれて、ユーザーは背景ノイズ記録ステップに気づかないようにされる。

本発明のあるさらなる好ましい実施形態によれば、前記予測されたパフォーマンスをユーザーに指示する手段は、予測されたパフォーマンスレベルを指示する可聴および／または視覚信号を生成するよう適応される。たとえば、予測されたパフォーマンスレベルは、LEDなどのカラーエンコードされた点滅または明滅によってユーザーに表示されうる。緑、黄色、赤のような種々の色が良好、中くらい、または低いパフォーマンスレベルを指示しうる。さらに、複数の光点が直線に沿って配列されてもよく、パフォーマンスのレベルが同時に点滅する光点の数によって指示されうる。さらに、パフォーマンスレベルはビープ音によって指示されることもでき、より洗練された環境では、本音声認識システムは、該音声認識システムによって再生できる所定の発話シーケンスを介してユーザーに可聴的に指示してもよい。後者は、電話などを介してのみアクセスできるダイアログシステムに基づく音声認識において実装されることが好ましい。ここで、予測されたパフォーマンスレベルが低い場合、対話的音声認識システムはユーザーに、ノイズレベルを下げるか、および／または話された言葉を繰り返すよう指示しうる。

別の側面においては、本発明は、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、その予測されたパフォーマンスレベルをユーザーに指示するステップを有する対話的音声認識の方法を提供する。

本発明のあるさらなる好ましい実施形態では、前記トレーニングされたノイズモデルのそれぞれは特定のノイズを指示するもので、対応するノイズ条件下で実行される第一のトレーニング手順によって生成される。これは前記複数のノイズモデルの生成のための専用のトレーニング手順を必要とする。たとえば、本発明の音声認識システムを自動車の環境に適応させると、対応するノイズモデルは自動車の条件か、あるいは少なくともシミュレーションされた自動車の条件のもとでトレーニングされる必要がある。

本発明のあるさらなる好ましい実施形態では、音声認識手順のパフォーマンスレベルの予測は、第二のトレーニング手順に基づいている。第二のトレーニング手順は、選択されたノイズ条件および選択されたノイズモデルに基づいてパフォーマンスレベルの予測をトレーニングするはたらきをする。したがって、第二のトレーニング手順は、第一のトレーニング手順によって生成された特定のノイズモデルに対応するそれぞれのノイズ条件について音声認識手順のパフォーマンスをモニタリングするよう適応される。よって、第二のトレーニング手順は、音声認識においてある個別のノイズモデルが使われた具体的なノイズ条件下で測定された、音声認識手順のWERまたはCERなどのような特定の誤り率を表すトレーニングされたデータを提供するはたらきをする。

別の側面では、本発明は対話的音声認識システムのためのコンピュータプログラムプロダクトを提供する。本発明のコンピュータプログラムプロダクトは、背景ノイズを含む音響信号を受領し、受領した音響信号に基づいてノイズモデルを選択し、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、その予測されたパフォーマンスレベルをユーザーに指示するために適応されたコンピュータプログラム手段を有する。

さらに別の側面では、本発明は、ユーザーによって生成された音声入力を処理することによってユーザーにサービスを提供するダイアログシステムを提供する。該ダイアログシステムは本発明の対話的音声認識システムを含む。よって、本発明の音声認識システムは、公共交通機関の情報を提供する自動時刻表情報システムなどのようなダイアログシステムの一体的な部分として組み込まれる。

さらに、請求項において何らかの参照符号があったとしても、本発明の範囲を限定するものと解釈されるべきではないことを注意しておく。

以下では本発明の好ましい実施形態について図面を参照することによって詳細に述べる。

図１は、本発明の対話的音声認識システム１００のブロック図を示している。本音声認識システムは、音声認識モジュール１０２、ノイズ記録モジュール１０４、ノイズ分類モジュール１０６、パフォーマンス予測モジュール１０８および指示モジュール１１０を有している。ユーザー１１２は、音声認識システム１００によって認識されるべき音声を与えることによって、および指示モジュール１１０を介して音声認識のパフォーマンスを指示するフィードバックを受け取ることによって、音声認識システム１００と対話しうる。

単一のモジュール１０２…１１０は、音声認識システム１００のパフォーマンス予測機能性を実現するために設計されている。さらに、音声認識システム１００は、明示的に示されてはいないが従来技術において知られている標準的な音声認識コンポーネントを有する。

ユーザー１１２によって与えられる音声が音声認識システム１００に入力されるのは、音響信号を音声認識システム１００によって処理できる対応する電気信号に変換するマイクなどといった何らかの種類の記録装置による。音声認識モジュール１０２は音声認識システム１００の中心的なコンポーネントを表しており、記録された音素の解析を提供し、言語モデルによって提供される単語シーケンスまたはフレーズへのマッピングを実行する。原理的には、いかなる音声認識技術も本発明とともに適用可能である。さらに、ユーザー１１２によって入力された音声は、音声認識目的のために音声認識モジュール１０２に直接に提供される。

ノイズ記録およびノイズ分類モジュール１０４、１０６ならびにパフォーマンス予測モジュール１０８は、音声認識モジュール１０２によって実行される音声認識プロセスのパフォーマンスを、記録された背景ノイズのみに基づいて予測するために設計されている。ノイズ記録モジュール１０４は、背景ノイズを記録して、記録されたノイズ信号をノイズ分類モジュール１０６に提供するよう設計されている。たとえば、ノイズ記録モジュール１０４は、音声認識システム１００の遅延の間、ノイズ信号を記録する。典型的には、ユーザー１１２は音声認識システム１００を作動させ、音声認識システムは所定の遅延期間が経過したのちに準備完了であることをユーザー１１２に指示する。この遅延の間、ユーザー１１２は音声認識システムの準備完了状態を単に待っており、したがっていかなる発話も発生させないことが想定できる。よって、この遅延期間の間は、記録される音響信号は背景ノイズのみを表していることが期待される。

ノイズ記録モジュール１０４によるノイズの記録ののち、ノイズ分類モジュールは記録されたノイズ信号を識別するはたらきをする。好ましくは、ノイズ分類モジュール１０６は、音声認識システム１００に保存されている、さまざまな背景ノイズシナリオに固有なノイズ分類モデルを利用する。こうしたノイズ分類モデルは典型的には対応するノイズ条件のもとでトレーニングされる。たとえば、ある具体的なノイズ分類モデルは自動車の背景ノイズを指示しうる。ユーザー１１２が音声認識システム１００を自動車の環境において使用するとき、記録されたノイズ信号が、ノイズ分類モジュール１０６によって自動車のノイズとして同定されることは非常にありそうであり、個別的な自動車のノイズ分類モデルが選択されうる。また、特定のノイズ分類モデルの選択がノイズ分類モジュール１０６によって実行される。ノイズ分類モジュール１０６はさらに、ノイズ信号レベルまたは信号対雑音比のようなさまざまなノイズパラメータを抽出および指定するよう適応されうる。

一般に、選択されたノイズ分類モジュールは、ノイズ分類モジュール１０６によって決定および選択されたその他のノイズ固有パラメータと同様に、パフォーマンス予測モジュール１０８に与えられる。パフォーマンス予測モジュール１０８はさらに、ノイズ記録モジュール１０４から変更されていない記録されたノイズ信号を受け取ってもよい。次いでパフォーマンス予測モジュール１０８は音声認識モジュール１０２の期待されるパフォーマンスを、与えられたノイズ信号、ノイズ固有パラメータまたは選択されたノイズ分類モデルのうちの任意のものに基づいて計算する。さらに、パフォーマンス予測モジュール１０８は、与えられたノイズ固有入力のうちさまざまなものを使用することによってパフォーマンス予測を決定するよう適応される。たとえば、パフォーマンス予測モジュール１０８は、音声認識プロセスの信頼できるパフォーマンス予測を決定するために、選択されたノイズ分類モジュールとノイズ固有パラメータを効率的に組み合わせる。結果として、パフォーマンス予測モジュール１０８は、指示モジュール１１０と音声認識モジュール１０２に与えられるパフォーマンスレベルを生成する。

音声認識プロセスの決定されたパフォーマンスレベルを指示モジュール１１０に与えることによって、音声認識プロセスの期待されるパフォーマンスおよび信頼性をユーザー１１２に効率的に通知できる。指示モジュール１１０は複数の異なる方法で実装しうる。ユーザー１１２が解釈する必要のある点滅するカラーエンコードされた出力を生成してもよい。より洗練された実施形態では、指示モジュール１１０は、ユーザー１１２に可聴出力を生成するための音声合成手段を備えていてもよく、該音声合成手段はそれぞれ発話の品質を改善するため、および／または背景ノイズを削減するためにユーザー１１２に何らかの動作を実行するよう指示さえしてもよい。

音声認識モジュール１０２はさらに、入力信号をユーザー１１２から、記録されたノイズ信号をノイズ記録モジュール１０４から、ノイズパラメータおよび選択されたノイズ分類モデルをノイズ分類モジュール１０６から、そして音声認識手順の予測されたパフォーマンスレベルをパフォーマンス予測モジュール１０８から直接受領するよう適応される。生成されたパラメータの任意のものを音声認識モジュール１０２に提供することにより、音声認識プロセスの期待されるパフォーマンスが決定できるばかりでなく、音声認識プロセスそのものが効果的に現在のノイズ状況に適応されることができる。

特に、音声認識モジュール１０２に対して選択されたノイズモデルおよび関連するノイズパラメータをノイズ分類モジュール１０６によって提供することによって、根底にある音声認識手順は選択されたノイズモデルを効率的に使用できる。さらに、期待されるパフォーマンスレベルをパフォーマンス予測モジュール１０８によって音声認識モジュール１０２に提供することによって、音声認識手順は適切に調整できる。たとえば、パフォーマンス予測モジュール１０８によって比較的高い誤り率が決定された場合、音声認識手順の枝刈りレベルは、音声認識プロセスの信頼性を増すために適応的に調整されることができる。枝刈りレベルをより高い値に動かすことは、かなりの追加的計算時間を必要とするため、根底にある音声認識プロセスの全体的な効率は実質的に低下しうる。結果として、音声認識プロセス全体は、速度低下を代償として信頼性を増すことになる。この場合、この種のパフォーマンス低下を指示モジュール１１０を使ってユーザー１１２に対して指示することが理にかなっている。

図２は、対話的音声認識システム１００のより洗練された実施形態を示している。図１に示した実施形態と比べ、図２には対話的音声認識システム１００の追加的なコンポーネントが示されている。ここでは、音声認識システム１００はさらに、対話モジュール１１４、ノイズモジュール１１６、作動モジュール１１８および制御モジュール１２０を有している。好ましくは、音声認識モジュール１０２は、図１ですでに示したように、さまざまなモジュール１０４…１０８に接続されている。制御モジュール１２０はやりとりを制御し、対話的音声認識システム１００のさまざまなモジュールの機能性を調整するよう適応されている。

対話モジュール１１４は、パフォーマンス予測モジュール１０８から予測されたパフォーマンスレベルを受領し、指示モジュール１１０を制御するよう適応されている。好ましくは、対話モジュール１１４は、ユーザー１１２との連絡のために適用できるさまざまな対話戦略を提供する。たとえば、対話モジュー１１４は、指示モジュール１１０によるユーザー１１２への検証要求の提供をトリガーするよう適応される。そのような検証要求はユーザー１１２の認識された音声の再生を含んでもよい。するとユーザー１１２は、その再生された音声がユーザーのもともとの発話の意味内容を本当に表しているかどうかに応じて、再生された音声を確認または破棄しなければならない。

対話モジュール１１４は好ましくは、音声認識手順の予測されたパフォーマンスレベルによって支配される。予測されたパフォーマンスレベルに依存して、検証要求のトリガーがしかるべく適応されうる。パフォーマンスレベルが信頼できる音声認識が不可能であると指示するような極端な場合には、対話モジュール１１４は、指示モジュール１１０をしてユーザー１１２に背景ノイズを減らすよう指示するなどのような適切なユーザー指示を生成させさえしてもよい。

ノイズモデルモジュール１１６はさまざまなノイズ分類モデルの記憶装置としてのはたらきをする。複数の異なるノイズ分類モデルは好ましくは、それぞれのノイズ条件下で実行される対応するトレーニング手順によって生成される。具体的には、ノイズ分類モジュール１０６は、特定のノイズモデルの選択のためにノイズモデルモジュール１１６にアクセスする。代替的には、ノイズモデルの選択は、ノイズモデルモジュール１１６によって実現されてもよい。この場合、ノイズモデルモジュール１１６はノイズ記録モジュール１０４から記録されたノイズ信号を受領し、その受領ノイズ信号のある割合をさまざまな保存されているノイズ分類モジュールと比較し、記録されたノイズの前記割合に合致するノイズ分類モデルの少なくとも一つを決定する。次いで最もよく一致するノイズ分類モデルがノイズ分類モジュール１０６に与えられ、そこでさらなるノイズ固有パラメータが生成されうる。

作動モジュール１１８は、ノイズ記録モジュール１０４のためのトリガーとしてのはたらきをする。好ましくは、作動モジュール１１８は、ユーザーが話すある種の作動フレーズを捕らえるよう適応されている特別設計の音声認識器として実装される。作動フレーズの受領およびそれに応じた該作動フレーズの識別に反応して、作動モジュール１１８はノイズ記録モジュール１０４を作動させる。さらに、作動モジュール１１８は、準備可能の状態をユーザー１１２に指示するために制御モジュール１２０を介して指示モジュール１１０をトリガーすることもする。好ましくは、準備完了の状態の指示は、ノイズ記録モジュール１０４が作動されたのちに実行される。この遅延の間、ユーザー１１２は話さず、音声認識システム１００の準備完了を待っていると想定できる。よって、この遅延期間は純粋に実際の背景ノイズを示す音響信号を記録するのに理想的に適している。

別個の音声認識モジュールを使って作動モジュール１１８を実装する代わりに、作動モジュールは他の何らかの種類の作動手段によって実装されてもよい。たとえば、作動モジュール１１８は作動ボタンを供えていて、音声認識システムを作動させるためにユーザー１１２がそれを押さなければならないのでもよい。ここでも、背景ノイズを記録するための必要な遅延がしかるべく実装できる。特に、対話的音声認識システムが電話ベースのダイアログシステムに実装されているとき、作動モジュール１１８は、ダイアログシステムの何らかの種類のメッセージがユーザー１１２に提供されたのちにノイズ記録を作動させるよう適応されていてもよい。最も典型的には、ユーザー１１２にウェルカムメッセージを提供したのち、好適な発話空白期間が生じ、これが背景ノイズ記録のために利用できる。

図３は、本発明の対話的音声認識システムのパフォーマンスレベルを予測するためのフローチャートである。第一のステップ２００では、作動信号が受領される。作動信号は、ユーザー１１２によるか、電話ベースのダイアログシステムに実装されたときにはユーザーによって話された作動フレーズの受領によるか、またはユーザー１１２に挨拶メッセージを提供したのちのボタン押下のことを指しうる。ステップ２００で作動信号を受領したのに反応して、後続のステップ２０２ではノイズ信号が記録される。作動信号は無音期間の開始を指示するので、記録される信号が一意的に背景ノイズを表していることは非常にありそうである。ステップ２０２で背景ノイズが記録されたのち、次のステップ２０４では記録されたノイズ信号がノイズ分類モジュール１０６によって評価される。ノイズ信号の評価とは、ステップ２０６における特定のノイズモデルの選択およびステップ２０８におけるノイズパラメータの生成を指す。ステップ２０６、２０８によって、具体的なノイズモデルおよび関連するノイズパラメータが決定される。

選択されたノイズモデルおよび生成されたノイズパラメータに基づいて、次のステップ２１０において、音声認識手順のパフォーマンスレベルがパフォーマンス予測モジュール１０８によって予測される。次いでステップ２１２で、予測されたパフォーマンスレベルが指示モジュール１１０を使うことによってユーザーに対して指示される。パフォーマンスレベルの予測は音声の入力に先立つノイズ入力に基づいているため、原理的には、予測されるパフォーマンスレベルはユーザーが話し始めさえしないうちにユーザー１１２に表示されることができる。

さらに、予測されるパフォーマンスレベルは、さまざまなノイズモデルおよびノイズパラメータと測定された誤り率との間の関係を与える追加的なトレーニング手順に基づいて生成されうる。よって、予測されたパフォーマンスレベルは、音声認識プロセスの期待される出力に焦点を当てる。予測され、期待されるパフォーマンスレベルは好ましくは、ユーザーに対して指示されるのみならず、音声認識手順によって誤り率を下げるためにも利用される。

図４は、音声認識手順内で予測されるパフォーマンスレベルを利用するためのフローチャートを示している。ステップ３００から３０８は、すでに図３で示されたステップ２００ないし２０８に対応する。ステップ３００で作動信号が受領され、ステップ３０２でノイズ信号が記録され、その後ステップ３０４で記録されたノイズ信号が評価される。ノイズ信号の評価は、特定のノイズモデルが選択され、対応するノイズパラメータが生成されるステップ３０６および３０８を指す。ひとたびステップ３０８でノイズ固有パラメータが生成されれば、生成されたパラメータがステップ３１８で音声認識手順の認識パラメータを調整するために使われる。枝刈りレベルなどといった音声認識パラメータがステップ３１８で調整されたのち、ステップ３２０で音声認識手順が処理される。ダイアログシステム中に実装されるときには、対応するダイアログもステップ３２０で実行される。一般に、ステップ３１８およびステップ３２０は、音声認識プロセスの改良のためにノイズ固有パラメータを利用する従来技術の解決策を表している。対照的に、ステップ３１０ないし３１６は、背景ノイズの評価に基づく、音声認識手順の本発明のパフォーマンス予測を表している。

ステップ３０６でノイズモデルが選択されたのち、ステップ３１０は実行された選択が成功だったかどうかを検査する。特定のノイズモデルが選択できなかった場合には、本方法はステップ３１８に進み、そこで、決定されたノイズパラメータを使って音声認識手順の認識パラメータが調整される。ステップ３１０で特定のノイズ分類モデルの選択成功が確認された場合には、本方法はステップ３１２に進んで、そこで、選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルが予測される。さらに、パフォーマンスレベルの予測は、ステップ３０８で決定されたノイズ固有パラメータの利用を組み込んでいてもよい。ステップ３１２でパフォーマンスレベルが予測されたのち、ステップ３１４ないし３１８は同時または交互に実行される。

ステップ３１４では、対話モジュール１１４のための対話パラメータが、予測されたパフォーマンスレベルに鑑みて調整される。これらの対話パラメータは時間期間を指定し、ダイアログシステムにおいてその時間期間が経過すると検証要求が出されなければならない。代替的に、対話パラメータは対話的音声認識システムとユーザーとの間のさまざまな対話シナリオを指定しうる。たとえば、対話パラメータは、ユーザーが背景ノイズを低下させて初めて音声認識手順が実行できると規定しうる。ステップ３１６では、決定されたパフォーマンスレベルが指示モジュール１１０を使うことによってユーザーに指示される。このようにして、ユーザー１１２は、パフォーマンスの度合い、よって音声認識プロセスの信頼性を効率的に知らされる。さらに、ステップ３１８で実行される認識パラメータの調整は、ステップ３１２で予測されたパフォーマンスレベルを効率的に利用できる。

ステップ３１４、３１６、３１８は同時、逐次的または選択的に実行されうる。選択的な実行とは、ステップ３１４、３１６、３１８のうち一つまたは二つしか実行されないような場合をいう。しかし、ステップ３１４、３１６、３１８のいずれかの実行後は、ステップ３２０で音声認識プロセスが実行される。

したがって、本発明は音声認識手順のパフォーマンスレベルを記録された背景ノイズに基づいて推定する効率的な手段を提供する。好ましくは、本発明の対話的音声認識システムは、認識システムに発話が入力さえされないうちにユーザー１１２に対して適切なパフォーマンスフィードバックを提供するよう適応される。予測されたパフォーマンスレベルの利用は複数の異なる方法で実現できるので、本発明の実行予測はさまざまな既存の音声認識システムにあまねく実装できる。特に、本発明のパフォーマンス予測は、既存のノイズ削減および／またはノイズレベル指示システムとあまねく組み合わせることができる。

音声認識システムのブロック図である。音声認識システムの詳細なブロック図である。音声認識システムのパフォーマンスレベルを予測するためのフローチャートである。パフォーマンスレベル予測が音声認識手順に組み込まれているフローチャートである。

符号の説明

１００音声認識システム
１０２音声認識モジュール
１０４ノイズ記録モジュール
１０６ノイズ分類モジュール
１０８パフォーマンス予測モジュール
１１０指示モジュール
１１２ユーザー
１１４対話モジュール
１１６ノイズモデルモジュール
１１８作動モジュール
１２０制御モジュール

Claims

ユーザーの発話を認識する対話的音声認識システムであって：
・背景ノイズを含む音響信号を受領する手段と、
・受領した音響信号に基づいてノイズモデルを選択する手段と、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測する手段と、
・その予測されたパフォーマンスレベルをユーザーに指示する手段、
とを有することを特徴とするシステム。
前記パフォーマンスレベルを予測する手段がさらに、該パフォーマンスレベルの予測を、受領した音響信号に基づいて決定されるノイズパラメータに基づいて行うよう適応されていることを特徴とする、請求項１記載の対話的音声認識システム。
音声認識手順の少なくとも一つの音声認識パラメータを、予測されたパフォーマンスレベルに基づいて調整するようさらに適応されていることを特徴とする、請求項１記載の対話的音声認識システム。
予測されたパフォーマンスレベルに基づいてあらかじめ定義されている対話モードを切り換える手段をさらに有することを特徴とする、請求項１記載の対話的音声認識システム。
前記パフォーマンスレベルを予測する手段がパフォーマンスレベルの予測を音声認識手順の実行に先立って行うよう適応されていることを特徴とする、請求項１記載の対話的音声認識システム。
前記音響信号を受領する手段が、作動モジュールによって生成される作動信号を受信するのに反応して背景ノイズを記録するようさらに適応されていることを特徴とする、請求項１記載の対話的音声認識システム。
前記予測されたパフォーマンスをユーザーに指示する手段が、予測されたパフォーマンスレベルを指示する可聴および／または視覚信号を生成するよう適応されていることを特徴とする、請求項１記載の対話的音声認識システム。
・背景ノイズを含む音響信号を受領し、
・受領した音響信号に基づいて複数のトレーニングされたノイズモデルのうちのあるノイズモデルを選択し、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを予測し、
・その予測されたパフォーマンスレベルをユーザーに指示する、
ステップを有することを特徴とする対話的音声認識の方法。
前記ノイズモデルのそれぞれを、対応するノイズ条件下で第一のトレーニング手順を使うことによって生成することをさらに含むことを特徴とする、請求項８記載の方法。
音声認識手順のパフォーマンスレベルの予測がある第二のトレーニング手順に基づいており、該第二のトレーニング手順はノイズ条件のそれぞれについての音声認識手順のパフォーマンスをモニタリングするよう適応されたものであることを特徴とする、請求項８記載の方法。
対話的音声認識システムのためのコンピュータプログラムであって：
・背景ノイズを含む音響信号を受領し、
・受領した音響信号に基づいてノイズモデルを選択し、
・選択されたノイズモデルに基づいて音声認識手順のパフォーマンスレベルを計算し、
・予測されたパフォーマンスレベルをユーザーに指示する、
ために適応されたコンピュータプログラム手段を有することを特徴とするコンピュータプログラム。
請求項１記載の対話的音声認識システムを有することを特徴とする、自動ダイアログシステム。