JP5419361B2

JP5419361B2 - 音声制御システムおよび音声制御方法

Info

Publication number: JP5419361B2
Application number: JP2008019878A
Authority: JP
Inventors: バックマルクス; ケーニッヒラルス; ウヴェシュミットゲルハルト
Original assignee: ニュアンスコミュニケーションズ，インコーポレイテッド
Priority date: 2007-02-02
Filing date: 2008-01-30
Publication date: 2014-02-19
Anticipated expiration: 2028-01-30
Also published as: DE602007004185D1; JP2008191662A; EP1953735A1; EP1953735B1; US20080262849A1; US8666750B2; ATE454692T1

Description

（発明の分野）
本発明は、音声制御方法および音声制御システムに関する。特に、本発明は、ユーザからのスピーチ信号を認識するための静止ユニットを含む音声制御システムの音声制御方法に関する。

（発明の背景）
スピーチ認識システム、すなわち、音響信号を語（ｗｏｒｄ）または記号列（ｓｔｒｉｎｇ）の系列に変換するためのデバイスは、最近ますます普及してきている。近年では、スピーチ認識技術における劇的な進歩のおかげで、高性能のスピーチ解析、認識アルゴリズム、およびスピーチダイアログシステムが、一般的に利用可能になってきた。現在のスピーチ入力能力は、音声ダイアル、コールルーティング、文書作成等を含んでいる。スピーチダイアログシステムは、例えば、自動車に使用され得、ユーザが様々なデバイス（例えば、モバイル電話、カーラジオ、ナビゲーションシステム、および／またはエアコン）を制御することを可能にし得る。

しかしながら、多くのアプリケーションにおいて、当該技術分野の音声制御システムの信頼性および快適性は、十分に満足できるものではない。現在の音声制御システムは、静止マイク（アレイ）による、静止している話者（ｓｐｅａｋｅｒ）（例えば、自動車の乗客）の言葉の認識、または１つ以上のマイクを含むモバイルデバイス（例えば、ヘッドセットまたはセル電話）による、移動している話者の言葉の認識に限定されている。スピーチ認識システムの処理は、検出されたスピーチ信号の品質に多大に依存する。スピーチ信号の品質は、話者と（単数または複数の）マイクとの間の距離が増大するに伴って悪くなる。

遠くの話のスピーチ収集における信号品質およびスピーチ認識手段の性能を向上させるための通常の方法は、マルチチャネルシステム（すなわち、例えば非特許文献１に記載されているようなマイクのアレイ）の利用である。

現在のマルチチャネルシステムは、いわゆる「一般化サイドローブキャンセラー（ＧＳＣ）」をしばしば使用する。例えば、非特許文献２を参照されたい。ＧＳＣは、２つの信号処理経路：ブロッキングマトリックスおよび適応ノイズキャンセリング手段を有する第１（または低い方）の適応経路、および固定ビームフォーマを有する第２（または高い方）の非適応経路から構成されている。

固定ビームフォーマは、例えば、固定ビームパターンを用いる時間遅延補償手段によって前処理された信号を改善する。適応処理方法は、システムの動作の間の処理パラメータ（例えば、フィルタ係数）の永続的な適応を特徴とする。ＧＳＣの低い方の信号処理経路は、固定ビームフォーマの出力信号の残余ノイズを除去するために使用されるノイズ基準信号を生成するように最適化される。

しかしながら、ビーム形成デバイスの性能は、話者の位置または所望の信号の検出のための所定の優先的方向の情報に依存する。移動している話者の場合、通常、閉ざされた部屋よりもインパルス応答がいくぶん複雑になるので、所望の信号のソースの検出の評価は、いくぶん困難になる。

さらに、話者の位置決定は、非常に迅速に実行されなければならない。なぜならば、通常、検出されたスピーチ信号そのものが、移動している話者の位置決定のために使用されるからである。加えて、話者は話者が実際に話しているときにのみ位置決定され得る。したがって、信頼性のあるスピーチ認識のためには、高速信号処理が必要である。しかしながら、近年における工学的処理をもってしても、そのような信号処理は、依然としてエラーを生じやすく、費用がかかる。

関連する問題は、音声制御システムは通常、例えばプッシュトゥトークボタンを用いることによって、触覚的に作動しなければならないということである。このことは、多くのユーザによって不快に思われ、音声によって動作され得るシステムの応答の一部が欠けるという結果にもなる。別の関連する問題は、特定の話者の優先順位付けである。特定の話者の識別を要求する音声制御は、特定のユーザが話者の必要性および優先度にしたがって音声制御システムを動作させ得るように、個別的に提供され得る。音声制御のそのようなカスタマイズは、音声制御システムの信頼性を向上させ、消費者に受け入れられやすくするためには、望ましい。
Ｂｒａｎｄｓｔｅｉｎ，Ｍ．およびＷａｒｄ，Ｄ．編、「ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙｓ：ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｓ」、Ｓｐｒｉｎｇｅｒ、Ｂｅｒｌｉｎ２００１Ｇｒｉｆｆｉｔｈｓ，Ｌ．Ｊ．およびＪｉｍ，Ｃ．Ｗ．、「Ａｎａｌｔｅｒｎａｔｉｖｅａｐｐｒｏａｃｈｔｏｌｉｎｅａｒｌｙｃｏｎｓｔｒａｉｎｅｄａｄａｐｔｉｖｅｂｅａｍｆｏｒｍｉｎｇ」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ、１９８２、ｖｏｌ．３０．、ｐ．２７

（発明の記載）
上述の問題を踏まえると、本発明は、音声制御システムの音声制御方法を提供し、この音声制御システムは、音声制御システムの少なくとも一人のユーザからのスピーチ信号を受信および認識するための静止ユニットを含んでおり、この方法は、
音声制御システムの少なくとも一人のユーザによって携帯される少なくとも１つのモバイルデバイスを提供することと、
少なくとも１つのモバイルデバイスから静止ユニットに制御信号を伝送することと、
伝送された制御信号を静止ユニットによって受信することと、
受信した制御信号に応答して、静止ユニットを動作させることと
を包含する。

本発明にしたがうと、音声制御システムの使用は、ユーザによって携帯されているモバイルデバイスによって、容易化および改善される。モバイルデバイスは、制御信号（または多数の信号）を伝送することによって、静止ユニットと通信する。通信は、赤外線信号、および／または無線信号、および／または光学信号、および/または（可聴範囲内または可聴範囲外の）音響信号を伝送することによって、実行され得る。二人以上のユーザ（各々、自分自身のモバイルデバイスを携帯している）は、音声制御システムを動作させ得る。

モバイルデバイスは、例えばセル電話、スマートフォン（タッチスクリーンおよびキーボードならびにプログラマブルロジックを含む）、またはパーソナルデジタルアシスタント、または遠隔制御、またはヘッドセット、または補聴器、特に両耳補聴器であり得る。したがって、ユーザによって任意の方法で携帯されるモバイルデバイスは、音声制御システムの静止ユニットとの通信を確立させるために使用され得る。非常に単純な場合において、例えば、ユーザは両耳補聴器を携帯する。無線信号は、両耳補聴器の性能を向上させるために、両耳補聴器の左ピースと右ピースとの間で伝送される。これらの信号は、音声制御システムの静止ユニットによって受信され得、その結果これは、ユーザが室内に存在しており、（例えば、スピーチ認識手段を作動させるか、または適応させることによって）しかるべく動作させていることを決定する。より複雑な実施例は、以下で与えられる。

音声制御システムは、ユーザの口頭のコマンドによって制御される任意のシステムであり得、例えば、ＨＩＦＩオーディオデバイス、またはテレビ、または別の電子通信デバイス、またはエンターテイメントデバイスであり得る。静止ユニットは、デバイスのハウジング内に配置され得、この動作は音声によって制御される。静止ユニットはまた、ユーザの口頭のコマンドに応答して動作する実際のデバイスから遠くに配置され得る。しかしながら、静止ユニットは、部屋（リビングルームまたはオフィス）に固定され得る。

従来技術とは異なり、スピーチ信号を受信および認識する静止ユニットは、少なくとも１つのモバイルデバイスによって伝送された制御信号に応答して動作する。その結果、静止ユニットは、例えば、受信した制御信号に応答して、ユーザの存在を認識し、スピーチ認識手段および／または静止ユニットの一部であるマイクを制御し得る。

受信した制御信号に応答した静止ユニットの可能な動作は、静止ユニットを作動させること、および／またはスピーチ信号を認識すること、および／または音声制御システムの少なくとも一人のユーザを位置決定すること、および／または音声制御システムの少なくとも一人のユーザを識別することを含んでいる。静止ユニットの作動は、特に、静止ユニットの一部であるスピーチ認識手段の作動を含み得る。

モバイルデバイスを携帯しているユーザが、静止ユニットが設けられている部屋に入ると、静止ユニットは、ユーザによって（例えば、定期的にまたは要求に応じて）伝送された制御信号を受信し得、これにより、ユーザの存在を知らされ得る。その結果、スピーチ認識システムが作動され得、ユーザのごく最初の言葉が、高い信頼性で検出および認識され得る。制御信号がユーザによって、要求に応じて伝送される場合、（例えば、同じ部屋に存在する別の人物とのユーザの会話に起因する）音声制御システムの意図されていない応答は、回避され得る。

少なくとも１つのモバイルデバイスの各々は、その他のモバイルデバイスによって伝送された制御信号とは異なる個々の制御信号を送信し得、これにより、静止ユニットが特定のユーザを（厳密に言うと、特定のモバイルデバイスを）識別することを可能にする。したがって、音声制御のためのスピーチ認識は、識別されたユーザに依存して、静止ユニットによって実行され得る。例えば、スピーチ認識処理のために使用される語彙のリストの言葉、または個別的に訓練された（ｔｒａｉｎｅｄ）コードブックは、識別されたユーザの言葉のスピーチ認識のために適切に使用され得る。この結果、静止ユニットのマイクのアレイによって検出される、ユーザによる言葉の認識結果の信頼性が、改善され得る。

さらに、ユーザが位置決定され得るので、静止ユニットの一部であるマイクのアレイは、ユーザの位置／方向にしたがって調整され得る。静止ユニットの動作が、マイクのアレイのマイクを音声制御システムのユーザの位置に向けることを含む場合、検出されたスピーチ信号の信号対ノイズ比（ＳＮＲ）は、改善される。信号処理は、マイクのアレイによって取得された個々のマイク信号のビーム形成（上述を参照）を含み得、音声制御システムの正しい動作のために高い信頼性で認識され得る高品質のスピーチ信号を実現する。

モバイルデバイスから静止ユニットへの制御信号の定期的な伝送は、ユーザの位置追跡を可能にする。スピーチ認識およびマイクのアレイの調整のためのパラメータの適応は、一定期間にわたるユーザの実際の位置に基づいて、動的に実行され得る。

一実施形態にしたがうと、音声制御システムの音声制御のための本発明の方法は、
モバイルデバイスから静止ユニットに追加的なオーディオ信号を伝送することと、
追加的なオーディオ信号を静止ユニットによって受信することと、
受信した追加的なオーディオ信号に基づいて、静止ユニットが設けられている部屋の音響特性を解析することと
をさらに含んでいる。

したがって、上述の利点に加えて、モバイルデバイスはまた、静止ユニットが設けられている部屋の音響特性を解析するためにも使用され得る。この実施形態にしたがうと、モバイルデバイスは、予め選択されたオーディオ信号（これは、静止ユニットによって事前に知られている）を送信する。すなわち、追加的なオーディオ信号のパラメータ（例えば、周波数、短時間のスペクトル、出力密度等）は、静止ユニットに格納され、検出された追加的なオーディオ信号と比較され得る。この比較に基づいて、部屋の反響特性およびラウドスピーカ−部屋−マイクのシステム（このシステムのラウドスピーカは、追加的なオーディオ信号を伝送するモバイルデバイスのラウドスピーカであり、このシステムのマイクは、静止ユニットの（単数または複数の）マイクである）のインパルス応答が評価され得る。

部屋（この部屋には、静止ユニットが設けられており、音声制御システムがユーザによって動作されている）の解析された音響特性に基づいて、ユーザの言葉のスピーチ認識のために使用される処理パラメータが、適応され得る。例えば、検出されたスピーチ信号の品質を向上させるために使用されるノイズ低減およびエコー補償フィルタリング手段が、しかるべく適応され得る。

さらに、本明細書中に開示されている方法の上述の実施例は、
ユーザからのスピーチ信号をモバイルデバイス（例えば、セル電話）によって検出する追加的なステップと、
検出されたスピーチ信号をモバイルデバイスから静止ユニットに伝送する追加的なステップと、
伝送されたスピーチ信号を静止ユニットによって受信する追加的なステップと、
受信したスピーチ信号をスピーチ認識のために処理し、認識結果を取得する追加的なステップと、
認識結果に基づいて、静止ユニットを動作させる追加的なステップと
をさらに含んでいる。

この実施形態にしたがうと、モバイルデバイスは、上述の制御信号を伝送するために使用されるのみならず、音声制御システムの動作のためのユーザのコマンドを含むスピーチ信号を伝送するためにも使用される。ユーザの言葉の検出のために使用されるモバイルデバイスのマイクは、ユーザの口に比較的近いので、騒々しい環境においては、静止ユニットによって検出される（そして、部屋の音響伝達によって影響される）スピーチ信号よりも、モバイルデバイスから伝送されるスピーチ信号を使用することが好適であり得る。

この実施形態において、ユーザの言葉を表すスピーチ信号の認識は、モバイルデバイスから静止ユニットに伝送されるスピーチ信号のみに基づいて実行されるとは限らないことに留意されたい。現在のセル電話の比較的乏しいサンプリングレートを仮定すると、モバイルデバイスから静止ユニットに伝送された、スピーチ信号の歯擦音（ｓｉｂｉｌａｎｔ）ではない部分のみが、スピーチ認識処理のために使用され得、その一方、静止ユニットのマイクのアレイによって検出された、スピーチ信号の歯擦音部分（ユーザの同じ言葉を表す）は、スピーチ認識処理のために使用され得る。

別の実施例にしたがうと、この方法は、
ユーザからのスピーチ信号をモバイルデバイスによって（例えば、セル電話によって）検出する追加的なステップと、
検出されたスピーチ信号をモバイルデバイスによって認識し、認識結果を取得する追加的なステップと
を含んでおり、さらに、
少なくとも１つのモバイルデバイスから静止ユニットに伝送された制御信号は、認識結果に基づいて生成される。

この実施形態は、モバイルデバイスに設けられた認識器を使用する。最近のセル電話またはＰＤＡの一部は、スピーチ入力（特に、キーワードまたはキーフレーズの形式）のスピーチ認識機能を示している。モバイルデバイスは、キーワードまたはキーフレーズ（例えば、「〜を開始（ｓｔａｒｔ）」、「停止（ｓｔｏｐ）」、「もっと大きく（ｌｏｕｄｅｒ）」）を認識し得、静止ユニットに適切な制御信号を伝送し得る。そのような信号は、静止ユニットによって検出および認識されたスピーチ信号よりも上の優先度を与えられ得る。すなわち、音声制御システムが、ユーザの意図にしたがって動作しないとき、ユーザは、モバイルデバイスに設けられた認識器によって取得された認識結果に基づいて生成された制御信号を介して、音声制御システムと直接的に相互作用し得る。このようにして、柔軟性および信頼性が、さらに向上させられる。

本発明はまた、音声制御システムを提供し、この音声制御システムは、
スピーチ信号を受信するように構成された静止ユニットと、
静止ユニットに制御信号を伝送するように構成された少なくとも１つのモバイルデバイスと
を備えており、
静止ユニットはまた、少なくとも１つのモバイルデバイスによって伝送された制御信号を受信し、受信した制御信号に応答して動作するようにも構成されている。

一実施形態において、静止ユニットは、受信した制御信号に応答して作動するように構成されており、受信した制御信号にしたがって、スピーチ信号を認識し、かつ／またはモバイルデバイスを位置決定および／または識別するように構成された、処理ユニットをさらに含んでいる。

好適には、静止ユニットは、マイク、特に少なくとも１つの指向性マイクを含む、マイクのアレイをさらに含み得、静止ユニットは、受信した制御信号に応答して、マイクのアレイを調整するように構成され得る。特に、マイクのアレイのマイクは、受信した制御信号に応答して、ユーザ／スピーカの位置に向けられ得る。

少なくとも１つのモバイルデバイスは、特に、赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を、制御信号として伝送するように構成され得、静止ユニットは、伝送された赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を、適切な受信器によって受信するように構成され得る。

本発明の音声制御システムの少なくとも１つのモバイルデバイスは、例えば、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタント、または遠隔制御、または電話ヘッドセット、または補聴器、特に両耳補聴器であり得る。

一実施例にしたがうと、少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、これはまた、ユーザからのスピーチ信号を（モバイルデバイスに組み込まれた１つ以上のマイクを用いて）検出し、検出されたスピーチ信号を静止ユニットに伝送するようにも構成されており、静止ユニットは、モバイルデバイスによって伝送されたスピーチ信号を認識し、認識結果を取得し、受信した制御信号に応答して動作するように構成されている。

別の実施例にしたがうと、少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、これはまた、ユーザからのスピーチ信号を検出し、検出されたスピーチ信号を認識し、認識結果を取得し、認識結果に基づいて制御信号を生成するようにも構成されている。当然ながら、最後に言及された２つの実施例の特徴は、ユーザによる音声制御システムの制御の可変性をさらに向上させるために、互いに組み合わされ得る。

本発明の追加的な特徴および利点は、図面を参照して記載される。記載中、添付の図面に対する参照がなされるが、これらの図面は、本発明の好適な実施形態を示すように意図されている。そのような実施形態は、本発明の全範囲を表しているわけではないことに留意されたい。

本発明は、さらに以下の手段を提供する。

（項目１）
音声制御システムの音声制御方法であって、該音声制御システムは、該音声制御システムの少なくとも一人のユーザからのスピーチ信号を受信および認識するための静止ユニットを含んでおり、該方法は、
該音声制御システムの該少なくとも一人のユーザによって携帯される少なくとも１つのモバイルデバイスを提供することと、
該少なくとも１つのモバイルデバイスから該静止ユニットに制御信号を伝送することと、
該伝送された制御信号を該静止ユニットによって受信することと、
該受信した制御信号に応答して、該静止ユニットを動作させることと
を包含する、方法。

（項目２）
上記静止ユニットを動作させることは、該静止ユニットを作動させること、および／またはスピーチ信号を認識すること、および／または上記音声制御システムの上記少なくとも一人のユーザを位置決定すること、および／または該音声制御システムの該少なくとも一人のユーザを識別することを含んでいる、項目１に記載の方法。

（項目３）
上記少なくとも一人のユーザからのスピーチ信号は、該少なくとも一人のユーザの識別に基づいて認識される、項目２に記載の方法。

（項目４）
上記静止ユニットを動作させることは、該静止ユニットの一部であるマイクのアレイのマイクを調整することを含んでいる、項目１〜項目３のいずれか一項に記載の方法。

（項目５）
上記制御信号は、定期的にまたは上記少なくとも一人のユーザによる要求に応じて伝送される、項目１〜項目４のいずれか一項に記載の方法。

（項目６）
上記伝送および受信される制御信号は、赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号である、項目１〜項目５のいずれか一項に記載の方法。

（項目７）
上記制御信号は、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタント、または遠隔制御、またはヘッドセット、または補聴器、特に両耳補聴器によって伝送される、項目１〜項目６のいずれか一項に記載の方法。

（項目８）
上記モバイルデバイスから上記静止ユニットに追加的なオーディオ信号を伝送することと、
該追加的なオーディオ信号を該静止ユニットによって受信することと、
該受信した追加的なオーディオ信号に基づいて、該静止ユニットが設けられている部屋の音響特性を解析することと
をさらに含んでいる、項目１〜項目７のいずれか一項に記載の方法。

（項目９）
上記少なくとも一人のユーザからのスピーチ信号を上記モバイルデバイスによって検出する追加的なステップと、
該検出されたスピーチ信号を該モバイルデバイスから上記静止ユニットに伝送する追加的なステップと、
該伝送されたスピーチ信号を該静止ユニットによって受信する追加的なステップと、
該受信したスピーチ信号をスピーチ認識のために処理し、認識結果を取得する追加的なステップと、
該認識結果に基づいて、該静止ユニットを動作させる追加的なステップと
を含んでいる、項目１〜項目８のいずれか一項に記載の方法。

（項目１０）
上記少なくとも一人のユーザからのスピーチ信号を上記モバイルデバイスによって検出する追加的なステップと、
該検出されたスピーチ信号を該モバイルデバイスによって認識し、認識結果を取得する追加的なステップと
を含んでおり、
該少なくとも１つのモバイルデバイスから上記静止ユニットに伝送される上記制御信号は、該認識結果に基づいて生成される、項目１〜項目８のいずれか一項に記載の方法。

（項目１１）
スピーチ信号を受信するように構成された静止ユニットと、
該静止ユニットに制御信号を伝送するように構成された少なくとも１つのモバイルデバイスと
を備えた音声制御システムであって、
該静止ユニットはまた、該少なくとも１つのモバイルデバイスによって伝送された該制御信号を受信し、該受信した制御信号に応答して、動作するようにも構成されている、音声制御システム。

（項目１２）
上記静止ユニットは、上記受信した制御信号に応答して、作動するように構成されており、該受信した制御信号に応答して、スピーチ信号を認識し、かつ／または上記モバイルデバイスを位置決定および／または識別するように構成された、処理ユニットをさらに含んでいる、項目１１に記載の音声制御システム。

（項目１３）
上記静止ユニットは、マイク、特に少なくとも１つの指向性マイクを含む、マイクのアレイを含んでおり、該静止ユニットは、上記受信した制御信号に応答して、該マイクのアレイを調整するように構成されている、項目１１または項目１２に記載の音声制御システム。

（項目１４）
上記少なくとも１つのモバイルデバイスは、赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を、制御信号として伝送するように構成されており、上記静止ユニットは、該伝送された赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を受信するように構成されている、項目１１〜項目１３のいずれか一項に記載の音声制御システム。

（項目１５）
上記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタント、または遠隔制御、またはヘッドセット、または補聴器、特に両耳補聴器である、項目１１〜項目１４のいずれか一項に記載の音声制御システム。

（項目１６）
上記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、該少なくとも１つのモバイルデバイスはまた、上記少なくとも一人のユーザからのスピーチ信号を検出し、該検出されたスピーチ信号を上記静止ユニットに伝送するようにも構成されており、
該静止ユニットは、該モバイルデバイスによって伝送された該スピーチ信号を認識し、認識結果を取得し、該受信した制御信号に応答して動作するように構成されている、項目１１〜項目１５のいずれか一項に記載の音声制御システム。

（項目１７）
上記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、該少なくとも１つのモバイルデバイスは、該少なくとも一人のユーザからのスピーチ信号を検出し、該検出されたスピーチ信号を認識し、認識結果を取得し、該認識結果に基づいて、上記制御信号を生成するように構成されている、項目１１〜項目１６のいずれか一項に記載の音声制御システム。

（摘要）
本発明は、音声制御システムの音声制御方法に関し、この音声制御システムは、音声制御システムの少なくとも一人のユーザからのスピーチ信号を受信および認識するための静止ユニットを含んでおり、この方法は、音声制御システムの少なくとも一人のユーザによって携帯される少なくとも１つのモバイルデバイスを提供することと；少なくとも１つのモバイルデバイスから静止ユニットに制御信号を伝送することと；伝送された制御信号を静止ユニットによって受信し、受信した静止信号に応答して、静止ユニットを動作させることとを含む。本発明は、音声制御システムに関し、この音声制御システムは、スピーチ信号を受信するように構成された静止ユニットと；静止ユニットに制御信号を伝送するように構成された少なくとも１つのモバイルデバイスとを含んでおり、この静止ユニットはまた、少なくとも１つのモバイルデバイスによって伝送された制御信号を受信し、受信した制御信号に応答して、動作するようにも構成されている。

図１は、本明細書中に開示される音声制御システムの実施例を示しており、この音声制御システムは、部屋（例えば、リビングルームまたはオフィス）に設けられた静止ユニット１を含んでいる。静止ユニット１は、ＨＩＦＩオーディオシステムの一部であり得、これには、無線受信器２が備えられている。無線受信器２は、Ｂｌｕｅｔｏｏｔｈ受信器であり得る。複数のアンテナ２は、Ｂｌｕｅｔｏｏｔｈによって媒介される位置決定（すなわち、Ｂｌｕｅｔｏｏｔｈ信号を介して人物の位置を決定すること）のために設けられている。静止ユニット１はまた、スピーチ信号を検出するためのマイクのアレイ３をも含んでいる。検出されたスピーチ信号は、静止ユニット１の一部であるスピーチ認識手段によって認識される。

Ｂｌｕｅｔｏｏｔｈは、ますます普及してきている、短距離（＝１０ｍ）の無線通信技術の代表である。Ｂｌｕｅｔｏｏｔｈは、費用および電力消費の両方が比較的低く、このことが、Ｂｌｕｅｔｏｏｔｈをモバイルデバイスに対して非常に適したものにしている。Ｂｌｕｅｔｏｏｔｈ技術は、ＩＳＭ帯域（２，４０２〜２，４８０ＧＨｚ）を使用し、この帯域は、全世界で利用可能であり、免許を必要としない。使用される高速の周波数ホッピング方法は、毎秒１６００回の周波数の変化を伴い、比較的高い耐干渉性を保証する。当然ながら、無線通信は、Ｂｌｕｅｔｏｏｔｈ接続に限定されるわけではない。例えば、無線ローカルエリアネットワーク（ＷＬＡＮ）は、１つの代替的な無線リンクを提供する。

室内には、多数の人物（静止ユニット１のユーザ）が存在する。各ユーザは、モバイルデバイス４を携帯しており、このモバイルデバイスは、静止ユニットの受信器２に無線信号を伝送するように構成されている。ユーザによって携帯されているモバイルデバイス４は、音声制御システムの一部であり、様々なもの（例えば、セル電話、ＰＤＡ、または補聴器）であり得る。モバイルデバイス４は、信号を定期的に伝送し得、この信号は、受信器２によって受信される。さらに、モバイルデバイス４には、動作（特に、静止ユニット１との通信）にいくらかの柔軟性を提供するプログラマブルロジックが提供され得る。

両耳補聴器の場合、無線信号は、両耳補聴器の左部分と右部分との間で、任意の方法で伝送される。静止ユニット１の受信器２は、そのような両耳補聴器を用いているユーザが実際に室内に居ることをこの静止ユニットが決定することを可能にするために、そのような信号を受信および識別するように適応されている。当然ながら、そのような両耳補聴器には、静止ユニット１に制御信号を伝送するための追加的な送信器が提供され得る。

上記の実施例ならびに以下の実施例において、モバイルデバイス４と静止ユニット１との間の通信は、無線信号の伝送に限定されないということに留意されたい。本発明の別の実施形態にしたがうと、赤外線データ伝送が使用され得る。この場合、１１５ｋＢｉｔ／ｓまでの転送速度を提供する赤外線データ協会（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）の規格ＩｒＤａ１．０、または４ＭＢｉｔ／ｓまでの転送速度を提供するＩｒＤａ１．１が使用され得ることが好適である。高周波数（すなわち２０ｋＨｚ以上）の音響信号またはＵＶ信号もまた、使用され得る。

図１に示されているデバイスの特定の例示的な動作について、図２に関連して示されている。モバイルデバイス４を携帯している人物が部屋に入ると（１０）、静止ユニット１の受信器２は、ユーザによって携帯されているモバイルデバイス４から定期的に伝送された（１１）信号を受信し得（１２）、その結果、静止ユニット１は、スピーチ認識のために作動され得る（１３）。あるいはユーザが、モバイルデバイス４を（例えば、ボタンを用いて）手動で動作させ得、静止ユニット１の受信器２への信号の伝送を開始させ得る。

マイクのアレイ３の複数のマイクによって人物からのスピーチ信号を検出することによって取得されたマイク信号をビーム形成するために、マイクのアレイ３は、この人物の決定された位置／方向にしたがって、調整され得る（１４）。そして、人物の位置およびマイクのアレイからこの人物までの方向が、決定され得る（１５）。ビーム形成されたマイク信号の信号対ノイズ比（ＳＮＲ）は、通常、ビーム形成されていないマイク信号のＳＮＲよりも優れているので、静止ユニットのスピーチ認識手段によるスピーチ認識は、より信頼性を有したものになる。

さらに、本実施例にしたがうと、モバイルデバイス４は、異なる信号（例えば、異なるように変調された無線信号、または異なる周波数の無線信号）を受信器２に伝送する。その結果、個々のユーザが、静止ユニット１によって識別され得る（１５）。ユーザ／話者の識別は、特に、話者を登録するように適応されたスピーチ認識手段の場合に、スピーチ認識の役に立つ。ユーザからのスピーチ信号が認識され、その後、認識結果に基づいて、音声制御動作が実行され得る（１７）。これらのユーザの優先順位付けは、個々のユーザが識別される場合に、容易に導入され得る。その結果、例えば、室内に居る何人かのユーザのうちの一人によって与えられた口頭のコマンドは、別の話者によって先にまたは同時に与えられた別のコマンドを無効化し得る。さらに、静止ユニット１は、特定の識別されたユーザ／話者に対する優先度を用いて、マイクのアレイ３の調整を制御するように適応され得る。

モバイルデバイス４はまた、（例えば、加速度センサの形式の）運動センサをも含み得る。モバイルデバイス４の運動がそのような運動センサによって検出されたときのみに、静止デバイス１の受信器２に位置決定信号が伝送され、これにより、定期的に伝送される信号の場合と比べて、電力を節約する。そのように伝送された位置決定信号（例えば、無線信号、またはユーザに聴こえない高周波数の信号）に応答して、静止ユニットの一部であるスピーチ認識手段が作動され得、かつ／またはマイクのアレイ３のマイクが、ユーザの実際の位置に向けられ得る。

別の実施例において（図３参照）、図１に示されているシステムは、以下のように機能する。モバイルデバイス４は、可聴周波数範囲内のオーディオ信号を伝送するように構成される。ユーザは、モバイルデバイス４のボタンを押し（２０）、このボタンの手動の動作に応答して、オーディオ信号ならびに無線信号が、モバイルデバイス４から伝送される（２１）。伝送されたオーディオ信号および無線信号は、静止ユニット１によって受信される（２２）。特に、オーディオ信号は、マイクのアレイ３によって検出され、無線信号は、図１に示されている受信器２によって検出される。オーディオ信号または無線信号が受信されると、静止ユニット１におけるスピーチ認識手段が作動され、マイクのアレイのマイクが、オーディオ信号を伝送したモバイルデバイス４の位置に向けられる。

静止ユニット１は、同時に伝送されたオーディオ信号および無線信号の伝送時間の差を決定することによって、モバイルデバイス４を携帯しているユーザまでの距離を決定し得る（２３）。静止ユニット１におけるスピーチ認識手段は、その後、決定された距離にしたがって適応され（２４）、例えば、信号処理手段に対するパラメータが調整される。ビーム形成および信号フィルタリングは、オーディオ信号および無線信号が検出される、決定された距離および方向に基づいて、制御および調整され得る。

モバイルデバイス４によって伝送されたオーディオ信号は、アプリオリ（ａｐｒｉｏｒｉ）に知られる。オーディオ信号は、特に、音声制御が作動したことをユーザに示すジングルを表し得る。信号特性（例えば、周波数、短時間の出力密度等）は、静止ユニット１に格納され、部屋の音響特性の解析（２５）のために、モバイルデバイス４によって伝送された、検出および処理されるオーディオ信号と比較される。部屋の反響特性が評価され得る。

認識処理の前に、ユーザのスピーチ信号の品質を向上させるために使用されるノイズ低減フィルタおよびエコー補償フィルタリング手段は、モバイルデバイス４によって伝送されたオーディオ信号の解析によって取得された、ラウドスピーカ−部屋−マイクのシステム（このシステムのラウドスピーカは、モバイルデバイスのラウドスピーカである）のインパルス応答の評価に基づいて、適応され得る（２６）。評価された部屋の音響特性に基づく上記フィルタリング手段の適応後のユーザの言葉のスピーチ認識の信頼性は、大幅に改善され得る。

図４は、ユーザがセル電話を携帯している場合について、図１に示されているシステムの動作の実施例を示している。セル電話は、ユーザからのスピーチ信号を検出する（３０）。セル電話は、検出されたスピーチ信号を静止ユニットに伝送し（３１）、この静止ユニットは、この信号を受信し、スピーチ認識手段によるスピーチ認識のために、それを処理する（３２）。認識結果に応答して、静止ユニット１は、なんらかの動作を実行する（３３）。単純な実施例において、ユーザはキーワード「もっと大きく（Ｌｏｕｄｅｒ）」を発声し、この言葉の認識に応答して、静止ユニットは、音声制御によって動作されているＨＩＦＩオーディオシステムの音量を増大させる。

しかしながら、別の実施例にしたがうと、セル電話から静止ユニット１に伝送されたスピーチ信号の一部のみが、静止ユニット１におけるスピーチ認識のために使用される。標準的なセル電話におけるサンプリングレートは、約８ｋＨｚなので、静止ユニットに伝送された歯擦音のスピーチ認識は、十分な信頼性がないことがあり得る。したがって、スピーチ信号の歯擦音部分（これはまた、マイクのアレイ３によっても検出される）は、静止ユニット１におけるスピーチ認識手段によって認識されることが好適であり得る。他方、セル電話によって検出および伝送されたスピーチ信号は、話者の位置決定および識別のために使用され得る。上述のように、マイクのアレイ３ならびにスピーチ認識のために使用される処理パラメータは、話者の位置および識別にしたがって、適応され得る。

上述の動作の代わりに、セル電話そのものが、検出されたスピーチ信号（例えば、キーワード）を認識し得る（３４）。この実施例において、セル電話は、認識されたスピーチ信号に応答して、静止ユニット１にＢｌｕｅｔｏｏｔｈ信号を伝送する（３５）。静止ユニット１は、Ｂｌｕｅｔｏｏｔｈ信号を受信し（３６）、受信したＢｌｕｅｔｏｏｔｈ信号に応答して動作する。例えば、ユーザはキーセンテンス「音声制御をオンに（Ｖｏｉｃｅｃｏｎｔｒｏｌｏｎ）」を発声し得、このキーセンテンスは、セル電話に設けられた認識器によって認識される。対応するＢｌｕｅｔｏｏｔｈ信号が静止ユニット１に伝送され、これが、静止ユニット１の一部であるスピーチ認識手段を作動させる。

上述の実施形態は、本発明を限定するものとしては意図されておらず、本発明の特徴および利点を示す実施例の役目を担っている。上述の特徴の一部または全てはまた、様々な方法で組み合わされ得るということが理解されるべきである。

図１は、本発明にしたがう音声制御システムの実施例を示しており、この音声制御システムは、静止ユニットと、音声制御システムのユーザによって携帯されるモバイルデバイスとを含んでいる。図２は、本発明にしたがう音声制御方法の実施例のステップを示しており、この方法は、モバイルデバイスから音声制御システムの静止ユニットに信号を伝送するステップを含んでいる。図３は、本発明にしたがう音声制御方法の実施例のステップを示しており、この方法は、モバイルデバイスから音声制御システムの静止ユニットにオーディオ信号を伝送し、部屋の音響特性を評価するステップを含んでいる。図４は、本発明にしたがう音声制御方法の実施例のステップを示しており、この方法は、セル電話から静止ユニットにオーディオ信号（特に、スピーチ信号）を伝送するステップを含んでいる。

符号の説明

１静止ユニット
２受信器
３マイクのアレイ
４モバイルデバイス

Claims

音声制御システムの音声制御方法であって、該音声制御システムは、該音声制御システムの少なくとも一人のユーザからのスピーチ信号を受信および認識するための静止ユニットを備え、該方法は、
該音声制御システムの該少なくとも一人のユーザによって携帯される少なくとも１つのモバイルデバイスを提供することと、
該少なくとも１つのモバイルデバイスから該静止ユニットに制御信号を伝送することであって、該制御信号は、該少なくとも一人のユーザのスピーチとは関係ない、ことと、
該伝送された制御信号を該静止ユニットによって受信することと、
該制御信号から該少なくとも一人のユーザを識別し、該少なくとも一人のユーザのアイデンティティに基づいて該ユーザによるスピーチのスピーチ認識のためのスピーチ設定を構成することと、
該受信した制御信号に応答して、該静止ユニットを動作させることと
を包含し、
該静止ユニットを動作させることは、該音声制御システムの該少なくとも一人のユーザを位置決定することと、該少なくとも一人のユーザの位置決定に基づいて、該静止ユニットの一部であるマイクのアレイのマイクを調整することとを包含し、
該静止ユニットに、所定の可聴信号のパラメータを格納することと、
該モバイルデバイスから該静止ユニットに該所定の可聴信号を伝送することと、
該所定の可聴信号を該静止ユニットによって受信することと、
該受信した所定の可聴信号のパラメータと、該所定の可聴信号の該格納されたパラメータとを比較することにより、該静止ユニットが設けられている部屋の音響特性を解析することと、
該部屋の該解析された音響特性に基づいて、該スピーチ信号を認識するために使用される処理パラメータを適応させることと
を特徴とする、方法。
前記静止ユニットを動作させることは、該静止ユニットを作動させること、および／またはスピーチ信号を認識することを包含する、請求項１に記載の方法。
前記少なくとも一人のユーザからのスピーチ信号は、該少なくとも一人のユーザの識別に基づいて認識される、請求項２に記載の方法。
前記制御信号は、定期的にまたは前記少なくとも一人のユーザによる要求に応じて伝送される、請求項１〜請求項３のいずれか一項に記載の方法。
前記伝送および受信される制御信号は、赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号である、請求項１〜請求項４のいずれか一項に記載の方法。
前記制御信号は、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタント、またはヘッドセット、または補聴器、特に両耳補聴器によって伝送される、請求項１〜請求項５のいずれか一項に記載の方法。
前記少なくとも一人のユーザからのスピーチ信号を前記モバイルデバイスによって検出する追加的なステップと、
該検出されたスピーチ信号を該モバイルデバイスから前記静止ユニットに伝送する追加的なステップと、
該伝送されたスピーチ信号を該静止ユニットによって受信する追加的なステップと、
該受信したスピーチ信号をスピーチ認識のために処理し、認識結果を取得する追加的なステップと、
該認識結果に基づいて、該静止ユニットを動作させる追加的なステップと
を包含する、請求項１〜請求項６のいずれか一項に記載の方法。
前記少なくとも一人のユーザからのスピーチ信号を前記モバイルデバイスによって検出する追加的なステップと、
該検出されたスピーチ信号を該モバイルデバイスによって認識し、認識結果を取得する追加的なステップと
を包含し、
該少なくとも１つのモバイルデバイスから前記静止ユニットに伝送される前記制御信号は、該認識結果に基づいて生成される、請求項１〜請求項６のいずれか一項に記載の方法。
音声制御システムであって、該音声制御システムは、
スピーチ信号を受信することと、所定の可聴信号のパラメータを格納することとを実行するように構成された静止ユニットと、
該静止ユニットに制御信号および該所定の可聴信号を伝送するように構成された少なくとも１つのモバイルデバイスであって、該制御信号は、該音声制御システムの少なくとも一人のユーザのスピーチとは関係ない、モバイルデバイスと
を備え、
該静止ユニットはまた、該少なくとも１つのモバイルデバイスによって伝送された該制御信号および該所定の可聴信号を受信し、該受信した制御信号に応答して、動作するようにも構成されており、
該静止ユニットはさらに、
（Ａ）処理ユニットであって、該処理ユニットは、（ａ）該制御信号から該少なくとも一人のユーザを識別し、該少なくとも一人のユーザのアイデンティティに基づいて該ユーザによるスピーチのスピーチ認識のためのスピーチ設定を構成することと、（ｂ）該受信した制御信号に応答して、該モバイルデバイスを位置決定することと、（ｃ）該受信した所定の可聴信号と、該所定の可聴信号の該格納されたパラメータとを比較することにより、該静止ユニットが設けられている部屋の音響特性を解析することと、（ｄ）該部屋の該解析された音響特性に基づいて、該スピーチ信号を認識するために使用される処理パラメータを適応させることとを実行するように構成される、処理ユニットと、
（Ｂ）マイク、特に少なくとも１つの指向性マイクを含む、マイクのアレイと
を備え、
該静止ユニットは、該モバイルデバイスの位置決定に応答して、該マイクのアレイを調整するように構成される、音声制御システム。
前記静止ユニットは、前記受信した制御信号に応答して、作動するように構成されており、該受信した制御信号に応答して、スピーチ信号を認識し、かつ／または前記モバイルデバイスを識別するように構成された、処理ユニットをさらに備える、請求項９に記載の音声制御システム。
前記少なくとも１つのモバイルデバイスは、赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を、前記制御信号として伝送するように構成されており、前記静止ユニットは、該伝送された赤外線信号、および／または無線信号、および／または光学信号、および／または音響信号を受信するように構成されている、請求項９〜請求項１０のいずれか一項に記載の音声制御システム。
前記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタント、またはヘッドセット、または補聴器、特に両耳補聴器である、請求項９〜請求項１１のいずれか一項に記載の音声制御システム。
前記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、該少なくとも１つのモバイルデバイスはまた、前記少なくとも一人のユーザからのスピーチ信号を検出し、該検出されたスピーチ信号を前記静止ユニットに伝送するようにも構成されており、
該静止ユニットは、該モバイルデバイスによって伝送された該スピーチ信号を認識し、認識結果を取得し、該受信した制御信号に応答して動作するように構成されている、請求項９〜請求項１２のいずれか一項に記載の音声制御システム。
前記少なくとも１つのモバイルデバイスは、セル電話、またはスマートフォン、またはパーソナルデジタルアシスタントであり、該少なくとも１つのモバイルデバイスは、該少なくとも一人のユーザからのスピーチ信号を検出し、該検出されたスピーチ信号を認識し、認識結果を取得し、該認識結果に基づいて、前記制御信号を生成するように構成されている、請求項９〜請求項１３のいずれか一項に記載の音声制御システム。