JP4897169B2

JP4897169B2 - 音声認識装置及び消費者電子システム

Info

Publication number: JP4897169B2
Application number: JP2001525688A
Authority: JP
Inventors: アーペーカウフホルズ，パウル
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-09-23
Filing date: 2000-09-14
Publication date: 2012-03-14
Anticipated expiration: 2020-09-14
Also published as: US7050971B1; CN1134767C; CN1322348A; EP1133768B1; JP2003510645A; EP1133768A1; DE60042313D1; KR20010080522A; WO2001022404A1

Description

【０００１】
本発明は、マイクロホンからオーディオ信号を受信するオーディオ入力と、オーディオ源からオーディオ信号を受信するオーディオ入力とを有し、マイクロホン信号からオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
音声信号の少なくとも一部を認識する音声認識器と、
を含む音声認識装置に関する。
【０００２】
本発明は、少なくとも二つのオーディオ源装置と、オーディオ打ち消しモジュールと、音声認識器とを含む、消費者電子システムにも関する。
【０００３】
本発明は、さらに、オーディオ打ち消しモジュールに関する。
【０００４】
米国特許第5,255,326号明細書には、サウンド再生用のサラウンド・サウンド増幅器に接続された数台のオーディオ／ビデオ装置を備えた消費者電子システムが開示されている。増幅器は、ＴＶ、テーププレーヤ、ディスクプレーヤ及びラジオのような考え得る独立したオーディオ／ビデオ源毎に、オーディオ入力を有する。典型的に、オーディオ入力は、ステレオオーディオ信号を受信することができる。ユーザは、再生するオーディオ信号のオーディオ源を選択する。選択された信号は、増幅器のサラウンド・サウンド・プロセッサによって処理される。処理された信号は、増幅され、増幅器に接続されたスピーカを介して再生される。処理された信号は、マイクロプロセッサ若しくはパーソナル・コンピュータへも送られる。マイクロホンは、ユーザからの音声を獲得するため使用される。マイクロホン信号は、音声の他に、再生されたオーディオを含む。コンピュータは，マイクロホン信号から処理されたオーディオ信号を差し引き、音声信号を獲得する。音声信号は音声認識器によって認識される。認識結果はシステムを制御するため使用される。
【０００５】
近年、音声の認識は、ある種の条件が充たされる限り、妥当な精度で実現可能になり始めている。たとえば、認識精度は、高レベルのオーディオ／ノイズがマイクロホンから受信された信号に存在する場合に著しく低下する。従来のシステムは、増幅器によって生ずるオーディオ寄与分を除去する。しかし、実際上、殆どのユーザは、サウンド若しくはノイズを発生する２台以上の装置をもっている。たとえば、従来のシステムにおいて、ユーザがＴＶを視聴し、サウンドを再生するため、外部サラウンド・サウンド増幅器の代わりにＴＶの増幅器を使用するとき、ＴＶのサウンドはコンピュータによって除去できず、認識精度が著しく劣化する。
【０００６】
本発明の目的は、音声認識に影響を与えるオーディオ信号を非常にフレキシブルに除去する上述の音声認識装置、消費者電子システム、及び、オーディオ打ち消しモジュールを提供することである。
【０００７】
本発明の目的を達成するため、オーディオ打ち消しモジュールは、独立したオーディオ源からオーディオ信号を受信する対応した少なくとも二つのオーディオ入力を含み、オーディオ打ち消しモジュールは、マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【０００８】
かくして、音声認識装置は、サラウンド・サウンド増幅器のような一つのサウンド（オーディオ／ノイズ）生成装置だけに接続される必要性が無くなり、所望の台数のサウンド生成装置と共に動作できるようになる。たとえば、認識装置は、（たとえば、ラジオ若しくはＣＤからのオーディオ信号を再生する）オーディオ増幅器、ＴＶ増幅器、ヘッドホン型電話機などの別個の機器と共に動作する場合がある。また、独立したマイクロホンが、換気扇（たとえば、リビングルーム若しくはＰＣの換気扇）、掃除機、交通機関などのような装置によって生じた妨害サウンド（たとえば、ノイズ）信号を獲得するため使用される。この方法は、好ましくは、多数のユーザが同時に会話する（たとえば、ＰＣで口述したり、電話で会話したりする）開放型オフィス設計と共に使用される。これらの妨害音声からのマイクロホン信号は、音声認識装置へ送られ、除去される。他のユーザの音声の他に、このようなマイクロホンは、たとえば、ＰＣのようなWindowsサウンド信号によって生成された音、或いは、ゲームのようなプログラムによって生成された音のような他のサウンドを記録する。好ましくは、マイクロホンは、妨害源の近傍に設置され、妨害をできる限り明瞭に獲得する。或いは、マイクロホンのアレイを使用してもよい。マイクロホン信号は、適当な方法で音声認識装置へ転送され、たとえば、別々のワイヤを使用し、無線伝送（たとえば、ＲＦ）を使用し、或いは、幹線の配線を介して転送される。
【０００９】
音声認識装置は、音声からテキストへの変換（口述）に使用される。これにより、ユーザは、音楽を聴きながら、同時にテキストを口述できるようになる。また、たとえば、認識のため使用されるＰＣ内のファン又はディスクによって生ずるようなノイズを除去できるようになる。
【００１０】
従属した請求項２に記載されているような好ましい一実施例において、音声認識装置は、認識装置以外の装置を含む装置のボイス制御のため使用される。これらの装置には、好ましくは、オーディオ／ビデオ機器（たとえば、ＴＶ、ディスクプレーヤ／レコーダ、テーププレーヤ／レコーダ、オーディオチューナ、セットトップ・ボックスなど）と、コンピュータ関連製品（たとえば、プリンタ、スキャナなど）、セキュリティ製品、家庭用電気器具、及び、温度制御機器のようなホーム・ネットワーク内に見受けられるその他の装置とが含まれる。制御メッセージをこのような装置へ通信するための適切な手段は周知である。
【００１１】
従属した請求項３に係る発明によれば、装置は、遠隔制御メッセージを使用して制御される。このようにして、装置は、制御される装置に音声認識機能を導入することなく、簡単かつ対費用効果率に優れた方法でボイス制御される。また、ボイス制御能力を備えていない既存の機器の制御も可能になる。好ましくは、音声認識装置は、汎用的な予めプログラムされた遠隔制御装置又は学習した遠隔制御装置によって知られた方法で、多数の異なる装置を制御することができ、コマンドの作動は、キーストロークではなく、音声によって与えられる。これにより、多数の異なるタイプの装置を制御することができる。
【００１２】
従属した請求項４に係る発明によれば、オーディオ通信ネットワークが外部オーディオ源からオーディオを受信するため使用される。このようなネットワークは、有線若しくは無線のいずれでもよい。また、ネットワークは、ポイント・ツー・ポイント・コネクションに基礎を置く。好ましくは、シリアル・バスが使用され、数台の音源を音声認識装置へ対費用効果率に優れた方法で接続する。支配的なＰＣ環境における口述の場合、好ましくは、ＵＳＢ又は類似したネットワークが使用される。支配的なオーディオ／ビデオ環境におけるボイス制御のため、好ましくは、IEEE1394が使用される。
【００１３】
従属した請求項５に係る発明によれば、オーディオを音声認識装置へ転送するため使用される通信ネットワークは、音声認識装置からシステム内の他の装置へコマンドメッセージを発するため使用される通信ネットワークと同じである。好ましくは、IEEE1394に基づくネットワークが使用される。IEEE1394は、オーディオを転送するため使用可能な幾つかの独立した等時性データストリームを支援する。オーディオは、ネットワークを介してブロードキャストされるか、或いは、音声認識装置へ直接的に送信される。さらに、IEEE1394は、HAViプロトコルに従って、コマンドメッセージを転送することができる。
【００１４】
従属した請求項６に係る発明によれば、音声認識装置は、供給された音声信号を再生できなくても構わない。これにより、より高いフレキシビリティを達成することができる。たとえば、音声認識装置は、システム内の他の装置を制御する自立型制御装置でも構わない。このような構成の場合、装置は、装置の操作又はシステムの制御に関するユーザへの聴覚的フィードバックを除いて、オーディオ出力を生成できない場合がある。この場合、外部音源のオーディオを受信するオーディオ入力は、打ち消しのためだけに使用される。たとえば、音声認識装置は、ＴＶ、ＤＶＤプレーヤ、及び、オーディオシステムのような自立型装置を、ホーム・シネマ・システムに統合するため有利に使用することができる。このような統合型システムにおいて、音声認識装置は、個別の装置の機能性をシステムの動作に統合するため、付加的な制御知識を有する場合がある。たとえば、「ＤＶＤ再生」のようなボイスコマンドは、音声認識装置にＤＶＤプレーヤを作動させるだけではなく、ＴＶ及び増幅器を作動させ、所望の信号接続を確立させる。
【００１５】
この装置はＴＶに統合してもよい。殆どのシステムの場合に、ＴＶは、オーディオシステムによって生成されたオーディオを表現するオーディオ出力信号を受信する一つの補助入力を有する。ＴＶは、通常、オーディオシステムからの音源信号を再生するため使用されない。そこで、この信号を受信する主要な機能は、マイクロホン信号からその信号を打ち消し得ることである。このようなオーディオ信号を再生できない場合もある。外部音源からのオーディオを打ち消すことができるようにすることによって、たとえば、ユーザは、ＴＶ上でテレテキスト、又は、ウェブＴＶのような機能を視聴し、ＣＤ（オーディオシステムの一部である外部音源）を聴きながら、このような機能をボイスによって制御できるようになる。同様に、ユーザは、ＴＶ内の音声制御ユニットを介してＣＤを制御できる。
【００１６】
本発明の目的を達成するため、消費者電子システムは、
少なくとも２台のオーディオ源装置と、
オーディオ打ち消しモジュールと、
音声信号の少なくとも一部を認識する音声認識器と、
を含み、
オーディオ打ち消しモジュールは、
マイクロホンからオーディオ信号を受信するオーディオ入力と、
各オーディオ源装置から独立したオーディオ信号を受信する少なくとも二つのオーディオ入力と、
を有し、
オーディオ打ち消しモジュールは、マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【００１７】
本発明の目的を達成するため、オーディオ打ち消しモジュールは、
マイクロホンからオーディオ信号を受信するオーディオ入力と、
独立したオーディオ源装置から対応したオーディオ信号を受信する少なくとも二つのオーディオ入力と、
を有し、
マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【００１８】
本発明の上記の局面並びにその他の局面は、添付図面に示された実施例を参照することにより明瞭にされ、説明される。
【００１９】
図１は、本発明によるオーディオ打ち消しモジュール１００のブロック図である。モジュール１００は、マイクロホンから信号１１０を受信するオーディオ入力１１０を含む。音声認識目的用に適したマイクロホンは周知である。通常、マイクロホンは、モノラル・オーディオ信号を与える。口述用には、好ましくは、ヘッドホン型マイクロホンが使用されるか、或いは、マイクロホンはユーザのかなり近く（たとえば、５０ｃｍの距離）に配置される。ボイス制御のため、マイクロホンは、より遠く（たとえば、数メートルの距離）に配置してもよい。モジュール１００は、対応した独立オーディオ源からオーディオ信号を受信する幾つかのオーディオ入力を有する。同図には、二つのオーディオ入力１２０及び１３０が示されている。オーディオ入力は、一つの音源からの全ての関連したオーディオ信号を受信するため使用される。通常、オーディオ信号はステレオ信号であり、その場合、入力は、ステレオ信号を受信するため二つの別個の入力コネクタを有する。サラウンド・サウンド符号化信号は、５乃至６個の別個のコネクタ（たとえば、前方左側、前方右側、後方左側、後方右側、中央、サブ・ウーハー）を有する。本発明の目的のため、これらの信号は一つの信号であるとみなされる。オーディオ打ち消しモジュール１００は、マイクロホン信号から少なくとも２個の独立したオーディオ源信号を打ち消すことにより、音声信号を生ずるよう動作する。オーディオ信号の打ち消し自体は周知であり、通常、オーディオ・エコー・キャンセレーションと称される。オーディオ信号の打ち消しは、たとえば、マイクロホン信号からのオーディオ信号の減算を行う。マイクロホン信号に現れるようなオーディオ信号の時間遅延及び振幅は、一つのオーディオ入力を介して受信されたオーディオ信号に関して評価され得る。このような評価は、たとえば、周知の統計的相関技術を用いて行われる。本発明によるオーディオ打ち消しモジュールは、各信号を順番に打ち消すことによって、数個のオーディオ信号の打ち消しを行う。そのため、モジュール１００は、数段の打ち消しユニットを含み、第１のユニットはマイクロホン信号から第１のオーディオ信号を打ち消し、第２のユニットは第１のユニットの出力から第２のオーディオ信号を打ち消し、以下同様に続く。特に、全ての打ち消しユニットは同じモジュールに設けられているので、各打ち消しユニットに導入された遅延を容易に補償することができる。たとえば、Ｋ段目の打ち消しユニットへのマイクロホン入力は、打ち消しユニットの遅延の（Ｎ−１）倍だけ（バッファリングによって）遅延させられる。好ましくは、モジュール１００は、一つの一体化された処理で数個の信号を打ち消す。多数の信号を打ち消す好ましい方法は、未公開の欧州特許出願EP 9920206.3(PHN 17514)に説明されている。この文献の詳細を参考のため引用する。
【００２０】
図２に示された実施例では、一つのマイクロホンを使用するのではなく、別個のマイクロホンからの入力を獲得することが提案される。マイクロホンは、一般的なマイクロホン・アレイに配置され、各マイクロホンは異なる方向を受け持つ。好ましくは、オーディオ打ち消しモジュール１００が消費者電子システム１００に使用され、システム内の数種類の装置がマイクロホンを具備する。図２には、このようなシステムが示されている。このシステムにおいて、オーディオセット２００は、内蔵マイクロホン２０２（又は，マイクロホン入力）と、マイクロホン信号出力２０４とを有する。同様に、ＴＶ２１０は、内蔵マイクロホン（又は、マイクロホン入力）と、マイクロホン信号出力２１４とを有する。オーディオ打ち消しモジュール１００は、システムの別の装置２２０に設けられる。本例の場合、この装置２２０は、内蔵マイクロホン２２２（又は、マイクロホン入力）を有する。装置２２０は、出力２０４及び２１４からマイクロホン信号を受信する対応した二つのマイクロホン入力２２４及び２２６を有する。（本例の場合に、２個の外部マイクロホン信号と、１個の内部マイクロホン信号である）全てのマイクロホン信号は、ビーム形成器２４０へ供給される。ビーム形成器は、マイクロホン信号を合成し、より高性能かつ高分解能のマイクロホン信号を生ずる。ビーム形成器は、オーディオ源を選択、或いは、突き止める。典型的に、スピーカ信号は識別され（通常は、話者である）、この音源信号は、多数のマイクロホン入力信号の中で追跡される。ビーム形成器の出力信号は、オーディオ打ち消しユニット１００のマイクロホン入力１１０へ供給される。同図には、外部装置からオーディオ信号を受信するため利用される装置２２０の対応した二つのオーディオ入力２２８及び２３０が示されている。図示されたシステムにおいて、外部オーディオ入力２２８及び２３０は、オーディオセット２００及びＴＶ２１０の対応したオーディオライン出力２０６及び２１６に接続される。装置２２０内で、外部オーディオ入力２２８及び２３０は、オーディオ打ち消しモジュール１００の対応したオーディオ入力１２０及び１３０へ接続される。
【００２１】
図３には、オーディオ打ち消しモジュール１００によって生成された音声信号１４０が音声認識器３００へ供給される更なる実施例が示されている。音声認識器は、好ましくは、モジュール１００と同じ装置に設けられる。必要に応じて、音声認識器３００は、別個の装置に設けても構わない。たとえば、別個のオーディオ打ち消しモジュールが数室に配置され、いずれかのモジュールから受信された音声を認識することができる唯一の集中認識器が使用される。認識結果は、口述（音声からテキストへの変換）、制御、又は、情報検索のような種々のアプリケーションに使用される。同図には、認識されたコマンドに応じて制御動作を実行するコントローラ３１０が示されている。制御動作は、コントローラ３１０が設けられた装置の動作に制限される。特に、図３に示されるように、制御ユニットが大規模システムの一部を構成する装置に収容されている場合、好ましくは、制御ユニットは、他の装置の動作を制御する。このために、コントローラは、同図に破線矢印で示されるようなコマンドメッセージを、制御通信ネットワークを介して、システム内の他の装置へ送る。このようなネットワークは、多様な形態で実現される。たとえば、専用制御リンクが、コントローラ３１０を収容した装置２２０を他の装置２００及び２１０に接続するため使用される。このようなリンクは、１本以上の制御信号配線を用いて実現可能である。簡単な制御リンクを実現するため、典型的に赤外線信号によって伝送される遠隔制御メッセージの形式で制御メッセージを発することが好ましい。原理的に、単一方向性遠隔制御システムは、制御装置２２０から他の装置へメッセージを転送するため使用できる。より複雑な制御の場合、双方向性遠隔制御システムを使用してもよい。遠隔制御システムは、本質的に周知であるため、これ以上詳細な説明を行わない。好ましくは、コントローラ３１０は、コントローラ３１０が特定の遠隔制御システム及びシステム内の装置のメッセージを使用してシステム内の装置を制御できるように、ユーザによるプログラミングが可能である。このため、コントローラは、汎用的な予めプログラミングされた遠隔制御器又は学習型制御器の論理部に類似した論理部を内蔵する。これは、たとえば、ユーザに所定のボイスコマンド（たとえば、「再生」又は「開始」）のリストの中から、特定の制御メッセージ（たとえば、テープを再生するためのＶＣＲ命令）を選択させることによって実現される。このような所定のボイスコマンドは、不特定話者認識を使用して認識することが可能である。或いは、ユーザは、自分専用のボイスコマンドを指定してもよく、その場合、好ましくは、特定話者認識が使用される。本質的に、音声認識及び特定用ボイスコマンドは公知である。
【００２２】
図４に示された実施例において、装置２００、２１０及び２２０は、通信ネットワーク４００を介して接続される。このネットワークは、
オーディオ信号（典型的に、デジタル形式であり、等時性データストリームとして転送される）
マイクロホン信号（典型的に、転送用のオーディオ信号として処理される）
制御命令／メッセージ
のような多種類のデータを転送するため使用される。
【００２３】
好ましくは、同じネットワークは、この中の幾つかのトランスポート形式、或いは、場合によっては全てのトランスポート形式を実現する。図４に示された例の場合、オーディオ信号及び制御信号は、ネットワークを介して転送される。このため、音声認識装置２２０は、本質的に周知である通信インタフェース４１０を具備し、ネットワークを介して伝送されたデータからオーディオ信号を取得し、オーディオ信号をオーディオ打ち消しモジュールへ供給する。コントローラ３１０のよって生成されたコマンドメッセージは、同じ通信インタフェース４１０を介して送信される。
【００２４】
オーディオ／ビデオ機器又は家庭用電気器具のような消費者電子装置のボイス制御は、一般的に困難である。その理由は、ユーザから見ると、屡々、どのボイスコマンドを使用できるかが明瞭ではないからである。特に、大規模若しくは先進的システムの場合、制御可能な機能の数は膨大であり、かつ、変化する。ＰＣのボイス制御のユーザは、ボイスコマンドの全候補を調べるヘルプ機能を利用することができるが、消費者電子装置のユーザ・インタフェースの実現可能な機能は非常に制限されている傾向がある。これらの問題を解決するため、コントローラは、その時点で発話可能なコマンドに関する情報をユーザに供給するよう動作することが好ましい。このようないわゆるフィードフォワード形式の場合、コマンドのリストは、関連しているシステム若しくは装置の状態、所定の制御階層構造／系列構造、又は、前後関係によって決められるような実行可能なコマンドに制限される。一例として、集中コントローラがシステム内の一部若しくは全部の装置を制御するため使用される場合、初期フィードフォワード・リストは、ユーザが制御したい装置をコントローラに通知する（「ＴＶ」、「ＶＣＲ」、「ＣＤ」のような）装置選択コマンドだけを含み得る。次に、フィードフォワード・リストは、制御階層構造／系列構造、又は、選択された装置の状態に関して、その選択された装置によって実行可能なコマンドだけを含む。
【００２５】
制御階層構造／系列構造に関して、近年、一部の装置は、ある時点で制御し得る機能の全てに必ずしも直接的にアクセスしない。典型的に、オーディオ、ビデオ、及び、ＴＶチューニングの最新式の設定は、階層メニューだけによって行える。トップメニューで、ユーザは、制御すべき機能のグループを選択する。第２レベルで、通常、ユーザは、選択されたグループ中の特定の機能を制御し得る。場合によっては、より多数のメニューレベルが使用される。ボイス制御型装置の場合、合理的に実現可能なできるだけ多数の機能に直接的なアクセスを行うことが好ましい。本発明によれば、非常に機能的な装置の場合に、階層構造方式がボイス制御のために使用される。これは、実現可能なボイスコマンドの数を（現在選択されているボイスコマンドのグループ中のボイスコマンドだけに）制限し、認識の信頼性を高めると共に、その後に発話可能なボイスコマンドの効果的なフィードフォワードを行うことができる。
【００２６】
上述のボイスコマンドの階層構造／系列構造に加えて、或いは、代替として、発話可能なコマンドのリストは、関連した装置の状態又はシステムの状態を考慮して実行可能なボイスコマンドだけを許可することによって制限され得る。たとえば、ＣＤプレーヤにディスクが搭載されていない場合、フィードフォワード型リストは、「取り出し」コマンド及び「スタンバイ」コマンドだけを含み、一方、ディスクが搭載されている場合には、より長いコマンドのリストを実現することができる。本発明の更なる実施例において、フィードフォワード・リストは、装置の一定状態の動作だけによって決定されるのではなく、可変的な内容情報によっても決定される。たとえば、ＴＶが情報、たとえば、インターネット又は電子番組案内（ＥＰＧ）から獲得された情報を表示するとき、その情報自体がボイスコマンドの候補に影響を与える。インターネット・ページの場合、リンクは音声で指定してもよく、ＥＰＧページの場合、番組は視聴若しくは録画のため選択可能である。また、ブラウザ用コマンドは発話形式でもよい。内容がフィードフォワード・リストを決定する別の例は、ディスク内容の機能性が変化する状況である。たとえば、一つだけのインデックスを含むディスクが搭載された場合、フィードフォワード・リストは、インデックス選択コマンドを含まない。ディスクが８トラックを収容する場合、最初の８トラックだけが音声によって選択可能である。同様に、コピー禁止テープがＶＣＲに装填されたとき、「録画」コマンドは使用不可能であり、フィードフォワード・リストに掲載する必要が無い。
【００２７】
コントローラは、装置の制御階層構造に関する情報を用いて予めプログラミングされる。特に、コントローラが制御対象である装置の一部である場合、コントローラは、階層構造の中のどの部分が有効状態であるかを容易に管理することができ、それに応じて、フィードフォワード・リストをロードするか、或いは、作成する。コントローラが制御対象の装置の一部ではない場合、好ましくは、コントローラは、制御対象である製品から関連した情報を獲得する。このような情報は通信ネットワークを介して獲得される。情報は多様な方式で獲得される。たとえば、コントローラは、関連した装置から全ての制御階層構造を獲得してもよい。コントローラ自体は、たとえば、ユーザの（ボイスコマンド又は遠隔制御による）入力に基づいて、階層構造の中でどの部分が有効状態であるかを管理することができる。コントローラは、ユーザから入力を受ける時点で有効状態である部分を検査することも可能である。或いは、制御対象の装置は、現在状態をコントローラへ通知し続ける場合がある。情報監視又は自動状態更新を実行するための通信プロトコルは周知である。コントローラは、制御階層構造／系列構造の全体を獲得するのではなく、制御階層構造の中で次に有効状態になる部分によって形成されたコマンドセットの一部だけ、或いは、装置の次の動作状態によって許可されるコマンドセットの一部だけを取得してもよい。
【００２８】
実際上、フィードフォワード・リストは、任意の適当な形式で提示され、たとえば、話すのに適したコマンドが視覚的又は聴覚的に提示される。
【図面の簡単な説明】
【図１】本発明によるオーディオ打ち消しモジュール１００のブロック図である。
【図２】複数のマイクロホンの用法を説明する図である。
【図３】音声認識器を統合した一実施例の構成図である。
【図４】本発明によるシステムの構成図である。

Claims

マイクロホンと、
独立した少なくとも二つのオーディオ源の夫々の内蔵マイクロホンから出力されたマイクロホン信号を受信する少なくとも二つの対応したマイクロホン入力部と、
前記マイクロホンからのオーディオ信号と、前記少なくとも二つのマイクロホン入力部で受信された前記マイクロホン信号とを合成して、合成マイクロホン信号を生成するビーム形成器と、
前記ビーム形成器から前記合成マイクロホン信号を受信するオーディオ入力と、前記少なくとも二つのオーディオ源から夫々のオーディオ信号である少なくとも二つの独立したオーディオ源信号を受信する少なくとも二つのオーディオ入力とを有し、前記合成マイクロホン信号から前記少なくとも二つのオーディオ源信号を減じることにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
前記オーディオ打ち消しモジュールで生成された前記音声信号の少なくとも一部を認識する音声認識器と、
を含む音声認識装置。
前記音声認識器によって認識されるユーザの発話命令に応答して、制御通信ネットワークを介して、少なくとも一つのコマンドメッセージを更なる装置へ送るコントローラを更に有する請求項１記載の音声認識装置。
前記コントローラは、前記更なる装置と関連した遠隔制御メッセージの形で前記少なくとも一つのコマンドメッセージを送るよう動作する、請求項２記載の音声認識装置。
前記少なくとも二つのオーディオ源のうち少なくとも一つのオーディオ源は当該音声認識装置の外部にある外部オーディオ源であり、
前記外部オーディオ源からの少なくとも一つのオーディオ信号は、オーディオ通信ネットワークを介して受信される、請求項１記載の音声認識装置。
前記音声認識器によって認識されるユーザの発話命令に応答して、制御通信ネットワークを介して、少なくとも一つのコマンドメッセージを更なる装置へ送るコントローラを更に有し、
前記オーディオ通信ネットワークは、前記制御通信ネットワークと同じ通信規格に従う通信ネットワークである、請求項４記載の音声認識装置。
前記更なる装置には、前記少なくとも二つのオーディオ源が含まれ、前記更なる装置は、当該音声認識装置の外部に別個に設けられた装置である、請求項２記載の音声認識装置。
内蔵マイクロホンを夫々有する少なくとも二つのオーディオ源装置と、
マイクロホンからのオーディオ信号と、前記少なくとも二つのオーディオ源装置の夫々の内蔵マイクロホンから受信されたマイクロホン信号とを合成して、合成マイクロホン信号を生成するビーム形成器と、
前記ビーム形成器から前記合成マイクロホン信号を受信するオーディオ入力と、前記少なくとも二つのオーディオ源装置から夫々のオーディオ信号である少なくとも二つの独立したオーディオ源信号を受信する少なくとも二つのオーディオ入力とを有し、前記合成マイクロホン信号から前記少なくとも二つのオーディオ源信号を減じることにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
前記オーディオ打ち消しモジュールで生成された前記音声信号の少なくとも一部を認識する音声認識器と
を含む、消費者電子システム。
前記音声認識器によって認識されるユーザの発話命令に応答して、通信ネットワークを介して、少なくとも一つのコマンドメッセージをシステム内の装置へ送るコントローラを更に有する請求項７記載の消費者電子システム。
少なくとも一つのオーディオ信号は、関連したオーディオ源装置から前記通信ネットワークを介して受信される、請求項８記載の消費者電子システム。