JP4897169B2 - 音声認識装置及び消費者電子システム - Google Patents

音声認識装置及び消費者電子システム Download PDF

Info

Publication number
JP4897169B2
JP4897169B2 JP2001525688A JP2001525688A JP4897169B2 JP 4897169 B2 JP4897169 B2 JP 4897169B2 JP 2001525688 A JP2001525688 A JP 2001525688A JP 2001525688 A JP2001525688 A JP 2001525688A JP 4897169 B2 JP4897169 B2 JP 4897169B2
Authority
JP
Japan
Prior art keywords
audio
signal
microphone
speech
communication network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001525688A
Other languages
English (en)
Other versions
JP2003510645A (ja
Inventor
アー ペー カウフホルズ,パウル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2003510645A publication Critical patent/JP2003510645A/ja
Application granted granted Critical
Publication of JP4897169B2 publication Critical patent/JP4897169B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Selective Calling Equipment (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Description

【0001】
本発明は、マイクロホンからオーディオ信号を受信するオーディオ入力と、オーディオ源からオーディオ信号を受信するオーディオ入力とを有し、マイクロホン信号からオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
音声信号の少なくとも一部を認識する音声認識器と、
を含む音声認識装置に関する。
【0002】
本発明は、少なくとも二つのオーディオ源装置と、オーディオ打ち消しモジュールと、音声認識器とを含む、消費者電子システムにも関する。
【0003】
本発明は、さらに、オーディオ打ち消しモジュールに関する。
【0004】
米国特許第5,255,326号明細書には、サウンド再生用のサラウンド・サウンド増幅器に接続された数台のオーディオ/ビデオ装置を備えた消費者電子システムが開示されている。増幅器は、TV、テーププレーヤ、ディスクプレーヤ及びラジオのような考え得る独立したオーディオ/ビデオ源毎に、オーディオ入力を有する。典型的に、オーディオ入力は、ステレオオーディオ信号を受信することができる。ユーザは、再生するオーディオ信号のオーディオ源を選択する。選択された信号は、増幅器のサラウンド・サウンド・プロセッサによって処理される。処理された信号は、増幅され、増幅器に接続されたスピーカを介して再生される。処理された信号は、マイクロプロセッサ若しくはパーソナル・コンピュータへも送られる。マイクロホンは、ユーザからの音声を獲得するため使用される。マイクロホン信号は、音声の他に、再生されたオーディオを含む。コンピュータは,マイクロホン信号から処理されたオーディオ信号を差し引き、音声信号を獲得する。音声信号は音声認識器によって認識される。認識結果はシステムを制御するため使用される。
【0005】
近年、音声の認識は、ある種の条件が充たされる限り、妥当な精度で実現可能になり始めている。たとえば、認識精度は、高レベルのオーディオ/ノイズがマイクロホンから受信された信号に存在する場合に著しく低下する。従来のシステムは、増幅器によって生ずるオーディオ寄与分を除去する。しかし、実際上、殆どのユーザは、サウンド若しくはノイズを発生する2台以上の装置をもっている。たとえば、従来のシステムにおいて、ユーザがTVを視聴し、サウンドを再生するため、外部サラウンド・サウンド増幅器の代わりにTVの増幅器を使用するとき、TVのサウンドはコンピュータによって除去できず、認識精度が著しく劣化する。
【0006】
本発明の目的は、音声認識に影響を与えるオーディオ信号を非常にフレキシブルに除去する上述の音声認識装置、消費者電子システム、及び、オーディオ打ち消しモジュールを提供することである。
【0007】
本発明の目的を達成するため、オーディオ打ち消しモジュールは、独立したオーディオ源からオーディオ信号を受信する対応した少なくとも二つのオーディオ入力を含み、オーディオ打ち消しモジュールは、マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【0008】
かくして、音声認識装置は、サラウンド・サウンド増幅器のような一つのサウンド(オーディオ/ノイズ)生成装置だけに接続される必要性が無くなり、所望の台数のサウンド生成装置と共に動作できるようになる。たとえば、認識装置は、(たとえば、ラジオ若しくはCDからのオーディオ信号を再生する)オーディオ増幅器、TV増幅器、ヘッドホン型電話機などの別個の機器と共に動作する場合がある。また、独立したマイクロホンが、換気扇(たとえば、リビングルーム若しくはPCの換気扇)、掃除機、交通機関などのような装置によって生じた妨害サウンド(たとえば、ノイズ)信号を獲得するため使用される。この方法は、好ましくは、多数のユーザが同時に会話する(たとえば、PCで口述したり、電話で会話したりする)開放型オフィス設計と共に使用される。これらの妨害音声からのマイクロホン信号は、音声認識装置へ送られ、除去される。他のユーザの音声の他に、このようなマイクロホンは、たとえば、PCのようなWindowsサウンド信号によって生成された音、或いは、ゲームのようなプログラムによって生成された音のような他のサウンドを記録する。好ましくは、マイクロホンは、妨害源の近傍に設置され、妨害をできる限り明瞭に獲得する。或いは、マイクロホンのアレイを使用してもよい。マイクロホン信号は、適当な方法で音声認識装置へ転送され、たとえば、別々のワイヤを使用し、無線伝送(たとえば、RF)を使用し、或いは、幹線の配線を介して転送される。
【0009】
音声認識装置は、音声からテキストへの変換(口述)に使用される。これにより、ユーザは、音楽を聴きながら、同時にテキストを口述できるようになる。また、たとえば、認識のため使用されるPC内のファン又はディスクによって生ずるようなノイズを除去できるようになる。
【0010】
従属した請求項2に記載されているような好ましい一実施例において、音声認識装置は、認識装置以外の装置を含む装置のボイス制御のため使用される。これらの装置には、好ましくは、オーディオ/ビデオ機器(たとえば、TV、ディスクプレーヤ/レコーダ、テーププレーヤ/レコーダ、オーディオチューナ、セットトップ・ボックスなど)と、コンピュータ関連製品(たとえば、プリンタ、スキャナなど)、セキュリティ製品、家庭用電気器具、及び、温度制御機器のようなホーム・ネットワーク内に見受けられるその他の装置とが含まれる。制御メッセージをこのような装置へ通信するための適切な手段は周知である。
【0011】
従属した請求項3に係る発明によれば、装置は、遠隔制御メッセージを使用して制御される。このようにして、装置は、制御される装置に音声認識機能を導入することなく、簡単かつ対費用効果率に優れた方法でボイス制御される。また、ボイス制御能力を備えていない既存の機器の制御も可能になる。好ましくは、音声認識装置は、汎用的な予めプログラムされた遠隔制御装置又は学習した遠隔制御装置によって知られた方法で、多数の異なる装置を制御することができ、コマンドの作動は、キーストロークではなく、音声によって与えられる。これにより、多数の異なるタイプの装置を制御することができる。
【0012】
従属した請求項4に係る発明によれば、オーディオ通信ネットワークが外部オーディオ源からオーディオを受信するため使用される。このようなネットワークは、有線若しくは無線のいずれでもよい。また、ネットワークは、ポイント・ツー・ポイント・コネクションに基礎を置く。好ましくは、シリアル・バスが使用され、数台の音源を音声認識装置へ対費用効果率に優れた方法で接続する。支配的なPC環境における口述の場合、好ましくは、USB又は類似したネットワークが使用される。支配的なオーディオ/ビデオ環境におけるボイス制御のため、好ましくは、IEEE1394が使用される。
【0013】
従属した請求項5に係る発明によれば、オーディオを音声認識装置へ転送するため使用される通信ネットワークは、音声認識装置からシステム内の他の装置へコマンドメッセージを発するため使用される通信ネットワークと同じである。好ましくは、IEEE1394に基づくネットワークが使用される。IEEE1394は、オーディオを転送するため使用可能な幾つかの独立した等時性データストリームを支援する。オーディオは、ネットワークを介してブロードキャストされるか、或いは、音声認識装置へ直接的に送信される。さらに、IEEE1394は、HAViプロトコルに従って、コマンドメッセージを転送することができる。
【0014】
従属した請求項6に係る発明によれば、音声認識装置は、供給された音声信号を再生できなくても構わない。これにより、より高いフレキシビリティを達成することができる。たとえば、音声認識装置は、システム内の他の装置を制御する自立型制御装置でも構わない。このような構成の場合、装置は、装置の操作又はシステムの制御に関するユーザへの聴覚的フィードバックを除いて、オーディオ出力を生成できない場合がある。この場合、外部音源のオーディオを受信するオーディオ入力は、打ち消しのためだけに使用される。たとえば、音声認識装置は、TV、DVDプレーヤ、及び、オーディオシステムのような自立型装置を、ホーム・シネマ・システムに統合するため有利に使用することができる。このような統合型システムにおいて、音声認識装置は、個別の装置の機能性をシステムの動作に統合するため、付加的な制御知識を有する場合がある。たとえば、「DVD再生」のようなボイスコマンドは、音声認識装置にDVDプレーヤを作動させるだけではなく、TV及び増幅器を作動させ、所望の信号接続を確立させる。
【0015】
この装置はTVに統合してもよい。殆どのシステムの場合に、TVは、オーディオシステムによって生成されたオーディオを表現するオーディオ出力信号を受信する一つの補助入力を有する。TVは、通常、オーディオシステムからの音源信号を再生するため使用されない。そこで、この信号を受信する主要な機能は、マイクロホン信号からその信号を打ち消し得ることである。このようなオーディオ信号を再生できない場合もある。外部音源からのオーディオを打ち消すことができるようにすることによって、たとえば、ユーザは、TV上でテレテキスト、又は、ウェブTVのような機能を視聴し、CD(オーディオシステムの一部である外部音源)を聴きながら、このような機能をボイスによって制御できるようになる。同様に、ユーザは、TV内の音声制御ユニットを介してCDを制御できる。
【0016】
本発明の目的を達成するため、消費者電子システムは、
少なくとも2台のオーディオ源装置と、
オーディオ打ち消しモジュールと、
音声信号の少なくとも一部を認識する音声認識器と、
を含み、
オーディオ打ち消しモジュールは、
マイクロホンからオーディオ信号を受信するオーディオ入力と、
各オーディオ源装置から独立したオーディオ信号を受信する少なくとも二つのオーディオ入力と、
を有し、
オーディオ打ち消しモジュールは、マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【0017】
本発明の目的を達成するため、オーディオ打ち消しモジュールは、
マイクロホンからオーディオ信号を受信するオーディオ入力と、
独立したオーディオ源装置から対応したオーディオ信号を受信する少なくとも二つのオーディオ入力と、
を有し、
マイクロホン信号から少なくとも二つの独立したオーディオ源信号を打ち消すことにより音声信号を生ずるよう動作する。
【0018】
本発明の上記の局面並びにその他の局面は、添付図面に示された実施例を参照することにより明瞭にされ、説明される。
【0019】
図1は、本発明によるオーディオ打ち消しモジュール100のブロック図である。モジュール100は、マイクロホンから信号110を受信するオーディオ入力110を含む。音声認識目的用に適したマイクロホンは周知である。通常、マイクロホンは、モノラル・オーディオ信号を与える。口述用には、好ましくは、ヘッドホン型マイクロホンが使用されるか、或いは、マイクロホンはユーザのかなり近く(たとえば、50cmの距離)に配置される。ボイス制御のため、マイクロホンは、より遠く(たとえば、数メートルの距離)に配置してもよい。モジュール100は、対応した独立オーディオ源からオーディオ信号を受信する幾つかのオーディオ入力を有する。同図には、二つのオーディオ入力120及び130が示されている。オーディオ入力は、一つの音源からの全ての関連したオーディオ信号を受信するため使用される。通常、オーディオ信号はステレオ信号であり、その場合、入力は、ステレオ信号を受信するため二つの別個の入力コネクタを有する。サラウンド・サウンド符号化信号は、5乃至6個の別個のコネクタ(たとえば、前方左側、前方右側、後方左側、後方右側、中央、サブ・ウーハー)を有する。本発明の目的のため、これらの信号は一つの信号であるとみなされる。オーディオ打ち消しモジュール100は、マイクロホン信号から少なくとも2個の独立したオーディオ源信号を打ち消すことにより、音声信号を生ずるよう動作する。オーディオ信号の打ち消し自体は周知であり、通常、オーディオ・エコー・キャンセレーションと称される。オーディオ信号の打ち消しは、たとえば、マイクロホン信号からのオーディオ信号の減算を行う。マイクロホン信号に現れるようなオーディオ信号の時間遅延及び振幅は、一つのオーディオ入力を介して受信されたオーディオ信号に関して評価され得る。このような評価は、たとえば、周知の統計的相関技術を用いて行われる。本発明によるオーディオ打ち消しモジュールは、各信号を順番に打ち消すことによって、数個のオーディオ信号の打ち消しを行う。そのため、モジュール100は、数段の打ち消しユニットを含み、第1のユニットはマイクロホン信号から第1のオーディオ信号を打ち消し、第2のユニットは第1のユニットの出力から第2のオーディオ信号を打ち消し、以下同様に続く。特に、全ての打ち消しユニットは同じモジュールに設けられているので、各打ち消しユニットに導入された遅延を容易に補償することができる。たとえば、K段目の打ち消しユニットへのマイクロホン入力は、打ち消しユニットの遅延の(N−1)倍だけ(バッファリングによって)遅延させられる。好ましくは、モジュール100は、一つの一体化された処理で数個の信号を打ち消す。多数の信号を打ち消す好ましい方法は、未公開の欧州特許出願EP 9920206.3(PHN 17514)に説明されている。この文献の詳細を参考のため引用する。
【0020】
図2に示された実施例では、一つのマイクロホンを使用するのではなく、別個のマイクロホンからの入力を獲得することが提案される。マイクロホンは、一般的なマイクロホン・アレイに配置され、各マイクロホンは異なる方向を受け持つ。好ましくは、オーディオ打ち消しモジュール100が消費者電子システム100に使用され、システム内の数種類の装置がマイクロホンを具備する。図2には、このようなシステムが示されている。このシステムにおいて、オーディオセット200は、内蔵マイクロホン202(又は,マイクロホン入力)と、マイクロホン信号出力204とを有する。同様に、TV210は、内蔵マイクロホン(又は、マイクロホン入力)と、マイクロホン信号出力214とを有する。オーディオ打ち消しモジュール100は、システムの別の装置220に設けられる。本例の場合、この装置220は、内蔵マイクロホン222(又は、マイクロホン入力)を有する。装置220は、出力204及び214からマイクロホン信号を受信する対応した二つのマイクロホン入力224及び226を有する。(本例の場合に、2個の外部マイクロホン信号と、1個の内部マイクロホン信号である)全てのマイクロホン信号は、ビーム形成器240へ供給される。ビーム形成器は、マイクロホン信号を合成し、より高性能かつ高分解能のマイクロホン信号を生ずる。ビーム形成器は、オーディオ源を選択、或いは、突き止める。典型的に、スピーカ信号は識別され(通常は、話者である)、この音源信号は、多数のマイクロホン入力信号の中で追跡される。ビーム形成器の出力信号は、オーディオ打ち消しユニット100のマイクロホン入力110へ供給される。同図には、外部装置からオーディオ信号を受信するため利用される装置220の対応した二つのオーディオ入力228及び230が示されている。図示されたシステムにおいて、外部オーディオ入力228及び230は、オーディオセット200及びTV210の対応したオーディオライン出力206及び216に接続される。装置220内で、外部オーディオ入力228及び230は、オーディオ打ち消しモジュール100の対応したオーディオ入力120及び130へ接続される。
【0021】
図3には、オーディオ打ち消しモジュール100によって生成された音声信号140が音声認識器300へ供給される更なる実施例が示されている。音声認識器は、好ましくは、モジュール100と同じ装置に設けられる。必要に応じて、音声認識器300は、別個の装置に設けても構わない。たとえば、別個のオーディオ打ち消しモジュールが数室に配置され、いずれかのモジュールから受信された音声を認識することができる唯一の集中認識器が使用される。認識結果は、口述(音声からテキストへの変換)、制御、又は、情報検索のような種々のアプリケーションに使用される。同図には、認識されたコマンドに応じて制御動作を実行するコントローラ310が示されている。制御動作は、コントローラ310が設けられた装置の動作に制限される。特に、図3に示されるように、制御ユニットが大規模システムの一部を構成する装置に収容されている場合、好ましくは、制御ユニットは、他の装置の動作を制御する。このために、コントローラは、同図に破線矢印で示されるようなコマンドメッセージを、制御通信ネットワークを介して、システム内の他の装置へ送る。このようなネットワークは、多様な形態で実現される。たとえば、専用制御リンクが、コントローラ310を収容した装置220を他の装置200及び210に接続するため使用される。このようなリンクは、1本以上の制御信号配線を用いて実現可能である。簡単な制御リンクを実現するため、典型的に赤外線信号によって伝送される遠隔制御メッセージの形式で制御メッセージを発することが好ましい。原理的に、単一方向性遠隔制御システムは、制御装置220から他の装置へメッセージを転送するため使用できる。より複雑な制御の場合、双方向性遠隔制御システムを使用してもよい。遠隔制御システムは、本質的に周知であるため、これ以上詳細な説明を行わない。好ましくは、コントローラ310は、コントローラ310が特定の遠隔制御システム及びシステム内の装置のメッセージを使用してシステム内の装置を制御できるように、ユーザによるプログラミングが可能である。このため、コントローラは、汎用的な予めプログラミングされた遠隔制御器又は学習型制御器の論理部に類似した論理部を内蔵する。これは、たとえば、ユーザに所定のボイスコマンド(たとえば、「再生」又は「開始」)のリストの中から、特定の制御メッセージ(たとえば、テープを再生するためのVCR命令)を選択させることによって実現される。このような所定のボイスコマンドは、不特定話者認識を使用して認識することが可能である。或いは、ユーザは、自分専用のボイスコマンドを指定してもよく、その場合、好ましくは、特定話者認識が使用される。本質的に、音声認識及び特定用ボイスコマンドは公知である。
【0022】
図4に示された実施例において、装置200、210及び220は、通信ネットワーク400を介して接続される。このネットワークは、
オーディオ信号(典型的に、デジタル形式であり、等時性データストリームとして転送される)
マイクロホン信号(典型的に、転送用のオーディオ信号として処理される)
制御命令/メッセージ
のような多種類のデータを転送するため使用される。
【0023】
好ましくは、同じネットワークは、この中の幾つかのトランスポート形式、或いは、場合によっては全てのトランスポート形式を実現する。図4に示された例の場合、オーディオ信号及び制御信号は、ネットワークを介して転送される。このため、音声認識装置220は、本質的に周知である通信インタフェース410を具備し、ネットワークを介して伝送されたデータからオーディオ信号を取得し、オーディオ信号をオーディオ打ち消しモジュールへ供給する。コントローラ310のよって生成されたコマンドメッセージは、同じ通信インタフェース410を介して送信される。
【0024】
オーディオ/ビデオ機器又は家庭用電気器具のような消費者電子装置のボイス制御は、一般的に困難である。その理由は、ユーザから見ると、屡々、どのボイスコマンドを使用できるかが明瞭ではないからである。特に、大規模若しくは先進的システムの場合、制御可能な機能の数は膨大であり、かつ、変化する。PCのボイス制御のユーザは、ボイスコマンドの全候補を調べるヘルプ機能を利用することができるが、消費者電子装置のユーザ・インタフェースの実現可能な機能は非常に制限されている傾向がある。これらの問題を解決するため、コントローラは、その時点で発話可能なコマンドに関する情報をユーザに供給するよう動作することが好ましい。このようないわゆるフィードフォワード形式の場合、コマンドのリストは、関連しているシステム若しくは装置の状態、所定の制御階層構造/系列構造、又は、前後関係によって決められるような実行可能なコマンドに制限される。一例として、集中コントローラがシステム内の一部若しくは全部の装置を制御するため使用される場合、初期フィードフォワード・リストは、ユーザが制御したい装置をコントローラに通知する(「TV」、「VCR」、「CD」のような)装置選択コマンドだけを含み得る。次に、フィードフォワード・リストは、制御階層構造/系列構造、又は、選択された装置の状態に関して、その選択された装置によって実行可能なコマンドだけを含む。
【0025】
制御階層構造/系列構造に関して、近年、一部の装置は、ある時点で制御し得る機能の全てに必ずしも直接的にアクセスしない。典型的に、オーディオ、ビデオ、及び、TVチューニングの最新式の設定は、階層メニューだけによって行える。トップメニューで、ユーザは、制御すべき機能のグループを選択する。第2レベルで、通常、ユーザは、選択されたグループ中の特定の機能を制御し得る。場合によっては、より多数のメニューレベルが使用される。ボイス制御型装置の場合、合理的に実現可能なできるだけ多数の機能に直接的なアクセスを行うことが好ましい。本発明によれば、非常に機能的な装置の場合に、階層構造方式がボイス制御のために使用される。これは、実現可能なボイスコマンドの数を(現在選択されているボイスコマンドのグループ中のボイスコマンドだけに)制限し、認識の信頼性を高めると共に、その後に発話可能なボイスコマンドの効果的なフィードフォワードを行うことができる。
【0026】
上述のボイスコマンドの階層構造/系列構造に加えて、或いは、代替として、発話可能なコマンドのリストは、関連した装置の状態又はシステムの状態を考慮して実行可能なボイスコマンドだけを許可することによって制限され得る。たとえば、CDプレーヤにディスクが搭載されていない場合、フィードフォワード型リストは、「取り出し」コマンド及び「スタンバイ」コマンドだけを含み、一方、ディスクが搭載されている場合には、より長いコマンドのリストを実現することができる。本発明の更なる実施例において、フィードフォワード・リストは、装置の一定状態の動作だけによって決定されるのではなく、可変的な内容情報によっても決定される。たとえば、TVが情報、たとえば、インターネット又は電子番組案内(EPG)から獲得された情報を表示するとき、その情報自体がボイスコマンドの候補に影響を与える。インターネット・ページの場合、リンクは音声で指定してもよく、EPGページの場合、番組は視聴若しくは録画のため選択可能である。また、ブラウザ用コマンドは発話形式でもよい。内容がフィードフォワード・リストを決定する別の例は、ディスク内容の機能性が変化する状況である。たとえば、一つだけのインデックスを含むディスクが搭載された場合、フィードフォワード・リストは、インデックス選択コマンドを含まない。ディスクが8トラックを収容する場合、最初の8トラックだけが音声によって選択可能である。同様に、コピー禁止テープがVCRに装填されたとき、「録画」コマンドは使用不可能であり、フィードフォワード・リストに掲載する必要が無い。
【0027】
コントローラは、装置の制御階層構造に関する情報を用いて予めプログラミングされる。特に、コントローラが制御対象である装置の一部である場合、コントローラは、階層構造の中のどの部分が有効状態であるかを容易に管理することができ、それに応じて、フィードフォワード・リストをロードするか、或いは、作成する。コントローラが制御対象の装置の一部ではない場合、好ましくは、コントローラは、制御対象である製品から関連した情報を獲得する。このような情報は通信ネットワークを介して獲得される。情報は多様な方式で獲得される。たとえば、コントローラは、関連した装置から全ての制御階層構造を獲得してもよい。コントローラ自体は、たとえば、ユーザの(ボイスコマンド又は遠隔制御による)入力に基づいて、階層構造の中でどの部分が有効状態であるかを管理することができる。コントローラは、ユーザから入力を受ける時点で有効状態である部分を検査することも可能である。或いは、制御対象の装置は、現在状態をコントローラへ通知し続ける場合がある。情報監視又は自動状態更新を実行するための通信プロトコルは周知である。コントローラは、制御階層構造/系列構造の全体を獲得するのではなく、制御階層構造の中で次に有効状態になる部分によって形成されたコマンドセットの一部だけ、或いは、装置の次の動作状態によって許可されるコマンドセットの一部だけを取得してもよい。
【0028】
実際上、フィードフォワード・リストは、任意の適当な形式で提示され、たとえば、話すのに適したコマンドが視覚的又は聴覚的に提示される。
【図面の簡単な説明】
【図1】 本発明によるオーディオ打ち消しモジュール100のブロック図である。
【図2】 複数のマイクロホンの用法を説明する図である。
【図3】 音声認識器を統合した一実施例の構成図である。
【図4】 本発明によるシステムの構成図である。

Claims (9)

  1. マイクロホンと、
    独立した少なくとも二つのオーディオ源の夫々の内蔵マイクロホンから出力されたマイクロホン信号を受信する少なくとも二つの対応したマイクロホン入力部と、
    前記マイクロホンからのオーディオ信号と、前記少なくとも二つのマイクロホン入力部で受信された前記マイクロホン信号とを合成して、合成マイクロホン信号を生成するビーム形成器と、
    前記ビーム形成器から前記合成マイクロホン信号を受信するオーディオ入力と、前記少なくとも二つのオーディオ源から夫々のオーディオ信号である少なくとも二つの独立したオーディオ源信号を受信する少なくとも二つのオーディオ入力とを有し、前記合成マイクロホン信号から前記少なくとも二つのオーディオ源信号を減じることにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
    前記オーディオ打ち消しモジュールで生成された前記音声信号の少なくとも一部を認識する音声認識器と、
    を含む音声認識装置。
  2. 前記音声認識器によって認識されるユーザの発話命令に応答して、制御通信ネットワークを介して、少なくとも一つのコマンドメッセージを更なる装置へ送るコントローラを更に有する請求項1記載の音声認識装置。
  3. 前記コントローラは、前記更なる装置と関連した遠隔制御メッセージの形で前記少なくとも一つのコマンドメッセージを送るよう動作する、請求項2記載の音声認識装置。
  4. 前記少なくとも二つのオーディオ源のうち少なくとも一つのオーディオ源は当該音声認識装置の外部にある外部オーディオ源であり、
    前記外部オーディオ源からの少なくとも一つのオーディオ信号は、オーディオ通信ネットワークを介して受信される、請求項1記載の音声認識装置。
  5. 前記音声認識器によって認識されるユーザの発話命令に応答して、制御通信ネットワークを介して、少なくとも一つのコマンドメッセージを更なる装置へ送るコントローラを更に有し、
    前記オーディオ通信ネットワークは、前記制御通信ネットワークと同じ通信規格に従う通信ネットワークである、請求項4記載の音声認識装置。
  6. 前記更なる装置には、前記少なくとも二つのオーディオ源が含まれ、前記更なる装置は、当該音声認識装置の外部に別個に設けられた装置である、請求項2記載の音声認識装置。
  7. 内蔵マイクロホンを夫々有する少なくとも二つのオーディオ源装置と、
    マイクロホンからのオーディオ信号と、前記少なくとも二つのオーディオ源装置の夫々の内蔵マイクロホンから受信されたマイクロホン信号とを合成して、合成マイクロホン信号を生成するビーム形成器と、
    前記ビーム形成器から前記合成マイクロホン信号を受信するオーディオ入力と、前記少なくとも二つのオーディオ源装置から夫々のオーディオ信号である少なくとも二つの独立したオーディオ源信号を受信する少なくとも二つのオーディオ入力とを有し、前記合成マイクロホン信号から前記少なくとも二つのオーディオ源信号を減じることにより音声信号を生ずるよう動作するオーディオ打ち消しモジュールと、
    前記オーディオ打ち消しモジュールで生成された前記音声信号の少なくとも一部を認識する音声認識器と
    を含む、消費者電子システム。
  8. 前記音声認識器によって認識されるユーザの発話命令に応答して、通信ネットワークを介して、少なくとも一つのコマンドメッセージをシステム内の装置へ送るコントローラを更に有する請求項7記載の消費者電子システム。
  9. 少なくとも一つのオーディオ信号は、関連したオーディオ源装置から前記通信ネットワークを介して受信される、請求項8記載の消費者電子システム。
JP2001525688A 1999-09-23 2000-09-14 音声認識装置及び消費者電子システム Expired - Lifetime JP4897169B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99203122 1999-09-23
EP99203122.9 1999-09-23
PCT/EP2000/009102 WO2001022404A1 (en) 1999-09-23 2000-09-14 Speech recognition apparatus and consumer electronics system

Publications (2)

Publication Number Publication Date
JP2003510645A JP2003510645A (ja) 2003-03-18
JP4897169B2 true JP4897169B2 (ja) 2012-03-14

Family

ID=8240671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001525688A Expired - Lifetime JP4897169B2 (ja) 1999-09-23 2000-09-14 音声認識装置及び消費者電子システム

Country Status (7)

Country Link
US (1) US7050971B1 (ja)
EP (1) EP1133768B1 (ja)
JP (1) JP4897169B2 (ja)
KR (1) KR20010080522A (ja)
CN (1) CN1134767C (ja)
DE (1) DE60042313D1 (ja)
WO (1) WO2001022404A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4432246B2 (ja) * 2000-09-29 2010-03-17 ソニー株式会社 観客状況判定装置、再生出力制御システム、観客状況判定方法、再生出力制御方法、記録媒体
KR20020058116A (ko) * 2000-12-29 2002-07-12 조미화 음성 제어 텔레비젼 수상기 및 음성 제어 방법
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
US20040054538A1 (en) * 2002-01-03 2004-03-18 Peter Kotsinadelis My voice voice agent for use with voice portals and related products
US6978010B1 (en) * 2002-03-21 2005-12-20 Bellsouth Intellectual Property Corp. Ambient noise cancellation for voice communication device
US9137035B2 (en) * 2002-05-09 2015-09-15 Netstreams Llc Legacy converter and controller for an audio video distribution system
US7885818B2 (en) * 2002-10-23 2011-02-08 Koninklijke Philips Electronics N.V. Controlling an apparatus based on speech
DE10251209A1 (de) * 2002-10-31 2004-05-19 Sennheiser Electronic Gmbh & Co. Kg Mikrofonsystem
US20070266092A1 (en) * 2006-05-10 2007-11-15 Schweitzer Edmund O Iii Conferencing system with automatic identification of speaker
US20080118081A1 (en) * 2006-11-17 2008-05-22 William Michael Chang Method and Apparatus for Canceling a User's Voice
US8320572B2 (en) * 2008-07-31 2012-11-27 Fortemedia, Inc. Electronic apparatus comprising microphone system
CN102377959A (zh) * 2010-08-21 2012-03-14 青岛海尔软件有限公司 智能家居声控机顶盒系统
US8880444B2 (en) 2012-08-22 2014-11-04 Kodak Alaris Inc. Audio based control of equipment and systems
US9111547B2 (en) 2012-08-22 2015-08-18 Kodak Alaris Inc. Audio signal semantic concept classification method
US9922646B1 (en) 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
CN103050116A (zh) * 2012-12-25 2013-04-17 安徽科大讯飞信息科技股份有限公司 语音命令识别方法及系统
CN105280184A (zh) * 2014-05-29 2016-01-27 广东美的制冷设备有限公司 语音控制方法和系统
KR101681988B1 (ko) * 2015-07-28 2016-12-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
KR102338376B1 (ko) 2017-09-13 2021-12-13 삼성전자주식회사 디바이스 그룹을 지정하기 위한 전자 장치 및 이의 제어 방법
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62135020A (ja) * 1985-12-06 1987-06-18 Nec Corp 雑音消去装置
JPH01185892A (ja) * 1988-01-21 1989-07-25 Matsushita Electric Ind Co Ltd ラジオ受信機付カセットテープレコーダ
JPH02244099A (ja) * 1989-03-16 1990-09-28 Aisin Seiki Co Ltd 音声信号処理装置
JPH04247498A (ja) * 1991-02-01 1992-09-03 Ricoh Co Ltd 音声認識用雑音除去装置
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
JPH06149290A (ja) * 1992-10-30 1994-05-27 Sanyo Electric Co Ltd 音声認識装置
JPH06343196A (ja) * 1993-06-01 1994-12-13 Oki Electric Ind Co Ltd 多入力エコーキャンセラ
JPH07298162A (ja) * 1994-04-27 1995-11-10 Toshiba Corp 二画面テレビ受像機における音声回路
JPH1175284A (ja) * 1997-08-27 1999-03-16 Fujitsu Ten Ltd 車載用音響再生装置
JPH1185185A (ja) * 1997-09-05 1999-03-30 Oki Electric Ind Co Ltd 音声認識システムおよび音声認識制御プログラムを記録した記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
US5033082A (en) * 1989-07-31 1991-07-16 Nelson Industries, Inc. Communication system with active noise cancellation
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US5309378A (en) * 1991-11-18 1994-05-03 Hughes Aircraft Company Multi-channel adaptive canceler
US5255326A (en) 1992-05-18 1993-10-19 Alden Stevenson Interactive audio control system
US5485515A (en) * 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5737433A (en) * 1996-01-16 1998-04-07 Gardner; William A. Sound environment control apparatus
US6072881A (en) * 1996-07-08 2000-06-06 Chiefs Voice Incorporated Microphone noise rejection system
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
US6058075A (en) * 1998-03-09 2000-05-02 Gte Internetworking Incorporated System for canceling interferers from broadband active sonar signals using adaptive beamforming methods

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62135020A (ja) * 1985-12-06 1987-06-18 Nec Corp 雑音消去装置
JPH01185892A (ja) * 1988-01-21 1989-07-25 Matsushita Electric Ind Co Ltd ラジオ受信機付カセットテープレコーダ
JPH02244099A (ja) * 1989-03-16 1990-09-28 Aisin Seiki Co Ltd 音声信号処理装置
JPH04247498A (ja) * 1991-02-01 1992-09-03 Ricoh Co Ltd 音声認識用雑音除去装置
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
JPH06149290A (ja) * 1992-10-30 1994-05-27 Sanyo Electric Co Ltd 音声認識装置
JPH06343196A (ja) * 1993-06-01 1994-12-13 Oki Electric Ind Co Ltd 多入力エコーキャンセラ
JPH07298162A (ja) * 1994-04-27 1995-11-10 Toshiba Corp 二画面テレビ受像機における音声回路
JPH1175284A (ja) * 1997-08-27 1999-03-16 Fujitsu Ten Ltd 車載用音響再生装置
JPH1185185A (ja) * 1997-09-05 1999-03-30 Oki Electric Ind Co Ltd 音声認識システムおよび音声認識制御プログラムを記録した記録媒体

Also Published As

Publication number Publication date
US7050971B1 (en) 2006-05-23
CN1134767C (zh) 2004-01-14
CN1322348A (zh) 2001-11-14
EP1133768B1 (en) 2009-06-03
JP2003510645A (ja) 2003-03-18
EP1133768A1 (en) 2001-09-19
DE60042313D1 (de) 2009-07-16
KR20010080522A (ko) 2001-08-22
WO2001022404A1 (en) 2001-03-29

Similar Documents

Publication Publication Date Title
JP4897169B2 (ja) 音声認識装置及び消費者電子システム
JP4792156B2 (ja) マイクロホンアレイを有するボイス制御システム
US10359991B2 (en) Apparatus, systems and methods for audio content diagnostics
EP1278183B1 (en) Voice operated electronic appliance
JP5442703B2 (ja) 消費者電化製品に関連する装置をボイス制御する方法及び装置
EP2587481B1 (en) Controlling an apparatus based on speech
US6069567A (en) Audio-recording remote control and method therefor
US5255326A (en) Interactive audio control system
JPH10282993A (ja) 機器の音声作動式遠隔制御システム
JP2019159306A (ja) ファーフィールド音声制御デバイス及びファーフィールド音声制御システム
CN110349582B (zh) 显示装置与远场语音处理电路
US20070216538A1 (en) Method for Controlling a Media Content Processing Device, and a Media Content Processing Device
CN111447519A (zh) 智能音箱、基于智能音箱的交互方法及程序产品
US20020021799A1 (en) Multi-device audio-video combines echo canceling
US20100303252A1 (en) Data relay apparatus, acoustic reproduction system and control method of the same
TWI736122B (zh) 用於聲學回聲消除的時間延遲校準方法及電視裝置
US20240265921A1 (en) Conflict management for wake-word detection processes
US20240249740A1 (en) Noise reduction using synthetic audio
JP7216621B2 (ja) 電子機器、プログラムおよび音声認識方法
KR20010030122A (ko) 언어인식 방법 및 장치
JP2021196550A (ja) 音声認識装置、音声認識方法、プログラム、および記録媒体
CN101640544A (zh) 信号处理装置
KR19990012715U (ko) 자동 음량 조절 장치
JPH10105185A (ja) 楽音再生システム
JPH08202378A (ja) 音声信号処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110627

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111222

R150 Certificate of patent or registration of utility model

Ref document number: 4897169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term