JP4703142B2 - ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem) - Google Patents

ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem) Download PDF

Info

Publication number
JP4703142B2
JP4703142B2 JP2004220690A JP2004220690A JP4703142B2 JP 4703142 B2 JP4703142 B2 JP 4703142B2 JP 2004220690 A JP2004220690 A JP 2004220690A JP 2004220690 A JP2004220690 A JP 2004220690A JP 4703142 B2 JP4703142 B2 JP 4703142B2
Authority
JP
Japan
Prior art keywords
speech
signal
user
microphone
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004220690A
Other languages
English (en)
Other versions
JP2005049876A (ja
JP2005049876A5 (ja
Inventor
ディー.ファング シュエドン
リュー ジチェン
チャン チェンユー
ジェイ.シンクレアー マイケル
アセロ アレサンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/629,278 external-priority patent/US7383181B2/en
Priority claimed from US10/636,176 external-priority patent/US20050033571A1/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005049876A publication Critical patent/JP2005049876A/ja
Publication of JP2005049876A5 publication Critical patent/JP2005049876A5/ja
Application granted granted Critical
Publication of JP4703142B2 publication Critical patent/JP4703142B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/14Throat mountings for microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Description

本発明は音声入力システムに関する。より詳細には、本発明は多感覚応用変換器入力システムにおける発話音声処理(speech processing)に関する。
異なる多くの発話音声処理認識の応用分野では、認識すべき発話音声を表す明瞭で矛盾のない音声入力を自動発話音声認識システムに提供することは非常に重要であり、不可欠となり得る。発話音声認識システムに入力される音声を破損させる傾向にある雑音の2つのカテゴリは、環境雑音、および背景の発話音声から生成される雑音である。音声入力から環境雑音を除去するために、雑音除去技術の開発に関して広範にわたる研究が行われている。音声処理ソフトウェアですでに市販されている技術もあれば、ユニバーサルシリアルバス(USB)マイクロフォンなどデジタルマイクロフォンに統合されている技術もある。
背景の発話音声に関連するノイズの扱いは、より多くの問題をはらんでいる。これは、雑音のある様々な環境において起こり得る。例えば対象の話者が群衆や他の人々の中で話をしている場合などに、従来のマイクロフォンは、しばしば対象の話者以外の話者の発話音声を拾う。基本的に、他の人物が話をしている任意の環境では、対象の話者から生成される音声信号が損なわれるおそれがある。
背景の発話音声を扱う従来の解決法の1つは、ヘッドセットのコードまたはハンドセットにオン/オフスイッチを備えることである。オン/オフスイッチは「プッシュトーク(push−to−talk)」ボタンと呼ばれており、ユーザは、話をする前にボタンを押す必要がある。ユーザがボタンを押すと、ボタン信号が生成される。ボタン信号は、対象の話者が話し中であること、または話をしようとしていることを発話音声認識システムに知らせる。しかし、一部の有用性の研究によって、この種のシステムはユーザにとっては満足のいくもの、または望み通りのものではないことがわかっている。
さらに、マイクロフォンが拾った背景の話者を対象の話者(または最前部の話者)と分離しようとする試みに関する研究が行われている。これは、クリーンなオフィス環境ではかなりよく働くが、雑音がかなりある環境では不十分であることがわかっている。
さらに別の従来の技術では、標準マイクロフォンからの信号が咽喉マイクロフォンからの信号と結合されていた。咽喉マイクロフォンは、話し中の咽喉にわたる電気インピーダンスの変化を測定することによって咽頭の挙動を間接的に登録する。咽喉マイクロフォンによって生成された信号が従来のマイクロフォンと結合され、結合された信号のスペクトルの内容をモデル化するモデルが生成されていた。
Frankco et,al.,COMBINING HETEROGENEOUS SENSORS WITH STANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION,Presentation at the DARPA ROAR Workshop,Orlando,Fl.(2001)
あるアルゴリズムを使用して、雑音のある、結合された標準マイクロフォン信号および咽喉マイクロフォン信号の特徴をクリーンな標準マイクロフォンの特徴にマッピングしていた。これを、確率的最適フィルタリング(probabilistic optimum filtering)を使用して評価していた。しかし、咽喉マイクロフォンは背景の騒音にはまったく影響されないが、咽喉マイクロフォン信号のスペクトルの内容はかなり限られる。したがって、クリーンな評価済みの特徴ベクトルにマッピングするのにこれを使用しても、高い精度は得られなかった。この技術は、Frankco et,al.,COMBINING HETEROGENEOUS SENSORS WITH STANDARD MICROPHONES FOR NOISY ROBUST RECOGNITION,Presentation at the DARPA ROAR Workshop,Orlando,Fl.(2001)により詳しく記載されている(例えば、非特許文献1参照)。さらに、咽喉マイクロフォンを装着することによって、ユーザはさらに不便を感じている。
本発明は、従来の音声マイクロフォンと、追加の入力に基づいて発話音声センサ信号を提供する追加の発話音声センサを結合する。顔の動き、骨の振動、咽喉の振動、咽喉のインピーダンスの変化など、話し中に話者が行う行為に基づいて発話音声センサ信号が生成される。発話音声検出器構成要素は、発話音声センサから入力を受信し、ユーザが話し中かどうかを示す発話音声検出信号を出力する。発話音声検出器は、マイクロフォン信号および発話音声センサ信号に基づいて発話音声検出信号を生成する。
一実装形態では、発話音声検出信号は発話音声認識エンジンに提供される。発話音声認識エンジンは、マイクロフォン信号および追加の発話音声センサからの発話音声検出信号に基づいて、音声マイクロフォンからのマイクロフォン信号によって表される発話音声を示す認識出力を提供する。
本発明は、発話音声を検出する方法として組み込むこともできる。この方法は、音声マイクロフォンにより音声入力を示す第1の信号を生成するステップと、顔の動きセンサによって感知される、ユーザの顔の動きを示す第2の信号を生成するステップと、第1および第2の信号に基づいてユーザが話し中かどうかを検出するステップとを含む。
一実装形態で、第2の信号は、ユーザの首の振動またはインピーダンスの変化、またはユーザの頭骨または顎の振動を含む。別の実施形態では、第2の信号は、ユーザの口の動きを示す画像を含む。別の実施形態では、サーミスタなどの温度センサがマイクロフォンに隣接するブームなどの息の流れ道に配置され、発話音声を温度の変化として感知する。
本発明は発話音声の検出に関する。より詳細には、本発明は多感覚応用変換器入力を捕捉し、捕捉された多感覚応用入力に基づいてユーザが話し中かどうかを示す出力信号を生成することに関する。しかし、本発明をより詳しく説明する前に、本発明を使用できる環境の実施形態の例について説明する。
図1は、本発明を実施するのに適したコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境100を、動作環境100の例に示した構成要素のいずれか1つ、またはその組合せに関連する依存性または必要条件を有しているものと解釈すべきではない。
本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および/または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。また、本発明は、タスクが通信ネットワークによってリンクされているリモート処理装置によって実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に置くことができる。
図1を参照すると、本発明を実施するシステムの例は、汎用コンピューティング装置をコンピュータ110の形で含んでいる。コンピュータ110の構成要素は、それだけには限定されないが、処理ユニット120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121を含む。システムバス121は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ電子装置規格化協会(VESA)ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続(PCI)バスなどがある。
コンピュータ110は、一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性のリムーバブルおよび非リムーバブル媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ100からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、信号内の情報を符号化するように設定または変更された1つまたは複数のその特徴を有する信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム133(BIOS)は、例えば起動中など、コンピュータ110内の要素間での情報の転送を助ける基本ルーチンを含み、一般にROM131に格納されている。RAM132は一般に、処理ユニット120から直接アクセス可能な、かつ/または処理ユニット120が現在処理しているデータおよび/またはプログラムモジュールを含む。図1は、それだけには限定されないが一例として、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図1は、非リムーバブル不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152から読み取り、あるいはそこに書き込む磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、リムーバブル不揮発性光ディスク156から読み取り、あるいはそこに書き込む光ディスクドライブ155を示している。動作環境の例で使用できる他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどがある。ハードディスクドライブ141は一般に、インターフェイス140などの非リムーバブルメモリインターフェイスを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は一般に、インターフェイス150などのリムーバブルメモリインターフェイスによってシステムバス121に接続される。
上述し、図1に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ110の他のデータの記憶を提供する。図1では例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティング装置161などの入力装置を介してコマンドおよび情報をコンピュータ110に入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インターフェイス160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインターフェイスおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置もまた、ビデオインターフェイス190などのインターフェイスを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェイス190を介して接続できるスピーカ197、プリンタ196などの他の周辺出力装置を含むこともできる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ110に関連して上述した多くまたはすべての要素を含む。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
LANネットワーキング環境で使用する場合、コンピュータ110は、ネットワークインターフェイスまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用する場合、コンピュータ110は一般に、モデム172、またはインターネットなどWAN173を介して通信を確立する他の手段を含む。モデム172は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス160または他の適切な機構を介してシステムバス121に接続することができる。ネットワーク式環境では、コンピュータ110に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶装置に格納することができる。図1は、それだけには限定されないが一例として、リモートアプリケーションプログラム185をメモリコンピュータ180上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
本発明は、例えば図1に関連して説明したコンピュータシステム上で実行できることに留意されたい。しかし本発明は、サーバ、メッセージ通信処理専用コンピュータ、または本発明の異なる部分が分散コンピューティングシステムの異なる部分で実行される分散システム上で実行することができる。
図2は、本発明を使用できる発話音声認識システムの例を示すブロック図である。図2で、話者400は、マイクロフォン404に向かって話をする。マイクロフォン404によって検出された音声信号は、電気信号に変換されてアナログデジタル(A/D)変換器406に提供される。
A/D変換器406は、マイクロフォン404からのアナログ信号を一連のデジタル値に変換する。いくつかの実施形態では、A/D変換器406は、16KHz、16ビット/サンプルでアナログ信号をサンプリングし、それによって32KB/秒の発話音声データが作成される。これらのデジタル値は、フレームコンストラクタ(frame constructor)407に提供される。一実施形態では、フレームコンストラクタは、値を10ミリ秒の差をあけて始まる25ミリ秒のフレームの組に分ける。
フレームコンストラクタ407によって作成されたデータのフレームは、特徴抽出器408に提供され、各フレームから特徴が抽出される。特徴抽出モジュールの例には、線形予測符号化(LPC)、LPC導出ケプストラム(LPC derived cepstrum)、知覚線形予測(Perceptive Linear Prediction:PLP)、聴覚モデルの特徴抽出、およびメル周波数ケプストラム係数(MFCC)の特徴抽出を行うモジュールがある。本発明は、これらの特徴抽出モデルには限定されず、本発明の文脈内で他のモジュールを使用することができることに留意されたい。
特徴抽出モジュール408は、発話音声信号の1つのフレームにそれぞれ関連付けられる特徴ベクトルの流れを生成する。この特徴ベクトルの流れは、デコーダ412に提供され、デコーダは、特徴ベクトルの流れ、辞書414、(例えばNグラム、文脈自由文法、またはその混合などに基づく)言語モデル416、および音響モデル418に基づいて最も可能性の高い一連の単語を識別する。復号化に使用される特定の方法は、本発明には重要ではないが、本発明の態様は、音響モデル418への変更およびその使用を含む。
最も可能性の高い一連の仮説単語を、オプションの信頼度モジュール(confidence measure module)420に提供することができる。信頼度モジュール420は、どの単語が発話音声認識器によって誤って識別されている可能性が最も高いかを識別する。これは、一部には二次音響モデル(図示せず)を基にすることができる。次いで信頼度モジュール420は、一連の仮説単語を、どの単語が誤って識別されている可能性があるかを示す識別子とともに出力モジュール422に提供する。信頼度モジュール420は本発明の実施には必要ないことを当分野の技術者であれば理解できよう。
訓練中、訓練用テキスト426に対応する発話音声信号が、訓練用テキスト426の語彙の写し(lexical transcription)とともにデコーダ412に入力される。トレーナー424は、訓練用入力に基づいて音響モデル418を訓練する。
図3は、本発明の一実施形態による発話音声検出システム300を示している。発話音声検出システム300は、発話音声センサまたは変換器301、従来の音声マイクロフォン303、多感覚応用信号捕捉構成要素302、および多感覚応用信号プロセッサ304を含む。
捕捉構成要素302は、従来のマイクロフォン303から音声信号の形の信号を捕捉する。また、構成要素302は、発話音声変換器301から、ユーザが話し中かどうかを示す入力信号を捕捉する。この変換器から生成された信号は、他の様々な変換器から生成することができる。例えば一実施形態では、変換器は、一般にユーザの顔、特に口の領域に向けられ、発話に対応するユーザの顔の動きの変化を示す信号を生成する赤外線センサである。別の実施形態では、センサは、ユーザの顔の異なる部分に向けられる複数の赤外線エミッタおよびセンサを含む。さらに別の実施形態では、発話音声センサ301は、ユーザの咽喉または咽喉の振動にわたるインピーダンスを測定する咽喉マイクロフォンを含むことができる。さらに別の実施形態では、センサは、ユーザの顔または頭の骨(顎の骨など)のすぐ横に配置され、ユーザが生成する発話音声に対応する振動を感知する骨振動感知マイクロフォン(bone vibration sensitive microphone)である。この種のセンサは、咽喉と接触して、またはユーザの耳に隣接して、または耳の中に配置することもできる。別の実施形態では、サーミスタなどの温度センサを、普通のマイクロフォンを保持しているのと同じ支持上などの息の流れ道に配置する。ユーザが話をするとき、吐き出された息によってセンサの温度が変化し、したがって発話が検出される。わずかな定常電流をサーミスタに通し、わずかに周囲温度を上回るように熱することによって、これを向上させることができる。息の流れは、次いでサーミスタを冷却する傾向があり、これは、サーミスタにわたる電圧の変化によって感知することができる。どのような場合でも、変換器301は、例えば背景の発話音声にはほとんど反応せず、しかしユーザが話し中かどうかは顕著に示す。
一実施形態では、構成要素302は、変換器301およびマイクロフォン303から信号を捕捉し、それらを同時系列の信号サンプルとしてデジタル形式に変換する。次いで構成要素302は、1つまたは複数の出力を多感覚応用信号プロセッサ304に提供する。プロセッサ304は、構成要素302によって捕捉された入力信号を処理し、その出力時に、ユーザが話し中かどうかを示す発話音声検出信号306を提供する。また、プロセッサ304は、任意選択で、音声出力信号や、異なる様々な変換器からの信号に基づいてユーザが話し中かどうかの可能性または確率を示す発話音声検出信号などの追加の信号308を出力することもできる。他の出力308は、例えば実行されるタスクに基づいて変わる。しかし一実施形態では、出力308は、発話音声認識システムで使用する強化された音声信号を含む。
図4は、多感覚応用信号プロセッサ304の一実施形態をより詳しく示している。図4に示した実施形態で、プロセッサ304を、ユーザの顔の近くに配置されている赤外線センサから生成された赤外線信号である変換器301からの変換器入力との関連で説明する。当然、咽喉センサ、振動センサなどからの変換器信号との関連で図4を説明することも同じように容易であることは理解されよう。
どのような場合でも、図4は、プロセッサ304が赤外線(IR)ベースの発話音声検出器310、音声ベースの発話音声検出器312、および結合済み発話音声検出構成要素314を含むことを示している。IRベースの発話音声検出器310は、IRエミッタによって放出され、話者から反射されたIR信号を受信し、IR信号に基づいてユーザが話し中かどうかを検出する。音声ベースの発話音声検出器312は、音声信号を受信し、音声信号に基づいてユーザが話し中かどうかを検出する。検出器310および312からの出力は、結合済み発話音声検出構成要素314に提供される。構成要素314は、信号を受信し、2つの入力信号に基づいてユーザが話し中かどうかに関して全体的に評価する。構成要素314からの出力は、発話音声検出信号306を含む。一実施形態では、発話音声検出信号306は、背景発話音声除去構成要素316に提供される。発話音声検出信号306は、音声信号内でユーザが実際にいつ話し中であるかを示すために使用する。
より具体的には、一実施形態では、2つの独立した検出器310および312はそれぞれ、どの程度の確率でユーザが話し中であるかの確率的記述を生成する。一実施形態では、IRベースの発話音声検出器310の出力は、IR入力信号に基づいたユーザが話し中である確率である。同様に、音声ベースの発話音声検出器312からの出力信号は、音声入力信号に基づいたユーザが話し中である確率である。これら2つの信号は、次いで構成要素314で考察されて、一例ではユーザが話し中かどうかに関する二分決定が行われる。
信号306を使用して構成要素316で音声信号をさらに処理して、背景の発話音声を取り除くことができる。一実施形態では、発話音声検出信号306がユーザは話し中であることを示すとき、信号306は、発話音声信号を、構成要素316を経由して発話音声認識エンジンに提供するためだけに使用される。発話音声検出信号306がユーザは話し中ではないことを示す場合、発話音声信号は、構成要素316を経由して発話音声認識エンジンに提供されることはない。
別の実施形態では、構成要素314は、発話音声検出信号306を、ユーザが話し中である確率を示す確率測度として提供する。この実施形態では、構成要素316で、発話音声検出信号306に組み込まれている確率を音声信号に掛ける。したがって、ユーザが話し中である確率が高いときは、構成要素316を経由して発話音声認識エンジンに提供される発話音声信号も大きくなる。しかし、ユーザが話し中である確率が低い場合、構成要素316を経由して発話音声認識エンジンに提供される発話音声信号は、非常に小さくなる。当然、別の実施形態では、発話音声検出信号306を単に発話音声認識エンジンに直接提供することができる。発話音声認識エンジンは、それ自体、ユーザが話し中かどうか、およびその決定に基づいて発話音声信号をどのように処理するかを決定することができる。
図5は、多感覚応用信号プロセッサ304の別の実施形態をより詳しく示している。ユーザが話し中かどうかを検出するために複数の検出器を有する代わりに、図5に示した実施形態では、プロセッサ304は単一のヒューズ付き発話音声検出器(single fused speech detector)320から成ることを示している。検出器320は、IR信号および音声信号を受信し、両方の信号に基づいてユーザが話し中かどうかを決定する。この実施形態では、まず、赤外線信号および音声信号から独立して特徴が抽出され、これらの特徴が検出器320に入れられる。受信した特徴に基づいて、検出器320は、ユーザが話し中かどうかを検出し、それに応じて発話音声検出信号306を出力する。
どのタイプのシステム(図4に示したシステムまたは図5に示したシステム)を使用するかに関係なく、発話音声検出器を生成し、訓練用データを使用して訓練することができる。訓練用データでは、雑音のある音声信号、IR信号、およびユーザが話し中かどうかを具体的に示す手動の指示(プッシュトーク信号など)が提供される。
これをよりよく説明するために、図6は、音声信号400および赤外線信号402のグラフを大きさ対時間の観点で示している。また、図6には、ユーザがいつ話し中であるかを示す発話音声検出信号404も示されている。論理的に高い状態のとき、信号404は、話者が話し中であるとの発話音声検出器による決定を示す。論理的に低い状態のとき、信号404は、ユーザは話し中ではないことを示す。信号400および402に基づいて、ユーザが話し中かどうかを決定し、信号404を生成するために、信号400および402の平均および分散が例えば100ミリ秒ごとなど定期的に計算される。平均および分散の計算結果は基線の平均値および分散値として使用され、それらとの突き合わせで発話音声検出の決定が行われる。ユーザが話し中であるときは、ユーザが話し中ではないときより音声信号400および赤外線信号402の分散が大きくなることがわかる。したがって、例えば5〜10ミリ秒ごとに観察が処理されるとき、観察中の信号の平均および分散(または分散のみ)が基線の平均値および分散値(または基線分散値のみ)と比較される。観察値が基線値より大きい場合、ユーザは話し中であると決定される。そうでない場合、ユーザは話し中ではないと決定される。一実施形態の例では、観察値が基線値を所定の閾値だけ超えるかどうかに基づいて発話音声検出の決定が行われる。例えば、各観察中に、赤外線信号が基線平均値の3つの標準偏差内に入っていない場合、ユーザは話し中であると考えられる。同じことを音声信号に使用することができる。
本発明の別の実施形態によれば、検出器310、312、314、または320は、周辺光の状態の変化やユーザの頭の位置の変化など、IR信号に影響を与える光のわずかな変化を引き起こし得るものなど、使用中の光の変化に適合することもできる。基線の平均値および分散値は、例えば5〜10秒ごとに、または周期的に繰り返す別の時間窓を使用して再評価することができる。これによってこれらの値を、ある期間にわたる変化を反映するように更新することができる。また、基線の平均値および分散値が可動窓を使用して更新される前に、まず、入力信号はユーザが話し中であることに対応しているか、話し中ではないことに対応しているかを決定することができる。平均および分散は、ユーザが話し中ではないことに対応する信号の一部のみを使用して再計算することができる。
さらに、一般にIR信号が音声信号より先行し得ることが図6からわかる。これは一般に、任意の音の生成前に、ユーザが口または顔の位置を変える可能性があるためである。したがって、これによってシステムは、発話音声信号の入手前でさえ、発話音声を検出することができる。
図7は、本発明によるIRセンサおよび音声マイクロフォンの一実施形態を示す図である。図7では、ヘッドセット420は、ブーム426とともに、1対のヘッドフォン422および424を備えている。ブーム426の末端部には、従来の音声マイクロフォン428、および赤外線送受信装置430がある。送受信装置430は、例えば赤外線発光ダイオード(LED)および赤外線受信機とすることができる。話し中、ユーザが顔、特に口を動かすと、ユーザの顔、特に口から後ろに反射され、IRセンサ信号で表された光が図6に示すように変化する。したがって、IRセンサ信号に基づいてユーザが話し中かどうかを決定することができる。
図7の実施形態では、単一の赤外線送受信機を示しているが、本発明は、複数の赤外線送受信機の使用も含むことにも留意されたい。この実施形態で、各赤外線送受信機から生成されたIR信号に関連付けられる確率は、別々または同時に処理することができる。確率が別々に処理された場合、簡単な多数決論理(voting logic)を使用して、赤外線信号が話者は話し中であることを示しているかどうかを決定することができる。あるいは、確率モデルを使用して、複数のIR信号に基づいてユーザが話し中かどうかを決定することができる。
上述したように、追加の変換器301は、赤外線変換器以外の多くの形をとることができる。図8は、イヤホン452および454を備えたヘッドマウント451、および従来の音声マイクロフォン456、およびさらに骨感知マイクロフォン458を含むヘッドセット450を示す図である。マイクロフォン456および458は、ヘッドマウント451に、機械的に、また固定的にも接続することができる。顔の骨の振動が話者の頭の骨を移動すると、その振動は、骨感知マイクロフォン458によって電子音声信号に変換される。この種のマイクロフォンは周知のものであり、様々な形状およびサイズのものが市販されている。骨感知マイクロフォン458は一般に、頭骨の上または耳の後ろ(の乳様突起に接触するよう)に装着される接触マイクロフォンとして形成されている。骨伝導マイクロフォンは、骨の振動に敏感であり、外部の音源に対する感度はかなり低い。
図9は、従来のマイクロフォン456からの信号460、骨感知マイクロフォン458からの信号462、および発話音声検出器の出力に対応する発話音声二分決定信号464(binary speech detection signal)を含む複数の信号を示している。信号464が論理的に高い状態である場合、検出器が話者は話し中であると決定したことを示す。信号464が論理的に低い状態である場合、話者は話し中ではないという決定に対応する。図9における信号は、背景の音声が再生されている状態で、ユーザが図8に示したマイクロフォンシステムを装着している間にデータを収集した環境から捕捉された。したがって、音声信号460は、ユーザが話をしていないときでさえ、かなりの活動状態を示す。しかし、骨感知マイクロフォン信号462では、ユーザが実際に話し中のときを除いて、信号の活動状態はごくわずかである。したがって、音声信号460のみを考察すると、ユーザが実際に話し中かどうかを決定するのは非常に難しいことがわかる。しかし、骨感知マイクロフォンからの信号を単独で、または音声信号とともに使用すると、ユーザがいつ話し中であるかを決定するのがかなり容易になる。
図10は、ヘッドセット500がヘッドマウント501、イヤホン502および従来の音声マイクロフォン504、および咽喉マイクロフォン506を含む本発明の別の実施形態を示している。マイクロフォン504および506は、ヘッドマウント501に機械的に接続されており、また固定的に接続することもできる。使用できる異なる様々なマイクロフォンがある。例えば、現在単一要素の設計および2つの要素の設計がある。いずれも、咽喉の振動を感知し、振動をマイクロフォン信号に変換することによって機能する。咽喉マイクロフォンは、例えば首の回りに装着され、弾力性のあるひも又は首ひもによって定位置に保持される。咽喉マイクロフォンは、感知要素がユーザの咽頭上の「喉仏」のいずれかの側に配置されているときによく機能する。
図11は、ヘッドセット550がインイヤ式マイクロフォン552を従来の音声マイクロフォン554とともに含む本発明の別の実施形態を示す。図11の実施形態の例では、インイヤ式マイクロフォン552は、イヤホン554に一体化されている。しかしイヤホンは、インイヤ式マイクロフォン552から分離した個別の構成要素を形成することができることに留意されたい。また、図11は、従来の音声マイクロフォン554が、ブーム556によってインイヤ式マイクロフォン552に接続される接話マイクロフォンとして組み込まれていることを示している。ブーム556は、硬質または軟質とすることができる。ヘッドセット550では、ヘッドセットのヘッドマウント部分は、インイヤ式マイクロフォン552および任意選択のイヤホン554を含み、これによってヘッドセット550が話者の耳の内側との摩擦接続によって話者の頭の上に取り付けられる。
インイヤ式マイクロフォン552は、話者の耳管、または話者の耳管の周囲の骨、またはその両方を通って送信される声の振動を感知する。システムは、図8に示した骨感知マイクロフォン458を備えるヘッドセットと同じように働く。インイヤ式マイクロフォン552によって感知された声の振動は、マイクロフォン信号に変換され、これが下流処理において使用される。
発話音声センサまたは変換器301のいくつかの実施形態について説明してきたが、他の発話音声センサまたは変換器も使用できることは理解されよう。例えば、電荷結合素子(またはデジタルカメラ)をIRセンサと同じように使用することができる。さらに、咽頭センサを使用することもできる。上記の実施形態は、例示のために示しているにすぎない。
次に、音声および/または発話音声センサ信号を使用して発話音声を検出する別の技術について説明する。一実施形態の例では、ユーザ指定の時間量内(例えば1分以内など)の最近のフレーム間のすべての分散のヒストグラムが維持される。その後の観察フレームごとに、分散が入力信号について計算され、ヒストグラム値と比較されて、現在のフレームが話者は話し中であることを表しているか、話し中ではないことを表しているかを決定する。次いでヒストグラムが更新される。現在のフレームが単にヒストグラムに挿入され、最も古いフレームが削除された場合、ユーザが長時間話し中である状況では、ヒストグラムは話し中のフレームのみを表す場合があることに留意されたい。この状況を扱うために、ヒストグラムにおいて話し中のフレームと話し中ではないフレームの数が追跡され、ヒストグラムが選択的に更新される。現在のフレームが話し中のものとして分類され、ヒストグラムにおける話し中のフレーム数がフレームの総数の半分を超える場合、現在のフレームは、単にヒストグラムに挿入されない。当然、他の更新技術を使用することもでき、これは単に例示の目的で示したにすぎない。
このシステムは、様々な用途に使用することができる。例えば、現在のプッシュトークシステムの多くでは、ユーザは、発話モードで対話するには、入力アクチュエータ(ボタンなど)を押したままにする必要がある。有用性の研究では、ユーザがこれらを満足いくように操作するのは難しいことを示している。同様に、ユーザは、ハードウェアボタンを押すと同時に話し始め、それによって発話の最初が欠落する。したがってこのシステムを、プッシュトークシステムの代わりに、単に発話認識に使用することができる。
同様に、本発明を背景の発話音声を取り除くために使用することができる。背景の発話音声は、きわめて一般的な雑音源として識別されており、これに電話のベルおよび空調が続く。上述したようにこの発話音声検出信号を使用することによって、この背景の雑音のほとんどを取り除くことができる。
同様に、可変レート発話音声符号化システム(variable−rate speech coding system)を向上させることができる。本発明は、ユーザが話し中かどうかを示す出力を提供するため、かなり効率的な発話音声符号化システムを使用することができる。こうしたシステムによって、ユーザが実際に話し中であるときのみに発話音声の符号化が行われるため、音声会議における帯域幅要件が低減される。
リアルタイム通信におけるフロアコントロールを向上させることもできる。従来の音声会議に欠けている1つの重要な側面は、音声会議の参加者に発言の意向があることを他の人に知らせるために使用できる機構がないことである。これによって、他の参加者に発言の意向があることを知らないだけのために、ある参加者が会議を独占するという状況がもたらされる可能性がある。本発明を用いることによって、ユーザは、単にセンサーを動かすだけでユーザが発言の意向があることを示す。例えば、赤外線センサを使用している場合、ユーザは単に発言をまねるようにして顔の筋肉を動かすだけでよい。これによってユーザが話し中である、または発言することを希望していることを示す発話音声決定信号が提供される。ユーザは、咽喉マイクロフォンまたは骨マイクロフォンを使用して、非常に柔らかいトーンの低持続音を出すだけで、咽喉マイクロフォンまたは骨マイクロフォンが再度トリガされて、ユーザが発言する予定である、または発言することを希望していることを示すことができる。
さらに別の用途では、パームトップコンピュータ、ノートブックコンピュータ、他の同様のタイプのコンピュータなど、PDAまたは小さいコンピューティング装置の電源管理を向上させることができる。こうした携帯用装置では、バッテリの寿命は重要な問題である。ユーザが話し中かどうかを把握することによって、従来のコンピューティング機能を実行するのに必要なデジタル信号処理に割り振られたリソース、および発話音声認識を行うのに必要なリソースをかなり効率的に割り振ることができる。
さらに別の用途では、背景の話者が対象の話者と同時に話しているときでさえ、背景の発話音声を音声信号から取り除くことができるように知的な方法で、従来の音声マイクロフォンからの音声信号と発話音声センサからの信号を結合することができる。いくつかの状況では、こうした発話音声の向上を行う能力がかなり望まれている可能性がある。
本発明を特定の実施形態との関連で説明してきたが、本発明の意図および範囲から逸脱することなく、形態および詳細に変更を加えることができることを当分野の技術者であれば理解されよう。
本発明を使用できる一環境を示すブロック図である。 本発明を使用できる発話音声認識システムを示すブロック図である。 本発明の一実施形態による発話音声検出システムを示すブロック図である。 図3に示したシステムの一部の実施形態を示す図である。 図3に示したシステムの一部の実施形態を示す図である。 マイクロフォン信号および赤外線センサ信号について信号の大きさ対時間を示すグラフである。 従来のマイクロフォンおよび発話音声センサの一実装形態を示す図である。 骨感知(bone−sensitive)マイクロフォンを従来の音声マイクロフォンとともに示す図である。 マイクロフォン信号および音声マイクロフォン信号についてそれぞれ信号の大きさ対時間を示すグラフである。 咽喉マイクロフォンを従来の音声マイクロフォンとともに示す図である。 インイヤ式マイクロフォン(in−ear microphone)を接話マイクロフォンとともに示す図である。
符号の説明
400 話者
404 マイクロフォン
406 A/D
407 フレームコントラクタ
408 特徴抽出器
412 デコーダ
420 信頼度モジュール
422 出力モジュール
426 訓練用テキスト
424 トレーナー
418 音響モデル
414 辞書
416 言語モデル
301 発話音声センサ
303 従来の(音声)マイクロフォン
302 多感覚応用信号捕捉構成回路
304 多感覚応用信号プロセッサ

Claims (13)

  1. 感知された音声入力に基づいてマイクロフォン信号を出力する音声マイクロフォンと、
    発話行為により生成された音声以外の入力に基づいてセンサ信号を出力する発話音声センサと、
    前記マイクロフォン信号と前記センサ信号の第1の特徴の分散レベルとに基づいて、ユーザが話し中である確率を示す発話音声検出信号を出力する発話音声検出コンポーネントであって、前記センサ信号の前記第1の特徴は、ユーザが話し中の場合の第1の分散レベルとユーザが話し中でない場合の第2の分散レベルを有し、前記発話音声検出コンポーネントは、所定の時間にわたり前記第1の分散レベルと前記第2の分散レベルのうちの予め定められた一方である前記第1の特徴の基線分散レベルと比較して、前記センサ信号の前記第1の特徴の前記分散レベルに基づいて前記発話音声検出信号を出力し、前記発話音声検出コンポーネントは、前記発話音声検出信号に、前記マイクロフォン信号を乗ずることにより、結合信号を計算することを更に備える発話音声検出コンポーネントと、
    前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加し、前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少した前記結合信号に基づいて、前記マイクロフォン信号内の発話音声を示す認識出力を提供するために発話音声を認識する発話音声認識器とを備える
    ことを特徴とする発話音声検出システム。
  2. 前記基線分散レベルは、所定の時間にわたる前記第1の特徴の分散レベルを平均することによって計算されることを特徴とする請求項1に記載の発話音声検出システム。
  3. 前記基線分散レベルは、前記発話音声検出システムが動作中に断続的に再計算されることを特徴とする請求項1に記載の発話音声検出システム。
  4. 前記基線分散レベルは、分解時間窓にわたる前記第1の特徴の前記分散レベルを表すために周期的に再計算されることを特徴とする請求項3に記載の発話音声検出システム。
  5. 前記発話音声検出コンポーネントは、前記基線分散レベルと、前記センサ信号の前記第1の特徴の前記分散レベルとの比較結果に基づいて前記発話音声検出信号を出力し、前記比較は周期的に行われることを特徴とする請求項3に記載の発話音声検出システム。
  6. 前記比較は、前記基線分散レベルの再計算の頻度よりも高い頻度で行われることを特徴とする請求項5に記載の発話音声検出システム。
  7. 前記音声マイクロフォンと前記発話音声センサは、ヘッドフォンに搭載されていることを特徴とする請求項1に記載の発話音声検出システム。
  8. 発話音声検出システムを備えた発話音声認識システムであって、
    前記発話音声検出システムは、
    感知された音声入力に基づいてマイクロフォン信号を出力する音声マイクロフォンと、
    発話行為によって生成された音声以外の入力に基づいてセンサ信号を出力する発話音声センサと、
    前記マイクロフォン信号と前記センサ信号とに基づいてユーザが話し中である確率を示す発話音声検出信号を出力する発話音声検出コンポーネントであって、発話音声検出信号を前記マイクロフォン信号に乗ずることにより結合信号を生成する発話音声検出コンポーネントと、
    前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加し、前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少した前記結合信号に基づいて前記感知された音声入力内の発話音声を示す認識出力を提供するために発話音声を認識する発話音声認識エンジンと
    を備えることを特徴とする発話音声認識システム。
  9. 前記音声マイクロフォンと前記発話音声センサは、ヘッドフォンに搭載されていることを特徴とする請求項8に記載の発話音声認識システム。
  10. 音声マイクロフォンを用いて音声入力を表す第1の信号を生成すること、
    顔の動きセンサによって感知されるユーザの顔の動きを表す第2の信号を生成すること、
    前記第1の信号と前記第2の信号に基づいて前記ユーザが話し中である確率を示す発話音声検出信号である第3の信号を生成すること、
    前記ユーザが話し中である可能性を前記第1の信号に乗ずることにより第4の信号を生成すること、
    前記第4の信号と前記発話音声検出信号に基づき発話音声を認識すること
    を含み、
    前記発話音声を認識することは、
    前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加すること、
    前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少すること
    を含むことを特徴とする発話音声認識方法。
  11. 前記第2の信号を生成することは、前記ユーザの顎および首のうちの一方の振動を感知することを含むことを特徴とする請求項10に記載の方法。
  12. 前記第2の信号を生成することは、前記ユーザの口の動きを示す画像を感知することを含むことを特徴とする請求項10に記載の方法。
  13. 前記ユーザが話し中であるかどうかを検出した結果に基づいて発話音声検出信号を提供することを更に含むことを特徴とする請求項10に記載の方法。
JP2004220690A 2003-07-29 2004-07-28 ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem) Expired - Fee Related JP4703142B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US10/629,278 2003-07-29
US10/629,278 US7383181B2 (en) 2003-07-29 2003-07-29 Multi-sensory speech detection system
US10/636,176 US20050033571A1 (en) 2003-08-07 2003-08-07 Head mounted multi-sensory audio input system
US10/636,176 2003-08-07

Publications (3)

Publication Number Publication Date
JP2005049876A JP2005049876A (ja) 2005-02-24
JP2005049876A5 JP2005049876A5 (ja) 2007-09-13
JP4703142B2 true JP4703142B2 (ja) 2011-06-15

Family

ID=33544784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004220690A Expired - Fee Related JP4703142B2 (ja) 2003-07-29 2004-07-28 ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem)

Country Status (14)

Country Link
EP (1) EP1503368B1 (ja)
JP (1) JP4703142B2 (ja)
KR (1) KR101098601B1 (ja)
CN (1) CN100573664C (ja)
AT (1) ATE471554T1 (ja)
AU (1) AU2004203357B2 (ja)
BR (1) BRPI0403027A (ja)
CA (1) CA2473195C (ja)
DE (1) DE602004027687D1 (ja)
HK (1) HK1073010A1 (ja)
MX (1) MXPA04007313A (ja)
MY (1) MY138807A (ja)
RU (1) RU2363994C2 (ja)
TW (1) TWI383377B (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
JP2009512232A (ja) * 2005-06-13 2009-03-19 テクニオン リサーチ アンド デヴェロップメント リミテッド 遮蔽通信変換器
JP2007171637A (ja) * 2005-12-22 2007-07-05 Toshiba Tec Corp 音声処理装置
JP2007267331A (ja) * 2006-03-30 2007-10-11 Railway Technical Res Inst 発話音声収集用コンビネーション・マイクロフォンシステム
CN100583006C (zh) * 2006-12-13 2010-01-20 鸿富锦精密工业(深圳)有限公司 具有摇动响应机制的音乐播放装置
JP2010010869A (ja) * 2008-06-25 2010-01-14 Audio Technica Corp マイクロホン装置
JP5499633B2 (ja) * 2009-10-28 2014-05-21 ソニー株式会社 再生装置、ヘッドホン及び再生方法
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9025782B2 (en) 2010-07-26 2015-05-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for multi-microphone location-selective processing
FR2976111B1 (fr) * 2011-06-01 2013-07-05 Parrot Equipement audio comprenant des moyens de debruitage d'un signal de parole par filtrage a delai fractionnaire, notamment pour un systeme de telephonie "mains libres"
FR2982451A1 (fr) * 2011-11-03 2013-05-10 Joel Pedre Speak world 3 ou traducteur verbal integre et amplifie a emetteur infrarouge et a micro intra auriculaire
WO2014032738A1 (en) 2012-09-03 2014-03-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
GB2513559B8 (en) * 2013-04-22 2016-06-29 Ge Aviat Systems Ltd Unknown speaker identification system
CN104123930A (zh) * 2013-04-27 2014-10-29 华为技术有限公司 喉音识别方法及装置
KR102282366B1 (ko) 2013-06-03 2021-07-27 삼성전자주식회사 음성 향상 방법 및 그 장치
CN103309642A (zh) * 2013-06-09 2013-09-18 张家港市鸿嘉数字科技有限公司 一种识别声音操作平板电脑的方法
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9564128B2 (en) 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US9674599B2 (en) * 2014-03-07 2017-06-06 Wearhaus, Inc. Headphones for receiving and transmitting audio signals
FR3019423B1 (fr) * 2014-03-25 2017-07-21 Elno Circuit electronique pour bandeau osteophonique
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9706294B2 (en) * 2015-03-18 2017-07-11 Infineon Technologies Ag System and method for an acoustic transducer and environmental sensor package
US20160284363A1 (en) * 2015-03-24 2016-09-29 Intel Corporation Voice activity detection technologies, systems and methods employing the same
CN104766610A (zh) * 2015-04-07 2015-07-08 马业成 基于振动的声音识别系统和识别方法
JP6500625B2 (ja) * 2015-06-16 2019-04-17 カシオ計算機株式会社 検知装置、検知システム、検知方法及びプログラム
EP3185244B1 (en) * 2015-12-22 2019-02-20 Nxp B.V. Voice activation system
CN107734416B (zh) * 2017-10-11 2024-01-09 深圳市三诺数字科技有限公司 一种激光面纹识别降噪装置、耳机及方法
CN108735219B (zh) * 2018-05-09 2021-08-31 深圳市宇恒互动科技开发有限公司 一种声音识别控制方法及装置
CN108766468B (zh) * 2018-06-12 2021-11-02 歌尔科技有限公司 一种智能语音检测方法、无线耳机、tws耳机及终端
CN109410957B (zh) * 2018-11-30 2023-05-23 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
RU2719659C1 (ru) * 2019-01-10 2020-04-21 Общество с ограниченной ответственностью "Центр речевых технологий" (ООО "ЦРТ") Устройство для регистрации и управления вводом речевой информации
JP7331523B2 (ja) * 2019-07-24 2023-08-23 富士通株式会社 検出プログラム、検出方法、検出装置
JP7378770B2 (ja) * 2019-08-27 2023-11-14 国立大学法人静岡大学 評価装置、評価方法、及び評価プログラム
EP4131256A1 (en) * 2021-08-06 2023-02-08 STMicroelectronics S.r.l. Voice recognition system and method using accelerometers for sensing bone conduction
CN113810819B (zh) * 2021-09-23 2022-06-28 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04184495A (ja) * 1990-11-20 1992-07-01 Seiko Epson Corp 音声認識装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3383466A (en) * 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
TW219993B (en) * 1992-05-21 1994-02-01 Ind Tech Res Inst Speech recognition system
US5625697A (en) * 1995-05-08 1997-04-29 Lucent Technologies Inc. Microphone selection process for use in a multiple microphone voice actuated switching system
US5647834A (en) * 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
TW404103B (en) * 1998-06-02 2000-09-01 Inventec Corp Telephone answering system which is capable of transmitting image and audio data
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
JP2001292489A (ja) * 2000-04-10 2001-10-19 Kubota Corp 骨伝導マイク付きヘッドホン
WO2002077972A1 (en) 2001-03-27 2002-10-03 Rast Associates, Llc Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech
US6671379B2 (en) * 2001-03-30 2003-12-30 Think-A-Move, Ltd. Ear microphone apparatus and method
TW541824B (en) * 2001-05-29 2003-07-11 Inventec Multimedia & Telecom Multi-channel voice conferencing equipment and method there for
US6707921B2 (en) * 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
US20050141730A1 (en) * 2001-12-21 2005-06-30 Rti Tech Pte Ltd. Vibration-based talk-through method and apparatus
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04184495A (ja) * 1990-11-20 1992-07-01 Seiko Epson Corp 音声認識装置
JP2002358089A (ja) * 2001-06-01 2002-12-13 Denso Corp 音声処理装置及び音声処理方法

Also Published As

Publication number Publication date
CN100573664C (zh) 2009-12-23
CA2473195A1 (en) 2005-01-29
CA2473195C (en) 2014-02-04
KR20050013969A (ko) 2005-02-05
BRPI0403027A (pt) 2005-05-31
EP1503368A1 (en) 2005-02-02
JP2005049876A (ja) 2005-02-24
MXPA04007313A (es) 2005-07-26
DE602004027687D1 (de) 2010-07-29
CN1591568A (zh) 2005-03-09
EP1503368B1 (en) 2010-06-16
MY138807A (en) 2009-07-31
AU2004203357B2 (en) 2010-01-28
ATE471554T1 (de) 2010-07-15
RU2363994C2 (ru) 2009-08-10
AU2004203357A1 (en) 2005-02-17
TW200519834A (en) 2005-06-16
KR101098601B1 (ko) 2011-12-23
RU2004123352A (ru) 2006-01-27
TWI383377B (zh) 2013-01-21
HK1073010A1 (en) 2005-09-16

Similar Documents

Publication Publication Date Title
JP4703142B2 (ja) ヘッドマウント型多感覚応用音声入力システム(headmountedmulti−sensoryaudioinputsystem)
US7383181B2 (en) Multi-sensory speech detection system
US20050033571A1 (en) Head mounted multi-sensory audio input system
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
Zhang et al. Multi-sensory microphones for robust speech detection, enhancement and recognition
US9293133B2 (en) Improving voice communication over a network
US10721661B2 (en) Wireless device connection handover
WO2017134935A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US10728941B2 (en) Bidirectional sending and receiving of wireless data
JP2005049876A5 (ja)
CN111432303B (zh) 单耳耳机、智能电子设备、方法和计算机可读介质
US20230045237A1 (en) Wearable apparatus for active substitution
CN110097875B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
US20120284022A1 (en) Noise reduction system using a sensor based speech detector
CN110428806B (zh) 基于麦克风信号的语音交互唤醒电子设备、方法和介质
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN116324969A (zh) 具有定位反馈的听力增强和可穿戴系统
US11064281B1 (en) Sending and receiving wireless data
JP3838159B2 (ja) 音声認識対話装置およびプログラム
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP7172041B2 (ja) 音伝達装置及びプログラム
WO2019187543A1 (ja) 情報処理装置および情報処理方法
JP4189744B2 (ja) 無音声通信システム
JP2022181437A (ja) 音声処理システム及び音声処理方法
JP2009162931A (ja) 音声認識装置、音声認識方法および音声認識プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070730

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100625

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110107

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110308

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350