JP4703142B2

JP4703142B2 - ヘッドマウント型多感覚応用音声入力システム（ｈｅａｄｍｏｕｎｔｅｄｍｕｌｔｉ−ｓｅｎｓｏｒｙａｕｄｉｏｉｎｐｕｔｓｙｓｔｅｍ）

Info

Publication number: JP4703142B2
Application number: JP2004220690A
Authority: JP
Inventors: ディー．ファングシュエドン; リュージチェン; チャンチェンユー; ジェイ．シンクレアーマイケル; アセロアレサンドロ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-07-29
Filing date: 2004-07-28
Publication date: 2011-06-15
Anticipated expiration: 2024-07-28
Also published as: CN100573664C; CA2473195A1; CA2473195C; KR20050013969A; BRPI0403027A; EP1503368A1; JP2005049876A; MXPA04007313A; DE602004027687D1; CN1591568A; EP1503368B1; MY138807A; AU2004203357B2; ATE471554T1; RU2363994C2; AU2004203357A1; TW200519834A; KR101098601B1; RU2004123352A; TWI383377B

Description

本発明は音声入力システムに関する。より詳細には、本発明は多感覚応用変換器入力システムにおける発話音声処理（ｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇ）に関する。

異なる多くの発話音声処理認識の応用分野では、認識すべき発話音声を表す明瞭で矛盾のない音声入力を自動発話音声認識システムに提供することは非常に重要であり、不可欠となり得る。発話音声認識システムに入力される音声を破損させる傾向にある雑音の２つのカテゴリは、環境雑音、および背景の発話音声から生成される雑音である。音声入力から環境雑音を除去するために、雑音除去技術の開発に関して広範にわたる研究が行われている。音声処理ソフトウェアですでに市販されている技術もあれば、ユニバーサルシリアルバス（ＵＳＢ）マイクロフォンなどデジタルマイクロフォンに統合されている技術もある。

背景の発話音声に関連するノイズの扱いは、より多くの問題をはらんでいる。これは、雑音のある様々な環境において起こり得る。例えば対象の話者が群衆や他の人々の中で話をしている場合などに、従来のマイクロフォンは、しばしば対象の話者以外の話者の発話音声を拾う。基本的に、他の人物が話をしている任意の環境では、対象の話者から生成される音声信号が損なわれるおそれがある。

背景の発話音声を扱う従来の解決法の１つは、ヘッドセットのコードまたはハンドセットにオン／オフスイッチを備えることである。オン／オフスイッチは「プッシュトーク（ｐｕｓｈ−ｔｏ−ｔａｌｋ）」ボタンと呼ばれており、ユーザは、話をする前にボタンを押す必要がある。ユーザがボタンを押すと、ボタン信号が生成される。ボタン信号は、対象の話者が話し中であること、または話をしようとしていることを発話音声認識システムに知らせる。しかし、一部の有用性の研究によって、この種のシステムはユーザにとっては満足のいくもの、または望み通りのものではないことがわかっている。

さらに、マイクロフォンが拾った背景の話者を対象の話者（または最前部の話者）と分離しようとする試みに関する研究が行われている。これは、クリーンなオフィス環境ではかなりよく働くが、雑音がかなりある環境では不十分であることがわかっている。

さらに別の従来の技術では、標準マイクロフォンからの信号が咽喉マイクロフォンからの信号と結合されていた。咽喉マイクロフォンは、話し中の咽喉にわたる電気インピーダンスの変化を測定することによって咽頭の挙動を間接的に登録する。咽喉マイクロフォンによって生成された信号が従来のマイクロフォンと結合され、結合された信号のスペクトルの内容をモデル化するモデルが生成されていた。

Ｆｒａｎｋｃｏｅｔ，ａｌ．，ＣＯＭＢＩＮＩＮＧＨＥＴＥＲＯＧＥＮＥＯＵＳＳＥＮＳＯＲＳＷＩＴＨＳＴＡＮＤＡＲＤＭＩＣＲＯＰＨＯＮＥＳＦＯＲＮＯＩＳＹＲＯＢＵＳＴＲＥＣＯＧＮＩＴＩＯＮ，ＰｒｅｓｅｎｔａｔｉｏｎａｔｔｈｅＤＡＲＰＡＲＯＡＲＷｏｒｋｓｈｏｐ，Ｏｒｌａｎｄｏ，Ｆｌ．（２００１）

あるアルゴリズムを使用して、雑音のある、結合された標準マイクロフォン信号および咽喉マイクロフォン信号の特徴をクリーンな標準マイクロフォンの特徴にマッピングしていた。これを、確率的最適フィルタリング（ｐｒｏｂａｂｉｌｉｓｔｉｃｏｐｔｉｍｕｍｆｉｌｔｅｒｉｎｇ）を使用して評価していた。しかし、咽喉マイクロフォンは背景の騒音にはまったく影響されないが、咽喉マイクロフォン信号のスペクトルの内容はかなり限られる。したがって、クリーンな評価済みの特徴ベクトルにマッピングするのにこれを使用しても、高い精度は得られなかった。この技術は、Ｆｒａｎｋｃｏｅｔ，ａｌ．，ＣＯＭＢＩＮＩＮＧＨＥＴＥＲＯＧＥＮＥＯＵＳＳＥＮＳＯＲＳＷＩＴＨＳＴＡＮＤＡＲＤＭＩＣＲＯＰＨＯＮＥＳＦＯＲＮＯＩＳＹＲＯＢＵＳＴＲＥＣＯＧＮＩＴＩＯＮ，ＰｒｅｓｅｎｔａｔｉｏｎａｔｔｈｅＤＡＲＰＡＲＯＡＲＷｏｒｋｓｈｏｐ，Ｏｒｌａｎｄｏ，Ｆｌ．（２００１）により詳しく記載されている（例えば、非特許文献１参照）。さらに、咽喉マイクロフォンを装着することによって、ユーザはさらに不便を感じている。

本発明は、従来の音声マイクロフォンと、追加の入力に基づいて発話音声センサ信号を提供する追加の発話音声センサを結合する。顔の動き、骨の振動、咽喉の振動、咽喉のインピーダンスの変化など、話し中に話者が行う行為に基づいて発話音声センサ信号が生成される。発話音声検出器構成要素は、発話音声センサから入力を受信し、ユーザが話し中かどうかを示す発話音声検出信号を出力する。発話音声検出器は、マイクロフォン信号および発話音声センサ信号に基づいて発話音声検出信号を生成する。

一実装形態では、発話音声検出信号は発話音声認識エンジンに提供される。発話音声認識エンジンは、マイクロフォン信号および追加の発話音声センサからの発話音声検出信号に基づいて、音声マイクロフォンからのマイクロフォン信号によって表される発話音声を示す認識出力を提供する。

本発明は、発話音声を検出する方法として組み込むこともできる。この方法は、音声マイクロフォンにより音声入力を示す第１の信号を生成するステップと、顔の動きセンサによって感知される、ユーザの顔の動きを示す第２の信号を生成するステップと、第１および第２の信号に基づいてユーザが話し中かどうかを検出するステップとを含む。

一実装形態で、第２の信号は、ユーザの首の振動またはインピーダンスの変化、またはユーザの頭骨または顎の振動を含む。別の実施形態では、第２の信号は、ユーザの口の動きを示す画像を含む。別の実施形態では、サーミスタなどの温度センサがマイクロフォンに隣接するブームなどの息の流れ道に配置され、発話音声を温度の変化として感知する。

本発明は発話音声の検出に関する。より詳細には、本発明は多感覚応用変換器入力を捕捉し、捕捉された多感覚応用入力に基づいてユーザが話し中かどうかを示す出力信号を生成することに関する。しかし、本発明をより詳しく説明する前に、本発明を使用できる環境の実施形態の例について説明する。

図１は、本発明を実施するのに適したコンピューティングシステム環境１００の例を示している。コンピューティングシステム環境１００は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関する限定を示唆するものではない。また、コンピューティング環境１００を、動作環境１００の例に示した構成要素のいずれか１つ、またはその組合せに関連する依存性または必要条件を有しているものと解釈すべきではない。

本発明は、他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明との使用に適したよく知られているコンピューティングシステム、環境、および／または構成の例には、それだけには限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記の任意のシステムまたは装置を含む分散コンピューティング環境などがある。

本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。また、本発明は、タスクが通信ネットワークによってリンクされているリモート処理装置によって実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に置くことができる。

図１を参照すると、本発明を実施するシステムの例は、汎用コンピューティング装置をコンピュータ１１０の形で含んでいる。コンピュータ１１０の構成要素は、それだけには限定されないが、処理ユニット１２０、システムメモリ１３０、およびシステムメモリを含む様々なシステム構成要素を処理ユニット１２０に結合するシステムバス１２１を含む。システムバス１２１は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。こうしたアーキテクチャには、それだけには限定されないが一例として、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオ電子装置規格化協会（ＶＥＳＡ）ローカルバス、およびメザニンバスとしても知られている周辺部品相互接続（ＰＣＩ）バスなどがある。

コンピュータ１１０は、一般に様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０からアクセスできる使用可能な任意の媒体とすることができ、揮発性および不揮発性媒体、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ可読媒体は、それだけには限定されないが一例として、コンピュータ記憶媒体および通信媒体を含み得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性および不揮発性のリムーバブルおよび非リムーバブル媒体がある。コンピュータ記憶媒体には、それだけには限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ１００からアクセスできる他の任意の媒体などがある。通信媒体は一般に、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを搬送波または他の移送機構などの変調されたデータ信号に組み込む。これには任意の情報配送媒体がある。「変調されたデータ信号」という用語は、信号内の情報を符号化するように設定または変更された１つまたは複数のその特徴を有する信号を意味する。通信媒体には、それだけには限定されないが一例として、有線ネットワーク、直接配線された接続などの有線媒体、および音響、ＲＦ、赤外線、その他の無線媒体などの無線媒体がある。また、上記のどんな組合せでもコンピュータ可読媒体の範囲内に含まれるものとする。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２など、揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。基本入出力システム１３３（ＢＩＯＳ）は、例えば起動中など、コンピュータ１１０内の要素間での情報の転送を助ける基本ルーチンを含み、一般にＲＯＭ１３１に格納されている。ＲＡＭ１３２は一般に、処理ユニット１２０から直接アクセス可能な、かつ／または処理ユニット１２０が現在処理しているデータおよび／またはプログラムモジュールを含む。図１は、それだけには限定されないが一例として、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を示している。

コンピュータ１１０は、他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ記憶媒体を含むこともできる。一例にすぎないが、図１は、非リムーバブル不揮発性磁気媒体から読み取り、あるいはそこに書き込むハードディスクドライブ１４１、リムーバブル不揮発性磁気ディスク１５２から読み取り、あるいはそこに書き込む磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭや他の光媒体など、リムーバブル不揮発性光ディスク１５６から読み取り、あるいはそこに書き込む光ディスクドライブ１５５を示している。動作環境の例で使用できる他のリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータ記憶媒体には、それだけには限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体ＲＡＭ、半導体ＲＯＭなどがある。ハードディスクドライブ１４１は一般に、インターフェイス１４０などの非リムーバブルメモリインターフェイスを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は一般に、インターフェイス１５０などのリムーバブルメモリインターフェイスによってシステムバス１２１に接続される。

上述し、図１に示したドライブおよびその関連のコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピュータ１１０の他のデータの記憶を提供する。図１では例えば、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶するものとして示されている。これらの構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであっても、異なっていてもよいことに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は少なくとも異なるコピーであることを示すために、ここではそれらに異なる番号を付している。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、タッチパッドなどのポインティング装置１６１などの入力装置を介してコマンドおよび情報をコンピュータ１１０に入力することができる。他の入力装置（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力装置は、しばしばシステムバスに結合されているユーザ入力インターフェイス１６０を介して処理ユニット１２０に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）など他のインターフェイスおよびバス構造で接続してもよい。モニタ１９１または他のタイプの表示装置もまた、ビデオインターフェイス１９０などのインターフェイスを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、出力周辺インターフェイス１９０を介して接続できるスピーカ１９７、プリンタ１９６などの他の周辺出力装置を含むこともできる。

コンピュータ１１０は、リモートコンピュータ１８０など１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークＰＣ、ピア装置、または他の一般のネットワークノードでよく、一般にコンピュータ１１０に関連して上述した多くまたはすべての要素を含む。図１に示した論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含んでいてもよい。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。

ＬＡＮネットワーキング環境で使用する場合、コンピュータ１１０は、ネットワークインターフェイスまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用する場合、コンピュータ１１０は一般に、モデム１７２、またはインターネットなどＷＡＮ１７３を介して通信を確立する他の手段を含む。モデム１７２は、内蔵のものでも外付けのものでもよく、ユーザ入力インターフェイス１６０または他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク式環境では、コンピュータ１１０に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶装置に格納することができる。図１は、それだけには限定されないが一例として、リモートアプリケーションプログラム１８５をメモリコンピュータ１８０上に存在するものとして示している。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。

本発明は、例えば図１に関連して説明したコンピュータシステム上で実行できることに留意されたい。しかし本発明は、サーバ、メッセージ通信処理専用コンピュータ、または本発明の異なる部分が分散コンピューティングシステムの異なる部分で実行される分散システム上で実行することができる。

図２は、本発明を使用できる発話音声認識システムの例を示すブロック図である。図２で、話者４００は、マイクロフォン４０４に向かって話をする。マイクロフォン４０４によって検出された音声信号は、電気信号に変換されてアナログデジタル（Ａ／Ｄ）変換器４０６に提供される。

Ａ／Ｄ変換器４０６は、マイクロフォン４０４からのアナログ信号を一連のデジタル値に変換する。いくつかの実施形態では、Ａ／Ｄ変換器４０６は、１６ＫＨｚ、１６ビット／サンプルでアナログ信号をサンプリングし、それによって３２ＫＢ／秒の発話音声データが作成される。これらのデジタル値は、フレームコンストラクタ（ｆｒａｍｅｃｏｎｓｔｒｕｃｔｏｒ）４０７に提供される。一実施形態では、フレームコンストラクタは、値を１０ミリ秒の差をあけて始まる２５ミリ秒のフレームの組に分ける。

フレームコンストラクタ４０７によって作成されたデータのフレームは、特徴抽出器４０８に提供され、各フレームから特徴が抽出される。特徴抽出モジュールの例には、線形予測符号化（ＬＰＣ）、ＬＰＣ導出ケプストラム（ＬＰＣｄｅｒｉｖｅｄｃｅｐｓｔｒｕｍ）、知覚線形予測（ＰｅｒｃｅｐｔｉｖｅＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ：ＰＬＰ）、聴覚モデルの特徴抽出、およびメル周波数ケプストラム係数（ＭＦＣＣ）の特徴抽出を行うモジュールがある。本発明は、これらの特徴抽出モデルには限定されず、本発明の文脈内で他のモジュールを使用することができることに留意されたい。

特徴抽出モジュール４０８は、発話音声信号の１つのフレームにそれぞれ関連付けられる特徴ベクトルの流れを生成する。この特徴ベクトルの流れは、デコーダ４１２に提供され、デコーダは、特徴ベクトルの流れ、辞書４１４、（例えばＮグラム、文脈自由文法、またはその混合などに基づく）言語モデル４１６、および音響モデル４１８に基づいて最も可能性の高い一連の単語を識別する。復号化に使用される特定の方法は、本発明には重要ではないが、本発明の態様は、音響モデル４１８への変更およびその使用を含む。

最も可能性の高い一連の仮説単語を、オプションの信頼度モジュール（ｃｏｎｆｉｄｅｎｃｅｍｅａｓｕｒｅｍｏｄｕｌｅ）４２０に提供することができる。信頼度モジュール４２０は、どの単語が発話音声認識器によって誤って識別されている可能性が最も高いかを識別する。これは、一部には二次音響モデル（図示せず）を基にすることができる。次いで信頼度モジュール４２０は、一連の仮説単語を、どの単語が誤って識別されている可能性があるかを示す識別子とともに出力モジュール４２２に提供する。信頼度モジュール４２０は本発明の実施には必要ないことを当分野の技術者であれば理解できよう。

訓練中、訓練用テキスト４２６に対応する発話音声信号が、訓練用テキスト４２６の語彙の写し（ｌｅｘｉｃａｌｔｒａｎｓｃｒｉｐｔｉｏｎ）とともにデコーダ４１２に入力される。トレーナー４２４は、訓練用入力に基づいて音響モデル４１８を訓練する。

図３は、本発明の一実施形態による発話音声検出システム３００を示している。発話音声検出システム３００は、発話音声センサまたは変換器３０１、従来の音声マイクロフォン３０３、多感覚応用信号捕捉構成要素３０２、および多感覚応用信号プロセッサ３０４を含む。

捕捉構成要素３０２は、従来のマイクロフォン３０３から音声信号の形の信号を捕捉する。また、構成要素３０２は、発話音声変換器３０１から、ユーザが話し中かどうかを示す入力信号を捕捉する。この変換器から生成された信号は、他の様々な変換器から生成することができる。例えば一実施形態では、変換器は、一般にユーザの顔、特に口の領域に向けられ、発話に対応するユーザの顔の動きの変化を示す信号を生成する赤外線センサである。別の実施形態では、センサは、ユーザの顔の異なる部分に向けられる複数の赤外線エミッタおよびセンサを含む。さらに別の実施形態では、発話音声センサ３０１は、ユーザの咽喉または咽喉の振動にわたるインピーダンスを測定する咽喉マイクロフォンを含むことができる。さらに別の実施形態では、センサは、ユーザの顔または頭の骨（顎の骨など）のすぐ横に配置され、ユーザが生成する発話音声に対応する振動を感知する骨振動感知マイクロフォン（ｂｏｎｅｖｉｂｒａｔｉｏｎｓｅｎｓｉｔｉｖｅｍｉｃｒｏｐｈｏｎｅ）である。この種のセンサは、咽喉と接触して、またはユーザの耳に隣接して、または耳の中に配置することもできる。別の実施形態では、サーミスタなどの温度センサを、普通のマイクロフォンを保持しているのと同じ支持上などの息の流れ道に配置する。ユーザが話をするとき、吐き出された息によってセンサの温度が変化し、したがって発話が検出される。わずかな定常電流をサーミスタに通し、わずかに周囲温度を上回るように熱することによって、これを向上させることができる。息の流れは、次いでサーミスタを冷却する傾向があり、これは、サーミスタにわたる電圧の変化によって感知することができる。どのような場合でも、変換器３０１は、例えば背景の発話音声にはほとんど反応せず、しかしユーザが話し中かどうかは顕著に示す。

一実施形態では、構成要素３０２は、変換器３０１およびマイクロフォン３０３から信号を捕捉し、それらを同時系列の信号サンプルとしてデジタル形式に変換する。次いで構成要素３０２は、１つまたは複数の出力を多感覚応用信号プロセッサ３０４に提供する。プロセッサ３０４は、構成要素３０２によって捕捉された入力信号を処理し、その出力時に、ユーザが話し中かどうかを示す発話音声検出信号３０６を提供する。また、プロセッサ３０４は、任意選択で、音声出力信号や、異なる様々な変換器からの信号に基づいてユーザが話し中かどうかの可能性または確率を示す発話音声検出信号などの追加の信号３０８を出力することもできる。他の出力３０８は、例えば実行されるタスクに基づいて変わる。しかし一実施形態では、出力３０８は、発話音声認識システムで使用する強化された音声信号を含む。

図４は、多感覚応用信号プロセッサ３０４の一実施形態をより詳しく示している。図４に示した実施形態で、プロセッサ３０４を、ユーザの顔の近くに配置されている赤外線センサから生成された赤外線信号である変換器３０１からの変換器入力との関連で説明する。当然、咽喉センサ、振動センサなどからの変換器信号との関連で図４を説明することも同じように容易であることは理解されよう。

どのような場合でも、図４は、プロセッサ３０４が赤外線（ＩＲ）ベースの発話音声検出器３１０、音声ベースの発話音声検出器３１２、および結合済み発話音声検出構成要素３１４を含むことを示している。ＩＲベースの発話音声検出器３１０は、ＩＲエミッタによって放出され、話者から反射されたＩＲ信号を受信し、ＩＲ信号に基づいてユーザが話し中かどうかを検出する。音声ベースの発話音声検出器３１２は、音声信号を受信し、音声信号に基づいてユーザが話し中かどうかを検出する。検出器３１０および３１２からの出力は、結合済み発話音声検出構成要素３１４に提供される。構成要素３１４は、信号を受信し、２つの入力信号に基づいてユーザが話し中かどうかに関して全体的に評価する。構成要素３１４からの出力は、発話音声検出信号３０６を含む。一実施形態では、発話音声検出信号３０６は、背景発話音声除去構成要素３１６に提供される。発話音声検出信号３０６は、音声信号内でユーザが実際にいつ話し中であるかを示すために使用する。

より具体的には、一実施形態では、２つの独立した検出器３１０および３１２はそれぞれ、どの程度の確率でユーザが話し中であるかの確率的記述を生成する。一実施形態では、ＩＲベースの発話音声検出器３１０の出力は、ＩＲ入力信号に基づいたユーザが話し中である確率である。同様に、音声ベースの発話音声検出器３１２からの出力信号は、音声入力信号に基づいたユーザが話し中である確率である。これら２つの信号は、次いで構成要素３１４で考察されて、一例ではユーザが話し中かどうかに関する二分決定が行われる。

信号３０６を使用して構成要素３１６で音声信号をさらに処理して、背景の発話音声を取り除くことができる。一実施形態では、発話音声検出信号３０６がユーザは話し中であることを示すとき、信号３０６は、発話音声信号を、構成要素３１６を経由して発話音声認識エンジンに提供するためだけに使用される。発話音声検出信号３０６がユーザは話し中ではないことを示す場合、発話音声信号は、構成要素３１６を経由して発話音声認識エンジンに提供されることはない。

別の実施形態では、構成要素３１４は、発話音声検出信号３０６を、ユーザが話し中である確率を示す確率測度として提供する。この実施形態では、構成要素３１６で、発話音声検出信号３０６に組み込まれている確率を音声信号に掛ける。したがって、ユーザが話し中である確率が高いときは、構成要素３１６を経由して発話音声認識エンジンに提供される発話音声信号も大きくなる。しかし、ユーザが話し中である確率が低い場合、構成要素３１６を経由して発話音声認識エンジンに提供される発話音声信号は、非常に小さくなる。当然、別の実施形態では、発話音声検出信号３０６を単に発話音声認識エンジンに直接提供することができる。発話音声認識エンジンは、それ自体、ユーザが話し中かどうか、およびその決定に基づいて発話音声信号をどのように処理するかを決定することができる。

図５は、多感覚応用信号プロセッサ３０４の別の実施形態をより詳しく示している。ユーザが話し中かどうかを検出するために複数の検出器を有する代わりに、図５に示した実施形態では、プロセッサ３０４は単一のヒューズ付き発話音声検出器（ｓｉｎｇｌｅｆｕｓｅｄｓｐｅｅｃｈｄｅｔｅｃｔｏｒ）３２０から成ることを示している。検出器３２０は、ＩＲ信号および音声信号を受信し、両方の信号に基づいてユーザが話し中かどうかを決定する。この実施形態では、まず、赤外線信号および音声信号から独立して特徴が抽出され、これらの特徴が検出器３２０に入れられる。受信した特徴に基づいて、検出器３２０は、ユーザが話し中かどうかを検出し、それに応じて発話音声検出信号３０６を出力する。

どのタイプのシステム（図４に示したシステムまたは図５に示したシステム）を使用するかに関係なく、発話音声検出器を生成し、訓練用データを使用して訓練することができる。訓練用データでは、雑音のある音声信号、ＩＲ信号、およびユーザが話し中かどうかを具体的に示す手動の指示（プッシュトーク信号など）が提供される。

これをよりよく説明するために、図６は、音声信号４００および赤外線信号４０２のグラフを大きさ対時間の観点で示している。また、図６には、ユーザがいつ話し中であるかを示す発話音声検出信号４０４も示されている。論理的に高い状態のとき、信号４０４は、話者が話し中であるとの発話音声検出器による決定を示す。論理的に低い状態のとき、信号４０４は、ユーザは話し中ではないことを示す。信号４００および４０２に基づいて、ユーザが話し中かどうかを決定し、信号４０４を生成するために、信号４００および４０２の平均および分散が例えば１００ミリ秒ごとなど定期的に計算される。平均および分散の計算結果は基線の平均値および分散値として使用され、それらとの突き合わせで発話音声検出の決定が行われる。ユーザが話し中であるときは、ユーザが話し中ではないときより音声信号４００および赤外線信号４０２の分散が大きくなることがわかる。したがって、例えば５〜１０ミリ秒ごとに観察が処理されるとき、観察中の信号の平均および分散（または分散のみ）が基線の平均値および分散値（または基線分散値のみ）と比較される。観察値が基線値より大きい場合、ユーザは話し中であると決定される。そうでない場合、ユーザは話し中ではないと決定される。一実施形態の例では、観察値が基線値を所定の閾値だけ超えるかどうかに基づいて発話音声検出の決定が行われる。例えば、各観察中に、赤外線信号が基線平均値の３つの標準偏差内に入っていない場合、ユーザは話し中であると考えられる。同じことを音声信号に使用することができる。

本発明の別の実施形態によれば、検出器３１０、３１２、３１４、または３２０は、周辺光の状態の変化やユーザの頭の位置の変化など、ＩＲ信号に影響を与える光のわずかな変化を引き起こし得るものなど、使用中の光の変化に適合することもできる。基線の平均値および分散値は、例えば５〜１０秒ごとに、または周期的に繰り返す別の時間窓を使用して再評価することができる。これによってこれらの値を、ある期間にわたる変化を反映するように更新することができる。また、基線の平均値および分散値が可動窓を使用して更新される前に、まず、入力信号はユーザが話し中であることに対応しているか、話し中ではないことに対応しているかを決定することができる。平均および分散は、ユーザが話し中ではないことに対応する信号の一部のみを使用して再計算することができる。

さらに、一般にＩＲ信号が音声信号より先行し得ることが図６からわかる。これは一般に、任意の音の生成前に、ユーザが口または顔の位置を変える可能性があるためである。したがって、これによってシステムは、発話音声信号の入手前でさえ、発話音声を検出することができる。

図７は、本発明によるＩＲセンサおよび音声マイクロフォンの一実施形態を示す図である。図７では、ヘッドセット４２０は、ブーム４２６とともに、１対のヘッドフォン４２２および４２４を備えている。ブーム４２６の末端部には、従来の音声マイクロフォン４２８、および赤外線送受信装置４３０がある。送受信装置４３０は、例えば赤外線発光ダイオード（ＬＥＤ）および赤外線受信機とすることができる。話し中、ユーザが顔、特に口を動かすと、ユーザの顔、特に口から後ろに反射され、ＩＲセンサ信号で表された光が図６に示すように変化する。したがって、ＩＲセンサ信号に基づいてユーザが話し中かどうかを決定することができる。

図７の実施形態では、単一の赤外線送受信機を示しているが、本発明は、複数の赤外線送受信機の使用も含むことにも留意されたい。この実施形態で、各赤外線送受信機から生成されたＩＲ信号に関連付けられる確率は、別々または同時に処理することができる。確率が別々に処理された場合、簡単な多数決論理（ｖｏｔｉｎｇｌｏｇｉｃ）を使用して、赤外線信号が話者は話し中であることを示しているかどうかを決定することができる。あるいは、確率モデルを使用して、複数のＩＲ信号に基づいてユーザが話し中かどうかを決定することができる。

上述したように、追加の変換器３０１は、赤外線変換器以外の多くの形をとることができる。図８は、イヤホン４５２および４５４を備えたヘッドマウント４５１、および従来の音声マイクロフォン４５６、およびさらに骨感知マイクロフォン４５８を含むヘッドセット４５０を示す図である。マイクロフォン４５６および４５８は、ヘッドマウント４５１に、機械的に、また固定的にも接続することができる。顔の骨の振動が話者の頭の骨を移動すると、その振動は、骨感知マイクロフォン４５８によって電子音声信号に変換される。この種のマイクロフォンは周知のものであり、様々な形状およびサイズのものが市販されている。骨感知マイクロフォン４５８は一般に、頭骨の上または耳の後ろ（の乳様突起に接触するよう）に装着される接触マイクロフォンとして形成されている。骨伝導マイクロフォンは、骨の振動に敏感であり、外部の音源に対する感度はかなり低い。

図９は、従来のマイクロフォン４５６からの信号４６０、骨感知マイクロフォン４５８からの信号４６２、および発話音声検出器の出力に対応する発話音声二分決定信号４６４（ｂｉｎａｒｙｓｐｅｅｃｈｄｅｔｅｃｔｉｏｎｓｉｇｎａｌ）を含む複数の信号を示している。信号４６４が論理的に高い状態である場合、検出器が話者は話し中であると決定したことを示す。信号４６４が論理的に低い状態である場合、話者は話し中ではないという決定に対応する。図９における信号は、背景の音声が再生されている状態で、ユーザが図８に示したマイクロフォンシステムを装着している間にデータを収集した環境から捕捉された。したがって、音声信号４６０は、ユーザが話をしていないときでさえ、かなりの活動状態を示す。しかし、骨感知マイクロフォン信号４６２では、ユーザが実際に話し中のときを除いて、信号の活動状態はごくわずかである。したがって、音声信号４６０のみを考察すると、ユーザが実際に話し中かどうかを決定するのは非常に難しいことがわかる。しかし、骨感知マイクロフォンからの信号を単独で、または音声信号とともに使用すると、ユーザがいつ話し中であるかを決定するのがかなり容易になる。

図１０は、ヘッドセット５００がヘッドマウント５０１、イヤホン５０２および従来の音声マイクロフォン５０４、および咽喉マイクロフォン５０６を含む本発明の別の実施形態を示している。マイクロフォン５０４および５０６は、ヘッドマウント５０１に機械的に接続されており、また固定的に接続することもできる。使用できる異なる様々なマイクロフォンがある。例えば、現在単一要素の設計および２つの要素の設計がある。いずれも、咽喉の振動を感知し、振動をマイクロフォン信号に変換することによって機能する。咽喉マイクロフォンは、例えば首の回りに装着され、弾力性のあるひも又は首ひもによって定位置に保持される。咽喉マイクロフォンは、感知要素がユーザの咽頭上の「喉仏」のいずれかの側に配置されているときによく機能する。

図１１は、ヘッドセット５５０がインイヤ式マイクロフォン５５２を従来の音声マイクロフォン５５４とともに含む本発明の別の実施形態を示す。図１１の実施形態の例では、インイヤ式マイクロフォン５５２は、イヤホン５５４に一体化されている。しかしイヤホンは、インイヤ式マイクロフォン５５２から分離した個別の構成要素を形成することができることに留意されたい。また、図１１は、従来の音声マイクロフォン５５４が、ブーム５５６によってインイヤ式マイクロフォン５５２に接続される接話マイクロフォンとして組み込まれていることを示している。ブーム５５６は、硬質または軟質とすることができる。ヘッドセット５５０では、ヘッドセットのヘッドマウント部分は、インイヤ式マイクロフォン５５２および任意選択のイヤホン５５４を含み、これによってヘッドセット５５０が話者の耳の内側との摩擦接続によって話者の頭の上に取り付けられる。

インイヤ式マイクロフォン５５２は、話者の耳管、または話者の耳管の周囲の骨、またはその両方を通って送信される声の振動を感知する。システムは、図８に示した骨感知マイクロフォン４５８を備えるヘッドセットと同じように働く。インイヤ式マイクロフォン５５２によって感知された声の振動は、マイクロフォン信号に変換され、これが下流処理において使用される。

発話音声センサまたは変換器３０１のいくつかの実施形態について説明してきたが、他の発話音声センサまたは変換器も使用できることは理解されよう。例えば、電荷結合素子（またはデジタルカメラ）をＩＲセンサと同じように使用することができる。さらに、咽頭センサを使用することもできる。上記の実施形態は、例示のために示しているにすぎない。

次に、音声および／または発話音声センサ信号を使用して発話音声を検出する別の技術について説明する。一実施形態の例では、ユーザ指定の時間量内（例えば１分以内など）の最近のフレーム間のすべての分散のヒストグラムが維持される。その後の観察フレームごとに、分散が入力信号について計算され、ヒストグラム値と比較されて、現在のフレームが話者は話し中であることを表しているか、話し中ではないことを表しているかを決定する。次いでヒストグラムが更新される。現在のフレームが単にヒストグラムに挿入され、最も古いフレームが削除された場合、ユーザが長時間話し中である状況では、ヒストグラムは話し中のフレームのみを表す場合があることに留意されたい。この状況を扱うために、ヒストグラムにおいて話し中のフレームと話し中ではないフレームの数が追跡され、ヒストグラムが選択的に更新される。現在のフレームが話し中のものとして分類され、ヒストグラムにおける話し中のフレーム数がフレームの総数の半分を超える場合、現在のフレームは、単にヒストグラムに挿入されない。当然、他の更新技術を使用することもでき、これは単に例示の目的で示したにすぎない。

このシステムは、様々な用途に使用することができる。例えば、現在のプッシュトークシステムの多くでは、ユーザは、発話モードで対話するには、入力アクチュエータ（ボタンなど）を押したままにする必要がある。有用性の研究では、ユーザがこれらを満足いくように操作するのは難しいことを示している。同様に、ユーザは、ハードウェアボタンを押すと同時に話し始め、それによって発話の最初が欠落する。したがってこのシステムを、プッシュトークシステムの代わりに、単に発話認識に使用することができる。

同様に、本発明を背景の発話音声を取り除くために使用することができる。背景の発話音声は、きわめて一般的な雑音源として識別されており、これに電話のベルおよび空調が続く。上述したようにこの発話音声検出信号を使用することによって、この背景の雑音のほとんどを取り除くことができる。

同様に、可変レート発話音声符号化システム（ｖａｒｉａｂｌｅ−ｒａｔｅｓｐｅｅｃｈｃｏｄｉｎｇｓｙｓｔｅｍ）を向上させることができる。本発明は、ユーザが話し中かどうかを示す出力を提供するため、かなり効率的な発話音声符号化システムを使用することができる。こうしたシステムによって、ユーザが実際に話し中であるときのみに発話音声の符号化が行われるため、音声会議における帯域幅要件が低減される。

リアルタイム通信におけるフロアコントロールを向上させることもできる。従来の音声会議に欠けている１つの重要な側面は、音声会議の参加者に発言の意向があることを他の人に知らせるために使用できる機構がないことである。これによって、他の参加者に発言の意向があることを知らないだけのために、ある参加者が会議を独占するという状況がもたらされる可能性がある。本発明を用いることによって、ユーザは、単にセンサーを動かすだけでユーザが発言の意向があることを示す。例えば、赤外線センサを使用している場合、ユーザは単に発言をまねるようにして顔の筋肉を動かすだけでよい。これによってユーザが話し中である、または発言することを希望していることを示す発話音声決定信号が提供される。ユーザは、咽喉マイクロフォンまたは骨マイクロフォンを使用して、非常に柔らかいトーンの低持続音を出すだけで、咽喉マイクロフォンまたは骨マイクロフォンが再度トリガされて、ユーザが発言する予定である、または発言することを希望していることを示すことができる。

さらに別の用途では、パームトップコンピュータ、ノートブックコンピュータ、他の同様のタイプのコンピュータなど、ＰＤＡまたは小さいコンピューティング装置の電源管理を向上させることができる。こうした携帯用装置では、バッテリの寿命は重要な問題である。ユーザが話し中かどうかを把握することによって、従来のコンピューティング機能を実行するのに必要なデジタル信号処理に割り振られたリソース、および発話音声認識を行うのに必要なリソースをかなり効率的に割り振ることができる。

さらに別の用途では、背景の話者が対象の話者と同時に話しているときでさえ、背景の発話音声を音声信号から取り除くことができるように知的な方法で、従来の音声マイクロフォンからの音声信号と発話音声センサからの信号を結合することができる。いくつかの状況では、こうした発話音声の向上を行う能力がかなり望まれている可能性がある。

本発明を特定の実施形態との関連で説明してきたが、本発明の意図および範囲から逸脱することなく、形態および詳細に変更を加えることができることを当分野の技術者であれば理解されよう。

本発明を使用できる一環境を示すブロック図である。本発明を使用できる発話音声認識システムを示すブロック図である。本発明の一実施形態による発話音声検出システムを示すブロック図である。図３に示したシステムの一部の実施形態を示す図である。図３に示したシステムの一部の実施形態を示す図である。マイクロフォン信号および赤外線センサ信号について信号の大きさ対時間を示すグラフである。従来のマイクロフォンおよび発話音声センサの一実装形態を示す図である。骨感知（ｂｏｎｅ−ｓｅｎｓｉｔｉｖｅ）マイクロフォンを従来の音声マイクロフォンとともに示す図である。マイクロフォン信号および音声マイクロフォン信号についてそれぞれ信号の大きさ対時間を示すグラフである。咽喉マイクロフォンを従来の音声マイクロフォンとともに示す図である。インイヤ式マイクロフォン（ｉｎ−ｅａｒｍｉｃｒｏｐｈｏｎｅ）を接話マイクロフォンとともに示す図である。

符号の説明

４００話者
４０４マイクロフォン
４０６ A/D
４０７フレームコントラクタ
４０８特徴抽出器
４１２デコーダ
４２０信頼度モジュール
４２２出力モジュール
４２６訓練用テキスト
４２４トレーナー
４１８音響モデル
４１４辞書
４１６言語モデル
３０１発話音声センサ
３０３従来の（音声）マイクロフォン
３０２多感覚応用信号捕捉構成回路
３０４多感覚応用信号プロセッサ

Claims

感知された音声入力に基づいてマイクロフォン信号を出力する音声マイクロフォンと、
発話行為により生成された音声以外の入力に基づいてセンサ信号を出力する発話音声センサと、
前記マイクロフォン信号と前記センサ信号の第１の特徴の分散レベルとに基づいて、ユーザが話し中である確率を示す発話音声検出信号を出力する発話音声検出コンポーネントであって、前記センサ信号の前記第１の特徴は、ユーザが話し中の場合の第１の分散レベルとユーザが話し中でない場合の第２の分散レベルを有し、前記発話音声検出コンポーネントは、所定の時間にわたり前記第１の分散レベルと前記第２の分散レベルのうちの予め定められた一方である前記第１の特徴の基線分散レベルと比較して、前記センサ信号の前記第１の特徴の前記分散レベルに基づいて前記発話音声検出信号を出力し、前記発話音声検出コンポーネントは、前記発話音声検出信号に、前記マイクロフォン信号を乗ずることにより、結合信号を計算することを更に備える発話音声検出コンポーネントと、
前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加し、前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少した前記結合信号に基づいて、前記マイクロフォン信号内の発話音声を示す認識出力を提供するために発話音声を認識する発話音声認識器とを備える
ことを特徴とする発話音声検出システム。
前記基線分散レベルは、所定の時間にわたる前記第１の特徴の分散レベルを平均することによって計算されることを特徴とする請求項１に記載の発話音声検出システム。
前記基線分散レベルは、前記発話音声検出システムが動作中に断続的に再計算されることを特徴とする請求項１に記載の発話音声検出システム。
前記基線分散レベルは、分解時間窓にわたる前記第１の特徴の前記分散レベルを表すために周期的に再計算されることを特徴とする請求項３に記載の発話音声検出システム。
前記発話音声検出コンポーネントは、前記基線分散レベルと、前記センサ信号の前記第１の特徴の前記分散レベルとの比較結果に基づいて前記発話音声検出信号を出力し、前記比較は周期的に行われることを特徴とする請求項３に記載の発話音声検出システム。
前記比較は、前記基線分散レベルの再計算の頻度よりも高い頻度で行われることを特徴とする請求項５に記載の発話音声検出システム。
前記音声マイクロフォンと前記発話音声センサは、ヘッドフォンに搭載されていることを特徴とする請求項１に記載の発話音声検出システム。
発話音声検出システムを備えた発話音声認識システムであって、
前記発話音声検出システムは、
感知された音声入力に基づいてマイクロフォン信号を出力する音声マイクロフォンと、
発話行為によって生成された音声以外の入力に基づいてセンサ信号を出力する発話音声センサと、
前記マイクロフォン信号と前記センサ信号とに基づいてユーザが話し中である確率を示す発話音声検出信号を出力する発話音声検出コンポーネントであって、発話音声検出信号を前記マイクロフォン信号に乗ずることにより結合信号を生成する発話音声検出コンポーネントと、
前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加し、前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少した前記結合信号に基づいて前記感知された音声入力内の発話音声を示す認識出力を提供するために発話音声を認識する発話音声認識エンジンと
を備えることを特徴とする発話音声認識システム。
前記音声マイクロフォンと前記発話音声センサは、ヘッドフォンに搭載されていることを特徴とする請求項８に記載の発話音声認識システム。
音声マイクロフォンを用いて音声入力を表す第１の信号を生成すること、
顔の動きセンサによって感知されるユーザの顔の動きを表す第２の信号を生成すること、
前記第１の信号と前記第２の信号に基づいて前記ユーザが話し中である確率を示す発話音声検出信号である第３の信号を生成すること、
前記ユーザが話し中である可能性を前記第１の信号に乗ずることにより第４の信号を生成すること、
前記第４の信号と前記発話音声検出信号に基づき発話音声を認識すること
を含み、
前記発話音声を認識することは、
前記発話音声検出信号が前記ユーザが話し中であることを示す確率が高い場合に発話音声が認識される可能性が増加すること、
前記発話音声検出信号が前記ユーザが話し中であることを示す確率が低い場合に発話音声が認識される可能性が減少すること
を含むことを特徴とする発話音声認識方法。
前記第２の信号を生成することは、前記ユーザの顎および首のうちの一方の振動を感知することを含むことを特徴とする請求項１０に記載の方法。
前記第２の信号を生成することは、前記ユーザの口の動きを示す画像を感知することを含むことを特徴とする請求項１０に記載の方法。
前記ユーザが話し中であるかどうかを検出した結果に基づいて発話音声検出信号を提供することを更に含むことを特徴とする請求項１０に記載の方法。