JP5819324B2

JP5819324B2 - 複数の音声区間検出器に基づく音声区間検出

Info

Publication number: JP5819324B2
Application number: JP2012554993A
Authority: JP
Inventors: リ、テ−ウォン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-02-24
Filing date: 2010-12-14
Publication date: 2015-11-24
Anticipated expiration: 2030-12-14
Also published as: JP2013520707A; US8626498B2; EP2539887B1; CN102770909B; US20110208520A1; KR20120125986A; KR101479386B1; EP2539887A1; CN102770909A; WO2011106065A1

Description

分野

本開示は、一般的にスピーチ処理に関係し、より具体的には、音声区間検出に関係する。

背景

音声区間検出（voice activity detection：ＶＡＤ）は、人間のスピーチ（音声）の有無がオーディオ信号の部分内で検出されるスピーチ処理で使用される技術であり、オーディオ信号は、また、音楽、ノイズ、又は他の音を含む場合がある。ＶＡＤの主な用途は音声コーディングおよびスピーチ認識である。ＶＡＤは、スピーチ処理を促進することができ、また、非スピーチセグメント中に、いくつかのプロセスを非アクティブ（deactivate）にするために使用されることができる:それは、不必要なサイレンスのコーディング／送信を回避することができ、計算およびネットワーク帯域幅を減ずることができる。

ＶＡＤは、様々なスピーチベースのアプリケーションのための重要な使用可能技術である。慣習的に、ＶＡＤ情報は、入力オーディオ信号から、通信ハンドセットのような単一のデバイスにおいて局所的に通常推定される。

音声通信システムにおけるＶＡＤは、非常に多種の音響バックグラウンドノイズの存在する状況で音声を検出することができるべきである。騒々しい環境中の音声の検出における１つの困難は、時々遭遇する非常に低い信号対ノイズ雑音比（ＳＮＲ)である。これらの状況で、既知のＶＡＤ技術を使用して音声とノイズ又は他のサウンドとを区別することは多くの場合難しい。

概要

ここで開示される技術は、音声コーディングのような、スピーチ処理を強化するためにＶＡＤを改善する。開示されたＶＡＤ技術は、音声検出の正確性および信頼性を改善し、それと共に、ノイズ低減、エコーキャンセル、レートコーディングなどのような、ＶＡＤに依存する機能を改善する。ＶＡＤの改善は、１つ以上の別のデバイスから提供されてもよいＶＡＤ情報を使用することによって達成される。ＶＡＤ情報は、より正確なＶＡＤを提供する複数のマイクロフォンまたは他のセンサー種類を用いて生成されるとしてもよい。ＶＡＤ情報は、互いに接続されるとしてもよい複数のデバイスから来る。

ある態様にしたがって、音声区間検出（ＶＡＤ）の方法は、デバイスに含まれる第１の音声区間検出器からの第１のＶＡＤ信号を受け取ることと；前記デバイスに含まれない第２の音声区間検出器からの第２のＶＡＤ信号を受け取ることと；前記第１および第２のＶＡＤ信号をＶＡＤ出力信号に組み合わせることと；前記ＶＡＤ出力信号に基づいて音声区間を検出することと、を含む。

別の態様にしたがって、システムは、デバイスに含まれ、第１のＶＡＤ信号を生成するように構成される第１の音声区間検出器と；前記デバイスに含まれず、第２のＶＡＤ信号を生成するように構成される第２の音声区間検出器と；前記第１および第２の音声区間検出器との通信において、前記第１および第２のＶＡＤ信号をＶＡＤ出力信号に組み合わせるように構成される制御ロジックと、を含む。

別の態様にしたがって、システムは、第１の位置で、音声区間を検出する第１の手段と；第２の位置で、音声区間を検出する第２の手段と；前記第１および第２の手段からの出力を、ＶＡＤ出力信号に組み合わせる手段と、を含む。

さらなる態様にしたがって、１つ以上のプロセッサによって実行可能な命令のセットを包含するコンピュータ可読媒体は、デバイスに含まれる第１の音声区間検出器からの第１のＶＡＤ信号を受け取るコードと；前記デバイスに含まれない第２の音声区間検出器からの第２のＶＡＤ信号を受け取るコードと；前記第１および第２のＶＡＤ信号を、ＶＡＤ出力信号に組み合わせるコードと、を含む。

他の態様、特徴、および利点は、以下の図面および詳細な説明の考察から、当業者に明確であるか、または、明確になるであろう。そのようなすべての追加の特徴、態様、および利点がこの記述内に含まれ、添付している請求項によって保護されることが意図される。

図面はもっぱら例示の目的であることは理解されるべきである。さらに、図の中のコンポーネントは必ずしもその大きさで作られず、ここに記述される技術の原理の例示する上で配置が取り替られることは重要である。図において、同じ参照番号は、異なる考察を通じて対応する部分を示す。
図１は、例示的な音声区間検出（ＶＡＤ）システムの図である。図２は、図１のシステムを使用するボイス区間（voice activity）の検出の方法を例示するフローチャートである。図３は、図１に示される外部ＶＡＤでのＳＮＲの機能に関してＶＡＤ信号の重み付け因子を示す例示的なグラフである。図４は、図１に示される内部ＶＡＤでのＳＮＲの機能に関してＶＡＤ信号の重み付け因子を示す例示的なグラフである。図５は、ＶＡＤシステムを含む例示的なヘッドセット／ハンドセットの組み合わせを示す図である。図６は、図５のヘッドセットおよびハンドセットに含まれるいくらかのコンポーネントを示すブロック図である。図７は、図６に示されるハンドセットプロセッサのいくらかのコンポーネントを示すブロック図である。

詳細な説明

以下の詳細な説明は、図を参照しおよび組み込み、１つ以上の特定の実施形態を記述または例証する。これらの実施形態は、限定のためではなくただ例証しおよび教えるために提示され、主張されるものを当業者が実施可能なように十分詳細に示されおよび記述されている。したがって、簡潔かのために、この記述は、当業者に既知のいくらかの情報を省略する場合がある。

用語「例示的」は、「例、実例、または例証として与えること」を意味するために、本開示にわたって使用される。「例示的」としてここで記述されるいずれのものも、かならずしも他のアプローチまたは特徴に関してより好ましいまたは有益であるとして解釈されない。

従来のスピーチ処理システムにおいて、音声区間検出（ＶＡＤ）は、典型的に、マイクロフォン信号のようなオーディオ入力信号から推定され、マイクロフォン信号は、例えばセルフォンのマイクロフォン信号である。ＶＡＤは、ボコーダおよびスピーチ認識デバイスのような、多数のスピーチ処理デバイスにおける重要な機能である。

ここで開示されるように、音声区間検出器は、主要なデバイス（例えば、コンピュータ、セルフォン、他のハンドヘルドデバイスなど）に接続されてもよい分離のデバイスに配置される。主要なデバイス内で、分離のデバイスのＶＡＤ情報は、さらに、処理されてもよく、スピーチ処理が起こる。

例えば、ブルートゥース（登録商標）ヘッドセットは、セルフォンに接続されてもよい。セルフォンにおけるボコーダは、セルフォンのマイクロフォン入力信号を通常使用するＶＡＤアルゴリズムを含むとしてもよい。ブルートゥースヘッドセットがセルフォンに活動的に接続される場合、ブルートゥースヘッドセットのマイクロマイクロフォン信号は、セルフォンのマイクロフォン信号の代わりに、または、セルフォンのマイクロフォン信号と組み合わせて、ＶＡＤアルゴリズムによって使用される。もし、ブルートゥースヘッドセットが、複数のマイクロフォン、骨伝導または皮膚振動マイクロフォンのような追加情報、または、ユーザ（ターゲット）のＶＡＤを正確に推定するために電磁気（ＥＭ）ドップラーレーダ信号を使用する場合、この外部ＶＡＤ情報は、次に、ボコーダの性能を改善するために、セルフォンのボコーダの中で使用される。外部ＶＡＤ情報は、ノイズ推定アップデート、エコーキャンセラ（ＥＣ）、レート制御、などのような、ボコーダ機能を制御するために採用されることができる。外部ＶＡＤ信号は、ヘッドセットからハンドセットへの１ビット信号とすることができ、ヘッドセットへ送信されるオーディオ信号へエンコード化されることができ、あるいは、それはヘッダ情報としてブルートゥースパケットへ埋め込まれることもできる。受信するハンドセットはこの外部ＶＡＤ信号をデコードし、次に、ボコーダでそれを使用するように構成される。

骨伝導および皮膚振動マイクロフォンでは、ユーザが話す場合、ユーザの皮膚および頭骨が振動し、マイクロフォンは皮膚振動をアナログ電気信号に変換する。音声信号は、従来のマイクロフォンを使用する他のヘッドセットのように口からヘッドセットまで空気を通して渡されないので、骨伝導および皮膚振動マイクロフォンは、騒々しい環境で利点を備える。したがって、周辺のノイズは、ハンドセットに渡されたオーディオ信号から有効に除去される。

音響ドップラーレーダデバイスを使用する音声区間検出のために、センサが、スピーカーの口の動的なステータスを検出するために使用される。オペレーションの周波数で、バックグラウンドノイズは、大きく減じられ、ほとんどのオペレーティング状態においてデバイスを外部の音響ノイズに対して強固にする。例えば、骨伝導および皮膚振動センサのような他の非音響センサと異なり、レーダデバイスは、スピーカーに対してテープで留めるまたは装着される必要がなく、ほとんどの状況においてより好ましい。

外部ＶＡＤ信号は、ブルートゥース（ＢＴ）パケットの１ビットのフラグである場合、１ビットのフラグは、各ブルートゥースパケットのヘッダ中のアクセスコードまたはタイプフィールドのトレーラーに含まれることができる。あるいは、１ビットのＶＡＤフラグは、ブルートゥースパケットのペイロードセクションの指定された位置に含まれることができる。いずれの場合も、ＶＡＤ信号は、各ＢＴのパケットに含まれるシングルのビットフラグである。フラグがセットされる場合、それはブルートゥースパケットが外部ＶＡＤによって検出された音声を含むことを示す。ＶＡＤフラグがセットされない場合、音声はブルートゥースパケットのオーディオペイロードの中に存在しない。ＢＴのヘッダに埋め込まれるただ１つの１ビットのフラグを送ることは、個別の信号(ブロックまたはＢＴパケット当たり１ビット)を提供する。外部ＶＡＤ信号を表すより多くのビットを持つフラグまたは複数のフラグは、代替として使用されてもよい。

外部ＶＡＤは、在来のＶＡＤで、特に、低い雑印対ノイズ比（ＳＮＲ）シナリオで、非静止ノイズおよび競い合う音声の場合、他の音声が存在することがある他の場合、たびたび経験されるスピーチ処理エラーを低減する。さらに、ターゲット音声は識別されることができ、外部ＶＡＤは、ターゲットの音声区間の信頼できる推定を提供することができる。より信頼でき、かつ、正確なＶＡＤは、以下のスピーチ処理機能を改良するために使用されることができる:ノイズ低減（ＮＲ）、すなわち、より信頼できるＶＡＤで、より高いＮＲが非音声セグメントにおいて実行されることができる；音声および非音声セグメントの推定；エコーキャンセル（ＥＣ）、改善されたダブル検出スキーム；および、より積極的なレートコーディングスキームを可能にするレートコーディングの改善（非音声セグメントに対するより低いレート）。

図１は、例示的な音声区間検出システム１０の図である。システム１０は、デバイス１２と、１つ以上のマイクロフォン１６のような音響センサと接続される外部音声区間検出器（ＶＡＤ）１４とを含む。外部ＶＡＤ１４に関連する音響センサは、代替的に、１つ以上の骨伝導または皮膚振動マイクロフォン、または、電磁気（ＥＭ）ドップラーレーダデバイス、または、そのようなセンサおよび／またはマイクロフォンの任意の適切な組み合わせ、であるか、または、追加で含むことができる。

デバイス１２は、内部音声区間検出器（ＶＡＤ）、制御ロジック２０、ボコーダのようなスピーチプロセッサ２２、１つ以上のマイクロフォン２４、センサ２６を含む。デバイス１２は、コンピュータ、ラップトップ、電話のような通信デバイス、セルラーフォン、携帯情報端末（ＰＤＡ）、ゲームデバイスなどのような、ここで開示される機能を実行するように構成された任意の適切な電子デバイスとしてもよい。

内部ＶＡＤ１８は、ＶＡＤアルゴリズムを実行する任意の適切なデバイスであるとしてもよく、スピーチプロセッサ２２の一部として統合されてもよい。制御ロジック２０は、外部ＶＡＤ１４、内部ＶＡＤ１８およびセンサ２６からのＶＡＤ信号に反応する。

センサ２６は、環境オペレーティング状態を感知し、そのような状態に基づいて制御ロジック２０へ入力を提供する。そのような状態は、制御ロジック２０によって生成されるＶＡＤ出力信号を決定するために使用される。センサ２６は、音響ノイズレベル、例えばデバイス１２でおよび／または外部ＶＡＤ１４でまたはその近くで測定された信号対ノイズ比（ＳＮＲ）のような、１つ以上の環境オペレーティング状態に基づく制御入力を出力するとしてもよい。センサ２６は、マイクロフォン１６，２４のうちの一方または双方を含むとしてもよい。

外部ＶＡＤ１４は、デバイス１２の外部に配置され、制御ロジック２０によって受け取られる外部ＶＡＤ信号を生産する。外部ＶＡＤ１４は、ＶＡＤアルゴリズムを実行する任意の適切なデバイスでもよい。外部ＶＡＤ１４は、ヘッドセット、スピーカーフォン、自動車キットなどのような分離の装置に含まれてもよい。

外部ＶＡＤ１４とデバイス１２とは、任意の適切な通信媒体およびプロトコルを使用して互いに通信するとしてもよい。外部ＶＡＤ１４とデバイス１２との間の接続は、ｗｗｗ．ｂｌｕｅｔｏｏｔｈ（登録商標）．ｃｏｍで利用可能なブルートゥース仕様によって定義される、例えばブルートゥースリンクである、無線周波数（ＲＦ）または赤外線（ＩＲ）リンクのような、ワイヤー接続またはワイヤレス接続とすることができる。外部ＶＡＤ信号は、デバイス１２に転送されたオーディオデータでエンコードされることができ、または、それは、上述されるようなブルートゥースパケットのようなオーディオパケットに含まれたフラグでとすることができる。

制御ロジック２０は、ＶＡＤ出力信号へ外部および内部ＶＡＤ信号を組み合わせてもよい。制御ロジック２０は、センサ２６からの環境の入力に基づく重み付け因子を使用して、ＶＡＤ信号の各々を重み付けすることにより、入力ＶＡＤ信号を組み合わせることができる。使用されてもよい重み付け因子および方法のいくつかの例が、図３および４に関して以下で説明される。音声区間は、ＶＡＤ出力信号に基づいて検出されることができる。図１に示される例において、ＶＡＤ出力信号は、スピーチプロセッサ２２に提供され、スピーチプロセッサ２２は、ＶＡＤ出力信号としきい値とを比較し、音声がスピーチプロセッサ２２によって処理されているオーディオ信号の中に存在するか否か決定する。

スピーチプロセッサ２２は、ボコーダのような音声区間検出を頼る任意のタイプのスピーチ処理コンポーネントであるとしてもよい。例えば、スピーチプロセッサ２２は、「Enhanced Variable Rate Codec, Speech Service Option 3 for Wideband Spread Spectrum Digital Systems」で指定されたenhanced variable rate codec（ＥＶＲＣ）のようなＥＶＲＣ、または、２００４年４月付けの3GPP2, No.3GPP2 C.S0014-Aとすることができる。

内部および外部ＶＡＤ１８および１４によって使用されるＶＡＤアルゴリズムは、例えば当業者に現在知られている任意の適切なＶＡＤアルゴリズムとすることができる。例えば、エネルギーベースのＶＡＤアルゴリズムが使用されてもよい。このタイプのＶＡＤアルゴリズムは信号エネルギーを計算し、信号エネルギーレベルとしきい値とを比較し、音声区間を決定する。ゼロクロスカウントタイプのＶＡＤアルゴリズムが使用されてもよい。このタイプのＶＡＤアルゴリズムは、入力オーディオ信号がポジティブからネガティブへおよびその逆で変動する場合に、フレームあたりのゼロクロスの数をカウントすることにより音声の存在を決定する。ゼロクロスのあるしきい値は、音声区間を示すために使用されてもよい。さらに、ピッチ推定および検出アルゴリズムは、フォルトマントおよび／またはケプストラム係数を計算して音声の存在を示すＶＡＤアルゴリズムと同様に、音声区間を検出するために使用されることができる。他のＶＡＤアルゴリズムまたは上記のＶＡＤアルゴリズムの任意の適切な組み合わせは、代替として／追加として、内部および外部ＶＡＤ１８，１４によって使用されてもよい。

図２は、図１のシステム１０を使用して音声区間を検出する方法を例証するフローチャート１００である。決定ブロック１０２では、例えば外部ＶＡＤ１４である外部ＶＡＤが利用されるか否か決定するためのチェックが行われる。もし、そうでなければ、方法はブロック１１０に進み、ここで、音声が、例えば内部ＶＡＤ１８である、内部ＶＡＤからのＶＡＤ信号出力に基づいて検出される。

もし、外部ＶＡＤが利用可能であれば、方法はブロック１０４に進む。ブロック１０４では、外部ＶＡＤの機能が決定される。外部ＶＡＤの機能は、例えば、骨伝導マイクロフォン、オーディオマイクロフォン、皮膚振動センサ、マイクロフォンのアレイ、ドップラーレーダデバイス、または上記の任意の適切な組み合わせである、外部ＶＡＤによって使用される音響センサのタイプに基づいている。

ブロック１０６において、環境オペレーティング状態が決定される。その状態は、外部ＶＡＤまたはデバイスでの、または、その近くにおける環境状態を含むとしてもよい。例えば、オペレーティング状態は、外部ＶＡＤおよび／またはデバイスの位置で測定されたバックグラウンドノイズを含むとしてもよい。オペレーティング状態は、外部ＶＡＤ、デバイスまたは双方の位置で測定された信号対ノイズ比（ＳＮＲ）を含むとしてもよい。

環境オペレーティング状態に基づいて、制御ロジックは、ＶＡＤ出力信号の決定において、外部ＶＡＤからのＶＡＤ信号のみが使用されること（ブロック１０８）、内部ＶＡＤからのＶＡＤ信号のみが使用されること（ブロック１１０）、または、外部および内部ＶＡＤ信号が使用されること（ブロック１１２−１１６）を決定するとしてもよい。

もし、外部ＶＡＤ信号のみが使用される場合には、次に、音声信号は外部ＶＡＤ信号のみに基づいて検出される(ブロック１０８)。もし、内部ＶＡＤ信号のみが使用される場合には、次に、音声信号は内部ＶＡＤ信号のみに基づいて検出される(ブロック１１０)。

もし、オペレーティング状態が内部および外部ＶＡＤ信号の双方の使用を許可するなら、例えば、内部ＶＡＤの位置で比較的大量の音響バックグラウンドノイズがある場合、次に、外部ＶＡＤ信号の信頼が推定され（ブロック１１２）、内部ＶＡＤ信号の信頼も推定される（ブロック１１４）。信頼レベルは、例えば、それぞれ、各ＶＡＤ位置での測定されたＳＮＲまたは他の環境状態の関数に関して、各ＶＡＤ信号に対する重み付け因子（例えば、確率値）を決定することにより、計算されることができる。そのうえ、確率値は、対応する信頼レベルを得るために、例えば、それぞれ、ＶＡＤ信号と確率値とを掛け算することによって、重み付け因子としてそれぞれのＶＡＤ信号に適用されることができる。各確率値は、ゼロと１との間の値としてもよい。図３−４は、確率値と各位置で測定されたＳＮＲとの間の例示的な関係を描くグラフを示す。重み付け因子は、ＳＮＲを除く環境状態に基づくとしてもよい。

ブロック１１６において、音声区間は、組み合わされた外部および内部ＶＡＤ信号に基づいて制御ロジックによって検出される。組み合わされたＶＡＤ信号は、重み付けされた外部および内部ＶＡＤ信号の合計としてもよく、例えば：
Ｙ＝Ｐ₁＊Ｖ₁＋Ｐ₂＊Ｖ₂，式１
であり、Ｙ＝ＶＡＤ出力信号、Ｐ₁＝外部確率値、Ｖ₁＝外部ＶＡＤ信号、Ｐ₂＝内部確率値、Ｖ₂＝内部ＶＡＤ信号である。式１の各項Ｐ₁＊Ｖ₁およびＰ₂＊Ｖ₂は、信頼レベルを表わす。いくつかの状況において、外部および内部外部確率値Ｐ₁，Ｐ₂は、それぞれ０と１の範囲内であり、またさらに、確率値の合計は、１の値であるように要求されてもよい。ＶＡＤ出力信号は、音声区間がオーディオ信号内に存在するか否かを決定するために、しきい値と比較される。もし、ＶＡＤ出力信号が例えばしきい値を越える場合、音声はオーディオ信号の中に存在する。反対に、ＶＡＤ出力信号がしきい値以下の場合、例として、音声はオーディオ信号の中に存在しない。他のしきい値の比較が使用されてもよい。使用されてもよい別の例示的な重み付け式は、次のように表現され:
Ｙ＝Ｐ＊Ｖ₁＋（１−Ｐ）＊Ｖ₂，式２
ここで、ここでＰはＰ₁またはＰ₂のいずれかである。Ｐに値を割り当てることによって、（１−Ｐ）の値は、Ｖ₂のための残りの重み付け因子として得られ、Ｙを計算する。

図３は、例である、外部ＶＡＤ信号の重み付け因子Ｐ₁と、図１で示される外部ＶＡＤ１４で測定される環境オペレーティング状態ｎ、すなわちＳＮＲ、との間の例示的な関係を示すグラフ２００である。測定されたＳＮＲは垂直軸上に表わされ、確率値は水平軸上に表わされる。一般に、この例では、ＳＮＲは外部ＶＡＤ信号の重み付け因子と直接的な関係を持ち、すなわち、ＳＮＲが増加すると重み付け因子も一般的に増加し、反対に、ＳＮＲが減少すると重み付け因子も減少する。

図４は、例である、内部ＶＡＤ信号の重み付け因子Ｐ₂と、図１で示される内部ＶＡＤ１８で測定される環境オペレーティング状態ｎ、すなわちＳＮＲ、との間の例示的な関係を示すグラフ３００である。測定されたＳＮＲは垂直軸上に表わされ、確率値は水平軸上に表わされる。一般に、この例では、ＳＮＲは内部ＶＡＤ信号の重み付け因子と直接的な関係を持ち、すなわち、ＳＮＲが増加すると重み付け因子も一般的に増加し、反対に、ＳＮＲが減少すると重み付け因子も減少する。

グラフ２００，３００は、例の関係のただ１つのセットを示す。異なる確率関数は、外部または内部ＶＡＤのために使用されることができる。図３−４は、重み付け因子と測定された環境オペレーティング状態（例えば、ＳＮＲ）との間の概ねＳ字状の関係を例示するが、線形の関係のような他の関係が、測定された環境状態から重み加け因子を導き出すために利用されてもよい。

外部および内部ＶＡＤの重み付け因子が上記式２で与えられるように関連付けられる状況では、１つのグラフが、環境オペレーティング状態と重み付け因子との間の関係を例示するために使用されることができ、別のウェイト因子の値は直接計算されることができる。例えば、式２を使用すると、第２の重み付け因子は、１−Ｐから計算されることができる。

一般に、Ｐ₁およびＰ₂の間の関係は、ＶＡＤが、内部ＶＡＤまたは外部ＶＡＤのいずれかで、より高い信頼性で音声区間を決定していることの推定を反映する。これは、ほとんどＶＡＤの特性に依存する。例えば、マイクロフォン入力信号に依存する場合がある内部ＶＡＤに対して、内部ＶＡＤ信号の信頼度は、デバイスでの測定ＳＮＲに高度に依存し、図４のグラフが当てはまるとしてもよい。しかしながら、例えばワイヤレスヘッドセットのような外部デバイスでは、骨伝道マイクロフォンが使用されてもよい。骨伝道マイクロフォンが使用される場合、外部ＶＡＤ信号の信頼度は、例えば、ＳＮＲに必ずしも依存せず、その代わりに、どのくらい骨伝導センサがユーザの皮膚領域に正確に触れるか、および、正確に振動と骨伝導を検出するかに依存する。この場合、外部重み付け因子Ｐ₁は、必ずしも図３に示されるようなＳＮＲの関数ではなく、ユーザの皮膚への骨伝道センサの接触のレベルの関数である。センサがユーザの皮膚に触れるほど、Ｐ₁の値が大きくなる。

ヘッドセットのような外部デバイスに例えば配置される骨伝送センサと、ハンドセットのような主要なデバイスに例えば配置されるオーディオマイクロフォンとを組み合わせたシステムでは、Ｐ₁は、Ｐ₁が外部デバイスの有用性および着用に依存するように、環境オペレーティング状態へ関連付けられるとしてもよく、センサはユーザの皮膚に触れ、または、いくらかの場合には触れない。この状態は、内部およびまたは外部ＶＡＤのオペレーションに基づく履歴データ、および／または、統計に基づいて、推定されるとしてもよい。内部ＶＡＤ信号に対するＰ₂は、測定されたＳＮＲに基づくとしてもよい。

グラフ２００，３００に例示されたものを含む上述の重み付け因子と確率値とは、ルックアップテーブルに記憶されることができる。

図５は、ＶＡＤシステム１０の機能性を組み込むヘッドセット４０２およびハンドセット４０４を含む例示的なヘッドセット／ハンドセットの組み合わせ４００を示す図である。図１のシステム１０は、少なくともいくつかの異なるオペレーションのシナリオにおいて使用されることができる。図５に示される例において、ＶＡＤシステム１０の機能は、以下でより詳細に説明されるように、４００ヘッドセット／ハンドセットの組み合わせに組み入れられる。この環境において、外部ＶＡＤ情報は、ヘッドセット４０２に測定される。この測定は、付加的マイクロフォンまたはマイクロフォン、あご振動マイクロフォン／センサ、または、電磁気（ＥＭ）の、例えば、ドップラーレーダセンサのような、ヘッドセット４０２に含まれるいずれかのもの、からとすることができる。この外部ＶＡＤ情報は、次に、外部ＶＡＤ信号として、バイナリまたは連続信号の形式のいずれかで、ハンドセット４０４に送られる。外部ＶＡＤ情報は、オーディオデータストリームへエンコードされるか、または、送られたパケットのヘッダへ埋め込まれることができる。ＶＡＤ情報は、次に、ハンドセット４０４でデコードされ、特にＥＶＲＣのようなボコーダの性能を改善するためにさらなる処理に使用される。

ブルートゥースワイヤレスリンクは、ヘッドセット４０２とハンドセット４０４との間で好ましく使用される。外部ＶＡＤ信号がパケットヘッダに含まれている構成において、外部ＶＡＤ信号は、ブルートゥース（ＢＴ）パケットの１ビットのフラグであり、１ビットのフラグは、各ブルートゥースパケットヘッダ中のアクセスコードまたはタイプフィールドのトレーラーに含むことができる。あるいは、１ビットのＶＡＤフラグは、ブルートゥースパケットのペイロードセクションの指定された位置に含まれることができる。いずれの場合も、ＶＡＤ信号は、各ＢＴパケットに含まれたシングルビットのフラグである。フラグがセットされる場合、それはブルートゥースパケットが外部ＶＡＤによって検出された音声を含むことを示す。ＶＡＤフラグがセットされない場合、音声はブルートゥースパケットのオーディオペイロードの中に存在しない。ＢＴヘッダに埋め込まれるたった１つの１ビットのフラグを送ることは、個別の信号(ブロックまたはＢＴパケット当たり１ビット)を提供する。外部ＶＡＤ信号を表すより多くのビットを持つフラグまたは複数のフラグは、代替として使用されてもよい。

連続的なＶＡＤ信号は、任意の適切なオーディオウォーターマーキング技術を使用してオーディオストリームにエンコードされてもよい。オーディオウォーターマーキングを使用して、ＶＡＤ信号は、聞き取れない範囲のオーディオデータに変調され、例えば、としても低い周波数のＶＡＤ信号または高い周波数のＶＡＤ信号に変調される。オーディオウォーターマーキングは、連続的なＶＡＤ信号をエンコードする例えばヘッドセットのような外部デバイスにおけるオーディオウォーターマーキング前処理を加えることにより実行されることができ；および、オーディオデータから連続的なＶＡＤ信号を抽出するためにオーディオデータをデコードする例えばハンドセットのような主要なデバイスにおけるオーディオウォーターマーキング前処理も加えることができる。

ハンドセット４０４は、２次的なワイヤレス通信インタフェース、好ましくはブルートゥースインタフェースを含む、セルラーフォン、ゲームデバイス、または、ＰＤＡのような、ポータブルワイヤレス通信デバイスとしてもよい。

ヘッドセット４０２は、ワイヤレスヘッドセット、好ましくはブルートゥースヘッドセットである。ヘッドセット４０２およびハンドセット４０４は、短距離ワイヤレスリンク、例えばブルートゥースをわたって互いと通信する。デジタル化されたオーディオは、ブルートゥース仕様によって定義されるような、従来のブルートゥースプロフィール(例えばＨＳＰ)およびプロトコルを使用してヘッドセット４０２とハンドセットとの間で転送されてもよく、ブルートゥースパケットヘッダは、いくらかの構成において、外部ＶＡＤのフラグを含むように変更されるとしてもよい。

図６は、図５のヘッドセット４０２およびハンドセット４０４に含まれるあるコンポーネントを示すブロック図である。

ヘッドセット４０２は、１つ以上のマイクロフォン４０６、マイクロフォンプリプロセッサ４０８、外部ＶＡＤ４１０、およびワイヤレスインターフェース４１２を含む。ワイヤレスインタフェース４１２は、トランシーバ４１６を含む。マイクロフォンプリプロセッサ４０８は、マイクロフォン４０６から受け取られた電子信号を処理するように構成される。マイクロフォンプリプロセッサ４０８は、アナログデジタル変換器（ＡＤＣ）および他のアナログおよびディジタル処理回路類を含むとしてもよい。ＡＤＣは、マイクロフォン４０６からのアナログ信号をデジタル信号に変換する。次に、これらのデジタル信号は、ワイヤレスインタフェース４１２によって処理されるとしてもよい。マイクロフォンプリプロセッサ４０８は、市販のハードウェア、ソフトウェア、ファームウェア、または、それの任意の適切な組み合わせを使用して実装されるとしてもよい。

ヘッドセット４０２は、さらにまたは代わりに、１つ以上のあごまたは皮膚振動センサ、および／または、電気−磁気（ＥＭ）の例えば音声区間を検出するためのドップラーレーダセンサを含むとしてもよい。これらのセンサの出力は、マイクロフォン信号（ｍｉｃ２信号）の代わりに、または、マイクロフォン信号（ｍｉｃ２信号）と結合して、外部ＶＡＤ４１０に提供される。

ワイヤレスインタフェース４１２は、ハンドセット４０４およびもし必要であれば他のデバイスとの双方向ワイヤレス通信を提供する。好ましくは、ワイヤレスインタフェース４１２は、ブルートゥースＲＦトランシーバ、ベースバンドプロセッサ、プロトコルスタックからなる少なくともブルートゥースコアシステムを提供する市販のブルートゥースモジュールを含み、同様に、モジュールとヘッドセット４０２におけるプロセッサ４１４のようなコントローラとを接続するためのハードウェアおよびソフトウェアインタフェースを含む。任意の適切なワイヤレス技術は、ヘッドセット４０２で使用されることができ、トランシーバ４１６は好ましくはブルートゥーストランシーバである。ワイヤレスインタフェース４１２は、ヘッドセットコントローラ(例えば、プロセッサ４１４)によって制御されてもよい。

外部ＶＡＤ４１０は、ソフトウェアコードを実行するプロセッサ４１４によって実装されることができる。外部ＶＡＤ４１０は、ここに記述されるＶＡＤアルゴリズムのうちのいずれであっても含むＶＡＤアルゴリズムを実行する任意の適切なデバイスとしてもよい。外部ＶＡＤ４１０は、マイクロフォン４０６または他のセンサからの入力に基づいて外部ＶＡＤ信号を出力する。外部ＶＡＤ信号は、次に、プロセッサ４１４によって、上述のように、シングルビットのフラグとしてブルートゥースオーディオパケットヘッダへ埋め込まれる。ヘッドセット／ハンドセットシステムの代替の構成において、プロセッサ４１４は、オーディオウォーターマーキングアルゴリズムを使用してデジタル化されたｍｉｃ２信号上のＶＡＤ信号をエンコードする。

ワイヤレスインタフェース４１２は、ブルートゥースオーディオパケット中のデジタル化されたｍｉｃ２信号および外部ＶＡＤ信号を、ブルートゥースワイヤレスリンクによって、ハンドセット４０４のワイヤレスインタフェース４２８へ転送する。

プロセッサ４１４は、例えば、ＡＲＭ７、デジタル信号プロセサ（ＤＳＰ）１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、個別のロジック、または、それらの任意の適切な組み合わせであるマイクロプロセッサのような、任意の適切なコンピューティングデバイスとしてもよい。

ハンドセット４０４は、１つ以上のマイクロフォン４１８、マイクロフォンプリプロセッサ４２０、内部ＶＡＤ４２２、制御ロジック４２４、ボコーダ４２６、およびワイヤレスインタフェース４２８を含む。ワイヤレスインタフェース４２８は、トランシーバ４３２を含む。

ワイヤレスインタフェース４２８は、ヘッドセット４０２およびもし必要であれば他のデバイスとの双方向ワイヤレス通信を提供する。好ましくは、ワイヤレスインタフェース４２８は、ブルートゥースＲＦトランシーバ、ベースバンドプロセッサ、プロトコルスタックからなる少なくともブルートゥースコアシステムを提供する市販のブルートゥースモジュールを含み、同様に、モジュールとハンドセット４０４におけるプロセッサ４３０のようなコントローラとを接続するためのハードウェアおよびソフトウェアインタフェースを含む。任意の適切なワイヤレス技術は、ハンドセット４０４で使用されることができ、トランシーバ４３２は好ましくはブルートゥーストランシーバである。ワイヤレスインタフェース４２８は、ハンドセットコントローラ(例えば、プロセッサ４３０)によって制御されてもよい。

内部ＶＡＤ４２２、制御ロジック４２４、およびボコーダ４２６は、ソフトウェアコードを実行するプロセッサ４３０によって実装されることができる。プロセッサ４３０は、例えば、ＡＲＭ７、デジタル信号プロセサ（ＤＳＰ）１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、個別のロジック、または、それらの任意の適切な組み合わせであるマイクロプロセッサのような、任意の適切なコンピューティングデバイスとしてもよい。

制御ロジック４２４は、外部ＶＡＤ４１０および内部ＶＡＤ４２２からのＶＡＤ信号、および、ヘッドセットマイクロフォン４０６（ｍｉｃ２信号）およびハンドセットマイクロフォン４１８（ｍｉｃ１信号）からのデジタル化されたマイクロフォン信号、に反応する。制御ロジック４２４は、ボコーダ４２６に提供されるＶＡＤ出力信号を出力する。制御ロジック４２４は、ＶＡＤ出力信号を生成するために、外部および内部ＶＡＤ信号を重み付けすることによって外部および内部ＶＡＤ信号を組み合わせるとしてもよい。ＶＡＤ信号の重み付けは、以上で説明されたように実行されてもよく、各ＶＡＤ信号に適用される重み付け因子は、以上で説明されたように、ハンドセット４０４またはヘッドセット４０２のいずれかに含まれる１つ以上のセンサ（図示されず）によって測定された環境オペレーティング状態に基づくとしてもよい。

ボコーダ４２６は、ＶＡＤ出力信号に基づいて音声区間を検出する。音声区間は、パケットごとのベースで個々のオーディオパケットに対して決定されるとしてもよい。ＶＡＤ出力信号は、音声がボコーダ４２６によって処理されているオーディオ信号(パケット)の中にあるかどうか判断するためにＶＡＤ出力信号としきい値とと比較するボコーダ４２６に提供される。

制御ロジック４２４は、また、処理およびエンコード化のために、マイクロフォン４０６，４１８からボコーダ４２６にデジタル化されたオーディオ信号（ｍｉｃ１およびｍｉｃ２信号)を提供する。ボコーダ４２６は、いずれのマイクロフォン４０６，４１８がスピーチを受け取るために現在使用されているかに依存して、いずれかのマイクロフォン信号を処理するために選択することができる。エンコードされたスピーチ(音声)信号は、ボコーダ４２６によって出力される。ボコーダ４２６は、３ＧＰＰ２によって指定されるＥＶＲＣを含むがこれに限定されない、任意の適切な音声コーディングアルゴリズムを実行することができる。エンコードされたスピーチは、次に、ＷＷＡＮインターフェース６３０を使用してＷＷＡＮに送信されることができる。

ハンドセット４０４は、また、セルラネットワークのようなワイヤレス広域ネットワーク（ＷＷＡＮ）と通信するために必要な全体の物理インタフェースを含むＷＷＡＮインタフェース６３０を含む。ＷＷＡＮインタフェース６３０は、ＷＷＡＮの基地局とワイヤレス信号を交換するように構成されたワイヤレストランシーバを含む。ＷＷＡＮインタフェース６３０は、ＷＷＡＮとワイヤレス信号を交換し、音声コールおよびＷＷＡＮを越える接続されたデバイスへのデータ転送を促進する。接続されたデバイスは、他のＷＷＡＮターミナル、地上通信線電話、または、ボイスメールサーバ、インターネットサーバなどのようなネットワークサービスエンティティとしてもよい。適切なワイヤレス通信ネットワークの例は、符号分割多元接続（ＣＤＭＡ）ベースのネットワーク、ＷＣＤＭＡ、ＧＳＭ（登録商標）、ＵＴＭＳ、ＡＭＰＳ、ＰＨＳネットワークなどを含むが、これに限定されない。

図７は、図６に示されるハンドセットプロセッサ４３０のあるコンポーネントを示すブロック図である。プロセッサ４３０は、メモリ５０２に接続されるマイクロプロセッサ（ｕＰ）５００を含む。メモリ５０２は、制御ロジックプログラム５０４、ボコーダプログラム５０６および内部ＶＡＤプログラム５０８を記憶する。制御ロジックプログラム５０４は、ｕＰ５００によって実行される場合に、制御ロジック４２４の機能性を提供するソフトウェア／ファームウェアコードを含む。ボコーダプログラム５０６は、ｕＰ５００によって実行される場合に、ボコーダ４２６の機能性を提供するソフトウェア／ファームウェアコードを含む。内部ＶＡＤプログラム５０８は、ｕＰ５００によって実行される場合に、内部ＶＡＤ４２２の機能性を提供するソフトウェア／ファームウェアコードを含む。個別のプログラムがあるとして例示されているが、制御ロジックプログラム５０４、ボコーダプログラム５０６、および内部ＶＡＤプログラム５０８は１つ以上のプログラムとして組み合わされることができる。

メモリ５０２およびマイクロプロセッサ５００は、互いに連結されることができ、共通バス上で通信することができる。メモリ５０２およびマイクロプロセッサ５００は、シングルチップ上に集積されてもよく、または、それらは、個別のコンポーネント、または集積されたおよび離散のコンポーネントの任意の適切な組み合わせとしてもよい。さらに、他のプロセッサ−メモリアーキテクチャは、マルチプロセッサおよび／またはマルチメモリアレンジメントのように、代替として使用されてもよい。

マイクロプロセッサ５００は、ＡＲＭ７、ＤＳＰ、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルプゲートアレイ（ＦＰＧＡ）、コンプレックスプログラマブルロジック（ＣＰＬＤ）、個別のロジック、またはそれらの任意の適切な組み合わせのような、任意の適切なプロセッサまたはコントローラとすることができる。

代替として、マイクロプロセッサＤＳＰコンビネーションのような複数のプロセッサを持つマルチプロセッサアーキテクチャは、ハンドセット４０４中のプロセッサ４３０を実装するために使用されてもよい。例示的なマルチプロセッサアーキテクチャにおいて、ＤＳＰは、内部ＶＡＤ４２２、制御ロジック４２４およびボコーダ４２６の機能のようなオーディオ処理のうちのすくなくともいくつかを提供するようにプログラムされることができ、マイクロプロセッサは、ハンドセット４０４の全オペレーティングを制御するようにプログラムされることができる。

メモリ５０２は、フラッシュメモリ、ＲＡＭ、ＲＯＭ、ＰＲＯＭなどのような、プログラミングコードおよび／またはデータコンテンツを記憶するための任意の適切なメモリデバイスとしてもよい。

ＶＡＤシステム１０は、また、他のシステムにおいて、例えばハンドセット−カーキットにおいて使用されるとしてもよい。このシナリオにおいて、カーキットに使用される複数のマイクロフォンは、ソースの局在性および指向性情報が正確に推定されることを可能にする。この情報は、また、ノイズまたは望まれない信号を抑えるために使用されることができる。また、それは外部ＶＡＤ信号を推定するために使用されることができる。この外部ＶＡＤ信号は、そのうえハンドセットのボコーダ性能を増強するために付加的なＶＡＤ情報を使用するハンドセットに送られることができる。

ＶＡＤシステム１０が使用されることができる他のオペレーションのシナリオは、コンファレンスコールスピーカフォン−ハンドセットの組み合わせを持つ。この場合、外部ＶＡＤデバイスは、ハンドセットに有線でまたはワイヤレスで接続されるスピーカフォンに含まれる。スピーカフォンデバイスは、関心のある音声ソースのＶＡＤを推定するために複数のマイクロフォンを使用することができる。ソースのＶＡＤ信号は、そのうえハンドセットのボコーダ性能を増強するために付加的なＶＡＤ情報を使用するハンドセットに送られることができる。

ここで説明された方法のステップおよびブロックと同様に、システム、デバイス、ヘッドセット、ハンドセット、および、それらのそれぞれのコンポーネントの機能性は、ハードウェア、ソフトウェア、ファームウェア、または、それらの任意の適切な組み合わせで実装されてもよい。ソフトウェア／ファームウェアは、マイクロプロセッサ、ＤＳＰ、組み込みコントローラ、または、intellectual property（ＩＰ）コアのような、１つ以上のデジタル回路によって実行可能な命令（例えば、コードセグメント）のセットを持つプログラムでもよい。ソフトウェア／ファームウェアで実現した場合、機能は、命令またはコードとして１つ以上のコンピュータ読み取り可能媒体上に記憶されてもよく、あるいは、命令またはコードとして１つ以上のコンピュータ読み取り可能媒体上に送信されてもよい。コンピュータ読み取り可能媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を促進する何らかの媒体を含む、コンピュータ記憶媒体および通信媒体の双方を含む。記憶媒体は、コンピュータによってアクセスできる何らかの利用可能な媒体であってもよい。例示によると、このようなコンピュータ読み取り可能媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、あるいは他の光ディスク記憶デバイス、磁気ディスク記憶デバイス、または他の磁気記憶デバイス、あるいは命令またはデータ構造の形態で所望のプログラムコードを伝送または記憶するために使用でき、コンピュータによってアクセスできる他の何らかの媒体を含むことができるが、これらに限定されない。また、あらゆる接続は、コンピュータ読み取り可能媒体と適切に呼ばれている。例えば、ソフトウェアが、ウェブサイトから、サーバから、あるいは、同軸ケーブル、ファイバ光ケーブル、撚り対、デジタル加入者線（ＤＳＬ）、または赤外線や、無線や、マイクロ波のようなワイヤレス技術を使用している他の遠隔ソースから送信された場合、同軸ケーブル、ファイバ光ケーブル、撚り対、ＤＳＬ、あるいは、赤外線や、無線や、マイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用したようなディスク（ｄｉｓｋおよびｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザディスク、光ディスク、デジタル汎用ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイ（登録商標）ディスクを含むが、一般的に、ディスク（ｄｉｓｋ）は、データを磁気的に再生する一方で、ディスク（ｄｉｓｃ）はデータをレーザによって光学的に再生する。先のものを組み合わせたものもまた、コンピュータ読み取り可能媒体の範囲内に含められるべきである。

ある実施形態が説明された。しかしながら、これらの実施系値アの様々な変更は可能であり、ここに与えられた原理は、他の実施形態に同様に適用されてもよい。例えば、ここに開示された原理は、携帯情報端末（ＰＤＡ）、パーソナルコンピュータ、ステレオシステム、ビデオゲームなどを含むワイヤレスデバイスのような他のデバイスに適用されてもよい。また、ここに説明された原理は、ヘッドセットと他のデバイスとの間の通信リンクがワイヤレスリンクではなく、ワイヤリンクの場合の、ワイヤーのあるヘッドセットに適用されるとしてもよい。さらに、様々なコンポーネントおよび／または方法ステップ／ブロックは、請求項の範囲から外れることなく、特定の開示されたそれら以外の配置で実装されてもよい。

他の実施形態および変更が、これらの教えを考慮して当業者に容易に生じるだろう。したがって、次の請求項は、上記の明細書および添付している図面と共に見られた場合にそのような実施形態および変更をすべてカバーするように意図される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］
音声区間検出（ＶＡＤ）の方法において、
デバイスに含まれる第１の音声区間検出器からの第１のＶＡＤ信号を受け取ることと、
前記デバイスに含まれない第２の音声区間検出器からの第２のＶＡＤ信号を受け取ることと、
前記第１および第２のＶＡＤ信号をＶＡＤ出力信号に組み合わせることと、
前記ＶＡＤ出力信号に基づいて音声区間を検出することと、
を具備する、方法。
［２］
環境状態に基づいて前記第１のＶＡＤ信号を重み付けすること、
をさらに具備する、［１］の方法。
［３］
前記環境状態は、前記デバイスで測定された信号対ノイズ雑音比（ＳＮＲ）を含む、［２］の方法。
［４］
環境状態に基づいて前記第２のＶＡＤ信号を重み付けすること、
をさらに具備する、［１］の方法。
［５］
前記環境状態は、前記第２の音声区間検出器を含む外部デバイスで測定された信号対ノイズ雑音比（ＳＮＲ）を含む、［４］の方法。
［６］
前記第２の音声区間検出器の前記機能を決定すること、
をさらに具備する、［１］の方法。
［７］
前記第２の音声区間検出器の前記機能は、骨伝導マイクロフォン、オーディオマイクロフォン、皮膚振動センサ、マイクロフォンのアレイ、または、レーダ信号に基づく、［６］の方法。
［８］
ワイヤレスリンクを越えて前記第２のＶＡＤ信号を送信すること、
をさらに具備する、［１］の方法。
［９］
前記ワイヤレスリンクは、ブルートゥースワイヤレスリンクである、請求項８の方法。
［１０］
音声区間検出（ＶＡＤ）の方法において、
第１のデバイスおよび第２のデバイスを提供し、各デバイスがワイヤレスリンク経由で相互に通信するように構成される、ことと、
前記第２のデバイスにおけるＶＡＤ信号を決定することと、
前記第２のデバイスで、前記ＶＡＤ信号に基づいてフラグをセットし、前記フラグがデジタル化されたオーディオ含むパケットに含まれる、ことと、
第２のデバイスから前記第１のデバイスへ、前記ワイヤレスリンク経由で、前記パケットを送信することと、
前記パケットに含まれる前記フラグに基づいて、前記第１のデバイスで音声区間を検出することと、
を具備する、方法。
［１１］
前記フラグは、ブルートゥースパケットヘッダに含まれる１ビット値である、［１０］の方法。
［１２］
デバイスに含まれ、第１の音声区間検出（ＶＡＤ）信号を生成するように構成される第１の音声区間検出器と、
前記デバイスに含まれず、第２の音声区間検出（ＶＡＤ）信号を生成するように構成される第２の音声区間検出器と、
前記第１および第２の音声区間検出器との通信において、前記第１および第２のＶＡＤ信号をＶＡＤ出力信号に組み合わせるように構成される制御ロジックと、
を具備する、システム。
［１３］
前記ＶＡＤ出力信号を受け取るプロセッサをさらに具備する［１２］のシステム。
［１４］
前記プロセッサはボコーダを含む、［１３］のシステム。
［１５］
前記デバイスはワイヤレスハンドセットである、［１２］のシステム。
［１６］
前記第２の音声区間検出器は、前記デバイスとの通信におけるヘッドセットヘッドセットに含まれる、［１２］のシステム。
［１７］
前記ヘッドセットはワイヤレスヘッドセットである、［１６］のシステム。
［１８］
前記第２のＶＡＤ信号は、ブルートゥースヘッダに含まれるシングルビット値として、前記制御ロジックに送られる、［１２］のシステム。
［１９］
前記制御ロジックは前記デバイスに含まれる、［１３］のシステム。
［２０］
第１の位置で、音声区間を検出する第１の手段と、
第２の位置で、音声区間を検出する第２の手段と、
前記第１および第２の手段からの出力を、音声区間検出（ＶＡＤ）出力信号に組み合わせる手段と、
を具備する、システム。
［２１］
前記ＶＡＤ出力信号を受け取るプロセッサ手段と、
をさらに具備する、［２０］のシステム。
［２２］
前記第１の手段は、ワイヤレスハンドセットに含まれる、［２０］のシステム。
［２３］
前記第２の手段は、デバイスとの通信におけるヘッドセットに含まれる、［２０］のシステム。
［２４］
前記ヘッドセットはワイヤレスヘッドセットである、［２３］のシステム。
［２５］
ブルートゥースヘッダに含まれるシングルビット値として、前記第１または第２の手段からのＶＡＤ信号を、前記組み合わせる手段に送る手段をさらに具備する、［２０］のシステム。
［２６］
前記組み合わせる手段は前記第１の位置で含まれる、［２０］のシステム。
［２７］
１つ以上のプロセッサによって実行可能な命令のセットを包含するコンピュータ可読媒体において、
デバイスに含まれる第１の音声区間検出器からの第１のＶＡＤ信号を受け取るコードと、
前記デバイスに含まれない第２の音声区間検出器からの第２のＶＡＤ信号を受け取るコードと、
前記第１および第２のＶＡＤ信号を、ＶＡＤ出力信号に組み合わせるコードと、
を具備する、コンピュータ可読媒体。
［２８］
前記ＶＡＤ出力信号に基づいて、音声区間を検出するコードをさらに具備する、［２７］のコンピュータ可読媒体。
［２９］
環境状態に基づいて、前記第１のＶＡＤ信号を重み付けするコードをさらに具備する、［２７］のコンピュータ可読媒体。
［３０］
前記環境状態は、前記デバイスで測定された信号対ノイズ雑音比（ＳＮＲ）を含む、［２９］のコンピュータ可読媒体。
［３１］
環境状態に基づいて前記第２のＶＡＤ信号を重み付けするコードをさらに具備する、［２７］のコンピュータ可読媒体。
［３２］
前記環境状態は、前記第２の音声区間検出器を含む外部デバイスで測定された信号対ノイズ雑音比（ＳＮＲ）を含む、［３１］のコンピュータ可読媒体。

Claims

音声区間検出（ＶＡＤ）の方法において、
ハンドセット中に含まれる第１の音声区間検出器から第１のＶＡＤ信号を受け取ることと、
外部のヘッドセット中に含まれる第２の音声区間検出器から第２のＶＡＤ信号を受け取ることと、
前記第１および第２のＶＡＤ信号を組み合わせて１つのＶＡＤ出力信号とすることと、
前記ＶＡＤ出力信号に基づいて音声区間を検出することと、
を含み、
前記第１の音声区間検出器は、プロセッサによって実現され、第１のセンサ信号に応答して前記第１のＶＡＤ信号を生成させるためのＶＡＤアルゴリズムを実行するように構成されており、
前記第２の音声区間検出器は、プロセッサによって実現され、第２のセンサ信号に応答して前記第２のＶＡＤ信号を生成させるためのＶＡＤアルゴリズムを実行するように構成されている方法。
環境状態に基づいて前記第１のＶＡＤ信号を重み付けすること、
をさらに含む、請求項１の方法。
前記環境状態は、前記ハンドセットにおいて測定された信号対ノイズ比（ＳＮＲ）を含む、請求項２の方法。
環境状態に基づいて前記第２のＶＡＤ信号を重み付けすること、
をさらに含む、請求項１乃至３のいずれか一項の方法。
前記環境状態は、前記第２の音声区間検出器を含む前記外部のヘッドセットにおいて測定された信号対ノイズ比（ＳＮＲ）を含む、請求項４の方法。
前記第２の音声区間検出器の機能を決定すること、
をさらに含む、請求項１の方法。
前記第２の音声区間検出器の前記機能は、骨伝導マイクロフォン、オーディオマイクロフォン、皮膚振動センサ、マイクロフォンのアレイ、または、レーダ信号に基づく、請求項６の方法。
ワイヤレスリンクを介して前記第２のＶＡＤ信号を送信すること、
をさらに含む、請求項１の方法。
前記ワイヤレスリンクは、ブルートゥースワイヤレスリンクである、請求項８の方法。
前記第１および第２のＶＡＤ信号の各々はオーディオ信号を含む、請求項１乃至９のいずれか一項の方法。
音声区間検出（ＶＡＤ）の方法において、
ハンドセットと外部のヘッドセットとを提供し、それぞれワイヤレスリンクを介して相互に通信するように構成されている、ことと、
前記ヘッドセットにおいてＶＡＤ信号を決定することと、
前記ヘッドセットにおいて、前記ＶＡＤ信号に基づいてフラグをセットし、前記フラグは、デジタル化されたオーディオを含むパケット中に含まれ、前記フラグは、ブルートゥースパケットヘッダ中に含まれる１ビット値である、ことと、
前記ヘッドセットから前記ハンドセットへ、前記ワイヤレスリンクを介して、前記パケットを送信することと、
前記パケット中に含まれる前記フラグに基づいて、前記ハンドセットにおいて音声区間を検出することと、
を含む、方法。
ハンドセット中に含まれる第１の音声区間検出器において、前記第１の音声区間検出器は、ハンドセットプロセッサによって実現され、第１のセンサ信号に応答して第１の音声区間検出（ＶＡＤ）信号を生成させるためのＶＡＤアルゴリズムを実行するように構成されている、前記第１の音声区間検出器と、
外部のヘッドセット中に含まれる第２の音声区間検出器において、前記第２の音声区間検出器は、ヘッドセットプロセッサによって実現され、第２のセンサ信号に応答して第２のＶＡＤ信号を生成させるためのＶＡＤアルゴリズムを実行するように構成されている、前記第２の音声区間検出器と、
前記第１および第２の音声区間検出器と通信し、前記第１および第２のＶＡＤ信号を組み合わせて１つのＶＡＤ出力信号とするようにと、前記ＶＡＤ出力信号に基づいて音声区間を検出するように構成されているプロセッサと、
を具備する、システム。
前記プロセッサはボコーダを含む、請求項１２のシステム。
前記ハンドセットはワイヤレスハンドセットである、請求項１２のシステム。
前記ヘッドセットは、前記ハンドセットと通信を行う、請求項１２のシステム。
前記ヘッドセットはワイヤレスヘッドセットである、請求項１５のシステム。
前記第２のＶＡＤ信号は、ブルートゥースヘッダ中に含まれるシングルビット値として、前記プロセッサに送信される、請求項１２のシステム。
前記プロセッサは前記ハンドセット中に含まれる、請求項１２のシステム。
前記第１および第２のＶＡＤ信号の各々はオーディオ信号を含む、請求項１２乃至１８のいずれか一項のシステム。
ハンドセット中に含まれ、第１のセンサ信号に応答して第１の出力信号を生成させる音声区間検出（ＶＡＤ）アルゴリズムを実行することによって第１の位置において音声区間を検出する第１の手段と、
外部のヘッドセット中に含まれ、第２のセンサ信号に応答して第２の出力信号を生成させるＶＡＤアルゴリズムを実行することによって第２の位置において音声区間を検出する第２の手段と、
前記第１および第２の手段からのそれぞれの出力信号を組み合わせて１つのＶＡＤ出力信号とする第３の手段と、
前記ＶＡＤ出力信号に基づいて音声区間を検出する第４の手段と、
を具備する、システム。
前記ハンドセットはワイヤレスハンドセットである、請求項２０のシステム。
前記ヘッドセットは、前記ハンドセットと通信を行う、請求項２０のシステム。
前記ヘッドセットはワイヤレスヘッドセットである、請求項２２のシステム。
ブルートゥースヘッダ中に含まれるシングルビット値として、前記第１または第２の手段からのＶＡＤ信号を、前記第３の手段に送信する手段をさらに具備する、請求項２０のシステム。
前記第３および第４の手段は前記ハンドセット中に含まれる、請求項２０のシステム。
前記第１および第２の手段からの前記それぞれの出力信号の各々はオーディオ信号を含む、請求項２０乃至２５のいずれか一項のシステム。
１つ以上のプロセッサによって実行可能な、実行時に請求項１乃至５のいずれか一項の方法を行うプログラムを記憶するコンピュータ読み取り可能な記憶媒体。