JP2013525848A

JP2013525848A - ボイスアクティビティ検出

Info

Publication number: JP2013525848A
Application number: JP2013506344A
Authority: JP
Inventors: ビッサー、エリック; リウ、イアン・エルナン; シン、ジョンウォン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-04-22
Filing date: 2011-04-22
Publication date: 2013-06-20
Anticipated expiration: 2031-04-22
Also published as: WO2011133924A1; JP5575977B2; US20110264447A1; US9165567B2; EP2561508A1; CN102884575A; KR20140026229A

Abstract

オーディオ信号の周波数レンジにわたって時間的に一貫しているエネルギーの変化に基づく、その信号のボイスアクティビティ状態の遷移の検出のための実装形態および適用例を開示する。

Description

[米国特許法第１１９条に基づく優先権の主張]
本特許出願は、２０１０年４月２２日に出願され、本出願の譲受人に譲渡された「SYSTEMS, METHODS, AND APPARATUS FOR SPEECH FEATURE DETECTION」と題する仮出願第６１／３２７，００９号、代理人整理番号第１００８３９Ｐ１号の優先権を主張する。

[分野]
本開示は、音声信号の処理に関する。

[背景]
以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。そのチャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供され得る。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス（たとえば、スマートフォン、ハンドセット、および／またはヘッドセット）を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引（たとえば、口座残高または株価の確認）はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられることがある。

雑音の多い環境で通信が行われる適用例では、所望の音声信号を背景雑音から分離することが望ましいことがある。雑音は、所望の信号と干渉するかあるいは所望の信号を劣化させるすべての信号の組合せと定義され得る。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、ならびに所望の信号および／または他の信号のいずれかから発生される反射および残響を含み得る。所望の音声信号が背景雑音から分離されない限り、所望の音声信号を確実に効率的に利用することが困難であることがある。１つの特定の例では、雑音の多い環境で音声信号が発生され、その音声信号を環境雑音から分離するために音声処理方法が使用される。

モバイル環境中で遭遇する雑音は、競合する話し手、音楽、バブル、街頭雑音、および／または空港雑音など、多種多様な成分を含み得る。そのような雑音のシグナチャは一般に非定常であり、ユーザ自身の周波数シグナチャに近いので、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して雑音をモデル化することが難しいことがある。単一マイクロフォン雑音低減技法は、一般に、最適なパフォーマンスを達成するためにかなりのパラメータチューニングを必要とする。たとえば、そのような場合、好適な雑音基準が直接的に利用可能ではないことがあり、雑音基準を間接的に導出することが必要であることがある。したがって、雑音の多い環境でのボイス通信のためのモバイルデバイスの使用をサポートするために、複数マイクロフォンベースの高度な信号処理が望ましいことがある。

一般的構成による、オーディオ信号を処理する方法が、オーディオ信号の第１の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティ(voice activity)が存在すると判断することを含む。本方法は、オーディオ信号中の第１の複数の連続セグメントの直後に発生するオーディオ信号の第２の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断することをも含む。本方法は、第２の複数の連続セグメントのうち発生する第１のセグメントでない、第２の複数の連続セグメントのうちの１つの間に、オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出することと、第１の複数における各セグメントについて、および第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成することとをも含む。本方法では、第１の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本方法では、検出された遷移が発生する上記セグメントの前に発生する第２の複数の連続セグメントの各々について、および第１の複数のうちの少なくとも１つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示し、検出された遷移が発生する上記セグメントの後に発生する第２の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。また、１つまたは複数のプロセッサによって実行されると、そのような方法を実行することを１つまたは複数のプロセッサに行わせる機械実行可能命令を記憶する有形構造を有するコンピュータ可読媒体を開示する。

別の一般的構成による、オーディオ信号を処理するための装置が、オーディオ信号の第１の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在すると判断するための手段を含む。本装置は、オーディオ信号中の第１の複数の連続セグメントの直後に発生するオーディオ信号の第２の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断するための手段をも含む。本装置は、第２の複数の連続セグメントのうちの１つの間にオーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するための手段と、第１の複数における各セグメントについて、および第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成するための手段とをも含む。本装置では、第１の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの前に発生する第２の複数の連続セグメントの各々について、および第１の複数のうちの少なくとも１つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの後に発生する第２の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。

別の構成による、オーディオ信号を処理するための装置が、オーディオ信号の第１の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在すると判断するように構成された第１のボイスアクティビティ検出器を含む。第１のボイスアクティビティ検出器は、オーディオ信号中の第１の複数の連続セグメントの直後に発生するオーディオ信号の第２の複数の連続セグメントの各々について、上記セグメント中にボイスアクティビティが存在しないと判断するようにも構成される。本装置は、第２の複数の連続セグメントのうちの１つの間にオーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するように構成された第２のボイスアクティビティ検出器と、第１の複数における各セグメントについて、および第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成するように構成された信号発生器とをも含む。本装置では、第１の複数の連続セグメントの各々について、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの前に発生する第２の複数の連続セグメントの各々について、および第１の複数のうちの少なくとも１つのセグメントについて上記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、ボイスアクティビティ検出信号の対応する値がアクティビティを示す。本装置では、検出された遷移が発生する上記セグメントの後に発生する第２の複数の連続セグメントの各々について、およびオーディオ信号の音声アクティビティ状態の遷移が発生することを前記検出することに応答して、ボイスアクティビティ検出信号の対応する値がアクティビティなしを示す。

時間（水平軸。前後軸は周波数×１００Ｈｚを示す）に対する高周波スペクトル電力（垂直軸）の１次導関数のプロットの上面図。時間（水平軸。前後軸は周波数×１００Ｈｚを示す）に対する高周波スペクトル電力（垂直軸）の１次導関数のプロットの側面図。一般的構成による方法Ｍ１００のフローチャート。方法Ｍ１００の適用例のフローチャート。一般的構成による装置Ａ１００のブロック図。方法Ｍ１００の実装形態Ｍ１１０のフローチャート。装置Ａ１００の実装形態Ａ１１０のブロック図。方法Ｍ１００の実装形態Ｍ１２０のフローチャート。装置Ａ１００の実装形態Ａ１２０のブロック図。異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイス信号のスペクトログラムを示す図。異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイス信号のスペクトログラムを示す図。図５Ａのスペクトログラムに関係するいくつかのプロットを示す図。図５Ｂのスペクトログラムに関係するいくつかのプロットを示す図。非音声インパルスに対する応答を示す図。方法Ｍ１００の実装形態Ｍ１３０のフローチャート。方法Ｍ１３０の実装形態Ｍ１３２のフローチャート。方法Ｍ１００の実装形態Ｍ１４０のフローチャート。方法Ｍ１４０の実装形態Ｍ１４２のフローチャート。非音声インパルスに対する応答を示す図。第１のステレオ音声記録のスペクトログラムを示す図。一般的構成による方法Ｍ２００のフローチャート。タスクＴＭ３００の実装形態ＴＭ３０２のブロック図。方法Ｍ２００の実装形態の動作の一例を示す図。一般的構成による装置Ａ２００のブロック図。装置Ａ２００の実装形態Ａ２０５のブロック図。装置Ａ２０５の実装形態Ａ２１０のブロック図。信号発生器ＳＧ１２の実装形態ＳＧ１４のブロック図。信号発生器ＳＧ１２の実装形態ＳＧ１６のブロック図。一般的構成による装置ＭＦ２００のブロック図。図１２の記録に適用される異なるボイス検出ストラテジの例を示す図。図１２の記録に適用される異なるボイス検出ストラテジの例を示す図。図１２の記録に適用される異なるボイス検出ストラテジの例を示す図。第２のステレオ音声記録のスペクトログラムを示す図。図２０の記録の分析結果を示す図。図２０の記録の分析結果を示す図。図２０の記録の分析結果を示す図。非正規化位相および近接度ＶＡＤテスト統計値についての分散プロットを示す図。近接度ベースＶＡＤテスト統計値の場合の追跡された最小および最大テスト統計値を示す図。位相ベースＶＡＤテスト統計値の場合の追跡された最小および最大テスト統計値を示す図。正規化位相および近接度ＶＡＤテスト統計値についての分散プロットを示す図。 α＝０．５である、正規化位相および近接度ＶＡＤテスト統計値についての分散プロットを示す図。位相ＶＡＤ統計値の場合はα＝０．５であり、近接度ＶＡＤ統計値の場合はα＝０．２５である、正規化位相および近接度ＶＡＤテスト統計値についての分散プロットを示す図。アレイＲ１００の実装形態Ｒ２００のブロック図。アレイＲ２００の実装形態Ｒ２１０のブロック図。一般的構成によるデバイスＤ１０のブロック図。デバイスＤ１０の実装形態である通信デバイスＤ２０のブロック図。ヘッドセットＤ１００の図。ヘッドセットＤ１００の図。ヘッドセットＤ１００の図。ヘッドセットＤ１００の図。使用中のヘッドセットＤ１００の一例の上面図。使用中のデバイスＤ１００の様々な標準配向の側面図。ヘッドセットＤ２００の図。ヘッドセットＤ２００の図。ヘッドセットＤ２００の図。ヘッドセットＤ２００の図。ハンドセットＤ３００の断面図。ハンドセットＤ３００の実装形態Ｄ３１０の断面図。使用中のハンドセットＤ３００の様々な標準配向の側面図。ハンドセットＤ３４０の様々な図。ハンドセットＤ３６０の様々な図。ハンドセットＤ３２０の図。ハンドセットＤ３２０の図。ハンドセットＤ３３０の図。ハンドセットＤ３３０の図。ポータブルオーディオ感知デバイスの追加の例を示す図。ポータブルオーディオ感知デバイスの追加の例を示す図。ポータブルオーディオ感知デバイスの追加の例を示す図。一般的構成による装置ＭＦ１００のブロック図。メディアプレーヤＤ４００の図。プレーヤＤ４００の実装形態Ｄ４１０の図。プレーヤＤ４００の実装形態Ｄ４２０の図。カーキットＤ５００の図。ライティングデバイスＤ６００の図。コンピューティングデバイスＤ７００の図。コンピューティングデバイスＤ７００の図。コンピューティングデバイスＤ７１０の図。コンピューティングデバイスＤ７１０の図。ポータブルマルチマイクロフォンオーディオ感知デバイスＤ８００の図。会議デバイスの例の上面図。会議デバイスの例の上面図。会議デバイスの例の上面図。会議デバイスの例の上面図。高周波オンセットおよびオフセットアクティビティを示すスペクトログラムを示す図。ＶＡＤストラテジのいくつかの組合せを記載する図。

音声処理適用例（たとえば、テレフォニーなどのボイス通信適用例）では、音声情報を搬送するオーディオ信号のセグメントの正確な検出を実行することが望ましいことがある。そのようなボイスアクティビティ検出（ＶＡＤ：voice activity detection）は、たとえば、音声情報を保存する際に重要であり得る。音声情報を搬送するセグメントの誤識別は、復号されたセグメント中のその情報の品質を下げ得るので、（符号器復号器（コーデック）またはボコーダとも呼ばれる）音声コーダは、一般に、雑音として識別されるセグメントを符号化するためよりも、音声として識別されるセグメントを符号化するためにより多くのビットを割り振るように構成される。別の例では、ボイスアクティビティ検出段がこれらのセグメントを音声として識別することができない場合、雑音低減システムは低エネルギー無声音声セグメントをアグレッシブに減衰させ得る。

広帯域（ＷＢ：wideband）および超広帯域（ＳＷＢ：super-wideband）コーデックに対する最近の関心は、高周波音声情報を保存することに重点を置いており、これは、高品質音声ならびに了解度にとって重要であり得る。子音は、一般に、（たとえば、４から８キロヘルツまでの）高周波数レンジにわたって時間的に概して一貫しているエネルギーを有する。子音の高周波エネルギーは、一般に、母音の低周波エネルギーと比較して低いが、環境雑音のレベルは、通常、高周波数においてより低い。

図１Ａおよび図１Ｂに、時間に対する、記録された音声のセグメントのスペクトログラム電力の１次導関数の一例を示す。これらの図では、（広い高周波数レンジにわたる正値の同時発生によって示される）音声オンセットおよび（広い高周波数レンジにわたる負値の同時発生によって示される）音声オフセットが明らかに識別され得る。

音声のオンセットおよびオフセットにおいて複数の周波数にわたってコヒーレントで検出可能なエネルギー変化が発生するという原理に基づいて音声オンセットおよび／またはオフセットの検出を実行することが望ましいことがある。そのようなエネルギー変化は、たとえば、所望の周波数レンジ（たとえば、４から８ｋＨｚまでなどの高周波数レンジ）における周波数成分にわたってエネルギーの１次時間導関数（すなわち、時間に対するエネルギーの変化率;time derivative）を計算することによって、検出され得る。これらの導関数の振幅をしきい値と比較することによって、各周波数ビンについてアクティブ化指示を計算し、各時間間隔の間の（たとえば、各１０ミリ秒フレームの間の）周波数レンジにわたるアクティブ化指示を組み合わせて（たとえば、平均化して）ＶＡＤ統計値を取得することができる。そのような場合、音声オンセットは、多数の周波数帯域が、時間的にコヒーレントであるエネルギーの急な増加を示すときに示され得、音声オフセットは、多数の周波数帯域が、時間的にコヒーレントであるエネルギーの急な減少を示すときに示され得る。本明細書ではそのような統計値を「高周波音声連続性」と呼ぶ。図４７Ａに、オンセットによるコヒーレント高周波アクティビティおよびオフセットによるコヒーレント高周波アクティビティが略記されているスペクトログラムを示す。

その文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリロケーション（またはメモリロケーションのセット）の状態を含む、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値からの計算（computing）、評価、平滑化、および／または選択など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「取得（obtaining）」という用語は、計算（calculating）、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも示すのに使用される。その文脈によって明確に限定されない限り、「選択（selecting）」という用語は、２つ以上のセットのうちの少なくとも１つ、およびすべてよりも少数を識別、指示、適用、および／または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える（comprising）」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「から導出される」（たとえば、「ＢはＡのプリカーサーである」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「に等しい」（たとえば、「ＡはＢに等しい」または「ＡはＢと同じである」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。

マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、２つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、１０を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張も本開示の範囲内である。「周波数成分」という用語は、（たとえば、高速フーリエ変換によって生成される）信号の周波数領域表現のサンプル（または「ビン」）、あるいは信号のサブバンド（たとえば、バーク尺度またはメル尺度サブバンド）など、信号の周波数または周波数帯域のセットのうちの１つを示すのに使用される。

別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部を示すのに使用される。その文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部分の参照によるいかなる組込みも、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される図に現れた場合、そのような定義を組み込んでいることをも理解されたい。

近距離場は、受音器（たとえば、マイクロフォン、またはマイクロフォンのアレイ）から１波長未満離れている空間の領域として定義され得る。この定義では、領域の境界までの距離は、周波数に反比例して変化する。たとえば、２００、７００、および２０００ヘルツの周波数では、１波長境界までの距離は、それぞれ約１７０、４９、および１７センチメートルである。代わりに、近距離場／遠距離場境界がマイクロフォンまたはアレイから特定の距離（たとえば、マイクロフォンまたはアレイのマイクロフォンまたはアレイの重心から５０センチメートル、あるいはマイクロフォンまたはアレイのマイクロフォンまたはアレイの重心から１メートルまたは１．５メートル）にあると見なすことが有用であることがある。

文脈により別段に規定されていない限り、「オフセット」という用語は、本明細書では「オンセット」という用語の反意語として使用される。

図２Ａに、タスクＴ２００と、Ｔ３００と、Ｔ４００と、Ｔ５００と、Ｔ６００とを含む、一般的構成による方法Ｍ１００のフローチャートを示す。方法Ｍ１００は、一般に、オーディオ信号の一連のセグメントの各々にわたって反復して、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかを示すように構成される。典型的なセグメント長は約５または１０ミリ秒から約４０または５０ミリ秒にわたり、セグメントは、重複しても（たとえば、隣接するセグメントが２５％または５０％だけ重複する）、重複しなくてもよい。１つの特定の例では、上記信号は、１０ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、方法Ｍ１００によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント（すなわち、「サブフレーム」）であり得、またはその逆も同様である。

タスクＴ２００は、所望の周波数レンジにわたってセグメントｎの各周波数成分ｋについて（「電力」または「強度」とも呼ばれる）エネルギーＥ（ｋ，ｎ）の値を計算する。図２Ｂに、オーディオ信号が周波数領域において与えられる方法Ｍ１００の適用例のフローチャートを示す。この適用例は、（たとえば、オーディオ信号の高速フーリエ変換を計算することによって）周波数領域信号を取得するタスクＴ１００を含む。そのような場合、タスクＴ２００は、対応する周波数成分の大きさに基づいて（たとえば、大きさの２乗として）エネルギーを計算するように構成され得る。

代替実装形態では、方法Ｍ１００は、（たとえば、フィルタバンクから）オーディオ信号を複数の時間領域サブバンド信号として受信するように構成される。そのような場合、タスクＴ２００は、対応するサブバンドの時間領域サンプル値の２乗和に基づいて（たとえば、その和として、またはサンプルの数によって正規化された和（たとえば、平均２乗値）として）エネルギーを計算するように構成され得る。また、（たとえば、サブバンドｋにおける周波数ビンの、平均エネルギーとしてまたは平均大きさの２乗として、各サブバンドについてエネルギーの値を計算することによって）タスクＴ２００の周波数領域実装形態においてサブバンド方式が使用され得る。これらの時間領域の場合および周波数領域の場合のいずれにおいても、サブバンド分割方式は、各サブバンドが実質的に同じ幅（たとえば、約１０パーセント以内）を有するように一様であり得る。代替的に、サブバンド分割方式は、超越的方式（たとえば、バーク尺度に基づく方式）、または対数的方式（たとえば、メル尺度に基づく方式）など、不均一であり得る。１つのそのような例では、７つのバーク尺度サブバンドのセットのエッジは、周波数２０、３００、６３０、１０８０、１７２０、２７００、４４００、および７７００Ｈｚに対応する。サブバンドのそのような構成は、１６ｋＨｚのサンプリングレートを有する広帯域音声処理システムにおいて使用され得る。そのような分割方式の他の例では、より低いサブバンドは、６サブバンド構成を取得するために除外され、および／または高周波限界は７７００Ｈｚから８０００Ｈｚに増加される。非一様サブバンド分割方式の別の例は、４帯域擬似バーク方式３００〜５１０Ｈｚ、５１０〜９２０Ｈｚ、９２０〜１４８０Ｈｚ、および１４８０〜４０００Ｈｚである。サブバンドのそのような構成は、８ｋＨｚのサンプリングレートを有する狭帯域音声処理システムにおいて使用され得る。

タスクＴ２００は、エネルギーの値を時間平滑化値として計算することが望ましいことがある。たとえば、タスクＴ２００は、Ｅ（ｋ，ｎ）＝βＥ_u（ｋ，ｎ）＋（１−β）Ｅ（ｋ，ｎ−１）などの式に従ってエネルギーを計算するように構成され得、上式で、Ｅ_u（ｋ，ｎ）は、上記で説明したように計算されたエネルギーの非平滑化値であり、Ｅ（ｋ，ｎ）およびＥ（ｋ，ｎ−１）は、それぞれ現在の平滑化値および前の平滑化値であり、βは平滑化ファクタである。平滑化ファクタβの値は０（最大平滑化、更新なし）から１（平滑化なし）にわたり得、（オンセット検出の場合、オフセット検出の場合とは異なり得る）平滑化ファクタβについての典型的な値は、０．０５、０．１、０．２、０．２５、および０．３を含む。

所望の周波数レンジは２０００Ｈｚを上回って拡大することが望ましいことがある。代替または追加として、所望の周波数レンジは、オーディオ信号の周波数レンジの上半分の少なくとも一部（たとえば、８ｋＨｚでサンプリングされたオーディオ信号の場合は２０００から４０００Ｈｚまでのレンジの少なくとも一部、または１６ｋＨｚでサンプリングされたオーディオ信号の場合は４０００から８０００Ｈｚまでのレンジの少なくとも一部）を含むことが望ましいことがある。一例では、タスクＴ２００は、４から８キロヘルツまでのレンジにわたってエネルギー値を計算するように構成される。別の例では、タスクＴ２００は、５００Ｈｚから８ｋＨｚまでのレンジにわたってエネルギー値を計算するように構成される。

タスクＴ３００は、セグメントの各周波数成分についてエネルギーの時間導関数を計算する。一例では、タスクＴ３００は、［たとえば、ΔＥ（ｋ，ｎ）＝Ｅ（ｋ，ｎ）−Ｅ（ｋ，ｎ−１）などの式に従って］各フレームｎの各周波数成分ｋについてエネルギーの時間導関数をエネルギー差ΔＥ（ｋ，ｎ）として計算するように構成される。

タスクＴ３００は、ΔＥ（ｋ，ｎ）を時間平滑化値として計算することが望ましいことがある。たとえば、タスクＴ３００は、ΔＥ（ｋ，ｎ）＝α［Ｅ（ｋ，ｎ）−Ｅ（ｋ，ｎ−１）］＋（１−α）［ΔＥ（ｋ，ｎ−１）］などの式に従ってエネルギーの時間導関数を計算するように構成され得、上式で、αは平滑化ファクタである。そのような時間平滑化は、（たとえば、雑音の多いアーティファクトに重点を置かないことによって）オンセットおよび／またはオフセット検出の信頼性を増加させるのに役立ち得る。平滑化ファクタαの値は０（最大平滑化、更新なし）から１（平滑化なし）にわたり得、平滑化ファクタαについての典型的な値は、０．０５、０．１、０．２、０．２５、および０．３を含む。オンセット検出の場合、（たとえば、迅速な応答を可能にするために）平滑化をほとんどまたはまったく使用しないことが望ましいことがある。オンセット検出結果に基づいて、オンセットの場合および／またはオフセットの場合、平滑化ファクタαおよび／またはβの値を変化させることが望ましいことがある。

タスクＴ４００は、セグメントの各周波数成分についてアクティビティ指示Ａ（ｋ，ｎ）を生成する。タスクＴ４００は、たとえば、ΔＥ（ｋ，ｎ）をアクティブ化しきい値と比較することによって、Ａ（ｋ，ｎ）を２進値として計算するように構成され得る。

アクティブ化しきい値は、音声オンセットの検出の場合、正値Ｔ_act-onを有することが望ましいことがある。１つのそのような例では、タスクＴ４００は、次式などの式に従ってオンセットアクティブ化パラメータＡ_on（ｋ，ｎ）を計算するように構成される。

アクティブ化しきい値は、音声オフセットの検出の場合、負値Ｔ_act-offを有することが望ましいことがある。１つのそのような例では、タスクＴ４００は、次式などの式に従ってオフセットアクティブ化パラメータＡ_off（ｋ，ｎ）を計算するように構成される。

別のそのような例では、タスクＴ４００は、次式などの式に従ってＡ_off（ｋ，ｎ）を計算するように構成される。

タスクＴ５００は、セグメントアクティビティ指示Ｓ（ｎ）を生成するためにセグメントｎについてのアクティビティ指示を組み合わせる。一例では、タスクＴ５００は、Ｓ（ｎ）をセグメントについての値Ａ（ｋ，ｎ）の和として計算するように構成される。別の例では、タスクＴ５００は、Ｓ（ｎ）をセグメントについての値Ａ（ｋ，ｎ）の正規化和（たとえば、平均）として計算するように構成される。

タスクＴ６００は、組み合わせられたアクティビティ指示Ｓ（ｎ）の値を遷移検出しきい値Ｔ_txと比較する。一例では、タスクＴ６００は、Ｓ（ｎ）がＴ_txよりも大きい（代替的に、それ以上である）場合、ボイスアクティビティ状態の遷移の存在を示す。上記の例の場合のように、［たとえば、Ａ_off（ｋ，ｎ）の］Ａ（ｋ，ｎ）の値が負であり得る場合、タスクＴ６００は、Ｓ（ｎ）が遷移検出しきい値Ｔ_txよりも小さい（代替的に、それ以下である）場合、ボイスアクティビティ状態の遷移の存在を示すように構成され得る。

図２Ｃに、計算器ＥＣ１０と、微分器ＤＦ１０と、第１のコンパレータＣＰ１０と、コンバイナＣＯ１０と、第２のコンパレータＣＰ２０とを含む、一般的構成による装置Ａ１００のブロック図を示す。装置Ａ１００は、一般に、オーディオ信号の一連のセグメントの各々について、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかについての指示を生成するように構成される。計算器ＥＣ１０は、（たとえば、タスクＴ２００に関して本明細書で説明したように）所望の周波数レンジにわたってセグメントの各周波数成分についてエネルギーの値を計算するように構成される。この特定の例では、変換モジュールＦＦＴ１が、マルチチャネル信号のチャネルＳ１０−１のセグメントに対して高速フーリエ変換を実行して、周波数領域においてそのセグメントを装置Ａ１００（たとえば、計算器ＥＣ１０）に与える。微分器ＤＦ１０は、（たとえば、タスクＴ３００に関して本明細書で説明したように）セグメントの各周波数成分についてエネルギーの時間導関数を計算するように構成される。コンパレータＣＰ１０は、（たとえば、タスクＴ４００に関して本明細書で説明したように）セグメントの各周波数成分についてアクティビティ指示を生成するように構成される。コンバイナＣＯ１０は、（たとえば、タスクＴ５００に関して本明細書で説明したように）セグメントアクティビティ指示を生成するためにセグメントについてのアクティビティ指示を組み合わせるように構成される。コンパレータＣＰ２０は、（たとえば、タスクＴ６００に関して本明細書で説明したように）セグメントアクティビティ指示の値を遷移検出しきい値と比較するように構成される。

図４１Ｄに、一般的構成による装置ＭＦ１００のブロック図を示す。装置ＭＦ１００は、一般に、オーディオ信号の一連のセグメントの各々を処理して、そのセグメント中にボイスアクティビティ状態の遷移が存在するかどうかを示すように構成される。装置ＭＦ１００は、（たとえば、タスクＴ２００に関して本明細書で開示するように）所望の周波数レンジにわたってセグメントの各成分についてエネルギーを計算するための手段Ｆ２００を含む。装置ＭＦ１００は、（たとえば、タスクＴ３００に関して本明細書で開示するように）各成分についてエネルギーの時間導関数を計算するための手段Ｆ３００をも含む。装置ＭＦ１００は、（たとえば、タスクＴ４００に関して本明細書で開示するように）各成分についてアクティビティを示すための手段Ｆ４００をも含む。装置ＭＦ１００は、（たとえば、タスクＴ５００に関して本明細書で開示するように）アクティビティ指示を組み合わせるための手段Ｆ５００をも含む。装置ＭＦ１００は、音声状態遷移指示ＴＩ１０を生成するために（たとえば、タスクＴ６００に関して本明細書で開示するように）組み合わせられたアクティビティ指示をしきい値と比較するための手段Ｆ６００をも含む。

システム（たとえば、ポータブルオーディオ感知デバイス）は、オンセットを検出するように構成された方法Ｍ１００のインスタンスと、オフセットを検出するように構成された方法Ｍ１００の別のインスタンスとを実行することが望ましいことがあり、方法Ｍ１００の各インスタンスは、一般に、異なるそれぞれのしきい値を有する。代替的に、そのようなシステムは、それらのインスタンスを組み合わせる方法Ｍ１００の実装形態を実行することが望ましいことがある。図３Ａに、アクティビティ指示タスクＴ４００の複数のインスタンスＴ４００ａ、Ｔ４００ｂと、組合せタスクＴ５００のＴ５００ａ、Ｔ５００ｂと、状態遷移指示タスクＴ６００のＴ６００ａ、Ｔ６００ｂとを含むような、方法Ｍ１００の実装形態Ｍ１１０のフローチャートを示す。図３Ｂに、コンパレータＣＰ１０の複数のインスタンスＣＰ１０ａ、ＣＰ１０ｂと、コンバイナＣＯ１０のＣＯ１０ａ、ＣＯ１０ｂと、コンパレータＣＰ２０のＣＰ２０ａ、ＣＰ２０ｂとを含む、装置Ａ１００の対応する実装形態Ａ１１０のブロック図を示す。

上記で説明したようにオンセット指示とオフセット指示とを組み合わせて単一のメトリックにすることが望ましいことがある。そのような組み合わせられたオンセット／オフセットスコアは、異なる雑音環境および音圧レベルにおいてさえ、時間に対する音声アクティビティ（たとえば、近端音声エネルギーの変化）の正確な追跡をサポートするために、使用され得る。また、組み合わせられたオンセット／オフセットスコア機構の使用により、オンセット／オフセットＶＡＤのチューニングがより容易になり得る。

組み合わせられたオンセット／オフセットスコアＳ_on-off（ｎ）は、上記で説明したようにタスクＴ５００のそれぞれのオンセットおよびオフセットインスタンスによって各セグメントについて計算されたセグメントアクティビティ指示Ｓ（ｎ）の値を使用して計算され得る。図４Ａに、周波数成分アクティブ化指示タスクＴ４００および組合せタスクＴ５００のオンセットおよびオフセットインスタンス、それぞれＴ４００ａ、Ｔ５００ａおよびＴ４００ｂ、Ｔ５００ｂを含むような、方法Ｍ１００の実装形態Ｍ１２０のフローチャートを示す。方法Ｍ１２０は、タスクＴ５００ａ（Ｓ_on（ｎ））およびＴ５００ｂ（Ｓ_off（ｎ））によって生成されたＳ（ｎ）の値に基づいて、組み合わせられたオンセットオフセットスコアＳ_on-off（ｎ）を計算するタスクＴ５５０をも含む。たとえば、タスクＴ５５０は、Ｓ_on-off（ｎ）＝ａｂｓ（Ｓ_on（ｎ）＋Ｓ_off（ｎ））などの式に従ってＳ_on-off（ｎ）を計算するように構成され得る。この例では、方法Ｍ１２０は、各セグメントｎについて対応するバイナリＶＡＤ指示を生成するためにＳ_on-off（ｎ）の値をしきい値と比較するタスクＴ６１０をも含む。図４Ｂに、装置Ａ１００の対応する実装形態Ａ１２０のブロック図を示す。

図５Ａ、図５Ｂ、図６、および図７に、時間的な近端音声エネルギー変化を追跡するのを助けるために、そのような組み合わせられたオンセット／オフセットアクティビティメトリックがどのように使用され得るかの一例を示す。図５Ａおよび図５Ｂは、異なる雑音環境における、および異なる音圧レベルの下の、同じ近端ボイスを含む信号のスペクトログラムを示している。図６および図７のプロットＡは、それぞれ図５Ａおよび図５Ｂの信号を時間領域において（振幅対サンプルでの時間として）示している。図６および図７のプロットＢは、オンセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１００の実装形態を実行することの結果を（値対フレームでの時間として）示している。図６および図７のプロットＣは、オフセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１００の実装形態を実行することの結果を（値対フレームでの時間として）示している。プロットＢおよびＣでは、対応するフレームアクティビティ指示信号は多価信号として示されており、対応するアクティブ化しきい値は水平線として（プロット６Ｂおよび７Ｂでは約＋０．１において、ならびにプロット６Ｃおよび７Ｃでは約−０．１において）示されており、対応する遷移指示信号は２進値信号として（プロット６Ｂおよび７Ｂでは０および約＋０．６の値で、ならびにプロット６Ｃおよび７Ｃでは０および約−０．６の値で）示されている。図６および図７のプロットＤは、組み合わせられたオンセット／オフセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１２０の実装形態を実行することの結果を（値対フレームでの時間として）示している。図６のプロットＤと図７のプロットＤとの比較により、異なる雑音環境における、および異なる音圧レベルの下の、そのような検出器の一貫したパフォーマンスが証明される。

強く閉じられたドア、落下した皿、または拍手など、非音声音インパルスも、周波数レンジにわたって一貫した電力変化を示す応答を引き起こし得る。図８に、いくつかの非音声インパルスイベントを含む信号に対して（たとえば、方法Ｍ１００の対応する実装形態、または方法Ｍ１１０のインスタンスを使用して）オンセットおよびオフセット検出を実行することの結果を示す。この図では、プロットＡは、上記信号を時間領域において（振幅対サンプルでの時間として）示しており、プロットＢは、オンセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１００の実装形態を実行することの結果を（値対フレームでの時間として）示しており、プロットＣは、オフセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１００の実装形態を実行することの結果を（値対フレームでの時間として）示している。（プロットＢおよびＣでは、対応するフレームアクティビティ指示信号、アクティブ化しきい値、および遷移指示信号は、図６および図７のプロットＢおよびＣに関して説明したように示されている。）図８中の左端矢印は、ドアを強く閉じることによって生じた不連続オンセット（すなわち、オフセットが検出されている間に検出されたオンセット）の検出を示している。図８中の中心矢印および右端矢印は、拍手することによって生じたオンセットおよびオフセット検出を示している。そのようなインパルスイベントをボイスアクティビティ状態遷移（たとえば、音声オンセットおよびオフセット）と区別することが望ましいことがある。

非音声インパルスアクティブ化は、音声オンセットまたはオフセットよりも広い周波数レンジにわたって一貫している可能性があり、音声オンセットまたはオフセットは、一般に、約４〜８ｋＨｚのレンジにわたってのみ連続する、時間に対するエネルギーの変化を示す。したがって、非音声インパルスイベントにより、組み合わせられたアクティビティ指示（たとえば、Ｓ（ｎ））は、音声に起因するものとしてはあまりに高い値を有することになる可能性がある。この性質を活用して非音声インパルスイベントをボイスアクティビティ状態遷移と区別するために、方法Ｍ１００が実装され得る。

図９Ａに、Ｓ（ｎ）の値をインパルスしきい値Ｔ_impと比較するタスクＴ６５０を含むような、方法Ｍ１００の実装形態Ｍ１３０のフローチャートを示す。図９Ｂに、Ｓ（ｎ）がＴ_impよりも大きい（代替的に、それ以上である）場合にボイスアクティビティ遷移指示を取り消すためにタスクＴ６００の出力をオーバーライドするタスクＴ７００を含む、方法Ｍ１３０の実装形態Ｍ１３２のフローチャートを示す。（たとえば、上記のオフセットの例の場合のように）［たとえば、Ａ_off（ｋ，ｎ）の］Ａ（ｋ，ｎ）の値が負であり得るような場合、タスクＴ７００は、Ｓ（ｎ）が対応するオーバーライドしきい値よりも小さい（代替的に、それ以下である）場合のみ、ボイスアクティビティ遷移指示を示すように構成され得る。オーバーアクティブ化（over-activation）のそのような検出の追加または代替として、そのようなインパルス除去は、不連続オンセット（たとえば、同じセグメント中のオンセットおよびオフセットの指示）をインパルス雑音として識別するための、方法Ｍ１１０の修正を含み得る。

また、非音声インパルス雑音は、オンセットの速度によって音声と区別され得る。たとえば、周波数成分における音声オンセットまたはオフセットのエネルギーは、非音声インパルスイベントによるエネルギーよりも緩やかに経時的に変化する傾向があり、（たとえば、上記で説明したオーバーアクティブ化の追加または代替として）この性質を活用して非音声インパルスイベントをボイスアクティビティ状態遷移と区別するために、方法Ｍ１００が実装され得る。

図１０Ａに、オンセット速度計算タスクＴ８００と、それぞれタスクＴ４００、Ｔ５００、およびＴ６００のインスタンスＴ４１０、Ｔ５１０、およびＴ６２０とを含む、方法Ｍ１００の実装形態Ｍ１４０のフローチャートを示す。タスクＴ８００は、セグメントｎの各周波数成分ｋについてオンセット速度Δ２Ｅ（ｋ，ｎ）（すなわち、時間に対するエネルギーの２次導関数）を計算する。たとえば、タスクＴ８００は、Δ２Ｅ（ｋ，ｎ）＝［ΔＥ（ｋ，ｎ）−ΔＥ（ｋ，ｎ−１）］などの式に従ってオンセット速度を計算するように構成され得る。

タスクＴ４００のインスタンスＴ４１０は、セグメントｎの各周波数成分についてインパルスアクティブ化値Ａ_imp-d2（ｋ，ｎ）を計算するように構成される。タスクＴ４１０は、たとえば、Δ２Ｅ（ｋ，ｎ）をインパルスアクティブ化しきい値と比較することによって、Ａ_imp-d2（ｋ，ｎ）を２進値として計算するように構成され得る。１つのそのような例では、タスクＴ４１０は、次式などの式に従ってインパルスアクティブ化パラメータＡ_imp-d2（ｋ，ｎ）を計算するように構成される。

タスクＴ５００のインスタンスＴ５１０は、セグメントインパルスアクティビティ指示Ｓ_imp-d2（ｎ）を生成するためにセグメントｎについてのインパルスアクティビティ指示を組み合わせる。一例では、タスクＴ５１０は、Ｓ_imp-d2（ｎ）をセグメントについての値Ａ_imp-d2（ｋ，ｎ）の和として計算するように構成される。別の例では、タスクＴ５１０は、Ｓ_imp-d2（ｎ）をセグメントについての値Ａ_imp-d2（ｋ，ｎ）の正規化和（たとえば、平均）として計算するように構成される。

タスクＴ６００のインスタンスＴ６２０は、セグメントインパルスアクティビティ指示Ｓ_imp-d2（ｎ）の値をインパルス検出しきい値Ｔ_imp-d2と比較し、Ｓ_imp-d2（ｎ）がＴ_imp-d2よりも大きい（代替的に、それ以上である）場合、インパルスイベントの検出を示す。図１０Ｂに、Ｓ（ｎ）がＴ_imp-d2よりも大きい（代替的に、それ以上である）ことをタスクＴ６２０が示す場合にボイスアクティビティ遷移指示を取り消すためにタスクＴ６００の出力をオーバーライドするように構成されたタスクＴ７００のインスタンスを含む、方法Ｍ１４０の実装形態Ｍ１４２のフローチャートを示す。

図１１に、音声オンセット導関数技法（たとえば、方法Ｍ１４０）が、図８中の３つの矢印によって示されるインパルスを正しく検出する例を示す。この図では、プロットＡは、信号を時間領域において（振幅対サンプルでの時間として）示しており、プロットＢは、オンセット指示信号を取得するためにプロットＡの信号に対して方法Ｍ１００の実装形態を実行することの結果を（値対フレームでの時間として）示しており、プロットＣは、インパルスイベントの指示を取得するためにプロットＡの信号に対して方法Ｍ１４０の実装形態を実行することの結果を（値対フレームでの時間として）示している。（プロットＢおよびＣでは、対応するフレームアクティビティ指示信号、アクティブ化しきい値、および遷移指示信号は、図６および図７のプロットＢおよびＣに関して説明したように示されている。）この例では、インパルス検出しきい値Ｔ_imp-d2は約０．２の値を有する。

本明細書で説明する方法Ｍ１００の実装形態によって生成された音声オンセットおよび／またはオフセットの指示（または組み合わせられたオンセット／オフセットスコア）は、ＶＡＤ段の精度を改善するためにおよび／または時間的なエネルギー変化を迅速に追跡するために使用され得る。たとえば、ＶＡＤ段は、ボイスアクティビティ検出信号を生成するために、方法Ｍ１００の実装形態によって生成されたボイスアクティビティ状態の遷移の存在または不在の指示を、（たとえば、ＡＮＤまたはＯＲ論理を使用して）１つまたは複数の他のＶＡＤ技法によって生成された指示と組み合わせるように構成され得る。

それの結果が方法Ｍ１００の実装形態の結果と組み合わせられ得る他のＶＡＤ技法の例は、フレームエネルギー、信号対雑音比、周期性、音声および／または残差（たとえば、線形予測コーディング残差）の自己相関、ゼロ交差レート、ならびに／あるいは第１の反射係数など、１つまたは複数のファクタに基づいてセグメントをアクティブ（たとえば、音声）または非アクティブ（たとえば、雑音）として分類するように構成された技法を含む。そのような分類は、そのようなファクタの値または大きさをしきい値と比較すること、および／あるいはそのようなファクタの変化の大きさをしきい値と比較することを含み得る。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのようなファクタの値または大きさ、あるいはそのようなファクタの変化の大きさを、別の周波数帯域における同様の値と比較することを含み得る。複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するために、そのようなＶＡＤ技法を実装することが望ましいことがある。それの結果が方法Ｍ１００の実装形態の結果と組み合わせられ得るボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｄ、ｖ３．０のセクション４．７（ｐｐ．４−４８〜４−５５）、２０１０年１０月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているように、セグメントのハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。他の例は、フレームエネルギーと平均エネルギーの比、および／またはローバンドエネルギーとハイバンドエネルギーの比を比較することを含む。

各チャネルが、マイクロフォンのアレイの対応するマイクロフォンによって生成された信号に基づく、マルチチャネル信号（たとえば、デュアルチャネルまたはステレオ信号）は、一般に、ボイスアクティビティ検出のために使用され得る音源方向および／または近接度に関する情報を含んでいる。そのようなマルチチャネルＶＡＤ演算は、たとえば、特定の方向範囲（たとえば、ユーザの口などの所望の音源の方向）から到着する指向性音を含んでいるセグメントを、拡散音または他の方向から到着する指向性音を含んでいるセグメントと区別することによって、到着方向（ＤＯＡ：direction of arrival）に基づき得る。

ＤＯＡベースＶＡＤ演算の１つのクラスは、所望の周波数レンジにおけるセグメントの各周波数成分について、マルチチャネル信号の２つのチャネルの各々における周波数成分間の位相差に基づく。そのようなＶＡＤ演算は、位相差と周波数との間の関係が５００〜２０００Ｈｚなどの広い周波数レンジにわたって一貫しているとき（すなわち、位相差と周波数との相関関係が線形であるとき）、ボイス検出を示すように構成され得る。以下でより詳細に説明する、そのような位相ベースＶＡＤ演算は、点音源の存在が複数の周波数にわたってインジケータの一貫性によって示されるという点で方法Ｍ１００と同様である。ＤＯＡベースＶＡＤ演算の別のクラスは、（たとえば、時間領域においてチャネルを相互相関させることによって判断された）各チャネルにおける信号のインスタンス間の時間遅延に基づく。

マルチチャネルＶＡＤ演算の別の例は、マルチチャネル信号のチャネルのレベル間の（利得とも呼ばれる）差に基づく。利得ベースＶＡＤ演算は、たとえば、２つのチャネルのエネルギーの比がしきい値を超える（信号が近距離場音源から、およびマイクロフォンアレイの軸方向のうちの所望の１つから到着していることを示す）とき、ボイス検出を示すように構成され得る。そのような検出器は、周波数領域において（たとえば、１つまたは複数の特定の周波数レンジにわたって）または時間領域において信号に作用するように構成され得る。

（たとえば、方法Ｍ１００あるいは装置Ａ１００またはＭＦ１００の実装形態によって生成された）オンセット／オフセット検出結果を、マルチチャネル信号のチャネル間の差に基づく１つまたは複数のＶＡＤ演算からの結果と組み合わせることが望ましいことがある。たとえば、利得ベースおよび／または位相ベースＶＡＤによって検出されないままである音声セグメントを識別するために、本明細書で説明する音声オンセットおよび／またはオフセットの検出が使用され得る。また、ＶＡＤ決定へのオンセットおよび／またはオフセット統計値の組込みは、シングルおよび／またはマルチチャネル（たとえば、利得ベースまたは位相ベース）ＶＡＤのための低減されたハングオーバ期間の使用をサポートし得る。

チャネル間利得差に基づくマルチチャネルボイスアクティビティ検出器、およびシングルチャネル（たとえば、エネルギーベース）ボイスアクティビティ検出器は、一般に、広い周波数レンジ（たとえば、０〜４ｋＨｚ、５００〜４０００Ｈｚ、０〜８ｋＨｚ、または５００〜８０００Ｈｚレンジ）からの情報に依拠する。到着方向（ＤＯＡ）に基づくマルチチャネルボイスアクティビティ検出器は、一般に、低周波数レンジ（たとえば、５００〜２０００Ｈｚまたは５００〜２５００Ｈｚレンジ）からの情報に依拠する。有声音声が、通常、これらのレンジにおいて著しいエネルギー含有量を有するとすれば、そのような検出器は、概して、有声音声のセグメントを確実に示すように構成され得る。

しかしながら、無声音声のセグメントは、一般に、特に低周波数レンジにおける母音のエネルギーと比較して、低いエネルギーを有する。また、無声子音と有声子音の無声部分とを含み得るこれらのセグメントは、５００〜２０００Ｈｚレンジにおいて重要な情報を欠く傾向がある。したがって、ボイスアクティビティ検出器は、これらのセグメントを音声として示すことができないことがあり、これは（たとえば、不適切なコーディングおよび／または過度にアグレッシブな雑音低減による）コーディング非効率および／または音声情報の損失につながり得る。

スペクトログラムクロス周波数連続性によって示される音声オンセットおよび／またはオフセットの検出に基づく音声検出方式（たとえば、方法Ｍ１００の実装形態）を、チャネル間利得差、および／またはチャネル間位相差のコヒーレンスなど、他の特徴に基づく検出方式と組み合わせることによって、統合されたＶＡＤ段を取得することが望ましいことがある。たとえば、主に高周波数において発生する音声オンセットおよび／またはオフセットを追跡するように構成された方法Ｍ１００の実装形態で利得ベースおよび／または位相ベースＶＡＤフレームワークを補完することが望ましいことがある。オンセット／オフセット検出は、利得ベースおよび位相ベースＶＡＤと比較して、異なる周波数レンジにおける異なる音声特性に敏感である傾向があるので、そのような組み合わせられた分類器の個々の特徴は互いを補完し得る。たとえば、５００〜２０００Ｈｚ位相敏感ＶＡＤと４０００〜８０００Ｈｚ高周波音声オンセット／オフセット検出器との組合せにより、（たとえば、単語の子音の多い開始における）低エネルギー音声特徴、ならびに高エネルギー音声特徴の保存が可能になる。オンセットから対応するオフセットへの連続検出指示を与えるように、組み合わせられた検出器を設計することが望ましいことがある。

図１２に、遠距離場干渉音声をも含む、近距離場話者のマルチチャネル記録のスペクトログラムを示す。この図では、上部の記録は、ユーザの口に近いマイクロフォンからの記録であり、下部の記録は、ユーザの口からより遠くにあるマイクロフォンからの記録である。上部スペクトログラムでは、音声子音および歯擦音からの高周波エネルギーが明らかに識別可能である。

有声セグメントの終わりに発生する低エネルギー音声成分を効果的に保存するために、利得ベースまたは位相ベースマルチチャネルボイスアクティビティ検出器あるいはエネルギーベースシングルチャネルボイスアクティビティ検出器など、ボイスアクティビティ検出器は慣性機構を含むことが望ましいことがある。そのような機構の一例は、検出器がいくつかの連続フレーム（たとえば、２、３、４、５、１０、または２０フレーム）のハングオーバ期間にわたって非アクティビティを検出し続けるまで、検出器がそれの出力をアクティブから非アクティブに切り替えるのを抑止するように構成された論理である。たとえば、そのようなハングオーバ論理は、直近の検出後のある期間の間にセグメントを音声として識別し続けることをＶＡＤに行わせるように構成され得る。

ハングオーバ期間は、いずれかの検出されない音声セグメントをキャプチャするのに十分が長いことが望ましいことがある。たとえば、利得ベースまたは位相ベースボイスアクティビティ検出器は、関係する周波数レンジにおける低エネルギーまたは情報の欠如により逃された音声セグメントをカバーするために約２００ミリ秒（たとえば、約２０フレーム）のハングオーバ期間を含むことが望ましいことがある。しかしながら、検出されない音声がハングオーバ期間の前に終了する場合、または低エネルギー音声成分が実際に存在しない場合、ハングオーバ論理は、ハングオーバ期間の間に雑音をパスすることをＶＡＤに行わせ得る。

単語の終わりにＶＡＤハングオーバ期間の長さを低減するために音声オフセット検出が使用され得る。上記のように、ボイスアクティビティ検出器にハングオーバ論理を与えることが望ましいことがある。そのような場合、（たとえば、ハングオーバ論理をリセットすること、または場合によっては組み合わせられた検出結果を制御することによって）オフセット検出に応答してハングオーバ期間を効果的に終了するような構成で、そのような検出器を音声オフセット検出器と組み合わせることが望ましいことがある。そのような構成は、対応するオフセットが検出され得るまで連続検出結果をサポートするように構成され得る。特定の例では、組み合わせられたＶＡＤは、（たとえば、公称２００ミリ秒期間を有する）ハングオーバ論理を用いた利得および／または位相ＶＡＤ、ならびにオフセットの終了が検出されるとすぐに音声を示すのを停止することを組み合わせられた検出器に行わせるように構成されたオフセットＶＡＤを含む。そのような方法で、適応ハングオーバが取得され得る。

図１３Ａに、適応ハングオーバを実装するために使用され得る、一般的構成による方法Ｍ２００のフローチャートを示す。方法Ｍ２００は、オーディオ信号の第１の複数の連続セグメントの各々の中にボイスアクティビティが存在すると判断するタスクＴＭ１００と、オーディオ信号中の第１の複数の連続セグメントの直後にくる上記信号の第２の複数の連続セグメントの各々の中にボイスアクティビティが存在しないと判断するタスクＴＭ２００とを含む。タスクＴＭ１００およびＴＭ２００は、たとえば、本明細書で説明するシングルまたはマルチチャネルボイスアクティビティ検出器によって実行され得る。方法Ｍ２００は、第２の複数のセグメントのうちの１つにおいてボイスアクティビティ状態の遷移を検出する、方法Ｍ１００のインスタンスをも含む。タスクＴＭ１００、ＴＭ２００、およびＭ１００の結果に基づいて、タスクＴＭ３００はボイスアクティビティ検出信号を生成する。

図１３Ｂに、サブタスクＴＭ３１０およびＴＭ３２０を含む、タスクＴＭ３００の実装形態ＴＭ３０２のブロック図を示す。第１の複数のセグメントの各々について、および遷移が検出されたセグメントの前に発生する第２の複数のセグメントの各々について、タスクＴＭ３１０は、（たとえば、タスクＴＭ１００の結果に基づいて）アクティビティを示すためのＶＡＤ信号の対応する値を生成する。遷移が検出されたセグメントの後に発生する第２の複数のセグメントの各々について、タスクＴＭ３２０は、（たとえば、タスクＴＭ２００の結果に基づいて）アクティビティなしを示すためのＶＡＤ信号の対応する値を生成する。

タスクＴＭ３０２は、検出された遷移がオフセットの開始または代替的にオフセットの終了であるように構成され得る。図１４Ａに、（Ｘとして示される）遷移セグメントについてのＶＡＤ信号の値が設計によって０または１であるように選択され得る、方法Ｍ２００の実装形態の動作の一例を示す。一例では、オフセットの終了が検出されたセグメントについてのＶＡＤ信号値は、アクティビティなしを示すための第１のＶＡＤ信号値である。別の例では、オフセットの終了が検出されたセグメントの直後のセグメントについてのＶＡＤ信号値は、アクティビティなしを示すための第１のＶＡＤ信号値である。

図１４Ｂに、適応ハングオーバとともに組み合わせられたＶＡＤ段を実装するために使用され得る、一般的構成による装置Ａ２００のブロック図を示す。装置Ａ２００は、本明細書で説明するタスクＴＭ１００およびＴＭ２００の実装形態を実行するように構成され得る第１のボイスアクティビティ検出器ＶＡＤ１０（たとえば、本明細書で説明するシングルまたはマルチチャネル検出器）を含む。装置Ａ２００は、本明細書で説明する音声オフセット検出を実行するように構成され得る第２のボイスアクティビティ検出器ＶＡＤ２０をも含む。装置Ａ２００は、本明細書で説明するタスクＴＭ３００の実装形態を実行するように構成され得る信号発生器ＳＧ１０をも含む。図１４Ｃに、第２のボイスアクティビティ検出器ＶＡＤ２０が装置Ａ１００のインスタンス（たとえば、装置Ａ１００、Ａ１１０、またはＡ１２０）として実装される、装置Ａ２００の実装形態Ａ２０５のブロック図を示す。

図１５Ａに、（この例では、周波数領域において）マルチチャネルオーディオ信号を受信することと、チャネル間利得差に基づく対応するＶＡＤ信号Ｖ１０とチャネル間位相差に基づく対応するＶＡＤ信号Ｖ２０とを生成することとを行うように構成された、第１の検出器ＶＡＤ１０の実装形態ＶＡＤ１２を含む、装置Ａ２０５の実装形態Ａ２１０のブロック図を示す。１つの特定の例では、利得差ＶＡＤ信号Ｖ１０は、０から８ｋＨｚまでの周波数レンジにわたる差に基づき、位相差ＶＡＤ信号Ｖ２０は、５００から２５００Ｈｚまでの周波数レンジにおける差に基づく。

装置Ａ２１０は、マルチチャネル信号の１つのチャネル（たとえば、１次チャネル）を受信することと、対応するオンセット指示ＴＩ１０ａと対応するオフセット指示ＴＩ１０ｂとを生成することとを行うように構成された、本明細書で説明する装置Ａ１００の実装形態Ａ１１０をも含む。１つの特定の例では、指示ＴＩ１０ａおよびＴＩ１０ｂは、５１０Ｈｚ〜８ｋＨｚの周波数レンジにおける差に基づく。（概して、マルチチャネル検出器のハングオーバ期間を適応させるように構成された音声オンセットおよび／またはオフセット検出器は、マルチチャネル検出器が受信したチャネルとは異なるチャネル上で動作し得ることに明確に留意されたい。）特定の例では、オンセット指示ＴＩ１０ａおよびオフセット指示ＴＩ１０ｂは、５００から８０００Ｈｚまでの周波数レンジにおけるエネルギー差に基づく。装置Ａ２１０は、ＶＡＤ信号Ｖ１０およびＶ２０と遷移指示ＴＩ１０ａおよびＴＩ１０ｂとを受信することと、対応する合成ＶＡＤ信号Ｖ３０を生成することとを行うように構成された、信号発生器ＳＧ１０の実装形態ＳＧ１２をも含む。

図１５Ｂに、信号発生器ＳＧ１２の実装形態ＳＧ１４のブロック図を示す。この実装形態は、合成マルチチャネルＶＡＤ信号を取得するために利得差ＶＡＤ信号Ｖ１０と位相差ＶＡＤ信号Ｖ２０とを合成するためのＯＲ論理ＯＲ１０と、拡張されたＶＡＤ信号を生成するためにオフセット指示ＴＩ１０ｂに基づいて合成マルチチャネル信号に適応ハングオーバ期間を課すように構成されたハングオーバ論理ＨＯ１０と、合成ＶＡＤ信号Ｖ３０を生成するために、拡張されたＶＡＤ信号をオンセット指示ＴＩ１０ａと合成するためのＯＲ論理ＯＲ２０とを含む。一例では、ハングオーバ論理ＨＯ１０は、オフセット指示ＴＩ１０ｂがオフセットの終了を示すとき、ハングオーバ期間を終了するように構成される。最大ハングオーバ値の特定の例は、位相ベースＶＡＤの場合は０、１つ、１０個、および２０個のセグメントを含み、利得ベースＶＡＤの場合は８つ、１０個、１２個、および２０個のセグメントを含む。オンセット指示ＴＩ１０ａおよび／またはオフセット指示ＴＩ１０ｂにハングオーバを適用するために信号発生器ＳＧ１０も実装され得ることに留意されたい。

図１６Ａに、代わりにＡＮＤ論理ＡＮ１０を使用して利得差ＶＡＤ信号Ｖ１０と位相差ＶＡＤ信号Ｖ２０とを合成することによって合成マルチチャネルＶＡＤ信号が生成される、信号発生器ＳＧ１２の別の実装形態ＳＧ１６のブロック図を示す。また、信号発生器ＳＧ１４またはＳＧ１６のさらなる実装形態は、オンセット指示ＴＩ１０ａを拡張するように構成されたハングオーバ論理、オンセット指示ＴＩ１０ａとオフセット指示ＴＩ１０ｂとが両方アクティブであるセグメントについてのボイスアクティビティの指示をオーバーライドするための論理、ならびに／あるいはＡＮＤ論理ＡＮ１０、ＯＲ論理ＯＲ１０、および／またはＯＲ論理ＯＲ２０における１つまたは複数の他のＶＡＤ信号についての入力を含み得る。

適応ハングオーバ制御の追加または代替として、利得差ＶＡＤ信号Ｖ１０および／または位相差ＶＡＤ信号Ｖ２０など、別のＶＡＤ信号の利得を変化させるために、オンセットおよび／またはオフセット検出が使用され得る。たとえば、オンセットおよび／またはオフセット指示に応答して、ＶＡＤ統計値が、１よりも大きいファクタによって（しきい値処理の前に）乗算され得る。１つのそのような例では、セグメントについてオンセット検出またはオフセット検出が示される場合、位相ベースＶＡＤ統計値（たとえば、コヒーレンシ測度）はファクタｐｈ＿ｍｕｌｔ＞１によって乗算され、利得ベースＶＡＤ統計値（たとえば、チャネルレベル間の差）はファクタｐｄ＿ｍｕｌｔ＞１によって乗算される。ｐｈ＿ｍｕｌｔについての値の例は、２、３、３．５、３．８、４、および４．５を含む。ｐｄ＿ｍｕｌｔについての値の例は、１．２、１．５、１．７、および２．０を含む。代替的に、１つまたは複数のそのような統計値は、セグメントにおけるオンセットおよび／またはオフセット検出の欠如に応答して減衰され得る（たとえば、１よりも少ないファクタによって乗算され得る）。概して、オンセットおよび／またはオフセット検出状態に応答して統計値をバイアスする任意の方法が使用され得る（たとえば、検出に応答して正のバイアス値を、または検出の欠如に応答して負のバイアス値を追加すること、オンセットおよび／またはオフセット検出に従ってテスト統計値についてのしきい値を上げ下げすること、ならびに／あるいは場合によってはテスト統計値と対応するしきい値との間の関係を修正すること）。

（たとえば、以下の式（Ｎ１）〜（Ｎ４）に関して説明するように）正規化されたＶＡＤ統計値に対してそのような乗算を実行すること、および／またはそのようなバイアスが選択されたときにＶＡＤ統計値についてのしきい値を調整することが望ましいことがある。また、そのような目的でオンセットおよび／またはオフセット指示を発生するために、合成ＶＡＤ信号Ｖ３０に合成するためにオンセットおよび／またはオフセット指示を発生するために使用されるインスタンスとは異なる方法Ｍ１００のインスタンスが使用され得ることに留意されたい。たとえば、方法Ｍ１００の利得制御インスタンスは、方法Ｍ１００のＶＡＤインスタンスとは異なるしきい値（たとえば、オンセットの場合は０．０１または０．０２、オフセットの場合は０．０５、０．０７、０．０９、または１．０）をタスクＴ６００において使用し得る。

本明細書で説明するＶＡＤストラテジと（たとえば、信号発生器ＳＧ１０によって）組み合わせられ得る別のＶＡＤストラテジは、フレームエネルギーと平均エネルギーの比ならびに／またはローバンドおよびハイバンドエネルギーに基づき得る、シングルチャネルＶＡＤ信号である。そのようなシングルチャネルＶＡＤ検出器を高いフォールスアラームレートに向かってバイアスすることが望ましいことがある。本明細書で説明するＶＡＤストラテジと組み合わせられ得る別のＶＡＤストラテジは、（たとえば、９００Ｈｚを下回るまたは５００Ｈｚを下回る）低周波数レンジにおけるチャネル間利得差に基づくマルチチャネルＶＡＤ信号である。そのような検出器は、フォールスアラームの低いレートで有声セグメントを正確に検出することが予想され得る。図４７Ｂに、合成ＶＡＤ信号を生成するために使用され得るＶＡＤストラテジの組合せのいくつかの例を記載する。この図では、Ｐは位相ベースＶＡＤを示し、Ｇは利得ベースＶＡＤを示し、ＯＮはオンセットＶＡＤを示し、ＯＦＦはオフセットＶＡＤを示し、ＬＦは低周波利得ベースＶＡＤを示し、ＰＢはブーストされた位相ベースＶＡＤを示し、ＧＢはブーストされた利得ベースＶＡＤを示し、ＳＣはシングルチャネルＶＡＤを示す。

図１６Ｂに、適応ハングオーバとともに組み合わせられたＶＡＤ段を実装するために使用され得る、一般的構成による装置ＭＦ２００のブロック図を示す。装置ＭＦ２００は、オーディオ信号の第１の複数の連続セグメントの各々の中にボイスアクティビティが存在すると判断するための手段ＦＭ１０を含み、手段ＦＭ１０は、本明細書で説明するタスクＴＭ１００の実装形態を実行するように構成され得る。装置ＭＦ２００は、オーディオ信号中の第１の複数の連続セグメントの直後にくる上記信号の第２の複数の連続セグメントの各々の中にボイスアクティビティが存在しないと判断するための手段ＦＭ２０を含み、手段ＦＭ２０は、本明細書で説明するタスクＴＭ２００の実装形態を実行するように構成され得る。手段ＦＭ１０およびＦＭ２０は、たとえば、本明細書で説明するシングルまたはマルチチャネルボイスアクティビティ検出器として実装され得る。装置Ａ２００は、第２の複数のセグメントのうちの１つにおいてボイスアクティビティ状態の遷移を検出するための（たとえば、本明細書で説明する音声オフセット検出を実行するための）手段ＦＭ１００のインスタンスをも含む。装置Ａ２００は、（たとえば、タスクＴＭ３００および／または信号発生器ＳＧ１０に関して本明細書で説明したように）ボイスアクティビティ検出信号を生成するための手段ＦＭ３０をも含む。

また、マイクロフォン配置に対するＶＡＤシステムの敏感性を減少させるために、異なるＶＡＤ技法からの結果を組み合わせることが使用され得る。たとえば、電話が下で（たとえば、ユーザの口から離れて）保持されるとき、位相ベースボイスアクティビティ検出器と利得ベースボイスアクティビティ検出器の両方は機能しないことがある。そのような場合、組み合わせられた検出器は、オンセットおよび／またはオフセット検出により重度に依拠することが望ましいことがある。また、統合されたＶＡＤシステムがピッチ追跡と組み合わせられ得る。

利得ベースおよび位相ベースボイスアクティビティ検出器は、ＳＮＲが極めて低いときに損害を被ることがあるが、雑音は通常、高周波数において問題ではなく、したがって、オンセット／オフセット検出器は、（たとえば、他の検出器の無効化を補償するために）ＳＮＲが低いときに増加され得るハングオーバ間隔（および／または時間平滑化演算）を含むように構成され得る。また、減衰する利得／位相ベースＶＡＤ統計値と増加する利得／位相ベースＶＡＤ統計値との間のギャップを埋めることによってより正確な音声／雑音セグメンテーションを可能にし、したがって、それらの検出器のためのハングオーバ期間を低減することを可能にするために、音声オンセット／オフセット統計値に基づく検出器が使用され得る。

ハングオーバ論理などの慣性手法は、単独では、「ｔｈｅ」などの子音が多い単語を用いた発話の開始を保存するのに有効でない。１つまたは複数の他の検出器が逃した単語開始における音声オンセットを検出するために、音声オンセット統計値が使用され得る。そのような構成は、別の検出器がトリガされ得るまでオンセット遷移指示を延長するために時間平滑化および／またはハングオーバ期間を含み得る。

オンセットおよび／またはオフセット検出がマルチチャネルコンテキストにおいて使用されるたいていの場合は、ユーザの口に最も近く配置されるかまたは他の方法でユーザのボイスを最も直接的に受信するように配置されたマイクロフォン（「接話」または「１次」マイクロフォンとも呼ばれる）に対応するチャネルに対してそのような検出を実行することが十分であり得る。しかしながら、場合によっては、デュアルチャネル実装形態における両方のマイクロフォンに対してなど、２つ以上のマイクロフォンに対してオンセットおよび／またはオフセット検出を実行することが望ましいことがある（たとえば、電話がユーザの口から離れて向くように回転される使用シナリオの場合）。

図１７〜図１９に、図１２の記録に適用される異なるボイス検出ストラテジの例を示す。これらの図の最上部プロットは、時間領域における入力信号と、個々のＶＡＤ結果のうちの２つ以上を組み合わせることによって生成されたバイナリ検出結果とを示している。これらの図の他のプロットの各々は、ＶＡＤ統計値の時間領域波形と、（各プロット中の水平線によって示される）対応する検出器についてのしきい値と、得られたバイナリ検出決定とを示している。

上から下に、図１７中のプロットは、（Ａ）他のプロットからの検出結果の全部の組合せを使用したグローバルＶＡＤストラテジ、（Ｂ）５００〜２５００Ｈｚ周波数帯域にわたる周波数とのマイクロフォン間位相差の相関に基づくＶＡＤストラテジ（ハングオーバなし）、（Ｃ）０〜８０００Ｈｚ帯域にわたるマイクロフォン間利得差によって示される近接度検出に基づくＶＡＤストラテジ（ハングオーバなし）、（Ｄ）５００〜８０００Ｈｚ帯域にわたるスペクトログラムクロス周波数連続性によって示される音声オンセットの検出に基づくＶＡＤストラテジ（たとえば、方法Ｍ１００の実装形態）、および（Ｅ）５００〜８０００Ｈｚ帯域にわたるスペクトログラムクロス周波数連続性によって示される音声オフセットの検出に基づくＶＡＤストラテジ（たとえば、方法Ｍ１００の別の実装形態）を示している。図１７の下部の矢印は、位相ベースＶＡＤによって示されるいくつかのフォールスポジティブの時間的なロケーションを示している。

図１８は、図１８の最上部プロットに示すバイナリ検出結果が、（この場合、ＯＲ論理を使用して）それぞれプロットＢおよびＣに示す位相ベース検出結果および利得ベース検出結果のみを組み合わせることによって取得されるという点で、図１７とは異なる。図１８の下部の矢印は、位相ベースＶＡＤおよび利得ベースＶＡＤのいずれか一方によって検出されない音声オフセットの時間的なロケーションを示している。

図１９は、図１９の最上部プロットに示すバイナリ検出結果が、（この場合、ＯＲ論理を使用して）プロットＢに示す利得ベース検出結果と、それぞれプロットＤおよびＥに示すオンセット検出結果／オフセット検出結果とのみを組み合わせることによって取得されるという点で、ならびに位相ベースＶＡＤと利得ベースＶＡＤの両方がハングオーバを含むように構成されるという点で、図１７とは異なる。この場合、位相ベースＶＡＤからの結果は、図１６に示す複数のフォールスポジティブのため、廃棄された。音声オンセット／オフセットＶＡＤ結果を利得ベースＶＡＤ結果と組み合わせることによって、利得ベースＶＡＤのためのハングオーバは低減され、位相ベースＶＡＤは必要とされなかった。この記録は遠距離場干渉音声をも含むが、遠距離場音声は顕著な高周波情報がない傾向があるので、近距離場音声オンセット／オフセット検出器は遠距離場干渉音声を検出することが適切にできなかった。

高周波情報は音声了解度にとって重要であり得る。空気は、それを通って進む音に対する低域フィルタのように働くので、音源とマイクロフォンとの間の距離が増加するにつれて、マイクロフォンによってピックアップされる高周波情報の量は一般に減少することになる。同様に、所望の話者とマイクロフォンとの間の距離が増加するにつれて、低エネルギー音声は背景雑音に埋もれるようになる傾向がある。しかしながら、方法Ｍ１００に関して本明細書で説明したように、高周波数レンジにわたってコヒーレントであるエネルギーアクティブ化のインジケータは、記録されたスペクトルにおいてこの高周波特徴が依然として検出可能であり得るので、低周波音声特性を不明瞭にし得る雑音の存在下でも近距離場音声を追跡するために使用され得る。

図２０に、街頭雑音に埋もれた近距離場音声のマルチチャネル記録のスペクトログラムを示し、図２１〜図２３に、図２０の記録に適用される異なるボイス検出ストラテジの例を示す。これらの図の最上部プロットは、時間領域における入力信号と、個々のＶＡＤ結果のうちの２つ以上を組み合わせることによって生成されたバイナリ検出結果とを示している。これらの図の他のプロットの各々は、ＶＡＤ統計値の時間領域波形と、（各プロット中の水平線によって示される）対応する検出器についてのしきい値と、得られたバイナリ検出決定とを示している。

図２１は、利得ベースおよび位相ベースＶＡＤを補完するために音声オンセットおよび／またはオフセット検出がどのように使用され得るかの一例を示している。左側の矢印のグループは、音声オフセットＶＡＤによってのみ検出された音声オフセットを示しており、右側の矢印のグループは、音声オンセットＶＡＤによってのみ検出された音声オンセット（低いＳＮＲにおける発話「ｔｏ」および「ｐｕｒｅ」のオンセット）を示している。

図２２は、ハングオーバなしの位相ベースＶＡＤと利得ベースＶＡＤ（プロットＢとプロットＣ）のみの組合せ（プロットＡ）が、オンセット統計値／オフセット統計値（プロットＤおよびＥ）を使用して検出され得る低エネルギー音声特徴を頻繁に逃すことを示している。図２３のプロットＡは、個々の検出器のすべての４つからの結果（すべての検出器上でハングオーバがある、図２３のプロットＢ〜Ｅ）を組み合わせることが、正確なオフセット検出をサポートし、同様に単語オンセットを正しく検出しながら、利得ベースおよび位相ベースＶＡＤ上でより小さいハングオーバの使用を可能にすることを示している。

雑音低減および／または抑圧のためにボイスアクティビティ検出（ＶＡＤ）演算の結果を使用することが望ましいことがある。１つのそのような例では、（たとえば、雑音周波数成分および／またはセグメントを減衰させるために）チャネルのうちの１つまたは複数上でＶＡＤ信号が利得制御として適用される。別のそのような例では、更新される雑音推定値に基づくマルチチャネル信号の少なくとも１つのチャネル上で（たとえば、ＶＡＤ演算によって雑音として分類された周波数成分またはセグメントを使用して）雑音低減演算のための雑音推定値を計算する（たとえば、更新する）ためにＶＡＤ信号が適用される。そのような雑音低減演算の例は、スペクトル減算演算およびウィーナーフィルタ処理演算を含む。本明細書で開示するＶＡＤストラテジとともに使用され得る後処理演算のさらなる例（たとえば、残差雑音抑圧、雑音推定値組合せ）は、米国特許出願第６１／４０６，３８２号（Ｓｈｉｎら。２０１０年１０月２５日出願）に記載されている。

典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および／または干渉源（たとえば、テレビ受像機またはラジオ）からの音があり得る。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音電力基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音電力推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を取得することが望ましいことがある。

雑音推定値の例は、シングルチャネルＶＡＤと、マルチチャネルＢＳＳフィルタによって生成された雑音基準とに基づくシングルチャネル長期推定値を含む。１次マイクロフォンチャネルの成分および／またはセグメントを分類するために近接度検出演算からの（デュアルチャネル）情報を使用することによってシングルチャネル雑音基準が計算され得る。そのような雑音推定値は、長期推定値を必要としないので、他の手法よりもはるかに迅速に利用可能であり得る。また、このシングルチャネル雑音基準は、一般に非定常雑音の除去をサポートすることができない長期推定値ベースの手法とは異なり、非定常雑音をキャプチャすることができる。そのような方法は速く正確な非定常雑音基準を与え得る。雑音基準は（たとえば、第１度平滑器を使用して、場合によっては各周波数成分上で）平滑化され得る。近接度検出の使用により、そのような方法を使用するデバイスは、方向マスキング関数の前方ローブに移る自動車の雑音の音など、近くの過渡現象を除去することが可能になり得る。

本明細書で説明するＶＡＤ指示は、雑音基準信号の計算をサポートするために使用され得る。たとえば、フレームが雑音であることをＶＡＤ指示が示すとき、そのフレームは、雑音基準信号（たとえば、１次マイクロフォンチャネルの雑音成分のスペクトルプロファイル）を更新するために使用され得る。そのような更新は、たとえば、周波数成分値を時間的に平滑化することによって（たとえば、現在の雑音推定値の対応する成分の値で各成分の前の値を更新することによって）、周波数領域において実行され得る。一例では、ウィーナーフィルタが、１次マイクロフォンチャネルに対して雑音低減演算を実行するために雑音基準信号を使用する。別の例では、スペクトル減算演算が、（たとえば、１次マイクロフォンチャネルから雑音スペクトルを減算することによって）１次マイクロフォンチャネルに対して雑音低減演算を実行するために雑音基準信号を使用する。フレームが雑音でないことをＶＡＤ指示が示すとき、そのフレームは、１次マイクロフォンチャネルの信号成分のスペクトルプロファイルを更新するために使用され得、また、そのプロファイルは、雑音低減演算を実行するためにウィーナーフィルタによって使用され得る。得られる演算は、デュアルチャネルＶＡＤ演算を利用する擬似シングルチャネル雑音低減アルゴリズムであると見なされ得る。

上記で説明した適応ハングオーバは、音声の間隔の間の連続検出結果を維持しながら音声セグメントと雑音との間のより正確な区別を行うためにボコーダコンテキストにおいて有用であり得る。しかしながら、別のコンテキストでは、そのような行為によりＶＡＤ結果が音声の同じ間隔内で状態を変化させる場合でも、（たとえば、ハングオーバをなくすために）ＶＡＤ結果のより迅速な遷移を可能にすることが望ましいことがある。たとえば、雑音低減コンテキストでは、ボイスアクティビティ検出器が雑音として識別するセグメントに基づいて雑音推定値を計算することと、計算された雑音推定値を使用して、音声信号に対して雑音低減演算（たとえば、ウィーナーフィルタ処理または他のスペクトル減算演算）を実行することとが望ましいことがある。そのような場合、ユーザが話している間にそのようなチューニングによりＶＡＤ信号が状態を変化させる場合でも、（たとえば、フレームごとに）より正確なセグメンテーションを取得するように検出器を構成することが望ましいことがある。

方法Ｍ１００の実装形態は、単独であろうと１つまたは複数の他のＶＡＤ技法との組合せであろうと、信号の各セグメントについてバイナリ検出結果（たとえば、ボイスの場合は高いまたは「１」、および他の場合は低いまたは「０」）を生成するように構成され得る。代替的に、方法Ｍ１００の実装形態は、単独であろうと１つまたは複数の他のＶＡＤ技法との組合せであろうと、各セグメントについて２つ以上の検出結果を生成するように構成され得る。たとえば、セグメントの異なる周波数サブバンドにわたるオンセットおよび／またはオフセット連続性に基づいてそのバンドを個々に特徴づける時間周波数ＶＡＤ技法を取得するために、音声オンセットおよび／またはオフセットの検出が使用され得る。そのような場合、前述のサブバンド分割方式のいずれか（たとえば、一様、バーク尺度、メル尺度）が使用され得、各サブバンドについてタスクＴ５００およびＴ６００のインスタンスが実行され得る。非一様サブバンド分割方式では、タスクＴ５００の各サブバンドインスタンスは、たとえば、タスクＴ６００の各サブバンドインスタンスが同じしきい値（たとえば、オンセットの場合は０．７、オフセットの場合は−０．１５）を使用し得るように、対応するサブバンドのためのアクティブ化の数を正規化する（たとえば、平均化する）ことが望ましいことがある。

そのようなサブバンドＶＡＤ技法は、たとえば、所与のセグメントが、５００〜１０００Ｈｚ帯域では音声を搬送し、１０００〜１２００Ｈｚ帯域では雑音を搬送し、１２００〜２０００Ｈｚ帯域では音声を搬送することを示し得る。そのような結果は、コーディング効率および／または雑音低減パフォーマンスを増加させるために適用され得る。また、そのようなサブバンドＶＡＤ技法は、様々なサブバンドの各々において独立したハングオーバ論理（および場合によっては異なるハングオーバ間隔）を使用することが望ましいことがある。サブバンドＶＡＤ技法では、本明細書で説明するハングオーバ期間の適応が、様々なサブバンドの各々において独立して実行され得る。組み合わせられたＶＡＤ技法のサブバンド実装形態は、各個の検出器についてのサブバンド結果を組み合わせることを含み得、または代替的に、すべての検出器よりも少数の（場合によってはただ１つの）検出器からのサブバンド結果を、他の検出器からのセグメントレベルの結果と組み合わせることを含み得る。

位相ベースＶＡＤの一例では、各周波数成分において方向マスキング関数が適用されて、その周波数における位相差が所望のレンジ内にある方向に対応するかどうかが判断され、テスト中の周波数レンジにわたるそのようなマスキングの結果に従ってコヒーレンシ測度が計算され、しきい値と比較されて、バイナリＶＡＤ指示が取得される。そのような手法は、（たとえば、単一の方向マスキング関数がすべての周波数において使用され得るように）各周波数における位相差を、到着方向または到着時間差など、方向の周波数独立インジケータに変換することを含み得る。代替的に、そのような手法は、各周波数において観測される位相差に異なるそれぞれのマスキング関数を適用することを含み得る。

位相ベースＶＡＤの別の例では、テスト中の周波数レンジ内の個々の周波数成分の到着方向の分布の形状（たとえば、個々のＤＯＡが互いにどのくらい緊密にグループ化されるか）に基づいてコヒーレンシ測度が計算される。いずれの場合も、現在のピッチ推定値の倍数である周波数のみに基づいて位相ＶＡＤにおいてコヒーレンシ測度を計算することが望ましいことがある。

検査されるべき各周波数成分について、たとえば、位相ベース検出器は、対応するＦＦＴ係数の虚数項とＦＦＴ係数の実数項との比の（アークタンジェントとも呼ばれる）逆タンジェントとして位相を推定するように構成され得る。

広帯域周波数レンジにわたって各ペアのチャネル間の方向コヒーレンスを判断するように位相ベースボイスアクティビティ検出器を構成することが望ましいことがある。そのような広帯域レンジは、たとえば、０、５０、１００、または２００Ｈｚの低周波限界から、３、３．５、または４ｋＨｚの（あるいは最高７または８ｋＨｚ以上など、さらにより高い）高周波限界に及び得る。ただし、検出器は、信号の帯域幅全体にわたって位相差を計算することが不要であり得る。たとえば、そのような広帯域レンジにおける多くの帯域では、位相推定が実際的でないかまたは不要であり得る。超低周波数における受信した波形の位相関係の実際的評価は、一般に、トランスデューサ間で相応して大きい間隔を必要とする。したがって、マイクロフォン間の最大の利用可能な間隔は、低周波限界を確立し得る。一方、マイクロフォン間の距離は、空間エイリアシングを回避するために、最小波長の１／２を超えるべきではない。たとえば、８キロヘルツサンプリングレートは０から４キロヘルツまでの帯域幅を与える。４ｋＨｚ信号の波長は約８．５センチメートルであるので、この場合、隣接するマイクロフォン間の間隔は約４センチメートルを超えるべきではない。マイクロフォンチャネルは、空間エイリアシングを生じ得る周波数を除去するために低域フィルタ処理され得る。

音声信号（または他の所望の信号）が方向的にコヒーレントであることが予想され得る、特定の周波数成分または特定の周波数レンジをターゲットにすることが望ましいことがある。（たとえば、自動車などの音源からの）指向性雑音および／または拡散雑音など、背景雑音は同じレンジにわたって方向的にコヒーレントでないことになることが予想され得る。音声は４から８キロヘルツまでのレンジにおいて低電力を有する傾向があり、したがって、少なくともこのレンジにわたって位相推定を控えることが望ましいことがある。たとえば、約７００ヘルツから約２キロヘルツまでのレンジにわたって位相推定を実行し、方向コヒーレンシを判断することが望ましいことがある。

したがって、周波数成分のすべてよりも少数の周波数成分について（たとえば、ＦＦＴの周波数サンプルのすべてよりも少数の周波数サンプルについて）位相推定値を計算するように検出器を構成することが望ましいことがある。一例では、検出器は７００Ｈｚ〜２０００Ｈｚの周波数レンジについて位相推定値を計算する。４キロヘルツ帯域幅信号の１２８点ＦＦＴの場合、７００〜２０００Ｈｚのレンジは、ほぼ、第１０のサンプルから第３２のサンプルまでの２３個の周波数サンプルに対応する。信号についての現在のピッチ推定値の倍数に対応する周波数成分について位相差のみを考慮するように検出器を構成することも望ましいことがある。

位相ベース検出器は、計算された位相差からの情報に基づいて、チャネルペアの方向コヒーレンスを評価するように構成され得る。マルチチャネル信号の「方向コヒーレンス」は、信号の様々な周波数成分が同じ方向から到着する程度として定義される。理想的に方向的にコヒーレントなチャネルペアの場合、

の値はすべての周波数について定数ｋに等しく、ここで、ｋの値は到着方向θおよび到着時間遅延τに関係する。マルチチャネル信号の方向コヒーレンスは、たとえば、（たとえば、方向マスキング関数によって示されるように）各周波数成分について推定される到着方向が特定の方向にどのくらいよく適合するかに従って、（位相差および周波数の比によって、または到着時間遅延によって示されることもある）各周波数成分について推定される到着方向をレーティングすることと、次いで、その信号についてのコヒーレンシ測度を取得するために様々な周波数成分についてのレーティング結果を組み合わせることとによって、定量化され得る。

コヒーレンシ測度を時間平滑化値として生成すること（たとえば、時間平滑化関数を使用してコヒーレンシ測度を計算すること）が望ましいことがある。コヒーレンシ測度の対比は、コヒーレンシ測度の現在値と、経時的コヒーレンシ測度の平均値（たとえば、直近の１０、２０、５０、または１００フレームにわたる平均値、最頻値、または中央値）との間の関係の値（たとえば、差または比）として表され得る。コヒーレンシ測度の平均値は、時間平滑化関数を使用して計算され得る。また、方向コヒーレンスの測度の計算および適用を含む、位相ベースＶＡＤ技法は、たとえば、米国特許出願公開第２０１０／０３２３６５２Ａ１号および第２０１１／０３８４８９Ａ１号（Ｖｉｓｓｅｒら）に記載されている。

利得ベースＶＡＤ技法は、各チャネルについて利得測度の対応する値の間の差に基づいてセグメント中のボイスアクティビティの存在または不在を示すように構成され得る。（時間領域においてまたは周波数領域において計算され得る）そのような利得測度の例は、合計大きさ、平均大きさ、ＲＭＳ振幅、中央大きさ、ピーク大きさ、総エネルギー、および平均エネルギーを含む。利得測度に対しておよび／または計算された差に対して時間平滑化演算を実行するように検出器を構成することが望ましいことがある。上記のように、利得ベースＶＡＤ技法は、（たとえば、所望の周波数レンジにわたる）セグメントレベルの結果、または代替的に、各セグメントの複数のサブバンドの各々についての結果を生成するように構成され得る。

チャネル間の利得差が近接度検出のために使用され得、これは、より良い前面雑音抑圧（たとえば、ユーザの前の干渉話者の抑圧）など、よりアグレッシブな近距離場／遠距離場弁別をサポートし得る。マイクロフォン間の距離に応じて、平衡マイクロフォンチャネル間の利得差は、一般に、音源が５０センチメートルまたは１メートル以内にある場合のみ発生することになる。

利得ベースＶＡＤ技法は、チャネルの利得間の差がしきい値よりも大きいとき、セグメントが所望の音源からのものであることを検出する（たとえば、ボイスアクティビティの検出を示す）ように構成され得る。しきい値はヒューリスティックに判断され得、信号対雑音比（ＳＮＲ）、雑音フロアなどの１つまたは複数のファクタに応じて異なるしきい値を使用すること（たとえば、ＳＮＲが低いときにより高いしきい値を使用すること）が望ましいことがある。また、利得ベースＶＡＤ技法は、たとえば、米国特許出願公開第２０１０／０３２３６５２Ａ１号（Ｖｉｓｓｅｒら）に記載されている。

また、組み合わせられた検出器中の個々の検出器のうちの１つまたは複数が、個々の検出器のうちの別の検出器とは異なる時間スケールで結果を生成するように構成され得ることに留意されたい。たとえば、利得ベース、位相ベース、またはオンセットオフセット検出器は、長さｍの各セグメントについてＶＡＤ指示を生成するように構成された利得ベース、位相ベース、またはオンセットオフセット検出器からの結果と組み合わせられるべき、長さｎの各セグメントについてＶＡＤ指示を生成するように構成され得、その場合、ｎはｍよりも小さい。

音声アクティブフレームを音声非アクティブフレームと弁別するボイスアクティビティ検出（ＶＡＤ）は、音声強調および音声コーディングの重要な部分である。上記のように、シングルチャネルＶＡＤの例は、ＳＮＲベースＶＡＤ、尤度比ベースＶＡＤ、および音声オンセット／オフセットベースＶＡＤを含み、デュアルチャネルＶＡＤ技法の例は、位相差ベースＶＡＤおよび（近接度ベースとも呼ばれる）利得差ベースＶＡＤを含む。デュアルチャネルＶＡＤは、概して、シングルチャネル技法よりも正確であるが、一般に、マイクロフォン利得不整合、および／またはユーザが電話を保持している角度に大きく依存する。

図２４に、水平位置から−３０度、−５０度、−７０度、および−９０度の保持角で６ｄＢＳＮＲの近接度ベースＶＡＤテスト統計値対位相差ベースＶＡＤテスト統計値の分散プロットを示す。図２４および図２７〜図２９では、グレーの点は音声アクティブフレームに対応し、黒い点は音声非アクティブフレームに対応する。位相差ベースＶＡＤでは、この例で使用されるテスト統計値は、ルック方向のレンジにおける推定されたＤｏＡでの周波数ビンの平均数であり（位相コヒーレンシ測度とも呼ばれる）、大きさ差ベースＶＡＤでは、この例で使用されるテスト統計値は、１次マイクロフォンと２次マイクロフォンとの間のログＲＭＳレベル差である。図２４は、なぜ固定しきい値が、異なる保持角に好適でないことがあるかを証明している。

ポータブルオーディオ感知デバイス（たとえば、ヘッドセットまたはハンドセット）のユーザが、ユーザの口に対する最適でない配向（保持位置または保持角とも呼ばれる）でデバイスを使用すること、および／またはデバイスの使用の間に保持角を変化させることは珍しくない。保持角のそのような変化はＶＡＤ段のパフォーマンスに悪影響を及ぼし得る。

変化する保持角に対処する１つの手法は、（たとえば、マイクロフォン間の位相差または到着時間差（ＴＤＯＡ：time-difference-of-arrival）、および／または利得差に基づき得る、到着方向（ＤｏＡ）推定を使用して）保持角を検出することである。代替または追加として使用され得る、変化する保持角に対処する別の手法は、ＶＡＤテスト統計値を正規化することである。そのような手法は、保持角を明示的に推定することなしに、ＶＡＤしきい値を保持角に関係する統計値の関数にするという効果を有するように実装され得る。

オンライン処理では、最小統計値ベースの手法が利用され得る。保持角が変化し、マイクロフォンの利得応答が調和していない状況の場合でも、弁別力を最大にするために、最大および最小統計値追跡に基づくＶＡＤテスト統計値の正規化が提案される。

前に雑音電力スペクトル推定アルゴリズムのために使用された、最小統計値アルゴリズムは、ここで最小および最大平滑化テスト統計値追跡のために適用される。最大テスト統計値追跡では、同じアルゴリズムが（２０−テスト統計値）の入力とともに使用される。たとえば、最大テスト統計値追跡は、同じアルゴリズムを使用して最小統計値追跡方法から導出され得、したがって、基準点（たとえば、２０ｄＢ）から最大テスト統計値を減算することが望ましいことがある。次いで、そのテスト統計値は、次のように、０の最小平滑化統計値および１の最大平滑化統計値を作成するために歪曲され得る。

上式で、ｓ_tは入力テスト統計値を示し、ｓ_t’は正規化テスト統計値を示し、ｓ_minは、追跡された最小平滑化テスト統計値を示し、ｓ_MAXは、追跡された最大平滑化テスト統計値を示し、ξは元の（固定）しきい値を示す。正規化テスト統計値ｓ_t’は、平滑化により［０，１］レンジの外の値を有し得ることに留意されたい。

式（Ｎ１）に示す決定ルールは、次のように適応しきい値とともに非正規化テスト統計値ｓ_tを使用して同等に実装され得ることが、明確に企図され、本明細書によって開示される。

上式で、（ｓ_MAX−ｓ_min）ξ＋ｓ_minは、正規化テスト統計値ｓ_t’とともに固定しきい値ξを使用することに相当する適応しきい値ξ’を示す。

位相差ベースＶＡＤは、一般にマイクロフォンの利得応答の差の影響を受けないが、利得差ベースＶＡＤは、一般にそのような不整合に極めて敏感である。この方式の潜在的な追加の利益は、正規化テスト統計値ｓ_t’がマイクロフォン利得較正から独立していることである。たとえば、２次マイクロフォンの利得応答が通常よりも１ｄＢ高い場合、現在のテスト統計値ｓ_t、ならびに最大統計値ｓ_MAXおよび最小統計値ｓ_minは、１ｄＢ低くなる。したがって、正規化テスト統計値ｓ_t’は同じであることになる。

図２５に、水平位置から−３０度、−５０度、−７０度、および−９０度の保持角で６ｄＢＳＮＲの近接度ベースＶＡＤテスト統計値の場合の追跡された最小（黒、下側トレース）および最大（グレー、上側トレース）テスト統計値を示す。図２６に、水平位置から−３０度、−５０度、−７０度、および−９０度の保持角で６ｄＢＳＮＲの位相ベースＶＡＤテスト統計値の場合のトレースされた最小（黒、下側トレース）および最大（グレー、上側トレース）テスト統計値を示す。図２７に、式（Ｎ１）に従って正規化されたこれらのテスト統計値についての分散プロットを示す。各プロット中の２つのグレーの線および３つの黒い線は、すべての４つの保持角について同じであるように設定された２つの異なるＶＡＤしきい値について考えられる提案を示している（一方の色のすべての線の右上側は音声アクティブフレームであると見なされる）。

式（Ｎ１）中の正規化に伴う１つの問題は、全体の分布はうまく正規化されるが、雑音のみの間隔（黒い点）についての正規化スコア差異は、狭い非正規テスト統計値レンジの場合、比較的増加することである。たとえば、図２７は、保持角が−３０度から−９０度まで変化するにつれて、黒い点のかたまりが拡散することを示している。この拡散は、次式などの修正を使用して制御され得る。

または同等に、

上式で、０≦α≦１は、スコアを正規化することと、雑音統計値の差異の増加を抑止することとの間のトレードオフを制御するパラメータである。また、ｓ_MAX−ｓ_minはマイクロフォン利得から独立していることになるので、式（Ｎ３）中の正規化統計値はマイクロフォン利得変化から独立していることに留意されたい。

αの値＝０により、図２７が導かれることになる。図２８に、両方のＶＡＤ統計値についてαの値＝０．５を適用することから生じる分散プロットのセットを示す。図２９に、位相ＶＡＤ統計値についてはαの値＝０．５を適用し、近接度ＶＡＤ統計値についてはαの値＝０．２５を適用することから生じる分散プロットのセットを示す。これらの図は、そのような方式とともに固定しきい値を使用することにより、様々な保持角についてパフォーマンスが適度にロバストになり得ることを示している。

そのようなテスト統計値は（たとえば、上記の式（Ｎ１）または（Ｎ３）の場合のように）正規化され得る。代替的に、アクティブ化された（すなわち、エネルギーの急な増加または減少を示す）周波数帯域の数に対応するしきい値が（たとえば、上記の式（Ｎ２）または（Ｎ４）の場合のように）適応され得る。

また、追加または代替として、式（Ｎ１）〜（Ｎ４）に関して説明した正規化技法は、１つまたは複数の他のＶＡＤ統計値（たとえば、低周波近接度ＶＡＤ、オンセットおよび／またはオフセット検出）とともに使用され得る。たとえば、そのような技法を使用してΔＥ（ｋ，ｎ）を正規化するようにタスクＴ３００を構成することが望ましいことがある。正規化は、信号レベルおよび雑音非定常性に対するオンセット／オフセット検出のロバストネスを増加させ得る。

オンセット／オフセット検出では、ΔＥ（ｋ，ｎ）の２乗の最大値および最小値を追跡すること（たとえば、正値のみを追跡すること）が望ましいことがある。また、最大値をΔＥ（ｋ，ｎ）のクリッピングされた値の２乗として（たとえば、オンセットの場合はｍａｘ［０，ΔＥ（ｋ，ｎ）］の２乗として、およびオフセットの場合はｍｉｎ［０，ΔＥ（ｋ，ｎ）］の２乗として）追跡することが望ましいことがある。最小統計値追跡では、雑音変動を追跡するために、オンセットの場合はΔＥ（ｋ，ｎ）の負値、およびオフセットの場合はΔＥ（ｋ，ｎ）の正値が有用であることがあるが、最大統計値追跡では、それらの値はあまり有用でないことがある。オンセット／オフセット統計値の最大値は、緩やかに減少し、急速に上昇することになることが予想され得る。

概して、（たとえば、方法Ｍ１００およびＭ２００の様々な実装形態の場合のように）本明細書で説明するオンセットおよび／またはオフセットならびに組み合わせられたＶＡＤストラテジは、音響信号を受信するように構成された２つ以上のマイクロフォンのアレイＲ１００をそれぞれが有する１つまたは複数のポータブルオーディオ感知デバイスを使用して実装され得る。そのようなアレイを含むように、また、オーディオ記録および／またはボイス通信適用例のためにそのようなＶＡＤストラテジとともに使用されるように構築され得るポータブルオーディオ感知デバイスの例には、電話ハンドセット（たとえば、セルラー電話ハンドセット）、ワイヤードまたはワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）、ハンドヘルドオーディオおよび／またはビデオレコーダ、オーディオおよび／またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末（ＰＤＡ）または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイスがある。アレイＲ１００のインスタンスを含むように、また、そのようなＶＡＤストラテジとともに使用されるように構築され得るオーディオ感知デバイスの他の例には、セットトップボックスならびにオーディオおよび／またはビデオ会議デバイスがある。

アレイＲ１００の各マイクロフォンは、全方向、双方向、または単方向（たとえば、カージオイド）である応答を有し得る。アレイＲ１００において使用され得る様々なタイプのマイクロフォンには、（限定はしないが）圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、アレイＲ１００の隣接するマイクロフォン間の中心間間隔は一般に約１．５ｃｍから約４．５ｃｍまでの範囲内であるが、ハンドセットまたはスマートフォンなどのデバイスでは（たとえば、１０ｃｍまたは１５ｃｍまでの）より広い間隔も可能であり、タブレットコンピュータなどのデバイスでは（たとえば、２０ｃｍ、２５ｃｍまたは３０ｃｍ以上までの）さらに広い間隔が可能である。補聴器では、アレイＲ１００の隣接するマイクロフォン間の中心間間隔はわずか約４ｍｍまたは５ｍｍであり得る。アレイＲ１００のマイクロフォンは、線に沿って、あるいは代替的に、それらの中心が２次元形状（たとえば、三角形）または３次元形状の頂点に存在するように構成され得る。ただし、概して、アレイＲ１００のマイクロフォンは、特定の適用例に好適と見なされる任意の構成で配設され得る。たとえば、図３８および図３９に、正多角形に準拠しないアレイＲ１００の５マイクロフォン実装形態の一例をそれぞれ示す。

本明細書で説明するマルチマイクロフォンオーディオ感知デバイスの動作中、アレイＲ１００はマルチチャネル信号を生成し、各チャネルは、音響環境に対するマイクロフォンのうちの対応する１つの応答に基づく。単一のマイクロフォンを使用してキャプチャされ得るよりも完全な、音響環境の表現を集合的に与えるために、対応するチャネルが互いに異なるように、１つのマイクロフォンが別のマイクロフォンよりも直接的に特定の音を受信し得る。

アレイＲ１００は、マルチチャネル信号Ｓ１０を生成するために、マイクロフォンによって生成された信号に対して１つまたは複数の処理演算を実行することが望ましいことがある。図３０Ａに、（限定はしないが）インピーダンス整合、アナログデジタル変換、利得制御、ならびに／あるいはアナログおよび／またはデジタル領域におけるフィルタ処理を含み得る、１つまたは複数のそのような演算を実行するように構成されたオーディオ前処理段ＡＰ１０を含むアレイＲ１００の実装形態Ｒ２００のブロック図を示す。

図３０Ｂに、アレイＲ２００の実装形態Ｒ２１０のブロック図を示す。アレイＲ２１０は、アナログ前処理段Ｐ１０ａとアナログ前処理段Ｐ１０ｂとを含むオーディオ前処理段ＡＰ１０の実装形態ＡＰ２０を含む。一例では、段Ｐ１０ａおよびＰ１０ｂはそれぞれ、対応するマイクロフォン信号に対して（たとえば、５０、１００、または２００Ｈｚのカットオフ周波数をもつ）高域フィルタ処理演算を実行するように構成される。

アレイＲ１００は、マルチチャネル信号をデジタル信号として、すなわち、サンプルのシーケンスとして生成することが望ましいことがある。アレイＲ２１０は、たとえば、対応するアナログチャネルをサンプリングするようにそれぞれ構成されたアナログデジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む。音響適用例の典型的なサンプリングレートには、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、および約８ｋＨｚから約１６ｋＨｚまでのレンジ内の他の周波数があるが、約４４または１９２ｋＨｚと同じ程度のサンプリングレートも使用され得る。この特定の例では、アレイＲ２１０は、対応するデジタル化チャネルに対して１つまたは複数の前処理演算（たとえば、エコー消去、雑音低減、および／またはスペクトル整形）を実行するようにそれぞれ構成されたデジタル前処理段Ｐ２０ａおよびＰ２０ｂをも含む。

アレイＲ１００のマイクロフォンは、より一般的には、音以外の放射または放出に敏感なトランスデューサとして実装され得ることに明確に留意されたい。１つのそのような例では、アレイＲ１００のマイクロフォンは、超音波トランスデューサ（たとえば、１５、２０、２５、３０、４０、または５０キロヘルツ以上よりも大きい音響周波数に敏感なトランスデューサ）として実装される。

図３１Ａに、一般的構成によるデバイスＤ１０のブロック図を示す。デバイスＤ１０は、本明細書で開示するマイクロフォンアレイＲ１００の実装形態のうちのいずれかのインスタンスを含み、本明細書で開示するオーディオ感知デバイスのいずれもデバイスＤ１０のインスタンスとして実装され得る。デバイスＤ１０は、アレイＲ１００によって生成されたマルチチャネル信号Ｓ１０を処理するように構成された装置ＡＰ１０の実装形態のインスタンス（たとえば、装置Ａ１００、ＭＦ１００、Ａ２００、ＭＦ２００、あるいは本明細書で開示する方法Ｍ１００またはＭ２００の実装形態のうちのいずれかのインスタンスを実行するように構成された他の装置のインスタンス）をも含む。装置ＡＰ１０は、ハードウェアで、ならびに／あるいはソフトウェアおよび／またはファームウェアとのハードウェアの組合せで実装され得る。たとえば、装置ＡＰ１０はデバイスＤ１０のプロセッサ上に実装され得、また、そのプロセッサは、信号Ｓ１０の１つまたは複数のチャネルに対して１つまたは複数の他の演算（たとえば、ボコーディング）を実行するように構成され得る。

図３１Ｂに、デバイスＤ１０の実装形態である通信デバイスＤ２０のブロック図を示す。本明細書で説明するポータブルオーディオ感知デバイスのいずれも、装置ＡＰ１０を含むチップまたはチップセットＣＳ１０（たとえば、移動局モデム（ＭＳＭ）チップセット）を含む、デバイスＤ２０のインスタンスとして実装され得る。チップ／チップセットＣＳ１０は、装置ＡＰ１０のソフトウェアおよび／またはファームウェア部分を（たとえば、命令として）実行するように構成され得る１つまたは複数のプロセッサを含み得る。チップ／チップセットＣＳ１０はまた、アレイＲ１００の処理要素（たとえば、オーディオ前処理段ＡＰ１０の要素）を含み得る。チップ／チップセットＣＳ１０は、無線周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号を復号し再生するように構成された、受信機と、装置ＡＰ１０によって生成された処理済み信号に基づくオーディオ信号を符号化し、符号化オーディオ信号を記述しているＲＦ通信信号を送信するように構成された、送信機とを含み得る。たとえば、チップ／チップセットＣＳ１０の１つまたは複数のプロセッサは、符号化オーディオ信号が雑音低減信号に基づくように、マルチチャネル信号の１つまたは複数のチャネルに対して上記で説明した雑音低減演算を実行するように構成され得る。

デバイスＤ２０は、アンテナＣ３０を介してＲＦ通信信号を受信および送信するように構成される。デバイスＤ２０はまた、アンテナＣ３０への経路中にダイプレクサと１つまたは複数の電力増幅器とを含み得る。また、チップ／チップセットＣＳ１０は、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、デバイスＤ２０は、全地球測位システム（ＧＰＳ）ロケーションサービス、および／またはワイヤレス（たとえば、Ｂｌｕｅｔｏｏｔｈ（商標））ヘッドセットなどの外部デバイスとの短距離通信をサポートする、１つまたは複数のアンテナＣ４０をも含む。別の例では、そのような通信デバイスは、それ自体でＢｌｕｅｔｏｏｔｈヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、およびアンテナＣ３０がない。

図３２Ａ〜図３２Ｄに、オーディオ感知デバイスＤ１０のポータブルマルチマイクロフォン実装形態Ｄ１００の様々な図を示す。デバイスＤ１００は、アレイＲ１００の２マイクロフォン実装形態と、ハウジングから延在するイヤフォンＺ２０とを支持するハウジングＺ１０を含むワイヤレスヘッドセットである。そのようなデバイスは、（たとえば、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ，Ｉｎｃ．、Ｂｅｌｌｅｖｕｅ、ＷＡによって公表されたＢｌｕｅｔｏｏｔｈ（商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。概して、ヘッドセットのハウジングは、図３２Ａ、図３２Ｂ、および図３２Ｄに示すように矩形またはさもなければ細長い形（たとえば、ミニブームのような形）であるか、あるいはより丸い形、さらには円形であり得る。ハウジングはまた、バッテリーおよびプロセッサおよび／または他の処理回路（たとえば、プリント回路板およびその上に取り付けられた構成要素）を封入し得、電気的ポート（たとえば、ミニユニバーサルシリアルバス（ＵＳＢ）もしくはバッテリー充電用の他のポート）と、１つまたは複数のボタンスイッチおよび／またはＬＥＤなどのユーザインターフェース機能とを含み得る。一般に、ハウジングの長軸に沿った長さは１インチから３インチまでの範囲内にある。

一般に、アレイＲ１００の各マイクロフォンは、デバイス内に、音響ポートとして働く、ハウジング中の１つまたは複数の小さい穴の背後に取り付けられる。図３２Ｂ〜図３２Ｄは、デバイスＤ１００のアレイの１次マイクロフォンのための音響ポートＺ４０と、デバイスＤ１００のアレイの２次マイクロフォンのための音響ポートＺ５０とのロケーションを示している。

ヘッドセットは、イヤフックＺ３０などの固定デバイスをも含み得、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆的であり得る。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス（たとえば、イヤプラグ）として設計され得、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ（たとえば、直径）のイヤピースを使用できるようにするためのリムーバブルイヤピースを含み得る。

図３３に、使用中のそのようなデバイス（ワイヤレスヘッドセットＤ１００）の一例の上面図を示す。図３４に、使用中のデバイスＤ１００の様々な標準配向の側面図を示す。

図３５Ａ〜図３５Ｄに、ワイヤレスヘッドセットの別の例であるマルチマイクロフォンポータブルオーディオ感知デバイスＤ１０の実装形態Ｄ２００の様々な図を示す。デバイスＤ２００は、丸みのある、楕円のハウジングＺ１２と、イヤプラグとして構成され得るイヤフォンＺ２２とを含む。図３５Ａ〜図３５Ｄはまた、デバイスＤ２００のアレイの１次マイクロフォンのための音響ポートＺ４２と、２次マイクロフォンのための音響ポートＺ５２とのロケーションを示している。２次マイクロフォンポートＺ５２は（たとえば、ユーザインターフェースボタンによって）少なくとも部分的にふさがれ得る。

図３６Ａに、通信ハンドセットであるデバイスＤ１０のポータブルマルチマイクロフォン実装形態Ｄ３００の（中心軸に沿った）断面図を示す。デバイスＤ３００は、１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０とを有するアレイＲ１００の実装形態を含む。この例では、デバイスＤ３００はまた１次ラウドスピーカーＳＰ１０と２次ラウドスピーカーＳＰ２０とを含む。そのようなデバイスは、１つまたは複数の（「コーデック」とも呼ばれる）符号化および復号方式を介してボイス通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、２００７年２月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０、ｖ３．０、２００４年１月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ音声コーデック、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）に記載されているＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ（ＡＭＲ）音声コーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲＷｉｄｅｂａｎｄ音声コーデックがある。図３６Ａの例では、ハンドセットＤ３００は（「フリップ」ハンドセットとも呼ばれる）クラムシェルタイプセルラー電話ハンドセットである。そのようなマルチマイクロフォン通信ハンドセットの他の構成には、バータイプおよびスライダタイプ電話ハンドセットがある。

図３７に、使用中のデバイスＤ３００の様々な標準配向の側面図を示す。図３６Ｂに、第３のマイクロフォンＭＣ３０を含む、アレイＲ１００の３マイクロフォン実装形態を含む、デバイスＤ３００の実装形態Ｄ３１０の断面図を示す。図３８および図３９に、それぞれ、デバイスＤ１０の他のハンドセット実装形態Ｄ３４０およびＤ３６０の様々な図を示す。

アレイＲ１００の４マイクロフォンインスタンスの一例では、マイクロフォンは、１つのマイクロフォンが、約３センチメートル間隔で離間した他の３つのマイクロフォンの位置によって頂点が定義される三角形の後ろ（たとえば、約１センチメートル後ろ）に配置されるような、ほぼ四面体の構成において構成される。そのようなアレイのための潜在的な適用例は、話者の口とアレイとの間の予想される距離が約２０〜３０センチメートルである、スピーカーフォンモードで動作するハンドセットを含む。図４０Ａに、４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０がほぼ四面体の構成において構成されたアレイＲ１００のそのような実装形態を含むデバイスＤ１０のハンドセット実装形態Ｄ３２０の正面図を示す。図４０Ｂに、ハンドセット内のマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０の位置を示すハンドセットＤ３２０の側面図を示す。

ハンドセット適用例のためのアレイＲ１００の４マイクロフォンインスタンスの別の例は、ハンドセットの前面（たとえば、キーパッドの１、７、および９の位置の近く）にある３つのマイクロフォンと、背面（たとえば、キーパッドの７または９の位置の後ろ）にある１つのマイクロフォンとを含む。図４０Ｃに、４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０が「星形」構成において構成されたアレイＲ１００のそのような実装形態を含むデバイス１０のハンドセット実装形態Ｄ３３０の正面図を示す。図４０Ｄに、ハンドセット内のマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０の位置を示すハンドセットＤ３３０の側面図を示す。本明細書で説明するオンセット／オフセットおよび／または組み合わせられたＶＡＤストラテジを実行するために使用され得るポータブルオーディオ感知デバイスの他の例には、マイクロフォンがタッチスクリーンの外周において同様にして構成された（たとえば、ｉＰｈｏｎｅ（ＡｐｐｌｅＩｎｃ．、Ｃｕｐｅｒｔｉｎｏ、ＣＡ）、ＨＤ２（ＨＴＣ、Ｔａｉｗａｎ、ＲＯＣ）またはＣＬＩＱ（Ｍｏｔｏｒｏｌａ，Ｉｎｃ．、Ｓｃｈａｕｍｂｅｒｇ、ＩＬ）など、フラットな非折り畳みスラブとしての）ハンドセットＤ３２０およびＤ３３０のタッチスクリーン実装形態がある。

図４１Ａ〜図４１Ｃに、アレイＲ１００のインスタンスを含むように、また、本明細書で開示するＶＡＤストラテジとともに使用されるように実装され得るポータブルオーディオ感知デバイスの追加の例を示す。これらの例の各々では、アレイＲ１００のマイクロフォンが白抜きの円によって示されている。図４１Ａは、少なくとも１つの前向きマイクロフォンペアを有し、ペアの一方のマイクロフォンがテンプル上にあり、他方がテンプルまたは対応する端部部分上にある、眼鏡（たとえば、度付きメガネ、サングラス、または保護メガネ）を示している。図４１Ｂは、アレイＲ１００が１つまたは複数のマイクロフォンペア（この例では、口にあるペア、およびユーザの頭部の各側面にあるペア）を含む、ヘルメットを示している。図４１Ｃは、少なくとも１つのマイクロフォンペア（この例では、前面および側面のペア）を含むゴーグル（たとえば、スキー用ゴーグル）を示している。

本明細書で開示する切替えストラテジとともに使用されるべき１つまたは複数のマイクロフォンを有するポータブルオーディオ感知デバイスのための追加の配置例は、限定はしないが、キャップまたはハットのバイザーまたは縁、ラペル、胸ポケット、肩、上腕（すなわち、肩と肘との間）、下腕（すなわち、肘と手首との間）、リストバンドあるいは腕時計を含む。上記ストラテジにおいて使用される１つまたは複数のマイクロフォンは、カメラまたはカムコーダなど、ハンドヘルドデバイス上に常駐し得る。

図４２Ａに、メディアプレーヤであるオーディオ感知デバイスＤ１０のポータブルマルチマイクロフォン実装形態Ｄ４００の図を示す。そのようなデバイスは、標準圧縮形式（たとえば、ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）−１ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）、ＭＰＥＧ−４Ｐａｒｔ１４（ＭＰ４）、Ｗｉｎｄｏｗｓ(登録商標) ＭｅｄｉａＡｕｄｉｏ／Ｖｉｄｅｏ（ＷＭＡ／ＷＭＶ）のバージョン（ＭｉｃｒｏｓｏｆｔＣｏｒｐ．、Ｒｅｄｍｏｎｄ、ＷＡ）、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ（ＩＴＵ）−ＴＨ．２６４など）に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成され得る。デバイスＤ４００は、デバイスの前面に配設されたディスプレイスクリーンＳＣ１０とラウドスピーカーＳＰ１０とを含み、アレイＲ１００のマイクロフォンＭＣ１０およびＭＣ２０が、デバイスの同じ面に（たとえば、この例のように上面の両側に、または前面の両側に）配設される。図４２Ｂに、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの反対側の面に配設されたデバイスＤ４００の別の実装形態Ｄ４１０を示し、図４２Ｃに、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの隣接する面に配設されたデバイスＤ４００のさらなる実装形態Ｄ４２０を示す。また、メディアプレーヤは、意図された使用中、より長い軸が水平になるように設計され得る。

図４３Ａに、ハンズフリーカーキットであるマルチマイクロフォンオーディオ感知デバイスＤ１０の実装形態Ｄ５００の図を示す。そのようなデバイスは、車両のダッシュボード、風防、バックミラー、バイザー、または別の室内表面の中もしくは上に設置されるか、またはそれらに着脱自在に固定されるように構成され得る。デバイスＤ５００はラウドスピーカー８５とアレイＲ１００の実装形態とを含む。この特定の例では、デバイスＤ５００は、線形アレイで構成された４つのマイクロフォンとしてのアレイＲ１００の実装形態Ｒ１０２を含む。そのようなデバイスは、上記の例などの１つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、（たとえば、上記で説明したようにＢｌｕｅｔｏｏｔｈ（商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。

図４３Ｂに、ライティングデバイス（たとえば、ペンまたは鉛筆）であるマルチマイクロフォンオーディオ感知デバイスＤ１０のポータブルマルチマイクロフォン実装形態Ｄ６００の図を示す。デバイスＤ６００はアレイＲ１００の実装形態を含む。そのようなデバイスは、上記の例などの１つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成され得る。代替または追加として、そのようなデバイスは、（たとえば、上記で説明したようにＢｌｕｅｔｏｏｔｈ（商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットおよび／またはワイヤレスヘッドセットなどのデバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成され得る。デバイスＤ６００は、アレイＲ１００によって生成された信号中の、描画面８１（たとえば、１枚の紙）上でのデバイスＤ６００の先端の移動から生じ得る、スクラッチノイズ８２のレベルを低減するために空間選択的処理演算を実行するように構成された１つまたは複数のプロセッサを含み得る。

ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、またはスマートフォンなどの名称を有するデバイスを含む。１つのタイプのそのようなデバイスは、上記で説明したスレートまたはスラブ構成を有し、スライドアウト式キーボードをも含み得る。図４４Ａ〜図４４Ｄに、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し、２つのパネルが、クラムシェルまたは他のヒンジ結合関係で接続され得る、別のタイプのそのようなデバイスを示す。

図４４Ａは、ディスプレイスクリーンＳＣ１０の上方で上部パネルＰＬ１０上に線形アレイで構成された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を含むような、デバイスＤ１０の実装形態Ｄ７００の一例の正面図を示している。図４４Ｂは、別の次元における４つのマイクロフォンの位置を示す上部パネルＰＬ１０の上面図を示している。図４４Ｃは、ディスプレイスクリーンＳＣ１０の上方で上部パネルＰＬ１２上に非線形アレイで構成された４つのマイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０を含むような、デバイスＤ１０のポータブルコンピューティング実装形態Ｄ７１０の別の例の正面図を示している。図４４Ｄは、マイクロフォンＭＣ１０、ＭＣ２０、およびＭＣ３０がパネルの前面に配設され、マイクロフォンＭＣ４０がパネルの背面に配設された、別の次元における４つのマイクロフォンの位置を示す上部パネルＰＬ１２の上面図を示している。

図４５に、ハンドヘルド適用例のためのマルチマイクロフォンオーディオ感知デバイスＤ１０のポータブルマルチマイクロフォン実装形態Ｄ８００の図を示す。デバイスＤ８００は、タッチスクリーンディスプレイＴＳ１０と、ユーザインターフェース選択コントロールＵＩ１０（左側）と、ユーザインターフェースナビゲーションコントロールＵＩ２０（右側）と、２つのラウドスピーカーＳＰ１０およびＳＰ２０と、３つの前面マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０および１つの背面マイクロフォンＭＣ４０を含むアレイＲ１００の実装形態とを含む。ユーザインターフェースコントロールの各々は、プッシュボタン、トラックボール、クリックホイール、タッチパッド、ジョイスティックおよび／または他のポインティングデバイスなどのうちの１つまたは複数を使用して実装され得る。ブラウズトークモードまたはゲームプレイモードで使用され得るデバイスＤ８００の典型的なサイズは約１５センチメートル×２０センチメートルである。ポータブルマルチマイクロフォンオーディオ感知デバイスＤ１０は、アレイＲ１００のマイクロフォンがタブレットコンピュータの上面のマージン内および／または１つまたは複数の側面に配設された、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータ（たとえば、ｉＰａｄ（Ａｐｐｌｅ，Ｉｎｃ．）などの「スレート」、Ｓｌａｔｅ（Ｈｅｗｌｅｔｔ−ＰａｃｋａｒｄＣｏ．、ＰａｌｏＡｌｔｏ、ＣＡ）またはＳｔｒｅａｋ（ＤｅｌｌＩｎｃ．、ＲｏｕｎｄＲｏｃｋ、ＴＸ））として同様に実装され得る。

本明細書で開示するＶＡＤストラテジの適用例はポータブルオーディオ感知デバイスに限定されない。図４６Ａ〜図４６Ｄに、会議デバイスのいくつかの例の上面図を示す。図４６Ａは、アレイＲ１００の３マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、およびＭＣ３０）を含む。図４６Ｂは、アレイＲ１００の４マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、およびＭＣ４０）を含む。図４６Ｃは、アレイＲ１００の５マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、およびＭＣ５０）を含む。図４６Ｄは、アレイＲ１００の６マイクロフォン実装形態（マイクロフォンＭＣ１０、ＭＣ２０、ＭＣ３０、ＭＣ４０、ＭＣ５０、およびＭＣ６０）を含む。アレイＲ１００のマイクロフォンの各々を正多角形の対応する頂点に配置することが望ましいことがある。遠端オーディオ信号の再生のためのラウドスピーカーＳＰ１０は（たとえば、図４６Ａに示すように）デバイス内に含まれ得、および／またはそのようなラウドスピーカーは、（たとえば、音響的フィードバックを低減するために）デバイスとは別に配置され得る。追加の遠距離場使用事例の例は、（たとえば、ボイスオーバＩＰ（ＶｏＩＰ）適用例をサポートするための）ＴＶセットトップボックスおよびゲーム機（たとえば、ＭｉｃｒｏｓｏｆｔのＸｂｏｘ、ソニーのプレイステーション、任天堂のＷｉｉ）を含む。

本明細書で開示するシステム、方法、および装置の適用範囲は、図３１〜図４６Ｄに示す特定の例を含み、また、それらの例に限定されないことが明確に開示される。本明細書で開示する方法および装置は、概して任意の送受信および／またはオーディオ感知適用例、特にそのような適用例のモバイルまたは場合によってはポータブルインスタンスにおいて適用され得る。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。

本明細書で開示する通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応させられ得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示する通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツの可聴周波数レンジを符号化するシステム）での使用、ならびに／または全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応させられ得ることが明確に企図され、本明細書によって開示される。

説明した構成の上記の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明するフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。

本明細書で開示する構成の実装形態の重要な設計要件は、８キロヘルツよりも高いサンプリングレート（たとえば、１２、１６、または４４ｋＨｚ）におけるボイス通信の適用例などの計算集約的適用例では特に、（一般に百万命令毎秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑さを最小にすることを含み得る。

本明細書で説明するマルチマイクロフォン処理システムの目的は、全体で１０〜１２ｄＢの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去、音声の残響除去の代わりに雑音が背景に移動されたという知覚を取得すること、ならびに／またはよりアグレッシブな雑音低減のための後処理（たとえば、スペクトル減算またはウィーナーフィルタ処理など、雑音推定値に基づくスペクトルマスキングおよび／または別のスペクトル修正演算）のオプションを可能にすることを含み得る。

本明細書で開示する装置（たとえば、装置Ａ１００、ＭＦ１００、Ａ１１０、Ａ１２０、Ａ２００、Ａ２０５、Ａ２１０、および／またはＭＦ２００）の実装形態の様々な要素は、意図された適用例に好適と見なされる、任意のハードウェア構造、あるいはソフトウェアおよび／またはファームウェアとのハードウェアの任意の組合せで実施され得る。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の２つ以上、さらにはすべてが、同じ１つまたは複数のアレイ内に実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。

本明細書で開示する装置（たとえば、装置Ａ１００、ＭＦ１００、Ａ１１０、Ａ１２０、Ａ２００、Ａ２０５、Ａ２１０、および／またはＭＦ２００）の様々な実装形態の１つまたは複数の要素は、部分的に、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしても実装され得る。本明細書で開示する装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）としても実施され得、これらの要素のうちの任意の２つ以上、さらにはすべてが、同じそのような１つまたは複数のコンピュータ内に実装され得る。

本明細書で開示するプロセッサまたは処理するための他の手段は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つまたは複数の電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装され得る。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示するプロセッサまたは処理するための他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）あるいは他のプロセッサとしても実施され得る。本明細書で説明するプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の動作に関係するタスクなど、マルチチャネル信号のチャネルのサブセットを選択するプロシージャに直接関係しないタスクを実施するために、またはそのプロシージャに直接関係しない命令の他のセットを実行するために、使用することが可能である。また、本明細書で開示する方法の一部はオーディオ感知デバイスのプロセッサによって実行され（たとえば、テスクＴ２００）、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実行される（たとえば、テスクＴ６００）ことが可能である。

本明細書で開示する構成に関して説明する様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、またはＣＤ−ＲＯＭなど、非一時的記憶媒体中に、あるいは当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐し得る。ＡＳＩＣはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。

本明細書で開示する様々な方法（たとえば、方法Ｍ１００、Ｍ１１０、Ｍ１２０、Ｍ１３０、Ｍ１３２、Ｍ１４０、Ｍ１４２、および／またはＭ２００）は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明する装置の様々な要素は、部分的に、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。

本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって実行可能な命令の１つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気ストレージ、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波（ＲＦ）リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明する方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその２つの組合せで実施され得る。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成される。タスクのうちの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって読取り可能および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなど、１つまたは複数のデータ記憶媒体など）に埋め込まれたコード（たとえば、命令の１つまたは複数のセット）としても実装され得る。本明細書で開示する方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によっても実行され得る。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行され得る。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含み得る。

本明細書で開示する様々な方法は、ポータブル通信デバイス（たとえば、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ））によって実行され得ること、および本明細書で説明する様々な装置は、そのようなデバイスに含まれ得ることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。

１つまたは複数の例示的な実施形態では、本明細書で説明する動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装した場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信（たとえば、伝送）媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含み得る）半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光ディスクストレージ、ならびに／あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態の所望でプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびブルーレイディスク（商標）（Ｂｌｕ−ＲａｙＤｉｓｃＡｓｓｏｃｉａｔｉｏｎ、ＵｎｉｖｅｒｓａｌＣｉｔｙ、ＣＡ）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおけるヒューマンマシンインターフェースを含み得る。限定された処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。

本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の１つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど、論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしても実装され得る。

本明細書で説明する装置の実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、または装置の動作に直接関係しない命令の他のセットを実行するために、使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／または光デバイスの構成）を有することが可能である。

Claims

オーディオ信号を処理する方法であって、前記方法は、
前記オーディオ信号の第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断することと、
前記オーディオ信号中の前記第１の複数の連続セグメントの直後に発生する前記オーディオ信号の第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断することと、
前記第２の複数の連続セグメントのうち発生する第１のセグメントでない、前記第２の複数の連続セグメントのうちの１つの間に、前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出することと、
前記第１の複数における各セグメントについて、および前記第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
を備え、
前記第１の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第２の複数の連続セグメントの各々について、および前記第１の複数のうちの少なくとも１つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第２の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
方法。
前記方法が、前記第２の複数のセグメントのうちの前記１つの間の第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項１に記載の方法。
前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第１のしきい値との間の関係に基づく、請求項２に記載の方法。
前記方法は、前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
（Ａ）前記対応する周波数成分がアクティブであることを示す前記指示の数と、（Ｂ）前記第１のしきい値よりも高い第２のしきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を備える、請求項３に記載の方法。
前記方法は、前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの２次導関数を計算することと、
前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された２次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を備える、請求項３に記載の方法。
前記オーディオ信号の前記第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づき、
前記オーディオ信号の前記第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づく、請求項１に記載の方法。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルのレベルと前記第２のチャネルのレベルとの間の差である、請求項６に記載の方法。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第２のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項６に記載の方法。
前記第１の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つであり、
前記第２の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の前記第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つである、請求項６に記載の方法。
前記方法が、前記第２の複数のセグメントのうちの前記１つの間の前記第１のチャネルの第２の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを備え、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
前記第１の複数の周波数成分を含む周波数帯域が、前記第２の複数の周波数成分を含む周波数帯域とは別個である、請求項９に記載の方法。
前記第１の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第２の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項９に記載の方法。
オーディオ信号を処理するための装置であって、前記装置は、
前記オーディオ信号の第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための手段と、
前記オーディオ信号中の前記第１の複数の連続セグメントの直後に発生する前記オーディオ信号の第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための手段と、
前記第２の複数の連続セグメントのうちの１つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するための手段と、
前記第１の複数における各セグメントについて、および前記第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成するための手段と
を備え、
前記第１の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第２の複数の連続セグメントの各々について、および前記第１の複数のうちの少なくとも１つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第２の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
装置。
前記装置が、前記第２の複数のセグメントのうちの前記１つの間の第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを検出するための前記手段が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項１２に記載の装置。
前記遷移が発生することを検出するための前記手段は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段を含み、
前記遷移が発生することを検出するための前記手段は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第１のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項１３に記載の装置。
前記装置は、
前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するための手段と、
（Ａ）前記対応する周波数成分がアクティブであることを示す前記指示の数と、（Ｂ）前記第１のしきい値よりも高い第２のしきい値との間の関係に基づいて、前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
を備える、請求項１４に記載の装置。
前記装置は、
前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの２次導関数を計算するための手段と、
前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された２次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するための手段と、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記オーディオ信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生しないと判断するための手段と
を備える、請求項１４に記載の装置。
前記オーディオ信号の前記第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づいて前記判断することを実行するように構成され、
前記オーディオ信号の前記第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段が、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づいて前記判断することを実行するように構成された、請求項１２に記載の装置。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルのレベルと前記第２のチャネルのレベルとの間の差である、請求項１７に記載の装置。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第２のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項１７に記載の装置。
前記セグメント中にボイスアクティビティが存在すると判断するための前記手段が、前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、および前記セグメントの間の前記オーディオ信号の第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算するための手段を備え、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つである、請求項１７に記載の装置。
前記装置が、前記第２の複数のセグメントのうちの前記１つの間の前記第１のチャネルの第２の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段を備え、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを検出するための前記手段は、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
前記第１の複数の周波数成分を含む周波数帯域が、前記第２の複数の周波数成分を含む周波数帯域とは別個である、請求項２０に記載の装置。
前記第１の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると判断するための前記手段は、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第２の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと判断するための前記手段は、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、ボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項２０に記載の装置。
オーディオ信号を処理するための装置であって、前記装置は、
前記オーディオ信号の第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると判断し、
前記オーディオ信号中の前記第１の複数の連続セグメントの直後に発生する前記オーディオ信号の第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと判断する
ように構成された第１のボイスアクティビティ検出器と、
前記第２の複数の連続セグメントのうちの１つの間に前記オーディオ信号のボイスアクティビティ状態の遷移が発生することを検出するように構成された第２のボイスアクティビティ検出器と、
前記第１の複数における各セグメントについて、および前記第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成するように構成された信号発生器と
を備え、
前記第１の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第２の複数の連続セグメントの各々について、および前記第１の複数のうちの少なくとも１つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第２の複数の連続セグメントの各々について、および前記オーディオ信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
装置。
前記装置が、前記第２の複数のセグメントのうちの前記１つの間の第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
前記第２のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて前記遷移を検出するように構成された、請求項２３に記載の装置。
前記第２のボイスアクティビティ検出器は、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータを含み、
前記第２のボイスアクティビティ検出器は、前記対応する周波数成分がアクティブであることを示す前記指示の数と第１のしきい値との間の関係に基づいて前記遷移を検出するように構成された、請求項２４に記載の装置。
前記装置は、
マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器と、
前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
を備え、
前記第２のボイスアクティビティ検出器は、（Ａ）前記対応する周波数成分がアクティブであることを示す前記指示の数と、（Ｂ）前記第１のしきい値よりも高い第２のしきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
請求項２５に記載の装置。
前記装置は、
前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々について時間に対するエネルギーの２次導関数を計算するように構成された計算器と、
前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された２次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成するように構成されたコンパレータと
を備え、
前記第２のボイスアクティビティ検出器は、前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生する前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断するように構成された、
請求項２５に記載の装置。
前記第１のボイスアクティビティ検出器は、前記オーディオ信号の前記第１の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断するように構成され、
前記第１のボイスアクティビティ検出器は、前記オーディオ信号の前記第２の複数の連続セグメントの各々について、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成された、請求項２３に記載の装置。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルのレベルと前記第２のチャネルのレベルとの間の差である、請求項２８に記載の装置。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第２のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項２８に記載の装置。
前記第１のボイスアクティビティ検出器が、前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、および前記セグメントの間の前記マルチチャネル信号の第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算するように構成された計算器を含み、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つである、請求項２８に記載の装置。
前記装置が、前記第２の複数のセグメントのうちの前記１つの間の前記第１のチャネルの第２の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された計算器を備え、
前記第２のボイスアクティビティ検出器が、エネルギーの前記計算された時間導関数に基づいて、前記遷移が発生することを検出するように構成され、
前記第１の複数の周波数成分を含む周波数帯域が、前記第２の複数の周波数成分を含む周波数帯域とは別個である、請求項３１に記載の装置。
前記第１のボイスアクティビティ検出器は、前記第１の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づいて、前記セグメント中に前記ボイスアクティビティが存在すると判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第１のボイスアクティビティ検出器は、前記第２の複数のうちの各セグメントについて、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断するように構成され、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項３１に記載の装置。
１つまたは複数のプロセッサによって実行されると、
マルチチャネル信号の第１の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第１のチャネルと前記セグメントの間の前記マルチチャネル信号の第２のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在すると判断することと、
前記マルチチャネル信号中の前記第１の複数の連続セグメントの直後に発生する前記マルチチャネル信号の第２の複数の連続セグメントの各々について、および前記セグメントの間の前記マルチチャネル信号の第１のチャネルと前記セグメントの間の前記マルチチャネル信号の第２のチャネルとの間の差に基づいて、前記セグメント中にボイスアクティビティが存在しないと判断することと、
前記第２の複数の連続セグメントのうち発生する第１のセグメントでない、前記第２の複数の連続セグメントのうちの１つの間に、前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生することを検出することと、
前記第１の複数における各セグメントについて、および前記第２の複数における各セグメントについて、アクティビティおよびアクティビティなしのうちの１つを示す対応する値を有するボイスアクティビティ検出信号を生成することと
を前記１つまたは複数のプロセッサに行わせる機械実行可能命令を記憶する有形構造を有するコンピュータ可読媒体であって、
前記第１の複数の連続セグメントの各々について、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの前に発生する前記第２の複数の連続セグメントの各々について、および前記第１の複数のうちの少なくとも１つのセグメントについて前記セグメント中にボイスアクティビティが存在すると前記判断することに基づいて、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティを示し、
前記検出された遷移が発生する前記セグメントの後に発生する前記第２の複数の連続セグメントの各々について、および前記マルチチャネル信号の前記音声アクティビティ状態の遷移が発生することを前記検出することに応答して、前記ボイスアクティビティ検出信号の前記対応する値がアクティビティなしを示す、
コンピュータ可読媒体。
前記命令が、前記１つまたは複数のプロセッサによって実行されると、前記第２の複数のセグメントのうちの前記１つの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記１つまたは複数のプロセッサに行わせ、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づく、請求項３４に記載の媒体。
前記遷移が発生することを前記検出することは、前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することを含み、
前記遷移が発生することを前記検出することは、前記対応する周波数成分がアクティブであることを示す前記指示の数と第１のしきい値との間の関係に基づく、請求項３５に記載の媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記複数の異なる周波数成分の各々について、およびエネルギーの前記対応する計算された時間導関数に基づいて、前記周波数成分がアクティブであるかどうかについての対応する指示を生成することと、
（Ａ）前記対応する周波数成分がアクティブであることを示す前記指示の数と、（Ｂ）前記第１のしきい値よりも高い第２のしきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を前記１つまたは複数のプロセッサに行わせる、請求項３６に記載の媒体。
前記命令は、前記１つまたは複数のプロセッサによって実行されると、前記マルチチャネル信号中の前記第１の複数の連続セグメントより前に発生するセグメントについて、
前記セグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々について、時間に対するエネルギーの２次導関数を計算することと、
前記複数の異なる周波数成分の各々について、および時間に対するエネルギーの前記対応する計算された２次導関数に基づいて、前記周波数成分がインパルシブであるかどうかについての対応する指示を生成することと、
前記対応する周波数成分がインパルシブであることを示す前記指示の数としきい値との間の関係に基づいて、前記セグメントの間に前記マルチチャネル信号のボイスアクティビティ状態の遷移が発生しないと判断することと
を前記１つまたは複数のプロセッサに行わせる、請求項３６に記載の媒体。
前記オーディオ信号の前記第１の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づき、
前記オーディオ信号の前記第２の複数の連続セグメントの各々について、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記オーディオ信号の第１のチャネルと前記セグメントの間の前記オーディオ信号の第２のチャネルとの間の差に基づく、請求項３４に記載の媒体。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルのレベルと前記第２のチャネルのレベルとの間の差である、請求項３９に記載の媒体。
前記第１の複数のうちの各セグメントについて、および前記第２の複数のうちの各セグメントについて、前記差が、前記セグメントの間の前記第１のチャネルにおける信号のインスタンスと、前記セグメントの間の前記第２のチャネルにおける前記信号のインスタンスとの間の時間差である、請求項３９に記載の媒体。
前記第１の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、前記セグメントの間の前記マルチチャネル信号の第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つであり、
前記第２の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、前記セグメントの間の前記マルチチャネル信号の前記第１の複数の異なる周波数成分の各々について、前記第１のチャネルにおける前記周波数成分の位相と前記第２のチャネルにおける前記周波数成分の位相との間の差を計算することを備え、前記セグメントの間の前記第１のチャネルと前記セグメントの間の前記第２のチャネルとの間の前記差が、前記計算された位相差のうちの１つである、請求項３９に記載の媒体。
前記命令が、１つまたは複数のプロセッサによって実行されると、前記第２の複数のセグメントのうちの前記１つの間の前記第１のチャネルの第２の複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することを前記１つまたは複数のプロセッサに行わせ、
前記第２の複数のセグメントのうちの前記１つの間に前記遷移が発生することを前記検出することが、エネルギーの前記計算された時間導関数に基づき、
前記第１の複数の周波数成分を含む周波数帯域が、前記第２の複数の周波数成分を含む周波数帯域とは別個である、請求項４２に記載の媒体。
前記第１の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在すると前記判断することが、少なくとも前記複数の異なる周波数成分の到着方向の間のコヒーレンス度を示すコヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づき、
前記第２の複数のうちの各セグメントについて、前記セグメント中にボイスアクティビティが存在しないと前記判断することが、少なくとも前記複数の異なる周波数成分の前記到着方向の間のコヒーレンス度を示す前記コヒーレンシ測度の対応する値に基づき、前記値が、前記対応する複数の計算された位相差からの情報に基づく、請求項４２に記載の媒体。
前記方法が、
前記第１および第２の複数のセグメントのうちの一方のセグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算することと、
前記第１および第２の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成することと
を備え、
前記ボイスアクティビティ検出指示を前記生成することが、前記セグメントについてのテスト統計値の値をしきい値の値と比較することを含み、
前記ボイスアクティビティ検出指示を前記生成することが、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正することを含み、
前記第１および第２の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項１に記載の方法。
前記装置が、
前記第１および第２の複数のセグメントのうちの一方のセグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するための手段と、
前記第１および第２の複数のうちの一方の前記セグメントについてのボイスアクティビティ検出指示を生成するための手段と
を備え、
前記ボイスアクティビティ検出指示を生成するための前記手段が、前記セグメントについてのテスト統計値の値をしきい値と比較するための手段を含み、
前記ボイスアクティビティ検出指示を生成するための前記手段が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するための手段を含み、
前記第１および第２の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項１２に記載の装置。
前記装置が、
前記第１および第２の複数のセグメントのうちの一方のセグメントの間の前記第１のチャネルの複数の異なる周波数成分の各々についてエネルギーの時間導関数を計算するように構成された第３のボイスアクティビティ検出器と、
前記第１および第２の複数のうちの一方の前記セグメントについてのテスト統計値の値をしきい値と比較することの結果に基づいて、前記セグメントについてのボイスアクティビティ検出指示を生成するように構成された第４のボイスアクティビティ検出器と
を備え、
前記第４のボイスアクティビティ検出器が、エネルギーの前記計算された複数の時間導関数に基づいて、前記テスト統計値と前記しきい値との間の関係を修正するように構成され、
前記第１および第２の複数のうちの一方の前記セグメントについての前記ボイスアクティビティ検出信号の値が、前記ボイスアクティビティ検出指示に基づく、
請求項２３に記載の装置。
前記第４のボイスアクティビティ検出器が前記第１のボイスアクティビティ検出器であり、
前記セグメント中にボイスアクティビティが存在するかまたは存在しないと前記判断することが、前記ボイスアクティビティ検出指示を生成することを含む、請求項４７に記載の装置。