JP2010541010A

JP2010541010A - 複数マイクロホン音声アクティビティ検出器

Info

Publication number: JP2010541010A
Application number: JP2010527214A
Authority: JP
Inventors: ワン、ソン; グプタ、サミア・クマー; チョイ、エディー・エル．ティー．
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-09-28
Filing date: 2008-09-26
Publication date: 2010-12-24
Anticipated expiration: 2028-09-26
Also published as: WO2009042948A1; TW200926151A; CA2695231A1; EP2201563A1; ES2373511T3; BRPI0817731A8; US20090089053A1; KR20100075976A; KR101265111B1; RU2010116727A; JP5102365B2; RU2450368C2; ATE531030T1; CA2695231C; US8954324B2; CN101790752A; CN101790752B; TWI398855B; EP2201563B1

Abstract

複数のマイクロホンを使用する音声アクティビティ検出は、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々のエネルギー間の関係に基づくことができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々からのエネルギー出力は、決定されることができる。ノイズエネルギーに対するスピーチエネルギーの比は、決定されて、所定の音声アクティビティ閾値と比較されることができる。他の実施形態では、スピーチ及びノイズ参照信号の自己相関の絶対値は、決定され、自己相関値に基づく比が決定される。所定の閾値を超える比は、音声信号の存在を示すことができる。スピーチ及びノイズのエネルギー又は自己相関は、加重平均を使用して、或いは、個別のフレームサイズにわたって、決定されることができる。

Description

［関連出願］
本出願は、同時係属出願「ブラインドソース分離のための向上技術（Enhancement Techniques for Blind Source Separation）」（代理人整理番号０６１１９３）、同一出願人による２００６年１０月２０日に提出された米国特許出願第１１／５５１，５０９号、及び本出願と同時出願された同時係属出願「複数マイクロホンオーディオシステムにおけるノイズ及びエコー低減の装置及び方法（Apparatus and Method of Noise and Echo Reduction in Multiple Microphone Audio Systems）」（代理人整理番号０６１５２１）に関連している。
［発明の分野］
本開示は、オーディオ処理の分野に関する。特に、本開示は、複数のマイクロホンを使用する音声アクティビティ検出に関する。

音声アクティビティ検出器等の信号アクティビティ検出器は、電子機器において不要な処理の量を最小化するために使用されることができる。音声アクティビティ検出器は、マイクロホンの後に続く１以上の信号処理ステージを選択的に制御することができる。

例えば、録音機器は、ノイズ信号の処理及び記録を最小化するために、音声アクティビティ検出器を実装することができる。音声アクティビティ検出器は、音声アクティビティのない期間中に、信号処理及び記録の電源を切り（de-energize）、或いは、信号処理及び記録の動作を停止する（deactivate）ことができる。同様に、携帯電話機、パーソナルデバイスアシスタント又はラップトップのような通信デバイスは、ノイズ信号に割り当てられる処理電力を低減するために、かつ、遠隔のデスティネーションデバイスへ伝送又は伝達されるノイズ信号を低減するために、音声アクティビティ検出器を実装することがある。音声アクティビティ検出器は、音声アクティビティのない期間中に、音声処理及び伝送の電源を切り、或いは、音声処理及び伝送の動作を停止することができる。

満足に動作する音声アクティビティ検出器の能力は、ノイズ状態、及びかなりのノイズエネルギーを持つノイズ状態を変えることによって妨げられることがある。動的なノイズ環境に従うモバイルデバイスに音声アクティビティ検出が組み込まれる場合、音声アクティビティ検出器の実行は、さらに複雑になりうる。モバイルデバイスは、比較的にノイズがない環境のもとで動作することもでき、ノイズエネルギーが音声エネルギーと同じ程度である事実上のノイズ状態のもとで動作することもできる。

動的なノイズ環境の存在は、音声アクティビティ決定を複雑にする。音声アクティビティの誤った指示は、ノイズ信号の処理及び伝送をもたらすことになる。特に、音声アクティビティ検出器による音声アクティビティの欠如の指示によって、ノイズ伝送の期間に無活動（inactivity）の期間がちりばめられる場合、ノイズ信号の処理及び伝送は、質の悪いユーザ経験を生成することになる。

逆に言うと、質の悪い音声アクティビティ検出は、音声信号の本質的な部分の損失をもたらすことがある。音声アクティビティの最初の部分の損失は、ユーザが会話の一部を定期的に繰り返すことが必要になる結果となり、これは好ましくない状況である。

従来の音声アクティビティ検出（ＶＡＤ）アルゴリズムは、１つのマイクロホン信号だけを使用する。初期のＶＡＤアルゴリズムは、エネルギーに基づく基準を使用する。この種のアルゴリズムは、音声アクティビティに関する決定を行うために、閾値を評価する。単一マイクロホンＶＡＤは、定常ノイズに対してうまく機能することができる。しかしながら、単一マイクロホンＶＡＤにおいては、非定常ノイズを扱うことは困難とされる。

他のＶＡＤ技術は、信号のゼロ交差（zero-crossing）を数えて、ゼロ交差の割合に基づいて、音声アクティビティ決定を行う。バックグラウンドノイズが非スピーチ信号である場合、この方法は、うまく機能することができる。背景信号がスピーチのような信号である場合、この方法は、信頼できる決定を行うことができない。ピッチ、ホルマント形状、ケプストラム及び周期性のような他の特徴はまた、音声アクティビティ検出に使用されることができる。これらの特徴は、音声アクティビティ決定を行うために、検出されてスピーチ信号と比較される。

スピーチの特徴を使用する代わりに、スピーチの存在及びスピーチの不在（absence）の統計モデルもまた、音声アクティビティ決定を行うために使用されることができる。このような実施では、統計モデルは更新され、音声アクティビティ決定は、統計モデルの尤度比に基づいて行われる。他の方法は、信号を前処理するために、単一マイクロホンソース分離ネットワークを使用する。決定は、アクティビティ適応閾値及びラグランジュプログラミングニューラルネットワークの平滑化された誤り信号を使用して行われる。

複数のマイクロホンに基づくＶＡＤアルゴリズムもまた研究されている。複数マイクロホンの実施形態は、ロバスト検出を達成するために、ノイズ抑制、閾値適応及びピッチ検出を組み合わせてもよい。実施形態は、信号対干渉比（ＳＩＲ）を最大化するために、線形フィルタリングを使用する。その後、統計モデルに基づく方法は、改善された信号を使用して、音声アクティビティを検出するために使用される。他の実施形態は、アレイ出力ベクトルの周波数領域表現を生成するために、線形マイクロホンアレイ及びフーリエ変換を使用する。周波数領域表現は、信号対雑音比（ＳＮＲ）を推定するために使用されることができ、所定の閾値は、スピーチアクティビティを検出するために使用されることができる。さらに他の実施形態は、２つのセンサに基づくＶＡＤ方法で音声アクティビティを検出するために、強度二乗コヒーレンス（ＭＳＣ：magnitude square coherence）及び適応閾値を使用することを提案する。

音声アクティビティ検出アルゴリズムの多くは、計算的に費用がかかり、電力消費及び計算の複雑さが重要になるモバイル用途には適していない。しかしながら、モバイル用途は、また、モバイルデバイスに入射するノイズ信号の非定常性及び動的なノイズ環境に部分的に起因する挑戦的な（challenging）音声アクティビティ検出環境を提示する。

複数マイクロホンを使用する音声アクティビティ検出は、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々のエネルギー間の関係に基づくことができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々からのエネルギー出力は、決定されることができる。ノイズエネルギーに対するスピーチエネルギーの比は、決定され、所定の音声アクティビティ閾値と比較されることができる。他の実施形態では、スピーチの相関の絶対値、並びにノイズ参照信号の自己相関及び／又は自己相関の絶対値が決定され、相関値に基づく比が決定される。所定の閾値を超える比は、音声信号の存在を示すことができる。スピーチ及びノイズのエネルギー又は相関は、加重平均を使用して、或いは、個別のフレームサイズにわたって、決定されることができる。

本発明の態様は、音声アクティビティを検出する方法を含む。この方法は、スピーチ参照マイクロホンからスピーチ参照信号を受信することと、前記スピーチ参照信号とは異なるノイズ参照マイクロホンから、ノイズ参照信号を受信することと、前記スピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定することと、前記スピーチ参照信号及び前記ノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定することと、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定することと、前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定することと、を含む。

本発明の態様は、音声アクティビティを検出する方法を含む。この方法は、少なくとも１つのスピーチ参照マイクロホンからスピーチ参照信号を受信することと、前記スピーチ参照マイクロホンとは異なる少なくとも１つのノイズ参照マイクロホンからノイズ参照信号を受信することと、前記スピーチ参照信号に基づいて、自己相関の絶対値を決定することと、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することと、相互相関に対する、前記スピーチ参照信号の自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定することと、前記音声アクティビティメトリックを少なくとも１つの閾値と比較することにより、音声アクティビティ状態を決定することと、を含む。

本発明の態様は、音声アクティビティを検出するように構成された装置を含む。

この装置は、スピーチ参照信号を出力するように構成されたスピーチ参照マイクロホンと、ノイズ参照信号を出力するように構成されたノイズ参照マイクロホンと、前記スピーチ参照マイクロホンに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器と、前記スピーチ参照マイクロホン及び前記ノイズ参照マイクロホンに結合され、合成特性値を決定するように構成された合成特性値生成器と、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールと、前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、を含む。

この装置は、ピーチ参照信号を受信する手段と、ノイズ参照信号を受信する手段と、前記スピーチ参照信号に基づいて、自己相関を決定する手段と、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定する手段と、前記相互相関に対する、前記スピーチ参照信号の前記自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、前記音声アクティビティメトリックを少なくとも１つの閾値と比較することによって、音声アクティビティ状態を決定する手段と、を含む。

本発明の態様は、１以上のプロセッサによって利用可能な命令を含むコンピュータ読み取り可能媒体を含む。これらの命令は、少なくとも１つのスピーチ参照マイクロホンからのスピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定するための命令と、前記スピーチ参照信号、及び少なくとも１つのノイズ参照マイクロホンからのノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定するための命令と、前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するための命令と、前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定するための命令と、を含む。

本開示の実施形態の特徴、オブジェクト及び利点は、図面とともに、以下に記載されている詳細な説明からさらに明らかになり、図面において、同様の参照符号が同様の要素を指す。

図１は、ノイズ環境において動作する複数マイクロホンデバイスの簡略化された機能ブロック図である。図２は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。図３は、音声アクティビティ検出器及びエコーキャンセレーションを備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。図４Ａは、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。図４Ｂは、ビームフォーミングを使用する信号改善の簡略化された機能ブロック図である。図５は、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。図６は、音声符号化を含む音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。図７は、音声アクティビティ検出の簡略化された方法のフローチャートである。図８は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイスの実施形態の簡略化された機能ブロック図である。

詳細な説明

複数のマイクロホンを使用する音声アクティビティ検出（ＶＡＤ：Voice Activity Detection）のための装置及び方法が開示される。装置及び方法は、マウス基準点（ＭＲＰ：mouth reference point）の実質的な近距離に（in substantially a near field）構成された第１のセット又はグループのマイクロホンを利用する。ここで、ＭＲＰは、信号ソースの位置と見なされる。第２のセット又はグループのマイクロホンは、実質的な低減された音声位置に（in substantially a reduced voice location）構成されることができる。理想的には、第２のセットのマイクロホンは、第１のセットのマイクロホンと実質的に同じノイズ環境に位置するが、スピーチ信号のどれとも実質的に結合しない。いくつかのモバイルデバイスは、この最適な構成を可能にしないが、第１のセットのマイクロホンにおいて受信されたスピーチが、第２のセットのマイクロホンによって受信されたスピーチより常に大きい構成を可能にする。

第１のセットのマイクロホンは、通常は第２のセットのマイクロホンと比較してより良質であるスピーチ信号を受信して変換する。このため、第１のセットのマイクロホンは、スピーチ参照マイクロホン（speech reference microphone）と見なすことができ、第２のセットのマイクロホンは、ノイズ参照マイクロホン（noise reference microphone）と見なすことができる。

ＶＡＤモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々における信号に基づいて、特性を最初に決定することができる。スピーチ参照マイクロホン及びノイズ参照マイクロホンに対応する特性値は、音声アクティビティ決定を行うために使用される。

例えば、ＶＡＤモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンからの信号の各々のエネルギーを計算するように、或いは、推定するように、或いは、決定するように構成されることができる。エネルギーは、所定のスピーチ及びノイズサンプリング時間（sample time）において計算されることができ、或いは、スピーチ及びノイズサンプル（sample）のフレームに基づいて、計算されることができる。

他の例では、ＶＡＤモジュールは、スピーチ参照マイクロホン及びノイズ参照マイクロホンの各々の信号の自己相関を決定するように構成されることができる。自己相関値は、所定のサンプリング時間に対応することができ、或いは、所定のフレーム区間にわたって計算されることができる。

ＶＡＤモジュールは、特性値の比に少なくとも部分的に基づいて、アクティビティメトリックを計算することができ、或いは、決定することができる。一実施形態では、ＶＡＤモジュールは、ノイズ参照マイクロホンからのエネルギーに対する、スピーチ参照マイクロホンからのエネルギーの比を、決定するように構成される。ＶＡＤモジュールは、ノイズ参照マイクロホンからの自己相関に対する、スピーチ参照マイクロホンからの自己相関の比を、決定するように構成されることができる。他の実施形態では、上述した比のうちの１つの平方根が、アクティビティメトリックとして使用される。ＶＡＤは、音声アクティビティの存在（presence）又は不在（absence）を決定するために、アクティビティメトリックを所定の閾値と比較する。

図１は、音声アクティビティ検出を備えた複数マイクロホンモバイルデバイス１１０を含む動作環境１００の簡略化された機能ブロック図である。モバイルデバイスに関連して説明するが、ここに開示される音声アクティビティ検出方法及び装置が、モバイルデバイスでの応用に限定されず、固定式デバイス、移動式デバイス、モバイルデバイスにおいて実施されることができ、さらに、ホスト装置が移動式又は固定式であっても動作することができることは、明らかである。

動作環境１００は、複数マイクロホンモバイルデバイス１１０を示している。複数マイクロホンデバイスは、少なくとも１つのスピーチ参照マイクロホン１１２、及び少なくとも１つのノイズ参照マイクロホン１１４を含み、ここでは、スピーチ参照マイクロホン１１２は、モバイルデバイス１１０の表面に示され、ノイズ参照マイクロホン１１４は、スピーチ参照マイクロホン１１２と対向するモバイルデバイス１１０の面に示されている。

図１のモバイルデバイス１１０、及び概して図に示される実施形態には、１つのスピーチ参照マイクロホン１１２及び１つのノイズ参照マイクロホン１１４が示されているが、モバイルデバイス１１０は、スピーチ参照マイクロホングループ及びノイズ参照マイクロホングループを実装することができる。スピーチ参照マイクロホングループ及びノイズ参照マイクロホングループの各々は、１以上のマイクロホンを含むことができる。スピーチ参照マイクロホングループは、ノイズ参照マイクロホングループのマイクロホンの数とは異なる数のマイクロホンを含んでもよく、或いは、ノイズ参照マイクロホングループのマイクロホンの数と同じ数のマイクロホンを含んでもよい。

さらに、スピーチ参照マイクロホングループのマイクロホンは、ノイズ参照マイクロホングループのマイクロホンを典型的には含まないが、これは絶対的な制限ではなく、１以上のマイクロホンは、２つのマイクロホングループ間で共有されてもよい。しかしながら、ノイズ参照マイクロホングループとスピーチ参照マイクロホングループとの合併（union）は、少なくとも２つのマイクロホンを含む。

スピーチ参照マイクロホン１１２は、ノイズ参照マイクロホン１１４を有する面と概して対向する、モバイルデバイス１１０の面上にあるものとして示されている。スピーチ参照マイクロホン１１２及びノイズ参照マイクロホン１１４の配置は、いかなる物理的な方向にも限定されない。マイクロホンの配置は、典型的には、ノイズ参照マイクロホン１１４からスピーチ信号を分離する能力によって決定される。

一般に、２つのマイクロホングループのマイクロホンは、モバイルデバイス１１０上の異なる位置に取り付けられる。各マイクロホンは、目的とするスピーチとバックグラウンドノイズとの組み合わせの特有のバージョンを受信する。スピーチ信号は、近距離ソース（near-field sources）からのものであると仮定することができる。２つのマイクロホングループの音圧レベル（ＳＰＬ）は、マイクロホンの位置に依存して異なる場合がある。１つのマイクロホンがマウス基準点（ＭＲＰ）、即ち、スピーチソース（speech source）１３０に近接している場合、このマイクロホンは、ＭＲＰから離れて位置する他のマイクロホンより高いＳＰＬを受信する。より高いＳＰＬを有するマイクロホンは、スピーチ参照マイクロホン１１２又はプライマリマイクロホンとも称され、ｓ_ＳＰ（ｎ）として示されるスピーチ参照信号を生成する。スピーチソース１３０のＭＲＰからの低減したＳＰＬを有するマイクロホンは、ノイズ参照マイクロホン１１４又はセカンダリマイクロホンと称され、ｓ_ＮＳ（ｎ）として示されるノイズ参照信号を生成する。スピーチ参照信号が通常はバックグラウンドノイズを含み、ノイズ参照信号もまた目的とするスピーチを含んでもよいことに、注意されたい。

以下にさらに詳細に説明されるように、モバイルデバイス１１０は、スピーチソース１３０からのスピーチ信号の存在を決定するために、音声アクティビティ検出を含むことができる。音声アクティビティ検出の動作は、動作環境１００中にあるノイズソースの数及び分布によって複雑になる場合がある。

モバイルデバイス１１０上に入射するノイズは、かなりの無相関のホワイトノイズ成分を含んでいてもよいが、１以上の有色ノイズソース、例えば、１４０−１〜１４０−４をさらに含んでいてもよい。さらに、携帯電話機１１０は、それ自体で、例えば、出力トランスデューサ１２０からスピーチ参照マイクロホン１１２及びノイズ参照マイクロホン１１４のうちの一方又は両方までを結ぶエコー信号の形態で、干渉を生成する場合がある。

１以上の有色ノイズソースは、各々がモバイルデバイス１１０に対して異なる位置及び方向から発生するノイズ信号を生成してもよい。第１のノイズソース１４０−１及び第２のノイズソース１４０−２は、夫々スピーチ参照マイクロホン１１２の近くに位置してもよく、或いは、スピーチ参照マイクロホン１１２への直接路に位置してもよく、一方で、第３及び第４のノイズソース１４０−３及び１４０−４は、ノイズ参照マイクロホン１１４の近くに位置してもよく、或いは、ノイズ参照マイクロホン１１４への直接路に位置してもよい。１以上のノイズソース、例えば、１４０−４は、表面１５０に反射するノイズ信号、又はモバイルデバイス１１０への複数の経路を横断するノイズ信号を生成してもよい。

ノイズソースの各々が重要な信号をマイクロホンへ与えてもよいが、ノイズソース１４０−１〜１４０−４の各々は、概して遠距離（far field）に位置し、従って、スピーチ参照マイクロホン１１２及びノイズ参照マイクロホン１１４の各々に実質的に同様の音圧レベル（ＳＰＬ）を与える。

各ノイズ信号に関連する大きさ、位置、及び周波数特性の動的な特徴は、音声アクティビティ検出プロセスの複雑さの原因になる。さらに、モバイルデバイス１１０は、典型的には電池式あり、従って、音声アクティビティ検出に関連する電力消費が問題になる。

モバイルデバイス１１０は、スピーチ参照マイクロホン１１２及びノイズ参照マイクロホン１１４からの信号の各々を処理することにより、音声アクティビティ検出を実行して、対応するスピーチ及びノイズ特性値（characteristic values）を生成することができる。モバイルデバイス１１０は、スピーチ及びノイズ特性値に部分的に基づいて、音声アクティビティメトリック（voice activity metric）を生成することができ、音声アクティビティメトリックを閾値と比較することにより、音声アクティビティを決定することができる。

図２は、キャリブレーションされた（calibrated）複数マイクロホン音声アクティビティ検出器を備えたモバイルデバイス１１０の実施形態の簡略化された機能ブロック図である。モバイルデバイス１１０は、マイクロホンのグループでありうるスピーチ参照マイクロホン１１２と、ノイズ参照マイクロホンのグループでありうるノイズ参照マイクロホン１１４とを含む。

スピーチ参照マイクロホン１１２からの出力は、第１のアナログ・デジタル変換器（ＡＤＣ）２１２に結合されていることができる。モバイルデバイス１１０は、概して、フィルタリング及び増幅のようなマイクロホン信号のアナログ処理を実行するが、スピーチ信号のアナログ処理は、明瞭及び簡単にするために図示していない。

ノイズ参照マイクロホン１１４からの出力は、第２のＡＤＣ２１４に結合されていることができる。ノイズ参照信号のアナログ処理は、概して、実質的に同じスペクトル応答を維持するために、スピーチ参照信号に関して実行されるアナログ処理と実質的に同じであってもよい。しかしながら、キャリブレータ２２０が何らかの補正を提供してもよいので、アナログ処理部のスペクトル応答は、同じである必要はない。さらに、キャリブレータ２２０の機能のうちのいくつか又は全ては、図２に示されるデジタル処理ではなく、アナログ処理部により実現されてもよい。

第１及び第２のＡＤＣ２１２及び２１４は、夫々個別の信号をデジタル表現に変換する。第１及び第２のＡＤＣ２１２及び２１４からのデジタル出力は、音声アクティビティ検出に先立って、スピーチ及びノイズ信号の経路のスペクトル応答を実質的に等しくするように動作するキャリブレータ２２０に結合される。

キャリブレータ２２０は、キャリブレーション生成器２２２を含み、このキャリブレーション生成器２２２は、周波数の選択的な補正を決定し、かつ、スピーチ信号経路又はノイズ信号経路のうちの一方と直列に配置されたスカラー／フィルタ２２４を制御するように、構成される。キャリブレーション生成器２２２は、固定キャリブレーション応答曲線を提供するように、スカラー／フィルタ２２４を制御するように構成されることができ、或いは、キャリブレーション生成器２２２は、動的キャリブレーション応答曲線を提供するように、スカラー／フィルタ２２４を制御するように構成されることができる。キャリブレーション生成器２２２は、１以上の動作パラメータ（operating parameter）に基づいて、可変キャリブレーション応答曲線を提供するように、スカラー／フィルタ２２４を制御することができる。例えば、キャリブレーション生成器２２２は、信号出力検出器（図示せず）を含むか、或いは、信号出力検出器にアクセスすることができ、スピーチ又はノイズ出力に応じてスカラー／フィルタ２２４の応答を変えることができる。他の実施形態は、他のパラメータ、又はパラメータの組み合わせを利用してもよい。

キャリブレータ２２０は、キャリブレーション期間中に、スカラー／フィルタ２２４によって提供されるキャリブレーションを決定するように構成されることができる。モバイルデバイス１１０は、例えば製造中に、最初にキャリブレーションされることができ、或いは、１以上のイベント時に、１以上の時間に、又はイベント時及び時間との組み合わせで、キャリブレーションを開始することができるキャリブレーションスケジュールに従って、キャリブレーションされることができる。例えば、モバイルデバイスが電源を入れられるたびに、或いは、最近のキャリブレーションから所定時間が経過している場合に限り起動中に、キャリブレータ２２０は、キャリブレーションを開始してもよい。

キャリブレーション中には、モバイルデバイス１１０は、遠距離ソース（far field source）が存在していて、かつ、スピーチ参照マイクロホン１１２又はノイズ参照マイクロホン１１４のいずれでも近距離信号を経験しない状況にある可能性がある。キャリブレーション生成器２２２は、スピーチ信号及びノイズ信号の各々をモニタし、相対スペクトル応答を決定する。キャリブレーション生成器２２２は、スカラー／フィルタ２２４への適用時に、スカラー／フィルタ２２４にスペクトル応答における相対的な差を補正させるキャリブレーション制御信号を生成し、或いは、特徴づける。

スカラー／フィルタ２２４は、増幅、減衰（attenuation）、フィルタリング又はスペクトルの差を実質的に補正する何らかの他の信号処理を導入することができる。スカラー／フィルタ２２４は、ノイズ信号の経路に配置されるものとして示されているが、これは、スカラー／フィルタがスピーチ信号を歪めることを防止するのに都合が良い。しかし、スカラー／フィルタ２２４の一部又は全ては、スピーチ信号経路に配置されることができ、また、スピーチ信号経路及びノイズ信号経路の一方又は両方のアナログ及びデジタル信号経路の各所に分散配置されてもよい。

キャリブレータ２２０は、キャリブレーションされたスピーチ及びノイズ信号を、音声アクティビティ検出（ＶＡＤ）モジュール２３０の各々の入力に結合する。ＶＡＤモジュール２３０は、スピーチ特性値生成器２３２と、ノイズ特性値生成器２３４と、スピーチ及びノイズ特性値に対して動作する音声アクティビティメトリックモジュール２４０と、音声アクティビティメトリックに基づいて、音声アクティビティの存在又は不在を決定するように構成された比較器２５０と、を含む。ＶＡＤモジュール２３０は、スピーチ参照信号及びノイズ参照信号の両方の組み合わせに基づいた特性を生成するように構成された合成特性値生成器２３６を随意に含んでもよい。例えば、合成特性値生成器２３６は、スピーチ及びノイズ信号の相互相関を決定するように構成されることができる。相互相関の絶対値が取られてもよく、相互相関の要素が２乗されてもよい。

スピーチ特性値生成器２３２は、スピーチ信号に少なくとも部分的に基づいている値を生成するように構成されることができる。スピーチ特性値生成器２３２は、特性値、例えば、特定のサンプリング時間におけるスピーチ信号のエネルギー（Ｅ_ＳＰ（ｎ））、特定のサンプリング時間におけるスピーチ信号の自己相関（ρ_ＳＰ（ｎ））、又はスピーチ信号の自己相関又は自己相関の成分の絶対値を取ったもののような他の信号特性値等を生成するように構成されることができる。

ノイズ特性値生成器２３４は、相補的なノイズ特性値を生成するように構成されることができる。即ち、ノイズ特性値生成器２３４は、スピーチ特性値生成器２３２がスピーチエネルギー値を生成する場合には、特定の時間におけるノイズエネルギー値（Ｅ_ＮＳ（ｎ））を生成するように構成されることができる。同様に、ノイズ特性値生成器２３４は、スピーチ特性値生成器２３２がスピーチ自己相関値を生成する場合には、特定の時間におけるノイズ自己相関値（ρ_ＮＳ（ｎ））を生成するように構成されることができる。ノイズ自己相関値の絶対値が同様に取られてもよく、ノイズ自己相関値の要素が得られてもよい。

音声アクティビティメトリックモジュール２４０は、スピーチ特性値、ノイズ特性値及び随意の相互相関値に基づいて、音声アクティビティメトリックを生成するように構成されることができる。音声アクティビティメトリックモジュール２４０は、例えば、計算的に複雑でない音声アクティビティメトリックを生成するように構成されることができる。従って、ＶＡＤモジュール２３０は、比較的少数の処理リソースを使用して、実質的にリアルタイムに、音声アクティビティ検出信号を生成することができる。一実施形態において、音声アクティビティメトリックモジュール２４０は、特性値の１以上の比、若しくは、特性値及び相互相関値の１以上の比、若しくは、特性値及び相互相関値の絶対値の１以上の比を決定するように構成される。

音声アクティビティメトリックモジュール２４０は、音声アクティビティメトリックを１以上の閾値と比較することにより、スピーチアクティビティの存在を決定するように構成されることができる比較器２５０に、メトリックを結合する。閾値の各々は、固定された所定の閾値とすることができ、或いは、閾値の１以上は、動的な閾値とすることができる。

一実施形態では、ＶＡＤモジュール２３０は、スピーチアクティビティを決定するために、３つの異なる相関を決定する。スピーチ特性値生成器２３２は、スピーチ参照信号の自己相関ρ_ＳＰ（ｎ）を生成し、ノイズ特性値生成器２３４は、ノイズ参照信号の自己相関ρ_ＮＳ（ｎ）を生成し、さらに、相互相関モジュール２３６は、スピーチ参照信号及びノイズ参照信号の絶対値の相互相関ρ_Ｃ（ｎ）を生成する。ここで、ｎは時間インデックスを表わす。過度の遅延を回避するために、相関を、下記の式を使用して、指数窓方法を使用して、近似的に計算することができる。自己相関に関しては、式は以下の通りである。

相互相関に関しては、式は以下の通りである。

上記の式において、ρ（ｎ）は、時間ｎにおける相関である。ｓ（ｎ）は、時間ｎにおけるスピーチ又はノイズマイクロホン信号のうちの１つである。αは０と１との間の定数である。｜＊｜は、絶対値を表わす。下記式のように、窓サイズＮの矩形窓（square window）を使用して、相関を計算することもできる。

ＶＡＤ決定は、ρ_ＳＰ（ｎ）、ρ_ＮＳ（ｎ）及びρ_Ｃ（ｎ）に基づいて、行われることができる。概して、下記式の通りである。

以下の例では、２つのカテゴリのＶＡＤ決定を説明する。１つは、サンプリングに基づく（sample-based）ＶＡＤ決定方法である。もう１つは、フレームに基づくＶＡＤ決定方法である。概して、自己相関又は相互相関の絶対値の使用に基づくＶＡＤ決定方法は、相互相関又は自己相関のより小さなダイナミックレンジを考慮に入れることになる。ダイナミックレンジの低減は、ＶＡＤ決定方法のより安定した遷移を考慮に入れることになる。

サンプリングに基づくＶＡＤ決定
ＶＡＤモジュールは、時間ｎにおいて計算された相関に基づいて、時間ｎにおけるスピーチ及びノイズサンプルの各ペアに関して、ＶＡＤ決定を行うことができる。一例として、音声アクティビティメトリックモジュールは、３つの相関値の間の関係に基づいて、音声アクティビティメトリックを決定するように構成されることができる。

量Ｔ（ｎ）を、ρ_ＳＰ（ｎ）、ρ_ＮＳ（ｎ）、ρ_Ｃ（ｎ）及びＲ（ｎ）に基づいて、例えば以下のように、決定することができる。

比較器は、Ｒ（ｎ）及びＴ（ｎ）に基づいて、例えば以下のように、ＶＡＤ決定を行うことができる。

具体例として、音声アクティビティメトリックＲ（ｎ）を、スピーチ特性値生成器２３２からのスピーチ自己相関値ρ_ＳＰ（ｎ）と相互相関モジュール２３６からの相互相関ρ_Ｃ（ｎ）との間の比として定義することができる。時間ｎにおいて、音声アクティビティメトリックを、以下に示される比として定義することができる。

音声アクティビティメトリックの上記の例では、音声アクティビティメトリックモジュール２４０は、値を制限する。音声アクティビティメトリックモジュール２４０は、分母をδより小さくならいように制限することにより、値を制限する。ここで、このδは、ゼロによる除算を回避するための微小な正数である。他の例として、Ｒ（ｎ）を、ρＣ（ｎ）とρＮＳ（ｎ）との間の比として、例えば以下のように、定義することができる。

具体例として、量Ｔ（ｎ）を固定の閾値としてもよい。Ｒ_ＳＰ（ｎ）を、目的とするスピーチが時間ｎまで存在する場合における最小の比とする。Ｒ_ＮＳ（ｎ）を、目的とするスピーチが時間ｎまで無い場合における最大の比とする。閾値Ｔ（ｎ）は、以下のように、Ｒ_ＮＳ（ｎ）とＲＳＰ（ｎ）との間に、若しくは、Ｒ_ＮＳ（ｎ）及びＲ_ＳＰ（ｎ）と同じに決定され、或いは、選択されることができる。

閾値は、可変とすることもでき、目的とするスピーチ及びバックグラウンドノイズの変化に少なくとも部分的に基づいて、変わることができる。このような場合、Ｒ_ＳＰ（ｎ）及びＲ_ＮＳ（ｎ）は、最近のマイクロホン信号に基づいて決定されることができる。

比較器２５０は、音声アクティビティに関する決定を行うために、閾値を音声アクティビティメトリックと比較する。ここで、比Ｒ（ｎ）である。この特定の例では、意思決定関数（decision making function）ｖａｄ（＊，＊）は、以下のように定義されることができる。

フレームに基づくＶＡＤ決定
ＶＡＤ決定はまた、サンプルの全体のフレームが１つのＶＡＤ決定を生成して共有するように行われることができる。サンプルのフレームは、時間ｍと時間ｍ＋Ｍ−１との間に生成され、或いは、受信されることができ、ここで、Ｍはフレームサイズを表わす。

一例として、スピーチ特性値生成器２３２、ノイズ特性値生成器２３４及び合成特性値生成器２３６は、データの全体のフレームに関する相関を決定することができる。矩形窓を使用して計算された相関と比較すると、フレーム相関は、時間ｍ＋Ｍ−１において計算された相関、例えば、ρ（ｍ＋Ｍ−１）と等しい。

ＶＡＤ決定は、２つのマイクロホン信号のエネルギー又は自己相関の値に基づいて、行われることができる。同様に、音声アクティビティメトリックモジュール２４０は、サンプリングに基づく実施形態に関して上記に説明されたような関係に基づいて、アクティビティメトリックを決定することができる。比較器は、閾値に基づく音声アクティビティ決定Ｔ（ｎ）を基礎とすることができる。

信号改善後の信号に基づくＶＡＤ
スピーチ参照信号のＳＮＲが低い場合、ＶＡＤ決定は、積極的な（aggressive）傾向がある。スピーチのオンセット及びオフセット部分は、非スピーチセグメントであると分類されることができる。目的とするスピーチ信号が存在する場合に、スピーチ参照マイクロホン及びノイズ参照マイクロホンからの信号レベルが同様であれば、上記で説明されたＶＡＤ装置及び方法は、信頼できるＶＡＤ決定を提供しない可能性がある。このような場合、付加的な信号改善（signal enhancement）は、ＶＡＤが信頼できる決定を行う助けとなるために、マイクロホン信号の１以上に適用されることができる。

信号改善は、目的とするスピーチ信号を変えることなしに、スピーチ参照信号におけるバックグラウンドノイズの量を低減すために実行されることができる。信号改善は、同様に、バックグラウンドノイズを変えることなしに、ノイズ参照信号におけるスピーチのレベル又は量を低減するために実行されてもよい。いくつかの実施形態では、信号改善は、スピーチ参照改善及びノイズ参照改善の組み合わせを実行してもよい。

図３は、音声アクティビティ検出器及びエコーキャンセレーション（echo cancellation）を備えたモバイルデバイス１１０の実施形態の簡略化された機能ブロック図である。モバイルデバイス１１０は、図２に示されるキャリブレータなしに示されているが、モバイルデバイス１１０におけるエコーキャンセレーションの実施は、キャリブレーションを排除するものではない。さらに、モバイルデバイス１１０は、デジタル領域においてエコーキャンセレーションを実行するが、エコーキャンセレーションのうちのいくつか又は全ては、アナログ領域において実行されてもよい。

モバイルデバイス１１０の音声処理部は、図２に示されたものと実質的に同様とすることができる。スピーチ参照マイクロホン１１２又はマイクロホンのグループは、スピーチ信号を受信し、ＳＰＬを、オーディオ信号から電気的なスピーチ参照信号に変換する。第１のＡＤＣ２１２は、アナログスピーチ参照信号をデジタル表現に変換する。第１のＡＤＣ２１２は、デジタル化されたスピーチ参照信号を、第１のコンバイナ３５２の第１入力に結合する。

同様に、ノイズ参照マイクロホン１１４又はマイクロホンのグループは、ノイズ信号を受信し、ノイズ参照信号を生成する。第２のＡＤＣ２１４は、アナログノイズ参照信号をデジタル表現に変換する。第２のＡＤＣ２１４は、デジタル化されたノイズ参照信号を、第２のコンバイナ３５４の第１入力に結合する。

第１及び第２のコンバイナ３５２及び３５４は、モバイルデバイス１１０のエコーキャンセレーション部の一部であってもよい。第１及び第２のコンバイナ３５２及び３５４は、例えば信号加算器、信号減算器、カプラー、変調器等であることができ、或いは、信号を合成するように構成された他の機器であってもよい。

モバイルデバイス１１０は、モバイルデバイス１１０からのオーディオ出力に起因するエコー信号を効率的に除去するために、エコーキャンセレーションを実装することができる。モバイルデバイス１１０は、ベースバンドプロセッサ等の信号ソース（図示せず）から、デジタル化された音声出力信号を受信し、デジタル化されたオーディオ信号をアナログ表現に変換する出力デジタル・アナログ変換器（ＤＡＣ）３１０を含む。ＤＡＣ３１０の出力は、スピーカ３２０等の出力トランスデューサに結合されることができる。受信器又はラウドスピーカでありうるスピーカ３２０は、アナログ信号をオーディオ信号に変換するように構成されることができる。モバイルデバイス１１０は、ＤＡＣ３１０とスピーカ３２０との間に１以上の音声処理ステージを実装することができる。しかしながら、出力信号処理ステージは、簡単にするために示されない。

デジタル出力信号は、第１のエコーキャンセラ３４２及び第２のエコーキャンセラ３４４の入力にさらに結合されることができる。第１のエコーキャンセラ３４２は、スピーチ参照信号に適用されるエコーキャンセレーション信号を生成するように構成されることができ、一方で、第２のエコーキャンセラ３４４は、ノイズ参照信号に適用されるエコーキャンセレーション信号を生成するように構成されることができる。

第１のエコーキャンセラ３４２の出力は、第１のコンバイナ３４２の第２入力に結合されることができる。第２のエコーキャンセラ３４４の出力は、第２のコンバイナ３４４の第２入力に結合されることができる。コンバイナ３５２及び３５４は、合成信号をＶＡＤモジュール２３０に結合する。ＶＡＤモジュール２３０は、図２に関して説明した方法で動作するように構成されることができる。

エコーキャンセラ３４２及び３４４の各々は、各々の信号線においてエコー信号を低減するエコーキャンセレーション信号、即ち、各々の信号線においてエコー信号を実質的に消去するエコーキャンセレーション信号を生成するように構成されることができる。エコーキャンセラ３４２及び３４４の各々は、各々のコンバイナ３５２及び３５４の出力におけるエコー除去された信号をサンプリングし、或いはモニタする入力を含むことができる。コンバイナ３５２及び３５４からの出力は、残余のエコーを最小化するために、個別のエコーキャンセラ３４２及び３４４によって使用されることができるエラーフィードバック信号として機能する。

エコーキャンセラ３４２及び３４４の各々は、例えば、エコーキャンセレーション信号を生成するために、増幅器、減衰器、フィルタ、遅延モジュール又はこれらの組み合わせを含むことができる。出力信号とエコー信号との間の高い相関は、エコーキャンセラ３４２及び３４４がエコー信号をより容易に検出して補正することを可能にすることができる。

他の実施形態では、スピーチ参照マイクロホンがマウス基準点に接近して配置されるという仮定が保たれないので、付加的な信号改善が望まれる。例えば、２つのマイクロホンは、２つのマイクロホン信号間の差が極めて小さくなるように、互いに接近して配置される場合がある。この場合、改善されていない信号は、信頼できるＶＡＤ決定を生成し損なう可能性がある。この場合、信号改善は、ＶＡＤ決定を向上するために使用されることができる。

図４は、信号改善を含む音声アクティビティ検出器を備えたモバイルデバイス１１０の実施形態の簡略化された機能ブロック図である。前述のように、図２及び図３に関して上記で説明したキャリブレーション及びエコーキャンセレーション技術及び装置の一方又は両方は、信号改善に加えて実施されることができる。

モバイルデバイス１１０は、スピーチ信号を受信し、かつ、ＳＰＬをオーディオ信号から電気的なスピーチ参照信号に変換するように構成されたスピーチ参照マイクロホン１１２又はマイクロホンのグループを含む。第１のＡＤＣ２１２は、アナログスピーチ参照信号をデジタル表現に変換する。第１のＡＤＣ２１２は、デジタル化したスピーチ参照信号を、信号改善モジュール４００の第１入力に結合する。

同様に、ノイズ参照マイクロホン１１４又はグループのマイクロホンは、ノイズ信号を受信して、ノイズ参照信号を生成する。第２のＡＤＣ２１４は、アナログノイズ参照信号をデジタル表現に変換する。第２のＡＤＣ２１４は、デジタル化したノイズ参照信号を、信号改善モジュール４００の第２入力に結合する。

信号改善モジュール４００は、改善されたスピーチ参照信号（enhanced speech reference signal）及び改善されたノイズ参照信号（enhanced noise reference signal）を生成するように構成されることができる。信号改善モジュール４００は、改善されたスピーチ及びノイズ参照信号を、ＶＡＤモジュール２３０に結合する。ＶＡＤモジュール２３０は、音声アクティビティ決定をするために、改善されたスピーチ及びノイズ参照信号に対して動作する。

ビームフォーミング又は信号分離の後の信号に基づくＶＡＤ
信号改善モジュール４００は、センサ指向性を作り出す適応ビームフォーミングを実行するように構成されることができる。信号改善モジュール４００は、１セットのフィルタを使用して、かつ、マイクロホンをセンサアレイとして扱って、適用ビームフォーミングを実行する。このセンサ指向性は、複数の信号ソースが存在する場合に、目的とする信号を抽出するために使用されることができる。種々のビームフォーミングアルゴリズムがセンサ指向性を実現するのに利用可能である。ビームフォーミングアルゴリズム又は複数のビームフォーミングアルゴリズムの併用のインスタンス化は、ビームフォーマと称される。２つのマイクロホンスピーチ通信では、ビームフォーマは、バックグラウンドノイズが低減されている改善されたスピーチ参照信号を生成するために、センサ方向をマウス基準点に向けるために使用されることができる。ビームフォーマは、目的とするスピーチが低減されている改善されたノイズ参照信号をさらに生成することができる。

図４Ｂは、スピーチ及びノイズ参照マイクロホン１１２及び１１４をビームフォーミングする信号改善モジュール４００の実施形態の簡略化された機能ブロック図である。

信号改善モジュール４００は、第１のマイクロホンアレイを含むスピーチ参照マイクロホン１１２−１〜１１２−ｎのセットを含む。スピーチ参照マイクロホン１１２−１〜１１２−ｎの各々は、その出力を、対応するフィルタ４１２−１〜４１２−ｎに結合することができる。フィルタ４１２−１〜４１２−ｎの各々は、第１のビームフォーミングコントローラ４２０−１によって制御されうる応答を提供する。各フィルタ、例えば、４１２−１は、可変遅延、スペクトル応答、利得又は他のパラメータを提供するように制御されることができる。

第１のビームフォーミングコントローラ４２０−１は、ビームの所定のセットに対応していて、フィルタ制御信号の所定のセットで構成されることができ、或いは、連続的な方法においてビームを効果的に導く所定のアルゴリズムに従って、フィルタ応答を変えるように構成されることができる。

フィルタ４１２−１〜４１２の各々は、そのフィルタリングされた（filtered）信号を、第１のコンバイナ４３０−１の対応する入力に出力する。第１のコンバイナ４３０−１の出力は、ビームフォーミングされたスピーチ参照信号であることができる。

ノイズ参照信号は、第２のマイクロホンアレイを含むノイズ参照マイクロホン１１４−１〜１１４−ｋのセットを使用して、同様にビームフォーミングされることができる。ノイズ参照マイクロホンの数ｋは、スピーチ参照マイクロホンの数ｎとは異なっていてもよく、スピーチ参照マイクロホンの数ｎと同数であってもよい。

図４Ｂのモバイルデバイス１１０は、別個のスピーチ参照マイクロホン１１２−１〜１１２−ｎ及びノイズ参照マイクロホン１１４−１〜１１４−ｋを示すが、他の実施形態では、スピーチ参照マイクロホン１１２−１〜１１２−ｎのいくつか又は全ては、ノイズ参照マイクロホン１１４−１〜１１４−ｋとして使用されることができる。例えば、スピーチ参照マイクロホン１１２−１〜１１２−ｎのセットは、ノイズ参照マイクロホン１１４−１〜１１４−ｋのセットに使用されるものと同じマイクロホンであることができる。

ノイズ参照マイクロホン１１４−１〜１１４−ｋの各々は、その出力を、対応するフィルタ４１４−１〜４１４−ｋに結合する。フィルタ４１４−１〜４１４−ｋの各々は、第２のビームフォーミングコントローラ４２０−２によって制御されることができる応答を提供する。各フィルタ、例えば、４１４−１は、可変遅延、スペクトル応答、利得又は他のパラメータを提供するように制御されることができる。第２のビームフォーミングコントローラ４２０−２は、ビーム構成の所定の個別の数を提供するようにフィルタ４１４−１〜４１４−ｋを制御することができ、或いは、実質的に連続的な方法でビームを導くように構成されることができる。

図４Ｂの信号改善モジュール４００では、個別のビームフォーミングコントローラ４２０−１及び４２０−２は、スピーチ及びノイズ参照信号を独立してビームフォーミングするために使用される。しかしながら、他の実施形態では、単一のビームフォーミングコントローラは、スピーチ参照信号及びノイズ参照信号の両方をビームフォーミングするために使用されることができる。

信号改善モジュール４００は、ブラインドソース分離を実行してもよい。ブラインドソース分離（ＢＳＳ）は、これらの信号の混合物の測定を使用して、独立したソース信号を回復する方法である。ここで、用語「ブラインド」は、２通りの意味を持っている。第１に、オリジナルの信号、即ち、ソース信号が知られていない。第２に、混合処理が知られていなくてもよい。信号分離を実現することができる種々のアルゴリズムがある。２マイクロホンスピーチ通信（two-microphone speech communications）では、ＢＳＳは、スピーチ及びバックグラウンドノイズを分離するために使用されることができる。信号分離の後、スピーチ参照信号におけるバックグラウンドノイズは、いくらか低減されていることができ、ノイズ参照信号におけるスピーチは、いくらか低減されていることができる。

信号改善モジュール４００は、例えば、以下の文献のいずれか１つに説明されているＢＳＳ方法及び装置のうちの１つを実施してもよい。ＢＳＳ方法及び装置が説明されている文献としては、例えば、S. Amari, A. Cichocki, and H. H. Yang著“A new learning algorithm for blind signal separation”（”Advances in Neural Information Processing Systems 8”、エムアイティプレス（MIT Press）、1996年）、L. Molgedey and H. G. Schuster著“Separation of a mixture of independent signals using time delayed correlations”（フィジカルレビューレターズ第７２巻第２３号：３６３４〜３６３７頁、１９９４年（Phys. Rev. Lett., 72(23): 3634-3637, 1994））、及びL. Parra and C. Spence著"Convolutive blind source separation of non-stationary sources"（IEEE Trans. on Speech and Audio Processing, 8(3): 320-327頁、2000年5月）がある。

より積極的な信号改善に基づくＶＡＤ
バックグラウンドノイズレベルが非常に高い場合があり、その結果、信号のＳＮＲがビームフォーミング又は信号分離の後にもよくならないことがある。この場合、スピーチ参照信号における信号のＳＮＲは、さらに改善されることができる。例えば、信号改善モジュール４００は、スピーチ参照信号のＳＮＲをさらに改善するために、スペクトルサブトラクション（spectral subtraction）を実行することができる。ノイズ参照信号は、この場合、改善される必要があるかもしれないし、改善される必要がないかもしれない。

信号改善モジュール４００は、例えば、以下に示すいずれか１つに説明されているスペクトルサブトラクション方法及び装置のうちの１つを実施してもよい。スペクトルサブトラクション方法及び装置が説明されている文献としては、例えば、S. F. Boll著 “Suppression of Acoustic Noise in Speech Using Spectral Subtraction,”（IEEE Trans. Acoustics, Speech and Signal Processing, 27(2):112-120頁、1979年4月）、R. Mukai, S. Araki, H. Sawada and S. Makino著“Removal of residual crosstalk components in blind source separation using LMS filters,”（Proc. of 12th IEEE Workshop on Neural Networks for Signal Processing, pp. 435-444, Martigny, Switzerland、2002年9月）、及びR. Mukai, S. Araki, H. Sawada and S. Makino著 “Removal of residual cross-talk components in blind source separation using time-delayed spectral subtraction,”（Proc. of ICASSP 2002, pp. 1789-1792、2002年5月）がある。

潜在的応用
ここに説明されるＶＡＤ方法及び装置は、バックグラウンドノイズを抑制するために使用されることができる。以下に提供される例は、可能な応用を網羅するものではなく、ここに説明される複数マイクロホンＶＡＤ装置及び方法の応用範囲を制限するものではない。説明されるＶＡＤ方法及び装置は、ＶＡＤ決定が必要であり、かつ、複数マイクロホン信号が利用可能であるいかなる応用にも潜在的に使用されることができる。ＶＡＤは、実時間信号処理に適しているが、オフラインの信号処理応用における潜在的な実施を制限するものではない。

図５は、随意の信号改善を含む音声アクティビティ検出器を備えたモバイルデバイス１１０の実施形態の簡略化された機能ブロック図である。ＶＡＤモジュール２３０からのＶＡＤ決定は、可変利得増幅器５１０の利得を制御するために使用されることができる。

ＶＡＤモジュール２３０は、出力音声アクティビティ検出信号を、利得生成器５２０、即ち、コントローラの入力に結合することができ、利得生成器５２０は、スピーチ参照信号に適用される利得を制御するように構成される。一実施形態では、利得生成器５２０は、可変利得増幅器５１０によって適用される利得を制御するように構成される。可変利得増幅器５１０は、デジタル領域において実行されるように示され、例えば、スケーラ、乗算器、シフトレジスタ、レジスタローテータ（register rotator）等、又はこれらの組み合わせとして実現されることができる。

一例として、２マイクロホンＶＡＤによって制御されるスカラー利得は、スピーチ参照信号に適用されることができる。具体例として、可変利得増幅器５１０からの利得は、スピーチが検出される場合には、１に設定されることができる。可変利得増幅器５１０からの利得は、スピーチが検出されない場合には、１未満に設定されることができる。

可変利得増幅器５１０は、デジタル領域に示されるが、可変利得は、スピーチ参照マイクロホン１１２からの信号に直接適用されることができる。可変利得は、デジタル領域においてスピーチ参照信号に、或いは、図５に示されるような信号改善モジュール４００から得られる改善されたスピーチ参照信号に適用することもできる。

ここに説明されるＶＡＤ方法及び装置は、最新のスピーチ符号化の助けとなるように使用されることもできる。図６は、音声符号化を制御する音声アクティビティ検出器を備えたモバイルデバイス１１０の実施形態の簡略化された機能ブロック図である。

図６の実施形態では、ＶＡＤモジュール２３０は、ＶＡＤ決定を、スピーチコーダ（speech coder）６００の制御入力に結合する。

一般に、最新のスピーチコーダは、内部音声アクティビティ検出器を備えており、この内部音声アクティビティ検出器は、慣例では、１つのマイクロホンからの信号又は改善された信号を使用している。信号改善モジュール４００によって提供さるような２マイクロホン信号改善を使用することによって、内部ＶＡＤによって受信される信号は、オリジナルのマイクロホン信号よりよいＳＮＲを有している。従って、改善された信号を使用する内部ＶＡＤがより信頼できる決定を行うことができると考えられる。内部ＶＡＤ及び外部ＶＡＤからの決定を併用することによって、２つの信号を使用して、より信頼できるＶＡＤ決定を得ることが可能である。例えば、スピーチコーダ６００は、ＶＡＤモジュール２３０からのＶＡＤ決定及び内部ＶＡＤ決定の論理結合（logical combination）を実行するように構成されることができる。スピーチコーダ６００は、例えば、２つの信号の論理ＡＮＤ又は論理ＯＲに関して動作することができる。

図７は、音声アクティビティ検出の簡略化された方法７００のフローチャートである。方法７００は、図１のモバイルデバイス、又は図２〜６に関連して説明された装置及び技術の組み合わせによって実現されることができる。

方法７００は、特定の実施において省略される可能性がある複数の随意のステップを含んで説明される。さらに、方法７００は、例証の目的だけのために、特定の順序で実行されるように説明され、ステップのいくつかは、異なる順序で実行されてもよい。

方法は、ブロック７１０から始まり、ブロック７１０において、まず、モバイルデバイスは、キャリブレーションを行なう。モバイルデバイスは、例えば、スピーチ参照信号経路及びノイズ参照信号経路の応答を実質的に等しくするために、周波数の選択的な利得、減衰又は遅延を導入することができる。

キャリブレーション後に、モバイルデバイスは、ブロック７２２に進み、参照マイクロホンからスピーチ参照信号を受信する。スピーチ参照信号は、音声アクティビティの存在又は不在を含んでいてもよい。

モバイルデバイスは、ブロック７２４に進み、ノイズ参照マイクロホンからの信号に基づく、キャリブレーションモジュールからのキャリブレーションされたノイズ参照信号を同時に受信する。ノイズ参照マイクロホンは、必ずしもそうとは限らないが、スピーチ参照マイクロホンと比較して低減したレベルの音声信号を結合する。

例えば、スピーチ及びノイズ参照信号の一方又は両方に結合されているオーディオ信号を出力する場合には、モバイルデバイスは、随意のブロック７２８に進み、受信したスピーチ及びノイズ信号にエコーキャンセレーションを実行する。

モバイルデバイスは、ブロック７３０に進み、スピーチ参照信号及びノイズ参照信号の信号改善を随意に実行する。モバイルデバイスは、例えば物理的な制限により、ノイズ参照マイクロホンからスピーチ参照マイクロホンを引き離すことができないデバイスに信号改善を含んでもよい。移動局が信号改善を行なう場合、その後の処理は、改善されたスピーチ参照信号及び改善されたノイズ参照信号に対して実行されることになる。信号改善が省略される場合、モバイルデバイスは、スピーチ参照信号及びノイズ参照信号に対して動作することになる。

モバイルデバイスは、ブロック７４２に進み、スピーチ参照信号に基づいて、スピーチ特性値を決定し、或いは計算し、或いは生成する。モバイルデバイスは、複数のサンプルに基づいて、或いは、前述のサンプルの加重平均に基づいて、或いは、前述のサンプルの指数関数的減衰に基づいて、或いは、サンプルの所定の窓に基づいて、特定のサンプルに関連があるスピーチ特性値を決定するように構成されることができる。

一実施形態において、モバイルデバイスは、スピーチ参照信号の自己相関を決定するように構成される。他の実施形態では、モバイルデバイスは、受信した信号のエネルギーを決定するように構成される。

モバイルデバイスは、ブロック７４４に進み、相補的なノイズ特性値を決定し、或いは計算し、或いは生成する。移動局は、概して、スピーチ特性値を生成するのに使用されるものと同じ技術を使用して、ノイズ特性値を決定する。即ち、モバイルデバイスがフレームに基づくスピーチ特性値を決定する場合、モバイルデバイスは、同様にして、フレームに基づくノイズ特性値を決定する。同様に、モバイルデバイスがスピーチ特性値として自己相関を決定する場合、モバイルデバイスは、ノイズ特性値としてノイズ信号の自己相関を決定する。

移動局は、ブロック７４６に随意的に進み、スピーチ参照信号及びノイズ参照信号の両方に少なくとも部分的に基づいて、相補的な合成特性値（combined characteristic value）を決定し、或いは計算し、或いは生成する。例えば、モバイルデバイスは、２つの信号の相互相関を決定するように構成されることができる。他の実施形態では、例えば音声アクティビティメトリックが合成特性値に基づかない場合などに、モバイルデバイスは、合成特性値を決定することを省略してもよい。

モバイルデバイスは、ブロック７５０に進み、スピーチ特性値、ノイズ特性値及び合成特性値のうちの１以上に少なくとも部分的に基づいて、音声アクティビティメトリックを決定し、或いは計算し、或いは生成する。一実施形態において、モバイルデバイスは、合成相互相関値（combined cross correlation value）に対するスピーチ自己相関値の比を決定するように構成される。他の実施形態では、モバイルデバイスは、ノイズエネルギー値に対するスピーチエネルギー値の比を決定するように構成される。モバイルデバイスは、他の技術を使用して、他のアクティビティメトリックを同様に決定してもよい。

モバイルデバイスは、ブロック７６０に進み、音声アクティビティ決定を行い、或いは音声アクティビティ状態を決定する。例えば、モバイルデバイスは、音声アクティビティメトリックを１以上の閾値と比較することによって、音声アクティビティ決定を行ってもよい。閾値は、固定されていてもよく、動的であってもよい。一実施形態において、音声アクティビティメトリックが所定の閾値を超える場合、モバイルデバイスは、音声アクティビティの存在を決定する。

音声アクティビティ状態を決定した後に、モバイルデバイスは、ブロック７７０に進み、音声アクティビティ状態に部分的に基づいて、１以上のパラメータ又は制御を変更し、或いは調整し、或いは修正する。例えば、モバイルデバイスは、音声アクティビティ状態に基づいて、スピーチ参照信号増幅器の利得を設定することができ、或いは、スピーチコーダを制御するために音声アクティビティ状態を使用することができ、或いは、スピーチコーダ状態を制御するために、他のＶＡＤ決定と組み合わせて、音声アクティビティ状態を使用することができる。

モバイルデバイスは、判断ブロック７８０に進み、再キャリブレーションが要求されるか否かを判断する。モバイルデバイスは、１以上のイベント及び期間等、又はこれらの組み合わせの経過（passage）時にキャリブレーションを実行することができる。再キャリブレーションが要求される場合、モバイルデバイスは、ブロック７１０に戻る。そうでなければ、モバイルデバイスは、ブロック７２２に戻り、音声アクティビティのために、スピーチ及びノイズ参照信号をモニタし続ける。

図８は、キャリブレーションされた複数マイクロホン音声アクティビティ検出器及び信号改善を備えたモバイルデバイス８００の実施形態の簡略化された機能ブロック図である。モバイルデバイス８００は、スピーチ参照マイクロホン８１２と、ノイズ参照マイクロホン８１４と、スピーチ参照信号をデジタル表現に変換する手段８２２と、ノイズ参照信号をデジタル表現に変換する手段８２４と、スピーチ参照信号におけるエコーを除去する手段８４２と、ノイズ参照信号におけるエコーを除去する手段８４４と、を含む。エコーを除去する手段は、除去する手段からの出力と信号８３２及び８３４とを合成する手段と連動して動作する。

エコーが除去されたスピーチ及びノイズ参照信号は、ノイズ参照信号経路のスペクトル応答と実質的に同様になるように、スピーチ参照信号経路のスペクトル応答をキャリブレーションする手段８５０に結合することができる。スピーチ及びノイズ参照信号は、スピーチ参照信号及びノイズ参照信号の少なくとも１つを改善する手段８５６にさらに結合することができる。改善する手段８５６が使用される場合、音声アクティビティメトリックは、改善されたスピーチ参照信号及び改善されたノイズ参照信号のうちの１つに少なくとも部分的に基づいている。

音声アクティビティを検出する手段８６０は、スピーチ参照信号に基づいて、自己相関を決定する手段と、スピーチ参照信号及びノイズ参照信号に基づいて、相互相関を決定する手段と、相互相関に対する、スピーチ参照信号の自己相関の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、音声アクティビティメトリックを、少なくとも１つの閾値と比較することにより、音声アクティビティ状態を決定する手段と、を含むことができる。

音声アクティビティ検出のための方法及び装置、並びに、音声アクティビティ状態に基づいてモバイルデバイスの１以上の部分の動作を変更することは、ここに説明されている。ここに提示されるＶＡＤ方法及び装置は、単独で使用されることができ、ここに提示されるＶＡＤ方法及び装置は、より信頼できるＶＡＤ決定を行うために従来のＶＡＤ方法及び装置と組み合わされることができる。一例として、開示されたＶＡＤ方法は、音声アクティビティのより信頼できる決定を行うために、ゼロ交差方法と組み合わされることができる。

上記に説明された機能のうちのいくつか又は全てを回路が実現してもよいことを当業者が認識することは、注目されるべきである。１つの回路によって全ての機能が実現されてもよい。第２の回路と組み合わせた、回路の複数のセクションによって、全ての機能が実現されてもよい。一般に、複数の機能が回路により実現される場合、その回路は、集積回路でありうる。一般に知られているモバイルプラットフォーム技術とともに、集積回路は、少なくとも１つのデジタル信号プロセッサ（ＤＳＰ）と、少なくとも１つのＤＳＰを制御し、かつ／或いは、少なくとも１つのＤＳＰに伝達する少なくとも１つのＡＲＭプロセッサとを含む。回路は、セクションによって表現されてもよい。しばしば、セクションは、異なる機能を実行するために再利用される。従って、回路が上述したもののうちのいくつかを含むように説明する際には、回路の第１のセクション、第２のセクション、第３のセクション、第４のセクション及び第５のセクションが同じ回路であってもよく、より大規模な回路の一部又は回路のセットである異なる回路であってもよいことは、当業者に理解される。

回路は、音声アクティビティを検出するように構成されてもよく、この回路は、スピーチ参照マイクロホンから出力スピーチ参照信号を受信するように構成された第１のセクションを含む。同じ回路、異なる回路、若しくは同じ回路又は異なる回路の第２のセクションは、ノイズ参照マイクロホンから出力基準信号を受信するように構成されることができる。さらに、第１のセクションに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器を含む同じ回路、異なる回路、若しくは同じ回路又は異なる回路の第３のセクションがありうる。第１のセクション及び第２のセクションに結合され、合成特性値を決定するように構成された合成特性値生成器を含む第４のセクションは、集積回路の一部であってもよい。さらに、スピーチ特性値及び合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールを含む第５のセクションは、集積回路の一部であってもよい。音声アクティビティメトリックを閾値と比較し、かつ音声アクティビティ状態を出力するために、比較器が使用されることができる。一般に、セクション（第１、第２、第３、第４又は第５のセクション）のいずれも、集積回路の一部であってもよく、集積回路から分離されていてもよい。即ち、セクションは、夫々１つのより大規模な回路の一部であってもよく、セクションは、夫々、別個の集積回路であってもよく、或いは、これら２つの組み合わせであってもよい。

上述したように、スピーチ参照マイクロホンは、複数のマイクロホンを含み、スピーチ特性値生成器は、スピーチ参照信号の自己相関を決定するように、かつ／或いは、スピーチ参照信号のエネルギーを決定するように、かつ／或いは、構成され、かつ、又は、前のスピーチ特性値の指数関数的減衰に基づいて加重平均を決定するように、構成されることができる。スピーチ特性値生成器の機能は、上述されるような回路の１以上のセクションにより実現されてもよい。

ここで使用されるように、用語「結合された（coupled）」又は「接続された（connected）」は、直接的な結合又は接続のみならず、間接的な結合も意味するように使用される。２以上のブロック、モジュール、デバイス又は装置が結合される場合、２つの結合されたブロックの間に１以上の介在するブロックがあってもよい。

ここに開示されている実施形態に関連して説明される種々の例示的なロジック、論理ブロック、モジュール及び回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、簡略化命令コンピュータ（ＲＩＳＣ）プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラム可能な論理素子、ディスクリートゲート又はトランジスタロジック（discrete gate or transistor logic）、離散ハードウェアコンポーネント、或いはここに説明される機能を実行するように設計されたこれらの任意の組み合わせによって実施又は実行されることができる。汎用プロセッサは、マイクロプロセッサとすることができるが、これに代えて、このプロセッサは、いかなる従来のプロセッサ、コントローラ、マイクロコントローラ又は状態機械であってもよい。プロセッサは、コンピュータ装置の組み合わせ、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと連結した１以上のマイクロプロセッサ、又は任意の他のそのような構成として実施されてもよい。

さらに、ここに開示される実施形態に関連して説明される方法、プロセス又はアルゴリズムのステップ及び／又は動作は、ハードウェアで直接に、プロセッサによって実行されるソフトウェアモジュールで、又はこれら２つの組み合わせで具現化されることができる。ステップ又は方法における種々の処理又は動作は、示された順序で実行されてもよく、或いは他の順序で実行されてもよい。さらに、１以上の処理又は方法ステップは、省略されてもよく、１以上の処理又は方法ステップは、方法及び処理に追加されてもよい。追加のステップ、ブロック又は動作は、方法及び処理の最初、最後又は途中の既存の要素に追加されてもよい。

開示された実施形態の上記の説明は、当業者が本開示を作製又は使用することを可能にするために提供される。これらの実施形態に対する種々の変形は、容易に明らかであり、ここに定義された一般原理は、本開示の精神又は範囲から逸脱することなしに、他の実施形態に適用されてもよい。従って、本開示は、ここに示された実施形態に限定するように意図するものではなく、ここに開示された原理及び新規な特徴と一致する最も広い範囲を与えられるべきである。

Claims

音声アクティビティを検出する方法であって、
スピーチ参照マイクロホンからスピーチ参照信号を受信することと、
前記スピーチ参照信号とは異なるノイズ参照マイクロホンから、ノイズ参照信号を受信することと、
前記スピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定することと、
前記スピーチ参照信号及び前記ノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定することと、
前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定することと、ここで、前記スピーチ特性値を決定することが、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定することと、
を具備する方法。
前記スピーチ参照信号及び音声参照信号の少なくとも一方をビームフォーミングすることをさらに具備する請求項１の方法。
前記スピーチ参照信号中のスピーチ信号成分を改善するために、前記スピーチ参照信号及び前記ノイズ参照信号に対して、ブラインドソース分離（ＢＳＳ）を実行することをさらに具備する請求項１の方法。
前記スピーチ参照信号及び前記ノイズ参照信号の少なくとも一方に対して、スペクトルサブトラクションを実行することをさらに具備する請求項１の方法。
前記ノイズ参照信号に少なくとも部分的に基づいて、ノイズ特性値を決定することをさらに具備し、前記音声アクティビティメトリックが前記ノイズ特性値に少なくとも部分的に基づいている、請求項１の方法。
前記スピーチ参照信号は、音声アクティビティの有無を含む、請求項１の方法。
前記自己相関は、特定の時間インスタントにおけるスピーチ参照エネルギーを用いた前の自己相関の加重和を含む、請求項６の方法。
前記スピーチ特性値を決定することは、前記スピーチ参照信号のエネルギーを決定することを含む、請求項１の方法。
前記合成特性値を決定することは、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することを含む、請求項１の方法。
前記音声アクティビティ状態を決定することは、前記音声アクティビティメトリックを閾値と比較することを含む、請求項１の方法。
前記スピーチ参照マイクロホンは、少なくとも１つのスピーチマイクロホンを含み、
前記ノイズ参照マイクロホンは、前記少なくとも１つのスピーチマイクロホンとは異なる少なくとも１つのノイズマイクロホンを含み、
前記スピーチ特性値を決定することは、前記スピーチ参照信号に基づいて自己相関を決定することを含み、
前記合成特性値を決定することは、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定することを含み、
前記音声アクティビティメトリックを決定することは、前記スピーチ参照信号の前記自己相関の絶対値と前記相互相関との比を決定することに部分的に基づいていて、
前記音声アクティビティ状態を決定することは、前記音声アクティビティメトリックを少なくとも１つの閾値と比較することを含む、請求項１の方法。
前記スピーチ参照信号及び前記ノイズ参照信号のうちの少なくとも一方の信号改善を実行することをさらに具備し、前記音声アクティビティメトリックは、改善されたスピーチ参照信号及び改善されたノイズ参照信号のうちの一方に少なくとも部分的に基づいている、請求項１１の方法。
前記音声アクティビティ状態に基づいて、動作パラメータを変えることをさらに具備する請求項１１の方法。
前記動作パラメータは、前記スピーチ参照信号に適用される利得を含む、請求項１３の方法。
前記動作パラメータは、前記スピーチ参照信号に関して動作するスピーチコーダの状態を含む、請求項１３の方法。
音声アクティビティを検出するように構成された装置であって、
スピーチ参照信号を出力するように構成されたスピーチ参照マイクロホンと、
ノイズ参照信号を出力するように構成されたノイズ参照マイクロホンと、
前記スピーチ参照マイクロホンに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器と、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
前記スピーチ参照マイクロホン及び前記ノイズ参照マイクロホンに結合され、合成特性値を決定するように構成された合成特性値生成器と、
前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールと、
前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、
を具備する装置。
前記スピーチ参照マイクロホンは、複数のマイクロホンを含む、請求項１６の装置。
前記スピーチ特性値生成器は、前のスピーチ特性値の指数関数的減衰に基づいて、加重平均を決定するように構成される、請求項１６の装置。
前記合成特性値生成器は、前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定するように構成される、請求項１６の装置、
前記音声アクティビティメトリックモジュールは、前記ノイズ特性値に対する前記スピーチ特性値の比を決定するように構成される請求項１６の装置。
音声アクティビティを検出するように構成された装置であって、
スピーチ参照信号を受信する手段と、
ノイズ参照信号を受信する手段と、
前記スピーチ参照信号に基づいて、自己相関を決定する手段と、
前記スピーチ参照信号及び前記ノイズ参照信号に基づいて、相互相関を決定する手段と、
前記相互相関に対する、前記スピーチ参照信号の前記自己相関の絶対値の比に部分的に基づいて、音声アクティビティメトリックを決定する手段と、
前記音声アクティビティメトリックを少なくとも１つの閾値と比較することによって、音声アクティビティ状態を決定する手段と、
を具備する装置。
ノイズ参照信号経路のスペクトル応答と実質的に同じになるように、スピーチ参照信号経路のスペクトル応答をキャリブレーションする手段をさらに具備する請求項２１の装置。
１以上のプロセッサによって利用可能な命令を含むコンピュータ読み取り可能媒体であって、
少なくとも１つのスピーチ参照マイクロホンからのスピーチ参照信号に少なくとも部分的に基づいて、スピーチ特性値を決定するための命令と、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
前記スピーチ参照信号、及び少なくとも１つのノイズ参照マイクロホンからのノイズ参照信号に少なくとも部分的に基づいて、合成特性値を決定するための命令と、
前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するための命令と、
前記音声アクティビティメトリックに基づいて、音声アクティビティ状態を決定するための命令と、
を具備するコンピュータ読み取り可能媒体。
音声アクティビティを検出するように構成された回路であって、
スピーチ参照マイクロホンから出力スピーチ参照信号を受信するように構成された第１セクションと、
ノイズ参照マイクロホンから出力参照信号を受信するように構成された第２のセクションと、
前記第１セクションに結合され、スピーチ特性値を決定するように構成されたスピーチ特性値生成器を備えた第３のセクションと、ここで、前記スピーチ特性値を決定することは、前記スピーチ参照信号の自己相関の絶対値を決定することを含み、
前記第１セクション及び前記第２のセクションに結合され、合成特性値を決定するように構成された合成特性値生成器を備えた第４のセクションと、
前記スピーチ特性値及び前記合成特性値に少なくとも部分的に基づいて、音声アクティビティメトリックを決定するように構成された音声アクティビティメトリックモジュールを備えた第５のセクションと、
前記音声アクティビティメトリックを閾値と比較して、音声アクティビティ状態を出力するように構成された比較器と、
を具備する回路。
前記第１セクション、前記第２のセクション、前記第３のセクション、前記第４のセクション及び前記第５のセクションからなる群のいずれか２つのセクションは、同じ回路からなる、請求項２４の回路。