JP2014003647A

JP2014003647A - 了解度の向上のためのシステム、方法、装置、およびコンピュータプログラム製品

Info

Publication number: JP2014003647A
Application number: JP2013161887A
Authority: JP
Inventors: Visser Erik; エリック・ビッサー; Toman Jeremy; ジェレミー・トマン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-07-18
Filing date: 2013-08-02
Publication date: 2014-01-09
Also published as: JP2011528806A; WO2010009414A1; KR101228398B1; CN102057427A; KR20110043699A; US8538749B2; EP2319040A1; TW201015541A; JP5456778B2; US20100017205A1; CN102057427B

Abstract

【課題】再生オーディオ信号（たとえば、遠端音声信号）の了解度を改善する。
【解決手段】空間選択的処理（ＳＳＰ）フィルタＳＳ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために、Ｍチャネル感知オーディオ信号Ｓ１０（Ｍは１よりも大きい整数である）に対して空間選択的処理演算を実行する。等化器ＥＱ１０は、等化されたオーディオ信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報に基づいて再生オーディオ信号Ｓ４０のスペクトル特性を動的に改変する。たとえば、等化器ＥＱ１０は、等化されたオーディオ信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報を使用して、再生オーディオ信号Ｓ４０の少なくとも１つの周波数サブバンドを、再生オーディオ信号Ｓ４０の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成する。
【選択図】図５

Description

米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明確に組み込まれる、２００８年７月１８日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する仮出願第６１／０８１，９８７号、代理人整理番号第０８１７３７Ｐ１号、および２００８年９月３日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する仮出願第６１／０９３，９６９号、代理人整理番号第０８１７３７Ｐ２号の優先権を主張する。

本開示は、音声処理に関する。

音響環境はしばしば雑音が多いので、所望の情報信号を聴取することが困難になる。雑音は、当該の信号を妨害するか、または劣化させるすべての信号の組合せと定義できる。そのような雑音は、電話会話中における遠端信号などの所望の再生オーディオ信号をマスキングする傾向がある。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供される。音響環境は、通信デバイスによって再生されている遠端信号と競合する多くの制御不能な雑音源を有することがある。そのような雑音は不満足な通信エクスペリエンスを生じることがある。遠端信号が背景雑音と区別できない限り、それを確実に効率的に利用することが困難になる可能性がある。

一般的構成による再生オーディオ信号を処理する方法は、第１の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理することと、第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算することとを含む。本方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、第２の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理することと、第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算することとを含む。本方法は、複数の第１のサブバンドパワー推定値からの情報と複数の第２のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることを含む。

一般的構成による再生オーディオ信号を処理する方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、再生オーディオ信号の複数のサブバンドの各々について第１のサブバンドパワー推定値を計算することとを含む。本方法は、雑音基準の複数のサブバンドの各々について第１の雑音サブバンドパワー推定値を計算することと、マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準の複数のサブバンドの各々について第２の雑音サブバンドパワー推定値を計算することとを含む。本方法は、再生オーディオ信号の複数のサブバンドの各々について、対応する第１の雑音サブバンドパワー推定値と第２の雑音サブバンドパワー推定値との最大値に基づく第２のサブバンドパワー推定値を計算することを含む。本方法は、複数の第１のサブバンドパワー推定値からの情報と複数の第２のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることを含む。

一般的構成による再生オーディオ信号を処理するための装置は、第１の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理するように構成された第１のサブバンド信号発生器と、第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算するように構成された第１のサブバンドパワー推定値計算器とを含む。本装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、第２の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理するように構成された第２のサブバンド信号発生器とを含む。本装置は、第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算するように構成された第２のサブバンドパワー推定値計算器と、複数の第１のサブバンドパワー推定値からの情報と複数の第２のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイとを含む。

一般的構成によるコンピュータ可読媒体は、プロセッサによって実行されたとき、プロセッサに再生オーディオ信号を処理する方法を実行させる命令を含む。これらの命令は、プロセッサによって実行されたとき、第１の複数の時間領域サブバンド信号を得るためにプロセッサに再生オーディオ信号をフィルタ処理させる命令と、プロセッサに、第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算させる命令とを含む。本命令はまた、プロセッサによって実行されたとき、音源信号と雑音基準を生成するためにプロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、第２の複数の時間領域サブバンド信号を得るためにプロセッサに雑音基準をフィルタ処理させる命令とを含む。本命令はまた、プロセッサによって実行されたとき、プロセッサに、第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算させる命令と、プロセッサに、複数の第１のサブバンドパワー推定値からの情報と複数の第２のサブバンドパワー推定値からの情報とに基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングさせる命令とを含む。

一般的構成による再生オーディオ信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行するための手段を含む。本装置はまた、等化されたオーディオ信号を生成するために再生オーディオ信号を等化するための手段を含む。本装置では、等化するための手段は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成される。

明瞭度指数プロットを示す図。典型的な狭帯域テレフォニーアプリケーションにおける再生音声信号のパワースペクトルを示す図。典型的な音声パワースペクトルと典型的な雑音パワースペクトルとの例を示す図。図３の例への自動ボリューム制御の適用を示す図。図３の例へのサブバンド等化の適用を示す図。一般的構成による装置Ａ１００のブロック図。第１の動作構成における２マイクロフォンハンドセットＨ１００の図。ハンドセットＨ１００のための第２の動作構成を示す図。３つのマイクロフォンを含むハンドセットＨ１００の実装形態Ｈ１１０の図。ハンドセットＨ１１０の２つの他の図。ヘッドセットの様々な異なる動作構成の図。ハンズフリーカーキットの図。メディア再生デバイスの例を示す図。メディア再生デバイスの例を示す図。メディア再生デバイスの例を示す図。空間選択的処理（ＳＳＰ）フィルタＳＳ１０の一例のビームパターンを示す図。ＳＳＰフィルタＳＳ１０の実装形態ＳＳ２０のブロック図。装置Ａ１００の実装形態Ａ１０５のブロック図。ＳＳＰフィルタＳＳ１０の実装形態ＳＳ１１０のブロック図。ＳＳＰフィルタＳＳ２０およびＳＳ１１０の実装形態ＳＳ１２０のブロック図。装置Ａ１００の実装形態Ａ１１０のブロック図。オーディオプリプロセッサＡＰ１０の実装形態ＡＰ２０のブロック図。エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図。エコーキャンセラＥＣ２０ａの実装形態ＥＣ２２ａのブロック図。装置Ａ１１０のインスタンスを含む通信デバイスＤ１００のブロック図。通信デバイスＤ１００の実装形態Ｄ２００のブロック図。等化器ＥＱ１０の実装形態ＥＱ２０のブロック図。サブバンド信号発生器ＳＧ２００のブロック図。サブバンド信号発生器ＳＧ３００のブロック図。サブバンドパワー推定値計算器ＥＣ１１０のブロック図。サブバンドパワー推定値計算器ＥＣ１２０のブロック図。７つのバーク尺度サブバンドのセットのエッジを示すドットの行を含む図。サブバンドフィルタアレイＳＧ３０の実装形態ＳＧ３２のブロック図。一般的無限インパルス応答（ＩＩＲ）フィルタ実装形態の転置直接形ＩＩを示す図。ＩＩＲフィルタのバイカッド（biquad）実装形態の転置直接形ＩＩ構造を示す図。ＩＩＲフィルタのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す図。一連の７つのバイカッドの絶対値および位相応答を示す図。サブバンド利得係数計算器ＧＣ１００の実装形態ＧＣ２００のブロック図。サブバンド利得係数計算器ＧＣ１００の実装形態ＧＣ３００のブロック図。擬似コードリストを示す図。図２５Ａの擬似コードリストの変形を示す図。図２５Ａの擬似コードリストの変形を示す図。図２５Ｂの擬似コードリストの変形を示す図。並列に構成されたバンドパスフィルタのセットを含むサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１１０のブロック図。バンドパスフィルタが直列に構成されたサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１２０のブロック図。ＩＩＲフィルタのバイカッド実装形態の別の例を示す図。装置Ａ１００の実装形態Ａ１２０のブロック図。図２６Ａの擬似コードリストの変形を示す図。図２６Ｂの擬似コードリストの変形を示す図。図２６Ａの擬似コードリストの他の変形を示す図。図２６Ｂの擬似コードリストの他の変形を示す図。装置Ａ１００の実装形態Ａ１３０のブロック図。ピークリミッタＬ１０を含む等化器ＥＱ２０の実装形態ＥＱ４０のブロック図。装置Ａ１００の実装形態Ａ１４０のブロック図。ピーク制限演算の一例を記載する擬似コードリストを示す図。図３５Ａの擬似コードリストの別のバージョンを示す図。分離評価器ＥＶ１０を含む装置Ａ１００の実装形態Ａ２００のブロック図。装置Ａ２００の実装形態Ａ２１０のブロック図。等化器ＥＱ１００（および等化器ＥＱ２０）の実装形態ＥＱ１１０のブロック図。等化器ＥＱ１００（および等化器ＥＱ２０）の実装形態ＥＱ１２０のブロック図。等化器ＥＱ１００（および等化器ＥＱ２０）の実装形態ＥＱ１３０のブロック図。サブバンド信号発生器ＥＣ２１０のブロック図。サブバンド信号発生器ＥＣ２２０のブロック図。等化器ＥＱ１３０の実装形態ＥＱ１４０のブロック図。等化器ＥＱ２０の実装形態ＥＱ５０のブロック図。等化器ＥＱ２０の実装形態ＥＱ２４０のブロック図。装置Ａ１００の実装形態Ａ２５０のブロック図。等化器ＥＱ２４０の実装形態ＥＱ２５０のブロック図。ボイスアクティビティ検出器Ｖ２０を含む装置Ａ２００の実装形態Ａ２２０を示す図。装置Ａ１００の実装形態Ａ３００のブロック図。装置Ａ３００の実装形態Ａ３１０のブロック図。装置Ａ３１０の実装形態Ａ３２０のブロック図。装置Ａ３１０の実装形態Ａ３３０のブロック図。装置Ａ１００の実装形態Ａ４００のブロック図。設計方法Ｍ１０のフローチャート。トレーニングデータを記録するように構成された音響無響室の例を示す図。適応フィルタ構造ＦＳ１０の２チャネル例のブロック図。フィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図。ワイヤレス電話システムを示す図。パケット交換データ通信をサポートするように構成されたワイヤレス電話システムを示す図。一構成による方法Ｍ１１０のフローチャート。一構成による方法Ｍ１２０のフローチャート。一構成による方法Ｍ２１０のフローチャート。一構成による方法Ｍ２２０のフローチャート。一般的構成による方法Ｍ３００のフローチャート。タスクＴ８２０の実装形態Ｔ８２２のフローチャート。タスクＴ８４０の実装形態Ｔ８４２のフローチャート。タスクＴ８４０の実装形態Ｔ８４４のフローチャート。タスクＴ８２０の実装形態Ｔ８２４のフローチャート。方法Ｍ３００の実装形態Ｍ３１０のフローチャート。一構成による方法Ｍ４００のフローチャート。一般的構成による装置Ｆ１００のブロック図。手段Ｆ１２０の実装形態Ｆ１２２のブロック図。一般的構成による方法Ｖ１００のフローチャート。一般的構成による装置Ｗ１００のブロック図。一般的構成による方法Ｖ２００のフローチャート。一般的構成による装置Ｗ２００のブロック図。

これらの図面では、コンテキストが別段に規定しない限り、同じラベルの使用は同じ構造の例を示す。

ＰＤＡおよびセルフォンのようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、自動車、街路、カフェ、または空港のような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、かなりの量のボイス通信が行われていることを意味する。そのような環境においてボイス通信および／またはオーディオ再生のために使用できる他のデバイスには、ワイヤードおよび／またはワイヤレスヘッドセット、オーディオまたはオーディオビジュアルメディア再生デバイス（たとえば、ＭＰ３またはＭＰ４プレーヤ）、および同様のポータブルまたはモバイル機器がある。

本明細書で説明するシステム、方法、および装置を使用して、特に雑音の多い環境において、受信あるいは再生オーディオ信号の了解度の向上をサポートすることができる。そのような技法は、一般に任意の送受信および／またはオーディオ再生アプリケーション、特にそのようなアプリケーションのモバイルあるいはポータブル事例において適用できる。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡ）送信チャネルを介したボイスオーバーＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐することができることが、当業者には理解されよう。

本明細書に開示する通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書によって開示される。また、本明細書に開示する通信デバイスは、狭帯域符号化システム（たとえば、約４または５キロヘルツの可聴周波数範囲を符号化するシステム）での使用、および／または全帯域広帯域符号化システムおよびスプリットバンド符号化システムを含む、広帯域符号化システム（たとえば、５キロヘルツを超える可聴周波数を符号化するシステム）での使用に適応できることが明確に企図され、本明細書によって開示される。

文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値から計算（computing）すること、平滑化すること、評価すること、および／または選択することなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも示すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のいずれをも示すのに使用される。

別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。

「コーダ」、「コーデック」、および「符号化システム」という用語は、（場合によっては知覚的重み付けおよび／または他のフィルタ処理演算などの１つまたは複数の前処理演算の後に）オーディオ信号のフレームを受信し符号化するように構成された少なくとも１つの符号器と、フレームの復号表現を生成するように構成された対応する復号器とを含むシステムを示すのに互換的に使用される。そのような符号器および復号器は一般に通信リンクの反対側の端末に配備される。全二重通信をサポートするために、符号器と復号器の両方のインスタンスは、一般にそのようなリンクの各端部に配備される。

本明細書では、「感知オーディオ信号」という用語は、１つまたは複数のマイクロフォンを介して受信された信号を示し、「再生オーディオ信号」という用語は、記憶装置から取り出され、および／またはワイヤードもしくはワイヤレス接続を介して受信された情報から別のデバイスに再生される信号を示す。通信または再生デバイスなどのオーディオ再生デバイスは、再生オーディオ信号をデバイスの１つまたは複数のラウドスピーカーに出力するように構成できる。代替的に、そのようなデバイスは、再生オーディオ信号を、ワイヤを介してまたはワイヤレスにデバイスに結合されたイヤピース、他のヘッドセットまたは外部ラウドスピーカーに出力するように構成できる。テレフォニーなどのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信すべき近端信号であり、再生オーディオ信号は、トランシーバによって（たとえば、ワイヤレス通信リンクを介して）受信される遠端信号である。記録された音楽または音声（たとえば、ＭＰ３、オーディオブック、ポッドキャスト）の再生またはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生またはストリーミングされるオーディオ信号である。

再生音声信号の了解度は、信号のスペクトル特性に関して変動することがある。たとえば、図１の明瞭度指数プロットに、音声了解度に対する相対的寄与率が可聴周波数とともにどのように変動するかを示す。このプロットは、１〜４ｋＨｚ間の周波数成分が了解度にとって特に重要であり、相対的重要度が約２ｋＨｚでピークに達することを示す。

図２に、典型的な狭帯域テレフォニーアプリケーションにおける再生音声信号のパワースペクトルを示す。この図は、周波数が５００Ｈｚを上回って増加するにつれて、そのような信号のエネルギーが急速に減少することを示す。しかしながら、図１に示すように、４ｋＨｚまでの周波数は音声了解度にとって極めて重要である。したがって、５００〜４０００Ｈｚ間の周波数帯域中でエネルギーを人工的にブースティングすることにより、そのようなテレフォニーアプリケーションにおける再生音声信号の了解度が改善されることが期待される。

４ｋＨｚを上回る可聴周波数は一般に了解度にとって１ｋＨｚ〜４ｋＨｚ帯域ほど重要ではないので、典型的な帯域制限された通信チャネルを介して狭帯域信号を送信することで、理解できる会話を行うのに通常十分である。しかしながら、通信チャネルが広帯域信号の伝送をサポートする場合、パーソナル音声特徴の明暸性の向上およびその通信の改善が期待される。ボイステレフォニーコンテキストでは、「狭帯域」という用語は、約０〜５００Ｈｚ（たとえば、０、５０、１００、または２００Ｈｚ）から約３〜５ｋＨｚ（たとえば、３５００、４０００、または４５００Ｈｚ）までの周波数範囲を指し、「広帯域」という用語は、約０〜５００Ｈｚ（たとえば、０、５０、１００、または２００Ｈｚ）から約７〜８ｋＨｚ（たとえば、７０００、７５００、または８０００Ｈｚ）までの周波数範囲を指す。

音声信号の選択された部分をブースティングすることによって音声了解度を高めることが望ましい。補聴器の適用例では、たとえば、ダイナミックレンジ圧縮技法を使用して、再生オーディオ信号中の特定の周波数サブバンドをブースティングすることによって、それらのサブバンド中の知られている聴力損失を補償することができる。

現実の世界は、単一点雑音源を含む複数の雑音源にあふれており、これらは、しばしば複数の音に入り込んで残響を生じる。背景音響雑音は、一般的な環境によって発生される多数の雑音信号、他の人々の背景会話によって発生される干渉信号、ならびにそれらの信号の各々から発生される反射および残響を含む。

環境雑音は、遠端音声信号などの再生オーディオ信号の了解度に影響を及ぼすことがある。通信が雑音の多い環境で行われる適用例では、音声処理方法を使用して、音声信号を背景雑音と区別し、その了解度を向上させることが望ましい。雑音は現実の状態ではほとんど常に存在するので、そのような処理は日常的な通信の多くの領域で重要である。

自動利得制御（ＡＧＣ、自動ボリューム制御またはＡＶＣとも呼ばれる）は、雑音の多い環境で再生されているオーディオ信号の了解度を高めるために使用できる処理方法である。自動利得制御技法を使用して、信号のダイナミックレンジを限定された振幅帯域に圧縮し、それによって、低いパワーを有する信号のセグメントをブースティングし、高いパワーを有するセグメント中のエネルギーを減少させることができる。図３に、自然音声パワーロールオフがパワーを周波数とともに減少させる典型的な音声パワースペクトルと、パワーが少なくとも音声周波数の範囲にわたって全体的に一定である典型的な雑音パワースペクトルとの例を示す。そのような場合、音声信号の高周波成分は、雑音信号の対応する成分よりも小さいエネルギーを有し、その結果、高周波音声帯域のマスキングが生じる。図４Ａに、そのような例へのＡＶＣの適用を示す。ＡＶＣモジュールは、一般に、この図に示すように、音声信号のすべての周波数帯域を無差別にブースティングするために実装される。そのような手法は、高周波パワーの適度のブーストのために、増幅された信号の大きいダイナミックレンジを必要とすることがある。

高周波数帯域中の音声パワーは通常、低周波数帯域中よりもはるかに小さいので、背景雑音は一般に高周波音声成分を低周波成分よりもはるかに急速にかき消す。したがって、単に信号の全体量をブースティングすることは、了解度に著しく寄与しない、１ｋＨｚを下回る低周波成分を不必要にブースティングすることになる。代わりに、再生オーディオ信号に対する雑音マスキング効果を補償するために可聴周波数サブバンドパワーを調整することが望ましい。たとえば、高周波のほうへの音声パワーの固有のロールオフを補償するために、雑音対音声サブバンドパワーの比に反比例して、高周波サブバンドにおいて不均等に、音声パワーをブースティングすることが望ましい。

環境雑音によって支配される周波数サブバンド中の低ボイスパワーを補償することが望ましい。たとえば、図４Ｂに示すように、（たとえば、音声対雑音比に従って）音声信号の異なるサブバンドに異なる利得ブーストを適用することによって了解度をブースティングするために、選択されたサブバンドに作用することが望ましい。図４Ａに示すＡＶＣ例とは対照的に、そのような等化は、低周波成分の不要なブーストを回避しながら、よりクリアでより明瞭な信号を与えることが期待できる。

そのような方法で音声パワーを選択的にブースティングするために、環境雑音レベルの確実な同時推定値を得ることが望ましい。しかしながら、実際の適用例では、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して、感知オーディオ信号からの環境雑音をモデル化することが困難であることがある。図３は、周波数によらず一定である雑音レベルを示唆しているが、通信デバイスまたはメディア再生デバイスの実際の適用例における環境雑音レベルは、一般に時間と周波数の両方にわたって著しく急速に変動する。

典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および／または干渉源（たとえば、テレビ受像機またはラジオ）からの音がある。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましい。

図５に、空間選択的処理フィルタＳＳ１０と等化器ＥＱ１０とを含む、一般的構成によるオーディオ信号Ａ１００を処理するように構成された装置のブロック図を示す。空間選択的処理（ＳＳＰ）フィルタＳＳ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために、Ｍチャネル感知オーディオ信号Ｓ１０（Ｍは１よりも大きい整数である）に対して空間選択的処理演算を実行するように構成される。等化器ＥＱ１０は、等化されたオーディオ信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報に基づいて再生オーディオ信号Ｓ４０のスペクトル特性を動的に改変するように構成される。たとえば、等化器ＥＱ１０は、等化されたオーディオ信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報を使用して、再生オーディオ信号Ｓ４０の少なくとも１つの周波数サブバンドを、再生オーディオ信号Ｓ４０の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成できる。

装置Ａ１００の典型的な適用例では、感知オーディオ信号Ｓ１０の各チャネルは、Ｍ個のマイクロフォンのアレイのうちの対応する１つからの信号に基づく。マイクロフォンのそのようなアレイをもつ装置Ａ１００の実装形態を含むように実装できるオーディオ再生デバイスの例には、通信デバイスおよびオーディオまたはオーディオビジュアル再生デバイスがある。そのような通信デバイスの例には、限定はしないが、電話ハンドセット（たとえば、セルラー電話ハンドセット）、ワイヤードおよび／またはワイヤレスヘッドセット（たとえば、ブルートゥースヘッドセット）、ならびにハンズフリーカーキットがある。そのようなオーディオまたはオーディオビジュアル再生デバイスの例には、限定はしないが、ストリーミングあるいはあらかじめ記録されているオーディオまたはオーディオビジュアルコンテンツを再生するように構成されたメディアプレーヤがある。

Ｍ個のマイクロフォンのアレイは、２つのマイクロフォンＭＣ１０およびＭＣ２０（たとえば、ステレオアレイ）、または３つ以上のマイクロフォンを有するように実装できる。アレイの各マイクロフォンは、全方向、双方向、または単方向（たとえば、カージオイド）である応答を有することができる。使用できる様々なタイプのマイクロフォンには、（限定はしないが）圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。

装置Ａ１００の実装形態を含むように構築できるオーディオ再生デバイスのいくつかの例を図６Ａ〜図１０Ｃに示す。図６Ａに、第１の動作構成における２マイクロフォンハンドセットＨ１００（たとえば、クラムシェルタイプセルラー電話ハンドセット）の図を示す。ハンドセットＨ１００は１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０とを含む。この例では、ハンドセットＨ１００はまた１次ラウドスピーカーＳＰ１０と２次ラウドスピーカーＳＰ２０とを含む。ハンドセットＨ１００が第１の動作構成にあるとき、１次ラウドスピーカーＳＰ１０はアクティブであり、２次ラウドスピーカーＳＰ２０は使用不能にされるか、またはさもなければ無音にされる。この構成では、音声強調および／または雑音低減のための空間選択的処理技法をサポートするために、１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０の両方がアクティブのままであることが望ましい。

図６Ｂに、ハンドセットＨ１００のための第２の動作構成を示す。この構成では、１次マイクロフォンＭＣ１０はふさがれ、２次ラウドスピーカーＳＰ２０はアクティブであり、１次ラウドスピーカーＳＰ１０は使用不能にされるか、またはさもなければ無音にされる。この場合も、この構成では、（空間選択処理技法をサポートするために）１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０の両方がアクティブであることが望ましい。ハンドセットＨ１００は、その（１つまたは複数の）状態がデバイスの現在の動作構成を示す、１つまたは複数のスイッチまたは同様のアクチュエータを含むことができる。

装置Ａ１００は、３つ以上のチャネルを有する感知オーディオ信号Ｓ１０のインスタンスを受信するように構成できる。たとえば、図７Ａに、第３のマイクロフォンＭＣ３０を含むハンドセットＨ１００の実装形態Ｈ１１０の図を示す。図７Ｂに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットＨ１１０の２つの他の図を示す。

Ｍ個のマイクロフォンを有するイヤピースまたは他のヘッドセットは、装置Ａ１００の実装形態を含むことができる別の種類のポータブル通信デバイスである。そのようなヘッドセットはワイヤードまたはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ社（ワシントン州ベルビュー）によって公表されたブルートゥース（商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重テレフォニーをサポートするように構成できる。図８に、ユーザの耳６５に使用するために取り付けられるそのようなヘッドセット６３の異なる動作構成の範囲６６の図を示す。ヘッドセット６３は、使用中にユーザの口６４に対して異なって配向できる１次（たとえば、縦形）マイクロフォンと２次（たとえば、直角）マイクロフォンとのアレイ６７を含む。そのようなヘッドセットは、一般に、ヘッドセットのイヤプラグに配設できる、遠端信号を再生するためのラウドスピーカー（図示せず）をも含む。さらなる一例では、装置Ａ１００の実装形態を含むハンドセットは、（たとえばブルートゥース（商標）プロトコルのバージョンを使用して）ワイヤードおよび／またはワイヤレス通信リンクを介して、Ｍ個のマイクロフォンを有するヘッドセットから感知オーディオ信号Ｓ１０を受信し、等化されたオーディオ信号Ｓ５０をヘッドセットに出力するように構成される。

Ｍ個のマイクロフォンを有するハンズフリーカーキットは、装置Ａ１００の実装形態を含むことができる別の種類のモバイル通信デバイスである。図９に、Ｍ個のマイクロフォン８４が線形アレイにおいて構成されたそのようなデバイス８３の例の図を示す（この特定の例では、Ｍは４に等しい）。そのようなデバイスの音響環境は、風雑音、回転雑音、および／またはエンジン雑音を含むことができる。装置Ａ１００の実装形態を含むことができる通信デバイスの他の例には、オーディオまたはオーディオビジュアル会議のための通信デバイスがある。そのような会議デバイスの典型的な使用は、複数の所望の音源（たとえば、様々な参加者の口）に関与することがある。そのような場合、マイクロフォンのアレイは３つ以上のマイクロフォンを含むことが望ましい。

Ｍ個のマイクロフォンを有するメディア再生デバイスは、装置Ａ１００の実装形態を含むことができる一種のオーディオまたはオーディオビジュアル再生デバイスである。そのようなデバイスは、標準圧縮形式（たとえば、ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）−１ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）、ＭＰＥＧ−４Ｐａｒｔ１４（ＭＰ４）、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ／Ｖｉｄｅｏ（ＷＭＡ／ＷＭＶ）のバージョン（マイクロソフト社（ワシントン州レドモンド））、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ（ＩＴＵ）−ＴＨ．２６４など）に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生するように構成できる。図１０Ａに、デバイスの前面に配設されたディスプレイスクリーンＳＣ１０とラウドスピーカーＳＰ１０とを含むそのようなデバイスの例を示す。この例では、マイクロフォンＭＣ１０およびＭＣ２０は、デバイスの同じ面に（たとえば、上面の両側に）配設される。図１０Ｂに、マイクロフォンがデバイスの対向する面に配設されたそのようなデバイスの例を示す。図１０Ｃに、マイクロフォンがデバイスの隣接する面に配設されたそのようなデバイスの例を示す。図１０Ａ〜図１０Ｃに示すメディア再生デバイスはまた、意図された使用中、より長い軸が水平になるように、設計できる。

空間選択的処理フィルタＳＳ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために、感知オーディオ信号Ｓ１０に対して空間選択的処理演算を実行するように構成される。たとえば、ＳＳＰフィルタＳＳ１０は、指向性干渉成分および／または拡散雑音成分など、信号の１つまたは複数の他の成分から、感知オーディオ信号Ｓ１０（たとえば、ユーザのボイス）の指向性の所望の成分を分離するように構成できる。そのような場合、音源信号Ｓ２０が、感知オーディオチャネルＳ１０の各チャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む（すなわち、音源信号Ｓ２０が、感知オーディオチャネルＳ１０の個々のどのチャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む）ように、指向性の所望の成分のエネルギーを集中するように、ＳＳＰフィルタＳＳ１０を構成することができる。図１１に、マイクロフォンアレイの軸に対するフィルタ応答の指向性を示すＳＳＰフィルタＳＳ１０のそのような例のビームパターンを示す。空間選択的処理フィルタＳＳ１０を使用して、環境雑音の確実な同時推定値（単一マイクロフォン雑音低減システムに比較して遅延が低減されるので、「瞬時」雑音推定値とも呼ばれる）を与えることができる。

空間選択的処理フィルタＳＳ１０は、一般にフィルタ係数値の１つまたは複数の行列によって特徴づけられる固定フィルタＦＦ１０を含むように実装される。これらのフィルタ係数値は、以下でより詳細に説明するように、ビームフォーミング、ブラインド音源分離（ＢＳＳ）、または複合ＢＳＳ／ビームフォーミング方法を使用して得ることができる。空間選択的処理フィルタＳＳ１０はまた、２つ以上の段を含むように実装できる。図１２Ａに、固定フィルタ段ＦＦ１０と適応フィルタ段ＡＦ１０とを含む、ＳＳＰフィルタＳＳ１０のそのような実装形態ＳＳ２０のブロック図を示す。この例で、固定フィルタ段ＦＦ１０は、フィルタ処理されたチャネルＳ１５−１およびＳ１５−２を生成するために感知オーディオ信号Ｓ１０のチャネルＳ１０−１およびＳ１０−２をフィルタ処理するように構成され、適応フィルタ段ＡＦ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するためにチャネルＳ１５−１およびＳ１５−２をフィルタ処理するように構成される。そのような場合、以下でより詳細に説明するように、適応フィルタ段ＡＦ１０のための初期状態を発生するために固定フィルタ段ＦＦ１０を使用することが望ましい。また、ＳＳＰフィルタＳＳ１０への入力の適応スケーリングを実行すること（たとえば、ＩＩＲ固定または適応フィルタバンクの安定性を保証すること）が望ましい。

複数の固定フィルタ段のうちの適切な１つが（たとえば、様々な固定フィルタ段の相対分離パフォーマンスに従って）演算中に選択されるように構成された、固定フィルタ段を含むように、ＳＳＰフィルタＳＳ１０を実装することが望ましい。そのような構造は、たとえば、代理人整理番号第０８０４２６号を有する、２００８年ＸＸ月ＸＸ日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する米国特許出願第１２／ＸＸＸ，ＸＸＸ号に開示されている。

音源信号Ｓ２０中の雑音をさらに低減するために雑音基準Ｓ３０を適用するように構成された雑音低減段が、ＳＳＰフィルタＳＳ１０またはＳＳ２０の後に続くことが望ましい。図１２Ｂに、そのような雑音低減段ＮＲ１０を含む装置Ａ１００の実装形態Ａ１０５のブロック図を示す。雑音低減段ＮＲ１０は、フィルタ係数値が音源信号Ｓ２０と雑音基準Ｓ３０とからの信号と雑音パワー情報とに基づくウィーナーフィルタとして実装できる。そのような場合、雑音低減段ＮＲ１０は、雑音基準Ｓ３０からの情報に基づいて雑音スペクトルを推定するように構成できる。代替的に、雑音低減段ＮＲ１０は、雑音基準Ｓ３０からのスペクトルに基づいて、音源信号Ｓ２０に対してスペクトル減算演算を実行するように実装できる。代替的に、雑音低減段ＮＲ１０は、雑音共分散が雑音基準Ｓ３０からの情報に基づくカルマンフィルタとして実装できる。

指向性処理演算を実行するように構成されることの代替として、または指向性処理演算を実行するように構成されることに加えて、ＳＳＰフィルタＳＳ１０は、距離処理演算を実行するように構成できる。図１２Ｃおよび図１２Ｄに、そのような演算を実行するように構成された距離処理モジュールＤＳ１０を含む、ＳＳＰフィルタＳＳ１０の実装形態ＳＳ１１０およびＳＳ１２０のブロック図をそれぞれ示す。距離処理モジュールＤＳ１０は、距離処理演算の結果として、マイクロフォンアレイに対するマルチチャネル感知オーディオ信号Ｓ１０の成分の音源の距離を示す距離指示信号ＤＩ１０を生成するように構成される。距離処理モジュールＤＳ１０は、一般に、２つの状態がそれぞれ近距離音源および遠距離音源を示す２進値指示信号として距離指示信号ＤＩ１０を生成するように構成されるが、連続信号および／または多値信号を生成する構成も可能である。

一例では、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態がマイクロフォン信号のパワー勾配間の類似度に基づくように構成される。距離処理モジュールＤＳ１０のそのような実装形態は、（Ａ）マイクロフォン信号のパワー勾配間の差と（Ｂ）しきい値との間の関係に従って距離指示信号ＤＩ１０を生成するように構成できる。１つのそのような関係を次のように表すことができる。

上式で、θは、距離指示信号ＤＩ１０の現在の状態を示し、∇_pは、１次マイクロフォン信号（たとえば、マイクロフォン信号ＤＭ１０−１）のパワー勾配の現在値を示し、∇_sは、２次マイクロフォン信号（たとえば、マイクロフォン信号ＤＭ１０−２）のパワー勾配の現在値を示し、Ｔ_dは、（たとえば、マイクロフォン信号のうちの１つまたは複数の現在レベルに基づいて）固定または適応的とすることができるしきい値を示す。この特定の例では、距離指示信号ＤＩ１０の状態１が遠距離音源を示し、状態０が近距離音源を示すが、当然、所望される場合、逆の（すなわち、状態１が近距離音源を示し、状態０が遠距離音源を示すような）実装形態も使用できる。

連続フレームにわたる対応するマイクロフォン信号のエネルギー間の差としてパワー勾配の値を計算するように距離処理モジュールＤＳ１０を実装することが望ましい。１つのそのような例では、距離処理モジュールＤＳ１０は、パワー勾配∇_pと∇_sとの各々について、対応するマイクロフォン信号の現在のフレームの値の平方和とマイクロフォン信号の前のフレームの値の平方和との間の差として現在値を計算するように構成される。別のそのような例では、距離処理モジュールＤＳ１０は、パワー勾配∇_pと∇_sとの各々について、対応するマイクロフォン信号の現在のフレームの値の絶対値の和とマイクロフォン信号の前のフレームの値の絶対値の和との間の差として現在値を計算するように構成される。

追加または代替として、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態が、周波数範囲にわたって、１次マイクロフォン信号の位相と２次マイクロフォン信号の位相との間の相関の程度に基づくように構成できる。距離処理モジュールＤＳ１０のそのような実装形態は、（Ａ）マイクロフォン信号の位相ベクトル間の相関と（Ｂ）しきい値との間の関係に従って距離指示信号ＤＩ１０を生成するように構成できる。１つのそのような関係を次のように表すことができる。

上式で、μは、距離指示信号ＤＩ１０の現在の状態を示し、φ_pは、１次マイクロフォン信号（たとえば、マイクロフォン信号ＤＭ１０−１）の現在の位相ベクトルを示し、φ_sは、２次マイクロフォン信号（たとえば、マイクロフォン信号ＤＭ１０−２）の現在の位相ベクトルを示し、Ｔ_cは、（たとえば、マイクロフォン信号のうちの１つまたは複数の現在レベルに基づいて）固定または適応的とすることができるしきい値を示す。位相ベクトルの各要素が、対応する周波数において、または対応する周波数サブバンドにわたって、対応するマイクロフォン信号の現在の位相を表すように、位相ベクトルを計算するように距離処理モジュールＤＳ１０を実装することが望ましい。この特定の例では、距離指示信号ＤＩ１０の状態１が遠距離音源を示し、状態０が近距離音源を示すが、当然、所望される場合、逆の実装形態も使用できる。

距離指示信号ＤＩ１０の状態が上記で開示したパワー勾配と位相相関基準の両方に基づくように、距離処理モジュールＤＳ１０を構成することが望ましい。そのような場合、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態をθの現在値とμの現在値との組合せ（たとえば、論理和または論理積）として計算するように構成できる。代替的に、距離処理モジュールＤＳ１０は、対応するしきい値の値がこれらの基準（すなわち、パワー勾配類似度または位相相関）のうちの一方の基準の現在値に基づくように、これらの基準のうちの他方に従って距離指示信号ＤＩ１０の状態を計算するように構成できる。

上記のように、２つ以上のマイクロフォン信号に対して１つまたは複数の前処理演算を実行することによって感知オーディオ信号Ｓ１０を得ることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理）され、さらには、感知オーディオ信号Ｓ１０を得るために（たとえば、本明細書で説明するように別のＳＳＰフィルタまたは適応フィルタによって）事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、８ｋＨｚ〜１６ｋＨｚにわたる。

図１３に、Ｍ個のアナログマイクロフォン信号ＳＭ１０−１〜ＳＭ１０−Ｍを前処理して感知オーディオ信号Ｓ１０のＭ個のチャネルＳ１０−１〜Ｓ１０−Ｍをデジタル化するように構成されたオーディオプリプロセッサＡＰ１０を含む、装置Ａ１００の実装形態Ａ１１０のブロック図を示す。この特定の例では、オーディオプリプロセッサＡＰ１０は、アナログマイクロフォン信号のペアＳＭ１０−１、ＳＭ１０−２をデジタル化して感知オーディオ信号Ｓ１０のチャネルのペアＳ１０−１、Ｓ１０−２を生成するように構成される。オーディオプリプロセッサＡＰ１０はまた、アナログおよび／またはデジタル領域において、スペクトル整形および／またはエコー消去など、マイクロフォン信号に対する他の前処理演算を実行するように構成できる。たとえば、オーディオプリプロセッサＡＰ１０は、アナログ領域およびデジタル領域のいずれかにおいて、マイクロフォン信号のうちの１つまたは複数の各々に１つまたは複数の利得係数を適用するように構成できる。これらの利得係数の値は、それらのマイクロフォンが周波数応答および／または利得に関して互いに一致するように、選択するかまたはさもなければ計算することができる。これらの利得係数を評価するために実行できる較正手順について、以下でより詳細に説明する。

図１４に、第１および第２のアナログデジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む、オーディオプリプロセッサＡＰ１０の実装形態ＡＰ２０のブロック図を示す。第１のＡＤＣＣ１０ａは、マイクロフォン信号ＳＭ１０−１をデジタル化してマイクロフォン信号ＤＭ１０−１を得るように構成され、第２のＡＤＣＣ１０ｂは、マイクロフォン信号ＳＭ１０−２をデジタル化してマイクロフォン信号ＤＭ１０−２を得るように構成される。ＡＤＣＣ１０ａおよびＣ１０ｂによって適用できる典型的なサンプリングレートは８ｋＨｚと１６ｋＨｚとを含む。この例では、オーディオプリプロセッサＡＰ２０はまた、それぞれマイクロフォン信号ＳＭ１０−１およびＳＭ１０−２に対してアナログスペクトル整形演算を実行するように構成された高域フィルタのペアＦ１０ａおよびＦ１０ｂを含む。

オーディオプリプロセッサＡＰ２０はまた、等化されたオーディオ信号Ｓ５０からの情報に基づいてマイクロフォン信号からエコーを消去するように構成されたエコーキャンセラＥＣ１０を含む。エコーキャンセラＥＣ１０は、時間領域バッファから等化されたオーディオ信号Ｓ５０を受信するように構成できる。１つのそのような例では、時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。スピーカーフォンモードおよび／またはプッシュツートーク（ＰＴＴ）モードなど、いくつかのモードでの装置Ａ１１０を含む通信デバイスの動作中は、エコー消去演算を中断する（たとえば、マイクロフォン信号をそのままパスするようにエコーキャンセラＥＣ１０を構成する）ことが望ましい。

図１５Ａに、シングルチャネルエコーキャンセラの２つのインスタンスＥＣ２０ａおよびＥＣ２０ｂを含む、エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図を示す。この例では、シングルチャネルエコーキャンセラの各インスタンスは、マイクロフォン信号ＤＭ１０−１、ＤＭ１０−２のうちの対応する１つを処理して感知オーディオ信号Ｓ１０の対応するチャネルＳ１０−１、Ｓ１０−２を生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技法（たとえば、最小２乗平均技法および／または適応相関技法）に従って、シングルチャネルエコーキャンセラの様々なインスタンスをそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第１２／１９７，９２４号の段落［００１３９］−［００１４１］（「An apparatus」で開始し「B500」で終了する）で論じられており、それらの段落は、装置の他の要素の設計、実装、および／または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。

図１５Ｂに、等化されたオーディオ信号Ｓ５０をフィルタ処理するように構成されたフィルタＣＥ１０と、そのフィルタ処理された信号を処理中のマイクロフォン信号と組み合わせるように構成された加算器ＣＥ２０とを含む、エコーキャンセラＥＣ２０ａの実装形態ＥＣ２２ａのブロック図を示す。フィルタＣＥ１０のフィルタ係数値は固定とすることができる。代替的に、フィルタＣＥ１０のフィルタ係数値のうちの少なくとも１つ（および場合によってはすべて）は、装置Ａ１１０の演算中に適応させることができる。以下でより詳細に説明するように、通信デバイスの参照インスタンスがオーディオ信号を再生するときにその参照インスタンスによって記録されるマルチチャネル信号のセットを使用して、フィルタＣＥ１０の参照インスタンスをトレーニングすることが望ましい。

エコーキャンセラＥＣ２０ｂは、マイクロフォン信号ＤＭ１０−２を処理して感知オーディオチャネルＳ４０−２を生成するように構成された、エコーキャンセラＥＣ２２ａの別のインスタンスとして実装できる。代替的に、エコーキャンセラＥＣ２０ａおよびＥＣ２０ｂは、異なる時間にそれぞれのマイクロフォン信号の各々を処理するように構成された、シングルチャネルエコーキャンセラの同じインスタンス（たとえば、エコーキャンセラＥＣ２２ａ）として実装できる。

装置Ａ１００の実装形態をトランシーバ（たとえば、セルラー電話またはワイヤレスヘッドセット）内に含めることができる。図１６Ａに、装置Ａ１１０のインスタンスを含むそのような通信デバイスＤ１００のブロック図を示す。デバイスＤ１００は、装置Ａ１１０に結合された受信機Ｒ１０を含み、受信機Ｒ１０は、高周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号をオーディオ入力信号Ｓ１００として復号し再生するように構成され、オーディオ入力信号Ｓ１００は、この例では再生オーディオ信号Ｓ４０として装置Ａ１１０によって受信される。デバイスＤ１００は、装置Ａ１１０に結合された送信機Ｘ１０をも含み、送信機Ｘ１０は、音源信号Ｓ２０を符号化し、符号化オーディオ信号を記述するＲＦ通信信号を送信するように構成される。デバイスＤ１１０はオーディオ出力段Ｏ１０をも含み、出力段Ｏ１０は、等化されたオーディオ信号Ｓ５０を処理し（たとえば、等化されたオーディオ信号Ｓ５０をアナログ信号に変換し）、その処理されたオーディオ信号をラウドスピーカーＳＰ１０に出力するように構成される。この例では、オーディオ出力段Ｏ１０は、ボリューム制御信号ＶＳ１０のレベルに従って、処理されたオーディオ信号のボリュームを制御するように構成され、そのレベルはユーザ制御の下で変動することがある。

装置Ａ１１０の実装形態は、通信デバイスの他の要素（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分）が感知オーディオ信号Ｓ１０に対してさらなるオーディオ処理演算を実行するように構成されるように、通信デバイス内に常駐することが望ましい。装置Ａ１１０の実装形態中に含まれるエコーキャンセラ（たとえば、エコーキャンセラＥＣ１０）を設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ（たとえば、ＭＳＭチップまたはチップセットのエコー消去モジュール）との間の起こりうる相乗効果を考慮に入れることが望ましい。

図１６Ｂに、通信デバイスＤ１００の実装形態Ｄ２００のブロック図を示す。デバイスＤ２００は、受信機Ｒ１０および送信機Ｘ１０の要素を含むチップまたはチップセットＣＳ１０（たとえば、ＭＳＭチップセット）を含み、１つまたは複数のプロセッサを含むことができる。デバイスＤ２００は、アンテナＣ３０を介してＲＦ通信信号を受信および送信するように構成される。デバイスＤ２００はまた、アンテナＣ３０への経路中にダイプレクサと１つまたは複数のパワー増幅器とを含むことができる。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、デバイスＤ２００はまた、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）ロケーションサービスおよび／またはワイヤレス（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標））ヘッドセットなどの外部デバイスとの短距離通信をサポートする１つまたは複数のアンテナＣ４０を含む。別の例では、そのような通信デバイスは、それ自体でＢｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、およびアンテナＣ３０がない。

等化器ＥＱ１０は、時間領域バッファから雑音基準Ｓ３０を受信するように構成できる。代替または追加として、等化器ＥＱ１０は、時間領域バッファから再生オーディオ信号Ｓ４０を受信するように構成できる。一例では、各時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。

図１７に、第１のサブバンド信号発生器ＳＧ１００ａと第２のサブバンド信号発生器ＳＧ１００ｂとを含む、等化器ＥＱ１０の実装形態ＥＱ２０のブロック図を示す。第１のサブバンド信号発生器ＳＧ１００ａは、再生オーディオ信号Ｓ４０からの情報に基づいて第１のサブバンド信号のセットを生成するように構成され、第２のサブバンド信号発生器ＳＧ１００ｂは、雑音基準Ｓ３０からの情報に基づいて第２のサブバンド信号のセットを生成するように構成される。等化器ＥＱ２０はまた、第１のサブバンドパワー推定値計算器ＥＣ１００ａと第２のサブバンドパワー推定値計算器ＥＣ１００ａとを含む。第１のサブバンドパワー推定値計算器ＥＣ１００ａは、各々が第１のサブバンド信号のうちの対応する１つからの情報に基づく第１のサブバンドパワー推定値のセットを生成するように構成され、第２のサブバンドパワー推定値計算器ＥＣ１００ｂは、各々が第２のサブバンド信号のうちの対応する１つからの情報に基づく第２のサブバンドパワー推定値のセットを生成するように構成される。等化器ＥＱ２０はまた、対応する第１のサブバンドパワー推定値と対応する第２のサブバンドパワー推定値との間の関係に基づいて、サブバンドの各々について利得係数を計算するように構成されたサブバンド利得係数計算器ＧＣ１００と、等化されたオーディオ信号Ｓ５０を生成するためにサブバンド利得係数に従って再生オーディオ信号Ｓ４０をフィルタ処理するように構成されたサブバンドフィルタアレイＦＡ１００とを含む。

等化器ＥＱ２０（および、本明細書で開示する等化器ＥＱ１０またはＥＱ２０の他の実装形態のいずれか）を適用する際に、（たとえば、オーディオプリプロセッサＡＰ２０およびエコーキャンセラＥＣ１０に関して上述したように）エコー消去演算を受けたマイクロフォン信号から雑音基準Ｓ３０を得ることが望ましいことを、明確に繰り返し述べておく。雑音基準Ｓ３０（または以下で開示する等化器ＥＱ１０のさらなる実装形態によって使用される他の雑音基準のいずれか）に音響エコーが残っている場合、等化されたオーディオ信号Ｓ５０が遠端ラウドスピーカーをより大きく駆動すればするほど、等化器ＥＱ１０はサブバンド利得係数を増加させる傾向が大きくなるように、等化されたオーディオ信号Ｓ５０とサブバンド利得係数計算経路との間に正のフィードバックループを生成することができる。

第１のサブバンド信号発生器ＳＧ１００ａと第２のサブバンド信号発生器ＳＧ１００ｂのいずれかまたは両方は、図１８Ａに示すようにサブバンド信号発生器ＳＧ２００のインスタンスとして実装できる。サブバンド信号発生器ＳＧ２００は、オーディオ信号Ａ（すなわち、適宜に再生オーディオ信号Ｓ４０または雑音基準Ｓ３０）からの情報に基づいてｑ個のサブバンド信号Ｓ（ｉ）のセットを生成するように構成され、１≦ｉ≦ｑであり、ｑはサブバンドの所望の数である。サブバンド信号発生器ＳＧ２００は、変換信号Ｔを生成するために時間領域オーディオ信号Ａに対して変換演算を実行するように構成された変換モジュールＳＧ１０を含む。変換モジュールＳＧ１０は、周波数領域変換信号を生成するために（たとえば、高速フーリエ変換またはＦＦＴによって）オーディオ信号Ａに対して周波数領域変換演算を実行するように構成できる。変換モジュールＳＧ１０の他の実装形態は、ウェーブレット変換演算または離散コサイン変換（ＤＣＴ）演算など、オーディオ信号Ａに対して異なる変換演算を実行するように構成できる。変換演算は、所望の均一分解能（たとえば、３２、６４、１２８、２５６、または５１２ポイントのＦＦＴ演算）に従って実行できる。

サブバンド信号発生器ＳＧ２００はまた、所望のサブバンド分割方式に従って、変換信号Ｔをビンのセットに分割することによって、サブバンド信号Ｓ（ｉ）のセットをｑ個のビンのセットとして生成するように構成されたビニングモジュールＳＧ２０を含む。ビニングモジュールＳＧ２０は、均一サブバンド分割方式を適用するように構成できる。均一サブバンド分割方式では、各ビンは（たとえば、約１０パーセント内の）実質的に同じ幅を有する。代替的に、聴覚心理研究が、人間の聴覚は周波数領域において不均一分解能に基づいて働くことを示しているように、ビニングモジュールＳＧ２０が不均一サブバンド分割方式を適用することが望ましい。不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。図１９のドットの行は、周波数２０、３００、６３０、１０８０、１７２０、２７００、４４００、および７７００Ｈｚに対応する７つのバーク尺度サブバンドのセットのエッジを示す。サブバンドのそのような構成は、１６ｋＨｚのサンプリングレートを有する広帯域音声処理システムにおいて使用できる。そのような分割方式の他の例では、より低いサブバンドは、６サブバンド構成を得るために除外され、および／または高周波限界は７７００Ｈｚから８０００Ｈｚに増加される。ビニングモジュールＳＧ２０は、ビンの１つまたは複数（場合によってはすべて）が少なくとも１つの隣接ビンに重複するようにも実装できるが、一般に、変換信号Ｔを重複しないビンのセットに分割するように実装される。

代替または追加として、第１のサブバンド信号発生器ＳＧ１００ａと第２のサブバンド信号発生器ＳＧ１００ｂのいずれかまたは両方は、図１８Ｂに示すようにサブバンド信号発生器ＳＧ３００のインスタンスとして実装できる。サブバンド信号発生器ＳＧ３００は、オーディオ信号Ａ（すなわち、適宜に再生オーディオ信号Ｓ４０または雑音基準Ｓ３０）からの情報に基づいてｑ個のサブバンド信号Ｓ（ｉ）のセットを生成するように構成され、１≦ｉ≦ｑであり、ｑはサブバンドの所望の数である。この場合、サブバンド信号発生器ＳＧ３００は、オーディオ信号Ａの対応するサブバンドの利得を、オーディオ信号Ａの他のサブバンドに対して変化させる（すなわち、通過帯域をブースティングすること、および／または停止帯域を減衰させる）ことによって、サブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々を生成するように構成されたサブバンドフィルタアレイＳＧ３０を含む。

サブバンドフィルタアレイＳＧ３０は、様々なサブバンド信号を並列に生成するように構成された２つ以上の成分フィルタを含むように実装できる。図２０に、オーディオ信号Ａのサブバンド分解を実行するように並列に構成されたｑ個のバンドパスフィルタＦ１０−１〜Ｆ１０−ｑのアレイを含む、サブバンドフィルタアレイＳＧ３０のそのような実装形態ＳＧ３２のブロック図を示す。フィルタＦ１０−１〜Ｆ１０−ｑの各々は、オーディオ信号Ａをフィルタ処理して、ｑ個のサブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの対応する１つを生成するように構成される。

フィルタＦ１０−１〜Ｆ１０−ｑの各々を、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）を有するように実装することができる。たとえば、フィルタＦ１０−１〜Ｆ１０−ｑの１つまたは複数（場合によってはすべて）の各々は２次ＩＩＲセクションまたは「バイカッド」として実装できる。バイカッドの伝達関数を次のように表すことができる。

特に等化器ＥＱ１０の浮動小数点実装形態の場合、転置直接形ＩＩを使用して各バイカッドを実装することが望ましい。図２１Ａに、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つの一般的ＩＩＲフィルタ実装形態の転置直接形ＩＩを示し、図２１Ｂに、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つのＦ１０−ｉのバイカッド実装形態の転置直接形ＩＩ構造を示す。図２２に、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す。

フィルタＦ１０−１〜Ｆ１０−ｑは、（たとえば、フィルタ通過帯域が等しい幅を有するように）均一サブバンド分解を実行するのではなく、（たとえば、フィルタ通過帯域の２つ以上が様々な幅を有するように）オーディオ信号Ａの不均一サブバンド分解を実行することが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。１つのそのような分割方式は、周波数２０、３００、６３０、１０８０、１７２０、２７００、４４００、および７７００Ｈｚに対応し、その幅が周波数とともに増加する７つのバーク尺度サブバンドのセットのエッジを示す、図１９のドットによって示される。サブバンドのそのような構成は、広帯域音声処理システム（たとえば、１６ｋＨｚのサンプリングレートを有するデバイス）において使用できる。そのような分割方式の他の例では、最も低いサブバンドは６サブバンド方式を得るために省略され、および／または最も高いサブバンドの上限は７７００Ｈｚから８０００Ｈｚに増加される。

狭帯域音声処理システム（たとえば、８ｋＨｚのサンプリングレートを有するデバイス）では、より少数のサブバンドの構成を使用することが望ましい。そのようなサブバンド分割方式の一例は、４帯域擬似バーク方式３００〜５１０Ｈｚ、５１０〜９２０Ｈｚ、９２０〜１４８０Ｈｚ、および１４８０〜４０００Ｈｚである。（たとえば、本例のように）広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および／またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。

フィルタＦ１０−１〜Ｆ１０−ｑの各々は、対応するサブバンドにわたる利得ブースト（すなわち、信号絶対値の増加）および／または他のサブバンドにわたる減衰（すなわち、信号絶対値の減少）を与えるように構成される。フィルタの各々は、そのそれぞれの通過帯域をほぼ同じ量（たとえば、３ｄＢ、または６ｄＢ）だけブースティングするように構成できる。代替的に、フィルタの各々は、そのそれぞれの停止帯域をほぼ同じ量（たとえば、３ｄＢ、または６ｄＢ）だけ減衰させるように構成できる。図２３に、ｑが７に等しいフィルタＦ１０−１〜Ｆ１０−ｑのセットを実装するために使用できる一連の７つのバイカッドの絶対値および位相応答を示す。この例では、各フィルタは、そのそれぞれのサブバンドをほぼ同じ量だけブースティングするように構成される。代替的に、別のフィルタよりも大きいブースト（または減衰）を与えるように、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つまたは複数を構成することが望ましい。たとえば、そのそれぞれのサブバンドに同じ利得ブースト（または他のサブバンドに減衰）を与えるように、第１のサブバンド信号発生器ＳＧ１００ａおよび第２のサブバンド信号発生器ＳＧ１００ｂの中の一方におけるサブバンドフィルタアレイＳＧ３０のフィルタＦ１０−１〜Ｆ１０−ｑの各々を構成し、たとえば、所望の聴覚心理重み付け関数に従って互いに異なる利得ブースト（または減衰）を与えるように、第１のサブバンド信号発生器ＳＧ１００ａおよび第２のサブバンド信号発生器ＳＧ１００ｂの中の他方におけるサブバンドフィルタアレイＳＧ３０のフィルタＦ１０−１〜Ｆ１０−ｑの少なくともいくつかを構成することが望ましい。

図２０は、フィルタＦ１０−１〜Ｆ１０−ｑがサブバンド信号Ｓ（１）〜Ｓ（ｑ）を並列に生成する構成を示す。当業者は、これらのフィルタのうちの１つまたは複数の各々が、サブバンド信号の２つ以上を直列に生成するようにも実装できることを理解されよう。たとえば、サブバンドフィルタアレイＳＧ３０は、ある時間において、サブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの１つを生成するためにオーディオ信号Ａをフィルタ処理するためのフィルタ係数値の第１のセットとともに構成され、後続の時間において、サブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの異なる１つを生成するためにオーディオ信号Ａをフィルタ処理するためのフィルタ係数値の第２のセットとともに構成されるフィルタ構造（たとえば、バイカッド）を含むように実装できる。そのような場合、サブバンドフィルタアレイＳＧ３０は、ｑ個よりも少ないバンドパスフィルタを使用して実装できる。たとえば、フィルタ係数値のｑ個のセットの各々に従ってｑ個のサブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々を生成する方法で、直列に再構成された単一のフィルタ構造とともにサブバンドフィルタアレイＳＧ３０を実装することが可能である。

第１のサブバンドパワー推定値計算器ＥＣ１００ａおよび第２のサブバンドパワー推定値計算器ＥＣ１００ｂの各々は、図１８Ｃに示すようにサブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして実装できる。サブバンドパワー推定値計算器ＥＣ１１０は、サブバンド信号Ｓ（ｉ）のセットを受信し、１≦ｉ≦ｑであるｑ個のサブバンドパワー推定値Ｅ（ｉ）の対応するセットを生成するように構成された加算器ＥＣ１０を含む。加算器ＥＣ１０は、一般に、オーディオ信号Ａの連続するサンプル（「フレーム」とも呼ばれる）の各ブロックのｑ個のサブバンドパワー推定値のセットを計算するように構成される。典型的なフレーム長は、約５または１０ミリ秒から約４０または５０ミリ秒にわたり、フレームは重複していても重複していなくてもよい。１つの演算によって処理されるフレームは、異なる演算によって処理されるより大きいフレームのセグメント（すなわち、「サブフレーム」）とすることもできる。１つの特定の例では、オーディオ信号Ａは、１０ミリ秒の重複しないフレームのシーケンスに分割され、加算器ＥＣ１０は、オーディオ信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成される。

一例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

上式で、Ｅ（ｉ，ｋ）は、サブバンドｉおよびフレームｋのサブバンドパワー推定値を示し、Ｓ（ｉ，ｊ）は、ｉ番目のサブバンド信号のｊ番目のサンプルを示す。

別の例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

オーディオ信号Ａの対応する和によって各サブバンド和を正規化するように加算器ＥＣ１０を実装することが望ましい。１つのそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、オーディオ信号Ａの値の平方和で除算された、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

上式で、Ａ（ｊ）は、オーディオ信号Ａのｊ番目のサンプルを示す。別のそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値の各々を、オーディオ信号Ａの値の絶対値の和で除算された、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

代替的に、サブバンド信号Ｓ（ｉ）のセットがビニングモジュールＳＧ２０の実装形態によって生成される場合、加算器ＥＣ１０が、サブバンド信号Ｓ（ｉ）のうちの対応する１つにおけるサンプルの総数によって各サブバンド和を正規化することが望ましい。（たとえば、上記の式（４ａ）および（４ｂ）のように）各サブバンド和を正規化するために除算演算が使用される場合、０によって除算する可能性を回避するために、小さい正値ρを分母に追加することが望ましい。値ρはすべてのサブバンドに対して同じとすることができ、または（たとえば、チューニングおよび／または重み付けのために）サブバンドの２つ以上（場合によってはすべて）の各々のために異なる値のρを使用することができる。ρの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。

代替的に、オーディオ信号Ａの対応する和を減算することによって各サブバンド和を正規化するように加算器ＥＣ１０を実装することが望ましい。１つのそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和とオーディオ信号Ａの値の平方和との差として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

別のそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和とオーディオ信号Ａの値の絶対値の和との差として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

たとえば、等化器ＥＱ２０の実装形態が、サブバンドフィルタアレイＳＧ３０のブースティング実装形態と、式（５ｂ）に従ってｑ個のサブバンドパワー推定値のセットを計算するように構成された加算器ＥＣ１０の実装形態とを含むことが望ましい。

第１のサブバンドパワー推定値計算器ＥＣ１００ａと第２のサブバンドパワー推定値計算器ＥＣ１００ｂのいずれかまたは両方は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、第１のサブバンドパワー推定値計算器ＥＣ１００ａと第２のサブバンドパワー推定値計算器ＥＣ１００ｂのいずれかまたは両方は、図１８Ｄに示すようにサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。サブバンドパワー推定値計算器ＥＣ１２０は、サブバンドパワー推定値Ｅ（ｉ）を生成するために、経時的に加算器ＥＣ１０によって計算される和を平滑化するように構成された平滑器ＥＣ２０を含む。平滑器ＥＣ２０は、サブバンドパワー推定値Ｅ（ｉ）を和の移動平均として計算するように構成できる。平滑器ＥＣ２０のそのような実装形態は、１≦ｉ≦ｑの場合、次式のうちの１つなどの線形平滑化式に従ってオーディオ信号Ａの各フレームのｑ個のサブバンドパワー推定値Ｅ（ｉ）のセットを計算するように構成できる。

上式で、平滑化係数αは、０（平滑化なし）と０．９（最大平滑化）との間の値（たとえば、０．３、０．５、または０．７）である。平滑器ＥＣ２０が、ｑ個のサブバンドのすべてに対して平滑化係数αの同じ値を使用することが望ましい。代替的に、平滑器ＥＣ２０が、ｑ個のサブバンドの２つ以上（場合によってはすべて）の各々に対して平滑化係数αの異なる値を使用することが望ましい。平滑化係数αの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。

サブバンドパワー推定値計算器ＥＣ１２０の１つの特定の例は、上記の式（３）に従ってｑ個のサブバンド和を計算し、上記の式（７）に従ってｑ個の対応するサブバンドパワー推定値を計算するように構成される。サブバンドパワー推定値計算器ＥＣ１２０の別の特定の例は、上記の式（５ｂ）に従ってｑ個のサブバンド和を計算し、上記の式（７）に従ってｑ個の対応するサブバンドパワー推定値を計算するように構成される。しかしながら、式（２）〜（５ｂ）のうちの１つと式（６）〜（８）のうちの１つとの１８の可能な組合せのすべては、本明細書によって個々に明確に開示されることに留意されたい。平滑器ＥＣ２０の代替実装形態は、加算器ＥＣ１０によって計算される和に対して非線形平滑化演算を実行するように構成できる。

サブバンド利得係数計算器ＧＣ１００は、対応する第１のサブバンドパワー推定値と対応する第２のサブバンドパワー推定値とに基づいて、１≦ｉ≦ｑであるｑ個のサブバンドの各々について利得係数Ｇ（ｉ）のセットのうちの対応する１つを計算するように構成される。図２４Ａに、各利得係数Ｇ（ｉ）を対応する信号と雑音サブバンドパワー推定値との比として計算するように構成されたサブバンド利得係数計算器ＧＣ１００の実装形態ＧＣ２００のブロック図を示す。サブバンド利得係数計算器ＧＣ２００は、次式などの式に従ってオーディオ信号の各フレームのｑ個のパワー比のセットの各々を計算するように構成できる比計算器ＧＣ１０を含む。

上式で、Ｅ_N（ｉ，ｋ）は、サブバンドｉおよびフレームｋの第２のサブバンドパワー推定値計算器ＥＣ１００ｂによって（すなわち、雑音基準Ｓ２０に基づいて）生成されるサブバンドパワー推定値を示し、Ｅ_A（ｉ，ｋ）は、サブバンドｉおよびフレームｋの第１のサブバンドパワー推定値計算器ＥＣ１００ａによって（すなわち、再生オーディオ信号Ｓ１０に基づいて）生成されるサブバンドパワー推定値を示す。

さらなる一例では、比計算器ＧＣ１０は、次式などの式に従ってオーディオ信号の各フレームのサブバンドパワー推定値のｑ個の比のセットのうちの少なくとも１つ（場合によってはすべて）を計算するように構成される。

上式で、εは、小さい正値（すなわち、Ｅ_A（ｉ，ｋ）の期待値よりも小さい値）を有するチューニングパラメータである。比計算器ＧＣ１０のそのような実装形態では、すべてのサブバンドにチューニングパラメータεの同じ値を使用することが望ましい。代替的に、比計算器ＧＣ１０のそのような実装形態では、サブバンドの２つ以上ごと（場合によってはすべて）にチューニングパラメータεの異なる値を使用することが望ましい。チューニングパラメータεの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。

サブバンド利得係数計算器ＧＣ１００はまた、ｑ個のパワー比のうちの１つまたは複数（場合によってはすべて）の各々に対して平滑化演算を実行するように構成できる。図２４Ｂに、比計算器ＧＣ１０によって生成されたｑ個のパワー比のうちの１つまたは複数（場合によってはすべて）の各々に対して時間平滑化演算を実行するように構成された平滑器ＧＣ２０を含むサブバンド利得係数計算器ＧＣ１００のそのような実装形態ＧＣ３００のブロック図を示す。１つのそのような例では、平滑器ＧＣ２０は、次式などの式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

上式で、βは平滑化係数である。

平滑器ＧＣ２０が、サブバンド利得係数の現在値と前の値との間の関係に応じて、平滑化係数βの２つ以上の値の中から１つを選択することが望ましい。たとえば、平滑器ＧＣ２０が、雑音の程度が増加しているとき、利得係数値がより急速に変化できるようにすることによって、および／または雑音の程度が減少しているとき、利得係数値の急速な変化を抑止することによって微分時間平滑化演算を実行することが望ましい。そのような構成は、大きい雑音が、雑音が終了した後でも所望の音響をマスキングし続ける聴覚心理継時マスキング効果に対処するのを助けることができる。したがって、利得係数の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、利得係数の現在値が前の値よりも小さい場合の平滑化係数βの値が大きいことが望ましい。１つのそのような例では、平滑器ＧＣ２０は、１≦ｉ≦ｑの場合、次式などの式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

上式で、β_attは平滑化係数βのアタック値を示し、β_decは平滑化係数βの減衰値を示し、β_att＜β_decである。平滑器ＥＣ２０の別の実装形態は、次式のうちの１つなど、線形平滑化式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

図２５Ａに、フレームｋにおけるサブバンドｉごとに実行することができる、上式（１０）および（１３）によるそのような平滑化の一例を記載する擬似コードリストを示す。このリストでは、サブバンド利得係数の現在値は、オーディオパワーに対する雑音パワーの比に初期化される。この比がサブバンド利得係数の前の値よりも小さい場合、サブバンド利得係数の現在値は、１未満の値を有するスケール係数ｂｅｔａ＿ｄｅｃによって前の値をスケールダウンすることによって計算される。他の場合は、サブバンド利得係数の現在値は、０（平滑化なし）と１（最大平滑化、更新なし）との間の値を有する平均化係数ｂｅｔａ＿ａｔｔを使用して、その比とサブバンド利得係数の前の値との平均として計算される。

平滑器ＧＣ２０のさらなる実装形態は、雑音の程度が低下しているとき、ｑ個の利得係数のうちの１つまたは複数（場合によってはすべて）に対して更新を遅延させるように構成できる。図２５Ｂに、そのような微分時間平滑化演算を実装するために使用できる図２５Ａの擬似コードリストの変形を示す。このリストは、値ｈａｎｇｏｖｅｒ＿ｍａｘ（ｉ）によって指定された間隔に従った比減衰プロファイル中に更新を遅延させるハングオーバ論理を含む。各サブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの同じ値を使用することも、異なるサブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの異なる値を使用することもできる。

上述のサブバンド利得係数計算器ＧＣ１００の実装形態は、サブバンド利得係数のうちの１つまたは複数（場合によってはすべて）に対して上限および／または下限を適用するようにさらに構成できる。図２６Ａおよび図２６Ｂに、サブバンド利得係数値の各々に対してそのような上限ＵＢおよび下限ＬＢを適用するために使用できる、それぞれ図２５Ａおよび図２５Ｂの擬似コードリストの変形を示す。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値を、たとえば、等化器ＥＱ１０のための所望のヘッドルームおよび／または等化されたオーディオ信号Ｓ５０の現在のボリューム（たとえば、ボリューム制御信号ＶＳ１０の現在値）に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、再生オーディオ信号Ｓ４０の現在レベルなど、再生オーディオ信号Ｓ４０からの情報に基づくことができる。

サブバンドの重複から生じることがある過大なブースティングを補償するように等化器ＥＱ１０を構成することが望ましい。たとえば、サブバンド利得係数計算器ＧＣ１００は、中間周波数サブバンド利得係数のうちの１つまたは複数の値を低減するように構成できる（たとえば、ｆｓが再生オーディオ信号Ｓ４０のサンプリング周波数を示す周波数ｆｓ／４を含むサブバンド）。サブバンド利得係数計算器ＧＣ１００のそのような実装形態は、サブバンド利得係数の現在値に、１未満の値を有するスケール係数を乗算することによって低減を実行するように構成できる。サブバンド利得係数計算器ＧＣ１００のそのような実装形態は、スケールダウンすべき各サブバンド利得係数に対して同じスケール係数を使用するか、または代替的に、（たとえば、対応するサブバンドと１つまたは複数の隣接するサブバンドとの重複の程度に基づいて）スケールダウンすべき各サブバンド利得係数に対して異なるスケール係数を使用するように構成できる。

追加または代替として、高周波サブバンドの１つまたは複数のブースティングの程度を増加させるように等化器ＥＱ１０を構成することが望ましい。たとえば、再生オーディオ信号Ｓ４０の１つまたは複数の高周波サブバンド（たとえば、最も高いサブバンド）の増幅が、中間周波数サブバンド（たとえば、ｆｓが再生オーディオ信号Ｓ４０のサンプリング周波数を示す周波数ｆｓ／４を含むサブバンド）の増幅よりも小さくならないようにサブバンド利得係数計算器ＧＣ１００を構成することが望ましい。１つのそのような例では、サブバンド利得係数計算器ＧＣ１００は、中間周波数サブバンドのサブバンド利得係数の現在値に、１よりも大きいスケール係数を乗算することによって高周波サブバンドのサブバンド利得係数の現在値を計算するように構成できる。別のそのような例では、サブバンド利得係数計算器ＧＣ１００は、（Ａ）上記で開示した技法のいずれかに従って、そのサブバンドのパワー比から計算される現在の利得係数値と、（Ｂ）中間周波数サブバンドのサブバンド利得係数の現在値に、１よりも大きいスケール係数を乗算することによって得られる値とのうちの最大値として高周波サブバンドのサブバンド利得係数の現在値を計算するように構成される。

サブバンドフィルタアレイＦＡ１００は、等化されたオーディオ信号Ｓ５０を生成するために、サブバンド利得係数の各々を再生オーディオ信号Ｓ４０の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイＦＡ１００は、サブバンド利得係数の各々を再生オーディオ信号Ｓ４０の対応するサブバンドに適用するように各々が構成されたバンドパスフィルタのアレイを含むように実装できる。そのようなアレイのフィルタは並列および／または直列に構成できる。図２７に、並列に構成されたｑ個のバンドパスフィルタＦ２０−１〜Ｆ２０−ｑのセットを含むサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１１０のブロック図を示す。この場合、フィルタＦ２０−１〜Ｆ２０−ｑの各々は、対応するバンドパス信号を生成するために利得係数に従って再生オーディオ信号Ｓ４０をフィルタ処理することによって、（たとえば、サブバンド利得係数計算器ＧＣ１００によって計算される）ｑ個のサブバンド利得係数Ｇ（１）〜Ｇ（ｑ）の対応する１つを再生オーディオ信号Ｓ４０の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイＦＡ１１０はまた、等化されたオーディオ信号Ｓ５０を生成するためにｑ個のバンドパス信号を混合するように構成されたコンバイナＭＸ１０を含む。図２８Ａに、直列に（すなわち、各フィルタＦ２０−ｋが、２≦ｋ≦ｑの場合、フィルタＦ２０−（ｋ−１）の出力をフィルタ処理するように構成されるようにカスケードで、）サブバンド利得係数に従って再生オーディオ信号Ｓ４０をフィルタ処理することによって、サブバンド利得係数Ｇ（１）〜Ｇ（ｑ）の各々を再生オーディオ信号Ｓ４０の対応するサブバンドに適用するようにバンドパスフィルタＦ２０−１〜Ｆ２０−ｑが構成された、サブバンドフィルタアレイＦＡ１００の別の実装形態ＦＡ１２０のブロック図を示す。

フィルタＦ２０−１〜Ｆ２０−ｑの各々を、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）を有するように実装することができる。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つまたは複数（場合によってはすべて）の各々をバイカッドとして実装することができる。たとえば、サブバンドフィルタアレイＦＡ１２０はバイカッドのカスケードとして実装できる。そのような実装形態は、バイカッドＩＩＲフィルタカスケード、２次ＩＩＲセクションまたはフィルタのカスケード、あるいはカスケードの一連のサブバンドＩＩＲバイカッドと呼ばれることもある。特に等化器ＥＱ１０の浮動小数点実装形態の場合、転置直接形ＩＩを使用して各バイカッドを実装することが望ましい。

フィルタＦ２０−１〜Ｆ２０−ｑの通過帯域が、（たとえば、フィルタ通過帯域が等しい幅を有するような）均一サブバンドのセットではなく（たとえば、フィルタ通過帯域の２つ以上が異なる幅を有するような）不均一サブバンドのセットへの再生オーディオ信号Ｓ４０の帯域幅の分割を表すことが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑは、図１９中にドットによって示されるようにバーク尺度分割方式に従って構成できる。サブバンドのそのような構成は、広帯域音声処理システム（たとえば、１６ｋＨｚのサンプリングレートを有するデバイス）において使用できる。そのような分割方式の他の例では、最も低いサブバンドは６サブバンド方式を得るために省略され、および／または最も高いサブバンドの上限は７７００Ｈｚから８０００Ｈｚに増加される。

狭帯域音声処理システム（たとえば、８ｋＨｚのサンプリングレートを有するデバイス）では、６または７つよりも少ないサブバンドを有する分割方式に従ってフィルタＦ２０−１〜Ｆ２０−ｑの通過帯域を設計することが望ましい。そのようなサブバンド分割方式の一例は、４帯域擬似バーク方式３００〜５１０Ｈｚ、５１０〜９２０Ｈｚ、９２０〜１４８０Ｈｚ、および１４８０〜４０００Ｈｚである。（たとえば、本例のように）広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および／またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。

サブバンド利得係数Ｇ（１）〜Ｇ（ｑ）の各々は、フィルタＦ２０−１〜Ｆ２０−ｑの対応する１つの１つまたは複数のフィルタ係数値を更新するために使用できる。そのような場合、その周波数特性（たとえば、その通過帯域の中心周波数および幅）が固定され、その利得が変動するように、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つまたは複数（場合によってはすべて）の各々を構成することが望ましい。そのような技法は、ＦＩＲまたはＩＩＲフィルタが、共通係数（たとえば、サブバンド利得係数Ｇ（１）〜Ｇ（ｑ）の対応する１つの現在値）によってフィードフォワード係数（たとえば、上記のバイカッド式（１）中の係数ｂ₀、ｂ₁、およびｂ₂）の値をのみ変動させることによって実装できる。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つのＦ２０−ｉのバイカッド実装形態におけるフィードフォワード係数の各々の値を、サブバンド利得係数Ｇ（１）〜Ｇ（ｑ）のうちの対応する１つのＧ（ｉ）の現在値に従って変動させて、以下の伝達関数を得ることができる。

図２８Ｂに、対応するサブバンド利得係数Ｇ（ｉ）の現在値に従ってフィルタ利得を変動させるフィルタＦ２０−１〜Ｆ２０−ｑのうちの１つのＦ２０−ｉのバイカッド実装形態の別の例を示す。

サブバンドフィルタアレイＦＡ１００が、第１のサブバンド信号発生器ＳＧ１００ａのサブバンドフィルタアレイＳＧ３０の実装形態、および／または第２のサブバンド信号発生器ＳＧ１００ｂのサブバンドフィルタアレイＳＧ３０の実装形態と同じサブバンド分割方式を適用することが望ましい。たとえば、サブバンドフィルタアレイＦＡ１００が、１つまたは複数のそのようなフィルタの設計と同じ設計を有するフィルタのセット（たとえば、バイカッドのセット）を使用し、１つまたは複数のサブバンドフィルタアレイの利得係数に固定値が使用されることが望ましい。サブバンドフィルタアレイＦＡ１００を、１つまたは複数のそのようなサブバンドフィルタアレイと同じ成分フィルタを使用して（たとえば、アレイＦＡ１２０のカスケードの場合のように、異なる時間に、異なる利得係数値を用いて、場合によっては別様に構成された成分フィルタを用いて）実装することさえできる。

ブースティングなしに再生オーディオ信号Ｓ４０の１つまたは複数のサブバンドをパスするように等化器ＥＱ１０を構成することが望ましい。たとえば、低周波サブバンドのブースティングは、他のサブバンドのマフリングをもたらし、等化器ＥＱ１０がブースティングなしに再生オーディオ信号Ｓ４０の１つまたは複数の低周波サブバンド（たとえば、３００Ｈｚ未満の周波数を含むサブバンド）をパスすることが望ましい。

安定性および／または量子化雑音考慮事項に従ってサブバンドフィルタアレイＦＡ１００を設計することが望ましい。上記のように、たとえば、サブバンドフィルタアレイＦＡ１２０は２次セクションのカスケードとして実装できる。そのようなセクションを実装する転置直接形ＩＩバイカッド構造の使用は、丸め雑音を最小限に抑えること、および／またはセクション内でロバストな係数／周波数感度を得ることに役立つ。等化器ＥＱ１０は、オーバーフロー状態を回避するのに役立つフィルタ入力および／または係数値のスケーリングを実行するように構成できる。等化器ＥＱ１０は、フィルタ入力と出力との間の差異が大きい場合、サブバンドフィルタアレイＦＡ１００の１つまたは複数のＩＩＲフィルタの履歴をリセットするサニティチェック演算を実行するように構成できる。数値実験およびオンラインテストは、等化器ＥＱ１０が量子化雑音補償のためのモジュールなしに実装できるという結論をもたらしたが、１つまたは複数のそのようなモジュール（たとえば、サブバンドフィルタアレイＦＡ１００の１つまたは複数のフィルタの各々の出力に対してディザリング演算を実行するように構成されたモジュール）も含めることができる。

再生オーディオ信号Ｓ４０が非アクティブである間隔中に、等化器ＥＱ１０をバイパスするか、または他の場合は再生オーディオ信号Ｓ４０の等化を中断または抑止するように装置Ａ１００を構成することが望ましい。装置Ａ１００のそのような実装形態は、再生オーディオ信号Ｓ４０のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および／または残差（たとえば、線形予測符号化残差）の自己相関、ゼロ交差レート、および／または第１の反射係数など、１つまたは複数の係数に基づいて、アクティブ（たとえば、音声）または非アクティブ（たとえば、雑音）として分類するように構成されたボイスアクティビティ検出器（ＶＡＤ）を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。

図２９に、そのようなＶＡＤＶ１０を含む装置Ａ１００の実装形態Ａ１２０のブロック図を示す。ボイスアクティビティ検出器Ｖ１０は、その状態が音声アクティビティが再生オーディオ信号Ｓ４０上で検出されたかどうかについて示す更新制御信号Ｓ７０を生成するように構成される。装置Ａ１２０はまた、更新制御信号Ｓ７０の状態に従って制御される等化器ＥＱ１０（たとえば、等化器ＥＱ２０）の実装形態ＥＱ３０を含む。たとえば、等化器ＥＱ３０は、音声が検出されない再生オーディオ信号Ｓ４０の間隔（たとえば、フレーム）中にサブバンド利得係数値の更新が抑止されるように構成できる。等化器ＥＱ３０のそのような実装形態は、ＶＡＤＶ１０が再生オーディオ信号Ｓ４０の現在のフレームは非アクティブであることを示すとき、サブバンド利得係数の更新を中断する（たとえば、サブバンド利得係数の値を下限値に設定するか、またはサブバンド利得係数の値が下限値に減衰することを可能にする）ように構成されたサブバンド利得係数計算器ＧＣ１００の実装形態を含むことができる。

ボイスアクティビティ検出器Ｖ１０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、ゼロ交差レート、音声および／または残差の自己相関、ならびに第１の反射係数など、１つまたは複数の係数に基づいて再生オーディオ信号Ｓ４０のフレームをアクティブまたは非アクティブとして分類する（たとえば、更新制御信号Ｓ７０の２値状態を制御する）ように構成できる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのような係数の値または大きさ、あるいはそのような係数の変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するように、ＶＡＤＶ１０を実装することが望ましい。ＶＡＤＶ１０が実行することができるボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０のセクション４．７（ｐｐ．４−４９〜４−５７）、２００７年１月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているように、再生オーディオ信号Ｓ４０のハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。ボイスアクティビティ検出器Ｖ１０は、一般に、更新制御信号Ｓ７０を２進値ボイス検出指示信号として生成するように構成されるが、連続および／または多値信号を生成する構成も可能である。

図３０Ａおよび図３０Ｂに、再生オーディオ信号Ｓ４０の現在のフレームがアクティブであるとき、可変ＶＡＤの状態（たとえば、更新制御信号Ｓ７０）が１であり、他の場合は０である、それぞれ図２６Ａおよび図２６Ｂの擬似コードリストの変形を示す。サブバンド利得係数計算器ＧＣ１００の対応する実装形態によって実行できるこれらの例では、サブバンドｉおよびフレームｋのサブバンド利得係数の現在値は最新の値に初期化される。図３１Ａおよび図３１Ｂに、ボイスアクティビティが検出されないとき（すなわち、非アクティブフレームの場合）、サブバンド利得係数の値が下限値に減衰することを可能にする、それぞれ図２６Ａおよび図２６Ｂの擬似コードリストの他の変形を示す。

再生オーディオ信号Ｓ４０のレベルを制御するように装置Ａ１００を構成することが望ましい。たとえば、等化器ＥＱ１０によるサブバンドブースティングに適応するために十分なヘッドルームを与えるように再生オーディオ信号Ｓ４０のレベルを制御するように装置Ａ１００を構成することが望ましい。追加または代替として、再生オーディオ信号Ｓ４０に関する情報（たとえば、再生オーディオ信号Ｓ４０の現在レベル）に基づいて、サブバンド利得係数計算器ＧＣ１００に関して上記で開示したように、上限ＵＢおよび下限ＬＢのいずれかまたは両方の値を判断するように装置Ａ１００を構成することが望ましい。

図３２に、等化器ＥＱ１０が自動利得制御（ＡＧＣ）モジュールＧ１０を介して再生オーディオ信号Ｓ４０を受信するように構成された、装置Ａ１００の実装形態Ａ１３０のブロック図を示す。再生オーディオ信号Ｓ４０を得るために、知られているまたは開発されるＡＧＣ技法に従って、オーディオ入力信号Ｓ１００のダイナミックレンジを限定された振幅帯域に圧縮するように、自動利得制御モジュールＧ１０を構成することができる。自動利得制御モジュールＧ１０は、たとえば、低いパワーを有する入力信号のセグメント（たとえば、フレーム）をブースティングし、高いパワーを有する入力信号中のエネルギーを減少させることによって、そのようなダイナミック圧縮を実行するように構成できる。装置Ａ１３０は、復号段からオーディオ入力信号Ｓ１００を受信するように構成できる。たとえば、上述の通信デバイスＤ１００は、装置Ａ１３０の実装形態でもある（すなわち、ＡＧＣモジュールＧ１０を含む）装置Ａ１１０の実装形態を含むように構築できる。

自動利得制御モジュールＧ１０は、ヘッドルーム定義および／またはマスターボリューム設定を与えるように構成できる。たとえば、ＡＧＣモジュールＧ１０は、上記で開示した上限ＵＢおよび／または下限ＬＢの値を等化器ＥＱ１０に供給するように構成できる。圧縮しきい値および／またはボリューム設定など、ＡＧＣモジュールＧ１０の動作パラメータは、等化器ＥＱ１０の有効ヘッドルームを制限することができる。感知オーディオ信号Ｓ１０上に雑音がない場合、装置Ａ１００の正味効果は利得増幅がほぼない（たとえば、再生オーディオ信号Ｓ４０と等化されたオーディオ信号Ｓ５０との間のレベルの差がおよそプラスマイナス５、１０または２０パーセント未満である）ように装置Ａ１００をチューニングする（たとえば、存在する場合、等化器ＥＱ１０および／またはＡＧＣモジュールＧ１０をチューニングする）ことが望ましい。

時間領域ダイナミック圧縮は、たとえば、経時的信号の変化の知覚力を増加させることによって、信号了解度を増加させることができる。そのような信号変化の１つの特定の例は、信号の了解度に著しく寄与し得る、明確に定義された経時的ホルマント軌道の存在に関係する。ホルマント軌道の開始点および終了点は、子音、特に閉鎖子音（たとえば、［ｋ］、［ｔ］、［ｐ］など）によって一般にマーキングされる。これらのマーキング子音は、母音成分および音声の他の有声部分に比較して一般に低いエネルギーを有する。マーキング子音のエネルギーをブースティングすることにより、リスナーがよりはっきりと音声オンセットおよびオフセットをたどることを可能にすることによって、了解度を増加させることができる。了解度のそのような増加は、（たとえば、等化器ＥＱ１０に関して本明細書で説明する）周波数サブバンドパワー調節によって得られるものとは異なる。したがって、（たとえば、装置Ａ１３０の実装形態における）これらの２つの効果の間の相乗効果を利用することにより、全体的な音声了解度をかなり増加させることができる。

等化されたオーディオ信号Ｓ５０のレベルをさらに制御するように装置Ａ１００を構成することが望ましい。たとえば、装置Ａ１００は、（ＡＧＣモジュールＧ１０に加えて、またはその代替として）等化されたオーディオ信号Ｓ５０のレベルを制御するように構成されたＡＧＣモジュールを含むように構成できる。図３３に、等化器の音響出力レベルを制限するように構成されたピークリミッタＬ１０を含む等化器ＥＱ２０の実装形態ＥＱ４０のブロック図を示す。ピークリミッタＬ１０は可変利得オーディオレベル圧縮器として実装できる。たとえば、ピークリミッタＬ１０は、等化器ＥＱ４０が複合等化／圧縮効果を達成するように、高いピーク値をしきい値に圧縮するように構成できる。図３４に、等化器ＥＱ４０ならびにＡＧＣモジュールＧ１０を含む装置Ａ１００の実装形態Ａ１４０のブロック図を示す。

図３５Ａの擬似コードリストに、ピークリミッタＬ１０によって実行できるピーク制限演算の一例を記載する。入力信号ｓｉｇのサンプルｋごとに（たとえば、等化されたオーディオ信号Ｓ５０のサンプルｋごとに）、この演算は、サンプル振幅とソフトピーク制限ｐｅａｋ＿ｌｉｍとの間の差ｐｋｄｉｆｆを計算する。ｐｅａｋ＿ｌｉｍの値は、固定とするか、または経時的に適応させることができる。たとえば、ｐｅａｋ＿ｌｉｍの値は、上限ＵＢおよび／または下限ＬＢの値、再生オーディオ信号Ｓ４０の現在のレベルに関係する情報など、ＡＧＣモジュールＧ１０からの情報に基づくことができる。

ｐｋｄｉｆｆの値が少なくとも０である場合、サンプル振幅はピーク制限ｐｅａｋ＿ｌｉｍを超えない。この場合、差分利得値ｄｉｆｆｇａｉｎは１に設定される。他の場合は、サンプル振幅はピーク制限ｐｅａｋ＿ｌｉｍより大きく、ｄｉｆｆｇａｉｎは超過振幅に比例して１未満の値に設定される。

ピーク制限演算は利得値の平滑化をも含むことができる。そのような平滑化は、利得が経時的に増加しているかまたは減少しているかに従って異なることができる。図３５Ａに示すように、たとえば、ｄｉｆｆｇａｉｎの値がピーク利得パラメータｇ＿ｐｋの前の値を超える場合、ｇ＿ｐｋの値は、ｇ＿ｐｋの前の値、ｄｉｆｆｇａｉｎの現在値、およびアタック利得平滑化パラメータｇａｍｍａ＿ａｔｔを使用して更新される。他の場合は、ｇ＿ｐｋの値は、ｇ＿ｐｋの前の値、ｄｉｆｆｇａｉｎの現在値、および減衰利得平滑化パラメータｇａｍｍａ＿ｄｅｃを使用して更新される。値ｇａｍｍａ＿ａｔｔおよびｇａｍｍａ＿ｄｅｃは、約０（平滑化なし）から約０．９９９（最大平滑化）の範囲から選択される。次いで、入力信号ｓｉｇの対応するサンプルｋにｇ＿ｐｋの平滑化値を乗算して、ピーク制限されたサンプルを得る。

図３５Ｂに、異なる式を使用して、差分利得値ｄｉｆｆｇａｉｎを計算する図３５Ａの擬似コードリストの変形を示す。これらの例の代替として、ピークリミッタＬ１０は、ｐｋｄｉｆｆの値がより少ない頻度で更新される（たとえば、ｐｋｄｉｆｆの値がｐｅａｋ＿ｌｉｍと信号ｓｉｇのいくつかのサンプルの絶対値の平均との差として計算される）、図３５Ａまたは図３５Ｂに記載されているピーク制限演算のさらなる例を実行するように構成できる。

本明細書に示すように、装置Ａ１００の実装形態を含むように通信デバイスを構築することができる。そのようなデバイスの演算中のある時間には、装置Ａ１００は、雑音基準Ｓ３０以外の基準からの情報に従って再生オーディオ信号Ｓ４０を等化することが望ましい。たとえば、何らかの環境または配向では、ＳＳＰフィルタＳＳ１０の指向性処理演算が信頼できない結果を生成することがある。プッシュツートーク（ＰＴＴ）モードまたはスピーカーフォンモードなど、デバイスのいくつかの動作モードでは、感知オーディオチャネルの空間選択的処理が不要または望ましくないことがある。そのような場合、装置Ａ１００が空間選択的（または「マルチチャネル」）モードではなく非空間（または「シングルチャネル」）モードで動作することが望ましい。

装置Ａ１００の実装形態は、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成できる。装置Ａ１００のそのような実装形態は、感知オーディオ信号Ｓ１０、音源信号Ｓ２０、および雑音基準Ｓ３０のうちの少なくとも１つの品質に基づいてモード選択信号（たとえば、２値フラグ）を生成するように構成された分離評価器を含むことができる。モード選択信号の状態を判断するためにそのような分離評価器によって使用される基準は、以下のパラメータ、すなわち、音源信号Ｓ２０のエネルギーと雑音基準Ｓ３０のエネルギーとの間の差または比、雑音基準Ｓ２０のエネルギーと感知オーディオ信号Ｓ１０の１つまたは複数のチャネルのエネルギーとの間の差または比、音源信号Ｓ２０と雑音基準Ｓ３０との間の相関、音源信号Ｓ２０の１つまたは複数の統計メトリクス（たとえば、尖度、自己相関）によって示される音源信号Ｓ２０が音声を搬送している尤度のうちの１つまたは複数の現在値と、対応するしきい値との間の関係を含むことができる。そのような場合、信号のエネルギーの現在値は、信号の連続するサンプルのブロック（たとえば、現在のフレーム）の２乗サンプル値の合計として計算できる。

図３６に、音源信号Ｓ２０および雑音基準Ｓ３０からの情報に基づいて（たとえば、音源信号Ｓ２０のエネルギーと雑音基準Ｓ３０のエネルギーとの間の差または比に基づいて）、モード選択信号Ｓ８０を生成するように構成された分離評価器ＥＶ１０を含む装置Ａ１００のそのような実装形態Ａ２００のブロック図を示す。そのような分離評価器は、ＳＳＰフィルタＳＳ１０が所望の音響成分（たとえば、ユーザのボイス）を音源信号Ｓ２０に十分に分離したと判断したとき、マルチチャネルモードを示す第１の状態を有し、他の場合は、シングルチャネルモードを示す第２の状態を有するようにモード選択信号Ｓ８０を生成するように構成できる。１つのそのような例では、分離評価器ＥＶ１０は、音源信号Ｓ２０の現在のエネルギーと雑音基準Ｓ３０の現在のエネルギーとの間の差が対応するしきい値を超える（代替的に、それ以上である）と判断したとき十分な分離を示すように構成される。別のそのような例では、分離評価器ＥＶ１０は、音源信号Ｓ２０の現在のフレームと雑音基準Ｓ３０の現在のフレームとの間の相関が対応するしきい値よりも小さい（代替的に、それを超えない）と判断したとき十分な分離を示すように構成される。

装置Ａ２００はまた、等化器ＥＱ１０の実装形態ＥＱ１００を含む。等化器ＥＱ１００は、モード選択信号Ｓ８０が第１の状態を有するとき、（たとえば、上記で開示した等化器ＥＱ１０の実装形態のいずれかに従って）マルチチャネルモードで動作し、モード選択信号Ｓ８０が第２の状態を有するときシングルチャネルモードで動作するように構成される。シングルチャネルモードでは、等化器ＥＱ１００は、非分離感知オーディオ信号Ｓ９０からのサブバンドパワー推定値のセットに基づいて、サブバンド利得係数値Ｇ（１）〜Ｇ（ｑ）を計算するように構成される。等化器ＥＱ１００は、時間領域バッファから非分離感知オーディオ信号Ｓ９０を受信するように構成できる。１つのそのような例では、時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。

装置Ａ２００は、非分離感知オーディオ信号Ｓ９０が感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの１つであるように実装できる。図３７に、非分離感知オーディオ信号Ｓ９０が感知オーディオチャネルＳ１０−１である装置Ａ２００のそのような実装形態Ａ２１０のブロック図を示す。そのような場合、装置Ａ２００は、エコーキャンセラを介して、またはオーディオプリプロセッサＡＰ２０のインスタンスなど、マイクロフォン信号に対してエコー消去演算を実行するように構成された他のオーディオ前処理段を介して、感知オーディオチャネルＳ１０を受信することが望ましい。装置Ａ２００のより一般的な実装形態では、非分離感知オーディオ信号Ｓ９０は、上述のように、マイクロフォン信号ＳＭ１０−１およびＳＭ１０−２のいずれか、またはマイクロフォン信号ＤＭ１０−１およびＤＭ１０−２のいずれかなどの非分離マイクロフォン信号である。

装置Ａ２００は、非分離感知オーディオ信号Ｓ９０が通信デバイスの１次マイクロフォン（たとえば、最も直接的にユーザのボイスを通常受信するマイクロフォン）に対応する感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの特定の１つであるように実装できる。代替的に、装置Ａ２００は、非分離感知オーディオ信号Ｓ９０が通信デバイスの２次マイクロフォン（たとえば、間接的にのみユーザのボイスを通常受信するマイクロフォン）に対応する感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの特定の１つであるように実装できる。代替的に、装置Ａ２００は、感知オーディオチャネルＳ１０−１およびＳ１０−２を単一のチャネルにミックスダウンすることによって非分離感知オーディオ信号Ｓ９０を得るように実装できる。さらなる代替では、装置Ａ２００は、最も高い信号対雑音比、（たとえば、１つまたは複数の統計メトリックによって示される）音声最尤、通信デバイスの現在の動作構成、および／または所望の音源信号が生じたと判断される方向など、１つまたは複数の基準に従って、感知オーディオチャネルＳ１０−１およびＳ１０−２の中から非分離感知オーディオ信号Ｓ９０を選択するように実装できる。（装置Ａ２００のより一般的な実装形態では、この段落で説明する原理を使用して、上述のように、マイクロフォン信号ＳＭ１０−１およびＳＭ１０−２、またはマイクロフォン信号ＤＭ１０−１およびＤＭ１０−２など、２つ以上のマイクロフォン信号のセットから非分離感知オーディオ信号Ｓ９０を得ることができる。）上記で説明したように、（たとえば、オーディオプリプロセッサＡＰ２０およびエコーキャンセラＥＣ１０に関して上述したように）エコー消去演算を受けた１つまたは複数のマイクロフォン信号から非分離感知オーディオ信号Ｓ９０を得ることが望ましい。

等化器ＥＱ１００は、モード選択信号Ｓ８０の状態に従って、雑音基準Ｓ３０および非分離感知オーディオ信号Ｓ９０のうちの１つに基づいて第２のサブバンド信号のセットを発生するように構成できる。図３８に、モード選択信号Ｓ８０の現在の状態に従って雑音基準Ｓ３０および非分離感知オーディオ信号Ｓ９０のうちの１つを選択するように構成されたセレクタＳＬ１０（たとえば、デマルチプレクサ）を含む等化器ＥＱ１００（および等化器ＥＱ２０）のそのような実装形態ＥＱ１１０のブロック図を示す。

代替的に、等化器ＥＱ１００は、モード選択信号Ｓ８０の状態に従って、サブバンド信号の異なるセットのうちから選択して、第２のサブバンドパワー推定値のセットを発生するように構成できる。図３９に、第３のサブバンド信号発生器ＳＧ１００ｃとセレクタＳＬ２０とを含む、等化器ＥＱ１００（および等化器ＥＱ２０）のそのような実装形態ＥＱ１２０のブロック図を示す。サブバンド信号発生器ＳＧ２００のインスタンスとして、またはサブバンド信号発生器ＳＧ３００のインスタンスとして実装できる第３のサブバンド信号発生器ＳＧ１００ｃは、非分離感知オーディオ信号Ｓ９０に基づくサブバンド信号のセットを発生するように構成される。セレクタＳＬ２０（たとえば、デマルチプレクサ）は、モード選択信号Ｓ８０の現在の状態に従って、第２のサブバンド信号発生器ＳＧ１００ｂと第３のサブバンド信号発生器ＳＧ１００ｃとによって発生されたサブバンド信号のセットの中から１つを選択し、サブバンド信号の選択されたセットをサブバンド信号の第２のセットのセットとして第２のサブバンドパワー推定値計算器ＥＣ１００ｂに供給するように構成される。

さらなる代替では、等化器ＥＱ１００は、モード選択信号Ｓ８０の状態に従って、雑音サブバンドパワー推定値の異なるセットのうちから選択して、サブバンド利得係数のセットを発生するように構成される。図４０に、第３のサブバンド信号発生器ＳＧ１００ｃと第２のサブバンドパワー推定値計算器ＮＰ１００とを含む、等化器ＥＱ１００（および等化器ＥＱ２０）のそのような実装形態ＥＱ１３０のブロック図を示す。計算器ＮＰ１００は、第１の雑音サブバンドパワー推定値計算器ＮＣ１００ｂと、第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃと、セレクタＳＬ３０とを含む。第１の雑音サブバンドパワー推定値計算器ＮＣ１００ｂは、上述のように第２のサブバンド信号発生器ＳＧ１００ｂによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第１のセットを発生するように構成される。第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃは、上述のように第３のサブバンド信号発生器ＳＧ１００ｃによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第２のセットを発生するように構成される。たとえば、等化器ＥＱ１３０は、雑音基準の各々のサブバンドパワー推定値を並列に評価するように構成できる。セレクタＳＬ３０（たとえば、デマルチプレクサ）は、モード選択信号Ｓ８０の現在の状態に従って、第１の雑音サブバンドパワー推定値計算器ＮＣ１００ｂと第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃとによって発生される雑音サブバンドパワー推定値のセットのうちの１つを選択し、雑音サブバンドパワー推定値の選択されたセットをサブバンドパワー推定値の第２のセットとしてサブバンド利得係数計算器ＧＣ１００に供給するように構成される。

第１の雑音サブバンドパワー推定値計算器ＮＣ１００ｂは、サブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして、またはサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃも、サブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして、またはサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃはまた、非分離感知オーディオ信号Ｓ９０の現在のサブバンドパワー推定値の最小値を識別し、非分離感知オーディオ信号Ｓ９０の他の現在のサブバンドパワー推定値をこの最小値と交換するようにさらに構成できる。たとえば、第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃは、図４１Ａに示すように、サブバンド信号発生器ＥＣ２１０のインスタンスとして実装できる。サブバンド信号発生器ＥＣ２１０は、１≦ｉ≦ｑの場合、次式などの式に従って最小サブバンドパワー推定値を識別し適用するように構成されたミニマイザーＭＺ１０を含む、上述のサブバンド信号発生器ＥＣ１１０の実装形態である。

代替的に、第２の雑音サブバンドパワー推定値計算器ＮＣ１００ｃは、図４１Ｂに示すように、サブバンド信号発生器ＥＣ２２０のインスタンスとして実装できる。サブバンド信号発生器ＥＣ２２０は、ミニマイザーＭＺ１０のインスタンスを含む、上述のサブバンド信号発生器ＥＣ１２０の実装形態である。

マルチチャネルモードで動作するときは、非分離感知オーディオ信号Ｓ９０からのサブバンドパワー推定値、ならびに雑音基準Ｓ３０からのサブバンドパワー推定値に基づくサブバンド利得係数値を計算するように等化器ＥＱ１３０を構成することが望ましい。図４２に、等化器ＥＱ１３０のそのような実装形態ＥＱ１４０のブロック図を示す。等化器ＥＱ１４０は、マキシマイザーＭＡＸ１０を含む第２のサブバンドパワー推定値計算器ＮＰ１０の実装形態ＮＰ１１０を含む。マキシマイザーＭＡＸ１０は、１≦ｉ≦ｑの場合、次式などの式に従ってサブバンドパワー推定値のセットを計算するように構成される。

上式で、Ｅ_b（ｉ，ｋ）は、サブバンドｉおよびフレームｋについて第１の雑音サブバンドパワー推定値計算器ＥＣ１００ｂによって計算されるサブバンドパワー推定値を示し、Ｅ_c（ｉ，ｋ）は、サブバンドｉおよびフレームｋについて第２の雑音サブバンドパワー推定値計算器ＥＣ１００ｃによって計算されるサブバンドパワー推定値を示す。

装置Ａ１００の一実装形態は、シングルチャネルおよびマルチチャネル雑音基準からの雑音サブバンドパワー情報を組み合わせるモードで動作することが望ましい。マルチチャネル雑音基準は、非定常雑音に対する動的応答をサポートすることができるが、装置の得られる動作は、たとえば、ユーザの位置の変更に対して過度に反応しやすいものであることがある。シングルチャネル雑音基準は、より安定している応答を与えることができるが、非定常雑音を補償する能力を欠く。図４３Ａに、雑音基準Ｓ３０からの情報と非分離感知オーディオ信号Ｓ９０からの情報とに基づいて再生オーディオ信号Ｓ４０を等化するように構成された、等化器ＥＱ２０の実装形態ＥＱ５０のブロック図を示す。等化器ＥＱ５０は、上記で開示したように構成されたマキシマイザーＭＡＸ１０のインスタンスを含む、第２のサブバンドパワー推定値計算器ＮＰ１００の実装形態ＮＰ２００を含む。

計算器ＮＰ２００はまた、シングルチャネルおよびマルチチャネル雑音サブバンドパワー推定値の利得の独立操作を可能にするように実装できる。たとえば、スケーリングされたサブバンドパワー推定値がマキシマイザーＭＡＸ１０によって実行される最大化演算で使用されるように、第１のサブバンドパワー推定値計算器ＮＣ１００ｂまたは第２のサブバンドパワー推定値計算器ＮＣ１００ｃによって生成される雑音サブバンドパワー推定値のうちの１つまたは複数（場合によってはすべて）の各々をスケーリングするための利得係数（または利得係数セットのうちの対応する１つ）を適用するように、計算器ＮＰ２００を実装することが望ましい。

装置Ａ１００の実装形態を含むデバイスの演算中のある時間には、その装置は、雑音基準Ｓ３０以外の基準からの情報に従って再生オーディオ信号Ｓ４０を等化することが望ましい。たとえば、所望の音響成分（たとえば、ユーザのボイス）および（たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの）指向性雑音成分が同じ方向からマイクロフォンアレイに到着する状況の場合、指向性処理演算は、これらの成分の不十分な分離を行うことがある。たとえば、指向性処理演算は指向性雑音成分を音源信号に分離し、その結果、得られた雑音基準は、再生オーディオ信号の所望の等化をサポートするには不十分なことがある。

本明細書で開示する指向性処理演算と距離処理演算との両方の結果を適用するように、装置Ａ１００を実装することが望ましい。たとえば、そのような実装形態は、近距離の所望の音響成分（たとえば、ユーザのボイス）および（たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの）遠距離指向性雑音が同じ方向からマイクロフォンアレイに到着する場合、改善された等化パフォーマンスを提供することができる。

雑音基準Ｓ３０からの情報と音源信号Ｓ２０からの情報とに基づく雑音サブバンドパワー推定値に従って、再生オーディオ信号Ｓ４０の少なくとも１つのサブバンドを再生オーディオ信号Ｓ４０の別のサブバンドに対してブースティングするように、装置Ａ１００を実装することが望ましい。図４３Ｂに、音源信号Ｓ２０を第２の雑音基準として処理するように構成された、等化器ＥＱ２０のそのような実装形態ＥＱ２４０のブロック図を示す。等化器ＥＱ２４０は、本明細書で開示したように構成されたマキシマイザーＭＡＸ１０のインスタンスを含む、第２のサブバンドパワー推定値計算器ＮＰ１００の実装形態ＮＰ１２０を含む。この実装形態では、セレクタＳＬ３０は、本明細書で開示するＳＳＰフィルタＳＳ１０の実装形態によって生成される距離指示信号ＤＩ１０を受信するように構成される。セレクタＳＬ３０は、距離指示信号ＤＩ１０の現在の状態が遠距離信号を示す場合は、マキシマイザーＭＡＸ１０の出力を選択し、他の場合は、第１の雑音サブバンドパワー推定値計算器ＥＣ１００ｂの出力を選択するように構成される。

（装置Ａ１００はまた、等化器が、音源信号Ｓ２０を非分離感知オーディオ信号Ｓ９０ではなく第２の雑音基準として受信するように構成されるように、本明細書で開示する等化器ＥＱ１００の実装形態のインスタンスを含むように実装できることが、明確に開示されている。）
図４３Ｃに、本明細書で開示するＳＳＰフィルタＳＳ１１０と等化器ＥＱ２４０とを含む、装置Ａ１００の実装形態Ａ２５０のブロック図を示す。図４３Ｄに、（たとえば、等化器ＥＱ２４０に関して本明細書で開示する）遠距離非定常雑音の補償のサポートを、（たとえば、等化器ＥＱ５０に関して本明細書で開示する）シングルチャネル雑音基準とマルチチャネル雑音基準の両方からの雑音サブバンドパワー情報と組み合わせる、等化器ＥＱ２４０の実装形態ＥＱ２５０のブロック図を示す。この例では、第２のサブバンドパワー推定値は、３つの異なる雑音推定値、すなわち、（重平滑化され、および／または６フレーム以上などの長期間にわたって平滑化される）非分離感知オーディオ信号Ｓ９０からの定常雑音の推定値と、（平滑化されないかまたは単に最小平滑化される）音源信号Ｓ２０からの遠距離非定常雑音の推定値と、方向ベースの雑音基準Ｓ３０とに基づく。（たとえば、図４３Ｄに示すように）本明細書で開示する雑音基準としての非分離感知オーディオ信号Ｓ９０の任意の適用例において、音源信号Ｓ２０からの平滑化された雑音推定値（たとえば、重平滑化された推定値および／またはいくつかのフレームにわたって平滑化された長期推定値）が代わりに使用できることを、繰り返し述べておく。

非分離感知オーディオ信号Ｓ９０（代替的に、感知オーディオ信号Ｓ１０）が非アクティブである間隔中にのみ、シングルチャネルサブバンド雑音パワー推定値を更新するように、等化器ＥＱ１００（または等化器ＥＱ５０または等化器ＥＱ２４０）を構成することが望ましい。装置Ａ１００のそのような実装形態は、非分離感知オーディオ信号Ｓ９０（または感知オーディオ信号Ｓ１０）のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および／または残差（たとえば、線形予測符号化残差）の自己相関、ゼロ交差レート、および／または第１の反射係数など、１つまたは複数の係数に基づいて、アクティブ（たとえば、音声）または非アクティブ（たとえば、雑音）として分類するように構成されたボイスアクティビティ検出器（ＶＡＤ）を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するように、このＶＡＤを実装することが望ましい。

図４４に、そのようなボイスアクティビティ検出器（または「ＶＡＤ」）Ｖ２０を含む、装置Ａ２００のそのような実装形態Ａ２２０を示す。上述のようにＶＡＤＶ１０のインスタンスとして実装できるボイスアクティビティ検出器Ｖ２０は、感知オーディオチャネルＳ１０−１上で音声アクティビティが検出されたかどうかをその状態が示す更新制御信号ＵＣ１０を生成するように構成される。装置Ａ２２０が図３８に示す等化器ＥＱ１００の実装形態ＥＱ１１０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出されシングルチャネルモードが選択された間隔（たとえば、フレーム）中に、第２のサブバンド信号発生器ＳＧ１００ｂがその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。装置Ａ２２０が図３８に示す等化器ＥＱ１００の実装形態ＥＱ１１０または図３９に示す等化器ＥＱ１００の実装形態ＥＱ１２０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出されシングルチャネルモードが選択された間隔（たとえば、フレーム）中に、第２のサブバンドパワー推定値発生器ＥＣ１００ｂがその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。

装置Ａ２２０が図３９に示す等化器ＥＱ１００の実装形態ＥＱ１２０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出された間隔（たとえば、フレーム）中に、第３のサブバンド信号発生器ＳＧ１００ｃがその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。装置Ａ２２０が図４０に示す等化器ＥＱ１００の実装形態ＥＱ１３０または図４１に示す等化器ＥＱ１００の実装形態ＥＱ１４０を含む場合、あるいは装置Ａ１００が図４３に示す等化器ＥＱ１００の実装形態ＥＱ４０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出された間隔（たとえば、フレーム）中に、第３のサブバンド信号発生器ＳＧ１００ｃがその出力を更新することを防ぐために、ならびに／あるいは第３のサブバンドパワー推定値発生器ＥＣ１００ｃがその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。

図４５に、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成された、装置Ａ１００の代替実装形態Ａ３００のブロック図を示す。装置Ａ２００のように、装置Ａ１００の装置Ａ３００は、モード選択信号Ｓ８０を発生するように構成された分離評価器（たとえば、分離評価器ＥＶ１０）を含む。この場合、装置Ａ３００は、再生オーディオ信号Ｓ４０に対してＡＧＣまたはＡＶＣ演算を実行するように構成された自動ボリューム制御（ＡＶＣ）モジュールＶＣ１０をも含み、モード選択信号Ｓ８０は、モード選択信号Ｓ８０の対応する状態に従って、フレームごとにＡＶＣモジュールＶＣ１０および等化器ＥＱ１０のうちの１つを選択するようにセレクタＳＬ４０（たとえば、マルチプレクサ）およびＳＬ５０（たとえば、デマルチプレクサ）を制御するために適用する。図４６に、本明細書で説明する等化器ＥＱ３０の実装形態ＥＱ６０と、ＡＧＣモジュールＧ１０およびＶＡＤＶ１０のインスタンスとをも含む、装置Ａ３００の実装形態Ａ３１０のブロック図を示す。この例では、等化器ＥＱ６０は、等化器の音響出力レベルを制限するように構成されたピークリミッタＬ１０のインスタンスを含む上述の等化器ＥＱ４０の実装形態でもある。（装置Ａ３００の、このおよび他の開示する構成はまた、等化器ＥＱ５０またはＥＱ２４０など、本明細書で開示する等化器ＥＱ１０の代替実装形態を使用して実装できることが当業者には理解されよう。）
ＡＧＣまたはＡＶＣ演算は、一般に単一のマイクロフォンから得られる定常雑音推定値に基づいてオーディオ信号のレベルを制御する。そのような推定値は、本明細書で説明する非分離感知オーディオ信号Ｓ９０（代替的に、感知オーディオ信号Ｓ１０）のインスタンスから計算できる。たとえば、非分離感知オーディオ信号のパワー推定値（たとえば、現在のフレームのエネルギーまたは絶対値の和）などのパラメータの値に従って再生オーディオ信号Ｓ４０のレベルを制御するようにＡＶＣモジュールＶＣ１０を構成することが望ましい。他のパワー推定値に関して上述したように、非分離感知オーディオ信号がボイスアクティビティを現在含んでいないときのみ、そのようなパラメータ値に対して時間平滑化演算を実行するようにおよび／またはそのパラメータ値を更新するように、ＡＶＣモジュールＶＣ１０を構成することが望ましい。図４７に、ＡＶＣモジュールＶＣ１０の実装形態ＶＣ２０が、感知オーディオチャネルＳ１０−１からの情報（たとえば、信号Ｓ１０−１の現在のパワー推定値）に従って再生オーディオ信号Ｓ４０のボリュームを制御するように構成された、装置Ａ３１０の実装形態Ａ３２０のブロック図を示す。図４８に、ＡＶＣモジュールＶＣ１０の実装形態ＶＣ３０が、マイクロフォン信号ＳＭ１０−１からの情報（たとえば、信号ＳＭ１０−１の現在のパワー推定値）に従って再生オーディオ信号Ｓ４０のボリュームを制御するように構成された、装置Ａ３１０の実装形態Ａ３３０のブロック図を示す。

図４９に、装置Ａ１００の別の実装形態Ａ４００のブロック図を示す。装置Ａ４００は、本明細書で説明する等化器ＥＱ１００の実装形態を含み、装置Ａ２００と同様である。ただし、この場合、モード選択信号Ｓ８０は無相関雑音検出器ＵＣ１０によって発生される。アレイのあるマイクロフォンには影響を及ぼし、別のマイクロフォンには影響を及ぼさない雑音である無相関雑音は、風雑音、呼吸音、スクラッチングなどを含むことがある。ＳＳＰフィルタＳＳ１０などのマルチマイクロフォン信号分離システムは、許容される場合、実際に無相関雑音を増幅することがあるので、そのような雑音によりそのシステムに望ましくない結果が生じることがある。無相関雑音を検出するための技法は、マイクロフォン信号（あるいは各マイクロフォン信号における約２００Ｈｚから約８００または１０００Ｈｚまでの帯域など、そのマイクロフォン信号の部分）の相互相関を推定することを含む。そのような相互相関推定は、マイクロフォン間の遠距離応答を等化するために２次マイクロフォン信号の通過帯域を利得調整することと、利得調整された信号を１次マイクロフォン信号の通過帯域から減算することと、差分信号のエネルギーを（差分信号のおよび／または１次マイクロフォン通過帯域の経時的エネルギーに基づいて適応的とすることができる）しきい値と比較することとを含むことができる。無相関雑音検出器ＵＣ１０は、そのような技法および／または任意の他の適切な技法に従って実装できる。また、マルチマイクロフォンデバイスにおける無相関雑音の検出については、無相関雑音検出器ＵＣ１０の設計、実装、および／または統合についての開示に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２９日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する米国特許出願第１２／２０１，５２８号において論じられている。

図５０に、ＳＳＰフィルタＳＳ１０の１つまたは複数の指向性処理段を特徴づける係数値を得るために使用できる設計方法Ｍ１０のフローチャートを示す。方法Ｍ１０は、マルチチャネルトレーニング信号のセットを記録するタスクＴ１０と、ＳＳＰフィルタＳＳ１０の構造を収束のためにトレーニングするタスクＴ２０と、トレーニングされたフィルタの分離パフォーマンスを評価するタスクＴ３０とを含む。タスクＴ２０およびＴ３０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ再生デバイスの外部で実行される。タスクＴ３０において容認できる結果が得られるまで、方法Ｍ１０のタスクの１つまたは複数を繰り返す。方法Ｍ１０の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、ＳＳＰフィルタＳＳ１０の１つまたは複数の指向性処理段の設計、実装、トレーニング、および／または評価に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号に記載されている。

タスクＴ１０は、少なくともＭ個のマイクロフォンのアレイを使用して、Ｍ個のチャネルの各々がＭ個のマイクロフォンの対応する１つの出力に基づくようにＭチャネルトレーニング信号のセットを記録する。トレーニング信号の各々は、各トレーニング信号が音声と雑音成分の両方を含むように少なくとも１つの情報源および少なくとも１つの干渉源に応答してこのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、雑音の多い環境での音声の記録であることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、８ｋＨｚ〜１６ｋＨｚにわたる。

Ｍチャネルトレーニング信号のセットの各々は、Ｐ個のシナリオの１つの下で記録され、Ｐは、２に等しい場合があるが、一般に１よりも大きい任意の整数である。以下で説明するように、Ｐ個のシナリオの各々は、様々な空間特徴（たとえば、様々なハンドセットまたはヘッドセット配向）および／または様々なスペクトル特徴（たとえば、様々な特性を有する音源の捕捉）を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、Ｐ個のシナリオのうちの異なる１つの下でそれぞれ記録される少なくともＰ個のトレーニング信号を含む。

本明細書で説明する装置Ａ１００の他の要素を含んでいる同じオーディオ再生デバイスを使用してタスクＴ１０を実行することが可能である。しかしながら、より一般的には、タスクＴ１０は、オーディオ再生デバイス（たとえば、ハンドセットまたはヘッドセット）の参照インスタンスを使用して実行されるであろう。方法Ｍ１０によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様のオーディオ再生デバイスの他のインスタンスにコピーされる（たとえば、そのような各プロダクションインスタンスのフラッシュメモリにロードされる）。

そのような場合、オーディオ再生デバイス（「参照デバイス」）の参照インスタンスは、Ｍ個のマイクロフォンのアレイを含む。参照デバイスのマイクロフォンは、オーディオ再生デバイスのプロダクションインスタンス（「プロダクションデバイス」）の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロフォンは、プロダクションデバイスのモデルと同じ１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、１つまたは複数の低位の（すなわち、音響的に重要でない）態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置Ａ１００の要素を含む必要はない。

同じＭ個のマイクロフォンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の１つを記録するために使用されるＭ個のマイクロフォンのセットは、トレーニング信号のもう１つを記録するために使用されるＭ個のマイクロフォンのセットとは（マイクロフォンの１つまたは複数において）異なることが望ましい。たとえば、マイクロフォンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロフォンアレイの異なるインスタンスを使用することが望ましい。１つのそのような場合には、Ｍチャネルトレーニング信号のセットは、参照デバイスの少なくとも２つの異なるインスタンスを使用して記録された信号を含む。

Ｐ個のシナリオの各々は、少なくとも１つの情報源と少なくとも１つの干渉源とを含む。一般に、各情報源は、音声信号または楽音信号を再生するラウドスピーカーであり、各干渉源は、別の音声信号または典型的な予想される環境からの周囲の背景音、または雑音信号などの干渉側音響信号を再生するラウドスピーカーである。使用できるラウドスピーカーの様々なタイプには、動電型（たとえば、ボイスコイル）スピーカー、圧電型スピーカー、静電型スピーカー、リボンスピーカー、平面磁気スピーカーなどがある。１つのシナリオまたは適用例において情報源として働く音源は、異なるシナリオまたは適用例において干渉源として働くことがある。Ｐ個のシナリオの各々におけるＭ個のマイクロフォンからの入力データの記録は、Ｍチャネルテープレコーダ、Ｍチャネル音響の記録または捕捉機能をもつコンピュータ、あるいは（たとえば、サンプリング分解能のオーダー内で）同時にＭ個のマイクロフォンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。

音響無響室は、Ｍチャネルトレーニング信号のセットを記録するために使用できる。図５１に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒ（ＨＡＴＳ、デンマーク、Ｎａｅｒｕｍ、Ｂｒｕｅｌ＆Ｋｊａｅｒ製）は、干渉源（すなわち、４つのラウドスピーカー）の内向きアレイ内に配置される。ＨＡＴＳの頭部は、代表的な人間の頭部と音響的に同様であり、音声信号を再生するために口部にラウドスピーカーを含む。干渉源のアレイは、図示のようにＨＡＴＳを囲む拡散雑音界を生成するように駆動できる。１つのそのような例では、ラウドスピーカーのアレイは、ＨＡＴＳ耳参照点または口参照点において７５〜７８ｄＢの音圧レベルで雑音信号を再生するように構成される。他の場合には、１つまたは複数のそのような干渉源は、様々な空間分布を有する雑音界（たとえば、指向性雑音界）を生成するように駆動できる。

使用できる雑音信号のタイプは、（たとえば、米国電気電子学会（ＩＥＥＥ）（ニュージャージー州ピスカタウェイ）によって公表されたＩＥＥＥ規格２６９−２００１、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように）白色雑音、ピンク雑音、グレイ雑音、およびホス雑音を含む。使用できる他のタイプの雑音信号は、ブラウン雑音、ブルー雑音、およびパープル雑音を含む。

Ｐ個のシナリオは、少なくとも１つの空間および／またはスペクトル特徴に関して互いに異なる。音源およびマイクロフォンの空間構成は、少なくとも以下の方法、すなわち、他の１つまたは複数の音源に対する音源の配置および／または配向と、他の１つまたは複数のマイクロフォンに対するマイクロフォンの配置および／または配向と、マイクロフォンに対する音源の配置および／または配向と、音源に対するマイクロフォンの配置および／または配向とのうちの任意の１つまたは複数でシナリオごとに異なることができる。Ｐ個のシナリオの中の少なくとも２つは、セットの中のマイクロフォンまたは音源の少なくとも１つが、１つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロフォンおよび音源のセットに対応することができる。たとえば、Ｐ個のシナリオの中の少なくとも２つは、ユーザの口などの情報源に対する、Ｍ個のマイクロフォンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約（たとえば、デバイス上のマイクロフォンのロケーション）、デバイスの予測される使用パターン（たとえば、典型的な予想されるユーザの保持姿勢）、および／または異なるマイクロフォン位置および／またはアクティブ化（たとえば、３つ以上のマイクロフォンの中の異なるペアをアクティブにすること）を含むことができる。

シナリオごとに異なることがあるスペクトル特徴は、少なくとも１つの音源信号のスペクトル成分（たとえば、異なるボイスからの音声、異なる色の雑音）と、マイクロフォンの１つまたは複数の周波数応答とを少なくとも含む。上述の１つの特定の例では、シナリオの少なくとも２つは、マイクロフォンの少なくとも１つに関して異なる（言い換えれば、１つのシナリオにおいて使用されるマイクロフォンの少なくとも１つの代わりに、他のシナリオでは別のマイクロフォンを使用するか、または全く使用しない）。そのような変動は、マイクロフォンの周波数応答および／または位相応答の変化の予想される範囲にわたってロバストであり、および／またはマイクロフォンの障害に対してロバストであるソリューションをサポートするために望ましい。

別の特定の例では、シナリオの少なくとも２つは、背景雑音を含み、背景雑音のシグナチャ（すなわち、周波数および／または時間にわたる雑音の統計値）に関して異なる。そのような場合、干渉源は、Ｐ個のシナリオの１つでは、１つの色（たとえば、白、ピンク、またはホス）またはタイプ（たとえば、街頭雑音、バブル雑音、または自動車雑音の再生）の雑音を放出し、Ｐ個のシナリオのもう１つでは、別の色またはタイプの雑音（たとえば、１つのシナリオではバブル雑音、および別のシナリオでは街頭雑音および／または自動車雑音）を放出するように構成することができる。

Ｐ個のシナリオの少なくとも２つは、実質的に異なるスペクトル成分を有する信号を生成する情報源を含むことができる。音声適用例では、たとえば、２つの異なるシナリオにおける情報信号は、互いに１０パーセント、２０パーセント、３０パーセント、さらには５０パーセント以上異なる平均ピッチ（すなわち、シナリオの長さにわたる）を有する２つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の１つまたは複数の音源の出力振幅に対する音源の出力振幅である。シナリオごとに異なることがある別の特徴は、アレイの他の１つまたは複数のマイクロフォンの利得感度に対するマイクロフォンの利得感度である。

以下で説明するように、Ｍチャネルトレーニング信号のセットは、タスクＴ２０においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約１／２または１秒〜約５または１０秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべき音響ファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、１０、３０、４５、６０、７５、９０、１００、および１２０秒を含む。

近距離シナリオ（たとえば、通信デバイスがユーザの口の近くに保持されるとき）では、遠距離シナリオ（たとえば、デバイスがユーザの口から遠くに保持されるとき）とは異なる振幅と遅延との関係が、マイクロフォン出力間に存在することがある。Ｐ個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。代替的に、Ｐ個のシナリオの範囲は近距離シナリオのみを含むことが望ましい。そのような場合、対応するプロダクションデバイスは、演算中に感知オーディオ信号Ｓ１０の不十分な分離が検出されたとき、等化を中断するか、または等化器ＥＱ１００に関して本明細書で説明したようにシングルチャネル等化モードを使用するように構成できる。

Ｐ個の音響シナリオの各々では、（ＩＴＵ−Ｔ勧告Ｐ．５０、国際電気通信連合、スイス、ジュネーブ、１９９３年３月に記載されているように）ＨＡＴＳの口の人工音声、および／または（「IEEE Transactions on Audio and Electroacoustics」、第１７巻、２２７〜４６ページ、１９６９年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように）ＨａｒｖａｒｄＳｅｎｔｅｎｃｅの１つまたは複数などの標準化された語彙を発しているボイスから再生することによって、情報信号をＭ個のマイクロフォンに供給することができる。１つのそのような例では、音声は、８９ｄＢの音圧レベルでＨＡＴＳの口部ラウドスピーカーから再生される。Ｐ個のシナリオの少なくとも２つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、Ｐ個のシナリオの少なくとも２つは、（たとえば、異なるマイクロフォンに応答した変動に対してロバストである収束ソリューションをサポートするために）参照デバイスの異なるインスタンスを使用することができる。

適用例の１つの特定のセットでは、Ｍ個のマイクロフォンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロフォンである。図６Ａおよび図６Ｂは、そのようなデバイスの２つの異なる動作構成を示し、（たとえば、各構成について別々の収束フィルタ状態を得るために）デバイスの各動作構成に対して方法Ｍ１０の別々のインスタンスを実行することが可能である。そのような場合、装置Ａ１００は、実行時に様々な収束フィルタ状態（すなわち、ＳＳＰフィルタＳＳ１０の指向性処理段のためのフィルタ係数値の様々なセット、またはＳＳＰフィルタＳＳ１０の指向性処理段の様々なインスタンス）のうちから選択するように構成できる。たとえば、装置Ａ１００は、デバイスが開いているか閉じているかを示すスイッチの状態に対応するフィルタまたはフィルタ状態を選択するように構成できる。

適用例の別の特定のセットでは、Ｍ個のマイクロフォンは、ワイヤードまたはワイヤレスイヤピースあるいは他のヘッドセットのマイクロフォンである。図８は、本明細書で説明する、そのようなヘッドセットの一例６３を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例に関して説明したように情報源および／または干渉源の任意の組合せを含むことができる。図８にヘッドセット取付可変性６６によって示すように、Ｐ個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離パフォーマンスに悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のＭチャネルトレーニング信号の１つは、ヘッドセットが、取付角度の予想される範囲の１つの極値またはその近くの角度で耳６５に取り付けられるシナリオに基づき、Ｍチャネルトレーニング信号のもう１つは、ヘッドセットが、取付角度の予想される範囲の他の極値またはその近くの角度で耳６５に取り付けられるシナリオに基づくことが望ましい。Ｐ個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する１つまたは複数の配向を含むことができる。

適用例のさらなるセットでは、Ｍ個のマイクロフォンは、ハンズフリーカーキットに設けられたマイクロフォンである。図９に、ラウドスピーカー８５がマイクロフォンアレイ８４に対して直角に配設された、そのような通信デバイス８３の一例を示す。そのようなデバイスのためのＰ個の音響シナリオは、上記でハンドセット適用例に関して説明したように、情報源および／または干渉源の任意の組合せを含むことができる。たとえば、Ｐ個のシナリオの２つ以上が、マイクロフォンアレイに対する所望の音源のロケーションにおいて異なることができる。Ｐ個のシナリオの１つまたは複数はまた、ラウドスピーカー８５から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および／または周波数的に異なるシグナチャ（たとえば、実質的に異なるピッチ周波数）を有する音楽および／またはボイスなど、ラウドスピーカー８５から再生される干渉信号を含むことができる。そのような場合、方法Ｍ１０は、所望の音声信号から干渉信号を分離するフィルタ状態を生成することが望ましい。Ｐ個のシナリオの１つまたは複数はまた、上述のように拡散または指向性雑音界などの干渉を含むことができる。

方法Ｍ１０によって生成される収束フィルタソリューションの空間分離特性（たとえば、対応するビームパターンの形状および配向）は、トレーニング信号を収集するためにタスクＴ１０において使用されるマイクロフォンの相対特性に敏感である可能性がある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのＭ個のマイクロフォンの利得を互いに対して較正することが望ましい。そのような較正は、マイクロフォンの利得の得られた比が所望の範囲内になるように、マイクロフォンのうちの１つまたは複数の出力に適用すべき重み係数を計算または選択することを含むことができる。また、プロダクション中および／またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロフォンの利得を互いに較正することが望ましい。

個々のマイクロフォン素子が音響的にうまく特徴づけられたとしても、素子をオーディオ再生デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロフォン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロフォンアレイをオーディオ再生デバイスに設置した後に、マイクロフォンアレイのそのような較正を実行することが望ましい。

マイクロフォンのアレイの較正は特殊な雑音界内で実行でき、オーディオ再生デバイスは、その雑音界内に特定の方法で配向される。たとえば、ハンドセットなどの２マイクロフォンオーディオ再生デバイスは、両方のマイクロフォン（それぞれ全方向または単方向とすることができる）が同じＳＰＬレベルに等しく露出されるように、２点音源雑音界に配置できる。プロダクションデバイス（たとえば、ハンドセット）の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、２００８年６月３０日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第６１／０７７，１４４号に記載されている。参照デバイスのマイクロフォンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および／またはマイクロフォン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロフォンを較正することも望ましい。

プロダクションデバイスのマイクロフォンと参照デバイスのマイクロフォンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室においてラボラトリ手順を使用して参照デバイスを較正すること、および工場の現場で（たとえば、米国特許出願第６１／０７７，１４４号に記載されているように）ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得一致手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、２００８年６月２日に出願された、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題する米国仮特許出願第６１／０５８，１３２号に記載されている。

プロダクションデバイスのマイクロフォンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構成は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント時に（たとえば、電源投入時、ユーザ選択時などに）、１つまたは複数のマイクロフォン周波数特性および／または感度（たとえば、マイクロフォン利得間の比）を整合させるように構成された較正ルーチンをオーディオ再生デバイス内に含むことが望ましい。そのような手順の例は、米国仮特許出願第６１／０５８，１３２号に記載されている。

Ｐ個のシナリオの１つまたは複数は、指向性干渉源を与えるために、（たとえば、標準化された語彙を発する人工音声および／またはボイスによって）オーディオ再生デバイスの１つまたは複数のラウドスピーカーを駆動することを含むことができる。１つまたは複数のそのようなシナリオを含むことは、再生オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの１つまたは複数のラウドスピーカーは、プロダクションデバイスのモデルと同じ１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図６Ａに示す動作構成では、そのようなシナリオは１次スピーカーＳＰ１０を駆動することを含むことができ、図６Ｂに示す動作構成では、そのようなシナリオは２次スピーカーＳＰ２０を駆動することを含むことができる。シナリオは、たとえば、図５１に示す干渉源のアレイによって生成される拡散雑音界に加えて、またはその代替として、そのような干渉源を含むことができる。

代替または追加として、方法Ｍ１０のインスタンスは、上述のようにエコーキャンセラＥＣ１０のための１つまたは複数の収束フィルタセットを得るために実行できる。次いで、エコーキャンセラのトレーニングされたフィルタを使用して、ＳＳＰフィルタＳＳ１０のトレーニング信号の記録中にマイクロフォン信号に対してエコー消去を実行することができる。

無響室内に配置されたＨＡＴＳを、タスクＴ１０においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカーを所望の音声発生源の代わりに使用することができる。そのような場合、（たとえば、可聴周波数の所望の範囲にわたるトレーニングされたフィルタ係数値の得られた行列をより良く調整するために）少なくともある量の背景雑音を使用することが望ましい。デバイスの使用より前および／または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロフォンから口までの典型的な距離など、オーディオ再生デバイスのユーザの特徴に基づいて、および／または予想される使用環境に基づいて個人化できる。一連のあらかじめ設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。

タスクＴ２０は、トレーニング信号のセットを使用して、音源分離アルゴリズムに従ってＳＳＰフィルタＳＳ１０の構造をトレーニングする（すなわち、対応する収束フィルタソリューションを計算する）。タスクＴ２０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用してオーディオ再生デバイスの外部で実行される。タスクＴ２０では、得られた出力信号において指向性成分のエネルギーが出力チャネルの１つ（たとえば、音源信号Ｓ２０）に集中するように、指向性成分を有するマルチチャネル入力信号（たとえば、感知オーディオ信号Ｓ１０）をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。この出力チャネルは、マルチチャネル入力信号のいかなるチャネルと比較しても増加した信号対雑音比（ＳＮＲ）を有することができる。

「音源分離アルゴリズム」という用語はブラインド音源分離（ＢＳＳ）アルゴリズムを含み、ブラインド音源分離（ＢＳＳ）アルゴリズムは、音源信号の混合のみに基づいて、（１つまたは複数の情報源および１つまたは複数の干渉源からの信号を含むことがある）個々の音源信号を分離する方法である。ブラインド音源分離アルゴリズムは、複数の独立音源から来る混合信号を分離するために使用できる。これらの技法は、各信号の音源に関する情報を必要としないので、「ブラインド音源分離」方法として知られる。「ブラインド」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および／または干渉信号の１つまたは複数の統計値に関する仮定を含む。音声適用例では、たとえば、当該の音声信号は、通常、スーパーガウス分布（たとえば、高尖度）を有すると仮定される。ＢＳＳアルゴリズムの種類はまた多変量ブラインドデコンボリューションアルゴリズムを含む。

ＢＳＳ方法は独立成分分析の実装を含むことができる。独立成分分析（ＩＣＡ）は、互いからおそらく独立している混合音源信号（成分）を分離するための技法である。その簡略形態では、独立成分分析は、重みの「逆混合」行列を混合信号に適用して（たとえば、行列を混合信号で乗算して）、分離された信号を生成する。重みには初期値を割り当てることができ、次いでその初期値は、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ＩＣＡなどの方法は、雑音源からの音声信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析（「ＩＶＡ」）は関連するＢＳＳ技法であり、音源信号は、単一の可変音源信号ではなくベクトル音源信号である。

音源分離アルゴリズムの種類はまた、たとえば、マイクロフォンアレイの軸に対する音源信号の１つまたは複数の各々の知られている方向などの他の先験的情報によって制約された、制約付きＩＣＡおよび制約付きＩＶＡなど、ＢＳＳアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマと区別される。

図１１Ｂを参照しながら上述したように、ＳＳＰフィルタＳＳ１０は１つまたは複数の段（たとえば、固定フィルタ段ＦＦ１０、適応フィルタ段ＡＦ１０）を含むことができる。これらの段の各々は、係数値が、音源分離アルゴリズムから導出された学習規則を使用してタスクＴ２０によって計算される、対応する適応フィルタ構造に基づくことができる。フィルタ構造は、フィードフォワードおよび／またはフィードバック係数を含むことができ、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。

図５２Ａに、２つのフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０の２チャネル例のブロック図を示し、図５２Ｂに、２つの直接フィルタＤ１１０およびＤ１２０をも含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図を示す。空間選択的処理フィルタＳＳ１０は、たとえば、入力チャネルＩ１、Ｉ２がそれぞれ感知オーディオチャネルＳ１０−１、Ｓ１０−２に対応し、出力チャネルＯ１、Ｏ２がそれぞれ音源信号Ｓ２０および雑音基準Ｓ３０に対応するように、そのような構造を含むように実装できる。そのような構造をトレーニングするためにタスクＴ２０によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする（たとえば、フィルタの出力チャネルの少なくとも１つによって含まれる情報量を最大にする）ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報（ｉｎｆｏｍａｘとしても知られる）、最尤、および最大非ガウス性（たとえば、最大尖度）がある。そのような適応構造、およびＩＣＡまたはＩＶＡ適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、２００６年３月９日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第２００６／００５３００２Ａ１号、２００６年３月１日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第６０／７７７，９２０号、２００６年３月１日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第６０／７７７，９００号、および「Systems and Methods for Blind Source Signal Se
paration」と題する国際特許公開第ＷＯ２００７／１００３３０Ａ１号（Kimら）に記載されている。適応フィルタ構造、およびタスクＴ２０においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。

図５２Ａに示すフィードバック構造ＦＳ１０をトレーニングするために使用できる学習規則の一例は、次のように表される。

上式で、ｔは、時間サンプル指数を示し、ｈ₁₂（ｔ）は、時間ｔにおけるフィルタＣ１１０の係数値を示し、ｈ₂₁（ｔ）は、時間ｔにおけるフィルタＣ１２０の係数値を示し、下記の記号は時間領域畳み込み演算を示す。

Δｈ_12kは、出力値ｙ₁（ｔ）およびｙ₂（ｔ）の計算に続くフィルタＣ１１０のｋ番目の係数値の変化を示し、Δｈ_21kは、出力値ｙ₁（ｔ）およびｙ₂（ｔ）の計算に続くフィルタＣ１２０のｋ番目の係数値の変化を示す。アクティブ化関数ｆを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。音声適用例のためのアクティブ化信号ｆに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。

本明細書に示すように、ＳＳＰフィルタＳＳ１０の指向性処理段のフィルタ係数値は、ＢＳＳ、ビームフォーミング、または複合ＢＳＳ／ビームフォーミング方法を使用して計算できる。ＩＣＡおよびＩＶＡ技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第１に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第２に、入力チャネルの数が大きい場合、ＩＶＡ学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第３に、ＩＶＡのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられた音声認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。

線形マイクロフォンアレイから受信された信号の指向性処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロフォンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロフォンの１つは、より直接的に所望の音源（たとえば、ユーザの口）に配向され、他のマイクロフォンは、この音源から比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、音源とセンサとの間のジオメトリ、または音響信号自体が知られていると仮定する。ＳＳＰフィルタＳＳ１０の構造のフィルタ係数値は、データ従属またはデータ独立ビームフォーマ設計（たとえば、超指向性ビームフォーマ、最小２乗ビームフォーマ、または統計学的最適ビームフォーマ設計）に従って計算できる。データ独立ビームフォーマ設計の場合、（たとえば、雑音相関行列をチューニングすることによって）所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。

「一般化サイドローブ消去」（ＧＳＣ）と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第４７巻、第１０号、２６７７〜２６８４ページ、１９９９年１０月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望の音源信号をフィルタ除去することを目的とする。ＧＳＣ原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第３０巻、第１号、２７〜３４ページ、１９８２年１月に記載されている。

タスクＴ２０は、学習規則に従って収束のために適応フィルタ構造をトレーニングする。収束ソリューションが得られるまで、トレーニング信号のセットに応答してフィルタ係数値の更新を続けることができる。この動作中に、トレーニング信号の少なくともいくつかを、場合によっては異なる順序で、入力として２回以上フィルタ構造にサブミットすることができる。たとえば、収束ソリューションが得られるまで、トレーニング信号のセットをループで繰り返すことができる。収束はフィルタ係数値に基づいて判断できる。たとえば、フィルタ係数値がもはや変化しないとき、または、ある時間間隔にわたってフィルタ係数値の全変化がしきい値未満（代替的に、しきい値以下）のとき、フィルタが収束したと決定できる。収束はまた、相関測度を評価することによって監視できる。クロスフィルタを含むフィルタ構造では、１つのクロスフィルタの更新動作が、別のクロスフィルタの更新動作を続けながら終了することができるように、各クロスフィルタについて独立して収束を判断することができる。代替的に、クロスフィルタのすべてが収束するまで、各クロスフィルタの更新を続けることができる。

タスクＴ３０は、分離パフォーマンスを評価することによって、タスクＴ２０において生成されたトレーニングされたフィルタを評価する。たとえば、タスクＴ３０は、評価信号のセットに対するトレーニングされたフィルタの応答を評価するように構成できる。評価信号のこのセットは、タスクＴ２０において使用されたトレーニングセットと同じトレーニングセットとすることができる。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である（たとえば、マイクロフォンの同じアレイの少なくとも一部と、同じＰ個のシナリオの少なくとも一部とを使用して記録される）Ｍチャネル信号のセットとすることができる。そのような評価は、自動的におよび／または人間監視によって実行できる。タスクＴ３０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ再生デバイスの外部で実行される。

タスクＴ３０は、１つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。たとえば、タスクＴ３０は、１つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。フィルタ応答を評価するために使用できるメトリックの一例は、（Ａ）評価信号の元の情報成分（たとえば、評価信号の記録中にＨＡＴＳの口部ラウドスピーカーから再生された音声信号）と、（Ｂ）その評価信号に対するフィルタの応答の少なくとも１つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のＭ個のチャネルの１つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。

フィルタ応答を評価する（たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す）ために使用できるメトリックの他の例には、分散などの統計特性、ガウス性、および／または尖度などの高次統計モーメントがある。音声信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび経時的なバースト性（時間スパーシティ（time sparsity）としても知られる）がある。一般に、音声信号は、雑音信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタ応答を評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロフォンのアレイに対する情報または干渉源の実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン（またはヌルビームパターン）と合致する度合いである。タスクＴ３０において使用されるメトリックは、（たとえば、分離評価器ＥＶ１０などの分離評価器に関して上述した）装置Ａ２００の対応する実装形態において使用される分離測度を含むか、またはその分離測度に限定されることが望ましい。

タスクＴ３０は、各計算されたメトリック値を対応するしきい値と比較するように構成できる。そのような場合、各メトリックの計算値がそれぞれのしきい値を上回れば（代替的に、少なくともしきい値に等しければ）、フィルタは信号の適切な分離結果を生成すると言うことができる。複数のメトリックのそのような比較方式において、１つまたは複数の他のメトリックの計算値が高いとき、１つのメトリックのしきい値を低減することができることを、当業者なら認識するであろう。

また、タスクＴ３０では、収束フィルタソリューションのセットが、ＴＩＡ−８１０−Ｂ（たとえば、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｓｓｏｃｉａｔｉｏｎ（ヴァージニア州アーリントン）によって公表された２００６年１１月版）などの規格文書で指定された送信応答公称ラウドネス曲線など、他のパフォーマンス基準に準拠することを検証することが望ましい。

フィルタが評価信号の１つまたは複数を適切に分離することができなかった場合でも、収束フィルタソリューションをパスするようにタスクＴ３０を構成することが望ましい。たとえば、上述の装置Ａ２００の実装形態では、タスクＴ３０において評価信号のセットの低い割合（たとえば、２、５、１０、または２０パーセントまで）を分離することができないことが許容できるように、感知オーディオ信号Ｓ１０の適切な分離が達成されない状況のために、シングルチャネルモードを使用することができる。

タスクＴ２０において、トレーニングされたフィルタが極小に収束し、評価タスクＴ３０において失敗をもたらす可能性がある。そのような場合、異なるトレーニングパラメータ（たとえば、異なる学習レート、異なる幾何学的制約など）を使用して、タスクＴ２０を繰り返すことができる。方法Ｍ１０は一般に反復的設計プロセスであり、タスクＴ３０において所望の評価結果が得られるまで、タスクＴ１０およびＴ２０の１つまたは複数を変更し、繰り返すことが望ましい。たとえば、方法Ｍ１０の反復は、タスクＴ２０において新しいトレーニングパラメータ値（たとえば、初期重み値、収束レートなど）を使用すること、および／またはタスクＴ１０において新しいトレーニングデータを記録することを含むことができる。

タスクＴ３０において、ＳＳＰフィルタＳＳ１０の固定フィルタ段（たとえば、固定フィルタ段ＦＦ１０）について所望の評価結果が得られると、対応するフィルタ状態をＳＳＰフィルタＳＳ１０の固定の状態（すなわち、フィルタ係数値の固定セット）としてプロダクションデバイスにロードすることができる。上述のように、各プロダクションデバイスにおいて、ラボラトリ、工場、または自動（たとえば、自動利得整合）較正手順など、マイクロフォンの利得および／または周波数応答を較正するための手順を実行することも望ましい。

方法Ｍ１０の１つのインスタンスにおいて生成されたトレーニングされた固定フィルタは、方法Ｍ１０の別のインスタンスにおいてトレーニング信号の別のセットをフィルタ処理するために使用でき、また、適応フィルタ段（たとえば、ＳＳＰフィルタＳＳ１０の適応フィルタ段ＡＦ１０）の初期条件を計算するために参照デバイスを使用して記録できる。適応フィルタの初期条件のそのような計算の例は、適応フィルタ段の設計、トレーニング、および／または実装の説明に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号の、たとえば、段落［００１２９］〜［００１３５］（「It may be desirable」で開始し「cancellation in parallel」で終了する）に記載されている。そのような初期条件はまた、（たとえば、トレーニングされた固定フィルタ段に関して）プロダクション中に、同じまたは同様のデバイスの他のインスタンスにロードできる。

図５３に示すように、ワイヤレス電話システム（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡシステム）は、一般に、複数の基地局１２と１つまたは複数の基地局コントローラ（ＢＳＣ）１４とを含む無線アクセスネットワークとワイヤレス通信するように構成された複数のモバイル加入者ユニット１０を含む。そのようなシステムはまた、無線アクセスネットワークを従来の公衆交換電話網（ＰＳＴＮ）１８にインターフェースするように構成された、ＢＳＣ１４に結合された移動交換センター（ＭＳＣ）１６を一般に含む。このインターフェースをサポートするために、ＭＳＣは、ネットワーク間の変換ユニットとして働くメディアゲートウェイを含むか、またはそのメディアゲートウェイと通信することができる。メディアゲートウェイは、異なる送信技法および／または符号化技法などの異なるフォーマット間で変換する（たとえば、時分割多重（ＴＤＭ）ボイスとＶｏＩＰとの間で変換する）ように構成され、また、エコー消去、デュアルタイム多重周波数（ＤＴＭＦ）、およびトーン送信などのメディアストリーミング機能を実行するように構成できる。ＢＳＣ１４は迂回中継線を介して基地局１２に結合される。迂回中継線は、たとえば、Ｅ１／Ｔ１、ＡＴＭ、ＩＰ、ＰＰＰ、フレームリレー、ＨＤＳＬ、ＡＤＳＬ、またはｘＤＳＬを含む、いくつかの知られているインターフェースのいずれもサポートするように構成できる。基地局１２と、ＢＳＣ１４と、ＭＳＣ１６と、もしあればメディアゲートウェイとの集合は、「インフラストラクチャ」とも呼ばれる。

各基地局１２は、有利には、少なくとも１つのセクタ（図示せず）を含み、各セクタは、全方向性アンテナ、または基地局１２から放射状に離れる特定の方向に向けられたアンテナを備える。代替として、各セクタは、ダイバーシチ受信用の２つ以上のアンテナを備えることができる。各基地局１２は、有利には、複数の周波数割当てをサポートするように設計できる。セクタと周波数割当ての交差はＣＤＭＡチャネルと呼ばれることがある。基地局１２は基地局トランシーバサブシステム（ＢＴＳ）１２としても知られる。代替的に、「基地局」は、当業界においてＢＳＣ１４および１つまたは複数のＢＴＳ１２を一括して指すために使用されることがある。ＢＴＳ１２は「セルサイト」１２と示されることもある。代替的に、所与のＢＴＳ１２の個々のセクタがセルサイトと呼ばれることもある。モバイル加入者ユニット１０の種類は、典型的に、セルラーおよび／またはＰＣＳ（パーソナルコミュニケーションズサービス）電話、携帯情報端末（ＰＤＡ）、および／または携帯電話機能を有する他の通信デバイスなど、本明細書で説明する通信デバイスを含む。そのようなユニット１０は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセットもしくはヘッドセット（たとえば、ＵＳＢハンドセット）、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたブルートゥースプロトコルのバージョンを使用してユニットにオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＩＳ−９５規格の１つまたは複数のバージョン（たとえば、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｌｌｉａｎｃｅ（ヴァージニア州アーリントン）によって公開されたＩＳ−９５、ＩＳ−９５Ａ、ＩＳ−９５Ｂ、ｃｄｍａ２０００）に従って使用するように構成できる。

次に、セルラー電話システムの典型的な動作について説明する。基地局１２は、モバイル加入者ユニット１０のセットから逆方向リンク信号のセットを受信する。モバイル加入者ユニット１０は電話通話または他の通信を行っている。所与の基地局１２によって受信された各逆方向リンク信号はその基地局１２内で処理され、得られたデータはＢＳＣ１４にフォワーディングされる。ＢＳＣ１４は、呼リソース割振りと、基地局１２間のソフトハンドオフの編成を含むモビリティ管理機能とを提供する。ＢＳＣ１４はまた、受信データをＭＳＣ１６にルーティングし、ＭＳＣ１６は、ＰＳＴＮ１８とインターフェースするための追加のルーティングサービスを提供する。同様に、ＰＳＴＮ１８は、ＭＳＣ１６とインターフェースし、ＭＳＣ１６は、ＢＳＣ１４とインターフェースし、ＢＳＣ１４は、順方向リンク信号のセットをモバイル加入者ユニット１０のセットに送信するように基地局１２を制御する。

図５３に示すセルラーテレフォニーシステムの要素は、パケット交換データ通信をサポートするように構成することもできる。図５４に示すように、パケットデータトラフィックは、一般に、パケットデータネットワークに接続されたゲートウェイルータに結合されたパケットデータサービングノード（ＰＤＳＮ）２２を使用して、モバイル加入者ユニット１０と外部パケットデータネットワーク２４（たとえば、インターネットなどの公衆ネットワーク）との間でルーティングされる。ＰＤＳＮ２２は、今度は、それぞれ１つまたは複数のＢＳＣ１４にサービスしパケットデータネットワークと無線アクセスネットワークとの間のリンクとして働く１つまたは複数のパケット制御機能（ＰＣＦ）２０にデータをルーティングする。また、パケットデータネットワーク２４は、ローカルエリアネットワーク（ＬＡＮ）、キャンパスエリアネットワーク（ＣＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、リング型ネットワーク、スター型ネットワーク、トークンリングネットワークなどを含むように実装できる。ネットワーク２４に接続されたユーザ端末は、ＰＤＡ、ラップトップコンピュータ、パーソナルコンピュータ、ゲーム機（そのようなデバイスの例には、ＸＢＯＸおよびＸＢＯＸ３６０（マイクロソフト社（ワシントン州レドモンド））、Ｐｌａｙｓｔａｔｉｏｎ３およびＰｌａｙｓｔａｔｉｏｎＰｏｒｔａｂｌｅ（ソニー（株）（日本国東京））、ならびにＷｉｉおよびＤＳ（任天堂（日本国京都））がある）、および／またはオーディオ処理機能を有し、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して電話通話または他の通信をサポートするように構成できる任意のデバイスなど、本明細書で説明するオーディオ再生デバイスの種類に入るデバイスとすることができる。そのような端末は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセット（たとえば、ＵＳＢハンドセット）、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット（たとえば、たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用して端末にオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＰＳＴＮに決して入ることなしに、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを介して）異なる無線アクセスネットワーク上のモバイル加入者ユニット間で、モバイル加入者ユニットと非モバイルユーザ端末との間で、または２つの非モバイルユーザ端末間で、電話通話または他の通信をパケットデータトラフィックとして搬送するように構成できる。モバイル加入者ユニット１０または他のユーザ端末は、「アクセス端末」とも呼ばれる。

図５５に、タスクＴ１００、Ｔ１１０、Ｔ１２０、Ｔ１３０、Ｔ１４０、Ｔ１５０、Ｔ１６０、Ｔ１７０、Ｔ１８０、Ｔ２１０、Ｔ２２０、およびＴ２３０を含む、一構成による再生オーディオ信号を処理する方法Ｍ１１０のフローチャートを示す。タスクＴ１００は、（たとえば、ＳＳＰフィルタＳＳ１０に関して本明細書で説明したように）マルチチャネル感知オーディオ信号から雑音基準を得る。タスクＴ１１０は、（たとえば、変換モジュールＳＧ１０に関して本明細書で説明したように）雑音基準に対して周波数変換を実行する。タスクＴ１２０は、（たとえば、ビニングモジュールＳＧ２０に関して上述したように）タスクＴ１１０によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。雑音基準のサブバンドの各々について、タスクＴ１３０は、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。

タスクＴ２１０は、（たとえば、変換モジュールＳＧ１０に関して本明細書で説明したように）再生オーディオ信号Ｓ４０に対して周波数変換を実行する。タスクＴ２２０は、（たとえば、ビニングモジュールＳＧ２０に関して上述したように）タスクＴ２１０によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。再生オーディオ信号のサブバンドの各々について、タスクＴ２３０は、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。

再生オーディオ信号のサブバンドの各々について、タスクＴ１４０は、（たとえば、比計算器ＧＣ１０に関して上述したように）サブバンドパワー比を計算する。タスクＴ１５０は、時間的に平滑化されたパワー比およびハングオーバ論理からサブバンド利得係数値を更新し、タスクＴ１６０は、（たとえば、平滑器ＧＣ２０に関して上述したように）ヘッドルームとボリュームとによって定義された下限および上限に対してサブバンド利得を確認する。タスクＴ１７０はサブバンドバイカッドフィルタ係数を更新し、タスクＴ１８０は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）更新されたバイカッドカスケードを使用して再生オーディオ信号Ｓ４０をフィルタ処理する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法Ｍ１１０を実行することが望ましい。

図５６に、タスクＴ１４０、Ｔ１５０、Ｔ１６０、Ｔ１７０、Ｔ１８０、Ｔ２１０、Ｔ２２０、Ｔ２３０、Ｔ３１０、Ｔ３２０、およびＴ３３０を含む、一構成による再生オーディオ信号を処理する方法Ｍ１２０のフローチャートを示す。タスクＴ３１０は、（たとえば、変換モジュールＳＧ１０、等化器ＥＱ１００、および非分離感知オーディオ信号Ｓ９０に関して本明細書で説明したように）非分離感知オーディオ信号に対して周波数変換を実行する。タスクＴ３２０は、（たとえば、ビニングモジュールＳＧ２０に関して上述したように）タスクＴ３１０によって生成された均一分解能変換信号の値を不均一サブバンドにグループ化する。非分離感知オーディオ信号のサブバンドの各々について、タスクＴ３３０は、非分離感知オーディオ信号がボイスアクティビティを現在含んでいない場合、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法Ｍ１２０を実行することが望ましい。

図５７に、タスクＴ１４０、Ｔ１５０、Ｔ１６０、Ｔ１７０、Ｔ１８０、Ｔ４１０、Ｔ４２０、Ｔ４３０、Ｔ５１０、およびＴ５３０を含む、一構成による再生オーディオ信号を処理する方法Ｍ２１０のフローチャートを示す。タスクＴ４１０は、（たとえば、サブバンドフィルタアレイＳＧ３０、等化器ＥＱ１００、および非分離感知オーディオ信号Ｓ９０に関して本明細書で説明したように）現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによって非分離感知オーディオ信号を処理する。タスクＴ４２０は、（たとえば、ミニマイザーＭＺ１０に関して本明細書で説明したように）現在のフレームの最小サブバンドパワー推定値を識別し、すべての他の現在のフレームのサブバンドパワー推定値をその値と交換する。非分離感知オーディオ信号のサブバンドの各々について、タスクＴ４３０は、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。タスクＴ５１０は、（たとえば、サブバンドフィルタアレイＳＧ３０および等化器ＥＱ１００に関して本明細書で説明したように）現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによって再生オーディオ信号を処理する。再生オーディオ信号のサブバンドの各々について、タスクＴ５３０は、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法Ｍ２１０を実行することが望ましい。

図５８に、タスクＴ１４０、Ｔ１５０、Ｔ１６０、Ｔ１７０、Ｔ１８０、Ｔ４１０、Ｔ４２０、Ｔ４３０、Ｔ５１０、Ｔ５３０、Ｔ６１０、Ｔ６３０、およびＴ６４０を含む、一構成による再生オーディオ信号を処理する方法Ｍ２２０のフローチャートを示す。タスクＴ６１０は、（たとえば、雑音基準Ｓ３０、サブバンドフィルタアレイＳＧ３０、および等化器ＥＱ１００に関して本明細書で説明したように）現在のフレームのサブバンドパワー推定値を得るために、バイカッドサブバンドフィルタによってマルチチャネル感知オーディオ信号からの雑音基準を処理する。雑音基準のサブバンドの各々について、タスクＴ６３０は、（たとえば、サブバンドパワー推定値計算器ＥＣ１２０に関して上述したように）時間的に平滑化されたパワー推定値を更新する。タスクＴ４３０およびＴ６３０によって生成されたサブバンドパワー推定値から、タスクＴ６４０は、（たとえば、マキシマイザーＭＡＸ１０に関して上述したように）各サブバンド中の最大パワー推定値を取る。再生オーディオ信号がボイスアクティビティを現在含んでいるという指示に応答して方法Ｍ２２０を実行することが望ましい。

図５９Ａに、タスクＴ８１０、Ｔ８２０、およびＴ８３０を含み、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で開示する通信および／またはオーディオ再生デバイスの多数の例のうちの１つ）によって実行できる、一般的構成による再生オーディオ信号を処理する方法Ｍ３００のフローチャートを示す。タスクＴ８１０は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行する。タスクＴ８２０は、（たとえば、等化器ＥＱ１０に関して上述したように）等化されたオーディオ信号を生成するために再生オーディオ信号を等化する。タスクＴ８２０は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするタスクＴ８３０を含む。

図５９Ｂに、タスクＴ８４０と、Ｔ８５０と、Ｔ８６０と、タスクＴ８３０の実装形態Ｔ８３２とを含むタスクＴ８２０の実装形態Ｔ８２２のフローチャートを示す。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ８４０は、（たとえば、第１のサブバンドパワー推定値発生器ＥＣ１００ａに関して上述したように）第１のサブバンドパワー推定値を計算する。雑音基準の複数のサブバンドの各々について、タスクＴ８５０は、（たとえば、第２のサブバンドパワー推定値発生器ＥＣ１００ｂに関して上述したように）第２のサブバンドパワー推定値を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ８６０は、（たとえば、サブバンド利得係数計算器ＧＣ１００に関して上述したように）対応する第１のパワー推定値と第２のパワー推定値との比を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ８３２は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）対応する計算された比に基づく利得係数をサブバンドに適用する。

図６０Ａに、タスクＴ８７０と、Ｔ８７２と、Ｔ８７４とを含むタスクＴ８４０の実装形態Ｔ８４２のフローチャートを示す。タスクＴ８７０は、（たとえば、変換モジュールＳＧ１０に関して上述したように）変換信号を得るために再生オーディオ信号に対して周波数変換を実行する。タスクＴ８７２は、（たとえば、ビニングモジュールＳＧ２０に関して上述したように）複数のビンを得るために、変換信号にサブバンド分割方式を適用する。複数のビンの各々について、タスクＴ８７４は、（たとえば、加算器ＥＣ１０に関して上述したように）ビンにわたる和を計算する。タスクＴ８４２は、複数の第１のサブバンドパワー推定値の各々が、タスクＴ８７４によって計算された和のうちの対応する１つに基づくように構成される。

図６０Ｂに、タスクＴ８８０を含むタスクＴ８４０の実装形態Ｔ８４４のフローチャートを示す。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ８８０は、（たとえば、サブバンドフィルタアレイＳＧ３０に関して上述したように）ブースティングされたサブバンド信号を得るために、再生オーディオ信号のサブバンドの利得を他のサブバンドに対してブースティングする。タスクＴ８４４は、複数の第１のサブバンドパワー推定値の各々が、ブースティングされたサブバンド信号のうちの対応する１つからの情報に基づくように構成される。

図６０Ｃに、フィルタ段のカスケードを使用して再生オーディオ信号をフィルタ処理するタスクＴ８２０の実装形態Ｔ８２４のフローチャートを示す。タスクＴ８２４はタスクＴ８３０の実装形態Ｔ８３４を含む。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ８３４は、カスケードの対応するフィルタ段に利得係数を適用することによって、利得係数をサブバンドに適用する。

図６０Ｄに、タスクＴ８０５、Ｔ８１０、およびＴ８２０を含む、一般的構成による再生オーディオ信号を処理する方法Ｍ３１０のフローチャートを示す。タスクＴ８０５は、（たとえば、エコーキャンセラＥＣ１０に関して上述したように）マルチチャネル感知オーディオ信号を得るために、等化されたオーディオ信号からの情報に基づいて複数のマイクロフォン信号に対してエコー消去演算を実行する。

図６１に、タスクＴ８１０、Ｔ８２０、およびＴ９１０を含む、一構成による再生オーディオ信号を処理する方法Ｍ４００のフローチャートを示す。音源信号と雑音基準とのうちの少なくとも１つからの情報に基づいて、方法Ｍ４００は、（たとえば、装置Ａ２００に関して上述したように）第１のモードまたは第２のモードで動作する。第１のモードでの動作は第１の時間期間中に行われ、第２のモードでの動作は、第１の時間期間とは別の第２の時間期間中に行われる。第１のモードでは、タスクＴ８２０が実行される。第２のモードでは、タスクＴ９１０が実行される。タスクＴ９１０は、（たとえば、等化器ＥＱ１００に関して上述したように）非分離感知オーディオ信号からの情報に基づいて再生オーディオ信号を等化する。タスクＴ９１０は、タスクＴ９１２、Ｔ９１４、およびＴ９１６を含む。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ９１２は第１のサブバンドパワー推定値を計算する。非分離感知オーディオ信号の複数のサブバンドの各々について、タスクＴ９１４は第２のサブバンドパワー推定値を計算する。再生オーディオ信号の複数のサブバンドの各々について、タスクＴ９１６は、（Ａ）対応する第１のサブバンドパワー推定値と、（Ｂ）複数の第２のサブバンドパワー推定値の中の最小値とに基づく、対応する利得係数をサブバンドに適用する。

図６２Ａに、一般的構成による、再生オーディオ信号を処理するための装置Ｆ１００のブロック図を示す。装置Ｆ１００は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して指向性処理演算を実行するための手段Ｆ１１０を含む。装置Ｆ１００はまた、（たとえば、等化器ＥＱ１０に関して上述したように）等化されたオーディオ信号を生成するために再生オーディオ信号を等化するための手段Ｆ１２０を含む。手段Ｆ１２０は、雑音基準からの情報に基づいて、再生オーディオ信号の少なくとも１つの周波数サブバンドを、再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成される。装置Ｆ１００、手段Ｆ１１０、および手段Ｆ１２０の多数の実装形態は、（たとえば、本明細書で開示する様々な要素および動作によって）本明細書で明確に開示される。

図６２Ｂに、等化するための手段Ｆ１２０の実装形態Ｆ１２２のブロック図を示す。手段Ｆ１２２は、（たとえば、第１のサブバンドパワー推定値発生器ＥＣ１００ａに関して上述したように）再生オーディオ信号の複数のサブバンドの各々について第１のサブバンドパワー推定値を計算するための手段Ｆ１４０と、（たとえば、第２のサブバンドパワー推定値発生器ＥＣ１００ｂに関して上述したように）雑音基準の複数のサブバンドの各々について第２のサブバンドパワー推定値を計算するための手段Ｆ１５０とを含む。手段Ｆ１２２はまた、（たとえば、サブバンド利得係数計算器ＧＣ１００に関して上述したように）再生オーディオ信号の複数のサブバンドの各々について、対応する第１のパワー推定値と第２のパワー推定値との比に基づいてサブバンド利得係数を計算するための手段Ｆ１６０と、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）対応する利得係数を再生オーディオ信号の複数のサブバンドの各々に適用するための手段Ｆ１３０とを含む。

図６３Ａに、タスクＶ１１０、Ｖ１２０、Ｖ１４０、Ｖ２１０、Ｖ２２０、およびＶ２３０を含み、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で開示する通信および／またはオーディオ再生デバイスの多数の例のうちの１つ）によって実行できる、一般的構成による再生オーディオ信号を処理する方法Ｖ１００のフローチャートを示す。（たとえば、信号発生器ＳＧ１００ａおよびパワー推定値計算器ＥＣ１００ａに関して上述したように）タスクＶ１１０は、第１の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理し、タスクＶ１２０は複数の第１のサブバンドパワー推定値を計算する。タスクＶ２１０は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する。（たとえば、信号発生器ＳＧ１００ｂおよびパワー推定値計算器ＥＣ１００ｂまたはＮＰ１００に関して上述したように）タスクＶ２２０は、第２の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理し、タスクＶ２３０は複数の第２のサブバンドパワー推定値を計算する。タスクＶ１４０は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）再生オーディオ信号の少なくとも１つのサブバンドを少なくとも１つの他のサブバンドに対してブースティングする。

図６３Ｂに、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で開示する通信および／またはオーディオ再生デバイスの多数の例のうちの１つ）内に含めることができる、一般的構成による再生オーディオ信号を処理するための装置Ｗ１００のブロック図を示す。装置Ｗ１００は、（たとえば、信号発生器ＳＧ１００ａおよびパワー推定値計算器ＥＣ１００ａに関して上述したように）第１の複数の時間領域サブバンド信号を得るために再生オーディオ信号をフィルタ処理するための手段Ｖ１１０と、複数の第１のサブバンドパワー推定値を計算するための手段Ｖ１２０とを含む。装置Ｗ１００は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段Ｗ２１０を含む。装置Ｗ１００は、（たとえば、信号発生器ＳＧ１００ｂおよびパワー推定値計算器ＥＣ１００ｂまたはＮＰ１００に関して上述したように）第２の複数の時間領域サブバンド信号を得るために雑音基準をフィルタ処理するための手段Ｗ２２０と、複数の第２のサブバンドパワー推定値を計算するための手段Ｗ２３０とを含む。装置Ｗ１００は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）再生オーディオ信号の少なくとも１つのサブバンドを少なくとも１つの他のサブバンドに対してブースティングするための手段Ｗ１４０を含む。

図６４Ａに、タスクＶ３１０、Ｖ３２０、Ｖ３３０、Ｖ３４０、Ｖ４２０、およびＶ５２０を含み、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で開示する通信および／またはオーディオ再生デバイスの多数の例のうちの１つ）によって実行できる、一般的構成による再生オーディオ信号を処理する方法Ｖ２００のフローチャートを示す。タスクＶ３１０は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する。タスクＶ３２０は、（たとえば、パワー推定値計算器ＮＣ１００ｂに関して上述したように）複数の第１の雑音サブバンドパワー推定値を計算する。マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準の複数のサブバンドの各々について、タスクＶ３２０は、（たとえば、パワー推定値計算器ＮＣ１００ｃに関して上述したように）対応する第２の雑音サブバンドパワー推定値を計算する。タスクＶ５２０は、（たとえば、パワー推定値計算器ＥＣ１００ａに関して上述したように）複数の第１のサブバンドパワー推定値を計算する。タスクＶ３３０は、（たとえば、パワー推定値計算器ＮＰ１００に関して上述したように）第１の雑音サブバンドパワー推定値と第２の雑音サブバンドパワー推定値との最大値に基づいて複数の第２のサブバンドパワー推定値を計算する。タスクＶ３４０は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）再生オーディオ信号の少なくとも１つのサブバンドを少なくとも１つの他のサブバンドに対してブースティングする。

図６４Ｂに、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で開示する通信および／またはオーディオ再生デバイスの多数の例のうちの１つ）内に含めることができる、一般的構成による再生オーディオ信号を処理するための装置Ｗ１００のブロック図を示す。装置Ｗ１００は、（たとえば、ＳＳＰフィルタＳＳ１０に関して上述したように）音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段Ｗ３１０と、（たとえば、パワー推定値計算器ＮＣ１００ｂに関して上述したように）複数の第１の雑音サブバンドパワー推定値を計算するための手段Ｗ３２０とを含む。装置Ｗ１００は、マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準の複数のサブバンドの各々について、（たとえば、パワー推定値計算器ＮＣ１００ｃに関して上述したように）対応する第２の雑音サブバンドパワー推定値を計算するための手段Ｗ３２０を含む。装置Ｗ１００は、（たとえば、パワー推定値計算器ＥＣ１００ａに関して上述したように）複数の第１のサブバンドパワー推定値を計算するための手段Ｗ５２０を含む。装置Ｗ１００は、（たとえば、パワー推定値計算器ＮＰ１００に関して上述したように）第１の雑音サブバンドパワー推定値と第２の雑音サブバンドパワー推定値との最大値に基づいて複数の第２のサブバンドパワー推定値を計算するための手段Ｗ３３０を含む。装置Ｗ１００は、（たとえば、サブバンドフィルタアレイＦＡ１００に関して上述したように）再生オーディオ信号の少なくとも１つのサブバンドを少なくとも１つの他のサブバンドに対してブースティングするための手段Ｗ３４０を含む。

説明した構成の上記の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示する一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

本明細書で説明した通信デバイスの送信機および／または受信機とともに使用できる、またはそれらとともに使用するように適応させることができるコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、２００７年２月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０、ｖ３．０、２００４年１月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ音声コーデック、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）に記載されているＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ（ＡＭＲ）音声コーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲＷｉｄｅｂａｎｄ音声コーデックがある。

情報および信号は、多種多様な技術および技法のいずれかを使用して表すことができることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及されるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表すことができる。

本明細書で開示する構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報（たとえば、本明細書で識別される例の１つなどの圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または（たとえば、広帯域通信用の）より高いサンプリングレートにおけるボイス通信の適用例では特に、（一般に百万命令／秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑性を最小にすることを含むことができる。

本明細書で開示する装置の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の２つ以上、さらにはすべてを同じ１つまたは複数のアレイ内に実装することができる。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装できる。

本明細書で開示する装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）として実施することもでき、これらの要素の任意の２つ以上、さらにはすべてを同じそのような１つまたは複数のコンピュータ内に実装することができる。

本明細書で開示する構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐することができる。ＡＳＩＣはユーザ端末中に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐することができる。

本明細書で開示する様々な方法（たとえば、方法Ｍ１１０、Ｍ１２０、Ｍ２１０、Ｍ２２０、Ｍ３００、およびＭ４００、ならびに本明細書で開示する装置の様々な実装形態の動作の説明によって本明細書で明確に開示されるそのような方法および追加の方法の多数の実装形態）は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。

本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号でも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施するか、プロセッサによって実行されるソフトウェアモジュールで実施するか、またはその２つの組合せで実施することができる。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成される。タスクの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって可読および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体など）に埋め込まれたコード（たとえば、命令の１つまたは複数のセット）として実装することもできる。本明細書で開示する方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含むことができる。

本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。

１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装できる。ソフトウェアで実装した場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体とすることができる。限定ではなく、例として、そのようなコンピュータ可読媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含むことができる）半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイディスク（disc）（商標）（ブルーレイディスクアソシエーション、カリフォルニア州ユニヴァーサルシティー）を含み、この場合、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。

本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ上に常駐する電子デバイスおよび／または光デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。

本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／または光デバイスの構成）を有することが可能である。たとえば、サブバンド信号発生器ＳＧ１００ａ、ＳＧ１００ｂ、およびＳＧ１００ｃのうちの２つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドパワー推定値計算器ＥＣ１００ａ、ＥＣ１００ｂ、およびＥＣ１００ｃのうちの２つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドフィルタアレイＦＡ１００、およびサブバンドフィルタアレイＳＧ３０の１つまたは複数の実装形態は、（たとえば、異なる時間にフィルタ係数値の異なるセットを使用して）異なる時間に同じ構造を含むように実装できる。

また、装置Ａ１００および／または等化器ＥＱ１０の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、（装置Ａ１４０に関して説明した）ＡＧＣモジュールＧ１０、（装置Ａ１１０に関して説明した）オーディオプリプロセッサＡＰ１０、（オーディオプリプロセッサＡＰ２０に関して説明した）エコーキャンセラＥＣ１０、（装置Ａ１０５に関して説明した）雑音低減段ＮＲ１０、（装置Ａ１２０に関して説明した）ボイスアクティビティ検出器Ｖ１０のうちの１つまたは複数は、装置Ａ１００の他の開示した実装形態中に含めることができる。同様に、（等化器ＥＱ４０に関して説明した）ピークリミッタＬ１０は、等化器ＥＱ１０の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号Ｓ１０の２チャネル（たとえば、ステレオ）インスタンスへの適用例について説明したが、（たとえば、３つ以上のマイクロフォンのアレイからの）３つ以上のチャネルを有する感知オーディオ信号Ｓ１０のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。

また、装置Ａ１００および／または等化器ＥＱ１０の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、（装置Ａ１４０に関して説明した）ＡＧＣモジュールＧ１０、（装置Ａ１１０に関して説明した）オーディオプリプロセッサＡＰ１０、（オーディオプリプロセッサＡＰ２０に関して説明した）エコーキャンセラＥＣ１０、（装置Ａ１０５に関して説明した）雑音低減段ＮＲ１０、（装置Ａ１２０に関して説明した）ボイスアクティビティ検出器Ｖ１０のうちの１つまたは複数は、装置Ａ１００の他の開示した実装形態中に含めることができる。同様に、（等化器ＥＱ４０に関して説明した）ピークリミッタＬ１０は、等化器ＥＱ１０の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号Ｓ１０の２チャネル（たとえば、ステレオ）インスタンスへの適用例について説明したが、（たとえば、３つ以上のマイクロフォンのアレイからの）３つ以上のチャネルを有する感知オーディオ信号Ｓ１０のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[１] 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える、再生オーディオ信号を処理する方法。
[２] 前記方法が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理することを含み、
複数の第２のサブバンドパワー推定値を前記計算することが、前記第３の複数の時間領域サブバンド信号からの情報に基づく、
[１]に記載の再生オーディオ信号を処理する方法。
[３] 前記第２の雑音基準が非分離感知オーディオ信号である、[２]に記載の再生オーディオ信号を処理する方法。
[４] 複数の第２のサブバンドパワー推定値を前記計算することが、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと、
前記計算された複数の第２の雑音サブバンドパワー推定値の中の最小値を識別することと
を含み、
前記複数の第２のサブバンドパワー推定値のうちの少なくとも２つの前記値が前記識別された最小値に基づく、
[３]に記載の再生オーディオ信号を処理する方法。
[５] 前記第２の雑音基準が前記音源信号に基づく、[２]に記載の再生オーディオ信号を処理する方法。
[６] 複数の第２のサブバンドパワー推定値を前記計算することが、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと
を含み、
前記複数の第２のサブバンドパワー推定値の各々が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づく、
[２]に記載の再生オーディオ信号を処理する方法。
[７] 空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、[１]に記載の再生オーディオ信号を処理する方法。
[８] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を前記実行することは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離すること含む、
[１]に記載の再生オーディオ信号を処理する方法。
[９] 第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号を前記フィルタ処理することが、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第１の複数の時間領域サブバンド信号の各々を得ることを含む、[１]に記載の再生オーディオ信号を処理する方法。
[１０] 前記方法が、前記複数の第１のサブバンドパワー推定値の各々について、前記第１のサブバンドパワー推定値と前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比を計算することを含み、
前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることが、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用することを含む、
[１]に記載の再生オーディオ信号を処理する方法。
[１１] 前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることが、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理することを含み、
前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を前記適用することが、前記カスケードの対応するフィルタ段に前記利得係数を適用することを備える、
[１０]に記載の再生オーディオ信号を処理する方法。
[１２] 前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する利得係数の現在値が、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって抑制される、[１０]に記載の再生オーディオ信号を処理する方法。
[１３] 前記方法が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化することを含む、[１０]に記載の再生オーディオ信号を処理する方法。
[１４] 前記方法が、前記マルチチャネル感知オーディオ信号を得るために、複数のマイクロフォン信号に対してエコー消去演算を実行することを含み、
エコー消去演算を前記実行することが、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることから生じるオーディオ信号からの情報に基づく、
[１]に記載の再生オーディオ信号を処理する方法。
[１５] 再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
前記再生オーディオ信号の複数のサブバンドの各々について第１のサブバンドパワー推定値を計算することと、
前記雑音基準の複数のサブバンドの各々について第１の雑音サブバンドパワー推定値を計算することと、
前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準の複数のサブバンドの各々について第２の雑音サブバンドパワー推定値を計算することと、
前記再生オーディオ信号の前記複数のサブバンドの各々について、前記対応する第１の雑音サブバンドパワー推定値と第２の雑音サブバンドパワー推定値との最大値に基づく第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える方法。
[１６] 前記第２の雑音基準が非分離感知オーディオ信号である、[１５]に記載の方法。
[１７] 前記第２の雑音基準が前記音源信号に基づく、[１５に記載の方法。
[１８] 再生オーディオ信号を処理するための装置であって、前記装置が、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理するように構成された第１のサブバンド信号発生器と、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算するように構成された第１のサブバンドパワー推定値計算器と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理するように構成された第２のサブバンド信号発生器と、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算するように構成された第２のサブバンドパワー推定値計算器と、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイと
を備える、再生オーディオ信号を処理するための装置。
[１９] 前記方法が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理するように構成された第３のサブバンド信号発生器を含み、
前記第２のサブバンドパワー推定値計算器が、前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算するように構成された、
[１８]に記載の再生オーディオ信号を処理するための装置。
[２０] 前記第２の雑音基準が非分離感知オーディオ信号である、[１９]に記載の再生オーディオ信号を処理するための装置。
[２１] 前記第２の雑音基準が前記音源信号に基づく、[１９]に記載の再生オーディオ信号を処理するための装置。
[２２] 前記第２のサブバンドパワー推定値計算器が、（Ａ）前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算し、（Ｂ）前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算するように構成され、
前記第２のサブバンドパワー推定値計算器が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算するように構成された、
[１９]に記載の再生オーディオ信号を処理するための装置。
[２３] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
前記空間選択的処理フィルタは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
[１８]に記載の再生オーディオ信号を処理するための装置。
[２４] 前記第１のサブバンド信号発生器が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第１の複数の時間領域サブバンド信号の各々を得るように構成された、
[１８]に記載の再生オーディオ信号を処理するための装置。
[２５] 前記装置が、前記複数の第１のサブバンドパワー推定値の各々について、前記第１のサブバンドパワー推定値と前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比を計算するように構成されたサブバンド利得係数計算器を含み、
前記サブバンドフィルタアレイが、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
[１８]に記載の再生オーディオ信号を処理するための装置。
[２６] 前記サブバンドフィルタアレイがフィルタ段のカスケードを含み、
前記サブバンドフィルタアレイが、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
[２５]に記載の再生オーディオ信号を処理するための装置。
[２７] 前記サブバンド利得係数計算器が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制するように構成された、[２５]に記載の再生オーディオ信号を処理するための装置。
[２８] 前記第１のサブバンド利得係数計算器が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、[２５]に記載の再生オーディオ信号を処理するための装置。
[２９] プロセッサによって実行されたとき、前記プロセッサに再生オーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
を行わせる命令を備える、コンピュータ可読媒体。
[３０] 前記媒体が、プロセッサによって実行されたとき、前記プロセッサに、第３の複数の時間領域サブバンド信号を得るために前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算させる、
[２９]に記載のコンピュータ可読媒体。
[３１] 前記第２の雑音基準が非分離感知オーディオ信号である、[３０]に記載のコンピュータ可読媒体。
[３２] 前記第２の雑音基準が前記音源信号に基づく、[３０]に記載のコンピュータ可読媒体。
[３３] プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと
を行わせる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算させる、
[３０]に記載のコンピュータ可読媒体。
[３４] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
プロセッサによって実行されたとき、前記プロセッサに空間選択的処理演算を実行させる前記命令は、プロセッサによって実行されたとき、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記プロセッサに前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離させる命令を含む、
[２９]に記載のコンピュータ可読媒体。
[３５] プロセッサによって実行されたとき、前記プロセッサに、第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第１の複数の時間領域サブバンド信号の各々を得ることを行わせる命令を含む、[２９]に記載のコンピュータ可読媒体。
[３６] 前記装置が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、（Ａ）前記第１のサブバンドパワー推定値と（Ｂ）前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比に基づく利得係数を計算させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用させる命令を含む、
[２９]に記載のコンピュータ可読媒体。
[３７] プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記カスケードの対応するフィルタ段に前記利得係数を適用させる命令を含む、
[３６]に記載のコンピュータ可読媒体。
[３８] プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制させる命令を含む、[３６]に記載のコンピュータ可読媒体。
[３９] プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化させる命令を含む、[３６]に記載のコンピュータ可読媒体。
[４０] 再生オーディオ信号を処理するための装置であって、前記装置が、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理する手段と、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算する手段と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する手段と、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理する手段と、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算する手段と、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングする手段と
を備える装置。
[４１] 前記装置が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理する手段を含み、
複数の第２のサブバンドパワー推定値を計算する前記手段が、前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算するように構成された、
[４０]に記載の再生オーディオ信号を処理するための装置。
[４２] 前記第２の雑音基準が非分離感知オーディオ信号である、[４１]に記載の再生オーディオ信号を処理するための装置。
[４３] 前記第２の雑音基準が前記音源信号に基づく、[４１]に記載の再生オーディオ信号を処理するための装置。
[４４] 複数の第２のサブバンドパワー推定値を計算する前記手段が、（Ａ）前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算し、（Ｂ）前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算するように構成され、
複数の第２のサブバンドパワー推定値を計算する前記手段が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算するように構成された、
[４１]に記載の再生オーディオ信号を処理するための装置。
[４５] 前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を実行する前記手段は、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
[４０]に記載の再生オーディオ信号を処理するための装置。
[４６] 前記再生オーディオ信号をフィルタ処理する前記手段が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第１の複数の時間領域サブバンド信号の各々を得るように構成された、
[４０]に記載の再生オーディオ信号を処理するための装置。
[４７] 前記装置が、前記複数の第１のサブバンドパワー推定値の各々について、（Ａ）前記第１のサブバンドパワー推定値と（Ｂ）前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比に基づく利得係数を計算する手段を含み、
ブースティングするための前記手段が、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
[４０]に記載の再生オーディオ信号を処理するための装置。
[４８] ブースティングするための前記手段がフィルタ段のカスケードを含み、
ブースティングする前記手段が、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
[４７]に記載の再生オーディオ信号を処理するための装置。
[４９] 利得係数を計算する前記手段が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制するように構成された、[４７]に記載の再生オーディオ信号を処理するための装置。
[５０] 利得係数を計算する前記手段が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、[４７]に記載の再生オーディオ信号を処理するための装置。

Claims

再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える、再生オーディオ信号を処理する方法。
前記方法が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理することを含み、
複数の第２のサブバンドパワー推定値を前記計算することが、前記第３の複数の時間領域サブバンド信号からの情報に基づく、
請求項１に記載の再生オーディオ信号を処理する方法。
前記第２の雑音基準が非分離感知オーディオ信号である、請求項２に記載の再生オーディオ信号を処理する方法。
複数の第２のサブバンドパワー推定値を前記計算することが、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと、
前記計算された複数の第２の雑音サブバンドパワー推定値の中の最小値を識別することと
を含み、
前記複数の第２のサブバンドパワー推定値のうちの少なくとも２つの前記値が前記識別された最小値に基づく、
請求項３に記載の再生オーディオ信号を処理する方法。
前記第２の雑音基準が前記音源信号に基づく、請求項２に記載の再生オーディオ信号を処理する方法。
複数の第２のサブバンドパワー推定値を前記計算することが、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと
を含み、
前記複数の第２のサブバンドパワー推定値の各々が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づく、
請求項２に記載の再生オーディオ信号を処理する方法。
空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、請求項１に記載の再生オーディオ信号を処理する方法。
前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を前記実行することは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離すること含む、
請求項１に記載の再生オーディオ信号を処理する方法。
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号を前記フィルタ処理することが、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第１の複数の時間領域サブバンド信号の各々を得ることを含む、請求項１に記載の再生オーディオ信号を処理する方法。
前記方法が、前記複数の第１のサブバンドパワー推定値の各々について、前記第１のサブバンドパワー推定値と前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比を計算することを含み、
前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることが、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用することを含む、
請求項１に記載の再生オーディオ信号を処理する方法。
前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることが、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理することを含み、
前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を前記適用することが、前記カスケードの対応するフィルタ段に前記利得係数を適用することを備える、
請求項１０に記載の再生オーディオ信号を処理する方法。
前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する利得係数の現在値が、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって抑制される、請求項１０に記載の再生オーディオ信号を処理する方法。
前記方法が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化することを含む、請求項１０に記載の再生オーディオ信号を処理する方法。
前記方法が、前記マルチチャネル感知オーディオ信号を得るために、複数のマイクロフォン信号に対してエコー消去演算を実行することを含み、
エコー消去演算を前記実行することが、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対して前記ブースティングすることから生じるオーディオ信号からの情報に基づく、
請求項１に記載の再生オーディオ信号を処理する方法。
再生オーディオ信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
前記再生オーディオ信号の複数のサブバンドの各々について第１のサブバンドパワー推定値を計算することと、
前記雑音基準の複数のサブバンドの各々について第１の雑音サブバンドパワー推定値を計算することと、
前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準の複数のサブバンドの各々について第２の雑音サブバンドパワー推定値を計算することと、
前記再生オーディオ信号の前記複数のサブバンドの各々について、前記対応する第１の雑音サブバンドパワー推定値と第２の雑音サブバンドパワー推定値との最大値に基づく第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
の各々を実行することを備える方法。
前記第２の雑音基準が非分離感知オーディオ信号である、請求項１５に記載の方法。
前記第２の雑音基準が前記音源信号に基づく、請求項１５に記載の方法。
再生オーディオ信号を処理するための装置であって、前記装置が、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理するように構成された第１のサブバンド信号発生器と、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算するように構成された第１のサブバンドパワー推定値計算器と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理するように構成された第２のサブバンド信号発生器と、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算するように構成された第２のサブバンドパワー推定値計算器と、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成されたサブバンドフィルタアレイと
を備える、再生オーディオ信号を処理するための装置。
前記方法が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理するように構成された第３のサブバンド信号発生器を含み、
前記第２のサブバンドパワー推定値計算器が、前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算するように構成された、
請求項１８に記載の再生オーディオ信号を処理するための装置。
前記第２の雑音基準が非分離感知オーディオ信号である、請求項１９に記載の再生オーディオ信号を処理するための装置。
前記第２の雑音基準が前記音源信号に基づく、請求項１９に記載の再生オーディオ信号を処理するための装置。
前記第２のサブバンドパワー推定値計算器が、（Ａ）前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算し、（Ｂ）前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算するように構成され、
前記第２のサブバンドパワー推定値計算器が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算するように構成された、
請求項１９に記載の再生オーディオ信号を処理するための装置。
前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
前記空間選択的処理フィルタは、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
請求項１８に記載の再生オーディオ信号を処理するための装置。
前記第１のサブバンド信号発生器が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第１の複数の時間領域サブバンド信号の各々を得るように構成された、
請求項１８に記載の再生オーディオ信号を処理するための装置。
前記装置が、前記複数の第１のサブバンドパワー推定値の各々について、前記第１のサブバンドパワー推定値と前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比を計算するように構成されたサブバンド利得係数計算器を含み、
前記サブバンドフィルタアレイが、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
請求項１８に記載の再生オーディオ信号を処理するための装置。
前記サブバンドフィルタアレイがフィルタ段のカスケードを含み、
前記サブバンドフィルタアレイが、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
請求項２５に記載の再生オーディオ信号を処理するための装置。
前記サブバンド利得係数計算器が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制するように構成された、請求項２５に記載の再生オーディオ信号を処理するための装置。
前記第１のサブバンド利得係数計算器が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、請求項２５に記載の再生オーディオ信号を処理するための装置。
プロセッサによって実行されたとき、前記プロセッサに再生オーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理することと、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算することと、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行することと、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理することと、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算することと、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングすることと
を行わせる命令を備える、コンピュータ可読媒体。
前記媒体が、プロセッサによって実行されたとき、前記プロセッサに、第３の複数の時間領域サブバンド信号を得るために前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算させる、
請求項２９に記載のコンピュータ可読媒体。
前記第２の雑音基準が非分離感知オーディオ信号である、請求項３０に記載のコンピュータ可読媒体。
前記第２の雑音基準が前記音源信号に基づく、請求項３０に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算することと、
前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算することと
を行わせる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに複数の第２のサブバンドパワー推定値を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算させる、
請求項３０に記載のコンピュータ可読媒体。
前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
プロセッサによって実行されたとき、前記プロセッサに空間選択的処理演算を実行させる前記命令は、プロセッサによって実行されたとき、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記プロセッサに前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離させる命令を含む、
請求項２９に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき、前記プロセッサに、第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって、前記第１の複数の時間領域サブバンド信号の各々を得ることを行わせる命令を含む、請求項２９に記載のコンピュータ可読媒体。
前記装置が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、（Ａ）前記第１のサブバンドパワー推定値と（Ｂ）前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比に基づく利得係数を計算させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用させる命令を含む、
請求項２９に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき、前記プロセッサに、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングさせる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、フィルタ段のカスケードを使用して前記再生オーディオ信号をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに利得係数を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記カスケードの対応するフィルタ段に前記利得係数を適用させる命令を含む、
請求項３６に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制させる命令を含む、請求項３６に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき、前記プロセッサに利得係数を計算させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化させる命令を含む、請求項３６に記載のコンピュータ可読媒体。
再生オーディオ信号を処理するための装置であって、前記装置が、
第１の複数の時間領域サブバンド信号を得るために前記再生オーディオ信号をフィルタ処理する手段と、
前記第１の複数の時間領域サブバンド信号からの情報に基づいて複数の第１のサブバンドパワー推定値を計算する手段と、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する手段と、
第２の複数の時間領域サブバンド信号を得るために前記雑音基準をフィルタ処理する手段と、
前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第２のサブバンドパワー推定値を計算する手段と、
前記複数の第１のサブバンドパワー推定値からの情報と前記複数の第２のサブバンドパワー推定値からの情報とに基づいて、前記再生オーディオ信号の少なくとも１つの周波数サブバンドを、前記再生オーディオ信号の少なくとも１つの他の周波数サブバンドに対してブースティングする手段と
を備える装置。
前記装置が、第３の複数の時間領域サブバンド信号を得るために、前記マルチチャネル感知オーディオ信号からの情報に基づく第２の雑音基準をフィルタ処理する手段を含み、
複数の第２のサブバンドパワー推定値を計算する前記手段が、前記第３の複数の時間領域サブバンド信号からの情報に基づいて前記複数の第２のサブバンドパワー推定値を計算するように構成された、
請求項４０に記載の再生オーディオ信号を処理するための装置。
前記第２の雑音基準が非分離感知オーディオ信号である、請求項４１に記載の再生オーディオ信号を処理するための装置。
前記第２の雑音基準が前記音源信号に基づく、請求項４１に記載の再生オーディオ信号を処理するための装置。
複数の第２のサブバンドパワー推定値を計算する前記手段が、（Ａ）前記第２の複数の時間領域サブバンド信号からの情報に基づいて複数の第１の雑音サブバンドパワー推定値を計算し、（Ｂ）前記第３の複数の時間領域サブバンド信号からの情報に基づいて複数の第２の雑音サブバンドパワー推定値を計算するように構成され、
複数の第２のサブバンドパワー推定値を計算する前記手段が、（Ａ）前記複数の第１の雑音サブバンドパワー推定値のうちの対応する１つと（Ｂ）前記複数の第２の雑音サブバンドパワー推定値のうちの対応する１つとの最大値に基づいて、前記複数の第２のサブバンドパワー推定値の各々を計算するように構成された、
請求項４１に記載の再生オーディオ信号を処理するための装置。
前記マルチチャネル感知オーディオ信号が指向性成分と雑音成分とを含み、
空間選択的処理演算を実行する前記手段は、前記音源信号が、前記マルチチャネル感知オーディオ信号の各チャネルが含んでいるよりも前記指向性成分の前記エネルギーの多くを含んでいるように、前記雑音成分のエネルギーから前記指向性成分のエネルギーを分離するように構成された、
請求項４０に記載の再生オーディオ信号を処理するための装置。
前記再生オーディオ信号をフィルタ処理する前記手段が、前記再生オーディオ信号の対応するサブバンドの利得を前記再生オーディオ信号の他のサブバンドに対してブースティングすることによって前記第１の複数の時間領域サブバンド信号の各々を得るように構成された、
請求項４０に記載の再生オーディオ信号を処理するための装置。
前記装置が、前記複数の第１のサブバンドパワー推定値の各々について、（Ａ）前記第１のサブバンドパワー推定値と（Ｂ）前記複数の第２のサブバンドパワー推定値のうちの対応する１つとの比に基づく利得係数を計算する手段を含み、
ブースティングするための前記手段が、前記複数の第１のサブバンドパワー推定値の各々について、前記再生オーディオ信号の対応する周波数サブバンドに、前記対応する計算された比に基づく利得係数を適用するように構成された、
請求項４０に記載の再生オーディオ信号を処理するための装置。
ブースティングするための前記手段がフィルタ段のカスケードを含み、
ブースティングする前記手段が、前記カスケードの対応するフィルタ段に前記複数の利得係数の各々を適用するように構成された、
請求項４７に記載の再生オーディオ信号を処理するための装置。
利得係数を計算する前記手段が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記再生オーディオ信号の現在レベルに基づく少なくとも１つの限界によって前記対応する利得係数の現在値を抑制するように構成された、請求項４７に記載の再生オーディオ信号を処理するための装置。
利得係数を計算する前記手段が、前記複数の第１のサブバンドパワー推定値のうちの少なくとも１つについて、前記対応する比の前記値の経時的変化に従って、前記対応する利得係数の値を経時的に平滑化するように構成された、請求項４７に記載の再生オーディオ信号を処理するための装置。