JP2011522294A

JP2011522294A - スペクトルコントラスト強調のためのシステム、方法、装置、およびコンピュータプログラム製品

Info

Publication number: JP2011522294A
Application number: JP2011511857A
Authority: JP
Inventors: トマン、ジェレミー; リン、フン・チュン; ビッサー、エリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-05-29
Filing date: 2009-05-29
Publication date: 2011-07-28
Anticipated expiration: 2029-05-29
Also published as: KR20110025667A; WO2009148960A2; JP5628152B2; KR101270854B1; EP2297730A2; CN103247295B; US20090299742A1; US8831936B2; TW201013640A; CN103247295A; WO2009148960A3; CN102047326A

Abstract

マルチチャネル感知オーディオ信号から空間選択的処理フィルタによって導出された雑音基準からの情報に基づく、音声信号のスペクトルコントラスト強調のためのシステム、方法、および装置を開示する。

Description

優先権の主張

米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、代理人整理番号第０８０４４２Ｐ１号を有し、２００８年５月２９日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR IMPROVED SPECTRAL CONTRAST ENHANCEMENT OF SPEECH AUDIO IN A DUAL-MICROPHONE AUDIO DEVICE」と題する仮出願第６１／０５７，１８７号の優先権を主張する。

同時係属特許出願の参照
本特許出願は、代理人整理番号第０８１７３７号を有し、２００８年１１月２４日に出願されたVisserらによる「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する同時係属の米国特許出願第１２／２７７，２８３号に関する。

本開示は、音声処理に関する。

以前は静かなオフィスまたは家庭環境で行われていた多くの活動が、今日では車、街路、またはカフェのような音響的に変動する状況で行われている。たとえば、ある人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキット、または別の通信デバイスによって提供される。したがって、ユーザが他の人々に囲まれる環境で、人が集まる傾向のある場所で一般的に遭遇する種類の雑音成分を伴って、モバイルデバイス（たとえば、ハンドセットおよび／またはヘッドセット）を使用して、かなりの量のボイス通信が行われている。そのような雑音は、電話会話の遠端にいるユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引（たとえば、口座残高または株価の確認）はボイス認識ベースのデータ照会を採用しており、これらのシステムの精度は干渉雑音によって著しく妨げられる可能性がある。

通信が雑音の多い環境で行われる適用例では、所望の音声信号を背景雑音から分離することが望ましい。雑音は、所望の信号を妨害するか、あるいは劣化させるすべての信号の組合せと定義できる。背景雑音は、他の人々の背景会話など、音響環境内で発生される多数の雑音信号、ならびにそれらの信号の各々から発生される反射および残響を含む。所望の音声信号が背景雑音から分離されない限り、それを確実に効率的に利用することが困難になる可能性がある。

雑音の多い音響環境はまた、電話会話における遠端信号などの所望の再生オーディオ信号をマスキングするか、さもなければ聴取することを困難にする傾向がある。音響環境は、通信デバイスによって再生されている遠端（far-end）信号と競合する多くの制御不能な雑音源を有することがある。そのような雑音は不満足な通信エクスペリエンスを生じることがある。遠端信号が背景雑音と区別できない限り、それを確実に効率的に利用することが困難になる可能性がある。

一般的構成による音声信号を処理する方法は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するために、また、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するために、オーディオ信号を処理するように構成されたデバイスを使用することを含む。本方法では、スペクトルコントラスト強調演算を実行することは、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、音声信号からの情報に基づいて強調ベクトルを発生することと、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成することとを含む。本方法では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。

一般的構成による音声信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段と、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するための手段とを含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段は、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段と、音声信号からの情報に基づいて強調ベクトルを発生するための手段と、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成するための手段とを含む。本装置では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。

別の一般的構成による音声信号を処理するための装置は、音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するように構成されたスペクトルコントラストエンハンサとを含む。本装置では、スペクトルコントラストエンハンサは、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するように構成されたパワー推定値計算器と、音声信号からの情報に基づいて強調ベクトルを発生するように構成された強調ベクトル発生器とを含む。本装置では、スペクトルコントラストエンハンサは、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成するように構成される。本装置では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。

一般的構成によるコンピュータ可読媒体は、少なくとも１つのプロセッサによって実行されたとき、少なくとも１つのプロセッサにマルチチャネルオーディオ信号を処理する方法を実行させる命令を含む。これらの命令は、プロセッサによって実行されたとき、音源信号と雑音基準とを生成するためにプロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、プロセッサによって実行されたとき、処理済み音声信号を生成するためにプロセッサに音声信号に対してスペクトルコントラスト強調演算を実行させる命令とを含む。スペクトルコントラスト強調演算を実行する命令は、雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算する命令と、音声信号からの情報に基づいて強調ベクトルを発生する命令と、複数の雑音サブバンドパワー推定値と音声信号からの情報と強調ベクトルからの情報とに基づいて処理済み音声信号を生成する命令とを含む。本方法では、処理済み音声信号の複数の周波数サブバンドの各々は、音声信号の対応する周波数サブバンドに基づく。

一般的構成による音声信号を処理する方法は、第１の平滑化信号を得るために音声信号のスペクトルを平滑化することと、第２の平滑化信号を得るために第１の平滑化信号を平滑化することと、第１の平滑化信号と第２の平滑化信号との比に基づくコントラスト強調音声信号を生成することとを行うために、オーディオ信号を処理するように構成されたデバイスを使用することを含む。そのような方法を実行するように構成された装置、ならびに、少なくとも１つのプロセッサによって実行されたとき、少なくとも１つのプロセッサにそのような方法を実行させる命令を有するコンピュータ可読媒体をも開示する。

明瞭度指数プロットを示す図。典型的な狭帯域電話アプリケーションにおける再生音声信号のパワースペクトルを示す図。典型的な音声パワースペクトルと典型的な雑音パワースペクトルとの例を示す図。図３の例への自動ボリューム制御の適用を示す図。図３の例へのサブバンド等化の適用を示す図。一般的構成による装置Ａ１００のブロック図。装置Ａ１００の実装形態Ａ１１０のブロック図。装置Ａ１００（および装置Ａ１１０）の実装形態Ａ１２０のブロック図。空間選択的処理（ＳＳＰ）フィルタＳＳ１０の一例のビームパターンを示す図。ＳＳＰフィルタＳＳ１０の実装形態ＳＳ２０のブロック図。装置Ａ１００の実装形態Ａ１３０のブロック図。装置Ａ１３０の実装形態Ａ１３２のブロック図。装置Ａ１３２の実装形態Ａ１３４のブロック図。装置Ａ１３０（および装置Ａ１１０）の実装形態Ａ１４０のブロック図。装置Ａ１４０（および装置Ａ１２０）の実装形態Ａ１５０のブロック図。ＳＳＰフィルタＳＳ１０の実装形態ＳＳ１１０のブロック図。ＳＳＰフィルタＳＳ２０およびＳＳ１１０の実装形態ＳＳ１２０のブロック図。エンハンサＥＮ１０の実装形態ＥＮ１００のブロック図。音声信号のフレームの絶対値スペクトルを示す図。図１３のスペクトルに対応する強調ベクトルＥＶ１０のフレームを示す図。音声信号の絶対値スペクトルの例を示す図。絶対値スペクトルの平滑化バージョンの例を示す図。絶対値スペクトルの二重平滑化バージョンの例を示す図。二重平滑化スペクトルに対する平滑化スペクトルの比の例を示す図。強調ベクトル発生器ＶＧ１００の実装形態ＶＧ１１０のブロック図。強調ベクトル発生器ＶＧ１１０の実装形態ＶＧ１２０のブロック図。図１３の絶対値スペクトルから生成された平滑化信号の例を示す図。図２０の平滑化信号から生成された平滑化信号の例を示す図。音声信号Ｓ４０のフレームのための強調ベクトルの例を示す図。ダイナミックレンジ制御演算のための伝達関数の例を示す図。三角波形へのダイナミックレンジ圧縮演算の適用を示す図。ダイナミックレンジ圧縮演算のための伝達関数の例を示す図。三角波形へのダイナミックレンジ圧縮演算の適用を示す図。適応等化演算の例を示す図。サブバンド信号発生器ＳＧ２００のブロック図サブバンド信号発生器ＳＧ３００のブロック図サブバンド信号発生器ＳＧ４００のブロック図サブバンドパワー推定値計算器ＥＣ１１０のブロック図。サブバンドパワー推定値計算器ＥＣ１２０のブロック図。７つのバーク（Ｂａｒｋ）尺度サブバンドのセットのエッジを示すドットの行を含む図。サブバンドフィルタアレイＳＧ１０の実装形態ＳＧ１２のブロック図。一般的無限インパルス応答（ＩＩＲ）フィルタ実装形態の転置直接形ＩＩを示す図。ＩＩＲフィルタのバイカッド実装形態の転置直接形ＩＩ構造を示す図。ＩＩＲフィルタのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す図。一連の７つのバイカッドの絶対値および位相応答を示す図。エンハンサＥＮ１０の実装形態ＥＮ１１０のブロック図。混合係数計算器ＦＣ２００の実装形態ＦＣ２５０のブロック図。混合係数計算器ＦＣ２５０の実装形態ＦＣ２６０のブロック図。利得係数計算器ＦＣ３００の実装形態ＦＣ３１０のブロック図。利得係数計算器ＦＣ３００の実装形態ＦＣ３２０のブロック図。擬似コードリストを示す図。図３４Ａの擬似コードリストの変形を示す図。図３４Ａの擬似コードリストの変形を示す図。図３４Ｂの擬似コードリストの変形を示す図。利得制御要素ＣＥ１１０の実装形態ＣＥ１１５のブロック図。並列に構成されたバンドパスフィルタのセットを含むサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１１０のブロック図。バンドパスフィルタが直列に構成されたサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１２０のブロック図。ＩＩＲフィルタのバイカッド実装形態の別の例を示す図。エンハンサＥＮ１０の実装形態ＥＮ１２０のブロック図。利得制御要素ＣＥ１２０の実装形態ＣＥ１３０のブロック図。装置Ａ１００の実装形態Ａ１６０のブロック図。装置Ａ１４０（および装置Ａ１６５）の実装形態Ａ１６５のブロック図。図３５Ａの擬似コードリストの変形を示す図。図３５Ａの擬似コードリストの別の変形を示す図。装置Ａ１００の実装形態Ａ１７０のブロック図。装置Ａ１７０の実装形態Ａ１８０のブロック図。ピークリミッタＬ１０を含むエンハンサＥＮ１１０の実装形態ＥＮ１６０のブロック図ピーク制限演算の一例を記載する擬似コードリストを示す図。図４５Ａの擬似コードリストの別のバージョンを示す図。分離評価器ＥＶ１０を含む装置Ａ１００の実装形態Ａ２００のブロック図。装置Ａ２００の実装形態Ａ２１０のブロック図。エンハンサＥＮ２００（およびエンハンサＥＮ１１０）の実装形態ＥＮ３００のブロック図。エンハンサＥＮ３００の実装形態ＥＮ３１０のブロック図。エンハンサＥＮ３００（およびエンハンサＥＮ３１０）の実装形態ＥＮ３２０のブロック図。サブバンド信号発生器ＥＣ２１０のブロック図。サブバンド信号発生器ＥＣ２１０の実装形態ＥＣ２２０のブロック図。エンハンサＥＮ３２０の実装形態ＥＮ３３０のブロック図。エンハンサＥＮ１１０の実装形態ＥＮ４００のブロック図。エンハンサＥＮ１１０の実装形態ＥＮ４５０のブロック図。装置Ａ１００の実装形態Ａ２５０のブロック図。エンハンサＥＮ４５０（およびエンハンサＥＮ４００）の実装形態ＥＮ４６０のブロック図。ボイスアクティビティ検出器Ｖ２０を含む装置Ａ２１０の実装形態Ａ２３０を示す図。エンハンサＥＮ４００の実装形態ＥＮ５５のブロック図。パワー推定値計算器ＥＣ１２０の実装形態ＥＣ１２５のブロック図。装置Ａ１００の実装形態Ａ３００のブロック図。装置Ａ３００の実装形態Ａ３１０のブロック図。装置Ａ３１０の実装形態Ａ３２０のブロック図。装置Ａ１００の実装形態Ａ４００のブロック図。装置Ａ１００の実装形態Ａ５００のブロック図。オーディオプリプロセッサＡＰ１０の実装形態ＡＰ２０のブロック図。オーディオプリプロセッサＡＰ２０の実装形態ＡＰ３０のブロック図。装置Ａ３１０の実装形態Ａ３３０のブロック図。エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図。エコーキャンセラＥＣ２０ａの実装形態ＥＣ２２ａのブロック図。装置Ａ１１０の実装形態Ａ６００のブロック図。第１の動作構成における２マイクロフォンハンドセットＨ１００の図。ハンドセットＨ１００のための第２の動作構成を示す図。３つのマイクロフォンを含むハンドセットＨ１００の実装形態Ｈ１１０の図。ハンドセットＨ１１０の２つの他の図。マルチマイクロフォンオーディオ感知デバイスＤ３００の底面図。マルチマイクロフォンオーディオ感知デバイスＤ３００の上面図。マルチマイクロフォンオーディオ感知デバイスＤ３００の正面図。マルチマイクロフォンオーディオ感知デバイスＤ３００の側面図。ヘッドセットの様々な異なる動作構成の図。ハンズフリーカーキットの図。マルチマイクロフォンオーディオ感知デバイスＤ３５０の底面図。マルチマイクロフォンオーディオ感知デバイスＤ３５０の上面図。マルチマイクロフォンオーディオ感知デバイスＤ３５０の正面図。マルチマイクロフォンオーディオ感知デバイスＤ３５０の側面図。メディア再生デバイスの例を示す図。メディア再生デバイスの例を示す図。メディア再生デバイスの例を示す図。通信デバイスＤ１００のブロック図。通信デバイスＤ１００の実装形態Ｄ２００のブロック図。ボコーダＶＣ１０のブロック図。符号器ＥＮＣ１００の実装形態ＥＮＣ１１０のブロック図。設計方法Ｍ１０のフローチャート。トレーニングデータを記録するように構成された音響無響室の例を示す図。適応フィルタ構造ＦＳ１０の２チャネル例のブロック図。フィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図。ワイヤレス電話システムを示す図。パケット交換データ通信をサポートするように構成されたワイヤレス電話システムを示す図。一般的構成による方法Ｍ１００のフローチャート。方法Ｍ１００の実装形態Ｍ１１０のフローチャート。方法Ｍ１００の実装形態Ｍ１２０のフローチャート。タスクＴ１３０の実装形態Ｔ２３０のフローチャート。タスクＴ１４０の実装形態Ｔ２４０のフローチャート。タスクＴ２４０の実装形態Ｔ３４０のフローチャート。方法Ｍ１１０の実装形態Ｍ１３０のフローチャート。方法Ｍ１００の実装形態Ｍ１４０のフローチャート。一般的構成による方法Ｍ２００のフローチャート。一般的構成による装置Ｆ１００のブロック図。装置Ｆ１００の実装形態Ｆ１１０のブロック図。装置Ｆ１００の実装形態Ｆ１２０のブロック図。手段Ｇ１３０の実装形態Ｇ２３０のブロック図。手段Ｇ１４０の実装形態Ｇ２４０のブロック図。手段Ｇ２４０の実装形態Ｇ３４０のブロック図。装置Ｆ１１０の実装形態Ｆ１３０のブロック図。装置Ｆ１００の実装形態Ｆ１４０のブロック図。一般的構成による装置Ｆ２００のブロック図。

これらの図面では、コンテキストが別段に規定しない限り、同じラベルの使用は同じ構造の例を示す。

モバイル環境中で音声信号に影響を及ぼす雑音は、競合する話し手、音楽、バブル、街頭雑音、および／または空港雑音など、多種多様な成分を含む。そのような雑音のシグナチャは一般に非定常であり、音声信号の周波数シグナチャに近いので、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して雑音をモデル化することが難しい場合がある。単一マイクロフォン雑音低減技法は、一般に最適なパフォーマンスを達成するためにかなりのパラメータチューニングを必要とする。たとえば、そのような場合、好適な雑音基準が直接的に利用可能ではなく、雑音基準を間接的に導出することが必要である。したがって、雑音の多い環境でのボイス通信のためのモバイルデバイスの使用をサポートするために、複数マイクロフォンベースの高度な信号処理が望ましい。１つの特定の例では、雑音の多い環境で音声信号を感知し、音声処理方法を使用して（「背景雑音」または「周囲雑音」とも呼ばれる）環境雑音から音声信号を分離する。別の特定の例では、雑音の多い環境で音声信号を再生し、音声処理方法を使用して環境雑音から音声信号を分離する。雑音は現実の状態ではほとんど常に存在するので、音声信号処理は日常的な通信の多くの領域で重要である。

本明細書で説明するシステム、方法、および装置を使用して、特に雑音の多い環境において、感知音声信号および／または再生音声信号の了解度の向上をサポートすることができる。そのような技法は、一般に任意の記録、オーディオ感知、送受信および／またはオーディオ再生アプリケーション、特にそのようなアプリケーションのモバイルまたはさもなければポータブル事例において適用できる。たとえば、本明細書で開示する構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インターフェースを採用するように構成されたワイヤレス電話通信システムに常駐する通信デバイスを含む。とはいえ、本明細書で説明する特徴を有する方法および装置は、ワイヤードおよび／またはワイヤレス（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、ＴＤ−ＳＣＤＭＡ、またはＯＦＤＭ）送信チャネルを介したボイスオーバーＩＰ（ＶｏＩＰ）を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐することができることが、当業者には理解されよう。

文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算（calculating）」という用語は、本明細書では、複数の値から計算（computing）すること、平滑化すること、評価すること、および／または選択することなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも示すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「導出された」（たとえば、「ＢはＡのプリカーサーである」）、（ｉｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のいずれをも示すのに使用される。

別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定の文脈によって示されるように、方法、装置、および／またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的にサービスするために相互に作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。

「コーダ」、「コーデック」、および「コーディングシステム」という用語は、（場合によっては知覚的重み付けおよび／または他のフィルタ処理演算などの１つまたは複数の前処理演算の後に）オーディオ信号のフレームを受信し、符号化するように構成された少なくとも１つの符号器と、符号化フレームを受信し、フレームの対応する復号表現を生成するように構成された対応する復号器とを含むシステムを示すのに互換的に使用される。そのような符号器および復号器は一般に通信リンクの反対側の端末に配備される。フルデュプレックス通信をサポートするために、符号器と復号器の両方のインスタンスは、一般にそのようなリンクの各端部に配備される。

本明細書では、「感知オーディオ信号」という用語は、１つまたは複数のマイクロフォンを介して受信される信号を示す。通信または記録デバイスなど、オーディオ感知デバイスは、感知オーディオ信号に基づいて信号を記憶し、および／またはそのような信号を、オーディオ送信デバイスに結合された１つまたは複数の他のデバイスにワイヤを介してもしくはワイヤレスに出力するように構成できる。

本明細書では、「再生オーディオ信号」という用語は、記憶装置から取り出され、および／またはワイヤードもしくはワイヤレス接続を介して受信された情報から別のデバイスに再生される信号を示す。通信または再生デバイスなどのオーディオ再生デバイスは、再生オーディオ信号をデバイスの１つまたは複数のラウドスピーカーに出力するように構成できる。代替的に、そのようなデバイスは、再生オーディオ信号を、ワイヤを介してまたはワイヤレスにデバイスに結合されたイヤピース、他のヘッドセットまたは外部ラウドスピーカーに出力するように構成できる。電話などのボイス通信のためのトランシーバアプリケーションに関して、感知オーディオ信号は、トランシーバによって送信すべき近端信号であり、再生オーディオ信号は、トランシーバによって（たとえば、ワイヤードおよび／またはワイヤレス通信リンクを介して）受信される遠端信号である。記録された音楽または音声（たとえば、ＭＰ３、オーディオブック、ポッドキャスト）の再生またはそのようなコンテンツのストリーミングなどのモバイルオーディオ再生アプリケーションに関して、再生オーディオ信号は、再生またはストリーミングされるオーディオ信号である。

音声信号の了解度は、信号のスペクトル特性に関して変動することがある。たとえば、図１の明瞭度指数プロットに、音声了解度に対する相対的寄与率が可聴周波数とともにどのように変動するかを示す。このプロットは、１〜４ｋＨｚ間の周波数成分が了解度にとって特に重要であり、相対的重要度が約２ｋＨｚでピークに達することを示す。

図２に、電話アプリケーションの典型的な狭帯域チャネルに送信される、および／またはそれを介して受信される音声信号のパワースペクトルを示す。この図は、周波数が５００Ｈｚを上回って増加するにつれて、そのような信号のエネルギーが急速に減少することを示す。しかしながら、図１に示すように、４ｋＨｚまでの周波数は音声了解度にとって極めて重要である。したがって、５００〜４０００Ｈｚ間の周波数帯域中でエネルギーを人工的にブースティングすることにより、そのような電話アプリケーションにおける音声信号の了解度が改善されることが期待される。

４ｋＨｚを上回る可聴周波数は一般に了解度にとって１ｋＨｚ〜４ｋＨｚ帯域ほど重要ではないので、典型的な帯域制限された通信チャネルを介して狭帯域信号を送信することで、理解できる会話を行うのに通常十分である。しかしながら、通信チャネルが広帯域信号の伝送をサポートする場合、パーソナル音声特徴の明暸性の向上およびその通信の改善が期待される。ボイス電話コンテキストでは、「狭帯域」という用語は、約０〜５００Ｈｚ（たとえば、０、５０、１００、または２００Ｈｚ）から約３〜５ｋＨｚ（たとえば、３５００、４０００、または４５００Ｈｚ）までの周波数レンジを指し、「広帯域」という用語は、約０〜５００Ｈｚ（たとえば、０、５０、１００、または２００Ｈｚ）から約７〜８ｋＨｚ（たとえば、７０００、７５００、または８０００Ｈｚ）までの周波数レンジを指す。

音声信号の選択された部分をブースティングすることによって音声了解度を高めることが望ましい。補聴器の適用例では、たとえば、ダイナミックレンジ圧縮技法を使用して、再生オーディオ信号中の特定の周波数サブバンドをブースティングすることによって、それらのサブバンド中の知られている聴力損失を補償することができる。

現実の世界は、単一点雑音源を含む複数の雑音源にあふれており、これらは、しばしば複数の音に入り込んで残響を生じる。背景音響雑音は、一般的な環境によって発生される多数の雑音信号、他の人々の背景会話によって発生される干渉信号、ならびにそれらの信号の各々から発生される反射および残響を含む。

環境雑音は、近端音声信号などの感知オーディオ信号の了解度、および／または遠端音声信号などの再生オーディオ信号の了解度に影響を及ぼすことがある。通信が雑音の多い環境で行われる適用例では、音声処理方法を使用して、音声信号を背景雑音と区別し、その了解度を向上させることが望ましい。雑音は現実の状態ではほとんど常に存在するので、そのような処理は日常的な通信の多くの領域で重要である。

自動利得制御（ＡＧＣ、自動ボリューム制御またはＡＶＣとも呼ばれる）は、雑音の多い環境で感知または再生されるオーディオ信号の了解度を高めるために使用できる処理方法である。自動利得制御技法を使用して、信号のダイナミックレンジを有限振幅帯域に圧縮し、それによって、低いパワーを有する信号のセグメントをブースティングし、高いパワーを有するセグメント中のエネルギーを減少させることができる。図３に、自然音声パワーロールオフがパワーを周波数とともに減少させる典型的な音声パワースペクトルと、パワーが少なくとも音声周波数のレンジにわたって全体的に一定である典型的な雑音パワースペクトルとの例を示す。そのような場合、音声信号の高周波成分は、雑音信号の対応する成分よりも小さいエネルギーを有し、その結果、高周波音声帯域のマスキングが生じる。図４Ａに、そのような例へのＡＶＣの適用を示す。ＡＶＣモジュールは、一般に、この図に示すように、音声信号のすべての周波数帯域を無差別にブースティングするために実装される。そのような手法は、高周波パワーの適度のブーストのために、増幅された信号の大きいダイナミックレンジを必要とすることがある。

高周波数帯域中の音声パワーは通常、低周波数帯域中よりもはるかに小さいので、背景雑音は一般に高周波音声成分を低周波成分よりもはるかに急速にかき消す。したがって、単に信号の全体量をブースティングすることは、了解度に著しく寄与しない、１ｋＨｚを下回る低周波成分を不必要にブースティングすることになる。代わりに、音声信号に対する雑音マスキング効果を補償するために可聴周波数サブバンドパワーを調整することが望ましい。たとえば、高周波のほうへの音声パワーの固有のロールオフを補償するために、雑音対音声サブバンドパワーの比に反比例して、高周波サブバンドにおいて不均等に、音声パワーをブースティングすることが望ましい。

環境雑音によって支配される周波数サブバンド中の低ボイスパワーを補償することが望ましい。たとえば、図４Ｂに示すように、（たとえば、音声対雑音比に従って）音声信号の異なるサブバンドに異なる利得ブーストを適用することによって了解度をブースティングするために、選択されたサブバンドに作用することが望ましい。図４Ａに示すＡＶＣ例とは対照的に、そのような等化は、低周波成分の不要なブーストを回避しながら、よりクリアでより明瞭な信号を与えることが期待できる。

そのような方法で音声パワーを選択的にブースティングするために、環境雑音レベルの確実な同時推定値を得ることが望ましい。しかしながら、実際の適用例では、従来の単一マイクロフォンまたは固定ビームフォーミングタイプ方法を使用して、感知オーディオ信号からの環境雑音をモデル化することが困難であることがある。図３は、周波数によらず一定である雑音レベルを示唆しているが、通信デバイスまたはメディア再生デバイスの実際の適用例における環境雑音レベルは、一般に時間と周波数の両方にわたって著しく急速に変動する。

典型的な環境における音響雑音には、バブル雑音、空港雑音、街頭雑音、競合する話し手のボイス、および／または干渉源（たとえば、テレビ受像機またはラジオ）からの音がある。したがって、そのような雑音は、一般に非定常であり、ユーザ自身のボイスの平均スペクトルに近い平均スペクトルを有することがある。単一マイクロフォン信号から計算される雑音パワー基準信号は、通常、近似定常雑音推定値のみである。その上、そのような計算は一般に雑音パワー推定遅延を伴うので、かなりの遅延の後にしか、サブバンド利得の対応する調整を実行することができない。環境雑音の確実な同時推定値を得ることが望ましい。

図５に、空間選択的処理フィルタＳＳ１０とスペクトルコントラストエンハンサＥＮ１０とを含む、一般的構成によるオーディオ信号Ａ１００を処理するように構成された装置のブロック図を示す。空間選択的処理（ＳＳＰ）フィルタＳＳ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために、Ｍチャネル感知オーディオ信号Ｓ１０（Ｍは１よりも大きい整数である）に対して空間選択的処理演算を実行するように構成される。エンハンサＥＮ１０は、処理済み音声信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報に基づいて音声信号Ｓ４０のスペクトル特性を動的に改変するように構成される。たとえば、エンハンサＥＮ１０は、処理済み音声信号Ｓ５０を生成するために、雑音基準Ｓ３０からの情報を使用して、音声信号Ｓ４０の少なくとも１つの周波数サブバンドを、音声信号Ｓ４０の少なくとも１つの他の周波数サブバンドに対してブースティングおよび／または減衰させるように構成できる。

装置Ａ１００は、音声信号Ｓ４０が再生オーディオ信号（たとえば、遠端信号）になるように実装できる。代替的に、装置Ａ１００は、音声信号Ｓ４０が感知オーディオ信号（たとえば、近端信号）になるように実装できる。たとえば、装置Ａ１００は、音声信号Ｓ４０がマルチチャネル感知オーディオ信号Ｓ１０に基づくように実装できる。図６Ａに、エンハンサＥＮ１０が音声信号Ｓ４０として音源信号Ｓ２０を受信するように構成された、装置Ａ１００のそのような実装形態Ａ１１０のブロック図を示す。図６Ｂに、エンハンサＥＮ１０の２つのインスタンスＥＮ１０ａとＥＮ１０ｂとを含む装置Ａ１００（および装置Ａ１１０）のさらなる実装形態Ａ１２０のブロック図を示す。この例では、エンハンサＥＮ１０ａは、処理済み音声信号Ｓ５０ａを生成するために音声信号Ｓ４０（たとえば、遠端信号）を処理するように構成され、エンハンサＥＮ１０ａは、処理済み音声信号Ｓ５０ｂを生成するために音源信号Ｓ２０（たとえば、近端信号）を処理するように構成される。

装置Ａ１００の典型的な適用例では、感知オーディオ信号Ｓ１０の各チャネルはＭ個のマイクロフォンのアレイのうちの対応する１つからの信号に基づき、Ｍは１よりも大きい値を有する整数である。マイクロフォンのそのようなアレイをもつ装置Ａ１００の実装形態を含むように実装できるオーディオ感知デバイスの例には、補聴器、通信デバイス、記録デバイス、およびオーディオまたはオーディオビジュアル再生デバイスがある。そのような通信デバイスの例には、限定はしないが、電話機（たとえば、コード付き電話もしくはコードレス電話、セルラー電話ハンドセット、ユニバーサルシリアルバス（ＵＳＢ）ハンドセット）、ワイヤードおよび／またはワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）、ならびにハンズフリーカーキットがある。そのような記録デバイスの例には、限定はしないが、ハンドヘルドオーディオおよび／またはビデオレコーダ、ならびにデジタルカメラがある。そのようなオーディオまたはオーディオビジュアル再生デバイスの例には、限定はしないが、ストリーミングあるいは予め記録されているオーディオまたはオーディオビジュアルコンテンツを再生するように構成されたメディアプレーヤがある。マイクロフォンのそのようなアレイをもつ装置Ａ１００の実装形態を含むように実装でき、通信、記録、および／またはオーディオもしくはオーディオビジュアル再生動作を実行するように構成できるオーディオ感知デバイスの他の例には、携帯情報端末（ＰＤＡ）および他のハンドヘルドコンピューティングデバイス、すなわち、ネットブックコンピュータ、ノートブックコンピュータ、ラップトップコンピュータ、および他のポータブルコンピューティングデバイス、ならびにデスクトップコンピュータおよびワークステーションがある。

Ｍ個のマイクロフォンのアレイは、音響信号を受信するように構成された２つのマイクロフォン（たとえば、ステレオアレイ）、または３つ以上のマイクロフォンを有するように実装できる。アレイの各マイクロフォンは、全方向、双方向、または単方向（たとえば、カージオイド）である応答を有することができる。使用できる様々なタイプのマイクロフォンには、（限定はしないが）圧電マイクロフォン、ダイナミックマイクロフォン、およびエレクトレットマイクロフォンがある。ハンドセットまたはヘッドセットなど、ポータブルボイス通信のためのデバイスでは、そのようなアレイの隣接するマイクロフォン間の中心間間隔は一般に約１．５ｃｍ〜約４．５ｃｍの範囲内であるが、ハンドセットなどのデバイスでは（たとえば、１０ｃｍまたは１５ｃｍまでの）より広い間隔も可能である。補聴器では、そのようなアレイの隣接するマイクロフォン間の中心間間隔は、わずか約４ｍｍまたは５ｍｍとすることができる。そのようなアレイのマイクロフォンは、線に沿って、あるいは代替的にそれらの中心が２次元（たとえば、三角形）または３次元形状の頂点に存在するように構成できる。

アレイのマイクロフォンによって生成された信号に対して１つまたは複数の前処理演算を実行することによって、感知オーディオ信号Ｓ１０を得ることが望ましい。そのような前処理演算は、感知オーディオ信号Ｓ１０を得るために、サンプリング、（たとえば、エコー消去、雑音低減、スペクトル整形などのための）フィルタ処理、および場合によっては（たとえば、本明細書で説明する別のＳＳＰフィルタまたは適応フィルタによる）事前分離さえ含むことができる。音声などの音響適用例では、典型的なサンプリングレートは、８ｋＨｚ〜１６ｋＨｚにわたる。他の典型的な前処理演算は、アナログおよび／またはデジタル領域におけるインピーダンス整合、利得制御およびフィルタ処理を含む。

空間選択的処理（ＳＳＰ）フィルタＳＳ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために、感知オーディオ信号Ｓ１０に対して空間選択的処理演算を実行するように構成される。雑音を低減するため、特定の方向から到着した信号成分を強調するため、および／または他の環境音から１つまたは複数の音響成分を分離するために、オーディオ感知デバイスと特定の音源との間の距離を決定するように、そのような演算を設計することができる。そのような空間処理演算の例は、２００８年８月２５日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号、および２００８年１１月２４日に出願された「SYSTEMS, METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILITY」と題する米国特許出願第１２／２７７，２８３号に記載されており、（限定はしないが）ビームフォーミングおよびブラインド音源分離演算を含む。雑音成分の例には、（限定はしないが）街頭雑音、自動車雑音、および／またはバブル雑音などの拡散環境雑音、ならびにテレビジョン、ラジオ、または拡声装置などの別の点音源からの干渉スピーカーおよび／または音などの指向性雑音がある。

空間選択的処理フィルタＳＳ１０は、指向性干渉成分および／または拡散雑音成分など、信号の１つまたは複数の他の成分から、感知オーディオ信号Ｓ１０（たとえば、ユーザのボイス）の指向性の所望の成分を分離するように構成できる。そのような場合、音源信号Ｓ２０が、感知オーディオチャネルＳ１０の各チャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む（すなわち、音源信号Ｓ２０が、感知オーディオチャネルＳ１０の個々のどのチャネルが含むよりも指向性の所望の成分のエネルギーの多くを含む）ように、指向性の所望の成分のエネルギーを集中するように、ＳＳＰフィルタＳＳ１０を構成することができる。図７に、マイクロフォンアレイの軸に対するフィルタ応答の指向性を示すＳＳＰフィルタＳＳ１０のそのような例のビームパターンを示す。

空間選択的処理フィルタＳＳ１０を使用して、環境雑音の確実な同時推定値を与えることができる。いくつかの雑音推定方法では、入力信号の非アクティブフレーム（たとえば、背景雑音または無音のみを含んでいるフレーム）を平均化することによって、雑音基準を推定する。そのような方法は、環境雑音の変化に反応するのが遅く、一般に非定常雑音（たとえば、衝撃雑音）をモデル化するには効果がない。空間選択的処理フィルタＳＳ１０は、雑音基準Ｓ３０を与えるために入力信号のアクティブフレームからさえ雑音成分を分離するように構成できる。ＳＳＰフィルタＳＳ１０によってそのような雑音基準のフレームに分離された雑音は、音源信号Ｓ２０の対応するフレーム中の情報成分と本質的に同時に発生し、そのような雑音基準は「瞬時」雑音推定値とも呼ばれる。

空間選択的処理フィルタＳＳ１０は、一般にフィルタ係数値の１つまたは複数の行列によって特徴づけられる固定フィルタＦＦ１０を含むように実装される。これらのフィルタ係数値は、以下でより詳細に説明するように、ビームフォーミング、ブラインド音源分離（ＢＳＳ）、または複合ＢＳＳ／ビームフォーミング方法を使用して得ることができる。空間選択的処理フィルタＳＳ１０はまた、２つ以上の段を含むように実装できる。図８Ａに、固定フィルタ段ＦＦ１０と適応フィルタ段ＡＦ１０とを含む、ＳＳＰフィルタＳＳ１０のそのような実装形態ＳＳ２０のブロック図を示す。この例で、固定フィルタ段ＦＦ１０は、フィルタ処理された信号Ｓ１５のチャネルＳ１５−１およびＳ１５−２を生成するために感知オーディオ信号Ｓ１０のチャネルＳ１０−１およびＳ１０−２をフィルタ処理するように構成され、適応フィルタ段ＡＦ１０は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するためにチャネルＳ１５−１およびＳ１５−２をフィルタ処理するように構成される。そのような場合、以下でより詳細に説明するように、適応フィルタ段ＡＦ１０のための初期状態を発生するために固定フィルタ段ＦＦ１０を使用することが望ましい。また、ＳＳＰフィルタＳＳ１０への入力の適応スケーリングを実行すること（たとえば、ＩＩＲ固定または適応フィルタバンクの安定性を保証すること）が望ましい。

ＳＳＰフィルタＳＳ２０の別の実装形態では、適応フィルタＡＦ１０は、フィルタ処理されたチャネルＳ１５−１と感知オーディオチャネルＳ１０−２とを入力として受信するように構成される。そのような場合、適応フィルタＡＦ１０が、固定フィルタＦＦ１０の予想される処理遅延を整合する遅延要素を介して感知オーディオチャネルＳ１０−２を受信することが望ましい。

複数の固定フィルタ段のうちの適切な１つが（たとえば、様々な固定フィルタ段の相対分離パフォーマンスに従って）演算中に選択されるように構成された、固定フィルタ段を含むように、ＳＳＰフィルタＳＳ１０を実装することが望ましい。そのような構造は、たとえば、代理人整理番号第０８０４２６号を有する、２００８年１２月１２日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する米国特許出願第１２／３３４，２４６号に開示されている。

空間選択的処理フィルタＳＳ１０は、時間領域において感知オーディオ信号Ｓ１０を処理し、音源信号Ｓ２０と雑音基準Ｓ３０とを時間領域信号として生成するように構成できる。代替的に、ＳＳＰフィルタＳＳ１０は、周波数領域（または別の変換領域）において感知オーディオ信号Ｓ１０を受信するか、または感知オーディオ信号Ｓ１０をそのような領域に変換し、その領域において感知オーディオ信号Ｓ１０を処理するように構成できる。

音源信号Ｓ２０中の雑音をさらに低減するために雑音基準Ｓ３０を適用するように構成された雑音低減段が、ＳＳＰフィルタＳＳ１０またはＳＳ２０の後に続くことが望ましい。図８Ｂに、そのような雑音低減段ＮＲ１０を含む装置Ａ１００の実装形態Ａ１３０のブロック図を示す。雑音低減段ＮＲ１０は、フィルタ係数値が音源信号Ｓ２０と雑音基準Ｓ３０とからの信号と雑音パワー情報とに基づくウィーナー（Wiener）フィルタとして実装できる。そのような場合、雑音低減段ＮＲ１０は、雑音基準Ｓ３０からの情報に基づいて雑音スペクトルを推定するように構成できる。代替的に、雑音低減段ＮＲ１０は、雑音基準Ｓ３０のスペクトルに基づいて、音源信号Ｓ２０に対してスペクトル減算演算を実行するように実装できる。代替的に、雑音低減段ＮＲ１０は、雑音共分散が雑音基準Ｓ３０からの情報に基づくカルマンフィルタとして実装できる。

雑音低減段ＮＲ１０は、周波数領域（または別の変換領域）において音源信号Ｓ２０と雑音基準Ｓ３０とを処理するように構成できる。図９Ａに、雑音低減段ＮＲ１０のそのような実装形態ＮＲ２０を含む装置Ａ１３０の実装形態Ａ１３２のブロック図を示す。装置Ａ１３２はまた、音源信号Ｓ２０と雑音基準Ｓ３０とを変換領域に変換するように構成された変換モジュールＴＲ１０を含む。典型的な例では、変換モジュールＴＲ１０は、音源信号Ｓ２０と雑音基準Ｓ３０との各々に対して、それぞれの周波数領域信号を生成するために、１２８ポイント、２５６ポイント、または５１２ポイントＦＦＴなどの高速フーリエ変換（ＦＦＴ）を実行するように構成される。図９Ｂに（たとえば、雑音低減段ＮＲ２０の出力に対して逆ＦＦＴを実行することによって）雑音低減段ＮＲ２０の出力を時間領域に変換するように構成された逆変換モジュールＴＲ２０をも含む装置Ａ１３２の実装形態Ａ１３４のブロック図を示す。

雑音低減段ＮＲ２０は、雑音基準Ｓ３０の対応するビンの値に従って音源信号Ｓ２０の周波数領域ビンに重み付けすることによって、雑音低減された音声信号Ｓ４５を計算するように構成できる。そのような場合、雑音低減段ＮＲ２０は、Ｂ_ｉ＝ｗ_ｉＡ_ｉなどの式に従って雑音低減された音声信号Ｓ４５を生成するように構成でき、Ｂ_ｉは、雑音低減された音声信号Ｓ４５のｉ番目のビンを示し、Ａ_ｉは音源信号Ｓ２０のｉ番目のビンを示し、ｗ_ｉはフレームに対する重みベクトルのｉ番目の要素を示す。各ビンは、対応する周波数領域信号の値を１つしか含まないか、または、雑音低減段ＮＲ２０は、（たとえば、ビニングモジュールＳＧ３０に関して以下で説明するように）所望のサブバンド分割方式に従って各周波数領域信号の値をビンにグループ化するように構成できる。

雑音低減段ＮＲ２０のそのような実装形態は、雑音基準Ｓ３０が低い値を有するビンに対しては重みがより高く（たとえば、１により近く）、雑音基準Ｓ３０が高い値を有するビンに対しては重みがより低く（たとえば、０により近く）なるように、重みｗ_ｉを計算するように構成できる。雑音低減段ＮＲ２０のそのような一例は、ビンＮ_ｉ中の値の和（代替的に、平均値）がしきい値Ｔ_ｉ未満（代替的に、以下）である場合はｗ_ｉ＝１、他の場合はｗ_ｉ＝０などの式に従って重みｗ_ｉの各々を計算することによって、音源信号Ｓ２０のビンを阻止するかまたはパスするように構成される。この例では、Ｎ_ｉは雑音基準Ｓ３０のｉ番目のビンを示す。しきい値Ｔ_ｉが互いに等しくなるように、または代替的に、しきい値Ｔ_ｉのうちの少なくとも２つが互いに異なるように、雑音低減段ＮＲ２０のそのような実装形態を構成することが望ましい。別の例では、雑音低減段ＮＲ２０は、周波数領域において音源信号Ｓ２０から雑音基準Ｓ３０を減算することによって（すなわち、音源信号Ｓ２０のスペクトルから雑音基準Ｓ３０のスペクトルを減算することによって）雑音低減された音声信号Ｓ４５を計算するように構成される。

以下でより詳細に説明するように、エンハンサＥＮ１０は、周波数領域または別の変換領域において１つまたは複数の信号に対して演算を実行するように構成できる。図１０Ａに、雑音低減段ＮＲ２０のインスタンスを含む装置Ａ１００の実装形態Ａ１４０のブロック図を示す。この例では、エンハンサＥＮ１０は、雑音低減された音声信号Ｓ４５を音声信号Ｓ４０として受信するように構成され、エンハンサＥＮ１０はまた、雑音基準Ｓ３０と雑音低減された音声信号Ｓ４５とを変換領域信号として受信するように構成される。装置Ａ１４０はまた、処理済み音声信号Ｓ５０を変換領域から時間領域に変換するように構成された逆変換モジュールＴＲ２０のインスタンスを含む。

音声信号Ｓ４０が高いサンプリングレート（たとえば、４４．１ｋＨｚ、または１０キロヘルツを上回る別のサンプリングレート）を有する場合、エンハンサＥＮ１０が、時間領域において信号Ｓ４０を処理することによって、対応する処理済み音声信号Ｓ５０を生成することが望ましいことに明確に留意されたい。たとえば、そのような信号に対して変換演算を実行する計算費用を回避することが望ましい。メディアファイルまたはファイルストリームから再生された信号は、そのようなサンプリングレートを有することができる。

図１０Ｂに、装置Ａ１４０の実装形態Ａ１５０のブロック図を示す。装置Ａ１５０は、第１の処理済み音声信号Ｓ５０ａを生成するために（たとえば、上記の装置Ａ１４０に関して説明するように）変換領域において雑音基準Ｓ３０と雑音低減された音声信号Ｓ４５とを処理するように構成されたエンハンサＥＮ１０のインスタンスＥＮ１０ａを含む。装置Ａ１５０はまた、第２の処理済み音声信号Ｓ５０ｂを生成するために時間領域において雑音基準Ｓ３０と音声信号Ｓ４０（たとえば、遠端信号または他の再生信号）とを処理するように構成されたエンハンサＥＮ１０のインスタンスＥＮ１０ｂを含む。

指向性処理演算を実行するように構成されることの代替として、または指向性処理演算を実行するように構成されることに加えて、ＳＳＰフィルタＳＳ１０は、距離処理演算を実行するように構成できる。図１１Ａおよび図１１Ｂに、そのような演算を実行するように構成された距離処理モジュールＤＳ１０を含む、ＳＳＰフィルタＳＳ１０の実装形態ＳＳ１１０およびＳＳ１２０のブロック図をそれぞれ示す。距離処理モジュールＤＳ１０は、距離処理演算の結果として、マイクロフォンアレイに対するマルチチャネル感知オーディオ信号Ｓ１０の成分の音源の距離を示す距離指示信号ＤＩ１０を生成するように構成される。距離処理モジュールＤＳ１０は、一般に、２つの状態がそれぞれ近距離音源および遠距離音源を示す２進値指示信号として距離指示信号ＤＩ１０を生成するように構成されるが、連続信号および／または多値信号を生成する構成も可能である。

一例では、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態がマイクロフォン信号のパワー勾配間の類似度に基づくように構成される。距離処理モジュールＤＳ１０のそのような実装形態は、（Ａ）マイクロフォン信号のパワー勾配間の差と（Ｂ）しきい値との間の関係に従って距離指示信号ＤＩ１０を生成するように構成できる。１つのそのような関係を次のように表すことができる。

上式で、θは、距離指示信号ＤＩ１０の現在の状態を示し、∇_ｐは、感知オーディオ信号Ｓ１０の１次チャネル（たとえば、最も直接的にユーザのボイスなどの所望の音源からの音を通常受信するマイクロフォンに対応するチャネル）のパワー勾配の現在値を示し、∇_ｓは、感知オーディオ信号Ｓ１０の２次チャネル（たとえば、１次チャネルのマイクロフォンほどは直接的でなく所望の音源からの音を通常受信するマイクロフォンに対応するチャネル）のパワー勾配の現在値を示し、Ｔ_ｄは、（たとえば、マイクロフォン信号のうちの１つまたは複数の現在レベルに基づいて）固定または適応的とすることができるしきい値を示す。この特定の例では、距離指示信号ＤＩ１０の状態１が遠距離音源を示し、状態０が近距離音源を示すが、当然、所望される場合、逆の（すなわち、状態１が近距離音源を示し、状態０が遠距離音源を示すような）実装形態も使用できる。

連続フレームにわたる感知オーディオ信号Ｓ１０の対応するチャネルのエネルギー間の差としてパワー勾配の値を計算するように距離処理モジュールＤＳ１０を実装することが望ましい。１つのそのような例では、距離処理モジュールＤＳ１０は、パワー勾配∇_ｐと∇_ｓとの各々について、チャネルの現在のフレームの値の平方和とチャネルの前のフレームの値の平方和との間の差として現在値を計算するように構成される。別のそのような例では、距離処理モジュールＤＳ１０は、パワー勾配∇_ｐと∇_ｓとの各々について、対応するチャネルの現在のフレームの値の絶対値の和とチャネルの前のフレームの値の絶対値の和との間の差として現在値を計算するように構成される。

追加または代替として、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態が、周波数範囲にわたって、感知オーディオ信号Ｓ１０の１次チャネルの位相と２次チャネルの位相との間の相関の程度に基づくように構成できる。距離処理モジュールＤＳ１０のそのような実装形態は、（Ａ）チャネルの位相ベクトル間の相関と（Ｂ）しきい値との間の関係に従って距離指示信号ＤＩ１０を生成するように構成できる。１つのそのような関係を次のように表すことができる。

上式で、μは、距離指示信号ＤＩ１０の現在の状態を示し、φ_ｐは感知オーディオ信号Ｓ１０の１次チャネルの現在の位相ベクトルを示し、φ_ｓは感知オーディオ信号Ｓ１０の２次チャネルの現在の位相ベクトルを示し、Ｔ_ｃは（たとえば、チャネルの１つまたは複数の現在レベルに基づいて）固定または適応的とすることができるしきい値を示す。位相ベクトルの各要素が、対応する周波数において、または対応する周波数サブバンドにわたって、対応するチャネルの現在の位相角を表すように、位相ベクトルを計算するように距離処理モジュールＤＳ１０を実装することが望ましい。この特定の例では、距離指示信号ＤＩ１０の状態１が遠距離音源を示し、状態０が近距離音源を示すが、当然、所望される場合、逆の実装形態も使用できる。距離指示信号ＤＩ１０が遠距離音源を示すときに雑音低減段ＮＲ１０によって実行される雑音低減が最大になるように、距離指示信号ＤＩ１０を雑音低減段ＮＲ１０に制御信号として印加することができる。

距離指示信号ＤＩ１０の状態が上記で開示したパワー勾配と位相相関基準の両方に基づくように、距離処理モジュールＤＳ１０を構成することが望ましい。そのような場合、距離処理モジュールＤＳ１０は、距離指示信号ＤＩ１０の状態をθの現在値とμの現在値との組合せ（たとえば、論理和または論理積）として計算するように構成できる。代替的に、距離処理モジュールＤＳ１０は、対応するしきい値の値がこれらの基準（すなわち、パワー勾配類似度または位相相関）のうちの一方の基準の現在値に基づくように、これらの基準のうちの他方に従って距離指示信号ＤＩ１０の状態を計算するように構成できる。

ＳＳＰフィルタＳＳ１０の代替実装形態は、音源信号Ｓ２０と雑音基準Ｓ３０とを生成するために感知オーディオ信号Ｓ１０に対して位相相関マスキング演算を実行するように構成される。ＳＳＰフィルタＳＳ１０のそのような実装形態の一例は、異なる周波数における感知オーディオ信号Ｓ１０の異なるチャネル間の相対位相角を決定するように構成される。周波数の大部分における位相角がほぼ等しい（たとえば、５、１０、または２０パーセント内である）場合、フィルタは、それらの周波数を音源信号Ｓ２０としてパスし、他の周波数における成分（すなわち、他の位相角を有する成分）を雑音基準Ｓ３０に分離する。

エンハンサＥＮ１０は、時間領域バッファから雑音基準Ｓ３０を受信するように構成できる。代替または追加として、エンハンサＥＮ１０は、時間領域バッファから第１の音声信号Ｓ４０を受信するように構成できる。一例では、各時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。

エンハンサＥＮ１０は、処理済み音声信号Ｓ５０を生成するために音声信号Ｓ４０に対してスペクトルコントラスト強調演算を実行するように構成される。スペクトルコントラストは、信号スペクトル中の隣接するピークと谷との間の差として（たとえば、デシベルで）定義でき、エンハンサＥＮ１０は、音声信号Ｓ４０のエネルギースペクトルまたは絶対値スペクトル中のピークと谷との間の差を増加させることによって処理済み音声信号Ｓ５０を生成するように構成できる。音声信号のスペクトルピークは「ホルマント」とも呼ばれる。スペクトルコントラスト強調演算は、雑音基準Ｓ３０からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、音声信号からの情報に基づいて強調ベクトルＥＶ１０を発生することと、複数の雑音サブバンドパワー推定値と音声信号Ｓ４０からの情報と強調ベクトルＥＶ１０からの情報とに基づいて処理済み音声信号Ｓ５０を生成することとを含む。

一例では、エンハンサＥＮ１０は、（たとえば、本明細書で説明する技法のいずれかに従って）音声信号Ｓ４０に基づいてコントラスト強調信号ＳＣ１０を発生することと、雑音基準Ｓ３０のフレームごとにパワー推定値を計算することと、対応する雑音パワー推定値に従って音声信号Ｓ３０とコントラスト強調信号ＳＣ１０との対応するフレームを混合することによって処理済み音声信号Ｓ５０を生成することとを行うように構成される。たとえば、エンハンサＥＮ１０のそのような実装形態は、対応する雑音パワー推定値が高いときに比例してコントラスト強調信号ＳＣ１０の対応するフレームのより多くを使用して、対応する雑音パワー推定値が低いときに比例して音声信号Ｓ４０の対応するフレームのより多くを使用して、処理済み音声信号Ｓ５０のフレームを生成するように構成できる。エンハンサＥＮ１０のそのような実装形態は、ＰＳＳ（ｎ）＝ρＣＥＳ（ｎ）＋（１−ρ）ＳＳ（ｎ）などの式に従って処理済み音声信号Ｓ５０のフレームＰＳＳ（ｎ）を生成するように構成でき、ＣＥＳ（ｎ）とＳＳ（ｎ）とはそれぞれ、コントラスト強調信号ＳＣ１０と音声信号Ｓ４０との対応するフレームを示し、ρは、対応する雑音パワー推定値に基づく、０〜１の範囲内の値を有する雑音レベル指示を示す。

図１２に、スペクトルコントラストエンハンサＥＮ１０の実装形態ＥＮ１００のブロック図を示す。エンハンサＥＮ１００は、コントラスト強調音声信号ＳＣ１０に基づく処理済み音声信号Ｓ５０を生成するように構成される。エンハンサＥＮ１００はまた、処理済み音声信号Ｓ５０の複数の周波数サブバンドの各々が音声信号Ｓ４０の対応する周波数サブバンドに基づくように、処理済み音声信号Ｓ５０を生成するように構成される。

エンハンサＥＮ１００は、音声信号Ｓ４０に基づく強調ベクトルＥＶ１０を発生するように構成された強調ベクトル発生器ＶＧ１００と、強調ベクトルＥＶ１０からの情報に基づいて強調サブバンド信号のセットを生成するように構成された強調サブバンド信号発生器ＥＧ１００と、各々が強調サブバンド信号のうちの対応する１つからの情報に基づく強調サブバンドパワー推定値のセットを生成するように構成された強調サブバンドパワー推定値発生器ＥＰ１００とを含む。エンハンサＥＮ１００はまた、複数の利得係数値の各々が強調ベクトルＥＶ１０の対応する周波数サブバンドからの情報に基づくように複数の利得係数値を計算するように構成されたサブバンド利得係数計算器ＦＣ１００と、音声信号Ｓ４０からの情報に基づいて音声サブバンド信号のセットを生成するように構成された音声サブバンド信号発生器ＳＧ１００と、音声サブバンド信号と強調ベクトルＥＶ１０からの情報（たとえば、複数の利得係数値）とに基づいてコントラスト強調信号ＳＣ１０を生成するように構成された利得制御要素ＣＥ１００とを含む。

エンハンサＥＮ１００は、雑音基準Ｓ３０からの情報に基づいて雑音サブバンド信号のセットを生成するように構成された雑音サブバンド信号発生器ＮＧ１００と、各々が雑音サブバンド信号のうちの対応する１つからの情報に基づいて、雑音サブバンドパワー推定値のセットを生成するように構成された雑音サブバンドパワー推定値計算器ＮＰ１００とを含む。エンハンサＥＮ１００はまた、対応する雑音サブバンドパワー推定値からの情報に基づいて、サブバンドの各々について混合係数を計算するように構成されたサブバンド混合係数計算器ＦＣ２００と、混合係数と音声信号Ｓ４０とコントラスト強調信号ＳＣ１０とからの情報に基づいて処理済み音声信号Ｓ５０を生成するように構成されたミキサＸ１００とを含む。

エンハンサＥＮ１００（および、本明細書で開示するエンハンサＥＮ１０の他の実装形態のいずれか）を適用する際に、（たとえば、オーディオプリプロセッサＡＰ２０およびエコーキャンセラＥＣ１０に関して以下で説明するように）エコー消去演算を受けたマイクロフォン信号から雑音基準Ｓ３０を得ることが望ましいことに明確に留意されたい。そのような演算は、音声信号Ｓ４０が再生オーディオ信号である場合に特に望ましい。雑音基準Ｓ３０（または以下で開示するエンハンサＥＮ１０のさらなる実装形態によって使用される他の雑音基準のいずれか）に音響エコーが残っている場合、処理済み音声信号Ｓ５０とサブバンド利得係数計算経路との間に正のフィードバックループを生成することができる。たとえば、そのようなループには、その処理済み音声信号Ｓ５０が遠端ラウドスピーカーをより大きく駆動すればするほど、エンハンサは利得係数を増加させる傾向が大きくなるという効果がある。

一例では、強調ベクトル発生器ＶＧ１００は、音声信号Ｓ４０の絶対値スペクトルまたはパワースペクトルを、１よりも大きいパワーＭ（たとえば、１．２、１．５、１．７、１．９、または２など、１．２〜２．５の範囲内の値）に引き上げることによって強調ベクトルＥＶ１０を発生するように構成される。強調ベクトル発生器ＶＧ１００は、ｙ_ｉ＝Ｍｘ_ｉなどの式に従って対数スペクトル値に対してそのような演算を実行するように構成でき、ｘ_ｉは音声信号Ｓ４０のスペクトルの値をデシベルで示し、ｙ_ｉは強調ベクトルＥＶ１０の対応値をデシベルで示す。強調ベクトル発生器ＶＧ１００はまた、パワー引上げ演算の結果を正規化し、および／または強調ベクトルＥＶ１０をパワー引上げ演算の結果と元の絶対値またはパワースペクトルとの間の比として生成するように構成できる。

別の例では、強調ベクトル発生器ＶＧ１００は、音声信号Ｓ４０のスペクトルの２次導関数を平滑化することによって強調ベクトルＥＶ１０を発生するように構成される。強調ベクトル発生器ＶＧ１００のそのような実装形態は、Ｄ２（ｘ_ｉ）＝ｘ_ｉ−１＋ｘ_ｉ＋１−２ｘ_ｉなどの式に従って２次微分として離散項で２次導関数を計算するように構成でき、スペクトル値ｘ_ｉは（たとえば、デシベルで）線形または対数となる。２次微分Ｄ２（ｘ_ｉ）の値はスペクトルピークにおいて０未満であり、スペクトルの谷において０よりも大きいので、スペクトルピークにおいて０よりも大きく、スペクトルの谷において０未満である結果を得るために、２次微分をこの値の負数として計算するように（または平滑化された２次微分をネゲートするように）強調ベクトル発生器ＶＧ１００を構成することが望ましい。

強調ベクトル発生器ＶＧ１００は、重み付けされた平均化フィルタ（たとえば、三角フィルタ）などの平滑化フィルタを適用することによってスペクトル２次微分を平滑化するように構成できる。平滑化フィルタの長さは、スペクトルピークの推定された帯域幅に基づくことができる。たとえば、平滑化フィルタが、推定されたピーク帯域幅の２倍未満の期間を有する周波数を減衰させることが望ましい。典型的な平滑化フィルタ長は、３、５、７、９、１１、１３、および１５個のタップを含む。強調ベクトル発生器ＶＧ１００のそのような実装形態は、連続的に、または１つの演算として差および平滑化計算を実行するように構成できる。図１３に、音声信号Ｓ４０のフレームの絶対値スペクトルの例を示し、図１４に、１５タップ三角フィルタによって平滑化された２次スペクトル微分として計算される強調ベクトルＥＶ１０の対応するフレームの例を示す。

同様の例では、強調ベクトル発生器ＶＧ１００は、以下の式に従って実装できるガウス微分（ＤｏＧ）フィルタを用いて音声信号Ｓ４０のスペクトルを畳み込むことによって強調ベクトルＥＶ１０を発生するように構成される。

上式で、σ_１およびσ_２はそれぞれのガウス分布の標準偏差を示し、μはスペクトル平均を示す。「メキシカンハット」ウェーブレットフィルタなど、ＤｏＧフィルタと同様の形状を有する別のフィルタをも使用することができる。別の例では、強調ベクトル発生器ＶＧ１００は、強調ベクトルＥＶ１０を音声信号Ｓ４０の平滑化スペクトルの指数関数の２次微分としてデシベルで発生するように構成される。

さらなる一例では、強調ベクトル発生器ＶＧ１００は、音声信号Ｓ４０の平滑化スペクトルの比を計算することによって強調ベクトルＥＶ１０を発生するように構成される。強調ベクトル発生器ＶＧ１００のそのような実装形態は、音声信号Ｓ４０のスペクトルを平滑化することによって第１の平滑化信号を計算し、第１の平滑化信号を平滑化することによって第２の平滑化信号を計算し、第１の平滑化信号と第２の平滑化信号との間の比として強調ベクトルＥＶ１０を計算するように構成できる。図１５〜図１８にそれぞれ、音声信号Ｓ４０の絶対値スペクトルの例、絶対値スペクトルの平滑化バージョンの例、絶対値スペクトルの二重平滑化バージョンの例、および二重平滑化スペクトルに対する平滑化スペクトルの比の例を示す。

図１９Ａに、第１のスペクトル平滑器ＳＭ１０と第２のスペクトル平滑器ＳＭ２０と比計算器ＲＣ１０とを含む強調ベクトル発生器ＶＧ１００の実装形態ＶＧ１１０のブロック図を示す。スペクトル平滑器ＳＭ１０は、第１の平滑化信号ＭＳ１０を生成するために音声信号Ｓ４０のスペクトルを平滑化するように構成される。スペクトル平滑器ＳＭ１０は、重み付けされた平均化フィルタ（たとえば、三角フィルタ）などの平滑化フィルタとして実装できる。平滑化フィルタの長さは、スペクトルピークの推定された帯域幅に基づくことができる。たとえば、平滑化フィルタが、推定されたピーク帯域幅の２倍未満の期間を有する周波数を減衰させることが望ましい。典型的な平滑化フィルタ長は、３、５、７、９、１１、１３、および１５個のタップを含む。

スペクトル平滑器ＳＭ２０は、第２の平滑化信号ＭＳ２０を生成するために第１の平滑化信号ＭＳ１０を平滑化するように構成される。スペクトル平滑器ＳＭ２０は、一般に、スペクトル平滑器ＳＭ１０と同じ平滑化演算を実行するように構成される。しかしながら、異なる平滑化演算を実行するように（たとえば、異なるフィルタ形状および／またはフィルタ長を使用するように）スペクトル平滑器ＳＭ１０およびＳＭ２０を実装することも可能である。スペクトル平滑器ＳＭ１０およびＳＭ２０は、異なる構造（たとえば、異なる回路またはソフトウェアモジュール）として、または、異なる時間における同じ構造（たとえば、時間とともに一連の異なるタスクを実行するように構成された計算回路またはプロセッサ）として実装できる。比計算器ＲＣ１０は、強調ベクトルＥＶ１０のインスタンスＥＶ１２を生成するために、信号ＭＳ１０と信号ＭＳ２０との間の比（すなわち、信号ＭＳ１０の対応値と信号ＭＳ２０の対応値との間の一連の比）を計算するように構成される。一例では、比計算器ＲＣ１０は、各比の値を２つの対数値の差として計算するように構成される。

図２０に、スペクトル平滑器ＭＳ１０の１５タップ三角フィルタ実装形態によって図１３の絶対値スペクトルから生成された平滑化信号ＭＳ１０の例を示す。図２１に、スペクトル平滑器ＭＳ２０の１５タップ三角フィルタ実装形態によって図２０の平滑化信号ＭＳ１０から生成された平滑化信号ＭＳ２０の例を示し、図２２に、図２０の平滑化信号ＭＳ１０と図２１の平滑化信号ＭＳ２０との比である強調ベクトルＥＶ１２のフレームの例を示す。

上述のように、強調ベクトル発生器ＶＧ１００は、音声信号Ｓ４０をスペクトル信号として（すなわち、周波数領域において）処理するように構成できる。音声信号Ｓ４０の周波数領域インスタンスがさもなければ利用可能でない、装置Ａ１００の実装形態では、強調ベクトル発生器ＶＧ１００のそのような実装形態は、音声信号Ｓ４０の時間領域インスタンスに対して変換演算（たとえば、ＦＦＴ）を実行するように構成された変換モジュールＴＲ１０のインスタンスを含むことができる。そのような場合、強調サブバンド信号発生器ＥＧ１００は、周波数領域において強調ベクトルＥＶ１０を処理するように構成でき、または強調ベクトル発生器ＶＧ１００は、強調ベクトルＥＶ１０に対して逆変換演算（たとえば、逆ＦＦＴ）を実行するように構成された逆変換モジュールＴＲ２０のインスタンスを含むこともできる。

線形予測分析を使用して、音声信号のフレーム中の話者の声道の共振をモデル化する全極型フィルタのパラメータを計算することができる。強調ベクトル発生器ＶＧ１００のさらなる一例は、音声信号Ｓ４０の線形予測分析の結果に基づいて強調ベクトルＥＶ１０を発生するように構成される。強調ベクトル発生器ＶＧ１００のそのような実装形態は、（たとえば、フレームのフィルタ係数または反射係数などの線形予測コーディング（ＬＰＣ）係数のセットから判断される）対応する全極型フィルタの極に基づいて、音声信号Ｓ４０の各有声フレームの１つまたは複数（たとえば、２、３、４、または５つ）のホルマントを追跡するように構成できる。強調ベクトル発生器ＶＧ１００のそのような実装形態は、ホルマントの中心周波数において音声信号Ｓ４０にバンドパスフィルタを適用することよって、あるいはホルマントの中心周波数を含んでいる（たとえば、本明細書で論じるように、均一または不均一サブバンド分割方式を使用して定義される）音声信号Ｓ４０のサブバンドをブースティングすることよって、強調ベクトルＥＶ１０を生成するように構成できる。

強調ベクトル発生器ＶＧ１００はまた、上述のように強調ベクトル発生演算の上流の音声信号Ｓ４０に対して１つまたは複数の前処理演算を実行するように構成された事前強調処理モジュールＰＭ１０を含むように実装できる。図１９Ｂに、強調ベクトル発生器ＶＧ１１０のそのような実装形態ＶＧ１２０のブロック図を示す。一例では、事前強調処理モジュールＰＭ１０は、音声信号Ｓ４０に対してダイナミックレンジ制御演算（たとえば、圧縮および／または伸張）を実行するように構成される。ダイナミックレンジ圧縮演算（「ソフトリミッティング」演算とも呼ばれる）は、１よりも大きい入出力比に従って、しきい値を超える入力レベルを、より小さい量だけしきい値を超える出力値にマッピングする。図２３Ａの鎖線は、固定入力対出力比のそのような伝達関数の例を示し、図２３Ａの実線は、入力レベルとともに増加する、入出力比のそのような伝達関数の例を示す。図２３Ｂは、三角波形への、図２３Ａの実線に従ったダイナミックレンジ圧縮演算の適用例を示し、点線は入力波形を示し、実線は圧縮波形を示す。

図２４Ａに、低周波数において１未満であり、入力レベルとともに増加する入出力比に従って、しきい値を下回る入力レベルをより高い出力レベルにマッピングする、ダイナミックレンジ圧縮演算のための伝達関数の例を示す。図２４Ｂに、三角波形へのそのような演算の適用例を示し、点線は入力波形を示し、実線は圧縮波形を示す。

図２３Ｂおよび図２４Ｂの例に示すように、事前強調処理モジュールＰＭ１０は、（たとえば、ＦＦＴ演算の上流の）時間領域において音声信号Ｓ４０に対してダイナミックレンジ制御演算を実行するように構成できる。代替的に、事前強調処理モジュールＰＭ１０は、音声信号Ｓ４０のスペクトルに対して（すなわち、周波数領域において）ダイナミックレンジ制御演算を実行するように構成できる。

代替または追加として、事前強調処理モジュールＰＭ１０は、強調ベクトル発生演算の上流の音声信号Ｓ４０に対して適応等化演算を実行するように構成できる。この場合、事前強調処理モジュールＰＭ１０は、雑音基準Ｓ３０のスペクトルを音声信号Ｓ４０のスペクトルに追加するように構成される。図２５は、そのような演算の例を示し、実線は等化の前の音声信号Ｓ４０のフレームのスペクトルを示し、点線は雑音基準Ｓ３０の対応するフレームのスペクトルを示し、破線は等化後の音声信号Ｓ４０のスペクトルを示す。この例では、等化の前には、音声信号Ｓ４０の高周波成分は雑音によって覆い隠されており、等化演算がこれらの成分を適応的にブースティングし、了解度を高めることが予想されるということがわかる。事前強調処理モジュールＰＭ１０は、完全ＦＦＴ分解能において、または本明細書で説明する音声信号Ｓ４０の周波数サブバンドのセットの各々に対して、そのような適応等化演算を実行するように構成できる。

ＳＳＰフィルタＳＳ１０が音声信号から雑音を分離するようにすでに動作しているので、装置Ａ１１０が音源信号Ｓ２０に対して適応等化演算を実行する必要がない場合があることに明確に留意されたい。しかしながら、そのような演算は、（たとえば、分離評価器ＥＶ１０に関して後述するように）音源信号Ｓ２０と雑音基準Ｓ３０との間の分離が不十分であるフレームにとってそのような装置において有用になることがある。

図２５の例に示すように、音声信号は下向きのスペクトル傾斜を有する傾向があり、信号パワーはより高い周波数においてロールオフする。雑音基準Ｓ３０のスペクトルは音声信号Ｓ４０のスペクトルよりもフラットである傾向があるので、適応等化演算は、この下向きのスペクトル傾斜を低減する傾向がある。

傾斜低減された信号を得るために音声信号Ｓ４０に対して事前強調処理モジュールＰＭ１０によって実行できる傾斜低減前処理演算の別の例はプリエンファシスである。典型的な実装形態では、事前強調処理モジュールＰＭ１０は、αが０．９〜１．０の範囲内の値を有する形式１−αｚ^−１の１次高域フィルタを適用することによって、音声信号Ｓ４０に対してプリエンファシス演算を実行するように構成される。そのようなフィルタは、一般に、オクターブ当たり約６ｄＢだけ高周波成分をブースティングするように構成される。傾斜低減演算はまた、スペクトルピークの絶対値間の差を低減することができる。たとえば、そのような演算は、より低い周波数の第１のホルマントの振幅に対して、より高い周波数の第２および第３のホルマントの振幅を増加させることによって、音声信号を等化することができる。傾斜低減演算の別の例では、利得係数の値が周波数とともに増加し、雑音基準Ｓ３０に依存しない利得係数を、音声信号Ｓ４０のスペクトルに適用する。

エンハンサＥＮ１０ａが、音声信号Ｓ４０からの情報に基づいて第１の強調ベクトルＥＶ１０ａを発生するように構成された強調ベクトル発生器ＶＧ１００の実装形態ＶＧ１００ａを含み、エンハンサＥＮ１０ｂが、音源信号Ｓ２０から情報に基づいて第２の強調ベクトルＶＧ１０ｂを発生するように構成された強調ベクトル発生器ＶＧ１００の実装形態ＶＧ１００ｂを含むように装置Ａ１２０を実装することが望ましい。そのような場合、発生器ＶＧ１００ａは、発生器ＶＧ１００ｂとは異なる強調ベクトル発生演算を実行するように構成できる。一例では、発生器ＶＧ１００ａは、線形予測係数のセットから音声信号Ｓ４０の１つまたは複数のホルマントを追跡することによって強調ベクトルＶＧ１０ａを発生するように構成され、発生器ＶＧ１００ｂは、音源信号Ｓ２０の平滑化されたスペクトルの比を計算することによって強調ベクトルＶＧ１０ｂを発生するように構成される。

雑音サブバンド信号発生器ＮＧ１００、音声サブバンド信号発生器ＳＧ１００、および強調サブバンド信号発生器ＥＧ１００のいずれかまたはすべては、図２６Ａに示すようにサブバンド信号発生器ＳＧ２００のそれぞれのインスタンスとして実装できる。サブバンド信号発生器ＳＧ２００は、信号Ａ（すなわち、適宜に雑音基準Ｓ３０、音声信号Ｓ４０、または強調ベクトルＥＶ１０）からの情報に基づいてｑ個のサブバンド信号Ｓ（ｉ）のセットを生成するように構成され、１≦ｉ≦ｑであり、ｑはサブバンドの所望の数（たとえば、４、７、８、１２、１６、２４）である。この場合、サブバンド信号発生器ＳＧ２００は、信号Ａの対応するサブバンドに、信号Ａの他のサブバンドとは異なる利得を適用する（すなわち、通過帯域をブースティングすること、および／または停止帯域を減衰させる）ことによって、サブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々を生成するように構成されたサブバンドフィルタアレイＳＧ１０を含む。

サブバンドフィルタアレイＳＧ１０は、様々なサブバンド信号を並列に生成するように構成された２つ以上の成分フィルタを含むように実装できる。図２８に、信号Ａのサブバンド分解を実行するように並列に構成されたｑ個のバンドパスフィルタＦ１０−１〜Ｆ１０−ｑのアレイを含む、サブバンドフィルタアレイＳＧ１０のそのような実装形態ＳＧ１２のブロック図を示す。フィルタＦ１０−１〜Ｆ１０−ｑの各々は、信号Ａをフィルタ処理して、ｑ個のサブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの対応する１つを生成するように構成される。

フィルタＦ１０−１〜Ｆ１０−ｑの各々を、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）を有するように実装することができる。一例では、サブバンドフィルタアレイＳＧ１２はウェーブレットまたはポリフェーズ分析フィルタバンクとして実装される。別の例では、フィルタＦ１０−１〜Ｆ１０−ｑの１つまたは複数（場合によってはすべて）の各々は２次ＩＩＲセクションまたは「バイカッド（biquad）」として実装される。バイカッドの伝達関数を次のように表すことができる。

特にエンハンサＥＮ１０の浮動小数点実装形態の場合、転置直接形ＩＩを使用して各バイカッドを実装することが望ましい。図２９Ａに、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つの一般的ＩＩＲフィルタ実装形態の転置直接形ＩＩを示し、図２９Ｂに、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つのＦ１０−ｉのバイカッド実装形態の転置直接形ＩＩ構造を示す。図３０に、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つのバイカッド実装形態の一例の絶対値および位相応答のプロットを示す。

フィルタＦ１０−１〜Ｆ１０−ｑは、（たとえば、フィルタ通過帯域が等しい幅を有するように）均一サブバンド分解を実行するのではなく、（たとえば、フィルタ通過帯域の２つ以上が様々な幅を有するように）信号Ａの不均一サブバンド分解を実行することが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。１つのそのような分割方式は、周波数２０、３００、６３０、１０８０、１７２０、２７００、４４００、および７７００Ｈｚに対応し、その幅が周波数とともに増加する７つのバーク尺度サブバンドのセットのエッジを示す、図２７のドットによって示される。サブバンドのそのような構成は、広帯域音声処理システム（たとえば、１６ｋＨｚのサンプリングレートを有するデバイス）において使用できる。そのような分割方式の他の例では、最も低いサブバンドは６サブバンド方式を得るために省略され、および／または最も高いサブバンドの上限は７７００Ｈｚから８０００Ｈｚに増加される。

狭帯域音声処理システム（たとえば、８ｋＨｚのサンプリングレートを有するデバイス）では、より少数のサブバンドの構成を使用することが望ましい。そのようなサブバンド分割方式の一例は、４帯域擬似バーク方式３００〜５１０Ｈｚ、５１０〜９２０Ｈｚ、９２０〜１４８０Ｈｚ、および１４８０〜４０００Ｈｚである。（たとえば、本例のように）広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および／またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。

フィルタＦ１０−１〜Ｆ１０−ｑの各々は、対応するサブバンドにわたる利得ブースト（すなわち、信号絶対値の増加）および／または他のサブバンドにわたる減衰（すなわち、信号絶対値の減少）を与えるように構成される。フィルタの各々は、そのそれぞれの通過帯域をほぼ同じ量（たとえば、３ｄＢ、または６ｄＢ）だけブースティングするように構成できる。代替的に、フィルタの各々は、そのそれぞれの停止帯域をほぼ同じ量（たとえば、３ｄＢ、または６ｄＢ）だけ減衰させるように構成できる。図３１に、ｑが７に等しいフィルタＦ１０−１〜Ｆ１０−ｑのセットを実装するために使用できる一連の７つのバイカッドの絶対値および位相応答を示す。この例では、各フィルタは、そのそれぞれのサブバンドをほぼ同じ量だけブースティングするように構成される。各フィルタが同じピーク応答を有し、フィルタの帯域幅が周波数とともに増加するように、フィルタＦ１０−１〜Ｆ１０−ｑを構成することが望ましい。

代替的に、別のフィルタよりも大きいブースト（または減衰）を与えるように、フィルタＦ１０−１〜Ｆ１０−ｑのうちの１つまたは複数を構成することが望ましい。たとえば、そのそれぞれのサブバンドに同じ利得ブースト（または他のサブバンドに減衰）を与えるように、雑音サブバンド信号発生器ＮＧ１００、音声サブバンド信号発生器ＳＧ１００、および強調サブバンド信号発生器ＥＧ１００の中の１つにおけるサブバンドフィルタアレイＳＧ１０のフィルタＦ１０−１〜Ｆ１０−ｑの各々を構成し、たとえば、所望の聴覚心理重み付け関数に従って互いに異なる利得ブースト（または減衰）を与えるように、雑音サブバンド信号発生器ＮＧ１００、音声サブバンド信号発生器ＳＧ１００、および強調サブバンド信号発生器ＥＧ１００の中の別のものにおけるサブバンドフィルタアレイＳＧ１０のフィルタＦ１０−１〜Ｆ１０−ｑの少なくともいくつかを構成することが望ましい。

図２８は、フィルタＦ１０−１〜Ｆ１０−ｑがサブバンド信号Ｓ（１）〜Ｓ（ｑ）を並列に生成する構成を示す。当業者は、これらのフィルタのうちの１つまたは複数の各々が、サブバンド信号の２つ以上を直列に生成するようにも実装できることを理解されよう。たとえば、サブバンドフィルタアレイＳＧ１０は、ある時間において、サブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの１つを生成するためにフィルタ信号Ａに対するフィルタ係数値の第１のセットとともに構成され、後続の時間において、サブバンド信号Ｓ（１）〜Ｓ（ｑ）のうちの異なる１つを生成するためにフィルタ信号Ａに対するフィルタ係数値の第２のセットとともに構成されるフィルタ構造（たとえば、バイカッド）を含むように実装できる。そのような場合、サブバンドフィルタアレイＳＧ１０は、ｑ個よりも少ないバンドパスフィルタを使用して実装できる。たとえば、フィルタ係数値のｑ個のセットの各々に従ってｑ個のサブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々を生成する方法で、直列に再構成された単一のフィルタ構造とともにサブバンドフィルタアレイＳＧ１０を実装することが可能である。

代替または追加として、雑音サブバンド信号発生器ＮＧ１００、音声サブバンド信号発生器ＳＧ１００、および強調サブバンド信号発生器ＥＧ１００のいずれかまたはすべては、図２６Ｂに示すようにサブバンド信号発生器ＳＧ３００のインスタンスとして実装できる。サブバンド信号発生器ＳＧ３００は、信号Ａ（すなわち、適宜に雑音基準Ｓ３０、音声信号Ｓ４０、または強調ベクトルＥＶ１０）からの情報に基づいてｑ個のサブバンド信号Ｓ（ｉ）のセットを生成するように構成され、１≦ｉ≦ｑであり、ｑはサブバンドの所望の数である。サブバンド信号発生器ＳＧ３００は、変換された信号Ｔを生成するために信号Ａに対して変換演算を実行するように構成された変換モジュールＳＧ２０を含む。変換モジュールＳＧ２０は、周波数領域変換された信号を生成するために（たとえば、高速フーリエ変換またはＦＦＴによって）信号Ａに対して周波数領域変換演算を実行するように構成できる。変換モジュールＳＧ２０の他の実装形態は、ウェーブレット変換演算または離散コサイン変換（ＤＣＴ）演算など、信号Ａに対して異なる変換演算を実行するように構成できる。変換演算は、所望の均一分解能（たとえば、３２、６４、１２８、２５６、または５１２ポイントのＦＦＴ演算）に従って実行できる。

サブバンド信号発生器ＳＧ３００はまた、所望のサブバンド分割方式に従って、変換された信号Ｔをビンのセットに分割することによって、サブバンド信号Ｓ（ｉ）のセットをｑ個のビンのセットとして生成するように構成されたビニングモジュールＳＧ３０を含む。ビニングモジュールＳＧ３０は、均一サブバンド分割方式を適用するように構成できる。均一サブバンド分割方式では、各ビンは（たとえば、約１０パーセント内の）実質的に同じ幅を有する。代替的に、聴覚心理研究が人間の聴覚は周波数領域において不均一分解能に基づいて働くことを示しているように、ビニングモジュールＳＧ３０が不均一サブバンド分割方式を適用することが望ましい。不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。図２７のドットの行は、周波数２０、３００、６３０、１０８０、１７２０、２７００、４４００、および７７００Ｈｚに対応する７つのバーク尺度サブバンドのセットのエッジを示す。サブバンドのそのような構成は、１６ｋＨｚのサンプリングレートを有する広帯域音声処理システムにおいて使用できる。そのような分割方式の他の例では、より低いサブバンドは、６サブバンド構成を得るために除外され、および／または高周波限界は７７００Ｈｚから８０００Ｈｚに増加される。ビニングモジュールＳＧ３０は、ビンの１つまたは複数（場合によってはすべて）が少なくとも１つの隣接ビンに重複するようにも実装できるが、一般に、変換された信号Ｔを重複しないビンのセットに分割するように実装される。

上記のサブバンド信号発生器ＳＧ２００およびＳＧ３００の説明は、信号発生器が信号Ａを時間領域信号として受信すると仮定している。代替的に、雑音サブバンド信号発生器ＮＧ１００、音声サブバンド信号発生器ＳＧ１００、および強調サブバンド信号発生器ＥＧ１００のいずれかまたはすべては、図２６Ｃに示すようにサブバンド信号発生器ＳＧ４００のインスタンスとして実装できる。サブバンド信号発生器ＳＧ４００は、信号Ａ（すなわち、雑音基準Ｓ３０、音声信号Ｓ４０、または強調ベクトルＥＶ１０）を変換領域信号として受信し、信号Ａからの情報に基づいてｑ個のサブバンド信号Ｓ（ｉ）のセットを生成するように構成される。たとえば、サブバンド信号発生器ＳＧ４００は、信号Ａを周波数領域信号として、あるいはウェーブレット変換、ＤＣＴ、または他の変換領域中の信号として受信するように構成できる。この例では、サブバンド信号発生器ＳＧ４００は、上述のようにビニングモジュールＳＧ３０のインスタンスとして実装される。

雑音サブバンドパワー推定値計算器ＮＰ１００と強調サブバンドパワー推定値計算器ＥＰ１００のいずれかまたは両方は、図２６Ｄに示すようにサブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして実装できる。サブバンドパワー推定値計算器ＥＣ１１０は、サブバンド信号Ｓ（ｉ）のセットを受信し、１≦ｉ≦ｑであるｑ個のサブバンドパワー推定値Ｅ（ｉ）の対応するセットを生成するように構成された加算器ＥＣ１０を含む。加算器ＥＣ１０は、一般に、信号Ａ（すなわち、適宜に雑音基準Ｓ３０または強調ベクトルＥＶ１０）の連続するサンプル（「フレーム」とも呼ばれる）の各ブロックのｑ個のサブバンドパワー推定値のセットを計算するように構成される。典型的なフレーム長は、約５または１０ミリ秒から約４０または５０ミリ秒にわたり、フレームは重複していても重複していなくてもよい。１つの演算によって処理されるフレームは、異なる演算によって処理されるより大きいフレームのセグメント（すなわち、「サブフレーム」）とすることもできる。１つの特定の例では、信号Ａは、１０ミリ秒の重複しないフレームのシーケンスに分割され、加算器ＥＣ１０は、信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成される。

一例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

上式で、Ｅ（ｉ，ｋ）は、サブバンドｉおよびフレームｋのサブバンドパワー推定値を示し、Ｓ（ｉ，ｊ）は、ｉ番目のサブバンド信号のｊ番目のサンプルを示す。

別の例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

信号Ａの対応する和によって各サブバンド和を正規化するように加算器ＥＣ１０を実装することが望ましい。１つのそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、信号Ａの値の平方和で除算された、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

上式で、Ａ（ｊ）は、信号Ａのｊ番目のサンプルを示す。別のそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値の各々を、信号Ａの値の絶対値の和で除算された、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従ってオーディオ信号の各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

代替的に、サブバンド信号Ｓ（ｉ）のセットがビニングモジュールＳＧ３０の実装形態によって生成される場合、加算器ＥＣ１０が、サブバンド信号Ｓ（ｉ）のうちの対応する１つにおけるサンプルの総数によって各サブバンド和を正規化することが望ましい。（たとえば、上記の式（４ａ）および（４ｂ）のように）各サブバンド和を正規化するために除算演算が使用される場合、０によって除算する可能性を回避するために、小さい０でない（たとえば、正数）値ζを分母に追加することが望ましい。値ζはすべてのサブバンドに対して同じとすることができ、または（たとえば、チューニングおよび／または重み付けのために）サブバンドの２つ以上（場合によってはすべて）の各々のために異なる値のζを使用することができる。ζの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。

代替的に、信号Ａの対応する和を減算することによって各サブバンド和を正規化するように加算器ＥＣ１０を実装することが望ましい。１つのそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の平方和と信号Ａの値の平方和との差として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

別のそのような例では、加算器ＥＣ１０は、サブバンドパワー推定値Ｅ（ｉ）の各々を、サブバンド信号Ｓ（ｉ）のうちの対応する１つの値の絶対値の和と信号Ａの値の絶対値の和との差として計算するように構成される。加算器ＥＣ１０のそのような実装形態は、次式などの式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値のセットを計算するように構成できる。

たとえば、雑音サブバンド信号発生器ＮＧ１００をサブバンドフィルタアレイＳＧ１０のブースティング実装形態として実装し、雑音サブバンドパワー推定値計算器ＮＰ１００を、式（５ｂ）に従ってｑ個のサブバンドパワー推定値のセットを計算するように構成された加算器ＥＣ１０の実装形態として実装することが望ましい。代替または追加として、強調サブバンド信号発生器ＥＧ１００をサブバンドフィルタアレイＳＧ１０のブースティング実装形態として実装し、強調サブバンドパワー推定値計算器ＥＰ１００を、式（５ｂ）に従ってｑ個のサブバンドパワー推定値のセットを計算するように構成された加算器ＥＣ１０の実装形態として実装することが望ましい。

雑音サブバンドパワー推定値計算器ＮＰ１００と強調サブバンドパワー推定値計算器ＥＰ１００のいずれかまたは両方は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、雑音サブバンドパワー推定値計算器ＮＰ１００と強調サブバンドパワー推定値計算器ＥＰ１００のいずれかまたは両方は、図２６Ｅに示すようにサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。サブバンドパワー推定値計算器ＥＣ１２０は、サブバンドパワー推定値Ｅ（ｉ）を生成するために、経時的に加算器ＥＣ１０によって計算される和を平滑化するように構成された平滑器ＥＣ２０を含む。平滑器ＥＣ２０は、サブバンドパワー推定値Ｅ（ｉ）を和の移動平均として計算するように構成できる。平滑器ＥＣ２０のそのような実装形態は、１≦ｉ≦ｑの場合、次式のうちの１つなどの線形平滑化式に従って信号Ａの各フレームのｑ個のサブバンドパワー推定値Ｅ（ｉ）のセットを計算するように構成できる。

上式で、平滑化係数αは、０（平滑化なし）から１（最大平滑化、更新なし）の範囲内の値（たとえば、０．３、０．５、０．７、０．９、０．９９、または０．９９９）である。平滑器ＥＣ２０が、ｑ個のサブバンドのすべてに対して平滑化係数αの同じ値を使用することが望ましい。代替的に、平滑器ＥＣ２０が、ｑ個のサブバンドの２つ以上（場合によってはすべて）の各々に対して平滑化係数αの異なる値を使用することが望ましい。平滑化係数αの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。

サブバンドパワー推定値計算器ＥＣ１２０の１つの特定の例は、上記の式（３）に従ってｑ個のサブバンド和を計算し、上記の式（７）に従ってｑ個の対応するサブバンドパワー推定値を計算するように構成される。サブバンドパワー推定値計算器ＥＣ１２０の別の特定の例は、上記の式（５ｂ）に従ってｑ個のサブバンド和を計算し、上記の式（７）に従ってｑ個の対応するサブバンドパワー推定値を計算するように構成される。しかしながら、式（２）〜（５ｂ）のうちの１つと式（６）〜（８）のうちの１つとの１８の可能な組合せのすべては、本明細書によって個々に明確に開示されることに留意されたい。平滑器ＥＣ２０の代替実装形態は、加算器ＥＣ１０によって計算される和に対して非線形平滑化演算を実行するように構成できる。

上述のサブバンドパワー推定値計算器ＥＣ１１０の実装形態が、サブバンド信号Ｓ（ｉ）のセットを、時間領域信号として、または変換領域中の信号（たとえば、周波数領域信号）として受信するように構成できることに明確に留意されたい。

利得制御要素ＣＥ１００は、コントラスト強調音声信号ＳＣ１０を生成するために、複数のサブバンド利得係数の各々を音声信号Ｓ４０の対応するサブバンドに適用するように構成される。エンハンサＥＮ１０は、利得制御要素ＣＥ１００が、強調サブバンドパワー推定値を複数の利得係数として受信するように構成されるように実装できる。代替的に、利得制御要素ＣＥ１００は、（たとえば、図１２に示すように）サブバンド利得係数計算器ＦＣ１００から複数の利得係数を受信するように構成できる。

サブバンド利得係数計算器ＦＣ１００は、対応する強調サブバンドパワー推定値からの情報に基づいて、１≦ｉ≦ｑであるｑ個のサブバンドの各々の利得係数Ｇ（ｉ）のセットのうちの対応する１つを計算するように構成される。計算器ＦＣ１００は、（たとえば、Ｇ（ｉ）＝ｍａｘ（ＬＬ，Ｅ（ｉ））および／またはＧ（ｉ）＝ｍｉｎ（ＵＬ，Ｅ（ｉ））などの式に従って）対応する強調サブバンドパワー推定値Ｅ（ｉ）に上限ＵＬおよび／または下限ＬＬを適用することによって、サブバンド利得係数のうちの１つまたは複数（場合によってはすべて）の各々を計算するように構成できる。追加または代替として、計算器ＦＣ１００は、対応する強調サブバンドパワー推定値を正規化することによって、サブバンド利得係数のうちの１つまたは複数（場合によってはすべて）の各々を計算するように構成できる。たとえば、計算器ＦＣ１００のそのような実装形態は、次式などの式に従って各サブバンド利得係数Ｇ（ｉ）を計算するように構成できる。

追加または代替として、計算器ＦＣ１００は、各サブバンド利得係数に対して時間平滑化演算を実行するように構成できる。

サブバンドの重複から生じることがある過大なブースティングを補償するようにエンハンサＥＮ１０を構成することが望ましい。たとえば、利得係数計算器ＦＣ１００は、中間周波数利得係数のうちの１つまたは複数の値を低減するように構成できる（たとえば、ｆｓが音声信号Ｓ４０のサンプリング周波数を示す周波数ｆｓ／４を含むサブバンド）。利得係数計算器ＦＣ１００のそのような実装形態は、利得係数の現在値に、１未満の値を有するスケール係数を乗算することによって低減を実行するように構成できる。利得係数計算器ＦＣ１００のそのような実装形態は、スケールダウンすべき各利得係数に対して同じスケール係数を使用するか、または代替的に、（たとえば、対応するサブバンドと１つまたは複数の隣接するサブバンドとの重複の程度に基づいて）スケールダウンすべき各利得係数に対して異なるスケール係数を使用するように構成できる。

追加または代替として、高周波サブバンドの１つまたは複数のブースティングの程度を増加させるようにエンハンサＥＮ１０を構成することが望ましい。たとえば、音声信号Ｓ４０の１つまたは複数の高周波サブバンド（たとえば、最も高いサブバンド）の増幅が、中間周波数サブバンド（たとえば、ｆｓが音声信号Ｓ４０のサンプリング周波数を示す周波数ｆｓ／４を含むサブバンド）の増幅よりも小さくならないように利得係数計算器ＦＣ１００を構成することが望ましい。利得係数計算器ＦＣ１００は、中間周波数サブバンドの利得係数の現在値に、１よりも大きいスケール係数を乗算することによって高周波サブバンドの利得係数の現在値を計算するように構成できる。別の例では、利得係数計算器ＦＣ１００は、（Ａ）本明細書で開示する技法のいずれかに従って、そのサブバンドの雑音パワー推定値に基づいて計算される現在の利得係数値と、（Ｂ）中間周波数サブバンドの利得係数の現在値に、１よりも大きいスケール係数を乗算することによって得られる値とのうちの最大値として高周波サブバンドの利得係数の現在値を計算するように構成される。代替または追加として、利得係数計算器ＦＣ１００は、１つまたは複数の高周波サブバンドの利得係数を計算する際に、上限ＵＢにより高い値を使用するように構成できる。

利得制御要素ＣＥ１００は、コントラスト強調音声信号ＳＣ１０を生成するために、利得係数の各々を音声信号Ｓ４０の対応するサブバンドに適用する（たとえば、利得係数のベクトルとして利得係数を音声信号Ｓ４０に適用する）ように構成される。利得制御要素ＣＥ１００は、たとえば、音声信号Ｓ４０のフレームの周波数領域サブバンドの各々に、対応する利得係数Ｇ（ｉ）を乗算することによって、コントラスト強調音声信号ＳＣ１０の周波数領域バージョンを生成するように構成できる。利得制御要素ＣＥ１００の他の例は、（たとえば、利得係数を合成フィルタバンクのそれぞれのフィルタに適用することによって）利得係数を音声信号Ｓ４０の対応するサブバンドに適用するためにオーバーラップ加算またはオーバーラップ保存方法を使用するように構成される。

利得制御要素ＣＥ１００は、コントラスト強調音声信号ＳＣ１０の時間領域バージョンを生成するように構成できる。たとえば、利得制御要素ＣＥ１００は、サブバンド利得制御要素の各々がサブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々に利得係数Ｇ（１）〜Ｇ（ｑ）の各々を適用するように構成されたサブバンド利得制御要素Ｇ２０−１〜Ｇ２０−ｑ（たとえば、乗算器または増幅器）のアレイを含むことができる。

サブバンド混合係数計算器ＦＣ２００は、対応する雑音サブバンドパワー推定値からの情報に基づいて、１≦ｉ≦ｑであるｑ個のサブバンドの各々の混合係数Ｍ（ｉ）のセットのうちの対応する１つを計算するように構成される。図３３Ａに、各混合係数Ｍ（ｉ）を対応するサブバンドの雑音レベルηの指示として計算するように構成された混合係数計算器ＦＣ２００の実装形態ＦＣ２５０のブロック図を示す。混合係数計算器ＦＣ２５０は、各雑音レベル指示が雑音基準Ｓ３０の対応するサブバンドにおける相対雑音レベルを示すように、雑音サブバンドパワー推定値の対応するセットに基づいて音声信号の各フレームｋの雑音レベル指示η（ｉ，ｋ）のセットを計算するように構成された雑音レベル指示計算器ＮＬ１０を含む。雑音レベル指示計算器ＮＬ１０は、０〜１などのある範囲にわたる値を有するように、雑音レベル指示の各々を計算するように構成できる。たとえば、雑音レベル指示計算器ＮＬ１０は、次式などの式に従ってｑ個の雑音レベル指示のセットの各々を計算するように構成できる。

上式で、Ｅ_Ｎ（ｉ，ｋ）は、サブバンドｉおよびフレームｋの雑音サブバンドパワー推定値計算器ＮＰ１００によって（すなわち、雑音基準Ｓ２０に基づいて）生成されるサブバンドパワー推定値を示し、η（ｉ，ｋ）は、サブバンドｉおよびフレームｋの雑音レベル指示を示し、η_ｍｉｎおよびη_ｍａｘはそれぞれ、η（ｉ，ｋ）の最小値および最大値を示す。

雑音レベル指示計算器ＮＬ１０のそのような実装形態は、ｑ個のサブバンドのすべてに対してη_ｍｉｎおよびη_ｍａｘの同じ値を使用するように構成でき、または代替的に、１つのサブバンドに対して別のサブバンドとは異なるη_ｍｉｎおよび／またはη_ｍａｘの値を使用するように構成できる。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値は、たとえば、エンハンサＥＮ１０のための所望のヘッドルームおよび／または処理済み音声信号Ｓ５０の現在のボリューム（たとえば、オーディオ出力段Ｏ１０に関して以下で説明するボリューム制御信号ＶＳ１０の現在値）に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、音声信号Ｓ４０の現在のレベルなど、音声信号Ｓ４０からの情報に基づくことができる。別の例では、雑音レベル指示計算器ＮＬ１０は、次式などの式に従ってサブバンドパワー推定値を正規化することによってｑ個の雑音レベル指示のセットの各々を計算するように構成される。

混合係数計算器ＦＣ２００はまた、混合係数Ｍ（ｉ）のうちの１つまたは複数（場合によってはすべて）の各々に対して平滑化演算を実行するように構成できる。図３３Ｂに、雑音レベル指示計算器ＮＬ１０によって生成されるｑ個の雑音レベル指示のうちの１つまたは複数（場合によってはすべて）の各々に対して時間平滑化演算を実行するように構成された平滑器ＧＣ２０を含む混合係数計算器ＦＣ２５０のそのような実装形態ＦＣ２６０のブロック図を示す。一例では、平滑器ＧＣ２０は、次式などの式に従ってｑ個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。

上式で、βは平滑化係数である。この例では、平滑化係数βは、０（平滑化なし）から１（最大平滑化、更新なし）の範囲内の値（たとえば、０．３、０．５、０．７、０．９、０．９９、または０．９９９）を有する。

平滑器ＧＣ２０が、混合係数の現在値と前の値との間の関係に応じて、平滑化係数βの２つ以上の値の中から１つを選択することが望ましい。たとえば、平滑器ＧＣ２０が、雑音の程度が増加しているとき、混合係数値がより急速に変化できるようにすることによって、および／または雑音の程度が減少しているとき、混合係数値の急速な変化を抑止することによって微分時間平滑化演算を実行することが望ましい。そのような構成は、大きい雑音が、雑音が終了した後でも所望の音響をマスキングし続ける聴覚心理継時マスキング効果に対処するのを助けることができる。したがって、雑音レベル指示の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、雑音レベル指示の現在値が前の値よりも小さい場合の平滑化係数βが大きいことが望ましい。１つのそのような例では、平滑器ＧＣ２０は、１≦ｉ≦ｑの場合、次式などの式に従ってｑ個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。

上式で、β_ａｔｔは平滑化係数βのアタック値を示し、β_ｄｅｃは平滑化係数βの減衰値を示し、β_ａｔｔ＜β_ｄｅｃである。平滑器ＥＣ２０の別の実装形態は、次式のうちの１つなどの線形平滑化式に従ってｑ個の雑音レベル指示の各々に対して線形平滑化演算を実行するように構成される。

平滑器ＧＣ２０のさらなる実装形態は、雑音の程度が減少しているとき、ｑ個の混合係数のうちの１つまたは複数（場合によってはすべて）に対して更新を遅延させるように構成できる。たとえば、平滑器ＣＧ２０は、たとえば、１または２から５、６、または８の範囲内とすることができる値ｈａｎｇｏｖｅｒ＿ｍａｘ（ｉ）によって指定された間隔に従って、比減衰プロファイル中に更新を遅延させるハングオーバ論理を含むように実装できる。各サブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの同じ値を使用することも、異なるサブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの異なる値を使用することもできる。

ミキサＸ１００は、混合係数と音声信号Ｓ４０とコントラスト強調信号ＳＣ１０とからの情報に基づいて処理済み音声信号Ｓ５０を生成するように構成される。たとえば、エンハンサＥＮ１００は、１≦ｉ≦ｑの場合、Ｐ（ｉ，ｋ）＝Ｍ（ｉ，ｋ）Ｃ（ｉ，ｋ）＋（１−Ｍ（ｉ，ｋ））Ｓ（ｉ，ｋ）などの式に従って、音声信号Ｓ４０とコントラスト強調信号ＳＣ１０との対応する周波数領域サブバンドを混合することによって処理済み音声信号Ｓ５０の周波数領域バージョンを生成するように構成されたミキサＸ１００の実装形態を含むことができ、Ｐ（ｉ，ｋ）はＰ（ｋ）のサブバンドｉを示し、Ｃ（ｉ，ｋ）はコントラスト強調信号ＳＣ１０のサブバンドｉおよびフレームｋを示し、Ｓ（ｉ，ｋ）は音声信号Ｓ４０のサブバンドｉおよびフレームｋを示す。代替的に、エンハンサＥＮ１００は、

などの式に従って、音声信号Ｓ４０とコントラスト強調信号ＳＣ１０との対応する時間領域サブバンドを混合することによって処理済み音声信号Ｓ５０の時間領域バージョンを生成するように構成されたミキサＸ１００の実装形態を含むことができ、１≦ｉ≦ｑの場合、Ｐ（ｉ，ｋ）＝Ｍ（ｉ，ｋ）Ｃ（ｉ，ｋ）＋（１−Ｍ（ｉ，ｋ））Ｓ（ｉ，ｋ）であり、ｐ（ｋ）は処理済み音声信号Ｓ５０のフレームｋを示し、Ｐ（ｉ，ｋ）はＰ（ｋ）のサブバンドｉを示し、Ｃ（ｉ，ｋ）はコントラスト強調信号ＳＣ１０のサブバンドｉおよびフレームｋを示し、Ｓ（ｉ，ｋ）は音声信号Ｓ４０のサブバンドｉおよびフレームｋを示す。

固定または適応周波数プロファイルなどの追加情報に基づいて処理済み音声信号Ｓ５０を生成するようにミキサＸ１００を構成することが望ましい。たとえば、マイクロフォンまたはスピーカーの周波数応答を補償するために、そのような周波数プロファイルを適用することが望ましい。代替的に、ユーザ選択等化プロファイルを記述する周波数プロファイルを適用することが望ましい。そのような場合、ミキサＸ１００は、

などの式に従って処理済み音声信号Ｓ５０を生成するように構成でき、値ｗ_ｉは所望の周波数重み付けプロファイルを定義する。

図３２に、スペクトルコントラストエンハンサＥＮ１０の実装形態ＥＮ１１０のブロック図を示す。エンハンサＥＮ１１０は、音声信号Ｓ４０からの情報に基づいて音声サブバンド信号のセットを生成するように構成された音声サブバンド信号発生器ＳＧ１００を含む。上記のように、音声サブバンド信号発生器ＳＧ１００は、たとえば、図２６Ａに示すようにサブバンド信号発生器ＳＧ２００のインスタンスとして、図２６Ｂに示すようにサブバンド信号発生器ＳＧ３００のインスタンスとして、または図２６Ｃに示すようにサブバンド信号発生器ＳＧ４００のインスタンスとして実装できる。

エンハンサＥＮ１１０はまた、各々が音声サブバンド信号のうちの対応する１つからの情報に基づく音声サブバンドパワー推定値のセットを生成するように構成された音声サブバンドパワー推定値計算器ＳＰ１００を含む。音声サブバンドパワー推定値計算器ＳＰ１００は、図２６Ｄに示すようにサブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして実装できる。たとえば、音声サブバンド信号発生器ＳＧ１００をサブバンドフィルタアレイＳＧ１０のブースティング実装形態として実装し、音声サブバンドパワー推定値計算器ＳＰ１００を、式（５ｂ）に従ってｑ個のサブバンドパワー推定値のセットを計算するように構成された加算器ＥＣ１０の実装形態として実装することが望ましい。追加または代替として、音声サブバンドパワー推定値計算器ＳＰ１００は、サブバンドパワー推定値に対して時間平滑化演算を実行するように構成できる。たとえば、音声サブバンドパワー推定値計算器ＳＰ１００は、図２６Ｅに示すようにサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。

エンハンサＥＮ１１０はまた、対応する雑音サブバンドパワー推定値および対応する強調サブバンドパワー推定値からの情報に基づいて、音声サブバンド信号の各々について利得係数を計算するように構成されたサブバンド利得係数計算器ＦＣ１００（およびサブバンド混合係数計算器ＦＣ２００）の実装形態ＦＣ３００と、処理済み音声信号Ｓ５０を生成するために、利得係数の各々を音声信号Ｓ４０の対応するサブバンドに適用するように構成された利得制御要素ＣＥ１１０とを含む。処理済み音声信号Ｓ５０は、少なくとも、スペクトルコントラスト強調が使用可能にされ、強調ベクトルＥＶ１０が利得係数値のうちの少なくとも１つに寄与する場合、コントラスト強調音声信号とも呼ばれる場合があることに明確に留意されたい。

利得係数計算器ＦＣ３００は、対応する雑音サブバンドパワー推定値および対応する強調サブバンドパワー推定値に基づいて、１≦ｉ≦ｑであるｑ個のサブバンドの各々の利得係数Ｇ（ｉ）のセットのうちの対応する１つを計算するように構成される。図３３Ｃに、利得係数への対応する強調サブバンドパワー推定値の寄与度に重み付けするために、対応する雑音サブバンドパワー推定値を使用することによって各利得係数Ｇ（ｉ）を計算するように構成された利得係数計算器ＦＣ３００の実装形態ＦＣ３１０のブロック図を示す。

利得係数計算器ＦＣ３１０は、混合係数計算器ＦＣ２００に関して上述したように雑音レベル指示計算器ＮＬ１０のインスタンスを含む。利得係数計算器ＦＣ３１０はまた、音声信号の各フレームのｑ個のパワー比のセットの各々を、混合サブバンドパワー推定値と、対応する音声サブバンドパワー推定値Ｅ_Ｓ（ｉ，ｋ）との間の比として計算するように構成された比計算器ＧＣ１０を含む。たとえば、利得係数計算器ＦＣ３１０は、次式などの式に従って音声信号の各フレームのｑ個のパワー比のセットの各々を計算するように構成できる。

上式で、Ｅ_Ｓ（ｉ，ｋ）は、サブバンドｉおよびフレームｋの音声サブバンドパワー推定値計算器ＳＰ１００によって（すなわち、音声信号Ｓ４０に基づいて）生成されるサブバンドパワー推定値を示し、Ｅ_Ｅ（ｉ，ｋ）は、サブバンドｉおよびフレームｋの強調サブバンドパワー推定値計算器ＥＰ１００によって（すなわち、強調ベクトルＥＶ１０に基づいて）生成されるサブバンドパワー推定値を示す。式（１４）の分子は、音声サブバンドパワー推定値および対応する強調サブバンドパワー推定値の相対的寄与率が、対応する雑音レベル指示に従って重み付けされる混合サブバンドパワー推定値を表す。

さらなる一例では、比計算器ＧＣ１０は、次式などの式に従って音声信号Ｓ４０の各フレームのサブバンドパワー推定値のｑ個の比のセットのうちの少なくとも１つ（場合によってはすべて）を計算するように構成される。

上式で、εは、小さい正値（すなわち、Ｅ_Ｓ（ｉ，ｋ）の期待値よりも小さい値）を有するチューニングパラメータである。比計算器ＧＣ１０のそのような実装形態では、すべてのサブバンドにチューニングパラメータεの同じ値を使用することが望ましい。代替的に、比計算器ＧＣ１０のそのような実装形態では、サブバンドの２つ以上ごと（場合によってはすべて）にチューニングパラメータεの異なる値を使用することが望ましい。チューニングパラメータεの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。チューニングパラメータεの使用は、比計算器ＧＣ１０におけるゼロ除算エラーの可能性を回避するのに役立つ。

利得係数計算器ＦＣ３１０を、ｑ個のパワー比のうちの１つまたは複数（場合によってはすべて）の各々に対して平滑化演算を実行するように構成することもできる。図３３Ｄに、比計算器ＧＣ１０によって生成されたｑ個のパワー比のうちの１つまたは複数（場合によってはすべて）の各々に対して時間平滑化演算を実行するように構成された平滑器ＧＣ２０のインスタンスＧＣ２５を含む利得係数計算器ＦＣ３１０のそのような実装形態ＦＣ３２０のブロック図を示す。１つのそのような例では、平滑器ＧＣ２５は、次式などの式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

平滑器ＧＣ２５が、利得係数の現在値と前の値との間の関係に応じて、平滑化係数βの２つ以上の値の中から１つを選択することが望ましい。したがって、利得係数の現在値が前の値よりも大きい場合の平滑化係数βの値に比較して、利得係数の現在値が前の値よりも小さい場合の平滑化係数βの値が大きいことが望ましい。１つのそのような例では、平滑器ＧＣ２５は、１≦ｉ≦ｑの場合、次式などの式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

上式で、β_ａｔｔは平滑化係数βのアタック値を示し、β_ｄｅｃは平滑化係数βの減衰値を示し、β_ａｔｔ＜β_ｄｅｃである。平滑器ＥＣ２５の別の実装形態は、次式のうちの１つなど、線形平滑化式に従ってｑ個のパワー比の各々に対して線形平滑化演算を実行するように構成される。

代替または追加として、（たとえば、式η（ｉ，ｋ）＞η（ｉ，ｋ−１）の値による）雑音レベル指示間の関係に基づいてβの値の中から選択するために、式（１７）〜（１９）を実装することができる。

図３４Ａに、フレームｋにおけるサブバンドｉごとに実行することができる、上式（１５）および（１８）によるそのような平滑化の一例を記載する擬似コードリストを示す。このリストでは、雑音レベル指示の現在値が計算され、利得係数の現在値が、混合サブバンドパワー対元の音声サブバンドパワーの比に初期化される。この比が利得係数の前の値よりも小さい場合、利得係数の現在値は、１未満の値を有するスケール係数ｂｅｔａ＿ｄｅｃによって前の値を減じることによって計算される。他の場合は、利得係数の現在値は、０（平滑化なし）から１（最大平滑化、更新なし）の範囲内の値（たとえば、０．３、０．５、０．７、０．９、０．９９、または０．９９９）を有する平均化係数ｂｅｔａ＿ａｔｔを使用して、その比と利得係数の前の値の平均として計算される。

平滑器ＧＣ２５のさらなる実装形態は、雑音の程度が低下しているとき、ｑ個の利得係数のうちの１つまたは複数（場合によってはすべて）に対して更新を遅延させるように構成できる。図３４Ｂに、そのような微分時間平滑化演算を実装するために使用できる図３４Ａの擬似コードリストの変形を示す。このリストは、たとえば、１または２から５、６または８の範囲内とすることができる値ｈａｎｇｏｖｅｒ＿ｍａｘ（ｉ）によって指定された間隔に従った比減衰プロファイル中に更新を遅延させるハングオーバ論理を含む。各サブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの同じ値を使用することも、異なるサブバンドにｈａｎｇｏｖｅｒ＿ｍａｘの異なる値を使用することもできる。

本明細書で説明する利得係数計算器ＦＣ１００またはＦＣ３００の実装形態は、利得係数のうちの１つまたは複数（場合によってはすべて）に対して上限および／または下限を適用するようにさらに構成できる。図３５Ａおよび図３５Ｂに、利得係数値の各々に対してそのような上限ＵＢおよび下限ＬＢを適用するために使用できる、それぞれ図３４Ａおよび図３４Ｂの擬似コードリストの修正を示す。これらの限界の各々の値は固定とすることができる。代替的に、これらの限界のいずれかまたは両方の値を、たとえば、エンハンサＥＮ１０のための所望のヘッドルームおよび／または処理済み音声信号Ｓ５０の現在のボリューム（たとえば、ボリューム制御信号ＶＳ１０の現在値）に従って適応させることができる。代替または追加として、これらの限界のいずれかまたは両方の値は、音声信号Ｓ４０の現在のレベルなど、音声信号Ｓ４０からの情報に基づくことができる。

利得制御要素ＣＥ１１０は、処理済み音声信号Ｓ５０を生成するために、利得係数の各々を音声信号Ｓ４０の対応するサブバンドに適用する（たとえば、利得係数のベクトルとして利得係数を音声信号Ｓ４０に適用する）ように構成される。利得制御要素ＣＥ１１０は、たとえば、音声信号Ｓ４０のフレームの周波数領域サブバンドの各々に、対応する利得係数Ｇ（ｉ）を乗算することによって、処理済み音声信号Ｓ５０の周波数領域バージョンを生成するように構成できる。利得制御要素ＣＥ１１０の他の例は、（たとえば、利得係数を合成フィルタバンクのそれぞれのフィルタに適用することによって）利得係数を音声信号Ｓ４０の対応するサブバンドに適用するためにオーバーラップ加算またはオーバーラップ保存方法を使用するように構成される。

利得制御要素ＣＥ１１０は、処理済み音声信号Ｓ５０の時間領域バージョンを生成するように構成できる。図３６Ａに、利得係数の各々を音声信号Ｓ４０の対応する時間領域サブバンドに適用するように各々が構成されたバンドパスフィルタのアレイを有するサブバンドフィルタアレイＦＡ１００を含む、利得制御要素ＣＥ１１０のそのような実装形態ＣＥ１１５のブロック図を示す。そのようなアレイのフィルタは並列および／または直列に構成できる。一例では、アレイＦＡ１００はウェーブレットまたはポリフェーズ合成フィルタバンクとして実装される。利得制御要素ＣＥ１１０の時間領域実装形態を含み、音声信号Ｓ４０を周波数領域信号として受信するように構成されたエンハンサＥＮ１１０の実装形態は、音声信号Ｓ４０の時間領域バージョンを利得制御要素ＣＥ１１０に与えるように構成された逆変換モジュールＴＲ２０のインスタンスをも含むことができる。

図３６Ｂに、並列に構成されたｑ個のバンドパスフィルタＦ２０−１〜Ｆ２０−ｑのセットを含むサブバンドフィルタアレイＦＡ１００の実装形態ＦＡ１１０のブロック図を示す。この場合、フィルタＦ２０−１〜Ｆ２０−ｑの各々は、対応するバンドパス信号を生成するために利得係数に従ってサブバンドをフィルタ処理することによって、（たとえば、利得係数計算器ＦＣ３００によって計算される）ｑ個の利得係数Ｇ（１）〜Ｇ（ｑ）の対応する１つを音声信号Ｓ４０の対応するサブバンドに適用するように構成される。サブバンドフィルタアレイＦＡ１１０はまた、処理済み音声信号Ｓ５０を生成するためにｑ個のバンドパス信号を混合するように構成されたコンバイナＭＸ１０を含む。

図３７Ａに、直列に（すなわち、各フィルタＦ２０−ｋが、２≦ｋ≦ｑの場合、フィルタＦ２０−（ｋ−１）の出力をフィルタ処理するように構成されるようにカスケードで、）利得係数に従って音声信号Ｓ４０をフィルタ処理することによって、利得係数Ｇ（１）〜Ｇ（ｑ）の各々を音声信号Ｓ４０の対応するサブバンドに適用するようにバンドパスフィルタＦ２０−１〜Ｆ２０−ｑが構成された、サブバンドフィルタアレイＦＡ１００の別の実装形態ＦＡ１２０のブロック図を示す。

フィルタＦ２０−１〜Ｆ２０−ｑの各々を、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）を有するように実装することができる。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つまたは複数（場合によってはすべて）の各々をバイカッドとして実装することができる。たとえば、サブバンドフィルタアレイＦＡ１２０はバイカッドのカスケードとして実装できる。そのような実装形態は、バイカッドＩＩＲフィルタカスケード、２次ＩＩＲセクションまたはフィルタのカスケード、あるいはカスケードの一連のサブバンドＩＩＲバイカッドと呼ばれることもある。特にエンハンサＥＮ１０の浮動小数点実装形態の場合、転置直接形ＩＩを使用して各バイカッドを実装することが望ましい。

フィルタＦ２０−１〜Ｆ２０−ｑの通過帯域が、（たとえば、フィルタ通過帯域が等しい幅を有するような）均一サブバンドのセットではなく（たとえば、フィルタ通過帯域の２つ以上が異なる幅を有するような）不均一サブバンドのセットへの音声信号Ｓ４０の帯域幅の分割を表すことが望ましい。上記のように、不均一サブバンド分割方式の例は、バーク尺度に基づく方式などの超越的方式、またはメル尺度に基づく方式などの対数的方式を含む。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑは、図２７中にドットによって示されるようにバーク尺度分割方式に従って構成できる。サブバンドのそのような構成は、広帯域音声処理システム（たとえば、１６ｋＨｚのサンプリングレートを有するデバイス）において使用できる。そのような分割方式の他の例では、最も低いサブバンドは６サブバンド方式を得るために省略され、および／または最も高いサブバンドの上限は７７００Ｈｚから８０００Ｈｚに増加される。

狭帯域音声処理システム（たとえば、８ｋＨｚのサンプリングレートを有するデバイス）では、６または７個よりも少ないサブバンドを有する分割方式に従ってフィルタＦ２０−１〜Ｆ２０−ｑの通過帯域を設計することが望ましい。そのようなサブバンド分割方式の一例は、４帯域擬似バーク方式３００〜５１０Ｈｚ、５１０〜９２０Ｈｚ、９２０〜１４８０Ｈｚ、および１４８０〜４０００Ｈｚである。（たとえば、本例のように）広い高周波数帯域の使用は、低サブバンドエネルギー推定のために望ましく、および／またはバイカッドを用いて最も高いサブバンドをモデル化することの困難に対処するために望ましい。

利得係数Ｇ（１）〜Ｇ（ｑ）の各々は、フィルタＦ２０−１〜Ｆ２０−ｑの対応する１つの１つまたは複数のフィルタ係数値を更新するために使用できる。そのような場合、その周波数特性（たとえば、その通過帯域の中心周波数および幅）が固定され、その利得が変動するように、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つまたは複数（場合によってはすべて）の各々を構成することが望ましい。そのような技法は、ＦＩＲまたはＩＩＲフィルタが、共通係数（たとえば、利得係数Ｇ（１）〜Ｇ（ｑ）の対応する１つの現在値）によってフィードフォワード係数（たとえば、上記のバイカッド式（１）中の係数ｂ_０、ｂ_１、およびｂ_２）の値をのみ変動させることによって実装できる。たとえば、フィルタＦ２０−１〜Ｆ２０−ｑのうちの１つのＦ２０−ｉのバイカッド実装形態におけるフィードフォワード係数の各々の値を、利得係数Ｇ（１）〜Ｇ（ｑ）のうちの対応する１つのＧ（ｉ）の現在値に従って変動させて、以下の伝達関数を得ることができる。

図３７Ｂに、対応する利得係数Ｇ（ｉ）の現在値に従ってフィルタ利得を変動させるフィルタＦ２０−１〜Ｆ２０−ｑのうちの１つのＦ２０−ｉのバイカッド実装形態の別の例を示す。

利得係数Ｇ（１）〜Ｇ（ｑ）のすべてが１に等しいとき、当該の周波数レンジ（たとえば、５０、１００または２００Ｈｚ〜３０００、３５００、４０００、７０００、７５００または８０００Ｈｚ）にわたってその有効伝達関数がほぼ一定であるように、サブバンドフィルタアレイＦＡ１００を実装することが望ましい。たとえば、利得係数Ｇ（１）〜Ｇ（ｑ）のすべてが１に等しいとき、サブバンドフィルタアレイＦＡ１００の有効伝達関数が、周波数レンジにわたって５、１０、または２０パーセント（たとえば、０．２５、０．５、または１デシベル）内に一定であることが望ましい。１つの特定の例では、利得係数Ｇ（１）〜Ｇ（ｑ）のすべてが１に等しいとき、サブバンドフィルタアレイＦＡ１００の有効伝達関数は１にほぼ等しい。

サブバンドフィルタアレイＦＡ１００が、音声サブバンド信号発生器ＳＧ１００のサブバンドフィルタアレイＳＧ１０の実装形態、および／または強調サブバンド信号発生器ＥＧ１００のサブバンドフィルタアレイＳＧ１０の実装形態と同じサブバンド分割方式を適用することが望ましい。たとえば、サブバンドフィルタアレイＦＡ１００が、（１つまたは複数の）そのようなフィルタの設計と同じ設計を有するフィルタのセット（たとえば、バイカッドのセット）を使用し、（１つまたは複数の）サブバンドフィルタアレイＳＧ１０の利得係数に固定値が使用されることが望ましい。サブバンドフィルタアレイＦＡ１００を、（１つまたは複数の）そのようなサブバンドフィルタアレイと同じ成分フィルタを使用して（たとえば、アレイＦＡ１２０のカスケードの場合のように、異なる時間に、異なる利得係数値を用いて、場合によっては異なって構成された成分フィルタを用いて）実装することさえできる。

安定性および／または量子化雑音考慮事項に従ってサブバンドフィルタアレイＦＡ１００を設計することが望ましい。上記のように、たとえば、サブバンドフィルタアレイＦＡ１２０は２次セクションのカスケードとして実装できる。そのようなセクションを実装する転置直接形ＩＩバイカッド構造の使用は、丸め雑音を最小限に抑えること、および／またはセクション内でロバストな係数／周波数感度を得ることに役立つ。エンハンサＥＮ１０は、オーバーフロー状態を回避するのに役立つフィルタ入力および／または係数値のスケーリングを実行するように構成できる。エンハンサＥＮ１０は、フィルタ入力と出力との間の差異が大きい場合、サブバンドフィルタアレイＦＡ１００の１つまたは複数のＩＩＲフィルタの履歴をリセットするサニティチェック演算を実行するように構成できる。数値実験およびオンラインテストは、エンハンサＥＮ１０が量子化雑音補償のためのモジュールなしに実装できるという結論をもたらしたが、１つまたは複数のそのようなモジュール（たとえば、サブバンドフィルタアレイＦＡ１００の１つまたは複数のフィルタの各々の出力に対してディザリング演算を実行するように構成されたモジュール）も含めることができる。

上述のように、サブバンドフィルタアレイＦＡ１００は、音声信号Ｓ４０のそれぞれのサブバンドをブースティングするのに好適な成分フィルタ（たとえば、バイカッド）を使用して実装できる。しかしながら、音声信号Ｓ４０の１つまたは複数のサブバンドを音声信号Ｓ４０の他のサブバンドに対して減衰させることが場合によっては望ましいこともある。たとえば、１つまたは複数のスペクトルピークを増幅し、また１つまたは複数のスペクトルの谷を減衰させることが望ましい。そのような減衰は、フレームのための最も大きい所望の減衰に従ってサブバンドフィルタアレイＦＡ１００の上流の音声信号Ｓ４０を減衰させて、それに応じて、減衰を補償するために他のサブバンドのフレームの利得係数の値を増加させることによって実行できる。たとえば、サブバンドフィルタアレイＦＡ１００の上流の音声信号Ｓ４０を２デシベルだけ減衰させ、ブースティングなしにサブバンドｉをアレイＦＡ１００にパスし、他のサブバンドの利得係数の値を２デシベルだけ増加させることによって、サブバンドｉの２デシベルの減衰を達成することができる。サブバンドフィルタアレイＦＡ１００の上流の音声信号Ｓ４０に減衰を適用することの代替として、サブバンドフィルタアレイＦＡ１００の下流の処理済み音声信号Ｓ５０にそのような減衰を適用することができる。

図３８に、スペクトルコントラストエンハンサＥＮ１０の実装形態ＥＮ１２０のブロック図を示す。エンハンサＥＮ１１０に比較して、エンハンサＥＮ１２０は、音声サブバンド信号発生器ＳＧ１００によって音声信号Ｓ４０から生成されたｑ個のサブバンド信号Ｓ（ｉ）のセットを処理するように構成された利得制御要素ＣＥ１００の実装形態ＣＥ１２０を含む。たとえば、図３９は、サブバンド利得制御要素Ｇ２０−１〜Ｇ２０−ｑのアレイおよびコンバイナＭＸ１０のインスタンスを含む利得制御要素ＣＥ１２０の実装形態ＣＥ１３０のブロック図を示す。（たとえば、乗算器または増幅器として実装できる）ｑ個のサブバンド利得制御要素Ｇ２０−１〜Ｇ２０−ｑの各々は、利得係数Ｇ（１）〜Ｇ（ｑ）の各々をサブバンド信号Ｓ（１）〜Ｓ（ｑ）の各々に適用するように構成される。コンバイナＭＸ１０は、処理済み音声信号Ｓ５０を生成するために利得制御サブバンド信号を合成する（たとえば、混合する）ように構成される。

エンハンサＥＮ１００、ＥＮ１１０、またはＥＮ１２０が音声信号Ｓ４０を変換領域信号（たとえば、周波数領域信号）として受信する場合、対応する利得制御要素ＣＥ１００、ＣＥ１１０、またはＣＥ１２０は、利得係数を変換領域におけるそれぞれのサブバンドに適用するように構成できる。たとえば、利得制御要素ＣＥ１００、ＣＥ１１０、またはＣＥ１２０のそのような実装形態は、各サブバンドに利得係数の対応する１つを乗算するか、または対数値を使用して（たとえば、デシベルで利得係数とサブバンド値とを加算して）類似した演算を実行するように構成できる。エンハンサＥＮ１００、ＥＮ１１０、またはＥＮ１２０の代替実装形態は、音声信号Ｓ４０を変換領域から利得制御要素の上流の時間領域に変換するように構成できる。

ブースティングなしに音声信号Ｓ４０の１つまたは複数のサブバンドをパスするようにエンハンサＥＮ１０を構成することが望ましい。たとえば、低周波サブバンドのブースティングは、他のサブバンドのマフリングをもたらし、エンハンサＥＮ１０がブースティングなしに音声信号Ｓ４０の１つまたは複数の低周波サブバンド（たとえば、３００Ｈｚ未満の周波数を含むサブバンド）をパスすることが望ましい。

たとえば、エンハンサＥＮ１００、ＥＮ１１０、またはＥＮ１２０のそのような実装形態は、ブースティングなしに１つまたは複数のサブバンドをパスするように構成された利得制御要素ＣＥ１００、ＣＥ１１０、またはＣＥ１２０の実装形態を含むことができる。１つのそのような場合では、サブバンドフィルタアレイＦＡ１１０は、サブバンドフィルタＦ２０−１〜Ｆ２０−ｑのうちの１つまたは複数が利得係数１（たとえば、０ｄＢ）を適用するように実装できる。別のそのような場合では、サブバンドフィルタアレイＦＡ１２０は、フィルタＦ２０−１〜Ｆ２０−ｑのすべてよりも少ないカスケードとして実装できる。さらなるそのような場合では、利得制御要素ＣＥ１００またはＣＥ１２０は、利得制御要素Ｇ２０−１〜Ｇ２０−ｑのうちの１つまたは複数が利得係数１（たとえば、０ｄＢ）を適用するように実装されるか、またはさもなければ、そのレベルを変更することなしにそれぞれのサブバンド信号をパスするように構成される。

背景雑音または無音のみを含んでいる音声信号Ｓ４０の部分のスペクトルコントラストを強調することを回避することが望ましい。たとえば、音声信号Ｓ４０が非アクティブである間隔中に、エンハンサＥＮ１０をバイパスするか、または他の場合は音声信号Ｓ４０のスペクトルコントラスト強調を中断または抑止するように装置Ａ１００を構成することが望ましい。装置Ａ１００のそのような実装形態は、音声信号Ｓ４０のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および／または残差（たとえば、線形予測符号化残差）の自己相関、ゼロ交差レート、および／または第１の反射係数など、１つまたは複数の係数に基づいて、アクティブ（たとえば、音声）または非アクティブ（たとえば、背景雑音または無音）として分類するように構成されたボイスアクティビティ検出器（ＶＡＤ）を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。

図４０Ａに、そのようなＶＡＤＶ１０を含む装置Ａ１００の実装形態Ａ１６０のブロック図を示す。ボイスアクティビティ検出器Ｖ１０は、その状態が音声アクティビティが音声信号Ｓ４０上で検出されたかどうかについて示す更新制御信号Ｓ７０を生成するように構成される。装置Ａ１６０はまた、更新制御信号Ｓ７０の状態に従って制御されるエンハンサＥＮ１０（たとえば、エンハンサＥＮ１１０またはＥＮ１２０）の実装形態ＥＮ１５０を含む。エンハンサＥＮ１０のそのような実装形態は、音声が検出されない音声信号Ｓ４０の間隔中に利得係数値の更新および／または雑音レベル指示ηの更新が抑止されるように構成できる。たとえば、利得係数計算器ＦＣ３００は音声が検出されない音声信号Ｓ４０のフレームの利得係数値の前の値を出力するように、エンハンサＥＮ１５０を構成することができる。

別の例では、エンハンサＥＮ１５０は、ＶＡＤＶ１０が音声信号Ｓ４０の現在のフレームは非アクティブであることを示すとき、利得係数の値を（たとえば、強調ベクトルＥＶ１０からの寄与がないこと、または０デシベルの利得係数を示す）中間値にフォーシングするか、または利得係数の値をフォーシングして２つ以上のフレームにわたって中間値に減衰させるように構成された利得係数計算器ＦＣ３００の実装形態を含む。代替または追加として、エンハンサＥＮ１５０は、ＶＡＤＶ１０が音声信号Ｓ４０の現在のフレームは非アクティブであることを示すとき、雑音レベル指示ηの値を０に設定するか、または雑音レベル指示の値が０に減衰することを可能にするように構成された利得係数計算器ＦＣ３００の実装形態を含むことができる。

ボイスアクティビティ検出器Ｖ１０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、ゼロ交差レート、音声および／または残差の自己相関、ならびに第１の反射係数など、１つまたは複数の係数に基づいて音声信号Ｓ４０のフレームをアクティブまたは非アクティブとして分類する（たとえば、更新制御信号Ｓ７０の２値状態を制御する）ように構成できる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。代替または追加として、そのような分類は、ある周波数帯域におけるエネルギーなどのそのような係数の値または大きさ、あるいはそのような係数の変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するように、ＶＡＤＶ１０を実装することが望ましい。ＶＡＤＶ１０が実行することができるボイスアクティビティ検出演算の一例は、たとえば、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０のセクション４．７（ｐｐ．４−４９〜４−５７）、２００７年１月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているように、音声信号Ｓ４０のハイバンドおよびローバンドエネルギーをそれぞれのしきい値と比較することを含む。ボイスアクティビティ検出器Ｖ１０は、一般に、更新制御信号Ｓ７０を２進値ボイス検出指示信号として生成するように構成されるが、連続および／または多値信号を生成する構成も可能である。

装置Ａ１１０は、雑音低減段ＮＲ２０の入力と出力との間の関係に基づいて（すなわち、音源信号Ｓ２０と雑音低減された音声信号Ｓ４５との間の関係に基づいて）、音源信号Ｓ２０のフレームをアクティブまたは非アクティブと分類するように構成されたボイスアクティビティ検出器Ｖ１０の実装形態Ｖ１５を含むように構成できる。そのような関係の値は、雑音低減段ＮＲ２０の利得を示すと考えることができる。図４０Ｂに、装置Ａ１４０（および装置Ａ１６０）のそのような実装形態Ａ１６５のブロック図を示す。

一例では、ＶＡＤＶ１５は、段ＮＲ２０によってパスされる周波数領域ビンの数に基づいてフレームがアクティブであるかどうかを示すように構成される。この場合、更新制御信号Ｓ７０は、パスされたビンの数がしきい値を超える（代替的に、それ以上である）場合、フレームはアクティブであり、他の場合は非アクティブであることを示す。別の例では、ＶＡＤＶ１５は、段ＮＲ２０によってブロックされる周波数領域ビンの数に基づいてフレームがアクティブであるかどうかを示すように構成される。この場合、更新制御信号Ｓ７０は、ブロックされたビンの数がしきい値を超える（代替的に、それ以上である）場合、フレームは非アクティブであり、他の場合はアクティブであることを示す。フレームがアクティブであるかまたは非アクティブであるかを判断する際に、ＶＡＤＶ１５は、低周波ビン（たとえば、１キロヘルツ、１，５００ヘルツ、または２キロヘルツを上回らない周波数の値を含んでいるビン）、または中間周波数ビン（たとえば、２００ヘルツ、３００ヘルツ、または５００ヘルツ以上の周波数の値を含んでいる低周波ビン）などの音声エネルギーを含んでいる可能性が高いビンのみを考察することが望ましい。

図４１に、音声信号Ｓ４０の現在のフレームがアクティブであるとき、可変ＶＡＤの状態（たとえば、更新制御信号Ｓ７０）が１であり、他の場合は０である、図３５Ａの擬似コードリストの変形を示す。利得係数計算器ＦＣ３００の対応する実装形態によって実行できるこの例では、サブバンドｉおよびフレームｋのサブバンド利得係数の現在値は最新の値に初期化され、サブバンド利得係数の値は非アクティブフレームについて更新されない。図４２に、ボイスアクティビティが検出されない期間中に（すなわち、非アクティブフレームの場合）、サブバンド利得係数の値が１に減衰する図３５Ａの擬似コードリストの別の変形を示す。

ＶＡＤＶ１０の１つまたは複数のインスタンスを装置Ａ１００の他の場所に適用することが望ましい。たとえば、次の信号、すなわち感知オーディオ信号Ｓ１０の少なくとも１つのチャネル（たとえば、１次チャネル）、フィルタ処理された信号Ｓ１５の少なくとも１つのチャネル、および音源信号Ｓ２０のうちの１つまたは複数上で音声アクティビティを検出するようにＶＡＤＶ１０のインスタンスを構成することが望ましい。対応する結果は、ＳＳＰフィルタＳＳ２０の適応フィルタＡＦ１０の演算を制御するために使用できる。たとえば、そのようなボイスアクティビティ検出演算の結果が現在のフレームがアクティブであることを示すとき、適応フィルタＡＦ１０のトレーニング（たとえば、適応）をアクティブにし、適応フィルタＡＦ１０のトレーニングレートを増加させ、および／または適応フィルタＡＦ１０の深さを増加させ、ならびに／あるいは、他の場合は、トレーニングを非アクティブにし、および／またはそのような値を低減するように装置Ａ１００を構成ことが望ましい。

音声信号Ｓ４０のレベルを制御するように装置Ａ１００を構成することが望ましい。たとえば、エンハンサＥＮ１０によるサブバンドブースティングに適応するために十分なヘッドルームを与えるように音声信号Ｓ４０のレベルを制御するように装置Ａ１００を構成することが望ましい。追加または代替として、音声信号Ｓ４０に関する情報（たとえば、音声信号Ｓ４０の現在のレベル）に基づいて、利得係数計算器ＦＣ３００に関して上記で開示したように、雑音レベル指示限界η_ｍｉｎおよびη_ｍａｘのいずれかまたは両方の値、および／または利得係数値限界ＵＢおよびＬＢのいずれかまたは両方の値を判断するように装置Ａ１００を構成することが望ましい。

図４３Ａに、エンハンサＥＮ１０が自動利得制御（ＡＧＣ）モジュールＧ１０を介して音声信号Ｓ４０を受信するように構成された、装置Ａ１００の実装形態Ａ１７０のブロック図を示す。音声信号Ｓ４０を得るために、知られているまたは開発されるＡＧＣ技法に従って、オーディオ入力信号Ｓ１００のダイナミックレンジを限定された振幅帯域に圧縮するように、自動利得制御モジュールＧ１０を構成することができる。自動利得制御モジュールＧ１０は、たとえば、低いパワーを有する入力信号のセグメント（たとえば、フレーム）をブースティングし、高いパワーを有する入力信号のセグメントを減衰させることによって、そのようなダイナミックレンジ圧縮を実行するように構成できる。音声信号Ｓ４０が再生オーディオ信号（たとえば、遠端通信信号、ストリーミングオーディオ信号、または記憶されたメディアファイルから復号された信号）である適用例の場合、装置Ａ１７０は、デコーダ段からオーディオ入力信号Ｓ１００を受信するように構成できる。以下で説明する通信デバイスＤ１００の対応するインスタンスは、装置Ａ１７０の実装形態でもある（すなわち、ＡＧＣモジュールＧ１０を含む）装置Ａ１００の実装形態を含むように構築できる。エンハンサＥＮ１０が（たとえば、上述の装置Ａ１１０の場合のように）音源信号Ｓ２０を音声信号Ｓ４０として受信するように構成された適用例の場合、オーディオ入力信号Ｓ１００は感知オーディオ信号Ｓ１０に基づくことができる。

自動利得制御モジュールＧ１０は、ヘッドルーム定義および／またはマスターボリューム設定を与えるように構成できる。たとえば、ＡＧＣモジュールＧ１０は、上記で開示した上限ＵＢおよび下限ＬＢのいずれかまたは両方の値、および／または上記で開示した雑音レベル指示限界η_ｍｉｎおよびη_ｍａｘのいずれかまたは両方の値をエンハンサＥＮ１０に供給するように構成できる。圧縮しきい値および／またはボリューム設定など、ＡＧＣモジュールＧ１０の動作パラメータは、エンハンサＥＮ１０の有効ヘッドルームを制限することができる。感知オーディオ信号Ｓ１０上に雑音がない場合、装置Ａ１００の正味効果は利得増幅がほぼない（たとえば、音声信号Ｓ４０と処理済み音声信号Ｓ５０との間のレベルの差がおよそプラスマイナス５、１０または２０パーセント未満である）ように装置Ａ１００をチューニングする（たとえば、存在する場合、エンハンサＥＮ１０および／またはＡＧＣモジュールＧ１０をチューニングする）ことが望ましい。

時間領域ダイナミックレンジ圧縮は、たとえば、経時的信号の変化の知覚力を増加させることによって、信号了解度を増加させることができる。そのような信号変化の１つの特定の例は、信号の了解度に著しく寄与し得る、明確に定義された経時的ホルマント軌道の存在に関係する。ホルマント軌道の開始点および終了点は、子音、特に閉鎖子音（たとえば、［ｋ］、［ｔ］、［ｐ］など）によって一般にマーキングされる。これらのマーキング子音は、母音成分および音声の他の有声部分に比較して一般に低いエネルギーを有する。マーキング子音のエネルギーをブースティングすることにより、リスナーがよりはっきりと音声オンセットおよびオフセットをたどることを可能にすることによって、了解度を増加させることができる。了解度のそのような増加は、（たとえば、エンハンサＥＮ１０に関して本明細書で説明する）周波数サブバンドパワー調節によって得られるものとは異なる。したがって、（たとえば、装置Ａ１７０の実装形態、および／または上述のコントラスト強調信号発生器ＥＧ１１０の実装形態ＥＧ１２０における）これらの２つの効果の間の相乗効果を利用することにより、全体的な音声了解度をかなり増加させることができる。

処理済み音声信号Ｓ５０のレベルをさらに制御するように装置Ａ１００を構成することが望ましい。たとえば、装置Ａ１００は、（ＡＧＣモジュールＧ１０に加えて、またはその代替として）処理済み音声信号Ｓ５０のレベルを制御するように構成されたＡＧＣモジュールを含むように構成できる。図４４に、スペクトルコントラストエンハンサの音響出力レベルを制限するように構成されたピークリミッタＬ１０を含むエンハンサＥＮ２０の実装形態ＥＮ１６０のブロック図を示す。ピークリミッタＬ１０は可変利得オーディオレベル圧縮器として実装できる。たとえば、ピークリミッタＬ１０は、エンハンサＥＮ１６０が合成スペクトルコントラスト強調／圧縮効果を達成するように、高いピーク値をしきい値に圧縮するように構成できる。図４３Ｂに、エンハンサＥＮ１６０ならびにＡＧＣモジュールＧ１０を含む装置Ａ１００の実装形態Ａ１８０のブロック図を示す。

図４５Ａの擬似コードリストに、ピークリミッタＬ１０によって実行できるピーク制限演算の一例を記載する。入力信号ｓｉｇの各サンプルｋごとに（たとえば、処理済み音声信号Ｓ５０のサンプルｋごとに）、この演算は、サンプル振幅とソフトピーク制限ｐｅａｋ＿ｌｉｍとの間の差ｐｋｄｉｆｆを計算する。ｐｅａｋ＿ｌｉｍの値は、固定とするか、または経時的に適応させることができる。たとえば、ｐｅａｋ＿ｌｉｍの値はＡＧＣモジュールＧ１０からの情報に基づくことができる。たとえば、そのような情報は、上限ＵＢおよび／または下限ＬＢの値、雑音レベル指示限界η_ｍｉｎおよび／またはη_ｍａｘの値、音声信号Ｓ４０の現在のレベルに関係する情報のいずれかを含むことができる。

ｐｋｄｉｆｆの値が少なくとも０である場合、サンプル振幅はピーク制限ｐｅａｋ＿ｌｉｍを超えない。この場合、差分利得値ｄｉｆｆｇａｉｎは１に設定される。他の場合は、サンプル振幅はピーク制限ｐｅａｋ＿ｌｉｍより大きく、ｄｉｆｆｇａｉｎは超過振幅に比例して１未満の値に設定される。

ピーク制限演算は差分利得値の平滑化をも含むことができる。そのような平滑化は、利得が経時的に増加しているかまたは減少しているかに従って異なることができる。図４５Ａに示すように、たとえば、ｄｉｆｆｇａｉｎの値がピーク利得パラメータｇ＿ｐｋの前の値を超える場合、ｇ＿ｐｋの値は、ｇ＿ｐｋの前の値、ｄｉｆｆｇａｉｎの現在値、およびアタック利得平滑化パラメータｇａｍｍａ＿ａｔｔを使用して更新される。他の場合は、ｇ＿ｐｋの値は、ｇ＿ｐｋの前の値、ｄｉｆｆｇａｉｎの現在値、および減衰利得平滑化パラメータｇａｍｍａ＿ｄｅｃを使用して更新される。値ｇａｍｍａ＿ａｔｔおよびｇａｍｍａ＿ｄｅｃは、約０（平滑化なし）から約０．９９９（最大平滑化）の範囲から選択される。次いで、入力信号ｓｉｇの対応するサンプルｋにｇ＿ｐｋの平滑化値を乗算して、ピーク制限されたサンプルを得る。

図４５Ｂに、異なる式を使用して、差分利得値ｄｉｆｆｇａｉｎを計算する図４５Ａの擬似コードリストの変形を示す。これらの例の代替として、ピークリミッタＬ１０は、ｐｋｄｉｆｆの値がより少ない頻度で更新される（たとえば、ｐｋｄｉｆｆの値がｐｅａｋ＿ｌｉｍと信号ｓｉｇのいくつかのサンプルの絶対値の平均との差として計算される）、図４５Ａまたは図４５Ｂに記載されているピーク制限演算のさらなる例を実行するように構成できる。

本明細書に示すように、装置Ａ１００の実装形態を含むように通信デバイスを構築することができる。そのようなデバイスの演算中のある時には、装置Ａ１００は、雑音基準Ｓ３０以外の基準からの情報に従って音声信号Ｓ４０のスペクトルコントラストを強調することが望ましい。たとえば、何らかの環境または配向では、ＳＳＰフィルタＳＳ１０の指向性処理演算が信頼できない結果を生成することがある。プッシュツートーク（ＰＴＴ）モードまたはスピーカーフォンモードなど、デバイスのいくつかの動作モードでは、感知オーディオチャネルの空間選択的処理が不要または望ましくないことがある。そのような場合、装置Ａ１００が空間選択的（または「マルチチャネル」）モードではなく非空間（または「シングルチャネル」）モードで動作することが望ましい。

装置Ａ１００の実装形態は、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成できる。装置Ａ１００のそのような実装形態は、感知オーディオ信号Ｓ１０、音源信号Ｓ２０、および雑音基準Ｓ３０のうちの少なくとも１つの品質に基づいてモード選択信号（たとえば、２値フラグ）を生成するように構成された分離評価器を含むことができる。モード選択信号の状態を判断するためにそのような分離評価器によって使用される基準は、以下のパラメータ、すなわち、音源信号Ｓ２０のエネルギーと雑音基準Ｓ３０のエネルギーとの間の差または比、雑音基準Ｓ２０のエネルギーと感知オーディオ信号Ｓ１０の１つまたは複数のチャネルのエネルギーとの間の差または比、音源信号Ｓ２０と雑音基準Ｓ３０との間の相関、音源信号Ｓ２０の１つまたは複数の統計メトリクス（たとえば、尖度、自己相関）によって示される音源信号Ｓ２０が音声を搬送している尤度のうちの１つまたは複数の現在値と、対応するしきい値との間の関係を含むことができる。そのような場合、信号のエネルギーの現在値は、信号の連続するサンプルのブロック（たとえば、現在のフレーム）の２乗サンプル値の合計として計算できる。

装置Ａ１００のそのような実装形態Ａ２００は、音源信号Ｓ２０および雑音基準Ｓ３０からの情報に基づいて（たとえば、音源信号Ｓ２０のエネルギーと雑音基準Ｓ３０のエネルギーとの間の差または比に基づいて）、モード選択信号Ｓ８０を生成するように構成された分離評価器ＥＶ１０を含むことができる。そのような分離評価器は、ＳＳＰフィルタＳＳ１０が所望の音響成分（たとえば、ユーザのボイス）を音源信号Ｓ２０に十分に分離したと判断したとき第１の状態を有し、他の場合は第２の状態を有するようにモード選択信号Ｓ８０を生成するように構成できる。１つのそのような例では、分離評価器ＥＶ１０は、音源信号Ｓ２０の現在のエネルギーと雑音基準Ｓ３０の現在のエネルギーとの間の差が対応するしきい値を超える（代替的に、それ以上である）と判断したとき十分な分離を示すように構成される。別のそのような例では、分離評価器ＥＶ１０は、音源信号Ｓ２０の現在のフレームと雑音基準Ｓ３０の現在のフレームとの間の相関が対応するしきい値よりも小さい（代替的に、それを超えない）と判断したとき十分な分離を示すように構成される。

分離評価器ＥＶ１０のインスタンスを含む装置Ａ１００の実装形態は、モード選択信号Ｓ８０が第２の状態を有するとき、エンハンサＥＮ１０をバイパスするように構成できる。そのような構成は、たとえば、エンハンサＥＮ１０が音源信号Ｓ２０を音声信号として受信するように構成された、装置Ａ１１０の実装形態の場合に望ましい。一例では、エンハンサＥＮ１０をバイパスすることは、利得制御要素ＣＥ１００、ＣＥ１１０、またはＣＥ１２０が変更なしに音声信号Ｓ４０をパスするように、そのフレームの利得係数を（たとえば、強調ベクトルＥＶ１０からの寄与がないこと、または０デシベルの利得係数を示す）中間値にフォーシングすることによって実行される。そのようなフォーシングは、急激に、または（たとえば、２つ以上のフレームにわたる減衰のように）徐々に実施できる。

図４６に、エンハンサＥＮ１０の実装形態ＥＮ２００を含む装置Ａ１００の代替実装形態Ａ２００のブロック図を示す。エンハンサＥＮ２００は、モード選択信号Ｓ８０が第１の状態を有するとき、（たとえば、上記で開示したエンハンサＥＮ１０の実装形態のいずれかに従って）マルチチャネルモードで動作し、モード選択信号Ｓ８０が第２の状態を有するときシングルチャネルモードで動作するように構成される。シングルチャネルモードでは、エンハンサＥＮ２００は、非分離雑音基準Ｓ９５からのサブバンドパワー推定値のセットに基づいて、利得係数値Ｇ（１）〜Ｇ（ｑ）を計算するように構成される。非分離雑音基準Ｓ９５は、非分離感知オーディオ信号（たとえば、感知オーディオ信号Ｓ１０の１つまたは複数のチャネル）に基づく。

装置Ａ２００は、非分離雑音基準Ｓ９５が感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの１つであるように実装できる。図４７に、非分離雑音基準Ｓ９５が感知オーディオチャネルＳ１０−１である装置Ａ２００のそのような実装形態Ａ２１０のブロック図を示す。装置Ａ２００は、特に音声信号Ｓ４０が再生オーディオ信号である場合、エコーキャンセラを介して、またはマイクロフォン信号に対してエコー消去演算（たとえば、以下で説明するオーディオプリプロセッサＡＰ２０のインスタンス）を実行するように構成された他のオーディオ前処理段を介して、感知オーディオチャネルＳ１０を受信することが望ましい。装置Ａ２００のより一般的な実装形態では、非分離雑音基準Ｓ９５は非分離マイクロフォン信号（たとえば、以下で説明するアナログマイクロフォン信号ＳＭ１０−１およびＳＭ１０−２のいずれか、または以下で説明するデジタル化マイクロフォン信号ＤＭ１０−１およびＤＭ１０−２のいずれか）である。

装置Ａ２００は、非分離雑音基準Ｓ９５が通信デバイスの１次マイクロフォン（たとえば、最も直接的にユーザのボイスを通常受信するマイクロフォン）に対応する感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの特定の１つであるように実装できる。そのような構成は、たとえば、音声信号Ｓ４０が再生オーディオ信号（たとえば、遠端通信信号、ストリーミングオーディオ信号、または記憶されたメディアファイルから復号された信号）である適用例の場合に望ましい。代替的に、装置Ａ２００は、非分離雑音基準Ｓ９５が通信デバイスの２次マイクロフォン（たとえば、間接的にのみユーザのボイスを通常受信するマイクロフォン）に対応する感知オーディオチャネルＳ１０−１およびＳ１０−２のうちの特定の１つであるように実装できる。そのような構成は、たとえば、エンハンサＥＮ１０が音源信号Ｓ２０を音声信号Ｓ４０として受信するように構成された適用例の場合に望ましい。

別の構成では、装置Ａ２００は、感知オーディオチャネルＳ１０−１およびＳ１０−２を単一のチャネルにミックスダウンすることによって非分離雑音基準Ｓ９５を得るように構成できる。代替的に、装置Ａ２００は、最も高い信号対雑音比、（たとえば、１つまたは複数の統計メトリックによって示される）音声最尤、通信デバイスの現在の動作構成、および／または所望の音源信号が生じたと判断される方向など、１つまたは複数の基準に従って、感知オーディオチャネルＳ１０−１およびＳ１０−２の中から非分離雑音基準Ｓ９５を選択するように構成できる。

より一般的には、装置Ａ２００は、以下で説明するマイクロフォン信号ＳＭ１０−１およびＳＭ１０−２、または以下で説明するマイクロフォン信号ＤＭ１０−１およびＤＭ１０−２などの２つ以上のマイクロフォン信号のセットから非分離雑音基準Ｓ９５を得るように構成できる。装置Ａ２００が（たとえば、オーディオプリプロセッサＡＰ２０およびエコーキャンセラＥＣ１０に関して以下で説明するように）エコー消去演算を受けた１つまたは複数のマイクロフォン信号から非分離雑音基準Ｓ９５を得ることが望ましい。

装置Ａ２００は、時間領域バッファから非分離雑音基準Ｓ９５を受信するように構成できる。１つのそのような例では、時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。

エンハンサＥＮ２００は、モード選択信号Ｓ８０の状態に従って、雑音基準Ｓ３０および非分離雑音基準Ｓ９５のうちの１つに基づいて第２のサブバンド信号のセットを発生するように構成できる。図４８に、モード選択信号Ｓ８０の現在の状態に従って雑音基準Ｓ３０および非分離雑音基準Ｓ９５のうちの１つを選択するように構成されたセレクタＳＬ１０（たとえば、デマルチプレクサ）を含むエンハンサＥＮ２００（およびエンハンサＥＮ１１０）のそのような実装形態ＥＮ３００のブロック図を示す。エンハンサＥＮ３００はまた、モード選択信号Ｓ８０の状態に従って、限界η_ｍｉｎおよびη_ｍａｘのいずれかまたは両方、および／または限界ＵＢおよびＬＢのいずれかまたは両方の異なる値の中から選択するように構成された利得係数計算器ＦＣ３００の実装形態を含むことができる。

エンハンサＥＮ２００は、モード選択信号Ｓ８０の状態に従って、サブバンド信号の異なるセットの中から選択して、第２のサブバンドパワー推定値のセットを発生するように構成できる。図４９に、サブバンド信号発生器ＮＧ１００の第１のインスタンスＮＧ１００ａと、サブバンド信号発生器ＮＧ１００の第２のインスタンスＮＧ１００ｂと、セレクタＳＬ２０とを含む、エンハンサＥＮ３００のそのような実装形態ＥＮ３１０のブロック図を示す。サブバンド信号発生器ＳＧ２００のインスタンスとして、またはサブバンド信号発生器ＳＧ３００のインスタンスとして実装できる第２のサブバンド信号発生器ＮＧ１００ｂは、非分離雑音基準Ｓ９５に基づくサブバンド信号のセットを発生するように構成される。セレクタＳＬ２０（たとえば、デマルチプレクサ）は、モード選択信号Ｓ８０の現在の状態に従って、第１のサブバンド信号発生器ＮＧ１００ａと第２のサブバンド信号発生器ＮＧ１００ｂとによって発生されたサブバンド信号のセットの中から１つを選択し、サブバンド信号の選択されたセットを雑音サブバンド信号のセットとして雑音サブバンドパワー推定値計算器ＮＰ１００に供給するように構成される。

さらなる代替では、エンハンサＥＮ２００は、モード選択信号Ｓ８０の状態に従って、雑音サブバンドパワー推定値の異なるセットのうちから選択して、サブバンド利得係数のセットを発生するように構成される。図５０に、雑音サブバンドパワー推定値計算器ＮＰ１００の第１のインスタンスＮＰ１００ａと、雑音サブバンドパワー推定値計算器ＮＰ１００の第２のインスタンスＮＰ１００ｂと、セレクタＳＬ３０とを含む、エンハンサＥＮ３００（およびエンハンサＥＮ３１０）のそのような実装形態ＥＮ３２０のブロック図を示す。第１の雑音サブバンドパワー推定値計算器ＮＰ１００ａは、上述のように第１の雑音サブバンド信号発生器ＮＧ１００ａによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第１のセットを発生するように構成される。第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂは、上述のように第２の雑音サブバンド信号発生器ＮＧ１００ｂによって生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第２のセットを発生するように構成される。たとえば、エンハンサＥＮ３２０は、雑音基準の各々のサブバンドパワー推定値を並列に評価するように構成できる。セレクタＳＬ３０（たとえば、デマルチプレクサ）は、モード選択信号Ｓ８０の現在の状態に従って、第１の雑音サブバンドパワー推定値計算器ＮＰ１００ａと第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂとによって発生される雑音サブバンドパワー推定値のセットのうちの１つを選択し、雑音サブバンドパワー推定値の選択されたセットを利得係数計算器ＦＣ３００に供給するように構成される。

第１の雑音サブバンドパワー推定値計算器ＮＰ１００ａは、サブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして、またはサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂも、サブバンドパワー推定値計算器ＥＣ１１０のインスタンスとして、またはサブバンドパワー推定値計算器ＥＣ１２０のインスタンスとして実装できる。第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂはまた、非分離雑音基準Ｓ９５の現在のサブバンドパワー推定値の最小値を識別し、非分離雑音基準Ｓ９５の他の現在のサブバンドパワー推定値をこの最小値と交換するようにさらに構成できる。たとえば、第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂは、図５１Ａに示すように、サブバンド信号発生器ＥＣ２１０のインスタンスとして実装できる。サブバンド信号発生器ＥＣ２１０は、１≦ｉ≦ｑの場合、次式などの式に従って最小サブバンドパワー推定値を識別し適用するように構成されたミニマイザーＭＺ１０を含む、上述のサブバンド信号発生器ＥＣ１１０の実装形態である。

代替的に、第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂは、図５１Ｂに示すように、サブバンド信号発生器ＥＣ２２０のインスタンスとして実装できる。サブバンド信号発生器ＥＣ２２０は、ミニマイザーＭＺ１０のインスタンスを含む、上述のサブバンド信号発生器ＥＣ１２０の実装形態である。

マルチチャネルモードで動作するときは、非分離雑音基準Ｓ９５からのサブバンドパワー推定値、ならびに雑音基準Ｓ３０からのサブバンドパワー推定値に基づくサブバンド利得係数値を計算するようにエンハンサＥＮ３２０を構成することが望ましい。図５２に、エンハンサＥＮ３２０のそのような実装形態ＥＮ３３０のブロック図を示す。エンハンサＥＮ３３０は、１≦ｉ≦ｑの場合、次式などの式に従ってサブバンドパワー推定値のセットを計算するように構成されたマキシマイザーＭＡＸ１０を含む。

上式で、Ｅ_ｂ（ｉ，ｋ）は、サブバンドｉおよびフレームｋについて第１の雑音サブバンドパワー推定値計算器ＮＰ１００ａによって計算されるサブバンドパワー推定値を示し、Ｅ_ｃ（ｉ，ｋ）は、サブバンドｉおよびフレームｋについて第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂによって計算されるサブバンドパワー推定値を示す。

装置Ａ１００の一実装形態は、シングルチャネルおよびマルチチャネル雑音基準からの雑音サブバンドパワー情報を組み合わせるモードで動作することが望ましい。マルチチャネル雑音基準は、非定常雑音に対する動的応答をサポートすることができるが、装置の得られる動作は、たとえば、ユーザの位置の変更に対して過度に反応しやすいものであることがある。シングルチャネル雑音基準は、より安定している応答を与えることができるが、非定常雑音を補償する能力を欠く。図５３に、雑音基準Ｓ３０からの情報と非分離雑音基準Ｓ９５からの情報とに基づいて音声信号Ｓ４０のスペクトルコントラストを強調するように構成された、エンハンサＥＮ１１０の実装形態ＥＮ４００のブロック図を示す。エンハンサＥＮ４００は、上記で開示したように構成されるマキシマイザーＭＡＸ１０のインスタンスを含む。

マキシマイザーＭＡＸ１０はまた、シングルチャネルおよびマルチチャネル雑音サブバンドパワー推定値の利得の独立操作を可能にするように実装できる。たとえば、スケーリングが最大化演算の上流で行われるように、第１のサブバンドパワー推定値計算器ＮＰ１００ａおよび／または第２のサブバンドパワー推定値計算器ＮＰ１００ｂによって生成される雑音サブバンドパワー推定値のうちの１つまたは複数（場合によってはすべて）の各々をスケーリングするための利得係数（または利得係数セットのうちの対応する１つ）を適用するように、マキシマイザーＭＡＸ１０を実装することが望ましい。

装置Ａ１００の実装形態を含むデバイスの演算中のある時には、その装置は、雑音基準Ｓ３０以外の基準からの情報に従って音声信号Ｓ４０のスペクトルコントラストを強調することが望ましい。たとえば、所望の音響成分（たとえば、ユーザのボイス）および（たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの）指向性雑音成分が同じ方向からマイクロフォンアレイに到着する状況の場合、指向性処理演算は、これらの成分の不十分な分離を行うことがある。そのような場合、指向性処理演算は指向性雑音成分を音源信号Ｓ２０に分離し、その結果、得られた雑音基準Ｓ３０は、音声信号の所望の強調をサポートするには不十分なことがある。

本明細書で開示する指向性処理演算と距離処理演算との両方の結果を適用するように、装置Ａ１００を実装することが望ましい。たとえば、そのような実装形態は、近距離所望の音響成分（たとえば、ユーザのボイス）および（たとえば、干渉スピーカー、拡声装置、テレビジョンまたはラジオからの）遠距離指向性雑音が同じ方向からマイクロフォンアレイに到着する場合、改善されたスペクトルコントラスト強調パフォーマンスを提供することができる。

一例では、ＳＳＰフィルタＳＳ１１０のインスタンスを含む装置Ａ１００の実装形態は、距離指示信号ＤＩ１０の現在の状態が遠距離信号を示すとき、（たとえば、上述のように）エンハンサＥＮ１０をバイパスするように構成される。そのような構成は、たとえば、エンハンサＥＮ１０が音源信号Ｓ２０を音声信号として受信するように構成された、装置Ａ１１０の実装形態の場合に望ましい。

代替的に、雑音基準Ｓ３０からの情報と音源信号Ｓ２０からの情報とに基づく雑音サブバンドパワー推定値に従って、音声信号Ｓ４０の少なくとも１つのサブバンドを音声信号Ｓ４０の別のサブバンドに対してブーストおよび／または減衰させるように、装置Ａ１００を実装することが望ましい。図５４に、音源信号Ｓ２０を追加の雑音基準として処理するように構成された、エンハンサＥＮ２０のそのような実装形態ＥＮ４５０のブロック図を示す。エンハンサＥＮ４５０は、雑音サブバンド信号発生器ＮＧ１００の第３のインスタンスＮＧ１００ｃと、サブバンドパワー推定値計算器ＮＰ１００の第３のインスタンスＮＰ１００ｃと、マキシマイザーＭＡＸ１０のインスタンスＭＡＸ２０とを含む。第３の雑音サブバンドパワー推定値計算器ＮＰ１００ｃは、第３の雑音サブバンド信号発生器ＮＧ１００ｃによって音源信号Ｓ２０から生成されるサブバンド信号のセットに基づく、雑音サブバンドパワー推定値の第３のセットを発生するように構成され、マキシマイザーＭＡＸ２０は、第１および第３の雑音サブバンドパワー推定値の中から最大値を選択するように構成される。この実装形態では、セレクタＳＬ４０は、本明細書で開示するＳＳＰフィルタＳＳ１１０の実装形態によって生成される距離指示信号ＤＩ１０を受信するように構成される。セレクタＳＬ３０は、距離指示信号ＤＩ１０の現在の状態が遠距離信号を示す場合は、マキシマイザーＭＡＸ２０の出力を選択し、他の場合は、第１の雑音サブバンドパワー推定値計算器ＮＰ１００ａの出力を選択するように構成される。

装置Ａ１００はまた、音源信号Ｓ２０を非分離雑音基準Ｓ９５ではなく第２の雑音基準として受信するように構成された、本明細書で開示するエンハンサＥＮ２００の実装形態のインスタンスを含むように実装できることが、明確に開示されている。また、音源信号Ｓ２０を雑音基準として受信するエンハンサＥＮ２００の実装形態は、感知音声信号（たとえば、近端信号）を強調する場合よりも、再生音声信号（たとえば、遠端信号）を強調する場合により有用であることに明確に留意されたい。

図５５に、本明細書で開示するＳＳＰフィルタＳＳ１１０とエンハンサＥＮ４５０とを含む、装置Ａ１００の実装形態Ａ２５０のブロック図を示す。図５６に、（たとえば、エンハンサＥＮ４５０に関して本明細書で開示する）遠距離非定常雑音の補償のサポートを、（たとえば、エンハンサＥＮ４００に関して本明細書で開示する）シングルチャネル雑音基準とマルチチャネル雑音基準の両方からの雑音サブバンドパワー情報と組み合わせる、エンハンサＥＮ４５０（およびエンハンサＥＮ４００）の実装形態ＥＮ４６０のブロック図を示す。この例では、利得係数計算器ＦＣ３００は、３つの異なる雑音推定値、すなわち、（重平滑化され、および／または６フレーム以上などの長期間にわたって平滑化される）非分離雑音基準Ｓ９５、（平滑化されないかまたは単に最小平滑化される）音源信号Ｓ２０からの遠距離非定常雑音の推定値、および方向ベースの雑音基準Ｓ３０からの情報に基づく、雑音サブバンドパワー推定値を受信する。また、（たとえば、図５６に示すように）非分離雑音基準Ｓ９５を適用するものとして本明細書で開示する、エンハンサＥＮ２００のどの実装形態も、代わりに音源信号Ｓ２０からの平滑化された雑音推定値（たとえば、重平滑化された推定値および／またはいくつかのフレームにわたって平滑化された長期推定値）を適用するように実装できることを、繰り返し述べておく。

非分離雑音基準Ｓ９５（または対応する非分離感知オーディオ信号）が非アクティブである間隔中にのみ、非分離雑音基準Ｓ９５に基づく雑音サブバンドパワー推定値を更新するように、エンハンサＥＮ２００（またはエンハンサＥＮ４００またはエンハンサＥＮ４５０）を構成することが望ましい。装置Ａ１００のそのような実装形態は、非分離雑音基準Ｓ９５のフレーム、または非分離感知オーディオ信号のフレームを、フレームエネルギー、信号対雑音比、周期性、音声および／または残差（たとえば、線形予測コーディング残差）の自己相関、ゼロ交差レート、ならびに／あるいは第１の反射係数など、１つまたは複数の係数に基づいて、アクティブ（たとえば、音声）または非アクティブ（たとえば、背景雑音または無音）として分類するように構成されたボイスアクティビティ検出器（ＶＡＤ）を含むことができる。そのような分類は、そのような係数の値または大きさをしきい値と比較すること、および／またはそのような係数の変化の大きさをしきい値と比較することを含むことができる。複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ決定のメモリに基づいてボイスアクティビティ検出を実行するように、このＶＡＤを実装することが望ましい。

図５７に、そのようなボイスアクティビティ検出器（または「ＶＡＤ」）Ｖ２０を含む、装置Ａ２００のそのような実装形態Ａ２３０を示す。上述のようにＶＡＤＶ１０のインスタンスとして実装できるボイスアクティビティ検出器Ｖ２０は、感知オーディオチャネルＳ１０−１上で音声アクティビティが検出されたかどうかをその状態が示す更新制御信号ＵＣ１０を生成するように構成される。装置Ａ２３０が図４８に示すエンハンサＥＮ２００の実装形態ＥＮ３００を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出されシングルチャネルモードが選択された間隔（たとえば、フレーム）中に、雑音サブバンド信号発生器ＮＧ１００が入力を受容することおよび／またはその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。装置Ａ２３０が図４８に示すエンハンサＥＮ２００の実装形態ＥＮ３００または図４９に示すエンハンサＥＮ２００の実装形態ＥＮ３１０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出されシングルチャネルモードが選択された間隔（たとえば、フレーム）中に、雑音サブバンドパワー推定値発生器ＮＰ１００が入力を受容することおよび／またはその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。

装置Ａ２３０が図４９に示すエンハンサＥＮ２００の実装形態ＥＮ３１０を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出された間隔（たとえば、フレーム）中に、第２の雑音サブバンド信号発生器ＮＧ１００ｂが入力を受容することおよび／またはその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。装置Ａ２３０がエンハンサＥＮ２００の実装形態ＥＮ３２０またはエンハンサＥＮ２００の実装形態ＥＮ３３０を含む場合、あるいは装置Ａ１００がエンハンサＥＮ２００の実装形態ＥＮ４００を含む場合、感知オーディオチャネルＳ１０−１上で音声が検出された間隔（たとえば、フレーム）中に、第２の雑音サブバンド信号発生器ＮＧ１００ｂが入力を受容することおよび／またはその出力を更新することを防ぐために、ならびに／あるいは第２の雑音サブバンドパワー推定値発生器ＮＰ１００ｂが入力を受容することおよび／またはその出力を更新することを防ぐために、更新制御信号ＵＣ１０を適用することができる。

図５８Ａに、エンハンサＥＮ４００のそのような実装形態ＥＮ５５のブロック図を示す。エンハンサＥＮ５５は、更新制御信号ＵＣ１０の状態に従って第２の雑音サブバンドパワー推定値のセットを生成する、雑音サブバンドパワー推定値計算器ＮＰ１００ｂの実装形態ＮＰ１０５を含む。たとえば、雑音サブバンドパワー推定値計算器ＮＰ１０５は、図５８Ｂのブロック図に示すように、パワー推定値計算器ＥＣ１２０の実装形態ＥＣ１２５のインスタンスとして実装できる。パワー推定値計算器ＥＣ１２５は、次式などの線形平滑化式に従って、加算器ＥＣ１０によって計算されるｑ個の和の各々に対して時間平滑化演算（たとえば、２つ以上の非アクティブフレームにわたる平均）を実行するように構成された、平滑器ＥＣ２０の実装形態ＥＣ２５を含む。

上式で、γは平滑化係数である。この例では、平滑化係数γは、０（平滑化なし）から１（最大平滑化、更新なし）の範囲内の値（たとえば、０．３、０．５、０．７、０．９、０．９９、または０．９９９）を有する。平滑器ＥＣ２５は、ｑ個のサブバンドのすべてに対して平滑化係数γの同じ値を使用することが望ましい。代替的に、平滑器ＥＣ２５は、ｑ個のサブバンドの２つ以上（場合によってはすべて）の各々に対して平滑化係数γの異なる値を使用することが望ましい。平滑化係数γの（１つまたは複数の）値は、固定とするか、または経時的に（たとえば、あるフレームから次のフレームまで）適応させることができる。同様に、（図５０に示す）エンハンサＥＮ３２０、（図５２に示す）ＥＮ３３０、（図５４に示す）ＥＮ４５０、または（図５６に示す）ＥＮ４６０中に第２の雑音サブバンドパワー推定値計算器ＮＰ１００ｂを実装するために、雑音サブバンドパワー推定値計算器ＮＰ１０５のインスタンスを使用することが望ましい。

図５９に、モード選択信号の現在の状態に従ってシングルチャネルモードまたはマルチチャネルモードで動作するように構成された、装置Ａ１００の代替実装形態Ａ３００のブロック図を示す。装置Ａ２００のように、装置Ａ１００の装置Ａ３００は、モード選択信号Ｓ８０を発生するように構成された分離評価器（たとえば、分離評価器ＥＶ１０）を含む。この場合、装置Ａ３００は、音声信号Ｓ４０に対してＡＧＣまたはＡＶＣ演算を実行するように構成された自動ボリューム制御（ＡＶＣ）モジュールＶＣ１０をも含み、モード選択信号Ｓ８０は、モード選択信号Ｓ８０の対応する状態に従って、フレームごとにＡＶＣモジュールＶＣ１０およびエンハンサＥＮ１０のうちの１つを選択するようにセレクタＳＬ４０（たとえば、マルチプレクサ）およびＳＬ５０（たとえば、デマルチプレクサ）を制御するために適用する。図６０に、本明細書で説明するエンハンサＥＮ１５０の実装形態ＥＮ５００と、ＡＧＣモジュールＧ１０およびＶＡＤＶ１０のインスタンスとをも含む、装置Ａ３００の実装形態Ａ３１０のブロック図を示す。この例では、エンハンサＥＮ５００は、等化器の音響出力レベルを制限するように構成されたピークリミッタＬ１０のインスタンスを含む上述のエンハンサＥＮ１６０の実装形態でもある。（装置Ａ３００の、このおよび他の開示する構成はまた、エンハンサＥＮ４００またはＥＮ４５０など、本明細書で開示するエンハンサＥＮ１０の代替実装形態を使用して実装できることが当業者には理解されよう。）
ＡＧＣまたはＡＶＣ演算は、一般に単一のマイクロフォンから得られる定常雑音推定値に基づいてオーディオ信号のレベルを制御する。そのような推定値は、本明細書で説明する非分離雑音基準Ｓ９５のインスタンスから（代替的に、感知オーディオ信号Ｓ１０から）計算できる。たとえば、非分離雑音基準Ｓ９５のパワー推定値（たとえば、現在のフレームのエネルギーまたは絶対値の和）などのパラメータの値に従って音声信号Ｓ４０のレベルを制御するようにＡＶＣモジュールＶＣ１０を構成することが望ましい。他のパワー推定値に関して上述したように、非分離感知オーディオ信号がボイスアクティビティを現在含んでいないときのみ、そのようなパラメータ値に対して時間平滑化演算を実行するようにおよび／またはそのパラメータ値を更新するように、ＡＶＣモジュールＶＣ１０を構成することが望ましい。図６１に、ＡＶＣモジュールＶＣ１０の実装形態ＶＣ２０が、感知オーディオチャネルＳ１０−１からの情報（たとえば、信号Ｓ１０−１の現在のパワー推定値）に従って音声信号Ｓ４０のボリュームを制御するように構成された、装置Ａ３１０の実装形態Ａ３２０のブロック図を示す。

図６２に、装置Ａ１００の別の実装形態Ａ４００のブロック図を示す。装置Ａ４００は、本明細書で説明するエンハンサＥＮ２００の実装形態を含み、装置Ａ２００と同様である。ただし、この場合、モード選択信号Ｓ８０は無相関雑音検出器ＵＤ１０によって発生される。アレイのあるマイクロフォンには影響を及ぼし、別のマイクロフォンには影響を及ぼさない雑音である無相関雑音は、風雑音、呼吸音、スクラッチングなどを含むことがある。ＳＳＰフィルタＳＳ１０などのマルチマイクロフォン信号分離システムは、許容される場合、実際に無相関雑音を増幅することがあるので、そのような雑音によりそのシステムに望ましくない結果が生じることがある。無相関雑音を検出するための技法は、マイクロフォン信号（あるいは各マイクロフォン信号における約２００Ｈｚから約８００または１０００Ｈｚまでの帯域など、そのマイクロフォン信号の部分）の相互相関を推定することを含む。そのような相互相関推定は、マイクロフォン間の遠距離応答を等化するために２次マイクロフォン信号の通過帯域を利得調整することと、利得調整された信号を１次マイクロフォン信号の通過帯域から減算することと、差分信号のエネルギーを（差分信号のおよび／または１次マイクロフォン通過帯域の経時的エネルギーに基づいて適応的とすることができる）しきい値と比較することとを含むことができる。無相関雑音検出器ＵＤ１０は、そのような技法および／または任意の他の適切な技法に従って実装できる。また、マルチマイクロフォンデバイスにおける無相関雑音の検出については、無相関雑音検出器ＵＤ１０の設計および実装形態ならびにそのような検出器の音声処理装置中への統合についての開示に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２９日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する米国特許出願第１２／２０１，５２８号において論じられている。装置Ａ４００は、装置Ａ１１０の実装形態として（すなわち、エンハンサＥＮ２００が音源信号Ｓ２０を音声信号Ｓ４０として受信するように構成されるように）実装できることに明確に留意されたい。

別の例では、無相関雑音検出器ＵＤ１０のインスタンスを含む装置Ａ１００の実装形態は、モード選択信号Ｓ８０が第２の状態を有するとき（すなわち、モード選択信号Ｓ８０が、無相関雑音が検出されたことを示すとき）、（たとえば、上述のように）エンハンサＥＮ１０をバイパスするように構成される。そのような構成は、たとえば、エンハンサＥＮ１０が音源信号Ｓ２０を音声信号として受信するように構成された、装置Ａ１１０の実装形態の場合に望ましい。

上記のように、２つ以上のマイクロフォン信号に対して１つまたは複数の前処理演算を実行することによって感知オーディオ信号Ｓ１０を得ることが望ましい。図６３に、Ｍ個のアナログマイクロフォン信号ＳＭ１０−１〜ＳＭ１０−Ｍを前処理して感知オーディオ信号Ｓ１０のＭ個のチャネルＳ１０−１〜Ｓ１０−Ｍを生成するように構成されたオーディオプリプロセッサＡＰ１０を含む、装置Ａ１００の実装形態Ａ５００（場合によっては、装置Ａ１１０および／またはＡ１２０の実装形態）のブロック図を示す。たとえば、オーディオプリプロセッサＡＰ１０は、アナログマイクロフォン信号のペアＳＭ１０−１、ＳＭ１０−２をデジタル化して感知オーディオ信号Ｓ１０のチャネルのペアＳ１０−１、Ｓ１０−２を生成するように構成できる。装置Ａ５００は、装置Ａ１１０の実装形態として（すなわち、エンハンサＥＮ１０が音源信号Ｓ２０を音声信号Ｓ４０として受信するように構成されるように）実装できることに明確に留意されたい。

オーディオプリプロセッサＡＰ１０はまた、アナログおよび／またはデジタル領域において、スペクトル整形および／またはエコー消去など、マイクロフォン信号に対する他の前処理演算を実行するように構成できる。たとえば、オーディオプリプロセッサＡＰ１０は、アナログ領域およびデジタル領域のいずれかにおいて、マイクロフォン信号のうちの１つまたは複数の各々に１つまたは複数の利得係数を適用するように構成できる。これらの利得係数の値は、それらのマイクロフォンが周波数応答および／または利得に関して互いに一致するように、選択するかまたはさもなければ計算することができる。これらの利得係数を評価するために実行できる較正手順について、以下でより詳細に説明する。

図６４Ａに、第１および第２のアナログデジタル変換器（ＡＤＣ）Ｃ１０ａおよびＣ１０ｂを含む、オーディオプリプロセッサＡＰ１０の実装形態ＡＰ２０のブロック図を示す。第１のＡＤＣＣ１０ａは、マイクロフォンＭＣ１０からの信号ＳＭ１０−１をデジタル化してデジタル化マイクロフォン信号ＤＭ１０−１を得るように構成され、第２のＡＤＣＣ１０ｂは、マイクロフォンＭＣ２０からの信号ＳＭ１０−２をデジタル化してデジタル化マイクロフォン信号ＤＭ１０−２を得るように構成される。ＡＤＣＣ１０ａおよびＣ１０ｂによって適用できる典型的なサンプリングレートは、８ｋＨｚ、１２ｋＨｚ、１６ｋＨｚ、および約８ｋＨｚから約１６ｋＨｚまでの範囲内の他の周波数を含むが、約４４ｋＨｚと同じ程度のサンプリングレートも使用できる。この例では、オーディオプリプロセッサＡＰ２０はまた、サンプリングの前にそれぞれマイクロフォン信号ＳＭ１０−１およびＳＭ１０−２に対して１つまたは複数のアナログ前処理演算を実行するように構成されたアナログプリプロセッサのペアＰ１０ａおよびＰ１０ｂと、サンプリングの後にそれぞれマイクロフォン信号ＤＭ１０−１およびＤＭ１０−２に対して１つまたは複数のデジタル前処理演算（たとえば、エコー消去、雑音低減、および／またはスペクトル整形）を実行するように構成されたデジタルプリプロセッサのペアＰ２０ａおよびＰ２０ｂとを含む。

図６５に、オーディオプリプロセッサＡＰ２０のインスタンスを含む、装置Ａ３１０の実装形態Ａ３３０のブロック図を示す。装置Ａ３３０は、マイクロフォン信号ＳＭ１０−１からの情報（たとえば、信号ＳＭ１０−１の現在のパワー推定値）に従って音声信号Ｓ４０のボリュームを制御するように構成された、ＡＶＣモジュールＶＣ１０の実装形態ＶＣ３０をも含む。

図６４Ｂに、オーディオプリプロセッサＡＰ２０の実装形態ＡＰ３０のブロック図を示す。この例では、アナログプリプロセッサＰ１０ａおよびＰ１０ｂの各々は、サンプリングの前にそれぞれマイクロフォン信号ＳＭ１０−１およびＳＭ１０−２に対してアナログスペクトル整形演算を実行するように構成された高域フィルタＦ１０ａおよびＦ１０ｂの各々として実装される。各フィルタＦ１０ａおよびＦ１０ｂは、たとえば、５０、１００、または２００Ｈｚのカットオフ周波数を用いて高域フィルタ処理演算を実行するように構成できる。

音声信号Ｓ４０が再生音声信号（たとえば、遠端信号）である場合、対応する処理済み音声信号Ｓ５０を使用して、感知オーディオ信号Ｓ１０からエコーを消去する（すなわち、マイクロフォン信号からエコーを除去する）ように構成されたエコーキャンセラをトレーニングすることができる。オーディオプリプロセッサＡＰ３０の例では、デジタルプリプロセッサＰ２０ａおよびＰ２０ｂは、処理済み音声信号Ｓ５０からの情報に基づいて感知オーディオ信号Ｓ１０からエコーを消去するように構成されたエコーキャンセラＥＣ１０として実装される。エコーキャンセラＥＣ１０は、時間領域バッファから処理済み音声信号Ｓ５０を受信するように構成できる。１つのそのような例では、時間領域バッファは１０ミリ秒の長さ（たとえば、８ｋＨｚのサンプリングレートで８０個のサンプル、または１６ｋＨｚのサンプリングレートで１６０個のサンプル）を有する。スピーカーフォンモードおよび／またはプッシュツートーク（ＰＴＴ）モードなど、装置Ａ１１０を含む通信デバイスのいくつかの動作モード中は、エコー消去演算を中断する（たとえば、マイクロフォン信号をそのままパスするようにエコーキャンセラＥＣ１０を構成する）ことが望ましい。

エコーキャンセラをトレーニングするために処理済み音声信号Ｓ５０を使用することにより、（たとえば、エコーキャンセラと強調制御要素の出力との間で行われる処理の程度のために）フィードバック問題が生じることが考えられる。そのような場合、エンハンサＥＮ１０の現在のアクティビティに従ってエコーキャンセラのトレーニングレートを制御することが望ましい。たとえば、利得係数の現在値の測度（たとえば、平均）に反比例してエコーキャンセラのトレーニングレートを制御し、および／または利得係数の連続する値の間の差の測度（たとえば、平均）に反比例してエコーキャンセラのトレーニングレートを制御することが望ましい。

図６６Ａに、シングルチャネルエコーキャンセラの２つのインスタンスＥＣ２０ａおよびＥＣ２０ｂを含む、エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図を示す。この例では、シングルチャネルエコーキャンセラの各インスタンスは、マイクロフォン信号ＤＭ１０−１、ＤＭ１０−２のうちの対応する１つを処理して感知オーディオ信号Ｓ１０の対応するチャネルＳ１０−１、Ｓ１０−２を生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技法（たとえば、最小２乗平均技法および／または適応相関技法）に従って、シングルチャネルエコーキャンセラの様々なインスタンスをそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第１２／１９７，９２４号の段落［００１３９］〜［００１４１］（「An apparatus」で開始し「B500」で終了する）で論じられており、それらの段落は、限定はしないがエコーキャンセラの設計および／または実装形態ならびに／あるいは音声処理装置の他の要素とのエコーキャンセラの統合を含む、エコー消去問題の開示に限定した目的のために、参照により本明細書に組み込まれる。

図６６Ｂに、処理済み音声信号Ｓ５０をフィルタ処理するように構成されたフィルタＣＥ１０と、そのフィルタ処理された信号を処理中のマイクロフォン信号と組み合わせるように構成された加算器ＣＥ２０とを含む、エコーキャンセラＥＣ２０ａの実装形態ＥＣ２２ａのブロック図を示す。フィルタＣＥ１０のフィルタ係数値は固定とすることができる。代替的に、フィルタＣＥ１０のフィルタ係数値のうちの少なくとも１つ（および場合によってはすべて）は、（たとえば、処理済み音声信号Ｓ５０に基づいて）装置Ａ１１０の演算中に適応させることができる。以下でより詳細に説明するように、通信デバイスの参照インスタンスがオーディオ信号を再生するときにその参照インスタンスによって記録されるマルチチャネル信号のセットを使用して、フィルタＣＥ１０の参照インスタンスを初期状態にトレーニングし、その初期状態をフィルタＣＥ１０の生成インスタンスに複製することが望ましい。

エコーキャンセラＥＣ２０ｂは、マイクロフォン信号ＤＭ１０−２を処理して感知オーディオチャネルＳ４０−２を生成するように構成された、エコーキャンセラＥＣ２２ａの別のインスタンスとして実装できる。代替的に、エコーキャンセラＥＣ２０ａおよびＥＣ２０ｂは、異なる時間にそれぞれのマイクロフォン信号の各々を処理するように構成された、シングルチャネルエコーキャンセラの同じインスタンス（たとえば、エコーキャンセラＥＣ２２ａ）として実装できる。

エコーキャンセラＥＣ１０のインスタンスを含む装置Ａ１１０の実装形態はまた、処理済み音声信号Ｓ５０に対してボイスアクティビティ検出演算を実行するように構成されたＶＡＤＶ１０のインスタンスを含むように構成できる。そのような場合、装置Ａ１１０は、ボイスアクティビティ演算の結果に基づいてエコーキャンセラＥＣ１０の演算を制御するように構成できる。たとえば、そのようなボイスアクティビティ検出演算の結果が現在のフレームがアクティブであることを示すとき、エコーキャンセラＥＣ１０のトレーニング（たとえば、適応）をアクティブにし、エコーキャンセラＥＣ１０のトレーニングレートを増加させ、および／またはエコーキャンセラＥＣ１０の１つまたは複数のフィルタ（たとえば、フィルタＣＥ１０）の深さを増加させるように装置Ａ１１０を構成することが望ましい。

図６６Ｃに、装置Ａ１１０の実装形態Ａ６００のブロック図を示す。装置Ａ６００は、オーディオ入力信号Ｓ１００（たとえば、遠端信号）を処理して等化されたオーディオ信号ＥＳ１０を生成するように構成された等化器ＥＱ１０を含む。等化器ＥＱ１０は、等化されたオーディオ信号ＥＳ１０を生成するために、雑音基準Ｓ３０からの情報に基づいてオーディオ入力信号Ｓ１００のスペクトル特性を動的に改変するように構成できる。たとえば、等化器ＥＱ１０は、等化されたオーディオ信号ＥＳ１０を生成するために、雑音基準Ｓ３０からの情報を使用して、オーディオ入力信号Ｓ１００の少なくとも１つの周波数サブバンドを、オーディオ入力信号Ｓ１００の少なくとも１つの他の周波数サブバンドに対してブースティングするように構成できる。等化器ＥＱ１０および関連する等化方法の例は、たとえば、上記で参照した米国特許出願第１２／２７７，２８３号において開示されている。本明細書で開示する通信デバイスＤ１００は、装置Ａ５５０ではなく装置Ａ６００のインスタンスを含むように実装できる。

装置Ａ１００の実装形態（たとえば、装置Ａ１１０の実装形態）を含むように構築できるオーディオ感知デバイスのいくつかの例を図６７Ａ〜図７２Ｃに示す。図６７Ａに、第１の動作構成における２マイクロフォンハンドセットＨ１００の中央軸に沿った断面図を示す。ハンドセットＨ１００は１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０とを有するアレイを含む。この例では、ハンドセットＨ１００はまた１次ラウドスピーカーＳＰ１０と２次ラウドスピーカーＳＰ２０とを含む。ハンドセットＨ１００が第１の動作構成にあるとき、１次ラウドスピーカーＳＰ１０はアクティブであり、２次ラウドスピーカーＳＰ２０は使用不能にされるか、またはさもなければ無音にされる。この構成では、スピーチ強調および／または雑音低減のための空間選択的処理技法をサポートするために、１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０の両方がアクティブのままであることが望ましい。

ハンドセットＨ１００は、１つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成できる。本明細書で説明する通信デバイスの送信機および／または受信機とともに使用できる、またはそれらとともに使用するように適応させることができるコーデックの例には、「Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems」と題するＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ２（３ＧＰＰ２）文書Ｃ．Ｓ００１４−Ｃ、ｖ１．０、２００７年２月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＥｎｈａｎｃｅｄＶａｒｉａｂｌｅＲａｔｅＣｏｄｅｃ（ＥＶＲＣ）、「Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する３ＧＰＰ２文書Ｃ．Ｓ００３０−０、ｖ３．０、２００４年１月（ｗｗｗ−ｄｏｔ−３ｇｐｐ−ｄｏｔ−ｏｒｇでオンライン入手可能）に記載されているＳｅｌｅｃｔａｂｌｅＭｏｄｅＶｏｃｏｄｅｒ音声コーデック、文書ＥＴＳＩＴＳ１２６０９２Ｖ６．０．０（ＥｕｒｏｐｅａｎＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｔａｎｄａｒｄｓＩｎｓｔｉｔｕｔｅ（ＥＴＳＩ）、ＳｏｐｈｉａＡｎｔｉｐｏｌｉｓＣｅｄｅｘ、ＦＲ、２００４年１２月）に記載されているＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ（ＡＭＲ）音声コーデック、および文書ＥＴＳＩＴＳ１２６１９２Ｖ６．０．０（ＥＴＳＩ、２００４年１２月）に記載されているＡＭＲＷｉｄｅｂａｎｄ音声コーデックがある。

図６７Ｂに、ハンドセットＨ１００のための第２の動作構成を示す。この構成では、１次マイクロフォンＭＣ１０はふさがれ、２次ラウドスピーカーＳＰ２０はアクティブであり、１次ラウドスピーカーＳＰ１０は使用不能にされるか、またはさもなければ無音にされる。この場合も、この構成では、（空間選択処理技法をサポートするために）１次マイクロフォンＭＣ１０と２次マイクロフォンＭＣ２０の両方がアクティブであることが望ましい。ハンドセットＨ１００は、その（１つまたは複数の）状態がデバイスの現在の動作構成を示す、１つまたは複数のスイッチまたは同様のアクチュエータを含むことができる。

装置Ａ１００は、３つ以上のチャネルを有する感知オーディオ信号Ｓ１０のインスタンスを受信するように構成できる。たとえば、図６８Ａに、アレイが３次マイクロフォンＭＣ３０を含む、ハンドセットＨ１００の実装形態Ｈ１１０の断面図を示す。図６８Ｂに、デバイスの軸に沿って様々なトランスデューサの配置を示す、ハンドセットＨ１１０の２つの他の図を示す。図６７Ａ〜図６８Ｂは、クラムシェルタイプセルラー電話ハンドセットの例を示している。装置Ａ１００の実装形態を有するセルラー電話ハンドセットの他の構成には、バータイプおよびスライダタイプの電話ハンドセット、ならびにトランスデューサのうちの１つまたは複数が軸から離れて配設されているハンドセットがある。

Ｍ個のマイクロフォンを有するイヤピースまたは他のヘッドセットは、装置Ａ１００の実装形態を含むことができる別の種類のポータブル通信デバイスである。そのようなヘッドセットはワイヤードまたはワイヤレスとすることができる。図６９Ａ〜図６９Ｄに、２マイクロフォンアレイをもつ筐体Ｚ１０と、その筐体から延びる、遠端信号を再生するためのイヤフォンＺ２０（たとえば、ラウドスピーカー）とを含む、そのようなワイヤレスヘッドセットＤ３００の一例の様々な図を示す。そのようなデバイスは、（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ社（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話をサポートするように構成できる。一般に、ヘッドセットの筐体は、図６９Ａ、図６９Ｂ、および図６９Ｄに示すように矩形またはさもなければ細長い形（たとえば、ミニブームのような形）とするか、あるいはより丸い形、さらには円形とすることができる。その筐体は、バッテリおよびプロセッサ、および／または装置Ａ１００の実装を実行するように構成された他の処理回路（たとえば、プリント回路板およびその上に取り付けられた構成要素）を囲むことができる。その筐体はまた、電気的ポート（たとえば、ミニユニバーサルシリアルバス（ＵＳＢ）またはバッテリ充電用の他のポート）と、１つまたは複数のボタンスイッチおよび／またはＬＥＤなどのユーザインターフェース機能とを含むことができる。一般に、その筐体の長軸に沿った長さは１インチから３インチまでの範囲内である。

一般に、アレイの各マイクロフォンは、音響ポートとして働く、筐体中の１つまたは複数の小さい穴の後ろでデバイス内に取り付けられる。図６９Ｂ〜図６９Ｄは、アレイの１次マイクロフォンのための音響ポートＺ４０と、アレイの２次マイクロフォンのための音響ポートＺ５０とのロケーションを示している。ヘッドセットはまた、イヤフックＺ３０などの固定デバイスを含むことができ、これは一般にヘッドセットから着脱可能である。外部イヤフックは、たとえば、ユーザがヘッドセットをいずれの耳でも使用するように構成することを可能にするために、可逆のものとすることができる。代替的に、ヘッドセットのイヤフォンは、内部固定デバイス（たとえば、イヤプラグ）として設計でき、この内部固定デバイスは、特定のユーザの耳道の外側部分により良く合うように、異なるユーザが異なるサイズ（たとえば、直径）のイヤピースを使用できるようにするためのリムーバブルイヤピースを含むことができる。

図７０Ａに、ユーザの耳６５に使用するために取り付けられる、ヘッドセットＤ３００の実装形態Ｄ３１０の異なる動作構成の範囲６６の図を示す。ヘッドセットＤ３１０は、使用中にユーザの口６４に対して異なって配向できる縦形構成で構成された１次マイクロフォンと２次マイクロフォンとのアレイ６７を含む。さらなる一例では、装置Ａ１００の実装形態を含むハンドセットは、（たとえばＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用して）ワイヤードおよび／またはワイヤレス通信リンクを介して、Ｍ個のマイクロフォンを有するヘッドセットから感知オーディオ信号Ｓ１０を受信し、遠端処理済み音声信号Ｓ５０をヘッドセットに出力するように構成される。

図７１Ａ〜図７１Ｄに、ワイヤレスヘッドセットの別の例であるマルチマイクロフォンポータブルオーディオ感知デバイスＤ３５０の様々な図を示す。ヘッドセットＤ３５０は、丸く、楕円の筐体Ｚ１２と、イヤプラグとして構成できるイヤフォンＺ２２とを含む。図７１Ａ〜図７１Ｄはまた、デバイスＤ３５０のアレイの１次マイクロフォンのための音響ポートＺ４２と、２次マイクロフォンのための音響ポートＺ５２とのロケーションを示している。２次マイクロフォンポートＺ５２が（たとえば、ユーザインターフェースボタンによって）少なくとも部分的にふさがれることが起こりうる。

Ｍ個のマイクロフォンを有するハンズフリーカーキットは、装置Ａ１００の実装形態を含むことができる別の種類のモバイル通信デバイスである。そのようなデバイスの音響環境は、風雑音、回転雑音、および／またはエンジン雑音を含むことができる。そのようなデバイスは、車両のダッシュボードに設置するか、あるいは風防、バイザー、または別の室内表面に着脱自在に固定するように、構成できる。図７０Ｂに、ラウドスピーカー８５とＭ個マイクロフォンアレイ８４とを含むそのようなカーキット８３の例の図を示す。この特定の例では、Ｍは４に等しく、Ｍ個のマイクロフォンは線形アレイにおいて構成される。そのようなデバイスは、上記の例などの１つまたは複数のコーデックを介してボイス通信データをワイヤレスに送信および受信するように構成できる。代替または追加として、そのようなデバイスは、（たとえば、上述のようにＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介して半二重または全二重電話をサポートするように構成できる。

装置Ａ１００の実装形態を含むことができる通信デバイスの他の例には、オーディオまたはオーディオビジュアル会議のための通信デバイスがある。そのような会議デバイスの典型的な使用は、複数の所望の音声ソース（たとえば、様々な参加者の口）に関与することがある。そのような場合、マイクロフォンのアレイは３つ以上のマイクロフォンを含むことが望ましい。

Ｍ個のマイクロフォンを有するメディア再生デバイスは、装置Ａ１００の実装形態を含むことができる一種のオーディオまたはオーディオビジュアル再生デバイスである。図７２Ａに、標準コーデック（たとえば、ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）−１ＡｕｄｉｏＬａｙｅｒ３（ＭＰ３）、ＭＰＥＧ−４Ｐａｒｔ１４（ＭＰ４）、Ｗｉｎｄｏｗｓ（登録商標）ＭｅｄｉａＡｕｄｉｏ／Ｖｉｄｅｏ（ＷＭＡ／ＷＭＶ）のバージョン（マイクロソフト社（ワシントン州レドモンド））、ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）、ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ（ＩＴＵ）−ＴＨ．２６４など）に従って符号化されたファイルまたはストリームなどの圧縮オーディオまたはオーディオビジュアル情報を再生する（および場合によっては記録する）ように構成できる、そのようなデバイスＤ４００の図を示す。デバイスＤ４００は、デバイスの前面に配設されたディスプレイスクリーンＤＳＣ１０とラウドスピーカーＳＰ１０とを含み、マイクロフォンアレイのマイクロフォンＭＣ１０およびＭＣ２０が、デバイスの同じ面に（たとえば、この例のように上面の両側に、または前面の両側に）配設される。図７２Ｂに、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの反対側の面に配設されたデバイスＤ４００の別の実装形態Ｄ４１０を示し、図７２Ｃに、マイクロフォンＭＣ１０およびＭＣ２０がデバイスの隣接する面に配設されたデバイスＤ４００のさらなる実装形態Ｄ４２０を示す。図７２Ａ〜図７２Ｃに示すメディア再生デバイスはまた、意図された使用中、より長い軸が水平になるように、設計できる。

装置Ａ１００の実装形態をトランシーバ（たとえば、上述のセルラー電話またはワイヤレスヘッドセット）内に含めることができる。図７３Ａに、装置Ａ５００および装置Ａ１２０の実装形態Ａ５５０を含むそのような通信デバイスＤ１００のブロック図を示す。デバイスＤ１００は、装置Ａ５５０に結合された受信機Ｒ１０を含み、受信機Ｒ１０は、高周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号を遠端オーディオ入力信号Ｓ１００として復号し再生するように構成され、遠端オーディオ入力信号Ｓ１００は、この例では音声信号Ｓ４０として装置Ａ５５０によって受信される。デバイスＤ１００は、装置Ａ５５０に結合された送信機Ｘ１０をも含み、送信機Ｘ１０は、近端処理済み音声信号Ｓ５０ｂを符号化し、符号化オーディオ信号を記述するＲＦ通信信号を送信するように構成される。装置Ａ５５０の近端経路（すなわち、信号ＳＭ１０−１およびＳＭ１０−２から処理済み音声信号Ｓ５０ｂまで）をデバイスＤ１００の「オーディオフロントエンド」と呼ぶことがある。デバイスＤ１００はオーディオ出力段Ｏ１０をも含み、出力段Ｏ１０は、遠端処理済み音声信号Ｓ５０ａを処理し（たとえば、処理済み音声信号Ｓ５０ａをアナログ信号に変換し）、その処理されたオーディオ信号をラウドスピーカーＳＰ１０に出力するように構成される。この例では、オーディオ出力段Ｏ１０は、ボリューム制御信号ＶＳ１０のレベルに従って、処理されたオーディオ信号のボリュームを制御するように構成され、そのレベルはユーザ制御の下で変動することがある。

装置Ａ１００の実装形態（たとえば、Ａ１１０またはＡ１２０）は、通信デバイスの他の要素（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分）が感知オーディオ信号Ｓ１０に対してさらなるオーディオ処理演算を実行するように構成されるように、通信デバイス内に常駐することが望ましい。装置Ａ１１０の実装形態中に含まれるエコーキャンセラ（たとえば、エコーキャンセラＥＣ１０）を設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ（たとえば、ＭＳＭチップまたはチップセットのエコー消去モジュール）との間の起こりうる相乗効果を考慮に入れることが望ましい。

図７３Ｂに、通信デバイスＤ１００の実装形態Ｄ２００のブロック図を示す。デバイスＤ２００は、装置Ａ５５０のインスタンスを実行するように構成された１つまたは複数のプロセッサを含むチップまたはチップセットＣＳ１０（たとえば、ＭＳＭチップセット）を含む。チップまたはチップセットＣＳ１０は、受信機Ｒ１０および送信機Ｘ１０の要素をも含み、ＣＳ１０の１つまたは複数のプロセッサは、そのような要素のうちの１つまたは複数（たとえば、ワイヤレス受信された符号化信号を復号してオーディオ入力信号Ｓ１００を生成し、処理済み音声信号Ｓ５０ｂを符号化するように構成されたボコーダＶＣ１０）を実行するように構成できる。デバイスＤ２００は、アンテナＣ３０を介してＲＦ通信信号を受信および送信するように構成される。デバイスＤ２００はまた、アンテナＣ３０への経路中にダイプレクサと１つまたは複数のパワー増幅器とを含むことができる。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、デバイスＤ２００はまた、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）ロケーションサービスおよび／またはワイヤレス（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標））ヘッドセットなどの外部デバイスとの短距離通信をサポートする１つまたは複数のアンテナＣ４０を含む。別の例では、そのような通信デバイスは、それ自体でＢｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、およびアンテナＣ３０がない。

図７４Ａに、ボコーダＶＣ１０のブロック図を示す。ボコーダＶＣ１０は、（たとえば、本明細書で特定されたコーデックなど、１つまたは複数のコーデックに従って）処理済み音声信号Ｓ５０を符号化して対応する近端符号化音声信号Ｅ１０を生成するように構成された符号器ＥＮＣ１００を含む。ボコーダＶＣ１０は、（たとえば、本明細書で特定されたコーデックなど、１つまたは複数のコーデックに従って）遠端符号化音声信号Ｅ２０を復号してオーディオ入力信号Ｓ１００を生成するように構成された復号器ＤＥＣ１００をも含む。ボコーダＶＣ１０は、信号Ｅ１０の符号化フレームをアセンブルして発信パケットにするように構成されたパケッタイザ（図示せず）と、着信パケットから信号Ｅ２０の符号化フレームを抽出するように構成されたデパケッタイザ（図示せず）とをも含むことができる。

コーデックは、様々なタイプのフレームを符号化するために様々なコーディング方式を使用することができる。図７４Ｂに、アクティブフレーム符号器ＥＮＣ１０と非アクティブフレーム符号器ＥＮＣ２０とを含む、符号器ＥＮＣ１００の実装形態ＥＮＣ１１０のブロック図を示す。アクティブフレーム符号器ＥＮＣ１０は、符号励振線形予測（ＣＥＬＰ）、プロトタイプ波形補間（ＰＷＩ）、またはプロトタイプピッチ周期（ＰＰＰ）コーディング方式など、有声フレームのためのコーディング方式に従ってフレームを符号化するように構成できる。非アクティブフレーム符号器ＥＮＣ２０は、雑音励振線形予測（ＮＥＬＰ）コーディング方式などの無声フレームのためのコーディング方式、または修正離散コサイン変換（ＭＤＣＴ）コーディング方式などの非有声フレームのためのコーディング方式に従ってフレームを符号化するように構成できる。フレーム符号器ＥＮＣ１０およびＥＮＣ２０は、ＬＰＣ係数値の計算器（場合によっては、音声および非音声フレームに対しては非アクティブフレームに対してよりも高い次数など、異なるコーディング方式に対して異なる次数を有する結果を生成するように構成される）および／またはＬＰＣ残差発生器などの共通構造を共有することができる。符号器ＥＮＣ１１０は、（たとえば、セレクタＳＥＬ１およびＳＥＬ２を介して）フレームごとにフレーム符号器のうちの適切な１つを選択するコーディング方式選択信号ＣＳ１０を受信する。復号器ＤＥＣ１００は、符号化音声信号Ｅ２０内の情報および／または対応する着信ＲＦ信号内の他の情報によって示されるようなコーディング方式の２つ以上のうちの１つに従って符号化フレームを復号するように同様に構成できる。

コーディング方式選択信号ＣＳ１０は、本明細書で説明する（たとえば、装置Ａ１６０の）ＶＡＤＶ１０または（たとえば装置Ａ１６５の）Ｖ１５の出力など、ボイスアクティビティ検出演算の結果に基づくことが望ましい。また、符号器ＥＮＣ１１０のソフトウェアまたはファームウェア実装形態は、実行のフローをフレーム符号器の１つまたは別の１つに導くためにコーディング方式選択信号ＣＳ１０を使用することができ、そのような実装形態は、セレクタＳＥＬ１および／またはセレクタＳＥＬ２の類似物を含まないことがあることに留意されたい。

代替的に、線形予測領域において動作するように構成されたエンハンサＥＮ１０のインスタンスを含むようにボコーダＶＣ１０を実装することが望ましい。たとえば、エンハンサＥＮ１０のそのような実装形態は、上述のように音声信号Ｓ４０の線形予測分析の結果に基づいて強調ベクトルＥＶ１０を発生するように構成された強調ベクトル発生器ＶＧ１００の実装形態を含むことができ、その分析はボコーダの別の要素（たとえば、ＬＰＣ係数値の計算器）によって実行される。そのような場合、本明細書で説明する装置Ａ１００の実装形態の他の要素（たとえば、オーディオプリプロセッサＡＰ１０から雑音低減段ＮＲ１０まで）は、ボコーダの上流に配置できる。

図７５Ａに、ＳＳＰフィルタＳＳ１０の１つまたは複数の指向性処理段を特徴づける係数値を得るために使用できる設計方法Ｍ１０のフローチャートを示す。方法Ｍ１０は、マルチチャネルトレーニング信号のセットを記録するタスクＴ１０と、ＳＳＰフィルタＳＳ１０の構造を収束のためにトレーニングするタスクＴ２０と、トレーニングされたフィルタの分離パフォーマンスを評価するタスクＴ３０とを含む。タスクＴ２０およびＴ３０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ感知デバイスの外部で実行される。タスクＴ３０において容認できる結果が得られるまで、方法Ｍ１０のタスクの１つまたは複数を繰り返す。方法Ｍ１０の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、ＳＳＰフィルタＳＳ１０の１つまたは複数の指向性処理段の設計、実装、トレーニング、および／または評価に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号に記載されている。

タスクＴ１０は、少なくともＭ個のマイクロフォンのアレイを使用して、Ｍ個のチャネルの各々がＭ個のマイクロフォンの対応する１つの出力に基づくようにＭチャネルトレーニング信号のセットを記録する。トレーニング信号の各々は、各トレーニング信号が音声と雑音成分の両方を含むように少なくとも１つの情報源および少なくとも１つの干渉源に応答してこのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、雑音の多い環境での音声の記録であることが望ましい。マイクロフォン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、雑音低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。音声などの音響適用例では、典型的なサンプリングレートは、８ｋＨｚ〜１６ｋＨｚにわたる。

Ｍチャネルトレーニング信号のセットの各々は、Ｐ個のシナリオの１つの下で記録され、Ｐは、２に等しい場合があるが、一般に１よりも大きい任意の整数である。Ｐ個のシナリオの各々は、様々な空間特徴（たとえば、様々なハンドセットまたはヘッドセット配向）および／または様々なスペクトル特徴（たとえば、様々な特性を有する音源の捕捉）を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、Ｐ個のシナリオのうちの異なる１つの下でそれぞれ記録される少なくともＰ個のトレーニング信号を含む。

本明細書で説明する装置Ａ１００の他の要素を含んでいる同じオーディオ感知デバイスを使用してタスクＴ１０を実行することが可能である。しかしながら、より一般的には、タスクＴ１０は、オーディオ感知デバイス（たとえば、ハンドセットまたはヘッドセット）の参照インスタンスを使用して実行されるであろう。方法Ｍ１０によって生成される収束フィルタソリューションの得られたセットは、次いで、生成中に同じまたは同様のオーディオ感知デバイスの他のインスタンスにコピーされる（たとえば、各そのような生成インスタンスのフラッシュメモリにロードされる）。

音響無響室は、Ｍチャネルトレーニング信号のセットを記録するために使用できる。図７５Ｂに、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒ（ＨＡＴＳ、デンマーク、Ｎａｅｒｕｍ、Ｂｒｕｅｌ＆Ｋｊａｅｒ製）は、干渉源（すなわち、４つのラウドスピーカー）の内向きアレイ内に配置される。ＨＡＴＳの頭部は、代表的な人間の頭部と音響的に同様であり、音声信号を再生するために口部にラウドスピーカーを含む。干渉源のアレイは、図示のようにＨＡＴＳを囲む拡散雑音界を生成するように駆動できる。１つのそのような例では、ラウドスピーカーのアレイは、ＨＡＴＳ耳参照点または口参照点において７５〜７８ｄＢの音圧レベルで雑音信号を再生するように構成される。他の場合には、１つまたは複数のそのような干渉源は、様々な空間分布を有する雑音界（たとえば、指向性雑音界）を生成するように駆動できる。

使用できる雑音信号のタイプは、（たとえば、ニュージャージー州Ｐｉｓｃａｔａｗａｙ、米国電気電子学会（ＩＥＥＥ）によって公表されたＩＥＥＥ規格２６９−２００１、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように）ホワイトノイズ、ピンクノイズ、グレーノイズ、Ｈｏｔｈノイズを含む。使用できる他のタイプの雑音信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。

アレイのマイクロフォンの製造中にばらつきが生じ、そのため大量生産され見掛け上同じマイクロフォンのバッチの間でさえマイクロフォンごとに感度が著しく異なることがある。たとえば、携帯用マスマーケットデバイスにおいて使用するためのマイクロフォンは、プラスまたはマイナス３デシベルの感度許容差で製造され、したがって、アレイ中の２つのそのようなマイクロフォンの感度が６デシベル程度異なることがある。

さらに、マイクロフォンがデバイス中にまたはデバイス上に取り付けられると、マイクロフォンの実効応答特性に変化が生じることがある。マイクロフォンは、一般にデバイス筐体内に音響ポートの後ろで取り付けられ、圧力によって、および／または摩擦もしくは接着によって所定の位置に固定されることがある。そのような方法で取り付けられたマイクロフォンの実効応答特性には、マイクロフォンが取り付けられた空洞の共振および／または他の音響特性、マイクロフォンと取付ガスケットとの間の圧力の量および／または均一性、音響ポートのサイズおよび形状などの多くの要因が影響を及ぼし得る。

方法Ｍ１０によって生成される収束フィルタソリューションの空間分離特性（たとえば、対応するビームパターンの形状および配向）は、トレーニング信号を収集するためにタスクＴ１０において使用されるマイクロフォンの相対特性に敏感である可能性がある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのＭ個のマイクロフォンの利得を互いに対して較正することが望ましい。そのような較正は、マイクロフォンの利得の得られた比が所望の範囲内になるように、マイクロフォンのうちの１つまたは複数の出力に適用すべき重み係数を計算または選択することを含むことができる。

タスクＴ２０は、トレーニング信号のセットを使用して、音源分離アルゴリズムに従ってＳＳＰフィルタＳＳ１０の構造をトレーニングする（すなわち、対応する収束フィルタソリューションを計算する）。タスクＴ２０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用してオーディオ感知デバイスの外部で実行される。タスクＴ２０では、得られた出力信号において指向性成分のエネルギーが出力チャネルの１つ（たとえば、音源信号Ｓ２０）に集中するように、指向性成分を有するマルチチャネル入力信号（たとえば、感知オーディオ信号Ｓ１０）をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。この出力チャネルは、マルチチャネル入力信号のいかなるチャネルと比較しても増加した信号対雑音比（ＳＮＲ）を有することができる。

「音源分離アルゴリズム」という用語はブラインド音源分離（ＢＳＳ）アルゴリズムを含み、ブラインド音源分離（ＢＳＳ）アルゴリズムは、音源信号の混合のみに基づいて、（１つまたは複数の情報源および１つまたは複数の干渉源からの信号を含むことがある）個々の音源信号を分離する方法である。ブラインド音源分離アルゴリズムは、複数の独立音源から来る混合信号を分離するために使用できる。これらの技法は、各信号の音源に関する情報を必要としないので、「ブラインド音源分離」方法として知られる。「ブラインド」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および／または干渉信号の１つまたは複数の統計値に関する仮定を含む。音声適用例では、たとえば、当該の音声信号は、通常、スーパーガウス分布（たとえば、高尖度）を有すると仮定される。ＢＳＳアルゴリズムの種類はまた多変量ブラインドデコンボリューションアルゴリズムを含む。

ＢＳＳ方法は独立成分分析の実装を含むことができる。独立成分分析（ＩＣＡ）は、互いからおそらく独立している混合音源信号（成分）を分離するための技法である。その簡略形態では、独立成分分析は、重みの「逆混合」行列を混合信号に適用して（たとえば、行列を混合信号で乗算して）、分離された信号を生成する。重みには初期値を割り当てることができ、次いでその初期値は、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ＩＣＡなどの方法は、雑音音源からの音声信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析（「ＩＶＡ」）は関連するＢＳＳ技法であり、音源信号は、単一の可変音源信号ではなくベクトル音源信号である。

音源分離アルゴリズムの種類はまた、たとえば、マイクロフォンアレイの軸に対する音響ソースの１つまたは複数の各々の知られている方向などの他の先験的情報によって制約された、制約付きＩＣＡおよび制約付きＩＶＡなど、ＢＳＳアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマと区別される。

図８Ａを参照しながら上述したように、ＳＳＰフィルタＳＳ１０は１つまたは複数の段（たとえば、固定フィルタ段ＦＦ１０、適応フィルタ段ＡＦ１０）を含むことができる。これらの段の各々は、係数値が、音源分離アルゴリズムから導出された学習規則を使用してタスクＴ２０によって計算される、対応する適応フィルタ構造に基づくことができる。フィルタ構造は、フィードフォワードおよび／またはフィードバック係数を含むことができ、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。

図７６Ａに、２つのフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０の２チャネル例のブロック図を示し、図７６Ａに、２つの直接フィルタＤ１１０およびＤ１２０をも含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図を示す。空間選択的処理フィルタＳＳ１０は、たとえば、入力チャネルＩ１、Ｉ２がそれぞれ感知オーディオチャネルＳ１０−１、Ｓ１０−２に対応し、出力チャネルＯ１、Ｏ２がそれぞれ音源信号Ｓ２０および雑音基準Ｓ３０に対応するように、そのような構造を含むように実装できる。そのような構造をトレーニングするためにタスクＴ２０によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする（たとえば、フィルタの出力チャネルの少なくとも１つによって含まれる情報量を最大にする）ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報（ｉｎｆｏｍａｘとしても知られる）、最尤、および最大非ガウス性（たとえば、最大尖度）がある。

そのような適応構造、およびＩＣＡまたはＩＶＡ適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、２００６年３月９日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第２００６／００５３００２Ａ１号、２００６年３月１日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第６０／７７７，９２０号、２００６年３月１日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第６０／７７７，９００号、および「Systems and Methods for Blind Source Signal Separation」と題する国際特許公開第ＷＯ２００７／１００３３０Ａ１号（Kimら）に記載されている。適応フィルタ構造、およびタスクＴ２０においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。たとえば、フィルタ構造ＦＳ１０およびＦＳ２０の各々は、２つのフィードバックフィルタの代わりに２つのフィードフォワードフィルタを使用して実装できる。

図７６Ａに示すフィードバック構造ＦＳ１０をトレーニングするためにタスクＴ２０において使用できる学習規則の一例は、次のように表される。

上式で、ｔは、時間サンプル指数を示し、ｈ_１２（ｔ）は、時間ｔにおけるフィルタＣ１１０の係数値を示し、ｈ_２１（ｔ）は、時間ｔにおけるフィルタＣ１２０の係数値を示し、

Δｈ_１２ｋは、出力値ｙ_１（ｔ）およびｙ_２（ｔ）の計算に続くフィルタＣ１１０のｋ番目の係数値の変化を示し、Δｈ_２１ｋは、出力値ｙ_１（ｔ）およびｙ_２（ｔ）の計算に続くフィルタＣ１２０のｋ番目の係数値の変化を示す。アクティブ化関数ｆを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。音声適用例のためのアクティブ化信号ｆに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。

線形マイクロフォンアレイから受信された信号の指向性処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロフォンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロフォンの１つは、より直接的に所望のソース（たとえば、ユーザの口）に配向され、他のマイクロフォンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、音源とセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。ＳＳＰフィルタＳＳ１０の構造のフィルタ係数値は、データ従属またはデータ独立ビームフォーマ設計（たとえば、超指向性ビームフォーマ、最小２乗ビームフォーマ、または統計学的最適ビームフォーマ設計）に従って計算できる。データ独立ビームフォーマ設計の場合、（たとえば、雑音相関行列を同調させることによって）所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。

タスクＴ３０は、分離パフォーマンスを評価することによって、タスクＴ２０において生成されたトレーニングされたフィルタを評価する。たとえば、タスクＴ３０は、評価信号のセットに対するトレーニングされたフィルタの応答を評価するように構成できる。評価信号のこのセットは、タスクＴ２０において使用されたトレーニングセットと同じトレーニングセットとすることができる。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である（たとえば、マイクロフォンの同じアレイの少なくとも一部と、同じＰ個のシナリオの少なくとも一部とを使用して記録される）Ｍチャネル信号のセットとすることができる。そのような評価は、自動的におよび／または人間監視によって実行できる。タスクＴ３０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、オーディオ感知デバイスの外部で実行される。

タスクＴ３０は、１つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。たとえば、タスクＴ３０は、１つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。フィルタ応答を評価するために使用できるメトリックの一例は、（Ａ）評価信号の元の情報成分（たとえば、評価信号の記録中にＨＡＴＳの口部ラウドスピーカーから再生された音声信号）と、（Ｂ）その評価信号に対するフィルタの応答の少なくとも１つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のＭ個のチャネルの１つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。

フィルタ応答を評価する（たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す）ために使用できるメトリックの他の例には、分散などの統計特性、ガウス性、および／または尖度などの高次統計モーメントがある。音声信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび経時的なバースト性（時間スパーシティ（time sparsity）としても知られる）がある。一般に、音声信号は、雑音信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタ応答を評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロフォンのアレイに対する情報または干渉源の実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン（またはヌルビームパターン）と合致する度合いである。タスクＴ３０において使用されるメトリックは、（たとえば、分離評価器ＥＶ１０などの分離評価器に関して上述した）装置Ａ２００の対応する実装形態において使用される分離測度を含むか、またはその分離測度に限定されることが望ましい。

タスクＴ３０において、ＳＳＰフィルタＳＳ１０の固定フィルタ段（たとえば、固定フィルタ段ＦＦ１０）について所望の評価結果が得られると、対応するフィルタ状態をＳＳＰフィルタＳＳ１０の固定の状態（すなわち、フィルタ係数値の固定セット）として生成デバイスにロードすることができる。後述のように、各生成デバイスにおいて、実験室、工場、または自動（たとえば、自動利得整合）較正手順など、マイクロフォンの利得および／または周波数応答を較正するための手順を実行することも望ましい。

方法Ｍ１０の１つのインスタンスにおいて生成されたトレーニングされた固定フィルタは、方法Ｍ１０の別のインスタンスにおいてトレーニング信号の別のセットをフィルタ処理するために使用でき、また、適応フィルタ段の（たとえば、ＳＳＰフィルタＳＳ１０の適応フィルタ段ＡＦ１０の）初期条件を計算するために参照デバイスを使用して記録できる。適応フィルタの初期条件のそのような計算の例は、適応フィルタ段の設計、トレーニング、および／または実装形態の説明に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号の、たとえば、段落［００１２９］〜［００１３５］（「It may be desirable」で開始し「cancellation in parallel」で終了する）に記載されている。そのような初期条件はまた、（たとえば、トレーニングされた固定フィルタ段に関して）生成中に、同じまたは同様のデバイスの他のインスタンスにロードできる。

代替または追加として、方法Ｍ１０のインスタンスは、上述のようにエコーキャンセラＥＣ１０のための１つまたは複数の収束フィルタセットを得るために実行できる。次いで、エコーキャンセラのトレーニングされたフィルタを使用して、ＳＳＰフィルタＳＳ１０のトレーニング信号の記録中にマイクロフォン信号に対してエコー消去を実行することができる。

生成デバイスでは、マイクロフォンアレイによって生成されるマルチチャネル信号に対する演算（たとえば、ＳＳＰフィルタＳＳ１０に関して上述した空間選択的処理演算）のパフォーマンスは、アレイチャネルの応答特性がどのくらいよく互いに整合しているかに依存することがある。それぞれのマイクロフォンの応答特性の差異、それぞれの前処理段の利得レベルの差異、および／または回路雑音レベルの差異を含み得る要因によりチャネルのレベルが異なる可能性がある。そのような場合、マイクロフォン応答特性間の差異を補償することができない限り、得られたマルチチャネル信号は音響環境を正確に表現しないことがある。そのような補償がなければ、そのような信号に基づく空間処理演算は誤った結果を与える可能性がある。たとえば、低周波数（すなわち、約１００Ｈｚ〜１ｋＨｚ）における１、２デシベル程度の小さいチャネル間の振幅応答偏差は低周波指向性を著しく弱めることがある。マイクロフォンアレイのチャネル間の不平衡の影響は、３つ以上のマイクロフォンを有するアレイからのマルチチャネル信号を処理する適用例では特に有害なことがある。

したがって、生成中および／または生成後に、少なくとも各生成デバイスのマイクロフォンの利得を互いに較正することが望ましい。たとえば、アレイのチャネルの実効利得特性間の差異など、アレイのチャネルの実効応答特性間の差異を定量化するために、アセンブルされたマルチマイクロフォンオーディオ感知デバイスに対して事前配信較正演算を実行することが望ましい（すなわち、ユーザへの配信の前に）。

上述の実験室手順を生成デバイスに対して実行することもできるが、そのような手順を各生成デバイスに対して実行することは実際的でない可能性がある。生成デバイス（たとえば、ハンドセット）の工場較正を実行するために使用できるポータブルチャンバならびに他の較正エンクロージャおよび手順の例は、２００８年６月３０日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第６１／０７７，１４４号に記載されている。較正手順は、それぞれのマイクロフォンチャネルに適用すべき補償係数（たとえば、利得係数）を生成するように構成できる。たとえば、そのような補償係数を感知オーディオ信号Ｓ１０のそれぞれのチャネルに適用するようにオーディオプリプロセッサＡＰ１０（たとえば、デジタルプリプロセッサＤ２０ａまたはＤ２０ｂ）の要素を構成することができる。

事前配信較正手順は、たいていの製造されたデバイスが実行するのにはあまりに時間がかかるか、または別の形で実際的でないことがある。たとえば、マスマーケットデバイスのインスタンスごとにそのような演算を実行するのは経済的に実行不可能な場合がある。さらに、デバイスの寿命時間にわたって良好なパフォーマンスを保証するには事前配信演算のみでは不十分なことがある。経年変化、温度、放射および汚染を含み得る要因により、マイクロフォン感度は経時的に変動するかまたは別の形で変化することがある。しかしながら、アレイの様々なチャネルの応答間の不平衡に対する適切な補償がなければ、空間選択的処理演算などのマルチチャネル演算についての所望のレベルのパフォーマンスの達成は、困難であるか不可能なことがある。

したがって、サービス中に周期的に、または何らかの他のイベント時に（たとえば、電源投入時、ユーザ選択時などに）、１つまたは複数のマイクロフォン周波数特性および／または感度（たとえば、マイクロフォン利得間の比）を整合させるように構成された較正ルーチンをオーディオ感知デバイス内に含むことが望ましい。そのような自動利得整合手順の例は、較正の方法、ルーチン、動作、デバイス、チャンバ、および手順の開示に限定した目的のために、参照により本明細書に組み込まれる、代理人整理番号第０８１７４７号を有し、２００９年３月ＸＸ日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTICHANNEL SIGNAL BALANCING」と題する米国特許出願第１Ｘ／ＸＸＸ，ＸＸＸ号に記載されている。

図７７に示すように、ワイヤレス電話システム（たとえば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／またはＴＤ−ＳＣＤＭＡシステム）は、一般に、複数のベースステーション１２と１つまたは複数の基地局コントローラ（ＢＳＣ）１４とを含む無線アクセスネットワークとワイヤレス通信するように構成された複数のモバイル加入者ユニット１０を含む。そのようなシステムはまた、無線アクセスネットワークを従来の公衆交換電話網（ＰＳＴＮ）１８にインターフェースするように構成された、ＢＳＣ１４に結合された移動交換センター（ＭＳＣ）１６を一般に含む。このインターフェースをサポートするために、ＭＳＣは、ネットワーク間の変換ユニットとして働くメディアゲートウェイを含むか、またはそのメディアゲートウェイと通信することができる。メディアゲートウェイは、異なる送信技法および／または符号化技法などの異なるフォーマット間で変換する（たとえば、時分割多重（ＴＤＭ）ボイスとＶｏＩＰとの間で変換する）ように構成され、また、エコー消去、デュアルタイム多重周波数（ＤＴＭＦ）、およびトーン送信などのメディアストリーミング機能を実行するように構成できる。ＢＳＣ１４は迂回中継線を介して基地局１２に結合される。迂回中継線は、たとえば、Ｅ１／Ｔ１、ＡＴＭ、ＩＰ、ＰＰＰ、フレームリレー、ＨＤＳＬ、ＡＤＳＬ、またはｘＤＳＬを含む、いくつかの知られているインターフェースのいずれもサポートするように構成できる。基地局１２と、ＢＳＣ１４と、ＭＳＣ１６と、もしあればメディアゲートウェイとの集合は、「インフラストラクチャ」とも呼ばれる。

各基地局１２は、有利には、少なくとも１つのセクタ（図示せず）を含み、各セクタは、全方向性アンテナ、または基地局１２から放射状に離れる特定の方向に向けられたアンテナを備える。代替として、各セクタは、ダイバーシチ受信用の２つ以上のアンテナを備えることができる。各基地局１２は、有利には、複数の周波数割当てをサポートするように設計できる。セクタと周波数割当ての交差はＣＤＭＡチャネルと呼ばれることがある。基地局１２は基地局トランシーバサブシステム（ＢＴＳ）１２としても知られる。代替的に、「基地局」は、当業界においてＢＳＣ１４および１つまたは複数のＢＴＳ１２を一括して指すために使用されることがある。ＢＴＳ１２は「セルサイト」１２と示されることもある。代替的に、所与のＢＴＳ１２の個々のセクタがセルサイトと呼ばれることもある。モバイル加入者ユニット１０の種類は、典型的に、セルラーおよび／またはＰＣＳ（パーソナルコミュニケーションズサービス）電話、携帯情報端末（ＰＤＡ）、および／または携帯電話機能を有する他の通信デバイスなど、本明細書で説明する通信デバイスを含む。そのようなユニット１０は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセットもしくはヘッドセット（たとえば、ＵＳＢハンドセット）、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用してユニットにオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＩＳ−９５規格の１つまたは複数のバージョン（たとえば、ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＩｎｄｕｓｔｒｙＡｌｌｉａｎｃｅ（ヴァージニア州アーリントン）によって公開されたＩＳ−９５、ＩＳ−９５Ａ、ＩＳ−９５Ｂ、ｃｄｍａ２０００）に従って使用するように構成できる。

次に、セルラー電話システムの典型的な動作について説明する。ベースステーション１２は、モバイル加入者ユニット１０のセットから逆方向リンク信号のセットを受信する。モバイル加入者ユニット１０は電話通話または他の通信を行っている。所与の基地局１２によって受信された各逆方向リンク信号はその基地局１２内で処理され、得られたデータはＢＳＣ１４に転送される。ＢＳＣ１４は、呼リソース割当てと、基地局１２間のソフトハンドオフの編成を含むモビリティ管理機能とを提供する。ＢＳＣ１４はまた、受信データをＭＳＣ１６にルーティングし、ＭＳＣ１６は、ＰＳＴＮ１８とインターフェースするための追加のルーティングサービスを提供する。同様に、ＰＳＴＮ１８は、ＭＳＣ１６とインターフェースし、ＭＳＣ１６は、ＢＳＣ１４とインターフェースし、ＢＳＣ１４は、順方向リンク信号のセットをモバイル加入者ユニット１０のセットに送信するように基地局１２を制御する。

図７７に示すセルラー電話通信システムの要素は、パケット交換データ通信をサポートするように構成することもできる。図７８に示すように、パケットデータトラフィックは、一般に、パケットデータネットワークに接続されたゲートウェイルータに結合されたパケットデータサービングノード（ＰＤＳＮ）２２を使用して、モバイル加入者ユニット１０と外部パケットデータネットワーク２４（たとえば、インターネットなどの公衆ネットワーク）との間でルーティングされる。ＰＤＳＮ２２は、今度は、それぞれ１つまたは複数のＢＳＣ１４にサービスしパケットデータネットワークと無線アクセスネットワークとの間のリンクとして働く１つまたは複数のパケット制御機能（ＰＣＦ）２０にデータをルーティングする。また、パケットデータネットワーク２４は、ローカルエリアネットワーク（ＬＡＮ）、キャンパスエリアネットワーク（ＣＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、リング型ネットワーク、スター型ネットワーク、トークンリングネットワークなどを含むように実装できる。ネットワーク２４に接続されたユーザ端末は、ＰＤＡ、ラップトップコンピュータ、パーソナルコンピュータ、ゲーム機（そのようなデバイスの例には、ＸＢＯＸおよびＸＢＯＸ３６０（マイクロソフト社（ワシントン州レドモンド））、Ｐｌａｙｓｔａｔｉｏｎ３およびＰｌａｙｓｔａｔｉｏｎＰｏｒｔａｂｌｅ（ソニー（株）（日本国東京））、ならびにＷｉｉおよびＤＳ（任天堂（日本国京都））がある）、および／またはオーディオ処理機能を有し、ＶｏＩＰなどの１つまたは複数のプロトコルを使用して電話通話または他の通信をサポートするように構成できる任意のデバイスなど、本明細書で説明するオーディオ感知デバイスの種類に入るデバイスとすることができる。そのような端末は、内部スピーカーおよびマイクロフォンのアレイ、スピーカーおよびマイクロフォンのアレイを含むテザー付きハンドセット（たとえば、ＵＳＢハンドセット）、またはスピーカーおよびマイクロフォンのアレイを含むワイヤレスヘッドセット（たとえば、たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ（ワシントン州ベルビュー）によって公表されたＢｌｕｅｔｏｏｔｈ（登録商標）プロトコルのバージョンを使用して端末にオーディオ情報を通信するヘッドセット）を含むことができる。そのようなシステムは、ＰＳＴＮに決して入ることなしに、（たとえば、ＶｏＩＰなどの１つまたは複数のプロトコルを介して）異なる無線アクセスネットワーク上のモバイル加入者ユニット間で、モバイル加入者ユニットと非モバイルユーザ端末との間で、または２つの非モバイルユーザ端末間で、電話通話または他の通信をパケットデータトラフィックとして搬送するように構成できる。モバイル加入者ユニット１０または他のユーザ端末は、「アクセス端末」とも呼ばれる。

図７９Ａに、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか）内で実行できる音声信号を処理する方法Ｍ１００のフローチャートを示す。方法Ｍ１００は、音源信号と雑音基準とを生成するために（たとえば、ＳＳＰフィルタＳＳ１０に関して本明細書で説明したように）マルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するタスクＴ１１０を含む。たとえば、タスクＴ１１０は、マルチチャネル感知オーディオ信号の指向性成分のエネルギーを音源信号に集中することを含むことができる。

方法Ｍ１００はまた、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するタスクを含む。このタスクは、サブタスクＴ１２０、Ｔ１３０、およびＴ１４０を含む。タスクＴ１２０は、（たとえば、雑音サブバンドパワー推定値計算器ＮＰ１００に関して本明細書で説明したように）雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算する。タスクＴ１３０は、（たとえば、強調ベクトル発生器ＶＧ１００に関して本明細書で説明したように）音声信号からの情報に基づいて強調ベクトルを発生する。タスクＴ１４０は、処理済み音声信号の複数の周波数サブバンドの各々が音声信号の対応する周波数サブバンドに基づくように、（たとえば、利得制御要素ＣＥ１００およびミキサＸ１００、または利得係数計算器ＦＣ３００および利得制御要素ＣＥ１１０もしくはＣＥ１２０に関して本明細書で説明したように）複数の雑音サブバンドパワー推定値と、音声信号からの情報と、強調ベクトルからの情報とに基づいて処理済み音声信号を生成する。方法Ｍ１００、ならびにタスクＴ１１０、Ｔ１２０、Ｔ１３０、およびＴ１４０の多数の実装形態は（たとえば、本明細書で開示する様々な装置、要素、および動作によって）本明細書で明確に開示される。

方法Ｍ１００は、音声信号がマルチチャネル感知オーディオ信号に基づくように実装することが望ましい。図７９Ｂに、タスクＴ１３０が音声信号として音源信号を受信するように構成された、方法Ｍ１００のそのような実装形態Ｍ１１０のフローチャートを示す。この場合、タスクＴ１４０は同じく（たとえば、装置Ａ１１０に関して本明細書で説明したように）処理済み音声信号の複数の周波数サブバンドの各々が、音源信号の対応する周波数サブバンドに基づくように構成される。

代替的に、方法Ｍ１００は、音声信号が、復号された音声信号からの情報に基づくように実装することが望ましい。そのような復号された音声信号は、たとえば、デバイスによってワイヤレス受信された信号を復号することによって得られる。図８０Ａに、タスクＴ１５０を含む方法Ｍ１００のそのような実装形態Ｍ１２０のフローチャートを示す。タスクＴ１５０は、音声信号を生成するために、デバイスによってワイヤレス受信された符号化音声信号を復号する。たとえば、タスクＴ１５０は、本明細書で識別されるコーデックのうちの１つまたは複数（たとえば、ＥＶＲＣ、ＳＭＶ、ＡＭＲ）に従って符号化音声信号を復号するように構成できる。

図８０Ｂに、サブタスクＴ２３２と、Ｔ２３４と、Ｔ２３６とを含む強調ベクトル生成タスクＴ１３０の実装形態Ｔ２３０のフローチャートを示す。タスクＴ２３２は、（たとえば、スペクトル平滑器ＳＭ１０に関して本明細書で説明したように）第１の平滑化信号を得るために音声信号のスペクトルを平滑化する。タスクＴ２３４は、（たとえば、スペクトル平滑器ＳＭ２０に関して本明細書で説明したように）第２の平滑化信号を得るために第１の平滑化信号を平滑化する。タスクＴ２３６は、（たとえば、比計算器ＲＣ１０に関して本明細書で説明したように）第１の平滑化信号と第２の平滑化信号との比を計算する。タスクＴ１３０またはタスクＴ２３０は、（たとえば、事前強調処理モジュールＰＭ１０に関して本明細書で説明したように）音声信号のスペクトルピークの絶対値間の差を低減するサブタスクを含むようにも構成でき、それにより強調ベクトルはこのサブタスクの結果に基づく。

図８１Ａに、サブタスクＴ２４２と、Ｔ２４４と、Ｔ２４６とを含む生成タスクＴ１４０の実装形態Ｔ２４０のフローチャートを示す。タスクＴ２４２は、（たとえば、利得係数計算器ＦＣ３００に関して本明細書で説明したように）複数の利得係数値のうちの第１の値が複数の利得係数値のうちの第２の値と異なるように、複数の雑音サブバンドパワー推定値と、強調ベクトルからの情報とに基づいて複数の利得係数値を計算する。（たとえば、利得制御要素ＣＥ１１０および／またはＣＥ１２０に関して本明細書で説明したように）タスクＴ２４４は、処理済み音声信号の第１のサブバンドを得るために音声信号の第１の周波数サブバンドに第１の利得係数値を適用し、タスクＴ２４６は、処理済み音声信号の第２のサブバンドを得るために音声信号の第２の周波数サブバンドに第２の利得係数値を適用する。

図８１Ｂに、それぞれタスクＴ２４４およびＴ２４６の実装形態Ｔ３４４およびＴ３４６を含む、生成タスクＴ２４０の実装形態Ｔ３４０のフローチャートを示す。タスクＴ３４０は、（たとえば、サブバンドフィルタアレイＦＡ１２０に関して本明細書で説明したように）フィルタ段のカスケードを使用することによって処理済み音声信号を生成して音声信号をフィルタ処理する。タスクＴ３４４は、カスケードの第１のフィルタ段に第１の利得係数値を適用し、タスクＴ３４６は、カスケードの第２のフィルタ段に第２の利得係数値を適用する。

図８１Ｃに、タスクＴ１６０とＴ１７０とを含む方法Ｍ１１０の実装形態Ｍ１３０のフローチャートを示す。雑音基準から情報に基づいて、タスクＴ１６０は、（たとえば、雑音低減段ＮＲ１０に関して本明細書で説明したように）音声信号を得るために音源信号に対して雑音低減演算を実行する。一例では、タスクＴ１６０は、（たとえば、雑音低減段ＮＲ２０に関して本明細書で説明したように）音源信号に対してスペクトル減算演算を実行するように構成される。タスクＴ１７０は、（たとえば、ＶＡＤＶ１５に関して本明細書で説明したように）音源信号と音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行する。方法Ｍ１３０はまた、（たとえば、エンハンサＥＮ１５０に関して本明細書で説明したように）ボイスアクティビティ検出タスクＴ１７０の結果に基づいて処理済み音声信号を生成するタスクＴ１４０の実装形態Ｔ１４２を含む。

図８２Ａに、タスクＴ１０５とＴ１８０とを含む方法Ｍ１００の実装形態Ｍ１４０のフローチャートを示す。タスクＴ１０５は、（たとえば、エコーキャンセラＥＣ１０に関して本明細書で説明したように）マルチチャネル感知オーディオ信号からエコーを消去するためにエコーキャンセラを使用する。タスクＴ１８０は、（たとえば、オーディオプリプロセッサＡＰ３０に関して本明細書で説明したように）エコーキャンセラをトレーニングするために処理済み音声信号を使用する。

図８２Ｂに、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか）内で実行できる音声信号を処理する方法Ｍ２００のフローチャートを示す。方法Ｍ２００は、タスクＴＭ１０、ＴＭ２０、およびＴＭ３０を含む。タスクＴＭ１０は、（たとえば、スペクトル平滑器ＳＭ１０およびタスクＴ２３２に関して本明細書で説明したように）第１の平滑化信号を得るために音声信号のスペクトルを平滑化する。タスクＴＭ２０は、（たとえば、スペクトル平滑器ＳＭ２０およびタスクＴ２３４に関して本明細書で説明したように）第２の平滑化信号を得るために第１の平滑化信号を平滑化する。タスクＴＭ３０は、（たとえば、強調ベクトル発生器ＶＧ１１０と、そのような発生器を含むエンハンサＥＮ１００、ＥＮ１１０、およびＥＮ１２０の実装形態とに関して本明細書で説明したように）第１の平滑化信号と第２の平滑化信号との比に基づくコントラスト強調音声信号を生成する。たとえば、タスクＴＭ３０は、各サブバンドの利得が、第１の平滑化信号と第２の平滑化信号との比の対応するサブバンドからの情報に基づくように、音声信号の複数のサブバンドの利得を制御することによってコントラスト強調音声信号を生成するように構成できる。

方法Ｍ２００はまた、（たとえば、事前強調処理モジュールＰＭ１０に関して本明細書で説明したように、）音声信号の等化されたスペクトルを得るために、音声信号の適応等化演算を実行するタスク、および／または音声信号のスペクトルピークの絶対値間の差を低減するタスクを含むように実装できる。そのような場合、タスクＴＭ１０は、第１の平滑化信号を得るために等化されたスペクトルを平滑化するように構成できる。

図８３Ａに、一般的構成による、音声信号を処理するための装置Ｆ１００のブロック図を示す。装置Ｆ１００は、音源信号と雑音基準とを生成するために（たとえば、ＳＳＰフィルタＳＳ１０に関して本明細書で説明したように）マルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段Ｇ１１０を含む。たとえば、手段Ｇ１１０は、マルチチャネル感知オーディオ信号の指向性成分のエネルギーを音源信号に集中することを含むように構成できる。

装置Ｆ１００はまた、処理済み音声信号を生成するために音声信号に対してスペクトルコントラスト強調演算を実行するための手段を含む。そのような手段は、（たとえば、雑音サブバンドパワー推定値計算器ＮＰ１００に関して本明細書で説明したように）雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段Ｇ１２０を含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段はまた、（たとえば、強調ベクトル発生器ＶＧ１００に関して本明細書で説明したように）音声信号からの情報に基づいて強調ベクトルを発生するための手段Ｇ１３０を含む。音声信号に対してスペクトルコントラスト強調演算を実行するための手段はまた、処理済み音声信号の複数の周波数サブバンドの各々が音声信号の対応する周波数サブバンドに基づくように、（たとえば、利得制御要素ＣＥ１００およびミキサＸ１００、または利得係数計算器ＦＣ３００および利得制御要素ＣＥ１１０もしくはＣＥ１２０に関して本明細書で説明したように）複数の雑音サブバンドパワー推定値と、音声信号からの情報と、強調ベクトルからの情報とに基づいて処理済み音声信号を生成するための手段Ｇ１４０を含む。装置Ｆ１００は、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか）内に実装でき、装置Ｆ１００、手段Ｇ１１０、手段Ｇ１２０、手段Ｇ１３０、および手段Ｇ１４０の多数の実装形態は（たとえば、本明細書で開示する様々な装置、要素、および動作によって）本明細書で明確に開示される。

装置Ｆ１００は、音声信号がマルチチャネル感知オーディオ信号に基づくように実装することが望ましい。図８３Ｂに、手段Ｇ１３０が音声信号として音源信号を受信するように構成された、装置Ｆ１００のそのような実装形態Ｆ１１０のブロック図を示す。この場合、手段Ｇ１４０は同じく（たとえば、装置Ａ１１０に関して本明細書で説明したように）処理済み音声信号の複数の周波数サブバンドの各々が、音源信号の対応する周波数サブバンドに基づくように構成される。

代替的に、装置Ｆ１００は、音声信号が、復号された音声信号からの情報に基づくように実装することが望ましい。そのような復号された音声信号は、たとえば、デバイスによってワイヤレス受信された信号を復号することによって得られる。図８４Ａに、音声信号を生成するために、デバイスによってワイヤレス受信された符号化音声信号を復号するための手段Ｇ１５０を含む装置Ｆ１００のそのような実装形態Ｆ１２０のブロック図を示す。たとえば、手段Ｇ１５０は、本明細書で識別されるコーデックのうちの１つ（たとえば、ＥＶＲＣ、ＳＭＶ、ＡＭＲ）に従って符号化音声信号を復号するように構成できる。

図８４Ｂに、（たとえば、スペクトル平滑器ＳＭ１０に関して本明細書で説明したように）第１の平滑化信号を得るために音声信号のスペクトルを平滑化するための手段Ｇ２３２と、（たとえば、スペクトル平滑器ＳＭ２０に関して本明細書で説明したように）第２の平滑化信号を得るために第１の平滑化信号を平滑化するための手段Ｇ２３４と、（たとえば、比計算器ＲＣ１０に関して本明細書で説明したように）第１の平滑化信号と第２の平滑化信号との比を計算するための手段Ｇ２３６とを含む、強調ベクトルを発生するための手段Ｇ１３０の実装形態Ｇ２３０のフローチャートを示す。タスクＧ１３０またはタスクＧ２３０は、（たとえば、事前強調処理モジュールＰＭ１０に関して本明細書で説明したように）音声信号のスペクトルピークの絶対値間の差を低減するための手段を含むようにも構成でき、それにより強調ベクトルはこの差低減演算の結果に基づく。

図８５Ａに、（たとえば、利得係数計算器ＦＣ３００に関して本明細書で説明したように）複数の利得係数値のうちの第１の値が複数の利得係数値のうちの第２の値と異なるように、複数の雑音サブバンドパワー推定値と、強調ベクトルからの情報とに基づいて複数の利得係数値を計算するための手段Ｇ２４２を含む、手段Ｇ１４０の実装形態Ｇ２４０のブロック図を示す。手段Ｇ２４０は、（たとえば、利得制御要素ＣＥ１１０および／またはＣＥ１２０に関して本明細書で説明したように）タスクＴ２４４は、処理済み音声信号の第１のサブバンドを得るために音声信号の第１の周波数サブバンドに第１の利得係数値を適用するための手段Ｇ２４４と、処理済み音声信号の第２のサブバンドを得るために音声信号の第２の周波数サブバンドに第２の利得係数値を適用するための手段Ｇ２４６とを含む。

図８５Ｂに、（たとえば、サブバンドフィルタアレイＦＡ１２０に関して本明細書で説明したように）処理済み音声信号を生成するために音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含む手段Ｇ２４０の実装形態Ｇ３４０のブロック図を示す。手段Ｇ３４０は、カスケードの第１のフィルタ段に第１の利得係数値を適用するための手段Ｇ２４４の実装形態Ｇ３４４と、カスケードの第２のフィルタ段に第２の利得係数値を適用するための手段Ｇ２４６の実装形態Ｇ３４６とを含む。

図８５Ｃに、（たとえば、雑音低減段ＮＲ１０に関して本明細書で説明したように）音声信号を得るために雑音基準からの情報に基づいて音源信号に対して雑音低減演算を実行するための手段Ｇ１６０を含む装置Ｆ１１０の実装形態Ｆ１３０のフローチャートを示す。一例では、手段Ｇ１６０は、（たとえば、雑音低減段ＮＲ２０に関して本明細書で説明したように）音源信号に対してスペクトル減算演算を実行するように構成される。装置Ｆ１３０はまた、（たとえば、ＶＡＤＶ１５に関して本明細書で説明したように）音源信号と音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するための手段Ｇ１７０を含む。装置Ｆ１３０はまた、（たとえば、エンハンサＥＮ１５０に関して本明細書で説明したように）ボイスアクティビティ検出演算の結果に基づいて処理済み音声信号を生成するための手段Ｇ１４０の実装形態Ｇ１４２を含む。

図８６Ａに、（たとえば、エコーキャンセラＥＣ１０に関して本明細書で説明したように）マルチチャネル感知オーディオ信号からエコーを消去するための手段Ｇ１０５を含む装置Ｆ１００の実装形態Ｆ１４０のフローチャートを示す。手段Ｇ１０５は、（たとえば、オーディオプリプロセッサＡＰ３０に関して本明細書で説明したように）処理済み音声信号によってトレーニングされるように構成され、配置される。

図８６Ｂに、一般的構成による、音声信号を処理するための装置Ｆ２００のブロック図を示す。装置Ｆ２００は、オーディオ信号を処理するように構成されたデバイス（たとえば、本明細書で識別される、通信デバイスなどのオーディオ感知デバイスのいずれか）内に実装できる。装置Ｆ２００は、上述のように、平滑化するための手段Ｇ２３２と、平滑化するための手段Ｇ２３４とを含む。装置Ｆ２００はまた、（たとえば、強調ベクトル発生器ＶＧ１１０と、そのような発生器を含むエンハンサＥＮ１００、ＥＮ１１０、およびＥＮ１２０の実装形態とに関して本明細書で説明したように）第１の平滑化信号と第２の平滑化信号との比に基づくコントラスト強調音声信号を生成するための手段Ｇ１４４を含む。たとえば、手段Ｇ１４４は、各サブバンドの利得が、第１の平滑化信号と第２の平滑化信号との比の対応するサブバンドからの情報に基づくように、音声信号の複数のサブバンドの利得を制御することによってコントラスト強調音声信号を生成するように構成できる。

装置Ｆ２００はまた、（たとえば、事前強調処理モジュールＰＭ１０に関して本明細書で説明したように）音声信号の等化されたスペクトルを得るために、音声信号の適応等化演算を実行するための手段、および／または音声信号のスペクトルピークの絶対値間の差を低減するための手段を含むように実装できる。そのような場合、手段Ｇ２３２は、第１の平滑化信号を得るために等化されたスペクトルを平滑化するように構成できる。

説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。

本明細書に開示する通信デバイスは、パケット交換式であるネットワーク（たとえば、ＶｏＩＰなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換式であるネットワークにおける使用に適応できることが明確に企図され、本明細書によって開示される。また、本明細書に開示する通信デバイスは、狭帯域コーディングシステム（たとえば、約４または５キロヘルツのオーディオ周波数範囲を符号化するシステム）での使用、および／または全帯域広帯域コーディングシステムおよびスプリットバンドコーディングシステムを含む、広帯域コーディングシステム（たとえば、５キロヘルツを超えるオーディオ周波数を符号化するシステム）での使用に適応できることが明確に企図され、本明細書によって開示される。

情報および信号は、多種多様な技術および技法のいずれかを使用して表すことができることを当業者ならば理解されよう。たとえば、上記の説明全体にわたって言及されるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表すことができる。

本明細書で開示する構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報（たとえば、本明細書で識別される例の１つなどの圧縮形式に従って符号化されるファイルまたはストリーム）の再生などの計算集約的適用例、または（たとえば、広帯域通信用の）より高いサンプリングレートにおけるボイス通信の適用例では特に、（一般に百万命令／秒またはＭＩＰＳで測定される）処理遅延および／または計算複雑性を最小にすることを含むことができる。

本明細書で開示する装置の実装形態の様々な要素（たとえば、装置Ａ１００、Ａ１１０、Ａ１２０、Ａ１３０、Ａ１３２、Ａ１３４、Ａ１４０、Ａ１５０、Ａ１６０、Ａ１６５、Ａ１７０、Ａ１８０、Ａ２００、Ａ２１０、Ａ２３０、Ａ２５０、Ａ３００、Ａ３１０、Ａ３２０、Ａ３３０、Ａ４００、Ａ５００、Ａ５５０、Ａ６００、Ｆ１００、Ｆ１１０、Ｆ１２０、Ｆ１３０、Ｆ１４０、およびＦ２００の様々な要素）は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する電子デバイスおよび／または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の２つ以上、さらにはすべてを同じ１つまたは複数のアレイ内に実装することができる。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装できる。

（たとえば、上で列挙した）本明細書で開示する装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定的なアレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）として実施することもでき、これらの要素の任意の２つ以上、さらにはすべてを同じそのような１つまたは複数のコンピュータ内に実装することができる。

本明細書で開示するように処理するためのプロセッサまたは他の手段は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップ間に常駐する１つまたは複数の電子デバイスおよび／または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装できる。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装できる。そのようなアレイの例には、マイクロプロセッサ、埋込みプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示する処理するためのプロセッサまたは他の手段は、１つまたは複数のコンピュータ（たとえば、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含むマシン）あるいは他のプロセッサとして実施することもできる。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム（たとえば、オーディオ感知デバイス）の別の演算に関係するタスクなど、信号平衡化手順に直接関係しないタスクを実行し、または信号平衡化手順に直接関係しない命令の他のセットを実行するために使用することが可能である。また、本明細書で開示する方法の一部がオーディオ感知デバイスのプロセッサによって実行され（たとえば、タスクＴ１１０、Ｔ１２０、およびＴ１３０、またはタスクＴ１１０、Ｔ１２０、Ｔ１３０、およびＴ２４２）、その方法の別の一部は１つまたは複数の他のプロセッサの制御下で実行される（たとえば、復号タスクＴ１５０、および／または利得制御タスクＴ２４４およびＴ２４６）ことが可能である。

本明細書で開示する構成に関連して説明する様々な例示的な論理ブロック、モジュール、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示する構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体から、もしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装することもできる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐することができる。ＡＳＩＣは、ユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐することもできる。

本明細書で開示する様々な方法（たとえば、方法Ｍ１００、Ｍ１１０、Ｍ１２０、Ｍ１３０、Ｍ１４０、およびＭ２００、ならびに本明細書で開示する装置の様々な実装形態の動作の説明によって本明細書で明確に開示されるそのような方法および追加の方法の多数の実装形態）は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。

本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号でも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施するか、プロセッサによって実行されるソフトウェアモジュールで実施するか、またはその２つの組合せで実施することができる。本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクのうちの１つ、複数、さらにはすべてを実行するように構成される。タスクの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって可読および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体など）に埋め込まれたコード（たとえば、命令の１つまたは複数のセット）として実装することもできる。本明細書で開示する方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受信および／または送信するように構成されたＲＦ回路を含むことができる。

本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明確に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなモバイルデバイスを使用して行われる電話通話である。

１つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装できる。ソフトウェアで実装する場合、そのような動作は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体でよい。限定ではなく、例として、そのようなコンピュータ可読媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含むことができる）半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。さらに、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびブルーレイディスク（disc）（商標）（ブルーレイディスクアソシエーション、カリフォルニア州ＵｎｉｖｅｒｓａｌＣｉｔｙ）を含み、この場合、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。

本明細書で説明する音響信号処理装置は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発の背景音から明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。

本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ上に存在する電子デバイスおよび／または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明する装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど論理要素の１つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。

本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／または光デバイスの構成）を有することが可能である。たとえば、サブバンド信号発生器ＳＧ１００、ＥＧ１００、ＮＧ１００ａ、ＮＧ１００ｂ、およびＮＧ１００ｃのうちの２つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドパワー推定値計算器ＳＰ１００、ＥＰ１００、ＮＰ１００ａ、ＮＰ１００ｂ（またはＮＰ１０５）、およびＮＰ１００ｃのうちの２つ以上は、異なる時間に同じ構造を含むように実装できる。別の例では、サブバンドフィルタアレイＦＡ１００、およびサブバンドフィルタアレイＳＧ１０の１つまたは複数の実装形態は、（たとえば、異なる時間にフィルタ係数値の異なるセットを使用して）異なる時間に同じ構造を含むように実装できる。

また、装置Ａ１００および／またはエンハンサＥＮ１０の特定の実装形態に関して本明細書で説明した様々な要素は、他の開示した実装形態とともに記載した方法で使用することもできることが明確に企図され、本明細書によって開示される。たとえば、（装置Ａ１７０に関して説明した）ＡＧＣモジュールＧ１０、（装置Ａ５００に関して説明した）オーディオプリプロセッサＡＰ１０、（オーディオプリプロセッサＡＰ３０に関して説明した）エコーキャンセラＥＣ１０、雑音低減段の（装置Ａ１３０に関して説明した）ＮＲ１０またはＮＲ２０、ボイスアクティビティ検出器の（装置Ａ１６０に関して説明した）Ｖ１０または（装置Ａ１６５に関して説明した）Ｖ１５のうちの１つまたは複数は、装置Ａ１００の他の開示した実装形態中に含めることができる。同様に、（エンハンサＥＮ４０に関して説明した）ピークリミッタＬ１０は、エンハンサＥＮ１０の他の開示した実装形態中に含めることができる。上記では主に感知オーディオ信号Ｓ１０の２チャネル（たとえば、ステレオ）インスタンスへの適用例について説明したが、（たとえば、３つ以上のマイクロフォンのアレイからの）３つ以上のチャネルを有する感知オーディオ信号Ｓ１０のインスタンスへの、本明細書で開示した原理の拡張も、明確に企図され、本明細書で開示される。

Claims

音声信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行する行為と、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行する行為と
の各々を実行することを備え、
スペクトルコントラスト強調演算を前記実行することが、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算することと、
前記音声信号からの情報に基づいて強調ベクトルを発生することと、
前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成することと
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理する方法。
空間選択的処理演算を前記実行することが、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、請求項１に記載の音声信号を処理する方法。
前記方法が、復号された音声信号を得るために前記デバイスによってワイヤレス受信された信号を復号することを備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、請求項１に記載の音声信号を処理する方法。
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項１に記載の音声信号を処理する方法。
空間選択的処理演算を前記実行することが、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、請求項１に記載の音声信号を処理する方法。
強調ベクトルを前記発生することが、第１の平滑化信号を得るために前記音声信号のスペクトルを平滑化することと、第２の平滑化信号を得るために前記第１の平滑化信号を平滑化することとを備え、
前記強調ベクトルが前記第１の平滑化信号と前記第２の平滑化信号との比に基づく、請求項１に記載の音声信号を処理する方法。
強調ベクトルを前記発生することが、前記音声信号のスペクトルピークの絶対値間の差を低減することを備え、
前記強調ベクトルが、前記低減することの結果に基づく、請求項１に記載の音声信号を処理する方法。
処理済み音声信号を前記生成することが、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算することと、
前記処理済み音声信号の第１のサブバンドを得るために前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用することと、
前記処理済み音声信号の第２のサブバンドを得るために前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用することと
を備え、
前記複数の利得係数値のうちの前記第１の利得係数値が前記複数の利得係数値のうちの前記第２の利得係数値とは異なる、請求項１に記載の音声信号を処理する方法。
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項８に記載の音声信号を処理する方法。
処理済み音声信号を前記生成することが、フィルタ段のカスケードを使用して前記音声信号をフィルタ処理することを含み、
前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を前記適用することが、前記カスケードの第１のフィルタ段に前記利得係数値を適用することを備え、
前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を前記適用することが、前記カスケードの第２のフィルタ段に前記利得係数値を適用することを備える、請求項８に記載の音声信号を処理する方法。
前記方法が、
前記マルチチャネル感知オーディオ信号からエコーを消去するためにエコーキャンセラを使用することと、
前記エコーキャンセラをトレーニングするために前記処理済み音声信号を使用することと
を備える、請求項１に記載の音声信号を処理する方法。
前記方法が、
前記雑音基準からの情報に基づいて、前記音声信号を得るために前記音源信号に対して雑音低減演算を実行することと、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行することと
を備え、
処理済み音声信号を前記生成することが、前記ボイスアクティビティ検出演算の結果に基づく、請求項１に記載の音声信号を処理する方法。
音声信号を処理するための装置であって、前記装置が、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するための手段と、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するための手段と
を備え、
スペクトルコントラスト強調演算を実行するための前記手段が、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するための手段と、
前記音声信号からの情報に基づいて強調ベクトルを発生するための手段と、
前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するための手段と
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
前記空間選択的処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、請求項１３に記載の音声信号を処理するための装置。
前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するための手段を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、請求項１３に記載の音声信号を処理するための装置。
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項１３に記載の音声信号を処理するための装置。
空間選択的処理演算を実行するための前記手段が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定するように構成された、請求項１３に記載の音声信号を処理するための装置。
強調ベクトルを発生するための前記手段が、第１の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第２の平滑化信号を得るために前記第１の平滑化信号を平滑化するように構成され、
前記強調ベクトルが前記第１の平滑化信号と前記第２の平滑化信号との比に基づく、請求項１３に記載の音声信号を処理するための装置。
強調ベクトルを発生するための前記手段が、前記音声信号のスペクトルピークの絶対値間の差を低減する演算を実行するように構成され、
前記強調ベクトルが前記演算の結果に基づく、請求項１３に記載の音声信号を処理するための装置。
処理済み音声信号を生成するための前記手段が、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するための手段と、
前記処理済み音声信号の第１のサブバンドを得るために前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用するための手段と、
前記処理済み音声信号の第２のサブバンドを得るために前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用するための手段と
を備え、
前記複数の利得係数値のうちの前記第１の利得係数値が前記複数の利得係数値のうちの前記第２の利得係数値とは異なる、請求項１３に記載の音声信号を処理するための装置。
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項２０に記載の音声信号を処理するための装置。
処理済み音声信号を生成するための前記手段が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用するための前記手段が、前記カスケードの第１のフィルタ段に前記利得係数値を適用するように構成され、
前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用するための前記手段が、前記カスケードの第２のフィルタ段に前記利得係数値を適用するように構成された、請求項２０に記載の音声信号を処理するための装置。
前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するための手段を備え、
エコーを消去するための前記手段が、前記処理済み音声信号によってトレーニングされるように構成され、配置された、請求項１３に記載の音声信号を処理するための装置。
前記装置が、
前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するための手段と、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するための手段と
を備え、
処理済み音声信号を生成するための前記手段が、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、請求項１３に記載の音声信号を処理するための装置。
音声信号を処理するための装置であって、前記装置が、
音源信号と雑音基準とを生成するためにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行するように構成された空間選択的処理フィルタと、
処理済み音声信号を生成するために前記音声信号に対してスペクトルコントラスト強調演算を実行するように構成されたスペクトルコントラストエンハンサと
を備え、
前記スペクトルコントラストエンハンサが、
前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算するように構成されたパワー推定値計算器と、
前記音声信号からの情報に基づいて強調ベクトルを発生するように構成された強調ベクトル発生器と
を含み、
前記スペクトルコントラストエンハンサが、前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて前記処理済み音声信号を生成するように構成され、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、音声信号を処理するための装置。
前記空間選択的処理演算が、前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中することを含む、請求項２５に記載の音声信号を処理するための装置。
前記装置が、復号された音声信号を得るために前記装置によってワイヤレス受信された信号を復号するように構成された復号器を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、請求項２５に記載の音声信号を処理するための装置。
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項２５に記載の音声信号を処理するための装置。
前記空間選択的処理演算が、複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定することを含む、請求項２５に記載の音声信号を処理するための装置。
前記強調ベクトル発生器が、第１の平滑化信号を得るために前記音声信号のスペクトルを平滑化し、第２の平滑化信号を得るために前記第１の平滑化信号を平滑化するように構成され、
前記強調ベクトルが前記第１の平滑化信号と前記第２の平滑化信号との比に基づく、請求項２５に記載の音声信号を処理するための装置。
前記強調ベクトル発生器が、前記音声信号のスペクトルピークの絶対値間の差を低減する演算を実行するように構成され、
前記強調ベクトルが前記演算の結果に基づく、請求項２５に記載の音声信号を処理するための装置。
前記スペクトルコントラストエンハンサが、
複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算するように構成された利得係数計算器と、
前記処理済み音声信号の第１のサブバンドを得るために前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用するように構成された利得制御要素と
を含み、
前記利得制御要素が、前記処理済み音声信号の第２のサブバンドを得るために、前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用するように構成され、
前記複数の利得係数値のうちの前記第１の利得係数値が前記複数の利得係数値のうちの前記第２の利得係数値とは異なる、請求項２５に記載の音声信号を処理するための装置。
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項３２に記載の音声信号を処理するための装置。
前記利得制御要素が、前記音声信号をフィルタ処理するように構成されたフィルタ段のカスケードを含み、
前記利得制御要素が、前記カスケードの第１のフィルタ段に前記複数の利得係数値のうちの前記第１の利得係数値を適用することによって、前記音声信号の前記第１の周波数サブバンドに前記利得係数値を適用するように構成され、
前記利得制御要素が、前記カスケードの第２のフィルタ段に前記複数の利得係数値のうちの前記第２の利得係数値を適用することによって、前記音声信号の前記第２の周波数サブバンドに前記利得係数値を適用するように構成された、請求項３２に記載の音声信号を処理するための装置。
前記装置が、前記マルチチャネル感知オーディオ信号からエコーを消去するように構成されたエコーキャンセラを備え、
前記エコーキャンセラが、前記処理済み音声信号によってトレーニングされるように構成され、配置された、請求項２５に記載の音声信号を処理するための装置。
前記装置が、
前記音声信号を得るために、前記雑音基準からの情報に基づいて、前記音源信号に対して雑音低減演算を実行するように構成された雑音低減段と、
前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行するように構成されたボイスアクティビティ検出器と
を備え、
前記スペクトルコントラストエンハンサが、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、請求項２５に記載の音声信号を処理するための装置。
少なくとも１つのプロセッサによって実行されたとき、前記少なくとも１つのプロセッサにマルチチャネルオーディオ信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、前記命令が、
プロセッサによって実行されたとき、音源信号と雑音基準とを生成するために前記プロセッサにマルチチャネル感知オーディオ信号に対して空間選択的処理演算を実行させる命令と、
プロセッサによって実行されたとき、処理済み音声信号を生成するために前記プロセッサに前記音声信号に対してスペクトルコントラスト強調演算を実行させる命令と
を備え、
プロセッサによって実行されたとき、前記プロセッサにスペクトルコントラスト強調演算を実行させる前記命令が、
プロセッサによって実行されたとき、前記プロセッサに前記雑音基準からの情報に基づいて複数の雑音サブバンドパワー推定値を計算させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記音声信号からの情報に基づいて強調ベクトルを発生させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記複数の雑音サブバンドパワー推定値と前記音声信号からの情報と前記強調ベクトルからの情報とに基づいて処理済み音声信号を生成させる命令と
を含み、
前記処理済み音声信号の複数の周波数サブバンドの各々が前記音声信号の対応する周波数サブバンドに基づく、コンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに空間選択的処理演算を実行させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記マルチチャネル感知オーディオ信号の指向性成分のエネルギーを前記音源信号に集中させる命令を含む、請求項３７に記載のコンピュータ可読媒体。
前記媒体が、プロセッサによって実行されたとき、復号された音声信号を得るために前記プロセッサに前記媒体を含むデバイスによってワイヤレス受信された信号を復号させる命令を備え、
前記音声信号が、前記復号された音声信号からの情報に基づく、請求項３７に記載のコンピュータ可読媒体。
前記音声信号が前記マルチチャネル感知オーディオ信号に基づく、請求項３７に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに空間選択的処理演算を実行させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに複数の異なる周波数の各々において前記マルチチャネル感知オーディオ信号のチャネルの位相角間の関係を決定させる命令を含む、請求項３７に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに強調ベクトルを発生させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに第１の平滑化信号を得るために前記音声信号のスペクトルを平滑化させる命令と、プロセッサによって実行されたとき、前記プロセッサに第２の平滑化信号を得るために前記第１の平滑化信号を平滑化させる命令とを備え、
前記強調ベクトルが前記第１の平滑化信号と前記第２の平滑化信号との比に基づく、請求項３７に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに強調ベクトルを発生させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記音声信号のスペクトルピークの絶対値間の差を低減させる命令を備え、
前記強調ベクトルが、前記低減することの結果に基づく、請求項３７に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、
プロセッサによって実行されたとき、前記プロセッサに、複数の利得係数値の各々が前記強調ベクトルの対応する周波数サブバンドからの情報に基づくように、前記複数の利得係数値を計算させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第１のサブバンドを得るために前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記処理済み音声信号の第２のサブバンドを得るために前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用させる命令と
を備え、
前記複数の利得係数値のうちの前記第１の利得係数値が前記複数の利得係数値のうちの前記第２の利得係数値とは異なる、請求項３７に記載のコンピュータ可読媒体。
前記複数の利得係数値の各々が、前記複数の雑音サブバンドパワー推定値のうちの対応する雑音サブバンドパワー推定値に基づく、請求項４４に記載のコンピュータ可読媒体。
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、プロセッサによって実行されたとき、前記プロセッサにフィルタ段のカスケードを使用して前記音声信号をフィルタ処理させる命令を含み、
プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第１の周波数サブバンドに前記複数の利得係数値のうちの第１の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第１のフィルタ段に前記利得係数値を適用させる命令を備え、
プロセッサによって実行されたとき前記プロセッサに、前記音声信号の第２の周波数サブバンドに前記複数の利得係数値のうちの第２の利得係数値を適用させる前記命令が、プロセッサによって実行されたとき、前記プロセッサに前記カスケードの第２のフィルタ段に前記利得係数値を適用させる命令を備える、請求項４４に記載のコンピュータ可読媒体。
前記媒体が、
プロセッサによって実行されたとき前記プロセッサに前記マルチチャネル感知オーディオ信号からエコーを消去させる命令
を備え、
プロセッサによって実行されたとき前記プロセッサにエコーを消去させる前記命令が、前記処理済み音声信号によってトレーニングされるように構成され、配置された、請求項３７に記載のコンピュータ可読媒体。
前記媒体が、
プロセッサによって実行されたとき、前記音声信号を得るために前記プロセッサに前記雑音基準からの情報に基づいて前記音源信号に対して雑音低減演算を実行させる命令と、
プロセッサによって実行されたとき、前記プロセッサに前記音源信号と前記音声信号との間の関係に基づいてボイスアクティビティ検出演算を実行させる命令と
を備え、
プロセッサによって実行されたとき前記プロセッサに処理済み音声信号を生成させる前記命令が、前記ボイスアクティビティ検出演算の結果に基づいて前記処理済み音声信号を生成するように構成された、請求項３７に記載のコンピュータ可読媒体。
音声信号を処理する方法であって、前記方法は、オーディオ信号を処理するように構成されたデバイス内で、
第１の平滑化信号を得るために前記音声信号のスペクトルを平滑化する行為と、
第２の平滑化信号を得るために前記第１の平滑化信号を平滑化する行為と、
前記第１の平滑化信号と前記第２の平滑化信号との比に基づくコントラスト強調音声信号を生成する行為と
の各々を実行することを備える、音声信号を処理する方法。
コントラスト強調音声信号を前記生成することが、前記音声信号の複数のサブバンドの各々について、前記第１の平滑化信号と前記第２の平滑化信号との前記比の対応するサブバンドからの情報に基づいて前記サブバンドの利得を制御することを備える、請求項４９に記載の音声信号を処理する方法。