JP2011508533A

JP2011508533A - マルチマイクロホンベースのスピーチ強調のためのシステム、方法、および装置

Info

Publication number: JP2011508533A
Application number: JP2010539833A
Authority: JP
Inventors: チャン、クワク−ルン; トマン、ジェレミー; ビッサー、エリック; パーク、ヒュン・ジン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-12-19
Filing date: 2008-12-18
Publication date: 2011-03-10
Anticipated expiration: 2028-12-18
Also published as: WO2009086017A1; KR20100105700A; CN101903948B; KR101172180B1; EP2229678A1; CN101903948A; TW200939210A; US8175291B2; JP5479364B2; US20090164212A1

Abstract

複数の空間分離フィルタの中の選択された１つによって生成される信号を出力することを含む、Ｍチャネル入力信号を処理するためのシステム、方法、および装置について説明する。ノイズの多い環境から音響信号を分離することへの適用例について説明し、マルチマイクロホンハンドヘルドデバイスに実装できる構成についても説明する。

Description

関連出願

米国特許法第１１９条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、参照により本明細書に明白に組み込まれる、２００７年１２月１９日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第６１／０１５，０８４号、２００７年１２月２６日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第６１／０１６，７９２号、２００８年６月３０日に出願された「SYSTEM AND METHOD FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT IN HANDSETS」と題する仮出願第６１／０７７，１４７号、２００８年７月９日に出願された「SYSTEMS, METHODS, AND APPARATUS FOR MULTI-MICROPHONE BASED SPEECH ENHANCEMENT」と題する仮出願第６１／０７９，３５９号の優先権を主張する。

本開示は、スピーチ処理に関する。

情報信号は、ノイズの避けられない環境で捕捉され得る。したがって、所望の情報ソースからの信号と１つまたは複数の干渉ソースからの信号とを含むいくつかのソース信号の重ね合わせおよび線形結合の中から情報信号を区別することが望ましい。そのような問題は、ボイス通信（たとえば、電話）のための様々な音響アプリケーションにおいて発生する可能性がある。

そのような混合から信号を分離する１つの手法は、混合環境の逆を近似する逆混合行列を作成することである。しかしながら、現実的な捕捉環境は、しばしば、時間遅延、マルチパス、反射、位相差、エコー、および／または残響などの影響を含む。そのような影響は、旧来の線形モデリング方法で問題を引き起こす可能性があり、周波数依存の可能性もあるソース信号の畳み込み混合を生成する。そのような混合から１つまたは複数の所望の信号を分離するための信号処理方法を開発することが望ましい。

人は、ボイス通信チャネルを使用して別の人と通信することを望むことがある。チャネルは、たとえば、モバイルワイヤレスハンドセットまたはヘッドセット、ウォーキートーキー、双方向無線、カーキットまたは他の通信デバイスによって提供される。人が話すと、通信デバイスのマクロホンがその人のボイスの音声を受信し、それを電子信号に変換する。マイクロホンはまた、様々なノイズソースからも音声信号を受信する可能性があり、したがって、電子信号はノイズ成分をも含む可能性がある。マイクロホンは人の口からある距離に位置し、環境は多数の制御不能なノイズソースを有する可能性があるので、ノイズ成分は信号の大きな成分となることがある。そのような大きなノイズは、不満足な通信経験および／または通信デバイスの非効率的な動作を引き起こす可能性がある。

音響環境はしばしばノイズが多いので、所望の情報信号を確実に検出し、これに反応することが困難になる。１つの特定の例では、ノイズの多い環境でスピーチ信号を生成し、スピーチ処理方法を使用して環境ノイズからスピーチ信号を分離する。ノイズは現実の状態ではほとんど常に存在するので、そのようなスピーチ信号処理は日常的な通信の多くの領域で重要である。ノイズは、当該のスピーチ信号を妨害するかまたは劣化させるすべての信号の組合せと定義できる。現実の世界は、単一点ノイズソースを含む複数のノイズソースにあふれており、これらは、しばしば複数の音声に入って残響を生じる。所望のスピーチ信号がバックグラウンドノイズから分離され、隔離されない限り、それを確実に効率的に利用することが困難になる可能性がある。バックグラウンドノイズは、一般的な環境によって生成される多数のノイズ信号、他の人々のバックグラウンドの会話によって生成される信号、ならびにそれらの信号の各々から生成される反射および残響を含む。通信がノイズの多い環境で行われる適用例では、所望のスピーチ信号をバックグラウンドノイズから分離することが望ましい。

バックグラウンドノイズ信号から所望の音声信号を分離するための既存の方法は、単純なフィルタ処理プロセスを含む。そのような方法は、音声信号のリアルタイム処理のためには十分に単純で高速である場合があるが、様々な音声環境に容易には適応できず、所望のスピーチ信号の大幅な劣化をもたらす可能性がある。たとえば、このプロセスは、所望のスピーチ信号の部分がノイズと分類され、除去されるように、過度に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。代替的に、このプロセスは、音楽または会話などのバックグラウンドノイズの部分が所望の信号と分類され、フィルタ処理済み出力スピーチ信号中に残されるように、不十分に包括的な、ノイズ特性についての予め定められた仮定のセットに従って成分を除去することができる。

ＰＤＡおよび携帯電話のようなハンドセットが選り抜きのモバイル音声通信デバイスとして急速に台頭しており、セルラーネットワークおよびインターネットへのモバイルアクセスのためのプラットフォームとして役立っている。以前は静かなオフィスまたは家庭環境のデスクトップコンピュータ、ラップトップコンピュータ、およびオフィス電話で実行されていた、ますます多くの機能が、車、道路、またはカフェのような日常的な状況で実行されている。この傾向は、ユーザが他の人々に囲まれる環境で、一般に人が集まる傾向のある場所で遭遇する種類のノイズ成分を伴って、かなりの量のボイス通信が行われていることを意味する。（たとえば、競合する話し手、音楽、バブル、空港のノイズを含む）この種のノイズの特性は、一般に非定常であり、ユーザ自身の周波数特性に近く、したがって、旧来の単一マイクロホンまたは固定ビームフォーミングタイプの方法を使用してそのようなノイズをモデル化することが難しい場合がある。そのようなノイズはまた、電話で会話しているユーザの気を散らしたり、いらいらさせたりする傾向がある。その上、多くの標準的な自動業務取引（たとえば、口座残高または株価の確認）はボイス音声認識ベースのデータ照会を使用しており、これらのシステムの精度は干渉ノイズによって著しく妨げられる可能性がある。したがって、たとえば、ノイズの多い環境でのハンドセットの使用をサポートするために、複数マイクロホンベースの高度な信号処理が望ましい。

一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法は、入力信号に第１の空間処理フィルタを適用することと、入力信号に第２の空間処理フィルタを適用することとを含む。ただし、Ｍは１よりも大きい整数である。本方法は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記１回目に判断することに応答して、出力信号として第１の空間処理済み信号に基づく信号を生成することとを含む。本方法は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記２回目に判断することに応答して、出力信号として第２の空間処理済み信号に基づく信号を生成することとを含む。本方法では、第１および第２の空間処理済み信号は、入力信号に基づく。

そのような方法の例についても説明する。１つのそのような例では、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法は、第１の空間フィルタ処理済み出力信号を生成するために入力信号に第１の空間処理フィルタを適用することと、第２の空間フィルタ処理済み出力信号を生成するために入力信号に第２の空間処理フィルタを適用することとを含む。ただし、Ｍは１よりも大きい整数である。本方法は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記１回目に判断することに応答して、出力信号として第１の空間処理済み信号を生成することとを含む。本方法は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、前記２回目に判断することに応答して、出力信号として第２の空間処理済み信号を生成することとを含む。

別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置は、入力信号に対して第１の空間処理演算を実行するための手段と、入力信号に対して第２の空間処理演算を実行するための手段とを含む。ただし、Ｍは１よりも大きい整数である。本装置は、１回目に、第１の空間処理演算を実行するための手段が第２の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、１回目に判断するための前記手段からの指示に応答して、出力信号として第１の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置は、１回目に続いて２回目に、第２の空間処理演算を実行するための手段が第１の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離し始めると判断するための手段と、２回目に判断するための前記手段からの指示に応答して、出力信号として第２の空間処理済み信号に基づく信号を生成するための手段とを含む。本装置では、第１および第２の空間処理済み信号は、入力信号に基づく。

別の一般的な構成によれば、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置は、入力信号をフィルタ処理するように構成された第１の空間処理フィルタと、入力信号をフィルタ処理するように構成された第２の空間処理フィルタとを含む。ただし、Ｍは１よりも大きい整数である。本装置は、１回目に、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器を含む。本装置は、１回目の指示に応答して、出力信号として第１の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールを含む。本装置では、状態推定器は、１回目に続いて２回目に、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めることを示すように構成され、遷移制御モジュールは、２回目の指示に応答して、出力信号として第２の空間処理済み信号に基づく信号を生成するように構成される。本装置では、第１および第２の空間処理済み信号は、入力信号に基づく。

別の一般的な構成によれば、プロセッサによって実行されると、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法をプロセッサに実行させる命令を備えるコンピュータ可読媒体は、プロセッサによって実行されると、入力信号に対して第１の空間処理演算をプロセッサに実行させる命令と、プロセッサによって実行されると、入力信号に対して第２の空間処理演算をプロセッサに実行させる命令とを含む。ただし、Ｍは１よりも大きい整数である。本媒体は、プロセッサによって実行されると、１回目に、第１の空間処理演算が第２の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、１回目の前記指示に応答して、出力信号として第１の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。本媒体は、プロセッサによって実行されると、１回目に続いて２回目に、第２の空間処理演算が第１の空間処理演算よりも良好にスピーチ成分とノイズ成分とを分離し始めることをプロセッサに指示させる命令と、プロセッサによって実行されると、２回目の前記指示に応答して、出力信号として第１の空間処理済み信号に基づく信号をプロセッサに生成させる命令とを含む。この例では、第１および第２の空間処理済み信号は、入力信号に基づく。

装置Ａ１００の実装形態を含むハンドセットＨ１００の動作構成を示す図。ハンドセットＨ１００の別の動作構成を示す図。ハンドセットＨ１００の可能な配向の範囲を示す図。図１Ａに示すハンドセットＨ１００の動作構成のための動作配向を示す図。図１Ａに示すハンドセットＨ１００の動作構成のための動作配向を示す図。図１Ｂに示すハンドセットＨ１００の動作構成のための動作配向を示す図。図１Ｂに示すハンドセットＨ１００の動作構成のための動作配向を示す図。ハンドセットＨ１００の３つの異なる配向状態に対応するエリアを示す図。ハンドセットＨ１００の発生源エリアの追加の例を示す図。ハンドセットＨ１００の発生源エリアの追加の例を示す図。ハンドセットＨ１００の発生源エリアの追加の例を示す図。ハンドセットＨ１００の実装形態Ｈ１１０を示す図。ハンドセットＨ１１０の２つの追加の図。一般的構成による装置Ａ２００のブロック図。ヘッドセット６３の２つの異なる配向状態を示す図。装置Ａ２００の２チャネルの実装形態Ａ２１０のブロック図。フィルタバンク１２０の２チャネルの実装形態１３０を含む装置Ａ２１０の実装形態Ａ２２０を示すブロック図。スイッチング機構３５０の実装形態３５２のブロック図。スイッチング機構３５２および３６０の実装形態３６２のブロック図。状態推定器４００の実装形態４０２を示す図。状態推定器４００の実装形態４０４を示す図。状態推定器４００の実装形態４０６を示す図。状態推定器４００の実装形態４０８を示す図。装置Ａ２２０の実装形態２２２のブロック図。状態推定器４１２の実装形態４１４の一例を示す図。装置Ａ２１０の実装形態Ａ２１４のブロック図。装置Ａ２２２の実装形態Ａ２２４のブロック図。装置Ａ２１０の実装形態Ａ２１６のブロック図。遷移制御モジュール５００の実装５２０のブロック図。遷移制御モジュール５００の実装５５０のブロック図。ミキサ７０ａ〜７０ｍのｊ番目の１つの実装７２ｊのブロック図。ミキサバンク７００の２チャネルの実装７１０のブロック図。装置Ａ２１０の実装形態Ａ２１８のブロック図。装置Ａ２２０の実装形態Ａ２２８のブロック図。装置Ａ２２８の実装形態Ａ２２９のブロック図。装置Ａ２１０の実装形態Ａ２１０Ａのブロック図。装置Ａ２２０の実装形態Ａ２２４Ａのブロック図。装置Ａ２２０の実装形態Ａ２３２のブロック図。装置Ａ２２０の実装形態Ａ２３４のブロック図。装置Ａ２２０の実装形態Ａ２３６のブロック図。推定状態Ｓ５０へのインジケータ関数値のマッピングを示す図。推定状態Ｓ５０へのインジケータ関数値の異なるマッピングを示す図。装置Ａ２００の実装形態Ａ３１０のブロック図。装置Ａ２００の実装形態Ａ３２０のブロック図。装置Ａ２００の実装形態Ａ３３０のブロック図。減衰方式の一例を示す図。装置Ａ２１０の実装形態Ａ２１０Ｂのブロック図。エコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図。エコーキャンセラＥＣ２０の実装形態ＥＣ２２のブロック図。設計および使用手順のフローチャート。方法Ｍ１０のフローチャート。トレーニングデータを記録するように構成された音響無響室の例を示す図。ハンズフリーカーキット８３の一例を示す図。図３７に示すカーキットの適用の一例を示す図。マイクロホンの線形アレイを有する書込み機器（たとえば、ペン）またはスタイラス７９の一例を示す図。設計段階で２点ソースノイズフィールドに置かれたハンドセットを示す図。１対のフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０のブロック図。直接フィルタＤ１１０およびＤ１２０を含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図。一般的構成による装置Ａ１００のブロック図。装置Ａ１００の実装形態Ａ１１０のブロック図。装置Ａ１００の実装形態Ａ１２０のブロック図。方法Ｍ１００のフローチャート。装置Ｆ１００のブロック図。装置Ａ１００またはＡ２００の実装形態を含む通信デバイスＣ１００のブロック図。

本開示は、ノイズの多い環境から音響信号を分離するためのシステム、方法、および装置に関する。そのような構成は、音響信号の混合から音響信号を分離することを含むことができる。分離動作は、固定のフィルタ処理ステージ（すなわち、固定の係数値で構成されたフィルタを有する処理ステージ）を使用して、音響信号の入力混合から所望の成分を隔離することによって実行できる。マルチマイクロホンハンドヘルド通信デバイスに実装できる構成についても説明する。そのような構成は、通信デバイスが遭遇する、干渉ソース、音響エコー、および／または空間分布バックグラウンドノイズを備える可能性があるノイズ環境に対処するのに好適である場合がある。

本開示は、１つまたは複数のブラインドソース分離（ＢＳＳ）、ビームフォーミング、および／またはＢＳＳ／ビームフォーミングの方法の組合せを使用して、通信デバイスのマイクロホンアレイを使用して記録されるトレーニングデータを処理することによって、フィルタ係数値の１つのセット（またはフィルタ係数値の複数のセット）を生成するためのシステム、方法、および装置についても説明する。トレーニングデータは、アレイに対する様々なユーザおよびノイズソースの位置、ならびに（たとえば、通信デバイスの１つまたは複数のスピーカからの）音響エコーに基づくことができる。次いで、上述のように分離すべき音響信号の入力混合を得るために、このマイクロホンアレイまたは同じ構成を有する別のマイクロホンアレイを使用することができる。

本開示は、生成されたフィルタ係数値の１つまたは複数のセットが固定のフィルタ処理ステージ（または「フィルタバンク」）に提供されるシステム、方法、および装置についても説明する。そのような構成は、固定のフィルタ処理ステージで生成されたフィルタ係数値のセットの中（および場合によっては後続の処理ステージのための他のパラメータセットの中）から、ユーザに対する通信デバイスの現在特定されている配向に基づいて選択するスイッチング動作を含むことができる。

本開示は、別の分離された信号を生成するために、上述のように固定のフィルタ処理ステージの出力に基づいて空間処理された（または「分離された」）信号が、適応（または部分適応）ＢＳＳ、ビームフォーミング、またはＢＳＳ／ビームフォーミングを組み合わせたフィルタ処理ステージを使用してフィルタ処理されるシステム、方法、および装置についても説明する。これらの分離された信号の各々は、出力チャネルの少なくとも１つが分布バックグラウンドノイズと所望の信号とを含み、他の出力チャネルの少なくとも１つが干渉ソース信号と分布バックグラウンドノイズとを含むように、２つ以上の出力チャネルを含むことができる。本開示は、所望の信号を搬送している出力チャネル中のノイズを、別の出力チャネルによって提供されるノイズ基準に基づいて低減する、後処理ステージ（たとえば、ノイズ低減フィルタ）を含むシステム、方法および装置についても説明する。

本開示は、スイッチング動作による１つまたは複数の分離またはノイズ低減段のための、パラメータのチューニング、初期条件およびフィルタセットの選択、エコー除去、および／または固定のフィルタ係数値のセット間の遷移処理を含むために実装できる構成についても説明する。システムパラメータのチューニングは、全体的なノイズ低減およびエコー消去パフォーマンスを最適化するために、ベースバンドチップまたはチップセットの性質および設定、および／またはネットワーク効果に依存することができる。

文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置（またはメモリ位置のセット）の状態を含む、その通常の意味のいずれをも表すのに使用される。文脈によって明確に限定されない限り、「発生（generating）」という用語は、本明細書では、計算（computing）または別様の生成（producing）など、その通常の意味のいずれをも表すのに使用される。文脈によって特に制限されない限り、「計算」という用語は、本明細書で、値のセットから計算すること、評価すること、および／または選択することなど、その通常の意味のすべてを示すのに使用される。文脈によって明確に限定されない限り、「得る」という用語は、計算、導出、（たとえば、外部デバイスからの）受信、および／または（たとえば、記憶要素のアレイからの）検索など、その通常の意味のいずれをも表すのに使用される。「備える」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外するものではない。「に基づく」（「ＡはＢに基づく」など）という用語は、（ｉ）「少なくとも〜に基づく」（たとえば、「Ａは少なくともＢに基づく」）、および特定の文脈で適当な場合に、（ｉｉ）「と等しい」（たとえば、「ＡはＢと等しい」）というケースを含む、その通常の意味のすべてを意味するのに使用される。同様に、「〜に応答して」という用語は、「少なくとも〜に応答して」を含むその通常の意味のすべてを意味するのに使用される。

別段の指示がない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する（その逆も同様）ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する（その逆も同様）ことをも明確に意図する。「構成」という用語は、その特定のコンテキストによって示されるように、方法、装置、またはシステムに関して使用できる。「方法」、「プロセス」、「手順」、および「技法」という用語は、特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、また特定の文脈による別段の指示がない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、より大きい構成の一部を示すのに一般的に使用される。文書の一部の参照によるいかなる組込みも、そのような定義が文書中の他の場所、ならびに組み込まれた部分で参照される図に現れた場合、その部分内で言及された用語または変数の定義を組み込んでいることをも理解されたい。

２つ以上のマイクロホンを有する携帯ボイス通信用のデバイスを製造することが望ましい。複数のマイクロホンによって捕捉された信号を使用して、空間処理演算をサポートすることができ、その空間処理演算を使用して、より大きいノイズ除去などの知覚品質の向上を可能にすることができる。そのようなデバイスの例は、電話機ハンドセット（たとえば、携帯電話機ハンドセット）および有線またはワイヤレスヘッドセット（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ヘッドセット）を含む。

図１Ａに、第１の動作構成における２マイクロホンハンドセットＨ１００（たとえば、クラムシェルタイプセルラー電話ハンドセット）を示す。ハンドセットＨ１００は第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０とを含む。この例では、ハンドセットＨ１００はまた第１のスピーカＳＰ１０と第２のスピーカＳＰ２０とを含む。

ハンドセットＨ１００が第１の動作構成にあるとき、第１のスピーカＳＰ１０はアクティブであり、第２のスピーカＳＰ２０は使用不能にされるか、さもなければ無音にされる。この構成では、スピーチ強調および／またはノイズ低減のための空間処理技法をサポートするために、第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０の両方がアクティブのままであることが望ましい。図２に、この動作構成の可能な配向の範囲内にある２つを示す。配向のこの範囲内で、第１のスピーカＳＰ１０がユーザの耳に近く、第１のマイクロホンＭＣ１０がユーザの口に近くなるように、ハンドセットＨ１００はユーザの頭部に保持される。図２に示すように、第１のマイクロホンＭＣ１０とユーザ口との間の距離は変化する。図２はまた、指向性および／または拡散性の遠端信号およびノイズに応答して第１のスピーカＳＰ１０によって生成される、エコーなどの生じうる干渉音声信号を示す。図３Ａおよび図３Ｂに、（たとえば、スピーカホンまたはプッシュツートークモードにおける）ユーザがハンドセットＨ１００のこの動作構成を使用することができる２つの他の可能な配向を示す。ハンドセットＨ１００のそのような動作構成においてスピーカホンまたはプッシュツートークモードがアクティブであるとき、第２のスピーカＳＰ２０はアクティブであり、場合によっては第１のスピーカＳＰ１０は使用不能にされるか、さもなければ無音にされることが望ましい。

図１Ｂに、ハンドセットＨ１００の第２の動作構成を示す。この構成では、第１のマイクロホンＭＣ１０はふさがれ、第２のスピーカＳＰ２０はアクティブであり、第１のスピーカＳＰ１０は使用不能にされるか、さもなければ無音にされる。この場合も、この構成では、（空間処理技法をサポートするために）第１のマイクロホンＭＣ１０と第２のマイクロホンＭＣ２０の両方がアクティブであることが望ましい。図４Ａおよび図４Ｂに、ユーザがハンドセットＨ１００のこの動作構成を使用することができる２つの異なる可能な動作配向を示す。ハンドセットＨ１００は、その（１つまたは複数の）状態がデバイスの現在の動作構成を示す１つまたは複数のスイッチを含むことができる。

上記の図に示すように、セルラー電話ハンドセットは、デバイスのマイクロホンとユーザの口との間の異なる空間関係にそれぞれ関連する様々な異なる可能な位置での使用をサポートすることができる。たとえば、ハンドセットＨ１００は、図２に示す従来の電話動作モードよりも広い範囲の位置変化を必要とすることが予想される、全二重スピーカホンモードおよび／または半二重プッシュツートーク（ＰＴＴ）モードなどの機能をサポートすることが望ましい。これらの位置変化に応答して空間処理フィルタを適合させるという問題は、複雑すぎて、フィルタ収束をリアルタイムで得ることができないことがある。さらに、時間がたつにつれていくつかの異なる方向から到着するスピーチ信号とノイズ信号とを適切に分離するという問題は、複雑すぎて、単一の空間処理フィルタが解決することができないことがある。そのようなハンドセットは、２つ以上の空間処理フィルタを有するフィルタバンクを含むことが望ましい。そのような場合、ハンドセットは、所望の音源（たとえば、ユーザの口）に対するデバイスの現在の配向に従ってこのバンクから空間処理フィルタを選択することが望ましい。

図５に、所望の音源（たとえば、ユーザの口）に対するハンドセットＨ１００の３つの異なる配向状態に対応するエリアを示す。所望のサウンド（たとえば、ユーザの声）がエリアＡ１の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアＡ１に対して指向性であり、他の方向から来るサウンドを減衰させる傾向があるフィルタを使用することが望ましい。同様に、所望のサウンド（たとえば、ユーザの声）がエリアＡ２の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、エリアＡ２に対して指向性であり、他の方向から来るサウンドを減衰させる傾向がある異なるフィルタを使用することが望ましい。同様に、所望のサウンド（たとえば、ユーザの声）がエリアＡ３の方向から届くようにハンドセットを所望のソースに対して配向したとき、ハンドセットは、最初の２つのフィルタのいずれをも使用しないことが望ましい。たとえば、そのような場合、ハンドセットは第３のフィルタを使用することが望ましい。代替的に、そのような場合、ただ１つのマイクロホン（たとえば、第１のマイクロホンＭＣ１０）がアクティブになるように、または現在アクティブなマイクロホンがシングルチャネルにミックスダウンされるように、ハンドセットは、シングルチャネルモードに入るか、場合によっては空間処理演算を中断することが望ましい。

図５に示すエリア境界は、視覚的な説明のためのものにすぎず、様々な配向状態に関連するエリア間の実際の境界を示すものではないことに留意されたい。図６Ａ〜図６Ｃに、１つの空間分離フィルタが別の空間分離フィルタよりも良好に動作することが予想される発生源エリアの３つのさらなる例を示す。これらの３つの図は、フィルタのうちの２つ以上が、ハンドセットからある距離だけ離れているソースに対して等しく良好に動作することを示す（そのような配向は「遠距離シナリオ」とも呼ばれる）。この距離は、主に、デバイスのマイクロホン間の距離（一般にハンドセットに対して１．５〜４．５センチメートルであり、ヘッドセットに対してさらに短くなることもある）に依存する。図６Ｃに、２つのエリアが重複しており、したがって２つの対応するフィルタが、重複エリア中に配置された所望のソースに対して等しく良好に動作することが予想される一例を示す。

通信デバイス（たとえば、ハンドセットＨ１００）のマイクロホンの各々は、全方向性、双方向性、または単方向性である（たとえば、カージオイドの）応答を有することができる。使用できる様々なタイプのマイクロホンは、圧電型マイクロホン、ダイナミックマイクロホン、およびエレクトレットマイクロホンを含む。そのようなデバイスは、３つ以上のマイクロホンを有するように実装することもできる。たとえば、図７Ａに、第３のマイクロホンＭＣ３０を含むハンドセットＨ１００の実装形態Ｈ１１０を示す。図７Ｂに、デバイスの軸線に沿った様々なトランスデューサの配置を示すハンドセットＨ１１０の２つの他の図を示す。

図８に、本明細書で開示するハンドセットＨ１００またはＨ１１０などの通信デバイス内に実装できる一般的構成による装置Ａ２００のブロック図を示す。装置Ａ２００は、Ｍチャネル入力信号Ｓ１０を受信するように構成されたフィルタバンク１００を含み、ただし、Ｍは１よりも大きい整数であり、Ｍチャネルの各々は、Ｍ個のマイクロホン（たとえば、ハンドセットＨ１００またはＨ１１０のマイクロホン）のうちの対応する１つのマイクロホンの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、８ｋＨｚから１６ｋＨｚの範囲にわたる。

フィルタバンク１００はｎ個の空間分離フィルタＦ１０−１〜Ｆ１０−ｎを含み（ただし、ｎは１よりも大きい整数）、それらの空間分離フィルタの各々は、Ｍチャネル入力信号Ｓ４０をフィルタ処理して、対応する空間処理済みのＭチャネル信号を生成するように構成される。空間分離フィルタＦ１０−１〜Ｆ１０−ｎの各々は、１つまたは複数の指向性干渉ソースおよび／または拡散ノイズ成分など、信号の１つまたは複数の他の成分からＭチャネル入力信号の１つまたは複数の指向性所望音声成分を分離するように構成される。図８の例では、フィルタＦ１０−１は、フィルタ処理済みチャネルＳ２０１１〜Ｓ２０ｍ１を含むＭチャネル信号を生成し、フィルタＦ１０−２は、フィルタ処理済みチャネルＳ２０１２〜Ｓ２０ｍ２を含むＭチャネル信号を生成し、以下同様である。フィルタＦ１０−１〜Ｆ１０−ｎの各々は係数値の１つまたは複数の行列によって特徴づけられ、係数値の行列は、ＢＳＳ、ビームフォーミング、またはＢＳ／ビームフォーミングの方法（たとえば、ＩＣＡまたはＩＶＡ方法、または本明細書で説明するその変形体）の組合せを使用して計算することができ、また本明細書で説明するようにトレーニングすることもできる。場合によっては、係数値の行列は係数値のベクトルのみ（すなわち、１次元の行列）とすることができる。装置Ａ２００はまた、各々フィルタＦ１０−１〜Ｆ１０−ｎからＭチャネルフィルタ処理済み信号を受信し、これらのフィルタのうちのどれが１つまたは複数の他の成分から入力信号Ｓ１０の少なくとも１つの所望の成分を現在最も良く分離するかを判断し、Ｍチャネル出力信号Ｓ４０を生成するように構成されたスイッチング機構３５０を含む。

Ｍ個のマイクロホンを有するように実装されたイヤホンまたは他のヘッドセットは、異なる動作構成を有し、装置Ａ２００の実装形態を含むことができる別種のポータブル通信デバイスである。そのようなヘッドセットは有線またはワイヤレスとすることができる。たとえば、ワイヤレスヘッドセットは、（たとえば、ワシントン州Ｂｅｌｌｅｖｕｅ、ＢｌｕｅｔｏｏｔｈＳｐｅｃｉａｌＩｎｔｅｒｅｓｔＧｒｏｕｐ社によって公表されたＢｌｕｅｔｏｏｔｈプロトコルのバージョンを使用して）セルラー電話ハンドセットなどの電話デバイスとの通信を介した半二重または全二重電話通信をサポートするように構成できる。図９に、ユーザの耳６５に使用するために取り付けられるそのようなヘッドセット６３の異なる動作構成の範囲６６の図を示す。ヘッドセット６３は、使用中にユーザの口６４に対して異なって配向できる第１の（たとえば、縦形）マイクロホンと第２の（たとえば、直角）マイクロホンとのアレイ６７を含む。

説明が過度に複雑になることを避けるために、開示する構成の一部の機能は、本明細書では装置Ａ２００の２チャネルおよび／または２フィルタの実装形態に関して説明しているが、そのような実装形態に関して説明するどんな機能もＭチャネルおよび／またはｎフィルタの実装形態に一般化でき、そのような一般化は明確に企図され、開示されることを理解されたい。

図１０に、装置Ａ２００の２チャネル（たとえば、ステレオ）の実装形態Ａ２１０のブロック図を示す。装置Ａ２１０は、ｎ個の空間分離フィルタＦ１４−１〜Ｆ１４−ｎを含むフィルタバンク１００の実装形態１２０を含む。これらの空間分離フィルタの各々は、２つの入力チャネルＳ１０−１およびＳ１０−２をフィルタ処理して、２つのフィルタ処理済みチャネル（たとえば、スピーチチャネルおよびノイズチャネル）上で対応する空間処理済み信号を生成するように構成されたフィルタＦ１０−１〜Ｆ１０−ｎのうちの１つに対応する２チャネルの実装形態である。フィルタＦ１４−１〜Ｆ１４−ｎの各々は、信号の１つまたは複数のノイズ成分から入力信号Ｓ１０の指向性所望音声成分を分離するように構成される。図１０の例では、フィルタＦ１４−１はスピーチチャネルＳ２０１１とノイズチャネルＳ２０２１とを含む２チャネル信号を生成し、フィルタＦ１４−２はスピーチチャネルＳ２０１２とノイズチャネルＳ２０２２とを含む２チャネル信号を生成し、以下同様である。装置Ａ２１０はまた、フィルタＦ１４−１〜Ｆ１４−ｎの各々から２つのフィルタ処理済みチャネルを受信し、これらのフィルタのうちどれが入力信号Ｓ１０の所望の成分とノイズ成分を現在最も良く分離するかを判断し、２つの出力チャネルＳ４０−１およびＳ４０−２の選択されたセットを生成するように構成されたスイッチング機構３５０の実装形態３６０を含む。

図１１に、フィルタバンク１２０の２フィルタの実装形態１３０を含む装置Ａ２１０の特定の実装形態Ａ２２０を示すブロック図を示す。フィルタＦ１４−１およびＦ１４−２は、本明細書で説明するように調整するおよび／または設計することができる。フィルタバンク１３０はまた、フィルタＦ１４−１およびＦ１４−２が、互いに実質的に同じであるが、順序が異なる係数値を有するように実装できる。（この文脈では、「実質的に」という用語は、１パーセント、５パーセント、または１０パーセント内までの誤差を表す。）１つのそのような例では、フィルタＦ１４−１およびＦ１４−２は、互いに実質的に同じであるが、順序が異なる係数値を有する。（特定の例では、フィルタＦ１４−１はｖ係数値ａ_１〜ａ_ｖのベクトルを有し、フィルタＦ１４−２は逆順ａ_ｖ〜ａ_１で実質的に同じ値のｖ成分ベクトルを有する。）別のそのような例では、フィルタＦ１４−１は係数値Ａ_１〜Ａ_ｖのｖ列の行列を有し（各列は、入力チャネルの各々に対するフィルタ処理操作を表す）、フィルタＦ１４−２は、異なる順序の実質的に同じ列を有するｖ列の行列を有する。（特定の例では、フィルタＦ１４−１の係数値の行列は、フィルタＦ１４−２の係数値の行列を得るために中央垂直軸に関して反転される）。そのような場合、フィルタＦ１４−１およびＦ１４−２は異なる（たとえば、ほぼ相補的な）空間分離性能を有することが予想される。たとえば、１つのフィルタは、所望の音源が図５のＡ１エリアなどのエリア中にあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができ、他のフィルタは、所望の音源が図５のエリアＡ２などの反対側エリア中のあるとき、対応するスピーチチャネルへの所望の音声のより良好な分離を実施することができる。代替的に、フィルタバンク１３０は、フィルタＦ１４−１とＦ１４−２が構造的に類似し、フィルタＦ１４−２の係数値の各々が、フィルタＦ１４−１の対応する係数値の加法逆元に実質的に等しくなる（すなわち、１パーセント、５パーセント、または１０パーセント内までの誤差で、大きさが同じで方向が反対になる）ように実装できる。

ハンドセットまたはヘッドセットの典型的な使用は、ただ１つの所望の音源、すなわちユーザの口を必要とする。そのような場合、２チャネル空間分離フィルタのみを含むフィルタバンク１２０の実装形態の使用が適切である。オーディオおよび／またはテレビ会議のために通信デバイス中に装置Ａ２００の実装形態を含めることも明確に企図され、開示される。オーディオおよび／またはテレビ会議用のデバイスでは、デバイスの典型的な使用は、複数の所望の音源（たとえば、様々な参加者の口）を必要とする。そのような場合、Ｒチャネル空間分離フィルタ（ただし、Ｒは２よりも大きい）を含むフィルタバンク１００の実装形態の使用がより適切であることがある。一般に、フィルタバンク１００の空間分離フィルタは、各指向性音源用の少なくとも１つのチャネルと拡散ノイズ用の１つのチャネルとを有することが望ましい。場合によっては、任意の指向性干渉ソースの各々に追加のチャネルを与えることが望ましい。

図１２に、状態推定器４００と遷移制御モジュール５００とを含むスイッチング機構３５０の実装形態３５２のブロック図を示す。状態推定器４００からの推定配向状態指示（または「推定状態」）Ｓ５０に応答して、遷移制御モジュール５００は、フィルタ処理済みチャネルＳ２０１１−Ｓ２０ｍ１〜Ｓ２０１ｎ−Ｓ２０ｍｎのｎ個のセットの中から選択して、Ｍ個の出力チャネルＳ４０−１〜Ｓ４０−ｍのセットを生成するように構成される。図１３に、状態推定器４００の実装形態４０１と遷移制御モジュール５００の実装形態５０１とを含み、Ｍの値が２に等しい、スイッチング機構３５２の特定の実装形態３６２のブロック図を示す。

状態推定器４００は、１つまたは複数の入力チャネルＳ１０−１〜Ｓ１０−ｍ、１つまたは複数のフィルタ処理済みチャネルＳ２０１１−Ｓ２０ｍｎ、あるいは入力およびフィルタ処理済みチャネルの組合せに基づいて推定状態指示Ｓ５０を計算するように実装できる。図１４Ａに、ｎ個のスピーチチャネルＳ２０１１−Ｓ２０１ｎとｎ個のノイズチャネルＳ２０２ａ−Ｓ２０２ｎとを受信するように構成された状態推定器４０１の実装形態４０２を示す。一例では、状態推定器４０２は、１≦ｉ≦ｎに対して式ｍａｘ［Ｅ（Ｓ_ｉ）−Ｅ（Ｎ_ｉ）］に従って推定状態指示Ｓ５０を計算するように構成される。ここで、Ｅ（Ｓ_ｉ）はスピーチチャネルＳ２０１ｉのエネルギーを示し、Ｅ（Ｎ_ｉ）はノイズチャネルＳ２０２ｉのエネルギーを示す。別の例では、状態推定器４０２は、式ｍａｘ［Ｅ（Ｓ_ｉ）−Ｅ（Ｎ_ｉ）＋Ｃ_ｉ］に従って推定状態指示Ｓ５０を計算するように構成される。ここで、Ｃ_ｉはフィルタＦ１０−ｉに関連する選好定数を示す。通信デバイスの動作構成および／または動作モードの変化に応答して、選好定数Ｃ_ｉのうちの１つまたは複数の各々に異なる値を割り当てるように状態推定器４００を構成することが望ましい。

状態推定器４０２は、対応するチャネルによって搬送される信号の連続するサンプルのブロック（「フレーム」とも呼ばれる）の２乗サンプル値の合計としてエネルギー値Ｅ（Ｓ_ｉ）およびＥ（Ｎ_ｉ）の各実例を計算するように構成できる。典型的なフレーム長は、約５または１０ミリ秒から約４０または５０ミリ秒にわたり、フレームは重複していても重複していなくてもよい。１つの操作によって処理されるフレームは、異なる操作によって処理されるより大きいフレームのセグメント（すなわち、「サブフレーム」）とすることもできる。１つの特定の例では、フィルタ処理済みチャネルＳ２０１１〜Ｓ２０２ｎによって搬送される信号は、１０ミリ秒の重複しないフレームのシーケンスに分割され、状態推定器４０２は、フィルタ処理済みチャネルＳ２０１１およびＳ２０１２の各々の各フレームのエネルギー値Ｅ（Ｓ_ｉ）の実例を計算し、フィルタ処理済みチャネルＳ２０２１およびＳ２０２２の各々の各フレームのエネルギー値Ｅ（Ｎ_ｉ）の実例を計算するように構成される。状態推定器４０２の別の例は、１≦ｉ≦ｎに対して式ｍｉｎ（ｃｏｒｒ（Ｓ_ｉ，Ｎ_ｉ））（またはｍｉｎ（ｃｏｒｒ（Ｓ_ｉ，Ｎ_ｉ））＋Ｃ_ｉ）に従って推定状態指示Ｓ５０を計算するように構成される。ここで、ｃｏｒｒ（Ａ，Ｂ）はＡとＢの相関を示す。この場合、相関の各実例は、上述のように対応するフレームにわたって計算できる。

図１４Ｂに、ｎ個の入力チャネルＳ１０−１−Ｓ１０−ｍとｎ個のノイズチャネルＳ２０２１−Ｓ２０２ｎとを受信するように構成された状態推定器４０１の実装形態４０４を示す。一例では、状態推定器４０４は、１≦ｉ≦ｎおよび１≦ｊ≦ｎに対して式ｍａｘ［Ｅ（Ｉ_ｊ）−Ｅ（Ｎ_ｉ）］（またはｍａｘ［Ｅ（Ｉ_ｊ）−Ｅ（Ｎ_ｉ）＋Ｃ_ｉ］）に従って推定状態指示Ｓ５０を計算するように構成され、ただし、Ｅ（Ｉ_ｊ）は入力チャネルＳ１０−ｊのエネルギーを示す。別の例では、状態推定器４０４は、１≦ｉ≦ｎに対して式ｍａｘ［Ｅ（Ｉ）−Ｅ（Ｎ_ｉ）］（またはｍａｘ［Ｅ（Ｉ）−Ｅ（Ｎ_ｉ）＋Ｃ_ｉ］）に従って推定状態指示Ｓ５０を計算するように構成される。ここで、Ｅ（Ｉ）は、入力チャネルＳ１０−１〜Ｓ１０−ｍのうちから選択された１つのＩのエネルギーを示す。この場合、チャネルＩは、所望のスピーチ信号を搬送する可能性がある入力チャネルである。チャネルＩは、デバイス内の対応するマイクロホンの物理的位置に基づいて選択できる。代替的に、チャネルＩは、入力チャネルの２つ以上（場合によってはすべて）の信号対雑音比の比較に基づいて選択できる。

図１４Ｃに、ｎ個のスピーチチャネルＳ２０１１−Ｓ２０１ｎを受信するように構成された状態推定器４０１の実装形態４０６を示す。状態推定器４０６は、スピーチ測定（たとえば、スピーチ特性の測定）の最高値を有するスピーチチャネルに対応する状態を選択するように構成される。一例では、状態推定器４０６は、スピーチチャネルＳ２０１１−Ｓ２０１ｎの相対自己相関特性に基づいて推定状態指示Ｓ５０を計算するように構成される。この場合、予想される人間のピッチ遅延値の範囲内で自己相関ピークを有する信号を現在搬送しているチャネルが、ゼロ遅延のみにおいて自己相関ピークを有する信号を現在搬送しているチャネルよりも好ましいことがある。別の例では、状態推定器４０６は、スピーチチャネルＳ２０１１−Ｓ２０１ｎの相対尖度（kurtosis）（すなわち、４次モーメント）特性に基づいて推定状態指示Ｓ５０を計算するように構成される。この場合、より高い尖度を有する（すなわち、より非ガウシアンである）信号を現在搬送しているチャネルは、より低い尖度を有する（すなわち、よりガウシアンである）信号を現在搬送しているチャネルよりも好ましいことがある。

図１４Ｄに、ｎ個の入力チャネルＳ１０−１−Ｓ１０−ｍを受信するように構成された状態推定器４０１の実装形態４０８を示す。この場合、フィルタセットＦ１０−１からＦ１０−ｎの各々は、到達時間差（ＴＤＯＡ）値の異なる範囲に関連する。状態推定器４０８は、（たとえば、入力チャネル、入力／出力相関、および／または相対遅延入力の和と差の相関に基づく方法を使用して）入力チャネル間のＴＤＯＡを推定し、関連するフィルタセットに対応する状態を選択するように構成される。入力信号の和と差の測定に基づいて遅延推定値を計算する前に入力チャネルの低域フィルタリングを実施することは、そのようなフィルタリングが遅延推定値を調整し、および／または安定化させるのに役立つので、望ましい。状態推定器４０８は、マイクロホン利得の正確な較正にあまり依存せず、および／または状態推定器４００の他の実装形態よりも較正誤差に対してロバストにすることができる。

状態推定器４００の入力パラメータ値を平滑化し、その後（たとえば、上述のように）それらの入力パラメータ値を使用して推定状態計算を実施するように状態推定器４００を構成することが望ましい。１つの特定の例では、状態推定器４０２は、スピーチチャネルＳ２０１１−Ｓ２０１ｎおよびノイズチャネルＳ２０２１−Ｓ２０２ｎの各々のエネルギーを計算し、次いで［Ｅ_ｃ＝αＥ_ｐ＋（１−α）Ｅ_ｎ］などの第１の式に従ってこれらのエネルギーを平滑化するように構成され、ただし、Ｅ_ｃは現在の平滑化されたエネルギー値を示し、Ｅ_ｐは前の平滑化されたエネルギー値を示し、Ｅ_ｎは現在の計算されたエネルギー値を示し、αは平滑化係数を示し、この値は、０（平滑化なし）と、０．９（最大平滑化）などの１未満の値との間で固定または適応型とすることができる。この例では、そのような平滑化を、計算されたエネルギー値に適用して、値Ｅ（Ｓ_ｉ）およびＥ（Ｎ_ｉ）を得る。他の例では、そのような線形平滑化（および／または非線形平滑化操作）を、図１４Ａ〜図１４Ｄを参照しながら説明したように計算されたエネルギー値に適用して、値Ｅ（Ｓ_ｉ）、Ｅ（Ｎ_ｉ）、Ｅ（Ｉ）、およびＥ（Ｉ_ｊ）のうちの１つまたは複数を得る。代替および／または追加として、状態推定器４００に供給される（たとえば、スピーチ、ノイズ、および／または入力チャネル上で搬送される）信号のうちの任意の１つまたは複数を選択および／または事前調整することは、そのような前処理が大きい干渉ソースの存在下で誤った状態推定を避けるのに役立つので、望ましい。

図１５に、（Ａ）２つのフィルタからのチャネルを処理するように構成された状態推定器４０２の実装形態４１２と、（Ｂ）遷移制御モジュール５０１の対応する実装形態５１０とを有するスイッチング機構３７０の実装形態３７２を含む装置Ａ２２０の実装形態Ａ２２２の一例を示す。図１６に、状態推定器４１２の実装形態４１４の一例を示す。この例では、分離測定計算器５５０ａは信号Ｓ２０１１とＳ２０２１との間のエネルギー差を計算し、分離測定計算器５５０ｂは信号Ｓ２０１２とＳ２０２２との間のエネルギー差を計算し、コンパレータ５６０は、それらの結果を比較して、チャネル間の最大分離（たとえば、最大エネルギー差）を作り出すフィルタに対応する配向状態を指示する。それぞれのエネルギー差を計算する際、分離測定計算器５５０ａと５５０ｂのいずれの一方（または両方）は、上述したＥ_ｃ＝αＥ_ｐ＋（１−α）Ｅ_ｎなどの式に従って時間とともに計算された差を平滑化するように構成できる。コンパレータ５６０はまた、比較する前に上述の対応するフィルタ選好定数をエネルギー差の一方または両方に加算するように構成できる。これらの原理は、（たとえば、２よりも大きいＭの値に対して）状態推定器４０２の他の実装形態に拡張し、状態推定器４０４および４０６を類似の方法で実装することができる。また、状態推定器４００は、実装形態４０２、４０４、４０６、および４０８を参照しながら説明した技術のうちの２つ以上の組合せに基づいて推定状態Ｓ５０を生成するように構成できることに留意されたい。

入力チャネルが所望のスピーチ成分を含まない間隔中に（たとえば、ノイズのみ間隔中に）フィルタ出力の間のスイッチングを抑止または不能にすることが望ましい。たとえば、所望の音声成分がアクティブであるときのみ、状態推定器４００が推定配向状態を更新することが望ましい。状態推定器４００のそのような実装形態は、通信デバイスのユーザが話していない間隔中ではなく、スピーチ間隔中にのみ推定配向状態を更新するように構成できる。

図１７に、ボイスアクティビティ検出器（または「ＶＡＤ」）２０とスイッチング機構３６０の実装形態３６４とを含む装置Ａ２１０の実装形態Ａ２１４を示す。ボイスアクティビティ検出器２０は、スピーチアクティビティが入力チャネルＳ１０−１（たとえば、第１のマイクロホンＭＣ１０に対応するチャネル）上で検出されたかどうかをその状態によって指示する更新制御信号Ｓ７０を生成するように構成され、スイッチング機構３６４は、更新制御信号Ｓ７０の状態に従って制御される。スイッチング機構３６４は、スピーチが検出されない間隔（たとえば、フレーム）中に推定状態Ｓ５０の更新を抑止するように構成できる。

ボイスアクティビティ検出器２０は、フレームエネルギー、信号対雑音比（ＳＮＲ）、周期性、ゼロ交差レート、スピーチおよび／または残差の自己相関、ならびに第１の反射係数など、１つまたは複数のファクタに基づいてその入力信号のフレームをスピーチまたはノイズとして分類する（たとえば、２値ボイス検出指示信号の状態を制御する）ように構成できる。そのような分類は、そのようなファクタの値または大きさとしきい値の比較、および／またはそのようなレートの変化の大きさとしきい値の比較を含むことができる。代替または追加として、そのような分類は、１つの周波数帯域におけるエネルギーなどのそのようなファクタの値もしくは大きさまたはそのようなファクタの変化の大きさと、別の周波数帯域における同様の値との比較を含むことができる。ボイスアクティビティ検出器２０は、一般に、更新制御信号Ｓ７０をバイナリ値ボイス検出指示信号として生成するように構成されるが、連続および／または多値信号を生成する構成も可能である。

図１８に、ＶＡＤ２０とスイッチング機構３７２の実装形態３７４とを含む装置２２０の実装形態Ａ２２４のブロック図を示す。この例では、更新制御信号Ｓ７０は、入力チャネルＳ１０−１上にスピーチアクティビティが検出されたかどうかに従って状態推定器４１２の実装形態４１６を制御する（たとえば、推定状態Ｓ５０の値が変化することを可能または不能にする）ように構成される。図１９に、ＶＡＤ２０の実例２０−１および２０−２を含む装置Ａ２１０の実装形態Ａ２１６を示し、これらの実例は同じとすることができるが、同じでなくてもよい。装置Ａ２１６の場合、スイッチング機構３６０の実装形態３６６の状態推定器は、スピーチアクティビティがいずれかの入力チャネル上で検出された場合は使用可能にされ、他の場合は使用不能にされる。

通信デバイスとユーザの口との間の距離が増大するにつれて、スピーチフレームを非スピーチフレームと区別するＶＡＤ２０の能力が（たとえば、ＳＮＲの減少により）低下することがある。しかしながら、上記のように、スピーチ間隔中にのみ推定配向状態を更新するように状態推定器４００を制御することが望ましい。したがって、（たとえば、遠距離シナリオにおいて所望のスピーカ検出アクティビティを改善するために）高度な信頼性を有するシングルチャネルＶＡＤを使用してＶＡＤ２０（またはＶＡＤ２０−１と２０−２の一方または両方）を実装することが望ましい。たとえば、そのような検出器は、複数の基準（たとえば、エネルギー、ゼロ交差レートなど）および／または最近のＶＡＤ判定のメモリに基づいてボイスアクティビティ検出を実施するように実装することが望ましい。装置Ａ２１２の別の実装では、ＶＡＤ２０の実例２０−１および２０−２の代わりに、上記のようにバイナリ値とすることができる）更新制御信号を生成するデュアルチャネルＶＡＤを使用する。

状態推定器４００は、通信デバイスの現在の配向状態を推定するための２つ以上の機能を使用するように構成できる。たとえば、状態推定器４００は、図１４Ａ〜図１４Ｄを参照しながら上述した基準のうち２つまたはそれ以上の組合せを使用するように構成できる。状態推定器４００はまた、（たとえば、通信デバイスの加速度計からの情報に基づく）位置情報、（たとえば、通信デバイスの１つまたは複数の状態、あるいは１つまたは複数のスイッチによって示される）動作構成、および／または（たとえば、プッシュツートーク、スピーカホン、またはビデオ再生もしくは記録などのモードが現在選択されているかどうかの）動作モードなど、通信デバイスの現在の状態に関係する他の情報を使用するように構成できる。たとえば、状態推定器４００は、どのマイクロホンが現在アクティブであるかを示す（たとえば、現在の動作構成に基づく）情報を使用するように構成できる。

装置Ａ２００はまた、通信デバイスのいくつかの動作構成またはモードでは、デバイスがその構成またはモードにある間は十分な分離を行うので状態推定の継続が不必要になるように、空間分離フィルタのうちの対応する１つを仮定するように構成できる。たとえば、ビデオディスプレイモードが選択されているとき、推定状態指示Ｓ５０を（たとえば、ユーザがビデオスクリーンに面する配向状態に関係する）特定の対応する値に限定することが望ましい。入力信号Ｓ１０からの情報に基づく状態推定のプロセスは必ず多少の遅延を含むので、通信デバイスの現在の状態に関係するそのような情報の使用により、状態推定プロセスを早め、および／または１つまたは複数の後続の処理ステージのアクティブ化および／またはそれらの処理ステージに対するパラメータ変化などの推定状態Ｓ５０の変化に応答する動作の遅延を低減するのを助けることができる。

通信デバイスのいくつかの動作構成または動作モードは、特に広範囲のユーザデバイス配向をサポートすることができる。たとえば、プッシュツートークまたはスピーカホンモードなどの動作モードで使用されるとき、通信デバイスをユーザの口から比較的遠い距離に保持することができる。これらの配向のいくつかでは、ユーザの口は各マイクロホンからほぼ等距離になり、現在の配向状態の確実な推定がより困難になることがある。（そのような配向は、たとえば、図６Ｃに示す様々な配向状態に関連するエリア間の重複領域に対応する。）そのような場合、配向の小さい変化が推定状態Ｓ５０の不必要な変化をもたらすことがある。

（たとえば、ヒステリシスまたは慣性を取り入れることによって）不必要な変化を抑止するように状態推定器４００を構成することが望ましい。たとえば、コンパレータ５６０は、（Ａ）最大分離測定と、（Ｂ）現在の状態に対応する分離測定との間の差がしきい値を超過する（代替的に、そのしきい値以上である）場合にのみ推定状態指示Ｓ５０を更新するように構成できる。

図２０に、遷移制御モジュール５００の実装５２０のブロック図を示す。遷移制御モジュール５２０はＭ個の選択器（たとえば、デマルチプレクサ）のセットを含む。１≦ｊ≦Ｍに対して、各選択器ｊは、推定状態Ｓ５０の値に従ってフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎのうちの１つを出力チャネルＳ４０−ｊとして出力する。

遷移制御モジュール５２０の使用により、ある空間分離フィルタの出力から別の空間分離フィルタの出力への出力信号Ｓ４０の突然の遷移を生じることがある。通信デバイスが現在２つ以上の配向状態間の空間境界の近くにある状況では、遷移制御モジュール５２０の使用により、あるフィルタ出力から別のフィルタ出力への頻繁な遷移（「ジッタ（jitter）」とも呼ばれる）を生じることもある。様々なフィルタの出力は大幅に異なることがあるので、これらの遷移は、所望のスピーチ信号の一時的減衰または他の不連続性など、出力信号Ｓ４０中に好ましくない乱れを生じることがある。あるフィルタ出力から別のフィルタ出力への変更の間に遅延期間（「ハングオーバ（hangover）」とも呼ばれる）を付与することによってそのような乱れを低減することが望ましい。たとえば、遅延間隔（たとえば、５または１０個の連続するフレーム）にわたって同じ宛先状態が一貫して示されたときのみに推定状態指示Ｓ５０を更新するように状態推定器４００を構成することが望ましい。状態推定器４００のそのような実装形態は、すべての状態遷移に対して同じ遅延間隔を使用するように、あるいは特定のソースおよび／または潜在的な宛先状態に従って異なる遅延間隔を使用するように構成できる。

出力信号Ｓ４０におけるフィルタ出力間の突然の遷移は知覚的に好ましくなく、遷移制御モジュール５２０によって与えられる遷移よりもフィルタ出力間でより漸進的な遷移を得ることが望ましい。そのような場合、スイッチング機構３５０が、時間がたつにつれてある空間分離フィルタの出力から別の空間分離フィルタの出力に漸進的にフェードさせることが望ましい。たとえば、上述のように遅延間隔を付与することの代替または追加として、スイッチング機構３５０は、いくつかのフレームのマージ間隔（たとえば、１０個の２０ミリ秒フレーム）にわたってあるフィルタの出力から別のフィルタの出力への線形平滑化を実施するように構成できる。

図２１に、遷移制御モジュール５００の実装５５０のブロック図を示す。モジュール５２０のデマルチプレクサのアレイの代わりに、遷移制御モジュール５５０はｍ個のミキサ７０ａ〜７０ｍのミキサバンク７００を含む。遷移制御モジュール５５０はまた、遷移制御信号Ｓ６０を生成するように構成されたハングオーバ論理回路６００を含む。１≦ｊ≦Ｍに対して、各ミキサ７０ｊは、遷移制御信号Ｓ６０に従ってフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎを混合して、対応する出力チャネルＳ４０−ｊを生成するように構成される。

図２２に、ミキサ７０ｊの実装７２ｊのブロック図を示す（ただし、１≦ｊ≦Ｍ）。この例では、遷移制御信号Ｓ６０は、それぞれのフィルタ処理済みチャネルＳ２０ｊ１〜Ｓ２０ｊｎに重み付けするためにミキサ７２ｊによって適用される並列のｎ個の値と、重み付けされた信号の和を計算して出力チャネルＳ４０−ｊを生成する加算器６０ｊとを含む。

図２３に、ミキサバンク７００の２チャネル実装７１０を含む遷移制御モジュール５５０の実装５５５のブロック図を示す。１つのそのような例では、ハングオーバ論理回路６００の２チャネル実装６１０は、所定数のフレーム（すなわち、マージ間隔）にわたって０から１に変化する重みファクタωを計算し、ωと（１−ω）値を遷移制御信号６０として（推定状態Ｓ５０によって決定された順序で）出力するように構成される。ミキサバンク７１０のミキサ７４ａおよび７４ｂは、それぞれωＦｎ＋（１−ω）Ｆｃなどの式に従ってこれらの重みファクタを適用するように構成され、ただし、Ｆｎはミキサの遷移先であるフィルタ処理済みチャネルを示し、Ｆｃはミキサの遷移元であるフィルタ処理済みチャネルを示す。

推定状態Ｓ５０の異なる遷移に対して異なる遅延および／またはマージ間隔を適用するようにハングオーバ論理回路６００を構成することが望ましい。たとえば、推定状態Ｓ５０の一部の遷移は、実際には他の遷移よりも起こる可能性が低いことがある。比較的可能性が低い状態遷移の一例は、ユーザがハンドセットを完全に（すなわち、第１のマイクロホンがユーザの口に向く配向から、第１のマイクロホンがユーザの口の反対方向に向く配向に）反転させたことを示す遷移である。見込みのより少ない遷移にはより長い遅延および／またはマージ期間を使用するようにハングオーバ論理回路６００を構成することが望ましい。そのような構成は、推定状態指示Ｓ５０のスプリアス過渡状態を抑制するに役立つ。また、ハングオーバ論理回路６００は、本明細書で論じる位置情報、動作構成、および／または動作モードなど、通信デバイスの現在および／または以前の状態に関係する他の情報に従って遅延および／またはマージ間隔を選択するように構成することが望ましい。

図２４に、装置Ａ２１０の実装形態Ａ２１８のブロック図を示す。この例では、スイッチング機構３６０の実装形態３６８は、フィルタ処理済みチャネルのｎ個のペアならびに入力チャネルのペアの中から選択してスピーチチャネルＳ４０−１およびノイズチャネルＳ４０−２を生成するように構成される。一例では、スイッチング機構３６８は、デュアルチャネルモードまたはシングルチャネルモードで動作するように構成される。デュアルチャネルモードでは、スイッチング機構３６８は、フィルタ処理済みチャネルのｎ個のペアの中から選択してスピーチチャネルＳ４０−１およびノイズチャネルＳ４０−２を生成するように構成される。シングルチャネルモードでは、スイッチング機構３６８は、入力チャネルＳ１０−１を選択してスピーチチャネルＳ４０−１を生成するように構成される。シングルチャネルモードの代替実装形態では、スイッチング機構３６８は、２つの入力チャネルの中から選択してスピーチチャネルＳ４０−１を生成するように構成される。そのような場合、２つの入力チャネル間の選択は、最大のＳＮＲ、（たとえば、１つまたは複数の統計メトリックによって示される）最大のスピーチ尤度、通信デバイスの現在の動作構成、および／または所望の信号が生じたと判断される方向など、１つまたは複数の基準に基づくことができる。

図２５に、スイッチング機構３７０の実装形態３７８が、シングルチャネルモードにあるときに入力チャネルのうちの１つ（たとえば、第１のマイクロホンに関連するチャネル）を受信し、このチャネルをスピーチ信号Ｓ４０−１として出力するように構成された装置Ａ２２０の関連実装形態Ａ２２８のブロック図を示す。スイッチング機構は、推定配向状態がフィルタバンク中のｎ個のフィルタのいずれにも対応しないとき、シングルチャネルモードを選択するように構成できる。たとえば、フィルタバンク１２０の２フィルタの実装形態１３０および図５に示す可能な配向状態の３つ組では、スイッチング機構は、推定状態Ｓ５０がエリアＡ３に対応するとき、シングルチャネルモードを選択するように構成できる。設計上の観点から、シングルチャネルモードは、信頼できる空間処理結果を生じる（または、代替的に、生じることが予想される）フィルタがフィルタバンク中に全く発見されない場合を含むことができる。たとえば、スイッチング機構は、空間分離フィルタのいずれかが所望の音声成分を対応するフィルタ処理済みチャネルに分離したと状態推定器が確実に判断できないときは、シングルチャネルモードを選択するように構成できる。１つのそのような例では、コンパレータ５６０は、分離測定の差が最小値を超過しない場合に対してシングルチャネルモードの選択を指示するように構成される。

同じ構造のそれぞれの実例を使用してフィルタバンク１００のフィルタのすべてを実装する場合、この構造の別の実例を使用してシングルチャネルモードを実装すると便利である。図２６に、装置Ａ２２８のそのような実装形態Ａ２２９のブロック図を示す。パススルーフィルタＦ１４−３は、空間処理なしに入力チャネルＳ１０−１およびＳ１０−２をパスするように構成された同じ構造の別の実例を使用して実装される。たとえば、フィルタバンク１００のフィルタは、一般にクロスフィルタフィードフォワードおよび／またはフィードバック構造を使用して実装される。そのような場合、パススルーフィルタは、クロスフィルタのすべての係数値が０である構造を使用して実装できる。さらなる一例では、パススルーフィルタＦ１４−３は、入力チャネルＳ１０−１のみがパスされるように入力チャネルＳ１０−２を遮断するように実装される。装置Ａ２２９はまた、（たとえば、推定状態指示Ｓ５０に基づいて）他のフィルタ処理済みチャネルＳ２０１１、Ｓ２０１２、Ｓ２０２１、およびＳ２０２２と同じ方法でパススルーフィルタＦ１４−３によって生成されたチャネルへ、およびそのチャネルから遷移するように構成されたスイッチング機構３７８の実装形態３７９を含む。

無相関ノイズは、空間処理システムのパフォーマンスを劣化させる。たとえば、ホワイトノイズ利得により、無相関ノイズの増幅が空間処理フィルタ中で発生することがある。無相関ノイズは、マイクロホンまたはセンサのすべてよりも少ない（たとえば、１つの）マイクロホンまたはセンサに特有であり、マイクロホンおよび／またはセンサもしくは回路ノイズへの直接的な風、（たとえば、ユーザの爪の）ひっかき、呼気または吹込みによるノイズを含むことができる。そのようなノイズは、特に低周波で現れる傾向がある。無相関ノイズが検出されたとき空間分離フィルタをオフにするかまたはバイパスし（たとえば、シングルチャネルモードに移行し）、および／または高域通過フィルタを用いて影響を受けている（１つまたは複数の）入力チャネルから無相関ノイズを除去するように装置Ａ２００を実装することが望ましい。

図２７に、入力チャネル間で無相関であるノイズを検出するように構成された無相関ノイズ検出器３０を含む装置Ａ２１０の実装形態Ａ２１０Ａのブロック図を示す。無相関ノイズ検出器３０は、無相関ノイズの検出および／またはそのような検出への応答の開示に限定した目的のために、参照により本明細書に組み込まれる、「SYSTEMS, METHODS, AND APPARATUS FOR DETECTION OF UNCORRELATED COMPONENT」と題する２００８年８月２９日に出願の米国特許出願第１２／２０１，５２８号に開示された構成のいずれかに従って実装できる。この例では、装置Ａ２１０Ａは、無相関ノイズ検出器３０が（たとえば、バイナリ値とすることができる検出指示Ｓ８０によって）無相関ノイズの存在を示すとき、上述のシングルチャネルモードに入るように構成されたスイッチング機構３６８の実装形態３６８Ａを含む。シングルチャネルモードの使用の代替（または追加）として、装置Ａ２１０Ａは、１つまたは複数のチャネルで無相関ノイズが検出されたときにのみフィルタをアクティブ化するように、入力チャネルのうちの１つまたは複数に調節可能な高域通過フィルタを使用して無相関ノイズを除去するように構成できる。

ボイス通信（たとえば、電話通信）のためのトランシーバ適用例では、「近端（near-end）」という用語は、（たとえば、マイクロホンからの）オーディオとして受信され、通信デバイスによって送信される信号を示すために使用され、「遠端」という用語は、通信デバイスによって受信され、（たとえば、デバイスの１つまたは複数のラウドスピーカを介した）オーディオとして再生される信号を示すために使用される。遠端信号アクティビティに応答して装置Ａ２００の実装形態の動作を変更することが望ましい。たとえば、特に全二重スピーカホンモード中またはヘッドセットでは、デバイスのラウドスピーカによって再生された遠端信号アクティビティは、デバイスのマイクロホンによってピックアップされて、入力信号Ｓ１０上に現れて、最終的に配向状態推定器を混乱させることがある。そのような場合、遠端信号アクティビティの期間中に推定状態への更新を中断することが望ましい。図２８に、（たとえば、通信デバイスの受信機部から受信された）遠端オーディオ信号Ｓ１５に対するボイスアクティビティ検出器（ＶＡＤ）２０の実例７０を含む装置Ａ２２４の実装形態Ａ２２４Ａのブロック図を示す。ハンドセットの場合、全二重スピーカホンモード中に、および／または第２のスピーカＳＰ２０がアクティブであるときにＶＡＤ７０をアクティブ化することができ、ＶＡＤ７０が生成する更新制御信号Ｓ７５を使用して、ＶＡＤが遠端スピーチアクティビティを指示するときに状態推定器の出力に対する変更を不能にするようにスイッチング機構を制御することができる。図２８は、ＶＡＤ２０およびＶＡＤ７０のうちの少なくとも一方がスピーチアクティビティを指示するとき推定状態Ｓ５０の更新を中断するように構成されたスイッチング機構３７４の特定の実装形態３７４Ａを示す。ヘッドセットの場合、通常動作中に（たとえば、デバイスの第１のスピーカが無音にされなければ）ＶＡＤ７０をアクティブ化することができる。

空間分離フィルタＦ１０−１〜Ｆ１０−ｎのうちの１つまたは複数は、Ｍ個よりも少ないチャネルを有する信号を処理するように構成することが望ましい。たとえば、Ｍが２よりも大きい場合でさえ、入力チャネルのペアのみを処理するように空間分離フィルタのうちの１つまたは複数（場合によってはすべて）を構成することが望ましい。そのような構成を求める１つの考えられる理由は、Ｍ個のマイクロホンのうちの１つまたは複数の障害に耐性がある装置Ａ２００の実装形態を得るためである。別の考えられる理由は、通信デバイスのいくつかの動作構成では、Ｍ個のマイクロホンのうちの１つまたは複数を非アクティブ化するか、さもなければ無視するように装置Ａ２００を構成することができることである。

図２９および図３０に、Ｍが３に等しく、フィルタＦ１４−１、Ｆ１４−２、およびＦ１４−３の各々が入力チャネルのペアを処理するように構成された装置Ａ２００の２つの実装形態を示す。図２９は、フィルタＦ１４−１、Ｆ１４−２、およびＦ１４−３の各々が、３つの入力チャネルＳ１０−１、Ｓ１０−２、およびＳ１０−３の異なるペアを処理するように構成された装置Ａ２３２のブロック図を示す。図３０は、フィルタＦ１４−１およびＦ１４−２が入力チャネルＳ１０−１およびＳ１０−２を処理するように構成され、フィルタＦ１４−３が入力チャネルＳ１０−１およびＳ１０−３を処理するように構成された装置Ａ２３４のブロック図を示す。図３１に、フィルタＦ１４−１〜Ｆ１４−６の各々が入力チャネルのペアを処理するように構成された装置Ａ２００の実装形態Ａ２３６のブロック図を示す。

装置Ａ２３４において、スイッチング機構３６０は、入力チャネルＳ１０−３に対応するマイクロホンが無音にされているかまたは障害のある動作構成のためにフィルタＦ１４−１およびＦ１４−２の中の一方を選択し、他のためにはフィルタＦ１４−１およびＦ１４−３の中の一方を選択するように構成できる。装置Ａ２３６において入力チャネルＳ１０−１〜Ｓ１０−３の特定のペアが（たとえば、現在の動作構成に基づいて、または他の入力チャネルに関連するマイクロホンの故障に応答して）選択されている場合、スイッチング機構３６０は、入力チャネルのそのペアを受信するフィルタＦ１４−１〜Ｆ１４−６に対応する２つの状態の中からのみ選択するように構成できる。

通信装置のいくつかの動作モードでは、３つ以上の入力チャネルの中のペアの選択は、少なくとも部分的にヒューリスティックスに基づいて実行できる。たとえば、図２に示す従来の電話モードでは、電話機は、一般に、（入力チャネルのペアの固定的選択が適切となるように）変動が限定された制約付き方法で保持される。しかしながら、図３Ａおよび図３Ｂ、または図４Ａおよび図４Ｂに示すスピーカホンモードでは、多くの保持パターンが可能であり、したがって、すべての予想される使用配向における十分な分離を得るためには入力チャネルのペアの動的な選択が望ましい。

通信デバイスの寿命期間中に、マイクロホン要素のうちの１つまたは複数が損傷するか、さもなければ故障することがある。上記のように、装置Ａ２００はマイクロホンのうちの１つまたは複数の故障に耐性があることが望ましい。スイッチング機構３６０は、それぞれ入力チャネルの異なるサブセットに対応する複数の状態推定方式を用いて構成できる。たとえば、様々な予想される障害シナリオの各々に対して（たとえば、あらゆる可能な障害シナリオに対して）状態推定ロジックを設けることが望ましい。

状態推定器４００は、インジケータ関数の値を可能な配向状態のセットにマッピングすることによって推定状態指示Ｓ５０を生成するように実装することが望ましい。たとえば、装置Ａ２００の２フィルタの実装形態Ａ２２０では、分離測定を単一のインジケータに圧縮し、そのインジケータの値を、可能な配向状態のセットのうちの対応する１つにマッピングすることが望ましい。１つのそのような方法は、各フィルタの分離測定を計算し、２つの測定を使用してインジケータ関数を評価し、そのインジケータ関数値を可能な状態のセットにマッピングすることを含む。

図１４Ａ〜図１４Ｄを参照しながら上述したものを含むいかなる分離測定でも使用することができる（たとえば、エネルギー差、相関、ＴＤＯＡ）。一例では、フィルタバンク１３０のそれぞれの空間分離フィルタＦ１４−１およびＦ１４−２に対する分離測定Ｚ_１およびＺ_２の各々は、以下のように、フィルタの出力のエネルギーの差として計算され、各チャネルのエネルギーは、２０ミリ秒フレームにわたる２乗サンプルの合計として計算できる：Ｚ_１＝ｅ_１１−ｅ_１２、Ｚ_２＝ｅ_２１−ｅ_２２。ここで、ｅ_１１、ｅ_１２、ｅ_２１、ｅ_２２はそれぞれ、対応するフレームにわたるチャネルＳ２０１１、Ｓ２０２１、Ｓ２０１２、およびＳ２０２２のエネルギーを示す。次いでインジケータ関数を、たとえば、Ｚ_１−Ｚ_２のように２つの分離測定の差として計算することができる。

インジケータ関数を評価する前に、対応するフィルタ入力チャネルのうちの１つまたは複数に従って各分離測定をスケーリングすることが望ましい。たとえば、対応するフレームにわたる以下の式のうちの１つの値の合計などのファクタに従って測定Ｚ_１およびＺ_２の各々をスケーリングすることが望ましい：｜ｘ_１｜、｜ｘ_２｜、｜ｘ_１｜＋｜ｘ_２｜、｜ｘ_１＋ｘ_２｜、｜ｘ_１ｘ_２｜。ここで、ｘ_１、ｘ_２はそれぞれ入力チャネルＳ１０−１およびＳ１０−２の値を示す。

分離測定に対して異なるスケールファクタを使用することが望ましい。１つのそのような例では、フィルタＦ１４−１は、チャネルＳ１０−１に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応し、フィルタＦ１４−２は、チャネルＳ１０−２に対応するマイクロホンにおいて所望のサウンドがより多く指示される配向状態に対応する。この場合、フレームにわたる｜ｘ_１｜の合計に基づくファクタに従って分離測定Ｚ_１をスケーリングし、フレームにわたる｜ｘ_２｜の合計に基づくファクタに従って分離測定Ｚ_２をスケーリングすることが望ましい。この例では、分離測定Ｚ_１は

のような式に従って計算し、分離測定Ｚ_２は

のような式に従って計算できる。

スケールファクタは、他の方向ではなく一方向においてより強く分離測定の値に影響を及ぼすことが望ましい。たとえば、最大差に基づく分離測定の場合、スケールファクタは、入力ボリュームが小さいときに分離測定の値を過度に増大させることなく、大きい入力チャネルボリュームに応答して分離測定の値を低減させることが望ましい。（最小差に基づく分離測定の場合は、反対の効果が望ましい。）１つのそのような例では、分離測定Ｚ_１およびＺ_２は、以下のような式に従って計算される：

、およびＴ_ｓはしきい値である。

図３２Ａに、インジケータ関数値（たとえば、Ｚ_１−Ｚ_２）を３つの可能な配向状態のセットにマッピングする一例を示す。この値が第１のしきい値Ｔ１未満である場合、（第１のフィルタに対応する）状態１が選択される。この値が第２のしきい値Ｔ２を上回る場合、（第２のフィルタに対応する）状態３が選択される。この値がそれらのしきい値の間にある場合、（いずれのフィルタにも対応しない、すなわち、シングルチャネルモードの）状態３が選択される。典型的な場合、しきい値Ｔ１とＴ２は反対の極性を有する。図３２Ｂに、遷移がどちらの方向に進んでいるかに応じて状態間の遷移を制御するのに異なるしきい値Ｔ１Ａ、Ｔ１ＢおよびＴ２Ａ、Ｔ２Ｂを使用するマッピングの別の例を示す。そのようなマッピングを使用して、配向の小さい変化によるジッタを低減し、および／または重複エリアにおける不必要な状態遷移を少なくすることができる。

上述のインジケータ関数方式は、たとえば、ペアの選択された状態を得るようにチャネルの各ペアを処理し、次いで全体的に最も多い得票を有する状態を選択することによって装置Ａ２００の３チャネル（またはＭチャネル）の実装形態に拡張することもできる。

上記のように、フィルタバンク１３０は、フィルタＦ１４−２の係数値行列がフィルタＦ１４−１の対応する係数値行列に関して反転されるように実装できる。この特定の場合、上述のインジケータ関数値は

のような式に従って計算できる。ここで、β_１は前述の値を有する。

図３３Ａに、出力信号Ｓ４０の追加の空間処理（たとえば、スピーチ成分とノイズ成分のさらなる分離）を実行してさらなる出力信号Ｓ４２を生成するように構成された適応フィルタ４５０と装置Ａ２１０を組み合わせる装置Ａ２００の実装形態Ａ３１０のブロック図を示す。これらの成分フィルタの各々が、フィルタバンク１２０中のフィルタのうちの１つに対応し推定状態指示Ｓ５０に従って選択できるように、適応フィルタ４５０は、複数の適応フィルタを含むように実装することが望ましい。たとえば、適応フィルタ４５０のそのような実装は、成分フィルタのうちの１つの出力を信号Ｓ４２として選択し、および／またはマージ間隔中に成分フィルタのうちの２つ以上の出力を混合して、推定状態指示Ｓ５０に従って信号Ｓ４２を得るように構成された遷移制御モジュール５００に類似する選択機構または混合機構を含むことができる。

適応フィルタ４５０（あるいは、その成分フィルタのうちの１つまたは複数、場合によってはすべて）は、本明細書で説明するように１つまたは複数のＢＳ、ビームフォーミング、および／または結合ＢＳ／ビームフォーミング方法に従って、あるいは特定の適用例に適した任意の他の方法に従って構成できる。初期条件のセットをもつ適応フィルタ４５０を構成することが望ましい。たとえば、成分フィルタのうちの少なくとも１つが０以外の初期状態を有することが望ましい。そのような状態は、フィルタバンク１２０の対応するフィルタを使用してトレーニング信号のセットをフィルタ処理することによって得られるフィルタ処理済み信号への収束の状態に成分フィルタをトレーニングすることによって計算できる。典型的な生成適用例では、成分フィルタとフィルタバンク１２０の対応するフィルタとの参照実例を使用して初期状態（すなわち、フィルタ係数の初期値のセット）を生成し、次いでその初期状態は、適応フィルタ４５０の成分フィルタに記憶される。初期状況の生成はまた、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する２００８年８月２５日に出願の米国特許出願第１２／１９７，９２４号の段落［００１３０］〜［００１３４］（「For a configuration that includes」で開始し「during online operation」で終了する）に記載されており、それらの段落は、フィルタトレーニングの開示に限定した目的のために、参照により本明細書に組み込まれる。トレーニングを介したフィルタ状態の生成についても以下でより詳細に説明する。

装置Ａ２００はまた、空間処理済み信号のスペクトル処理を実行するように構成された１つまたは複数のステージを含むように実装できる。図３３Ｂに、装置Ａ２１０をノイズ低減フィルタ４６０と組み合わせる装置Ａ２００の実装形態Ａ３２０のブロック図を示す。ノイズ低減フィルタ４６０は、ノイズチャネルＳ４０−２上の信号をノイズ基準として適用して、スピーチ信号Ｓ４０−１中のノイズを低減し、対応するフィルタ処理済みスピーチ信号Ｓ４５を生成するように構成される。ノイズ低減フィルタ４６０は、フィルタ係数値が、分離されたチャネルからの信号およびノイズ電力情報に基づくウィーナーフィルタとして実装できる。そのような場合、ノイズ低減フィルタ４６０は、ノイズ基準（あるいは出力チャネルＳ４０が３つ以上のチャネルを有するより一般的な場合は、１つまたは複数のノイズ基準）に基づいてノイズスペクトルを推定するように構成できる。代替的に、ノイズ低減フィルタ４６０は、１つまたは複数のノイズ基準からのスペクトルに基づいてスピーチ信号に対してスペクトル減算演算を実行するように実装できる。代替的に、ノイズ低減フィルタ４６０は、ノイズ共分散が１つまたは複数のノイズ基準に基づくカルマンフィルタとして実装できる。

ノイズ低減フィルタ４６０は、非スピーチ間隔のみの間にスペクトルおよびまたは共分散などのノイズ特性を推定するように構成することが望ましい。そのような場合、ノイズ低減フィルタ４６０は、ボイスアクティビティ検出（ＶＡＤ）動作を含むかまたは装置もしくはデバイス内で他の方法によって実施されるそのような動作の結果を使用して、スピーチ間隔中にノイズ特性の推定を不能にする（代替的に、ノイズのみ間隔中のみでそのような推定を可能にする）ように構成できる。図３３Ｃに、適応フィルタ４５０とノイズ低減フィルタ４６０の両方を含む装置Ａ３１０およびＡ３２０の実装形態Ａ３３０のブロック図を示す。この場合、ノイズ低減フィルタ４６０は、ノイズチャネルＳ４２−２上の信号をノイズ基準として適用して、スピーチ信号Ｓ４２−１中のノイズを低減して、フィルタ処理済みスピーチ信号Ｓ４５を生成するように構成される。

装置Ａ２００の実装形態は、通信デバイスの他の要素が出力信号Ｓ４０またはＳ４５に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。この場合、（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分内に含めることができる）シングルチャネルノイズ低減モジュールの実装など、装置Ａ２００とデバイスの任意の他のノイズ低減要素との間に起こりうる相互作用をなくすことが望ましい。

そのような場合、残差バックグラウンドノイズの量および／または品質を調整することが望ましい。たとえば、装置Ａ２００のマルチチャネルフィルタは、シングルチャネルノイズ低減モジュールの予想されるノイズ入力レベルに対して、あまりにアグレッシブなことがある。出力信号Ｓ４０中に残っているノイズの振幅および／またはスペクトルシグナチャに応じて、シングルチャネルノイズ低減モジュールはより多くのひずみ（たとえば、急激に変化する残差、音楽ノイズ）を発生させることがある。そのような場合、結合ノイズ低減方式の出力に応答して何らかのフィルタ処理済み快適ノイズを出力信号Ｓ４０に加え、および／または１つまたは複数のパラメータ設定を調整することが望ましい。

シングルチャネルノイズ低減法は、一般に、ノイズ低減演算をサポートするのに使用される参照情報を提供するのにノイズおよびボイスデータの多少延長された期間の獲得を必要とする。この獲得期間は、可観測性ノイズ除去において遅延を生じさせる傾向がある。そのような方法と比較して、ここで提示するマルチチャネル方法は、バックグラウンドノイズからのユーザボイスの分離により、比較的即時のノイズ低減を行うことができる。したがって、シングルチャネルノイズ低減モジュールの動的機能に関してマルチチャネル処理ステージのアグレッシブネス設定の適用のタイミングを最適化することが望ましい。

推定状態指示Ｓ５０の変更に応答して、後続の処理ステージにおいてパラメータ変更を実施することが望ましい。また、装置Ａ２００は、特有のパラメータ変更および／または推定配向状態に関連できるタイミングキューおよび／またはハングオーバ論理回路における変更を始動することが望ましい。たとえば、一定の延長された推定期間は、状態推定知識の信頼度を十分なものにするのに役立つので、推定状態指示Ｓ５０の変更後に少しの期間だけアグレッシブな後処理ステージを遅延させることが望ましい。

配向状態が変化すると、現在のノイズ基準は後続の空間および／またはスペクトル処理演算にはもはや適切でなくなることがあり、状態遷移中にこれらのステージをよりアグレッシブでないようにすることが望ましい。たとえば、遷移位相中にスイッチング機構３５０が現在のノイズチャネル出力を減衰させることが望ましい。ハングオーバ論理回路６００は、そのような演算を実施するように実装できる。１つのそのような例では、ハングオーバ論理回路６００は、現在の推定状態と以前の推定状態との間の不一致を検出し、そのような検出に応答して現在のノイズチャネル出力（たとえば、装置Ａ２１０のチャネルＳ４０−２）を減衰させるように構成される。（漸進的または即時とすることができる）そのような減衰は、大幅なものに（たとえば、７５または８０パーセントなど、５０または６０パーセントから８０または９０パーセントまでの範囲内の量だけに）することができる。また、新しいスピーチおよびノイズチャネルへの（たとえば、両方とも通常ボリュームの）遷移を、本明細書で（たとえば、遷移制御モジュール５５０を参照しながら）説明したように実施することができる。図３４に、チャネルペアＳ２０１１とＳ２０１２からチャネルペアＳ２０２１とＳ２０２２に遷移中の減衰方式の一例における、スピーチチャネルＳ２０１１、Ｓ２０２１およびノイズチャネルＳ２０１２、Ｓ２０２２の時間の変化に伴う相対的な利得レベルを示す。

また、推定状態指示Ｓ５０に従って１つまたは複数の下流の演算を制御することが望ましい。たとえば、推定状態指示Ｓ５０に従って初期条件の対応するセットを（たとえば、図３３Ａおよび図３３Ｃに示す）下流の適応フィルタに適用することが望ましい。そのような場合、上述のように推定状態指示Ｓ５０に従って適応フィルタ４５０の成分フィルタを選択し、成分フィルタをその初期状態にリセットすることが望ましい。初期条件のあるセットから別のセットへの、またはある成分フィルタから別の成分フィルタへの遷移中は、ハングオーバ論理回路６００を参照しながら上述したのと類似する方法で現在のノイズチャネル出力（たとえば、Ｓ４２−２）を減衰させることが望ましい。また、装置Ａ２００のシングルチャネル動作中は、下流の適応空間処理フィルタなどの（たとえば、図３３Ａ〜図３３Ｃに示す）デバイスの他の空間処理演算を不能にすることが望ましい。

いくつかの方向に対するシステムノイズ低減性能の若干の感度が（たとえば、通信デバイス上のマイクロホン配置により）発生することがある。特定の適用例に適したマイクロホンの構成を選択することによって、および／またはノイズ間隔の選択的マスキングを使用することによって、そのような感度を下げることが望ましい。そのようなマスキングは、（たとえば、本明細書で説明したＶＡＤを使用して）ノイズのみ時間間隔を選択的に減衰させることによって、または後続のシングルチャネルノイズ低減モジュールが残差ノイズ乱れを除去するのを可能にするために快適ノイズを加えることによって達成できる。

図３５Ａに、遠端オーディオ信号Ｓ１５に基づいて入力信号Ｓ１０からエコーを消去するように構成されたエコーキャンセラＥＣ１０を含む装置Ａ２００の実装形態Ａ２１０Ｂのブロック図を示す。この例では、エコーキャンセラＥＣ１０は、フィルタバンク１２０によって入力として受信されたエコー消去済み信号Ｓ１０ａを生成する。装置Ａ２００はまた、遠端オーディオ信号Ｓ１５に基づいて出力信号Ｓ４０からエコーを消去するように構成されたエコーキャンセラＥＣ１０の実例を含むように実装できる。いずれの場合も、スピーカホンモードでの通信デバイスの動作中および／またはＰＴＴモードでの通信デバイスの動作中はエコーキャンセラＥＣ１０を使用不能にすることが望ましい。

図３５Ｂに、シングルチャネルエコーキャンセラＥＣ２０の２つの実例ＥＣ２０ａおよびＥＣ２０ｂを含むエコーキャンセラＥＣ１０の実装形態ＥＣ１２のブロック図を示す。この例では、エコーキャンセラＥＣ２０の各実例は、入力チャネルＩ１、Ｉ２のセットのうちの一方を処理して出力チャネルＯ１、Ｏ２のセットのうちの対応する１つを生成するように構成される。現在知られているかまたは未開発のエコー消去の任意の技術（たとえば、最小２乗平均技術）に従ってエコーキャンセラＥＣ２０の様々な実例をそれぞれ構成することができる。たとえば、エコー消去は、上記で参照した米国特許出願第１２／１９７，９２４号の段落［００１３９］−［００１４１］（「An apparatus」で開始し「B500」で終了する）で論じられており、それらの段落は、装置の他の要素の設計、実装、および／または統合を含むがこれに限定されないエコー消去の開示に限定した目的のために、参照により本明細書に組み込まれる。

図３５Ｃに、遠端信号Ｓ１５をフィルタ処理するように構成されたフィルタＣＥ１０と、処理中の入力チャネルとフィルタ処理済み遠端信号を組み合わせるように構成された加算器ＣＥ２０とを含むエコーキャンセラＥＣ２０の実装形態ＥＣ２２のブロック図を示す。フィルタＣＥ１０のフィルタ係数値は固定および／または適応型とすることができる。遠端オーディオ信号を再生するように通信デバイスの参照実例によって記録されたマルチチャネル信号のセットを使用して（たとえば、以下でより詳細に説明するように）フィルタＣＥ１０の参照実例をトレーニングすることが望ましい。

装置Ａ２１０Ｂの実装形態は、通信デバイスの他の要素（たとえば、移動局モデム（ＭＳＭ）チップまたはチップセットのベースバンド部分）が出力信号Ｓ４０に対してさらなるオーディオ処理演算を実施するように構成されるように通信デバイス内に常駐することが望ましい。エコーキャンセラを装置Ａ２００の実装形態中に含めるように設計する際、このエコーキャンセラと通信デバイスの任意の他のエコーキャンセラ（たとえば、ＭＳＭチップまたはチップセットのエコー消去モジュール）との間の起こりうる相乗効果を考慮に入れることが望ましい。

図３６に、本明細書で説明する装置Ａ２００（または以下で説明する装置Ａ１００）の実装形態を含むデバイスの設計および使用中に従われる手順のフローチャートを示す。設計段階では、トレーニングデータを使用して固定フィルタセット（たとえば、フィルタバンク１００のフィルタのフィルタ係数値）を決定し、対応するユーザハンドセット状態を、電流配向状態の（たとえば、本明細書で説明するスイッチング機構による）オンライン推定と、電流状況に適した固定フィルタセットの選択とを可能にするように特徴づける。トレーニングデータは、通信デバイス（たとえば、ハンドセットまたはヘッドセット）の参照実例を使用して様々なユーザデバイス音響シナリオにおいて記録される、ノイズの多いスピーチサンプルのセットである。（無響室において実行される）そのような記録の前に、（周波数とともに変化する）参照デバイスのＭ個のマイクロホンの利得の比が所望の範囲内にあることを確認するために較正を実行することが望ましい。参照デバイスを使用して固定フィルタセットが決定されると、本明細書で説明する装置の実装形態を含む通信デバイスのプロダクション実例に、それらの固定フィルタセットがコピーされる。

図３７に、フィルタバンク１００の空間分離フィルタの１つまたは複数を特徴づける係数値を得るために使用できる設計方法Ｍ１０のフローチャートを示す。方法Ｍ１０は、マルチチャネルトレーニング信号のセットを記録するタスクＴ１０と、トレーニング信号のセットをサブセットに分割するタスクＴ２０とを含む。方法Ｍ１０はまた、タスクＴ３０とＴ４０とを含む。サブセットの各々について、タスクＴ３０は、収束のために対応する空間分離フィルタをトレーニングする。タスクＴ４０は、トレーニングされたフィルタの分離性能を評価する。タスクＴ２０、Ｔ３０、およびＴ４０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。タスクＴ４０において容認できる結果が得られるまで、方法Ｍ１０のタスクの１つまたは複数を繰り返す。方法Ｍ１０の様々なタスクについて以下でより詳細に論じ、これらのタスクの追加の説明は、空間分離フィルタの設計、トレーニング、および／または評価に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号に記載されている。

タスクＴ１０は、少なくともＫ個のマイクロホンのアレイを使用して、Ｋチャネルトレーニング信号のセットを記録する。ここで、Ｋは、少なくともＭに等しい整数である。トレーニング信号の各々は、スピーチ成分とノイズ成分の両方を含み、各トレーニング信号は、Ｐ個のシナリオの１つの下で記録される。ここで、Ｐは、２に等しい場合があるが、一般に１よりも大きい任意の整数である。以下で説明するように、Ｐ個のシナリオの各々は、様々な空間特徴（たとえば、様々なハンドセットまたはヘッドセット配向）および／または様々なスペクトル特徴（たとえば、様々な特性を有する音源の捕捉）を備えることができる。トレーニング信号のセットは、一般に、各シナリオに対して複数のトレーニング信号を含むが、Ｐ個のシナリオのうちの異なる１つの下でそれぞれ記録される少なくともＰ個のトレーニング信号を含む。

Ｋチャネルトレーニング信号のセットの各々は、少なくとも１つの情報ソースおよび少なくとも１つの干渉ソースに応答してＫ個のマイクロホンのアレイによって生成される信号に基づく。たとえば、トレーニング信号の各々は、ノイズの多い環境でのスピーチの記録であることが望ましい。Ｋ個のチャネルの各々は、Ｋ個のマイクロホンのうちの対応する１つの出力に基づく。マイクロホン信号は、一般にサンプリングされ、前処理（たとえば、エコー消去、ノイズ低減、スペクトル整形などのためにフィルタ処理）され、さらには（たとえば、本明細書で説明するように別の空間分離フィルタまたは適応フィルタによって）事前分離される。スピーチなどの音響適用例では、典型的なサンプリングレートは、８ｋＨｚから１６ｋＨｚにわたる。

本明細書で説明する装置Ａ２００の他の要素を含んでいる同じ通信デバイスを使用してタスクＴ１０を実行することが可能である。しかしながら、より一般的には、タスクＴ１０は、通信デバイス（たとえば、ハンドセットまたはヘッドセット）の参照実例を使用して実行されるであろう。方法Ｍ１０によって生成される収束フィルタソリューションの得られたセットは、次いで、プロダクション中に同じまたは同様の通信デバイスの他の実例（たとえば、各そのようなプロダクション実例のフラッシュメモリ）にロードされる。

そのような場合、通信デバイス（「参照デバイス」）の参照実例は、Ｋ個のマイクロホンのアレイを含む。参照デバイスのマイクロホンは、通信デバイスのプロダクション実例（「プロダクションデバイス」）の音響応答と同じ音響応答を有することが望ましい。たとえば、参照デバイスのマイクロホンは、プロダクションデバイスのモデルと同じ１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。さらに、他の場合は、参照デバイスはプロダクションデバイスと同じ音響特性を有することが望ましい。さらには、プロダクションデバイス同士が音響的に同じであるように、参照デバイスはプロダクションデバイスと音響的に同じであることが望ましい。たとえば、参照デバイスはプロダクションデバイスと同じデバイスモデルであることが望ましい。しかしながら、実際のプロダクション環境では、参照デバイスは、１つまたは複数の低位の（すなわち、音響的に重要でない）態様においてプロダクションデバイスとは異なるプロダクション開始前のバージョンでもよい。典型的な場合には、参照デバイスは、トレーニング信号を記録するためにのみ使用されるので、参照デバイス自体が装置Ａ２００の要素を含む必要はない。

同じＫ個のマイクロホンを使用して、トレーニング信号のすべてを記録することができる。代替的に、トレーニング信号の１つを記録するために使用されるＫ個のマイクロホンのセットは、トレーニング信号のもう１つを記録するために使用されるＫ個のマイクロホンのセットとは（マイクロホンの１つまたは複数において）異なることが望ましい。たとえば、マイクロホンの間のある程度の変動に対してロバストである複数のフィルタ係数値を生成するために、マイクロホンアレイの異なる実例を使用することが望ましい。１つのそのような場合には、Ｋチャネルトレーニング信号のセットは、参照デバイスの少なくとも２つの異なる実例を使用して記録された信号を含む。

Ｐ個のシナリオの各々は、少なくとも１つの情報ソースと少なくとも１つの干渉ソースとを含む。一般に、各情報ソースは、スピーチ信号または楽音信号を再生するラウドスピーカであり、各干渉ソースは、別のスピーチ信号または典型的な予想される環境からの周囲のバックグラウンドサウンド、またはノイズ信号などの干渉側音響信号を再生するラウドスピーカである。使用できるラウドスピーカの様々なタイプには、動電型（たとえば、ボイスコイル）スピーカ、圧電型スピーカ、静電型スピーカ、リボンスピーカ、平面磁気スピーカなどがある。１つのシナリオまたは適用例において情報ソースとして働くソースは、異なるシナリオまたは適用例において干渉ソースとして働くことができる。Ｐ個のシナリオの各々におけるＫ個のマイクロホンからの入力データの記録は、Ｋチャネルテープレコーダ、Ｋチャネルサウンドの記録または捕捉機能をもつコンピュータ、あるいは（たとえば、サンプリング解像度のオーダー内で）同時にＫ個のマイクロホンの出力を捕捉あるいは記録することが可能な別のデバイスを使用して実行できる。

音響無響室は、Ｋチャネルトレーニング信号のセットを記録するために使用できる。図３８に、トレーニングデータを記録するように構成された音響無響室の例を示す。この例では、ＨｅａｄａｎｄＴｏｒｓｏＳｉｍｕｌａｔｏｒ（ＨＡＴＳ、デンマーク、Ｎａｅｒｕｍ、Ｂｒｕｅｌ＆Ｋｊａｅｒ製）は、干渉ソース（すなわち、４つのラウドスピーカ）の内向きアレイ内に配置される。ＨＡＴＳの頭部は、代表的な人間の頭部と音響的に同様であり、スピーチ信号を再生するために口部にラウドスピーカを含む。干渉ソースのアレイは、図示のようにＨＡＴＳを囲む拡散ノイズフィールドを生成するように駆動できる。１つのそのような例では、ラウドスピーカのアレイは、ＨＡＴＳ耳参照ポイントまたは口参照ポイントにおいて７５〜７８ｄＢの音圧レベルでノイズ信号を再生するように構成される。他の場合には、１つまたは複数のそのような干渉ソースは、様々な空間分布を有するノイズフィールド（たとえば、指向性ノイズフィールド）を生成するように駆動できる。

使用できるノイズ信号のタイプは、（たとえば、ニュージャージー州Ｐｉｓｃａｔａｗａｙ、米国電気電子学会（ＩＥＥＥ）によって公表されたＩＥＥＥ規格２６９−２００１、「Draft Standard Methods for Measuring Transmission Performance of Analog and Digital Telephone Sets, Handsets and Headsets」に記載されているように）ホワイトノイズ、ピンクノイズ、グレーノイズ、Ｈｏｔｈノイズを含む。使用できる他のタイプのノイズ信号は、ブラウンノイズ、ブルーノイズ、およびパープルノイズを含む。

Ｐ個のシナリオは、少なくとも１つの空間および／またはスペクトル特徴に関して互いに異なる。ソースおよびマイクロホンの空間構成は、少なくとも以下の方法、すなわち、他の１つまたは複数のソースに対するソースの配置および／または配向と、他の１つまたは複数のマイクロホンに対するマイクロホンの配置および／または配向と、マイクロホンに対するソースの配置および／または配向と、ソースに対するマイクロホンの配置および／または配向とのうちの任意の１つまたは複数でシナリオごとに異なることができる。Ｐ個のシナリオの中の少なくとも２つは、セットの中のマイクロホンまたはソースの少なくとも１つが、１つのシナリオにおいて、他のシナリオにおけるその位置または配向とは異なる位置または配向を有するように、異なる空間構成に配置されたマイクロホンおよびソースのセットに対応することができる。たとえば、Ｐ個のシナリオの中の少なくとも２つは、ユーザの口などの情報ソースに対する、Ｋ個のマイクロホンのアレイを有するハンドセットまたはヘッドセットなどのポータブル通信デバイスの異なる配向に関することができる。シナリオごとに異なる空間特徴は、ハードウェア制約（たとえば、デバイス上のマイクロホンのロケーション）、デバイスの予測される使用パターン（たとえば、典型的な予想されるユーザの保持姿勢）、および／または異なるマイクロホン位置および／またはアクティブ化（たとえば、３つ以上のマイクロホンの中の異なるペアをアクティブにすること）を含むことができる。

シナリオごとに異なることがあるスペクトル特徴は、少なくとも１つのソース信号のスペクトル成分（たとえば、異なるボイスからのスピーチ、異なる色のノイズ）と、マイクロホンの１つまたは複数の周波数応答とを少なくとも含む。上述の１つの特定の例では、シナリオの少なくとも２つは、マイクロホンの少なくとも１つに関して異なる（言い換えれば、１つのシナリオにおいて使用されるマイクロホンの少なくとも１つの代わりに、他のシナリオでは別のマイクロホンを使用するか、または全く使用しない）。そのような変動は、マイクロホンの周波数応答および／または位相応答の変化の予想される範囲にわたってロバストであり、および／またはマイクロホンの障害に対してロバストであるソリューションをサポートするために望ましい。

別の特定の例では、シナリオの少なくとも２つは、バックグラウンドノイズを含み、バックグラウンドノイズのシグナチャ（すなわち、周波数および／または時間にわたるノイズの統計値）に関して異なる。そのような場合、干渉ソースは、Ｐ個のシナリオの１つでは、１つの色（たとえば、白、ピンク、またはＨｏｔｈ）またはタイプ（たとえば、道路のノイズ、バブルのノイズ、または車のノイズの再生）のノイズを放出し、Ｐ個のシナリオのもう１つでは、別の色またはタイプのノイズ（たとえば、１つのシナリオではバブルのノイズ、および別のシナリオでは道路および／または車のノイズ）を放出するように構成することができる。

Ｐ個のシナリオの少なくとも２つは、実質的に異なるスペクトル成分を有する信号を生成する情報ソースを含むことができる。スピーチ適用例では、たとえば、２つの異なるシナリオにおける情報信号は、互いに１０パーセント、２０パーセント、３０パーセント、さらには５０パーセント以上異なる平均ピッチ（すなわち、シナリオの長さにわたる）を有する２つのボイスなどの異なるボイスとすることができる。シナリオごとに異なることがある別の特徴は、他の１つまたは複数のソースの出力振幅に対するソースの出力振幅である。シナリオごとに異なることがある別の特徴は、他の１つまたは複数のマイクロホンの利得感度に対するマイクロホンの利得感度である。

以下で説明するように、Ｋチャネルトレーニング信号のセットは、タスクＴ３０においてフィルタ係数値の収束セットを得るために使用される。トレーニング信号の各々の持続時間は、トレーニング動作の予想される収束レートに基づいて選択できる。たとえば、収束に向かった著しい進展を可能にするのに十分長いが、他のトレーニング信号も収束ソリューションに実質的に寄与できるようにするのに十分短い、各トレーニング信号の持続時間を選択することが望ましい。典型的な適用例では、トレーニング信号の各々は、約１／２または１秒〜約５または１０秒持続する。典型的なトレーニング動作では、トレーニング信号のコピーは、トレーニングに使用すべきサウンドファイルを得るためにランダムな順序で連結される。トレーニングファイルの典型的な長さは、１０、３０、４５、６０、７５、９０、１００、および１２０秒を含む。

近距離シナリオ（たとえば、通信デバイスがユーザの口の近くに保持されるとき）では、遠距離シナリオ（たとえば、デバイスがユーザの口から遠くに保持されるとき）とは異なる振幅と遅延との関係が、マイクロホン出力間に存在することがある。Ｐ個のシナリオの範囲は、近距離シナリオと遠距離シナリオの両方を含むことが望ましい。以下に示すように、タスクＴ３０は、異なるフィルタをトレーニングするために、近距離および遠距離シナリオからのトレーニング信号を使用するように構成できる。

Ｐ個の音響シナリオの各々では、（ＩＴＵ−Ｔ勧告Ｐ．５０、国際電気通信連合、スイス、ジュネーブ、１９９３年３月に記載されているように）ユーザの口の人工スピーチ、および／または（「IEEE Transactions on Audio and Electroacoustics」、第１７巻、２２７〜４６ページ、１９６９年において「IEEE Recommended Practices for Speech Quality Measurements」に記載されているように）ＨａｒｖａｒｄＳｅｎｔｅｎｃｅの１つまたは複数などの標準化された語彙を発しているボイスから複製することによって、情報信号をＫ個のマイクロホンに供給することができる。１つのそのような例では、スピーチは、８９ｄＢの音圧レベルでＨＡＴＳの口部ラウドスピーカから再生される。Ｐ個のシナリオの少なくとも２つは、この情報信号に関して互いに異なることができる。たとえば、異なるシナリオは、実質的に異なるピッチを有するボイスを使用することができる。追加または代替として、Ｐ個のシナリオの少なくとも２つは、（たとえば、異なるマイクロホンに応答した変動に対してロバストである収束ソリューションをサポートするために）参照デバイスの異なる実例を使用することができる。

適用例の１つの特定のセットでは、Ｋ個のマイクロホンは、セルラー電話ハンドセットなどのワイヤレス通信用の携帯デバイスのマイクロホンである。図１Ａおよび図１Ｂは、そのようなデバイスの２つの異なる動作構成を示し、図２〜図４Ｂは、これらの構成のための様々な異なる配向状態を示す。２つ以上のそのような配向状態を、Ｐ個のシナリオのうちの異なるシナリオにおいて使用することができる。たとえば、Ｋチャネルトレーニング信号の１つは、これらの２つの配向の一方においてマイクロホンによって生成される信号に基づき、Ｋチャネルトレーニング信号のもう１つは、これらの２つの配向の他方においてマイクロホンによって生成される信号に基づくことが望ましい。

（たとえば、各構成について収束フィルタ状態の別々のセットを得るために）デバイスの異なる動作構成の各々に対して方法Ｍ１０の別々の実例を実行することも可能である。そのような場合、装置Ａ２００は、実行時に収束フィルタ状態の様々なセット（すなわち、フィルタバンク１００の異なる実例）の中で選択するように構成できる。たとえば、装置Ａ２００は、デバイスが開いているか閉じているかを指示するスイッチの状態に対応するフィルタ状態のセットを選択するように構成できる。

適用例の別の特定のセットでは、Ｋ個のマイクロホンは、有線またはワイヤレスイヤホンあるいは他のヘッドセットのマイクロホンである。図９は、本明細書で説明する、そのようなヘッドセットの一例６３を示す。そのようなヘッドセットのためのトレーニングシナリオは、上記でハンドセット適用例を参照しながら説明したように情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。図９にヘッドセット取り付け可変性６６によって示すように、Ｐ個のトレーニングシナリオのうちの異なるシナリオによってモデル化できる別の変動は、耳に対するトランスデューサ軸の変動する角度である。そのような変動は、実際問題としてユーザごとに生じることがある。そのような変動は、同じユーザがデバイスを着用する単一の期間に関してさえ生じることがある。そのような変動は、トランスデューサアレイからユーザの口への方向および距離を変化させることによって信号分離性能に悪影響を及ぼす場合があることが理解されよう。そのような場合、複数のＫチャネルトレーニング信号の１つは、ヘッドセットが、取り付け角度の予想される範囲の１つの極値またはその近くの角度で耳６５に取り付けられるシナリオに基づき、Ｋチャネルトレーニング信号のもう１つは、ヘッドセットが、取り付け角度の予想される範囲の他の極値またはその近くの角度で耳６５に取り付けられるシナリオに基づくことが望ましい。Ｐ個のシナリオのうちの他のシナリオは、これらの極値間の中間の角度に対応する１つまたは複数の配向を含むことができる。

適用例のさらなるセットでは、Ｋ個のマイクロホンは、ハンズフリー車キットに設けられたマイクロホンである。図３９に、ラウドスピーカ８５がマイクロホンアレイ８４に対して直角に配設された、そのような通信デバイス８３の一例を示す。そのようなデバイスのためのＰ個の音響シナリオは、上記でハンドセット適用例を参照しながら説明したように、情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。たとえば、図４０に示すように、２つ以上のＰ個のシナリオは、マイクロホンアレイに対する所望のスピーカの配置において異なることができる。Ｐ個のシナリオの１つまたは複数はまた、ラウドスピーカ８５から干渉信号を再生することを含むことができる。異なるシナリオは、時間的および／または周波数的に異なるシグナチャ（たとえば、実質的に異なるピッチ周波数）を有する音楽および／またはボイスなど、ラウドスピーカ８５から再生される干渉信号を含むことができる。そのような場合、方法Ｍ１０は、所望のスピーチ信号から干渉信号を分離する少なくとも１つのフィルタ状態を生成することが望ましい。Ｐ個のシナリオの１つまたは複数はまた、上述のように拡散または指向性ノイズフィールドなどの干渉を含むことができる。

適用例のさらなるセットでは、Ｋ個のマイクロホンは、ペン、スタイラス、または他の描画デバイス内に設けられたマイクロホンである。図４１に、先端から到着し、先端と描画面８１との間の接触によって起こるスクラッチノイズ８２に対してマイクロホン８０が縦形構成で配設された、そのようなデバイス７９の一例を示す。そのような通信デバイスのためのＰ個のシナリオは、上記で適用例を参照しながら説明したように情報ソースおよび／または干渉ソースの任意の組合せを含むことができる。追加または代替として、異なるシナリオは、スクラッチノイズ８２の異なる実例（たとえば、時間および／または周波数に関して異なるシグナチャを有する）を誘発するために、異なる表面上でデバイス７９の先端を引くことを含むことができる。上述のようにハンドセットまたはヘッドセット適用例に比較して、そのような適用例では、方法Ｍ１０は、情報ソース（すなわち、ユーザのボイス）ではなく干渉ソース（すなわち、スクラッチノイズ）を分離するフィルタ状態のセットを生成することが望ましい。そのような場合、分離された干渉は、後の処理ステージで所望の信号から除去できる（たとえば、本明細書で説明するようにノイズ基準として適用できる）。

方法Ｍ１０によって生成される収束フィルタソリューションのセットの空間分離特性（たとえば、様々なビームパターンの形状および配向）は、タスクＴ１０においてトレーニング信号を収集するために使用されるマイクロホンの相対特性に敏感であることがある。デバイスを使用してトレーニング信号のセットを記録する前に、少なくとも参照デバイスのＫ個のマイクロホンの利得を互いに対して較正することが望ましい。また、プロダクション中および／またはプロダクション後に、少なくとも各プロダクションデバイスのマイクロホンの利得を互いに対して較正することが望ましい。

個々のマイクロホン素子が音響的にうまく特徴づけられたとしても、素子を通信デバイスに取り付ける方法、および音響ポートの品質などのファクタの差により、同様のマイクロホン素子が実際の使用において大幅に異なる周波数および利得応答パターンを有することがある。したがって、マイクロホンアレイを通信デバイスに設置した後に、マイクロホンアレイのそのような較正を実行することが望ましい。

マイクロホンのアレイの較正は特殊なノイズフィールド内で実行でき、通信デバイスは、そのノイズフィールド内に特定の方法で配向される。図４２に、両方のマイクロホン（それぞれ全方向または単方向とすることができる）が同じＳＰＬレベルに等しく露出されるように、２点のソースノイズフィールドに置かれた２つのマイクロホンハンドセットの例を示す。プロダクションデバイス（たとえば、ハンドセット）の工場較正を実行するために使用できる他の較正エンクロージャおよび手順の例は、マルチマイクロホンデバイスの較正に限定した目的のために、参照により本明細書に組み込まれる、２００８年６月３０日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR CALIBRATION OF MULTI-MICROPHONE DEVICES」と題する米国特許出願第６１／０７７，１４４号に記載されている。参照デバイスのマイクロホンの周波数応答および利得を一致させることは、プロダクション中に音響空洞および／またはマイクロホン感度の変動を訂正するのを助けることができ、各プロダクションデバイスのマイクロホンを較正することも望ましい。

プロダクションデバイスのマイクロホンと参照デバイスのマイクロホンとが、同じ手順を使用して適切に較正されるようにすることが望ましい。代替的に、異なる音響較正手順をプロダクション中に使用することができる。たとえば、部屋サイズの無響室において実験室手順を使用して参照デバイスを較正すること、および工場の現場で（たとえば、上記で組み込まれる米国特許出願第６１／０７７，１４４号に記載されているように）ポータブルチャンバにおいて各プロダクションデバイスを較正することが望ましい。プロダクション中に音響較正手順を実行することが可能でない場合には、自動利得マッチング手順を実行するようにプロダクションデバイスを構成することが望ましい。そのような手順の例は、マイクロホン較正の技法および／または実装の説明に限定された目的のために、参照により本明細書に組み込まれる、２００８年６月２日に出願された、「SYSTEM AND METHOD FOR AUTOMATIC GAIN MATCHING OF A PAIR OF MICROPHONES」と題する米国仮特許出願第６１／０５８，１３２号に記載されている。

プロダクションデバイスのマイクロホンの特性は、時間とともに変動することがある。代替または追加として、そのようなデバイスのアレイ構造は、時間とともに機械的に変化することがある。したがって、サービス中に周期的に、または何らかの他のイベント（たとえば、ユーザ選択）時に、１つまたは複数のマイクロホン周波数特性および／または感度（たとえば、マイクロホン利得間の比）を一致させるように構成された較正ルーチンを通信デバイス内に含むことが望ましい。そのような手順の例は、上記で組み込まれる米国仮特許出願第６１／０５８，１３２号に記載されている。

Ｐ個のシナリオの１つまたは複数は、指向性干渉ソースを与えるために、（たとえば、標準化された語彙を発する人工スピーチおよび／またはボイスによって）通信デバイスの１つまたは複数のラウドスピーカを駆動することを含むことができる。１つまたは複数のそのようなシナリオを含むことは、遠端オーディオ信号からの干渉に対する得られた収束フィルタソリューションのロバストネスをサポートするのを助けることができる。そのような場合、参照デバイスの１つまたは複数のラウドスピーカは、プロダクションデバイスのモデルと同じ、１つまたは複数のモデルであり、同じ方法で同じロケーションに取り付けられることが望ましい。図１Ａに示す動作構成では、そのようなシナリオは第１のスピーカＳＰ１０を駆動することを含むことができ、図１Ｂに示す動作構成では、そのようなシナリオは第２のスピーカＳＰ２０を駆動することを含むことができる。シナリオは、たとえば、図３８に示す干渉ソースのアレイによって生成される拡散ノイズフィールドの追加または代替として、そのような干渉ソースを含むことができる。

代替または追加として、方法Ｍ１０の実例は、上述のようにエコーキャンセラＥＣ１０のための１つまたは複数の収束フィルタセットを得るために実行できる。エコーキャンセラがフィルタバンク１００の上流にある場合には、トレーニング信号の記録中にエコーキャンセラのトレーニングされたフィルタをフィルタバンク１００に対して使用できる。エコーキャンセラがフィルタバンク１００の下流にある場合には、トレーニング信号の記録中にフィルタバンク１００のトレーニングされたフィルタをエコーキャンセラに対して使用できる。

無響室内に配置されたＨＡＴＳを、タスクＴ１０においてトレーニング信号を記録するための好適なテストデバイスとして説明するが、他の人型ロボットシミュレータまたは人間スピーカを所望のスピーチ生成ソースの代わりに使用することができる。そのような場合、（たとえば、可聴周波数の所望の範囲にわたるフィルタ係数行列をより良く調整するために）少なくともある量のバックグラウンドノイズを使用することが望ましい。デバイスの使用より前および／または使用中に、プロダクションデバイスに対してテストを実行することも可能である。たとえば、テストは、マイクロホンから口までの典型的な距離など、通信デバイスのユーザの特徴に基づいて、および／または予想される使用環境に基づいて個人化できる。一連の予め設定された「質問」をユーザ応答に対して設計することができ、たとえば、特定の特徴、形質、環境、使用などに対してシステムを調整するのを助けることができる。

タスクＴ２０は、トレーニング信号のＱ個のサブセットを得るためにトレーニング信号のセットの各々を分類し、Ｑは、タスクＴ３０においてトレーニングすべきフィルタの数に等しい整数である。分類を各トレーニング信号のすべてのＫ個のチャネルに基づいて実行することができ、または分類を各トレーニング信号のＫ個のチャネルのすべてよりも少数のチャネルに限定することができる。ＫがＭよりも大きい場合、たとえば、分類を各トレーニング信号のＭ個のチャネルの同じセット（すなわち、トレーニング信号を記録するために使用されたアレイのＭ個のマイクロホンの特定のセットから開始したチャネルのみ）に限定することが望ましい。

分類基準は先験的知識および／または発見的方法を含むことができる。１つのそのような例では、タスクＴ２０は、トレーニング信号が記録されたシナリオに基づいて、各トレーニング信号を特定のサブセットに割り当てる。タスクＴ２０では、近距離シナリオからのトレーニング信号を、遠距離シナリオからのトレーニング信号とは異なる１つまたは複数のサブセットに分類することが望ましい。別の例では、タスクＴ２０は、トレーニング信号の２つ以上のチャネルの相対エネルギーに基づいてトレーニング信号を特定のサブセットに割り当てる。

代替または追加として、分類基準は、トレーニング信号を空間的に処理するために１つまたは複数の空間分離フィルタを使用することによって得られる結果を含むことができる。そのような１つまたは複数のフィルタは、タスクＴ３０の前の反復によって生成される対応する１つまたは複数の収束フィルタ状態に従って構成できる。代替または追加として、１つまたは複数のそのようなフィルタは、本明細書で説明するようにビームフォーミングまたは結合ＢＳＳ／ビームフォーミング方法に従って構成できる。たとえば、タスクＴ２０では、Ｑ個の空間分離フィルタのどれが信号のスピーチおよびノイズ成分の最良の分離を生成すると考えられるかに基づいて（たとえば、図１４Ａ〜図１４Ｄを参照しながら上記で説明した基準に従って）、各トレーニング信号を分類することが望ましい。

タスクＴ２０がトレーニング信号のすべてをＱ個のサブセットに分類することができない場合、Ｑの値を増加させることが望ましい。代替的に、分類タスクＴ２０の別の反復を実行する前に、トレーニング信号の新しいセットを得るため、分類基準の１つまたは複数を変更するため、および／または各トレーニング信号のＭ個のチャネルの異なるセットを選択するために、異なるマイクロホン配置について記録タスクＴ１０を繰り返すことが望ましい。タスクＴ２０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。

タスクＴ３０は、Ｑ個のトレーニングサブセットの各々を使用して、それぞれのソース分離アルゴリズムに従って対応する適応フィルタ構造をトレーニングする（すなわち、対応する収束フィルタソリューションを計算する）。Ｑ個のフィルタ構造の各々は、フィードフォワードおよび／またはフィードバック係数を含むことができ、有限インパルス応答（ＦＩＲ）または無限インパルス応答（ＩＩＲ）設計とすることができる。そのようなフィルタ構造の例は、上記で組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。タスクＴ３０は参照デバイス内で実行できるが、一般に、パーソナルコンピュータまたはワークステーションを使用して通信デバイスの外部で実行される。

「ソース分離アルゴリズム（source separation algorithms）」という用語は、独立成分分析（ＩＣＡ）、および独立ベクトル分析（ＩＶＡ）などの関連する方法など、ブラインドソース分離アルゴリズムを含む。ブラインドソース分離（ＢＳＳ）アルゴリズムは、ソース信号の混合のみに基づいて、（１つまたは複数の情報ソースおよび１つまたは複数の干渉ソースからの信号を含むことがある）個々のソース信号を分離する方法である。「ブラインド（blind）」という用語は、基準信号または当該の信号が利用可能でないということを指し、そのような方法は、通常、情報信号および／または干渉信号の１つまたは複数の統計値に関する仮定を含む。スピーチ適用例では、たとえば、当該のスピーチ信号は、通常、スーパーガウス分布（たとえば、高い尖度）を有すると仮定される。

典型的なソース分離アルゴリズムは、混合信号のセットを処理して、（Ａ）信号とノイズの両方を有する結合チャネルと、（Ｂ）少なくとも１つのノイズ優位チャネルとを含む分離されたチャネルのセットを生成するように構成される。結合チャネルはまた、入力チャネルに比較して増加した信号対雑音比（ＳＮＲ）を有することがある。タスクＴ３０では、得られた出力信号において指向性成分のエネルギーが出力チャネルの１つに集中するように、指向性成分を有する入力信号をフィルタ処理するように構成された収束フィルタ構造を生成することが望ましい。

ＢＳＳアルゴリズムの種類は、多変量ブラインドデコンボリューションアルゴリズムを含む。ソース分離アルゴリズムはまた、たとえば、マイクロホンアレイの軸に対する、ソース信号の１つまたは複数の各々の知られている方向などの他の先験的情報によって制限された、ＩＣＡおよびＩＶＡなど、ＢＳＳアルゴリズムの変形態を含む。そのようなアルゴリズムは、指向性情報のみに基づき、観測された信号に基づかない固定の非適応型ソリューションを適用するビームフォーマ（beamformers）と区別される。

本明細書に示すように、フィルタバンク１００の空間分離フィルタの各々および／または適応フィルタ４５０の各々は、ＢＳＳ、ビームフォーミング、または結合ＢＳＳ／ビームフォーミング方法を使用して構成できる。ＢＳＳ方法は、ＩＣＡ、ＩＶＡ、制約付きＩＣＡ、または制約付きＩＶＡのうちの少なくとも１つの実装形態を含むことができる。独立成分分析は、互いからおそらく独立している混合ソース信号（成分）を分離するための技法である。その簡略形態では、独立成分分析は、混合信号上の重みの「逆混合」行列を演算し、たとえば行列を混合信号で乗算して、分離された信号を生成する。重みは、初期値を割り当てられ、次いで、情報冗長性を最小限に抑えるために信号の結合エントロピーを最大にするように調整される。信号の情報冗長性が最小限に低減されるまで、この重み調節およびエントロピー増加のプロセスは繰り返される。ＩＣＡなどの方法は、ノイズソースからのスピーチ信号の分離のための比較的正確でフレキシブルな手段を与える。独立ベクトル分析（「ＩＶＡ」）は関連する技法であり、ソース信号は、単一の可変ソース信号ではなくベクトルソース信号である。これらの技法は、各信号のソースに関する情報を必要としないので、「ブラインドソース分離」方法として知られる。ブラインドソース分離問題は、複数の独立ソースから来る混合信号を分離するアイデアに関連する。

（たとえば、フィルタバンク１００、または適応フィルタ４５０の）Ｑ個の空間分離フィルタの各々は、係数値が、ソース分離アルゴリズムから導出される学習規則を使用してタスクＴ３０によって計算される、対応する適応フィルタ構造に基づく。図４３Ａに、２つのフィードバックフィルタＣ１１０およびＣ１２０を含む適応フィルタ構造ＦＳ１０の２チャネル例のブロック図を示し、図４３Ｂに、２つの直接フィルタＤ１１０およびＤ１２０をも含むフィルタ構造ＦＳ１０の実装形態ＦＳ２０のブロック図を示す。そのような構造をトレーニングするためにタスクＴ３０によって使用される学習規則は、フィルタの出力チャネル間の情報を最大にする（たとえば、フィルタの出力チャネルの少なくとも１つによって含まれる情報量を最大にする）ように設計できる。そのような基準は、出力チャネルの統計的独立を最大にすること、または出力チャネルの間の相互情報量を最小限に抑えること、または出力においてエントロピーを最大にすることと言い換えることもできる。使用できる異なる学習規則の特定の例には、最大情報（ｉｎｆｏｍａｘとしても知られる）、最大の尤度、および最大非ガウス性（たとえば、最大の尖度）がある。そのような適応構造、およびＩＣＡまたはＩＶＡ適応フィードバックおよびフィードフォワード方式に基づく学習規則のさらなる例は、２００６年３月９日に公開された「System and Method for Speech Processing using Independent Component Analysis under Stability Constraints」と題する米国特許出願公開第２００６／００５３００２Ａ１号、２００６年３月１日に出願された「System and Method for Improved Signal Separation using a Blind Signal Source Process」と題する米国仮出願第６０／７７７，９２０号、２００６年３月１日に出願された「System and Method for Generating a Separated Signal」と題する米国仮出願第６０／７７７，９００号、および「Systems and Methods for Blind Source Signal Separation」と題する国際特許公開第ＷＯ２００７／１００３３０Ａ１号（Kimら）に記載されている。適応フィルタ構造、およびタスクＴ３０においてそのようなフィルタ構造をトレーニングするために使用できる学習規則の追加の説明は、上記で参照により組み込まれる米国特許出願第１２／１９７，９２４号に記載されている。

Ｑ個のフィルタの１つまたは複数（場合によってはすべて）は同じ適応構造に基づくことができ、そのような各フィルタは異なる学習規則に従ってトレーニングされる。代替的に、Ｑ個のフィルタのすべては異なる適応フィルタ構造に基づくことができる。図４３Ａに示すフィードバック構造ＦＳ１０をトレーニングするために使用できる学習規則の一例は、次のように表される。

ここで、ｔは、時間サンプル指数を示し、ｈ_１２（ｔ）は、時間ｔにおけるフィルタＣ１１０の係数値を示し、ｈ_２１（ｔ）は、時間ｔにおけるフィルタＣ１２０の係数値を示し、記号

は、時間領域畳み込み演算を示し、Δｈ_１２ｋは、出力値ｙ_１（ｔ）およびｙ_２（ｔ）の計算に続くフィルタＣ１１０のｋ番目の係数値の変化を示し、Δｈ_２１ｋは、出力値ｙ_１（ｔ）およびｙ_２（ｔ）の計算に続くフィルタＣ１２０のｋ番目の係数値の変化を示す。アクティブ化関数ｆを、所望の信号の累積密度関数に近似する非線形有界関数として実装することが望ましい。スピーチ適用例のためのアクティブ化信号ｆに使用できる非線形有界関数の例には、双曲正接関数、シグモイド関数、および符号関数がある。

ＩＣＡおよびＩＶＡ技法は、非常に複雑なシナリオを解決するためにフィルタの適応を可能にするが、リアルタイムで適応するように構成された信号分離プロセスのために、これらの技法を実装することは常に可能または望ましいというわけではない。第１に、適応のために必要とされる収束時間および命令の数が、いくつかの適用例について極端に多いことがある。良好な初期条件の形態での先験的トレーニング知識の組込みは収束を加速することができるが、適用例によっては、適応は必要でないかまたは音響シナリオの一部にのみ必要である。第２に、入力チャネルの数が大きい場合、ＩＶＡ学習規則は、非常にゆっくり収束し、極小値で止まる可能性がある。第３に、ＩＶＡのオンライン適応のための計算コストは法外に高いことがある。最後に、適応フィルタリングは、ユーザによって追加の残響として知覚されるか、処理方式の下流に取り付けられたスピーチ認識システムに有害なことがある、過渡分および適応利得変調に関連することがある。

線形マイクロホンアレイ処理に使用できる別の種類の技法は、しばしば「ビームフォーミング」と呼ばれる。ビームフォーミング技法は、マイクロホンの空間ダイバーシチから生じるチャネル間の時間差を使用して、特定の方向から到着する信号の成分を強調する。より詳細には、マイクロホンの１つは、所望のソース（たとえば、ユーザの口）に直接配向され、他のマイクロホンは、このソースから比較的減衰した信号を生成する可能性がある。これらのビームフォーミング技法は、ビームを音源に向け、ヌルを他の方向に配置する、空間フィルタリングのための方法である。ビームフォーミング技法は、音源に関して仮定を行わないが、信号の残響除去または音源の位置特定の目的で、ソースとセンサとの間のジオメトリ、または音声信号自体が知られていると仮定する。フィルタバンク１００のフィルタの１つまたは複数は、データ従属またはデータ独立ビームフォーマ設計（たとえば、超指向性ビームフォーマ、最小２乗ビームフォーマ、または統計学的最適ビームフォーマ設計）に従って構成できる。データ独立ビームフォーマ設計の場合、（たとえば、ノイズ相関行列を同調させることによって）所望の空間エリアをカバーするようにビームパターンを整形することが望ましい。

「一般化サイドローブ消去」（ＧＳＣ）と呼ばれるロバストな適応ビーム成形の十分に研究された技法は、Hoshuyama, O.、Sugiyama, A.、Hirano, A.、「A Robust Adaptive Beamformer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive Filters」、IEEE Transactions on Signal Processing、第４７巻、第１０号、２６７７〜２６８４ページ、１９９９年１０月において論じられている。一般化サイドローブ消去は、測定値のセットから単一の所望のソース信号をフィルタ除去することを目的とする。ＧＳＣ原理のより完全な説明は、たとえば、Griffiths, L.J.、Jim, C.W.、「An alternative approach to linear constrained adaptive beamforming」、IEEE Transactions on Antennas and Propagation、第３０巻、第１号、２７〜３４ページ、１９８２年１月に記載されている。

Ｑ個のトレーニングサブセットの各々について、タスクＴ３０は、学習規則に従って収束のためにそれぞれの適応フィルタ構造をトレーニングする。収束ソリューションが得られるまで、トレーニングサブセットの信号に応答したフィルタ係数値の更新を続けることができる。この動作中に、トレーニングサブセットの信号の少なくとも一部を、場合によっては異なる順序で、入力として２回以上フィルタ構造に提出することができる。たとえば、収束ソリューションが得られるまで、トレーニングサブセットをループで繰り返すことができる。収束はフィルタ係数値に基づいて判断できる。たとえば、フィルタ係数値がもはや変化しないとき、または、ある時間間隔にわたってフィルタ係数値の全変化がしきい値未満（代替的に、しきい値以下）のとき、フィルタが収束したと決定できる。収束はまた、相関測定を評価することによって監視できる。クロスフィルタを含むフィルタ構造では、１つのクロスフィルタの更新動作が、別のクロスフィルタの更新動作を続けながら終了することができるように、各クロスフィルタについて独立して収束を判断することができる。代替的に、クロスフィルタのすべてが収束するまで、各クロスフィルタの更新を続けることができる。

タスクＴ３０において、フィルタが極小に収束する可能性があり、タスクＴ４０において、対応する評価セット中の信号の１つまたは複数（場合によってはすべて）に対して、そのフィルタが機能しなくなる。そのような場合、異なるトレーニングパラメータ（たとえば、異なる学習レート、異なる幾何学的制約など）を使用して、タスクＴ３０を少なくともそのフィルタについて繰り返すことができる。

タスクＴ４０は、各フィルタの分離性能を評価することによって、タスクＴ３０において生成されたＱ個のトレーニングされたフィルタのセットを評価する。たとえば、タスクＴ４０は、評価信号の１つまたは複数のセットに対するフィルタの応答を評価するように構成できる。そのような評価は、自動的におよび／または人間監視によって実行できる。タスクＴ４０は、一般に、パーソナルコンピュータまたはワークステーションを使用して、通信デバイスの外部で実行される。

タスクＴ４０は、評価信号の同じセットに対する各フィルタの応答を得るように構成できる。評価信号のこのセットは、タスクＴ３０において使用されたトレーニングセットと同じトレーニングセットとすることができる。１つのそのような例では、タスクＴ４０は、トレーニング信号の各々に対する各フィルタの応答を得る。代替的に、評価信号のセットは、トレーニングセットの信号とは異なるが同様である（たとえば、マイクロホンの同じアレイの少なくとも一部と、同じＰ個のシナリオの少なくとも一部を使用して記録される）Ｍチャネル信号のセットとすることができる。

タスクＴ４０の異なる実装形態は、評価信号の異なるそれぞれのセットに対するＱ個のトレーニングされたフィルタの少なくとも２つ（および、場合によってはすべて）の応答を得るように構成される。各フィルタの評価セットは、タスクＴ３０において使用されたトレーニングセットと同じトレーニングセットとすることができる。１つのそのような例では、タスクＴ４０は、そのそれぞれのトレーニングサブセット中の信号の各々に対する各フィルタの応答を得る。代替的に、評価信号の各セットは、対応するトレーニングサブセットの信号とは異なるが同様である（たとえば、マイクロホンの同じアレイの少なくとも一部と、同じシナリオの少なくとも１つまたは複数を使用して記録される）Ｍチャネル信号のセットとすることができる。

タスクＴ４０は、１つまたは複数のメトリックの値に従ってフィルタ応答を評価するように構成できる。各フィルタ応答では、たとえば、タスクＴ４０は、１つまたは複数のメトリックの各々の値を計算し、計算値をそれぞれのしきい値と比較するように構成できる。

フィルタを評価するために使用できるメトリックの一例は、（Ａ）評価信号の元の情報成分（たとえば、ＨＡＴＳの口部ラウドスピーカから再生されるスピーチ信号）と、（Ｂ）その評価信号に対するフィルタの応答の少なくとも１つのチャネルとの間の相関である。そのようなメトリックは、収束フィルタ構造が、情報を干渉からどのくらいうまく分離するかを示すことができる。この場合、情報成分がフィルタ応答のＭ個のチャネルの１つと実質的に相関し、他のチャネルとの相関をほとんど有しないとき、分離が示される。

フィルタを評価する（たとえば、フィルタが情報を干渉からどのくらいうまく分離するかを示す）ために使用できるメトリックの他の例には、たとえば分散などの統計特性、ガウス性、および／または尖度などの高次の統計モーメントがある。スピーチ信号に使用できるメトリックの追加の例には、ゼロ交差レートおよび時間的なバースト性（時間スパーシティ（time sparsity）としても知られる）がある。一般に、スピーチ信号は、ノイズ信号よりも低いゼロ交差レートおよび低い時間スパーシティを示す。フィルタを評価するために使用できるメトリックのさらなる一例は、評価信号の記録中のマイクロホンのアレイに対する情報または干渉ソースの実際のロケーションが、その評価信号に対するフィルタの応答によって示されるビームパターン（またはヌルビームパターン）と合致する度合いである。タスクＴ４０において使用されるメトリックは、装置Ａ２００の対応する実装形態において使用される分離測定（たとえば、状態推定器４０２、４０４、４０６、４０８、および４１４を参照しながら上述した分離測定の１つまたは複数）を含むか、またはそれに限定されることが望ましい。

タスクＴ４０は、各計算されたメトリック値を対応するしきい値と比較するように構成できる。そのような場合、各メトリックの計算値がそれぞれのしきい値を上回れば（代替的に、少なくともしきい値に等しければ）、フィルタは信号の適切な分離結果を生成すると言うことができる。複数のメトリックのそのような比較方式において、１つまたは複数の他のメトリックの計算値が高いとき、１つのメトリックのしきい値を低減することができることを、当業者なら認識するであろう。

タスクＴ４０は、各評価信号に対して、Ｑ個のトレーニングされたフィルタの少なくとも１つが適切な分離結果を生成することを検証するように構成できる。たとえば、タスクＴ４０は、Ｑ個のトレーニングされたフィルタの各々が、そのそれぞれの評価セット中の各信号に対して適切な分離結果を与えることを検証するように構成できる。

代替的に、タスクＴ４０は、評価信号のセット中の各信号に対して、Ｑ個のトレーニングされたフィルタの適切な１つが、Ｑ個のトレーニングされたフィルタのすべての中で最良の分離性能を与えることを検証するように構成できる。たとえば、タスクＴ４０は、Ｑ個のトレーニングされたフィルタの各々が、評価信号のそのそれぞれのセット中の信号のすべてに対して、Ｑ個のトレーニングされたフィルタのすべての中で最良の分離性能を与えることを検証するように構成できる。評価信号のセットがトレーニング信号のセットと同じである場合には、タスクＴ４０は、各評価信号に対して、その信号を使用してトレーニングされたフィルタが最良の分離結果を生成することを検証するように構成できる。

タスクＴ４０はまた、状態推定器４００（たとえば、プロダクションデバイスで使用すべき状態推定器４００の実装形態）を使用してフィルタ応答を分類することによって、フィルタ応答を評価するように構成できる。１つのそのような例では、タスクＴ４０は、トレーニング信号のセットの各々に対するＱ個のトレーニングされたフィルタの各々の応答を得る。これらのトレーニング信号の各々について、得られたＱ個のフィルタ応答は、対応する配向状態を示す状態推定器４００に供給される。タスクＴ４０は、配向状態の得られたセットが、タスクＴ２０からの対応するトレーニング信号の分類に一致するかどうか（または、どのくらいうまく一致するか）を判断する。

タスクＴ４０は、トレーニングされたフィルタＱの数の値を変化させるように構成できる。たとえば、タスクＴ４０は、Ｑ個のトレーニングされたフィルタの２つ以上が適切な分離結果を生成する評価信号の数（または割合）が、しきい値を上回る（代替的に、少なくともしきい値に等しい）場合、Ｑの値を低減するように構成できる。代替または追加として、不十分な分離性能が見られる評価信号の数（または割合）がしきい値を上回る（代替的に、少なくともしきい値に等しい）場合、タスクＴ４０はＱの値を増加させるように構成できる。

タスクＴ４０が評価信号の一部のみに対して機能しない可能性があり、タスクＴ４０がパスした複数の評価信号に適した、対応するトレーニングされた１つまたは複数のフィルタを保持することが望ましい。そのような場合、方法Ｍ１０を繰り返して、他の評価信号に対するソリューションを得ることが望ましい。代替的に、タスクＴ４０が機能しなかった信号を特殊な場合として無視することができる。

タスクＴ４０では、収束フィルタソリューションのセットが、ＴＩＡ−８１０−Ｂ（たとえば、バージニア州Ａｒｌｉｎｇｔｏｎ、米国電気通信工業会によって公表された２００６年１１月版）などの規格文書で指定された送信応答公称ラウドネス曲線など、他の性能基準に準拠することを検証することが望ましい。

方法Ｍ１０は一般に反復的設計プロセスであり、タスクＴ４０において所望の評価結果が得られるまで、タスクＴ１０、Ｔ２０、Ｔ３０、およびＴ４０の１つまたは複数を変更し、繰り返すことが望ましい。たとえば、方法Ｍ１０の反復は、タスクＴ３０において新しいトレーニングパラメータを使用すること、タスクＴ３０において新しい区分を使用すること、および／またはタスクＴ１０において新しいトレーニングデータを記録することを含むことができる。

参照デバイスは、プロダクションデバイスよりも多くのマイクロホンを有することが可能である。たとえば、参照デバイスはＫ個のマイクロホンのアレイを有することができ、各プロダクションデバイスはＭ個のマイクロホンのアレイを有する。最小数の固定のフィルタセットが、最大数のユーザデバイス保持パターンのセット、またはその中の少なくとも最も一般的なユーザデバイス保持パターンからトレーニング信号を適切に分離することができるように、マイクロホン配置（またはＫチャネルマイクロホンアレイのサブセット）を選択することが望ましい。１つのそのような例では、タスクＴ４０は、タスクＴ３０の次の反復のためのＭ個のチャネルのサブセットを選択する。

タスクＴ４０において、Ｑ個のトレーニングされたフィルタセットについて所望の評価結果が得られると、それらのフィルタ状態をフィルタバンク１００のフィルタの固定の状態としてプロダクションデバイスにロードすることができる。上述のように、各プロダクションデバイスにおいて、実験室、工場、または自動（たとえば、自動利得整合）較正手順など、マイクロホンの利得および／または周波数応答を較正するための手順を実行することも望ましい。

方法Ｍ１０において生成されるＱ個のトレーニングされたフィルタを、トレーニング信号の別のセットをフィルタ処理するために使用することもでき、（たとえば、適応フィルタ４５０の１つまたは複数の成分フィルタについて）適応フィルタ４５０の初期条件を計算するために参照デバイスを使用して記録することもできる。適応フィルタの初期条件のそのような計算の例は、適応フィルタの設計、トレーニング、および／または実装形態の説明に限定した目的のために、参照により本明細書に組み込まれる、２００８年８月２５日に出願された、「SYSTEMS, METHODS, AND APPARATUS FOR SIGNAL SEPARATION」と題する米国特許出願第１２／１９７，９２４号の、たとえば、段落［００１２９］〜［００１３５］（「It may be desirable」で開始し「cancellation in parallel」で終了する）に記載されている。そのような初期条件はまた、（たとえば、フィルタバンク１００のトレーニングされたフィルタに関して）プロダクション中に、同じまたは同様のデバイスの他の実例にロードできる。同様に、方法Ｍ１０の実例を実行して、以下で説明するフィルタバンク２００のフィルタの収束フィルタ状態を得ることができる。

前述の装置Ａ２００の実装形態は、状態推定と出力信号Ｓ４０の生成との両方ために単一のフィルタバンクを使用する。状態推定と出力生成とに異なるフィルタバンクを使用することが望ましい。たとえば、状態推定フィルタバンクには連続的に実行する、より複雑でないフィルタを使用し、出力生成フィルタバンクには必要に応じてのみ実行する、より複雑なフィルタを使用することが望ましい。そのような手法は、適用例および／または性能基準によっては、より低い電力コストでより良い空間処理性能を提供することができる。フィルタのそのような選択的アクティブ化はまた、異なる時間に（たとえば、フィルタ係数値の異なるセットをロードすることによって）異なるフィルタと同じフィルタ構造の使用をサポートするために適用できることも、当業者なら認識するであろう。

図４４に、本明細書で説明するフィルタバンク１００（各フィルタＦ１０−１〜Ｆ１０−ｎは、ｎ個のＭチャネル空間処理済み信号Ｓ２０−１〜Ｓ２０−ｎの対応する１つを生成するように構成される）と、出力生成フィルタバンク２００とを含む、一般的構成による装置Ａ１００のブロック図を示す。（上述の設計手順においてフィルタバンク１００のフィルタとともに得られた）フィルタバンク２００のフィルタＦ２０−１〜Ｆ２０−ｎの各々は、入力信号Ｓ１０に基づくＭチャネル信号を受信し、処理し、Ｍチャネル空間処理済み信号Ｓ３０−１〜Ｓ３０−ｎの対応する１つを生成するように構成される。スイッチング機構３００は、（たとえば、状態推定器４００を参照しながら本明細書で説明するように）現在どのフィルタＦ１０−１〜Ｆ１０−ｎが入力信号Ｓ１０の所望の成分とノイズ成分とを最も良く分離するかを判断し、（たとえば、遷移制御モジュール５００を参照しながら本明細書で説明するように）信号Ｓ３０−１〜Ｓ３０−ｎの少なくとも対応する選択された１つに基づく出力信号Ｓ４０を生成するように構成される。スイッチング機構３００はまた、たとえば、その出力が出力信号Ｓ４０に現在寄与しているフィルタのみが現在アクティブであるようにフィルタＦ２０−１〜Ｆ２０−ｎの個々のフィルタを選択的にアクティブにするように構成できる。したがって、どの時点においても、フィルタバンク２００は、信号Ｓ３０−１〜Ｓ３０−ｎのｎ個よりも少ない（および場合によっては１つまたは２つのみの）信号を出力している。

図４５に、フィルタバンク２４０のフィルタＦ２６−１がフィルタバンク１４０のフィルタＦ１６−１に対応し、フィルタバンク２４０のフィルタＦ２６−２がフィルタバンク１４０のフィルタＦ１６−２に対応するように、フィルタバンク１００の２フィルタ実装形態１４０とフィルタバンク２００の２フィルタ実装形態２４０とを含む、装置Ａ１００の実装形態Ａ１１０のブロック図を示す。フィルタバンク１４０の対応するフィルタのより長い、あるいはより複雑なバージョンとしてフィルタバンク２４０の各フィルタを実装することが望ましく、そのような対応するフィルタの（たとえば、図５および図６Ａ〜図６Ｃの図に示す）空間処理エリア同士は少なくともほぼ一致することが望ましい。

装置Ａ１１０はまた、状態推定器４００の実装形態４２０と遷移制御モジュール５００の２フィルタ実装形態５１０とを有するスイッチング機構３００の実装形態３０５を含む。この特定の例では、状態推定器４２０は、必要な場合のみフィルタを使用可能にするように、制御信号Ｓ９０の実例Ｓ９０−１およびＳ９０−２の対応する１つをフィルタバンク２４０の各フィルタに出力するように構成される。たとえば、状態推定器４２０は、（Ａ）推定状態Ｓ５０が、そのフィルタに対応する配向状態を示す期間中、および（Ｂ）遷移制御モジュール５１０が、そのフィルタの出力に遷移するか、またはそのフィルタの出力から遷移するように構成されたマージ間隔中に、対応するフィルタを使用可能にするように、（一般にバイナリ値である）制御信号Ｓ９０の各実例を生成するように構成できる。したがって、状態推定器４２０は、現在および前の推定状態、関連する遅延およびマージ間隔、および／またはフィルタバンク２００の対応するフィルタの長さなどの情報に基づいて、各制御信号を生成するように構成できる。

図４６に、フィルタバンク２５０のフィルタＦ２８−１がフィルタバンク１５０のフィルタＦ１８−１に対応し、フィルタバンク２５０のフィルタＦ２８−２がフィルタバンク１５０のフィルタＦ１８−２に対応するように、フィルタバンク１００の２フィルタ実装形態１５０とフィルタバンク２００の２フィルタ実装形態２５０とを含む、装置Ａ１００の実装形態Ａ１２０のブロック図を示す。この場合、フィルタリングは２つのステージにおいて実行され、第２のステージ（すなわち、フィルタバンク２５０）のフィルタは、（たとえば、上述のように、そのフィルタの選択中およびそのフィルタの出力への遷移またはそのフィルタの出力からの遷移中に）必要な場合のみ使用可能にされる。フィルタバンクはまた、フィルタバンク１５０のフィルタが固定であり、フィルタバンク２５０のフィルタが適応型であるように実装できる。ただし、各２ステージのフィルタの（たとえば、図５および図６Ａ〜図６Ｃの図に示す）空間処理エリアがフィルタバンク１００のフィルタの対応する１つの空間処理エリアと少なくともほぼ一致するように、フィルタバンク２５０のフィルタを実装することが望ましい。装置Ａ２００の実装形態の使用が開示される本明細書のどの文脈でも、装置Ａ１００の類似の実装形態の置換を実行することができ、すべてのそのような組合せおよび構成が明確に企図され、本明細書によって開示されることを、当業者なら認識するであろう。

図４７に、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法Ｍ１００のフローチャートを示す。方法Ｍ１００は、入力信号に第１の空間処理フィルタを適用するタスクＴ１１０と入力信号に第２の空間処理フィルタを適用するタスクＴ１２０とを含む。方法Ｍ１００はまた、タスクＴ１３０とＴ１４０とを含む。１回目に、タスクＴ１３０は、第１の空間処理フィルタが第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離すると判断する。この判断に応答して、タスクＴ１４０は、空間フィルタ処理済み出力信号として第１の空間処理済み信号に基づく信号を生成する。方法Ｍ１００はまた、タスクＴ１５０とＴ１６０とを含む。１回目に続いて２回目に、タスクＴ１５０は、第２の空間処理フィルタが第１の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離すると判断する。この判断に応答して、タスクＴ１６０は、空間フィルタ処理済み出力信号として第２の空間処理済み信号に基づく信号を生成する。本方法では、第１および第２の空間処理済み信号は、入力信号に基づく。

上述の装置Ａ１００を使用して、方法Ｍ１００の実装形態を実行することができる。そのような場合、タスクＴ１１０およびＴ１２０において適用される第１および第２の空間処理フィルタは、フィルタバンク１００の２つの異なるフィルタである。スイッチング機構３００を使用して、第１の空間処理済み信号が、タスクＴ１１０において適用されたフィルタバンク１００のフィルタに対応するフィルタバンク２００のフィルタの出力となるように、タスクＴ１３０およびＴ１４０を実行することができる。スイッチング機構３００を使用して、第２の空間処理済み信号が、タスクＴ１２０において適用されたフィルタバンク１００のフィルタに対応するフィルタバンク２００のフィルタの出力となるように、タスクＴ１５０およびＴ１６０を実行することもできる。

上述の装置Ａ２００を使用して、方法Ｍ１００の実装形態を実行することができる。そのような場合、タスクＴ１１０において使用されるフィルタバンク１００のフィルタはまた、タスクＴ１４０において出力信号が基づく第１の空間処理済み信号を生成し、タスクＴ１２０において使用されるフィルタバンク１００のフィルタはまた、タスクＴ１６０において出力信号が基づく第２の空間処理済み信号を生成する。

図４８に、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置Ｆ１００のブロック図を示す。装置Ｆ１００は、（たとえば、フィルタバンク１００とタスクＴ１１０およびＴ１２０とを参照しながら上述したように）入力信号に対して第１の空間処理演算を実行するための手段Ｆ１１０と、入力信号に対して第２の空間処理演算を実行するための手段Ｆ１２０とを含む。装置Ｆ１００はまた、（たとえば、状態推定器４００およびタスクＴ１３０を参照しながら上述したように）１回目に、第１の空間処理演算を実行するための手段が第２の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離すると判断するための手段Ｆ１３０と、（たとえば、遷移制御モジュール５００およびタスクＴ１４０を参照しながら上述したように）そのような判断に応答して、出力信号として第１の空間処理済み信号に基づく信号を生成するための手段Ｆ１４０とを含む。装置Ｆ１００はまた、（たとえば、状態推定器４００およびタスクＴ１５０を参照しながら上述したように）１回目に続いて２回目に、第２の空間処理演算を実行するための手段が第１の空間処理演算を実行するための手段よりも良好にスピーチ成分とノイズ成分とを分離すると判断するための手段Ｆ１５０と、（たとえば、遷移制御モジュール５００およびタスクＴ１６０を参照しながら上述したように）そのような判断に応答して、出力信号として第２の空間処理済み信号に基づく信号を生成するための手段Ｆ１６０とを含む。

図４９に、本明細書で開示する装置Ａ１００またはＡ２００の実装形態を含むことができる通信デバイスＣ１００の一例のブロック図を示す。デバイスＣ１００は、アンテナＣ３０を介して高周波（ＲＦ）通信信号を受信し、ＲＦ信号内で符号化されたオーディオ信号を復号し、ラウドスピーカＳＰ１０を介して再生するように構成されたチップまたはチップセットＣＳ１０（たとえば、本明細書で説明するＭＳＭチップセット）を含む。チップ／チップセットＣＳ１０はまた、Ｍ個のマイクロホン（２つを図示、ＭＣ１０およびＭＣ２０）のアレイを介してＭチャネルオーディオ信号を受信し、装置Ａ１００またはＡ２００の内部実装形態を使用してＭチャネル信号を空間的に処理し、得られたオーディオ信号を符号化し、アンテナＣ３０を介して符号化オーディオ信号を表すＲＦ通信信号を送信するように構成される。デバイスＣ１００はまた、アンテナＣ３０への経路中にダイプレクサと１つまたは複数の電力増幅器とを含むことができる。チップ／チップセットＣＳ１０はまた、キーパッドＣ１０を介してユーザ入力を受信し、ディスプレイＣ２０を介して情報を表示するように構成される。この例では、デバイスＣ１００はまた、ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ（ＧＰＳ）ロケーションサービスおよび／またはワイヤレス（たとえば、Ｂｌｕｅｔｏｏｔｈ（登録商標））ヘッドセットなどの外部デバイスとの短距離通信をサポートする１つまたは複数のアンテナＣ４０を含む。別の例では、そのような通信デバイスは、それ自体でＢｌｕｅｔｏｏｔｈヘッドセットであり、キーパッドＣ１０、ディスプレイＣ２０、およびアンテナＣ３０がない。

説明した構成の前述の提示は、本明細書で開示する方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、状態図、および他の構造は例にすぎず、これらの構造の他の変形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的原理は他の構成にも同様に適用できる。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願される添付の特許請求の範囲を含む、本明細書において任意の方法で開示された原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

本明細書で開示する装置の実装形態の様々な要素は、意図された適用例に好適であると考えられるハードウェア、ソフトウェア、および／またはファームウェアの任意の組合せで実施できる。たとえば、そのような要素は、たとえば同じチップ上に、またはチップセット中の２つ以上のチップの間に存在する電子デバイスおよび／または光デバイスとして製造できる。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定またはプログラマブルなアレイであり、これらの要素のいずれも１つまたは複数のそのようなアレイとして実装できる。これらの要素の任意の２つ以上、さらにはすべてを同じ１つまたは複数のアレイ内に実装することができる。そのような１つまたは複数のアレイは、１つまたは複数のチップ内（たとえば、２つ以上のチップを含むチップセット内）に実装できる。

本明細書で開示する装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け標準製品）、およびＡＳＩＣ（特定用途向け集積回路）などの論理要素の１つまたは複数の固定的なアレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。本明細書で開示する装置の実装形態の様々な要素のいずれも、１つまたは複数のコンピュータ（たとえば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたはシーケンスを実行するようにプログラムされた１つまたは複数のアレイを含む機械）として実施することもでき、これらの要素の任意の２つ以上、さらにはすべてを同じそのような１つまたは複数のコンピュータ内に実装することができる。

本明細書で開示する構成に関連して説明する様々な例示的な論理ブロック、モジュール、回路、および動作は、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装できることを、当業者なら理解されよう。そのような論理ブロック、モジュール、回路、および動作は、本明細書で説明する機能を実行するように設計された、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタロジック、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行できる。汎用プロセッサはマイクロプロセッサとすることができるが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械とすることができる。プロセッサは、コンピューティングデバイスの組合せ、たとえば、ＤＳＰとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、ＤＳＰコアと連携する１つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成としても実装できる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み取り専用メモリ）、フラッシュＲＡＭなどの不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐することができる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化することができる。プロセッサおよび記憶媒体はＡＳＩＣ中に常駐することができる。ＡＳＩＣはユーザ端末内に常駐することができる。代替として、プロセッサおよび記憶媒体はユーザ端末中の個別構成要素として常駐することができる。

（たとえば、本明細書で開示する装置の様々な実装形態の動作の説明によって）本明細書で開示する様々な方法は、プロセッサなどの論理要素のアレイによって実行でき、本明細書で説明する装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装できることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令（たとえば、論理式）を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムを１つのモジュールまたはシステムに結合することができ、１つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の１つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むものと理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶でき、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信できる。

本明細書で開示する方法、方式、および技法の実装形態は、（たとえば、本明細書に記載する１つまたは複数のコンピュータ可読媒体中で）論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械によって読取り可能および／または実行可能な命令の１つまたは複数のセットとして有形に実施することもできる。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む任意の媒体を含むことができる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能ＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、または所望の情報を記憶するために使用でき、アクセスできる任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバ、エアリンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝播することができるどんな信号をも含むことができる。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードできる。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。

本明細書で開示する方法の実装形態の典型的な適用例では、論理要素のアレイ（たとえば、論理ゲート）は、この方法の様々なタスクの１つ、複数、さらにはすべてを実行するように構成される。タスクの１つまたは複数（場合によってはすべて）は、論理要素のアレイ（たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械）を含む機械（たとえば、コンピュータ）によって可読および／または実行可能であるコンピュータプログラム製品（たとえば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップなどの１つまたは複数のデータ記憶媒体など）に埋め込まれたコード（たとえば、命令の１つまたは複数のセット）として実装することもできる。本明細書で開示する方法の実装形態のタスクは、２つ以上のそのようなアレイまたは機械によって実行することもできる。これらのまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行することができる。そのようなデバイスは、（ＶｏＩＰなどの１つまたは複数のプロトコルを使用して）回線交換および／またはパケット交換ネットワークと通信するように構成できる。たとえば、そのようなデバイスは、符号化フレームを受けるように構成されたＲＦ回路を含むことができる。

本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）などのポータブル通信デバイスによって実行でき、本明細書に記載の様々な装置は、そのようなデバイスに含めることができることが明白に開示される。典型的なリアルタイム（たとえば、オンライン）適用例は、そのようなモバイルデバイスを使用して行われる電話通話である。

１つまたは複数の例示的な実施形態では、説明した機能はハードウェア、ソフトウェア、ファームウェア、またはその任意の組合せで実装できる。ソフトウェアで実装する場合、機能は、１つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶するか、あるいはコンピュータ可読媒体を介して送信することができる。「コンピュータ可読媒体」という用語は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を可能にするいかなる媒体をも含む通信媒体との両方を含む。記憶媒体は、コンピュータによってアクセスできる任意の利用可能な媒体でよい。限定ではなく、例として、そのようなコンピュータ可読媒体は、（限定はしないが、ダイナミックまたはスタティックＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含むことができる）半導体メモリ、あるいは強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの一連の記憶要素、ＣＤ−ＲＯＭまたは他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶装置を備えることができ、あるいは所望のプログラムコードを命令またはデータ構造の形態で担持または記憶するために使用でき、コンピュータによってアクセスできる、任意の他の媒体を備えることができる。さらに、いかなる接続も正しくはコンピュータ可読媒体と呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、および／またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピーディスク（disk）およびブルーレイ（登録商標）ディスク（disc）（ブルーレイディスクアソシエーション、カリフォルニア州ＵｎｉｖｅｒｓａｌＣｉｔｙ）を含み、この場合、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記のものの組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

本明細書で説明する音響信号処理装置は、いくつかの機能を制御するためにスピーチ入力を受容し、あるいはバックグラウンドノイズから所望のノイズを分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込むことができる。多くの適用例では、複数の方向発のバックグラウンドサウンドから明瞭な所望のサウンドを強調または分離することから利益を得ることができる。そのような適用例では、ボイス認識および検出、スピーチ強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたは計算デバイスにヒューマンマシンインターフェースを含むことができる。限定された処理機能をのみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましい。

本明細書で説明するモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の２つ以上のチップ上に存在する電子デバイスおよび／または光学デバイスとして作製できる。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定またはプログラマブルなアレイである。本明細書で説明する装置の様々な実装形態の１つまたは複数の要素は、全体または一部を、マイクロプロセッサ、組込みプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣなど論理要素の１つまたは複数の固定またはプログラマブルなアレイ上で実行するように構成された命令の１つまたは複数のセットとして実装することもできる。

本明細書で説明した装置の一実装形態の１つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、あるいは装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の１つまたは複数の要素は、共通の構造（たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび／または光デバイスの構成）を有することが可能である。たとえば、ＶＡＤ２０−１、２０−２、および／または７０は、異なる時間に同じ構造を含むように実装できる。別の例では、フィルタバンク１００および／またはフィルタバンク２００の実装の１つまたは複数の空間分離フィルタは、（たとえば、異なる時間にフィルタ係数値の異なるセットを使用して）異なる時間に同じ構造を含むように実装できる。

Claims

Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法であって、
前記入力信号に第１の空間処理フィルタを適用することと、
前記入力信号に第２の空間処理フィルタを適用することと、
１回目に、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、
前記１回目に前記判断することに応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成することと、
前記１回目に続いて２回目に、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断することと、
前記２回目に前記判断することに応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成することとを備え、
前記第１および第２の空間処理済み信号が前記入力信号に基づく、
方法。
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
請求項１に記載の方法。
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
請求項１に記載の方法。
前記第１の空間処理フィルタの複数の前記係数値が、第１の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づき、
前記第２の空間処理フィルタの複数の前記係数値が、前記第１の複数のシナリオとは異なる第２の複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
請求項１に記載の方法。
前記入力信号に前記第１の空間処理フィルタを前記適用することが前記第１の空間処理済み信号を生成し、前記入力信号に前記第２の空間処理フィルタを前記適用することが前記第２の空間処理済み信号を生成する、
請求項１に記載の方法。
前記出力信号として第１の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第１の空間処理済み信号を生成することを備え、
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、前記出力信号として前記第２の空間処理済み信号を生成することを備える、
請求項５に記載の方法。
前記第１の空間処理フィルタが係数値の第１の行列によって特徴づけられ、前記第２の空間処理フィルタが係数値の第２の行列によって特徴づけられ、
前記第２の行列が、前記第１の行列を中央垂直軸に関して反転した結果に少なくとも実質的に等しい、
請求項１に記載の方法。
前記方法が、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、
前記出力信号として第１の空間処理済み信号に基づく信号を前記生成することが、前記第１の遅延間隔の後に開始される、
請求項１に記載の方法。
前記方法が、前記２回目の直後の第２の遅延間隔にわたって、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断することを備え、
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、前記第２の遅延間隔の後に実行され、
前記第２の遅延間隔が前記第１の遅延間隔より長い、
請求項８に記載の方法。
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移することを含み、
前記遷移することが、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成することを含む、
請求項１に記載の方法。
前記方法が、
前記入力信号に第３の空間処理フィルタを適用することと、
２回目に続いて３回目に、第３の空間処理フィルタが第１の空間処理フィルタよりも良好に、かつ、第２の空間処理フィルタよりも良好にスピーチ成分とノイズ成分とを分離し始めると判断することと、
前記３回目に前記判断することに応答して、出力信号として第３の空間処理済み信号に基づく信号を生成することとを備え、
前記第３の空間処理済み信号が前記入力信号に基づく、
請求項１に記載の方法。
前記出力信号として第２の空間処理済み信号に基づく信号を前記生成することが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移することを含み、
前記出力信号として第３の空間処理済み信号に基づく信号を前記生成することが、第２のマージ間隔にわたって、前記出力信号を前記第２の空間処理済み信号に基づく前記信号から前記第３の空間処理済み信号に基づく信号に前記遷移することを含み、
前記第２のマージ間隔が前記第１のマージ間隔より長い、
請求項１１に記載の方法。
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、
１回目に前記判断することが、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することを含む、
請求項１に記載の方法。
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、
１回目に前記判断することが、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値より小さいことを検出することを含む、
請求項１に記載の方法。
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
１回目に前記判断することが、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することを含む、
請求項１に記載の方法。
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、
１回目に前記判断することが、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することを含む、
請求項１に記載の方法。
前記入力信号に第１の空間処理フィルタを前記適用することが第１のフィルタ処理済み信号を生成し、
前記入力信号に第２の空間処理フィルタを前記適用することが第２のフィルタ処理済み信号を生成し、
１回目に前記判断することが、前記入力信号の２つのチャネル間の到着時間差を計算することを含む、
請求項１に記載の方法。
前記方法が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用することを備える、
請求項１に記載の方法。
Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置であって、
前記入力信号に対して第１の空間処理演算を実行するための手段と、
前記入力信号に対して第２の空間処理演算を実行するための手段と、
１回目に、第１の空間処理演算を実行するための前記手段が第２の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、
１回目に判断するための前記手段からの指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成するための手段と、
前記１回目に続いて２回目に、第２の空間処理演算を実行するための前記手段が第１の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するための手段と、
２回目に判断するための前記手段からの指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成するための手段と、を備え、
前記第１および第２の空間処理済み信号が前記入力信号に基づく、
装置。
（Ａ）第１の空間処理演算を実行するための前記手段と、（Ｂ）第２の空間処理演算を実行するための前記手段と、の中の少なくとも１つの複数の前記係数値が、複数の異なる音響シナリオの下で記録される複数のマルチチャネルトレーニング信号に基づく、
請求項１９に記載の装置。
前記入力信号に対して前記第１の空間処理演算を実行するための前記手段が、前記第１の空間処理済み信号を生成するように構成され、前記入力信号に対して前記第２の空間処理演算を実行するための前記手段が、前記第２の空間処理済み信号を生成するように構成され、
前記出力信号として第１の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第１の空間処理済み信号を生成するように構成され、
前記出力信号として第２の空間処理済み信号に基づく信号を生成するための前記手段が、前記出力信号として前記第２の空間処理済み信号を生成するように構成された、
請求項１９に記載の装置。
前記装置が、前記１回目の直後の第１の遅延間隔にわたって、第１の空間処理演算を実行するための前記手段が第２の空間処理演算を実行するための前記手段よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するための手段を備え、
前記出力信号として第１の空間処理済み信号に基づく前記信号を生成するための前記手段が、前記第１の遅延間隔の後に前記信号を生成し始めるように構成された、
請求項１９に記載の装置。
前記出力信号として第２の空間処理済み信号に基づく信号を生成するための前記手段が、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移するための手段を含み、
遷移するための前記手段が、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成するように構成された、
請求項１９に記載の装置。
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、
前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、
前記１回目に判断するための手段が、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出するための手段を含む、
請求項１９に記載の装置。
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、
前記入力信号に対して前記第２の空間処理演算を実行するための手段が第２のフィルタ処理済み信号を生成し、
１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出するための手段を含む、
請求項１９に記載の装置。
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、
前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、
１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出するための手段を含む、
請求項１９に記載の装置。
前記入力信号に対して第１の空間処理演算を実行するための前記手段が第１のフィルタ処理済み信号を生成し、
前記入力信号に対して第２の空間処理演算を実行するための前記手段が第２のフィルタ処理済み信号を生成し、
１回目に判断するための前記手段が、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出するための手段を含む、
請求項１９に記載の装置。
前記装置が、前記入力信号が基づくＭチャネル信号を生成するように構成されたマイクロホンアレイを備える、
請求項１９に記載の装置。
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用するための手段を備える、
請求項１９に記載の装置。
Ｍが１よりも大きい整数であり、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理するための装置であって、
前記入力信号をフィルタ処理するように構成された第１の空間処理フィルタと、
前記入力信号をフィルタ処理するように構成された第２の空間処理フィルタと、
１回目に、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成された状態推定器と、
１回目の前記指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成するように構成された遷移制御モジュールとを備え、
前記状態推定器が、前記１回目に続いて２回目に、前記第２の空間処理フィルタが前記第１の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示すように構成され、
前記遷移制御モジュールが２回目の前記指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成するように構成され、
前記第１および第２の空間処理済み信号が前記入力信号に基づく、
装置。
前記第１および第２の空間処理フィルタのうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束フィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
請求項３０に記載の装置。
前記第１の空間処理フィルタが前記入力信号に応答して前記第１の空間処理済み信号を生成するように構成され、前記第２の空間処理フィルタが前記入力信号に応答して前記第２の空間処理済み信号を生成するように構成され、
前記遷移制御モジュールが、前記出力信号として第１の空間処理済み信号を生成することによって、前記出力信号として前記第１の空間処理済み信号に基づく信号を生成するように構成され、
前記遷移制御モジュールが、前記出力信号として第２の空間処理済み信号を前記生成することによって、前記出力信号として前記第２の空間処理済み信号に基づく信号を生成するように構成された、
請求項３０に記載の装置。
前記状態推定器が、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断するように構成され、
前記遷移制御モジュールが、前記第１の遅延間隔中に前記出力信号として前記第２の空間処理済み信号に基づく信号を生成するように構成され、
前記遷移制御モジュールが、前記第１の遅延間隔の後に前記出力信号として前記第１の空間処理済み信号に基づく前記信号を生成するように構成された、
請求項３０に記載の装置。
前記遷移制御モジュールが、第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から第２の空間処理済み信号に基づく信号に遷移することによって、前記出力信号として前記第２の空間処理済み信号に基づく前記信号を生成するように構成され、
前記第１のマージ間隔中に、前記状態遷移モジュールが前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成するように構成された、
請求項３０に記載の装置。
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、
前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、
前記状態推定器が、前記１回目に、前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
請求項３０に記載の装置。
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、
前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、
前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
請求項３０に記載の装置。
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、
前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、
前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
請求項３０に記載の装置。
前記第１の空間処理フィルタが前記入力信号に応答して第１のフィルタ処理済み信号を生成するように構成され、
前記第２の空間処理フィルタが、前記入力信号に応答して第２のフィルタ処理済み信号を生成するように構成され、
前記状態推定器が、前記１回目に、前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出することによって、前記第１の空間処理フィルタが前記第２の空間処理フィルタよりも良好に前記スピーチ成分とノイズ成分とを分離し始めると判断するように構成された、
請求項３０に記載の装置。
前記装置が、前記入力信号が基づくＭチャネル信号を生成するように構成されたマイクロホンアレイを備える、
請求項３０に記載の装置
前記装置が、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用するように構成されたノイズ低減フィルタを備える、
請求項３０に記載の装置。
プロセッサによって実行されると、前記プロセッサに、空間フィルタ処理済み出力信号を生成するために、スピーチ成分とノイズ成分とを含むＭチャネル入力信号を処理する方法を実行させる命令を備えるコンピュータ可読媒体であって、Ｍが１よりも大きい整数であり、前記命令が、プロセッサによって実行されると、前記プロセッサに、
前記入力信号に対して第１の空間処理演算を実行させ、
前記入力信号に対して第２の空間処理演算を実行させ、
１回目に、前記第１の空間処理演算が前記第２の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、
１回目の前記指示に応答して、前記出力信号として第１の空間処理済み信号に基づく信号を生成させ、
前記１回目に続いて２回目に、前記第２の空間処理演算が前記第１の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し始めることを示させ、
２回目の前記指示に応答して、前記出力信号として第２の空間処理済み信号に基づく信号を生成させ、
前記第１および第２の空間処理済み信号が前記入力信号に基づく、
コンピュータ可読媒体。
前記第１および第２の空間処理演算のうちの少なくとも一方の複数の前記係数値が、複数のマルチチャネルトレーニング信号に基づく収束したフィルタ状態から得られ、前記複数のマルチチャネルトレーニング信号が複数の異なる音響シナリオの下で記録される、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第１の空間処理演算を実行させる前記命令が、前記プロセッサに前記第１の空間処理済み信号を生成させ、プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して前記第２の空間処理演算を実行させる前記命令が、前記プロセッサに前記第２の空間処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに前記出力信号として第１の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第１の空間処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに前記出力信号として第２の空間処理済み信号に基づく信号を生成させる前記命令が、前記プロセッサに前記出力信号として前記第２の空間処理済み信号を生成させる、
請求項４１に記載のコンピュータ可読媒体。
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記１回目の直後の第１の遅延間隔にわたって、前記第１の空間処理演算が前記第２の空間処理演算よりも良好に前記スピーチ成分とノイズ成分とを分離し続けると判断させる命令を備え、
プロセッサによって実行されると、前記プロセッサに前記出力信号として第１の空間処理済み信号に基づく前記信号を生成させる前記命令が、前記プロセッサに前記第１の遅延間隔の後に前記信号を生成し始めさせる、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに前記出力信号として第２の空間処理済み信号に基づく信号を生成させる前記命令が、プロセッサによって実行されると、前記プロセッサに第１のマージ間隔にわたって、前記出力信号を、前記第１の空間処理済み信号に基づく前記信号から前記第２の空間処理済み信号に基づく信号に遷移させる命令を含み、
プロセッサによって実行されると、前記プロセッサに遷移させる前記命令が、プロセッサによって実行されると、前記プロセッサに、前記第１のマージ間隔中に、前記出力信号として前記第１および第２の空間処理済み信号の両方に基づく信号を生成させる命令を含む、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記入力信号のチャネルと前記第１のフィルタ処理済み信号のチャネルとの間のエネルギー差が前記入力信号の前記チャネルと前記第２のフィルタ処理済み信号のチャネルとの間のエネルギー差よりも大きいことを検出させる命令を含む、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号の２つのチャネル間の相関の前記値が前記第２のフィルタ処理済み信号の２つのチャネル間の相関の前記値よりも小さいことを検出させる命令を含む、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号のチャネル間のエネルギー差が前記第２のフィルタ処理済み信号のチャネル間のエネルギー差よりも大きいことを検出させる命令を含む、
請求項４１に記載のコンピュータ可読媒体。
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第１の空間処理演算を実行させる前記命令が、前記プロセッサに第１のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに、前記入力信号に対して第２の空間処理演算を実行させる前記命令が、前記プロセッサに第２のフィルタ処理済み信号を生成させ、
プロセッサによって実行されると、前記プロセッサに１回目に示させる前記命令が、プロセッサによって実行されると、前記プロセッサに前記第１のフィルタ処理済み信号のチャネルのスピーチ測定の値が前記第２のフィルタ処理済み信号のチャネルの前記スピーチ測定の値よりも大きいことを検出させる命令を含む、
請求項４１に記載のコンピュータ可読媒体。
前記媒体が、プロセッサによって実行されると、前記プロセッサに、前記出力信号の別のチャネルのノイズを低減するために、前記出力信号の少なくとも１つのチャネルに基づくノイズ基準を適用させる命令を備える、
請求項４１に記載のコンピュータ可読媒体。