JP2004523752A

JP2004523752A - 幾何学的音源分離による信号処理装置、システムおよび方法

Info

Publication number: JP2004523752A
Application number: JP2002561820A
Authority: JP
Inventors: クリストバルパラ，ルーカス; アルビノ，クリストフアー; ダグラススペンス，クレイ; ラングデールフアンコート，クレイグ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-01-30
Filing date: 2002-01-17
Publication date: 2004-08-05
Anticipated expiration: 2022-01-17
Also published as: KR20030076640A; CN1830026A; EP1371058B1; US20040072336A1; CN1830026B; DE60203379D1; KR100878992B1; MXPA03006668A; DE60203379T2; EP1371058A1; WO2002061732A1; US7917336B2; JP4031988B2

Abstract

複数の同時マイクロホン録音から得られる音声音源や雑音音源など、信号の混合を処理して、それらの基礎をなす音源に分離するコンピュータ・システム（１０８）。音源分離ルーチン（１２４）が、フィルタ応答に対する幾何学的制約を実行しながら複数の出力チャネルのクロス・パワーを最小化することにより、フィルタ構造を最適化する。幾何学的制約（２０９、２１０、２１５、２１７）は、基礎をなす音源が空間中で局在化されるという仮定に基づいて、音源の所定の位置に対する所定の応答を実行する。

Description

【０００１】
（１．発明の分野）
本発明は、一般に信号処理に関し、より詳細には、幾何学的情報（ｇｅｏｍｅｔｒｉｃｉｎｆｏｒｍａｔｉｏｎ）および適応型ビームフォーミング技術（ａｄａｐｔｉｖｅｂｅａｍｆｏｒｍｉｎｇｔｅｃｈｎｉｑｕｅ）を用いて混合信号（ｍｉｘｅｄｓｉｇｎａｌ）の分離（ｓｅｐａｒａｔｉｏｎ）を行うための装置、システムおよび方法に関する。
【０００２】
（２．発明の背景）
ブラインド音源分離（ＢＳＳ：ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）とは、複合信号（ｃｏｍｐｏｓｉｔｅｓｉｇｎａｌ）の特性が予め分っていない状態で、複合信号をその元の構成要素（成分）信号（ｃｏｍｐｏｎｅｎｔｓｉｇｎａｌ）に分離する過程（プロセス）のことを言う。この過程は、音声認識、多重通路（経路）チャネル（ｍａｌｔｉｐａｔｈｃｈａｎｎｅｌ）の識別および等化、音響録音の信号対干渉比（ＳＩＲ：ＳｉｇｎａｌｔｏＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ）の改善、監視用途、並びに補聴器の動作において有用である。
【０００３】
多重通路環境における広帯域信号のブラインド音源分離は、幾つかの不確定さ（ａｍｂｉｇｕｉｔｙ）のある困難な問題で留まっている。センサの数を増加すると、性能を向上させることはできるが、分離フィルタの選択における不確定さにつながる。マイクロホン信号を含む空間から、より小さい信号音源空間への投射が複数あるので、理論上は、部屋の中の応答を反転する複数のフィルタがある。これらの複数のフィルタは、センサ・アレイ応答からみた残りの自由度を表す。
【０００４】
種々の周波数にわたる種々の音源チャネルに、信号寄与を一貫して割り当てることは、周波数置換（ｆｒｅｑｕｅｎｃｙｐｅｒｍｕｔａｉｏｎ）問題を生じる。この問題は、アルゴリズムが種々の周波数帯を同時に考慮しない限り、時間領域アルゴリズムを含めたすべての音源分離アルゴリズムに内在する。このような多スペクトル（ｐｏｌｙｓｐｅｃｔｒａｌ）特性の推定は、音声などの非定常信号の場合は、特に困難であり、結果として、アルゴリズムは、計算コストが高い。
【０００５】
相関のない時間的に変化する音源信号が、Ｍ個存在すると仮定して、基本的な音源分離問題について述べる。
【数１０】

上式で、音源ｓ（ｔ）は、種々の空間的位置から発せられる。幾つかのセンサＮ（Ｎ≧Ｍ）が、時間的に変化する信号を検出する。
【数１１】

多重通路環境では、各音源ｊが、音源からセンサへの対応する通路のインパルス応答を表す線形伝達関数Ａ_ｉｊ（τ）を介してセンサｉと結合し、従って以下のようになる。
【数１２】

この式は、行列（ｍａｔｒｉｘ）表記を用いて書き換えることができる（畳み込みを＊で示す）。
【数１３】

離散時間フーリエ変換（ＤＴＦＴ：ＤｉｓｃｒｅｔｅＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を適用した後、この式は以下のように書き換えることができる。
【数１４】

畳み込み（ｃｏｎｖｏｌｕｔｉｖｅ）音源分離の目的は、畳み込み混合Ａ（τ）の影響を反転する有限インパルス応答（ＦＩＲ：ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタＷ_ｉｊ（τ）を見つけることである。これは、元の音源ｓ（ｔ）に対応する以下の式を生成することに相当する。
【数１５】

【０００６】
畳み込み分離のための種々の基準（ｃｒｉｔｅｒｉａ：判定基準）が、提案されてきた。例えば、シグナル・プロセッシング（ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ）、ｖｏｌ．４５、ｎｏ．２、２０９〜２２９ページ（１９９５年）において発行された「畳み込み混合のためのブラインド音源分離（ＢＬＩＮＤＳＯＵＲＣＥＳＥＰＡＲＡＴＩＯＮＦＯＲＣＯＮＶＯＬＵＴＩＶＥＭＩＸＴＵＲＥＳ）」の中で、Ｈ．−Ｌ．Ｎ．チー（Ｔｈｉ）氏およびＣ．ジュテン（Ｊｕｔｔｅｎ）氏により論じられている。ウェインスタイン（Ｗｅｉｎｓｔｅｉｎ）氏外に付与された「多チャネル信号分離（ＭＵＬＴＩＣＨＡＮＮＥＬＳＩＧＮＡＬＳＥＰＡＲＡＴＩＯＮ）」という名称の米国特許第５，２０８，７８６号には、２チャネルの例が開示されている。この５，２０８，７８６号特許では、各チャネルを、多入力多出力（ＭＩＭＯ：Ｍｕｌｔｉ−Ｉｎｐｕｔ−Ｍｕｌｔｉ−Ｏｕｔｐｕｔ）の時間的に変化しない線形システムとしてモデル化している。入力された音源信号は、再構成された信号が、統計的に相関しないことを必要とすることにより、分離および回復（再生、復元）される。しかし、この無相関条件（ｄｅｃｏｒｒｅｌａｔｉｏｎｃｏｎｄｉｔｉｏｎ）は、未知のチャネルが２×２ＭＩＭＯ（多入力多出力）の有限インパルス応答フィルタであると仮定しない限り、問題を一意に解決するには不十分である。
【０００７】
すべての畳み込み分離基準は、未知の信号の統計的独立性（ｓｔａｔｉｓｔｉｃａｌｉｎｄｅｐｅｎｄｅｎｃｅ）を仮定することから導出することができ、通常は、音源信号の２つ１組の独立性に限定される。２つ１組の独立性は、すべてのクロスモーメント（ｃｒｏｓｓ−ｍｏｍｅｎｔ）を因数分解して、それによりモデル信号音源に対する幾つかの必要条件を以下のように生成することができることを意味する。
【数１６】

畳み込み分離では、Ｗ（τ）のフィルタ・タップの遅延に対応する複数の遅延τについて、これらの条件を満たす必要がある。定常信号の場合は、高次の基準（複数ｎ、ｍ）が必要である。音声などの非定常信号の場合は、複数ｔを使用することができ、複数無相関（ｎ＝ｍ＝１）で十分である。
【０００８】
独立基準を使用するとき、置換（ｐｅｒｍｕｔａｔｉｏｎ）とスケール化（ｓｃａｌｉｎｇ）の両方の不確定さが残る。畳み込みの場合、スケール化の不確定さは、各周波数グループまたはビン（ｂｉｎ）に当てはまり、その結果、時間領域（ｔｉｍｅｄｏｍａｉｎ）中の各音源信号ごとに畳み込みの不確定さが生じる。独立した信号が、遅延したものまたは畳み込まれたものはどれも、独立したままである。独立した周波数領域の場合、
【数１７】

すべての次数ｎおよびｍについて、各周波数ごとに置換の不確定さがある。従って、各周波数につき、独立した周波数領域（ｆｒｅｑｕｅｎｃｙｄｏｍａｉｎ）はまた、指数ｉ、ｊを以下のモデル音源に任意にスケール化し割り当てることにより満たされる。
【数１８】

上式で、各周波数につき、Ｐ（ω）は、任意の置換行列（ｐｅｒｍｕｔａｉｏｎｍａｔｒｉｘ）を表し、Ｓ（ω）は、任意の対角スケール化行列を表す。これは、種々の周波数ビンについて、所定の信号音源の寄与が単一のモデル音源に一貫して割り当てられないことがあるという問題を生じる。従って、所定のモデル音源は、種々の実際の音源からの寄与を有することになる。可能性ある置換数が増加するにつれて、この問題はチャネル数が増加してより困難になる。
【０００９】
多くの場合、この問題は、分離基準の周波数領域定式化のアーティファクト（ａｒｔｉｆａｃｔ）と考えられてきた。何故なら、分離タスクが、周波数ビンごとの独立した分離タスクに分断されるからである。ｎ＝ｍ＝１の場合、この不確定さは、式Ｉに示した時間領域独立基準にも当てはまる。高次の場合でも、時間領域基準は、正しい置換を保証しない。
【００１０】
従来の一部の音源分離処理は、この問題を単に無視していた。モデル音源のスペクトルの継続性（ｃｏｎｔｉｎｕｉｔｙ）や、異なる周波数ビンを多くの場合共変調（ｃｏ−ｍｏｄｕｌａｔｅ）するなど、幾つかの解決法が提案されている。複数の周波数寄与のこれらの統計的特性を取り込むための厳密な方法は、多スペクトルである。しかし、実際に複数の周波数で確固たる統計を得ることは困難であり、特に音声などの非定常信号の場合は難しい。更に、周波数の組合せを考慮するアルゴリズムは本来、計算的要求が過大である。周波数領域のフィルタ係数に対する平滑化制約（ｓｍｏｏｔｈｎｅｓｓｃｏｎｓｔｒａｉｎｔ）も提案されており、例えば、パラ（Ｐａｒｒａ）氏外に付与された「複数無相関法を用いた畳み込みブラインド音源分離（ＣＯＮＶＯＬＵＴＩＶＥＢＬＩＮＤＳＯＵＲＣＥＳＥＰＡＲＡＴＩＯＮＵＳＩＮＧＡＭＵＬＴＩＰＬＥＤＥＣＯＲＲＥＬＡＴＩＯＮＭＥＴＨＯＤ）」という名称の米国特許第６，１６７，４１７号に記載されている。これは、分析窓（ウィンドウ）のサイズと比較したフィルタ長を制約することに相当する。しかし、強く反響する環境では、いくぶん長いフィルタが必要なので、フィルタ・サイズに対するこの制限は、常に妥当であるとは限らない。
【００１１】
理論上は、Ｍ＝Ｎ個の音源を分離するためには、Ｎ個のセンサがあればよい。しかし、実際には、より多くのマイクロホン（Ｎ＞Ｍ）を使用して、実際のシステムの性能を向上させたい場合がある。置換およびスケール化の不確定さを無視すると、式ＩＩは、Ｗ（ω）Ａ（ω）＝Ｉと解釈され、Ｉは、恒等行列（ｉｄｅｎｔｉｔｙｍａｔｒｉｘ）を表す。所定のＡ（ω）に対して、解Ｗ（ω）のＮ−Ｍ次元の線形空間があり、これは、フィルタＷ（ω）で表されるビーム・パターンを整形するときに、追加の自由度があることを示す。
【００１２】
通常の幾何学的な適応型ビームフォーミング（ｂｅａｍｆｏｒｍｉｎｇ）では、マイクロホン位置や音源位置などの情報がしばしば使用される。幾何学的な仮定を取り入れて、フィルタ係数に対する線形制約（ｌｉｎｅａｒｃｏｎｓｔｒａｉｎｔ）として実行することができる。例えば、複数サイドローブ消去器（ｍｕｌｔｉｐｌｅｓｉｄｅｌｏｂｅｃａｎｃｅｌｅｒ）で、チャネルのうちの１つ（チャネルｉ）の応答が一定に保たれ、これはｗ（ω）ｅ_ｉ＝定数として表現することができる。行ベクトルの要素ｗ（ω）∈Ｃ^Ｎは、各マイクロホンに適用されるフィルタ要素であり、ｅ_ｉは、恒等行列中のｉ番目の列である。これは、ブラインド分離アルゴリズムで通常適用される、Ｗの対角項に課せられる正規化条件に類似する。チャネルを制約するのではなく、特定の方向（ｏｒｉｅｎｔａｉｔｏｎ：方向）に対するビームフォーマの応答を制約することもできる。
【００１３】
各マイクロホンの位置および応答特性が分れば、マイクロホンのセットの自由音場応答および関連するビームフォーミング・フィルタｗ（ω）を計算することができる。位置ｑに対して、位相および大きさの応答は、以下の式により与えられる。
【数１９】

上式で、ｄ（ω，ｑ）∈Ｃ^Ｎは、ｑに位置する音源に対するＮ個のマイクロホンの位相および大きさの応答を表す。全方向性マイクロホンを有する線形アレイと、遠距離音場音源（対象の波長にわたって２乗したアレイ開口よりもずっと遠い）の場合、マイクロホンの応答は、音源と線形アレイとの間の角度θ＝θ（ｑ）のみに、ほぼ依存する。
【数２０】

上式で、ｐ_ｉは、線形アレイ上のｉ番目のマイクロホンの位置であり、ｃは波動スピードである。
【００１４】
特定の方向への応答を制約することは、ｗ（ω）に対する線形制約で単純に表され、従って、ｒ（ω，θ）＝ｗ（ω）ｄ（ω，θ）＝定数のようになる。この概念は、線形制約最小分散（ＬＣＭＶ：ＬｉｎｅａｒｌｙＣｏｎｓｔｒａｉｎｅｄＭｉｎｉｍｕｍＶａｒｉａｎｃｅ）アルゴリズムで用いられ、また、一般化サイドローブ消去の基礎をなす考え方でもある。確固たるビームを得るために、所定の方向の周りで滑らかな応答を必要とすることも提案されている。要約すれば、これらの条件またはその組合せはすべて、ｗ（ω）に対する線形制約として表現することができる。
【００１５】
最も適応的なビームフォーミング・アルゴリズムは、パワー（ｐｏｗｅｒ）をそれらの主要な最適化基準と考える。雑音またはサイドローブの消去などでは、干渉を起こしている信号の方向での応答を適応的に最小化するために、パワーが最小化されることがある。整合フィルタ方法などでは、対象となる応答を最大化するために、パワーが最大化されることがある。この結果、他の音源からの漏話（クロストーク）があるとき、これらのアルゴリズムは、しばしば最適以下で機能する。
【００１６】
２次音源分離方法では、個別のビームｗ（ω）∈Ｃ^１×Ｎおよび個別のチャネルｙ（ｔ）∈Ｒ^１のパワーを考慮するのではなく、複数のビームＷ（ω）∈Ｃ^Ｍ×Ｎおよびそれらに対応する出力ｙ（ｔ）∈Ｒ^Ｍのパワーおよびクロス・パワーを考慮することができる。周波数領域の場合、これらの複数のビームおよび出力は、クロス・パワー・スペクトルＲ_ｙｙ（τ，ω）に対応する。非定常信号の２次ブラインド音源分離では、複数の時間にわたるクロス・パワーを最小化する。通常の適応型ビームフォーミングの場合のように対角項ではなく、行列Ｒ_ｙｙ（τ，ω）の非対角要素が、２次分離で最小化される。複数の音源が同時にアクティブのとき、反響する環境では特に、厳しい１つのチャネル・パワー基準が重大な漏話または漏出の問題を有する。
【００１７】
（発明の概要）
本発明は、多重通路環境で非定常広帯域信号の音源を分離する必要性に対処するものである。音源分離における不確定さには、マイクロホンの位置などの事前情報を追加することにより、また、音源が空間中で局在化されるという仮定を追加することにより対処する。多くの適応型ビームフォーミング・アルゴリズムのパワー基準を、クロス・パワー基準（ｃｒｏｓｓｐｏｗｅｒｃｒｉｔｅｒｉａ）で置き換えることにより、複数の幾何学的音源分離アルゴリズムが得られる。ビーム整形に関する置換、畳み込み、およびより一般的な自由度に対処するために、幾何学的情報を利用する。通常の適応型ビームフォーミングで用いられる制約を実行しながら、複数の時間ｔについてのクロス・パワー・スペクトル（ｃｒｏｓｓｐｏｗｅｒｓｐｅｃｔｒａ）を最小化することにより、ブラインド音源分離の利点と幾何学的ビームフォーミングの利点を組み合わせる。
【００１８】
（好ましい実施形態の詳細な説明）
本発明では、既知のブラインド音源分離技術により得られるＷ（ω）の値を、信号音源に関する幾何学的仮定を行うことにより推定する。音源は、少なくとも所定のアレイの空間分解能まで局在化されると仮定する。本発明では、周波数スペクトル全体で信号が同じ位置から発すると仮定し、フィルタ係数に対する幾何学的制約を定式化することを可能にする。幾何学的音源分離（ＧｅｏｍｅｔｒｉｃＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）アルゴリズムの一種をもたらす種々の幾何学的制約を導入する。
【００１９】
図１に、本発明の音源分離方法を実現するためのシステム１００を示す。システム１００は、信号の構成要素（成分）信号に分離されることになる信号を供給する複合信号音源１２６と、本発明の幾何学的音源分離ルーチンを実行するコンピュータ・システム１０８とを含んでいる。音源１２６は、任意の複合信号音源を含んでいてもよいが、一例として、センサ・アレイ（列）１０２、信号処理回路１０４、および録音済み信号音源１０６を含むものとして示す。センサ・アレイ１０２は、マイクロホンなどの１つまたは複数の変換器（ｔａｒｎｓｄｕｃｅｒ）１０２Ａ、１０２Ｂ、１０２Ｃを含んでいる。変換器１０２Ａ、１０２Ｂ、１０２Ｃは、信号のディジタル化を実行する信号処理回路１０４に結合されている。ディジタル信号は、信号分離および他の処理のためにコンピュータ・システム１０８に結合される。録音済み信号音源１０６が任意選択で、分離を必要とする複合信号の音源を形成することができる。
【００２０】
コンピュータ・システム１０８は、中央処理装置（ＣＰＵ）１１４、メモリ１２２、サポート回路１１６、および入出力（Ｉ／Ｏ）インタフェース１２０を含んでいる。一般に、コンピュータ・システム１０８は、Ｉ／Ｏインタフェース１２０を介して、表示装置１１２、およびマウスやキーボードなどの様々な入力装置１１０に結合されている。一般に、サポート回路１１６は、キャッシュ・メモリ、電源、クロック回路、通信バスなど、周知の回路を含んでいる。メモリ１２２は、ランダム・アクセス・メモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、ディスク駆動装置、テープ駆動装置などを含んでいてもよく、あるいはメモリ装置の何れかの組合せを含んでいてもよい。
【００２１】
本発明は、幾何学的音源分離ルーチン１２４として実現される。幾何学的音源分離ルーチン１２４は、メモリ１２２に記憶され、ＣＰＵ１１４により実行されて、信号音源１２６からの信号を処理する。従って、通常、コンピュータ・システム１０８は、汎用コンピュータ・システムであり、本発明のルーチン１２４のみを実行するときは、ルーチン１２４専用コンピュータ・システムとなる。本発明を実現するプラットフォーム（ｐｌａｔｆｏｒｍ：基盤）の一例として、汎用コンピュータを示してあるが、本発明は、特定用途向け集積回路（ＡＳＩＣ）、ディジタル信号処理（ＤＳＰ）集積回路、またはその他の１つまたは複数のハードウェア装置として、ハードウェア中で実現することもできる。従って、本発明は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組合せにより実現することができる。
【００２２】
図２に、本発明の幾何学的音源分離ルーチン１２４の流れ図を示す。ステップ２００で、複合の混合信号１２６が入力され、この信号は、入力信号ｘ（ｔ）のデータ・サンプルを含む複数のデータ・フレームに分離される。ルーチン２００は、各データ・フレームｘ（ｔ）毎に離散フーリエ変換（ＤＦＴ：ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）の値ｘ（ω）を生成する。即ち、Ｔ個のサンプルの各窓長（ｗｉｎｄｏｗｏｆｌｅｎｇｔｈ）につき１つの周波数領域離散フーリエ変換（ＤＦＴ）値を生成する。
【００２３】
ステップ２０４で、出力ｙ（ｔ）からＲ_ｙｙ（ｔ，ω）の実行時推定値を計算する。通常のフィルタ・サイズでは大きなＴが必要なので、因数分解Ｒ_ｙｙ（ｔ，ω）≒Ｗ（ω）Ｒ_ｘｘ（ｔ，ω）Ｗ^Ｈ（ω）により、以下の式２１３に従って、
【数２１】

複数の時間ｔについてのＲ_ｙｙ（ｔ，ω）を同時に対角化して、非対角要素の２乗の和を最小化する。
【数２２】

は、
【数２３】

として定められるフロベニウス・ノルム（Ｆｒｏｂｅｎｉｕｓｎｏｒｍ）を指す。ｔおよびωにわたる和は、それぞれＷの適応が行われるすべての時間およびすべての周波数ビンの範囲にわたることになる。勾配降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）を用いたより高速な収束のためには、周波数ごとの総入力パワーα（ω）を正規化する。
【数２４】

この基準を、フィルタ係数Ｗに関して最小化する。ゼロ（零）の下界（ｌｏｗｅｒｂｏｕｎｄ：下限）は、Ｒ_ｙｙ（ｔ，ω）が対角である場合にのみ得られる。
【００２４】
信号音源ｓ（ｔ）は、角度θ＝［θ_１．．．θ_ｍ］で、且つ遠距離音場近似（ｆａｒｆｉｅｌｄａｐｐｒｏｘｉｍａｔｉｏｎ）が適用されるのに十分なセンサ１０２からの距離で局在化される。本発明により、完全３次元の音源位置を有利に用いることもできるが、本明細書に述べる特定の実施例では、単にマイクロホン・アレイに対する入射角により音源位置を識別する。ステップ２０８で、ステップ２０４で生成したクロス・パワー・スペクトルに基づいて幾何学的音源位置を計算する。ステップ２１９で、様々な基準のうちのどれを次にクロス・パワー・スペクトル計算に適用するかを決定するための選択または切替えを利用する。例えば、以下のハード（強い）制約（ｈａｒｄｃｏｎｓｔｒａｉｎｔ）２１０
【数２５】

を各フィルタｗ_ｉ（ω）に適用する場合、Ｗ（ω）中のｉ番目の行ベクトルは、方向θ_ｉで単位応答（ｕｎｉｔｒｅｓｐｏｎｓｅ）を有するようにされる。勾配降下法アルゴリズムでは、制約２１０は単に、勾配（ｇｒａｄｉｅｎｔ）（δＪ／δｗ_ｉ（ω））を、制約された勾配を有する許容解の線形部分空間に射影することにより実行することができる。パワーまたはクロス・パワーの最小化は、干渉角度での応答を最小化しようとすることになるので、これは、これらの周波数における等価な特異点をもたらす。これらの場合、ソフト（弱い）制約（ｓｏｆｔｃｏｎｓｔｒａｉｎｔ）２１０を以下の形式の正則化項（ｒｅｇｕｌａｒｉｚａｔｉｏｎｔｅｒｍ）２１１として選択すべきである。
【数２６】

より制限的な、以下の第２のハード制約２０９をステップ２１９で選択することもできる。
【数２７】

ハード制約２０９は、ハード制約２１０の条件を各フィルタｗ_ｉ（ω）に課して、Ｗ（ω）中のｉ番目の行ベクトルが方向θ_ｉで単位応答を有するようにする。更に、ハード制約２０９は、ｉ番目の行ベクトルが干渉信号の方向θ_ｊ（ｉ≠ｊ）でゼロ応答（ｚｅｒｏｒｅｓｐｏｎｓｅ）を有することも必要とする。
【００２５】
ビーム・パターンの格子状ローブ（ｇｒａｔｉｎｇｌｏｂｅ：空間サンプリングが限られていることによる主ローブの周期的レプリカ）が干渉角度と交差する周波数では、Ｄ（ω，θ）は不可逆（ｎｏｔｉｎｖｅｒｔｉｂｌｅ）である。これらの場合、ハード制約として制約２０９を実行しようとするのは妥当ではない。そうではなく、以下の形式の正則化項を追加することによりソフト制約２１２を選択する。
【数２８】

ステップ２１９で、式２１３に対して様々な初期化条件を実行する。すべての初期化において、最適化の間にスケールを正規化するためには関係ｗ_ｉ（ω）ｅ_ｉ＝１が必要である。ステップ２１５で、個々の音源の方向を指す遅延和（ｄｅｌａｙ−ｓｕｍ）ビームフォーマ（ｄｅｌ−ｓｕｍ）に対応するように、フィルタ構造を初期化する。方向θ_ｉを用いて、ｉ番目のビーム（Ｗ（ω）の行ベクトルｗ_ｉ（ω））のフィルタ係数を、以下のアルゴリズムで初期化する。
【数２９】

【００２６】
ステップ２１９で、式２１３は代わりに、すべての干渉音源方向、即ち、ｉ番目のビームの場合に、角度θ／θ_ｉでゼロを配置するビームにより初期化することもできる。これらの条件を満たす最小ノルムを有する初期化フィルタは、最小２乗法で明示的に計算することができ、以下の初期化アルゴリズム２１６になる。
【数３０】

上式で、^＋は擬似逆行列を示し、［ｅ_ｉ，Ｄ（ω，θ／θ_ｉ）］は、単位行列のｉ番目の列ｅ_ｉと、Ｄ（ω，θ）のｉ番目の列以外のすべてとを含む行列である。
【００２７】
分離アルゴリズムを稼動中に実行する際は、環境内での音源位置が動的に変化していることがあるので、初期化を介して幾何学的情報を導入する概念は、通常は実行できるものではない。初期化時および最適化過程の期間の間、幾何学的制約をより頻繁に実行する。推定される位置が変化するのに伴って、制約は動的に変化する。通常、線形制約２０９および２１０はそれぞれ、ペナルティ項を有するソフト制約として実行する。不可逆性（ｎｏｎｉｎｖｅｒｔｉｂｉｌｉｔｙ）の問題には、ペナルティ項に対する周波数依存の重み付けを導入することにより対処する。具体的には、この目標は、Ｄ（ω，θ）が、不可逆である周波数帯についての最適化から制約をなくすことである。可逆性についてのいくぶん単純なメトリック（ｍｅｔｒｉｃ）が、条件数（ｃｏｎｄｉｔｉｏｎｎｕｍｂｅｒ）である。従って、ステップ２１１およびステップ２１２で、正則化項Ｊ（Ｗ）は、λ（ω）＝ｃｏｎｄ^‐１（Ｄ（ω，θ））の条件数の逆数で重み付けされる。これは、Ｄ（ω，θ）が不可逆なときは０（ゼロ）に収束し、そうでないときは、例えば０≦λ（ω）≦１のように有界（ｂｏｕｎｄｅｄ）のままである。幾何学的な正則化項を周波数に依存して重み付けすることを含む総費用関数（ｔｏｔａｌｃｏｓｔｆｕｎｃｔｉｏｎ）２１８は、以下の式により与えられる。
【数３１】

アルゴリズム２１０では、正則化項Ｊ_１は、方向θ_ｉのフィルタｉの応答を維持しようとすることになる。遅延和ビームフォーマ２１５は、アルゴリズム２１０の条件を厳密に満たす。アルゴリズム２０９では、正則化項Ｊ_２は、追加で干渉音源の方向に対する応答を最小化することになる。アルゴリズム２０９の制約を厳密に保証するフィルタ構造は、Ｄ^Ｈ（ω，θ）の擬似逆行列として最小２乗法で、または不可逆性問題のために正則化項βＩを含めることにより計算され、以下のアルゴリズム２１９になる。
【数３２】

【００２８】
アルゴリズム２１７は、干渉音源の角度でゼロ（零）を配置するが、他の方向におけるその応答は、指定されない。アルゴリズム２１５、２１０、２０９の結果は、対応する音源の方向の主ローブを呈する。格子状ローブが干渉音源の位置と一致する競合周波数帯の場合、複数クロス・パワー最小化は、アルゴリズム２１５では主ローブを消去し、アルゴリズム２１０および２０９では、幾何学的ペナルティ（ｇｅｏｍｅｔｒｉｃｐｅｎａｌｔｙ）により主ローブをいくらか保存する。質的には、データ独立アルゴリズム２１９の結果は、正しい位置の主ローブとゼロ（零）を両方とも取り込むように見える。しかしその性能は、データ適応型アルゴリズム２０９、２１０、２１５、２１７よりも劣る。
【００２９】
勾配降下法アルゴリズムを使用するステップ２０２では、アルゴリズム２０９、２１０、２１１、２１２の何れかを使用して、信号フィルタ２２２を最適化し、クロス・パワーを最小化することができる。複数の音源の角度θ_ｉは、複数シグナル分類（ＭＵＳＩＣ：ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）アルゴリズムを使用して自動的に識別することができる。複数シグナル分類（ＭＵＳＩＣ）アルゴリズムは、任意の方向性応答を有する任意に配置されたアンテナを使用して、複数の信号の到達方向を計算する方法である。また、複数シグナル分類（ＭＵＳＩＣ）アルゴリズムは、サンプリングされたデータ時系列を含む複数の正弦曲線の周波数を測定することにも適用される。周波数の測定に適用されるときは、タップ付き遅延線の実現形態に直接に適する。音源の数Ｍは既知であると仮定される。本明細書に挙げた例およびアルゴリズムは、周波数領域での数値演算を対象としているが、本発明は時間領域で実行することもできる。
【図面の簡単な説明】
【図１】
本発明のソフトウェア実装を実行するためのシステムを示す図である。
【図２】
本発明の方法の流れ図である。

Claims

畳み込み混合された信号を複数の音源に分離するための装置であって、各センサ位置に配置された複数の信号センサ（１０２）と、多入力多出力の信号フィルタ（２２２）と、複数の時間における複数の出力チャネルのクロス・パワーを推定する手段（２０４）と、前記センサ位置との空間的関係で定められる音源位置ｒの所定のセットを計算する手段（２０８）と、前記所定の音源位置のセットに対する所定のフィルタ応答を実行しながら、複数の出力パワーを最小化するよう前記信号フィルタを適合させる手段とを含んでいる装置。
前記クロス・パワーは、前記信号フィルタ出力の複数のクロス・パワー・スペクトルを周波数領域で推定して最小化することにより最小化される、請求項１に記載の装置。
前記所定のフィルタ応答は、前記信号フィルタが複数の出力パワーを最小化しているときに前記信号フィルタに対する線形制約として実行される、請求項１に記載の装置。
前記所定のフィルタ応答は、前記信号フィルタが複数の出力パワーを最小化しているときに正則化項を追加することにより実行される、請求項１に記載の装置。
音源位置ｒに対する単位応答が、

として実行される、請求項２に記載の装置。
音源位置ｒに対する単位応答およびゼロ応答が、

として実行される、請求項２に記載の装置。
前記信号フィルタ（２２２）は、有限インパルス応答フィルタである、請求項１に記載の装置。
クロス・パワーの最小化は、

として定められる費用関数（２１３）を最小化することにより実現される、請求項２に記載の装置。
音源位置ｒに対する単位応答が、

として定められる追加の正則化項（２１１）により実行される、請求項２に記載の装置。
音源位置ｒに対する単位応答およびゼロ応答が、

として定められる追加の正則化項（２１２）により実行される、請求項２に記載の装置。
前記音源位置ｒは、前記センサ位置に対する相対的な角度で指定される、請求項１に記載の装置。
前記信号フィルタ（２２２）は、ビームフォーマ・フィルタとして動作するように初期化される、請求項１に記載の装置。
前記初期化された信号フィルタは、音源位置ｒの前記所定のセットに向けた遅延和ビームフォーマのセットを表す、請求項１２に記載の装置。
前記音源位置ｒは、クロス・パワー・スペクトルから推定される、請求項１に記載の装置。
非定常信号を処理するためのコンピュータ・システム（１０８）であって、少なくとも１つの信号入力ポートと、前記信号入力ポートから複合信号を受け取るように構成された中央処理装置（１１４）と、前記中央処理装置（１１４）に相互接続されたメモリ（１２２）と、前記メモリ（１２２）に記憶されたディジタル化済み信号を処理するように前記メモリに相互接続された幾何学的音源分離モジュール（１２４）とを含んでいるコンピュータ・システム。
前記幾何学的音源分離モジュールは、更に少なくとも１つの有限インパルス応答フィルタ（２２２）を含んでおり、前記複合信号は、前記フィルタに供給される、請求項１５に記載のコンピュータ・システム。
前記メモリ（１２２）は、更に前記複合信号の音源の空間的位置データを含んでおり、前記空間的位置データは、前記有限インパルス応答フィルタ（２２２）に結合される、請求項１６に記載のコンピュータ・システム。
前記幾何学的音源分離モジュールは、更に、前記有限インパルス応答フィルタについての複数のフィルタ係数を計算するように適合された複数のアルゴリズム（２０９、２１０、２１５、２１７）を含んでいる、請求項１７に記載のコンピュータ・システム。
複合信号を複数の構成要素信号に分離する方法であって、
前記複数の構成要素信号のクロス・パワー・スペクトルＲ_ｙｙ（ｔ，ω）を計算するステップと、所定のアルゴリズム（２１３）でＲ_ｙｙ（ｔ，ω）を同時に対角化するステップと、前記所定のアルゴリズム（２１３）に線形制約（２０９、２１０）を適用してフィルタ係数を生成するステップと、前記フィルタ係数に基づいて前記複合信号を濾波するステップとを含んでいる方法。
因数分解Ｒ_ｙｙ（ｔ，ω）≒Ｗ（ω）Ｒ_ｘｘ（ｔ，ω）Ｗ^Ｈ（ω）により、前記所定のアルゴリズム（２１３）を

として定めるステップを、更に含んでいる、請求項１９に記載の方法。
第１の線形制約（２１０）

および第２の線形制約（２０９）

により与えられる２つの線形制約のセットから線形制約を選択するステップを、更に含んでいる、請求項２０に記載の方法。
前記所定のアルゴリズム（２１３）に正則化項（２１１）

を適用するステップを、更に含んでいる、請求項２１に記載の方法。