JP2019514056A

JP2019514056A - オーディオ源分離

Info

Publication number: JP2019514056A
Application number: JP2018552048A
Authority: JP
Inventors: ワーン，ジュイン; ルゥ，リエ; ビン，チーンユエン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2016-04-08
Filing date: 2017-04-06
Publication date: 2019-05-30
Anticipated expiration: 2037-04-06
Also published as: EP3440670B1; US20190122674A1; JP6987075B2; US10818302B2; US10410641B2; EP3440670A1; US20190392848A1

Abstract

本稿は、オーディオ・チャネル（３０２）からオーディオ源（３０１）を抽出する方法（１００）を記載する。本方法（１００）は、ウィーナー・フィルタ行列を、源行列からの混合行列に基づき、かつオーディオ源（３０１）のパワー行列に基づいて、更新すること（１０２）を含む。さらに、本方法（１００）は、オーディオ・チャネル（３０２）およびオーディオ源（３０１）の相互共分散行列ならびにオーディオ源（３０１）の自己共分散行列を、更新されたウィーナー・フィルタ行列に基づき、かつオーディオ・チャネル（３０２）の自己共分散行列に基づいて、更新すること（１０３）を含む。さらに、本方法（１００）は、前記混合行列および前記パワー行列を、オーディオ・チャネル（３０２）およびオーディオ源（３０１）の更新された相互共分散行列に基づき、および／またはオーディオ源（３０１）の更新された自己共分散行列に基づいて更新すること（１０４）を含む。

Description

本稿はマルチチャネル・オーディオ信号からの一つまたは複数のオーディオ源の分離に関する。

オーディオ信号の混合、特にステレオ、5.1もしくは7.1オーディオ信号のようなマルチチャネル・オーディオ信号は、典型的には、スタジオにおいて異なるオーディオ源を混合することによって作り出されるか、現実の環境において同時に音響信号を記録することによって生成される。マルチチャネル・オーディオ信号の異なるオーディオ・チャネルは、複数のオーディオ源の異なる和として記述することができる。音源分離のタスクは、それらの異なるオーディオ・チャネルに導く混合パラメータを特定し、可能性としては混合パラメータの逆を行なってもとになったオーディオ源の推定を得ることである。

マルチチャネル・オーディオ信号に関わるオーディオ源について事前情報が利用可能でないときは、音源分離のプロセスはブラインド源分離（BSS: blind source separation）と称されることがある。空間的オーディオ捕捉の場合、BSSはマルチチャネル・オーディオ信号を種々の源信号に分解し、混合パラメータについて、空間位置についておよび／またはオーディオ源の起点位置と一つまたは複数の受領マイクロフォンとの間の音響チャネル応答についての情報を提供する段階を含む。

ブラインド源分離および／または情報を与えられての源分離の問題は、さまざまな異なる応用分野において重要である。そうした分野は、複数マイクロフォンによる発話向上、マルチチャネル通信におけるクロストーク除去、マルチパス・チャネル識別および等化、センサー・アレイにおける到来方向（DOA: direction of arrival）推定、オーディオおよびパッシブ・ソナーのためのビームフォーミング・マイクロフォンについての改良、映画オーディオのアップミックスおよび再オーサリング、音楽再オーサリング、文字起こしおよび／またはオブジェクト・ベースのコーディングなどである。

リアルタイムのオンライン処理は典型的には、通信用および再オーサリング用など、上述した応用の多くのために重要である。よって、リアルタイムでオーディオ源を分離するための解決策であって、源分離システムのための低いシステム遅延および低い解析遅延に関する要求を解くものが当技術分野において必要とされている。低いシステム遅延は、実質的な先読みデータを必要とすることなく、システムが逐次的なリアルタイム処理（クリップイン／クリップアウト）をサポートすることを要求する。低い解析遅延は、アルゴリズムの複雑さが十分に低く、実際的な計算資源を与えられればリアルタイムの処理ができることを要求する。

本稿は、源分離のためのリアルタイム方法を提供するという技術的課題に取り組む。本稿に記載される方法はブラインド源分離に、また源についておよび／またはノイズについての情報が利用可能である半教師付きまたは教師付きの源分離のためにも適用可能であることを注意しておくべきである。

ある側面によれば、I個のオーディオ・チャネルからJ個のオーディオ源を抽出する方法であって、I、J＞1であるものが記載される。オーディオ・チャネルはたとえば、マイクロフォンによって捕捉されてもよく、あるいはマルチチャネル・オーディオ信号のチャネルに対応していてもよい。オーディオ・チャネルは複数のクリップを含み、各クリップはN個のフレームを含む。N＞1である。換言すれば、オーディオ・チャネルはクリップに分割されてもよく、各クリップは複数のフレームを含む。オーディオ・チャネルのフレームは典型的には、オーディオ信号の抜粋（たとえば20msの抜粋）に対応し、典型的にはサンプルのシーケンスを含む。

I個のオーディオ・チャネルは、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源は周波数領域で源行列として表現可能である。特に、オーディオ・チャネルは、短期フーリエ変換のような時間領域から周波数領域への変換を使って、時間領域から周波数領域に変換されてもよい。

本方法は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、ウィーナー・フィルタ行列を、源行列からチャネル行列の推定を提供するよう適応された混合行列に基づいて、かつ、J個のオーディオ源のスペクトル・パワーを示すJ個のオーディオ源のパワー行列に基づいて、更新することを含む。特に、本方法は、現在のクリップのすべてのフレームnについて、周波数領域のすべての周波数ビンfまたはすべての周波数帯域￣f〔￣付きのf〕について、ウィーナー・フィルタ行列を決定することに向けられてもよい。各フレームnについてかつ各周波数ビンfまたは周波数帯域￣fについて、つまり各時間‐周波数タイルについて、ウィーナー・フィルタ行列は、複数の反復工程をもつ逐次反復プロセスを使って決定されてもよい。それにより、ウィーナー・フィルタ行列の精度が逐次反復的に洗練される。

ウィーナー・フィルタ行列は、チャネル行列から源行列の推定を提供するよう適応される。具体的には、現在のクリップのフレームnについてかつ周波数ビンfについての源行列S_fnの推定が、

として決定されてもよい。ここで、Ω_fnは現在のクリップのフレームnについてかつ周波数ビンfについてのウィーナー・フィルタ行列であり、X_fnは現在のクリップのフレームnについてかつ周波数ビンfについてのチャネル行列である。よって、フレームnについてかつ周波数ビンfについてのウィーナー・フィルタ行列を決定するための逐次反復プロセスの後、源行列は、該ウィーナー・フィルタ行列を使って推定されうる。さらに、逆変換を使って、源行列は周波数領域から時間領域に変換されて、J個の源信号を与えてもよい。特に、J個の源信号のフレームを与えてもよい。

さらに、本方法は、逐次反復プロセスの一部として、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列に基づいて、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列を更新し、J個のオーディオ源の自己共分散行列を更新することを含む。現在のクリップのフレームnについてのI個のオーディオ・チャネルの自己共分散行列は、現在のクリップの諸フレームからおよび一つまたは複数の以前のクリップからおよび一つまたは複数の将来のクリップの諸フレームから決定されてもよい。この目的のために、オーディオ・チャネルのための履歴バッファおよび先読みバッファを含むバッファが設けられてもよい。将来のクリップの数は制限されてもよく（たとえば一つの将来のクリップ）、それにより源分離方法の処理遅延を制限する。

加えて、本方法は、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列に基づき、および／またはJ個のオーディオ源の更新された自己共分散行列に基づいて、混合行列およびパワー行列を更新することを含む。

これらの更新する段階は、最大反復回数に達するまでまたは混合行列に関する収束基準が満たされるまで、反復または逐次反復されて、ウィーナー・フィルタ行列を決定してもよい。そのような逐次反復プロセスの結果として、正確なウィーナー・フィルタ行列が決定されてもよい。それにより、異なるオーディオ源の正確な分離が提供される。

周波数領域はF個の周波数ビンに細分されてもよい。他方、F個の周波数ビンは￣F〔￣付きのF〕個の周波数バンドにグループ化またはバンド化されてもよい。ここで、￣F＜Fである。処理は、周波数帯域に対して、周波数ビンに対して、または部分的には周波数帯域に対して部分的には周波数ビンに対してという混合式に実行されてもよい。例として、ウィーナー・フィルタ行列は、F個の周波数ビンのそれぞれについて決定されてもよく、それにより正確な源分離を提供してもよい。他方、I個のオーディオ・チャネルの自己共分散行列および／またはJ個のオーディオ源のパワー行列は、￣F個の周波数バンドについてのみ決定されてもよい。それにより、源分離方法の計算量が軽減される。

よって、ウィーナー・フィルタ行列の周波数分解能は、J個のオーディオ源を抽出するための逐次反復方法において使われる一つまたは複数の他の行列の周波数分解能より高いことがありうる。こうすることにより、精度と計算量との間の改善されたトレードオフが提供されうる。具体例では、ウィーナー・フィルタ行列は周波数ビンfの分解能の混合行列を使い、かつ周波数バンド￣fの低下した分解能のみでのJ個のオーディオ源のパワー行列を使って、周波数ビンfの分解能について、更新されうる。この目的のために、下記の更新公式が使われてもよい。

さらに、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列

およびJ個のオーディオ源の自己共分散行列

は、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列

に基づいて更新されてもよい。更新は、周波数バンド￣fの低下した分解能で実行されるだけであってもよい。この目的のために、ウィーナー・フィルタ行列Ω_fnの周波数分解能は、周波数ビンfの比較的高い分解能から周波数バンド￣fの低下した周波数分解能に下げられてもよい（たとえば、ある周波数バンドに属する諸周波数ビンの対応するウィーナー・フィルタ行列係数を平均することによって）。更新は、後述する公式を使って実行されてもよい。

さらに、混合行列A_fnおよびパワー行列

は、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列

に基づき、および／またはJ個のオーディオ源の更新された自己共分散行列

に基づいて更新されてもよい。

ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新されてもよい。ここで、ノイズ・パワー項は反復工程数が増すとともに減少してもよい。換言すれば、ウィーナー・フィルタ行列に人工的なノイズが挿入されてもよく、逐次反復プロセスの間に漸進的に低下させられてもよい。この結果として、決定されるウィーナー・フィルタ行列の品質が増大させられてもよい。

現在のクリップのフレームnについて、周波数バンド￣f内にある周波数ビンfについて、ウィーナー・フィルタ行列は

に基づいてまたはこれを使って更新されてもよい。ここで、Ω_fnは更新されたウィーナー・フィルタ行列であり、

はJ個のオーディオ源のパワー行列である。A_fnは混合行列であり、Σ_Bはノイズ・パワー行列（これは上述したノイズ・パワー項を含んでいてもよい）である。上述した公式は特に、I＜Jの場合に使われてもよい。あるいはまた、ウィーナー・フィルタ行列は、特にI≧Jの場合、

に基づいてまたはこれを使って更新されてもよい。

ウィーナー・フィルタ行列は、J個のオーディオ源に関して直交制約条件を適用することによって更新されてもよい。例として、ウィーナー・フィルタ行列は、J個のオーディオ源の自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新されてもよい。推定されるオーディオ源を、互いに、より直交にするためである。特に、ウィーナー・フィルタ行列は勾配

を使って（特に逐次反復的に勾配を低下させることによって）逐次反復的に更新されてもよい。ここで、

は周波数バンド￣fについておよびフレームnについてのウィーナー・フィルタ行列であり、

はI個のオーディオ・チャネルの自己共分散行列であり、[ ]_Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、εは小さな実数（たとえば10^-12）である。オーディオ源が互いから脱相関されているという事実を考慮に入れ、これを課すことによって、源分離の品質がさらに改善されうる。

I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列は、

に基づいてまたはこれを使って更新されてもよい。ここで、

は周波数バンド￣fについてかつフレームnについてのI個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列であり、

は（更新された）ウィーナー・フィルタ行列であり、

はI個のオーディオ・チャネルの自己共分散行列である。同様に、J個のオーディオ源の自己共分散行列は

に基づいて更新されてもよい。ここで、

は周波数バンド￣fについてかつフレームnについてのJ個のオーディオ源の更新された自己共分散行列である。

混合行列の更新は、フレームnについてのJ個のオーディオ源の周波数独立な自己共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのJ個のオーディオ源の自己共分散行列

に基づいて決定することを含んでいてもよい。さらに、混合行列を更新することは、フレームnについてI個のオーディオ・チャネルおよびJ個のオーディオ源の周波数独立な相互共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのI個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列

に基づいて決定することを含んでいてもよい。すると、フレームnについての混合行列A_nは、

に基づいてまたはこれを使って、周波数独立な仕方で決定されうる。

本方法は、周波数依存の重み付け項e_fnを、I個のオーディオ・チャネルの自己共分散行列

に基づいて決定することを含んでいてもよい。次いで、周波数独立の自己共分散行列

および周波数独立の相互共分散行列

は周波数依存の重み付け項e_fnに基づいて決定されてもよい。特に、オーディオ源の比較的大きな〔ラウドな〕周波数成分に増大した強調を置くためである。こうすることにより、源分離の品質が高められる。

パワー行列を更新することは、周波数ビンfについてかつフレームnについてのj番目のオーディオ源についての更新されたパワー行列項(Σ_S)_jj,fnを、

に基づいてまたはこれを使って決定することを含んでいてもよい。ここで、

はフレームnについてかつ周波数ビンfを含む周波数バンド￣fについてのJ個のオーディオ源の自己共分散行列である。

さらに、パワー行列を更新することは、J個のオーディオ源について、スペクトル・シグネチャーWおよび時間シグネチャーHを、パワー行列の非負行列因子分解を使って決定することを含んでいてもよい。j番目のオーディオ源についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源についての更新されたパワー行列項(Σ_S)_jj,fnに基づいて決定されてもよい。j番目のオーディオ源についてのさらなる更新されたパワー行列項(Σ_S)_jj,fnは

に基づいて決定されてもよい。ここで、kはシグネチャーの番号またはインデックスである。すると、パワー行列は、J個のオーディオ源についての前記さらなる更新されたパワー行列項を使って更新されてもよい。パワー行列の因子分解は、パワー行列に（特にスペクトル入れ換え（spectral permutation）に関して）一つまたは複数の制約条件を課し、それにより源分離方法の品質をさらに高めるために使われてもよい。

本方法は、前記混合行列を（ウィーナー・フィルタ行列を決定するための逐次反復プロセスの開始時に）、現在のクリップの直前のクリップのフレーム（特に最後のフレーム）について決定された混合行列を使って初期化することを含んでいてもよい。さらに、本方法は、前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネルの自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレーム（特に最後のフレーム）について決定されたウィーナー・フィルタ行列に基づいて初期化することを含んでいてもよい。現在のクリップのフレームについての逐次反復プロセスを初期化するために前のクリップのために得られた結果を利用することによって、逐次反復方法の収束速度および品質が高められうる。

さらなる側面によれば、I個のオーディオ・チャネルからJ個のオーディオ源を抽出するシステムであって、I、J＞1であるものが記載される。オーディオ・チャネルは複数のクリップを含み、各クリップはN個のフレームを含む。N＞1である。I個のオーディオ・チャネルは、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源は周波数領域で源行列として表現可能である。現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、本システムは、ウィーナー・フィルタ行列を、源行列からチャネル行列の推定を提供するよう適応された混合行列に基づいて、かつ、J個のオーディオ源のスペクトル・パワーを示すJ個のオーディオ源のパワー行列に基づいて、更新するよう適応される。ウィーナー・フィルタ行列は、チャネル行列から源行列の推定を提供するよう適応される。さらに、本システムは、更新されたウィーナー・フィルタ行列に基づき、かつI個のオーディオ・チャネルの自己共分散行列に基づいて、I個のオーディオ・チャネルおよびJ個のオーディオ源の相互共分散行列を更新し、J個のオーディオ源の自己共分散行列を更新するよう適応される。さらに、本システムは、I個のオーディオ・チャネルおよびJ個のオーディオ源の更新された相互共分散行列に基づき、および／またはJ個のオーディオ源の更新された自己共分散行列に基づいて、混合行列およびパワー行列を更新するよう適応される。

あるさらなる側面によれば、ソフトウェア・プログラムが記載される。ソフトウェア・プログラムは、プロセッサ上での実行のために、かつプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために、適応されていてもよい。

もう一つの側面によれば、記憶媒体が記載される。記憶媒体は、プロセッサ上での実行のために、かつプロセッサ上で実行されたときに本稿で概説される方法段階を実行するために適応されているソフトウェア・プログラムを含んでいてもよい。

さらなる側面によれば、コンピュータ・プログラム・プロダクトが記載される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説される方法段階を実行するための実行可能命令を含んでいてもよい。

本特許出願において概説される、好ましい実施形態を含めた方法およびシステムは、単独で、あるいは本稿で開示される他の方法およびシステムと組み合わせて使用されうることを注意しておくべきである。さらに、本特許出願において概説される方法およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いと組み合わされうる。

本発明は、付属の図面を参照して例示的な仕方で下記で説明される。
源分離を実行するための例示的方法のフローチャートである。オーディオ・データの特定のクリップのフレームを処理するために使われるデータを示す図である。複数のオーディオ源およびマルチチャネル信号の複数のオーディオ・チャネルとともに例示的なシナリオを示す図である。

上記で概説したように、本稿は特にリアルタイム用途のための、マルチチャネル・オーディオ信号からのオーディオ源の分離に向けられる。図３は、源分離のための例示的なシナリオを示している。具体的には、図３は、音響環境内で異なる位置に位置される複数のオーディオ源３０１を示している。さらに、複数のオーディオ・チャネル３０２が、音響環境内の異なる位置にあるマイクロフォンによって捕捉される。マルチチャネル・オーディオ信号のオーディオ・チャネル３０２からオーディオ源３０１を導出することが、源分離の目的である。

本稿は表１に記載される記号法を使う。

さらに、本稿は以下の記法を使う：
・共分散行列はR_XX、R_SS、R_XSなどと記されることがあり、共分散行列のすべての非対角項を0にすることによって得られる対応する行列はΣ_X、Σ_Sなどと記されることがある。
・演算子‖・‖はベクトルについてのL2ノルムおよび行列についてのフロベニウス・ノルムを表わすために使われることがある。いずれの場合にも、この演算子は典型的にはすべての要素の平方の和の平方根からなる。
・表現A.Bは二つの行列AおよびBの要素ごとの積を表わすことがある。さらに、表現

〔A/B〕は要素ごとの除算を表わすことがあり、表現B^-1は逆行列を表わすことがある。
・表現B^Hは、Bが実数値の行列であればBの転置を表わすことがあり、Bが複素数値の行列であればBの共役転置を表わすことがある。

Iチャネルのマルチチャネル・オーディオ信号はI個の異なるオーディオ・チャネル３０２を含み、そのそれぞれがJ個のオーディオ源３０１と周囲音およびノイズの畳み込み混合

である。ここで、x_i(t)はi番目の時間領域オーディオ・チャネル３０２であり、i＝1,…,I、t＝1,…,Tである。s_j(t)はj番目のオーディオ源３０１であり、j＝1,…,Jであり、オーディオ源３０１は互いに相関していないことが想定される。b_i(t)は周囲音信号およびノイズ（これらは簡単のためにまとめてノイズと称されることがある）の和であり、周囲音およびノイズ信号はオーディオ源３０１に相関していない。a_ij(τ)は混合パラメータであり、これは経路長Lのフィルタの有限インパルス応答と考えられてもよい。

STFT（short term Fourier transform［短期フーリエ変換］）フレーム・サイズがフィルタ経路長Lより実質的に大きい場合には、線形の巡回畳み込み混合モデルが周波数領域で次のように近似されてもよい。

ここで、X_fnおよびB_fnはI×1行列であり、A_fnはI×J行列であり、S_fnはJ×1行列であり、それぞれオーディオ・チャネル３０２、ノイズ、混合パラメータおよびオーディオ源３０１のSTFTである。X_fnはチャネル行列と称されてもよく、S_fnは源行列と称されてもよく、A_fnは混合行列と称されてもよい。

畳み込み混合モデルの特別な場合が、フィルタ経路長L＝1である瞬時混合型であり、

というものである。

周波数領域では、混合パラメータAは周波数独立である。つまり、式(3)はA_fn＝A_n（∀f＝1,…,F）と同一であり、実である。一般性および拡張可能性を失うことなく、下記では瞬時混合型を記述する。

図１は、Iチャネルのマルチチャネル・オーディオ信号のオーディオ・チャネルx_i(t)からJ個のオーディオ源s_j(t)を決定するための例示的方法１００のフローチャートである。第一段階１０１では、源パラメータが初期化される。特に、混合パラメータA_ij,fnについての初期値が選択されてもよい。さらに、種々の周波数バンドfについてかつ諸フレームのクリップの種々のフレームnについてのJ個のオーディオ源のスペクトル・パワーを示すスペクトル・パワー行列(Σ_S)_jj,fnが推定されてもよい。

これらの初期値は、パラメータの収束まで、あるいは許容される最大反復工程数ITRに達するまでパラメータを更新するための逐次反復法を初期化するために使われてもよい。オーディオ・チャネル３０２からオーディオ源３０１を決定するために、ウィーナー・フィルタS_fn＝Ω_fnX_fnが使われてもよい。ここで、Ω_fnはウィーナー・フィルタ・パラメータまたは混合解除パラメータである（ウィーナー・フィルタ行列に含まれる）。特定の反復工程内のウィーナー・フィルタ・パラメータΩ_fnは、前の反復工程において決定された混合パラメータA_ij,fnおよびスペクトル・パワー行列(Σ_S)_jj,fnの値を使って計算または更新されてもよい（段階１０２）。更新されたウィーナー・フィルタ・パラメータΩ_fnは、オーディオ源３０１の自己共分散行列R_SSおよびオーディオ源およびオーディオ・チャネルの相互共分散行列R_XSを更新する（１０３）ために使われてもよい。更新された共分散行列は、混合パラメータA_ij,fnおよびスペクトル・パワー行列(Σ_S)_jj,fnを更新するために使われてもよい（段階１０４）。収束基準が満たされる場合（段階１０５）、収束したウィーナー・フィルタΩ_fnを使ってオーディオ源が再構築されてもよい（段階１０６）。収束基準が満たされない場合（段階１０５）には、ウィーナー・フィルタ・パラメータΩ_fnは、逐次反復プロセスのさらなる反復工程について、段階１０２において更新されてもよい。

方法１００は、マルチチャネル・オーディオ信号のフレームのクリップに適用されてもよい。ここで、クリップはN個のフレームを含む。図２に示されるように、各クリップについて、マルチチャネル・オーディオ・バッファ２００は、現在のクリップのN個のフレームと、（履歴バッファ２０１としての）一つまたは複数の前のクリップの((T_R/2)−1)個のフレームと、（先読みバッファ２０２としての）一つまたは複数の将来のクリップの((T_R/2)＋1)個のフレームを含めて全部で(N＋T_R)個のフレームを含んでいてもよい。このバッファ２００は共分散行列を決定するために維持される。

以下では、源パラメータを初期化するための方式が記載される。時間領域オーディオ・チャネル３０２が利用可能であり、比較的小さなランダム・ノイズが時間領域で入力に加えられて、（可能としてはノイズのある）オーディオ・チャネルx_i(t)が得られてもよい。時間領域から周波数領域への変換（たとえばSTFT）が適用されてX_fnが得られる。オーディオ・チャネルの瞬時共分散行列は次のように計算されてもよい。

種々の周波数ビンについてかつ種々のフレームについての共分散行列が、T_R個のフレームにわたって平均することによって計算されてもよい。

任意的に、現在フレームに近い情報のほうがより大きな重要度を与えられるよう、式(5)における和に重み付け窓が適用されてもよい。

R_XX,fnは、対応する周波数バンド

を与えるよう個々の周波数ビンf＝1,…,Fにわたって合計することによって、バンド・ベースの共分散行列

にグループ化されてもよい。例示的なバンド化機構はオクターブ・バンドおよびERB（equivalent rectangular bandwidth［等価長方形帯域幅］）バンドを含む。例として、バンド形成境界[0,1,3,5,8,11,15,20,27,35,45,59,75,96,123,156,199,252,320,405,513]をもつ20個のERBバンドが使われてもよい。あるいはまた、周波数分解能を増すために（たとえば513点STFTを使うとき）、バンド形成境界[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18,20,22,24,26,28,30,32,36,40,44,48,52,56,60,64,72,80,88,96,104,112,120,128,144,160,176,192,208,224,240,256,288,320,352,384,416,448,480,513]をもつ56個のオクターブ・バンドが使われてもよい。バンド化は、方法１００の処理段階のいずれに適用されてもよい。本稿では、個々の周波数ビンfは周波数バンド￣fで置き換えられてもよい（バンド化が使われる場合）。

入力共分散行列R_XX,fnを使って、各時間‐周波数（TF）タイルについて、つまり周波数ビンfとフレームnの各組み合わせについて、対数エネルギー値が決定されてもよい。次いで、対数エネルギー値は規格化され、あるいは[0,1]の区間にマッピングされてもよい。

ここで、αは2.5に設定されてもよく、典型的には1から2.5の範囲である。規格化された対数エネルギー値e_fnは、混合行列Aを更新するための対応するTFタイルについての重み付け因子として、方法１００内で使われてもよい（式18参照）。

オーディオ・チャネル３０２の共分散行列は、TFタイル毎の混合チャネルのエネルギーによって、所与のTFタイルについてのオーディオ・チャネル３０２のすべての規格化されたエネルギーの和が1になるよう、規格化されてもよい。

ここで、ε₁は0による除算を避けるための比較的小さな値であり（たとえば10^-6）、trace(・)は括弧内の行列の対角要素の和を返す。

源のスペクトル・パワー行列についての初期化は、マルチチャネル・オーディオ信号の最初のクリップから該マルチチャネル・オーディオ信号の他の後続クリップにかけて異なる。

最初のクリップについては、源のスペクトル・パワー行列（これについては対角要素のみが0でない）はランダムな非負行列因子分解（NMF: Non-negative Matrix Factorization）行列W、H（またはもし利用可能であればW、Hについての事前に学習された値）を用いて初期化されてもよい。

ここで、Ωは前のクリップの最後のフレームについての推定されたウィーナー・フィルタ・パラメータであってもよい。ε₂は比較的小さな値（たとえば10^-6）であってもよく、rand(j)〜N(1.0,0.5)はガウス分布のランダム値であってもよい。小さなランダム値を加えることによって、(ΩR_XXΩ^H)_jj,fnの非常に小さな値の場合にコールドスタート問題が克服されうる。さらに、グローバルな最適化が優先されうる。

混合パラメータAについての初期化は次のようになされてもよい：
最初のクリップについては、マルチチャネル瞬時混合型については、混合パラメータは

と初期化され、次いで

と規格化されてもよい。

ステレオについては、つまりI＝2個のオーディオ・チャネルを含み左チャネルLがi＝1であり右チャネルRがi＝2であるマルチチャネル・オーディオ信号については、次の公式

を明示的に適用することができる。

マルチチャネル・オーディオ信号のその後のクリップについては、混合パラメータは、マルチチャネル・オーディオ信号の前のクリップの最後のフレームからの推定された値を用いて初期化されてもよい。

以下では、ウィーナー・フィルタ・パラメータの更新が概説される。ウィーナー・フィルタ・パラメータは次のように計算されてもよい。

ここで、

は対応する周波数バンド￣f＝1,…,￣FについてΣ_S,fn、f＝1,…,Fを合計することによって計算される。式(13)は、特にI＜Jの場合に、ウィーナー・フィルタ・パラメータを決定するために使われてもよい。

ノイズは白色かつ定常と想定されるので、ノイズ共分散パラメータΣ_Bは、周波数依存性や時間依存性を示さない、反復工程依存の共通の値に設定されてもよい。

値は各反復工程iterにおいて、初期値1/100Iから最終的な、より小さな値/10000Iに変化する。この動作は、高速かつグローバルな収束を優先するシミュレーテッド・アニーリングと同様である。

ウィーナー・フィルタ・パラメータを計算するための逆演算は、I×I行列に適用される。行列の逆を求める計算を避けるために、I≦Jの場合は、式(13)の代わりに、ウッドベリー行列恒等式が使われて、

を使ってウィーナー・フィルタ・パラメータを計算してもよい。

式(15)が式(13)と数学的に等価であることを示すことができる。

無相関のオーディオ源という想定のもとで、ウィーナー・フィルタ・パラメータは、源の間の直交制約条件を逐次反復的に適用することによってさらに制御されてもよい。

ここで、表現[・]_Dは、すべての非対角成分を0と置くことによって得られる対角行列を示し、εはε＝10^-12以下であってもよい。勾配更新は、収束が達成されるまで、あるいは許容される最大反復工程数ITR_orthoに達するまで繰り返される。式(16)は、適応的な脱相関方法を使う。

共分散行列は、次式

を使って更新されてもよい（段階１０３）。

以下では、源パラメータの更新のための方式が記述される（段階１０４）。瞬時混合型が想定されるので、混合パラメータを計算するために、共分散行列は周波数ビンまたは周波数バンドにわたって合計されることができる。さらに、オーディオ・チャネル３０２のうちの、より大きな音の成分がより大きな重要性を与えられるよう、式(6)で計算された重み付け因子が、TFタイルをスケーリングするために

のように使われてもよい。

制約されない問題を与えられると、混合パラメータは

のように逆行列によって決定できる。

さらに、オーディオ源３０１のスペクトル・パワーが更新されてもよい。このコンテキストにおいて、非負行列因子分解（NMF）方式の適用が、オーディオ源３０１のある種の制約条件または特性（特にオーディオ源３０１のスペクトルに関するもの）を考慮に入れるために有益でありうる。よって、スペクトル・パワーを更新するときに、NMFを通じてスペクトル制約条件が課されてもよい。NMFは、オーディオ源のスペクトル・シグネチャー（W）および／または時間シグネチャー（H）についての事前知識が利用可能であるときに特に有益である。ブラインド源分離（BSS）の場合、NMFはある種のスペクトル制約条件を課す効果をももちうる。それにより、スペクトル入れ換え（spectrum permutation）（あるオーディオ源のスペクトル成分が複数のオーディオ源に分割されること）が回避され、アーチファクトがより少ない、より快い音が得られる。

オーディオ源のスペクトル・パワーΣ_Sは

を使って更新されてもよい。

その後、各オーディオ源jについて、オーディオ源のスペクトル・シグネチャーW_j,fkおよびオーディオ源の時間シグネチャーH_j,knが、(Σ_S)_jj,fnに基づいて更新されてもよい。簡単のため、以下ではこれらの項はW、H、Σ_Sと記す（つまりインデックスなし）。オーディオ源のスペクトル・シグネチャーWは、クリップ毎に一回のみ更新されてもよい。これは、クリップの一つ一つのフレームについてWを更新することに比べて、更新を安定化するためおよび計算量を減らすためである。

NMF方式への入力として、Σ_S、W、W_A、W_BおよびHが与えられる。以下の式(21)から(24)までは、収束まで、あるいは最大反復工程数が達成されるまで繰り返されてもよい。まず、時間シグネチャーが更新されてもよい。

ここで、ε₄は小さい、たとえば10^-12である。次いで、W_A、W_Bが更新されてもよく、

Wが更新されてもよく、

W、W_A、W_Bが

と再規格化されてもよい。

よって、更新されたW、W_A、W_BおよびHは、逐次反復式に決定されうる。それにより、オーディオ源に関するある種の制約条件を課す。更新されたW、W_A、W_BおよびHは次いで、式(8)を使ってオーディオ源のスペクトル・パワーΣ_Sを洗練するために使われてもよい。

スケールの曖昧さを除くために、A、WおよびH（またはAおよびΣ_S）が

のように再規格化されてもよい。

再規格化を通じて、Aはチャネル間でのエネルギーを保存する混合利得（Σ_iA_ij,n ²＝1）を伝え、Wもエネルギー独立であり、規格化されたスペクトル・シグネチャーを伝える。一方、すべてのエネルギーに関係した情報は時間シグネチャーHに追いやられているので、全体的なエネルギーは保存される。この再規格化のプロセスは、信号をスケーリングする量A√(WH)を保存することを注意しておくべきである。源のスペクトル・パワー行列Σ_Sは、式(8)を使ってNMF行列WおよびHを用いて洗練されてもよい。

段階１０５で使用される停止基準は

によって与えられてもよい。

個々のオーディオ源３０１は、ウィーナー・フィルタを使って再構築されうる。

ここで、Ω_fnは各周波数ビンについて式(13)（または式(15)）を使って再計算されてもよい。源再構築のためには、比較的細かい周波数分解能を使うことが典型的には有益である。よって、典型的には、周波数バンド￣fではなく個々の周波数ビンfに基づいてΩ_fnを決定するほうが好ましい。

マルチチャネル（Iチャネル）源は次いで、混合パラメータを用いて推定されたオーディオ源をパンすることによって、再構築されてもよい。

ここで、左辺の￣S_ij,fnはそれぞれサイズIのJ個のベクトルの集合であり、マルチチャネル源のSTFTを表わす。ウィーナー・フィルタの保存性（conservativity）により、この再構築は、マルチチャネル源とノイズの和がもとのオーディオ・チャネルになることを保証する。

逆STFTの線形性のため、保存性は時間領域でも成り立つ。

本稿に記載される方法およびシステムは、ソフトウェア、ファームウェアおよび／またはハードウェアとして実装されうる。ある種のコンポーネントはたとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダムアクセスメモリまたは光記憶媒体のような媒体上に記憶されてもよい。かかる信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および／またはレンダリングするために使われるポータブル電子装置または他の消費者設備である。

本発明のさまざまな側面が、以下の付番実施例（EEE: enumerated example embodiment）から理解されうる。
〔EEE１〕
I個のオーディオ・チャネル（３０２）からJ個のオーディオ源（３０１）を抽出する方法（１００）であって、I、J＞1であり、前記オーディオ・チャネル（３０２）は複数のクリップを含み、各クリップはN個のフレームを含み、N＞1であり、I個のオーディオ・チャネル（３０２）は、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源（３０１）は周波数領域で源行列として表現可能であり、当該方法（１００）は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
・ウィーナー・フィルタ行列を、
・前記源行列から前記チャネル行列の推定を提供するよう適応された混合行列、および
・J個のオーディオ源（３０１）のスペクトル・パワーを示すJ個のオーディオ源（３０１）のパワー行列に基づいて、
更新する段階（１０２）であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成される、段階と；
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列ならびにJ個のオーディオ源（３０１）の自己共分散行列を、
・更新されたウィーナー・フィルタ行列、および
・I個のオーディオ・チャネル（３０２）の自己共分散行列に基づいて、
更新する段階（１０３）と；
・前記混合行列および前記パワー行列を
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の更新された相互共分散行列、および／または
・J個のオーディオ源（３０１）の更新された自己共分散行列に基づいて、更新する段階（１０４）とを含む、
方法（１００）。
〔EEE２〕
当該方法（１００）が、現在のクリップのフレームnについてのI個のオーディオ・チャネル（３０２）の自己共分散行列を、一つまたは複数の以前のクリップの諸フレームからおよび一つまたは複数の将来のクリップの諸フレームから決定することを含む、EEE１記載の方法（１００）。
〔EEE３〕
当該方法（１００）が、I個のオーディオ・チャネル（３０２）を時間領域から周波数領域に変換することによって前記チャネル行列を決定することを含む、EEE１または２記載の方法（１００）。
〔EEE４〕
前記チャネル行列が短期フーリエ変換を使って決定される、EEE３記載の方法（１００）。
〔EEE５〕
・当該方法（１００）が、現在のクリップのフレームnについておよび少なくとも一つの周波数ビンfについての前記源行列の推定を、S_fn＝Ω_fnX_fnとして決定することを含み；
・S_fnは前記源行列の推定であり；
・Ω_fnは前記ウィーナー・フィルタ行列であり；
・X_fnは前記チャネル行列である、
EEE１ないし４のうちいずれか一項記載の方法（１００）。
〔EEE６〕
当該方法（１００）が、最大反復回数に達するまでまたは前記混合行列に関する収束基準が満たされるまで前記の更新する段階（１０２、１０３、１０４）を実行して前記ウィーナー・フィルタ行列を決定することを含む、EEE１ないし５のうちいずれか一項記載の方法（１００）。
〔EEE７〕
・周波数領域がF個の周波数ビンに細分され；
・前記ウィーナー・フィルタ行列が、F個の周波数ビンについて決定され：
・前記F個の周波数ビンは￣F個の周波数バンドにグループ化され、￣F＜Fであり；
・I個のオーディオ・チャネル（３０２）の前記自己共分散行列は、￣F個の周波数バンドについて決定され；
・J個のオーディオ源（３０１）の前記パワー行列は、￣F個の周波数バンドについて決定される、
EEE１ないし６のうちいずれか一項記載の方法（１００）。
〔EEE８〕
・前記ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新され；
・前記ノイズ・パワー項は反復工程数が増すとともに減少する、
EEE１ないし７のうちいずれか一項記載の方法（１００）。
〔EEE９〕
・現在のクリップのフレームnについて、周波数バンド￣f内にある周波数ビンfについて、前記ウィーナー・フィルタ行列は、I＜Jについては

に基づいて、またはI≧Jについては

に基づいて更新され；
・Ω_fnは更新されたウィーナー・フィルタ行列であり、
・

はJ個のオーディオ源（３０１）の前記パワー行列であり、
・A_fnは前記混合行列であり、
・Σ_Bはノイズ・パワー行列である、
EEE１ないし８のうちいずれか一項記載の方法（１００）。
〔EEE１０〕
前記ウィーナー・フィルタ行列は、J個のオーディオ源（３０１）に関して直交制約条件を適用することによって更新される、EEE１ないし９のうちいずれか一項記載の方法（１００）。
〔EEE１１〕
前記ウィーナー・フィルタ行列は、J個のオーディオ源（３０１）の前記自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新される、EEE１０記載の方法（１００）。
〔EEE１２〕
・前記ウィーナー・フィルタ行列は勾配

を使って逐次反復的に更新され、
・

は周波数バンド￣fについておよびフレームnについての前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列であり、
・[ ]_Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、
・εは小さな実数である、
EEE１０または１１記載の方法（１００）。
〔EEE１３〕
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列は、

に基づいて更新されて、
・

は周波数バンド￣fについてかつフレームnについてのI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の更新された相互共分散行列であり、
・

は前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列である、
EEE１ないし１２のうちいずれか一項記載の方法（１００）。
〔EEE１４〕
・J個のオーディオ源（３０１）の前記自己共分散行列は

に基づいて更新され、
・

は周波数バンド￣fについてかつフレームnについてのJ個のオーディオ源（３０１）の更新された自己共分散行列であり、
・

は前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列である、
EEE１ないし１３のうちいずれか一項記載の方法（１００）。
〔EEE１５〕
前記混合行列を更新すること（１０４）は、
・フレームnについてのJ個のオーディオ源（３０１）の周波数独立な自己共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのJ個のオーディオ源（３０１）の自己共分散行列

に基づいて決定することと；
・フレームnについてI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の周波数独立な相互共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列

に基づいて決定することとを含む、
EEE１ないし１４のうちいずれか一項記載の方法（１００）。
〔EEE１６〕
・前記混合行列は、

に基づいて決定され、
・A_nは、フレームnについての周波数独立な混合行列である、
EEE１５記載の方法（１００）。
〔EEE１７〕
・当該方法が、周波数依存の重み付け項e_fnを、I個のオーディオ・チャネル（３０２）の自己共分散行列

に基づいて決定することを含み、
・周波数独立の自己共分散行列

および周波数独立の相互共分散行列

は前記周波数依存の重み付け項e_fnに基づいて決定される、
EEE１５または１６記載の方法（１００）。
〔EEE１８〕
・前記パワー行列を更新すること（１０４）は、周波数ビンfについてかつフレームnについてのj番目のオーディオ源（３０１）についての更新されたパワー行列項(Σ_S)_jj,fnを、

に基づいて決定することを含み、

はフレームnについてかつ周波数ビンfを含む周波数バンド￣fについてのJ個のオーディオ源（３０１）の自己共分散行列である、
EEE１ないし１７のうちいずれか一項記載の方法（１００）。
〔EEE１９〕
・前記パワー行列を更新すること（１０４）は、J個のオーディオ源（３０１）について、スペクトル・シグネチャーWおよび時間シグネチャーHを、前記パワー行列の非負行列因子分解を使って決定することを含み、
・j番目のオーディオ源（３０１）についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源（３０１）についての更新されたパワー行列項(Σ_S)_jj,fnに基づいて決定され、
・前記パワー行列を更新すること（１０４）は、j番目のオーディオ源（３０１）についてのさらなる更新されたパワー行列項(Σ_S)_jj,fnを

に基づいて決定することを含む、
EEE１８記載の方法（１００）。
〔EEE２０〕
当該方法（１００）がさらに、
・前記混合行列を、現在のクリップの直前のクリップのフレームについて決定された混合行列を使って初期化する（１０１）ことを含み；
・前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネル（３０２）の自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレームについて決定されたウィーナー・フィルタ行列に基づいて初期化する（１０１）ことを含む、
EEE１ないし１９のうちいずれか一項記載の方法（１００）。
〔EEE２１〕
プロセッサ上での実行のために、かつコンピューティング装置上で実行されたときに請求項１ないし２０のうちいずれか一項記載の方法段階を実行するために適応されているソフトウェア・プログラムを有する、記憶媒体。
〔EEE２２〕
I個のオーディオ・チャネル（３０２）からJ個のオーディオ源（３０１）を抽出するシステムであって、I、J＞1であり、前記オーディオ・チャネル（３０２）は複数のクリップを含み、各クリップはN個のフレームを含み、N＞1であり、前記I個のオーディオ・チャネル（３０２）は、周波数領域でチャネル行列として表現可能であり、前記J個のオーディオ源（３０１）は周波数領域で源行列として表現可能であり、当該システムは、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
・ウィーナー・フィルタ行列を、
・前記源行列から前記チャネル行列の推定を提供するよう構成された混合行列、および
・J個のオーディオ源（３０１）のスペクトル・パワーを示すJ個のオーディオ源（３０１）のパワー行列に基づいて、
更新する段階であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成される、段階と；
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列ならびにJ個のオーディオ源（３０１）の自己共分散行列を、
・更新されたウィーナー・フィルタ行列、および
・I個のオーディオ・チャネル（３０２）の自己共分散行列に基づいて
更新する段階と；
・前記混合行列および前記パワー行列を
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の更新された相互共分散行列、および／または
・J個のオーディオ源（３０１）の更新された自己共分散行列に基づいて、
更新する段階とを実行するよう構成されている、
システム。

Claims

I個のオーディオ・チャネル（３０２）からJ個のオーディオ源（３０１）を抽出する方法（１００）であって、I、J＞1であり、前記オーディオ・チャネル（３０２）は複数のクリップを含み、各クリップはN個のフレームを含み、N＞1であり、I個のオーディオ・チャネル（３０２）は、周波数領域でチャネル行列として表現可能であり、J個のオーディオ源（３０１）は周波数領域で源行列として表現可能であり、周波数領域はF個の周波数ビンに細分され、前記F個の周波数ビンは￣F個の周波数バンドにグループ化され、￣F＜Fであり；当該方法（１００）は、現在のクリップのフレームnについて、少なくとも一つの周波数ビンfについて、かつ現在の反復工程について、
・ウィーナー・フィルタ行列を、
・前記源行列から前記チャネル行列の推定を提供するよう適応された混合行列、および
・J個のオーディオ源（３０１）のスペクトル・パワーを示すJ個のオーディオ源（３０１）のパワー行列に基づいて、
更新する段階（１０２）であって、前記ウィーナー・フィルタ行列は、前記チャネル行列から前記源行列の推定を提供するよう構成され、前記ウィーナー・フィルタ行列が前記F個の周波数ビンのそれぞれについて決定される、段階と；
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列ならびにJ個のオーディオ源（３０１）の自己共分散行列を、
・更新されたウィーナー・フィルタ行列、および
・I個のオーディオ・チャネル（３０２）の自己共分散行列に基づいて、
更新する段階（１０３）と；
・前記混合行列および前記パワー行列を
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の更新された相互共分散行列、および／または
・J個のオーディオ源（３０１）の更新された自己共分散行列に基づいて、
更新する段階（１０４）であって、J個のオーディオ源（３０１）の前記パワー行列は、前記￣F個の周波数バンドについて決定されるだけである、段階とを含む、
方法（１００）。
当該方法（１００）が、現在のクリップのフレームnについてのI個のオーディオ・チャネル（３０２）の自己共分散行列を、一つまたは複数の以前のクリップの諸フレームからおよび一つまたは複数の将来のクリップの諸フレームから決定することを含む、請求項１記載の方法（１００）。
当該方法（１００）が、I個のオーディオ・チャネル（３０２）を時間領域から周波数領域に変換することによって前記チャネル行列を決定することを含み、
任意的に、前記チャネル行列は短期フーリエ変換を使って決定される、
請求項１または２記載の方法（１００）。
・当該方法（１００）が、現在のクリップのフレームnについておよび少なくとも一つの周波数ビンfについての前記源行列の推定を、S_fn＝Ω_fnX_fnとして決定することを含み；
・S_fnは前記源行列の推定であり；
・Ω_fnは前記ウィーナー・フィルタ行列であり；
・X_fnは前記チャネル行列である、
請求項１ないし３のうちいずれか一項記載の方法（１００）。
当該方法（１００）が、最大反復回数に達するまでまたは前記混合行列に関する収束基準が満たされるまで前記の更新する段階（１０２、１０３、１０４）を実行して前記ウィーナー・フィルタ行列を決定することを含む、請求項１ないし４のうちいずれか一項記載の方法（１００）。
I個のオーディオ・チャネル（３０２）の前記自己共分散行列は、前記￣F個の周波数バンドについて決定されるだけである、請求項１ないし５のうちいずれか一項記載の方法（１００）。
・前記ウィーナー・フィルタ行列は、ノイズ・パワー項を含むノイズ・パワー行列に基づいて更新され；
・前記ノイズ・パワー項は反復工程数が増すとともに減少する、
請求項１ないし６のうちいずれか一項記載の方法（１００）。
・現在のクリップのフレームnについて、周波数バンド￣f内にある周波数ビンfについて、前記ウィーナー・フィルタ行列は、I＜Jについては

に基づいて、またはI≧Jについては

に基づいて更新され；
・Ω_fnは更新されたウィーナー・フィルタ行列であり、
・

はJ個のオーディオ源（３０１）の前記パワー行列であり、
・A_fnは前記混合行列であり、
・Σ_Bはノイズ・パワー行列である、
請求項１ないし７のうちいずれか一項記載の方法（１００）。
前記ウィーナー・フィルタ行列は、J個のオーディオ源（３０１）に関して直交制約条件を適用することによって更新され、
任意的に、前記ウィーナー・フィルタ行列は、J個のオーディオ源（３０１）の前記自己共分散行列の非対角項のパワーを低下させるために逐次反復的に更新される、
請求項１ないし８のうちいずれか一項記載の方法（１００）。
・前記ウィーナー・フィルタ行列は勾配

を使って逐次反復的に更新され、
・

は周波数バンド￣fについておよびフレームnについての前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列であり、
・[ ]_Dは括弧内に含まれる行列においてすべての非対角要素を0と置いた対角行列であり、
・εは小さな実数である、
請求項９記載の方法（１００）。
・I個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列は、

に基づいて更新されて、
・

は周波数バンド￣fについてかつフレームnについてのI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の更新された相互共分散行列であり、
・

は前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列である、
および／または
・J個のオーディオ源（３０１）の前記自己共分散行列は

に基づいて更新され、
・

は周波数バンド￣fについてかつフレームnについてのJ個のオーディオ源（３０１）の更新された自己共分散行列であり、
・

は前記ウィーナー・フィルタ行列であり、
・

はI個のオーディオ・チャネル（３０２）の前記自己共分散行列である、
請求項１ないし１０のうちいずれか一項記載の方法（１００）。
前記混合行列を更新すること（１０４）は、
・フレームnについてのJ個のオーディオ源（３０１）の周波数独立な自己共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのJ個のオーディオ源（３０１）の自己共分散行列

に基づいて決定することと；
・フレームnについてI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の周波数独立な相互共分散行列

を、フレームnについてかつ周波数領域の種々の周波数ビンfまたは周波数バンド￣fについてのI個のオーディオ・チャネル（３０２）およびJ個のオーディオ源（３０１）の相互共分散行列

に基づいて決定することとを含み、
任意的に、
・前記混合行列は、

に基づいて決定され、
・A_nは、フレームnについての周波数独立な混合行列である、
請求項１ないし１１のうちいずれか一項記載の方法（１００）。
・当該方法が、周波数依存の重み付け項e_fnを、I個のオーディオ・チャネル（３０２）の自己共分散行列

に基づいて決定することを含み、
・周波数独立の自己共分散行列

および周波数独立の相互共分散行列

は前記周波数依存の重み付け項e_fnに基づいて決定される、
請求項１２記載の方法（１００）。
・前記パワー行列を更新すること（１０４）は、周波数ビンfについてかつフレームnについてのj番目のオーディオ源（３０１）についての更新されたパワー行列項(Σ_S)_jj,fnを、

に基づいて決定することを含み、

はフレームnについてかつ周波数ビンfを含む周波数バンド￣fについてのJ個のオーディオ源（３０１）の自己共分散行列であり、
任意的に、
・前記パワー行列を更新すること（１０４）は、J個のオーディオ源（３０１）について、スペクトル・シグネチャーWおよび時間シグネチャーHを、前記パワー行列の非負行列因子分解を使って決定することを含み、
・j番目のオーディオ源（３０１）についてのスペクトル・シグネチャーWおよび時間シグネチャーHは、j番目のオーディオ源（３０１）についての更新されたパワー行列項(Σ_S)_jj,fnに基づいて決定され、
・前記パワー行列を更新すること（１０４）は、j番目のオーディオ源（３０１）についてのさらなる更新されたパワー行列項(Σ_S)_jj,fnを

に基づいて決定することを含む、
請求項１ないし１３のうちいずれか一項記載の方法（１００）。
当該方法（１００）がさらに、
・前記混合行列を、現在のクリップの直前のクリップのフレームについて決定された混合行列を使って初期化する（１０１）ことを含み；
・前記パワー行列を、現在のクリップのフレームnについてのI個のオーディオ・チャネル（３０２）の自己共分散行列に基づき、かつ、現在のクリップの直前のクリップのフレームについて決定されたウィーナー・フィルタ行列に基づいて初期化する（１０１）ことを含む、
請求項１ないし１４のうちいずれか一項記載の方法（１００）。