JP2004523752A - 幾何学的音源分離による信号処理装置、システムおよび方法 - Google Patents
幾何学的音源分離による信号処理装置、システムおよび方法 Download PDFInfo
- Publication number
- JP2004523752A JP2004523752A JP2002561820A JP2002561820A JP2004523752A JP 2004523752 A JP2004523752 A JP 2004523752A JP 2002561820 A JP2002561820 A JP 2002561820A JP 2002561820 A JP2002561820 A JP 2002561820A JP 2004523752 A JP2004523752 A JP 2004523752A
- Authority
- JP
- Japan
- Prior art keywords
- filter
- signal
- sound source
- response
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 title claims description 11
- 230000004044 response Effects 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 7
- 239000002131 composite material Substances 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 1
- 239000000203 mixture Substances 0.000 abstract description 5
- 239000011159 matrix material Substances 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 101100289792 Squirrel monkey polyomavirus large T gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H21/00—Adaptive networks
- H03H21/0012—Digital adaptive filters
- H03H21/0025—Particular filtering methods
- H03H21/0027—Particular filtering methods filtering in the frequency domain
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03H—IMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
- H03H21/00—Adaptive networks
- H03H21/0012—Digital adaptive filters
- H03H21/0025—Particular filtering methods
- H03H2021/0034—Blind source separation
- H03H2021/0036—Blind source separation of convolutive mixtures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
(1.発明の分野)
本発明は、一般に信号処理に関し、より詳細には、幾何学的情報(geometric information)および適応型ビームフォーミング技術(adaptive beamforming technique)を用いて混合信号(mixed signal)の分離(separation)を行うための装置、システムおよび方法に関する。
【0002】
(2.発明の背景)
ブラインド音源分離(BSS:Blind Source Separation)とは、複合信号(composite signal)の特性が予め分っていない状態で、複合信号をその元の構成要素(成分)信号(component signal)に分離する過程(プロセス)のことを言う。この過程は、音声認識、多重通路(経路)チャネル(maltipath channel)の識別および等化、音響録音の信号対干渉比(SIR:Signal to Interference Ratio)の改善、監視用途、並びに補聴器の動作において有用である。
【0003】
多重通路環境における広帯域信号のブラインド音源分離は、幾つかの不確定さ(ambiguity)のある困難な問題で留まっている。センサの数を増加すると、性能を向上させることはできるが、分離フィルタの選択における不確定さにつながる。マイクロホン信号を含む空間から、より小さい信号音源空間への投射が複数あるので、理論上は、部屋の中の応答を反転する複数のフィルタがある。これらの複数のフィルタは、センサ・アレイ応答からみた残りの自由度を表す。
【0004】
種々の周波数にわたる種々の音源チャネルに、信号寄与を一貫して割り当てることは、周波数置換(frequency permutaion)問題を生じる。この問題は、アルゴリズムが種々の周波数帯を同時に考慮しない限り、時間領域アルゴリズムを含めたすべての音源分離アルゴリズムに内在する。このような多スペクトル(polyspectral)特性の推定は、音声などの非定常信号の場合は、特に困難であり、結果として、アルゴリズムは、計算コストが高い。
【0005】
相関のない時間的に変化する音源信号が、M個存在すると仮定して、基本的な音源分離問題について述べる。
【数10】
上式で、音源s(t)は、種々の空間的位置から発せられる。幾つかのセンサN(N≧M)が、時間的に変化する信号を検出する。
【数11】
多重通路環境では、各音源jが、音源からセンサへの対応する通路のインパルス応答を表す線形伝達関数Aij(τ)を介してセンサiと結合し、従って以下のようになる。
【数12】
この式は、行列(matrix)表記を用いて書き換えることができる(畳み込みを*で示す)。
【数13】
離散時間フーリエ変換(DTFT:Discrete Time Fourier Transform)を適用した後、この式は以下のように書き換えることができる。
【数14】
畳み込み(convolutive)音源分離の目的は、畳み込み混合A(τ)の影響を反転する有限インパルス応答(FIR:Finite Impulse Response)フィルタWij(τ)を見つけることである。これは、元の音源s(t)に対応する以下の式を生成することに相当する。
【数15】
【0006】
畳み込み分離のための種々の基準(criteria:判定基準)が、提案されてきた。例えば、シグナル・プロセッシング(Signal Processing)、vol.45、no.2、209〜229ページ(1995年)において発行された「畳み込み混合のためのブラインド音源分離(BLIND SOURCE SEPARATION FOR CONVOLUTIVE MIXTURES)」の中で、H.−L.N.チー(Thi)氏およびC.ジュテン(Jutten)氏により論じられている。ウェインスタイン(Weinstein)氏外に付与された「多チャネル信号分離(MULTICHANNEL SIGNAL SEPARATION)」という名称の米国特許第5,208,786号には、2チャネルの例が開示されている。この5,208,786号特許では、各チャネルを、多入力多出力(MIMO:Multi−Input−Multi−Output)の時間的に変化しない線形システムとしてモデル化している。入力された音源信号は、再構成された信号が、統計的に相関しないことを必要とすることにより、分離および回復(再生、復元)される。しかし、この無相関条件(decorrelation condition)は、未知のチャネルが2×2MIMO(多入力多出力)の有限インパルス応答フィルタであると仮定しない限り、問題を一意に解決するには不十分である。
【0007】
すべての畳み込み分離基準は、未知の信号の統計的独立性(statistical independence)を仮定することから導出することができ、通常は、音源信号の2つ1組の独立性に限定される。2つ1組の独立性は、すべてのクロスモーメント(cross−moment)を因数分解して、それによりモデル信号音源に対する幾つかの必要条件を以下のように生成することができることを意味する。
【数16】
畳み込み分離では、W(τ)のフィルタ・タップの遅延に対応する複数の遅延τについて、これらの条件を満たす必要がある。定常信号の場合は、高次の基準(複数n、m)が必要である。音声などの非定常信号の場合は、複数tを使用することができ、複数無相関(n=m=1)で十分である。
【0008】
独立基準を使用するとき、置換(permutation)とスケール化(scaling)の両方の不確定さが残る。畳み込みの場合、スケール化の不確定さは、各周波数グループまたはビン(bin)に当てはまり、その結果、時間領域(time domain)中の各音源信号ごとに畳み込みの不確定さが生じる。独立した信号が、遅延したものまたは畳み込まれたものはどれも、独立したままである。独立した周波数領域の場合、
【数17】
すべての次数nおよびmについて、各周波数ごとに置換の不確定さがある。従って、各周波数につき、独立した周波数領域(frequency domain)はまた、指数i、jを以下のモデル音源に任意にスケール化し割り当てることにより満たされる。
【数18】
上式で、各周波数につき、P(ω)は、任意の置換行列(permutaion matrix)を表し、S(ω)は、任意の対角スケール化行列を表す。これは、種々の周波数ビンについて、所定の信号音源の寄与が単一のモデル音源に一貫して割り当てられないことがあるという問題を生じる。従って、所定のモデル音源は、種々の実際の音源からの寄与を有することになる。可能性ある置換数が増加するにつれて、この問題はチャネル数が増加してより困難になる。
【0009】
多くの場合、この問題は、分離基準の周波数領域定式化のアーティファクト(artifact)と考えられてきた。何故なら、分離タスクが、周波数ビンごとの独立した分離タスクに分断されるからである。n=m=1の場合、この不確定さは、式Iに示した時間領域独立基準にも当てはまる。高次の場合でも、時間領域基準は、正しい置換を保証しない。
【0010】
従来の一部の音源分離処理は、この問題を単に無視していた。モデル音源のスペクトルの継続性(continuity)や、異なる周波数ビンを多くの場合共変調(co−modulate)するなど、幾つかの解決法が提案されている。複数の周波数寄与のこれらの統計的特性を取り込むための厳密な方法は、多スペクトルである。しかし、実際に複数の周波数で確固たる統計を得ることは困難であり、特に音声などの非定常信号の場合は難しい。更に、周波数の組合せを考慮するアルゴリズムは本来、計算的要求が過大である。周波数領域のフィルタ係数に対する平滑化制約(smoothness constraint)も提案されており、例えば、パラ(Parra)氏外に付与された「複数無相関法を用いた畳み込みブラインド音源分離(CONVOLUTIVE BLIND SOURCE SEPARATION USING A MULTIPLE DECORRELATION METHOD)」という名称の米国特許第6,167,417号に記載されている。これは、分析窓(ウィンドウ)のサイズと比較したフィルタ長を制約することに相当する。しかし、強く反響する環境では、いくぶん長いフィルタが必要なので、フィルタ・サイズに対するこの制限は、常に妥当であるとは限らない。
【0011】
理論上は、M=N個の音源を分離するためには、N個のセンサがあればよい。しかし、実際には、より多くのマイクロホン(N>M)を使用して、実際のシステムの性能を向上させたい場合がある。置換およびスケール化の不確定さを無視すると、式IIは、W(ω)A(ω)=Iと解釈され、Iは、恒等行列(identity matrix)を表す。所定のA(ω)に対して、解W(ω)のN−M次元の線形空間があり、これは、フィルタW(ω)で表されるビーム・パターンを整形するときに、追加の自由度があることを示す。
【0012】
通常の幾何学的な適応型ビームフォーミング(beamforming)では、マイクロホン位置や音源位置などの情報がしばしば使用される。幾何学的な仮定を取り入れて、フィルタ係数に対する線形制約(linear constraint)として実行することができる。例えば、複数サイドローブ消去器(multiple sidelobe canceler)で、チャネルのうちの1つ(チャネルi)の応答が一定に保たれ、これはw(ω)ei=定数として表現することができる。行ベクトルの要素w(ω)∈CNは、各マイクロホンに適用されるフィルタ要素であり、eiは、恒等行列中のi番目の列である。これは、ブラインド分離アルゴリズムで通常適用される、Wの対角項に課せられる正規化条件に類似する。チャネルを制約するのではなく、特定の方向(orientaiton:方向)に対するビームフォーマの応答を制約することもできる。
【0013】
各マイクロホンの位置および応答特性が分れば、マイクロホンのセットの自由音場応答および関連するビームフォーミング・フィルタw(ω)を計算することができる。位置qに対して、位相および大きさの応答は、以下の式により与えられる。
【数19】
上式で、d(ω,q)∈CNは、qに位置する音源に対するN個のマイクロホンの位相および大きさの応答を表す。全方向性マイクロホンを有する線形アレイと、遠距離音場音源(対象の波長にわたって2乗したアレイ開口よりもずっと遠い)の場合、マイクロホンの応答は、音源と線形アレイとの間の角度θ=θ(q)のみに、ほぼ依存する。
【数20】
上式で、piは、線形アレイ上のi番目のマイクロホンの位置であり、cは波動スピードである。
【0014】
特定の方向への応答を制約することは、w(ω)に対する線形制約で単純に表され、従って、r(ω,θ)=w(ω)d(ω,θ)=定数のようになる。この概念は、線形制約最小分散(LCMV:Linearly Constrained Minimum Variance)アルゴリズムで用いられ、また、一般化サイドローブ消去の基礎をなす考え方でもある。確固たるビームを得るために、所定の方向の周りで滑らかな応答を必要とすることも提案されている。要約すれば、これらの条件またはその組合せはすべて、w(ω)に対する線形制約として表現することができる。
【0015】
最も適応的なビームフォーミング・アルゴリズムは、パワー(power)をそれらの主要な最適化基準と考える。雑音またはサイドローブの消去などでは、干渉を起こしている信号の方向での応答を適応的に最小化するために、パワーが最小化されることがある。整合フィルタ方法などでは、対象となる応答を最大化するために、パワーが最大化されることがある。この結果、他の音源からの漏話(クロストーク)があるとき、これらのアルゴリズムは、しばしば最適以下で機能する。
【0016】
2次音源分離方法では、個別のビームw(ω)∈C1×Nおよび個別のチャネルy(t)∈R1のパワーを考慮するのではなく、複数のビームW(ω)∈CM×Nおよびそれらに対応する出力y(t)∈RMのパワーおよびクロス・パワーを考慮することができる。周波数領域の場合、これらの複数のビームおよび出力は、クロス・パワー・スペクトルRyy(τ,ω)に対応する。非定常信号の2次ブラインド音源分離では、複数の時間にわたるクロス・パワーを最小化する。通常の適応型ビームフォーミングの場合のように対角項ではなく、行列Ryy(τ,ω)の非対角要素が、2次分離で最小化される。複数の音源が同時にアクティブのとき、反響する環境では特に、厳しい1つのチャネル・パワー基準が重大な漏話または漏出の問題を有する。
【0017】
(発明の概要)
本発明は、多重通路環境で非定常広帯域信号の音源を分離する必要性に対処するものである。音源分離における不確定さには、マイクロホンの位置などの事前情報を追加することにより、また、音源が空間中で局在化されるという仮定を追加することにより対処する。多くの適応型ビームフォーミング・アルゴリズムのパワー基準を、クロス・パワー基準(cross power criteria)で置き換えることにより、複数の幾何学的音源分離アルゴリズムが得られる。ビーム整形に関する置換、畳み込み、およびより一般的な自由度に対処するために、幾何学的情報を利用する。通常の適応型ビームフォーミングで用いられる制約を実行しながら、複数の時間tについてのクロス・パワー・スペクトル(cross power spectra)を最小化することにより、ブラインド音源分離の利点と幾何学的ビームフォーミングの利点を組み合わせる。
【0018】
(好ましい実施形態の詳細な説明)
本発明では、既知のブラインド音源分離技術により得られるW(ω)の値を、信号音源に関する幾何学的仮定を行うことにより推定する。音源は、少なくとも所定のアレイの空間分解能まで局在化されると仮定する。本発明では、周波数スペクトル全体で信号が同じ位置から発すると仮定し、フィルタ係数に対する幾何学的制約を定式化することを可能にする。幾何学的音源分離(Geometric Source Separation)アルゴリズムの一種をもたらす種々の幾何学的制約を導入する。
【0019】
図1に、本発明の音源分離方法を実現するためのシステム100を示す。システム100は、信号の構成要素(成分)信号に分離されることになる信号を供給する複合信号音源126と、本発明の幾何学的音源分離ルーチンを実行するコンピュータ・システム108とを含んでいる。音源126は、任意の複合信号音源を含んでいてもよいが、一例として、センサ・アレイ(列)102、信号処理回路104、および録音済み信号音源106を含むものとして示す。センサ・アレイ102は、マイクロホンなどの1つまたは複数の変換器(tarnsducer)102A、102B、102Cを含んでいる。変換器102A、102B、102Cは、信号のディジタル化を実行する信号処理回路104に結合されている。ディジタル信号は、信号分離および他の処理のためにコンピュータ・システム108に結合される。録音済み信号音源106が任意選択で、分離を必要とする複合信号の音源を形成することができる。
【0020】
コンピュータ・システム108は、中央処理装置(CPU)114、メモリ122、サポート回路116、および入出力(I/O)インタフェース120を含んでいる。一般に、コンピュータ・システム108は、I/Oインタフェース120を介して、表示装置112、およびマウスやキーボードなどの様々な入力装置110に結合されている。一般に、サポート回路116は、キャッシュ・メモリ、電源、クロック回路、通信バスなど、周知の回路を含んでいる。メモリ122は、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、ディスク駆動装置、テープ駆動装置などを含んでいてもよく、あるいはメモリ装置の何れかの組合せを含んでいてもよい。
【0021】
本発明は、幾何学的音源分離ルーチン124として実現される。幾何学的音源分離ルーチン124は、メモリ122に記憶され、CPU114により実行されて、信号音源126からの信号を処理する。従って、通常、コンピュータ・システム108は、汎用コンピュータ・システムであり、本発明のルーチン124のみを実行するときは、ルーチン124専用コンピュータ・システムとなる。本発明を実現するプラットフォーム(platform:基盤)の一例として、汎用コンピュータを示してあるが、本発明は、特定用途向け集積回路(ASIC)、ディジタル信号処理(DSP)集積回路、またはその他の1つまたは複数のハードウェア装置として、ハードウェア中で実現することもできる。従って、本発明は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組合せにより実現することができる。
【0022】
図2に、本発明の幾何学的音源分離ルーチン124の流れ図を示す。ステップ200で、複合の混合信号126が入力され、この信号は、入力信号x(t)のデータ・サンプルを含む複数のデータ・フレームに分離される。ルーチン200は、各データ・フレームx(t)毎に離散フーリエ変換(DFT:Discrete Fourier Transform)の値x(ω)を生成する。即ち、T個のサンプルの各窓長(window of length)につき1つの周波数領域離散フーリエ変換(DFT)値を生成する。
【0023】
ステップ204で、出力y(t)からRyy(t,ω)の実行時推定値を計算する。通常のフィルタ・サイズでは大きなTが必要なので、因数分解Ryy(t,ω)≒W(ω)Rxx(t,ω)WH(ω)により、以下の式213に従って、
【数21】
複数の時間tについてのRyy(t,ω)を同時に対角化して、非対角要素の2乗の和を最小化する。
【数22】
は、
【数23】
として定められるフロベニウス・ノルム(Frobenius norm)を指す。tおよびωにわたる和は、それぞれWの適応が行われるすべての時間およびすべての周波数ビンの範囲にわたることになる。勾配降下法(gradient descent)を用いたより高速な収束のためには、周波数ごとの総入力パワーα(ω)を正規化する。
【数24】
この基準を、フィルタ係数Wに関して最小化する。ゼロ(零)の下界(lower bound:下限)は、Ryy(t,ω)が対角である場合にのみ得られる。
【0024】
信号音源s(t)は、角度θ=[θ1...θm]で、且つ遠距離音場近似(far field approximation)が適用されるのに十分なセンサ102からの距離で局在化される。本発明により、完全3次元の音源位置を有利に用いることもできるが、本明細書に述べる特定の実施例では、単にマイクロホン・アレイに対する入射角により音源位置を識別する。ステップ208で、ステップ204で生成したクロス・パワー・スペクトルに基づいて幾何学的音源位置を計算する。ステップ219で、様々な基準のうちのどれを次にクロス・パワー・スペクトル計算に適用するかを決定するための選択または切替えを利用する。例えば、以下のハード(強い)制約(hard constraint)210
【数25】
を各フィルタwi(ω)に適用する場合、W(ω)中のi番目の行ベクトルは、方向θiで単位応答(unit response)を有するようにされる。勾配降下法アルゴリズムでは、制約210は単に、勾配(gradient)(δJ/δwi(ω))を、制約された勾配を有する許容解の線形部分空間に射影することにより実行することができる。パワーまたはクロス・パワーの最小化は、干渉角度での応答を最小化しようとすることになるので、これは、これらの周波数における等価な特異点をもたらす。これらの場合、ソフト(弱い)制約(soft constraint)210を以下の形式の正則化項(regularization term)211として選択すべきである。
【数26】
より制限的な、以下の第2のハード制約209をステップ219で選択することもできる。
【数27】
ハード制約209は、ハード制約210の条件を各フィルタwi(ω)に課して、W(ω)中のi番目の行ベクトルが方向θiで単位応答を有するようにする。更に、ハード制約209は、i番目の行ベクトルが干渉信号の方向θj(i≠j)でゼロ応答(zero response)を有することも必要とする。
【0025】
ビーム・パターンの格子状ローブ(grating lobe:空間サンプリングが限られていることによる主ローブの周期的レプリカ)が干渉角度と交差する周波数では、D(ω,θ)は不可逆(not invertible)である。これらの場合、ハード制約として制約209を実行しようとするのは妥当ではない。そうではなく、以下の形式の正則化項を追加することによりソフト制約212を選択する。
【数28】
ステップ219で、式213に対して様々な初期化条件を実行する。すべての初期化において、最適化の間にスケールを正規化するためには関係wi(ω)ei=1が必要である。ステップ215で、個々の音源の方向を指す遅延和(delay−sum)ビームフォーマ(del−sum)に対応するように、フィルタ構造を初期化する。方向θiを用いて、i番目のビーム(W(ω)の行ベクトルwi(ω))のフィルタ係数を、以下のアルゴリズムで初期化する。
【数29】
【0026】
ステップ219で、式213は代わりに、すべての干渉音源方向、即ち、i番目のビームの場合に、角度θ/θiでゼロを配置するビームにより初期化することもできる。これらの条件を満たす最小ノルムを有する初期化フィルタは、最小2乗法で明示的に計算することができ、以下の初期化アルゴリズム216になる。
【数30】
上式で、+は擬似逆行列を示し、[ei,D(ω,θ/θi)]は、単位行列のi番目の列eiと、D(ω,θ)のi番目の列以外のすべてとを含む行列である。
【0027】
分離アルゴリズムを稼動中に実行する際は、環境内での音源位置が動的に変化していることがあるので、初期化を介して幾何学的情報を導入する概念は、通常は実行できるものではない。初期化時および最適化過程の期間の間、幾何学的制約をより頻繁に実行する。推定される位置が変化するのに伴って、制約は動的に変化する。通常、線形制約209および210はそれぞれ、ペナルティ項を有するソフト制約として実行する。不可逆性(noninvertibility)の問題には、ペナルティ項に対する周波数依存の重み付けを導入することにより対処する。具体的には、この目標は、D(ω,θ)が、不可逆である周波数帯についての最適化から制約をなくすことである。可逆性についてのいくぶん単純なメトリック(metric)が、条件数(condition number)である。従って、ステップ211およびステップ212で、正則化項J(W)は、λ(ω)=cond‐1(D(ω,θ))の条件数の逆数で重み付けされる。これは、D(ω,θ)が不可逆なときは0(ゼロ)に収束し、そうでないときは、例えば0≦λ(ω)≦1のように有界(bounded)のままである。幾何学的な正則化項を周波数に依存して重み付けすることを含む総費用関数(total cost function)218は、以下の式により与えられる。
【数31】
アルゴリズム210では、正則化項J1は、方向θiのフィルタiの応答を維持しようとすることになる。遅延和ビームフォーマ215は、アルゴリズム210の条件を厳密に満たす。アルゴリズム209では、正則化項J2は、追加で干渉音源の方向に対する応答を最小化することになる。アルゴリズム209の制約を厳密に保証するフィルタ構造は、DH(ω,θ)の擬似逆行列として最小2乗法で、または不可逆性問題のために正則化項βIを含めることにより計算され、以下のアルゴリズム219になる。
【数32】
【0028】
アルゴリズム217は、干渉音源の角度でゼロ(零)を配置するが、他の方向におけるその応答は、指定されない。アルゴリズム215、210、209の結果は、対応する音源の方向の主ローブを呈する。格子状ローブが干渉音源の位置と一致する競合周波数帯の場合、複数クロス・パワー最小化は、アルゴリズム215では主ローブを消去し、アルゴリズム210および209では、幾何学的ペナルティ(geometric penalty)により主ローブをいくらか保存する。質的には、データ独立アルゴリズム219の結果は、正しい位置の主ローブとゼロ(零)を両方とも取り込むように見える。しかしその性能は、データ適応型アルゴリズム209、210、215、217よりも劣る。
【0029】
勾配降下法アルゴリズムを使用するステップ202では、アルゴリズム209、210、211、212の何れかを使用して、信号フィルタ222を最適化し、クロス・パワーを最小化することができる。複数の音源の角度θiは、複数シグナル分類(MUSIC:MUltiple SIgnal Classification)アルゴリズムを使用して自動的に識別することができる。複数シグナル分類(MUSIC)アルゴリズムは、任意の方向性応答を有する任意に配置されたアンテナを使用して、複数の信号の到達方向を計算する方法である。また、複数シグナル分類(MUSIC)アルゴリズムは、サンプリングされたデータ時系列を含む複数の正弦曲線の周波数を測定することにも適用される。周波数の測定に適用されるときは、タップ付き遅延線の実現形態に直接に適する。音源の数Mは既知であると仮定される。本明細書に挙げた例およびアルゴリズムは、周波数領域での数値演算を対象としているが、本発明は時間領域で実行することもできる。
【図面の簡単な説明】
【図1】
本発明のソフトウェア実装を実行するためのシステムを示す図である。
【図2】
本発明の方法の流れ図である。
Claims (22)
- 畳み込み混合された信号を複数の音源に分離するための装置であって、 各センサ位置に配置された複数の信号センサ(102)と、 多入力多出力の信号フィルタ(222)と、 複数の時間における複数の出力チャネルのクロス・パワーを推定する手段(204)と、 前記センサ位置との空間的関係で定められる音源位置rの所定のセットを計算する手段(208)と、 前記所定の音源位置のセットに対する所定のフィルタ応答を実行しながら、複数の出力パワーを最小化するよう前記信号フィルタを適合させる手段とを含んでいる装置。
- 前記クロス・パワーは、前記信号フィルタ出力の複数のクロス・パワー・スペクトルを周波数領域で推定して最小化することにより最小化される、請求項1に記載の装置。
- 前記所定のフィルタ応答は、前記信号フィルタが複数の出力パワーを最小化しているときに前記信号フィルタに対する線形制約として実行される、請求項1に記載の装置。
- 前記所定のフィルタ応答は、前記信号フィルタが複数の出力パワーを最小化しているときに正則化項を追加することにより実行される、請求項1に記載の装置。
- 前記信号フィルタ(222)は、有限インパルス応答フィルタである、請求項1に記載の装置。
- 前記音源位置rは、前記センサ位置に対する相対的な角度で指定される、請求項1に記載の装置。
- 前記信号フィルタ(222)は、ビームフォーマ・フィルタとして動作するように初期化される、請求項1に記載の装置。
- 前記初期化された信号フィルタは、音源位置rの前記所定のセットに向けた遅延和ビームフォーマのセットを表す、請求項12に記載の装置。
- 前記音源位置rは、クロス・パワー・スペクトルから推定される、請求項1に記載の装置。
- 非定常信号を処理するためのコンピュータ・システム(108)であって、 少なくとも1つの信号入力ポートと、 前記信号入力ポートから複合信号を受け取るように構成された中央処理装置(114)と、 前記中央処理装置(114)に相互接続されたメモリ(122)と、 前記メモリ(122)に記憶されたディジタル化済み信号を処理するように前記メモリに相互接続された幾何学的音源分離モジュール(124)とを含んでいるコンピュータ・システム。
- 前記幾何学的音源分離モジュールは、更に少なくとも1つの有限インパルス応答フィルタ(222)を含んでおり、前記複合信号は、前記フィルタに供給される、請求項15に記載のコンピュータ・システム。
- 前記メモリ(122)は、更に前記複合信号の音源の空間的位置データを含んでおり、前記空間的位置データは、前記有限インパルス応答フィルタ(222)に結合される、請求項16に記載のコンピュータ・システム。
- 前記幾何学的音源分離モジュールは、更に、前記有限インパルス応答フィルタについての複数のフィルタ係数を計算するように適合された複数のアルゴリズム(209、210、215、217)を含んでいる、請求項17に記載のコンピュータ・システム。
- 複合信号を複数の構成要素信号に分離する方法であって、
前記複数の構成要素信号のクロス・パワー・スペクトルRyy(t,ω)を計算するステップと、 所定のアルゴリズム(213)でRyy(t,ω)を同時に対角化するステップと、 前記所定のアルゴリズム(213)に線形制約(209、210)を適用してフィルタ係数を生成するステップと、 前記フィルタ係数に基づいて前記複合信号を濾波するステップとを含んでいる方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US26492401P | 2001-01-30 | 2001-01-30 | |
PCT/US2002/001113 WO2002061732A1 (en) | 2001-01-30 | 2002-01-17 | Geometric source separation signal processing technique |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004523752A true JP2004523752A (ja) | 2004-08-05 |
JP2004523752A5 JP2004523752A5 (ja) | 2005-12-22 |
JP4031988B2 JP4031988B2 (ja) | 2008-01-09 |
Family
ID=23008204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002561820A Expired - Fee Related JP4031988B2 (ja) | 2001-01-30 | 2002-01-17 | 畳み込み混合された信号を複数の音源に分離するための装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7917336B2 (ja) |
EP (1) | EP1371058B1 (ja) |
JP (1) | JP4031988B2 (ja) |
KR (1) | KR100878992B1 (ja) |
CN (1) | CN1830026B (ja) |
DE (1) | DE60203379T2 (ja) |
MX (1) | MXPA03006668A (ja) |
WO (1) | WO2002061732A1 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007007414A1 (ja) * | 2005-07-14 | 2007-01-18 | Rion Co., Ltd. | 遅延和型センサアレイ装置 |
WO2008072566A1 (ja) * | 2006-12-12 | 2008-06-19 | Nec Corporation | 信号分離再生装置および信号分離再生方法 |
JP2009537876A (ja) * | 2006-05-19 | 2009-10-29 | 韓國電子通信研究院 | プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法 |
JP2011081373A (ja) * | 2009-09-14 | 2011-04-21 | Shinya Saito | ブラインド信号分離方法およびその装置 |
JP2014137241A (ja) * | 2013-01-15 | 2014-07-28 | Mitsubishi Electric Corp | 信号処理装置及び信号処理方法 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004053839A1 (en) * | 2002-12-11 | 2004-06-24 | Softmax, Inc. | System and method for speech processing using independent component analysis under stability constraints |
DE10312065B4 (de) * | 2003-03-18 | 2005-10-13 | Technische Universität Berlin | Verfahren und Vorrichtung zum Entmischen akustischer Signale |
US8477961B2 (en) * | 2003-03-27 | 2013-07-02 | Aliphcom, Inc. | Microphone array with rear venting |
DE102004005998B3 (de) | 2004-02-06 | 2005-05-25 | Ruwisch, Dietmar, Dr. | Verfahren und Vorrichtung zur Separierung von Schallsignalen |
WO2007021058A1 (en) * | 2005-08-19 | 2007-02-22 | Electronics And Telecommunications Research Institute | Low-complexity joint transmit/receive antenna selection method for mimo systems |
KR100679860B1 (ko) * | 2005-08-19 | 2007-02-07 | 한국전자통신연구원 | Mimo 시스템을 위한 낮은 복잡도의 송/수신 안테나선택 방법 |
KR100798623B1 (ko) * | 2007-04-10 | 2008-01-28 | 에스케이 텔레콤주식회사 | 이동통신단말기에서의 음성 처리 장치 및 방법 |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
WO2009051132A1 (ja) * | 2007-10-19 | 2009-04-23 | Nec Corporation | 信号処理システムと、その装置、方法及びそのプログラム |
US8004119B2 (en) * | 2008-07-07 | 2011-08-23 | The Hong Kong Polytechnic University | Multi-function three-phase active power filter |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
CN102903368B (zh) | 2011-07-29 | 2017-04-12 | 杜比实验室特许公司 | 用于卷积盲源分离的方法和设备 |
US9966088B2 (en) | 2011-09-23 | 2018-05-08 | Adobe Systems Incorporated | Online source separation |
EP2600637A1 (en) * | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for microphone positioning based on a spatial power density |
FR2996043B1 (fr) | 2012-09-27 | 2014-10-24 | Univ Bordeaux 1 | Procede et dispositif pour separer des signaux par filtrage spatial a variance minimum sous contrainte lineaire |
WO2014085978A1 (en) * | 2012-12-04 | 2014-06-12 | Northwestern Polytechnical University | Low noise differential microphone arrays |
CN103295193A (zh) * | 2013-05-10 | 2013-09-11 | 天津理工大学 | 基于互功率谱的盲源分离方法 |
CN104053107B (zh) * | 2014-06-06 | 2018-06-05 | 重庆大学 | 一种用于噪声环境下声源分离和定位方法 |
CN105427860B (zh) * | 2015-11-11 | 2019-09-03 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
US20170270406A1 (en) * | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
CN106067301B (zh) * | 2016-05-26 | 2019-06-25 | 浪潮金融信息技术有限公司 | 一种使用多维化技术进行回声降噪的方法 |
CN106126479B (zh) * | 2016-07-07 | 2019-04-12 | 重庆邮电大学 | 基于遗传变异优化的二阶振荡粒子群盲源分离方法 |
JP6472824B2 (ja) * | 2017-03-21 | 2019-02-20 | 株式会社東芝 | 信号処理装置、信号処理方法および音声の対応づけ提示装置 |
US10264354B1 (en) * | 2017-09-25 | 2019-04-16 | Cirrus Logic, Inc. | Spatial cues from broadside detection |
CN107644650B (zh) * | 2017-09-29 | 2020-06-05 | 山东大学 | 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统 |
CN113470689B (zh) * | 2021-08-23 | 2024-01-30 | 杭州国芯科技股份有限公司 | 一种语音分离方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
US4931977A (en) * | 1987-10-30 | 1990-06-05 | Canadian Marconi Company | Vectorial adaptive filtering apparatus with convergence rate independent of signal parameters |
US5303384A (en) * | 1990-01-02 | 1994-04-12 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | High level language-based robotic control system |
US5444451A (en) * | 1992-06-29 | 1995-08-22 | Southwest Research Institute | Passive means for single site radio location |
WO1995016259A1 (en) * | 1993-12-06 | 1995-06-15 | Philips Electronics N.V. | A noise reduction system and device, and a mobile radio station |
SE9304246L (sv) * | 1993-12-22 | 1995-06-23 | Asea Brown Boveri | Förfarande vid övervakning av multivariata processer |
FI955489A0 (fi) * | 1995-11-15 | 1995-11-15 | Antti Aarne Ilmari Lange | Foerfarande foer adaptiv Kalmanfiltrering i dynamiska system |
US6317703B1 (en) * | 1996-11-12 | 2001-11-13 | International Business Machines Corporation | Separation of a mixture of acoustic sources into its components |
AU740617C (en) * | 1997-06-18 | 2002-08-08 | Clarity, L.L.C. | Methods and apparatus for blind signal separation |
US6185309B1 (en) * | 1997-07-11 | 2001-02-06 | The Regents Of The University Of California | Method and apparatus for blind separation of mixed and convolved sources |
US6167417A (en) | 1998-04-08 | 2000-12-26 | Sarnoff Corporation | Convolutive blind source separation using a multiple decorrelation method |
JP4075167B2 (ja) * | 1998-10-09 | 2008-04-16 | ソニー株式会社 | ディジタル信号再生装置及び処理装置 |
US6898612B1 (en) * | 1998-11-12 | 2005-05-24 | Sarnoff Corporation | Method and system for on-line blind source separation |
SE521024C2 (sv) * | 1999-03-08 | 2003-09-23 | Ericsson Telefon Ab L M | Metod och anordning för att separera en blandning av källsignaler |
US6526148B1 (en) * | 1999-05-18 | 2003-02-25 | Siemens Corporate Research, Inc. | Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals |
US6430528B1 (en) * | 1999-08-20 | 2002-08-06 | Siemens Corporate Research, Inc. | Method and apparatus for demixing of degenerate mixtures |
-
2002
- 2002-01-17 KR KR1020037010080A patent/KR100878992B1/ko not_active IP Right Cessation
- 2002-01-17 WO PCT/US2002/001113 patent/WO2002061732A1/en active IP Right Grant
- 2002-01-17 CN CN028043251A patent/CN1830026B/zh not_active Expired - Fee Related
- 2002-01-17 US US10/470,498 patent/US7917336B2/en not_active Expired - Fee Related
- 2002-01-17 EP EP02709042A patent/EP1371058B1/en not_active Expired - Lifetime
- 2002-01-17 MX MXPA03006668A patent/MXPA03006668A/es active IP Right Grant
- 2002-01-17 DE DE60203379T patent/DE60203379T2/de not_active Expired - Lifetime
- 2002-01-17 JP JP2002561820A patent/JP4031988B2/ja not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007007414A1 (ja) * | 2005-07-14 | 2007-01-18 | Rion Co., Ltd. | 遅延和型センサアレイ装置 |
JP2009537876A (ja) * | 2006-05-19 | 2009-10-29 | 韓國電子通信研究院 | プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法 |
WO2008072566A1 (ja) * | 2006-12-12 | 2008-06-19 | Nec Corporation | 信号分離再生装置および信号分離再生方法 |
US8345884B2 (en) | 2006-12-12 | 2013-01-01 | Nec Corporation | Signal separation reproduction device and signal separation reproduction method |
JP5131596B2 (ja) * | 2006-12-12 | 2013-01-30 | 日本電気株式会社 | 信号分離再生装置および信号分離再生方法 |
JP2011081373A (ja) * | 2009-09-14 | 2011-04-21 | Shinya Saito | ブラインド信号分離方法およびその装置 |
JP2014137241A (ja) * | 2013-01-15 | 2014-07-28 | Mitsubishi Electric Corp | 信号処理装置及び信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
MXPA03006668A (es) | 2003-10-24 |
EP1371058B1 (en) | 2005-03-23 |
JP4031988B2 (ja) | 2008-01-09 |
CN1830026B (zh) | 2011-06-15 |
WO2002061732A1 (en) | 2002-08-08 |
CN1830026A (zh) | 2006-09-06 |
US7917336B2 (en) | 2011-03-29 |
US20040072336A1 (en) | 2004-04-15 |
EP1371058A1 (en) | 2003-12-17 |
KR100878992B1 (ko) | 2009-01-15 |
DE60203379D1 (de) | 2005-04-28 |
KR20030076640A (ko) | 2003-09-26 |
DE60203379T2 (de) | 2006-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4031988B2 (ja) | 畳み込み混合された信号を複数の音源に分離するための装置 | |
Gannot et al. | Adaptive beamforming and postfiltering | |
JP4690072B2 (ja) | マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法 | |
US9280965B2 (en) | Method for determining a noise reference signal for noise compensation and/or noise reduction | |
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US5574824A (en) | Analysis/synthesis-based microphone array speech enhancer with variable signal distortion | |
US9830926B2 (en) | Signal processing apparatus, method and computer program for dereverberating a number of input audio signals | |
Herbordt | Sound capture for human/machine interfaces: Practical aspects of microphone array signal processing | |
US20120322511A1 (en) | De-noising method for multi-microphone audio equipment, in particular for a "hands-free" telephony system | |
JP6987075B2 (ja) | オーディオ源分離 | |
WO2007123047A1 (ja) | 適応アレイ制御装置、方法、プログラム、及びこれを利用した適応アレイ処理装置、方法、プログラム | |
JPWO2006030834A1 (ja) | 信号到来方向推定装置、信号到来方向推定方法、および信号到来方向推定用プログラム | |
JP2007147732A (ja) | 雑音低減システム及び雑音低減方法 | |
Neo et al. | Polynomial eigenvalue decomposition for multichannel broadband signal processing: a mathematical technique offering new insights and solutions | |
Albataineh et al. | A RobustICA-based algorithmic system for blind separation of convolutive mixtures | |
Markovich‐Golan et al. | Spatial filtering | |
Doblinger | Localization and tracking of acoustical sources | |
Lim et al. | Time delay estimation method based on canonical correlation analysis | |
Li et al. | Low complex accurate multi-source RTF estimation | |
Steinhardt et al. | Adaptive beamforming | |
Adcock | Optimal filtering and speech recognition with microphone arrays | |
Pu et al. | A penalized inequality-constrained approach for robust beamforming with DoF limitation | |
Zhong et al. | Assessment of a beamforming implementation developed for surface sound source separation | |
Brandstein et al. | Cell-based beamforming (CE-BABE) for speech acquisition with microphone arrays | |
McWhirter et al. | Polynomial Eigenvalue Decomposition for Multichannel Broadband Signal Processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050107 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050107 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060915 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061120 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071022 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101026 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111026 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121026 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121026 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131026 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |