JP5163435B2 - 信号処理装置およびプログラム - Google Patents

信号処理装置およびプログラム Download PDF

Info

Publication number
JP5163435B2
JP5163435B2 JP2008287867A JP2008287867A JP5163435B2 JP 5163435 B2 JP5163435 B2 JP 5163435B2 JP 2008287867 A JP2008287867 A JP 2008287867A JP 2008287867 A JP2008287867 A JP 2008287867A JP 5163435 B2 JP5163435 B2 JP 5163435B2
Authority
JP
Japan
Prior art keywords
matrix
sound
covariance matrix
specifying
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008287867A
Other languages
English (en)
Other versions
JP2010114829A (ja
Inventor
誠 山田
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008287867A priority Critical patent/JP5163435B2/ja
Publication of JP2010114829A publication Critical patent/JP2010114829A/ja
Application granted granted Critical
Publication of JP5163435B2 publication Critical patent/JP5163435B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数の音の混合音から特定の音を強調(典型的には分離ないし抽出)または抑制する技術に関する。
複数の音源から放射された音の混合音を複数の収音機器で採取した複数の観測信号(音響信号)にフィルタ処理を実行することで、各音源からの音を個別に強調または抑制(すなわち音源分離)することが可能である。観測信号のフィルタ処理に使用される分離行列の推定には、主成分分析や二次統計量ICA(independent component analysis)などの部分空間法(例えば非特許文献1)や、適応型ビームフォーマ(例えば特許文献1)が利用される。以上の方法で推定された分離行列を初期値として例えば独立成分分析の学習を実行することで、実際に利用される分離行列が生成される。
K. Tachibana, et. al., "Efficient Blind Source Separation Combining Closed-Form Second Order ICA and Nonclosed-Form Higher-Order ICA," International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vol. 1, pp. 45-48, Apr. 2007. 特許第3949074号公報
しかし、主成分分析や二次統計量ICAを利用した方法では、第1主成分の分離行列と第2主成分の分離行列とが直交するという制約のもとで分離行列が特定されるから、各音源の方向(位置)によっては分離行列の高精度な推定が困難となる場合がある。また、適応型ビームフォーマを利用した方法においても同様に、目的音の音源の方向と非目的音(例えば雑音)の音源の方向とが直交するという条件が必要であるから、分離行列の高精度な推定は困難である。以上の事情に鑑みて、本発明は、各音の分離行列が直交するという条件に制約されずに分離行列を推定することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る信号処理装置は、音源の方向が相違する複数の音(音声や雑音(非音声)などの音響)の混合音を複数の収音機器で収音した複数の観測信号(音響信号)から共分散行列を特定する第1行列特定手段と、複数の音のうち第1音の共分散行列を特定する第2行列特定手段と、観測信号の共分散行列から第1音の共分散行列を減次する減次手段とを具備する。以上の態様においては、観測信号の共分散行列から第1音の共分散行列が減次されるから、第1音の分離行列と減次後の共分散行列に対応する音の分離行列とが直交するという条件は不要である。したがって、各音の分離行列が直交するという条件に制約されずに分離行列を推定できるという利点がある。
なお、以上の態様は、ひとつの音源の音に対応する共分散行列が減次手段による減次で特定される構成と、複数の音源からの音の混合音の共分散行列が減次手段による減次で特定される構成とを包含する。音源の方向が相違するN個(Nは2以上の自然数)の音の混合音が収音される場合に着目すると、前者の構成は、N個の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第1行列特定手段と、N個の音のうち(N−1)個の第1音の共分散行列を特定する第2行列特定手段と、観測信号の共分散行列から(N−1)個の第1音の共分散行列を減次することで、第1音以外の第2音の共分散行列を特定する減次手段とを具備する構成として特定される。
本発明の好適な態様において、第2行列特定手段は、第1音を強調または抑制するフィルタ処理の第1係数列と第1係数列の転置行列と調整係数とを乗算した第1音の共分散行列と、観測信号の共分散行列との差分が零以上となる条件のもとで調整係数が最大化されるように(例えば数式(4)および数式(5))、第1音の共分散行列を特定する。以上の態様においては、調整係数が最大となるように第1音の共分散行列が特定されるから、例えば調整係数を固定値とした構成と比較すると、第1音以外の音の共分散行列を減次手段による減次で高精度に特定できるという利点がある。
本発明の好適な態様に係る信号処理装置は、第2音を強調または抑制するフィルタ処理の第2系数列を第2音の共分散行列から特定する係数列特定手段を具備する。さらに好適な態様では、複数の観測信号を白色化する白色化手段と、係数列特定手段が特定した第2係数列を有色化する有色化手段とが設置される。以上の態様においては、白色化後の観測信号の共分散行列が単位行列となるから、信号処理装置の各部(例えば減次手段)による演算が簡素化されるという利点がある。
本発明の好適な態様において、第2行列特定手段は、第1音を強調または抑制するフィルタ処理の第1係数列と第1音の共分散行列とを特定し、第1音と第2音とを分離するための分離行列を第1係数列および第2系数列から生成する行列決定手段を具備する。本発明においては第2音の共分散行列が高精度に特定されるから、第1音と第2音とを正確に分離できる分離行列を生成することが可能である。
本発明の好適な態様に係る信号処理装置は、行列決定手段が決定した分離行列を初期値として学習を実行する学習処理手段を具備する。以上の態様においては分離行列の学習が実行されるから、第1音と第2音との分離の精度を高めることが可能である。また、本発明においては第1音の分離行列と第2音の分離行列とが直交するという制約が不要であるから、行列決定手段が決定した分離行列と所期の特性の分離行列との乖離が低減される。したがって、学習処理手段による学習のための演算量が削減されるという利点もある。
行列決定手段および学習処理手段を具備する信号処理装置の具体的な態様において、行列決定手段は、分離行列を順次に生成し、学習処理手段による学習後の分離行列から各音源の方向を推定する方向推定手段と、行列決定手段が生成した分離行列に対応した各音源の方向と方向推定手段が推定した各音源の方向との相違に応じて各音源の移動の有無を判定する移動判定手段とを具備し、学習処理手段は、各音源が移動したと移動判定手段が判定した場合に、行列決定手段が生成した分離行列を初期値として学習を実行し、各音源が移動していないと移動判定手段が判定した場合に、分離行列の学習を停止し、または、分離行列を初期化せずに学習を継続する。以上の態様においては、高精度に音源を分離できる分離行列を音源の移動の前後にわたって生成することが可能である。
また、以上の各態様に係る信号処理装置は、観測信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第1行列特定処理と、複数の音のうち第1音の共分散行列を特定する第2行列特定処理と、観測信号の共分散行列から第1音の共分散行列を減次する減次処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る信号処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
<A:第1実施形態>
図1は、本発明の第1実施形態に係る信号処理装置のブロック図である。相互に間隔をあけて平面PL内に配置された収音機器M1および収音機器M2が信号処理装置100に接続される。収音機器M1および収音機器M2の周囲の相異なる位置には複数の音源S(S1,S2)が存在する。音源S1から放射された音SV1と音源S2から放射された音SV2との混合音が収音機器M1および収音機器M2に到達する。収音機器M1および収音機器M2の各々は、周囲の音(音源S1からの音SV1と音源S2からの音SV2との混合音)の波形を表す観測信号V(V1,V2)を生成するマイクロホンである。収音機器M1は観測信号V1を生成し、収音機器M2は観測信号V2を生成する。
平面PL内の基準点p(例えば収音機器M1と収音機器M2との中点)から音源S1に延在する直線L1と平面PLの法線Lnとの角度(以下「音源S1の方向」という)θ1は既知の方向に確定している。例えば、信号処理装置100が自動車の車内に設置された場合を想定すると、運転席に着席する運転者の頭部の方向が音源(すなわち運転者)S1の方向θ1に相当する。また、発声者の音声を入力する電子機器(例えば携帯電話機)に信号処理装置100が搭載された場合を想定すると、電子機器の本体に対して正面の方向が音源(すなわち発話者)S1の方向θ1に相当する。一方、基準点pから音源S2に延在する直線L2と平面PLの法線Lnとの角度(以下「音源S2の方向」という)θ2は未確定(未知)である。すなわち、音源S1は既知の方向θ1に固定的に設置されるのに対して、音源S2は可変の方向θ2に設置される。
図1に示すように、信号処理装置100は、信号処理部10と行列生成部20とを含んで構成される。信号処理装置100の各要素は、例えば、記録媒体に記録されたプログラムを実行する演算処理装置(CPU)や観測信号Vの処理に専用される電子回路(DSP)で実現される。また、信号処理装置100の各要素が複数の集積回路に分散して搭載された構成も採用される。
信号処理部10は、観測信号V1および観測信号V2にフィルタ処理(音源分離)を実行することで分離信号U1および分離信号U2を生成する。分離信号U1や分離信号U2は、放音機器(例えばスピーカやヘッドホン)に供給されることで音響として再生される。なお、分離信号U1および分離信号U2の一方のみを再生する構成も採用される。
行列生成部20は、信号処理部10が分離信号U1および分離信号U2の生成(フィルタ処理)に使用する分離行列Wを観測信号V1および観測信号V2から生成する。分離行列Wは、音源S1からの音SV1が分離信号U1にて強調され(音源S2からの音SV2が抑制され)、音源S2からの音SV2が分離信号U2にて強調される(音源S1からの音SV1が抑制される)ように設定される。すなわち、音源S1からの音SV1と音源S2からの音SV2とが分離(音源分離)される。なお、観測信号V1および観測信号V2をデジタル信号に変化するA/D変換器や、分離信号U1および分離信号U2をアナログ信号に変換するD/A変換器の図示は便宜的に省略されている。
図2は、信号処理部10のブロック図である。信号処理部10は、観測信号V1および観測信号V2から分離信号U1を生成するフィルタ処理部32と、観測信号V1および観測信号V2から分離信号U2を生成するフィルタ処理部34とを含んで構成される。フィルタ処理部32およびフィルタ処理部34には遅延加算型(DS(delay-sum)型)ビームフォーマが利用される。すなわち、フィルタ処理部32は、観測信号V1を係数w11に応じた遅延量だけ遅延させる遅延素子321と、観測信号V2を係数w12に応じた遅延量だけ遅延させる遅延素子323と、遅延素子321の出力と遅延素子323の出力とを加算することで分離信号U1を生成する加算部325とを含んで構成される。図2に示すように、係数w11および係数w12は、分離行列Wのうち音源S1からの音SV1を強調するための係数列(すなわち音源S1の分離行列)w1の要素に相当する。
同様に、フィルタ処理部34は、観測信号V1を係数w21に応じた遅延量だけ遅延させる遅延素子341と、観測信号V2を係数w22に応じた遅延量だけ遅延させる遅延素子343と、遅延素子341の出力と遅延素子343の出力とを加算することで分離信号U2を生成する加算部345とを含んで構成される。係数w21および係数w22は、分離行列Wのうち音源S2からの音SV2を強調するための係数列(すなわち音源S2の分離行列)w2の要素に相当する。行列生成部20は、係数列w1および係数列w2で構成される分離行列Wを生成する。したがって、分離行列Wの列数は音源Sの総数(本形態では2個)に相当し、分離行列Wの行数は観測信号Vの総数(本形態では2個)に相当する。
図1に示すように、行列生成部20は、初期値決定部22と学習処理部24とを含んで構成される。初期値決定部22は、観測信号V1および観測信号V2から分離行列W0を生成する。学習処理部24は、分離行列W0を初期値とした逐次的な学習で、信号処理部10が使用する分離行列Wを算定する。分離行列Wの学習には公知の技術が任意に採用される。例えば、分離信号U1と分離信号U2とが統計的に相互に独立となるように分離行列Wを逐次的に更新する独立成分分析(例えば高次ICA)が分離行列Wの学習に好適である。
図3は、初期値決定部22のブロック図である。初期値決定部22は、周波数分析部52と行列特定部54と行列特定部56と減次部58と係数列特定部62と方向推定部64と行列決定部66とを含んで構成される。
周波数分析部52は、観測信号V(V1,V2)を時間軸上で区分した複数のフレームの各々について周波数スペクトルQ(観測信号V1の周波数スペクトルQ1および観測信号V2の周波数スペクトルQ2)を算定する。周波数スペクトルQの算定にはフーリエ変換(例えば短時間フーリエ変換)が利用される。番号(時刻)tで識別される1個のフレームの周波数スペクトルQ1は、図4に示すように、周波数軸上に設定されたK個の周波数f(f1〜fK)の各々における強度x1(t,f)(x1(t,f1)〜x1(t,fK))の系列(周波数ビン)として算定される。同様に、周波数スペクトルQ2は、K個の周波数の各々における強度x2(t,f)(x2(t,f1)〜x2(t,fK))の系列である。周波数分析部52は、K個の周波数fの各々について観測ベクトルX(t,f)(X(t,f1)〜X(t,fK))をフレーム毎に生成する。観測ベクトルX(t,f)は、周波数スペクトルQ1の強度x1(t,f)と周波数スペクトルQ2の強度x2(t,f)とを要素とするベクトルである(X(t,f)=[x1(t,f) x2(t,f))。符号*は複素共役を意味し、符号Hは行列の転置(エルミート転置)を意味する。
図5は、周波数fの観測ベクトルX(t,f)を複数のフレームについてプロットした散布図である。図5の横軸は周波数スペクトルQ1の強度x1(t,f)に相当し、図5の縦軸は周波数スペクトルQ2の強度x2(t,f)に相当する。音源S1からの音SV1が優勢な観測ベクトルX(t,f)は軸線α1に沿って領域A1内に分布し、音源S2からの音SV2が優勢な観測ベクトルX(t,f)は軸線α2に沿って領域A2内に分布するという傾向が把握される。軸線α1と軸線α2とは交差する。
図3の行列特定部54は、観測信号V(V1,V2)の共分散行列Rxx(f)をK個の周波数fの各々について特定する。共分散行列Rxx(f)は、観測ベクトルX(t,f)の共分散を要素とする行列である。したがって、共分散行列Rxx(f)は例えば以下の数式(1)で定義される。
Rxx(f)=E[X(t,f)X(t,f)
=Σ_{t}X(t,f)X(t,f) ……(1)
数式(1)における記号Eは期待値(加算値)を意味し、記号Σ_{t}は複数(例えば100個)のフレームにわたる加算を意味する。すなわち、共分散行列Rxx(f)は、観測ベクトルX(t,f)と観測ベクトルX(t,f)の転置との乗算(2行×2列)を複数のフレームにわたって加算した行列である。なお、ここでは共分散行列Rxx(f)の算定に使用される複数のフレームの観測ベクトルX(t,f)はゼロ平均とする。すなわち、以下の数式(2)のように、共分散行列Rxx(f)の算定に使用される複数のフレームにわたって観測ベクトルX(t,f)を加算(平均)した行列は零行列となる。
E[X(t,f)]=[E[x1(t,f)] E[x2(t,f)]]=[0 0] ……(2)
ここで、音源S1からの音SV1に対応する共分散行列Rxx1(f)と、音源S2からの音SV2に対応する共分散行列Rxx2(f)とを想定する。共分散行列Rxx1(f)は、図5の領域A1に分布する観測ベクトルX(t,f)の共分散に相当し、共分散行列Rxx2(f)は、図5の領域A2に分布する観測ベクトルX(t,f)の共分散に相当する。図5からも理解されるように、観測信号V(V1,V2)の共分散行列Rxx(f)は、音源S1からの音SV1が優勢な観測ベクトルX(t,f)に対応した共分散行列Rxx1(f)と、音源S2からの音SV2が優勢な観測ベクトルX(t,f)に対応した共分散行列Rxx2(f)との加算として近似される(数式(3))。したがって、音源S2からの音SV2の共分散行列Rxx2(f)は、以下の数式(3a)に示すように、観測信号V(V1,V2)の共分散行列Rxx(f)と音源S1からの音SV1の共分散行列Rxx1(f)との差分として近似される。
Rxx(f)≒Rxx1(f)+Rxx2(f) ……(3)
Rxx2(f)≒Rxx(f)−Rxx1(f) ……(3a)
図3の行列特定部56は、音源S1の方向θ1が既知の方向に確定していることを利用してK個の周波数fの各々の共分散行列Rxx1(f)を特定する。行列特定部56は、第1演算部562と第2演算部564とを含んで構成される。第1演算部562は、K個の周波数fの各々について係数列w1(f)を算定する。係数列w1(f)は、音源S1から放射された周波数fの音SV1を分離するための行列(周波数fの音SV1の分離行列)である。すなわち、係数列w1(f)に応じた遅延量(w11,w12)がフィルタ処理部32の遅延素子321および遅延素子323に設定されることで周波数fの音SV1が強調される。
第1演算部562による係数列w1(f)の算定には公知の技術が任意に採用される。例えば、音源S1の位置でインパルス音を発生させたときに収音機器M1および収音機器M2が収音したインパルス応答を解析することで、音源S1の周波数fの音SV1が強調されるように係数列w1(f)(逆フィルタ係数)を算定する方法が採用される。また、既知の方向θ1から到来する周波数fの音SV1が強調される(すなわち、フィルタ処理部32が方向θ1にビームを形成する)ように方向θ1から係数列w1(f)を算定する方法も好適である。方向θ1は、基準点pと既知の音源S1との実際の位置から事前に特定される。また、音源S1の位置でインパルス音を発生させたときに採取されるインパルス応答から方向θ1を推定する方法も採用される。第1演算部562が算定した係数列w1(f)は、音SV1が優勢な観測ベクトルX(t,f)が分布する領域A1(図5)の軸線α1の方向のベクトル(固有ベクトル)に相当する。
図3の第2演算部564は、第1演算部562が算定した係数列w1(f)から音源S1からの音SV1の共分散行列Rxx1(f)を推定する。いま、係数列w1(f)が領域A1の軸線α1に対応することを考慮して、共分散行列Rxx1(f)を以下の数式(4)で定義する。なお、記号「」は行列の転置(エルミート転置)を意味する。
Rxx1(f)=σw1(f)w1(f) ……(4)
数式(4)の係数σは、係数列w1(f)で規定されるベクトルの長さを軸線α1の方向における領域A1の長さに調整するための数値(以下「調整係数」という)である。第2演算部564は、観測信号Vの共分散行列Rxx(f)から数式(4)の共分散行列Rxx1(f)を減算した行列の各要素がゼロ以上になる(すなわち、共分散行列Rxx2(f)が正定値行列である)という数式(5)の条件のもとで調整係数σが最大値となるように数式(4)の共分散行列Rxx1(f)を算定する。
Rxx(f)−σw1(f)w1(f)≧0 ……(5)
音源S1の方向θ1が確定している音SV1については以上のように共分散行列Rxx1(f)を所期の精度で特定することが可能である。一方、音源S2の方向θ2は確定していない(すなわち未知である)から、共分散行列Rxx1(f)と同様の方法で音源S2からの音SV2の共分散行列Rxx2(f)を高精度に特定することは困難である。そこで、図3の減次部58は、数式(3a)に示したように、行列特定部54が観測信号Vについて特定した共分散行列Rxx(f)から、行列特定部56が音SV1について特定した共分散行列Rxx1(f)を減次(deflation)することで、音源S2の音SV2の共分散行列Rxx2(f)をK個の周波数fの各々について算定する。減次部58による減次(減算)は、図6に模式的に図示したように、音源S1からの音SV1が優勢な観測ベクトルX(t,f)(図5における領域A1内の観測ベクトルX(t,f))を観測信号Vの全体の観測ベクトルX(t,f)の集合から除去する処理に相当する。
図3の係数列特定部62は、減次部58が算定した共分散行列Rxx2(f)から係数列w2(f)(w21,w22)を特定する。係数列w2(f)は、音源S2から放射された周波数fの音SV2を分離するための行列(周波数fの音SV2の分離行列)である。すなわち、係数列w2(f)に応じた遅延量(w21,w22)がフィルタ処理部34に設定されることで周波数fの音SV2が強調される。係数列w2(f)は、K個の周波数fの各々について算定される。図5および図6から理解されるように、共分散行列Rxx2(f)においては、音源S1からの音SV1が優勢な観測ベクトルX(t,f)の影響が除去されているから、音源S2からの音SV2を適切に分離できる係数列w2(f)を共分散行列Rxx2(f)から高精度に特定することが可能である。係数列w2(f)の特定には公知の技術が任意に採用されるが、例えば以下に例示する解法1および解法2が好適である。
[解法1]
遅延加算型ビームフォーマで構成されるフィルタ処理部34(図2)においては、観測信号V1の強度x1(t,f)および遅延素子341の係数w21の乗算値と、観測信号V2の強度x2(t,f)および遅延素子343の係数w22の乗算値との加算(w21x1(t,f)+w22x2(t,f))が分離信号U2として加算部345から出力される。したがって、分離信号U2は、以下の数式(6)のように、係数列w2(f)の転置(エルミート転置)行列w2(f)と強度x1(t,f)および強度x2(t,f)を要素とする観測ベクトルX(t,f)との乗算に相当する。
w21x1(t,f)+w22x2(t,f)=w2(f)X(t,f) ……(6)
分離信号U2のパワーを検討するために数式(6)を自乗すると以下の数式(7)が導出される。数式(7)の導出においては、観測ベクトルX(t,f)と転置(エルミート転置)行列X(t,f)との乗算が共分散行列Rxx(f)に相当するという数式(1)の関係を利用した。
{w2(f)X(t,f)}=w2(f)X(t,f)w2(f)X(t,f)
=w2(f)X(t,f)X(t,f)w2(f)
=w2(f)Rxx(f)w2(f) ……(7)
数式(7)から理解されるように、数式(7)の演算値(w2(f)Rxx(f)w2(f))が最大化するように係数列w2(f)を選定すれば、分離信号U2のパワーを最大化する(すなわち音源S2からの音SV2を強調する)ことが可能である。すなわち、共分散行列Rxx(f)の固有ベクトル(第1固有ベクトル)に相当する係数列w2(f)を算定する固有値問題は、数式(7)を最大化するという最適化問題(主成分分析)と等価であると言える。
以上の事実を考慮して、解法1においては、以下の数式(8b)の条件のもとで、数式(8a)に示すように、係数列w2(f)の転置(エルミート転置)行列w2(f)と減次部58が算定した共分散行列Rxx2(f)と係数列w2(f)との乗算値が最大となるように係数列w2(f)を選定する。記号maxは括弧内の数値の最大化を意味する。
max{w2(f)Rxx2(f)w2(f)} ……(8a)
w2(f)w2(f)=1 ……(8b)
[解法2]
共分散行列Rxx2(f)が共分散行列Rxx(f)と共分散行列Rxx1(f)の差分に近似される(Rxx2(f)≒Rxx(f)−Rxx1(f))ことを考慮すると、前述の数式(8a)は以下の数式(8c)に変形される。
max{w2(f)(Rxx(f)−Rxx1(f))w2(f)}
=max{w2(f)Rxx(f)w2(f)−w2(f)Rxx1(f)w2(f)} ……(8c)
共分散行列Rxx1(f)は正定値行列であるから、数式(8c)の第2項(w2(f)Rxx1(f)w2(f))は常に正数となる。したがって、数式(8c)は、第2項(w2(f)Rxx1(f)w2(f))に対する第1項(w2(f)Rxx(f)w2(f))の相対比を最大化する(すなわち、第1項を最大化しつつ第2項を最小化する)最適化問題として把握される。すなわち、数式(8c)は以下の数式(8d)に置換される。
max{w2(f)Rxx(f)w2(f)/w2(f)Rxx1(f)w2(f)} ……(8d)
ラグランジュの未定乗数法を利用すると、数式(8d)の最適化問題は、以下の数式(8e)の関数J(w2(f))を最小化する問題に置換される。数式(8e)の記号λはラグランジュの未定乗数である。
J(w2(f))=w2(f)Rxx(f)w2(f)−λw2(f)Rxx1(f)w2(f) ……(8e)
関数J(w2(f))を係数列w2(f)で微分した結果がゼロとなる(すなわち関数J(w2(f))の関数値が最小となる)から、係数列w2(f)は、以下の数式(8f)における一般化固有値問題の固有ベクトルとして算定される。
Rxx(f)w2(f)=λRxx1(f)w2(f) ……(8f)
以上が係数列w2(f)を特定する具体的な方法である。
図3の方向推定部64は、係数列特定部62がK個の周波数fの各々について算定した係数列w2(f)から音源S2の方向θ2を推定する。さらに詳述すると、方向推定部64は、第1に、係数列w2(f)に対応する方向θ2(f)をK個の周波数fの各々について特定する。係数列w2(f)から方向θ2(f)を推定する方法には公知の技術が任意に採用される。例えば、H. Saruwatari, et. al., "Blind Source Separation Combining Independent Component Analysis and Beamforming", EURASIP Journal on Applied Signal Processing Vol.2003, No.11, pp.1135-1146, 2003に開示された方法が好適である。第2に、方向推定部64は、K個の方向θ2(f)から方向θ2を算定する。例えば、K個の方向θ2(f)の中央値(最大値と最小値との平均値)やK個の方向θ2(f)の平均値が方向θ2として算定される。
図3の行列決定部66は、音源S1の方向θ1と方向推定部64が推定した方向θ2とを利用して分散行列(初期値)W0を特定する。さらに詳述すると、行列決定部66は、信号処理部10のフィルタ処理部32が方向θ1にビームを形成するように遅延素子321の係数w11と遅延素子323の係数w12とを決定し、フィルタ処理部34が方向θ2にビームを形成するように遅延素子341の係数w21と遅延素子343の係数w22とを決定する。そして、行列決定部66は、方向θ1および方向θ2から決定した各係数(w11,w12,w21,w22)を要素とする2行2列の分離行列W0を生成する。分離行列W0について学習処理部24が学習を実行することで、信号処理部10が実際に使用する分離行列Wが決定される。
第1実施形態においては、観測信号V(V1,V2)の共分散行列Rxx(f)から音源S1からの音SV1の共分散行列Rxx1(f)を減次(減算)することで未知の音源S2からの音SV2の共分散行列Rxx2(f)が算定されるから、係数列w1(f)と係数列w2(f)とが直交する(図5の軸線α1と軸線α2とが直交する)という条件は不要である。したがって、係数列w1(f)と係数列w2(f)とが直交するという制約のもとで分離行列の初期値を設定する従来の技術(以下「対比例」という)と比較すると、音SV1と音SV2とを高精度に分離できる特性に近い分離行列W0を初期値の段階から生成することが可能である。すなわち、分離行列W0の初期値と学習後の分離行列Wとの乖離が低減されるから、学習に必要な時間(すなわち、音SV1と音SV2とを所期の精度で分離できる特性に分離行列Wが収束するまでの時間)が短縮されるという利点や、分離行列Wが学習の過程で不適切な特性に収束する可能性が低減されるという利点がある。さらに、音源S1の方向θ1が確定しているという条件のもとで音源S2の音SV2の係数列w2(f)が算定されるから、係数w1(f)と係数w2(f)とが周波数f毎に入替わるというPermutation(置換)の問題が発生する可能性を低減できるという利点もある。
図7は、分離行列Wの学習の回数(横軸)と雑音抑圧率(縦軸)NRRとの相関を第1実施形態と対比例とについて示すグラフである。雑音抑圧率NRR(noise reduction rate)は、分離信号U1における音SV2の強度に対する音SV1の強度の比率(すなわち、音SV1を目的音として音SV2を雑音としたときのSN比)SNR_OUTと、観測信号V1における音SV2の強度に対する音SV1の強度の比率SNR_INとの差分である(NRR=SNR_OUT−SNR_IN)。したがって、雑音抑圧率NRRが高いほど音SV1と音SV2との分離の精度(音SV1の強調の度合および音SV2の抑制の度合)が高い。
図7に示すように、第1実施形態および対比例の何れにおいても、学習の回数が増加するほど雑音抑圧率NRRは上昇するが、第1実施形態の雑音抑圧率NRRは、学習の回数に拘わらず対比例の雑音抑圧率NRRを上回る。すなわち、分離信号U1において音SV1が音SV2に対して充分に強調されていることが理解される。また、第1実施形態における雑音抑圧率NRRは、対比例と比較して学習の回数が少ない段階で飽和していることから、所期の分離性能を実現するために必要な学習の回数(処理量や時間)が対比例と比較して削減されることが理解される。
<B:第2実施形態>
次に、本発明の第2実施形態を説明する。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と共通の符号を付して各々の詳細な説明を適宜に省略する。図8に示すように、第2実施形態の初期値決定部22は、第1実施形態に白色化部72と有色化部74とを追加した構成である。
白色化部72は、観測信号V(V1,V2)を白色化する。白色化は、図9に示すように、白色化後の観測ベクトルX(t,f)に対応する共分散行列Rxx_white(f)が単位行列Iとなるように、周波数分析部52が生成した各観測ベクトルX(t,f)を変換する処理である。さらに詳述すると、白色化部72は、観測ベクトルX(t,f)を白色化しない場合の共分散行列Rxx(f)から生成される白色化行列Rxx(f)−1/2を各観測ベクトルX(t,f)に乗算する。したがって、白色化後の観測ベクトルX(t,f)に対応する共分散行列Rxx_white(f)は、以下の数式(9)に示すように単位行列Iとなる。
Rxx_white(f)=E[Rxx(f)−1/2X(t,f)X(t,f)Rxx(f)−H/2
=I ……(9)
図9から理解されるように、数式(3)の共分散行列Rxx(f)を数式(9)の共分散行列Rxx_white(f)に置換すると、音源S1からの音SV1に対応する共分散行列Rxx1_white(f)と音源S2からの音SV2に対応する共分散行列Rxx2_white(f)との加算で共分散行列Rxx_white(f)を近似する以下の数式(3b)が導出される。したがって、音源S2からの音SV2に対応する共分散行列Rxx2_white(f)は、以下の数式(3c)に示すように、単位行列I(すなわち、白色化後の共分散行列Rxx_white(f))から音SV1の共分散行列Rxx1_white(f)を減次した行列として近似される。
Rxx_white(f)=Rxx1_white(f)+Rxx2_white(f) ……(3b)
Rxx2_white(f)=Rxx_white(f)−Rxx1_white(f)
=I−Rxx1_white(f) ……(3c)
図8における行列特定部56の第1演算部562は、以下の数式(10)の演算を実行することで、K個の周波数fの各々について係数列w1_white(f)を算定する。係数列w1_white(f)は、白色化後の観測ベクトルX(t,f)に対応した係数列w1(f)に相当する。数式(10)の共分散行列Rxx(f)は、白色化前の観測ベクトルX(t,f)について数式(1)の演算を実行することで行列特定部54が算定する。また、行列特定部56の第2演算部564は、第1演算部562が算定した係数列w1_white(f)について数式(11)の演算を実行することで、K個の周波数fの各々について共分散行列Rxx1_white(f)を算定する。
w1_white(f)=Rxx(f)−1/2w1(f)/‖Rxx(f)−1/2w1(f)‖ ……(10)
Rxx1_white(f)=w1_white(f)w1_white(f)/{w1_white(f)*Rxx(f)−1*w1_white(f)} ……(11)
図8の減次部58は、図9に「減次」として示すように、行列特定部56が特定した共分散行列Rxx1_white(f)を単位行列Iから減次する(すなわち数式(3c)の演算を実行する)ことで、K個の周波数fの各々について音SV2の共分散行列Rxx2_white(f)を算定する。また、係数列特定部62は、減次部58による算定後の共分散行列Rxx2_white(f)から係数列w2(f)を算定する。係数列w2_white(f)の算定には、共分散行列Rxx2(f)から係数列w2(f)を算定する第1実施形態と同様の方法が採用される。
図8の有色化部74は、図9に「有色化」として示すように、係数列特定部62が特定した係数列w2_white(f)を有色化することで係数列w2(f)を算定する。以下の数式(12)に示すように、有色化は、白色化行列Rxx(f)−1/2の逆行列である有色化行列Rxx(f)1/2を係数列w2_white(f)に乗算する処理である。係数列w2(f)の算定後の処理(方向θ2の推定や分離行列W0の決定)は第1実施形態と同様である。
w2(f)=Rxx(f)1/2w2_white(f) ……(12)
第2実施形態においても第1実施形態と同様の効果が実現される。さらに、第2実施形態においては、観測信号V(観測ベクトルX(t,f))が白色化されるから、単位行列I(共分散行列Rxx2_white(f))を利用した演算(数式(3c))で共分散行列Rxx2_white(f)を算定することが可能である。したがって、白色化を実行しない第1実施形態と比較して、初期値決定部22(例えば減次部58や係数列特定部62)における演算が簡素化されるという利点がある。
<C:第3実施形態>
図10は、本発明の第3実施形態に係る信号処理装置100のブロック図である。図10に示すように、第3実施形態の信号処理装置100は、方向推定部82と移動判定部84とを第1実施形態に追加した構成である。図10の初期値決定部22(行列決定部66)は、複数回にわたって順次に初期的な分離行列W0を特定する。例えば、初期値決定部22は、所定個(例えば100個)の観測ベクトルX(t,f)を単位として、共分散行列(Rxx(f),Rxx1(f),Rxx2(f))の特定と分離行列W0の特定とを順次に実行する。
方向推定部82は、学習処理部24による学習後の分離行列Wから音源S1の方向θ1と音源S2の方向θ2とを推定する。なお、初期値決定部22(行列決定部66)にて使用される方向θ1や方向θ2と区別するために、学習後の分離行列Wから推定される方向に以下では添字“_W”を付加する(音源S1の方向θ1_W,音源S2の方向θ2_W)。
具体的には、方向推定部82は、分離行列Wを構成する係数列w1(w11,w12)から音源S1の方向θ1_Wを特定し、分離行列Wを構成する係数列w2(w21,w22)から音源S2の方向θ2_Wを特定する。例えば、方向推定部82は、係数列w1の設定でフィルタ処理部32が形成するビームの方向を音源S1の方向θ1_Wとして特定し、係数列w2の設定でフィルタ処理部34が形成するビームの方向を音源S2の方向θ2_Wとして特定する。また、第1実施形態において係数列w2(f)から方向θ2(f)を推定した方法も、方向θ1_Wや方向θ2_Wの推定に好適に採用される。
図10の移動判定部84は、各音源Sの移動の有無を判定する。具体的には、移動判定部84は、方向推定部82が推定する方向θ1_Wおよび方向θ2_Wと、初期値決定部22(行列決定部66)にて使用される方向θ1および方向θ2(すなわち、分離行列W0に対応する各音源Sの方向)とを比較する。移動判定部84は、方向θ1_Wと方向θ1との相違に応じて音源S1の移動の有無を判定するとともに、方向θ2_Wと方向θ2との相違に応じて音源S2の移動の有無を判定する。移動判定部84による判定は、例えば方向推定部64(図3,図8)が音源S2の方向θ2を推定するたびに順次に実行される。
本形態の移動判定部84は、方向θi_W(i=1,2)と方向θiとの差分の絶対値Δiを算定する(Δi=|θi_W−θi|)。そして、移動判定部84は、差分Δiが閾値τを上回る場合には音源Siが移動したと判定し、差分Δiが閾値τを下回る場合には音源Siが移動していない(あるは移動量が少ないので移動していないとみなせる)と判定する。なお、音源S1が固定された状況(音源S1が移動しない状況)を前提とすれば、音源S2の移動の有無のみを差分Δ2から判定する構成が好適に採用される。また、音源S1および音源S2の双方が移動し得る状況を前提とすると、差分Δ1および差分Δ2の少なくとも一方が閾値τを上回る場合(すなわち、音源S1および音源S2の少なくとも一方が移動した場合)に移動判定部84による判定の結果は肯定(音源が移動した)となる。
図10の学習処理部24は、音源Sが移動したと移動判定部84が判定した場合に、初期値決定部22が決定した分離行列W0を初期値とした学習を実行することで分離行列Wを特定する。一方、音源Sが移動していないと移動判定部84が判定した場合、学習処理部24は、分離行列Wの学習(分離行列Wの更新)を停止する。したがって、学習処理部24が過去の学習で特定した分離行列Wが継続的に信号処理部10にて使用される。方向推定部82は、分離行列Wが更新されるたびに(すなわち音源Sが移動するたびに)、更新後の分離行列Wから方向θ1_Wおよび方向θ2_Wを推定する。
第3実施形態においては、音源Sが移動しない場合には学習処理部24による学習が停止するから、音源Sの移動の有無に拘わらず学習処理部24が学習を実行する構成と比較して、学習処理部24による処理の負荷が軽減されるという利点がある。また、音源Sが移動した場合には、学習処理部24による学習に適用される分離行列W0(学習の初期値)が更新されるから、図11に示すように、各音源Sからの音SVを移動の前後にわたって高精度に分離することが可能である。
図11は、音源S1および音源S2の移動を検出しない構成(例えば第1実施形態や第2実施形態)のもとで音源S2を移動した場合の移動後の雑音抑圧率NRRを示す図表である。音源S1の方向θ1を0°(正面)に固定した場合が想定されている。図11の縦方向の項目は移動前の音源S2の方向θ2を意味し、図11の横方向の項目は移動後の音源S2の方向θ2を意味する。例えば、音源S2の方向θ2が−90°から−45°に変化した場合における移動後の雑音抑圧率NRRは11.1である。図11に下線を付して示すように、音源S2の移動を検出しない構成では、音源S2が音源S1の方向θ1(0°)を跨いで移動した場合に雑音抑圧率NRRが顕著に低下するという傾向が図11から把握される。
一方、図11の「第3実施形態」という行部分の各数値は、第3実施形態のもとで音源S2が横方向の項目の各角度に移動した各場合の雑音抑圧率NRRを意味する。第3実施形態においては、音源S2が移動するたびに移動後の方向θ2に応じた分離行列Wの学習(分離行列W0の初期化)が実行されるから、図11から把握されるように、音源S2の移動の前後の角度θ2に拘わらず、移動後の雑音抑圧率NRRは高い数値に維持される。すなわち、第3実施形態によれば、音源S2が随時に移動する環境においても音SV1と音SV2とを高精度に分離することが可能である。
また、分離行列Wから推定される方向θi_Wと分離行列W0に対応する方向θi(すなわち分離行列W0の生成に使用される方向θi)とを比較することで音源Siの移動の有無が判定されるから、音源Siの方向θiを検出するための特別な仕組(例えば、特開2007-318373号公報に開示された構成におけるジャイロセンサ)は不要である。したがって、信号処理装置100の構成の簡素化や製造コストの低減が実現される。
なお、以上の説明では、音源Sが移動しない場合に分離行列Wの学習を停止する構成を例示したが、音源Sが移動しない場合に分離行列W0を初期化しない(過去の初期化から継続中の学習は継続的に実行する)構成も好適である。音源Sが移動しない場合に分離行列W0の初期化を停止する構成によれば、例えば分離行列W0が定期的に初期化される構成と比較して、学習後の分離行列Wが、各音源Sの位置に応じた適切な特性(すなわち高精度な音源分離が可能な特性)に安定的に維持されるという利点がある。
<D:変形例>
以上に例示した各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合せてもよい。
(1)変形例1
以上の各形態においては、所定の方向の音を強調する遅延加算型ビームフォーマをフィルタ処理部32およびフィルタ処理部34として利用したが、所定の方向の音を抑圧する(すなわち死角を形成する)死角制御型(null)ビームフォーマをフィルタ処理部32およびフィルタ処理部34として利用した構成も好適である。例えば、図2のフィルタ処理部32の加算部325およびフィルタ処理部34の加算部345を減算部に変更することで死角制御型ビームフォーマが実現される。死角制御型ビームフォーマを採用した場合、行列決定部66は、方向θ1に死角が形成されるようにフィルタ処理部32の各係数(w11,w12)を決定し、方向θ2に死角が形成されるようにフィルタ処理部34の各係数(w21,w22)を決定する。したがって、分離信号U1においては音源S1からの音SV1が抑制され(音SV2が強調され)、分離信号U2においては音源S2からの音SV2が抑制される(音SV1が強調される)。
(2)変形例2
行列特定部56が係数列w1(f)や共分散行列Rxx1(f)を特定する方法は任意である。例えば、第1実施形態においては、音源S1から採取したインパルス応答が強調されるように遅延加算型ビームフォーマ(フィルタ処理部32)の係数列w1(f)を決定したが、遅延加算型ビームフォーマに代えて、死角制御型ビームフォーマや適応型ビームフォーマを利用して係数列w1(f)を決定する構成も採用される。
また、音源S1のみが音SV1を発生したときの共分散行列Rxx(f)を音SV1の共分散行列Rxx1(f)として特定する方法も好適である。各周波数fの係数列w1(f)は共分散行列Rxx1(f)から特定される。共分散行列Rxx1(f)から係数列w1(f)を特定する方法には、共分散行列Rxx2(f)から係数列w2(f)を特定する第1実施形態の解法1または解法2と同様の方法(主成分分析)が採用される。
また、MUSIC(multiple signal classification)法や最小分散法で推定した音源S1の方向θ1から各種のビームフォーマ(例えば適応型ビームフォーマ)を利用して係数列w1(f)や共分散行列Rxx1(f)を特定する方法、あるいは、因子分析で特定した因子ベクトルや正準相関分析で特定した正準ベクトルを係数列w1(f)として共分散行列Rxx(f)を特定する方法も採用される。
(3)変形例3
以上の各形態においては、信号処理部10や学習処理部24を具備する信号処理装置100を例示したが、信号処理部10や学習処理部24を省略した信号処理装置100も実現される。信号処理装置100の行列決定部66が生成した初期的な分離行列W0を信号処理装置100とは別体の装置の学習処理部24に提供することで分離行列Wが生成される。また、学習処理部24による学習は本発明において必須ではない。すなわち、行列決定部66の生成した分離行列W0を分離行列Wとして信号処理部10が使用する構成(学習処理部24を省略した構成)も採用される。
以上の各形態においては、係数列特定部62が特定した係数列w2(f)から音源S2の方向θ2を推定したうえで係数列w2(分離行列W0)を算定したが、方向θ2の推定は本発明において必須ではない。例えば、係数列特定部62が特定した係数列w2(f)から直接に分離行列W0の係数列w2を算定する構成も採用される。また、信号処理装置100が係数列w2(f)まで特定する必要は必ずしもない。例えば、減次部58が算定した共分散行列Rxx2(f)が信号処理装置100とは別体の装置に提供されて係数列w2(f)の特定や分離行列W0の生成に利用される構成も好適である。以上のように係数列特定部62や方向推定部64を信号処理装置100が具備しない構成であっても、減次部58が生成した共分散行列Rxx2(f)を利用することで、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという所期の効果は実現される。すなわち、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという効果に着目したひとつの形態に係る信号処理装置100においては、観測信号Vの共分散行列Rxx(f)から音源S1からの音SV1の共分散行列Rxx1(f)を減次(減算)する減次部58が重要な要素であり、他の要素の有無や具体的な構成は任意である。
(4)変形例4
以上の各形態においては音源S(S1,S2)が2個である場合を例示したが、3個以上の音源Sからの音を分離する場合にも本発明は適用される。行列特定部56や減次部58の動作は、音源Sの個数をN(Nは2以上の自然数)として以下のように一般化される。行列特定部56は、音源Sの方向が確定している(N−1)個の音SVの各々について共分散行列Rxx1(f)を特定する。減次部58は、行列特定部54が特定した共分散行列Rxx(f)から(N−1)個の共分散行列Rxx1(f)を減次することで、音源Sの方向が確定していない音SVの共分散行列Rxx2(f)を特定する。なお、信号処理装置100にはN個以上の収音機器Mが接続される。第3実施形態においては、N個の音源Sの各々について差分値Δ(Δ1〜ΔN)が算定され、音源Siの移動の有無が差分値Δiに応じて判定される。
もっとも、信号処理装置100に対する方向が確定していない音源Sが1個であることは本発明において必須ではない。例えば、N個の音源Sのうちのm個(mは2以上の自然数)の音源Sの方向が確定していない場合、方向が確定している(N−m)個の音源Sについて行列特定部56が共分散行列Rxx1(f)を特定し、観測信号Vの共分散行列Rxx(f)から減次部58が(N−m)個の共分散行列Rxx1(f)を減次する。減次部58が算定する共分散行列は、方向が未確定のm個の音源Sからの音の混合音に対応する共分散行列となる。減次後の共分散行列から、公知のブラインド音源分離を利用することで、未確定のm個の音源Sの各々に対応する係数列(ひいては分離行列W)を特定することが可能である。以上の構成によっても、共分散行列Rxx1(f)の減次を利用しない構成と比較すれば、各音の分離行列の直交性の有無に拘わらず分離行列を高精度に推定するという所期の効果は実現される。
本発明の第1実施形態に係る信号処理装置のブロック図である。 信号処理部のブロック図である。 初期値決定部のブロック図である。 観測ベクトルを説明するための概念図である。 観測ベクトルの散布図である。 共分散行列の減次の効果を説明するための模式図である。 第1実施形態の効果を説明するためのグラフである。 第2実施形態における初期値決定部のブロック図である。 初期値決定部の動作を説明するための概念図である。 本発明の第3実施形態に係る信号処理装置のブロック図である。 第3実施形態の効果を説明するための図表である。
符号の説明
100……信号処理装置、10……信号処理部、20……行列生成部、22……初期値決定部、24……学習処理部、32,34……フィルタ処理部、52……周波数分析部、54……行列特定部、56……行列特定部、562……第1演算部、564……第2演算部、58……減次部、62……係数列特定部、64……方向推定部、66……行列決定部、72……白色化部、74……有色化部、82……方向推定部、84……移動判定部。

Claims (9)

  1. 音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第1行列特定手段と、
    前記複数の音のうち第1音の共分散行列を特定する第2行列特定手段と、
    前記観測信号の共分散行列から前記第1音の共分散行列を減次する減次手段と
    を具備する信号処理装置。
  2. 音源の方向が相違するN個(Nは2以上の自然数)の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第1行列特定手段と、
    前記N個の音のうち(N−1)個の第1音の共分散行列を特定する第2行列特定手段と、
    前記観測信号の共分散行列から前記(N−1)個の第1音の共分散行列を減次することで、前記第1音以外の第2音の共分散行列を特定する減次手段と
    を具備する信号処理装置。
  3. 前記第2行列特定手段は、前記第1音を強調または抑制するフィルタ処理の第1係数列と前記第1係数列の転置行列と調整係数とを乗算した前記第1音の共分散行列と、前記観測信号の共分散行列との差分が零以上となる条件のもとで前記調整係数が最大化されるように、前記第1音の共分散行列を特定する
    請求項2の信号処理装置。
  4. 前記第2音を強調または抑制するフィルタ処理の第2系数列を前記第2音の共分散行列から特定する係数列特定手段
    を具備する請求項2または請求項3の信号処理装置。
  5. 前記複数の観測信号を白色化する白色化手段と、
    前記係数列特定手段が特定した第2係数列を有色化する有色化手段とを具備する
    請求項4の信号処理装置。
  6. 前記第2行列特定手段は、前記第1音を強調または抑制するフィルタ処理の第1係数列と前記第1音の共分散行列とを特定し、
    前記第1音と前記第2音とを分離するための分離行列を前記第1係数列および前記第2系数列から生成する行列決定手段を具備する
    請求項4または請求項5の信号処理装置。
  7. 前記行列決定手段が決定した分離行列を初期値として学習を実行する学習処理手段
    を具備する請求項6の信号処理装置。
  8. 前記行列決定手段は、前記分離行列を順次に生成し、
    前記学習処理手段による学習後の分離行列から各音源の方向を推定する方向推定手段と、
    前記行列決定手段が生成した分離行列に対応した各音源の方向と前記方向推定手段が推定した各音源の方向との相違に応じて前記各音源の移動の有無を判定する移動判定手段とを具備し、
    前記学習処理手段は、前記各音源が移動したと前記移動判定手段が判定した場合に、前記行列決定手段が生成した分離行列を初期値として学習を実行し、前記各音源が移動していないと前記移動判定手段が判定した場合に、分離行列の学習を停止し、または、分離行列を初期化せずに学習を継続する
    請求項7の信号処理装置。
  9. 音源の方向が相違する複数の音の混合音を複数の収音機器で収音した複数の観測信号から共分散行列を特定する第1行列特定処理と、
    前記複数の音のうち第1音の共分散行列を特定する第2行列特定処理と、
    前記観測信号の共分散行列から前記第1音の共分散行列を減次する減次処理と
    をコンピュータに実行させるプログラム。
JP2008287867A 2008-11-10 2008-11-10 信号処理装置およびプログラム Expired - Fee Related JP5163435B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008287867A JP5163435B2 (ja) 2008-11-10 2008-11-10 信号処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008287867A JP5163435B2 (ja) 2008-11-10 2008-11-10 信号処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2010114829A JP2010114829A (ja) 2010-05-20
JP5163435B2 true JP5163435B2 (ja) 2013-03-13

Family

ID=42303010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008287867A Expired - Fee Related JP5163435B2 (ja) 2008-11-10 2008-11-10 信号処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5163435B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4184950A1 (en) * 2017-06-09 2023-05-24 Oticon A/s A microphone system and a hearing device comprising a microphone system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3878892B2 (ja) * 2002-08-21 2007-02-07 日本電信電話株式会社 収音方法、収音装置、および収音プログラム

Also Published As

Publication number Publication date
JP2010114829A (ja) 2010-05-20

Similar Documents

Publication Publication Date Title
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
JP5207479B2 (ja) 雑音抑圧装置およびプログラム
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
EP2237271B1 (en) Method for determining a signal component for reducing noise in an input signal
Wang et al. Noise power spectral density estimation using MaxNSR blocking matrix
Schasse et al. Estimation of subband speech correlations for noise reduction via MVDR processing
JP6724905B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP5277887B2 (ja) 信号処理装置およびプログラム
Kodrasi et al. Analysis of eigenvalue decomposition-based late reverberation power spectral density estimation
Kodrasi et al. EVD-based multi-channel dereverberation of a moving speaker using different RETF estimation methods
Huang et al. Globally optimized least-squares post-filtering for microphone array speech enhancement
Habets et al. Dereverberation
JP6190373B2 (ja) オーディオ信号ノイズ減衰
Hoang et al. Multichannel speech enhancement with own voice-based interfering speech suppression for hearing assistive devices
JP5233772B2 (ja) 信号処理装置およびプログラム
Hoang et al. Joint maximum likelihood estimation of power spectral densities and relative acoustic transfer functions for acoustic beamforming
Tammen et al. Joint estimation of RETF vector and power spectral densities for speech enhancement based on alternating least squares
JP5163435B2 (ja) 信号処理装置およびプログラム
JP5387442B2 (ja) 信号処理装置
JP5263020B2 (ja) 信号処理装置
JP2017151216A (ja) 音源方向推定装置、音源方向推定方法、およびプログラム
JP2010085733A (ja) 音声強調システム
US11025324B1 (en) Initialization of adaptive blocking matrix filters in a beamforming array using a priori information
JP5338395B2 (ja) 信号処理装置およびプログラム
Schmid et al. A maximum a posteriori approach to multichannel speech dereverberation and denoising

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121203

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151228

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5163435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees