JP3949074B2 - Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof - Google Patents

Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof Download PDF

Info

Publication number
JP3949074B2
JP3949074B2 JP2003094840A JP2003094840A JP3949074B2 JP 3949074 B2 JP3949074 B2 JP 3949074B2 JP 2003094840 A JP2003094840 A JP 2003094840A JP 2003094840 A JP2003094840 A JP 2003094840A JP 3949074 B2 JP3949074 B2 JP 3949074B2
Authority
JP
Japan
Prior art keywords
signal
separation
vector
matrix
target signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003094840A
Other languages
Japanese (ja)
Other versions
JP2004302122A (en
Inventor
章子 荒木
宏 澤田
昭二 牧野
良 向井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003094840A priority Critical patent/JP3949074B2/en
Publication of JP2004302122A publication Critical patent/JP2004302122A/en
Application granted granted Critical
Publication of JP3949074B2 publication Critical patent/JP3949074B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To eliminate a problem of permutation that a method of extracting a target signal from observation signals received from a plurality of sensors while signals from a plurality of directions are mixed by using a method for blind signal separation (BSS) in a frequency range. <P>SOLUTION: An approximate value H<SB>1</SB>(f) of a frequency response between a target signal source and a sensor is found based upon a given direction of the target signal source, and used to find an initial value vector t<SB>1(0)</SB>meeting a restriction conditions for extracting a target signal without distortion; and t<SB>1(0)</SB>is updated through independent component analysis so that an output signal increases non-Gaussian property and the updated vector is varied as a separate vector so that its norm meets the restriction condition. <P>COPYRIGHT: (C)2005,JPO&amp;NCIPI

Description

【0001】
【発明の属する技術分野】
この発明は、複数方向からの信号が混合されて受信され、観測したい元の信号(目的信号)のみを直接観測することはできず、目的信号に他のノイズ(雑音)などが重畳されて観測されるという状況において、目的信号を推定する方法、その装置、目的信号抽出プログラム、その記録媒体に関し、例えばオーディオ分野において、音声認識装置の入力マイクロホンと話者とが離れているためそのマイクロホンが目的話者音声以外の音まで拾ってしまうような状況でも、目的音声を抽出することで認識率の高い音声認識系の構築を可能とするものである。
【0002】
【従来の技術】
独立成分分析(ICA)法
目的信号を分離抽出する手法の一つ目として独立成分分析(Independent Component Analysis:ICA)による手法がある。これは、複数の線形混合された信号を、元の信号や混合過程についての知識を全く用いることなしに推定する手法であり、ブラインド音源分離(Blind Source Separation:BSS)とよばれる。まず、ブラインド音源分離(BSS)について説明する。
・実環境での混合信号(観測信号)モデル
i を信号源11i の信号、hjiを信号源11i からセンサ12j までのインパルス応答(周波数応答)、Pをインパルス応答の次数、信号源11i の数をN個(N1)、センサ12j の数をM(M≧N)個、nを離散的時刻とすると、センサ12j で観測される信号xj
j(n)=Σi=1 NΣp=1 Pji(p)si(n−p+1)(j=1,…,M)(1)
と表現される。ここでN個の信号si は統計的に互いに独立であると仮定する。観測信号xj(n)は一定周期で標本化され、ディジタル信号系列とされている。
・分離信号のモデル
ブラインド音源分離では、式(1)の形で得られる観測信号と、長さがQタップ、インパルス応答がwijのN×M個の分離フィルタ群13ijから成る分離系を用いて分離する。この分離フィルタ群13ijを用いて、分離して得られる信号yi(n)は、
k(n)=Σj=1 MΣq=1 Qij(q)xj(n−q+1)(i=1,…,N)(2)
と表される。図6にN=M=2の場合について、信号源111 ,112 とセンサ121 ,122 間の混合過程と、センサ121 ,122 の出力信号x1 ,x2 から2×2個のフィルタ群13ijを用いるICA法により分離信号y1(n),y2(n)を出力端子141 ,142 に得る分離過程を示す。
【0003】
分離フィルタ係数(周波数応答)wijの推定には、独立成分分析(ICA)と呼ばれる技術が広く用いられる。これは、信号同士の統計的独立性に基づいた技術であり、分離フィルタ係数wijは出力信号yi(n)が互いに独立となるよう逐次的学習により決定される。
混合過程が例えば実音場での集音などでは、信号にシステムのインパルス応答が畳み込まれて混合され、式(1)のように非常に複雑な信号が得られる。これを分離するためには、式(2)のような複雑な形で表される分離フィルタ係数wijを推定する必要がある。これまでに提案されている手法では、このような複雑な分離フィルタ係数wijの推定は推定精度が低く、推定にかかる時間的な費用(コスト)も大きいことが知られている。
このため、信号を周波数領域へ変換し、各周波数において分離行列を求める手法(周波数領域BSS)が広く用いられている。
【0004】
・周波数領域BSS法
周波数領域BSS法の機能構成を図7に示す。観測信号x1(n),x2(n)を周波数領域変換部21で、例えば短時間離散フーリエ変換(DFT)(窓関数を掛け例えば1/2フレームごとにずらしながら1フレームずつ離散フーリエ変換)して次式(3)で示すような関係の周波数領域の信号に変換する。
(f,m)=(f)(f,m) (3)
ここで(f,m)=[S1(f,m),S2(f,m),…,SN(f,m)]T (f,m)=[X1(f,m),X2(f,m),…,XN(f,m)]T であり、[ ]Tは転置を表わし、(f)はHji(f)を要素とする混合行列であり、fは周波数、mは観測信号を短時間ごとのフレームに分割した際のフレーム番号である。この式(3)により、式(1)に示した複雑な混合を、各周波数成分での瞬時混合として表現でき、分離問題を簡単化できる。
分離行列推定部22において、各出力信号の周波数領域の信号Yi(f,m)が互いに独立となるように、次式(4)を満す分離行列(f)を推定する。
(f,m)=(f)(f,m) (4)
ここで(f,m)=[Y1(f,m),Y2(f,m),…,YN(f,m)]T (f)は要素Wji(f)のN×Mの行列である。
このようにして各周波数成分においての分離が達成される。
時間領域変換部24において周波数領域で出力される信号Yi(f,m)を例えば逆フーリエ変換により時間領域の信号に変換する。あるいは時間領域変換部25で分離行列(f)の各要素Wij(f)に例えば逆フーリエ変換を施して時間領域表現の分離フィルタ係数wij(q)に変換し、分離フィルタ群26でこの変換した伝達関数wij(q)を用いて観測信号xj(n)に対し式(2)を計算することで、分離された出力信号yi(n)を得る。こうして得られる分離信号の中から、何らかの手法を用いて目的信号を選ぶことで、目的信号が分離抽出される。
【0005】
分離行列推定部22では一般に、事前白色化(Pre-whitening)処理、ICAによる直交行列推定処理、事後白色化(Post-whitening)処理の3段階の処理が行われる。つまり図8に示すように事前白色化(Pre-whitening)部31で白色化行列(f)を、直交行列推定部32で直交行列(f)をそれぞれ推定し、その後、事後白色化(Post-whitening)部33でこれらの推定された二つの行列を用い、分離行列(f)= H(f)(f)を求める。
つまり事前白色化部31では各周波数における観測信号(f,m)を、白色化行列(f)を用いて(f,m)=(f)(f,m)のように事前に白色化(Pre-whitening)する。ここで(f)は、(f)の共分散行列Rxx(f)=E[XX T ]の固有値を対角要素に並べた行列Λ(f)と、固有ベクトルを並べた行列(f)を用いて(f)=Λ -1/2(f)(f)で得られる。
【0006】
直交行列推定部32では白色化した観測信号(f,m)を分離するための行列を(f)と書くと、分離信号(f,m)は
(f,m)=(f)(f,m) (5)
と表される。前段で白色化を行っているため、ここでは行列(f)を直交行列に限ることができる。すなわち、(f)のk行目をベクトル k(f)と表すとき、ベクトル i (f)とベクトル j(f) が直交する性質を持つ行列に限ることができる。この分離のための直交行列(f)を求める際にICAを用いる(例えば非特許文献1および2参照)。
ここではICAの手法の一つである、出力信号の非ガウス性を高めることで個々の独立成分を取り出す手法を説明する。これは、その分布がガウシアンでは無い(非ガウスの)原信号が混合された信号は、中心極限定理によりガウシアンに近くなるという性質を利用し、ガウシアンに近い信号Z(f,m)を、ベクトル k を用いてより非ガウス性の高い信号Yk(f,m)に変換することで原信号の周波数領域信号を抽出できる、という原理に基づいた手法である。
【0007】
この手法では、出力信号Yk(f)の分布が最もガウシアンから遠い分布となった際に最大値を取る目的関数Γ(f)を最大化する直交行列(f)の成分ベクトル k(f)を求め、独立成分Yk(f,m)を一つずつ取り出す。すなわちこの手法では分離のための直交行列(f)は一行ずつ求められる。尚、k2の場合には、 k(f)が以前に求めたものと同一にならぬよう、kより大きいr番目のベクトル r は必ずベクトル k と直交する k(f)を求める。
このように取り出される独立成分Y1(f,m),…,Yk(f,m),…,YN(f,m)は原信号の周波数領域信号S1(f,m),…,Si(f,m),…,SN(f,m)のいずれかに対応するが、その大きさと順序には任意性がある。これは、ICAが、信号の独立成分を取り出すという規範にのみ基いてベクトル k(f)を推定しているためであり、ベクトル k(f)の長さや求まる順序については規定していないためである。
【0008】
このベクトルの大きさの任意性を回避するためには、一般に、ベクトル k(f)のノルムを1とする拘束条件を付加することが行われている。すなわち、従来のICAでは次式(6)で示すように‖ k(f)‖=1である k(f)中の目的関数Γ(f)を最大とするものを求める。
arg max k(f)Γ(f) subject to ‖ k(f)‖=1 (6)
周波数領域BSSでは、目的関数Γ(f)としてE{G(| k H(f)(f)|2)}が用いられる。ここでGはある非線型関数であり、G(z)=log(a+z)やG(z)=√(a+z)(aは定数)などがよく用いられる。
しかし、従来のICAでは、拘束条件を用いてベクトルの大きさの任意性については回避しているが、ベクトル k(f)の求まる順序には任意性が残ったままである。この順序の任意性が、従来法による周波数領域BSSの問題点であり置換(パーミュテーション:Permutation)の問題と呼ばれている。
このPermutationの問題を、ここではN=M=2の場合について具体的に説明する。
【0009】
図9において多数の黒の小さい点は白色化された信号Z1(f,m)を横軸に、Z2(f,m)を縦軸にプロットしたものであり、太い実線で示した円41は、拘束条件‖ k(f)‖=1を表している。細い実線42は目的関数Γ(f)=E{G(| k H(f)(f)|2)}の等高線を表しており、外側ほど値が大きくなる。
式(6)では、拘束条件の円41の上でΓ(f)を最大にするベクトル k を求めるものであるから、図9中の円41の中心を通り互いに直交する軸Aと軸B上の、基点を円41の中心とする2つの白いベクトルα,βのうちのどちらかが解として求まる。すなわち、 1(f)=α, 2(f)=βという解も、 2(f)=α, 1(f)=βという解も求まり得る。これは、どちらの場合でも出力Y1(f,m)とY2(f,m)の独立性を保つことができるからである。
このことを式で説明する。式(5)を、N=M=2の場合について書き下すと次式(7)となる。
【数1】

Figure 0003949074
【0010】
直交行列(f)の一行目から一つ目の出力Y1(f,m)が、(f)の二行目から二つ目の出力Y2(f,m)が得られ、この時Y1(f,m)とY2(f,m)は独立である。しかし、直交行列(f)はその行が入れかわっても、出力Y1(f,m)とY2(f,m)の独立性は保たれる。すなわち直交行列(f)の1行目と2行目を入れかえると、一つ目の出力にY2(f,m)が、二つ目の出力にY1(f,m)が得られるが、ここでもやはり二つの出力信号は独立である。即ち、ICAは出力信号同士を互いに独立にはするが、その出力順序は拘束しない。
これより、任意の二つの周波数f1 とf2 を考えた時、例えば出力信号Y1(f1 ,m)とY1(f2 ,m)とが、同じ信号siに対する推定信号であるとは限らない。従って、周波数領域BSSでは、Yi(f1 ,m)とYi(f2 ,m)が同じ信号源の信号siの推定となるように、直交行列(f)の行を正しく並べ替える必要がある。これを置換(Permutation)の問題と呼ぶ。
【0011】
このPermutationの問題を解決した後、その直交行列(f)と事前白色化部31で用いた白色化行列(f)とを用いて事後白色化(Post-Whitening)部33で(f)= H(f)(f)を演算して分離行列(f)を求める。
なお、Permutationの問題を解決する方法としては、たとえば非特許文献3がある。
【0012】
適応型ビームフォーマ法
目的信号を分離抽出する手法の二つ目としては、適応型ビームフォーマによる手法がある。この適応型ビームフォーマ法は図10に示すように、センサアレイ50で観測された入力信号を目的信号オフ時推定部51に入力して、妨害信号のみが存在する時間区間を検出する。この検出した時間区間において入力信号をフィルタ群52へ供給し、そのフィルタ群52の出力信号の和を誤差信号e(t)とし、フィルタ制御部53において誤差信号のパワーが最小となるようにフィルタ群52のフィルタ係数(インパルス応答)wijを更新する。次に求まったフィルタ係数wijをフィルタ群54にコピーし、このフィルタ群54に入力信号を通すことで、妨害信号が抑圧され、目的信号が強調された出力信号y(n)が得られる。
ここでは、目的信号がs1(n)であるとして説明を行う。また、適応型ビームフォーマ法は周波数領域で用いられることが多いのでここでも周波数領域で説明を行う。
フィルタ係数更新時、分離行列 1j(f)が全て0となる意味の無い解(目的信号も出力されない)が得られることのないように、以下に述べるような拘束条件のもとで、誤差信号E(f,m)のパワーが最小となるよう、分離行列 1j(f)を推定する。ここで 1j(f)はフィルタ係数wi(k)を、E(f,m)は誤差信号e(t)をそれぞれ例えば短時間フーリエ変換により周波数領域に変換したものである。
【0013】
適応型ビームフォーマ法では、目的信号源からセンサjまでの周波数応答Hj1(f)が既知である必要がある。既知である周波数応答をH′j1(f)=exp(j2πfτj1)とする。もしくは目的信号源の方位θを既知として、目的信号源からセンサjまでの周波数応答Hj1(f)を、信号のセンサ間遅延時間τj1だけを用いてH′j1(f)=exp(j2πτj1)と近似する。ここで図11に示すようにτj1=(dj /c)sin θ1 であり、dj はセンサ12j の座標、cは音速、θ は音源11 の方向である。この近似は、目的信号源(スピーカ)111 からセンサ(マイクロホン)12j に到達する信号は直接音だけであるという近似となっている。
このように、H′j1(f)が既知の時、拘束条件として例えば次式(8)で与えられ、
Σj=1 MH′j11j(f)= 1(f) 1(f)=1 (8)
この式(8)の条件を満たしながら誤差信号E(f,m)のパワーを最小とする係数W′1j(f)を求める。ここで、 1(f)=[H′11(f),H′21(f)]T 1(f)=[W11(f),W12(f)]である。式(8)は、目的信号から出力までの周波数応答を全ての周波数で1にする、という拘束条件となっている。これは目的信号が歪み無く出力されるための条件である。
【0014】
適応型ビームフォーマ法における拘束条件を与えるためには、上記のように目的信号源111 からセンサ12j までの周波数応答Hj1(f)が必要である。しかし、Hj1(f)は信号源111 の移動や場の変化(温度変化、扉の開放などによる形状の変化など)などにより変動するため、観測時の周波数応答Hj1(f)と、適応型ビームフォーマ駆動時の周波数応答H′j1(f)とが等しいことは少ない。また、目的信号源111 の方位θ1 を用いてH′j1(f)を近似する場合にも、目的信号源111 の方位の推定が誤っている場合や、実環境での録音などのように信号の直接音だけでなく反射音も存在する場合には、H′j1(f)の近似精度は低くなる。
このように、適応型ビームフォーマ法で用いられる拘束条件は、多くの場合、実際に使用する環境に合わないという意味で不正確なものであり、これが適応型ビームフォーマ法の問題点となっている。このような不正確なH′j1(f)を拘束条件とする場合、適応型ビームフォーマ法による妨害信号除去能力は著しく低下する。
【0015】
図12を用いてこれを説明する。この図においてグレー(灰色)で表される点は、白色化された信号Z1(f,m)を横軸に、Z2(f,m)を縦軸にプロットしたものである。また、目的信号に関する直交ベクトル 1 および拘束条件の式(8)についても、Zi(f)と同じ平面に表示することができ、図において、破線44は適応型ビームフォーマ法により推定されたベクトル 1 を、tを横軸、tを縦軸として表し、一点鎖線45は拘束条件を表している。
正しい拘束条件を与えた場合、図12(a)に示すように、まず拘束条件を示す線45とプロットされたZi(f)の軸の一方(図では軸A)とは平行であることが分かる。また、正しい拘束条件を与えた場合、適応型ビームフォーマ法によって推定された、目的信号に関する直交ベクトル 1 と軸Aは垂直に交わる。
両者が垂直である時、妨害信号が最も良く抑圧される(例えば非特許文献2参照)。
これに対し、目的信号方向を間違えて拘束条件を与えた場合は、図12(b)に示すように推定された直交ベクトル 1 と軸Aは垂直には交わらない。これは、妨害信号除去能力が低いことを示している。
【0016】
【非特許文献1】
A.Hyvaerinen and J.Karhunen and E.Oja,“Independent Component
Analysis,”John Wiley & Sons,2001,ISBN 0-471-40540
【非特許文献2】
M.Knaak and D.Filbert,“Acoustical semi-blind source separation
for machine monitoring,”in 3rd. International Conference on Blind
Source Separation and Independent Component Analysis,2001,pp.361-366
【非特許文献3】
澤田 宏,向井 良,荒木 章子,牧野 昭二,“周波数領域ブラインド音源分離におけるpermutation問題の解法”,日本音響学会 秋季研究発表会,
pp.541-542,2002年9月
【0017】
【発明が解決しようとする課題】
従来の周波数領域でのBSSは、分離問題を各周波数について解くため、各帯域での分離行列は、時間的コストも小さく分離精度も良く求まる。しかし、周波数領域BSSでは、直交行列(f)の大きさを直交行列(f)の各行ベクトルのノルムが1という拘束条件で規定するが、直交行列(f)の行の順番については拘束が無かった。このため、求めた(f,m)について置換(Permutation)の問題を解く必要があった。
また、適応型ビームフォーマ法では、目的信号源からセンサまでの周波数応答や目的信号源の方向等が正しく入手できないので、誤った拘束条件のもとでフィルタ信号(逆混合行列)の最適化が行われ、妨害信号の除去能力が十分ではなかった。
【0018】
この発明の目的は、ICAによる学習中にPermutationの問題が生じないアルゴリズムを提案し、Permutationを解く処理を必要なくすると同時に、与えられる拘束条件の信頼性が低い場合でも妨害信号を十分除去することができる目的信号抽出方法、その装置、目的信号抽出プログラム、その記録媒体を提供することにある。
【0019】
【課題を解決するための手段】
この発明による装置の基本的な機能構成は図1に示すように、図7に示した従来の独立成分解析(ICA)法による周波数領域でのブラインド信号分離(BSS)の機能構成と同様であるが、この発明では分離行列推定部に特徴を持つ。事前知識保持部の目的信号源とセンサ間の周波数応答の事前知識 1 を用いて目的信号を歪みなく抽出する拘束条件を満す分離ベクトル 1 の初期値 1(0)を計算し、分離行列推定部においては、この初期値 1(0)を、ICA法により出力信号の非ガウス性をより高めるように更新し、この更新したベクトル 1 が前記拘束条件を満たすようにベクトル 1 のノルムを更新する。必要に応じて上記2つの更新を繰り返し、ベクトル 1 が十分収束するまで行う。ここで例えば 1(f)=[H′11(f),H′21(f)]であり、事前知識としては例えば適応型ビームフォーマ法で利用される程度の精度を持った目的信号方向に関するものであれば良い。
【0020】
【発明の実施の形態】
図1にこの発明装置の機能構成例を示し、図2にこの発明の方法の処理手順の例を示す。以下では観測信号がx1(n),x2(n)、分離信号がy1(n),y2(n)であり、分離した目的信号としてy1(n)を抽出する場合を例とする。
センサからの観測信号を取り込んで記憶部(図1に示していない)に一時格納する(S1)。図7に示した従来の周波数領域BSS法と同様にこれら観測信号を例えば短時間フーリエ変換により周波数領域信号行列(f,m)に周波数領域変換部21で変換する(S2)。この変換された信号行列(f,m)を用いて分離行列推定部61で推定した分離行列(f)を推定する(S3)。
この推定は図8に示した手法と同様に事前白色化部31で白色化行列(f)を算出し(S3−1)、白色化行列(f)を用いて信号行列(f,m)を白色化して白色化観測信号行列(f,m)を求める(S3−2)。
目的信号方向に関する事前知識 1 を用いた分離行列推定について詳しく説明を行う。
【0021】
この発明では直交行列推定部63に特色がありこの実施形態では、直交行列推定部63において、目的関数Γ(f)を最大化するベクトル 1 を、式(10)に示す拘束条件の下に求める。
arg max 1 Γ(f) (9)
1 H(f) 1(f)= 1 H(f)(f) 1(f)=1 (10)
これは例えば以下のように実現される。
まず直交ベクトル 1(f)の初期値 1(0)(f)を与える(S3−30)。この初期値 1(0)(f)は式(10)の拘束条件を満たす任意のベクトルを用いることができるが、従来技術の項で説明した適応型ビームフォーマ法で求めたベクトルを用いるとよい。つまり、まず事前知識保持部62に保持されている事前知識としての事前周波数応答 1(f)の読み出しを行う(S3−31)。初期値計算部63aに事前周波数応答 1(f)、信号行列(f,m)、白色化行列(f)を入力し、式(8)を満たしながら図10での誤差信号E(f,m)のパワーを最小にする 1(f)を求める。
1(f)= 1(f)V(f)の関係より 1(f)を求め、これを初期値ベクトル 1(0)(f)とする。(S3−32)。
このベクトル 1(0)は、拘束条件が正しく与えられる場合には既に分離を達成する直交ベクトル 1(f)となり、拘束条件の信頼性が低い場合には分離能力は低いが、その向きは正しいベクトル、つまり図12に示した例では軸Aに垂直なベクトルに近くなる。従って、このベクトルを初期値 1(0)(f)に用いることで良好かつ高速な収束が得られる。なお事前周波数応答情報 1(f)としては、従来の適応型ビームフォーマ法で説明したように目的信号源の方位(目的信号到来方向)θを既知としてHj1(f)=exp(j2πfτj1),τj1=(dj /c)sin θ1を計算したもの、あるいは予め測定したものでよい。
【0022】
ICA処理部63bに信号行列(f,m)、初期値 1(0)(f)、白色化行列(f)を入力してICA法を用いて出力信号の非ガウス性をより高めるようにベクトル 1 を更新する(S3−33)。これにより、式(10)の拘束条件に依らず、出力信号の分離が最も良く行われるベクトル 1 を推定することができる。
ノルム更新部63cに更新されたベクトル 1(f)、白色化行列(f)、事前情報 1(f)を入力して、更新したベクトル 1 が拘束条件式(10)を満たすように、ベクトルの長さ(ノルム)を変更する(S3−34)。これは、ICA処理部63bで推定されたベクトル 1 の方向は変えず、長さだけを変えて、ベクトル 1 が式(10)の拘束条件を満たすように変更する操作を行えばよい。式(10)は、目的信号から出力信号までの間の周波数応答、つまり目的信号源からこの目的信号抽出装置の出力端までの周波数応答が全ての周波数で1であるという条件であり、目的信号が歪み無く出力されるための条件である。よって、式(10)の拘束条件を満たすベクトル 1 により分離された全ての周波数成分は全て同一の目的信号の成分である。言いかえると、式(7)の直交行列(f)の一行目は全ての周波数で目的信号に対応する出力を生成することになり、Permutationの問題が生じない。
【0023】
ノルム変更が行われた後、収束判定部63dでそのベクトル 1(f)の収束状態の判定を行う(S3−35)。十分に収束している場合、目的信号を分離抽出する為に必要なベクトル 1 の収束結果を出力する。まだ収束していない場合、そのベクトル 1(f)をスイッチ部63eを通じてICA処理部63bに再び入力して、つまりステップS3−33に戻り、ステップS3−33〜S3−35を繰り返す。
収束した直交ベクトル 1(f)と白色化行列(f)を事後白色化部33に入力して、事後白色化した分離ベクトル 1(f)を計算する(S3−4)。
目的信号が複数の場合は同様にして各目的信号と対応する分離ベクトル i を求め、つまり分離行列(f)を求める。この分離行列(f)と信号行列(f,m)を分離演算部27に入力して式(4)を演算して分離された目的信号行列(f,m)を演算し(S4)、この演算結果を時間領域変換部24で例えば逆フーリエ変換により時間領域信号に変換して、各分離された目的信号y1(n),y2(n)を求める(S5)。
【0024】
あるいは事後白色化して得られた分離行列(f)を時間領域変換部25で例えば逆フーリエ変換によりフィルタ係数群wijに変換し(S6)、分離フィルタ群26で観測信号xj(n)に対し、対応するフィルタ係数を畳み込んで分離された目的信号y1(n),y2(n)を得るようにしてもよい(S7)。
この実施形態によれば、この発明の課題を解決できる仕組を以下に説明する。
上述した処理によりこの発明の課題が解決される仕組について図4を用いて説明する。グレーで表される点は、白色化された信号Z1(f,m)を横軸に、Z2(f,m)を縦軸にプロットしたものであり、一点鎖線46は拘束条件を表し破線47は適応型ビームフォーマ法により推定された分離ベクトルを、この実施形態の初期値 1(0)としたものを表わし、実線48はこの実施形態により求まった直交ベクトル 1 を表わし、図12(a)に示した場合と同様に軸Aと実線ベクトル 1 とが垂直に交わる時、妨害信号が最も抑圧される。
【0025】
(1)従来のICAによるBSSでは直交行列(f)のノルムを1とする拘束条件(図4中の円41)の下に最大化問題を解くので、図4中に示す互いに直角でその一方が軸Aと垂直な2本のベクトルa及びbのうち、どちらがベクトル 1 として求まるかは不定である。この不確定性がPermutationの問題であった。
この実施形態では拘束条件として式(10)を用いるが、これは目的信号から出力信号までの間の周波数応答が全ての周波数で1であるという条件、すなわち目的信号が歪み無く出力されるための条件である。よって、拘束条件を満たすベクトル 1 は、全ての周波数において目的信号を生成することを可能とする。
言いかえると、式(7)の直交行列(f)の一行目が全ての周波数で目的信号に対応することになり、Permutationの問題が生じない。
【0026】
ベクトル 1 に対する上記繰り返し処理の各回において、 1 の長さ(ノルム)はベクトルが式(10)の拘束条件を満たすよう決定されるが、拘束条件が実際と多少ずれている場合でも図4に示した例のように拘束条件は線Bよりも軸Aと平行に近くなるので、ほとんどの場合において軸Aに垂直なベクトルが最終的な直交ベクトル 1 として求まる。すなわち発明方法により、拘束条件が実際と多少ずれている場合でも、Permutationの問題は生じない。
また、初期値 1(0)に適応型ビームフォーマ法により求めたものを用いる場合は、拘束条件が実際と多少ずれていても軸Aに垂直に近いベクトルから学習を始めることができることもPermutationの問題を解決することに寄与している。
【0027】
(2)適応型ビームフォーマ法では、目的信号方向を間違えて拘束条件を与えた場合には妨害信号除去能力が低くなる。この時、図12(b)に示したように、推定された直交ベクトル 1 と軸Aは垂直には交わらなかった。
ICA処理部63bで図2中のステップS3−33におけるICA法によるベクトル 1 の更新では、ベクトル 1 は図9に示したベクトルαかβのように軸A又は軸Bに垂直な方向へ近づくよう更新される。ここでは、Permutationの問題が解決されているのでベクトル 1 は軸Aと垂直な方向へ収束する。
この発明では、更新の各回においてICA法で 1 を軸Aと垂直な方向へ近づけた後で、拘束条件を満たすために 1 の長さを変える操作を行うので、拘束条件の正確さに依らずにベクトル 1 は軸Aと垂直な方向へ近づいていく。
その結果、拘束条件の信頼性が低い場合でも、軸Aと垂直な方向のベクトルが最終的な分離ベクトル 1 として求まることになる。
【0028】
実施例
ここでは、目的関数Γ(f)=E{G(|t1 HZ|2)}の場合についての、この発明の実施例について述べる。ここでGはある非線型関数であり、G(z)=log(a+z)やG(z)=√(a+z)(aは定数)などがよく用いられる。
はじめに初期値計算部63a(ステップS3−32)において、直交ベクトルt1 (f)の初期値t1(0)(f)を選ぶ。初期値t1(0)(f)は任意の値を用いることができるが、図12で示した従来の適応型ビームフォーマ法で求まったベクトルは、分離能力は低いが解の近くにあるので、これを初期値に用いることで良好かつ高速な収束が得られる。この初期値ベクトルt1(0)(f)は白色化行列V(f)と目的信号源とセンサ間の既知の周波数応答H1(f)と白色化された信号Z(f)とを用いて次式(11)の計算により求めることができる。
【数2】
Figure 0003949074
ここでRz(f)はZ(f)の共分散行列Rz(f)=E[Z(f)Z H ( ) であり、E[ ]は平均を表わす。
このベクトルt1(0)(f)は、従来の適応型ビームフォーマ法で用いた規範(妨害信号のみが存在する時間における誤差信号の最小化)で求まるものであり、拘束条件が正しく与えられる場合には既に分離を達成する直交ベクトルt1(f)と同一のものとなり、拘束条件の信頼性が低い場合には分離能力は低いが解の近くにあるベクトルとなる。
【0029】
次に、ICA処理部63b(ステップS3−33)においてベクトル 1 の更新を行う。目的関数Γ(f)=E{G(| 1 H 2)}の最大化は次の更新式(12)により行われる。
【数3】
Figure 0003949074
であり、g(z)は非線型関数G(z)のzに関する微分、下付きの()内の値は更新回数をそれぞれ表す。
【0030】
次に、ノルム更新部63c(ステップS3−34)においてベクトル 1 の長さを変更してベクトル 1 が式(10)の拘束条件を満たすようにする。これは以下の式(13)により実現できる。
【数4】
Figure 0003949074
次に、判定部63d(ステップS3−35)で収束判定を行う。まだ収束していない場合、ベクトル 1 の更新と長さの変更を繰り返す。十分に収束している場合、目的信号を分離抽出する為に必要な 1 の収束結果を出力する。
【0031】
この発明による目的信号抽出装置は、CPUやメモリ等を有するコンピュータと、ユーザ端末と、CD−ROMやDVD−ROM、磁気ディスク装置、半導体メモリ等の読み取り可能な記録媒体とから構成することができる。記録媒体に記録された目的信号に関する事前情報 1(f)と、記録媒体に記録された目的信号抽出プログラムもしくは回線を通して伝送された目的信号抽出プログラムは、コンピュータに読み取られ、コンピュータ上で前述した各処理を実現する。
この発明は目的音源信号の抽出のみならず、目的電波源の信号の抽出にも適用でき、この場合はセンサとしてはアンテナが用いられ、アンテナよりの観測信号は一般にベースバンドに変換され、サンプリングされたディジタル信号系列として処理される。
【0032】
【発明の効果】
図4の実線48は、目的信号方向を間違えて拘束条件を与えた場合に、発明法を用いて推定した直交ベクトル 1 を示している。軸Aに垂直なベクトルが推定されている。このように、目的信号方向を間違えて拘束条件を与えた場合にも十分な抑圧性能が得られるベクトルが推定されており、この発明の有効性が分かる。
図5は、出力端子141 に得られる信号について、各周波数における目的信号対妨害信号比(SIR)をdBで示しており、値が正ならば、目的信号が出力端子141 に正しく得られていることを示し、値が負ならば、Permutationの問題が生じて妨害信号が出力端子141 に得られていることを示す。
【0033】
図5(a)は、従来のICA法を用いた場合に出力端子141 に得られる信号の各周波数におけるSIRである。目的信号に関する拘束を入れていないため、Permutationの問題が著しい。
図5(b)(c)はそれぞれ、この発明方法を用いた場合に出力端子141 に得られる信号の各周波数におけるSIRである。図5(b)は無残響で、目的信号の方向が正しい角度と20度ずれて与えられている場合、図5(c)は目的信号の方向が正しく与えられているが、残響がある場合の結果である。すなわち図5(b)(c)の双方とも、正確な拘束条件を与えることができない状況である。しかし、この発明方法によると、双方ともほとんどの周波数で正のSIR値が得られており、Permutationの問題はほとんど生じていないことから、発明方法が有効であることが分かる。
【図面の簡単な説明】
【図1】この発明装置の機能構成例を示すブロック図。
【図2】この発明方法の実施形態の処理手順の例を示す流れ図。
【図3】図1中の分離行列推定部の具体的機能構成例を示すブロック図。
【図4】この発明方法が課題を解決する仕組を説明するための図。
【図5】発明の効果を示す図。
【図6】ICA法によるブラインド音源分離(BSS)のモデルを示す図。
【図7】従来のICA法による周波数領域BSSの機能構成を示すブロック図。
【図8】図7中の従来の分離行列推定部22の詳細な機能構成を示すブロック図。
【図9】置換(Permutation)の問題を説明するための図。
【図10】従来の適応型ビームフォーマ法の機能構成を示すブロック図。
【図11】適応型ビームフォーマ法で使うパラメータを説明するための信号源とセンサとの配置を示す図。
【図12】適応型ビームフォーマ法で得られる解を示す図。[0001]
BACKGROUND OF THE INVENTION
In the present invention, signals from a plurality of directions are mixed and received, and only the original signal (target signal) to be observed cannot be directly observed, but other noise (noise) is superimposed on the target signal and observed. In this situation, the method of estimating the target signal, the apparatus thereof, the target signal extraction program, and the recording medium thereof, for example, in the audio field, the input microphone of the voice recognition apparatus and the speaker are separated from each other. Even in a situation where sounds other than the speaker's voice are picked up, it is possible to construct a voice recognition system with a high recognition rate by extracting the target voice.
[0002]
[Prior art]
Independent component analysis (ICA) method
As a first method for separating and extracting a target signal, there is a method based on independent component analysis (ICA). This is a technique for estimating a plurality of linearly mixed signals without using any knowledge about the original signal and mixing process, and is called blind source separation (BSS). First, blind sound source separation (BSS) will be described.
-Mixed signal (observation signal) model in real environment
siThe signal source 11iSignal, hjiThe signal source 11iTo sensor 12jImpulse response (frequency response), P is the order of impulse response, signal source 11iOf N (N>1), sensor 12jIf the number of M is M (M ≧ N) and n is a discrete time, the sensor 12jSignal x observed atjIs
xj(n) = Σi = 1 NΣp = 1 Phji(p) si(n−p + 1) (j = 1,..., M) (1)
It is expressed as Where N signals siAre statistically independent of each other. Observation signal xj(n) is sampled at a constant period to form a digital signal sequence.
・ Separated signal model
In blind sound source separation, the observation signal obtained in the form of equation (1), the length is Q tap, and the impulse response is wijN × M separation filter groups 13ijSeparation using a separation system consisting of This separation filter group 13ijThe signal y obtained by separation usingi(n)
yk(n) = Σj = 1 MΣq = 1 Qwij(q) xj(n−q + 1) (i = 1,..., N) (2)
It is expressed. In the case of N = M = 2 in FIG.1, 112And sensor 121, 122The mixing process between the sensor 121, 122Output signal x1, X2To 2 × 2 filter group 13ijThe separated signal y by the ICA method using1(n), y2(n) is the output terminal 141, 142Shows the separation process.
[0003]
Separation filter coefficient (frequency response) wijA technique called independent component analysis (ICA) is widely used for the estimation. This is a technique based on statistical independence between signals, and the separation filter coefficient wijIs the output signal yiIt is determined by sequential learning so that (n) are independent of each other.
When the mixing process is, for example, collecting sound in a real sound field, the system impulse response is convoluted with the signal and mixed to obtain a very complicated signal as shown in Equation (1). In order to separate this, the separation filter coefficient w expressed in a complicated form as in Equation (2)ijNeed to be estimated. In the methods proposed so far, such a complicated separation filter coefficient wijIt is known that the estimation of is low in estimation accuracy and the time cost (cost) required for the estimation is large.
For this reason, a technique (frequency domain BSS) for converting a signal into the frequency domain and obtaining a separation matrix at each frequency is widely used.
[0004]
・ Frequency domain BSS method
A functional configuration of the frequency domain BSS method is shown in FIG. Observation signal x1(n), x2(n) is subjected to, for example, a short-time discrete Fourier transform (DFT) (by multiplying by a window function, for example, one frame at a time while shifting every 1/2 frame), and (n) is expressed by the following equation (3). The signal is converted into a signal in the frequency domain having such a relationship.
X(F, m) =H(F)S(F, m) (3)
hereS(F, m) = [S1(f, m), S2(f, m), ..., SN(f, m)]T,X(F, m) = [X1(f, m), X2(f, m), ..., XN(f, m)]TAnd []TStands for transpose,H(F) is Hji(F) is a mixing matrix, f is a frequency, and m is a frame number when the observation signal is divided into short-time frames. By this equation (3), the complicated mixing shown in equation (1) can be expressed as instantaneous mixing at each frequency component, and the separation problem can be simplified.
In the separation matrix estimation unit 22, the frequency domain signal Y of each output signaliA separation matrix that satisfies the following equation (4) so that (f, m) are independent of each other:WEstimate (f).
Y(F, m) =W(F)X(F, m) (4)
hereY(F, m) = [Y1(f, m), Y2(f, m), ..., YN(f, m)]T,W(F) is element WjiIt is an N × M matrix of (f).
In this way, separation at each frequency component is achieved.
The signal Y output in the frequency domain in the time domain transform unit 24i(f, m) is converted into a signal in the time domain by, for example, inverse Fourier transform. Alternatively, the separation matrix in the time domain conversion unit 25WEach element W of (f)ijFor example, an inverse Fourier transform is applied to (f) to obtain a separation filter coefficient w in time domain representation.ijThe transfer function w converted into (q) and converted by the separation filter group 26ijObservation signal x using (q)jBy calculating equation (2) for (n), the separated output signal yi(n) is obtained. The target signal is separated and extracted by selecting the target signal from the separated signals obtained in this way by using some method.
[0005]
In general, the separation matrix estimation unit 22 performs a three-stage process including a pre-whitening process, an orthogonal matrix estimation process using ICA, and a post-whitening process. That is, as shown in FIG. 8, the pre-whitening unit 31 performs the whitening matrix.V(F) is converted into an orthogonal matrix by the orthogonal matrix estimation unit 32.T(F) is estimated, and then the post-whitening unit 33 uses these two estimated matrixes to form a separation matrix.W(F) =T H(f)V(F) is obtained.
That is, the pre-whitening unit 31 observes signals at each frequency.X(F, m) is the whitening matrixVUsing (f)Z(F, m) =V(F)XPre-whitening as in (f, m). hereV(F)XCovariance matrix R of (f)xx(F) = E [XX T] A matrix with the eigenvalues ofΛ(F) and a matrix of eigenvectorsOUsing (f)V(F) =Λ -1/2(F)OObtained in (f).
[0006]
The orthogonal matrix estimator 32 whitens the observed signalZA matrix for separating (f, m)TWrite (f), separation signalY(F, m)
Y(F, m) =T(F)Z(F, m) (5)
It is expressed. Since the whitening is performed in the previous stage, here the matrixT(F) can be limited to an orthogonal matrix. That is,T(F) k-th row vectort kWhen expressed as (f), a vectort i(F) and vectort j(F) Can be limited to matrices having orthogonal properties. Orthogonal matrix for this separationTICA is used in determining (f) (see, for example, Non-Patent Documents 1 and 2).
Here, a method of extracting individual independent components by increasing the non-Gaussianity of the output signal, which is one of ICA methods, will be described. This is because a signal mixed with an original signal whose distribution is not Gaussian (non-Gaussian) becomes close to Gaussian by the central limit theorem, and a signal Z (f, m) close to Gaussian is expressed as a vector.t kSignal Y is more non-GaussiankThis is a technique based on the principle that the frequency domain signal of the original signal can be extracted by converting to (f, m).
[0007]
In this method, the output signal YkAn orthogonal matrix that maximizes the objective function Γ (f) that takes the maximum value when the distribution of (f) is the farthest from Gaussian.TComponent vector of (f)t k(f) is obtained and the independent component Y is obtained.kTake out (f, m) one by one. In other words, this method uses orthogonal matrix for separation.T(F) is obtained line by line. K>In the case of 2,t kthe r-th vector greater than k so that (f) is not the same as previously determinedt rIs always a vectort kOrthogonal tot k(f) is obtained.
Independent component Y thus taken out1(f, m), ..., Yk(f, m), ..., YN(f, m) is the frequency domain signal S of the original signal.1(f, m), ..., Si(f, m), ..., SNIt corresponds to any one of (f, m), but its size and order are arbitrary. This is a vector based solely on the norm that ICA extracts independent components of the signal.t kThis is because (f) is estimated, and the vectort kThis is because the length of (f) and the order in which it is obtained are not defined.
[0008]
In order to avoid this vector size arbitraryness, in general, the vectort kA constraint condition in which the norm of (f) is 1 is added. That is, in the conventional ICA, as shown by the following formula (6),t k(f) ‖ = 1t kFind the one that maximizes the objective function Γ (f) in (f).
arg maxt k(f) Γ (f) subject to ‖t k(f) ‖ = 1 (6)
In the frequency domain BSS, E {G (|t k H(f)Z(F) |2)} Is used. Here, G is a non-linear function, and G (z) = log (a + z), G (z) = √ (a + z) (a is a constant), etc. are often used.
However, the conventional ICA avoids the arbitraryness of the vector size by using the constraint condition.t kArbitraryness remains in the order in which (f) is determined. This arbitraryness of the order is a problem of the frequency domain BSS according to the conventional method and is called a problem of permutation.
This Permutation problem will be specifically described here in the case of N = M = 2.
[0009]
In FIG. 9, a number of small black dots indicate the whitened signal Z.1With (f, m) on the horizontal axis, Z2(f, m) is plotted on the vertical axis, and a circle 41 indicated by a thick solid line represents a constraint condition ‖.t k(f) represents ‖ = 1. The thin solid line 42 indicates the objective function Γ (f) = E {G (|t k H(f)Z(F) |2)} Contour line, and the value increases toward the outside.
In equation (6), a vector that maximizes Γ (f) on the constraint circle 41t k Therefore, one of the two white vectors α and β on the axes A and B passing through the center of the circle 41 in FIG. 9 and orthogonal to each other and having the base point as the center of the circle 41 is the solution. It is obtained as That is,t 1(f) = α,t 2The solution (f) = β ist 2(f) = α,t 1The solution (f) = β can also be obtained. This is the output Y in either case1(f, m) and Y2This is because the independence of (f, m) can be maintained.
This will be explained by equations. When formula (5) is written down for the case of N = M = 2, the following formula (7) is obtained.
[Expression 1]
Figure 0003949074
[0010]
Orthogonal matrixT(F) The first output Y from the first line1(f, m) isT(F) second to second output Y2(f, m) is obtained and Y1(f, m) and Y2(f, m) are independent. But the orthogonal matrixT(F) outputs Y even if the line is changed1(f, m) and Y2Independence of (f, m) is maintained. Ie orthogonal matrixTIf the first and second lines in (f) are swapped, the first output is Y2(f, m) is Y on the second output1(f, m) is obtained, but again the two output signals are independent. That is, ICA makes output signals independent of each other, but does not constrain the output order.
From this, any two frequencies f1And f2For example, the output signal Y1(f1, M) and Y1(f2, M) is the same signal siIs not necessarily an estimated signal. Therefore, in the frequency domain BSS, Yi(f1, M) and Yi(f2, M) are signals s of the same signal sourceiIs an orthogonal matrix such thatTIt is necessary to rearrange the rows in (f) correctly. This is called the problem of permutation.
[0011]
After solving this Permutation problem, the orthogonal matrixT(F) and the whitening matrix used in the prewhitening unit 31V(F) In the post-whitening section 33 usingW(F) =T H(f)V(F) is calculated and the separation matrixW(F) is obtained.
As a method for solving the Permutation problem, for example, there is Non-Patent Document 3.
[0012]
Adaptive beamformer method
As a second method of separating and extracting the target signal, there is a method using an adaptive beamformer. In this adaptive beamformer method, as shown in FIG. 10, an input signal observed by the sensor array 50 is input to a target signal OFF time estimation unit 51 to detect a time interval in which only a disturbing signal exists. In this detected time interval, an input signal is supplied to the filter group 52, the sum of the output signals of the filter group 52 is set as an error signal e (t), and the filter control unit 53 performs filtering so that the power of the error signal is minimized. Filter coefficient (impulse response) w of group 52ijUpdate. Next obtained filter coefficient wijIs copied to the filter group 54, and an input signal is passed through the filter group 54, so that an interference signal is suppressed and an output signal y (n) in which the target signal is emphasized is obtained.
Here, the target signal is s1The description will be made assuming that (n). Since the adaptive beamformer method is often used in the frequency domain, the description will be given here in the frequency domain.
Separation matrix when filter coefficients are updatedW 1jThe power of the error signal E (f, m) under the constraint conditions described below so that a meaningless solution (no target signal is not output) where (f) is all 0 is not obtained. So that the separation matrix is minimizedW 1jEstimate (f). hereW 1j(F) is the filter coefficient wi(k) and E (f, m) are obtained by converting the error signal e (t) into the frequency domain by, for example, short-time Fourier transform.
[0013]
In the adaptive beamformer method, the frequency response H from the target signal source to the sensor jj1(F) needs to be known. The known frequency response is H ′j1(F) = exp (j2πfτj1). Alternatively, assuming that the direction θ of the target signal source is known, the frequency response H from the target signal source to the sensor jj1(F) is the signal inter-sensor delay time τj1Only using H 'j1(F) = exp (j2πτj1). Here, as shown in FIG.j1= (Dj/ C) sin θ1And djIs sensor 12j, C is the speed of sound, θ1 Is sound source 111 Direction. This approximation is based on the target signal source (speaker) 11.1To sensor (microphone) 12jIt is an approximation that the signal arriving at is only the direct sound.
Thus, H 'j1When (f) is known, the constraint condition is given by the following equation (8), for example:
Σj = 1 MH 'j1W1j(F) =W 1(f)H 1(f) = 1 (8)
A coefficient W ′ that minimizes the power of the error signal E (f, m) while satisfying the condition of the equation (8).1j(F) is obtained. here,H 1(f) = [H ′11(F), H 'twenty one(F)]T,W 1(f) = [W11(F), W12(F)]. Expression (8) is a constraint condition that the frequency response from the target signal to the output is set to 1 at all frequencies. This is a condition for outputting the target signal without distortion.
[0014]
In order to give the constraint condition in the adaptive beamformer method, the target signal source 11 is used as described above.1To sensor 12jFrequency response up toj1(F) is required. But Hj1(F) is the signal source 11.1Frequency response H at the time of observation because it fluctuates due to movement of the object and changes in the field (temperature change, shape change due to door opening, etc.)j1(F) and frequency response H ′ when the adaptive beamformer is driven.j1(F) is rarely equal. The target signal source 111Direction θ1H 'j1The target signal source 11 is also used when approximating (f).1If the direction of the head is incorrect, or if there is a reflected sound as well as a direct sound of the signal, such as recording in a real environment, H 'j1The approximation accuracy of (f) is lowered.
In this way, the constraint conditions used in the adaptive beamformer method are often inaccurate in the sense that they do not match the actual environment in use, and this is a problem with the adaptive beamformer method. Yes. Such inaccurate H 'j1When (f) is set as a constraint, the interference signal removal capability by the adaptive beamformer method is significantly reduced.
[0015]
This will be described with reference to FIG. The point represented in gray in this figure is the whitened signal Z1With (f, m) on the horizontal axis, Z2(f, m) is plotted on the vertical axis. Also, the orthogonal vector for the target signalt 1And constraint equation (8), Zi(f) can be displayed in the same plane, and in the figure, the broken line 44 is a vector estimated by the adaptive beamformer method.t 1T1Is the horizontal axis, t2Is represented as a vertical axis, and the alternate long and short dash line 45 represents a constraint condition.
When the correct constraint condition is given, first, as shown in FIG. 12A, a line 45 indicating the constraint condition and the plotted ZiIt can be seen that one of the axes of (f) (axis A in the figure) is parallel. In addition, when the correct constraint condition is given, the orthogonal vector for the target signal estimated by the adaptive beamformer methodt 1And axis A intersect perpendicularly.
When both are vertical, the interference signal is best suppressed (see, for example, Non-Patent Document 2).
On the other hand, when a constraint condition is given with a wrong target signal direction, an orthogonal vector estimated as shown in FIG.t 1And axis A do not intersect vertically. This indicates that the interference signal removal capability is low.
[0016]
[Non-Patent Document 1]
A. Hyvaerinen and J. Karhunen and E. Oja, “Independent Component
Analysis, ”John Wiley & Sons, 2001, ISBN 0-471-40540
[Non-Patent Document 2]
M. Knaak and D. Filbert, “Acoustical semi-blind source separation
for machine monitoring, ”in 3rd. International Conference on Blind
Source Separation and Independent Component Analysis, 2001, pp.361-366
[Non-Patent Document 3]
Hiroshi Sawada, Ryo Mukai, Akiko Araki, Shoji Makino, “Solution of permutation problem in frequency domain blind source separation”, Acoustical Society of Japan Autumn Meeting,
pp.541-542, September 2002
[0017]
[Problems to be solved by the invention]
Since the BSS in the conventional frequency domain solves the separation problem for each frequency, the separation matrix in each band can be obtained with low time cost and good separation accuracy. However, in the frequency domain BSS, the orthogonal matrixTThe size of (f) is the orthogonal matrixTAlthough defined by the constraint that the norm of each row vector in (f) is 1, the orthogonal matrixTThere was no restriction on the order of the rows in (f). Because of this, askedYIt was necessary to solve the permutation problem for (f, m).
In addition, since the adaptive beamformer method cannot obtain the frequency response from the target signal source to the sensor and the direction of the target signal source correctly, the filter signal (inverse mixing matrix) can be optimized under erroneous constraints. The interference signal removal capability was not sufficient.
[0018]
An object of the present invention is to propose an algorithm that does not cause a Permutation problem during learning by ICA, eliminates the need to solve the Permutation, and at the same time sufficiently eliminates interference signals even when the reliability of given constraints is low. OBJECT SIGNAL EXTRACTION METHOD, APPARATUS, OBJECT SIGNAL EXTRACTION PROGRAM, AND RECORDING MEDIUM
[0019]
[Means for Solving the Problems]
As shown in FIG. 1, the basic functional configuration of the apparatus according to the present invention is the same as the functional configuration of blind signal separation (BSS) in the frequency domain by the conventional independent component analysis (ICA) method shown in FIG. However, the present invention has a feature in the separation matrix estimation unit. Prior knowledge of frequency response between target signal source and sensor of prior knowledge holding unitH 1A separation vector that satisfies the constraint of extracting the target signal without distortion usingt 1Initial value oft 1 (0)And the separation matrix estimation unit calculates this initial value.t 1 (0)Is updated by the ICA method so as to further increase the non-Gaussianity of the output signal, and this updated vector is updated.t 1Vector such that satisfies the constraintt 1Update the norm of. Repeat the above two updates as necessary to get the vectort 1Do until it converges sufficiently. Where for exampleH 1(f) = [H ′11(F), H 'twenty one(F)], and the prior knowledge may be related to the target signal direction with a degree of accuracy used in the adaptive beamformer method, for example.
[0020]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 shows an example of the functional configuration of the apparatus of the present invention, and FIG. 2 shows an example of the processing procedure of the method of the present invention. In the following, the observed signal is x1(n), x2(n), the separated signal is y1(n), y2(n) and y as the separated target signal1The case where (n) is extracted is taken as an example.
An observation signal from the sensor is captured and temporarily stored in a storage unit (not shown in FIG. 1) (S1). Similar to the conventional frequency domain BSS method shown in FIG. 7, these observed signals are converted into a frequency domain signal matrix by, for example, a short-time Fourier transform.XThe frequency domain conversion unit 21 converts the data into (f, m) (S2). This transformed signal matrixXSeparation matrix estimated by the separation matrix estimation unit 61 using (f, m)W(F) is estimated (S3).
This estimation is performed by the pre-whitening unit 31 in the same manner as the method shown in FIG.V(F) is calculated (S3-1), and the whitening matrixVSignal matrix using (f)X(F, m) is whitened and whitened observation signal matrixZ(F, m) is obtained (S3-2).
Prior knowledge about target signal directionH 1The separation matrix estimation using is described in detail.
[0021]
In the present invention, the orthogonal matrix estimation unit 63 has a feature. In this embodiment, the orthogonal matrix estimation unit 63 uses the vector that maximizes the objective function Γ (f).t 1Is obtained under the constraint condition shown in Expression (10).
arg maxt 1Γ (f) (9)
W 1 H(f)H 1(f) =t 1 H(f)V(f)H 1(f) = 1 (10)
This is realized as follows, for example.
First orthogonal vectort 1Initial value of (f)t 1 (0)(f) is given (S3-30). This initial valuet 1 (0)As (f), an arbitrary vector that satisfies the constraint condition of Expression (10) can be used, but a vector obtained by the adaptive beamformer method described in the section of the prior art may be used. That is, first, the prior frequency response as the prior knowledge held in the prior knowledge holding unit 62.H 1Reading of (f) is performed (S3-31). Pre-frequency response to initial value calculator 63aH 1(F), signal matrixZ(F, m), whitening matrixV(F) is input and the power of the error signal E (f, m) in FIG. 10 is minimized while satisfying the equation (8).W 1(F) is obtained.
W 1(F) =t 1(F) From the relationship of V (f)t 1(F) is obtained and this is converted into an initial value vectort 1 (0)(F). (S3-32).
This vectort 1 (0)Is an orthogonal vector that already achieves separation if the constraints are given correctlyt 1When the reliability of the constraint condition is low, the separation capability is low, but the direction is close to a correct vector, that is, a vector perpendicular to the axis A in the example shown in FIG. Therefore, this vector is the initial valuet 1 (0)Good and fast convergence can be obtained by using it in (f). Prior frequency response informationH 1As (f), as described in the conventional adaptive beamformer method, the direction (target signal arrival direction) θ of the target signal source is known and Hj1(F) = exp (j2πfτj1), Τj1= (Dj/ C) sin θ1May have been calculated or previously measured.
[0022]
The ICA processing unit 63b has a signal matrix.Z(F, m), initial valuet 1 (0)(F), whitening matrixV(F) is input and the ICA method is used to increase the non-Gaussianity of the output signal.t 1Is updated (S3-33). As a result, the vector that performs the best separation of the output signal regardless of the constraint condition of Equation (10).t 1Can be estimated.
Vector updated by norm update unit 63ct 1(f), whitening matrixV(F), prior informationH 1Enter (f), updated vectort 1The length (norm) of the vector is changed so that satisfies the constraint condition (10) (S3-34). This is the vector estimated by the ICA processing unit 63bt 1Change the length of the vector without changing the direction oft 1May be changed so as to satisfy the constraint condition of Expression (10). Equation (10) is a condition that the frequency response from the target signal to the output signal, that is, the frequency response from the target signal source to the output terminal of the target signal extraction device is 1 at all frequencies. Is a condition for output without distortion. Therefore, a vector that satisfies the constraint condition of equation (10)t 1All the frequency components separated by the above are components of the same target signal. In other words, the orthogonal matrix of equation (7)TThe first line of (f) generates an output corresponding to the target signal at all frequencies, so that no Permutation problem occurs.
[0023]
After the norm change, the convergence determination unit 63d uses the vectort 1The convergence state of (f) is determined (S3-35). Vector that is necessary to separate and extract the target signal when it is sufficiently convergedt 1The convergence result of is output. The vector, if not yet convergedt 1(f) is input again to the ICA processing unit 63b through the switch unit 63e, that is, the process returns to step S3-33, and steps S3-33 to S3-35 are repeated.
Converged orthogonal vectort 1(f) and whitening matrixV(F) is input to the post-whitening unit 33, and the post-whitening separated vectorw 1(f) is calculated (S3-4).
Similarly, if there are multiple target signals, separate vectors corresponding to each target signalw iThat is, the separation matrixW(F) is obtained. This separation matrixW(F) and signal matrixX(F, m) is input to the separation calculation unit 27 and the target signal matrix separated by calculating Expression (4)Y(F, m) is calculated (S4), and the calculation result is converted into a time domain signal by, for example, inverse Fourier transform in the time domain conversion unit 24, and each separated target signal y is calculated.1(n), y2(n) is obtained (S5).
[0024]
Or separation matrix obtained by whitening after the factW(F) is converted into a filter coefficient group w by, for example, inverse Fourier transform in the time domain transform unit 25.ij(S6) and the separation filter group 26 uses the observation signal xjThe target signal y separated by convolving the corresponding filter coefficient with respect to (n)1(n), y2(n) may be obtained (S7).
According to this embodiment, the structure which can solve the subject of this invention is explained below.
A mechanism for solving the problems of the present invention by the processing described above will be described with reference to FIG. The points represented in gray are the whitened signal Z1With (f, m) on the horizontal axis, Z2(f, m) is plotted on the vertical axis, the alternate long and short dash line 46 represents the constraint condition, the broken line 47 represents the separation vector estimated by the adaptive beamformer method, and the initial value of this embodiment.t 1 (0)The solid line 48 represents the orthogonal vector obtained by this embodiment.t 1As in the case shown in FIG. 12A, the axis A and the solid line vectort 1When they intersect perpendicularly, the jamming signal is most suppressed.
[0025]
(1) Orthogonal matrix in conventional ICA BSSTSince the maximization problem is solved under the constraint condition (circle 41 in FIG. 4) in which the norm of (f) is 1, two vectors a perpendicular to each other and one of which is perpendicular to the axis A shown in FIG. And b are vectorst 1It is uncertain as to This uncertainty was a problem with Permutation.
In this embodiment, Expression (10) is used as a constraint condition. This is because the frequency response between the target signal and the output signal is 1 at all frequencies, that is, the target signal is output without distortion. It is a condition. Therefore, a vector that satisfies the constraint conditiont 1Makes it possible to generate the target signal at all frequencies.
In other words, the orthogonal matrix of equation (7)TThe first line of (f) corresponds to the target signal at all frequencies, and no Permutation problem occurs.
[0026]
vectort 1In each iteration of the above iterative processt 1The length (norm) of the vector is determined so that the vector satisfies the constraint condition of Equation (10). However, even if the constraint condition is slightly different from the actual condition, the constraint condition is determined from the line B as in the example shown in FIG. Is nearly parallel to axis A, so in most cases the vector perpendicular to axis A is the final orthogonal vectort 1It is obtained as That is, even if the constraint conditions are slightly different from the actual conditions, the permutation problem does not occur.
The initial valuet 1 (0)When using what is obtained by the adaptive beamformer method, learning can be started from a vector close to the axis A even if the constraint condition is slightly different from the actual condition, which contributes to solving the problem of Permutation. ing.
[0027]
(2) In the adaptive beamformer method, when the target signal direction is wrong and the constraint condition is given, the interference signal removal capability is lowered. At this time, as shown in FIG.t 1And axis A did not intersect vertically.
The ICA processing unit 63b uses the ICA method in step S3-33 in FIG.t 1Update, vectort 1Is updated so as to approach a direction perpendicular to the axis A or the axis B like the vectors α or β shown in FIG. Here, since the Permutation problem has been solved,t 1Converges in a direction perpendicular to axis A.
In this invention, the ICA method is used for each update.t 1In order to satisfy the constraint condition after approaching in the direction perpendicular to axis At 1Because the operation to change the length oft 1Approaches in a direction perpendicular to axis A.
As a result, even if the reliability of the constraint condition is low, the vector in the direction perpendicular to the axis A is the final separation vector.t 1Will be asked for.
[0028]
Example
  Here, the objective function Γ (f) = E {G (| t1 HZ |2)}, An embodiment of the present invention will be described. Here, G is a non-linear function, and G (z) = log (a + z), G (z) = √ (a + z) (a is a constant), etc. are often used.
  First, in the initial value calculation unit 63a (step S3-32), the orthogonal vector t1Initial value t of (f)1 (0)Select (f). Initial value t1 (0)Although any value can be used for (f), the vector obtained by the conventional adaptive beamformer method shown in FIG. 12 has a low separation ability but is close to the solution, so this is used as an initial value. Thus, good and fast convergence can be obtained. This initial value vector t1 (0)(f) is the whitening matrix V (f) and the known frequency response H between the target signal source and the sensor.1Using (f) and the whitened signal Z (f), it can be obtained by calculation of the following equation (11).
[Expression 2]
Figure 0003949074
  Where Rz(f) is the covariance matrix R of Z (f)z(f) =E [Z (f) Z H ( f ) ]And E [] represents the average.
  This vector t1 (0)(f) is obtained by the standard used in the conventional adaptive beamformer method (minimization of the error signal in the time when only the interfering signal exists), and separation is already achieved when the constraint condition is given correctly. Orthogonal vector t1It becomes the same as (f), and when the reliability of the constraint condition is low, the separation ability is low but the vector is near the solution.
[0029]
Next, in the ICA processing unit 63b (step S3-33), the vectort 1Update. Objective function Γ (f) = E {G (|t 1 H Z2)} Is maximized by the following update equation (12).
[Equation 3]
Figure 0003949074
G (z) is the derivative of the nonlinear function G (z) with respect to z, and the value in the subscript () represents the number of updates.
[0030]
Next, in the norm update unit 63c (step S3-34), the vectort 1Vector with changing lengtht 1To satisfy the constraint of equation (10). This can be realized by the following equation (13).
[Expression 4]
Figure 0003949074
Next, convergence determination is performed by the determination unit 63d (step S3-35). Vector if not yet convergedt 1Repeat update and length change. If it is sufficiently converged, it is necessary to separate and extract the target signal.t 1The convergence result of is output.
[0031]
An object signal extraction device according to the present invention can be composed of a computer having a CPU, a memory, and the like, a user terminal, and a readable recording medium such as a CD-ROM, DVD-ROM, magnetic disk device, and semiconductor memory. . Prior information on the target signal recorded on the recording mediumH 1(f) and the target signal extraction program recorded on the recording medium or the target signal extraction program transmitted through the line are read by the computer, and each process described above is realized on the computer.
The present invention can be applied not only to extraction of a target sound source signal but also to extraction of a signal of a target radio wave source. In this case, an antenna is used as a sensor, and an observation signal from the antenna is generally converted into baseband and sampled. Processed as a digital signal sequence.
[0032]
【The invention's effect】
A solid line 48 in FIG. 4 indicates an orthogonal vector estimated using the inventive method when the target signal direction is wrong and a constraint condition is given.t 1Is shown. A vector perpendicular to axis A is estimated. As described above, a vector that can provide sufficient suppression performance even when the target signal direction is wrong and a constraint condition is given is estimated, and the effectiveness of the present invention can be understood.
FIG. 5 shows the output terminal 141, The target signal-to-interference signal ratio (SIR) at each frequency is indicated in dB. If the value is positive, the target signal is output to the output terminal 14.1If the value is negative, a permutation problem occurs and the disturbing signal is output to the output terminal 14.1It shows that it is obtained.
[0033]
FIG. 5A shows an output terminal 14 when the conventional ICA method is used.1SIR at each frequency of the obtained signal. Since there are no constraints on the target signal, the problem of Permutation is significant.
FIGS. 5B and 5C respectively show the output terminal 14 when the method of the present invention is used.1SIR at each frequency of the obtained signal. FIG. 5 (b) shows no reverberation, and the direction of the target signal is given 20 degrees from the correct angle. FIG. 5 (c) shows the case where the direction of the target signal is given correctly but there is reverberation. Is the result of That is, both FIGS. 5B and 5C are in a situation where an accurate constraint condition cannot be given. However, according to the method of the present invention, positive SIR values are obtained at almost all frequencies, and the Permutation problem hardly occurs, so that it can be understood that the method of the present invention is effective.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a functional configuration example of an apparatus according to the present invention.
FIG. 2 is a flowchart showing an example of a processing procedure according to an embodiment of the method of the present invention.
FIG. 3 is a block diagram illustrating a specific functional configuration example of a separation matrix estimation unit in FIG. 1;
FIG. 4 is a view for explaining a mechanism by which the method of the present invention solves the problem.
FIG. 5 is a diagram showing the effect of the invention.
FIG. 6 is a diagram showing a model of blind sound source separation (BSS) by the ICA method.
FIG. 7 is a block diagram showing a functional configuration of a frequency domain BSS by a conventional ICA method.
8 is a block diagram showing a detailed functional configuration of a conventional separation matrix estimation unit 22 in FIG.
FIG. 9 is a diagram for explaining a problem of permutation.
FIG. 10 is a block diagram showing a functional configuration of a conventional adaptive beamformer method.
FIG. 11 is a diagram showing the arrangement of signal sources and sensors for explaining parameters used in the adaptive beamformer method.
FIG. 12 is a diagram showing a solution obtained by an adaptive beamformer method.

Claims (7)

複数の方向から到来する信号を複数のセンサで観測し、これら複数のセンサからの観測信号に基づき周波数領域でのブラインド信号分離方法を用いて目的信号を抽出する方法であって、
上記センサからの観測信号を周波数領域の信号に変換する手順と、
上記周波数領域の信号から、独立成分分析により各周波数での分離行列を算出する手順と、
上記分離行列と上記周波数領域の信号とを乗算し、その乗算結果を時間領域の信号に変換して目的信号を得る手順又は上記分離行列を時間領域の周波数応答に変換し、その周波数応答を上記観測信号に畳み込んで目的信号を得る手順を有し、
上記分離行列を算出する手順は、
目的信号源とセンサ間の周波数領域での周波数応答の事前知識を用いて、目的信号が歪み無く抽出される拘束条件を満す分離ベクトルを
Figure 0003949074
より計算して分離ベクトルの初期値 1(0) (f)とする手順と、
ここで、fは周波数を表し、R z ( ) はZ(f)の共分散行列R z ( ) =E[Z(f)Z H ( ) ]を表し、Z(f)は白色化された信号を表し、E [ ] は平均を表わし、Z H ( ) はZ(f)のエルミート共役を表し、V(f)は白色化行列を表し、H (f)は目的信号源とセンサ間の既知の周波数応答を表し、A T は行列Aの転置行列を表し、
上記分離ベクトルの初期値 1(0) (f)を、独立成分分析により、出力信号の非ガウス性をより高めるように
Figure 0003949074
より更新する手順と、
ここで、t 1(k+1) は更新後の分離ベクトルの初期値を表し、t 1(k) は更新前の分離ベクトルの初期値を表し、g(z)は非線型関数G(z)のzに関する微分を表し、kは更新回数を表し、
上記更新したベクトルをそのノルムが上記拘束条件を満すように、変更後の分離ベクトルの初期値t 1(k+1)new
Figure 0003949074
より求めて上記分離行列の一成分とする手順とを有することを特徴とする目的信号抽出方法。
A method of observing signals arriving from a plurality of directions with a plurality of sensors and extracting a target signal using a blind signal separation method in a frequency domain based on the observation signals from the plurality of sensors,
A procedure for converting the observation signal from the sensor into a signal in the frequency domain;
A procedure for calculating a separation matrix at each frequency by independent component analysis from the frequency domain signal,
Multiplying the separation matrix and the frequency domain signal, converting the multiplication result into a time domain signal to obtain a target signal, or converting the separation matrix into a time domain frequency response, and converting the frequency response to the above Having a procedure to obtain the target signal by convolving with the observation signal,
The procedure for calculating the separation matrix is as follows:
Using the prior knowledge of the frequency response in the frequency domain between the target signal source and the sensor, a separation vector that satisfies the constraint that the target signal is extracted without distortion
Figure 0003949074
A procedure for calculating the initial value t 1 (0) (f) of the separation vector from
Here, f represents a frequency, R z ( f ) represents a covariance matrix R z ( f ) = E [Z (f) Z H ( f ) ] of Z (f), and Z (f) is white E [] represents the mean, Z H ( f ) represents the Hermitian conjugate of Z (f), V (f) represents the whitening matrix, and H 1 (f) represents the target signal Represents the known frequency response between the source and the sensor, A T represents the transpose of matrix A,
The initial value t 1 (0) (f) of the separation vector is increased by the independent component analysis so as to further increase the non-Gaussianity of the output signal.
Figure 0003949074
More updates ,
Here, t 1 (k + 1) represents the initial value of the separation vector after update, t 1 (k) represents the initial value of the separation vector before update, and g (z) represents the nonlinear function G (z). represents the derivative with respect to z, k represents the number of updates,
For the updated vector, an initial value t 1 (k + 1) new of the changed separation vector is set so that the norm satisfies the constraint condition.
Figure 0003949074
Target signal extracting method characterized by having a step of a more determined a component of the separation matrix.
上記事前知識は、上記目的信号源に対する与えられた方位に基づき、上記複数のセンサ間の観測信号到達遅延時間を求め、その遅延時間を用いて上記周波数応答を求めたものであることを特徴とする請求項1記載の目的信号抽出方法。  The prior knowledge is obtained by obtaining an observation signal arrival delay time between the plurality of sensors based on a given direction with respect to the target signal source, and obtaining the frequency response using the delay time. The target signal extraction method according to claim 1. 上記事前知識は、上記目的信号源とセンサ間の周波数応答を予め測定したものであることを特徴とする請求項1記載の目的信号抽出方法。  2. The target signal extraction method according to claim 1, wherein the prior knowledge is obtained by measuring a frequency response between the target signal source and the sensor in advance. 上記ノルムを変更したベクトルを分離行列の一成分とする前に、その変更したベクトルが十分収束したか判定し、収束が十分でなければ上記そのベクトルを上記初期値として、上記非ガウス性をより高める手順に戻り、収束が十分であれば、上記分離行列の一成分とする手順を含むことを特徴とする請求項1〜3の何れかに記載の目的信号抽出方法。  Before the vector whose norm has been changed is made one component of the separation matrix, it is determined whether the changed vector has sufficiently converged. If the convergence is not sufficient, the vector is used as the initial value, and the non-Gaussian property is further improved. The method for extracting a target signal according to any one of claims 1 to 3, further comprising a step of setting the separation matrix as one component if the convergence is sufficient when returning to the step of increasing. 複数のセンサからの観測信号が入力され、これら観測信号を周波数領域の信号に変換する周波数領域変換部と、
上記信号が入力され、その信号から独立成分分析により各周波数での分離行列を算出する分離行列推定部と、
上記信号及び上記分離行列が入力され、これらを演算して周波数ごとに目的信号を分離した分離信号行列を計算する分離演算部及び上記分離信号行列を時間領域信号に変換して抽出した目的信号を得る時間領域変換部、又は上記分離行列が入力され、これを時間領域の分離フィルタ信号群に変換する時間領域変換部及び上記分離フィルタ信号群と上記観測信号が入力されてフィルタ処理により抽出した目的信号を出力する分離フィルタ部と、
を具備する装置であって、
上記分離行列推定部は、
目的信号源とセンサ間の周波数領域での周波数応答を事前知識として保持する事前知識保持部と、
上記事前知識、上記信号とから、目的信号が歪み無く抽出される拘束条件を満す分離ベクトルを
Figure 0003949074
より計算して分離ベクトルの初期値t 1(0) (f)とする初期値計算部と、
ここで、fは周波数を表し、R z ( ) はZ(f)の共分散行列R z ( ) =E[Z(f)Z H ( ) ]を表し、Z(f)は白色化された信号を表し、E [ ] は平均を表わし、Z H ( ) はZ(f)のエルミート共役を表し、V(f)は白色化行列を表し、H (f)は目的信号源とセンサ間の既知の周波数応答を表し、A T は行列Aの転置行列を表し、
上記初期値 1(0) (f)、上記信号から、これらを変数とする目的関数を最大化するように、上記初期値 1(0) (f)
Figure 0003949074
より更新したベクトルを求める独立成分分析処理部と、ここで、t 1(k+1) は更新後の分離ベクトルの初期値を表し、t 1(k) は更新前の分離ベクトルの初期値を表し、g(z)は非線型関数G(z)のzに関する微分を表し、kは更新回数を表し、
上記変更されたベクトルのノルムを上記拘束条件を満すように、変更後の分離ベクトルの初期値t 1(k+1)new
Figure 0003949074
より求めて上記分離行列の一成分としての分離ベクトルを出力するノルム更新部とを備えることを特徴とする目的信号抽出装置。
A frequency domain converter that receives observation signals from a plurality of sensors and converts these observation signals into signals in the frequency domain;
A separation matrix estimator that receives the signal and calculates a separation matrix at each frequency by independent component analysis from the signal;
The above signal and the above separation matrix are input, a separation calculation unit for calculating a separation signal matrix obtained by calculating and separating the target signal for each frequency, and a target signal extracted by converting the separation signal matrix into a time domain signal. The time domain transform unit to be obtained, or the time domain transform unit that receives the separation matrix and converts the matrix into the time domain separation filter signal group, and the object that the separation filter signal group and the observation signal are input and extracted by filtering A separation filter unit for outputting a signal;
A device comprising:
The separation matrix estimation unit
A prior knowledge holding unit that holds the frequency response in the frequency domain between the target signal source and the sensor as prior knowledge;
From the above prior knowledge and the above signal, a separation vector that satisfies the constraint that the target signal is extracted without distortion
Figure 0003949074
An initial value calculator that calculates the initial value t 1 (0) (f) of the separation vector from
Here, f represents a frequency, R z ( f ) represents a covariance matrix R z ( f ) = E [Z (f) Z H ( f ) ] of Z (f), and Z (f) is white E [] represents the mean, Z H ( f ) represents the Hermitian conjugate of Z (f), V (f) represents the whitening matrix, and H 1 (f) represents the target signal Represents the known frequency response between the source and the sensor, A T represents the transpose of matrix A,
The initial value t 1 (0) (f) and the initial value t 1 (0) (f) are set so as to maximize the objective function having these as variables from the signal.
Figure 0003949074
An independent component analysis processing unit for obtaining a more updated vector, where t 1 (k + 1) represents an initial value of the separation vector after update, and t 1 (k) represents an initial value of the separation vector before update, g (z) represents the derivative of the nonlinear function G (z) with respect to z, k represents the number of updates,
The initial value t 1 (k + 1) new of the changed separation vector is set so that the norm of the changed vector satisfies the constraint condition.
Figure 0003949074
And a norm update unit that outputs a separation vector as one component of the separation matrix.
請求項1〜4の少なくとも何れか1つに記載した目的信号抽出方法の各手順をコンピュータに実行させるための目的信号抽出プログラム。  A target signal extraction program for causing a computer to execute each procedure of the target signal extraction method according to claim 1. 請求項6に記載した目的信号抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。  A computer-readable recording medium on which the target signal extraction program according to claim 6 is recorded.
JP2003094840A 2003-03-31 2003-03-31 Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof Expired - Fee Related JP3949074B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003094840A JP3949074B2 (en) 2003-03-31 2003-03-31 Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003094840A JP3949074B2 (en) 2003-03-31 2003-03-31 Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof

Publications (2)

Publication Number Publication Date
JP2004302122A JP2004302122A (en) 2004-10-28
JP3949074B2 true JP3949074B2 (en) 2007-07-25

Family

ID=33407322

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003094840A Expired - Fee Related JP3949074B2 (en) 2003-03-31 2003-03-31 Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof

Country Status (1)

Country Link
JP (1) JP3949074B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4525071B2 (en) * 2003-12-22 2010-08-18 日本電気株式会社 Signal separation method, signal separation system, and signal separation program
JP4449871B2 (en) 2005-01-26 2010-04-14 ソニー株式会社 Audio signal separation apparatus and method
JP4714892B2 (en) * 2005-04-28 2011-06-29 財団法人北九州産業学術推進機構 High reverberation blind signal separation apparatus and method
JP4666150B2 (en) * 2005-05-31 2011-04-06 日本電気株式会社 MIMO receiving apparatus, receiving method, and radio communication system
JP4556875B2 (en) 2006-01-18 2010-10-06 ソニー株式会社 Audio signal separation apparatus and method
WO2008072566A1 (en) 2006-12-12 2008-06-19 Nec Corporation Signal separation reproduction device and signal separation reproduction method
JP5163063B2 (en) * 2007-11-09 2013-03-13 ブラザー工業株式会社 Wireless tag communication device
JP5642339B2 (en) 2008-03-11 2014-12-17 トヨタ自動車株式会社 Signal separation device and signal separation method
JP5263020B2 (en) * 2009-06-12 2013-08-14 ヤマハ株式会社 Signal processing device
CN115662409B (en) * 2022-10-27 2023-05-05 亿铸科技(杭州)有限责任公司 Voice recognition method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP2004302122A (en) 2004-10-28

Similar Documents

Publication Publication Date Title
JP3522954B2 (en) Microphone array input type speech recognition apparatus and method
Wang et al. Over-determined source separation and localization using distributed microphones
US8874439B2 (en) Systems and methods for blind source signal separation
KR20090033716A (en) Method and apparatus for identifying sound source from mixed sound
JP2017044916A (en) Sound source identifying apparatus and sound source identifying method
JP3949074B2 (en) Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof
CN110544490A (en) sound source positioning method based on Gaussian mixture model and spatial power spectrum characteristics
Rao et al. A denoising approach to multisensor signal estimation
CN110890099B (en) Sound signal processing method, device and storage medium
Hoang et al. Joint maximum likelihood estimation of power spectral densities and relative acoustic transfer functions for acoustic beamforming
Douglas Blind separation of acoustic signals
CN110706709B (en) Multi-channel convolution aliasing voice channel estimation method combined with video signal
JP2022500710A (en) Combined sound source localization and separation method for acoustic sources
JP5235725B2 (en) Utterance direction estimation apparatus, method and program
Jafari et al. Sparse coding for convolutive blind audio source separation
KR100653173B1 (en) Multi-channel blind source separation mechanism for solving the permutation ambiguity
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
Li et al. Low complex accurate multi-source RTF estimation
JP2003078423A (en) Processor for separating blind signal
Bai et al. Acoustic source localization and deconvolution-based separation
JP6285855B2 (en) Filter coefficient calculation apparatus, audio reproduction apparatus, filter coefficient calculation method, and program
JP4113169B2 (en) Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium
Huang et al. Speaker localization with smoothing generalized cross correlation based on naive bayes classifier
JP2007178590A (en) Object signal extracting device and method therefor, and program
Koren et al. Supervised system identification based on local PCA models

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041220

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100427

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120427

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees