CN101667425A - 一种对卷积混叠语音信号进行盲源分离的方法 - Google Patents

一种对卷积混叠语音信号进行盲源分离的方法 Download PDF

Info

Publication number
CN101667425A
CN101667425A CN200910018960A CN200910018960A CN101667425A CN 101667425 A CN101667425 A CN 101667425A CN 200910018960 A CN200910018960 A CN 200910018960A CN 200910018960 A CN200910018960 A CN 200910018960A CN 101667425 A CN101667425 A CN 101667425A
Authority
CN
China
Prior art keywords
signal
frequency
matrix
frequency range
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910018960A
Other languages
English (en)
Inventor
刘琚
刘清菊
杜军
董治强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN200910018960A priority Critical patent/CN101667425A/zh
Publication of CN101667425A publication Critical patent/CN101667425A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供了一种对卷积混叠语音信号盲源分离的方法,将时域的卷积混叠模型转化为频域的多通道线性瞬时混叠模型。首先将卷积混叠的时域信号变换到频域,之后对各个通道进行相互独立的ICA运算并得到独立成分。接下来用MSBR方进行重列:首先将不同频段的信号进行分类,然后分步骤根据不同的目标函数渐进得转置矩阵,重列的各个步骤相互补充。MSBR算法利用谐波频率的强相关性提高迭代准确率,根据相邻频段和对应基准频率的连续性解决剩余频段的剩余不确定性,MSBR算法计算复杂度近似正比于基准频率段的个数。本发明提高了收敛效率,还提高了准确度,更适合实时处理,使卷积混叠语音信号的分离性能良好,在真实语音环境中也可以应用。

Description

一种对卷积混叠语音信号进行盲源分离的方法
技术领域
本发明涉及一种无信道状态参数下多输入多输出(MIMO)系统中对卷积混叠语音信号进行盲源分离的方法,可以广泛的应用于神经网络、多天线系统,尤其是语音信号处理方面。
背景技术
语音信号的盲源分离(BSS)是近期的一个研究热点,真实语音环境可以近似成一个卷积混叠模型,所以对卷积混叠语音信号BSS提出了更高的要求。
传统的卷积混叠语音信号BSS算法一般可以分为两大类:
1.直接在时间域进行反卷积;
2.变换到如小波域或频域等其他变换域进行处理。
由于滤波系数可能很多,第一类算法需要进行大量的卷积运算,而且可能导致收敛到奇异点或甚至不能收敛,所以现在对于语音信号BSS一般采取第二种方式。
“Blind Separation of Convolved Mixtures in the Frequency Domain,”Neurocomput.,vol.22,pp.21-34,1998(“频域卷积信号的盲源分离”,《神经计算》,ISSN:0925-2312,22:21-34,1998)上研究证明了在频域进行BSS的可实现性并指出:时域内的卷积混叠模型对应着频域的线性瞬时混叠模型,并且在频域处理有更高的效率和更好的收敛性能。
独立分量分析(ICA)是频域BSS中的一个重要工具,但是它存在着两个不确定性,顺序不确定性和幅度不确定性。顺序不确定性可以导致在进行傅立叶反变换时,某个恢复信号实际包含其他信号的某个频段内的信息而丢失自己在相应频段里的信息,从而最终导致结果恶化。所以如何通过对频域信号重新排列来消除顺序不确定性是卷积混叠语音信号盲源分离的一个研究热点。
当前消除顺序不确定性的重列算法主要有如下几大类:
1.利用相邻带内的信号相关性如包络相关;
2.利用分离矩阵的波束形成理论,如波达方向估计(DOA);
3.根据信号的统计特性进行估计如参数估计等等。
根据相关性进行重列计算量不大,但是如果在某一个频段内判断错误,那么接下来的频段可能都会跟着错误而导致结果恶化;DOA方式利用了波束形成理论,原理较为清晰简单,但是“A Robust and Precise Method for Solving the Permutation Problem ofFrequency-Domain Blind Source Separation,”IEEE Trans.Speech and Audio Process.,vol.12,issue 5,pp.530-538,Sept.2004.(“一种解决频域盲源分离不确定性问题的稳健准确算法”,《IEEE语言与音频处理汇刊》,ISSN:1063-6676,12(5):530-538,09/2004。)上指出了其下几个缺点:低频估计不准确,计算量大,源信号个数较多时估计准确性大大降低,而且在波达方向一致的情况下,该方法失效;而第三类方法不但计算量大,而且对噪声非常敏感。
发明内容
本发明针对现有语音信号BSS的不确定性问题,提供一种无信道状态信息条件下能够提高MIMO系统分离性能的对卷积混叠语音信号进行盲源分离的方法。
本发明对卷积混叠语音信号进行盲源分离的方法是:
将卷积混叠的时域信号变换到频域进行独立成份分析(ICA)并用多步骤基准重列(MSBR)算法进行重列。MSBR算法首先对所有频段进行分类,然后分步骤根据不同的目标函数得到重列的转置矩阵,重列的各个步骤相互补充,最后将频域信号反变换到时域恢复原始语音信号。
卷积混叠信号的模型为:其中hpk(l)是在延迟l上第k个源信号sk(t)到第p个传感器信号xp(t)的冲激响应。
本发明用到了一种基于高阶统计量(HOS)的ICA算法,对源信号提出以下的限制:相互独立;最多有一个是高斯信号;H(l)必须是列满秩的。
语音信号的盲源分离(BSS)的目的就是通过下式求出源信号估计:
y i ( t ) = Σ l = 0 L - 1 Σ p = 1 P w ip ( l ) x p ( t - l ) = Σ τ α i ( τ ) s Π ( i ) ( t - τ ) - - - ( 1 )
其中wip(l)是需要得到的分离滤波器在延迟l上的冲激响应,∏(·)表示最终分离信号yi(t)和原始观测信号s∏(i)(t)的一一对应关系(对应一个转置矩阵),而αi(τ)是FIR滤波器冲激响应,理想分离情况下为一个单位冲激函数。
(1)式简化写成矩阵形式为:
y ( t ) = Σ l = 0 L - 1 W ( l ) x ( t - l ) = Σ τ α ( τ ) s ( t - τ ) - - - ( 2 )
其中源向量s(t)=[s1(t),s2(t),...,sK(t)]T,观测向量x(t)=[x1(t),x2(t),...,xP(t)]T,分离向量y(t)=[y1(t),y2(t),...,yK(t)]T,上标″T″表示转置,W(l)对应延迟l上的时域K×P分离矩阵。
本发明对卷积混叠语音信号进行盲源分离的方法具体包括以下过程:
(I)将卷积混叠的信号进行离散时间傅立叶变换(DTFT):
X i ( f , t ) = Σ τ = t - L 2 τ = t + L 2 - 1 win ( τ - t ) x i ( τ ) e - j 2 πf ( τ - t ) - - - ( 3 )
其中f=((l-1)/L)fs,l=1,2,...,L,fs为采样频率,win(τ)是一个中心为零点长度为L的窗函数,它可以起到频谱平滑作用。
真实环境下由于混响衍射以及回声的作用,语音数据卷积混叠模型中都带有数以千计的FIR滤波器抽头系数。分离滤波器时域上的每一个延时都对应着频域上的一个频段,为了能够最大精度的获得分离滤波器每一个系数,要进行数千点的DTFT。为了利用快速傅立叶变换(FFT)中的维特比(Viterbi)算法,频段数最好是L=2N,所以仿真试验中采用了加汉明窗的L=2048点STFT,其中的交迭系数为0.75。
(II)在各个频域段内进行相互独立的独立分量分析(ICA)运算
卷积混叠信号的BSS大部分计算量都消耗在ICA上,而且其收敛与否决定了BSS是否成功,所以选取一个快速有效的ICA算法非常重要。大部分算法无论是基于最大似然度(ML)还是基于最小化互信息(MMI)基本使用了梯度算法,收敛速度并不是非常快。
本发明利用了“Blind Beamforming and Maximum Ratio Combining by KurtosisMaximization for Source Separation in Multipath,”in Third IEEE Workshop on SPAWC,Taoyuan,Taiwan,pp.243-246,Mar.2001.(“多通道盲源分离中应用峭度最大化进行盲波束形成和最大比合并”,2001第三届IEEE_SPAWC研讨会,台湾桃园,243-246,03/2001。)中提出的快速峭度最大化算法(FKMA),这是一种指数收敛迭代算法和梯度收敛迭代算法的结合体。它的目标函数是在频段f寻找一个最优分离向量wi(f)使每次迭代都最大化Yi(f,t)的归一化峭度:
J ( w i ( f ) ) = J ( Y i ( f , t ) ) = C 4 ( Y i ( f , t ) ) ( E ( | Y i ( f , t ) | 2 ) ) 2 - - - ( 4 )
其中J(·)表示目标函数,Yi(f,t)=wi(f)X(f,t),E(·)表示期望,C4(·)表示四阶峭度,而且C4(u(n))=E{|u(n)|4}-2(E(|u(n)|2))2-|E(u2(n))|2。为了最大化目标函数(4),下式(5)给出了一种指数速率的收敛操作:
w i ( f ) ← R xf - 1 d ( e ( f , t ) ) | | R xf - 1 d ( e ( f , t ) ) | | - - - ( 5 )
其中,e(f,t)=wi(f)TX(f,t),Rxf是X(f,t)的相关矩阵,
d(e(f,t))=E(|e(f,t)|2e(f,t)X(f,t))-3E(|e(f,t)|2)E(e(f,t)X(f,t))                (6)
如果(5)中指数速率的操作不能保证(4)收敛时,一种梯度收敛算法就代替指数收敛。
如果传感器数目大于源信号数目(P>K),那么主成分分析(PCA)就要在ICA之前应用。它不但可以降低噪声,还可以大大降少计算量,因为FKMA的计算量和需要进行分离的信号数目成正比。
同一语音信号在相邻的频段内有非常大的相似性,无论是它的包络(如图2所示)或者分离矩阵W(f)=[w1(f),w2(f),...,wK(f)]T。也就是说W(fl-1)、W(fl)、W(fl+1)等之间有非常大的相关性,实际上,如果频段划分比较细,在不产生顺序不确定性的理想情况下,它们基本上变化很微小。所以和X(t,fl)相比,W(fl-1)X(t,fl)更接近于相互独立。所以对W(fl-1)X(t,fl)进行ICA得到的分离矩阵就比较接近于一个单位阵或一个转置矩阵。而且可以选取单位阵作为初始矩阵,由于该单位阵比较接近于最终的分离矩阵,所以收敛过程中的迭代次数降低了,从而节省了大量的计算量。
利用FFT的对称性,只要进行L/2次ICA运算即可。
(III)使用多步骤基准重列算法(MSBR)对频域的ICA分离数据进行重列
A步骤:解决预先确立的基准频率的顺序不确定性
选取fb=0,(M/L)fs,(2M/L)fs,...,((L-1)/L)fs为基准频率,其中M是一个正奇数(如M=5)。这样使fb为一系列的谐波频率,其中基波为(M/L)fs,而谐波又有更强的相关性,可以提高整体的正确率。
“Amplitude Modulation Decorrelation for Convolutive Blind SourceSeparation,”in Proc.of ICA 2000 Conf.,Helsinki,Finland,pp.215-220,June 2000.(“卷积盲源分离中利用幅度调制进行反卷积”,《2000年ICA会议论文集》,芬兰赫尔辛基,215-220,06/2000。)中研究发现如下准则:对于语音信号,在不同的频段内能量在时间上呈现一个相似的变化,只是幅度系数可能不同。利用该相似性,先求得恢复信号零均值的功率轮廓对数:
E ( i , f , t ) log ( Y i ( f , t ) Y t * ( f , t ) ) - mean ( log ( Y i ( f , t ) Y i * ( f , t ) ) ) - - - ( 7 )
将(7)式中心化是为了减少时间均值对相关系数的影响。
然后利用“Blind Separation of Speech Mixtures Based on Nonstationarity”inProc.of ISSPA 2003 Conf.,Paris,France,73-76,July 2003.(“基于非平稳性的语音盲分离”,《2003年ISSPA会议论文集》,法国巴黎,73-76,07/2003。)中提出的一个目标函数:
Σ i = 1 i = K | | E ( Π ( i ) , f b , t ) - E i ( · ) | | 2 - - - ( 8 )
其中‖·‖示向量的欧几里德范数,Ei(·)表示频域上第i个源信号的功率轮廓,它可以通过对E(∏(i),fb,t)在所有频段上求均值得到。以迭代方式最大化该函数就可以求得在该基准频率上的∏(·),从而得到转置矩阵P(fb)。
之后通过转置矩阵P(fb)对分离矩阵W(fb)和相应的分离数据Y(fb,t)重列。
上述A步骤的计算量正比于基准频率段的个数L/M。
B步骤:解决基准频率临近的频段的顺序不确定性
经过A步骤还有(1-1/M)L个频段未解决不确定性,该算法根据相邻分离矩阵的相似性,以A骤中的fb为基准,对剩下的频段重新排序。以第j个基准频段fbj=((j-1)M/L)fs为例,它的临近频段为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,…,fbj+(M+1)/2。令fbj+l=(((j-1)M+l)/L)fs
在对频段fbj+l进行重列时,先求出该频段分离信号的分离矩阵W(fbj+l),然后列举出其所有可能的(K!个)转置P(fbj+l)W(fbj+l),接着求出W(fbj)和(P(fbj+l)W(fbj+l))T的相关阵Cbj+l,其中W(fbj)是基准频段fbj处的分离矩阵。则Cmn bj+l表示W(fbj)的第m行向量和P(fbj+l)W(fbj+l)的第n行向量的相关系数。如果fbj+l处分离信号和基准频率fbj处一致的话,那么Cbj+l应该近似于一个对角阵,所以可以通过最小化下面的目标函数得到最终的转置矩阵P(fbj+l):
Σ m = 1 K 1 | C mm bj + l | 2 Σ n ≠ m K | C mn bj + l | 2 - - - ( 9 )
接下来验证该转置矩阵的准确性:若min|Cmm bj+l|,(m=1,...K)大于一个预先设定的门限值(比如0.6)且max|Cmn bj+l|,(m,n=1,...K,m≠n)小于另外一个门限值(比如0.4),那么通过此转置矩阵对频域信号进行重列就是准确的。否则的话,进入C步骤再次排序。
之后通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列。
上述B步骤的计算量正比于基准频率临近的频段的总个数(1-1/M)L,但是相对于A步骤针对时间序列的迭代算法,B步骤针对分离矩阵的单次操作计算量非常低(比例系数非常低),所以B步骤计算量相对A步骤可以忽略。
C步骤:通过信号包络的连续性解决剩余频段的顺序不确定性。
该步骤实际上是在B步骤不能保证精度的情况下的一种补充。根据临近频段包络的相关性,可以找到一种鲁棒性很强的算法。首先设计一个低通滤波器,对于频段fbj+l和其相应的基准频段fbj,得到分离语音的上包络(如图3所示):
En ( i , f , t ) = envelope ( Y i ( f , t ) ) = 1 2 N + 1 Σ t ′ = t - N t ′ = t + N | real ( Y i ( f , t ′ ) ) | - - - ( 10 )
其中En(·)表示信号包络,N是一个正整数,通过遍历∏(·)来最小化下面目标函数可以得到需要的P(fbj+l):
Σ i = 1 i = K | | En ( Π ( i ) , f bj + l , t ) - En ( i , f bj , t ) | | 2 | | En ( Π ( i ) , f bj + l , t ) | | · | | En ( i , f bj , t ) | | - - - ( 11 )
之后通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列即可。
C步骤的计算量尽管在单个频段上非常大,但是C步骤仅发生在B步骤可信度不高的情况下(偶尔出现在能量较低的低频和高频部分),所以C步骤计算量也可以相对忽略。
(IV)然后利用最小失真原则(MDP)对频域的ICA分离矩阵进行幅度调整
经过MSBR算法消除信号的顺序不确定性问题后,还有幅度不确定性没有解决。在公式(2)中已经表明,最终恢复的时域信号仍然是原始信号和一个FIR函数的卷积,理想分离情况下该FIR函数为一个单位冲激函数。“Minimal Distortion Principle for BlindSource Separation,”San Diego,CA,USA,pp.722-727,Dec.2001.(“盲源分离中的最小失真原则”,《2001年ICA会议论文集》,美国圣地亚哥,722-727,12/2001。)中将MDP原则应用在BSS中,提出了如下算法对分离矩阵进行幅度调整:
W(f)←diag(inv(W(f)))W(f)                          (12)
(V)求得时域分离矩阵并恢复原始信号
对频域的分离矩阵W(f)实行离散傅立叶反变换(IDFT)求得时域上的分离矩阵W(t)。在进行IDFT时,由于之前利用FFT的对称性,只进行了L/2次ICA运算,相应也只求得了L/2个频段对应的分离矩阵。所以还需要再次利用对称性补全剩余L/2个频段的分离函数,其中需要注意的是中间频段fL/2+1处分离矩阵的选择。得到时域分离矩阵W(t)后,套用公式(2)对传感器信号进行卷积,能够最终获得原始信号的估计。
本发明在进行ICA时采用了预独立化的快速峭度最大化算法(P-FKMA),极大地提高了收敛效率;在消除顺序不确定性问题时使用了一种创新的多步骤基准重列(MSBR)算法,不但提高了效率,还提高了准确度,更适合实时处理,使恢复的语音信号具有良好的性能。在噪声和反射衍射效果不可避免的真实语音环境下,也有非常好的表现。
附图说明
图1是本发明对卷积混叠语音信号BSS的系统框图。
图2是分离信号临近频段的包络图。
图3是某频段处的分离信号及其上包络图。
图4是仿真实验中混合滤波器的冲激响应图。
图5是本发明中使用的ICA方法和其他ICA算法的性能比较图。
图6是全局滤波器(W*H)在MSBR后的冲激响应。
图7是全局滤波器(W*H)在幅度调整后的冲激响应。
图8是仿真试验中的原始信号,卷积混叠信号和分离信号图
图9是真实环境下语音采集中的房间布局。
图10是真实语音环境下的麦克风采集信号和分离信号图。
具体实施方式
本发明对卷积混叠语音信号BSS的系统框图如图1所示,K个声源经过卷积混合后在P个传感器被检测到,其BSS算法基本过程如下:先通过STFT变换到频域,之后ICA分离。将ICA分离数据用MSBR算法重列后解决顺序不确定性,之后调整幅度,然后将频域的分离矩阵W(f)经过IDFT变换到时域求得时域分离矩阵W(t),最后用W(t)卷积传感器信号得到原信号的估计。
仿真实验通过以下几方面验证本发明方法的ICA算法性能,全局滤波器冲激响应和语音恢复效果。其中,计算机合成卷积混叠信号试验中混合滤波器有300个抽头系数(如图4所示),在8000Hz的采样率下对应的最大延迟为37.5ms,原始语音时长为8s。为方便起见,下面主要考查P=K=2时的性能。
1)ICA性能
卷积混叠语音信号BSS的大部分时间的消耗在ICA上。上百抽头系数的混合滤波器可能对应着上千抽头系数的分离滤波器,为了更精确的恢复该系数,在进行STFT时必须进行上千点的FFT,对应频域上也就相应需要上千次ICA,所以高效率的ICA算法对提高BSS实时处理速率有巨大的作用。如下表显示,本发明中使用的是预先独立化的FKMA(P-FKMA),和FastICA以及JADIAG相比较。FastICA是由
Figure A20091001896000111
等人提出的一种定点算法,在本次比较中,使用的是由Bingham等人提出的FastICA的一种扩展算法,适用于分离信号为复数的情况。而JADIAG是一种由Dinh Tuan Pham提出的联合近似对角化算法。下表是ICA消耗时间比较:
  Algoirthms   P-FKMA   JADIAG   FastICA
  Consuming Time(s)   6.6081   17.9268   11.8156
仿真试验中选取的是2048点FFT,相应进行了1024次ICA分离,从上表中可以看出,本发明中的算法具有巨大的时间优势,更适合真实语音情况下的处理。图5则是如上提到的几种ICA的性能比较。在加性高斯白噪声(AWGN)信道中,P-FKMA在不同的信噪比(SNR)下,都表现出了相对良好的分离性能。图中的纵坐标SINR为信号与干扰加噪声比(OutputSignal-to-Interference-plus Noise Ratio)。
2)全局滤波器冲激响应
全局滤波器冲激响应是混合滤波器和分离滤波器的响应卷积(W*H),在理想情况下为一系列单位冲激函数和零时间序列。如图6所示,在用MSBR算法对频域信号进行重列之后,基本上顺序不确定性消失了。因为图中(W*H)11比较接近一个单位冲激函数,而且其幅度(能量)相对于(W*H)12要大得多。所以:
y1(t)=W11*x1(t)+W12*x2(t)
=W11*(H11*s1(t)+H12*s2(t))+W12*(H21*s1(t)+H22*s2(t))
=(W11*H11+W12*H21)*s1(t)+(W11*H12+W12*H22)*s2(t)
=(W*H)11*s1(t)+(W*H)12*s2(t)
≈(W*H)11*s1(t)
因为(W*H)11如图6接近一个单位冲激函数,所以y1(t)为s1(t)的估计,同理y2(t)为s2(t)的估计(整体上顺序模糊出现时,可能y1(t)为s2(t)的估计而y2(t)为s1(t)的估计)。
在MSBR消除顺序不确定性之后,再通过公式(10)来降低幅度不确定的影响,如图7所示,(W*H)11和(W*H)22能量集中在更窄的范围内,则全局滤波器有更好的性能。
3)语音恢复效果
仿真试验中的原始信号,卷积混叠信号和分离信号如图8所示,通过比较原始信号和最终分离信号可以看出恢复性能令人满意。在真实环境的语音采集分离试验中,房间的布局如图9所示,其中的语音采集系统使用了TDT公司的RX8多输入输出处理器(TDT SYSTEM3http://www.tdt.com/products/RX8.htm),采样率为8000Hz。采集信号和分离信号如图10所示,经过试听分离信号,声音清晰,由此证明了本发明算法在真实环境中的可行性。

Claims (1)

1.一种对卷积混叠语音信号进行盲源分离的方法,其特征是:
将时域的卷积混叠模型转化为频域的多通道线性瞬时混叠模型,将卷积混叠的时域信号变换到频域之后对各个通道进行相互独立的独立成份分析得到独立成分并重列,在频域进行ICA时采用预独立化的快速峭度最大化算法,不同频段的信号在重列时进行分类,然后分步骤根据不同的目标函数得到重列的转置矩阵,重列的各个步骤相互补充,根据相邻频段和基准频率的连续性解决剩余频段的剩余不确定性,计算复杂度正比于基准频率段的个数;
其中,卷积混叠信号的模型为:
Figure A2009100189600002C1
其中hpk(l)是在延迟l上第k个源信号sk(t)到第p个传感器信号xp(t)的冲激响应,并对源信号提出以下的限制:相互独立;最多有一个是高斯信号;H(l)必须是列满秩的;
具体包括以下步骤:
(1)将卷积混叠的信号进行离散时间傅立叶变换;
(2)在各个频域段内利用快速峭度最大化算法进行相互独立的独立分量分析运算;
(3)使用多步骤基准重列算法对频域的独立分量分析分离数据进行重列;
A步骤:解决预先确立的基准频率fb的顺序不确定性
选取fb=0,(M/L)fs,(2M/L)fs,...,((L-1)/L)fs为基准频率,其中M是一个正奇数;
先求得恢复信号零均值的功率轮廓对数:
E ( i , f , t ) = log ( Y i ( f , t ) Y i * ( f , t ) ) - mean ( log ( Y i ( f , t ) Y i * ( f , t ) ) )
然后最小化目标函数:
Σ i = 1 i = K | | E ( Π ( i ) , f b , t ) - E i ( · ) | | 2
其中∏(·)是一个前面介绍的一一对应关系,||·||表示一个向量的欧几里德范数,Ei(·)表示频域上第i个源信号的功率轮廓,通过对E(∏(i),fb,t)在所有频段上求均值得到,以迭代方式最小化该函数求得在该基准频率上的∏(·),从而得到转置矩阵P(fb);
之后通过转置矩阵P(fb)对分离矩阵W(fb)和相应的分离数据Y(fb,t)重列;
B步骤:解决基准频率临近的频段的顺序不确定性
经过A步骤后还有(1-1/M)L个频段未解决不确定性,根据相邻分离矩阵的相似性,以第一步骤中的L/M个频段为基准,对剩下的频段重新排序,以第j个基准频段fbj=((j-1)M/L)fs为例,它的临近频段为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,...,fbj+(M+1)/2,其中fbj+l=(((j-1)M+l)/L)fs
在对频段fbj+l进行重新排序时,先求出该频段分离信号的相关矩阵W(fbj+l),然后列举出所有可能的转置矩阵P(fbj+l)W(fbj+l),接着求出分离矩阵W(fbj)和(P(fbj+l)W(fbj+l))T的相关阵Cbj+l,则Cmn bj+l表示W(fbj)的第m行和P(fbj+l)W(fbj+l)的第n行的相关系数,通过最小化下面的目标函数得到最终的转置矩阵P(fbj+l):
Σ m = 1 K 1 | C mm bj + l | 2 Σ n ≠ m K | C mn bj + l | 2
接下来验证该转置矩阵的准确性与否:若min|Cmm bj+l|,m=1,...K大于一个预先设定的门限值且max|Cmn bj+l|,m,n=1,...K,m≠n小于另外一个预先设定的门限值,那么通过此转置矩阵对频域信号进行重新排序就是准确的,通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列,否则的话,需要利用C步骤对对应频率段重新排序;
C步骤:通过信号包络的连续性解决剩余频段的顺序不确定性
首先设计一个低通滤波器,对于频段fbj+l和其相应的基准频段fbj,得到分离语音的上包络:
En ( i , f , t ) = envelope ( Y i ( f , t ) ) = 1 2 N + 1 Σ i ′ = t - N i ′ = t + N | Y i ( f , t ′ ) |
其中N是一个正整数,通过遍历∏(·)来最小化下面目标函数得到需要的P(fbj+l):
Σ i = 1 i = K | | En ( Π ( i ) , f bj + l , t ) - En ( i , f bj , t ) | | 2 | | En ( Π ( i ) , f bj + l , t ) | | · | | En ( i , f bj , t ) | |
之后通过转置矩阵P(fbj+l)对分离矩阵W(fbj+l)重列;
(4)然后利用最小失真原则(MDP)对频域的ICA分离矩阵进行幅度调整;
根据如下算法对分离矩阵进行幅度调整:
W(f)←diag(inv(W(f)))W(f)
(5)最后求得时域分离矩阵并恢复原始信号;
对频域的分离矩阵W(f)实行离散傅立叶反变换求得时域上的分离矩阵W(t),得到时域分离矩阵W(t)后,套用以下公式对传感器信号进行卷积,能够最终获得原始信号的估计;
y ( t ) = Σ l = 0 L - 1 W ( l ) x ( t - l ) = Σ τ α ( τ ) s ( t - τ )
其中源向量s(t)=[s1(t),s2(t),...,sK(t)]T,观测向量x(t)=[x1(t),x2(t),...,xP(t)]T,分离向量y(t)=[y1(t),y2(t),...,yK(t)]T,上标″T″表示转置,W(l)对应延迟l上的时域K×P分离矩阵。
CN200910018960A 2009-09-22 2009-09-22 一种对卷积混叠语音信号进行盲源分离的方法 Pending CN101667425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910018960A CN101667425A (zh) 2009-09-22 2009-09-22 一种对卷积混叠语音信号进行盲源分离的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910018960A CN101667425A (zh) 2009-09-22 2009-09-22 一种对卷积混叠语音信号进行盲源分离的方法

Publications (1)

Publication Number Publication Date
CN101667425A true CN101667425A (zh) 2010-03-10

Family

ID=41804016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910018960A Pending CN101667425A (zh) 2009-09-22 2009-09-22 一种对卷积混叠语音信号进行盲源分离的方法

Country Status (1)

Country Link
CN (1) CN101667425A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231280A (zh) * 2011-05-06 2011-11-02 山东大学 卷积语音信号的频域盲分离排序算法
CN104700119A (zh) * 2015-03-24 2015-06-10 北京机械设备研究所 一种基于卷积盲源分离的脑电信号独立分量提取方法
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105429925A (zh) * 2015-11-18 2016-03-23 杭州电子科技大学 基于快速独立分量分析的多天线ofdma信号解码方法
CN105510032A (zh) * 2015-12-11 2016-04-20 西安交通大学 基于谐躁比指导的解卷积方法
CN105869627A (zh) * 2016-04-28 2016-08-17 成都之达科技有限公司 基于车联网的语音处理方法
CN106023984A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的语音识别方法
CN106023987A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的车载终端语音信号处理方法
CN106663222A (zh) * 2014-07-16 2017-05-10 高通股份有限公司 神经网络中的分解卷积操作
CN107924685A (zh) * 2015-12-21 2018-04-17 华为技术有限公司 信号处理装置和方法
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法
CN108982958A (zh) * 2018-07-04 2018-12-11 中国海洋大学 一种基于小波变换的单通道变频用电信号盲源分离方法
CN109325589A (zh) * 2017-07-31 2019-02-12 华为技术有限公司 卷积计算方法及装置
CN109671447A (zh) * 2018-11-28 2019-04-23 广东工业大学 一种双通道欠定卷积混叠信号盲分离方法
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110088835A (zh) * 2016-12-28 2019-08-02 谷歌有限责任公司 使用相似性测度的盲源分离
CN110148422A (zh) * 2019-06-11 2019-08-20 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110956978A (zh) * 2019-11-19 2020-04-03 广东工业大学 一种基于欠定卷积混叠模型的稀疏盲分离方法
CN111415676A (zh) * 2020-03-10 2020-07-14 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN111432273A (zh) * 2019-01-08 2020-07-17 Lg电子株式会社 信号处理装置和包括该信号处理装置的图像显示设备
CN111477233A (zh) * 2020-04-09 2020-07-31 北京声智科技有限公司 一种音频信号的处理方法、装置、设备及介质
CN111667846A (zh) * 2020-05-14 2020-09-15 北京声智科技有限公司 一种盲源分离方法及装置
CN111824879A (zh) * 2020-07-02 2020-10-27 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
CN113055077A (zh) * 2021-03-12 2021-06-29 中国人民解放军63920部队 近地航天测控网上行载波加调自适应调整方法及装置
CN113126131A (zh) * 2021-03-25 2021-07-16 中国电子科技集团公司第五十四研究所 一种超低失真导航信号采集及无混叠分离方法
CN113345435A (zh) * 2020-07-03 2021-09-03 北京声智科技有限公司 一种音频降噪方法、装置、设备及介质
CN113674756A (zh) * 2021-10-22 2021-11-19 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法
CN114644276A (zh) * 2022-04-11 2022-06-21 伊萨电梯有限公司 一种混合场景条件下的智能电梯控制方法
CN116866116A (zh) * 2023-07-13 2023-10-10 中国人民解放军战略支援部队航天工程大学 一种延时混合线性盲分离方法

Cited By (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231280B (zh) * 2011-05-06 2013-04-03 山东大学 卷积语音信号的频域盲分离排序算法
CN102231280A (zh) * 2011-05-06 2011-11-02 山东大学 卷积语音信号的频域盲分离排序算法
CN106663222A (zh) * 2014-07-16 2017-05-10 高通股份有限公司 神经网络中的分解卷积操作
US10402720B2 (en) 2014-07-16 2019-09-03 Qualcomm Incorporated Decomposing convolution operation in neural networks
US10360497B2 (en) 2014-07-16 2019-07-23 Qualcomm Incorporated Decomposing convolution operation in neural networks
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
WO2016023323A1 (zh) * 2014-08-12 2016-02-18 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105336333B (zh) * 2014-08-12 2019-07-05 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN104700119B (zh) * 2015-03-24 2018-02-13 北京机械设备研究所 一种基于卷积盲源分离的脑电信号独立分量提取方法
CN104700119A (zh) * 2015-03-24 2015-06-10 北京机械设备研究所 一种基于卷积盲源分离的脑电信号独立分量提取方法
CN105429925B (zh) * 2015-11-18 2018-10-19 杭州电子科技大学 基于快速独立分量分析的多天线ofdma信号解码方法
CN105429925A (zh) * 2015-11-18 2016-03-23 杭州电子科技大学 基于快速独立分量分析的多天线ofdma信号解码方法
CN105510032B (zh) * 2015-12-11 2017-12-26 西安交通大学 基于谐噪比指导的解卷积方法
CN105510032A (zh) * 2015-12-11 2016-04-20 西安交通大学 基于谐躁比指导的解卷积方法
CN107924685A (zh) * 2015-12-21 2018-04-17 华为技术有限公司 信号处理装置和方法
CN107924685B (zh) * 2015-12-21 2021-06-29 华为技术有限公司 信号处理装置和方法
US10679642B2 (en) 2015-12-21 2020-06-09 Huawei Technologies Co., Ltd. Signal processing apparatus and method
CN106023984A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的语音识别方法
CN106023987A (zh) * 2016-04-28 2016-10-12 成都之达科技有限公司 基于车联网的车载终端语音信号处理方法
CN105869627A (zh) * 2016-04-28 2016-08-17 成都之达科技有限公司 基于车联网的语音处理方法
CN110088835B (zh) * 2016-12-28 2024-03-26 谷歌有限责任公司 使用相似性测度的盲源分离
CN110088835A (zh) * 2016-12-28 2019-08-02 谷歌有限责任公司 使用相似性测度的盲源分离
CN109325589A (zh) * 2017-07-31 2019-02-12 华为技术有限公司 卷积计算方法及装置
CN109325589B (zh) * 2017-07-31 2021-06-15 华为技术有限公司 卷积计算方法及装置
CN108447493A (zh) * 2018-04-03 2018-08-24 西安交通大学 频域卷积盲源分离分频段多质心聚类排序方法
CN108982958B (zh) * 2018-07-04 2019-12-06 中国海洋大学 一种基于小波变换的单通道变频用电信号盲源分离方法
CN108982958A (zh) * 2018-07-04 2018-12-11 中国海洋大学 一种基于小波变换的单通道变频用电信号盲源分离方法
CN109671447A (zh) * 2018-11-28 2019-04-23 广东工业大学 一种双通道欠定卷积混叠信号盲分离方法
CN111432273A (zh) * 2019-01-08 2020-07-17 Lg电子株式会社 信号处理装置和包括该信号处理装置的图像显示设备
CN110010148A (zh) * 2019-03-19 2019-07-12 中国科学院声学研究所 一种低复杂度的频域盲分离方法及系统
CN110148422B (zh) * 2019-06-11 2021-04-16 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110148422A (zh) * 2019-06-11 2019-08-20 南京地平线集成电路有限公司 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110956978A (zh) * 2019-11-19 2020-04-03 广东工业大学 一种基于欠定卷积混叠模型的稀疏盲分离方法
CN111415676B (zh) * 2020-03-10 2022-10-18 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN111415676A (zh) * 2020-03-10 2020-07-14 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN111477233A (zh) * 2020-04-09 2020-07-31 北京声智科技有限公司 一种音频信号的处理方法、装置、设备及介质
CN111667846A (zh) * 2020-05-14 2020-09-15 北京声智科技有限公司 一种盲源分离方法及装置
CN111824879A (zh) * 2020-07-02 2020-10-27 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
CN111824879B (zh) * 2020-07-02 2021-03-30 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
CN113345435A (zh) * 2020-07-03 2021-09-03 北京声智科技有限公司 一种音频降噪方法、装置、设备及介质
CN113055077A (zh) * 2021-03-12 2021-06-29 中国人民解放军63920部队 近地航天测控网上行载波加调自适应调整方法及装置
CN113055077B (zh) * 2021-03-12 2022-04-05 中国人民解放军63920部队 近地航天测控网上行载波加调自适应调整方法及装置
CN113126131A (zh) * 2021-03-25 2021-07-16 中国电子科技集团公司第五十四研究所 一种超低失真导航信号采集及无混叠分离方法
CN113126131B (zh) * 2021-03-25 2022-04-22 中国电子科技集团公司第五十四研究所 一种超低失真导航信号采集及无混叠分离方法
CN113674756A (zh) * 2021-10-22 2021-11-19 青岛科技大学 基于短时傅里叶变换和bp神经网络的频域盲源分离方法
CN114644276B (zh) * 2022-04-11 2022-12-02 伊萨电梯有限公司 一种混合场景条件下的智能电梯控制方法
CN114644276A (zh) * 2022-04-11 2022-06-21 伊萨电梯有限公司 一种混合场景条件下的智能电梯控制方法
CN116866116A (zh) * 2023-07-13 2023-10-10 中国人民解放军战略支援部队航天工程大学 一种延时混合线性盲分离方法
CN116866116B (zh) * 2023-07-13 2024-02-27 中国人民解放军战略支援部队航天工程大学 一种延时混合线性盲分离方法

Similar Documents

Publication Publication Date Title
CN101667425A (zh) 一种对卷积混叠语音信号进行盲源分离的方法
Pedersen et al. Convolutive blind source separation methods
Yang et al. Under-determined convolutive blind source separation combining density-based clustering and sparse reconstruction in time-frequency domain
Koldovsky et al. Time-domain blind separation of audio sources on the basis of a complete ICA decomposition of an observation space
CN109616138B (zh) 基于分段频点选择的语音信号盲分离方法和双耳助听系统
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN110544490B (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
JP2015210512A (ja) ブラインド信号分離方法およびその装置
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
Higuchi et al. Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model
CN112820312B (zh) 一种语音分离方法、装置及电子设备
Liu et al. A time domain algorithm for blind separation of convolutive sound mixtures and L1 constrainted minimization of cross correlations
Jafari et al. Sparse coding for convolutive blind audio source separation
CN113591537B (zh) 一种双迭代非正交联合块对角化卷积盲源分离方法
CN112269158B (zh) 一种基于unet结构利用传声器阵列语音源定位方法
Reju et al. Partial separation method for solving permutation problem in frequency domain blind source separation of speech signals
CN109188345A (zh) 基于去预延迟空时结构的相干信号源doa估计方法
CN113805139A (zh) 基于聚焦变换的宽带信号稀疏表示波达方向估计方法
Lee et al. Maximum likelihood time delay estimation with phase domain analysis in the generalized cross correlation framework
CN111505569A (zh) 声源定位方法以及相关设备、装置
CN106249204B (zh) 基于鲁棒自适应盲系统辨识的多通道时延估计方法
Mallis et al. Convolutive audio source separation using robust ICA and an intelligent evolving permutation ambiguity solution
Nesta et al. Generalized state coherence transform for multidimensional localization of multiple sources

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100310