CN1808571A - 声音信号分离系统及方法 - Google Patents

声音信号分离系统及方法 Download PDF

Info

Publication number
CN1808571A
CN1808571A CN 200510005544 CN200510005544A CN1808571A CN 1808571 A CN1808571 A CN 1808571A CN 200510005544 CN200510005544 CN 200510005544 CN 200510005544 A CN200510005544 A CN 200510005544A CN 1808571 A CN1808571 A CN 1808571A
Authority
CN
China
Prior art keywords
signal
sigma
separation
value
morbid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200510005544
Other languages
English (en)
Inventor
林哲民
吴建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to CN 200510005544 priority Critical patent/CN1808571A/zh
Priority to PCT/JP2006/300918 priority patent/WO2006078003A2/en
Publication of CN1808571A publication Critical patent/CN1808571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Abstract

一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含:音高预测模块,可消除每个混合声音信号内的信号点彼此间的时间相关成为相对应的前置信号。线性预测模块,与该音高预测模块电连接,可进一步继续消除每个前置信号的信号点彼此间的时间相关以得到相对应的余留信号。独立成分分析处理模块,与该线性预测模块电连接,并接收该多个余留信号,且可从该多个余留信号中计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。

Description

声音信号分离系统及方法
技术领域
本发明是有关于一种信号分离系统及方法,特别是指一种声音信号分离系统及方法。
背景技术
盲信号源分离(Blind Source Separation,以下简称BSS)技术是在不确定信号源数目和信号信息内容的情形下,将接收到的由多个单一信号源所混合在一起的信号,分离出原来个别的单一信号源。
例如:在鸡尾酒会上有许多人的讲话声、及背景音乐等多个声音信号源,透过许多的麦克风一起接收进来,该BSS技术即是要将背景音乐及每一人的讲话声音个别地还原出来。
由dx(dx为大于1的整数)个麦克风分别接收到声音信号x1(t),x2(t),...xdx(t),该多个接收到的声音信号x1(t),x2(t),...xdx(t)经过取样(sampling)后可成为离散形式(discrete)的混合声音信号(acousticmixture)x(n)=[x1(n)...xdx(n)]T,且x(n)可用式(1)表示:
x ( n ) = Σ k = 1 r s ( n - k ) A ( k ) 式(1)
其中,矩阵s(n)=[s1(n)...sds(n)]T为ds个独立的声音源,而A(k)代表各个独立的声音源到各个麦克风的传输环境的脉冲响应(impulse response),且A(k)的维数为ds×dx,而r表示该脉冲响应A(k)的阶数(order)。因此,由式(1)可知每一个混合声音信号是原来的声音源与该传输环境的脉冲响应作卷积运算(convolution)的结果。
而已知的BSS技术主要是利用该等混合声音信号x1(n)...xdx(n)去找到一个好的分离矩阵(separated matrix)W(k),并将该分离矩阵W(k)与该多个混合声音信号x1(n)...xdx(n)分别作卷积运算,以得到分离信号z(n)=[z1(n)...zds(n)],如式(2)。
z ( n ) = Σ k = 1 r x ( n - k ) W ( k ) 式(2)
且如果能正确的计算出最佳化的分离矩阵W(k),使该分离矩阵W(k)等于该脉冲响应A(k)的逆矩阵(inverse matrix),则该等分离声音z1(n)...zds(n)将分别与对应的该等声音源s1(n)...sds(n)完全相同。
而已知的BSS的技术是假设原来的每一个声音源s1(n)...sds(n)内的信号点彼此在统计上是相互独立,所以没有空间相关(spatial correlation),且计算出的分离矩阵W(k)也会使每一个分离声音z1(n)...zds(n)的信号点间没有空间相关和时间相关(temporal correlation)。但因为每一个原始声音源s1(n)...sds(n)内的信号点彼此间具有很大的时间相关,且每一个混合的声音信号内的信号点彼此间也有空间相关及时间相关。因此,已知的BBS技术直接使用该多个混合声音信号,将无法找出较佳的分离矩阵W(k),并且会使得每一个分离信号z1(n)...zds(n)的信号点间失去时间相关,而与原来声音源不相同,导致分离的效果不好。
已知的另一种BSS技术是K.Kokkinakis、V.Zarzoso及Asoke K.Nandi共同于2003年的期刊4th International Symposium on IndependentComponent Analysis and Blind Signal Separation提出的论文“基于线性预测分析的声音混合的盲分离(Blind Separation of Acoustic Mixtures Basedon Linear Prediction Analysis)”中所揭露。
参阅图1,该BSS技术包含下列步骤:
(T1)一个线性预测(Linear Prediction)处理步骤:将该多个混合声音信号x1(n)...xdx(n)经由线性预测处理成为该多个余留信号r1(n)...rdx(n)。
该线性预测处理是要尽量地消除每一个混合声音信号x1(n)...xdx(n)的信号点间的时间相关,即使用式(3)分别对该等混合声音信号x1(n)...xdx(n)作处理:
r i ( n ) = x i ( n ) - Σ k = 1 q x i ( n - k ) a i ( k ) 式(3)
其中,i代表第i个麦克风11分别接收到且经过取样后的混合声音信号xi(n),而ai(k)是线性预测系数,q是阶数,且ai(k)的计算方法已于上述2003年K.Kokkinakis、V.Zarzoso及Asoke K.Nandi的论文中揭露。
并且值得注意的是,步骤(T1)仍无法完全或大幅消除每一个混合声音信号x1(n)...xdx(n)的信号点间的时间相关,故计算出的每一个余留信号r1(n)...rdx(n),其信号点彼此间虽然比混合声音信号x1(n)...xdx(n)的信号点彼此间的时间相关性低,但仍具有时间相关。
步骤(T2)对该多个余留信号做独立成份分析处理(IndependentComponent Analysis,以下简称ICA)。
该ICA处理为已知的技术,可参考由P.Common于1994年的期刊Signal Processing中提出的论文“独立成分分析,一种新概念?(IndependentComponent Analysis,a new concept?)”。
已知的ICA处理方法主要是从该多个余留信号r1(n)...rdx(n)去计算该分离矩阵W(k),且在计算该分离矩阵W(k)的过程中,该ICA处理方法可以有效地消除每一个余留信号r1(n)...rdx的信号点彼此间的空间相关。
而计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将此初始Wr(k)代入式(4)以得到信号m(n):
m ( n ) = Σ k = 1 u x ( n - k ) W r ( k ) 式(4)
其中,u为阶数。
然后再将该初始Wr(k)及式(4)计算出的信号m代入式(5)以得到一修正参数ΔWτ(k):
Δ W τ ( k ) = - a ( Σ r = 0 L { off _ diagΦ ( m ( k - L ) ) m T ( k - L - τ + r ) ) W r ( k ) 式(5)
其中,在式(5)中,a代表学习率(Learning Rate),off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为正整数且代表混合声音信号的信号点数目。
然后再根据式(6)将该修正参数ΔWτ(k)与一Wold(k)(即该初始Wr(k))相加以得到Wnew(k):
Wnew(k)=Wold(k)+ΔWτ(k)                  式(6)
并将式(6)计算出的Wnew(k)当作另一个新的Wr(k)代回式(4)以更新该信号m的值,且将新的Wr(k)及更新后的m代入式(5)以得到更新后的修正参数ΔWτ(k),再根据式(6)得到更新后的Wnew(k)。并依此递归方式重复计算式(4)、式(5)及式(6),直到式(5)计算出的ΔWτ(k)趋近于0,此时由式(6)计算出的Wnew(k)即为该分离矩阵W(k)。
另外,在计算出分离矩阵W(k)后,步骤(T2)再根据式(2)将该多个混合声音信号x1(n)...xdx(n)与该分离矩阵W(k)作卷积运算即可得到该等分离信号z1(n),z2(n),...zds(n)。
已知该BSS技术在步骤(T1)时只消除了少数该多个混合声音信号的时间相关,而在音高(pitch)位置的时间相关并无法完全去除,且在步骤(T2)中,也无法进一步使每一个余留信号内的信号点彼此间的时间相关降至零。故在步骤(T2)中计算出的分离矩阵仍无法达到最佳化,所以分离出来的信号z1(n)...zds(n)仍无法与对应的原始的声音源s1(n)...sds(n)完全相同,造成分离信号的效果不佳。
此外,在步骤(T1)中,该线性预测的前置处理除了无法消除音高位置的时间相关外,另一个缺点是阶数q必须超过50,而使式(3)在计算上显得相当复杂及耗费时间。
发明内容
因此,本发明的目的是提供一种可以提高声音分离效果的声音信号分离系统。
本发明的另一个目的是提供一种声音信号分离方法,该方法可以从混合的声音信号较佳地分离出原来的声音源。
于是,本发明声音信号分离系统,适用于将复数混合声音信号分离出至少一个单一声音源。该声音信号分离系统包含:
音高预测模块,可根据下式消除每一个混合声音信号内的信号点彼此间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,而Dk是音高位置,并且βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
线性预测模块,与该音高预测模块电连接,以下式可进一步继续消除每一个前置信号y1(n)...ydx(n)之信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n)。
r i ( n ) = y i ( n ) - Σ k = 1 q y i ( n - k ) a i ( k )
独立成份分析处理模块,与该线性预测模块电连接,并接收该等余留信号,且可从该等余留信号中计算出一分离矩阵,并可将该分离矩阵与该等混合声音信号作卷积运算以分离出至少一个该单一声音源。
于是,本发明声音信号分离方法,适用于将复数混合声音信号分离出至少一个单一声音源。该声音信号分离方法包含下列步骤:
(A)以下式消除每一个混合声音信号内的信号点间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
(B)进一步继续消除每一前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n):
r i ( n ) = y i ( n ) - Σ k = 1 q y i ( n - k ) a i ( k )
其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数。
(C)根据该等余留信号计算出一分离矩阵。
(D)以该分离矩阵与该等混合声音信号作卷积运算来分离出至少一个该单一声音源。
本发明的功效在于音高预测模块能大幅消除该等混合声音信号的时间相关,进而使该分离矩阵能够最佳化,因此能够提高声音信号的分离效果。
附图说明
图1是已知的BSS技术的流程图,其中包括一线性预测处理步骤;
图2是本发明的声音信号分离系统的优选实施例的系统方块图;及
图3是本发明优选实施例的流程图。
具体实施方式
有关本发明的前述及其它技术内容、特点与功效,在以下配合参考图式的一个优选实施例的详细说明中,将可清楚地理解。
参见图2,本发明声音信号分离系统的优选实施例包含声音接收模块1、音高预测模块2、线性预测模块3、独立成份分析处理模块4(以下简称ICA处理模块)及声音播放单元5。
该声音接收模块1包括dx个麦克风11及一个取样单元12。该等麦克风11可分别接收声音信号,且以下为了方便说明,将第i个麦克风11接收的声音信号以xi(t)表示,而xi(t)是连续性的声音信号。且值得注意的是,在本实施例中,该多个麦克风11的个数至少要有两个。
该取样单元12与该音高预测模块2电连接,且可对该对麦克风11接收到的声音信号x1(t)...xi(t)进行取样,并将取样后且呈离散形式的混合声音信号x1(n)...xdx(n)输入到该音高预测模块2中。在本实施例中,该取样单元12是以每秒8000次的取样频率(sampling rate)将连续的声音信号x1(t)...xdx(t)分别取样后成为离散形式的混合声音信号x1(n)...xdx(n)。因此每一混合声音信号x1(n)...xdx(n)每秒都有8000个取样点,而本发明的取样频率也可以不限于每秒8000次。
此外,在本实施例中,是将每30ms的混合声音信号x1(n)...xi(n)中的取样点当作一个音帧(frame)。而接收的声音信号xi(t)是经过该取样单元12以每秒8000次的取样频率取样后成为混合声音信号xi(n),因此一个音帧包括该混合声音信号xi(n)中的30/1000×8000=240个取样点。但一个音帧也可以是其它时间长度,而不限于30ms中的混合声音信号x1(n)...xi(n)的取样点,例如一个音帧也可以包括xi(n)中所有的取样点。
该音高预测模块2与该取样单元12及该线性预测模块3电连接,并且该音高预测模块2读进从该取样单元12输出的该音帧的混合声音信号x1(n)...xi(n),并根据式(7)消除每一个混合声音信号的信号点间的时间相关后成为前置信号y1(n)...yi(n),并且输出该等前置信号y1(n)...ydx(n)至该线性预测模块3。
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k ) 式(7)
其中,在式(7)中,p是阶数,且βi(k)是音高预测系数(Pitch PredictionCoefficient),而Dk是音高位置(Pitch Position),且βi(k)及Dk的计算方式如式(8):
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n ) 式(8)
其中,L是音帧的长度,即是一个音帧中所包含的信号点数目。而D的值可为1到L的正整数,且将不同的D值代入式(8)中可得到不同的βi(D)的值。而在式(7)中,βi(k)是式(8)中βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D,即k=1时之βi(1)则是式(8)中βi(D)的最大值,且D1即是使βi(D)值最大的D。而k=2时的βi(2)则是式(8)中βi(D)的第二大值,且D2即是使βi(D)的值为第二大的D。
且值得注意的是,在式(7)中,阶数p只要算到p=1或是p=2就可以比已知技术大幅消去该多个混合声音信号的时间相关。
该线性预测模块3与该ICA处理模块4电连接,并且读进从该音高预测模块2输出的该音帧之前置信号y1(n)...ydx(n),并根据式(9)的线性预测法,消除该多个前置信号y1(n)...ydx(n)的信号点间的时间相关后成为余留信号r1(n)...rdx(n),并且输出该多个余留信号r1(n)...rdx(n)至该ICA处理模块4。
r i ( n ) = y i ( n ) - Σ k = 1 q y i ( n - k ) a i ( k ) 式(9)
其中,q是阶数,且线性预测系数ai(k)的计算方式为已知的技术,在此不再赘述。
该ICA处理模块4可接收该线性预测模块3处理后的余留信号r1(n)...rdx(n),并根据先前技术所述的式(4)、式(5)及式(6)消除其信号点间的空间相关后得到一个分离矩阵W(k)。且再依此分离矩阵并根据先前技术所述的式(2)计算出分离信号z1(n)...zds(n),并将该多个分离信号z1(n)...zds(n)输出至该声音播放单元5。而因为该ICA处理为已知的技术且在先前技术中已说明,故在此不再详细说明。
该声音播放单元5可接收从该ICA处理模块4输出的该音帧中的分离信号zi(n),并且可将该分离信号zi(n)播放出来。
本发明声音信号分离系统的一个优选实施例能够从dx个混合声音信号x1(n),x2(n),...xdx(n)分离出ds个分离信号z1(n),z2(n),...zds(n)。
参见图3,本发明的声音信号分离系统使用的方法包含下列步骤:
(S1)由dx个麦克风11分别接收dx个连续性的声音信号x1(t)...xi(t),其中每个xi(t)为时间的函数。
(S2)将dx个麦克风11接收的声音信号x1(t)...xdx(t)经该取样单元12以每秒8000次的取样频率分别取样后成为离散形式的dx个混合声音信号x1(n)...xdx(n)。
(S3)该音高预测模块2从该取样单元12读进一个音帧中该多个混合声音信号是所有取样点x1(n)...xdx(n),n=1...240。并根据式(7)、式(8)大幅消除每个混合声音信号是信号点间在音高位置的时间相关以得到该音帧中的前置信号y1(n)...ydx(n)。
(S4)该线性预测模块3根据式(9)更完全地消除该多个前置信号y1(n)...ydx(n)的信号点间的时间相关以得到该音帧中的余留信号r1(n)...rdx(n)。
(S5)该ICA处理模块4接收该多个余留信号r1(n)...rdx(n),并根据式(4)、式(5)及式(6)计算出该分离矩阵W(k)。
(S6)该ICA处理模块4以该分离矩阵W(k)及该音帧中的混合声音信号x1(n)...xdx(n),n=1...240的取样点,经由式(2)做卷积运算求取该音帧中相对应的分离信号zi(n),n=1...240的240个值。
(S7)将步骤(S6)得到的分离信号zi(n)用该声音播放单元5播出。并在执行完毕后跳到步骤(S3)。并继续针对下一音帧依序执行步骤(S3)~(S7)。并重复步骤(S3)~(S7)直到已处理完每一音帧。
值得注意的是,本发明也可只包含该音高预测模块2、该线性预测模块3及该ICA处理模块4,而不需包含该声音接收模块1及该声音播放单元5。即待分析的混合声音信号x1(n)...xdx(n)不一定需要透过麦克风11接收进来,也可透过网络下载、电性接口,或是储存媒体直接输入到该音高预测模块2中。例如:可将外界数据库中的混合声音信号x1(n)...xdx(n)从一个通用串行总线(Universal Serial Bus,USB)接口输入,或是用光驱读取光盘上储存的该等混合声音信号x1(n)...xdx(n)的方式,将待处理的混合信号x1(n)...xdx(n)输入到该音高预测模块2中。而经由该ICA处理模块4处理完后的数据也可送至其它系统中进行后续的应用,并不一定要播放出来。
此外,本发明也可只包含该音高预测模块2及该ICA处理模块4,而不需包含该线性预测模块3。且即使移除该线性预测模块3仍可有效地改善已知技术的缺失,此外,由于该线性预测模块3计算的方式较为复杂且需耗费较多的计算时间,故移除该线性预测模块3则也可使本发明比已知技术节省计算时间。而此时,由该音高预测模块2输出的前置信号y1(n)...ydx(n)则直接送至该ICA处理模块4,而该ICA处理模块4此时则不再由该余留信号去计算出该分离矩阵W(k),而是直接根据前置信号y1(n)...ydx(n)来计算分离矩阵W(k)。且同时,本发明的声音信号分离方法则不需包括步骤(S4),且在步骤(S5)中,该ICA处理模块4则是根据该音高预测模块2处理完后的前置信号y1(n)...ydx(n)来计算分离矩阵W(k)。
综合上述,因为本发明的音高预测模块2可大幅消除每一个混合声音信号的信号点间在该音高位置的时间相关,故可使该分离矩阵达到最佳化,故分离出的该多个分离信号即可较不失真而能与原来的该多个声音源相同。而且,该音高预测模块2所使用的式(7)中,阶层p只要是1或是2就足够,故可以简化计算复杂度及节省计算时间。
以上所说明的仅是本发明的优选实施例,而不能以此限定本发明实施的范围,本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰,皆属于本发明涵盖的范围。

Claims (22)

1.一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含:
音高预测模块,可根据下式大幅消除每一个混合声音信号内的信号点彼此间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,Dk是音高位置,而βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可是1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;及
独立成份分析处理模块,与该音高预测模块电连接,并接收该音高预测模块处理后的前置信号,且可根据该等前置信号计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。
2.根据权利要求1所述的声音信号分离系统,其中,该独立成份分析处理模块以独立成份分析法计算出该分离矩阵。
3.根据权利要求1所述的声音信号分离系统,其中,该独立成份分析处理模块根据下式分离出至少一个该单一声音源:
z ( n ) = Σ k = 1 r x ( n - k ) W ( k )
其中,z(n)=[z1(n)...zds(s)]为ds个该多个分离出的单一声音源,而W(k)为分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
4.根据权利要求1所述的声音信号分离系统,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数:
m ( n ) = Σ k = 1 u x ( n - k ) W r ( k )
然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k):
Δ W τ ( k ) = - a ( Σ r = 0 L { off _ diagΦ ( m ( k - L ) ) m T ( k - L - τ + r ) ) W r ( k )
其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到一个Wnew(k):
                 Wnew(k)=Wold(k)+ΔWτ(k)
并再以该Wnew(k)作为更新后的Wr((k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
5.根据权利要求1所述的声音信号分离系统,还包括多个麦克风及一个取样单元,且每一个麦克风与该取样单元电连接并可接收连续性的声音信号,而该取样单元则可对该多个麦克风接收到的声音信号取样以成为该多个离散形式的混合声音信号。
6.根据权利要求1所述的声音信号分离系统,还包括一个声音播放单元,该声音播放单元与该独立成份分析模块电连接,且可将该独立成份分析处理模块分析出的声音源播放出来。
7.一种声音信号分离系统,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离系统包含:
音高预测模块,可根据下式消除每一个混合声音信号内的信号点彼此间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,且βi(k)是音高预测系数,而Dk是音高位置,并且βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;
线性预测模块,与该音高预测模块电连接,可进一步继续消除每一个前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n):
r i ( n ) = y i ( n ) - Σ k = 1 q y i ( n - k ) a i ( k )
其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数;及
独立成份分析处理模块,与该线性预测模块电连接,并接收该多个余留信号,且可从该多个余留信号中计算出一个分离矩阵,并可将该分离矩阵与该多个混合声音信号作卷积运算以分离出至少一个该单一声音源。
8.根据权利要求7所述的声音信号分离系统,其中,该独立成份分析处理模块以独立成份分析法计算出该分离矩阵。
9.根据权利要求7所述的声音信号分离系统,其中,该独立成份分析处理模块根据下式分离出至少一个该单一声音源:
z ( n ) = Σ k = 1 r x ( n - k ) W ( k )
其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
10.根据权利要求7所述的声音信号分离系统,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数:
( n ) = Σ k = 1 u x ( n - k ) W r ( k )
然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k):
Δ W τ ( k ) = - a ( Σ r = 0 L { off _ diafΦ ( m ( k - L ) ) m T ( k - L - τ + r ) ) W r ( k )
其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到一个Wnew(k):
            Wnew(k)=Wold(k)+ΔWτ(k)
并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
11.根据权利要求7所述的声音信号分离系统,还包括多个麦克风及一个取样单元,且每个麦克风与该取样单元电连接并可接收连续性的声音信号,而该取样单元则可对该多个麦克风接收到的声音信号取样以成为离散形式的混合声音信号。
12.根据权利要求7所述的声音信号分离系统,还包括一个声音播放单元,该声音播放单元与该独立成份分析模块电连接,且可将该独立成份分析处理模块分析出的声音源播放出来。
13.一种声音信号分离方法,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离方法包含下列步骤:
(a)以下式消除每一个混合声音信号内的信号点间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;
(b)根据该多个前置信号计算出一个分离矩阵;及
(c)以该分离矩阵与该等混合声音信号作卷积运算来分离出至少一个该单一声音源。
14.根据权利要求13所述的声音信号分离方法,其中,在步骤(c)中根据下式分离出至少一个该单一声音源:
z ( n ) = Σ k = 1 r x ( n - k ) W ( k )
其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为该分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
15.根据权利要求13所述的声音信号分离方法,其中,在步骤(b)中,以独立成份分析法计算出该分离矩阵。
16.根据权利要求13所述的声音信号分离方法,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到一个信号m(n),其中u是阶数:
m ( n ) = Σ k = 1 u x ( n - k ) W r ( k )
然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k):
Δ W τ ( k ) = - a ( Σ r = 0 L { off _ diagΦ ( m ( k - L ) ) m T ( k - L + τ + r ) ) W r ( k )
其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到Wnew(k):
                  Wnew(k)=Wold(k)+ΔWτ(k)
并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
17.根据权利要求13所述的声音信号分离方法,其中,该多个混合声音信号是对多个麦克风接收到的声音信号取样后得到的。
18.一种声音信号分离方法,适用于将多个混合声音信号分离出至少一个单一声音源,该声音信号分离方法包含下列步骤:
(A)以下式消除每一个混合声音信号内的信号点间的时间相关:
y i ( n ) = x i ( n ) - Σ k = 1 p β i ( k ) x i ( n - D k )
其中,xi(n)为第i个混合声音信号,yi(n)为第i个处理后的前置信号,而p是阶数,βi(k)是音高预测系数,Dk是音高位置,且βi(k)及Dk的计算方式如下:
β i ( D ) = Σ n = 1 L y i ( n ) × y i ( n - D ) Σ n = 1 L y i ( n ) × y i ( n )
其中,L是每一个混合声音信号中所包含的信号点数目,D的值可为1到L的正整数,且将不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;
(B)进一步继续消除每一个前置信号y1(n)...ydx(n)的信号点彼此间的时间相关以得到相对应的余留信号r1(n)...rdx(n):
r i ( n ) = y i ( n ) - Σ k = 1 q y i ( n - k ) a i ( k )
其中,yi(n)为第i个前置信号,ri(n)为第i个余留信号,而ai(k)是线性预测系数,q是阶数;
(C)根据该多个余留信号计算出一个分离矩阵;及
(D)以该分离矩阵与该多个混合声音信号作卷积运算来分离出至少一个该单一声音源。
19.根据权利要求18所述的声音信号分离方法,其中,在步骤(D)中根据下式分离出至少一个该单一声音源:
z ( n ) = Σ k = 1 r x ( n - k ) W ( k )
其中,z(n)=[z1(n)...zds(n)]为ds个该多个分离出的单一声音源,而W(k)为该分离矩阵,x(n)=[x1(n)...xdx(n)]为dx个该多个混合声音信号,且dx及ds为正整数,r为阶数。
20.根据权利要求18所述的声音信号分离方法,其中,在步骤(C)中,以独立成份分析法计算出该分离矩阵。
21.根据权利要求18所述的声音信号分离方法,其中,计算该分离矩阵W(k)的方法是先随机产生一个初始Wr(k),且将该初始Wr(k)代入下式以得到信号m(n),其中u是阶数:
m ( n ) = Σ k = 1 u x ( n - k ) W r ( k )
然后利用该信号m(n)及该初始Wr(k)代入下式以得到一个修正参数ΔWτ(k):
Δ W τ ( k ) = - a ( Σ r = 0 L { off _ diagΦ ( m ( k - L ) ) m T ( k - L - τ + r ) ) W r ( k )
其中,a代表学习率,off_diagΦ是取矩阵非对角线的值,τ和r为时间指标,L为一正整数且代表该混合声音信号的信号点数目,且以该初始Wr(k)作为Wold(k),然后根据下式将该修正参数ΔWτ(k)与该Wold(k)的值相加以得到Wnew(k):
           Wnew(k)=Wold(k)+ΔWτ(k)
并再以该Wnew(k)作为更新后的Wr(k),重复递归计算出更新后的m(n)、修正参数ΔWτ(k)及Wnew(k),且直到计算出的修正参数ΔWτ(k)趋近于0,此时的Wnew(k)即为该分离矩阵W(k)。
22.根据权利要求18所述的声音信号分离方法,其中,该多个混合声音信号是对多个麦克风接收到的声音信号取样后得到的。
CN 200510005544 2005-01-19 2005-01-19 声音信号分离系统及方法 Pending CN1808571A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN 200510005544 CN1808571A (zh) 2005-01-19 2005-01-19 声音信号分离系统及方法
PCT/JP2006/300918 WO2006078003A2 (en) 2005-01-19 2006-01-17 Method and system for separating acoustic signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200510005544 CN1808571A (zh) 2005-01-19 2005-01-19 声音信号分离系统及方法

Publications (1)

Publication Number Publication Date
CN1808571A true CN1808571A (zh) 2006-07-26

Family

ID=36660000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200510005544 Pending CN1808571A (zh) 2005-01-19 2005-01-19 声音信号分离系统及方法

Country Status (2)

Country Link
CN (1) CN1808571A (zh)
WO (1) WO2006078003A2 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909064B (zh) * 2006-08-22 2011-05-18 复旦大学 一种在线自然语音卷积混合信号的时域盲分离方法
CN104078051A (zh) * 2013-03-29 2014-10-01 中兴通讯股份有限公司 一种人声提取方法、系统以及人声音频播放方法及装置
CN104269174A (zh) * 2014-10-24 2015-01-07 百度在线网络技术(北京)有限公司 一种音频信号的处理方法及装置
WO2020172831A1 (en) * 2019-02-28 2020-09-03 Beijing Didi Infinity Technology And Development Co., Ltd. Concurrent multi-path processing of audio signals for automatic speech recognition systems

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8233353B2 (en) * 2007-01-26 2012-07-31 Microsoft Corporation Multi-sensor sound source localization
US8126829B2 (en) 2007-06-28 2012-02-28 Microsoft Corporation Source segmentation using Q-clustering
SE536046C2 (sv) 2011-01-19 2013-04-16 Limes Audio Ab Metod och anordning för mikrofonval
JP6519877B2 (ja) 2013-02-26 2019-05-29 聯發科技股▲ふん▼有限公司Mediatek Inc. 音声信号を発生するための方法及び装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909064B (zh) * 2006-08-22 2011-05-18 复旦大学 一种在线自然语音卷积混合信号的时域盲分离方法
CN104078051A (zh) * 2013-03-29 2014-10-01 中兴通讯股份有限公司 一种人声提取方法、系统以及人声音频播放方法及装置
WO2014153922A1 (zh) * 2013-03-29 2014-10-02 中兴通讯股份有限公司 一种人声提取方法、系统以及人声音频播放方法及装置
CN104269174A (zh) * 2014-10-24 2015-01-07 百度在线网络技术(北京)有限公司 一种音频信号的处理方法及装置
CN104269174B (zh) * 2014-10-24 2018-02-09 北京音之邦文化科技有限公司 一种音频信号的处理方法及装置
WO2020172831A1 (en) * 2019-02-28 2020-09-03 Beijing Didi Infinity Technology And Development Co., Ltd. Concurrent multi-path processing of audio signals for automatic speech recognition systems

Also Published As

Publication number Publication date
WO2006078003A2 (en) 2006-07-27
WO2006078003A3 (en) 2007-02-08

Similar Documents

Publication Publication Date Title
CN1808571A (zh) 声音信号分离系统及方法
CN101030383A (zh) 声源分离装置、方法和程序
CN1115079C (zh) 信号质量确定装置和方法
CN1126869A (zh) 语音编码和解码设备及其方法
CN101040323A (zh) 音响信号编码装置和音响信号解码装置
CN1271594C (zh) 基于频谱分析的音调确定方法和装置
CN101079265A (zh) 一种语音信号处理系统
CN1719516A (zh) 自适应滤波装置以及自适应滤波方法
CN1854760A (zh) 使用超声波估计位置的方法、系统和介质
CN1947172A (zh) 方法、装置、编码器设备、解码器设备以及音频系统
CN1132423A (zh) 代码激励线性预测编码器和译码器
CN1708997A (zh) 用于在celp参数域中进行dtmf检测和语音混合的方法和装置
CN101079267A (zh) 定向集音装置、定向集音方法以及存储器产品
CN1763846A (zh) 一种语音增益因子估计装置和方法
CN1764330A (zh) 再现音频信号的方法和装置
CN101031960A (zh) 可扩展性编码装置和可扩展性解码装置及其方法
CN1719517A (zh) 一种动态噪音消除方法及数字滤波器
CN1784926A (zh) 阵列扬声器系统
CN1649374A (zh) 具有任意重放采样率的回波消除系统和方法
CN101075183A (zh) 一种多路音频数据处理系统
CN1849844A (zh) 确定声场的表示的系统和方法
CN1992791A (zh) 用于输入图像信号的自适应分辨率转换设备及其方法
CN1633210A (zh) 一种实现串音消除的方法及滤波器生成装置和播放装置
CN1656763A (zh) 用于估计多载波信号的变化的传输信道的传递函数的方法和装置
CN1992703A (zh) 编码数据的方法、解码方法、发射机和接收机

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication