CN111899754A

CN111899754A - GA_FastICA算法的语音分离效果算法

Info

Publication number: CN111899754A
Application number: CN202010743053.8A
Authority: CN
Inventors: 兰朝凤; 刘岩; 张磊; 康守强; 韩闯; 郭小霞
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-06

Abstract

本发明公开了GA_FastICA算法的语音分离效果算法，包括如下步骤：在传统谱减法中假定噪声信号为d(n)，纯净的语音信号为f(n)，获取带噪混合信号h(n)；带噪混合信号经过短时傅里叶变换后获得频谱；利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系，得到纯净语音信号的功率谱，弥补了传统谱减法在0dB左右交叉项为零的假设不成立弊端，通过短时傅里叶逆变换可还原成原始语音信号，FastICA算法进行语音分离，获得分离后语音信号。本发明在不同信噪比条件下，绘制了分离后语音信号时域波形，分析了分离后信号和原始信号之间的相关系数，并比较了GA_FastICA和FastICA、IBM、FOBI算法的分离效果，GA_FastICA算法可有效分离语音信号，在噪声环境下具有较好的语音分离效果。

Description

GA_FastICA算法的语音分离效果算法

技术领域

本发明涉及智能家居设备技术领域，特别涉及GA_FastICA算法的语音分离效果算法。

背景技术

随着智能家居设备的发展，通过音频信号控制智能设备变成了一种必然趋势，同时也对语音处理技术提出了更高要求。为了更好的将语音处理技术应用到实际生活中，相关研究人员就语音分离技术、语音识别技术及语音降噪等技术进行了大量研究。语音分离问题最早起源于著名的鸡尾酒会问题，就如何构建出类似于人脑听觉处理机制，进而从混合语音信号中分离出重点关注的语音部分，以对特定语音识别的目的进行了研究。

根据观测信号和源信号数目的不同，可以分成单通道盲源分离算法和多通道盲源分离算法。独立成分分析(Independent Component Analysis，ICA)是多通道分离中一种典型的算法，最早在20世纪80年代被Jutten等人提出，并成功的应用在盲源分离领域。此后，许多研究人员在ICA基础上，对提高混合语音分离质量和降低算法计算复杂度等方面提出了一些改进算法。1999 年，Hyvarinen等人提出FastICA算法，此算法大大提高了传统ICA算法的处理速度。Tahir Ahmad等利用八阶牛顿算法对FastICA算法进行了改进，并将此应用到了语音信号分离中，研究表明改进算法具有迭代次数少、收敛速度快的优势。南开大学的朱立娟等人提出将观测信号特征矩阵联合对角化的预处理的操作，得到初步分离的语音信号，并利用FastICA算法对初步分离的语音信号进行处理，得到分离语音信号，研究表明所提出算法在保证分离质量的前提下，减少了算法计算量。非负矩阵分解算法(Non-negative Matrix Factorization，NMF)同样被广泛的应用在语音分离相关领域，其最早是由 DD.Lee等人提出的一种矩阵分解的方式，基本思想是将混合矩阵在满足非负约束的限制下分解成两个矩阵乘积，并使其乘积尽可能的接近于混合矩阵。 NMF算法分离过程简便，且分离结果解释性更强，相对于其它算法具有占用更小存储空间的优点。典型的NMF算法有梯度投影算法和拟牛顿算法。李煜等人针对传统NMF算法计算量大收敛速度慢的问题，提出了一种基于投影梯度的NMF算法，通过增加相关约束条件减小了信号的重构误差，提高了算法的收敛速度和信号分离效果。刘忠健等人针对基于乘性迭代NMF算法收敛速度慢的问题，提出了一种秩一分解的NMF算法，提高了NMF算法的收敛速度。卢宏等针对NMF算法在欠定盲源分离方面的限制，在NMF算法中增加行列式约束及稀疏性约束的限制条件，实现了NMF应用于欠定盲源目标的分离。王艳芳等人将NMF和FastICA算法相互结合，利用NMF算法，通过观测信号幅度谱得到源混合信号的估计矩阵，而后利用FastICA算法实现源信号的分离，研究表明比传统FastICA算法提高了算法的运行速度。在语音分离的过程中难免会混有噪声干扰，如何有效去除和抑制噪声是语音增强技术探究的目标，有学者对低信噪比(Signal-to-noise Ratio，SNR)条件下，提高目标语音的可懂度和质量做出了研究。常用语音增强方法主要分为时域方法和频域方法。时域处理方式在语音分离过程中，难以在低SNR环境下做到对滤波器参数的准确预测，语音增强效果不理想；频域常用的算法有谱减法、维纳滤波、自适应滤波法等。其中，传统谱减法是当噪声信号与短时平稳语音信号相互独立时，利用混合语音功率谱和噪声语音功率谱做减法得到纯净语音功率谱，但在实际应用过程中，传统谱减法会在SNR为0dB左右出现信号失真情况，但针对此问题可应用语音增强的几何运算(Geometric Approach，GA)方法，重新构造出纯净功率谱和带噪功率谱间的增益函数，利用此增益函数求解纯净语音功率谱，弥补了传统谱减法信号失真的弊端。

上述学者的研究使语音分离、语音增强技术取得了巨大的进步，但语音增强技术主要讨论的是在低SNR比环境下对噪声的抑制效果，没有考虑将目标语音信号进行分离，更加没有考虑分离多路有用语音信号情况。同样，语音分离问题也没有考虑到在观测信号中混有噪声时算法的适用性。

发明内容

本发明的目的在于提供GA_FastICA算法的语音分离效果算法， GA_FastICA算法可有效分离语音信号，在噪声环境下具有较好的语音分离效果，可以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

GA_FastICA算法的语音分离效果算法，包括如下步骤：

步骤1：在传统谱减法中假定噪声信号为d(n)，纯净的语音信号为f(n)，获取带噪混合信号h(n)；

步骤2：带噪混合信号经过短时傅里叶变换后获得频谱，然后获取噪声语音的短时功率谱，得到纯净语音信号功率谱；

步骤3：利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系，得到纯净语音信号的功率谱，通过短时傅里叶逆变换可还原成原始语音信号，FastICA算法进行语音分离，获得分离后语音信号。

进一步地，步骤1中h(n)表达为：

h(n)＝f(n)+d(n)

h(n)经过短时傅里叶变换后得到的结果表示为：

H(w_k)＝F(w_k)+D(w_k)

进一步地，纯净语音信号功率谱的表达式为：

其中，

且

进一步地，带噪混合信号在某个频率下的频谱由右侧两路信号频谱相加求得，这个过程同样可以在复平面中写成向量和的形式，极坐标形式可以表达为：

进一步地，经过GA算法推导，新的增益函数I_GA表达为：

其中，c_hd＝cos(θ_h-θ_d)，c_fd＝cos(θ_f-θ_d)。

进一步地，GA算法利用混合信号相位和噪声信号相位之间的显性关系，结合三角函数公式得到式(12)中参数的计算公式为：

进一步地，利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系，计算过程如下式：

与现有技术相比，本发明的有益效果是：本发明针对现有技术存在的缺陷，考虑到运用语音分离技术控制智能设备时并不能保证周围环境完全安静的情况，基于GA算法进行第一阶段降噪处理，将处理后信号利用FastICA 算法进行音源分离，提出了GA-FastICA算法，GA_FastICA算法分离后信号的波形与原始信号几乎相同，分离后语音信号与原始语音信号之间的相关系数较高，尤其是当信噪比为4dB时，GA_FastICA算法可成功分离两路语音信号且相关系数为0.7852，FastICA算法无法分离两路语音信号；8dB条件下， GA_FastICA算法较IBM、FOBI算法相关系数分别高0.1366、0.1501，4dB条件下分别高0.2478、0.2996。GA_FastICA算法可有效分离语音信号，在噪声环境下具有较好的语音分离效果。

附图说明

图1为本发明的原始语音信号1的时域波形图；

图2为本发明的原始语音信号2的时域波形图；

图3为本发明的观测信号1的时域波形图；

图4为本发明的观测信号2的时域波形图；

图5为本发明的FastICA算法分离信号的时域波形图；

图6为本发明的GA-FastICA算法分离信号的时域波形图；

图7为本发明的IBM算法分离原始语音信号时频谱图；

图8为本发明的IBM算法分离时二值掩蔽图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

GA_FastICA算法的语音分离效果算法，将GA算法和FastICA算法结合提出了GA-FastICA算法，其中，

FastICA算法原理为：

假定输入语音信号为s(t)，则观测信号x(t)可表达为：

x(t)＝As(t) (1)

其中，A为n×n矩阵(n为通道数)，称为语音信号混合矩阵，s(t)可表达为：s(t)＝[s₁(t),s₂(t)......s_n(t)]^T。观测信号可写为：x(t)＝[x₁(t),x₂(t)......x_n(t)]^T。

FastICA算法实现的最终目标是找到解混矩阵W，使分解后的信号能够重新恢复出原始输入语音信号，满足如下关系：

y(t)＝Wx(t)＝WAs(t)≈s(t) (2)

其中，y(t)为恢复出来的原始语音信号，其可表达为： y(t)＝[y₁(t),y₂(t)......y_n(t)]^T。计算过程中，主要使解混矩阵W作用在观测信号x(t) 上，令得到结果y(t)的非高斯性达到最大，达到接近原始信号s(t)的目的。利用负熵来衡量y(t)的非高斯性，负熵越大，表示信号的非高斯性越强。负熵可表达为：

J(y)＝{E(G(y))-E((G(v))}² (3)

其中，G代表非线性函数，v代表的是满足均值为0、方差为1的高斯随机变量。

若令y(t)＝W^Tz(t)，z(t)代表的是观测信号经白化处理过的信号，则式(3) 可表达为：

J(y)＝{E(G(W^Tz))-E((G(v))}² (4)

通常，设定独立成分的方差为：

E(G(W^Tz)²)＝1 (5)

则在此约束条件下，得到解混矩阵W的迭代公式，可表达为：

W(k)＝E{zG(W(k-1)^Tz)}-E{G′(W(k-1)^Tz)W(k-1)} (6)

式(6)在计算过程中，直到满足收敛条件，迭代运算过程停止，此时可得到解混矩阵W的最优解。对W进行归一化处理，令W作用于式(2)即可得到还原后的原始语音信号，从而达到盲源分离目的。

GA-FastICA算法原理为：

在传统谱减法中假定噪声信号为d(n)，纯净的语音信号为f(n)，则带噪混合信号h(n)可表达为：

h(n)＝f(n)+d(n) (7)

对h(n)进行短时傅里叶变换，H(w_k)代表h(n)经过短时傅里叶变换后得到的结果，可以表示为：

H(w_k)＝F(w_k)+D(w_k) (8)

其中，F(w_k)代表的是f(n)经过短时傅里叶变换后的频谱，D(w_k)代表的是d(n)变换后的频谱。w_k＝2kπ/N，k的取值范围是k＝1,2,3......N-1，N代表观测信号的帧长度。

式(8)两端乘以H*(w_k)，得到噪声语音的短时功率谱，假定满足交叉项为零，则估计的纯净语音信号功率谱可表达为：

设I(w_k)代表增益函数，则式(9)可以表达为下式：

其中，

且

式(10)在SNR为0dB左右时，不满足谱减法交叉项为0的假设，所以通过式(10)的增益函数I²(w_k)估算纯净语音功率谱时出现了信号失真情况，故有学者提出了GA方法对谱减法进行改进，其通过几何计算的方式来重新构建出带噪语音功率谱和纯净语音功率谱间的增益函数，通过新的增益函数计算纯净语音功率谱，弥补了传统谱减法在0dB左右交叉项不为零的缺陷，解决了信号失真问题。

由式(8)可以看出，混合信号在某个频率下的频谱由右侧两路信号频谱相加求得，这个过程同样可以在复平面中写成向量和的形式，式(8)的极坐标形式可以表达为：

其中，a_h,a_f,a_d是分别对应于式(8)中的幅值，其在复平面中代表向量长度， θ_h,θ_f,θ_d分别代表观测信号、纯净信号、噪声信号相位，在复平面中对应各路信号和实轴之间的夹角。传统谱减法基于交叉项为0的假设，也就是做出了

的假设，但GA算法并不对二者相位差值做出任何假设。

经过GA算法推导，新的增益函数I_GA可以表达为：

其中，c_hd＝cos(θ_h-θ_d)，c_fd＝cos(θ_f-θ_d)。

式(12)中，c_hd,c_fd的计算需要依赖于信号间相位的差值，这在程序运行过程中并不能准确得到，所以GA算法利用混合信号相位和噪声信号相位之间的显性关系，结合三角函数公式得到式(12)中参数的计算公式为：

之后，利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系，计算过程如下式：

将(15)得到纯净语音信号的功率谱，通过短时傅里叶逆变换可还原成原始语音信号。

由上述推导可知，GA算法在语音增强方面较谱减法弥补了谱减法信号失真的缺陷，FastICA算法可以完成适定盲源分离任务。因此，考虑到实际观测信号中可能混有噪声的情况，将两种算法结合提出了GA-FastICA算法。首先利用GA算法对混合信号进行降噪处理，然后将处理后的信号再运用 FastICA算法进行语音分离，近而获得分离后语音信号。

GA_FastICA和FastICA算法分离效果比较如下：

为分析FastICA算法和GA_FastICA算法分对语音信号的分离效果，本发明从TIMIT语音库中选择2路原始语音信号进行线性混合生成观测信号，引入白噪声作为噪声环境，在SNR为16dB，12dB，8dB和4dB情况下进行实验研究，评价分离后的语音信号与原始语音信号之间的相关系数。实验次数为100次，第1路、2路原始语音信号波形如图1、图2所示；两路不同通道得到的观测语音信号如图3、4所示。当SNR为12dB时，以第1路原始信号分离效果为例，FastICA方法语音分离结果如图5所示，GA-FastICA方法语音分离结果如图6所示。

由图1中的图5和图1对比可知，虽然分离语音信号波形整体与原始信号相似，且对应的峰值均明显凸显出来，但白噪声信号全程附加在分离后的语音信号中，使得语音分离效果不理想。图6和图1对比可知，分离出来的语音信号波形与原始信号波形几乎相同。图6和图5对比可知，图6信号波形轮廓更加近似原始信号，图5分离后信号中存在幅值约为0.1的噪声干扰，证明GA_FastICA算法对噪声存在抑制作用。由此可见，GA_FastICA算法可有效分离语音信号，具有较好的语音分离效果。

FastICA与GA-FastICA算法的语音分离性评价如下：

分离结果用语音相关系数进行界定，相关系数越接近于1，证明分离后的语音信号和原始语音信号相似性越高，说明分离效果更好，相关系数用ρ表示，其计算过程如式(16)所示：

式(16)中，y_i(t)表示分离后的语音信号，s_j(t)表示原始的语音信号。

为定量评价FastICA和GA-FastICA算法在语音分离效果上的差异，以下给出原始语音信号与分离后语音信号的相关系数，结果如表1所示。其中，两路原始语音信号记作s1,s2，利用传统FastICA算法分离后的信号记作 y1,y2，利用GA-FastICA算法分离出来的语音信号记作p1,p2。

表1 FastICA算法与GA-FastICA算法语音分离后的相关系数

以下以第1路语音信号的分离效果为例进行讨论，由表1可知，当SNR 为16dB时，两种算法分离后语音信号与原始语音信号相关系数都在0.89以上；当SNR为12dB时，GA_FastICA算法相关系数为0.8796，FastICA算法的相关系数为0.8546，GA_FastICA算法比FastICA算法分离相关系数提高了 0.025；当SNR为8dB时，GA-FastICA算法相关系数为0.8468，FastICA算法的相关系数为0.7109，相关系数提高了0.1359。当SNR为4dB时，FastICA 算法分离后的语音信号与第1路原始信号相关系数为0.4172，与第2路原始语音信号的相关系数为0.6045，相关系数都不接近于0，表明分离出来的信号与原始的两路信号均具有相似性，FastICA算法无法完成语音分离任务。 GA-FastICA分离后的语音信号与第1路原始信号相关系数为0.7852，与第2 路原始语音信号相关系数为0.0192，表明GA-FastICA依然具有较好的语音分离能力。且随SNR减小，FastICA算法与GA_FastICA算法语音分离质量受噪声影响呈现下降趋势，但GA_FastICA下降较慢，由此可见，GA-FastICA 算法在带噪语音中具有较好的分离效果。

GA_FastICA算法与IBM、FOBI算法对比如下：

GA_FastICA算法在具有噪声干扰的情况下相较于FastICA算法具有更好的语音分离性能，为进一步验证该算法的有效性，选择了基于二值掩蔽的语音信号分离算法(Ideal Binary Mask，IBM)、四阶矩盲识别算法(Fourth-order Blind Identification，FOBI)算法与本发明GA_FastICA算法进行对比。

IBM算法的目标是计算出一个二值掩蔽，二值掩蔽通过计算不同频率下的SNR来进行构建，使用时需要设置一个阈值，如果SNR高于阈值则掩蔽对应位置为1，低于阈值则为0，本发明通过IBM分离出两路语音信号，所以在分析其中一路信号时另外一路信号同样会被视为噪声干扰，本发明中应用的第一路语音信号的时频谱如图7所示，通过观测信号计算得到的二值掩码如图8所示。

将图7和图8得到的二值掩蔽作用于混合语音信号时频谱，得到关注语音信号时频谱，通过短时傅里叶逆变换还原出原始语音信号。

为研究本发明提出的GA-FastICA算法与FOBI、IBM算法在噪声环境下对语音信号的分离性能，在SNR为12dB、8dB、4dB时进行实验研究，结果如表2所示。其中，m1、m2、m3代表算法12dB(8dB、4dB)条件下分离出的第1路分离语音信号和原始第1路语音信号的相关系数。

表2不同算法在带噪环境下语音分离效果

分离算法	m1	m2	m3
				GA_FastICA	0.8796	0.8468	0.7852
IBM	0.8524	0.7102	0.5374
				FOBI	0.8418	0.6967	0.4856

由表2可知，12dB条件下，GA_FastICA算法相关系数为0.8796，IBM 算法相关系数为0.8524，FOBI算法相关系数为0.8418，GA_FastICA算法比 IBM算法、FOBI算法相关系数分别提高了0.0272、0.0380。8dB条件下， GA_FastICA算法相关系数为0.8468，IBM算法相关系数为0.7102，FOBI算法相关系数为0.6967，GA_FastICA算法比IBM算法、FOBI算法相关系数分别提高了0.1366、0.1501。4dB条件下，GA_FastICA算法相关系数为0.7852， IBM算法相关系数为0.5374，FOBI算法相关系数为0.4856，GA_FastICA算法比IBM算法、FOBI算法相关系数分别提高了0.2478、0.2996。由此可见， GA_FastICA在带噪声环境下对语音的分离效果好于其它算法，具有较好的语音分离性能。

本发明针对传统的FastICA算法没有考虑观测信号存在噪声干扰的情况，提出了一种GA-FastICA算法。GA_FastICA算法分离信号的时域波形图更加接近于原始信号，与FastICA算法分离后信号的时域波形对比可知其有效抑制了分离过程中噪声造成的干扰。分离后的语音信号与原始语音信号的相关系数结果可知，混合信号SNR为16dB时，GA_FastICA和FastICA算法相关系数均在0.89以上；SNR为12dB时，GA_FastICA相关系数比FastICA 提高了0.025；SNR为8dB时，提高了0.1359；当SNR为4dB时，FastICA 算法已无法将语音信号成功分离，而GA-FastICA依然具有较好的分离效果，且相关系数为0.7852；对比分析GA-FastICA算法和IBM、FOBI算法的分离性能，结果表明12dB条件下，GA_FastICA算法比IBM、FOBI算法相关系数分别提高了0.0272和0.0380，8dB条件下提高了0.1366和0.1501，4dB条件下分别提高了0.2478和0.2996。由此可见，GA_FastICA算法在带噪声环境下对语音分离效果优于其它算法，具有较好的语音分离性能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.GA_FastICA算法的语音分离效果算法，其特征在于，包括如下步骤：

2.如权利要求1所述的GA_FastICA算法的语音分离效果算法，其特征在于，步骤1中h(n)表达为：

h(n)＝f(n)+d(n)

h(n)经过短时傅里叶变换后得到的结果表示为：

H(w_k)＝F(w_k)+D(w_k)

3.如权利要求1所述的GA_FastICA算法的语音分离效果算法，其特征在于，纯净语音信号功率谱的表达式为：

其中，

且

4.如权利要求1所述的GA_FastICA算法的语音分离效果算法，其特征在于，带噪混合信号在某个频率下的频谱由右侧两路信号频谱相加求得，这个过程同样可以在复平面中写成向量和的形式，极坐标形式可以表达为：

5.如权利要求1所述的GA_FastICA算法的语音分离效果算法，其特征在于，经过GA算法推导，新的增益函数I_GA表达为：

其中，c_hd＝cos(θ_h-θ_d)，c_fd＝cos(θ_f-θ_d)。

6.如权利要求5所述的GA_FastICA算法的语音分离效果算法，其特征在于，GA算法利用混合信号相位和噪声信号相位之间的显性关系，结合三角函数公式得到式(12)中参数的计算公式为：

7.如权利要求6所述的GA_FastICA算法的语音分离效果算法，其特征在于，利用GA算法计算得到的增益来计算纯净语音功率谱和混合语音功率谱之间的关系，计算过程如下式：