CN103903631B

CN103903631B - 基于变步长自然梯度算法的语音信号盲分离方法

Info

Publication number: CN103903631B
Application number: CN201410121025.7A
Authority: CN
Inventors: 吕淑平; 张�成
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2017-10-03
Anticipated expiration: 2034-03-28
Also published as: CN103903631A

Abstract

本发明提供的是一种基于变步长自然梯度算法的语音信号盲分离方法。(1)用语音信号采集装置采集多人声的混合语音信号，话筒数多于或等于说话人数目；(2)对采集的混合语音信号进行预处理，包括：采用LMS数字滤波器、去均值与去相关的白化处理，然后得到零均值各个信源不相关高信噪比的混合语音信号；(3)采用基于梯度因素调节步长的变步长自然梯度算法从混合的人声中恢复得到每个声源的声音的估计。本发明不仅可以分离真实的混合语音信号，而且分离速度快、分离效果准确且稳定。

Description

基于变步长自然梯度算法的语音信号盲分离方法

技术领域

本发明涉及的是一种语音信号处理方法，具体涉及一种多声源混合信号变步长自然梯度的的盲分离算法，由此得到的混合语音信号的分离系统。

背景技术

盲源分离是20世纪末期迅速发展起来的一个新兴的研究领域，作为一种新的数据处理方法，他是人工神经网络、统计信号处理、信息论、计算机相结合的产物，并已经成为上述一些领域和发展的重要课题，特别是生物医学、语音信号处理、图像处理、远程传感、雷达与通信系统等方面的应用上都发挥了重要作用。

在语音信号处理领域，目前的语音识别与降噪增强算法仅能够识别和处理有环境噪声的语音信号，而对于人声作为背景噪声的混叠语言信号就无能为力。盲源分离算法不受话音信号基音和谐波等声音特征的影响，在没有目标语音信号的先验信息条件下，通过利用麦克风阵列来模仿人类的耳朵，将采集到的混叠话音信号进行分离，从而提取出我们感兴趣的目标语音。语音信号盲分离技术以其较好的性能在机器人语音识别、改进语音通信质量、提高语音可懂度以及信息抽取等方面发挥重要的作用。

噪声环境下，现有分离算法自己不能识别噪声，有噪声分离出的语音信号要么不能完成、要么失真，但是在没有噪声环境下的语音信号分离的理论研究的各种分离算法均取得令人满意的效果。

发明内容

本发明的目的在于提供一种可以分离真实的混合语音信号，分离速度快、分离效果准确且稳定的基于变步长自然梯度算法的语音信号盲分离方法。

本发明的目的是这样实现的：

(1)用语音信号采集装置采集多人声的混合语音信号，话筒数多于或等于说话人数目；

(2)对采集的混合语音信号进行预处理，包括：采用LMS数字滤波器、去均值与去相关的白化处理，然后得到零均值各个信源不相关高信噪比的混合语音信号；

(3)采用基于梯度因素调节步长的变步长自然梯度算法从混合的人声中恢复得到每个声源的声音的估计。

本发明不仅可以分离真实的混合语音信号，而且分离速度快、分离效果准确且稳定。

附图说明

图1整个系统分离过程流程图。

图2混合信号预处理流程图。

图3原始语音信号波形图。

图4LMS滤波流程图。

图5分离算法流程图。

图6码间干扰。

图7a-图7b在不同信噪比混合信号分离结果波形图，其中图7a 15dB噪声分离结果；图7b 20dB噪声分离结果。

具体实施方式

下面举例对本发明做更详细的描述。

1.语音混合信号的采集

根据采样定理：采样频率要大于等于原始信号最大频率的二倍。语音的频率范围为0～4kHz，因此对于语音信号的采样频率最小为8kHz，所以任意两个麦克风之间的距离应该满足其中c是声音在空气中的传播速度，f_max=4kHz为语音信号的最大频率。采集语音信号的过程中话筒空间位置任意摆放，但是任意两个话筒之间的距离要大于4.25cm，采集的模拟语音信号通过8kHz采样频率变成数字语音信号，第i个话筒的数字信号为m_i=[m_i(1),...,m_i(N)]，N为信号的采样点数，把所有话筒采集的信号组成一个矢量为m=[m_i,...,m_n]^T。

2.混合语音信号的预处理

在混合信号进行分离前对信号进行预处理是非常有必要的，预处理过程如图2所示，为了减小噪声的干扰，首先要对采样的信号进行降噪处理；然后对降噪后的数据进行去均值和去相关的球化处理，可以减小计算量。

2.1降噪处理

LMS（Least mean square）滤波能够较快的跟踪变化的信号，并自动调整自身的参数，以达到最佳的滤波效果，并采用此方法对每一路混合信号进行滤波处理，对第i路信号m_i=[m_i(1),...,m_i(N)]具体LMS滤波过程如下图4，其中：

第一步，参数的初始化，设定仿真次数g，m_i的长度N，LMS滤波器的阶数k，u=0.001，当前仿真仿真次数q=1；

第二步，将输入信号m_i的前k个值作为输出x的前k个值，初始化i=k+1，设置抽头加权初值为一个一行k列的0矩阵w；

第三步：将m_i的第i-k+1到i个值取做一个列矢量XN，然后求第i点滤波器输出x(i)=w*XN，计算每点的偏差e(i)=m(i)-x(i);

再更新矩阵w，w=w+2*u*e(i)*XN'。

将步骤3重复仿真，每仿真一次q就加1，直到仿真次数达到g次，然后输出所有的x(i)组成一个一行N列的矢量x，x即为滤波器的输出。

2.2白化处理

白化处理分为两个步骤：最基本且最有必要的预处理去均值和去相关。去均值的好处是零均值的数据便于计算；去相关能降低相关性，找出并去掉特征值较小的信号，减小估计源信号的数目，减小计算量等。

信号x去均值，也就是x中减去其均值矢量E(x)，使得x为均值为零的变量，在实际的计算中，每一路话筒得到滤波后的信号x采用算术平均值代替数学期望，第i路信号去均值如下式：

去相关是通过特征值分解x₀的协方差矩阵其中D为特征值组成的对角矩阵，Q为对应特征值的特征向量组成的矩阵，得到白化矩阵T=D^-1/2Q^T，由变换z=Tx₀得白化信号z。

3.混合信号的分离

本发明采用一种变步长的自然梯度算法分离预处理后的信号z，分离算法的核心分离矩阵如下：

W(k+1)=W(k)+η(k)[I-f(y)y^T]W(k) (2)

语音信号是一种超高斯信号，因而非线性函数选择f(y)=tan(y)。

用当前时刻的梯度的每一元素乘以前一时刻梯度对应元素，然后取其长度作为步长的变化量，实际的步长调节公式为：

达到设定的迭代次数，就可以得到分离矩阵W，得到各个原始信号的估计值：

y=Wz (4)

y=[y₁,y₂,...,y_n]^T，具体分离过程的流程图如图5，具体步骤如下：

第一步：初始化参数：仿真次数maxits，要分离的信号z及其行数n及其列数N（信号的采样数），分离步长ga_W，调节因子ro，一般设定ro=0.01，一般分离矩阵W设定为0.1倍n维单位方阵，tal为当前时刻的梯度，tal_old前一时刻的梯度并将tal和tal_old初始化为零矩阵；

第二步：将要分离的信号z分成nb块，则每块的长度为bsize为(2*N)/(nb+1)取整；

第三步：在每一块内做如下操作：

计算用W乘以z的第(k-1)*bsize/2+1列到(k+1)*bsize/2列组成的矩阵，有

y=W*z(:,(k-1)*bsize/2+1:(k+1)*bsize/2)；

求y每一点的非线性函数值：

fy=tanh(y);

更新分离矩阵W：

如果为第一次循环则计算：

tal=(I-fy*y'/bsize)*W；

W=W+ga_W*(I-fy*y'/bsize)*W；

tal_old=tal；

否则计算：

tal=(I-fy*y'/bsize)*W；

ga_W=ga_W+ro*trace(tal*tal_old')；

W=W+ga_W*(I-fy*y'/bsize)*W；

tal_old=tal；

直到把nb块都计算完；将第三步循环做maxits次迭代得到分离矩阵W；

第四步：计算y=Wz，y的每一个行向量就是一个原始语音信号的估计。

（六）分离程度的判定

在信号估计完成后，需要性能指标对分离结果进行评价，语音信号分离性能的评价指标一般用信号干扰比（Signal to Interference Ratio：SIR)来度量和串音误差来度量（inter symbol interference,ISI）。如果，y_i和s_j分别是估计的独立分量和第j个源信号，是解混矩阵W的一个行矢量，c_i是混合分离矩阵C的第i行，如果信号完全分离则c_i只有一个非零元素。

信号的干扰比定义：

其中y_i是对第j个信源s_j的估计。通过SIR，可以判断源信号和估计出来的信号的相似度，如果SIR越大，则说明分离出来的信号和原始信号之间的相似度越高。算法分离出的所有信号的平均SIR则可以度量算法的优劣，如果分离结果的平均SIR越大，则说明分离算法的性能越好。

码间干扰定义为：

其中，C=WA，A是随机混合矩阵c_ij是矩阵C的第ij个元素；max_kc_ik表示C的第i行元素的最大值；max_kc_kj表示C的第j列元素的最大值。当信号得以精确分离时，性能指标ISI(C)应该为零，在实际中一般取一个较小的值就可以满足要求。

（七）实验

为了验证本方法的分离性能，用语音信号采集装置采集四路原始语音信号s，其波形如图3所示，然后将其随机混合，随机混合矩阵为A的元素为0到1的随机数，则观测信号为m=As。

7.1没噪声情况下的分离

对随机混合的信号m采用变步长的自然梯度算法分离混合信号，得到分离结果的码间干扰曲线如图4；从图4中看出，串音误差曲线最终都收敛到一个很小的值，说明该方法能完成混合信号分离，差不多30步迭代就能收敛。

7.2有噪声情况下分解

原始语音信号随机混合后，引入不同信噪比的白噪声，在预处理的时候不采用滤波处理，然后采用变步长的自然梯度方法直接分离带有噪声的混合信号，各个分离结果的平均SIR然后做成表1；

表1.信噪比与分离后干扰比关系单位/dB

SNR	0	5	10	15	20
						SIR	1.61	2.94	5.09	8.09	12.02

从表格上可以看出，在信噪比增加的情况下，干扰比是增加的，说明信噪比越高，分离效果越好。

根据实验，在真实情况下信噪比不会低于10dB，因此引入采用15dB和20dB信噪比的混合信号，在预处理时候引入LMS滤波器滤波，分离滤波后的混合信号结果如图7中(a)，(b)。原始图片和图7(a)与7(b)所示的图片对比波形非常接近，说明信号分离完成，所以本发明对语音信号的分离有着很好的效果，能真实的反应原始语音信号。

Claims

1.一种基于变步长自然梯度算法的语音信号盲分离方法，其特征是：

(1)语音混合信号的采集

对于语音信号的采样频率最小为8kHz，任意两个话筒之间的距离满足其中c是声音在空气中的传播速度，f_max＝4kHz为语音信号的最大频率，采集语音信号的过程中话筒空间位置任意摆放，但是任意两个话筒之间的距离大于4.25cm，采集的模拟语音信号通过8kHz采样频率变成数字语音信号，第i路信号为m_i＝[m_i(1),...,m_i(N)]，N为信号的采样点数，把所有话筒采集的信号组成一个矢量为m＝[m_i,...,m_N]^T；

(2)混合语音信号的预处理

2.1降噪处理

采用LMS滤波方法对每一路混合信号进行滤波处理，对第i路信号m_i＝[m_i(1),...,m_i(N)]具体LMS滤波过程为：

第一步，参数的初始化，设定仿真次数g，m_i的长度N，LMS滤波器的阶数k，u＝0.001，当前仿真次数q＝1；

第二步，将第i路信号m_i的前k个值作为输出x的前k个值，初始化i＝k+1，设置抽头加权初值为一个一行k列的矩阵w；

第三步：将m_i的第i-k+1到i个值取做一个列矢量XN，然后求第i点滤波器输出x(i)＝w*XN，计算每点的偏差e(i)＝m(i)-x(i)；

再更新矩阵w，w＝w+2*u*e(i)*XN'；

将第三步重复仿真，每仿真一次q就加1，直到仿真次数达到g次，然后输出所有的x(i)组成一个一行N列的矢量x，x即为滤波器的输出；

2.2白化处理

信号x去均值，也就是x中减去其均值矢量E(x)，使得x为均值为零的变量，每一路话筒得到滤波后的信号x采用算术平均值代替数学期望，第i路信号去均值如下式：

<mrow> <msub> <mi>x</mi> <mrow> <mn>0</mn> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

去相关是通过特征值分解x₀的协方差矩阵其中D为特征值组成的对角矩阵，Q为对应特征值的特征向量组成的矩阵，得到白化矩阵T＝D^-1/2Q^T，由变换z＝Tx₀得白化信号z；

(3)混合信号的分离

采用变步长的自然梯度算法分离预处理后的信号z，分离算法的核心分离矩阵如下：

W(k+1)＝W(k)+η(k)[I-f(y)y^T]W(k)

语音信号是一种超高斯信号，因而非线性函数选择f(y)＝tan(y)；

<mrow> <mi>&eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>&eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&Delta;</mi> <mi>&eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&rho;</mi> <mo>&times;</mo> <mo>&lsqb;</mo> <mo>&dtri;</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&CircleTimes;</mo> <mo>&dtri;</mo> <mi>&alpha;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow>

达到设定的迭代次数，得到分离矩阵W，得到各个原始信号的估计值：

y＝Wz

y＝[y₁,y₂,...,y_n]^T，具体分离过程的具体步骤如下：

第一步：初始化参数：仿真次数maxits，要分离的信号z及其行数n及其列数N，分离步长ga_W，调节因子ro，设定ro＝0.01，分离矩阵W设定为0.1倍n维单位方阵，tal为当前时刻的梯度，tal_old为前一时刻的梯度并将tal和tal_old初始化为零矩阵；

第三步：在每一块内做如下操作：

y＝W*z(:,(k-1)*bsize/2+1:(k+1)*bsize/2)；

求y每一点的非线性函数值：

f(y)＝tan(y)；

更新分离矩阵W：

如果为第一次循环则计算：

tal＝(I-f(y)*y'/bsize)*W；

W＝W+ga_W*(I-f(y)*y'/bsize)*W；

tal_old＝tal；

否则计算：

tal＝(I-f(y)*y'/bsize)*W；

ga_W＝ga_W+ro*trace(tal*tal_old')；

W＝W+ga_W*(I-f(y)*y'/bsize)*W；

tal_old＝tal；

第四步：计算y＝Wz，y的每一个行向量就是一个原始语音信号的估计。