CN103903631B - 基于变步长自然梯度算法的语音信号盲分离方法 - Google Patents

基于变步长自然梯度算法的语音信号盲分离方法 Download PDF

Info

Publication number
CN103903631B
CN103903631B CN201410121025.7A CN201410121025A CN103903631B CN 103903631 B CN103903631 B CN 103903631B CN 201410121025 A CN201410121025 A CN 201410121025A CN 103903631 B CN103903631 B CN 103903631B
Authority
CN
China
Prior art keywords
mrow
signal
tal
matrix
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410121025.7A
Other languages
English (en)
Other versions
CN103903631A (zh
Inventor
吕淑平
张�成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201410121025.7A priority Critical patent/CN103903631B/zh
Publication of CN103903631A publication Critical patent/CN103903631A/zh
Application granted granted Critical
Publication of CN103903631B publication Critical patent/CN103903631B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供的是一种基于变步长自然梯度算法的语音信号盲分离方法。(1)用语音信号采集装置采集多人声的混合语音信号,话筒数多于或等于说话人数目;(2)对采集的混合语音信号进行预处理,包括:采用LMS数字滤波器、去均值与去相关的白化处理,然后得到零均值各个信源不相关高信噪比的混合语音信号;(3)采用基于梯度因素调节步长的变步长自然梯度算法从混合的人声中恢复得到每个声源的声音的估计。本发明不仅可以分离真实的混合语音信号,而且分离速度快、分离效果准确且稳定。

Description

基于变步长自然梯度算法的语音信号盲分离方法
技术领域
本发明涉及的是一种语音信号处理方法,具体涉及一种多声源混合信号变步长自然梯度的的盲分离算法,由此得到的混合语音信号的分离系统。
背景技术
盲源分离是20世纪末期迅速发展起来的一个新兴的研究领域,作为一种新的数据处理方法,他是人工神经网络、统计信号处理、信息论、计算机相结合的产物,并已经成为上述一些领域和发展的重要课题,特别是生物医学、语音信号处理、图像处理、远程传感、雷达与通信系统等方面的应用上都发挥了重要作用。
在语音信号处理领域,目前的语音识别与降噪增强算法仅能够识别和处理有环境噪声的语音信号,而对于人声作为背景噪声的混叠语言信号就无能为力。盲源分离算法不受话音信号基音和谐波等声音特征的影响,在没有目标语音信号的先验信息条件下,通过利用麦克风阵列来模仿人类的耳朵,将采集到的混叠话音信号进行分离,从而提取出我们感兴趣的目标语音。语音信号盲分离技术以其较好的性能在机器人语音识别、改进语音通信质量、提高语音可懂度以及信息抽取等方面发挥重要的作用。
噪声环境下,现有分离算法自己不能识别噪声,有噪声分离出的语音信号要么不能完成、要么失真,但是在没有噪声环境下的语音信号分离的理论研究的各种分离算法均取得令人满意的效果。
发明内容
本发明的目的在于提供一种可以分离真实的混合语音信号,分离速度快、分离效果准确且稳定的基于变步长自然梯度算法的语音信号盲分离方法。
本发明的目的是这样实现的:
(1)用语音信号采集装置采集多人声的混合语音信号,话筒数多于或等于说话人数目;
(2)对采集的混合语音信号进行预处理,包括:采用LMS数字滤波器、去均值与去相关的白化处理,然后得到零均值各个信源不相关高信噪比的混合语音信号;
(3)采用基于梯度因素调节步长的变步长自然梯度算法从混合的人声中恢复得到每个声源的声音的估计。
本发明不仅可以分离真实的混合语音信号,而且分离速度快、分离效果准确且稳定。
附图说明
图1整个系统分离过程流程图。
图2混合信号预处理流程图。
图3原始语音信号波形图。
图4LMS滤波流程图。
图5分离算法流程图。
图6码间干扰。
图7a-图7b在不同信噪比混合信号分离结果波形图,其中图7a 15dB噪声分离结果;图7b 20dB噪声分离结果。
具体实施方式
下面举例对本发明做更详细的描述。
1.语音混合信号的采集
根据采样定理:采样频率要大于等于原始信号最大频率的二倍。语音的频率范围为0~4kHz,因此对于语音信号的采样频率最小为8kHz,所以任意两个麦克风之间的距离应该满足其中c是声音在空气中的传播速度,fmax=4kHz为语音信号的最大频率。采集语音信号的过程中话筒空间位置任意摆放,但是任意两个话筒之间的距离要大于4.25cm,采集的模拟语音信号通过8kHz采样频率变成数字语音信号,第i个话筒的数字信号为mi=[mi(1),...,mi(N)],N为信号的采样点数,把所有话筒采集的信号组成一个矢量为m=[mi,...,mn]T
2.混合语音信号的预处理
在混合信号进行分离前对信号进行预处理是非常有必要的,预处理过程如图2所示,为了减小噪声的干扰,首先要对采样的信号进行降噪处理;然后对降噪后的数据进行去均值和去相关的球化处理,可以减小计算量。
2.1降噪处理
LMS(Least mean square)滤波能够较快的跟踪变化的信号,并自动调整自身的参数,以达到最佳的滤波效果,并采用此方法对每一路混合信号进行滤波处理,对第i路信号mi=[mi(1),...,mi(N)]具体LMS滤波过程如下图4,其中:
第一步,参数的初始化,设定仿真次数g,mi的长度N,LMS滤波器的阶数k,u=0.001,当前仿真仿真次数q=1;
第二步,将输入信号mi的前k个值作为输出x的前k个值,初始化i=k+1,设置抽头加权初值为一个一行k列的0矩阵w;
第三步:将mi的第i-k+1到i个值取做一个列矢量XN,然后求第i点滤波器输出x(i)=w*XN,计算每点的偏差e(i)=m(i)-x(i);
再更新矩阵w,w=w+2*u*e(i)*XN'。
将步骤3重复仿真,每仿真一次q就加1,直到仿真次数达到g次,然后输出所有的x(i)组成一个一行N列的矢量x,x即为滤波器的输出。
2.2白化处理
白化处理分为两个步骤:最基本且最有必要的预处理去均值和去相关。去均值的好处是零均值的数据便于计算;去相关能降低相关性,找出并去掉特征值较小的信号,减小估计源信号的数目,减小计算量等。
信号x去均值,也就是x中减去其均值矢量E(x),使得x为均值为零的变量,在实际的计算中,每一路话筒得到滤波后的信号x采用算术平均值代替数学期望,第i路信号去均值如下式:
去相关是通过特征值分解x0的协方差矩阵其中D为特征值组成的对角矩阵,Q为对应特征值的特征向量组成的矩阵,得到白化矩阵T=D-1/2QT,由变换z=Tx0得白化信号z。
3.混合信号的分离
本发明采用一种变步长的自然梯度算法分离预处理后的信号z,分离算法的核心分离矩阵如下:
W(k+1)=W(k)+η(k)[I-f(y)yT]W(k) (2)
语音信号是一种超高斯信号,因而非线性函数选择f(y)=tan(y)。
用当前时刻的梯度的每一元素乘以前一时刻梯度对应元素,然后取其长度作为步长的变化量,实际的步长调节公式为:
达到设定的迭代次数,就可以得到分离矩阵W,得到各个原始信号的估计值:
y=Wz (4)
y=[y1,y2,...,yn]T,具体分离过程的流程图如图5,具体步骤如下:
第一步:初始化参数:仿真次数maxits,要分离的信号z及其行数n及其列数N(信号的采样数),分离步长ga_W,调节因子ro,一般设定ro=0.01,一般分离矩阵W设定为0.1倍n维单位方阵,tal为当前时刻的梯度,tal_old前一时刻的梯度并将tal和tal_old初始化为零矩阵;
第二步:将要分离的信号z分成nb块,则每块的长度为bsize为(2*N)/(nb+1)取整;
第三步:在每一块内做如下操作:
计算用W乘以z的第(k-1)*bsize/2+1列到(k+1)*bsize/2列组成的矩阵,有
y=W*z(:,(k-1)*bsize/2+1:(k+1)*bsize/2);
求y每一点的非线性函数值:
fy=tanh(y);
更新分离矩阵W:
如果为第一次循环则计算:
tal=(I-fy*y'/bsize)*W;
W=W+ga_W*(I-fy*y'/bsize)*W;
tal_old=tal;
否则计算:
tal=(I-fy*y'/bsize)*W;
ga_W=ga_W+ro*trace(tal*tal_old');
W=W+ga_W*(I-fy*y'/bsize)*W;
tal_old=tal;
直到把nb块都计算完;将第三步循环做maxits次迭代得到分离矩阵W;
第四步:计算y=Wz,y的每一个行向量就是一个原始语音信号的估计。
(六)分离程度的判定
在信号估计完成后,需要性能指标对分离结果进行评价,语音信号分离性能的评价指标一般用信号干扰比(Signal to Interference Ratio:SIR)来度量和串音误差来度量(inter symbol interference,ISI)。如果,yi和sj分别是估计的独立分量和第j个源信号,是解混矩阵W的一个行矢量,ci是混合分离矩阵C的第i行,如果信号完全分离则ci只有一个非零元素。
信号的干扰比定义:
其中yi是对第j个信源sj的估计。通过SIR,可以判断源信号和估计出来的信号的相似度,如果SIR越大,则说明分离出来的信号和原始信号之间的相似度越高。算法分离出的所有信号的平均SIR则可以度量算法的优劣,如果分离结果的平均SIR越大,则说明分离算法的性能越好。
码间干扰定义为:
其中,C=WA,A是随机混合矩阵cij是矩阵C的第ij个元素;maxkcik表示C的第i行元素的最大值;maxkckj表示C的第j列元素的最大值。当信号得以精确分离时,性能指标ISI(C)应该为零,在实际中一般取一个较小的值就可以满足要求。
(七)实验
为了验证本方法的分离性能,用语音信号采集装置采集四路原始语音信号s,其波形如图3所示,然后将其随机混合,随机混合矩阵为A的元素为0到1的随机数,则观测信号为m=As。
7.1没噪声情况下的分离
对随机混合的信号m采用变步长的自然梯度算法分离混合信号,得到分离结果的码间干扰曲线如图4;从图4中看出,串音误差曲线最终都收敛到一个很小的值,说明该方法能完成混合信号分离,差不多30步迭代就能收敛。
7.2有噪声情况下分解
原始语音信号随机混合后,引入不同信噪比的白噪声,在预处理的时候不采用滤波处理,然后采用变步长的自然梯度方法直接分离带有噪声的混合信号,各个分离结果的平均SIR然后做成表1;
表1.信噪比与分离后干扰比关系 单位/dB
SNR 0 5 10 15 20
SIR 1.61 2.94 5.09 8.09 12.02
从表格上可以看出,在信噪比增加的情况下,干扰比是增加的,说明信噪比越高,分离效果越好。
根据实验,在真实情况下信噪比不会低于10dB,因此引入采用15dB和20dB信噪比的混合信号,在预处理时候引入LMS滤波器滤波,分离滤波后的混合信号结果如图7中(a),(b)。原始图片和图7(a)与7(b)所示的图片对比波形非常接近,说明信号分离完成,所以本发明对语音信号的分离有着很好的效果,能真实的反应原始语音信号。

Claims (1)

1.一种基于变步长自然梯度算法的语音信号盲分离方法,其特征是:
(1)语音混合信号的采集
对于语音信号的采样频率最小为8kHz,任意两个话筒之间的距离满足其中c是声音在空气中的传播速度,fmax=4kHz为语音信号的最大频率,采集语音信号的过程中话筒空间位置任意摆放,但是任意两个话筒之间的距离大于4.25cm,采集的模拟语音信号通过8kHz采样频率变成数字语音信号,第i路信号为mi=[mi(1),...,mi(N)],N为信号的采样点数,把所有话筒采集的信号组成一个矢量为m=[mi,...,mN]T
(2)混合语音信号的预处理
2.1降噪处理
采用LMS滤波方法对每一路混合信号进行滤波处理,对第i路信号mi=[mi(1),...,mi(N)]具体LMS滤波过程为:
第一步,参数的初始化,设定仿真次数g,mi的长度N,LMS滤波器的阶数k,u=0.001,当前仿真次数q=1;
第二步,将第i路信号mi的前k个值作为输出x的前k个值,初始化i=k+1,设置抽头加权初值为一个一行k列的矩阵w;
第三步:将mi的第i-k+1到i个值取做一个列矢量XN,然后求第i点滤波器输出x(i)=w*XN,计算每点的偏差e(i)=m(i)-x(i);
再更新矩阵w,w=w+2*u*e(i)*XN';
将第三步重复仿真,每仿真一次q就加1,直到仿真次数达到g次,然后输出所有的x(i)组成一个一行N列的矢量x,x即为滤波器的输出;
2.2白化处理
信号x去均值,也就是x中减去其均值矢量E(x),使得x为均值为零的变量,每一路话筒得到滤波后的信号x采用算术平均值代替数学期望,第i路信号去均值如下式:
<mrow> <msub> <mi>x</mi> <mrow> <mn>0</mn> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mi>N</mi> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>
去相关是通过特征值分解x0的协方差矩阵其中D为特征值组成的对角矩阵,Q为对应特征值的特征向量组成的矩阵,得到白化矩阵T=D-1/2QT,由变换z=Tx0得白化信号z;
(3)混合信号的分离
采用变步长的自然梯度算法分离预处理后的信号z,分离算法的核心分离矩阵如下:
W(k+1)=W(k)+η(k)[I-f(y)yT]W(k)
语音信号是一种超高斯信号,因而非线性函数选择f(y)=tan(y);
用当前时刻的梯度的每一元素乘以前一时刻梯度对应元素,然后取其长度作为步长的变化量,实际的步长调节公式为:
<mrow> <mi>&amp;eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;Delta;</mi> <mi>&amp;eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;eta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;rho;</mi> <mo>&amp;times;</mo> <mo>&amp;lsqb;</mo> <mo>&amp;dtri;</mo> <mi>&amp;alpha;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&amp;CircleTimes;</mo> <mo>&amp;dtri;</mo> <mi>&amp;alpha;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> </mrow>
达到设定的迭代次数,得到分离矩阵W,得到各个原始信号的估计值:
y=Wz
y=[y1,y2,...,yn]T,具体分离过程的具体步骤如下:
第一步:初始化参数:仿真次数maxits,要分离的信号z及其行数n及其列数N,分离步长ga_W,调节因子ro,设定ro=0.01,分离矩阵W设定为0.1倍n维单位方阵,tal为当前时刻的梯度,tal_old为前一时刻的梯度并将tal和tal_old初始化为零矩阵;
第二步:将要分离的信号z分成nb块,则每块的长度为bsize为(2*N)/(nb+1)取整;
第三步:在每一块内做如下操作:
计算用W乘以z的第(k-1)*bsize/2+1列到(k+1)*bsize/2列组成的矩阵,有
y=W*z(:,(k-1)*bsize/2+1:(k+1)*bsize/2);
求y每一点的非线性函数值:
f(y)=tan(y);
更新分离矩阵W:
如果为第一次循环则计算:
tal=(I-f(y)*y'/bsize)*W;
W=W+ga_W*(I-f(y)*y'/bsize)*W;
tal_old=tal;
否则计算:
tal=(I-f(y)*y'/bsize)*W;
ga_W=ga_W+ro*trace(tal*tal_old');
W=W+ga_W*(I-f(y)*y'/bsize)*W;
tal_old=tal;
直到把nb块都计算完;将第三步循环做maxits次迭代得到分离矩阵W;
第四步:计算y=Wz,y的每一个行向量就是一个原始语音信号的估计。
CN201410121025.7A 2014-03-28 2014-03-28 基于变步长自然梯度算法的语音信号盲分离方法 Expired - Fee Related CN103903631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410121025.7A CN103903631B (zh) 2014-03-28 2014-03-28 基于变步长自然梯度算法的语音信号盲分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410121025.7A CN103903631B (zh) 2014-03-28 2014-03-28 基于变步长自然梯度算法的语音信号盲分离方法

Publications (2)

Publication Number Publication Date
CN103903631A CN103903631A (zh) 2014-07-02
CN103903631B true CN103903631B (zh) 2017-10-03

Family

ID=50994910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410121025.7A Expired - Fee Related CN103903631B (zh) 2014-03-28 2014-03-28 基于变步长自然梯度算法的语音信号盲分离方法

Country Status (1)

Country Link
CN (1) CN103903631B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109767781A (zh) * 2019-03-06 2019-05-17 哈尔滨工业大学(深圳) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
CN110164468B (zh) * 2019-04-25 2022-01-28 上海大学 一种基于双麦克风的语音增强方法及装置
CN111795791B (zh) * 2020-07-06 2021-06-04 浙江大学 一种变步长液压振动台自适应幅相控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000184A (zh) * 2011-09-15 2013-03-27 Jvc建伍株式会社 噪音降低装置、声音输入装置、无线通信装置及噪音降低方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898612B1 (en) * 1998-11-12 2005-05-24 Sarnoff Corporation Method and system for on-line blind source separation
US7970564B2 (en) * 2006-05-02 2011-06-28 Qualcomm Incorporated Enhancement techniques for blind source separation (BSS)
KR100875264B1 (ko) * 2006-08-29 2008-12-22 학교법인 동의학원 암묵신호분리를 위한 후처리 방법
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures
CN101819782B (zh) * 2010-03-10 2012-04-18 重庆邮电大学 一种变步长自适应盲源分离方法及盲源分离系统
CN102903368B (zh) * 2011-07-29 2017-04-12 杜比实验室特许公司 用于卷积盲源分离的方法和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103000184A (zh) * 2011-09-15 2013-03-27 Jvc建伍株式会社 噪音降低装置、声音输入装置、无线通信装置及噪音降低方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于ICA的盲信号分离技术研究及其应用;方兴杰;《中国优秀硕士学位论文全文数据库,信息科技辑》;20120515(第5期);第1-6页,14-16页,24-25页,36-41页,52-56页 *

Also Published As

Publication number Publication date
CN103903631A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN105957537B (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
Kawahara et al. Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation
CN108960299B (zh) 一种多类运动想象脑电信号的识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN109471074B (zh) 基于奇异值分解与一维cnn网络的雷达辐射源识别方法
CN109524020A (zh) 一种语音增强处理方法
CN104700119B (zh) 一种基于卷积盲源分离的脑电信号独立分量提取方法
Erdogmus et al. Adaptive blind deconvolution of linear channels using Renyi's entropy with Parzen window estimation
CN102222508A (zh) 一种基于矩阵变换的欠定盲分离方法
CN109616138A (zh) 基于分段频点选择的语音信号盲分离方法和双耳助听系统
CN105304078B (zh) 目标声数据训练装置和目标声数据训练方法
CN103903631B (zh) 基于变步长自然梯度算法的语音信号盲分离方法
CN109410149A (zh) 一种基于并行特征提取的cnn去噪方法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN106327555A (zh) 一种获得唇形动画的方法及装置
CN102982351A (zh) 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法
CN106548136A (zh) 一种无线信道场景分类方法
CN1909064B (zh) 一种在线自然语音卷积混合信号的时域盲分离方法
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN110503967A (zh) 一种语音增强方法、装置、介质和设备
CN103413548A (zh) 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
CN109461447A (zh) 一种基于深度学习的端到端说话人分割方法及系统
CN103871422A (zh) 基于三因子迭代联合块对角化的时域混叠盲信号分离方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171003