CN104240717A

CN104240717A - 基于稀疏编码和理想二进制掩膜相结合的语音增强方法

Info

Publication number: CN104240717A
Application number: CN201410476932.3A
Authority: CN
Inventors: 汤一彬; 王小凡; 孙娟; 蒋爱民; 徐宁; 殷澄
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2014-09-17
Filing date: 2014-09-17
Publication date: 2014-12-24
Anticipated expiration: 2034-09-17
Also published as: CN104240717B

Abstract

本发明公开了一种基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其是针对于传统的理想二进制掩膜算法存在噪声残留和语音成分丢失的缺陷进行改进的算法。本发明首先利用短时傅里叶变换将时域语音信号转换到频域信号,在频域中,采用理想二进制掩膜方法对语音信号进行初步降噪处理；然后采用稀疏编码理论对初步降噪后的语音信号做进一步降噪处理，同时从被认为是干扰信号中提取有效的语音成分，从而达到语音增强的效果。与相关技术相比，本发明具有去噪性能好，语音的可理解性高等优点。

Description

基于稀疏编码和理想二进制掩膜相结合的语音增强方法

技术领域

本发明涉及一种稀疏编码和理想二进制掩膜的语音增强方法，具体涉及到基于理想二进制掩膜算法和字典学习的信号稀疏表示的语音处理技术。

背景技术

语音增强技术，简单的说就是一种当纯净的语音信号被各种各样的噪声干扰、甚至淹没后，抑制、降低噪声干扰,从噪声背景中提取有用的语音信号的技术。这些噪声主要包括背景噪声、混响、其他人说话声等干扰信号，它不仅会降低语音的质量和可懂度，而且会导致语音信号在其他应用中的退化。因而，有效的进行语音增强是非常有必要的。

具有代表性的传统的语音增强算法包括谱减法、理想二进制掩膜法(IBM)、维纳滤波法、最小误差估计法等等，但这些典型的算法也存在一些缺陷。例如，谱减法虽然复杂度比较低，易于实现，但增强后的语音信号往往存在着影响听觉效果的音乐噪声；理想二进制掩膜算法(IBM)虽然可以在一定程度上去除噪声，但其存在语音信号丢失和残留部分噪声等问题。

在信号处理方面，信号稀疏表示和重构理论是近几年出现的新兴的信号表示手段，目前已有效用于图像处理、语音信号处理等方面。语音信号处理方面包括语音分割、语音降噪和语音识别等。信号稀疏表示和重构理论不要求精确的恢复原始数据，而是在一定的基集(字典)空间中依照某种准则寻找最少个数的稀疏系数在最大程度上逼近原始数据，实现数据重构。

发明内容

发明目的：为了克服现有技术IBM算法存在的不足，本发明提供一种基于稀疏编码和理想二进制掩膜相结合的语音增强方法。即针对传统的理想二进制掩膜(IBM)存在语音信号丢失和残留部分噪声等缺陷，本发明将信号稀疏编码理论和理想二进制掩膜算法相结合来获得可理解性更高的语音信号。主要体现在：一是将IBM处理后的语音信号S^r中包含的噪声进一步剔除；二是从干扰信号V^r中提取有效的语音成分，从而达到语音增强的效果，提高语音信号的可理解性。

技术方案：为实现上述目的，本发明采用的技术方案为：

基于稀疏编码和理想二进制掩膜算法相结合的语音增强方法，针对传统的理想二进制掩膜(IBM)算法的缺陷，首先利用理想的二进制掩膜算法(IBM)对信号功率谱进行初步降噪处理；其次通过稀疏编码对初步处理后的信号做进一步处理，从而实现语音增强的效果；具体包含以下步骤：

(1)将时域信号转换为频域信号；

(2)采用理想二进制掩膜算法(IBM)对语音信号功率谱进行初步降噪处理；

(3)利用稀疏编码理论对初步处理后的信号作进一步降噪处理，同时从被认为是干扰信号中提取有效的语音成分；

(4)由于人耳对相位信息不敏感的特性，因而采用语音信号的初始相位信息恢复出频域信号，进而对其进行反傅里叶变换，得到增强后的目标语音信号。

所述步骤(1)中的域变换的工作过程包括如下步骤：

(a1)对语音信号进行较短的固定时长的分帧；

(a2)对每一帧作快速傅里叶变换(FFT),并保存初始相位。

所述步骤(2)的工作过程包括如下步骤：

(b1)根据语音信号受污染的程度，选定一个阈值；

(b2)计算出每一个时频点的信噪比，若该时频点的信噪比大于选定的阈值，则掩膜中相应位置的元素为1；反之，该元素为0；

(b3)将时频信号和掩膜进行点乘，即可得到经过理想二进制掩膜算法初步处理后的语音信号S^r。

(b4)将时频信号和掩膜的逻辑逆矩阵进行点乘，即可得到在IBM算法中被认为是噪声的干扰信号V^r。

所述步骤(3)的工作过程包括如下步骤：

(c1)根据稀疏理论，将步骤(b3)中初步处理后的语音信号S^r作训练样本，采用K-SVD算法训练出语音信号字典D_s以及相对应的稀疏系数X^e；

(c2)根据稀疏理论，将步骤(b4)中的干扰信号V^r作训练样本，同样采用K-SVD算法训练出干扰信号字典D_v以及采用正交匹配算法(OMP)计算出该字典相应的稀疏系数X^v；

(c3)由于(c2)中的训练样本V^r主要是干扰信号，所以我们将用(c2)训练出的字典D_v表示步骤(2)中语音信号S^r；

(c4)依据原子表示语音信号的比例，将字典D_v中的原子进行排序；

(c5)将前5％的原子组成一个新的字典D′_v，该字典组要用于提取干扰信号V^r中包含的语音信号；字典D_v中其余原子组成字典D′_v；

(c6)由于在稀疏理论中，字典都是冗余的，故字典D′_s与字典D′_v表示的空间存在重叠。因而，字典D′_s与字典D′_v进行正交，正交后的字典标记为D″_s。

所述步骤(4)的工作过程包括如下步骤：

(d1)按照字典D″_s、D′_v的原子位置，将稀疏系数X^v中相应的系数组成新的稀疏系数并标记为X^e和X^v，进而进行语音信号重构；

(d2)由于人耳对相位信息的不敏感特性，我们采用步骤(2)获取的语音信号相位作为目标语音信号相位，进而合成出语音信号；

(d3)将(d2)中的语音信号作反离散傅里叶变换(IFFT)，将分帧的信号合成目标语音信号。

本发明所达到的有益效果：

本发明提供的基于稀疏编码和理想二进制掩膜算法相结合的语音增强方法，针对理想二进制掩膜算法存在的理论缺陷，充分利用稀疏编码理论的学习特性，从两个方面来提高语音信号的可理解性。一方面采用稀疏编码对理想二进制掩膜算法处理后的语音信号进一步降噪；另一方面采用稀疏编码从IBM算法初步获取的干扰信号中提取出语音信号成分。从而最终能够有效提高目标语音信号质量，达到语音增强的效果。

附图说明

图1是本发明语音增强编码框架图；

图2是本发明语音信号采用理想二进制掩膜算法(IBM)进行初步处理阶段编码框架图；

图3是本发明信号采用稀疏编码与重构理论精细处理阶段编码框架图；

图4是对男声语音增强进行语谱比较图；

图5是对女声语音增强进行语谱比较图。

具体实施方式

下面结合附图，对本发明的稀疏编码和理想二进制掩膜算法相结合的语音增强方法作进一步阐述。

本发明设计的语音增强编码框架如图1所示，语音信号首先通过理想二进制掩膜算法(IBM)作初步去噪处理，随后通过稀疏理论进行精细语音提取和精细去噪处理，最终实现重构目标语音信号。

参见图2、图3分别提供了本发明所述的理想二进制掩膜算法处理和稀疏编码处理结构示意图。

图2的理想二进制掩膜算法处理框图中语音信号(8kHz采样率)首先以32ms为一帧进行分帧，帧间重叠75％，然后进行离散傅里叶变换(FFT)计算求解功率谱，本文用512点的FFT求解其功率谱，并保存其相位。然后根据语音强度选定阈值，并计算出功率谱上每一个时频点的信噪比SNR，根据选定的阈值进行判断，即对信噪比SNR大于选定的阈值时，该时频点的信号被认为是语音信号；反之，则认为是干扰信号。公式表示为：

M_{c, n} = \{\begin{matrix} 1, & if | S_{c, n} | > | V_{c, n} | \\ 0, & otherwise \end{matrix} - - - (1)

S_{c, n}^{r} = \{\begin{matrix} S_{c, n} + V_{c, n}, & if M_{c, n} = 1 \\ 0, & otherwise \end{matrix} - - - (2)

V_{c, n}^{r} = \{\begin{matrix} 0, & if M_{c, n} = 1 \\ S_{c, n} + V_{c, n}, & otherwise \end{matrix} - - - (3)

式(1)中，M_c,n为IBM的掩膜矩阵M在时间c和频率n处元素值,S_c,n和V_c,n分别为在该时频点处实际包含的语音信号和干扰信号，和分别表示该时频点处，经过理想二进制掩膜算法处理所获得的语音信号和干扰信号。从式(2)中可知，在一个时频点上，若此时的语音信号大于噪声信号，即M_c,n＝1，则在该点上的信号将被认为是语音信号而保留，但此时的信号并不全是语音信号，其中包含一定噪声信号；同理，从式(3)中可知，若此时的语音信号不大于噪声信号，即M_c,n＝0，此时在该点上信号则被当作噪声信号而丢弃，但丢弃的信号中包含一定的语音信号成分。

图3的稀疏编码框架图中对语音信号S^r和干扰信号V^r进行稀疏分解，可以采用K-SVD算法训练字典和OMP算法计算出字典相应稀疏系数，一般可由下式表示：

(D_{s}, X_{n}^{e}) = \arg \min \underset{n}{Σ} ({| | S_{n}^{r} - M_{n} &CircleTimes; D_{s} X_{n}^{e} | |}_{2} + α {| | X_{n}^{e} | |}_{0}) - - - (4)

(D_{v}, X_{n}^{v}) = \arg \min \underset{n}{Σ} ({| | V_{n}^{r} - {\overset{&OverBar;}{M}}_{n} &CircleTimes; D_{v} X_{n}^{v} | |}_{2} + α {| | X_{n}^{v} | |}_{0}) - - - (5)

式(4)和式(5)中，所有符号下标n表示该符号所表示的矩阵的第n列，||·||₂和||·||₀分别为l₂范数和l₀范数，D_s和D_v为S^r和V^r训练出的字典，和分别为字典D_s和D_v相应的稀疏系数，为点乘符号，α为拉格朗日乘子，M_n为掩膜矩阵M的第n列向量，是M_n的逻辑逆向量。其次，对于语音信号S^r中频率为n的精确的语音成分可通过下式进行重构：

S_{n}^{e} = M_{n} &CircleTimes; D_{s} X_{n}^{e} - - - (6)

在式(5)中，由于字典D_v是样本V^r训练出来的，但V^r主要信号为噪声,即其中部分原子也可以用来表示噪声。为尽可能提取出的信号为语音信号成分，字典D_v被用来表示语音信号S^r，公式表示为：

{\tilde{X}}_{n}^{e} = \arg \min {| | S_{n}^{e} - M_{n} &CircleTimes; D_{v} {\tilde{X}}_{n}^{e} | |}_{2} + α {| | {\tilde{X}}_{n}^{e} | |}_{0} - - - (7)

式(7)中为用字典D_v表示语音信号相对应的稀疏系数。D_v中能够最大化表示语音信号S^r的前百分之五的原子组成新的字典D′_s，其余原子组成字典D′_v。由于字典D_v是冗余的，即字典D′_v与D′_s所表示的空间存在重叠，字典D′_s与D′_v进行正交化后被标记为D″_s。因此，字典D_v能够表示为D_v＝[D″_sD′_v]。综上所述，从干扰信号V^r中提取语音信号的公式可表示为：

(X_{n}^{e^{'}}, X_{n}^{v^{'}}) = \arg \min {| | V_{n}^{r} - {\overset{&OverBar;}{M}}_{n} &CircleTimes; [\begin{matrix} D_{s}^{''} & D_{v}^{'} \end{matrix}] [\begin{matrix} X_{n}^{e^{'}} \\ X_{n}^{v^{'}} \end{matrix}] | |}_{2} + α {| | X_{n}^{e^{'}} | |}_{0} + α {| | X_{n}^{v^{'}} | |}_{0} - - - (8)

式(8)中，和为字典D″_s和D′_v相应的稀疏系数。干扰信号V^r中的语音信号重构可表示为：

S_{n}^{e} = {\overset{&OverBar;}{M}}_{n} &CircleTimes; D_{s}^{″} X_{n}^{e^{'}} - - - (9)

根据上述方法从S^r和V^r提取出的语音信号为，可将理想二进制掩膜算法(IBM)公式修正为：

S_{n}^{e} = \{\begin{matrix} M_{n} &CircleTimes; D_{s} X_{n}^{e}, & if M_{c, n} = 1 \\ \overset{&OverBar;}{M} &CircleTimes; D_{s}^{''} X_{n}^{e^{'}}, & otherwise \end{matrix} - - - (10)

本发明的效果可以通过以下实验进一步说明：

1)实验条件

本实验采用TIMIT语音库中语音作为实验数据，语音采样速率为8kHz,语音帧长为32ms，帧移位8ms，频谱分析采用512点的快速傅里叶变换。采用Matlab R2011b作为仿真工具，计算机配置为Intel酷睿i3-2350/2G。

2)实验内容

利用传统的理想二进制掩膜算法(IBM)和稀疏编码理论相结合对语音进行去噪，从而来提高语音的可理解度。首先，将语音信号从时域转换到频域；然后利用传统的理想二进制掩膜算法对含噪语音信号进行初步去噪；进而再利用稀疏编码进一步去噪和提取在理想二进制掩膜算法丢失的语音成分；最后合成目标语音信号。

首先，分别对男女声语音增强进行语谱图比较，结果如图4、图5所示。其中图4(a)为男生的干净语音信号，图4(b)是受到白噪声污染的语音信号，信噪比为10dB,图4(c)为经过IBM算法处理后的语音信号，图4(d)是经本发明处理后的语音信号。语音质量的评定采用语音感受质量评估(PESQ)为客观评价指标,经过IBM处理后的语音信号的PESQ值为3.459,而经过本发明增强后的语音信号的PESQ值为3.664。图5(a)为来自女生的干净的语音信号，图5(b)是受到嘈杂噪声污染的语音信号，信噪比为0dB,图5(c)为经过IBM算法增强后的语音信号，图5(d)是经本发明处理后的语音信号。此时经IBM处理后的语音信号的PESQ值为3.256，而经过本发明增强后的语音信号的PESQ值为3.689。

为进一步验证本发明的有效性，分别用白噪声、工厂噪声、嘈杂噪声、粉红噪声四种噪声进行测试，即1000秒的干净语音信号分别受到不同信噪比(0dB、5dB、10dB、15dB)的四种噪声的污染。与此同时，分别采用传统的维纳滤波、理想二进制掩膜算法以及本发明所提算法进行处理。经统计得出上述三种算法的增强效果如表1。

表1三种算法的增强效果

3)实验结果分析

从图4和图5中可见，在干净语音受到信噪比为10dB和0dB的白噪声和嘈杂噪声污染时，相对于传统的理想二进制掩膜算法，本发明能够更加完整的提取语音成分和去除噪声，从而达到更好的语音增强效果。而从表1的统计结果可知，相对于前两种算法，本发明对白噪声、工厂噪声、嘈杂噪声、粉红噪声等在不同强度的噪声环境下都具有更好的增强效果，PESQ的值都有一定程度的提高。从表1中还可知，四种噪声相比较而言，本发明对于白噪声能够取得相对比较好的增强效果，这主要是由于白噪声在频域中具有的相同的功率分布，即白噪声不能进行有效的稀疏表示；对粉红噪声的增强效果稍差，其原因在于粉红噪声在低频段具有较高能量，相对集中的能量分布，也即意味着该噪声在频域具有一定的稀疏性，从而对本发明的算法性能具有一定的干扰。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其特征在于:首先利用理想的二进制掩膜算法对信号功率谱进行初步降噪处理；其次通过稀疏编码对处理后的信号做进一步处理，从而实现语音增强的效果，具体包含以下步骤：

(1)将时域信号转换为频域信号；

(2)采用理想二进制掩膜算法对语音信号功率谱进行初步降噪处理；

(4)采用语音信号的初始相位信息恢复出频域信号，进而对其进行反傅里叶变换，得到增强后的目标语音信号。

2.根据权利要求1所述的基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其特征在于：所述步骤(1)中的过程包括如下步骤：

(a1)对语音信号进行固定时长的分帧；

(a2)进行快速傅里叶变换,并保存其初始相位信息。

3.根据权利要求1所述的基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其特征在于：所述步骤(2)中的过程包括如下步骤：

(b1)根据语音信号受污染的程度，选定一个阈值；

(b3)将时频信号和掩膜进行点乘，即可得到经过理想二进制掩膜算法初步处理后的语音信号S^r；

4.根据权利要求1所述的基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其特征在于：所述步骤(3)的工作过程包括如下步骤：

(c2)根据稀疏理论，将步骤(b4)中的干扰信号V^r作训练样本，同样采用K-SVD算法训练出干扰信号字典D_v以及采用正交匹配算法计算出该字典相应的稀疏系数X^v；

(c3)由于步骤(c2)中的训练样本V^r主要是干扰信号，所以用步骤(c2)训练出的字典D_v表示步骤(2)中语音信号S^r；

(c5)将前5％的原子组成一个新的字典D′_s，该字典组要用于提取干扰信号V^r中包含的语音信号；字典D_v中其余原子组成字典D′_v；

(c6)字典D′_s与字典D′_v进行正交，正交后的字典标记为D″_s。

5.根据权利要求1所述的基于稀疏编码和理想二进制掩膜相结合的语音增强方法，其特征在于：所述步骤(4)的工作过程包括如下步骤：

(d2)采用步骤(2)获取的语音信号相位作为目标语音信号相位，进而合成出语音信号；