CN107610712B

CN107610712B - 一种结合mmse和谱减法的语音增强方法

Info

Publication number: CN107610712B
Application number: CN201710978076.5A
Authority: CN
Inventors: 颜钱明; 虞安波
Original assignee: Ht Acoustics Technology Beijing Co ltd
Current assignee: Ht Acoustics Technology Beijing Co ltd
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2020-07-03
Anticipated expiration: 2037-10-18
Also published as: CN107610712A

Abstract

本发明提出了一种结合MMSE和谱减法的语音增强方法。该方法包括：获取语音信号并作预加重与傅立叶变换；估计噪声功率谱；计算先验与后验信噪比，对信号作基于短时谱的MMSE处理；利用改进的谱减法计算增益矩阵和孤立因子；利用孤立因子修正增益矩阵以抑制音乐噪声；反变换得到增强的语音信号。本发明提出的算法能更有效地抑制音乐噪声，显著提高了去噪后的语音信噪比与可懂度。

Description

一种结合MMSE和谱减法的语音增强方法

技术领域

本发明属于语音信号处理技术领域，具体地说是指一种结合MMSE和谱减法的语音增强方法。

背景技术

我们日常接收到的语音信号很难是纯净的，它们都夹杂着或多或少的噪声，噪声可能来自环境、录音设备甚至是说话人自身，因此为改善语音质量，提高语音可懂度，我们需要应用语音增强技术。

语音增强是语音处理的一项重要技术，其目的是从带噪语音中提取尽可能纯净的原始语音。但由于噪声信号都是随机产生的，完全消噪几乎不可能。因此，实际语音增强的目标主要有：提高语音清晰度，改善语音质量；提高语音可懂度，方便听者理解。

在语音增强领域，基本谱减法(SS)是原理简单，计算量小的一种经典方法，它最初由美国学者Steven Boll提出，利用人耳对相位不敏感的特点，用带噪语音相位替代纯净语音，然后用带噪语音的频谱减去噪声频谱，其结果与带噪语音相位结合得到语音增强后的结果。其基本公式为

其中

是增强语音频谱，Y(ω)是带噪语音谱，

是估计的噪声谱。之后有很多人对谱减法作出了改进，目前最流行的谱减法公式为：

容易看出当参数ε＝2，α＝1时，上式即化为传统谱减法。但是无论是传统还是改进的谱减法，增强后的语音都会引入尖锐的音乐噪声，从而影响可懂度和信噪比的提升。如何抑制音乐噪声也是谱减法面临的最大的问题。

相比于谱减法，最小均方误差短时谱幅值估计法(MMSE-STSA)引入的音乐噪声就要小很多，这也是一种基于傅立叶短时谱的语音增强算法。它通过假设语音与噪声服从独立高斯分布，根据估计的后验和先验信噪比来计算纯净语音。MMSE能在一定程度上抑制音乐噪声的原因是它采用了Decision-Directed方法(直接判决法)来估计先验信噪比，起到了平滑作用。但是MMSE也存在着语音增强程度有限的问题，在抑制音乐噪声的同时也限制了其提升语音质量的能力。

发明内容

有鉴于此，本发明提出了一种基于MMSE和谱减法的语音增强方法，综合了二者的优点，在保证语音质量的同时抑制了音乐噪声。

第一方面，本发明实施例提供了一种结合MMSE和谱减法的语音增强方法，包括：获取输入语音，对输入语音做预加重及短时傅立叶变换处理得到语音谱，从中估计初始噪声谱，采用MMSE算法预处理。预处理后的语音用改进的谱减法进一步处理，并引入孤立因子抑制音乐噪声的产生。然后将处理后的频谱反傅立叶变换以及去加重得到最终音频。

所述预加重包括：采用滤波器H(z)＝1-μz^-1对原始语音滤波，提升高频质量，其中z表示作z变换，μ是预加重系数。

所述短时傅立叶变换包括：带噪语音、纯净部分、加性噪声分别用y(t),s(t),n(t)表示，有y(t)＝s(t)+n(t)，假设语音与噪声不相关，对语音分帧加汉明窗，变换到频域后对第k帧第i个点有Y²(k,i)＝S²(k,i)+N²(k,i)，其中Y,S,N表示变换到频域后的带噪语音、纯净部分和加性噪声。

所述估计初始噪声谱包括：利用语音间隙估计噪声功率谱N²(k,i)。静寂帧的起始段采用VAD语音活动检测，将最长的一段判别为噪声的起点作为估计噪声的起点，并返回那段噪声的长度。设静寂段帧数为NIS，则估计噪声谱

并且每一次迭代过程中，利用VAD语音活动检测更新此估计值。

所述MMSE预处理包括：估计后验信噪比

采用直接判决法估计出先验信噪比ξ_k，可求得MMSE的增益矩阵，得到处理信号。

所述改进的谱减法包括：对于上面得到的处理信号，采用改进的谱减法，得到增益矩阵G，具体公式如下(为简便省略角标)：

其中α是根据当前帧信噪比γ定的参数，确定谱减的程度，β是一个接近0的参数。

所述孤立因子包括：上面得到了增益矩阵G以及初步纯净语音估计值，根据相邻位置上数值的相关性，可以判断音乐噪声的位置，为此引入孤立因子ι，对音乐噪声作自适应的判别后，将其与增益矩阵G点乘，得到修饰过后的增益矩阵。

所述傅立叶反变换和去加重处理包括：根据增强后的频域结果，配合原始语音信号的相位谱，对其进行傅立叶反变换和去加重处理得到最终增强的语音信号。

第二方面，本发明实施例提供了一种改进的谱减法和孤立因子来抑制音乐噪声。

β是一个接近0的参数。信噪比

参数

其中截距

minα,maxα,minγ,maxγ是手动设置的上下限。

所述孤立因子包括：上面得到了增益矩阵G以及初步纯净语音估计值，根据相邻位置上数值的相关性，可以判断音乐噪声的位置，为此引入孤立因子

其中ι_u,ι_d分别是根据当前点后2～5个点和当前点之前2～5个点计算得出的参数，用以反映语音相邻元素之间的相关性。

本发明的有益效果是，与现有的谱减法和MMSE相比，它既通过引入孤立因子解决了谱减法产生音乐噪声的问题，又有效改善了MMSE提升质量有限的缺陷。同时将谱减法改进为增益矩阵的形式，更加方便后续的操作。所引入的孤立因子很好的利用了相邻语音之间的相关性，从而使本算法有了自适应的成分。其语音增强效果较传统的增强方法有明显的提升。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明算法原理框架图；

图2为本发明设计语音处理软件界面图；

图3为实施例带噪语音与增强语音的波形图及时频图；

图4为实施例带噪语音及纯净语音各自的SNR和PESQ得分。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面结合具体的实施方式对本发明做进一步的解释说明。

实本发明的核心内容是：实现了一种综合MMSE和谱减法优点的语音增强算法，引入的孤立因子能有效抑制音乐噪声，并获得较好的语音质量。算法全部流程如图1原理框架图所示。

第一步：预加重。本算法首先对带噪语音信号作预加重，预加重采用滤波器H(z)＝1-μz^-1以提升高频质量，其中z表示作z变换，μ是预加重系数，一般取0.97～0.99。

第二步：短时傅立叶变换。带噪语音、纯净部分、加性噪声分别用y(t),s(t),n(t)表示，则有y(t)＝s(t)+n(t)，假设语音与噪声不相关，加窗变换到频域后对第k帧第i个点有Y²(k,i)＝S²(k,i)+N²(k,i)，其中Y,S,N表示变换到频域后的带噪语音、纯净部分和加性噪声。由于人耳对相位不敏感，因此直接分离出原相位谱作为最终的相位谱。

第三步：估计初始噪声谱。利用语音间隙估计噪声功率谱N²(k,i)。静寂帧的起始段采用VAD语音活动检测，如图4所示，红色曲线部分即为VAD检测为噪声的部分。将最长的一段判别为噪声的起点作为估计噪声的起点，并返回那段噪声的长度，以适应初始阶段没有非语音帧的情况。设静寂段帧数为NIS，则噪声

并且每一次迭代过程中，利用VAD检测更新并平滑此估计值。

第四步：MMSE处理。通过MMSE的方法初步处理，估计后验信噪比

采用直接判决法估计出先验信噪比ξ_k，可求得MMSE的增益矩阵

其中Γ是伽马函数，

是合流超几何函数，I₀,I₁是零阶和一阶贝塞尔函数，

由先验和后验信噪比确定。增益矩阵与原信号点乘得到处理信号，然后由初步处理的结果更新噪声谱。

第五步：改进的谱减法处理。对于上面得到的处理信号，采用改进的谱减法，得到增益矩阵，具体公式如下(为简便省略角标)：

其中信噪比

α是根据当前帧信噪比γ定的参数，确定谱减的程度，

其中截距

minα,maxα,minγ,maxγ是手动设置的上下限，β是一个接近0的参数。

第六步：计算孤立因子。计算增益矩阵G₂以及初步纯净语音估计值，根据相邻位置上数值的相关性，可以判断音乐噪声的位置，为此引入孤立因子

其中ι_u,ι_d分别是根据当前点后2～5个点和当前点之前2～5个点计算得出的参数，用以反映语音相邻元素之间的相关性。用孤立因子反映对音乐噪声的自适应判别，然后将其与矩阵G₂点乘，得到修饰过后的增益矩阵。

第七步：变换回时域得到处理结果。以上得到了增强后的频域结果，对其进行傅立叶反变换和去加重处理得到最终增强的语音信号。

将所述方法做成语音处理软件，如图2所示。软件集成了语音处理相关的各种功能。软件分为语音分析、语音增强、语音质量评价三个部分。

语音分析可以加载、播放、停止播放语音，两幅图分别显示当前语音的波形图和时频图，如图3上是带噪语音的波形和时频图。

语音增强部分可以选择增强算法，设置预加重系数及估计噪声的时长，默认的预加重系数为0.9375，时长为0.25s。增强以后可以保存、播放、停止播放，两幅图分别显示增强后语音的波形图和时频图,如图3下所示。

语音质量评价部分需要加载纯净语音作为比较，可以计算信噪比和分段信噪比，以及宽带和窄带的PESQ得分。如图4所示，原语音信噪比为-9.16dB，PESQ得分2.047，增强后为0.08dB，PESQ得分2.264。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在上面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

Claims

1.一种结合MMSE和谱减法的语音增强方法，其特征在于：

获取输入语音，对输入语音做预加重及短时傅立叶变换处理得到语音谱，从中估计初始噪声谱，采用MMSE算法预处理；

预处理后的语音用改进的谱减法进一步处理，并引入孤立因子抑制音乐噪声的产生；然后将处理后的频谱反傅立叶变换以及去加重得到最终音频；

所述改进的谱减法包括：对于上面得到的处理信号，采用改进的谱减法，得到增益矩阵G，具体公式如下：

其中α是根据当前帧信噪比γ定的参数，确定谱减的程度，β是一个接近0的参数；第k帧第i个点的信噪比

参数

其中截距

minα,maxα,minγ,maxγ是手动设置的上下限，Y,N表示短时傅立叶变换中变换到频域后的带噪语音和加性噪声；

所述孤立因子包括：上面得到的增益矩阵G以及初步纯净语音估计值，所述初步纯净语音估计值通过所述短时傅立叶变换中的纯净部分求得，根据相邻位置上数值的相关性判断音乐噪声的位置，所述孤立因子

其中ι_u,ι_d分别是根据当前点后2～5个点和当前点之前2～5个点计算得出的参数，用以反映语音相邻元素之间的相关性；对音乐噪声作自适应的判别后，将其与所述增益矩阵G点乘，得到修饰过后的增益矩阵。

2.根据权利要求1所述的一种结合MMSE和谱减法的语音增强方法，其特征在于，所述预加重包括：采用滤波器H(z)＝1-μz^-1对原始语音滤波，提升高频质量，其中z表示作z变换，μ是预加重系数。

3.根据权利要求1所述的一种结合MMSE和谱减法的语音增强方法，其特征在于，所述短时傅立叶变换包括：带噪语音、纯净部分、加性噪声分别用y(t),s(t),n(t)表示，有y(t)＝s(t)+n(t)，假设语音与噪声不相关，对语音分帧加汉明窗，变换到频域后对第k帧第i个点有Y²(k,i)＝S²(k,i)+N²(k,i)，其中Y,S,N表示变换到频域后的带噪语音、纯净部分和加性噪声。

4.根据权利要求1所述的一种结合MMSE和谱减法的语音增强方法，其特征在于，所述估计初始噪声谱包括：利用语音间隙估计噪声功率谱N²(k,i)；静寂帧的起始段采用VAD语音活动检测，将最长的一段判别为噪声的起点作为估计噪声的起点，并返回那段噪声的长度；设静寂段帧数为NIS，则估计噪声谱

5.根据权利要求1所述的一种结合MMSE和谱减法的语音增强方法，其特征在于，所述MMSE预处理包括：估计后验信噪比

6.根据权利要求1所述的一种结合MMSE和谱减法的语音增强方法，其特征在于，所述反傅立叶变换以及去加重处理包括：根据增强后的频域结果，配合原始语音信号的相位谱，对其进行傅立叶反变换和去加重处理得到最终增强的语音信号。