CN107845389B

CN107845389B - 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法

Info

Publication number: CN107845389B
Application number: CN201711397819.6A
Authority: CN
Inventors: 李如玮; 刘亚楠; 李涛; 孙晓月
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2020-07-17
Anticipated expiration: 2037-12-21
Also published as: CN107845389A

Abstract

本发明提出了一种基于多分辨率倒谱系数和卷积神经网络的语音增强方法，首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR‑GFCC)；其次，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出，对构建的7层神经网络进行训练；最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。本发明充分利用了人耳的工作机理，提出了模拟人耳听觉生理模型的语音特征参数，不仅可以保留更多的语音信息，而且提取过程简单可行。

Description

一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法

技术领域

本发明属于语音信号处理技术领域，涉及到一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法。

背景技术

语音增强技术是指当语音信号被各种各样的噪声(包括语音)干扰，甚至淹没后，从噪声背景中提取出尽可能纯净的语音信号，增强有用的语音信号，抑制、降低噪声干扰的技术。由于干扰的随机性，因而从带噪语音提取完全纯净语音信号几乎不可能。在这种情况下，语音增强的目的主要有两个：一是改进语音质量，消除背景噪声，使听者乐于接受，不感觉疲劳，这是一种主观度量；二是提高语音的可懂度，这是一种客观度量。这两个目的往往不能兼得。

当前，语音增强已发展成为语音信号数字处理的一个重要分支。它在语音通信、语音编码、语音识别和数字助听器等诸多领域中得到了广泛应用。传统的语音增强方法有谱减法、维纳滤波法、最小均方误差法(MMSE)、基于统计模型和基于小波变换等方法，其在平稳噪声环境下有较好的性能，但对非平稳噪声处理效果不理想。随着计算听觉场景分析(CASA)出现，基于人耳听觉模型的方法被应用到语音增强当中。该方法根据估计的理想二值掩蔽值，利用人耳的听觉掩蔽效应实现语音增强。相对于其他语音增强算法,计算听觉场景分析对噪音没有任何假设,具有更好的泛化性能。但由于缺乏谐波结构很难处理语音中的清音成分。

随着深度神经网络技术的发展，由于其具有良好的复杂特征提取表达能力，擅长对数据中的结构化信息进行建模，许多研究者把它引入到语音增强当中，该方法是利用深度神经网络学习一个从带噪特征到分离目标的特征函数。目前常用的基于深度学习的语音增强算法主要是基于目标语音的幅度谱和理想时频掩蔽这两方面展开的。

基于深度神经网络的目标语音幅度谱的语音增强算法是直接估计目标语音的幅度谱，而幅度谱的变化范围较大，学习难度较大，对目标语音幅度谱的准确估计非常困难。

基于深度神经网络的时频掩蔽的语音增强算法是估计目标语音的二值掩蔽或软掩蔽，二者的计算比较简单，但是前者对语音质量损害较大，后者残留的背景噪声较多。

本发明提出了一种基于多分辨率听觉倒谱系数和卷积神经网络相结合的语音增强技术。该技术首先构建了新的能够区分语音和噪声的特征参数—多分辨率听觉倒谱系数(MR-GFCC)；其次，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；然后将提取的新特征参数及其一二阶导数和自适应掩蔽阈值作为深度卷积神经网络(DCNN)的输入和输出，对构建的7层神经网络进行训练；最后利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。

发明内容

本发明的目的是针对目前的语音增强算法在非平稳噪声下算法性能不理想的问题以及语音特征参数提取过程中存在的问题，提出了一种基于多分辨率倒谱系数和深度卷积神经网络相结合的语音增强技术。首先，使用gammatone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型，得到一种新的语音特征参数。然后，跟踪噪声变化构建了基于理想软掩蔽(IRM)和理想二值掩蔽(IBM)的自适应掩蔽阈值；接着利用深度学习中的深度卷积神经网络(DCNN)模型具有提取复杂特征的能力，擅长对数据中的结构化信息进行建模对自适应的掩蔽阈值进行估计，可以解决传统的语音增强算法在非平稳噪声环境下性能不理想的问题。最后，利用DCNN估计的自适应掩蔽阈值对含噪语音进行增强。

基于多分辨率和深度卷积神经网络的语音增强方法的实现步骤如下：

步骤一，将含噪语音通过64通道的gammatone滤波器进行滤波，对每一个频率通道的输出做加窗分帧处理；得到其时频域表示形式(时频单元)；

步骤二，提取每个时频单元的特征参数。

(1)帧长为20ms,帧移为10ms,求每个时频单元的能量，记作CG1；然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性，这不仅符合了人耳的听觉感知特性，而且计算过程简单；最后经过DCT(离散余弦变换)到倒谱域，同时取前36维系数，降低了算法复杂度，得到CG1的倒谱系数，记作CG1-GFCC；

(2)将帧长改为200ms,重复步(1)特征提取过程，得到CG2-GFCC；

(3)使用一个长为11帧，宽为11子带的方形窗对CG1进行平滑，记作CG3，重复(1)中特征提取过程，得到CG3-GFCC；

(4)使用一个长为23帧，宽为23子带的方形窗对CG1进行平滑，记作CG4，重复(1)中特征提取过程，得到CG4-GFCC；

(5)将CG1-GFCC、CG2-GFCC、CG3-GFCC和CG4-GFCC合并得到36*4维的特征向量,得到多分辨率倒谱系数(MR-GFCC)；

(6)MR-GFCC参数做一阶和二阶差分参数得到△MR-GFCC和△△MR-GFCC，MR-GFCC、△MR-GFCC和△△MR-GFCC相结合作为最后的语音特征参数；

步骤三，计算DCNN训练的目标。首先分别计算出IBM和IRM，然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数，最后将二者结合起来计算出自适应的掩蔽阈值；

步骤四，构建深度卷积神经网络模型(DCNN)。构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系；

步骤五，将提取的特征参数和计算的自适应混合掩蔽阈值分别作为DCNN的输入和输出，对构建的7层深度卷积神经网络进行训练，得到网络的权值和偏置；

步骤六，按步骤二的方法提取测试的含噪语音的特征参数，输入到步骤五已经训练好的深度卷积神经网络中，输出一个自适应的掩蔽阈值；

步骤七，利用含噪语音和估计出的自适应的掩蔽阈值去合成增强后的语音。

本发明提出了基于多分辨率倒谱系数和深度卷积神经络的语音增强技术。该技术首先提出了一个新的语音特征参数，它的提取过程中使用了可以模拟人耳听觉模型的gammatone滤波器组进行滤波处理，利用耳蜗对信号的感知机理，把信号分解成64个频带，得到信号的时频表示形式，然后求每个时频单元的能量。再用基于强度-响度感知变换的非线性压缩-立方根压缩对每个时频单元的能量进行压缩，这样在特征参数提取的过程中能更好地符合人耳的听觉感知特性，而且计算过程简单，使得计算复杂度低且运行时间较短。最后经过DCT变换到倒谱域，取前36维系数以及其一、二阶导数作为最后提取的特征参数，进一步降低算法的复杂度。其次，利用IBM和IRM各自的优点构造出一个跟踪噪声变化的自适应的掩蔽阈值。接着，构建了一个7层的深度卷积神经网络，利用它强大的非线性映射能力估计出自适应的掩蔽阈值。最后，利用含噪语音和估计出的自适应掩蔽阈值合成增强后的语音。该技术充分利用了人耳的工作机理，提出了模拟人耳听觉生理模型的语音特征参数，提取过程简单可行，算法复杂度低，同时利用深度卷积神经网络训练得到自适应掩蔽阈值对含噪语音进行增强，使得该算法在非平稳噪声环境中也有较好的性能。

附图说明

图1本发明的实现流程图

图2语音特征参数的提取流程图

图3gammatone滤波器组中每个滤波器的频率相应

图4gammatone滤波器组中每个滤波器合成后的频率相应

图5DCNN的网络结构图

图6自适应掩蔽阈值计算的流程图

具体实施方式

为了更好地理解本发明，下面将详细描述本发明的具体实施方式：

如图1所示，本发明提供一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法，包括以下步骤：

步骤一，对输入的信号进行时频分解，然后进行加窗分帧处理，得到输入信号的时频表示形式；

(1)首先对输入的信号进行时频分解；

语音信号是典型的时变信号，而时频分解正是着眼于真实语音信号组成成分的这种时变谱特征，将一维的语音信号分解成时间-频率表示的二维信号,旨在揭示语音信号中包含多少频率分量级及每个分量随时间是如何变化的。Gammatone滤波器即是时频分解的一种良好的工具。它能模拟人耳基底膜的时频分解机制，为此本文采用Gammatone滤波器组对含噪语音进行时频分解。gammatone滤波器组中每个滤波器的频率相应，如图3所示，gammatone滤波器组中每个滤波器合成后的频率相应，如图4所示。Gammatone滤波器的冲击响应为：

其中t表示采样点，f_c表示第c个gammatone滤波器通道的中心频率，心理声学的研究表明，人耳对声音信号的听觉感知依赖于临界频带。因此将人耳的临界频带的中心频率作为Gammatone滤波器中心频率。本文所用的实验数据采样率为16KHz，所以中心频率的范围设置为[50Hz,8000Hz]，将其划分为64个通道的Gammatone滤波器组可以更好地反映此频带内语音的基频和谐波特性。φ为滤波器的初始相位，为简化模型，将φ设置为0。l为滤波器的阶数,实验表明当l＝4时，Gammatone滤波器可以很好地模拟耳蜗的听觉滤波特性，因此本文中设置l＝4。B(f_c)为滤波器带宽，它被定义为：

B(f_c)＝b*ERB(f_c) (2)

其中b表示衰减因子，由实验数据分析当b＝1.019时，可以得到最好的滤波效果，所以本文设置b＝1.019。ERB(f_c)代表等效矩形带宽(equivalent rectangle bandwidth,ERB)，与中心频率f_c关系可定义为：

ERB(f_c)＝24.7+0.108f_c (3)

其中24.7和0.108为实验中得到的经验值。

输入信号的表达式如公式(4)所示：

x(t)＝s(t)+n(t) (4)

式中x(t)代表含噪语音信号，s(t)代表纯净语音信号，n(t)表示噪声信号，它们的采样率均设置为16kHz。

将x(t)通过64通道的gammatone滤波器进行滤波，将x(t)分解成64个子带信号G_c(t,f_c)，如公式(5)所示：

G_c(t,f_c)＝g(t,f_c)·U(t)·x(t) (5)

其中U(t)单位阶跃函数,c表示子带编号。

(2)对每一个子带信号用汉明窗进行分帧处理，得到其时频域表示形式y_i(t,f_c)(时频单元),如公式(6)所示：

y_i(t,f_c)＝w(t)*G_c(((i-1)*inc+t),f_c) (6)

式中，w(t)为汉明窗函数，汉明窗与矩形窗相比，其频率分辨率相对较低，但是它的低通特性更加平滑，能够更好地反映语音信号的频率特性，所以本文选用汉明窗。i表示帧数,inc为帧移，设置为10ms(160点)，t的范围为[1,L]，L表示帧长，设置为20ms(320点)。

步骤二，对输入信号的时频单元进行特征参数的提取，如图2所示；

(1)计算输入信号的每个时频单元(帧长为20ms)的听觉滤波器输出能量(cochleagram)CG1(i,f_c)，如公式(7)表示：

(2)然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性，立方根非线性压缩能量CG_1(i,f_c)的计算公式为：

CG_1(i,f_c)＝[CG1(i,f_c)]^1/3 (8)

(3)最后经过DCT(离散余弦变换)到倒谱域获得帧长为20ms的听觉倒谱系数F(i,f_c)，其数学表达式为：

式中M为总通道数,本发明取M＝64。当c>36时，F(i,f_c)的值较小，因此取前36维特征，记作CG1-GFCC(i,f_c)；

(4)只将上述帧长20ms改为200ms,和CG1-GFCC(i,f_c)的提取过程一样，得到的特征参数记为CG2-GFCC(i,f_c)；

(5)使用一个长为11帧，宽为11子带的方形窗对CG1(i,f_c)进行平滑，得到CG3(i,f_c),如公式(10)所示：

(10)

再对CG3(i,f_c)进行2中的(2)、(3)操作，得到CG3-GFCC(i,f_c)；

(6)使用一个长为23帧，宽为23子带的方形窗对CG1(i,f_c)进行平滑，得到CG4(i,f_c),如公式(11)所示：

再对CG4(i,f_c)进行2中的(2)、(3)操作，得到CG4-GFCC(i,f_c)；

(7)将CG1-GFCC(i,f_c)、CG2-GFCC(i,f_c)、CG3-GFCC(i,f_c)和CG4-GFCC(i,f_c)进行合并，得到多分辨率听觉倒谱系数-MR-GFCC(i,f_c)，如公式(12)所示：

MR-GFCC(i,f_c)＝[CG1-GFCC(i,f_c)；CG2-GFCC(i,f_c)；CG3-GFCC(i,f_c)；CG4-GFCC(i,f_c)] (12)

(8)动态特征的提取。动态特征可以保留语音时域信息，与原始MR-GFCC相互补充可以保留更多的语音信息，有利于提高DCNN对目标估计的准确性。动态特征可以通过对公式(12)中的MR-GFCC(i,f_c)参数做一阶和二阶差分参数得到△MR-GFCC(i,f_c)和△△MR-GFCC(i,f_c)。其定义分别由公式(13)和(14)所示：

式中k表示帧数差，k通常取1。

最后提取的特征参数为v_a(i,f_c)＝[MR-GFCC(i,f_c)；△MR-GFCC(i,f_c)；△△MR-GFCC(i,f_c],a为特征维数，a＝432。

步骤三，计算DCNN的目标，如图6所示；

本发明提出的自适应掩蔽阈值作为DCNN的训练目标。其公式为：

z(i,f_c)＝α*IBM(i,f_c)+(1-α)*IRM(i,f_c) (15)

(1)首先计算理想二值掩蔽(IBM)，公式如下：

其中E_s(i,f_c)和E_n(i,f_c)分别代表第i帧中心频率为f_c的纯净语音和噪声的能量，计算公式由公式(17)、(18)得到。lc是阈值，通常取比含噪语音信噪比低5dB。t表示帧数，f_c表示中心频率。IBM(i,f_c)表示第i帧中心频率为f_c的纯净语音和噪声的理想二值掩蔽值。

(2)理想软掩蔽值(IRM)是一个比值的时频掩蔽矩阵，通过纯净语音和噪声计算得到，其定义为：

式中β是一个可调的尺度因子，大量的实验表明β＝0.5是最好的选择。

(3)α－自适应系数的估计。

假设前6帧是噪声帧，由式计算出除去第1帧后5帧的噪声能量n²(i,f_c)，由这5帧按式(20)(21)求出初始噪声能量

作为第6帧的噪声能量。

式中m表示噪声前5帧的索引，之后各帧的带噪语音信号的能量按式(20)求出，而该帧的噪声能量按式(22)自适应估计：

n_w ²(i,f_c)＝α(i,f_c)×n²(i-1,f_c)+(1-α(i,f))×n²(i,f_c) (22)

每一帧每个通道的信噪比SNR(i,f_c)由式(23)计算：

α(t,f_c)由s形函数产生，由式(24)定义：

(4)根据公式(15)计算出自适应的掩蔽阈值z(i,f_c)。

步骤四，构建深度卷积神经网络模型(DCNN)；

由于深度学习中的深度卷积神经网络(DCNN)有对复杂特征优秀的抽象和建模能力，所以本文通过DCNN对含噪语音提取的特征进行建模去估计。然后再用估计的IRM和IBM与含噪语音去合成增强后的语音。DCNN模型的结构一般由3部分组成：输入层、隐含层和输出层。输入层用来输入含噪语音的特征参数，隐含层由卷积层、池化层层和全连接层组成，输出层用来输出估计的目标。它们之间通过传递函数来传递数据。

本文构建的DCNN模型的网络结构如图5所示。由1个输入层，5个隐含层和1个输出层构成。因为随着隐含层数目太少，不能很好得学习输入和输出之间的映射关系，但随着隐层数目的增多，网络结构变得复杂，它的建模能力下降。实验中发现隐含层数目为5时，它的性能较好。其中输入层各节点代表MR-GFCC的特征参数(432维)；隐含层中的卷积层1有64个卷积滤波器，大小为7x7；池化层2采用的Max-Poling，滤波器个数为64，大小为3x3；卷积层2有128个卷积滤波器，大小为3x3,池化层4也采用Max-Poling，滤波器个数为128，大小3x3；全连接层5的神经元个数为1024；输出层的各节点代表一帧的gammatone滤波器组64个频率通道的自适应掩蔽值。输入层和隐含层之间的传递函数采用sigmoid函数，sigmoid函数是一种非线性函数，输出范围在(0,1)之间，使数据在DCNN模型传递的过程中不容易发散，输出层的传递函数是softmax函数。

步骤五，将步骤四中提取的特征参数v_a(i,f_c)和步骤三计算的自适应掩蔽阈值z(i,f_c)分别作为DCNN的输入和输出，采用自适应学习率的随机梯度下降算法对网络进行训练，训练完成以后，保存网络的权值和偏置，其训练采用的是线下训练。

步骤六，按步骤二的方法提取测试的含噪语音的特征参数，输入到步骤五已经训练好的深度卷积神经网络中，输出一个自适应的掩蔽阈值Y(i,f_c)，如公式(25)所示；

Y(i,f_c)＝θ(X(i,f_c) (25)

式中θ()表示训练好的DCNN网络模型参数，X(i,f_c)表示测试的含噪语音的特征参数，Y(i,f_c)表示DCNN估计出的自适应掩蔽阈值。

步骤七，利用测试的含噪语音和步骤六估计出的自适应的掩蔽阈值去合成增强后的语音。

Claims

1.一种基于多分辨率和深度卷积神经网络的语音增强方法，其特征在于，包括以下步骤：

步骤一，将含噪语音通过64通道的gammatone滤波器进行滤波，对每一个频率通道的输出做加窗分帧处理，得到其时频域表示形式；

步骤二，提取每个时频单元的特征参数

(1)帧长为20ms,帧移为10ms,求每个时频单元的能量，记作CG1；然后对每个时频单元的能量进行立方根非线性压缩变化来模拟人耳对语音的强度-响度感知特性；最后经过DCT到倒谱域，同时取前36维系数，得到CG1的倒谱系数，记作CG1-GFCC；

(2)将帧长改为200ms，重复步(1)特征提取过程，得到CG2-GFCC；

步骤三，计算DCNN训练的目标

首先分别计算出IBM和IRM，然后通过跟踪噪声变化自适应的估计出IBM和IRM前面的系数，最后将二者结合起来计算出自适应的掩蔽阈值；具体为：

步骤三中自适应掩蔽阈值作为DCNN的训练目标，其公式为：

z(i,f_c)＝α*IBM(i,f_c)+(1-α)*IRM(i,f_c) (15)

(1)首先计算理想二值掩蔽(IBM)，公式如下：

其中E_s(i,f_c)和E_n(i,f_c)分别代表第i帧中心频率为f_c的纯净语音和噪声的能量，lc是阈值，t表示帧数，f_c表示中心频率，IBM(i,f_c)表示第i帧中心频率为f_c的纯净语音和噪声的理想二值掩蔽值；

其中，β是一个可调的尺度因子，

(3)α－自适应系数的估计

作为第6帧的噪声能量，

其中，m表示噪声前5帧的索引，之后各帧的带噪语音信号的能量按式(20)求出，而该帧的噪声能量按式(22)自适应估计：

n_w ²(i,f_c)＝α(i,f_c)×n²(i-1,f_c)+(1-α(i,f))×n²(i,f_c) (22)

每一帧每个通道的信噪比SNR(i,f_c)由式(23)计算：

α(t,f_c)由s形函数产生，由式(24)定义：

(4)根据公式(15)计算出自适应的掩蔽阈值z(i,f_c)；

步骤四，构建深度卷积神经网络模型(DCNN)，构建了一个7层的深度卷积神经网络学习输入和输出之间的非线性关系；

2.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法，其特征在于，步骤四深度卷积神经网络模型(DCNN)由1个输入层，5个隐含层和1个输出层构成；输入层用来输入含噪语音的特征参数，隐含层由卷积层、池化层层和全连接层组成，输出层用来输出估计的目标；它们之间通过传递函数来传递数据。

3.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法，其特征在于，步骤五，将步骤四中提取的特征参数v_a(i,f_c)和步骤三计算的自适应掩蔽阈值z(i,f_c)分别作为DCNN的输入和输出，采用自适应学习率的随机梯度下降算法对网络进行训练，训练完成以后，保存网络的权值和偏置，其训练采用的是线下训练。

4.如权利要求1所述的基于多分辨率和深度卷积神经网络的语音增强方法，其特征在于，步骤六，按步骤二的方法提取测试的含噪语音的特征参数，输入到步骤五已经训练好的深度卷积神经网络中，输出一个自适应的掩蔽阈值Y(i,f_c)，如公式(25)所示；

Y(i,f_c)＝θ(X(i,f_c) (25)

其中，θ()表示训练好的DCNN网络模型参数，X(i,f_c)表示测试的含噪语音的特征参数，Y(i,f_c)表示DCNN估计出的自适应掩蔽阈值。