CN111341332A

CN111341332A - 基于深度神经网络的语音特征增强后置滤波方法

Info

Publication number: CN111341332A
Application number: CN202010129725.6A
Authority: CN
Inventors: 武鹏飞; 周翊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26

Abstract

本发明涉及一种基于深度神经网络的语音特征增强后置滤波方法，属于语音滤波技术领域，包括以下步骤：S1：将纯净语音与噪声按不同信噪比混合，生成训练数据；S2：选择训练数据的对数功率谱LPS作为特征进行提取，以纯净语音的LPS作为目标；S3：使用标准结构深度神经网络DNN进行训练；S4：对训练结果进行损失估计；S5：输入损失语音，基于损失估计进行损失补偿。相比于现有技术，本发明能够在保证语音质量的同时有效抑制噪声干扰。

Description

基于深度神经网络的语音特征增强后置滤波方法

技术领域

本发明属于语音滤波技术领域，涉及一种基于深度神经网络的语音特征增强后置滤波方法。

背景技术

语音是人类最自然、最常用的信息传递方式。无论是在日常生活中还是在快速发展的互联网上，语音作为主要媒体之一，承载着大量的有用信息。因此，对语音中的信息进行分析、处理和识别无疑具有广阔的应用前景。

目前，在提高语音识别系统的噪声鲁棒性方面存在两种策略：①减小噪声对特征的影响使其适应干净语音训练的声学模型，即特征增强；②修改声学模型使其适应混噪语音，即模型补偿。相比之下，特征增强运行在识别系统的前端，具有较小的时间复杂度；而且无需改变声学模型和识别器结构，便于集成到不同的识别系统。

一种理想的语音特征应该有3个特点：

1.良好的可区分性，即相同类别样本的特征相似，不同类别样本的特征具有较大差异，这是模式分类的内在要求；

2.较高压缩率，即在满足特点1的情况下特征位数尽可能地少，以减小识别的时间复杂度；

3.具有噪声鲁棒性。

传统信号处理的语音特征增强算法，目前存在的方法主要有3种类型：

1.基于频谱估计的，如维纳滤波、谱减法和幅度谱估计法等；

2.基于语音产生模型的，如自回归模型滤波，卡尔曼滤波和基于隐马尔科夫模型的方法；

3.基于子空间的，如信号模型子空间法。

存在用于语音特征增强的两种主要方法。在第一类中，直接评估增强功能。在第二类方法中，首先估计在信号中引起的失真，以便随后去除。因此，这种技术被称为间接技术，因为属于此类的大多数方法都可以补偿功率谱，对数谱或倒谱域中的失真。

其中，最常用的即是话音活动检测算法，在信号的无声段来估计和更新噪声谱。尽管这种方法在平稳噪声，例如白噪声，可以获得，但是在更多的现实场景中，噪声谱特性不断更新变化，于是该方法的效果就不尽理想。另外，基于MMSE的后置滤波器也是常用的方法。首先，其采用的噪声估计算法为MCRA，该算法采用带噪语音功率与其局部最小值之比计算语音存在概率，并利用这个概率递归地更新噪声功率估计值。然而，局部最小值的估计可能会出现最多D帧的延迟(D为最小值统计算法的分析窗长)，这种延迟对跟踪功率快速变化的非平稳噪声非常不利。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度神经网络的语音特征增强后置滤波方法，在抑制噪声的同时能够有效提高语音的质量。

为达到上述目的，本发明提供如下技术方案：

一种基于深度神经网络的语音特征增强后置滤波方法，包括以下步骤：

S1：将纯净语音与噪声按不同信噪比混合，生成训练数据；

S2：选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取，以纯净语音的LPS作为目标；

S3：使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练；

S4：对训练结果进行损失估计；

S5：输入损失语音，基于损失估计进行损失补偿。

进一步，步骤S2中，选择训练数据的LPS作为特征，纯净语音的LPS作为目标，维度均为257。

进一步，步骤S2中，输出层包含257个神经元，Dropout比例为0.2。

进一步，所述标准结构DNN包括一个输入层，三个隐藏层及一个输出层。

进一步，步骤S3中所述DNN训练包括两个阶段：

第一阶段：使用受限玻尔兹曼机(restricted Boltzmann machine,RBM)对DNN参数进行无监督的预训练，以避免网络收敛到局部最优解。将相邻两层视作一个RBM，使用对比散度算法(Contrastive Divergence,CD)算法逐层调整网络参数；

第二阶段：有监督的精细调优训练，基于最小均方误差准则在DNN输出和对应的标签之间构建代价函数，并用误差反向传播算法最小化所述代价函数。

进一步，所述第二阶段中，代价函数公式如下：

其中E表示均方误差，

和IRM_n分别表示第n帧DNN输出向量和对应标签，

表示DNN的输入向量，上下文为2τ+1帧，其中τ＝2，N表示数据批的大小，W和b是网路的权重和偏置向量。

本发明的有益效果在于：相比于现有技术，本发明能够在保证语音质量的同时有效抑制噪声干扰。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明所述基于深度神经网络的语音特征增强后置滤波方法流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1所示，本发明提供一种基于深度神经网络的语音特征增强后置滤波方法，本发明采用标准结构的DNN，包含一个输入层、三个隐藏层和一个输出层，包括以下步骤：

S1：将DNN用做语音降噪任务，将纯净语音与噪声按不同信噪比混合，生成训练数据；

S2：选择训练数据的对数功率谱(Log Power Spectrum,LPS)作为特征进行提取，以纯净语音的LPS作为目标，维度均为257。输出层包含257个神经元，Dropout比例为0.2。

S3：使用标准结构深度神经网络(Deep Neural Networks,DNN)进行训练，包括两个阶段：

第二阶段：有监督的精细调优训练，基于最小均方误差准则在DNN输出和对应的标签之间构建一个代价函数，并用误差反向传播算法最小化该代价函数，代价函数公式如下：

其中E表示均方误差，

和IRM_n分别表示第n帧DNN输出向量和对应标签，

S4：对训练结果进行损失估计；

S5：输入损失语音，基于损失估计进行损失补偿。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。