CN111863007A

CN111863007A - 一种基于深度学习的语音增强方法及系统

Info

Publication number: CN111863007A
Application number: CN202010554629.6A
Authority: CN
Inventors: 万辛; 沈亮; 侯炜; 柳林; 倪善金; 倪江帆; 戚梦苑; 冯象雷; 林格平; 黄远
Original assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Current assignee: National Computer Network and Information Security Management Center; Iflytek Information Technology Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-30

Abstract

本发明公开了一种基于深度学习的语音增强方法及系统，该方法包括如下步骤：步骤SS1：获得带噪语音的多个IRM预测值的解的集合；步骤SS2：将来自所述Boosting‑DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入，预测最终的IRM预测值集合

本发明通过将Boosting‑DNN语音增强模型和Ensemble‑DNN集成语音增强模型这两个DNN串接起来的方式，有效的解决了一个神经网络由于层次太深训练不稳定的现象，构建一种非常深的网络结构，彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来，以便后端识别模型能正确识别语音的内容。

Description

一种基于深度学习的语音增强方法及系统

技术领域

本发明涉及一种基于深度学习的语音增强方法及系统，属于语音处理技术领域。

背景技术

传统语音增强需要对噪声信号和干净语音信号的独立性和特征分布做出假设，不合理的假设会造成噪声残留、语音失真等问题，导致语音增强效果不佳；此外，噪声本身的随机性和突变性也会影响传统语音增强方法的鲁棒性；总的来说，其对平稳噪声的抑制效果较好，且运行效率高。但是其对于非平稳噪声效果较差，且易有较大程度的失真。而基于深度神经网络的语音增强方法，由于具备强大的非线性拟合能力，对非平稳噪声表现出了更好的效果，且语音失真情况较少。

近几年基于语音识别的输入法和语义理解被大幅应用于智能手机，车载设备，可穿戴设备以及智能家居的各个电器设备中，这些设备通常都在比较复杂的声学环境中被用户所用。而复杂的噪声环境通常让语音的识别率显著下降，识别率的下降意味着这些设备无法准确理解用户的指令，这就会大幅降低用户的体验。因此，前端语音增强技术就可以确保把语音从带噪信号中分离出来，以便后端识别模型能正确识别语音的内容。

发明内容

本发明的目的在于，克服现有技术存在的技术缺陷，解决上述技术问题，提出一种基于深度学习的语音增强方法及系统。

本发明具体采用如下技术方案：一种基于深度学习的语音增强方法，其特征在于，包括如下步骤：

步骤SS1：获得带噪语音的多个IRM预测值的解的集合；

步骤SS2：将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪特征作为输入，预测最终的IRM预测值集合

作为一种较佳的实施例，所述步骤SS1具体包括：在输入端，带噪语音在当前帧左右两边各扩D帧，即[x_n-D,x_n-D+1,…,x_n,…,x_n+D-1,x_n+D]，为获得对当前帧时频掩蔽的多个预测值，boosting-DNN语音增强模型，在输出端进行扩帧，目标变为[y_n-D,y_n-D+1,…,y_n,…,y_n+D-1,y_n+D]，在预测当前帧的时频掩蔽y_n时，也预测邻域帧的时频掩蔽IRM；对每一帧得到对当前帧时频掩蔽的2D+1个预测值，即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计；所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]。

作为一种较佳的实施例，所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括：将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]拼接带噪语音对数功率谱特征LPS[x_t-D,x_t-D+1,…,x_t,…,x_t+D-1,x_t+D]作为输入。

本发明还提出一种基于深度学习的语音增强系统，其特征在于，包括：

Boosting-DNN语音增强模型，用于：获得噪声语音的多个IRM预测值的解的集合；

Ensemble-DNN集成语音增强模型，用于：将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入，预测最终的IRM预测值集合

所述Boosting-DNN语音增强模型的输入端接带噪语音，所述Boosting-DNN语音增强模型的输出端拼接所述带噪语音的带噪特征后与所述Ensemble-DNN集成语音增强模型的输入端通讯连接。

作为一种较佳的实施例，所述获得噪声语音的多个IRM预测值的解的集合具体包括：在输入端，噪声语音在当前帧左右两边各扩D帧，即[x_n-D,x_n-D+1,…,x_n,…,x_n+D-1,x_n+D]，为获得对当前帧时频掩蔽的多个预测值，boosting-DNN语音增强模型，在输出端进行扩帧，目标变为[y_n-D,y_n-D+1,…,y_n,…,y_n+D-1,y_n+D]，在预测当前帧的时频掩蔽y_n时，也预测邻域帧的时频掩蔽IRM；对每一帧得到对当前帧时频掩蔽的2D+1个预测值，即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计；所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]。

本发明所达到的有益效果：本发明针对如何解决复杂的噪声环境通常让语音的识别率显著下降，识别率的下降意味着这些设备无法准确理解用户的指令，导致大幅降低用户的体验的技术问题，通过设计一种基于深度学习的语音增强方法及系统，将Boosting-DNN语音增强模型和Ensemble-DNN集成语音增强模型这两个DNN串接起来的方式，有效的解决了一个神经网络由于层次太深训练不稳定的现象，构建一种非常深的网络结构，从实际的实验效果来看，也明显优于只采用一个神经网络的方法，彻底解决前端语音增强技术就可以确保把语音从带噪信号中分离出来，以便后端识别模型能正确识别语音的内容。

附图说明

图1是本发明的Boosting-DNN语音增强模型的拓扑图。

图2是本发明的一种基于深度学习的语音增强方法的原理拓扑图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1：如图1和图2所示，本发明提出一种基于深度学习的语音增强方法，其特征在于，包括如下步骤：

步骤SS1：获得带噪语音的多个IRM预测值的解的集合；

实施例2：本发明还提出一种基于深度学习的语音增强系统，其特征在于，包括：

Ensemble-DNN利用集成学习的理念，可以被看作干净语音的强预测器，它将许多较弱的回归函数(Boosting-DNN的输出)组合成一个强的回归函数。

需要说明的是：两个DNN串接起来的方式，有效解决一个网络由于层次太深训练不稳定的现象，可以认为是一种非常深的网络结构；从实际的实验效果来看，也明显优于只采用一个神经网络的方法。

在神经网络训练过程中，Dropout是一种训练深度神经网络时常用的算法，能有效地防止神经网络的过拟合、增强神经网络的泛化能力。当前对Dropout的解释包括集成学习、正则化策略、朴素贝叶斯理论等等。我们合理地利用Dropout策略，也可以一定程度上地提升语音增强模型的泛化能力。

目前常用的基于深度学习的语音增强算法主要从输入特征、优化目标、模型结构这三方面展开的。如基于深度神经网络(DNN)的语音增强算法，利用DNN建立噪声和干净语音之间的映射函数，采用全局均衡方差和噪声感知训练的方法来估计干净语音的对数功率谱。通过训练长短(Long Short-Term Memory Recurrent Neural Network,LSTMRNN)来估计带噪语音中的干净语音和噪声特征，最后通过掩蔽的方法将噪声部分从带噪频谱中去除掉的语音增强算法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度学习的语音增强方法，其特征在于，包括如下步骤：

步骤SS1：获得带噪语音的多个IRM预测值的解的集合；

2.根据权利要求1所述的一种基于深度学习的语音增强方法，其特征在于，所述步骤SS1具体包括：在输入端，带噪语音在当前帧左右两边各扩D帧，即[x_n-D,x_n-D+1,…,x_n,…,x_n+D-1,x_n+D]，为获得对当前帧时频掩蔽的多个预测值，boosting-DNN语音增强模型，在输出端进行扩帧，目标变为[y_n-D,y_n-D+1,…,y_n,…,y_n+D-1,y_n+D]，在预测当前帧的时频掩蔽y_n时，也预测邻域帧的时频掩蔽IRM；对每一帧得到对当前帧时频掩蔽的2D+1个预测值，即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计；所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]。

3.根据权利要求1所述的一种基于深度学习的语音增强方法，其特征在于，所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括：将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]拼接带噪语音对数功率谱特征LPS[x_t-D,x_t-D+1,…,x_t,…,x_t+D-1,x_t+D]作为输入。

4.一种基于深度学习的语音增强系统，其特征在于，包括：

5.根据权利要求1所述的一种基于深度学习的语音增强系统，其特征在于，所述获得噪声语音的多个IRM预测值的解的集合具体包括：在输入端，噪声语音在当前帧左右两边各扩D帧，即[x_n-D,x_n-D+1,…,x_n,…,x_n+D-1,x_n+D]，为获得对当前帧时频掩蔽的多个预测值，boosting-DNN语音增强模型，在输出端进行扩帧，目标变为[y_n-D,y_n-D+1,…,y_n,…,y_n+D-1,y_n+D]，在预测当前帧的时频掩蔽y_n时，也预测邻域帧的时频掩蔽IRM；对每一帧得到对当前帧时频掩蔽的2D+1个预测值，即从第n-D帧到第n+D帧的输出都能提供对第n帧时频掩蔽的估计；所述2D+1个IRM预测值构成Boosting-DNN语音增强模型对估计的解集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]。

6.根据权利要求1所述的一种基于深度学习的语音增强系统，其特征在于，所述将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合拼接带噪语音对数功率谱特征LPS作为输入具体包括：将来自所述Boosting-DNN语音增强模型输出的IRM的解的集合[y_t-D,y_t-D+1,…,y_t,…,y_t+D-1,y_t+D]拼接带噪语音对数功率谱特征LPS[x_t-D,x_t-D+1,…,x_t,…,x_t+D-1,x_t+D]作为输入。