CN109658949A

CN109658949A - 一种基于深度神经网络的语音增强方法

Info

Publication number: CN109658949A
Application number: CN201811653295.7A
Authority: CN
Inventors: 李湑; 李秋俊; 陈毅; 彭鑫; 黄胜
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-04-19

Abstract

为了解决传统基于特征映射的DNN语音增强方法噪声鲁棒性差、特征映射不准确、增强语音存在频谱失真等缺点，提出了一种基于深度神经网络的语音增强方法。首先提出并搭建基于动态噪声和语音联合感知训练的特征映射深度神经网络模型(DNAT‑DSAT‑DNN)，学习带噪语音信号和纯净语音信号之间的特征映射关系，进而得到增强语音信号的对数功率谱特征值；其次利用带噪语音信号、纯净语音信号和噪声信号三者的几何关系，求得增强语音信号的相位信息；最后利用重叠相加原理恢复出增强语音信号的时域表示。

Description

一种基于深度神经网络的语音增强方法

技术领域

本发明涉及语音增强领域和数字语音信号处理领域，特别涉及一种基于深度神经网络的语音增强方法。

背景技术

通过语音传递信息是人类最重要、最有效和最常用的交换信息的形式。语言是人类特有的功能，声音是人类最常用的工具。随着计算机技术的不断发展，人们越来越迫切的要求摆脱双手的束缚而代之以语音作为智能化设备的信息入口，实现人机对话的梦想；但是，人类生活的声学环境异常复杂，通常受到各种各样噪声的干扰，因此要想进行人机交流，有必要在语音信号处理的前端模块中实现语音增强的功能，以此来提高语音的质量和可懂度，提高语音识别的准确率和识别速度，从而进一步提高人机交流的准确度和流畅度。而提高和改善助听设备语音增强的功能也是一个重要的应用，大多数患有听力障碍的人不选择佩戴助听设备，其中一个主要原因就是助听器语音增强效果不好，有时甚至会将语音和噪声同时放大，严重影响了用户的体验度，而该技术可以在滤除噪声的同时，有效的提高语音的质量，因此很适合将其应用到助听设备之中。除此之外，还可以将该技术运用到语音通信、军事通信、窃听设备和语音编码等领域。

发明内容

语音增强方法通常按照所使用的技术可以划分为两种，基于数字语音信号处理的方法和基于机器学习的方法。基于数字语音信号处理的方法由于存在噪声信号准平稳、语音和噪声相互独立等假设性条件，因此对稳态噪声有很好的性能，但是对真实生活环境中的非稳态噪声增强效果较差；基于机器学习的方法尤其是基于深度学习的方法近几年得到了很好的发展，相较于传统基于数字语音信号处理的语音增强算法性能提升明显，但是它需要准备大量的数据，数据较少往往导致模型的噪声鲁棒性差，模型泛化能力弱，特征映射不准确和存在频谱失真问题。

针对此缺点，提出并搭建基于动态噪声和语音联合感知训练的特征映射深度神经网络模型(DNAT-DSAT-DNN)，学习带噪语音信号和纯净语音信号之间的特征映射关系，进而得到增强语音信号的对数功率谱特征值；其次利用带噪语音信号、纯净语音信号和噪声信号三者的几何关系，求得增强语音信号的相位信息；最后利用重叠相加原理恢复出增强语音信号。主要分为三个步骤：

步骤101：搭建并训练基于DNAT-DSAT-DNN的特征映射网络模型；

步骤102：利用几何关系求解增强语音信号的相位信息；

步骤103：利用重叠相加原理恢复得到增强语音信号；

优先地，所述步骤101搭建并训练DNAT-DSAT-DNN的特征映射深度神经网络，获取增强语音信号的对数功率谱特征，解决目标问题包括：传统基于特征映射的DNN深度神经网络模型在语音增强任务中，采用的特征往往是带噪语音信号的特征或者再附加噪声信号的估计特征，因此包含的信息也就相对较少，模型的噪声鲁棒性差，而噪声估计的不准确性还会进一步导致恢复得到的增强语音信号存在频谱失真的问题，这严重的影响了语音的质量和可懂度。

针对此缺陷，提出了一种基于动态噪声和语音联合感知训练的模型训练方法，求取带噪语音信号中心帧(即当前帧)的语音对数域幅度谱特征估计值和噪声对数域幅度谱特征估计值，然后将二者与带噪语音信号中心帧及其扩展的前后各τ帧的对数功率谱特征进行融合，作为深度神经网络模型训练的输入特征向量，使模型能够更好的学习带噪语音信号、纯净语音信号和噪声信号三者之间的非线性关系，实现更精确的特征映射。

采用基于DNAT-DSAT-DNN的特征映射深度神经网络模型得到增强语音的对数功率谱特征，主要分为以下三个步骤：

①数据集：提供训练数据集、测试数据集；

②模型搭建和训练：搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络模型；

③对于测试带噪语音信号进行模型解码，获得增强语音对数功率谱特征；

具体如下：

首先收集并整理数据集，提供模型训练所需要的带噪语音信号和纯净语音信号数据集对，搭建基于DNAT-DSAT-DNN的特征映射网络模型，接着对带噪语音进行加窗分帧的预处理，通过短时离散傅里叶变换求取带噪语音信号每一帧的对数功率谱特征和相位信息，然后对带噪语音信号的中心帧(即当前帧)进行前、后各τ帧扩展，得到该帧包含上、下文信息的特征向量：

v_t＝[y_t-τ，...，y_t-1，y_t，y_t+1，...，y_t+τ]

接着利用改进最小控制迭代平均(IMCRA)方法实时动态跟踪每一帧带噪语音信号，求取每一帧带噪语音信号的噪声对数域幅度谱特征值的估计利用对数谱域的最小均方误差(Log-MMSE)方法求取带噪语音信号每一帧语音对数域幅度谱特征值的估计再进一步将二者与其所对应帧包含上、下文信息的特征向量进行融合，得到模型的输入向量：

该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量，给予了神经网络模型训练噪声环境和语音环境的双重提示，使模型能够训练学习到更多的信息，从而更好的学习带噪语音和纯净语音之间的映射关系，实现更精确的映射；然后对测试的带噪语音信号进行模型解码，就可以得到增强语音信号的对数功率谱特征估计值。

优先地，所述步骤102利用几何关系求解增强语音信号的相位信息；解决目标问题包括：无论是传统的基于数字语音信号处理的语音增强算法，还是基于深度神经网络的语音增强算法，绝大多数方法在进行语音信号波形恢复时都是采用原始带噪语音信号的相位信息，主要源于人耳对于相位微小变化不敏感的特性和纯净语音信号相位信息求解较为困难，但这无疑给纯净语音的精准估计和恢复带来了一定的误差，而且在一定程度上会造成估计的纯净语音信号的失真；

针对此缺陷，提出了利用几何关系求解增强语音信号的相位信息，即建立带噪语音信号、纯净语音信号和噪声信号三者幅度谱和相位谱在极坐标下的几何关系，用步骤101求得的增强语音对数功率谱求取增强语音信号的幅度谱，用其替代纯净语音信号的幅度谱，再进一步利用余弦定理求得增强语音信号的相位谱，该方法可以获得增强语音信号更准确的相位谱信息。

采用几何关系求解增强语音信号的相位谱信息，主要分为以下三个步骤：

①建立几何关系：在极坐标下建立带噪语音信号、纯净语音信号和噪声信号的幅度谱和相位谱的几何关系；

②求解带噪语音信号的幅度谱和相位谱，噪声信号的幅度谱，以及增强语音信号的幅度谱；

③利用余弦定理求解增强语音信号的相位谱；

具体如下：

假设{a_Y，a_X，a_N}、{θ_Y，θ_X，θ_N}分别表示带噪语音信号、纯净语音信号和噪声信号的幅度谱值和相位值，然后在极坐标下三者满足几何关系：

在步骤101的特征值求解过程中，已经完成了带噪语音信号幅度谱和相位谱，以及噪声信号幅度谱值的求解，而由步骤101模型的输出可以得到增强语音信号的对数功率谱特征，因此可以进一步求得其幅度谱值，并用它代替纯净语音信号的幅度谱值，接着利用余弦定理求得增强语音信号的相位谱信息，即纯净语音信号所对应的θ_X：

该增强语音信号的相位谱信息相较于其他绝大数语音增强算法所使用的原始带噪语音信号的相位谱信息更加精准，更加接近真实纯净语音信号的相位谱信息，可以在后续进行语音重构恢复时提供更准确的相位谱信息。

优先地，所述步骤103利用重叠相加原理恢复得到增强语音信号，主要分为以下两个主要步骤：

①利用步骤101的输出即增强语音信号的对数功率谱求其幅度谱值；

②将增强语音的幅度谱值与步骤102求得的增强语音相位谱值利用重叠相加原理和逆短时离散傅里叶变换得到增强语音信号的时域表示；

具体如下：

假设步骤101的输出的带噪语音信号对数功率谱为对其进行exp(·)指数运算，得到功率谱值，再开方得到其幅度谱值然后结合步骤102求得的增强语音信号的相位值θ_X通过：

得到增强语音信号的时域表示波形恢复时相邻帧之间需要保持一定的重叠，这样得到的增强语音信号流畅度和舒适度更好。

附图说明

图1本发明所提出的基于深度学习的语音增强模型示意图；

图2本发明使用的语音信号几何关系示意图；

图3本发明所使用的增强语音信号恢复示意图；

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施案例对本发明做进一步详细说明。

图1本发明所提出并使用的基于深度学习的语音增强模型示意图，包括以下步骤：

①数据集：提供训练数据集、测试数据集；

具体如下：

v_t＝[y_t-τ，...，y_t-1，y_t，y_t+1，...，y_t+τ]

该特征向量相较于传统的基于特征映射DNN语音增强方法的特征向量，给予了神经网络模型训练的噪声环境和语音环境的双重提示，使模型能够训练学习到更多的信息，从而更好的学习带噪语音和纯净语音之间的映射关系，实现更精确的映射；然后对测试的带噪语音信号进行模型解码，就可以得到增强语音信号的对数功率谱特征估计值。

图2本发明使用的语音信号几何关系示意图，包括以下步骤：

③利用余弦定理求解增强语音信号的相位谱；

具体如下：

图3本发明所使用的增强语音信号恢复示意图，包括以下步骤：

①利用步骤101的输出即增强语音信号的对数功率谱求其幅度谱值

具体如下：

Claims

1.一种基于深度神经网络的语音增强方法，其特征在于，包括以下步骤：

步骤101：搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络；

步骤102：利用几何关系求解增强语音信号的相位信息；

步骤103：利用重叠相加原理恢复得到增强语音信号。

2.根据权利要求1所述的一种基于深度神经网络的语音增强方法，其特征在于，所述步骤101搭建并训练基于DNAT-DSAT-DNN的特征映射深度神经网络，获取增强语音信号的对数功率谱特征，解决目标问题包括：传统基于特征映射的DNN深度神经网络模型在语音增强任务中，采用的特征往往是带噪语音信号的特征或者再附加噪声信号的估计特征，因此包含的信息也就相对较少，模型的噪声鲁棒性差，而噪声估计的不准确性还会进一步导致恢复得到的增强语音信号存在频谱失真的问题，这严重的影响了语音的质量和可懂度；

针对此缺陷，提出了一种基于动态噪声和语音联合感知训练的模型训练方法，求取带噪语音信号中心帧(即当前帧)的语音对数域幅度谱特征估计值和噪声对数域幅度谱特征估计值，然后将二者与带噪语音信号中心帧及其扩展的前后各τ帧的对数功率谱特征进行融合，作为深度神经网络模型训练的输入特征向量，使模型能够更好的学习带噪语音信号、纯净语音信号和噪声信号三者之间的非线性关系，实现更精确的特征映射；

采用基于DNAT-DSAT-DNN特征映射深度神经网络模型解码得到增强语音的对数功率谱特征，主要分为以下三个步骤：

①数据集：提供训练数据集、测试数据集；

③对于测试带噪语音信号进行模型解码，获得增强语音对数功率谱特征；具体如下：

v_t＝[y_t-τ，...，y_t-1，y_t，y_t+1，...，y_t+τ]

3.根据权利要求1所述的一种基于深度神经网络的语音增强方法，其特征在于，所述步骤102利用几何关系求解增强语音信号的相位信息，解决目标问题包括：无论是传统的基于数字语音信号处理的语音增强算法，还是基于深度神经网络的语音增强算法，绝大多数方法在进行语音信号波形恢复时都是采用原始带噪语音信号的相位信息，这主要源于人耳对于相位微小变化不敏感的特性和纯净语音信号相位信息求解较为困难，但这无疑给纯净语音的精准估计和恢复带来了一定的误差，而且在一定程度上会造成估计的纯净语音信号失真；

针对此缺陷，提出了利用几何关系求解增强语音信号的相位信息，即建立带噪语音信号、纯净语音信号和噪声信号三者幅度谱和相位谱在极坐标下的几何关系，用步骤101求得的增强语音对数功率谱求取增强语音信号的幅度谱，用其替代纯净语音信号的幅度谱，再进一步利用余弦定理求得增强语音信号的相位谱，该方法可以获得增强语音信号更准确的相位谱信息；

③利用余弦定理求解增强语音信号的相位谱；

具体如下：

4.根据权利要求1所述的一种基于深度神经网络的语音增强方法，其特征在于，所述步骤103利用重叠相加原理得到增强语音信号的时域表示；

采用重叠相加恢复语音信号，主要分为以下两个主要步骤：

具体如下：

假设步骤101的输出的带噪语音信号对数功率谱为对其进行exp(·)指数运算，得到功率谱值，再进一步开方得到其幅度谱值然后结合步骤102求得的增强语音信号的相位值θ_X通过：