CN112652321B

CN112652321B - 一种基于深度学习相位更加友好的语音降噪系统及方法

Info

Publication number: CN112652321B
Application number: CN202011063354.2A
Authority: CN
Inventors: 李培硕; 欧阳鹏; 尹首一
Original assignee: Beijing Qingwei Intelligent Technology Co ltd
Current assignee: Yuanhaoxin Microelectronics (Shanghai) Co.,Ltd.
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2023-05-02
Anticipated expiration: 2040-09-30
Also published as: CN112652321A

Abstract

本发明公开一种基于深度学习相位更加友好的语音降噪系统，属于基于深度学习的语音增强技术领域。包括：一个生成器和一个判别器。在对抗式训练中，将作为频域发生器的深度神经网络产生的估计的傅里叶频谱，用带噪语音相位的短时傅立叶反变换变换成估计波形，并利用时域鉴别器进行判断。在前向过程中，语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位，但语音降噪系统系统已经被训练得更适应带噪语音相位。本发明解决了现有技术中基于频谱降噪系统中相位不匹配的情况下，寻找处理后的频谱的幅值对应的相位比较耗时且直接用噪声相位会因为相位不匹配而导致的降噪效果不好的问题。

Description

一种基于深度学习相位更加友好的语音降噪系统及方法

技术领域

本发明属于基于深度学习的语音增强技术领域，尤其涉及一种基于深度学习相位更加友好的语音降噪系统及方法。

背景技术

语音增强是一种非常重要的语音处理方法，它可以通过去除噪音，从带噪语音中获得去噪后的语音。除了谱减法和维纳滤波等传统算法外，基于神经网络的方法由于其复杂的非线性网络能够有效降低非平稳噪声而日益流行。大多数基于神经网络的方法是使用基于傅里叶频谱的频域系统，而不是原始波形(时域)。

这些方法通过短时傅里叶变换(STFT)将输入的带噪语音波形转换成对应语音的傅里叶频谱，通过时频掩模对幅值谱进行修改，并通过短时傅里叶反变换(ISTFT)将增强后的频谱转换回对应的时域波形。在整个前馈过程中，之前的方案保持有噪声的相位谱不变。进一步的研究表明，通过修改相位谱，语音增强性能可以大大提高。但在实时频域语音增强中，精确的相位谱往往需要很长时间才能找到，这使得相位不匹配问题一直没有得到很好的解决。

发明内容

本发明的目的是提供一种基于深度学习相位更加友好的语音降噪系统及方法，以解决现有技术中找到精确的相位谱比较耗时，使得相位不匹配的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于深度学习相位更加友好的语音降噪系统，包括：

一个对抗网络，其包括一个生成器和一个判别器；

训练所述生成器，其能够接收短时傅里叶变换转换来的带噪语音幅度谱，所述生成器能够将带噪语音幅度谱转换为时频掩膜；

所述生成器通过神经网络估产生估计傅里叶频谱，通过带噪语音相位的短时傅立叶反变换将所述估计傅里叶频谱转变为估计波形；

训练所述判别器，其与所述生成器能够训练平衡；所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换；

所述对抗网络能够接收一个真数据和一个假数据对；所述真数据对是干净语音波形和噪声语音波形的拼接，所述假数据对是降噪后语音波形和带噪语音波形的拼接；对于所述真数据对，所述判别器输出为1，对于所述假数据对，所述判别器输出为0；

所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位；

在相同的频谱图的幅值的情况下，Griffin-Lim算法无限迭代即时间代价很大的情况下，Griffin-Lim算法能够得到最高分；所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分；

通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数；同一频谱图经过两个算法得到分数的差值，表示相位对语音降噪系统的影响；所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多，效果越好。

本发明还可以做如下改进：

进一步地，所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络；

所述卷积网络、所述长短时记忆网络和所述第一层全连接神经网络的激活函数为Relu函数，所述第二层全连接神经网络的激活函数为sigmoid函数。

进一步地，所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数，与所述Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值；所述差值越小表示在不增加推理时间的情况下，所述差值越小所述语音降噪系统的降噪效果越好。

进一步地，当迭代次数无限时，最小均方差减小到0；

估计的去噪后的语音幅值谱增强，使x(n)是由增强幅值谱恢复的完美语音波形，x(n)的相位将是增强后频谱幅值对应的相位。

进一步地，将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱；

将去噪后语音时频谱和带噪语音相位做短时傅里叶反变换，转换为时域语音；将时域语音通过参数固定的鉴别器和生成器的损失函数更新生成器的参数，将生成器的模型前向作为语音增强模型。

进一步地，计算带噪语音分别与干净语音和去噪后语音的组合起来的数据，将所得数据分别输入到判别器；计算损失更新判别器的参数，之后固定判别器当前的参数。

进一步地，所述生成器前向过程中，将带噪语音相位和去噪后语音的频谱一起做istft生成时域语音；

所述生成器的训练损失函数如下：

其中，λ作为超参，λ是用于在不同的噪声环境或者数据集下的不同约束条件。

进一步地，将所述干净语音的数据集作为降噪的目标，获得一组包含各种类型噪声的作为噪声集；

将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音；真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。

一种基于深度学习相位更加友好的语音降噪方法，包括：

S101，一个对抗网络，其包括一个生成器和一个判别器；

S102，训练所述生成器，其能够接收短时傅里叶变换转换来的带噪语音幅度谱，所述生成器能够将带噪语音幅度谱转换为时频掩膜；

S103，训练所述判别器，其与所述生成器能够训练平衡；所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换；

S104，所述生成器的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位；

S105，Griffin-Lim算法在无限迭代的情况下，能够得到最高分；所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分；

S106，通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数；

ISTFT算法和Griffin-Lim算法的分数差值越小代表，所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好。

本发明具有如下优点：使用神经网络估计时频谱的掩码，通过训练一个频域生成器与一个时域鉴别器。在对抗式训练中，将作为频域发生器的深度神经网络产生的估计的傅里叶频谱，用带噪语音相位的短时傅立叶反变换变换成估计波形，并利用时域鉴别器进行判断。

在前向过程中，语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位，但语音降噪系统系统已经被训练得更适应带噪语音相位，使得带噪语音和干净语音之间的相位不匹配对系统的影响最小。

选择与ISTFT功能相似的标准Griffin-Lim算法，当迭代次数达到非常大的时，标准Griffin-Lim算法可以很好地恢复语音波形的幅值特征。ISTFT和Griffin-Lim算法将相同的时频谱图转换为时域波形。ISTFT和Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数之间的差值描述噪声相位对系统。解决了现有技术中基于频谱降噪系统中相位不匹配的情况下，寻找处理后的频谱的幅值对应的相位比较耗时且直接用噪声相位会因为相位不匹配而导致的降噪效果不好的问题。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将对实施方式描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明语音降噪训练方法流程图。

图2为本发明语音降噪评估方法流程图。

图3为本发明语音语音降噪系统的工作原理图。

标号说明

带噪语音幅度谱10，生成器20，时频掩膜201，估计傅里叶频谱202，带噪语音相位30，短时傅里叶返变换40，估计波形401，噪声语音波形50，干净语音波形60，判别器70。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1-3所示，本发明实施方式提供了一种基于深度学习相位更加友好的语音降噪系统。包括：一个生成器20和一个判别器70。

通过时域和频域联合对抗网络训练方法，使得得到的降噪后的频谱图对于带噪语音的相位更加友好。

使用神经网络估计时频谱的掩码，通过训练一个频域生成器20与一个时域鉴别器。在对抗式训练中，将作为频域发生器的深度神经网络产生的估计的傅里叶频谱，用带噪语音相位30的短时傅立叶反变换变换成估计波形401，并利用时域鉴别器进行判断。

使用掩码，通过将非语音的部分掩码为0的方式，将语音的VAD(Voice ActivityDetection)信息包含在掩码中，使用预估掩码的方式比直接估计语音时频谱的效果要好。

在前向过程中，语音降噪系统仍然使用带噪声语音的相位作为处理后的语音频谱的相位，但语音降噪系统系统已经被训练得更适应带噪语音相位30，使得带噪语音和干净语音60之间的相位不匹配对系统的影响最小。

选择与ISTFT功能相似的标准Griffin-Lim算法，当迭代次数达到非常大的时，标准Griffin-Lim算法可以很好地恢复语音波形的幅值特征。ISTFT和Griffin-Lim算法将相同的时频谱图转换为时域波形。ISTFT和Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数之间的差值描述噪声相位对系统。解决了现有技术中找到精确的相位谱比较耗时，使得相位不匹配的问题。

一个对抗网络，其包括一个生成器20和一个判别器70。

训练生成器20，其能够接收短时傅里叶变换40转换来的带噪语音幅度谱10，生成器20能够将带噪语音幅度谱10转换为时频掩膜201。系统使用的数据集的输入数据是带噪语音时频谱，对应的目标输出就是对应的时频掩膜201。

生成器20通过神经网络的非线性映射的性质，在带噪声语音的频谱和干净语音的频谱之间通过损失函数的约束做非线性映射。生成器20通过神经网络估产生估计傅里叶频谱202，通过带噪语音相位30的短时傅立叶反变换将估计傅里叶频谱202转变为估计波形401。

训练判别器70，其与生成器20能够训练平衡。生成器20和判别器70之间使用短时傅立叶反变换做从频域转到时域的转换。

对抗网络能够接收一个真数据和一个假数据对。真数据对是干净语音波形60和噪声语音波形50的拼接，假数据对是降噪后语音波形和带噪语音波形的拼接。对于真数据对，判别器70输出为1，对于假数据对，判别器70输出为0。

首先获得干净语音的数据集作为降噪的目标，之后获得一组包含各种类型噪声的作为噪声集，将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音，真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。

假数据即生成器20生成的时域去噪后语音和带噪语音采样后数组连接起来的数组。

生成器20的目的是将带噪语音频谱和干净语音频谱之间做映射，鉴别器则是一个分类器，认为生成器20输出的频谱是假的，干净语音的频谱是真实的。在对抗的过程中，生成器20被更新来欺骗判别器70，使得判别器70认为其估计的频谱为真。而判别器70则被更新来更精准的分类干净语音和去噪声后语音的频谱。

生成器20进行更新的过程为：将带噪声语音的时频谱通过生成器20输出时频谱的掩膜，之后将掩膜和对应的带噪语音的时频谱相乘得到去噪后的语音时频谱，之后将去噪后的语音时频谱和带噪语音的相位一起做短时傅里叶反变换，转换为时域语音，再将时域语音通过参数固定的鉴别器，通过生成器20的损失函数更新生成器20的参数，将此生成器20的模型前向作为语音增强模型。

判别器70进行更新的过程为：计算带噪语音分别和干净语音和去噪后语音的组合起来的数据分别输入到判别器70，计算损失更新判别器70的参数，之后固定判别器70当前的参数。

生成器20的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位。

因为在生成器20的前向过程中，将带噪语音的相位和去噪后语音的频谱一起做ISTFT生成时域语音，因为是估计的去噪后语音的频谱幅值和带噪语音的相位之间存在失配，但是目标是为了生成更加干净的语音，而判别器70是在和干净语音之间判别，以及在前向过程中还是使用带噪语音的相位信息，这样可以满足在直接使用带噪语音的相位这样能满足速度，又通过后续的判别器70监督提高了精度。

Griffin-Lim算法在无限迭代的情况下，能够得到最高分；所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分；

生成器20包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络。

卷积网络、长短时记忆网络和第一层全连接神经网络的激活函数为Relu函数，第二层全连接神经网络的激活函数为sigmoid函数。

所述ISTFT算法在所述客观可理解度和所述语音质量知觉评价所得分数，与所述Griffin-Lim算法在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值，所述差值越小表示在不增加推理时间的情况下，所述差值越小所述语音降噪系统的降噪效果越好。

Griffin-Lim算法能够通过反向传播的方法不断迭代信号的增强幅度谱和原始幅度谱之间的最小均方差，使得在每次迭代中两个频谱之间的差距最小。

当迭代次数无限时，最小均方差减小到0。

估计的去噪后的语音幅值谱增强，使x(n)是由增强幅值谱恢复的完美语音波形，x(n)的相位将是与增强后频谱幅值对应的相位。

将时频掩膜201和对应的带噪语音时频谱相乘得到去噪后语音时频谱。

将去噪后语音时频谱和带噪语音相位30做短时傅里叶反变换，转换为时域语音。将时域语音通过参数固定的鉴别器和生成器20的损失函数更新生成器20的参数，将生成器20的模型前向作为语音增强模型。

计算带噪语音分别与干净语音和去噪后语音的组合起来的数据，将所得数据分别输入到判别器70。计算损失更新判别器70的参数，之后固定判别器70当前的参数。

生成器20前向过程中，将带噪语音相位30和去噪后语音的频谱一起做istft生成时域语音。

生成器20的训练损失函数如下：

将干净语音的数据集作为降噪的目标，获得一组包含各种类型噪声的作为噪声集。

将随机噪声片段和干净语音组合成为带噪语音作为系统的输入语音。真数据对即时域的干净语音和时域带噪语音采样后对应的数组连接起来组成的数组。

一种基于深度学习相位更加友好的语音降噪方法，包括：

S101，配置一个对抗网络。

本步骤中，一个对抗网络，其包括一个生成器20和一个判别器70。

S102，训练生成器。

本步骤中，训练生成器20，其能够接收短时傅里叶变换40转换来的带噪语音幅度谱10，生成器20能够将带噪语音幅度谱10转换为时频掩膜201。

生成器20通过神经网络估产生估计傅里叶频谱202，通过带噪语音相位30的短时傅立叶反变换将估计傅里叶频谱202转变为估计波形401。

S103，训练判别器。

本步骤中，训练所述判别器，其与所述生成器能够训练平衡；所述生成器和所述判别器之间使用短时傅立叶反变换做从频域转到时域的转换；

S104，ISTFT算法使用带噪声语音的相位作为处理后的语音频谱的相位。

本步骤中，生成器20的前向过程中使用带噪声语音的相位作为处理后的语音频谱的相位。

S105，Griffin-Lim算法在无限迭代的情况下，能够得到最高分。

本步骤中，Griffin-Lim算法在无限迭代的情况下，能够得到最高分；所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分；

S106，ISTFT算法和Griffin-Lim算法的分数差值越小代表，所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好。

本步骤中，通过ISTFT算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数；噪声相位之间的距离代表了相位对系统的影响，所述噪声相位之间的距离越小对语音降噪的影响越小。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制。尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims

1.一种基于深度学习相位更加友好的语音降噪系统，其特征在于，包括：

一个对抗网络，其包括一个生成器和一个判别器；

所述对抗网络能够接收一个真数据对和一个假数据对；所述真数据对是干净语音波形和噪声语音波形的拼接，所述假数据对是降噪后语音波形和带噪语音波形的拼接；对于所述真数据对，所述判别器输出为1，对于所述假数据对，所述判别器输出为0；

在相同的频谱图的幅值的情况下，Griffin-Lim算法无限迭代或时间代价很大的情况下，Griffin-Lim算法能够得到最高分；所述Griffin-Lim算法在客观可理解度所得分数和语音质量知觉评价所能够获得最高分；

通过ISTFT短时傅里叶变换算法和Griffin-Lim算法比较所述语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数；同一频谱图经过两个算法得到分数的差值，表示相位对语音降噪系统的影响；所述分数的差值越小代表Griffin-Lim算法对相位失配的补偿越多，效果越好；

通过ISTFT短时傅里叶变换算法和Griffin-Lim算法分别获取时域音频；

所述ISTFT短时傅里叶变换算法获取的时域音频在所述客观可理解度和所述语音质量知觉评价所得分数，与所述Griffin-Lim算法获取的时域音频在客观可理解度和语音质量知觉评价所得分数的相减能够得到一个差值；所述差值越小表示在不增加推理时间的情况下，所述语音降噪系统的降噪效果越好。

2.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统，其特征是，所述生成器包括一个七层卷积网络、一层长短时记忆网络、一个第一层全连接神经网络和一个第二层全连接神经网络；

3.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统，其特征是，当迭代次数无限时，最小均方差减小到0；

4.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统，其特征是，将时频掩膜和对应的带噪语音时频谱相乘得到去噪后语音时频谱；

5.如权利要求4所述的基于深度学习相位更加友好的语音降噪系统，其特征是，计算带噪语音分别与干净语音和去噪后语音的组合起来的数据，将所得数据分别输入到判别器；计算损失更新判别器的参数，之后固定判别器当前的参数。

6.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统，其特征是，所述生成器前向过程中，将带噪语音相位和去噪后语音的频谱一起做istft生成时域语音；

所述生成器的训练损失函数如下：

7.如权利要求1所述的基于深度学习相位更加友好的语音降噪系统，其特征是，将所述干净语音的数据集作为降噪的目标，获得一组包含各种类型噪声的作为噪声集；

8.一种基于深度学习相位更加友好的语音降噪方法，其特征在于，包括：

S101，一个对抗网络，其包括一个生成器和一个判别器；

S106，通过ISTFT算法和Griffin-Lim算法比较语音降噪系统的客观可理解度所得分数和语音质量知觉评价所得分数；

ISTFT算法和Griffin-Lim算法的分数差值越小代表，所述语音降噪系统对带噪语音相位不匹配的弥补越多即降噪算法越好；