CN114898767B

CN114898767B - 基于U-Net的机载语音噪音分离方法、设备及介质

Info

Publication number: CN114898767B
Application number: CN202210394934.2A
Authority: CN
Inventors: 张绪皓; 王立; 雷志雄; 马建民; 王煦; 朱宇; 陈必然; 王刚; 黄钰; 徐凌
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2023-08-15
Anticipated expiration: 2042-04-15
Also published as: CN114898767A

Abstract

本发明公开了一种基于U‑Net的机载语音噪音分离方法、设备及介质，属于机载语音信号处理领域，包括步骤：对带噪语音做短时傅里叶变换，利用纯净语音和噪声得到纯净语音时频掩码。并作为训练目标，将带噪语音的时频图作为深度学习模型的输入，经过训练得到收敛的模型；待处理含噪语音经过分帧加窗预处理后，经过短时傅里叶变换得到时频图和相位谱；将时频图输入模型得到预测的纯净语音时频掩码，再与时频图相乘得到纯净语音的时频图；通过相位谱和预测的纯净语音时频掩码得到纯净语音的相位谱预测；再通过短时傅里叶逆变换得到预测的纯净语音。本发明可以有效提高降噪的泛化性和可懂度，能够处理机舱复杂噪声环境下的语音降噪任务。

Description

基于U-Net的机载语音噪音分离方法、设备及介质

技术领域

本发明涉及机载语音信号处理领域，更为具体的，涉及一种基于U-Net的机载语音噪音分离方法、设备及介质。

背景技术

飞行员在飞行过程中，受到电磁干扰或机舱环境影响，接收到的语音通话质量不高，含有噪声的问题。

现有模型U-Net是一种为解决肺部肿瘤识别与定位而提出的语义分割网络模型。

本发明旨在改善机载语音通话质量，并改进U-Net模型，并用于机载语音信号处理领域。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于U-Net的机载语音噪音分离方法、设备及介质，可以有效提高降噪的泛化性和可懂度，能够处理机舱复杂噪声环境下的语音降噪任务等。

本发明的目的是通过以下方案实现的：

一种基于U-Net的机载语音噪音分离方法，包括训练阶段和推理阶段；

在训练阶段，对带噪语音做短时傅里叶变换，利用纯净语音和噪声得到纯净语音时频掩码；将纯净语音时频掩码作为训练目标，将带噪语音的时频图作为深度学习模型的输入，经过训练得到收敛的模型，作为推理阶段使用；

在推理阶段，待处理含噪语音先经过分帧加窗预处理后，经过短时傅里叶变换得到时频图和相位谱；将时频图输入所述训练得到收敛的模型得到预测的纯净语音时频掩码，再与时频图相乘得到纯净语音的时频图；通过相位谱和预测的纯净语音时频掩码得到纯净语音的相位谱预测；再通过短时傅里叶逆变换得到预测的纯净语音。

进一步地，所述深度学习模型包括基于U-Net的深度学习模型，该基于U-Net的深度学习模型包括卷积层、下采样层和上采样层，并在每个大小对应的上、下采样层结构之间进行跳接；

第一到第三个卷积层为下采样阶段，下采样方式为最大池化；第一个卷积层后接BN层和ReLu激活函数；第二个卷积层后接BN层和ReLu激活函数；第三个卷积层后接BN层和ReLu激活函数；

第四到第六个卷积层为上采样阶段，上采样方式为线性双插值；第四个卷积层后接BN层和ReLu激活函数；第五个卷积层后接BN层和ReLu激活函数；第六个卷积层后接BN层和Sigmoid激活函数。

进一步地，所述通过相位谱和预测的纯净语音时频掩码，得到纯净语音的相位谱预测，包括子步骤：利用含噪语音的相位谱作为替代，得到纯净语音的相位谱。

进一步地，在训练阶段，包括子步骤：

步骤A：利用纯净语音和噪声组合的方式得到训练数据集；

步骤B：对训练数据做短时傅里叶变换，得到音频时频图；通过纯净语音和噪声数据，得到纯净语音的二值掩码；

步骤C：将二值掩码作为训练目标，音频时频图作为模型输入进行训练，得到收敛的模型。

进一步地，在推理阶段，包括子步骤：

步骤A：对待处理含噪语音数据做短时傅里叶变换，得到时频图并保留相位谱；

步骤B：将时频图作为训练得到收敛的模型的输入，输出预测的纯净语音二值掩码；

步骤C：通过保留的相位谱和预测的纯净语音二值掩码，得到纯净语音的相位谱预测；

步骤D：纯净语音的相位谱经过短时傅里叶逆变换得到语音。

进一步地，在训练阶段，采用BCE损失函数，使用Adam优化算法，经过多轮训练，选取验证集上loss值最小的参数权重作为最终模型权重。

进一步地，包括步骤：

使用一个全值为1的矩阵减去预测得到的预测的纯净语音时频掩码，得到噪音的预测二值掩码，再重复利用含噪语音的相位谱作为替代，得到预测的噪音。

进一步地，所述加窗预处理的窗函数选取汉明窗。

一种计算机设备，包括处理器和存储器，在存储器中存储有计算机程序，当所述计算机程序被处理器加载并执行如上任一项所述的方法。

一种计算机可读存储介质，在计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器加载并执行如上任一项所述的方法。

本发明的有益效果包括：

本发明可以充分利用收集到的机载噪声数据，使用深度学习的方法发掘机载噪声和飞行员语音的时频特征，克服了机舱环境下噪音复杂的问题，增加了信噪分离的可靠性，增强了分离后语音的可懂度。相比于传统的语音降噪方法，本发明可以有效提高降噪的泛化性和可懂度，能够处理机舱复杂噪声环境下的语音降噪任务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例方法的步骤流程图；

图2为本发明实施例中基于U-Net改进的深度学习网络模型结构示意图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

在本发明具体实施例中，包括如下内容：

短时傅里叶变换：分割时域后的傅里叶变换，通过添加窗函数的方式将一段音频分割成任意个相同长度的时段，对每一个时段进行傅里叶变换。经过短时傅里叶变换后，音频信号被变换成了一维代表时域特征，一维代表频域特征的二维矩阵。

时频掩码：音频信号经过短时傅里叶变换之后，得到的频谱图被称为时频图或者语谱图，时频掩码就是目标信号对总信号的能量占比矩阵。掩码类型分为二值掩码和比值掩码，因为语音信号和噪声信号在时频域上通常不相交的特性，采用二值掩码。

语义分割：在计算机视觉领域，语义分割是对图像中每一个像素点进行分类的过程。在本发明实施例中，利用语义分割作用是对时频图的每个元素进行分类。

U-Net模型：具有对小物体分割敏感的特性。本发明实施例中，创新性提出了跳跃连接的方案，将下采样层和上采样层进行连接，解决了上采样操作造成的信息丢失问题，获得更精确的小物体特征信息。

本发明实施例解决的另一问题是相位预测问题，在现有方案中，模型并没有预测纯净语音的相位，本发明实施例中，纯净语音的相位用带噪语音的相位做了代替。

针对飞行员在飞行过程中，受到电磁干扰或机舱环境影响，接收到的语音通话质量不高，含有噪声的问题，本发明实施例提出一种基于U-Net的机载语音噪音分离方法，实现语音通话有效降噪的功能。在具体实施中，包括训练阶段和推理阶段。

在训练阶段，对带噪语音做短时傅里叶变换，利用纯净语音和噪声得到纯净语音时频掩码；将时频掩码作为训练目标，带噪语音的时频图作为输入，经过训练得到收敛的模型，评估后作为推理模型使用。在具体实施时，按照如下步骤进行：

A)利用纯净语音和噪声组合的方式得到训练数据集。

B)对训练数据做短时傅里叶变换，得到音频时频图。通过纯净语音和噪声数据，得到纯净语音的二值掩码。

C)将二值掩码作为训练目标，音频时频图作为模型输入进行训练，得到收敛的模型。

在推理阶段，待处理含噪语音先经过分帧加窗预处理后，经过短时傅里叶变换得到时频图和相位谱；时频图输入模型，得到预测的纯净语音时频掩码，利用时频掩码和相位谱，得到纯净语音的相位谱；通过短时傅里叶逆变换，得到预测的纯净语音。在具体实施时，按照如下步骤进行：

A)对待处理含噪语音数据做短时傅里叶变换，得到时频图并保留相位谱。

B)将时频图作为模型的输入，输出预测的纯净语音二值掩码。

C)通过保留的相位谱和预测的二值掩码，得到纯净语言的相位谱预测。

D)纯净语音的相位谱经过短时傅里叶逆变换得到语音。

在实际应用时，如图2所示，具体包括如下步骤：

1)第一步，利用纯净语音和噪声合成带噪语音，对音频数据进行分帧加窗处理。将这些音频文件根据采样点数分为固定长度，通过短时傅里叶变换得到时频图和理想二值掩码。窗函数选取汉明窗。并将这些数据按照4：1的比例划分为训练集和验证集。

2)第二步，构建深度学习网络模型。所使用模型由6个卷积层，2个下采样层，2个上采样层组成，并在每个大小对应的上下采样结构之间进行跳接。第一到第三个卷积层为下采样阶段，下采样方式为最大池化。第一个卷积层的卷积核大小为3x3，后接BN层和ReLu激活函数，输出通道数为64。第二个卷积层的卷积核大小为3x3，后接BN层和ReLu激活函数，输出通道数为128，特征图大小为上一层的一半。第三个卷积层卷积核大小为3x3，后接BN层和ReLu激活函数，输出通道数为256，特征图大小为上一层的一半。第四到第六个卷积层为上采样阶段，上采样方式为线性双插值。第四个卷积层的卷积核大小为3x3，后接BN层和ReLu激活函数，输出通道数为128，特征图大小为上一层的两倍。第五个卷积层的卷积核大小为3x3，后接BN层和ReLu激活函数，输出通道数为64，特征图大小为上一层的两倍。第六个卷积层卷积核大小为3x3，后接BN层和Sigmoid激活函数，输出通道数为1。

3)第三步，训练使用BCE损失函数，使用Adam优化算法。经过100轮训练，选取验证集上loss值最小的参数权重作为最终模型权重。

4)第四步，在使用模型的阶段，对原始待处理含噪机载语音进行短时傅里叶变换，得到时频图和相位谱。时频图输入模型，得到模型预测的纯净语言二值掩码，再与时频图相乘，得到纯净语音的时频图。

5)第五步，纯净语音的相位恢复利用带噪语音的相位谱作为替代，得到纯净语音的相位谱，再进行短时傅里叶逆变换，得到预测的纯净语音。

6)第六步，为了得到噪声的预测。使用一个全值为1的矩阵减去步骤4中得到的纯净语音的二值掩码，得到噪音的预测二值掩码，再重复第五步就可以得到预测的噪音。

针对语音分离，本发明实施例所使用的深度学习模型即是如图2所示的基于U-Net模型改进的网络模型结构示意图，减少了原始U-Net网络中下采样层和上采样层数量，修改了上下采样层中间的连续卷积层。最后得到的网络模型大小远远小于原始U-Net，但精度下降少。改进后的U-Net网络拥有2个最大池化下采样层和2个线性插值上采样层，卷积层均为一次3x3的卷积。

表1为使用语音质量指标PESQ作为衡量语音处理效果的指标对比表。

表1

带噪音频编号	处理前PESQ数值	处理后PESQ数值
			1	2.1289	2.8841
2	1.6548	3.1458
			3	1.7042	2.7749

实施例1

实施例2

在实施例1的基础上，所述深度学习模型包括基于U-Net的深度学习模型，该基于U-Net的深度学习模型包括卷积层、下采样层和上采样层，并在每个大小对应的上、下采样层结构之间进行跳接；

实施例3

在实施例1的基础上，所述通过相位谱和预测的纯净语音时频掩码，得到纯净语音的相位谱预测，包括子步骤：利用含噪语音的相位谱作为替代，得到纯净语音的相位谱。

实施例4

在实施例1的基础上，在训练阶段，包括子步骤：

步骤A：利用纯净语音和噪声组合的方式得到训练数据集；

实施例5

在实施例1的基础上，包括子步骤：

步骤D：纯净语音的相位谱经过短时傅里叶逆变换得到语音。

实施例6

在实施例1的基础上，采用BCE损失函数，使用Adam优化算法，经过多轮训练，选取验证集上loss值最小的参数权重作为最终模型权重。

实施例7

在实施例1的基础上，包括步骤：

实施例8

在实施例1的基础上，所述加窗预处理的窗函数选取汉明窗。

实施例9

一种计算机设备，包括处理器和存储器，在存储器中存储有计算机程序，当所述计算机程序被处理器加载并执行如实施例1～实施例8中任一项所述的方法。

实施例10

一种计算机可读存储介质，在计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器加载并执行如实施例1～实施例8中任一项所述的方法。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于U-Net的机载语音噪音分离方法，其特征在于，包括训练阶段和推理阶段；

所述深度学习模型包括基于U-Net的深度学习模型，该基于U-Net的深度学习模型包括卷积层、下采样层和上采样层，并在每个大小对应的上、下采样层结构之间进行跳接；

第四到第六个卷积层为上采样阶段，上采样方式为线性双插值；第四个卷积层后接BN层和ReLu激活函数；第五个卷积层后接BN层和ReLu激活函数；第六个卷积层后接BN层和Sigmoid激活函数；

2.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，所述通过相位谱和预测的纯净语音时频掩码，得到纯净语音的相位谱预测，包括子步骤：利用含噪语音的相位谱作为替代，得到纯净语音的相位谱。

3.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，在训练阶段，包括子步骤：

步骤A：利用纯净语音和噪声组合的方式得到训练数据集；

4.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，在推理阶段，包括子步骤：

步骤D：纯净语音的相位谱结合纯净语音的时频图，经过短时傅里叶逆变换得到语音。

5.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，在训练阶段，采用BCE损失函数，使用Adam优化算法，经过多轮训练，选取验证集上loss值最小的参数权重作为最终模型权重。

6.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，包括步骤：

7.根据权利要求1所述的基于U-Net的机载语音噪音分离方法，其特征在于，所述加窗预处理的窗函数选取汉明窗。

8.一种计算机设备，其特征在于，包括处理器和存储器，在存储器中存储有计算机程序，当所述计算机程序被处理器加载并执行如权利要求1～7中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，在计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器加载并执行如权利要求1～7中任一项所述的方法。