CN114333882B

CN114333882B - 基于幅度谱的语音降噪方法、装置、设备及存储介质

Info

Publication number: CN114333882B
Application number: CN202210223124.0A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-08-19
Anticipated expiration: 2042-03-09
Also published as: CN114333882A

Abstract

本申请揭示了一种基于幅度谱的语音降噪方法、装置、设备及存储介质，其中方法包括：获取目标语音对应的待降噪频谱图；采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。通过幅度谱降噪单元在幅度谱进行降噪处理，通过频谱修正单元频谱修正，从而使语音的有人说话部分和无人说话部分均有较好的降噪效果。

Description

基于幅度谱的语音降噪方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种基于幅度谱的语音降噪方法、装置、设备及存储介质。

背景技术

语音中通常包含噪声，当包含噪声的语音应用到实际场景时，降低了语音应用的准确性，影响了用户体验。现有采用基于CNN（卷积神经网络）和RNN（循环神经网络）得到的降噪模型对语音进行降噪，虽然取得了不错的降噪效果，但是在语音的无人说话部分的降噪效果较差。

发明内容

本申请的主要目的为提供一种基于幅度谱的语音降噪方法、装置、设备及存储介质，旨在解决现有采用基于CNN和RNN（循环神经网络）得到的降噪模型对语音进行降噪，在语音的无人说话部分的降噪效果较差的技术问题。

为了实现上述发明目的，本申请提出一种基于幅度谱的语音降噪方法，所述方法包括：

获取目标语音对应的待降噪频谱图；

采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；

对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

进一步的，所述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤，包括：

将所述待降噪频谱图输入所述幅度谱降噪单元进行幅度谱降噪，得到增强幅度谱；

从所述待降噪频谱图中提取带噪相位谱；

将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据；

对所述频谱修正数据和所述增强幅度谱进行残差连接，得到待分析频谱图；

将所述待分析频谱图输入所述掩码增益与减益单元进行掩码，得到所述已降噪频谱图。

进一步的，所述将所述待降噪频谱图输入所述幅度谱降噪单元进行幅度谱降噪，得到增强幅度谱的步骤，包括：

从所述待降噪频谱图中提取带噪幅度谱；

采用所述幅度谱降噪单元的降维层，对所述带噪幅度谱进行降维，得到已降维幅度谱；

采用所述幅度谱降噪单元的幅度谱降噪层集，对所述已降维幅度谱进行幅度谱降噪，得到待升维特征，其中，所述幅度谱降噪层集中包括至少一个幅度谱降噪层，所述幅度谱降噪层采用LSTM网络；

采用所述幅度谱降噪单元的升维层，对所述待升维特征进行升维，得到幅度掩码值；

根据所述幅度掩码值和所述带噪幅度谱，确定所述增强幅度谱。

进一步的，所述将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据的步骤，包括：

根据所述增强幅度谱和所述带噪相位谱生成增强频谱图；

将所述增强频谱图输入所述频谱修正单元的编码器进行特征提取，得到多个单层编码特征和目标编码特征；

将所述目标编码特征输入所述频谱修正单元的残差学习层进行频谱修正，得到待解码音频特征；

将各个所述单层编码特征和所述待解码音频特征输入所述频谱修正单元的解码器进行解码，得到所述频谱修正数据。

进一步的，所述编码器的编码层的数量和所述解码器的解码层的数量均为n，所述将各个所述单层编码特征和所述待解码音频特征输入所述频谱修正单元的解码器进行解码，得到所述频谱修正数据的步骤，包括：

对第n+1-m个所述单层编码特征进行降维处理，得到待处理编码特征，其中，m是大于0的整数，并且m小于或等于n；

将第m-1个所述解码层的输出和所述待处理编码特征进行相同位置的元素值相加，得到第m个待处理特征；

对第m个所述待处理特征进行解码，得到第m个单层解码特征；

将第n个所述单层解码特征作为所述频谱修正数据；

其中，当m等于1时，将所述待解码音频特征作为第m-1个所述解码层的输出，当m大于1时，将第m-1个所述单层解码特征作为第m-1个所述解码层的输出。

进一步的，所述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤之前，还包括：

获取第一训练样本集和第一初始模型；

根据所述第一训练样本集和预设的第一损失函数，对所述第一初始模型进行训练，将训练结束的所述第一初始模型作为幅度谱降噪预训练单元，其中，所述第一损失函数S1表述为：S1=SISNR1+幅度谱均方误差损失，SISNR1是语音的信噪比损失，幅度谱均方误差损失是根据幅度谱的均方误差计算的损失；

获取第二训练样本集和频谱修正初始单元；

将所述幅度谱降噪预训练单元和所述频谱修正初始单元进行组合，得到第二初始模型；

根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，将训练结束的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，将训练结束的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元，其中，所述第二损失函数S2表述为：S2=SISNR2+MSE损失+正则项，SISNR2是语音的信噪比损失，MSE损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失。

进一步的，所述根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，将训练结束的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，将训练结束的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元的步骤，包括：

将所述第二训练样本集中的一个训练样本作为目标训练样本；

将所述目标训练样本的频谱样本图输入所述第二初始模型进行降噪处理，得到频谱图预测结果；

根据所述频谱图预测结果进行语音信号重建，得到干净语音预测结果；

将所述频谱图预测结果、所述干净语音预测结果、所述目标训练样本的干净语音标定结果及频谱图标定结果输入所述第二损失函数进行损失值计算，得到目标损失值；

根据所述目标损失值更新所述第二初始模型的所述幅度谱降噪预训练单元及所述频谱修正初始单元的网络参数，将更新后的所述第二初始模型用于下一次计算所述频谱图预测结果；

重复所述将所述第二训练样本集中的一个训练样本作为目标训练样本的步骤，直至达到模型训练结束条件；

将达到所述模型训练结束条件的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，并且将达到所述模型训练结束条件的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元。

本申请还提出了一种基于幅度谱的语音降噪装置，所述装置包括：

数据获取模块，用于获取目标语音对应的待降噪频谱图；

已降噪频谱图确定模块，用于采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；

目标干净语音确定模块，用于对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于幅度谱的语音降噪方法、装置、设备及存储介质，其中方法通过采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。通过幅度谱降噪单元在幅度谱进行降噪处理，通过频谱修正单元频谱修正，从而使语音的有人说话部分和无人说话部分均有较好的降噪效果。

附图说明

图1为本申请一实施例的基于幅度谱的语音降噪方法的流程示意图；

图2 为本申请一实施例的基于幅度谱的语音降噪装置的结构示意框图；

图3 为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种基于幅度谱的语音降噪方法，所述方法包括：

S1：获取目标语音对应的待降噪频谱图；

S2：采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；

S3：对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

本实施例通过幅度谱降噪单元在幅度谱进行降噪处理，通过频谱修正单元频谱修正，从而使语音的有人说话部分和无人说话部分均有较好的降噪效果。

对于S1，可以获取用户输入的目标语音对应的待降噪频谱图，也可以从数据库中获取目标语音对应的待降噪频谱图，还可以从第三方应用中获取目标语音对应的待降噪频谱图。

目标语音，也就是需要进行降噪的一段或多段语音。

待降噪频谱图，是待降噪语音的频谱图，其中，频谱图是根据傅里叶频谱生成的图。

待降噪频谱图包括2个通道（channel），2个通道分别是实部通道和虚部通道。实部通道是傅里叶频谱特征的实部。虚部通道是傅里叶频谱特征的虚部。

其中，对所述目标语音进行短时傅立叶变换，将短时傅立叶变换得到的频谱图作为待处理频谱图；对所述待处理频谱图进行直流分量去掉处理，将去掉了直流分量的所述待处理频谱图作为所述待降噪频谱图。因为直流分量对频谱的重构影响不大，所以对短时傅立叶变换得到的频谱图去掉直流分量后作为待降噪频谱图，不影响降噪效果，减少了运算量。

对于S2，将所述待降噪频谱图输入预设的降噪模型依次进行幅度谱降噪、频谱修正和掩码增益与减益，将掩码增益与减益输出的数据作为已降噪频谱图。

幅度谱降噪单元，用于根据带噪频谱（也就是所述待降噪频谱图）计算出带噪幅度谱，对带噪幅度谱生成幅度掩码值，根据幅度掩码值和带噪的幅度谱生成增强幅度谱。幅度谱降噪单元包括：至少一个幅度谱降噪层。幅度谱降噪层是基于长短期记忆人工神经网络（LSTM）得到的降噪层。

频谱修正单元，用于根据带噪频谱（也就是所述待降噪频谱图）计算出带噪相位谱，根据带噪相位谱和增强幅度谱重构增强的频谱，根据重构的频谱进行残差学习，得到频谱的修正数据。频谱修正单元是基于CNN和RNN得到的单元。

掩码增益与减益单元，用于在频谱图中，对想要的语音对应的数据进行增益和对不想要的语音对应的数据进行减益。

可选的，所述掩码增益与减益单元采用0和1进行掩码。比如，在频谱图中，所述掩码增益与减益单元采用1进行掩码以增益想要的语音对应的数据，采用0进行掩码以减益不想要的语音对应的数据。

可选的，所述掩码增益与减益单元采用0到1的数值进行掩码。

对于S3，对所述已降噪频谱图进行短时傅立叶逆变换，得到待分析时域数据；采用Overlapadd方法，对所述待分析时域数据进行语音信号重建，将重建得到的干净语音作为所述目标语音对应的目标干净语音。

Overlapadd，又写为Overlap-add，重叠相加。

采用Overlapadd方法，对所述待分析时域数据进行语音信号重建的方法在此不做赘述。

在一个实施例中，上述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤，包括：

S21：将所述待降噪频谱图输入所述幅度谱降噪单元进行幅度谱降噪，得到增强幅度谱；

S22：从所述待降噪频谱图中提取带噪相位谱；

S23：将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据；

S24：对所述频谱修正数据和所述增强幅度谱进行残差连接，得到待分析频谱图；

S25：将所述待分析频谱图输入所述掩码增益与减益单元进行掩码，得到所述已降噪频谱图。

本实施例采用幅度谱降噪单元进行幅度谱降噪，然后采用频谱修正单元进行频谱修正，幅度谱降噪单元对语音的无人说话部分的降噪效果较好，频谱修正单元对语音的有人说话部分的降噪效果较好，从而使本申请对语音的有人说话部分和无人说话部分均有较好的降噪效果。

对于S21，从所述待降噪频谱图提取幅度谱，将提取的幅度谱输入所述幅度谱降噪单元进行幅度谱降噪，将降噪得到的数据作为增强幅度谱。

对于S22，对所述待降噪频谱图生成复数谱，根据复数谱的实部（real）和虚部（imag）生成相位谱，将转换后的相位谱作为带噪相位谱。

对于S23，根据所述增强幅度谱和所述带噪相位谱进行频谱的重构，将重构得到的频谱输入所述频谱修正单元进行残差学习以实现频谱修正，将残差学习得到的数据作为频谱修正数据。

对于S24，对所述频谱修正数据和所述增强幅度谱进行残差连接，将残差连接得到的数据作为待分析频谱图。

待分析频谱图的计算公式Xen为：X1+CRN（Y，X1），其中，X1是所述增强幅度谱，CRN（Y，X1）是所述频谱修正数据，CRN是所述频谱修正单元，Y是所述带噪相位谱。

对于S25，将所述待分析频谱图输入所述掩码增益与减益单元；所述掩码增益与减益单元采用CRM Mask（CRM掩码）方式作为降噪的过滤函数，以实现在频谱图中对想要的语音对应的数据进行增益和对不想要的语音对应的数据进行减益；将掩码后的所述待分析频谱图作为所述已降噪频谱图。

可选的，采用如下公式进行掩码：enhance_real +i*enhance_image = (mask_real + i*mask_image)*(noisy_real + i*noisy_image)，其中，enhance_real是增强语音的实部，enhance_image是增强后的虚部，mask_real是实部的掩码增强系数，mask_image是虚部的掩码增强系数，noisy_real是噪音的实部，noisy_image是噪音的虚部，i是虚数单位。

掩码增强系数是0到1的数值，可以采用0，也可以采用1。

在一个实施例中，上述将所述待降噪频谱图输入所述幅度谱降噪单元进行幅度谱降噪，得到增强幅度谱的步骤，包括：

S211：从所述待降噪频谱图中提取带噪幅度谱；

S212：采用所述幅度谱降噪单元的降维层，对所述带噪幅度谱进行降维，得到已降维幅度谱；

S213：采用所述幅度谱降噪单元的幅度谱降噪层集，对所述已降维幅度谱进行幅度谱降噪，得到待升维特征，其中，所述幅度谱降噪层集中包括至少一个幅度谱降噪层，所述幅度谱降噪层采用LSTM网络；

S214：采用所述幅度谱降噪单元的升维层，对所述待升维特征进行升维，得到幅度掩码值；

S215：根据所述幅度掩码值和所述带噪幅度谱，确定所述增强幅度谱。

本实施例先对带噪幅度谱进行降维，然后在低维度采用所述幅度谱降噪单元进行幅度谱降噪，最后对降噪后的数据进行升维，减少了所述幅度谱降噪单元的网络参数和计算量，提高了降噪效率；因fc-LSTM（Fully-Connected LSTM）对语音的无人说话部分的降噪效果较好，本申请通过降维层、幅度谱降噪层和升维层是基于fc-LSTM实现的，从而提高了对语音的无人说话部分的降噪效果。

对于S211，对所述待降噪频谱图生成复数谱，根据复数谱的实部（real）和虚部（imag）生成幅度谱，将转换后的幅度谱作为带噪幅度谱。

对于S212，采用所述幅度谱降噪单元的降维层，对所述带噪幅度谱进行降维，将降维得到的数据作为已降维幅度谱。

可选的，降维层采用全连接层（fc）。

对于S213，采用所述幅度谱降噪单元的幅度谱降噪层集，对所述已降维幅度谱进行幅度谱降噪，将幅度谱降噪得到的数据作为待升维特征。

其中，所述幅度谱降噪层集中包括至少一个幅度谱降噪层，所述幅度谱降噪层采用LSTM网络。

所述幅度谱降噪层集中的各个所述幅度谱降噪层线性连接。

对于S214，采用所述幅度谱降噪单元的升维层，对所述待升维特征进行升维，将升维度得到的数据作为幅度掩码值。

可选的，升维层采用全连接层。

比如，所述带噪幅度谱是201维，通过步骤S212降维成64维，通过步骤S213还是保持64维，最后通过步骤S214映射成201维。

对于S215，对所述幅度掩码值和所述带噪幅度谱进行相乘，将相乘得到的数据作为所述增强幅度谱。

在一个实施例中，上述将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据的步骤，包括：

S231：根据所述增强幅度谱和所述带噪相位谱生成增强频谱图；

S232：将所述增强频谱图输入所述频谱修正单元的编码器进行特征提取，得到多个单层编码特征和目标编码特征；

S233：将所述目标编码特征输入所述频谱修正单元的残差学习层进行频谱修正，得到待解码音频特征；

S234：将各个所述单层编码特征和所述待解码音频特征输入所述频谱修正单元的解码器进行解码，得到所述频谱修正数据。

本实施例通过所述增强幅度谱和所述带噪相位谱重构频谱图，然后采用编码器从重构的频谱图中提取特征，最后对提取的特征进行残差学习和解码，从而实现了基于CNN（卷积神经网络）和RNN（循环神经网络）进行降噪，提高了本申请对语音的有人说话部分的降噪效果。

对于S231，根据所述增强幅度谱和所述带噪相位谱进行频谱重构，将重构得到的频谱作为增强频谱图。

对于S232，将所述增强频谱图输入所述频谱修正单元的编码器进行特征提取，将编码器的每个编码层提取得到的特征作为一个单层编码特征，将编码器的最后一个编码层提取得到的特征作为目标编码特征。

编码器包括至少3个编码层。编码器中的编码层线性连接。

对于S233，将所述目标编码特征输入所述频谱修正单元的残差学习层进行残差学习以实现频谱修正，将学习得到的特征作为待解码音频特征。

残差学习层采用LSTM网络。

对于S234，根据第n+1-m个所述单层编码特征和解码器的第m-1个解码层的输出确定第m个单层解码特征，n是解码层的数量，当m等于1时，将所述待解码音频特征作为第m-1个所述解码层的输出，当m大于1时，将第m-1个所述单层解码特征作为第m-1个所述解码层的输出。

将解码器的最后一个解码层的输出的单层解码特征作为所述频谱修正数据。

在一个实施例中，上述编码器的编码层的数量和所述解码器的解码层的数量均为n，所述将各个所述单层编码特征和所述待解码音频特征输入所述频谱修正单元的解码器进行解码，得到所述频谱修正数据的步骤，包括：

S2331：对第n+1-m个所述单层编码特征进行降维处理，得到待处理编码特征，其中，m是大于0的整数，并且m小于或等于n；

S2332：将第m-1个所述解码层的输出和所述待处理编码特征进行相同位置的元素值相加，得到第m个待处理特征；

S2333：对第m个所述待处理特征进行解码，得到第m个单层解码特征；

S2334：将第n个所述单层解码特征作为所述频谱修正数据；

本实施例根据第n+1-m个所述单层编码特征和解码器的第m-1个解码层的输出确定第m个单层解码特征，从而提取到了频谱修正数据。

对于S2331，对第n+1-m个所述单层编码特征进行降维处理，将降维处理得到的数据作为待处理编码特征，其中，m是大于0的整数，并且m小于或等于n。

对于S2332，将第m-1个所述解码层的输出和所述待处理编码特征进行相同位置的元素值相加，将相加得到的数据作为第m个待处理特征。

比如，将第m-1个所述解码层的输出的第e行第f列的元素值与所述待处理编码特征的第e行第f列的元素值进行相加，将相加得到的数据作为第m个待处理特征的第e行第f列的元素值。

对于S2333，对第m个所述待处理特征进行反卷积，将反卷积得到的数据作为第m个单层解码特征。

可选的，对第m个所述待处理特征分别进行卷积处理和变换成特定维数矩阵，将变换得到的数据作为第m个单层解码特征。从而实现采用卷积处理和变换成特定维数矩阵以等价实现反卷积的功能，增加了本申请的通用性。

对于S2334，将第n个所述单层解码特征作为所述频谱修正数据，从而实现将解码器的最后一个解码层的输出的单层解码特征作为所述频谱修正数据。

其中，当m等于1时，将所述待解码音频特征作为第m-1个所述解码层的输出，也就是将所述待解码音频特征作为第0个所述解码层的输出；当m大于1时，将第m-1个所述单层解码特征作为第m-1个所述解码层的输出，也就是第1层之后的所述解码层将上一层输出的所述单层解码特征作为输入。

在一个实施例中，上述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤之前，还包括：

S0211：获取第一训练样本集和第一初始模型；

S0212：根据所述第一训练样本集和预设的第一损失函数，对所述第一初始模型进行训练，将训练结束的所述第一初始模型作为幅度谱降噪预训练单元，其中，所述第一损失函数S1表述为：S1=SISNR1+幅度谱均方误差损失，SISNR1是语音的信噪比损失，幅度谱均方误差损失是根据幅度谱的均方误差计算的损失；

S0213：获取第二训练样本集和频谱修正初始单元；

S0214：将所述幅度谱降噪预训练单元和所述频谱修正初始单元进行组合，得到第二初始模型；

S0215：根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，将训练结束的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，将训练结束的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元，其中，所述第二损失函数S2表述为：S2=SISNR2+MSE损失+正则项，SISNR2是语音的信噪比损失，MSE损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失。

本实施例实现了先预训练出幅度谱降噪预训练单元，然后再对幅度谱降噪预训练单元和频谱修正初始单元进行综合训练，可以加速模型的收敛，提高了训练速度。

对于S0211，可以获取用户输入的第一训练样本集和第一初始模型，也可以从数据库中获取第一训练样本集和第一初始模型，还可以从第三方应用中获取第一训练样本集和第一初始模型。

第一训练样本集包括多个第一训练样本。第一训练样本是根据语音样本得到的训练样本。

语音样本，是采用干净语音和噪音语音混合得到的语音。

第一初始模型是基于全连接层和LSTM得到的模型。

对于S0212，根据所述第一训练样本集和预设的第一损失函数，对所述第一初始模型进行训练，从而实现了训练所述第一初始模型对幅度谱的降噪能力，将训练结束的所述第一初始模型作为幅度谱降噪预训练单元。

所述第一损失函数S1表述为：S1=SISNR1+幅度谱均方误差损失，SISNR1是语音的信噪比损失，幅度谱均方误差损失是根据幅度谱的均方误差计算的损失，从而有利于训练所述第一初始模型对幅度谱的降噪能力。

对于S0213，可以获取用户输入的第二训练样本集和频谱修正初始单元，也可以从数据库中获取第二训练样本集和频谱修正初始单元，还可以从第三方应用中获取第二训练样本集和频谱修正初始单元。

频谱修正初始单元是根据CNN（卷积神经网络）和RNN（循环神经网络）得到的单元。

对于S0214，将所述幅度谱降噪预训练单元和所述频谱修正初始单元进行连接，将连接得到的网络作为第二初始模型。也就是说，第二初始模型的网络结构与所述降噪模型的幅度谱降噪单元及频谱修正单元的网络结构相同，但是网络参数的值不同。

对于S0215，根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，训练时只更新第二初始模型中的所述频谱修正初始单元的网络参数。

根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，训练时更新第二初始模型中的所述幅度谱降噪预训练单元及所述频谱修正初始单元的网络参数。

其中，所述第二损失函数S2表述为：S2=SISNR2+MSE损失+正则项，SISNR2是语音的信噪比损失，MSE损失是根据频谱图实部的均方误差、频谱图虚部的均方误差和频谱图幅度谱的均方误差计算的损失，从而训练了第二初始模型对语音的有人说话部分和无人说话部分的降噪能力。

正则项是自定义，是L2范数的正则化，是信噪比损失对应的函数和MSE损失对应的函数中的各个权重值的正则项范数正则化。通过将正则项加入到目标函数中，梯度下降时模型会倾向于选择参数较小的模型，这样使得模型的弹性变小，在一定程度上可以缓解过拟合。

L2范数，是欧几里得范数。

SISNR，英文名称为scale-invariant source-to-noise ratio，是尺度不变的信噪比，意思是不受信号变化影响的信噪比。SISNR对应的损失函数在此不做赘述。

在本申请的另一个实施例中，所述第二损失函数S2表述为：S2=SISNR2+MSE损失+感知损失+正则项。

感知损失（Perceptual loss）包括：LMS（Log Mel Spectra）和PMSQE（PerceptualMetric for Speech Quality Evaluation）。

在一个实施例中，上述根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，将训练结束的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，将训练结束的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元的步骤，包括：

S02151：将所述第二训练样本集中的一个训练样本作为目标训练样本；

S02152：将所述目标训练样本的频谱样本图输入所述第二初始模型进行降噪处理，得到频谱图预测结果；

S02153：根据所述频谱图预测结果进行语音信号重建，得到干净语音预测结果；

S02154：将所述频谱图预测结果、所述干净语音预测结果、所述目标训练样本的干净语音标定结果及频谱图标定结果输入所述第二损失函数进行损失值计算，得到目标损失值；

S02155：根据所述目标损失值更新所述第二初始模型的所述幅度谱降噪预训练单元及所述频谱修正初始单元的网络参数，将更新后的所述第二初始模型用于下一次计算所述频谱图预测结果；

S02156：重复所述将所述第二训练样本集中的一个训练样本作为目标训练样本的步骤，直至达到模型训练结束条件；

S02157：将达到所述模型训练结束条件的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，并且将达到所述模型训练结束条件的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元。

本实施例通过训练时同时更新第二初始模型中的所述幅度谱降噪预训练单元及所述频谱修正初始单元的网络参数，有利于提高降噪效果。

对于S02151，将所述第二训练样本集中的任一个训练样本作为目标训练样本。

目标训练样本包括：频谱样本图、频谱图标定结果、干净语音标定结果和感知数据标定结果，其中，频谱样本图是对语音样本进行短时傅立叶变换之后得到的频谱图，干净语音标定结果是频谱样本图对应的准确的干净语音，频谱图标定结果是频谱样本图对应的准确的干净语音对应的准确的频谱图，感知数据标定结果是频谱样本图对应的准确的干净语音对应准确的感知数据。

对于S02152，将所述目标训练样本的频谱样本图输入所述第二初始模型进行降噪处理，将降噪处理得到的频谱图作为频谱图预测结果。

对于S02153，对所述频谱图预测结果进行短时傅立叶逆变换，得到待处理时域数据；采用Overlapadd方法，对所述待处理时域数据进行语音信号重建，将重建得到的干净语音作为所述干净语音预测结果。

对于S02154，将所述频谱图预测结果、所述干净语音预测结果、所述目标训练样本的干净语音标定结果及频谱图标定结果输入所述第二损失函数进行损失值计算，将计算得到的损失值作为目标损失值。

对于S02155，根据所述目标损失值更新所述第二初始模型的所述幅度谱降噪预训练单元及所述频谱修正初始单元的网络参数的具体方法在此不做赘述。

对于S02156，重复所述将所述第二训练样本集中的一个训练样本作为目标训练样本的步骤，也就是重复执行步骤S02151至步骤S02156，直至达到模型训练结束条件。

模型训练结束条件包括：所述第二初始模型的目标损失值达到第一收敛条件或者所述第二初始模型的迭代次数达到第二收敛条件。

所述第一收敛条件是指相邻两次计算所述第二初始模型的目标损失值的不再降低。

第二收敛条件是指训练指标不再提升。比如，训练指标为信噪比损失。

语音经过短时傅立叶变换之后，将会得到实部的分量和虚部的分量。频谱图实部是指实部的分量。频谱图虚部是指虚部的分量。

短时傅立叶变换，是一个用于语音信号处理的通用工具，它定义了一个非常有用的时间和频率分布类, 其指定了任意信号随时间和频率变化的复数幅度。频谱图幅度谱，是短时傅立叶变换得到的复数幅度。

对于S02157，达到所述模型训练结束条件的所述第二初始模型是降噪效果达到预期的模型，因此将达到所述模型训练结束条件的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，并且将达到所述模型训练结束条件的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元。

参照图2，本申请还提出了一种基于幅度谱的语音降噪装置，所述装置包括：

数据获取模块100，用于获取目标语音对应的待降噪频谱图；

已降噪频谱图确定模块200，用于采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；

目标干净语音确定模块300，用于对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存基于幅度谱的语音降噪方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于幅度谱的语音降噪方法。所述基于幅度谱的语音降噪方法，包括：获取目标语音对应的待降噪频谱图；采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于幅度谱的语音降噪方法，包括步骤：获取目标语音对应的待降噪频谱图；采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图，其中，所述降噪模型依次包括：幅度谱降噪单元、频谱修正单元和掩码增益与减益单元，所述幅度谱降噪单元用于进行幅度谱降噪，所述频谱修正单元用于进行频谱修正；对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音。

上述执行的基于幅度谱的语音降噪方法，通过幅度谱降噪单元在幅度谱进行降噪处理，通过频谱修正单元频谱修正，从而使语音的有人说话部分和无人说话部分均有较好的降噪效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于幅度谱的语音降噪方法，其特征在于，所述方法包括：

获取目标语音对应的待降噪频谱图；

对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音；

所述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤，包括：

从所述待降噪频谱图中提取带噪相位谱；

将所述待分析频谱图输入所述掩码增益与减益单元进行掩码，得到所述已降噪频谱图；

所述将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据的步骤，包括：

根据所述增强幅度谱和所述带噪相位谱生成增强频谱图；

2.根据权利要求1所述的基于幅度谱的语音降噪方法，其特征在于，所述将所述待降噪频谱图输入所述幅度谱降噪单元进行幅度谱降噪，得到增强幅度谱的步骤，包括：

从所述待降噪频谱图中提取带噪幅度谱；

3.根据权利要求1所述的基于幅度谱的语音降噪方法，其特征在于，所述编码器的编码层的数量和所述解码器的解码层的数量均为n，所述将各个所述单层编码特征和所述待解码音频特征输入所述频谱修正单元的解码器进行解码，得到所述频谱修正数据的步骤，包括：

将第n个所述单层解码特征作为所述频谱修正数据；

4.根据权利要求1所述的基于幅度谱的语音降噪方法，其特征在于，所述采用预设的降噪模型，对所述待降噪频谱图进行降噪处理，得到已降噪频谱图的步骤之前，还包括：

获取第一训练样本集和第一初始模型；

获取第二训练样本集和频谱修正初始单元；

5.根据权利要求4所述的基于幅度谱的语音降噪方法，其特征在于，所述根据所述第二训练样本集和预设的第二损失函数，对所述第二初始模型进行训练，将训练结束的所述第二初始模型的所述幅度谱降噪预训练单元作为所述幅度谱降噪单元，将训练结束的所述第二初始模型的所述频谱修正初始单元作为所述频谱修正单元的步骤，包括：

6.一种基于幅度谱的语音降噪装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标语音对应的待降噪频谱图；

目标干净语音确定模块，用于对所述已降噪频谱图进行语音信号重建，得到所述目标语音对应的目标干净语音；

从所述待降噪频谱图中提取带噪相位谱；

其中，所述将所述增强幅度谱和所述带噪相位谱输入所述频谱修正单元进行频谱修正，得到频谱修正数据的步骤，包括：

根据所述增强幅度谱和所述带噪相位谱生成增强频谱图；

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。