CN115881153A

CN115881153A - 音频降噪方法、装置、设备及存储介质

Info

Publication number: CN115881153A
Application number: CN202111132656.5A
Authority: CN
Inventors: 周航宇
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2023-03-31

Abstract

本发明涉及音频处理技术领域，公开了一种音频降噪方法、装置、设备及存储介质，所述音频降噪方法包括：对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息，通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息，根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息，再对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号，以方便快捷地对不同环境下的混合音频进行降噪，提升音频质量，进一步地，降低了在对音频录制或播放设备发出的音频信号进行音频质量检测时的噪声干扰，提高了音频质量检测精度，实现了将在嘈杂环境中录制的音频恢复到相对干净的状态，利于提升语音通话或视频通话的质量。

Description

音频降噪方法、装置、设备及存储介质

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频降噪方法、装置、设备及存储介质。

背景技术

随着音频技术的发展，人们对音频的质量要求也越来越高，因此，对于不同的音频录制或播放设备，音频质量的检测成为非常重要的环节。然而，在具体实现中，录制音频时很容易受到环境噪声与设备本身的电流噪声的干扰，不仅影响了音频的效果，也影响了检测音频质量时的精准度，究其原因大多是由环境中复杂多变的噪声往往难以处理，传统降噪方法又很难去除这些噪声引起的。因此，如何方便快捷地对不同环境下的混合音频进行降噪，以提升音频质量，成为一个亟待解决的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种音频降噪方法、装置、设备及存储介质，旨在解决如何方便快捷地对不同环境下的混合音频进行降噪，以提升音频质量的技术问题。

为实现上述目的，本发明提供了一种音频降噪方法，所述方法包括以下步骤：

对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息；

通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息；

根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息；

对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号。

可选地，所述通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息的步骤之前，还包括:

将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号；

对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息；

根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号的步骤，包括：

对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

将所述标准纯净音频信号和所述标准噪声音频信号进行混合，获得样本混合音频信号。

可选地，所述对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号的步骤，包括：

判断样本纯净音频信号的时长是否满足第一预设整除条件；

在所述样本纯净音频信号的时长满足所述第一预设整除条件时，采用第一切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

在所述样本纯净音频信号的时长不满足所述第一预设整除条件时，采用第二切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号。

可选地，所述对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号的步骤，包括：

判断样本噪声音频信号的时长是否满足第二预设整除条件；

在所述样本噪声音频信号的时长满足所述第二预设整除条件时，采用第一切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

在所述样本噪声音频信号的时长不满足所述第二预设整除条件时，采用第二切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号。

可选地，所述根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

对所述样本噪声音频信号进行短时傅里叶变换，获得样本噪声频谱信息；

将所述样本频谱信息作为所述预设特征提取网络模型的模型输入特征，将所述样本噪声频谱信息作为所述预设特征提取网络模型的模型输出特征；

根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得模型训练结果；

根据预设损失函数判断所述模型训练结果是否满足预设收敛条件；

在所述模型训练结果满足所述预设收敛条件时，判定模型训练完成，输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型。

可选地，所述预设损失函数为，

L(S,N；θ)＝1/2||f(S；θ)⊙S-N||²

式中，L(S,N；θ)为预设损失函数，f(S；θ)为通过预设激活函数获得的特征图谱，S为样本频谱信息，N为样本噪声频谱信息，θ为预设模型训练参数。

可选地，所述对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息的步骤，包括：

对待处理音频信号进行短时傅里叶变换，获得频谱信息和相位信息；

相应地，所述对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号的步骤，包括：

对所述降噪频谱信息和所述相位信息进行短时傅里叶逆变换，获得降噪音频信号。

可选地，所述对待处理音频信号进行短时傅里叶变换，获得频谱信息和相位信息的步骤，包括：

通过短时傅里叶变换将时域下的待处理音频信号转换至频域，以获得频域下的频谱信息和相位信息；

所述对所述降噪频谱信息和所述相位信息进行短时傅里叶逆变换，获得降噪音频信号的步骤，包括：

通过短时傅里叶变换将频域下的所述降噪频谱信息和所述相位信息转换至时域，以获得时域下的降噪音频信号。

可选地，所述根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息的步骤，包括：

计算所述频谱信息和所述噪声频谱信息的频谱信息之差，并基于所述频谱信息之差确定降噪频谱信息。

此外，为实现上述目的，本发明还提出一种音频降噪装置，所述音频降噪装置包括：

信号变换模块，用于对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息；

噪声预测模块，用于通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息；

频谱降噪模块，用于根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息；

音频降噪模块，用于对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号。

可选地，所述噪声预测模块，还用于将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号；

所述噪声预测模块，还用于对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息；

所述噪声预测模块，还用于根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述噪声预测模块，还用于对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

所述噪声预测模块，还用于对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

所述噪声预测模块，还用于将所述标准纯净音频信号和所述标准噪声音频信号进行混合，获得样本混合音频信号。

可选地，所述噪声预测模块，还用于判断样本纯净音频信号的时长是否满足第一预设整除条件；

所述噪声预测模块，还用于在所述样本纯净音频信号的时长满足所述第一预设整除条件时，采用第一切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

所述噪声预测模块，还用于在所述样本纯净音频信号的时长不满足所述第一预设整除条件时，采用第二切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号。

可选地，所述噪声预测模块，还用于判断样本噪声音频信号的时长是否满足第二预设整除条件；

所述噪声预测模块，还用于在所述样本噪声音频信号的时长满足所述第二预设整除条件时，采用第一切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

所述噪声预测模块，还用于在所述样本噪声音频信号的时长不满足所述第二预设整除条件时，采用第二切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号。

可选地，所述噪声预测模块，还用于对所述样本噪声音频信号进行短时傅里叶变换，获得样本噪声频谱信息；

所述噪声预测模块，还用于将所述样本频谱信息作为所述预设特征提取网络模型的模型输入特征，将所述样本噪声频谱信息作为所述预设特征提取网络模型的模型输出特征；

所述噪声预测模块，还用于根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述噪声预测模块，还用于根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得模型训练结果；

所述噪声预测模块，还用于根据预设损失函数判断所述模型训练结果是否满足预设收敛条件；

所述噪声预测模块，还用于在所述模型训练结果满足所述预设收敛条件时，判定模型训练完成，输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型。

此外，为实现上述目的，本发明还提出一种音频降噪设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频降噪程序，所述音频降噪程序配置为实现如上文所述的音频降噪方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有音频降噪程序，所述音频降噪程序被处理器执行时实现如上文所述的音频降噪方法的步骤。

本发明中，对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息，以提高获取频谱信息和相位信息的速度，通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息，以提高获取噪声频谱信息的速度和精准度，根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息，再对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号，以方便快捷地对不同环境下的混合音频进行降噪，提升音频质量，进一步地，降低了在对音频录制或播放设备发出的音频信号进行音频质量检测时的噪声干扰，提高了音频质量检测精度，实现了将在嘈杂环境中录制的音频恢复到相对干净的状态，以利于提升语音通话或视频通话的质量。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的音频降噪设备的结构示意图；

图2为本发明音频降噪方法第一实施例的流程示意图；

图3为本发明音频降噪方法第一实施例涉及的降噪示意图；

图4为本发明音频降噪方法第二实施例的流程示意图；

图5为本发明音频降噪方法第二实施例涉及的样本信号处理示意图；

图6为本发明音频降噪方法第二实施例涉及的网络训练示意图；

图7为本发明音频降噪装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的音频降噪设备结构示意图。

如图1所示，该音频降噪设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity，WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory，RAM)，也可以是稳定的非易失性存储器(Non-Volatile Memory，NVM)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对音频降噪设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及音频降噪程序。

在图1所示的音频降噪设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明音频降噪设备中的处理器1001、存储器1005可以设置在音频降噪设备中，所述音频降噪设备通过处理器1001调用存储器1005中存储的音频降噪程序，并执行本发明实施例提供的音频降噪方法。

本发明实施例提供了一种音频降噪方法，参照图2，图2为本发明音频降噪方法第一实施例的流程示意图。

本实施例中，所述音频降噪方法包括以下步骤：

步骤S10：对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息；

易于理解的是，所述待处理音频信号可理解为音频录制或播放设备发出的混合有纯净音频信号和噪声音频信号的待处理的音频信号，在具体实现中，为了提高音频转换速度，以进一步提高音频降噪速度，可对待处理音频信号进行短时傅里叶变换(Short-TimeFourier Transform，或Short-Term Fourier Transform，STFT)，获得频谱信息和相位信息，即，可通过短时傅里叶变换将时域(Time domain)下的待处理音频信号转换至频域(frequency domain)，以获得频域下的频谱信息和相位信息，易于理解的是，待处理音频信号在时域下的图形可显示信号如何随着时间变化，而待处理音频信号在频域下的图形(即频谱信息和相位信息)可显示信号分布在哪些频率及其比例，即所述频域是描述信号在频率方面特性时用到的一种坐标系。其中，所述频谱信息用于表示待处理音频信号的频率与能量的关系，可通过横轴纵轴的波纹方式，记录该信号在各种频率的图形资料，在具体实现中，可通过频谱图的形式表示待处理音频信号的频率与能量的关系，如，线性振幅谱、对数振幅谱、自功率谱等；所述相位信息可理解为用于表示待处理音频信号的相位随频率变化的曲线，在具体实现中，可通过相位谱的形式来表示相位随频率变化的情形。

步骤S20：通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息；

需要说明的是，所述预设噪声预测模型可理解为基于预设特征提取网络模型建立的用于对所述频谱信息进行噪声预测的模型，其中，所述预设特征提取网络模型可为基于SegNet(一种用于语义分割的深度卷积网络架构，核心的可训练的分割引擎包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层)的神经网络模型，通过所述预设噪声模型对所述频谱信息进行噪声预测，以获得噪声频谱信息，所述噪声频谱信息用于表示噪声信号的频率与能量的关系，可通过横轴纵轴的波纹方式，记录该信号在各种频率的图形资料，在具体实现中，也可通过频谱图的形式表示噪声信号的频率与能量的关系。

步骤S30：根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息；

易于理解的是，在获得所述噪声频谱信息和所述频谱信息后，可根据所述噪声频谱信息对所述频谱信息进行降噪，在具体实现中，可计算所述频谱信息和所述噪声频谱信息的频谱信息之差，并基于所述频谱信息之差确定降噪频谱信息，如，用待处理音频信号对应的频谱减去预测出的噪声信号的频谱，以获得降噪后的音频信号的频谱，即，降噪频谱信息。

步骤S40：对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号。

需要说明的是，为了获得降噪后的音频信号，可对所述降噪频谱信息和所述相位信息进行短时傅里叶逆变换，以获得降噪音频信号。在具体实现中，可通过短时傅里叶变换将频域下的所述降噪频谱信息和所述相位信息转换至时域，获得时域下的降噪音频信号，以实现方便快捷地对不同环境下的混合音频进行降噪，提升音频质量。

参见图3，图3为本发明音频降噪方法第一实施例涉及的降噪示意图。

图3中，将音频录制或播放设备发出的音频信号经过短时傅里叶变换得到音频频谱和相位，将音频频谱直接发送至可预测出噪声频谱的噪声预测模型中，提取出音频中的噪声，即获得噪声频谱，然后用音频频谱减去预测出的噪声频谱，获得降噪后的音频频谱，再将降噪后的音频频谱结合相位通过傅里叶逆变换就能得到降噪后的音频了，最后将降噪后的音频用于音频设备的音频质量检测。

本实施例中，对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息，以提高获取频谱信息和相位信息的速度，通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息，以提高获取噪声频谱信息的速度和精准度，根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息，再对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号，以方便快捷地对不同环境下的混合音频进行降噪，提升音频质量，进一步地，降低了在对音频录制或播放设备发出的音频信号进行音频质量检测时的噪声干扰，提高了音频质量检测精度，实现了将在嘈杂环境中录制的音频恢复到相对干净的状态，以利于提升语音通话或视频通话的质量。

参考图4，图4为本发明音频降噪方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，所述步骤S20之前，还包括：

步骤S01：将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号；

步骤S02：对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息；

易于理解的是，为了获取用于对预设特征提取网络模型进行训练的样本频谱信息，可对获取到的样本纯净音频信号(如，采集纯净的人声作为样本纯净音频信号)进行标准化切分处理，获得标准纯净音频信号，对获取到的样本噪声音频信号(如，采集环境噪声和设备噪声作为样本噪声音频信号)进行标准化切分处理，获得标准噪声音频信号，然后将所述标准纯净音频信号和所述标准噪声音频信号进行混合，获得样本混合音频信号，再对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息和样本相位信息，其中，所述样本频谱信息用于表示样本混合音频信号的频率与能量的关系，可通过横轴纵轴的波纹方式，记录该信号在各种频率的图形资料，在具体实现中，可通过频谱图的形式表示样本混合音频信号的频率与能量的关系；所述样本相位信息可理解为用于表示样本混合音频信号的相位随频率变化的曲线，在具体实现中，可通过相位谱的形式来表示相位随频率变化的情形。

在具体实现中，为了获得标准纯净音频信号，可先判断样本纯净音频信号的时长是否满足第一预设整除条件，所述第一预设整除条件可理解为判断预设样本纯净音频信号的时长是否可整除预设时长，所述预设时长可根据实际需求进行设置，如，10秒，30秒，60秒等，本实施例对此不加以限制。在所述样本纯净音频信号的时长满足所述第一预设整除条件时，即预设样本纯净音频信号的时长可整除预设时长时，采用第一切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号，所述第一切分方式为以预设时长为梯度对样本纯净音频信号进行等长切分，如，样本纯净音频信号的时长为5分钟，即，300秒，预设时长为20秒，则以20秒为一个梯度对样本纯净音频信号进行等长切分，获取15个标准纯净音频信号。而在所述样本纯净音频信号的时长不满足所述第一预设整除条件时，即，预设样本纯净音频信号的时长不可整除预设时长时，采用第二切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号，所述第二切分方式为先采用补零的方式补齐时长再以预设时长为梯度对样本纯净音频信号进行等长切分，如，样本纯净音频信号的时长为723秒，预设时长为30秒，则先采用补零的方式将样本纯净音频信号的时长补齐至750秒，再以30秒为一个梯度对样本纯净音频信号进行等长切分，获取25个标准纯净音频信号。

需要说明的是，为了提高切分效率，可基于样本纯净音频信号的时长来匹配对应的预设时长，在具体实现中，可判断样本纯净音频信号的时长是否大于预设临界时长，在大于等于所述预设临界时长时，将所述样本纯净音频信号判定为样本纯净长音频信号，并选取样本纯净长音频信号对应的切分时长作为预设时长；在小于所述预设临界时长时，将所述样本纯净音频信号判定为样本纯净短音频信号，并选取样本纯净短音频信号对应的切分时长作为预设时长。其中，所述预设临界时长可根据实际需求进行设置，如，5分钟，10分钟等，本实施例对此不加以限制。在另一种实现方式中，也可获取样本纯净音频信号的时长所处的时长区间，根据时长区间匹配对应的预设时长，以提高切分效率。

在具体实现中，为了获得标准噪声音频信号，可先判断样本噪声音频信号的时长是否满足第二预设整除条件，所述第二预设整除条件可理解为判断预设样本噪声音频信号的时长是否可整除预设时长，所述预设时长可根据实际需求进行设置，如，10秒，30秒，60秒等，本实施例对此不加以限制。在所述样本噪声音频信号的时长满足所述第二预设整除条件时，即预设样本噪声音频信号的时长可整除预设时长时，采用第一切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号，所述第一切分方式为以预设时长为梯度对样本噪声音频信号进行等长切分，如，样本噪声音频信号的时长为5分钟，即，300秒，预设时长为20秒，则以20秒为一个梯度对样本噪声音频信号进行等长切分，获取15个标准噪声音频信号。而在所述样本噪声音频信号的时长不满足所述第二预设整除条件时，即，预设样本噪声音频信号的时长不可整除预设时长时，采用第二切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号，所述第二切分方式为先采用补零的方式补齐时长再以预设时长为梯度对样本噪声音频信号进行等长切分，如，样本噪声音频信号的时长为723秒，预设时长为30秒，则先采用补零的方式将样本噪声音频信号的时长补齐至750秒，再以30秒为一个梯度对样本噪声音频信号进行等长切分，获取25个标准噪声音频信号。

需要说明的是，为了提高切分效率，可基于样本噪声音频信号的时长来匹配对应的预设时长，在具体实现中，可判断样本噪声音频信号的时长是否大于预设临界时长，在大于等于所述预设临界时长时，将所述样本噪声音频信号判定为样本噪声长音频信号，并选取样本噪声长音频信号对应的切分时长作为预设时长；在小于所述预设临界时长时，将所述样本噪声音频信号判定为样本噪声短音频信号，并选取样本噪声短音频信号对应的切分时长作为预设时长。其中，所述预设临界时长可根据实际需求进行设置，如，5分钟，10分钟等，本实施例对此不加以限制。在另一种实现方式中，也可获取样本噪声音频信号的时长所处的时长区间，根据时长区间匹配对应的预设时长，以提高切分效率。

进一步地，再将所述标准纯净音频信号和所述标准噪声音频信号进行混合，获得样本混合音频信号。在具体实现中，可对所述标准纯净音频信号和所述标准噪声音频信号进行随机缩放后进行叠加混合，以提高样本混合音频信号的多样性，丰富用于进行模型训练的样本数据。然后，对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息和样本相位信息。

参见图5，图5为本发明音频降噪方法第二实施例涉及的样本信号处理示意图。

图5中，将纯净信号和噪声信号按照预设频率进行采样形成多个等时长的新的纯净信号和噪声信号，预设频率可根据实际需求进行设置，本实施例对此不加以限制，然后，将纯净信号和噪声信号随机缩放后进行叠加混合，保证混合后的音频信号的多样性，再通过短时傅里叶变换得到用于输入至预设特征提取网络模型中进行训练的频谱图和相位。

如，采集了3小时时长的纯净音频，以及1小时时长的环境与设备噪声音频，将采集到的纯净音频和噪声音频进行混合，形成混合音频。由于采集到的音频时间长度不一，需要对时长进行标准化处理，以将纯净音频和噪声音频分别切分成时长一致的新的音频信号，再将获得的新的音频信号进行混合。其中，采样后得到的新的音频信号的时长t与采样频率f、采样点数n之间的关系为：t＝n/f。在具体实现中，在对长音频进行切分时，可按预设时长进行切分，其中，预设时长可根据实际需求进行设置，本实施例对此不加以限制，如，长音频的时长为t_l(long)，短音频的固定时长为t_s(short)，切分段数为，n_c＝t₁/t_s+1，切出的第i段音频为：sound_i＝sound_long[(i-1)*n:i*n]。

步骤S03：根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型。

需要说明的是，在根据所述样本频谱信息对预设特征提取网络模型进行训练之前，可先对所述样本噪声音频信号进行短时傅里叶变换，获得样本噪声频谱信息，所述样本噪声频谱信息用于表示样本噪声音频信号的频率与能量的关系，可通过横轴纵轴的波纹方式，记录该信号在各种频率的图形资料，在具体实现中，可通过频谱图的形式表示样本噪声音频信号的频率与能量的关系。然后，将所述样本频谱信息作为所述预设特征提取网络模型的模型输入特征，将所述样本噪声频谱信息作为所述预设特征提取网络模型的模型输出特征，根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型。所述预设噪声预测模型可理解为基于预设特征提取网络模型建立的用于对所述频谱信息进行噪声预测的模型，其中，所述预设特征提取网络模型可为基于SegNet(一种用于语义分割的深度卷积网络架构，核心的可训练的分割引擎包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层)的神经网络模型。

易于理解的是，为了提高预设噪声预测模型的模型精度，可根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得模型训练结果，根据预设损失函数判断所述模型训练结果是否满足预设收敛条件，其中，所述预设损失函数为，

L(S,N；θ)＝1/2||f(S；θ)⊙S-N||²

式中，L(S,N；θ)为预设损失函数，f(S；θ)为通过预设激活函数获得的特征图谱，S为样本频谱信息，N为样本噪声频谱信息，θ为预设模型训练参数。其中，所述预设模型训练参数可理解为模型训练过程中的需要进行训练的参数，可根据实际需求进行设置，本实施例对此不加以限制。在具体实现中，可将SegNet做为基础的特征提取网络，中间层采用relu作为激活函数，最后一层使用tanh激活函数，由此得到一个特征图谱(掩码)f(S；θ)，并设置输入形式为频谱图S，目标为噪声频谱N。如，可将混合音频信号的频谱图作为输入，经过网络的训练得到噪声预测模型，其中，采样频率可设置为16000，帧长可设置为80000，即每段音频的时长可设置为5s，batch size可设置为16，训练轮数可设置为1000轮，总训练时长可设置为6小时。

进一步地，在所述模型训练结果满足所述预设收敛条件时，判定模型训练完成，输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型，以提高获得的预设噪声预测模型的模型精度。其中，所述预设收敛条件可为模型收敛精度达到预设收敛精度，所述预设收敛精度可根据实际需求进行设置，本实施例对此不加以限制。如，判断相邻两次训练的预设损失函数所求得的损失值之差的绝对值小于等于预设精度值时，判定满足所述预设收敛条件，即模型训练完成，可输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型，所述预设精度值可根据实际需求进行设置，本实施例对此不加以限制。

参见图6，图6为本发明音频降噪方法第二实施例涉及的网络训练示意图。

图6中，可通过频谱图的形式表示样本混合音频信号和样本噪声音频信号的频率与能量的关系，即，可将所述样本频谱信息(即混合频谱图)作为神经网络模型(即所述预设特征提取网络模型)的模型输入特征，将所述样本噪声频谱信息(即噪声频谱图)作为所述预设特征提取网络模型的模型输出特征，根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型。在具体实现中，可将SegNet做为基础的特征提取网络，中间层采用relu作为激活函数，最后一层使用tanh激活函数，由此得到一个特征图谱(掩码)，并设置输入形式为频谱图，目标为噪声频谱图。进一步地，还可将基于预设损失函数所求得的损失值反向传递至神经网络模型以反馈模型精度，以便于实时判断模型精度是否满足预设精度要求，在满足预设精度要求时，可判定模型训练完成，输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型，所述预设精度要求可根据实际需求进行设置，本实施例对此不加以限制。

本实施例中，将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号，以提高获得的样本混合音频信号的丰富度和多样性，对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息，以提高获得样本频谱信息的速度；根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型，以提高获得的预设噪声预测模型的精准度，便于根据获得的预设噪声预测模型提取不同环境下的混合音频信号的噪声信号，也便于简单快速地对不同环境下的混合音频进行降噪，提升音频质量，进一步地，也便于降低在对音频录制或播放设备发出的音频信号进行音频质量检测时的噪声干扰，提高音频质量检测精度，实现将在嘈杂环境中录制的音频恢复到相对干净的状态，提升语音通话或视频通话的质量。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有音频降噪程序，所述音频降噪程序被处理器执行时实现如上文所述的音频降噪方法的步骤。

参照图7，图7为本发明音频降噪装置第一实施例的结构框图。

如图7所示，本发明实施例提出的音频降噪装置包括：

信号变换模块10，用于对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息；

噪声预测模块20，用于通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息；

频谱降噪模块30，用于根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息；

音频降噪模块40，用于对所述降噪频谱信息和所述相位信息进行傅里叶逆变换，获得降噪音频信号。

基于本发明上述音频降噪装置第一实施例，提出本发明音频降噪装置的第二实施例。

在本实施例中，所述噪声预测模块20，还用于将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号；

所述噪声预测模块20，还用于对所述样本混合音频信号进行短时傅里叶变换，获得样本频谱信息；

所述噪声预测模块20，还用于根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述噪声预测模块20，还用于对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

所述噪声预测模块20，还用于对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

所述噪声预测模块20，还用于将所述标准纯净音频信号和所述标准噪声音频信号进行混合，获得样本混合音频信号。

可选地，所述噪声预测模块20，还用于判断样本纯净音频信号的时长是否满足第一预设整除条件；

所述噪声预测模块20，还用于在所述样本纯净音频信号的时长满足所述第一预设整除条件时，采用第一切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

所述噪声预测模块20，还用于在所述样本纯净音频信号的时长不满足所述第一预设整除条件时，采用第二切分方式对所述样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号。

可选地，所述噪声预测模块20，还用于判断样本噪声音频信号的时长是否满足第二预设整除条件；

所述噪声预测模块20，还用于在所述样本噪声音频信号的时长满足所述第二预设整除条件时，采用第一切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号；

所述噪声预测模块20，还用于在所述样本噪声音频信号的时长不满足所述第二预设整除条件时，采用第二切分方式对所述样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号。

可选地，所述噪声预测模块20，还用于对所述样本噪声音频信号进行短时傅里叶变换，获得样本噪声频谱信息；

所述噪声预测模块20，还用于将所述样本频谱信息作为所述预设特征提取网络模型的模型输入特征，将所述样本噪声频谱信息作为所述预设特征提取网络模型的模型输出特征；

所述噪声预测模块20，还用于根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型。

可选地，所述噪声预测模块20，还用于根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得模型训练结果；

所述噪声预测模块20，还用于根据预设损失函数判断所述模型训练结果是否满足预设收敛条件；

所述噪声预测模块20，还用于在所述模型训练结果满足所述预设收敛条件时，判定模型训练完成，输出当前模型训练结果，并将当前模型训练结果作为预设噪声预测模型。

可选地，所述预设损失函数为，

L(S,N；θ)＝1/2||f(S；θ)⊙S-N||²

可选地，所述信号变换模块10，还用于对待处理音频信号进行短时傅里叶变换，获得频谱信息和相位信息；

相应地，所述音频降噪模块40，还用于对所述降噪频谱信息和所述相位信息进行短时傅里叶逆变换，获得降噪音频信号。

可选地，所述信号变换模块10，还用于通过短时傅里叶变换将时域下的待处理音频信号转换至频域，以获得频域下的频谱信息和相位信息；

所述音频降噪模块40，还用于通过短时傅里叶变换将频域下的所述降噪频谱信息和所述相位信息转换至时域，以获得时域下的降噪音频信号。

可选地，所述频谱降噪模块30，还用于计算所述频谱信息和所述噪声频谱信息的频谱信息之差，并基于所述频谱信息之差确定降噪频谱信息。

本发明音频降噪装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

本发明公开了A1、一种音频降噪方法，所述音频降噪方法包括以下步骤：

A2、如A1所述的音频降噪方法，所述通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息的步骤之前，还包括:

A3、如A2所述的音频降噪方法，所述将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号的步骤，包括：

A4、如A3所述的音频降噪方法，所述对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号的步骤，包括：

判断样本纯净音频信号的时长是否满足第一预设整除条件；

A5、如A3所述的音频降噪方法，所述对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号的步骤，包括：

判断样本噪声音频信号的时长是否满足第二预设整除条件；

A6、如A2所述的音频降噪方法，所述根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

A7、如A6所述的音频降噪方法，所述根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

A8、如A7所述的音频降噪方法，所述预设损失函数为，

L(S,N；θ)＝1/2||f(S；θ)⊙S-N||²

A9、如A1～A8中任一项所述的音频降噪方法，所述对待处理音频信号进行傅里叶变换，获得频谱信息和相位信息的步骤，包括：

A10、如A9所述的音频降噪方法，所述对待处理音频信号进行短时傅里叶变换，获得频谱信息和相位信息的步骤，包括：

A11、如A1～A8中任一项所述的音频降噪方法，所述根据所述噪声频谱信息对所述频谱信息进行降噪，获得降噪频谱信息的步骤，包括：

本发明还公开了B12、一种音频降噪装置，所述音频降噪装置包括：

B13、如B12所述的音频降噪装置，所述噪声预测模块，还用于将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号；

B14、如B13所述的音频降噪装置，所述噪声预测模块，还用于对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号；

B15、如B14所述的音频降噪装置，所述噪声预测模块，还用于判断样本纯净音频信号的时长是否满足第一预设整除条件；

B16、如B14所述的音频降噪装置，所述噪声预测模块，还用于判断样本噪声音频信号的时长是否满足第二预设整除条件；

B17、如B13所述的音频降噪装置，所述噪声预测模块，还用于对所述样本噪声音频信号进行短时傅里叶变换，获得样本噪声频谱信息；

B18、如B17所述的音频降噪装置，所述噪声预测模块，还用于根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得模型训练结果；

本发明还公开了C19、一种音频降噪设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频降噪程序，所述音频降噪程序配置为实现如A1至A11中任一项所述的音频降噪方法的步骤。

本发明还公开了D20、一种存储介质，所述存储介质上存储有音频降噪程序，所述音频降噪程序被处理器执行时实现如A1至A11中任一项所述的音频降噪方法的步骤。

Claims

1.一种音频降噪方法，其特征在于，所述音频降噪方法包括以下步骤：

2.如权利要求1所述的音频降噪方法，其特征在于，所述通过预设噪声预测模型对所述频谱信息进行噪声预测，获得噪声频谱信息的步骤之前，还包括:

3.如权利要求2所述的音频降噪方法，其特征在于，所述将样本纯净音频信号和样本噪声音频信号进行混合，获得样本混合音频信号的步骤，包括：

4.如权利要求3所述的音频降噪方法，其特征在于，所述对样本纯净音频信号进行标准化切分处理，获得标准纯净音频信号的步骤，包括：

判断样本纯净音频信号的时长是否满足第一预设整除条件；

5.如权利要求3所述的音频降噪方法，其特征在于，所述对样本噪声音频信号进行标准化切分处理，获得标准噪声音频信号的步骤，包括：

判断样本噪声音频信号的时长是否满足第二预设整除条件；

6.如权利要求2所述的音频降噪方法，其特征在于，所述根据所述样本频谱信息对预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

7.如权利要求6所述的音频降噪方法，其特征在于，所述根据所述模型输入特征和所述模型输出特征对所述预设特征提取网络模型进行训练，获得预设噪声预测模型的步骤，包括：

8.一种音频降噪装置，其特征在于，所述音频降噪装置包括：

9.一种音频降噪设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的音频降噪程序，所述音频降噪程序配置为实现如权利要求1至7中任一项所述的音频降噪方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有音频降噪程序，所述音频降噪程序被处理器执行时实现如权利要求1至7中任一项所述的音频降噪方法的步骤。