CN111883091A

CN111883091A - 音频降噪方法和音频降噪模型的训练方法

Info

Publication number: CN111883091A
Application number: CN202010658159.8A
Authority: CN
Inventors: 胡诗超; 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-11-03

Abstract

本发明实施例公开了一种音频降噪方法和音频降噪模型的训练方法。该方案可以获取待降噪音频信号，对待降噪音频信号进行处理以获得频谱特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

Description

音频降噪方法和音频降噪模型的训练方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种音频降噪方法和音频降噪模型的训练方法。

背景技术

近些年来，移动端K歌软件的市场规模逐渐扩大，用户群体遍布各个年龄段以及各种音乐层次。特别是随着智能手机、平板电脑等智能终端的普及，使得用户足不出户进行K歌成为了一种可能。比如，用户在智能手机上安装了K歌软件后，无需走进KTV便可实现歌曲演唱。其中此类软件的主要场景之一就是录歌，也就是伴奏与人声两路音频信号，通过信号处理技术最终产生合成作品的一路音频信号数据。

目前使用市面上的K歌APP录音时，受限于非专业设备和环境，用户录制的歌声里很容易混入噪声(麦克风摩擦音，环境背景杂音等)，对听感有较大的影响。因此，对录制的歌声进行降噪很有必要。现有的歌声降噪方案都是基于传统数字信号处理，使用各种有效的频域转换和时域变换估计噪声频谱，然后从录制的信号中提取纯净的人声信号。比如在原始带噪歌声信号的基础上，利用统计信号处理的方法估计原始信号中的噪声部分的功率谱等特征，然后通过计算得到的噪声信号的功率谱等特征，从原始带噪歌声信号中预测降噪后的歌声信号。

申请人发现，这种传统的降噪方法只针对某些特定类型的噪声(稳态噪声等)有一定的降噪作用，对其他更复杂多变的背景噪声(如非稳态)难以有理想的效果。此外，传统的歌声降噪方法在降噪过程中容易对原本的人声信号引入失真。

发明内容

本发明实施例提供一种音频降噪方法和音频降噪模型的训练方法，可以提升音频的降噪效果。

本发明实施例提供一种音频降噪方法，包括：

获取待降噪音频信号；

对所述待降噪音频信号进行处理以获得频谱特征；

将所述频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征；

将所述频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码；

对所述目标频谱进行处理，以获得目标音频信号；或使用所述目标频谱掩码对所述待降噪音频信号进行处理，以获得目标音频信号。

本发明实施例还提供一种音频降噪模型的训练方法，包括：

获取包含噪声的目标歌曲对应的第一音频和不包含噪声的目标歌曲对应的第二音频；

获取第一音频频谱的幅值特征以及第二音频的音频特征；

根据所述第一音频频谱的幅值特征以及第二音频的音频特征对预设音频降噪模型进行训练，所述预设音频降噪模型包括多层卷积神经网络和两层循环神经网络。

本发明实施例提供的音频降噪方案，可以获取待降噪音频信号，对待降噪音频信号进行处理以获得频谱特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的音频降噪方法的第一流程示意图；

图1b是本发明实施例提供的音频降噪方法的第二流程示意图；

图1c是本发明实施例提供的音频降噪模型的训练方法的流程示意图；

图1d是本发明实施例提供的预设网络模型的第一结构示意图；

图1e是本发明实施例提供的预设网络模型的第二结构示意图；

图2a是本发明实施例提供的音频降噪装置的第一种结构示意图；

图2b是本发明实施例提供的音频降噪装置的第二种结构示意图；

图3是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频降噪方法，该音频降噪方法的执行主体可以是本发明实施例提供的音频降噪装置，或者集成了该音频降噪装置的服务器，其中该音频降噪装置可以采用硬件或者软件的方式实现。

如图1a所示，图1a是本发明实施例提供的音频降噪方法的第一流程示意图，该音频降噪方法的具体流程可以如下：

101、获取待降噪音频信号。

在一实施例中，上述待降噪音频信号为降噪处理前用户输入的音频信号，比如用户翻唱的歌曲。进一步的，该待降噪音频信号可以为一路伴奏音频和一路干声音频合成后的音频信号，其中，该伴奏音频可以为用户所要翻唱的目标音频对应的伴奏音频，比如根据目标音频的标识(歌曲名、专辑名、演唱者等)向服务器发送请求，然后接收服务器根据上书请求返回的伴奏音频，该伴奏音频为目标音频当中的纯伴奏部分。

上述干声音频可以用户输入的音频，比如在播放伴奏的同时通过终端设备的麦克风输入的人声。比如用户在录歌时现根据目标音频的歌名获取该歌曲的伴奏音频，然后通过麦克风输入自己翻唱的干声音频。

在其他实施例当中，上述待降噪音频信号还可以包括一路伴奏音频和多路干声音频。比如多个用户采用合唱的方式对目标音频进行翻唱，若一首歌曲的时长为四分钟，而用户A对前两分钟的部分进行翻唱，用户B对后两分钟的部分进行翻唱，此时可以在根据歌曲名获取到路伴奏音频之后，通过麦克风分别获取用户A输入的前两分钟对应的第一干声音频以及用户B输入的后两分钟对应的第二干声音频，以得到上述待降噪音频信号。

102、对待降噪音频信号进行处理以获得频谱特征。

在一实施例中，可以先获取待降噪音频信号的初始频谱，然后在进一步提取该初始频谱的频谱特征。其中上述频谱特征可以包括频谱特征和相位特征，比如在得到初始频谱后进行频谱功率计算和滤波，最后根据滤波后的信号进行幅值提取和相位提取。

在另一实施例中，还可以对音频信号进行分帧处理，得到至少1帧音频信号帧。在分帧处理的过程中，每一帧音频信号帧的帧长以及相邻两帧音频信号帧之间的帧间隔可以根据实际情况进行设置。然后分别对各个音频信号帧进行信号采样，将各个音频信号帧变成离散状态，分别对各个音频信号帧对应的采样数据进行短时短时傅里叶变换(ShortTime Fourier Transform，STFT)，得到各个音频信号帧对应的频谱特征。其中，上述短时傅里叶变换是一个用于语音信号处理的通用工具。它定义了一个非常有用的时间和频率分布类,其指定了任意信号随时间和频率变化的复数幅度。具体的，可以将获取的待降噪音频信号转换为其时域波形，实现时,短时傅里叶变换被计算为一系列加窗数据帧的快速傅里叶变换(Fast Fourier Transform,FFT)，其中窗口随时间“滑动”(slide)或“跳跃”(hop)。

103、将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征。

104、将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码。

本申请实施例中提供的音频降噪模型分别包括卷积网络模型(convolutionalneural network,CNN)和循环网络模型(Recurrent Neural Network，RNN)，其中上述卷积网络模型和循环网络模型可以分别为多层，也即音频降噪模型可以为基于卷积神经网络和循环神经网络的混合神经网络结构。其中，CNN能很好地抓取音频信号的频谱结构，另一方面RNN能利用前后时序信息做相关的频谱预测。因此使用本申请实施例提供的基于CNN-RNN的音频降噪方法在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

在一实施例中，可以预先对上述音频降噪模型进行训练。在训练完成后使用该模型来进行预测，预测结果可以为目标频谱或目标频谱掩码也即目标频谱的MASK值。具体的，上述音频降噪模型在训练时的输出层可以为目标音频信号频谱或目标音频信号频谱的MASK值。

105、对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。

在一实施例中，当步骤104当中获取到目标频谱时，可以根据该目标频谱幅值以及初始频谱的相位特征生成目标音频信号的复数频谱。当步骤104当中获取到目标频谱的MASK值时，可以根据该目标频谱的MASK值、初始频谱的幅值特征和相位特征生成目标音频信号的复数频谱。

进一步的，在得到目标音频信号的复数频谱后，可以对复数频谱进行短时傅里叶反变换。其中，上述短时傅里叶变换可以将一个时域信号转换成在不同频率下对应的振幅及相位，其频谱就是时域信号在频域下的表现，而短时傅里叶反变换可以将频谱再转换回时域的信号，因此对上述复数频谱进行短时傅里叶反变换后即可得到目标音频信号的时域波形。从而实现了对待降噪音频信号的降噪处理。

在一实施例中，上述使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号的步骤可以包括：根据所述目标频谱掩码对所述待降噪音频信号的频谱特征进行计算，并根据计算后的频谱特征生成目标频谱，对所述目标频谱进行处理，以获得目标音频信号。

具体的，得到频谱掩码之后，电子设备可以使用频谱掩码对待降噪的音频信号进行处理，使频谱掩码与待降噪的音频信号的频谱特征进行对应元素相乘，可以生成降噪频谱，并根据降噪频谱得到目标音频信号。得到目标音频信号后，电子设备可以对目标音频信号进行缓存，根据用户需求执行相应的操作。

在本申请实施例中，基于CNN-RNN混合神经网络对音频进行降噪，首先通过CNN转化提取相应的频谱等特征，接着使用RNN网络分析提取特征的前后时序关系，最终预测每帧信号的干净歌声信号的MASK值或频谱，最终得到降噪后的歌声信号。

由上所述，本发明实施例提出的音频降噪方法可以获取待降噪音频信号，对待降噪音频信号进行处理以获得频谱特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

根据前面实施例所描述的方法，以下将作进一步详细说明。

请参阅图1b，图1b是本发明实施例提供的音频降噪方法的第二流程示意图。所述方法包括：

201、获取待降噪音频信号。

202、对待降噪音频信号的时域波形进行短时傅里叶变换，以得到变换后的初始频谱。

比如，上述待降噪音频信号其带噪波形为xn，可以对其波形进行短时傅里叶变换，得到变换后的初始频谱STFT(xn)。

203、提取初始频谱的幅值特征和相位特征。

在一实施例中，对时域波形进行快速离散傅里叶变换，然后对上述的时域波形信号进行FFT运算后得到频域信号数组，对快速傅里叶变换后的信号进行频谱功率计算和滤波，最后根据滤波后的信号进行幅值提取和相位提取。比如在获取到初始频谱STFT(xn)后，提取幅值特征和相位特征，分别为Xt_abs,Xt_phase。

204、将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征。

205、将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码。

其中，本申请实施例中提供的音频降噪模型分别包括卷积网络模型和循环网络模型。在一实施例中，将上述幅值特征Xt_abs输入至卷积网络模型进行处理，以获得频谱卷积特征，然后将频谱卷积特征输入循环网络模型进行处理，以预测去噪后的歌声特征，该歌声特征可以为目标音频信号频谱幅值Yt_abs或目标音频信号频谱幅值的MASK值mask_t。

具体的，当音频降噪模型输出的为目标音频信号频谱时，获取目标音频信号频谱幅值Yt_abs作为音频特征，当预设神经网络模型输出的为目标音频信号频谱的MASK值时，获取目标音频信号频谱幅值的MASK值mask_t作为音频特征。

在一实施例中，可以通过全连接网络(Fully connected layer(FCN))来获取目标频谱或目标频谱掩码，因为FCN的作用是可以将RNN输出特征转换到和短时傅里叶变化频谱维度一致的频谱特征。也即将所述频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码的步骤包括:

将所述频谱卷积特征输入循环网络模型，以得到频谱循环特征；

将所述频谱循环特征输入至全连接网络，以得到目标频谱或目标频谱掩码。

206、根据目标频谱、幅值特征以及相位特征计算目标复数频谱；或根据目标频谱掩码、幅值特征以及相位特征计算目标复数频谱。

在一实施例中，若上述预测为目标音频信号频谱幅值Yt_abs，可以根据该目标音频信号频谱幅值以及初始频谱的相位特征生成目标音频信号的复数频谱。也即根据目标频谱、幅值特征以及相位特征计算目标复数频谱的步骤包括；

根据第一公式计算目标复数频谱，其中第一公式为：

Ct＝Yt_abs*exp^(1j*Xt_phase)

其中，Yt_abs为目标频谱的频谱幅值，Xt_phase为初始频谱的相位特征。

在一实施例中，若上述预测为目标音频信号频谱幅值的MASK值mask_t，可以根据该目标音频信号频谱幅值的MASK值、初始频谱的幅值特征和相位特征生成目标音频信号的复数频谱。也即根据目标频谱掩码、幅值特征以及相位特征计算目标复数频谱的步骤包括：

根据第二公式计算目标复数频谱，其中第二公式为：

Ct＝Xt_abs*mask_t*exp^(1j*Xt_phase)

其中，Xt_abs为初始频谱的幅值特征，Xt_phase为初始频谱的相位特征，mask_t为目标频谱掩码。

207、对目标复数频谱进行短时傅里叶反变换生成目标音频信号。

本案提出的一种基于CNN-RNN神经网络的音频降噪的方法，采用CNN特征变换，能从带噪声的歌声特征中提取相关的纯净的歌声特征。另一方面，利用输入特征随时间动态变化规律进行学习，将前后帧的特征信息的判决信息作用于当前帧降噪预测的算法，提出CNN-RNN混合神经网络，结合了CNN善于提取特征的优点与RNN善于对时间序列分析的能力，很好的利用了音频帧之间的强相关性，最终在保护原始纯净人声特征的同时对噪声特征进行消减。相对于传统基于信号处理的降噪方式，本案能有更好的降噪能力，同时也能保证降噪后的歌声信号有更少的人声失真。

由上所述，本发明实施例提出的音频降噪方法可以获取待降噪音频信号，对待降噪音频信号的时域波形进行短时傅里叶变换，以得到变换后的初始频谱，提取初始频谱的幅值特征和相位特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，根据目标频谱、幅值特征以及相位特征计算目标复数频谱；或根据目标频谱掩码、幅值特征以及相位特征计算目标复数频谱，对目标复数频谱进行短时傅里叶反变换生成目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

本申请实施例还提供一种音频降噪模型的训练方法，请参阅图1c，包括以下步骤：

301、获取包含噪声的目标歌曲对应的第一音频和不包含噪声的目标歌曲对应的第二音频。

在一实施例中，可以预先使用电子设备分别录制足够数量的歌唱的人声和噪声，将上述干净的歌声以及噪声混合即可得到带噪的歌声即为第一音频，将干净的歌声作为第二歌声。其中，上述噪声可以包括多个比如人声噪声、户外噪声等，根据实际需求来选择对应的噪声合成第一音频。

进一步的，在将上述干净的歌声以及噪声混合得到第一音频时，可以按照不同的信噪比进行合成，以满足不同响度的噪声所对应的情况，其中信噪比是指一个电子设备或者电子系统中信号与噪声的比例。例如分别按照信噪比为10dB,5dB,0dB,-5dB,-10dB等来合成第一音频，本实施例对此不作进一步限定。

302、获取第一音频频谱的幅值特征以及第二音频的音频特征。

在一实施例中，若x为步骤301中混合得到的第一音频的时域带噪波形，第一音频频谱的幅值特征可以为Xt，先对x进行短时傅里叶变换STFT(x)，以得到第一音频的频谱，然后根据该第一音频的频谱提取幅值特征Xt。相应的，y为第二音频的时域波形，Yt为对应的第二音频的频谱或其MASK值:Mask_t。

也即Yt＝STFT(y)。

Mask_t＝abs(Xt)/abs(Yt)，if Mask_t>1:Mask_t＝1

303、根据第一音频频谱的幅值特征以及第二音频的音频特征对预设音频降噪模型进行训练，预设音频降噪模型包括多层卷积神经网络和两层循环神经网络。

其中，上述预设神经网络模型包括多层卷积神经网络CNN和两层循环神经网络RNN。具体的，请参阅图1d和图1e，为本发明实施例提供的预设网络模型的两种结构示意图，其中，Xt先通过一个多层CNN，然后通过两层RNN或者BiRNN，输出层为降噪后的歌声信号频谱Yt’或其对应的MASK RATIO值Mask_t’。

具体的，图1d中的网络模型为基于最后帧预测，该模型框图最后仅使用RNN的时间序列的最后一个序列特征作为DNN(深度神经网络(Deep Neural Networks)的输入，仅利用其前面帧的相关性。图1e中的网络模型为基于中间帧预测，该模型框图最后仅使用双向RNN，即BiRNN的时间序列的中间序列特征作为DNN的输入，其充分利用上下文关系。也即在一实施例中，所述预设神经网络模型还包括深度神经网络，将所述第一音频频谱的幅值特征输入所述预设神经网络模型，得到降噪后的第三音频的音频特征的步骤包括：

将所述第一音频频谱的幅值特征输入所述预设神经网络模型，并将循环神经网络的时间序列的中间序列特征或者最后一个序列特征输入至深度神经网络，以得到降噪后的第三音频的音频特征。

在一实施例中，在得到输出层的降噪后的歌声信号频谱Yt’或其对应的Mask_t’后，可以与上述第二音频的频谱Yt或其Mask_t进行对比，以计算其误差，然后根据该误差通过调整模型中的超参数(例如learning rate学习率，batch_size批次大小，CNN或者RNNhidden layer size节点大小等)，使得模型中的weight得到充分的训练和学习。也即根据所述第一音频频谱的幅值特征以及第二音频的音频特征对预设神经网络模型进行训练的步骤包括：

将所述第一音频频谱的幅值特征输入所述预设神经网络模型，得到降噪后的第三音频的音频特征；

计算所述第三音频的音频特征与第二音频的音频特征之间的误差；

根据所述误差对所述预设神经网络模型进行迭代训练。

在一实施例中，可以设置当迭代训练至上述误差小于预设值时完成训练，还可以设置当迭代次数达到预设次数比如100轮时完成训练，得到训练后的预设神经网络模型。

由上所述，本发明实施例提出的音频降噪模型的训练方法可以获取包含噪声的目标歌曲对应的第一音频和不包含噪声的目标歌曲对应的第二音频，获取第一音频频谱的幅值特征以及第二音频的音频特征，根据第一音频频谱的幅值特征以及第二音频的音频特征对预设音频降噪模型进行训练，预设音频降噪模型包括多层卷积神经网络和两层循环神经网络。本申请实施例采用CNN特征变换，能从带噪声的歌声特征中提取相关的纯净的歌声特征。另一方面，利用输入特征随时间动态变化规律进行学习，将前后帧的特征信息的判决信息作用于当前帧降噪预测的算法，提出混合神经网络，结合了CNN善于提取特征的优点与RNN善于对时间序列分析的能力，很好的利用了音频帧之间的强相关性，最终在保护原始纯净人声特征的同时对噪声特征进行消减。

为了实施以上音频降噪方法，本发明实施例还提供一种音频降噪装置，该音频降噪装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图2a所示，是本发明实施例提供的音频降噪装置的一种结构示意图。该音频降噪装置可以包括：

信号获取单元301，用于获取待降噪音频信号。

在一实施例中，上述待降噪音频信号为降噪处理前用户输入的音频信号，比如用户翻唱的歌曲。

提取单元302，用于对所述待降噪音频信号进行处理以获得频谱特征。

第一处理单元303，用于将所述频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征。

第二处理单元304，用于将所述频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码。

本申请实施例中音频降噪模型可以为基于卷积神经网络和循环神经网络的混合神经网络结构。其中，CNN能很好地抓取音频信号的频谱结构，另一方面RNN能利用前后时序信息做相关的频谱预测。

在一实施例中，可以预先对上述音频降噪模型进行训练。在训练完成后使用该模型来进行预测，预测结果可以为目标频谱或目标频谱掩码也即目标频谱的MASK值。

第三处理单元305，用于对所述目标频谱进行处理，以获得目标音频信号；或使用所述目标频谱掩码对所述待降噪音频信号进行处理，以获得目标音频信号。

在一实施例中，当第二处理单元304当中获取到目标频谱时，可以根据该目标频谱幅值以及初始频谱的相位特征生成目标音频信号的复数频谱。当第二处理单元304当中获取到目标频谱的MASK值时，可以根据该目标频谱的MASK值、初始频谱的幅值特征和相位特征生成目标音频信号的复数频谱。

进一步的，在得到目标音频信号的复数频谱后，可以对复数频谱进行短时傅里叶反变换，即可得到目标音频信号的时域波形。从而实现了对待降噪音频信号的降噪处理。

本发明实施例提出的音频降噪装置，可以获取待降噪音频信号，对待降噪音频信号进行处理以获得频谱特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

为了实施以上音频降噪模型的训练方法，本发明实施例还提供一种音频降噪模型的训练装置，该音频降噪模型的训练装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图2b所示，是本发明实施例提供的音频降噪模型的训练装置的一种结构示意图。该音频降噪模型的训练装置可以包括：

音频获取单元401，用于获取包含噪声的目标歌曲对应的第一音频和不包含噪声的目标歌曲对应的第二音频；

特征获取单元402，用于获取第一音频频谱的幅值特征以及第二音频的音频特征；

训练单元403，用于根据所述第一音频频谱的幅值特征以及第二音频的音频特征对预设音频降噪模型进行训练，所述预设音频降噪模型包括多层卷积神经网络和两层循环神经网络。

本申请实施例提供的音频降噪模型的训练装置采用CNN特征变换，能从带噪声的歌声特征中提取相关的纯净的歌声特征。另一方面，利用输入特征随时间动态变化规律进行学习，将前后帧的特征信息的判决信息作用于当前帧降噪预测的算法，提出混合神经网络，结合了CNN善于提取特征的优点与RNN善于对时间序列分析的能力，很好的利用了音频帧之间的强相关性，最终在保护原始纯净人声特征的同时对噪声特征进行消减。

本发明实施例还提供一种终端，如图3所示，该终端可以包括射频(RF，RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图3中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取待降噪音频信号；

对所述待降噪音频信号进行处理以获得频谱特征；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频降噪方法的详细描述，此处不再赘述。

由上可知，本发明实施例的终端可以获取待降噪音频信号，对待降噪音频信号进行处理以获得频谱特征，将频谱特征输入卷积网络模型进行处理，以获得频谱卷积特征，将频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码，对目标频谱进行处理，以获得目标音频信号；或使用目标频谱掩码对待降噪音频信号进行处理，以获得目标音频信号。本申请实施例通过将神经网络结构应用于K歌录制的歌声降噪，从而在对带噪歌声进行有效降噪的同时，也能很好地保持歌声原本的信号结构，避免了降噪后明显的听感失真。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频降噪方法中的步骤。例如，该指令可以执行如下步骤：

获取待降噪音频信号；

对所述待降噪音频信号进行处理以获得频谱特征；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频降噪方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频降噪方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频降噪方法、装置、存储介质以及终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频降噪方法，其特征在于，包括：

获取待降噪音频信号；

对所述待降噪音频信号进行处理以获得频谱特征；

2.如权利要求1所述的音频降噪方法，其特征在于，使用所述目标频谱掩码对所述待降噪音频信号进行处理，以获得目标音频信号的步骤包括：

根据所述目标频谱掩码对所述待降噪音频信号的频谱特征进行计算，并根据计算后的频谱特征生成目标频谱；

对所述目标频谱进行处理，以获得目标音频信号。

3.如权利要求1所述的音频降噪方法，其特征在于，将所述频谱卷积特征输入循环网络模型进行处理，以获得目标频谱或目标频谱掩码的步骤包括:

4.如权利要求1所述的音频降噪方法，其特征在于，对所述待降噪音频信号进行处理以获得频谱特征的步骤包括：

对所述待降噪音频信号的时域波形进行短时傅里叶变换，以得到变换后的初始频谱；

提取所述初始频谱的幅值特征和相位特征。

5.如权利要求1-4任一项所述的音频降噪方法，其特征在于，对所述目标频谱进行处理，以获得目标音频信号；或使用所述目标频谱掩码对所述待降噪音频信号进行处理，以获得目标音频信号的步骤包括：

根据所述目标频谱、幅值特征以及相位特征计算目标复数频谱；或根据所述目标频谱掩码、幅值特征以及相位特征计算目标复数频谱；

对所述目标复数频谱进行短时傅里叶反变换生成目标音频信号。

6.如权利要求5所述的音频降噪方法，其特征在于，根据所述目标频谱、幅值特征以及相位特征计算目标复数频谱的步骤包括；

根据第一公式计算目标复数频谱，其中所述第一公式为：

Ct＝Yt_abs*exp^(1j*Xt_phase)

7.如权利要求5所述的音频降噪方法，其特征在于，根据所述目标频谱掩码、幅值特征以及相位特征计算目标复数频谱的步骤包括：

根据第二公式计算目标复数频谱，其中所述第二公式为：

Ct＝Xt_abs*mask_t*exp^(1j*Xt_phase)

8.一种音频降噪模型的训练方法，其特征在于，包括：

获取第一音频频谱的幅值特征以及第二音频的音频特征；

9.如权利要求8所述的音频降噪模型的训练方法，其特征在于，根据所述第一音频频谱的幅值特征以及第二音频的音频特征对预设音频降噪模型进行训练的步骤包括：

将所述第一音频频谱的幅值特征输入所述预设音频降噪模型，得到降噪后的第三音频的音频特征；

根据所述误差对所述预设音频降噪模型进行迭代训练。

10.如权利要求9所述的音频降噪模型的训练方法，所述预设音频降噪模型还包括深度神经网络，其特征在于，将所述第一音频频谱的幅值特征输入所述预设神经网络模型，得到降噪后的第三音频的音频特征的步骤包括：