CN111613239B

CN111613239B - 音频去噪方法和装置、服务器、存储介质

Info

Publication number: CN111613239B
Application number: CN202010479635.XA
Authority: CN
Inventors: 张旭; 张晨; 董培
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-09-05
Anticipated expiration: 2040-05-29
Also published as: CN111613239A

Abstract

本公开关于一种音频去噪方法和装置、服务器、存储介质。该方法包括：获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声；获取所述带噪音频信号中当前帧信号的估计幅度数据，所述估计幅度数据用于表征去除所述瞬态噪声后对所述当前帧信号估计所得的幅度；当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据；基于所述目标幅度数据获取所述目标音频信号。本实施例中利用最小幅度数据对估计幅度数据进行调整，可以得到幅度均超过最小幅度数据的目标幅度数据，保证目标音频信号的底噪声是平滑的，避免出现声音断断续续的问题，有利于提升收听体验。

Description

音频去噪方法和装置、服务器、存储介质

技术领域

本公开涉及音频处理技术领域，尤其涉及一种音频去噪方法和装置、服务器、存储介质。

背景技术

目前，在一些场景中，用户往往会边敲击键盘边录制音视频，使得音频中同时包含相对平稳的环境噪声和敲击键盘的瞬态噪声。为了获取更好的音频效果，需要将音频中的敲击键盘的噪声去除，例如可以采用传统的LMS自适应滤波器降噪等算法去除敲击键盘的噪声。但是键盘噪声属于瞬态噪声，传统算法的降噪效果往往不太理想。为此，相关技术中采用神经网络模型来处理音频中的键盘噪声，能够获取到优于传统算法的处理效果。

然而，由于音频中键盘噪声和环境噪声相叠加，在去除键盘噪声的同时会去除对应的环境噪声，造成处理后的音频的底噪声出现如忽大忽小的不平稳现象，以及声音断断续续的问题，影响用户的收听或者观看体验。

发明内容

本公开提供一种音频去噪方法和装置、服务器、存储介质，以解决相关技术中存在的问题。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频去噪方法，包括：

获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声；

获取所述带噪音频信号中当前帧信号的估计幅度数据，所述估计幅度数据用于表征去除所述瞬态噪声后对所述当前帧信号估计所得的幅度；

当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，所述目标幅度数据用于表征所述带噪音频信号去除瞬态噪声后期望获得的目标音频信号的幅度；所述最小幅度数据用于表征在所述预设时长内所述带噪音频信号在各个频带上幅度的最小值；

基于所述目标幅度数据获取所述目标音频信号。

可选地，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，包括：

获取所述当前帧信号的幅度数据；

根据所述最小幅度数据和所述当前帧信号的幅度数据获取幅度比例阈值；

对比幅度比例和所述幅度比例阈值；所述幅度比例由预先训练的神经网络模型根据所述幅度数据获取；

当所述幅度比例大于或等于所述幅度比例阈值时，确定所述估计幅度数据作为所述目标幅度数据；当所述幅度比例小于所述幅度比例阈值时，确定所述最小幅度数据作为所述目标幅度数据。

可选地，所述幅度比例阈值通过以下公式获取：

其中，β(n，k)表示幅度比例阈值，Mag_min(n，k)为时频点(n，k)处当前帧信号对应的最小幅度数据，α为常数系数，Mag(n，k)表示时频点(n，k)处当前帧信号的幅度数据。

可选地，所述方法还包括：

在所述估计幅度数据大于或者等于所述最小幅度数据时，将所述估计幅度数据作为目标幅度数据。

可选地，获取所述带噪音频信号中当前帧信号的估计幅度数据，包括：

获取所述当前帧信号的初始幅度数据，所述初始幅度数据包括所述瞬态噪声对应的幅度数据；

将所述当前帧信号的初始幅度数据输入到预先训练的神经网络模型，得到所述神经网络模型输出的当前帧信号的幅度比例，所述幅度比例用于表征带噪音频信号去除所述瞬态噪声前后的幅度数据的比例，且取值小于或等于1；

获取所述当前帧信号的幅度比例和所述初始幅度数据的乘积，将所述乘积作为当前帧信号的估计幅度数据。

可选地，所述神经网络模型采用以下步骤进行训练，包括：

对原始音频样本及其带噪音频样本进行短时傅里叶变换，分别获取所述原始音频样本在时频域下的第一幅度数据、以及所述带噪音频样本在时频域下的第二幅度数据；

根据所述第一幅度数据和所述第二幅度数据获取初始幅度比例，并调整所述初始幅度比例以获得小于或等于1的目标幅度比例，所述目标幅度比例作为所述神经网络模型对应损失函数的参考值；

将所述目标幅度比例和所述第二幅度数据输入到神经网络模型进行训练，直至所述损失函数根据所述神经网线模型输出的幅度比例和所述目标幅度比例计算的损失值满足设定条件时完成训练，得到预先训练的神经网络模型。

可选地，基于所述目标幅度数据获取所述目标音频信号，包括：

获取当前帧信号的相位信息；

基于所述目标幅度数据和所述相位信息获取时频域的目标音频信息；

对所述时频域的目标音频信息进行短时反傅里叶变换，获得所述目标音频信息。

根据本公开实施例的第二方面，提供一种音频去噪装置，包括：

带噪音频获取模块，被配置为执行获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声；

估计幅度获取模块，被配置为执行获取所述带噪音频信号中当前帧信号的估计幅度数据，所述估计幅度数据用于表征去除所述瞬态噪声后对所述当前帧信号估计所得的幅度；

目标幅度获取模块，被配置为执行当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，所述目标幅度数据用于表征所述带噪音频信号去除瞬态噪声后期望获得的目标音频信号的幅度；所述最小幅度数据用于表征在所述预设时长内所述带噪音频信号在各个频带上幅度的最小值；

目标音频获取模块，被配置为执行基于所述目标幅度数据获取所述目标音频信号。

可选地，所述目标幅度获取模块包括：

幅度数据获取单元，被配置为执行获取所述当前帧信号的幅度数据；

比例阈值获取单元，被配置为执行根据所述最小幅度数据和所述当前帧信号的幅度数据获取幅度比例阈值；

比例对比单元，被配置为执行对比幅度比例和所述幅度比例阈值；所述幅度比例由预先训练的神经网络模型根据所述幅度数据获取；

目标幅度确定单元，被配置为执行当所述幅度比例大于或等于所述幅度比例阈值时，确定所述估计幅度数据作为所述目标幅度数据；当所述幅度比例小于所述幅度比例阈值时，确定所述最小幅度数据作为所述目标幅度数据。

可选地，所述幅度比例阈值通过以下公式获取：

可选地，所述目标幅度获取模块，还被配置为执行在所述估计幅度数据大于或者等于所述最小幅度数据时，将所述估计幅度数据作为目标幅度数据。

可选地，所述估计幅度获取模块包括：

初始幅度获取单元，被配置为执行获取所述当前帧信号的初始幅度数据，所述初始幅度数据包括所述瞬态噪声对应的幅度数据；

幅度比例获取单元，被配置为执行将所述当前帧信号的初始幅度数据输入到预先训练的神经网络模型，得到所述神经网络模型输出的当前帧信号的幅度比例，所述幅度比例用于表征带噪音频信号去除所述瞬态噪声前后的幅度数据的比例，且取值小于或等于1；

估计幅度获取单元，被配置为执行获取所述当前帧信号的幅度比例和所述初始幅度数据的乘积，将所述乘积作为当前帧信号的估计幅度数据。

可选地，所述装置还包括神经网络训练模块，被配置为执行训练神经网络模型；所述神经网络训练模块包括：

幅度数据获取单元，被配置为执行对原始音频样本及其带噪音频样本进行短时傅里叶变换，分别获取所述原始音频样本在时频域下的第一幅度数据、以及所述带噪音频样本在时频域下的第二幅度数据；

初始比例获取单元，被配置为执行根据所述第一幅度数据和所述第二幅度数据获取初始幅度比例，并调整所述初始幅度比例以获得小于或等于1的目标幅度比例，所述目标幅度比例作为所述神经网络模型对应损失函数的参考值；

神经网络训练单元，被配置为执行将所述目标幅度比例和所述第二幅度数据输入到神经网络模型进行训练，直至所述损失函数根据所述神经网线模型输出的幅度比例和所述目标幅度比例计算的损失值满足设定条件时完成训练，得到预先训练的神经网络模型。

可选地，所述目标音频获取模块包括：

相位信息获取单元，被配置为执行获取当前帧信号的相位信息；

频域信息获取单元，被配置为执行基于所述目标幅度数据和所述相位信息获取时频域的目标音频信息；

音频信息获取单元，被配置为执行对所述时频域的目标音频信息进行短时反傅里叶变换，获得所述目标音频信息。

根据本公开实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如上述所述方法的步骤。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如上述所述方法的步骤。

根据本公开实施例的第五方面，提供一种应用程序，当该应用程序由服务器的处理器执行时，使得所述服务器能够执行上述所述方法的步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

本实施例中通过获取包括瞬态噪声的带噪音频信号，以及带噪音频信号中当前帧信号的估计幅度数据，该估计幅度数据用于表征去除瞬态噪声后对当前帧信号估计所得的幅度；然后，在估计幅度数据小于最小幅度数据时，调整估计幅度数据以获得幅度超过最小幅度数据的目标幅度数据；最后，基于目标幅度数据获取目标音频信号。这样，本实施例中利用最小幅度数据对估计幅度数据进行调整，可以得到幅度均超过最小幅度数据的目标幅度数据，保证目标音频信号的底噪声是平滑的，避免出现声音断断续续的问题，有利于提升收听体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种音频去噪方法的流程图。

图2是根据一示例性实施例示出的音频去噪方法的架构图

图3是根据一示例性实施例示出的获取估计幅度数据的流程图。

图4是根据一示例性实施例示出的训练神经网络模型的流程图。

图5是根据一示例性实施例示出的训练神经网络模型的架构图。

图6是根据一示例性实施例示出的获取目标音频信息的流程图。

图7～图11是根据一示例性实施例示出的一种音频去噪装置的框图。

图12是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

为此，本公开实施例提供了一种音频去噪方法，可以应用于服务器，或者智能手机等电子设备，后续以电子设备为例描述各方法实施例，图1是根据一示例性实施例示出的一种音频去噪方法的流程图，图2是根据一示例性实施例示出的音频去噪方法的架构图。参见图1和图2，一种音频去噪方法，包括步骤11～步骤14，其中：

在步骤11中，获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声。

本实施例中，电子设备可以获取待处理的带噪音频信号，获取方式可以包括以下至少一种：电子设备响应于用户录制音频作或者录制视频操作开启麦克风等音频采集模组，由音频采集模组采集用户的语音、用户周围平稳的环境噪声(即底噪声)和周围的瞬态噪声，得到整个带噪语音信号或者部分带噪语音信号；或者，电子设备与其他设备通信获取到带噪音频信号；或者电子设备在本地存储的音频信号。

其中，上述瞬态噪声可以包括但不限于：敲击键盘的声音、物品坠落的声音、拖拽桌椅的声音、放置物品的声音。

在步骤12中，获取所述带噪音频信号中当前帧信号的估计幅度数据。

本实施例中，电子设备可以获取到带噪音频信号后可以按照预设方式对该带噪语音信号进行分帧，从而得到多帧信号。其中，预设方式可以是一种分帧方式，其中分帧方式可以参考相关技术，在此不再赘述。对于以视频码流或者音频码流的方式获取的带噪音频信号，电子设备可以每次获取到一部分带噪语音信号，按照滑动窗依次获取一帧信号即可，同样适用码流方式获取带噪语音信号的场景。电子设备在获取到一帧音频信号后，则获取该帧音频信号的估计幅度数据。为方便描述，本公开后续各实施例中将正在处理的一帧信号称之为当前帧信号。

参见图3，电子设备可以采用以下步骤获取估计幅度数据，包括步骤31～步骤33，其中，：

在步骤31中，电子设备可以获取当前帧信号的初始幅度数据。例如，电子设备可以采用短时傅立叶变换(Short-Time Fourier Transform，STFT)将当前帧信号从时域转换到时频域，即Y(k)＝STFT(y(t))。然后，电子设备可以在时频域获取到各个频带上的幅度数据，得到当前帧信号的幅度数据，即初始幅度数据。可理解的是，上述初始幅度数据中包括瞬态噪声对应的幅度数据。

在步骤32中，电子设备可以调用预先训练的神经网络模型，将当前帧信号的初始幅度数据输入到该神经网络模型，从而得到该神经网络模型输出的当前帧的幅度比例(Mask)。其中，该幅度比例用于表征带噪语音信号去除瞬态噪声前后的幅度数据的比例，该比例的取值小于或等于1。

需要说明的是，在预设的录制环境(包含环境噪声或者不包括环境噪声)中，假设没有瞬态噪声，此时录制的音频信号可以称之为原始音频信号；在同一录制环境中，添加瞬态噪声，此时录制的音频信号可以称之为带噪语音信号。可理解的是，实际录制环境中往往仅会得到带噪语音信号，而无法同步得到原始音频信号，本示例中将带噪语音信号对应的原始音频信号称之为期望的目标音频信号，或者说，期望在将带噪语音信号去掉瞬态噪声后得到原始音频信号。

结合本公开的场景，本示例可以采用在预设的录制环境下得到的原始音频信号和带噪语音信号对神经神经网络模型进行预先训练，即按照上述内容所述，在预设的录制环境中，假设没有瞬态噪声，获取原始音频样本；在同一录制环境中，添加瞬态噪声，获取上述原始音频样本对应的带噪语音样本，这样带噪语音样本与原始音频样本的区别在于带噪语音信号中还包含瞬态噪声。

图4是根据一示例性实施例示出的训练神经网络模型的流程图，图5是根据一示例性实施例示出的训练神经网络模型的架构图，参见图4和图5，神经网络模型的训练步骤包括步骤41～步骤43，其中：

在步骤41中，对原始音频样本及其带噪语音样本进行短时傅里叶变换(STFT)，从时域转换到时频域，公式如下：

X(n，k)＝STFT(x(t)) (1)

Y(n，k)＝STFT(y(t)) (2)

其中，n为帧序列，0<n≤N，N为总帧数；k为中心频率序列，0<k≤K，K为总频点数。

然后，分别获取到原始音频样本和带噪语音样本的幅度数据，公式如下：

MagX(n，k)＝abs(X(n，k)) (3)

MagY(n，k)＝abs(Y(n，k)) (4)

为方便描述和理解，将原始音频样本的幅度数据称之为第一幅度数据，将带噪语音样本的幅度数据称之为第二幅度数据。

在步骤42中，电子设备可以根据第一幅度数据和第二幅度数据获取初始幅度比例，即初始幅度比例是第一幅度数据与第二幅度数据之商。考虑到信号相位抵消等原因，带噪语音样本中在某些特征时频点上可以存在幅度小于原始信号样本幅度的情况，故初始幅度比例会小于1；由于信号混合特性，故带噪语音样本中在某些特征时频点上可以存在幅度大于原始信号样本幅度的情况。因此，本步骤中还对初始幅度比例进行调整，公式如下：

即将大于1的初始幅度比例置为1，可以去除瞬态噪声对原始音频样本的影响，从而可以获得小于或等于1的目标幅度比例。

在步骤43中，将第二幅度数据和上述目标幅度比例输入到神经网络模型进行训练，在每次训练时损失函数可以获取到神经网络模型输出的幅度比例，并根据该幅度比例和目标幅度比例来计算本次训练的损失值，直至损失值满足设定条件时完成训练，从而得到预先训练的神经网络模型。其中设定条件包括以下一种：损失值小于或者等于损失阈值，或者损失值不再变化。

需要说明的是，该目标幅度比例作为神经网络模型对应损失函数的参考值，具体地，该目标幅度比例作为神经网络模型对应的损失函数的阈值，即损失函数的输入参数包括神经网络模型输出的幅度比例与该目标幅度比例，基于两输入参数来确定损失函数所计算的损失值是否符合设定条件。

需要说明的是，图4和图5所示的神经网络模型的训练过程可以在电子设备内实现，此时电子设备可以从本地或者其他设备获取原始音频样本和带噪语音样本；图4和图5所示的神经网络模型的训练过程也可以在其他设备内实现，此时电子设备可以后从其他设备下载完成训练人神经网络模型或者该神经网络模型的配置参数使用；图4和图5所示的神经网络模型的训练过程也可以由电子设备与其他设备协同训练，如其他设备为电子设备提供样本，电子设备对神经网络模型进行训练；也可以是其他设备提供神经网络模型输出的幅度比例，电子设备中的损失函数是否需要停止训练等，技术人员可以根据具体场景进行设置，相应方案落入本公开的保护范围。

另需要说明的是，上述神经网络模型的种类可以包括但不限于：深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、长短时忘记网络(LTSM)、生成对抗网络(GAN)。技术人员可以根据具体场景选取神经网络模型，相应方案落入本公开的保护范围。

在步骤33中，电子设备可以获取当前帧信号的幅度比例和初始幅度数据的乘积，将该乘积作为当前帧信号的估计幅度数据。其中，该估计幅度数据用于表征去除瞬态噪声后对当前帧信号估计所得的幅度。

在步骤13中，当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据。

本实施例中，电子设备可以获取当前帧信号之前预设时长(如数秒)内带噪语音信号的最小幅度数据，该最小幅度数据用于表征在所述预设时长内所述带噪音频信号在各个频带上幅度的最小值。获取方式可以参考步骤21，即：以当前帧信号的一个时频点为基准获取前n秒的带噪语音信号，并采用短时傅里叶变换转换到时频域，然后获取时频域下各个频带中幅度的最小值，从而可以得到当前帧信号对应的最小幅度数据。可理解的是，该最小幅度数据会随着时间保持更新，从而可以反映出带噪语音信号的底噪声的变化情况。

需要说明的是，步骤13中获取最小幅度数据的执行顺序可以在步骤11之前、之后，以及和步骤11或步骤12同步执行，相应方案落入本公开的保护范围。

本实施例中，电子设备可以根据当前帧信号的幅度数据和当前帧信号对应的最小幅度数据来获取幅度比例阈值，公式如下：

其中，β(n，k)表示幅度比例阈值，Mag_min(n，k)为时频点(n，k)处当前帧信号对应的最小幅度数据，Mag(n，k)表示时频点(n，k)处当前帧信号的幅度数据，α为常数系数。其中，常数系数α可以根据具体场景进行设置，例如当底噪声波动较大时，α可以适当增大，当底噪声波动较小时，α可以适当减小，即α需要考虑到瞬态噪声与底噪声的情况来合理设置。本示例中α为取值范围可以是[0.8,1.2]。

本实施例中，电子设备可以根据预先训练的神经网络模型获取的幅度比例和上述幅度比例阈值对上述估计幅度数据进行调整，公式如下：

其中，Mask(n，k)表示神经网络模型输出的时频点(n，k)(即当前帧)的幅度比例；Mag_out(n，k)表示时频点(n，k)的目标幅度数据；Mag_pre(n，k)表示时频点(n，k)的估计幅度数据；Mag_min(n，k)表示时频点(n，k)的前n秒的最小幅度数据。

也就是说，当Mask(n，k)小于β(n，k)时，说明在去除瞬态噪声的过程中影响到了底噪声，此时需要对底噪声作一定的修正，即目标幅度数据取值为最小幅度数据；当 Mask(n，k)大于或等于β(n，k)时，说明在去除瞬态噪声的过程中未影响到底噪声，此时无需对底噪声作修正，即目标幅度数据直接取值为估计幅度数据，这样有利于提供底噪声的平滑程度。

在步骤14中，基于所述目标幅度数据获取所述目标音频信号。

本实施例中，电子设备可以根据目标幅度获取目标音频信号。参见图6，在步骤61中，电子设备可以获取当前帧信号的相位信息，实际应用中，步骤61可以在步骤31中与幅度数据同步获取。在步骤62中，电子设备可以基于目标幅度数据和相位信息获取时频域的目标音频信息。在步骤63中，对时频域的目标音频信息进行短时反傅里叶变换，勤快得到目标音频信息。上述步骤61～步骤63可以采用以下公式表示：

X0(t)＝ISTFT(MagOut(n，k)*PhaY(n，k))； (7)

其中，X0表示目标音频信号，Mag_out表示时频点(n，k)的目标幅度数据；PhaY(n，k)表示时频点(n，k)的相位数据。

至此，本实施例中通过获取包括瞬态噪声的带噪音频信号，以及带噪音频信号中当前帧信号的估计幅度数据，该估计幅度数据用于表征去除瞬态噪声后对当前帧信号估计所得的幅度；然后，在估计幅度数据小于最小幅度数据时，调整估计幅度数据以获得幅度超过最小幅度数据的目标幅度数据；最后，基于目标幅度数据获取目标音频信号。这样，本实施例中利用最小幅度数据对估计幅度数据进行调整，可以得到幅度均超过最小幅度数据的目标幅度数据，保证目标音频信号的底噪声是平滑的，避免出现声音断断续续的问题，有利于提升收听体验。

本公开实施例还提供了一种音频去噪装置，图7是根据一示例性实施例示出的一种音频去噪装置的框图。参见图7，一种音频去噪装置，包括：

带噪音频获取模块71，被配置为执行获取待处理的带噪音频信号，所述带噪音频信号包括瞬态噪声；

估计幅度获取模块72，被配置为执行获取所述带噪音频信号中当前帧信号的估计幅度数据，所述估计幅度数据用于表征去除所述瞬态噪声后对所述当前帧信号估计所得的幅度；

目标幅度获取模块73，被配置为执行当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，所述目标幅度数据用于表征所述带噪音频信号去除瞬态噪声后期望获得的目标音频信号的幅度；所述最小幅度数据用于表征在所述预设时长内所述带噪音频信号在各个频带上幅度的最小值；

目标音频获取模块74，被配置为执行基于所述目标幅度数据获取所述目标音频信号。

在一实施例中，参见图8，所述目标幅度获取模块73包括：

幅度数据获取单元81，被配置为执行获取所述当前帧信号的幅度数据；

比例阈值获取单元82，被配置为执行根据所述最小幅度数据和所述当前帧信号的幅度数据获取幅度比例阈值；

比例对比单元83，被配置为执行对比幅度比例和所述幅度比例阈值；所述幅度比例由预先训练的神经网络模型根据所述幅度数据获取；

目标幅度确定单元84，被配置为执行当所述幅度比例大于或等于所述幅度比例阈值时，确定所述估计幅度数据作为所述目标幅度数据；当所述幅度比例小于所述幅度比例阈值时，确定所述最小幅度数据作为所述目标幅度数据。

在一实施例中，所述幅度比例阈值通过以下公式获取：

β(n,k)＝α*(〖Mag〗_min(n,k))/Mag(n,k)；

其中，β(n,k)表示幅度比例阈值，〖Mag〗_min(n,k)为时频点(n,k)处当前帧信号对应的最小幅度数据，α为常数系数，Mag(n,k)表示时频点(n,k)处当前帧信号的幅度数据。

在一实施例中，所述目标幅度获取模块73，还被配置为执行在所述估计幅度数据大于或者等于所述最小幅度数据时，将所述估计幅度数据作为目标幅度数据。

在一实施例中，参见图9，所述估计幅度获取模块72包括：

初始幅度获取单元91，被配置为执行获取所述当前帧信号的初始幅度数据，所述初始幅度数据包括所述瞬态噪声对应的幅度数据；

幅度比例获取单元92，被配置为执行将所述当前帧信号的初始幅度数据输入到预先训练的神经网络模型，得到所述神经网络模型输出的当前帧信号的幅度比例，所述幅度比例用于表征带噪音频信号去除所述瞬态噪声前后的幅度数据的比例，且取值小于或等于 1；

估计幅度获取单元93，被配置为执行获取所述当前帧信号的幅度比例和所述初始幅度数据的乘积，将所述乘积作为当前帧信号的估计幅度数据。

在一实施例中，参见图10，所述装置还包括神经网络训练模块，被配置为执行训练神经网络模型；所述神经网络训练模块包括：

幅度数据获取单元101，被配置为执行对原始音频样本及其带噪音频样本进行短时傅里叶变换，分别获取所述原始音频样本在时频域下的第一幅度数据、以及所述带噪音频样本在时频域下的第二幅度数据；

初始比例获取单元102，被配置为执行根据所述第一幅度数据和所述第二幅度数据获取初始幅度比例，并调整所述初始幅度比例以获得小于或等于1的目标幅度比例，所述目标幅度比例作为所述神经网络模型对应损失函数的参考值；

神经网络训练单元103，被配置为执行将所述目标幅度比例和所述第二幅度数据输入到神经网络模型进行训练，直至所述损失函数根据所述神经网线模型输出的幅度比例和所述目标幅度比例计算的损失值满足设定条件时完成训练，得到预先训练的神经网络模型。

在一实施例中，参见图11，所述目标音频获取模块74包括：

相位信息获取单元111，被配置为执行获取当前帧信号的相位信息；

频域信息获取单元112，被配置为执行基于所述目标幅度数据和所述相位信息获取时频域的目标音频信息；

音频信息获取单元112，被配置为执行对所述时频域的目标音频信息进行短时反傅里叶变换，获得所述目标音频信息。

关于上述实施例中的装置，其中装置中各步骤的具体实现方式已经在描述方法实施例时进行了详细描述，此处将不做详细阐述说明。

至此，本实施例中利用最小幅度数据对估计幅度数据进行调整，可以得到幅度均超过最小幅度数据的目标幅度数据，保证目标音频信号的底噪声是平滑的，避免出现声音断断续续的问题，有利于提升收听体验。

图12是根据一示例性实施例示出的一种服务器的框图。参照图12，服务器1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制服务器1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成图3所示方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在服务器1200的操作。这些数据的示例包括用于在服务器1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器 (EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为服务器1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为服务器1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在服务器1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当服务器1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当服务器1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204 或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为服务器1200提供各个方面的状态评估。例如，传感器组件1214可以检测到服务器1200的打开/关闭状态，组件的相对定位，例如所述组件为服务器1200的显示器和小键盘，传感器组件1214还可以检测服务器 1200或服务器1200一个组件的位置改变，用户与服务器1200接触的存在或不存在，服务器1200方位或加速/减速和服务器1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于服务器1200和其他设备之间有线或无线方式的通信。服务器1200可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或 5G)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件 1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别 (RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在本公开一实施例中，服务器1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如下步骤：从本地的配置文件中获取待同步的源文件名称；所述配置文件通过热部署机制进行部署；基于所述源文件名称增量轮询所述第一数据库中的源文件，得到待同步的增量数据；将所述增量音频去噪到第二数据库。

在本公开一实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由服务器1200的处理器1220执行如上述一种音频去噪方法的步骤。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开一实施例中，还提供了一种计算机程序产品，当该计算机程序产品由服务器的处理器执行时，使得所述服务器能够执行如上述一种音频去噪方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/服务器/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖上述各实施例的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频去噪方法，其特征在于，包括：

当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，所述目标幅度数据用于表征所述带噪音频信号去除瞬态噪声后期望获得的目标音频信号的幅度；所述最小幅度数据用于表征在预设时长内所述带噪音频信号在各个频带上幅度的最小值；

基于所述目标幅度数据获取所述目标音频信号；

调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，包括：

获取所述当前帧信号的幅度数据；

2.根据权利要求1所述的音频去噪方法，其特征在于，所述幅度比例阈值通过以下公式获取：

3.根据权利要求1所述的音频去噪方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的音频去噪方法，其特征在于，获取所述带噪音频信号中当前帧信号的估计幅度数据，包括：

5.根据权利要求4所述的音频去噪方法，其特征在于，所述神经网络模型采用以下步骤进行训练，包括：

6.根据权利要求1所述的音频去噪方法，其特征在于，基于所述目标幅度数据获取所述目标音频信号，包括：

获取当前帧信号的相位信息；

7.一种音频去噪装置，其特征在于，包括：

目标幅度获取模块，被配置为执行当所述估计幅度数据小于最小幅度数据时，调整所述估计幅度数据以获得幅度超过所述最小幅度数据的目标幅度数据，所述目标幅度数据用于表征所述带噪音频信号去除瞬态噪声后期望获得的目标音频信号的幅度；所述最小幅度数据用于表征在预设时长内所述带噪音频信号在各个频带上幅度的最小值；

目标音频获取模块，被配置为执行基于所述目标幅度数据获取所述目标音频信号；

所述目标幅度获取模块包括：

8.根据权利要求7所述的音频去噪装置，其特征在于，所述幅度比例阈值通过以下公式获取：

9.根据权利要求7所述的音频去噪装置，其特征在于，所述目标幅度获取模块，还被配置为执行在所述估计幅度数据大于或者等于所述最小幅度数据时，将所述估计幅度数据作为目标幅度数据。

10.根据权利要求7所述的音频去噪装置，其特征在于，所述估计幅度获取模块包括：

11.根据权利要求10所述的音频去噪装置，其特征在于，所述装置还包括神经网络训练模块，被配置为执行训练神经网络模型；所述神经网络训练模块包括：

12.根据权利要求7所述的音频去噪装置，其特征在于，所述目标音频获取模块包括：

13.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行的计算机程序的存储器；

其中，所述处理器被配置为执行所述存储器中的计算机程序，以实现如权利要求1～6任一项所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，当所述存储介质中的可执行的计算机程序由处理器执行时，能够实现如权利要求1～6任一项所述方法的步骤。