CN111667842A

CN111667842A - 音频信号处理方法及装置

Info

Publication number: CN111667842A
Application number: CN202010524756.1A
Authority: CN
Inventors: 张旭; 张晨; 郑羲光
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-15
Anticipated expiration: 2040-06-10
Also published as: CN111667842B

Abstract

本公开关于一种音频信号处理方法及装置。其中，该方法包括：获取带噪音频信号的第一幅度信息；根据第一幅度信息确定第一幅度比例信息，其中第一幅度比例信息为带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与第一幅度信息的比值；当第一幅度比例信息大于第一阈值，或/和第一幅度比例信息小于第二阈值时，调整第一幅度比例信息以得到第二幅度比例信息；根据带噪音频信号的相位信息、第一幅度信息和第二幅度比例信息，确定带噪音频信号的目标估计信号。

Description

音频信号处理方法及装置

技术领域

本公开涉及计算机及互联网技术领域，尤其涉及一种音频信号处理方法及装置。

背景技术

目前，人们不仅可以在室内通过智能终端进行直播、通话、聊天等使用语音功能的活动，还可以在室外也实现各种语音功能。但随着环境的不同，智能终端在接收用户输入的语音的同时，往往还会接收到各种各样的背景噪声，影响用户输入的语音的可辨识度，不利于用户进行各种语音活动。

在相关技术中，一种解决方案是利用神经网络对音频信号进行降噪处理，其中通常使有时域处理和时频域处理两种方式。其中，时域处理是指直接在时域上对音频进行处理得到处理后波形。时频域处理是指将原始时域波形信号进行短时傅里叶变换(STFT，Short-Time Fourier Transform)到时频域，经过一系列处理，再将时频域信号进行短时反傅里叶变换(ISTFT，Inverse Short-Time Fourier Transform)到时域，得到处理后波形。相比于时域处理方式，时频域处理方式往往能够获得更好的性能效果。

在时频域处理时，可选择直接估计目标值或Mask值(原始目标值与带噪值的比值)作为网络的学习目标，相比于直接估计目标值的方式，估计mask值能够使神经网络更容易收敛并且能获得更优异的性能。但是由于网络性能等各种原因，mask值估计并非完全准确，进而导致得到的目标估计信号不能满足需求。

发明内容

本公开提供一种音频处理方法方法及装置，以至少解决目标估计信号不能满足需求的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频信号处理方法，包括：获取带噪音频信号的第一幅度信息；根据所述第一幅度信息确定第一幅度比例信息，其中所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值；当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息；根据所述带噪音频信号的相位信息、所述第一幅度信息和所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

可选地，所述当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息，包括：当所述第一幅度比例信息小于第二阈值时，将所述第一幅度比例信息调整为小于所述第一幅度比例信息的第二幅值比例信息；和/或，当所述第一幅度比例信息大于第一阈值时，将所述第一幅度比例信息调整为大于所述第一幅度比例信息的第二幅值比例信息。

可选地，所述调整所述第一幅度比例信息以得到第二幅度比例信息，包括：按照预设的映射函数，对所述第一幅度比例信息进行映射，得到所述第二幅值比例信息。

可选地，所述根据所述第一幅度信息确定第一幅度比例信息，包括：将所述第一幅度信息输入预先训练好的语音处理网络模型，得到所述第一幅度比例信息，其中，所述预先训练好的语音处理网络模型用于根据所述第一幅度信息输出所述第一幅度比例信息。

可选地，所述将所述第一幅度信息输入预先训练好的语音处理网络模型之前，所述方法还包括：获取初始语音处理网络模型；获取训练样本集，其中，所述训练样本集包括：样本幅度信息及样本目标真实幅度比例信息；将所述样本幅度信息为所述初始语音处理网络模型的输入，将所述样本目标真实幅度比例信息作为所述初始语音处理网络模型的期望输出，对所述初始语音处理网络模型的训练并得到所述预先训练好的语音处理网络模型。

可选地，所述获取带噪音频信号的第一幅度信息之前，所述方法还包括：对带噪音频信号进行分段处理，其中，分段的长度与所述训练样本集中每个训练样本的长度对应。

可选地，所述映射函数包括以下任一项：

其中，func(x)为映射函数，x为所述第一幅度比例信息。

根据本公开实施例的第二方面，提供一种音频信号处理装置，包括：获取模块，被配置为执行获取带噪音频信号的第一幅度信息；第一确定模块，被配置为执行根据所述第一幅度信息确定第一幅度比例信息，其中所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值；调整模块，被配置为执行当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息；第二确定模块，被配置为执行根据所述带噪音频信号的相位信息、所述第一幅度信息和所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

可选地，所述调整模块按照以下方式调整所述第一幅度比例信息以得到第二幅度比例信息：当所述第一幅度比例信息小于第二阈值时，将所述第一幅度比例信息调整为小于所述第一幅度比例信息的第二幅值比例信息；和/或，当所述第一幅度比例信息大于第一阈值时，将所述第一幅度比例信息调整为大于所述第一幅度比例信息的第二幅值比例信息。

可选地，所述调整模块按照以下方式调整所述第一幅度比例信息以得到第二幅度比例信息：按照预设的映射函数，对所述第一幅度比例信息进行映射，得到所述第二幅值比例信息。

可选地，所述第一确定模块根据所述第一幅度信息确定第一幅度比例信息，包括：将所述第一幅度信息输入预先训练好的语音处理网络模型，得到所述第一幅度比例信息，其中，所述预先训练好的语音处理网络模型用于根据所述第一幅度信息输出所述第一幅度比例信息。

可选地，还包括：训练模块，被配置为执行：获取初始语音处理网络模型；获取训练样本集，其中，所述训练样本集包括：样本幅度信息及样本目标真实幅度比例信息；将所述样本幅度信息为所述初始语音处理网络模型的输入，将所述样本目标真实幅度比例信息作为所述初始语音处理网络模型的期望输出，对所述初始语音处理网络模型的训练并得到所述预先训练好的语音处理网络模型。

可选地，所述第一获取模块还被配置为执行：在所述获取带噪音频信号的第一幅度信息之前，对带噪音频信号进行分段处理，其中，分段的长度与所述训练样本集中每个训练样本的长度对应。

可选地，所述映射函数包括以下任一项：

其中，func(x)为映射函数，x为所述第一幅度比例信息。

根据本公开实施例的第三方面，供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述的音频信号处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述的音频信号处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行上述任一种音频信号处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：获取带噪音频信号的第一幅度信息，再基于所述第一幅度信息，确定第一幅度比例信息，当所述第一幅度比例信息大于第一阈值，或/和，所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息，最后基于所述带噪音频信号的相位信息、所述第一幅度信息以及所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。通过对第一幅度比例信息进行调整，从而可以使得第二幅度比例信息能够更为准确，进而使得最后得到的目标估计信号更能满足需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。

图2是根据一示例性实施例示出的语音处理网络模型的训练示意图；

图3是根据一示例性实施例示出的一种映射函数的示意图；

图4是根据一示例性实施例示出的另一种映射函数的示意图；

图5是根据一可能实施例的目标估计信号获取的流程示意图；

图6是根据一示例性实施例示出的一种音频信号处理装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图；

图8是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频信号处理方法的流程图，如图1所示，该音频信号处理方法可以用于电子设备中，包括以下步骤S11至步骤S14。

在本申请实施例中，电子设备包括但不限于智能手机、笔记本电脑、台式电脑、平板电脑、可穿戴终端设备、游戏机等设置有音频接收装置(如麦克风)的终端设备。

在步骤S11中，获取带噪音频信号的第一幅度信息。

其中，所述带噪音频信号包括语音源信号，第一幅度信息可以为带噪音频信号的幅值特征。

语音降噪技术是一种从混合了语音源信号和背景噪声的带噪音频数据中，将语音源信号与背景噪声进行分离，从而消除或抑制背景噪声得到语音源信号的技术。因此，在本实施例中，带噪音频信号为混合了语音源信号和背景噪声的带噪音频数据，可以是用户输入的音频信号。例如，用户在直播、通话或语音聊天等过程中输入的音频信号，其包含了语音源信号(例如，用户发出语音信号，或者，用户通过其它设备播放的语音信息等)和背景噪声。

其中，背景噪声可以是各种不同类型的噪声信号，例如，因用户所处环境不同而可能存在的不同环境噪声如车辆噪声、工业噪声、风声、海浪声等，另外即使在安静的环境中，也会存在平稳的背景噪声；语音源信号可以是用户所需听取的声源产生的语音信号，例如，用户A与用户B在通话，于用户A而言，用户A的终端设备所接收的音频信号中，语音源信号为用户B发出的语音信号，而背景噪声可以是其他非用户B发出的语音信号。

在一个可能的实现方式中，背景噪声可以是非人声信号，在另一个可能的实现方式中，背景噪声也可以是其他非用户B所发出的语音信号等，在此不作限定。

在一个可能的实现方式中，S11可以包括以下步骤：

S111，将对带噪音频信号进行分段处理。

具体地，可以将所述带噪音频信号按照预设时间周期分为多个音频信号帧。

其中，分帧后每一帧的长度可根据实际需要进行设置。另外，考虑到语音处理对实时性的要求，每一帧的长度不宜过长，例如每一帧的长度可以设置为8毫秒、10毫秒、32毫秒等。

S112，对每个所述音频信号帧做短时傅里叶变换，得到每个所述音频信号帧的频谱。

即将带噪音频信号通过短时傅里叶变换转到时频域。若长度为T的带噪音频信号y′在时域上y′(t)，其中t代表时间，0<t≤T，则经过短时傅里叶变换后，y′(t)在时频域可表示为：

Y′(n,k)＝STFT(y′(t))

其中n为帧序列，0<n≤N，N为总帧数；k为中心频率序列0<k≤K；K为总频点数。

S113，根据每个所述音频信号帧的频谱计算每个所述音频信号帧的幅值，得到所述带噪音频信号的幅值特征。

例如，若时频域的一个帧的带噪音频信号为Y′(n,k)，则可以通过计算该音频信号帧频谱的绝对得，得到该音频信号帧的幅值MagY′(n,k)＝abs(Y′(n,k))。

在上述可能的实现方式中，通过分帧处理，将带噪音频数据按照预设时间周期分为连续的若干个音频信号帧，例如，以预设时间周期10ms-50ms作为各音频信号帧的长度，从而可避免帧间突变，使各音频信号帧的信号具有较好的短时平稳性，以便保证傅里叶变换的效果。

在步骤S12中，根据所述第一幅度信息确定第一幅度比例信息，其中，所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值。

即，在本实施例中，每帧音频信号帧对应的第一幅度比例信息为该帧音频信号帧中所包含的语音源信号的估计幅值占该音频信号帧的幅值的比例。

在一个可能的实现方式中，S12可以包括：将所述带噪音频信号的第一幅度信息(即幅值特征)输入预先训练好的语音处理网络模型，得到所述第一幅度比例信息。其中，所述预先训练好的语音处理网络模型用于根据所述第一幅度信息输出所述去噪后的所述第一幅度比例信息。由于语音源信号相对背景噪声具有较好的纹理特性，因此，在该可能的实现方式中，通过预先训练好的语音处理网络模型学习带噪音频信号的幅值特征中的纹理特性，可以得到去噪后的第一幅度比例信息，从而实现对带噪音频数据的去噪。

在实际应用中，预先训练好的语音处理网络模型的结构，可以实际应用确定。例如，在一个可能的实现方式中，预先训练好的语音处理网络模型可以包括多个因果卷积层和至少一个递归神经网络层，多个因果卷积层用于根据带噪音频信号的幅值特征输出对应语音源信号的纹理特征，至少一个递归神经网络层用于根据纹理特征输出去噪后的第一幅度比例信息比例。其中，因果卷积层以及递归神经网络层的具体数量以及排列顺序在本实施例中不做任何限制，可以根据实际情况进行设定。

在上述可能的实现方式中，当带噪音频信号的幅值特征按时间顺序依次输入预先训练好的语音处理网络模型时，因果卷积层在每一帧的计算可以使用在该帧及该帧之前的输入，而不使用未来帧的输入。例如，采用卷积核为2*1的因果卷积进行语音处理，在进行第N帧的语音处理时，需要利用第N-4、N-3、N-2、N-1、N帧这5帧的输入，无需等待未来的输入，避免了延迟。由此，本实施例通过采用因果卷积层学习带噪音频特征中的纹理特性，即语音源信号的纹理特征，使得因果卷积层的输出只与历史输入有关，而不会用到未来的输入，从而可让语音处理网络模型在使用卷积神经网络学习时避免输入延时的问题，实现实时语音降噪。

在上述可能的实现方式中，可以提前对语音处理网络模式进行训练，其中，对语音处理网络模式进行训练可以包括以下步骤：

S121，获取初始语音处理网络模型。

在实际应用中，可以根据实际应用，可以语音处理网络模型的结构，构建初始语音处理网络模型。例如，如果预先训练好的语音处理网络模型包括多个因果卷积层和至少一个递归神经网络层，则构建一个包括多个因果卷积层和至少一个递归神经网络层的初始语音处理网络模型。

S122，获取训练样本集，其中，所述训练样本集包括：样本幅度信息(也可以称为样本幅值特征)及样本目标真实幅度比例。

例如，在图2中，每对训练样本音频包括原始样本音频信号(即无噪单的样本音频信号，即图2中的原始音频)和混合原始样本音频信号的带噪样本音频信号(即图2中的带噪音频)，将原始样本音频信号和带噪样本音频信号分别通过短时傅里叶变换转到时频域。若长度为T的原始样本音频信号x和带噪音样本频信号y在时域上分别为x(t)和y(t),其中t代表时间，0<t≤T，则经过短时傅里叶变换后，x(t)和y(t)在时频域可表示为：

X(n,k)＝STFT(x(t)) (1)

Y(n,k)＝STFT(y(t)) (2)

其中n为帧序列，0<n≤N，(N为总帧数)；k为中心频率序列0<k≤K；(K为总频点数)。

然后选取原始样本音频信号X(n,k)和带噪样本音频信号Y(n,k)的幅度Mag：

MagX(n,k)＝abs(X(n,k)) (3)

MagY(n,k)＝abs(Y(n,k)) (4)

利用公式计算出Mask(即样本目标真实幅度比例)：

将由于信号混合特性造成的大于1的Mask值置1，在这里由于信号相位抵消等原因，原始样本音频信号叠加噪声信号在某些特殊时频点上可能导致混合信号幅度小于原始信号幅度，因此，限定Mask值小于等于1。

再从带噪样本音频信号中提取网络训练所需的幅度特征(即样本幅值特征)。

S123，将所述样本幅值特征为所述初始语音处理网络模型的输入，将所述样本目标真实幅度比例作为所述初始语音处理网络模型的期望输出，对所述初始语音处理网络模型的训练并得到所述预先训练好的语音处理网络模型。

例如，在图2中，将计算得到的Mask值作为语音处理网络模型学习的目标(label)，将从带噪样本音频信号中提取网络训练所需的幅度特征，作为语音处理网络模型学习的特征(feature)，输入到初始语音处理网络模型，对初始语音处理网络模型进行训练，得到所述预先训练好的语音处理网络模型。

在上述可能的实现方式中，可以根据训练批(BATCH_SIZE)的大小确定训练样本集的大小，例如训练批大小为32，即迭代一次模型训练需获取32个训练样本，也就是一次模型训练所需的训练样本集包括32个训练样本。

在一个可能的实现方式中，在S123中，可以根据初始语音处理网络模型的期望输出和实际输出计算目标损失函数。其中，目标损失函数可以是实际输出与期望输出的差值，通过二者差值，训练初始语音处理网络模型，并在该差值收敛到足够小的程度时结束训练。另外，目标损失函数也可以是实际输出与期望输出组成的更复杂的函数，从而使得初始语音处理网络模型的训练效果更好，目标损失函数的具体形式本申请实施例中不作限定，具体可以根据实际应用确定。

在一个可选的实现方式中，S11中，在获取带噪音频信号的第一幅度信息，对带噪音频信号进行分段时，每个分段的长度与训练样本集中每个训练样本的长度对应，从而可以使得S12中获取到的第一幅度比例信息更为准确。

在S13中，当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息。

也就是说，在S13中，对基于幅值特征得到的第一幅度比例信息比例进行调整，以使得调整得到的第二幅度比例信息更能体现具体的需求。

在一个可能的实现方式中，S13中，当所述第一幅度比例信息小于第二阈值时，将所述第一幅度比例信息调整为小于所述第一幅度比例信息的第二幅值比例信息；和/或，当所述第一幅度比例信息大于第一阈值时，将所述第一幅度比例信息调整为大于所述第一幅度比例信息的第二幅值比例信息。

其中，第一阈值和第二阈值的具体取值可以根据实际需求进行设置。通过该可能的实现方式，可以通过设置第一阈值和第二阈值，对第一幅度比例信息进行调整，以使得第二幅值比例信息更能体现用户对目标估计信号的实际需求。

在一个可能的实现方式中，可以根据实际应用的幅值比例调整策略，按照预设的映射函数，对所述第一幅度比例信息比例进行映射，得到所述第二幅值比例信息。例如：

Mask0(n,k)＝func(Mask(n,k)) (6)

其中,Mask0为映射函数映射之后的Mask值，即所述第二目幅值比例信息。

在一种可能实现中，映射函数func可为：

其映射性能如图3所示，从图3中可看出，将原始系数小于0.3的值置为0；将大于0.3以上的数值置不做处理。通过该可能的实现方式，对于比较低的Mask值，通过映射函数可映射到更小的Mask数值，因此可以提高音频去噪的效果。

在另一种可能实现方式中，映射函数func也可以可为：

其映射性能如图4所示。从图4中可看出，将原始系数小于等于0.3的Mask值置为0；将大于0.3小于等于0.9的数值置不做处理；将0.9以上的数值置为1。从而对于比较低的Mask值，通过映射函数可映射到更小的Mask数值，降低低信噪比信号的信噪比，提高音频去噪的效果；而对于比较高的Mask值，通过映射函数可映射到更大的Mask数值，因此，可提升高信噪比信号的信噪比，得到更好的音频增强效果。

当然，在实际应用中，映射函数并不限于上述两种，具体可以根据实际需要设计。例如，假设需要获取更好的音频增强效果，则可以对上述映射函数进行调整，例如，将公式(7)中将Mask数值小于等于0.3的情况修改为0.3，即采用下面的映射函数：

在S14中，基于所述带噪音频信号的相位信息、所述第一幅度信息以及所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

在实际应用中，S14的具体实现方式可以与S11中所述带噪音频信号的第一幅度信息(即幅值特征)获取的具体实现方式对应。

例如，如果所述带噪音频信号的幅值特征的获取通过短时傅里叶变换获取，则在S14中，可以采用对应的方式得到语音源信号的估计值。因此，在一个可能的实现方式中，S14可以包括以下步骤：

S141，根据每个带噪音频信号帧的频谱计算每个所述带噪音频信号帧的相位；

S142，基于所述第二幅度比例信息和所述每个带噪音频信号帧的相位，对每个所述带噪音频信号帧做短时逆傅里叶变换，得到所述带噪音频信号帧的估计值。

例如，可以将所述第二幅度比例信息与所述第一幅度信息相乘，再乘以相位信息，进行ISTFT变换，得到目标估计信号，即期望信号：

X0(t)＝ISTFT(f(Mask_p(n,k))*MagY(n,k)*PhaY(n,k)) (10)

其中：

X0为估计期望信号；

f(Mask_p(n,k))为时频点(n,k)通过网络估计得到的Mask值经过映射函数后的新Mask值(即第二幅度比例信息)；

MagY(n,k)为时频点(n,k)的幅度值；

PhaY(n,k)为时频点(n,k)的相位值。

在一个可能的实现方式中，在得到目标估计信号后，可以将目标估计信号作为去噪后的带噪音频数据，可输出该目标估计信号。具体地，作为一种实施方式，输出形式可以是通过播放该目标估计信号，以实现播放去噪后的带噪音频数据，供用户听取，使用户得到更好的听感，提升语音效果，更具体地根据不同场景可实现对通话质量的提升、直播效果的提升等。

在另一种的实现方式中，输出形式也可以是显示等，例如得到目标估计信号后，可对其进行语音识别，并对识别结果进行显示，供用户查看。由于用于语音识别的信号是经过去噪的，因此还可提高语音识别效果，提高识别准确率。

图5为本公开的一个可能的实现方式中，获取带噪音频信号的目标估计信号的流程示意图，如图5所示，在该可能的实现方式中，先对带噪音频信号进行STFG变换，得到带噪音频信号的各个音频信号帧的幅度，根据各个音频信号帧的幅度，提取带噪音频信号的幅值特征输入到网络模型，网络模型输出该带噪音频信号对应的Mask值(即第一幅度比例信息)，将网络模型输出的Mask值作为映射函数的变量，进行映射，得到调整后的Mask值，基于调整后的Mask值、带噪音频信号的相位信息以及带噪音频信号的幅度进行ISTFT变换，从而得到目标估计信号。

在本公开的实施例提供的技术方案中，获取带噪音频信号的第一幅度信息，再基于所述第一幅度信息，确定第一幅度比例信息，当所述第一幅度比例信息大于第一阈值，或/和，所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息，最后基于所述带噪音频信号的相位信息、所述第一幅度信息以及所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。通过对第一幅度比例信息进行调整，从而可以使得第二幅度比例信息能够更为准确，进而使得最后得到的目标估计信号更能满足需求。并且，在本申请实施例中，可以根据实际需要，确定映射函数，提升网络输出结果的音频质量，使得出的音频质量更干净，去噪效果更好。另外，对于信噪比低的区域，通过映射函数可映射到更小的Mask数值，因此导致音频去噪效果更好。而对于高信噪比区域，通过映射函数可映射到更大的Mask数值，因此可提升高信噪比信号的信噪比，得到更好的音频增强效果。

图6是根据一示例性实施例示出的一种音频信号处理装置的框图。参照图6，该装置600包括获取模块611、第一确定模块612、调整模块613和第二确定模块614。

在该实施例中，获取模块611，被配置为执行获取带噪音频信号的第一幅度信息；第一确定模块612，被配置为执行根据所述第一幅度信息确定第一幅度比例信息，其中所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值；调整模块613，被配置为执行当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息；第二确定模块614，被配置为执行根据所述带噪音频信号的相位信息、所述第一幅度信息和所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

可选地，所述调整模块613按照以下方式调整所述第一幅度比例信息以得到第二幅度比例信息：当所述第一幅度比例信息小于第二阈值时，将所述第一幅度比例信息调整为小于所述第一幅度比例信息的第二幅值比例信息；和/或，当所述第一幅度比例信息大于第一阈值时，将所述第一幅度比例信息调整为大于所述第一幅度比例信息的第二幅值比例信息。

可选地，所述调整模块613按照以下方式调整所述第一幅度比例信息以得到第二幅度比例信息：按照预设的映射函数，对所述第一幅度比例信息进行映射，得到所述第二幅值比例信息。

可选地，所述第一确定模块612根据所述第一幅度信息确定第一幅度比例信息，包括：将所述第一幅度信息输入预先训练好的语音处理网络模型，得到所述第一幅度比例信息，其中，所述预先训练好的语音处理网络模型用于根据所述第一幅度信息输出所述第一幅度比例信息。

可选地，所述第一获取模块611还被配置为执行：在所述获取带噪音频信号的第一幅度信息之前，对带噪音频信号进行分段处理，其中，分段的长度与所述训练样本集中每个训练样本的长度对应。

可选地，所述映射函数包括以下任一项：

其中，func(x)为映射函数，x为所述第一幅值比例信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，并具有相同的有益效果此处将不做详细阐述说明。

图7根据一示例性实施例示出的一种用于音频信号处理的电子设备700的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图8是根据一示例性实施例示出的一种用于音频信号处理的电子设备800的框图。例如，电子设备800可以被提供为一服务器。参照图8，电子设备800包括处理组件822，其进一步包括一个或多个处理器，以及由存储器832所代表的存储器资源，用于存储可由处理组件822的执行的指令，例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件822被配置为执行指令，以执行上述音频信号处理方法。

电子设备800还可以包括一个电源组件826被配置为执行电子设备800的电源管理，一个有线或无线网络接口850被配置为将装置800连接到网络，和一个输入输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似的操作系统。

本公开的实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频信号处理方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号处理方法，其特征在于，包括：

获取带噪音频信号的第一幅度信息；

根据所述第一幅度信息确定第一幅度比例信息，其中，所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值；

当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息；

根据所述带噪音频信号的相位信息、所述第一幅度信息和所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

2.根据权利要求1所述的方法，其特征在于，所述当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息，包括：

当所述第一幅度比例信息小于第二阈值时，将所述第一幅度比例信息调整为小于所述第一幅度比例信息的第二幅值比例信息；和/或

当所述第一幅度比例信息大于第一阈值时，将所述第一幅度比例信息调整为大于所述第一幅度比例信息的第二幅值比例信息。

3.根据权利要求1所述的方法，其特征在于，所述调整所述第一幅度比例信息以得到第二幅度比例信息，包括：

按照预设的映射函数，对所述第一幅度比例信息进行映射，得到所述第二幅值比例信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一幅度信息确定第一幅度比例信息，包括：

将所述第一幅度信息输入预先训练好的语音处理网络模型，得到所述第一幅度比例信息，其中，所述预先训练好的语音处理网络模型用于根据所述第一幅度信息输出所述第一幅度比例信息。

5.根据权利要求4所述的方法，其特征在于，所述将所述第一幅度信息输入预先训练好的语音处理网络模型之前，所述方法还包括：

获取初始语音处理网络模型；

获取训练样本集，其中，所述训练样本集包括：样本幅度信息及样本目标真实幅度比例信息；

将所述样本幅度信息为所述初始语音处理网络模型的输入，将所述样本目标真实幅度比例信息作为所述初始语音处理网络模型的期望输出，对所述初始语音处理网络模型的训练并得到所述预先训练好的语音处理网络模型。

6.根据权利要求5所述的方法，其特征在于，所述获取带噪音频信号的第一幅度信息之前，所述方法还包括：

对带噪音频信号进行分段处理，其中，分段的长度与所述训练样本集中每个训练样本的长度对应。

7.根据权利要求3所述的方法，其特征在于，所述映射函数包括以下任一项：

其中，func(x)为映射函数，x为所述第一幅度比例信息。

8.一种音频信号处理装置，其特征在于，包括：

获取模块，被配置为执行获取带噪音频信号的第一幅度信息；

第一确定模块，被配置为执行根据所述第一幅度信息确定第一幅度比例信息，其中所述第一幅度比例信息为所述带噪音频信号经过降噪后得到的降噪音频信号的第二幅度信息与所述第一幅度信息的比值；

调整模块，被配置为执行当所述第一幅度比例信息大于第一阈值，或/和所述第一幅度比例信息小于第二阈值时，调整所述第一幅度比例信息以得到第二幅度比例信息；

第二确定模块，被配置为执行根据所述带噪音频信号的相位信息、所述第一幅度信息和所述第二幅度比例信息，确定所述带噪音频信号的目标估计信号。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音频信号处理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的音频信号处理方法。