CN111402918A

CN111402918A - 一种音频处理方法、装置、设备及存储介质

Info

Publication number: CN111402918A
Application number: CN202010202501.3A
Authority: CN
Inventors: 董培; 郑羲光; 张晨
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-10
Anticipated expiration: 2040-03-20
Also published as: CN111402918B

Abstract

本公开提供一种音频处理方法、装置、设备及存储介质，涉及计算机技术领域，用于减少音频信号降噪处理的性能消耗。该方法包括：获取待处理音频信号的第一频段中各频带的音频信号，并进行降噪处理得到第一频段中各频带的目标信号；基于第一频段中各频带的音频信号以及第一频段中各频带的目标信号，确定待处理音频信号的第二频段的降噪参考值，第二频段为所述待处理音频信号中除第一频段外的频段；基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号；将第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行融合，获得待处理音频信号的目标信号。该方法减少了待处理音频信号降噪处理的性能消耗。

Description

一种音频处理方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种音频处理方法、装置、设备及存储介质。

背景技术

相关技术对音频信号进行降噪处理时，常通过在音频信号的全频段的频带上基于机器学习或深度学习训练得到的降噪模型对待降噪的音频信号进行降噪处理，该过程中需要在待降噪的音频信号的全频段的频段上进行机器学习或深度学习，性能消耗大。

发明内容

本公开实施例提供一种音频处理方法、装置、设备及存储介质，用于减少音频信号的降噪处理过程中的性能消耗。

本公开第一方面，提供一种音频处理方法，包括：

获取待处理音频信号的第一频段中各频带的音频信号，并对所述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号；

基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述待处理音频信号的第二频段的降噪参考值，所述第二频段为所述待处理音频信号中除所述第一频段外的频段；

基于所述降噪参考值对所述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号；

将所述第一频段中各频带的目标信号以及所述第二频段中各频带的目标信号进行融合，获得所述待处理音频信号的目标信号。

在一种可能的实现方式中，所述基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述待处理音频信号的第二频段的降噪参考值的步骤，包括：

若所述待处理音频信号中的噪声信号为白噪声信号或通用噪声信号，则基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定噪声信号的至少一个信号平均值；

根据所述至少一个信号平均值确定所述降噪参考值。

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为白噪声信号，所述确定噪声信号的至少一个信号平均值的步骤，包括：

确定所述第一频段中各频带的噪声信号的信号平均值；

所述根据所述至少一个信号平均值确定所述降噪参考值的步骤，包括：

将所述第一频段中各频带的噪声信号的信号平均值确定为所述降噪参考值。

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为通用噪声信号，所述确定噪声信号的至少一个信号平均值的步骤，包括：

基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定第三频段中各频带的噪声信号的信号平均值，所述第三频段为所述第一频段的子频段；以及

基于第四频段中各频带的第一信号特征值确定所述第四频段中各频带的噪声信号的信号平均值，其中，频带的第一信号特征值为所述频带的目标信号与音频信号的比值，所述第四频段为所述第一频段的子频段，且所述第三频段为所述第四频段的子频段；

确定所述第三频段中各频带的噪声信号的信号平均值和所述第四频段中各频带的噪声信号的信号平均值中的最小值为所述降噪参考值。

在一种可能的实现方式中，所述基于所述降噪参考值对所述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号的步骤，包括：

分别将所述第二频段中各频带的音频信号与所述降噪参考值的差值，确定为所述第二频段中各频带的目标信号。

若所述噪声信号的信号类型为冲击噪声信号，则基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述第一频段中各频带的目标信号与音频信号的比值的参考值为所述降噪参考值。

分别将所述第二频段中各频带的音频信号与所述降噪参考值的乘积，确定为所述第二频段中各频带的目标信号。

在一种可能的实现方式中，所述对所述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号的步骤，包括：

将所述第一频段中各频带的音频信号输入降噪模型，得到第一频段中各频带的第二信号特征值；

基于所述第一频段中各频带的第二信号特征值，分别对所述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号。

在一种可能的实现方式中，所述基于所述第一频段中各频带的第二信号特征值，分别对所述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号的步骤，包括：

若频带的第二信号特征值为所述频带的目标信号与音频信号的比值，则分别将第一频段中各频带的音频信号与对应的第二信号特征值的乘积，确定为所述第一频段中各频带的目标信号；或

若频带的第二信号特征值为所述频带的噪声信号与音频信号的比值，则基于所述第一频段中各频带的第二信号特征值以及第一频段中各频带的音频信号，通过公式1分别获得第一频段中各频带的目标信号，其中，

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

公式1中的i为第一频段中任意频带的标识信息，speech(i)为所述任意频带的目标信号，spec(i)为所述任意频带的音频信号，coef(i)为所述任意频带的第二信号特征值。

在一种可能的实现方式中，所述获取所述待处理音频信号的第一频段中各频带的音频信号的步骤，包括：

将所述待处理音频信号进行降采样以及频谱变换，获得所述第一频段中各频带的音频信号；或

将所述待处理音频信号进行频谱变换，获得所述待处理音频信号的各频带的音频信号，以及根据所述待处理音频信号的各频带的音频信号确定所述第一频段中各频带的音频信号。

在一种可能的实现方式中，所述将所述第一频段中各频带的目标信号以及所述第二频段中各频带的目标信号进行融合，获得所述待处理音频信号的目标信号的步骤，包括：

将所述第一频段中各频带的目标信号以及所述第二频段中各频带的目标信号进行频谱融合，获得所述待处理音频信号的目标信号；

其中，若所述频谱变换为傅里叶变换，则所述频谱融合为傅里叶逆变换；或

若所述频谱变换为离散余弦变换，则所述频谱融合为离散余弦逆变换。

本公开第二方面，提供一种音频处理装置，包括：

第一降噪单元，被配置为执行获取待处理音频信号的第一频段中各频带的音频信号，并对所述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号；

参考值确定单元，被配置为执行基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述待处理音频信号的第二频段的降噪参考值，所述第二频段为所述待处理音频信号中除所述第一频段外的频段；

第二降噪单元，被配置为执行基于所述降噪参考值对所述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号；

信号融合单元，被配置为执行将所述第一频段中各频带的目标信号以及所述第二频段中各频带的目标信号进行融合，获得所述待处理音频信号的目标信号。

在一种可能的实现方式中，所述参考值确定单元具体被配置为执行：

根据所述至少一个信号平均值确定所述降噪参考值。

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为白噪声信号，所述参考值确定单元具体被配置为执行：

确定所述第一频段中各频带的噪声信号的信号平均值；

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为通用噪声信号，所述参考值确定单元具体被配置为执行：

在一种可能的实现方式中，所述第二降噪单元具体被配置为执行：

在一种可能的实现方式中，所述第一降噪单元具体被配置为执行：

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

在一种可能的实现方式中，所述信号融合单元具体被配置为执行：

本公开第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下过程：

在一种可能的实现方式中，所述处理器具体被配置为执行：

根据所述至少一个信号平均值确定所述降噪参考值。

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为白噪声信号，所述处理器具体被配置为执行：

确定所述第一频段中各频带的噪声信号的信号平均值；

在一种可能的实现方式中，所述待处理音频信号中的噪声信号为通用噪声信号，所述处理器具体被配置为执行：

在一种可能的实现方式中，所述处理器具体被配置为执行：

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

在一种可能的实现方式中，所述处理器具体被配置为执行：

本公开第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如第一方面及一种可能的实施方式中任一所述的方法。

本公开的方案至少带来以下的有益效果：

本公开在对待处理音频信号进行降噪处理时，基于第一频段中各频带的目标信号确定第二频段的降噪参考值，进而仅基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，从而使得第二频段中各频带不用经过复杂的降噪过程，减少了获得第二频段各频带的目标信号的性能消耗，从而减少了对待处理音频信号进行降噪处理的性能消耗，且有效的基于对待处理音频信号降采样得到的低频段(第一频段)的音频信号的降噪处理结果，对待处理音频信号的其他频段(第二频段)的音频信号进行扩展的降噪处理。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开示例性实施例提供的一种音频处理方法的流程示意图；

图2为本公开示例性实施例提供的一种音频处理方法的完整流程示意图；

图3为本公开示例性实施例提供的一种音频处理方法的完整流程示意图；

图4为本公开示例性实施例提供的一种音频处理方法的完整流程示意图；

图5为本公开示例性实施例提供的一种音频处理方法的完整流程示意图；

图6为本公开示例性实施例提供的一种音频处理装置的结构示意图；

图7为本公开示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

下面对本公开的设计思想进行说明。

设备在录制音频信号或者携带音频信号的视频文件时，会因为各种环境原因录入不同种类的噪声信号，消除噪声信号是一个常见的处理需求，目前有针对特定环境下的特定噪声信号进行降噪的方法，也有不区分场景的针对通用的噪声信号进行降噪的方法。

相关技术在对音频信号进行降噪处理时，一种方法是基于信号处理的原理，分析需要进行降噪处理的音频信号的信号特征，进而根据音频信号的信号特征针对性地对音频信号进行降噪处理；另一种方法是基于机器学习和深度学习对音频信号进行降噪处理，但其消除噪声信号的效果不好。

近年来，出现了基于机器学习和深度学习对音频信号进行降噪处理的方法，该过程中常通过较低采样率的音频信号训练降噪模型，进而通过训练好的降噪模型对音频信号进行降噪处理；但是训练降噪模型时使用的是低采样率的音频信号，其由于采样率低使得降噪模型输出的音频信号与降噪前的音频信号相比音质受损。

若在待降噪的音频信号的全频带上对音频信号进行降噪理，一则现有的音频信号的数据大部分是8khz或者16khz等低采样率下的数据，无法训练出高采样率下的机器学习或者深度学习能用的降噪模型；二则，在音频信号的全频带上做机器学习或者深度学习处理，机器学习的次数较多或深度学习的深度较深，性能消耗非常大，同时训练好模型后，在实际使用降噪模型时的性能消耗也非常大。

鉴于此，本公开设计一种音频处理方法、装置、设备及存储介质，用以减少音频信号的降噪处理过程中的性能消耗，本公开中首先获取待处理音频信号的第一频段中各频带的音频信号，对第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号。

进而基于要清除的噪声信号的特征或待处理音频信号的特征，基于第一频段中各频带的音频信号以及第一频段中各频带的目标信号，求解出待处理音频信号中除第一频段外的第二频段的降噪参考值，基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号，最后将第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行融合，获得待处理音频信号降噪得到的目标信号。

以下结合附图对本公开的方案进行详细说明。

本公开实施例中的待处理音频信号中指需要进行降噪处理的音频信号，该待处理音频信号中可能仅包括噪声信号，也可能仅包括目标信号，也可能同时包括目噪声信号和目标信号。

本公开实施例中的噪声信号指期望清除的音频信号，噪声信号可以但不局限于包括如下一种音频信号或多种音频信号：

白噪声信号、冲击噪声信号、通用噪声信号、粉红噪声信号、红噪声信号、蓝噪声信号、紫噪声信号、指定对象的音频信号等。

上述白噪声信号，其英文名称为white noise，指功率谱密度在整个频域内是常数的噪声，即为所有频带具有相同能量密度的随机噪声。

上述冲击噪声信号，指一种由外界突发因素引起的信号，如由于巧记键盘引起的信号等。

上述通用噪声信号，即信号中无用的信号成分。

作为一种实施例，上述指定对象的音频信号中的指定对象可以是指定的人、指定的设备、指定的动物中的一个或多个，本领域的技术人员可根据实际需求确定上述指定对象，其中：

指定的人可以为指定的某个人，也可以为指定的某个人群如女人、男人、儿童、老人、某个家庭中的人等；

指定的设备可以为指定的某个类型的普通设备如空调、洗衣机、音响，可以为指定的某个类型的智能设备如智能机器人，还可以是指定的某个型号的设备如某厂家生产的某个型号的音响等；

指定的动物可以为某个指定的动物如某头大象，也可以为某类动物如鸭子，还可以为某个物种科的动物如猫科的动物。

本公开实施例中的目标信号指期望得到的不包含噪声信号的音频信号，目标信号可以包括语音音频信号、音乐音频信号中的一个或多个，其中，语音音频信号可以为指定对象的语音音频信号，指定对象可参照上述描述，此处不再重复叙述。

以下给出本公开实施例可能的应用场景：

场景1：设定目标信号，获取待处理音频信号降噪后的目标信号。

如设定目标信号为指定的某个人的语音音频信号，则此时将待处理音频信号中除上述某个人的语音音频信号外的音频信号视为噪声信号，需要除去待处理音频信号中的噪声信号，进而获得待处理音频信号降噪后的纯净的上述某个人的语音音频信号。

场景2：设定噪声信号，获取待处理音频信号降噪后的目标信号。

如设定噪声信号为白噪声信号，则此时将待处理音频信号中除白噪声信号外的音频信号视为目标信号，需要除去待处理音频信号中的白噪声信号，获得纯净的目标信号。

或设定噪声信号为指定对象的语音音频信号，则对待处理音频信号进行降噪处理时，除去待处理音频信号中上述指定对象的语音音频信号，获得待处理音频信号降噪后的目标信号，如指定对象为狗时，除去待处理音频信号中狗的叫声即得到目标信号。

应当说明的是，以上给出的应用场景仅为示意性的示例，本领域的技术人员还可以将本公开提供的方法应用于其他类似场景，如从一段混合了不同歌曲的待处理音频信号中获得某个指定歌曲的音频信号等，此处不进行穷举。

以下对本公开提供的方法进行详细说明，如图1所示，提供一种音频处理方法，具体包括如下步骤：

步骤S101，获取待处理音频信号的第一频段中各频带的音频信号，并对上述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号。

具体地，在采集一段时间的音频信号为待处理音频信号后，可以将待处理音频信号进行降采样以及频谱变换，获得第一频段中各频带的音频信号，即直接获得spec(1)、spec(2)…spec(n)，其中spec(1)、spec(2)…spec(n)表示第一频段中从低频带到高频带的各频带的音频信号，n为正整数。

或者，可以直接将待处理音频信号进行频谱变换，获得上述待处理音频信号的各频带的音频信号，进而根据待处理音频信号的各频带的音频信号确定第一频段中各频带的音频信号，即直接获得spec(1)、spec(2)…spec(n)…spec(k)，进而获得spec(1)、spec(2)…spec(n)，其中spec(1)、spec(2)…spec(n)…spec(k)表示待处理音频信号的各频带中从低频带到高频带的各频带的音频信号，spec(1)、spec(2)…spec(n)表示第一频段中从低频带到高频带的各频带的音频信号，n和k为正整数。

其中，上述频谱变换可以但不局限于为傅里叶变换(Fourier Transform，FFT)或离散余弦变换(DiscreteCosineTransform，DCT)。

作为一种实施例，可以将上述第一频段中各频带的音频信号输入降噪模型，得到第一频段中各频带的第二信号特征值；基于第一频段中各频带的第二信号特征值，分别对第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号。

进一步，本领域的技术人员可根据实际需求设置第二信号特征值，如可以但不局限于将频带的目标信号与音频信号的比值作为该频带的第二信号特征值，或者将频带的噪声信号与音频信号的比值作为该频带的第二特征值，或将频带的目标信号和噪声信号的比值作为该频带的第二特征值。

步骤S102，基于上述第一频段中各频带的音频信号以及第一频段中各频带的目标信号，确定待处理音频信号的第二频段的降噪参考值，其中第二频段为待处理音频信号中除第一频段外的频段。

具体地，本领域的技术人员可以结合待清除的噪声信号的特征或待处理音频信号的特征，以及第一频段中各频带的音频信号以及第一频段中各频带的目标信号，灵活地确定第二频段的降噪参考值。

本公开实施例中提供两种确定第二频段的降噪参考值的方法如下：

第一种确定降噪参考值的方法：

若上述待处理音频信号中的噪声信号为白噪声信号或通用噪声信号，则基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定噪声信号的至少一个信号平均值，根据至少上述至少一个信号平均值确定降噪参考值。

具体地，若上述待处理音频信号中的噪声信号为白噪声信号或通用噪声信号，还可以确定噪声信号按指定顺序排序的中位值为降噪参考值，上述指定顺序可以但不局限于为信号能量从小到大或能量从大到小。

第二种确定降噪参考值的方法：

若上述噪声信号的信号类型为冲击噪声信号，则基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定上述第一频段中各频带的目标信号与音频信号的比值的参考值为上述降噪参考值。

具体地，上述比值的参考值可以但不限于为比值的平均值，即可以通过如下公式2确定上述降噪参考值。

公式2：

公式2中，Refe为第二频段的降噪参考值，cof(1)至cof(n)表示第一频段中各频带从最低频带到最高频带的目标信号与音频信号的比值，i为第一频段中任意频带的标识，speech(i)表示上述任意频带的目标信号，spec(i)表示上述任意频带的音频信号。

步骤S103，基于上述降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号。

作为一种实施例，在步骤S103之前，若在步骤S101中获得了待处理音频信号的各频带的音频信号，则可以直接根据待处理音频信号的各频带的音频信号获得第二频段中各频带的音频信号；若在步骤S101中未获得待处理音频信号的各频带的音频信号，则可以对待处理音频信号进行频谱变换，获得待处理音频信号的全频段各频带的音频信号，进而获得第二频段中各频带的音频信号，其中，频谱变换可参见上述内容，此处不再重复叙述。

作为一种实施例，针对步骤S102中第一种确定降噪参考值的方法，分别将上述第二频段中各频带的音频信号与上述降噪参考值的差值，确定为上述第二频段中各频带的目标信号，即可以通过下述公式3确定第二频段中各频带的目标信号。

公式3：speech(j)＝spec(j)-Refe；

公式3中，j为第二频段中任意频带的标识，speech(j)为上述任意频带的目标信号，spec(i)为上述任意频带的音频信号，Refe为第二频段的降噪参考值。

作为一种实施例，针对步骤S102中第二种确定降噪参考值的方法，分别将上述第二频段中各频带的音频信号与上述降噪参考值的乘积，确定为上述第二频段中各频带的目标信号，即可以通过下述公式4确定第二频段中各频带的目标信号。

公式4：speech(j)＝spec(j)×Refe；

公式4中，j为第二频段中任意频带的标识，speech(j)为上述任意频带的目标信号，spec(i)为上述任意频带的音频信号，Refe为第二频段的降噪参考值。

步骤S104，将第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行融合，获得待处理音频信号的目标信号。

具体地，将第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行频谱融合，获得待处理音频信号的目标信号。

更进一步，若步骤S101中的设定频谱变换为傅里叶变换，则此步骤中的频谱融合为傅里叶逆变换；若步骤S101中的频谱变换为离散余弦变换，则此步骤中的设定频谱融合为离散余弦逆变换。

作为一种实施例，在上述步骤S101中，本公开实施例给出针对设定的不同的第二信号特征值，基于第二信号特征值得到第一频段中各频带的目标信号的方法也可以不相同，此处给出两种示例性的方法如下：

第一种获取第一频段中各频带的目标信号的方法：

此种情况下频带的第二信号特征值为该频带的目标信号与音频信号的比值，即

其中i为该频带的标识信息，speech(i)为该频带的目标信号，spec(i)为该频带的音频信号，coef(i)为该频带的第二信号特征值。

则分别将第一频段中各频带的音频信号与对应的第二信号特征值的乘积，确定为上述第一频段中各频带的目标信号，即基于下述公式5获取第一频段中各频带的目标信号。

公式5为：speech(i)＝spec(i)×coef(i)；

公式5中的i为第一频段中任意频带的标识信息，speech(i)为上述任意频带的目标信号，spec(i)为上述任意频带的音频信号，coef(i)为上述任意频带的第二信号特征值。

第二种获取第一频段中各频带的目标信号的方法：

此种情况下频带的第二信号特征值为该频带的噪声信号与音频信号的比值，即

其中i为该频带的标识信息，noise(i)为该频带的噪声信号，spec(i)为该频带的音频信号，coef(i)为该频带的第二信号特征值。

则基于上述第一频段中各频带的第二信号特征值以及第一频段中各频带的音频信号，通过公式1分别获得第一频段中各频带的目标信号，其中，

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

公式1中的i为第一频段中任意频带的标识信息，speech(i)为上述任意频带的目标信号，spec(i)为上述任意频带的音频信号，coef(i)为上述任意频带的第二信号特征值。

进一步，上述降噪模型可以是预先基于机器学习或神经网络模型得到的，在获得第一频段中各频带的第二信号特征值时，可以将第一频段各频带的音频信号直接输入训练得到的降噪模型。

更进一步，若第一频段各频带的目标信号是将降采样后的待处理音频信号进行FFT得到的，则在获得第一频段中各频带的第二信号特征值时，可以将第一频段各频带的音频信号直接输入训练得到的降噪模型，也可以提取第一频段各频带的音频信号的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，将第一频段各频带的音频信号的梅尔频率倒谱系数输入训练得到的降噪模型。

以下对降噪模型的训练过程作出进一步说明：

为了利于降噪模型实现对待处理音频信号降采样后的第一频段各频带的音频信号进行降噪处理的，可以基于低采样率的音频信号对降噪模型进行训练，具体地：

首先获取用于训练的样本音频信号，该样本音频信号可以是现有公开的低采样率的音频信号数据，也可以是对高采样率的音频信号进行降采样获得的低采样率的音频数据，也可以是技术人员录制的低采样率的音频数据；

进而确定初始降噪模型，并利用样本音频信号通过机器学习或神经网络模型的训练方法对初始降噪模型不断进行调整至降噪模型的性能满足设定需求，则停止训练对初始降噪模型的调整获得降噪模型，其中神经网络模型可以但不局限于包括深度神经网络模型(Deep Neural Networks，DNN)、循环神经网络模型(Recurrent Neural Network，RNN)、卷积神经网络模型(convnet，CNN)中的任意一种。

上述在确定初始降噪模型的时候，可以确定初始降噪模型的输出值即各频带的第二信号特征值，即确定

或

其中，i为任意频带的标识信息，speech(i)为上述任意频带的目标信号，spec(i)为上述任意频带的音频信号，coef(i)为上述任意频带的第二信号特征值，noise(i)为上述任意频带的噪声信号。

基于上述训练得到的降噪模型，可以对待处理音频信号的低频段(第一频段)的音频信号，对待处理音频信号的高频段(第二频段)的音频信号进行降噪处理。

作为一种实施例，在步骤S102的第一种确定降噪参考值的方法中可以但不局限于包括如下两种情况：

情况1：待处理音频信号中的噪声信号为白噪声信号

确定第一频段中各频带的噪声信号的信号平均值，进而在根据上述至少一个信号平均值确定上述降噪参考值时，将上述第一频段中各频带的噪声信号的信号平均值确定为上述降噪参考值。

如为了便于理解，本公式实施例中将第一频段中各频带从最低频带到最高频带的音频信号依次表示为spec(1)、…、spec(n)；其中n为正整数；则可以根据下述公式6获得第二频段的降噪参考值。

公式6：

其中，公式6中的Refe即为求得的第二频段的降噪参考值。

情况2：待处理音频信号中的噪声信号为通用噪声信号

基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定第三频段中各频带的噪声信号的信号平均值，上述第三频段为上述第一频段的子频段；以及

基于第四频段中各频带的第一信号特征值确定上述第四频段中各频带的噪声信号的信号平均值，其中，频带的第一信号特征值为上述频带的目标信号与音频信号的比值，上述第四频段为上述第一频段的子频段，且上述第三频段为第四频段的子频段；

进而在根据上述至少一个信号平均值确定上述降噪参考值时，确定上述第三频段中各频带的噪声信号的信号平均值和上述第四频段中各频带的噪声信号的信号平均值中的最小值为上述降噪参考值。

其中，本领域的技术人员可根据实际需求确定第三频段，可以将第一频段中频带较高的部分设置为第三频段，如将第一频段中各频带从最低频带到最高频带的音频信号依次表示为spec(1)、…、spec(n)，可以但不局限于将spec(n-3)、spec(n-2)、spec(n-1)、spec(n)对应的频带组成的范围作为第三频段，或将spec(n-3)、spec(n-2)、spec(n-1)对应的频带作为第三频段。

进一步，在确定第三频段中各频带的噪声信号的信号平均值时，可以根据第三频段各频带的音频信号和第三频段各频带的目标信号确定第三频段中各频带的噪声信号，确定第三频段中各频带的噪声信号的信号平均值，即若第三频段包括spec(n-3)、spec(n-2)、spec(n-1)、spec(n)对应的频带，则可以通过如下公式7第三频段中各频带的噪声信号的信号平均值。

公式7：

公式7中，Refe1为第三频段中各频带的噪声信号的信号平均值，noise(n-3)、noise(n-2)、noise(n-1)、noise(n)分别为spec(n-3)、spec(n-2)、spec(n-1)、spec(n)对应的频带的噪声信号。

本领域的技术人员可根据噪声信号的特征、目标信号的特征以及待处理音频信号的特征中的一个或多个确定第四频段，如由于待处理音频信号为一段时间的音频信号，因此可以获取第一频段中的设定时间内的音频信号对应的频段为第四频段，如设定时间为t时，则将包含t对应的全部频带的频段确定为第四频段。

进一步，在确定第四频段中各频带的噪声信号的信号平均值时，确定出第四频段中第一信号特征值与零的偏差在设定范围内的频带，这些频带的第一信号特征值与零的偏差小，即表示这些频带的音频信号全是噪声信号，则确定出频带的音频信号的信号平均值，如若确定出的频带为包括spec(n-6)、spec(n-3)、spec(n-2)对应的频带，则可以通过如下公式8确定第四频段中各频带的噪声信号的信号平均值：

公式8：

公式8中，Refe2为第四频段中各频带的噪声信号的信号平均值。

确定出Refe1和Refe2之后，可以通过如下公式9确定第二频段的降噪参考值Refe。

公式9：Refe＝min(Refe1，Refe2)。

本公开实施例以下以针对待处理音频信号的不同噪声信号进行降噪处理进行示例性的介绍。

示例1

此示例中噪声信号为白噪声信号，如图2所示，具体包括如下步骤：

步骤S201，将待处理音频信号进行降采样获得低采样率的音频信号，对低采样率的音频信号进行傅里叶变换获得第一频段中各频带的音频信号。

此处将第一频段中各频带从最低频带到最高频带的音频信号依次表示为spec(1)、…、spec(n)。

步骤S202，将第一频段中各频带的音频信号输入预先训练的降噪模型，获得第一频段各频带的第二信号特征值。

即将spec(1)、…、spec(n)输入降噪模型，获得coef(1)、…、coef(n)，其中，

或

i为第一频段中任意频带的标识信息，coef(i)为该频带的第二信号特征值，spec(i)为该频带的音频信号，speech(i)为该频带的目标信号，noise(i)为该频带的噪声信号。

步骤S203，基于第一频段中各频带的第二信号特征值以及第一频段中各频带的音频信号，获得第一频段中各频带的目标信号。

此步骤中，若

则基于上述公式5获得第一频段各频带的目标信号，若

则基于上述公式1获得第一频段各频带的目标信号。

步骤S204，基于第一频段中各频带的音频信号以及第一频段中各频带的目标信号，确定第一频段中各频带的噪声信号的信号平均值为待处理音频信号的第二频段的降噪参考值。

由于白噪声信号的特点是每个频带上的白噪声信号一致，则针对白噪声信号，可以将第一频段中各频带的噪声信号的信号平均值作为降噪参考值。

具体地，可以基于上述公式6获得第二频段的降噪参考值Refe。

步骤S205，对待处理音频信号进行傅里叶变换获得第二频段中各频带的音频信号。

具体地，对待处理音频信号进行设定频谱变换，首先获得待处理音频信号的全频段各频带的音频信号，此处将全频段中各频带从最低频带到最高频带的音频信号依次表示为spec(1)、…、spec(n)、spec(n+1)、…、spec(k)，其中k可以为大于n的值。

进而将spec(n+1)、…、spec(k)对应的频带所在的频段确定为第二频段。

应当说明的是，步骤S205可以在上述步骤S201至步骤204任意一个步骤之前或之后或同时实施，本领域的技术人员可根据实际需求灵活设置。

步骤S206，基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号。

此步骤中，可以基于上述公式3求得第二频段中各频带的音频信号，即求得spec(n+1)、…、spec(k)。

步骤S207，将上述第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行傅里叶逆变换，获得待处理音频信号除去白噪声信号后的目标信号。

示例2

此示例中噪声信号为冲击噪声信号，如图3所示，具体包括如下步骤：

步骤S301至步骤S303分别与上述步骤S201至步骤S203相同，此处不再重复叙述。

步骤S304，基于第一频段中各频带的音频信号以及第一频段中各频带的目标信号，将第一频段中各频带的目标信号与音频信号的比值的平均值确定为待处理音频信号的第二频段的降噪参考值。

由于冲击噪声信号的特点是每个频带上目标信号与音频信号的比值基本一致，因此针对冲击噪声信号，可以将第一频段中各频带的目标信号与音频信号的比值的平均值作为降噪参考值。

具体地，可以基于上述公式2获得第二频段的降噪参考值Refe。

步骤S305，与上述步骤S205相同，此处不再重复叙述。

应当说明的是，步骤S305可以在上述步骤S301至步骤S304任意一个步骤之前或之后或同时实施，本领域的技术人员可根据实际需求灵活设置。

步骤S306，基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号。

此步骤中，可以基于上述公式4求得第二频段中各频带的音频信号。

步骤S307，将上述第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行傅里叶逆变换，获得待处理音频信号除去冲击噪声信号后的目标信号。

示例3

此示例中噪声信号为通用噪声信号，如图4所示，具体包括如下步骤：

步骤S401至步骤S403分别与上述步骤S201至步骤S203相同，此处不再重复叙述。

基于通用噪声信号的稳定性，可以但不局限于通过如下步骤S404至步骤S406获得待处理音频信号的第二频段的降噪参考值。

步骤S404，基于第三频段中各频带的音频信号以及第三频段中各频带的目标信号，确定第三频段中各频带的噪声信号的信号平均值，其中第三频段为第一频段的子频段；

如上述内容，第三频段可以是第一频段中频带较高的几个频带组成的频段，此处可以基于上述公式7的原理获得第三频段中各频带的噪声信号的信号平均值Refe1。

步骤S405，基于第四频段中各频带的第一信号特征值确定第四频段中各频带的噪声信号的信号平均值，其中，频带的第一信号特征值为上述频带的目标信号与音频信号的比值，第四频段为第一频段的子频段，第三频段为第四频段的子频段。

如上述，可以基于上述公式8的原理，确定第四频段中各频带的噪声信号的信号平均值Refe2。

步骤S406，确定第三频段中各频带的噪声信号的信号平均值和第四频段中各频带的噪声信号的信号平均值中的最小值为第二频段的降噪参考值。

具体地，可以基于上述公式9将Refe1和Refe2中的最小值确定为降噪参考值。

步骤S407，与上述步骤S205相同，此处不再重复叙述。

应当说明的是，步骤S407可以在上述步骤S401至步骤S406任意一个步骤之前或之后或同时实施，本领域的技术人员可根据实际需求灵活设置。

步骤S408，基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号。

此步骤中，可以基于上述公式3求得第二频段中各频带的音频信号。

步骤S409，将上述第一频段中各频带的目标信号以及第二频段中各频带的目标信号进行傅里叶逆变换，获得待处理音频信号除去通用噪声信号后的目标信号。

示例4：

此示例中噪声信号集中在待处理音频信号的全频段中的子频段内，如上述全频段为24000Hz，而已知特定应用(如某一引擎)的噪声信号的90％以上集中在子频段200Hz至1000Hz之间，则可针对该子频段进行深度学习，即首先获取待处理音频信号的该子频段中各频带的目标信号，进而可以根据该子频段中各频带的目标信号通过示例3中的方法，获取0Hz至200Hz对应的频段中各频带的目标信号，以及1000Hz至24000Hz对应的频段中各频带的目标信号，最后将三个频段中各频带的目标信号进行融合，获得待处理音频信号降噪后的目标信号。

以下以待处理音频信号的全频段为0频带至k频带，第一子频段为频带0至频带a-1，第二子频段为频带a至频带b，第三子频段为频带b+1至频带k，第一子频段、第二子频段以及第三子频段均为全频带的子频段，噪声信号集中在第二子频段进行说明，如图5所示，具体包括如下步骤：

步骤S501，将待处理音频信号进行降采样获得低采样率的音频信号，对低采样率的音频信号进行傅里叶变换获得第二子频段中各频带的音频信号。

此处将第二子频段中各频带从最低频带到最高频带的音频信号依次表示为spec(a)、…、spec(b)。

步骤S502，将第二子频段中各频带的音频信号输入预先训练的降噪模型，获得第二子频段各频带的第二信号特征值。

即将spec(a)、…、spec(b)输入降噪模型，获得coef(a)、…、coef(b)，其中，

或

i为第二子频段中任意频带的标识信息，coef(i)为该频带的第二信号特征值，spec(i)为该频带的音频信号，speech(i)为该频带的目标信号，noise(i)为该频带的噪声信号。

步骤S503，基于第二子频段各频带的第二信号特征值以及第二子频段中各频带的音频信号，获得第二子频段各频带的目标信号。

此步骤中，若

则基于上述公式5获得第二子频段各频带的目标信号，若

则基于上述公式1获得第二子频段各频带的目标信号。

步骤S504，基于第四子频段中各频带的音频信号以及第四子频段中各频带的目标信号，确定第四子频段中各频带的噪声信号的信号平均值，其中第四子频段为第二子频段的子频段；

上述第四子频段的确定方法可参照示例3中的第三频段的确定方法，如上述，第四子频段可以是第二子频段中频带较高的几个频带组成的频段，此处可以基于上述公式7的原理获得第四子频段中各频带的噪声信号的信号平均值Refe1。

步骤S505，基于第五子频段中各频带的第一信号特征值确定第五子频段中各频带的噪声信号的信号平均值，其中，频带的第一信号特征值为上述频带的目标信号与音频信号的比值，第五子频段为第二子频段的子频段。

上述第五子频段的确定方法可参照示例3中的第四频段的确定方法，如上述，可以基于上述公式8的原理，确定第五子频段中各频带的噪声信号的信号平均值Refe2。

步骤S506，确定第四子频段中各频带的噪声信号的信号平均值和第五子频段中各频带的噪声信号的信号平均值中的最小值为第一子频段和第三子频段的降噪参考值。

步骤S507，对待处理音频信号进行傅里叶变换获得第一子频段中各频带的音频信号和第二子频段中各频带的音频信号。

应当说明的是，步骤S507可以在上述步骤S501至步骤S506任意一个步骤之前或之后或同时实施，本领域的技术人员可根据实际需求灵活设置。

步骤S508，基于降噪参考值对第一子频段中各频带的音频信号以及第三子频段中各频带的音频信号进行降噪处理，获得第一子频段中各频带的目标信号以及第三子频段中各频带的目标信号。

此步骤中，可以基于上述公式3分别求得第一子频段中各频带的音频信号speech(0)至speech(a-1)，以及第三子频段中各频带的音频信号speech(b+1)至speech(k)。

步骤S509，将第一子频段中各频带的目标信号、第二子频段中各频带的目标信号以及第三子频段中各频带的目标信号进行傅里叶逆变换，获得待处理音频信号除去噪声信号后的目标信号。

应当说明的是，本公开实施例提供的几个示例仅为本公开提供的方法的应用的举例，对于具有不同特征的不同噪声信号，可以根据应用场景的不同，灵活地设置待处理音频信号的第二频段的降噪参考值，以及灵活的根据获得降噪参考值获得第二频段各频带的目标信号，此处则不再穷举。

且本公开中出现的各种信号平均值以及各种比值均是基于各频带音频信号的能量、目标信号的能量以及噪声信号的能量计算的。

本公开实施例中对待处理音频信号进行降噪处理时，首先对待处理音频信号中的第一频段中各频带的音频信号进行降噪处理，获得第一频段各频带的目标信号，此过程中较为消耗性能，但之后基于第一频段中各频带的目标信号确定第二频段的降噪参考值，基于降噪参考值对第二频段中各频带的音频信号进行降噪处理，从而使得第二频段中各频带不用经过复杂的降噪过程，极大减少了获得第二频段各频带的目标信号的性能消耗，从而减少了对待处理音频信号进行降噪处理的性能消耗。

如图6所示，基于相同的发明构思，本公开实施例还提供一种音频处理装置600，该装置包括：

第一降噪单元601，被配置为执行获取待处理音频信号的第一频段中各频带的音频信号，并对上述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号；

参考值确定单元602，被配置为执行基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定上述待处理音频信号的第二频段的降噪参考值，上述第二频段为上述待处理音频信号中除上述第一频段外的频段；

第二降噪单元603，被配置为执行基于上述降噪参考值对上述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号；

信号融合单元604，被配置为执行将上述第一频段中各频带的目标信号以及上述第二频段中各频带的目标信号进行融合，获得上述待处理音频信号的目标信号。

可选的，参考值确定单元602具体被配置为执行：

若上述待处理音频信号中的噪声信号为白噪声信号或通用噪声信号，则基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定噪声信号的至少一个信号平均值；

根据上述至少一个信号平均值确定上述降噪参考值。

可选的，上述待处理音频信号中的噪声信号为白噪声信号，参考值确定单元602具体被配置为执行：

确定上述第一频段中各频带的噪声信号的信号平均值；

上述根据上述至少一个信号平均值确定上述降噪参考值的步骤，包括：

将上述第一频段中各频带的噪声信号的信号平均值确定为上述降噪参考值。

可选的，上述待处理音频信号中的噪声信号为通用噪声信号，参考值确定单元602具体被配置为执行：

基于第四频段中各频带的第一信号特征值确定上述第四频段中各频带的噪声信号的信号平均值，其中，频带的第一信号特征值为上述频带的目标信号与音频信号的比值，上述第四频段为上述第一频段的子频段，且上述第三频段为上述第四频段的子频段；

确定上述第三频段中各频带的噪声信号的信号平均值和上述第四频段中各频带的噪声信号的信号平均值中的最小值为上述降噪参考值。

可选的，第二降噪单元603具体被配置为执行：

分别将上述第二频段中各频带的音频信号与上述降噪参考值的差值，确定为上述第二频段中各频带的目标信号。

可选的，参考值确定单元602具体被配置为执行：

可选的，第二降噪单元603具体被配置为执行：

分别将上述第二频段中各频带的音频信号与上述降噪参考值的乘积，确定为上述第二频段中各频带的目标信号。

可选的，第一降噪单元601具体被配置为执行：

将上述第一频段中各频带的音频信号输入降噪模型，得到第一频段中各频带的第二信号特征值；

基于上述第一频段中各频带的第二信号特征值，分别对上述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号。

可选的，第一降噪单元601具体被配置为执行：

若频带的第二信号特征值为上述频带的目标信号与音频信号的比值，则分别将第一频段中各频带的音频信号与对应的第二信号特征值的乘积，确定为上述第一频段中各频带的目标信号；或

若频带的第二信号特征值为上述频带的噪声信号与音频信号的比值，则基于上述第一频段中各频带的第二信号特征值以及第一频段中各频带的音频信号，通过公式1分别获得第一频段中各频带的目标信号，其中，

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

可选的，第一降噪单元601具体被配置为执行：

将上述待处理音频信号进行降采样以及频谱变换，获得上述第一频段中各频带的音频信号；或

将上述待处理音频信号进行频谱变换，获得上述待处理音频信号的各频带的音频信号，以及根据上述待处理音频信号的各频带的音频信号确定上述第一频段中各频带的音频信号。

可选的，信号融合单元604具体被配置为执行：

将上述第一频段中各频带的目标信号以及上述第二频段中各频带的目标信号进行频谱融合，获得上述待处理音频信号的目标信号；

其中，若上述频谱变换为傅里叶变换，则上述频谱融合为傅里叶逆变换；或

若上述频谱变换为离散余弦变换，则上述频谱融合为离散余弦逆变换。

如图7所示，本公开提供一种电子设备700，包括处理器701、用于存储上述处理器可执行指令的存储器702；

其中，上述处理器701被配置为执行如下过程：

获取待处理音频信号的第一频段中各频带的音频信号，并对上述第一频段中各频带的音频信号进行降噪处理得到第一频段中各频带的目标信号；

基于上述第一频段中各频带的音频信号以及上述第一频段中各频带的目标信号，确定上述待处理音频信号的第二频段的降噪参考值，上述第二频段为上述待处理音频信号中除上述第一频段外的频段；

基于上述降噪参考值对上述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号；

将上述第一频段中各频带的目标信号以及上述第二频段中各频带的目标信号进行融合，获得上述待处理音频信号的目标信号。

可选的，处理器701具体被配置为执行：

根据上述至少一个信号平均值确定上述降噪参考值。

可选的，上述待处理音频信号中的噪声信号为白噪声信号，处理器701具体被配置为执行：

确定上述第一频段中各频带的噪声信号的信号平均值；

可选的，上述待处理音频信号中的噪声信号为通用噪声信号，处理器701具体被配置为执行：

可选的，处理器701具体被配置为执行：

公式1为：speech(i)＝spec(i)-spec(i)×coef(i)；

可选的，处理器701具体被配置为执行：

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由上述电子设备的处理器执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述待处理音频信号的第二频段的降噪参考值的步骤，包括：

根据所述至少一个信号平均值确定所述降噪参考值。

3.如权利要求2所述的方法，其特征在于，所述待处理音频信号中的噪声信号为白噪声信号，所述确定噪声信号的至少一个信号平均值的步骤，包括：

确定所述第一频段中各频带的噪声信号的信号平均值；

4.如权利要求2所述的方法，其特征在于，所述待处理音频信号中的噪声信号为通用噪声信号，所述确定噪声信号的至少一个信号平均值的步骤，包括：

5.如权利要求3或4所述的方法，其特征在于，所述基于所述降噪参考值对所述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号的步骤，包括：

6.如权利要求1所述的方法，其特征在于，所述基于所述第一频段中各频带的音频信号以及所述第一频段中各频带的目标信号，确定所述待处理音频信号的第二频段的降噪参考值的步骤，包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述降噪参考值对所述第二频段中各频带的音频信号进行降噪处理，获得第二频段中各频带的目标信号的步骤，包括：

8.一种音频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1-7中任一项所述的方法。