CN112908352B

CN112908352B - 一种音频去噪方法、装置、电子设备及存储介质

Info

Publication number: CN112908352B
Application number: CN202110227732.4A
Authority: CN
Inventors: 方兵晓; 张帆; 刘梁
Original assignee: Bigo Technology Singapore Pte Ltd
Current assignee: Bigo Technology Singapore Pte Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2024-04-16
Anticipated expiration: 2041-03-01
Also published as: CN112908352A

Abstract

本发明公开了一种音频去噪方法、装置、电子设备及存储介质，所述音频去噪方法，解决了在互联网直播场景中使用现有的音频去噪方法进行去噪引起的音乐直播条件下的音乐失真或者非音乐条件下的噪声残留的问题，所述方法包括：对获取的待处理带噪音频进行分帧处理，获得音频帧；从所述音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：对所述当前音频帧进行特征提取，获得所述当前音频帧的包络谱特征；根据所述当前音频帧的包络谱特征确定所述当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景；根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理。

Description

一种音频去噪方法、装置、电子设备及存储介质

技术领域

本发明涉及音频降噪技术领域，尤其涉及一种音频去噪方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展和智能手机技术的普及，互联网直播已经成为人们娱乐、交友的重要工具。在直播过程中，直播的音频信号很容易受到背景噪声的干扰，从而影响直播的质量。

目前，针对带噪音频的去噪方法，通常估计出背景噪声后进行噪声抑制，从而消除背景噪声，具体过程如下：基于采集的音频估计出对应的背景噪声或者语音增益，进而，基于估计出的背景噪声计算出抑制增益，或者直接利用估计出的语音增益乘以带噪音频得到干净的音频数据。然而，在互联网直播环境中，往往音乐直播和非音乐直播随机并存且可能实时切换，这两种直播方式下对噪声消除的需求不同，音乐直播倾向于保证更高的音乐质量，非音乐直播倾向于得到更干净的语音交流环境，即更换的噪声抑制效果，因此，在互联网直播场景中使用上述统一的音频去噪方法进行去噪会引起音乐直播条件下的音乐失真或者非音乐条件下的噪声残留问题。

发明内容

为了解决在互联网直播场景中使用现有的音频去噪方法进行去噪引起的音乐直播条件下的音乐失真或者非音乐条件下的噪声残留的问题，本发明实施例提供了一种音频去噪方法、装置、电子设备及存储介质。

第一方面，本发明实施例提供了一种音频去噪方法，包括：

对获取的待处理带噪音频进行分帧处理，获得音频帧；

从所述音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：

对所述当前音频帧进行特征提取，获得所述当前音频帧的包络谱特征；

根据所述当前音频帧的包络谱特征确定所述当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景；

根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理。

第二方面，本发明实施例提供了一种音频去噪装置，包括：

预处理单元，用于对获取的待处理带噪音频进行分帧处理，获得音频帧；

特征提取单元，用于从所述音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：对所述当前音频帧进行特征提取，获得所述当前音频帧的包络谱特征；

确定单元，用于根据所述当前音频帧的包络谱特征确定所述当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景；

去噪单元，用于根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明所述的音频去噪方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明所述的音频去噪方法中的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

本发明实施例的有益效果如下：

本发明实施例提供的音频去噪方法及装置，服务器首先对获取的待处理带噪音频进行分帧处理，获得若干音频帧，从分帧后获得的音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：对当前音频帧进行特征提取，获得当前音频帧的包络谱特征，根据该包络谱特征确定当前音频帧所属的音频场景类型，即：音频场景或非音乐场景，根据当前音频帧所属的音频场景类型对应的去噪策略对当前音频帧进行去噪处理，相比于现有技术，本发明实施例中分场景进行去噪，判定带噪音频分帧后得到的每一音频帧所属的音频场景类型，基于音频场景的不同特点，对每一音频帧根据所属的不同的音频场景采用不同的去噪策略进行去噪处理，从而在非音乐场景下可以实现更好的噪声抑制效果，为用户提供更加干净舒适的通话环境，同时，在音乐场景下保证了一定降噪能力的同时尽量保持高质量的音乐信号，进而，在不同的直播环境下为用户提供了更加舒适的直播体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供的音频去噪方法的实施流程示意图；

图2为本发明实施例提供的确定当前音频帧所属的音频场景类型的实施流程示意图；

图3为本发明实施例提供的当确定当前音频帧所属的音频场景类型为非音乐场景时，对当前音频帧进行去噪处理的实施流程示意图；

图4为本发明实施例提供的当确定当前音频帧所属的音频场景类型为音乐场景时，对当前音频帧进行去噪处理的实施流程示意图；

图5为本发明实施例提供的音频去噪装置的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

如图1所示，其为本发明实施例提供的音频去噪方法的实施流程示意图，该音频去噪方法可以应用于处理音频噪声的服务器中，具体可以包括以下步骤：

S11、对获取的待处理带噪音频进行分帧处理，获得音频帧。

具体实施时，待处理带噪音频可以是处理音频噪声的服务器(以下简称为服务器)从直播服务器中获取的直播环境中的带噪音频，服务器获取待处理带噪音频后，对待处理带噪音频进行分帧处理，获得若干音频帧。

具体地，由于音频(即：语音)是一个长时非平稳信号，通过对其分帧可以得到类似平稳信号的特征，同时满足实时性。分帧一般采用交叠分段的方法，是为了使帧与帧之间平滑过渡，保持其连续性，前一帧和后一帧的交叠部分称为帧移，分帧是使用可移动的有限长度窗口进行加权的方式来实现的，一帧的帧长可以取20～50ms，可以使用的窗函数可以但不限于为以下窗函数中的任意一种：矩形窗(Rectangle)、汉宁窗(Hanning)、海明窗(Hamming)以及布莱克曼窗(Blackman)，本发明实施例对此不作限定。

S12、从所述音频帧中依次获取一帧音频帧作为当前音频帧。

具体实施时，服务器从分帧后获得的音频帧中依次获取一帧音频帧作为当前音频帧，对当前音频帧按照如下步骤S13～S15进行处理：

S13、对当前音频帧进行特征提取，获得当前音频帧的包络谱特征。

具体实施时，服务器提取当前音频帧的包络谱特征，本发明实施例中，可以使用现有的任意提取包络谱特征的方法进行包络谱特征的提取，本发明实施例对此不作限定，例如，可以利用心理声学模型对音频帧的频谱特征进行分带计算，计算掩蔽带的音频能量和它们的一阶差分和二阶差分，进而根据一阶差分和二阶差分得到当前音频帧的包络谱特征。

S14、根据当前音频帧的包络谱特征确定当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景。

具体实施时，按照如图2所示的流程确定当前音频帧所属的音频场景类型，可以包括以下步骤：

S201、将当前音频帧的包络谱特征输入训练的音频场景识别模型，获得当前音频帧所属的音频场景类型为音乐场景的概率。

具体实施时，服务器预先训练一个音频场景识别模型，根据该音频场景识别模型对当前音频帧进行音频场景识别，获得当前音频帧所属的音频场景为音乐场景的概率。所述音频场景识别模型具体根据预设带噪音频训练集的带噪音频分帧后的每一音频帧的包络谱特征(即包络谱特征向量)和预设神经网络模型训练获得的。本发明实施例中，预设神经网络模型可以但不限于使用CNN(Convolutional Neural Networks，卷积神经网络)模型或RNN(Recurrent Neural Networks，循环神经网络)模型等模型，本发明实施例对此不作限定。在具体实施过程中，音频识别场景模型的训练过程如下：将带噪音频训练集的带噪音频分帧后的音频帧的包络谱特征作为所述预设神经网络模型的输入，音频帧所属的音频场景类型为音乐场景的概率作为输出进行训练，以对神经网络模型的参数进行优化，得到最终训练的音频场景识别模型。

具体地，服务器将当前音频帧的包络谱特征输入训练的音频场景识别模型，获得当前音频帧所属的音频场景为音乐场景的概率。

S202、根据当前音频帧所属的音频场景类型为音乐场景的概率确定当前音频帧所属的音频场景类型。

具体实施时，服务器当确定当前音频帧所属的音频场景为音乐场景的概率大于或者等于预设阈值时，则确定当前音频帧所属的音频场景为音乐场景，当确定当前音频帧所属的音频场景为音乐场景的概率小于预设阈值时，则确定当前音频帧所属的音频场景为非音乐场景，其中，所述预设阈值可以根据实际情况进行设置，如可以设置为0.6，本发明实施例对此不作限定。

S15、根据当前音频帧所属的音频场景类型对应的去噪策略对当前音频帧进行去噪处理。

具体实施时，当服务器确定当前音频帧所属的音频场景类型为非音乐场景时，按照如图3所示的流程对当前音频帧进行去噪处理，可以包括以下步骤：

S301、确定当前音频帧的初始噪声能量。

具体实施时，服务器可以利用预设噪声估计算法估计当前音频帧的初始噪声能量(即：初始噪声级)噪声能量，并将当前音频帧的初始噪声能量存储至本地，还可以估计当前音频帧的信噪比，记为初始信噪比，本发明实施例对此不作限定。

本发明实施例中，预设噪声估计算法可以但不限于采用以下算法中的任意一种：最小值跟踪或者递归平滑等算法。

较佳地，还可以利用传统贝叶斯理论或者深度学习模型对当前音频帧估计语音存在概率，再在估计出的语音存在概率的基础上估计当前音频帧的噪声能量，可以更准确地估计出当前音频帧的噪声能量，进而得到更好的噪声抑制效果，也可以利用深度学习模型直接估计出当前音频帧的抑制增益，进而，对当前音频帧进行去噪处理，本发明实施例对此不做限定。由于音频帧的信噪比可以根据噪声能量计算获得，即：信噪比＝带噪音频帧能量/噪声能量，带噪音频帧能量可以在音频帧中直接获得，本发明实施例仅以计算当前音频帧的噪声能量为例进行说明。

S302、当确定当前音频帧的上一帧音频帧所属的音频场景类型为音乐场景时，根据存储的上一帧所属的音频场景类型为音乐场景的音频帧的噪声能量、当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得当前音频帧的噪声能量并存储。

具体实施时，服务器根据上一帧音频帧所属的音频场景类型和当前音频帧所属的音频场景类型判断是否发生场景切换，如果当前音频帧所属的音频场景类型和上一帧音频帧所属的音频场景类型不同，则确定发生场景切换。当确定当前音频帧的上一帧音频帧所属的音频场景类型为音乐场景时，根据存储的当前音频帧的上一帧所属的音频场景类型为音乐场景的音频帧的噪声能量、当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得当前音频帧的噪声能量并存储；当确定当前音频帧的上一帧音频帧所属的音频场景类型为非音乐场景时，则根据当前音频帧的上一帧所属的音频场景类型为非音乐场景的音频帧的噪声能量、所述当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储。也就是说，当所述当前音频帧所属的音频场景类型为非音乐场景时，无论是否发生场景切换，即无论当前音频帧的上一帧音频帧所属的音频场景类型为非音乐场景还是音乐场景，均采用以下方式进行噪声能量更新：

根据存储的当前音频帧的上一帧音频帧的噪声能量、当前音频帧的初始噪声能力和第一预设更新概率进行噪声能量更新，获得当前音频帧的噪声能量(即：更新后的噪声能量)，其中，第一预设更新概率的大小影响着最终的去噪强度，可以根据需要自行设定，本发明实施例对此不作限定。

具体地，当确定当前音频帧所属的音频场景类型为非音乐场景时，如果当前音频帧是待处理带噪音频分帧后的第一帧音频帧时，则将当前音频帧的初始噪声能量确定为当前音频帧的噪声能量；如果当前音频帧不是待处理带噪音频分帧后的第一帧音频帧时，则当前音频帧的噪声能量＝(当前音频帧的噪声能量-当前音频帧的上一帧音频帧的噪声能量)×第一预设更新概率+当前音频帧的上一帧音频帧的噪声能量，也就是说，当前音频帧的噪声能量是：计算当前音频帧的噪声能量与上一帧音频帧的噪声能量之差与第一预设更新概率的乘积之后，再与上一帧音频帧的噪声能量取和，也就是说，本发明实施例中，如果当前音频帧所属的音频场景类型为非音乐场景时，无论是否发送场景切换，在计算当前音频帧的噪声能量时，都以上一帧音频帧的噪声能量作为初始噪声参数，即：如果没有发生场景切换时，也就是当前音频帧和上一帧音频帧均属于非音乐场景时，将上一帧非音乐场景的音频帧的噪声参数(噪声能量)作为当前帧非音乐场景的音频帧的初始条件，以更新当前帧非音乐场景的音频帧的噪声能量；然而，如果发生场景切换时，也就是当前音频帧的上一帧音频帧属于音乐场景时，即从音乐场景到非音乐场景切换时，将上一帧音乐场景的音频帧的噪声参数(噪声能量)作为当前非音乐场景下的初始条件，以更新当前非音乐场景的音频帧的噪声能量，也就是说，将音乐场景的音频帧的噪声参数(噪声能量)赋值给当前非音乐场景的音频帧，作为当前非音乐场景下的初始条件，从而实现在非音乐场景下的更快的噪声跟踪，以得到更优的降噪效果。本发明实施例中采用非音乐场景算法始终在后台运行的方式，实现快速的算法切换和处理连续性。

并且，本发明实施例中考虑到在直播场景中快速的音频场景实时切换的问题，由于在从音乐场景到非音乐场景切换时，利用音乐场景的已估计出的先验信息(即噪声能量)作为非音乐场景下的初始化条件，从而实现了去噪处理的连续性，实现从音乐场景到非音乐场景的平滑过渡，同时也加快了噪声估计的收敛速度，降低了计算复杂度，实现了更好的去噪效果。

例如，第1帧音频帧至第50帧音频帧所属的音频场景类型为非音乐场景(即：第1帧～第50帧音频帧为非音乐音频帧)，第51帧音频帧至第100帧音频帧所属的音频场景类型为音乐场景(即：第51帧～第100帧音频帧为音乐音频帧)，第101帧音频帧至第130帧音频帧所属的音乐场景类型为非音乐场景(即第101帧～第130帧音频帧为非音乐音频帧)，则如果当前音频帧是第101帧音频帧时，发生从音乐场景到非音乐场景的切换，在当前音频帧为第101帧音频帧时，则根据第100帧音频帧的噪声能量、第101帧音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得第101帧音频帧的噪声能量，假设第100帧音频帧的噪声能量为200，根据噪声估计算法估计出的第101帧音频帧的初始噪声能量为150，第一预设更新概率取值0.5，则第101帧音频帧的噪声能量＝(150-200)×0.5+200＝175。

S303、根据当前音频帧的噪声能量对当前音频帧进行去噪处理。

具体实施时，可以根据当前音频帧的噪声能量进一步计算出当前音频帧的信噪比，进而，根据当前音频帧的信噪比计算获得抑制增益，抑制增益＝信噪比/(1+信噪比)，再将抑制增益乘以当前音频帧即可得到去噪后的干净的音频帧并存储。

可选地，在计算出当前音频帧的信噪比之后，也可以进一步对当前音频帧进行维纳滤波去噪，获得去噪后的音频帧并存储，也可以采用其它滤波算法，本发明实施例对此不作限定。

当服务器确定当前音频帧所属的音频场景类型为音乐场景时，按照如图4所示的流程对当前音频帧进行去噪处理，可以包括以下步骤：

S401、确定当前音频帧的初始噪声能量。

具体实施时，本步骤的实施参照步骤S301的实施，此处不作赘述。

S402、根据第一预设更新概率和当前音频帧所属的音频场景类型为音乐场景的概率确定第二更新概率。

具体实施时，服务器根据第一预设更新概率和当前音频帧所属的音频场景类型为音乐场景的概率确定第二更新概率，所述第一预设更新概率即为步骤S302中的所属的音频场景类型为非音乐场景的音频帧进行噪声能量更新时所使用的更新概率，当前音频帧所属的音频场景类型为音乐场景的概率即已在步骤S201中计算出。

具体地，服务器可以通过以下公式确定所述第二更新概率：

p₂＝(1-p₀)×p₁

其中，p₂表示所述第二更新概率；

p₀表示所述当前音频帧所属的音频场景类型为音乐场景的概率；

p₁表示所述第一预设更新概率。

S403、根据存储的上一帧音频帧的噪声能量、当前音频帧的初始噪声能量和第二更新概率进行噪声能量更新，获得当前音频帧的噪声能量并存储。

具体实施时，服务器根据上一帧音频帧所属的音频场景类型和当前音频帧所属的音频场景类型判断是否发生场景切换，如果当前音频帧所属的音频场景类型和上一帧音频帧所属的音频场景类型不同，则确定发生场景切换。在当前音频帧所属的音频场景类型为音乐场景时，当确定当前音频帧的上一帧音频帧所属的音频场景类型为非音乐场景，则确定发生从非音乐场景到音乐场景的切换，本发明实施例中，采用如下方式进行噪声能量更新，获得所述当前音频帧的噪声能量：

服务器根据存储的上一帧音频帧的噪声能量、当前音频帧的初始噪声能量和第二更新概率进行噪声能量更新，获得当前音频帧的噪声能量并存储。需要说明的是，此处的上一帧音频帧的噪声能量为利用音乐场景进行的噪声能量估计方式估计出的噪声能量(无论上一帧音频帧的音频场景类型为音乐场景还是非音乐场景)，由于该音乐场景下的噪声能量估计策略在整个去噪过程中一直在后台运行，只是仅仅当音频帧的音频场景类型为音乐场景时，才使用利用音乐场景进行的噪声能量估计方式估计出的噪声能量进行去噪处理，该噪声能量仅仅作为下一帧音乐音频帧的初始条件，这样可以保证音乐场景下的更加优质的降噪效果。

具体地，当确定当前音频帧所属的音频场景类型为音乐场景时，如果当前音频帧是待处理带噪音频分帧后的第一帧音频帧时，则将当前音频帧的初始噪声能量确定为当前音频帧的噪声能量；如果当前音频帧不是待处理带噪音频分帧后的第一帧音频帧时，则当前音频帧的噪声能量＝(当前音频帧的噪声能量-当前音频帧的上一帧音频帧的噪声能量)×第二更新概率+当前音频帧的上一帧音频帧的噪声能量，也就是说，当前音频帧的噪声能量是：计算当前音频帧的噪声能量与上一帧音频帧的噪声能量之差与第二更新概率的乘积之后，再与上一帧音频帧的噪声能量取和。无论是否发生从非音乐场景到音乐场景的切换，即当前音频帧的上一帧音频帧无论属于音乐场景还是非音乐场景，均将上一帧音乐场景的音频帧的噪声参数(噪声能量)，也就是上一帧音频帧利用音乐场景对应的噪声能量估计方式估计出的噪声能量作为当前音乐场景下的初始条件，更新当前音乐场景的音频帧的噪声能量，也就是说，使用上一帧音频帧利用音乐场景对应的噪声能量估计方式估计出的噪声能量作为当前音乐场景下的初始条件，而不将当前音频帧的上一帧音频帧利用非音乐场景对应的噪声能量估计方式估计出的噪声参数(噪声能量)作为当前音乐场景下的初始条件，即不进行非音乐场景下的噪声的复制，这样，可以保证音乐场景去噪的准确率。

仍延续上例，假设第1帧音频帧至第50帧音频帧所属的音频场景类型为非音乐场景(即：第1帧～第50帧音频帧为非音乐音频帧)，第51帧音频帧至第100帧音频帧所属的音频场景类型为音乐场景(即：第51帧～第100帧音频帧为音乐音频帧)，第101帧音频帧至第130帧音频帧所属的音乐场景类型为非音乐场景(即第101帧～第130帧音频帧为非音乐音频帧)，第131帧音频帧至第170帧音频帧所属的音乐场景类型为音乐场景(即第131帧～第170帧音频帧为音乐音频帧)，则如果当前音频帧是第131帧音频帧时，发生从非音乐场景到音乐场景的切换，在当前音频帧为第131帧音频帧时，则根据第130帧音频帧的噪声能量(此处的第130帧音频帧的噪声能量是指利用音乐场景对应的噪声能量估计方式估计出的噪声能量)、第131帧音频帧的初始噪声能量和第二更新概率进行噪声能量更新，获得第131帧音频帧的噪声能量，假设第130帧音频帧的噪声能量为200，根据噪声估计算法估计出的第131帧音频帧的初始噪声能量为150，第一预设更新概率取值0.5，第131帧音频帧所属的音频场景类型为音乐场景的概率为0.7，则第二更新概率＝(1-0.7)×0.5＝0.15，第131帧音频帧的噪声能量＝(150-200)×0.15+200＝192.5。第132帧音频帧也是音乐场景下的音频帧，则根据第131帧音频帧的噪声能量、第132帧音频帧的初始噪声能量和第二更新概率进行噪声能量更新，获得第132帧音频帧的噪声能量，假设第132帧音频帧的初始噪声能量为180，第132帧音频帧所属的音频场景类型为音乐场景的概率为0.8，则第二更新概率＝(1-0.8)×0.5＝0.1，第132帧音频帧的噪声能量＝(180-192.5)×0.1+180＝178.75。

S404、根据当前音频帧的噪声能量对当前音频帧进行去噪处理。

具体实施时，本步骤的实施具体参照步骤S303的实施，此处不作赘述。

由上述可知，本发明实施例中，音乐场景下当前音频帧的噪声能量的更新概率是由非音乐场景下的音频帧的噪声能量的更新概率和音乐场景下当前音频帧所属的音频场景类型为音乐场景的概率共同确定的，将进行音乐场景类型判定时音频帧所属的音频场景类型为音乐场景的概率引入到最终的噪声更新中，从而在音频帧所属的音频场景类型为非音乐场景的概率更高的场景(即非音乐场景)实现更激进的噪声估计和抑制增益的计算策略，从而在兼顾音乐损伤的情况下，得到更安静舒适的语音交流环境，在音频帧所属的音频场景类型为音乐场景的概率更高的场景(即音乐场景)实现更加柔和的噪声估计和抑制增益的计算策略，利用语音和音乐的存在概率代替传统去噪方式中的语音存在概率，从而，使得用户可以更少地感知到噪声信息的同时，保留了更完整的音乐信息。

进一步地，为了防止出现尽管在各个音频场景实现了较佳的音乐保留或噪声处理，但是在出现不同的音频场景频繁反复切换时，导致用户的听觉体验较差的问题，当发送音频场景切换时，可以采用平滑(Smooth)的方式缓慢平滑的从当前音频场景切入到另一个音频场景中，从而避免出现听觉差异度。

本发明实施例提供的音频去噪方法，服务器首先对获取的待处理带噪音频进行分帧处理，获得若干音频帧，从分帧后获得的音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：对当前音频帧进行特征提取，获得当前音频帧的包络谱特征，根据该包络谱特征确定当前音频帧所属的音频场景类型，即：音频场景或非音乐场景，根据当前音频帧所属的音频场景类型对应的去噪策略对当前音频帧进行去噪处理，相比于现有技术，本发明实施例中分场景进行去噪，判定带噪音频分帧后得到的每一音频帧所属的音频场景类型，基于音频场景的不同特点，对每一音频帧根据所属的不同的音频场景采用不同的去噪策略进行去噪处理，从而在非音乐场景下可以实现更好的噪声抑制效果，为用户提供更加干净舒适的通话环境，同时，在音乐场景下保证了一定降噪能力的同时尽量保持高质量的音乐信号，进而，在不同的直播环境下为用户提供了更加舒适的直播体验。

基于同一发明构思，本发明实施例还提供了一种音频去噪装置，由于上述音频去噪装置解决问题的原理与音频去噪方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图5所示，其为本发明实施例提供的音频去噪装置的结构示意图，可以包括：

预处理单元21，用于对获取的待处理带噪音频进行分帧处理，获得音频帧；

特征提取单元22，用于从所述音频帧中依次获取一帧音频帧作为当前音频帧进行如下处理：对所述当前音频帧进行特征提取，获得所述当前音频帧的包络谱特征；

确定单元23，用于根据所述当前音频帧的包络谱特征确定所述当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景；

去噪单元24，用于根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理。

较佳地，所述确定单元23，具体用于将所述当前音频帧的包络谱特征输入训练的音频场景识别模型，获得所述当前音频帧所属的音频场景类型为音乐场景的概率；根据所述当前音频帧所属的音频场景类型为音乐场景的概率确定所述当前音频帧所属的音频场景类型。

较佳地，所述去噪单元24，具体用于当确定所述当前音频帧所属的音频场景类型为非音乐场景时，确定所述当前音频帧的初始噪声能量；当确定所述当前音频帧的上一帧音频帧所属的音频场景类型为音乐场景时，根据存储的所述上一帧所属的音频场景类型为音乐场景的音频帧的噪声能量、所述当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储；根据所述当前音频帧的噪声能量对所述当前音频帧进行去噪处理。

较佳地，所述去噪单元24，具体用于当确定所述当前音频帧所属的音频场景类型为音乐场景时，确定所述当前音频帧的初始噪声能量；根据所述第一预设更新概率和所述当前音频帧所属的音频场景类型为音乐场景的概率确定第二更新概率；根据存储的上一帧音频帧的噪声能量、所述当前音频帧的初始噪声能量和所述第二更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储；根据所述当前音频帧的噪声能量对所述当前音频帧进行去噪处理。

较佳地，所述去噪单元24，具体用于通过以下公式确定所述第二更新概率：

p₂＝(1-p₀)×p₁

其中，p₂表示所述第二更新概率；

p₁表示所述第一预设更新概率。

基于同一技术构思，本发明实施例还提供了一种电子设备30，参照图6所示，电子设备30用于实施上述方法实施例记载的音频去噪方法，该实施例的电子设备30可以包括：存储器31、处理器32以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如音频去噪程序。所述处理器执行所述计算机程序时实现上述各个音频去噪方法实施例中的步骤，例如图1所示的步骤S11。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如21。

本发明实施例中不限定上述存储器31、处理器32之间的具体连接介质。本申请实施例在图6中以存储器31、处理器32之间通过总线33连接，总线33在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线33可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器31可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器31也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器31是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器31可以是上述存储器的组合。

处理器32，用于实现如图1所示的一种音频去噪方法，包括：

所述处理器32，用于调用所述存储器31中存储的计算机程序执行如图2中所示的步骤S11、对获取的待处理带噪音频进行分帧处理，获得音频帧，步骤S12、从所述音频帧中依次获取一帧音频帧作为当前音频帧，步骤S13、对当前音频帧进行特征提取，获得当前音频帧的包络谱特征，步骤S14、根据当前音频帧的包络谱特征确定当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景，和步骤S15、根据当前音频帧所属的音频场景类型对应的去噪策略对当前音频帧进行去噪处理。

本申请实施例还提供了一种计算机可读存储介质，存储为执行上述处理器所需执行的计算机可执行指令，其包含用于执行上述处理器所需执行的程序。

在一些可能的实施方式中，本发明提供的音频去噪方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的音频去噪方法中的步骤，例如，所述电子设备可以执行如图1中所示的步骤S11、对获取的待处理带噪音频进行分帧处理，获得音频帧，步骤S12、从所述音频帧中依次获取一帧音频帧作为当前音频帧，步骤S13、对当前音频帧进行特征提取，获得当前音频帧的包络谱特征，步骤S14、根据当前音频帧的包络谱特征确定当前音频帧所属的音频场景类型，所述音频场景类型包括音乐场景或非音乐场景，和步骤S15、根据当前音频帧所属的音频场景类型对应的去噪策略对当前音频帧进行去噪处理。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频去噪方法，其特征在于，包括：

对获取的待处理带噪音频进行分帧处理，获得音频帧；

根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理；

当确定所述当前音频帧所属的音频场景类型为非音乐场景时，根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理，具体包括：确定所述当前音频帧的初始噪声能量；当确定所述当前音频帧的上一帧音频帧所属的音频场景类型为音乐场景时，根据存储的所述上一帧所属的音频场景类型为音乐场景的音频帧的噪声能量、所述当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储；根据所述当前音频帧的噪声能量对所述当前音频帧进行去噪处理。

2.如权利要求1所述的方法，其特征在于，根据所述当前音频帧的包络谱特征确定所述当前音频帧所属的音频场景类型，具体包括：

将所述当前音频帧的包络谱特征输入训练的音频场景识别模型，获得所述当前音频帧所属的音频场景类型为音乐场景的概率；

根据所述当前音频帧所属的音频场景类型为音乐场景的概率确定所述当前音频帧所属的音频场景类型。

3.如权利要求1所述的方法，其特征在于，当确定所述当前音频帧所属的音频场景类型为音乐场景时，根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理，具体包括：

确定所述当前音频帧的初始噪声能量；

根据所述第一预设更新概率和所述当前音频帧所属的音频场景类型为音乐场景的概率确定第二更新概率；

根据存储的上一帧音频帧的噪声能量、所述当前音频帧的初始噪声能量和所述第二更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储；

根据所述当前音频帧的噪声能量对所述当前音频帧进行去噪处理。

4.如权利要求3所述的方法，其特征在于，根据所述第一预设更新概率和所述当前音频帧所属的音频场景类型为音乐场景的概率确定第二更新概率，具体包括：

通过以下公式确定所述第二更新概率：

p₂＝(1-p₀)×p₁

其中，p₂表示所述第二更新概率；

p₁表示所述第一预设更新概率。

5.一种音频去噪装置，其特征在于，包括：

去噪单元，用于根据所述当前音频帧所属的音频场景类型对应的去噪策略对所述当前音频帧进行去噪处理；

所述去噪单元，具体用于当确定所述当前音频帧所属的音频场景类型为非音乐场景时，确定所述当前音频帧的初始噪声能量；当确定所述当前音频帧的上一帧音频帧所属的音频场景类型为音乐场景时，根据存储的所述上一帧所属的音频场景类型为音乐场景的音频帧的噪声能量、所述当前音频帧的初始噪声能量和第一预设更新概率进行噪声能量更新，获得所述当前音频帧的噪声能量并存储；根据所述当前音频帧的噪声能量对所述当前音频帧进行去噪处理。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～4任一项所述的音频去噪方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～4任一项所述的音频去噪方法中的步骤。