CN114373472A

CN114373472A - 一种音频降噪方法、设备、系统及存储介质

Info

Publication number: CN114373472A
Application number: CN202011097916.5A
Authority: CN
Inventors: 杜秉聰; 熊飞飞; 谭国庆; 冯津伟
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-19

Abstract

本申请实施例提供一种音频降噪方法、设备、系统及存储介质。方法包括：对音频中的目标音频帧进行噪声检测；若确定目标音频帧中包含符合预设要求的噪声，则获取目标音频帧对应的降噪参数；按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧；基于降噪后音频帧，输出降噪后的音频。据此，在本申请实施例中，在对音频帧进行降噪之前，增加了噪声检测环节，在确定音频帧中包含符合预设要求的噪声的情况下，才会启动对音频帧的降噪处理，否则将不对音频帧进行降噪。据此，本实施例中，可依据声音场景中的实际需要，以音频帧为单位，自适应地启动或关闭降噪操作，这可有效避免对干净音频帧的损伤，从而提高音频降噪的质量。

Description

一种音频降噪方法、设备、系统及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频降噪方法、设备、系统及存储介质。

背景技术

语音降噪技术是指在对语音信号中的噪声进行消除，以还原出干净语音的技术。

目前，通常采用机器学习模型进行语音降噪，机器学习模型需要基于学习到的降噪知识，对语音信号中的每一帧进行降噪，这经常导致在某些语音帧上出行降噪过度的问题，造成语音失真，语音降噪效果并不理想。

发明内容

本申请的多个方面提供一种音频降噪方法、设备及存储介质，用以提高音频降噪质量。

本申请实施例提供一种音频降噪方法，包括：

对音频中的目标音频帧进行噪声检测；

若确定所述目标音频帧中包含符合预设要求的噪声，则获取所述目标音频帧对应的降噪参数；

按照所述降噪参数，对所述目标音频帧进行降噪，以获得降噪后音频帧；

基于所述降噪后音频帧，输出降噪后的所述音频。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

对音频中的目标音频帧进行噪声检测；

基于所述降噪后音频帧，输出降噪后的所述音频。

本申请实施例还提供一种音视频设备，包括：音频获取组件、噪声检测组件和降噪组件；

所述音频获取组件，用于获取待处理的音频；

所述噪声检测组件，用于对所述音频中的目标音频帧进行噪声检测；若确定所述目标音频帧中包含符合预设要求的噪声，则获取所述目标音频帧对应的降噪参数；

所述降噪组件，用于按照所述降噪参数，对所述目标音频帧进行降噪，以获得降噪后音频帧；基于所述降噪后音频帧，输出降噪后的所述音频。

本申请实施例还提供一种音频降噪系统，包括第一通信端和第二通信端，所述第一通信端和所述第二通信端通信连接；

所述第一通信端用于将采集到的音频提供给所述第二通信端；

所述第二通信端用于对所述音频中的目标音频帧进行噪声检测；若确定所述目标音频帧中包含符合预设要求的噪声，则获取所述目标音频帧对应的降噪参数；按照所述降噪参数，对所述目标音频帧进行降噪，以获得降噪后音频帧；基于所述降噪后音频帧，输出降噪后的所述音频。

本申请实施例还提供一种音频降噪系统，包括：第一通信端和第二通信端，所述第一通信端和所述第二通信端通信连接；

所述第一通信端用于对当前采集到的音频帧进行噪声检测；若确定所述音频帧中包含符合预设要求的噪声，则获取所述音频帧对应的降噪参数；按照所述降噪参数，对所述音频帧进行降噪，以获得降噪后音频帧；将所述降噪后的音频帧提供给所述的第二通信端；

所述第二通信端，用于按照所述降噪后的音频帧进行音频输出。本申请实施例还提供一种音频降噪方法，包括：

获取对端提供的音频；

对所述音频中的目标音频帧进行噪声检测；

基于所述降噪后音频帧，输出降噪后的所述音频。

本申请实施例还提供一种音频降噪方法，包括：

对当前采集到的音频帧进行噪声检测；

若确定所述音频帧中包含符合预设要求的噪声，则获取所述音频帧对应的降噪参数；

按照所述降噪参数，对所述音频帧进行降噪，以获得降噪后音频帧；

将所述降噪后的音频帧提供给对端，以供对端按照所述降噪后音频帧进行音频输出。

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的音频降噪方法。

在本申请实施例中，在对音频帧进行降噪之前，增加了噪声检测环节，在确定音频帧中包含符合预设要求的噪声的情况下，才会启动对音频帧的降噪处理，否则将不对音频帧进行降噪。据此，本实施例中，可依据声音场景中的实际需要，以音频帧为单位，自适应地启动或关闭降噪操作，这可有效避免对干净音频帧的损伤，从而提高音频降噪的质量。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1a为本申请一示例性实施例提供的一种音频降噪方法的流程示意图；

图1b为本申请一示例性实施例提供的一种音频降噪方法的应用场景示意图；

图2为本申请一示例性实施例提供的一种音频降噪方案的逻辑示意图；

图3为本申请一示例性实施例提供的一种对音频帧进行噪声检测的方案的逻辑示意图；

图4为本申请一示例性实施例提供的一种对帧片段进行噪声检测的方案的逻辑示意图；

图5为本申请一示例性实施例提供的一种计算设备的结构示意图；

图6为本申请一示例性实施例提供的一种音视频设备的结构示意图；

图7为本申请一示例性实施例提供的一种音频降噪系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有音频降噪方案存在的音频降噪质量不佳的技术问题，本申请实施例的一些实施例中：在对音频帧进行降噪之前，增加了噪声检测环节，在确定音频帧中包含符合预设要求的噪声的情况下，才会启动对音频帧的降噪处理，否则将不对音频帧进行降噪。据此，本实施例中，可依据声音场景中的实际需要，以音频帧为单位，自适应地启动或关闭降噪操作，这可有效避免对干净音频帧的损伤，从而提高音频降噪的质量。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1a为本申请一示例性实施例提供的一种音频降噪方法的流程示意图，图1b为本申请一示例性实施例提供的一种音频降噪方案的应用场景示意图。本实施例提供的音频降噪方法可以由一音频降噪装置来执行，该音频降噪装置可以实现为软件或实现为软件和硬件的组合，该音频降噪装置可集成设置在计算设备中。如图1a所示，该方法包括：

步骤100、对音频中的目标音频帧进行噪声检测；

步骤101、若确定目标音频帧中包含符合预设要求的噪声，则获取目标音频帧对应的降噪参数；

步骤102、按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧；

步骤103、基于降噪后音频帧，输出降噪后的音频。

本实施例提供的音频降噪方法可应用于各种需要进行音频降噪的场景中，例如，音视频会议场景、语音通话场景、语音控制场景等等，本实施例对应用场景不做限定。参考图1b，本实施例提供的音频降噪方法可在不同应用场景中，对不同音频进行降噪，例如，在音视频会议场景中，可对对端会议终端发送过来的音频进行降噪，又例如，在语音控制场景中，则可对用户发出的指令语音进行采集并降噪。

本实施例中，可以音频帧为单位进行降噪处理。不同应用场景中，音频帧的长度可能不完全相同，例如，音频帧的长度可以是20ms等。本实施例对音频帧的长度此不做限定。其中，应用场景中需要进行降噪处理的音频帧通常是连续的，连续的音频帧可形成音频流。为了方便描述，本文中将从单个音频帧的维度进行方案描述。但应当理解的是，本实施例中，可在处理完目标音频帧后继续进行下一音频帧的处理，从而实现对音频流进行处理。

参考图1a和1b，在步骤100中，可对音频中的目标音频帧进行噪声检测。其中，噪声检测主要是检测目标音频帧中是否包含指定类型的噪声，例如，transient signal瞬态噪声。实际应用中，瞬态噪声包括但不限于键盘声、鼠标声等。

另外，值得说明的是，本实施例提供的音频降噪方法可对音频进行在线或离线降噪。例如，在语音通话场景中，可对实时产生的语音信号进行在线降噪，这种情况下，步骤100中的目标音频帧可以是当前音频帧。又例如，在会议内容重播等场景中，可对历史音频进行离线降噪，这种情况下，步骤100中的目标音频帧可以是历史音频中的任意一帧。

本实施例中，通过对目标音频帧进行噪声检测，可确定出目标音频帧中是否包含符合预设要求的噪声。此处的预设要求可以是存在噪声或者所存在的噪声的影响指数高于预设指数阈值。影响指数包括但不限于噪声占比、噪声能量和噪声频率中的一种或多种。本实施例中，若目标音频帧中包含符合预设要求的噪声，则认为目标音频帧为需要降噪的音频帧。其中，噪声检测的过程将在后续实施例中进行详述。

图2为本申请一示例性实施例提供的一种音频降噪方案的逻辑示意图。

参考图1a和图2，在步骤101中，若确定目标音频帧中包含符合预设要求的噪声，则可获取目标音频帧对应的降噪参数。本实施例中，可采用多种实现方式获取目标音频帧对应的降噪参数。在一种可选的实现方案中：

可提取目标音频帧的音频特征；

将提取到的音频特征输入降噪模型；

在降噪模型中，基于音频特征与降噪参数的映射关系，确定目标音频帧对应的降噪参数。

其中，降噪模型可采用深度神经网络模型，降噪模型采用的网络类型包括但不限于feedforward neural network(FNN，前馈神经网络)，convolutional neural network(CNN，卷积神经网络)，recurrent neural network(RNN，循环神经网络)，或者一些改进版本的网络类型等。本实施例对降噪模型采用的网络类型不做限定。

其中，音频特征包括但不限于梅尔谱log-mel-spectrogram(又称filterbank)特征或者基于opus codec的频谱格式来得到特征等，本实施例对音频特征的类型不做限定。

另外，降噪参数包括但不限于mask ratio掩蔽比值或滤波系数等，且在不同的应用场景中，可按需确定所使用的降噪参数。

参考图2，为了计算掩蔽比值，可将目标音频帧转换为频域信号，并基于频域信号提取目标音频帧的音频特征，作为降噪模型的输入。而降噪模型则可基于音频特征与降噪参数的映射关系，确定目标音频帧对应的掩蔽比值，并将掩蔽比值作为模型输出。其中，可通过足量的样本数据，训练降噪模型，以供降噪模型学习音频特征与降噪参数的映射关系，具体的训练过程不再赘述。

当然，本实施例中，还可采用其它实现方式获取目标音频帧的降噪参数，本实施例并不限于此。

值得说明的是，考虑到计算降噪参数的过程中，通常需要参考历史音频帧的信息，这些信息包括但不限于历史音频帧对应频域信号中的幅度信息、历史音频帧对应的降噪参数等。参考图2，本实施例中，可默认对应用场景中的各音频帧执行频域转换，并计算各音频帧对应的降噪参数。而对于计算出的降噪参数，可在后续降噪过程中按需调用。

参考图1a和1b，在步骤102中，可按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧。

以降噪参数采用掩蔽比值为例，本实施例中，承接上文，在已经对目标音频帧进行频域转换为获得目标音频帧对应的频域信号的基础上，可按照掩蔽比值对目标音频帧对应的频域信号进行掩蔽处理，以获得降噪后音频帧。其中，掩蔽处理可采用ideal ratio mask(IRM，理想比掩蔽)或phase-sensitivity mask(PSM，移相掩膜)等方式，在此不做限定。之后，可基于掩蔽后的频域信号，生成降噪后的时域信号，从而实现对目标音频帧的降噪。实际应用中，可基于掩蔽后的频域信号中的幅度信息和目标音频帧的原始相位，经过逆傅里叶变换，以生成降噪后的时域信号，即为降噪后音频帧。

在步骤103中，可基于降噪后音频帧，输出降噪后的音频。

参考图2，本实施例中，若确定目标音频帧中未包含符合预设要求的噪声，则不再对目标音频帧进行降噪处理，而输出目标音频帧。

在目标音频帧中未包含符合预设要求的噪声的情况下，将不再调用前文中为目标音频帧计算出的噪声参数，也不再对目标音频帧进行降噪处理；承接上文，在已经对目标音频帧进行频域转换为获得目标音频帧对应的频域信号的基础上，可直接将频域信号转换回时域信号，从而输出目标音频帧。

综上，可将应用场景中各音频帧分别转换为频域信号，并未各音频帧分别计算降噪参数；在后续降噪过程中，可根据各音频帧中是否包含符合预设要求的噪声，来确定是否调用计算出的降噪参数并执行降噪操作；而对于执行降噪操作后的音频帧，可将降噪后的频域信号转换为时域信号，在对于未执行降噪操作的音频帧，则可将原始的频域信号转换回时域信号。从而可自适应地开启或关闭降噪操作，对各音频帧进行选择性降噪。当然，本实施例中，对于未包含符合预设要求的噪声的音频帧也可仅在计算降噪参数的过程中进行频域转换，而在输出结果时，可直接将这类音频帧(时域信号)组合到包含符合预设要求的噪声的音频帧对应的降噪后的时域信号上，以产生输出结果。

据此，本实施例中，在对音频帧进行降噪之前，增加了噪声检测环节，在确定音频帧中包含符合预设要求的噪声的情况下，才会启动对音频帧的降噪处理，否则将不对音频帧进行降噪。据此，本实施例中，可依据声音场景中的实际需要，以音频帧为单位，自适应地启动或关闭降噪操作，这可有效避免对干净音频帧的损伤，从而提高音频降噪的质量。

图3为本申请一示例性实施例提供的一种对音频帧进行噪声检测的方案的逻辑示意图。参考图3，在上述或下述实施例中，可将目标音频帧拆分为N个帧片段；分别对N个帧片段进行噪声检测，N为正整数。若目标音频帧中包含符合预设要求的噪声的帧片段满足第一预设条件，则确定目标音频帧包含符合预设要求的噪声。

例如，若目标音频帧的长度为20ms，则N可设定为10，这样，可将目标音频帧划分为10个2ms的帧片段，并以帧片段为单位进行噪声检测，以确定各帧片段中是否包含符合预设要求的噪声。

其中，参考图3，第一预设条件可以是包含噪声的帧片段的数量大于第一数量阈值。本实施例对第一数量阈值的取值不做限定，第一数量阈值可根据实际需要进行设定。这样，若目标音频帧中包含符合预设要求的噪声的帧片段的数量足够多，则可确定目标音频帧中包含符合预设要求的噪声。

参考图3，考虑到噪声通常会持续存在一段时间，本实施例中，还可维护一噪声标识字段counter，并以噪声标识字段counter中的取值来表征预估的噪声持续时间。

本实施例中，若目标音频帧中包含符合预设要求的噪声的帧片段满足第一预设条件，则将噪声标识字段counter配置为T，作为噪声标识字段counter在目标音频帧下的取值，其中，T为预估的噪声持续时间；而若目标音频帧中包含符合预设要求的噪声的帧片段的数量不满足第一预设条件，则将噪声标识字段counter的原始值减1，作为噪声标识字段counter在目标音频帧下的取值。其中，原始值可以是噪声标识字段在目标音频帧的上一音频帧下的取值。这样，噪声标识字段可在音频中按帧进行传承，从而可更加合理地进行噪声检测。

在此基础上，本实施例中，可参考噪声标识字段counter在目标音频帧下的取值，来确定目标音频帧是否包含符合预设要求的噪声。若counter>第一阈值，则可确定目标音频帧包含符合预设要求的噪声，若counter小于或等于第二阈值，可确定目标音频帧未包含符合预设要求的噪声，其中，第二阈值小于或等于第一阈值。例如，第一阈值和第二阈值可取0。又例如，第一阈值可取1，第二阈值可取0。本实施例中，可根据需要确定第一阈值和第二阈值的取值，本实施例并不限于此。

实际应用中，T通常为预估的噪声可持续的音频帧的数量。例如，若目标音频帧中包含符合预设要求的噪声的帧片段满足第一预设条件，则可将T配置为10，这表征后续10个音频帧中都可能包含符合预设要求的噪声，而通过对T的判断，T>第一阈值，则可标记目标音频帧中包含符合预设要求的噪声。又例如，目标音频帧中包含符合预设要求的噪声的帧片段的数量不满足第一预设条件，则可对T的原始值减1，若T的原始值为1(比如目标音频帧的在前的9个音频帧包含符合预设要求的噪声的帧片段的数量均不满足第一预设条件，T从10逐步被减为1)，则目标音频帧下的T变为0，此时，T＝0(满足T小羽或等于第二阈值)，则可标记目标音频帧中未包含符合预设要求的噪声。

据此，本实施例中，可通过判断目标音频帧包含噪声的帧片段的数量是否满足第一预设条件，以及噪声标识字段在目标音频帧下的取值是否大于第一阈值，来确定目标音频帧中是否包含符合预设要求的噪声。这可有效提高噪声检测的准确性。

本实施例中，可采用多种实现方式对目标音频帧包含的N个帧片段进行噪声检测。图4为本申请一示例性实施例提供的一种对帧片段进行噪声检测的方案的逻辑示意图。参考图4，本实施例中，可对目标音频帧包含的N个帧片段进行遍历，以分别确定N个帧片段是否包含噪声。

以下一目标帧片段为例进行帧片段级别的噪声检测方案的说明，应当理解的是，目标帧片段可以是目标音频帧包含的至少一个帧片段中的任意一个。

本实施例中，可在目标帧片段中确定符合能量要求的观测帧点。其中，符合能量要求可以是能量变化幅度达到预设要求。

在一种可选方案中，可确定目标帧片段对应的频域数据；基于频域数据，分别计算目标帧片段包含的各帧点上的能量值；从各帧点中选择能量值满足第三预设条件的帧点，作为观测帧点。

其中，目标帧片段对应的频域数据可从前文中目标音频帧对应的频域信号中截取。目标帧片段对应的频域数据中包含多个频点，在该可选方案中，可从多个频点中选出观测频点。

实际应用中，第三预设条件可根据实际需要进行设定，例如，第三预设条件可设定为当前帧点的能量值大于其在前的两个帧点的能量值，且当前帧点与其在前的两个帧点之间的能量差均大于预设能量差阈值。基于此，可遍历目标帧片段包含的多个频点，若当前遍历的频点超过其在前的两个帧点的能量差均大于预设能量差阈值，则可将当前遍历的频点标记为观测频点。当然，第三预设条件还可设定为其它内容，例如，第三预设条件可设定为当前帧点的能量值大于其在前的1个帧点的能量值，且当前帧点与其在前的两个帧点之间的能量差均大于预设能量差阈值等等，在此，对第三预设条件的具体设定内容不做限定。

在此基础上，可计算目标帧片段中观测帧点的数量。若目标帧片段中观测帧点的数量满足第二预设条件，则确定目标帧片段为包含噪声的帧片段。

其中，第二预设条件可根据实际需要进行设定。例如，第二预设条件可以是观测帧点的数量大于第二数量阈值。第二数量阈值可按需进行灵活设定，例如可设定为5、10等，在此不做限定。

据此，可检测出目标音频帧中包含符合预设要求的噪声的帧片段。

当然，本实施例中，还可采用其它实现方式对目标音频帧包含的N个帧片段进行噪声检测，本实施例并不限于此。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤100至步骤102的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤100的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图5为本申请又一示例性实施例提供的一种计算设备的结构示意图。如图5所示，该计算设备包括：存储器50和处理器51。

存储器50，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器50可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器51，与存储器50耦合，用于执行存储器中的计算机程序，以用于：

对目标音频帧进行噪声检测；

若确定目标音频帧中包含符合预设要求的噪声，则获取目标音频帧对应的降噪参数；

按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧；

基于降噪后音频帧，输出降噪后的音频。

本实施例提供的计算设备可应用于各种音频降噪场景中，在不同的应用场景中，计算设备的产品形式可能不完全相同，例如，计算设备的产品形式可以是机器人、音视频会议设备、智能音箱、智能电视、遥控器等等，本实施例对计算设备的产品形式不做限定。

在一可选实施例中，处理器51还用于：

若确定目标音频帧中未包含符合预设要求的噪声，则输出目标音频帧。

在一可选实施例中，处理器51在对目标音频帧进行噪声检测时，用于：

将目标音频帧拆分为至少一个帧片段；

分别对至少一个帧片段进行噪声检测；

若包含噪声的帧片段满足第一预设条件，则确定目标音频帧包含符合预设要求的噪声。

在一可选实施例中，第一预设条件包括：

包含噪声的帧片段的数量大于第一数量阈值。

在一可选实施例中，若包含噪声的帧片段满足第一预设条件，则处理器51在确定目标音频帧包含符合预设要求的噪声时，用于：

若包含噪声的帧片段满足第一预设条件，则将噪声标识字段配置为T，作为噪声标识字段在目标音频帧下的取值，其中，T为预估的噪声持续时间；

若噪声标识字段在目标音频帧下的取值大于0，则确定目标音频帧包含符合预设要求的噪声。

在一可选实施例中，处理器51还用于：

若目标音频帧中包含符合预设要求的噪声的帧片段的数量不满足第一预设条件，则将噪声标识字段的原始值减1，作为噪声标识字段在目标音频帧下的取值；

若噪声标识字段在目标音频帧下的取值小于或等于0，则确定目标音频帧未包含符合预设要求的噪声。

在一可选实施例中，处理器51在分别对至少一个帧片段进行噪声检测时，用于：

在目标帧片段中确定符合能量要求的观测帧点；

计算目标帧片段中观测帧点的数量；

若观测帧点的数量满足第二预设条件，则确定目标帧片段为包含噪声的帧片段；

其中，目标帧片段为目标音频帧包含的至少一个帧片段中的任意一个。

在一可选实施例中，第二预设条件包括：

观测帧点的数量大于第二数量阈值。

在一可选实施例中，处理器51在目标帧片段中确定符合能量要求的观测帧点时，用于：

确定目标帧片段对应的频域数据；

基于频域数据，分别计算目标帧片段包含的各帧点上的能量值；

从各帧点中选择能量值满足第三预设条件的帧点，作为观测帧点。

在一可选实施例中，第三预设条件包括：

当前帧点的能量值大于其在前的两个帧点的能量值，且当前帧点与其在前的两个帧点之间的能量差均大于预设能量差阈值。

在一可选实施例中，处理器51在获取目标音频帧对应的降噪参数时，用于：

提取目标音频帧的音频特征；

将提取到的音频特征输入降噪模型；

在一可选实施例中，降噪参数为掩蔽比值。

在一可选实施例中，处理器51在按照降噪参数，对目标音频帧进行降噪时，用于：

将目标音频帧转换为频域信号；

按照掩蔽比值对频域信号进行掩蔽；

基于掩蔽后的频域信号，生成降噪后的时域信号，以对目标音频帧进行降噪。

值得说明的是，上述关于计算设备各实施例中的技术细节，可参考前述音频降噪方法各实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成对本申请保护范围的损失。

进一步，如图5所示，该计算设备还包括：通信组件52、电源组件53、音频组件54等其它组件。图5中仅示意性给出部分组件，并不意味着计算设备只包括图5所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

上述图5中的通信组件，被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述图5中的音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

图6为本申请一示例性实施例提供的一种音视频设备的结构示意图。参考图6，该音视频设备可包括音频获取组件60、噪声检测组件61和降噪组件62；

音频获取组件60，用于获取待处理的音频；

噪声检测组件61，用于对音频中的目标音频帧进行噪声检测；若确定目标音频帧中包含符合预设要求的噪声，则获取目标音频帧对应的降噪参数；

降噪组件62，用于按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧；基于降噪后音频帧，输出降噪后的音频。

本实施例提供的音视频设备可作为不同应用场景中的场景设备。例如，在音视频会议场景中，本实施例中的音视频设备可作为会议终端。再例如，在语音通过场景中，本实施例中的音视频设备可作为通话终端。又例如，在语音控制场景中，本实施例提供的音视频设备可作为智能服务终端等。

在产品实现形式上，本实施例中的音视频设备可在不同场景中实现为不完全相同的产品。例如，本实施例中的音视频设备可实现为智能音箱、手机、电脑、座机等等，本实施例对音视频设备的产品实现形式不做限定。

其中，对于音频获取组件60来说，在不同的应用场景中，处理方式可能存在细微差别。例如，在音视频会议或语音通话等多端交互类场景下，音频获取组件60可从对端接收待处理的音频，比如，对端采集到的音频。再例如，在语音控制等非多端交互场景下，音频获取组件60可采集待处理的音频，比如，采集用户呼出的指令语音等。

对于噪声检测组件61和降噪组件62涉及到的技术细节可参考前述音频降噪方法实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成对本申请保护范围的损失。

图7为本申请一示例性实施例提供的一种音频降噪系统的结构示意图。参考图7，该系统包括第一通信端70和第二通信端71，第一通信端70和第二通信端71通信连接。

第一通信端70用于将采集到的音频提供给第二通信端；

第二通信端71用于对音频中的目标音频帧进行噪声检测；若确定目标音频帧中包含符合预设要求的噪声，则获取目标音频帧对应的降噪参数；按照降噪参数，对目标音频帧进行降噪，以获得降噪后音频帧；基于降噪后音频帧，输出降噪后的音频。

值得说明的是，本实施例提供的音频降噪系统中，可包含至少两个通信端，本实施例进行两个通信端的角度进行了方案阐述，但应当理解的是，音频降噪系统中还可包括更多通信端，多个通信端中两两通信端之间可采用上述交互过程。

关于第一通信端70和第二通信端71的在不同应用场景中可扮演的场景设备类型，以及产品实现形式等可参考前述的音视频设备实施例，在此不再赘述。

本实施例中，第一通信端70可将采集到的音频提供给第二通信端71，而由第二通信端71对音频进行选择性降噪后，输出降噪后的音频。例如，在语音通话场景下，当前讲话的通信方所使用的通信设备可将采集到的语音发送给另一通话方，并由另一通信方所使用的通信设备进行选择性降噪后，将降噪后的语音输出给该另一通信方。这可保证另一通信方听到的语音是降噪后的语音。

相应地，本申请一示例性实施例中还可提供另一种音频降噪方法，适用于上述的第二通信端71，该方法包括：

获取对端提供的音频；

对音频中的目标音频帧进行噪声检测；

基于降噪后音频帧，输出降噪后的音频。

其中，对端可以是指上述的第一通信端70。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由第二通信端执行的各步骤。

基于图7所示的音频降噪系统，本申请还可提供另一种音频降噪方案，在该方案中：

第一通信端70用于对当前采集到的音频帧进行噪声检测；若确定音频帧中包含符合预设要求的噪声，则获取音频帧对应的降噪参数；按照降噪参数，对音频帧进行降噪，以获得降噪后音频帧；将降噪后的音频帧提供给的第二通信端71；

第二通信端71，用于按照降噪后的音频帧进行音频输出。该方案与前一种方案相比，区别在于：由第一通信端70主动处理采集到的音频帧后，在发送给第二通信端71。

还是以语音通话场景为例，当前讲话的通信方所使用的通信设备可对采集到的语音进行选择性降噪，并将降噪后的音频帧发送给另一通话方，另一通信方可直接输出接收到的音频帧。这同样可保证另一通信方听到的语音是降噪后的语音。

相应地，本申请一示例性实施例中还可提供又一种音频降噪方法，适用于上述后一种方案中的第一通信端70，该方法包括：

对当前采集到的音频帧进行噪声检测；

若确定音频帧中包含符合预设要求的噪声，则获取音频帧对应的降噪参数；

按照降噪参数，对音频帧进行降噪，以获得降噪后音频帧；

将降噪后的音频帧提供给对端，以供对端按照降噪后音频帧进行音频输出。

其中，对端可以是指图7中的第二通信端71。

值得说明的是，上述音频降噪系统及音频降噪方法实施例中的技术细节可参考前述实施例中的相关描述，为节省篇幅，在此不再赘述，但这不应造成对本申请保护范围的损失。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由第一通信端执行的各步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频降噪方法，其特征在于，包括：

对音频中的目标音频帧进行噪声检测；

基于所述降噪后音频帧，输出降噪后的所述音频。

2.根据权利要求1所述的方法，其特征在于，还包括：

若确定所述目标音频帧中未包含符合所述预设要求的噪声，则输出所述目标音频帧。

3.根据权利要求1所述的方法，其特征在于，所述对目标音频帧进行噪声检测，包括：

将所述目标音频帧拆分为至少一个帧片段；

分别对所述至少一个帧片段进行噪声检测；

若包含噪声的帧片段满足第一预设条件，则确定所述目标音频帧包含符合预设要求的噪声。

4.根据权利要求3所述的方法，其特征在于，所述第一预设条件包括：

包含噪声的帧片段的数量大于第一数量阈值。

5.根据权利要求3所述的方法，其特征在于，所述若包含噪声的帧片段满足第一预设条件，则确定所述目标音频帧包含符合预设要求的噪声，包括：

若包含噪声的帧片段满足第一预设条件，则将噪声标识字段配置为T，作为所述噪声标识字段在所述目标音频帧下的取值，其中，T为预估的噪声持续时间；

若所述噪声标识字段在所述目标音频帧下的取值大于第一阈值，则确定所述目标音频帧包含符合预设要求的噪声。

6.根据权利要求5所述的方法，其特征在于，还包括：

若所述目标音频帧中包含符合预设要求的噪声的帧片段不满足所述第一预设条件，则将噪声标识字段的原始值减1，作为所述噪声标识字段在所述目标音频帧下的取值，其中，所述原始值为噪声标识字段在所述目标音频帧的上一音频帧下的取值；

若所述噪声标识字段在所述目标音频帧下的取值小于或等于第二阈值，则确定所述目标音频帧未包含符合预设要求的噪声，所述第二阈值小于或等于所述第一阈值。

7.根据权利要求3所述的方法，其特征在于，所述分别对所述至少一个帧片段进行噪声检测，包括：

在目标帧片段中确定符合能量要求的观测帧点；

计算目标帧片段中观测帧点的数量；

若所述观测帧点的数量满足第二预设条件，则确定所述目标帧片段为包含噪声的帧片段；

其中，所述目标帧片段为所述目标音频帧包含的至少一个帧片段中的任意一个。

8.根据权利要求7所述的方法，其特征在于，所述第二预设条件包括：

所述观测帧点的数量大于第二数量阈值。

9.根据权利要求7所述的方法，其特征在于，所述在目标帧片段中确定符合能量要求的观测帧点，包括：

确定目标帧片段对应的频域数据；

基于所述频域数据，分别计算所述目标帧片段包含的各帧点上的能量值；

10.根据权利要求9所述的方法，其特征在于，所述第三预设条件包括：

当前帧点的能量值大于其在前的两个帧点的能量值，且所述当前帧点与其在前的两个帧点之间的能量差均大于预设能量差阈值。

11.根据权利要求1所述的方法，其特征在于，所述获取所述目标音频帧对应的降噪参数，包括：

提取所述目标音频帧的音频特征；

将提取到的音频特征输入降噪模型；

在所述降噪模型中，基于音频特征与降噪参数的映射关系，确定所述目标音频帧对应的降噪参数。

12.根据权利要求1或11所述的方法，其特征在于，所述降噪参数为掩蔽比值。

13.根据权利要求12所述的方法，其特征在于，所述按照所述降噪参数，对所述目标音频帧进行降噪，包括：

将所述目标音频帧转换为频域信号；

按照所述掩蔽比值对所述频域信号进行掩蔽；

基于掩蔽后的频域信号，生成降噪后的时域信号，以对所述目标音频帧进行降噪。

14.一种计算设备，其特征在于，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

对音频中的目标音频帧进行噪声检测；

基于所述降噪后音频帧，输出降噪后的所述音频。

15.一种音视频设备，其特征在于，包括：音频获取组件、噪声检测组件和降噪组件；

所述音频获取组件，用于获取待处理的音频；

16.一种音频降噪系统，其特征在于，包括第一通信端和第二通信端，所述第一通信端和所述第二通信端通信连接；

17.一种音频降噪系统，其特征在于，包括：第一通信端和第二通信端，所述第一通信端和所述第二通信端通信连接；

所述第二通信端，用于按照所述降噪后的音频帧进行音频输出。

18.一种音频降噪方法，其特征在于，包括：

获取对端提供的音频；

对所述音频中的目标音频帧进行噪声检测；

基于所述降噪后音频帧，输出降噪后的所述音频。

19.一种音频降噪方法，其特征在于，包括：

对当前采集到的音频帧进行噪声检测；

20.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1-13、18或19任一项所述的音频降噪方法。