CN115223584A

CN115223584A - 音频数据处理方法、装置、设备及存储介质

Info

Publication number: CN115223584A
Application number: CN202211135920.5A
Authority: CN
Inventors: 高毅; 周健全
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2022-10-21
Anticipated expiration: 2042-09-19
Also published as: CN115223584B

Abstract

本申请实施例公开了一种音频数据处理方法、装置、设备及存储介质，应用于人工智能等技术领域，其中，该方法包括：根据频域音频数据对原始音频数据进行噪声抑制处理，得到原始音频数据的第一噪声抑制增益，根据音频特征信息对原始音频数据进行噪声抑制处理，得到原始音频数据的第二噪声抑制增益；根据频域音频数据和音频特征信息，对原始音频数据进行啸叫抑制处理，得到原始音频数据的啸叫抑制增益；根据第一噪声抑制增益、第二噪声抑制增益和啸叫抑制增益，对频域音频数据进行时域转换处理，得到目标音频数据。通过本申请能够降低音频数据的处理复杂度，并降低计算机设备的资源消耗，提高通信的流畅度。

Description

音频数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术等领域，尤其涉及一种音频数据处理方法、装置、设备及存储介质。

背景技术

目前，基于互联网的IP语音传输（Voice over Internet Protocol，VoIP）通信和蜂窝通信等通信系统已在多种通信场景中普及，例如，网络电话、网络会议等。由于讲话者所处环境的复杂与多样，所以通信系统需要使用多种语音信号处理算法，以此保证通信质量。实践中发现，目前的语音信号处理算法的复杂度过高，这会导致在智能手机等资源受限的平台上出现资源消耗过高，甚至导致通话出现卡顿现象。

发明内容

本申请实施例提供一种音频数据处理方法、装置、设备及存储介质，能够降低音频数据的处理复杂度，并降低计算机设备的资源消耗，提高通信的流畅度。

本申请实施例一方面提供一种音频数据处理方法，包括：

对待处理的原始音频数据进行特征提取，得到所述原始音频数据的音频特征信息，对所述原始音频数据进行频域转换，得到所述原始音频数据的频域音频数据；

根据所述频域音频数据对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第一噪声抑制增益，根据所述音频特征信息对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第二噪声抑制增益；

根据所述频域音频数据和所述音频特征信息，对所述原始音频数据进行啸叫抑制处理，得到所述原始音频数据的啸叫抑制增益；

根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据。

本申请实施例一方面提供一种音频数据处理装置，包括：

提取模块，用于对待处理的原始音频数据进行特征提取，得到所述原始音频数据的音频特征信息，对所述原始音频数据进行频域转换，得到所述原始音频数据的频域音频数据；

第一处理模块，用于根据所述频域音频数据对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第一噪声抑制增益，根据所述音频特征信息对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第二噪声抑制增益；

第二处理模块，用于根据所述频域音频数据和所述音频特征信息，对所述原始音频数据进行啸叫抑制处理，得到所述原始音频数据的啸叫抑制增益；

转换模块，用于根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据。

可理解的是，第二处理模块包括获取单元、第一确定单元以及第二确定模块；

获取单元，用于从所述音频特征信息中，获取所述M个频点分别对应的基音能量；

第一确定单元，用于根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率；所述语音数据概率为用于反映频点对应音频数据段包括语音数据的概率；

第二确定模块，用于根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率；所述初始啸叫概率为用于反映频点对应的音频数据段包括啸叫数据的初始概率；根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益。

可理解的是，第一确定单元根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率，包括：

根据所述M个频点分别对应的基音能量，确定所述M个频点对应的基音能量分布；

若所述基音能量分布反映所述M个频点中的频点M_i对应的频率小于频率阈值，且所述频点M_i对应的基音能量大于能量阈值，则将第一概率值，确定为所述频点M_i对应的语音数据概率；i为小于或等于M的正整数；

若所述基音能量分布反映所述频点M_i对应的频率小于所述频率阈值，且所述频点M_i对应的基音能量小于所述能量阈值，则将第二概率值，确定为所述频点M_i对应的语音数据概率；所述第一概率值大于所述第二概率值。

可理解的是，第二确定单元根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率，包括：

确定所述M个频点中的频点M_i对应的原始音频能量与相邻频点对应的原始音频能量之间的相似度，作为能量相似度；所述相邻频点为所述M个频点中与所述频点M_i之间具有播放相邻关系的频点；i为小于或等于M的正整数；

确定所述频点M_i对应的音频特征信息与所述相邻频点的音频特征信息之间的相似度，作为特征相似度；

根据所述频点M_i的能量相似度和所述特征相似度，确定所述频点M_i对应的初始啸叫概率。

可理解的是，第二确定单元根据所述频点M_i的能量相似度和所述特征相似度，确定所述频点M_i对应的初始啸叫概率，包括：

对所述频点M_i的能量相似度和所述特征相似度进行求和处理，得到相似度总和；

根据所述相似度总和，确定所述频点M_i对应的初始啸叫概率；所述频点M_i对应的相似度总和与所述频点M_i对应的初始啸叫概率之间具有正相关关系。

可理解的是，第二确定单元根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益，包括：

对所述M个频点进行划分，得到K个频点子带；K为小于M的正整数；

累计所述K个频点子带中的频点子带K_j内的频点的原始音频能量，得到所述频点子带K_j对应的原始音频能量；j为小于或等于K的正整数；

对所述频点子带K_j对应的原始音频能量进行平滑处理，得到所述频点子带K_j对应的平滑音频能量；

若获取到所述K个频点子带分别对应的平滑音频能量，则根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量，确定所述原始音频数据的啸叫抑制增益。

可理解的是，第二确定单元根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量，确定所述原始音频数据的啸叫抑制增益，包括：

根据所述频点子带K_j对应的平滑音频能量，确定所述频点子带K_j为啸叫频带的概率；

根据频点M_i所属的频点子带为啸叫频带的概率、所述频点M_i的初始啸叫概率以及语音数据概率，确定所述频点M_i对应的目标啸叫概率；所述目标啸叫概率用于反映所述频点M_i对应音频段包括啸叫数据的目标概率；

根据所述频点M_i对应的目标啸叫概率，确定所述频点M_i对应的啸叫抑制增益；所述频点M_i对应的啸叫抑制增益与所述频点M_i对应的目标啸叫概率之间具有负相关关系；

若获取到所述M个频点分别对应的啸叫抑制增益，则将所述M个频点分别对应的啸叫抑制增益确定为所述原始音频数据的啸叫抑制增益。

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应；

可理解的是，第一处理模块包括生成单元、第三确定单元以及第四确定单元；

生成单元，用于根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征；

第三确定单元，用于根据所述M个频点中的频点M_i对应的分类特征，确定所述频点M_i对应噪声概率；所述噪声概率用于反映频点对应的音频数据段包括噪声数据的概率；i为小于或等于M的正整数；

生成单元，用于根据所述频点M_i对应的噪声概率，生成所述频点M_i对应的噪声抑制增益；

第四确定单元，用于若获取到所述M个频点分别对应的噪声抑制增益，则将所述M个频点分别对应的噪声抑制增益，确定为所述原始音频数据的第一噪声抑制增益。

可理解的是，第四确定单元根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征，包括：

根据所述频点M_i对应的原始音频能量，预测所述频点M_i分别对应的初始噪声能量；

根据所述频点M_i的对应的原始音频能量和所述频点M_i对应的初始噪声能量，确定所述频点M_i对应的似然比检验；

根据所述M个频点分别对应的原始音频能量，分别确定所述频点M_i对应的频谱平坦度和频谱模板差异；

将所述频点M_i对应的似然比检验、频谱平坦度以及频谱模板差异，确定为所述频点M_i对应的分类特征。

可理解的是，第四确定单元根据所述M个频点分别对应的原始音频能量，分别确定所述频点M_i对应的频谱平坦度和频谱模板差异，包括：

获取所述M个频点对应的原始音频能量的几何平均音频能量和算数平均音频能量；

将所述几何平均音频能量与所述算数平均音频能量之间的比值，确定为所述频点M_i对应的频谱平坦度；

获取所述M个频点分别对应的原始音频能量与M个模板频点对应的原始音频能量之间的差值，得到原始音频能量差值；所述M个模板频点对应的原始音频能量是根据噪声数据确定得到的；

根据所述M个频点分别对应的原始音频能量与所述原始音频能量差值，确定所述频点M_i对应的频谱模板差异。

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，M为大于1的正整数；

转换模块根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据，包括：

获取所述M个频点中频点M_i对应的第一噪声抑制增益，与所述频点M_i对应的啸叫抑制增益之间的乘积，得到所述频点M_i对应的第一频谱增益；i为小于或等于M的正整数；

将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行融合，得到所述频点M_i对应的第二频谱增益；

获取所述频点M_i对应的第二频谱增益与所述频点M_i对应的原始音频能量之间的乘积，得到所述频点M_i对应的目标音频能量；

若获取所述M个频点分别对应的目标音频能量，则对具有所述目标音频能量的频域音频数据进行时域转换处理，得到目标音频数据。

可理解的是，转换模块将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行融合，得到所述频点M_i对应的第二频谱增益，包括：

将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益中的最小增益，确定为所述频点M_i对应的第二频谱增益；或者，

对所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行加权求和，得到所述频点M_i对应的第二频谱增益。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的方法的步骤。

本申请实施例一方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法的步骤。

本申请实施例一方面提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述的方法的步骤。

本申请中，计算机设备通过基于原始音频数据的频域音频数据对原始音频数据进行噪声抑制处理，得到原始音频数据的第一噪声抑制增益，基于原始音频数据的音频特征信息对原始音频数据进行噪声抑制处理，得到原始音频数据的第二噪声抑制增益，基于原始音频数据的音频特征信息和频域音频数据，对原始音频数据进行啸叫抑制处理，得到原始音频数据的啸叫抑制增益。通过原始音频数据的第一噪声抑制增益、第二噪声抑制增益以及啸叫抑制增益，对频域音频数据进行时域转换，得到目标音频数据。可见，通过噪声抑制处理过程与啸叫处理过程共享原始音频数据的频域音频数据和音频特征信息，实现了噪声抑制处理过程与啸叫处理过程的融合，且只需要对原始音频数据做一次频域转换和时域转换，即噪声抑制处理过程和啸叫抑制处理过程共用一次频域转换和时域转换等计算过程。同时，采用基于频域音频数据和音频特征信息结合的方式对原始音频数据进行噪声抑制，可以在确保噪声抑制与啸叫抑制效果的情况下，大幅减少计算量，能够降低音频数据的处理复杂度，并降低计算机设备的资源消耗，提高通信的流畅度，使得语音通信系统在手机等资源受限的处理器芯片平台也能广泛应用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种音频数据处理系统示意图；

图2是本申请提供的一种音频数据处理系统中的终端与服务器之间的交互示意图；

图3是本申请提供的第一种音频数据处理方法的流程示意图；

图4是本申请提供的一种基于噪声统计模型的噪声抑制算法实例的示意图；

图5是本申请提供的一种基于神经网络模型的噪声抑制算法实例的示意图；

图6是本申请提供的一种啸叫检测算法实例的示意图；

图7是本申请提供的又一种啸叫抑制算法实例的示意图；

图8是本申请提供的又一种音频数据处理方法的流程示意图；

图9是本申请实施例提供的一种音频数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请主要涉及人工能智能中的语音处理技术，如利用语音处理技术对音频数据进行噪声抑制处理以及啸叫抑制处理，能够降低音频数据的处理复杂度，并降低计算机设备的资源消耗，提高通信的流畅度。

其中，人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音处理技术(Speech Technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机设备能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

为了便于更清楚理解本申请，首先介绍实现本申请的音频数据处理系统，如图1所示，该音频数据处理系统中包括服务器10和终端集群，终端集群可以包括一个或者多个终端，这里将不对终端的数量进行限制。如图1所示，终端集群具体可以包括终端1、终端2、…、终端n；可以理解的是，终端1、终端2、终端3、… 、终端n均可以与服务器10进行网络连接，以便于每个终端均可以通过网络连接与服务器10之间进行数据交互。

终端中安装有一个或多个目标应用，此处的目标应用可以是指具有语音通信功能的应用，如目标应用包括独立的应用程序、网页应用、宿主应用中的小程序等。终端集群中的任一终端可以作为发送终端，也可以作为接收终端，发送终端可以是指生成音频数据并发送音频数据的终端，接收终端可以是指接收音频数据的终端。例如，终端1对应的用户1与终端2对应的用户2进行语音通信时，当用户1需要向用户2发送音频数据时，这时终端1可以称为发送终端，终端2可以称为接收终端；同理，当用户2需要向用户1发送音频数据时，这时终端2可以称为发送终端，终端1可以称为接收终端。服务器是指为终端中的目标应用提供后端服务的设备，在一个实施例中，服务器可以用于对发送终端发送的原始音频数据进行噪声抑制处理以及啸叫抑制处理等等，并将处理后的目标音频数据转发至接收终端。在一个实施例中，服务器可以用于将发送终端发送的原始音频数据转发至接收终端，由接收终端对原始音频数据进行噪声抑制处理以及啸叫抑制处理，得到处理后的目标音频数据。在一个实施例中，服务器可以用于接收发送终端发送的处理后的目标音频数据，并将目标音频数据转发至接收终端，即目标音频数据是由发送终端对原始音频数据进行啸叫抑制处理和噪声抑制处理得到的。

可理解的是，本申请中的原始音频数据可以是指由发送终端的麦克风采集到的音频数据，即原始音频数据是指未进行噪声抑制处理以及啸叫抑制处理的音频数据，通常原始音频数据包括语音数据、噪声数据和啸叫数据。原始音频数据中的语音数据可以是指发送终端对应的用户想要发送至接收终端的数据，原始音频数据中的噪声数据是指发送终端在采集音频数据的过程中所采集到的环境噪声，原始音频数据中的啸叫数据是指发送终端所发出的声音，被接收终端采集到后又传回给发送终端。目标音频数据可以是指用于发送至接收终端的音频数据，即目标音频数据是指对原始音频数据进行噪声抑制处理和啸叫抑制处理得到的音频数据，噪声抑制处理是指消除原始音频数据中的噪声的过程，啸叫抑制处理是指消除原始音频数据中的啸叫数据的过程。

可理解的是，服务器可以是独立的一个物理服务器，也可以是至少两个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、中容分发网络（ContentDelivery NetworK，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端具体可以是指车载终端、智能手机、平板电脑、笔记本电脑、桌上型电脑、智能音箱、有屏音箱、智能手表等等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，同时，终端以及服务器的数量可以为一个或至少两个，本申请在此不做限制。

可理解的是，本申请可以应用于网络电话以及网络会议等通信场景中，图2以网络电话场景为例，对本申请中的音频数据处理方法进行说明，图2中的终端20a为图1中的终端集群中的任一终端，终端21a为图1中的终端集群中与终端20a之间进行网络通话的终端，图2中的服务器22a可以是指图1中的服务器10。其中，终端20a、终端21a以及服务器22a之间的交互过程可以包括如下步骤：

S21、特征提取，如图2所示，当终端20a对应的用户A需要向终端21a对应的用户B发送语音数据时，终端20a可以对用户A讲话的过程进行采集，得到原始音频数据，将该原始音频数据发送至服务器22a。服务器22a接收到该原始音频数据后，可以对该原始音频数据进行特征提取，得到该原始音频数据的音频特征信息，该原始音频数据的音频特征信息包括基音信息、频谱幅度值向量、频谱对数能量值向量、Mel频率倒谱系数(Mel FrequencyCepstruM Coefficient，MFCC)、FbanKs向量、BarK频率倒谱系数（BFCC）向量等，以及反映特征随时间的动态变化特性等中的一种或多种。

S22、频域转换，服务器22a可以对该原始音频数据进行频域转换，得到该原始音频数据的频域音频数据，此处的原始音频数据可以标记为x(n)，n可以表示音频数据段的数量，即也音频数据段也可以称为语音样本的信号，频域音频数据可以标记为X(K)，K可以是指频谱上的每个频点，K=1，2，……，n/2 + 1。具体的，服务器22a可以对原始音频数据进行短时傅里叶变换，得到该原始音频数据的频域音频数据，原始音频数据的频域音频数据用于反映M个频点对应的原始音频能量，此处的M= n/2 + 1。

S23、噪声抑制处理，服务器22a可以根据原始音频数据的音频特征信息，对原始音频数据进行噪声抑制处理，得到原始音频数据的第二噪声抑制增益，该第二噪声抑制增益可以用于反映基于音频特征信息去噪声数据处理后的原始音频数据的音频能量。此处的原始音频数据的第二噪声抑制增益可以表示为G₁(K)，即原始音频数据的第二噪声抑制增益包括频谱上的每个频点处的第二噪声抑制增益。例如，服务器22a可以根据音频特征信息判断原始音频数据中的每个频点对应的音频数据段是否包括噪声数据，若某个频点对应的音频数据段不包括噪声数据，则对该频点施加一个较大的第二噪声抑制增益；若某个频点对应的音频数据段包括噪声数据，则对该频点施加一个较小的第二噪声抑制增益，以实现对原始音频数据中噪声数据进行抑制，提高音频数据的播放质量和播放效果。

S24、啸叫抑制处理，服务器22a可以根据原始音频数据的频域音频数据和音频特征信息，对原始音频数据进行啸叫抑制处理，得到该原始音频数据的啸叫抑制增益，该啸叫抑制增益可以用于反映去啸叫数据处理后的原始音频数据的音频能量。此处的原始音频数据的啸叫抑制增益可以表示为G₂(K)，即原始音频数据的啸叫抑制增益可以包括原始音频数据中每个频点处的啸叫抑制增益。具体的，服务器22a可以根据原始音频数据的频域音频数据和音频特性信息，判断原始音频数据中的每个频点对应的音频数据段中是否包括啸叫数据。若某个频点对应的音频数据段不包括啸叫数据，则对该频点施加一个较大的啸叫抑制增益；若某个频点对应的音频数据段包括啸叫数据，则对该频点施加一个较小的啸叫抑制增益，以实现对原始音频数据中啸叫数据进行抑制，提高音频数据的播放质量和播放效果。

S25、噪声抑制处理，服务器22a可以根据原始音频数据的频域音频数据，对原始音频数据进行噪声抑制处理，得到原始音频数据的第一噪声抑制增益，该第一噪声抑制增益是指基于频域音频数据去噪声数据处理后的原始音频数据的音频能量。此处的原始音频数据的第一噪声抑制增益可以表示为G₃(K)，即原始音频数据的第一噪声抑制增益包括频谱上的每个频点处的第一噪声抑制增益。例如，服务器22a可以根据频域音频数据判断原始音频数据中的每个频点对应的音频数据段是否包括噪声数据，若某个频点对应的音频数据段不包括噪声数据，则对该频点施加一个较大的第一噪声抑制增益；若某个频点对应的音频数据段包括噪声数据，则对该频点施加一个较小的第一噪声抑制增益，以实现对原始音频数据中噪声数据进行抑制，提高音频数据的播放质量和播放效果。

S26、增益融合，服务器22a可以获取第一噪声抑制增益与啸叫抑制增益之间的乘积得到第一频谱增益，并将第一频谱增益与第二噪声抑制增益进行融合，得到第二频谱增益，此处的第二频谱增益可以表示为G₄(K)。

S27、时域转换，服务器22a可以获取第二频谱增益与原始音频数据的频域音频数据之间的乘积，得到处理后的频域音频数据，此处处理后的频域音频数据可以表示为X_out(K)=X(K)*G₄(K)，对处理后的频域音频数据进行短时傅里叶变换的逆变换处理，得到目标音频数据。服务器22a获取到目标音频数据后，可以将该目标音频数据发送给终端21a。

综上，通过噪声抑制处理过程与啸叫处理过程共享原始音频数据的频域音频数据和音频特征信息，实现了噪声抑制处理过程与啸叫处理过程的融合，只需要对原始音频数据做一次频域转换和时域转换，即噪声抑制处理过程和啸叫抑制处理过程共用一次频域转换和时域转换等计算过程，采用基于频域音频数据和音频特征信息结合的方式对原始音频数据进行噪声抑制，可以在确保噪声抑制与啸叫抑制效果的情况下，大幅减少计算量，使得语音通信系统在手机等资源受限的处理器（Advanced RISC Machine，ARM）芯片平台也能广泛应用。

进一步地，请参见图3，是本申请实施例提供的一种音频数据处理方法的流程示意图。如图3所示，该方法可由图1中的终端集群中的任一终端来执行，也可以由图1中的服务器来执行，本申请中用于执行该音频数据处理方法的设备可以统称为计算机设备。其中，该方法可以包括如下步骤：

S101、对待处理的原始音频数据进行特征提取，得到该原始音频数据的音频特征信息，对该原始音频数据进行频域转换，得到该原始音频数据的频域音频数据。

本申请中，计算机设备可以获取待处理的原始音频数据，该原始音频数据可以是指两个或两个以上的终端对应用户之间进行网络通话的过程中，对某个用户的讲话进行录制得到的，或者，原始音频数据可以是指对网络会议中的某个参会用户的讲话进行录制得到的。进一步，计算机设备可以对该原始音频数据进行特征提取，得到该原始音频数据的音频特性信息，该原始音频数据的音频特征信息包括基音信息、频谱幅度值向量、频谱对数能量值向量、Mel频率倒谱系数(Mel Frequency CepstruM Coefficient，MFCC)、FbanKs向量、BarK频率倒谱系数（BFCC）向量等，以及反映特征随时间的动态变化特性等中的一种或多种。然后，对该原始音频数据进行频域转换，得到该原始音频数据的频域音频数据，如可以对原始音频数据进行短时傅里叶变换，得到该原始音频数据的频域音频数据。

S102、根据该频域音频数据对该原始音频数据进行噪声抑制处理，得到该原始音频数据的第一噪声抑制增益，根据该音频特征信息对该原始音频数据进行噪声抑制处理，得到该原始音频数据的第二噪声抑制增益。

本申请中，计算机设备可以将频域音频数据输入至第一噪声识别模型中，通过第一噪声识别模型对频域音频数据进行识别，输出原始音频数据的第一噪声抑制增益；将音频特征信息输入至第二噪声识别模型，通过第二噪声识别模型对音频特征信息进行识别，输出原始音频数据的第二噪声抑制增益。此处的第一噪声识别模型可以是指噪声统计模型，第二噪声识别模型可以是指基于神经网络的噪声抑制模型。

可理解的是，该频域音频数据包括M个频点分别对应的原始音频能量，一个频点与该原始音频数据中的一个音频数据段对应；上述根据该频域音频数据对该原始音频数据进行噪声抑制处理，得到该原始音频数据的第一噪声抑制增益，包括：由于语音数据比噪声数据的谐波多，其表现是语音频谱通常在基频和谐波中出现能量峰值，而噪声频谱则相对平坦，因此频谱平坦度可以区分语音数据和噪声数据。同时，噪声频谱比语音频谱更稳定，即噪声频谱的整体波形形状在任何给定阶段都倾向于保持相同，因此，可以通过频谱模板差异来区分噪声数据和语音数据。进而，计算机设备可以调用噪声统为获得频谱平坦度特征，假设语音比噪声有更多的谐波行为。

然而，语音频谱往往会在基频（基音）和谐波中出现峰值，而噪声频谱则相对平坦。因此，至少在某些布置中，本地频谱平坦度测量的综合可用做区分语音和噪声的良好判断依据。根据该M个频点中的频点1对应的分类特征，确定该频点1对应噪声概率；该噪声概率用于反映频点1对应的音频数据段包括噪声数据的概率；根据M个频点中的频点2对应的分类特征，确定该频点2对应的噪声概率，以此类推，计算机设备能够获取到M个频点分别对应的噪声概率。然后，根据该频点1对应的噪声概率，生成该频点1对应的噪声抑制增益，根据该频点2对应的噪声概率，生成该频点2对应的噪声抑制增益，以此类推，计算机设备能够获取M个频点分别对应的噪声抑制增益。此处的噪声概率与噪声抑制增益之间具有负相关关系，即频点对应噪声概率越大，该频点对应的噪声抑制增益越小；频点对应噪声概率越小，该频点对应的噪声抑制增益越大。进一步，若获取到该M个频点分别对应的噪声抑制增益，则将该M个频点分别对应的噪声抑制增益，确定为该原始音频数据的第一噪声抑制增益。通过基于原始音频数据的频域音频数据，获取M个频点分别对应的噪声抑制增益，有利于降低计算量，提高噪声抑制增益的获取准确度。

例如，计算机设备通过噪声统计模型的噪声抑制算法获取原始音频数据的第一噪声抑制增益的实现过程可以参考图4所示，如图4所示，基于噪声统计模型的噪声抑制算法的实现过程主要有以下四步：（1）初始噪声估计，计算机设备可以根据频域音频数据，估计M个频点分别对应的初始噪声概率，初始噪声概率用于反映频点对应的音频数据段包括噪声数据的概率，频点1、频点2、……、频点M对应的初始噪声概率分别为P1、P2、……、PM。（2）计算分类特征，计算机设备可以基于估计出的初始噪声概率计算出每个频点对应用先验信噪比和后验信噪比，根据每个频点的先验信噪比和后验信噪比，确定每个频点对应的似然比检验。根据频域音频数据，确定每个频点的频谱平坦度和频谱模板差异，将频点的似然比检验、频谱平坦度和频谱模板差异确定为对应频点的分类特征，频点1、频点2、……、频点M对应的分类特征分别为D1、D2、……、DM。（3）更新噪声估计，计算机设备可以根据每个频点的分类特征对对应频点的初始噪声概率进行更新，得到每个频点对应的噪声概率。如采用频点1的分类特征D1对频点1的初始噪声概率P1进行更新，得到频点1的噪声概率Q1；采用频点2的分类特征D2对频点2的初始噪声概率P2进行更新，得到频点2的噪声概率Q2；……；采用频点M的分类特征DM对频点M的初始噪声概率PM进行更新，得到频点M的噪声概率QM。（4）基于维纳滤波，根据M个频点分别对应的噪声概率，对频域音频数据进行维纳滤波，得到M个频点分别对应的第一噪声抑制增益。

可理解的是，上述根据该M个频点分别对应的原始音频能量，生成该M个频点分别对应的分类特征，包括：计算机设备可以根据该频点M_i对应的原始音频能量，预测该频点M_i分别对应的初始噪声能量，频点M_i对应的初始噪声能量可以是根据频点M_i对应的初始噪声概率和原始音频能量确定的，即频点M_i对应的初始噪声能量可以是频点M_i对应的初始噪声概率与原始音频能量之间的乘积。进一步，计算机设备可以根据该频点M_i的对应的原始音频能量和该频点M_i对应的初始噪声能量，确定该频点M_i对应的信噪比，根据频点M_i对应的信噪比，确定频点M_i对应的似然比检验。接着，计算机设备可以根据该M个频点分别对应的原始音频能量，分别确定该频点M_i对应的频谱平坦度和频谱模板差异，将该频点M_i对应的似然比检验、频谱平坦度以及频谱模板差异，确定为该频点M_i对应的分类特征。通过获取频点处的似然比检验、频谱平坦度以及频谱模板差异等分类特征，为识别原始音频数据中的噪声数据提供更多有用参数，提高噪声数据识别的准确度。

可理解的是，上述根据该M个频点分别对应的原始音频能量，分别确定该频点M_i对应的频谱平坦度和频谱模板差异，包括：计算机设备可以获取该M个频点对应的原始音频能量的几何平均音频能量和算数平均音频能量，将该几何平均音频能量与该算数平均音频能量之间的比值，确定为该频点M_i对应的频谱平坦度。计算机设备可以获取该M个频点分别对应的原始音频能量与M个模板频点对应的原始音频能量之间的差值，得到原始音频能量差值；该M个模板频点对应的原始音频能量是根据噪声数据确定得到的，根据该M个频点分别对应的原始音频能量与该原始音频能量差值，确定该频点M_i对应的频谱模板差异，如计算机设备可以将该原始能量差值与原始音频能量之间的比值，作为频谱模板差异。

可理解的是，频点M_i对应的频谱模板差异与频点M_i对应的噪声概率之间具有负相关关系，换言之，频点M_i对应的频谱模板差异比较大，表明频点M_i对应的音频数据段与噪声数据的差异比较大，即频点M_i对应的音频数据段包括噪声数据的噪声概率比较低；反之，频点M_i对应的频谱模板差异比较小，表明频点M_i对应的音频数据段与噪声数据的差异比较小，即频点M_i对应的音频数据段包括噪声数据的噪声概率比较高。通常语音数据比噪声数据有更多的谐波行为，且语音频谱往往会在基频（基音）和谐波中出现峰值，而噪声频谱则相对平坦。因此，频点M_i对应的频谱平坦度与频点M_i对应的噪声概率之间具有正相关关系，换言之，频点M_i对应的频谱平坦度比较大，表明频点M_i对应的音频数据段包括噪声数据的噪声概率比较高；频点M_i对应的频谱平坦度比较小，表明频点M_i对应的音频数据段包括噪声数据的噪声概率比较低。

例如，基于神经网络的噪声抑制模型可以是前向全连接深度神经网络DNN，也可以是某种循环神经网络（RNN），例如LSTM、GRU等，也可以是卷积神经网络CNN，或者是这些网络的组合形式，例如某些网络层是全连接层，某些层是RNN网络层，某些层是CNN层。如图5所示，基于神经网络的噪声抑制模型包括输入层、隐藏层以及输出层，输入层的神经元个数一般与输入特征向量的长度一致，例如，如果输入特征向量包括129个频谱对数能量值和一个基音周期值，即总共130个数值，则基于神经网络的噪声抑制模型的输入层有130个神经元。中间隐藏层的层数和每层的神经元个数则根据训练数据规模以及计算资源来确定大小，如果需要占用较小计算资源，则采用较少层数和较少的神经元个数，训练数据规模大的话则采用较大的网络规模有可能取得更好效果，需要综合考虑。输出层的神经元个数一般与需要计算的第二噪声抑制增益的个数相关，例如，此处需要计算每一个频点对应的第二噪声抑制增益，第二噪声抑制增益为图2中的G₁(K)，K=1,2,…,n/2+1，则输出层的神经元个数为n/2+1个。其他的实现方案中，输出层的神经元个数也可以少于n/2+1，例如将n/2+1个频点划分到不同的频率子带，输出层的每一个神经元只需要预测每一个子带的第二噪声抑制增益。

S103、根据该频域音频数据和该音频特征信息，对该原始音频数据进行啸叫抑制处理，得到该原始音频数据的啸叫抑制增益。

本申请中，计算机设备可以根据该频域音频数据和该音频特征信息，对该原始音频数据进行啸叫抑制处理，得到该原始音频数据的啸叫抑制增益。

可理解的是，该频域音频数据包括M个频点分别对应的原始音频能量，一个频点与该原始音频数据中的一个音频数据段对应，M为大于1的正整数；上述步骤S103包括：计算机设备可以从该音频特征信息中，获取该M个频点分别对应的基音能量，基音能量是指发音体整体振动产生的音（振动长度越大，频率越小），用于决定音高。由于语音数据中的元音部分（例如汉字的韵母部分）需要用户的声带振动产生一般低于500Hz的基音及其谐波信号，同时，啸叫数据的低频能量快速衰减，因而很难检测到基音能量，所以通过根据M个频点分别对应的基音能量，能够确定出频点对应的音频数据段包括语音数据的概率。计算机设备可以根据M个频点分别对应的基音能量，检测确定M个频点分别对应的音频数据段是否包括语音数据，根据M个频点分别对应的音频数据段是否包括语音数据，确定该M个频点分别对应的语音数据概率；该语音数据概率为用于反映频点对应音频数据段包括语音数据的概率。

进一步，计算机设备可以根据该M个频点分别对应的原始音频能量和该音频特征信息，确定该M个频点分别对应的初始啸叫概率；该初始啸叫概率为用于反映频点对应的音频数据段包括啸叫数据的初始概率。接着，计算机设备可以根据该M个频点分别对应的语音数据概率和该初始啸叫概率，确定该原始音频数据的啸叫抑制增益，此处的语音数据概率与啸叫抑制增益之间具有正相关关系，即频点对应的语音数据概率越大，该频点对应的啸叫抑制增益越大；频点对应的语音数据概率越小，该频点对应的啸叫抑制增益越小。此处的初始啸叫概率与啸叫抑制增益之间具有负相关关系，即频点对应的初始啸叫概率越大，该频点对应的啸叫抑制增益越小；频点对应的啸叫概率越小，该频点对应的啸叫抑制增益越大。通过原始音频数据的音频特征信息以及频谱音频数据等多维度信息，确定原始音频数据的啸叫抑制增益，能够过滤掉原始音频数据的啸叫数据，提高音频数据的播放流畅度。

可理解的是，计算机设备可以调用啸叫抑制模型，对根据该频域音频数据和该音频特征信息，对该原始音频数据进行啸叫抑制处理，得到该原始音频数据的啸叫抑制增益，如图6所示，该啸叫抑制模型可以包括语音分析层和啸叫检测层、综合判断层以及啸叫抑制层。语音分析层可以是一个基于神经网路的语音检测器，例如，基于提前训练好的一个RNN神经网络的语音活动检测(Voice Activity Detection,VAD)，又称语音端点检测，语音边界检测。语音分析层用于根据M个频点分别对应的基音能量，检测M个频点分别对应的音频数据段是否包括语音数据，根据M个频点分别对应的音频数据段是否包括语音数据，确定该M个频点分别对应的语音数据概率。该语音概率可以采用[0,1]的数值表示，或者该语音数据概率可以采用标志VAD表示，即VAD标志为1，表示频点对应的音频数据段包括语音数据，VAD标志为0，表示频点对应的音频数据段不包括语音数据。

语音分析层也可以是一个基于能量的VAD检测器，根据语音数据与啸叫数据的能量分布的不同，确定当前频点对应的音频数据段中是否包含语音数据。例如，通常情况下，终端由于体积和成本限制，不具有低音喇叭，因此啸叫数据中低频能量明显弱于低频语音数据的能量。语音分析层通过对频域音频数据进行低通滤波，获得频域音频数据的低频分量（如频率为500Hz以下的分量），根据低频能量的波动采用VAD检测方法即可检测出是否含有语音数据成分。或者，语音分析模块也可以是一个基于基音检测的VAD检测器，由于语音数据中的元音部分（例如汉字的韵母部分）需要人的声带振动产生一般低于500Hz的基音及其谐波信号，啸叫数据低频能量快速衰减因而很难检测到基音，所以通过基音检测算法可以检测到是否在低频存在基音，进而确定频点对应的音频数据段是否包括语音数据。

对于不同的实施例，啸叫检测层可以是一个基于神经网路的啸叫检测器，例如，提前训练好的一个RNN神经网络的啸叫检测器，采用初始啸叫概率反映频点对应的音频数据段是否包括啸叫数据，该初始啸叫概率可以采用[0,1]的数值表示，或者该初始啸叫概率可以采用标志howlFlag表示。当检测到频点对应的音频数据段包括啸叫数据时，howlFlag标志为1，如果检测到频点对应的音频数据段不包括啸叫数据，则howlFlag标志为0。

可理解的是，啸叫检测层也可以是一个基于音频特征对比的啸叫检测器，由于啸叫数据在发送设备和接收设备中循环的传输，因此具有历史相似性，所以通过将当前频点对应的音频数据段的长度为A的音频特征、基音能量与同样长度的历史音频特征、基音能量进行对比。例如，当前时刻后退B时长的音频特征进行对比，如A的取值可以为500Ms，B的取值根据信号传输时延决定，例如从200Ms到2000Ms以20Ms为间隔进行遍历。当相似性超过一个阈值TH1之后认定当前频点对应的音频数据段包括啸叫数据，howlFlag设为1。常用的音频特征包括MFCC（Mel-Frequency cepstruM coefficients）动态特征、频带表示向量（bandrepresentative vectors）、各种类型的音频指纹等等，需要根据准确性和计算量进行选择，在此不做限定。

可理解的是，综合判断层根据语音分析层和啸叫判断层的结果，判断是否需要进行频点进行啸叫抑制。如当确定频点对应的音频数据段中存在啸叫数据且没有语音数据时（即VAD标志为0），让后续的啸叫抑制层对频点对应的音频数据段中存在的啸叫数据进行抑制。如果确定频点对应的音频数据段中存在包含语音数据（即VAD标志为1），则使啸叫抑制层减少对频点对应的音频数据段的抑制进而尽量保留其中的语音数据，如果确定频点对应的音频数据段中没有啸叫数据（如howlFlag标志为0），啸叫抑制层可以不对频点对应的音频数据段处理。

可理解的是，上述根据该M个频点分别对应的基音能量，确定该M个频点分别对应的语音数据概率，包括：计算机设备可以根据该M个频点分别对应的基音能量，确定该M个频点对应的基音能量分布，基音能量分布用于反映频点对应的频率与基音能量之间的关系。若该基音能量分布反映该M个频点中的频点M_i对应的频率小于频率阈值，且该频点M_i对应的基音能量大于能量阈值，表明在低频点M_i处检测到基频特征，即频点M_i对应的音频数据段包括语音数据的概率比较高，则计算机设备可以将第一概率值，确定为该频点M_i对应的语音数据概率；i为小于或等于M的正整数。若该基音能量分布反映该频点M_i对应的频率小于该频率阈值，且该频点M_i对应的基音能量小于该能量阈值，表明在低频点M_i处未检测到基频特征，即频点M_i对应的音频数据段包括啸叫数据的概率比较高，则计算机设备可以将第二概率值，确定为该频点M_i对应的语音数据概率；该第一概率值大于该第二概率值。通过基音能量，确定频点M_i对应的语音数据概率，能够有效识别出频点M_i对应的音频数据段中的语音数据，避免过滤掉原始音频数据的中的语音数据，提高针对原始音频数据的啸叫抑制准确度。

可理解的是，由于啸叫数据在发送终端和接收终端中循环的传输，即啸叫数据具有历史相似性，即可以根据相邻频点对应的原始音频能量以及音频特征信息之间的相似度，来检测出啸叫数据。具体的，计算机设备可以确定该M个频点中的频点M_i对应的原始音频能量与相邻频点对应的原始音频能量之间的相似度，作为能量相似度；该相邻频点为该M个频点中与该频点M_i之间具有播放相邻关系的频点；i为小于或等于M的正整数。进一步，计算机设备可以确定该频点M_i对应的音频特征信息与该相邻频点的音频特征信息之间的相似度，作为特征相似度，根据该频点M_i的能量相似度和该特征相似度，确定该频点M_i对应的初始啸叫概率。此处的能量相似度和特征相似度均与初始啸叫概率之间具有正相关关系，即频点对应的能量相似度、特征相似度越大，该频点对应的初始啸叫概率也越大；即频点对应的能量相似度、特征相似度越小，该频点对应的初始啸叫概率也越小。

可理解的是，上述根据该频点M_i的能量相似度和该特征相似度，确定该频点M_i对应的初始啸叫概率，包括：计算机设备可以对该频点M_i的能量相似度和该特征相似度直接进行求和处理，得到相似度总和；或者，计算机设备可以对该频点M_i的能量相似度和该特征相似度进行加权求和处理，得到相似度总和，能量相似度和特征相似度分别对应的权重可以是根据能量相似度和特征相似度的获取准确度确定的。进一步，计算机设备可以根据该相似度总和，确定该频点M_i对应的初始啸叫概率；该频点M_i对应的相似度总和与该频点M_i对应的初始啸叫概率之间具有正相关关系，即频点对应的相似度总和越大，表明频点对应的音频数据段中包括啸叫数据的概率越大，即频点对应的初始啸叫概率越大；反之，频点对应的相似度总和越小，表明频点对应的音频数据段中包括啸叫数据的概率越小，即频点对应的初始啸叫概率越小。通过不同频点对应的能量相似度和特征相似度，确定频点对应的初始啸叫概率，提高初始啸叫概率的获取准确度。

可理解的是，计算机设备可以通过如下两种方式中的任一方式或两种组合方式，实现根据该M个频点分别对应的语音数据概率和该初始啸叫概率，确定该原始音频数据的啸叫抑制增益，方式一：计算机设备可以根据频点M_i对应的语音数据概率和初始啸叫概率，确定频点M_i对应的目标啸叫概率；该目标啸叫概率用于反映该频点M_i对应音频段包括啸叫数据的目标概率。进一步，根据频点M_i对应的目标啸叫概率确定频点M_i对应的啸叫抑制增益，该频点M_i对应的啸叫抑制增益与该频点M_i对应的目标啸叫概率之间具有负相关关系；即频点M_i对应的目标啸叫概率越大，即该频点M_i对应的啸叫抑制增益越小；即频点M_i对应的目标啸叫概率越小，即该频点M_i对应的啸叫抑制增益越大。若获取到该M个频点分别对应的啸叫抑制增益，则将该M个频点分别对应的啸叫抑制增益确定为该原始音频数据的啸叫抑制增益。通过该频点M_i的初始啸叫概率以及语音数据概率，来确定频点M_i的啸叫抑制增益，提高获取频点的啸叫抑制增益的准确度，实现达到抑制原始音频数据中的啸叫数据的目的，提高音频数据的播放质量和流畅度。

方式二：计算机设备可以对该M个频点进行划分，得到K个频点子带；K为小于M的正整数；K个频点子带所包括的频点的个数可以相等，也可以不相等，同一频点子带内的频点之间具有播放相邻关系。进一步，可以累计该K个频点子带中的频点子带K_j内的频点的原始音频能量，得到该频点子带K_j对应的原始音频能量；j为小于或等于K的正整数，对该频点子带K_j的原始音频能量在时间上进行平滑处理，得到该频点子带K_j对应的平滑音频能量。若获取到该K个频点子带分别对应的平滑音频能量，则根据该M个频点分别对应的语音数据概率、该初始啸叫概率以及该K个频点子带分别对应的平滑音频能量，确定该原始音频数据的啸叫抑制增益。

可理解的是，上述根据该M个频点分别对应的语音数据概率、该初始啸叫概率以及该K个频点子带分别对应的平滑音频能量，确定该原始音频数据的啸叫抑制增益，包括：计算机设备可以根据该频点子带K_j对应的平滑音频能量，确定该频点子带K_j为啸叫频带的概率，该频点子带K_j为啸叫频带的概率用于反映频点子带K_j内的频点对应的音频数据段包括啸叫数据的概率。因此，计算机设备可以根据频点M_i所属的频点子带为啸叫频带的概率、该频点M_i的初始啸叫概率以及语音数据概率，确定该频点M_i对应的目标啸叫概率；该目标啸叫概率用于反映该频点M_i对应音频段包括啸叫数据的目标概率。然后，计算机设备可以根据该频点M_i对应的目标啸叫概率，确定该频点M_i对应的啸叫抑制增益；该频点M_i对应的啸叫抑制增益与该频点M_i对应的目标啸叫概率之间具有负相关关系；即频点M_i对应的目标啸叫概率越大，即该频点M_i对应的啸叫抑制增益越小；即频点M_i对应的目标啸叫概率越小，即该频点M_i对应的啸叫抑制增益越大。若获取到该M个频点分别对应的啸叫抑制增益，则将该M个频点分别对应的啸叫抑制增益确定为该原始音频数据的啸叫抑制增益。通过频点M_i所属的频点子带为啸叫频带的概率、该频点M_i的初始啸叫概率以及语音数据概率等多个维度的信息，来确定频点M_i的啸叫抑制增益，提高获取频点的啸叫抑制增益的准确度，实现达到抑制原始音频数据中的啸叫数据的目的，提高音频数据的播放质量和流畅度。

例如，图7为啸叫抑制模型的啸叫抑制层的实现过程，该啸叫抑制层包括对输入信号（即频域音频数据）进行分析，然后，在频域按照预先设定好的频点子带个数以及频点子带频率范围计算各个频点子带对应的原始音频能量。例如，频点子带的个数为30个，通过30个三角滤波器计算每个频点子带的原始音频能量，每个频点子带的频率范围可以相等，也可以不相等，相邻频点子带之间可以存在频率上的交叠，也可以不存在频率上的交叠。进一步，对各个频点子带的原始音频能量在时间上进行平滑，得到各个频点子带对应的平滑音频能量，根据各个频点子带的原始音频能量，选择包含啸叫数据的频点子带。例如在30个频点子带中，从第6到第30个频点子带中寻找具有最大平滑音频能量的子带（可以指定跳过某些子带，例如第1到第5个频点子带主要包括语音能量，很少有啸叫能量，所以可以跳过），作为属于啸叫频带的频点子带。然后，根据howlFlag和VAD的检测结果，对前一步选出的啸叫频带计算频点子带增益，啸叫抑制模型中的信号合成模块对各个频点子带的频谱施加子带增益，然后进行频域到时域的变换，重新合成时域音频信号。

S104、根据该第一噪声抑制增益、该第二噪声抑制增益和该啸叫抑制增益，对该频域音频数据进行时域转换处理，得到目标音频数据。

本申请中，计算机设备可以对第一噪声抑制增益、该第二噪声抑制增益和该啸叫抑制增益进行融合，得到原始音频数据的最终频谱增益，获取最终频谱增益与频谱音频数据之间的乘积，得到处理后的频谱音频数据，对处理后的频谱音频数据进行时域转换处理，得到目标音频数据。

进一步地，请参见图8，是本申请实施例提供的一种音频数据处理方法的流程示意图。如图8所示，该方法可由图1中的终端集群中的任一终端来执行，也可以由图1中的服务器来执行，本申请中用于执行该音频数据处理方法的设备可以统称为计算机设备。其中，该方法可以包括如下步骤：

S201、对待处理的原始音频数据进行特征提取，得到该原始音频数据的音频特征信息，对该原始音频数据进行频域转换，得到该原始音频数据的频域音频数据。

S202、根据该频域音频数据对该原始音频数据进行噪声抑制处理，得到该原始音频数据的第一噪声抑制增益，根据该音频特征信息对该原始音频数据进行噪声抑制处理，得到该原始音频数据的第二噪声抑制增益。

S203、根据该频域音频数据和该音频特征信息，对该原始音频数据进行啸叫抑制处理，得到该原始音频数据的啸叫抑制增益。

可理解的是，本申请实施例中对步骤S201的解释说明，可以参考图3中对步骤S101的解释说明，对步骤S202的解释说明，可以参考图3中对步骤S102的解释说明，对步骤S203的解释说明，可以参考图3中对步骤S103的解释说明，重复之处，不再赘述。

S204、获取该M个频点中频点M_i对应的第一噪声抑制增益，与该频点M_i对应的啸叫抑制增益之间的乘积，得到该频点M_i对应的第一频谱增益；i为小于或等于M的正整数。

本申请中，计算机设备可以获取频点1的第一噪声抑制增益和啸叫抑制增益之间的乘积，得到该频点1对应的第一频谱增益；获取频点2的第一噪声抑制增益和啸叫抑制增益之间的乘积，得到该频点2对应的第一频谱增益；……；获取频点M的第一噪声抑制增益和啸叫抑制增益之间的乘积，得到该频点M对应的第一频谱增益。

S205、将该频点M_i对应的第二噪声抑制增益与该第一频谱增益进行融合，得到该频点M_i对应的第二频谱增益。

本申请中，计算机设备可以将频点M_i对应的第二噪声抑制增益与第一频谱增益中的最大增益或最小增益，确定为该频点M_i对应的第二频谱增益；或者，计算机设备可以对该频点M_i对应的第二噪声抑制增益与该第一频谱增益进行求和处理，得到该频点M_i对应的第二频谱增益。

可理解的是，计算机设备可以通过如下两种方式中的任一种方式或两种组合方式，实现将该频点M_i对应的第二噪声抑制增益与该第一频谱增益进行融合，得到该频点M_i对应的第二频谱增益；方式一：计算机设备可以将该频点M_i对应的第二噪声抑制增益与该第一频谱增益中的最小增益，确定为该频点M_i对应的第二频谱增益。方式二：计算机设备可以对该频点M_i对应的第二噪声抑制增益与该第一频谱增益进行加权求和，得到该频点M_i对应的第二频谱增益。频点M_i的第二噪声抑制增益与该第一频谱增益分别对应的权重为a和b，a可以是指频点M_i中对应的语音数据概率确定的，频点M_i对应的第二频谱增益可以表示为：G_out(i) = a*G_in1(i) + b*G_in2(i)，G_in1(i)为频点M_i对应的第二噪声抑制增益，G_in2(i)为频点M_i对应的第一频谱增益，G_out(i)表示频点M_i对应的第二频谱增益。

S206、获取频点M_i对应的第二频谱增益与该频点M_i对应的原始音频能量之间的乘积，得到该频点M_i对应的目标音频能量。

本申请中，计算机设备可以获取该频点1对应的第二频谱增益与该频点1对应的原始音频能量之间的乘积，得到该频点1对应的目标音频能量；获取该频点2对应的第二频谱增益与该频点2对应的原始音频能量之间的乘积，得到该频点2对应的目标音频能量；……；获取该频点M对应的第二频谱增益与该频点M对应的原始音频能量之间的乘积，得到该频点M对应的目标音频能量。

S207、若获取该M个频点分别对应的目标音频能量，则对具有该目标音频能量的频域音频数据进行时域转换处理，得到目标音频数据。

本申请中，若获取该M个频点分别对应的目标音频能量，则计算机设备可以对具有该目标音频能量的频域音频数据进行时域转换处理，得到目标音频数据，此处的时域转换处理可以是指短时傅里叶变换的逆变换。

请参见图9，是本申请实施例提供的一种音频数据处理装置的结构示意图。如图9所示，该音频数据处理装置可以包括：提取模块911、第一处理模块912、第二处理模块913以及转换模块914。

提取模块911，用于对待处理的原始音频数据进行特征提取，得到所述原始音频数据的音频特征信息，对所述原始音频数据进行频域转换，得到所述原始音频数据的频域音频数据；

第一处理模块912，用于根据所述频域音频数据对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第一噪声抑制增益，根据所述音频特征信息对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第二噪声抑制增益；

第二处理模块913，用于根据所述频域音频数据和所述音频特征信息，对所述原始音频数据进行啸叫抑制处理，得到所述原始音频数据的啸叫抑制增益；

转换模块914，用于根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据。

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应，M为大于1的正整数；

第二处理模块913包括获取单元91a、第一确定单元92a以及第二确定模块93a；

获取单元91a，用于从所述音频特征信息中，获取所述M个频点分别对应的基音能量；

第一确定单元92a，用于根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率；所述语音数据概率为用于反映频点对应音频数据段包括语音数据的概率；

第二确定模块93a，用于根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率；所述初始啸叫概率为用于反映频点对应的音频数据段包括啸叫数据的初始概率；根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益。

可理解的是，第一确定单元92a根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率，包括：

可理解的是，第二确定单元93a根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率，包括：

可理解的是，第二确定单元93a根据所述频点M_i的能量相似度和所述特征相似度，确定所述频点M_i对应的初始啸叫概率，包括：

可理解的是，第二确定单元93a根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益，包括：

可理解的是，第二确定单元93a根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量，确定所述原始音频数据的啸叫抑制增益，包括：

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应；第一处理模块912包括生成单元94a、第三确定单元95a以及第四确定单元96a；

生成单元94a，用于根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征；

第三确定单元95a，用于根据所述M个频点中的频点M_i对应的分类特征，确定所述频点M_i对应噪声概率；所述噪声概率用于反映频点对应的音频数据段包括噪声数据的概率；i为小于或等于M的正整数；

生成单元94a，用于根据所述频点M_i对应的噪声概率，生成所述频点M_i对应的噪声抑制增益；

第四确定单元96a，用于若获取到所述M个频点分别对应的噪声抑制增益，则将所述M个频点分别对应的噪声抑制增益，确定为所述原始音频数据的第一噪声抑制增益。

可理解的是，第四确定单元96a根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征，包括：

可理解的是，第四确定单元96a根据所述M个频点分别对应的原始音频能量，分别确定所述频点M_i对应的频谱平坦度和频谱模板差异，包括：

转换模块914根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据，包括：

可理解的是，转换模块914将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行融合，得到所述频点M_i对应的第二频谱增益，包括：

根据本申请的一个实施例，图3所示的音频数据处理方法所涉及的步骤可由图9所示的音频数据处理装置中的各个模块来执行。例如，图3中所示的步骤S101可由图9中的提取模块911来执行，图3中所示的步骤S102可由图9中的第一处理模块912来执行；图3中所示的步骤S103可由图9中的第二处理模块913来执行；图3中所示的步骤S104可由图9中的转换模块914来执行。

根据本申请的一个实施例，图9所示的音频数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，音频数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理组件和存储组件的例如计算机的通用计算机设备上运行能够执行如图3和图8中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图9中所示的音频数据处理装置，以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，上述计算机设备1000可以为上述方法中的第二设备，具体可以是指终端或服务器，包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一条通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，在一些实施例中，用户接口1003可以包括显示屏（DiSPlay）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器（non-volatile MeMory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个在远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备限定应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现：

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应，M为大于1的正整数；处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述频域音频数据和所述音频特征信息，对所述原始音频数据进行啸叫抑制处理，得到所述原始音频数据的啸叫抑制增益，包括：

从所述音频特征信息中，获取所述M个频点分别对应的基音能量；

根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率；所述语音数据概率为用于反映频点对应音频数据段包括语音数据的概率；

根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率；所述初始啸叫概率为用于反映频点对应的音频数据段包括啸叫数据的初始概率；

根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益。

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述频点M_i的能量相似度和所述特征相似度，确定所述频点M_i对应的初始啸叫概率，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量，确定所述原始音频数据的啸叫抑制增益，包括：

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应；处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述频域音频数据对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第一噪声抑制增益，包括：

根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征；

根据所述M个频点中的频点M_i对应的分类特征，确定所述频点M_i对应噪声概率；所述噪声概率用于反映频点对应的音频数据段包括噪声数据的概率；i为小于或等于M的正整数；

根据所述频点M_i对应的噪声概率，生成所述频点M_i对应的噪声抑制增益；

若获取到所述M个频点分别对应的噪声抑制增益，则将所述M个频点分别对应的噪声抑制增益，确定为所述原始音频数据的第一噪声抑制增益。

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述M个频点分别对应的原始音频能量，分别确定所述频点M_i对应的频谱平坦度和频谱模板差异，包括：

可理解的是，所述频域音频数据包括M个频点分别对应的原始音频能量，M为大于1的正整数；处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据，包括：

可理解的是，处理器1001可以用于调用存储器1005中存储的设备限定应用程序，以实现将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行融合，得到所述频点M_i对应的第二频谱增益，包括：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3和图8所对应实施例中对上述音频数据处理方法的描述，也可执行前文图9所对应实施例中对上述音频数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音频数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3和图8对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署在一个地点的至少两个计算机设备上执行，又或者，在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行，分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的音频数据处理装置或者上述计算机设备的中部存储单元，例如计算机设备的硬盘或中存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（SMart M_edia card，SMC），安全数字（S_ecure digital，SD）卡，闪存卡（flaSh card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的中部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同媒体中容，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

可理解的是，本申请以上实施例如果需要用到用户信息等，需要获得用户许可或者同意，需要遵守相关国家和地区的相关法律法规。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现前文图3和图7对应实施例中对上述音频数据处理方法、解码方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器，使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应，M为大于1的正整数；

所述根据所述频域音频数据和所述音频特征信息，对所述原始音频数据进行啸叫抑制处理，得到所述原始音频数据的啸叫抑制增益，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述M个频点分别对应的基音能量，确定所述M个频点分别对应的语音数据概率，包括：

4.如权利要求2所述的方法，其特征在于，所述根据所述M个频点分别对应的原始音频能量和所述音频特征信息，确定所述M个频点分别对应的初始啸叫概率，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述频点M_i的能量相似度和所述特征相似度，确定所述频点M_i对应的初始啸叫概率，包括：

6.如权利要求2所述的方法，其特征在于，所述根据所述M个频点分别对应的语音数据概率和所述初始啸叫概率，确定所述原始音频数据的啸叫抑制增益，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述M个频点分别对应的语音数据概率、所述初始啸叫概率以及所述K个频点子带分别对应的平滑音频能量，确定所述原始音频数据的啸叫抑制增益，包括：

8.如权利要求1所述的方法，其特征在于，所述频域音频数据包括M个频点分别对应的原始音频能量，一个频点与所述原始音频数据中的一个音频数据段对应；所述根据所述频域音频数据对所述原始音频数据进行噪声抑制处理，得到所述原始音频数据的第一噪声抑制增益，包括：

9.如权利要求8所述的方法，其特征在于，所述根据所述M个频点分别对应的原始音频能量，生成所述M个频点分别对应的分类特征，包括：

10.如权利要求9所述的方法，其特征在于，所述根据所述M个频点分别对应的原始音频能量，分别确定所述频点M_i对应的频谱平坦度和频谱模板差异，包括：

11.如权利要求1所述的方法，其特征在于，所述频域音频数据包括M个频点分别对应的原始音频能量，M为大于1的正整数；

所述根据所述第一噪声抑制增益、所述第二噪声抑制增益和所述啸叫抑制增益，对所述频域音频数据进行时域转换处理，得到目标音频数据，包括：

12.如权利要求11所述的方法，其特征在于，所述将所述频点M_i对应的第二噪声抑制增益与所述第一频谱增益进行融合，得到所述频点M_i对应的第二频谱增益，包括：

13.一种音频数据处理装置，其特征在于，包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

16.一种计算机程序产品或计算机程序，其特征在于，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，所述计算机指令适于由处理器读取并执行权利要求1-12中任一项所述的方法的步骤。