CN114792524A

CN114792524A - 音频数据处理方法、装置、程序产品、计算机设备和介质

Info

Publication number: CN114792524A
Application number: CN202210720831.0A
Authority: CN
Inventors: 刘秋男; 黄飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-07-26
Anticipated expiration: 2042-06-24
Also published as: CN114792524B

Abstract

本申请公开了一种音频数据处理方法、装置、程序产品、计算机设备和介质，该方法包括：获取待优化的目标音频数据；调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。采用本申请，可以提升对目标音频数据的优化效果。

Description

音频数据处理方法、装置、程序产品、计算机设备和介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频数据处理方法、装置、程序产品、计算机设备和介质。

背景技术

随着计算机网络的不断发展，线上语音通话的应用也越来越多，而由于语音通话时周围环境的不确定，线上语音通话中通常会存在声音不清晰的问题，因此需要对线上语音通信过程中的语音进行优化处理。

现有应用中，通常是直接对线上语音通信中的语音进行简单的降噪处理，而这种简单的降噪处理对语音优化的效果较差，不能满足实际语音优化的需求，因此，如何对线上通信语音过程中的语音进行更好地优化成为一个亟待解决的问题。

发明内容

本申请提供了一种音频数据处理方法、装置、程序产品、计算机设备和介质，可以提高对目标音频数据的优化效果。

本申请一方面提供了一种音频数据处理方法，该方法包括：

获取待优化的目标音频数据；

调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；

调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；

调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。

本申请一方面提供了一种音频数据处理装置，该装置包括：

获取模块，用于获取待优化的目标音频数据；

回声消除模块，用于调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；

噪声抑制模块，用于调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；

响度增益模块，用于调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。

可选的，目标音频数据是由第一通信端采集到的需要传输给第二通信端的音频数据；回声消除模块调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据的方式，包括：

获取第二通信端采集到的参考音频数据；

调用音频优化网络基于参考音频数据对目标音频数据进行回声消除处理，得到回声消除的音频数据。

可选的，回声消除模块调用音频优化网络基于参考音频数据对目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

获取参考音频数据与目标音频数据之间音频特征的相关性；

基于相关性对参考音频数据和目标音频数据进行时间对齐处理，得到时间对齐的参考音频数据和时间对齐的目标音频数据；

基于时间对齐的参考音频数据和时间对齐的目标音频数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据。

可选的，回声消除模块基于时间对齐的参考音频数据和时间对齐的目标音频数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

基于时间对齐的参考音频数据生成模拟回声数据；

基于模拟回声数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据。

可选的，回声消除模块基于模拟回声数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

基于模拟回声数据对时间对齐的目标音频数据进行回声消除处理，得到目标音频数据的初始优化数据；

根据参考音频数据、模拟回声数据、目标音频数据和初始优化数据，生成针对初始优化数据的回声过滤掩膜；

基于回声过滤掩膜对初始优化数据进行回声过滤处理，得到回声消除的音频数据。

可选的，噪声抑制模块调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据的方式，包括：

调用音频优化网络在频域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在频域的降噪数据；

调用音频优化网络在时域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在时域的降噪数据；

对在频域的降噪数据和在时域的降噪数据进行融合处理，得到降噪处理的音频数据。

可选的，噪声抑制模块调用音频优化网络在频域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在频域的降噪数据的方式，包括：

将回声消除的音频数据由时域转换到频域，得到回声消除的音频数据的频域转换数据；频域转换数据包含将回声消除的音频数据转换到频域的实部数据和虚部数据；

对实部数据进行建模处理，得到建模后的实部数据，并对虚部数据进行建模处理，得到建模后的虚部数据；

根据建模后的实部数据和建模后的虚部数据，确定在频域的降噪数据。

可选的，噪声抑制模块调用音频优化网络在时域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在时域的降噪数据的方式，包括：

调用音频优化网络提取回声消除的音频数据在时域上的音频特征数据；

调用音频优化网络生成针对音频特征数据的特征过滤掩膜；

基于特征过滤掩膜对音频特征数据进行特征过滤处理，得到在时域的降噪数据。

可选的，噪声抑制模块对在频域的降噪数据和在时域的降噪数据进行融合处理，得到降噪处理的音频数据的方式，包括：

调用音频优化网络生成在频域的降噪数据的第一融合权重及在时域的降噪数据的第二融合权重；

基于第一融合权重和第二融合权重对在频域的降噪数据和在时域的降噪数据进行加权求和，得到降噪处理的音频数据。

可选的，响度增益模块调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据的方式，包括：

调用音频优化网络获取针对音频响度的平稳增益曲线；

基于平稳增益曲线对降噪处理的音频数据进行响度增益处理，得到优化音频数据。

可选的，音频优化网络包含优化卷积网络和剪枝卷积网络，优化卷积网络用于对目标音频数据进行音频优化，剪枝卷积网络用于减少优化卷积网络的通道数。

可选的，目标音频数据是第一通信端采集到的需要传输给第二通信端的音频数据；

上述装置还用于：

将目标音频数据的优化音频数据传输给第二通信端，使第二通信端播放优化音频数据。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时使该处理器执行上述一方面中的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一方面等各种可选方式中提供的方法。

本申请可以获取待优化的目标音频数据；调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。由此可见，本申请提出的方法可以采用音频优化网络在回声消除、噪声抑制以及响度增益上同时对目标音频数据进行多方位的优化处理，可以提升对音频数据进行优化的效果。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种网络架构的结构示意图；

图2是本申请提供的一种音频优化的场景示意图；

图3是本申请提供的一种音频数据处理方法的流程示意图；

图4是本申请提供的一种语音通信的场景示意图；

图5是本申请提供的一种数据优化的场景示意图；

图6是本申请提供的一种对音频数据进行回声消除的流程示意图；

图7是本申请提供的一种深度申请网络的结构示意图；

图8是本申请提供的一种对音频数据进行噪声抑制的流程示意图；

图9a-图9c是本申请提供的一种降噪网络的结构示意图；

图10是本申请提供的一种参数剪枝的场景示意图；

图11是本申请提供的一种音频数据处理装置的结构示意图；

图12是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请涉及到人工智能相关技术。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请中主要涉及到了人工智能中的机器学习。其中，机器学习(MachineLearning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请中所涉及到的机器学习主要指可以通过训练得到的音频优化网络对音频数据进行多方面的优化，提升对音频数据的优化效果。

本申请还涉及到区块链的相关技术。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链中包括一系列按照产生的先后时间顺序相互接续的区块（Block），新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。本申请中，可以将优化得到的优化音频数据上链，以保证优化音频数据的不可篡改性。

本申请还涉及到云技术。其中，云技术（Cloud Technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。本申请中所涉及到的云技术主要指通信端之间可以通过“云”进行线上语音通信。

首先，需要进行说明的是，本申请在收集用户的相关数据（如用户线上语音通信时的目标音频数据等用户数据）之前以及在收集用户的相关数据的过程中，都可以显示提示界面或者弹窗，该提示界面或者弹窗用于提示用户当前正在搜集其相关数据，使得本申请仅仅在获取到用户对该提示界面或者弹窗发出的确认操作后，才开始执行获取用户相关数据的相关步骤，否则（即未获取到用户对该提示界面或者弹窗发出的确认操作时），结束获取用户相关数据的相关步骤，即不获取用户的相关数据。换句话说，本申请所采集的所有用户数据都是在用户同意并授权的情况下进行采集的，且相关用户数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

此处，对本申请涉及到的相关概念进行说明：

LSTM(Long short-term memory，长短期记忆网络)：一种特殊结构的循环神经网络，能够学习到长序列（如音频序列）输入的长期依赖关系，解决长序列训练中的梯度消失和梯度爆炸问题。

时域/频域：时域和频域是信号的基本性质，可以从不同的维度分析信号，从不同角度切入解决问题，不同角度可以称之为域。时域反应了数学函数或物理信号与时间的对应关系，是真实世界的反馈，唯一客观存在的域。频域是描述信号在频域特性时用到的一种坐标系，它是从数学角度构造出来的辅助思考的一种方式，不是真实存在的。

请参见图1，图1是本申请提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器200和终端设备集群，终端设备集群可以包括一个或者多个终端设备，这里将不对终端设备的数量进行限制。如图1所示，多个终端设备具体可以包括终端设备1、终端设备2、终端设备3、…、终端设备n；如图1所示，终端设备1、终端设备2、终端设备3、…、终端设备n均可以与服务器200进行网络连接，以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。

如图1所示的服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、车载终端、飞行器等智能终端。下面以终端设备1、终端设备3与服务器200之间的通信为例，进行本申请实施例的具体描述。

请一并参见图2，图2是本申请提供的一种音频优化的场景示意图。如图2所示，终端设备1可以是第一通信端，终端设备3可以是第二通信端，服务器200可以是终端设备1和终端设备3的后台服务器（可以称之为是通信后台），第一通信端与第二通信端之间可以进行语音通信。

第一通信端可以采集到用户1向用户2说的话，第一通信端采集到的用户1向用户2说的话即为待优化的目标音频数据，该目标音频数据中可能还会包含回声、噪声等数据，该回声可能是第二通信端采集到的声音传输至第一通信端且被第一通信端播放后又被第一通信端采集到的声音。

因此，在第一通信端，可以通过音频优化网络对目标音频数据进行优化。其中，音频优化网络可以包含回声消除网络、噪声抑制网络和响度增益网络，首先，第一通信端可以调用音频优化网络中的回声消除网络对目标音频数据中的回声进行消除，以得到目标音频数据的回声消除的音频数据。

继而，第一通信端可以接着调用音频优化网络中的噪声抑制网络对回声消除的音频数据中的噪声进行抑制，以得到目标音频数据的降噪处理的音频数据，至此，就对目标音频数据中的回声以及噪声消除完成。

但是在语音通信场景中，可能通信端与用户之间的距离忽远忽近，或者用户说话时小时大等各种因素，会导致通信端采集到的音频数据的响度也忽大忽小，影响用户听感，因此，第一通信端还可以接着调用音频优化网络中的响度增益网络对上述降噪处理的音频数据进行响度增益处理，以最终得到目标音频数据的优化音频数据，该优化音频数据的响度就是比较平稳波动的响度。

其中，第一通信端调用音频优化网络对目标音频数据进行优化的具体过程还可以参见下述图3对应实施例中的相关描述。

通过上述过程，第一通信端就可以获取到目标音频数据的优化音频数据，该优化音频数据就可以是对目标音频数据进行回声消除、噪声抑制以及响度增益处理后得到的音频数据，该优化音频数据就可以是包含用户1干净的语音且响度平稳波动的音频数据。

第一通信端可以通过服务器200将得到的优化音频数据传输给第二通信端，第二通信端可以对获取到的优化音频数据进行播放，使得用户2就可以听到用户1对其通信的语音。

采用本申请，通过一个网络（如音频优化网络）可以实现对音频数据的多方面一体化优化，可以提升在复杂混合场景下对音频数据的优化效果和优化效率，保障用户间语音通信的质量。

请参见图3，图3是本申请提供的一种音频数据处理方法的流程示意图。如图3所示，该方法可以包括：

步骤S101，获取待优化的目标音频数据。

可选的，本申请实施例提供的方法可以应用在语音通信过程中对通信的语音进行优化的场景，因此，本申请实施例中的执行主体可以是需要对本端的语音进行优化的任意通信端，该通信端可以是终端设备，或者，该通信端也可以是服务器，对此不作限制，具体根据实际应用场景确定。

可选的，本申请中的执行主体可以称之为是第一通信端，该第一通信端可以是终端设备，也可以是服务器，与第一通信端进行语音通信的通信端可以称之为是第二通信端，第一通信端与第二通信端不是相同的通信端，第二通信端的数量可以是一个也可以是多个，对此不作限制，具体根据实际应用场景确定。可以理解的是，第一通信端可以是任意的进行语音通信的端（如设备）。

若第二通信端是一个，则第一通信端和第二通信端之间是一对一通信，若第二通信端是多个，则第一通信端和第二通信端之间是群聊通信。第二通信端也可以是终端设备，或者也可以是服务器，对此也不做限制。

可选的，本申请中第一通信端与第二通信端之间可以是通过应用程序（如app）进行语音通信的，如通讯的应用程序中可以有线上语音通信的功能，可以是通过该线上语音通信的功能发起的第一通信端与第二通信端之间的语音通信，或者，第一通信端和第二通信端之间也可以是通过通信运营商的通信网络进行通信的，如第一通信端与第二通信端之间的语音通信可以是相互之间打电话的通信。

其中，第一通信端与第二通信端之间具体是通过何种媒介进行通信具体可以根据实际应用场景确定，对此不作限制。

因此，第一通信端可以获取到待优化的目标音频数据，该目标音频数据可以是由第一通信端采集到的需要传输给第二通信端的音频数据，例如，第一通信端可以是用户A的通信端，第二通信端可以是用户B的通信端，那么目标音频数据可以是第一通信端采集到的包含用户A向用户B说的话的音频数据。

更多的，目标音频数据通常还包含第一通信端采集到的用户A所在环境中的噪声，以及，目标音频数据还可以包含第一通信端采集到的回声，该回声可以是第二通信端采集到的声音（如下述图6对应实施例中的参考音频数据）传输到第一通信端被第一通信端的听筒（如扬声器）播放后，又被第一通信端的麦克风采集得到。

请参见图4，图4是本申请提供的一种语音通信的场景示意图。如图4所示，用户A可以持有第一通信端，用户B可以持有第二通信端，用户A可以通过第一通信端与用户B进行语音通信，同理，用户B可以通过第二通信端与用户A进行通信。

可选的，应用界面1可以是第一通信端中通信应用的界面，该通信应用中可以登录有用户A的用户账号，应用界面1可以是第一通信端的通信应用中用户A与用户B通信的界面。因此，用户A可以通过应用界面1中“语音”的功能控件向用户B发起语音通话。第二通信端中也包含通信应用，第二通信端的通信应用中可以登录有用户B的用户账号，用户B可以通过第二通信端中的通信应用接受用户A发起的语音通话，接收之后，第一通信端可以显示应用界面3，第二通信端可以显示应用界面2。

其中，应用界面2是第二通信端中用户B与用户A进行语音通话的界面，应用界面3是第一通信端中用户A与用户B进行语音通话的界面，接着，用户A和用户B之间就可以相互进行语音通话了。

其中，在用户A与用户B进行语音通话的过程中，第一通信端可以采集得到本端的声音（如用户A讲话的声音），第一通信端采集到的声音就为待优化的目标音频数据，该目标音频数据很大可能包含用户A所在环境中的噪声、以及第二通信端的声音传输过来产生的回声。

因此，第一通信端可以对采集到的目标音频数据进行一键开启3A一体化优化，以得到优化后的目标音频数据（即下述中的优化音频数据），其中，此处的3A可以包括自动增益控制(AGC, Automatic Gain Control)、噪声抑制(ANS, Adaptive Noise Suppression)和回声消除(AEC, Audio Echo Cancellation)。进而，第一通信端可以将优化后的目标音频数据传输给第二通信端进行播放。

可选的，上述通信应用中还可以提供针对语音通话过程中是否要对语音进行优化的开关（可以是开关控件），用户可以通过该开关控件自行选择是否要对当前进行语音通话过程中的语音进行优化。

下面描述对目标音频数据进行优化的具体过程，如下述内容描述。

步骤S102，调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据。

可选的，音频优化网络可以是训练好的可以用于对音频数据进行优化的网络（即模型），音频优化网络可以包含用于对音频数据进行回声消除的网络（可以称之为是回声消除网络）、用于对音频数据进行噪声增益的网络（可以称之为是噪声抑制网络）以及用于对音频数据进行响度自动增益的网络（可以称之为是响度增益网络），实现在回声消除、噪声抑制以及自动增益控制的多任务一体化建模，使得音频优化网络能够有效的提升复杂混合场景的音频质量。

因此，首先，第一通信端可以调用音频优化网络中的回声消除网络对目标音频数据进行回声消除处理，以得到目标音频数据的回声消除的音频数据，该回声消除的音频数据也就是调用回声消除网络对目标音频数据进行回声消除后得到的音频数据。

其中，第一通信端调用回声消除网络对目标音频数据进行回声消除以得到回声消除的音频数据的具体过程，也可以参见下述图6对应实施例中的描述。

步骤S103，调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据。

可选的，第一通信端可以调用音频优化网络中的噪声抑制网络对上述回声消除的音频数据进一步进行噪声抑制处理，以得到目标音频数据的降噪处理的音频数据，该降噪处理的音频数据就是对目标音频数据的回声消除的音频数据进行进一步的降噪处理后的音频数据。通过对回声消除的音频数据进行噪声抑制处理，可以去除该回声消除的音频数据中的噪声，可选的，该噪声可能是采集到的环境声所产生的。

其中，第一通信端调用噪声抑制网络对噪声抑制处理以得到降噪处理的音频数据的具体过程，也可以参见下述图8对应实施例中的描述。

步骤S104，调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。

可选的，第一通信端可以调用音频优化网络中的响度增益网络对上述降噪处理的音频数据进行响度增益处理，以得到对目标音频数据最终优化的音频数据，即优化音频数据，该优化音频数据就是对目标音频数据依次进行回声消除处理、噪声抑制处理和响度增益处理后得到的音频数据。换句话说，优化音频数据就是对目标音频数据最终优化得到的音频数据。可选的，上述响度增益网络可以是基于两个LSTM（长短期记忆网络）构成。

其中，由于在语音通信过程中，通信的语音的响度（如音量）可能会忽高忽低，影响用户通话体验，因此，通过对降噪处理的音频数据进行响度增益处理，可以自适应地提高降噪处理的音频数据中响度较低那部分音频数据的响度，并自适应地降低降噪处理的音频数据中响度较高那部分音频数据的响度，实现对降噪处理的音频数据中响度不同的音频数据处进行不同程度的增益处理，让得到的优化音频数据的响度保持在一个比较平稳的曲线波动范围内，以提升通话过程中用户的通信体验。

第一通信端可以将优化音频数据传输给第二通信端，进而第二通信端就可以播放该优化音频数据，以实现第一通信端的用户与第二通信端的用户之间的语音通信。可选的，第一通信端和第二通信端具有通信后台，第一通信端可以通过该通信后台将优化音频数据传输给第二通信端。

可选的，第一通信端对降噪处理的音频数据进行响度增益处理的过程可以包括：上述音频优化网络中的响度增益网络可以是预先通过若干响度平稳的音频数据（可以称之为是响度增益样本）训练得到，该响度增益网络在训练过程中可以学习得到该若干响度平稳的音频数据的响度曲线，可以将响度增益网络学习到的响度曲线称之为是平稳增益曲线，该平稳增益曲线中响度的波动规律就与该若干响度平稳的音频数据的响度的波动规律近似，该平稳增益曲线就可以用于表征理想的音频响度随着时间（t）平稳波动的情况。

因此，第一通信端可以调用响度增益网络获取到针对音频响度的该平稳增益曲线，进而，第一通信端可以调用响度增益网络通过学习得到的该平稳增益曲线对降噪处理的音频数据进行响度增益处理（如对降噪处理的音频数据与平稳增益曲线进行相乘，即可实现对降噪处理的音频数据的响度增益处理），得到优化音频数据，使得优化音频数据的响度波动曲线可以与该平稳增益曲线相同或者相近，得到的优化音频数据的音频响度波动也会是属于悦耳且平稳的波动。

可以理解为，通过上述平稳增益曲线可以得到降噪处理的音频数据中具有不同响度的音频数据的不同增益值（也可以称之为是增益因子），通过该增益值对降噪处理的音频数据中各处音频数据的响度进行响度增益处理（如相乘），并且，响度越高的音频数据可以具有越小的增益值，响度越低的音频数据可以具有越高的增益值，以实现对降噪处理的音频数据中具有较高响度的音频数据的响度削弱，并实现对降噪处理的音频数据中具有较低响度的音频数据的响度增强，最终得到整体响度波动都比较平稳的音频数据（即优化音频数据）。

请参见图5，图5是本申请提供的一种数据优化的场景示意图。如图5所示，首先，可以将待优化的音频数据（即目标音频数据）输入回声消除模块（如上述回声消除网络），在回声消除模块中，首先可以对参考音频数据和目标音频数据进行延时补偿（如时间对齐，具体可以参见下述图6对应实施例中的相关描述），进而，可以对时间对齐的参考音频数据和目标音频数据采用AEC算法进行初次回声消除，接着，再通过深度学习（如通过深度神经网络）对初次回声消除后的音频数据（如上述初次优化数据）进行残余回声消除，即可通过回声消除模块输出得到回声消除的音频数据。

进而，可以将上述回声消除模块输出的回声消除的音频数据输入噪声抑制模块（如上述噪声抑制网络），在噪声抑制模块对回声消除的音频数据中的噪声进行去除，即可通过噪声抑制模块输出降噪处理的音频数据。

接着，可以将上述噪声抑制模块输出的降噪处理的音频数据输入自动增益调整模块（如上述响度增益网络），在自动增益调整模块对降噪处理的音频数据的响度进行响度增益调整，即可得到增益处理的音频数据，该增益处理的音频数据即为对目标音频数据进行优化得到的上述优化音频数据。

可以理解的是，在音视频通话的现实场景中，不同通话者说话音量各有不同，通话者需要频繁的调整播放音量来满足听感的需要，戴耳机的用户随时承受着大音量对耳朵的“暴击”。此外，通话者可能处于各种各样嘈杂的环境下，如：吵闹的街道上来往车辆发出的声音、食堂中多人交谈等杂乱的背景音、办公场景下响亮的键盘敲击声和鼠标“卡塔卡塔”声音等等。通话者所处的通话环境可能是在开放环境中或者密闭的房间、会议室等，这些环境可能给音频引入回声。因此，在上述场景中对发送端音频进行均衡处理显得尤为重要，本申请中优秀的语音3A一体化算法能够有效应对各场景挑战，极大地缓解由设备采集差异、说话人音量大小、距离远近等因素导致的语音质量的差异。

本申请中，由于语音通信过程中很大可能会有回声，因此，本申请首先对目标音频数据进行回声消除，进而再对回声消除的音频数据进行噪声抑制处理（即降噪处理），可以极好地消除掉目标音频数据中的回声和噪声，实现对目标音频数据的音频增强，进而，再对降噪处理的音频数据进行响度增益处理，使得响度增益处理所得到的优化音频数据的响度波动处于平稳波动范围，此过程可以对目标音频数据进行准确且完善的优化，以得到目标音频数据最终的优化音频数据。因此，采用本申请提供的方法，可以针对音频通信场景对通信的音频数据进行特有的全方位完备的优化，解决多种噪声干扰带来的影响，提高优化得到的音频数据（即优化音频数据）的质量，进而提升音频通信的体验感。

请参见图6，图6是本申请提供的一种对音频数据进行回声消除的流程示意图。如图6所示，该方法可以包括：

步骤S201，获取第二通信端采集到的参考音频数据。

可选的，本申请实施例中的执行主体也可以是上述第一通信端。与第一通信端进行通信的第二通信端可以采集到参考音频数据，该参考音频数据可以是第二通信端通过对麦克风采集到的声音进行录制得到，该参考音频数据可以包括第二通信端的用户说话的声音，还可以包括第二通信端的用户所在环境的声音等。换句话说，可以将第二通信端采集到的声音称之为是参考音频数据。

因此，第二通信端可以将采集到的参考音频数据传输给第一通信端，第一通信端就可以获取到第二通信端传输过来的参考音频数据。

其中，可以理解的是，该参考音频数据播放的时刻可以与目标音频数据被采集的时刻同步，因此，目标音频数据中很大可能包含第一通信端采集到的参考音频数据被播放的声音，该声音就可以理解为是目标音频数据中的回声，该回声就可以是通过播放第二通信端传输过来的参考音频数据所产生的。

因此，后续，第一通信端就可以通过该参考音频数据对目标音频数据中的回声进行消除。

步骤S202，调用音频优化网络基于参考音频数据对目标音频数据进行回声消除处理，得到回声消除的音频数据。

可选的，第一通信端可以调用音频优化网络中的回声消除网络基于上述参考音频数据对目标音频数据进行回声消除处理，该过程可以如下述内容描述。

首先，第一通信端可以调用回声消除网络获取目标音频数据与参考音频数据之间音频特征的相关性（可以称之为是音频相关性），该音频相关性可以是用于表征目标音频数据的音频特征与参考音频数据的音频特征之间的相关性。

其中，目标音频数据可以称之为是第一通信端的近端信号，该近端信号是第一通信端需要优化的信号，参考音频数据可以称之为是第一通信端的远端信号，该远端信号是第二通信端需要传输给第一通信端的信号。可选的，第一通信端可以采用广义互相关-相位变换方法（GCCPATH, Generalized Cross Correlation-Phase Transform）来获取目标音频数据与参考音频数据之间的音频特征在频域上的相关性（可以是目标音频数据与参考音频数据之间的互相关性）。如下述公式（1）所示，目标音频数据和参考音频数据之间音频特征的相关性

可以为：

（1）

其中，l表示信号（如音频信号）的帧数，p表示频段数。可以将参考音频数据表示为 x（t），t表示时间，

表示参考音频数据x（t）的频域表示，即将参考音频数据x（t）变换到频域可以得到

。同理，可以将目标音频数据表示为d（t），t表示时间，

表示目标音频数据d（t）的频域表示，即将目标音频数据d（t）变换到频域可以得到

。

表示信号

的共轭。

进而，第一通信端就可以通过目标音频数据与参考音频数据之间的音频相关性，来得到参考音频数据与目标音频数据之间在时域上的时间差（可以称之为是音频时间差），该音频时间差可以理解为是第二通信端采集参考音频数据的时刻到第一通信端播放参考音频数据后采集到播放的参考音频数据的声音的时刻之间的时间差。

如下述公式（2）所示，参考音频数据与目标音频数据之间在时域上的时间差

可以为：

（2）

其中，

表示傅里叶逆变换，

通过上述目标音频数据与参考音频数据之间音频特征的相关性

得到，

，

可以表示转置，P表示频率分量的个数。

表示

的幅值，max表示最大值。上述公式（2）可以表明时间差

是在目标音频数据与参考音频数据之间的音频特征的相关性达到最大值时得到的。

可以理解的是，两个信号（如目标音频数据和参考音频数据）之间的互相关值（如目标音频数据和参考音频数据之间音频特征的相关性

的值）越大，表示两个信号越接近，因此，时间差

可以是在目标音频数据和参考音频数据之间音频特征的相关性最大时所得到的时间差。例如，可以保持参考音频数据x（t）不变，将目标音频数据d（t）左移m个样本点（即时间点），m可以是整数，并将x（t）与左移后的d（t）相乘，当相乘结果最大时，可以根据此时移动的样本点的个数m来得到对应的时间差

。

因此，在通过参考音频数据对目标音频数据中的回声进行消除之前，需要对参考音频数据和目标音频数据进行时间对齐，第一通信端可以采用上述得到的参考音频数据与目标音频数据之间音频时间差，来对参考音频数据和目标音频数据进行时间对齐，对参考音频数据和目标音频数据进行时间对齐可以理解为是对参考音频数据和目标音频数据进行延时补偿。

例如，可以保持目标音频数据的音频表示不变，并可以对参考音频数据的音频表示中的时间参数减去该音频时间差，即可实现对参考音频数据与目标音频数据的时间对齐，或者，也可以保持参考音频数据的音频表示不变，并可以对目标音频数据的音频表示中的时间参数加上该音频时间差，即可实现对参考音频数据与目标音频数据的时间对齐。

举个例子，若参考音频数据的音频表示为

，目标音频数据的音频表示为

，t 表示时间参数，参考音频数据与目标音频数据之间音频时间差表示为

，则可以对

中的t减去

得到

，即可实现对参考音频数据与目标音频数据之间的时间对齐，时间对齐的参考音频数据就为

，时间对齐的目标音频数据还是为

。

再举个例子，若参考音频数据的音频表示为

，目标音频数据的音频表示为

，t表示时间参数，参考音频数据与目标音频数据之间音频时间差表示为

，则可以对

中的t加上

得到

，即可实现对参考音频数据与目标音频数据之间的时间对齐，时间对齐的参考音频数据还是为

，时间对齐的目标音频数据就为

。

进而，第一通信端就可以通过时间对齐的参考音频数据对时间对齐的目标音频数据进行回声消除处理，以得到上述目标音频数据的回声消除的音频数据，该过程可以如下内容描述。

第一通信端可以调用上述回声消除网络通过时间对齐的参考音频数据来生成模拟的回声数据，该模拟的回声数据也就是用于表征通过参考音频数据可能会产生的回声（可以是线性回波），可以将该模拟的回声数据称之为是模拟回声数据。

因此，第一通信端可以通过生成的该模拟回声数据对时间对齐的目标音频数据进行回声消除处理。具体的，上述模拟回声数据可以是频域上的信号，第一通信端可以将模拟回声数据从频域通过傅里叶反变换（即傅里叶逆变换）转换到时域上，得到模拟回声数据在时域上的信号，可以将该信号称之为是转换回声数据。

实际上，音频在时域的信号是音频序列，该音频序列包含若干个对音频的采样点（按照时间点采样得到的音频信号）。因此，可选的，在对目标音频数据（属于时域上的数据）进行回声消除时，可以是按照2T个样本点（即采样点）为块（block）来进行的，T可以根据实际应用场景设置，T为正整数。如可以将目标音频数据依次分为若干个2T样本点，相邻的2T个样本点之间可以重叠T个样本点，例如，第1个2T个样本点中最后面T个样本点可以与第2个2T个样本点中最前面T个样本点相同。

可以将进行时间对齐的参考音频数据中包含任意组2T样本点的信号表示为

，可以将进行时间对齐的目标音频数据中包含任意组2T样本点的信号表示为

，那么如下述公式所示，

和

分别可以是：

（3）

（4）

其中，

，t作为离散时间索引。

因此，如下述公式（5）所示，上述模拟回声数据Y（l，k）可以为：

（5）

其中，l表示信号（如音频信号）的帧数，k表示频段数，

表示

的频域表示， W（l，k）表示音频优化网络中滤波器权重（即网络参数），W（l，k）是音频优化网络训练完成的用于进行回声模拟的网络参数。

可以理解的是，若是按照2T个样本点为单位对目标音频数据进行初次回声消除，则参考音频数据的模拟回声信号可以包括将参考音频数据中各个2T个样本点分别对应的模拟回声数据Y（l，k）。

通过参考音频数据中各个2T个样本点对应的模拟回声数据可以分别对应对目标音频数据中各个2T个样本点对应的音频数据进行初次回声消除，如可以将目标音频数据中各个2T个样本点对应的音频数据中分别减去（即去掉）参考音频数据中对应的2T个样本点所属的模拟回声数据，即可得到目标音频数据中各个2T个样本点分别对应的进行初次回声消除的音频数据，一个（也可以理解为是一组）2T个样本点对应一个进行初次回声消除的音频数据，如参考音频数据中第1组2T个样本点对应目标音频数据中第1组2T个样本点，参考音频数据中第2组2T个样本点对应目标音频数据中第2组2T个样本点，以此类推。参考音频数据划分各个2T个样本点的原理与目标音频数据划分各个2T个样本点的原理相同。

如下述公式（6）所示，上述

的初次进行回声消除的音频数据

为：

（6）

表示

对应的模拟回声信号Y（l，k）的时域表示，如可以对，该模拟回声信号 Y（l，k）进行傅里叶逆变换，即可得到

。

进而，通过将目标音频数据中各组2T个样本点对应的初次进行回声消除的音频数据进行叠加，即可得到目标音频数据最终进行初次回声消除的音频数据。

进而，第一通信端可以在目标音频数据（时域上的）中减去转换回声数据这部分信号，得到目标音频数据初次进行回声消除的音频数据，可以将该初次进行回声消除的音频数据称之为是初始优化数据。

可选的，上述所描述的对目标音频数据进行初次回声消除以得到目标音频数据的初始优化数据的过程，可以是基于AEC（语音自适应回声消除）算法实现的，通过上述所描述的回声消除方法，可以实现对目标音频数据中的线性回波分量的去除。

进一步地，第一通信端还可以通过深度神经网络对初始优化数据中的残余回声进行进一步地消除：回声消除网络中还可以包括用于进行回声消除的深度神经网络，第一通信端可以将上述参考音频数据、模拟回声数据、目标音频数据和初始优化数据一起输入该深度神经网络，以调用该深度神经网络对初始优化数据进行残余回声消除，该过程如下述内容描述。

第一通信端可以调用深度神经网络学习输入的参考音频数据、模拟回声数据、目标音频数据和初始优化数据的音频特征，继而基于学习到的音频特征生成针对初始优化数据的回声过滤掩膜（用于进行回声消除的mask（掩膜）），可以理解为，该回声过滤掩膜表征了该保留下初始优化数据中的哪些音频信号（即信号），以及该过滤掉初始优化数据中的哪些音频信号，该过滤掉的音频信号就为初始优化数据中残余的回声信号。

因此，第一通信端可以采用回声过滤掩膜对初始优化数据中的音频信号进行回声过滤处理，过滤完成，即可得到上述目标音频数据的回声消除的音频数据。

请参见图7，图7是本申请提供的一种深度申请网络的结构示意图。可选的，上述用于对初始优化数据中的残余回声进行消除的深度神经网络就可以如图7所示的深度神经网络（即残余回声消除网络），该深度神经网络（可以称为深度学习网络或者深度学习模型）可以包括conv（卷积层）、Norm（归一化层）、2个LSTM（长短期记忆网络）、Dense（全连接层）以及Activation（激活层）。

可以将上述参考音频数据、模拟回声数据、目标音频数据和初始优化数据输入该深度神经网络，在深度神经网络中，可以通过Norm分别对每个信号（包括参考音频数据、模拟回声数据、目标音频数据和初始优化数据）进行归一化，进而通过LSTM学习各个信号在时域方向上的前后依赖，以学习到各个信号特征之间高阶的非线性关系，最后通过将学习到的信息（如各个信号在时域方向上的前后依赖及各个信号特征之间高阶的非线性关系）输入到Dense以及Activation中即可生成针对初始优化数据的mask（即上述回声过滤掩膜）。

接着，可以将初始优化数据记为e（t），通过将生成的回声过滤掩膜与e（t）做乘积，即可得到对初始优化数据进行残余回声消除后的音频数据，对初始优化数据进行残余回声消除后的音频数据即为上述目标音频数据的回声消除的音频数据，也为此处的z（t）。

本申请中，通过AEC算法对目标音频数据进行初次的回声消除，进而还会通过深度神经网络对进行初始回声消除的音频数据（即初始优化数据）再次进行残余回声的消除，可以提高对目标音频数据进行回声消除的准确性和效果，达到对目标音频数据中的回声近乎完全消除的目的。

请参见图8，图8是本申请提供的一种对音频数据进行噪声抑制的流程示意图。如图8所示，该方法可以包括：

步骤S301，调用音频优化网络在频域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在频域的降噪数据。

可选的，本申请实施例中的执行主体也可以是上述第一通信端。第一通信端可以调用音频优化网络中的噪声抑制网络在频域对上述回声消除的音频数据进行噪声抑制处理，以得到回声消除的音频数据在频域降噪后的音频数据，可以将该在频域降噪后的音频数据称之为是在频域的降噪数据。获取在频域的降噪数据的过程可以如下述内容描述。

具体的，第一通信端可以调用噪声抑制网络在频域对回声消除的音频数据进行建模，以得到上述在频域的降噪数据（可以是在频域建模得到的音频数据）：回声消除的音频数据可以是时域上的信号，因此，第一通信端可以将回声消除的音频数据由时域转换到频域，以得到回声消除的音频数据在频域的音频数据，可以将回声消除的音频数据在频域的音频数据称之为是频域转换数据。

例如，第一通信端可以对回声消除的音频数据进行傅里叶变换，以得到回声消除的音频数据转换到频域的频域转换数据。

其中，可以理解的是，频域上的数据可以包含实部和虚部，因此，频域转换数据也包含回声消除的音频数据转换到频域的实部（可以称之为是实部数据）以及虚部（可以称之为是虚部数据）。

因此，进一步地，第一通信端可以对频域转换数据中的实部数据进行建模处理，得到建模后的实部数据，并可以对频域转换数据中的虚部数据进行建模处理，得到建模后的虚部数据。其中，对数据进行建模的过程就可以理解为是对数据进行降噪的过程。

进而对建模后的实部数据和建模后的虚部数据进行组合，即可得到对频域转换数据进行降噪后的音频数据，该对频域转换数据进行降噪后的音频数据就为上述在频域的降噪数据，该在频域的降噪数据属于频域上的数据。

本申请中通过分别在实部和虚部对回声消除的音频数据进行建模（即降噪），可以提高对回声消除的音频数据的降噪准确性和效果，进而得到回声消除的音频数据在频域进行准确降噪的音频数据（即上述在频域的降噪数据）。

步骤S302，调用音频优化网络在时域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在时域的降噪数据。

可选的，第一通信端还可以调用噪声抑制网络在时域对回声消除的音频数据进行噪声抑制处理，以得到回声消除的音频数据在时域降噪后的音频数据，可以将回声消除的音频数据在时域降噪后的音频数据称之为是在时域的降噪数据。其中，获取在时域的降噪数据的过程如下述内容描述。

第一通信端可以调用噪声抑制网络在时域上对回声消除的音频数据进行建模，以得到回声消除的音频数据在时域的降噪数据。首先，第一通信端可以调用噪声抑制网络提取回声消除的音频数据在时域上的音频特征数据，该音频特征数据也就包含音频优化网络提取得到的回声消除的音频数据的音频特征。

进而，第一通信端还可以调用音频优化网络生成针对该音频特征数据的mask（掩膜），可以将该mask称之为是特征过滤掩膜，可以理解为，该特征过滤掩膜用于选择音频特征数据中哪些特征信号需要被保留下来，以及音频特征数据中哪些特征信号需要被过滤掉。

因此，第一通信端可以采用该特征过滤掩膜对音频特征数据进行特征过滤处理（在数学运算上，可以是对特征过滤掩膜与音频特征数据进行相乘），以得到对音频特征数据进行特征过滤后的音频数据，该特征过滤后的音频数据即为获取到的上述在时域的降噪数据，该在时域的降噪数据是时域上的数据。

步骤S303，对在频域的降噪数据和在时域的降噪数据进行融合处理，得到降噪处理的音频数据。

可选的，第一通信端可以将在频域的降噪数据从频域转换到时域，如第一通信端可以对在频域的降噪数据进行傅里叶反变换，即可得到在频域的降噪数据在时域上的音频数据，可以将在频域的降噪数据转换到时域上的音频数据称之为是转换降噪数据，即将在频域的降噪处理从频域转换到时域即可得到转换降噪数据。

进而，第一通信端对在频域的降噪数据和在时域的降噪数据进行融合也即是指对转换降噪数据和在时域的降噪数据进行融合，通过对转换降噪数据和在时域的降噪数据进行融合即可得到降噪处理的音频数据。

可选的，第一通信端对转换降噪数据和在时域的降噪数据进行融合的过程可以包括：

第一通信端可以获取针对在频域的降噪数据的融合权重，可以将针对在频域的降噪数据的融合权重称之为是第一融合权重，该第一融合权重也是针对转换降噪数据的融合权重。

第一通信端还可以获取针对在时域的降噪数据的融合权重，可以将针对在时域的降噪数据的融合权重称之为是第二融合权重。

进而，第一通信端就可以通过第一融合权重对转换降噪数据进行加权（如相乘），得到加权后的转换降噪数据，第一通信端还可以通过第二融合权重对在时域的降噪数据进行加权（如相乘），得到加权后的在时域的降噪数据，继而，第一通信端对加权后的转换降噪数据和加权后的在时域的降噪数据进行相加，即可得到上述目标音频数据的降噪处理的音频数据。

可选的，上述针对在频域的降噪数据的第一融合权重和针对在时域的降噪数据的融合权重可以是预先根据实际应用场景进行设定的；或者，上述第一融合权重和第二融合权重也可以是第一通信端调用音频优化网络所生成的，此种情形中，噪声抑制网络中可以预先训练有用于生成针对频域的降噪数据的融合权重以及用于生成针对时域的降噪数据的融合权重的网络（可以称之为权重生成网络），第一融合权重和第二融合权重就可以是通过预先训练的该权重生成网络来生成的。

或者，可选的，本申请也可以直接对上述转换降噪数据和在时域的降噪数据进行相加，也可得到降噪处理的音频数据，此处可以理解为是两者的权重均为1。其中，具体如何对转换降噪数据和在时域的降噪数据进行融合也可以根据实际应用场景进行设置，对此不做限制。

请参见图9a-图9c，图9a-图9c是本申请提供的一种降噪网络的结构示意图。如图9a所示，上述噪声抑制网络可以如图9a所示，该噪声抑制网络可以是dual-path encoder-decoder（双支路/编解码器）结构，包括并联的两条支路：一条支路是在时域上对语音信号（如回声消除的音频数据）进行建模，另一条是基于时频域（也就是频域）对语音信号（如回声消除的音频数据）进行建模。其中，encoder-decoder（编解码器）结构以卷积为基本单元。

其中，对回声消除的音频数据在频域进行建模即为在频域对回声消除的音频数据进行降噪，可以得到回声消除的音频数据在频域的降噪数据。同理，对回声消除的音频数据在时域进行建模即为在时域对回声消除的音频数据进行降噪，可以得到回声消除的音频数据的上述在时域的降噪数据。

如图9a所示，对回声消除的音频数据在频域进行建模的过程包括：第一通信端可以调用噪声抑制网络将回声消除的音频数据变换到频域，得到上述频域转换数据，接着可以通过频域特征提取网络（Time-Frequency Domain Feature Extraction Network）对频域转换数据进行特征提取，以得到上述在频域的降噪数据，进而，对该在频域的降噪数据进行频域反变换，即可得到将该在频域的降噪数据转换到时域的上述转换降噪数据。

可选的，该频域特征提取网络如图9b所示，此处回声消除的音频数据在频域的信号即为上述频域转换数据，该频域转换数据包含实部（可以是此处的实部信号，即上述实部数据）和虚部（可以是此处的虚部信号，即上述虚部数据）。该频域特征提取网络中实部LSTM1、实部LSTM2以及Dense1用于对该实部信号进行建模（可以理解为是对实部信号进行降噪），以得到建模后的实部信号（即上述建模后的实部数据）。该频域特征提取网络中虚部LSTM1、虚部LSTM2以及Dense2用于对该虚部信号进行建模（可以理解为是对虚部信号进行降噪），以得到建模后的虚部信号（即上述建模后的虚部数据）。其中，频域特征提取网络中LSTM网络层是complex-valued（复数）LSTM结构。

具体的，可以将实部信号记为

，可以将虚部信号记为

。

其中，将实部信号

输入实部LSTM1可以得到实部信号在实部LSTM1中的建模结果

，将虚部信号

输入实部LSTM1可以得到虚部信号在实部LSTM1中的建模结果

。

同理，将虚部信号

输入虚部LSTM1可以得到虚部信号在虚部LSTM1中的建模结果

，将实部信号

输入虚部LSTM1可以得到实部信号在虚部LSTM1中的建模结果

。

进而，通过上述实部LSTM1的输出和上述虚部LSTM1的输出（包括

、

、

、

），可以得到初次建模后的实部信号

，可以将初次建模后的实部信号记为

，以及可以得到初次建模后的虚部信号

，可以将初次建模后的虚部信号记为

。该原理可以是依照复数（上述频域转换数据即为复数形式的数据，复数包含实部和虚部）乘法的原理得到。

接着，同理，可以将初次建模后的实部信号

输入实部LSTM2，得到

在实部 LSTM2中的建模结果

，将初次建模后的虚部信号

输入实部LSTM2，得到

在实部LSTM2中的建模结果

。

同样，可以将初次建模后的实部信号

输入虚部LSTM2，得到

在虚部LSTM2中的建模结果

，将初次建模后的虚部信号

输入虚部LSTM2，得到

在虚部LSTM2 中的建模结果

。

进而，通过上述实部LSTM2的输出和上述虚部LSTM2的输出（包括

、

、

、

），可以得到再次建模后的实部信号

，可以将再次建模后的实部信号记为

，以及可以得到再次建模后的虚部信号

，可以将再次建模后的虚部信号记为

。该原理也可以是依照复数乘法的原理得到。

继而，通过Dense1（全连接层1）对上述建模得到的实部信号

进行变换，即可最终得到建模后的实部数据，通过Dense2（全连接层2）对上述建模得到的虚部信号

进行变换，即可最终得到建模后的虚部数据。通过组合Dense1输出的建模后的实部数据和Dense2 输出的建模后的虚部数据即可得到在频域进行降噪处理的上述在频域的降噪数据。

可选的，噪声抑制网络中用于对语音信号在时域进行建模的网络如图9c所示，该网络包括编码器（encoder）、时域特征提取网络（Time Domain Feature ExtractionNetwork）和解码器（decoder）。

可选的，编码器可以包括两个Conv（卷积层），解码器也可以包括两个Conv（卷积层），时域特征提取网络可以包括两个LSTM（可以理解为是时序特征提取器）、FC（全连接网络层）以及Sigmoid（激活层）。

其中，回声消除的音频数据就是在时域的信号，第一通信端可以调用该编码器对回声消除的音频数据进行降维处理，得到回声消除的音频数据降维处理后的音频数据，并可以通过时域特征提取网络对降维处理后的音频数据进行特征提取（特征建模），得到特征建模后的音频数据，进而，通过解码器可以学习到针对该特征建模后的音频数据的mask（即上述特征过滤掩膜），并可以将特征建模后的音频数据的维度恢复到与上述回声消除的音频数据相同的维度，通过该特征过滤掩膜即可筛选出进行维度恢复的该特征建模后的音频数据中需要保留的音频信号，通过该需要保留的音频信号也就得到了对回声消除的音频数据在时域进行降噪后的上述在时域的降噪数据。

最终如图9a所示，对上述频域建模得到的在频域的降噪数据和时域建模得到的上述在时域的降噪数据进行融合（如加和），即可得到降噪抑制的音频数据，该降噪抑制的音频数据也就是上述目标音频数据的降噪处理的音频数据。

可选的，本申请中对于音频优化网络的相关网络参数设置可以包括：采样率可以为16k（16千），音频优化网络训练时的训练集中音频长度可以是15s（15秒），涉及到傅里叶变换时的窗口长度可以是512，傅里叶变换窗口重叠率可以是75%，训练集的批尺寸（BatchSize）可以是32，LSTM隐单元个数可以是128，用到LSTM处的地方LSTM可以是2层，全连接层（即全连接网络）的失活率可以是0.25，全连接层参数（如全连接层的维度）可以是257，卷积层通道数可以是128，卷积核尺寸可以是1*1，激活函数可以是tanh（一种激活函数）。

本申请中，通过分别在时域和频域对回声消除的音频数据进行降噪处理，进而对这两种域降噪处理后的音频数据（包括转换降噪数据和在时域的降噪数据）进行融合，同时保证音频数据在时域以及频域的降噪效果，可以提升对回声消除的音频数据的去噪效果，并提升最终降噪得到的音频数据（即目标音频数据的降噪处理的音频数据）的准确性。

可选的，本申请可以直接由第一通信端来执行上述优化目标音频数据的过程，或者本申请也可以由第一通信端将目标音频数据给到通信后台，由通信后台来执行上述优化目标音频数据的过程，再由通信后台将优化得到的优化音频数据传输给第二通信端进行播放。其中，具体由谁来执行优化目标音频数据的过程可以根据实际应用场景确定，对此不做限制。

更多的，下述描述训练得到上述音频优化网络的具体过程，训练得到音频优化网络的过程可以是由上述第一通信端和第二通信端的通信后台来执行的，可选的，该过程可以包括：

通信后台可以获取到待训练的音频优化网络，可以将该待训练的优化网络称之为是初始音频优化网络。通信后台可以获取到用于训练初始音频优化网络的若干样本音频对，该样本音频对中可以包括含有混音的样本音频数据（与上述目标音频数据同性质，都是需要被优化的音频数据）和干净音频数据（可以是不包含回声、噪声的音频数据）。

可以理解的是，样本音频数据和干净音频数据中可以包含相同的人声（即包含相同的用户说话的声音），但是样本音频数据中可以包含回声和噪声等混音，而干净音频数据中不包含回声和噪声等混音，样本音频数据是需要被优化的音频数据，干净音频数据是用于与优化后的样本音频数据进行比对的音频数据，理想情况是，优化后的样本音频数据应当与干净音频数据相同或者近似。

其中，本申请中用于对初始音频优化网络进行训练的样本（如样本音频对）可以包含两种，第1种样本音频对中包含的样本音频数据和干净音频数据都可以包含人声，干净音频数据包含的是干净的人声，而样本音频数据包含的是具有回声、噪声等杂音的人声，此种样本音频对对于初始音频优化网络的损失函数SNR（信噪比损失）可以是：

（7）

其中，log表示对数，

表示样本音频对中的干净音频数据，

表示通信后台调用初始音频优化网络中的回声消除网络以及噪声抑制网络对样本音频对中的样本音频数据进行优化后所输出的音频数据。

第2种样本音频对中只包含样本音频数据，而不包含干净音频数据，该样本音频数据可以是包含回声等杂音而不包含人声的音频数据，此种样本音频对，可以理解为，干净音频数据是0信号，即干净音频数据就是静音。此种样本音频对对于初始音频优化网络的损失函数ERLE可以是：

（8）

其中，

是样本音频对中的样本音频数据，

是通信后台调用初始音频优化网络中的回声消除网络以及噪声抑制网络对样本音频对中的样本音频数据进行优化后所输出的音频数据，在通过此种样本音频对对初始音频优化网络进行训练时，ERLE是需要越大越好，使得输出

的能量趋于0，ERLE的单位可以是DB（分贝），E可以表示能量。

因此，对于上述两种样本音频对针对初始优化音频网络的损失函数可以统一表示为损失函数

：

（9）

其中，若当前训练初始音频优化网络的样本音频对是上述第1种，则idx等于1，若当前训练初始音频优化网络的样本音频对是上述第2种，则idx等于0。

上述样本音频对可以是用于对初始音频优化网络中的回声消除网络和噪声抑制网络进行训练的样本，通过上述样本音频对带来的损失函数

可以对初始音频优化网络中的回声消除网络和噪声抑制网络的网络参数进行修正更新，此时该损失函数

对于响度增益网络可以被冻结，即损失函数

可以不用于对响度增益网络的网络参数进行修正更新。

其中，上述音频优化网络中的回声消除网络和噪声抑制网络可以是端到端的网络。

更多的，用于对初始音频优化网络进行训练的样本音频对还可以第3种，该第3种样本音频对可以包括增益音频数据和平稳音频数据，该增益音频数据可以是响度不平稳的需要进行响度增益处理的音频数据，该平稳音频数据可以是响度平稳的用于对网络输出的进行响度增益处理的音频数据进行比对的音频数据，该第3种样本音频对可以是用于训练初始音频优化网络中的响度增益网络的音频数据，该增益音频数据针对响度增益网络带来的损失函数

可以是：

（10）

其中，MSE表示

和

之间的均方根，

表示通信后台通过调用响度增益网络对上述增益音频数据进行响度增益处理后输出的音频数据的幅值信息（如各频段的幅值信息），

表示上述平稳音频数据的幅值信息（如各频段的幅值信息）。

通过上述损失函数

可以对响度增益网络的网络参数进行修正更新，同理，此时该损失函数

对于上述回声消除网络和噪声抑制网络可以被冻结，即损失函数

可以不用于对回声消除网络的网络参数和不用于对噪声抑制网络的网络参数进行修正更新。

通过上述所描述的原理即可通过若干第1种~第3种样本音频对实现对初始音频优化网络的训练，当对初始音频优化网络训练完成（如训练至收敛或者训练次数达到次数阈值）时，即可得到训练好的初始音频优化网络，训练好的初始音频优化网络即为上述用于对目标音频数据进行优化的音频优化网络。

音频优化网络中的回声消除网络、噪声抑制网络和响度增益网络也就是训练好的初始音频优化网络中训练好的回声消除网络、噪声抑制网络和响度增益网络。

上述初始音频优化网络中回声消除网络、噪声抑制网络和响度增益网络可以是级联的。

可选的，还可以对上述初始音频优化网络进行参数剪枝，以减少初始音频优化网络的计算量，进而减少训练得到的音频优化网络的参数量。因此，在通过上述第1种~第3种样本音频对训练初始音频优化网络训练完成后，还可以对初始音频优化网络进行剪枝训练，对初始音频优化网络的剪枝训练完成后，即可得到训练好的初始音频优化网络，训练好的初始音频优化网络即为上述用于对目标音频数据进行优化的音频优化网络。

其中，可以将音频优化网络包含的用于对音频进行优化的卷积网络称之为是优化卷积网络（可以是卷积层），该优化卷积网络可以是指音频优化网络中原本包含的用于对音频数据进行优化的卷积网络。音频优化网络还可以包含剪枝卷积网络，该剪枝卷积网络可以是接在优化卷积网络后的，剪枝卷积网络是训练初始音频优化网络后所得到的用于减少优化卷积网络的通道数的网络，可以理解为是减少优化卷积网络的卷积核的个数的网络。

可以知道的是，通常优化卷积网络可以有多个通道，一个通道下可以有对应的卷积核，通过减少优化卷积网络的通道数可以减少优化卷积网络输出的卷积核的个数，进而减少优化卷积网络的下一层用于对音频进行优化的网络的输入参数（即优化卷积网络的输出），可以减少该下一层网络的参数运算量，这也可以全局性的减少整个音频优化网络的参数运算量。

因此，可以理解的是，本申请对初始音频优化网络进行剪枝训练也就是对初始音频优化网络中的卷积网络进行剪枝训练，本申请中对初始音频优化网络中的卷积网络（如优化卷积网络）进行训练，可以是通过在初始音频优化网络中的卷积网络后接入剪枝卷积网络实现的，初始音频优化网络中每个优化卷积网络后均可以额外接入对应的剪枝卷积网络。音频优化网络中的优化卷积网络也就是对初始音频优化网络中的优化卷积网络进行训练完成后得到。

初始音频优化网络（此处是指通过上述第1种~第3种样本音频对训练初始音频优化网络后的网络）中可以包含若干个优化卷积网络，对各个优化卷积网络进行训练的原理相同，下述以对初始音频优化网络中任意的优化卷积网络进行剪枝训练的过程为例进行说明，如下述内容描述。

可以将初始音频优化网络中任意的优化卷积网络表示为convA，该卷积网络convA后可以接入剪枝卷积网络convB，可选的，该卷积网络convA和卷积网络convB之间还可以接入BN网络（Batch Normalization，归一化网络）。卷积网络convB不对卷积网络convA做任何空间维度的变化，而是在通道维度上对卷积网络convA进行重组变换。

其中，卷积网络convB的卷积核（kernel）的维度可以是1*1的，卷积网络convB的通道数可以是D（为正整数，可以根据实际应用场景设置，可以与卷积网络convA的通道数相同），使得convB（convA（x））==convA（x），x表示卷积网络convA的输入。对初始音频优化网络（指通过上述第1种~第3种样本音频对训练初始音频优化网络后的网络）进行剪枝训练过程中，可以把卷积网络convB的通道数D剪成通道数

，

小于D。例如，可以通过损失函数

让卷积网络convB的D个通道中的部分通道对应的参数接近于0，对应参数接近于0的通道即为需要去除的通道，将D个通道中去掉该对应参数接近于0的通道即为剩余的

个通道。

如下述公式所示，损失函数

可以是：

（11）

其中，通常优化音频网络是存在于上述回声消除网络和噪声抑制网络中的，因此，在对初始音频优化网络进行剪枝训练过程中，可以再次利用上述第1种样本音频对~第2种样本音频对一起对初始音频优化网络进行训练，此处的损失函数

可以是在进行剪枝训练时，通过上述第1种样本音频对~第2种样本音频对再次得到的针对优化音频网络的损失（基于上述公式（9）得到的损失），该损失函数

是与网络（即模型）任务性能表现相关的损失函数。

更多的，

是预定义的系数，P（K）是额外对卷积网络convB的网络参数增加的惩罚项，K包含卷积网络convB所有卷积核的参数，即包含卷积网络convB的所有通道上的参数。此场景中，初始音频优化网络的网络参数包含卷积网络convB的网络参数。可选的，P（K）可以是Lasso损失（回归损失）或者其他损失，具体根据实际应用场景确定。

通过上述损失函数

对网络参数K求偏导，即可得到用于对初始音频优化网络的网络参数进行修正更新的梯度G（K）：

（12）

其中，

表示损失函数

对卷积网络convB的网络参数K求偏导，

表示损失函数P（K）对网络参数K求偏导，m为自定义系数，m用于选择将卷积网络convB的部分通道上的参数置为0，

是自定义的针对损失函数P（K）的系数。

因此，对初始音频优化网络进行剪枝训练时，可以让上述梯度G（K）达到最小值（如趋于0），以此来修正更新初始音频优化网络的网络参数（主要是更新卷积网络convB的网络参数K），修正完成后，即可最终得到训练好的上述音频优化网络，该音频优化网络中即包含训练完成的上述初始音频优化网络中训练完成的优化卷积网络和训练完成的剪枝卷积网络。

因此，在通过音频优化网络中优化卷积网络convA优化音频数据时，可以将优化卷积网络convA的输出再输入到音频优化网络中该优化卷积网络convA后的剪枝卷积网络convB中，做运算，进而将剪枝卷积网络convB的输出作为优化卷积网络convA的输出，可以理解为，剪枝卷积网络convB中对应参数为0的通道上就不会有输出，该部分输出被剪枝了。进而可以通过剪枝卷积网络convB的输出进行后续的音频优化过程。

请参见图10，图10是本申请提供的一种参数剪枝的场景示意图。如图10所示，初始音频优化网络中原本可以包含卷积网络convA，本申请，可以在卷积网络convA后新增一个用于对卷积网络convA进行参数剪枝的卷积网络convB，卷积网络convA和卷积网络convB之间还可以具体BN网络。

卷积网络convA和卷积网络convB中原本都可以包含4个通道（包括通道1~通道4）的网络参数，通过对卷积网络convB进行通道选择，将卷积网络convB中部分通道（如通道2和通道4）上的参数置为0，进而通过部分通道的参数置0的卷积网络convB可以作用于卷积网络convA，对卷积网络convA进行等价卷积，达到通过部分通道的参数置0的卷积网络convB也可以将卷积网络convA上对应部分通道的参数同样置为0，以减少卷积网络convA的网络参数，使得通过部分参数置0的卷积网络convB可以达到减少卷积网络convA的通道数（等同于卷积核的个数）的目的。

上述所描述的对网络进行参数剪枝的方法可以称之为是重参数法。本申请中，通过对初始音频优化网络进行剪枝训练，在减少初始音频优化网络的网络参数量时，使得convB（convA（x））==convA（x），即使得convB的输出等价于convA的输出，实现了在不降低模型优化效果的基础上提升了模型的性能指标（速度、内存占用等指标）。

其中，对上述初始音频优化网络训练完成即可得到音频优化网络，因此，可以理解的是，初始音频优化网络与音频优化网络对数据进行处理优化的原理相同，只是初始音频优化网络的网络参数与音频优化网络的网络参数不同。

综上，本申请可以针对社交软件中的音、视频通话中可能存在的回声、噪声和音量忽高忽低不稳定等问题进行建模优化，实现对语音通话过程中的语音的多方位一体化优化，提升输入端语音质量，进而提升语音通话质量和效果。

请参见图11，图11是本申请提供的一种音频数据处理装置的结构示意图。该音频数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该音频数据处理装置为一个应用软件，该音频数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示，该音频数据处理装置1可以包括：获取模块11、回声消除模块12、噪声抑制模块13和响度增益模块14。

获取模块11，用于获取待优化的目标音频数据；

回声消除模块12，用于调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；

噪声抑制模块13，用于调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；

响度增益模块14，用于调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。

可选的，目标音频数据是由第一通信端采集到的需要传输给第二通信端的音频数据；回声消除模块12调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据的方式，包括：

获取第二通信端采集到的参考音频数据；

可选的，回声消除模块12调用音频优化网络基于参考音频数据对目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

获取参考音频数据与目标音频数据之间音频特征的相关性；

可选的，回声消除模块12基于时间对齐的参考音频数据和时间对齐的目标音频数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

基于时间对齐的参考音频数据生成模拟回声数据；

可选的，回声消除模块12基于模拟回声数据对时间对齐的目标音频数据进行回声消除处理，得到回声消除的音频数据的方式，包括：

可选的，噪声抑制模块13调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据的方式，包括：

可选的，噪声抑制模块13调用音频优化网络在频域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在频域的降噪数据的方式，包括：

可选的，噪声抑制模块13调用音频优化网络在时域对回声消除的音频数据进行噪声抑制处理，得到回声消除的音频数据在时域的降噪数据的方式，包括：

调用音频优化网络生成针对音频特征数据的特征过滤掩膜；

可选的，噪声抑制模块13对在频域的降噪数据和在时域的降噪数据进行融合处理，得到降噪处理的音频数据的方式，包括：

可选的，响度增益模块14调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据的方式，包括：

调用音频优化网络获取针对音频响度的平稳增益曲线；

上述装置1还用于：

根据本申请的一个实施例，图3所示的音频数据处理方法所涉及的步骤可由图11所示的音频数据处理装置1中的各个模块来执行。例如，图3中所示的步骤S101可由图11中的获取模块11来执行，图3中所示的步骤S102可由图11中的回声消除模块12来执行；图3中所示的步骤S103可由图11中的噪声抑制模块13来执行，图3中所示的步骤S104可由图11中的响度增益模块14来执行。

本申请可以获取待优化的目标音频数据；调用音频优化网络对目标音频数据进行回声消除处理，得到目标音频数据的回声消除的音频数据；调用音频优化网络对回声消除的音频数据进行噪声抑制处理，得到目标音频数据的降噪处理的音频数据；调用音频优化网络对降噪处理的音频数据进行响度增益处理，得到目标音频数据的优化音频数据。由此可见，本申请提出的装置可以采用音频优化网络在回声消除、噪声抑制以及响度增益上同时对目标音频数据进行多方位的优化处理，可以提升对音频数据进行优化的效果。

根据本申请的一个实施例，图11所示的音频数据处理装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，音频数据处理装置1也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图11中所示的音频数据处理装置1，以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图12，图12是本申请提供的一种计算机设备的结构示意图。如图12所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图12所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取待优化的目标音频数据；

在一种可行的实施方式中，目标音频数据是由第一通信端采集到的需要传输给第二通信端的音频数据，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取第二通信端采集到的参考音频数据；

在一种可行的实施方式中，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取参考音频数据与目标音频数据之间音频特征的相关性；

基于时间对齐的参考音频数据生成模拟回声数据；

调用音频优化网络生成针对音频特征数据的特征过滤掩膜；

调用音频优化网络获取针对音频响度的平稳增益曲线；

在一种可行的实施方式中，音频优化网络包含优化卷积网络和剪枝卷积网络，优化卷积网络用于对目标音频数据进行音频优化，剪枝卷积网络用于减少优化卷积网络的卷积核数量。

在一种可行的实施方式中，目标音频数据是第一通信端采集到的需要传输给第二通信端的音频数据；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述音频数据处理方法的描述，也可执行前文图11所对应实施例中对上述音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3所对应实施例中对音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的音频数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital， SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前文图3对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

获取待优化的目标音频数据；

调用音频优化网络对所述目标音频数据进行回声消除处理，得到所述目标音频数据的回声消除的音频数据；

调用所述音频优化网络对所述回声消除的音频数据进行噪声抑制处理，得到所述目标音频数据的降噪处理的音频数据；

调用所述音频优化网络对所述降噪处理的音频数据进行响度增益处理，得到所述目标音频数据的优化音频数据。

2.如权利要求1所述的方法，其特征在于，所述目标音频数据是由第一通信端采集到的需要传输给第二通信端的音频数据；所述调用音频优化网络对所述目标音频数据进行回声消除处理，得到所述目标音频数据的回声消除的音频数据，包括：

获取所述第二通信端采集到的参考音频数据；

调用所述音频优化网络基于所述参考音频数据对所述目标音频数据进行回声消除处理，得到所述回声消除的音频数据。

3.如权利要求2所述的方法，其特征在于，所述调用所述音频优化网络基于所述参考音频数据对所述目标音频数据进行回声消除处理，得到所述回声消除的音频数据，包括：

获取所述参考音频数据与所述目标音频数据之间音频特征的相关性；

基于所述相关性对所述参考音频数据和所述目标音频数据进行时间对齐处理，得到时间对齐的参考音频数据和时间对齐的目标音频数据；

基于所述时间对齐的参考音频数据和所述时间对齐的目标音频数据对所述时间对齐的目标音频数据进行回声消除处理，得到所述回声消除的音频数据。

4.如权利要求3所述的方法，其特征在于，所述基于所述时间对齐的参考音频数据和所述时间对齐的目标音频数据对所述时间对齐的目标音频数据进行回声消除处理，得到所述回声消除的音频数据，包括：

基于所述时间对齐的参考音频数据生成模拟回声数据；

基于所述模拟回声数据对所述时间对齐的目标音频数据进行回声消除处理，得到所述回声消除的音频数据。

5.如权利要求4所述的方法，其特征在于，所述基于所述模拟回声数据对所述时间对齐的目标音频数据进行回声消除处理，得到所述回声消除的音频数据，包括：

基于所述模拟回声数据对所述时间对齐的目标音频数据进行回声消除处理，得到所述目标音频数据的初始优化数据；

根据所述参考音频数据、所述模拟回声数据、所述目标音频数据和所述初始优化数据，生成针对所述初始优化数据的回声过滤掩膜；

基于所述回声过滤掩膜对所述初始优化数据进行回声过滤处理，得到所述回声消除的音频数据。

6.如权利要求1所述的方法，其特征在于，所述调用所述音频优化网络对所述回声消除的音频数据进行噪声抑制处理，得到所述目标音频数据的降噪处理的音频数据，包括：

调用所述音频优化网络在频域对所述回声消除的音频数据进行噪声抑制处理，得到所述回声消除的音频数据在频域的降噪数据；

调用所述音频优化网络在时域对所述回声消除的音频数据进行噪声抑制处理，得到所述回声消除的音频数据在时域的降噪数据；

对所述在频域的降噪数据和所述在时域的降噪数据进行融合处理，得到所述降噪处理的音频数据。

7.如权利要求6所述的方法，其特征在于，所述调用所述音频优化网络在频域对所述回声消除的音频数据进行噪声抑制处理，得到所述回声消除的音频数据在频域的降噪数据，包括：

将所述回声消除的音频数据由时域转换到频域，得到所述回声消除的音频数据的频域转换数据；所述频域转换数据包含将所述回声消除的音频数据转换到频域的实部数据和虚部数据；

对所述实部数据进行建模处理，得到建模后的实部数据，并对所述虚部数据进行建模处理，得到建模后的虚部数据；

根据所述建模后的实部数据和所述建模后的虚部数据，确定所述在频域的降噪数据。

8.如权利要求6所述的方法，其特征在于，所述调用所述音频优化网络在时域对所述回声消除的音频数据进行噪声抑制处理，得到所述回声消除的音频数据在时域的降噪数据，包括：

调用所述音频优化网络提取所述回声消除的音频数据在时域上的音频特征数据；

调用所述音频优化网络生成针对所述音频特征数据的特征过滤掩膜；

基于所述特征过滤掩膜对所述音频特征数据进行特征过滤处理，得到所述在时域的降噪数据。

9.如权利要求6所述的方法，其特征在于，所述对所述在频域的降噪数据和所述在时域的降噪数据进行融合处理，得到所述降噪处理的音频数据，包括：

调用所述音频优化网络生成所述在频域的降噪数据的第一融合权重及所述在时域的降噪数据的第二融合权重；

基于所述第一融合权重和所述第二融合权重对所述在频域的降噪数据和所述在时域的降噪数据进行加权求和，得到所述降噪处理的音频数据。

10.如权利要求1所述的方法，其特征在于，所述调用所述音频优化网络对所述降噪处理的音频数据进行响度增益处理，得到所述目标音频数据的优化音频数据，包括：

调用所述音频优化网络获取针对音频响度的平稳增益曲线；

基于所述平稳增益曲线对所述降噪处理的音频数据进行响度增益处理，得到所述优化音频数据。

11.如权利要求1所述的方法，其特征在于，所述音频优化网络包含优化卷积网络和剪枝卷积网络，所述优化卷积网络用于对所述目标音频数据进行音频优化，所述剪枝卷积网络用于减少所述优化卷积网络的卷积核数量。

12.如权利要求1所述的方法，其特征在于，所述目标音频数据是第一通信端采集到的需要传输给第二通信端的音频数据；

所述方法还包括：

将所述目标音频数据的所述优化音频数据传输给所述第二通信端，使所述第二通信端播放所述优化音频数据。

13.一种音频数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取待优化的目标音频数据；

回声消除模块，用于调用音频优化网络对所述目标音频数据进行回声消除处理，得到所述目标音频数据的回声消除的音频数据；

噪声抑制模块，用于调用所述音频优化网络对所述回声消除的音频数据进行噪声抑制处理，得到所述目标音频数据的降噪处理的音频数据；

响度增益模块，用于调用所述音频优化网络对所述降噪处理的音频数据进行响度增益处理，得到所述目标音频数据的优化音频数据。

14.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1-12任一项所述方法的步骤。

15.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-12中任一项所述方法的步骤。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适用于由处理器加载并执行权利要求1-12任一项所述的方法。