CN116566963B

CN116566963B - 一种音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN116566963B
Application number: CN202310850039.1A
Authority: CN
Inventors: 张思宇; 高毅; 苏祥; 杨清山
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-13
Anticipated expiration: 2043-07-12
Also published as: CN116566963A

Abstract

本申请涉及多媒体技术领域，尤其涉及一种音频处理方法、装置、电子设备和存储介质，用以降低音频处理的资源耗费。其中，方法包括：基于承载应用程序的终端设备的配置信息，获得各初始音频信号各自对应的处理模式；分别基于各初始音频信号各自的处理模式，对初始音频信号进行处理，获得各目标音频信号，其中，输入音频信号经处理后，获得的目标音频信号为采集音频信号，输出音频信号经处理后获得的目标音频信号为共享音频信号；对各目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号。本申请通过基于配置信息获得初始音频信号的处理模式，实现不同终端设备之间的音频共享，对处理后的音频信号混音后编码，节省计算资源。

Description

一种音频处理方法、装置、电子设备和存储介质

技术领域

本申请涉及多媒体技术领域，尤其涉及一种音频处理方法、装置、电子设备和存储介质。

背景技术

随着多媒体技术的发展，音频共享技术日益成熟，并已广泛应用于音视频会议、网络直播等多端互动场景。所谓音频共享技术是指：通过发送方使用的多个音频设备或应用程序，实时采集不同音频信号，并向各接收方进行实时传输，使接收方可以同时听到多个音源信号。

通过音频共享技术共享的音频信号可分为采集音频和回采音频，其中，采集音频是指发送方的终端设备搭载的音频采集设备采集到的发送方的音频信号，回采音频则是指采集到的发送方的终端设备搭载的扬声器播放的音频信号。

目前，为了保证采集的回采音频的质量，大部分终端设备的操作系统都已提供了音频回环接口（Audio Loopback API），音频回环接口可捕捉即将进入扬声器物理输出接口前的音频信号，捕捉后将其作为输入源，直接与采集音频一起发送给各接收方。

例如，网络直播场景下，在主播伴随音乐伴奏唱歌的过程中，将通过麦克风采集的主播唱歌的声音作为采集音频，以及将通过音频回环接口捕获的即将进入扬声器的音乐伴奏，作为回采音频；进一步地，主播的直播客户端将采集音频和回采音频发送给观众的直播客户端，实现观众可以同时听到主播唱歌的声音和音乐伴奏。

由于不同设备搭载的音频采集设备和音频回环接口千差万别，采集到的采集音频和回采音频在格式上也存在诸多不同，相关技术中，为了将采集音频和回采音频一起发送给各接收方，将采集音频和回采音频分别编码，并将编码后的音频通过两个传输链路发送。但是，这种方案由于使用了多路音频编码，并且在原有的传输链路的基础上新增了传输链路，会极大的消耗设备性能与传输带宽。

发明内容

本申请实施例提供一种音频处理方法、装置、电子设备和存储介质，用以降低音频处理的资源耗费。

本申请实施例提供的一种音频处理方法，包括：

基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，其中，不同的初始音频信号是通过所述终端设备配置的不同设备采集的，所述至少两种初始音频信号中至少包含：通过所述终端设备上的音频采集设备采集的输入音频信号，以及，通过所述终端设备上目标类型的音频回环接口采集的输出音频信号；

分别基于所述至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，其中，所述至少两种目标音频信号具有相同的音频格式，所述输入音频信号经处理后，获得的目标音频信号为采集音频信号，所述输出音频信号经处理后获得的目标音频信号为共享音频信号；

对所述至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号。

本申请实施例提供的一种音频处理装置，包括：

确定单元，用于基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，其中，不同的初始音频信号是通过所述终端设备配置的不同设备采集的，所述至少两种初始音频信号中至少包含：通过所述终端设备上的音频采集设备采集的输入音频信号，以及，通过所述终端设备上目标类型的音频回环接口采集的输出音频信号；

处理单元，用于分别基于所述至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，其中，所述至少两种目标音频信号具有相同的音频格式，所述输入音频信号经处理后，获得的目标音频信号为采集音频信号，所述输出音频信号经处理后获得的目标音频信号为共享音频信号；

编码单元，用于对所述至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号。

可选的，所述目标类型为第一类型，则所述处理单元具体用于：

采用以下方式获得所述采集音频信号：

对所述输出音频信号进行预处理，获得第一参考信号，所述第一参考信号与所述输入音频信号具有相同的音频格式；

基于所述第一参考信号对所述输入音频信号进行回声消除，获得所述采集音频信号，其中，所述第一类型的音频回环接口用于采集所述终端设备输出的全局音频信号。

可选的，所述目标类型为第二类型，则所述处理单元具体用于：

采用以下方式获得所述采集音频信号：

将所述输入音频信号直接作为所述采集音频信号，其中，所述第二类型的音频回环接口用于采集协同音频信号，所述协同音频信号为：所述终端设备输出的全局音频信号中，除所述应用程序对应的远端音频信号外的音频信号，所述远端音频信号是使用所述应用程序的至少一个对象发送的。

采用以下方式获得所述采集音频信号：

获取第一类型的音频回环接口采集所述终端设备输出的全局音频信号，并对所述全局音频信号进行预处理，获得第二参考信号，所述第二参考信号与所述输入音频信号具有相同的音频格式；

基于所述第二参考信号对所述输入音频信号进行回声消除，获得所述采集音频信号，其中，所述第二类型的音频回环接口用于采集协同音频信号，所述协同音频信号为：所述全局音频信号中，除所述应用程序对应的远端音频信号外的音频信号，所述远端音频信号是使用所述应用程序的至少一个对象发送的。

采用以下方式获得所述共享音频信号：

获取所述应用程序对应的远端音频信号，所述远端音频信号是使用所述应用程序的至少一个对象发送的；

基于所述远端音频信号对所述输出音频信号进行回声消除，获得所述共享音频信号，其中，所述第一类型的音频回环接口用于采集所述终端设备输出的全局音频信号。

采用以下方式获得所述共享音频信号：

对所述输出音频信号包含的各子音频信号进行混音，获得合成音频信号；

基于所述输入音频信号的采样率，对所述合成音频信号进行重采样，获得所述共享音频信号，其中，所述第二类型的音频回环接口用于采集协同音频信号，所述协同音频信号为：所述终端设备输出的全局音频信号中，除所述应用程序对应的远端音频信号外的音频信号，所述远端音频信号是使用所述应用程序的至少一个对象发送的。

可选的，所述处理单元还用于：

基于音频传输链路，接收所述远端音频信号，并对所述远端音频信号进行回声消除，获得回声消除后的远端音频信号；

则所述获取接收的远端音频信号，包括：

获取所述回声消除后的远端音频信号。

可选的，所述处理单元还用于：

基于所述输入音频信号的采样率，对所述合成音频信号进行重采样，获得重采样后的合成音频信号；

则所述基于所述远端音频信号对所述输出音频信号进行回声消除，获得所述共享音频信号，包括：

基于所述远端音频信号对所述重采样后的合成音频信号进行回声消除，获得所述共享音频信号。

本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述任意一种音频处理方法的步骤。

本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任意一种音频处理方法的步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行上述任意一种音频处理方法的步骤。

本申请有益效果如下：

本申请实施例提供了一种音频处理方法、装置、电子设备和存储介质，首先，基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，针对不同的终端设备均能提供对应的处理模式，可以实现不同终端设备和应用程序之间的音频共享，进而分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，对不同的初始音频信号分别处理，可以保证音频质量，提升音频共享效果，最后，对至少两种目标音频信号进行混音，混音后仅需对混音后音频进行一次编码，获得待发送编码信号，降低对终端设备的性能消耗和对带宽的消耗，并且减少音频处理所需的时间，提高音频处理效率，基于此方式获得的待发送编码信号，通过原有的单上行链路发送即可，无需新增传输链路，能够进一步减少对设备的资源消耗。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为相关技术中的一种引擎链路的示意图；

图2为本申请实施例中的一种应用场景的一个可选的示意图；

图3为本申请实施例中的一种音频处理方法的实施流程图；

图4为本申请实施例中的一种音频发送方法的示意图；

图5为本申请实施例中的第一种输入音频信号的处理模式示意图；

图6为本申请实施例中的一种远端音频信号的示意图；

图7为本申请实施例中的第二种输入音频信号的处理模式示意图；

图8为本申请实施例中的一种输出音频信号的处理模式示意图；

图9为本申请实施例中的综合处理模式1的处理过程示意图；

图10为本申请实施例中的综合处理模式4的处理过程示意图；

图11为本申请实施例中的综合处理模式6的处理过程示意图；

图12为本申请实施例中的一种处理模式选择策略的示意图；

图13为本申请实施例中的一种音频处理方法的逻辑示意图；

图14本申请实施例中的一种音频处理装置的结构示意图；

图15为应用本申请实施例的一种电子设备的一个硬件组成结构示意图；

图16为应用本申请实施例的另一种电子设备的一个硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

音频回环接口：能够采集终端设备内部的所有音频信号，不同类型的音频回环接口采集的音频信号不同，以本申请实施例中的应用程序为直播软件为例，第一类型的音频回环接口可以采集终端设备内部的所有音频信号，即全局音频信号，而第二类型的音频回环接口可以采集除直播软件的远端音频信号外的音频信号。

初始音频信号：指通过终端设备上配置的设备直接采集获得的音频信号，例如，通过音频采集设备采集的输入音频信号，以及通过音频回环接口采集的输出音频信号。

输入音频信号：指通过终端设备上的音频采集设备采集的音频信号，根据终端设备的硬件配置的不同，对于同一声源，采集得到的输入音频信号不同，例如，部分音频采集设备能够进行硬件回声消除，因此获得的输入音频信号无需进行回声消除。

采集音频信号：对输入音频信号进行处理后获得的音频信号，是目标音频信号中的一种，以本申请实施例中的应用程序为会议软件为例，则采集音频信号中包含当前会议的发言人的声音。

输出音频信号：指通过终端设备上目标类型的音频回环接口采集的音频信号，不同类型的音频回环接口采集的输出音频信号不同，以本申请实施例中的应用程序为会议软件为例，第一类型的音频回环接口采集终端设备上的所有应用程序的音频信号，而第二类型的音频回环接口采集除会议软件外的其他应用程序的音频信号。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SaaS (Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。本申请实施例中的音频处理方法可以应用于云会议，基于终端设备的配置信息，选择合适的处理模式进行音频信号的处理，能够提高云会议中音频共享质量。

下面对本申请实施例的设计思想进行简要概述：

早期的音频共享技术基于麦克风等采集设备以及基于IP的语音传输（Voice overInternet Protocol，缩写为VoIP）发送链路实现（通过麦克风采集扬声器音源（扬声器播放的声音），再由发送链路重新发送）。扬声器音源中不仅包含系统以及应用程序声音，还包括会议等远端用户声音（回声）。扬声器声音播出后要经过空气、空间等传播介质再被麦克风重新采集，同时音频引擎中又存在若干语音增强算法，这会造成所需共享的音频严重失真，影响用户体验。

随着各操作系统不断更新，目前Windows、IOS、安卓（Android）等操作系统都已提供了音频回环接口，该接口可捕捉即将进入声卡物理输出接口前的数字音频信号（电脑系统中的各种音源，包括但不限于网络音视频通话、网页、音乐APP、视频等），捕捉后可将其作为输入源，重新发送给网络或进行录制。一般情况下，如图1所示，音频信号在引擎链路中要经过采集-前处理-编码-上行发送、下行接收-解码-后处理-渲染等流程被播放处理。不难看出，使用该结构共享的音频在和远端音频一同经过扬声器播放后再通过麦克风采集、经算法处理时候编码发送，无疑会影响音质。音频回环接口让共享音频的采集不再依赖麦克风，系统可以在声音播放前直接捕捉系统音频，而此时捕捉到的是即将送入扬声器播放高质量音频，给音质带来了很大的提升。音频回环很好的解决了声音经过空气、房间等传播、反射，再由麦克风重新采集的问题，使得高质量共享音频信号的采集成为了可能。

由于不同的客户端提供的API各不相同，不同设备的设备性能、以及搭载的音频采集设备也千差万别，采集到的采集音频和回采音频在格式上也存在诸多不同，这就导致出现了非常多种共享音频的传输链路和处理方案。相关技术中，部分方案采用多通道发送的方式，即构建多个上行链路以及传输架构，将采集音频与回采音频分别通过两个通道发送，但这种方案使用了多路音频编解码，极大的消耗设备性能与传输带宽。且由于不同设备和应用程序所采用的音频编解码格式不同，因此在进行音频共享时，往往需要对音频信号进行格式转换，这样会造成传输延迟和质量损失。还有一部分方案将麦克风采集音频与共享音频联合发送，但面对不同的设备采样率、不同的厂商提供的不同接口很难构建一套标准的传输链路。这种方案下，如何同时处理两种音频，在保证音频质量的情况下进行传输也成为了一个难题。

有鉴于此，本申请实施例提供了一种音频处理方法、装置、电子设备和存储介质，首先，基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，针对不同的终端设备均能提供对应的处理模式，可以实现不同终端设备和应用程序之间的音频共享，进而分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，对不同的初始音频信号分别处理，可以保证音频质量，提升音频共享效果，最后，对至少两种目标音频信号进行混音，混音后仅需对混音后音频进行一次编码，获得待发送编码信号，降低对终端设备的性能消耗和对带宽的消耗，并且减少音频处理所需的时间，提高音频处理效率，基于此方式获得的待发送编码信号，通过原有的单上行链路发送即可，无需新增传输链路，能够进一步减少对设备的资源消耗。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图2所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220。

在本申请实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、台式电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端等设备；终端设备上安装有音频处理相关的应用程序，该应用程序可以是软件（例如浏览器、直播软件等），也可以是网页、小程序等，服务器则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行音频处理的服务器，本申请不做具体限定。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例中的音频处理方法可以应用于需要进行音频处理的客户端上，例如直播客户端、购物客户端以及会议客户端，还可以应用于一个专门进行音频处理的客户端，在此不做具体限定。

在一种可选的实施方式中，终端设备与服务器之间可以通过通信网络进行通信。

可选的，在本申请实施例中，终端设备接收服务器发送的音频信号，应用程序基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，对至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号，终端设备将待发送编码信号发送给服务器，服务器将待发送编码信号转发给对应的终端设备，实现音频共享。

在一种可选的实施方式中，通信网络是有线网络或无线网络。

需要说明的是，图2所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

本申请实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本申请实施例所公开的音频处理方法，其中所涉及的音频信号可保存于区块链上等。

此外，本申请实施例可应用于各种场景，不仅包括音频处理场景，还包括但不限于云技术、人工智能、智慧交通、辅助驾驶等场景。

下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的音频处理方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。

参阅图3所示，为本申请实施例提供的一种音频处理方法的实施流程图，执行主体为应用程序，该方法的具体实施流程包括如下步骤S31-S33：

S31：应用程序基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式；

其中，不同的初始音频信号是通过终端设备配置的不同设备采集的，由于不同的终端设备配置的设备不同，采集得到的初始音频信号也不同，对初始音频信号进行处理的处理模式也不同，例如，部分设备具备硬件回声消除的功能，因此无需对初始音频信号进行回声消除，而不具备硬件回声消除的设备采集的初始音频信号，为了保证音频信号质量，则需要进行回声消除，例如，一种类型的音频回环接口采集终端设备的全局音频信号，这种情况下采集的初始音频信号中可能包含从传输链路中接收到的远端人声，因此还需要对初始音频信号进行回声消除，滤除远端人声，而另一种类型的音频回环接口可以仅采集终端设备上除当前进程（应用程序，简称应用程序X）外的其他应用程序的音频信号。因此在本申请中，基于终端设备的配置信息确定初始音频信号的处理模式，其中，配置信息可以包括终端设备的设备型号、操作系统版本和音频回环接口的类型，这样，针对不同的终端设备可以采用不同的处理模式进行音频信号的处理，最大程度的保证了音频共享的可行性。

例如，终端设备的设备型号为设备1，操作系统版本为操作系统1.1，音频回环接口的类型为类型1，则采集的初始音频信号1的处理模式为模式1，采集的初始音频信号2的处理模式为模式1，采集的初始音频信号3的处理模式为模式2。

终端设备配置的不同设备可以包括音频采集设备、音频回环接口等，其中，音频采集设备可以包括麦克风、阵列等设备，用于采集应用程序的使用者的声音，例如，主播在使用直播软件直播的过程中，音频采集设备采集主播的声音，音频回环接口则用于采集终端设备的系统声音，例如，音乐播放器播放的音乐，会议软件从传输链路中接收到的远端人声，采集的初始音频信号中至少包含通过终端设备上的音频采集设备采集的输入音频信号，以及通过终端设备上目标类型的音频回环接口采集的输出音频信号，以应用程序为会议软件为例，输入音频信号包含当前会议的发言人的声音，输出音频信号包含终端设备上的音乐播放器播放的歌曲1的音频信号。

需要说明的是，在本申请实施例中，主要以初始音频信号包括输入音频信号和输出音频信号为例进行说明，实际上初始音频信号可以包括终端设备配置的各种设备采集得到的音频信号，在此不做具体限定。

S32：应用程序分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号；

其中，基于相应的处理模式对初始音频信号进行处理时，在不同的处理模式下，可以对回声消除（Acoustic Echo Cancelling，AEC）、降噪、增大增益等常规处理步骤中选择部分或全部执行，例如，处理模式1中首先对初始音频进行回声消除，然后降噪、增大增益，处理模式2中直接对初始音频信号进行降噪和增大增益，需要说明的是，对音频信号进行的处理步骤的顺序可以根据实际需要进行调整，在此不做具体限定。

对初始音频信号进行处理后获得目标音频信号，至少两种目标音频信号具有相同的音频格式，音频格式可以包含通道数、采样率等，通常不同的设备采集的音频信号的通道数和采样率存在较大不同，例如，麦克风采集的音频一般为单声道，而音频回环接口回采的音频一般为立体声道，采样率也与麦克风采集的音频不同，在对初始音频信号进行处理的过程中，可以使回采的音频信号的音频格式对齐麦克风采集的音频格式，基于步骤S32获得的各目标音频信号由于音频格式相同，则可以混音为一路音频信号，以便进行编码和发送。

具体地，输入音频信号经处理后，获得的目标音频信号为采集音频信号，输出音频信号经处理后获得的目标音频信号为共享音频信号，以应用程序X为直播软件为例，在主播小白直播的过程中，唱歌的同时通过音乐播放器播放伴奏1，则采集音频信号包含小白的歌声，共享音频信号包含伴奏1。

另外，若第一对象当前为静音或者静麦状态，则采集到的初始音频信号的电平值始终为0，格式不变。

S33：应用程序对至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号。

具体地，在基于上述方式获得目标音频信号后，将各目标音频信号混音为一路音频，这样仅需一次编码获得待发送编码信号，并且只需通过一个传输链路发送即可，能够使音频共享在传统VoIP（单上行链路和单下行链路）架构中实现，无论是桌面端设备，亦或是移动端设备均可实现高清晰度、高可懂度的共享音频传输。

如图4所示，为本申请实施例中的一种音频发送方法的示意图，将用户1的初始音频信号1和初始音频信号2进行处理后，获得目标音频信号1和目标音频信号2，将目标音频信号1和目标音频信号2进行混音，获得音频信号3，对音频信号3进行编码，获得待发送编码信号，最后通过上行链路将待发送编码信号发送给用户2和用户3，实现音频共享。

在本申请实施例中，首先，基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，针对不同的终端设备均能提供对应的处理模式，可以实现不同终端设备和应用程序之间的音频共享，进而分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，对不同的初始音频信号分别处理，可以保证音频质量，提升音频共享效果，最后，对至少两种目标音频信号进行混音，混音后仅需对混音后音频进行一次编码，获得待发送编码信号，降低对终端设备的性能消耗和对带宽的消耗，并且减少音频处理所需的时间，提高音频处理效率，基于此方式获得的待发送编码信号，通过原有的单上行链路发送即可，无需新增传输链路，能够进一步减少对设备的资源消耗。

具体地，当初始音频信号为输入音频信号时，在步骤S32中，可通过以下三种处理模式对输入音频信号进行处理，获得采集音频信号：

处理模式1：对输出音频信号进行预处理，获得第一参考信号，第一参考信号与输入音频信号具有相同的音频格式；基于第一参考信号对输入音频信号进行回声消除，获得采集音频信号；

其中，在处理模式1中，终端设备不具备硬件回声消除的能力或性能较差，且目标类型的音频回环接口为第一类型的音频回环接口，第一类型的音频回环接口用于采集终端设备输出的全局音频信号，也可称为普通（Normal）模式，例如，当前终端设备上直播软件、音乐播放器均在输出音频信号，则Normal模式的音频回环接口会将直播软件和音乐播放器输出的音频信号均采集。由于输出音频信号会通过终端设备的扬声器播放，相应的，终端设备的音频采集设备在采集对象的声音的同时，也会采集到通过扬声器播放的输出音频信号，若不进行回声消除，会随着人声音频一起编码发送出去，导致严重的回声问题，因此，需要基于输出音频信号对输入音频信号进行回声消除。

由于输出音频信号与合成音频信号的采样率、通道数存在不同，因此在回声消除之前需要对输出音频信号进行预处理，使处理后获得的第一参考信号与输入音频信号音频格式相同，预处理的步骤可以包括对输出音频信号进行立体声转单声道的操作，以及重采样处理，使第一参考信号的音频格式对齐输入音频信号，另外，若输出音频信号中包含多个音频信号，还需要对多个音频信号进行混音。

如图5所示，为本申请实施例中的第一种输入音频信号的处理模式示意图，以音频采集设备为麦克风为例，采集的输入音频信号包含人声音频和回声音频，Normal音频回环接口采集的输出音频信号包含音乐播放器输出的音频1、音乐播放器2输出的音频2，以及接收的远端人声音频（即远端音频信号），其中，远端人声音频指对方发送到本机的音频或者从互联网发送到本机的音频。将音频1、音频2和远端人声音频混音获得混合音频，对混合音频进行立体声转单通道，并重采样处理，获得第一参考信号，基于第一参考信号对输入音频信号进行回声消除，获得的采集音频信号中仅包含远端人声音频。

基于上述方式对输入音频信号进行处理，在终端设备不具备硬件回声消除能力的情况下，使用输出音频信号对输入音频信号进行回声消除，能够提高获得的采集音频信号的音频质量。

处理模式2：将输入音频信号直接作为采集音频信号；

其中，在处理模式2中，终端设备具备硬件回声消除的能力，且目标类型的音频回环接口为第二类型的音频回环接口。在此模式下，无需对输入音频信号进行回声消除，直接将输入音频信号作为采集音频信号即可。

第二类型的音频回环接口用于采集协同音频信号，也可称为排除（Exclude）接口，协同音频信号为终端设备输出的全局音频信号中，除应用程序对应的远端音频信号外的音频信号，远端音频信号是使用应用程序的至少一个对象发送的。例如，当前终端设备输出的全局音频信号包括音乐播放器输出的音频1、音乐播放器2输出的音频2，以及接收的远端人声音频（远端音频信号），则Exclude接口采集的输出音频信号包括音频1和音频2。

如图6所示，为本申请实施例中的一种远端音频信号的示意图，在一场音频会议中，用户1、用户2和用户3均为使用应用程序的对象，用户2和用户3的发言音频通过网络传输发送给用户1，因此，对于用户1的应用程序而言，用户2和用户3的发言音频均可称为远端音频信号，因此，可将用户1称为第一对象，用户2和用户3均称为第二对象，则当本申请实施例的应用于第一对象的应用程序时，远端音频信号是使用应用程序的至少一个第二对象发送的，并且远端音频信号不应再被第一对象的终端设备再次编码发送出去，当目标类型的音频回环接口为第一类型时，需要对输入音频信号和输出音频信号均进行回声消除。

下文主要以本申请实施例的应用于第一对象的应用程序为例，当应用程序为会议软件时，在一场会议中，第一对象为用户1，在用户1发言后，处于同一场会议中的第二对象可能会继续发言，第二对象的音频信号称为远端音频信号，远端音频信号发送到用户1的终端设备后，通过扬声器播放，但是，Exclude接口不会采集远端音频信号，这样无需对Exclude接口采集的输出音频信号进行回声消除，能够保证共享音频信号的质量。

基于上述方式，在终端设备具备硬件回声消除能力的情况下，无需对输入音频信号进行回声消除，能够降低在双讲场景下回声消除对音频质量的损伤，提升音频质量。

处理模式3：获取第一类型的音频回环接口采集终端设备输出的全局音频信号，并对全局音频信号进行预处理，获得第二参考信号；基于第二参考信号对输入音频信号进行回声消除，获得采集音频信号。

其中，在处理模式3中，终端设备上同时配置了第一类型和第二类型的音频回环接口，目标类型为第二类型，并且终端设备不具备硬件回声消除的能力或性能较差，仍然需要基于Normal音频回环接口采集的全局音频信号进行回声消除，对全局音频信号进行预处理获得的第二参考信号与输入音频信号具有相同的音频格式，预处理的步骤可以包括对全局音频信号进行立体声转单声道的操作，以及重采样处理，使第二参考信号的音频格式对齐输入音频信号，另外，若输出音频信号中包含多个音频信号，还需要对多个音频信号进行混音。

如图7所示，为本申请实施例中的第二种输入音频信号的处理模式示意图，以音频采集设备为麦克风为例，采集的输入音频信号包含人声音频和回声音频，Normal音频回环接口采集的输出音频信号包含音乐播放器输出的音频3、音乐播放器2输出的音频4，以及接收的远端人声音频，Exclude接口采集的输出音频信号包括音频3、音频4，将音频3、音频4和远端人声音频混音获得混合音频，对混合音频进行立体声转单通道，并重采样处理，获得第二参考信号，基于第二参考信号对输入音频信号进行回声消除，获得的采集音频信号中仅包含人声音频。

基于上述方式，在终端设备同时配置了第一类型和第二类型的音频回环接口，并且不具备硬件回声消除能力的情况下，基于第一类型的音频回环接口采集的全局音频信号对输入音频信号进行回声消除，能够提高采集音频信号的音频质量。

当初始音频信号为输出音频信号时，可通过以下两种处理模式对输出音频信号进行处理获得共享音频信号：

处理模式4：获取应用程序对应的远端音频信号；基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号；

其中，在处理模式4中，目标类型的音频回环接口为第一类型的音频回环接口，第一类型的音频回环接口用于采集终端设备输出的全局音频信号，也即在输出音频信号中不仅包含终端设备中的其他应用程序输出的音频信号，还包含使用应用程序的至少一个对象发送的远端音频信号，因此，还需要基于远端音频信号对输出音频信号进行回声消除，获得的共享音频信号仅包含终端设备中的其他应用程序输出的音频信号。

基于上述方式，在目标类型的音频回环接口为第一类型的音频回环接口时，基于远端音频信号对输出音频信号进行回声消除，能够提升共享音频信号的音频质量。

可选的，在处理模式4中基于音频传输链路，接收远端音频信号，并对远端音频信号进行回声消除，获得回声消除后的远端音频信号，然后基于回声消除后的远端音频信号，对输出音频信号进行回声消除。

其中，音频传输链路可以是VoIP架构中的下行链路，远端音频信号经过上行链路-下行链路发送至终端设备，为了提高对输出音频信号进行回声消除的质量，可以首先对远端音频信号进行回声消除，再将回声消除后的远端音频信号作为参考信号，对输出音频信号进行回声消除。

可选的，在处理模式4中，采集的输出音频信号还可能包含多个子音频信号，则处理模式4还可以实施为：对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；基于远端音频信号的采样率，对合成音频信号进行重采样，获得重采样后的合成音频信号，然后基于远端音频信号对重采样后的合成音频信号进行回声消除，获得共享音频信号。

具体地，输出音频信号中包含远端音频信号和终端设备上的其他应用程序输出的音频信号等子音频信号，首先需要对各子音频信号进行混音，获得合成音频信号，而合成音频信号与远端音频信号的音频格式存在不同，还需要对合成音频信号进行重采样的操作，使重采样后的合成音频信号与远端音频信号的音频格式对齐，进而基于远端音频信号进行回声消除，获得共享音频信号。

例如，输出音频信号包含子音频信号a、子音频信号b和子音频信号c将子音频信号a、子音频信号b和子音频信号c混音，获得合成音频信号1，输入音频信号的采样率为d，合成音频信号1的采样率为e，则对合成音频信号1进行重采样，获得的共享音频信号的采样率为d。

如图8所示，为本申请实施例中的一种输出音频信号的处理模式示意图，Normal音频回环接口采集的输出音频信号包含音乐播放器输出的音频5、音乐播放器2输出的音频6，以及接收的远端人声音频，从下行链路获取远端音频信号，并基于远端音频信号对输出音频信号进行回声消除，获得的共享音频信号中仅包含音频5和音频6。

处理模式5：对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；基于输入音频信号的采样率，对合成音频信号进行重采样，获得共享音频信号。

其中，在处理模式5中，目标类型的音频回环接口为第二类型的音频回环接口，第二类型的音频回环接口用于采集协同音频信号，由于协同音频信号中不包含远端音频信号，因此无需对输出音频信号进行回声消除，而输出音频信号中可能包含多个子音频信号，需要将多个子音频信号混音为一路音频信号，然后进行重采样，获得的共享音频信号的采样率与输入音频信号的采样率相同。

例如，输出音频信号包含子音频信号1、子音频信号2和子音频信号3，将子音频信号1、子音频信号2和子音频信号3混音，获得合成音频信号2，输入音频信号的采样率为a，合成音频信号1的采样率为b，则对合成音频信号2进行重采样，获得的共享音频信号的采样率为a。

基于上述方式，在目标类型的音频回环接口为第二类型的音频回环接口时，无需对输出音频信号进行回声消除，直接进行混音和重采样操作，减少对音频信号的损伤，能够提升共享音频信号的音频质量。

上文分别介绍了本申请实施例中对输入音频信号进行处理的3种处理模式，和对输出音频信号进行处理的2种模式，在音频共享中，往往需要同时对输入音频信号和输出音频信号进行处理，因此，基于上述方式，对输入音频信号和输出音频信号进行处理的综合处理模式以下六种：

综合处理模式1：对输出音频信号进行预处理，获得第一参考信号；基于第一参考信号对输入音频信号进行回声消除，获得采集音频信号；获取应用程序对应的远端音频信号；基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号；

综合处理模式2：对输出音频信号进行预处理，获得第一参考信号；基于第一参考信号对输入音频信号进行回声消除，获得采集音频信号；对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；基于输入音频信号的采样率，对合成音频信号进行重采样，获得共享音频信号；

综合处理模式3：将输入音频信号直接作为采集音频信号；获取应用程序对应的远端音频信号；基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号；

综合处理模式4：将输入音频信号直接作为采集音频信号；对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；基于输入音频信号的采样率，对合成音频信号进行重采样，获得共享音频信号；

综合处理模式5：获取第一类型的音频回环接口采集终端设备输出的全局音频信号，并对全局音频信号进行预处理，获得第二参考信号；基于第二参考信号对输入音频信号进行回声消除，获得采集音频信号；获取应用程序对应的远端音频信号；基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号；

综合处理模式6：获取第一类型的音频回环接口采集终端设备输出的全局音频信号，并对全局音频信号进行预处理，获得第二参考信号；基于第二参考信号对输入音频信号进行回声消除，获得采集音频信号；对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；基于输入音频信号的采样率，对合成音频信号进行重采样，获得共享音频信号。

在本申请实施例中，可以实现不同设备和应用程序之间的音频共享，避免了格式转换所带来的负面影响，针对不同的音频回环接口采用不同的链路分支，可以很好的解决不同操作系统的回采的不同采样率的声音，且针对音频采集链路以及音频共享链路分别采用了不同的信号处理方法，在保留回采音质的同时可以很好的传输采集音频信号，极大的提高了用户体验，不改变原VOIP发送链路（与麦克风采集信号同链路发送，不新开上行链路，不消耗编解码资源），使用成本低，节省计算资源。

下面分别以综合处理模式1、综合处理模式4、综合处理模式6为例，对获得采集音频信号和共享音频信号的过程进行说明。

如图9所示，为本申请实施例中的综合处理模式1的处理过程示意图，麦克风采集输入音频信号1，Normal音频回环接口采集输出音频信号1包含协同音频信号（其他应用程序音频），对输出音频信号1在回声消除缓冲区进行预处理，获得第一参考信号，在前处理模块基于第一参考信号对输入音频信号1进行回声消除，获得采集音频信号1，从后处理模块获取远端音频信号1，基于远端音频信号1对输出音频信号1进行回声消除，获得共享音频信号1。其中，远端音频信号在进入后处理模块前可以在缓冲区1缓存，远端音频信号被从后处理模块获取后可以在缓冲区2缓存，共享音频信号可以在缓冲区3缓存，等待与采集音频信号混音后发送，第一参考信号进入前处理模块前可以在缓冲区4缓存。

该模式下其他应用程序音源与下行链路音源（远端音频信号）共同被Normal回环接口采集（为双声道采集，稳定性更好，且针对音乐音频保留更好），由于采样率以及通道数匹配的问题，需要先对回采声音进行立体声转单通道的混音操作，随后进行采样率转换，将其格式转换为和上行链路相同格式，便于后续混音。需要说明的是，Normal回环接口同时支持单声道采集和双声道采集，对大多数操作系统而言，双声道采集的稳定性优于单声道采集，因此，在本申请实施例中主要以Normal回环接口为双声道采集为例进行说明。

该链路包含两次AEC算法，其中第一次AEC用来消除麦克风采集到的回声，第二次AEC则用来消除音频回环接口采集到的远端音频信号（采用线性回声消除即可，非极端情况不需要打开非线性部分）。经过第二次AEC后的共享音频被送入一个缓冲区暂存，等待发送链路读取后混音发送。该方案在双讲情况下对共享音频有较大损伤，且对AEC算法本身也是一种挑战，具体AEC算法本实施例不做要求。

如图10所示，为本申请实施例中的综合处理模式4的处理过程示意图，麦克风采集输入音频信号2，Exclude音频回环接口采集输出音频信号2，直接将输入音频信号2作为采集音频信号2，对输出音频信号2进行混音和重采样，获得共享音频信号2。其中，远端音频信号在进入后处理模块前可以在缓冲区1缓存，共享音频信号可以在缓冲区3缓存，等待与采集音频信号混音后发送。

Normal音频回环接口下的引擎结构设计较为复杂，更好的解决方案是使用Exclude模式（IOS、Android、以及新版本Win10可以打开），该模式可以采集除了当前进程下其他应用程序或系统声音，不需关注从下行链路接收的远端音源。且目前许多桌面端、移动端设备自带硬件回声消除算法，在此实施例中，只需要关注采集（Capture）链路和回采链路的音频格式匹配，上文中说到，回采的音频一般为立体声音频，采样率也与Capture不同，所以需要先对该链路进行混音以及重采样处理，使得音频格式对齐Capture音频，随后将其放入buffer中等待Capture链路调用，混音发送。

除此之外还存在一种特殊情况，当Windows设备或部分Android设备不含硬件AEC算法或性能较差，此时开启软件AEC算法，该场景下需要同时打开Normal音频回环接口与Exclude音频回环接口，如图11所示，为本申请实施例中的综合处理模式6的处理过程示意图，麦克风采集输入音频信号3，Exclude音频回环接口采集输出音频信号3，Normal音频回环接口采集输出音频信号4，对输出音频信号4进行预处理，获得第二参考信号，在前处理模块基于第二参考信号对输入音频信号3进行回声消除，获得采集音频信号3，对输出音频信号3进行混音和重采样，获得共享音频信号3。

例如，终端设备2的配置信息2包括设备型号2.1、操作系统版本Windows10、音频回环接口为Exclude音频回环接口，采集获得初始音频信号3和初始音频信号4，初始音频信号3采用处理模式2进行处理，获得目标音频信号3，初始音频信号4采用处理模式5进行处理，获得目标音频信号4，将目标音频信号3和目标音频信号4混音后编码，获得待发送编码信号2，并通过上行链路发送。

图11中链路主要依据两种回环接口的特性以及AEC算法所需要的远端参考信号设计，因此时麦克风采集的音源包含近端音源（D）、下行链路远端音频（X）、扬声器播放音源（M），回声消除需要同时消除X、M，那么按照D = (D+M+X) -(X+M)，远端参考信号中需要同时包含X+M，这就需要依赖Normal音频回环接口对全局声音进行捕捉，随后作为前处理AEC的参考信号使用。但同时又要保证共享音频的高质量音频信号，共享链路采用Exclude音频回环接口。与只打开Normal音频回环接口不同的是，该链路下，不需要对回采链路再次进行回声消除以保证回采信号的高质量传输，因为当前模式下Normal音频回环接口采集的声音只做参考信号供发送端回声消除使用，不再向远端发送。

例如，终端设备3的配置信息3包括设备型号31、操作系统版本Android、音频回环接口为Normal音频回环接口和Exclude音频回环接口，采集获得初始音频信号5和初始音频信号6，初始音频信号5采用处理模式3进行处理，获得目标音频信号5，初始音频信号6采用处理模式4进行处理，获得目标音频信号6，将目标音频信号5和目标音频信号6混音后编码，获得待发送编码信号3，并通过上行链路发送。

如图12所示，为本申请实施例中的一种处理模式选择策略的示意图，包括以下步骤：

S1201：获取承载应用程序的终端设备的配置信息；

S1202：判断终端设备是否支持第一类型的音频回环接口，若是执行步骤S1203，若否执行步骤S1204；

S1203：打开第一类型的音频回环接口；

S1204：判断终端设备是否支持第二类型的音频回环接口，若是执行步骤S1206，若否执行步骤S1209；

S1205：判断终端设备是否启动第二类型的音频回环接口，若是执行步骤S1207，若否执行步骤S1208；

S1206：打开第二类型的音频回环接口，并执行综合处理模式4；

S1207：打开第二类型的音频回环接口，并执行综合处理模式6；

S1208：打开第一类型的音频回环接口，并执行综合处理模式1；

S1209：结束。

如图13所示，为本申请实施例中的一种音频处理方法的逻辑示意图，采集获得初始音频信号1和初始音频信号2，根据配置信息的不同提供处理模式1-5进行音频处理，终端设备1的配置信息1包括设备型号1.1、操作系统版本Windows7、音频回环接口为Normal音频回环接口，则基于配置信息确定初始音频信号1采用处理模式1进行处理，获得目标音频信号1，初始音频信号2采用处理模式4进行处理，获得目标音频信号2，将目标音频信号1和目标音频信号2混音后编码，获得待发送编码信号1，并通过上行链路发送。

这样，根据用户的系统设备型号、操作系统版本以及API的不同分别开启不同的引擎链路，在不同的设备、不同接口之间可以采用不同链路，最大程度的保证了音频共享功能的使用，可以极大地提高音频共享的效率和质量。为音频共享链路技术的发展提供了重要的技术支持和保障，对于促进音频共享技术的创新和发展具有十分重要的意义。

基于相同的发明构思，本申请实施例还提供一种音频处理装置。如图14所示，其为音频处理装置1400的结构示意图，可以包括：

确定单元1401，用于基于承载应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，其中，不同的初始音频信号是通过终端设备配置的不同设备采集的，至少两种初始音频信号中至少包含：通过终端设备上的音频采集设备采集的输入音频信号，以及，通过终端设备上目标类型的音频回环接口采集的输出音频信号；

处理单元1402，用于分别基于至少两种初始音频信号各自对应的处理模式，对相应的初始音频信号进行处理，获得至少两种目标音频信号，其中，至少两种目标音频信号具有相同的音频格式，输入音频信号经处理后，获得的目标音频信号为采集音频信号，输出音频信号经处理后获得的目标音频信号为共享音频信号；

编码单元1403，用于对至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号。

可选的，目标类型为第一类型，则处理单元1402具体用于：

采用以下方式获得采集音频信号：

对输出音频信号进行预处理，获得第一参考信号，第一参考信号与输入音频信号具有相同的音频格式；

基于第一参考信号对输入音频信号进行回声消除，获得采集音频信号，其中，第一类型的音频回环接口用于采集终端设备输出的全局音频信号。

可选的，目标类型为第二类型，则处理单元1402具体用于：

采用以下方式获得采集音频信号：

将输入音频信号直接作为采集音频信号，其中，第二类型的音频回环接口用于采集协同音频信号，协同音频信号为：终端设备输出的全局音频信号中，除应用程序对应的远端音频信号外的音频信号，远端音频信号是使用应用程序的至少一个对象发送的。

可选的，目标类型为第二类型，则处理单元1402具体用于：

采用以下方式获得采集音频信号：

获取第一类型的音频回环接口采集终端设备输出的全局音频信号，并对全局音频信号进行预处理，获得第二参考信号，第二参考信号与输入音频信号具有相同的音频格式；

基于第二参考信号对输入音频信号进行回声消除，获得采集音频信号，其中，第二类型的音频回环接口用于采集协同音频信号，协同音频信号为：全局音频信号中，除应用程序对应的远端音频信号外的音频信号，远端音频信号是使用应用程序的至少一个对象发送的。

可选的，目标类型为第一类型，则处理单元1402具体用于：

采用以下方式获得共享音频信号：

获取应用程序对应的远端音频信号，远端音频信号是使用应用程序的至少一个对象发送的；

基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号，其中，第一类型的音频回环接口用于采集终端设备输出的全局音频信号。

可选的，目标类型为第二类型，则处理单元1402具体用于：

采用以下方式获得共享音频信号：

对输出音频信号包含的各子音频信号进行混音，获得合成音频信号；

基于输入音频信号的采样率，对合成音频信号进行重采样，获得共享音频信号，其中，第二类型的音频回环接口用于采集协同音频信号，协同音频信号为：终端设备输出的全局音频信号中，除应用程序对应的远端音频信号外的音频信号，远端音频信号是使用应用程序的至少一个对象发送的。

可选的，处理单元1402还用于：

基于音频传输链路，接收远端音频信号，并对远端音频信号进行回声消除，获得回声消除后的远端音频信号；

则获取接收的远端音频信号，包括：

获取回声消除后的远端音频信号。

可选的，处理单元1402还用于：

基于输入音频信号的采样率，对合成音频信号进行重采样，获得重采样后的合成音频信号；

则基于远端音频信号对输出音频信号进行回声消除，获得共享音频信号，包括：

基于远端音频信号对重采样后的合成音频信号进行回声消除，获得共享音频信号。

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图2所示的服务器。在该实施例中，电子设备的结构可以如图15所示，包括存储器1501，通讯模块1503以及一个或多个处理器1502。

存储器1501，用于存储处理器1502执行的计算机程序。存储器1501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

存储器1501可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1501也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）；或者存储器1501是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。存储器1501可以是上述存储器的组合。

处理器1502，可以包括一个或多个中央处理单元（central processing unit，CPU）或者为数字处理单元等等。处理器1502，用于调用存储器1501中存储的计算机程序时实现上述音频处理方法。

通讯模块1503用于与终端设备和其他服务器进行通信。

本申请实施例中不限定上述存储器1501、通讯模块1503和处理器1502之间的具体连接介质。本申请实施例在图15中以存储器1501和处理器1502之间通过总线1504连接，总线1504在图15中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线1504可以分为地址总线、数据总线、控制总线等。为便于描述，图15中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

存储器1501中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的音频处理方法。处理器1502用于执行上述的音频处理方法，如图3所示。

在另一种实施例中，电子设备也可以是其他电子设备，如图2所示的终端设备。在该实施例中，电子设备的结构可以如图16所示，包括：通信组件1610、存储器1620、显示单元1630、摄像头1640、传感器1650、音频电路1660、蓝牙模块1670、处理器1680等部件。

通信组件1610用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi模块可以帮助用户收发信息。

存储器1620可用于存储软件程序及数据。处理器1680通过运行存储在存储器1620的软件程序或数据，从而执行终端设备的各种功能以及数据处理。存储器1620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1620存储有使得终端设备能运行的操作系统。本申请中存储器1620可以存储操作系统及各种应用程序，还可以存储执行本申请实施例音频处理方法的计算机程序。

显示单元1630还可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元1630可以包括设置在终端设备正面的显示屏1632。其中，显示屏1632可以采用液晶显示器、发光二极管等形式来配置。显示单元1630可以用于显示本申请实施例中的音频处理用户界面等。

显示单元1630还可用于接收输入的数字或字符信息，产生与终端设备的用户设置以及功能控制有关的信号输入，具体地，显示单元1630可以包括设置在终端设备正面的触摸屏1631，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

其中，触摸屏1631可以覆盖在显示屏1632之上，也可以将触摸屏1631与显示屏1632集成而实现终端设备的输入和输出功能，集成后可以简称触摸显示屏。本申请中显示单元1630可以显示应用程序以及对应的操作步骤。

摄像头1640可用于捕获静态图像，用户可以将摄像头1640拍摄的图像通过应用发布评论。摄像头1640可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导体（complementary metal-oxide-semiconductor，CMOS）光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给处理器1680转换成数字图像信号。

终端设备还可以包括至少一种传感器1650，比如加速度传感器1651、距离传感器1652、指纹传感器1653、温度传感器1654。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。

音频电路1660、扬声器1661、传声器1662可提供用户与终端设备之间的音频接口。音频电路1660可将接收到的音频数据转换后的电信号，传输到扬声器1661，由扬声器1661转换为声音信号输出。终端设备还可配置音量按钮，用于调节声音信号的音量。另一方面，传声器1662将收集的声音信号转换为电信号，由音频电路1660接收后转换为音频数据，再将音频数据输出至通信组件1610以发送给比如另一终端设备，或者将音频数据输出至存储器1620以便进一步处理。

蓝牙模块1670用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1670与同样具备蓝牙模块的可穿戴电子设备（例如智能手表）建立蓝牙连接，从而进行数据交互。

处理器1680是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1620内的软件程序，以及调用存储在存储器1620内的数据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1680可包括一个或多个处理单元；处理器1680还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器1680中。本申请中处理器1680可以运行操作系统、应用程序、用户界面显示及触控响应，以及本申请实施例的音频处理方法。另外，处理器1680与显示单元1630耦接。

在一些可能的实施方式中，本申请提供的音频处理方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频处理方法中的步骤，例如，电子设备可以执行如图3中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD-ROM）并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的计算机程序，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。计算机程序可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）连接到用户电子设备，或者，可以连接到外部电子设备（例如利用因特网服务提供商来通过因特网连接）。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用计算机程序的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序命令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命令装置的制造品，该命令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频处理方法，其特征在于，应用于应用程序，所述方法包括：

对所述至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号；

其中，所述目标类型为第二类型，则所述采集音频信号是采用以下方式获得的：

获取第一类型的音频回环接口采集所述终端设备输出的全局音频信号，并对所述全局音频信号进行预处理，获得第二参考信号，所述第二参考信号与所述输入音频信号具有相同的音频格式；基于所述第二参考信号对所述输入音频信号进行回声消除，获得所述采集音频信号，其中，所述第二类型的音频回环接口用于采集协同音频信号，所述协同音频信号为：所述全局音频信号中，除所述应用程序对应的远端音频信号外的音频信号，所述远端音频信号是使用所述应用程序的至少一个对象发送的。

2.如权利要求1所述的方法，其特征在于，所述目标类型为第一类型，则所述采集音频信号是采用以下方式获得的：

3.如权利要求1所述的方法，其特征在于，所述目标类型为第二类型，则所述采集音频信号是采用以下方式获得的：

4.如权利要求1~3任一项所述的方法，其特征在于，所述目标类型为第一类型，则所述共享音频信号是采用以下方式获得的：

5.如权利要求1~3任一项所述的方法，其特征在于，所述目标类型为第二类型，则所述共享音频信号是采用以下方式获得的：

6.如权利要求4所述的方法，其特征在于，所述获取所述应用程序对应的远端音频信号，包括：

则所述基于所述远端音频信号对所述输出音频信号进行回声消除，包括：

基于所述回声消除后的远端音频信号对所述输出音频信号进行回声消除。

7.如权利要求4所述的方法，其特征在于，在所述基于所述远端音频信号对所述输出音频信号进行回声消除，获得所述共享音频信号之前，还包括：

8.一种音频处理装置，其特征在于，应用于应用程序，包括：

确定单元，用于基于承载所述应用程序的终端设备的配置信息，获得采集到的至少两种初始音频信号各自对应的处理模式，其中，不同的初始音频信号是通过所述终端设备配置的不同设备采集的，所述至少两种初始音频信号中至少包含：通过所述终端设备上的音频采集设备采集的输入音频信号，以及，通过所述终端设备上目标类型的音频回环接口采集的输出音频信号；

编码单元，用于对所述至少两种目标音频信号进行混音，并对混音后音频进行编码，获得待发送编码信号；

9.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1~7中任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1~7中任一所述方法的步骤。