CN108055494A

CN108055494A - 一种音频处理方法及装置

Info

Publication number: CN108055494A
Application number: CN201711392110.7A
Authority: CN
Inventors: 李晓威
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-05-18

Abstract

本发明提供提供一种音频处理方法及装置，在获取当前处理时刻下一个音视频通话中的至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中每个音频帧的采样时间戳后，根据每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，并对每个音频帧中的全部采样数据进行混合，得到由至少一个客户端共同使用的一个混合音频帧，相对于分别为一个音视频通话中的全部客户端得到一个音频帧来说，降低音频帧数量，进而可以降低MCU的计算负担和计算资源消耗。

Description

一种音频处理方法及装置

技术领域

本发明属于音频技术领域，更具体的说，尤其涉及一种音频处理方法及装置。

背景技术

随着即时通讯软件的普及，即时通讯软件中的音视频通话成为目前信息沟通最有效的沟通方式，其中音视频通话中音视频帧传输方式有两种：

第一种是点对点传输方式，即一个音视频通话中，任意一个客户端向音视频通话中的其他客户端发送音视频帧，并接收其他客户端发送的音视频帧，这种点对点传输方式无需服务器中转，但是当音视频通话中客户端数量较多时，每个客户端要承受巨大的计算和网络传输压力，因此这种点对点传输方式在音视频通话中较少使用。

第二种是MCU(Multi Control Unit，多点控制单元)转发方式，在这种方式下有两种模式：一种模式是forward模式，在此模式下MCU可接收各客户端发送的音视频帧，然后各客户端从MCU中下载其他客户端的音视频帧；另一种模式是mix模式，在此模式下MCU将客户端发送的音视频帧混合，然后各客户端从MCU中下载混合后的音视频帧，因此从数据帧量角度来看，mix模式能最大程度降低客户端的计算和网络传输压力，mix模式是目前音视频通话中最有效的音视频帧传输方式。

在mix模式中，MCU需要为音视频通话中的每个客户端混合出一路音频帧，如音视频通话中有N个客户端，对于第i个客户端来说，MCU需要从第i个客户端之外的其他客户端发送的音频帧中获取音频帧，然后对获取的音频帧进行混合，得到第i个客户端的混合音频帧，因此在音视频通话中有N个客户端的情况下，MCU则需要经过N次独立的编码、打包和加密等操作以得到N个混合音频帧，提高MCU的计算负担，进而提高MCU的计算资源消耗。

发明内容

有鉴于此，本发明的目的在于提供一种音频处理方法及装置，用于为音视频通话中的各个客户端混合一路共用的混合音频帧，以此降低MCU的计算负担，进而降低MCU的计算资源消耗。技术方案如下：

本发明提供一种音频处理方法，应用于音频混合器中，所述方法包括：

获取当前处理时刻下至少一个客户端发送的音频帧以及所述至少一个客户端发送的音频帧中每个音频帧的采样时间戳，其中所述至少一个客户端处于一个音视频通话中，且所述至少一个客户端发送的音频帧中每个音频帧的时间长度相同；

根据所述每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，其中每个音频帧中的采样数据总数相同，且所述采样时间戳用于指示对应的音频帧中各个采样数据的采样时间；

对所述每个音频帧中的全部采样数据进行混合，得到由所述至少一个客户端共同使用的一个混合音频帧。

优选的，所述方法还包括：为每个客户端分配各自对应的存储队列；

每间隔所述音频帧的时间长度，获取所述至少一个客户端发送的音频帧以及所述至少一个客户端发送的音频帧中每个音频帧的采样时间戳；

根据由先到后的音频帧采样顺序，将所述至少一个客户端发送的音频帧和该音频帧的采样时间戳存储到所述至少一个客户端各自对应的存储队列的存储区域中，其中所述音频帧采样顺序根据所述音频帧的采样时间戳确定；

所述获取当前处理时刻下至少一个客户端发送的音频帧以及所述至少一个客户端发送的音频帧中每个音频帧的采样时间戳，包括：分别从每个客户端对应的存储队列中获取当前处理时刻下的音频帧以及每个音频帧的采样时间戳。

优选的，所述对所述每个音频帧中的全部采样数据进行混合，得到由所述至少一个客户端共同使用的一个混合音频帧，包括：

对所述每个音频帧中的第i个采样数据进行混合，得到所述混合音频帧中的第i个混合采样数据，0≤i≤N-1，N为所述采样数据总数；

在得到所述混合音频帧中的第0个采样数据至第N-1个采样数据后，根据所述混合音频帧中的第0个采样数据至第N-1个采样数据，得到所述混合音频帧。

优选的，所述方法还包括：将所述混合音频帧封装于数据包的数据区域中；

将所述客户端的标识信息和所述音频帧的采样时间戳封装于所述数据包的数据头中，其中每个所述客户端的标识信息在所有标识信息中的排序和所述客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同。

本发明还提供一种音频处理方法，应用于客户端中，所述方法包括：

在接收到音频混合器发送的数据包后，提取所述数据包中封装的客户端的标识信息和混合音频帧；

将所提取的客户端的标识信息和接收所述数据包的客户端的标识信息进行比对，得到比对结果；

根据所述比对结果，对所述混合音频帧进行回音处理，得到接收所述数据包的客户端的输出音频帧。

优选的，所述根据所述比对结果，对所述混合音频帧进行回音处理，得到接收所述数据包的客户端的输出音频帧，包括：

当所述比对结果表明所提取的客户端的标识信息中不存在接收所述数据包的客户端的标识信息时，将所述混合音频帧确定为接收所述数据包的客户端的输出音频帧；

当所述比对结果表明所提取的客户端的标识信息中仅存在接收所述数据包的客户端的标识信息时，将接收所述数据包的客户端的输出音频帧确定为零；

当所述比对结果表明所提取的客户端的标识信息中存在接收所述数据包的客户端的标识信息和其他客户端的标识信息时，获取接收所述数据包的客户端的原始音频帧，根据所述原始音频帧和所述混合音频帧，得到接收所述数据包的客户端的输出音频帧。

优选的，所述获取接收所述数据包的客户端的原始音频帧，根据所述原始音频帧和所述混合音频帧，得到接收所述数据包的客户端的输出音频帧，包括：

提取所述数据包中封装的各个音频帧的采样时间戳；

从所提取的采样时间戳中获取接收所述数据包的客户端的采样时间戳；

根据所述接收所述数据包的客户端的采样时间戳，从接收所述数据包的客户端的缓存区中提取所述原始音频帧；

从所述混合音频帧中去除所述原始音频帧，得到接收所述数据包的客户端的输出音频帧。

本发明还提供一种音频处理装置，应用于音频混合器中，所述装置包括：

第一获取单元，用于获取当前处理时刻下至少一个客户端发送的音频帧以及所述至少一个客户端发送的音频帧中每个音频帧的采样时间戳，其中所述至少一个客户端处于一个音视频通话中，且所述至少一个客户端发送的音频帧中每个音频帧的时间长度相同；

第二获取单元，用于根据所述每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，其中每个音频帧中的采样数据总数相同，且所述采样时间戳用于指示对应的音频帧中各个采样数据的采样时间；

混合单元，用于对所述每个音频帧中的全部采样数据进行混合，得到由所述至少一个客户端共同使用的一个混合音频帧。

优选的，所述装置还包括：分配单元，用于为每个客户端分配各自对应的存储队列；

第三获取单元，用于每间隔所述音频帧的时间长度，获取所述至少一个客户端发送的音频帧以及所述至少一个客户端发送的音频帧中每个音频帧的采样时间戳；

存储单元，用于根据由先到后的音频帧采样顺序，将所述至少一个客户端发送的音频帧和该音频帧的采样时间戳存储到所述至少一个客户端各自对应的存储队列的存储区域中，其中所述音频帧采样顺序根据所述音频帧的采样时间戳确定；

所述第一获取单元，具体用于分别从每个客户端对应的存储队列中获取当前处理时刻下的音频帧以及每个音频帧的采样时间戳。

优选的，所述混合单元，具体用于对所述每个音频帧中的第i个采样数据进行混合，得到所述混合音频帧中的第i个混合采样数据，0≤i≤N-1，N为所述采样数据总数；

优选的，所述装置还包括：封装单元，用于将所述混合音频帧封装于数据包的数据区域中，以及将所述客户端的标识信息和所述音频帧的采样时间戳封装于所述数据包的数据头中，其中每个所述客户端的标识信息在所有标识信息中的排序和所述客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同。

本发明还提供一种音频处理装置，应用于客户端中，所述装置包括：

提取单元，用于在接收到音频混合器发送的数据包后，提取所述数据包中封装的客户端的标识信息和混合音频帧；

比对单元，用于将所提取的客户端的标识信息和接收所述数据包的客户端的标识信息进行比对，得到比对结果；

回音处理单元，用于根据所述比对结果，对所述混合音频帧进行回音处理，得到接收所述数据包的客户端的输出音频帧。

优选的，所述回音处理单元，包括：第一处理子单元，用于当所述比对结果表明所提取的客户端的标识信息中不存在接收所述数据包的客户端的标识信息时，将所述混合音频帧确定为接收所述数据包的客户端的输出音频帧；

第二处理子单元，用于当所述比对结果表明所提取的客户端的标识信息中仅存在接收所述数据包的客户端的标识信息时，将接收所述数据包的客户端的输出音频帧确定为零；

第三处理子单元，用于当所述比对结果表明所提取的客户端的标识信息中存在接收所述数据包的客户端的标识信息和其他客户端的标识信息时，获取接收所述数据包的客户端的原始音频帧，根据所述原始音频帧和所述混合音频帧，得到接收所述数据包的客户端的输出音频帧。

优选的，所述第三处理子单元，具体用于提取所述数据包中封装的各个音频帧的采样时间戳；从所提取的采样时间戳中获取接收所述数据包的客户端的采样时间戳；根据所述接收所述数据包的客户端的采样时间戳，从接收所述数据包的客户端的缓存区中提取所述原始音频帧；从所述混合音频帧中去除所述原始音频帧，得到接收所述数据包的客户端的输出音频帧。

本发明还提供一种处理器，所述处理器上存储有计算机程序，所述处理器运行所述计算机程序时实现上述音频处理方法。

本发明还提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序运行时执行上述音频处理方法。

本发明还提供一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序运行时执行上述音频处理方法。

与现有技术相比，本发明提供的上述技术方案具有如下优点：

借由上述技术方案，在获取当前处理时刻下一个音视频通话中的至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中每个音频帧的采样时间戳后，根据每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，并对每个音频帧中的全部采样数据进行混合，得到由至少一个客户端共同使用的一个混合音频帧，相对于分别为一个音视频通话中的全部客户端得到一个音频帧来说，降低音频帧数量，进而可以降低MCU的计算负担和计算资源消耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的应用音频处理方法的音频处理系统的系统架构图；

图2是本发明实施例提供的音频处理方法的信令图；

图3是本发明实施例提供的一种音频处理装置的结构示意图；

图4是本发明实施例提供的另一种音频处理装置的结构示意图；

图5是本发明实施例提供的再一种音频处理装置的结构示意图；

图6是本发明实施例提供的再一种音频处理装置的结构示意图。

具体实施方式

本发明实施例提供的音频处理方法及装置，在获取当前处理时刻下一个音视频通话中的至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中每个音频帧的采样时间戳后，根据每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，并对每个音频帧中的全部采样数据进行混合，得到由至少一个客户端共同使用的一个混合音频帧，再由各个客户端对混合音频帧进行处理，得到各自需要的输出音频帧，这种音频处理方法及装置相对于分别为一个音视频通话中的全部客户端得到一个音频帧来说，降低音频帧数量，进而可以降低MCU的计算负担和计算资源消耗。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的音频处理方法的系统架构图，所述系统架构图包括：一个音频通话中的至少一个客户端和一个与所述至少一个客户端交互的服务器，如图1所述系统架构图中，音频通话中有三个客户端，分别是：客户端A、客户端B和客户端C，服务器可以是音频混合器以及具备音频混合功能的MCU，且服务器可以包括音频解码器、音频编码器和打包器，以使服务器通过音频解码器、音频编码器和打包器对图1中客户端A、客户端B和客户端C发送的各个音频帧进行处理，得到供这三个客户端共同使用的混合音频帧。

在上述图1中，客户端A、客户端B和客户端C同时向服务器发送各自的音频帧以及各个音频帧的采样时间戳，并从服务器中下载混合音频帧以得到各自对应的输出音频帧。其中每个客户端包括发送端和接收端，所述发送端用于音频采集(由图1中的音频采集器完成)、音频编码(由图1中客户端A的发送端中的音频编码器完成)、音频打包、加密和发送(这三个功能由图1中客户端A的发送端中的打包器完成)；所述接收端用于音频接收、音频解密、音频拼包(这三个功能由图1中客户端A的接收端中的组包器完成)、音频解码(由图1中客户端A的接收端中的音频解码器完成)、音频回音屏蔽(由图1中客户端A的接收端中的回音屏蔽器完成)和播放(由图1中客户端A中的播放器)。

并且在上述图1所述系统架构图中，各个客户端和服务器使用相同的采样率，且每个音频帧的时间长度相同和音频帧中的采样数据总数相同，如上述采样率可以为8KHZ(千赫兹)，每个音频帧的时间长度可以为20ms(毫秒)，每个音频帧中的采样数据总数为160个，之所以需要客户端和服务器中使用相同的采样率、且每个音频帧的时间长度和采样数据总数相同，是为了使得各个客户端采集到的音频帧可以对齐，这样服务器才可以进行音频帧的混合，且各个客户端从服务器处得到混合音频帧后，可以对混合音频帧进行回音屏蔽处理，得到各自对应的输出音频帧。

下面参照图1所述系统架构图以客户端A收发音频帧为例，对本发明实施例提供的音频处理方法进行阐述，如图2所示，其示出了本发明实施例提供的音频处理方法在客户端和服务器中各个设备之间交互的信令图，可以包括以下步骤：

S101：客户端中的音频采集器采集音视频通话中的音频帧，并记录采集到的音频帧的采样时间戳，其中采样时间戳用于指示采集到的音频帧中各个采样数据的采样时间，如音频采集器位于客户端A中时，音频采集器采集使用客户端A的用户在音视频通话中的音频帧，并通过采样时间戳的方式记录音频帧中各个采样数据的采样时间。

在本发明实施例中，音频采集器中具有两个存储队列，分别是：音频帧缓冲区队列AUDIO_Q和帧时间戳队列TS_Q，其中音频帧缓冲区队列AUDIO_Q按照由先到后的音频帧采样顺序，缓存音频采集器采集到的各个音频帧，如图1中音频帧缓冲区队列AUDIO_Q缓存有音频帧A1、A2和A3；帧时间戳队列TS_Q则用于存储上述各个音频帧的采样时间戳，如存储有T(A1)，T(A2)，T(A3)，T(Ax)表示音频帧缓冲区队列AUDIO_Q缓存的音频帧Ax的采样时间戳，而音频帧采样顺序根据音频帧的采样时间戳确定。

S102：客户端中的打包器对音频帧进行压缩，得到压缩后的音频帧E(Ax)，然后对压缩后的音频帧E(Ax)打包后发送。在对压缩后的音频帧E(Ax)进行打包时可以采用RTP(Reliable Transport Protocol，可靠传输协议)技术，得到封装有音频帧E(Ax)的数据包，并在数据包的数据头中的timestamp(时间错)字段写入该音频帧的采样时间戳T(Ax)。

S103：服务器中的音频解码器从数据包中获取压缩后的音频帧E(Ax)，对压缩后的音频帧E(Ax)进行解码，得到音频帧Ax，并从数据包的数据头中获取该音频帧的采样时间戳T(Ax)。

在本发明实施例中，音频解码器为每个客户端分配有独立的解码帧缓冲区队列，使得解码得到的每个客户端的音频帧Ax和该音频帧Ax的采样时间戳T(Ax)可以独立缓存。例如音频解码器每间隔音频帧的时间长度(以使服务器可每间隔音频帧的时间长度进行一次音频帧的混合)接收到客户端A发送数据包，如接收到三个数据包，并从每个数据包中获取到压缩后的音频帧E(A1)，E(A2)和E(A3)，在得到压缩后的音频帧后对其进行解码得到音频帧A1，A2和A3，将这三个音频帧放入客户端A的解码帧缓冲区队列A中。从数据包中获取到音频帧的采样时间戳T(Ax)，如从数据包的数据头中的timestamp字段中获取采样时间戳，并将其与对应的音频帧缓存在一起。同样的对于客户端B和客户端C来说，这两个客户端的音频帧和该音频帧的采样时间戳也会缓存至各自对应的解码帧缓冲区队列B和C中。

也就是说，在本发明实施例中，音频解码器为每个客户端分配各自对应的存储队列，并每间隔音频帧的时间长度(如上述20ms)获取至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中该音频帧的采样时间戳，然后根据音频帧的采样时间戳确定的由先到后的音频帧采样顺序，将音频帧和该音频帧的采样时间戳存储到客户端对应的存储队列(如上述解码帧缓冲区队列)的存储区域中。

在这里需要说明的一点是：在数据包传输过程中会出现丢包或延时抖动等传输问题，导致各存储队列，如解码帧缓冲区队列的某个接收时刻存在音频帧丢失的问题，例如在上述图1所示系统架构图中解码帧缓冲区队列B中音频帧B1丢失，而解码帧缓冲区队列C中音频帧C2丢失(在T2接收时刻未传输或解码完毕)，通过本发明实施例提供的存储方式可以在音频帧丢失的情况下，仍可按照正常音频帧(即未丢失的音频帧)的采样时间戳确定的由先到后的音频帧采样顺序来缓存至各自对应的解码帧缓冲区队列中。

S104：服务器中的音频编码器从每个客户端对应的存储队列中获取当前处理时刻下的音频帧以及每个音频帧的采样时间戳。由于存储队列会每间隔音频帧的时间长度来获取一个音频帧和该音频帧的采样时间戳，所以音频编码器也可以每间隔音频帧的时间长度从存储队列中获取音频帧和该音频帧的采样时间戳，也就是说当前处理时刻和前一处理时刻可以间隔一个音频帧的采样时间戳，以在获取到音频帧和该音频帧的采样时间戳后可以尽快对音频帧进行混合。

S105：服务器中的音频编码器根据每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，并对每个音频帧中的全部采样数据进行混合，得到由至少一个客户端共同使用的一个混合音频帧。

在本发明实施例中，采样时间戳用于指示对应的音频帧中各个采样数据的采样时间，因此基于采样时间可以从对应的音频帧获取到采样数据，这样就可以对每个音频帧中的第i个采样数据进行混合，得到混合音频帧中的第i个混合采样数据，在得到混合音频帧中的第0个采样数据至第N-1个采样数据后，根据混合音频帧中的第0个采样数据至第N-1个采样数据，得到混合音频帧，其中0≤i≤N-1，N为采样数据总数。

例如在本发明实施例中，音频编码器可以使用线性叠加求平均的方法对每个音频帧中的第i个采样数据进行混合，得到混合音频帧中的第i个混合采样数据，如下所示公式：

其中S为当前处理时刻获取到的音频帧总数，Sx_i为当前处理时刻获取到的音频帧Sx的第i个采样数据，Mx_i为当前处理时刻得到的混合音频帧Mx的第i个混合采样数据，因此在对当前处理时刻获取到的多个音频帧中的第0个采样数据至第N-1个采样数据进行上述混合后，就可以得到当前处理时刻下的混合音频帧Mx。

如当前处理时刻为T1接收时刻时，并且需要注意的一点是：在数据包传输过程中会出现丢包现象，则会在某个接收时刻某个音频帧丢失，如在T2接收时刻下音频帧C2丢失，则在得到混合音频帧过程中音频帧C2下的各个采样数据为0。

S106：服务器中的打包器将混合音频帧封装于数据包的数据区域中，将客户端的标识信息和音频帧的采样时间戳封装于数据包的数据头中，其中每个客户端的标识信息在所有标识信息中的排序和客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同。

如客户端的标识信息可以是客户端采集到的音频帧的SSRC(SynchronizationSource Identifier，同步源标识符)，并将音频帧的SSRC封装于CSRC(ContributingSource Identifier，贡献源标识符)List中，如对上述图1所示系统架构图中T1接收时刻进行混合时，CSRC List中封装的SSRC为{SSRC(A),SSRC(B),SSRC(C)}。进一步在标准数据头基础上，可以开启扩展标示位，在扩展标示位中封装音频帧的采样时间戳列表，如对上述图1所示系统架构图中T1接收时刻进行混合时，扩展标示位封装的采样时间戳列表Ts List：{T(A1),T(B2),T(C1)}。

而之所以需要每个客户端的标识信息在所有标识信息中的排序和客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同，是为了准确从数据头中提取客户端的标识信息及其对应的采样时间戳。

S107：服务器中的打包器将封装有混合音频帧的数据包发送给客户端的组包器，并由客户端的组包器发送至客户端的音频解码器。

S108：客户端中的音频解码器从封装有混合音频帧的数据包中提取CSRC和TsList，并从数据包中解码出混合音频帧。

S109：客户端中的回音屏蔽器将所提取的客户端的标识信息和接收数据包的客户端(如客户端A)的标识信息进行比对，得到比对结果，并根据比对结果，对混合音频帧进行回音处理，得到接收数据包的客户端的输出音频帧。

在本发明实施例中，根据比对结果对混合音频帧进行回音处理包括但不限于如下三种方式：

一种方式：当比对结果表明所提取的客户端的标识信息中不存在接收数据包的客户端的标识信息时，将混合音频帧确定为接收数据包的客户端的输出音频帧。以客户端A为接收数据包的客户端为例，当比对结果表明CSRC List中不存在SSRC(A)时，则可以将混合音频帧确定为客户端A的输出音频帧，并由客户端的播放器播出。

另一种方式：当比对结果表明所提取的客户端的标识信息中仅存在接收数据包的客户端的标识信息时，将接收数据包的客户端的输出音频帧确定为零。以客户端A为接收数据包的客户端为例，当比对结果表明CSRC List中仅存在SSRC(A)时，则可以确定客户端A的输出音频帧为零，此时客户端的播放器不会播放声音。

再一种方式：当比对结果表明所提取的客户端的标识信息中存在接收数据包的客户端的标识信息和其他客户端的标识信息时，获取接收数据包的客户端的原始音频帧，根据原始音频帧和混合音频帧，得到接收数据包的客户端的输出音频帧。

仍以客户端A为接收数据包的客户端为例，当比对结果表明CSRC List中存在SSRC(A)时，则可以提取数据包中封装的各个音频帧的采样时间戳，从所提取的采样时间戳中获取客户端A(即接收数据包的客户端)的采样时间戳，然后根据客户端A的采样时间戳，从客户端A的音频帧缓冲区队列(如上述客户端A的缓冲区)中提取客户端A的原始音频帧，然后从混合音频帧中去除原始音频帧，得到客户端A的输出音频帧。

如SSRC(A)位于CSRC list的第j位置，则在数据包的数据头的Ts List中第j位置，提取采样时间戳T(Ax)，根据采样时间戳T(Ax)从客户端A的发送端的音频帧缓冲区队列AUDIO_Q中找到原始音频帧Ax，然后从混合音频帧中去除客户端A的原始音频帧，如使用线性相减法方式去除客户端A的原始音频帧，具体方式如下公式所示：

其中Mx_F_i为输出音频帧的第i个采样数据，Count为CSRC list中的客户端数量。

与上述方法实施例相对应，本发明实施例还提供一种音频处理装置，应用于音频混合器中，其结构示意图如图3所示，可以包括：第一获取单元11、第二获取单元12和混合单元13。

第一获取单元11，用于获取当前处理时刻下至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中每个音频帧的采样时间戳，其中至少一个客户端处于一个音视频通话中，且至少一个客户端发送的音频帧中每个音频帧的时间长度相同，音频帧的采样时间戳用于指示客户端在采集到音频帧中各个采样数据的采样时间。

在本实施例中，音频帧和音频帧的采样时间戳可以分别位于对应的存储队列中，如存储队列分别是音频帧缓冲区队列AUDIO_Q和帧时间戳队列TS_Q，其中音频帧缓冲区队列AUDIO_Q按照由先到后的音频帧采样顺序，缓存各个音频帧；帧时间戳队列TS_Q则用于存储上述各个音频帧的采样时间戳，如存储有T(A1)，T(A2)，T(A3)，T(Ax)表示音频帧缓冲区队列AUDIO_Q缓存的音频帧Ax的采样时间戳，而音频帧采样顺序根据音频帧的采样时间戳确定。

相对应的本实施例还提供另一种音频处理方法的结构，如图4所示，在图3基础上还可以包括：分配单元14、第三获取单元15和存储单元16。

分配单元14，用于为每个客户端分配各自对应的存储队列，如上述音频帧缓冲区队列AUDIO_Q和帧时间戳队列TS_Q。

第三获取单元15，用于每间隔音频帧的时间长度，获取至少一个客户端发送的音频帧以及至少一个客户端发送的音频帧中每个音频帧的采样时间戳。

存储单元16，用于根据由先到后的音频帧采样顺序，将至少一个客户端发送的音频帧和该音频帧的采样时间戳存储到至少一个客户端各自对应的存储队列的存储区域中，其中音频帧采样顺序根据音频帧的采样时间戳确定。则第一获取单元11具体用于分别从每个客户端对应的存储队列中获取当前处理时刻下的音频帧以及每个音频帧的采样时间戳。

第二获取单元12，用于根据每个音频帧的采样时间戳，获取每个音频帧中的全部采样数据，其中每个音频帧中的采样数据总数相同，且采样时间戳用于指示对应的音频帧中各个采样数据的采样时间。

在本发明实施例中，采样时间戳用于指示对应的音频帧中各个采样数据的采样时间，因此基于采样时间可以从对应的音频帧获取到采样数据。

混合单元13，用于对每个音频帧中的全部采样数据进行混合，得到由至少一个客户端共同使用的一个混合音频帧。例如混合单元13进行混合的一种可行方式是：对每个音频帧中的第i个采样数据进行混合，得到混合音频帧中的第i个混合采样数据，0≤i≤N-1，N为采样数据总数，而对第i个采样数据进行混合的方法可参阅方法实施例中的相关说明，对此不在阐述。

在得到混合音频帧中的第0个采样数据至第N-1个采样数据后，根据混合音频帧中的第0个采样数据至第N-1个采样数据，得到混合音频帧。

请参阅图5，其示出了本发明实施例提供的再一种音频处理装置的结构，在图3基础上还可以包括：封装单元17，用于将混合音频帧封装于数据包的数据区域中，以及将客户端的标识信息和音频帧的采样时间戳封装于数据包的数据头中，其中每个客户端的标识信息在所有标识信息中的排序和客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同。

如客户端的标识信息可以是客户端采集到的音频帧的SSRC，并将音频帧的SSRC封装于CSRCList中，如对上述图1所示系统架构图中T1接收时刻进行混合时，CSRC List中封装的SSRC为{SSRC(A),SSRC(B),SSRC(C)}。进一步在标准数据头基础上，可以开启扩展标示位，在扩展标示位中封装音频帧的采样时间戳列表，如对上述图1所示系统架构图中T1接收时刻进行混合时，扩展标示位封装的采样时间戳列表Ts List：{T(A1),T(B2),T(C1)}。

请参阅图6，其示出了本发明实施例提供的再一种音频处理装置，应用于客户端中，其可以包括：提取单元21、比对单元22和回音处理单元23。

提取单元21，用于在接收到音频混合器发送的数据包后，提取数据包中封装的客户端的标识信息和混合音频帧。

比对单元22，用于将所提取的客户端的标识信息和接收数据包的客户端的标识信息进行比对，得到比对结果。

回音处理单元23，用于根据比对结果，对混合音频帧进行回音处理，得到接收数据包的客户端的输出音频帧。在本发明实施例中，回音处理单元23可以包括第一处理子单元、第二处理子单元和第三处理子单元，其中第一处理子单元，用于当比对结果表明所提取的客户端的标识信息中不存在接收数据包的客户端的标识信息时，将混合音频帧确定为接收数据包的客户端的输出音频帧。以客户端A为接收数据包的客户端为例，当比对结果表明CSRC List中不存在SSRC(A)时，则可以将混合音频帧确定为客户端A的输出音频帧，并由客户端的播放器播出。

第二处理子单元，用于当比对结果表明所提取的客户端的标识信息中仅存在接收数据包的客户端的标识信息时，将接收数据包的客户端的输出音频帧确定为零。以客户端A为接收数据包的客户端为例，当比对结果表明CSRC List中仅存在SSRC(A)时，则可以确定客户端A的输出音频帧为零，此时客户端的播放器不会播放声音。

第三处理子单元，用于当比对结果表明所提取的客户端的标识信息中存在接收数据包的客户端的标识信息和其他客户端的标识信息时，获取接收数据包的客户端的原始音频帧，根据原始音频帧和混合音频帧，得到接收数据包的客户端的输出音频帧。

如SSRC(A)位于CSRC list的第j位置，则在数据包的数据头的Ts List中第j位置，提取采样时间戳T(Ax)，根据采样时间戳T(Ax)从客户端A的发送端的音频帧缓冲区队列AUDIO_Q中找到原始音频帧Ax，然后从混合音频帧中去除客户端A的原始音频帧，如使用线性相减法方式去除客户端A的原始音频帧，具体方式请参阅方法实施例中的相关说明，对此不再阐述。

从上述技术方案可知，在获取到音频混合器发送的数据包后，可以根据从数据包中提取的客户端的标识信息和接收数据包的客户端的标识信息进行比对，得到比对结果，并根据比对结果对混合音频帧进行回音处理，这样在获取到供多个客户端使用的音频混合器发送的数据包后，仍可以从数据包提取的混合音频帧中获取到接收该数据包的客户端的输出音频帧，实现音频的正确播放。

本发明实施例还提供一种处理器，处理器上存储有计算机程序，处理器运行计算机程序时实现上述音频处理方法。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序运行时执行上述音频处理方法。

本发明实施例还提供一种存储介质，其特征在于，存储介质上存储有计算机程序，计算机程序运行时执行上述音频处理方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频处理方法，应用于音频混合器中，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：为每个客户端分配各自对应的存储队列；

3.根据权利要求1所述的方法，其特征在于，所述对所述每个音频帧中的全部采样数据进行混合，得到由所述至少一个客户端共同使用的一个混合音频帧，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：将所述混合音频帧封装于数据包的数据区域中；

5.一种音频处理方法，应用于客户端中，其特征在于，所述方法包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述比对结果，对所述混合音频帧进行回音处理，得到接收所述数据包的客户端的输出音频帧，包括：

7.根据权利要求6所述的方法，其特征在于，所述获取接收所述数据包的客户端的原始音频帧，根据所述原始音频帧和所述混合音频帧，得到接收所述数据包的客户端的输出音频帧，包括：

提取所述数据包中封装的各个音频帧的采样时间戳；

8.一种音频处理装置，应用于音频混合器中，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：分配单元，用于为每个客户端分配各自对应的存储队列；

10.根据权利要求9所述的装置，其特征在于，所述混合单元，具体用于对所述每个音频帧中的第i个采样数据进行混合，得到所述混合音频帧中的第i个混合采样数据，0≤i≤N-1，N为所述采样数据总数；

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：封装单元，用于将所述混合音频帧封装于数据包的数据区域中，以及将所述客户端的标识信息和所述音频帧的采样时间戳封装于所述数据包的数据头中，其中每个所述客户端的标识信息在所有标识信息中的排序和所述客户端的音频帧的采样时间戳在所有采样时间戳中的排序相同。

12.一种音频处理装置，应用于客户端中，其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述回音处理单元，包括：第一处理子单元，用于当所述比对结果表明所提取的客户端的标识信息中不存在接收所述数据包的客户端的标识信息时，将所述混合音频帧确定为接收所述数据包的客户端的输出音频帧；

14.根据权利要求13所述的装置，其特征在于，所述第三处理子单元，具体用于提取所述数据包中封装的各个音频帧的采样时间戳；从所提取的采样时间戳中获取接收所述数据包的客户端的采样时间戳；根据所述接收所述数据包的客户端的采样时间戳，从接收所述数据包的客户端的缓存区中提取所述原始音频帧；从所述混合音频帧中去除所述原始音频帧，得到接收所述数据包的客户端的输出音频帧。

15.一种处理器，其特征在于，所述处理器上存储有计算机程序，所述处理器运行所述计算机程序时实现权利要求1至4中任意一项所述的音频处理方法。

16.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序运行时执行权利要求1至4任意一项所述的音频处理方法。

17.一种处理器，其特征在于，所述处理器上存储有计算机程序，所述处理器运行所述计算机程序时实现权利要求5至7中任意一项所述的音频处理方法。

18.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序运行时执行权利要求5至7中任意一项所述的音频处理方法。