CN103500580B

CN103500580B - 混音处理方法及系统

Info

Publication number: CN103500580B
Application number: CN201310436940.0A
Authority: CN
Inventors: 李�根; 谭小刚
Original assignee: Vtron Technologies Ltd
Current assignee: Vtron Group Co Ltd
Priority date: 2013-09-23
Filing date: 2013-09-23
Publication date: 2017-04-12
Anticipated expiration: 2033-09-23
Also published as: CN103500580A

Abstract

一种混音处理方法及系统，其方法包括步骤：分别获取各个客户端的音频信息，所述音频信息为语音信息、音乐信息或语音音乐信息；分别将各个客户端对应的音频信息进行编码，获得音频编码帧；在所述音频编码帧前设置标志位，获得扩展音频编码帧；其中，根据语音信息、音乐信息、语音音乐信息分别将标志位设为语音标志位、音乐标志位、音乐标志位；将所述扩展音频编码帧打包后发送至混音服务器；获取解包后的所述混音服务器的扩展音频编码帧；根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。通过本方案提高了混音信息中背景音乐播放质量。

Description

混音处理方法及系统

技术领域

本发明涉及视频会议领域，特别是涉及一种混音处理方法及系统。

背景技术

随着网络技术和视频会议的迅速发展，多方通话业务已经成为公共交换电信网/综合业务数字网、分组语音网和移动网必备的补充业务，同时在上述网络会议电话和会议电视业务应用也越来越广泛。基本的语音业务仅涉及两个通话方，通话双方可互相听到对方的声音，二在多方通话业务和会议业务中，同时通话方可能不止两方，其中任意一方的语音信号都可以被传送至所有其他通话方，而每一通话方都应同时可听到多个其他通话方的声音。为此，在多方通话和会议电话业务中通常需要进行混音处理，即将多个通话方的语音信号混合起来，以便任意一个通话成员都可同时听到其他通话方的声音。

传统方法，在客户端编码前进行语音特征计算，语音特征和编码数据一起发到混音服务器，这样混音服务器只根据已计算好的语音特征挑选混音通道数，然后将需要混音的m个通道数据，全部发往各客户端进行解码混音。

上述方法一般使用VAD(语音激活探测)技术，同时在无语音的情况下不发送数据到子语音服务器(DTX技术)。但当主会场需要播放背景音乐，或者有分会场需要分享音乐时，上述VAD+DTX技术会导致音乐时断时续或完全没有声音。

发明内容

基于此，有必要针对混音时音乐时断时续或完全没有声音的问题，提供一种混音处理方法及系统。

一种混音处理方法，包括步骤：

分别获取各个客户端的音频信息，所述音频信息为语音信息、音乐信息或语音音乐信息，其中，所述语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音；

分别将各个客户端对应的音频信息进行编码，获得音频编码帧；

在所述音频编码帧前设置标志位，获得扩展音频编码帧；其中，若所述音频信息为语音信息，则所述标志位为语音标志位，若所述音频信息为音乐信息，则所述标志位为音乐标志位，若所述音频信息为语音音乐信息，则所述标志位为音乐标志位；

将所述扩展音频编码帧打包后发送至混音服务器；

所述混音服务器执行解包得到解包后的扩展音频编码帧；

根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。

一种混音处理系统，包括：

第一获取模块，用于分别获取各个客户端的音频信息，所述音频信息为语音信息、音乐信息或语音音乐信息，其中，所述语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音；

编码模块，用于分别将各个客户端对应的音频信息进行编码，获得音频编码帧；

扩展音频帧模块，用于在所述音频编码帧前设置标志位，获得扩展音频编码帧；其中，若所述音频信息为语音信息，则所述标志位为语音标志位，若所述音频信息为音乐信息，则所述标志位为音乐标志位，若所述音频信息为语音音乐信息，则所述标志位为音乐标志位；

第一发送模块，用于将所述扩展音频编码帧打包后发送至混音服务器；

混音服务器，执行解包得到解包后的扩展音频编码帧，根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。

上述混音处理方法及系统，通过分别采集语音信息、音乐信息或者混音后的语音音乐信息，在音频编码帧前设置标志位，将音乐信息、语音音乐信息和语音信息区分开，然后获取混音服务器的扩展音频编码帧，实现解码混音，并返回至各个客户端。从而实现会场有音乐需要分享时，混音信息中存在完整音乐信息，提高了混音信息中背景音乐播放质量。

附图说明

图1为本发明混音处理方法实施例一的流程示意图；

图2为本发明混音处理系统实施例一的结构示意图；

图3为本发明混音处理系统实施例二中子混音处理模块的结构示意图；

图4为本发明混音处理系统实施例二中主混音处理模块的结构示意图。

具体实施方式

以下针对本发明混音处理方法及系统的各实施例进行详细的描述。

参见图1，为本发明混音处理方法实施例一的流程示意图，包括步骤：

步骤S101：分别获取各个客户端的音频信息，音频信息为语音信息、音乐信息或语音音乐信息，其中，语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音。其中音乐信息可以是主会场播放的背景音乐、分会场分享的音乐等。当一个会场同时存在语音信息和音乐信息时，先将语音信息和音乐信息进行混音。

步骤S102：分别将各个客户端对应的音频信息进行编码，获得音频编码帧。即音频编码帧包括语音编码帧、音乐编码帧、语音音乐编码帧。

步骤S103：在音频编码帧前设置标志位，获得扩展音频编码帧；其中，若音频为语音信息，则标志位为语音标志位，若音频信息为音乐信息，则标志位为音乐标志位，若音频信息为语音音乐信息，则标志位为音乐标志位。

步骤S104：将扩展音频编码帧打包后发送至混音服务器。当客户端数量不多时，比如参与视频会议的会场较少时，这里的混音服务器可以是一个主混音服务器，该主混音服务器连接多个客户端，此时只需要进行客户端与服务器之间的交互过程。当客户端数量较多时，可以设置多个子混音服务器和一个主混音服务器，具体根据需要设定。

步骤S105：获取解包后的混音服务器的扩展音频编码帧。

步骤S106：根据扩展音频编码帧的标志位将音频编码帧进行解码获得音频解码信息，将音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。根据扩展音频编码帧的标志位将音频编码帧进行解码可以是，预先设定一些判断条件，判断音乐标志位对应的音频信息是否需要参与混音，语音标志位对应的音频信息是否需要参与混音。也可以是直接将获得到的一些音频编码帧进行解码混音，还可以是语音标志位对应的音频信息默认参与混音，对音乐标志位对应的音频信息进行筛选，最终将筛选的音频信息和语音标志位对应的音频信息进行混音等。

通过分别采集语音信息、音乐信息或者混音后的语音音乐信息，在音频编码帧前设置标志位，将音乐信息、语音音乐信息和语音信息区分开，然后获取混音服务器的扩展音频编码帧，实现解码混音，并返回至各个客户端。从而实现会场有音乐需要分享时，混音信息中存在完整音乐信息，提高了混音信息中背景音乐播放质量。同时，本方案在发送至混音服务器之前进行了编码，提高了客户端与混音服务器之间的传输效率，从而提高了整个混音过程的效率。

在具体实施例中，还可以在步骤S106中，可以将混音后的混音音频信息进行编码，然后将编码后的信息发送至客户端，这样大大降低了发送客户端的码率，提高了传输混音信息的效率。

在具体实施例中，在音频编码帧前设置标志位，获得扩展音频编码帧步骤，还包括步骤：在音频编码帧前设置语音特征位，其中，若音频信息为语音信息，计算语音信息的语音特征值，则语音特征位为语音特征值。语音特征值可以是语音信号的能量量度、语音信号的幅度量度或语音信号强度等，具体根据需要设定。本实施例中，扩展音频编码帧由三位组成，包括标志位、语音特征位、语音编码帧位。当标志位为音乐时，语音特征值位可以为空，也可以对音乐标志位对应的扩展音频编码帧不增加语音特征位。

根据扩展音频编码帧的标志位将音频编码帧进行解码获得音频解码信息，将音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端步骤，包括步骤：

若标志位为语音标志位，则根据扩展音频编码帧的语音特征值与预设的混音优先级判定规则确定参与混音的音频编码帧，将参与混音的音频编码帧进行解码获得音频解码信息。其中，根据语音特征值与预设的混音优先级判定规则确定参与混音的语音编码帧的方法有很多种，比如语音特征值为信号能量，预设的混音优先级判定规则是指信号能量排名前n的语音信息参与混音，又或者，对于主会场，只要其讲话，即被确定为语音信息混合处理所需通话方，对于其他通话方，则按照语音信号强度大小排序，并选择信号强度较大的几个通过方参与混音。

若标志位为音乐标志位，则将音频编码帧进行解码获得音频解码信息。

将各音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。

本实施例通过将音乐标志位对应的音频信息默认参与混音，对语音标志位对应的音频信息进行筛选，最终将筛选的音频信息和音乐标志位对应的音频信息进行混音，从而实现在全程会议中，只要有音乐分享，即可听到该分享音乐。

在另一个实施例中，在音频编码帧前设置标志位，获得扩展音频编码帧步骤，还包括步骤：在音频编码帧前设置语音特征位，其中，若音频为语音信息，计算语音信息的语音特征值，则语音特征位为语音特征值；

获取解包后的混音服务器的扩展音频编码帧；根据扩展音频编码帧的标志位将音频编码帧进行解码获得音频解码信息，将音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端步骤，包括步骤：

获取混音服务器接收的数据包，根据数据包的IP地址判断数据包来源；

当数据包来自客户端时，解析数据包获得解析扩展音频编码帧，解析扩展音频编码帧的标志位，若标志位为语音标识位时，读取扩展音频编码帧的语音特征值；根据语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将该音频编码帧解码，若标志位为音乐标志位，则将音频编码帧进行解码，根据各解码音频信息获得初选音频信息，发送初选音频信息和对应的标识位、语音特征值；

当数据包来自主混音服务器时，将数据包转发至客户端。在一个实施例中，该步骤可以读取数据包的转发/混音标志位，若为混音标识位时，将数据包转发至对应客户端；若为转发标志位时，根据被发送客户端对数据包的终选音频信息以及对应的标志位和语音特征值进行混音并编码，将编码后数据发送至对应客户端。

获取主混音服务器接收的初选音频信息、标志位、语音特征值，根据语音特征值与第二预设的混音优先级判定规则确定参与混音的音频信息，根据参与混音的音频信息和音乐标志位对应的音频信息获得终选音频信息，

将终选音频信息混音、编码并封包发送至各子混音服务器。在一个实施例中，该步骤可以是将转发标志位和终选音频信息以及对应的标志位和语音特征值封包发送至有客户端参与混音的子混音服务器，将终选音频信息混音并编码，将混音标志位和该编码信息封包发送至没有客户端参与混音的子服务端。

本实施例是针对多个客户端时，将混音服务器分为多个子混音服务器和一个主混音服务器。子混音服务器实现初选过程，并将编码信息进行解码，主混音服务器直接接收解码后的数据，减少主混音服务器的工作量。然后主混音服务器也通过混音标志位和转发标识位的形式，将终选后的混音信息混音并编码，直接转发至没有参与混音的客户端的子混音服务器，子混音服务器直接转发至客户端。主混音服务器还将没有编码的混音信息发给有参与混音的客户端的子混音服务器，然后在子混音服务器中实现编码，发送至客户端。当然，此时子混音服务器可以判断混音信息中是否包含了被发客户端发送的信息，如果有，则将混音信息中该客户端发送的信息删除后，再混音编码，发送至该客户端，使该客户端不能听到自己的声音。

针对上述有客户端参与混音的子混音服务器和没有客户端参与混音的子服务端，举例说明，例如：客户端C11、C12、C13连接子混音服务器C1，客户端C21、C22、C23连接子混音服务器C2。在主混音服务器中，终选出需要混音的信息是来源于客户端C11、C12的信息。则子混音服务器C1叫做有客户端参与混音的子混音服务器，子混音服务器C2叫做没有客户端参与混音的子服务端。将C11、C12的信息混音编码后直接转发给子混音服务器C2，子混音服务器C2转发给客户端。将C11、C12未编码的信息直接发给子混音服务器C1，子混音服务器C1转发给客户端C11时，直接将C12信息转发给客户端C11，子混音服务器C1转发给客户端C13时，需要先将C11、C12的信息进行混音并编码，然后转发给客户端C13。

在一个具体实施例中，具体过程如下：

分别获取同一个客户端的音乐信息和语音信息，计算语音信息的语音特征值；将音乐信息进行编码，获得音频编码帧，将语音信息进行编码获得语音编码帧；接收为音频编码帧时，将标志位设为音乐标志位，根据音频编码帧和音乐标志位确定扩展音频编码帧；接收为语音编码帧时，将标志位设为语音标志位时，根据语音标志位、语音特征值和语音编码帧确定扩展语音编码帧；将扩展音频编码帧和扩展语音编码帧分别封包，获得数据包，数据包包括音乐数据包和语音数据包，发送该数据包；

解析混音服务器接收的该数据包，获得扩展音频编码帧和扩展语音编码帧；读取语音特征值，根据语音特征值与预设的混音优先级判定规则确定参与混音的语音编码帧；将语音编码帧解码，获得语音信息，根据扩展音频编码帧的音乐标志位将扩展音频编码帧解码，获得音乐信息；将音乐信息与语音信息混音并发送。

本实施例是考虑了获取信息中有音乐信息和语音信息的情况。采用分开采集的方式，采集语音信息和音乐信息。音乐信息默认参与混音信息，对音乐信息进行筛选，选出需要参与混音的语音信息，然后将语音信息和音乐信息混音并发送至客户端。

在一个具体应用实例中，可运用在多个客户端连接一个子混音服务器，多个子混音服务器连接一个主混音服务器的实例中。在客户端，分别获取语音信息和音乐信息。当一个客户端同时存在语音信息和音乐信息时，先将语音信息和音乐信息进行混音得到语音音乐信息。分别将音频信息进行编码，获得音频编码帧。若所述音频为语音信息，计算所述语音信息的语音特征值，则所述语音特征位为语音特征值。在语音特征位前设置标志位，获得扩展音频编码帧。其中，若音频为语音信息，则标志位为语音标志位，若音频信息为音乐信息，则标志位为音乐标志位，若音频为语音音乐信息，则标志位为音乐标志位。将扩展音频编码帧打包后发送至子混音服务器。

在子混音服务器中，接收的数据包，根据数据包的IP地址判断数据包来源；

当所述数据包来自客户端时，解析数据包获得解析扩展音频编码帧，解析扩展音频编码帧的标志位，若所述标志位为语音标识位时，读取所述扩展音频编码帧的语音特征值；根据所述语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将该音频编码帧解码，若所述标志位为音乐标志位，则将所述音频编码帧进行解码，根据各解码音频信息获得初选音频信息，发送所述初选音频信息和对应的标识位、语音特征值。

当所述数据包来自主混音服务器时，读取所述数据包的转发/混音标志位，若为混音标识位时，将数据包转发至对应客户端；若为转发标志位时，根据被发送客户端对所述数据包的终选音频信息以及对应的标志位和语音特征值进行混音并编码，将编码后数据发送至对应客户端。

在主混音服务器，接收的初选音频信息、标志位、语音特征值，根据所述语音特征值与第二预设的混音优先级判定规则确定参与混音的音频信息，根据参与混音的音频信息和音乐标志位对应的音频信息获得终选音频信息，将转发标志位和所述终选音频信息以及对应的标志位和语音特征值封包发送至有客户端参与混音的子混音服务器，将所述终选音频信息混音并编码，将混音标志位和该编码信息封包发送至没有客户端参与混音的子服务端。

本方案还提供一种混音处理系统，参见图2，为本发明混音处理系统实施例一的结构示意图，包括：

第一获取模块201，用于分别获取各个客户端的音频信息，音频信息为语音信息、音乐信息或语音音乐信息，其中，语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音。

编码模块202，用于分别将各个客户端对应的音频信息进行编码，获得音频编码帧；

扩展音频帧模块203，用于在音频编码帧前设置标志位，获得扩展音频编码帧；其中，若音频为语音信息，则标志位为语音标志位，若音频信息为音乐信息，则标志位为音乐标志位，若音频为语音音乐信息，则标志位为音乐标志位；

第一发送模块204，用于将扩展音频编码帧打包后发送至混音服务器；

混音处理模块205，用于获取解包后的混音服务器的扩展音频编码帧，根据扩展音频编码帧的标志位将音频编码帧进行解码获得音频解码信息，将音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。

本实施例，通过分别采集语音信息、音乐信息或者混音后的语音音乐信息，在音频编码帧前设置标志位，将音乐信息、语音音乐信息和语音信息区分开，然后获取混音服务器的扩展音频编码帧，实现解码混音，并返回至各个客户端。从而实现会场有音乐需要分享时，混音信息中存在完整音乐信息，提高了混音信息中背景音乐播放质量。同时，本方案在发送至混音服务器之前进行了编码，提高了客户端与混音服务器之间的传输效率，从而提高了整个混音过程的效率。

在具体实施例中，混音处理模块205可以将混音后的混音音频信息进行编码，然后将编码后的信息发送至客户端，这样大大降低了发送客户端的码率，提高了传输混音信息的效率。

在具体实施例中，扩展音频帧模块203，还用于在音频编码帧前设置语音特征位，其中，若音频为语音信息，计算语音信息的语音特征值，则语音特征位为语音特征值；

混音处理模块包括：

第二获取模块，用于获取解包后的混音服务器的第一扩展音频编码帧；

第一扩展音频帧解析模块，用于当标志位为语音标志位时，将扩展音频编码帧发送至混音通道选取判决模块，当标志位为音乐标志位时，将扩展音频编码帧发送至第一解码模块；

混音通道选取判决模块，用于根据扩展音频编码帧的语音特征值与预设的混音优先级判定规则确定参与混音的音频编码帧，并将参与混音的音频编码帧对应的扩展音频编码帧发送至第一解码模块；

第一解码模块，用于将接收的扩展音频编码帧的音频编码帧进行解码，获得音频解码信息；

第一混音模块，用于将各音频解码信息进行混音获得混音音频信息；

第二发送模块，用于将混音音频信息返回至各个客户端。

在另一个实施例中，扩展音频帧模块203，还用于在音频编码帧前设置语音特征位，其中，若音频为语音信息，计算语音信息的语音特征值，则语音特征位为语音特征值。

由于可以有多个客户端、多个子混音服务器、一个主混音服务器，子混音服务器连接多个客户端，主混音服务器连接多个子混音服务器。因此，混音处理模块，包括多个子混音处理模块和一个主混音处理模块，多个第一发送模块与一个子混音处理模块连接，多个子混音处理模块与一个主混音处理模块连接。如图3所示，为本发明混音处理系统实施例二中子混音处理模块的结构示意图，包括：

第三获取模块301，用于获取子混音服务器接收的数据包；

数据包来源判断模块302，用于根据数据包的IP地址判断数据包来源，当数据包来自客户端时，将数据包发送至第二扩展音频帧解析模块303，当数据包来自主混音服务器时，将数据包发送至第三发送模块306；

第二扩展音频帧解析模块303，用于解析数据包获得解析扩展音频编码帧，解析扩展音频编码帧的标志位，若标志位为语音标识位时，将扩展音频编码帧发送至混音通道选取初次判决模块；若标志位为音乐标志位时，将扩展音频编码帧发送至第二解码器；

混音通道选取初次判决模块304，用于读取扩展音频编码帧的语音特征值，根据语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将参与混音的音频编码帧对应的扩展音频编码帧发送至第二解码器；

第二解码器305，用于将接收的扩展音频编码帧的音频编码帧进行解码，获得各音频解码信息；

第三发送模块306，用于根据各音频解码信息及对应的标志位和语音特征值获得初选音频信息，发送初选音频信息至主混音服务器，将接收的数据包转发至对应客户端；

如图4所示，为本发明混音处理系统实施例二中主混音处理模块的结构示意图，包括：

第四获取模块401，用于获取主混音服务器接收的初选音频信息；

标志位解析模块402，用于解析初选音频信息，若标志位为语音标识位时，将初选音频信息发送至混音通道选取终次判决模块403；若标志位为音乐标志位时，将扩展音频编码帧发送至终选音频模块404；

混音通道选取终次判决模块403，用于根据初选音频信息的语音特征值与第二预设的混音优先级判定规则确定参与混音的音频信息，将参与混音的音频信息发送至终选音频模块；

终选音频模块404，用于根据参与混音的音频信息和音乐标志位对应的音频信息获得终选音频信息；

第四发送模块405，将终选音频信息混音、编码并封包发送至各子混音服务器。

在其他实施例中，第四发送模块，用于将转发标志位和终选音频信息以及对应的标志位和语音特征值封包发送至有客户端参与混音的子混音服务器，将终选音频信息混音并编码，将混音标志位和该编码信息封包发送至没有客户端参与混音的子服务端；

第三发送模块，用于读取数据包的转发/混音标志位，若为混音标识位时，将数据包转发至对应客户端；若为转发标志位时，根据被发送客户端对数据包的终选音频信息以及对应的标志位和语音特征值进行混音并编码，将编码后数据发送至对应客户端。

具体细节上文混音处理方法已描述，在此不再赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种混音处理方法，其特征在于，包括步骤：

将所述扩展音频编码帧打包后发送至混音服务器；

所述混音服务器执行解包得到解包后的扩展音频编码帧；

根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端；

将混音音频信息返回至各个客户端的步骤包括：

将混音音频信息进行编码，将编码后的信息发送至客户端；

所述在所述音频编码帧前设置标志位，获得扩展音频编码帧步骤，还包括步骤：在所述音频编码帧前设置语音特征位，其中，若所述音频信息为语音信息，计算所述语音信息的语音特征值，则所述语音特征位为语音特征值；

所述根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端步骤，包括步骤：

若所述标志位为语音标志位，则根据所述扩展音频编码帧的语音特征值与预设的混音优先级判定规则确定参与混音的音频编码帧，将所述参与混音的音频编码帧进行解码获得音频解码信息；

若所述标志位为音乐标志位，则将所述音频编码帧进行解码获得音频解码信息；

将各所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端。

2.一种混音处理方法，其特征在于，包括步骤：

将所述扩展音频编码帧打包后发送至混音服务器；

所述混音服务器执行解包得到解包后的扩展音频编码帧；

将混音音频信息返回至各个客户端的步骤包括：

将混音音频信息进行编码，将编码后的信息发送至客户端；

所述混音服务器执行解包得到解包后的扩展音频编码帧；根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端步骤，包括步骤：

子混音服务器根据接收的数据包的IP地址判断数据包来源；

当所述数据包来自客户端时，解析数据包获得扩展音频编码帧，解析扩展音频编码帧的标志位，若所述标志位为语音标志位时，读取所述扩展音频编码帧的语音特征值；根据所述语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将该音频编码帧解码，若所述标志位为音乐标志位，则将所述音频编码帧进行解码，根据各解码音频信息获得初选音频信息，子混音服务器向主混音服务器发送所述初选音频信息和对应的标识位、语音特征值；

当所述数据包来自主混音服务器时，子混音服务器将所述数据包转发至客户端；

主混音服务器接收初选音频信息、标志位、语音特征值，根据所述语音特征值与第二预设的混音优先级判定规则确定参与混音的音频信息，根据参与混音的音频信息和音乐标志位对应的音频信息获得终选音频信息，

主混音服务器将终选音频信息混音、编码并封包发送至各子混音服务器。

3.根据权利要求2所述的混音处理方法，其特征在于，

所述将终选音频信息混音、编码并封包发送至各子混音服务器步骤，包括步骤：

将转发标志位和所述终选音频信息以及对应的标志位和语音特征值封包发送至有客户端参与混音的子混音服务器，将所述终选音频信息混音并编码，将混音标志位和编码信息封包发送至没有客户端参与混音的子服务端；

所述当所述数据包来自主混音服务器时，将所述数据包转发至客户端步骤，包括步骤：

读取所述数据包的转发/混音标志位，若为混音标识位时，将数据包转发至对应客户端；若为转发标志位时，子混音服务器判断混音信息中是否包含了被发客户端发送的信息，如果有，则将混音信息中该客户端发送的信息删除后，再混音编码，发送至该客户端。

4.一种混音处理系统，其特征在于，包括：

混音服务器，执行解包得到解包后的扩展音频编码帧，根据所述扩展音频编码帧的标志位将所述音频编码帧进行解码获得音频解码信息，将所述音频解码信息进行混音获得混音音频信息，并将混音音频信息返回至各个客户端；

所述混音服务器将混音音频信息进行编码，将编码后的信息发送至客户端；

所述扩展音频帧模块，还用于在所述音频编码帧前设置语音特征位，其中，若所述音频信息为语音信息，计算所述语音信息的语音特征值，则所述语音特征位为语音特征值；

所述混音服务器包括：

第二获取模块，用于获取解包后的所述混音服务器的第一扩展音频编码帧；

第一扩展音频帧解析模块，用于当所述标志位为语音标志位时，将所述第一扩展音频编码帧发送至混音通道选取判决模块，当所述标志位为音乐标志位时，将所述第一扩展音频编码帧发送至第一解码模块；

所述混音通道选取判决模块，用于根据所述扩展音频编码帧的语音特征值与预设的混音优先级判定规则确定参与混音的音频编码帧，并将参与混音的音频编码帧对应的扩展音频编码帧发送至所述第一解码模块；

所述第一解码模块，用于将接收的扩展音频编码帧的音频编码帧进行解码，获得音频解码信息；

第一混音模块，用于将各所述音频解码信息进行混音获得混音音频信息；

第二发送模块，用于将混音音频信息返回至各个客户端。

5.一种混音处理系统，其特征在于，包括：

所述混音服务器，包括：

第三获取模块，用于获取子混音服务器接收的数据包；

数据包来源判断模块，用于根据数据包的IP地址判断数据包来源，当所述数据包来自客户端时，将所述数据包发送至第二扩展音频帧解析模块，当所述数据包来自主混音服务器时，将所述数据包发送至第三发送模块；

所述第二扩展音频帧解析模块，用于解析数据包获得扩展音频编码帧，解析扩展音频编码帧的标志位，若所述标志位为语音标志位时，将所述扩展音频编码帧发送至混音通道选取初次判决模块；若所述标志位为音乐标志位时，将所述扩展音频编码帧发送至第二解码器；

所述混音通道选取初次判决模块，用于读取所述扩展音频编码帧的语音特征值，根据所述语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将参与混音的音频编码帧对应的扩展音频编码帧发送至所述第二解码器；

所述第二解码器，用于将接收的所述扩展音频编码帧的音频编码帧进行解码，获得各音频解码信息；

所述第三发送模块，用于根据各音频解码信息及对应的标志位和语音特征值获得初选音频信息，发送所述初选音频信息至主混音服务器，将接收的所述数据包转发至对应客户端；

第四获取模块，用于获取主混音服务器接收的初选音频信息；

标志位解析模块，用于解析初选音频信息，若所述标志位为语音标志位时，将所述初选音频信息发送至混音通道选取终次判决模块；若所述标志位为音乐标志位时，将所述扩展音频编码帧发送至终选音频模块；

混音通道选取终次判决模块，用于根据所述初选音频信息的语音特征值与第二预设的混音优先级判定规则确定参与混音的音频信息，将参与混音的音频信息发送至终选音频模块；

所述终选音频模块，用于根据参与混音的音频信息和音乐标志位对应的音频信息获得终选音频信息；

第四发送模块，将终选音频信息混音、编码并封包发送至各子混音服务器。

6.根据权利要求5所述的混音处理系统，其特征在于，

所述第四发送模块，用于将转发标志位和所述终选音频信息以及对应的标志位和语音特征值封包发送至有客户端参与混音的子混音服务器，将所述终选音频信息混音并编码，将混音标志位和编码信息封包发送至没有客户端参与混音的子服务端；

所述第三发送模块，用于读取所述数据包的转发/混音标志位，若为混音标识位时，将数据包转发至对应客户端；若为转发标志位时，子混音服务器判断混音信息中是否包含了被发客户端发送的信息，如果有，则将混音信息中该客户端发送的信息删除后，再混音编码，发送至该客户端。