CN103686059B

CN103686059B - 分布式混音处理方法及系统

Info

Publication number: CN103686059B
Application number: CN201310444847.4A
Authority: CN
Inventors: 李�根; 谭小刚
Original assignee: Vtron Technologies Ltd
Current assignee: Vtron Group Co Ltd
Priority date: 2013-09-23
Filing date: 2013-09-23
Publication date: 2017-04-05
Anticipated expiration: 2033-09-23
Also published as: CN103686059A

Abstract

一种分布式混音处理方法及系统，其方法包括步骤：获取子混音服务器接收的数据包，根据数据包的IP地址判断数据包来源;当所述数据包来自客户端时，解析数据包获得扩展音频编码帧，根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息，发送所述初选音频信息；获取主混音服务器接收的各初选音频信息；根据各所述初选音频信息的语音特征值进行终选，获得终选音频信息；将终选音频信息混音、编码并封包发送至各子混音服务器。通过本方案避免了由于将终选结果全部发往客户端导致的高码率。

Description

分布式混音处理方法及系统

技术领域

本发明涉及视频会议领域，特别是涉及一种分布式混音处理方法及系统。

背景技术

随着网络技术和视频会议的迅速发展，多方通话业务已经成为公共交换电信网/综合业务数字网、分组语音网和移动网必备的补充业务，同时在上述网络会议电话和会议电视业务应用也越来越广泛。基本的语音业务仅涉及两个通话方，通话双方可互相听到对方的声音，二在多方通话业务和会议业务中，同时通话方可能不止两方，其中任意一方的语音信号都可以被传送至所有其他通话方，而每一通话方都应同时可听到多个其他通话方的声音。为此，在多方通话和会议电话业务中通常需要进行混音处理，即将多个通话方的语音信号混合起来，以便任意一个通话成员都可同时听到其他通话方的声音。

传统分布式混音系统包括主混音服务器、子混音服务器和客户端，主混音服务器与子混音服务器呈树状形的网络。客户端计算音频信息的短时平均能量，根据短时平均能量和音频编码信息获得扩展音频编码帧，向子混音服务器发送扩展音频编码帧，子混音服务器根据扩展音频编码帧的短时平均能量对音频编码帧进行初选，将初选结果发送至主混音服务器。主混音服务器将初选结果计算得到语音活动度量，根据语音活动度量进行终选，将终选得到的音频编码帧转发到客户端。客户端对终选音频编码帧进行解码、混音处理。

上述传统技术，将短时平均能量计算放到客户端编码前进行，和编码数据一起发到子混音服务器，这样子混音服务器根据已计算好的短时平均能量初选混音通道数，主混音服务器终选混音通道数。然后将需要混音的m个通道数据，全部发往各客户端进行解码混音。该方案由于将终选结果全部发往客户端，由客户端解码混音，将发往客户端的码率提高m倍。这对客户的网络提出较高的要求。在目前普遍网络较差的情况下，是无法达到的。

发明内容

基于此，有必要针对混音码率高的问题，提供一种分布式混音处理方法及系统。

一种分布式混音处理方法，包括步骤：

获取子混音服务器接收的数据包，根据数据包的IP地址判断数据包来源;当所述数据包来自客户端时，解析数据包获得扩展音频编码帧，根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息，发送所述初选音频信息；

获取主混音服务器接收的各初选音频信息；

根据各所述初选音频信息的语音特征值进行终选，获得终选音频信息；

将终选音频信息混音、编码并封包发送至各子混音服务器。

一种分布式混音处理系统，包括：

第一获取模块，用于获取子混音服务器接收的数据包；

数据包来源判断模块，用于根据数据包的IP地址判断数据包来源，当所述数据包来自客户端时，将数据包发送至扩展音频帧解析模块；

扩展音频帧解析模块，用于解析数据包获得扩展音频编码帧；

混音通道初选模块，用于根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息；

第一发送模块，用于发送所述初选音频信息；

第二获取模块，用于获取主混音服务器接收的各初选音频信息；

混音通道终选模块，用于根据各所述初选音频信息的语音特征值进行终选，获得终选音频信息；

第二发送模块，用于将终选音频信息混音、编码并封包发送至各子混音服务器。

上述分布式混音处理方法及系统，首先将初选音频编码帧进行解码后，再发送至主混音服务器，避免了在主混音服务器同时对所有编码帧进行解码带来的效率低，提高了效率。其次，将终选音频信息先混音编码后，再发送至各子混音服务器，避免了由于将终选结果全部发往客户端对网络的要求，降低了码率。同时，避免了由于每个客户端都需对终选结果进行混音带来的延时。

附图说明

图1为本发明分布式混音处理方法实施例的流程示意图；

图2为本发明分布式混音处理系统实施例的结构示意图；

图3为客户端、子混音服务器和主混音服务器的连接关系示意图；

图4为本发明分布式混音处理系统具体应用实例中客户端结构示意图；

图5为本发明分布式混音处理系统具体应用实例中子混音服务器结构示意图；

图6为本发明分布式混音处理系统具体应用实例中主混音服务器结构示意图。

具体实施方式

以下针对本发明分布式混音处理方法及系统的各实施例进行详细的描述。

参见图1，为本发明分布式混音处理方法实施例的流程示意图，包括步骤：

步骤S101：获取子混音服务器接收的数据包；

步骤S102：根据数据包的IP地址判断数据包来源，当数据包来自客户端时，进入步骤S103；

步骤S103：解析数据包获得扩展音频编码帧，根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息。

其中，扩展音频编码帧包括语音特征值和音频编码帧。音频编码帧是客户端将音频信息进行编码得到的。语音特征值可以是语音信号的能量量度、语音信号的幅度量度、语音平均能量或语音能量等，具体根据需要设定。根据扩展音频编码帧的语音特征值进行初选，是指根据语音特征值与预设的第一混音优先级判定规则确定初步参与混音的音频编码帧。根据语音特征值与预设的第一混音优先级判定规则确定参与混音的语音编码帧的方法有很多种，比如语音特征值为信号能量，预设的混音优先级判定规则是指信号能量排名前n的语音信息参与混音，又或者，对于主会场，只要其讲话，即被确定为语音信息混合处理所需通话方，对于其他通话方，则按照语音能量大小排序，并选择能量较大的几个通过方参与混音。初选音频编码帧包括音频编码帧和语音特征值。获得初选音频编码帧后，将初选音频编码帧进行解码，获得初选音频信息。则初选音频信息中包括音频信息和语音特征值。

步骤S104：发送初选音频信息。这里是指向主混音服务器发送初选音频信息。

步骤S105：获取主混音服务器接收的各初选音频信息；

步骤S106：根据各初选音频信息的语音特征值进行终选，获得终选音频信息。

其中，根据初选音频信息的语音特征值进行初选，是指根据语音特征值与预设的第二混音优先级判定规则确定初步参与混音的音频编码帧。根据语音特征值与预设的第二混音优先级判定规则确定最终参与混音的音频信息的方法有很多种，具体根据需要设定。这里终选音频信息可以包括语音特征值和音频信息，也可以只包括音频信息。

步骤S107：将终选音频信息混音、编码并封包发送至各子混音服务器。将终选音频信息混音编码后才发送至子混音服务器，子混音服务器可以转发至各客户端。

本发明方法可以运用在子混音服务器与客户端呈树状形的网络，主混音服务器与子混音服务器呈树状形的网络的情况。由于本方法首先将初选音频编码帧进行解码后，再发送至主混音服务器，避免了在主混音服务器同时对所有编码帧进行解码带来的效率低，提高了效率。其次，将终选音频信息混音编码后，再发送至各子混音服务器，避免了由于将终选结果全部发往客户端对网络的要求，降低了码率。同时，避免了由于每个客户端都需对终选结果进行混音带来的延时。

在其中一个实施例中，步骤S106包括步骤：将混音标志位和终选音频信息封包发送至有客户端参与混音的子混音服务器，将终选音频信息混音并编码，将转发标志位和该编码信息封包发送至没有客户端参与混音的子混音服务端。

其中，转发标志位用于标识子混音服务器将接收的信息直接转发，混音标志位用于标识子混音服务器将接收的信息需要先混音。有客户端参与混音的子混音服务器是指与终选音频信息对应的客户端中的一个或多个客户端连接的子混音服务器，没有客户端参与混音的子混音服务器是指与终选音频信息对应的客户端不连接的子混音服务器。例如：客户端C11、C12、C13连接子混音服务器C1，客户端C21、C22、C23连接子混音服务器C2。在主混音服务器中，终选出需要混音的信息是来源于客户端C11、C12的信息。则子混音服务器C1叫做有客户端参与混音的子混音服务器，子混音服务器C2叫做没有客户端参与混音的子服务端。将C11、C12的信息混音编码后直接转发给子混音服务器C2，子混音服务器C2转发给客户端。将C11、C12未编码的信息直接发给子混音服务器C1，子混音服务器C1转发给客户端C11时，直接将C12信息转发给客户端C11，子混音服务器C1转发给客户端C13时，需要先将C11、C12的信息进行混音并编码，然后转发给客户端C13。

步骤S102还包括步骤：当数据包来自主混音服务器时，进入以下步骤：读取数据包的转发/混音标志位，若为转发标识位时，将数据包转发至对应客户端；若为混音标志位时，根据被发送客户端对数据包的终选音频信息进行混音并编码，将编码后数据发送至对应客户端。其中，根据被发送客户端对数据包的终选音频信息进行混音并编码是指当终选音频信息对应的客户端包括被发送客户端时，将该客户端对应的音频信息不进行混音，目的是让客户端不能听到自己的声音。

本实施例是针对多个客户端时，将混音服务器分为多个子混音服务器和一个主混音服务器。子混音服务器实现初选过程，并将编码信息进行解码，主混音服务器直接接收解码后的数据，减少主混音服务器的工作量。然后主混音服务器也通过混音标志位和转发标识位的形式，将终选后的混音信息混音并编码，直接转发至没有参与混音的客户端的子混音服务器，子混音服务器直接转发至客户端。主混音服务器还将没有编码的混音信息发给有参与混音的客户端的子混音服务器，然后在子混音服务器中实现编码，发送至客户端。当然，此时子混音服务器可以判断混音信息中是否包含了被发客户端发送的信息，如果有，则将混音信息中该客户端发送的信息删除后，再混音编码，发送至该客户端，使该客户端不能听到自己的声音。通过区别对待没有客户端参与混音的子混音服务端和有客户端参与混音的子混音服务端，在降低码率的同时，还提高了混音效率，同时实现用户端不能听到自己的声音。

在另一个实施例中，步骤S101之前，还包括步骤：

A1：分别获取各个客户端的音频信息，音频信息为语音信息、音乐信息或语音音乐信息，其中，语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音。其中音乐信息可以是主会场播放的背景音乐、分会场分享的音乐等。当一个会场同时存在语音信息和音乐信息时，先将语音信息和音乐信息进行混音。

A2：分别将各个客户端对应的音频信息进行编码，获得音频编码帧。即音频编码帧包括语音编码帧、音乐编码帧、语音音乐编码帧。

A3：在音频编码帧前设置标志位和语音特征位，获得扩展音频编码帧；其中，若音频信息为语音信息，则计算语音信息的语音特征值，标志位为语音标志位，语音特征位为语音特征值。若音频信息为音乐信息，则标志位为音乐标志位，语音特征位可以设为空。若音频信息为语音音乐信息，则标志位为音乐标志位，语音特征位可以设为空。本实施例中，扩展音频编码帧由三位组成，包括标志位、语音特征位、语音编码帧位。当标志位为音乐时，语音特征值位除了为空，还可以对音乐标志位对应的扩展音频编码帧不增加语音特征位。

A4：将扩展音频编码帧打包后发送至子混音服务器；

在判断数据包来自客户端时，获得初选音频编码帧步骤，包括步骤，

解析数据包获得扩展音频编码帧，当扩展音频编码帧的标志位为音乐标志位时，该扩展音频编码帧设为初选音频编码帧，当扩展音频编码帧的标志位为语音标志位时，则根据扩展音频编码帧的语音特征值与第一预设的混音优先级判定规则确定初选音频编码帧。即当标志位为音乐标志位时，默认该音频信息为初选音频编码帧，而当标志位为音乐标志位时，需要根据预先设定的判定规则，筛选出符合条件的音频编码帧。

根据各初选音频信息的语音特征值进行终选，获得终选音频信息步骤，包括步骤：

当初选音频信息的标志位为音乐标志位时，该初选音频信息设为终选音频信息，当初选音频信息的标志位为语音标志位时，则根据初选音频信息的语音特征值与第二预设的混音优先级判定规则确定终选选音频信息。即当标志位为音乐标志位时，默认该初选音频信息为终选音频信息，而当标志位为音乐标志位时，则需要根据预先设定的规则进行筛选，获得终选音频信息。

本实施例通过分别采集语音信息、音乐信息或者混音后的语音音乐信息，在音频编码帧前设置标志位，将音乐信息、语音音乐信息和语音信息区分开，在初选和终选时，将音乐标志位对应的信息默认为最终要混音的信息，从而实现会场有音乐需要分享时，混音信息中存在完整音乐信息，提高了混音信息中背景音乐播放质量。同时，本方案在发送至子混音服务器之前进行了编码，提高了客户端与子混音服务器之间的传输效率，从而提高了整个混音过程的效率。在发送至主混音服务器之前进行了解码，分担了主混音服务器解码的工作量。同时在主混音服务器返回信息之前进行了混音编码，降低了码率。

在一个具体应用实例中，可运用在多个客户端连接一个子混音服务器，多个子混音服务器连接一个主混音服务器的实例中。在客户端，分别获取语音信息和音乐信息。当一个客户端同时存在语音信息和音乐信息时，先将语音信息和音乐信息进行混音得到语音音乐信息。分别将音频信息进行编码，获得音频编码帧。若音频为语音信息，计算语音信息的语音特征值，则语音特征位为语音特征值。在语音特征位前设置标志位，获得扩展音频编码帧。其中，若音频为语音信息，则标志位为语音标志位，若音频信息为音乐信息，则标志位为音乐标志位，若音频为语音音乐信息，则标志位为音乐标志位。将扩展音频编码帧打包后发送至子混音服务器。

在子混音服务器中，接收的数据包，根据数据包的IP地址判断数据包来源；

当数据包来自客户端时，解析数据包获得解析扩展音频编码帧，解析扩展音频编码帧的标志位，若标志位为语音标识位时，读取扩展音频编码帧的语音特征值；根据语音特征值与第一预设的混音优先级判定规则确定参与混音的音频编码帧，将该音频编码帧解码，若标志位为音乐标志位，则将音频编码帧进行解码，根据各解码音频信息获得初选音频信息，初选音频信息包括音频信息和对应的标识位、语音特征值。发送初选音频信息。

当数据包来自主混音服务器时，读取数据包的转发/混音标志位，若为转发标识位时，将数据包转发至对应客户端；若为混音标志位时，根据被发送客户端对数据包的终选音频信息进行混音并编码，将编码后数据发送至对应客户端。

在主混音服务器，接收初选音频信息，根据语音特征值与第二预设的混音优先级判定规则获得终选音频信息，将混音标志位和终选音频信息封包发送至有客户端参与混音的子混音服务器，将终选音频信息混音并编码，将转发标志位和该编码信息封包发送至没有客户端参与混音的子服务端。

本方案还提供一种分布式混音处理系统，参见图2，为本发明分布式混音处理系统实施例的结构示意图，包括：

第一获取模块201，用于获取子混音服务器接收的数据包；

数据包来源判断模块202，用于根据数据包的IP地址判断数据包来源，当数据包来自客户端时，将数据包发送至扩展音频帧解析模块；

扩展音频帧解析模块203，用于解析数据包获得扩展音频编码帧；

混音通道初选模块204，用于根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息；

第一发送模块205，用于发送初选音频信息；

第二获取模块206，用于获取主混音服务器接收的各初选音频信息；

混音通道终选模块207，用于根据各初选音频信息的语音特征值进行终选，获得终选音频信息；

第二发送模块208，用于将终选音频信息混音、编码并封包发送至各子混音服务器。

在其中一个实施例中，第二发送模块，用于将混音标志位和终选音频信息封包发送至有客户端参与混音的子混音服务器，将终选音频信息混音并编码，将转发标志位和该编码信息封包发送至没有客户端参与混音的子混音服务端。

数据包来源判断模块，还用于当数据包来自主混音服务器时，将数据包发送至第一发送模块。

第一发送模块，还用于读取数据包的转发/混音标志位，若为转发标识位时，将数据包转发至对应客户端；若为混音标志位时，根据被发送客户端对数据包的终选音频信息进行混音并编码，将编码后数据发送至对应客户端。

在其中一个实施例中，还包括：

第三获取模块，用于分别获取各个客户端的音频信息，音频信息为语音信息、音乐信息或语音音乐信息，其中，语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音；

编码模块，用于分别将各个客户端对应的音频信息进行编码，获得音频编码帧；

扩展音频帧模块，用于在音频编码帧前设置标志位和语音特征位，获得扩展音频编码帧；其中，若音频信息为语音信息，则计算语音信息的语音特征值，标志位为语音标志位，语音特征位为语音特征值；若音频信息为音乐信息，则标志位为音乐标志位，若音频信息为语音音乐信息，则标志位为音乐标志位；

第三发送模块，用于将扩展音频编码帧打包后发送至子混音服务器；

混音通道初选模块，用于当扩展音频编码帧的标志位为音乐标志位时，该扩展音频编码帧设为初选音频编码帧，当扩展音频编码帧的标志位为语音标志位时，则根据扩展音频编码帧的语音特征值与第一预设的混音优先级判定规则获得初选音频编码帧；

混音通道终选模块，用于当初选音频信息的标志位为音乐标志位时，该初选音频信息设为终选音频信息，当初选音频信息的标志位为语音标志位时，则根据初选音频信息的语音特征值与第二预设的混音优先级判定规则确定终选选音频信息。

在一个具体应用实例中，如图3，为客户端、子混音服务器、主混音服务器关系示意图。参见如图4至图6，客户端可以包括第一接收模块401、编码模块402、扩展音频帧模块403、第三发送模块404。其中第一接收模块401用于接收音频信息，即分别获取语音信息和音频信息。在其中一个实施例中，第一接收模块包括语音采集模块4011、音乐采集模块4012、混音模块4013。同时采集到语音和音乐信息时，混音模块将语音和音乐信息进行混音。子混音服务器可以包括第二接收模块501、数据包来源判断模块502、扩展音频帧解析模块503、混音通道初选模块504、第一发送模块505。其中，第二接收模块501用于接收客户端和主混音服务器发送的数据包。主混音服务器可以包括第三获取模块601、混音通道终选模块602、第二发送模块603。其中，第三获取模块601用于获取子混音服务器发送的初选音频信息。其他模块与上述模块功能相似。

本发明的分布式混音处理系统与本发明的分布式混音处理方法是一一对应的，上述分布式混音处理方法实施例中的相关技术特征及其技术效果均适用于分布式混音处理系统实施例中，在此不再赘述。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种分布式混音处理方法，其特征在于，包括步骤：

获取子混音服务器接收的数据包，根据数据包的IP地址判断数据包来源；

当所述数据包来自客户端时，解析数据包获得扩展音频编码帧，根据扩展音频编码帧的语音特征值进行初选，获得初选音频编码帧，将初选音频编码帧进行解码，获得初选音频信息，发送所述初选音频信息；

获取主混音服务器接收的各初选音频信息；

将终选音频信息混音、编码并封包发送至各子混音服务器；包括：

将混音标志位和所述终选音频信息封包发送至有客户端参与混音的子混音服务器，将所述终选音频信息混音并编码，将转发标志位和该编码信息封包发送至没有客户端参与混音的子混音服务端。

2.根据权利要求1所述的分布式混音处理方法，其特征在于，

所述获取子混音服务器接收的数据包，根据数据包的IP地址判断数据包来源步骤，还包括步骤：

当所述数据包来自主混音服务器时，读取所述数据包的转发/混音标志位，若为转发标识位时，将数据包转发至对应客户端；若为混音标志位时，根据被发送客户端对所述数据包的终选音频信息进行混音并编码，将编码后数据发送至对应客户端。

3.根据权利要求1或2所述的分布式混音处理方法，其特征在于，所述获取子混音服务器接收的数据包，根据数据包的IP地址判断数据包来源步骤之前，还包括步骤：

分别获取各个客户端的音频信息，所述音频信息为语音信息、音乐信息或语音音乐信息，其中，所述语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音；

分别将各个客户端对应的音频信息进行编码，获得音频编码帧；

在所述音频编码帧前设置标志位和语音特征位，获得扩展音频编码帧；其中，若所述音频信息为语音信息，则计算语音信息的语音特征值，所述标志位为语音标志位，所述语音特征位为语音特征值；若所述音频信息为音乐信息，则所述标志位为音乐标志位，若所述音频信息为语音音乐信息，则所述标志位为音乐标志位；

将所述扩展音频编码帧打包后发送至子混音服务器；

在判断所述数据包来自客户端时，获得初选音频编码帧步骤，包括步骤，

解析数据包获得扩展音频编码帧，当扩展音频编码帧的标志位为音乐标志位时，该扩展音频编码帧设为初选音频编码帧，当扩展音频编码帧的标志位为语音标志位时，则根据所述扩展音频编码帧的语音特征值与第一预设的混音优先级判定规则确定初选音频编码帧；

所述根据各所述初选音频信息的语音特征值进行终选，获得终选音频信息步骤，包括步骤：

当初选音频信息的标志位为音乐标志位时，该初选音频信息设为终选音频信息，当初选音频信息的标志位为语音标志位时，则根据所述初选音频信息的语音特征值与第二预设的混音优先级判定规则确定终选选音频信息。

4.一种分布式混音处理系统，其特征在于，包括：

第一获取模块，用于获取子混音服务器接收的数据包；

第一发送模块，用于发送所述初选音频信息；

第二发送模块，用于将终选音频信息混音、编码并封包发送至各子混音服务器；将混音标志位和所述终选音频信息封包发送至有客户端参与混音的子混音服务器，将所述终选音频信息混音并编码，将转发标志位和该编码信息封包发送至没有客户端参与混音的子混音服务端。

5.根据权利要求4所述的分布式混音处理系统，其特征在于，

所述数据包来源判断模块，还用于当所述数据包来自主混音服务器时，将数据包发送至第一发送模块；

所述第一发送模块，还用于读取所述数据包的转发/混音标志位，若为转发标识位时，将数据包转发至对应客户端；若为混音标志位时，根据被发送客户端对所述数据包的终选音频信息进行混音并编码，将编码后数据发送至对应客户端。

6.根据权利要求4或5所述的分布式混音处理系统，其特征在于，还包括：

第三获取模块，用于分别获取各个客户端的音频信息，所述音频信息为语音信息、音乐信息或语音音乐信息，其中，所述语音音乐信息为同一个客户端同时接收的语音信息和音乐信息的混音；

扩展音频帧模块，用于在所述音频编码帧前设置标志位和语音特征位，获得扩展音频编码帧；其中，若所述音频信息为语音信息，则计算语音信息的语音特征值，所述标志位为语音标志位，所述语音特征位为语音特征值；若所述音频信息为音乐信息，则所述标志位为音乐标志位，若所述音频信息为语音音乐信息，则所述标志位为音乐标志位；

第三发送模块，用于将所述扩展音频编码帧打包后发送至子混音服务器；

所述混音通道初选模块，用于当扩展音频编码帧的标志位为音乐标志位时，该扩展音频编码帧设为初选音频编码帧，当扩展音频编码帧的标志位为语音标志位时，则根据所述扩展音频编码帧的语音特征值与第一预设的混音优先级判定规则获得初选音频编码帧；

混音通道终选模块，用于当初选音频信息的标志位为音乐标志位时，该初选音频信息设为终选音频信息，当初选音频信息的标志位为语音标志位时，则根据所述初选音频信息的语音特征值与第二预设的混音优先级判定规则确定终选选音频信息。