CN105704338A

CN105704338A - 一种混音方法、混音设备及系统

Info

Publication number: CN105704338A
Application number: CN201610162079.7A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2016-06-22
Anticipated expiration: 2036-03-21
Also published as: CN105704338B

Abstract

本发明实施例提供一种混音方法、混音设备及系统，该方法包括：接收至少两个源节点发送的音频信号；分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。本发明实施例提供的混音方法能够大幅减小数据处理量，且能够大幅降低cpu负载。

Description

一种混音方法、混音设备及系统

技术领域

本发明涉及音频技术领域，具体涉及一种混音方法、混音设备及系统。

背景技术

混音是指多人通话场景下，将多人的音频混合成一个混音信号的过程，混音主要应用在语音会议，在线多人聊天等场景中。

目前的混音方式主要是采用混音设备和客户端实现，混音设备可接收各客户端发送的音频；且针对各个作为接收方的客户端，混音设备分别执行如下过程：将所接收的音频中除接收方的音频进行混合处理，整合成一个混音信号，再将该混音信号发送给接收方的客户端。如在一有N个客户端参与的多人通话场景下，该N个客户端均会向混音设备发送音频，对于该N个客户端中作为接收方的客户端，混音设备会将所接收的N个客户端发送的音频中除该接收方的音频进行混合处理，并向该接收方发送混合处理后的混音信号；针对每个接收方均作此处理，则可实现多人通话场景下，各接收方的客户端对相应混音结果的接收。

可以看出，目前的混音方式中，混音设备所进行的混音是基于所有客户端发送的音频中除接收方的音频实现，这涉及大量的需处理数据，导致混音设备的数据处理量较大，混音设备的cpu(中央处理器)负载较高。

发明内容

有鉴于此，本发明实施例提供一种混音方法、混音设备及系统，以减小混音设备的数据处理量，降低混音设备的cpu负载。

为实现上述目的，本发明实施例提供如下技术方案：

一种混音方法，包括：

接收至少两个源节点发送的音频信号；

分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；

当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。

本发明实施例还提供一种混音设备，包括：

音频信号接收模块，用于接收至少两个源节点发送的音频信号；

检测模块，用于分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

第一处理模块，用于当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；

第二处理模块，用于当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。

本发明实施例还提供一种混音系统，包括：

混音设备，用于接收至少两个源节点发送的音频信号；分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分；

源节点，用于向所述混音设备发送音频信号。

基于上述技术方案，本发明实施例提供的混音方法包括：接收至少两个源节点发送的音频信号；分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。由于本发明实施例仅会在携带语音数据的源节点数量为多个时，才对相应多个源节点的至少语音数据部分进行混音处理，同时，在当前携带语音数据的源节点数量为一个时，本发明实施例可直接传输相应源节点的至少语音数据部分，而不再进行混音，因此减小了单人发言时，现有技术仍采用混音形式处理语音所带来的数据处理量。可以看出，本发明实施例提供的混音方法能够大幅减小数据处理量，且能够大幅降低cpu负载。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的混音系统的结构框图；

图2为本发明实施例提供的混音方法的流程图；

图3为本发明实施例提供的混音方法的另一流程图；

图4为本发明实施例提供的混音方法的再一流程图；

图5为本发明实施例提供的混音设备的结构框图；

图6为本发明实施例提供的检测模块的结构框图；

图7为本发明实施例提供的检测模块的另一结构框图；

图8为本发明实施例提供的混音设备的另一结构框图；

图9为本发明实施例提供的检测模块的再一结构框图；

图10为本发明实施例提供的第一处理模块的结构框图；

图11为本发明实施例提供的第二处理模块的结构框图；

图12为本发明实施例提供的混音设备的硬件结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的混音系统的结构框图，本发明实施例提供的混音方法可基于图1所示混音系统实现，参照图1，本发明实施例提供的混音系统可以包括：源节点10，混音设备20；

源节点10为音频的采集源，可以对应具有语音输入、输出能力的终端设备，可以是应用在语音会议、在线聊天场景中的用户终端；

混音设备20为本发明实施例用于进行混音的设备，混音设备可以是服务器，也可以是多个源节点10中的一个；

如果混音设备采用服务器，则在进行混音前，服务器可采用握手协议等方式，将服务器的通信地址(如IP地址)通知给各源节点，使得在混音过程中，各源节点可将自身采集的音频信号发送给该服务器；

如果混音设备采用源节点，则本发明实施例可在进行混音前，检测各源节点的数据处理能力，网络传输能力，以及与其他源节点之间的时延，从所有的源节点中选择数据处理能力，网络传输能力，及所述时延符合要求的源节点作为混音设备；被选择的源节点可通过握手协议等方式将其通信地址(如IP地址)通知给其他的源节点，以便在混音过程中，该被选择的源节点可接收到其他源节点发送的音频信号。

基于图1所示混音系统，本发明实施例进行混音的过程可以如下：

混音设备接收至少两个源节点发送的音频信号；可选的，音频信号可能由语音数据(对应所采集的用户声音)，背景音数据(对应所采集的环境噪音)等构成，即音频信号应由语音数据和背景音数据中的至少一种构成；各源节点可采集对应用户的语音，和/或，用户所在环境的背景音，并编码成音频信号传输给混音设备；

混音设备分别检测各源节点发送的音频信号，确定音频信号中携带语音数据的源节点数量；

音频信号中携带语音数据，则表示发送该音频信号的源节点对应的用户当前正发言；音频信号中未携带语音数据，则表示发送该音频信号的源节点对应的用户当前未发言；

可选的，混音设备可解码各源节点发送的音频信号，对于解码后的各音频信号，混音设备可采用vad(语音活动检测)等算法检测解码后的各音频信号，确定出各音频信号是否携带有语音数据，进而确定音频信号中携带语音数据的源节点数量；

可选的，音频信号中也可携带有表示音频信号具有语音数据的语音标识，本发明实施例可分别对各源节点发送的音频信号进行语音标识检测，基于所识别到具有语音标识的音频信号数量，确定音频信号中携带语音数据的源节点数量。

当音频信号中携带语音数据的源节点数量为一个时，本发明数量可直接传输相应源节点的至少语音数据部分；

当音频信号中携带语音数据的源节点数量为多个时，本发明实施例可对相应多个源节点的至少语音数据部分进行混音处理后再传输。

由于多人通话场景下，大部分时间都是处于单人发言，其他人收听的状态，所以实际上多人同时发言的场景所占的时间比例在多人通话场景中是较低的，因此多人通话场景大部分情况下是不需要做多人混音的，即在单人发言时，仅需把发言人的声音发送给其他收听者即可。正是基于此种情况，本发明实施例中混音设备可基于所接收的各源节点发送的音频信号，识别音频信号中携带语音数据的源节点数量，并在一个时不进行混音，直接传输相应源节点的至少语音数据部分；混音设备仅在音频信号中携带语音数据的源节点数量为多个时，才对相应多个源节点的至少语音数据部分进行混音处理。

由于混音设备仅会在当前为多人发言时，对相应多个源节点的至少语音数据部分进行混音处理，在当前为单人发言时，是直接传输相应源节点的至少语音数据部分，而不再进行混音，因此本发明实施例减小了单人发言时的数据处理量。可以看出，本发明实施例中混音设备的数据处理量可大幅减小，混音设备的cpu负载可大幅降低。

下面以混音设备的角度，对本发明实施例提供的混音方法进行介绍，下文描述的混音方法可与上文描述内容相互对应参照。

图2为本发明实施例提供的混音方法的流程图，该方法可应用于混音设备，该混音设备可以为服务器或多个源节点中选取的一源节点；参照图2，本发明实施例提供的混音方法可以包括：

步骤S100、接收至少两个源节点发送的音频信号；

步骤S110、分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

可选的，本发明实施例可采用语音检测技术，对各源节点发送的音频信号进行语音检测，进而确定音频信号中携带语音数据的源节点数量；

可选的，语音检测方式可以采用vad等算法实现，如本发明实施例可采用vad算法，分别对各源节点发送的音频信号进行语音检测；具体的，在一个检测周期内，本发明实施例对于各源节点发送的设定帧的音频信号，可以解码所述设定帧的音频信号，以vad算法检测解码后的所述设定帧的音频信号(即以vad算法对解码后的设定帧的音频信号相应的线性音频进行语音检测)，实现音频信号中语音数据的检测；

对应的，一方面，本发明实施例可通过分别对各源节点发送的音频信号进行语音检测，确定携带语音数据的音频信号数量，来确定音频信号中携带语音数据的源节点数量；

另一方面，本发明实施例可分别对各源节点发送的音频信号进行语音检测，并对检测到的所有语音数据进行语音特征识别处理，当识别到所有语音数据的语音特征不同，则确定音频信号中携带语音数据的源节点数量为多个，当识别到所有语音数据的语音特征相同，则确定音频信号中携带语音数据的源节点数量为一个；

可以理解的是，语音特征为区别不同用户语音的依据，相同的语音特征对应同一用户的语音；如果对各音频信号进行语音检测，检测到语音数据，且识别到的各语音数据的语音特征相同，则说明当前发言的用户为同一人，即携带语音数据的源节点数量为一个；如识别到的各语音数据的语音特征不同，如包括了男人和女人的声音，则认为当前发言的用户为多人，即携带语音数据的源节点数量为多个；

可选的，具有语音数据的音频信号中可携带语音标识(语音标识可设置于音频信号的设定位置，如语音标识可设置于音频信号数据包的包头，以便语音标识的检测)，所述语音标识表示对应源节点发送的音频信号中携带有语音数据；语音标识可以是源节点采集到音频并识别到采集的音频中具有语音后添加，然后再携带在音频信号中发送给混音设备；

则本发明实施例可分别对各源节点发送的音频信号进行语音标识检测，确定音频信号中携带语音数据的源节点数量，所述语音标识表示对应源节点发送的音频信号中携带有语音数据；从而以所确定携带语音标识的音频信号的数量，确定音频信号中携带语音数据的源节点数量。

步骤S120、当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；

可选的，音频信号中携带语音数据的源节点数量为多个可能是：携带语音数据的音频信号数量为多个，或，识别到的各语音数据的语音特征不同，或，携带语音标识的音频信号的数量为多个；

可选的，如果对音频信号进行语音标识检测确定携带语音数据的源节点数量，则源节点的至少语音数据部分可从具有语音标识的音频信号中解析；如果通过对音频信号进行语音检测，确定携带语音数据的源节点数量，则可在语音检测过程中记录检测到的语音数据，可在步骤S120中使用；

携带语音数据的源节点数量为多个，则本发明实施例进行混音处理。

步骤S130、当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。

可选的，音频信号中携带语音数据的源节点数量为一个可能是：携带语音数据的音频信号数量为一个，或，识别到的各语音数据的语音特征相同，或，携带语音标识的音频信号的数量为一个；

携带语音数据的源节点数量为一个，则本发明实施例不进行混音处理，直接向需接收语音数据的目标节点，传输相应源节点的至少语音数据部分。

为便于理解，以一个多人通话场景中有4个源节点参与，且该4个源节点分为A、B、C和D为例；则A源节点、B源节点、C源节点和D源节点均需将所采集的音频信号传输给混音设备；

混音设备对A源节点传输的音频信号进行检测，识别A源节点的音频信号中是否携带有语音数据(即A源节点的用户当前是正在发言还是未发言)，同理，对B源节点、C源节点和D源节点传输的音频信号作类似处理，分别确认B源节点、C源节点和D源节点的音频信号中是否携带有语音数据；进而确认出当前音频信号中携带语音数据的源节点数量；

如果数量为一个，则直接传输相应源节点的至少语音数据部分给各目标节点，目标节点为需接收语音数据的节点；可以理解的是，客户端可在源节点和目标节点间切换，以携带语音数据的源节点数量为一个为例，则目标节点可以认为是除该携带语音数据的源节点外的其他源节点，即发言人不需听到自身的发言，只需将发言人的发言传输给其他用户；

如当前仅有A源节点的用户发言(即A源节点对应的用户当前正在发言，其他用户未发言)，则本发明实施例可直接将A源节点的语音数据部分转发给B源节点、C源节点和D源节点；

如果携带语音数据的源节点数量为多个，则对于各目标节点，本发明实施例需将相应多个源节点的至少语音数据部分中除目标节点的语音数据进行混音，将混音后的语音数据传输给目标节点；

如当前A、B和C源节点为携带语音数据的源节点，则对于目标节点为A的情况(A需收听语音)，本发明实施例需将B、C源节点的语音数据混音后传输给A，对于B和C为目标节点的情况类似，而对于D为目标节点的情况，本发明实施例需将A、B和C源节点的语音数据混音后传输给D。

本发明实施例提供的混音方法包括：接收至少两个源节点发送的音频信号；分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。由于本发明实施例仅会在携带语音数据的源节点数量为多个时，才对相应多个源节点的至少语音数据部分进行混音处理，同时，在当前携带语音数据的源节点数量为一个时，本发明实施例可直接传输相应源节点的至少语音数据部分，而不再进行混音，因此减小了单人发言时，现有技术仍采用混音形式处理语音所带来的数据处理量。可以看出，本发明实施例提供的混音方法能够大幅减小数据处理量，且能够大幅降低cpu负载。

可选的，如果当前没有携带语音数据的源节点，则本发明实施例不进行混音，也不进行语音的传输。

可选的，若以语音检测方式确定音频信号中携带语音数据的源节点数量，则图1所示混音方法的流程可以具体为：

接收至少两个源节点发送的音频信号；

分别对各源节点发送的音频信号进行语音检测，确定音频信号中携带语音数据的源节点数量；

可选的，分别对各源节点发送的音频信号进行语音检测，确定音频信号中携带语音数据的源节点数量包括：

分别对各源节点发送的音频信号进行语音检测，确定携带语音数据的音频信号数量，以所确定的携带语音数据的音频信号数量，确定音频信号中携带语音数据的源节点数量；

或，分别对各源节点发送的音频信号进行语音检测，并对检测到的所有语音数据进行语音特征识别处理，当识别到所有语音数据的语音特征不同，则确定音频信号中携带语音数据的源节点数量为多个，当识别到所有语音数据的语音特征相同，则确定音频信号中携带语音数据的源节点数量为一个。

可选的，若以音频信号中的语音标识，确定音频信号中携带语音数据的源节点数量，则图1所示混音方法的流程可以具体为：

接收至少两个源节点发送的音频信号；

分别对各源节点发送的音频信号进行语音标识检测，确定音频信号中携带语音数据的源节点数量，所述语音标识表示对应源节点发送的音频信号中携带有语音数据；

当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分；

可选的，携带语音数据的源节点数量为一个还是多个，可以由具有语音标识的音频信号的数量确定。

可选的，对于各源节点发送的音频信号，本发明实施例可以各源节点发送的音频信号均达到设定帧对应一检测周期，从而对于各源节点，本发明实施例可周期性的每隔设定帧音频信号，检测一次音频信号中携带语音数据的源节点的数量；

可选的，本发明实施例还可记录各检测周期携带语音数据的源节点数量，以判断出随着检测周期的推移，用户发言的整体改变情况；

相应的，图3示出了本发明实施例提供的混音方法的另一流程图，参照图3，该方法可以包括：

步骤S200、接收至少两个源节点发送的音频信号；

步骤S210、以各源节点发送的音频信号均达到设定帧对应一检测周期，判断上一检测周期结束后，各源节点发送的音频信号是否均达到设定帧，若是，执行步骤S220，若否，执行步骤S210；

步骤S220、在判断结果为是时，分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

可选的，当前检测周期可以与上一检测周期结束后，各源节点发送的音频信号均达到设定帧相对应。

对于任一源节点发送的音频信号，本发明实施例可以对各检测周期内所接收的该源节点发送的设定帧音频信号进行检测，确定出该源节点在各检测周期是否携带语音数据；对各源节点均作此处理，则可确定出每个检测周期内携带语音数据的源节点的数量；

可选的，设定帧可以为一帧，设定帧的数值选取可视实际应用情况而定；

可选的，本发明实施例可采用vad等算法，对当前检测周期内各源节点发送的设定帧音频信号进行语音检测(具体可对各源节点发送的设定帧音频信号解码后的信号进行语音检测)，确定音频信号中携带语音数据的源节点的数量；

可选的，在每个检测周期，本发明实施例可根据各源节点的音频信号是否携带有语音数据，为各源节点设置发言状态标识；具体的，对于携带语音数据的源节点，本发明实施例可为该源节点设置第一发言状态标识，表示对应用户正在发言；对于非携带语音数据的源节点，本发明实施例可设置第二发言状态标识，表示对应用户当前未发言；第一发言状态标识与第二发言状态标识不同，可选的，第一发言状态标识可以为1，第二发言状态标识可以为0，显然，第一发言状态标识也可以为0，相应的，第二发言状态标识应为1；

可选的，根据每个检测周期内，各源节点的发言状态标识的改变情况，本发明实施例可清楚各用户在一段时间内的发言状态改变情况；如上一检测周期内一源节点设置了第一发言状态标识，而当前检测周期内该源节点设置了第二发言状态标识，则可以确定该源节点的用户从上一检测周期至当前检测周期的时间内，由正发言变为了未发言；相应的，该源节点对应的用户可能是在上一检测周期至当前检测周期的时间内，发言完毕或发言中断。

步骤S230、当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；

步骤S240、当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。

可选的，步骤S230～步骤S240执行完成后，可返回步骤S210。

可选的，当前检测周期音频信号中携带语音数据的源节点数量为一个时，处理方式可能存在三种：

一、上一检测周期的携带语音数据的源节点的数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点不同(即单人发言状态下，发言人发生改变)，则为避免直接切换不同发言人的通话内容导致接收方的语音接听不便，本发明实施例可先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分直接传输给各目标节点；目标节点为接收语音数据的节点；

二、上一检测周期的携带语音数据的源节点的数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期的携带语音数据的源节点相同(即单人发言状态下，发言人不变)，则为使得同一发言人的发言内容连续，本发明实施例可以直接将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；

三、上一检测周期携带语音数据的源节点数量为多个，则为避免直接切换不同发言人的通话内容导致接收方的语音接听不便，本发明实施例也可先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；目标节点为接收语音数据的节点；

如向所有源节点发送预设数量帧的空数据包，再将当前检测周期携带语音数据的源节点对应的语音数据，传输给除该源节点的其他源节点。

可选的，当前检测周期的携带语音数据的源节点，与上一检测周期的携带语音数据的源节点是否相同，可通过当前检测周期内携带语音数据的源节点的节点账号、名称等节点标识，与上一检测周期内携带语音数据的源节点的节点标识的比对实现。

相应的，当前检测周期携带语音数据的源节点的数量为多个时，处理方式可能存在两种：

一、上一检测周期携带语音数据的源节点的数量为一个，则本发明实施例也可先向各目标节点发送预设数量帧的空数据包，再对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；目标节点为接收语音数据的节点；

二、上一检测周期携带语音数据的源节点的数量也为多个，则本发明实施例可直接执行如下步骤：对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理。

可选的，图4示出了本发明实施例提供的混音方法的再一流程图，参照图4，该方法可以包括：

步骤S300、接收至少两个源节点发送的音频信号；

步骤S310、以各源节点发送的音频信号均达到设定帧对应一检测周期，判断上一检测周期结束后，各源节点发送的音频信号是否均达到设定帧，若是，执行步骤S320，若否，执行步骤S310；

可选的，初始情况可认为上一检测周期为空。

步骤S320、分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

步骤S330、如果所述携带语音数据的源节点为一个，判断上一检测周期的携带语音数据的源节点是否为一个，若是，执行步骤S340，若否，执行步骤S360；

步骤S340、判断所述携带语音数据的源节点与上一检测周期携带语音数据的源节点是否相同，若是，执行步骤S350，若否，执行步骤S360；

步骤S350、将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；

步骤S360、先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；目标节点为接收语音数据的节点；

步骤S370、如果所述携带语音数据的源节点为多个，判断上一检测周期的携带语音数据的源节点是否为多个，若是，执行步骤S380，若否，执行步骤S390；

步骤S380、对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；

步骤S390、先向各目标节点发送预设数量帧的空数据包，再对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理。

可选的，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理的过程可以为：对于各目标节点，确定所述相应多个源节点的至少语音数据部分解码后的pcm(脉冲编码调制)数据，确定所述pcm数据中除目标节点的pcm数据的pcm数据；根据该pcm数据进行混音。

相应的，本发明实施例可将混音后的pcm数据编码成语音数据传输给相应的接收方。

可选的，携带语音数据的源节点对应的语音数据解码后的pcm数据的混音过程，可采用箝位算法。

可选的，如果混音设备采用源节点，且目标节点存在与该源节点相应的情况，则在当前检测周期携带语音数据的源节点为多个时，混音设备可直接播放相应的pcm数据，而无需再对混音后的pcm数据进行编码；相应的，在当前检测周期携带语音数据的源节点为一个时，混音设备作为目标节点，也可直接播放对应的语音数据。

下面以voip语音会议场景为例，对本发明实施例提供的混音方法的应用例进行介绍；

参与voip语音会议的源节点(客户端)向混音设备发送音频码流；该参与voip语音会议的源节点可以均使用相同的音频编码器；

混音设备接收到各源节点发送的音频码流后，每隔各源节点均发送一帧音频时，检测一次当前的发言方，并判断当前是单人发言还是多人发言；

如果当前是单人发言，上一次也是单人发言(即上一次各源节点均发送一帧音频时，所检测的结果也是单人发言)，则混音设备判断发言人是否改变；如果改变，则混音设备先向所有目标节点发送三帧空数据包，再将当前发言人的音频码流中的语音发送给除当前发言人外的其他目标节点；如果没改变，则混音设备转发当前发言人的音频码流中的语音给除当前发言人外的其他目标节点；

如果当前是单人发言，上一次是多人发言，则混音设备先向所有目标节点发送三帧空数据包，再将当前发言人的音频码流中的语音发送给除当前发言人外的其他目标节点；

如果当前是多人发言，上一次是单人发言，则混音设备先向所有目标节点发送三帧空数据包，再将除目标节点外的当前各发言人的音频码流中的语音，解码后的pcm进行混音，再对混音后的pcm进行编码后发送给目标节点；

如果当前是多人发言，上一次也是多人发言，则混音设备将除目标节点外的当前各发言人的音频码流中的语音，解码后的pcm进行混音，再对混音后的pcm进行编码后发送给目标节点；

在当前是多人发言的情况下，如果混音设备正好为目标节点，则混音设备可直接对混音后的pcm进行播放即可，无需再对混音后的pcm进行编码。

本发明实施例提供的混音方法能够大幅减小了数据处理量，且大幅降低了cpu开销负载。

下面对本发明实施例提供的混音设备进行介绍，下文描述的混音设备可以与上文描述的以混音设备角度描述的混音方法相互对应参照。

图5为本发明实施例提供的混音设备的结构框图，该混音设备可以为服务器，也可以是从参与多人通话的多个源节点中选取的一源节点；参照图5，该混音设备可以包括：

音频信号接收模块100，用于接收至少两个源节点发送的音频信号；

检测模块200，用于分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；

第一处理模块300，用于当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；

第二处理模块400，用于当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分。

可选的，图6示出了本发明实施例提供的检测模块200的可选结构，参照图6，检测模块200可以包括：

语音检测单元210，用于分别对各源节点发送的音频信号进行语音检测，确定音频信号中携带语音数据的源节点数量。

可选的，语音检测单元210可采用语音活动检测vad算法进行语音检测；

具体的，语音检测单元210具体可用于，分别对各源节点发送的音频信号进行语音检测，确定携带语音数据的音频信号数量，以所确定的携带语音数据的音频信号数量，确定音频信号中携带语音数据的源节点数量；

可选的，图7示出了本发明实施例提供的检测模块200的另一可选结构，参照图7，检测模块200可以包括：

标识检测单元220，用于分别对各源节点发送的音频信号进行语音标识检测，确定音频信号中携带语音数据的源节点数量，所述语音标识表示对应源节点发送的音频信号中携带有语音数据。

可选的，图8示出了本发明实施例提供的混音设备的另一结构框图，结合图5和图8所示，该混音设备还可以包括：

判断模块500，用于在接收至少两个源节点发送的音频信号后，以各源节点发送的音频信号均达到设定帧对应一检测周期，判断上一检测周期结束后，各源节点发送的音频信号是否均达到设定帧。

相应的，图9示出了本发明实施例提供的检测模块200的再一可选结构，参照图9，检测模块200可以包括：

时机执行单元230，用于在判断结果为是时，分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量。

可选的，图10示出了本发明实施例提供的第一处理模块300的可选结构，参照图10，第一处理模块300可以包括：

第一处理执行单元310，用于在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量为一个时，则先向各目标节点发送预设数量帧的空数据包，再对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；目标节点为接收语音数据的节点；

第二处理执行单元320，用于在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量也为多个时，则对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理。

可选的，图11示出了本发明实施例提供的第二处理模块400的可选结构，参照图11，第二处理模块400可以包括：

第三处理执行单元410，用于在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点不同时，或，在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量为多个时，则先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；目标节点为接收语音数据的节点；

第四处理执行单元420，用于在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点相同时，则直接将当前检测周期相应源节点的至少语音数据部分传输给各目标节点。

本发明实施例提供的混音设备能够大幅减小了数据处理量，且大幅降低了cpu开销负载。

图12为本发明实施例提供的混音设备的硬件结构框图，参照图12，该混音设备可以包括：处理器1，通信接口2，存储器3和通信总线4；

其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1，用于执行程序；

存储器3，用于存放程序；

程序可以包括程序代码，所述程序代码包括计算机操作指令。

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，程序可具体用于：

接收至少两个源节点发送的音频信号；

下面对本发明实施例提供的混音系统进行介绍，本发明实施例提供的混音系统的结构可以如图1所示，包括：混音设备和源节点；

其中，混音设备，用于接收至少两个源节点发送的音频信号；分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量；当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理；当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分；

源节点，用于向所述混音设备发送音频信号。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种混音方法，其特征在于，包括：

接收至少两个源节点发送的音频信号；

2.根据权利要求1所述的混音方法，其特征在于，所述分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量包括：

或，分别对各源节点发送的音频信号进行语音标识检测，确定音频信号中携带语音数据的源节点数量，所述语音标识表示对应源节点发送的音频信号中携带有语音数据。

3.根据权利要求2所述的混音方法，其特征在于，所述分别对各源节点发送的音频信号进行语音检测，确定音频信号中携带语音数据的源节点数量包括：

4.根据权利要求3所述的混音方法，其特征在于，所述分别对各源节点发送的音频信号进行语音检测包括：

采用语音活动检测vad算法，分别对各源节点发送的音频信号进行语音检测。

5.根据权利要求1所述的混音方法，其特征在于，所述方法还包括：

在接收至少两个源节点发送的音频信号后，以各源节点发送的音频信号均达到设定帧对应一检测周期，判断上一检测周期结束后，各源节点发送的音频信号是否均达到设定帧；

所述分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量包括：

在判断结果为是时，分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量。

6.根据权利要求5所述的混音方法，其特征在于，所述当确定音频信号中携带语音数据的源节点数量为一个时，直接传输相应源节点的至少语音数据部分包括：

在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点不同时，或，在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量为多个时，则先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；目标节点为接收语音数据的节点；

在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点相同时，则直接将当前检测周期相应源节点的至少语音数据部分传输给各目标节点。

7.根据权利要求5所述的混音方法，其特征在于，所述当确定音频信号中携带语音数据的源节点数量为多个时，对相应多个源节点的至少语音数据部分进行混音处理包括：

在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量为一个时，则先向各目标节点发送预设数量帧的空数据包，再对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；目标节点为接收语音数据的节点；

在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量也为多个时，则对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理。

8.一种混音设备，其特征在于，包括：

9.根据权利要求8所述的混音设备，其特征在于，所述检测模块包括：

语音检测单元，用于分别对各源节点发送的音频信号进行语音检测，确定音频信号中携带语音数据的源节点数量；

或，标识检测单元，用于分别对各源节点发送的音频信号进行语音标识检测，确定音频信号中携带语音数据的源节点数量，所述语音标识表示对应源节点发送的音频信号中携带有语音数据。

10.根据权利要求8所述的混音设备，其特征在于，还包括：

判断模块，用于在接收至少两个源节点发送的音频信号后，以各源节点发送的音频信号均达到设定帧对应一检测周期，判断上一检测周期结束后，各源节点发送的音频信号是否均达到设定帧；

所述检测模块包括：

时机执行单元，用于在判断结果为是时，分别对各源节点发送的音频信号进行检测，确定音频信号中携带语音数据的源节点数量。

11.根据权利要求10所述的混音设备，其特征在于，所述第一处理模块包括：

第一处理执行单元，用于在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量为一个时，则先向各目标节点发送预设数量帧的空数据包，再对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；目标节点为接收语音数据的节点；

第二处理执行单元，用于在当前检测周期携带语音数据的源节点数量为多个，上一检测周期携带语音数据的源节点数量也为多个时，则对于各目标节点，根据当前检测周期相应多个源节点的至少语音数据部分中，除目标节点的语音数据部分进行混音处理；

所述第二处理模块包括：

第三处理执行单元，用于在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点不同时，或，在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量为多个时，则先向各目标节点发送预设数量帧的空数据包，再将当前检测周期相应源节点的至少语音数据部分传输给各目标节点；目标节点为接收语音数据的节点；

第四处理执行单元，用于在当前检测周期携带语音数据的源节点数量为一个，上一检测周期携带语音数据的源节点数量也为一个，且当前检测周期携带语音数据的源节点，与上一检测周期携带语音数据的源节点相同时，则直接将当前检测周期相应源节点的至少语音数据部分传输给各目标节点。

12.一种混音系统，其特征在于，包括：

源节点，用于向所述混音设备发送音频信号。