CN103151045B

CN103151045B - 语音服务器及其语音处理方法

Info

Publication number: CN103151045B
Application number: CN201310055270.8A
Authority: CN
Inventors: 李晓鹏; 潘年华; 靳国文; 王海; 周平; 晏利平; 罗光喜; 杨通涛; 罗洋; 彭佳琦; 袁孟全; 张云
Original assignee: Guiyang Longmaster Information and Technology Co ltd
Current assignee: Guiyang Longmaster Information and Technology Co ltd
Priority date: 2012-10-30
Filing date: 2013-02-21
Publication date: 2015-05-06
Anticipated expiration: 2033-02-21
Also published as: CN103151045A

Abstract

本发明公开一种语音服务器及其语音处理方法，以灵活地处理多情况下的语音。该语音处理方法可应用于聊天室的语音服务器侧，包括：将上麦用户数分成至少三个不同的区段，并对应上麦用户数的不同区段设置不同的语音处理方式，语音处理方式至少包括透传、混音和半透传半混音三种方式；根据上麦用户数区段的变化动态切换语音处理方式。本发明公开的语音服务器包括：与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块，用于获取上麦用户数，判断上麦用户数所处的切换语音处理方式的区段，并针对上麦用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。

Description

语音服务器及其语音处理方法

技术领域

本发明涉及网络技术领域，尤其涉及一种语音服务器及其语音处理方法。

背景技术

现有的语音主要有混音和透传两种处理方式，而且在同一语音处理系统中，大多只采用单一的处理方式来处理所有的语音，处理方式固定。由于固定的处理方式大多只针对常见的一般情况进行折中考虑，因此容易导致在某些情况下处理效果的不佳，例如在一个网络聊天室系统中，语音服务器通常采用混音的方式处理混音数据，然而，即使该聊天室中只有固定的一或两个用户聊天时，采用的还是固定的混音方式，对有些可以直接通过透传方式处理的语音还是采用固定的混音的处理机制进行处理，由于混音操作复杂，从而造成某些语音数据传输的时延大，且对服务器增加了不必要的开销。而且当网络聊天室用户的上麦用户在两个以上时，由语音服务器以透传方式处理语音，并由目的客户端进行混音处理，也可以在确保用户体验的前提下优化语音服务器及其客户端的资源配置。

发明内容

本发明的主要目的在于公开一种语音服务器及其语音处理方法，以灵活地处理多情况下的语音。

为达上述目的，本发明公开了一种语音处理方法，应用于聊天室的语音服务器侧，包括以下步骤：

将上麦用户数分成至少三个不同的区段，并对应上麦用户数的不同区段设置不同的语音处理方式，所述语音处理方式至少包括透传、混音和半透传半混音三种方式；

根据所述上麦用户数区段的变化动态切换语音处理方式。

可选的，上述根据所述上麦用户数区段的变化动态切换语音处理方式包括：

设置切换语音处理方式的第一及第二阈值；以及

当所述上麦用户数小于所述第一阈值时，所述语音服务器以透传的方式处理所述聊天室的所有语音数据；

当所述上麦用户数大于或等于所述第一阈值且小于所述第二阈值时，所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户；

当所述上麦用户数大于或等于所述第二阈值时，所述语音服务器以混音的方式处理所述聊天室中的语音数据。

为达上述目的，本发明还公开一种与上述处理方法相对应的语音服务器，包括：

与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块，用于获取上麦用户数，判断上麦用户数所处的切换语音处理方式的区段，并针对上麦用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。

可选的，上述切换模块包括：

设置单元，用于设置切换语音处理方式的第一及第二阈值；

切换单元，用于获取当前的上麦用户数，根据上述设置单元设置的第一和第二阈值判断该上麦用户数所处的切换语音处理方式的区段；当所述上麦用户数小于所述第一阈值时，触发所述透传模块以透传的方式处理所述聊天室的所有语音数据；当所述上麦用户数大于或等于所述第一阈值且小于所述第二阈值时，触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它用户；以及当所述上麦用户数大于或等于所述第二阈值时，触发所述混音模块以混音的方式处理所述聊天室中的语音数据。

与现有技术相比，本发明实施例至少具有以下优点：

可以根据上麦用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

附图说明

图1是本发明实施例公开的语音处理方法的流程图；

图2是本发明实施例公开的语音服务器的功能结构框图。

具体实施方式

下面结合说明书附图对本发明的具体实现方式做一详细描述。

实施例一

本实施例公开一种语音的处理方法，应用于聊天室的语音服务器侧，如图1所示，包括以下步骤：

步骤S1、将上麦用户数分成至少三个不同的区段，并对应上麦用户数的不同区段设置不同的语音处理方式，所述语音处理方式至少包括透传、混音和半透传半混音三种方式。本发明中，所谓上麦用户即指打开麦克风、建立有向语音服务器输送音频数据通道的用户。

在该步骤中，所谓半透传半混音方式是指透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它用户，值得说明的是，该方式中“半”的理解不应狭义的限制在1/2，而应做广义的“一部分”理解，后续不再赘述。

现有语音服务器的混音处理可以是先解码源客户端发送的语音编码数据，解码后的数据统一为PCM格式，然后判断所有源客户端所传送的语音编码数据的采样率和声道是否与标准一致，如果不一致，基于标准采样率对与之不同的源客户端的语音数据进行重新采样，并基于标准声道对与之不同的所有源客户端的语音数据进行扩展或合并；根据时间戳对齐所述采样率和声道统一的语音数据；最后再将对齐后的语音数据进行混音处理后发送给宿客户端。有关混音的处理方法，可以参考本案申请人于2011年5月25日被受理的201110136353.0号专利申请（申请公布日：2011.10.26，公告号：CN102226944A），在此不作赘述。

所谓透传，即是透明传送，也就是语音服务器不管传输的业务如何，只负责将接收的源客户端的语音数据中转到宿客户端，而不对传输的业务进行处理，由此省略了编解码及帧对齐等处理，相比较混音而言，各路数据的传输时延更小。

步骤S2、根据上麦用户数区段的变化动态切换语音处理方式。

本实施例中，可选的，语音服务器设置有切换语音处理方式的第一及第二阈值；当上麦用户数小于第一阈值时，以透传的方式处理聊天室的所有语音数据；当上麦用户数大于或等于第一阈值且小于第二阈值时，以半透传半混音的方式处理聊天室中的语音数据；以及当上麦用户数大于或等于第二阈值时，以混音的方式处理聊天室中的语音数据。

举例说明：在一个简单的网络聊天室系统中，该第一阈值可以设置为2，第二阈值可以设置为3；藉此，则在该网络聊天室中，当一个上麦用户发言时，直接以透传的方式对该用户的语音数据广播给聊天室中的其它旁听用户，当两个上麦用户发言时，两上麦用户之间的语音数据以透传方式进行传输，延时短，而对聊天室中的其它用户，由于这部分用户都是听众，对语音传输的及时性要求不高，则接收的是语音服务器对该两上麦用户混音后的语音数据。

在其他具体的应用场景中，当网络聊天室用户的上麦用户在两个以上时，通过合理设置第一阈值，即由语音服务器以透传方式处理语音，并由目的客户端进行混音处理，也可以在确保用户体验并减少时延的前提下优化语音服务器及其客户端的资源配置。同理，通过第二阈值的合理设置，可以进一步优化语音服务器及其客户端的资源配置，极大地提高了语音服务器处理语音的灵活度。

综上，本实施例公开的语音处理方法，可以根据上麦用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

实施例二

本实施例公开一种执行上述实施例一所公开方法的语音服务器，如图2所示，包括：

与透传模块1、混音模块2和半透传半混音模块3建立通信连接的切换模块4，用于获取上麦用户数，判断上麦用户数所处的切换语音处理方式的区段，并针对上麦用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。

可选的，如图2所示，上述切换模块包括：

设置单元41，用于设置切换语音处理方式的第一及第二阈值；

切换单元42，用于获取当前的上麦用户数，根据上述设置单元设置的第一和第二阈值判断该上麦用户数所处的切换语音处理方式的区段；当上麦用户数小于第一阈值时，触发透传模块以透传的方式处理聊天室的所有语音数据；当上麦用户数大于或等于第一阈值且小于第二阈值时，触发半透传半混音模块以半透传半混音的方式处理聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户；以及当上麦用户数大于或等于第二阈值时，触发混音模块以混音的方式处理聊天室中的语音数据。

综上，本实施例公开的语音服务器，可以根据上麦用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种语音处理方法，应用于聊天室的语音服务器侧，其特征在于，包括以下步骤：

根据所述上麦用户数区段的变化动态切换语音处理方式；

其中，半透传半混音方式是指透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它用户。

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述上麦用户数区段的变化动态切换语音处理方式包括：

设置切换语音处理方式的第一及第二阈值；以及

当所述上麦用户数大于或等于所述第一阈值且小于所述第二阈值时，所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据；

3.一种语音服务器，其特征在于，包括：

与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块，用于获取上麦用户数，判断上麦用户数所处的切换语音处理方式的区段，并针对上麦用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音；

4.根据权利要求3所述的语音服务器，其特征在于，所述切换模块包括：

设置单元，用于设置切换语音处理方式的第一及第二阈值；

切换单元，用于获取当前的上麦用户数，根据上述设置单元设置的第一和第二阈值判断该上麦用户数所处的切换语音处理方式的区段；当所述上麦用户数小于所述第一阈值时，触发所述透传模块以透传的方式处理所述聊天室的所有语音数据；当所述上麦用户数大于或等于所述第一阈值且小于所述第二阈值时，触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户；以及当所述上麦用户数大于或等于所述第二阈值时，触发所述混音模块以混音的方式处理所述聊天室中的语音数据。