CN103151046B

CN103151046B - 语音服务器及其语音处理方法

Info

Publication number: CN103151046B
Application number: CN201310055281.6A
Authority: CN
Inventors: 李晓鹏; 王海; 张健; 史红军; 周平; 晏利平; 罗光喜; 杨平; 罗洋; 彭佳琦; 袁孟全; 张云
Original assignee: Guiyang Longmaster Information and Technology Co ltd
Current assignee: Guiyang Longmaster Information and Technology Co ltd
Priority date: 2012-10-30
Filing date: 2013-02-21
Publication date: 2015-12-09
Anticipated expiration: 2033-02-21
Also published as: CN103151046A

Abstract

本发明公开一种语音服务器及其语音处理方法，以灵活地处理多情况下的语音。该语音处理方法可应用于聊天室的语音服务器侧，包括：将麦上活跃用户数分成至少三个不同的区段，并对应麦上活跃用户数的不同区段设置相应的语音处理方式，所述语音处理方式包括透传、混音和半透传半混音三种方式；根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户；根据所述麦上活跃用户数区段的变化动态切换语音处理方式。

Description

语音服务器及其语音处理方法

技术领域

本发明涉及网络技术领域，尤其涉及一种语音服务器及其语音处理方法。

背景技术

现有的语音主要有混音和透传两种处理方式，而且在同一语音处理系统中，大多只采用单一的处理方式来处理所有的语音，处理方式固定。由于固定的处理方式大多只针对常见的一般情况进行折中考虑，因此容易导致在某些情况下处理效果的不佳，例如在一个网络聊天室系统中，语音服务器通常采用混音的方式处理混音数据，然而，即使该聊天室中只有固定的一或两个用户聊天时，采用的还是固定的混音方式，对有些可以直接通过透传方式处理的语音还是采用固定的混音的处理机制进行处理，由于混音操作复杂，从而造成某些语音数据传输的时延大，且对服务器增加了不必要的开销。而且当网络聊天室用户的上麦用户在两个以上时，由语音服务器以透传方式处理语音，并由目的客户端进行混音处理，也可以在确保用户体验的前提下优化语音服务器及其客户端的资源配置。

发明内容

本发明的主要目的在于公开一种语音服务器及其语音处理方法，以灵活地处理多情况下的语音。

为达上述目的，本发明公开了一种语音处理方法，应用于聊天室的语音服务器侧，包括以下步骤：

将麦上活跃用户数分成至少三个不同的区段，并对应麦上活跃用户数的不同区段设置相应的语音处理方式，所述语音处理方式包括透传、混音和半透传半混音三种方式；

根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户；

根据所述麦上活跃用户数区段的变化动态切换语音处理方式。

可选的，上述根据所述麦上活跃用户数区段的变化动态切换语音处理方式包括：

设置切换语音处理方式的第一及第二阈值；以及

当所述麦上活跃用户数小于所述第一阈值时，所述语音服务器以透传的方式处理所述聊天室的所有语音数据；

当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时，所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理麦上活跃用户之间的语音数据，并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它旁听用户；

当所述麦上活跃用户数大于或等于所述第二阈值时，所述语音服务器以混音的方式处理所述聊天室中的语音数据。

为达上述目的，本发明还公开一种与上述处理方法相对应的语音服务器，包括：

与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块，用于根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户，获取麦上活跃用户数，判断麦上活跃用户数所处的切换语音处理方式的区段，并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。

可选的，上述切换模块包括：

设置单元，用于设置切换语音处理方式的第一及第二阈值；

分类单元，用于根据上传语音数据的振幅大小实时分类麦上活跃用户和麦上沉默用户；

切换单元，用于从所述分类单元获取当前的麦上活跃用户数，根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段；当所述麦上活跃用户数小于所述第一阈值时，触发所述透传模块以透传的方式处理所述聊天室的所有语音数据；当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时，触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它用户；以及当所述麦上活跃用户数大于或等于所述第二阈值时，触发所述混音模块以混音的方式处理所述聊天室中的语音数据。

与现有技术相比，本发明实施例至少具有以下优点：

将上麦用户细分为麦上活跃用户和麦上沉默用户，剔除了麦上沉默用户上传的噪音等对语音处理的干扰，并根据麦上活跃用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

附图说明

图1是本发明实施例公开的语音处理方法的流程图；

图2是本发明实施例公开的语音服务器的功能结构框图。

具体实施方式

下面结合说明书附图对本发明的具体实现方式做一详细描述。

实施例一

本实施例公开一种语音的处理方法，如图1所示，包括以下步骤：

步骤S1、将麦上活跃用户数分成至少三个不同的区段，并对应麦上活跃用户数的不同区段设置相应的语音处理方式，该语音处理方式至少包括透传、混音和半透传半混音三种方式。

所谓半透传半混音方式，即以透传方式处理麦上活跃用户之间的语音数据，并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它用户，值得说明的是，该方式中“半”的理解不应狭义的限制在1/2，而应做广义的“一部分”理解，后续不再赘述。

现有语音服务器的混音处理可以是先解码源客户端发送的语音编码数据，解码后的数据统一为PCM格式，然后判断所有源客户端所传送的语音编码数据的采样率和声道是否与标准一致，如果不一致，基于标准采样率对与之不同的源客户端的语音数据进行重新采样，并基于标准声道对与之不同的所有源客户端的语音数据进行扩展或合并；根据时间戳对齐所述采样率和声道统一的语音数据；最后再将对齐后的语音数据进行混音处理后发送给宿客户端。有关混音的处理方法，可以参考本案申请人于2011年5月25日被受理的201110136353.0号专利申请（申请公布日：2011.10.26，公告号：CN102226944A），在此不作赘述。

所谓透传，即是透明传送，也就是语音服务器不管传输的业务如何，只负责将接收的源客户端的语音数据中转到宿客户端，而不对传输的业务进行处理，由此省略了编解码及帧对齐等处理，相比较混音而言，各路数据的传输时延更小。

步骤S2、根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户。本发明中，所谓上麦用户即指打开麦克风、建立有向语音服务器输送音频数据通道的用户。麦上活跃用户与麦上沉默用户是构成上麦用户的两大用户组，麦上活跃用户即指一段时间内发言音量达标且发言具有可持续性的上麦用户，反之，其它的上麦用户则为麦上沉默用户。麦上活跃用户和麦上沉默用户的用户数是两个动态的变量。其中，在用户刚上麦时，默认将该用户设置为麦上沉默用户。

该步骤中，划分麦上活跃用户的方法包括但不限于下述两种方式：

方式一、设置第一振幅阈值，当任一上麦用户在M个检测周期内有N个大于所述第一振幅阈值的抽样值，则将该上麦用户界定为麦上活跃用户；其中正整数M>N。

方式二、设置第二振幅阈值，当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值，则将该上麦用户界定为麦上活跃用户；其中L为正整数。

步骤S3、根据麦上活跃用户数区段的变化动态切换语音处理方式。

本实施例中，可选的，语音服务器设置有切换语音处理方式的第一及第二阈值；当麦上活跃用户数小于第一阈值时，以透传的方式处理聊天室的所有语音数据；当麦上活跃用户数大于或等于第一阈值且小于第二阈值时，以半透传半混音的方式处理聊天室中的语音数据；以及当麦上活跃用户数大于或等于第二阈值时，以混音的方式处理聊天室中的语音数据。

举例说明：在一个简单的网络聊天室系统中，该第一阈值可以设置为2，第二阈值可以设置为3；藉此，则在该网络聊天室中，当一个麦上活跃用户发言时，直接以透传的方式对该用户的语音数据广播给聊天室中的其它用户，当两个麦上活跃用户发言时，该两活跃用户之间的语音数据以透传方式进行传输，延时短，而对聊天室中的其它用户，由于这部分用户都是听众，对语音传输的及时性要求不高，则接收的是语音服务器对该两上麦用户混音后的语音数据。

在其他具体的应用场景中，当网络聊天室用户的麦上活跃用户在两个以上时，通过合理设置第一阈值，即由语音服务器以透传方式处理语音，并由目的客户端进行混音处理，也可以在确保用户体验并减少时延的前提下优化语音服务器及其客户端的资源配置。同理，通过第二阈值的合理设置，可以进一步优化语音服务器及其客户端的资源配置，极大地提高了语音服务器处理语音的灵活度。

综上，本实施例公开的语音处理方法，将上麦用户细分为麦上活跃用户和麦上沉默用户，剔除了麦上沉默用户上传的噪音等对语音处理的干扰，并根据麦上活跃用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

实施例二

本实施例公开一种执行上述实施例一所公开方法的语音服务器，如图2所示，包括：

与透传模块1、混音模块2和半透传半混音模块3建立通信连接的切换模块4，用于根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户，获取麦上活跃用户数，判断麦上活跃用户数所处的切换语音处理方式的区段，并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。

可选的，如图2所示，上述切换模块包括：

设置单元41，用于设置切换语音处理方式的第一及第二阈值；

分类单元42，用于根据上传语音数据的振幅大小实时分类麦上活跃用户和麦上沉默用户；

切换单元43，用于从所述分类单元获取当前的麦上活跃用户数，根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段；当所述麦上活跃用户数小于所述第一阈值时，触发所述透传模块以透传的方式处理所述聊天室的所有语音数据；当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时，触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户；以及当所述麦上活跃用户数大于或等于所述第二阈值时，触发所述混音模块以混音的方式处理所述聊天室中的语音数据。

本实施例中，可选的，上述分类单元设置有第一振幅阈值，当任一上麦用户在M个检测周期内有N个大于该第一振幅阈值的抽样值，则将该上麦用户界定为麦上活跃用户；其中正整数M>N。或者，上述分类单元设置有第二振幅阈值，当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值，则将该上麦用户界定为麦上活跃用户；其中L为正整数。

举例说明：在一个简单的网络聊天室系统中，该第一阈值可以设置为2，第二阈值可以设置为3；藉此，则在该网络聊天室中，当一个麦上活跃用户发言时，直接以透传的方式对该用户的语音数据广播给聊天室中的其它旁听用户，当两个麦上活跃用户发言时，该两活跃用户之间的语音数据以透传方式进行传输，延时短，而对聊天室中的其它用户，由于这部分用户都是听众，对语音传输的及时性要求不高，则接收的是语音服务器对该两上麦用户混音后的语音数据。

综上，本实施例公开的语音服务器，将上麦用户细分为麦上活跃用户和麦上沉默用户，剔除了麦上沉默用户上传的噪音等对语音处理的干扰，并根据麦上活跃用户数区段的变化动态切换语音处理方式，实现了各情况下语音的灵活处理，减少服务器混音操作的开销。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种语音处理方法，应用于聊天室的语音服务器侧，其特征在于，包括以下步骤：

根据所述麦上活跃用户数区段的变化动态切换语音处理方式；

其中，所述半透传半混音方式是以透传方式处理麦上活跃用户之间的语音数据，并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它用户。

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述麦上活跃用户数区段的变化动态切换语音处理方式包括：

设置切换语音处理方式的第一及第二阈值；以及

当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时，所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据；

3.根据权利要求1或2所述的语音处理方法，其特征在于，所述根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户包括：

设置第一振幅阈值，当任一上麦用户在M个检测周期内有N个大于所述第一振幅阈值的抽样值，则将该上麦用户界定为麦上活跃用户；

其中正整数M>N。

4.根据权利要求1或2所述的语音处理方法，其特征在于，所述根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户包括：

设置第二振幅阈值，当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值，则将该上麦用户界定为麦上活跃用户；

其中L为正整数。

5.一种语音服务器，其特征在于，包括：

与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块，用于根据上传语音数据的振幅大小，将上麦用户细分为麦上活跃用户和麦上沉默用户，获取麦上活跃用户数，判断麦上活跃用户数所处的切换语音处理方式的区段，并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音；

6.根据权利要求5所述的语音服务器，其特征在于，所述切换模块包括：

设置单元，用于设置切换语音处理方式的第一及第二阈值；

切换单元，用于从所述分类单元获取当前的麦上活跃用户数，根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段；当所述麦上活跃用户数小于所述第一阈值时，触发所述透传模块以透传的方式处理所述聊天室的所有语音数据；当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时，触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据，即以透传方式处理上麦用户之间的语音数据，并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户；以及当所述麦上活跃用户数大于或等于所述第二阈值时，触发所述混音模块以混音的方式处理所述聊天室中的语音数据。

7.根据权利要求6所述的语音服务器，其特征在于，所述分类单元设置有第一振幅阈值，当任一上麦用户在M个检测周期内有N个大于该第一振幅阈值的抽样值，则将该上麦用户界定为麦上活跃用户；其中正整数M>N。

8.根据权利要求6所述的语音服务器，其特征在于，所述分类单元设置有第二振幅阈值，当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值，则将该上麦用户界定为麦上活跃用户；其中L为正整数。