CN103151046B - 语音服务器及其语音处理方法 - Google Patents

语音服务器及其语音处理方法 Download PDF

Info

Publication number
CN103151046B
CN103151046B CN201310055281.6A CN201310055281A CN103151046B CN 103151046 B CN103151046 B CN 103151046B CN 201310055281 A CN201310055281 A CN 201310055281A CN 103151046 B CN103151046 B CN 103151046B
Authority
CN
China
Prior art keywords
wheat
transparent transmission
speech
user
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310055281.6A
Other languages
English (en)
Other versions
CN103151046A (zh
Inventor
李晓鹏
王海
张健
史红军
周平
晏利平
罗光喜
杨平
罗洋
彭佳琦
袁孟全
张云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guiyang Longmaster Information and Technology Co ltd
Original Assignee
Guiyang Longmaster Information and Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guiyang Longmaster Information and Technology Co ltd filed Critical Guiyang Longmaster Information and Technology Co ltd
Priority to CN201310055281.6A priority Critical patent/CN103151046B/zh
Publication of CN103151046A publication Critical patent/CN103151046A/zh
Application granted granted Critical
Publication of CN103151046B publication Critical patent/CN103151046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种语音服务器及其语音处理方法,以灵活地处理多情况下的语音。该语音处理方法可应用于聊天室的语音服务器侧,包括:将麦上活跃用户数分成至少三个不同的区段,并对应麦上活跃用户数的不同区段设置相应的语音处理方式,所述语音处理方式包括透传、混音和半透传半混音三种方式;根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户;根据所述麦上活跃用户数区段的变化动态切换语音处理方式。

Description

语音服务器及其语音处理方法
技术领域
本发明涉及网络技术领域,尤其涉及一种语音服务器及其语音处理方法。
背景技术
现有的语音主要有混音和透传两种处理方式,而且在同一语音处理系统中,大多只采用单一的处理方式来处理所有的语音,处理方式固定。由于固定的处理方式大多只针对常见的一般情况进行折中考虑,因此容易导致在某些情况下处理效果的不佳,例如在一个网络聊天室系统中,语音服务器通常采用混音的方式处理混音数据,然而,即使该聊天室中只有固定的一或两个用户聊天时,采用的还是固定的混音方式,对有些可以直接通过透传方式处理的语音还是采用固定的混音的处理机制进行处理,由于混音操作复杂,从而造成某些语音数据传输的时延大,且对服务器增加了不必要的开销。而且当网络聊天室用户的上麦用户在两个以上时,由语音服务器以透传方式处理语音,并由目的客户端进行混音处理,也可以在确保用户体验的前提下优化语音服务器及其客户端的资源配置。
发明内容
本发明的主要目的在于公开一种语音服务器及其语音处理方法,以灵活地处理多情况下的语音。
为达上述目的,本发明公开了一种语音处理方法,应用于聊天室的语音服务器侧,包括以下步骤:
将麦上活跃用户数分成至少三个不同的区段,并对应麦上活跃用户数的不同区段设置相应的语音处理方式,所述语音处理方式包括透传、混音和半透传半混音三种方式;
根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户;
根据所述麦上活跃用户数区段的变化动态切换语音处理方式。
可选的,上述根据所述麦上活跃用户数区段的变化动态切换语音处理方式包括:
设置切换语音处理方式的第一及第二阈值;以及
当所述麦上活跃用户数小于所述第一阈值时,所述语音服务器以透传的方式处理所述聊天室的所有语音数据;
当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时,所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据,即以透传方式处理麦上活跃用户之间的语音数据,并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它旁听用户;
当所述麦上活跃用户数大于或等于所述第二阈值时,所述语音服务器以混音的方式处理所述聊天室中的语音数据。
为达上述目的,本发明还公开一种与上述处理方法相对应的语音服务器,包括:
与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块,用于根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户,获取麦上活跃用户数,判断麦上活跃用户数所处的切换语音处理方式的区段,并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。
可选的,上述切换模块包括:
设置单元,用于设置切换语音处理方式的第一及第二阈值;
分类单元,用于根据上传语音数据的振幅大小实时分类麦上活跃用户和麦上沉默用户;
切换单元,用于从所述分类单元获取当前的麦上活跃用户数,根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段;当所述麦上活跃用户数小于所述第一阈值时,触发所述透传模块以透传的方式处理所述聊天室的所有语音数据;当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时,触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据,即以透传方式处理上麦用户之间的语音数据,并将所有麦上的语音数据混音后发送给聊天室中的其它用户;以及当所述麦上活跃用户数大于或等于所述第二阈值时,触发所述混音模块以混音的方式处理所述聊天室中的语音数据。
与现有技术相比,本发明实施例至少具有以下优点:
将上麦用户细分为麦上活跃用户和麦上沉默用户,剔除了麦上沉默用户上传的噪音等对语音处理的干扰,并根据麦上活跃用户数区段的变化动态切换语音处理方式,实现了各情况下语音的灵活处理,减少服务器混音操作的开销。
附图说明
图1是本发明实施例公开的语音处理方法的流程图;
图2是本发明实施例公开的语音服务器的功能结构框图。
具体实施方式
下面结合说明书附图对本发明的具体实现方式做一详细描述。
实施例一
本实施例公开一种语音的处理方法,如图1所示,包括以下步骤:
步骤S1、将麦上活跃用户数分成至少三个不同的区段,并对应麦上活跃用户数的不同区段设置相应的语音处理方式,该语音处理方式至少包括透传、混音和半透传半混音三种方式。
所谓半透传半混音方式,即以透传方式处理麦上活跃用户之间的语音数据,并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它用户,值得说明的是,该方式中“半”的理解不应狭义的限制在1/2,而应做广义的“一部分”理解,后续不再赘述。
现有语音服务器的混音处理可以是先解码源客户端发送的语音编码数据,解码后的数据统一为PCM格式,然后判断所有源客户端所传送的语音编码数据的采样率和声道是否与标准一致,如果不一致,基于标准采样率对与之不同的源客户端的语音数据进行重新采样,并基于标准声道对与之不同的所有源客户端的语音数据进行扩展或合并;根据时间戳对齐所述采样率和声道统一的语音数据;最后再将对齐后的语音数据进行混音处理后发送给宿客户端。有关混音的处理方法,可以参考本案申请人于2011年5月25日被受理的201110136353.0号专利申请(申请公布日:2011.10.26,公告号:CN102226944A),在此不作赘述。
所谓透传,即是透明传送,也就是语音服务器不管传输的业务如何,只负责将接收的源客户端的语音数据中转到宿客户端,而不对传输的业务进行处理,由此省略了编解码及帧对齐等处理,相比较混音而言,各路数据的传输时延更小。
步骤S2、根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户。本发明中,所谓上麦用户即指打开麦克风、建立有向语音服务器输送音频数据通道的用户。麦上活跃用户与麦上沉默用户是构成上麦用户的两大用户组,麦上活跃用户即指一段时间内发言音量达标且发言具有可持续性的上麦用户,反之,其它的上麦用户则为麦上沉默用户。麦上活跃用户和麦上沉默用户的用户数是两个动态的变量。其中,在用户刚上麦时,默认将该用户设置为麦上沉默用户。
该步骤中,划分麦上活跃用户的方法包括但不限于下述两种方式:
方式一、设置第一振幅阈值,当任一上麦用户在M个检测周期内有N个大于所述第一振幅阈值的抽样值,则将该上麦用户界定为麦上活跃用户;其中正整数M>N。
方式二、设置第二振幅阈值,当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值,则将该上麦用户界定为麦上活跃用户;其中L为正整数。
步骤S3、根据麦上活跃用户数区段的变化动态切换语音处理方式。
本实施例中,可选的,语音服务器设置有切换语音处理方式的第一及第二阈值;当麦上活跃用户数小于第一阈值时,以透传的方式处理聊天室的所有语音数据;当麦上活跃用户数大于或等于第一阈值且小于第二阈值时,以半透传半混音的方式处理聊天室中的语音数据;以及当麦上活跃用户数大于或等于第二阈值时,以混音的方式处理聊天室中的语音数据。
举例说明:在一个简单的网络聊天室系统中,该第一阈值可以设置为2,第二阈值可以设置为3;藉此,则在该网络聊天室中,当一个麦上活跃用户发言时,直接以透传的方式对该用户的语音数据广播给聊天室中的其它用户,当两个麦上活跃用户发言时,该两活跃用户之间的语音数据以透传方式进行传输,延时短,而对聊天室中的其它用户,由于这部分用户都是听众,对语音传输的及时性要求不高,则接收的是语音服务器对该两上麦用户混音后的语音数据。
在其他具体的应用场景中,当网络聊天室用户的麦上活跃用户在两个以上时,通过合理设置第一阈值,即由语音服务器以透传方式处理语音,并由目的客户端进行混音处理,也可以在确保用户体验并减少时延的前提下优化语音服务器及其客户端的资源配置。同理,通过第二阈值的合理设置,可以进一步优化语音服务器及其客户端的资源配置,极大地提高了语音服务器处理语音的灵活度。
综上,本实施例公开的语音处理方法,将上麦用户细分为麦上活跃用户和麦上沉默用户,剔除了麦上沉默用户上传的噪音等对语音处理的干扰,并根据麦上活跃用户数区段的变化动态切换语音处理方式,实现了各情况下语音的灵活处理,减少服务器混音操作的开销。
实施例二
本实施例公开一种执行上述实施例一所公开方法的语音服务器,如图2所示,包括:
与透传模块1、混音模块2和半透传半混音模块3建立通信连接的切换模块4,用于根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户,获取麦上活跃用户数,判断麦上活跃用户数所处的切换语音处理方式的区段,并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音。
可选的,如图2所示,上述切换模块包括:
设置单元41,用于设置切换语音处理方式的第一及第二阈值;
分类单元42,用于根据上传语音数据的振幅大小实时分类麦上活跃用户和麦上沉默用户;
切换单元43,用于从所述分类单元获取当前的麦上活跃用户数,根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段;当所述麦上活跃用户数小于所述第一阈值时,触发所述透传模块以透传的方式处理所述聊天室的所有语音数据;当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时,触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据,即以透传方式处理上麦用户之间的语音数据,并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户;以及当所述麦上活跃用户数大于或等于所述第二阈值时,触发所述混音模块以混音的方式处理所述聊天室中的语音数据。
本实施例中,可选的,上述分类单元设置有第一振幅阈值,当任一上麦用户在M个检测周期内有N个大于该第一振幅阈值的抽样值,则将该上麦用户界定为麦上活跃用户;其中正整数M>N。或者,上述分类单元设置有第二振幅阈值,当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值,则将该上麦用户界定为麦上活跃用户;其中L为正整数。
举例说明:在一个简单的网络聊天室系统中,该第一阈值可以设置为2,第二阈值可以设置为3;藉此,则在该网络聊天室中,当一个麦上活跃用户发言时,直接以透传的方式对该用户的语音数据广播给聊天室中的其它旁听用户,当两个麦上活跃用户发言时,该两活跃用户之间的语音数据以透传方式进行传输,延时短,而对聊天室中的其它用户,由于这部分用户都是听众,对语音传输的及时性要求不高,则接收的是语音服务器对该两上麦用户混音后的语音数据。
在其他具体的应用场景中,当网络聊天室用户的麦上活跃用户在两个以上时,通过合理设置第一阈值,即由语音服务器以透传方式处理语音,并由目的客户端进行混音处理,也可以在确保用户体验并减少时延的前提下优化语音服务器及其客户端的资源配置。同理,通过第二阈值的合理设置,可以进一步优化语音服务器及其客户端的资源配置,极大地提高了语音服务器处理语音的灵活度。
综上,本实施例公开的语音服务器,将上麦用户细分为麦上活跃用户和麦上沉默用户,剔除了麦上沉默用户上传的噪音等对语音处理的干扰,并根据麦上活跃用户数区段的变化动态切换语音处理方式,实现了各情况下语音的灵活处理,减少服务器混音操作的开销。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (8)

1.一种语音处理方法,应用于聊天室的语音服务器侧,其特征在于,包括以下步骤:
将麦上活跃用户数分成至少三个不同的区段,并对应麦上活跃用户数的不同区段设置相应的语音处理方式,所述语音处理方式包括透传、混音和半透传半混音三种方式;
根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户;
根据所述麦上活跃用户数区段的变化动态切换语音处理方式;
其中,所述半透传半混音方式是以透传方式处理麦上活跃用户之间的语音数据,并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它用户。
2.根据权利要求1所述的语音处理方法,其特征在于,所述根据所述麦上活跃用户数区段的变化动态切换语音处理方式包括:
设置切换语音处理方式的第一及第二阈值;以及
当所述麦上活跃用户数小于所述第一阈值时,所述语音服务器以透传的方式处理所述聊天室的所有语音数据;
当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时,所述语音服务器以半透传半混音的方式处理所述聊天室中的语音数据;
当所述麦上活跃用户数大于或等于所述第二阈值时,所述语音服务器以混音的方式处理所述聊天室中的语音数据。
3.根据权利要求1或2所述的语音处理方法,其特征在于,所述根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户包括:
设置第一振幅阈值,当任一上麦用户在M个检测周期内有N个大于所述第一振幅阈值的抽样值,则将该上麦用户界定为麦上活跃用户;
其中正整数M>N。
4.根据权利要求1或2所述的语音处理方法,其特征在于,所述根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户包括:
设置第二振幅阈值,当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值,则将该上麦用户界定为麦上活跃用户;
其中L为正整数。
5.一种语音服务器,其特征在于,包括:
与透传模块、混音模块和半透传半混音模块建立通信连接的切换模块,用于根据上传语音数据的振幅大小,将上麦用户细分为麦上活跃用户和麦上沉默用户,获取麦上活跃用户数,判断麦上活跃用户数所处的切换语音处理方式的区段,并针对麦上活跃用户数的不同区段的动态变化调用相应的透传模块、混音模块或半透传半混音模块以相应的透传、混音或半透传半混音方式处理语音;
其中,所述半透传半混音方式是以透传方式处理麦上活跃用户之间的语音数据,并将所有麦上活跃用户的语音数据混音后发送给聊天室中的其它用户。
6.根据权利要求5所述的语音服务器,其特征在于,所述切换模块包括:
设置单元,用于设置切换语音处理方式的第一及第二阈值;
分类单元,用于根据上传语音数据的振幅大小实时分类麦上活跃用户和麦上沉默用户;
切换单元,用于从所述分类单元获取当前的麦上活跃用户数,根据上述设置单元设置的第一和第二阈值判断该麦上活跃用户数所处的切换语音处理方式的区段;当所述麦上活跃用户数小于所述第一阈值时,触发所述透传模块以透传的方式处理所述聊天室的所有语音数据;当所述麦上活跃用户数大于或等于所述第一阈值且小于所述第二阈值时,触发所述半透传半混音模块以半透传半混音的方式处理所述聊天室中的语音数据,即以透传方式处理上麦用户之间的语音数据,并将所有麦上的语音数据混音后发送给聊天室中的其它旁听用户;以及当所述麦上活跃用户数大于或等于所述第二阈值时,触发所述混音模块以混音的方式处理所述聊天室中的语音数据。
7.根据权利要求6所述的语音服务器,其特征在于,所述分类单元设置有第一振幅阈值,当任一上麦用户在M个检测周期内有N个大于该第一振幅阈值的抽样值,则将该上麦用户界定为麦上活跃用户;其中正整数M>N。
8.根据权利要求6所述的语音服务器,其特征在于,所述分类单元设置有第二振幅阈值,当任一上麦用户持续L个振幅的抽样检测值大于所述第二振幅阈值,则将该上麦用户界定为麦上活跃用户;其中L为正整数。
CN201310055281.6A 2012-10-30 2013-02-21 语音服务器及其语音处理方法 Active CN103151046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310055281.6A CN103151046B (zh) 2012-10-30 2013-02-21 语音服务器及其语音处理方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210424233 2012-10-30
CN201210424233.5 2012-10-30
CN201310055281.6A CN103151046B (zh) 2012-10-30 2013-02-21 语音服务器及其语音处理方法

Publications (2)

Publication Number Publication Date
CN103151046A CN103151046A (zh) 2013-06-12
CN103151046B true CN103151046B (zh) 2015-12-09

Family

ID=48549068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310055281.6A Active CN103151046B (zh) 2012-10-30 2013-02-21 语音服务器及其语音处理方法

Country Status (1)

Country Link
CN (1) CN103151046B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1946029A (zh) * 2006-10-30 2007-04-11 北京中星微电子有限公司 一种处理音频信号的方法及其系统
CN101414463A (zh) * 2007-10-19 2009-04-22 华为技术有限公司 一种混音编码方法、装置和系统
CN101473637A (zh) * 2006-05-11 2009-07-01 环球Ip解决方法(Gips)有限责任公司 音频混合

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007084254A2 (en) * 2005-11-29 2007-07-26 Dilithium Networks Pty Ltd. Method and apparatus of voice mixing for conferencing amongst diverse networks
US9451094B2 (en) * 2006-12-22 2016-09-20 Orange Hybrid conference bridge
WO2010136634A1 (en) * 2009-05-27 2010-12-02 Nokia Corporation Spatial audio mixing arrangement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101473637A (zh) * 2006-05-11 2009-07-01 环球Ip解决方法(Gips)有限责任公司 音频混合
CN1946029A (zh) * 2006-10-30 2007-04-11 北京中星微电子有限公司 一种处理音频信号的方法及其系统
CN101414463A (zh) * 2007-10-19 2009-04-22 华为技术有限公司 一种混音编码方法、装置和系统

Also Published As

Publication number Publication date
CN103151046A (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
KR101636842B1 (ko) 향상된 멀티캐스트 콘텐츠 전달을 위한 기술
US9456273B2 (en) Audio mixing method, apparatus and system
US8223673B2 (en) Method and system for secure conferencing
US20150244658A1 (en) System and method for efficiently mixing voip data
NO20053478D0 (no) Method for instant scheduling of conference calls
TW200721860A (en) Method of processing control information messages for point-to-multipoint services
EP2025096A4 (en) HIERARCHICAL PROCESSING AND DISTRIBUTION OF PARTIAL FAULTS IN A PACKET NETWORK
CN104580763A (zh) 一种实现电话会议时私聊的方法及装置
TW200614747A (en) Quality of service control for a data transmission
KR20140056296A (ko) 코딩된 비트스트림들 간의 동적 스위칭 기법
WO2009041775A3 (en) Apparatus and method for mbms over a single frequency network in mobile communication system
CN103500580A (zh) 混音处理方法及系统
CN102625328A (zh) 一种语音质量远端评估方法、终端、服务器及其系统
CN103151046B (zh) 语音服务器及其语音处理方法
CN103151045B (zh) 语音服务器及其语音处理方法
CN103686059B (zh) 分布式混音处理方法及系统
CN107172652B (zh) 一种基于高层业务信息的基站调度方法及装置
DE602005006993D1 (de) Verfahren zum senden einer digitalen daten-datei über telekommunikationsnetze
CN104767895A (zh) 一种用于分组声学回声消除的方法与设备
CN102348007B (zh) 用于在分组交换域中实现双向通话录音的方法和移动终端
MX353359B (es) Procedimiento de transmisión de información de enlazamiento troncal, y correspondientes terminal y nodo de acceso de enlazamiento troncal.
CN103067627B (zh) 一种基于VoIP系统的多路通话快速切换方法
Beritelli et al. HSDPA dual streaming approach for improving VoIP speech quality in forensic applications
CN101710963B (zh) 多媒体数据的输出方法和设备
Beritelli et al. A Mobile Dual VoIP System for Enhancing Speech Quality and Intelligibility: Simulation and Test Bed

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant