CN112019488B

CN112019488B - 一种语音处理的方法、装置、设备和存储介质

Info

Publication number: CN112019488B
Application number: CN201910471994.8A
Authority: CN
Inventors: 成家雄; 朱敏; 钟少奋; 曾泽兴; 张帆
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2023-12-12
Anticipated expiration: 2039-05-31
Also published as: CN112019488A

Abstract

本发明公开了一种语音处理的方法、装置、设备和存储介质。其中，该方法包括：获取直播间的下行语音码流；混合所述下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。本发明实施例提供的技术方案，在服务端直接混合直播间的下行语音码流混音，并将混合后的下行语音码流发送给直播间的用户终端，本方案使得用户终端直接接收混合后的下行语音码流，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担，保障下行网络的通畅。

Description

一种语音处理的方法、装置、设备和存储介质

技术领域

本发明实施例涉及语音处理领域，尤其涉及一种语音处理的方法、装置、设备和存储介质。

背景技术

随着移动互联网的普及，通过各类语音软件进行语音群聊或者直播互动的语音社交方式已经广泛应用到人们的日常生活中。

目前，在实现语音群聊或者直播互动时，每个上麦用户均会向参与本次群聊或者直播的其他用户发送一路语音码流，其中上麦用户是指群聊或者直播窗口中的用户，此时如果其他用户为另一上麦用户，则会接收多路由其他上麦用户发送的下行语音码流，如果其他用户为直播听众，则会接收多路由所有上麦用户发送的下行语音码流，然后其他用户在本地客户端对接收的多路下行语音码流进行解码和混音播放，此时基于客户端进行解码混音，使得每一客户端的下行语音码率为上麦用户发送语音码流的语音码率的总和。

由于在语音群聊或者直播互动中对用户上行语音音质的要求越来越高，使得每一上麦用户发送语音码流的语音码率也越来越高，导致下行语音码率暴涨，极大增加了用户的流量开销，同时对用于传输多路下行语音码流的下行网络带宽造成较大负担，极易导致严重的网络拥塞以及丢包等异常现象。

发明内容

本发明实施例提供了一种语音处理的方法、装置、设备和存储介质，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担。

第一方面，本发明实施例提供了一种语音处理的方法，该方法包括：

获取直播间的下行语音码流；

混合所述下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。

第二方面，本发明实施例提供了一种语音处理的装置，该装置包括：

码流获取模块，用于获取直播间的下行语音码流；

混音发送模块，用于混合所述下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。

第三方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例中所述的语音处理的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例中所述的语音处理的方法。

本发明实施例提供了一种语音处理的方法、装置、设备和存储介质，在服务端直接混合直播间的下行语音码流混音，并将混合后的下行语音码流发送给直播间的用户终端，本方案使得用户终端直接接收混合后的下行语音码流，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担，保障下行网络的通畅。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例提供的语音处理的方法所适用的一种应用场景的场景架构图；

图1B为本发明实施例提供的语音处理的方法所适用的另一种应用场景的场景架构图；

图2为本发明实施例一提供的一种语音处理的方法的流程图；

图3A为本发明实施例二提供的一种语音处理的方法的流程图；

图3B为本发明实施例二提供的语音处理过程的原理示意图；

图4A为本发明实施例三提供的一种语音处理的方法的流程图；

图4B为本发明实施例三提供的语音处理过程的原理示意图；

图5为本发明实施例四提供的一种语音处理的装置的结构示意图；

图6为本发明实施例五提供的一种语音处理系统的结构示意图；

图7为本发明实施例六提供的一种直播系统的结构示意图；

图8为本发明实施例七提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例针对目前在用户终端本地对直播间的下行语音码流进行混音的技术中存在的缺陷，引入一种服务端混音技术，也就是预先设置一种用于混合多路语音码流的混音服务端，该混音服务端通过媒体服务端获取直播间的下行语音码流，并混合该下行语音码流，将混合后的下行语音码流发送给直播间的用户终端，此时为了保证用户终端向媒体服务端发送的上行语音码流的语音音质，而提高各个用户终端的上行码率时，能够保证无论直播间的用户终端数量有多少，混音后向各用户终端发送的下行语音码流都只有一路，使得向用户终端发送下行语音码流的下行码率大幅降低，节省下行网络带宽。

图1A为本发明实施例提供的语音处理的方法所适用的一种应用场景的场景架构图。参照图1A，该应用场景中包括：用户终端110、媒体服务端120和混音服务集群130。

其中，用户终端110上对应安装有用于用户参与直播的应用程序，用户终端110为某一直播间的直播参与方，例如直播间中上麦用户和听众所在的终端；媒体服务端120为直播应用程序对应的能够实现各种直播业务所需的媒体资源功能的后台服务器，负责接收直播间的上行语音码流，以及通过混音服务集群130向对应的用户终端110下发下行语音码流；混音服务集群130为由大量对多路语音码流具备混音能力的混音服务器构成的集群，本发明实施例中为了将现有的向用户终端发送的多路下行语音码流转换为一路下行语音码流，预先为直播间中的每一直播用户设置一个关联的混音服务端，在向用户终端110发送下行语音码流时之前，首先由该用户终端110关联的混音服务端来混合该用户终端110对应的多路待混合的下行语音码流，混合后转换为一路下行语音码流，进而将混合后的一路下行语音码流对应发送给该用户终端110。

示例性的，用户终端110中的每一上麦用户所在的终端均会采集上麦用户发出的语音，生成对应的上行语音码流，发送给媒体服务端120，此时媒体服务端120作为中间转发站，将每一用户终端110发送的上行语音码流转换为下行语音码流，分别选取出各个用户终端110对应的待混合的多路下行语音码流对应发送给混音服务集群130中各个用户终端110关联的混音服务端，由关联的混音服务端对多路待混合的下行语音码流进行混音，生成一路下行语音码流发送给对应的用户终端110。

需要说明的是，用户终端110为直播间中直播参与方所在的终端，用户终端110的熟练由直播间中参与直播的用户数量确定，此时由于混音服务集群130中包含混音服务端与用户终端110一一对应，因此混音服务集群130中混音服务端的数量也由直播间中参与直播的用户数量确定。

此外，由于混音服务集群130中包括多个混音服务端，此时在媒体服务端120向混音服务集群130发送各个上麦用户对应的下行语音码流时，需要向混音服务集群130中的每一混音服务端发送除该混音服务端对应的用户外的其他用户的下行语音码流，使得媒体服务端120重复转发同一下行语音码流，需要耗费大量额外的转发成本。

同时，由于直播间的直播参与方中包括位于直播窗口中的上麦用户以及仅观看直播的听众，上麦用户对应的用户终端110能够采集上麦用户发出的语音发送给媒体服务端120，并播放除自身外的其他上麦用户的语音，而听众对应的用户终端110仅负责播放各个上麦用户的语音；因此混音服务集群130中与上麦用户所在的用户终端110关联的混音服务端会选取其他上麦用户对应的下行语音码流作为待混合的下行语音码流进行混音，与听众所在的用户终端110关联的混音服务端会将全部上麦用户对应的下行语音码流作为待混合的下行语音码流进行混音；此时每一上麦用户对应的下行语音码流会被混音服务集群130中的与除该上麦用户外的其他上麦用户和全部听众对应的用户终端110关联的混音服务端重复混音，需要耗费较大的语音码流处理成本。

针对上述语音处理存在的问题，本发明实施例在上述场景架构的基础上，进一步进行优化。

图1B为本发明实施例提供的语音处理的方法所适用的另一种应用场景的场景架构图，参照图1B，该应用场景中包括：用户终端140、媒体服务端150和混音服务端160。

具体的，该应用场景中的用户终端140和媒体服务端150分别具备上述第一个应用场景中提供的用户终端110和媒体服务端120中的全部功能，对此不再进行详细的介绍说明。混音服务端160相比于上述第一个应用场景中提供的混音服务集群130，可以看作将混音服务集群130中存在的各个混音服务端的功能集中在一个混音服务端160；此时混音服务端160在直播开启后，会预先为每一上麦用户设置一个对应的上麦混音进程，同时为全部听众统一设置一个听众混音进程，以使各个上麦混音进程和听众混音进程能够根据直播间各个用户的直播角色来选取对应待混合的下行语音码流进行混音，并发送给对应的用户终端140，此时避免了第一种应用场景中媒体服务端120对于同一下行语音码流重复转发以及混音服务集群130对于同一下行语音码流重复混音的情况，降低了媒体服务和混音服务的运算成本。

在此，对于在本发明实施例提供的语音处理的方法所适用的两种应用场景下，所需要执行的语音处理过程中具体包括的各个步骤可以在下述语音处理的方法中进行详细的解释说明。

实施例一

图2为本发明实施例一提供的一种语音处理的方法的流程图，本实施例可应用于任一种对多路语音码流进行混音处理的情况中。本实施例提供的一种语音处理的方法可以由本发明实施例提供的语音处理的装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是具备混音能力的任一种服务器。

具体的，参考图2，该方法可以包括如下步骤：

S210，获取直播间的下行语音码流。

具体的，本实施例主要针对语音群聊中每一参与用户所在的终端需要播放对多个其他用户的语音码流进行混音后的语音码流的情况，此时在当前语音群聊房间，也就是直播间中位于各个直播窗口的用户所在的用户终端会实时采集当前用户发出的语音，生成对应的上行语音码流发送给直播应用程序对应的媒体服务端，其中语音码流是指由原始采集的语音信号进行相应转换后得到的音频数据流，此时由媒体服务端作为中间转发站，将多个直播窗口用户上发的上行语音码流转换为对应的下行语音码流，此时下行语音码流与上行语音码流所对应的音频数据一致，同时将下行语音码流转发给用于执行本实施例提供的语音处理的方法的混音服务端，由混音服务端执行相应的混音技术，发送给需要播放其他用户发出的语音的终端。

可选的，本实施例在对多路语音码流混音前，首先可以获取通过媒体服务端转发的直播间中各个直播窗口用户对应的下行语音码流，以便实现后续混音。此外本实施例中语音处理的方法的执行主体可以是图1A中提供的第一种应用场景中的混音服务集群130，也可以是图1B中提供的第二种应用场景中的混音服务端160，可以根据具体的应用场景确定。

S220，混合下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。

可选的，在获取到直播间中的多路下行语音码流时，可以直接采用现有的混音技术混合直播间中的多路下行语音码流，将多路下行语音码流转换为一路下行语音码流，进而将混合后的下行语音码流发送给直播间中的用户终端，保证无论直播间中存在多少直播用户，向用户终端发送的下行语音码流都只有一路，从而极大降低语音码流的下行码率，节省了下行网络带宽，降低了下行网络拥塞的风险；此时即使为了改善直播用户的上行语音码流的语音音质，而增加每一直播用户的上行码率时，也不影响语音码流的下行码率，此时基于下行码率可以通过服务端混音来控制，能够使上行语音码流开启较高的上行码率，从而带来较高的语音音质。

具体的，由于每一用户终端都无需播放自身发出的语音，因此在混合下行语音码流时，首先会针对每一用户终端，获取除该用户终端自身的下行语音码流外的其他用户终端对应的下行语音码流，进而采用混音技术混合其他用户终端的下行语音码流，并将混合后的下行语音码流发送给该用户终端。

本实施例提供的技术方案，在服务端直接混合直播间的下行语音码流混音，并将混合后的下行语音码流发送给直播间的用户终端，本方案使得用户终端直接接收混合后的下行语音码流，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担，保障下行网络的通畅。

实施例二

图3A为本发明实施例二提供的一种语音处理的方法的流程图，图3B为本发明实施例二提供的语音处理过程的原理示意图。本实施例是在上述实施例的基础上进行优化，由于本发明实施例预先提供了语音处理的方法所适用的两种应用场景，此时本实施例主要对于第一种应用场景下语音处理的具体过程进行详细的解释说明。

可选的，如图3A所示，本实施例可以包括如下步骤：

S310，获取直播间的下行语音码流。

S320，解码其他用户的下行语音码流。

具体的，由于对于语音码流传输，通常是将原始的语音模拟信号进行语音编码，转化成对应的数字音频信号，从而降低传输码率进行数字传输，因此本实施例中获取的直播间的下行语音码流均为编码后的语音码流，在对多路下行语音码流混音前，首先需要解码下行语音码流。

可选的，在语音处理的方法所适用的第一种应用场景中，执行本实施例中语音处理的方法的执行主体为混音服务集群，如图3B所示，混音服务集群中包括多个预先为直播间的每一直播用户分别对应设置的混音服务端，本实施例中媒体服务端会根据混音服务集群中每一混音服务端与直播用户之间的匹配关系，向每一混音服务端转发其他用户的下行语音码流，其他用户是指直播间中除当前混音服务端对应的直播用户之外的其他用户，同时每一混音服务端会对应解码接收的其他用户的下行语音码流，以便对解码后的多路下行语音码流混音。示例性的，由于直播间中的直播用户分为位于直播窗口的上麦用户和听众，此时对于上麦用户对应的混音服务端，其他用户是指除该上麦用户外的其他上麦用户，使得某一上麦用户对应的混音服务端接收媒体服务端转发的其他上麦用户的下行语音码流并解码；对于听众对应的混音服务端，其他用户是指全部上麦用户，使得听众对应的混音服务端接收媒体服务端转发的全部上麦用户的下行语音码流并解码。

S330，将解码后的下行语音码流混音后编码，并将编码后的下行语音码流发送给对应的用户终端。

具体的，对于混音服务集群中的每一混音服务端，如图3B所示，均可以采用现有的混音技术对该混音服务端上解码后的多路下行语音码流混音，并对混音后的一路下行语音码流编码，转化为对应的数字音频信号，从而将编码后的下行语音码流发送给该混音服务端对应的用户终端，实现各个用户终端上直播间的语音播放。

本实施例提供的技术方案，通过预先为直播间中的每一直播用户设置一个对应的混音服务端，由每一混音服务端直接混合其他用户解码后的下行语音码流并编码，同时将编码后的下行语音码流发送给对应的用户终端，使得用户终端直接接收混音编码后的下行语音码流，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担，保障下行网络的通畅。

实施例三

图4A为本发明实施例三提供的一种语音处理的方法的流程图，图4B为本发明实施例三提供的语音处理过程的原理示意图。本实施例是在上述实施例的基础上进行优化，由于本发明实施例预先提供了语音处理的方法所适用的两种应用场景，此时本实施例主要对于第二种应用场景下语音处理的具体过程进行详细的解释说明。

可选的，如图4A所示，本实施例可以包括如下步骤：

S410，获取直播间用户的直播角色。

具体的，在语音处理的方法所适用的第二种应用场景中，将第一种应用场景中的混音服务集群的功能集中在一个混音服务端中，此时执行本实施例中的语音处理的方法的执行主体为该混音服务端。由于直播间中的用户分为位于直播窗口的上麦用户和听众，而在混音时上麦用户和听众对应的待混合的下行语音码流各不相同，因此本实施例在获取直播间的下行语音码流之前，首先需要获取直播间各个用户的直播角色，判断出直播间中的上麦用户和听众，以便后续对不同角色用户采用不同的混音方式。

可选的，直播间用户的直播角色可以在用户加入直播间时，由用户终端通过媒体服务端同步给混音服务端，例如直播间开启后，如果有用户加入该直播间，那么该用户所在的用户终端会向媒体服务端同步发送该用户的直播角色，由媒体服务端将该直播角色继续同步给混音服务端；同时用户角色在直播过程中发生变化时，也会实时更新同步，如在直播过程中某一听众申请上麦，变为上麦用户时，此时媒体服务端会更新该用户的直播角色，并同步给混音服务端。

S420，获取直播间的下行语音码流。

S430，解码下行语音码流。

本实施例中，由于各个用户终端对应的混音过程统一由混音服务端处理，因此媒体服务端会将全部上麦用户的下行语音码流均发送给混音服务端，此时由于对于语音码流传输，通常是将原始的语音模拟信号进行语音编码，转化成对应的数字音频信号，从而降低传输码率进行数字传输，因此本实施例中获取的直播间的下行语音码流均为编码后的语音码流，此时如图4B所示，在获取到直播间的下行语音码流后，对多路下行语音码流混音前，首先需要解码全部的下行语音码流。

S440，根据用户的直播角色将解码后的下行语音码流混音。

可选的，在解码下行语音码流后，由于直播间中的不同用户所对应的待混合的下行语音码流各不相同，本实施例会根据用户的直播角色在全部的解码后的下行语音码流中为各个用户选取出对应的待混合的下行语音码流，并对各个用户对应选取的多路解码后的待混合的下行语音码流混音，得到一路下行语音码流。

示例性的，直播间中用户的直播角色包括上麦用户和听众，针对上麦用户和听众本实施例可以采用不同的混音方式，此时根据用户的直播角色将解码后的下行语音码流混音，可以具体包括：若用户为上麦用户，则将其他上麦用户的解码后的下行语音码流混音；若用户为听众，则将所有上麦用户的解码后的下行语音码流混音。

具体的，本实施例在获取直播间用户的直播角色时，首先会为用户设置对应的混音进程，由于每一上麦用户对应的待混合的下行语音码流各不相同，每一听众对应的待混合的下行语音码流一致，因此本实施例在设置混音进程时，可以为每一上麦用户均设置一个对应的上麦混音进程，为全部听众统一设置一个听众混音进程；此时在解码下行语音码流后，每一上麦用户对应的上麦混音进程均会在所有解码后的下行语音码流中选取出其他上麦用户的解码后的下行语音码流进行混音；听众混音进程将所有上麦用户的解码后的下行语音码流进行混音，此时听众混音进程仅执行一次混音为大量听众共用，与每一听众均需要对应执行一次混音的方式相比，极大降低了混音服务端的混音耗费成本，提高了混音效率。

S450，对混音后的下行语音码流编码，并将编码后的下行语音码流发送给对应的用户终端。

可选的，对各个用户对应的解码后的下行语音码流混音后，可以将混音后的一路下行语音码流编码，转化为对应的数字音频信号，从而将编码后的下行语音码流发送给对应的用户终端，实现各个用户终端上直播间的语音播放。示例性的，如图4B所示，每一上麦混音进程和听众混音进程均会对混音后的下行语音码流进行编码，各个上麦混音进程将编码后的下行语音码流发送给对应上麦用户所在的用户终端，听众混音进程将编码后的下行语音码流发送的各个听众所在的用户终端，极大降低了混音服务端对于听众的编码耗费成本。

本实施例提供的技术方案，通过统一的混音服务端根据用户的直播角色将用户对应待混合的解码后的下行语音码流混音并编码，同时将编码后的下行语音码流发送给对应的用户终端，极大降低了对直播间的同一下行语音码流重复解码混音的情况，降低了混音服务的运算成本，同时使得用户终端直接接收混音编码后的下行语音码流，减小用户终端接收下行语音码流的流量开销，降低下行网络的带宽负担，保障下行网络的通畅。

实施例四

图5为本发明实施例四提供的一种语音处理的装置的结构示意图，具体的，如图5所示，该装置可以包括：

码流获取模块510，用于获取直播间的下行语音码流；

混音发送模块520，用于混合下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。

进一步的，上述混音发送模块520，可以包括：

第一解码单元，用于解码其他用户的下行语音码流；

混音编码发送单元，用于将解码后的下行语音码流混音后编码，并将编码后的下行语音码流发送给对应的用户终端。

进一步的，上述混音发送模块520，还可以包括：

第二解码单元，用于解码下行语音码流；

混音单元，用于根据用户的直播角色将解码后的下行语音码流混音；

编码发送单元，用于对混音后的下行语音码流编码，并将编码后的下行语音码流发送给对应的用户终端。

进一步的，上述混音单元，可以具体用于：

若用户为上麦用户，则将其他上麦用户的解码后的下行语音码流混音；

若用户为听众，则将所有上麦用户的解码后的下行语音码流混音。

进一步的，上述语音处理的装置，还可以包括：

角色获取模块，用于在获取直播间的下行语音码流之前，获取直播间用户的直播角色。

本实施例提供的语音处理的装置可适用于上述任意实施例提供的语音处理的方法，具备相应的功能和有益效果。

实施例五

图6为本发明实施例五提供的一种语音处理系统的结构示意图。参照图6，该语音处理系统包括：媒体服务器610和混音服务器620。

具体的，媒体服务器610为能够实现各种直播业务所需的媒体资源功能的后台服务器，可以向混音服务器620发送直播间的下行语音码流；混音服务器620上设置有上述实施例中提供的语音处理的装置，可适用于上述任意实施例提供的语音处理的方法，具备相应的功能和有益效果。

实施例六

图7为本发明实施例六提供的一种直播系统的结构示意图。参照图7，该直播系统包括：用户终端710、媒体服务器720和混音服务器730。

具体的，用户终端710为直播间中用户所在的终端，能够向媒体服务器720发送直播间的上行语音数据码流，或者接收混音服务器730混合后的下行语音码流；媒体服务器720为能够实现各种直播业务所需的媒体资源功能的后台服务器，可以接收用户终端710发送的上行语音码流，并将上行语音码流转换为下行语音码流，同时向混音服务器730发送直播间的下行语音码流；混音服务器730上设置有上述实施例中提供的语音处理的装置，可适用于上述任意实施例提供的语音处理的方法，具备相应的功能和有益效果。

实施例七

图8为本发明实施例七提供的一种设备的结构示意图，如图8所示，该设备包括处理器80、存储装置81和通信装置82；设备中处理器80的数量可以是一个或多个，图8中以一个处理器80为例；设备中的处理器80、存储装置81和通信装置82可以通过总线或其他方式连接，图8中以通过总线连接为例。

存储装置81作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中提供的语音处理的方法对应的程序指令/模块。处理器80通过运行存储在存储装置81中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语音处理的方法。

存储装置81可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置81可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置81可进一步包括相对于处理器80远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置82可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行上述任意实施例提供的语音处理的方法，具备相应的功能和有益效果。

实施例八

本发明实施例八还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现上述任意实施例中的语音处理的方法。该方法具体可以包括：

获取直播间的下行语音码流；

混合下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音处理的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音处理的装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音处理的方法，应用于混音服务端，其特征在于，包括：

获取直播间的下行语音码流；

混合所述下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端；

其中，所述混合所述下行语音码流，包括：

解码下行语音码流；

根据用户的直播角色将解码后的下行语音码流混音；

对混音后的下行语音码流编码，并将编码后的下行语音码流发送给对应的用户终端；

所述根据用户的直播角色将解码后的下行语音码流混音，包括：

若用户为听众，则将所有上麦用户的解码后的下行语音码流混音；

所述混音服务端在直播开启后，会预先为每一上麦用户设置一个对应的上麦混音进程，同时为全部听众统一设置一个听众混音进程。

2.根据权利要求1所述的方法，其特征在于，所述混合所述下行语音码流，包括：

解码其他用户的下行语音码流；

将解码后的下行语音码流混音后编码，并将编码后的下行语音码流发送给对应的用户终端。

3.根据权利要求1所述的方法，其特征在于，在获取直播间的下行语音码流之前，还包括：

获取直播间用户的直播角色。

4.一种语音处理的装置，设置于混音服务端，其特征在于，包括：

码流获取模块，用于获取直播间的下行语音码流；

混音发送模块，用于混合所述下行语音码流，并将混合后的下行语音码流发送给直播间的用户终端；

其中，所述混音发送模块，包括：

第二解码单元，用于解码下行语音码流；

编码发送单元，用于对混音后的下行语音码流编码，并将编码后的下行语音码流发送给对应的用户终端；

所述混音单元，用于：

其中，所述混音服务端在直播开启后，会预先为每一上麦用户设置一个对应的上麦混音进程，同时为全部听众统一设置一个听众混音进程。

5.一种语音处理系统，其特征在于，包括：媒体服务器和混音服务器；

所述媒体服务器向所述混音服务器发送直播间的下行语音码流，所述混音服务器上设置有如权利要求4所述的语音处理的装置。

6.一种直播系统，其特征在于，包括：用户终端、媒体服务器和混音服务器；

所述用户终端向所述媒体服务器发送直播间的上行语音码流，或者接收所述混音服务器混合后的下行语音码流；所述媒体服务器将所述上行语音码流转换为下行语音码流，并向所述混音服务器发送所述下行语音码流；所述混音服务器上设置有如权利要求4所述的语音处理的装置。

7.一种语音处理设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-3中任一所述的语音处理的方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的语音处理的方法。