CN112073743A

CN112073743A - 一种多人直播处理系统及方法

Info

Publication number: CN112073743A
Application number: CN202010916535.9A
Authority: CN
Inventors: 汪云飞
Original assignee: Beijing Zhongrun Internet Information Technology Co ltd
Current assignee: Beijing Zhongrun Internet Information Technology Co ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-11

Abstract

本申请提供了一种多人直播处理系统及方法，多人直播处理系统包括：至少两个直播端、观看端以及直播媒体服务器，观看端具有对多路音视频进行合成的能力；直播端将至少两路直播数据流推送至直播媒体服务器；直播媒体服务器接收直播端推送的至少两路直播数据流，并将直播数据流下发至观看端；观看端从直播媒体服务器拉取至少两路目标直播数据流，并在拉取目标直播数据流时，对至少两路目标直播数据流进行合成处理，得到合成直播视频；其中，合成处理包括画面合成处理以及音频合成处理。本申请实施例应用于多人直播时，利用用户的观看端对直播视频进行合成，减轻了直播媒体服务器的运算负荷，提高了直播视频数据的传输效率。

Description

一种多人直播处理系统及方法

技术领域

本申请涉及网络直播技术领域，尤其是涉及一种多人直播处理系统及方法。

背景技术

随着网络直播的兴起，网络直播极大地丰富了网络用户的业余生活，为了吸引更多的网络用户进行直播活动，许多直播运营方推出了一些新颖的直播方式，例如多人连麦直播、直播比赛(PlayerKilling，PK)等，以丰富网络用户的直播体验。

但是，由于直播数据量的增加，直播运营方为了保证直播画面的流畅性以及清晰度，便提高了对于网络带宽的需求，相应的需要消耗更多的运营成本。

发明内容

有鉴于此，本申请的目的在于提供一种多人直播处理系统及方法，在多人直播时，利用用户的观看端对直播视频进行合成，减轻了直播媒体服务器的运算负荷，提高了直播视频数据的传输效率。

本申请实施例提供了一种多人直播处理系统，所述多人直播处理系统包括：至少两个直播端、观看端以及直播媒体服务器，所述直播端与所述直播媒体服务器之间通信连接、以及所述观看端与直播媒体服务器之间通信连接，其中，所述观看端具有对多路音视频进行合成的能力；

所述直播端，用于将至少两路直播数据流推送至所述直播媒体服务器；

所述直播媒体服务器，用于接收所述直播端推送的至少两路直播数据流，并将所述直播数据流下发至所述观看端；

所述观看端，用于从所述直播媒体服务器拉取至少两路目标直播数据流，并在拉取所述目标直播数据流时，对所述至少两路目标直播数据流进行合成处理，得到合成直播视频；

其中，所述合成处理包括画面合成处理以及音频合成处理。

进一步的，所述至少两个直播端具有分别对应的身份标识信息；

所述直播媒体服务器，还用于接收至少两个直播端分别对应的身份标识信息。

进一步的，所述观看端，还用于基于所述至少两个直播端分别对应的身份标识信息，从所述直播媒体服务器拉取包括目标身份标识信息的目标直播数据流。

进一步的，针对画面合成处理，所述观看端具体用于：

基于所述至少两路目标直播数据流，基于预设的画面合成规则，对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面，并将所述合成画面进行前端展示。

进一步的，所述观看端，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，具体用于：

基于所述目标直播数据流的路数，确定所述路数对应的画面合成模板；

基于所述画面合成模板，对所述至少两路目标直播数据流对应的视频画面进行合成，得到合成视频画面。

进一步的，所述观看端，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，还用于：

根据所述观看端对应用户对于所述合成画面中任意子画面的选择，突出显示所述子画面。

进一步的，针对音频合成处理，所述观看端具体用于：

基于所述至少两路目标直播数据流，基于音频合成技术，对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频，并播放所述合成音频。

进一步的，所述观看端，用于对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频时，具体用于：

根据所述观看端对应用户对于合成音频中任意音频数据的参数调节，调整对于所述音频数据的合成参数；

基于调整后的所述合成参数，对音频数据进行合成处理，得到合成音频。

进一步的，所述直播端还用于：

从所述直播媒体服务器拉取至少一路目标直播数据流，并所述直播端的本地直播数据流进行合成处理，得到包括所述直播端对应直播视频的合成直播视频。

进一步的，所述观看端，还用于：基于拉取的至少两路目标直播数据流的时间戳信息，展示所述合成画面，并播放所述合成音频；

所述直播端，还用于：基于拉取的至少一路目标直播数据流的时间戳信息以及所述直播端的本地时间戳信息，展示所述合成画面，并播放所述合成音频。

本申请实施例还提供了一种多人直播处理方法，应用于上述多人直播处理系统中，所述处理方法包括：

控制直播端将至少两路直播数据流推送至所述直播媒体服务器；

控制所述直播媒体服务器接收所述直播端推送的至少两路直播数据流，并将所述直播数据流下发至所述观看端；

控制所述观看端从所述直播媒体服务器拉取至少两路目标直播数据流，并在拉取所述目标直播数据流时，对所述至少两路目标直播数据流进行合成处理，得到合成直播视频；

其中，所述合成处理包括画面合成处理以及音频合成处理。

所述控制所述直播媒体服务器接收所述直播端推送的至少两路直播数据流，包括：

控制所述直播媒体服务器接收至少两个直播端分别对应的身份标识信息。

进一步的，所述控制所述直播媒体服务器接收至少两个直播端分别对应的身份标识信息，包括：

控制所述观看端基于所述至少两个直播端分别对应的身份标识信息，从所述直播媒体服务器拉取包括目标身份标识信息的目标直播数据流。

进一步的，针对画面合成处理，所述对所述至少两路目标直播数据流进行合成处理，包括：

进一步的，所述对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面，包括：

进一步的，所述对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面，还包括：

进一步的，针对音频合成处理，所述对所述至少两路目标直播数据流进行合成处理，包括：

进一步的，所述对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频，包括：

进一步的，所述处理方法还包括：

控制所述直播端从所述直播媒体服务器拉取至少一路目标直播数据流，并所述直播端的本地直播数据流进行合成处理，得到包括所述直播端对应直播视频的合成直播视频。

进一步的，所述处理方法还包括：

控制所述观看端基于拉取的至少两路目标直播数据流的时间戳信息，展示所述合成画面，并播放所述合成音频；

控制所述直播端基于拉取的至少一路目标直播数据流的时间戳信息以及所述直播端的本地时间戳信息，展示所述合成画面，并播放所述合成音频。

本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行上述任一种可能的实施方式中所述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述任一种可能的实施方式中所述方法的步骤。

本申请实施例提供的一种多人直播处理系统及方法，多人直播处理系统包括：至少两个直播端、观看端以及直播媒体服务器，直播端与直播媒体服务器之间通信连接、以及观看端与直播媒体服务器之间通信连接，其中，观看端具有对多路音视频进行合成的能力；直播端，用于将至少两路直播数据流推送至直播媒体服务器；直播媒体服务器，用于接收直播端推送的至少两路直播数据流，并将直播数据流下发至观看端；观看端，用于从直播媒体服务器拉取至少两路目标直播数据流，并在拉取目标直播数据流时，对至少两路目标直播数据流进行合成处理，得到合成直播视频；其中，合成处理包括画面合成处理以及音频合成处理。本申请实施例应用于多人直播时，利用用户的观看端对直播视频进行合成，减轻了直播媒体服务器的运算负荷，提高了直播视频数据的传输效率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种多人直播处理系统的结构示意图；

图2示出了本申请实施例所提供的一种多人直播的界面示意图；

图3示出了本申请实施例所提供的一种多人直播处理方法的流程图；

图4示出了本申请实施例所提供的一种计算机设备的结构示意图。

图标：

100-多人直播处理系统；110-直播端；120-直播媒体服务器；130-观看端；

400-计算机设备；41-处理器；42-存储器；43-总线；421-内存；422-外部存储器。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

随着互联网直播的发展，单直播模式已经满足不了日益增长的娱乐活动需求，许多直播平台都推出了多人互动的连麦直播模式，以丰富直播形式。目前很多直播平台的多人连麦模式都是通过媒体连麦服务器进行数据流的合流混流，并进行转推，下发至用户的观看端。

目前，对于连麦的直播模式，主要通过多个推流直播端，以直播推流的方法，将直播数据流推送到连麦直播服务器上，连麦服务器再将多个推流直播端的直播画面以及音频进行合流混流，合成一个画面和一个频道内的音频，之后观看端再从连麦直播服务器上，及时拉取合成的直播画面及合成的音频，供用户进行观看。上述方法虽然及时性很高，但是所需的带宽成本非常高昂，尤其对于一些中小企业来讲，其运营成本是难以承受的。

由于许多直播运营方推出了一些新颖的直播方式，进而导致直播数据量的增加，直播运营方为了保证直播画面的流畅性以及清晰度，便提高了对于网络带宽的需求，相应的需要消耗更多的运营成本。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例的描述中，需要说明的是，术语“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本申请实施例的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连通”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以以具体情况理解上述术语在本发明中的具体含义。

参见图1，图1本申请实施例所提供的一种多人直播处理系统100的结构示意图。如图1所示，所述多人直播处理系统100包括：至少两个直播端110、观看端130以及直播媒体服务器120，所述直播端110与所述直播媒体服务器120之间通信连接、以及所述观看端130与直播媒体服务器120之间通信连接。

其中，所述观看端130具有对多路音视频进行合成的能力。

在一个实施例中，由于目前所采用的合成方法大多是基于连麦直播服务器对多路直播视频进行合成处理，其消耗较多的带宽，并且费用成本较高。因此，本申请实施例中，过滤掉连麦视频服务器进行视频合成，从而得到合成画面及合成音频的过程，基于具有对多路音视频进行合成的能力的观看端130，对直播视频数据流进行合成，得到目标合成画面及音频。

在本申请实施例中，包括：所述直播端110，用于将至少两路直播数据流推送至所述直播媒体服务器120。

示例性的，在连麦直播过程中，应存在至少两个直播端110，才能够完成连麦互动的直播过程。其中，所述直播端110对应的终端可以为具有一定计算能力且具有视频采集功能的终端设备，该终端设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，可以通过处理器调用存储器中存储的计算机可读指令的方式来实现直播视频的采集过程。

具体的，通过直播端110的终端设备可以采集直播视频，并将该直播视频通过通信连接，发送至直播媒体服务器120。

在本申请实施例中，还包括：所述直播媒体服务器120，用于接收所述直播端110推送的至少两路直播数据流，并将所述直播数据流下发至所述观看端130。

其中，所述直播媒体服务器120与目前所采用的连麦媒体服务器不同，其无须对直播视频进行处理，只需起到数据传输的功能即可，相对而言，直播媒体服务器120所需成本较低，为一些运营企业节省了大量的成本。

在本申请实施例中，还包括：所述观看端130，用于从所述直播媒体服务器120拉取至少两路目标直播数据流，并在拉取所述目标直播数据流时，对所述至少两路目标直播数据流进行合成处理，得到合成直播视频；其中，所述合成处理包括画面合成处理以及音频合成处理。

在本申请一个实施例中，针对画面合成处理，所述观看端130具体用于：

示例性的，在多个直播端110推流到直播媒体服务器120，各个观看端130再从直播媒体服务器120拉取各个直播端110的画面之后，观看端130可以通过画面合成技术(OpenBroadcaster Software，OBS)，该画面合成技术是一个免开源的视频录制和视频实时流软件，其有多种功能并广泛使用在视频采集，直播等领域。利用该方法可以时间对于直播视频的合成处理。

该步骤中，可以实时将两个直播视频或者多个直播视频合成在一起，在合成过程中，同时推流到直播媒体服务器120，再通过直播媒体服务器120向观看端130推送合成视频的内容。

参见图2，图2为本申请实施例所提供的一种多人直播的界面示意图，如图2所示，针对于画面合成处理，所述观看端130，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，具体用于：

示例性的，若所述目标直播数据流的路数为9，则可以确定对应的画面合成模板为九宫格，如图2所示，可以将1-9号直播视频对应该九宫格合成模板进行合成，得到合成视频画面，在观看端130对应的终端上进行展示。

此外，在本申请另一个实施例中，所述观看端130，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，还用于：

根据所述观看端130对应用户对于所述合成画面中任意子画面的选择，突出显示所述子画面。

示例性的，若观看端130的用户想要重点查看某一子画面，可以点击对应画面，或是发出对应指令，例如：在控制区域选取对应标号的子画面。其中，其突出显示方法可以为放大、闪烁、提亮等多种方法。

在本申请实施例中，针对音频合成处理，所述观看端130具体用于：

示例性的，可以通过OBS技术将音频合成在一个通道中，形成合成音频。

此外，所述观看端130，用于对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频时，具体用于：

根据所述观看端130对应用户对于合成音频中任意音频数据的参数调节，调整对于所述音频数据的合成参数；

示例性的，若用户想要调整某一直播端110对应音频的参数，例如：响度、音调等，可以通过调节对应直播端110音频参数，并基于调整后的各通道音频参数，对音频数据进行合成处理，得到合成音频。

在本申请另一实施例中，所述直播端110也可以合成包括本地视频的直播视频，并展示所述合成视频，所述直播端110还用于：

从所述直播媒体服务器120拉取至少一路目标直播数据流，并所述直播端110的本地直播数据流进行合成处理，得到包括所述直播端110对应直播视频的合成直播视频。

该实施例与上述实施例过程类似，且能达到相同的技术效果，在此不再赘述。

此外，为了保证音画同步，所述观看端130，还用于：基于拉取的至少两路目标直播数据流的时间戳信息，展示所述合成画面，并播放所述合成音频；

所述直播端110，还用于：基于拉取的至少一路目标直播数据流的时间戳信息以及所述直播端110的本地时间戳信息，展示所述合成画面，并播放所述合成音频。

在本申请另一实施例中，所述至少两个直播端110具有分别对应的身份标识信息；所述直播媒体服务器120，还用于接收至少两个直播端110分别对应的身份标识信息。

对应的，所述观看端130，还用于基于所述至少两个直播端110分别对应的身份标识信息，从所述直播媒体服务器120拉取包括目标身份标识信息的目标直播数据流。

该步骤中，身份标识信息可以是直播端110上传至直播媒体服务器120的，用以表征所述直播端110对应的目标用户，并且观看端130也可以基于该身份标识，选取想要观看的直播端110对应的直播视频。

参见图3所示，为本申请实施例提供的一种多人直播处理方法，应用于多人直播处理系统，所述处理方法包括步骤S301～S303，其中：

S301：控制直播端将至少两路直播数据流推送至所述直播媒体服务器；

S302：控制所述直播媒体服务器接收所述直播端推送的至少两路直播数据流，并将所述直播数据流下发至所述观看端；

S303：控制所述观看端从所述直播媒体服务器拉取至少两路目标直播数据流，并在拉取所述目标直播数据流时，对所述至少两路目标直播数据流进行合成处理，得到合成直播视频；

其中，所述合成处理包括画面合成处理以及音频合成处理。

进一步的，所述处理方法还包括：

本申请实施例通过控制直播端将至少两路直播数据流推送至直播媒体服务器；控制直播媒体服务器接收直播端推送的至少两路直播数据流，并将直播数据流下发至观看端；控制观看端从直播媒体服务器拉取至少两路目标直播数据流，并在拉取目标直播数据流时，对至少两路目标直播数据流进行合成处理，得到合成直播视频；其中，合成处理包括画面合成处理以及音频合成处理。本申请实施例应用于多人直播时，利用用户的观看端对直播视频进行合成，减轻了直播媒体服务器的运算负荷，提高了直播视频数据的传输效率。

基于同一申请构思，参见图4所示，为本申请实施例提供的一种计算机设备400的结构示意图，包括：处理器41、存储器42、和总线43；存储器42用于存储执行指令，包括内存421和外部存储器422；这里的内存421也称内存储器，用于暂时存放处理器41中的运算数据，以及与硬盘等外部存储器422交换的数据，处理器41通过内存421与外部存储器422进行数据交换，当所述计算机设备400运行时，所述处理器41与所述存储器42之间通过总线43通信，使得所述处理器41在用户态执行以下指令：

其中，所述合成处理包括画面合成处理以及音频合成处理。

一种可能的实施方式中，处理器41执行的指令中，所述至少两个直播端具有分别对应的身份标识信息；

一种可能的实施方式中，处理器41执行的指令中，所述控制所述直播媒体服务器接收至少两个直播端分别对应的身份标识信息，包括：

一种可能的实施方式中，处理器41执行的指令中，针对画面合成处理，所述对所述至少两路目标直播数据流进行合成处理，包括：

一种可能的实施方式中，处理器41执行的指令中，所述对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面，包括：

一种可能的实施方式中，处理器41执行的指令中，所述对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面，还包括：

一种可能的实施方式中，处理器41执行的指令中，针对音频合成处理，所述对所述至少两路目标直播数据流进行合成处理，包括：

一种可能的实施方式中，处理器41执行的指令中，所述对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频，包括：

一种可能的实施方式中，处理器41执行的指令中，所述处理方法还包括：

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的多人直播处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本申请实施例所提供的多人直播处理方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的多人直播处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本申请实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software DevelopmentKit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多人直播处理系统，其特征在于，所述多人直播处理系统包括：至少两个直播端、观看端以及直播媒体服务器，所述直播端与所述直播媒体服务器之间通信连接、以及所述观看端与直播媒体服务器之间通信连接，其中，所述观看端具有对多路音视频进行合成的能力；

其中，所述合成处理包括画面合成处理以及音频合成处理。

2.根据权利要求1所述的多人直播处理系统，其特征在于，所述至少两个直播端具有分别对应的身份标识信息；

3.根据权利要求2所述的多人直播处理系统，其特征在于，所述观看端，还用于基于所述至少两个直播端分别对应的身份标识信息，从所述直播媒体服务器拉取包括目标身份标识信息的目标直播数据流。

4.根据权利要求1所述的多人直播处理系统，其特征在于，针对画面合成处理，所述观看端具体用于：

5.根据权利要求4所述的多人直播处理系统，其特征在于，所述观看端，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，具体用于：

6.根据权利要求4所述的多人直播处理系统，其特征在于，所述观看端，用于对所述至少两路目标直播数据流分别对应的视频画面进行合成，得到合成画面时，还用于：

7.根据权利要求1所述的多人直播处理系统，其特征在于，针对音频合成处理，所述观看端具体用于：

8.根据权利要求7所述的多人直播处理系统，其特征在于，所述观看端，用于对所述至少两路目标直播数据流对应的音频数据进行合成处理，得到合成音频时，具体用于：

9.根据权利要求1所述的多人直播处理系统，其特征在于，所述直播端还用于：

10.根据权利要求1-9任一项所述的多人直播处理系统，其特征在于，所述观看端，还用于：基于拉取的至少两路目标直播数据流的时间戳信息，展示所述合成画面，并播放所述合成音频；

11.一种多人直播处理方法，其特征在于，应用于如权利要求1至10中任一项所述的多人直播处理系统中，所述处理方法包括：

其中，所述合成处理包括画面合成处理以及音频合成处理。