CN115022665A

CN115022665A - 直播制作方法、装置、多媒体处理设备及多媒体处理系统

Info

Publication number: CN115022665A
Application number: CN202210740422.7A
Authority: CN
Inventors: 杜艳青; 戴佳佳; 彭雷; 段庆伟; 许丹
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-06

Abstract

本发明公开了一种直播制作方法、装置、多媒体处理设备及多媒体处理系统，涉及直播流同步技术领域，以解决现有技术难以实现高清直播互动视频制作的问题。该直播制作方法包括：接收第二多媒体处理设备发送的混合流；混合流是第二多媒体处理设备对第一视频流和第一音频流进行混合得到；第一视频流是第三多媒体处理设备向第二多媒体处理设备发送的；接收第三多媒体处理设备发送的第二视频流；根据第二视频流和混合流得到直播流；第一视频流和第二视频流是第三多媒体终端根据待制作的视频流得到；第一视频流的码率低于第二视频流的码率。本发明实施例能够实现高清直播互动视频的制作。

Description

直播制作方法、装置、多媒体处理设备及多媒体处理系统

技术领域

本发明涉及直播流同步技术领域，尤其涉及一种直播制作方法、装置、多媒体处理设备及多媒体处理系统。

背景技术

多主播的互动直播节目的常见形式为：包括不同的角色，如主播A、主播B和直播节目C，主播A和主播B同时观看直播节目C，并且基于直播节目C的画面进行互动点评沟通。

多主播的互动直播节目的制作过程如下：将直播节目C和主播A以及主播B的声音进行混流制作，最终形成一个新的直播节目D推送给观众观看。当两个主播分布在不同地点时，例如主播A在北京、主播B在西藏，由于信号传输延时，两个主播看到直播节目C的画面可能不同步，会导致两个主播的解说互动错乱。为避免这种问题，业界通用的解决方案是基于连麦技术实现多主播互动，即创建一个连麦互动房间，将节目直播流也作为一路主播流，将节目直播流从内网转推到公网，在公网上将其他主播采集的直播流和当前的节目流在连麦互动房间内进行混流，由于主播和节目将在公网的超低延迟互动网络环境下进行，解决了地域限制和解说的不一致的问题。

但是，公网注重超低延迟，不适用大码率高带宽的直播互动场景。随着超高清直播的出现，将超高清直播互动视频推到公网进行混流是当前互动网络很难承载的。

发明内容

本发明实施例提供一种直直播制作方法、装置、多媒体处理设备及多媒体处理系统，以解决现有技术中，难以实现高清直播互动视频的制作的问题。

第一方面，本发明实施例提供了一种直播制作方法，应用于第一多媒体处理设备，所述方法包括：

接收第二多媒体处理设备发送的混合流；所述混合流是所述第二多媒体处理设备对第一视频流和第一音频流进行混合得到的；所述第一视频流是第三多媒体处理设备向所述第二多媒体处理设备发送的；

接收所述第三多媒体处理设备发送的第二视频流；

根据所述第二视频流和所述混合流，得到直播流；

其中，所述第一视频流和所述第二视频流是所述第三多媒体终端根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率。

可选的，所述方法还包括：

向所述第三多媒体处理设备发送所述直播流。

可选的，所述第一视频流的附加增强信息SEI字段包括协调世界时UTC时间；

所述混合流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间；

所述根据所述第二视频流和所述混合流，得到直播流，包括：

在所述混合流中分离得到第二音频流；所述第二音频流的SEI字段包括UTC时间；

根据所述第二音频流对应的UTC时间和所述第二视频流对应的UTC时间，将所述第二音频流和所述第二视频流进行混合，得到所述直播流。

可选的，所述根据所述第二音频流对应的UTC时间和所述第二视频流对应的UTC时间，将所述第二音频流和所述第二视频流进行混合，得到所述直播流，包括：

将所述第二音频流中目标UTC时间对应的音频与所述第二视频流中所述目标UTC时间对应的画面进行混合，得到所述直播视频流在目标UTC时间对应的内容；

其中，所述目标UTC时间为所述UTC时间的其中之一。

第二方面，本发明实施例还提供一种直播制作方法，应用于第二多媒体处理设备，所述方法包括：

接收第三多媒体处理设备发送的第一视频流；

接收第一音频流；

将所述第一视频流和所述第一音频流进行混合，得到混合流；

向第一多媒体处理设备发送所述混合流，以使得所述第一多媒体处理设备根据所述混合流和第二视频流得到直播流；所述第二视频流是所述第三多媒体处理设备向所述第一多媒体处理设备发送的；

其中，所述第一视频流和所述第二视频流是所述第三多媒体处理设备根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率。

第三方面，本发明实施例还提供一种直播制作方法，应用于第三多媒体处理设备，所述方法包括：

根据待制作的视频流得到第一视频流和第二视频流；所述第一视频流的码率低于所述第二视频流的码率；

向第二多媒体处理设备发送所述第一视频流，以使得所述第二多媒体处理设备根据所述第一视频流和第一音频流得到混合流，并向第一多媒体处理设备发送所述混合流；

向所述第一多媒体处理设备发送所述第二视频流，以使得所述第一多媒体处理设备根据所述混合流和所述第二视频流得到直播流。

可选的，所述方法还包括：

接收所述第一多媒体处理设备发送的所述直播流。

可选的，所述根据待制作的视频流得到第一视频流和第二视频流，包括：

在所述待制作的视频流的附加增强信息SEI字段写入协调世界时UTC时间，得到目标视频流；

将所述目标视频流转码为所述第一视频流和所述第二视频流；

其中，所述第一视频流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间。

第四方面，本发明实施例还提供一种直播制作装置，应用于第一多媒体处理设备，所述装置包括：

第一接收模块，用于接收第二多媒体处理设备发送的混合流；所述混合流是所述第二多媒体处理设备对第一视频流和第一音频流进行混合得到的；所述第一视频流是第三多媒体处理设备向所述第二多媒体处理设备发送的；

第二接收模块，用于接收所述第三多媒体处理设备发送的第二视频流；

第一处理模块，用于根据所述第二视频流和所述混合流，得到直播流；

第五方面，本发明实施例还提供一种直播制作装置，应用于第二多媒体处理设备，所述装置包括：

第三接收模块，用于接收第三多媒体处理设备发送的第一视频流；

第四接收模块，用于接收第一音频流；

第二处理模块，用于将所述第一视频流和所述第一音频流进行混合，得到混合流；

第一发送模块，用于向第一多媒体处理设备发送所述混合流，以使得所述第一多媒体处理设备根据所述混合流和第二视频流得到直播流；所述第二视频流是所述第三多媒体处理设备向所述第一多媒体处理设备发送的；

第六方面，本发明实施例还提供一种直播制作装置，应用于第三多媒体处理设备，所述装置包括：

第三处理模块，用于根据待制作的视频流得到第一视频流和第二视频流；所述第一视频流的码率低于所述第二视频流的码率；

第二发送模块，用于向第二多媒体处理设备发送所述第一视频流，以使得所述第二多媒体处理设备根据所述第一视频流和第一音频流得到混合流，并向第一多媒体处理设备发送所述混合流；

第三发送模块，用于向所述第一多媒体处理设备发送所述第二视频流，以使得所述第一多媒体处理设备根据所述混合流和所述第二视频流得到直播流。

第七方面，本发明实施例还提供一种多媒体处理系统，包括第一多媒体处理设备、第二多媒体处理设备和第三多媒体处理设备；

所述第一多媒体处理设备用于执行如第一方面中任一项所述的直播制作方法中的步骤；

所述第二多媒体处理设备用于执行如第二方面中任一项所述的直播制作方法中的步骤；

所述第三多媒体处理设备用于执行如第三方面中任一项所述的直播制作方法中的步骤。

第八方面，本发明实施例还提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序被处理器执行时实现如第一方面中任一项所述的直播制作方法中的步骤，或者实现如第二方面中任一项所述的直播制作方法中的步骤，或者实现如第三方面中任一项所述的直播制作方法中的步骤。

本发明实施例中，通过第三多媒体处理设备根据待制作的视频流得到一个低码率的第一视频流和一个高码率的第二视频流，将低码率的第一视频流发送至第二多媒体处理设备，第二多媒体处理设备将低码率的第一视频流和第一音频流进行混流，得到混合流，第二多媒体处理设备将混合流发送至第一多媒体处理设备，第一多媒体处理设备根据混合流和高码率的第二视频流，得到直播流，可以实现高码率的互动直播视频的制作。因此，利用本发明实施例的方案，可实现高清直播互动视频的制作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有的直播制作系统的框架图；

图2是本发明实施例提供的直播制作方法的流程图之一；

图3是本发明实施例提供的直播制作系统的框架图；

图4是本发明实施例提供的直播制作方法的流程图之二；

图5是本发明实施例提供的直播制作方法的流程图之三；

图6是本发明实施例提供的直播制作装置的结构框图之一；

图7是本发明实施例提供的直播制作装置的结构框图之二；

图8是本发明实施例提供的直播制作装置的结构框图之三；

图9是本发明实施例提供的多媒体处理系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在进行本发明的实施例的说明之前，首先结合图1将现有的直播制作的流程进行说明如下：

如图1所示，直播制作系统主要分为如下几个部分：将采集主播音频以及推流到实时互动网络的制播客户端，该制播客户端包括私有协议播放器和音视频采集器；用于与制播客户端信令交互的制播服务端，制播服务端具体用于房间管理和权限管理；内网到公网的转流能力；公网到内网的转流能力；实时互动网络；直播制作端。具体的工作流程如下：

直播制作端通过内网到公网的转推能力将视频流(该视频流可以为赛事流)推到实时互动网络；制播客户端拉取赛事流数据，多位主播通过制播客户端几乎同时通过赛事流看到比赛画面，同时通过制播客户端的音视频采集器将自己的解说音频推送到实时互动网络，即通过制播客户端向实时互动网络发送互动/进度信息；实时互动网络将赛事流与多位主播的音频进行混合；混合后的流经公网转内网的能力变成制播制作端的输入流，至此，一个普通的赛事流经过主播互动解说后变成一个新的直播流，完成互动解说的直播制作过程，该直播流经过内容分发网络(Content Delivery Network，CDN)推送到移动端的应用程序(Application，APP)上。

上述的赛事流要经过内网转外网的转推环节，也就是要把赛事流推送到实时互动网络中，这样赛事流和主播的音频流都在实时互动网络中，就可以实现精准的同步，但是这种方案只适用于低码率低带宽的互动直播，实时互动网络建设注重超低延迟，不适于大码率高带宽的直播互动场景。

参见图2，图2是本发明实施例提供的直播制作方法的流程图，该直播制作方法应用于第一多媒体处理设备，如图2所示，包括以下步骤：

步骤201，接收第二多媒体处理设备发送的混合流；所述混合流是所述第二多媒体处理设备对第一视频流和第一音频流进行混合得到的；所述第一视频流是第三多媒体处理设备向所述第二多媒体处理设备发送的。

其中，第一视频流和第二视频流是所述第三多媒体终端根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率。

需要说明的是，如图2所示的直播制作方法适用于第一多媒体处理设备，该第一多媒体处理设备位于如图3所示的直播制作系统中，该直播制作系统的架构除包括第一多媒体处理设备外，还包括第二多媒体处理设备、第三多媒体处理设备和第四多媒体处理设备。优选的，所述第一多媒体处理设备为混流能力，所述第二多媒体处理设备为实时互动网络，所述第三多媒体处理设备为直播制作端，所述第四多媒体处理设备为制播客户端，制播客户端用于采集主播音频以及推流到实时互动网络，即第四多媒体处理设备向第二多媒体设备发送第一音频流，该制播客户端包括私有协议播放器和音视频采集器。进一步地，该直播制作系统还包括用于与制播客户端信令交互的制播服务端，制播服务端具体用于房间管理和权限管理；内网转公网的转流能力；公网转内网的转流能力。

在本步骤中，直播制作端将待制作的视频流转码为第一视频流和第二视频流，其中，所述第一视频流的码率低于所述第二视频流的码率，也就是，第一视频流为低码率的视频流，第二视频流为高码率的视频流，可选的，所述待制作的视频流为赛事流，直播制作端通过内网到公网的转推能力将第一视频流，即低码率的赛事流推送到实时互动网络，实时互动网络接收第一视频流，并将第一视频流发送至制播客户端，实时互动主播通过制播客户端几乎同时看到比赛画面，同时通过制播客户端将主播的音频，即第一音频流(包括音频互动/进度信息)，推送到实时互动网络，实时互动网络将第一视频流与第一音频流进行混合，得到混合流(一次混合后的赛事流)。实时互动网络将该混合流发送至混流能力。

步骤202，接收所述第三多媒体处理设备发送的第二视频流。

在本步骤中，直播制作端在内网中将第二视频流，即高码率的赛事流推送到混流能力。

步骤203，根据所述第二视频流和所述混合流，得到直播流。

在本步骤中，混流能力接收到混合流和第二视频流后，根据混合流和第二视频流进行二次混流后得到直播流，也将是二次混流后的赛事流。该二次混流后的赛事流拥有高码率的视频和主播的音频，进而可以实现高码率互动直播的制作，提高了制作的直播节目的画面质量。

进一步的，所述方法还包括：

向所述第三多媒体处理设备发送所述直播流。

在步骤203之后，即混流能力得到直播流后，通过公网转内网的转推能力，将直播流推送到直播制作端，以使得直播制作端经过内容分发网络CDN推送到移动APP上，以供用户进行观看直播，使得用户可以观看高画面质量的直播节目，提升用户体验。

所述混合流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间；

需要说明的是，直播制作端在将待制作的视频流转码为第一视频流和第二视频流之前，在待制作的视频流的附加增强信息(supplemental enhancement information，SEI)字段写入协调世界时(Universal Time Coordinated，UTC)时间，该SEI字段在后续所有的制作环节中均不能被去除，制作环节包括转码环节、一次混流的环节和二次混流的环节。因此，第一视频流的附加增强信息SEI字段包括协调世界时UTC时间；所述第二视频流的SEI字段包括UTC时间，实时互动网络将第一视频流与第一音频流进行混合得到的混合流的SEI字段包括UTC时间。

直播制作端根据待制作的视频流得到的第一视频流中的第一画面的对应的UTC时间与直播制作端根据待制作的视频流得到的第二视频流中的第二画面对应的UTC时间相同；所述第一画面与所述第二画面的画面内容相同。

具体地，直播制作端将待制作的视频流转码为第一视频流和第二视频流的过程为：将写入UTC时间的待制作的视频流转码为一个高码率的视频流和一个低码率的视频流，上述两个码率的视频流都继承了SEI字段，即实现了在两个不同码率的视频流中同样的画面内容对应相同的UTC时间。

进一步地，实时互动网络根据第一视频流和第一音频流得到的混合流的SEI字段也包括UTC时间。

混流能力根据第二视频流和混合流得到直播流的过程为：混流能力将混合流进行音视频分离，分离出第二音频流，根据第二音频流对应的UTC时间和第二视频流对应的UTC时间，对第二音频流和第二视频流进行二次混流，得到直播流。

作为一优选实施例，所述根据所述第二音频流对应的UTC时间和所述第二视频流对应的UTC时间，将所述第二音频流和所述第二视频流进行混合，得到所述直播流，包括：

其中，所述目标UTC时间为所述UTC时间的其中之一。

也就是，混流能力确定第二视频流中的一个画面对应的目标UTC时间，并找到该目标UTC时间对应的第二音频流中的音频，将画面与音频进行混合，即实现了高码率的视频流与音频流的混流封装。

本发明实施例，通过实时互动网络将低码率的视频流和制播客户端推送的音频流进行一次混流，通过混流能力结合SEI字段中的UTC时间将高码率的视频流和音频流进行同步二次混流，从而实现高码率高带宽的视频流的互动直播节目的制作。

参见图4，图4是本发明实施例提供的直播制作方法的流程图，该直播制作方法应用于第二多媒体处理设备，如图4所示，包括以下步骤：

步骤401，接收第三多媒体处理设备发送的第一视频流。

其中，第一视频流和第二视频流是所述第三多媒体处理设备根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率

优选的，所述第二多媒体处理设备为实时互动网络，所述第三多媒体处理设备为直播制作端。

在本步骤中，直播制作端将待制作的视频流转码为第一视频流和第二视频流，其中，所述第一视频流的码率低于所述第二视频流的码率，也就是，第一视频流为低码率的视频流，第二视频流为高码率的视频流，可选的，所述待制作的视频流为赛事流，直播制作端通过内网到公网的转推能力将第一视频流，即低码率的赛事流推送到实时互动网络，实时互动网络接收第一视频流。

步骤402，接收第一音频流。

在本步骤中，第四多媒体处理设备向第二多媒体处理设备发送所述第一音频流。

优选的，所述第四多媒体处理设备为制播客户端。

在本步骤中，实时互动网络将第一视频流发送至制播客户端，实时互动主播通过制播客户端几乎同时看到比赛画面，同时通过制播客户端将主播的音频，即第一音频流(包括音频互动/进度信息)，推送到实时互动网络。

步骤403，将所述第一视频流和所述第一音频流进行混合，得到混合流。

在本步骤中，实时互动网络将第一视频流与第一音频流进行混合，得到混合流，也就是一次混合后的赛事流。

步骤404，向第一多媒体处理设备发送所述混合流，以使得所述第一多媒体处理设备根据所述混合流和第二视频流得到直播流；所述第二视频流是所述第三多媒体处理设备向所述第一多媒体处理设备发送的。

优选的，所述第一多媒体处理设备为混流能力。

在实时互动网络得到混合流之后，在本步骤中，实时互动网络将该混合流发送至混流能力，使得混流能力接收到混合流和第二视频流后，根据混合流和第二视频流进行二次混流后得到直播流，也将是二次混流后的赛事流。该二次混流后的赛事流拥有高码率的视频和主播的音频，进而可以实现高码率互动直播的制作，提高了制作的直播节目的画面质量。

参见图5，图5是本发明实施例提供的一种直播制作方法的流程图，如图5所示，方法应用于第三多媒体处理设备，包括以下步骤：

步骤501，根据待制作的视频流得到第一视频流和第二视频流；所述第一视频流的码率低于所述第二视频流的码率。

优选的，所述第三多媒体处理设备为直播制作端。

在本步骤中，直播制作端将待制作的视频流转码为第一视频流和第二视频流，其中，所述第一视频流的码率低于所述第二视频流的码率，也就是，第一视频流为低码率的视频流，第二视频流为高码率的视频流，可选的，所述待制作的视频流为赛事流。

步骤502，向第二多媒体处理设备发送所述第一视频流，以使得所述第二多媒体处理设备根据所述第一视频流和第一音频流得到混合流，并向第一多媒体处理设备发送所述混合流。

优选的，所述第二多媒体处理设备为实时互动网络。

在本步骤中，直播制作端通过内网到公网的转推能力将第一视频流，即低码率的赛事流推送到实时互动网络，实时互动网络接收第一视频流，并将第一视频流发送至制播客户端，实时互动主播通过制播客户端几乎同时看到比赛画面，同时通过制播客户端将主播的音频，即第一音频流(包括音频互动/进度信息)，推送到实时互动网络，实时互动网络将第一视频流与第一音频流进行混合，得到混合流。

步骤503，向所述第一多媒体处理设备发送所述第二视频流，以使得所述第一多媒体处理设备根据所述混合流和所述第二视频流得到直播流。

优选的，所述第一多媒体处理设备为混流能力。

在本步骤中，直播制作端在内网中将第二视频流，即高码率的赛事流推送到混流能力，混流能力接收到混合流和第二视频流后，根据混合流和第二视频流进行二次混流后得到直播流，也将是二次混流后的赛事流。该二次混流后的赛事流拥有高码率的视频和主播的音频，进而可以实现高码率互动直播的制作，提高了制作的直播节目的画面质量。

进一步的，所述方法还包括：

接收所述第一多媒体处理设备发送的所述直播流。

在混流能力得到直播流后，通过公网转内网的转推能力，将直播流推送到直播制作端，以使得直播制作端经过内容分发网络CDN推送到移动APP上，以供用户进行观看直播，使得用户可以观看高画面质量的直播节目，提升用户体验。

其中，所述第一视频流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间。

需要说明的是，直播制作端在将待制作的视频流转码为第一视频流和第二视频流之前，在待制作的视频流的附加增强信息(supplemental enhancement information，SEI)字段写入协调世界时(Universal Time Coordinated，UTC)时间，该SEI字段在后续所有的制作环节中均不能被去除。因此，第一视频流的SEI字段包括UTC时间；所述第二视频流的SEI字段包括UTC时间。

如图6所示，本发明实施例还提供了一种直播制作装置。装置应用于第一多媒体处理设备，所述装置600包括：

第一接收模块601，用于接收第二多媒体处理设备发送的混合流；所述混合流是所述第二多媒体处理设备对第一视频流和第一音频流进行混合得到的；所述第一视频流是第三多媒体处理设备向所述第二多媒体处理设备发送的；

第二接收模块602，用于接收所述第三多媒体处理设备发送的第二视频流；

第一处理模块603，用于根据所述第二视频流和所述混合流，得到直播流；

可选的，所述装置还包括：

直播流发送模块，用于向所述第三多媒体处理设备发送所述直播流。

所述混合流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间；

所述第一处理模块603，包括：

分离单元，用于在所述混合流中分离得到第二音频流；所述第二音频流的SEI字段包括UTC时间；

混合单元，用于根据所述第二音频流对应的UTC时间和所述第二视频流对应的UTC时间，将所述第二音频流和所述第二视频流进行混合，得到所述直播流。

可选的，所述第一混合单元，具体用于：

其中，所述目标UTC时间为所述UTC时间的其中之一。

本发明实施例提供的装置，可以执行上述应用于第一多媒体设备的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

如图7所示，本发明实施例还提供了一种直播制作装置。装置应用于第二多媒体处理设备，所述装置700包括：

第三接收模块701，用于接收第三多媒体处理设备发送的第一视频流；

第四接收模块702，用于接收第一音频流；

第二处理模块703，用于将所述第一视频流和所述第一音频流进行混合，得到混合流；

第一发送模块704，用于向第一多媒体处理设备发送所述混合流，以使得所述第一多媒体处理设备根据所述混合流和第二视频流得到直播流；所述第二视频流是所述第三多媒体处理设备向所述第一多媒体处理设备发送的；

本发明实施例提供的装置，可以执行上述应用于第二多媒体设备的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

如图8所示，本发明实施例还提供一种直播制作装置。装置应用于第三多媒体处理设备，所述装置800包括：

第三处理模块801，用于根据待制作的视频流得到第一视频流和第二视频流；所述第一视频流的码率低于所述第二视频流的码率；

第二发送模块802，用于向第二多媒体处理设备发送所述第一视频流，以使得所述第二多媒体处理设备根据所述第一视频流和第一音频流得到混合流，并向第一多媒体处理设备发送所述混合流；

第三发送模块803，用于向所述第一多媒体处理设备发送所述第二视频流，以使得所述第一多媒体处理设备根据所述混合流和所述第二视频流得到直播流。

可选的，所述装置还包括：

直播流接收模块，用于接收所述第一多媒体处理设备发送的所述直播流。

可选的，所述第三处理模块801，包括：

写入单元，用于在所述待制作的视频流的附加增强信息SEI字段写入协调世界时UTC时间，得到目标视频流；

转码单元，用于将所述目标视频流转码为所述第一视频流和所述第二视频流；

其中，所述第一视频流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间。

本发明实施例提供的装置，可以执行上述应用于第三多媒体设备的方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

如图9所示，本发明实施例还提供一种多媒体处理系统。该多媒体处理系统900，包括第一多媒体处理设备901、第二多媒体处理设备902和第三多媒体处理设备903；

所述第一多媒体处理设备用于执行如图2中所示的直播制作方法中的步骤；

具体的，所述第一多媒体处理设备，用于：接收第二多媒体处理设备发送的混合流；所述混合流是所述第二多媒体处理设备对第一视频流和第一音频流进行混合得到的；所述第一视频流是第三多媒体处理设备向所述第二多媒体处理设备发送的；接收所述第三多媒体处理设备发送的第二视频流；根据所述第二视频流和所述混合流，得到直播流；

可选的，所述第一多媒体处理设备，还用于：向所述第三多媒体处理设备发送所述直播流。

所述混合流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间；

所述第一多媒体处理设备，具体用于：

可选的，所述第一多媒体处理设备，具体用于：

其中，所述目标UTC时间为所述UTC时间的其中之一。

所述第二多媒体处理设备用于执行如图4中所示的直播制作方法中的步骤；

具体的，所述第二多媒体处理设备，用于：接收第三多媒体处理设备发送的第一视频流；接收第一音频流；将所述第一视频流和所述第一音频流进行混合，得到混合流；向第一多媒体处理设备发送所述混合流，以使得所述第一多媒体处理设备根据所述混合流和第二视频流得到直播流；所述第二视频流是所述第三多媒体处理设备向所述第一多媒体处理设备发送的；

所述第三多媒体处理设备用于执行如图5所示的直播制作方法中的步骤；

具体地，所述第三多媒体处理设备，用于：根据待制作的视频流得到第一视频流和第二视频流；所述第一视频流的码率低于所述第二视频流的码率；向第二多媒体处理设备发送所述第一视频流，以使得所述第二多媒体处理设备根据所述第一视频流和第一音频流得到混合流，并向第一多媒体处理设备发送所述混合流；所述第一音频流是第四多媒体处理设备向所述第二多媒体处理设备发送的；向所述第一多媒体处理设备发送所述第二视频流，以使得所述第一多媒体处理设备根据所述混合流和所述第二视频流得到直播流。

可选的，所述第三多媒体处理设备，还用于：

接收所述第一多媒体处理设备发送的所述直播流。

可选的，所述第三多媒体处理设备，具体用于：

其中，所述第一视频流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间。

另外，本发明具体实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述直播制作方法中的步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种直播制作方法，其特征在于，应用于第一多媒体处理设备，所述方法包括：

接收所述第三多媒体处理设备发送的第二视频流；

根据所述第二视频流和所述混合流，得到直播流；

2.根据权利要求1所述的直播制作方法，其特征在于，所述方法还包括：

向所述第三多媒体处理设备发送所述直播流。

3.根据权利要求1所述的直播制作方法，其特征在于，所述第一视频流的附加增强信息SEI字段包括协调世界时UTC时间；

所述混合流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间；

4.根据权利要求3所述的直播制作方法，其特征在于，所述根据所述第二音频流对应的UTC时间和所述第二视频流对应的UTC时间，将所述第二音频流和所述第二视频流进行混合，得到所述直播流，包括：

其中，所述目标UTC时间为所述UTC时间的其中之一。

5.一种直播制作方法，其特征在于，应用于第二多媒体处理设备，所述方法包括：

接收第三多媒体处理设备发送的第一视频流；

接收第一音频流；

6.一种直播制作方法，其特征在于，应用于第三多媒体处理设备，所述方法包括：

7.根据权利要求6所述的直播制作方法，其特征在于，所述方法还包括：

接收所述第一多媒体处理设备发送的所述直播流。

8.根据权利要求6所述的直播制作方法，其特征在于，所述根据待制作的视频流得到第一视频流和第二视频流，包括：

其中，所述第一视频流的SEI字段包括UTC时间；

所述第二视频流的SEI字段包括UTC时间。

9.一种直播制作装置，其特征在于，应用于第一多媒体处理设备，或，应用于第二多媒体处理设备，或，应用于第三多媒体处理设备；

所述直播制作装置应用于所述第一多媒体处理设备时，所述直播制作装置包括：

所述第一视频流和所述第二视频流是所述第三多媒体终端根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率；

所述直播制作装置应用于所述第二多媒体处理设备时，所述直播制作装置包括：

第四接收模块，用于接收第一音频流；

所述第一视频流和所述第二视频流是所述第三多媒体处理设备根据待制作的视频流得到的；所述第一视频流的码率低于所述第二视频流的码率；

所述直播制作装置应用于所述第三多媒体处理设备时，所述直播制作装置包括：

10.一种多媒体处理系统，其特征在于，包括第一多媒体处理设备、第二多媒体处理设备和第三多媒体处理设备；

所述第一多媒体处理设备用于执行如权利要求1至4中任一项所述的直播制作方法中的步骤；

所述第二多媒体处理设备用于执行如权利要求5所述的直播制作方法中的步骤；

所述第三多媒体处理设备用于执行如权利要求6至8中任一项所述的直播制作方法中的步骤。

11.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的直播制作方法中的步骤，或者实现如权利要求5所述的直播制作方法中的步骤，或者实现如权利要求6至8中任一项所述的直播制作方法中的步骤。