CN116962745A

CN116962745A - 视频图像的混画方法、装置及直播系统

Info

Publication number: CN116962745A
Application number: CN202210594789.2A
Authority: CN
Inventors: 张德恒; 许少龙; 廖国光; 杨泉宇; 林忠涛; 石勇慧; 罗飞龙; 闫理; 董炼; 吴荣鑫; 龙土兴; 黄煜
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-04-14
Filing date: 2022-05-27
Publication date: 2023-10-27
Also published as: CN116962744A; CN116962742A; CN116962746A; CN116962748A; CN116962743A; CN116962747A

Abstract

本申请涉及一种视频图像的混画方法、装置及直播系统，所述方法包括：接收多路视频源发送的第一视频图像数据；其中，所述第一视频图像数据包括视频图像帧及其抠图信息；根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像；根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像；该技术方案，避免了混画视频图像产生的边界分裂现象，提升了视频图像的混画效果，在直播服务器上进行更多特效内容的添加，提升混画视频图像的展示效果。

Description

视频图像的混画方法、装置及直播系统

本申请要求于2022年04月14日提交中国专利局、申请号为

202210387980.X、发明名称为“网络直播的连麦互动方法、装置及直播系统”的中国专利申请的优先权，其申请文件内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别是一种视频图像的混画方法、装置及直播系统。

背景技术

目前，在各种视频处理场景中，往往都是需要涉及到混画处理过程，比如，电视、网络直播中，将来源于不同视频源的视频图像拼接混画显示，能够形成一个同场混画效果；以网络直播为例，网络直播中经常需要使用连麦直播，常规的直播连麦方式是将多个连麦主播的视频画面进行混画，然而由于混画的视频源一般是将来源于不同的摄像头的视频图像拼接显示，容易出现边界分裂现象，而且混画视频图像上也无法进行互动特效，影响了视频图像混画效果。

发明内容

基于此，有必要针对上述至少一种技术缺陷，提供一种视频图像的混画方法、装置及直播系统，以提升视频图像的混画效果。

一种视频图像的混画方法，包括：

接收多路视频源发送的第一视频图像数据；其中，所述第一视频图像数据包括视频图像帧及其抠图信息；

根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像；

根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像。

在一个实施例中，所根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染之前，还包括：

获取混画的背景图像；

将所述背景图像裁剪成与所述视频图像帧画布大小一致，并在设定视频区域的底层渲染所述背景图像。

在一个实施例中，所述的视频图像的混画方法，还包括：

获取所述第一混画视频图像中待展示的互动特效；

获取所述互动特效相对于所述第一混画视频图像中各个混画图像之间的第二层级关系；

根据所述第二层级关系控制所述互动特效进行渲染；其中，若所述互动特效的层级优先级高于混画图像，则将所述互动特效在所述混画图像的上层进行渲染，反之将所述互动特效在所述混画图像的下层进行渲染。

在一个实施例中，所述根据所述第二层级关系控制所述互动特效进行渲染，还包括：

根据所述混画图像之间的大小比例计算空间深度距离；

确定所述互动特效的变化方向；

根据所述空间深度距离和变化方向计算所述互动特效的缩放参数，根据所述缩放参数控制所述互动特效的图像大小。

在一个实施例中，所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，包括：

获取各路视频源之间设定的第一层级关系；

根据所述第一层级关系依次将各路视频源的混画图像放置在所述设定视频区域内进行渲染。

获取各路视频源的混画图像中的人像图像大小；

根据所述人像图像大小确定各路视频源之间的第一层级关系；

根据所述第一层级关系依次将各路视频源的人像图像放置在所述设定视频区域内进行渲染。

在一个实施例中，在所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染之后，还包括：

实时检测各个视频源的混画图像的图像参数；

将所述图像参数反馈至所述视频源，以在所述视频源本地对所述视频图像帧进行调整。

在一个实施例中，所述的视频图像的混画方法，还包括：

向各个所述视频源分别发送其他视频源的第二视频图像数据，以使得所述视频源根据各路第二视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像，并根据所述第一层级关系将所述混画图像依次进行叠加渲染输出第二混画视频图像。

在一个实施例中，所述视频源为至少两个主播端，所述第一视频图像数据为所述主播端上传的连麦主播的视频流信息，所述混画图像为连麦主播的人像图像。

在一个实施例中，根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像，包括；

根据各个连麦主播的中的人像抠图信息从所述视频图像帧中抠出连麦主播的人像图像，作为混画图像；其中，所述视频流信息包括连麦主播的原始视频图像及其人像抠图信息；

根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像，包括：

根据各个连麦主播的人像图像之间的层叠关系，将所述人像图像与背景图像进行叠加渲染合成得到第一混画视频图像，并将在所述第一混画视频图像上进行的连麦主播的直播连麦互动生成的连麦视频流推送至观众端。

一种视频图像的混画装置，包括：

接收模块，用于接收多路视频源发送的第一视频图像数据；其中，所述第一视频图像数据包括视频图像帧及其抠图信息；

抠图模块，用于根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像；

混画模块，用于根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像。

本申请还提供另一种视频图像的混画方法，包括：

根据预设的画布大小采集视频源的视频图像帧；

对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据；

将该视频源的第一视频图像数据上传至直播服务器，以使得所述直播服务器依据该第一视频图像数据的抠图信息及其他视频源上传的第二视频图像数据中的抠图信息分别从对应的视频图像帧中抠出混画图像，并根据各路视频源之间的第一层级关系将所述混画图像依次进行渲染，得到第一混画视频图像。

在一个实施例中，所述视频源为参与连麦直播的主播端；所述视频图像帧为连麦主播的视频图像帧，所述抠图信息为与所述视频图像帧拼接的Alpha图像。

在一个实施例中，所述对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据，包括：

采集主播端的视频图像帧；

对所述视频图像帧进行人像抠图得到Alpha图像；

将所述视频图像帧与Alpha图像进行拼接，并对拼接图像进行编码得到所述第一视频图像数据。

在一个实施例中，所述的视频图像的混画方法，还包括：

对所述视频图像帧中的人像图像进行AI识别得到主播的AI关键点；

根据所述AI关键点获取所述主播的人像图像的特效信息；

将所述AI关键点和特效信息添加到所述第一视频图像数据中。

在一个实施例中，所述的视频图像的混画方法，还包括：

接收直播服务器转发的其他主播端上传的第二视频图像数据；

对本地所采集的视频图像帧中抠出第一混画图像；

根据所述第二图像数据的抠图信息从视频图像帧中抠出第二混画图像；

根据所述第一层级关系将所述第一混画图像和第二混画图像依次进行叠加渲染输出第二混画视频图像。

本申请还提供另一种视频图像的混画装置，包括：

采集模块，用于根据预设的画布大小采集视频源的视频图像帧；

编码模块，用于对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据；

发送模块，用于将该视频源的第一视频图像数据上传至直播服务器，以使得所述直播服务器依据该第一视频图像数据的抠图信息及其他视频源上传的第二视频图像数据中的抠图信息分别从对应的视频图像帧中抠出混画图像，并根据各路视频源之间的第一层级关系将所述混画图像依次进行渲染，得到第一混画视频图像。

一种直播系统，包括至少两个客户端以及直播服务器；其中，

所述客户端被配置为执行上述的视频图像的混画方法；

所述直播服务器被配置为执行上述的视频图像的混画方法。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的视频图像的混画方法。

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的视频图像的混画方法。

上述各实施例的技术方案，根据预设的画布大小采集视频源的视频图像帧，然后进行抠图得到抠图信息，将视频图像帧及其抠图信息生成该视频图像数据上传至直播服务器，直播服务器根据各路视频图像数据的抠图信息从视频图像帧中抠出混画图像，再根据各路视频源之间的层级关系将混画图像进行叠加渲染得到混画视频图像；该技术方案，避免了混画视频图像产生的边界分裂现象，提升了视频图像的混画效果。

进一步的，在直播服务器上利用Alpha图像对视频图像帧进行抠图，可以使得原有的特效能够在混画过程中渲染出来，同时也可以在直播服务器上进行更多特效内容的添加，提升混画视频图像的展示效果。

进一步的，提供了YUVA视频传输格式，可以在多端进行传送、裁剪等，而且无需对主播端的原有YUV图像格式的改动，确保了在现有的主播端上兼容使用，降低主播端升级成本。

进一步的，利用编码视频帧里的AI关键点进行换算得到特效信息的渲染位置，从而实现快速的特效内容渲染，提升了特效内容展示效果。

附图说明

图1是一个示例的直播系统的网络拓扑图；

图2是一个实施例的视频图像的混画方法流程图；

图3是一个示例的边界分裂示意图；

图4是图像视频帧与Alpha图像的拼接示意图；

图5是拼接图像的数据格式示意图；

图6是一个示例的YUVA视频格式示意图；

图7是一个示例的客户端上混画示意图；

图8是另一个实施例的视频图像的混画方法流程图；

图9是一个示例的多个连麦主播的混画示意图；

图10是一个实施例的视频图像的混画装置的结构示意图；

图11是另一个实施例的视频图像的混画装置的结构示意图；

图12是一个示例的混画视频图像示意图；

图13是一个示例的直播系统结构示意图；

图14是一示例的计算机设备的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例中，提及的“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个对象指两个或两个以上的对象。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的信息涵盖出现在“包括”或者“包含”后面列举的信息及其等同，并不排除其他信息。在本申请实施例中提及的“和/或”，表示可以存在三种关系，字符“/”一般表示前后关联对象是一种“或”的关系。

参考图1所示，图1是一个示例的直播系统的网络拓扑图；如图中，多个视频源(图中所示为视频源1、视频源2，……视频源N，N≥2)与直播服务器连接，在本实施例中，视频源一般可以是指客户端，以直播连麦为例，视频源可以是指参与连麦的主播端(也称主播客户端)，在混画过程中，视频源将生成的视频图像数据上传至直播服务器进行混画处理，输出第一混画视频图像。

对于视频源，可以是指任何产生视频图像的客户端，比如，应用到视频直播场景中，参与直播的主播端作为视频源产生视频图像数据；在下面实施例中，主要是以视频直播场景为例进行阐述，在视频直播场景中，一般是将来源于不同视频源的视频图像帧中的人像图像抠出作为混画图像，然后将多个人像图像混画到一个场景下，从而得到可以实现无边界分割且可以多人互动的混画视频图像场景。

基于上述直播系统的网络拓扑图，本申请提供了一种视频图像的混画方法，如图2所示，图2是一个实施例的视频图像的混画方法流程图，包括如下步骤：

S101，根据预设的画布大小采集视频源的视频图像帧。

此步骤中，视频源可以输出通过摄像头实时采集的视频图像帧，视频图像帧设置为预设的画布大小和比例，便于混画叠加。

以连麦直播为例，各个主播端建立连麦直播，为了保证在混画中各个参与混画的混画图像的视频区域大小吻合；由于将不同视频源的视频图像拼接显示容易出现边界分裂现象，如图3所示，图3是一个示例的边界分裂示意图，如图中可见，拼接混画的左图人像图像的手部(圆圈内)有分裂现象；因此，在利用摄像头拍摄视频图像时，首先预设画布大小，从而使得各个参与混画的混画图像能够在同一个视频区域内叠加，由于是采用叠加方式而非拼接方式来混画合成，因此参与混画的各个混画图像的边界都是在视频区域上，因此，各个混画图像可以出现在视频区域范围内任何位置，各个混画图像没有拼接的边界，由此避免了在混画后出现边界分割现象。

在直播连麦时，将当前主播端切换到横屏模式，并设置开播分辨率一致的比例。例如，在开播时将画布大小设置为固定的横屏比例，从而保证后续在直播服务器上进行混画时与视频区域大小吻合。

另外，在连麦直播中，为了达到同一场景下的效果，在进行混合时还可以选择共同的背景图像，对于背景图像，可以采用二维的平面背景，也可以采用三维空间背景，背景图像可以是静态图片，也可以是动态视频，如KTV舞台背景，可以由主播端上传，也可以由直播服务器根据视频源提供的背景图像URL来自动下载。

为了保证后续在直播服务器上进行叠加合成时背景图像、混画图像画布大小一致，背景图像也应该按相同画布大小和比例进行裁剪。

S102，对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据。

此步骤中，可以通过摄像头实时捕获连麦主播的视频图像帧，然后对视频图像帧进行抠图，通过抠图得到抠图信息和视频图像帧一起进行编码，生成该视频源的第一视频图像数据，上传至直播服务器上进行混画使用，本实施例中，第一视频图像数据可以是指由客户端上传的视频流信息。

当需要实现异地混画合成视频图像时，常规的技术一般是利用摄像设备拍摄绿幕图像，然后将绿幕图像传送至云端服务器，云端服务器绿幕图像进行抠图(颜色去背景处理)，得到人像抠图与本地的背景图像或者来自于其他通道拍摄的背景图像进行合成；这种方式中，在云端服务器(合成端)把绿幕去除后叠加背景图像，主要运算量都在合成端，对合成端要求较高，需要先接收到一条远端数据先进行处理，再合成，当背景图像需要切换时，拍摄端和合成端都需要相互等待，缺少实时性，且远端和本地无法进行互动。

在图像合成过程中，常规技术是通过渲染带有透明度信息的虚拟场景图像与真实场景图像进行融合，在真实场景中显示虚拟元素获得合成图像，该技术把不同透明通道的RGBA数据按层次进行合并，最后把真实摄像头的拍到的绿幕图像中的非绿幕部分合并过去，再渲染出来，各个素材需要以RGBA的格式提供绿幕时后处理方式，合成端运算量大，不具备互动性。

在混画过程中，如前面所述情况下，如果直接将视频图像帧抠图后得到抠图图像上传至直播服务器，容易导致视频源上固有的一些特效信息(如礼物特效、动画特效等)无法传递至直播服务器上进行混画使用，而且当需要在直播服务器上对来源于不同视频源的混画图像进行层级显示时，则无法在不同视频源的混画图像中进行层级优先级显示。为此，本申请提供了如下生成第一视频图像数据方案的实施例，包括如下：

(1)采集主播端的视频图像帧，对视频图像帧进行人像图像抠图得到Alpha图像。

在连麦直播方案中，首先可以利用智能手机摄像头或者其他摄像设备来采集连麦主播的视频图像帧，为了便于抠图，优选采用绿幕拍摄。然后对视频图像帧进行背景颜色分割得到人像图像对应的Alpha图像，Alpha图像是指带Alpha分量的图像。

在本实施例中，为了便于存储人像抠图信息，优选的，采用Alpha通道的视频数据来存储；在采用绿幕拍摄原始图像时，通过对绿幕颜色部分的分割得到Alpha图像。

(2)将视频图像帧与Alpha图像进行拼接，并对拼接图像进行编码得到第一视频图像数据。

具体的，在分割得到Alpha图像之后，可以将视频图像帧与Alpha图像进行横向拼接；在上传之前，对拼接图像进行编码得到第一视频图像数据；参考图4所示，图4是图像视频帧与Alpha图像的拼接示意图，视频图像帧与Alpha图像进行左右拼接，从而形成一个新的视频图像帧，Alpha图像保存的是抠图的人像图像。

在对于拼接图像的编码格式，可以参考图5所示，图5是拼接图像的数据格式示意图；通过视频图像帧与Alpha图像左右拼接得到的拼接图像，对其进行编码成第一视频图像数据进行传输。

结合图5所示的数据格式例子来阐述图像拼接过程，首先定义图像大小由宽(w)高(h)决定，YUV图像分为Y平面、U平面和V平面等3个平面。

在拼接之前，将Alpha图像的w、h缩放到与视频图像帧相同，比如都是400，600，在缩放的同时需要对人脸坐标点进行相应的算法处理。

在拼接过程中，包括如下步骤：

a、创建一个宽高为2*w和h的YUV区域；

b、Y分量根据以下方式进行拷贝；

第1行，左边w宽度放原图的第1行，右边w宽度放Alpha图像的第1行；

第2行，左边w宽度放原图的第2行，右边w宽度放Alpha图像的第2行；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度放Alpha图像的第h行。

c、U、V分量的填充；

第1行，左边w宽度放原图的第1行，右边w宽度用128填充；

第2行，左边w宽度放原图的第2行，右边w宽度用128填充；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度用128填充；

d、输出拼接的主播视频传输图像数据。

上述示例的图像拼接过程，采用常规的YUV编码方式实现了一种新的YUVA多通道编码方案，通过该拼接过程可以看出，对于拼接图像的编码过程实质上转变为将两个图像的YUV编码数据进行叠加，从而可以简化了拼接图像的编码过程，降低编码复杂度。

在一个实施例中，对于直播的视频图像帧，一般会在客户端对主播添加美颜特效，如胖脸、红脸、戴墨镜等，因此，在对拼接图像进行编码时，还可以对视频图像帧中的人像图像进行AI识别得到主播的AI关键点；然后根据AI关键点获取主播的人像图像的特效信息，将AI关键点和特效信息添加到第一视频图像数据中。

具体的，通过进一步对视频图像帧进行AI识别得到AI关键点，例如人脸关键点信息、手部关键点信息、头部关键点信息等；根据主播端在直播过程添加的美颜特效等特效信息，将AI关键点和特效信息添加到第一视频图像数据中，一并传输到直播服务器，对于特效信息可以是指主播端的虚拟特效相关信息，一般情况下可以为虚拟特效ID及显示位置等；通过上传到直播服务器，从而可以在混画过程中进行特效内容渲染使用，无需再次进行AI关键点识别，由此可以降低直播服务器的运算量，增强互动性能。

基于上述实施例的技术方案，在传输第一视频图像数据时，可以将视频图像帧及其Alpha图像、特效信息、AI关键点一起编码发送；据此，视频图像帧可以采用YUV的视频帧格式，然后加上Alpha图像，拼接图像为YUVA视频帧格式，参考图6所示，图6是一个示例的YUVA视频格式示意图，其中视频图像帧和Alpha图像拼接得到主播视频传输图像按YUVA视频帧格式进行编码，由此无需对主播端的编码格式进行改变，通过将AI关键点、特效信息、背景图像URL添加到SEI信息中。

相对于常规的抠图后只上传抠图图像到直播服务器进行混合方式不同，本实施例的YUVA视频帧格式是将视频图像帧以及Alpha图像一起进行编码传输到直播服务器，在直播服务器上Alpha图像可以用于对视频图像帧进行抠图，可以使得原有的特效能够在混画过程中渲染出来，同时也可以在直播服务器上进行更多特效内容的添加，提升混画效果。

进一步将AI关键点也进行传输，便于在直播服务器上进行AI识别功能时，可以直接利用该AI关键点进行使用，从而避免重复AI识别处理过程，可以减少对设备算力使用；而将特效信息也进行传输，便于在直播服务器合成虚拟同台场景时，重新渲染出连麦主播各自的特效信息。

上述技术方案，通过YUVA视频传输格式，其他客户端如Web、旧版本软件可以不用修改也能看到图像，使用H264、HEVC等编码算法即可，不需要其他额外的设备，成本更低，具有更好的兼容性，软硬件均可实现，确保了在现有的主播端上兼容使用，降低使用成本；而且实际操作中，只需要在视频图像帧右侧扩展一个YUV区域用于存储Alpha图像，由于Alpha图像只需要8bit，只需要使用Y分量即可，编码不会带来复杂度的成本增加，使得编码效率更高。

S103，将该视频源的第一视频图像数据上传至直播服务器，以使得所述直播服务器依据该第一视频图像数据的抠图信息及其他视频源上传的第二视频图像数据中的抠图信息分别从对应的视频图像帧中抠出混画图像，并根据各路视频源之间的第一层级关系将所述混画图像依次进行渲染，得到第一混画视频图像。

此步骤中，将视频源的第一视频图像数据上传至直播服务器，然后由直播服务器依据第一视频图像数据中的抠图信息从视频图像帧中抠出混画图像，同时，直播服务器将其他视频源上传的第一视频图像数据中也抠出混画图像，根据各路视频源之间的第一层级关系将混画图像依次进行渲染，得到第一混画视频图像，通过混画合成，直播服务器可以得到一个虚拟同台场景，从而可以使得各个参与直播连麦的主播能够在虚拟同台场景上进行直播互动，再将连麦视频流推送至观众端。

进一步的，在混画过程中，还可以先获取混画的背景图像，然后将背景图像裁剪成与视频图像帧画布大小一致，并在设定视频区域的底层渲染，再将混画图像渲染到背景图像的上层。以连麦直播为例，通过上述混画过程，可以实现多个连麦主播的混画图像的人像图像与背景图像进行合成得到虚拟的同台场景，实现人像图像与背景图像混画所形成合成虚拟场景，其可以表现为融合在一个同台场景中的概念；各个连麦主播就可以在虚拟同台场景进行直播连麦互动，进行虚拟礼物赠送和直播互动等，包括同台KTV、同台跳舞、同台知识竞赛等等，提升混画效果。由于上传的视频图像数据中保留了视频图像帧的原始数据细节，可以用于后期进一步加工，具有更好的拓展性；而且各个主播之间的直播互动的时延相对于普通互动方式几乎没有增加，实时性好。

在一个实施例中，为了在视频源本地也获得混画图像，常规做法一般是在直播服务器上混画得到第一混画视频图像后再回传到视频源，但是这种方式容易受到网络带宽影响导致延时较大；据此，为了便于视频源的客户端及时得到混画视频图像，本申请提供了一种创新的基于客户端上进行混画的技术方案，可以包括如下：

(1)接收直播服务器转发的其他主播端上传的第二视频图像数据；对本地所采集的视频图像帧中抠出第一混画图像。

(2)根据第二图像数据的抠图信息从视频图像帧中抠出第二混画图像。

(3)根据第一层级关系将第一混画图像和第二混画图像依次进行叠加渲染输出第二混画视频图像。

以连麦直播为例，可以在主播端本地，将本地采集的视频图像帧与其他主播的视频图像帧抠出混画图像，然后在本地客户端上进行混画合成。如图7所示，图7是一个示例的客户端上混画示意图，图中以主播端A和主播端B为例，直播服务器分别将主播端A和主播端B上传的视频图像数据转发给对方，主播端A和主播端B在本地分别将自身的人像图像与对方的人像图像和背景图像进行合成得到第二混画视频图像。

上述实施例的方案，在主播客户上的混画合成只面向主播自己，且在本地实时混画合成可以避免网络延时，提升在客户端本地的应用体验；另一方面，也可以确保直播服务器输出的第一混画视频图像的一致性。

基于在直播服务器上的应用，本申请还提供了另一种视频图像的混画方法，参考图8所示，图8是另一个实施例的视频图像的混画方法流程图，包括如下步骤：

S201，接收多路视频源发送的第一视频图像数据；其中，所述第一视频图像数据包括视频图像帧及其抠图信息。

此步骤中，直播服务器通过接收多个视频源上传的连麦主播的第一视频图像数据，如前述实施例，第一视频图像数据包括画布大小一致的视频图像帧及其抠图信息。

作为实施例，视频源可以是主播端，第一视频图像数据为主播端上传的连麦主播的视频流信息，对应的，第一视频图像数据可以包括连麦主播的视频图像帧及其人像抠图信息。

以上述连麦直播为例，第一视频图像数据可以包括连麦主播的视频图像帧及Alpha图像，第一视频图像数据中还可以添加AI关键点、特效信息和背景图像URL等等。视频图像帧和Alpha图像的拼接图像编码成YUVA视频帧格式进行传输。

S202，根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像。

此步骤中，对于各路视频源上传的第一视频图像数据，提取其视频图像帧和抠图信息，然后根据抠图信息从视频图像帧中抠出混画图像，如上述视频源为主播端时，所抠出的混画图像为连麦主播的人像图像。据此，步骤S202的抠出混画图像的方法，可以包括如下；

以上述连麦直播为例，对各个连麦主播上传的第一视频图像数据，利用Alpha图像从视频图像帧中抠出连麦主播的人像图像作为混画图像；在此过程中，直播服务器是从视频图像帧的原始数据中进行抠图，由此，可以保留主播端的各种特效信息，并且还可以在混画后添加所需的互动特效，使得连麦互动过程还可以进行多种玩法的互动，从而提升连麦效果。

S203，根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像。

此步骤中，将抠图得到的各路视频源的混画图像进行混合处理，混画过程是依据各路视频源之间的第一层级关系来依次进行叠加渲染得到。如上述的将连麦主播的人像图像作为混画图像进行混画时，步骤S203的叠加渲染过程，可以包括如下：

根据各个连麦主播的人像图像之间的层叠关系，将人像图像与背景图像进行叠加渲染合成得到第一混画视频图像，并且在第一混画视频图像上进行的连麦主播的直播连麦互动，将互动过程生成的连麦视频流推送至观众端。

上述实施例的技术方案，由主播端向直播服务器上传连麦主播的视频图像数据，在直播服务器抠出连麦主播的人像图像与背景图像进行合成得到虚拟同台场景，并由此基于虚拟同台场景进行直播连麦互动生成连麦视频流推送至观众端；实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播在统一的虚拟场景下进行连麦，并且基于虚拟同台场景下连麦，可以延生出多种互动玩法，提升了连麦互动效果。

进一步的，在混画过程中，可以首先获取混画的背景图像，然后将背景图像裁剪成与视频图像帧画布大小一致，并在设定视频区域的底层渲染背景图像，从而可以得到同一个虚拟同台场景的混画视频图像。

在一个实施例中，对于混画过程，可以包括如下：

方法一：获取各路视频源之间设定的第一层级关系，在此可以由主麦进行设定，或者由后台预先进行设定；根据所述第一层级关系依次将各路视频源的混画图像放置在所述设定视频区域内进行渲染。

方法二：获取各路视频源的混画图像中的人像图像大小；据所述人像图像大小确定各路视频源之间的第一层级关系；根据所述第一层级关系依次将各路视频源的人像图像放置在所述设定视频区域内进行渲染。

具体的，如前面实施例所述，在直播连麦中，事先根据需求设定画布大小和横屏比例，背景图像也是先按照横屏比例进下裁剪，在直播服务器进行混画合成时，保证背景图像、各个人像图像与视频区域大小吻合。

获取各个连麦主播之间的第一层级关系，对应为人像图像之间的层叠关系，可按照约定好的层级关系对各路混画图像先后进行画布叠加，例如按麦序优先级处理，一麦主播画布层级较高、二麦主播画布层级较低；另外，也可以按混画图像的人像图像大小排序处理；或者还可以按照人像图像的轮廓大小决定层次，如轮廓大的画布层级较高、人像轮廓小的画布层级较低。

参考图9所示，图9是一个示例的多个连麦主播的混画示意图，假设对应有主播A、主播B、主播C，则对应三个第一层级关系为按优先级为主播A＞主播B＞主播C；在叠加时如图9所示，主播A在顶层，主播B在中层，主播C在下层，背景图像在底层，图中虚线框是指各个主播的人像图像部分的最小外接矩形。混画时根据第一层级关系在背景图像上依次渲染各个连麦主播的人像图像，并对人像图像的图像参数进行调整后得到混画视频图像。

在渲染人像图像时，每个连麦主播的人像图像均按照层叠关系在视频区域的完整区域(从顶点坐标到右下角坐标)进行渲染，使得其能够与各个连麦主播的人像图像进行更好的融合。在渲染过程中同时对人像图像进行调整，可以根据连麦主播运动位置变化来调整人像图像的图像大小，从而虚拟出在虚拟同台场景中进行空间移动的真实效果。

比如，在调整过程中，可以根据AI人脸信息来获得某个连麦主播的图像大小参数，作为参考调整其他连麦主播的图像大小参数，使得各个连麦主播在同一个场景中的大小更加匹配融合，避免出现大小不一致的情况。

在一个实施例中，在混画图像渲染之后，还可以实时检测各个视频源的混画图像中的人像图像大小；根据所述人像图像大小反馈至所述视频源，以在所述视频源本地对所述视频图像帧的图像大小进行调整。

另外，还可以根据AI人脸信息识别连麦主播人脸方向以确定其视觉角度，根据其视觉角度去调整其他连麦主播的视觉角度，避免出现各个连麦主播的视角不对应现象。

在一个实施例中，基于前述实施例的混画方案中，可以将客户端上的特效信息在直播服务器上进行重新渲染，据此，本申请还提供了进行虚拟特效渲染的方案，在连麦直播中，将各个连麦主播的人像图像与背景图像进行合成后，根据特效信息获取各个连麦主播在直播中所具有的虚拟特效，并利用所述AI关键点对虚拟特效内容在视频区域中的位置进行换算得到虚拟特效内容的渲染位置。

如前述实施例所述，在视频图像数据里的SEI数据中，可以添加虚拟特效ID及显示位置等特效信息，因此，主播端各自的虚拟特效还可以在直播服务器合成的虚拟同场场景中进行重新渲染；常规技术方案中，一般需要对主播进行AI识别，然后再换算到新位置；从而需要重复进行AI识别，增加了运算量，也影响了处理效率，而本实施例的方案，在新位置进行渲染时，避免了重复进行AI识别，降低了运算量。

在一个实施例中，如前述实施例所述，本申请的技术方案还可以包括在混画图像上进行互动特效渲染的方案，具体包括如下步骤：

(1)获取所述第一混画视频图像中待展示的互动特效，获取所述互动特效相对于所述第一混画视频图像中各个混画图像之间的第二层级关系。

(2)根据所述第二层级关系控制所述互动特效进行渲染。

对于渲染的方案，若所述互动特效的层级优先级高于混画图像，则将所述互动特效在所述混画图像的上层进行渲染，反之将所述互动特效在所述混画图像的下层进行渲染。

进一步的，在根据第二层级关系控制互动特效进行渲染时，还可以根据所述混画图像之间的大小比例计算空间深度距离；确定所述互动特效的变化方向；根据所述空间深度距离和变化方向计算所述互动特效的缩放参数，根据所述缩放参数控制所述互动特效的图像大小；对于空间深度距离，是指在混画图像所形成三维空间中，两者沿深度方向上的距离，通过该距离可以虚拟展示混画图像在三维空间中的前后距离。

上述实施例中，利用合成的混画视频图像，连麦主播直接可以进行同台的连麦互动，同时可以虚拟礼物赠送，虚拟同台PK，虚拟现场互动等等。

例如，基于虚拟同台场景可以进行虚拟礼物赠送，第一连麦主播在直播互动中向第二连麦主播赠送的虚拟礼物；可以是主播之间的虚拟礼物赠送，也可以是来自于观众的虚拟礼物赠送；据此，在渲染虚拟礼物时，根据虚拟礼物的特效内容设定在混画视频图像上进行渲染显示，由于各个连麦主播的人像图像之间存在层次优先级，虚拟礼物的特效内容也可以与各个连麦主播之间设置层次关系显示，比如，虚拟礼物的特效内容可以设置在顶层进行呈现，虚拟礼物的特效内容可以在主播A的下层呈现，在在主播B的上层呈现，由此可以实现更强烈的空间感，提升连麦互动效果。

另外，在混画视频图像上也可以虚拟连麦主播之间身体互动，第一连麦主播可以利用身体部位与第二连麦主播的身体部位进行接触式的虚拟互动。比如，可以虚拟主播A与主播B进行击掌、握手、摸头、拧耳朵等等同台互动；也可以虚拟主播A与主播B进行同台KTV合唱等。

在一个实施例中，在渲染混画视频图像之后，还可以实时检测各个混画图像中的图像参数，将图像参数反馈至所述视频源，以在视频源本地对视频图像帧的图像大小进行调整。其中，图像参数可以包括运动位置、人脸视角度、人脸信息、人像图像大小等等。

上述实施例的技术方案，通过在混画过程中检测将图像参数反馈至视频源本地进行调整，从而可以根据混画需求对连麦主播进行动态视频图像调整，满足了对混画视频图像的动态控制需求。

在一个实施例中，本申请的视频图像的混画方法还可以向各个视频源分别发送其他视频源的第二视频图像数据，以使得所述视频源根据各路第二视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像，并根据所述第一层级关系将所述混画图像依次进行叠加渲染输出第二混画视频图像。

如前述实施例所述，在主播端上进行本地实时混画合成可以避免网络延时，提升在主播应用体验；另一方面，也可以确保直播服务器输出的第一混画视频图像的一致性。

综上实施例，避免了在混画中的边界分割影响，同时输出的混画视频图像具有更高的互动性，应用于连麦直播时，可以使用统一的背景图像，提升直播连麦的沉浸式体验，实现了不同地域主播在统一的虚拟场景下进行连麦，可以延生出多种互动玩法，提升了连麦互动效果。

例如，利用合成的虚拟同台场景，连麦主播直接可以进行同台的连麦互动，相互赠送虚拟礼物，虚拟同台PK，虚拟现场互动等等，以虚拟礼物赠送为例，在直播连麦互动方法中，主播服务器还可以接收第一连麦主播在直播互动中向第二连麦主播赠送的虚拟礼物；基于虚拟同台场景在各个连麦主播的人像图像之间进行虚拟礼物赠送互动展示。在主播之间的虚拟礼物赠送，或者观众端的虚拟礼物赠送场景中；直播服务器在渲染虚拟礼物时，根据虚拟礼物的特效内容设定在虚拟同台场景上进行渲染显示，由于各个连麦主播的人像图像之间存在层次优先级，虚拟礼物的特效内容也可以与各个连麦主播之间设置层次关系显示，比如，虚拟礼物的特效内容可以设置在顶层进行呈现，虚拟礼物的特效内容可以在主播A的下层呈现，在主播B的上层呈现，由此可以实现更强烈的空间感，提升连麦互动效果。

另外，虚拟同台场景还可以虚拟连麦主播之间身体互动，对应的，在直播连麦互动方法中，直播服务器还可以识别第一连麦主播的人像图像上的第一身体部位以及识别第二连麦主播的人像图像上的第二身体部位；利用第一身体部位与第二身体部位的行为交互来虚拟第一连麦主播与第二连麦主播之间的虚拟互动；比如，可以虚拟主播A与主播B进行击掌、握手、摸头、拧耳朵等等同台互动；也可以虚拟主播A与主播B进行同台KTV合唱等。

优选的，直播服务器将连麦视频流推送至观众端时，可以通过获取连麦主播在所述虚拟同台场景上进行互动直播产生的连麦视频图像以及互动特效，连麦视频图像以及互动特效进行编码成连麦视频流，将连麦视频流推送到CDN(Content Delivery Network，内容分发网络)网络，分发至观众端。

上述实施例的技术方案，实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播在统一的虚拟场景下进行连麦，并且基于虚拟同台场景下衍生出多种互动玩法，极大地提升了连麦互动效果。

下面阐述视频图像的混画装置的实施例。

参考图10所示，图10是一个实施例的视频图像的混画装置的结构示意图，包括：

采集模块101，用于根据预设的画布大小采集视频源的视频图像帧；

编码模块102，用于对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据；

发送模块103，用于将该视频源的第一视频图像数据上传至直播服务器，以使得所述直播服务器依据该第一视频图像数据的抠图信息及其他视频源上传的第二视频图像数据中的抠图信息分别从对应的视频图像帧中抠出混画图像，并根据各路视频源之间的第一层级关系将所述混画图像依次进行渲染，得到第一混画视频图像。

参考图11所示，图11是另一个实施例的视频图像的混画装置的结构示意图，包括：

接收模块201，用于接收多路视频源发送的第一视频图像数据；其中，所述第一视频图像数据包括视频图像帧及其抠图信息；

抠图模块202，用于根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像；

混画模块203，用于根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，输出第一混画视频图像。

本实施例的视频图像的混画装置可执行本申请的实施例所提供的一种视频图像的混画方法，其实现原理相类似，本申请各实施例中的视频图像的混画装置中的各模块所执行的动作是与本申请各实施例中的视频图像的混画方法中的步骤相对应的，对于视频图像的混画装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频图像的混画方法中的描述，此处不再赘述。

下面阐述直播系统的实施例。

本申请的直播系统，包括至少两个客户端以及直播服务器，客户端和直播服务器被配置为执行上述实施例的视频图像的混画方法的步骤。

以连麦直播为例，两个参与直播连麦的主播端，以及与主播端连接的直播服务器，其中，直播服务器输出混画视频图像至观众端；参考图12，图12是一个示例的混画视频图像示意图，图中所示是在连麦直播中，主播A与主播B的视频图像帧在直播服务器上进行混合后得到的混画视频图像。

本申请的技术方案，可以应用于连麦直播中进行视频图像的混画处理，作为一个示例，参考图13所示，图13是一个示例的直播系统结构示意图，主播端可以包括开播工具和客户端，其中，开播工具集成了虚拟摄像头，具备美颜、抠图等各种功能，客户端是基于语音及视频直播的软件客户端。直播中可以提供多种类型(娱乐/交友/约战/游戏/教育等)的直播模板，多个主播的视频图像帧在直播服务器上进行混画处理，得到混画视频图像。

在本示例中，主播端主要实现如下功能：

(1)通过摄像头采集主播的视频图像，对主播的视频图像进行抠图、提取行为数据(如胳膊动作、手势、身体的整个轮廓等数据)得到Alpha图像数据，将视频图像帧及Alpha图像进行横向拼接得到YUVA视频图像数据；使用SEI信息传递图像相关信息，包括AI关键点信息，人脸、手势和头部等关键点信息，开播特效信息，玩法礼物信息，以及其他信息等等。

(2)实现发起连麦、在本地进行混合合成等功能；比如，主播A向主播B发起连麦直播，利用直播服务器下发的视频图像数据，结合背景图像在本地合成第二混合视频图像。

(3)实现主播端美颜、虚拟特效处理功能；比如，开播前配置的美颜信息、处理直播过程中收到的虚拟礼物特效等等。

(4)实现主播端图像自动调整功能；比如，当需要调整主播图像在虚拟同台场景中的图像大小时，主播端接收直播服务器下发的调整参数，依据调整参数对主播端的摄像头进行调整或者抠图处理调整，以实现相应的图像大小调整。

在本示例中，直播服务器主要实现如下功能：

(1)实现转发主播的视频图像数据功能；比如，将第一主播端的视频图像数据转发给第二主播端，从而使得第二主播端可以在本地混画处理。

(2)实现在服务端进行混画功能；比如，将连麦的主播A、主播B两路视频源的人像图像合成混画视频图像；并在混画中实现人像图像校正适配功能，即根据连麦直播互动过程中主播的位置变化来自动调整图像大小，使得主播A和主播B在同一个虚拟同台场景中的大小更加匹配融合，避免出现大小不一致的情况；另外，还可以根据主播A的人脸视角去调整主播B的人脸视角，避免两者视角不对应现象。

(3)实现虚拟特效内容渲染功能；比如，将主播A和主播B各自在连麦过程需要展示的虚拟礼物特效，根据AI关键点进行换算得到虚拟特效内容的渲染位置，然后在混画视频图像中进行渲染。又如，在混画视频图像中进行的连麦互动所产生的联合虚拟礼物特效进行渲染。

下面阐述计算机设备及计算机可读存储介质的实施例。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

如图14所示，图14是一示例的计算机设备的框图。该计算机设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。参照图14，装置1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电力组件1006，多媒体组件1008，音频组件1010，输入/输出(I/O)的接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制装置1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。

存储器1004被配置为存储各种类型的数据以支持在设备1000的操作。如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1006为装置1000的各种组件提供电力。

多媒体组件1008包括在装置1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。

音频组件1010被配置为输出和/或输入音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为装置1000提供各个方面的状态评估。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。

通信组件1016被配置为便于装置1000和其他设备之间有线或无线方式的通信。装置1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

本申请提供一种计算机可读存储介质的技术方案，用以实现视频直播的图像数据传输方法相关功能。该计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行任意实施例的视频直播的图像数据传输方法。

在示例性实施例中，计算机可读存储介质可以是一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频图像的混画方法，其特征在于，包括：

2.根据权利要求1所述的视频图像的混画方法，其特征在于，所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染之前，还包括：

获取混画的背景图像；

3.根据权利要求1所述的视频图像的混画方法，其特征在于，还包括：

获取所述第一混画视频图像中待展示的互动特效；

4.根据权利要求3所述的视频图像的混画方法，其特征在于，所述根据所述第二层级关系控制所述互动特效进行渲染，还包括：

根据所述混画图像之间的大小比例计算空间深度距离；

确定所述互动特效的变化方向；

5.根据权利要求4所述的视频图像的混画方法，其特征在于，所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，包括：

获取各路视频源之间设定的第一层级关系；

6.根据权利要求4所述的视频图像的混画方法，其特征在于，所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染，包括：

获取各路视频源的混画图像中的人像图像大小；

7.根据权利要求1所述的视频图像的混画方法，其特征在于，在所述根据各路视频源之间的第一层级关系将所述混画图像依次进行叠加渲染之后，还包括：

实时检测各个视频源的混画图像的图像参数；

8.根据权利要求1所述的视频图像的混画方法，其特征在于，还包括：

9.根据权利要求1所述的视频图像的混画方法，其特征在于，所述视频源为至少两个主播端，所述第一视频图像数据为所述主播端上传的连麦主播的视频流信息，所述混画图像为连麦主播的人像图像。

10.根据权利要求9所述的视频图像的混画方法，其特征在于，根据各路第一视频图像数据的抠图信息分别从所述视频图像帧中抠出混画图像，包括；

11.一种视频图像的混画装置，其特征在于，包括：

12.一种视频图像的混画方法，其特征在于，包括：

根据预设的画布大小采集视频源的视频图像帧；

13.根据权利要求12所述的视频图像的混画方法，其特征在于，所述视频源为参与连麦直播的主播端；所述视频图像帧为连麦主播的视频图像帧，所述抠图信息为与所述视频图像帧拼接的Alpha图像。

14.根据权利要求13所述的视频图像的混画方法，其特征在于，所述对所述视频图像帧进行抠图得到抠图信息，并将所述视频图像帧及其抠图信息生成该视频源的第一视频图像数据，包括：

采集主播端的视频图像帧；

对所述视频图像帧进行人像抠图得到Alpha图像；

15.根据权利要求14所述的视频图像的混画方法，其特征在于，还包括：

根据所述AI关键点获取所述主播的人像图像的特效信息；

16.根据权利要求12所述的视频图像的混画方法，其特征在于，还包括：

对本地所采集的视频图像帧中抠出第一混画图像；

17.一种视频图像的混画装置，其特征在于，包括：

18.一种直播系统，其特征在于，包括至少两个客户端以及直播服务器；其中，

所述客户端被配置为执行权利要求1-8任一项所述的视频图像的混画方法；

所述直播服务器被配置为执行权利要求10-14任一项所述的视频图像的混画方法。

19.一种计算机设备，其特征在于，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-8或10-14任一项所述的视频图像的混画方法。

20.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行权利要求1-8或10-14任一项所述的视频图像的混画方法。