CN116962743A

CN116962743A - 视频图像编码、抠图方法和装置及直播系统

Info

Publication number: CN116962743A
Application number: CN202210593879.XA
Authority: CN
Inventors: 闫理; 赵国庆; 李劲; 方周
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2022-04-14
Filing date: 2022-05-27
Publication date: 2023-10-27
Also published as: CN116962742A; CN116962746A; CN116962745A; CN116962747A; CN116962748A; CN116962744A

Abstract

本申请涉及一种视频图像编码、抠图方法和装置及直播系统，所述编码方法包括：获取视频图像的原始视频帧；分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像；在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧；对所述传输视频帧进行编码和压缩得到视频流数据，并发送到直播服务器，其中，所述直播服务器依据从所述传输视频帧中提取的抠图信息图像对所述原始视频帧进行抠图；该技术方案，减少了直播服务器上进行抠图时的数据处理量，减轻直播服务器的运算压力，提升直播过程中直播服务器的抠图处理效率。

Description

视频图像编码、抠图方法和装置及直播系统

本申请要求于2022年04月14日提交中国专利局、申请号为 202210387980.X、发明名称为“网络直播的连麦互动方法、装置及直播系统” 的中国专利申请的优先权，其申请文件内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别是一种视频图像编码方法和装置，视频图像抠图方法和装置，以及直播系统。

背景技术

目前，在视频直播场景中，经常都是需要对视频图像进行抠图，如绿幕抠图，常用技术手段是通过AI算法对目标图像(如人像图像)进行识别，然后通过抠图将目标图像从原图像上抠出，并进行各种途径的使用，例如，图像合成、直播互动等等。

一般情况下，当视频图像数据从客户端采集传输到直播服务器端时，如果是使用到抠图场景，一般方法是在客户端进行抠图处理得到抠图图像，然后对图像数据进行编码传输到直播服务器进行解码后使用，该方案中，由于在客户端就已经进行了抠图处理，因此在直播服务器无法对原始图像的其他部分再进行其他应用，另外，也有方法是由客户端将原始图像编码后发送到直播服务器，然后在直播服务器上再进行抠图处理得到所需的抠图图像，这种方式虽然使得直播服务器能够得到原始图像，但是在直播服务器上对每帧原始视频图像进行抠图的数据处理量非常大，对直播服务器所造成的压力较大，因此使用中存在较大局限性。

基于此，在需要使用到抠图的场景中，当客户端需要将视频图像数据进行编码传输到直播服务器时，需要在传输的编码数量、带宽占用以及使用效果上进行均衡，而常规的编码方案及抠图技术，难以在将原始图像传输到直播服务器的同时也能够减少直播服务器的抠图运算量，无法对上述各种技术要求上做到更好的兼容，导致直播服务器对视频图像的处理效果欠佳。

发明内容

基于此，有必要针对上述至少一种技术缺陷，提供一种视频图像编码方法和装置，视频图像抠图方法和装置，以及直播系统，以降低视频直播中直播服务器进行抠图时数据处理量和运算压力，提升直播服务器处理效率。

一种视频图像编码方法，包括：

获取视频图像的原始视频帧；

分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像；

在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧；

对所述传输视频帧进行编码和压缩得到视频流数据，并发送到直播服务器，其中，所述直播服务器依据从所述传输视频帧中提取的抠图信息图像对所述原始视频帧进行抠图。

在一个实施例中，所述分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像，包括：

分别对所述原始视频帧的人像进行AI识别得到人像区域；

根据所述人像区域进行预抠图得到人像图像和背景图像；

根据所述人像图像和背景图像生成透明通道图像，得到抠图信息图像。

在一个实施例中，所述在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧，包括：

在所述原始视频帧横向上扩展一个与所述原始视频帧大小一致的图像区域；

将所述抠图信息图像绘制在所述图像区域上，合成所述原始视频帧和所述抠图信息图像得到传输视频帧。

在一个实施例中，所述对所述传输视频帧进行编码和压缩得到视频流数据，包括：

基于YUV格式分别对所述原始视频帧和抠图信息图像的各个像素颜色值进行编码得到颜色编码数据；

分别在所述原始视频帧和抠图信息图像的颜色编码数据中添加标记信息，得到原始视频帧对应的第一颜色编码数据组和所述抠图信息图像对应的第二颜色编码数据组；

将所述第一颜色编码数据组和第二颜色编码数据组进行合成存储得到所述传输视频帧的YUV编码数据；

对所述YUV编码数据进行压缩得到视频流数据。

在一个实施例中，所述将所述第一颜色编码数据组和第二颜色编码数据组进行合成存储得到所述传输视频帧的视频流数据，包括：

创建一个宽度为2w、高度为h的YUV区域；其中，w为YUV图像的宽度值，h为YUV图像的高度值；

在左侧w宽度放置原始视频帧的Y分量行数据以及在右侧w宽度放置抠图信息图像的Y分量行数据；

依次在U、V分量的左侧w宽度上填充原始视频帧的行数据上；

将YUV区域上的数据进行合并存储得到所述传输视频帧的视频流数据。

一种视频图像编码装置，包括：

视频帧获取模块，用于获取视频图像的原始视频帧；

预抠图处理模块，用于分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像；

图像合成模块，用于在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧；

图像编码模块，用于对所述传输视频帧进行编码得到视频流数据，并发送到直播服务器，其中，所述直播服务器依据从所述传输视频帧中提取的抠图信息图像对所述原始视频帧进行抠图。

一种视频图像抠图方法，包括：

接收多个客户端发送的视频流数据；其中，所述视频流数据依据上述的视频图像编码方法获得；

对所述视频流数据进行解压缩获得传输视频帧；

从所述传输视频帧中解码出原始视频帧和抠图信息图像；

根据所述抠图信息图像对所述原始视频帧进行抠图。

在一个实施例中，所述从所述传输视频帧中解码出原始视频帧和抠图信息图像，包括：

根据标记信息将所述视频流数据划分为第一颜色编码数据组和第二颜色编码数据组；

基于YUV格式分别对所述第一颜色编码数据组和第二颜色编码数据组进行解码，得到对应的原始视频帧和抠图信息图像。

在一个实施例中，所述抠图信息图像为Alpha图像；

所述根据所述抠图信息图像对所述原始视频帧进行抠图，包括：

将所述抠图信息图像的各个像素的像素值分别与所述原始视频帧的各个像素的像素值进行对应相乘，输出抠图视频图像。

在一个实施例中，所述客户端包括多个参与连麦直播的主播客户端；

根据Alpha图像从所述原始视频帧中抠出连麦主播的人像图像，并将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景。

在一个实施例中，所述的视频图像抠图方法，还包括：

基于所述虚拟同台场景进行直播连麦互动；

在所述虚拟同台场景上绘制特效信息；

将所述直播连麦互动产生的连麦视频流推送至观众端。

一种视频图像抠图装置，包括：

视频流接收模块，用于接收多个客户端发送的视频流数据；其中，所述视频流数据依据上述的视频图像编码方法获得；

视频流解码模块，用于对所述传输视频帧进行解码获得传输视频帧；

图像分离模块，用于从所述传输视频帧中提取出原始视频帧和抠图信息图像；

图像抠图模块，用于根据所述抠图信息图像对所述原始视频帧进行抠图。

一种直播系统，包括至少两个客户端以及直播服务器；其中，所述客户端被配置为执行上述的视频图像编码方法的步骤；所述直播服务器被配置为执行上述的视频图像抠图方法的步骤。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述的视频图像编码方法或者视频图像抠图方法。

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行上述的视频图像编码方法或者视频图像抠图方法。

上述各实施例的技术方案，通过对原始视频帧进行预抠图获得抠图描述信息，并以抠图信息图像绘制在原始视频帧上的一个扩展图像区域上，从而形成传输视频帧；再对传输视频帧进行编码和压缩得到视频流数据发送到直播服务器，实现在直播服务器上依据从传输视频帧中提取的抠图信息图像即可对原始视频帧进行抠图；该技术方案，在客户端上进行了预抠图处理，并通过在原始视频帧上扩展的抠图信息图像来携带抠图信息，在不改变客户端编码格式前提下，实现了将原始视频帧传输到直播服务器的条件下，减少了直播服务器上进行抠图时的数据处理量，减轻直播服务器的运算压力，提升直播过程中直播服务器的抠图处理效率。

其次，在颜色编码只是对增加了一个扩展区域作为图像一部分进行编码，无需对客户端的原有图像格式的改动，确保了在现有的客户端上兼容使用，降低客户端升级成本，编码过程更简单。

最后，在压缩视频流数据时利用SEI信息来传输图像相关信息，使得客户端的特效内容能够在直播服务器进行重新渲染出来，提升视频图像的展示效果。

附图说明

图1是一个示例的视频图像编码方法的应用硬件环境图；

图2是一个实施例的视频图像编码方法流程图；

图3是一个示例的抠图描述信息示意图；

图4是一个示例的人像图像与背景图像分割示意图；

图5是一个示例的生成抠图信息图像示意图；

图6是一个示例的抠图信息图像绘制示意图；

图7是一个示例的传输视频帧示意图；

图8是一个示例的颜色编码示意图；

图9是一个示例视频流数据的压缩格式示意图；

图10是一个实施例的视频图像编码装置的结构示意图；

图11是一个实施例的视频图像抠图方法流程图；

图12是一个示例的直播视频抠图示意图；

图13是一个实施例的视频图像抠图装置的结构示意图；

图14是一个示例的直播系统结构示意图；

图15是一示例的计算机设备的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请实施例中，提及的“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个对象指两个或两个以上的对象。 “包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的信息涵盖出现在“包括”或者“包含”后面列举的信息及其等同，并不排除其他信息。在本申请实施例中提及的“和/或”，表示可以存在三种关系，字符“/”一般表示前后关联对象是一种“或”的关系。

参考图1所示，图1是一个示例的视频图像编码方法的应用硬件环境图；如图中，在进行网络直播时，直播连麦的主播通过客户端(也称主播端或主播客户端，下文同)与，客户端(如图中客户端1，客户端2，……，客户端 n，n≥2)输出视频流数据到直播服务器，具体的，客户端通过拍摄主播的直播视频并传输到直播服务器上提取人像图像进行图像合成和直播互动使用时，客户端拍摄主播的原始视频图像，并基于本申请所提供的视频图像编码方法进行编码处理后输出形成视频流数据传输到直播服务器上，然后由直播服务器进行抠图得到所需的视频图像内容，比如抠图得到主播的人像图像，从而可以进行连麦直播图像合成、连麦直播互动等使用。

本申请提供了一种视频图像编码方法，如图2所示，图2是一个实施例的视频图像编码方法流程图，包括如下步骤：

S11，获取视频图像的原始视频帧。

此步骤中，客户端可以利用摄像头拍摄主播的原始视频图像，并从原始视频图像中逐帧提取出原始视频帧进行处理，在拍摄原始视频图像时，可以根据设定的画面大小及其比例来控制拍摄过程，以连麦直播为例，各个客户端都需要根据设置选择为指定拍摄模式，并设置分辨率一致，必要时还可以对视频图像进行裁剪处理。

S12，分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像。

此步骤中，对各个原始视频帧进行抠图处理获取目标图像区域，并通过抠图描述信息进行表示，其中抠图描述信息是指用于描述抠图处理后得到的结果信息，本实施例中，抠图描述信息可以是指人像抠图信息，如图3所示，图3是一个示例的抠图描述信息示意图，图中所示为人像抠图的轮廓线，人像轮廓线上的像素点可以作为抠图描述信息，通过像素点坐标信息其可以在使用时直接对人像图像与背景图像进行分割得到抠图描述信息；本实施例在得到抠图描述信息后将其生成抠图信息图像，即通过图像方式来存储人像抠图信息。

在一个实施例中，基于上述步骤S20的处理过程，应用于对人像图像抠图场景时，可以使用AI算法识别出人像区域得到抠图描述信息，并生成Alpha 透明通道图像。

据此，对于上述分别对原始视频帧进行预抠图获得抠图描述信息，并根据抠图描述信息生成抠图信息图像的过程，可以包括如下：

S121，分别对所述原始视频帧的人像进行AI识别得到人像区域。

为了便于抠图，如图3所示，一般可以利用摄像设备拍摄绿幕图像，然后通过AI识别算法识别人像轮廓，从而得到人像区域。

S122，根据所述人像区域进行预抠图得到人像图像和背景图像；具体的，参考图4，图4是一个示例的人像图像与背景图像分割示意图，将人像图像区域与绿幕图像区域进行分割得到有用的人像图像和无用的绿色背景图像。

S123，根据所述人像图像和背景图像生成透明通道图像，得到抠图信息图像。

一般抠图是抠出有用的人像图像和丢弃无用的绿色背景图像；由于本申请技术方案中主要是为了得到抠图描述信息，而非直接完成抠图处理丢弃背景图像，因此，利用人像图像和背景图像作为抠图描述信息来生成抠图信息图像，从而实现存储抠图描述信息的目的。

作为实施例，参考图5所示，图5是一个示例的生成抠图信息图像示意图，抠图信息图像通过Alpha图像来存储抠图描述信息，Alpha图像是指带 Alpha分量的图像，一般情况下，图像颜色编码时通过Alpha通道来记录透明度，Alpha通道也称阿尔法通道(英文为Alpha Channel)，是指一张图片的透明和半透明度，通道可以在上图时作透明效果使用，一般alpha值取0～1 之间；而本实施例中，基于Alpha通道原理生成了一个新的Alpha图像，该 Alpha图像为黑白图像，各个像素点颜色取值为0或1，从而通过用该Alpha 图像来携带抠图信息。

S13，在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧。

此步骤中，参考图6所示，图6是一个示例的抠图信息图像绘制示意图，基于原始视频帧上扩展一个图像区域，从而在不改变原始视频帧前提下，通过扩充图像方式将抠图信息图像绘制在图像区域上，从而使得原始视频帧可以携带抠图描述信息，从而得到传输视频帧；由于传输视频帧是在原始视频帧上扩展得到，因此对于客户端而言，可以不用改变客户端原有的颜色编码格式。

在一个实施例中，对于步骤S13中获取传输视频帧的过程，可以包括：

(1)在所述原始视频帧横向上扩展一个与所述原始视频帧大小一致的图像区域；具体的，参考图6所示，如图中所示，原始视频帧大小为400×600，因此在原始视频帧的右侧可以扩展一个400×600区域。

(2)将所述抠图信息图像绘制在所述图像区域上，合成所述原始视频帧和所述抠图信息图像得到传输视频帧。

如图7所示，图7是一个示例的传输视频帧示意图，同时将需要携带的抠图描述信息以抠图信息图像绘制在右侧图像区域上，并合成所述原始视频帧和所述抠图信息图像，由此，得到大小为800×600的传输视频帧。

S14，对所述传输视频帧进行编码和压缩得到视频流数据，并发送到直播服务器。

此步骤中，在生成传输视频帧后，通过设定视频压缩格式对传输视频帧进行压缩成视频流数据传输到直播服务器；例如可以使用H264、HEVC这种广泛使用的压缩编码算法对传输视频帧成视频流数据。

视频流数据传输到直播服务器后，直播服务器依据从传输视频帧中提取的抠图信息图像对所述原始视频帧进行抠图，由于抠图信息图像携带了抠图描述信息，因此，在直播服务器上进行抠图时，可以直接使用抠图描述信息快速地进行抠图，无需在进行抠图识别过程，极大地降低了算法运算量，同时由于原始视频帧也是完整地传输到了直播服务器，因此在直播服务器上还可以利用原始视频帧进行其他互动设计，从而保证了互动性。

为了更加清晰本申请的技术方案，下面结合针对于编码和压缩过程提供更多实施例。

在一个实施例中，以YUV格式为例，参考图8所示，图8是一个示例的颜色编码示意图，对步骤S14的编码和压缩得到视频流数据的方法进一步阐述；该方案可以包括如下：

S141，基于YUV格式分别对所述原始视频帧和抠图信息图像的各个像素颜色值进行编码得到颜色编码数据。

采用YUV对原始视频帧和抠图信息图像的各个像素颜色值进行编码，在编码时，其中，使用Y表示明亮度(Luminance，Luma)，使用U和V表示色度 (Chrominance，Chroma)，描述影像色彩及饱和度。

S142，分别在所述原始视频帧和抠图信息图像的颜色编码数据中添加标记信息，得到原始视频帧对应的第一颜色编码数据组和所述抠图信息图像对应的第二颜色编码数据组。

为了便于区分原始视频帧和抠图信息图像，在颜色编码数据中添加标记信息，比如可以通过L、R标记来进行区分，因此可以在原始视频帧和抠图信息图像的每个YUV数据前增加L、R标记来区分，L标记原始视频帧，例如，LY1、LU1、LU2、…、LV1；R标记抠图信息图像，例如，RY1、…、RU1、 RV1、RV1、…，等等；对于图像颜色编码过程，继续参考图8所示，图中编码后得到原始视频帧对应的第一颜色编码数据组和抠图信息图像对应的第二颜色编码数据组。

S143，将所述第一颜色编码数据组和第二颜色编码数据组进行合成存储得到所述传输视频帧的YUV编码数据。

继续参考图8，将第一颜色编码数据组和第二颜色编码数据组进行合成存储，可以得到传输视频帧的YUV编码数据。

对于YUV编码过程，作为实施例，结合图8所示的颜色编码示意图，首先定义图像大小由宽(w)高(h)决定，YUV图像分为Y平面、U平面和V 平面等3个平面，合成过程可以包括如下：

(1)创建一个宽高为2*w和h的YUV区域；

(2)Y分量根据以下方式进行拷贝；

第1行，左边w宽度放原图的第1行，右边w宽度放Alpha图像的第 1行；

第2行，左边w宽度放原图的第2行，右边w宽度放Alpha图像的第 2行；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度放Alpha图像的第 h行。

(3)U、V分量的填充；

第1行，左边w宽度放原图的第1行，右边w宽度用128填充；

第2行，左边w宽度放原图的第2行，右边w宽度用128填充；

……，以此类推

第h行，左边w宽度放原图的第h行，右边w宽度用128填充；

(4)输出YUV编码数据。

如上述实施例的方案，图8中所示的YUV编码与常规YUVA多通道编码不同，该颜色编码只是对增加了一个扩展区域作为图像一部分进行编码，相对于常规的YUVA多通道编码，编码过程更简单。

S144，对所述YUV编码数据进行压缩得到视频流数据。

另外，由于传输视频帧中已经记录了原始视频帧和抠图描述信息，在客户端上添加的各种贴图特效等等，都可以在直播服务器上进行重新绘制，而且对于一些跟背景图像颜色接近的特效内容，也可以防止被抠除，比如采用绿幕抠图场景中，如果特效内容也是绿色，则在后端抠图时容易将绿色的特效内容错误滴抠除，而基于本实施例的编码方案，即使在传输过程中添加绿色特效内容，在直播服务器上也不会将其抠除，由此也保证了抠图的准确性。

基于上述分析的编码及压缩处理方案中，本实施例的技术方案，还可以在压缩时将与视频图像相关的一些图像相关信息一通压缩传输到直播服务器上，由此可以在直播服务器上进行更多功能的应用。

作为一个实施例，在对传输视频帧压缩时，还可以获取主播的特效信息和图像相关信息，比如客户端上的贴图特效、虚拟特效等，还有图片信息、 URL连接、虚拟礼物信息等等，通过这些信息可以将与主播图像的一些应用信息添加进去，便于在直播服务器上继续使用。

参考图9所示，图9是一个示例视频流数据的压缩格式示意图，以贴图特效为例，先对视频帧的人像图像进行AI识别得到主播的AI关键点，如人脸关键点，手部关键点，躯干关键点等；然后根据AI关键点获取主播的人像图像的特效信息，包括虚拟特效ID及显示位置等，通过虚拟特效ID获取虚拟特效内容，通过显示位置对虚拟特效内容位置进行换算得到渲染位置；最后将AI关键点和特效信息，以及其他的图像URL、主播行为信息、主播开播特效信息、虚拟礼物信息等等添加到SEI(Supplemental Enhancement Information，补充增强信息)信息中，再采用H264格式压缩成视频流数据。

如上述压缩技术方案，可以利用H264、HEVC等编码算法进行压缩，通过 SEI信息可以将所需的特效信息和图像相关信息压缩到视频图像数据中进行传输，在直播服务器上可以解压缩得到里面携带的信息内容，对于传输的压缩格式，其中图像帧与Alpha图像的拼接图像按YUVA视频帧格式进行编码， AI关键点、特效信息、背景图像URL添加到SEI信息中进行传输。

综合上述视频图像编码技术，在客户端对原始视频帧进行预抠图得到抠图描述信息，然后利用原始视频帧扩展的一个图像区域，以抠图信息图像形式保存抠图描述信息，从而在不改变客户端的原始视频帧编码格式下使得原始视频帧携带了抠图描述信息，在直播服务器上可以利用解码得到的抠图信息图像快速对原始视频帧进行抠图，在保留原始图像帧基础上，极大降低了直播服务器进行抠图的数据运算量，减轻直播服务器压力；进一步的，在进行压缩传输时，还可以将一些控制信息、图像的特效信息以及图像相关信息添加到视频流数据中，从而可以在直播服务器上对视频流数据进行进一步的功能扩展使用，将客户端上的一些贴图特效内容等特效信息在直播服务器上进行重绘，提高在直播服务器对视频流数据的应用功能，增强互动性。

下面阐述视频图像编码装置的实施例。

参考图10所示，图10是一个实施例的视频图像编码装置的结构示意图，包括：

视频帧获取模块11，用于获取视频图像的原始视频帧；

预抠图处理模块12，用于分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像；

图像合成模块13，用于在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧；

图像编码模块14，用于对所述传输视频帧进行编码得到视频流数据，并发送到直播服务器，其中，所述直播服务器依据从所述传输视频帧中提取的抠图信息图像对所述原始视频帧进行抠图。

本实施例的视频图像编码装置可执行本申请的实施例所提供的一种视频图像编码方法，其实现原理相类似，本申请各实施例中的视频图像编码装置中的各模块所执行的动作是与本申请各实施例中的视频图像编码方法中的步骤相对应的，对于视频图像编码装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频图像编码方法中的描述，此处不再赘述。

下面阐述视频图像抠图方法的实施例。

参考图11所示，图11是一个实施例的视频图像抠图方法流程图，本实施例主要是以在直播服务器上进行抠图进行阐述，该视频图像抠图方法可以包括如下步骤：

S21，接收多个客户端发送的视频流数据。

此步骤中，直播服务器接收多个客户端发送的视频流数据，其中这些视频流数据依据是基于本申请前述实施例的视频图像编码方法获得，如前所述，视频流数据中包含了由原始视频帧和抠图信息图像合成的传输视频帧；

S22，对所述视频流数据进行解压缩获得传输视频帧。

与压缩过程相反，可以利用H264、HEVC等编码算法对视频流数据进行解压缩获得传输视频帧；同时，如果视频流数据携带了SEI信息，则解压缩可以得到AI关键点、特效信息、背景图像URL等等，利用这些附带信息可以进行各种功能上应用。

S23，从所述传输视频帧中解码出原始视频帧和抠图信息图像；

此步骤中，基于YUV格式从传输视频帧中解码出原始视频帧和抠图信息图像，利用原始视频帧和抠图信息图像中添加的标记，可以分别提取出原始视频帧和抠图信息图像的颜色编码数据。

作为实施例，解码过程可以包括如下：

(1)根据标记信息将所述视频流数据划分为第一颜色编码数据组和第二颜色编码数据组；具体的，通过R和L标记可以将YUV数据划分成两组颜色编码数据组。

(2)基于YUV格式分别对所述第一颜色编码数据组和第二颜色编码数据组进行解码，得到对应的原始视频帧和抠图信息图像。

基于YUV格式解码过程，分别对两组颜色编码数据解码可以还原出原始视频帧和抠图信息图像

S24，根据所述抠图信息图像对所述原始视频帧进行抠图。

对于抠图的方案，如前实施例所述的抠图信息图像为Alpha图像，因此可以通过叠加方式进行抠图，将所述抠图信息图像的各个像素的像素值分别与所述原始视频帧的各个像素的像素值进行对应相乘，输出抠图视频图像。

上述实施例的视频图像抠图方法，在直播服务器上可以利用解码得到原始视频帧，同时也可以利用抠图信息图像快速对原始视频帧进行快速抠图，即可以保留原始图像帧的数据传输到直播服务器，也极大降低了直播服务器对来自于各个客户端的视频图像数据进行抠图所需要的数据运算量，极大地减轻了直播服务器压力。

基于上述各实施例的技术方案，如图12所示，图12是一个示例的直播视频抠图示意图，当在连麦直播场景中时，多个参与连麦的主播的视频图像可以传输到直播服务器上进行抠图，并进行各种合成处理，比如抠出两个连麦主播的人像图像，然后合并到背景图像上，同时利用SEI信息中的传输的虚拟特效ID及显示位置等特效信息，AI关键点等，直播服务器根据可以在背景图像进行重新渲染特效内容，在重新渲染时，直播服务器也无需再对主播进行AI识别，利用SEI信息中上传的AI关键点即可以换算新的显示位置，然后根据新的显示位置渲染到连麦互动场景图像上，从而可以方便地进行特效内容渲染使用，进一步可以降低直播服务器的运算量，增强互动性能。

在一个实施例中，本申请的视频图像抠图方法，可以应用到连麦直播的场景当中，以图1所示的结构，其中客户端可以包括多个参与连麦直播的主播客户端；据此，在抠图时，根据Alpha图像从所述原始视频帧中抠出连麦主播的人像图像，并将至少两个连麦主播的人像图像与背景图像进行合成得到虚拟同台场景。

优选的，可以将抠图得到的各个连麦主播的人像图像，按照设定的渲染位置、图像大小和视觉角度等图像参数，叠加到背景图像上进行合成得到虚拟同台场景。对于人像图像合成部分，可按照约定好的层级关系对各路视频流信息先后进行画布叠加，例如按麦序优先级处理，也可以按采集到的视频流信息的人像图像大小排序处理；或者还可以按照人像图像的轮廓大小决定层次。

在渲染人像图像时，将人像图像均按照层叠关系进行渲染，可以使得各个连麦主播的人像图像与背景图像能够实现更好的融合，并且在渲染过程中还可以对人像图像进行调整，从而虚拟出在虚拟同台场景中进行空间移动的真实效果。

在一个实施例中，本申请的技术方案，还可以基于虚拟同台场景进行直播连麦互动，在虚拟同台场景上绘制特效信息，将直播连麦互动产生的连麦视频流推送至观众端。

具体的，利用合成的虚拟同台场景，连麦主播直接可以进行虚拟同台的连麦互动，同时可以虚拟礼物赠送，虚拟同台PK，虚拟现场互动等等。例如，基于虚拟同台场景可以进行虚拟礼物赠送，在连麦主播之间赠送虚拟礼物；在虚拟同台场景中也可以接收是来自于观众端的虚拟礼物赠送。

在渲染虚拟礼物时，根据虚拟礼物的特效内容在虚拟同台场景的指定位置上进行渲染显示，由于各个连麦主播的人像图像之间存在层次优先级，虚拟礼物的特效内容也可以与各个连麦主播之间设置层次关系显示，由此可以实现更强烈的空间感，提升连麦互动效果。

另外，基于虚拟同台场景还可以虚拟连麦主播之间身体互动，通过识别连麦主播的人像图像上的身体部位，利用身体部位的行为交互来虚拟连麦主播之间的互动。比如，可以虚拟主播之间进行击掌、握手、摸头、拧耳朵、同台KTV合唱等。

优选的，直播服务器将连麦视频流推送至观众端时，可以通过获取连麦主播在所述虚拟同台场景上进行互动直播产生的连麦视频图像以及互动特效，连麦视频图像以及互动特效进行编码成连麦视频流，将连麦视频流推送到 CDN(Content Delivery Network，内容分发网络)网络，分发至观众端。

上述实施例的技术方案，实现了虚拟同台连麦效果，丰富了直播内容，增强直播互动性，提升直播连麦的沉浸式体验，实现了不同地域主播在统一的虚拟场景下进行连麦，并且基于虚拟同台场景下衍生出多种互动玩法，极大地提升了连麦互动效果。

下面阐述视频图像抠图装置的实施例。

参考图13所示，图13是一个实施例的视频图像抠图装置的结构示意图，包括：

视频流接收模块21，用于接收多个客户端发送的视频流数据；其中，所述视频流数据依据上述的视频图像编码方法获得；

视频流解码模块22，用于对所述传输视频帧进行解码获得传输视频帧；

图像分离模块23，用于从所述传输视频帧中提取出原始视频帧和抠图信息图像；

图像抠图模块24，用于根据所述抠图信息图像对所述原始视频帧进行抠图。

本实施例的视频图像抠图装置可执行本申请的实施例所提供的一种视频图像抠图方法，其实现原理相类似，本申请各实施例中的视频图像抠图装置中的各模块所执行的动作是与本申请各实施例中的视频图像抠图方法中的步骤相对应的，对于视频图像抠图装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频图像抠图方法中的描述，此处不再赘述。

下面阐述本申请的直播系统的实施例。

参考图14所示，图14是一个示例的直播系统结构示意图，包括至少两个客户端以及直播服务器；其中，直播服务器可以连接至客户端，所述客户端被配置为执行前述任意实施例的视频图像编码方法的步骤；所述直播服务器被配置为执行前述任意实施例的视频图像抠图方法的步骤。

对于客户端，其可以包括开播工具和PC端，客户端主要实现主播视频采集、转换、编码和压缩传输等功能，其中开播工具负责进行摄像头采集，将主播的绿幕背景进行预抠图提取人像图像生成抠图信息图像；PC端在原始视频帧上扩展一个图像区域，将原始视频帧和抠信息图像合成为传输视频帧，采集客户端的AI关键点、贴图特效等添加到SEI信息中，再利用H264、HEVC 等编码算法进行压缩。

而直播服务器主要实现对客户端上传的视频流数据进行解压缩、解码处理，利用抠图信息图像对原始视频帧进行抠图获得人像图像，同时利用SEI 信息中附带相关信息进行各种互动应用，然后生成直播视频流推送到各个观众端。

下面阐述计算机设备及计算机可读存储介质的实施例。

一种计算机设备，该计算机设备，其包括：

一个或多个处理器；

存储器；

如图15所示，图15是一示例的计算机设备的框图，该计算机设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。参照图15，装置1500可以包括以下一个或多个组件：处理组件1502，存储器1504，电力组件1506，多媒体组件1508，音频组件1515，输入/输出(I/O)的接口1512，传感器组件1514，以及通信组件1516。

处理组件1502通常控制装置1500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。

存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1506为装置1500的各种组件提供电力。

多媒体组件15015包括在装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。在一些实施例中，多媒体组件1508包括一个前置摄像头和/或后置摄像头。

音频组件1515被配置为输出和/或输入音频信号。

I/O接口1512为处理组件1502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1514包括一个或多个传感器，用于为装置1500提供各个方面的状态评估。传感器组件1514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。

通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。

本申请提供一种计算机可读存储介质的技术方案，用以实现视频图像编码和视频图像抠图方法相关功能。该计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行任意实施例的视频图像编码和视频图像抠图方法。

在示例性实施例中，计算机可读存储介质可以是一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频图像编码方法，其特征在于，包括：

获取视频图像的原始视频帧；

2.根据权利要求1所述的视频图像编码方法，其特征在于，所述分别对所述原始视频帧进行预抠图获得抠图描述信息，并根据所述抠图描述信息生成抠图信息图像，包括：

分别对所述原始视频帧的人像进行AI识别得到人像区域；

根据所述人像区域进行预抠图得到人像图像和背景图像；

3.根据权利要求2所述的视频图像编码方法，其特征在于，所述在所述原始视频帧上扩展一个图像区域，并将所述抠图信息图像绘制在所述图像区域上得到传输视频帧，包括：

4.根据权利要求3所述的视频图像编码方法，其特征在于，所述对所述传输视频帧进行编码和压缩得到视频流数据，包括：

对所述YUV编码数据进行压缩得到视频流数据。

5.根据权利要求4所述的视频图像编码方法，其特征在于，所述将所述第一颜色编码数据组和第二颜色编码数据组进行合成存储得到所述传输视频帧的视频流数据，包括：

依次在U、V分量的左侧w宽度上填充原始视频帧的行数据上；

6.一种视频图像编码装置，其特征在于，包括：

视频帧获取模块，用于获取视频图像的原始视频帧；

7.一种视频图像抠图方法，其特征在于，包括：

接收多个客户端发送的视频流数据；其中，所述视频流数据依据权利要求1-5任一项所述的视频图像编码方法获得；

对所述视频流数据进行解压缩获得传输视频帧；

从所述传输视频帧中解码出原始视频帧和抠图信息图像；

根据所述抠图信息图像对所述原始视频帧进行抠图。

8.根据权利要求7所述的视频图像抠图方法，其特征在于，所述从所述传输视频帧中解码出原始视频帧和抠图信息图像，包括：

9.根据权利要求8所述的视频图像抠图方法，其特征在于，所述抠图信息图像为Alpha图像；

10.根据权利要求9所述的视频图像抠图方法，其特征在于，所述客户端包括多个参与连麦直播的主播客户端；

11.根据权利要求10所述的视频图像抠图方法，其特征在于，还包括：

基于所述虚拟同台场景进行直播连麦互动；

在所述虚拟同台场景上绘制特效信息；

将所述直播连麦互动产生的连麦视频流推送至观众端。

12.一种视频图像抠图装置，其特征在于，包括：

视频流接收模块，用于接收多个客户端发送的视频流数据；其中，所述视频流数据依据权利要求1-5任一项所述的视频图像编码方法获得；

13.一种直播系统，其特征在于，包括至少两个客户端以及直播服务器；其中，所述客户端被配置为执行权利要求1-5任一项所述的视频图像编码方法的步骤；所述直播服务器被配置为执行权利要求7-11任一项所述的视频图像抠图方法的步骤。

14.一种计算机设备，其特征在于，该计算机设备，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-5任一项所述的视频图像编码方法或者执行权利要求7-11任一项所述的视频图像抠图方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行权利要求1-5任一项所述的视频图像编码方法或者执行权利要求7-11任一项所述的视频图像抠图方法。