CN113436097B

CN113436097B - 一种视频抠图方法、装置、存储介质和设备

Info

Publication number: CN113436097B
Application number: CN202110705446.4A
Authority: CN
Inventors: 王心莹; 杨杰; 宋施恩; 吴海清; 胡玮
Original assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Current assignee: Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-08-02
Anticipated expiration: 2041-06-24
Also published as: CN113436097A

Abstract

本申请公开了一种视频抠图方法、装置、存储介质和设备，利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜。利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜。利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜。利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜。对各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜，对于每个目标掩膜，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得图层置于目标视频帧的最底层。相较于现有技术，本申请所述方案，无需人工进行逐帧抠图，效率较高。

Description

一种视频抠图方法、装置、存储介质和设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频抠图方法、装置、存储介质和设备。

背景技术

对于综艺影视剧视频，每年有大量的需求需要在后期植入广告产品，为了使得植入产品与拍摄场景天衣无缝地融合，达到以假乱真地效果，就像该广告产品原本就摆放在拍摄场景中一样，需要对视频中广告产品的遮挡物进行抠图处理。此外，综艺影视剧视频中为了保护广告主权益，避免竞争产品曝光，会对视频中出现的竞争产品进行规避处理，即通过植入相似背景来遮盖竞争产品，可在不影响用户观看体验的同时，达到避免竞争产品曝光的目的。无论是植入广告产品，还是遮盖竞争产品，其关键技术就是对遮挡物的抠图处理。

传统的抠图处理，均为人工采用Adobe Photo Shop等相关图像处理软件进行逐帧抠图，效率较低，且抠图处理后的视频中会出现闪动现象，影响用户的观看体验。

发明内容

本申请提供了一种视频抠图方法、装置、存储介质和设备，目的在于提高视频抠图处理的效率。

为了实现上述目的，本申请提供了以下技术方案：

一种视频抠图方法，包括：

获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像；

利用人体检测跟踪模型，计算得出所述视频中类型为人体的遮挡物的掩膜；

利用肤色分类器，计算得出所述视频中类型为手部的遮挡物的掩膜；

利用背景差分算法，计算得出所述视频中类型为运动物体的遮挡物的掩膜；

利用AI模型，计算得出所述视频中类型为不规则物体的遮挡物的掩膜；

对计算得出的各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜；

对于每个所述目标掩膜，利用所述目标掩膜与目标植入物体图像，计算得出与所述目标掩膜对应的被遮挡区域，并更改所述被遮挡区域在目标视频帧中的图层，使得所述图层置于所述目标视频帧的最底层；所述目标植入物体图像为：与所述目标掩膜所属遮挡物对应的植入物体图像；所述目标视频帧为：标识有所述目标掩膜所属遮挡物的视频帧；所述视频帧通过解析所述视频得到。

可选的，所述利用人体检测跟踪模型，计算得出所述视频中类型为人体的遮挡物的掩膜，包括：

解析所述视频，得到标识有遮挡物的多个视频帧；

对于标识有遮挡物的每个所述视频帧，将所述视频帧输入至人体检测跟踪模型中，得到所述人体检测跟踪模型的输出结果；所述人体检测跟踪模型基于将样本视频帧作为输入，并以所述样本视频帧中人工预先标注的矩形框的位置坐标以及特征向量作为训练目标，预先训练得到；所述人体检测跟踪模型的输出结果，包括与所述视频帧对应的矩形框的位置坐标以及特征向量；

计算第一特征向量和第二特征向量的余弦相似度；所述第一特征向量为与第一视频帧对应的特征向量，所述第二特征向量为与第二视频帧对应的特征向量；所述第一视频帧和所述第二视频帧为在播放时序上连续的两个视频帧；

利用第一矩形框的位置坐标和第二矩形框的位置坐标，计算所述第一矩形框和所述第二矩形框的重叠度；所述第一矩形框为与所述第一视频帧对应的矩形框，所述第二矩形框为与所述第二视频帧对应的矩形框；

对所述余弦相似度和所述重叠度进行加权求和，得到目标数值；

在所述目标数值大于第一预设阈值的情况下，确定所述第一矩形框所框选的对象与所述第二矩形框所框选的对象，均为同一人体，并将所述同一人体标识为所述第一视频帧和所述第二视频帧所共有的目标人体；

将所述目标人体输入至人体分割网络模型中，得到所述人体分割网络模型的输出结果；所述输出结果包括所述目标人体的掩膜。

可选的，所述利用肤色分类器，计算得出所述视频中类型为手部的遮挡物的掩膜，包括：

解析所述视频，得到标识有遮挡物的视频帧；

对标识有遮挡物的所述视频帧进行双边滤波；

将标识有遮挡物的所述视频帧，从原有色彩空间转换到预设色彩空间下；

将所述预设色彩空间下的标识有遮挡物的所述视频帧，输入至肤色分类器中，得到所述肤色分类器的分类结果；所述肤色分类器基于将预先收集的肤色数据集作为训练样本，并使用贝叶斯规则预先训练得到；所述肤色数据集包括肤色样本和非肤色样本；所述肤色样本用于指示手部皮肤的肤色；所述分类结果包括皮肤区域和非皮肤区域；

对所述皮肤区域进行分割，得到手部的掩膜。

可选的，所述利用背景差分算法，计算得出所述视频中类型为运动物体的遮挡物的掩膜，包括：

获取所述视频中预先标注的背景帧；

解析所述视频，得到标识有遮挡物的视频帧；

对标识有遮挡物的视频帧和所述背景帧进行差分运算，得到差分图像；

在所述差分图像的像素总数大于第二预设阈值的情况下，确定所述遮挡物的类型为运动物体；

对所述差分图像进行二值化，并对二值化后的所述差分图像进行分割，得到所述运动物体的掩膜；

分别对所述运动物体的掩膜进行膨胀，以及对所述运动物体的掩膜进行腐蚀。

可选的，所述利用AI模型，计算得出所述视频中类型为不规则物体的遮挡物的掩膜，包括：

解析所述视频，得到标识有遮挡物、且在播放时序上连续的多个视频帧；

从各个所述视频帧中提取播放时序最早的视频帧，作为起始帧；

对所述起始帧中所存在的不规则物体进行修正，并对修正后的所述不规则物体进行标注；

将所述起始帧和其它视频帧，输入至预设的AI模型中，触发所述AI模型以所述起始帧中标注的修正后的所述不规则物体为参照对象，对所述其它视频帧进行分割，得到所述其它视频帧中所包含的不规则物体的掩膜。

可选的，所述对计算得出的各个掩膜进行高斯平滑之前，还包括：

对于计算得出的每个掩膜，将所述掩膜、以及所述掩膜所属的视频帧输入至卷积神经网络模型中，得到所述卷积神经网络模型的输出结果；所述卷积神经网络模型基于将样本掩膜和样本视频帧作为输入，并以人工修正后的所述样本掩膜作为训练目标，预先训练得到；所述输出结果包括与所述掩膜对应的第一掩膜；所述第一掩膜为添加透明度通道、以及更多的细节后的所述掩膜；

对计算得出的各个掩膜进行高斯平滑，包括：

对各个所述第一掩膜进行高斯平滑。

可选的，所述对计算得出的各个掩膜进行高斯平滑，包括：

解析所述视频，得到各个视频帧的播放时序；

按照所述播放时序从早到晚的顺序，将各个所述视频帧输入至基于共识算法的深度学习网络中，分别向后传播和向前传播计算稠密光流，得到各个所述视频帧中所包含的每个像素点在相邻视频帧的偏移量；

基于所述掩膜与所述视频帧的关联关系，获取每个所述掩膜各自所包含像素点的偏移量；

对于每个所述掩膜，对所述掩膜所包含的各个像素点的偏移量进行加权平均。

一种视频抠图装置，包括：

获取单元，用于获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像；

第一计算单元，用于利用人体检测跟踪模型，计算得出所述视频中类型为人体的遮挡物的掩膜；

第二计算单元，用于利用肤色分类器，计算得出所述视频中类型为手部的遮挡物的掩膜；

第三计算单元，用于利用背景差分算法，计算得出所述视频中类型为运动物体的遮挡物的掩膜；

第四计算单元，用于利用AI模型，计算得出所述视频中类型为不规则物体的遮挡物的掩膜；

掩膜平滑单元，用于对计算得出的各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜；

图层更改单元，用于对于每个所述目标掩膜，利用所述目标掩膜与目标植入物体图像，计算得出与所述目标掩膜对应的被遮挡区域，并更改所述被遮挡区域在目标视频帧中的图层，使得所述图层置于所述目标视频帧的最底层；所述目标植入物体图像为：与所述目标掩膜所属遮挡物对应的植入物体图像；所述目标视频帧为：标识有所述目标掩膜所属遮挡物的视频帧；所述视频帧通过解析所述视频得到。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行所述的视频抠图方法。

一种视频抠图设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行所述的视频抠图方法。

本申请提供的技术方案，获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像。利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜。利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜。利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜。利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜。对计算得出的各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜，对于每个目标掩膜，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得图层置于目标视频帧的最底层。相较于现有技术，本申请所述方案，无需人工进行逐帧抠图，效率较高。并且，对各个掩膜进行高斯平滑，能够确保视频中不会出现闪动现象，提高用户的观看体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频抠图方法的示意图；

图2为本申请实施例提供的一种计算视频中类型为人体的遮挡物的掩膜的方法的示意图；

图3为本申请实施例提供的一种计算视频中类型为手部的遮挡物的掩膜的方法的示意图；

图4为本申请实施例提供的一种计算视频中类型为运动物体的遮挡物的掩膜的方法的示意图；

图5a为本申请实施例提供的一种计算视频中类型为不规则物体的遮挡物的掩膜的方法的示意图；

图5b为本申请实施例提供的一种视频帧分割效果示意图；

图6为本申请实施例提供的另一种视频抠图方法的示意图；

图7为本申请实施例提供的一种视频抠图装置的架构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，为本申请实施例提供的一种视频抠图方法的示意图，包括如下步骤：

S101：获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像。

其中，在视频已被植入广告产品、以及视频中出现的竞争产品已进行规避处理的情况下，将视频中遮挡住广告产品以及竞争产品的替代背景的前景物体，标识为遮挡物，相应的，广告产品以及竞争产品的替代背景，则可以标识为植入物体图像。

S102：利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜。

其中，利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜的具体过程，可参见图2所示的步骤、以及步骤的解释说明。

需要说明的是，视频是由静止的画面组成的，这些静止的画面均被称为视频帧。所谓的掩膜(mask)，是由0和1组成的二进制图像，为本领域技术人员所熟悉的公知常识。

S103：利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜。

其中，利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜的具体过程，可以参见图3所示的步骤、以及步骤的解释说明。

S104：利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜。

其中，利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜的具体过程，可以参见图4所示的步骤、以及步骤的解释说明。

S105：利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜。

其中，利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜的具体过程，可以参见图5a所示的步骤、以及步骤的解释说明。

S106：对于每个掩膜，将掩膜、以及掩膜所属的视频帧输入至卷积神经网络模型中，得到卷积神经网络模型的输出结果。

其中，卷积神经网络模型基于将样本掩膜和样本视频帧作为输入，并以人工修正后的样本掩膜作为训练目标，预先训练得到。在本申请实施例中，样本视频帧为样本掩膜所属的视频帧，并且，人工修正后的样本掩膜，相较于未修正前的样本掩膜，携带有透明度(alpha)通道、以及更多的细节。人工修正样本掩膜，使样本掩膜携带透明度通道、以及更多的细节的具体实现方式，为本领域技术人员所熟悉的公知常识，这里不再赘述。此外，卷积神经网络模型训练过程中所采用的基础网络架构，包括但不限于为现有公开的MODNet架构。

需要说明的是，卷积神经网络模型的输出结果，包括与掩膜对应的第一掩膜，第一掩膜为添加透明度通道、以及更多的细节后的掩膜。

需要强调的是，与掩膜相比，第一掩膜的细节处理更加优良，图像质量得到明显提高。

S107：对各个第一掩膜进行高斯平滑，得到与每个第一掩膜对应的目标掩膜。

其中，对各个第一掩膜进行高斯平滑，能够消除掩膜的闪动现象，即确保抠图处理后的视频不存在闪动现象。

需要说明的是，对各个第一掩膜进行高斯平滑的具体过程，包括：

1、解析视频，得到各个视频帧的播放时序。

2、按照播放时序从早到晚的顺序，将各个视频帧输入至基于共识算法的深度学习网络中，分别向后传播和向前传播计算稠密光流，得到各个视频帧中所包含的每个像素点在相邻视频帧的偏移量。

3、基于第一掩膜与视频帧的关联关系，获取每个第一掩膜各自所包含像素点的偏移量。

4、对于每个第一掩膜，对第一掩膜所包含的各个像素点的偏移量进行加权平均。

S108：对于每个目标掩膜，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得所述图层置于目标视频帧的最底层。

其中，目标植入物体图像为：与目标掩膜所属遮挡物对应的植入物体图像。目标视频帧为：标识有目标掩膜所属遮挡物的视频帧。此外，视频帧通过解析视频得到。

需要说明的是，更改被遮挡区域在目标视频帧中的图层，使得所述图层置于目标视频帧的最底层，则目标掩膜所属的遮挡物将不会遮挡广告产品、以及竞争产品的替代背景。

具体的，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得所述图层置于目标视频帧的最底层的具体实现算法，包括：目标植入物体图像*目标掩膜+目标视频帧*(1-目标掩膜)。

需要强调的是，上述S101-S105所示流程，已经实现对遮挡物的抠图处理，后续提及的S106-S108，用于解决视频中所存在的闪动现象。

综上所述，相较于现有技术，本实施例所述方案，无需人工进行逐帧抠图，效率较高。并且，对各个第一掩膜进行高斯平滑，能够确保视频中不会出现闪动现象，提高用户的观看体验。

如图2所示，为本申请实施例提供的一种计算视频中类型为人体的遮挡物的掩膜的方法的示意图，包括如下步骤：

S201：解析视频，得到标识有遮挡物的多个视频帧。

S202：对于标识有遮挡物的每个视频帧，将视频帧输入至人体检测跟踪模型中，得到人体检测跟踪模型的输出结果。

其中，人体检测跟踪模型基于将样本视频帧作为输入，并以样本视频帧中人工预先标注的矩形框的位置坐标以及特征向量作为训练目标，预先训练得到。在本申请实施例中，人体检测跟踪模型的输出结果，包括与视频帧对应的矩形框的位置坐标以及特征向量。人体检测跟踪模型训练过程中所采用的基础网络架构，包括但不限于为现有公开的ResNet101架构。

具体的，位置坐标包括矩形框的左上角点的坐标以及右下角点的坐标，特征向量的维度为128。

需要说明的是，上述具体实现过程仅仅用于举例说明。

S203：计算第一特征向量和第二特征向量的余弦相似度。

其中，第一特征向量为与第一视频帧对应的特征向量，第二特征向量为与第二视频帧对应的特征向量。并且，第一视频帧和第二视频帧为在播放时序上连续的两个视频帧。

需要强调的是，余弦相似度的取值越小，则第一视频帧和第二视频帧之间的相似度越小，即第一视频帧和第二视频帧之间存在较大差异。

具体的，假设第一特征向量为

第二特征向量为

则余弦相似度cosθ的计算过程如公式(1)所示。

需要说明的是，上述具体实现过程仅仅用于举例说明。

S204：利用第一矩形框的位置坐标和第二矩形框的位置坐标，计算第一矩形框和第二矩形框的重叠度。

其中，第一矩形框为与第一视频帧对应的矩形框，第二矩形框为与第二视频帧对应的矩形框。第一矩形框和第二矩形框的重叠度，用于表征同一遮挡物(即人体)的位置，在连续的两个视频帧中的变化情况。当重叠度的取值为0时，则代表第一矩形框和第二矩形框不重叠、且没有交集，当重叠度的取值为1时，则代表第一矩形框和第二矩形框完全重叠。

需要说明的是，第一矩形框和第二矩形框的重叠度的计算过程，如公式(2)所示。

IOU＝(A∩B)/(A∪B) (2)

在公式(2)中，IOU代表重叠度，A代表第一矩形框(通常利用面积和位置进行表达，且面积和位置可由位置坐标推导得到)，B代表第二矩形框(通常利用面积和位置进行表达，且面积和位置可由位置坐标推导得到)。

S205：对余弦相似度和重叠度进行加权求和，得到目标数值。

其中，余弦相似度和重叠度各自的权重，可由技术人员根据实际情况进行设置。

S206：在目标数值大于第一预设阈值的情况下，确定第一矩形框所框选的对象与第二矩形框所框选的对象，均为同一人体，并将同一人体标识为第一视频帧和第二视频帧所共有的目标人体。

其中，第一矩形框所框选的对象与第二矩形框所框选的对象，均为同一人体，则表明第一视频帧和第二视频帧包含有同一遮挡物(即同一人体)。

S207：将目标人体输入至人体分割网络模型中，得到人体分割网络模型的输出结果。

其中，人体分割网络模型为本领域技术人员所熟悉的公知常识，用于提取目标人体的掩膜。人体分割网络模型的输出结果包括目标人体的掩膜。

综上所述，利用本实施例所述方案，能够有效计算得出视频中类型为人体的遮挡物的掩膜。

如图3所示，为本申请实施例提供的一种计算视频中类型为手部的遮挡物的掩膜的方法的示意图，包括如下步骤：

S301：以预先收集的肤色数据集作为训练样本，使用贝叶斯规则预先训练得到肤色分类器。

其中，肤色数据集包括肤色样本和非肤色样本。在本申请实施例中，肤色样本用于指示手部皮肤的肤色。使用贝叶斯规则训练得到肤色分类器的具体过程，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S302：解析视频，得到标识有遮挡物的视频帧。

S303：对标识有遮挡物的视频帧进行双边滤波。

其中，对视频帧进行双边滤波，将会过滤视频帧自身所存在的噪声，提高视频帧的色彩表现力。

S304：将标识有遮挡物的视频帧，从原有色彩空间转换到预设色彩空间下。

其中，原有色彩空间为RGB色彩空间(R代表红色，G代表绿色，B代表蓝色)，预设色彩空间为YCrCb色彩空间(Y代表明亮度，Cr和Cb均代表色彩)。

S305：将预设色彩空间下的标识有遮挡物的视频帧，输入至肤色分类器中，得到肤色分类器的分类结果。

其中，肤色分类器的分类结果包括皮肤区域和非皮肤区域。

S306：对皮肤区域进行分割，得到手部的掩膜。

其中，在大多数综艺影视剧视频中，若遮挡物的类型为手部，则确定是视频中的角色手持广告产品、以及竞争产品，由于角色的手部的皮肤均是暴露的，且手部的肤色相较于角色所在背景的颜色、以及背景中其它物体的颜色，存在明显的差别，故计算得出视频帧中的皮肤区域，该皮肤区域必定涵盖手部。

综上所述，利用本实施例所述方案，能够有效计算得出视频中类型为手部的遮挡物的掩膜。

如图4所示，为本申请实施例提供的一种计算视频中类型为运动物体的遮挡物的掩膜的方法的示意图，包括如下步骤：

S401：获取视频中预先标注的背景帧。

S402：解析视频，得到标识有遮挡物的视频帧。

S403：对标识有遮挡物的视频帧和背景帧进行差分运算，得到差分图像。

其中，差分运算的具体实现方式，为本领域技术人员所熟悉的公知常识，这里不再赘述。

S404：在差分图像的像素总数大于第二预设阈值的情况下，确定遮挡物的类型为运动物体。

S405：对差分图像进行二值化，并对二值化后的差分图像进行分割，得到运动物体的掩膜。

S406：分别对运动物体的掩膜进行膨胀，以及对运动物体的掩膜进行腐蚀。

其中，对运动物体的掩膜进行膨胀，以及对运动物体的掩膜进行腐蚀，能够解决运动物体的掩膜内部的空洞和噪声，提高运动物体的掩膜的图像质量。

综上所述，利用本实施例所述方案，能够有效计算得出视频中类型为运动物体的遮挡物的掩膜。

如图5a所示，为本申请实施例提供的一种计算视频中类型为不规则物体的遮挡物的掩膜的方法的示意图，包括如下步骤：

S501：解析视频，得到标识有遮挡物、且在播放时序上连续的多个视频帧。

S502：从各个视频帧中提取播放时序最早的视频帧，作为起始帧。

S503：对起始帧中所存在的不规则物体进行修正，并对修正后的不规则物体进行标注。

其中，不规则物体的出现，往往是不规则物体的原有样子出现缺陷，故对不规则物体进行修正，补充该缺陷。

S504：将起始帧和其它视频帧，输入至AI模型中，触发AI模型以起始帧中标注的修正后的不规则物体为参照对象，对其它视频帧进行分割，得到其它视频帧中所包含的不规则物体的掩膜。

其中，AI模型的具体实现原理为本领域技术人员所熟悉的公知常识，这里不再赘述。

具体的，AI模型以起始帧中标注的修正后的不规则物体为参照对象，对其它视频帧进行分割，其实现过程可参见图5b所示。

综上所述，利用本实施例所述方案，能够有效计算得出视频中类型为不规则物体的遮挡物的掩膜。

需要说明的是，上述各个实施例，均为本申请所述视频抠图方法的一种可选的具体实现方式。具体的，上述实施例所述方案，可以概括为图6所述方法。

如图6所示，为本申请实施例提供的另一种视频抠图方法的示意图，包括如下步骤：

S601：获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像。

S602：利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜。

S603：利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜。

S604：利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜。

S605：利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜。

S606：对计算得出的各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜。

S607：对于每个目标掩膜，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得图层置于目标视频帧的最底层。

综上所述，相较于现有技术，本实施例所述方案，无需人工进行逐帧抠图，效率较高。并且，对各个掩膜进行高斯平滑，能够确保视频中不会出现闪动现象，提高用户的观看体验。

与上述本申请实施例提供的视频抠图方法相对应，本申请实施例还提供了一种视频抠图装置。

如图7所示，为本申请实施例提供的一种视频抠图装置的架构示意图，包括：

获取单元100，用于获取视频中预先标识的多个遮挡物以及与每个遮挡物对应的植入物体图像。

第一计算单元200，用于利用人体检测跟踪模型，计算得出视频中类型为人体的遮挡物的掩膜。

其中，第一计算单元200具体用于：解析视频，得到标识有遮挡物的多个视频帧；对于标识有遮挡物的每个视频帧，将视频帧输入至人体检测跟踪模型中，得到人体检测跟踪模型的输出结果；人体检测跟踪模型基于将样本视频帧作为输入，并以样本视频帧中人工预先标注的矩形框的位置坐标以及特征向量作为训练目标，预先训练得到；人体检测跟踪模型的输出结果，包括与视频帧对应的矩形框的位置坐标以及特征向量；计算第一特征向量和第二特征向量的余弦相似度；第一特征向量为与第一视频帧对应的特征向量，第二特征向量为与第二视频帧对应的特征向量；第一视频帧和第二视频帧为在播放时序上连续的两个视频帧；利用第一矩形框的位置坐标和第二矩形框的位置坐标，计算第一矩形框和第二矩形框的重叠度；第一矩形框为与第一视频帧对应的矩形框，第二矩形框为与第二视频帧对应的矩形框；对余弦相似度和重叠度进行加权求和，得到目标数值；在目标数值大于第一预设阈值的情况下，确定第一矩形框所框选的对象与第二矩形框所框选的对象，均为同一人体，并将同一人体标识为第一视频帧和第二视频帧所共有的目标人体；将目标人体输入至人体分割网络模型中，得到人体分割网络模型的输出结果；输出结果包括目标人体的掩膜。

第二计算单元300，用于利用肤色分类器，计算得出视频中类型为手部的遮挡物的掩膜。

其中，第二计算单元300具体用于：解析视频，得到标识有遮挡物的视频帧；对标识有遮挡物的视频帧进行双边滤波；将标识有遮挡物的视频帧，从原有色彩空间转换到预设色彩空间下；将预设色彩空间下的标识有遮挡物的视频帧，输入至肤色分类器中，得到肤色分类器的分类结果；肤色分类器基于将预先收集的肤色数据集作为训练样本，并使用贝叶斯规则预先训练得到；肤色数据集包括肤色样本和非肤色样本；肤色样本用于指示手部皮肤的肤色；分类结果包括皮肤区域和非皮肤区域；对皮肤区域进行分割，得到手部的掩膜。

第三计算单元400，用于利用背景差分算法，计算得出视频中类型为运动物体的遮挡物的掩膜。

其中，第三计算单元400具体用于：获取视频中预先标注的背景帧；解析视频，得到标识有遮挡物的视频帧；对标识有遮挡物的视频帧和背景帧进行差分运算，得到差分图像；在差分图像的像素总数大于第二预设阈值的情况下，确定遮挡物的类型为运动物体；对差分图像进行二值化，并对二值化后的差分图像进行分割，得到运动物体的掩膜；分别对运动物体的掩膜进行膨胀，以及对运动物体的掩膜进行腐蚀。

第四计算单元500，用于利用AI模型，计算得出视频中类型为不规则物体的遮挡物的掩膜。

其中，第四计算单元500具体用于：解析视频，得到标识有遮挡物、且在播放时序上连续的多个视频帧；从各个视频帧中提取播放时序最早的视频帧，作为起始帧；对起始帧中所存在的不规则物体进行修正，并对修正后的不规则物体进行标注；将起始帧和其它视频帧，输入至预设的AI模型中，触发AI模型以起始帧中标注的修正后的不规则物体为参照对象，对其它视频帧进行分割，得到其它视频帧中所包含的不规则物体的掩膜。

修正单元600，用于对于计算得出的每个掩膜，将掩膜、以及掩膜所属的视频帧输入至卷积神经网络模型中，得到卷积神经网络模型的输出结果；卷积神经网络模型基于将样本掩膜和样本视频帧作为输入，并以人工修正后的样本掩膜作为训练目标，预先训练得到；输出结果包括与掩膜对应的第一掩膜；第一掩膜为添加透明度通道、以及更多的细节后的掩膜。

掩膜平滑单元700，用于对计算得出的各个掩膜进行高斯平滑，得到与每个掩膜对应的目标掩膜。

其中，掩膜平滑单元700用于对各个第一掩膜进行高斯平滑，得到与每个第一掩膜对应的目标掩膜。

掩膜平滑单元700具体用于：解析视频，得到各个视频帧的播放时序；按照播放时序从早到晚的顺序，将各个视频帧输入至基于共识算法的深度学习网络中，分别向后传播和向前传播计算稠密光流，得到各个视频帧中所包含的每个像素点在相邻视频帧的偏移量；基于掩膜与视频帧的关联关系，获取每个掩膜各自所包含像素点的偏移量；对于每个掩膜，对掩膜所包含的各个像素点的偏移量进行加权平均。

图层更改单元800，用于对于每个目标掩膜，利用目标掩膜与目标植入物体图像，计算得出与目标掩膜对应的被遮挡区域，并更改被遮挡区域在目标视频帧中的图层，使得图层置于目标视频帧的最底层；目标植入物体图像为：与目标掩膜所属遮挡物对应的植入物体图像；目标视频帧为：标识有目标掩膜所属遮挡物的视频帧；视频帧通过解析视频得到。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，程序执行上述本申请提供的视频抠图方法。

本申请还提供了一种视频抠图设备，包括：处理器、存储器和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的视频抠图方法，包括如下步骤：

解析所述视频，得到标识有遮挡物的多个视频帧；

解析所述视频，得到标识有遮挡物的视频帧；

对标识有遮挡物的所述视频帧进行双边滤波；

将所述预设色彩空间下的标识有遮挡物的所述视频帧，输入至所述肤色分类器中，得到所述肤色分类器的分类结果；所述肤色分类器基于将预先收集的肤色数据集作为训练样本，并使用贝叶斯规则预先训练得到；所述肤色数据集包括肤色样本和非肤色样本；所述肤色样本用于指示手部皮肤的肤色；所述分类结果包括皮肤区域和非皮肤区域；

对所述皮肤区域进行分割，得到手部的掩膜。

获取所述视频中预先标注的背景帧；

解析所述视频，得到标识有遮挡物的视频帧；

对计算得出的各个掩膜进行高斯平滑，包括：

对各个所述第一掩膜进行高斯平滑。

可选的，所述对计算得出的各个掩膜进行高斯平滑，包括：

解析所述视频，得到各个视频帧的播放时序；

本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频抠图方法，其特征在于，包括：

对于每个所述目标掩膜，利用所述目标掩膜与目标植入物体图像，计算得出与所述目标掩膜对应的被遮挡区域，并更改所述被遮挡区域在目标视频帧中的图层，使得所述图层置于所述目标视频帧的最底层；所述目标植入物体图像为：与所述目标掩膜所属遮挡物对应的植入物体图像；所述目标视频帧为：标识有所述目标掩膜所属遮挡物的视频帧；所述视频帧通过解析所述视频得到；

所述对计算得出的各个掩膜进行高斯平滑之前，还包括：

对计算得出的各个掩膜进行高斯平滑，包括：

对各个所述第一掩膜进行高斯平滑。

2.根据权利要求1所述的方法，其特征在于，所述利用人体检测跟踪模型，计算得出所述视频中类型为人体的遮挡物的掩膜，包括：

解析所述视频，得到标识有遮挡物的多个视频帧；

3.根据权利要求1所述的方法，其特征在于，所述利用肤色分类器，计算得出所述视频中类型为手部的遮挡物的掩膜，包括：

解析所述视频，得到标识有遮挡物的视频帧；

对标识有遮挡物的所述视频帧进行双边滤波；

对所述皮肤区域进行分割，得到手部的掩膜。

4.根据权利要求1所述的方法，其特征在于，所述利用背景差分算法，计算得出所述视频中类型为运动物体的遮挡物的掩膜，包括：

获取所述视频中预先标注的背景帧；

解析所述视频，得到标识有遮挡物的视频帧；

5.根据权利要求1所述的方法，其特征在于，所述利用AI模型，计算得出所述视频中类型为不规则物体的遮挡物的掩膜，包括：

6.根据权利要求1所述的方法，其特征在于，所述对计算得出的各个掩膜进行高斯平滑，包括：

解析所述视频，得到各个视频帧的播放时序；

7.一种视频抠图装置，其特征在于，包括：

图层更改单元，用于对于每个所述目标掩膜，利用所述目标掩膜与目标植入物体图像，计算得出与所述目标掩膜对应的被遮挡区域，并更改所述被遮挡区域在目标视频帧中的图层，使得所述图层置于所述目标视频帧的最底层；所述目标植入物体图像为：与所述目标掩膜所属遮挡物对应的植入物体图像；所述目标视频帧为：标识有所述目标掩膜所属遮挡物的视频帧；所述视频帧通过解析所述视频得到；

所述图层更改单元，还用于对于计算得出的每个掩膜，将所述掩膜、以及所述掩膜所属的视频帧输入至卷积神经网络模型中，得到所述卷积神经网络模型的输出结果；所述卷积神经网络模型基于将样本掩膜和样本视频帧作为输入，并以人工修正后的所述样本掩膜作为训练目标，预先训练得到；所述输出结果包括与所述掩膜对应的第一掩膜；所述第一掩膜为添加透明度通道、以及更多的细节后的所述掩膜；对计算得出的各个掩膜进行高斯平滑，包括：对各个所述第一掩膜进行高斯平滑。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1-6任一所述的视频抠图方法。

9.一种视频抠图设备，其特征在于，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；

所述存储器用于存储程序，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1-6任一所述的视频抠图方法。