CN115100223A

CN115100223A - 一种基于深度时空学习的高分辨率视频虚拟人物抠像方法

Info

Publication number: CN115100223A
Application number: CN202210655185.4A
Authority: CN
Inventors: 黄海; 陈傲然; 朱玥琰; 薛俊笙; 于华妍; 张舒; 景晓军; 陈洪; 穆俊生; 田耒
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-23

Abstract

本发明公开了一种基于深度时空学习的高分辨率视频虚拟人物抠像方法，该方法包括：将视频数据输入至训练好的抠像网络模型进行虚拟人物图像遮罩提取，基于视频数据通过时空编解码模型得到第一输出数据，基于第一输出数据通过细节提取模型得到第二输出数据，基于第二输出数据通过语义信息融合模型输出得到视频数据的虚拟人物遮罩图像；其中，第一输出数据包括高分辨率遮罩图像、低分辨率遮罩图像、高分辨率编码特征和低分辨率编码特征；第二输出数据包括高分辨率细节遮罩图像和低分辨率细节遮罩图像。本发明解决现有方法对视频中虚拟人物提取方面的效果差，难以处理好微小细节，且处理高分辨率视频时不能做到实时处理和出现闪烁伪影坏帧的问题。

Description

一种基于深度时空学习的高分辨率视频虚拟人物抠像方法

技术领域

本发明涉及人像提取技术领域，尤其涉及一种基于深度时空学习的高分辨率视频虚拟人物抠像方法。

背景技术

随着当代移动互联网中媒体智能化短视频成为主要的信息广播风口，通过虚拟增强现实技术实时合成的视频影像已经成为了3D虚拟人物、虚拟预渲染舞台、真人和真实背景等多要素的融合结果。将高分辨率的合成影像中的虚拟人物与背景分离得到清晰的纯人像，能够直接作为视频虚实融合素材多次使用，避免将同一个3D模型反复渲染造成算力浪费。

现有的人像提取办法，主要可以分为两类：

对图像的人像手动提取：现有的修图软件，如Adobe Photoshop，支持用户使用套索工具进行粗轮廓绘制，然后软件进行边缘配定，提取出照片中的人像，从而进行背景替换等进一步操作，但此种方法难以应用到视频中；

对视频的人像自动提取：较传统方法多采用边缘滤波算符或像素分布先验进行人像边缘的确定，但耗时多，且对高分辨率图像准度较低；基于机器学习的方法多把人像提取看作实例分割任务的子任务，通过包含大量人像和人像遮罩的数据集进行迭代训练，但是经过调研，现有的人像提取模型基本都是针对真人设计的，少有针对虚拟人物设计的，而且处理高分辨率视频的计算效率偏低，且逐帧处理视频中的人像会导致出现抠图的不连贯估计造成闪烁和伪影导致观感变差。

现有的人像提取算法可以分为传统方法和基于深度学习的方法：传统的抠图方法又可以分为手动抠图与计算机传统抠图，手动抠图一般基于人手工绘制提取轮廓；计算机传统抠图一般为贝叶斯先验抠图，假设像素点周围和相近颜色的像素会具有相似的遮罩来反推背景像素概率分布，从而逐个判别像素点是否属于背景，最终得到完整的抠取人像；基于深度学习的方法是通过改造已有的实例分割网络模型，基于卷积神经网络或循环神经网络，通过辅助的掩码图像或Trimap辅助识别，进行人像轮廓预测。一般使用均方误差(MeanSquare Error)和平均绝对距离(Mean Absolute Distance)进行抠图效果评价。

现有方法中为基于实例分割模型改造的多通道卷积神经网络人像提取模型，其模型步骤主要如下：

输入是由RGB彩色图像或视频和Trimap的联合输入，经过卷积操作、transformer预加权操作或标准归一化操作进行预处理；将得到的图像(视频)输入卷积神经网络模块，分多层提取不同尺度的特征图和ROI，输出人像所在的候选回归框；对多尺度特征图使用时空注意力机制、通道注意力机制或多层感知机进行特征编码，得到最终的编码输出；将多通道卷积网络模块的编码结果输入解码器，通过对编码输出进行解码得到提取出的人像输出，并依据候选回归框定位解码输出；最终计算解码输出与真实掩码的像素损失，进行损失函数的梯度反向传播，迭代优化网络模型参数。

现有的人像抠图技术都是针对真人的，不能很好的抠取合成视频中的虚拟人物，在图像人像提取算法方面：

传统图像抠图方法：基于手工绘制边界框的方法准确度高，但是效率极其低下，且不能应用到视频中；基于边缘检测的方法，如绿幕视频抠像，和基于贝叶斯的先验估计判别方法，适用场景受限，不能很好的应对复杂背景环境的人像提取人物，并且准确度较低。

基于深度学习的方法：基于卷积神经网络的方法可以对视频中的人像进行轮廓提取，通过对大数据集的充分训练可以确保抠像准确度，但是越为复杂的卷积网络运行效率越为低下，复杂卷积结构与轻量实时运行的需求难以同时满足。

视频人像提取方面：

基于改造的实例分割模型的方法：现有的实例分割模型通过mosaic等图像处理方式提升了在高分辨率视频上的处理效率，通过加入通道注意力、空间注意力、域注意力等机制或使用transformer代替卷积层等操作可以有效增加编解码器的效果，但是对视频的逐帧抠取会造成帧与帧之间不够连贯，没有利用不同帧之间的像素信息关联，造成闪烁伪影等坏帧的出现。

基于循环神经网络的方法：循环神经网络通过在神经网络中引入重复的链式连接模块学习时序序列中的不同时刻的信息关联，在抠像时引入光流跟踪等时变有效特征可以提升抠像准确度的同时保证帧间人像提取结果的连续性。但是循环神经网络在高分辨率视频上难以提取像素空间上的微小细节，且虚拟合成视频中半透明效果较多，在复杂削光区域的光流跟踪较为困难，会导致时序信息跟踪失败，反而会降低提取人像的准确度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的目的在于提出一种基于深度时空学习的高分辨率视频虚拟人物抠像方法，可以有效的还原虚拟人像的边缘细节，也克服了传统的循环神经网络对空间信息的学习能力不足的问题，增强最终提取遮罩的真实感和细节感，完成了虚拟人像遮罩提取的细节信息与语义信息的整体融合，保证了遮罩提取的准确性、高效性和鲁棒性。

本发明的另一个目的在于提出一种基于深度时空学习的高分辨率视频虚拟人物抠像装置。

为达上述目的，本发明一方面提出了一种基于深度时空学习的高分辨率视频虚拟人物抠像方法，包括：

实时采集视频数据；其中，所述视频数据包括待提取的虚拟人物遮罩图像；

将所述视频数据输入至训练好的抠像网络模型进行虚拟人物图像遮罩提取，其中，所述抠像网络模型包括时空编解码模型、细节提取模型和语义信息融合模型；

基于所述视频数据通过所述时空编解码模型得到第一输出数据，基于所述第一输出数据通过所述细节提取模型得到第二输出数据，基于所述第二输出数据通过所述语义信息融合模型输出得到所述视频数据的虚拟人物遮罩图像；其中，所述第一输出数据包括高分辨率遮罩图像、低分辨率遮罩图像、高分辨率编码特征和低分辨率编码特征；所述第二输出数据包括高分辨率细节遮罩图像和低分辨率细节遮罩图像。

另外，根据本发明上述实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，在将所述视频数据输入所述训练好的抠像网络模型之前还包括：对所述视频数据进行数据预处理；根据帧间像素分布相似度对预处理后的视频数据进行帧内分组，以将所述视频数据拆分为多个原始帧图像。

进一步地，在本发明的一个实施例中，所述时空编解码模型，包括时空编码器、时空解码器和ST-ConvLSTM编解码器，所述基于视频数据通过所述时空编解码模型得到第一输出数据，包括：将所述原始帧图像通过两路下采样后输入所述时空编码器进行特征提取，得到语义提取特征；将所述语义提取特征通过所述ST-ConvLSTM编解码器卷积操作，预测得到时序张量特征；将所述时序张量特征输入所述时空解码器，通过对所述时空解码器输出数据的第一深度引导滤波操作，一路输出高分辨率遮罩图像和高分辨率编码特征，另一路输出低分辨率遮罩图像和低分辨率编码特征。

进一步地，在本发明的一个实施例中，所述基于第一输出数据通过所述细节提取模型得到第二输出数据，包括：通过细节提取模型将所述原始帧图像的两路下采样图像与所述高分辨率编码特征和所述低分辨率编码特征进行通道特征拼接后输入所述时空编码器得到第一拼接特征和第二拼接特征；将所述第一拼接特征和所述高分辨率遮罩以及将所述第二拼接特征和所述低分辨率遮罩图像进行通道特征拼接后输入所述时空解码器，输出得到第三拼接特征和第四拼接特征；通过对所述第三拼接特征和第四拼接特征的第二深度引导滤波操作，通过所述细节提取模型一路输出得到所述高分辨率细节遮罩图像和另一路输出得到所述低分辨率细节遮罩图像。

进一步地，在本发明的一个实施例中，所述基于第二输出数据通过所述语义信息融合模型输出得到所述视频数据的虚拟人物遮罩图像，包括：通过语义信息融合模型将所述高分辨率遮罩图像上采样后与所述高分辨率编码特征进行通道特征拼接后输入第一卷积神经网络，输出得到第一整体高分辨率遮罩图像；将所述低分辨率遮罩图像上采样后与所述低分辨率编码特征进行通道特征拼接，输入第二卷积神经网络后并与所述整体高分辨率遮罩图像进行通道特征拼接，得到第二整体高分辨率遮罩图像；将所述第二整体高分辨率遮罩图像输入第三卷积神经网络，并对所述第三卷积神经网络的输出数据进行第三深度引导滤波操作，通过所述语义信息融合模型输出所述视频数据的虚拟人物遮罩图像。

为达到上述目的，本发明另一方面提出了一种基于深度学习的快速毫米波与太赫兹波安检成像装置，包括：

数据采集模块，用于实时采集视频数据；其中，所述视频数据包括待提取的虚拟人物遮罩图像；

遮罩提取模块，用于将所述视频数据输入至训练好的抠像网络模型进行虚拟人物图像遮罩提取，其中，所述抠像网络模型包括时空编解码模型、细节提取模型和语义信息融合模型；

数据输出模块，用于基于所述视频数据通过所述时空编解码模型得到第一输出数据，基于所述第一输出数据通过所述细节提取模型得到第二输出数据，基于所述第二输出数据通过所述语义信息融合模型输出得到所述视频数据的虚拟人物遮罩图像；其中，所述第一输出数据包括高分辨率遮罩图像、低分辨率遮罩图像、高分辨率编码特征和低分辨率编码特征；所述第二输出数据包括高分辨率细节遮罩图像和低分辨率细节遮罩图像。

本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法和装置，可以有效的还原虚拟人像的边缘细节，也克服了传统的循环神经网络对空间信息的学习能力不足的问题，增强最终提取遮罩的真实感和细节感，完成了虚拟人像遮罩提取的细节信息与语义信息的整体融合，保证了遮罩提取的准确性、高效性和鲁棒性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法流程图；

图2为根据本发明实施例的第一输出数据计算方法流程图；

图3为根据本发明实施例的第二输出数据计算方法流程图；

图4为根据本发明实施例的虚拟人物遮罩图像提取方法流程图；

图5为根据本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法的架构示意图；

图6为根据本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像装置结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于深度时空学习的高分辨率视频虚拟人物抠像方法及装置。

图1是本发明一个实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，实时采集视频数据；其中，视频数据包括待提取的虚拟人物遮罩图像；

S2，将视频数据输入至训练好的抠像网络模型进行虚拟人物图像遮罩提取，其中，抠像网络模型包括时空编解码模型、细节提取模型和语义信息融合模型；

S3，基于视频数据通过时空编解码模型得到第一输出数据，基于第一输出数据通过细节提取模型得到第二输出数据，基于第二输出数据通过语义信息融合模型输出得到视频数据的虚拟人物遮罩图像；其中，第一输出数据包括高分辨率遮罩图像、低分辨率遮罩图像、高分辨率编码特征和低分辨率编码特征；第二输出数据包括高分辨率细节遮罩图像和低分辨率细节遮罩图像。

具体的下面结合附图对本发明实施例进行详细阐述。

具体的，需要先采集视频数据，对数据集的选取与处理问题。本发明的模型依赖于深度学习网络框架，需要使用大量的视频数据集进行训练迭代学习。

本发明实施例对数据的处理方式包括合成自监督策略与训练前预处理。通过引入目标一致性约束进行合成影像的自监督，即对于模型而言，应当对于任意不同的背景都能够成功抠像出完整的同一个虚拟人物，而在训练中则可以随机组合虚拟人物与其所在背景，进行自监督训练，从而提升模型的泛化能力。训练前预处理操作可以分为对视频图像整体的随机旋转、平移、遮挡等操作，并且使用统计学的方式，逐帧计算视频中每帧图像的像素分布，依据帧间的像素分布的相似度判断是否出现了背景环境变更，以此为依据进行帧间分组，而不是将全部的视频帧同时输入抠像模型。

进一步地，基于ST-ConvLSTM模块的时空编解码模块的运行。

作为一种示例，基于轻量卷积网络的语义信息编解码器与基于空洞空间卷积池化金字塔(ASPP)与ST-ConvLSTM的编解码器。ASPP在空间卷积池化金字塔的基础上引入空洞卷积，可以以多个比例捕捉图像语义信息的上下文特征。空间卷积池化金字塔利用多个不同尺度的池化层提取每张图像的固定维度的特征，保证了对于不同尺寸的图像输入都能有固定尺寸的输出，可以用同一个全连接网络进行训练。不同采样率的空洞卷积可以有效扩大卷积核的感受野，提升多尺度特征提取的整体效果。ST-ConvLSTM模块是基于传统的用于处理时序1D序列的LSTM模块的基础上引入卷积操作，使得模块可以进行从2D(3D)时序张量预测2D(3D)时序张量，从而学习视频中不同帧之间的时序依赖关系。每个ST-ConvLSTM模块有三路输入和两路输出，具体计算过程可由如下公式概括：

ST(·)＝Spatial_Temporal_Attention_Function(·)

i(t)＝σ(W_xi*ST(x(t))+W_hi*h(t)+W_ci·c(t-1)+bias_i)

f(t)＝σ(W_xf*ST(x(t))+W_hf*h(t-1)+W_cf·c(t-1)+bias_f)

c(t)＝f(t)·c(t-1)+i(t)·tanh(W_xc*ST(x(t))+W_hc*h(t-1)+b_c)

o(t)＝σ(W_xo*ST(x(t))+W_ho*h(t-1)+W_co·c(t)+bias_o)

h(t)＝o(t)·tanh(c(t))

经过时空编解码器操作的输出语义将通过深度引导滤波模块，以原始的输入帧为引导图进行引导滤波，从而计算输入图像的高分辨率遮罩与低分辨率遮罩。整个步骤流程如图2所示。

本发明实施例，使用基于ST-ConvLSTM构建的时空编解码器搭建的模型，ST-ConvLSTM模块可以有效的提取和记忆具有时序关系的连续多帧视频图像之间的特征关联信息，通过将完整视频按照指定帧数进行分组划分，并依照划分组数重复的链式连接时空编解码器，能够同时利用空间和时间两个维度上的信息，空间信息的特征提取主要由卷积编码和通道注意力机制实现，能够有效的保证人像提取的准确率；时间信息的特征提取由时序编解码器预测视频不同帧之间的长短期依赖实现，能够有效对抗视频中的坏帧，并大大加强模型对高动态环境的抠像连续性，克服闪烁伪影等问题。

本发明实施例，在时序循环网络中加入通道注意力机制和光场深度引导滤波器，能够更好的加强网络模型对人像边缘的提取能力。通道注意力机制能够有效的提取每帧图像中的多重语义信息，弥补了时序循环网络特征提取能力弱的问题；光场深度引导滤波则可以通过对高分辨率视频的下采样与深度引导滤波还原高分辨率细节，提升模型在高分辨率视频上的计算效率与虚拟人像边缘的处理效果，如纤细毛发、半透明衣物和较尖锐饰品等虚拟视频中常用的合成组件。

进一步地，采用两路细节提取模块分别提取原始图像的低分辨率细节和高分辨率细节。在高分辨率细节提取模块中，将原视频帧的下采样图像与时空语义编码器输出的中间高分辨率特征拼接为待编码张量输入时空编码器，并与时空语义提取模块输出的高分辨率遮罩进行拼接后输入时空解码器，然后以拼接张量为引导图与时空解码器的输出进行深度引导滤波，得到原帧的高分辨率细节遮罩。同样的，在低分辨率细节提取模块中，利用输入时空语义编码器输出的中间低分辨率特征与时空语义提取模块输出的低分辨率遮罩计算原帧的低分辨率细节遮罩，从而完成视频帧中的细节提取。具体流程如图3所示。

具体的，本发明实施例分两个模块进行视频中虚拟人像的细节提取：低分辨率细节提取模块和高分辨率细节提取模块。低分辨率细节提取模块利用时空编解码器提取的低分辨率中间特征与实例语义结合计算视频中的低分辨率细节，高分辨率细节提取模块利用高分辨率中间特征与低分辨率细节融合实例语义结合计算视频中的高分辨率细节，从而能够提取更高精度的虚拟人像遮罩，缓解动态细节模糊问题。

具体的，在处理细节信息的方式：通过将光场滤波器的解码语义输出与提取的低分辨率细节进行第一次融合，将细节语义融合结果作为中间输入，与高分辨率细节进行再次进行逐帧滤波融合，从而切实巩固提取人像中的高分辨率边缘细节，进一步的提升人像提取效果。

进一步地，低分辨率细节，高分辨率细节与语义信息融合模块(输出模块)：时空语义提取模块输出的高分辨率遮罩进行上采样，然后与高分辨率细节遮罩进行拼接，输入一个轻量的CNN网络后的输出作为整体高分辨率遮罩，而时空语义提取模块输出的低分辨率遮罩进行上采样后与低分辨率细节遮罩进行拼接，再次进行上采样后与整体高分辨率遮罩进行拼接，再次输入一个轻量的CNN网络后作为最后的遮罩提取帧，并以原帧为引导图像进行深度引导滤波，从而输出最终的完整遮罩影像，至此，本发明完成了对视频中虚拟人像遮罩视频的提取。具体流程如图4所示。

本发明实施例将待提取虚拟人物遮罩的原始视频作为模型输入，进行随机的旋转、平移、遮挡等预处理后，根据帧间像素分布相似度进行帧内小批分组，分组将原视频拆分并输入模型。输入视频将通过两路下采样后逐帧进入时空语义提取编解码器，时空语义提取编解码器将分别输出提取的高分辨率遮罩、低分辨率遮罩、高分辨率编码特征和低分辨率编码特征。高/低分辨率编码特征将与下采样输入进行通道拼接，再次进行时序编码后高/低分辨率遮罩进行通道拼接，进行解码和深度引导滤波后将得到高分辨率提取细节和低分辨率提取细节两路输出。最后，将高分辨率遮罩、低分辨率遮罩、高分辨率细节、低分辨率细节作为时空语义融合模块的输入并进行深度引导滤波，得到最终的虚拟人像遮罩提取视频。整体框架的流程如图5所示。

本发明的有益效果为：

1)增加了基于ST-ConvLSTM模块的时空编解码模块、光场深度引导模块、多路细节提取模块，并从语义信息与细节特征融合的角度考虑虚拟人像遮罩提取问题。基于ST-ConvLSTM模块的时空编解码模块可以同时利用卷积网络与图像信息的提取能力和时序神经网络对帧间时序关系的提取能力，实现了时间和空间两个维度上的有效信息利用，最大化的利用了原始视频的输入信息。光场深度引导模块代替传统的上采样模块，能够根据引导图梯度有效的对遮罩图像进行边缘平滑线性滤波，兼顾了滤波效率与细节感知能力。多路细节提取模块能够有效提取高分辨率视频中的每帧影像中的不同分辨率细节，能够防止模型遗忘过于精细细节，也能够防止将噪声作为高分辨率细节进行错误的细节补充。语义信息与细节特征融合模块将所有模块的不同尺度输出进行空间维度上的整合，有效的利用了模型所有的计算结果，只利用语义信息会丢失细节特征仅得到模糊边缘的遮罩，仅细节信息则会无法完成引导滤波，所以通过该模块我们完成了虚拟人像遮罩提取的细节信息与语义信息的整体融合，保证了遮罩提取的准确性、高效性和鲁棒性。

2)现有方法多针对真人影像遮罩提取，对虚拟人像的视频影像遮罩提取重视不足。逐帧手工抠取的现有方法处理用于视频的效率过于低下。本发明不依赖传统先验，而且利用时序模块提取帧间时序关联，可以比基于实例分割的卷积神经网络更加侧重帧间的时序关联；同时，本发明引入多路细节提取模块，可以有效的还原虚拟人像的边缘细节，也克服了传统的循环神经网络对空间信息的学习能力不足的问题，增强最终提取遮罩的真实感和细节感。

2)在实例分割网络中，本发明加入了基于卷积长短期记忆模块构造的时空编解码模块，与一般的卷积神经网络作为骨干网络和检测头的实例分割模型不同，时空编解码模块不仅利用时序通道注意力合理分配不同帧上的视觉权重，还可以确保帧与帧之间的虚拟人像轮廓连续性。

3)与一般的循环神经网络不同，本发明的模型并非单阶段直接输出结果，或者多个重复相同模块迭代优化输出结果，而是使用基于卷积长短期记忆模块构造的时空编解码模块为语义信息、低分辨率细节信息和高分辨率细节信息提取模块进行输入输出和中间编码特征的组合计算，能够在充分利用时序信息的同时分低分辨率细节融合和高分辨率细节融合加强人像细节部分的提取效果。

4)对于细节提取方面，通过深度深度引导滤波器解决高分辨率细节计算量过大的问题，使用于卷积长短期记忆模块构造的时空编解码模块分辨提取视频语义中的低分辨率细节信息与高分辨率细节信息进行虚拟人像细节的全面修补。

5)采用多处中间特征前向跳跃链接，分多次进行语义信息与细节信息融合的语义融合策略，使得整体模型可以做到从视频中直接提取输出视频，保留原视频中语义完整细节完好的提取人像。

根据本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像方法，可以有效的还原虚拟人像的边缘细节，也克服了传统的循环神经网络对空间信息的学习能力不足的问题，增强最终提取遮罩的真实感和细节感，完成了虚拟人像遮罩提取的细节信息与语义信息的整体融合，保证了遮罩提取的准确性、高效性和鲁棒性。

为了实现上述实施例，如图6所示，本实施例中还提供了基于深度时空学习的高分辨率视频虚拟人物抠像装置10，该装置10包括：数据采集模块100、遮罩提取模块200和数据输出模块300。

数据采集模块100，用于实时采集视频数据；其中，视频数据包括待提取的虚拟人物遮罩图像；

遮罩提取模块200，用于将视频数据输入至训练好的抠像网络模型进行虚拟人物图像遮罩提取，其中，抠像网络模型包括时空编解码模型、细节提取模型和语义信息融合模型；

数据输出模块300，用于基于视频数据通过所述时空编解码模型得到第一输出数据，基于第一输出数据通过细节提取模型得到第二输出数据，基于第二输出数据通过语义信息融合模型输出得到视频数据的虚拟人物遮罩图像；其中，第一输出数据包括高分辨率遮罩图像、低分辨率遮罩图像、高分辨率编码特征和低分辨率编码特征；第二输出数据包括高分辨率细节遮罩图像和低分辨率细节遮罩图像。

进一步地，在遮罩提取模块200之前还包括：

预处理模块，用于对视频数据进行数据预处理；

图像拆分模块，用于根据帧间像素分布相似度对预处理后的视频数据进行帧内分组，以将视频数据拆分为多个原始帧图像。

进一步地，上述时空编解码模型，包括时空编码器、时空解码器和ST-ConvLSTM编解码器，上述数据输出模块300，包括：

语义提取模块，用于将原始帧图像通过两路下采样后输入所述时空编码器进行特征提取，得到语义提取特征；

张量预测模块，用于将语义提取特征通过所述ST-ConvLSTM编解码器卷积操作，预测得到时序张量特征；

特征输出模块，用于将时序张量特征输入时空解码器，通过对时空解码器输出数据的第一深度引导滤波操作，一路输出高分辨率遮罩图像和高分辨率编码特征，另一路输出低分辨率遮罩图像和低分辨率编码特征。

进一步地，上述数据输出模块300，还包括：

第一拼接模块，用于通过细节提取模型将原始帧图像的两路下采样图像与高分辨率编码特征和低分辨率编码特征进行通道特征拼接后输入时空编码器得到第一拼接特征和第二拼接特征；

第二拼接模块，用于将第一拼接特征和高分辨率遮罩以及将第二拼接特征和低分辨率遮罩图像进行通道特征拼接后输入时空解码器，输出得到第三拼接特征和第四拼接特征；

细节提取模块，用于通过对第三拼接特征和第四拼接特征的第二深度引导滤波操作，通过细节提取模型一路输出得到高分辨率细节遮罩图像和另一路输出得到低分辨率细节遮罩图像。

进一步地，上述数据输出模块300，还包括：

采样输出模块，用于通过语义信息融合模型将高分辨率遮罩图像上采样后与高分辨率编码特征进行通道特征拼接后输入第一卷积神经网络，输出得到第一整体高分辨率遮罩图像；

卷积拼接模块，用于将低分辨率遮罩图像上采样后与低分辨率编码特征进行通道特征拼接，输入第二卷积神经网络后并与整体高分辨率遮罩图像进行通道特征拼接，得到第二整体高分辨率遮罩图像；

滤波输出模块，用于将第二整体高分辨率遮罩图像输入第三卷积神经网络，并对第三卷积神经网络的输出数据进行第三深度引导滤波操作，通过语义信息融合模型输出视频数据的虚拟人物遮罩图像。

根据本发明实施例的基于深度时空学习的高分辨率视频虚拟人物抠像装置，可以有效的还原虚拟人像的边缘细节，也克服了传统的循环神经网络对空间信息的学习能力不足的问题，增强最终提取遮罩的真实感和细节感，完成了虚拟人像遮罩提取的细节信息与语义信息的整体融合，保证了遮罩提取的准确性、高效性和鲁棒性。

需要说明的是，前述对基于深度时空学习的高分辨率视频虚拟人物抠像方法实施例的解释说明也适用于该实施例的基于深度时空学习的高分辨率视频虚拟人物抠像装置，此处不再赘述。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度时空学习的高分辨率视频虚拟人物抠像方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在将所述视频数据输入所述训练好的抠像网络模型之前还包括：

对所述视频数据进行数据预处理；

根据帧间像素分布相似度对预处理后的视频数据进行帧内分组，以将所述视频数据拆分为多个原始帧图像。

3.根据权利要求2所述的方法，其特征在于，所述时空编解码模型，包括时空编码器、时空解码器和ST-ConvLSTM编解码器，所述基于视频数据通过所述时空编解码模型得到第一输出数据，包括：

将所述原始帧图像通过两路下采样后输入所述时空编码器进行特征提取，得到语义提取特征；

将所述语义提取特征通过所述ST-ConvLSTM编解码器卷积操作，预测得到时序张量特征；

将所述时序张量特征输入所述时空解码器，通过对所述时空解码器输出数据的第一深度引导滤波操作，一路输出高分辨率遮罩图像和高分辨率编码特征，另一路输出低分辨率遮罩图像和低分辨率编码特征。

4.根据权利要求3所述的方法，其特征在于，所述基于第一输出数据通过所述细节提取模型得到第二输出数据，包括：

通过细节提取模型将所述原始帧图像的两路下采样图像与所述高分辨率编码特征和所述低分辨率编码特征进行通道特征拼接后输入所述时空编码器得到第一拼接特征和第二拼接特征；

将所述第一拼接特征和所述高分辨率遮罩以及将所述第二拼接特征和所述低分辨率遮罩图像进行通道特征拼接后输入所述时空解码器，输出得到第三拼接特征和第四拼接特征；

通过对所述第三拼接特征和第四拼接特征的第二深度引导滤波操作，通过所述细节提取模型一路输出得到所述高分辨率细节遮罩图像和另一路输出得到所述低分辨率细节遮罩图像。

5.根据权利要求4所述的方法，其特征在于，所述基于第二输出数据通过所述语义信息融合模型输出得到所述视频数据的虚拟人物遮罩图像，包括：

通过语义信息融合模型将所述高分辨率遮罩图像上采样后与所述高分辨率编码特征进行通道特征拼接后输入第一卷积神经网络，输出得到第一整体高分辨率遮罩图像；

将所述低分辨率遮罩图像上采样后与所述低分辨率编码特征进行通道特征拼接，输入第二卷积神经网络后并与所述整体高分辨率遮罩图像进行通道特征拼接，得到第二整体高分辨率遮罩图像；

将所述第二整体高分辨率遮罩图像输入第三卷积神经网络，并对所述第三卷积神经网络的输出数据进行第三深度引导滤波操作，通过所述语义信息融合模型输出所述视频数据的虚拟人物遮罩图像。

6.一种基于深度时空学习的高分辨率视频虚拟人物抠像装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，在遮罩提取模块之前还包括：

预处理模块，用于对所述视频数据进行数据预处理；

图像拆分模块，用于根据帧间像素分布相似度对预处理后的视频数据进行帧内分组，以将所述视频数据拆分为多个原始帧图像。

8.根据权利要求7所述的装置，其特征在于，所述时空编解码模型，包括时空编码器、时空解码器和ST-ConvLSTM编解码器，所述数据输出模块，包括：

语义提取模块，用于将所述原始帧图像通过两路下采样后输入所述时空编码器进行特征提取，得到语义提取特征；

张量预测模块，用于将所述语义提取特征通过所述ST-ConvLSTM编解码器卷积操作，预测得到时序张量特征；

特征输出模块，用于将所述时序张量特征输入所述时空解码器，通过对所述时空解码器输出数据的第一深度引导滤波操作，一路输出高分辨率遮罩图像和高分辨率编码特征，另一路输出低分辨率遮罩图像和低分辨率编码特征。

9.根据权利要求8所述的装置，其特征在于，所述数据输出模块，还包括：

第一拼接模块，用于通过细节提取模型将所述原始帧图像的两路下采样图像与所述高分辨率编码特征和所述低分辨率编码特征进行通道特征拼接后输入所述时空编码器得到第一拼接特征和第二拼接特征；

第二拼接模块，用于将所述第一拼接特征和所述高分辨率遮罩以及将所述第二拼接特征和所述低分辨率遮罩图像进行通道特征拼接后输入所述时空解码器，输出得到第三拼接特征和第四拼接特征；

细节提取模块，用于通过对所述第三拼接特征和第四拼接特征的第二深度引导滤波操作，通过所述细节提取模型一路输出得到所述高分辨率细节遮罩图像和另一路输出得到所述低分辨率细节遮罩图像。

10.根据权利要求9所述的装置，其特征在于，所述数据输出模块，还包括：

采样输出模块，用于通过语义信息融合模型将所述高分辨率遮罩图像上采样后与所述高分辨率编码特征进行通道特征拼接后输入第一卷积神经网络，输出得到第一整体高分辨率遮罩图像；

卷积拼接模块，用于将所述低分辨率遮罩图像上采样后与所述低分辨率编码特征进行通道特征拼接，输入第二卷积神经网络后并与所述整体高分辨率遮罩图像进行通道特征拼接，得到第二整体高分辨率遮罩图像；

滤波输出模块，用于将所述第二整体高分辨率遮罩图像输入第三卷积神经网络，并对所述第三卷积神经网络的输出数据进行第三深度引导滤波操作，通过所述语义信息融合模型输出所述视频数据的虚拟人物遮罩图像。