CN111539262A

CN111539262A - 一种基于单张图片的运动转移方法及系统

Info

Publication number: CN111539262A
Application number: CN202010253271.3A
Authority: CN
Inventors: 吴博文; 谢震宇; 梁小丹; 董浩业; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-14
Anticipated expiration: 2040-04-02
Also published as: CN111539262B

Abstract

本发明公开了一种基于单张图片的运动转移方法及系统，所述方法包括：步骤S1，对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及人体解析分割图I_parsing，生成目标视频的人体语义解析图

步骤S2，根据生成人体语义解析图以及目标人物外观图片前景I_a，生成目标视频的前景

步骤S3，通过修护后的背景图bg、步骤S2中生成的前景

以及步骤S2中生成的前一帧前景

预测出前景掩膜，并通过该前景掩膜融合前后景得到最终目标视频中的帧x^t。

Description

一种基于单张图片的运动转移方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种基于单张图片的运动转移方法及系统。

背景技术

随着深度学习理论和相关技术的蓬勃发展，有很多过去人们无法攻克的问题都取得了巨大的进展，例如语音合成、语音识别、目标追踪等。特别是深度卷积神经网络的提出，让计算机视觉的研究有了跨越性的发展，人们通过深度卷积神经网络在图像分类、目标检测和语义分割上取得了重大的进展。同时，随着GPU芯片的发展，人们可以使用的计算力越来越大，神经网络被构建的越来越深，参数越来越多，人们能够利用神经网络做的事情也越来越多，甚至可以用于生成图片或者视频。

Goodfellow等人在2014年提出生成对抗网络(Generative AdversarialNetworks，GAN)，其生成对抗网络由生成器和判别器组成，在训练过程中生成器和判别器进行对抗。M.Mirza等在GAN提出的同一年提出了基于条件的生成对抗网络(ConditonalGenerative Adversarial Nets,C-GAN)，C-GAN可以通过条件输入(conditional input)来控制输出，比如可以让GAN生成一只狗或者生成有特定颜色头发的人。此后，很多人投入了对GAN的研究，其中BigGAN等工作给人们留下了深刻的印象，他们生成的图片甚至难辨真假。

图像合成(Image Synthesis)和视频合成(Video Synthesis)都是产生式模型(Generative Model)研究的热点问题，相比图像合成，视频合成需要考虑时序信息以保证视觉上的连贯性。P.Isola等人在2017年提出pix2pix，一种由图像生成图像(Image-to-Image Translation)的模型，其输入可以是语义分割的结果，而输出则是具有真实感的图片。类似于pix2pix，T.-C.Wang等人提出了一种由视频生成视频(Video-to-VideoTranslation)的模型vid2vid，输入可以是语义分割的序列，而输出则是具有真实感的视频。

运动转移指将人类的运动从源人物转移到目标人物，这在计算机视觉和图形学上有着大量的用途，并且已经被研究了数十年。运动转移在虚拟现实、电子游戏、艺术创作和电影剪辑等领域具有广泛用途。在之前的研究中，有些人的方法需要基于精密的人体3D模型；而最近也有人尝试使用生成对抗网络“Everybody Dance Now”解决这个问题，但是它需要每个目标人物训练一个独立的生成对抗网络，这个生成对抗网络可以根据给定的动作信息(骨骼关键点)序列生成对应的目标人物视频。尽管上述两种方法都取得了很好的效果，但是这两种方法都很难投入实际使用。例如，若要在一些社交平台上上线这个功能，为每位用户单独训练一个模型从算力上来说是不切实际的。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种基于单张图片的运动转移方法及系统，以实现基于单张目标人物外观图片完成运动转移的目的。

为达上述目的，本发明提出一种基于单张图片的运动转移方法，包括如下步骤：

步骤S1，对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及目标人物图片I所对应的人体解析分割图I_parsing，生成目标视频的人体语义解析图

步骤S2，根据步骤S1中生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a，生成目标视频的前景

步骤S3，通过修护后的背景图bg、步骤S2中生成的前景

以及步骤S2中生成的前一帧前景

预测出前景掩膜fg_mask^t，并通过该前景掩膜融合前后景得到最终目标视频中的帧x^t。

优选地，步骤S1进一步包括：

步骤S100，对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的18通道的热图，从而获得所述源视频所对应的姿势序列S_pose；

步骤S101，对步骤S100所获得的姿势序列S_pose进行时序光滑；

步骤S102，使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，该分割图上不同区域对应人体的不同部位；

步骤S103，将姿势序列S_pose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图I_parsing一起输入到残差网络结构的生成器中，所述生成器输出第i帧对应的人体语义解析图

从而得到目标视频的人体语义解析序列。

优选地，于步骤S1中，其训练阶段的损失函数包括第一范式距离损失函数和分类交叉墒损失函数两部分，本步骤在训练阶段的总损失函数即为第一范式距离损失函数和分类交叉墒损失函数的加权和。

优选地，步骤S2进一步包括：

步骤S200，使用人体姿态估计器提取目标人物外观图片对应的姿态图I_pose；

步骤S201，流回归网络，将目标人物外观图片对应的姿态图I_pose与第i帧姿势热图

一起输入到深度神经网络中，输出流图F和可视图V；

步骤S202，使用VGG网络对于目标人物外观图片前景I_a提取特征，得到特征图

步骤S203，使用步骤S201中得到的可视图V对于步骤S202中得到的特征图

进行形变，得到形变后的特征图

步骤S204，使用VGG网络对于第i帧对应的人体语义解析图

提取特征图，形变后的特征图

逐通道与人体语义解析对应的特征图连接起来，随后通过解码器获得生成的目标视频的前景

优选地，于步骤S201中，首先使用HMR对于外观图片I_a和目标帧

提取SMPL人体三维模型，然后通过提取的两个三维模型计算流图F和可视图V的标准答案，随后利用该标准答案训练所述流回归网络。

优选地，所述流回归网络的损失函数包括端点错误损失函数和交叉墒损失函数两部分。

优选地，于步骤S2中，其训练阶段的损失函数包括三个部分：第一范式距离损失函数、对抗损失函数和感知损失函数，步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和。

优选地，步骤S3进一步包括：

步骤S300，通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图I_parsing，将目标人物图片I分为前景和背景；

步骤S301，将经步骤S300修护后的背景图bg、步骤S2中生成的前景

以及步骤S2中生成的前一帧前景

输入到残差网络结构的生成器预测出前景掩膜fg_mask^t；

步骤S302，通过得到的前景掩膜fg_mask^t融合前后景，得到最终目标视频。

优选地，于步骤S3中，其训练阶段的损失函数包括第一范式距离损失函数和感知损失函数两部分，本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和。

为达到上述目的，本发明还提供一种基于单张图片的运动转移系统，包括：

目标视频人体语义解析序列生成单元，用于对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及目标人物图片I所对应的人体解析分割图I_parsing，生成目标视频的人体语义解析图

目标视频前景生成单元，用于根据目标视频人体语义解析序列生成单元中生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a，生成目标视频的前景

目标视频生成单元，用于通过修护后的背景图bg、所述目标视频前景生成单元中生成的前景

以及目标视频前景生成单元中生成的前一帧前景

与现有技术相比，本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及目标人物图片I所对应的人体解析分割图I_parsing，生成目标视频的人体语义解析图

然后根据生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a生成目标视频的前景

最后通过修护后的背景图bg、生成的前景

以及前一帧前景

预测出前景掩膜fg_mask^t，并通过该前景掩膜融合前后景得到最终目标视频中的帧x^t，本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的。

附图说明

图1为本发明一种基于单张图片的运动转移方法的步骤流程图；

图2为本发明具体实施例中输入输出定义示意图；

图3为本发明一种基于单张图片的运动转移系统的系统架构图；

图4为本发明实施例之运动转移结果的示意图；

图5为本发明和基线方法对比的示意图；

图6为本发明与基线方法生成视频细节对比的示意图；

图7为本发明与基线方法对比的示意图；

图8为本发明实施例中所使用的DMT数据集示意图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种基于单张图片的运动转移方法的步骤流程图。如图1所示，本发明一种基于单张图片的运动转移方法，包括如下步骤：

在本发明具体实施例中，如图2所示，给定一段源视频和目标人物图片I，本发明可以生成一段目标视频，在目标视频中，目标人物的动作与源视频中的人物相同，因此称之为一种运动转移方法，其将源视频中人物的动作转移到了目标人物身上，目标人物指生成的目标视频中的人物。

具体地，步骤S1进一步包括以下步骤：

步骤S100，对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的18通道的热图，从而获得所述源视频所对应的姿势序列S_pose。也就是说，给定一段源视频(本发明中源视频均为单人视频)，对于源视频每一帧均通过上述方法提取姿势图，获得源视频所对应的姿势序列S_pose。

步骤S101，对步骤S100所获得的姿势序列S_pose进行时序光滑。

由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化，这会导致最终视频视觉上不连贯。为解决此问题，在本发明具体实施例中，对于所获取的姿势序列S_pose进行Savitzky–Golay滤波，具体见Savitzky,A.,and M.J.E.Golay(1964),Smoothing and differentiation of data by simplified least squares procedures,Analytical Chemistry,36,1627-1639.”，在此不予赘述。

步骤S102，使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，该分割图上不同区域对应人体的不同部位。也就是说，给定目标人物图片I，使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，该分割图上不同区域对应人体的不同部位，并利用人体解析分割图I_parsing分割目标人物图片得到外观图片前景I_a。

步骤S103，将姿势序列S_pose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图I_parsing一起输入到残差网络结构的生成器中，得到对应的人体语义解析序列。具体地，对于第i帧姿势热图

将其和目标人物人体语义解析I_parsing一同输入到残差网络结构的生成器中，所述生成器输出第i帧对应的人体语义解析图

将上述过程应用到姿势序列每一帧，即可得到目标视频的人体语义解析序列。

在本发明具体实例中，所述人体姿态估计器来源于“OpenPose:realtime multi-person 2D pose estimation using Part Affinity Fields”论文中所提出的方法，所述人体解析器来源于“Graphonomy:Universal human parsing via graph transferlearning.”论文中所提出的方法，由于其均采用的是现有技术，在此不予赘述。

在步骤S1中，训练阶段的损失函数包括两个部分，第一范式距离损失函数(L1Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′_p∈R^W*H*C,x_p∈R^W*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(Ground Truth)，其中W,H分别为输入图片的宽高，C为人体语义解析的类别数。在本发明中，(W,H)＝(448,448),C＝19。

其中，第一范式距离损失可以表示为：

其中，分类交叉墒损失可以表示为：

本步骤在训练阶段的总损失函数即为

和

的加权和，对于以上两个损失函数，在本发明中均设为10.0。

步骤S2，根据步骤S1中生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a，生成目标视频的前景

具体地，步骤S2进一步包括：

步骤S200，使用人体姿态估计器提取目标人物图片I对应的姿态图I_pose，具体提取方式与步骤S100中所描述的相似，在此不予赘述。

步骤S201，流回归网络，即采用UNet结构的深度神经网络：将目标人物外观图片对应的姿态图I_pose与第i帧姿势热图

一起输入到UNet结构的深度神经网络中，输出流图F和可视图V。

所述流图F指的是同一个人体的相同位置在两张不同图片间二维坐标的差值，本发明使用u_i,u′_i分别表示同一点在两张图片上的坐标，则f_i＝F(u_i)＝u′_i-u_i。

所述可视图V指的是某一点在I_a上是否可见，具体来说，v_i＝V(u_i)＝visibility(h_i,I_a)，其中h_i指三维人体模型的一个点，其中visibility(h_i,I_a)的返回值有三个，分别为可见、不可见、背景。

在本发明具体实施例中，为了训练本步骤的流回归网络，首先使用HMR(“End-to-end Recovery of Human Shape and Pose”)对于外观图片前景I_a和目标帧

(根据目标视频获得)提取SMPL(SMPL，A Skinned Multi-Person Linear Model)人体三维模型，然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth)，随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth)，首先将外观图片I_a对应的人体三维模型投影到二维空间，那么这个三维模型在二维空间上肯定只有一面是可见的，剩下有些点被自身遮挡而不可见，还有一些点不属于三维模型，则为背景。

流回归网络的损失函数包括两个部分：端点错误损失函数(end-point-errorloss)和交叉墒损失函数(cross entropy)。

进行形变，得到形变后的特征图

步骤S204，使用VGG网络对于第i帧对应的人体语义解析图

提取特征图，形变后的特征图

逐通道与人体语义解析对应的特征图(即对于第i帧对应的人体语义解析图

提取特征图)连接起来，随后通过解码器获得生成的目标视频的前景

需说明的是，在真实场景中，视频通常长宽比为16:9，而人物只占整个画面的一小部分，所以本发明利用人体语义解析结果将源视频和目标人物中的人物部分抠出，抠出后，首先将其填充成长宽相等的矩形，而后将其缩放至448*448，并将该小块区域在源视频中的坐标记录下来。在此所叙述的处理适用于步骤S1和步骤S2。在进行步骤S3前，根据记录的坐标，将生成的前景恢复至源视频中原有的大小，并输出至步骤S3中。

在步骤S2中，训练阶段的损失函数包括三个部分：第一范式距离损失函数(L1Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(Perceptual Loss)。令

分别为生成的前景和前景的标准答案(Ground Truth)，I_a为目标人物外观图片前景，

为输入的人体语义解析图。

其中，第一范式距离损失函数可以表示为

其中，对抗损失函数可以表示为在以下表达式中优化操作符

其中感知损失函数可以表达为

感知损失函数度量的是真实图片与生成图片在特征空间的第一范式距离。在本发明中，使用VGG19网络的特征提取器进行特征提取，其中

指的是生成图来源于VGG19网络所提取的第i层特征图，

具有类似的意义。

步骤S2的训练阶段的总体损失函数即为上述三种损失函数的加权和，令λ_L1,λ_adv,λ_per分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中，λ_L1,λ_adv,λ_per＝1.0,0.01,1.0。

步骤S3，通过修护后的背景图bg、步骤S2中生成的前景

以及步骤S2中生成的前一帧前景

具体来说，步骤S3可以进一步包括以下步骤：

步骤S300，通过在步骤S102中得到的目标人物图片I所对应的人体解析分割图I_parsing，将目标人物图片I分为前景I_a和背景。这里得到的背景由于被人体遮挡，会有一部分空缺，本发明使用图像修复算法(“EdgeConnect:Generative image inpainting withadversarial edge learning”)对于背景进行修复，得到修复后的背景bg。

步骤S301，将步骤S300修护后的背景图bg、步骤S2中生成的前景

以及步骤S2中生成的前一帧前景

输入到残差网络结构的生成器预测出前景掩膜fg_mask^t。

步骤S302，通过得到的前景掩膜fg_mask^t融合前后景，具体的融合过程如下：

在步骤S3中，训练阶段的损失函数包括两部分，第一范式距离损失函数(L1Loss)和感知损失函数(Perceptual Loss)，定义与步骤S2中的损失函数相似，在此不再赘述。本步骤在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和，对于以上两个损失函数，在本发明中均设为1.0。

在本发明具体实施例中，Adam优化器被用来训练各个阶段的网络,其中β₁＝0.5,β₂＝0.999。对于步骤S1，初始学习率为0.0002，在遍历整个训练集30次(epoch)以内，可以获得合理的结果。对于步骤S2，生成器的初始学习率为0.0002，判别器的初始学习率为0.00002，在遍历整个训练集40次(epoch)以内，可以获得合理的结果。对于步骤S3，初始学习率为0.0001，在遍历整个训练集5次(epoch)以内，可以获得合理的结果。

图3为本发明一种基于单张图片的运动转移系统的系统架构图。如图3所示，本发明一种基于单张图片的运动转移系统，包括：

目标视频人体语义解析序列生成单元301，用于对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及目标人物图片I所对应的人体解析分割图I_parsing，生成目标视频的人体语义解析图

具体地，目标视频人体语义解析序列生成单元301进一步包括：

源视频姿势序列获取模块，用于对源视频的每一帧通过人体姿态估计器获得包含若干特征点的姿态图，所述姿态图上每个特征点都被转化为1通道的热图，将每个特征点对应的热图按通道拼接起来，得到编码人体姿态信息的18通道的热图，从而获得所述源视频所对应的姿势序列S_pose。也就是说，给定一段源视频，对于源视频每一帧均通过上述方法提取姿势图，获得源视频所对应的姿势序列S_pose。

时序光滑模块，用于对源视频姿势序列获取模块所获得的姿势序列S_pose进行时序光滑。

由于通过人体姿态估计器获得的姿势序列相邻帧之间可能会有较大的变化，这会导致最终视频视觉上不连贯。为解决此问题，在本发明具体实施例中，源视频姿势序列获取模块对所获取的姿势序列S_pose进行Savitzky–Golay滤波实现时序光滑。

人体解析分割图获取模块，用于使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，该分割图上不同区域对应人体的不同部位。也就是说，给定目标人物图片I，使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，该分割图上不同区域对应人体的不同部位，并利用人体解析分割图I_parsing分割目标人物图片得到外观图片前景I_a。

生成器，用于将姿势序列S_pose中的姿势热图逐帧与目标人物图片I所对应的人体解析分割图I_parsing一起输入到残差网络结构的生成器中，得到对应的人体语义解析序列。具体地，对于第i帧姿势热图

在目标视频人体语义解析序列生成单元301中，训练阶段的损失函数包括两个部分，第一范式距离损失函数(L1 Loss)和分类交叉墒损失函数(Cross Entropy Loss)。令x′_p∈R^W*H*C,x_p∈R^W*H*C分别为生成的人体语义解析图和人体语义解析图的标准答案(GroundTruth)，其中W,H分别为输入图片的宽高，C为人体语义解析的类别数。在本发明中，(W,H)＝(448,448),C＝19。

其中，第一范式距离损失可以表示为：

其中，分类交叉墒损失可以表示为：

目标视频人体语义解析序列生成单元301在训练阶段的总损失函数即为

和

的加权和，对于以上两个损失函数，在本发明中均设为10.0。

目标视频前景生成单元302，用于根据目标视频人体语义解析序列生成单元301中生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a，生成目标视频的前景

具体地，目标视频前景生成单元302进一步包括：

目标人物外观图片姿态图提取模块，用于使用人体姿态估计器提取目标人物外观图片对应的姿态图I_pose，具体提取方式与源视频姿势序列获取模块中所描述的相似，在此不予赘述。

流回归网络，用于将目标人物外观图片对应的姿态图I_pose与第i帧姿势热图

在本发明具体实施例中，为了训练所述流回归网络，首先使用HMR(“End-to-endRecovery of Human Shape and Pose”)对于外观图片I_a和目标帧

提取SMPL(“SMPL:ASkinned Multi-Person Linear Model”)人体三维模型，然后通过提取的两个三维模型计算流图F和可视图V的标准答案(Ground Truth)，随后利用这个标准答案(Ground Truth)训练流回归网络。对于可视图V的标准答案(Ground Truth)，首先将外观图片I_a对应的人体三维模型投影到二维空间，那么这个三维模型在二维空间上肯定只有一面是可见的，剩下有些点被自身遮挡而不可见，还有一些点不属于三维模型，则为背景。

目标人物外观图片前景特征提取模块，用于使用VGG网络对于目标人物外观图片前景I_a提取特征，得到特征图

特征形变模块，用于使用流回归网络中得到的可视图V对于目标人物外观图片前景特征提取模块中得到的特征图

进行形变，得到形变后的特征图

特征图连接模块，用于使用VGG网络对于第i帧对应的人体语义解析图

提取特征图，形变后的特征图

在目标视频前景生成单元302中，训练阶段的损失函数包括三个部分：第一范式距离损失函数(L1 Loss)、对抗损失函数(Adversarial Loss)和感知损失函数(PerceptualLoss)。令

为输入的人体语义解析图。

其中，第一范式距离损失函数可以表示为

其中，对抗损失函数可以表示为在以下表达式中优化操作符

其中感知损失函数可以表达为

指的是生成图来源于VGG19网络所提取的第i层特征图，

具有类似的意义。

目标视频前景生成单元302的训练阶段的总体损失函数即为上述三种损失函数的加权和，令λ_L1,λ_adv,λ_per分别为第一范式距离损失函数、对抗损失函数、感知损失函数所对应的权重。在具体实施中，λ_L1,λ_adv,λ_per＝1.0,0.01,1.0。

目标视频生成单元303，用于通过修护后的背景图bg、目标视频前景生成单元302中生成的前景

以及目标视频前景生成单元302中生成的前一帧前景

具体来说，目标视频生成单元303进一步包括：

前景背景区分模块，用于通过在人体解析分割图获取模块中得到的目标人物图片I所对应的人体解析分割图I_parsing，将目标人物图片I分为前景和背景。这里得到的背景由于被人体遮挡，会有一部分空缺，本发明使用图像修复算法(“EdgeConnect:Generativeimage inpainting with adversarial edge learning”)对于背景进行修复，得到修复后的背景bg。

前景掩模预测模块，用于将修护后的背景图bg、目标视频前景生成单元302中生成的前景

以及目标视频前景生成单元302中生成的前一帧前景

输入到残差网络结构的生成器预测出前景掩膜fg_mask^t。

融合模块，用于通过得到的前景掩膜fg_mask^t融合前后景，其具体的融合过程如下：

在目标视频生成单元303中，训练阶段的损失函数包括两部分，第一范式距离损失函数(L1 Loss)和感知损失函数(Perceptual Loss)，定义与目标视频前景生成单元302中的损失函数相似，在此不再赘述。目标视频生成单元303在训练阶段的总损失函数即为第一范式距离损失函数和感知损失函数的加权和，对于以上两个损失函数，在本发明中均设为1.0。

实施例

为了验证本发明的具体实施效果，在本实施例中，构造了一个包含438段视频的数据集，取名为DMT数据集，如图8所示。在DMT数据集中，视频均满足以下三个特征：1)单人2)近乎固定的背景3)人物动作幅度大。特征1和特征2让研究者可以专注于动作转移的技术，而不用关注复杂的背景或者多人物的问题，特征3能够验证方法对于复杂动作的处理能力。如上述发明内容所述，对于每段视频需要一张代表人物外观的外观图片(I_a)，采用如下方式选取每段视频的外观图片。首先采用OpenPose人体姿态估计器对于视频的每一帧提取姿态关键点，对于每一帧来说，有18个关键点，对于第j帧第i个关键点的信息为

其中

为关键点的横纵坐标，

为该点所预测的置信度；对于每一帧18个人体关键点的置信度进行求和，并取置信度之和最大的那一帧作为本段视频的外观图片(I_a)。将DMT数据集分为训练集和测试集，其中训练集包含406段视频，测试集包含22段视频，对应561785帧和31680帧。

首先使用DMT数据集训练步骤S1、步骤S2、步骤S3。

对于评价视频生成方法效果的好坏，主要是有两类评价方法，一类为定性评价，一类为定量评价。对于定量评价，在本实施例中，使用了弗雷谢视频距离(Frechet VideoDistance，FVD，“Towards accurate generative models of video:A new metric&challenges.”)作为评判标准。但这一标准不适用于对运动转移效果的评价，因为其无法衡量生成视频的真实感。所以本发明还同时使用用户调查的方式对不同模型做定性评价。具体操作是，在亚马逊AMT平台上，向平台上的工作人员展示一张外观图片，然后让工作人员从两个运动转移结果中选择更加真实逼真，保留更多细节的结果，给定的两个运动转移结果来自不同的模型。当在比较两种方法优劣时，对测试集中的每个视频发放等量的问卷，最后将所有的问卷放在一起计算每种方法所获得的支持的比例，这个比例作为这个方法在人工评估中的得分。

首先从定性角度来分析具体实施结果：

如图4所示，将第一行视频中的动作转移到了左边一列的7个不同的目标人物上。

如图5所示，将本发明的方法所生成的结果与三种不同的基线方法进行对比，本发明的方法从视觉效果上明显优于基线方法，基线方法包括pix2pixHD(“High-ResolutionImage Synthesis and Semantic Manipulation with Conditional GANs”)、vid2vid(“Video-to-Video Synthesis”)和soft-gated(“Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis”)。如图6所示，本发明的结果与基线方法的结果进行细节上的对比，本发明的结果明显基线方法。

为了验证本发明所提出的方法各个模块的必要性，在本实施例中，还设计了两组消融实验，分别为去除步骤S2中的流回归网络和去除步骤S3。如图7最后两列所示，两组消融实验所产生的结果从视觉上明显差于完整模型，说明了流回归网络和步骤S3的必要性。

接下来从定量角度来分析具体实施结果：

如下表1所示：

表1

方法	弗雷谢视频距离
		Pix2pixHD	1783.94
Vid2vid	2244.97
		Soft-gated	1555.33
本发明消融实验(去除流回归网络)	1285.68
		发发明消融实验(去除步骤S3)	1454.47
本发明完整方法	1005.84

表1为本实施例中的在DMT测试集上的FVD分数，FVD距离越低说明生成效果越好，可见本发明完整方法FVD距离最低，低于基线方法或消融方法，说明了本发明优于基线方法，也优于消融方法。

表2

从上表2可以看出，大部分的工作人员都倾向于选择本发明完整方法所生成的结果，这也说明了本发明所生成的结果更具有真实感。

综上所述，本发明一种基于单张图片的运动转移方法及系统通过对源视频利用人体姿态估计器获得对应的姿势序列S_pose，对目标人物图片I使用人体解析器获取目标人物图片I所对应的人体解析分割图I_parsing，根据源视频对应的姿势序列S_pose以及目标人物图片I所对应的人体解析分割图I_parsing，生成目标视频的人体语义解析图

然后根据生成的目标视频的人体语义解析图

以及目标人物外观图片前景I_a生成目标视频的前景

最后通过修护后的背景图bg、生成的前景

以及前一帧前景

预测出前景掩膜fg_mask^t，并通过该前景掩膜融合前后景得到最终目标视频中的帧x^t，本发明只需要借助一张目标人物的外观图片即可完成运动转移的目的，不需要复杂先验知识，更加符合实际需求，方便应用于工业界。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。