CN110197167B

CN110197167B - 一种视频动作迁移方法

Info

Publication number: CN110197167B
Application number: CN201910485182.9A
Authority: CN
Inventors: 袁春; 成昆; 黄浩智; 刘威
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-03-26
Anticipated expiration: 2039-06-05
Also published as: CN110197167A

Abstract

本发明提供一种视频动作迁移方法，包括如下步骤：提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态；接收源视频的图像输入；进行前景和背景的初步特征提取；分别对背景和前景的初步特征进行融合生成背景的融合特征和前景的融合特征；通过背景的融合特征合成融合特征合成背景；通过前景的融合特征合成融合特征合成前景和前景遮罩，进一步得到动作迁移后的目标视频在t时刻的帧模型；在帧模型中加入损失函数，损失函数包括内容损失函数和对抗损失函数，内容损失函数包括像素级误差损失与感知误差损失，对抗损失函数包括空间对抗损失和多尺度时域对抗损失。构建了具有通用性和灵活性的整体流水线模型。

Description

一种视频动作迁移方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频动作迁移方法。

背景技术

人像视频生成是一个有着海量应用场景的前沿课题。它可以被用于产生更高层视觉任务的训练数据，如人体姿态估计、对象检测与分组、个体身份识别等等。同时它还有助于研发更强有力的视频定向编辑工具。现有的人像视频生成方式主要有三类：无条件的视频生成、视频帧预测以及视频动作迁移。

无条件的视频生成关注于将多组一维的隐向量映射到人像视频，这种方法依赖于一维的隐向量来同时产生视频的外观和动作信息。训练完成后，通过在隐向量中随机采样可以得到不同的生成视频。然而这种方式不能灵活控制生成视频的动作和外观。

对于视频帧预测，已有工作致力于根据之前的帧预测未来的帧。这个问题也可以被看作一个两阶段问题：先从过去的帧预测出未来帧的动作变化，再从未来帧的动作预测完整的帧。其中第二阶段的工作和视频动作迁移是类似的，不过已有的视频帧预测方法都聚焦于第一个阶段，缺乏一些关于第二阶段如何保持外观细节和时域连续性的考量。

本申请关注的是视频动作迁移问题，致力于把目标视频中的人物动作迁移到源视频的人物身上，同时保留源人物的外观。如此一来可以确切的控制生成视频的动作，只要提供一组包含理想动作序列的目标视频。尽管已有不少方法试图解决单帧图像的动作迁移问题，但直接将他们的方法应用于连续视频效果并不理想。在视频动作复杂且难以预测的场合，单帧动作迁移方法会引入严重的模糊、锯齿以及其他视觉上不自然的现象。

除此之外最近还有一些工作，试图窄化通用的动作迁移问题，来将任意的动作迁移到固定的人物和场景。这类方法由于简化了问题的复杂度往往可以得到非常有吸引力的结果，然而它们并不能严格的归属于迁移问题：由于目标人物和场景单一，生成视频的外观和背景甚至不需要从源视频中迁移得到，而是可以固化记忆在网络参数中，形成一种动作隐向量直接幻化为视频的生成过程。因此这类方法需要对每一个源对象训练一个单独的模型，并且前景人物和背景场景的关系是绑定的，这与我们灵活、通用的初衷相违背。

所以现有技术中缺乏一种从图像应用到视频的有效方法。

发明内容

本发明为了解决现有的问题，提供一种视频动作迁移方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种视频动作迁移方法，包括如下步骤：S1：提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态；S2：接收所述源视频的图像输入；S3：进行前景和背景的初步特征提取；S4：分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征；通过所述背景的融合特征合成融合特征合成背景；通过所述前景的融合特征合成融合特征合成前景和前景遮罩，进一步得到动作迁移后的目标视频在t时刻的帧模型；S5：在所述帧模型中加入损失函数，所述损失函数包括内容损失函数和对抗损失函数，所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。

在本发明的一种实施例中，采用2D姿态检测模型提取所述源视频和所述目标动作视频的动作序列。

在本发明的一种实施例中，所述源视频的图像输入包括输入K帧图像，所述K的值为4。

在本发明的一种实施例中，步骤S3中采用单帧迁移方法选取前景和背景分支的倒数第二层特征做后续的融合。

在本发明的一种实施例中，步骤S4中通过时空注意力机制分别对所述背景和所述前景的初步特征进行融合；所述时空注意力机制包括：RB6结构：骨干网络由6个残差模块组成，所述初步特征由SOFTMAX通道维度加权融合；SA3D+RB6结构：在所述RB6结构之前，添加三维的自注意力模块增强特征；RB6+SA2D结构：在所述RB6结构之后，添加二维的自注意力模块增强特征。

在本发明的一种实施例中，所述步骤S4中，通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为：

其中，

为所述融合特征合成前景；

为融合特征合成背景；

为所述前景遮罩；⊙是逐个元素相乘。

在本发明的一种实施例中，所述内容损失函数定义为：

其中，L_MSE是均方误差函数，O^t是所述目标视频在t时刻的帧模型，

是所述目标视频在t时刻的真实帧；所述内容损失函数还包括感知损失，所述感知损失定义为：

其中，φ表示由预训练的VGG19模型提取出的特征。

在本发明的一种实施例中，所述空间对抗损失定义为：

其中，D_I是单帧图像判别网络，

为所述目标视频在t时刻的目标姿态表示；

所述多尺度时域对抗损失定义为：

其中，W_T是由FlowNet2计算得到的光流序列，包含了每一对连续帧之间的光流信息；V_T是目标动作视频；V_o是目标视频；

是时域判别器，接收n帧图像及其光流信息作为输入，学习判别生成的连续n帧和真实n帧。

在本发明的一种实施例中，损失函数定义为：L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V；其中，λ_VGG、λ_GI、λ_GV分别为所述感知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述方法的步骤。

本发明的有益效果为：提供一种视频动作迁移方法，通过多帧输入提供外观信息，并有时间-空间注意力机制指导，由多时间尺度判别器对抗监督的普适性的视频动作迁移方案。流水线灵活性，从不同视频中解析出前景、背景、动作等元素，通过调换输入视频的位置顺序，实现A在B场景中做C的动作这样的多种组合视频；提出了一种全新的内容融合机制，基于时空注意力机制，可以生成更真实自然的前景和背景图像；提出了一种可端到端训练的多时间尺度判别器，来鼓励生成器产生时域上更平滑连续的视频。

附图说明

图1是本发明实施例中一种视频动作迁移方法示意图。

具体实施方式

为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接即可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

实施例1

本申请解决的问题定位于视频中的人体动作迁移。V＝{I¹,I²,...,I^N}表示一个N帧的视频，其中有单个人做全身性的动作，如跳舞等。为简化问题，假定观察点(相机)和背景都是静止的，即便如此，它仍是一个未解决的有挑战性的问题。给定源视频V_S和目标动作视频V_T，动作迁移的目标是把V_T的动作迁移到V_S，同时保持V_S的外观特征。如此一来，对于生成的目标视频V_O，可以显示的同时控制动作和外观。运用了一个预训练的2D姿态检测模型来提取源视频和目标动作视频的动作序列P＝{p¹,p²,...,p^N}。每一个p^t表示第t帧的姿态，实现中的表示形式为一个M个信道的热力值图，其中M＝14表示关键点的个数。分别将源姿态和目标姿态标记为P_S和P_T。可以理解的是，还可以采用更先进的姿态提取器来提升准确率和性能，此处不做限定。

与单帧动作迁移不同的是，接受K帧输入及其各自的动作信息，以及目标动作姿态信息，在一种具体的实施例中K的值为4。目标视频的帧模型可以大致表示为：

如图1所示，一种视频动作迁移方法，包括如下步骤：

S1：提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态；

S2：接收所述源视频的图像输入；

S3：进行前景和背景的初步特征提取；即从源姿态、目标姿态和源视频的图像输入中提取前景和背景的初步特征。

S4：分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征；通过所述背景的融合特征合成融合特征合成背景；通过所述前景的融合特征合成融合特征合成前景和前景遮罩，进一步得到动作迁移后的目标视频在t时刻的帧模型；

S5：在所述帧模型中加入损失函数，所述损失函数包括内容损失函数和对抗损失函数，所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。

上述方法的整体框架主要由单帧迁移特征提取模块、前背景融合特征模块、以及最后的预测和合成模块组成。其中前背景分离处理并通过预测的遮罩融合

步骤S3中，初步特征提取模块采用了已有的单帧迁移方法。选取前景和背景分支的倒数第二层特征做后续处理。相比于直接融合生成好的前景和背景图像，前一层特征包含有更丰富的信息，有利于融合模块的训练；相比于更靠前的特征，接近输出的层可以通过最后一个单层处理容易的得到输出图像。出于兼顾内容丰富性与结果易用性的考虑，我们选取前背景分支的倒数第二层特征，留作后续融合、增强、对抗等等。

在步骤S4中，在单帧姿态迁移的情况下，合成前景的质量严重依赖于源视频帧的选择。例如，源视频帧是后背视角，以此生成正面视角的姿态必然会产生模糊的结果。另外单张图像信息的不完整也会导致合成结果的不稳定，加重生成视频中的时域不连续性。本申请提出了一种多帧融合微调的前景(或背景)合成模块，它融合K帧原始特征来生成质量更高的合成前背景。对于每个时间步t，K帧的初步特征

被输入到融合模块中，生成融合后的特征

在此基础上，一个预测模块通过所述背景的融合特征合成融合特征合成前景；通过所述前景的融合特征合成融合特征合成前景和前景遮罩。预测模块的网络结构是一个单层的3x3卷积，预测前背景图像的激活函数是Tanh，预测前景遮罩的激活函数是Sigmoid。

对于几种不同的特征融合方式，最简单直观的是信道维度MAXPOOLING或AVERAGE-POOLING。为了进一步探索多帧信息，本申请提出了时空注意力机制的三个变种：

RB6结构：骨干网络由6个残差模块组成，所述初步特征由SOFTMAX通道维度加权融合；

SA3D+RB6结构：在所述RB6结构之前，添加三维的自注意力模块增强特征；

RB6+SA2D结构：在所述RB6结构之后，添加二维的自注意力模块增强特征。

它们的输入都是K组初步特征及源姿态和目标姿态信息。最基础的变种“RB6”由6个残差模块组成，计算一个Kx H x W的时空注意力图。然后前景融合特征由K组初步特征经过注意力分布图加权得到：

这里的F和A分别表示初步特征和注意力分布图，运算符是逐元素相乘。

“RB6”的缺陷在于尽管注意力是根据时空信息计算得到，最终处理时只是空间上局部的时域加权。为了减缓这个问题，又提出了两个更复杂的变种“SA3D+RB6”和“RB6+SA2D”。实验结果显示这两种变种结果表现类似，但“RB6+SA2D”的运行效率更高。

通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为：

其中，

为所述融合特征合成前景；

为融合特征合成背景；

为所述前景遮罩；⊙是逐个元素相乘。

损失函数整体可以划分为两大类，内容损失与对抗损失。

内容损失：为了实现监督训练，在训练阶段使用同一个视频的不同帧作为源角色帧与目标动作帧，此过程中确保源视频和目标动作视频的帧没有重叠。训练过程结束后，对于一个任意的源视频，可以选择一个任意的目标动作视频来提供目标动作序列。在监督训练的前提下，得知生成的帧O^t应该尽可能接近目标帧

于是，最简单直接的损失函数就是均方误差(MSE LOSS)：

是所述目标视频在t时刻的真实帧。

然而这种损失函数趋向于生成模糊的结果，因为生成器要学习去匹配尽可能多的可能，最终收敛到一个平均的方案，也就是模糊的结果。为了增加更多的细节，也采用了感知损失：

此处的φ表示由一个预训练的VGG19模型提取出的特征。在实际的实现中，我们选取的是{conv1_1,conv2_1,conv3_1,conv4_1}这些层的特征。L_VGG约束生成帧和真实帧在一个预训练的VGG网络的特征域上尽可能相似，从而增强了感知相似性。

空间对抗损失：为鼓励每个生成帧包含更真实的细节，引入了空间对抗损失函数。训练了一个单帧的条件判别器来区分生成帧和真实帧。我们使用了LSGAN和PatchGAN来保证训练的稳定性：

其中，D_I是单帧图像判别网络，

为所述目标视频在t时刻的目标姿态表示。

多尺度时域对抗损失：除了空间对抗损失之外，我们也引入了多尺度的时域对抗损失来鼓励生成的视频在时域动态上尽可能地接近真实视频。与只用一个固定范围的时域判别器不同，我们训练了多个时域判别器去评价不同时间尺度的时域连续性。多尺度时域对抗损失被定义为：

总损失函数：整体损失由各部分加权得到：

L_total＝L_MSE+λ_VGGL_VGG+λ_GIL_GAN,I+λ_GVL_GAN,V

其中，λ_VGG、λ_GI、λ_GV分别为所述感知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。

由此一来，本申请的目标问题可以表示为：

这里的D_V表示不同时间尺度所有video判别器的集合：

这个目标函数可以通过交替更新生成器G和判别器D来优化。

实施例2

本申请采用PSNR和VFID作为评价指标。为计算VFID，首先用一个预训练的视频分类模型I3D提取视频特征，然后在数据集中所有的视频上计算均值和协方差矩阵

最后VFID由公式计算：

VFID同时衡量了视觉效果和时域连续性。

对于同一个视频内的迁移，真实视频即为目标视频，可以容易地计算PSNR和VFID。对于跨视频的迁移，由于没有真实的帧对应，PSNR无法计算。同时VFID的参考意义也降低了很多，因为外观和背景也会极大影响I3D网络提取的特征。所以仅仅提供视频内动作迁移的定量结果。

表1定量结果

上表展示了在“同视频内”测试集合上不同方法的PSNR和VFID分数。PSNR分数越高越好，表示单帧质量和真实帧接近；VFID越低越好，表示视频整体质量和真实视频差距小。表中每个标准最好的两组数据被加粗高亮了。

比较表中前两行“MSE”和“MSE+VGG”，得知对于单帧基础模型，引入VGG损失作为MSE损失的辅助，共同衡量内容损失，既可以提升单帧质量又可以提升视频级别的时域连续性。

比较表中除标题外的第2、3行“MSE+VGG”和“MSE+VGG+Fusion”，可以观察到加入多帧融合之后VFID分数有明显的提升。这说明多帧融合对与提升视频整体质量有很大的好处。

比较“RB6”和“RB6+Dv”，可以观察到引入多尺度时域判别器后，两个指标都有不同程度的提升。

比较“RB6+Dv3”和“RB6+Dv”，可以看到和Dv357完整版本相比，尽管Dv3的PSNR指标更好一些，但它牺牲了视频级别的整体感知质量。

在后四行不同的融合方式的比较上，“Max”展示了最好的VFID得分和最差的PSNR得分，这表示最大值融合的单帧质量很差，但却通过某种方式骗过了VFID评判标准。(通过后续的定性实验可以看到，最大值融合方式的结果质量也并不是很好，它通过引入一些无意义的细节增强了时域连续性，但生成结果看起来并不真实。)最后两行“SA3D+RB6”展示了最好的PSNR得分，“RB6+SA2D”则在两种标准上都有杰出的表现。

本申请也做了一个人类用户评分测试，来比较“RB6+SA2D”实验配置和基础的单帧模型。对于每种配置，每位用户会看到5组跨视频动作迁移结果和5组视频内迁移结果。不同实验的结果会经过随机打乱，从而确保公平的判断。对于每组对比我们会询问用户两个问题，一是整体视频质量和真实度，“哪个视频看起来更真实”。二是时域连续性，“哪个视频闪烁更少”。20个20-30岁的人接受了测试。表2中展示了人类评价的平均分，我们的方法显著优于当前最优的单帧模型。

表2人类打分测试结果

实施例3

本申请还做了定性实验。分别测试了同一个视频内动作迁移与跨视频动作迁移的两种场景，这两种场景对应两组不同的测试子集：i)跨视频测试集，源人物/背景帧和目标动作视频来自于不同的视频序列。ii)视频内测试集，源人物/背景帧和目标动作视频来自于同一个视频序列。对于每个集合，在测试集中固定随机选取了50对视频作为测试子集。注意在视频内测试子集中，确保了源序列和目标序列没有交叉或覆盖。

单帧的基础模型生成的结果中，可以观察到明显的模糊和不自然。

最大值池化融合方法的结果趋向于在前景和背景中生成奇怪的颜色和影子，猜想原因是最大值融合的暂留效应。这也印证了上文定量实验中的结论，虽然这样会提升时域连续性，但失去了视频原本的内容意义和真实性。

“RB6+SA2D”和“SA3D+RB6”展示了最好的整体质量。通过基于时空注意力机制的多帧融合与增强，背景补全结果更精确，同时前景保留了更多的细节。

为更深入探索多帧融合机制，可视化了一些“RB6+SA2D”融合模块的中间结果。展示了来自不同帧的注意力分配，即“RB6”模块的输出。单帧图像预测结果中我们可以看到明显的不和谐区域，如背景中的栏杆模糊。但不同的帧模糊的区域各不相同，我们的方法通过注意力分配定位到了每个源的“舒适区”，引导合成具有更精确细节的前景和背景。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种视频动作迁移方法，其特征在于，包括如下步骤：

S2：接收所述源视频的图像输入；

S3：进行前景和背景的初步特征提取；

S4：分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征；通过所述背景的融合特征合成融合特征合成背景；通过所述前景的融合特征合成融合特征合成前景和前景遮罩，进一步得到动作迁移后的目标视频在t时刻的帧模型；步骤S4中通过时空注意力机制分别对所述背景和所述前景的初步特征进行融合；所述时空注意力机制包括：

RB6+SA2D结构：在所述RB6结构之后，添加二维的自注意力模块增强特征；

2.如权利要求1所述的视频动作迁移方法，其特征在于，采用2D姿态检测模型提取所述源视频和所述目标动作视频的动作序列。

3.如权利要求1所述的视频动作迁移方法，其特征在于，所述源视频的图像输入包括输入K帧图像，所述K的值为4。

4.如权利要求1所述的视频动作迁移方法，其特征在于，步骤S3中采用单帧迁移方法选取前景和背景分支的倒数第二层特征做后续的融合。

5.如权利要求1所述的视频动作迁移方法，其特征在于，步骤S4中，通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为：