CN110197167B - 一种视频动作迁移方法 - Google Patents

一种视频动作迁移方法 Download PDF

Info

Publication number
CN110197167B
CN110197167B CN201910485182.9A CN201910485182A CN110197167B CN 110197167 B CN110197167 B CN 110197167B CN 201910485182 A CN201910485182 A CN 201910485182A CN 110197167 B CN110197167 B CN 110197167B
Authority
CN
China
Prior art keywords
video
foreground
background
target
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910485182.9A
Other languages
English (en)
Other versions
CN110197167A (zh
Inventor
袁春
成昆
黄浩智
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201910485182.9A priority Critical patent/CN110197167B/zh
Publication of CN110197167A publication Critical patent/CN110197167A/zh
Application granted granted Critical
Publication of CN110197167B publication Critical patent/CN110197167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明提供一种视频动作迁移方法,包括如下步骤:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;接收源视频的图像输入;进行前景和背景的初步特征提取;分别对背景和前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过背景的融合特征合成融合特征合成背景;通过前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;在帧模型中加入损失函数,损失函数包括内容损失函数和对抗损失函数,内容损失函数包括像素级误差损失与感知误差损失,对抗损失函数包括空间对抗损失和多尺度时域对抗损失。构建了具有通用性和灵活性的整体流水线模型。

Description

一种视频动作迁移方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频动作迁移方法。
背景技术
人像视频生成是一个有着海量应用场景的前沿课题。它可以被用于产生更高层视觉任务的训练数据,如人体姿态估计、对象检测与分组、个体身份识别等等。同时它还有助于研发更强有力的视频定向编辑工具。现有的人像视频生成方式主要有三类:无条件的视频生成、视频帧预测以及视频动作迁移。
无条件的视频生成关注于将多组一维的隐向量映射到人像视频,这种方法依赖于一维的隐向量来同时产生视频的外观和动作信息。训练完成后,通过在隐向量中随机采样可以得到不同的生成视频。然而这种方式不能灵活控制生成视频的动作和外观。
对于视频帧预测,已有工作致力于根据之前的帧预测未来的帧。这个问题也可以被看作一个两阶段问题:先从过去的帧预测出未来帧的动作变化,再从未来帧的动作预测完整的帧。其中第二阶段的工作和视频动作迁移是类似的,不过已有的视频帧预测方法都聚焦于第一个阶段,缺乏一些关于第二阶段如何保持外观细节和时域连续性的考量。
本申请关注的是视频动作迁移问题,致力于把目标视频中的人物动作迁移到源视频的人物身上,同时保留源人物的外观。如此一来可以确切的控制生成视频的动作,只要提供一组包含理想动作序列的目标视频。尽管已有不少方法试图解决单帧图像的动作迁移问题,但直接将他们的方法应用于连续视频效果并不理想。在视频动作复杂且难以预测的场合,单帧动作迁移方法会引入严重的模糊、锯齿以及其他视觉上不自然的现象。
除此之外最近还有一些工作,试图窄化通用的动作迁移问题,来将任意的动作迁移到固定的人物和场景。这类方法由于简化了问题的复杂度往往可以得到非常有吸引力的结果,然而它们并不能严格的归属于迁移问题:由于目标人物和场景单一,生成视频的外观和背景甚至不需要从源视频中迁移得到,而是可以固化记忆在网络参数中,形成一种动作隐向量直接幻化为视频的生成过程。因此这类方法需要对每一个源对象训练一个单独的模型,并且前景人物和背景场景的关系是绑定的,这与我们灵活、通用的初衷相违背。
所以现有技术中缺乏一种从图像应用到视频的有效方法。
发明内容
本发明为了解决现有的问题,提供一种视频动作迁移方法。
为了解决上述问题,本发明采用的技术方案如下所述:
一种视频动作迁移方法,包括如下步骤:S1:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;S2:接收所述源视频的图像输入;S3:进行前景和背景的初步特征提取;S4:分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过所述背景的融合特征合成融合特征合成背景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;S5:在所述帧模型中加入损失函数,所述损失函数包括内容损失函数和对抗损失函数,所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。
在本发明的一种实施例中,采用2D姿态检测模型提取所述源视频和所述目标动作视频的动作序列。
在本发明的一种实施例中,所述源视频的图像输入包括输入K帧图像,所述K的值为4。
在本发明的一种实施例中,步骤S3中采用单帧迁移方法选取前景和背景分支的倒数第二层特征做后续的融合。
在本发明的一种实施例中,步骤S4中通过时空注意力机制分别对所述背景和所述前景的初步特征进行融合;所述时空注意力机制包括:RB6结构:骨干网络由6个残差模块组成,所述初步特征由SOFTMAX通道维度加权融合;SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特征;RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特征。
在本发明的一种实施例中,所述步骤S4中,通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为:
Figure GDA0002112767570000021
其中,
Figure GDA0002112767570000022
为所述融合特征合成前景;
Figure GDA0002112767570000023
为融合特征合成背景;
Figure GDA0002112767570000024
为所述前景遮罩;⊙是逐个元素相乘。
在本发明的一种实施例中,所述内容损失函数定义为:
Figure GDA0002112767570000031
其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,
Figure GDA0002112767570000037
是所述目标视频在t时刻的真实帧;所述内容损失函数还包括感知损失,所述感知损失定义为:
Figure GDA0002112767570000032
其中,φ表示由预训练的VGG19模型提取出的特征。
在本发明的一种实施例中,所述空间对抗损失定义为:
Figure GDA0002112767570000033
其中,DI是单帧图像判别网络,
Figure GDA0002112767570000034
为所述目标视频在t时刻的目标姿态表示;
所述多尺度时域对抗损失定义为:
Figure GDA0002112767570000035
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的光流信息;VT是目标动作视频;Vo是目标视频;
Figure GDA0002112767570000036
是时域判别器,接收n帧图像及其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
在本发明的一种实施例中,损失函数定义为:Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V;其中,λVGG、λGI、λGV分别为所述感知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种视频动作迁移方法,通过多帧输入提供外观信息,并有时间-空间注意力机制指导,由多时间尺度判别器对抗监督的普适性的视频动作迁移方案。流水线灵活性,从不同视频中解析出前景、背景、动作等元素,通过调换输入视频的位置顺序,实现A在B场景中做C的动作这样的多种组合视频;提出了一种全新的内容融合机制,基于时空注意力机制,可以生成更真实自然的前景和背景图像;提出了一种可端到端训练的多时间尺度判别器,来鼓励生成器产生时域上更平滑连续的视频。
附图说明
图1是本发明实施例中一种视频动作迁移方法示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外,连接即可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
本申请解决的问题定位于视频中的人体动作迁移。V={I1,I2,...,IN}表示一个N帧的视频,其中有单个人做全身性的动作,如跳舞等。为简化问题,假定观察点(相机)和背景都是静止的,即便如此,它仍是一个未解决的有挑战性的问题。给定源视频VS和目标动作视频VT,动作迁移的目标是把VT的动作迁移到VS,同时保持VS的外观特征。如此一来,对于生成的目标视频VO,可以显示的同时控制动作和外观。运用了一个预训练的2D姿态检测模型来提取源视频和目标动作视频的动作序列P={p1,p2,...,pN}。每一个pt表示第t帧的姿态,实现中的表示形式为一个M个信道的热力值图,其中M=14表示关键点的个数。分别将源姿态和目标姿态标记为PS和PT。可以理解的是,还可以采用更先进的姿态提取器来提升准确率和性能,此处不做限定。
与单帧动作迁移不同的是,接受K帧输入及其各自的动作信息,以及目标动作姿态信息,在一种具体的实施例中K的值为4。目标视频的帧模型可以大致表示为:
Figure GDA0002112767570000051
如图1所示,一种视频动作迁移方法,包括如下步骤:
S1:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;
S2:接收所述源视频的图像输入;
S3:进行前景和背景的初步特征提取;即从源姿态、目标姿态和源视频的图像输入中提取前景和背景的初步特征。
S4:分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过所述背景的融合特征合成融合特征合成背景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;
S5:在所述帧模型中加入损失函数,所述损失函数包括内容损失函数和对抗损失函数,所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。
上述方法的整体框架主要由单帧迁移特征提取模块、前背景融合特征模块、以及最后的预测和合成模块组成。其中前背景分离处理并通过预测的遮罩融合
步骤S3中,初步特征提取模块采用了已有的单帧迁移方法。选取前景和背景分支的倒数第二层特征做后续处理。相比于直接融合生成好的前景和背景图像,前一层特征包含有更丰富的信息,有利于融合模块的训练;相比于更靠前的特征,接近输出的层可以通过最后一个单层处理容易的得到输出图像。出于兼顾内容丰富性与结果易用性的考虑,我们选取前背景分支的倒数第二层特征,留作后续融合、增强、对抗等等。
在步骤S4中,在单帧姿态迁移的情况下,合成前景的质量严重依赖于源视频帧的选择。例如,源视频帧是后背视角,以此生成正面视角的姿态必然会产生模糊的结果。另外单张图像信息的不完整也会导致合成结果的不稳定,加重生成视频中的时域不连续性。本申请提出了一种多帧融合微调的前景(或背景)合成模块,它融合K帧原始特征来生成质量更高的合成前背景。对于每个时间步t,K帧的初步特征
Figure GDA0002112767570000061
被输入到融合模块中,生成融合后的特征
Figure GDA0002112767570000062
在此基础上,一个预测模块通过所述背景的融合特征合成融合特征合成前景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩。预测模块的网络结构是一个单层的3x3卷积,预测前背景图像的激活函数是Tanh,预测前景遮罩的激活函数是Sigmoid。
对于几种不同的特征融合方式,最简单直观的是信道维度MAXPOOLING或AVERAGE-POOLING。为了进一步探索多帧信息,本申请提出了时空注意力机制的三个变种:
RB6结构:骨干网络由6个残差模块组成,所述初步特征由SOFTMAX通道维度加权融合;
SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特征;
RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特征。
它们的输入都是K组初步特征及源姿态和目标姿态信息。最基础的变种“RB6”由6个残差模块组成,计算一个Kx H x W的时空注意力图。然后前景融合特征由K组初步特征经过注意力分布图加权得到:
Figure GDA0002112767570000063
这里的F和A分别表示初步特征和注意力分布图,运算符是逐元素相乘。
“RB6”的缺陷在于尽管注意力是根据时空信息计算得到,最终处理时只是空间上局部的时域加权。为了减缓这个问题,又提出了两个更复杂的变种“SA3D+RB6”和“RB6+SA2D”。实验结果显示这两种变种结果表现类似,但“RB6+SA2D”的运行效率更高。
通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为:
Figure GDA0002112767570000064
其中,
Figure GDA0002112767570000065
为所述融合特征合成前景;
Figure GDA0002112767570000066
为融合特征合成背景;
Figure GDA0002112767570000067
为所述前景遮罩;⊙是逐个元素相乘。
损失函数整体可以划分为两大类,内容损失与对抗损失。
内容损失:为了实现监督训练,在训练阶段使用同一个视频的不同帧作为源角色帧与目标动作帧,此过程中确保源视频和目标动作视频的帧没有重叠。训练过程结束后,对于一个任意的源视频,可以选择一个任意的目标动作视频来提供目标动作序列。在监督训练的前提下,得知生成的帧Ot应该尽可能接近目标帧
Figure GDA0002112767570000075
于是,最简单直接的损失函数就是均方误差(MSE LOSS):
Figure GDA0002112767570000071
其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,
Figure GDA0002112767570000076
是所述目标视频在t时刻的真实帧。
然而这种损失函数趋向于生成模糊的结果,因为生成器要学习去匹配尽可能多的可能,最终收敛到一个平均的方案,也就是模糊的结果。为了增加更多的细节,也采用了感知损失:
Figure GDA0002112767570000072
此处的φ表示由一个预训练的VGG19模型提取出的特征。在实际的实现中,我们选取的是{conv1_1,conv2_1,conv3_1,conv4_1}这些层的特征。LVGG约束生成帧和真实帧在一个预训练的VGG网络的特征域上尽可能相似,从而增强了感知相似性。
空间对抗损失:为鼓励每个生成帧包含更真实的细节,引入了空间对抗损失函数。训练了一个单帧的条件判别器来区分生成帧和真实帧。我们使用了LSGAN和PatchGAN来保证训练的稳定性:
Figure GDA0002112767570000073
其中,DI是单帧图像判别网络,
Figure GDA0002112767570000074
为所述目标视频在t时刻的目标姿态表示。
多尺度时域对抗损失:除了空间对抗损失之外,我们也引入了多尺度的时域对抗损失来鼓励生成的视频在时域动态上尽可能地接近真实视频。与只用一个固定范围的时域判别器不同,我们训练了多个时域判别器去评价不同时间尺度的时域连续性。多尺度时域对抗损失被定义为:
Figure GDA0002112767570000081
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的光流信息;VT是目标动作视频;Vo是目标视频;
Figure GDA0002112767570000082
是时域判别器,接收n帧图像及其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
总损失函数:整体损失由各部分加权得到:
Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V
其中,λVGG、λGI、λGV分别为所述感知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。
由此一来,本申请的目标问题可以表示为:
Figure GDA0002112767570000083
这里的DV表示不同时间尺度所有video判别器的集合:
Figure GDA0002112767570000084
这个目标函数可以通过交替更新生成器G和判别器D来优化。
实施例2
本申请采用PSNR和VFID作为评价指标。为计算VFID,首先用一个预训练的视频分类模型I3D提取视频特征,然后在数据集中所有的视频上计算均值和协方差矩阵
Figure GDA0002112767570000085
最后VFID由公式计算:
Figure GDA0002112767570000086
VFID同时衡量了视觉效果和时域连续性。
对于同一个视频内的迁移,真实视频即为目标视频,可以容易地计算PSNR和VFID。对于跨视频的迁移,由于没有真实的帧对应,PSNR无法计算。同时VFID的参考意义也降低了很多,因为外观和背景也会极大影响I3D网络提取的特征。所以仅仅提供视频内动作迁移的定量结果。
表1定量结果
Figure GDA0002112767570000091
上表展示了在“同视频内”测试集合上不同方法的PSNR和VFID分数。PSNR分数越高越好,表示单帧质量和真实帧接近;VFID越低越好,表示视频整体质量和真实视频差距小。表中每个标准最好的两组数据被加粗高亮了。
比较表中前两行“MSE”和“MSE+VGG”,得知对于单帧基础模型,引入VGG损失作为MSE损失的辅助,共同衡量内容损失,既可以提升单帧质量又可以提升视频级别的时域连续性。
比较表中除标题外的第2、3行“MSE+VGG”和“MSE+VGG+Fusion”,可以观察到加入多帧融合之后VFID分数有明显的提升。这说明多帧融合对与提升视频整体质量有很大的好处。
比较“RB6”和“RB6+Dv”,可以观察到引入多尺度时域判别器后,两个指标都有不同程度的提升。
比较“RB6+Dv3”和“RB6+Dv”,可以看到和Dv357完整版本相比,尽管Dv3的PSNR指标更好一些,但它牺牲了视频级别的整体感知质量。
在后四行不同的融合方式的比较上,“Max”展示了最好的VFID得分和最差的PSNR得分,这表示最大值融合的单帧质量很差,但却通过某种方式骗过了VFID评判标准。(通过后续的定性实验可以看到,最大值融合方式的结果质量也并不是很好,它通过引入一些无意义的细节增强了时域连续性,但生成结果看起来并不真实。)最后两行“SA3D+RB6”展示了最好的PSNR得分,“RB6+SA2D”则在两种标准上都有杰出的表现。
本申请也做了一个人类用户评分测试,来比较“RB6+SA2D”实验配置和基础的单帧模型。对于每种配置,每位用户会看到5组跨视频动作迁移结果和5组视频内迁移结果。不同实验的结果会经过随机打乱,从而确保公平的判断。对于每组对比我们会询问用户两个问题,一是整体视频质量和真实度,“哪个视频看起来更真实”。二是时域连续性,“哪个视频闪烁更少”。20个20-30岁的人接受了测试。表2中展示了人类评价的平均分,我们的方法显著优于当前最优的单帧模型。
表2人类打分测试结果
Figure GDA0002112767570000101
实施例3
本申请还做了定性实验。分别测试了同一个视频内动作迁移与跨视频动作迁移的两种场景,这两种场景对应两组不同的测试子集:i)跨视频测试集,源人物/背景帧和目标动作视频来自于不同的视频序列。ii)视频内测试集,源人物/背景帧和目标动作视频来自于同一个视频序列。对于每个集合,在测试集中固定随机选取了50对视频作为测试子集。注意在视频内测试子集中,确保了源序列和目标序列没有交叉或覆盖。
单帧的基础模型生成的结果中,可以观察到明显的模糊和不自然。
最大值池化融合方法的结果趋向于在前景和背景中生成奇怪的颜色和影子,猜想原因是最大值融合的暂留效应。这也印证了上文定量实验中的结论,虽然这样会提升时域连续性,但失去了视频原本的内容意义和真实性。
“RB6+SA2D”和“SA3D+RB6”展示了最好的整体质量。通过基于时空注意力机制的多帧融合与增强,背景补全结果更精确,同时前景保留了更多的细节。
为更深入探索多帧融合机制,可视化了一些“RB6+SA2D”融合模块的中间结果。展示了来自不同帧的注意力分配,即“RB6”模块的输出。单帧图像预测结果中我们可以看到明显的不和谐区域,如背景中的栏杆模糊。但不同的帧模糊的区域各不相同,我们的方法通过注意力分配定位到了每个源的“舒适区”,引导合成具有更精确细节的前景和背景。
本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (9)

1.一种视频动作迁移方法,其特征在于,包括如下步骤:
S1:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;
S2:接收所述源视频的图像输入;
S3:进行前景和背景的初步特征提取;
S4:分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过所述背景的融合特征合成融合特征合成背景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;步骤S4中通过时空注意力机制分别对所述背景和所述前景的初步特征进行融合;所述时空注意力机制包括:
RB6结构:骨干网络由6个残差模块组成,所述初步特征由SOFTMAX通道维度加权融合;
SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特征;
RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特征;
S5:在所述帧模型中加入损失函数,所述损失函数包括内容损失函数和对抗损失函数,所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。
2.如权利要求1所述的视频动作迁移方法,其特征在于,采用2D姿态检测模型提取所述源视频和所述目标动作视频的动作序列。
3.如权利要求1所述的视频动作迁移方法,其特征在于,所述源视频的图像输入包括输入K帧图像,所述K的值为4。
4.如权利要求1所述的视频动作迁移方法,其特征在于,步骤S3中采用单帧迁移方法选取前景和背景分支的倒数第二层特征做后续的融合。
5.如权利要求1所述的视频动作迁移方法,其特征在于,步骤S4中,通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为:
Figure FDA0002945080340000011
其中,
Figure FDA0002945080340000012
为所述融合特征合成前景;
Figure FDA0002945080340000013
为融合特征合成背景;
Figure FDA0002945080340000014
为所述前景遮罩;⊙是逐个元素相乘。
6.如权利要求1所述的视频动作迁移方法,其特征在于,所述内容损失函数定义为:
Figure FDA0002945080340000021
其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,
Figure FDA0002945080340000027
是所述目标视频在t时刻的真实帧;
所述内容损失函数还包括感知损失,所述感知损失定义为:
Figure FDA0002945080340000022
其中,φ表示由预训练的VGG19模型提取出的特征。
7.如权利要求6所述的视频动作迁移方法,其特征在于,所述空间对抗损失定义为:
Figure FDA0002945080340000023
其中,DI是单帧图像判别网络,
Figure FDA0002945080340000024
为所述目标视频在t时刻的目标姿态表示;
所述多尺度时域对抗损失定义为:
Figure FDA0002945080340000025
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的光流信息;VT是目标动作视频;Vo是目标视频;
Figure FDA0002945080340000026
是时域判别器,接收n帧图像及其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
8.如权利要求7所述的视频动作迁移方法,其特征在于,损失函数定义为:
Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V
其中,λVGG、λGI、λGV分别为所述感知损失、所述空间对抗损失、所述多尺度时域对抗损失对应的权重系数。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一所述方法的步骤。
CN201910485182.9A 2019-06-05 2019-06-05 一种视频动作迁移方法 Active CN110197167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910485182.9A CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910485182.9A CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Publications (2)

Publication Number Publication Date
CN110197167A CN110197167A (zh) 2019-09-03
CN110197167B true CN110197167B (zh) 2021-03-26

Family

ID=67753996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910485182.9A Active CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Country Status (1)

Country Link
CN (1) CN110197167B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210386B (zh) * 2019-05-31 2022-03-04 北京市商汤科技开发有限公司 用于动作迁移的视频生成方法及神经网络训练方法和装置
CN111489304B (zh) * 2020-03-27 2022-04-26 天津大学 一种基于注意机制的图像去模糊方法
CN111462209B (zh) * 2020-03-31 2022-05-24 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
CN111539262B (zh) * 2020-04-02 2023-04-18 中山大学 一种基于单张图片的运动转移方法及系统
CN112508830B (zh) * 2020-11-30 2023-10-13 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN112633158A (zh) * 2020-12-22 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路走廊车辆识别方法、装置、设备和存储介质
CN114760497A (zh) * 2021-01-08 2022-07-15 阿里巴巴集团控股有限公司 视频生成方法、非易失性存储介质及电子设备
CN113706577A (zh) * 2021-04-08 2021-11-26 腾讯科技(深圳)有限公司 一种图像处理方法、装置和计算机可读存储介质
CN113870314B (zh) * 2021-10-18 2023-09-19 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN113870315B (zh) * 2021-10-18 2023-08-25 南京硅基智能科技有限公司 基于多算法集成的动作迁移模型训练方法及动作迁移方法
CN115713680B (zh) * 2022-11-18 2023-07-25 山东省人工智能研究院 一种基于语义引导的人脸图像身份合成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3966392B2 (ja) * 1997-09-30 2007-08-29 シャープ株式会社 画像合成通信装置
CN108363973B (zh) * 2018-02-07 2022-03-25 电子科技大学 一种无约束的3d表情迁移方法
CN109951654B (zh) * 2019-03-06 2022-02-15 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置

Also Published As

Publication number Publication date
CN110197167A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110197167B (zh) 一种视频动作迁移方法
CA3035298C (en) Predicting depth from image data using a statistical model
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN101558404B (zh) 图像分割
CN111275518A (zh) 一种基于混合光流的视频虚拟试穿方法及装置
CN108363973B (zh) 一种无约束的3d表情迁移方法
CN115191005A (zh) 用于从多视图图像进行端到端场景重建的系统和方法
Singh et al. Neural style transfer: A critical review
CN107194948B (zh) 基于集成式预测与时空域传播的视频显著性检测方法
WO2023221684A1 (zh) 数字人生成方法和装置及存储介质
CN111491187A (zh) 视频的推荐方法、装置、设备及存储介质
CN114339409A (zh) 视频处理方法、装置、计算机设备及存储介质
Stergiou et al. Spatio-temporal FAST 3D convolutions for human action recognition
Gafni et al. Wish you were here: Context-aware human generation
Sun et al. Twostreamvan: Improving motion modeling in video generation
CN114782596A (zh) 语音驱动的人脸动画生成方法、装置、设备及存储介质
CN111028318A (zh) 一种虚拟人脸合成方法、系统、装置和存储介质
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
Singh et al. Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers
CN113395569A (zh) 视频生成方法及装置
CN116233567B (zh) 一种基于音频情感感知的说话人脸视频生成方法及系统
Han et al. Two-stream LSTM for action recognition with RGB-D-based hand-crafted features and feature combination
Tang et al. A multi-task neural network for action recognition with 3d key-points
CN115936796A (zh) 一种虚拟换妆方法、系统、设备和存储介质
CN111275778A (zh) 人脸简笔画生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant