CN110197167A - 一种视频动作迁移方法 - Google Patents

一种视频动作迁移方法 Download PDF

Info

Publication number
CN110197167A
CN110197167A CN201910485182.9A CN201910485182A CN110197167A CN 110197167 A CN110197167 A CN 110197167A CN 201910485182 A CN201910485182 A CN 201910485182A CN 110197167 A CN110197167 A CN 110197167A
Authority
CN
China
Prior art keywords
video
feature
background
loss
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910485182.9A
Other languages
English (en)
Other versions
CN110197167B (zh
Inventor
袁春
成昆
黄浩智
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Tsinghua University
Original Assignee
Shenzhen Graduate School Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Tsinghua University filed Critical Shenzhen Graduate School Tsinghua University
Priority to CN201910485182.9A priority Critical patent/CN110197167B/zh
Publication of CN110197167A publication Critical patent/CN110197167A/zh
Application granted granted Critical
Publication of CN110197167B publication Critical patent/CN110197167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供一种视频动作迁移方法,包括如下步骤:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;接收源视频的图像输入;进行前景和背景的初步特征提取;分别对背景和前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过背景的融合特征合成融合特征合成背景;通过前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;在帧模型中加入损失函数,损失函数包括内容损失函数和对抗损失函数,内容损失函数包括像素级误差损失与感知误差损失,对抗损失函数包括空间对抗损失和多尺度时域对抗损失。构建了具有通用性和灵活性的整体流水线模型。

Description

一种视频动作迁移方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种视频动作迁移方法。
背景技术
人像视频生成是一个有着海量应用场景的前沿课题。它可以被用于产生更 高层视觉任务的训练数据,如人体姿态估计、对象检测与分组、个体身份识别 等等。同时它还有助于研发更强有力的视频定向编辑工具。现有的人像视频生 成方式主要有三类:无条件的视频生成、视频帧预测以及视频动作迁移。
无条件的视频生成关注于将多组一维的隐向量映射到人像视频,这种方法 依赖于一维的隐向量来同时产生视频的外观和动作信息。训练完成后,通过在 隐向量中随机采样可以得到不同的生成视频。然而这种方式不能灵活控制生成 视频的动作和外观。
对于视频帧预测,已有工作致力于根据之前的帧预测未来的帧。这个问题 也可以被看作一个两阶段问题:先从过去的帧预测出未来帧的动作变化,再从 未来帧的动作预测完整的帧。其中第二阶段的工作和视频动作迁移是类似的, 不过已有的视频帧预测方法都聚焦于第一个阶段,缺乏一些关于第二阶段如何 保持外观细节和时域连续性的考量。
本申请关注的是视频动作迁移问题,致力于把目标视频中的人物动作迁移到 源视频的人物身上,同时保留源人物的外观。如此一来可以确切的控制生成视 频的动作,只要提供一组包含理想动作序列的目标视频。尽管已有不少方法试 图解决单帧图像的动作迁移问题,但直接将他们的方法应用于连续视频效果并 不理想。在视频动作复杂且难以预测的场合,单帧动作迁移方法会引入严重的 模糊、锯齿以及其他视觉上不自然的现象。
除此之外最近还有一些工作,试图窄化通用的动作迁移问题,来将任意的 动作迁移到固定的人物和场景。这类方法由于简化了问题的复杂度往往可以得 到非常有吸引力的结果,然而它们并不能严格的归属于迁移问题:由于目标人 物和场景单一,生成视频的外观和背景甚至不需要从源视频中迁移得到,而是 可以固化记忆在网络参数中,形成一种动作隐向量直接幻化为视频的生成过 程。因此这类方法需要对每一个源对象训练一个单独的模型,并且前景人物和 背景场景的关系是绑定的,这与我们灵活、通用的初衷相违背。
所以现有技术中缺乏一种从图像应用到视频的有效方法。
发明内容
本发明为了解决现有的问题,提供一种视频动作迁移方法。
为了解决上述问题,本发明采用的技术方案如下所述:
一种视频动作迁移方法,包括如下步骤:S1:提取源视频和目标动作视频的 动作序列并分别生成源姿态和目标姿态;S2:接收所述源视频的图像输入;S3: 进行前景和背景的初步特征提取;S4:分别对所述背景和所述前景的初步特征进 行融合生成背景的融合特征和前景的融合特征;通过所述背景的融合特征合成融 合特征合成背景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩, 进一步得到动作迁移后的目标视频在t时刻的帧模型;S5:在所述帧模型中加入 损失函数,所述损失函数包括内容损失函数和对抗损失函数,所述对抗损失函数 包括空间对抗损失和多尺度时域对抗损失。
在本发明的一种实施例中,采用2D姿态检测模型提取所述源视频和所述目 标动作视频的动作序列。
在本发明的一种实施例中,所述源视频的图像输入包括输入K帧图像,所 述K的值为4。
在本发明的一种实施例中,步骤S3中采用单帧迁移方法选取前景和背景分 支的倒数第二层特征做后续的融合。
在本发明的一种实施例中,步骤S4中通过时空注意力机制分别对所述背景 和所述前景的初步特征进行融合;所述时空注意力机制包括:RB6结构:骨干网 络由6个残差模块组成,所述初步特征由SOFTMAX通道维度加权融合; SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特征; RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特征。
在本发明的一种实施例中,所述步骤S4中,通过所述融合特征合成前景、 所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型 为:其中,为所述融合特征合成前景;为融合特征合成背景;为所述前景遮罩;⊙是逐个元素相乘。
在本发明的一种实施例中,所述内容损失函数定义为:其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,是所述 目标视频在t时刻的真实帧;所述内容损失函数还包括感知损失,所述感知损失 定义为:其中,φ表示由预训练的VGG19模型提取 出的特征。
在本发明的一种实施例中,所述空间对抗损失定义为:其中,DI是单帧图像判别网络, 为所述目标视频在t时刻的目标姿态表示;
所述多尺度时域对抗损失定义为:
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的光流 信息;VT是目标动作视频;Vo是目标视频;是时域判别器,接收n帧图像及 其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
在本发明的一种实施例中,损失函数定义为: Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V;其中,λVGG、λGI、λGV分别为所述感 知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。本发明还提供 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计 算机程序被处理器执行时实现如上任一所述方法的步骤。
本发明的有益效果为:提供一种视频动作迁移方法,通过多帧输入提供外观 信息,并有时间-空间注意力机制指导,由多时间尺度判别器对抗监督的普适性 的视频动作迁移方案。流水线灵活性,从不同视频中解析出前景、背景、动作等 元素,通过调换输入视频的位置顺序,实现A在B场景中做C的动作这样的多 种组合视频;提出了一种全新的内容融合机制,基于时空注意力机制,可以生成 更真实自然的前景和背景图像;提出了一种可端到端训练的多时间尺度判别器, 来鼓励生成器产生时域上更平滑连续的视频。
附图说明
图1是本发明实施例中一种视频动作迁移方法示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明 白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所 描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直 接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于” 另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。另 外,连接即可以是用于固定作用也可以是用于电路连通作用。
需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、 “竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所 示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示 或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此 不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二” 的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述 中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例1
本申请解决的问题定位于视频中的人体动作迁移。V={I1,I2,...,IN}表示一 个N帧的视频,其中有单个人做全身性的动作,如跳舞等。为简化问题,假定 观察点(相机)和背景都是静止的,即便如此,它仍是一个未解决的有挑战性的 问题。给定源视频VS和目标动作视频VT,动作迁移的目标是把VT的动作迁移 到VS,同时保持VS的外观特征。如此一来,对于生成的目标视频VO,可以显 示的同时控制动作和外观。运用了一个预训练的2D姿态检测模型来提取源视频 和目标动作视频的动作序列P={p1,p2,...,pN}。每一个pt表示第t帧的姿态,实 现中的表示形式为一个M个信道的热力值图,其中M=14表示关键点的个数。 分别将源姿态和目标姿态标记为PS和PT。可以理解的是,还可以采用更先进的 姿态提取器来提升准确率和性能,此处不做限定。
与单帧动作迁移不同的是,接受K帧输入及其各自的动作信息,以及目标 动作姿态信息,在一种具体的实施例中K的值为4。目标视频的帧模型可以大致 表示为:
如图1所示,一种视频动作迁移方法,包括如下步骤:
S1:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;
S2:接收所述源视频的图像输入;
S3:进行前景和背景的初步特征提取;即从源姿态、目标姿态和源视频的图 像输入中提取前景和背景的初步特征。
S4:分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和 前景的融合特征;通过所述背景的融合特征合成融合特征合成背景;通过所述前 景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标 视频在t时刻的帧模型;
S5:在所述帧模型中加入损失函数,所述损失函数包括内容损失函数和对抗 损失函数,所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。
上述方法的整体框架主要由单帧迁移特征提取模块、前背景融合特征模块、 以及最后的预测和合成模块组成。其中前背景分离处理并通过预测的遮罩融合
步骤S3中,初步特征提取模块采用了已有的单帧迁移方法。选取前景和背 景分支的倒数第二层特征做后续处理。相比于直接融合生成好的前景和背景图 像,前一层特征包含有更丰富的信息,有利于融合模块的训练;相比于更靠前 的特征,接近输出的层可以通过最后一个单层处理容易的得到输出图像。出于 兼顾内容丰富性与结果易用性的考虑,我们选取前背景分支的倒数第二层特 征,留作后续融合、增强、对抗等等。
在步骤S4中,在单帧姿态迁移的情况下,合成前景的质量严重依赖于源视 频帧的选择。例如,源视频帧是后背视角,以此生成正面视角的姿态必然会产 生模糊的结果。另外单张图像信息的不完整也会导致合成结果的不稳定,加重 生成视频中的时域不连续性。本申请提出了一种多帧融合微调的前景(或背景) 合成模块,它融合K帧原始特征来生成质量更高的合成前背景。对于每个时间 步t,K帧的初步特征被输入到融合模块中,生成融合后的特征 在此基础上,一个预测模块通过所述背景的融合特征合成融合特征合成前 景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩。预测模块的网络结构是一个单层的3x3卷积,预测前背景图像的激活函数是Tanh,预测前 景遮罩的激活函数是Sigmoid。
对于几种不同的特征融合方式,最简单直观的是信道维度MAXPOOLING 或AVERAGE-POOLING。为了进一步探索多帧信息,本申请提出了时空注意 力机制的三个变种:
RB6结构:骨干网络由6个残差模块组成,所述初步特征由SOFTMAX通 道维度加权融合;
SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特 征;
RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特 征。
它们的输入都是K组初步特征及源姿态和目标姿态信息。最基础的变种 “RB6”由6个残差模块组成,计算一个Kx H x W的时空注意力图。然后前景 融合特征由K组初步特征经过注意力分布图加权得到:这里的F和A分别表示初步特征和注意力分布图,运算符是逐元素相乘。
“RB6”的缺陷在于尽管注意力是根据时空信息计算得到,最终处理时只是 空间上局部的时域加权。为了减缓这个问题,又提出了两个更复杂的变种 “SA3D+RB6”和“RB6+SA2D”。实验结果显示这两种变种结果表现类似,但 “RB6+SA2D”的运行效率更高。
通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到 的所述目标视频在t时刻的帧模型为:
其中,为所述融合特征合成前景;为融合特征合成背景;为 所述前景遮罩;⊙是逐个元素相乘。
损失函数整体可以划分为两大类,内容损失与对抗损失。
内容损失:为了实现监督训练,在训练阶段使用同一个视频的不同帧作为 源角色帧与目标动作帧,此过程中确保源视频和目标动作视频的帧没有重叠。 训练过程结束后,对于一个任意的源视频,可以选择一个任意的目标动作视频 来提供目标动作序列。在监督训练的前提下,得知生成的帧Ot应该尽可能接近 目标帧于是,最简单直接的损失函数就是均方误差(MSE LOSS):
其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,是 所述目标视频在t时刻的真实帧。
然而这种损失函数趋向于生成模糊的结果,因为生成器要学习去匹配尽可 能多的可能,最终收敛到一个平均的方案,也就是模糊的结果。为了增加更多 的细节,也采用了感知损失:
此处的φ表示由一个预训练的VGG19模型提取出的特征。在实际的实现 中,我们选取的是{conv1_1,conv2_1,conv3_1,conv4_1}这些层的特征。LVGG约 束生成帧和真实帧在一个预训练的VGG网络的特征域上尽可能相似,从而增强 了感知相似性。
空间对抗损失:为鼓励每个生成帧包含更真实的细节,引入了空间对抗损 失函数。训练了一个单帧的条件判别器来区分生成帧和真实帧。我们使用了 LSGAN和PatchGAN来保证训练的稳定性:
其中,DI是单帧图像判别网络,为所述目标视频在t时刻的目标姿态表 示。
多尺度时域对抗损失:除了空间对抗损失之外,我们也引入了多尺度的时 域对抗损失来鼓励生成的视频在时域动态上尽可能地接近真实视频。与只用一 个固定范围的时域判别器不同,我们训练了多个时域判别器去评价不同时间尺 度的时域连续性。多尺度时域对抗损失被定义为:
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的 光流信息;VT是目标动作视频;Vo是目标视频;是时域判别器,接收n帧图 像及其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
总损失函数:整体损失由各部分加权得到:
Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V
其中,λVGG、λGI、λGV分别为所述感知损失、所述空间对抗损失、所述多 帧对抗损失对应的权重系数。
由此一来,本申请的目标问题可以表示为:
这里的DV表示不同时间尺度所有video判别器的集合:
这个目标函数可以通过交替更新生成器G和判别器D来优化。
实施例2
本申请采用PSNR和VFID作为评价指标。为计算VFID,首先用一个预训 练的视频分类模型I3D提取视频特征,然后在数据集中所有的视频上计算均值 和协方差矩阵最后VFID由公式计算:
VFID同时衡量了视觉效果和时域连续性。
对于同一个视频内的迁移,真实视频即为目标视频,可以容易地计算 PSNR和VFID。对于跨视频的迁移,由于没有真实的帧对应,PSNR无法计 算。同时VFID的参考意义也降低了很多,因为外观和背景也会极大影响I3D网 络提取的特征。所以仅仅提供视频内动作迁移的定量结果。
表1定量结果
上表展示了在“同视频内”测试集合上不同方法的PSNR和VFID分数。 PSNR分数越高越好,表示单帧质量和真实帧接近;VFID越低越好,表示视频 整体质量和真实视频差距小。表中每个标准最好的两组数据被加粗高亮了。
比较表中前两行“MSE”和“MSE+VGG”,得知对于单帧基础模型,引 入VGG损失作为MSE损失的辅助,共同衡量内容损失,既可以提升单帧质量 又可以提升视频级别的时域连续性。
比较表中除标题外的第2、3行“MSE+VGG”和“MSE+VGG+Fusion”, 可以观察到加入多帧融合之后VFID分数有明显的提升。这说明多帧融合对与提 升视频整体质量有很大的好处。
比较“RB6”和“RB6+Dv”,可以观察到引入多尺度时域判别器后,两个 指标都有不同程度的提升。
比较“RB6+Dv3”和“RB6+Dv”,可以看到和Dv357完整版本相比,尽 管Dv3的PSNR指标更好一些,但它牺牲了视频级别的整体感知质量。
在后四行不同的融合方式的比较上,“Max”展示了最好的VFID得分和最 差的PSNR得分,这表示最大值融合的单帧质量很差,但却通过某种方式骗过 了VFID评判标准。(通过后续的定性实验可以看到,最大值融合方式的结果质 量也并不是很好,它通过引入一些无意义的细节增强了时域连续性,但生成结 果看起来并不真实。)最后两行“SA3D+RB6”展示了最好的PSNR得分, “RB6+SA2D”则在两种标准上都有杰出的表现。
本申请也做了一个人类用户评分测试,来比较“RB6+SA2D”实验配置和 基础的单帧模型。对于每种配置,每位用户会看到5组跨视频动作迁移结果和5 组视频内迁移结果。不同实验的结果会经过随机打乱,从而确保公平的判断。 对于每组对比我们会询问用户两个问题,一是整体视频质量和真实度,“哪个 视频看起来更真实”。二是时域连续性,“哪个视频闪烁更少”。20个20-30 岁的人接受了测试。表2中展示了人类评价的平均分,我们的方法显著优于当 前最优的单帧模型。
表2人类打分测试结果
实施例3
本申请还做了定性实验。分别测试了同一个视频内动作迁移与跨视频动作 迁移的两种场景,这两种场景对应两组不同的测试子集:i)跨视频测试集,源 人物/背景帧和目标动作视频来自于不同的视频序列。ii)视频内测试集,源人物/ 背景帧和目标动作视频来自于同一个视频序列。对于每个集合,在测试集中固 定随机选取了50对视频作为测试子集。注意在视频内测试子集中,确保了源序 列和目标序列没有交叉或覆盖。
单帧的基础模型生成的结果中,可以观察到明显的模糊和不自然。
最大值池化融合方法的结果趋向于在前景和背景中生成奇怪的颜色和影 子,猜想原因是最大值融合的暂留效应。这也印证了上文定量实验中的结论, 虽然这样会提升时域连续性,但失去了视频原本的内容意义和真实性。
“RB6+SA2D”和“SA3D+RB6”展示了最好的整体质量。通过基于时空 注意力机制的多帧融合与增强,背景补全结果更精确,同时前景保留了更多的 细节。
为更深入探索多帧融合机制,可视化了一些“RB6+SA2D”融合模块的中 间结果。展示了来自不同帧的注意力分配,即“RB6”模块的输出。单帧图像 预测结果中我们可以看到明显的不和谐区域,如背景中的栏杆模糊。但不同的 帧模糊的区域各不相同,我们的方法通过注意力分配定位到了每个源的“舒适 区”,引导合成具有更精确细节的前景和背景。
本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序 来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质 中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其 中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码 形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可 以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、 移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、 电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内 容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些 司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信 信号。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能 认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员 来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而 且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (10)

1.一种视频动作迁移方法,其特征在于,包括如下步骤:
S1:提取源视频和目标动作视频的动作序列并分别生成源姿态和目标姿态;
S2:接收所述源视频的图像输入;
S3:进行前景和背景的初步特征提取;
S4:分别对所述背景和所述前景的初步特征进行融合生成背景的融合特征和前景的融合特征;通过所述背景的融合特征合成融合特征合成背景;通过所述前景的融合特征合成融合特征合成前景和前景遮罩,进一步得到动作迁移后的目标视频在t时刻的帧模型;
S5:在所述帧模型中加入损失函数,所述损失函数包括内容损失函数和对抗损失函数,所述对抗损失函数包括空间对抗损失和多尺度时域对抗损失。
2.如权利要求1所述的视频动作迁移方法,其特征在于,采用2D姿态检测模型提取所述源视频和所述目标动作视频的动作序列。
3.如权利要求1所述的视频动作迁移方法,其特征在于,所述源视频的图像输入包括输入K帧图像,所述K的值为4。
4.如权利要求1所述的视频动作迁移方法,其特征在于,步骤S3中采用单帧迁移方法选取前景和背景分支的倒数第二层特征做后续的融合。
5.如权利要求1所述的视频动作迁移方法,其特征在于,步骤S4中通过时空注意力机制分别对所述背景和所述前景的初步特征进行融合;所述时空注意力机制包括:
RB6结构:骨干网络由6个残差模块组成,所述初步特征由SOFTMAX通道维度加权融合;
SA3D+RB6结构:在所述RB6结构之前,添加三维的自注意力模块增强特征;
RB6+SA2D结构:在所述RB6结构之后,添加二维的自注意力模块增强特征。
6.如权利要求1所述的视频动作迁移方法,其特征在于,步骤S4中,通过所述融合特征合成前景、所述融合特征合成背景和所述前景遮罩得到的所述目标视频在t时刻的帧模型为:
其中,为所述融合特征合成前景;为融合特征合成背景;为所述前景遮罩;⊙是逐个元素相乘。
7.如权利要求1所述的视频动作迁移方法,其特征在于,所述内容损失函数定义为:
其中,LMSE是均方误差函数,Ot是所述目标视频在t时刻的帧模型,是所述目标视频在t时刻的真实帧;
所述内容损失函数还包括感知损失,所述感知损失定义为:
其中,φ表示由预训练的VGG19模型提取出的特征。
8.如权利要求7所述的视频动作迁移方法,其特征在于,所述空间对抗损失定义为:
其中,DI是单帧图像判别网络,为所述目标视频在t时刻的目标姿态表示;
所述多尺度时域对抗损失定义为:
其中,WT是由FlowNet2计算得到的光流序列,包含了每一对连续帧之间的光流信息;VT是目标动作视频;Vo是目标视频;是时域判别器,接收n帧图像及其光流信息作为输入,学习判别生成的连续n帧和真实n帧。
9.如权利要求8所述的视频动作迁移方法,其特征在于,损失函数定义为:
Ltotal=LMSEVGGLVGGGILGAN,IGVLGAN,V
其中,λVGG、λGI、λGV分别为所述感知损失、所述空间对抗损失、所述多帧对抗损失对应的权重系数。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一所述方法的步骤。
CN201910485182.9A 2019-06-05 2019-06-05 一种视频动作迁移方法 Active CN110197167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910485182.9A CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910485182.9A CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Publications (2)

Publication Number Publication Date
CN110197167A true CN110197167A (zh) 2019-09-03
CN110197167B CN110197167B (zh) 2021-03-26

Family

ID=67753996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910485182.9A Active CN110197167B (zh) 2019-06-05 2019-06-05 一种视频动作迁移方法

Country Status (1)

Country Link
CN (1) CN110197167B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210386A (zh) * 2019-05-31 2019-09-06 北京市商汤科技开发有限公司 用于动作迁移的视频生成方法及神经网络训练方法和装置
CN111462209A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
CN111489304A (zh) * 2020-03-27 2020-08-04 天津大学 一种基于注意机制的图像去模糊方法
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN112508830A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN112633158A (zh) * 2020-12-22 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路走廊车辆识别方法、装置、设备和存储介质
CN113870314A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN113870315A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN114760497A (zh) * 2021-01-08 2022-07-15 阿里巴巴集团控股有限公司 视频生成方法、非易失性存储介质及电子设备
WO2022213761A1 (zh) * 2021-04-08 2022-10-13 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备和存储介质
CN115713680A (zh) * 2022-11-18 2023-02-24 山东省人工智能研究院 一种基于语义引导的人脸图像身份合成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905977B1 (en) * 1997-09-30 2010-11-10 Sharp Kabushiki Kaisha Image synthesis apparatus
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0905977B1 (en) * 1997-09-30 2010-11-10 Sharp Kabushiki Kaisha Image synthesis apparatus
CN108363973A (zh) * 2018-02-07 2018-08-03 电子科技大学 一种无约束的3d表情迁移方法
CN109951654A (zh) * 2019-03-06 2019-06-28 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TING-CHUN WANG 等: "《video-to Video Synthesis》", 《ARXIV》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210386A (zh) * 2019-05-31 2019-09-06 北京市商汤科技开发有限公司 用于动作迁移的视频生成方法及神经网络训练方法和装置
CN111489304B (zh) * 2020-03-27 2022-04-26 天津大学 一种基于注意机制的图像去模糊方法
CN111489304A (zh) * 2020-03-27 2020-08-04 天津大学 一种基于注意机制的图像去模糊方法
CN111462209A (zh) * 2020-03-31 2020-07-28 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
CN111462209B (zh) * 2020-03-31 2022-05-24 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
CN111539262A (zh) * 2020-04-02 2020-08-14 中山大学 一种基于单张图片的运动转移方法及系统
CN111539262B (zh) * 2020-04-02 2023-04-18 中山大学 一种基于单张图片的运动转移方法及系统
CN112508830A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN112508830B (zh) * 2020-11-30 2023-10-13 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、设备及存储介质
CN112633158A (zh) * 2020-12-22 2021-04-09 广东电网有限责任公司电力科学研究院 一种输电线路走廊车辆识别方法、装置、设备和存储介质
CN114760497A (zh) * 2021-01-08 2022-07-15 阿里巴巴集团控股有限公司 视频生成方法、非易失性存储介质及电子设备
WO2022213761A1 (zh) * 2021-04-08 2022-10-13 腾讯科技(深圳)有限公司 一种图像处理方法、装置、电子设备和存储介质
CN113870315A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN113870314A (zh) * 2021-10-18 2021-12-31 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN113870315B (zh) * 2021-10-18 2023-08-25 南京硅基智能科技有限公司 基于多算法集成的动作迁移模型训练方法及动作迁移方法
CN113870314B (zh) * 2021-10-18 2023-09-19 南京硅基智能科技有限公司 一种动作迁移模型的训练方法及动作迁移方法
CN115713680A (zh) * 2022-11-18 2023-02-24 山东省人工智能研究院 一种基于语义引导的人脸图像身份合成方法

Also Published As

Publication number Publication date
CN110197167B (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN110197167A (zh) 一种视频动作迁移方法
Zhang et al. C2FDA: Coarse-to-fine domain adaptation for traffic object detection
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN111275518B (zh) 一种基于混合光流的视频虚拟试穿方法及装置
EP2706507B1 (en) Method and apparatus for generating morphing animation
CN109558832A (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
JP2022526513A (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
Ludl et al. Enhancing data-driven algorithms for human pose estimation and action recognition through simulation
CN110348387A (zh) 一种图像数据处理方法、装置以及计算机可读存储介质
CN110163188A (zh) 视频处理以及在视频中嵌入目标对象的方法、装置和设备
Zhao et al. Depth-distilled multi-focus image fusion
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN109902912A (zh) 一种基于性格特征的个性化图像美学评价方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
Vobecký et al. Artificial dummies for urban dataset augmentation
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
Zeng et al. Expression-tailored talking face generation with adaptive cross-modal weighting
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN116805360B (zh) 一种基于双流门控渐进优化网络的显著目标检测方法
CN116091524B (zh) 一种针对复杂背景中目标的检测与分割方法
CN113066074A (zh) 一种基于双目视差偏移融合的视觉显著性预测方法
CN116543021A (zh) 一种基于特征融合的Siamese网络视频单目标跟踪方法
CN116645456A (zh) 语音驱动数字人面部动画生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant