CN113870314B - 一种动作迁移模型的训练方法及动作迁移方法 - Google Patents
一种动作迁移模型的训练方法及动作迁移方法 Download PDFInfo
- Publication number
- CN113870314B CN113870314B CN202111209167.5A CN202111209167A CN113870314B CN 113870314 B CN113870314 B CN 113870314B CN 202111209167 A CN202111209167 A CN 202111209167A CN 113870314 B CN113870314 B CN 113870314B
- Authority
- CN
- China
- Prior art keywords
- image
- key point
- source
- driving
- point coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 85
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000005012 migration Effects 0.000 title claims abstract description 63
- 238000013508 migration Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 title claims abstract description 48
- 230000009466 transformation Effects 0.000 claims description 75
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 65
- 230000006870 function Effects 0.000 claims description 60
- 230000003287 optical effect Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 241001465754 Metazoa Species 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T3/02—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
本申请提供了一种动作迁移模型的训练方法及动作迁移方法,所述训练方法包括将源图像和驱动图像输入至待训练动作迁移模型,以使该模型根据初始模型参数获取源图像的源关键点坐标组和驱动图像的驱动关键点坐标组,并根据源关键点坐标组和驱动关键点坐标组,获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图,获取源图像的隐层特征图,根据隐层特征图、光流图和重绘图,获取目标图像,目标图像是将驱动图像中与驱动关键点坐标相关联的待迁移动作迁移至源关键点坐标后得到的图像;根据目标图像、源图像以及驱动图像,计算损失函数,并根据损失函数优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种动作迁移模型的训练方法及动作迁移方法。
背景技术
动作迁移是图像处理领域中一种重要的图像编辑技术,是指将驱动视频中的人物动 作迁移到源图像中的人物身上,在保留源图像中人物外观的基础上,使源图像中的人物与目标视频中的人物保持同步运动。
在现有的方案中,可采用三维(3-dimension,3D)的方式进行动作迁移,首先需要分 析源图像的像素数据,获取源图像中人物形象的像素位置信息,根据人物形象的像素位置信息构建该人物的3D模型,然后基于驱动视频,对该3D人物模型进行图像扭曲和融 合等处理,最终实现动作迁移的目的。
但是,采用3D建模的方式构建人物模型需要运用大量的数据并涉及复杂的运算,相 应的,在对该模型的实际训练过程中,不但需要消耗大量的计算资源,还会影响模型的训练效率。
发明内容
本申请提供了一种动作迁移模型的训练方法及动作迁移方法,降低了动作迁移模型 的训练成本,提升了动作迁移模型的训练效率。
一方面,本申请提供了一种动作迁移模型的训练方法,包括:
获取训练视频文件,所述训练视频文件包括源图像和驱动图像;
将所述源图像和所述驱动图像输入至待训练动作迁移模型,所述待训练动作迁移模 型根据初始模型参数执行以下步骤:
获取所述源图像的源关键点坐标组,所述源关键点坐标组是所述源图像的源关键点 坐标KSn合集;
获取所述驱动图像的驱动关键点坐标组,所述驱动关键点坐标组是所述驱动图像的 驱动关键点坐标KDn合集;
根据所述源关键点坐标组和所述驱动关键点坐标组,获取由所述源关键点坐标组变 换至所述驱动关键点坐标组的光流图和重绘图/>
获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重 绘图/>获取目标图像,所述目标图像是将所述驱动图像中与所述驱动关键点坐标KDn相关联的待迁移动作迁移至所述源关键点坐标KSn后得到的图像;
根据所述目标图像、所述源图像以及所述驱动图像,计算损失函数,并根据所述损失函数优化所述初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移 模型。
可选的,获取训练视频文件,所述训练视频文件包括源图像和驱动图像,包括:
获取训练视频文件,所述训练视频文件包括若干视频帧,提取任意两个视频帧,将其中一个视频帧确定为源图像,另一个视频帧确定为驱动图像。
可选的,获取所述源图像的源关键点坐标组之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积, 计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设 值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比 大于或等于所述第一预设值。
可选的,获取所述驱动图像的驱动关键点坐标组之前,包括:
获取所述驱动图像的有效区域面积,将所述驱动图像的有效区域面积确定为第二面 积,计算所述第二面积在所述驱动图像中的面积占比;
判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值,所述第二预 设值是所述第二面积在所述驱动图像中的面积占比的阈值;
若是,则对所述驱动图像进行预处理,以使所述第二面积在所述驱动图像中的面积 占比大于或等于所述第二预设值。
可选的,根据所述源关键点坐标组和所述驱动关键点坐标组,获取由所述源关键点 坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>包括:
根据所述源关键点坐标组和所述驱动关键点坐标组,获取零阶运动信息Hn(z),所述 零阶运动信息Hn(z)包括每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数;
根据所述源关键点坐标组和所述驱动关键点坐标组,获取与所述源关键点坐标KSn关联的源局部仿射变换参数和与所述驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所 述驱动局部仿射变换参数,获取一阶运动信息所述一阶运动信息/>包括每 一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参 数;
根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息Hn(z)、所述 一阶运动信息计算每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐 标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>
可选的,根据所述源关键点坐标组和所述驱动关键点坐标组,获取零阶运动信息Hn(z),包括:
获取以所述源关键点坐标组中的每个所述源关键点坐标KSn为中心的高斯热力图,将 所述以源关键点坐标KSn为中心的高斯热力图记为GS(pn);
获取以所述驱动关键点坐标组中的每个所述驱动关键点坐标KDn为中心的高斯热力 图,将所述以驱动关键点坐标KDn为中心的高斯热力图记为GD(pn);
所述零阶运动信息Hn(z)=GD(pn)-GS(pn)。
可选的,根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数,获取一阶运动信息包括
所述一阶运动信息
其中,KSn是所述源关键点坐标组中的所述源关键点坐标KSn,JSn是所述源局部仿射变换参数,KDn是所述驱动关键点坐标组中的所述驱动关键点坐标KDn,JDn是所述驱动局 部仿射变换参数,z是所述驱动关键点坐标KDn的矩阵。
可选的,根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息Hn(z)、 所述一阶运动信息计算每一个所述驱动关键点坐标KDn到其对应的所述源关键 点坐标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>包括:
在所述零阶运动信息Hn(z)中插入第一矩阵H0(z),所述第一矩阵H0(z)是一个全零矩 阵;将所述一阶运动信息作用于所述源关键点坐标组中的每一个所述源关键点坐 标KSn,以获取对应的仿射变换图像组,记为S1,S2,…,SN;
在所述仿射变换图像组中插入源图像S0;
根据插入所述第一矩阵H0(z)后的所述零阶运动信息Hn(z)、插入源图像S0后的所述 仿射变换图像组,得到像素掩模组,记为M0,M1,M2,…,MN,所述像素掩模用于描述像素点坐标的运动状态;
根据所述像素掩模组M0,M1,M2,…,MN,插入所述第一矩阵H0(z)后的零阶运动信息Hn+1(z)、所述一阶运动信息得到所述全局仿射变换的参数,所述全局仿射变换 的参数即为光流图/>所述光流图/>
根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息Hn+1(z)、所述一阶运动信息通过卷积注意力层,得到所述源图像对应的重绘图/>所述重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。
可选的,获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图,获取目标图像,包括:
通过具有编码器-解码器结构的卷积神经网生成模型,获取所述源图像的隐层特征图;
根据所述光流图重绘图/>以及所述隐层特征图,获取目标图像。
另一方面,本申请还提供了一种动作迁移方法,包括:
获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中,合成目标视频,其 中,所述动作迁移模型为采用上述训练方法训练得到的。
由以上技术方案可知,本申请提供了一种动作迁移模型的训练方法及动作迁移方法, 所述训练方法包括将源图像和驱动图像输入至待训练动作迁移模型,以使该模型根据初 始模型参数获取源图像的源关键点坐标组和驱动图像的驱动关键点坐标组,并根据源关 键点坐标组和驱动关键点坐标组,获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图,获取源图像的隐层特征图,根据隐层特征图、光流图和重绘图,获取目 标图像,目标图像是将驱动图像中与驱动关键点坐标相关联的待迁移动作迁移至源关键 点坐标后得到的图像;根据目标图像、源图像以及驱动图像,计算损失函数,并根据损 失函数优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型, 本申请提供的动作迁移模型的训练方法,降低了动作迁移模型的训练成本,提升了动作迁移模型的训练效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单 地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种动作迁移模型的训练方法的流程图;
图2为本申请提供的零阶运动信息的获取流程图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图, 对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实 施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非 另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有” 以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品 或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、 人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
第一方面,本申请公开了一种动作迁移模型的训练方法,该方法通过将一段训练视 频输入至待训练动作迁移模型,以使所述待训练动作迁移模型根据初始模型参数执行训 练过程,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。为便于说明,在 下述实施例中,将对待训练动作迁移模型的训练过程称为模型训练过程。将训练得到的目标动作迁移模型的运用过程称为模型推断过程。
本申请提供的动作迁移模型的训练方法,参见图1,该方法可以包括如下步骤:
S110,获取训练视频文件;
示例性的,获取的训练视频文件包括但不限于人脸视频、人运动视频、动物运动视频、物体运动视频、动画视频等包含运动的人或物体的视频,视频时长可以根据需求自 行选择,一般选取的时长在10秒左右,视频分辨率为720P、1080P的训练视频为佳。视 频帧率为常用的视频帧率即可,如25帧/秒或30帧/秒。
在一些实施例中,训练视频文件包括若干视频帧,每一个视频帧即为某一时刻该视 频的静止画面,训练过程中,每一步训练迭代时,从训练视频中任意选取两个不同的视频帧,一个视频帧作为源图像,另一个视频帧作为驱动图像,将源图像和驱动图像输入 至待训练动作迁移模型中,得到目标图像,每一步训练迭代的优化目标是目标图像与驱动图像相同。
在一些实施例中,若训练视频中运动的人或物体占视频帧图像的比例较大,则不需 要额外的处理;若运动的人或物体占视频帧图像的比例较小,则需要使用手动裁剪方法或自动裁剪方法,将视频中运动的人或物体所在的视频图像子区域提取出来,产生新的 视频用于训练。
在一些实施例中,手动裁剪方法可以通过人工观察训练视频的所有视频帧,在每一 个视频帧中划定一固定区域,使得此训练视频的每一个视频帧中的人或物体在此区域内, 将所有视频帧中的此区域裁剪出来,组合成为新的训练视频。
在一些实施例中,自动裁剪方法可以通过人脸、人体、动物或物体检测算法,自动检测训练视频的每一个视频帧中运动的人或物体所在的区域,并根据所有视频帧中检测出的区域,计算出一更大的图像区域,使得所有视频帧的检测区域均为此更大区域的子集,并将所有视频帧中该更大区域提取出来,产生新的仅包含运动的人或物体区域的视频。
在一种实现方式中,自动裁剪方法可以获取所述源图像的有效区域面积,所述有效 区域面积即为上述检测区域,将源图像的有效区域面积确定为第一面积,计算所述第一面积在源图像中的面积占比;判定第一面积在源图像中的面积占比是否小于第一预设值,第一预设值是第一面积在源图像中的面积占比的阈值;若是,则对源图像进行预处理,以使所述第一面积在源图像中的面积占比大于或等于所述第一预设值。
进一步地,获取驱动图像的有效区域面积,将驱动图像的有效区域面积确定为第二 面积,计算第二面积在驱动图像中的面积占比;判定第二面积在驱动图像中的面积占比是否小于第二预设值,第二预设值是第二面积在驱动图像中的面积占比的阈值;
若是,则对驱动图像进行预处理,以使第二面积在驱动图像中的面积占比大于或等 于第二预设值。
S120,将源图像和驱动图像输入至待训练动作迁移模型,待训练动作迁移模型根据 初始模型参数执行S130-S170步骤;
S130,获取源图像的源关键点坐标组;
在一些实施例中,将源图像和驱动图像输入至待训练动作迁移模型之前,还可以对 源图像和驱动图像进行降采样,减小源图像与驱动图像尺寸,以保证对源图像和驱动图像中的关键点检测的稳定性。例如,若源图像与驱动图像的尺寸均为512像素×512像 素,降采样后,源图像与驱动图像尺寸均变为256像素×256像素。需要说明的是,此 降采样过程为可选过程,对源图像与驱动图像进行降采样,可以使生成的目标图像稳定性较好,避免出现过多抖动的现象。
在一些实施例中,源关键点坐标组是源图像的源关键点坐标KSn合集,源关键点坐标 KSn是源图像中的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频,可以通过手动标 注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。从源图像中提取Ns个源关键点坐标KSn关键点坐标并保存。Ns必须大于0,一般情况下不大于10。 Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影 响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的训练效果越好。
S140,获取驱动图像的驱动关键点坐标组;
在一些实施例中,驱动关键点坐标组是驱动图像的源关键点坐标KDn合集,驱动关键 点坐标KDn是训练视频中运动的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若训练视频为动物运动视频或动画视频,可 以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特 征点。从驱动图像中提取Ns个驱动关键点坐标KDn关键点坐标并保存。Ns必须大于0,一 般情况下不大于10。Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影 响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供 的训练效果越好。
S150,根据源关键点坐标组和驱动关键点坐标组,获取由源关键点坐标组变换至驱动关键点坐标组的光流图和重绘图/>
在一些实施例中,可以根据源关键点坐标组和驱动关键点坐标组,获取零阶运动信 息Hn(z),零阶运动信息Hn(z)包括每一个所述驱动关键点坐标KDn到其对应的所述源关键 点坐标KSn发生的平移变换参数;
更为具体的,参见图2,零阶运动信息Hn(z)可以通过如下步骤获得:
S210:获取以源关键点坐标组中的每个源关键点坐标KSn为中心的高斯热力图,将以 源关键点坐标KSn为中心的高斯热力图记为GS(pn);
S220:获取以驱动关键点坐标组中的每个驱动关键点坐标KDn为中心的高斯热力图, 将以驱动关键点坐标KDn为中心的高斯热力图记为GD(pn);
S230:零阶运动信息Hn(z)=GD(pn)-GS(pn)。
在一些实施例中,可以根据源关键点坐标组和驱动关键点坐标组,获取与源关键点 坐标KSn关联的源局部仿射变换参数和与驱动关键点坐标KDn关联的驱动局部仿射变换参 数;
根据源关键点坐标组、驱动关键点坐标组、源局部仿射变换参数和驱动局部仿射变 换参数,获取一阶运动信息一阶运动信息/>包括每一个驱动关键点坐标 KDn到其对应的源关键点坐标KSn发生的局部仿射变换的参数;
更为具体的,一阶运动信息其中,KSn是所述源关键点坐标组中的所述源关键点坐标KSn,JSn是所述源局部仿射变换参数,KDn是所述驱 动关键点坐标组中的所述驱动关键点坐标KDn,JDn是所述驱动局部仿射变换参数,z是所 述驱动关键点坐标KDn的矩阵。
在一些实施例中,可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息Hn(z)、 一阶运动信息计算每一个驱动关键点坐标KDn到其对应的源关键点坐标KSn发生 的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>
更为具体的,可通过如下步骤获取光流图和重绘图/>
在零阶运动信息Hn(z)中插入第一矩阵H0(z),第一矩阵H0(z)是一个全零矩阵;将一 阶运动信息作用于源关键点坐标组中的每一个源关键点坐标KSn,以获取对应的 仿射变换图像组,记为S1,S2,…,SN;
在仿射变换图像组中插入源图像S0;
根据插入第一矩阵H0(z)后的零阶运动信息Hn(z)、插入源图像S0后的仿射变换图像 组,得到像素掩模组,记为M0,M1,M2,…,MN,像素掩模用于描述像素点坐标的运动状态;
根据像素掩模组M0,M1,M2,…,MN,插入第一矩阵H0(z)后的零阶运动信息Hn+1(z)、一阶运动信息得到全局仿射变换的参数,全局仿射变换的参数即为光流图光流图/>
根据源关键点坐标组、驱动关键点坐标组、零阶运动信息Hn+1(z)、一阶运动信息通过卷积注意力层,得到源图像对应的重绘图/>重绘图/>用于描述在 所述目标图像生成过程中需要生成的像素点坐标信息。
S160,获取源图像的隐层特征图,根据隐层特征图、光流图和重绘图获取目标图像;
其中,目标图像是将驱动图像中与驱动关键点坐标KDn相关联的待迁移动作迁移至源 关键点坐标KSn后得到的图像;
在一些实施例中,可以通过具有编码器-解码器结构的卷积神经网生成模型,获取所 述源图像的隐层特征图,并根据得到的光流图重绘图/>以及所述隐层特征图, 获取目标图像。
更为具体的,可以将所述隐层特征SRE(S)与所述光流图拼接,得到的拼接结 果与所述重绘图/>相乘,以输出目标视频,若用Dr表示目标视频,则:
S170,根据目标图像、源图像以及驱动图像,计算损失函数,并根据损失函数优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
在一些实施例中,损失函数可以包括有监督关键点损失函数无监督关键点损 失函数/>无监督局部仿射变换损失函数/>感知损失函数LP以及所述辨别器损失函 数/>
在一些实施例中,源关键点坐标KSn包括有监督关键点坐标KS,s和无监督关键点坐标 KS,us,所述有监督关键点坐标KS,s与已知结构关键点坐标KS数量相同,已知结构关键点坐标KS是已知的所述源图像关键点的实际坐标,可以将有监督关键点坐标KS,s和已知结构关键点坐标KS的数量均记为Ns,Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本 发明所提供的训练效果越好。
在一些实施例中,有监督关键点坐标KS,s和无监督关键点坐标KS,us是源图像中的人或 物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关 节点等。若源图像中为动物运动视频或动画视频,可以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。
驱动关键点坐标KDn包括有监督关键点坐标KD,s和无监督关键点坐标KD,us;所述有监 督关键点坐标KD,s与已知结构关键点坐标KI数量相同,已知结构关键点坐标KI是已知的所 述驱动图像关键点的实际坐标,可以将有监督关键点坐标KD,s与已知结构关键点坐标KI的数量均记为Ns,Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响 本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的 训练效果越好。
在一些实施例中,有监督关键点坐标KD,s和无监督关键点坐标KD,us是驱动图像中的 人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频,可以通过手动标注此类视频中的 人或物体的结构特征点,或训练一特定模型来提取结构特征点。
在一些实施例中,从驱动图像中提取已知结构关键点坐标KI和有监督关键点坐标KD,s, 计算已知结构关键点坐标KI和有监督关键点坐标KD,s的差异,得到的结果即为有监督关键 点损失函数具体的,可通过以下公式计算已知结构关键点坐标KI和有监督关键点 坐标KD,s之间的L1距离,所述L1距离即为已知结构关键点坐标KI和有监督关键点坐标KD,s的差异:
其中,n为关键点序号。
需要说明的是,除使用L1距离可以描述已知结构关键点坐标KI和有监督关键点坐标 KD,s的差异外,还可以使用L2距离或其他回归损失函数描述已知结构关键点坐标KI和有监 督关键点坐标KD,s的差异。
在一些实施例中,无监督关键点损失函数可通过如下方式获取:
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的无监督关键点KD,us,tps;
将KD,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点KD,us,r,KD,us,r与KD,us相同;
计算KD,us,r与KD,us的差异即为无监督关键点损失函数
具体的,可通过以下公式计算KD,us,r与KD,us之间的L1距离,所述L1距离即为KD,us,r与KD,us的差异:
其中,n为关键点序号。
需要说明的是,除使用L1距离可以描述KD,us,r与KD,us的差异外,还可以使用L2距离或 其他回归损失函数描述KD,us,r与KD,us的差异。
在一些实施例中,由于没有已知的局部仿射变换参数,无法通过有监督方式计算局 部仿射变换损失函数,因此需要无监督方式计算局部仿射变换损失函数。与上述计算无监督关键点损失函数类似,无监督局部仿射变换损失函数可通过如下方式获取:
获取驱动图像的有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部放射变换参 数JD;
获取经过薄板样条变换后的驱动图像Dtps;
获得有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部放射变换参数JD,tps; 将JD,tps做薄板样条逆变换获得驱动图像空间下的JD,r;
计算JD,r与JD的差异即为无监督局部仿射变换损失函数
具体的,可通过以下公式计算JD,r与JD之间的L1距离,所述L1距离即为JD,r与JD的差异:
需要说明的是,除使用L1距离可以描述JD,r与JD的差异外,还可以使用L2距离或其他 回归损失函数描述JD,r与JD的差异。
需要说明的是,在计算上述有监督关键点损失函数无监督关键点损失函数与无监督局部仿射变换损失函数/>时,上述使用的变量均来自驱动图像。原因为,在训 练过程中随机从训练视频中提取两帧图像,一帧作为源图像,一帧作为驱动图像,且这两帧图像是可以交换的,即视频中的帧图像在某次训练迭代中作为源图像,在另一次训 练迭代中作为驱动图像。因此,上述损失函数仅对驱动图像提供的上述变量进行计算。
将上述计算的有监督关键点损失函数、无监督关键点损失函数与无监督局部仿射变 换损失函数合并,用于关键点检测模块的优化。合并方法如以下公式所示:
其中,c1,c2,c3分别为有监督关键点损失函数无监督关键点损失函数/>与无监督 局部仿射变换损失函数/>的系数,可以根据实际需要人工设置,示例性的,可分别将 c1,c2,c3设置为100、100、50,此三个损失函数系数也可使用其他值,在此不作限制。
在一些实施例中,感知损失函数LP可以通过使用一组神经网络模型P得到,具体的, 可以将目标图像和驱动图像一同输入神经网络模型P中,获得中间隐层的特征图输出,分别计算目标图像和驱动图像输入获得的特征图的L1距离,如以下公式所示:
其中,为神经网络模型P所有被使用的中间隐层层数,l为神经网络模型P的某层中间隐层,Hl和Wl为l层输出特征图的高度和宽度。
需要说明的是,在计算感知损失函数LP的过程中,计算目标图像和驱动图像的输入 获得的不同特征图的差异时,并不限制使用L1距离,也可使用其他任何可以度量差异的可微的损失函数,也可使用其他任何度量图像相似度的可微的损失函数。神经网络模型 P可以为现有图像任务的模型或设计新模型。神经网络模型P的参数可以随机生成,也 可以由某项图像任务预训练生成,也可在本发明模型训练过程中学习产生。
辨别器损失函数可以通过辨别器/>获取,辨别器/>用于判断输入图像为真实图像或 为生成图像。在本发明中,真实图像为每个训练迭代中输入的驱动图像,生成图像为上 述超分辨率生成模型的输出图像。辨别器/>可以优化超分辨率生成模型,使超分辨率生成模型输出的图像更接近真实图像。辨别器由卷积层、全连接层、激活层、池化层、归 一化层等神经网络基本结构构成。可以使用现有的生成对抗网络的辨别器/>结构,也可 使用基本结构自行设计辨别器。
在一些实施例中,辨别器是一个用于二分类的模型,因此,使用常用的交叉熵损失函数即可。交叉熵损失函数图可通过如下公式得到:
其中,x为输入辨别器的图像,yx为此图像的标签。当输入辨别器/>的图像x为真实 驱动图像时,yx为1;当输入辨别器/>的图像为动作迁移图像时,yx为0。/>为图像输入辨别器/>后的输出,其值表示输入图像为真实图像的概率,除使用交叉熵损失函数用 于辨别器分类外,也可以使用其他用于分类的损失函数。
需要说明的是,上述所有损失函数均是在一帧源图像与一帧驱动图像作为输入的情 况下,获得动作迁移模型各模块的输出后计算出来的。若在训练迭代中输入批数据,一次输入多帧源图像与多帧驱动图像,则会计算出多组损失函数。在这种情况下,计算此 多组损失函数的均值代表此次训练迭代的损失函数计算结果。
S190:根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无 监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>优化所 述初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
更为具体的,计算出上述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>后,进行反向传播过程,根据计算出的有监督关键点损失函数/>所述无监督 关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及 所述辨别器损失函数/>对模型中各组件的参数计算梯度,使用梯度下降方法优化更新 模型中各组件参数。需要说明的是,模型训练过程包含若干轮次,每个轮次均执行上述 模型训练过程,直到达成训练终止条件,完成训练,得到目标动作迁移模型。
进一步地,本申请提供的动作迁移模型的训练方法,具体实施例包括如下步骤:
(1)收集若干人脸彩色视频片段,分辨率为720P,帧率为25帧/秒;
(2)通过dlib人脸检测算法,从视频中裁剪出仅包含完整人脸区域的视频,将视频每 帧图像的尺寸调整为512像素×512像素,此视频每帧图像将作为源图像与驱动图像输入动作迁移模型;
(3)使用上述仅包含完整人脸区域的视频,使用dlib人脸关键点检测算法,逐帧获得 5个已知的人脸关键点坐标KI,此处5关键点分别为左眼中心、右眼中心、鼻尖、左侧 嘴角与右侧嘴角;
(4)某次训练迭代中,从上述包含完整人脸区域的视频中,随机选择一帧图像作为源 图像S,随机算侧另外一帧图像作为驱动图像D;
(5)对上述随机选取的源图像与驱动图像做降采样,将图像尺寸调整为256像素×256 像素;
(6)将源图像输入待训练的动作迁移模型,获得源图像的关键点KS及局部仿射变换参 数JS;将驱动图像输入同动作迁移模型,获得驱动图像的关键点KD及局部放射变换参数JD;
(7)根据使用上述KS、JS、KD与JD,计算出驱动图像像素变换至源图像像素所做的零阶运动信息Hn(z)与一阶运动信息
(8)通过上述得到的零阶运动信息Hn(z)、一阶运动信息以及源图像,计算出 驱动图像像素坐标变换至源图像像素坐标所需的像素全局运动信息,即光流图同时获得重绘图/>
(9)获取源图像的隐层特征图SRE(S),根据该隐层特征图SRE(S)、光流图以及 重绘图/>得到目标图像;
(10)根据目标图像、源图像以及驱动图像,计算损失函数,并根据损失函数优化初始模型参数,直至达到模型收敛条件,完成训练,训练过程包含若干轮次,每个轮次均 执行上述模型训练过程,得到目标动作迁移模型。
匹配上述模型训练过程的模型推断过程的实施例进行描述:
(1)准备一人脸图像作为源图像,一人脸视频作为驱动视频;源图像与驱动视频图像 尺寸均为512像素×512像素;
(2)对上述源图像与驱动视频图像做降采样,将图像尺寸调整为256像素×256像素;
(3)将源图像输入训练好的动作迁移模型,获得并保存源图像的关键点及局部仿射变 换参数;将驱动视频逐帧图像作为驱动图像输入同一动作迁移模型,获得并保存所有驱 动图像的关键点及局部放射变换参数;
(4)根据源图像的关键点及局部仿射变换参数、驱动图像的关键点及局部放射变换参 数,获取对应的隐层特征图SRE(S)、光流图以及重绘图/>
(5)根据得到的隐层特征图SRE(S)、光流图以及重绘图/>获取驱动视频 每个视频帧对应的目标图像,将逐帧获得的目标图像合并为目标动作迁移视频,目标动作迁移视频中为源图像人脸,其动作与驱动视频中人脸一致。
需要说明的是,上述模型训练和模型推断过程中,dlib人脸检测算法可替换为其他 方法,此处仅为说明实施例而列举的特征方法。
第二方面,本申请还提供一种动作迁移方法,包括:
获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中,合成目标视频,其 中,所述动作迁移模型为采用本申请提供的模型训练方法训练得到的。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的动作迁移模型的训练方法的各实施例中的部分或全部 步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称: ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬 件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技 术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计 算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是 本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (10)
1.一种动作迁移模型的训练方法,其特征在于,包括:
获取训练视频文件,其中,所述训练视频为包含运动的人或物体的视频;
根据所述运动的人或物体的占有比例,提取所述训练视频文件的子区域图像,所述子区域图像为根据所述占有比例裁剪的源图像和驱动图像;
将所述源图像和所述驱动图像输入至待训练动作迁移模型,所述待训练动作迁移模型根据初始模型参数执行以下步骤:
获取所述源图像的源关键点坐标组,所述源关键点坐标组是所述源图像的源关键点坐标KSn合集,所述源关键点坐标KSn是源图像中的人或物体的结构上的特征点;
获取所述驱动图像的驱动关键点坐标组,所述驱动关键点坐标组是所述驱动图像的驱动关键点坐标KDn合集,所述驱动关键点坐标KDn是训练视频中运动的人或物体的结构上的特征点坐标;
根据所述源关键点坐标组和所述驱动关键点坐标组,获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>
获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像,所述目标图像是将所述驱动图像中与所述驱动关键点坐标KDn相关联的待迁移动作迁移至所述源关键点坐标KSn后得到的图像;
从所述驱动图像中提取已知结构关键点坐标KI和有监督关键点坐标KD,s,并计算有监督关键点损失函数所述有监督关键点损失函数/>为所述已知结构关键点坐标KI和所述有监督关键点坐标KD,s的差异,所述差异通过以下公式计算:
其中,n为关键点序号;
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的无监督关键点KD,us,tps;
将KD,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点KD,us,r,其中,KD,us,r与KD,us相同,并计算监督关键点损失函数/>所述监督关键点损失函数/>为KD,us,r与KD,us的差异,所述差异通过以下公式计算:
其中,n为关键点序号;
获取驱动图像的有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD;
获取经过薄板样条变换后的驱动图像Dtps;
获得有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD,tps;
将JD,tps做薄板样条逆变换获得驱动图像空间下的JD,r,并计算无监督局部仿射变换损失函数,所述无监督局部仿射变换损失函数为JD,r与JD的差异,所述差异通过以下公式计算:
将所述目标图像和所述驱动图像输入至神经网络模型P中,得到中间隐层的特征图输出,通过下式分别计算所述目标图像和所述驱动图像输入获取的特征图的的L1距离:
其中,为神经网络模型P所有被使用的中间隐层层数,l为神经网络模型P的某层中间隐层,Hl和Wl为l层输出特征图的高度和宽度;
通过辨别器D获取辨别器损失函数LD;
根据所述监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>感知损失函数LP以及所述辨别器损失函数/>对初始模型执行反向传播,以及计算所述初始模型参数的梯度,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
2.根据权利要求1所述的方法,其特征在于,获取训练视频文件,所述训练视频文件包括源图像和驱动图像,包括:
获取训练视频文件,所述训练视频文件包括若干视频帧,提取任意两个视频帧,将其中一个视频帧确定为源图像,另一个视频帧确定为驱动图像。
3.根据权利要求2所述的方法,其特征在于,获取所述源图像的源关键点坐标组之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积,计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。
4.根据权利要求3所述的方法,其特征在于,获取所述驱动图像的驱动关键点坐标组之前,包括:
获取所述驱动图像的有效区域面积,将所述驱动图像的有效区域面积确定为第二面积,计算所述第二面积在所述驱动图像中的面积占比;
判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值,所述第二预设值是所述第二面积在所述驱动图像中的面积占比的阈值;
若是,则对所述驱动图像进行预处理,以使所述第二面积在所述驱动图像中的面积占比大于或等于所述第二预设值。
5.根据权利要求2所述的方法,其特征在于,根据所述源关键点坐标组和所述驱动关键点坐标组,获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>包括:
根据所述源关键点坐标组和所述驱动关键点坐标组,获取零阶运动信息所述零阶运动信息/>包括每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的平移变换参数;
根据所述源关键点坐标组和所述驱动关键点坐标组,获取与所述源关键点坐标KSn关联的源局部仿射变换参数和与所述驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数,获取一阶运动信息所述一阶运动信息/>包括每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的局部仿射变换的参数;
根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>计算每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>
6.根据权利要求5所述的方法,其特征在于,根据所述源关键点坐标组和所述驱动关键点坐标组,获取零阶运动信息包括:
获取以所述源关键点坐标组中的每个所述源关键点坐标KSn为中心的高斯热力图,将以源关键点坐标KSn为中心的高斯热力图记为GS(pn);
获取以所述驱动关键点坐标组中的每个所述驱动关键点坐标KDn为中心的高斯热力图,将以驱动关键点坐标KDn为中心的高斯热力图记为GD(pn);
所述零阶运动信息
7.根据权利要求6所述的方法,其特征在于,根据所述源关键点坐标组、所述驱动关键点坐标组、所述源局部仿射变换参数和所述驱动局部仿射变换参数,获取一阶运动信息包括
所述一阶运动信息
其中,KSn是所述源关键点坐标组中的所述源关键点坐标KSn,JSn是所述源局部仿射变换参数,KDn是所述驱动关键点坐标组中的所述驱动关键点坐标KDn,JDn是所述驱动局部仿射变换参数,是所述驱动关键点坐标KDn的矩阵。
8.根据权利要求7所述的方法,其特征在于,根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>计算每一个所述驱动关键点坐标KDn到其对应的所述源关键点坐标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>包括:
在所述零阶运动信息中插入第一矩阵/>所述第一矩阵H0(z)是一个全零矩阵;将所述一阶运动信息/>作用于所述源关键点坐标组中的每一个所述源关键点坐标KSn,以获取对应的仿射变换图像组,记为S1,S2,…,SN;
在所述仿射变换图像组中插入源图像S0;
根据插入所述第一矩阵后的所述零阶运动信息/>插入源图像S0后的所述仿射变换图像组,得到像素掩模组,记为M0,M1,M2,…,MN,所述像素掩模用于描述像素点坐标的运动状态;
根据所述像素掩模组M0,M1,M2,…,MN,插入所述第一矩阵后的零阶运动信息所述一阶运动信息/>得到所述全局仿射变换的参数,所述全局仿射变换的参数即为光流图/>所述光流图/>
根据所述源关键点坐标组、所述驱动关键点坐标组、所述零阶运动信息所述一阶运动信息/>通过卷积注意力层,得到所述源图像对应的重绘图/>所述重绘图/>用于描述在所述目标图像生成过程中需要生成的像素点坐标信息。
9.根据权利要求1所述的方法,其特征在于,获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图,获取目标图像,包括:
通过具有编码器-解码器结构的卷积神经网生成模型,获取所述源图像的隐层特征图;
根据所述光流图重绘图/>以及所述隐层特征图,获取目标图像。
10.一种动作迁移方法,其特征在于,包括:
获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
将所述源图像和所述驱动视频的视频帧输入至动作迁移模型中,合成目标视频,其中,所述动作迁移模型为采用权利要求1-9任一项训练方法训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209167.5A CN113870314B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移模型的训练方法及动作迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111209167.5A CN113870314B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移模型的训练方法及动作迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870314A CN113870314A (zh) | 2021-12-31 |
CN113870314B true CN113870314B (zh) | 2023-09-19 |
Family
ID=79000087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111209167.5A Active CN113870314B (zh) | 2021-10-18 | 2021-10-18 | 一种动作迁移模型的训练方法及动作迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870314B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
WO2020147794A1 (zh) * | 2019-01-18 | 2020-07-23 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、图像设备及存储介质 |
CN111598977A (zh) * | 2020-05-21 | 2020-08-28 | 北京中科深智科技有限公司 | 一种表情迁移并动画化的方法及系统 |
CN111652121A (zh) * | 2020-06-01 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
CN111797753A (zh) * | 2020-06-29 | 2020-10-20 | 北京灵汐科技有限公司 | 图像驱动模型的训练、图像生成方法、装置、设备及介质 |
US10911775B1 (en) * | 2020-03-11 | 2021-02-02 | Fuji Xerox Co., Ltd. | System and method for vision-based joint action and pose motion forecasting |
CN112784865A (zh) * | 2019-11-04 | 2021-05-11 | 奥多比公司 | 使用多尺度图块对抗性损失的衣物变形 |
CN112800869A (zh) * | 2021-01-13 | 2021-05-14 | 网易(杭州)网络有限公司 | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 |
CN113222876A (zh) * | 2021-06-02 | 2021-08-06 | 广州虎牙科技有限公司 | 人脸图像生成方法、装置、电子设备和存储介质 |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430685B2 (en) * | 2016-11-16 | 2019-10-01 | Facebook, Inc. | Deep multi-scale video prediction |
US11288818B2 (en) * | 2019-02-19 | 2022-03-29 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
US11055888B2 (en) * | 2019-08-27 | 2021-07-06 | Shenzhen Malong Technologies Co., Ltd. | Appearance-flow-based image generation |
CN110827200B (zh) * | 2019-11-04 | 2023-04-07 | Oppo广东移动通信有限公司 | 一种图像超分重建方法、图像超分重建装置及移动终端 |
-
2021
- 2021-10-18 CN CN202111209167.5A patent/CN113870314B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020147794A1 (zh) * | 2019-01-18 | 2020-07-23 | 北京市商汤科技开发有限公司 | 图像处理方法及装置、图像设备及存储介质 |
CN109951654A (zh) * | 2019-03-06 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种视频合成的方法、模型训练的方法以及相关装置 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
CN112784865A (zh) * | 2019-11-04 | 2021-05-11 | 奥多比公司 | 使用多尺度图块对抗性损失的衣物变形 |
US10911775B1 (en) * | 2020-03-11 | 2021-02-02 | Fuji Xerox Co., Ltd. | System and method for vision-based joint action and pose motion forecasting |
CN111598977A (zh) * | 2020-05-21 | 2020-08-28 | 北京中科深智科技有限公司 | 一种表情迁移并动画化的方法及系统 |
CN111652121A (zh) * | 2020-06-01 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种表情迁移模型的训练方法、表情迁移的方法及装置 |
CN111797753A (zh) * | 2020-06-29 | 2020-10-20 | 北京灵汐科技有限公司 | 图像驱动模型的训练、图像生成方法、装置、设备及介质 |
CN112800869A (zh) * | 2021-01-13 | 2021-05-14 | 网易(杭州)网络有限公司 | 图像人脸表情迁移方法、装置、电子设备及可读存储介质 |
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113222876A (zh) * | 2021-06-02 | 2021-08-06 | 广州虎牙科技有限公司 | 人脸图像生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
Online data migration model and ID3 algorithm in sports competition action data mining application;Ju, Li等;《Wireless Communications and Mobile Computing》;第1-11页 * |
高质量任意人体姿态图像视频生成研究;李桂;《中国优秀硕士学位论文全文数据库 信息科技辑》(第7期);第I138-1147页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113870314A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iizuka et al. | Globally and locally consistent image completion | |
Yang et al. | Every pixel counts: Unsupervised geometry learning with holistic 3d motion understanding | |
US11017586B2 (en) | 3D motion effect from a 2D image | |
US9830529B2 (en) | End-to-end saliency mapping via probability distribution prediction | |
US9792725B2 (en) | Method for image and video virtual hairstyle modeling | |
US11741581B2 (en) | Training method for image processing model, image processing method, network device, and storage medium | |
Savran et al. | Non-rigid registration based model-free 3D facial expression recognition | |
US11915383B2 (en) | Methods and systems for high definition image manipulation with neural networks | |
US20230130281A1 (en) | Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling | |
Li et al. | Face sketch synthesis using regularized broad learning system | |
CN113870315B (zh) | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 | |
CN114339409A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN111680573B (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
Lee et al. | Background subtraction using the factored 3-way restricted Boltzmann machines | |
Lim et al. | Joint segmentation and pose tracking of human in natural videos | |
US11080861B2 (en) | Scene segmentation using model subtraction | |
CN113870313B (zh) | 一种动作迁移方法 | |
CN113870314B (zh) | 一种动作迁移模型的训练方法及动作迁移方法 | |
US20240037829A1 (en) | Computing images of controllable dynamic scenes | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
CN113516670A (zh) | 一种反馈注意力增强的非模式图像分割方法及装置 | |
Göpfert et al. | Effects of variability in synthetic training data on convolutional neural networks for 3D head reconstruction | |
Omiya et al. | Optimization-based data generation for photo enhancement | |
Săftescu et al. | Learning geometrically consistent mesh corrections | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |