CN113870315B - 基于多算法集成的动作迁移模型训练方法及动作迁移方法 - Google Patents
基于多算法集成的动作迁移模型训练方法及动作迁移方法 Download PDFInfo
- Publication number
- CN113870315B CN113870315B CN202111211258.2A CN202111211258A CN113870315B CN 113870315 B CN113870315 B CN 113870315B CN 202111211258 A CN202111211258 A CN 202111211258A CN 113870315 B CN113870315 B CN 113870315B
- Authority
- CN
- China
- Prior art keywords
- image
- key point
- driving
- loss function
- unsupervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000005012 migration Effects 0.000 title claims abstract description 75
- 238000013508 migration Methods 0.000 title claims abstract description 75
- 230000009471 action Effects 0.000 title claims abstract description 55
- 230000010354 integration Effects 0.000 title description 2
- 230000009466 transformation Effects 0.000 claims abstract description 68
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 61
- 230000006870 function Effects 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 22
- 230000003287 optical effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003062 neural network model Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种动作迁移模型的训练方法及动作迁移方法,所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型,获取已知结构关键点坐标、有监督关键点坐标、无监督关键点坐标、有监督关键点坐标和无监督关键点坐标,得到有监督关键点损失函数、无监督关键点损失函数以及无监督局部仿射变换损失函数。并根据前述损失函数,优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法,只需运用少量的数据,即可完成对动作迁移模型的训练,训练后的模型更稳定,在进行动作迁移时输出的目标视频效果更好。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种动作迁移模型的训练方法及动作迁移方法。
背景技术
动作迁移是图像处理领域中一种重要的图像编辑技术,是指将驱动视频中的人物动作迁移到源图像中的人物身上,在保留源图像中人物外观的基础上,使源图像中的人物与目标视频中的人物保持同步运动。
在现有的方案中,可通过向训练好的动作迁移模型中输入一段驱动视频和一张源图像,获取目标视频。目标视频的迁移效果与对动作迁移模型的训练程度有关,对动作迁移模型的训练常采用输入一张源图像和一张驱动图像,分别检测源图像和驱动图像的关键点,并在源图像和驱动图像的关键点附近区域作仿射变换,以训练出稳定的动作迁移模型。
上述的模型训练方法为基于无监督形式的训练方法,此无监督形式的模型训练方法需要运用大量的图像数据。当图像数据量较少时,使用该训练方法获得的动作迁移模型不稳定,输出的目标视频效果不好。
发明内容
本申请提供了一种动作迁移模型的训练方法及动作迁移方法,只需运用少量的数据,即可完成对动作迁移模型的训练,训练后的模型更稳定,输出的目标视频效果更好。
一方面,本申请提供了一种动作迁移模型的训练方法,包括:
获取训练视频文件,所述训练视频文件包括源图像和驱动图像;
将所述源图像和所述驱动图像输入至待训练动作迁移模型,所述待训练动作迁移模型根据初始模型参数执行以下步骤:
获取所述源图像的源关键点坐标组,所述源关键点坐标组包括有监督关键点坐标KS,s和无监督关键点坐标KS,us;
获取所述驱动图像的驱动关键点坐标组,所述驱动关键点坐标组包括有监督关键点坐标KD,s和无监督关键点坐标KD,us;
根据已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标KI是已知的所述驱动图像关键点的实际坐标;
获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>
获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像,所述目标图像是将所述驱动图像中与所述驱动关键点坐标KD,sn相关联的待迁移动作迁移至所述源关键点坐标KS,sn后得到的图像;
根据所述目标图像、所述源图像以及所述驱动图像,计算感知损失函数LP以及辨别器损失函数
根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>优化所述初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
可选的,获取训练视频文件,所述训练视频文件包括源图像和驱动图像,包括:
获取训练视频文件,所述训练视频文件包括若干视频帧,提取任意两个视频帧,将其中一个视频帧确定为源图像,另一个视频帧确定为驱动图像。
可选的,获取所述源图像的源关键点坐标组之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积,计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。
可选的,获取所述驱动图像的驱动关键点坐标组之前,包括:
获取所述驱动图像的有效区域面积,将所述驱动图像的有效区域面积确定为第二面积,计算所述第二面积在所述驱动图像中的面积占比;
判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值,所述第二预设值是所述第二面积在所述驱动图像中的面积占比的阈值;
若是,则对所述驱动图像进行预处理,以使所述第二面积在所述驱动图像中的面积占比大于或等于所述第二预设值。
可选的,所述有监督关键点损失函数的计算方法为:
可选的,根据已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>包括:
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的无监督关键点KD,us,tps;
将KD,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点KD,us,r,KD,us,r与KD,us相同;
计算KD,us,r与KD,us的差异即为无监督关键点损失函数
可选的,根据已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>包括:
获取所述驱动图像的有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD;
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的局部仿射变换参数JD,tps;
将JD,tps做薄板样条逆变换获取驱动图像空间下的局部仿射变换参数JD,r,JD,r与JD相同;
计算JD,r与JD的差异即为无监督局部仿射变换损失函数
可选的,根据所述目标图像、所述源图像以及所述驱动图像,计算感知损失函数LP,包括:
将所述目标图像和所述驱动图像输入至神经网络P中,分别得到所述目标图像的中间隐层特征图和所述驱动图像的中间隐层特征图;
所述目标图像的中间隐层特征图到所述驱动图像的中间隐层特征图的距离即为所述感知损失函数LP:
其中,Dr为所述目标图像,D为所述驱动图像,为神经网络P所有被使用的中间隐层层数,l为神经网络P的任意一层中间隐层,Hl和Wl为l层输出的特征图的高度和宽度。
可选的,采用计算交叉熵损失函数的方法对所述辨别器损失函数进行计算。
另一方面,本申请还提供了一种动作迁移方法,包括:
获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中,合成目标视频,其中,所述动作迁移模型为采用上述训练方法训练得到的。
由以上技术方案可知,所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型,获取已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,得到有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>并根据前述损失函数,优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法,只需运用少量的数据,即可完成对动作迁移模型的训练,训练后的模型更稳定,在进行动作迁移时输出的目标视频效果更好。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种动作迁移模型的训练方法的流程图;
图2为本申请提供的零阶运动信息的获取流程图;
图3为本申请提供的一种动作迁移方法的流程图。
具体实施方式
为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其他组件。术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
第一方面,本申请公开了一种动作迁移模型的训练方法,该方法通过将一段训练视频文件输入至待训练动作迁移模型,以使所述待训练动作迁移模型根据初始模型参数执行训练过程,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。为便于说明,在下述实施例中,将对待训练动作迁移模型的训练过程称为模型训练过程。将训练得到的目标动作迁移模型的运用过程称为模型推断过程。
本申请提供的动作迁移模型的训练方法,参见图1,该方法可以包括如下步骤:
一种动作迁移模型的训练方法,其特征在于,包括:
S110:获取训练视频文件,所述训练视频文件包括源图像和驱动图像;
示例性的,获取的训练视频文件包括但不限于人脸视频、人运动视频、动物运动视频、物体运动视频、动画视频等包含运动的人或物体的视频,视频时长可以根据需求自行选择,一般选取的时长在10秒左右,视频分辨率为720P、1080P的训练视频为佳。视频帧率为常用的视频帧率即可,如25帧/秒或30帧/秒。
在一些实施例中,训练视频文件包括若干视频帧,每一个视频帧即为某一时刻该视频的静止画面,训练过程中,每一步训练迭代时,从训练视频中任意选取两个不同的视频帧,一个视频帧作为源图像,另一个视频帧作为驱动图像,将源图像和驱动图像输入至待训练动作迁移模型中,得到目标图像,每一步训练迭代的优化目标是目标图像与驱动图像相同。
在一些实施例中,若训练视频中运动的人或物体占视频帧图像的比例较大,则不需要额外的处理;若运动的人或物体占视频帧图像的比例较小,则需要使用手动裁剪方法或自动裁剪方法,将视频中运动的人或物体所在的视频图像子区域提取出来,产生新的视频用于训练。
在一些实施例中,手动裁剪方法可以通过人工观察训练视频的所有视频帧,在每一个视频帧中划定一固定区域,使得此训练视频的每一个视频帧中的人或物体在此区域内,将所有视频帧中的此区域裁剪出来,组合成为新的训练视频。
在一些实施例中,自动裁剪方法可以通过人脸、人体、动物或物体检测算法,自动检测训练视频的每一个视频帧中运动的人或物体所在的区域,并根据所有视频帧中检测出的区域,计算出一更大的图像区域,使得所有视频帧的检测区域均为此更大区域的子集,并将所有视频帧中该更大区域提取出来,产生新的仅包含运动的人或物体区域的视频。
在一种实现方式中,自动裁剪方法可以获取所述源图像的有效区域面积,所述有效区域面积即为上述检测区域,将源图像的有效区域面积确定为第一面积,计算所述第一面积在源图像中的面积占比;判定第一面积在源图像中的面积占比是否小于第一预设值,第一预设值是第一面积在源图像中的面积占比的阈值;若是,则对源图像进行预处理,以使所述第一面积在源图像中的面积占比大于或等于所述第一预设值。
进一步地,获取驱动图像的有效区域面积,将驱动图像的有效区域面积确定为第二面积,计算第二面积在驱动图像中的面积占比;判定第二面积在驱动图像中的面积占比是否小于第二预设值,第二预设值是第二面积在驱动图像中的面积占比的阈值;
若是,则对驱动图像进行预处理,以使第二面积在驱动图像中的面积占比大于或等于第二预设值。
S120:将所述源图像和所述驱动图像输入至待训练动作迁移模型,所述待训练动作迁移模型根据初始模型参数执行S130-S190步骤:
在一些实施例中,将源图像和驱动图像输入至待训练动作迁移模型之前,还可以对源图像和驱动图像进行降采样,减小源图像与驱动图像尺寸,以保证对源图像和驱动图像中的关键点检测的稳定性。例如,若源图像与驱动图像的尺寸均为512像素×512像素,降采样后,源图像与驱动图像尺寸均变为256像素×256像素。需要说明的是,此降采样过程为可选过程,对源图像与驱动图像进行降采样,可以使生成的目标图像稳定性较好,避免出现过多抖动的现象。
S130:获取所述源图像的源关键点坐标组;
在一些实施例中,所述源关键点坐标组包括有监督关键点坐标KS,s和无监督关键点坐标KS,us所述有监督关键点坐标KS,s与已知结构关键点坐标KS数量相同,已知结构关键点坐标KS是已知的所述源图像关键点的实际坐标,可以将有监督关键点坐标KS,s和已知结构关键点坐标KS的数量均记为Ns,Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的训练效果越好。
在一些实施例中,有监督关键点坐标KS,s和无监督关键点坐标KS,us是源图像中的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频,可以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。
S140:获取所述驱动图像的驱动关键点坐标组;
在一些实施例中,所述驱动关键点坐标组包括有监督关键点坐标KD,s和无监督关键点坐标KD,us;所述有监督关键点坐标KD,s与已知结构关键点坐标KI数量相同,已知结构关键点坐标KI是已知的所述驱动图像关键点的实际坐标,可以将有监督关键点坐标KD,s与已知结构关键点坐标KI的数量均记为Ns,Ns的数值不做强制限制可以根据需要自行选择,因为Ns的数值不影响本发明流程,但影响本发明所提方法所获得的效果,Ns的数值越大,则本发明所提供的训练效果越好。
在一些实施例中,有监督关键点坐标KD,s和无监督关键点坐标KD,us是驱动图像中的人或物体的结构上的特征点,例如,人脸视频中的人脸特征点,人运动视频中的人体骨架关节点等。若源图像中为动物运动视频或动画视频,可以通过手动标注此类视频中的人或物体的结构特征点,或训练一特定模型来提取结构特征点。
S150:根据已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标KI是已知的所述驱动图像关键点的实际坐标;
在一些实施例中,从驱动图像中提取已知结构关键点坐标KI和有监督关键点坐标KD,s,计算已知结构关键点坐标KI和有监督关键点坐标KD,s的差异,得到的结果即为有监督关键点损失函数具体的,可通过以下公式计算已知结构关键点坐标KI和有监督关键点坐标KD,s之间的L1距离,所述L1距离即为已知结构关键点坐标KI和有监督关键点坐标KD,s的差异:
其中,n为关键点序号。
需要说明的是,除使用L1距离可以描述已知结构关键点坐标KI和有监督关键点坐标KD,s的差异外,还可以使用L2距离或其他回归损失函数描述已知结构关键点坐标KI和有监督关键点坐标KD,s的差异。
在一些实施例中,无监督关键点损失函数可通过如下方式获取:
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的无监督关键点KD,us,tps;
将KD,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点KD,us,r,KD,us,r与KD,us相同;
计算KD,us,r与KD,us的差异即为无监督关键点损失函数
具体的,可通过以下公式计算KD,us,r与KD,us之间的L1距离,所述L1距离即为KD,us,r与KD,us的差异:
其中,n为关键点序号。
需要说明的是,除使用L1距离可以描述KD,us,r与KD,us的差异外,还可以使用L2距离或其他回归损失函数描述KD,us,r与KD,us的差异。
在一些实施例中,由于没有已知的局部仿射变换参数,无法通过有监督方式计算局部仿射变换损失函数,因此需要无监督方式计算局部仿射变换损失函数。与上述计算无监督关键点损失函数类似,无监督局部仿射变换损失函数可通过如下方式获取:
获取驱动图像的有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD;
获取经过薄板样条变换后的驱动图像Dtps;
获得有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD,tps;将JD,tps做薄板样条逆变换获得驱动图像空间下的JD,r;
计算JD,r与JD的差异即为无监督局部仿射变换损失函数
具体的,可通过以下公式计算JD,r与JD之间的L1距离,所述L1距离即为JD,r与JD的差异:
需要说明的是,除使用L1距离可以描述JD,r与JD的差异外,还可以使用L2距离或其他回归损失函数描述JD,r与JD的差异。
需要说明的是,在计算上述有监督关键点损失函数无监督关键点损失函数与无监督局部仿射变换损失函数/>时,上述使用的变量均来自驱动图像。原因为,在训练过程中随机从训练视频中提取两帧图像,一帧作为源图像,一帧作为驱动图像,且这两帧图像是可以交换的,即视频中的帧图像在某次训练迭代中作为源图像,在另一次训练迭代中作为驱动图像。因此,上述损失函数仅对驱动图像提供的上述变量进行计算。
将上述计算的有监督关键点损失函数、无监督关键点损失函数与无监督局部仿射变换损失函数合并,用于关键点检测模块的优化。合并方法如以下公式所示:
其中,c1,c2,c3分别为有监督关键点损失函数无监督关键点损失函数/>与无监督局部仿射变换损失函数/>的系数,可以根据实际需要人工设置,示例性的,可分别将c1,c2,c3设置为100、100、50,此三个损失函数系数也可使用其他值,在此不作限制。
S160:获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图/>
在一些实施例中,光流图是所述驱动图像上的关键点坐标到所述源图像上的关键点坐标发生的全局仿射变换的参数,可通过如下方式获取:
根据源关键点坐标组和驱动关键点坐标组,获取零阶运动信息Hn(z),零阶运动信息Hn(z)包括每一个所述驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的平移变换参数;
更为具体的,参见图2,零阶运动信息Hn(z)可以通过如下步骤获得:
S210:获取以源关键点坐标组中的每个源关键点坐标KSn为中心的高斯热力图,将以源关键点坐标KSn为中心的高斯热力图记为GS(pn);
S220:获取以驱动关键点坐标组中的每个驱动关键点坐标KDn为中心的高斯热力图,将以驱动关键点坐标KDn为中心的高斯热力图记为GD(pn);
S230:零阶运动信息Hn(z)=GD(pn)-GS(pn)。
在一些实施例中,可以根据源关键点坐标组和驱动关键点坐标组,获取与源关键点坐标KSn关联的源局部仿射变换参数和与驱动关键点坐标KDn关联的驱动局部仿射变换参数;
根据源关键点坐标组、驱动关键点坐标组、源局部仿射变换参数和驱动局部仿射变换参数,获取一阶运动信息一阶运动信息/>包括每一个驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的局部仿射变换的参数;
更为具体的,一阶运动信息其中,KSn是所述源关键点坐标组中的所述源关键点坐标KSn,JSn是所述源局部仿射变换参数,KDn是所述驱动关键点坐标组中的所述驱动关键点坐标KDn,JDn是所述驱动局部仿射变换参数,z是所述驱动关键点坐标KDn的矩阵。
在一些实施例中,可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息Hn(z)、一阶运动信息计算每一个驱动关键点坐标KDn到其对应的源关键点坐标KSn发生的全局仿射变换的参数,并得到对应的光流图/>和重绘图/>
更为具体的,参见图2,可通过如下步骤获取光流图和重绘图/>
在零阶运动信息Hn(z)中插入第一矩阵H0(z),第一矩阵H0(z)是一个全零矩阵;将一阶运动信息作用于源关键点坐标组中的每一个源关键点坐标KSn,以获取对应的仿射变换图像组,记为S1,S2,…,SN;
在仿射变换图像组中插入源图像S0;
根据插入第一矩阵H0(z)后的零阶运动信息Hn(z)、插入源图像S0后的仿射变换图像组,得到像素掩模组,记为M0,M1,M2,…,MN,像素掩模用于描述像素点坐标的运动状态;
根据像素掩模组M0,M1,M2,…,MN,插入第一矩阵H0(z)后的零阶运动信息Hn+1(z)、一阶运动信息得到全局仿射变换的参数,全局仿射变换的参数即为光流图光流图/>
在一些实施例中,重绘图用于描述在所述目标图像生成过程中需要生成的像素点坐标信息,可以根据源关键点坐标组、驱动关键点坐标组、零阶运动信息Hn+1(z)、一阶运动信息/>通过卷积注意力层获取。
S170:获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像,所述目标图像是将所述驱动图像中与所述驱动关键点坐标KD,sn相关联的待迁移动作迁移至所述源关键点坐标KS,sn后得到的图像;
在一些实施例中,可以通过具有编码器-解码器结构的卷积神经网生成模型,获取所述源图像的隐层特征图,并根据得到的光流图重绘图/>以及所述隐层特征图,获取目标图像。
更为具体的,可以将所述隐层特征SRE(S)与所述光流图拼接,得到的拼接结果与所述重绘图/>相乘,以输出目标视频,若用Dr表示目标视频,则:
S180:根据所述目标图像、所述源图像以及所述驱动图像,计算感知损失函数LP以及辨别器损失函数
在一些实施例中,感知损失函数LP可以通过使用一组神经网络模型P得到,具体的,可以将目标图像和驱动图像一同输入神经网络模型P中,获得中间隐层的特征图输出,分别计算目标图像和驱动图像输入获得的特征图的L1距离,如以下公式所示:
其中,为神经网络模型P所有被使用的中间隐层层数,l为神经网络模型P的某层中间隐层,Hl和Wl为l层输出特征图的高度和宽度。
需要说明的是,在计算感知损失函数LP的过程中,计算目标图像和驱动图像的输入获得的不同特征图的差异时,并不限制使用L1距离,也可使用其他任何可以度量差异的可微的损失函数,也可使用其他任何度量图像相似度的可微的损失函数。神经网络模型P可以为现有图像任务的模型或设计新模型。神经网络模型P的参数可以随机生成,也可以由某项图像任务预训练生成,也可在本发明模型训练过程中学习产生。
辨别器损失函数可以通过辨别器/>获取,辨别器/>用于判断输入图像为真实图像或为生成图像。在本发明中,真实图像为每个训练迭代中输入的驱动图像,生成图像为上述超分辨率生成模型的输出图像。辨别器/>可以优化超分辨率生成模型,使超分辨率生成模型输出的图像更接近真实图像。辨别器由卷积层、全连接层、激活层、池化层、归一化层等神经网络基本结构构成。可以使用现有的生成对抗网络的辨别器/>结构,也可使用基本结构自行设计辨别器。
在一些实施例中,辨别器是一个用于二分类的模型,因此,使用常用的交叉熵损失函数即可。交叉熵损失函数图可通过如下公式得到:
其中,x为输入辨别器的图像,yx为此图像的标签。当输入辨别器/>的图像x为真实驱动图像时,yx为1;当输入辨别器/>的图像为动作迁移图像时,yx为0。/>为图像输入辨别器/>后的输出,其值表示输入图像为真实图像的概率,除使用交叉熵损失函数用于辨别器分类外,也可以使用其他用于分类的损失函数。
需要说明的是,上述所有损失函数均是在一帧源图像与一帧驱动图像作为输入的情况下,获得动作迁移模型各模块的输出后计算出来的。若在训练迭代中输入批数据,一次输入多帧源图像与多帧驱动图像,则会计算出多组损失函数。在这种情况下,计算此多组损失函数的均值代表此次训练迭代的损失函数计算结果。
S190:根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>优化所述初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
更为具体的,计算出上述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>后,进行反向传播过程,根据计算出的有监督关键点损失函数/>所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>对模型中各组件的参数计算梯度,使用梯度下降方法优化更新模型中各组件参数。需要说明的是,模型训练过程包含若干轮次,每个轮次均执行上述模型训练过程,直到达成训练终止条件,完成模型的训练。
进一步地,本申请提供的动作迁移模型的训练方法,具体实施例包括如下步骤:
(1)收集若干人脸彩色视频片段,分辨率为720P,帧率为25帧/秒;
(2)通过dlib人脸检测算法,从视频中裁剪出仅包含完整人脸区域的视频,将视频每帧图像的尺寸调整为512像素×512像素,此视频每帧图像将作为源图像与驱动图像输入待训练的动作迁移模型;
(3)使用上述仅包含完整人脸区域的视频,使用dlib人脸关键点检测算法,逐帧获得5个已知的人脸关键点坐标KI,此处5关键点分别为左眼中心、右眼中心、鼻尖、左侧嘴角与右侧嘴角;
(4)某次训练迭代中,从上述包含完整人脸区域的视频中,随机选择一帧图像作为源图像S,随机算侧另外一帧图像作为驱动图像D;
(5)对上述随机选取的源图像与驱动图像做降采样,将图像尺寸调整为256像素×256像素;
(6)使用UNet作为检测源图像与驱动图像的关键点坐标,将源图像输入UNet,获得源图像的关键点KS及局部仿射变换参数JS;将驱动图像输入UNet,获得驱动图像的关键点KD及局部仿射变换参数JD;
(7)使用上述KS、JS、KD与JD,计算出驱动图像像素坐标变换至源图像像素坐标所需的像素全局运动信息,即光流图同时获得重绘图/>
(9)获取源图像的隐层特征图SRE(S),根据光流图重绘图/>以及隐层特征图SRE(S),获得目标图像;
(10)使用上述已知人脸关键点坐标KI与驱动图像的有监督关键点KD,s,计算有监督关键点损失
(11)使用上述驱动图像经过关键点检测模型获得的无监督关键点KD,us,计算无监督关键点损失
(12)使用上述驱动图像经过关键点检测模型获得的局部仿射变换JD,计算无监督局部仿射变换损失
(13)合并上述与/>计算LK,其中c1=50,c2=100,c3=100;
(14)使用VGG19作为感知损失提取网络,使用上述驱动图像与目标图像,计算感知损失LP;
(15)使用上述驱动图像与目标图像,计算辨别器损失
(16)进行反向传播过程,对模型中各组件的参数计算梯度,使用Adam优化器更新模型中各组件参数;使用LK对关键点检测模型参数进行优化,使用LP对动作估计模型与超分辨率生成模型参数,使用对辨别器参数进行优化;
(17)模型训练过程包含若干轮次,每个轮次均执行上述模型训练过程,直到达成训练终止条件,完成模型的训练;保存关键点检测模型、动作估计模型与超分辨率生成模型用于推断过程。
匹配上述模型训练过程的模型推断过程的实施例进行描述:
(1)准备一人脸图像作为源图像,一人脸视频作为驱动视频;源图像与驱动视频图像尺寸均为512像素×512像素;
(2)对上述源图像与驱动视频图像做降采样,将图像尺寸调整为256像素×256像素;
(3)将源图像输入训练好的动作迁移模型,获得并保存源图像的关键点及局部仿射变换参数;将驱动视频逐帧图像作为驱动图像输入训练好的动作迁移模型,获得并保存所有驱动图像的关键点及局部仿射变换参数;
(4)使用上述关键点平滑方法,以某帧驱动图像为中心,对其前f帧至其后f帧范围内的关键点与仿射变换参数进行平滑,平滑结果作为当前帧驱动图像的关键点与仿射变换参数;此处平滑窗口宽度f为5;完成对驱动视频所有帧图像的关键点与仿射变换参数的平滑;
(5)根据源图像、源图像的关键点及局部仿射变换参数、驱动视频逐帧的关键点及局部仿射变换参数,获取光流图及重绘图/>
(6)根据源图像、光流图及重绘图/>获取目标图像;
(7)将逐帧获得的目标图像合并为目标视频,目标视频中为源图像人脸,其动作与驱动视频中人脸一致。
需要说明的是,上述过程中,dlib人脸检测算法、dlib人脸关键点检测算法、UNet、SPARNet、VGG19、Adam等方法均可替换为其他方法,此处仅为说明实施例而列举的特征方法。
第二方面,本申请提供一种动作迁移方法,参见图3,包括:
S310:获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
S320:将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中,合成目标视频,其中,所述动作迁移模型为采用上述第一方面训练方法训练得到的。
由以上技术方案可知,所述训练方法通过将源图像和驱动图像输入至待训练动作迁移模型,获取已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,得到有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>并根据前述损失函数,优化初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。本申请提供的动作迁移模型的训练方法及动作迁移方法,只需运用少量的数据,即可完成对动作迁移模型的训练,训练后的模型更稳定,在进行动作迁移时输出的目标视频效果更好。
具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的动作迁移模型的训练方法及动作迁移方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (5)
1.一种动作迁移模型的训练方法,其特征在于,包括:
获取训练视频文件,所述训练视频文件包括源图像和驱动图像;
将所述源图像和所述驱动图像输入至待训练动作迁移模型,所述待训练动作迁移模型根据初始模型参数执行以下步骤:
获取所述源图像的源关键点坐标组,所述源关键点坐标组包括有监督关键点坐标KS,s和无监督关键点坐标KS,us;
获取所述驱动图像的驱动关键点坐标组,所述驱动关键点坐标组包括有监督关键点坐标KD,S和无监督关键点坐标KD,us;
根据已知结构关键点坐标KI、有监督关键点坐标KS,s、无监督关键点坐标KS,us、有监督关键点坐标KD,s和无监督关键点坐标KD,us,获取有监督关键点损失函数无监督关键点损失函数/>以及无监督局部仿射变换损失函数/>所述已知结构关键点坐标KI是已知的所述驱动图像关键点的实际坐标,其中,有监督关键点损失函数/>为结构关键点坐标KI和有监督关键点坐标KD,s的差异,所述差异通过以下公式计算:
无监督关键点损失函数为无监督关键点KD,us,r与无监督关键点坐标KD,us的差异,所述差异通过以下公式计算:
所述驱动图像空间下的无监督关键点KD,us,r通过以下方法获取:
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的无监督关键点KD,us,tps;
将KD,us,tps做薄板样条逆变换获取驱动图像空间下的无监督关键点KD,us,r,KD,us,r与KD,us相同;
无监督局部仿射变换损失函数为局部仿射变换参数JD,r与局部仿射变换参数JD的差异,所述局部仿射变换参数JD,r和所述局部仿射变换参数JD通过以下方法获取:
获取所述驱动图像的有监督关键点坐标KD,s和无监督关键点坐标KD,us附近的局部仿射变换参数JD;
获取经过薄板样条变换后的驱动图像Dtps;
获取所述经过薄板样条变换后的驱动图像Dtps的局部仿射变换参数JD,tps;
将JD,tps做薄板样条逆变换获取驱动图像空间下的局部仿射变换参数JD,r,JD,r与JD相同;
获取由所述源关键点坐标组变换至所述驱动关键点坐标组的光流图和重绘图其中,所述光流图/>是所述驱动图像上的关键点坐标到所述源图像上的关键点坐标发生的全局仿射变换的参数,所述重绘图/>用于描述在目标图像生成过程中需要生成的像素点坐标信息;
获取所述源图像的隐层特征图,根据所述隐层特征图、所述光流图和所述重绘图/>获取目标图像,所述目标图像是将所述驱动图像中与所述驱动关键点坐标KD,sn相关联的待迁移动作迁移至所述源关键点坐标Ks,sn后得到的图像;
根据所述目标图像、所述源图像以及所述驱动图像,计算感知损失函数LP以及辨别器损失函数其中,所述感知损失函数LP通过以下方法得到:
将所述目标图像和所述驱动图像输入至神经网络P中,分别得到所述目标图像的中间隐层特征图和所述驱动图像的中间隐层特征图;
所述目标图像的中间隐层特征图到所述驱动图像的中间隐层特征图的距离即为所述感知损失函数LP:
其中,Dr为所述目标图像,D为所述驱动图像,为神经网络P所有被使用的中间隐层层数,l为神经网络P的任意一层中间隐层,Hl和Wl为l层输出的特征图的高度和宽度;
所述辨别器损失函数通过采用计算交叉熵损失函数得到;
根据所述有监督关键点损失函数所述无监督关键点损失函数/>所述无监督局部仿射变换损失函数/>所述感知损失函数LP以及所述辨别器损失函数/>优化所述初始模型参数,直至达到模型收敛条件,完成训练,得到目标动作迁移模型。
2.根据权利要求1所述的方法,其特征在于,获取训练视频文件,所述训练视频文件包括源图像和驱动图像,包括:
获取训练视频文件,所述训练视频文件包括若干视频帧,提取任意两个视频帧,将其中一个视频帧确定为源图像,另一个视频帧确定为驱动图像。
3.根据权利要求2所述的方法,其特征在于,获取所述源图像的源关键点坐标组之前,包括:
获取所述源图像的有效区域面积,将所述源图像的有效区域面积确定为第一面积,计算所述第一面积在所述源图像中的面积占比;
判定所述第一面积在所述源图像中的面积占比是否小于第一预设值,所述第一预设值是所述第一面积在所述源图像中的面积占比的阈值;
若是,则对所述源图像进行预处理,以使所述第一面积在所述源图像中的面积占比大于或等于所述第一预设值。
4.根据权利要求3所述的方法,其特征在于,获取所述驱动图像的驱动关键点坐标组之前,包括:
获取所述驱动图像的有效区域面积,将所述驱动图像的有效区域面积确定为第二面积,计算所述第二面积在所述驱动图像中的面积占比;
判定所述第二面积在所述驱动图像中的面积占比是否小于第二预设值,所述第二预设值是所述第二面积在所述驱动图像中的面积占比的阈值;
若是,则对所述驱动图像进行预处理,以使所述第二面积在所述驱动图像中的面积占比大于或等于所述第二预设值。
5.一种动作迁移方法,其特征在于,包括:
获取源图像和驱动视频,所述驱动视频包括按时间顺序排序的视频帧;
将所述源图像和所述驱动视频的视频帧输入至训练好的动作迁移模型中,合成目标视频,其中,所述动作迁移模型为采用权利要求1-4任一项训练方法训练得到的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211258.2A CN113870315B (zh) | 2021-10-18 | 2021-10-18 | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111211258.2A CN113870315B (zh) | 2021-10-18 | 2021-10-18 | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113870315A CN113870315A (zh) | 2021-12-31 |
CN113870315B true CN113870315B (zh) | 2023-08-25 |
Family
ID=79000115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111211258.2A Active CN113870315B (zh) | 2021-10-18 | 2021-10-18 | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113870315B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114627161A (zh) * | 2022-01-27 | 2022-06-14 | 清华大学 | 源图片到驱动图片的运动迁移的方法和系统 |
CN114822874B (zh) * | 2022-05-25 | 2023-10-10 | 湖南中医药大学 | 一种基于特征偏差对齐的方剂功效分类方法 |
CN115861902B (zh) * | 2023-02-06 | 2023-06-09 | 中山大学 | 无监督的动作迁移和发现方法、系统、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005078377A (ja) * | 2003-08-29 | 2005-03-24 | Sony Corp | 動体検出装置、動体検出方法、及びロボット装置 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
CN111739115A (zh) * | 2020-06-23 | 2020-10-02 | 中国科学院自动化研究所 | 基于循环一致性的无监督人体姿态迁移方法、系统及装置 |
CN111950373A (zh) * | 2020-07-13 | 2020-11-17 | 南京航空航天大学 | 一种基于光流输入的迁移学习用于微表情识别的方法 |
WO2021034443A1 (en) * | 2019-08-21 | 2021-02-25 | The Regents Of The University Of California | Human motion transfer for dancing video synthesis |
CN113160034A (zh) * | 2021-04-13 | 2021-07-23 | 南京理工大学 | 一种基于多仿射变换表征实现复杂动作迁移的方法 |
-
2021
- 2021-10-18 CN CN202111211258.2A patent/CN113870315B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005078377A (ja) * | 2003-08-29 | 2005-03-24 | Sony Corp | 動体検出装置、動体検出方法、及びロボット装置 |
CN110197167A (zh) * | 2019-06-05 | 2019-09-03 | 清华大学深圳研究生院 | 一种视频动作迁移方法 |
WO2021034443A1 (en) * | 2019-08-21 | 2021-02-25 | The Regents Of The University Of California | Human motion transfer for dancing video synthesis |
CN111739115A (zh) * | 2020-06-23 | 2020-10-02 | 中国科学院自动化研究所 | 基于循环一致性的无监督人体姿态迁移方法、系统及装置 |
CN111950373A (zh) * | 2020-07-13 | 2020-11-17 | 南京航空航天大学 | 一种基于光流输入的迁移学习用于微表情识别的方法 |
CN113160034A (zh) * | 2021-04-13 | 2021-07-23 | 南京理工大学 | 一种基于多仿射变换表征实现复杂动作迁移的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113870315A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113870315B (zh) | 基于多算法集成的动作迁移模型训练方法及动作迁移方法 | |
Tewari et al. | Fml: Face model learning from videos | |
US11017586B2 (en) | 3D motion effect from a 2D image | |
WO2020000814A1 (en) | Computer-implemented method for generating composite image, apparatus for generating composite image, and computer-program product | |
EP1318477B1 (en) | Robust appearance models for visual motion analysis and tracking | |
US9691165B2 (en) | Detailed spatio-temporal reconstruction of eyelids | |
JP6207210B2 (ja) | 情報処理装置およびその方法 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
Savran et al. | Non-rigid registration based model-free 3D facial expression recognition | |
US11915383B2 (en) | Methods and systems for high definition image manipulation with neural networks | |
US20230130281A1 (en) | Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling | |
US11238302B2 (en) | Method and an apparatus for performing object illumination manipulation on an image | |
CN113870313B (zh) | 一种动作迁移方法 | |
Heydecker et al. | Mirror, mirror, on the wall, who’s got the clearest image of them all?—A tailored approach to single image reflection removal | |
CN115359534A (zh) | 基于多特征融合和双流网络的微表情识别方法 | |
Kratzwald et al. | Improving video generation for multi-functional applications | |
CN113870314B (zh) | 一种动作迁移模型的训练方法及动作迁移方法 | |
US10937156B2 (en) | Saliency mapping of imagery during artificially intelligent image classification | |
Omiya et al. | Optimization-based data generation for photo enhancement | |
Otto et al. | Learning dynamic 3D geometry and texture for video face swapping | |
Schumacher et al. | Hallucination of facial details from degraded images using 3D face models | |
JP4890495B2 (ja) | 視線位置推定方法、視線位置推定装置、コンピュータプログラム、及び記録媒体 | |
Puri et al. | Coarse head pose estimation using image abstraction | |
Song et al. | BiPR-RL: Portrait relighting via bi-directional consistent deep reinforcement learning | |
Li | Data-Driven Visual Synthesis for Natural Image and Video Editing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |