CN112164130B - 基于深度对抗网络的视频-动画风格迁移方法 - Google Patents
基于深度对抗网络的视频-动画风格迁移方法 Download PDFInfo
- Publication number
- CN112164130B CN112164130B CN202010929306.0A CN202010929306A CN112164130B CN 112164130 B CN112164130 B CN 112164130B CN 202010929306 A CN202010929306 A CN 202010929306A CN 112164130 B CN112164130 B CN 112164130B
- Authority
- CN
- China
- Prior art keywords
- style
- action
- dimensional
- content
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 27
- 230000005012 migration Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 122
- 238000012549 training Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 31
- 239000011159 matrix material Substances 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于深度对抗网络的视频‑动画风格迁移方法。使用本发明能够从无配对、仅含风格标签的训练数据中学习,能迁移从未见过的新风格。本发明采用生成‑对抗网络,通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦,通过解码器进行动作内容、风格匹配,并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断,进而完成风格迁移。该方法能在无配对的数据上训练,且风格编码器具有一般性,能够迁移全新的风格,此外,该方法能绕过三维重建,直接从二维视频中提取风格,迁移到三维动作上,大大拓展了动作风格迁移的应用范围。
Description
技术领域
本发明涉及动画制作技术领域,具体涉及一种基于深度对抗网络的视频-动画风格迁移方法。
背景技术
动作的风格可以理解为一系列体现发出动作者情绪与特征的动作要素的集合,常见风格包括“得意的”、“沮丧的”、“像老人的”等等。动作风格迁移狭义上指的是使用动作片段S的动作风格与动作片段C的动作内容生成一段新的动作,广义上也包含根据动作片段C的内容,生成指定风格类别、内容相同的动作等。现有的动作风格迁移技术分为两大类别:一类使用预定义的特征(如运动模型的物理参数)提取、迁移风格,但人工定义的特征无法完全刻画复杂的风格;另一类使用数据驱动的方法,基于带标注的三维风格动作数据集训练神经网络等机器学习模型,如Holden等训练了一个动作自编码器(Daniel Holden,JunSaito,and Taku Komura.2016.A deep learning framework for character motionsynthesis and editing.ACM Transactions on Graphics(TOG)35,4(2016),138.),包含编码器E与解码器D;对于动作内容输入C与动作风格输入S,该方案使用优化方法,在自编码器的隐空间中寻找一个隐变量H,最小化s||G(E(S))-G(H)||2+c||E(C)-H||2,并以D(H)作为输出动作。这里s、c为超参数,G(H)表示对隐变量H计算Gram矩阵G(H)=ΣHiHi T/n;该方法基于的假设是,隐变量H、E(C)反映了动作的内容,隐变量的Gram矩阵G(H),G(E(S))反映了动作的风格。
Holden等虽然使用深度神经网络刻画动作,但它用Gram矩阵描述风格,同样是一种对特征的人工定义,在实际应用中并不能完全分离动作的风格与内容,迁移效果不佳。并且,使用数据驱动的方法大多依赖于成对的动作数据,即需要内容(运动轨迹、步伐等)完全相同;仅有风格不同的动作,采集此类数据成本很高。同时,它们大多也只能对训练集中出现过的风格进行迁移,无法迁移来自动作片段的全新风格。此外,所有现有技术均只能从三维动作捕捉(Mocap)数据中提取风格,无法利用二维视频中的风格信息。
发明内容
有鉴于此,本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法,能够从无配对、仅含风格标签的训练数据中学习,能迁移从未见过的新风格。此外,该方法能绕过三维重建,直接从二维视频中提取风格,迁移到三维动作上,大大拓展了动作风格迁移的应用范围。
本发明的基于深度对抗网络的视频-动画风格迁移方法,包括如下步骤:
步骤1,构建生成-对抗网络;其中,生成-对抗网络包括生成器和判别器,生成器包括内容编码器EC、风格编码器ES和解码器F;
内容编码器EC包含实例归一化的一维时序卷积层和实例归一化的残差卷积层,将输入的内容动作片段ms编码为包含时序信息的内容向量zc;
风格编码器ES包含2个一维时序卷积层和一个池化层,将输入的风格动作片段nt编码为不含时序信息的固定长度的风格向量zs;其中,风格编码器ES包括二维风格编码器和三维风格编码器,分别接收并编码二维风格动作片段和三维风格动作片段;
解码器F包含AdaIN层、残差卷积层、上采样层和无激活函数的卷积层,对内容向量zc进行卷积与上采样,并利用AdaIN层注入风格向量zs的信息,得到风格迁移后的动作片段mt=F(EC(ms)|ES(nt));
判别器判别动作片段mt的动作是否属于风格t的真实动作;
步骤2,分别以“-Ladv”与“Lcon+αadvLadv+αjointLjoint+αtripLtrip”为损失函数,交替训练步骤1构建的生成器和判别器,得到训练好的生成-对抗网络;
其中,Ladv为对抗损失函数:对于输入内容动作片段ms、风格动作片段nt,判别器D希望最大化对真实片段nt的评分Dt(nt),最小化对生成器输出片段的评分Dt(F(EC(ms)|ES(nt)));生成器G希望最大化对其输出片段的评分Dt(F(EC(ms)|ES(nt)));
Lcon为内容一致性损失函数:当内容输入为ms、风格输入为ns,与内容输入具有相同风格时,生成器应当重建内容输入ms;
Ltrip为风格三元组损失函数:标签相同的动作对应风格向量之间距离至少比标签不同的动作对应风格向量之间的距离小设定值;
Ljoint为二维-三维共享嵌入损失函数:将三维动作nt投影为二维动作P(nt;p),希望ES 2D,ES 3D将P(nt;p),nt映射为同一个风格向量;
αadv、αjoint、αtrip分别为对应损失函数的权重;
步骤3,将待迁移风格的内容动作片段和拟采用风格的风格动作片段输入训练好的生成器,实现风格迁移。
较佳的,动作片段采用一个二维矩阵ms表示;其中ms的行为时间轴,时间轴上的每一个列向量对应一帧中的骨架信息;其中,内容动作片段ms的骨架信息包括骨架基座的位置以及骨架关节的旋转状态;风格动作片段nt的骨架信息包括骨架基座的位置、以及每个关节相对骨架基座的位置。
较佳的,αadv=1,αjoint=0.3,αtrip=0.3。
较佳的,
其中,E表示期望;M为训练集,Dt(F(EC(ms)|ES(nt)))为判别器对生成器输出片段的评分;F为解码器,EC为内容编码器、ES为风格编码器。
较佳的,
其中,E表示期望;M为训练集,F(EC(ms)|ES(ns))为生成器的输出;EC为内容编码器、ES为风格编码器。
较佳的,
其中,E表示期望,M为训练集,nt为风格动作片段,ES 3D为三维风格编码器,ES 2D为二维风格编码器,P为一个投影算子,P(nt;p)为三维动作nt根据投影参数p向二维的投影;ES 3D(nt),ES 2D(P(nt;p))分别为三维风格编码器对三维动作的编码、二维风格编码器对投影后二维动作的编码。
较佳的,
其中,E表示期望,nt,xt为两个风格为t的动作片段,ws为风格为s的动作片段,ES表示风格编码器,||ES(nt)-ES(xt)||为两个相同风格动作片段的编码之间的距离,为两个不同风格动作片段的编码之间的距离,δ为设定的距离阈值;最外层的[]+函数在变量取值为负数、即相同风格动作片段的编码间距离比不同风格动作片段的编码间距离至少小δ时,函数取值为0;在变量取值为正数时,取值为变量本身。
有益效果:
本发明将生成-对抗网络框架应用于动作风格迁移问题,可适用于没有成对训练数据的情况;结合对抗损失与内容一致性损失,训练风格编码器与内容编码器,达到风格、动作的解耦合。其中风格编码器能够编码训练阶段未见过的风格,使网络能在测试阶段迁移全新的风格;此外,本发明还使用一对二维-三维风格编码器将二维、三维动作映射到同一个风格向量空间,首次实现了从视频中提取风格信息。最后,本发明首次利用自适应实例归一化层操纵动作的风格信息。
附图说明
图1为本发明网络结构框图。
图2为本发明效果图。
图3为Holden的风格向量t-SNE投影与本发明的风格向量t-SNE投影对比图。
图4为给定内容动作、风格动作输入,Holden的输出与本发明输出的对比。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法,采用生成-对抗网络(Generative Adversarial Network,GAN),通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦,通过解码器进行动作内容、风格匹配,并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断,进而完成风格迁移。该方法能在无配对的数据上训练,且风格编码器具有一般性,能够迁移全新的风格,并且能够从二维视频中提取风格信息。
(1)网络构建
如图1所示,本发明采用的生成-对抗网络,由生成器和判别器组成。
生成器G以内容为m、风格为s的内容动作片段ms,内容为n、风格为t的风格动作片段nt为输入,输出具有风格s、但内容与ms一致的动作片段mt。生成器包括内容编码器EC、风格编码器ES和解码器F。
其中,内容编码器EC包含一系列一维时序卷积层与残差卷积层,将内容动作片段ms编码为包含时序信息的内容向量zc,并用实例归一化(Instance Normalization)处理卷积层、残差卷积层所输出的中间阶段的特征,意在破坏其中的风格信息;具体地,本发明中,内容编码器EC依次使用一个卷积核为8、特征通道数为144、卷积步长为2、激活函数为LeakyReLU、输出使用实例归一化的卷积层,以及一个卷积核为8、特征通道数为144、卷积步长为1、激活函数为LeakyReLU、输出使用实例归一化的残差卷积层。
风格编码器ES包含一系列一维时序卷积层和池化层,将风格动作片段nt编码为不含时序信息的固定长度风格向量zs。具体地,本发明依次使用两个卷积核大小为8、步长为2、激活函数为LeakyReLU、特征通道数分别为96、144的卷积层,以及一个最大池化层。
解码器F包含一系列残差层、一维时序卷积层与自适应实例归一化(AdaptiveInstance Normalization,以下简写为AdaIN)层。其中,AdaIN层可参见Xun Huang andSerge Belongie.2017.Arbitrary style transfer in real-time with adaptiveinstance normalization.In Proc.ICCV.1501–1510。解码器F对内容向量zc进行卷积与上采样,并采用AdaIN注入风格向量zs的信息。训练时,对于具有c个特征通道的内容向量,可以训练一个多层感知机,将风格向量zs映射为μ,σ∈Rc,对应每个特征通道的目标均值与标准差,解码器中的AdaIN将以此为依据逐通道地调整内容向量。这一调整具有时序不变性,在保留动作时序信息的同时改变其风格信息。这里多层感知机的作用在于将风格向量的维度映射到c*2,也可以不采用多层感知机,直接将风格编码器的输出维度设为c*2.具体地,本发明的解码器包含一个AdaIN层,一个卷积核为8、特征通道数为144、卷积步长为1、激活函数为LeakyReLU的残差卷积层,一个倍数为2的上采样层,一个卷积核为8、特征通道数为124、卷积步长为1、无激活函数的卷积层。
结合以上,输入为内容动作片段ms、风格动作片段nt时,生成器的输出可以表示为mt=G(ms|nt)=F(EC(ms)|ES(mt))=F(zc,zs)。
判别器D以单个动作片段为输入,对于每个训练风格类独立判断输入动作是否是属于该类的真实动作。其结构参照Ming-Yu Liu,Xun Huang,Arun Mallya,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.2019.Few-shot unsupervised image-to-image translation.arXiv preprint arXiv:1905.01723(2019)。本发明的判别器依次包含卷积层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层和一个卷积层。交替使用卷积层、残差层和池化层对输入进行逐步下采样。单个动作片段可以采用来自数据集的真实MoCap数据,或者来自生成器的输出mt动作的类别标签,即判别器需要判断动作是否属于的类别,对于真实数据而言是其真实风格类别,对于mt而言是产生它的风格片段的标签t。
(2)网络训练
使用包含风格标签的动作训练上述构建的生成-对抗网络。
本发明用动作的骨架信息与一个二维矩阵ms∈RT×d共同表示长度为T的动作片段,其中,二维矩阵ms的行为时间轴;每一帧对应一个列向量,即对于动作片段的每一帧t,用矩阵ms中第t个列向量记录该帧对应的动作。本发明针对网络涉及的两种动作输入,分别采用不同的列向量:作为内容来源的动作输入的列向量具体包括骨架基座的位置(用三维坐标描述)、以及骨架关节的旋转状态(用四元数(Quaternion)描述);作为风格来源的动作输入的列向量包括骨架基座的位置、以及每个关节相对骨架基座的位置。根据动作来源于视频或是动画,位置使用二维或三维坐标描述。对于视频输入,需要首先使用姿态估计框架如OpenPose等提取二维骨架坐标信息。
训练与损失函数:
本发明的生成-对抗网络采用由对抗损失函数(Multi-Style Adversarial Loss)Ladv、内容一致性损失函数(Content Consistency Loss)Lcon、风格三元组损失函数(StyleTriplet Loss)Ltrip、二维-三维共享嵌入损失函数(Joint Embedding Loss)Ljoint构建的综合损失函数进行网络训练。
其中,对抗损失函数(Multi-Style Adversarial Loss)Ladv:对于输入内容动作片段ms、风格动作片段nt,判别器D希望最大化对真实片段nt的评分Dt(nt),最小化对生成器输出片段的评分Dt(F(EC(ms)|ES(mt))),即最大化Ladv。生成器G希望最小化Ladv。
其中,公式中M指训练集,Dt指判别器对于风格t输出的评分;E表示期望。
内容一致性损失函数(Content Consistency Loss)Lcon:当内容输入为ms,风格输入为ns,与内容输入具有相同风格时,生成器应当重建内容输入ms,对应内容一致性损失如下:
二维-三维共享嵌入损失函数(Joint Embedding Loss)Ljoint:本发明分别构建了二维风格编码器ES 2D和三维风格编码器ES 3D分别对应于二维视频输入和三维动作输入;为了将来源于三维动作数据、二维视频数据的动作映射到同一个风格向量空间,对于三维动作nt,使用弱透视投影算子P,投影参数p=(s,vpitch,vyaw,vroll)将它投影为二维动作P(nt;p),其中s表示缩放倍数,(vpitch,vyaw,vroll)是对相机姿势的欧拉角表示。本发明希望ES 2D,ES 3D将P(nt;p),nt映射为同一个风格向量,即最小化以下损失函数:
风格三元组损失函数(Style Triplet Loss)Ltrip:为了使具有相同风格标签的动作具有更相近的风格向量,对风格向量使用三元组损失如下:
其中,nt,xt是两个风格标签相同的动作,ws是风格标签与它们不同的动作,[]+等同于ReLU激活函数,δ为常量,要求标签相同的动作对应风格向量之间距离至少比标签不同的动作对应风格向量之间的距离小δ,这里取δ=5。
在训练阶段,分别以-Ladv与Lcon+αadvLadv+αjointLjoint+αtripLtrip为损失函数,交替训练生成器与判别器。这里取αadv=1,αjoint=0.3,αtrip=0.3。
图2为本发明效果图,图2中,第一行对应内容动作输入;第二行对应来自三维动作、二维动作和二维视频的风格动作输入;第三行是我们的迁移结果:内容与第一行一致,风格与第二行一致。
本发明与现有技术相比,具有如下特点:
(1)现有技术需要成对训练数据,主要原因是采用监督学习的方式,对于生成的迁移结果,需要提供标准答案。本发明采用生成-对抗网络,用判别器和内容一致性损失分别约束迁移结果的风格(包括真实性)和内容与输入匹配,从而能在无配对的数据上训练。
(2)现有技术无法迁移训练阶段未见过的风格,主要原因是没有建立适用于所有风格的编码器,只对固定、离散的风格建模。本发明训练了一个一般化的风格编码器,能够泛化到新风格上,从而能够在测试阶段迁移全新的风格。
(3)Holden采用隐向量的Gram矩阵作为动作的风格描述,但其实际上并不能提取相同风格动作的共同点,也无法解耦动作中的内容信息。如图3所示,分别将Holden(DanielHolden,Jun Saito,and Taku Komura.2016.A deep learning framework for charactermotion synthesis and editing.ACM Transactions on Graphics(TOG)35,4(2016),138.)中描述风格的Gram矩阵(图3(a))与用本发明的风格编码器得到的风格向量(图3(b))用t-SNE投影到平面,用输入动作的风格标签进行着色,本发明的风格向量有着很好的聚类结构,但Holden的风格描述并没有体现出与风格有关的结构。
如图4所示,从左到右依次是内容动作输入、风格动作输入,Holden的输出与本发明的输出。这里,风格输入为一个原地踢腿动作,Holden迁移该动作的风格时,未能剥离其中“留在原地”这一内容,导致其输出动作的内容介于向前跳跃与原地不动之间,不符合动作风格迁移的要求。
(4)现有技术均不能从视频中提取风格信息。本发明利用已有的三维训练数据及其投影,训练了一对二维-三维风格编码器,将二维、三维动作映射到同一个风格向量空间,实现从视频到三维动作的风格迁移。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于深度对抗网络的视频-动画风格迁移方法,其特征在于,包括如下步骤:
步骤1,构建生成-对抗网络;其中,生成-对抗网络包括生成器和判别器,生成器包括内容编码器EC、风格编码器ES和解码器F;
内容编码器EC包含实例归一化的一维时序卷积层和实例归一化的残差卷积层,将输入的内容动作片段ms编码为包含时序信息的内容向量zc;
风格编码器ES包含2个一维时序卷积层和一个池化层,将输入的风格动作片段nt编码为不含时序信息的固定长度的风格向量zs;其中,风格编码器ES包括二维风格编码器和三维风格编码器,分别接收并编码二维风格动作片段和三维风格动作片段;
解码器F包含AdaIN层、残差卷积层、上采样层和无激活函数的卷积层,对内容向量zc进行卷积与上采样,并利用AdaIN层注入风格向量zs的信息,得到风格迁移后的动作片段mt=F(EC(ms)|ES(nt));
判别器判别动作片段mt的动作是否属于风格t的真实动作;
步骤2,分别以“Ladv”与“Lcon+αadvLadv+αjointLjoint+αtripLtrip”为损失函数,交替训练步骤1构建的生成器和判别器,得到训练好的生成-对抗网络;
其中,Ladv为对抗损失函数:对于输入内容动作片段ms、风格动作片段nt,判别器D希望最大化对真实片段nt的评分Dt(nt),最小化对生成器输出片段的评分Dt(F(EC(ms)|ES(nt)));生成器G希望最大化对其输出片段的评分Dt(F(EC(ms)|ES(nt)));
其中,E表示期望;M为训练集,Dt(F(EC(ms)|ES(nt)))为判别器对生成器输出片段的评分;F为解码器,EC为内容编码器、ES为风格编码器;
Lcon为内容一致性损失函数:当内容输入为ms、风格输入为ns,与内容输入具有相同风格时,生成器应当重建内容输入ms;
其中,E表示期望;M为训练集,F(EC(ms)|ES(ns))为生成器的输出;EC为内容编码器、ES为风格编码器;
Ltrip为风格三元组损失函数:标签相同的动作对应风格向量之间距离至少比标签不同的动作对应风格向量之间的距离小设定值;
其特征在于,
其中,E表示期望,nt,xt为两个风格为t的动作片段,ws为风格为s的动作片段,ES表示风格编码器,||ES(nt)-ES(xt)||为两个相同风格动作片段的编码之间的距离,为两个不同风格动作片段的编码之间的距离,δ为设定的距离阈值;最外层的[]+函数在变量取值为负数、即相同风格动作片段的编码间距离比不同风格动作片段的编码间距离至少小δ时,函数取值为0;在变量取值为正数时,取值为变量本身;
Ljoint为二维-三维共享嵌入损失函数:将三维动作nt投影为二维动作P(nt;p),希望ES 2D,ES 3D将P(nt;p),nt映射为同一个风格向量;
其中,E表示期望,M为训练集,nt为风格动作片段,ES 3D为三维风格编码器,ES 2D为二维风格编码器,P为一个投影算子,P(nt;p)为三维动作nt根据投影参数p向二维的投影;ES 3D(nt),ES 2D(P(nt;p))分别为三维风格编码器对三维动作的编码、二维风格编码器对投影后二维动作的编码;
αadv、αjoint、αtrip分别为对应损失函数的权重;
步骤3,将待迁移风格的内容动作片段和拟采用风格的风格动作片段输入训练好的生成器,实现风格迁移。
2.如权利要求1所述的基于深度对抗网络的视频-动画风格迁移方法,其特征在于,动作片段采用一个二维矩阵ms表示;其中ms的行为时间轴,时间轴上的每一个列向量对应一帧中的骨架信息;其中,内容动作片段ms的骨架信息包括骨架基座的位置以及骨架关节的旋转状态;风格动作片段nt的骨架信息包括骨架基座的位置、以及每个关节相对骨架基座的位置。
3.如权利要求1所述的基于深度对抗网络的视频-动画风格迁移方法,其特征在于,αadv=1,αjoint=0.3,αtrip=0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929306.0A CN112164130B (zh) | 2020-09-07 | 2020-09-07 | 基于深度对抗网络的视频-动画风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010929306.0A CN112164130B (zh) | 2020-09-07 | 2020-09-07 | 基于深度对抗网络的视频-动画风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164130A CN112164130A (zh) | 2021-01-01 |
CN112164130B true CN112164130B (zh) | 2024-04-23 |
Family
ID=73857664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010929306.0A Active CN112164130B (zh) | 2020-09-07 | 2020-09-07 | 基于深度对抗网络的视频-动画风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164130B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113559500B (zh) * | 2021-01-18 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 动作数据的生成方法、装置、电子设备及存储介质 |
CN113052930A (zh) * | 2021-03-12 | 2021-06-29 | 北京医准智能科技有限公司 | 一种胸部dr双能量数字减影图像生成方法 |
CN113808011B (zh) * | 2021-09-30 | 2023-08-11 | 深圳万兴软件有限公司 | 一种基于特征融合的风格迁移方法、装置及其相关组件 |
CN117808934A (zh) * | 2022-09-29 | 2024-04-02 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218629A (zh) * | 2018-09-14 | 2019-01-15 | 三星电子(中国)研发中心 | 视频生成方法、存储介质和装置 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
-
2020
- 2020-09-07 CN CN202010929306.0A patent/CN112164130B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109218629A (zh) * | 2018-09-14 | 2019-01-15 | 三星电子(中国)研发中心 | 视频生成方法、存储介质和装置 |
CN110503598A (zh) * | 2019-07-30 | 2019-11-26 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
CN110458216A (zh) * | 2019-07-31 | 2019-11-15 | 中山大学 | 基于条件生成对抗网络的图像风格迁移方法 |
Non-Patent Citations (2)
Title |
---|
图像风格迁移方法研究;侯玉兵;;中国新通信(17);全文 * |
基于生成对抗网络自动生成动漫人物形象的研究;黄真;陈家琦;;电子技术与软件工程(23);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112164130A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112164130B (zh) | 基于深度对抗网络的视频-动画风格迁移方法 | |
Anantrasirichai et al. | Artificial intelligence in the creative industries: a review | |
Liu et al. | Hard negative generation for identity-disentangled facial expression recognition | |
Laga et al. | A survey on deep learning techniques for stereo-based depth estimation | |
Han et al. | A survey on vision transformer | |
EP3602494B1 (en) | Robust mesh tracking and fusion by using part-based key frames and priori model | |
Yang et al. | Weakly-supervised disentangling with recurrent transformations for 3d view synthesis | |
CN111401216B (zh) | 图像处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113344777B (zh) | 基于三维人脸分解的换脸与重演方法及装置 | |
US20220318946A1 (en) | Method for image shape transformation based on generative adversarial network | |
Szeto et al. | A temporally-aware interpolation network for video frame inpainting | |
Jiang et al. | Learning compositional representation for 4d captures with neural ode | |
Tretschk et al. | State of the Art in Dense Monocular Non‐Rigid 3D Reconstruction | |
Paier et al. | Interactive facial animation with deep neural networks | |
Seymour et al. | Maast: Map attention with semantic transformers for efficient visual navigation | |
CN117218246A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
Khan et al. | Towards monocular neural facial depth estimation: Past, present, and future | |
Sung et al. | Real-time facial expression recognition using STAAM and layered GDA classifier | |
Hu et al. | Hvtr++: Image and pose driven human avatars using hybrid volumetric-textural rendering | |
Zhang et al. | Edge‐guided single facial depth map super‐resolution using CNN | |
Vo et al. | Saliency prediction for 360-degree video | |
Dhondse et al. | Generative adversarial networks as an advancement in 2D to 3D reconstruction techniques | |
Duan et al. | PortraitGAN for flexible portrait manipulation | |
Yao et al. | Neural Radiance Field-based Visual Rendering: A Comprehensive Review | |
Gong et al. | Dynamic facial expression synthesis driven by deformable semantic parts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |