CN112164130B

CN112164130B - 基于深度对抗网络的视频-动画风格迁移方法

Info

Publication number: CN112164130B
Application number: CN202010929306.0A
Authority: CN
Inventors: 翁伊嘉; 科菲尔·阿博曼; 陈宝权; 达尼·李其思; 达尼·科恩尔
Original assignee: BEIJING FILM ACADEMY
Current assignee: BEIJING FILM ACADEMY
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-04-23
Anticipated expiration: 2040-09-07
Also published as: CN112164130A

Abstract

本发明公开了一种基于深度对抗网络的视频‑动画风格迁移方法。使用本发明能够从无配对、仅含风格标签的训练数据中学习，能迁移从未见过的新风格。本发明采用生成‑对抗网络，通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦，通过解码器进行动作内容、风格匹配，并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断，进而完成风格迁移。该方法能在无配对的数据上训练，且风格编码器具有一般性，能够迁移全新的风格，此外，该方法能绕过三维重建，直接从二维视频中提取风格，迁移到三维动作上，大大拓展了动作风格迁移的应用范围。

Description

基于深度对抗网络的视频-动画风格迁移方法

技术领域

本发明涉及动画制作技术领域，具体涉及一种基于深度对抗网络的视频-动画风格迁移方法。

背景技术

动作的风格可以理解为一系列体现发出动作者情绪与特征的动作要素的集合，常见风格包括“得意的”、“沮丧的”、“像老人的”等等。动作风格迁移狭义上指的是使用动作片段S的动作风格与动作片段C的动作内容生成一段新的动作，广义上也包含根据动作片段C的内容，生成指定风格类别、内容相同的动作等。现有的动作风格迁移技术分为两大类别：一类使用预定义的特征(如运动模型的物理参数)提取、迁移风格，但人工定义的特征无法完全刻画复杂的风格；另一类使用数据驱动的方法，基于带标注的三维风格动作数据集训练神经网络等机器学习模型，如Holden等训练了一个动作自编码器(Daniel Holden,JunSaito,and Taku Komura.2016.A deep learning framework for character motionsynthesis and editing.ACM Transactions on Graphics(TOG)35,4(2016),138.)，包含编码器E与解码器D；对于动作内容输入C与动作风格输入S，该方案使用优化方法，在自编码器的隐空间中寻找一个隐变量H，最小化s||G(E(S))-G(H)||²+c||E(C)-H||²,并以D(H)作为输出动作。这里s、c为超参数，G(H)表示对隐变量H计算Gram矩阵G(H)＝ΣH_iH_i ^T/n；该方法基于的假设是，隐变量H、E(C)反映了动作的内容，隐变量的Gram矩阵G(H),G(E(S))反映了动作的风格。

Holden等虽然使用深度神经网络刻画动作，但它用Gram矩阵描述风格，同样是一种对特征的人工定义，在实际应用中并不能完全分离动作的风格与内容，迁移效果不佳。并且，使用数据驱动的方法大多依赖于成对的动作数据，即需要内容(运动轨迹、步伐等)完全相同；仅有风格不同的动作，采集此类数据成本很高。同时，它们大多也只能对训练集中出现过的风格进行迁移，无法迁移来自动作片段的全新风格。此外，所有现有技术均只能从三维动作捕捉(Mocap)数据中提取风格，无法利用二维视频中的风格信息。

发明内容

有鉴于此，本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法，能够从无配对、仅含风格标签的训练数据中学习，能迁移从未见过的新风格。此外，该方法能绕过三维重建，直接从二维视频中提取风格，迁移到三维动作上，大大拓展了动作风格迁移的应用范围。

本发明的基于深度对抗网络的视频-动画风格迁移方法，包括如下步骤：

步骤1，构建生成-对抗网络；其中，生成-对抗网络包括生成器和判别器，生成器包括内容编码器E_C、风格编码器E_S和解码器F；

内容编码器E_C包含实例归一化的一维时序卷积层和实例归一化的残差卷积层，将输入的内容动作片段m^s编码为包含时序信息的内容向量z_c；

风格编码器E_S包含2个一维时序卷积层和一个池化层，将输入的风格动作片段n^t编码为不含时序信息的固定长度的风格向量z_s；其中，风格编码器E_S包括二维风格编码器和三维风格编码器，分别接收并编码二维风格动作片段和三维风格动作片段；

解码器F包含AdaIN层、残差卷积层、上采样层和无激活函数的卷积层，对内容向量z_c进行卷积与上采样，并利用AdaIN层注入风格向量z_s的信息，得到风格迁移后的动作片段m^t＝F(E_C(m^s)|E_S(n^t))；

判别器判别动作片段m^t的动作是否属于风格t的真实动作；

步骤2，分别以“-L_adv”与“L_con+α_advL_adv+α_jointL_joint+α_tripL_trip”为损失函数，交替训练步骤1构建的生成器和判别器，得到训练好的生成-对抗网络；

其中，L_adv为对抗损失函数：对于输入内容动作片段m^s、风格动作片段n^t，判别器D希望最大化对真实片段n^t的评分D^t(n^t)，最小化对生成器输出片段的评分D^t(F(E_C(m^s)|E_S(n^t)))；生成器G希望最大化对其输出片段的评分D^t(F(E_C(m^s)|E_S(n^t)))；

L_con为内容一致性损失函数：当内容输入为m^s、风格输入为n^s，与内容输入具有相同风格时，生成器应当重建内容输入m^s；

L_trip为风格三元组损失函数：标签相同的动作对应风格向量之间距离至少比标签不同的动作对应风格向量之间的距离小设定值；

L_joint为二维-三维共享嵌入损失函数：将三维动作n^t投影为二维动作P(n^t；p)，希望E_S ^2D,E_S ^3D将P(n^t；p),n^t映射为同一个风格向量；

α_adv、α_joint、α_trip分别为对应损失函数的权重；

步骤3，将待迁移风格的内容动作片段和拟采用风格的风格动作片段输入训练好的生成器，实现风格迁移。

较佳的，动作片段采用一个二维矩阵m^s表示；其中m^s的行为时间轴，时间轴上的每一个列向量对应一帧中的骨架信息；其中，内容动作片段m^s的骨架信息包括骨架基座的位置以及骨架关节的旋转状态；风格动作片段n^t的骨架信息包括骨架基座的位置、以及每个关节相对骨架基座的位置。

较佳的，α_adv＝1，α_joint＝0.3，α_trip＝0.3。

较佳的，

其中，E表示期望；M为训练集，D^t(F(E_C(m^s)|E_S(n^t)))为判别器对生成器输出片段的评分；F为解码器，E_C为内容编码器、E_S为风格编码器。

较佳的，

其中，E表示期望；M为训练集，F(E_C(m^s)|E_S(n^s))为生成器的输出；E_C为内容编码器、E_S为风格编码器。

较佳的，

其中，E表示期望，M为训练集，n^t为风格动作片段，E_S ^3D为三维风格编码器，E_S ^2D为二维风格编码器，P为一个投影算子，P(n^t；p)为三维动作n^t根据投影参数p向二维的投影；E_S ^3D(n^t),E_S ^2D(P(n^t；p))分别为三维风格编码器对三维动作的编码、二维风格编码器对投影后二维动作的编码。

较佳的，

其中，E表示期望，n^t,x^t为两个风格为t的动作片段，w^s为风格为s的动作片段，E_S表示风格编码器，||E_S(n^t)-E_S(x^t)||为两个相同风格动作片段的编码之间的距离，为两个不同风格动作片段的编码之间的距离，δ为设定的距离阈值；最外层的[]₊函数在变量取值为负数、即相同风格动作片段的编码间距离比不同风格动作片段的编码间距离至少小δ时，函数取值为0；在变量取值为正数时，取值为变量本身。

有益效果：

本发明将生成-对抗网络框架应用于动作风格迁移问题，可适用于没有成对训练数据的情况；结合对抗损失与内容一致性损失，训练风格编码器与内容编码器，达到风格、动作的解耦合。其中风格编码器能够编码训练阶段未见过的风格，使网络能在测试阶段迁移全新的风格；此外，本发明还使用一对二维-三维风格编码器将二维、三维动作映射到同一个风格向量空间，首次实现了从视频中提取风格信息。最后，本发明首次利用自适应实例归一化层操纵动作的风格信息。

附图说明

图1为本发明网络结构框图。

图2为本发明效果图。

图3为Holden的风格向量t-SNE投影与本发明的风格向量t-SNE投影对比图。

图4为给定内容动作、风格动作输入，Holden的输出与本发明输出的对比。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于深度对抗网络的视频-动画风格迁移方法，采用生成-对抗网络(Generative Adversarial Network，GAN)，通过内容编码器和风格编码器实现动作片段的动作内容和动作风格解耦，通过解码器进行动作内容、风格匹配，并利用判别器对匹配结果的风格(包括真实性)、动作内容进行判断，进而完成风格迁移。该方法能在无配对的数据上训练，且风格编码器具有一般性，能够迁移全新的风格，并且能够从二维视频中提取风格信息。

(1)网络构建

如图1所示，本发明采用的生成-对抗网络，由生成器和判别器组成。

生成器G以内容为m、风格为s的内容动作片段m^s，内容为n、风格为t的风格动作片段n^t为输入，输出具有风格s、但内容与m^s一致的动作片段m^t。生成器包括内容编码器E_C、风格编码器E_S和解码器F。

其中，内容编码器E_C包含一系列一维时序卷积层与残差卷积层，将内容动作片段m^s编码为包含时序信息的内容向量z_c，并用实例归一化(Instance Normalization)处理卷积层、残差卷积层所输出的中间阶段的特征，意在破坏其中的风格信息；具体地，本发明中，内容编码器E_C依次使用一个卷积核为8、特征通道数为144、卷积步长为2、激活函数为LeakyReLU、输出使用实例归一化的卷积层，以及一个卷积核为8、特征通道数为144、卷积步长为1、激活函数为LeakyReLU、输出使用实例归一化的残差卷积层。

风格编码器E_S包含一系列一维时序卷积层和池化层，将风格动作片段n^t编码为不含时序信息的固定长度风格向量z_s。具体地，本发明依次使用两个卷积核大小为8、步长为2、激活函数为LeakyReLU、特征通道数分别为96、144的卷积层，以及一个最大池化层。

解码器F包含一系列残差层、一维时序卷积层与自适应实例归一化(AdaptiveInstance Normalization,以下简写为AdaIN)层。其中，AdaIN层可参见Xun Huang andSerge Belongie.2017.Arbitrary style transfer in real-time with adaptiveinstance normalization.In Proc.ICCV.1501–1510。解码器F对内容向量z_c进行卷积与上采样，并采用AdaIN注入风格向量z_s的信息。训练时，对于具有c个特征通道的内容向量，可以训练一个多层感知机，将风格向量z_s映射为μ,σ∈R^c，对应每个特征通道的目标均值与标准差，解码器中的AdaIN将以此为依据逐通道地调整内容向量。这一调整具有时序不变性，在保留动作时序信息的同时改变其风格信息。这里多层感知机的作用在于将风格向量的维度映射到c＊2，也可以不采用多层感知机，直接将风格编码器的输出维度设为c＊2.具体地，本发明的解码器包含一个AdaIN层，一个卷积核为8、特征通道数为144、卷积步长为1、激活函数为LeakyReLU的残差卷积层，一个倍数为2的上采样层，一个卷积核为8、特征通道数为124、卷积步长为1、无激活函数的卷积层。

结合以上，输入为内容动作片段m^s、风格动作片段n^t时，生成器的输出可以表示为m^t＝G(m^s|n^t)＝F(E_C(m^s)|E_S(m^t))＝F(z_c,z_s)。

判别器D以单个动作片段为输入，对于每个训练风格类独立判断输入动作是否是属于该类的真实动作。其结构参照Ming-Yu Liu,Xun Huang,Arun Mallya,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.2019.Few-shot unsupervised image-to-image translation.arXiv preprint arXiv:1905.01723(2019)。本发明的判别器依次包含卷积层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层、一个步长为2的池化层、两个残差卷积层和一个卷积层。交替使用卷积层、残差层和池化层对输入进行逐步下采样。单个动作片段可以采用来自数据集的真实MoCap数据，或者来自生成器的输出m^t动作的类别标签，即判别器需要判断动作是否属于的类别，对于真实数据而言是其真实风格类别，对于m^t而言是产生它的风格片段的标签t。

(2)网络训练

使用包含风格标签的动作训练上述构建的生成-对抗网络。

本发明用动作的骨架信息与一个二维矩阵m^s∈R^T×d共同表示长度为T的动作片段，其中，二维矩阵m^s的行为时间轴；每一帧对应一个列向量，即对于动作片段的每一帧t，用矩阵m^s中第t个列向量记录该帧对应的动作。本发明针对网络涉及的两种动作输入，分别采用不同的列向量：作为内容来源的动作输入的列向量具体包括骨架基座的位置(用三维坐标描述)、以及骨架关节的旋转状态(用四元数(Quaternion)描述)；作为风格来源的动作输入的列向量包括骨架基座的位置、以及每个关节相对骨架基座的位置。根据动作来源于视频或是动画，位置使用二维或三维坐标描述。对于视频输入，需要首先使用姿态估计框架如OpenPose等提取二维骨架坐标信息。

训练与损失函数：

本发明的生成-对抗网络采用由对抗损失函数(Multi-Style Adversarial Loss)L_adv、内容一致性损失函数(Content Consistency Loss)L_con、风格三元组损失函数(StyleTriplet Loss)L_trip、二维-三维共享嵌入损失函数(Joint Embedding Loss)L_joint构建的综合损失函数进行网络训练。

其中，对抗损失函数(Multi-Style Adversarial Loss)L_adv：对于输入内容动作片段m^s、风格动作片段n^t，判别器D希望最大化对真实片段n^t的评分D^t(n^t)，最小化对生成器输出片段的评分D^t(F(E_C(m^s)|E_S(m^t)))，即最大化L_adv。生成器G希望最小化L_adv。

其中，公式中M指训练集，D^t指判别器对于风格t输出的评分；E表示期望。

内容一致性损失函数(Content Consistency Loss)L_con：当内容输入为m^s，风格输入为n^s，与内容输入具有相同风格时，生成器应当重建内容输入m^s，对应内容一致性损失如下:

二维-三维共享嵌入损失函数(Joint Embedding Loss)L_joint:本发明分别构建了二维风格编码器E_S ^2D和三维风格编码器E_S ^3D分别对应于二维视频输入和三维动作输入；为了将来源于三维动作数据、二维视频数据的动作映射到同一个风格向量空间，对于三维动作n^t，使用弱透视投影算子P,投影参数p＝(s,v^pitch,v^yaw,v^roll)将它投影为二维动作P(n^t；p)，其中s表示缩放倍数，(v^pitch,v^yaw,v^roll)是对相机姿势的欧拉角表示。本发明希望E_S ^2D,E_S ^3D将P(n^t；p),n^t映射为同一个风格向量，即最小化以下损失函数:

风格三元组损失函数(Style Triplet Loss)L_trip:为了使具有相同风格标签的动作具有更相近的风格向量，对风格向量使用三元组损失如下：

其中，n^t,x^t是两个风格标签相同的动作，w^s是风格标签与它们不同的动作,[]₊等同于ReLU激活函数,δ为常量，要求标签相同的动作对应风格向量之间距离至少比标签不同的动作对应风格向量之间的距离小δ，这里取δ＝5。

在训练阶段，分别以-L_adv与L_con+α_advL_adv+α_jointL_joint+α_tripL_trip为损失函数，交替训练生成器与判别器。这里取α_adv＝1,α_joint＝0.3,α_trip＝0.3。

图2为本发明效果图，图2中，第一行对应内容动作输入；第二行对应来自三维动作、二维动作和二维视频的风格动作输入；第三行是我们的迁移结果：内容与第一行一致，风格与第二行一致。

本发明与现有技术相比，具有如下特点：

(1)现有技术需要成对训练数据，主要原因是采用监督学习的方式，对于生成的迁移结果，需要提供标准答案。本发明采用生成-对抗网络，用判别器和内容一致性损失分别约束迁移结果的风格(包括真实性)和内容与输入匹配，从而能在无配对的数据上训练。

(2)现有技术无法迁移训练阶段未见过的风格，主要原因是没有建立适用于所有风格的编码器，只对固定、离散的风格建模。本发明训练了一个一般化的风格编码器，能够泛化到新风格上，从而能够在测试阶段迁移全新的风格。

(3)Holden采用隐向量的Gram矩阵作为动作的风格描述，但其实际上并不能提取相同风格动作的共同点，也无法解耦动作中的内容信息。如图3所示，分别将Holden(DanielHolden,Jun Saito,and Taku Komura.2016.A deep learning framework for charactermotion synthesis and editing.ACM Transactions on Graphics(TOG)35,4(2016),138.)中描述风格的Gram矩阵(图3(a))与用本发明的风格编码器得到的风格向量(图3(b))用t-SNE投影到平面，用输入动作的风格标签进行着色，本发明的风格向量有着很好的聚类结构，但Holden的风格描述并没有体现出与风格有关的结构。

如图4所示，从左到右依次是内容动作输入、风格动作输入，Holden的输出与本发明的输出。这里，风格输入为一个原地踢腿动作，Holden迁移该动作的风格时，未能剥离其中“留在原地”这一内容，导致其输出动作的内容介于向前跳跃与原地不动之间，不符合动作风格迁移的要求。

(4)现有技术均不能从视频中提取风格信息。本发明利用已有的三维训练数据及其投影，训练了一对二维-三维风格编码器，将二维、三维动作映射到同一个风格向量空间，实现从视频到三维动作的风格迁移。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度对抗网络的视频-动画风格迁移方法，其特征在于，包括如下步骤：

判别器判别动作片段m^t的动作是否属于风格t的真实动作；

步骤2，分别以“L_adv”与“L_con+α_advL_adv+α_jointL_joint+α_tripL_trip”为损失函数，交替训练步骤1构建的生成器和判别器，得到训练好的生成-对抗网络；

其中，E表示期望；M为训练集，D^t(F(E_C(m^s)|E_S(n^t)))为判别器对生成器输出片段的评分；F为解码器，E_C为内容编码器、E_S为风格编码器；

其中，E表示期望；M为训练集，F(E_C(m^s)|E_S(n^s))为生成器的输出；E_C为内容编码器、E_S为风格编码器；

其特征在于，

其中，E表示期望，n^t,x^t为两个风格为t的动作片段，w^s为风格为s的动作片段，E_S表示风格编码器，||E_S(n^t)-E_S(x^t)||为两个相同风格动作片段的编码之间的距离，为两个不同风格动作片段的编码之间的距离，δ为设定的距离阈值；最外层的[]₊函数在变量取值为负数、即相同风格动作片段的编码间距离比不同风格动作片段的编码间距离至少小δ时，函数取值为0；在变量取值为正数时，取值为变量本身；

其中，E表示期望，M为训练集，n^t为风格动作片段，E_S ^3D为三维风格编码器，E_S ^2D为二维风格编码器，P为一个投影算子，P(n^t；p)为三维动作n^t根据投影参数p向二维的投影；E_S ^3D(n^t),E_S ^2D(P(n^t；p))分别为三维风格编码器对三维动作的编码、二维风格编码器对投影后二维动作的编码；

α_adv、α_joint、α_trip分别为对应损失函数的权重；

2.如权利要求1所述的基于深度对抗网络的视频-动画风格迁移方法，其特征在于，动作片段采用一个二维矩阵m^s表示；其中m^s的行为时间轴，时间轴上的每一个列向量对应一帧中的骨架信息；其中，内容动作片段m^s的骨架信息包括骨架基座的位置以及骨架关节的旋转状态；风格动作片段n^t的骨架信息包括骨架基座的位置、以及每个关节相对骨架基座的位置。

3.如权利要求1所述的基于深度对抗网络的视频-动画风格迁移方法，其特征在于，α_adv＝1，α_joint＝0.3，α_trip＝0.3。