CN113505829A

CN113505829A - 一种基于变分自编码器的表情序列自动生成方法

Info

Publication number: CN113505829A
Application number: CN202110776663.2A
Authority: CN
Inventors: 商琳; 张明月
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-10-15
Anticipated expiration: 2041-07-09
Also published as: CN113505829B

Abstract

本发明提供了一种基于变分自编码器的表情序列自动生成方法，包括：(1)在大规模人脸数据集上预训练变分自编码器，使变分自编码器初步具备生成人脸图片的功能。(2)对表情变化序列等间隔取三元组，获取表情连续变化的三元组。(3)利用深度度量学习方法，用三元组的三元损失自监督训练变分自编码器。(4)经过上述步骤，变分自编码具备细粒度的特点，能感知面部表情强度，因此对编码器生成的向量进行插值再解码，即可得到一个完整的表情变化序列。

Description

一种基于变分自编码器的表情序列自动生成方法

技术领域

本发明涉及一种基于变分自编码器的表情序列自动生成方法。

背景技术

VAE作为生成模型的一种，可以用于表情序列生成，用两张表情图片通过潜变量插值生成表情变化的连续序列，补全整个变化过程。传统的VAE采用无监督学习方法将复杂的数据映射到一个低维空间中，忽略了数据中显著的特征。而对于表情数据来说，最显著的特征就是表情类别和强度。故而用传统的VAE进行表情序列的生成任务时，由于其不具备对表情强度的感知能力，生成的表情序列连续性较差，对于幅度小的表情无法生成自然的表情变化过程。

深度度量学习通过数据学习一个从原始数据空间到高维欧氏空间的映射，这个映射的目标就是同类数据在这个空间中距离较近，异类数据在这个空间中距离较远。损失函数在深度度量学习中起到了非常大的作用，其中基于三元组的三元损失是常用的损失函数。

变分自编码器是一类生成模型，其结构与自编码器类似，也是由编码器和解码器构成的。编码器将数据的高级特征映射到低级表征(潜在向量)，而解码器将数据从低级表征解码回对应的高级表征。不同之处在于自编码器只是简单地进行数据的映射和重建，只具备“记忆”功能，不能通过构建潜在变量使解码器生成新的但是符合原始数据分布的数据。变分自编码器在网络中添加一个约束条件——强制潜在向量的分布符合高斯分布，从而通过构建潜在向量利用解码器生成新的数据。

发明内容

发明目的：本发明的目的在于提出一种将深度度量学习和变分自编码器相结合的方法，增强变分自编码器对表情强度的感知能力，从而生成表情序列。单纯的变分自编码器很难学到关于表情的细粒度特征，本发明希望实现一个具备表情强度感知能力的变分自编码器，模型除了重建损失和相对熵损失之外，还生成了表情三元组引入了三元损失以自监督训练变分自编码器，使其不仅能感知面部表情，还能感知面部表情强度。

发明步骤：本算法的步骤主要分为三大部分：1)预训练变分自编码器VAE；2)生成三元组；3)自监督训练VAE；4)生成表情序列。具体的步骤如下：

步骤1，预训练变分自编码器VAE：通过在大规模人脸数据集celebA上预训练，平衡重建损失L_recon和相对熵损失L_KL的权重，使VAE具有随机生成人脸图像的作用；

步骤2，生成三元组：使用Oulu-CASIA数据集，对Oulu-CASIA数据集中的每一个视频序列进行采样，生成等间隔的三帧图片，每三帧构成一个三元组；

步骤3，自监督训练变分自编码器VAE：使用深度度量学习方法，利用三元组中隐含的表情距离信息，用三元损失自监督训练变分自编码器VAE；

步骤4，生成表情序列：对两张同一人的表情图片分别通过变分自编码器VAE的编码器encoder得到各自的嵌入向量embedding，对两个嵌入向量embedding进行线性插值，然后通过解码器decoder对插值得到的嵌入向量embedding进行解码得到整个表情变化序列。

步骤1包括以下步骤：

步骤1-1，变分自编码器VAE通过编码器encoder将图片x编码为一个潜向量

然后通过解码器decoder将潜向量z解码为图片

其中

θ分别是编码器和解码器网络的参数，设置z的维度为100；

表示通过可参数化的一簇分布来近似z的后验分布，p_θ(x|z)表示通过可参数化的一簇分布来近似x的分布；

步骤1-2，定义重建损失为L_recon，用于度量输入图片和输出图片的差异，重建损失的权重因子为α：

表示从编码器采样z之后用解码器重建x得到的对数似然，为了让解码器能尽可能把隐变量z还原成编码器的输入X；

步骤1-3，定义相对熵损失为LKL，用于衡量两个概率分布之间的距离，相对熵损失的权重因子为β：

p(z)是z的先验分布，一般采用高斯分布；D_KL是相对熵，也称KL散度，用于衡量任意两个概率分布p(x)，q(x)之间的距离，计算公式为：

步骤1-4，在网络预训练过程中，前N₁(一般取值为1000)轮设置β＝0，N₁～N₂轮次设置β线性增长至1，每N₃轮次更新一次。N₂一般取值为2000，N₃一般取值为20，训练损失为：αL_recon+βL_KL。

步骤2包括以下步骤：

步骤2-1，定义Oulu-CASIA数据集中每一个视频序列为<x₁，x₂，x₃，...，x_n>，其中x_n表示视频序列的第n帧；

步骤2-2，从每一个视频序列中按等间隔k＝2采样出所有满足间隔条件的三元组，分别是<x_n-4，x_n-2，x_n>，<x_n-4，x_n-2，x_n>，<x_n-5，x_n-3，x_n-1>，<x_n-6，x_n-4，x_n-2>，<x_n-7，x_n-5，x_n-3>，<x_n-8，x_n-6，x_n-4>

步骤3包括以下步骤：

步骤3-1，对于步骤2-2中得到的每一个三元组，记为<x_a，x_p，x_n>，其中x_a表示参考帧anchor，x_p表示正帧positive，x_n表示负帧negative；定义x_a与x_p之间的距离为dist(z_a，z_p)，定义x_a与x_n之间的距离为dist(z_a，z_n)，其中z_a，z_p，z_n代表的是变分自编码器VAE将x_a，x_p，x_n用编码器编码得到的100维向量；

步骤3-2，x_a与x_p之间的距离小于x_a与x_n之间的距离，即dist(z_a，z_p)＜dist(za，zn)；

步骤3-3，定义三元损失函数L_tri：

L_tri＝max(dist(z_a，z_p)-dist(z_a，z_n)+m，0)，

其中m是一个超参数，一般取m＝0.3；

步骤3-4，重建损失L_recon3和相对熵损失L_KL3为三元组中每张图片产生的损失之和：

步骤3-5，训练变分自编码器VAE，使用的总损失函数L为：

L＝αL_recon3+βL_KL3+γL_tri

其中α＝1.0，β＝0.3，γ＝0.5，三元损失越小，表明网络对于表情强度的感知能力越强。γ为三元损失函数的权重因子。

步骤4包括以下步骤：

步骤4-1，任取同一人的两张表情图片x₁和x₂，用变分自编码器VAE分别生成表情图片x₁和x₂的向量z₁和z₂；

步骤4-2，在向量z₁和z₂之间线性插值，得到一个向量序列(序列长度可依据插值数量进行调节)；

步骤4-3，用解码器decoder对步骤4-2得到的向量序列逐个进行解码，生成一个表情强度连续变化的表情图片序列，完成了表情序列的生成。

有益效果：本发明方法能够更好地提升变分自编码器提取细粒度表情特征的能力，从而生成更好的表情嵌入空间，使得生成的表情序列具备很好的连续性。本发明通过深度度量学习方法，自监督训练变分自编码器，使得变分自编码器学到更细粒度的表情特征，具备感知表情强度的能力，从而能够得到表情变化序列。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的总体框架图。

图2则是本发明生成表情序列的示例。

具体实施方式

如图1所示，本模型包含三个共享权重的变分自编码器VAE，输入为三元组，对输出中间结果嵌入向量添加三元度量损失限制，最终的损失函数除了包含每一张图片的重建损失和相对熵损失，还包含了整个三元组的三元损失。接下来结合步骤做具体说明：

步步骤1，预训练变分自编码器VAE：通过在大规模人脸数据集celebA上预训练，平衡重建损失L_recon和相对熵损失L_KL的权重，使VAE具有随机生成人脸图像的作用；

步骤2，生成三元组：使用Oulu-CASIA数据集，对数据集中的每一个视频序列进行采样，生成等间隔的三帧图片，每三帧构成一个三元组；

步骤3，自监督训练VAE：使用深度度量学习方法，利用三元组中隐含的表情距离信息，用三元损失自监督训练VAE；

步骤4，生成表情序列：对两张同一人的表情图片通过VAE的编码器encoder得到嵌入向量embedding，对两个embedding进行线性插值，然后通过解码器decoder对插值得到的embedding进行解码得到整个表情变化序列。

步骤1包括以下步骤：

然后通过解码器decoder将潜向量z解码为图片

其中

θ分别是编码器和解码器网络的参数，设置z的维度为100；

步骤1-2，定义重建损失为L_recon，权重因子为α，并设置为1；

步骤1-3，定义相对熵损失为L_KL，权重因子为β；

步骤1-4，在网络预训练过程中，前1000轮设置β＝0，1000-20000轮次设置β线性增长至1，每20轮次更新一次。

步骤2包括以下步骤：

步骤2-1，定义数据集中每一个视频序列为<x₁，x₂，x₃，...，x_n>；

步骤2-2，从每一个视频序列中采样出5个三元组，分别是<x_n-4，x_n-2，x_n>，<x_n-4，x_n-2，x_n>，<x_n-5，x_n-3，x_n-1>，<x_n-6，x_n-4，x_n-2>，<x_n-7，x_n-5，x_n-3>，<x_n-8，x_n-6，x_n-4>。

步骤3包括以下步骤：

步骤3-2，x_a与x_p之间的距离应当小于x_a与x_n之间的距离，即dist(z_a，z_p)＜dist(z_a，z_n)；

步骤3-3，定义三元损失函数L_tri：

L_tri＝max(dist(z_a，z_p)-dist(z_a，z_n)+m，0)，

其中m是一个超参数；

步骤3-4，重建损失和相对熵损失为三元组中每张图片产生的损失之和：

步骤3-5，训练变分自编码器VAE，使用的总损失函数L为：

L＝αL_recon3+βL_KL3+γL_tri，其中γ为三元损失函数的权重因子，三元损失越小，表明网络对表情强度的感知能力越强。

步骤4包括以下步骤：

步骤4-1，任取同一人的两张表情图片x₁和x₂，用编码器生成向量z和z₂；

步骤4-3，用解码器对这个向量序列逐个进行解码，即可生成一个表情强度连续变化的表情图片序列，完成了表情序列的生成。

实施例

本发明可以用于完整表情序列的生成，可以完成面部表情视频的插帧，可以将静态图片转换成动态视频。日常生活中，使用者拍摄的同一人的任意两种表情，都可以通过本发明提出的模型进行表情序列的生成，生成两张静态表情图片的动态变化过程。

为了验证本发明的有效性，将本发明在Oulu-CASIA数据集上进行了训练和测试，本训练集共包括80个人的6个表情序列，共480个表情序列，取72个人的432个表情序列作为训练集，取剩下8个人的24个表情序列作为测试集，其中训练集包含2160个三元组，测试集包含120个三元组。

本实施例分别从定量和定性的角度给出了本发明的实验结果。

表1

用嵌入向量embedding作为数据，训练支持向量机SVM对表情进行分类，得到无监督分类结果如表1所示。其中基线模型Baseline表示没有加入三元损失的普通VAE的分类结果，3f表示对一个序列的最后三帧进行分类，2/3f表示对一个序列的最后2/3帧进行分类。从表中可以看出，对最后三帧进行分类，我们的模型超出基线模型3.75％，对后2/3帧进行分类，本发明的模型超出基线模型9.34％，而且，从最后三帧到最后三分之二帧，极限模型精度下降了8.07％，而本发明的模型仅下降了2.48％，这说明本发明的模型具备对强度较弱的表情的感知能力。图2给出了本发明生成表情序列的视觉效果，训练的模型不仅可以从生成从无表情到其他表情的序列，还可以生成从一种表情到另一种表情的序列。

图2给出了本发明生成表情序列的视觉效果，训练的模型不仅可以从生成从无表情到其他表情的序列，还可以生成从一种表情到另一种表情的序列。

本发明提供了一种基于变分自编码器的表情序列自动生成方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于变分自编码器的表情序列自动生成方法，其特征在于，包括如下步骤：

步骤1，预训练变分自编码器VAE；

步骤4，生成表情序列。

2.根据权利要求1所述的方法，其特征在于，步骤1包括以下步骤：

然后通过解码器decoder将潜向量z解码重建为图片

其中

θ分别是编码器和解码器网络的参数，

表示从编码器采样z之后用解码器重建x得到的对数似然；

步骤1-3，定义相对熵损失为L_KL，相对熵损失的权重因子为β：

p(z)是z的先验分布；D_KL是相对熵，用于衡量任意两个概率分布p(x)，q(x)之间的距离；

步骤1-4，在网络预训练过程中，前N₁轮设置β＝0，N₁～N₂轮次设置β线性增长至1，每N₃轮次更新一次，训练损失为：αL_recon+βL_KL。

3.根据权利要求2所述的方法，其特征在于，步骤1-3中，D_KL的计算公式为：

4.根据权利要求3所述的方法，其特征在于，步骤2包括以下步骤：

步骤2-2，从每一个视频序列中按等间隔k采样出所有满足间隔条件的三元组，分别是<x_n-4，x_n-2，x_n>，<x_n-4，x_n-2，x_n>，<x_n-5，x_n-3，x_n-1>，<x_n-6，x_n-4，x_n-2>，<x_n-7，x_n-5，x_n-3>，<x_n-8，x_n-6，x_n-4>。

5.根据权利要求4所述的方法，其特征在于，步骤3包括以下步骤：

步骤3-1，对于步骤2-2中得到的每一个三元组，记为<x_a，x_p，x_n>，其中x_a表示参考帧anchor，x_p表示正帧positive，x_n表示负帧negative；定义x_a与x_p之间的距离为dist(z_a，z_p)，定义x_a与x_n之间的距离为dist(z_a，z_n)，其中z_a，z_p，z_n代表的是变分自编码器VAE将x_a，x_p，x_n用编码器编码得到的向量；

步骤3-2，x_a与x_p之间的距离小于x_a与x_n之间的距离，即dist(z_a，z_p)＜dist(z_a，z_n)；

步骤3-3，定义三元损失函数L_tri：

L_tri＝max(dist(z_a，z_p)-dist(z_a，z_n)+m，0)，

其中m是一个超参数；

步骤3-5，训练变分自编码器VAE，使用的总损失函数L为：

L＝αL_recon3+βL_KL3+γL_tri，

其中γ为三元损失函数的权重因子。

6.根据权利要求5所述的方法，其特征在于，步骤4包括：

步骤4-2，在向量z₁和z₂之间线性插值，得到一个向量序列；

步骤4-3，用解码器decoder对步骤4-2得到的向量序列逐个进行解码，生成一个表情强度连续变化的表情图片序列。