CN111460981A

CN111460981A - 一种基于重构跨域视频生成对抗网络模型的微表情识别方法

Info

Publication number: CN111460981A
Application number: CN202010237780.7A
Authority: CN
Inventors: 贲晛烨; 李梦雅; 周洪超; 翟鑫亮; 李玉军; 袁嫡伽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-28
Anticipated expiration: 2040-03-30
Also published as: CN111460981B

Abstract

本发明涉及一种基于重构跨域视频生成对抗网络模型的微表情识别方法，包括：(1)将宏表情和微表情分别分解为表情种类和身份内容；(2)将宏表情的身份内容和微表情的表情种类进行结合，得到生成的宏表情身份的微表情；将微表情的身份内容和宏表情的表情种类进行结合，得到生成的微表情身份的宏表情；(3)再次分解为表情种类和身份内容，将生成的宏表情身份的微表情分解得到的身份内容和生成的微表情身份的宏表情分解得到的表情种类进行结合，生成宏表情，将生成的微表情身份的宏表情分解得到的身份内容和生成的宏表情身份的微表情分解得到的表情种类进行结合，生成微表情；返回步骤(1)；该方法能有效的提高原始方法的微表情识别正确率。

Description

一种基于重构跨域视频生成对抗网络模型的微表情识别方法

技术领域

本发明属于模式识别以及计算机视觉技术领域，具体涉及到一种基于重构跨域视频生成对抗网络模型的微表情识别方法。

背景技术

中国自古代就有察言观色一说，《论语·颜渊》中说：“是闻也，非达也。夫达也者，质直而好义，察言而观色，虑以下人。在邦必达，在家必达。夫闻也者，色取仁而行违，居之不疑。在邦必闻，在家必闻。”告诉我们要留意观察别人的话语和神情，多揣摩别人的心意。面部表情可以告诉我们对方心里的感受，身体上的动作则可以显示感受有多强。人的沟通方式有两种，一种是言语沟通，比如面对面的谈话，发信息等；另一种是非言语沟通，主要通过人的表情、微表情、姿态、语气语调等。微表情是一种人类在试图隐藏某种情感时无意识做出的、短暂的面部表情，可以表达人们试图掩盖与隐藏的真实情感，持续周期一般在250ms～500ms之间。微表情是人类长期生存繁衍进化过程中遗传和继承下来的本能反应，基本不受思维控制。但是微表情因持续时间短、幅度弱、区域小的特点，识别率低，导致应用受限，亟待解决。

微表情在心理诊断、案件侦破、危险预警、公共安全、商业谈判、外交事务等领域都有巨大的用处。例如在心理诊断方面，可以协助心理医生诊断及治疗精神病人，确定病人所说属实，没有隐瞒病情或者想法。在案件侦破方面，心理学中“读心术”的应用，犯罪心理学家们的“犯罪侧写”，结合犯罪嫌疑人的个体性格、行为习惯，可以协助警察快速做出判断；在危险预警方面，对微表情的识别可以在谈话过程中对说话者是否说谎进行判断，可以对犯人的心理状态进行评估，判断审问结果是否真实，在公共安全方面，对机场、火车站等公共场所进行监控，分析每张脸上的微表情，对有微表情的游客进行分析是否属于潜在的危害公共安全的嫌疑人或恐怖分子；在商业谈判和外交事务方面，可以根据微表情实时更改谈判方案，帮助国家占领谈判先机。

为提高微表情的识别正确率，目前主流有以下几种改进方法，一种是可以改进现有识别方法，提高识别正确率；另一种是可以尝试生成微表情，将生成的微表情作为数据扩充样本，使训练集鲁棒性更强，提高测试集的正确率；还可以利用迁移学习，学习宏表情分类的信息，提高微表情的生成和识别效果。

人们在生成图像序列方面取得了长足的进步。2014年，Ian Goodfellow提出了原始GAN，原始GAN(Generative adversarial networks)是一类功能强大、应用广泛的神经网络。但是无法控制要生成的内容。同年，条件生成对抗网络(CGAN，Conditional GenerativeAdversarial Nets)将条件输入添加到随机噪声，将得到的矢量原样作为发生器的输入使生成的图像可以人为定义，条件可以是图像的类，对象的属性或嵌入想要生成的图像的文本描述，甚至是图片。2015年，深层卷积生成对抗网络(DCGAN，Deep ConvolutionalGenerative Adversarial Network)将CNN引入生成器和判别器，借助CNN更强的拟合与表情能力，缓解GAN的问题的同时，大大提高了生成图像的能力。2016年，VideoGAN将场景的前景与背景解开。但该模型仅限于简单的情况。2017年，WGAN(WGAN，wasserstein GAN)分析了原始GAN的问题，通过对生成样本和真实样本加噪声使得两个分布产生重叠，理论上可以解决训练不稳定。WGAN-GP引入梯度惩罚，使得GAN训练更加稳定，收敛更快，同时能够生成更高质量的样本。同年，LSGAN使用最小二乘损失函数代替了原始GAN的损失函数，让模型在训练的过程中更多的关注真实度不高的样本，缓解了GAN训练不稳定和生成图像质量差多样性不足的问题。同年，MoCoGAN试图将一系列随机向量映射到一系列帧。他们的框架将视频分解为内容子空间和动作子空间，使得视频生成过程更加可控。但它是一个无监督的生成过程，且生成的视频分辨率较低，不适合小差别图像序列的生成。2019年，BigGAN将精度作出了跨越式提升，增加参数量(增加channel)、8倍的扩大batchsize和使用截断技巧(truncation trick)是图像的背景和纹理都生成的特别逼真。然而，目前仍然很少有方法来产生具有较小差异的图像序列。

国内外研究微表情的识别方法主要分为传统方法和深度学习方法两部分。现阶段比较有代表性的传统方法有LBP-TOP、FDM、MDMO和KGSL，深度学习方法主要有TransferLearning和ECSTFR。LBP-TOP将特征提取从静态图像(XY平面)拓展到由XY、XT和YT 3个正交平面上，提取时空纹理特征。算法复杂度低，简单有效。FDM利用简单有效的基于一维直方图的策略实现预处理阶段精细的对齐，快速计算人脸动力学主方向。用从粗到细的方式提取动作，显示不同程度的面部动态，头部运动的问题可以得到缓解。同时，为微表情识别提供了物理意义上的解释。MDMO算法简单，能有效反映面部光流运动信息，特征维数较少，并且基于光流驱动的对齐方式减少了头部晃动带来的噪声影响。KGSL设计了一种由多种逐渐密集的网格组成的层次划分方案尽可能覆盖全部微表情AU区域，并学习不同权重衡量不同分块贡献。同时，提出了一种基于核化群稀疏学习模型来处理层次时空描述符，可以以多种特征描述算子为基础，具有良好的适应性。Transfer Learning采用迁移学习的方法，对ImageNet数据集上训练的RestNet10进行了微调，最后通过使用高潮帧在CASMEII和SAMM数据库上进行了微调。ECSTFR使用卷积神经网络(CNN)对处于不同表达状态的微表达的空间特征(即起始，起始到高潮的过渡，高潮，从高潮到终止的过渡和终止)进行编码。在目标函数中考虑表达状态，提高了特征表示的表达类可分离性。使用长短期记忆(LSTM)递归神经网络对微表达不同状态的时间特征进行编码。

发明内容

针对目前在生成图像序列方面没有产生具有较小差异的图像序列算法的现状，本发明提供了一种基于重构跨域视频生成对抗网络模型的微表情识别方法。

发明概述：

一种基于重构跨域视频生成对抗网络模型的微表情识别方法，首先，将宏表情和微表情进行表情种类和身份内容两部分的分解，表情种类即宏表情和微表情所属分类，例如厌恶、高兴、悲伤、惊讶等，身份内容即宏表情或微表情人员的身份信息，将所有宏表情和微表情进行人脸标记，属于同一个人的不同表情标记为相同标签，将分解后的宏表情的身份内容和微表情的表情种类进行结合生成宏表情身份的微表情动作，称之为生成的微表情，将微表情的身份内容和宏表情的表情种类进行结合生成微表情身份的宏表情动作，称之为生成的宏表情；然后，将生成的微表情再次进行分解为表情种类和身份内容，将生成的宏表情也再次进行分解为表情种类和身份内容，将生成微表情分解的身份内容和生成宏表情的表情种类进行结合，应该是原始的宏表情，将生成宏表情分解的身份内容和生成微表情的表情种类进行结合，应该是原始的微表情，通过重构控制提高微表情的清晰度和流畅度。最后，将生成的微表情视频序列进行挑选加入微表情识别方法的训练集中，可以有效地提高现有微表情深度学习算法的识别正确率。

与现有方法相比，本发明采用跨源跨域生成对抗网络的思想，利用宏表情的身份信息既可以扩充微表情数据库的多样性，又可以保持生成微表情的身份信息，利用重构的思想保证了生成的宏表情和微表情的真实性。与其它识别方法相比，本发明提出的方法既提取了身份信息，借助宏表情的脸部信息生成了更加丰富的微表情时序序列，同时引入自动控制中负反馈的思想引入重构，保证了生成信息分离彻底与完整，识别也得到了较好的结果。

术语解释：

1、生成式对抗网络：是一类功能强大、应用广泛的神经网络，是Goodfellow等在2014年提出的一种生成式模型。其核心思想来源于博弈论的纳什均衡。如图1所示，由一个生成器G和一个判别器D构成。生成器G捕捉真实数据样本的潜在分布并生成新的数据样本；判别器D是一个二判别器，判别输入是真实数据还是生成的样本。给定一组目标样本，生成器G试图生成一些能够欺骗判别器D、使判别器D相信它们是真实的样本。判别器D试图从假(生成)样本中解析真实(目标)样本。使用这种迭代训练方法，最终得到一个真正擅长生成类似于目标样本的生成器G。

2、编码器：深度学习是表征学习，即通过数据自动生成有用的表征。编码器是可以在原始数据中找到模式以生成简洁有用的表征的神经网络结构。

3、解码器：解码器是利用这些表征生成高分辨率数据的神经网络结构，所生成的数据是新示例或描述性知识。

4、生成器：生成式对抗网络中捕捉真实数据样本的潜在分布并生成新的数据样本的神经网络结构。

5、判别器：生成式对抗网络中判别输入是真实数据还是生成样本的神经网络结构。

6、损失函数：损失函数是用来评估模型的预测值-f(x)与真实值-y的不一致程度，损失函数越小，代表模型的鲁棒性越好，损失函数能指导模型学习。

本发明的技术方案如下：

一种基于重构跨域视频生成对抗网络模型的微表情识别方法，包括步骤如下：

A、循环执行步骤(1)-步骤(3)12000-240000次；并且每循环执行步骤(1)-步骤(3)n次，保存步骤(2)生成的宏表情身份的微表情；

(1)将宏表情和微表情分别分解为表情种类和身份内容，所述表情种类即表情的标签信息，是指宏表情或微表情所属分类，例如厌恶、高兴、悲伤、惊讶等，所述身份内容即身份的标签信息，是指宏表情或微表情对应的人的身份信息，即同一张面部图像标为同一个标签，每人一个标签标号；通过图像分类器和视频分类器损失函数的迭代下降得到表情和身份的准确信息。

(2)将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合，生成宏表情身份的微表情动作，称之为生成的宏表情身份的微表情；将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合，生成微表情身份的宏表情动作，称之为生成的微表情身份的宏表情；

(3)将步骤(2)所述生成的宏表情身份的微表情再次分解为表情种类和身份内容，将所述生成的微表情身份的宏表情也再次分解为表情种类和身份内容，将所述生成的宏表情身份的微表情分解得到的身份内容和所述生成的微表情身份的宏表情分解得到的表情种类进行结合，生成宏表情，原理上应该与原始的宏表情无限接近，将所述生成的微表情身份的宏表情分解得到的身份内容和所述生成的宏表情身份的微表情分解得到的表情种类进行结合，生成微表情；返回步骤(1)；原理上应该与原始的微表情无限接近；通过重构方法的损失函数下降使生成的宏表情和微表情与原始的宏表情微表情越来越相似，从而控制提高微表情的清晰度和流畅度。

B、从步骤A保存的所有宏表情身份的微表情中进行人工挑选，将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中，进行微表情的识别。挑选出的宏表情身份的微表情质量较高，即动作流畅且表情比较清晰，该方法能有效的提高原始方法的微表情识别正确率。

根据本发明优选的，所述重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器，两个表情编码器包括宏表情表情编码器和微表情表情编码器；两个身份编码器包括宏表情身份编码器和微表情身份编码器；四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器；四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器；两个视频判别器包括宏表情视频判别器和微表情视频判别器；

所述宏表情表情编码器和所述微表情表情编码器结构相同，均包括八个部分，第一部分到第六部分结构相同，均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层，第七部分是一个Linear层，第八部分是一个LSTM网络；

宏表情表情编码器和微表情表情编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列，输出维度为(64*5*128)。

所述宏表情身份编码器和微表情身份编码器结构相同，均包括七个部分，第一部分到第六部分结构相同，均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层，第七部分是一个Linear层；

宏表情身份编码器和微表情身份编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列，输出维度为(320*128)。

所述宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器结构相同，均包括七个部分，第一部分到第六部分结构相同，均包括一个二维反卷积层、一个BatchNorm2d层及一个RELU层，第七部分包含一个二维反卷积层和一个Tanh层；

宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器的输入为表情编码器和身份编码器输出的级联，即携带表情和内容信息维度为(320*512)的张量，输出为(320*3*128*128)的张量；

所述宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器结构相同，均包括五部分，第一部分到第四部分结构相同，均包括一个二维卷积层和一个LeakyReLU层，第五部分包括一个二维卷积层；

宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器输入为(16*3*128*128)的张量，输出为(320*5*5)的张量；

所述宏表情视频判别器和微表情视频判别器结构相同，均包括五部分，第一部分到第四部分结构相同，均包括一个三维卷积层和一个LeakyReLU层，第五部分包括一个三维卷积层；

宏表情视频判别器和微表情视频判别器输入为(16*3*128*128)的张量，输出为(20*5*5)的张量视频。

根据本发明优选的，所述步骤(1)中，将宏表情分解为表情种类和身份内容，定义宏表情的宏表情序列为Y_k，Y_k＝(y₁,y₂,...,y_k)，y₁,y₂,...,y_k表示宏表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，表情类标签即表情的标签信息，身份类标签即身份的标签信息，设定第k个图片y_k的表情类标签为i，记为y_k,i＝1，共n类表情，设定第k个图片y_k的身份类标签为j，记为y_k,j＝1，共m个身份；定义宏表情表情编码器

的输出为

宏表情身份编码器

的输出为

包括步骤如下：

将宏表情的宏表情序列输入所述宏表情表情编码器，将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器，将宏表情分解为表情种类；将宏表情的宏表情序列输入所述宏表情身份编码器，将所述宏表情身份编码器的输出输入宏表情身份图像判别器，将宏表情分解为身份内容；

所述宏表情表情图像判别器的损失函数为：

式(I)中，p(y_i)是宏表情表情样本的真实分布，q(y_i)为宏表情表情编码器输出后输入宏表情表情图像判别器预测的分布；

所述宏表情身份图像判别器的损失函数为：

式(Ⅱ)中，p(y_j)是宏表情身份样本的真实分布，q(y_j)为宏表情身份编码器输出后输入宏表情身份图像判别器预测的分布。

根据本发明优选的，所述步骤(1)中，将微表情分解为表情种类和身份内容，定义微表情的微表情序列为X_k，X_k＝(x₁,x₂,...,x_k)，x₁,x₂,...,x_k表示微表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，设定第k个图片x_k的表情类标签为i的话，记为x_k,i＝1，共n类表情，设定第k个图片x_k的身份类标签为j的话，记为x_k，j＝1，共m个身份，定义微表情的表情编码器

的输出为

微表情的身份编码器

的输出为

包括步骤如下：

将微表情的微表情序列输入所述微表情表情编码器，将所述微表情表情编码器的输出输入所述微表情表情图像判别器，将微表情分解为表情种类；将微表情的微表情序列输入所述微表情身份编码器，将所述微表情身份编码器的输出输入微表情身份图像判别器，将微表情分解为身份内容；

所述微表情表情图像判别器的损失函数为：

式(III)中p(x_i)是微表情表情样本的真实分布，q(x_i)为微表情表情编码器输出后输入微表情表情图像判别器预测的分布；

所述微表情身份图像判别器的损失函数为：

式(Ⅳ)中p(x_j)是微表情身份样本的真实分布，q(x_j)为微表情身份编码器输出后输入微表情身份图像判别器预测的分布。

根据本发明优选的，所述步骤(2)中，将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合，使用宏表情视频生成器生成微表情身份的宏表情动作，称之为生成的微表情身份的宏表情，包括步骤如下：

定义I_XY为微表情身份编码器的输出

和宏表情表情编码器输出的

级联，如式(Ⅴ)所示：

宏表情视频生成器G_xy利用I_XY生成以微表情的身份内容和宏表情的表情种类为基础的图像序列，定义生成的宏表情的视频序列为

序列中每一张图片由

表示，

宏表情视频生成器和宏表情表情图像判别器的损失函数如式(Ⅵ)所示：

宏表情视频生成器和宏表情身份图像判别器的损失函数如式(Ⅶ)所示：

式(Ⅵ)和(Ⅶ)中，i为表情类别标签，此处为宏表情的表情类别标签，j为身份类标签，此处为微表情身份类标签，即每个人的人脸编号，G_xy(I_XY|i)表示宏表情视频生成器根据I_XY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像，即带有表情类标签的

D_i1(G_xy(I_XY|i))为带有表情类标签的

输入宏表情表情图像判别器的输出，D_i1(y_k|i)为带有表情类标签的y_k输入宏表情表情图像判别器的输出；G_xy(I_XY|j)表示宏表情视频生成器，根据I_XY在j的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像，即带有身份类标签的

D_i2(G_xy(I_XY|j))为带有身份类标签的

输入宏表情身份图像判别器的输出，D_i2(y_k|j)为带有身份类标签的y_k输入宏表情身份图像判别器的输出；x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即宏表情表情图像判别器和宏表情身份图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即宏表情表情图像判别器和宏表情身份图像判别器卷积目标生成的表情序列的输出；

宏表情视频生成器和宏表情视频判别器的损失函数如式(Ⅷ)所示：

式(Ⅷ)中，i为宏表情的表情类别标签，G_xy(I_XY|i)表示宏表情视频生成器根据I_XY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频，即

D_v1(G_xy(I_XY|i))为带有表情类标签的

输入宏表情视频判别器的输出，D_v1(Y_k|i)为带有表情类标签的Y_k输入宏表情视频判别器的输出。

根据本发明优选的，所述步骤(2)中，将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合，使用微表情视频生成器生成宏表情身份的微表情动作，称之为生成的宏表情身份的微表情；包括步骤如下：

定义I_YX为宏表情的身份编码器的输出

和微表情的表情编码器输出的

级联，如式(Ⅸ)所示：

微表情视频生成器G_vyx利用I_YX生成以微表情的身份内容和宏表情的表情种类为基础的图像序列，定义为生成的微表情的序列为

微表情序列

中每一张图片包括

微表情视频生成器和微表情表情图像判别器的损失函数如式(Ⅹ)所示：

微表情视频生成器和微表情身份图像判别器的损失函数如式(Ⅺ)所示，

式(Ⅹ)和(Ⅺ)中，i为表情类别标签，此处为微表情的表情类别标签，j为身份类别标签，此处为宏表情身份类别标签，即每个人的人脸编号，G_yx(I_YX|i)表示微表情视频生成器根据I_YX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频，即带有表情类标签的

D_i3(G_yx(I_YX|i))为带有表情类标签的

输入微表情表情图像判别器的输出，D_i3(x_k|i)为带有表情类标签的x_k输入微表情表情图像判别器的输出；G_yx(I_YX|j)表示微表情视频生成器根据I_YX在j的条件下的概率分布生成的以宏表情的身份内容和为微表情的表情种类为基础的视频，即

_i4(G_yx(I_YX|j))为带有身份类标签的

输入微表情身份图像判别器的输出，D_i4(x_k|j)为带有内容类标签的x_k输入微表情身份图像判别器的输出，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出；

微表情视频生成器和微表情视频判别器的损失函数如式(XII)所示：

式(XII)中，i为宏表情的表情类别标签，G_yx(I_YX|i)表示微表情视频生成器，根据I_YX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频，即

D_v2(G_yx(I_YX|i))为带有表情类标签的

输入微表情视频判别器的输出，D_v2(X_k|i)为带有表情类标签的X_k输入微表情视频判别器的输出。

根据本发明优选的，所述步骤(3)中，包括步骤如下：

C、将生成的微表情身份的宏表情

再次进行分解：将生成的微表情身份的宏表情

输入所述宏表情身份编码器，将所述宏表情身份编码器的输出输入所述宏表情身份图像判别器，得到微表情身份信息

将生成的微表情身份的宏表情

输入所述宏表情表情编码器，将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器，得到宏表情表情信息

同时，将生成的宏表情身份的微表情

再次进行分解：将生成的宏表情身份的微表情

输入所述微表情身份编码器，将所述微表情身份编码器的输出输入所述微表情身份图像判别器，得到宏身份信息

将生成的宏表情身份的微表情

输入所述微表情表情编码器，将所述微表情表情编码器的输出输入所述微表情表情图像判别器，得到微表情表情信息

D、将

分解后得到的宏表情脸部表情信息

和

分解后得到的宏表情脸部表情信息

级联后进行重构，如式(XIII)所示：

E、定义重构宏表情视频生成器G_yy，将I_YY输入所述重构宏表情视频生成器G_yy，生成宏表情视频序列Y_kf，将宏表情视频分帧为y_1f,y_2f,...,y_kf，真实的宏表情视频Y_k，分帧为y₁,y₂,...,y_k表示，分帧如式(XIV)所示：

Y_kf＝(y_1f,y_2f,...,y_kf) (XIV)

F、宏表情视频生成器G_yy通过迭代中损失函数(XV)的下降使步骤E中生成宏表情视频的分帧图像中人脸与真实的宏表情视频的运动更加相似，当宏表情表情图像判别器D_i1、宏表情身份图像判别器D_i2、宏表情视频判别器D_v1无法判别真假时，证明我们生成的以微表情身份信息和宏表情表情信息为基础的图像序列，即宏表情可用；

重构宏表情视频生成器和宏表情表情图像判别器的损失函数如式(XV)和(XVI)所示：

重构宏表情视频生成器和宏表情身份图像判别器的损失函数如式(XVII)所示：

重构宏表情视频生成器和宏表情视频判别器的损失函数如式(XVIII)所示：

式(XV)、(XVI)、(XVII)和(XVIII)中，y_k为真实宏表情图片，y_kf为重构宏表情生成器生成的宏表情视频分帧后的图片，Y_k为真实宏表情视频，Y_kf为重构宏表情生成器生成的宏表情视频，i为表情类标签，此处为宏表情的表情类标签，j为身份类标签，此处为宏表情身份类标签，即每个人的人脸编号，G_yy(I_YY|i)表示宏表情视频生成器根据I_YY在i的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频，即带有表情类标签的y_kf，D_i1(G_yy(I_YY|i))为带有表情类标签的y_kf输入宏表情表情图像判别器的输出，D_i1(y_k|i)为带有表情类标签的y_k输入宏表情表情图像判别器的输出，G_yy(I_YY|j)表示宏表情视频生成器根据I_YY在j的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频，即带有表情类标签的y_kf，D_i2(G_yy(I_YY|j))为带有身份类标签的y_kf输入宏表情身份图像判别器的输出，D_i2(y_k|j)为带有身份类标签的y_k输入宏表情身份图像判别器的输出，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出；

G、将

分解后得到的微表情脸部表情信息

和

分解后得到的微表情脸部表情信息

级联后进行重构，如式(XIX)所示，

H、定义重构微表情视频生成器G_xx，将I_XX输入重构微表情视频生成器G_xx，生成微表情视频序列X_kf，将微表情视频分帧为x_1f,x_2f,...,x_kf，真实的微表情序列X_k，分帧为x₁,x₂,...,x_k表示，如式(XX)所示：

X_kf＝(x_1f,x_2f,...,x_kf) (XX)

I、微表情视频生成器G_xx通过迭代中损失函数(XXI)的下降使步骤H中生成微表情视频的分帧图像中人脸与真实的微表情视频的运动更加相似，当微表情表情图像判别器D_i3，微表情身份图像判别器D_i4及微表情视频判别器D_v2无法判别真假时，证明我们生成的以宏表情身份内容和微表情表情信息为基础的图像序列，即微表情可用；

重构微表情视频生成器和微表情表情图像判别器的损失函数如式(XXI)和(XXII)：

重构微表情视频生成器和微表情表情身份判别器的损失函数如式(XXIII)：

重构微表情视频生成器和微表情视频判别器的损失函数如式(XXⅣ)：

式(XXI)、(XXII)、(XXIII)和(XXⅣ)中，x_k为真实宏表情图片，x_kf为重构微表情生成器生成的微表情视频分帧后的图片，X_k为真实宏表情视频，X_kf为重构微表情生成器生成的微表情视频，i为表情类标签，此处为宏表情的表情类标签，j为身份类标签，此处为宏表情身份类标签，即每个人的人脸编号，G_xx(I_XX|i)表示微表情视频生成器根据I_XX在i的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频，即带有表情类标签的x_kf，D_i3(G_xx(I_XX|i))为带有表情类标签的x_kf输入微表情表情图像判别器的输出，D_i3(x_k|i)为带有表情类标签的x_k输入微表情表情图像判别器的输出，G_xx(I_XX|j)表示微表情视频生成器根据I_XX在j的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频，即带有表情类标签的x_kf，D_i4(G_xx(I_XX|j))为带有身份类标签的x_kf输入微表情身份图像判别器的输出，D_i4(x_k|j)为带有身份类标签的x_k输入微表情身份图像判别器的输出，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即微表情表情判别器和微表情身份图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即微表情表情判别器和微表情身份图像判别器卷积目标生成的表情序列的输出。

根据本发明优选的，所述微表情识别模型为ResNet10、Transfer Learning或ECSTFR。

根据本发明优选的，10≤n≤100。

本发明的有益效果为：

本发明基于目前细微图像序列生成领域方法较少的现状，针对微表情的生成提出了一种基于重构跨域视频生成对抗网络模型的微表情识别方法，生成了脸部图像清晰、微表情动作连续、与原始微表情AU单元运动相似的微表情视频序列，然后将生成的微表情作为数据增强的样本加入训练集中，有效提高了微表情的识别正确率。

附图说明

图1为生成式对抗网络的结构示意图；

图2为本发明一种基于重构跨域视频生成对抗网络模型的微表情识别方法的流程框架示意图；

图3为本发明一种基于重构跨域视频生成对抗网络模型的微表情识别方法的流程示意图；

图4(a)为生成表情视频与稀疏光流展示图一；

图4(b)为生成表情视频与稀疏光流展示图二；

图4(c)为生成表情视频与稀疏光流展示图三；

图4(d)为生成表情视频与稀疏光流展示图四。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于重构跨域视频生成对抗网络模型的微表情识别方法，如图2及图3所示，重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器，两个表情编码器包括宏表情表情编码器和微表情表情编码器；两个身份编码器包括宏表情身份编码器和微表情身份编码器；四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器；四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器；两个视频判别器包括宏表情视频判别器和微表情视频判别器；

宏表情表情编码器和微表情表情编码器结构相同，均包括八个部分，第一部分到第六部分结构相同，均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层，第七部分是一个Linear层，第八部分是一个LSTM网络；宏表情表情编码器和微表情表情编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列，输出维度为(64*5*128)。

宏表情身份编码器和微表情身份编码器结构相同，均包括七个部分，第一部分到第六部分结构相同，均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层，第七部分是一个Linear层；宏表情身份编码器和微表情身份编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列，输出维度为(320*128)。

宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器结构相同，均包括七个部分，第一部分到第六部分结构相同，均包括一个二维反卷积层、一个BatchNorm2d层及一个RELU层，第七部分包含一个二维反卷积层和一个Tanh层；宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器的输入为表情编码器和身份编码器输出的级联，即携带表情和内容信息维度为(320*512)的张量，输出为(320*3*128*128)的张量；

宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器结构相同，均包括五部分，第一部分到第四部分结构相同，均包括一个二维卷积层和一个LeakyReLU层，第五部分包括一个二维卷积层；宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器输入为(16*3*128*128)的张量，输出为(320*5*5)的张量；

宏表情视频判别器和微表情视频判别器结构相同，均包括五部分，第一部分到第四部分结构相同，均包括一个三维卷积层和一个LeakyReLU层，第五部分包括一个三维卷积层；宏表情视频判别器和微表情视频判别器输入为(16*3*128*128)的张量，输出为(20*5*5)的张量视频。包括步骤如下：

(1)数据库预处理：本实施例采用两组数据库，CASME II和CK+。CASME II(ChineseAcademy of Sciences Micro-Expression)数据库是2014年由中国科学院心理研究所的傅小兰团队在严格的实验环境和适当的光照条件下获得的微表情数据库，时间分辨率为200fps，空间分辨率在人脸部分为280*340，共247个微表情片段。CK+宏表情数据库[50]，是在Cohn-Kanade Dataset的基础上扩展来的，发布于2010年。这个数据库比起JAFFE要大的多。而且可以免费获取，包含表情的标签和AU单元的标签。这个数据库包括593个图像序列，每个图像序列的最后一帧都有AU单元的标签。预处理包括视频分帧、人脸定位、人脸对齐、人脸切割、TIM插值。

①视频分帧：通过视频解码得到视频序列；

②人脸定位：人脸定位采用的是特征点检测，采用的方法是回归局部二元特征方法提取微表情的68个人脸特征点；

③人脸对齐：利用眼睛和鼻子这三个特征点进行全局人脸对齐，将图片按比例进行水平校正和缩放，使所有图片的眼睛和鼻子这三个特征点位于同一水平线的相同大小位置；

④人脸切割：将对齐后的人脸按一定比例进行切割，以黑边补全旋转的空白位置只保留人脸，去掉背景等冗余信息；

⑤TIM插值：将从视频帧中提取的视觉特征映射到由一组三角函数控制的低维连续曲线，还可以将曲线投影回图像空间以进行时间插值；通过TIM算法将CASME II和CK+数据集中的表情序列插值为16帧256*256大小，统一训练集，将数据库中的微表情随机分成五份，取其中的四份作为训练集输入基于表情、内容分解和重构的表情迁移的微表情生成模型网络；

A、循环执行步骤(1)-步骤(3)12000次；并且每循环执行步骤(1)-步骤(3)10次，保存步骤(2)生成的宏表情身份的微表情；因生成器和判别器训练不同步协调，生成的视频质量较差时，判别器训练已经较强，故当迭代次数小于等于100时，采用生成器训练50次，判别器训练1次的参数设置方法。当迭代次数大于100时，故采用生成器训练10次，判别器训练1次的参数设置方法。

(2)将宏表情和微表情分别分解为表情种类(表情信息)和身份内容(身份信息)，所述表情种类即表情的标签信息，是指宏表情或微表情所属分类，例如厌恶、高兴、悲伤、惊讶等，所述身份内容即身份的标签信息，是指宏表情或微表情对应的人的身份信息，即同一张面部图像标为同一个标签，每人一个标签标号；通过图像分类器和视频分类器损失函数的迭代下降得到表情和身份的准确信息。

(3)将步骤(2)分解后的宏表情的身份内容和微表情的表情种类进行结合，生成宏表情身份的微表情动作，称之为生成的宏表情身份的微表情；将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合，生成微表情身份的宏表情动作，称之为生成的微表情身份的宏表情；

(4)将步骤(3)生成的宏表情身份的微表情再次分解为表情种类和身份内容，将生成的微表情身份的宏表情也再次分解为表情种类和身份内容，将生成的宏表情身份的微表情分解得到的身份内容和生成的微表情身份的宏表情分解得到的表情种类进行结合，生成宏表情，原理上应该与原始的宏表情无限接近，将生成的微表情身份的宏表情分解得到的身份内容和生成的宏表情身份的微表情分解得到的表情种类进行结合，生成微表情；

返回步骤(2)；原理上应该与原始的微表情无限接近；通过重构方法的损失函数下降使生成的宏表情和微表情与原始的宏表情微表情越来越相似，从而控制提高微表情的清晰度和流畅度。

B、从步骤(2)保存的所有宏表情身份的微表情中进行人工挑选，将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中，图4(a)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图一；图4(b)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图二；图4(c)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图三；图4(d)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图四；图4(a)、图4(b)、图4(c)、图4(d)中，第一行的图片为原始的生成图片序列，因微表情动作微小，肉眼难以看出，第一行的图片为对应的标出的稀疏光流图，进行微表情的识别。挑选出的宏表情身份的微表情质量较高，即动作流畅且表情比较清晰，该方法能有效的提高原始方法的微表情识别正确率。

实施例2

根据实施例1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法，其区别在于：

步骤(2)中，将宏表情分解为表情种类和身份内容，定义宏表情的宏表情序列为Y_k，Y_k＝(y₁,y₂,...,y_k)，y₁,y₂,...,y_k表示宏表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，表情类标签即表情的标签信息，身份类标签即身份的标签信息，设定第k个图片y_k的表情类标签为i，记为y_k,i＝1，共n类表情，设定第k个图片y_k的身份类标签为j，记为y_k,j＝1，共m个身份；定义宏表情表情编码器

的输出为

宏表情身份编码器

的输出为

包括步骤如下：

将宏表情的宏表情序列输入宏表情表情编码器，将宏表情表情编码器的输出输入宏表情表情图像判别器，将宏表情分解为表情种类；将宏表情的宏表情序列输入所述宏表情身份编码器，将所述宏表情身份编码器的输出输入宏表情身份图像判别器，将宏表情分解为身份内容；

宏表情表情图像判别器的损失函数为：

宏表情身份图像判别器的损失函数为：

步骤(2)中，将微表情分解为表情种类和身份内容，定义微表情的微表情序列为X_k，X_k＝(x₁,x₂,...,x_k)，x₁,x₂,...,x_k表示微表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，设定第k个图片x_k的表情类标签为i的话，记为x_k,i＝1，共n类表情，设定第k个图片x_k的身份类标签为j的话，记为x_k,j＝1，共m个身份，定义微表情的表情编码器

的输出为

微表情的身份编码器

的输出为

包括步骤如下：

将微表情的微表情序列输入微表情表情编码器，将微表情表情编码器的输出输入微表情表情图像判别器，将微表情分解为表情种类；将微表情的微表情序列输入微表情身份编码器，将微表情身份编码器的输出输入微表情身份图像判别器，将微表情分解为身份内容；

微表情表情图像判别器的损失函数为：

微表情身份图像判别器的损失函数为：

步骤(3)中，将步骤(2)分解后的微表情的身份内容和宏表情的表情种类进行结合，使用宏表情视频生成器生成微表情身份的宏表情动作，称之为生成的微表情身份的宏表情，包括步骤如下：

定义I_XY为微表情身份编码器的输出

和宏表情表情编码器输出的

级联，如式(Ⅴ)所示：

序列中每一张图片由

表示，

D_i1(G_xy(I_XY|i))为带有表情类标签的

D_i2(G_xy(I_XY|j))为带有身份类标签的

D_v1(G_xy(I_XY|i))为带有表情类标签的

步骤(3)中，将步骤(2)分解后的宏表情的身份内容和微表情的表情种类进行结合，使用微表情视频生成器生成宏表情身份的微表情动作，称之为生成的宏表情身份的微表情；包括步骤如下：

定义I_YX为宏表情的身份编码器的输出

和微表情的表情编码器输出的

级联，如式(Ⅸ)所示：

微表情序列

中每一张图片包括

D_i3(G_yx(I_YX|i))为带有表情类标签的

D_i4(G_yx(I_YX|j))为带有身份类标签的

D_v2(G_yx(I_YX|i))为带有表情类标签的

步骤(4)中，包括步骤如下：

C、将生成的微表情身份的宏表情

再次进行分解：将生成的微表情身份的宏表情

将生成的微表情身份的宏表情

同时，将生成的宏表情身份的微表情

再次进行分解：将生成的宏表情身份的微表情

将生成的宏表情身份的微表情

D、将

分解后得到的宏表情脸部表情信息

和

分解后得到的宏表情脸部表情信息

级联后进行重构，如式(XIII)所示：

Y_kf＝(y_1f,y_2f,...,y_kf) (XIV)

G、将

分解后得到的微表情脸部表情信息

和

分解后得到的微表情脸部表情信息

级联后进行重构，如式(XIX)所示，

X_kf＝(x_1f,x_2f,...,x_kf) (XX)

微表情识别模型为ResNet10、Transfer Learning或ECSTFR。

以CASME II数据库为例，将生成算法生成的微表情进行挑选，加入微表情分类算法的训练集中，通过数据增强能提高识别率的方法，验证CASME II数据库生成微表情的真实性、流畅性和有效性。

为了增加微表情识别的对比性，增加了一个ResNet10网络作为微表情识别深度学习网络的基准，将生成微表情进行挑选，选出质量较好的与原始训练集相同数量的微表情样本，将这些样本加入训练集后的识别效果。为保证迁移实验的准确迁移，宏表情和微表情均采用厌恶、害怕、开心、伤心和惊讶5类进行实验。为保证实验条件的一致性，其它微表情识别实验也采用厌恶、害怕、开心、伤心和惊讶5类进行实验。本实验所有结果均采用五折的方式得到结果，如表1所示：

表1

实验结果显示，一种基于重构跨域视频生成对抗网络模型的微表情识别方法生成的微表情样本与真实微表情AU单元运动相似度极高，通过将生成的样本作为数据增强的样本加入到微表情识别的训练数据集中，证明本方法生成的微表情样本质量高，实用性较强。

Claims

1.一种基于重构跨域视频生成对抗网络模型的微表情识别方法，其特征在于，包括步骤如下：

A、循环执行步骤(1)-步骤(3)12000-240000次；并且每循环执行步骤(1)-步骤(3)n次保存步骤(2)生成的宏表情身份的微表情；

(1)将宏表情和微表情分别分解为表情种类和身份内容，所述表情种类即表情的标签信息，是指宏表情或微表情所属分类，所述身份内容即身份的标签信息，是指宏表情或微表情对应的人的身份信息，即同一张面部图像标为同一个标签，每人一个标签标号；

(3)将步骤(2)所述生成的宏表情身份的微表情再次分解为表情种类和身份内容，将所述生成的微表情身份的宏表情也再次分解为表情种类和身份内容，将所述生成的宏表情身份的微表情分解得到的身份内容和所述生成的微表情身份的宏表情分解得到的表情种类进行结合，生成宏表情，将所述生成的微表情身份的宏表情分解得到的身份内容和所述生成的宏表情身份的微表情分解得到的表情种类进行结合，生成微表情；返回步骤(1)；

B、从步骤(1)保存的所有宏表情身份的微表情中进行人工挑选，将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中，进行微表情的识别。

2.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法，其特征在于，所述重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器，两个表情编码器包括宏表情表情编码器和微表情表情编码器；两个身份编码器包括宏表情身份编码器和微表情身份编码器；四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器；四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器；两个视频判别器包括宏表情视频判别器和微表情视频判别器；

所述宏表情视频判别器和微表情视频判别器结构相同，均包括五部分，第一部分到第四部分结构相同，均包括一个三维卷积层和一个LeakyReLU层，第五部分包括一个三维卷积层。

3.根据权利要求2所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法，其特征在于，所述步骤(1)中，将宏表情分解为表情种类和身份内容，定义宏表情的宏表情序列为Y_k，Y_k＝(y₁,y₂,...,y_k)，y₁,y₂,...,y_k表示宏表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，表情类标签即表情的标签信息，身份类标签即身份的标签信息，设定第k个图片y_k的表情类标签为i，记为y_k,i＝1，共n类表情，设定第k个图片y_k的身份类标签为j，记为y_k,j＝1，共m个身份；定义宏表情表情编码器

的输出为

宏表情身份编码器

的输出为

包括步骤如下：

所述宏表情表情图像判别器的损失函数为：

所述宏表情身份图像判别器的损失函数为：

4.根据权利要求2所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法，其特征在于，所述步骤(1)中，将微表情分解为表情种类和身份内容，定义微表情的微表情序列为X_k，X_k＝(x₁,x₂,...,x_k)，x₁,x₂,...,x_k表示微表情序列中的每一张图片，k表示表情序列中图片的总张数，每一张图片有两个标签，包括表情类标签和身份类标签，设定第k个图片x_k的表情类标签为i的话，记为x_k,i＝1，共n类表情，设定第k个图片x_k的身份类标签为j的话，记为x_k,j＝1，共m个身份，定义微表情的表情编码器