CN111460981B - 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 - Google Patents

一种基于重构跨域视频生成对抗网络模型的微表情识别方法 Download PDF

Info

Publication number
CN111460981B
CN111460981B CN202010237780.7A CN202010237780A CN111460981B CN 111460981 B CN111460981 B CN 111460981B CN 202010237780 A CN202010237780 A CN 202010237780A CN 111460981 B CN111460981 B CN 111460981B
Authority
CN
China
Prior art keywords
expression
micro
macro
identity
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010237780.7A
Other languages
English (en)
Other versions
CN111460981A (zh
Inventor
贲晛烨
李梦雅
周洪超
翟鑫亮
李玉军
袁嫡伽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010237780.7A priority Critical patent/CN111460981B/zh
Publication of CN111460981A publication Critical patent/CN111460981A/zh
Application granted granted Critical
Publication of CN111460981B publication Critical patent/CN111460981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于重构跨域视频生成对抗网络模型的微表情识别方法,包括:(1)将宏表情和微表情分别分解为表情种类和身份内容;(2)将宏表情的身份内容和微表情的表情种类进行结合,得到生成的宏表情身份的微表情;将微表情的身份内容和宏表情的表情种类进行结合,得到生成的微表情身份的宏表情;(3)再次分解为表情种类和身份内容,将生成的宏表情身份的微表情分解得到的身份内容和生成的微表情身份的宏表情分解得到的表情种类进行结合,生成宏表情,将生成的微表情身份的宏表情分解得到的身份内容和生成的宏表情身份的微表情分解得到的表情种类进行结合,生成微表情;返回步骤(1);该方法能有效的提高原始方法的微表情识别正确率。

Description

一种基于重构跨域视频生成对抗网络模型的微表情识别方法
技术领域
本发明属于模式识别以及计算机视觉技术领域,具体涉及到一种基于重构跨域视频生成对抗网络模型的微表情识别方法。
背景技术
中国自古代就有察言观色一说,《论语·颜渊》中说:“是闻也,非达也。夫达也者,质直而好义,察言而观色,虑以下人。在邦必达,在家必达。夫闻也者,色取仁而行违,居之不疑。在邦必闻,在家必闻。”告诉我们要留意观察别人的话语和神情,多揣摩别人的心意。面部表情可以告诉我们对方心里的感受,身体上的动作则可以显示感受有多强。人的沟通方式有两种,一种是言语沟通,比如面对面的谈话,发信息等;另一种是非言语沟通,主要通过人的表情、微表情、姿态、语气语调等。微表情是一种人类在试图隐藏某种情感时无意识做出的、短暂的面部表情,可以表达人们试图掩盖与隐藏的真实情感,持续周期一般在250ms~500ms之间。微表情是人类长期生存繁衍进化过程中遗传和继承下来的本能反应,基本不受思维控制。但是微表情因持续时间短、幅度弱、区域小的特点,识别率低,导致应用受限,亟待解决。
微表情在心理诊断、案件侦破、危险预警、公共安全、商业谈判、外交事务等领域都有巨大的用处。例如在心理诊断方面,可以协助心理医生诊断及治疗精神病人,确定病人所说属实,没有隐瞒病情或者想法。在案件侦破方面,心理学中“读心术”的应用,犯罪心理学家们的“犯罪侧写”,结合犯罪嫌疑人的个体性格、行为习惯,可以协助警察快速做出判断;在危险预警方面,对微表情的识别可以在谈话过程中对说话者是否说谎进行判断,可以对犯人的心理状态进行评估,判断审问结果是否真实,在公共安全方面,对机场、火车站等公共场所进行监控,分析每张脸上的微表情,对有微表情的游客进行分析是否属于潜在的危害公共安全的嫌疑人或恐怖分子;在商业谈判和外交事务方面,可以根据微表情实时更改谈判方案,帮助国家占领谈判先机。
为提高微表情的识别正确率,目前主流有以下几种改进方法,一种是可以改进现有识别方法,提高识别正确率;另一种是可以尝试生成微表情,将生成的微表情作为数据扩充样本,使训练集鲁棒性更强,提高测试集的正确率;还可以利用迁移学习,学习宏表情分类的信息,提高微表情的生成和识别效果。
人们在生成图像序列方面取得了长足的进步。2014年,Ian Goodfellow提出了原始GAN,原始GAN(Generative adversarial networks)是一类功能强大、应用广泛的神经网络。但是无法控制要生成的内容。同年,条件生成对抗网络(CGAN,Conditional GenerativeAdversarial Nets)将条件输入添加到随机噪声,将得到的矢量原样作为发生器的输入使生成的图像可以人为定义,条件可以是图像的类,对象的属性或嵌入想要生成的图像的文本描述,甚至是图片。2015年,深层卷积生成对抗网络(DCGAN,Deep ConvolutionalGenerative Adversarial Network)将CNN引入生成器和判别器,借助CNN更强的拟合与表情能力,缓解GAN的问题的同时,大大提高了生成图像的能力。2016年,VideoGAN将场景的前景与背景解开。但该模型仅限于简单的情况。2017年,WGAN(WGAN,wasserstein GAN)分析了原始GAN的问题,通过对生成样本和真实样本加噪声使得两个分布产生重叠,理论上可以解决训练不稳定。WGAN-GP引入梯度惩罚,使得GAN训练更加稳定,收敛更快,同时能够生成更高质量的样本。同年,LSGAN使用最小二乘损失函数代替了原始GAN的损失函数,让模型在训练的过程中更多的关注真实度不高的样本,缓解了GAN训练不稳定和生成图像质量差多样性不足的问题。同年,MoCoGAN试图将一系列随机向量映射到一系列帧。他们的框架将视频分解为内容子空间和动作子空间,使得视频生成过程更加可控。但它是一个无监督的生成过程,且生成的视频分辨率较低,不适合小差别图像序列的生成。2019年,BigGAN将精度作出了跨越式提升,增加参数量(增加channel)、8倍的扩大batchsize和使用截断技巧(truncation trick)是图像的背景和纹理都生成的特别逼真。然而,目前仍然很少有方法来产生具有较小差异的图像序列。
国内外研究微表情的识别方法主要分为传统方法和深度学习方法两部分。现阶段比较有代表性的传统方法有LBP-TOP、FDM、MDMO和KGSL,深度学习方法主要有TransferLearning和ECSTFR。LBP-TOP将特征提取从静态图像(XY平面)拓展到由XY、XT和YT 3个正交平面上,提取时空纹理特征。算法复杂度低,简单有效。FDM利用简单有效的基于一维直方图的策略实现预处理阶段精细的对齐,快速计算人脸动力学主方向。用从粗到细的方式提取动作,显示不同程度的面部动态,头部运动的问题可以得到缓解。同时,为微表情识别提供了物理意义上的解释。MDMO算法简单,能有效反映面部光流运动信息,特征维数较少,并且基于光流驱动的对齐方式减少了头部晃动带来的噪声影响。KGSL设计了一种由多种逐渐密集的网格组成的层次划分方案尽可能覆盖全部微表情AU区域,并学习不同权重衡量不同分块贡献。同时,提出了一种基于核化群稀疏学习模型来处理层次时空描述符,可以以多种特征描述算子为基础,具有良好的适应性。Transfer Learning采用迁移学习的方法,对ImageNet数据集上训练的RestNet10进行了微调,最后通过使用高潮帧在CASMEII和SAMM数据库上进行了微调。ECSTFR使用卷积神经网络(CNN)对处于不同表达状态的微表达的空间特征(即起始,起始到高潮的过渡,高潮,从高潮到终止的过渡和终止)进行编码。在目标函数中考虑表达状态,提高了特征表示的表达类可分离性。使用长短期记忆(LSTM)递归神经网络对微表达不同状态的时间特征进行编码。
发明内容
针对目前在生成图像序列方面没有产生具有较小差异的图像序列算法的现状,本发明提供了一种基于重构跨域视频生成对抗网络模型的微表情识别方法。
发明概述:
一种基于重构跨域视频生成对抗网络模型的微表情识别方法,首先,将宏表情和微表情进行表情种类和身份内容两部分的分解,表情种类即宏表情和微表情所属分类,例如厌恶、高兴、悲伤、惊讶等,身份内容即宏表情或微表情人员的身份信息,将所有宏表情和微表情进行人脸标记,属于同一个人的不同表情标记为相同标签,将分解后的宏表情的身份内容和微表情的表情种类进行结合生成宏表情身份的微表情动作,称之为生成的微表情,将微表情的身份内容和宏表情的表情种类进行结合生成微表情身份的宏表情动作,称之为生成的宏表情;然后,将生成的微表情再次进行分解为表情种类和身份内容,将生成的宏表情也再次进行分解为表情种类和身份内容,将生成微表情分解的身份内容和生成宏表情的表情种类进行结合,应该是原始的宏表情,将生成宏表情分解的身份内容和生成微表情的表情种类进行结合,应该是原始的微表情,通过重构控制提高微表情的清晰度和流畅度。最后,将生成的微表情视频序列进行挑选加入微表情识别方法的训练集中,可以有效地提高现有微表情深度学习算法的识别正确率。
与现有方法相比,本发明采用跨源跨域生成对抗网络的思想,利用宏表情的身份信息既可以扩充微表情数据库的多样性,又可以保持生成微表情的身份信息,利用重构的思想保证了生成的宏表情和微表情的真实性。与其它识别方法相比,本发明提出的方法既提取了身份信息,借助宏表情的脸部信息生成了更加丰富的微表情时序序列,同时引入自动控制中负反馈的思想引入重构,保证了生成信息分离彻底与完整,识别也得到了较好的结果。
术语解释:
1、生成式对抗网络:是一类功能强大、应用广泛的神经网络,是Goodfellow等在2014年提出的一种生成式模型。其核心思想来源于博弈论的纳什均衡。如图1所示,由一个生成器G和一个判别器D构成。生成器G捕捉真实数据样本的潜在分布并生成新的数据样本;判别器D是一个二判别器,判别输入是真实数据还是生成的样本。给定一组目标样本,生成器G试图生成一些能够欺骗判别器D、使判别器D相信它们是真实的样本。判别器D试图从假(生成)样本中解析真实(目标)样本。使用这种迭代训练方法,最终得到一个真正擅长生成类似于目标样本的生成器G。
2、编码器:深度学习是表征学习,即通过数据自动生成有用的表征。编码器是可以在原始数据中找到模式以生成简洁有用的表征的神经网络结构。
3、解码器:解码器是利用这些表征生成高分辨率数据的神经网络结构,所生成的数据是新示例或描述性知识。
4、生成器:生成式对抗网络中捕捉真实数据样本的潜在分布并生成新的数据样本的神经网络结构。
5、判别器:生成式对抗网络中判别输入是真实数据还是生成样本的神经网络结构。
6、损失函数:损失函数是用来评估模型的预测值-f(x)与真实值-y的不一致程度,损失函数越小,代表模型的鲁棒性越好,损失函数能指导模型学习。
本发明的技术方案如下:
一种基于重构跨域视频生成对抗网络模型的微表情识别方法,包括步骤如下:
A、循环执行步骤(1)-步骤(3)12000-240000次;并且每循环执行步骤(1)-步骤(3)n次,保存步骤(2)生成的宏表情身份的微表情;
(1)将宏表情和微表情分别分解为表情种类和身份内容,所述表情种类即表情的标签信息,是指宏表情或微表情所属分类,例如厌恶、高兴、悲伤、惊讶等,所述身份内容即身份的标签信息,是指宏表情或微表情对应的人的身份信息,即同一张面部图像标为同一个标签,每人一个标签标号;通过图像分类器和视频分类器损失函数的迭代下降得到表情和身份的准确信息。
(2)将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合,生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合,生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情;
(3)将步骤(2)所述生成的宏表情身份的微表情再次分解为表情种类和身份内容,将所述生成的微表情身份的宏表情也再次分解为表情种类和身份内容,将所述生成的宏表情身份的微表情分解得到的身份内容和所述生成的微表情身份的宏表情分解得到的表情种类进行结合,生成宏表情,原理上应该与原始的宏表情无限接近,将所述生成的微表情身份的宏表情分解得到的身份内容和所述生成的宏表情身份的微表情分解得到的表情种类进行结合,生成微表情;返回步骤(1);原理上应该与原始的微表情无限接近;通过重构方法的损失函数下降使生成的宏表情和微表情与原始的宏表情微表情越来越相似,从而控制提高微表情的清晰度和流畅度。
B、从步骤A保存的所有宏表情身份的微表情中进行人工挑选,将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中,进行微表情的识别。挑选出的宏表情身份的微表情质量较高,即动作流畅且表情比较清晰,该方法能有效的提高原始方法的微表情识别正确率。
根据本发明优选的,所述重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器,两个表情编码器包括宏表情表情编码器和微表情表情编码器;两个身份编码器包括宏表情身份编码器和微表情身份编码器;四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器;四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器;两个视频判别器包括宏表情视频判别器和微表情视频判别器;
所述宏表情表情编码器和所述微表情表情编码器结构相同,均包括八个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层,第八部分是一个LSTM网络;
宏表情表情编码器和微表情表情编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列,输出维度为(64*5*128)。
所述宏表情身份编码器和微表情身份编码器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层;
宏表情身份编码器和微表情身份编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列,输出维度为(320*128)。
所述宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维反卷积层、一个BatchNorm2d层及一个RELU层,第七部分包含一个二维反卷积层和一个Tanh层;
宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器的输入为表情编码器和身份编码器输出的级联,即携带表情和内容信息维度为(320*512)的张量,输出为(320*3*128*128)的张量;
所述宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个二维卷积层和一个LeakyReLU层,第五部分包括一个二维卷积层;
宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器输入为(16*3*128*128)的张量,输出为(320*5*5)的张量;
所述宏表情视频判别器和微表情视频判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个三维卷积层和一个LeakyReLU层,第五部分包括一个三维卷积层;
宏表情视频判别器和微表情视频判别器输入为(16*3*128*128)的张量,输出为(20*5*5)的张量视频。
根据本发明优选的,所述步骤(1)中,将宏表情分解为表情种类和身份内容,定义宏表情的宏表情序列为Yk,Yk=(y1,y2,...,yk),y1,y2,...,yk表示宏表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,表情类标签即表情的标签信息,身份类标签即身份的标签信息,设定第k个图片yk的表情类标签为i,记为yk,i=1,共n类表情,设定第k个图片yk的身份类标签为j,记为yk,j=1,共m个身份;定义宏表情表情编码器
Figure BDA0002431580390000061
的输出为
Figure BDA0002431580390000062
宏表情身份编码器
Figure BDA0002431580390000063
的输出为
Figure BDA0002431580390000064
包括步骤如下:
将宏表情的宏表情序列输入所述宏表情表情编码器,将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器,将宏表情分解为表情种类;将宏表情的宏表情序列输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入宏表情身份图像判别器,将宏表情分解为身份内容;
所述宏表情表情图像判别器的损失函数为:
Figure BDA0002431580390000065
式(I)中,p(yi)是宏表情表情样本的真实分布,q(yi)为宏表情表情编码器输出后输入宏表情表情图像判别器预测的分布;
所述宏表情身份图像判别器的损失函数为:
Figure BDA0002431580390000066
式(Ⅱ)中,p(yj)是宏表情身份样本的真实分布,q(yj)为宏表情身份编码器输出后输入宏表情身份图像判别器预测的分布。
根据本发明优选的,所述步骤(1)中,将微表情分解为表情种类和身份内容,定义微表情的微表情序列为Xk,Xk=(x1,x2,...,xk),x1,x2,...,xk表示微表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,设定第k个图片xk的表情类标签为i的话,记为xk,i=1,共n类表情,设定第k个图片xk的身份类标签为j的话,记为xk,j=1,共m个身份,定义微表情的表情编码器
Figure BDA0002431580390000071
的输出为
Figure BDA0002431580390000072
微表情的身份编码器
Figure BDA0002431580390000073
的输出为
Figure BDA0002431580390000074
包括步骤如下:
将微表情的微表情序列输入所述微表情表情编码器,将所述微表情表情编码器的输出输入所述微表情表情图像判别器,将微表情分解为表情种类;将微表情的微表情序列输入所述微表情身份编码器,将所述微表情身份编码器的输出输入微表情身份图像判别器,将微表情分解为身份内容;
所述微表情表情图像判别器的损失函数为:
Figure BDA0002431580390000075
式(III)中p(xi)是微表情表情样本的真实分布,q(xi)为微表情表情编码器输出后输入微表情表情图像判别器预测的分布;
所述微表情身份图像判别器的损失函数为:
Figure BDA0002431580390000076
式(Ⅳ)中p(xj)是微表情身份样本的真实分布,q(xj)为微表情身份编码器输出后输入微表情身份图像判别器预测的分布。
根据本发明优选的,所述步骤(2)中,将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合,使用宏表情视频生成器生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情,包括步骤如下:
定义IXY为微表情身份编码器的输出
Figure BDA0002431580390000077
和宏表情表情编码器输出的
Figure BDA0002431580390000078
级联,如式(Ⅴ)所示:
Figure BDA0002431580390000079
宏表情视频生成器Gxy利用IXY生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义生成的宏表情的视频序列为
Figure BDA00024315803900000710
序列中每一张图片由
Figure BDA00024315803900000711
表示,
Figure BDA00024315803900000712
宏表情视频生成器和宏表情表情图像判别器的损失函数如式(Ⅵ)所示:
Figure BDA00024315803900000713
宏表情视频生成器和宏表情身份图像判别器的损失函数如式(Ⅶ)所示:
Figure BDA0002431580390000081
式(Ⅵ)和(Ⅶ)中,i为表情类别标签,此处为宏表情的表情类别标签,j为身份类标签,此处为微表情身份类标签,即每个人的人脸编号,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有表情类标签的
Figure BDA0002431580390000082
Di1(Gxy(IXY|i))为带有表情类标签的
Figure BDA0002431580390000083
输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出;Gxy(IXY|j)表示宏表情视频生成器,根据IXY在j的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有身份类标签的
Figure BDA0002431580390000084
Di2(Gxy(IXY|j))为带有身份类标签的
Figure BDA0002431580390000085
输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出;x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积目标生成的表情序列的输出;
宏表情视频生成器和宏表情视频判别器的损失函数如式(Ⅷ)所示:
Figure BDA0002431580390000086
式(Ⅷ)中,i为宏表情的表情类别标签,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频,即
Figure BDA0002431580390000087
Dv1(Gxy(IXY|i))为带有表情类标签的
Figure BDA0002431580390000088
输入宏表情视频判别器的输出,Dv1(Yk|i)为带有表情类标签的Yk输入宏表情视频判别器的输出。
根据本发明优选的,所述步骤(2)中,将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合,使用微表情视频生成器生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;包括步骤如下:
定义IYX为宏表情的身份编码器的输出
Figure BDA0002431580390000089
和微表情的表情编码器输出的
Figure BDA00024315803900000810
级联,如式(Ⅸ)所示:
Figure BDA00024315803900000811
微表情视频生成器Gvyx利用IYX生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义为生成的微表情的序列为
Figure BDA0002431580390000091
微表情序列
Figure BDA0002431580390000092
中每一张图片包括
Figure BDA0002431580390000093
Figure BDA0002431580390000094
微表情视频生成器和微表情表情图像判别器的损失函数如式(Ⅹ)所示:
Figure BDA0002431580390000095
微表情视频生成器和微表情身份图像判别器的损失函数如式(Ⅺ)所示,
Figure BDA0002431580390000096
式(Ⅹ)和(Ⅺ)中,i为表情类别标签,此处为微表情的表情类别标签,j为身份类别标签,此处为宏表情身份类别标签,即每个人的人脸编号,Gyx(IYX|i)表示微表情视频生成器根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即带有表情类标签的
Figure BDA0002431580390000097
Di3(Gyx(IYX|i))为带有表情类标签的
Figure BDA0002431580390000098
输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出;Gyx(IYX|j)表示微表情视频生成器根据IYX在j的条件下的概率分布生成的以宏表情的身份内容和为微表情的表情种类为基础的视频,即
Figure BDA0002431580390000099
i4(Gyx(IYX|j))为带有身份类标签的
Figure BDA00024315803900000910
输入微表情身份图像判别器的输出,Di4(xk|j)为带有内容类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
微表情视频生成器和微表情视频判别器的损失函数如式(XII)所示:
Figure BDA00024315803900000911
式(XII)中,i为宏表情的表情类别标签,Gyx(IYX|i)表示微表情视频生成器,根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即
Figure BDA00024315803900000912
Dv2(Gyx(IYX|i))为带有表情类标签的
Figure BDA0002431580390000101
输入微表情视频判别器的输出,Dv2(Xk|i)为带有表情类标签的Xk输入微表情视频判别器的输出。
根据本发明优选的,所述步骤(3)中,包括步骤如下:
C、将生成的微表情身份的宏表情
Figure BDA0002431580390000102
再次进行分解:将生成的微表情身份的宏表情
Figure BDA0002431580390000103
输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入所述宏表情身份图像判别器,得到微表情身份信息
Figure BDA0002431580390000104
将生成的微表情身份的宏表情
Figure BDA0002431580390000105
输入所述宏表情表情编码器,将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器,得到宏表情表情信息
Figure BDA0002431580390000106
同时,将生成的宏表情身份的微表情
Figure BDA0002431580390000107
再次进行分解:将生成的宏表情身份的微表情
Figure BDA0002431580390000108
输入所述微表情身份编码器,将所述微表情身份编码器的输出输入所述微表情身份图像判别器,得到宏身份信息
Figure BDA0002431580390000109
将生成的宏表情身份的微表情
Figure BDA00024315803900001010
输入所述微表情表情编码器,将所述微表情表情编码器的输出输入所述微表情表情图像判别器,得到微表情表情信息
Figure BDA00024315803900001011
D、将
Figure BDA00024315803900001012
分解后得到的宏表情脸部表情信息
Figure BDA00024315803900001013
Figure BDA00024315803900001014
分解后得到的宏表情脸部表情信息
Figure BDA00024315803900001015
级联后进行重构,如式(XIII)所示:
Figure BDA00024315803900001016
E、定义重构宏表情视频生成器Gyy,将IYY输入所述重构宏表情视频生成器Gyy,生成宏表情视频序列Ykf,将宏表情视频分帧为y1f,y2f,...,ykf,真实的宏表情视频Yk,分帧为y1,y2,...,yk表示,分帧如式(XIV)所示:
Ykf=(y1f,y2f,...,ykf) (XIV)
F、宏表情视频生成器Gyy通过迭代中损失函数(XV)的下降使步骤E中生成宏表情视频的分帧图像中人脸与真实的宏表情视频的运动更加相似,当宏表情表情图像判别器Di1、宏表情身份图像判别器Di2、宏表情视频判别器Dv1无法判别真假时,证明我们生成的以微表情身份信息和宏表情表情信息为基础的图像序列,即宏表情可用;
重构宏表情视频生成器和宏表情表情图像判别器的损失函数如式(XV)和(XVI)所示:
Figure BDA0002431580390000111
Figure BDA0002431580390000112
重构宏表情视频生成器和宏表情身份图像判别器的损失函数如式(XVII)所示:
Figure BDA0002431580390000113
重构宏表情视频生成器和宏表情视频判别器的损失函数如式(XVIII)所示:
Figure BDA0002431580390000114
式(XV)、(XVI)、(XVII)和(XVIII)中,yk为真实宏表情图片,ykf为重构宏表情生成器生成的宏表情视频分帧后的图片,Yk为真实宏表情视频,Ykf为重构宏表情生成器生成的宏表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gyy(IYY|i)表示宏表情视频生成器根据IYY在i的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di1(Gyy(IYY|i))为带有表情类标签的ykf输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出,Gyy(IYY|j)表示宏表情视频生成器根据IYY在j的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di2(Gyy(IYY|j))为带有身份类标签的ykf输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
G、将
Figure BDA0002431580390000115
分解后得到的微表情脸部表情信息
Figure BDA0002431580390000116
Figure BDA0002431580390000117
分解后得到的微表情脸部表情信息
Figure BDA0002431580390000118
级联后进行重构,如式(XIX)所示,
Figure BDA0002431580390000119
H、定义重构微表情视频生成器Gxx,将IXX输入重构微表情视频生成器Gxx,生成微表情视频序列Xkf,将微表情视频分帧为x1f,x2f,...,xkf,真实的微表情序列Xk,分帧为x1,x2,...,xk表示,如式(XX)所示:
Xkf=(x1f,x2f,...,xkf) (XX)
I、微表情视频生成器Gxx通过迭代中损失函数(XXI)的下降使步骤H中生成微表情视频的分帧图像中人脸与真实的微表情视频的运动更加相似,当微表情表情图像判别器Di3,微表情身份图像判别器Di4及微表情视频判别器Dv2无法判别真假时,证明我们生成的以宏表情身份内容和微表情表情信息为基础的图像序列,即微表情可用;
重构微表情视频生成器和微表情表情图像判别器的损失函数如式(XXI)和(XXII):
Figure BDA0002431580390000121
Figure BDA0002431580390000122
重构微表情视频生成器和微表情表情身份判别器的损失函数如式(XXIII):
Figure BDA0002431580390000123
重构微表情视频生成器和微表情视频判别器的损失函数如式(XXⅣ):
Figure BDA0002431580390000124
式(XXI)、(XXII)、(XXIII)和(XXⅣ)中,xk为真实宏表情图片,xkf为重构微表情生成器生成的微表情视频分帧后的图片,Xk为真实宏表情视频,Xkf为重构微表情生成器生成的微表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gxx(IXX|i)表示微表情视频生成器根据IXX在i的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di3(Gxx(IXX|i))为带有表情类标签的xkf输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出,Gxx(IXX|j)表示微表情视频生成器根据IXX在j的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di4(Gxx(IXX|j))为带有身份类标签的xkf输入微表情身份图像判别器的输出,Di4(xk|j)为带有身份类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情判别器和微表情身份图像判别器卷积目标生成的表情序列的输出。
根据本发明优选的,所述微表情识别模型为ResNet10、Transfer Learning或ECSTFR。
根据本发明优选的,10≤n≤100。
本发明的有益效果为:
本发明基于目前细微图像序列生成领域方法较少的现状,针对微表情的生成提出了一种基于重构跨域视频生成对抗网络模型的微表情识别方法,生成了脸部图像清晰、微表情动作连续、与原始微表情AU单元运动相似的微表情视频序列,然后将生成的微表情作为数据增强的样本加入训练集中,有效提高了微表情的识别正确率。
附图说明
图1为生成式对抗网络的结构示意图;
图2为本发明一种基于重构跨域视频生成对抗网络模型的微表情识别方法的流程框架示意图;
图3为本发明一种基于重构跨域视频生成对抗网络模型的微表情识别方法的流程示意图;
图4(a)为生成表情视频与稀疏光流展示图一;
图4(b)为生成表情视频与稀疏光流展示图二;
图4(c)为生成表情视频与稀疏光流展示图三;
图4(d)为生成表情视频与稀疏光流展示图四。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于重构跨域视频生成对抗网络模型的微表情识别方法,如图2及图3所示,重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器,两个表情编码器包括宏表情表情编码器和微表情表情编码器;两个身份编码器包括宏表情身份编码器和微表情身份编码器;四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器;四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器;两个视频判别器包括宏表情视频判别器和微表情视频判别器;
宏表情表情编码器和微表情表情编码器结构相同,均包括八个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层,第八部分是一个LSTM网络;宏表情表情编码器和微表情表情编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列,输出维度为(64*5*128)。
宏表情身份编码器和微表情身份编码器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层;宏表情身份编码器和微表情身份编码器的输入为(16*3*256*256)维度的宏表情或微表情图像序列,输出维度为(320*128)。
宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维反卷积层、一个BatchNorm2d层及一个RELU层,第七部分包含一个二维反卷积层和一个Tanh层;宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器的输入为表情编码器和身份编码器输出的级联,即携带表情和内容信息维度为(320*512)的张量,输出为(320*3*128*128)的张量;
宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个二维卷积层和一个LeakyReLU层,第五部分包括一个二维卷积层;宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器输入为(16*3*128*128)的张量,输出为(320*5*5)的张量;
宏表情视频判别器和微表情视频判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个三维卷积层和一个LeakyReLU层,第五部分包括一个三维卷积层;宏表情视频判别器和微表情视频判别器输入为(16*3*128*128)的张量,输出为(20*5*5)的张量视频。包括步骤如下:
(1)数据库预处理:本实施例采用两组数据库,CASME II和CK+。CASME II(ChineseAcademy of Sciences Micro-Expression)数据库是2014年由中国科学院心理研究所的傅小兰团队在严格的实验环境和适当的光照条件下获得的微表情数据库,时间分辨率为200fps,空间分辨率在人脸部分为280*340,共247个微表情片段。CK+宏表情数据库[50],是在Cohn-Kanade Dataset的基础上扩展来的,发布于2010年。这个数据库比起JAFFE要大的多。而且可以免费获取,包含表情的标签和AU单元的标签。这个数据库包括593个图像序列,每个图像序列的最后一帧都有AU单元的标签。预处理包括视频分帧、人脸定位、人脸对齐、人脸切割、TIM插值。
①视频分帧:通过视频解码得到视频序列;
②人脸定位:人脸定位采用的是特征点检测,采用的方法是回归局部二元特征方法提取微表情的68个人脸特征点;
③人脸对齐:利用眼睛和鼻子这三个特征点进行全局人脸对齐,将图片按比例进行水平校正和缩放,使所有图片的眼睛和鼻子这三个特征点位于同一水平线的相同大小位置;
④人脸切割:将对齐后的人脸按一定比例进行切割,以黑边补全旋转的空白位置只保留人脸,去掉背景等冗余信息;
⑤TIM插值:将从视频帧中提取的视觉特征映射到由一组三角函数控制的低维连续曲线,还可以将曲线投影回图像空间以进行时间插值;通过TIM算法将CASME II和CK+数据集中的表情序列插值为16帧256*256大小,统一训练集,将数据库中的微表情随机分成五份,取其中的四份作为训练集输入基于表情、内容分解和重构的表情迁移的微表情生成模型网络;
A、循环执行步骤(1)-步骤(3)12000次;并且每循环执行步骤(1)-步骤(3)10次,保存步骤(2)生成的宏表情身份的微表情;因生成器和判别器训练不同步协调,生成的视频质量较差时,判别器训练已经较强,故当迭代次数小于等于100时,采用生成器训练50次,判别器训练1次的参数设置方法。当迭代次数大于100时,故采用生成器训练10次,判别器训练1次的参数设置方法。
(2)将宏表情和微表情分别分解为表情种类(表情信息)和身份内容(身份信息),所述表情种类即表情的标签信息,是指宏表情或微表情所属分类,例如厌恶、高兴、悲伤、惊讶等,所述身份内容即身份的标签信息,是指宏表情或微表情对应的人的身份信息,即同一张面部图像标为同一个标签,每人一个标签标号;通过图像分类器和视频分类器损失函数的迭代下降得到表情和身份的准确信息。
(3)将步骤(2)分解后的宏表情的身份内容和微表情的表情种类进行结合,生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合,生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情;
(4)将步骤(3)生成的宏表情身份的微表情再次分解为表情种类和身份内容,将生成的微表情身份的宏表情也再次分解为表情种类和身份内容,将生成的宏表情身份的微表情分解得到的身份内容和生成的微表情身份的宏表情分解得到的表情种类进行结合,生成宏表情,原理上应该与原始的宏表情无限接近,将生成的微表情身份的宏表情分解得到的身份内容和生成的宏表情身份的微表情分解得到的表情种类进行结合,生成微表情;
返回步骤(2);原理上应该与原始的微表情无限接近;通过重构方法的损失函数下降使生成的宏表情和微表情与原始的宏表情微表情越来越相似,从而控制提高微表情的清晰度和流畅度。
B、从步骤(2)保存的所有宏表情身份的微表情中进行人工挑选,将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中,图4(a)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图一;图4(b)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图二;图4(c)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图三;图4(d)为挑选出的生成的宏表情身份的微表情图片组与对应的稀疏光流展示图四;图4(a)、图4(b)、图4(c)、图4(d)中,第一行的图片为原始的生成图片序列,因微表情动作微小,肉眼难以看出,第一行的图片为对应的标出的稀疏光流图,进行微表情的识别。挑选出的宏表情身份的微表情质量较高,即动作流畅且表情比较清晰,该方法能有效的提高原始方法的微表情识别正确率。
实施例2
根据实施例1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其区别在于:
步骤(2)中,将宏表情分解为表情种类和身份内容,定义宏表情的宏表情序列为Yk,Yk=(y1,y2,...,yk),y1,y2,...,yk表示宏表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,表情类标签即表情的标签信息,身份类标签即身份的标签信息,设定第k个图片yk的表情类标签为i,记为yk,i=1,共n类表情,设定第k个图片yk的身份类标签为j,记为yk,j=1,共m个身份;定义宏表情表情编码器
Figure BDA0002431580390000161
的输出为
Figure BDA0002431580390000162
宏表情身份编码器
Figure BDA0002431580390000163
的输出为
Figure BDA0002431580390000164
包括步骤如下:
将宏表情的宏表情序列输入宏表情表情编码器,将宏表情表情编码器的输出输入宏表情表情图像判别器,将宏表情分解为表情种类;将宏表情的宏表情序列输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入宏表情身份图像判别器,将宏表情分解为身份内容;
宏表情表情图像判别器的损失函数为:
Figure BDA0002431580390000165
式(I)中,p(yi)是宏表情表情样本的真实分布,q(yi)为宏表情表情编码器输出后输入宏表情表情图像判别器预测的分布;
宏表情身份图像判别器的损失函数为:
Figure BDA0002431580390000171
式(Ⅱ)中,p(yj)是宏表情身份样本的真实分布,q(yj)为宏表情身份编码器输出后输入宏表情身份图像判别器预测的分布。
步骤(2)中,将微表情分解为表情种类和身份内容,定义微表情的微表情序列为Xk,Xk=(x1,x2,...,xk),x1,x2,...,xk表示微表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,设定第k个图片xk的表情类标签为i的话,记为xk,i=1,共n类表情,设定第k个图片xk的身份类标签为j的话,记为xk,j=1,共m个身份,定义微表情的表情编码器
Figure BDA0002431580390000172
的输出为
Figure BDA0002431580390000173
微表情的身份编码器
Figure BDA0002431580390000174
的输出为
Figure BDA0002431580390000175
包括步骤如下:
将微表情的微表情序列输入微表情表情编码器,将微表情表情编码器的输出输入微表情表情图像判别器,将微表情分解为表情种类;将微表情的微表情序列输入微表情身份编码器,将微表情身份编码器的输出输入微表情身份图像判别器,将微表情分解为身份内容;
微表情表情图像判别器的损失函数为:
Figure BDA0002431580390000176
式(III)中p(xi)是微表情表情样本的真实分布,q(xi)为微表情表情编码器输出后输入微表情表情图像判别器预测的分布;
微表情身份图像判别器的损失函数为:
Figure BDA0002431580390000177
式(Ⅳ)中p(xj)是微表情身份样本的真实分布,q(xj)为微表情身份编码器输出后输入微表情身份图像判别器预测的分布。
步骤(3)中,将步骤(2)分解后的微表情的身份内容和宏表情的表情种类进行结合,使用宏表情视频生成器生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情,包括步骤如下:
定义IXY为微表情身份编码器的输出
Figure BDA0002431580390000181
和宏表情表情编码器输出的
Figure BDA0002431580390000182
级联,如式(Ⅴ)所示:
Figure BDA0002431580390000183
宏表情视频生成器Gxy利用IXY生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义生成的宏表情的视频序列为
Figure BDA0002431580390000184
序列中每一张图片由
Figure BDA0002431580390000185
表示,
Figure BDA0002431580390000186
宏表情视频生成器和宏表情表情图像判别器的损失函数如式(Ⅵ)所示:
Figure BDA0002431580390000187
宏表情视频生成器和宏表情身份图像判别器的损失函数如式(Ⅶ)所示:
Figure BDA0002431580390000188
式(Ⅵ)和(Ⅶ)中,i为表情类别标签,此处为宏表情的表情类别标签,j为身份类标签,此处为微表情身份类标签,即每个人的人脸编号,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有表情类标签的
Figure BDA0002431580390000189
Di1(Gxy(IXY|i))为带有表情类标签的
Figure BDA00024315803900001810
输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出;Gxy(IXY|j)表示宏表情视频生成器,根据IXY在j的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有身份类标签的
Figure BDA00024315803900001811
Di2(Gxy(IXY|j))为带有身份类标签的
Figure BDA00024315803900001812
输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出;x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积目标生成的表情序列的输出;
宏表情视频生成器和宏表情视频判别器的损失函数如式(Ⅷ)所示:
Figure BDA00024315803900001813
式(Ⅷ)中,i为宏表情的表情类别标签,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频,即
Figure BDA0002431580390000191
Dv1(Gxy(IXY|i))为带有表情类标签的
Figure BDA0002431580390000192
输入宏表情视频判别器的输出,Dv1(Yk|i)为带有表情类标签的Yk输入宏表情视频判别器的输出。
步骤(3)中,将步骤(2)分解后的宏表情的身份内容和微表情的表情种类进行结合,使用微表情视频生成器生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;包括步骤如下:
定义IYX为宏表情的身份编码器的输出
Figure BDA0002431580390000193
和微表情的表情编码器输出的
Figure BDA0002431580390000194
级联,如式(Ⅸ)所示:
Figure BDA0002431580390000195
微表情视频生成器Gvyx利用IYX生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义为生成的微表情的序列为
Figure BDA0002431580390000196
微表情序列
Figure BDA0002431580390000197
中每一张图片包括
Figure BDA0002431580390000198
Figure BDA0002431580390000199
微表情视频生成器和微表情表情图像判别器的损失函数如式(Ⅹ)所示:
Figure BDA00024315803900001910
微表情视频生成器和微表情身份图像判别器的损失函数如式(Ⅺ)所示,
Figure BDA00024315803900001911
式(Ⅹ)和(Ⅺ)中,i为表情类别标签,此处为微表情的表情类别标签,j为身份类别标签,此处为宏表情身份类别标签,即每个人的人脸编号,Gyx(IYX|i)表示微表情视频生成器根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即带有表情类标签的
Figure BDA00024315803900001912
Di3(Gyx(IYX|i))为带有表情类标签的
Figure BDA00024315803900001913
输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出;Gyx(IYX|j)表示微表情视频生成器根据IYX在j的条件下的概率分布生成的以宏表情的身份内容和为微表情的表情种类为基础的视频,即
Figure BDA00024315803900001914
Di4(Gyx(IYX|j))为带有身份类标签的
Figure BDA00024315803900001915
输入微表情身份图像判别器的输出,Di4(xk|j)为带有内容类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
微表情视频生成器和微表情视频判别器的损失函数如式(XII)所示:
Figure BDA0002431580390000201
式(XII)中,i为宏表情的表情类别标签,Gyx(IYX|i)表示微表情视频生成器,根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即
Figure BDA0002431580390000202
Dv2(Gyx(IYX|i))为带有表情类标签的
Figure BDA0002431580390000203
输入微表情视频判别器的输出,Dv2(Xk|i)为带有表情类标签的Xk输入微表情视频判别器的输出。
步骤(4)中,包括步骤如下:
C、将生成的微表情身份的宏表情
Figure BDA0002431580390000204
再次进行分解:将生成的微表情身份的宏表情
Figure BDA0002431580390000205
输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入所述宏表情身份图像判别器,得到微表情身份信息
Figure BDA0002431580390000206
将生成的微表情身份的宏表情
Figure BDA0002431580390000207
输入所述宏表情表情编码器,将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器,得到宏表情表情信息
Figure BDA0002431580390000208
同时,将生成的宏表情身份的微表情
Figure BDA0002431580390000209
再次进行分解:将生成的宏表情身份的微表情
Figure BDA00024315803900002010
输入所述微表情身份编码器,将所述微表情身份编码器的输出输入所述微表情身份图像判别器,得到宏身份信息
Figure BDA00024315803900002011
将生成的宏表情身份的微表情
Figure BDA00024315803900002012
输入所述微表情表情编码器,将所述微表情表情编码器的输出输入所述微表情表情图像判别器,得到微表情表情信息
Figure BDA00024315803900002013
D、将
Figure BDA00024315803900002014
分解后得到的宏表情脸部表情信息
Figure BDA00024315803900002015
Figure BDA00024315803900002016
分解后得到的宏表情脸部表情信息
Figure BDA00024315803900002017
级联后进行重构,如式(XIII)所示:
Figure BDA00024315803900002018
E、定义重构宏表情视频生成器Gyy,将IYY输入所述重构宏表情视频生成器Gyy,生成宏表情视频序列Ykf,将宏表情视频分帧为y1f,y2f,...,ykf,真实的宏表情视频Yk,分帧为y1,y2,...,yk表示,分帧如式(XIV)所示:
Ykf=(y1f,y2f,...,ykf) (XIV)
F、宏表情视频生成器Gyy通过迭代中损失函数(XV)的下降使步骤E中生成宏表情视频的分帧图像中人脸与真实的宏表情视频的运动更加相似,当宏表情表情图像判别器Di1、宏表情身份图像判别器Di2、宏表情视频判别器Dv1无法判别真假时,证明我们生成的以微表情身份信息和宏表情表情信息为基础的图像序列,即宏表情可用;
重构宏表情视频生成器和宏表情表情图像判别器的损失函数如式(XV)和(XVI)所示:
Figure BDA0002431580390000211
Figure BDA0002431580390000212
重构宏表情视频生成器和宏表情身份图像判别器的损失函数如式(XVII)所示:
Figure BDA0002431580390000213
重构宏表情视频生成器和宏表情视频判别器的损失函数如式(XVIII)所示:
Figure BDA0002431580390000214
式(XV)、(XVI)、(XVII)和(XVIII)中,yk为真实宏表情图片,ykf为重构宏表情生成器生成的宏表情视频分帧后的图片,Yk为真实宏表情视频,Ykf为重构宏表情生成器生成的宏表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gyy(IYY|i)表示宏表情视频生成器根据IYY在i的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di1(Gyy(IYY|i))为带有表情类标签的ykf输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出,Gyy(IYY|j)表示宏表情视频生成器根据IYY在j的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di2(Gyy(IYY|j))为带有身份类标签的ykf输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
G、将
Figure BDA0002431580390000221
分解后得到的微表情脸部表情信息
Figure BDA0002431580390000222
Figure BDA0002431580390000223
分解后得到的微表情脸部表情信息
Figure BDA0002431580390000224
级联后进行重构,如式(XIX)所示,
Figure BDA0002431580390000225
H、定义重构微表情视频生成器Gxx,将IXX输入重构微表情视频生成器Gxx,生成微表情视频序列Xkf,将微表情视频分帧为x1f,x2f,...,xkf,真实的微表情序列Xk,分帧为x1,x2,...,xk表示,如式(XX)所示:
Xkf=(x1f,x2f,...,xkf) (XX)
I、微表情视频生成器Gxx通过迭代中损失函数(XXI)的下降使步骤H中生成微表情视频的分帧图像中人脸与真实的微表情视频的运动更加相似,当微表情表情图像判别器Di3,微表情身份图像判别器Di4及微表情视频判别器Dv2无法判别真假时,证明我们生成的以宏表情身份内容和微表情表情信息为基础的图像序列,即微表情可用;
重构微表情视频生成器和微表情表情图像判别器的损失函数如式(XXI)和(XXII):
Figure BDA0002431580390000226
Figure BDA0002431580390000227
重构微表情视频生成器和微表情表情身份判别器的损失函数如式(XXIII):
Figure BDA0002431580390000228
重构微表情视频生成器和微表情视频判别器的损失函数如式(XXⅣ):
Figure BDA0002431580390000229
式(XXI)、(XXII)、(XXIII)和(XXⅣ)中,xk为真实宏表情图片,xkf为重构微表情生成器生成的微表情视频分帧后的图片,Xk为真实宏表情视频,Xkf为重构微表情生成器生成的微表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gxx(IXX|i)表示微表情视频生成器根据IXX在i的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di3(Gxx(IXX|i))为带有表情类标签的xkf输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出,Gxx(IXX|j)表示微表情视频生成器根据IXX在j的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di4(Gxx(IXX|j))为带有身份类标签的xkf输入微表情身份图像判别器的输出,Di4(xk|j)为带有身份类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情判别器和微表情身份图像判别器卷积目标生成的表情序列的输出。
微表情识别模型为ResNet10、Transfer Learning或ECSTFR。
以CASME II数据库为例,将生成算法生成的微表情进行挑选,加入微表情分类算法的训练集中,通过数据增强能提高识别率的方法,验证CASME II数据库生成微表情的真实性、流畅性和有效性。
为了增加微表情识别的对比性,增加了一个ResNet10网络作为微表情识别深度学习网络的基准,将生成微表情进行挑选,选出质量较好的与原始训练集相同数量的微表情样本,将这些样本加入训练集后的识别效果。为保证迁移实验的准确迁移,宏表情和微表情均采用厌恶、害怕、开心、伤心和惊讶5类进行实验。为保证实验条件的一致性,其它微表情识别实验也采用厌恶、害怕、开心、伤心和惊讶5类进行实验。本实验所有结果均采用五折的方式得到结果,如表1所示:
表1
Figure BDA0002431580390000231
Figure BDA0002431580390000241
实验结果显示,一种基于重构跨域视频生成对抗网络模型的微表情识别方法生成的微表情样本与真实微表情AU单元运动相似度极高,通过将生成的样本作为数据增强的样本加入到微表情识别的训练数据集中,证明本方法生成的微表情样本质量高,实用性较强。

Claims (8)

1.一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,包括步骤如下:
A、循环执行步骤(1)-步骤(3)12000-240000次;并且每循环执行步骤(1)-步骤(3)n次保存步骤(2)生成的宏表情身份的微表情;
(1)将宏表情和微表情分别分解为表情种类和身份内容,所述表情种类即表情的标签信息,是指宏表情或微表情所属分类,所述身份内容即身份的标签信息,是指宏表情或微表情对应的人的身份信息,即同一张面部图像标为同一个标签,每人一个标签标号;
(2)将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合,生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合,生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情;
(3)将步骤(2)所述生成的宏表情身份的微表情再次分解为表情种类和身份内容,将所述生成的微表情身份的宏表情也再次分解为表情种类和身份内容,将所述生成的宏表情身份的微表情分解得到的身份内容和所述生成的微表情身份的宏表情分解得到的表情种类进行结合,生成宏表情,将所述生成的微表情身份的宏表情分解得到的身份内容和所述生成的宏表情身份的微表情分解得到的表情种类进行结合,生成微表情;返回步骤(1);
B、从步骤(1)保存的所有宏表情身份的微表情中进行人工挑选,将挑选出的宏表情身份的微表情加入微表情识别模型的训练集中,进行微表情的识别;
所述重构跨域视频生成对抗网络模型包括两个表情编码器、两个身份编码器、四个视频生成器、四个图像判别器和两个视频判别器,两个表情编码器包括宏表情表情编码器和微表情表情编码器;两个身份编码器包括宏表情身份编码器和微表情身份编码器;四个视频生成器包括宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器、重构微表情视频生成器;四个图像判别器包括宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器和微表情身份图像判别器;两个视频判别器包括宏表情视频判别器和微表情视频判别器;
所述宏表情表情编码器和所述微表情表情编码器结构相同,均包括八个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层,第八部分是一个LSTM网络;
所述宏表情身份编码器和微表情身份编码器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维卷积层、一个BatchNorm2d层及一个LeakyReLU层,第七部分是一个Linear层;
所述宏表情视频生成器、微表情视频生成器、重构宏表情视频生成器及重构微表情视频生成器结构相同,均包括七个部分,第一部分到第六部分结构相同,均包括一个二维反卷积层、一个BatchNorm2d层及一个RELU层,第七部分包含一个二维反卷积层和一个Tanh层;
所述宏表情表情图像判别器、宏表情身份图像判别器、微表情表情图像判别器及微表情身份图像判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个二维卷积层和一个LeakyReLU层,第五部分包括一个二维卷积层;
所述宏表情视频判别器和微表情视频判别器结构相同,均包括五部分,第一部分到第四部分结构相同,均包括一个三维卷积层和一个LeakyReLU层,第五部分包括一个三维卷积层。
2.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述步骤(1)中,将宏表情分解为表情种类和身份内容,定义宏表情的宏表情序列为Yk,Yk=(y1,y2,...,yk),y1,y2,...,yk表示宏表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,表情类标签即表情的标签信息,身份类标签即身份的标签信息,设定第k个图片yk的表情类标签为i,记为yk,i=1,共n类表情,设定第k个图片yk的身份类标签为j,记为yk,j=1,共m个身份;定义宏表情表情编码器
Figure FDA0003503172730000021
的输出为
Figure FDA0003503172730000022
宏表情身份编码器
Figure FDA0003503172730000023
的输出为
Figure FDA0003503172730000024
包括步骤如下:
将宏表情的宏表情序列输入所述宏表情表情编码器,将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器,将宏表情分解为表情种类;将宏表情的宏表情序列输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入宏表情身份图像判别器,将宏表情分解为身份内容;
所述宏表情表情图像判别器的损失函数为:
Figure FDA0003503172730000025
式(Ⅰ)中,p(yi)是宏表情表情样本的真实分布,q(yi)为宏表情表情编码器输出后输入宏表情表情图像判别器预测的分布;
所述宏表情身份图像判别器的损失函数为:
Figure FDA0003503172730000026
式(Ⅱ)中,p(yj)是宏表情身份样本的真实分布,q(yj)为宏表情身份编码器输出后输入宏表情身份图像判别器预测的分布。
3.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述步骤(1)中,将微表情分解为表情种类和身份内容,定义微表情的微表情序列为Xk,Xk=(x1,x2,...,xk),x1,x2,...,xk表示微表情序列中的每一张图片,k表示表情序列中图片的总张数,每一张图片有两个标签,包括表情类标签和身份类标签,设定第k个图片xk的表情类标签为i的话,记为xk,i=1,共n类表情,设定第k个图片xk的身份类标签为j的话,记为xk,j=1,共m个身份,定义微表情的表情编码器
Figure FDA0003503172730000031
的输出为
Figure FDA0003503172730000032
微表情的身份编码器
Figure FDA0003503172730000033
的输出为
Figure FDA0003503172730000034
包括步骤如下:
将微表情的微表情序列输入所述微表情表情编码器,将所述微表情表情编码器的输出输入所述微表情表情图像判别器,将微表情分解为表情种类;将微表情的微表情序列输入所述微表情身份编码器,将所述微表情身份编码器的输出输入微表情身份图像判别器,将微表情分解为身份内容;
所述微表情表情图像判别器的损失函数为:
Figure FDA0003503172730000035
式(Ⅲ)中p(xi)是微表情表情样本的真实分布,q(xi)为微表情表情编码器输出后输入微表情表情图像判别器预测的分布;
所述微表情身份图像判别器的损失函数为:
Figure FDA0003503172730000036
式(IV)中p(xj)是微表情身份样本的真实分布,q(xj)为微表情身份编码器输出后输入微表情身份图像判别器预测的分布。
4.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述步骤(2)中,将步骤(1)分解后的微表情的身份内容和宏表情的表情种类进行结合,使用宏表情视频生成器生成微表情身份的宏表情动作,称之为生成的微表情身份的宏表情,包括步骤如下:
定义IXY为微表情身份编码器的输出
Figure FDA0003503172730000037
和宏表情表情编码器输出的
Figure FDA0003503172730000038
级联,如式(Ⅴ)所示:
Figure FDA0003503172730000039
宏表情视频生成器Gxy利用IXY生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义生成的宏表情的视频序列为
Figure FDA0003503172730000041
序列中每一张图片由
Figure FDA0003503172730000042
表示,
Figure FDA0003503172730000043
宏表情视频生成器和宏表情表情图像判别器的损失函数如式(Ⅵ)所示:
Figure FDA0003503172730000044
宏表情视频生成器和宏表情身份图像判别器的损失函数如式(Ⅶ)所示:
Figure FDA0003503172730000045
式(Ⅵ)和(Ⅶ)中,i为表情类别标签,此处为宏表情的表情类别标签,j为身份类标签,此处为微表情身份类标签,即每个人的人脸编号,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有表情类标签的
Figure FDA0003503172730000046
Di1(Gxy(IXY|i))为带有表情类标签的
Figure FDA0003503172730000047
输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出;Gxy(IXY|j)表示宏表情视频生成器,根据IXY在j的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频分解的图像,即带有身份类标签的
Figure FDA0003503172730000048
Di2(Gxy(IXY|j))为带有身份类标签的
Figure FDA0003503172730000049
输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出;x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即宏表情表情图像判别器和宏表情身份图像判别器卷积目标生成的表情序列的输出;
宏表情视频生成器和宏表情视频判别器的损失函数如式(Ⅷ)所示:
Figure FDA00035031727300000410
式(Ⅷ)中,i为宏表情的表情类别标签,Gxy(IXY|i)表示宏表情视频生成器根据IXY在i的条件下的概率分布生成的以微表情的身份内容和宏表情的表情种类为基础的视频,即
Figure FDA00035031727300000411
Dv1(Gxy(IXY|i))为带有表情类标签的
Figure FDA00035031727300000412
输入宏表情视频判别器的输出,Dv1(Yk|i)为带有表情类标签的Yk输入宏表情视频判别器的输出。
5.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述步骤(2)中,将步骤(1)分解后的宏表情的身份内容和微表情的表情种类进行结合,使用微表情视频生成器生成宏表情身份的微表情动作,称之为生成的宏表情身份的微表情;包括步骤如下:
定义IYX为宏表情的身份编码器的输出
Figure FDA0003503172730000051
和微表情的表情编码器输出的
Figure FDA0003503172730000052
级联,如式(Ⅸ)所示:
Figure FDA0003503172730000053
微表情视频生成器Gvyx利用IYX生成以微表情的身份内容和宏表情的表情种类为基础的图像序列,定义为生成的微表情的序列为
Figure FDA0003503172730000054
微表情序列
Figure FDA0003503172730000055
中每一张图片包括
Figure FDA0003503172730000056
Figure FDA0003503172730000057
微表情视频生成器和微表情表情图像判别器的损失函数如式(X)所示:
Figure FDA0003503172730000058
微表情视频生成器和微表情身份图像判别器的损失函数如式(Ⅺ)所示,
Figure FDA0003503172730000059
式(X)和(Ⅺ)中,i为表情类别标签,此处为微表情的表情类别标签,j为身份类别标签,此处为宏表情身份类别标签,即每个人的人脸编号,Gyx(IYX|i)表示微表情视频生成器根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即带有表情类标签的
Figure FDA00035031727300000510
Di3(Gyx(IYX|i))为带有表情类标签的
Figure FDA00035031727300000511
输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出;Gyx(IYX|j)表示微表情视频生成器根据IYX在j的条件下的概率分布生成的以宏表情的身份内容和为微表情的表情种类为基础的视频,即
Figure FDA00035031727300000512
Di4(Gyx(IYX|j))为带有身份类标签的
Figure FDA00035031727300000513
输入微表情身份图像判别器的输出,Di4(xk|j)为带有内容类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
微表情视频生成器和微表情视频判别器的损失函数如式(XII)所示:
Figure FDA0003503172730000061
式(XII)中,i为宏表情的表情类别标签,Gyx(IYX|i)表示微表情视频生成器,根据IYX在i的条件下的概率分布生成的以宏表情的身份内容和微表情的表情种类为基础的视频,即
Figure FDA0003503172730000062
Dv2(Gyx(IYX|i))为带有表情类标签的
Figure FDA0003503172730000063
输入微表情视频判别器的输出,Dv2(Xk|i)为带有表情类标签的Xk输入微表情视频判别器的输出。
6.根据权利要求1所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述步骤(3)中,包括步骤如下:
C、将生成的微表情身份的宏表情
Figure FDA0003503172730000064
再次进行分解:将生成的微表情身份的宏表情
Figure FDA0003503172730000065
输入所述宏表情身份编码器,将所述宏表情身份编码器的输出输入所述宏表情身份图像判别器,得到微表情身份信息
Figure FDA0003503172730000066
将生成的微表情身份的宏表情
Figure FDA0003503172730000067
输入所述宏表情表情编码器,将所述宏表情表情编码器的输出输入所述宏表情表情图像判别器,得到宏表情表情信息
Figure FDA0003503172730000068
同时,将生成的宏表情身份的微表情
Figure FDA0003503172730000069
再次进行分解:将生成的宏表情身份的微表情
Figure FDA00035031727300000610
输入所述微表情身份编码器,将所述微表情身份编码器的输出输入所述微表情身份图像判别器,得到宏身份信息
Figure FDA00035031727300000611
将生成的宏表情身份的微表情
Figure FDA00035031727300000612
输入所述微表情表情编码器,将所述微表情表情编码器的输出输入所述微表情表情图像判别器,得到微表情表情信息
Figure FDA00035031727300000613
D、将
Figure FDA00035031727300000614
分解后得到的宏表情脸部表情信息
Figure FDA00035031727300000615
Figure FDA00035031727300000616
分解后得到的宏表情脸部表情信息
Figure FDA00035031727300000617
级联后进行重构,如式(XIII)所示:
Figure FDA00035031727300000618
E、定义重构宏表情视频生成器Gyy,将IYY输入所述重构宏表情视频生成器Gyy,生成宏表情视频序列Ykf,将宏表情视频分帧为y1f,y2f,...,ykf,分帧如式(XIV)所示:
Ykf=(y1f,y2f,...,ykf) (XIV)
F、宏表情视频生成器Gyy通过迭代中损失函数(XV)的下降使步骤E中生成宏表情视频的分帧图像中人脸与真实的宏表情视频的运动更加相似,当宏表情表情图像判别器Di1、宏表情身份图像判别器Di2、宏表情视频判别器Dv1无法判别真假时,宏表情可用;
重构宏表情视频生成器和宏表情表情图像判别器的损失函数如式(XV)和(XVI)所示:
Figure FDA0003503172730000071
Figure FDA0003503172730000072
重构宏表情视频生成器和宏表情身份图像判别器的损失函数如式(XVII)所示:
Figure FDA0003503172730000073
重构宏表情视频生成器和宏表情视频判别器的损失函数如式(XVIII)所示:
Figure FDA0003503172730000074
式(XV)、(XVI)、(XVII)和(XVIII)中,yk为真实宏表情图片,ykf为重构宏表情生成器生成的宏表情视频分帧后的图片,Yk为真实宏表情视频,Ykf为重构宏表情生成器生成的宏表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gyy(IYY|i)表示宏表情视频生成器根据IYY在i的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di1(Gyy(IYY|i))为带有表情类标签的ykf输入宏表情表情图像判别器的输出,Di1(yk|i)为带有表情类标签的yk输入宏表情表情图像判别器的输出,Gyy(IYY|j)表示宏表情视频生成器根据IYY在j的条件下的概率分布生成的以宏表情身份内容和宏表情表情种类为基础的视频,即带有表情类标签的ykf,Di2(Gyy(IYY|j))为带有身份类标签的ykf输入宏表情身份图像判别器的输出,Di2(yk|j)为带有身份类标签的yk输入宏表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情图像判别器和微表情身份图像判别器卷积目标生成的表情序列的输出;
G、将
Figure FDA0003503172730000081
分解后得到的微表情脸部表情信息
Figure FDA0003503172730000082
Figure FDA0003503172730000083
分解后得到的微表情脸部表情信息
Figure FDA0003503172730000084
级联后进行重构,如式(XIX)所示,
Figure FDA0003503172730000085
H、定义重构微表情视频生成器Gxx,将IXX输入重构微表情视频生成器Gxx,生成微表情视频序列Xkf,将微表情视频分帧为x1f,x2f,...,xkf,如式(XX)所示:
Xkf=(x1f,x2f,...,xkf) (XX)
I、微表情视频生成器Gxx通过迭代中损失函数(XXI)的下降使步骤H中生成微表情视频的分帧图像中人脸与真实的微表情视频的运动更加相似,当微表情表情图像判别器Di3,微表情身份图像判别器Di4及微表情视频判别器Dv2无法判别真假时,微表情可用;
重构微表情视频生成器和微表情表情图像判别器的损失函数如式(XXI)和(XXII):
Figure FDA0003503172730000086
Figure FDA0003503172730000087
重构微表情视频生成器和微表情表情身份判别器的损失函数如式(XXIII):
Figure FDA0003503172730000088
重构微表情视频生成器和微表情视频判别器的损失函数如式(XXIV):
Figure FDA0003503172730000089
式(XXI)、(XXII)、(XXIII)和(XXIV)中,xk为真实宏表情图片,xkf为重构微表情生成器生成的微表情视频分帧后的图片,Xk为真实宏表情视频,Xkf为重构微表情生成器生成的微表情视频,i为表情类标签,此处为宏表情的表情类标签,j为身份类标签,此处为宏表情身份类标签,即每个人的人脸编号,Gxx(IXX|i)表示微表情视频生成器根据IXX在i的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di3(Gxx(IXX|i))为带有表情类标签的xkf输入微表情表情图像判别器的输出,Di3(xk|i)为带有表情类标签的xk输入微表情表情图像判别器的输出,Gxx(IXX|j)表示微表情视频生成器根据IXX在j的条件下的概率分布生成的以微表情身份内容和微表情表情种类为基础的视频,即带有表情类标签的xkf,Di4(Gxx(IXX|j))为带有身份类标签的xkf输入微表情身份图像判别器的输出,Di4(xk|j)为带有身份类标签的xk输入微表情身份图像判别器的输出,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即微表情表情判别器和微表情身份图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即微表情表情判别器和微表情身份图像判别器卷积目标生成的表情序列的输出。
7.根据权利要求1-6任一所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,所述微表情识别模型为ResNet10、Transfer Learning或ECSTFR。
8.根据权利要求1-6任一所述的一种基于重构跨域视频生成对抗网络模型的微表情识别方法,其特征在于,10≤n≤100。
CN202010237780.7A 2020-03-30 2020-03-30 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 Active CN111460981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237780.7A CN111460981B (zh) 2020-03-30 2020-03-30 一种基于重构跨域视频生成对抗网络模型的微表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237780.7A CN111460981B (zh) 2020-03-30 2020-03-30 一种基于重构跨域视频生成对抗网络模型的微表情识别方法

Publications (2)

Publication Number Publication Date
CN111460981A CN111460981A (zh) 2020-07-28
CN111460981B true CN111460981B (zh) 2022-04-01

Family

ID=71683413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237780.7A Active CN111460981B (zh) 2020-03-30 2020-03-30 一种基于重构跨域视频生成对抗网络模型的微表情识别方法

Country Status (1)

Country Link
CN (1) CN111460981B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112365403B (zh) * 2020-11-20 2022-12-27 山东大学 一种基于深度学习和相邻帧的视频超分辨率恢复方法
CN112381036A (zh) * 2020-11-26 2021-02-19 厦门大学 一种应用于刑侦的微表情与宏表情片段识别方法
CN113343761A (zh) * 2021-05-06 2021-09-03 武汉理工大学 一种基于生成对抗的实时人脸表情迁移方法
CN113392822B (zh) * 2021-08-18 2021-10-29 华中科技大学 基于特征分离表征学习的面部运动单元检测方法及系统
CN114627218B (zh) * 2022-05-16 2022-08-12 成都市谛视无限科技有限公司 一种基于虚拟引擎的人脸细微表情捕捉方法及装置
CN115050081B (zh) * 2022-08-12 2022-11-25 平安银行股份有限公司 表情样本生成方法、表情识别方法、装置及终端设备
CN116311483B (zh) * 2023-05-24 2023-08-01 山东科技大学 基于局部面部区域重构和记忆对比学习的微表情识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273876A (zh) * 2017-07-18 2017-10-20 山东大学 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法
CN108629314A (zh) * 2018-05-07 2018-10-09 山东大学 一种基于主动迁移学习的微表情识别方法
CN109409199A (zh) * 2018-08-31 2019-03-01 百度在线网络技术(北京)有限公司 微表情训练方法、装置、存储介质及电子设备
CN109409287A (zh) * 2018-10-25 2019-03-01 山东大学 一种由宏表情到微表情的迁移学习方法
CN109543603A (zh) * 2018-11-21 2019-03-29 山东大学 一种基于宏表情知识迁移的微表情识别方法
CN109657554A (zh) * 2018-11-21 2019-04-19 腾讯科技(深圳)有限公司 一种基于微表情的图像识别方法、装置以及相关设备
CN110175505A (zh) * 2019-04-08 2019-08-27 北京网众共创科技有限公司 微表情类型的确定方法、装置、存储介质及电子装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273876A (zh) * 2017-07-18 2017-10-20 山东大学 一种基于深度学习的‘宏to微转换模型’的微表情自动识别方法
CN108629314A (zh) * 2018-05-07 2018-10-09 山东大学 一种基于主动迁移学习的微表情识别方法
CN109409199A (zh) * 2018-08-31 2019-03-01 百度在线网络技术(北京)有限公司 微表情训练方法、装置、存储介质及电子设备
CN109409287A (zh) * 2018-10-25 2019-03-01 山东大学 一种由宏表情到微表情的迁移学习方法
CN109543603A (zh) * 2018-11-21 2019-03-29 山东大学 一种基于宏表情知识迁移的微表情识别方法
CN109657554A (zh) * 2018-11-21 2019-04-19 腾讯科技(深圳)有限公司 一种基于微表情的图像识别方法、装置以及相关设备
CN110175505A (zh) * 2019-04-08 2019-08-27 北京网众共创科技有限公司 微表情类型的确定方法、装置、存储介质及电子装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Macro-to-micro transformation model for micro-expression recognition;Xitong jia,Xianye Ben,Hui Yuan;《Journal of Computational Science》;20180331;全文 *
宏信息辅助的微表情识别研究;贾希彤;《知网硕士电子期刊》;20190115;全文 *
宏表情到微表情的迁移学习模型研究;冯云聪;《知网硕士电子期刊》;20190115;全文 *

Also Published As

Publication number Publication date
CN111460981A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460981B (zh) 一种基于重构跨域视频生成对抗网络模型的微表情识别方法
Takalkar et al. Image based facial micro-expression recognition using deep learning on small datasets
CN106919903B (zh) 一种鲁棒的基于深度学习的连续情绪跟踪方法
Susskind et al. Generating facial expressions with deep belief nets
Sun et al. Facial age synthesis with label distribution-guided generative adversarial network
Pham et al. Generative adversarial talking head: Bringing portraits to life with a weakly supervised neural network
Fernando et al. Exploiting human social cognition for the detection of fake and fraudulent faces via memory networks
Sharma et al. Vision-based sign language recognition system: A Comprehensive Review
Chen et al. Long-term video prediction via criticization and retrospection
Wang et al. Laun improved stargan for facial emotion recognition
CN113807265A (zh) 一种多样化的人脸图像合成方法及系统
Fernando et al. Detection of fake and fraudulent faces via neural memory networks
Gupta et al. Rv-gan: Recurrent gan for unconditional video generation
Kim et al. Attended relation feature representation of facial dynamics for facial authentication
Dimlo et al. Innovative method for face emotion recognition using hybrid deep neural networks
Liu et al. A3GAN: An attribute-aware attentive generative adversarial network for face aging
Buchsbaum et al. Segmenting and recognizing human action using low-level video features
Tellamekala et al. Are 3d face shapes expressive enough for recognising continuous emotions and action unit intensities?
Bie et al. Facial expression recognition from a single face image based on deep learning and broad learning
Guo et al. Facial expression recognition: a review
Gupta et al. Survey paper on gender and emotion classification using facial expression detection
Wang et al. PAU-Net: Privileged Action Unit Network for Facial Expression Recognition
Singh et al. Facial emotion detection using action units
George et al. Real-time deep learning based system to detect suspicious non-verbal gestures
Roy Applying aging effect on facial image with multi-domain generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant