CN110210429A

CN110210429A - 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法

Info

Publication number: CN110210429A
Application number: CN201910490854.5A
Authority: CN
Inventors: 贲晛烨; 李梦雅; 周洪超; 许宏吉; 魏文辉; 贾文强; 党杰
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-09-06
Anticipated expiration: 2039-06-06
Also published as: CN110210429B

Abstract

本发明涉及一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，设计了两个生成器，三个判别器，生成器包括图像生成器和运动生成器，判别器包括图像判别器、运动判别器和光流判别器，运动生成器生成运动特征向量，图片生成器生成表情序列，图像判别器判断生成视频图片内容的真假，运动判别器判别生成视频运动轨迹的是否符合运动规律，光流判别器判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律，使生成视频的脸部运动更加连贯和真实，判别器将判别的结果返回图像生成器，生成器修改生成的视频使判别器的结果更好，通过多次迭代，生成以假乱真的表情视频片，提高了视频的分辨率和真实度，鲁棒性高。

Description

一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法

技术领域

本发明属于模式识别以及计算机视觉技术领域，具体涉及到一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法。

背景技术

近年来，随着大数据、图形计算硬件等技术条件的发展，深度学习模型受到越来越多的关注，尤其是生成对抗网络(GAN)，它以无监督方式学习目标分布，在多种应用中展示了巨大的潜力。随着图像生成的稳步进展，视频生成问题也成为了人们研究的重点。尽管生成视频只比生成图像扩展了一个维度，但是通常被认为更加困难。首先，由于视频是执行各种动作对象的视觉信息的时空记录，生成模型除了学习它们的外观模型之外还需要学习其物理运动模型。其次，人类对视频更加敏感，对生成视频中运动的连贯性和真实性都要求更高。

焦虑、抑郁、愤怒是一组AU单元相似很难分辨的表情。抑郁是一种持久的心境低落状态，抑郁症患者的情绪主要为蔑视、厌恶以及悲伤，面部表情经常会出现皱眉，嘟嘴等动作；焦虑是一种无明确客观对象下紧张担心的心理状态，焦虑症患者会莫名紧张、恐惧，经常出现皱眉，抿嘴等面部动作。除了抑郁、焦虑，愤怒是人们六种基本情绪之一，也是另外一种更为负面的情绪，人们在愤怒的时候多会皱眉同时瞪眼。AU单元是面部行为编码系统，通常我们采用AU单元来标识情绪。通常焦虑表现为AU4+AU14，即皱眉并抿嘴，抑郁表现为AU10+AU17，即皱鼻并嘟嘴，愤怒表现为 AU4+AU5，即皱眉并瞪眼，AU4是指皱眉，AU14是指抿嘴，AU10是指皱鼻，AU17是指嘟嘴，AU5是指瞪眼，这三类情绪通常交杂出现，十分相似，非专业人士很难分辨。近年来，人们更多的采用特征提取的方法对焦虑、抑郁、愤怒进行分类，因为这三种表情AU单元相似很难分辨，所以识别率较低。

基于对抗生成网络视频生成的研究近几年吸引了大量研究者的研究兴趣。2017年，Sergey Tulyakov等人发表了一种分解运动和内容的视频生成方法，将一系列随机向量映射到一系列帧。他们的框架将视频分解为内容子空间和运动子空间，使得视频生成过程更加可控。但是，该模型是无监督的，生成的视频不能帮助视频的分类，同年，Yunjey Choi等人发表了StarGAN，用于多域图像到图像转换的生成对抗网络，但是，该网络生成的是几张图片，在动作上不是连续的。2018 年，Dinesh Acharya等人提出了VideoGAN，将场景的前景与背景分解开，该模型适用于简单微小的运动场景。但是，这些方法针对AU单元相似的焦虑、抑郁、愤怒表情的生成都有一定的缺点，所以需要更高的分辨率和更加细致的物理运动模型。

发明内容

针对目前传统方法和深度学习算法对AU单元相似的焦虑、抑郁、愤怒表情识别率较低的难题，本发明提出了一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法。

与现有方法相比，针对焦虑、抑郁、愤怒表情视频的特点，本发明提出的方法更加关注生成视频的标签、清晰度和运动模型，设计了两个生成器，三个判别器的模型，生成器包括图像生成器和运动生成器，判别器包括图像判别器、运动判别器和光流判别器，运动生成器生成运动特征向量，图片生成器生成表情序列，图像判别器判断生成视频图片内容的真假，运动判别器判别生成视频运动轨迹的是否符合运动规律，光流判别器通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律，使生成视频的脸部运动更加连贯和真实，判别器将判别的结果返回图像生成器，生成器修改生成的视频使判别器的结果更好，两者相互博弈，通过多次迭代，生成以假乱真的表情视频片，本专利提高了表情生成片段的质量，提高了视频的分辨率和真实度，是一种具有高鲁棒性的生成算法。将生成的焦虑、抑郁、愤怒表情视频作为数据增强的样本输入焦虑、抑郁、愤怒表情的识别网络，有效提高了三种表情的识别正确率。

本发明与其它识别方法相比，将基于对抗生成网络生成的焦虑、抑郁、愤怒表情应用于识别网络中，使识别性能得到了有效提高。

术语解释：

1、卷积操作，作用类似神经网络中的编码器，用于对高维数据进行低维特征提取。反卷积通常用于将低维特征映射成高维输入，与卷积操作的作用相反。

2、卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。

3、生成式对抗网络，是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型和判别模型的互相博弈学习产生相当好的输出。原始GAN理论中，并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。生成模型：对联合概率进行建模，从统计的角度表示数据的分布情况，刻画数据是如何生成的，收敛速度快，例如朴素贝叶斯，GDA，HMM等。判别模型：对条件概率P(Y|X)进行建模，不关心数据如何生成，主要是寻找不同类别之间的最优分类面，例如LR，SVM等。

4、KL散度，是描述两个概率分布p和q差异的一种方法。

5、交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离，也就是交叉熵的值越小，两个概率分布就越接近。假设概率分布p为期望输出(标签)，概率分布q为实际输出，H(p,q)为交叉熵。

6、GRU网络，GRU即Gated Recurrent Unit。

7、运动特征张量，是反卷积后生成的一个帧数*60的张量，控制视频的时序，用于图像序列的生成。

8、稠密光流的方法，是一种针对图像进行逐点匹配的图像配准方法，计算图像上所有的点的偏移量，形成一个稠密的光流场。

9、ResNet网络：ResNet即Residual Neural Network，传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。ResNet 的主要思想是在网络中增加了直连通道，即HighwayNetwork的思想。此前的网络结构是性能输入做一个非线性变换，而Highway Network则允许保留之前网络层的一定比例的输出。ResNet允许原始输入信息直接传到后面的层中，这样的话这一层的神经网络可以不用学习整个的输出，而是学习上一个网络输出的残差，因此ResNet又叫做残差网络。ResNet的结构可以极快的加速神经网络的训练，模型的准确率也有比较大的提升。同时ResNet的推广性非常好，甚至可以直接用到 InceptionNet网络中。

10、LSTM网络：LSTM即Long Short-Term Memory，是长短期记忆网络，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为 cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM 的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

11、ConvLSTM网络：ConvLSTM核心本质还是和LSTM一样，将上一层的输出作下一层的输入。不同的地方在于加上卷积操作之后，为不仅能够得到时序关系，还能够像卷积层一样提取特征，提取空间特征。这样就能够得到时空特征。并且将状态与状态之间的切换也换成了卷积计算。

12、注意力机制：使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入序列进行学习，编码为固定长度的向量表示；然后再用一些LSTM单元来读取这种向量表示并解码为输出序列。这种结构在很多其他的领域上也取得了不错的结果。然而，它存在一个问题在于：输入序列不论长短都会被编码成一个固定长度的向量表示，而解码则受限于该固定长度的向量表示。这个问题限制了模型的性能，尤其是当输入序列比较长时，模型的性能会变得很差。Attention机制的基本思想是，打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。Attention 机制的实现是通过保留LSTM编码器对输入序列的中间输出结果，然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。虽然模型使用attention机制之后会增加计算量，但是性能水平能够得到提升。另外，使用attention机制便于理解在模型输出过程中输入序列中的信息是如何影响最后生成序列的。

本发明的技术方案如下：

一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，该方法运行于两个生成器及三个判别器上，

两个生成器包括图像生成器和运动生成器，三个判别器包括图像判别器、运动判别器和光流判别器，运动生成器用于生成运动特征向量，图像生成器用于生成表情序列，图像判别器用于判断生成视频图片内容的真假，运动判别器用于判别生成的视频运动轨迹是否符合运动规律，光流判别器用于通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律，使生成视频的脸部运动更加连贯和真实，图像判别器的损失函数和光流判别器的损失函数的判别结果返回至图像生成器，运动判别器的损失函数的判别结果返回至运动生成器，运动生成器和图像生成器通过损失函数的结果修改生成的视频使图像判别器、运动判别器和光流判别器的结果更优，两者相互博弈，通过多次迭代，生成以假乱真的表情视频片，包括步骤如下：

A、生成阶段

(1)随机产生一个张量作为噪声，输入运动生成器，通过GRU网络输出维度为帧数*60的运动特征张量，将运动特征张量输入有监督的图像生成器，通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列；

(2)将SDU表情数据库(真实数据库)中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的图像序列，通过稠密光流的方法求出光流图像序列；

(3)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和随机在SDU表情数据库中抽取的真实的表情视频输入图像判别器，通过卷积网络输出判断生成视频图片内容的概率分布，最小化图像生成器的损失函数，最大化图像判别器的损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的图像；图像生成器输出的是2*1的可以表示概率分布的张量，例如，0.8、 0.2接近1、0，此时卷积网络判断图像是真实的，与0.9、0.1求交叉熵得0.5，若输出是0.3、0.7 接近0、1，则卷积网络判断图像是假的，与0.9、0.1求交叉熵得1.6，图像生成器使下一次生成数据的交叉熵损失函数越来越小，使生成的图像越来越真实。

(4)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入运动判别器，通过卷积网络输出判断符合表情运动规律的概率分布，最小化运动生成器的损失函数，最大化运动判别器的损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的运动规律；图像生成器输出的是输出的是2*1的可以表示概率分布的张量，例如0.8、0.2接近1、0，此时卷积网络判断运动是真实的，与0.9、0.1求交叉熵得0.5，若输出是0.3、0.7接近0、1，则卷积网络判断运动是假的，与0.9、0.1求交叉熵得1.6，图像生成器使下一次生成数据的交叉熵损失函数越来越小，使生成的运动越来越真实。

(5)将步骤(2)生成的光流图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入光流判别器，通过卷积网络输出判断符合光流变化规律的概率分布；求KL散度的值，针对光流判别器最大化KL散度损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的运动规律；图像生成器输出的是输出的是2*1的可以表示概率分布的张量，例如0.8、 0.2接近1、0，此时卷积网络判断图像是真实的，与0.9、0.1求KL散度得0.01，若输出是0.3、 0.7接近0、1，则卷积网络判断图像是假的，与0.9、0.1求KL散度得0.44，图像生成器使下一次生成数据的KL散度越来越小，使生成的光流变化越来越真实。

(6)将步骤(4)、(5)的结果汇总，返回至图像生成器，将步骤(3)的结果返回至运动生成器，调整图像生成器与运动生成器的参数，使下一次的图像生成器和运动生成器生成更好的能骗过图像判别器、运动判别器和光流判别器的表情片段，通过多次迭代，生成分辨率较高动作流畅图像真实的表情视频；比如，这一次生成器生成的图片序列被判定为假的，则生成器调整参数，把参数往判别器判定为真的方向上调整，这样使生成的视频越来越趋向于真的。

B、识别阶段

将通过多次迭代后步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列作为数据增强的样本，输入并训练表情识别网络中，表情识别网络为ResNet+ConvLSTM网络或者加入注意力机制的 ResNet+ConvLSTM网络。

根据本发明优选的，所述步骤(3)中，定义噪声为z，是指噪声是d维的实数；是指实数集，d是指维数，定义图像生成器为G_i，i是指图像(image)，G是指生成器(generator)，定义图像判别器为D_i，D是discriminator判别器，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即图像判别器卷积目标生成的表情序列的输出，最小化图像生成器的损失函数，最大化图像判别器的损失函数，更新卷积网络，如式(Ⅰ)所示：

式(Ⅰ)中，指p_data概率分布的期望，x～p_z指数据x服从p_z的概率分布，D_i(x)是真实数据通过图像判别器后的输出，z是运动生成器的输出，G_i(z)是z输入图像生成器的输出，

D_i(G_i(z))是z输入图像生成器的输出输入图像判别器的输出。

V(G_i,D_i)整体的loss函数用V(G_i,D_i)表示。该损失函数整体采用交叉熵损失函数，通过无监督的方式生成表情序列；

根据本发明优选的，所述步骤(4)中，定义运动生成器为G_v，定义运动判别器定义为D_v,最小化运动生成器的损失函数，最大化运动判别器的损失函数，更新卷积网络，如式(Ⅱ)所示：

该损失函数整体采用交叉熵损失函数，y作为约束条件，通过有监督的学习，生成指定标签的面部表情序列。

根据本发明优选的，所述步骤(5)中，光流场是用于描述三维空间中的运动物体表现到二维图像中，所反映出的像素点的运动向量场。光光流法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的上一帧跟当前帧间存在的对应关系，计算出相邻帧之间物体的运动信息的一种方法。在本发明中，我们用了一种广泛使用的密集光流算法的经典方法：Farneback光流算法。根据光学流动的基本假设，光流的变化(向量场)几乎是光滑。

每个像素点都有着初始位移(最开始设置为全0变量)，将上一帧的初始位移增加到第一帧图像上的像素点位置x上，得到此像素点在下一帧图像上的大致位置如式(Ⅲ)所示：

计算中间变量A(x)，△b(x)，如式(Ⅳ)、式(Ⅴ)所示：

求取光学流动，光学流动的梯度方程如式(Ⅵ)所示：

d_out(x)＝G_avg(x)^-1h_avg(x) (Ⅵ)

G_avg(x)＝S(x)^TA(x)^TA(x)S(x)，h_avg(x)＝S(x)^TA(x)^T△b(x)，S(x)为尺度缩放矩阵；

根据真实表情的光流序列和生成表情的光流序列特点，我们利用KL散度作为损失函数衡量真实表情的光流序列和生成表情的光流差异，并将结果返回图像生成器，使生成的表情符合同一类别真实表情的光流变化规律。针对光流判别器最大化KL散度损失函数，更新卷积网络，如式(Ⅶ) 所示：

式(Ⅷ)中，x表示真实数据，即真实表情序列，z是运动生成器的输出，G_i(z)是z输入图像生成器的输出，即生成的表情序列，d_out(x)真实数据的稠密光流的输出结果，d_out(G_i(z))即生成数据稠密光流的输出结果，D_f(d_out(x))是真实数据的稠密光流的光流判别器的输出结果， D_f(d_out(G_i(z)))生成数据稠密光流的光流判别器的输出结果，KL(D_f(d_out(x))||D_f(d_out(G_i(z))))表示KL散度，为整体的损失函数。式(Ⅷ)中，对于上述损失函数，采用梯度下降算法，多次迭代达到最优效果，保存模型。

本发明的有益效果为：

本发明基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法，基于焦虑、抑郁、愤怒表情样本较少难采集导致识别正确率低的现状，首先基于光流、图像、运动对抗生成网络生成这三类表情，然后将生成的带标签的三类表情作为数据增强的样本加入训练集中，有效提高了焦虑、抑郁、愤怒表情的识别正确率。

附图说明

图1本发明基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法流程图；

图2本发明生成阶段流程图；

图3本发明识别阶段流程图；

图4生成表情视频的展示图；

图5生成表情视频的Farneback光流展示图；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，如图1所示，该方法运行于两个生成器及三个判别器上，

A、生成阶段，如图2所示：

(1)SDU表情数据库是焦虑、抑郁、愤怒的情绪心理数据集，样本是自发的表情，通过表情展现测试对象的情绪心理，是由山东大学数据智能实验室使用高清摄像头录制，表情视频面部分辨率为640×480，帧速率为25帧/秒，共有105个表情视频，依据Facs版本的提示完成表情标注，其中，焦虑36个，抑郁37个，愤怒32个。

通过TIM算法将SDU数据集中的表情序列插值为16帧256*256大小，统一训练集，将SDU表情数据库中的焦虑、抑郁、愤怒表情随机分成五份，取其中的四份作为真实样本输入基于光流、图像、运动对抗生成网络；

随机产生一个(60*1)维度的张量作为噪声，输入运动生成器，通过GRU网络输出(16*60)维度的运动特征张量，

将运动特征张量输入有监督的图像生成器，通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列；运动生成器包含十六个部分，每一部分包含一个GRUCell层和一个全连接层，输出结果将这十六部分的结果组成一个张量；将(16*60)维度的运动特征向量输入有监督的图像生成器，输出有标签的(16*3*256*256)维度的表情图像序列；图像生成器包含七个部分，第一部分到第六部分结构相同，包含一个二维反卷积层，一个BatchNorm2d层和一个RELU层，第七部分包含一个二维反卷积层和一个Tanh层；

(2)将SDU表情数据库(真实数据库)中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的 (16*3*256*256)维度的图像序列，如图4所示，通过稠密光流的方法求出(16*3*256*256)维度的光流图像序列；

图像判别器包含五个部分，第一部分包括一个二维卷积层和一个LeakyReLU层，第二部分到第四部分有相同的结构，包含一个二维卷积层、一个BatchNorm2d层和一个LeakyReLU层，第五部分包含一个二维卷积层和一个Sigmoid层。

运动判别器包含五个部分，第一部分包含一个三维卷积层和一个LeakyReLU层，第二部分到第四部分有相同的结构，包含一个三维卷积层、一个BatchNorm2d层和一个LeakyReLU层，第五部分包含一个全连接层和一个Sigmoid层。

光流判别器包含五个部分，第一部分包含一个三维卷积层和一个LeakyReLU层，第二部分到第四部分有相同的结构，包含一个三维卷积层、一个BatchNorm2d层和一个LeakyReLU层，第五部分包含一个全连接层和一个Sigmoid层。表情视频的Farneback光流展示如图5所示。

B、识别阶段，如图3所示：

实施例2

根据实施例1所述一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，

步骤(3)中，定义噪声为z，是指噪声是d维的实数；是指实数集，d是指维数，定义图像生成器为G_i，i是指图像(image)，G是指生成器(generator)，定义图像判别器为D_i， D是discriminator判别器，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即图像判别器卷积目标生成的表情序列的输出，最小化图像生成器的损失函数，最大化图像判别器的损失函数，更新卷积网络，如式(Ⅰ)所示：

式(Ⅰ)中，指p_data概率分布的期望，x～p_z指数据x服从p_z的概率分布，D_i(x)是真实数据通过图像判别器后的输出，z是运动生成器的输出，G_i(z)是z输入图像生成器的输出， D_i(G_i(z))是z输入图像生成器的输出输入图像判别器的输出。

步骤(4)中，定义运动生成器为G_v，定义运动判别器定义为D_v,最小化运动生成器的损失函数，最大化运动判别器的损失函数，更新卷积网络，如式(Ⅱ)所示：

步骤(5)中，光流场是用于描述三维空间中的运动物体表现到二维图像中，所反映出的像素点的运动向量场。光光流法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的上一帧跟当前帧间存在的对应关系，计算出相邻帧之间物体的运动信息的一种方法。在本发明中，我们用了一种广泛使用的密集光流算法的经典方法：Farneback光流算法。根据光学流动的基本假设，光流的变化(向量场)几乎是光滑。

计算中间变量A(x)，△b(x)，如式(Ⅳ)、式(Ⅴ)所示：

求取光学流动，光学流动的梯度方程如式(Ⅵ)所示：

d_out(x)＝G_avg(x)^-1h_avg(x) (Ⅵ)

实验一：将数据集随机分成五份，其中一份做测试集，其余四份做训练集和验证集，输入 ResNet+ConvLSTM网络，到分类的结果。

实验二：将数据库随机分成五份，用其中四份通过图像运动光流分解的对抗生成网络生成的表情视频，选择出质量比较好的表情片段做数据扩充和原始的四份表情输入分类网络，测试集是剩余的一份，输入ResNet+ConvLSTM网络，得到分类的结果。

为验证将生成样本加入焦虑、抑郁、愤怒表情识别网络作为数据增强样本的有效性，采用上述生成方法，将识别方法中的表情识别网络加入注意力机制，重复上述实验试一、二步骤，验证基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法的有效性。

一般情况下，ConvLSTM可以用下面六个公式来描述：

i_t＝σ(W_xi*X_t+W_hi*H_t-1+b_i) (Ⅷ)

f_t＝σ(W_xf*X_t+W_hf*H_t-1+b_f) (Ⅸ)

o_t＝σ(W_xo*X_t+W_ho*H_t-1+b_o) (Ⅹ)

G_t＝tanh(W_xc*X_t+W_hc*H_t-1+b_c) (Ⅺ)

加入注意力机制可以表示：

Z_t＝W_z*tanh(W_xa*X_t+W_ha*H_t-1+b_a) (XIV)

用代替ConvLSTM六个公式中的X_t，加入注意力机制有效的提高了传统ConvLSTM的识别率。

实验三：将数据集随机分成五份，其中一份做测试集，其余四份做测试集和验证集，输入加入注意力机制的ResNet+ConvLSTM网络，到分类的结果。

实验四：将数据库随机分成五份，用其中四份通过图像运动光流分解的GAN网络生成的表情视频，选择出质量比较好的表情片段做数据扩充和原始的四份表情输入分类网络，测试集是剩余的一份，输入加入注意力机制ResNet+ConvLSTM网络，得到分类结果。表1为SDU表情数据库表情识别成绩表。

表1

实验结果显示基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在SDU 表情数据库上获得了89.1％的识别正确率，比未加入基于光流、图像、运动对抗生成网络生成的表情片段做数据增强的识别方法高出8.8％，基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在加入注意力机制的识别网络SDU表情数据库上获得了92.2％的识别正确率，比未加入基于光流、图像、运动对抗生成网络生成的表情片段做数据增强的识别方法高出11.1％，证明本发明提出方法的有效性。

表2和表3为SDU表情数据库实验二和实验四中表情识别结果，假设样本数量为M_总，成功检测数量为M_成功，则每种识别率f可表示为：

表2

表2结果：愤怒标签为0，焦虑标签为1，抑郁标签为2；

预测结果为：0,2,1,0,1,1,2,0，0,2,0,1,1,1,2,2，1,1,1,0

真实结果为：0,2,1,0,1,1,2,0，0,2,0,1,0,2,2,2，1,1,1,0)

表3

表3结果：愤怒标签为0，焦虑标签为1，抑郁标签为2

预测结果为：0,2,1,0,1,1,2,0，0,2,0,1,0,2,2,2，1,2,1,0

真实结果为：0,2,1,0,1,1,2,0，0,2,0,1,0,2,2,2，1,1,1,0)

检测结果显示基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在SDU 表情数据库上焦虑、抑郁、愤怒识别正确率较高，证明了本方法进行表情识别的有效性，能够高效的识别视频中识别对象的情绪心理。

Claims

1.一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，其特征在于，该方法运行于两个生成器及三个判别器上，两个生成器包括图像生成器和运动生成器，三个判别器包括图像判别器、运动判别器和光流判别器，运动生成器用于生成运动特征向量，图像生成器用于生成表情序列，图像判别器用于判断生成视频图片内容的真假，运动判别器用于判别生成的视频运动轨迹是否符合运动规律，光流判别器用于通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律，使生成视频的脸部运动更加连贯和真实，图像判别器的损失函数和光流判别器的损失函数的判别结果返回至图像生成器，运动判别器的损失函数的判别结果返回至运动生成器，运动生成器和图像生成器通过损失函数的结果修改生成的视频使图像判别器、运动判别器和光流判别器的结果更优，通过多次迭代，生成表情视频片，包括步骤如下：

A、生成阶段

(1)随机产生一个张量作为噪声，输入运动生成器，通过GRU网络输出维度为帧数*60的运动特征张量，将运动特征张量输入图像生成器，通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列；

(2)将SDU表情数据库中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的图像序列，通过稠密光流的方法求出光流图像序列；

(3)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和随机在SDU表情数据库中抽取的真实的表情视频输入图像判别器，通过卷积网络输出判断生成视频图片内容的概率分布，最小化图像生成器的损失函数，最大化图像判别器的损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的图像；

(4)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入运动判别器，通过卷积网络输出判断符合表情运动规律的概率分布，最小化运动生成器的损失函数，最大化运动判别器的损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的运动规律；

(5)将步骤(2)生成的光流图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入光流判别器，通过卷积网络输出判断符合光流变化规律的概率分布；求KL散度的值，针对光流判别器最大化KL散度损失函数，更新卷积网络，使生成的表情序列更贴近真实的表情序列的运动规律；

(6)将步骤(4)、(5)的结果汇总，返回至图像生成器，将步骤(3)的结果返回至运动生成器，调整图像生成器与运动生成器的参数，通过多次迭代，生成真实的表情视频；

B、识别阶段

将通过多次迭代后步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列作为数据增强的样本，输入并训练表情识别网络中，表情识别网络为ResNet+ConvLSTM网络或者加入注意力机制的ResNet+ConvLSTM网络。

2.根据权利要求1所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，其特征在于，所述步骤(3)中，定义噪声为z，是指噪声是d维的实数；是指实数集，d是指维数，定义图像生成器为G_i，i是指图像，G是指生成器，定义图像判别器为D_i，D是discriminator判别器，x～p_data表示真实数据的概率分布，指数据x服从p_data的概率分布，即图像判别器卷积真实表情序列的输出，x～p_z表示目标生成数据的概率分布，即图像判别器卷积目标生成的表情序列的输出，最小化图像生成器的损失函数，最大化图像判别器的损失函数，更新卷积网络，如式(Ⅰ)所示：

式(Ⅰ)中，指p_data概率分布的期望，x～p_z指数据x服从p_z的概率分布，D_i(x)是真实数据通过图像判别器后的输出，z是运动生成器的输出，G_i(z)是z输入图像生成器的输出，D_i(G_i(z))是z输入图像生成器的输出输入图像判别器的输出。

3.根据权利要求1所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，其特征在于，所述步骤(4)中，定义运动生成器为G_v，定义运动判别器定义为D_v,最小化运动生成器的损失函数，最大化运动判别器的损失函数，更新卷积网络，如式(II)所示：

4.根据权利要求1-3任一所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法，其特征在于，所述步骤(5)中，每个像素点都有着初始位移，将上一帧的初始位移增加到第一帧图像上的像素点位置x上，得到此像素点在下一帧图像上的大致位置如式(Ⅲ)所示：

计算中间变量A(x)，△b(x)，如式(Ⅳ)、式(Ⅴ)所示：

求取光学流动，光学流动的梯度方程如式(Ⅵ)所示：

d_out(x)＝G_avg(x)^-1h_avg(x) (Ⅵ)

针对光流判别器最大化KL散度损失函数，更新卷积网络，如式(Ⅶ)所示：

式(Ⅷ)中，x表示真实数据，即真实表情序列，z是运动生成器的输出，G_i(z)是z输入图像生成器的输出，即生成的表情序列，d_out(x)真实数据的稠密光流的输出结果，d_out(G_i(z))即生成数据稠密光流的输出结果，D_f(d_out(x))是真实数据的稠密光流的光流判别器的输出结果，D_f(d_out(G_i(z)))生成数据稠密光流的光流判别器的输出结果，KL(D_f(d_out(x))||D_f(d_out(G_i(z))))表示KL散度，为整体的损失函数。