CN110210429A - 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 - Google Patents
一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 Download PDFInfo
- Publication number
- CN110210429A CN110210429A CN201910490854.5A CN201910490854A CN110210429A CN 110210429 A CN110210429 A CN 110210429A CN 201910490854 A CN201910490854 A CN 201910490854A CN 110210429 A CN110210429 A CN 110210429A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- arbiter
- light stream
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,设计了两个生成器,三个判别器,生成器包括图像生成器和运动生成器,判别器包括图像判别器、运动判别器和光流判别器,运动生成器生成运动特征向量,图片生成器生成表情序列,图像判别器判断生成视频图片内容的真假,运动判别器判别生成视频运动轨迹的是否符合运动规律,光流判别器判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律,使生成视频的脸部运动更加连贯和真实,判别器将判别的结果返回图像生成器,生成器修改生成的视频使判别器的结果更好,通过多次迭代,生成以假乱真的表情视频片,提高了视频的分辨率和真实度,鲁棒性高。
Description
技术领域
本发明属于模式识别以及计算机视觉技术领域,具体涉及到一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法。
背景技术
近年来,随着大数据、图形计算硬件等技术条件的发展,深度学习模型受到越来越多的关注,尤其是生成对抗网络(GAN),它以无监督方式学习目标分布,在多种应用中展示了巨大的潜力。随着图像生成的稳步进展,视频生成问题也成为了人们研究的重点。尽管生成视频只比生成图像扩展了一个维度,但是通常被认为更加困难。首先,由于视频是执行各种动作对象的视觉信息的时空记录,生成模型除了学习它们的外观模型之外还需要学习其物理运动模型。其次,人类对视频更加敏感,对生成视频中运动的连贯性和真实性都要求更高。
焦虑、抑郁、愤怒是一组AU单元相似很难分辨的表情。抑郁是一种持久的心境低落状态,抑郁症患者的情绪主要为蔑视、厌恶以及悲伤,面部表情经常会出现皱眉,嘟嘴等动作;焦虑是一种无明确客观对象下紧张担心的心理状态,焦虑症患者会莫名紧张、恐惧,经常出现皱眉,抿嘴等面部动作。除了抑郁、焦虑,愤怒是人们六种基本情绪之一,也是另外一种更为负面的情绪,人们在愤怒的时候多会皱眉同时瞪眼。AU单元是面部行为编码系统,通常我们采用AU单元来标识情绪。通常焦虑表现为AU4+AU14,即皱眉并抿嘴,抑郁表现为AU10+AU17,即皱鼻并嘟嘴,愤怒表现为 AU4+AU5,即皱眉并瞪眼,AU4是指皱眉,AU14是指抿嘴,AU10是指皱鼻,AU17是指嘟嘴,AU5是指瞪眼,这三类情绪通常交杂出现,十分相似,非专业人士很难分辨。近年来,人们更多的采用特征提取的方法对焦虑、抑郁、愤怒进行分类,因为这三种表情AU单元相似很难分辨,所以识别率较低。
基于对抗生成网络视频生成的研究近几年吸引了大量研究者的研究兴趣。2017年,Sergey Tulyakov等人发表了一种分解运动和内容的视频生成方法,将一系列随机向量映射到一系列帧。他们的框架将视频分解为内容子空间和运动子空间,使得视频生成过程更加可控。但是,该模型是无监督的,生成的视频不能帮助视频的分类,同年,Yunjey Choi等人发表了StarGAN,用于多域图像到图像转换的生成对抗网络,但是,该网络生成的是几张图片,在动作上不是连续的。2018 年,Dinesh Acharya等人提出了VideoGAN,将场景的前景与背景分解开,该模型适用于简单微小的运动场景。但是,这些方法针对AU单元相似的焦虑、抑郁、愤怒表情的生成都有一定的缺点,所以需要更高的分辨率和更加细致的物理运动模型。
发明内容
针对目前传统方法和深度学习算法对AU单元相似的焦虑、抑郁、愤怒表情识别率较低的难题,本发明提出了一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法。
与现有方法相比,针对焦虑、抑郁、愤怒表情视频的特点,本发明提出的方法更加关注生成视频的标签、清晰度和运动模型,设计了两个生成器,三个判别器的模型,生成器包括图像生成器和运动生成器,判别器包括图像判别器、运动判别器和光流判别器,运动生成器生成运动特征向量,图片生成器生成表情序列,图像判别器判断生成视频图片内容的真假,运动判别器判别生成视频运动轨迹的是否符合运动规律,光流判别器通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律,使生成视频的脸部运动更加连贯和真实,判别器将判别的结果返回图像生成器,生成器修改生成的视频使判别器的结果更好,两者相互博弈,通过多次迭代,生成以假乱真的表情视频片,本专利提高了表情生成片段的质量,提高了视频的分辨率和真实度,是一种具有高鲁棒性的生成算法。将生成的焦虑、抑郁、愤怒表情视频作为数据增强的样本输入焦虑、抑郁、愤怒表情的识别网络,有效提高了三种表情的识别正确率。
本发明与其它识别方法相比,将基于对抗生成网络生成的焦虑、抑郁、愤怒表情应用于识别网络中,使识别性能得到了有效提高。
术语解释:
1、卷积操作,作用类似神经网络中的编码器,用于对高维数据进行低维特征提取。反卷积通常用于将低维特征映射成高维输入,与卷积操作的作用相反。
2、卷积神经网络,是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。
3、生成式对抗网络,是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成模型和判别模型的互相博弈学习产生相当好的输出。原始GAN理论中,并不要求G和D都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。生成模型:对联合概率进行建模,从统计的角度表示数据的分布情况,刻画数据是如何生成的,收敛速度快,例如朴素贝叶斯,GDA,HMM等。判别模型:对条件概率P(Y|X)进行建模,不关心数据如何生成,主要是寻找不同类别之间的最优分类面,例如LR,SVM等。
4、KL散度,是描述两个概率分布p和q差异的一种方法。
5、交叉熵刻画的是实际输出(概率)与期望输出(概率)的距离,也就是交叉熵的值越小,两个概率分布就越接近。假设概率分布p为期望输出(标签),概率分布q为实际输出,H(p,q)为交叉熵。
6、GRU网络,GRU即Gated Recurrent Unit。
7、运动特征张量,是反卷积后生成的一个帧数*60的张量,控制视频的时序,用于图像序列的生成。
8、稠密光流的方法,是一种针对图像进行逐点匹配的图像配准方法,计算图像上所有的点的偏移量,形成一个稠密的光流场。
9、ResNet网络:ResNet即Residual Neural Network,传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失,损耗等问题,同时还有导致梯度消失或者梯度爆炸,导致很深的网络无法训练。ResNet在一定程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络只需要学习输入、输出差别的那一部分,简化学习目标和难度。ResNet 的主要思想是在网络中增加了直连通道,即HighwayNetwork的思想。此前的网络结构是性能输入做一个非线性变换,而Highway Network则允许保留之前网络层的一定比例的输出。ResNet允许原始输入信息直接传到后面的层中,这样的话这一层的神经网络可以不用学习整个的输出,而是学习上一个网络输出的残差,因此ResNet又叫做残差网络。ResNet的结构可以极快的加速神经网络的训练,模型的准确率也有比较大的提升。同时ResNet的推广性非常好,甚至可以直接用到 InceptionNet网络中。
10、LSTM网络:LSTM即Long Short-Term Memory,是长短期记忆网络,是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为 cell。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM 的网络当中,可以根据规则来判断是否有用。只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。
11、ConvLSTM网络:ConvLSTM核心本质还是和LSTM一样,将上一层的输出作下一层的输入。不同的地方在于加上卷积操作之后,为不仅能够得到时序关系,还能够像卷积层一样提取特征,提取空间特征。这样就能够得到时空特征。并且将状态与状态之间的切换也换成了卷积计算。
12、注意力机制:使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入序列进行学习,编码为固定长度的向量表示;然后再用一些LSTM单元来读取这种向量表示并解码为输出序列。这种结构在很多其他的领域上也取得了不错的结果。然而,它存在一个问题在于:输入序列不论长短都会被编码成一个固定长度的向量表示,而解码则受限于该固定长度的向量表示。这个问题限制了模型的性能,尤其是当输入序列比较长时,模型的性能会变得很差。Attention机制的基本思想是,打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。Attention 机制的实现是通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。虽然模型使用attention机制之后会增加计算量,但是性能水平能够得到提升。另外,使用attention机制便于理解在模型输出过程中输入序列中的信息是如何影响最后生成序列的。
本发明的技术方案如下:
一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,该方法运行于两个生成器及三个判别器上,
两个生成器包括图像生成器和运动生成器,三个判别器包括图像判别器、运动判别器和光流判别器,运动生成器用于生成运动特征向量,图像生成器用于生成表情序列,图像判别器用于判断生成视频图片内容的真假,运动判别器用于判别生成的视频运动轨迹是否符合运动规律,光流判别器用于通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律,使生成视频的脸部运动更加连贯和真实,图像判别器的损失函数和光流判别器的损失函数的判别结果返回至图像生成器,运动判别器的损失函数的判别结果返回至运动生成器,运动生成器和图像生成器通过损失函数的结果修改生成的视频使图像判别器、运动判别器和光流判别器的结果更优,两者相互博弈,通过多次迭代,生成以假乱真的表情视频片,包括步骤如下:
A、生成阶段
(1)随机产生一个张量作为噪声,输入运动生成器,通过GRU网络输出维度为帧数*60的运动特征张量,将运动特征张量输入有监督的图像生成器,通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列;
(2)将SDU表情数据库(真实数据库)中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的图像序列,通过稠密光流的方法求出光流图像序列;
(3)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和随机在SDU表情数据库中抽取的真实的表情视频输入图像判别器,通过卷积网络输出判断生成视频图片内容的概率分布,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的图像;图像生成器输出的是2*1的可以表示概率分布的张量,例如,0.8、 0.2接近1、0,此时卷积网络判断图像是真实的,与0.9、0.1求交叉熵得0.5,若输出是0.3、0.7 接近0、1,则卷积网络判断图像是假的,与0.9、0.1求交叉熵得1.6,图像生成器使下一次生成数据的交叉熵损失函数越来越小,使生成的图像越来越真实。
(4)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入运动判别器,通过卷积网络输出判断符合表情运动规律的概率分布,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;图像生成器输出的是输出的是2*1的可以表示概率分布的张量,例如0.8、0.2接近1、0,此时卷积网络判断运动是真实的,与0.9、0.1求交叉熵得0.5,若输出是0.3、0.7接近0、1,则卷积网络判断运动是假的,与0.9、0.1求交叉熵得1.6,图像生成器使下一次生成数据的交叉熵损失函数越来越小,使生成的运动越来越真实。
(5)将步骤(2)生成的光流图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入光流判别器,通过卷积网络输出判断符合光流变化规律的概率分布;求KL散度的值,针对光流判别器最大化KL散度损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;图像生成器输出的是输出的是2*1的可以表示概率分布的张量,例如0.8、 0.2接近1、0,此时卷积网络判断图像是真实的,与0.9、0.1求KL散度得0.01,若输出是0.3、 0.7接近0、1,则卷积网络判断图像是假的,与0.9、0.1求KL散度得0.44,图像生成器使下一次生成数据的KL散度越来越小,使生成的光流变化越来越真实。
(6)将步骤(4)、(5)的结果汇总,返回至图像生成器,将步骤(3)的结果返回至运动生成器,调整图像生成器与运动生成器的参数,使下一次的图像生成器和运动生成器生成更好的能骗过图像判别器、运动判别器和光流判别器的表情片段,通过多次迭代,生成分辨率较高动作流畅图像真实的表情视频;比如,这一次生成器生成的图片序列被判定为假的,则生成器调整参数,把参数往判别器判定为真的方向上调整,这样使生成的视频越来越趋向于真的。
B、识别阶段
将通过多次迭代后步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列作为数据增强的样本,输入并训练表情识别网络中,表情识别网络为ResNet+ConvLSTM网络或者加入注意力机制的 ResNet+ConvLSTM网络。
根据本发明优选的,所述步骤(3)中,定义噪声为z, 是指噪声是d维的实数;是指实数集,d是指维数,定义图像生成器为Gi,i是指图像(image),G是指生成器(generator),定义图像判别器为Di,D是discriminator判别器,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即图像判别器卷积目标生成的表情序列的输出,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,如式(Ⅰ)所示:
式(Ⅰ)中,指pdata概率分布的期望,x~pz指数据x服从pz的概率分布,Di(x)是真实数据通过图像判别器后的输出,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出,
Di(Gi(z))是z输入图像生成器的输出输入图像判别器的输出。
V(Gi,Di)整体的loss函数用V(Gi,Di)表示。该损失函数整体采用交叉熵损失函数,通过无监督的方式生成表情序列;
根据本发明优选的,所述步骤(4)中,定义运动生成器为Gv,定义运动判别器定义为Dv,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,如式(Ⅱ)所示:
式(Ⅱ)中,y为表情的标签,x|y是指数据x在y的条件下的概率分布,即x是带有数据标签的,指pdata概率分布的期望,Dv(x|y)是带有数据标签的x输入运动判别器的输出,z|y是运动生成器的输出带有标签y,Gv(z|y)是z|y输入运动生成器的输出,Dv(Gv(z|y)是z|y输入图像生成器的输出输入图像判别器的输出。
该损失函数整体采用交叉熵损失函数,y作为约束条件,通过有监督的学习,生成指定标签的面部表情序列。
根据本发明优选的,所述步骤(5)中,光流场是用于描述三维空间中的运动物体表现到二维图像中,所反映出的像素点的运动向量场。光光流法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的上一帧跟当前帧间存在的对应关系,计算出相邻帧之间物体的运动信息的一种方法。在本发明中,我们用了一种广泛使用的密集光流算法的经典方法:Farneback光流算法。根据光学流动的基本假设,光流的变化(向量场)几乎是光滑。
每个像素点都有着初始位移(最开始设置为全0变量),将上一帧的初始位移增加到第一帧图像上的像素点位置x上,得到此像素点在下一帧图像上的大致位置如式(Ⅲ)所示:
计算中间变量A(x),△b(x),如式(Ⅳ)、式(Ⅴ)所示:
求取光学流动,光学流动的梯度方程如式(Ⅵ)所示:
dout(x)=Gavg(x)-1havg(x) (Ⅵ)
Gavg(x)=S(x)TA(x)TA(x)S(x),havg(x)=S(x)TA(x)T△b(x),S(x)为尺度缩放矩阵;
根据真实表情的光流序列和生成表情的光流序列特点,我们利用KL散度作为损失函数衡量真实表情的光流序列和生成表情的光流差异,并将结果返回图像生成器,使生成的表情符合同一类别真实表情的光流变化规律。针对光流判别器最大化KL散度损失函数,更新卷积网络,如式(Ⅶ) 所示:
式(Ⅷ)中,x表示真实数据,即真实表情序列,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出,即生成的表情序列,dout(x)真实数据的稠密光流的输出结果,dout(Gi(z))即生成数据稠密光流的输出结果,Df(dout(x))是真实数据的稠密光流的光流判别器的输出结果, Df(dout(Gi(z)))生成数据稠密光流的光流判别器的输出结果,KL(Df(dout(x))||Df(dout(Gi(z))))表示KL散度,为整体的损失函数。式(Ⅷ)中,对于上述损失函数,采用梯度下降算法,多次迭代达到最优效果,保存模型。
本发明的有益效果为:
本发明基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法,基于焦虑、抑郁、愤怒表情样本较少难采集导致识别正确率低的现状,首先基于光流、图像、运动对抗生成网络生成这三类表情,然后将生成的带标签的三类表情作为数据增强的样本加入训练集中,有效提高了焦虑、抑郁、愤怒表情的识别正确率。
附图说明
图1本发明基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法流程图;
图2本发明生成阶段流程图;
图3本发明识别阶段流程图;
图4生成表情视频的展示图;
图5生成表情视频的Farneback光流展示图;
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,如图1所示,该方法运行于两个生成器及三个判别器上,
两个生成器包括图像生成器和运动生成器,三个判别器包括图像判别器、运动判别器和光流判别器,运动生成器用于生成运动特征向量,图像生成器用于生成表情序列,图像判别器用于判断生成视频图片内容的真假,运动判别器用于判别生成的视频运动轨迹是否符合运动规律,光流判别器用于通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律,使生成视频的脸部运动更加连贯和真实,图像判别器的损失函数和光流判别器的损失函数的判别结果返回至图像生成器,运动判别器的损失函数的判别结果返回至运动生成器,运动生成器和图像生成器通过损失函数的结果修改生成的视频使图像判别器、运动判别器和光流判别器的结果更优,两者相互博弈,通过多次迭代,生成以假乱真的表情视频片,包括步骤如下:
A、生成阶段,如图2所示:
(1)SDU表情数据库是焦虑、抑郁、愤怒的情绪心理数据集,样本是自发的表情,通过表情展现测试对象的情绪心理,是由山东大学数据智能实验室使用高清摄像头录制,表情视频面部分辨率为640×480,帧速率为25帧/秒,共有105个表情视频,依据Facs版本的提示完成表情标注,其中,焦虑36个,抑郁37个,愤怒32个。
通过TIM算法将SDU数据集中的表情序列插值为16帧256*256大小,统一训练集,将SDU表情数据库中的焦虑、抑郁、愤怒表情随机分成五份,取其中的四份作为真实样本输入基于光流、图像、运动对抗生成网络;
随机产生一个(60*1)维度的张量作为噪声,输入运动生成器,通过GRU网络输出(16*60)维度的运动特征张量,
将运动特征张量输入有监督的图像生成器,通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列;运动生成器包含十六个部分,每一部分包含一个GRUCell层和一个全连接层,输出结果将这十六部分的结果组成一个张量;将(16*60)维度的运动特征向量输入有监督的图像生成器,输出有标签的(16*3*256*256)维度的表情图像序列;图像生成器包含七个部分,第一部分到第六部分结构相同,包含一个二维反卷积层,一个BatchNorm2d层和一个RELU层,第七部分包含一个二维反卷积层和一个Tanh层;
(2)将SDU表情数据库(真实数据库)中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的 (16*3*256*256)维度的图像序列,如图4所示,通过稠密光流的方法求出(16*3*256*256)维度的光流图像序列;
(3)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和随机在SDU表情数据库中抽取的真实的表情视频输入图像判别器,通过卷积网络输出判断生成视频图片内容的概率分布,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的图像;图像生成器输出的是2*1的可以表示概率分布的张量,例如,0.8、 0.2接近1、0,此时卷积网络判断图像是真实的,与0.9、0.1求交叉熵得0.5,若输出是0.3、0.7 接近0、1,则卷积网络判断图像是假的,与0.9、0.1求交叉熵得1.6,图像生成器使下一次生成数据的交叉熵损失函数越来越小,使生成的图像越来越真实。
图像判别器包含五个部分,第一部分包括一个二维卷积层和一个LeakyReLU层,第二部分到第四部分有相同的结构,包含一个二维卷积层、一个BatchNorm2d层和一个LeakyReLU层,第五部分包含一个二维卷积层和一个Sigmoid层。
(4)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入运动判别器,通过卷积网络输出判断符合表情运动规律的概率分布,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;图像生成器输出的是输出的是2*1的可以表示概率分布的张量,例如0.8、0.2接近1、0,此时卷积网络判断运动是真实的,与0.9、0.1求交叉熵得0.5,若输出是0.3、0.7接近0、1,则卷积网络判断运动是假的,与0.9、0.1求交叉熵得1.6,图像生成器使下一次生成数据的交叉熵损失函数越来越小,使生成的运动越来越真实。
运动判别器包含五个部分,第一部分包含一个三维卷积层和一个LeakyReLU层,第二部分到第四部分有相同的结构,包含一个三维卷积层、一个BatchNorm2d层和一个LeakyReLU层,第五部分包含一个全连接层和一个Sigmoid层。
(5)将步骤(2)生成的光流图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入光流判别器,通过卷积网络输出判断符合光流变化规律的概率分布;求KL散度的值,针对光流判别器最大化KL散度损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;图像生成器输出的是输出的是2*1的可以表示概率分布的张量,例如0.8、 0.2接近1、0,此时卷积网络判断图像是真实的,与0.9、0.1求KL散度得0.01,若输出是0.3、 0.7接近0、1,则卷积网络判断图像是假的,与0.9、0.1求KL散度得0.44,图像生成器使下一次生成数据的KL散度越来越小,使生成的光流变化越来越真实。
光流判别器包含五个部分,第一部分包含一个三维卷积层和一个LeakyReLU层,第二部分到第四部分有相同的结构,包含一个三维卷积层、一个BatchNorm2d层和一个LeakyReLU层,第五部分包含一个全连接层和一个Sigmoid层。表情视频的Farneback光流展示如图5所示。
(6)将步骤(4)、(5)的结果汇总,返回至图像生成器,将步骤(3)的结果返回至运动生成器,调整图像生成器与运动生成器的参数,使下一次的图像生成器和运动生成器生成更好的能骗过图像判别器、运动判别器和光流判别器的表情片段,通过多次迭代,生成分辨率较高动作流畅图像真实的表情视频;比如,这一次生成器生成的图片序列被判定为假的,则生成器调整参数,把参数往判别器判定为真的方向上调整,这样使生成的视频越来越趋向于真的。
B、识别阶段,如图3所示:
将通过多次迭代后步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列作为数据增强的样本,输入并训练表情识别网络中,表情识别网络为ResNet+ConvLSTM网络或者加入注意力机制的 ResNet+ConvLSTM网络。
实施例2
根据实施例1所述一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,
步骤(3)中,定义噪声为z, 是指噪声是d维的实数;是指实数集,d是指维数,定义图像生成器为Gi,i是指图像(image),G是指生成器(generator),定义图像判别器为Di, D是discriminator判别器,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即图像判别器卷积目标生成的表情序列的输出,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,如式(Ⅰ)所示:
式(Ⅰ)中,指pdata概率分布的期望,x~pz指数据x服从pz的概率分布,Di(x)是真实数据通过图像判别器后的输出,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出, Di(Gi(z))是z输入图像生成器的输出输入图像判别器的输出。
V(Gi,Di)整体的loss函数用V(Gi,Di)表示。该损失函数整体采用交叉熵损失函数,通过无监督的方式生成表情序列;
步骤(4)中,定义运动生成器为Gv,定义运动判别器定义为Dv,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,如式(Ⅱ)所示:
式(Ⅱ)中,y为表情的标签,x|y是指数据x在y的条件下的概率分布,即x是带有数据标签的,指pdata概率分布的期望,Dv(x|y)是带有数据标签的x输入运动判别器的输出,z|y是运动生成器的输出带有标签y,Gv(z|y)是z|y输入运动生成器的输出,Dv(Gv(z|y)是z|y输入图像生成器的输出输入图像判别器的输出。
该损失函数整体采用交叉熵损失函数,y作为约束条件,通过有监督的学习,生成指定标签的面部表情序列。
步骤(5)中,光流场是用于描述三维空间中的运动物体表现到二维图像中,所反映出的像素点的运动向量场。光光流法是利用图像序列中的像素在时间域上的变化、相邻帧之间的相关性来找到的上一帧跟当前帧间存在的对应关系,计算出相邻帧之间物体的运动信息的一种方法。在本发明中,我们用了一种广泛使用的密集光流算法的经典方法:Farneback光流算法。根据光学流动的基本假设,光流的变化(向量场)几乎是光滑。
每个像素点都有着初始位移(最开始设置为全0变量),将上一帧的初始位移增加到第一帧图像上的像素点位置x上,得到此像素点在下一帧图像上的大致位置如式(Ⅲ)所示:
计算中间变量A(x),△b(x),如式(Ⅳ)、式(Ⅴ)所示:
求取光学流动,光学流动的梯度方程如式(Ⅵ)所示:
dout(x)=Gavg(x)-1havg(x) (Ⅵ)
Gavg(x)=S(x)TA(x)TA(x)S(x),havg(x)=S(x)TA(x)T△b(x),S(x)为尺度缩放矩阵;
根据真实表情的光流序列和生成表情的光流序列特点,我们利用KL散度作为损失函数衡量真实表情的光流序列和生成表情的光流差异,并将结果返回图像生成器,使生成的表情符合同一类别真实表情的光流变化规律。针对光流判别器最大化KL散度损失函数,更新卷积网络,如式(Ⅶ) 所示:
式(Ⅷ)中,x表示真实数据,即真实表情序列,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出,即生成的表情序列,dout(x)真实数据的稠密光流的输出结果,dout(Gi(z))即生成数据稠密光流的输出结果,Df(dout(x))是真实数据的稠密光流的光流判别器的输出结果, Df(dout(Gi(z)))生成数据稠密光流的光流判别器的输出结果,KL(Df(dout(x))||Df(dout(Gi(z))))表示KL散度,为整体的损失函数。式(Ⅷ)中,对于上述损失函数,采用梯度下降算法,多次迭代达到最优效果,保存模型。
实验一:将数据集随机分成五份,其中一份做测试集,其余四份做训练集和验证集,输入 ResNet+ConvLSTM网络,到分类的结果。
实验二:将数据库随机分成五份,用其中四份通过图像运动光流分解的对抗生成网络生成的表情视频,选择出质量比较好的表情片段做数据扩充和原始的四份表情输入分类网络,测试集是剩余的一份,输入ResNet+ConvLSTM网络,得到分类的结果。
为验证将生成样本加入焦虑、抑郁、愤怒表情识别网络作为数据增强样本的有效性,采用上述生成方法,将识别方法中的表情识别网络加入注意力机制,重复上述实验试一、二步骤,验证基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法的有效性。
一般情况下,ConvLSTM可以用下面六个公式来描述:
it=σ(Wxi*Xt+Whi*Ht-1+bi) (Ⅷ)
ft=σ(Wxf*Xt+Whf*Ht-1+bf) (Ⅸ)
ot=σ(Wxo*Xt+Who*Ht-1+bo) (Ⅹ)
Gt=tanh(Wxc*Xt+Whc*Ht-1+bc) (Ⅺ)
加入注意力机制可以表示:
Zt=Wz*tanh(Wxa*Xt+Wha*Ht-1+ba) (XIV)
用代替ConvLSTM六个公式中的Xt,加入注意力机制有效的提高了传统ConvLSTM的识别率。
实验三:将数据集随机分成五份,其中一份做测试集,其余四份做测试集和验证集,输入加入注意力机制的ResNet+ConvLSTM网络,到分类的结果。
实验四:将数据库随机分成五份,用其中四份通过图像运动光流分解的GAN网络生成的表情视频,选择出质量比较好的表情片段做数据扩充和原始的四份表情输入分类网络,测试集是剩余的一份,输入加入注意力机制ResNet+ConvLSTM网络,得到分类结果。表1为SDU表情数据库表情识别成绩表。
表1
实验结果显示基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在SDU 表情数据库上获得了89.1%的识别正确率,比未加入基于光流、图像、运动对抗生成网络生成的表情片段做数据增强的识别方法高出8.8%,基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在加入注意力机制的识别网络SDU表情数据库上获得了92.2%的识别正确率,比未加入基于光流、图像、运动对抗生成网络生成的表情片段做数据增强的识别方法高出11.1%,证明本发明提出方法的有效性。
表2和表3为SDU表情数据库实验二和实验四中表情识别结果,假设样本数量为M总,成功检测数量为M成功,则每种识别率f可表示为:
表2
表2结果:愤怒标签为0,焦虑标签为1,抑郁标签为2;
预测结果为:0,2,1,0,1,1,2,0,0,2,0,1,1,1,2,2,1,1,1,0
真实结果为:0,2,1,0,1,1,2,0,0,2,0,1,0,2,2,2,1,1,1,0)
表3
表3结果:愤怒标签为0,焦虑标签为1,抑郁标签为2
预测结果为:0,2,1,0,1,1,2,0,0,2,0,1,0,2,2,2,1,2,1,0
真实结果为:0,2,1,0,1,1,2,0,0,2,0,1,0,2,2,2,1,1,1,0)
检测结果显示基于光流、图像、运动对抗生成网络的焦虑、抑郁、愤怒表情识别方法在SDU 表情数据库上焦虑、抑郁、愤怒识别正确率较高,证明了本方法进行表情识别的有效性,能够高效的识别视频中识别对象的情绪心理。
Claims (4)
1.一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,其特征在于,该方法运行于两个生成器及三个判别器上,两个生成器包括图像生成器和运动生成器,三个判别器包括图像判别器、运动判别器和光流判别器,运动生成器用于生成运动特征向量,图像生成器用于生成表情序列,图像判别器用于判断生成视频图片内容的真假,运动判别器用于判别生成的视频运动轨迹是否符合运动规律,光流判别器用于通过真假视频的光流差别判定生成的视频是否符合焦虑、抑郁、愤怒表情的光流变化规律,使生成视频的脸部运动更加连贯和真实,图像判别器的损失函数和光流判别器的损失函数的判别结果返回至图像生成器,运动判别器的损失函数的判别结果返回至运动生成器,运动生成器和图像生成器通过损失函数的结果修改生成的视频使图像判别器、运动判别器和光流判别器的结果更优,通过多次迭代,生成表情视频片,包括步骤如下:
A、生成阶段
(1)随机产生一个张量作为噪声,输入运动生成器,通过GRU网络输出维度为帧数*60的运动特征张量,将运动特征张量输入图像生成器,通过反卷积网络输出有标签的焦虑、抑郁、愤怒表情的图像序列;
(2)将SDU表情数据库中的焦虑、抑郁和愤怒的表情序列和步骤(1)输出的图像序列,通过稠密光流的方法求出光流图像序列;
(3)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和随机在SDU表情数据库中抽取的真实的表情视频输入图像判别器,通过卷积网络输出判断生成视频图片内容的概率分布,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的图像;
(4)将步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入运动判别器,通过卷积网络输出判断符合表情运动规律的概率分布,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;
(5)将步骤(2)生成的光流图像序列和一个随机在SDU表情数据库中抽取的同一个标签的真实的表情视频输入光流判别器,通过卷积网络输出判断符合光流变化规律的概率分布;求KL散度的值,针对光流判别器最大化KL散度损失函数,更新卷积网络,使生成的表情序列更贴近真实的表情序列的运动规律;
(6)将步骤(4)、(5)的结果汇总,返回至图像生成器,将步骤(3)的结果返回至运动生成器,调整图像生成器与运动生成器的参数,通过多次迭代,生成真实的表情视频;
B、识别阶段
将通过多次迭代后步骤(1)生成的有标签的焦虑、抑郁、愤怒表情的图像序列作为数据增强的样本,输入并训练表情识别网络中,表情识别网络为ResNet+ConvLSTM网络或者加入注意力机制的ResNet+ConvLSTM网络。
2.根据权利要求1所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,其特征在于,所述步骤(3)中,定义噪声为z, 是指噪声是d维的实数;是指实数集,d是指维数,定义图像生成器为Gi,i是指图像,G是指生成器,定义图像判别器为Di,D是discriminator判别器,x~pdata表示真实数据的概率分布,指数据x服从pdata的概率分布,即图像判别器卷积真实表情序列的输出,x~pz表示目标生成数据的概率分布,即图像判别器卷积目标生成的表情序列的输出,最小化图像生成器的损失函数,最大化图像判别器的损失函数,更新卷积网络,如式(Ⅰ)所示:
式(Ⅰ)中,指pdata概率分布的期望,x~pz指数据x服从pz的概率分布,Di(x)是真实数据通过图像判别器后的输出,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出,Di(Gi(z))是z输入图像生成器的输出输入图像判别器的输出。
3.根据权利要求1所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,其特征在于,所述步骤(4)中,定义运动生成器为Gv,定义运动判别器定义为Dv,最小化运动生成器的损失函数,最大化运动判别器的损失函数,更新卷积网络,如式(II)所示:
式(II)中,y为表情的标签,x|y是指数据x在y的条件下的概率分布,即x是带有数据标签的,指pdata概率分布的期望,Dv(x|y)是带有数据标签的x输入运动判别器的输出,z|y是运动生成器的输出带有标签y,Gv(z|y)是z|y输入运动生成器的输出,Dv(Gv(z|y)是z|y输入图像生成器的输出输入图像判别器的输出。
4.根据权利要求1-3任一所述的一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法,其特征在于,所述步骤(5)中,每个像素点都有着初始位移,将上一帧的初始位移增加到第一帧图像上的像素点位置x上,得到此像素点在下一帧图像上的大致位置如式(Ⅲ)所示:
计算中间变量A(x),△b(x),如式(Ⅳ)、式(Ⅴ)所示:
求取光学流动,光学流动的梯度方程如式(Ⅵ)所示:
dout(x)=Gavg(x)-1havg(x) (Ⅵ)
Gavg(x)=S(x)TA(x)TA(x)S(x),havg(x)=S(x)TA(x)T△b(x),S(x)为尺度缩放矩阵;
针对光流判别器最大化KL散度损失函数,更新卷积网络,如式(Ⅶ)所示:
式(Ⅷ)中,x表示真实数据,即真实表情序列,z是运动生成器的输出,Gi(z)是z输入图像生成器的输出,即生成的表情序列,dout(x)真实数据的稠密光流的输出结果,dout(Gi(z))即生成数据稠密光流的输出结果,Df(dout(x))是真实数据的稠密光流的光流判别器的输出结果,Df(dout(Gi(z)))生成数据稠密光流的光流判别器的输出结果,KL(Df(dout(x))||Df(dout(Gi(z))))表示KL散度,为整体的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490854.5A CN110210429B (zh) | 2019-06-06 | 2019-06-06 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490854.5A CN110210429B (zh) | 2019-06-06 | 2019-06-06 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210429A true CN110210429A (zh) | 2019-09-06 |
CN110210429B CN110210429B (zh) | 2022-11-29 |
Family
ID=67791270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490854.5A Active CN110210429B (zh) | 2019-06-06 | 2019-06-06 | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210429B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402302A (zh) * | 2020-04-28 | 2020-07-10 | 上海依图网络科技有限公司 | 光流生成装置和方法 |
CN111523601A (zh) * | 2020-04-26 | 2020-08-11 | 道和安邦(天津)安防科技有限公司 | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 |
CN111557671A (zh) * | 2020-05-06 | 2020-08-21 | 上海电机学院 | 一种基于面部表情识别的青少年焦虑和抑郁诊断算法 |
CN111797747A (zh) * | 2020-06-28 | 2020-10-20 | 道和安邦(天津)安防科技有限公司 | 一种基于eeg、bvp和微表情的潜在情绪识别方法 |
CN112101191A (zh) * | 2020-09-11 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 基于边框注意力网络的表情识别方法、装置、设备及介质 |
CN112307947A (zh) * | 2020-10-29 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN112562045A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型和生成3d动画的方法、装置、设备和存储介质 |
CN112580617A (zh) * | 2021-03-01 | 2021-03-30 | 中国科学院自动化研究所 | 自然场景下的表情识别方法和装置 |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN113468907A (zh) * | 2020-03-30 | 2021-10-01 | 山东大学 | 一种基于积分投影结合双交叉模式直方图的焦虑、抑郁、愤怒情绪识别方法 |
CN113536989A (zh) * | 2021-06-29 | 2021-10-22 | 广州博通信息技术有限公司 | 基于摄像视频逐帧分析的制冷机结霜监控方法及系统 |
CN113780099A (zh) * | 2021-08-18 | 2021-12-10 | 华中科技大学 | 一种基于对抗学习的半监督面部运动单元检测方法和系统 |
CN114663963A (zh) * | 2022-05-24 | 2022-06-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN114842399A (zh) * | 2022-05-23 | 2022-08-02 | 马上消费金融股份有限公司 | 视频检测方法、视频检测模型的训练方法及装置 |
WO2022205416A1 (zh) * | 2021-04-02 | 2022-10-06 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN108334848A (zh) * | 2018-02-06 | 2018-07-27 | 哈尔滨工业大学 | 一种基于生成对抗网络的微小人脸识别方法 |
CN108446609A (zh) * | 2018-03-02 | 2018-08-24 | 南京邮电大学 | 一种基于生成对抗网络的多角度面部表情识别方法 |
CN108960192A (zh) * | 2018-07-23 | 2018-12-07 | 北京旷视科技有限公司 | 动作识别方法及其神经网络生成方法、装置和电子设备 |
CN109087243A (zh) * | 2018-06-29 | 2018-12-25 | 中山大学 | 一种基于深度卷积生成对抗网络的视频超分辨率生成方法 |
US20180373985A1 (en) * | 2017-06-23 | 2018-12-27 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
CN109101901A (zh) * | 2018-07-23 | 2018-12-28 | 北京旷视科技有限公司 | 人体动作识别及其神经网络生成方法、装置和电子设备 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109191498A (zh) * | 2018-09-05 | 2019-01-11 | 中国科学院自动化研究所 | 基于动态记忆和运动感知的目标检测方法及系统 |
CN109325549A (zh) * | 2018-10-25 | 2019-02-12 | 电子科技大学 | 一种人脸图像融合方法 |
CN109784277A (zh) * | 2019-01-17 | 2019-05-21 | 南京大学 | 一种基于智能眼镜的情绪识别方法 |
-
2019
- 2019-06-06 CN CN201910490854.5A patent/CN110210429B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
US20180373985A1 (en) * | 2017-06-23 | 2018-12-27 | Nvidia Corporation | Transforming convolutional neural networks for visual sequence learning |
CN108334848A (zh) * | 2018-02-06 | 2018-07-27 | 哈尔滨工业大学 | 一种基于生成对抗网络的微小人脸识别方法 |
CN108446609A (zh) * | 2018-03-02 | 2018-08-24 | 南京邮电大学 | 一种基于生成对抗网络的多角度面部表情识别方法 |
CN109087243A (zh) * | 2018-06-29 | 2018-12-25 | 中山大学 | 一种基于深度卷积生成对抗网络的视频超分辨率生成方法 |
CN108960192A (zh) * | 2018-07-23 | 2018-12-07 | 北京旷视科技有限公司 | 动作识别方法及其神经网络生成方法、装置和电子设备 |
CN109101901A (zh) * | 2018-07-23 | 2018-12-28 | 北京旷视科技有限公司 | 人体动作识别及其神经网络生成方法、装置和电子设备 |
CN109190524A (zh) * | 2018-08-17 | 2019-01-11 | 南通大学 | 一种基于生成对抗网络的人体动作识别方法 |
CN109191498A (zh) * | 2018-09-05 | 2019-01-11 | 中国科学院自动化研究所 | 基于动态记忆和运动感知的目标检测方法及系统 |
CN109325549A (zh) * | 2018-10-25 | 2019-02-12 | 电子科技大学 | 一种人脸图像融合方法 |
CN109784277A (zh) * | 2019-01-17 | 2019-05-21 | 南京大学 | 一种基于智能眼镜的情绪识别方法 |
Non-Patent Citations (1)
Title |
---|
贲晛烨等: "微表情自动识别综述", 《计算机辅助设计与图形学学报》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468907A (zh) * | 2020-03-30 | 2021-10-01 | 山东大学 | 一种基于积分投影结合双交叉模式直方图的焦虑、抑郁、愤怒情绪识别方法 |
CN113468907B (zh) * | 2020-03-30 | 2023-08-29 | 山东大学 | 一种基于积分投影结合双交叉模式直方图的焦虑、抑郁、愤怒情绪识别方法 |
CN111523601A (zh) * | 2020-04-26 | 2020-08-11 | 道和安邦(天津)安防科技有限公司 | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 |
CN111523601B (zh) * | 2020-04-26 | 2023-08-15 | 道和安邦(天津)安防科技有限公司 | 一种基于知识引导和生成对抗学习的潜在情绪识别方法 |
CN111402302A (zh) * | 2020-04-28 | 2020-07-10 | 上海依图网络科技有限公司 | 光流生成装置和方法 |
CN111402302B (zh) * | 2020-04-28 | 2023-06-06 | 上海依图网络科技有限公司 | 光流生成装置和方法 |
CN111557671A (zh) * | 2020-05-06 | 2020-08-21 | 上海电机学院 | 一种基于面部表情识别的青少年焦虑和抑郁诊断算法 |
CN111797747A (zh) * | 2020-06-28 | 2020-10-20 | 道和安邦(天津)安防科技有限公司 | 一种基于eeg、bvp和微表情的潜在情绪识别方法 |
CN111797747B (zh) * | 2020-06-28 | 2023-08-18 | 道和安邦(天津)安防科技有限公司 | 一种基于eeg、bvp和微表情的潜在情绪识别方法 |
CN112101191A (zh) * | 2020-09-11 | 2020-12-18 | 中国平安人寿保险股份有限公司 | 基于边框注意力网络的表情识别方法、装置、设备及介质 |
CN112307947A (zh) * | 2020-10-29 | 2021-02-02 | 北京沃东天骏信息技术有限公司 | 用于生成信息的方法和装置 |
CN112562045B (zh) * | 2020-12-16 | 2024-04-05 | 北京百度网讯科技有限公司 | 生成模型和生成3d动画的方法、装置、设备和存储介质 |
US11836836B2 (en) | 2020-12-16 | 2023-12-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Methods and apparatuses for generating model and generating 3D animation, devices and storage mediums |
CN112562045A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 生成模型和生成3d动画的方法、装置、设备和存储介质 |
CN112580617B (zh) * | 2021-03-01 | 2021-06-18 | 中国科学院自动化研究所 | 自然场景下的表情识别方法和装置 |
US11216652B1 (en) | 2021-03-01 | 2022-01-04 | Institute Of Automation, Chinese Academy Of Sciences | Expression recognition method under natural scene |
CN112580617A (zh) * | 2021-03-01 | 2021-03-30 | 中国科学院自动化研究所 | 自然场景下的表情识别方法和装置 |
WO2022205416A1 (zh) * | 2021-04-02 | 2022-10-06 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN112990078B (zh) * | 2021-04-02 | 2022-05-10 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN112990078A (zh) * | 2021-04-02 | 2021-06-18 | 深圳先进技术研究院 | 一种基于生成式对抗网络的人脸表情生成方法 |
CN113536989A (zh) * | 2021-06-29 | 2021-10-22 | 广州博通信息技术有限公司 | 基于摄像视频逐帧分析的制冷机结霜监控方法及系统 |
CN113780099A (zh) * | 2021-08-18 | 2021-12-10 | 华中科技大学 | 一种基于对抗学习的半监督面部运动单元检测方法和系统 |
CN114842399A (zh) * | 2022-05-23 | 2022-08-02 | 马上消费金融股份有限公司 | 视频检测方法、视频检测模型的训练方法及装置 |
CN114663963B (zh) * | 2022-05-24 | 2022-09-27 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN114663963A (zh) * | 2022-05-24 | 2022-06-24 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110210429B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210429A (zh) | 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法 | |
Kasar et al. | Face recognition using neural network: a review | |
Wilson et al. | Learning visual behavior for gesture analysis | |
Liang et al. | Pose-invariant facial expression recognition | |
Zheng et al. | Video dynamics detection using deep neural networks | |
Arumugam | Emotion classification using facial expression | |
Xia et al. | Predicting human saccadic scanpaths based on iterative representation learning | |
CN113313123B (zh) | 一种基于语义推断的扫视路径预测方法 | |
Mou et al. | Isotropic self-supervised learning for driver drowsiness detection with attention-based multimodal fusion | |
Balasubramanian et al. | Analysis of facial emotion recognition | |
Kim et al. | Attended relation feature representation of facial dynamics for facial authentication | |
Fernando et al. | Detection of fake and fraudulent faces via neural memory networks | |
Jiang et al. | Application of a fast RCNN based on upper and lower layers in face recognition | |
CN117351550A (zh) | 基于有监督对比学习的网格自注意力人脸表情识别方法 | |
Zhu et al. | Unsupervised voice-face representation learning by cross-modal prototype contrast | |
CN116229179A (zh) | 基于宽度学习系统的双松弛图像分类方法 | |
Sun et al. | Adv-emotion: The facial expression adversarial attack | |
James et al. | Predictions of Criminal Tendency Through Facial Expression Using Convolutional Neural Network | |
CN111950373B (zh) | 一种基于光流输入的迁移学习用于微表情识别的方法 | |
Zhu | [Retracted] A Face Recognition System Using ACO‐BPNN Model for Optimizing the Teaching Management System | |
Yu et al. | Prototypical network based on Manhattan distance | |
Li et al. | Dyadic Movement Synchrony Estimation Under Privacy-preserving Conditions | |
Wharton et al. | A vision-based transfer learning approach for recognizing behavioral symptoms in people with dementia | |
Hua et al. | Collaborative Generative Adversarial Network with Visual perception and memory reasoning | |
Sun | Neural Networks for Emotion Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |