CN113496217A - 视频图像序列中人脸微表情识别方法 - Google Patents

视频图像序列中人脸微表情识别方法 Download PDF

Info

Publication number
CN113496217A
CN113496217A CN202110773121.XA CN202110773121A CN113496217A CN 113496217 A CN113496217 A CN 113496217A CN 202110773121 A CN202110773121 A CN 202110773121A CN 113496217 A CN113496217 A CN 113496217A
Authority
CN
China
Prior art keywords
self
convolution
micro
attention
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110773121.XA
Other languages
English (en)
Other versions
CN113496217B (zh
Inventor
于洋
孔艳蕾
郭迎春
师硕
郝小可
朱叶
于明
阎刚
刘依
吕华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202110773121.XA priority Critical patent/CN113496217B/zh
Publication of CN113496217A publication Critical patent/CN113496217A/zh
Application granted granted Critical
Publication of CN113496217B publication Critical patent/CN113496217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本发明为视频图像序列中人脸微表情识别方法,该识别方法包括以下内容:在微表情视频图像序列预处理之后,根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征,通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A,以分块为节点、以邻接矩阵为边,构建自注意力图卷积网络,最后利用自注意力图卷积网络完成微表情的分类识别。本方法克服了现有微表情识别方法对光照噪声的鲁棒性差,特征信息提取的不充分,对微表情实际发生机理研究不深入而导致的微表情识别率低的缺陷。

Description

视频图像序列中人脸微表情识别方法
技术领域
本发明涉及用于识别图形的记录载体的处理技术领域,具体地说是视频图像序列中人脸微表情识别方法。
背景技术
人脸微表情识别属于情感识别的一类,是一种能够映射人类真实情感以及内在心理活动的非自发面部表情,持续时间仅为1/25秒至1/3秒,表达人试图隐藏和压抑的情感。微表情的情绪分类包括开心、悲伤、恐惧、惊讶、愤怒或厌恶等。微表情在情感分析、测谎、抑郁症辅助诊断等领域具有广泛应用,是计算机视觉领域研究的热点问题。
微表情识别方法分为三步:面部裁剪和预处理、特征提取和表情分类。第一步,通过去除背景噪声提取感兴趣的人脸区域。第二步,从预处理后的图像中提取特征。第三步,利用分类器进行分类。特征在任何分类系统中都具有重要作用,即使在最好的分类器下,不合格的特征同样会降低系统分类的性能,因此微表情识别的研究主要集中于如何构建具有判别性的特征。目前微表情识别研究主要集中于基于手工特征和深度特征。手工特征包括纹理和形状,纹理特征例如时空局部二值模式(以下简称LBP-TOP)方法及其变体等,应用于整个面部或特定的面部区域获得丰富的面部纹理信息以提取面部的外观变化,这些方法的缺点是受光照因素影响较大,只能提取微表情变化的浅层纹理信息。形状特征如主方向平均光流法(以下简称MDMO)等,可以获得丰富的像素运动信息,但是无法获得深层的语义信息。近年来,基于深度学习的方法,如卷积神经网络,已经用于微表情的识别问题。CNN和LSTM提取微表情的深度时空特征,可以获得微表情的深层语义信息且受光照等噪声影响较少,但是深度学习方法的研究仍然集中于特征的构建,忽略了面部表情的实际发生机理。CN105930878A公布了一种基于差分切片能量和稀疏编码的微表情识别方法,可以获得较详细的微表情运动特征,但是手工编码会带来计算复杂度和繁琐的过程。CN110348271A公开了一种基于长短时记忆网络提取微表情序列的特征,但提取到的特征具有单一性,都只考虑与微表情相关的一种特征,特征的判别性不足,特征提取不充分,丢失了一些重要的识别和分类信息。CN09034143A公开了基于视频放大和深度学习的微表情识别方法,放大了微表情的运动幅度但会引入噪声,影响微表情细微的运动变化。现有的微表情识别方法存在对光照鲁棒性差,局部信息提取的不充分,特征提取计算复杂,对微表情的实际发生机理不明确进而导致微表情的识别率低的缺陷。
发明内容:
本发明所要解决的技术问题是:提供视频图像序列中人脸微表情识别方法,是在微表情视频图像序列预处理之后,构建微表情的浅层运动信息和深层形状信息融合特征,结合AU建立图结构邻接矩阵,最后利用自注意力图卷积网络完成微表情的分类识别。本方法克服了现有微表情识别方法对光照噪声的鲁棒性差,特征信息提取的不充分,对微表情实际发生机理研究不深入而导致的微表情识别率低的缺陷。
本发明解决该技术问题所采用的技术方案是:
一种视频图像序列中人脸微表情识别方法,该识别方法包括以下内容:在微表情视频图像序列预处理之后,根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征,通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A,以分块为节点、以邻接矩阵为边,构建自注意力图卷积网络,最后利用自注意力图卷积网络完成微表情的分类识别。
所述融合特征的获得过程是:
基于预处理后的微表情视频图像序列的光流信息,获得光流信息序列,对光流信息序列的每一帧进行图像分块,每个分块采用光流信息统计直方图来表征时域动作信息,根据角度值将光流信息ρi,j投影到对应分块的直方图区域中,最后经归一化获得浅层运动信息;
基于预处理后的微表情视频图像序列通过时域插值模型获得深度神经网络模型所需输入的深度微表情视频图像序列,该深度微表情视频图像序列的帧数与上述光流信息序列的帧数相同,对深度微表情视频图像序列的每一帧进行图像分块,通过深度神经网络模型获得深度微表情视频图像序列中所有图像分块的深层形状信息;两处分块的划分规则相同;
将浅层运动信息与深层形状信息进行级联获得融合特征。
所述自注意力图卷积网络的邻接矩阵A为特征增强邻接矩阵Ae、根据AU关系构建的邻接矩阵AAU、光流共现邻接矩阵Aflow三者的加和。
具体地,本发明视频图像序列中人脸微表情识别方法,是一种在微表情视频序列预处理基础上,结合融合特征和自注意力图卷积网络的微表情识别方法,具体步骤如下:
第一步,微表情视频图像序列预处理:
通过开源包dlib对微表情视频图像序列数据集完成人脸定位,裁剪出人脸区域,并通过时域插值模型(Temporal Interpolation Model,TIM)对数据集中每组微表情视频图像序列进行帧插值处理,使得微表情视频序列的帧长一致,获得预处理后的微表情视频图像序列集合,简称数据集。预处理后数据集中每组微表情视频图像序列长度为21帧、每帧图像大小为M×N;该数据集中已经标定了出现的AU单元。
第二步,构建微表情的浅层运动信息和深层形状信息融合特征:
根据上述第一步得到的微表情视频图像序列集合,根据微表情的实际发生机理对集合中每个序列的每帧图像进行6×5的规则分块,提取每帧图像各分块的浅层运动信息和深层形状信息,构建微表情分块的融合特征:
本申请提出的分块方法是根据面部的实际情况和微表情发生时面部肌肉运动情况而考虑,例如纵向分为6个分块可以将面部区域的眉毛、眼睛、鼻子、脸颊、下巴等区域分开,横向划分为5个分块是考虑人脸的对称性。当微表情发生时,面部只有小区域肌肉发生运动(例如:眉毛上挑,嘴角有弧度)。这样的分块方法考虑了微表情的实际发生机理。分块的数量决定图结构的构造,具体分块数量根据微表情的发生机理设置。
第2.1步,计算浅层运动信息:
浅层运动信息的提取利用光流计算结合图像分块获得,计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρi,θi),21帧的微表情视频图像序列获得20帧的光流信息序列,将光流信息序列每帧进行6×5的规则分块,每个分块采用光流信息统计直方图来表征时域动作信息,根据角度值将其投影到对应分块的直方图区域中,如公式(1)所示:
Figure BDA0003154629260000031
公式(1)中,
Figure BDA0003154629260000032
表示微表情光流信息序列中第i帧光流图的第j个分块中第b个区域的光流幅值累计值,
Figure BDA0003154629260000033
为初始值,初始化为0,θi,j和ρi,j为第i帧光流图的第j个分块中每个像素点光流信息的极坐标,共将光流方向分为B个区域;最后,将光流信息统计直方图进行归一化
Figure BDA0003154629260000034
如公式(2)所示:
Figure BDA0003154629260000035
本公式的作用是对第i帧各分块的光流信息统计直方图进行归一化。Max{}函数是选择第i帧光流图的第j分块中区域的最大值,然后
Figure BDA0003154629260000036
除以这个最大值,从而达到归一化的作用。
由此获得微表情图像序列第i帧光流图中第j个分块浅层运动信息Si,j,即:
Figure BDA0003154629260000037
第2.2步,计算深层形状信息:
数据集通过时域插值模型获得20帧的深度微表情视频图像序列,和光流处理帧数保持一致,利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息,深度神经网络模型采用改进的ResNet18网络模型,通过训练获得深度微表情视频图像序列的深层形状信息,改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作以获得深度微表情视频图像序列的深层形状信息。考虑微表情样本较少的限制,本文采用的ResNet18属于浅层网络,门控机制主要用来过滤与微表情识别无关的冗余信息,公式如(4)所示:
Figure BDA0003154629260000038
公式(4)中,Pi表示第i帧深度微表情图像前一层的输入特征,Conv_1和Conv_2表示卷积核为3×3的卷积操作,Sigmoid函数是用来生成门的激活函数,符号
Figure BDA0003154629260000039
表示元素级点乘,最终的输出用Gi来表示,
将门控机制的输出Gi作为卷积计算的输入,卷积计算包括三个卷积块,每个卷积块由一个卷积层、一个批标准化(Batch Normalization,BN)层组成,卷积层均使用3×3的卷积核,使用BN层加快模型的训练速度,经过卷积计算后输出特征为
Figure BDA00031546292600000310
在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息,有效注意力模块包含一个通道注意力和一个空间注意力,如公式(5)-(6)所示,通道注意力在ECA注意力基础上增加了最大池化,同时学习全局和局部信息:
Figure BDA00031546292600000311
Figure BDA0003154629260000041
其中,公式(5)中
Figure BDA0003154629260000042
作为输入,AGP()和MAP()表示平均池化和最大池化操作,
Figure BDA0003154629260000043
表示元素级相加,符号
Figure BDA0003154629260000044
表示元素级点乘,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作与输入Fi相乘得到有效通道注意后的特征
Figure BDA0003154629260000045
公式(6)中Mean()和Max()表示按通道维度计算平均值和最大值,Conv2表示7×7的卷积操作,σ为Softmax激活函数,
Figure BDA0003154629260000046
表示经过空间注意力后的特征,
经过一系列门控机制、卷积计算、有效注意力、池化操作,获得第i帧深度微表情视频图像序列中的深层形状信息
Figure BDA0003154629260000047
经过变形、归一化后获得最终的深层形状信息Di
Figure BDA0003154629260000048
公式(7)中,shape()函数将矩阵转化为二维矩阵,normalize为按照最大值进行的归一化操作,
Figure BDA0003154629260000049
为深度神经网络模型的输出,再对输出特征改变形状以区分各分块的深层形状特征,获得最终深层形状信息Di
第i帧第j分块的深层形状信息为:
Figure BDA00031546292600000410
其中,M表示第i帧图像的深层形状信息维数;
第2.3步,构建融合特征:
将浅层运动信息与深层形状信息进行级联构建融合特征,作为后续自注意力图卷积网络的输入特征,融合特征兼顾视频序列中可以描述微表情的浅层运动信息和深层形状信息,如公式(9)所示:
Figure BDA00031546292600000411
公式(9)中,Si,j代表第i帧第j个分块的浅层运动信息,Di,j代表深度神经网络模型输出的第i帧第j分块深层形状信息,
Figure BDA00031546292600000412
表示第i帧第j分块的融合特征,由此获得自注意力图卷积网络的输入特征FG如公式(10):
Figure BDA00031546292600000413
第三步,结合AU建立自注意力图卷积网络邻接矩阵:
通过光流的共现关系和AU的发生机制构建邻接矩阵,相邻两帧的节点相连接表示自注意力图卷积网络的时间结构,自注意力图卷积网络指本申请的第四步,包括第三步的邻接矩阵的构建。图卷积的空间卷积过程是根据邻接矩阵获得的(空间卷积过程如步骤4.3步)
具体步骤如下:
第3.1步,根据分块运动计算光流共现邻接矩阵:
对光流信息序列的各分块的光流进行累计,计算各分块累计光流的累计值,如公式(11)所示:
Figure BDA00031546292600000414
公式(11)中,w、h分别为各分块的宽度和高度,ρ(x,y)表示位置(x,y)像素点的光流大小,进而获得所有分块累计光流的平均值;
计算光流信息序列的任意两分块间的共现次数Nm∩n,当某块的光流累计值大于平均值时,则认为此块运动幅度剧烈,即此块出现,同一张光流图中同时出现的块具有共现关系,如公式(12)所示:
Figure BDA0003154629260000051
公式(12)中,以Nm∩n表示第m,n块共现的次数,Nn表示第n块出现的次数,通过条件概率P(Um|Un)来建模共现,Um表示第m个分块出现的几率,Un表示第n个分块出现的几率,为了尽量降低由噪声产生的影响,对面部共现的概率设置一个面部出现阈值τ,面部出现阈值的选择首先是考虑微表情面部运动的幅度确定一个范围,然后经过实验选择一个效果最好的值,最终确定CASMEII数据集的面部出现阈值为τ=0.025,CASMEI和SAMM数据集的面部出现阈值τ=0.02。
如公式(13)所示:
Figure BDA0003154629260000052
由此获得光流共现邻接矩阵
Figure BDA0003154629260000053
第3.2步,根据AU关系构建邻接矩阵:
将面部划分为若干既相互独立又相互联系的AU,面部运动编码系统(FacialAction Coding System,FACS)表明不同的AU组合和不同的表情之间有对应关系,它是面部表情肌肉运动的权威标准,根据这一先验知识,将面部等分为上中下三个区域(分别用up、mid、down表示),根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系,具体来说,数据集标定的AU单元出现的分块之间会发生邻接关系,发生邻接关系的相应位置赋值为1,其他位置为0,获得三个子邻接矩阵
Figure BDA0003154629260000054
根据公式(14)构建AU关系邻接矩阵
Figure BDA0003154629260000055
Figure BDA0003154629260000056
第3.3步,构建特征增强邻接矩阵:
在等分为三部分的面部区域后,选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵(根据公式(15)构建,即主对角线部分为1,其他位置为0的矩阵。),通过原始的输入特征辅助微表情识别分类,如公式(15)-(16)所示:
Figure BDA0003154629260000057
Figure BDA0003154629260000058
由此构建出特征增强邻接矩阵
Figure BDA0003154629260000059
自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵Ae、根据AU关系构建的邻接矩阵AAU、光流共现邻接矩阵Aflow三者的加和,由此完成自注意力图卷积网络邻接矩阵的构建A∈
Figure BDA00031546292600000510
A=Aflow+AAu+Ae (17),
第四步,构建自注意力图卷积网络:
分块之间得到邻接关系转化为边,分块是自注意力图卷积网络的节点,邻接矩阵即为边,输入到网络,构建自注意力图卷积网络发现不同面部分块之间的联系,
所述自注意力图卷积网络包含四个相同的自选择时空图卷积块,融合特征FG为节点特征,
自选择的含义为网络根据反向传播自动学习有利于分类的空间信息、时间信息。即动态选择时间信息(第4.5步)和网络自选择具有鉴别性的信息(第4.1,4.2步,4.4步),具体如下:
第4.1步,学习节点注意力:
节点注意力通过卷积层实现,学习上述第2.3步输入特征的节点内部关系,减小特征的复杂度,如公式(18)所示:
Figure BDA0003154629260000061
公式(18)中,
Figure BDA0003154629260000062
表示第二步获得的输入节点特征,MAP()和AGP()分别为最大池化和平均池化操作表示学习到的重要内部信息和全局信息,
Figure BDA0003154629260000063
表示元素级相加,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作和输入FG相乘得到节点注意力特征XNA
第4.2步,学习结构重要度:
通过自注意力图卷积网络反向传播学习到边的重要性来缩放节点的贡献,如公式(19)所示:
Figure BDA0003154629260000064
公式(19)中,加权后的邻接矩阵表示为Aw,WA是自注意力图卷积网络通过前向传播学习到的参数,A是上一个自选择时空图卷积块得到的邻接矩阵,初始值为第三步得到的自注意力图卷积网络邻接矩阵A;
第4.3步,空间卷积:
通过空间卷积学习同一帧不同节点特征之间的关系,卷积过程根据第4.2步的加权后的邻接矩阵Aw关系得到,如公式(20):
Figure BDA0003154629260000065
公式(20)中,Aw为上一步学习到的邻接矩阵,也就是加权后的邻接矩阵,
Figure BDA0003154629260000066
表示第i帧经过节点注意力后的特征,W表示网络学习到的权重矩阵,σ表示非线性激活函数,
Figure BDA0003154629260000067
表示元素级点乘,经过空间卷积后的特征为
Figure BDA0003154629260000068
其中C'表示经过空间卷积后每个节点的特征数,V表示节点个数,T表示序列帧数;
第4.4步,学习位置重要度:
通过公式(21)辅助学习面部重要的分块和选择利于分类功能的帧:
Figure BDA0003154629260000069
公式(21)中,
Figure BDA00031546292600000610
为经过空间卷积后的特征,其中C'表示每个节点的特征数,V表示节点个数,T表示序列帧数。Mean()和Max()为按照特征数C'计算的平均值和最大值,选择以利于分类的重要的节点数和帧数,Conv1×7表示1×7的二维卷积操作,其中输入特征数2C',输出特征数C',b为偏置项,Sigmoid激活函数用来选择节点和关键帧;
第4.5步,构建自选择时间核模块:
通过自选择时间核模块进行时间卷积找到微表情的时序特征,动态选择时间核以获得不同尺度的时间信息,动态含义指的是网络根据特征选择相应的时间信息,每个自选择时间核模块选择的具体时间尺度信息可能不同,由公式(25)的注意力向量决定,注意力向量在网络中是动态变化的。
自选择时间核模块的过程是:首先融合不同尺度的时间信息如公式(22)所示:
Figure BDA0003154629260000071
公式(22)中,三种不同的卷积核分别为1×5、1×7、1×9获得三种不同的变换F1
Figure BDA0003154629260000072
Figure BDA0003154629260000073
F2
Figure BDA0003154629260000074
F3
Figure BDA0003154629260000075
通过元素级相加融合不同尺度的信息为U,
通过全局平均池化GAP生成全局信息
Figure BDA0003154629260000076
具体如公式(23):
Figure BDA0003154629260000077
公式(23)中,V'表示节点数,C'表示特征数,U(v,c)表示第v个节点的第c个特征,
通过一个全连接层来加强特征的引导和自适应选择,公式如(24):
z=FC(s) (24),
公式(24)中,FC()为全连接层,
Figure BDA0003154629260000078
FC层的输入参数的维度是T',输出参数的维度是d;
通过Softmax自适应地选择不同的时间尺度信息,如公式(25)所示:
Figure BDA0003154629260000079
公式(25)中,
Figure BDA00031546292600000710
分别为三种不同尺度卷积核经全连接层后的输出向量,代表U1,U2,U3的注意力向量,
Figure BDA00031546292600000711
表示向量H1第t列,
Figure BDA00031546292600000712
表示h1的第t个元素,同理
Figure BDA00031546292600000713
Figure BDA00031546292600000714
Figure BDA00031546292600000715
第t帧的多尺度时间信息表示为Qt,最终的特征映射表示为Q,其中,Q=[Q1,Q2,…,QT'],
Figure BDA00031546292600000716
第4.6步,自注意残差特征选择:
将第2、3层自选择时空图卷积块的输出特征通过自注意残差选择,即输入特征经过自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘过滤输入特征的冗余部分,经过2,3层的输出特征分别通过两个二维卷积(ConvK、ConvR)和Softmax计算注意力图S3,S4;S3,S4与第2,3层的输入特征分别相乘,起到自注意残差选择的作用。
加强特征的传播,具体公式如(27)所示:
Figure BDA0003154629260000081
公式(27)中,Kk、Rr分别为两个二维卷积第k行、第r列的输出向量,Skr为第k行第r列的特征映射值,其中N=T’×V’,S∈RN×N表示所有特征映射的集合,构成注意力图;输入特征,即上一层的输出特征,经过两个卷积层分别进行特征映射,并改变形状后为
Figure BDA0003154629260000082
Figure BDA0003154629260000083
其中N=T’×V’取决于自选择时间核模块中的步长,通过Softmax计算注意力图S∈RN ×N,a为网络学习到的每个位置点的参数,用来平衡节点特征;
经过自注意力图卷积网络的输出特征为公式(28)所示:
Figure BDA0003154629260000084
公式(28)中,S3、S4为第3、4层的自注意残差映射,
Figure BDA0003154629260000085
为后三层自选择时空图卷积块的输出,
Figure BDA0003154629260000086
表示元素级点乘,
Figure BDA0003154629260000087
表示元素级相加,Fout为最终的输出特征;
第4.7步,识别分类:
将上一步得到的输出特征Fout通过全局平均池化GAP()和全连接层FC()进行识别分类:
class=FC(GAP(Fout)) (29),
class表示经过自注意力图卷积网络识别得到的最终分类结果;
第4.8步:通过自注意力图卷积网络进行人脸微表情的训练和预测,实现人脸微表情自动识别:
将上述第二步中的全部微表情预处理序列按照留一验证法(Leave One SubjectOut Cross Validation,LOSOCV)划分为训练集和测试集两部分,将训练集获得的融合特征送入到构建好的自注意力图卷积网络根据标签和损失函数自动更新网络的参数,获得优化后的自注意力图卷积网络模型,再用测试集获得的融合特征进行测试,完成视频图像序列中人脸微表情的识别。
上述微表情自动识别方法,其中LBP-TOP、MDMO、CNN、LSTM都是本领域公知的;上述AU是Action Unit的缩写,中文意思是面部动作单元。
与现有技术相比,本发明的有益效果是:
本发明的显著进步如下:
本发明采用图卷积的方式通过构造的邻接矩阵卷积微表情发生区域(远距离进行卷积学习,例如眉毛和嘴巴)的像素点,即根据微表情的实际发生机理进行网络的训练,融合浅层运动信息(光流)和深层形状信息(深度神经网络模型),加强了微表情特征的判别性。克服了现有技术中基于深度卷积网络(CNN+LSTM等)的方法直接将整个面部区域送到网络中去训练,且传统二维卷积的卷积操作只能学习近距离像素点的信息(例如眉毛与眉毛周围像素点卷积,嘴唇与嘴唇周围像素点卷积)的不足,本发明从微表情的发生机理来看,面部的肌肉运动情况与AU是密切联系的,通过建立邻接矩阵并使用图卷积,同时融入运动信息,将AU与微表情的时间信息(浅层运动信息)结合学习不同类别微表情的差异进行分类,从时空角度建立不同面部区域与微表情的关联信息。
本发明突出的实质性特点是:
(1)本发明方法对微表情视频图像序列分别进行光流和深度神经网络模型处理,获得光流信息序列和深度微表情视频序列,再对各自序列的每一帧进行面部分块,二者分块规则相同,所分分块相互对应,计算各个分块的浅层运动信息和深层形状信息,并将二者融合,再通过自注意力图卷积网络学习获取更加细节、详细的能够表示微表情发生机理的特征,解决了微表情运动强度低导致的特征不明显问题。与现有的MDMO、LBP-TOP等方法相比,本方法中光流信息采用统计直方图的方式进行时域特征的表征,并引入光流的出现关系的邻接矩阵,实现对光照的鲁棒性高、特征明显、特征冗余性较低等优点。本文中对微表情序列进行分块只是获得一个最初始的融合特征,再将融合特征送到自注意力图卷积网络根据微表情的发生机理进行学习分类。
(2)本发明将面部分块转化为节点,分块之间得到关系转化为边,通过构建的光流共现邻接矩阵、AU关系邻接矩阵、特征增强邻接矩阵捕捉到不同类别微表情产生时的差异。相比于其他深度神经网络方法,本方法通过构建邻接矩阵学习到复杂的面部关系,可以更好分析面部不同区域的肌肉运动信息与微表情产生的相关性,有效阐述微表情发生机理。
(3)本发明通过自注意力图卷积网络(通过网络自适应选择特征)自适应学习节点和边的特征放大不同类别微表情的差异性,能充分提取人脸微表情的局部信息,因此能更好地对不同的面部微表情加以区分,提高了视频图像序列中人脸微表情的识别率。
(4)本发明与CN112183419A相比:CN112183419A中通过提取微表情的起始帧和峰值帧训练生成网络,根据所有的起始帧和峰值帧生成其光流特征,在缺失峰值帧情况下无法使用,而且,直接将光流图片作为输入特征会引入很多噪声。本方法通过引入光流直方图降低了噪声的影响,在缺失峰值帧等先验知识的情况下仍能取得较好的实验结果,利用累计光流计算邻接矩阵,通过深度神经网络模型学习到微表情的语义特征丰富了微表情的有益特征,同时通过网络自适应学习节点权重加强了特征的选择,降低了计算复杂度,对于噪声较大的场景也具有较好的效果。
(5)本方法与CN110852271A相比:CN110852271A是一种基于峰值帧和深度森林的微表情识别方法,主要涉及微表情峰值帧的定位和使用峰值帧训练深度森林模型进行微表情识别,使用VGG-Face网络对特征进行提取、对深度森林模型进行微表情分类训练和测试,有效避免了面部动作强度过低的微表情一般带来的冗余,结合深度森林在少量数据样本的情况下也有优异表现的特点,但是采用传统深度神经网络忽略了微表情的实际发生机理,无法表示复杂的面部分块之间的联系。本方法通过采用自注意力图卷积网络构建微表情各分块之间的复杂联系,通过微表情的实际发生机理学习不同类别微表情的特征,放大微表情之间的差异性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明视频图像序列中人脸微表情识别方法的流程示意图。
图2是本发明方法中人脸微表情序列融合特征提取过程的示意图。
图3是本发明方法中自选择时空图卷积块的示意图。
图4是本发明方法中自选择时间核模块的示意图。
图5为本发明方法中自注意力图卷积网络示意图。
具体实施方式
图1所示实施例表明,本发明方法的流程为:微表情视频图像序列预处理→构建微表情的浅层运动信息和深层形状信息融合特征→结合AU建立图结构邻接矩阵→构建自注意力图卷积网络实现视频图像序列人脸微表情自动识别。
图2所示实施例表明,本发明方法中构造融合特征的过程是:通过光流结合图像分块提取微表情视频图像序列各分块的浅层运动信息,通过改进的ResNet18网络结构提取面部各分块的深层形状信息,最后级联两种特征组成微表情的融合特征FG。ResNet-18是一个基础的网络,其中包含四个bottleneck模块,本申请只用了其中两个,并添加有效注意力模块和门控机制,避免了过拟合现象,更有益于获得微表情的深层形状信息。
本发明中以各分块作为节点,以各分块之间的关系(邻接矩阵)为边,利用自注意力图卷积网络发现不同区域之间的联系,通过学习图结构的节点和边的重要度(步骤4.1和4.2)以及空间(步骤4.3)、时间卷积(步骤4.5)学习不同微表情的重要特征。图5所示实施例表明,本发明通过自注意力图卷积网络放大不同类别微表情特征的差异性,所述自注意力图卷积网络包含四层相同的自选择时空图卷积块SSTGCM,将第三、四层自选择时空图卷积块SSTGCM的输出特征通过两个卷积层ConvK、ConvR和一个Softmax函数进行自注意残差选择得到该层的自注意残差映射S3、S4,将S3、S4与相应的SSTGCM的输入特征
Figure BDA0003154629260000101
分别相乘得到的特征与最后一层SSTGCM(即第四层)的输出特征
Figure BDA0003154629260000102
相加得到的最终特征映射Fout(即公式(28)),通过全局平均池化GAP()和全连接层FC()进行微表情的自动识别。所述自注意力图卷积网络的输入为步骤2.3获得的融合特征FG,自注意力图卷积网络包括四层自选择时空图卷积块SSTGCM,四层依次连接,第二层的自选择时空图卷积块SSTGCM的输入为第一层自选择时空图卷积块SSTGCM的输出与融合特征FG的加和;第三层的自选择时空图卷积块SSTGCM的输入为第二层自选择时空图卷积块SSTGCM的输出和输入的加和;将第三层和第四层的自选择时空图卷积块SSTGCM的各自的输出特征通过卷积层ConvK、卷积层ConvR、Softmax函数进行自注意残差选择分别得到S3、S4,S3、S4再分别与该层自选择时空图卷积块SSTGCM的输入特征
Figure BDA0003154629260000103
相乘,之后再与各自的自选择时空图卷积块SSTGCM的输出特征
Figure BDA0003154629260000104
相加;第三层自选择时空图卷积块SSTGCM相加后的结果作为第四层自选择时空图卷积块SSTGCM的输入,第四层自选择时空图卷积块相加后的结果和第三层自选择时空图卷积块的相加后的结果与第四层自选择时空图卷积块的输出特征
Figure BDA0003154629260000105
最后相加,即为最终特征映射Fout,最后再经过全局平均池化GAP()和全连接层FC()获得最终的分类结果class。
图3所示实施例表明,所述自选择时空图卷积块首先通过最大池化MAP()和平均池化AGP()、ts()操作、卷积层Conv1、Sigmoid函数、expand()操作学习输入特征(第一层SSTGCM的输入为融合特征FG,第二层SSTGCM的输入为第一层SSTGCM的输出和融合特征FG的加和,第三层SSTGCM的输入为第二层SSTGCM的输出和输入之和)重要内部信息,其次将第3步获得的邻接矩阵A通过自注意力图卷积网络反向传播学习到边的重要性Aw来缩放节点的贡献,通过空间卷积学习节点的空间特征X,通过Max()、Mean()计算特征数维度的最大值和平均值、Conv1×7卷积及Sigmoid函数学习位置重要度得到特征F,再通过自选择时间核模块得到输出特征Q。输入特征分别经过最大池化MAP()、平均池化AGP()获得的特征相加,再通过ts操作、卷积层Conv1、Sigmoid函数、expand操作学习节点注意力,再与输入特征相乘得到经过节点注意力后的特征XNA,第3.3步获得的邻接矩阵A通过自注意力图卷积网络的反向传播学习结构重要度得到加权后的邻接矩阵Aw,特征XNA与Aw相乘获得经过空间卷积后的特征X,再经过Mean()、Max()、卷积层Conv1×7、Sigmoid得到的位置重要度与X相乘得到特征F,再经过自选择时间核模块得到自选择时空图卷积块的输出特征Q。
图4所示实施例表明,本发明通过自选择时间核模块动态选择时间核以获得不同尺度的时间信息,经过学习位置重要度后的特征F首先通过1×5、1×7、1×9三种卷积核融合不同尺度时间信息,再通过全局平均池化GAP()、全连接层FC()、激活函数Softmax选择不同尺度时间信息得到的输出特征为Q。所述自选择时间核模块包括三个不同尺度的卷积核、全局平均池化GAP()、全连接层FC()和激活函数Softmax,三个不同尺度的卷积核的输入均为学习位置重要度后的特征F,输出经过融合后依次经全局平均池化GAP()、全连接层FC()和激活函数Softmax获得自选择时间核模块的输出Q。
实施例1
本发明解决该技术问题所采用的技术方案是:视频图像序列中人脸微表情识别方法,是一种在微表情视频序列预处理基础上,结合融合特征和自注意力图卷积网络的微表情识别方法,具体步骤如下:
第一步,微表情视频图像序列预处理:
通过开源包dlib对微表情视频图像序列人脸定位,裁剪出人脸区域,并通过时域插值模型(Temporal Interpolation Model,TIM)对微表情视频图像序列进行帧插值处理,使得微表情视频序列的帧长一致,得到长度为21帧、图像大小为282×230的用于微表情识别的原始视频图像序列集合;
第二步,构建微表情的浅层运动信息和深层形状信息融合特征:
根据上述第一步得到的微表情视频图像序列集合,根据微表情的实际发生机理对集合中每个序列的每帧图像进行6×5的规则分块,提取每帧图像各分块的浅层运动信息和深层形状信息,构建微表情分块的融合特征:
第2.1步,计算浅层运动信息:
浅层运动信息的提取利用光流计算结合图像分块获得,计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρi,θi),21帧的微表情视频图像序列获得20帧的光流信息序列。将光流信息序列每帧进行6×5的规则分块,每个分块采用光流信息统计直方图来表征时域动作信息,根据角度值将其投影到对应分块的直方图区域中,如公式(1)所示:
Figure BDA0003154629260000111
1≤i≤20,1≤j≤30,b=1,2,…B (I),
公式(1)中,
Figure BDA0003154629260000121
表示光流信息序列中第i帧光流图的第j个分块中第b个区域的光流幅值累计值,
Figure BDA0003154629260000122
初始化为0,θi,j和ρi,j为第i帧第j个分块中每个像素点光流信息的极坐标表示,共将光流方向分为B个区域;最后,将光流信息统计直方图进行归一化,如公式(2)所示:
Figure BDA0003154629260000123
由此获得光流信息序列第i帧中第j个分块浅层运动信息Si,j,即
Figure BDA0003154629260000124
第2.2步,计算深层形状信息:
数据集通过时域插值模型获得20帧的深度微表情视频图像序列,和光流处理帧数保持一致,利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息,深度神经网络模型采用改进的ResNet18网络模型,通过训练获得微表情图像序列的深层形状信息,改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作,门控机制主要用来过滤与微表情识别无关的冗余信息,公式如(4)所示:
Figure BDA0003154629260000125
公式(4)中,Pi表示第i帧深度微表情图像前一层的输入特征,Conv_1和Conv_2表示卷积核为3×3的卷积操作,Sigmoid函数是用来生成门的激活函数,符号
Figure BDA0003154629260000126
表示元素级点乘,最终的输出用Gi来表示,
将门控机制的输出Gi作为卷积计算的输入,卷积计算包括三个卷积块,每个卷积块由一个卷积层、一个批标准化(Batch Normalization,BN)层组成,卷积层均使用3×3的卷积核,使用BN层加快模型的训练速度,经过卷积计算后输出特征矩阵为
Figure BDA0003154629260000127
在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息,有效注意力模块包含一个有效通道注意力和一个空间注意力如公式(5)-(6)所示,深度微表情视频图像序列中每帧图像的深层信息表示为Di
Figure BDA0003154629260000128
Figure BDA0003154629260000129
其中,公式(5)中
Figure BDA00031546292600001210
作为输入,AGP()和MAP()表示平均池化和最大池化操作,
Figure BDA00031546292600001211
表示元素级相加,符号
Figure BDA00031546292600001212
表示元素级点乘,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作与输入Fi相乘得到有效通道注意后的特征
Figure BDA00031546292600001213
公式(6)中Mean()和Max()表示按通道维度计算平均值和最大值,Conv2表示7×7的卷积操作,σ为Softmax激活函数,
Figure BDA00031546292600001214
表示经过空间注意力后的特征,
经过一系列门控机制、卷积计算、有效注意力、池化操作,获得第i帧深度微表情视频图像序列中的深层形状信息
Figure BDA00031546292600001215
经过变形、归一化后获得最终的深层形状信息Di
Figure BDA00031546292600001216
公式(7)中,shape()函数将矩阵转化为二维矩阵,normalize为按照最大值进行的归一化操作,
Figure BDA00031546292600001217
为深度神经网络模型的输出,再对输出特征改变形状以区分各分块的深层形状特征,获得最终深层形状信息Di
第i帧第j分块的深层形状信息为:
Figure BDA0003154629260000131
其中,M表示第i帧图像的深层形状信息维数,实际取M为1920;
第2.3步,构建融合特征:
将浅层运动信息与深层形状信息进行级联构建融合特征,作为后续自注意力图卷积网络的输入特征,融合特征兼顾视频序列中可以描述微表情的浅层运动信息和深层形状信息,如公式(9)所示:
Figure BDA0003154629260000132
公式(9)中,Si,j代表第i帧第j个分块的浅层运动信息,Di,j代表深度神经网络模型输出的第i帧第j分块深层形状信息,
Figure BDA0003154629260000133
表示第i帧第j分块的融合特征,由此获得自注意力图卷积网络的输入特征FG如公式(10)
Figure BDA0003154629260000134
第三步,结合AU建立图结构邻接矩阵:
通过光流的共现关系和AU的发生机制构建邻接矩阵,相邻两帧的节点相连接表示自注意力图卷积网络的时间结构,具体步骤如下:
第3.1步,根据分块运动计算光流共现邻接矩阵:
对数据集中每组微表情光流信息序列各分块的光流进行累计,计算所有分块累计光流的累计值,如公式(11)所示:
Figure BDA0003154629260000135
公式(11)中,w、h分别为各分块的宽度和高度,ρ(x,y)表示位置(x,y)像素点的光流大小;
计算数据集中每组微表情光流信息序列任意两分块间的共现次数,即当某块的光流累计值大于平均值时,则认为此块运动幅度剧烈,即此块出现,同一个光流信息序列中同时出现的块具有共现关系,如公式(12)所示:
Figure BDA0003154629260000136
公式(12)中,以Nm∩n表示第m,n块共现的次数,Nn表示第n块出现的次数,通过条件概率P(Um|Un)来建模共现,Um表示第m个分块出现的几率,Un表示第n个分块出现的几率,
为了尽量降低由噪声产生的影响,对面部共现的概率设置一个阈值τ,如公式(13)所示:
Figure BDA0003154629260000137
经过消融实验的研究确定CASMEII数据集的τ取值为0.025,CASMEI和SAMM数据集的τ取值为0.02,由此获得光流共现邻接矩阵
Figure BDA0003154629260000138
第3.2步,根据AU关系构建邻接矩阵:
将面部划分为若干既相互独立又相互联系的AU,面部运动编码系统(FacialAction Coding System,FACS)表明不同的AU组合和不同的表情之间有对应关系,它是面部表情肌肉运动的权威标准,根据这一先验知识,将面部等分为上中下三个区域(分别用up、mid、down表示),根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系,具体来说,数据集标定的AU单元出现的分块之间发生邻接关系,发生邻接关系的相应位置赋值为1,其他位置为0,由此获得根据AU关系构建的邻接矩阵
Figure BDA0003154629260000141
Figure BDA0003154629260000142
如公式(14)所示:
Figure BDA0003154629260000143
第3.3步,构建特征增强邻接矩阵:
在等分为三部分的面部区域后,选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵,通过原始的输入特征辅助微表情识别分类,如公式(15)-(16)所示:
Figure BDA0003154629260000144
Figure BDA0003154629260000145
由此构建出特征增强邻接矩阵
Figure BDA0003154629260000146
自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵Ae、根据AU关系构建的邻接矩阵AAU、光流共现邻接矩阵Aflow三者的加和,由此完成自注意力图卷积网络邻接矩阵的构建
Figure BDA0003154629260000147
Figure BDA0003154629260000148
A=Aflow+AAu+Ae (17),
第四步,构建自注意力图卷积网络:
构建自注意力图卷积网络发现不同面部分块之间的联系,所述自注意力图卷积网络包含四个相同的自选择时空图卷积块,具体如下:
第4.1步,学习节点注意力:
节点注意力通过卷积层实现,学习上述第2.3步输入特征的节点内部关系,减小特征的复杂度,如公式(18)所示:
Figure BDA0003154629260000149
公式(18)中,
Figure BDA00031546292600001410
表示第二步获得的输入节点特征,MAP()和AGP()分别为最大池化和平均池化操作表示学习到的重要内部信息和全局信息,
Figure BDA00031546292600001411
表示元素级相加,
Figure BDA00031546292600001412
表示元素级点乘,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作和输入FG相乘得到节点注意力特征XNA
第4.2步,学习结构重要度:
通过自注意力图卷积网络反向传播学习到边的重要性来缩放节点的贡献,如公式(19)所示:
Figure BDA00031546292600001413
公式(19)中,加权后的邻接矩阵表示为Aw,WA是自注意力图卷积网络通过前向传播学习到的参数,A是上一个自选择时空图卷积块得到的邻接矩阵,初始值为第三步得到的自注意力图卷积网络邻接矩阵A;
第4.3步,空间卷积:
通过空间卷积学习同一帧不同节点特征之间的关系,卷积过程根据第4.2步的加权后的邻接矩阵Aw关系得到,如公式(20):
Figure BDA0003154629260000151
公式(20)中,Aw为上一步学习到的邻接矩阵,
Figure BDA0003154629260000152
表示第i帧经过节点注意力后的特征,W表示网络学习到的权重矩阵,σ表示非线性激活函数,
Figure BDA0003154629260000153
表示元素级点乘,经过空间卷积后的特征为
Figure BDA0003154629260000154
其中C'表示经过空间卷积后每个节点的特征数,V表示节点个数,T表示序列帧数;
第4.4步,学习位置重要度:
通过公式(21)辅助学习面部重要的分块和选择利于分类功能的帧:
Figure BDA0003154629260000155
公式(21)中,
Figure BDA0003154629260000156
为经过空间卷积后的特征,其中C'表示每个节点的特征数,V表示节点个数,T表示序列帧数。Mean()和Max()为按照特征数C'计算的平均值和最大值,选择以利于分类的重要的节点数和帧数,Conv1×7表示1×7的二维卷积操作,其中输入特征数2C',输出特征数C',b为偏置项,Sigmoid激活函数用来选择节点和关键帧;
第4.5步,构建自选择时间核模块:
通过自选择时间核模块进行时间卷积找到微表情的时序特征,动态选择时间核以获得不同尺度的时间信息,
首先融合不同尺度的时间信息如公式(22)所示:
Figure BDA0003154629260000157
公式(22)中,三种不同的卷积核分别为1×5、1×7、1×9获得三种不同的变换F1
Figure BDA0003154629260000158
Figure BDA0003154629260000159
F2
Figure BDA00031546292600001510
F3
Figure BDA00031546292600001511
通过元素级相加融合不同尺度的信息为U:
通过全局平均池化GAP生成全局信息
Figure BDA00031546292600001512
具体如公式(23):
Figure BDA00031546292600001513
公式(23)中,V'表示节点数,C'表示特征数,U(v,c)表示第v个节点的第c个特征,通过一个全连接层来加强特征的引导和自适应选择,公式如(24):
z=FC(s) (24),
公式(24)中,FC()为全连接层,
Figure BDA00031546292600001514
FC层的输入参数是T',输出参数是d;
通过Softmax自适应地选择不同的时间尺度信息,如公式(25)所示:
Figure BDA00031546292600001515
公式(25)中,
Figure BDA00031546292600001516
代表U1,U2,U3的注意力向量,
Figure BDA00031546292600001517
表示向量H1第t列,
Figure BDA00031546292600001518
表示h1的第t个元素,同理
Figure BDA00031546292600001519
Figure BDA00031546292600001520
Figure BDA0003154629260000161
第t帧的多尺度时间信息表示为Qt,最终的特征映射表示为Q,其中,Q=[Q1,Q2,…,QT'],
Figure BDA0003154629260000162
第4.6步,自注意残差特征选择:
将第2、3层的输出特征通过自注意残差选择,自注意残差特征选择即输入特征经过自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘达到过滤输入特征冗余部分的作用,加强特征的传播,具体公式如(27)所示:
Figure BDA0003154629260000163
公式(27)中,输入特征,即上一层的输出特征,经过两个卷积层分别进行特征映射,并改变形状后为
Figure BDA0003154629260000164
其中N=T’×V‘,通过Softmax计算注意力图S∈RN×N,a为网络学习到的每个位置点的参数,用来平衡节点特征,
经过自注意力图卷积网络的输出特征为公式(28)所示:
Figure BDA0003154629260000165
公式(28)中,S3、S4为第3、4层的自注意残差映射,
Figure BDA0003154629260000166
为后三层自选择时空图卷积块的输出,
Figure BDA0003154629260000167
表示元素级相加,
Figure BDA0003154629260000168
表示元素级点乘,Fout为最终的输出特征;
第4.7步,识别分类:
将上一步得到的输出特征Fout通过全局平均池化GAP()和全连接层FC()进行识别分类:
class=FC(GAP(Fout)) (29),
class表示经过自注意力图卷积网络识别得到的最终分类结果;
第4.8步:通过自注意力图卷积网络进行人脸微表情的训练和预测,实现人脸微表情自动识别:
将上述第二步中的全部微表情预处理序列按照留一验证法(Leave One SubjectOut Cross Validation,LOSOCV)划分为训练集和测试集两部分,将训练集获得的融合特征送入到构建好的自注意力图卷积网络根据标签和损失函数自动更新网络的参数,获得优化后的自注意力图卷积网络模型,再用测试集获得的融合特征进行测试,完成视频图像序列中人脸微表情的识别。
本实施实例分别在CASMEI、CASMEII和SAMM数据库上进行了实验。从CASMEI库选择171个图像序列,将人脸微表情分为紧张、厌恶、压抑和惊讶四类;从CASMEII库中选择246个图像序列,包含厌恶、压抑、惊讶、幸福和其他;从SAMM库中选择136个图像序列包括幸福、惊讶、愤怒、厌恶和其他。本发明是在Linux环境下Pycharm2019.3平台上运行完成。
实验中识别准确率的公式为:
Figure BDA0003154629260000169
将本实施例的方法与经典的LBP-TOP、MDMO、VGGMag、LGCcon等方法的实验结果进行比较,其中LBP-TOP是基于纹理的特征提取方法;MDMO是基于运动的特征提取方法;VGGMag、LGCcon是基于深度学习的方法,表1列出了本发明方法即该表中的基于自注意力图卷积网络的微表情识别方法SA-RESGCN与现有技术中的人脸微表情自动识别的特征提取方法在人脸微表情图像上的识别率。
表1不同特征提取方法在CASMEI、CASMEII、SAMM数据库上的测试结果
Figure BDA0003154629260000171
从表1可以看出,本发明方法即SA-RESGCN在CASMEI、CASMEII、SAMM数据库中的识别率都高于其他几种方法,可见本发明方法在视频图像序列中人脸微表情自动识别上的效果显著。
上述实施例中所述SA-RESGCN方法的英文为Self Attention Residual GraphConventional Network,中文译为自注意力图卷积网络;其中LBP-TOP、MDMO、VGGMag、LGCcon都是本领域公知的。
本申请构建的融合特征能获得更加丰富的微表情信息,并充分考虑浅层运动信息和深层形状信息,三种类型邻接矩阵的引入构建图结构邻接矩阵能够建立不同面部区域在微表情发生时的关联信息,最后利用自注意力图卷积网络根据微表情的实际发生机理学习放大不同类别微表情特征的差异性,实现微表情的高精度自动识别。
本发明未述及之处适用于现有技术。

Claims (10)

1.一种视频图像序列中人脸微表情识别方法,其特征在于,该识别方法包括以下内容:在微表情视频图像序列预处理之后,根据微表情的实际发生机理划分图像分块并获得微表情的浅层运动信息和深层形状信息融合特征,通过光流的共现关系和AU的发生机制构建自注意力图卷积网络的邻接矩阵A,以分块为节点、以邻接矩阵为边,构建自注意力图卷积网络,最后利用自注意力图卷积网络完成微表情的分类识别。
2.根据权利要求1所述的识别方法,其特征在于,所述融合特征的获得过程是:
基于预处理后的微表情视频图像序列的光流信息,获得光流信息序列,对光流信息序列的每一帧进行图像分块,每个分块采用光流信息统计直方图来表征时域动作信息,根据角度值将光流信息ρi,j投影到对应分块的直方图区域中,最后经归一化获得浅层运动信息;
基于预处理后的微表情视频图像序列通过时域插值模型获得深度神经网络模型所需输入的深度微表情视频图像序列,该深度微表情视频图像序列的帧数与上述光流信息序列的帧数相同,对深度微表情视频图像序列的每一帧进行图像分块,通过深度神经网络模型获得深度微表情视频图像序列中所有图像分块的深层形状信息;两处分块的划分规则相同;
将浅层运动信息与深层形状信息进行级联获得融合特征。
3.根据权利要求1所述的识别方法,其特征在于,所述分块划分规则为:纵向分为6个分块,将面部区域的眉毛、眼睛、鼻子、脸颊、下巴区域分开,考虑人脸的对称性横向划分为5个分块。
4.根据权利要求1所述的识别方法,其特征在于,所述自注意力图卷积网络的邻接矩阵A为特征增强邻接矩阵Ae、根据AU关系构建的邻接矩阵AAU、光流共现邻接矩阵Aflow三者的加和。
5.根据权利要求4所述的识别方法,其特征在于,光流共现邻接矩阵Aflow的获得过程是:对光流信息序列的各分块的光流进行累计,用公式(11)计算各分块累计光流的累计值Sum,进而获得所有分块累计光流的平均值:
Figure FDA0003154629250000011
公式(11)中,w、h分别为各分块的宽度和高度,ρ(x,y)表示位置(x,y)像素点的光流大小;
当某块的光流累计值大于平均值时,则认为此块运动幅度剧烈,即此块出现,同一个光流信息序列中同时出现的块具有共现关系;根据光流信息序列的任意m、n两分块间的共现次数与第n块出现的次数的比值表示共现关系
Figure FDA0003154629250000012
对面部共现的概率设置面部出现阈值τ,若出现关系不小于面部出现阈值τ,则该出现关系
Figure FDA0003154629250000013
置为1,否则
Figure FDA0003154629250000014
置为0,所有分块的出现关系组成光流共现邻接矩阵Aflow
根据AU关系构建的邻接矩阵AAU的过程是:将面部划分为若干既相互独立又相互联系的AU,将面部等分为上中下三个区域,分别用up、mid、down表示,根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系,发生邻接关系的位置赋值为1,其他位置为0,由此获得根据AU关系构建的邻接矩阵AAU
特征增强邻接矩阵Ae的获得过程是:在根据AU关系将面部等分为三个区域后,选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵
Figure FDA0003154629250000021
即主对角线部分为1,其他位置为0的矩阵,由此构建出特征增强邻接矩阵
Figure FDA0003154629250000022
6.根据权利要求1所述的识别方法,其特征在于,所述自注意力图卷积网络用于学习节点注意力、学习边结构重要度、通过空间卷积学习同一帧不同节点特征之间的关系、辅助学习面部重要的分块和选择利于分类功能的帧,通过微表情的实际发生机理学习不同类别微表情的特征,放大微表情之间的差异性,自适应选择特征,实现人脸微表情自动识别。
7.根据权利要求1所述的识别方法,其特征在于,所述自注意力图卷积网络包括四层相同的自选择时空图卷积块SSTGCM,输入为融合特征FG
四层自选择时空图卷积块SSTGCM依次连接,第二层的自选择时空图卷积块SSTGCM的输入为第一层自选择时空图卷积块SSTGCM的输出与融合特征FG的加和;第三层的自选择时空图卷积块SSTGCM的输入为第二层自选择时空图卷积块SSTGCM的输出和输入的加和;将第三层和第四层的自选择时空图卷积块SSTGCM的各自的输出特征通过卷积层ConvK、卷积层ConvR、Softmax函数进行自注意残差选择分别得到S3、S4,S3、S4再分别与该层自选择时空图卷积块SSTGCM的输入特征
Figure FDA0003154629250000023
相乘,之后再与各自的自选择时空图卷积块SSTGCM的输出特征
Figure FDA0003154629250000024
相加;第三层自选择时空图卷积块SSTGCM相加后的结果作为第四层自选择时空图卷积块SSTGCM的输入,第四层自选择时空图卷积块相加后的结果和第三层自选择时空图卷积块的相加后的结果与第四层自选择时空图卷积块的输出特征
Figure FDA0003154629250000025
最后相加,即为最终特征映射Fout,最后再经过全局平均池化GAP()和全连接层FC()获得最终的分类结果class;
所述自选择时空图卷积块SSTGCM的过程是:输入特征分别经过最大池化MAP()、平均池化AGP()获得的特征相加,再通过ts操作、卷积层Conv1、Sigmoid函数、expand操作学习节点注意力,再与输入特征相乘得到经过节点注意力后的特征XNA,自注意力图卷积网络的邻接矩阵A通过自注意力图卷积网络反向传播学习结构重要度得到加权后的邻接矩阵Aw,特征XNA与Aw相乘获得经过空间卷积后的特征X,再经过Mean()、Max()、卷积层Conv1×7、Sigmoid得到的位置重要度与X相乘得到特征F,再经过自选择时间核模块得到自选择时空图卷积块的输出特征Q。
8.根据权利要求7所述的识别方法,其特征在于,所述自选择时间核模块包括三个不同尺度的卷积核、全局平均池化GAP()、全连接层FC()和激活函数Softmax,三个不同尺度的卷积核的输入均为学习位置重要度后的特征F,输出经过融合后依次经全局平均池化GAP()、全连接层FC()和激活函数Softmax获得自选择时间核模块的输出Q。
9.一种视频图像序列中人脸微表情识别方法,是一种在微表情视频序列预处理基础上,结合融合特征和自注意力图卷积网络的微表情识别方法,具体步骤是:
第一步,微表情视频图像序列预处理:
通过开源包dlib对微表情视频图像序列数据集完成人脸定位,裁剪出人脸区域,并通过时域插值模型(Temporal Interpolation Model,TIM)对数据集中每组微表情视频图像序列进行帧插值处理,使得微表情视频序列的帧长一致,获得预处理后的微表情视频图像序列集合;预处理后数据集中每组微表情视频图像序列长度为21帧、每帧图像大小为M×N;
第二步,构建微表情的浅层运动信息和深层形状信息融合特征:
根据上述第一步得到的微表情视频图像序列集合,根据微表情的实际发生机理对集合中每个序列的每帧图像进行6×5的规则分块,提取每帧图像各分块的浅层运动信息和深层形状信息,构建微表情分块的融合特征:
第2.1步,计算浅层运动信息:
浅层运动信息的提取利用光流计算结合图像分块获得,计算微表情图像序列中相邻两帧的光流信息并转化为极坐标表示(ρi,θi),21帧的微表情视频图像序列获得20帧的光流信息序列,将光流信息序列每帧进行6×5的规则分块,每个分块采用光流信息统计直方图来表征时域动作信息,根据角度值将光流信息ρi投影到对应分块的直方图区域中,用公式(1)表示:
Figure FDA0003154629250000031
公式(1)中,
Figure FDA0003154629250000032
表示光流信息序列中第i帧光流图的第j个分块中第b个区域的光流幅值累计值,
Figure FDA0003154629250000033
为初始值,初始化为0;θi,j和ρi,j为第i帧第j个分块中每个像素点光流信息的极坐标表示,共将光流方向分为B个区域;最后,通过公式(2)将光流信息统计直方图进行归一化
Figure FDA0003154629250000034
Figure FDA0003154629250000035
由此获得光流信息序列第i帧中第j个分块浅层运动信息Si,j,即:
Figure FDA0003154629250000036
第2.2步,计算深层形状信息:
数据集通过时域插值模型获得20帧的深度微表情视频图像序列,和光流处理帧数保持一致,利用深度神经网络模型计算每组深度微表情视频图像序列中图像的深层形状信息,深度神经网络模型采用改进的ResNet18网络模型,通过训练获得微表情图像序列的深层形状信息,改进的ResNet18网络模型包括门控机制、卷积计算、有效注意力、池化操作;
第2.3步,构建融合特征:
将浅层运动信息与深层形状信息进行级联构建融合特征,作为后续自注意力图卷积网络的输入特征,融合特征用公式(9)表示:
Figure FDA0003154629250000037
公式(9)中,Si,j代表第i帧第j个分块的浅层运动信息,Di,j代表深度神经网络模型输出的第i帧第j分块深层形状信息,
Figure FDA0003154629250000041
表示第i帧第j分块的融合特征,由此获得自注意力图卷积网络的输入特征FG如公式(10):
Figure FDA0003154629250000042
第三步,结合AU建立自注意力图卷积网络邻接矩阵:
通过光流的共现关系和AU的发生机制构建邻接矩阵,相邻两帧的节点相连接表示自注意力图卷积网络的时间结构,具体步骤是:
第3.1步,根据分块运动计算光流共现邻接矩阵:
对数据集中每组微表情光流信息序列各分块的光流进行累计,通过公式(11)计算所有分块累计光流的累计值Sum:
Figure FDA0003154629250000043
公式(11)中,w、h分别为各分块的宽度和高度,ρ(x,y)表示位置(x,y)像素点的光流大小,
计算光流信息序列任意两分块间的共现次数,即当某块的光流累计值大于平均值时,则认为此块运动幅度剧烈,即此块出现,同一个光流信息序列中同时出现的块具有共现关系
Figure FDA0003154629250000044
用公式(12)表示:
Figure FDA0003154629250000045
公式(12)中,以Nm∩n表示第m,n块共现的次数,Nn表示第n块出现的次数,通过条件概率P(Um|Un)来建模共现,Um表示第m个分块出现的几率,Un表示第n个分块出现的几率,
为了尽量降低由噪声产生的影响,对面部共现的概率设置一个面部出现阈值τ:
Figure FDA0003154629250000046
通过公式(13)获得光流共现邻接矩阵
Figure FDA0003154629250000047
第3.2步,根据AU关系构建邻接矩阵:
将面部划分为若干既相互独立又相互联系的AU,面部运动编码系统表明不同的AU组合和不同的表情之间有对应关系,将面部等分为上中下三个区域,分别用up、mid、down表示,根据区域中AU的运动情况分别构建三个子邻接矩阵,通过AU的出现寻找面部运动与微表情发生机理之间的关系,发生邻接关系的相应位置赋值为1,其他位置为0,获得三个子邻接矩阵
Figure FDA0003154629250000048
根据公式(14)获得AU关系构建的邻接矩阵
Figure FDA0003154629250000049
Figure FDA00031546292500000410
第3.3步,构建特征增强邻接矩阵:
在等分为三部分的面部区域后,选择上部分和下部分的人脸区域分别构建主对角线为1的特征增强矩阵,用公式(15)-(16)表示,通过原始的输入特征辅助微表情识别分类:
Figure FDA0003154629250000051
Figure FDA0003154629250000052
由此构建出特征增强邻接矩阵
Figure FDA0003154629250000053
自注意力图卷积网络邻接矩阵A为特征增强邻接矩阵Ae、根据AU关系构建的邻接矩阵AAU、光流共现邻接矩阵Afllow三者的加和,由此完成自注意力图卷积网络邻接矩阵的构建
Figure FDA0003154629250000054
Figure FDA0003154629250000055
A=Aflow+AAU+Ae (17),
第四步,构建自注意力图卷积网络:
构建自注意力图卷积网络发现不同面部分块之间的联系,所述自注意力图卷积网络包含四个相同的自选择时空图卷积块,具体是:
第4.1步,学习节点注意力:
节点注意力通过卷积层实现,学习上述第2.3步输入特征的节点内部关系,减小特征的复杂度,如公式(18)所示:
Figure FDA0003154629250000056
公式(18)中,
Figure FDA0003154629250000057
表示第二步获得的输入特征,MAP()和AGP()分别为最大池化和平均池化操作表示学习到的重要内部信息和全局信息,
Figure FDA0003154629250000058
表示元素级相加,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作和输入FG相乘得到节点注意力特征XNA
第4.2步,学习结构重要度:
通过自注意力图卷积网络反向传播学习到边的重要性来缩放节点的贡献,用公式(19)表示:
Figure FDA0003154629250000059
公式(19)中,Aw为加权后的邻接矩阵,WA是自注意力图卷积网络通过前向传播学习到的参数,A是上一个自选择时空图卷积块得到的邻接矩阵,初始值为第三步得到的自注意力图卷积网络邻接矩阵A;
第4.3步,空间卷积:
通过空间卷积学习同一帧不同节点特征之间的关系,卷积过程根据第4.2步的加权后的邻接矩阵Aw关系得到,如公式(20):
Figure FDA00031546292500000510
公式(20)中,
Figure FDA00031546292500000511
表示第i帧经过节点注意力后的特征,W表示网络学习到的权重矩阵,σ表示非线性激活函数,
Figure FDA00031546292500000512
表示元素级点乘,经过空间卷积后的特征为
Figure FDA00031546292500000513
其中C′表示经过空间卷积后每个节点的特征数,V表示节点个数,T表示序列帧数;
第4.4步,学习位置重要度:
通过公式(21)辅助学习面部重要的分块和选择利于分类功能的帧:
Figure FDA0003154629250000061
公式(21)中,Mean()和Max()为按照特征数C′计算的平均值和最大值,选择以利于分类的重要的节点数和帧数,Conv1×7表示1×7的二维卷积操作,其中输入特征数2C′,输出特征数C′,b为偏置项,Sigmoid激活函数用来选择节点和关键帧;
第4.5步,构建自选择时间核模块:
通过自选择时间核模块进行时间卷积找到微表情的时序特征,动态选择时间核以获得不同尺度的时间信息:
三种不同的卷积核分别为1×5、1×7、1×9,对应获得三种不同的变换,三种不同的卷积核的输入均为F,即
Figure FDA0003154629250000062
通过元素级相加融合不同尺度的信息为U,
通过全局平均池化GAP生成全局信息
Figure FDA0003154629250000063
具体公式为公式(23):
Figure FDA0003154629250000064
公式(23)中,V′表示节点数,C′表示特征数,U(v,c)表示第v个节点的第c个特征,
通过一个全连接层来加强特征的引导和自适应选择,用公式(24)表示:
z=FC(s) (24),
公式(24)中,FC()为全连接层,
Figure FDA0003154629250000065
FC层的输入参数的维度是T′,输出参数的维度是d;
通过Softmax自适应地选择不同的时间尺度信息,用公式(25)表示:
Figure FDA0003154629250000066
公式(25)中,
Figure FDA0003154629250000067
代表U1,U2,U3的注意力向量,
Figure FDA0003154629250000068
表示向量H1第t列,
Figure FDA0003154629250000069
表示h1的第t个元素,同理
Figure FDA00031546292500000610
Figure FDA00031546292500000611
Figure FDA00031546292500000612
第t帧的多尺度时间信息表示为Qt,最终的特征映射表示为Q,其中,Q=[Q1,Q2,...,QT′],
Figure FDA00031546292500000613
第4.6步,自注意残差特征选择:
将第2、3层自选择时空图卷积块的输出特征通过自注意残差选择,即输入特征经过一个自选择时空图卷积块、两个二维卷积、Softmax生成注意力图与输入特征相乘过滤输入特征的冗余部分,加强特征的传播,具体公式为公式(27):
Figure FDA0003154629250000071
公式(27)中,Kk、Rr分别为两个二维卷积第k行、第r列的输出向量,Skr为第k行第r列的特征映射值,其中N=T’×V’,S∈RN×N表示所有特征映射的集合,构成注意力图,a为网络学习到的每个位置点的参数,用来平衡节点特征;
经过自注意力图卷积网络的输出特征为公式(28)所示:
Figure FDA0003154629250000072
公式(28)中,S3、S4为第3、4层的自注意残差映射,
Figure FDA0003154629250000073
为后三层自选择时空图卷积块的输出,
Figure FDA0003154629250000074
表示元素级点乘,
Figure FDA0003154629250000075
表示元素级相加,Fout为最终的输出特征;
第4.7步,识别分类:
将上一步得到的输出特征Fout通过全局平均池化GAP()和全连接层FC()进行识别分类:
class=FC(GAP(Fout)) (29),
class表示经过自注意力图卷积网络识别得到的最终分类结果;
第4.8步:通过自注意力图卷积网络进行人脸微表情的训练和预测,实现人脸微表情自动识别。
10.根据权利要求9所述的识别方法,其特征在于,门控机制主要用来过滤与微表情识别无关的冗余信息,公式如(4)所示:
Figure FDA0003154629250000076
公式(4)中,Pi表示第i帧深度微表情图像前一层的输入特征,Conv_1和Conv_2表示卷积核为3×3的卷积操作,Sigmoid函数是用来生成门的激活函数,符号
Figure FDA0003154629250000077
表示元素级点乘,最终的输出用Gi来表示,
将门控机制的输出Gi作为卷积计算的输入,卷积计算包括三个卷积块,每个卷积块由一个卷积层、一个批标准化BN层组成,卷积层均使用3×3的卷积核,经过卷积计算后输出特征为
Figure FDA0003154629250000078
在每个卷积块后面连接一个有效注意力模块使网络关注显著的空间和时间信息,有效注意力模块包含一个通道注意力和一个空间注意力如公式(5)-(6)所示:
Figure FDA0003154629250000079
Figure FDA00031546292500000710
其中,公式(5)中
Figure FDA00031546292500000711
作为输入,AGP()和MAP()表示平均池化和最大池化操作,
Figure FDA00031546292500000712
表示元素级相加,符号
Figure FDA00031546292500000713
表示元素级点乘,经过transpose和squeeze(简称ts)操作后特征转化为(1,C),Conv1表示卷积核为1的一维卷积操作,经过Sigmoid激活函数和expand()操作与输入Fi相乘得到有效通道注意后的特征
Figure FDA0003154629250000081
公式(6)中Mean()和Max()表示按通道维度计算平均值和最大值,Conv2表示7×7的卷积操作,σ为Softmax激活函数,
Figure FDA0003154629250000082
表示经过空间注意力后的特征,
经过一系列门控机制、卷积计算、有效注意力、池化操作,获得第i帧深度微表情视频图像序列中的深层形状信息
Figure FDA0003154629250000083
经过变形、归一化后获得最终的深层形状信息Di
Figure FDA0003154629250000084
公式(7)中,shape()函数将矩阵转化为二维矩阵,normalize为按照最大值进行的归一化操作,
Figure FDA0003154629250000085
为深度神经网络模型的输出,再对输出特征改变形状以区分各分块的深层形状特征,获得最终深层形状信息Di
第i帧第j分块的深层形状信息为:
Figure FDA0003154629250000086
其中,M表示第i帧图像的深层形状信息维数。
CN202110773121.XA 2021-07-08 2021-07-08 视频图像序列中人脸微表情识别方法 Active CN113496217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110773121.XA CN113496217B (zh) 2021-07-08 2021-07-08 视频图像序列中人脸微表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110773121.XA CN113496217B (zh) 2021-07-08 2021-07-08 视频图像序列中人脸微表情识别方法

Publications (2)

Publication Number Publication Date
CN113496217A true CN113496217A (zh) 2021-10-12
CN113496217B CN113496217B (zh) 2022-06-21

Family

ID=77996339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110773121.XA Active CN113496217B (zh) 2021-07-08 2021-07-08 视频图像序列中人脸微表情识别方法

Country Status (1)

Country Link
CN (1) CN113496217B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065927A (zh) * 2021-11-22 2022-02-18 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN114550272A (zh) * 2022-03-14 2022-05-27 东南大学 基于视频时域动态注意力模型的微表情识别方法及装置
CN114627218A (zh) * 2022-05-16 2022-06-14 成都市谛视无限科技有限公司 一种基于虚拟引擎的人脸细微表情捕捉方法及装置
CN114639136A (zh) * 2022-01-22 2022-06-17 西北工业大学 一种基于浅层网络的长视频微表情检测方法
CN114694255A (zh) * 2022-04-01 2022-07-01 合肥工业大学 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114708627A (zh) * 2022-02-28 2022-07-05 厦门大学 一种应用于社交机器人的微表情识别方法
CN114842542A (zh) * 2022-05-31 2022-08-02 中国矿业大学 基于自适应注意力与时空关联的面部动作单元识别方法及装置
CN115880111A (zh) * 2023-02-22 2023-03-31 山东工程职业技术大学 基于图像的虚拟仿真实训课堂教学管理方法及系统
CN116311472A (zh) * 2023-04-07 2023-06-23 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置
CN116884067A (zh) * 2023-07-12 2023-10-13 成都信息工程大学 一种基于改进的隐式语义数据增强的微表情识别方法
CN117274885A (zh) * 2023-11-23 2023-12-22 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358206A (zh) * 2017-07-13 2017-11-17 山东大学 一种基于感兴趣区域的光流特征矢量模值和角度结合的微表情检测方法
CN107491740A (zh) * 2017-07-28 2017-12-19 北京科技大学 一种基于面部表情分析的新生儿疼痛识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112633153A (zh) * 2020-12-22 2021-04-09 天津大学 基于时空图卷积网络的面部表情运动单元识别方法
CN112766220A (zh) * 2021-02-01 2021-05-07 西南大学 双通道微表情识别方法、系统、存储介质、计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358206A (zh) * 2017-07-13 2017-11-17 山东大学 一种基于感兴趣区域的光流特征矢量模值和角度结合的微表情检测方法
CN107491740A (zh) * 2017-07-28 2017-12-19 北京科技大学 一种基于面部表情分析的新生儿疼痛识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
CN112633153A (zh) * 2020-12-22 2021-04-09 天津大学 基于时空图卷积网络的面部表情运动单元识别方法
CN112766220A (zh) * 2021-02-01 2021-05-07 西南大学 双通道微表情识别方法、系统、存储介质、计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LING LO ETAL.: ""MER-GCN: Micro-Expression Recognition Based on Relation Modeling with Graph Convolutional Networks"", 《ARXIV》 *
李勇 等: ""面部动作单元检测方法进展与挑战"", 《中国图象图形学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065927A (zh) * 2021-11-22 2022-02-18 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN114065927B (zh) * 2021-11-22 2023-05-05 中国工程物理研究院电子工程研究所 一种硬件加速器的激励数据分块处理方法及硬件加速器
CN114639136A (zh) * 2022-01-22 2022-06-17 西北工业大学 一种基于浅层网络的长视频微表情检测方法
CN114639136B (zh) * 2022-01-22 2024-03-08 西北工业大学 一种基于浅层网络的长视频微表情检测方法
CN114708627A (zh) * 2022-02-28 2022-07-05 厦门大学 一种应用于社交机器人的微表情识别方法
CN114550272A (zh) * 2022-03-14 2022-05-27 东南大学 基于视频时域动态注意力模型的微表情识别方法及装置
CN114550272B (zh) * 2022-03-14 2024-04-09 东南大学 基于视频时域动态注意力模型的微表情识别方法及装置
CN114694255B (zh) * 2022-04-01 2023-04-07 合肥工业大学 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114694255A (zh) * 2022-04-01 2022-07-01 合肥工业大学 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114627218A (zh) * 2022-05-16 2022-06-14 成都市谛视无限科技有限公司 一种基于虚拟引擎的人脸细微表情捕捉方法及装置
CN114842542A (zh) * 2022-05-31 2022-08-02 中国矿业大学 基于自适应注意力与时空关联的面部动作单元识别方法及装置
CN115880111A (zh) * 2023-02-22 2023-03-31 山东工程职业技术大学 基于图像的虚拟仿真实训课堂教学管理方法及系统
CN116311472A (zh) * 2023-04-07 2023-06-23 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置
CN116311472B (zh) * 2023-04-07 2023-10-31 湖南工商大学 基于多层次图卷积网络的微表情识别方法及装置
CN116884067A (zh) * 2023-07-12 2023-10-13 成都信息工程大学 一种基于改进的隐式语义数据增强的微表情识别方法
CN117274885A (zh) * 2023-11-23 2023-12-22 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法
CN117274885B (zh) * 2023-11-23 2024-02-09 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法

Also Published As

Publication number Publication date
CN113496217B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN113496217B (zh) 视频图像序列中人脸微表情识别方法
CN108830157B (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
Wang et al. MESNet: A convolutional neural network for spotting multi-scale micro-expression intervals in long videos
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN111797683A (zh) 一种基于深度残差注意力网络的视频表情识别方法
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN112560810B (zh) 基于多尺度时空特征神经网络的微表情识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN112464808A (zh) 一种基于计算机视觉的跳绳姿态及个数识别方法
CN113392766A (zh) 一种基于注意力机制的人脸表情识别方法
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN111639719A (zh) 基于时空运动和特征融合的足迹图像检索方法
CN112036276A (zh) 一种人工智能视频问答方法
CN111476178A (zh) 一种基于2d-3d cnn的微表情识别方法
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN112766021A (zh) 一种基于行人的关键点信息与语义分割信息进行行人重识别的方法
CN111523367B (zh) 基于人脸属性分析的智能化人脸表情识别方法与系统
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN112651301A (zh) 一种整合人脸全局和局部特征的表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant