CN113139479A - 一种基于光流和rgb模态对比学习的微表情识别方法及系统 - Google Patents

一种基于光流和rgb模态对比学习的微表情识别方法及系统 Download PDF

Info

Publication number
CN113139479A
CN113139479A CN202110464746.8A CN202110464746A CN113139479A CN 113139479 A CN113139479 A CN 113139479A CN 202110464746 A CN202110464746 A CN 202110464746A CN 113139479 A CN113139479 A CN 113139479A
Authority
CN
China
Prior art keywords
rgb
sequence
micro
optical flow
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110464746.8A
Other languages
English (en)
Other versions
CN113139479B (zh
Inventor
贲晛烨
宋延新
李玉军
黄天欢
孙国荃
孙浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110464746.8A priority Critical patent/CN113139479B/zh
Publication of CN113139479A publication Critical patent/CN113139479A/zh
Application granted granted Critical
Publication of CN113139479B publication Critical patent/CN113139479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于光流和RGB模态对比学习的微表情识别方法及系统,包括:A、对微表情视频进行预处理,包括:获取视频帧序列、人脸检测与定位、人脸对齐以及提取光流序列特征和RGB序列特征;B、对微表情数据集提取光流序列特征和RGB序列特征,将其划分为测试集和训练集;C、构建双模态对比学习识别模型,包括三维卷积残差网络,三维卷积残差网络分别对光流序列特征和RGB序列特征进行特征编码;D、构建交叉熵损失和对比学习损失,利用损失函数训练双模态对比学习识别模型;E、分类识别,根据训练好的双模态对比学习识别模型,对测试集进行分类识别。本发明利用监督信息和无监督信息对网络同时约束,以此得到更强的特征表达。

Description

一种基于光流和RGB模态对比学习的微表情识别方法及系统
技术领域
本发明涉及一种基于光流和RGB模态对比学习的微表情识别方法及系统,属于深度学习和模式识别技术领域。
背景技术
微表情是非常简短、微妙和非自愿的面部表情,通常发生在一个人故意或不自觉地隐藏他或她的真实情绪时,这为揭示人们的真实心理或情绪提供了依据。在刑侦审判、安全防护、心理咨询等领域有重要的应用。
特征表示对微表情识别具有重要作用,好的特征表示有助于提高微表情的识别率。按特征表示的种类,可以将微表情识别算法分为两大类:基于手工制作特征的识别算法和基于学习特征的识别算法。
常见的手工制作特征有:三正交平面的局部二值模式特征以及变形、梯度特征和光流特征。Zhao等人提出了LBP-TOP特征,LBP-TOP是将LBP从二维空间到三维空间的扩展,增加了时间域信息。一个图像序列,给出三个正交平面的纹理图,X-Y就是我们正常看到的图像,X-T是每一行沿着时间轴扫描而过的纹理,Y-T是每一列沿着时间轴扫描而过的图像,对三个平面提取LBP特征,最后将提取的特征进行连接就形成了最终特征表达。Liu提出了主方向平均光流特征(Main Directional Mean Optical-flow,MDMO)。MDMO根据运动单元的划分将面部分割为36个感兴趣区域,计算每一个区域的光流幅值和角度,作为最终的特征表示。MDMO的特征维度为72维,有效减少了计算量。对于视频序列来说,MDMO特征是通过逐帧平均一组特征来计算的。尽管MDMO中的平均操作很简单,但它很容易失去特征空间中固有的底层流形结构。为了改善MDMO,Liu等人提出了一种从微表情数据集中学习有效字典表示的稀疏MDMO特征。并在此基础上,提出了一种新的距离度量方法,这种方法可以有效地揭示特征潜在的流形结构。Alexander Klser等人将HOG特征从二维扩展到三维,提出三维梯度直方图(Histograms of Oriented 3D Gradients,3DHOG),用积分视频计算平均梯度向量,之后用正十二面体或正二十面体做量化,将平均梯度向量投影到每个面的中心,得到统计直方图。
常见的基于学习特征的微表情识别算法又可以细分为两种:两步学习和三维卷积神经网络。两步学习将微表情识别算法分成两步,包含两种形式。第一种形式是卷积神经网络和循环神经网络的结合;第二种形式是手工制作特征和循环神经网络的结合。Verburg等人首先提取不同时隙两帧之间的定向光流直方图特征,之后送入长短时记忆网络,提取序列的时序特征。Kim等人也提出了一种两步学习框架。首先利用卷积神经网络提取微表情帧的空间特征并形成空间特征序列,之后送入循环神经网络提取时间特征。三维卷积神经网络是在二维卷积神将网络扩展而来,由于二维卷积神将网络不能很好的捕获时序上的信息,因此三维卷积神经网络被提出,这样就能很好的利用微表情序列中的时序信息。Zhao等人提出了一种新型深度递归卷积网络用来捕获微表情序列的时空信息。该模型由几个用于提取视觉特征的循环卷积层和一个用于识别的分类层组成。
目前,基于手工制作特征的识别算法往往提取纹理信息或者边缘信息,难以提取视频序列更深层的特征。而基于学习特征的识别算法,往往通过深度学习方法实现,但深度模型的训练需要大量的数据,微表情数据库的样本数量有限使得深度学习的方法无法进一步提升识别率。
发明内容
针对现有技术的不足,本发明提供一种基于光流和RGB模态对比学习的微表情识别方法。本发明采用自监督学习,从大规模的无监督数据中挖掘自身的监督信息,并与监督模型一起训练,从而学习到更强的特征表达。
本发明还提供了一种基于光流和RGB模态对比学习的微表情识别系统。
发明概述:
一种基于光流和RGB模态对比学习的微表情识别方法,包括数据集预处理、双模态特征提取模块、双模态对比学习融合模块和分类识别模块四个部分。
本发明解决的技术问题为:目前公开的微表情数据集样本数量有限,很难训练一个高性能的微表情分类器。与现有方法相比,本发明利用对比学习去挖掘样本之间的更高层次的通用特征,并与监督学习一起训练模型,从而使有限的样本提取出质量更高的微表情特征。
术语解释:
1、Dlib视觉库:Dlib是一个包含机器学习算法的C++开源工具包。Dlib可以帮助创建很多复杂的机器学习方面的软件来帮助解决实际问题。目前Dlib已经被广泛的用在行业和学术领域,包括机器人,嵌入式设备,移动电话和大型高性能计算环境。
2、面部68个关键特征点,面部68个关键特征点主要分布于眉毛,眼睛,鼻子,嘴巴以及面部轮廓,如图2所示,通过Dlib视觉库来检测,为现有技术。
3、损失函数:损失函数是用来评估模型的预测值与真实值的不一致程度,损失函数越小,代表模型的鲁棒性越好,损失函数能指导模型学习。
4、Farneback光流算法:Farneback光流算法是由Gunner Farneback在2003年提出来的,基于图像梯度恒定假设和局部光流恒定假设,对前后两帧所有像素点的移动估算算法,已广泛运用到光流计算中。
5、三维卷积残差网络3D ResNet:3D ResNet是由Kensho Hara在2017年基于2DResNets提出来的,广泛应用到视频分类和行为识别领域。网络结构图如图3所示。
6、TIM:时域插值模型(Temporal Interpolation Model,TIM)算法是一种时域上的图像插值算法。该方法先将视频片段视为一个图,并用图中的节点代表一帧图像,视频中相邻的帧在图中也是相邻的节点,视频中不相邻的帧在图中也不相邻;随后,使用图嵌入算法将该图嵌入到一个低维的流形中,最后代入图像向量,计算出这条高维的连续曲线。在曲线上重新进行采样,便可得到插值后的图像序列。
本发明的技术方案如下:
一种基于光流和RGB模态对比学习的微表情识别方法,包括步骤如下:
A、对微表情视频进行预处理,包括:获取视频帧序列、人脸检测与定位、人脸对齐、构建RGB帧序列、构建光流序列以及插值;
B、将步骤A预处理后所得的光流序列和RGB帧序列划分为测试集和训练集;
C、构建双模态对比学习识别模型,所述双模态对比学习识别模型包括三维卷积残差网络,所述三维卷积残差网络分别对光流序列和RGB序列特征进行特征编码;
D、构建交叉熵损失和对比学习损失,利用损失函数训练双模态对比学习识别模型;以得到判别能力强的识别模型;
E、分类识别,根据步骤D训练好的双模态对比学习识别模型,对测试集进行分类识别。
根据本发明优选的,步骤A中,对微表情视频进行预处理,包括步骤如下:
1)获取视频帧序列:对包含微表情的视频进行分帧处理,得到视频帧序列并存储;
2)人脸检测与定位:利用Dlib视觉库对视频帧序列进行人脸检测和定位,给出所检测的视频帧中人脸数目和人脸距图像边界距离;
3)人脸对齐:人脸对齐是在人脸定位的基础之上,利用Dlib视觉库确定面部68个关键特征点,完成人脸分割并实现人脸矫正;
人脸分割是指:Dlib视觉库使用矩形框分割人脸;
人脸矫正是指:在检测出的面部68个关键特征点中,标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线存在角度a,通过该角度a得到对应的旋转矩阵,对分割出的人脸进行旋转变换,使标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线平行,实现人脸姿态的矫正;并将人脸进行缩放;得到128*128分辨率的视频帧。
4)构建RGB帧序列:将人脸对齐后的RGB图像按顺序排列构成RGB帧序列
5)构建光流序列:利用Farneback光流算法提取对齐后的微表情特征,并保存为光流序列。
6)插值:利用TIM插值算法,将RGB帧序列和光流序列插值为16帧。
根据本发明优选的,步骤C中,所述双模态对比学习识别模型包括两个3D-ResNet10网络;
3D-ResNet10网络包括卷积层Conv1_x、最大池化层Maxpool、卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x、平均池化层Avgpool和全连接层;卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x中均设有残差模块BasicBlock;
假设微表情序列的输入大小为B×C×D×W×H,B表示批尺寸大小,C表示序列的通道个数,D表示微表情的序列长度,W和H分别表示输入序列图像的宽和高,经过特征编码之后,光流序列特征、RGB序列特征的特征编码zrgb、zflow的维度大小均为B×128。
根据本发明优选的,步骤D中,构建对比学习损失和交叉熵损失,是指:
给定一个微表情数据集X,微表情数据集X由一个样本集合
Figure BDA0003043294620000041
组成;rgbi和flowi表示一个微表情样本的两种模态;
根据两种模态是否来自同一个微表情样本,构建正样本对和负样本对;x={rgbi,flowi}称为正样本对,y={rgbi,flowj}称为负样本对,RGB和FLOW表示微表情两种模态的样本集合,
Figure BDA0003043294620000042
每次选择一个正样本对x和k个负样本对{y1,y2,...,yk}进行损失的计算,目的是希望正样本对的距离越小越好,负样本对的距离越大越好。则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(1)所示:
Figure BDA0003043294620000043
式(1)中,S={x,y1,y2,...,yk},x表示正样本对,yi表示负样本对,ES表示求取期望;hθ(·)是定义的距离函数,表示两种模态特征的余弦相似度;使用所述双模态对比学习识别模型对光流序列特征和RGB序列特征进行特征提取,得到的特征编码为zrgb、zflow
Figure BDA0003043294620000045
Figure BDA0003043294620000046
Figure BDA0003043294620000047
Figure BDA0003043294620000048
为双模态对比学习识别模型,则hθ(·)如式(2)所示:
Figure BDA0003043294620000044
固定一个模态的样本rgbi,从另一个模态选出正样本flowi和采样出k个负样本flowj,则式(1)写成式(3):
Figure BDA0003043294620000051
根据式(1)和式(3),固定模态rgb,枚举模态flow求得损失
Figure BDA0003043294620000052
同时,求得当固定模态flow,枚举rgb时的损失值
Figure BDA0003043294620000053
则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(4)所示:
Figure BDA0003043294620000054
将zrgb、zflow直接连接,进行特征融合,利用融合后的特征计算交叉熵损失,交叉熵损失如式(5)所示:
Figure BDA0003043294620000055
式(5)中,p(xi)为x在真实分布中属于第i类的概率;q(xi)为x在预测分布中属于第i类的概率;n是类别数,则所述双模态对比学习识别模型的总的损失函数如式(5)所示:
L=α×Lcontrast+(1-α)×Lcross_entropy(6)
式(6)中,α为权重因子,对两种损失函数进行平衡;
初始化双模态对比学习识别模型的参数,以减小回归损失L作为训练目标,训练双模态对比学习识别模型。
根据本发明优选的,步骤E中,分类识别过程为:根据步骤D中训练好的双模态对比学习识别模型,对测试集进行分类识别。
一种基于光流和RGB模态对比学习的微表情识别系统,包括依次连接的预处理模块、双模态特征提取模块、双模态对比学习融合模块及分类识别模块;
所述预处理模块,用于实现所述步骤A;所述双模态特征提取模块,用于实现所述步骤C;所述双模态对比学习融合模块,用于实现所述步骤D;所述分类识别模块,用于实现所述步骤E。
本发明的有益效果在于:
本发明将微表情序列分成两种模态序列,光流序列和RGB序列;之后用三维卷积神经网络提取RGB序列和光流序列的视频特征,并利用双模态对比学习融合模块学习两种模态之间的共同特征;在学习到两种模态通用特征的同时,将双模态特征进行融合,进行监督模型的训练,利用标签数据训练模型。本发明利用监督信息和无监督信息对网络同时约束,以此得到更强的特征表达。
附图说明
图1为基于光流和RGB模态对比学习的微表情识别系统流程图;
图2为本发明面部68个关键特征点示意图;
图3为双模态对比学习识别模型的网络结构示意图;
图4为三维卷积残差网络3D-ResNet结构示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于光流和RGB模态对比学习的微表情识别方法,如图1所示,包括步骤如下:
A、对微表情视频进行预处理,包括:获取视频帧序列、人脸检测与定位、人脸对齐、构建RGB帧序列、构建光流序列以及插值;
B、将步骤A预处理后所得的光流序列和RGB帧序列划分为测试集和训练集;
C、构建双模态对比学习识别模型,所述双模态对比学习识别模型包括三维卷积残差网络,所述三维卷积残差网络分别对光流序列特征和RGB序列特征进行特征编码;
D、构建交叉熵损失和对比学习损失,利用损失函数训练双模态对比学习识别模型;以得到判别能力强的识别模型;
E、分类识别,根据步骤D训练好的双模态对比学习识别模型,对测试集进行分类识别。
实施例2
根据实施例1所述的一种基于光流和RGB模态对比学习的微表情识别方法,其区别在于:
步骤A中,对微表情视频进行预处理,包括步骤如下:
1)获取视频帧序列:对包含微表情的视频进行分帧处理,得到视频帧序列并存储;
2)人脸检测与定位:利用Dlib视觉库对视频帧序列进行人脸检测和定位,给出所检测的视频帧中人脸数目和人脸距图像边界距离;
3)人脸对齐:人脸对齐是在人脸定位的基础之上,利用Dlib视觉库确定面部68个关键特征点,完成人脸分割并实现人脸矫正;
人脸分割是指:Dlib视觉库使用矩形框分割人脸;
人脸矫正是指:在检测出的面部68个关键特征点中,标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线存在角度a,通过该角度a得到对应的旋转矩阵,对分割出的人脸进行旋转变换,使标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线平行,实现人脸姿态的矫正;并将人脸进行缩放;得到128*128分辨率的视频帧。
4)构建RGB帧序列:将人脸对齐后的RGB图像按顺序排列构成RGB帧序列
5)构建光流序列:利用Farneback光流算法提取对齐后的微表情特征,并保存为光流序列。
6)插值:利用TIM插值算法,将RGB帧序列和光流序列插值为16帧。
步骤C中,如图3所示,所述双模态对比学习识别模型包括两个3D-ResNet10网络;
两个3D-ResNet10网络结构相同,参数不共享,其结构示意图如图4所示;3D-ResNet10网络包括卷积层Conv1_x、最大池化层Maxpool、卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x、平均池化层Avgpool和全连接层;卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x中均设有残差模块BasicBlock;
3D-ResNet10网络参数如表1所示:
表1
Figure BDA0003043294620000071
从表1中可以看出,3D-ResNet10共包含5个卷积层,第一个个卷积层后面会有一个BatchNorm3D和ReLU层,之后的卷积层里面包含不同数量的残差模块,3D-ResNet10第2到第5个卷积层里面分别包含一个残差模块,之后接平均池化层,最后会接一个全连接层(Fc),对网络的输出进行线性映射。
假设微表情序列的输入大小为B×C×D×W×H,B表示批尺寸大小,C表示序列的通道个数,D表示微表情的序列长度,W和H分别表示输入序列图像的宽和高,经过特征编码之后,光流序列特征、RGB序列特征的特征编码zrgb、zflow的维度大小均为B×128。
步骤D中,构建对比学习损失和交叉熵损失,是指:
给定一个微表情数据集X,微表情数据集X由一个样本集合
Figure BDA0003043294620000081
组成;rgbi和flowi表示一个微表情样本的两种模态;
根据两种模态是否来自同一个微表情样本,构建正样本对和负样本对;x={rgbi,flowi}称为正样本对,y={rgbi,flowj}称为负样本对,RGB和FLOW表示微表情两种模态的样本集合,
Figure BDA0003043294620000082
每次选择一个正样本对x和k个负样本对{y1,y2,...,yk}进行损失的计算,目的是希望正样本对的距离越小越好,负样本对的距离越大越好。则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(1)所示:
Figure BDA0003043294620000083
式(1)中,S={x,y1,y2,...,yk},x表示正样本对,yi表示负样本对,ES表示求取期望;hθ(·)是定义的距离函数,表示两种模态特征的余弦相似度;使用所述双模态对比学习识别模型对光流序列特征和RGB序列特征进行特征提取,得到的特征编码为zrgb、zflow
Figure BDA0003043294620000084
Figure BDA0003043294620000085
Figure BDA00030432946200000810
为双模态对比学习识别模型,则hθ(·)如式(2)所示:
Figure BDA0003043294620000086
固定一个模态的样本rgbi,从另一个模态选出正样本flowi和采样出k个负样本flowj,则式(1)写成式(3):
Figure BDA0003043294620000087
根据式(1)和式(3),固定模态rgb,枚举模态flow求得损失
Figure BDA0003043294620000088
同时,求得当固定模态flow,枚举rgb时的损失值
Figure BDA0003043294620000089
则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(4)所示:
Figure BDA0003043294620000091
将zrgb、zflow直接连接,进行特征融合,利用融合后的特征计算交叉熵损失,交叉熵损失如式(5)所示:
Figure BDA0003043294620000092
式(5)中,p(xi)为x在真实分布中属于第i类的概率;q(xi)为x在预测分布中属于第i类的概率;n是类别数,则所述双模态对比学习识别模型的总的损失函数如式(5)所示:
L=α×Lcontrast+(1-α)×Lcross_entropy(6)
式(6)中,α为权重因子,对两种损失函数进行平衡;
初始化双模态对比学习识别模型的参数,以减小回归损失L作为训练目标,训练双模态对比学习识别模型。
步骤E中,分类识别过程为:根据步骤D中训练好的双模态对比学习识别模型,对测试集进行分类识别。
本实施例中,在训练阶段,将输入微表情序列的图像大小W×H设置为128×128,负样本数量K=31,对比学习损失权重参数α=0.3。本发明方法是在Ubuntu下的PyTorch框架上实现的,计算GPU采用NVIDIATitan V。使用Adam算法对模型进行优化,学习率设为1e-4。批量大小设置为32,最大迭代次数为200次。
为了验证本发明一种基于光流和RGB模态对比学习的微表情识别方法的先进性,将本发明与现有的基于传统学习和深度学习的方法在CASME II、SAMM和MMEW数据集上进行比较,方法包括FDM、LBP-TOP、MDMO、Sparse MDMO、Transfer Learning、ESCSTF、ELRCN和Multi-task。表2为本发明方法与其他方法在CASMEII、SAMM和MMEW数据集上的识别率比较。
表2
Figure BDA0003043294620000093
Figure BDA0003043294620000101
表2中,FDM出自文献Xu F,Zhang J,Wang J Z.Micro-expressionidentification and categorization using a facial dynamics map[J].IEEETransactions on Affective Computing,2017,8(2):254-267.
LBP-TOP出自文献Zhao G,Pietikainen M.Dynamic texture recognition usinglocal binary patterns with an application to facial expressions[J].IEEEtransactions on pattern analysis and machine intelligence,2007,29(6):915-928.
MDMO出自文献Liu Y J,Zhang J K,Yan W J,et al.A main directional meanoptical flow feature for spontaneous micro-expression recognition[J].IEEETransactions on Affective Computing,2015,7(4):299-310.
Sparse MDMO出自文献Liu Y J,Li B J,Lai Y K.Sparse MDMO:Learning adiscriminative feature for spontaneous micro-expression recognition[J].IEEETransactions on Affective Computing,2018.
Transfer Learning出自文献Peng M,Wu Z,Zhang Z,et al.From macro tomicro expression recognition:Deep learning on small datasets using transferlearning[C]//2018 13th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2018).IEEE,2018:657-661.
ESCSTF出自文献Kim D H,Baddar W J,Ro Y M.Micro-expression recognitionwith expression-state constrained spatio-temporal feature representations[C]//Proceedings of the 24th ACM international conference on Multimedia.2016:382-386.
ELRCN出自文献Khor H Q,See J,Phan R C W,et al.Enriched long-termrecurrent convolutional network for facial micro-expression recognition[C]//2018 13th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2018).IEEE,2018:667-674.
Multi-task出自文献Hu C,Jiang D,Zou H,et al.Multi-task micro-expression recognition combining deep and handcrafted features[C]//2018 24thInternational Conference on Pattern Recognition(ICPR).IEEE,2018:946-951.
根据表2可知,本发明提出的方法在CASMEII、SAMM和MMEW数据集上识别率优于其他方法。这是因为本发明提出的方法,采用了双模态对比学习网络,网络中既包含监督信息,也包含无监督信息。网络将光流序列特征和RGB序列特征进行融合,利用对比学习对两个模态的特征进行相互约束,同时利用标签信息进行微表情类别的学习,一定程序上弥补了监督学习模型只学习特定类别且易过拟合的问题,从而学习到更强的通用特征,最终提高识别率。
实施例3
一种基于光流和RGB模态对比学习的微表情识别系统,包括依次连接的预处理模块、双模态特征提取模块、双模态对比学习融合模块及分类识别模块;预处理模块用于实现步骤A;双模态特征提取模块用于实现步骤C;双模态对比学习融合模块用于实现步骤D;分类识别模块用于实现步骤E。

Claims (6)

1.一种基于光流和RGB模态对比学习的微表情识别方法,其特征在于,包括步骤如下:
A、对微表情视频进行预处理,包括:获取视频帧序列、人脸检测与定位、人脸对齐、构建RGB帧序列、构建光流序列以及插值;
B、将步骤A预处理后所得的光流序列和RGB帧序列划分为测试集和训练集;
C、构建双模态对比学习识别模型,所述双模态对比学习识别模型包括三维卷积残差网络,所述三维卷积残差网络分别对光流序列特征和RGB序列特征进行特征编码;
D、构建交叉熵损失和对比学习损失,利用损失函数训练双模态对比学习识别模型;
E、分类识别,根据步骤D训练好的双模态对比学习识别模型,对测试集进行分类识别。
2.根据权利要求1所述的一种基于光流和RGB模态对比学习的微表情识别方法,其特征在于,步骤A中,对微表情视频进行预处理,包括步骤如下:
1)获取视频帧序列:对包含微表情的视频进行分帧处理,得到视频帧序列并存储;
2)人脸检测与定位:利用Dlib视觉库对视频帧序列进行人脸检测和定位,给出所检测的视频帧中人脸数目和人脸距图像边界距离;
3)人脸对齐:利用Dlib视觉库确定面部68个关键特征点,完成人脸分割并实现人脸矫正;
人脸分割是指:Dlib视觉库使用矩形框分割人脸;
人脸矫正是指:在检测出的面部68个关键特征点中,标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线存在角度a,通过该角度a得到对应的旋转矩阵,对分割出的人脸进行旋转变换,使标注左眼左眼角的关键特征点37和标注右眼右眼角的关键特征点46的连线与水平线平行,实现人脸姿态的矫正;并将人脸进行缩放;
4)构建RGB帧序列:将人脸对齐后的RGB图像按顺序排列构成RGB帧序列
5)构建光流序列:利用Farneback光流算法提取对齐后的微表情特征,并保存为光流序列;
6)插值:利用TIM插值算法,将RGB帧序列和光流序列插值为16帧。
3.根据权利要求1所述的一种基于光流和RGB模态对比学习的微表情识别方法,其特征在于,步骤C中,所述双模态对比学习识别模型包括两个3D-ResNet10网络;3D-ResNet10网络包括卷积层Conv1_x、最大池化层Maxpool、卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x、平均池化层AvgPool和全连接层;卷积层Conv2_x、卷积层Conv3_x、卷积层Conv4_x、卷积层Conv5_x中均设有残差模块BasicBlock;
假设微表情序列的输入大小为B×C×D×W×H,B表示批尺寸大小,C表示序列的通道个数,D表示微表情的序列长度,W和H分别表示输入序列图像的宽和高,经过特征编码之后,光流序列特征、RGB序列特征的特征编码zrgb、zflow的维度大小均为B×128。
4.根据权利要求1所述的一种基于光流和RGB模态对比学习的微表情识别方法,其特征在于,步骤D中,构建对比学习损失和交叉熵损失,是指:
给定一个微表情数据集X,微表情数据集X由一个样本集合
Figure FDA0003043294610000021
组成;rgbi和flowi表示一个微表情样本的两种模态;
根据两种模态是否来自同一个微表情样本,构建正样本对和负样本对;x={rgbi,flowi}称为正样本对,y={rgbi,flowj}称为负样本对,RGB和FLOW表示微表情两种模态的样本集合,
Figure FDA0003043294610000022
每次选择一个正样本对x和k个负样本对{y1,y2,...,yk}进行损失的计算,则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(1)所示:
Figure FDA0003043294610000023
式(1)中,S={x,y1,y2,...,yk},x表示正样本对,yi表示负样本对,ES表示求取期望;hθ(·)是定义的距离函数,表示两种模态特征的余弦相似度;使用所述双模态对比学习识别模型对光流序列特征和RGB序列特征进行特征提取,得到的特征编码为zrgb、zflow
Figure FDA0003043294610000024
Figure FDA0003043294610000025
Figure FDA0003043294610000026
Figure FDA0003043294610000027
为双模态对比学习识别模型,则hθ(·)如式(2)所示:
Figure FDA0003043294610000028
固定一个模态的样本rgbi,从另一个模态选出正样本flowi和采样出k个负样本flowj,则式(1)写成式(3):
Figure FDA0003043294610000029
根据式(1)和式(3),固定模态rgb,枚举模态flow求得损失
Figure FDA00030432946100000210
同时,求得当固定模态flow,枚举rgb时的损失值
Figure FDA00030432946100000211
则所述双模态对比学习识别模型的对比学习损失Lcontrast如式(4)所示:
Figure FDA0003043294610000031
将zrgb、zflow直接连接,进行特征融合,利用融合后的特征计算交叉熵损失,交叉熵损失如式(5)所示:
Figure FDA0003043294610000032
式(5)中,p(xi)为x在真实分布中属于第i类的概率;q(xi)为x在预测分布中属于第i类的概率;n是类别数,则所述双模态对比学习识别模型的总的损失函数如式(5)所示:
L=α×Lcontrast+(1-α)×Lcross_entropy(6)
式(6)中,α为权重因子,对两种损失函数进行平衡;
初始化双模态对比学习识别模型的参数,以减小回归损失L作为训练目标,训练双模态对比学习识别模型。
5.根据权利要求1-4任一所述的一种基于光流和RGB模态对比学习的微表情识别方法,其特征在于,步骤E中,分类识别过程为:根据步骤D中训练好的双模态对比学习识别模型,对测试集进行分类识别。
6.一种基于光流和RGB模态对比学习的微表情识别系统,其特征在于,用于实现权利要求1-5任一所述的基于光流和RGB模态对比学习的微表情识别方法,包括依次连接的预处理模块、双模态特征提取模块、双模态对比学习融合模块及分类识别模块;所述预处理模块,用于实现所述步骤A;所述双模态特征提取模块,用于实现所述步骤C;所述双模态对比学习融合模块,用于实现所述步骤D;所述分类识别模块,用于实现所述步骤E。
CN202110464746.8A 2021-04-28 2021-04-28 一种基于光流和rgb模态对比学习的微表情识别方法及系统 Active CN113139479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110464746.8A CN113139479B (zh) 2021-04-28 2021-04-28 一种基于光流和rgb模态对比学习的微表情识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110464746.8A CN113139479B (zh) 2021-04-28 2021-04-28 一种基于光流和rgb模态对比学习的微表情识别方法及系统

Publications (2)

Publication Number Publication Date
CN113139479A true CN113139479A (zh) 2021-07-20
CN113139479B CN113139479B (zh) 2022-07-29

Family

ID=76816256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110464746.8A Active CN113139479B (zh) 2021-04-28 2021-04-28 一种基于光流和rgb模态对比学习的微表情识别方法及系统

Country Status (1)

Country Link
CN (1) CN113139479B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591660A (zh) * 2021-07-24 2021-11-02 中国石油大学(华东) 基于元学习的微表情识别方法
CN113705384A (zh) * 2021-08-12 2021-11-26 西安交通大学 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN113792594A (zh) * 2021-08-10 2021-12-14 南京大学 一种基于对比学习的视频中语言片段定位方法及装置
CN113837370A (zh) * 2021-10-20 2021-12-24 北京房江湖科技有限公司 用于训练基于对比学习的模型的方法和装置
CN113850207A (zh) * 2021-09-29 2021-12-28 中国平安财产保险股份有限公司 基于人工智能的微表情分类方法、装置、电子设备及介质
CN114648803A (zh) * 2022-05-20 2022-06-21 中国科学技术大学 自然场景下人脸表情识别方法、系统、设备及存储介质
CN114743249A (zh) * 2022-05-10 2022-07-12 平安科技(深圳)有限公司 识别模型训练方法、微表情识别方法、装置、设备及介质
CN116311483A (zh) * 2023-05-24 2023-06-23 山东科技大学 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN117237259A (zh) * 2023-11-14 2023-12-15 华侨大学 基于多模态融合的压缩视频质量增强方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
WO2020088763A1 (en) * 2018-10-31 2020-05-07 Huawei Technologies Co., Ltd. Device and method for recognizing activity in videos
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
AU2021100892A4 (en) * 2021-02-15 2021-04-29 Deepak Chahal Deeply learned intelligent system for end to end tracking and detection in videos

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020088763A1 (en) * 2018-10-31 2020-05-07 Huawei Technologies Co., Ltd. Device and method for recognizing activity in videos
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
AU2021100892A4 (en) * 2021-02-15 2021-04-29 Deepak Chahal Deeply learned intelligent system for end to end tracking and detection in videos

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MICHIEL VERBURG: "Micro-expression detection in long videos using optical flow and recurrent neural networks", 《ARXIV》 *
徐峰: "人脸微表情识别综述", 《自动化学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591660A (zh) * 2021-07-24 2021-11-02 中国石油大学(华东) 基于元学习的微表情识别方法
CN113792594A (zh) * 2021-08-10 2021-12-14 南京大学 一种基于对比学习的视频中语言片段定位方法及装置
CN113792594B (zh) * 2021-08-10 2024-04-12 南京大学 一种基于对比学习的视频中语言片段定位方法及装置
CN113705384A (zh) * 2021-08-12 2021-11-26 西安交通大学 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN113705384B (zh) * 2021-08-12 2024-04-05 西安交通大学 一种考虑局部时空特性和全局时序线索的面部表情识别方法
CN113850207A (zh) * 2021-09-29 2021-12-28 中国平安财产保险股份有限公司 基于人工智能的微表情分类方法、装置、电子设备及介质
CN113850207B (zh) * 2021-09-29 2024-05-03 中国平安财产保险股份有限公司 基于人工智能的微表情分类方法、装置、电子设备及介质
CN113837370B (zh) * 2021-10-20 2023-12-05 贝壳找房(北京)科技有限公司 用于训练基于对比学习的模型的方法和装置
CN113837370A (zh) * 2021-10-20 2021-12-24 北京房江湖科技有限公司 用于训练基于对比学习的模型的方法和装置
CN114743249A (zh) * 2022-05-10 2022-07-12 平安科技(深圳)有限公司 识别模型训练方法、微表情识别方法、装置、设备及介质
CN114743249B (zh) * 2022-05-10 2024-06-28 平安科技(深圳)有限公司 识别模型训练方法、微表情识别方法、装置、设备及介质
CN114648803B (zh) * 2022-05-20 2022-09-06 中国科学技术大学 自然场景下人脸表情识别方法、系统、设备及存储介质
CN114648803A (zh) * 2022-05-20 2022-06-21 中国科学技术大学 自然场景下人脸表情识别方法、系统、设备及存储介质
CN116311483A (zh) * 2023-05-24 2023-06-23 山东科技大学 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN116311483B (zh) * 2023-05-24 2023-08-01 山东科技大学 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN117237259B (zh) * 2023-11-14 2024-02-27 华侨大学 基于多模态融合的压缩视频质量增强方法及装置
CN117237259A (zh) * 2023-11-14 2023-12-15 华侨大学 基于多模态融合的压缩视频质量增强方法及装置

Also Published As

Publication number Publication date
CN113139479B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN113139479B (zh) 一种基于光流和rgb模态对比学习的微表情识别方法及系统
Yenamandra et al. i3dmm: Deep implicit 3d morphable model of human heads
WO2022111236A1 (zh) 一种结合注意力机制的面部表情识别方法及系统
Liu et al. Attribute-aware face aging with wavelet-based generative adversarial networks
Lian et al. Deep-learning-based small surface defect detection via an exaggerated local variation-based generative adversarial network
CN110348330B (zh) 基于vae-acgan的人脸姿态虚拟视图生成方法
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
Li et al. GaitSlice: A gait recognition model based on spatio-temporal slice features
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN110852182A (zh) 一种基于三维空间时序建模的深度视频人体行为识别方法
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和系统
CN116664397B (zh) TransSR-Net结构化图像超分辨重建方法
Sun et al. [Retracted] Research on Face Recognition Algorithm Based on Image Processing
Alsawwaf et al. In your face: person identification through ratios and distances between facial features
Singh et al. Towards a super-resolution based approach for improved face recognition in low resolution environment
CN110097499B (zh) 基于谱混合核高斯过程回归的单帧图像超分辨率重建方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Rao et al. Extreme feature regions detection and accurate quality assessment for point-cloud 3D reconstruction
CN111881841B (zh) 一种基于双目视觉的人脸检测识别方法
Ming et al. A unified 3D face authentication framework based on robust local mesh SIFT feature
CN113486712A (zh) 一种基于深度学习的多人脸识别方法、系统和介质
CN110910497B (zh) 实现增强现实地图的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant