CN114863520A - 一种基于c3d-sa的视频表情识别方法 - Google Patents

一种基于c3d-sa的视频表情识别方法 Download PDF

Info

Publication number
CN114863520A
CN114863520A CN202210437190.8A CN202210437190A CN114863520A CN 114863520 A CN114863520 A CN 114863520A CN 202210437190 A CN202210437190 A CN 202210437190A CN 114863520 A CN114863520 A CN 114863520A
Authority
CN
China
Prior art keywords
expression
layer
matrix
video
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210437190.8A
Other languages
English (en)
Other versions
CN114863520B (zh
Inventor
吴燕妮
姚若侠
范虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202210437190.8A priority Critical patent/CN114863520B/zh
Publication of CN114863520A publication Critical patent/CN114863520A/zh
Application granted granted Critical
Publication of CN114863520B publication Critical patent/CN114863520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/435Computation of moments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

一种基于C3D‑SA的视频表情识别方法,包括:S100:通过三维卷积神经网络对视频序列进行表情特征提取,得到表情特征矩阵;S200:连接自注意力机制层学习表情特征矩阵中的特征之间的相关性,得到注意力权重值,再加权表情特征矩阵,得到加权后表情特征矩阵;S300:连接全局均值池化层对加权后表情特征矩阵进行特征映射并降维,再通过丢失层随机丢弃加权后表情特征矩阵中的部分特征值,得到新的表情特征矩阵;S400:连接全连接层对新的表情特征矩阵进行特征映射,得到最终的特征矩阵,将所得最终的特征矩阵通过softmax层输出表情识别的标签。本方法结合3D卷积神经网络与自注意力机制来提高视频人脸表情的识别准确率。

Description

一种基于C3D-SA的视频表情识别方法
技术领域
本公开属于计算机视觉、神经网络技术领域,特别涉及一种基于C3D-SA的视频表情识别方法。
背景技术
人脸表情识别是计算机视觉、模式识别和人类情感理解等领域的研究热点之一,在治安、刑侦、医疗、教育、零售等领域发挥着越来越重要的作用。
卷积神经网络(Convolutional Neural Networks,CNN)是一种经典的深度学习神经网络,被广泛运用在人脸表情识别中,近年来的研究发现,针对人脸位置变化和尺度变化,CNN相较于多层感知器(MLP)鲁棒性更强。卷积神经网络基础层包括卷积层、池化层、激活层及全连接层,其中卷积层是最重要的部分,包含多个卷积核进行卷积操作,以提取不同程度的特征;激活层解决了非线性问题,通过激活函数处理卷积后的结果提高了网络的非线性拟合能力和泛化能力;池化层对特征映射进行特征提取并降低特征尺度,同时保证了特征的空间不变性;全连接层在网络末端对最终的特征矩阵进行非线性组合,再连接激活函数输出每个种类的概率分布。
2D CNN可以对单张静态图像进行不同层次的空间特征提取,但无法考虑到视频中帧与帧间的运动信息,因此对于视频序列处理效果并不佳。为解决2D CNN在处理时序信息上的缺陷,3D CNN在2DCNN基础上考虑了时间维度的帧间运动信息,将卷积层和池化层从二维结构扩展为三维,以此能更好的提取视频中的时间和空间的特征信息。
注意力机制的本质为从大量信息中有筛选出少量重要信息,并聚焦到这些重要信息上,忽略大多不重要的信息。可以表示为一个查询(query)到一系列(键key-值value)对的映射。通过计算Query和各个Key的相似性或者相关性,得到每个Key对应Value的权重系数,权重越大越聚焦于其对应的Value值上,即权重代表了信息的重要性,而Value是其对应的信息,通过softmax归一化后,对权重和相应Value进行加权求和,即得到了最终的Attention数值。注意力机制发生在Target的元素Query和Source中的所有元素之间。
自注意力机制(self attention)是注意力机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性,即Target=Source这种特殊情况下的注意力计算机制,Q=K=V,该机制可以学习长期依赖关系。
在识别视频人脸表情的过程中,对人脸表情进行特征提取是最关键的部分。在视频人脸表情识别研究初期使用传统手工特征提取,2007年芬兰奥卢大学的Guoying Zhao等人提出LBP-TOP(Local Binary Patterns From Three Orthogonal Planes)算法,是LBP(Local Binary Patterns)从二维空间到三维空间的拓展,被广泛应用于视频人脸表情识别中。方向梯度直方图(Histogram of Oriented Gradient,HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征,HOG-3D将HOG扩展到了3D,可以更上层的关注并描述视频中人体特征的局部。随着计算机技术的飞速发展,深度学习算法越来越表现出强大的信息处理能力,Hu使用CNN网络完成表情的识别,并结合多任务学习检测面部关键点,但普通卷积神经网络(CNN)没有考虑时序信息的问题,对此Tran等人提出3D卷积网络(C3D),将传统的2D卷积核替换为使用沿时间轴共享权值的3D卷积核。
以上方法可以一定程度进行视频人脸表情识别,但存在不足之处:1)传统特征提取不够智能化,算法处理数据效率不高,性能较弱;2)3D CNN只能提取局部时空信息,不能学习长期依赖关系。
发明内容
鉴于此,本公开提供了一种基于C3D-SA的视频表情识别方法,包括如下步骤:
S100:通过三维卷积神经网络对视频序列进行表情特征提取,得到表情特征矩阵;
S200:连接自注意力机制层学习所述表情特征矩阵中的特征之间的相关性,得到注意力权重值,再加权所述表情特征矩阵,得到加权后的表情特征矩阵;
S300:连接全局均值池化层对所述加权后的表情特征矩阵进行特征映射并降维,再通过丢失层随机丢弃所述加权后的表情特征矩阵中的部分特征值,得到新的表情特征矩阵;
S400:连接全连接层对所述新的表情特征矩阵进行特征映射,得到最终的特征矩阵,将所得最终的特征矩阵通过softmax层输出表情识别的标签。
通过上述技术方案,由于传统的3D CNN只能提取局部时空信息,忽略了视频中帧之间的依赖关系,无法体现关键帧对视频表情识别的重要程度,而自注意力机制(Self-Attention)可以学习输入序列的长期依赖关系,根据视频帧之间的相关性计算注意力权值,得到视频的关键帧,从而给关键帧更高的权重,使网络更注重与表情识别相关程度高的帧。因此将3D CNN与自注意力机制(Self-Attention)结合,即C3D-SA网络,可以提高网络训练效果,提升视频表情识别准确率。
附图说明
图1是本公开一个实施例中所提供的一种基于C3D-SA的视频表情识别方法流程图;
图2是本公开一个实施例中C3D-SA网络结构图;
图3是本公开一个实施例中去除全连接层的3D VGG16网络结构图;
图4(a)、图4(b)是本公开一个实施例中人脸检测与缩放图;
图5是本公开一个实施例中3D VGG16对每折测试集识别准确率曲线图;
图6是本公开一个实施例中C3D-SA对每折测试集识别准确率曲线图;
图7是本公开一个实施例中3D VGG16模型表情识别混淆矩阵图;
图8是本公开一个实施例中C3D-SA模型表情识别混淆矩阵图。
具体实施方式
参见图1,在一个实施例中,其公开了一种基于C3D-SA的视频表情识别方法,包括如下步骤:
S100:通过三维卷积神经网络对视频序列进行表情特征提取,得到表情特征矩阵;
S200:连接自注意力机制层学习所述表情特征矩阵中的特征之间的相关性,得到注意力权重值,再加权所述表情特征矩阵,得到加权后的表情特征矩阵;
S300:连接全局均值池化层对所述加权后的表情特征矩阵进行特征映射并降维,再通过丢失层随机丢弃所述加权后的表情特征矩阵中的部分特征值,得到新的表情特征矩阵;
S400:连接全连接层对所述新的表情特征矩阵进行特征映射,得到最终的特征矩阵,将所得最终的特征矩阵通过softmax层输出表情识别的标签。
在这个实施例中,针对3D CNN只能提取局部时空信息的局限性提出了基于C3D-SA的视频人脸表情识别方法,通过在3D CNN的基础上引入自注意力机制来捕捉与人脸表情识别相关程度高的重要信息,提高了模型对视频人脸表情识别的准确率。为了降低网络复杂度,减少过拟合现象的发生,本方法首先去除3D VGG16中的3层全连接层进行人脸表情特征提取,再连接多头自注意力机制(Multi-head Self-Attention)学习输入特征之间的相关性,计算出注意力权重值,体现视频序列中关键帧的重要程度;之后使用dropout方法随机丢弃部分网络层结点,增强网络对特征提取的鲁棒性;最后利用全连接层+softmax输出表情分类标签。将3D VGG-16与多头自注意力机制(Multi-Head Self-Attention)结合后的C3D-SA模型结构如图2所示。
本方法解决了3D CNN无法学习长期时序依赖关系以及忽略了与人脸表情识别相关程度高的重要信息的问题,相比3D CNN及目前一些主流方法可以更加有效地进行视频人脸表情识别,提高了人脸表情分类的准确率。
视频序列指视频的帧,即组成视频的连续多幅图像。注意力权值再加权输入特征得到维度不变的输出特征矩阵。通过全局均值池化层对S200得到的特征矩阵进行特征映射并降维,再通过丢失层随机丢弃特征矩阵中的部分特征值。通过全连接层对S300所得特征矩阵进行特征映射得到最终的特征矩阵;将所得最终的特征矩阵通过softmax层归化到(0,1)区间,得到表情种类(高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视)分别对应的概率;比较所得概率值,并输出最大概率值对应的种类。最终得到的标签为输入视频序列的表情分类,分为高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。
三维卷积神经网络进行表情特征提取的步骤是:1、将输入的连续多张图像堆叠成立体图像的立方体,再利用三维卷积核对该立方体进行加权求和的卷积操作,以提取图像的初级特征,得到初级特征矩阵;2、将步骤1所得特征矩阵进行批量归一化,使特征矩阵的各个维度的均值都为0,方差为1,得到更加稳定分布的特征矩阵;3、通过激活层对步骤2所得特征矩阵添加非线性特征;4、通过池化层来降低步骤3所得的特征矩阵的维度大小得到最终的特征矩阵。
其中,步骤S300中的部分指按照丢弃率随机丢弃特征矩阵的特征值。如本方法中所设丢弃率为0.5,即随机丢弃特征矩阵中50%的特征值。步骤S400中的特征映射即通过对输入特征矩阵进行加权操作。
在另一个实施例中,如图3所示,所述三维卷积神经网络是去除3层全连接层的3DVGG-16模型。
就该实施例而言,去除前两层是为了降低模型复杂度,防止过拟合。最后一层是分类层,因此去除,即先结合注意力机制进行特征提取,最后才分类。
在另一个实施例中,所述3D VGG-16模型的卷积部分有5个卷积块,每个卷积块由2层或3层卷积核大小相同的卷积层级联,所有的卷积层都使用3X3X3卷积核;每层卷积后进行批量归一化BN;批量归一化后使用Relu激活函数;每个卷积块后接一层最大池化层对特征映射进行特征提取并降低特征尺度。
就该实施例而言,每层卷积后进行批量归一化(Batch Normalization,BN),解决在训练过程中,中间层数据分布发生改变的问题,以防止梯度消失或爆炸、加快训练速度;批量归一化后使用Relu激活函数,可以增加神经网络模型的非线性拟合能力。
在另一个实施例中,所述自注意力机制层是多头自注意力机制。就该实施例而言,为了从多个不同角度(一个头相当于一个角度)捕捉与视频表情分类相关程度高的特征,也即为了从多个不同角度捕捉视频帧的重要程度,采用多头自注意力机制(Multi-HeadSelf-Attention)。在自注意力机制中,用三个矩阵WQ、WK、WV分别与输入序列X(x1,x2,x3,..,xt)相乘,得到每个xi对应的qi、ki、vi(i∈(1,2,3,...,t)),即查询(query)、键(key)、值(value);其中,t仅代表输入序列X(x1,x2,x3,..,xt)的维度。该方法中即S200输入特征矩阵的维度。再使每个qi分别与k1,k2,k3,...,kt计算向量点积,并通过softmax归一化得到注意力权重值αi,1,αi,2,...,αi,t;最后,将注意力权重值与对应的vi相乘并求和得到最终的输出结果bi。bi是输入序列X中xi的输出值,公式是对输入序列(x1,x2,x3,..,xt)并行计算即矩阵运算,因此,公式(2-4)中的左式便是bi的序列(b1,b2,...,bt),dk表示矩阵k的维度。自注意力机制对输入序列(x1,x2,x3,..,xt)并行计算,公式如下:
Q=WQX (2-1)
K=WKX (2-2)
V=WVX (2-3)
Figure BDA0003613759450000081
在另一个实施例中,所述多头自注意力机制的头数为8,通过自注意力机制输入序列中每个xi得到8个输出bi 1,bi 2,bi 3,bi 4,bi 5,bi 6,bi 7,bi 8,然后将所述8个输出向量首尾相连进行拼接,再通过线性转换得到输出结果bi
就该实施例而言,采用的多头自注意力机制(Multi-Head Self-Attention)用多组WQ、WK、WV与输入序列X(x1,x2,x3,..,xt)相乘,进而得到多组qi、ki、vi(i∈(1,2,3,...,t)),组数即为头数,取头数为8,则通过自注意力机制输入序列中每个xi得到8个输出bi 1,bi 2,bi 3,...,bi 8,接着将8个输出向量首尾相连进行拼接,再通过线性转换(即不含非线性激活层的单层全连接神经网络)得到输出结果bi,公式(2-6)的左式为bi的序列(b1,b2,...,bt),其中i与公式(2-5)中的i应区别开,(2-5)中的i为头数的序号,Wo为用于线性变换的矩阵,使得输出序列维度保持不变。其中的输入序列就是前一步骤所获得的表情特征矩阵。多头自注意力机制计算公式如下:
Figure BDA0003613759450000091
MultiHead(Q,K,V)=Contact(head1,...,head8)WO (2-6)
在另一个实施例中,所述表情识别的标签为视频表情的类别,包括:高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。
在另一个实施例中,所述视频序列的每次输入视频数据大小为8*3*10*48*48,其中,批尺寸batch size=8,视频帧数=10,图像大小为通道数channels=3,图像宽度width=48,图像高度height=48。
就该实施例而言,批尺寸,即每次输入8个视频序列(该参数对预测结果无影响,只是说明一次性进行表情分类的视频数量)。channels通道数(视频序列中的图像为RGB图像,因此具有3个通道);width图像宽度;height图像高度。其中图像高宽度不固定,可以设置为其他值,本方法由于设备显存限制设置尺寸较小。
在另一个实施例中,所述丢失层的丢失率rate=0.5。
就该实施例而言,0.5是经验值,该值下网络的泛化能力最好。
在另一个实施例中,本方法使用的CK+数据库是在Cohn-Kanade数据集基础上扩展而来的。该数据库包含123个被试对象,共含有593个视频序列,其中118个被试对象具有相应的人脸表情标签,共327个视频序列。数据集共包含7种表情,分别为高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视,每个视频的表情都是由中性逐渐转变为峰值。
由于CK+数据集部分视频序列无对应人脸表情标签,将327个有人脸表情标签的视频序列筛选出来,并将相同标签的视频归类到同一类别文件下。
由于CK+数据集的每个视频帧数不相同,从6帧到30帧不等,大多视频序列长度在14帧左右。由于C3D-SA模型所需输入数据向量大小一致,本方法将视频帧数选取统一为10帧。CK+数据集中帧数大于10的视频选取最后10帧,小于10帧的复制最后一帧直到够10帧。
在另一个实施例中,在步骤S100之前还包括:对原始的视频序列进行人脸检测,去除与表情识别无关的非人脸区域,获得人脸区域的视频序列。
就该实施例而言,CK+数据集视频序列中的人脸图像受不同背景、头部姿态或遮挡物等与人脸表情识别无关因素的影响,网络模型在训练过程中会学习到无意义的特征,因此,在网络训练之前应该进行人脸检测,去除与表情识别无关的背景与遮挡物等非人脸区域,减少环境干扰因素,以此提高网络模型的识别准确率。该实施例所获得的人脸区域的视频序列作为步骤S100的输入。
在另一个实施例中,利用opencv中的CascadeClassifier级联分类器对输入的原始的视频序列进行人脸检测,检测出人脸区域。
就该实施例而言,利用opencv中的CascadeClassifier级联分类器对输入的视频序列进行人脸检测,该分类器将滑动窗口机制与级联分类器结合,级联分类器由多个强分类器级联而成,并且强分类器逐级复杂。视频序列中的每个人脸图片将顺序通过各个强分类器,用固定大小的特征窗口对图像从上到下、从左到右扫描,判断窗口里的子图像是否为人脸,如果匹配就记录该矩形区域的位置,然后滑动窗口,检测图像的另一个区域,重复操作。被检窗口依次通过每一级分类器,在前面几层的检测中大部分的候选区域被排除,全部通过每一级分类器检测的区域即为目标区域,由此检测出人脸,再利用检测出的人脸区域的坐标及大小进行裁剪,最后将640*490大小的原图缩小为48*48大小的图像,如图4(a)、图4(b)所示,其中图4(a)表示原始人脸图片,图4(b)表示处理后人脸图片。
在另一个实施例中,在训练深层神经网络时需要充足的数据量来提高网络对特征提取的能力,而本方法使用的ck+数据集较小,为了减少样本量不足带来的网络训练过拟合现象,利用数据增强技术使数据更具多样性。通过深度学习框架中封装的实时数据增强模块对输入的视频序列中的人脸图像随机进行水平或上下翻转、旋转、缩放、平移或调整亮度,可以生成新的不可见训练样本,有效地扩大了数据量,使网络对表情识别的泛化能力更强,优化网络训练效果,提高表情识别准确率。
在另一个实施例中,本方法设置批尺寸batch size=8,初始学习率lr=0.001,学习率调整方法为在20轮训练后每隔5轮衰减为初始学习率的0.96倍,使模型能更加稳定的收敛;优化器选择随机梯度下降算法(SGD),动量momentum=0.9,每次实验训练100轮。由于ck+数据集样本量较少,采用5折交叉验证方法,即将数据集平均分为5份,共进行5次实验,每次实验将其中1份作为测试集,其余4份为训练集,5次实验之后每份数据集都充当一次测试集,模型对表情识别的最终准确率为5折实验的平均准确率。
本方法的C3D-SA模型基于3D VGG16结合自注意力机制(Self Attention)后的C3D-SA模型使网络更加注重对表情识别相关程度更高的关键帧,C3D-SA模型与3D VGG16对ck+数据集的视频人脸识别的每折实验准确率及最终平均准确率如表1所示,两种模型对每折测试集人脸表情识别准确率曲线图如图5、图6所示。从表1及图5、图6对比可以看出C3D-SA模型相比3D VGG16模型对每折测试集的人脸表情识别准确率更高,并且最终5折平均准确率分别为93.88%和91.13%,表明C3D-SA模型在ck+数据集上的人脸表情识别效果优于3D VGG16。
Figure BDA0003613759450000131
表1
分别计算C3D-SA模型及3D VGG16模型对ck+数据集每种表情的预测准确率得出混淆矩阵,如图7、图8所示,其中横坐标为模型对视频表情分类的预测标签,纵坐标为视频表情的实际分类标签,可以更清楚地展示模型对人脸表情的具体识别情况。通过两种模型混淆矩阵的对比可以看出C3D-SA模型对ck+数据集中每种表情的识别准确率优于3D VGG16模型,其中对沮丧(disgust)的人脸表情识别最准确,全部识别正确。
为了进一步说明本方法的C3D-SA模型对视频人脸表情识别的有效性,表2列举出了几种其他方法在ck+数据集上的人脸表情识别准确率与本方法进行对比,其中前两列为传统表情特征提取方法,第3、4列为深度学习方法,最后为本方法。通过表2中各方法的识别准确率可看出本方法的C3D-SA模型对视频人脸表情识别效果均优于列举的目前主流方法,准确率达到了93.88%。
Figure BDA0003613759450000132
表2
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (10)

1.一种基于C3D-SA的视频表情识别方法,包括如下步骤:
S100:通过三维卷积神经网络对视频序列进行表情特征提取,得到表情特征矩阵;
S200:连接自注意力机制层学习所述表情特征矩阵中的特征之间的相关性,得到注意力权重值,再加权所述表情特征矩阵,得到加权后的表情特征矩阵;
S300:连接全局均值池化层对所述加权后的表情特征矩阵进行特征映射并降维,再通过丢失层随机丢弃所述加权后的表情特征矩阵中的部分特征值,得到新的表情特征矩阵;
S400:连接全连接层对所述新的表情特征矩阵进行特征映射,得到最终的特征矩阵,将所得最终的特征矩阵通过softmax层输出表情识别的标签。
2.根据所述权利要求1的方法,优选的,所述三维卷积神经网络是去除3层全连接层的3D VGG-16模型。
3.根据所述权利要求1的方法,所述3D VGG-16模型的卷积部分有5个卷积块,每个卷积块由2层或3层卷积核大小相同的卷积层级联,所有的卷积层都使用3X3X3卷积核;每层卷积后进行批量归一化BN;批量归一化后使用Relu激活函数;每个卷积块后接一层最大池化层对特征映射进行特征提取并降低特征尺度。
4.根据所述权利要求1的方法,所述自注意力机制层是多头自注意力机制。
5.根据所述权利要求1的方法,所述多头自注意力机制的头数为8,通过自注意力机制输入序列中每个xi得到8个输出bi 1,bi 2,bi 3,bi 4,bi 5,bi 6,bi 7,bi 8,然后将所述8个输出向量首尾相连进行拼接,再通过线性转换得到输出结果bi
6.根据所述权利要求1的方法,所述表情识别的标签为视频表情的类别,包括:高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。
7.根据所述权利要求1的方法,所述视频序列的每次输入视频数据大小为8*3*10*48*48,其中,批尺寸batch size=8,视频帧数=10,图像大小为通道数channels=3,图像宽度width=48,图像高度height=48。
8.根据所述权利要求1的方法,所述丢失层的丢失率rate=0.5。
9.根据所述权利要求1的方法,在步骤S100之前还包括:对原始的视频序列进行人脸检测,去除与表情识别无关的非人脸区域,获得人脸区域的视频序列。
10.根据所述权利要求9的方法,利用opencv中的CascadeClassifier级联分类器对输入的原始的视频序列进行人脸检测,检测出人脸区域。
CN202210437190.8A 2022-04-25 2022-04-25 一种基于c3d-sa的视频表情识别方法 Active CN114863520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210437190.8A CN114863520B (zh) 2022-04-25 2022-04-25 一种基于c3d-sa的视频表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210437190.8A CN114863520B (zh) 2022-04-25 2022-04-25 一种基于c3d-sa的视频表情识别方法

Publications (2)

Publication Number Publication Date
CN114863520A true CN114863520A (zh) 2022-08-05
CN114863520B CN114863520B (zh) 2023-04-25

Family

ID=82633221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210437190.8A Active CN114863520B (zh) 2022-04-25 2022-04-25 一种基于c3d-sa的视频表情识别方法

Country Status (1)

Country Link
CN (1) CN114863520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758621A (zh) * 2023-08-21 2023-09-15 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别系统及方法
CN111931795A (zh) * 2020-09-25 2020-11-13 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN113627349A (zh) * 2021-08-12 2021-11-09 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523462A (zh) * 2020-04-22 2020-08-11 南京工程学院 基于自注意增强cnn的视频序列表情识别系统及方法
CN111931795A (zh) * 2020-09-25 2020-11-13 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN112800894A (zh) * 2021-01-18 2021-05-14 南京邮电大学 一种基于时空流间注意力机制的动态表情识别方法及系统
CN113627349A (zh) * 2021-08-12 2021-11-09 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WANQING XIE; LIZHONG LIANG; YAO LU; CHEN WANG; JIHONG SHEN; HUI LUO; XIAOFENG LIU: "Interpreting Depression From Question-Wise Long-Term Video Recording of SDS Evaluation" *
亢洁等: "基于注意力机制的卷积神经网络人脸表情识别", 《陕西科技大学学报》 *
廖年鸿、张效娟、彭春燕、范虹: "LRGAN:一种运算轻量化图像修复网络", 《中国科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758621A (zh) * 2023-08-21 2023-09-15 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法
CN116758621B (zh) * 2023-08-21 2023-12-05 宁波沃尔斯软件有限公司 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Also Published As

Publication number Publication date
CN114863520B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Wang et al. Depth pooling based large-scale 3-d action recognition with convolutional neural networks
Zhang et al. Multimodal learning for facial expression recognition
Andrearczyk et al. Convolutional neural network on three orthogonal planes for dynamic texture classification
Triantafyllidou et al. Fast deep convolutional face detection in the wild exploiting hard sample mining
Boughrara et al. Facial expression recognition based on a mlp neural network using constructive training algorithm
Liu et al. Facial expression recognition using hybrid features of pixel and geometry
Mallouh et al. Utilizing CNNs and transfer learning of pre-trained models for age range classification from unconstrained face images
Tian et al. Ear recognition based on deep convolutional network
Caroppo et al. Comparison between deep learning models and traditional machine learning approaches for facial expression recognition in ageing adults
Manttari et al. Interpreting video features: A comparison of 3D convolutional networks and convolutional LSTM networks
Balasubramanian et al. Analysis of facial emotion recognition
Yi et al. Human action recognition based on action relevance weighted encoding
Wu et al. Facial emotion recognition using deep learning
Gajjala et al. MERANet: Facial micro-expression recognition using 3D residual attention network
Satapathy et al. A lite convolutional neural network built on permuted Xceptio-inception and Xceptio-reduction modules for texture based facial liveness recognition
Luo et al. Partial NIR-VIS heterogeneous face recognition with automatic saliency search
CN114863520B (zh) 一种基于c3d-sa的视频表情识别方法
El Madmoune et al. Robust face recognition using convolutional neural networks combined with Krawtchouk moments.
Jin et al. GA-APEXNET: Genetic algorithm in apex frame network for micro-expression recognition system
Gavade et al. Facial Expression Recognition in Videos by learning Spatio-Temporal Features with Deep Neural Networks
Wang Micro-expression Recognition Based on Multi-Scale Attention Fusion
Wang et al. Two-channel convolutional neural network for facial expression recognition using facial parts
Almestekawy et al. Deepfake detection: Enhancing performance with spatiotemporal texture and deep learning feature fusion
Medjahed et al. On an empirical study: face recognition using machine learning and deep learning techniques
Wang et al. Facial expression recognition based on multi-branch adaptive squeeze and excitation residual network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant