CN114863520A

CN114863520A - 一种基于c3d-sa的视频表情识别方法

Info

Publication number: CN114863520A
Application number: CN202210437190.8A
Authority: CN
Inventors: 吴燕妮; 姚若侠; 范虹
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-05
Anticipated expiration: 2042-04-25
Also published as: CN114863520B

Abstract

一种基于C3D‑SA的视频表情识别方法，包括：S100：通过三维卷积神经网络对视频序列进行表情特征提取，得到表情特征矩阵；S200：连接自注意力机制层学习表情特征矩阵中的特征之间的相关性，得到注意力权重值，再加权表情特征矩阵，得到加权后表情特征矩阵；S300：连接全局均值池化层对加权后表情特征矩阵进行特征映射并降维，再通过丢失层随机丢弃加权后表情特征矩阵中的部分特征值，得到新的表情特征矩阵；S400：连接全连接层对新的表情特征矩阵进行特征映射，得到最终的特征矩阵，将所得最终的特征矩阵通过softmax层输出表情识别的标签。本方法结合3D卷积神经网络与自注意力机制来提高视频人脸表情的识别准确率。

Description

一种基于C3D-SA的视频表情识别方法

技术领域

本公开属于计算机视觉、神经网络技术领域，特别涉及一种基于C3D-SA的视频表情识别方法。

背景技术

人脸表情识别是计算机视觉、模式识别和人类情感理解等领域的研究热点之一，在治安、刑侦、医疗、教育、零售等领域发挥着越来越重要的作用。

卷积神经网络(Convolutional Neural Networks，CNN)是一种经典的深度学习神经网络，被广泛运用在人脸表情识别中，近年来的研究发现，针对人脸位置变化和尺度变化，CNN相较于多层感知器(MLP)鲁棒性更强。卷积神经网络基础层包括卷积层、池化层、激活层及全连接层，其中卷积层是最重要的部分，包含多个卷积核进行卷积操作，以提取不同程度的特征；激活层解决了非线性问题，通过激活函数处理卷积后的结果提高了网络的非线性拟合能力和泛化能力；池化层对特征映射进行特征提取并降低特征尺度，同时保证了特征的空间不变性；全连接层在网络末端对最终的特征矩阵进行非线性组合，再连接激活函数输出每个种类的概率分布。

2D CNN可以对单张静态图像进行不同层次的空间特征提取，但无法考虑到视频中帧与帧间的运动信息，因此对于视频序列处理效果并不佳。为解决2D CNN在处理时序信息上的缺陷，3D CNN在2DCNN基础上考虑了时间维度的帧间运动信息，将卷积层和池化层从二维结构扩展为三维，以此能更好的提取视频中的时间和空间的特征信息。

注意力机制的本质为从大量信息中有筛选出少量重要信息，并聚焦到这些重要信息上，忽略大多不重要的信息。可以表示为一个查询(query)到一系列(键key-值value)对的映射。通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息，通过softmax归一化后，对权重和相应Value进行加权求和，即得到了最终的Attention数值。注意力机制发生在Target的元素Query和Source中的所有元素之间。

自注意力机制(self attention)是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性，即Target＝Source这种特殊情况下的注意力计算机制，Q＝K＝V，该机制可以学习长期依赖关系。

在识别视频人脸表情的过程中，对人脸表情进行特征提取是最关键的部分。在视频人脸表情识别研究初期使用传统手工特征提取，2007年芬兰奥卢大学的Guoying Zhao等人提出LBP-TOP(Local Binary Patterns From Three Orthogonal Planes)算法，是LBP(Local Binary Patterns)从二维空间到三维空间的拓展，被广泛应用于视频人脸表情识别中。方向梯度直方图(Histogram of Oriented Gradient，HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，它通过计算和统计图像局部区域的梯度方向直方图来构成特征，HOG-3D将HOG扩展到了3D，可以更上层的关注并描述视频中人体特征的局部。随着计算机技术的飞速发展，深度学习算法越来越表现出强大的信息处理能力，Hu使用CNN网络完成表情的识别，并结合多任务学习检测面部关键点，但普通卷积神经网络(CNN)没有考虑时序信息的问题，对此Tran等人提出3D卷积网络(C3D)，将传统的2D卷积核替换为使用沿时间轴共享权值的3D卷积核。

以上方法可以一定程度进行视频人脸表情识别，但存在不足之处：1)传统特征提取不够智能化，算法处理数据效率不高，性能较弱；2)3D CNN只能提取局部时空信息，不能学习长期依赖关系。

发明内容

鉴于此，本公开提供了一种基于C3D-SA的视频表情识别方法，包括如下步骤：

S100：通过三维卷积神经网络对视频序列进行表情特征提取，得到表情特征矩阵；

S200：连接自注意力机制层学习所述表情特征矩阵中的特征之间的相关性，得到注意力权重值，再加权所述表情特征矩阵，得到加权后的表情特征矩阵；

S300：连接全局均值池化层对所述加权后的表情特征矩阵进行特征映射并降维，再通过丢失层随机丢弃所述加权后的表情特征矩阵中的部分特征值，得到新的表情特征矩阵；

S400：连接全连接层对所述新的表情特征矩阵进行特征映射，得到最终的特征矩阵，将所得最终的特征矩阵通过softmax层输出表情识别的标签。

通过上述技术方案，由于传统的3D CNN只能提取局部时空信息，忽略了视频中帧之间的依赖关系，无法体现关键帧对视频表情识别的重要程度，而自注意力机制(Self-Attention)可以学习输入序列的长期依赖关系，根据视频帧之间的相关性计算注意力权值，得到视频的关键帧，从而给关键帧更高的权重，使网络更注重与表情识别相关程度高的帧。因此将3D CNN与自注意力机制(Self-Attention)结合，即C3D-SA网络，可以提高网络训练效果，提升视频表情识别准确率。

附图说明

图1是本公开一个实施例中所提供的一种基于C3D-SA的视频表情识别方法流程图；

图2是本公开一个实施例中C3D-SA网络结构图；

图3是本公开一个实施例中去除全连接层的3D VGG16网络结构图；

图4(a)、图4(b)是本公开一个实施例中人脸检测与缩放图；

图5是本公开一个实施例中3D VGG16对每折测试集识别准确率曲线图；

图6是本公开一个实施例中C3D-SA对每折测试集识别准确率曲线图；

图7是本公开一个实施例中3D VGG16模型表情识别混淆矩阵图；

图8是本公开一个实施例中C3D-SA模型表情识别混淆矩阵图。

具体实施方式

参见图1，在一个实施例中，其公开了一种基于C3D-SA的视频表情识别方法，包括如下步骤：

在这个实施例中，针对3D CNN只能提取局部时空信息的局限性提出了基于C3D-SA的视频人脸表情识别方法，通过在3D CNN的基础上引入自注意力机制来捕捉与人脸表情识别相关程度高的重要信息，提高了模型对视频人脸表情识别的准确率。为了降低网络复杂度，减少过拟合现象的发生，本方法首先去除3D VGG16中的3层全连接层进行人脸表情特征提取，再连接多头自注意力机制(Multi-head Self-Attention)学习输入特征之间的相关性，计算出注意力权重值，体现视频序列中关键帧的重要程度；之后使用dropout方法随机丢弃部分网络层结点，增强网络对特征提取的鲁棒性；最后利用全连接层+softmax输出表情分类标签。将3D VGG-16与多头自注意力机制(Multi-Head Self-Attention)结合后的C3D-SA模型结构如图2所示。

本方法解决了3D CNN无法学习长期时序依赖关系以及忽略了与人脸表情识别相关程度高的重要信息的问题，相比3D CNN及目前一些主流方法可以更加有效地进行视频人脸表情识别，提高了人脸表情分类的准确率。

视频序列指视频的帧，即组成视频的连续多幅图像。注意力权值再加权输入特征得到维度不变的输出特征矩阵。通过全局均值池化层对S200得到的特征矩阵进行特征映射并降维，再通过丢失层随机丢弃特征矩阵中的部分特征值。通过全连接层对S300所得特征矩阵进行特征映射得到最终的特征矩阵；将所得最终的特征矩阵通过softmax层归化到(0，1)区间，得到表情种类(高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视)分别对应的概率；比较所得概率值，并输出最大概率值对应的种类。最终得到的标签为输入视频序列的表情分类，分为高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。

三维卷积神经网络进行表情特征提取的步骤是：1、将输入的连续多张图像堆叠成立体图像的立方体，再利用三维卷积核对该立方体进行加权求和的卷积操作，以提取图像的初级特征，得到初级特征矩阵；2、将步骤1所得特征矩阵进行批量归一化，使特征矩阵的各个维度的均值都为0，方差为1，得到更加稳定分布的特征矩阵；3、通过激活层对步骤2所得特征矩阵添加非线性特征；4、通过池化层来降低步骤3所得的特征矩阵的维度大小得到最终的特征矩阵。

其中，步骤S300中的部分指按照丢弃率随机丢弃特征矩阵的特征值。如本方法中所设丢弃率为0.5，即随机丢弃特征矩阵中50％的特征值。步骤S400中的特征映射即通过对输入特征矩阵进行加权操作。

在另一个实施例中，如图3所示，所述三维卷积神经网络是去除3层全连接层的3DVGG-16模型。

就该实施例而言，去除前两层是为了降低模型复杂度，防止过拟合。最后一层是分类层，因此去除，即先结合注意力机制进行特征提取，最后才分类。

在另一个实施例中，所述3D VGG-16模型的卷积部分有5个卷积块，每个卷积块由2层或3层卷积核大小相同的卷积层级联，所有的卷积层都使用3X3X3卷积核；每层卷积后进行批量归一化BN；批量归一化后使用Relu激活函数；每个卷积块后接一层最大池化层对特征映射进行特征提取并降低特征尺度。

就该实施例而言，每层卷积后进行批量归一化(Batch Normalization，BN)，解决在训练过程中，中间层数据分布发生改变的问题，以防止梯度消失或爆炸、加快训练速度；批量归一化后使用Relu激活函数，可以增加神经网络模型的非线性拟合能力。

在另一个实施例中，所述自注意力机制层是多头自注意力机制。就该实施例而言，为了从多个不同角度(一个头相当于一个角度)捕捉与视频表情分类相关程度高的特征，也即为了从多个不同角度捕捉视频帧的重要程度，采用多头自注意力机制(Multi-HeadSelf-Attention)。在自注意力机制中，用三个矩阵W^Q、W^K、W^V分别与输入序列X(x₁，x₂，x₃，..，x_t)相乘，得到每个x_i对应的q_i、k_i、v_i(i∈(1，2，3，...，t))，即查询(query)、键(key)、值(value)；其中，t仅代表输入序列X(x₁，x₂，x₃，..，x_t)的维度。该方法中即S200输入特征矩阵的维度。再使每个qi分别与k₁，k₂，k₃，...，k_t计算向量点积，并通过softmax归一化得到注意力权重值α_i，1，α_i，2，...，α_i，t；最后，将注意力权重值与对应的v_i相乘并求和得到最终的输出结果b_i。bi是输入序列X中xi的输出值，公式是对输入序列(x1，x2，x3，..，xt)并行计算即矩阵运算，因此，公式(2-4)中的左式便是bi的序列(b1，b2，...，bt)，d_k表示矩阵k的维度。自注意力机制对输入序列(x₁，x₂，x₃，..，x_t)并行计算，公式如下：

Q＝W^QX (2-1)

K＝W^KX (2-2)

V＝W^VX (2-3)

在另一个实施例中，所述多头自注意力机制的头数为8，通过自注意力机制输入序列中每个xi得到8个输出b_i ¹，b_i ²，b_i ³，b_i ⁴，b_i ⁵，b_i ⁶，b_i ⁷，b_i ⁸，然后将所述8个输出向量首尾相连进行拼接，再通过线性转换得到输出结果b_i。

就该实施例而言，采用的多头自注意力机制(Multi-Head Self-Attention)用多组W^Q、W^K、W^V与输入序列X(x₁，x₂，x₃，..，x_t)相乘，进而得到多组q_i、k_i、v_i(i∈(1，2，3，...，t))，组数即为头数，取头数为8，则通过自注意力机制输入序列中每个x_i得到8个输出b_i ¹，b_i ²，b_i ³，...，b_i ⁸，接着将8个输出向量首尾相连进行拼接，再通过线性转换(即不含非线性激活层的单层全连接神经网络)得到输出结果b_i，公式(2-6)的左式为bi的序列(b1，b2，...，bt)，其中i与公式(2-5)中的i应区别开，(2-5)中的i为头数的序号，W^o为用于线性变换的矩阵，使得输出序列维度保持不变。其中的输入序列就是前一步骤所获得的表情特征矩阵。多头自注意力机制计算公式如下：

MultiHead(Q，K，V)＝Contact(head₁，...，head₈)W^O (2-6)

在另一个实施例中，所述表情识别的标签为视频表情的类别，包括：高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。

在另一个实施例中，所述视频序列的每次输入视频数据大小为8*3*10*48*48，其中，批尺寸batch size＝8，视频帧数＝10，图像大小为通道数channels＝3，图像宽度width＝48，图像高度height＝48。

就该实施例而言，批尺寸，即每次输入8个视频序列(该参数对预测结果无影响，只是说明一次性进行表情分类的视频数量)。channels通道数(视频序列中的图像为RGB图像，因此具有3个通道)；width图像宽度；height图像高度。其中图像高宽度不固定，可以设置为其他值，本方法由于设备显存限制设置尺寸较小。

在另一个实施例中，所述丢失层的丢失率rate＝0.5。

就该实施例而言，0.5是经验值，该值下网络的泛化能力最好。

在另一个实施例中，本方法使用的CK+数据库是在Cohn-Kanade数据集基础上扩展而来的。该数据库包含123个被试对象，共含有593个视频序列，其中118个被试对象具有相应的人脸表情标签，共327个视频序列。数据集共包含7种表情，分别为高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视，每个视频的表情都是由中性逐渐转变为峰值。

由于CK+数据集部分视频序列无对应人脸表情标签，将327个有人脸表情标签的视频序列筛选出来，并将相同标签的视频归类到同一类别文件下。

由于CK+数据集的每个视频帧数不相同，从6帧到30帧不等，大多视频序列长度在14帧左右。由于C3D-SA模型所需输入数据向量大小一致，本方法将视频帧数选取统一为10帧。CK+数据集中帧数大于10的视频选取最后10帧，小于10帧的复制最后一帧直到够10帧。

在另一个实施例中，在步骤S100之前还包括：对原始的视频序列进行人脸检测，去除与表情识别无关的非人脸区域，获得人脸区域的视频序列。

就该实施例而言，CK+数据集视频序列中的人脸图像受不同背景、头部姿态或遮挡物等与人脸表情识别无关因素的影响，网络模型在训练过程中会学习到无意义的特征，因此，在网络训练之前应该进行人脸检测，去除与表情识别无关的背景与遮挡物等非人脸区域，减少环境干扰因素，以此提高网络模型的识别准确率。该实施例所获得的人脸区域的视频序列作为步骤S100的输入。

在另一个实施例中，利用opencv中的CascadeClassifier级联分类器对输入的原始的视频序列进行人脸检测，检测出人脸区域。

就该实施例而言，利用opencv中的CascadeClassifier级联分类器对输入的视频序列进行人脸检测，该分类器将滑动窗口机制与级联分类器结合，级联分类器由多个强分类器级联而成，并且强分类器逐级复杂。视频序列中的每个人脸图片将顺序通过各个强分类器，用固定大小的特征窗口对图像从上到下、从左到右扫描，判断窗口里的子图像是否为人脸，如果匹配就记录该矩形区域的位置，然后滑动窗口，检测图像的另一个区域，重复操作。被检窗口依次通过每一级分类器，在前面几层的检测中大部分的候选区域被排除，全部通过每一级分类器检测的区域即为目标区域，由此检测出人脸，再利用检测出的人脸区域的坐标及大小进行裁剪，最后将640*490大小的原图缩小为48*48大小的图像，如图4(a)、图4(b)所示，其中图4(a)表示原始人脸图片，图4(b)表示处理后人脸图片。

在另一个实施例中，在训练深层神经网络时需要充足的数据量来提高网络对特征提取的能力，而本方法使用的ck+数据集较小，为了减少样本量不足带来的网络训练过拟合现象，利用数据增强技术使数据更具多样性。通过深度学习框架中封装的实时数据增强模块对输入的视频序列中的人脸图像随机进行水平或上下翻转、旋转、缩放、平移或调整亮度，可以生成新的不可见训练样本，有效地扩大了数据量，使网络对表情识别的泛化能力更强，优化网络训练效果，提高表情识别准确率。

在另一个实施例中，本方法设置批尺寸batch size＝8，初始学习率lr＝0.001，学习率调整方法为在20轮训练后每隔5轮衰减为初始学习率的0.96倍，使模型能更加稳定的收敛；优化器选择随机梯度下降算法(SGD)，动量momentum＝0.9，每次实验训练100轮。由于ck+数据集样本量较少，采用5折交叉验证方法，即将数据集平均分为5份，共进行5次实验，每次实验将其中1份作为测试集，其余4份为训练集，5次实验之后每份数据集都充当一次测试集，模型对表情识别的最终准确率为5折实验的平均准确率。

本方法的C3D-SA模型基于3D VGG16结合自注意力机制(Self Attention)后的C3D-SA模型使网络更加注重对表情识别相关程度更高的关键帧，C3D-SA模型与3D VGG16对ck+数据集的视频人脸识别的每折实验准确率及最终平均准确率如表1所示，两种模型对每折测试集人脸表情识别准确率曲线图如图5、图6所示。从表1及图5、图6对比可以看出C3D-SA模型相比3D VGG16模型对每折测试集的人脸表情识别准确率更高，并且最终5折平均准确率分别为93.88％和91.13％，表明C3D-SA模型在ck+数据集上的人脸表情识别效果优于3D VGG16。

表1

分别计算C3D-SA模型及3D VGG16模型对ck+数据集每种表情的预测准确率得出混淆矩阵，如图7、图8所示，其中横坐标为模型对视频表情分类的预测标签，纵坐标为视频表情的实际分类标签，可以更清楚地展示模型对人脸表情的具体识别情况。通过两种模型混淆矩阵的对比可以看出C3D-SA模型对ck+数据集中每种表情的识别准确率优于3D VGG16模型，其中对沮丧(disgust)的人脸表情识别最准确，全部识别正确。

为了进一步说明本方法的C3D-SA模型对视频人脸表情识别的有效性，表2列举出了几种其他方法在ck+数据集上的人脸表情识别准确率与本方法进行对比，其中前两列为传统表情特征提取方法，第3、4列为深度学习方法，最后为本方法。通过表2中各方法的识别准确率可看出本方法的C3D-SA模型对视频人脸表情识别效果均优于列举的目前主流方法，准确率达到了93.88％。

表2

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于C3D-SA的视频表情识别方法，包括如下步骤：

2.根据所述权利要求1的方法，优选的，所述三维卷积神经网络是去除3层全连接层的3D VGG-16模型。

3.根据所述权利要求1的方法，所述3D VGG-16模型的卷积部分有5个卷积块，每个卷积块由2层或3层卷积核大小相同的卷积层级联，所有的卷积层都使用3X3X3卷积核；每层卷积后进行批量归一化BN；批量归一化后使用Relu激活函数；每个卷积块后接一层最大池化层对特征映射进行特征提取并降低特征尺度。

4.根据所述权利要求1的方法，所述自注意力机制层是多头自注意力机制。

5.根据所述权利要求1的方法，所述多头自注意力机制的头数为8，通过自注意力机制输入序列中每个xi得到8个输出b_i ¹，b_i ²，b_i ³，b_i ⁴，b_i ⁵，b_i ⁶，b_i ⁷，b_i ⁸，然后将所述8个输出向量首尾相连进行拼接，再通过线性转换得到输出结果b_i。

6.根据所述权利要求1的方法，所述表情识别的标签为视频表情的类别，包括：高兴、生气、吃惊、恐惧、厌恶、悲伤和蔑视。

7.根据所述权利要求1的方法，所述视频序列的每次输入视频数据大小为8*3*10*48*48，其中，批尺寸batch size＝8，视频帧数＝10，图像大小为通道数channels＝3，图像宽度width＝48，图像高度height＝48。

8.根据所述权利要求1的方法，所述丢失层的丢失率rate＝0.5。

9.根据所述权利要求1的方法，在步骤S100之前还包括：对原始的视频序列进行人脸检测，去除与表情识别无关的非人脸区域，获得人脸区域的视频序列。

10.根据所述权利要求9的方法，利用opencv中的CascadeClassifier级联分类器对输入的原始的视频序列进行人脸检测，检测出人脸区域。