CN111523462B

CN111523462B - 基于自注意增强cnn的视频序列表情识别系统及方法

Info

Publication number: CN111523462B
Application number: CN202010324540.0A
Authority: CN
Inventors: 童莹; 陈瑞; 齐宇霄; 陈乐�; 曹雪虹
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2024-02-09
Anticipated expiration: 2040-04-22
Also published as: CN111523462A

Abstract

本发明公开了一种基于自注意增强CNN的视频序列表情识别系统及方法，系统包括特征增强CNN模块、自注意力机制模块和全连接层；视频序列输入特征增强CNN模块，特征增强CNN模块输出的特征向量输入自注意力机制模块，自注意力机制模块输出的特征向量输入全连接层，全连接层将特征向量映射到样本标记空间中实现分类；特征增强CNN模块在骨干网络中增加若干卷积层，在骨干网络的中间层引出特征增强支路，并将特征增强支路的输出与骨干网络的输出融合，将网络中的全连接层替换为全局平局池化层。本发明提出的系统的复杂度更低，可有效提高视频序列表情识别的准确率，在人机交互、智慧教育、病人监护等领域具有广大应用前景。

Description

基于自注意增强CNN的视频序列表情识别系统及方法

技术领域

本发明涉及表情识别技术领域，具体涉及一种基于自注意增强CNN的视频序列表情识别系统及方法。

背景技术

人脸表情包含丰富的情感信息，是人类情绪表达的重要方式之一，也是人们进行非语言情感交流的有效手段。人们可以通过面部表情表达自己的情感，也可以准确辨认出对方的内心情感变化。因此，对人脸表情进行准确识别具有重要的研究价值和应用前景，是近年来人工智能领域的研究热点。

人脸表情识别系统一般包括图像预处理、人脸检测与人脸区域分割、表情特征提取和表情分类四个步骤，其中，表情特征提取和分类是系统实现的两个关键步骤。常用的传统人脸表情特征提取方法有LBP、HOG、SIFT、Gabor以及它们的改进算子，常用的传统分类器有支持向量机(Support Vector Machine，SVM)、随机森林(Random Forest，RF)、高斯过程(Gaussian Process，GP)、隐马尔可夫模型(Hidden Markov Model，HMM)等等。

然而，随着人脸表情识别在实际应用中的需求越来越广泛，进行测试的人脸表情数据库逐渐从简单的实验环境采集的数据库(人脸图像是正面、无遮挡的，且受试者根据要求夸张的表现情感)转向复杂的真实环境采集的数据库(人脸图像受真实环境光照、姿态变化、遮挡、配饰等多种因素混合干扰，且受试者自然的表现情感，情感表现程度各不相同)，这导致传统机器学习算法难以胜任复杂多变的非约束人脸表情识别。因此，具有强大学习能力的深度神经网络逐渐被应用在非约束人脸表情识别中，并取得了令人瞩目的效果。例如，MayyaV等人采用DCNN网络自动识别人脸表情；ConnieT等人采用混合CNN-SIFT网络提高人脸表情识别准确率；Bargal等人采用VGG13、VGG16、Resnet三个不同的网络提取表情图像的特征，并将特征融合使用支持向量机SVM实现分类；梁等人提出自适应Gabor卷积核编码网络的表情识别方法，对传统的Gabor核进行改进，提高了识别率。

上述方法是基于静态单帧图像的，与其相比，视频序列能够表达更丰富的表情变化信息，能够更精确地反映一个完整表情的运动过程，因此，基于视频序列的人脸表情识别研究更有实用价值也更具有挑战性。Zhao等人提出了一种基于peak-piloted的表情识别方法(PPDN)，使用峰值表情样本来监督相同类型的非峰值表情样本的中间特征变化，实现表情强度不变性；Yu等人提出了一种更深的级联peak-piloted的弱表情识别方法(DCPN)，增强了特征的辨别力，同时采用级联微调的方法避免过拟合；Jung等人提出了基于两种不同模型的联合微调网络(DTAGN)，其中一个深度网络从视频序列中提取时间变化特征，另一个网络从单帧图像面部关键点提取几何形态变化特征，从而提高了视频序列的人脸表情识别的精度。

目前，常用于视频序列表情识别的方法是结合CNN和长短期记忆(long short-term memory，LSTM)网络对视频中人脸表情的时空变化进行建模。为了获得较好的识别结果，一般需采用深层CNN网络提取空间信息，采用多层LSTM网络级联获取时间信息，这一方面增加了网络的计算开销，另一方面也会出现因网络层数加深而造成的梯度消失问题。

综上，虽然人脸表情识别已经取得了一定的成果，但仍存在一些不足：

(1)现有的研究多针对静态单帧图像，基于视频序列的人脸表情识别研究并不多，且研究成果多是在实验环境采集的视频数据库上进行验证的，例如，CK+，MMI，Oulu-CASIA等，这些数据中人脸表情夸张且受噪声干扰较少，对实际应用的参考价值不大；

(2)现有的在真实环境中采集的人脸表情视频数据较少，这导致深度神经网络的训练样本数量不足，严重影响了网络性能。同时，由于年龄、性别、种族等个体间差异，以及光照、姿态、遮挡、配饰等个体内变化，采集的人脸表情样本质量参差不齐。

这些均给设计一个实时、准确的非约束人脸表情识别系统增加了难度，现有的基于深度神经网络的人脸表情识别研究在性能提升上仍有很大的上升空间。

发明内容

发明目的：针对现有技术中存在的问题，本发明公开了一种基于自注意增强CNN的视频序列表情识别系统及方法，首先将传统CNN网络改进为特征增强CNN模块，以传统CNN网络为骨干网络，在骨干网络的中间层引出一条特征增强支路，并将特征增强支路的输出特征与骨干网络的输出的深层特征相融合，用于获取不同层次的人脸表情特征，丰富表情信息；同时，用自注意力机制模块代替多层LSTM网络，一方面通过自注意力机制模块学习序列内部的依赖关系，捕获内部结构，进而获取差异化的显著特征，另一方面自注意力机制是一种均值运算，可以有效避免因网络层数加深而造成的梯度消失问题，大大加快了网络的训练速度；特征增强CNN模块和自注意力机制模块结合有效提高了视频序列表情识别的准确率，在人机交互、智慧教育、病人监护等领域具有广大应用前景。

技术方案：本发明采用如下技术方案：一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，包括特征增强CNN模块、自注意力机制模块和全连接层；其中，视频序列输入所述特征增强CNN模块，特征增强CNN模块用于获取视频序列的表情空间信息，特征增强CNN模块输出的特征向量输入所述自注意力机制模块，自注意力机制模块用于学习视频序列的面部纹理变化关系进而获取人脸表情特征，自注意力机制模块输出的特征向量输入级联的若干层全连接层，全连接层将特征向量映射到样本标记空间中实现表情分类；

所述特征增强CNN模块包括骨干网络和特征增强支路，其中，在骨干网络的中间层引出一条特征增强支路，并将特征增强支路的输出特征与骨干网络的输出特征相融合；在骨干网络中和特征增强支路中分别设置用于代替全连接层的全局平局池化层。

优选的，所述特征增强CNN模块的骨干网络为改进的VGG-16网络，其中，将VGG-16网络的全连接层替换为全局平局池化层，并在全局平局池化层前增加3层卷积层，3层卷积层的卷积核尺寸均为3*3*512*1024。

优选的，特征增强支路包括1层卷积层，卷积层的输入连接骨干网络的中间层，卷积层的输出连接特征增强支路中的全局平局池化层的输入，卷积层的卷积核尺寸为7*7*256*1024。

优选的，所述视频序列表情识别系统设置了1层全连接层。

优选的，所述自注意力机制模块中，权值矩阵尺寸为2048*2048，抑制注意力权重的超参数设置为0.1。

优选的，所述骨干网络的输出特征的维度与特征增强支路的输出特征的维度均为1024。

优选的，所述级联的全连接层之间还包括依次连接的归一化层、激活函数层和DropOut层。

一种基于自注意增强CNN的视频序列表情识别方法，其特征在于，包括如下步骤：

步骤A、对人脸表情视频进行人脸检测，截取人脸ROI区域，去除背景干扰；

步骤B、将预处理后的人脸表情视频以n帧为一组划分成若干视频序列；

步骤C、将每组视频序列顺序输入自注意增强CNN网络，输出n帧特征向量，自注意增强CNN网络由所述特征增强CNN模块、自注意力机制模块构成；

步骤D、将每组视频序列经过自注意增强CNN网络后输出的n帧特征向量融合为一个特征向量后，该特征向量经过归一化、激活函数、DropOut处理之后，使用全连接层将该特征向量映射到样本标记空间中，得到该组视频序列所属的表情类别；

步骤E、用Softmax函数计算各组视频序列所属的表情类别的概率值，最大概率值对应的表情类别即为该人脸表情视频的表情类别。

优选的，所述步骤B中，n小于或等于人脸表情视频长度的1/2，相邻的视频序列之间有n/2帧图像重叠。

有益效果：本发明具有如下有益效果：

1、本发明将传统CNN网络改进为特征增强CNN模块，以传统CNN网络为骨干网络，在骨干网络的中间层引出一条特征增强支路，并将特征增强支路的输出特征与骨干网络输出的深层特征相融合，丰富了表情信息；用全局平局池化层代替全连接层，降低了模型复杂度的同时并没有降低模型效率；

2、本发明用自注意力机制模块代替多层LSTM网络，一方面通过自注意力机制学习序列内部的依赖关系，捕获内部结构，进而获取差异化的显著特征，另一方面自注意力机制是一种均值运算，可以有效避免因网络层数加深而造成的梯度消失问题，大大加快了网络的训练速度；

3、与CNN-LSTM模型相比，本发明提出的自注意增强CNN模型的复杂度更低，识别效果更好，可有效提高视频序列表情识别系统的准确率，在人机交互、智慧教育、病人监护等领域具有广大应用前景。

附图说明

图1为本发明中基于自注意增强CNN的视频序列表情识别系统的整体系统框图；

图2为本发明中特征增强CNN模块的结构图；

图3为本发明中自注意力机制模块的结构图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于自注意增强CNN的视频序列表情识别系统，如图1所示，主要包含特征增强CNN(Feature-enhanced CNN)模块和自注意力机制(Self-attention)模块两个部分；视频序列输入特征增强CNN模块，特征增强CNN模块用于获取准确的视频序列的表情空间信息，特征增强CNN模块输出的特征向量输入自注意力机制模块，自注意力机制模块则通过学习视频序列内部的依赖关系，即帧与帧之间由于面部肌肉运动呈现的面部纹理变化关系，捕获内部结构，进而获取差异化的显著特征，即面部纹理变化呈现的显著人脸表情特征，可以有效提高非约束人脸表情识别的准确率，并且避免了梯度消失问题，网络训练时间大大降低，仅为传统CNN-LSTM网络的一半。

视频序列表情识别的具体过程为：输入一个视频序列，设为连续10帧图像，经特征增强CNN模块后，得到该10帧图像对应的特征向量x₀，x₁，…，x₉；将特征向量x₀，x₁，…，x₉输入自注意力机制模块，输出具有差异化的显著特征再将特征/>输入全连接层将学习到的深度语义特征映射到样本标记空间中实现表情分类。需要注意的是，在分类前本发明使用DropOut随机“灭活”特征值，防止模型过拟合。

卷积神经网络近年来在视觉识别任务上取得了巨大的成功，其中经典CNN网络有AlexNet、VGG、GoogLeNet和ResNet等。综合考虑网络的训练代价和识别精度，本发明采用VGG-16网络作为特征增强CNN模块的骨干网络。鉴于VGG-16的网络层数有限，在处理非约束人脸表情数据时，样本受真实环境光照、姿态变化、遮挡、配饰等多种因素混合干扰，且因个体文化差异，受试者表现同类情感的程度也各不相同，因此VGG-16提取的非约束人脸表情特征并不理想。

鉴于此，本发明对VGG-16网络进行改进，如图2所示，改进后的VGG-16网络的具体框架如下：

首先，在传统VGG-16网络的全连接层前又增加了3层卷积层，见图2中虚线框内，用于获取更深层的表情语义信息；3层卷积层的卷积核尺寸均为3*3*512*1024。

其次，在骨干网络的中间层引出一条特征增强支路进行特征增强，并将其与骨干网络输出的深层特征相融合，用于获取不同层次的人脸表情信息；这里，特征增强支路仅使用了1层卷积层，卷积核大小为7*7*256*1024，其目的是使用较大感受野保留更多的表情空间信息，且较少增加支路卷积深度。

最后，将特征增强CNN模块中的全连接层替换为全局平局池化(Global averagePooling，GAP)层，特征增强支路的卷积层的输出连接的特征增强支路的全局平局池化层的输入，其原理是求取每个特征通道的平均值，输出维度只与特征通道数有关，与特征尺寸无关，避免了全连接层中将多维特征拉成一维特征的复杂操作，大大降低模型的参数计算量。本发明中，骨干网络的全局平局池化层的输出特征的维度与特征增强支路的全局平局池化层的输出特征的维度相同，均为1024。

人类视觉系统利用注意力机制进行信息筛选，从而能够在复杂场景中迅速找到感兴趣的区域，极大地提高了视觉信息处理的效率与准确性。受此启发，本发明用自注意力机制模块代替多层LSTM网络，一方面通过自注意力机制模块学习视频序列内部的依赖关系，捕获内部结构，进而获取差异化的显著特征；另一方面自注意力机制是一种均值运算，可以有效避免因网络层数加深而造成的梯度消失问题，大大加快了模型的训练速度。

自注意力机制模块通过计算特征向量间的相关性得到注意力权重，根据注意力权重对特征向量进行加权后输出新的特征向量组；最后通过全连接层、激活函数层、DropOut层等网络计算出各表情类别的概率值，实验结果证明了自注意力机制模型的有效性。

自注意力机制模块内部结构如图3所示。

首先，将特征增强CNN模块输出的连续n帧图像的人脸表情特征向量表示为矩阵形式X＝[x₁，x₂，...，x_n]，采用Q＝W_qX，K＝W_kX，V＝W_vX计算图中的Q、K、V(即自注意力机制的查询Query、键Key、值Value)，其中，W_q、W_k、W_v为不同的网络权值矩阵，QK^T描述了输入的特征矩阵X中的元素间相关性，即注意力权值，s是一个手工设置的一个超参数，目的是抑制注意力权值大小；

然后使用Softmax函数把注意力权值归一化为0到1之间，再与V相乘，得到差异化的显著特征矩阵X^*。

这里，K、V、Q都是2048*2048的权值矩阵，相比全连接层，计算量大大降低，s抑制注意力权值，本发明中设置为0.1。

基于上述系统，本发明还公开了一种基于自注意增强CNN的视频序列表情识别方法，包括如下步骤：

步骤A、对人脸表情视频进行人脸检测，截取人脸ROI区域，去除背景干扰。

步骤B、将预处理后的人脸表情视频以n帧为一组划分成若干视频序列，n小于或等于人脸表情视频长度的1/2，且相邻的视频序列之间有n/2帧图像重叠。

若划分的视频序列的长度不足n帧时，则用该视频序列的最后一帧将其补全为n帧。

步骤C、将每组视频序列(n帧图像)顺序输入自注意增强CNN网络，输出n帧2048维特征，自注意增强CNN网络由上述特征增强CNN模块、自注意力机制模块构成。

步骤D、将每组视频序列经过自注意增强CNN网络后输出的n帧2048维特征相加取平均，融合为一个2048维度的特征向量，经过归一化、ReLU函数、DropOut之后，使用一层全连接层将该特征向量，即学习到的深度语义特征映射到样本标记空间中实现分类。

步骤E、用Sofimax计算属于该视频的各组序列的表情概率值，平均概率值最大对应的表情类别即为最终的识别标签。

本发明的一种基于自注意增强CNN的视频序列表情识别系统，网络训练参数的确定过程以及训练效果如下：

本发明实验的硬件环境为64位Ubuntu 16.04 LTS操作系统，CPU为Intel Corei7-7800X 3.50GHz，显卡型号为NVIDIA GeForce GTX 1080Ti，显存为11G。深度学习框架使用PyTorch框架。网络框架进行端到端训练。

1、数据库介绍

本发明在AFEW、CK+两个数据库上进行实验仿真，其中，AFEW均为真实环境采集的非约束人脸表情数据库，样本受环境光照、姿态变化、遮挡、配饰、分辨率、拍摄角度、复杂背景等多种因素混合干扰，且因个体文化差异，受试者表现同类情感的程度也各不相同；CK+为实验环境采集的约束人脸表情数据库，样本中人脸正面姿态、无遮挡，且受试者根据实验要求夸张的表现各类情感。可见，对非约束人脸表情进行识别研究更具挑战性。

(1)AFEW数据库

AFEW(Acted Facial Expression in the Wild)数据库由不同电影中节选的视频片段组成，受试者具有自发的人脸表情，且受真实环境光照、姿态变化、遮挡、配饰、拍摄角度、分辨率、复杂背景等多种因素混合干扰，自2013年起作为EmofiW竞赛中的评估数据，每年主委会均会对AFEW数据库进行微调。本发明选择2017年竞赛数据AFEW7.0进行实验。AFEW7.0数据库分为三个部分：训练集(773个样本)，验证集(383个样本)和测试集(653个样本)，其目的是为了确保三个数据集中受试者无重叠，由此验证人脸身份对人脸表情识别的影响。表情标签分别为生气(anger)、厌恶(disgust)、害怕(fear)、开心(happiness)、中性(neutral)、悲伤(sadness)、惊讶(surprise)等。

(2)CK+数据库

CK+数据库是用于评估人脸表情识别系统最广泛的实验室数据库，包含来自123个受试者的593个视频。视频持续时间从10帧到60帧不等，并且从中性表情一直变化到最夸张表情为止。其中，来自118名受试者的327个视频采用面部动作编码系统(FACS)被标记了七种基本情绪标签：生气(anger)，蔑视(contempt)，厌恶(disgust)，害怕(fear)，高兴(happiness)，悲伤(sadness)，惊讶(surprise)。由于CK+没有给定训练集和测试集，本发明将327个视频划分成长度为10帧的视频序列，共978个，取其中80％进行训练，20％进行测试，交叉验证5次得到实验结果。

2、网络预处理和数据扩增

本发明采用MTCNN网络对AFEW和CK+数据库进行人脸检测预处理，用以消除复杂背景对人脸表情识别的影响。同时，本发明也对这两个数据库进行了尺度缩放，用以扩增训练样本数量。

3、网络的预训练和微调

由于AFEW数据库复杂程度高于CK+数据库，因此，本发明主要基于AFEW数据库进行网络预训练和微调：

首先采用VGG-FACE权值作为骨干CNN网络的初始权值；

由于AFEW和CK+中训练数据有限，会导致网络训练参数不准确，因此用SFEW和FER2013中部分样本对自注意增强CNN网络进行微调，得到更准确的网络；

最后用AFEW的训练集及扩增的训练样本对自注意增强CNN网络进行训练，由此得到最佳网络参数；

CK+数据库则在此具有最佳网络参数的自注意增强CNN网络上直接进行训练和测试。

4、网络性能分析

(1)AFEW数据库上实验仿真

调整自注意增强CNN网络的结构和参数，在AFEW数据库上进行实验，得到仿真结果如表1所示。

表1

分析表1中数据，我们发现：

①当骨干网络输出维度、特征增强支路输出维度、超参数s均相同时，采用一层全连接层的识别效果优于两层全连接层的效果。见表1中实验1和实验2，当骨干输出维度＝支路输出维度＝1024，且自注意机制模块的超参数s＝0.06时，采用一层全连接层的识别率为41.97％，而两层全连接层的识别率为40.91％，下降了1.06％。

②在采用一层全连接层基础上，当骨干输出维度＝支路输出维度，超参数s取不同值时，网络识别效果也随之变化。见表1中实验2至实验6，当骨干输出维度＝支路输出维度＝1024，s分别取值等于0.06，0.01，0.1，0.2，0.3时，当超参数s＝0.1时，网络识别准确率达到最高值42.78％。

③若支路输出维度、全连接层数、超参数s设置相同，增加骨干输出维度，网络识别性能下降。见表1中实验2和实验7，当支路输出维度＝1024、全连接层数＝1、s＝0.06时，骨干输出维度等于1024的识别准确率为41.97％，而骨干输出维度增加到2048时，识别准确率下降了1.33％。

综上，我们得出结论：由于全连接层具有强大的拟合能力，当增加全连接层数时，有时会导致模型过拟合，识别准确率下降；同时，通过单纯的增加输出特征通道数提升网络识别性能，效果并不明显，因此，在本发明中，当骨干输出维度＝支路输出维度＝1024，超参数s＝0.1时，自注意增强CNN网络的性能最佳，识别准确率达到42.78％。

表2为采用自注意增强CNN网络与传统CNN-LSTM网络端到端训练和测试一张样本的运行时间，表3为两个网络在AFEW数据库上的性能比较。

表2

表3

从表2中数据可以看出，当用自注意力机制代替传统CNN-LSTM中多层LSTM网络，且用全局平局池化层代替全连接层时，网络训练时间由原来的40.34ms下降为21.25ms，下降了47.32％，测试时间也下降32.57％。同时，从表3中数据可以看出，自注意增强CNN网络的识别准确率相比传统CNN-LSTM网络提高了4.21％。

由此可见，本发明提出的自注意增强CNN网络对传统CNN网络进行改进，并且用自注意力机制代替多层LSTM网络，不仅提升了网络识别准确率，也大大降低了网络的训练和测试时间，在人机交互、智慧教育、病人监护等领域具有广阔应用前景和实用价值。

表4为自注意增强CNN网络在AFEW数据库上的混淆矩阵，其中，竖轴为真实标签，横轴为预测标签，数值单位为1％。

表4

从表4中可以看出，在AFEW数据库上，测试样本被正确分类的数量不占绝对优势，有时甚至会出现正确分类的视频数量远少于错误分类的视频数量。例如，标签为“害怕”的视频，正确分类的比例仅为13.64％，而被错误分类为“生气”的视频占27.27％，被错误分类为“开心”的视频占15.91％。同样，标签为“惊讶”的视频，正确分类的比例仅为15.56％，而被错误分类为“生气”的视频占28.89％。这是因为，现实生活中人的情绪往往不是单一的，会出现多种情感的混合。例如，生气、厌恶和悲伤三种情绪通常相互伴随，害怕、惊讶、开心的面部形态变化又具有某些相似性；并且，由于非约束人脸表情数据受年龄、性别、种族、光照条件、姿态变化、遮挡、分辨率、复杂背景等多种因素混合干扰，导致即使使用深度学习计算机也不易正确区分。这也从另一个角度说明，对视频序列的非约束人脸表情进行正确识别是一项极具挑战的研究课题。

(2)CK+数据库上实验仿真

采用上述在AFEW数据库上训练得到的，具有最佳结构和参数的自注意增强CNN网络(即骨干输出维度＝支路输出维度＝1024，超参数s＝0.1)训练CK+数据库，进行5次交叉验证，得到的自注意增强CNN网络在CK+数据库上的混淆矩阵如表5所示，其中，竖轴为真实标签，横轴为预测标签，数值单位为1％。

表5

从表5中数据可以看出，本发明在AFEW数据库训练得到的自注意增强CNN网络具有适用性，在CK+数据库上仍可以达到很好的识别性能。

(3)与先进算法的比较

为了进一步说明本发明提出的自注意增强CNN网络的先进性，在CK+数据库上进行实验，与现有先进算法进行比较，结果如表6所示。

表6

从表6中数据可以看出，本发明提出的自注意增强CNN网络达到最高识别率97.95％，比其他先进网络3DCNN-DAP、STM-ExpLet、DTAGN提高了5.6％，4.07％和1.52％，比传统CNN-LSTM网络提高了2.03％。

由此可见，在AFEW数据库训练得到的自注意增强CNN网络具有适用性，在CK+数据库上仍可以达到最佳识别性能，并且优于其他先进网络的识别结果，具有先进性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，包括特征增强CNN模块、自注意力机制模块和全连接层；其中，视频序列输入所述特征增强CNN模块，特征增强CNN模块用于获取视频序列的表情空间信息，特征增强CNN模块输出的特征向量输入所述自注意力机制模块，自注意力机制模块用于学习视频序列的面部纹理变化关系进而获取人脸表情特征，自注意力机制模块输出的特征向量输入级联的若干层全连接层，全连接层将特征向量映射到样本标记空间中实现视频序列的表情分类；

所述特征增强CNN模块包括骨干网络和特征增强支路，其中，在骨干网络的中间层引出一条特征增强支路，并将特征增强支路的输出特征与骨干网络的输出特征相融合；在骨干网络中和特征增强支路中分别设置用于代替全连接层的全局平局池化层；

所述特征增强CNN模块的骨干网络为改进的VGG-16网络，其中，将VGG-16网络的全连接层替换为全局平局池化层，并在全局平局池化层前增加3层卷积层，3层卷积层的卷积核尺寸均为3*3*512*1024；

特征增强支路包括1层卷积层，卷积层的输入连接骨干网络的中间层，卷积层的输出连接特征增强支路中的全局平局池化层的输入，卷积层的卷积核尺寸为7*7*256*1024。

2.根据权利要求1所述的一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，所述视频序列表情识别系统设置了1层全连接层。

3.根据权利要求2所述的一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，所述自注意力机制模块中，权值矩阵尺寸为2048*2048，抑制注意力权重的超参数设置为0.1。

4.根据权利要求1所述的一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，所述骨干网络的输出特征的维度与特征增强支路的输出特征的维度均为1024。

5.根据权利要求1所述的一种基于自注意增强CNN的视频序列表情识别系统，其特征在于，所述级联的全连接层之间还包括依次连接的归一化层、激活函数层和DropOut层。

6.根据权利要求1至5任一所述的一种基于自注意增强CNN的视频序列表情识别系统的表情识别方法，其特征在于，包括如下步骤：

7.根据权利要求6所述的一种基于自注意增强CNN的视频序列表情识别系统的表情识别方法，其特征在于，所述步骤B中，n小于或等于人脸表情视频长度的1/2，相邻的视频序列之间有n/2帧图像重叠。