CN111797683A

CN111797683A - 一种基于深度残差注意力网络的视频表情识别方法

Info

Publication number: CN111797683A
Application number: CN202010436500.5A
Authority: CN
Inventors: 赵小明; 张石清
Original assignee: Taizhou University
Current assignee: Taizhou University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-10-20

Abstract

本发明公开了一种基于深度残差注意力网络的视频表情识别方法，包括以下步骤：S1、对视频样本进行视频数据预处理；S2、采用深度残差注意力网络进行人脸图像的表情特征提取；S3、对步骤S2中提取后的特征进行一定处理后再进行训练和测试，并输出最终的人脸表情的分类结果。本发明采用空间注意力机制实现，通过对输入的特征图生成空间分布上的权重，然后再与特征图加权求和，从而监督网络学习给人脸图像中与表情密切相关的不同区域分配不同的注意力（权重），能够聚焦于人脸图像中与表情密切相关的目标区域的特征学习，从而改善深度残差网络的特征表征能力，进一步提高视频表情识别的性能。

Description

一种基于深度残差注意力网络的视频表情识别方法

技术领域

本发明涉及图像处理、模式识别的技术领域，尤其涉及一种基于深度残差注意力网络的视频表情识别方法。

背景技术

人与人之间的交流是富有情感的，情感的表达是人最原始的本能，情感的基本元素就是多种表情的聚合物。以往人们通过文字或照片来记录自己的生活。现在大多以视频博客、短视频等方式记录下重要的回忆和情绪的表达，如喜怒哀乐。

特征提取是视频表情识别的一个重要环节。在早期的视频表情识别中，研究者大多采用手工特征用于视频表情的分类。其中，代表性的手工特征主要包括：局部二值模式(LBP)、局部相位量化(LPQ)、梯度方向直方图(HOG)和尺度不变特征(SIFT)等。在动态的视频序列表情识别中，这些方法被更新为LBP-TOP、LPQ-TOP和3D-SIFT。虽然手工特征在视频表情识别领域得到了广泛的应用，但依旧属于低层次的特征。在视频情感识别中，视频含有丰富的情感信息，需要高层次的深度特征进行表达，而手工特征与高层次的主观性情感存在“语义鸿沟”的问题。

为了解决上述手工特征的不足之处，近年来研究者们提出了一系列深度神经网络用于视频表情中的识别。其中，代表性的深度神经网络模型包括：在2012年Imagenet图像分类比赛中获得第一名的AlexNet、通过加深网络层数来提高网络性能的VGG、利用Inception模块加宽网络结构提高网络性能的GoogleNet以及利用残差模块中的恒等映射原理加深网络层数来提升网络性能的深度残差网络ResNet。目前，研究者们已经尝试将上述网络用于视频表情识别，并取得了不错的效果。

虽然现有的深度神经网络拥有较强的特征提取能力，但是忽略了图像中各局部区域情感表示强度方面的差异性，从而限制了深度神经网络的特征表征能力，即现有的深度神经网络没有考虑人脸图像中各局部区域情感表示强度方面的差异性。

例如，一种在中国专利文献上公开的“一种基于混合深度学习的视频序列表情识别方法”(公告号CN201810880749.8)，采用两个深度卷积神经网络模型，即时间卷积神经网络和空间卷积神经网络，分别从视频表情序列中提取高层次的时间特征和空间特征，然后采用深度信念网络实现时空特征的深度融合，并做平均池化运算，得到视频序列的全局特征，最后采用支持向量机实现视频表情序列的分类，该方法充分利用视频序列中的时空域信息，但没有考虑到人脸图像中各局部区域情感表示强度方面的差异性，未考虑到视频中的手工特征与主观性情感之间存在语义鸿沟的问题。

发明内容

本发明是为了克服现有技术中的视频表情识别没有考虑到人脸图像中各局部区域情感表示强度方面的差异性，未考虑到视频中的手工特征与主观性情感之间存在语义鸿沟的技术问题，提供一种基于深度残差注意力网络的视频表情识别方法，采用空间注意力机制实现，通过对输入的特征图生成空间分布上的权重，然后再与特征图加权求和，从而监督网络学习给人脸图像中与表情密切相关的不同区域分配不同的注意力(权重)，能够聚焦于人脸图像中与表情密切相关的目标区域的特征学习，从而改善深度残差网络的特征表征能力，进一步提高视频表情识别的性能。

为了实现上述目的，本发明采用以下技术方案：

一种基于深度残差注意力网络的视频表情识别方法，所述方法包括以下步骤：

S1、对视频样本进行视频数据预处理；

S2、采用深度残差注意力网络进行人脸图像的表情特征提取；

S3、对步骤S2中提取后的特征进行一定处理后再进行训练和测试，并输出最终的人脸表情的分类结果。

本发明方案采用空间注意力机制实现，采用深度残差注意力网络进行人脸图像的表情特征提取，从而监督网络学习给人脸图像中与表情密切相关的不同区域分配不同的注意力(权重)，能够聚焦于人脸图像中与表情密切相关的目标区域的特征学习，从而改善深度残差网络的特征表征能力，进一步提高视频表情识别的性能。

作为优选，所述步骤S1包括以下步骤：

S1.1、首先对每一个视频样本，筛选出峰值强度(apex)时期的图像帧；

S1.2、采用haar-cascades检测模型进行人脸检测。

作为优选，所述步骤S1.2中的人脸检测包括以下步骤：

步骤1、首先将输入的图片转为灰度图像，去除色彩干扰；

步骤2、设置搜索人脸框的大小，依次在输入图像中寻找人脸，找到人脸后截取后保存；

步骤3、根据两只眼睛之间的标准距离大小，从原始人脸表情图像中裁剪出包含嘴巴、鼻子、额头等关键表情部位的图像，作为深度残差注意力网络的输入。

作为优选，所述步骤S2包括以下步骤：

S2.1、建立深度残差注意力网络，并对预处理后的视频数据提取每一帧人脸图像的特征，建立视频情感数据集；

S2.2、利用其它数据集上预训练好的模型对所述的视频表情数据集进行微调训练。

微调被广泛用于计算机视觉中的转移学习，并缓解了数据不足的问题。

作为优选，所述深度残差注意力网络包括三个残差注意模块，所述残差注意模块包括主干分支和掩膜分支，所述主干分支包括残差单元。

由于单纯堆叠残差模块构成的网络结构在训练时梯度回传受阻，并且掩膜分支需要通过sigmoid激活函数输出权重归一化的特征图，再与主干分支特征图进行点积，这样特征图的输出响应会逐渐变小，以至于网络无法进行有效的训练，因此提出残差注意模块，可以促进神经网络提取更有效的人脸特征。

作为优选，所述步骤S2.2包括以下步骤：

步骤1、拷贝在cifar-10数据集上预训练好的深度残差注意力网络模型参数；

步骤2、将cifar-10的10类图像类别数目改为视频情感数据集的表情类别数目；

步骤3、使用反向传播算法重新训练该网络模型，以更新网络模型的权重参数；

步骤4、微调训练结束后，将深度残差注意力网络最后一层全连接层的输出作为学习到的高层次人脸表情特征，用于后续多层感知器的表情分类。

作为优选，所述步骤S2.2中微调训练的流程具体如下公式所示：

X＝{x_i(i＝1，2，...，N)} (1)

minH(P(x_i)，y_i)＝-∑_x(P(x_i)logy_i) (2)

其中：i代表该视频中的第i帧图片，x_i代表第i帧的人脸图像，y_i表示该视频的表情标签，H表示最小化损失函数，P(x_i)代表输入人脸图像x_i时网络模型的输出预测值。

作为优选，所述残差注意模块由如下公式表示：

其中，所述O_i，k，c(x)表示残差注意模块输出特征，T_i，k，c(x)表示主干分支征输出特征，S_i，k，c(x)∈[0，1]表示掩膜分支输出特征，(i，k)为特征的空间位置坐标，c∈{0，1，…，C}为特征通道的索引值。

作为优选，所述步骤S3包括以下步骤：完成视频中每一帧人脸图像的特征提取之后，对一个视频中所有帧图像学习到的注意力特征进行平均池化操作，计算出固定长度的全局性视频表情特征参数，将所述全局性视频表情特征参数输入到多层感知器进行训练和测试，获得人脸表情的分类结果。

本发明的有益效果是：通过对输入的特征图生成空间分布上的权重，然后再与特征图加权求和，从而监督网络学习给人脸图像中与表情密切相关的不同区域分配不同的注意力(权重)，能够聚焦于人脸图像中与表情密切相关的目标区域的特征学习，从而改善深度残差网络的特征表征能力，进一步提高视频表情识别的性能。

附图说明

图1是本发明的一种流程图。

图2是本发明的一种视频表情识别模型示意图。

图3是本发明BAUM-1s数据集中的一种人脸表情图像。

图4是本发明RML数据集中的一种人脸表情图像。

图5是本发明BAUM-1s数据集上获得最终识别结果的一种混淆矩阵图。

图6是本发明RML数据集上获得最终识别结果的一种混淆矩阵图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：本实施例的一种基于深度残差注意力网络的视频表情识别方法，如图1所示，包括以下步骤：

S1、对视频样本进行视频数据预处理；

步骤S1包括以下步骤：

S1.2、采用haar-cascades检测模型进行人脸检测；步骤S1.2中的人脸检测包括以下步骤：

步骤1、首先将输入的图片转为灰度图像，去除色彩干扰；

S2、采用深度残差注意力网络进行人脸图像的表情特征提取；步骤S2包括以下步骤：

如图2所示，深度残差注意力网络包括三个残差注意模块(attention module 1,2,3)，残差注意模块包括主干分支(trunk branch)和掩膜分支(soft mask branch)，其中主干分支由残差单元(residual unit)组成，主要用于提取人脸特征，而掩膜分支对残差单元使用自下而上(up-sample)的显著式注意力和自上而下(down-sample)的聚焦式注意力相结合的方式输出一个和主干分支特征维度大小相同的掩膜，该掩膜通过卷积(conv)和sigmoid函数输出权重归一化的特征图，再与主干分支的特征图进行点积(element-wiseproduce)，然而采用此种单纯堆叠残差注意模块构成的网络结构再训练时候梯度回传容易受阻，特征图的输出相应会变小，针对以上不足，受到残差网络中短接机制的启发，假设输入的人脸图片为x，残差注意模块由如下公式表示：

其中，残差注意模块输出特征为O_i，k，c(x)，主干分支输出特征为T_i，k，c(x)，掩膜分支输出特征为S_i，k，_c(x)∈[0，1]，其中(i，k)为特征的空间位置坐标，c∈{0，1，…，C}为特征通道的索引值。

残差注意模块中的掩膜分支提供的注意力可以促进神经网络提取更有效的人脸特征，此外，结合短接机制的思想，使得神经网络可以训练的更深，残差注意模块的堆叠方式使得神经网络能提炼出更有效的人脸特征。

本实施例中采用的深度残差注意力网络层数选择92层效果较好。

S2.2、由于视频情感数据集的样本比较少，直接用于训练深度残差注意力网络容易出现“过拟合”现象，故采用迁移学习的方法，利用其它数据集上预训练好的模型对视频表情数据集进行微调(fine-tuning)训练；本实施例采用的是在cifar-10图像数据集预先训练好的深度残差注意力网络模型，其中，该模型输入层的图片分辨率大小为32×32×32，最后一层全连接层的节点个数为1024。

步骤S2.2包括以下步骤：

微调训练的流程具体如下公式所示：

X＝{x_i|(i＝1，2，...，N)} (1)

minH(P(x_i)，y_i)＝-∑_x(P(x_i)logy_i) (2)

其中：i代表该视频中的第i帧图片，x_i代表第i帧的人脸图像，y_i表示该视频的表情标签，H表示最小化损失函数，P(x_i)代表输入人脸图像x_i时网络模型的输出预测值。这样，在视频情感数据集进行微调训练之后，深度残差注意力网络最后一层全连接层的输出(1024-D)作为学习到的高层次人脸表情特征，用于后续多层感知器(MLP)的表情分类。

S3、对步骤S2中提取后的特征进行一定处理后再进行训练和测试，并输出最终的人脸表情的分类结果：完成视频中每一帧人脸图像的特征提取之后，对一个视频中所有帧图像学习到的注意力特征进行平均池化操作，计算出固定长度(1024-D)的全局性视频表情特征参数，将全局性视频表情特征参数输入到多层感知器(MLP)进行训练和测试，获得人脸表情的分类结果。

使用的MLP的输入层节点等于1024，中间隐藏层有512个节点，输出层的节点数为视频情感数据集的类别数。

实验结果与分析：

采用两个公共的RML和BAUM-1s视频情感数据集用于评价本发明方法的视频表情识别性能。在深度残差注意力网络训练时，将batch的大小设为64，学习速率开始设为0.1，循环(epoch)次数达到10次，学习速率就降低10％，最大循环次数设为40。

实验平台为显存24GB的NVIDIA GPU，实验测试采用与测试对象无关的交叉验证方法。对于超过10个人的BAUM-1s数据集平均分成5组，进行5次交叉验证，而对于包含8个人的RML数据集则采用8次交叉验证，最后，取所有交叉验证结果的平均准确率作为实验的最终结果。

如图3所示，BAUM-1s数据集由31个人的8种基本表情组成，总共有1222个视频片段。本实验只采用其中的6种基本表情，分别为生气(Anger)，厌恶(Disgust)、害怕(Fear)、高兴(Joy)、悲伤(Sadness)和惊奇(Surprise)，共520个视频片段作为实验对象。视频中每帧图像的原始分辨率大小为720×576×3。

如图4所示，RML数据集由来自不同国家的8个人组成，该数据集共有720个视频片段，包含6种基本表情：生气(Anger)、厌恶(Disgust)、害怕(Fear)、高兴(Joy)、悲伤(Sadness)和惊奇(Surprise)，每个视频片段的时长约为5s，视频中每帧图像的原始分辨率大小为：

720×480×3。

为了测试深度残差注意力网络的性能，表1给出了与不带有注意力机制的ResNet和VGG16网络的性能比较。使用的ResNet也含有92层，与上述深度残差注意力网络的层数一致。由表1可知，本发明的方法在BAUM-1s和RML上分别取得了56.72％和68.50％的正确识别率，明显优于不带注意力机制的ResNet和VGG16，这说明在ResNet中添加注意力机制有助于提升该网络模型的特征表达能力。

数据集	ResNet	VGG16	Ours
				BAUM-1s	52.25％	51.01％	56.72％
RML	62.56％	64.04％	68.50％

表1不同网络模型的识别结果比较

为了进一步说明本方法的有效性，表2列出了本发明方法与现有文献报道中的方法取得的实验结果比较。从表2可知，本发明方法在BAUM-1s取得了56.72％的正确识别率，优于现有文献报道的识别性能。

表2与现有文献报道的结果比较

例如，Shiqing Zhang等人采用3D卷积神经网络(3D-CNN)在BAUM1-s数据集上提取特征进行表情识别取得了50.11％的正确识别率(见文献：Zhang S,Pan X,Cui Y,etal.Learning affective video features for facial expression recognition viahybrid deep learning.IEEE Access,2019,7:32297-32304)。Zhalehpour等人通过提取LPQ特征在BAUM-1s数据集上取得了45.04％的正确识别率(见文献：Zhalehpour S,OnderO,Akhtar Z,et al.BAUM-1:A spontaneous audio-visual face database of affectiveand mental states.IEEE Transactions on Affective Computing,2016,8(3):300-313)。潘仙张等人采用多模深度卷积神经网络在BAUM-1s数据集上提取的深度时空特征取得了52.18％的正确识别率(见文献：潘仙张,张石清,郭文平.多模深度卷积神经网络应用于视频表情识别.光学精密工程,2019,27(04):230-237)。同样，本发明的方法在RML数据集上取得了68.50％，也比其它文献报道的结果要好。例如，Elmadany等人通过提取Gaborwavelet特征在RML数据集上获得的正确识别率为64.58％(见文献：Elmadany N E D,He Y,Guan L.Multiview emotion recognition via multi-set locality preservingcanonical correlation analysis.2016IEEE International Symposium on Circuitsand Systems(ISCAS),2016:590-593)。潘仙张等人在RML数据集上提取的深度时空特征取得了65.72％的正确识别率。可见，通过与上述现有文献报道的方法比较，充分说明了本发明方法的优势。

为了更直观的观察到深度残差注意力网络对各种表情的识别情况，图5和图6分别给出了本发明方法在BAUM-1s和RML数据集上获得最终识别结果的混淆矩阵。由图4可见，高兴(Joy)和惊奇(Surprise)识别效果比较好，正确识别率分别为78.74％和83.67％，而生气(Anger)和害怕(Fear)识别准确率较低，分别为44.12％和42.5％。该两种表情容易被误判为悲伤(Sadness)，原因可能是这三种表情的区分度不高，造成网络模型误判。

由图5和图6可以看出，害怕(Fear)表情的识别性能最低，正确识别率为33.04％，而其它表情的识别效果较好，正确识别率超过70％。原因可能是RML数据集中害怕(Fear)表情的样本数目比其它表情样本数目少得多，致使网络模型无法较好地识别此类表情。

本发明在BAUM-1s和RML数据集上取得了较好的正确识别率，这表明结合空间注意力机制和残差网络可有效提高视频表情识别性能。

考虑到人脸图像中各局部区域情感表示强度方面的差异性，本发明提出一种基于深度残差注意力网络的视频表情识别方法，该方法采用空间注意力(权重)机制实现，具体是通过对输入的特征图生成空间分布上的权重，然后再与特征图加权求和，从而监督网络学习给人脸图像中与表情密切相关的不同区域分配不同的注意力(权重)。本发明能够聚焦于人脸图像中与表情密切相关的目标区域的特征学习，从而改善深度残差网络的特征表征能力，进一步提高视频表情识别的性能。

Claims

1.一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述方法包括以下步骤：

S1、对视频样本进行视频数据预处理；

2.根据权利要求1所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述步骤S1包括以下步骤：

S1.1、首先对每一个视频样本，筛选出apex时期的图像帧；

S1.2、采用haar-cascades检测模型进行人脸检测。

3.根据权利要求2所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述步骤S1.2中的人脸检测包括以下步骤：

步骤1、首先将输入的图片转为灰度图像，去除色彩干扰；

4.根据权利要求1所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述步骤S2包括以下步骤：

5.根据权利要求4所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述深度残差注意力网络包括三个残差注意模块，所述残差注意模块包括主干分支和掩膜分支，所述主干分支包括残差单元。

6.根据权利要求4所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述步骤S2.2包括以下步骤：

7.根据权利要求6所还的一种基于深度残差注意力网络的视朔表情识别万法，具特征在于，所述步骤S2.2中微调训练的流程具体如下公式所示：

X＝{x_i|(i＝1，2，...，N)} (1)

minH(P(x_i)，y_i)＝-∑_x(P(x_i)logy_i) (2)

8.根据权利要求5所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述残差注意模块由如下公式表示：

其中，所述

表示残差注意模块输出特征，

表示主干分支征输出特征，

表示掩膜分支输出特征，(i，k)为特征的空间位置坐标，c∈{0，1，…，C}为特征通道的索引值。

9.根据权利要求1所述的一种基于深度残差注意力网络的视频表情识别方法，其特征在于，所述步骤S3包括以下步骤：完成视频中每一帧人脸图像的特征提取之后，对一个视频中所有帧图像学习到的注意力特征进行平均池化操作，计算出固定长度的全局性视频表情特征参数，将所述全局性视频表情特征参数输入到多层感知器进行训练和测试，获得人脸表情的分类结果。