CN113076890B

CN113076890B - 基于改进的通道注意力机制的人脸表情识别方法及系统

Info

Publication number: CN113076890B
Application number: CN202110382828.8A
Authority: CN
Inventors: 潘沛生; 王珏
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2022-07-29
Anticipated expiration: 2041-04-09
Also published as: CN113076890A

Abstract

本发明公开了人脸表情识别技术领域的一种基于改进的通道注意力机制的人脸表情识别方法及系统，包括：采集人脸表情图像；将采集到的人脸表情图像输入基于改进的通道注意力机制的人脸表情识别模型中，输出表情类型。所述基于改进的通道注意力机制的人脸表情识别模型，包括依次设置的若干个处理单元、一个全连接层和一个Softmax层，每个所述处理单元包括一个基于小尺度卷积核的卷积层、一个改进的通道注意力机制模块和一个池化层。提高了人脸表情识别的准确率，基于改进的通道注意力机制的人脸表情识别模型具有更好的鲁棒性。

Description

基于改进的通道注意力机制的人脸表情识别方法及系统

技术领域

本发明属于人脸表情识别技术领域，具体涉及一种基于改进的通道注意力机制的人脸表情识别方法及系统。

背景技术

人脸表情识别一直是计算机视觉领域的研究热点之一。人脸表情识别是传递情感信息的重要方式，其在人机交互、推荐系统、医学研究等领域有着广泛的应用。

目前，人脸表情识别研究主要是基于传统的人工提取特征和基于深度学习这两种方法。传统的人工提取特征过于复杂且效率低，因此该方法逐步被基于深度学习的方法替代。目前大部分基于深度学习的人脸表情识别通过卷积神经网络学习面部表情特征，取得了不错的效果。但由于受年龄段不同、性别不同、生活背景等不同因素影响，每个人对同一种表情的诠释方式不一样，从而导致类内差异较大，不利于表情识别。现有的大多数卷积神经网络无法提取具有判别性的特征，不利于人脸表情识别算法准确率的提高。

发明内容

为解决现有技术中的不足，本发明提供一种基于改进的通道注意力机制的人脸表情识别方法及系统，提高了人脸表情识别的准确率，基于改进的通道注意力机制的人脸表情识别模型具有更好的鲁棒性。

为达到上述目的，本发明所采用的技术方案是：

第一方面，提供一种人脸表情识别方法，包括：采集人脸表情图像；将采集到的人脸表情图像输入基于改进的通道注意力机制的人脸表情识别模型中，输出表情类型。

进一步地，所述基于改进的通道注意力机制的人脸表情识别模型，包括依次设置的若干个处理单元、一个全连接层和一个Softmax层，每个所述处理单元包括一个基于小尺度卷积核的卷积层、一个改进的通道注意力机制模块和一个池化层。

进一步地，所述改进的通道注意力机制模块首先通过全局平均池化层和全局最大池化层分别对卷积特征图进行压缩，将压缩后的向量利用局部跨通道交互自主学习每层特征图的权重，得到两个具有权重分布的特征向量，再将这两个特征向量进行线性相加得到一个新的具有权重分布的特征向量，随后将该具有权重分布的特征向量送入Sigmoid激活函数，得到的输出值与输入的卷积特征图相乘，最终得到融合后的注意力特征图。

进一步地，所述基于改进的通道注意力机制的人脸表情识别模型采用ELU激活函数代替ReLU激活函数。

进一步地，所述ELU激活函数为：

其中，α表示超参数，α∈(0,1)。

第二方面，提供一种人脸表情识别系统，包括处理器和存储设备，所述存储设备中存储有多条指令，用于所述处理器加载并执行第一方面所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

(1)本发明通过基于改进的通道注意力机制的人脸表情识别模型识别人脸表情，在模型中嵌入改进的通道注意力机制模块，实现了增强有效信息的特征及抑制无效特征的目的，提高了人脸表情识别的准确率；基于改进的通道注意力机制的人脸表情识别模型具有更好的鲁棒性；

(2)本发明通过利用小尺度卷积核计算量少，可以搭建更深的网络的特性，实现了在使用更少参数的同时，保证较高的人脸表情识别准确率，小尺度卷积核的网络结构大大的降低了运算量，提高了效率；

(3)本发明通过采用ELU激活函数替换ReLU激活函数，从而达到正则化的效果并且提高模型的泛化能力，增加模型的鲁棒性。

附图说明

图1是本发明实施例提供的一种基于改进的通道注意力机制的人脸表情识别方法中公共数据集CK+中的部分图像；

图2是本发明实施例中基于小尺度卷积核的人脸表情识别模型的系统结构示意图；

图3是本发明实施例中基于改进的通道注意力机制的人脸表情识别模型的系统结构示意图；

图4是现有技术中通道注意力机制模块的系统结构示意图；

图5是本发明实施例中改进的通道注意力机制模块的系统结构示意图；

图6是基于小尺度卷积核的人脸表情识别算法的准确率；

图7是基于改进的通道注意力机制的人脸表情识别的准确率。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1～图5所示，一种基于改进的通道注意力机制的人脸表情识别方法，包括：采集人脸表情图像；将采集到的人脸表情图像输入基于改进的通道注意力机制的人脸表情识别模型中，输出表情类型。

本实施例中，基于改进的通道注意力机制的人脸表情识别模型如图3所示，包括依次设置的若干个处理单元、一个全连接层和一个Softmax层，每个处理单元包括一个基于小尺度卷积核的卷积层、一个改进的通道注意力机制模块和一个池化层。

将人脸表情图像输入基于小尺度卷积核的人脸表情识别的网络结构中，基于小尺度卷积核的人脸表情识别网络结构由6个3×3卷积的小尺度卷积层、6个池化层、一个全连接层和softmax层组成。小尺度卷积核用来提取人脸表情特征；池化层用来减小特征图的大小，本实施例中采用最大池化层；全连接层将前面提取到的表情特征加权求和得到每种表情的分数；softmax分类器的作用将全连接层得到的分数映射为概率，从而得到表情识别结果。

为了解决人脸表情类内差异大的问题，提出在小尺度卷积核的人脸表情识别模型中嵌入改进的通道注意力机制模块。在模型中的每个卷积层和池化层之间嵌入改进的通道注意力机制模块。改进的通道注意力机制模块首先通过全局平均池化层(global averagepooling,GAP)和全局最大池化层(global maximum pooling,GMP)分别对卷积特征图进行压缩，将压缩后的向量利用局部跨通道交互自主学习每层特征图的权重，得到两个具有权重分布的特征向量，再将这两个特征向量进行线性相加得到一个新的具有权重分布的特征向量，随后将具有权重分布的特征向量送入Sigmoid激活函数，得到的输出值与输入的卷积特征图相乘，最终得到具有融合后的注意力特征图。

现有的大多数卷积神经网络中采用ReLU激活函数，然而当其输入为负值时，输出均为0，在反向传播过程中，会出现神经坏死现象，不利于模型的稳定性。在本实施例中，基于改进的通道注意力机制的人脸表情识别模型在训练过程中均采用ELU激活函数代替ReLU激活函数，因为ELU激活函数输入为负值时，输出不为0，避免了神经坏死现象，进一步提高了模型的鲁棒性。

本实施例的具体实施过程如下：

(1)预处理CK+数据集中的图像，将人脸表情图像裁剪为96×96大小，如图1所示。由于CK+数据量过少，会造过拟合问题，因此，在训练阶段，本实施例随机在图像的左上角、左下角、右上角、右下角和中心进行切割为88×88大小的图像并做镜像操作，这样的操作可以使训练集增大10倍；

(2)构建基于小尺度卷积核的人脸表情识别模型。具体模型结构如图2所示：

基于小尺度卷积核的人脸表情识别网络结构由6个3×3卷积的小尺度卷积层、6个池化层、一个全连接层和softmax层组成。其中，每个小尺度卷积层的卷积核的个数分别为64，128，256，512，512，512，其中步长均为1。最大池化层的步长为2。人脸表情图像大小为88×88，将该图像输入网络结构，经过卷积层后，会得到64个88×88的特征图。这些特征图再通过最大池化层进行下采样得到44×44×64大小的特征图，再经过五个同样的卷积层和最大池化层的操作，输出1×1×512大小特征图，然后将特征图送入含有512个神经元的全连接层，输出1×512维的向量。最后通过softmax分类器得到表情识别的结果。

为了衡量该网络结构的计算复杂度，一般通过其参数量(空间复杂度)来表示，其计算公式为：

其中，i为卷积核的个数，K为卷积核的大小，I为输入表情图像的通道数目，O为输出表情图像的通道数目。通过计算，本实施例中采用的小尺度卷积核的表情识别网络结构的参数量约为6.2×10⁶，经典网络模型VGG16网络结构的参数量约为1.2×10²⁷。本实施例使用的参数量远远小于VGG16的参数量，因此本实施例提出的小尺度卷积核的网络结构大大的降低了运算量，提高了效率。

在公共数据集CK+上进行验证，基于小尺度卷积核的人脸表情识别算法的准确率达到了97.879％，各类表情准确率如图6所示。每种表情识别的准确率均在94％以上。其中开心准确率为100％，厌恶表情识别准确率为99％，惊讶、蔑视的表情识别准确率为98％，其次愤怒、伤心表情识别准确率为96％，害怕的表情识别准确率最低，为94％。

(3)嵌入改进的通道注意力机制模块。考虑到人脸表情的类内差异大，在(2)提出的模型的基础上嵌入改进的通道注意力机制模块。原先的通道注意力机制模块如图4所示。该模块对特征图进行压缩时，只采用了全局平均池化(global average pooling,GAP)进行压缩，会弱化卷积特征图中较大的值，从而忽略图像中部分表情图像的纹理信息。本发明提出的改进的通道注意力机制采用两种池化方式-全局平均池化(global average pooling,GAP)和全局最大池化(global maximun pooling,GMP)分别对人脸表情图像进行压缩，可以保留图像中更多的纹理特征。改进的通道注意力机制模型具体结构如图5所示。该模块的特征提取与融合步骤：

①将卷积特征图X作为原始输入，设X∈R^w×h×C，w，h，C分别表示卷积特征图的宽、高和通道数。为了能有有效提高通道注意力，将X在空间维度上进行压缩，同一通道的特征被压缩成一个实数，这一步可以通过池化的操作实现；

②并联两种池化方式，分别使用最大化池化函数和平均池化函数对X进行降维，得到两个1×1×C大小的特征向量，将这两个向量输入一个共享网络中以获取通道维数的注意力权重分布，共享网络是大小为k的快速一维卷积来捕获了跨通道交互信息；

③将重新分配注意力权重后的两个输出向量进行对应元素求个运算，并使用Sigmoid函数对合并后的特征向量进行映射，生成一个1×1×C维的通道注意力权重；

④将注意力权重与原特征图X进行特征融合，(即对应元素相乘的特征融合方式)，最终得到融合后的注意力特征图

然后将

替换X作为下一层的输入卷积特征图。

(4)ELU激活函数替换ReLU激活函数。传统的卷积神经网络在提取特征过程中一般采用ReLU激活函数，但其受限于其负值0针对这个问题。本方法提出在整个模型训练过程中采用ELU激活函数，公式如下所示：

其中，α表示超参数，α∈(0,1)，本实施例中，α取值为0.1。ELU具有如ReLU激活函数一样的正值特性，可以缓解梯度消失的问题，与ReLU不同的是，ELU有负值，且负值计算为指数函数，可以让激活单元输出的均值更接近0，从而达到正则化的效果并且提高模型的范围能力，增加模型的鲁棒性。

在公共数据集CK+上，经过实验验证，嵌入改进的通道注意力机制模型后，人脸表情识别算法准确率有效地提高至98.384％，各类表情准确率如图7所示。每种表情的准确率都非常高，均在95％以上，其中开心和蔑视的准确率为100％，厌恶、惊讶的准确率分别为99％，98％，其次，愤怒、悲伤的准确率均为97％，害怕的准确率为95％。

本实施例通过基于改进的通道注意力机制的人脸表情识别模型识别人脸表情，在模型中嵌入改进的通道注意力机制模块，实现了增强有效信息的特征及抑制无效特征的目的，提高了人脸表情识别的准确率；基于改进的通道注意力机制的人脸表情识别模型具有更好的鲁棒性；通过利用小尺度卷积核计算量少，可以搭建更深的网络的特性，实现了在使用更少参数的同时，保证较高的人脸表情识别准确率，小尺度卷积核的网络结构大大的降低了运算量，提高了效率；通过采用ELU激活函数替换ReLU激活函数，从而达到正则化的效果并且提高模型的泛化能力，增加模型的鲁棒性。

实施例二：

基于实施例一所述的基于改进的通道注意力机制的人脸表情识别方法，本实施例提供一种基于改进的通道注意力机制的人脸表情识别系统，包括处理器和存储设备，所述存储设备中存储有多条指令，用于所述处理器加载并执行实施例一所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种人脸表情识别方法，其特征是，包括：

采集人脸表情图像；

将采集到的人脸表情图像输入基于改进的通道注意力机制的人脸表情识别模型中，输出表情类型；

其中，所述基于改进的通道注意力机制的人脸表情识别模型，包括依次设置的若干个处理单元、一个全连接层和一个Softmax层，每个所述处理单元包括一个基于小尺度卷积核的卷积层、一个改进的通道注意力机制模块和一个池化层；

所述改进的通道注意力机制模块首先通过全局平均池化层和全局最大池化层分别对卷积特征图进行压缩，将压缩后的向量利用局部跨通道交互自主学习每层特征图的权重，得到两个具有权重分布的特征向量，再将这两个特征向量进行线性相加得到一个新的具有权重分布的特征向量，随后将该具有权重分布的特征向量送入Sigmoid激活函数，得到的输出值与输入的卷积特征图相乘，最终得到融合后的注意力特征图；

所述基于改进的通道注意力机制的人脸表情识别模型采用ELU激活函数代替ReLU激活函数；

所述ELU激活函数为：

其中，α表示超参数，α∈(0,1)。

2.一种人脸表情识别系统，其特征是，包括处理器和存储设备，所述存储设备中存储有多条指令，用于所述处理器加载并执行权利要求1所述方法的步骤。