CN112784764B

CN112784764B - 一种基于局部与全局注意力机制的表情识别方法及系统

Info

Publication number: CN112784764B
Application number: CN202110107862.4A
Authority: CN
Inventors: 卢官明; 徐志鹏; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2022-07-12
Anticipated expiration: 2041-01-27
Also published as: CN112784764A

Abstract

本发明公开了一种基于局部与全局注意力机制的表情识别方法及系统。该方法首先构建基于局部与全局注意力机制的神经网络模型，该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成；然后使用人脸表情图像库中的样本图像对神经网络模型进行训练；最后将待测试的人脸图像输入到训练好的神经网络模型进行表情识别。本发明使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征，以免丢失有鉴别力的表情特征；使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征，可以有效提高表情识别的准确率和鲁棒性。

Description

一种基于局部与全局注意力机制的表情识别方法及系统

技术领域

本发明属于图像处理与表情识别领域，具体涉及一种基于局部与全局注意力机制的表情识别方法及系统。

背景技术

人脸表情是人类表达内心情感的最重要的方式，在人际交往中发挥着非常重要的作用，人类通常是通过识别表情来理解对方的感受。虽然人类几乎可以不费任何力气就能识别面部表情，但计算机对表情的可靠识别仍然是一个巨大挑战。人脸表情识别技术目前主要的应用场景包括人机交互、安全、机器人制造、医疗、通信领域等。研究人脸表情识别可以使计算机像人类那样具有理解和表达情感的能力，可以推动人机交互技术的发展，让计算机可以更友好更人性化地为人类提供各种服务，对推动人工智能的发展也有重大的意义，是人工智能走向强人工智能的必经之路。

人类视觉注意力机制是指人类通过视觉快速扫描图像，寻找图像中需要重点关注的区域，即注意力焦点，并对这一重点关注区域投入更多的注意力资源，以获取更多所需要的细节信息，抑制其他无用信息的干扰。深度学习领域借鉴人类视觉注意力机制提出注意力机制，试图从图像中选择出对当前任务起更关键作用的信息，将有限的资源用于处理更重要的信息。

现有的人脸表情识别方法主要分为传统方法和深度学习方法。传统方法采用人工设计的特征来表征人脸表情图像，而人工设计的特征鲁棒性较低，通常可以在特定的人脸表情数据集上取得较高的表情分类准确率，但是在应用于真实场景时，由于受到姿态、光照、背景、遮挡等因素的干扰，这些传统方法往往不能有效地从人脸图像中提取具有鉴别力的表情特征，导致人脸表情识别准确率不高。已有的基于卷积神经网络的人脸表情识别方法大多是采用单一尺度的卷积核提取人脸表情特征，通过不断地增加卷积层加深网络结构来提高识别准确率，但是当神经网络模型达到一定的层数时，再通过增加卷积层不能达到提升识别准确率的目的；已有的基于注意力机制的人脸表情识别方法大多在计算权重时只使用最大池化提取特征图张量中的局部特征信息而没有充分地考虑特征图张量中的全局特征，使得计算得到的权重存在一定偏差。

发明内容

发明目的：针对现有人脸表情识别方法存在准确率低、鲁棒性差的问题，本发明的目的是提供一种基于局部与全局注意力机制的表情识别方法，通过使用多尺度特征提取模块来提取人脸图像中不同尺度的纹理特征，以免丢失有鉴别力的表情特征；使用空间域和通道域局部与全局注意力模块强化对表情识别起关键作用的更具鉴别力的特征，可以有效提高表情识别的准确率和鲁棒性。

技术方案：本发明为实现上述发明目的采用以下技术方案：

一种基于局部与全局注意力机制的表情识别方法，该方法包括以下步骤：

(1)构建基于局部与全局注意力机制的神经网络模型，该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成；

所述的浅层特征提取模块包含两个卷积层，用于提取人脸图像的浅层特征，输出特征图张量

其中w₁、h₁和f₁分别代表特征图张量T₁的宽度、高度和通道数；

所述的空间域局部与全局注意力模块包含两个独立并行的支路，分别在通道方向上使用最大池化和平均池化提取特征图张量T₁的局部特征和全局特征，并使用基于局部特征和全局特征的空间域注意力权重矩阵对特征图张量T₁进行加权运算，输出特征图张量

所述的残差网络模块由残差块和池化层构成，输出特征图张量

其中w₂、h₂和f₂分别代表特征图张量T₃的宽度、高度和通道数；

所述的多尺度特征提取模块包含n个独立并行的支路，分别采用不同大小的卷积核对特征图张量T₃进行卷积运算，输出n个特征图张量

并将所述的n个特征图张量拼接成特征图张量

其中1≤i≤n，2≤n≤5，w₃、h₃和f₃分别代表特征图张量K_i的宽度、高度和通道数；

所述的通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块，其中第一支路和第二支路分别包含两个并行的分支，分别用于在宽度方向上使用最大池化和平均池化提取特征图张量T₄的局部特征和全局特征，以及在高度方向上使用最大池化和平均池化提取特征图张量T₄的局部特征和全局特征；权重向量组合模块用于基于提取的局部特征和全局特征计算特征图张量T₄的通道域注意力权重，使用通道域注意力权重对特征图张量T₄进行加权运算，输出特征图张量

所述的全连接层对特征图张量T₅进行特征融合，输出特征向量Q；

所述的分类层对特征向量Q进行分类，输出人脸表情类别；

(2)使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练，保存训练好的神经网络模型；

(3)将待测试的人脸图像输入到训练好的神经网络模型进行表情识别，输出表情类别。

作为优选，所述的空间域局部与全局注意力模块包含两个独立并行的支路，其中一个支路先对特征图张量T₁在通道方向上进行最大池化操作，得到大小为w₁×h₁的特征图P₁，再将特征图P₁进行零填充操作和卷积运算，得到大小为w₁×h₁的局部特征图P₁'；另一个支路先对特征图张量T₁在通道方向上进行平均池化操作，得到大小为w₁×h₁的特征图P₂，再将特征图P₂进行零填充操作和卷积运算，得到大小为w₁×h₁的全局特征图P₂'；然后将上述两个并行支路输出的局部特征图P₁'和全局特征图P₂'进行叠加，得到大小为w₁×h₁的特征图P₃；接着将特征图P₃通过Sigmoid激活函数得到特征图张量T₁的空间域注意力权重矩阵W_S，W_S的大小为w₁×h₁；最后将特征图张量T₁与空间域注意力权重矩阵W_S进行点乘运算，输出特征图张量

作为优选，所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。

作为优选，所述的通道域局部与全局注意力模块具体结构如下：

第一支路包含两个并行的分支，其中一个分支对特征图张量T₄在宽度方向上进行最大池化操作，输出局部特征图张量

另一个分支对特征图张量T₄在宽度方向上进行平均池化操作，输出全局特征图张量

然后将上述两个并行分支输出的局部特征图张量M_W和全局特征图张量A_W输入到全连接层进行融合，输出特征图张量T₄在宽度方向上的权重向量L_W，权重向量L_W的维数为nf₃；

第二支路包含两个并行分支，其中一个分支对特征图张量T₄在高度方向进行最大池化操作，输出局部特征图张量

另一个分支对特征图张量T₄在高度方向上进行平均池化操作，输出全局特征图张量

然后将上述两个并行分支输出的局部特征图张量M_H和全局特征图张量A_H输入到全连接层进行融合，输出特征图张量T₄在高度方向上的权重向量L_H，权重向量L_H的维数为nf₃；

权重向量组合模块将权重向量L_W和L_H进行组合，得到维数为nf₃的权重向量L，接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量W_C，再将特征图张量T₄与通道域注意力权重向量W_C进行点乘运算，输出特征图张量

基于相同的发明构思，本发明公开的一种基于局部与全局注意力机制的表情识别系统，包括：

网络模型构建模块，用于构建基于局部与全局注意力机制的神经网络模型，该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成；

并将所述的n个特征图张量拼接成特征图张量

所述的分类层对特征向量Q进行分类，输出人脸表情类别；

模型训练模块，用于使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练，保存训练好的神经网络模型；

以及表情识别模块，用于将待测试的人脸图像输入到训练好的神经网络模型进行表情识别，输出表情类别。

基于相同的发明构思，本发明公开的一种基于局部与全局注意力机制的表情识别系统，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的一种基于局部与全局注意力机制的表情识别方法。

有益效果：本发明提出一种基于局部与全局注意力机制的表情识别方法及系统，主要具有以下优势：

(1)本发明将人类视觉系统中的选择性注意机制引入到基于卷积神经网络的人脸表情识别系统中，利用深度卷积神经网络自适应地选择特征图中对人脸表情识别较为重要的显著性区域，为这些显著性区域赋予相对较高的权重。不同于常规的空间域注意力机制模块只采用最大池化或平均池化操作，本发明使用的空间域局部与全局注意力模块在特征图张量的通道方向上同时采用了最大池化和平均池化操作，最大池化操作能够自适应地为显著性的边缘轮廓等局部特征赋予相对较高的权重，平均池化操作能够自适应地为显著性区域全局特征赋予相对较高的权重，将最大池化和平均池化进行结合可以自适应地从完整的人脸表情图像和人脸部件(例如：眼睛、嘴巴等)区域中学习有鉴别力的全局特征和局部特征。

(2)本发明使用的多尺度特征提取模块采用了多个不同大小的卷积核来提取不同尺度感受野内的视觉特征，融合了通过多尺度卷积操作学习到的更多有用的表情特征，从而挖掘这些表情特征内在的相关性，通过深度学习层次化连接的特性学习高度抽象化的语义特征，利用可鉴别性和鲁棒性较高的语义特征提升人脸表情识别的准确率和鲁棒性。

(3)本发明使用的多尺度特征提取模块在每个支路上均使用两个级联的一维卷积操作来替代二维卷积操作，可以有效减少深度卷积神经网络模型的参数规模，提升算法效率。

(4)与空间域局部与全局注意力模块类似，本发明使用的通道域局部与全局注意力模块在特征图张量的高度、宽度方向上也分别同时采用了最大池化和平均池化操作，利用特征图张量中通道域与空间域特征的关联性来计算通道域注意力权重，强化特征图张量中重要通道的全局特征和局部特征在表情识别任务中所起的作用。

(5)本发明先使用空间域局部与全局注意力模块学习特征图中不同位置特征的注意力权重，从浅层的特征图张量中选择重要的显著性区域全局特征和边缘轮廓等局部特征，弱化或抑制那些非显著性区域特征对后续操作的干扰；再使用多尺度特征提取模块从重要的空间域特征中提取多个通道的不同尺度特征，挖掘更多有用的表情特征，以免丢失有鉴别力的表情特征；然后使用通道域局部与全局注意力模块学习每个特征图对表情识别任务的相关性权重，从多尺度特征提取模块输出的特征图张量中选择重要通道的全局特征和局部特征，弱化或抑制那些无关通道冗余信息对表情识别产生的不利影响；最后利用有效的特征融合方法将两种加权之后的特征进行融合，得到更具鉴别力的特征，可以有效提高表情识别的准确率和鲁棒性。

附图说明

图1是本发明实施例的方法流程图。

图2是本发明实施例中的空间域局部与全局注意力模块的结构图。

图3是本发明实施例中的多尺度特征提取模块的结构图。

图4是本发明实施例中的通道域局部与全局注意力模块的结构图。

具体实施方式

下面结合附图和具体实施例对本发明的方案做进一步说明。

本发明针对基于神经网络和注意力机制的人脸表情识别领域现存的技术难题，设计一种局部与全局注意力模块，同时使用最大池化和平均池化提取特征图张量的局部特征和全局特征，通过利用局部特征和全局特征计算出更合理的权重，并对特征图张量进行加权，从而强化神经网络模型重点学习特征图张量中具有鉴别力的特征；使用多支路结构加深神经网络模型的宽度，各支路使用不同大小的卷积核提取人脸图像所包含的多种不同尺度的纹理特征以免丢失有鉴别力的表情特征。

本发明实施例公开的一种基于局部与全局注意力机制的表情识别方法，主要包括如下步骤：

步骤1，构建基于局部与全局注意力机制的神经网络模型，如图1所示，该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成；

浅层特征提取模块包含两个卷积层，用于提取人脸图像的浅层特征，其中第一个卷积层采用32个大小为7×7的卷积核进行卷积运算，第二个卷积层采用f₁个大小为m₁×m₁的卷积核进行卷积运算，输出特征图张量

其中w₁、h₁和f₁分别代表特征图张量的宽度、高度和通道数，f₁在32、64、128、256数值中选取，m₁在3、5、7、9数值中选取；

如图2所示，空间域局部与全局注意力模块包含两个独立并行的支路，其中一个支路先对特征图张量T₁在通道方向上进行最大池化操作，得到大小为w₁×h₁的特征图P₁，再将特征图P₁进行零填充操作，并采用一个大小为m₂×m₂的卷积核对特征图P₁进行步长为1的卷积运算，得到大小为w₁×h₁的特征图P₁'，将特征图P₁'以矩阵形式表示：

其中，m₂在3、5、7、9数值中选取，a_i,j表示特征图P₁'中第i行、第j列的元素，i＝1,2,3,...,w₁，j＝1,2,3,...,h₁；

另一个支路先对特征图张量T₁在通道方向上进行平均池化操作，得到大小为w₁×h₁的特征图P₂，再将特征图P₂进行零填充操作，并采用一个大小为m₂×m₂的卷积核对特征图P₂进行步长为1的卷积运算，得到大小为w₁×h₁的特征图P₂'，将特征图P₂'以矩阵形式表示：

其中，m₂在3、5、7、9数值中选取，b_i,j表示特征图P₂'中第i行、第j列的元素，i＝1,2,3,...,w₁，j＝1,2,3,...,h₁；

然后将上述两个并行支路输出的特征图P₁'和特征图P₂'进行叠加，得到大小为w₁×h₁的特征图P₃，将特征图P₃以矩阵形式表示：

其中，c_i,j表示特征图P₃中第i行、第j列的元素，c_i,j＝(a_i,j+b_i,j)，i＝1,2,3,...,w₁，j＝1,2,3,...,h₁；

接着将特征图P₃通过Sigmoid激活函数得到特征图张量T₁的空间域注意力权重矩阵W_S，W_S的大小为w₁×h₁；最后将特征图张量T₁与空间域注意力权重矩阵W_S进行点乘运算，输出特征图张量

残差网络模块由r个残差块和(r-1)个池化层构成，其中第1个残差块对特征图张量T₂进行特征提取输出特征图张量R₁，第1个池化层对特征图张量R₁进行池化操作输出特征图张量R′₁，…，第(r-1)个残差块对第(r-2)个池化层输出的特征图张量R′_r-2进行特征提取输出特征图张量R_r-1，第(r-1)个池化层对特征图张量R_r-1进行池化操作输出特征图张量R′_r-1，第r个残差块采用f₂个大小为m₃×m₃的卷积核对特征图张量R′_r-1进行卷积运算，输出特征图张量

其中r在3、4、5、6、7、8数值中选取，f₂在64、128、256、512数值中选取，m₃在3、5、7、9数值中选取；

如图3所示，多尺度特征提取模块包含n个独立并行的支路，第i个支路由两个卷积层构成，第一个卷积层采用f₃个大小为1×k_i的卷积核进行一维卷积运算，第二个卷积层采用f₃个大小为k_i×1的卷积核进行一维卷积运算，n个支路分别采用不同大小的卷积核对特征图张量T₃进行卷积运算，输出n个特征图张量

并将n个特征图张量拼接成特征图张量

其中1≤i≤n，2≤n≤5，k_i在1、3、5、7、9数值中选取，f₃在128、256、512、1024数值中选取；

如图4所示，通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块，具体结构如下：

然后将上述两个并行分支输出的局部特征图张量M_W和全局特征图张量A_W输入到全连接层进行融合，输出特征图张量T₄在宽度方向上的权重向量L_W，

权重向量L_W的维数为nf₃；

然后将上述两个并行分支输出的局部特征图张量M_H和全局特征图张量A_H输入到全连接层进行融合，输出特征图张量T₄在高度方向上的权重向量L_H，

权重向量L_H的维数为nf₃；

权重向量组合模块将权重向量L_W和L_H进行组合，得到维数为nf₃的权重向量L，

接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量W_C，再将特征图张量T₄与通道域注意力权重向量W_C进行点乘运算，输出特征图张量

全连接层对特征图张量T₅进行特征融合，输出f₄维的特征向量Q，其中f₄在256、512、1024、2048数值中选取；

分类层使用Softmax分类器对特征向量Q分类，输出人脸表情类别；

步骤2，使用人脸表情图像库中的样本图像对基于局部与全局注意力机制的神经网络模型进行训练，保存训练好的神经网络模型；

步骤3，将待测试的人脸图像输入到训练好的神经网络模型进行表情识别，输出表情类别。

下面结合本发明实施例在RAF-DB表情图像库上的应用，对基于局部与全局注意力机制的神经网络模型的构建做详细说明。本示例中采用RAF-DB表情图像库，将数据集中的人脸图像大小归一为64×64像素。

构建的基于局部与全局注意力机制的神经网络模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和Softmax分类层依次连接构成，将该模型输入图像的大小固定为64×64；

浅层特征提取模块包含两个卷积层，用于提取人脸图像的浅层特征，其中第一个卷积层采用32个大小为7×7的卷积核进行步长为1的卷积运算，第二个卷积层采用64个大小为3×3的卷积核进行步长为2的卷积运算，输出特征图张量

其中32、32和64分别代表特征图张量的宽度、高度和通道数；

空间域局部与全局注意力模块包含两个独立并行的支路，其中一个支路先对特征图张量T₁在通道方向上进行最大池化操作，得到大小为32×32的特征图P₁，再将特征图P₁进行零填充操作，并采用一个大小为3×3的卷积核对特征图P₁进行步长为1的卷积运算，得到大小为32×32的特征图P₁'，将特征图P₁'以矩阵形式表示：

其中，a_i,j表示特征图P₁'中第i行、第j列的元素，i＝1,2,3,...,32，j＝1,2,3,...,32；

另一个支路先对特征图张量T₁在通道方向上进行平均池化操作，得到大小为32×32的特征图P₂，再将特征图P₂进行零填充操作，并采用一个大小为3×3的卷积核对特征图P₂进行步长为1的卷积运算，得到大小为32×32的特征图P₂'，将特征图P₂'以矩阵形式表示：

其中，b_i,j表示特征图P₂'中第i行、第j列的元素，i＝1,2,3,...,32，j＝1,2,3,...,32；

然后将上述两个并行支路输出的特征图P₁'和特征图P₂'进行叠加，得到大小为32×32的特征图P₃，将特征图P₃以矩阵形式表示：

其中，c_i,j表示特征图P₃中第i行、第j列的元素，c_i,j＝(a_i,j+b_i,j)，i＝1,2,3,...,32，j＝1,2,3,...,32；

接着将特征图P₃通过Sigmoid激活函数得到特征图张量T₁的空间域注意力权重矩阵W_S，W_S的大小为32×32；最后将特征图张量T₁与空间域注意力权重矩阵W_S进行点乘运算，输出特征图张量

残差网络模块由3个残差块和2个池化层构成，具体结构如下：

第1个残差块包含两个卷积层，对特征图张量T₂进行卷积计算，其中第一个卷积层采用64个大小为3×3的卷积核进行步长为1的卷积运算，第二个卷积层采用64个大小为3×3的卷积核进行步长为1的卷积运算，再经过恒等映射输出特征图张量

第1个池化层使用128个大小为3×3的池化核对特征图张量R₁进行步长为2的最大池化操作，输出特征图张量

第2个残差块包含两个卷积层，对特征图张量R′₁进行卷积计算，其中第一个卷积层采用128个大小为3×3的卷积核进行步长为1的卷积运算，第二个卷积层采用128个大小为3×3的卷积核进行步长为1的卷积运算，再经过恒等映射输出特征图张量

第2个池化层使用256个大小为3×3的池化核对特征图张量R₂进行步长为2的最大池化操作，输出特征图张量

第3个残差块包含两个卷积层，对特征图张量R′₂进行卷积计算，其中第一个卷积层采用256个大小为3×3的卷积核进行步长为1的卷积运算，第二个卷积层采用256个大小为3×3的卷积核进行步长为1的卷积运算，再经过恒等映射输出特征图张量

多尺度特征提取模块包含3个独立并行的支路，各支路分别对特征图张量T₃进行卷积运算，具体结构如下：

第1个支路包含两个卷积层对特征图张量T₃进行卷积运算，其中第一个卷积层采用512个大小为1×3的卷积核进行步长为2的一维卷积运算，第二个卷积层采用512个大小为3×1的卷积核进行步长为2的一维卷积运算，输出特征图张量

第2个支路包含两个卷积层对特征图张量T₃进行卷积运算，其中第一个卷积层采用512个大小为1×5的卷积核进行步长为2的一维卷积运算，第二个卷积层采用512个大小为5×1的卷积核进行步长为2的一维卷积运算，输出特征图张量

第3个支路包含两个卷积层对特征图张量T₃进行卷积运算，其中第一个卷积层采用512个大小为1×7的卷积核进行步长为2的一维卷积运算，第二个卷积层采用512个大小为7×1的卷积核进行步长为2的一维卷积运算，输出特征图张量

将上述3个独立并行的支路输出的特征图张量K₁、K₂、K₃拼接成特征图张量

通道域局部与全局注意力模块包含第一支路、第二支路和权重向量组合模块，具体结构如下：

然后将上述两个并行分支输出的局部特征图张量M_W和全局特征图张量A_W输入到全连接层进行融合，输出特征图张量T₄在宽度方向上的权重向量L_W，L_W＝[ρ₁,ρ₂,...,ρ₁₅₃₆]；

然后将上述两个并行分支输出的局部特征图张量M_H和全局特征图张量A_H输入到全连接层进行融合，输出特征图张量T₄在高度方向上的权重向量L_H，L_H＝[σ₁,σ₂,...,σ₁₅₃₆]；

权重向量组合模块将权重向量L_W和L_H进行组合，得到权重向量L，L＝[ω₁,ω₂,...,ω₁₅₃₆]＝[ρ₁+σ₁,ρ₂+σ₂,...,ρ₁₅₃₆+σ₁₅₃₆]，接着将权重向量L通过Sigmoid激活函数得到通道域注意力权重向量W_C，再将特征图张量T₄与通道域注意力权重向量W_C进行点乘运算，输出特征图张量

全连接层对特征图张量T₅进行特征融合，输出1024维的特征向量Q；

分类层使用Softmax分类器对特征向量Q分类，输出人脸表情类别。

基于相同的发明构思，本发明实施例公开的一种基于局部与全局注意力机制的表情识别系统，包括：

网络模型构建模块，用于构建基于局部与全局注意力机制的神经网络模型，该模型由浅层特征提取模块、空间域局部与全局注意力模块、残差网络模块、多尺度特征提取模块、通道域局部与全局注意力模块、全连接层和分类层构成；具体结构详见上述方法实施例；

基于相同的发明构思，本发明实施例公开的一种基于局部与全局注意力机制的表情识别系统，包括至少一台计算设备，该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的一种基于局部与全局注意力机制的表情识别方法。

Claims

1.一种基于局部与全局注意力机制的表情识别方法，其特征在于，该方法包括以下步骤：

并将所述的n个特征图张量拼接成特征图张量

所述的分类层对特征向量Q进行分类，输出人脸表情类别；

2.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法，其特征在于，所述的空间域局部与全局注意力模块包含两个独立并行的支路，其中一个支路先对特征图张量T₁在通道方向上进行最大池化操作，得到大小为w₁×h₁的特征图P₁，再将特征图P₁进行零填充操作和卷积运算，得到大小为w₁×h₁的局部特征图P₁'；另一个支路先对特征图张量T₁在通道方向上进行平均池化操作，得到大小为w₁×h₁的特征图P₂，再将特征图P₂进行零填充操作和卷积运算，得到大小为w₁×h₁的全局特征图P₂'；然后将上述两个并行支路输出的局部特征图P₁'和全局特征图P₂'进行叠加，得到大小为w₁×h₁的特征图P₃；接着将特征图P₃通过Sigmoid激活函数得到特征图张量T₁的空间域注意力权重矩阵W_S，W_S的大小为w₁×h₁；最后将特征图张量T₁与空间域注意力权重矩阵W_S进行点乘运算，输出特征图张量

3.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法，其特征在于，所述的多尺度特征提取模块每个支路由两个进行一维卷积运算的卷积层构成。

4.根据权利要求1所述的一种基于局部与全局注意力机制的表情识别方法，其特征在于，所述的通道域局部与全局注意力模块具体结构如下：

5.一种基于局部与全局注意力机制的表情识别系统，其特征在于，包括：

并将所述的n个特征图张量拼接成特征图张量

所述的分类层对特征向量Q进行分类，输出人脸表情类别；

6.一种基于局部与全局注意力机制的表情识别系统，其特征在于，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的一种基于局部与全局注意力机制的表情识别方法。