CN112541409B

CN112541409B - 一种融入注意力的残差网络表情识别方法

Info

Publication number: CN112541409B
Application number: CN202011374602.5A
Authority: CN
Inventors: 谭志; 史志博
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-09-14
Anticipated expiration: 2040-11-30
Also published as: CN112541409A

Abstract

本发明提供的一种融入注意力的残差网络表情识别方法，对原CBAM进行优化改进，在获取通道重要度权重的策略上，采用特征融合训练的方法，提升了模型的拟合能力，增强了关键性通道特征的表示。将改进后的CBAM融入到ResNet模型的残差学习模块中，与特征提取层以先后串行结构融合构建了新的网络模型RARNet，将注意力模块融入到残差结构中，通过残差网络的捷径连接，避免了因网络深度的加深而出现的网络退化的情况。该模型加深了对表情判别性特征的表示，抑制了不必要特征，以小参数量的增加提升了对表情的特征提取性能。改进后的CBAM属于轻量级结构，RARNet以较小参数量的增加在FER2013和CK+数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

Description

一种融入注意力的残差网络表情识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种融入注意力的残差网络表情识别方法。

背景技术

人脸表情识别是图像识别领域的研究热点，表情是人类情感表达的一种重要方式，表情识别技术是实现人机交互和人工智能的基础，具有很大研究价值。人脸表情识别方法主要分为人脸检测、特征提取和分类识别三个步骤，特征提取是表情识别过程中重要一环，提取出更好表现表情信息的特征是提升人脸表情识别精度的关键。传统的人工设计的表情特征提取方法，设计复杂，很难提取图像的高阶特征，易受干扰且不稳定。

随着深度学习的发展，基于深度学习的表情特征提取方法被广泛应用。为了适应复杂的应用场景，更多的深度神经网络模型被提出，如AlexNet、VGGNet、GooLeNet、ResNet、DenseNet等，比传统的表情识别方法具有更好的效果。但是随着网络的加深，也会出现梯度不稳定，网络退化和参数量越来越大的问题。研究学者通过改良网络模型和融合其他算法的方式去提升表情识别性能，但取得的效果甚微。

近年来，注意力机制的飞速发展为表情识别的研究提供了新思路，其中，Woo等提出了一个简单但有效的卷积块注意力模块(Convolutional Block Attention Module，CBAM)，给定一个中间特图，通过空间和通道两个维度依次推断出注意力权重，然后与原特征图相乘来对特征进行自适应调整，加深关键性特征的表示，提升了特征提取能力；又因为CBAM是一个轻量级的通用模块，参数量较小，在不同的分类和检测数据集上，将CBAM集成到不同的模型中后，以较小参数量的增加，模型的表现都有了一定的提升。CBAM机制分为五步。第一步，先将输入特征图经过通道注意力模块提取用以表达通道重要度的通道注意力系数。在通道注意力模块，每一个通道都作为对人脸表情图片的特征提取器，通道注意力作用是择取有意义的特征。为了汇集空间特征，对输入的特征图压缩空间维数，分别采用全局平均池化和最大池化的方式进行压缩，通过全局最大池化弥补全局平均池化丢失的一部分重要特征。将得到的两部分特征图分别放入一个含有一个隐藏层的多层感知机中分别计算，简化计算量，将分别得到的两组特征图融合后作为整个通道注意力模块的输出；第二步，将通道注意力系数与原特征图相乘得到增强了通道重要度的特征图；第三步，将增强了通道重要度的特征图经过空间注意力模块提取用以表达空间重要度的空间注意力系数。在空间注意力模块，主要用来提取特征图内部空间的关系，运算出那一小部分特征需要被重点关注，是对通道注意力模块的补充，在通道轴做池化操作以突显有效特征区域，再经过卷积操作和激活后生成表达空间关键性特征的空间注意力系数；第四步，将空间注意力模块的输入特征与空间注意力系数相乘得到CBAM最后的输出特征。第五步，把CBAM嵌入到残差网络每个block后面，通过该网络对训练集和验证集进行权重的训练和不同标签数据的分类。

发明内容

本发明的实施例提供了一种融入注意力的残差网络表情识别方法，用于解决现有技术中的如下技术问题：

在通道注意力模块的多层感知机中，每个神经元会根据经过的每组特征前后进行参数计算调整，并且容易倾向于后输入的特征。在共享权重的情况下，若将两组特征经过同一MLP中去训练权重的话，会出现顾此失彼的情况；

在网络构建中，将注意力模块置于残差结构后，会使加入的激活函数影响通过捷径连接反向传播的梯度，出现由于网络层冗余使梯度不断减小和退化问题。

为了实现上述目的，本发明采取了如下技术方案。

一种融入注意力的残差网络表情识别方法，包括将特征图输入到卷积块注意力模块中进行处理和将卷积块注意力模块融入到残差学习网络中进行训练；

将特征图输入到卷积块注意力模块中进行处理包括：

S1获取特征图，通过通道注意力模块处理该特征图，获得通道注意力权重系数；通道注意力模块中具有第一拼接融合器，用于将池化处理后的特征图在进行权重训练之前进行拼接融合处理；

S2将特征图与通道注意力权重系数相乘，获得通道维度关键信息特征图；

S3通过空间注意力模块处理该通道维度关键信息特征图，获得空间注意力权重系数；

S4将空间注意力权重系数与通道维度关键信息特征图相乘，获得空间位置关键信息特征图；

将卷积块注意力模块融入到残差学习网络中进行训练包括：

S5将卷积块注意力模块与残差学习网络中的特征提取层进行融合，分别构建下采样卷积模块和残差注意力模块，通过该下采样卷积模块和残差注意力模块训练卷积块注意力模块，获得特征图表情识别结果。

优选地，步骤S1具体包括：

S11将特征图分别通过第一全局平均池化层和第一最大池化层进行压缩，获得第一池化特征和第二池化特征；

S12将该第一池化特征和第二池化特征通过第一拼接融合器进行拼接融合，获得第一融合特征；

S13将该第一融合特征通过多层感知机进行降维升维处理，再通过Sigmoid函数进行激活处理，获得通道注意力权重系数。

优选地，通过多层感知机进行降维升维处理包括：

将第一融合特征输入第一FC层，通过Y₀＝W₀×X(3)进行降维处理，获得降维后的第一融合特征Y₀；式中，X为第一融合特征，W₀为第一FC层的权重；

将该降维后的第一融合特征Y₀输入第二FC层，通过Y₁＝W₁×Y₀(4)进行升维处理，获得输出特征Y₁。

优选地，通道注意力模块的处理过程包括

N_C(A)＝σ(MLP([MaxPool(A)；AvgPool(A)]) (2)；

式中，[MaxPool(A)；AvgPool(A)]为融合特征，N_C(A)为通道注意力权重系数。

优选地，步骤S2包括：

S21通过

获得通道维度关键信息特征图。

优选地，步骤S3包括：

S31将通道维度关键信息特征图分别通过第二全局平均池化层和第二最大池化层进行压缩，获得第三池化特征和第四池化特征；

S32将该第三池化特征和第四池化特征通过第二拼接融合器进行拼接融合，获得第二融合特征；

S33将该第二融合特征进行卷积压缩，再通过Sigmoid函数进行激活处理，获得空间注意力权重系数。

优选地，空间注意力模块的处理过程包括：

N_S(A′)＝σ(f^7*7([MaxPool(A′)；AvgPool(A′)]) (5)；

式中，σ是sigmoid激活函数，f表示卷积操作，7*7是卷积核大小，N_s(A′)为空间注意力权重系数。

优选地，步骤S4具体包括：

S41通过

获得空间位置关键信息特征图。

优选地，构建下采样卷积模块的过程包括：

S51将卷积块注意力模块的输出依次通过残差学习网络中的三个卷积层进行卷积操作；

S52对特征图通过一个卷积层进行卷积操作；

S53将S51和S52的处理结果进行加和运算，再进行一次Relu函数处理；

构建残差注意力模块的过程包括：

S54将卷积块注意力模块的输出依次通过残差学习网络中的三个卷积层进行卷积操作；

S55将S54的处理结果结合特征图进行加和运算，再进行一次Relu函数处理。

由上述本发明的实施例提供的技术方案可以看出，本发明提供的一种融入注意力的残差网络表情识别方法，对原CBAM进行优化改进，在获取通道重要度权重的策略上，采用特征融合训练的方法，提升了模型的拟合能力，增强了关键性通道特征的表示。将改进后的CBAM融入到ResNet模型的残差学习模块中，与特征提取层以先后串行结构融合构建了新的网络模型RARNet，将注意力模块融入到残差结构中，通过残差网络的捷径连接，避免了因网络深度的加深而出现的网络退化的情况。该模型加深了对表情判别性特征的表示，抑制了不必要特征，以小参数量的增加提升了对表情的特征提取性能。改进后的CBAM属于轻量级结构，RARNet以较小参数量的增加在FER2013和CK+数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种融入注意力的残差网络表情识别方法的处理流程图；

图2为CBAM的基本架构图；

图3为本发明提供的一种融入注意力的残差网络表情识别方法中改进后的通道注意力模块架构图；

图4为本发明提供的一种融入注意力的残差网络表情识别方法中空间注意力模块架构图；

图5为残差学习模块的基本架构图；

图6为本发明提供的一种融入注意力的残差网络表情识别方法中DSCM和RAM的架构图；

图7为本发明提供的一种融入注意力的残差网络表情识别方法中CK+数据集预处理样例图；

图8为本发明提供的一种融入注意力的残差网络表情识别方法中RARNet架构图；

图9为本发明提供的一种融入注意力的残差网络表情识别方法中不同模型的Acc和Loss变化趋势图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

参见图1，本发明提供的一种融入注意力的残差网络表情识别方法，主要包括将特征图输入到卷积块注意力模块(CBAM)中进行处理和将卷积块注意力模块融入到残差学习网络中进行训练两个过程。

其中的将特征图输入到卷积块注意力模块中进行处理包括：

S4将空间注意力权重系数与通道维度关键信息特征图相乘，获得空间位置关键信息特征图。

在本发明提供的实施例中，采用了一种改进的卷积块注意力模块(CBAM)。CBAM主要由通道注意力和空间注意力的串行结构组成，基本架构如图2所示。神经网络先通过通道注意力模块学习什么特征是关键特征，再利用空间注意模块学习到关键特征在哪里，加强图像判别性特征的获取，并对特征进行自适应性的细化功效。

卷积神经网络深层特征的通道图可以看作是对不同语义特征的响应，并且之间相互关联，通道注意力可以发掘通道图之间的依赖关系。事实上，特征图的各个通道重要性是不一样的，通过赋予权值的方式提取每个通道特征对关键信息的重要程度，有选择性的去关注权重值大的信息，增强判别性语义的特征表示，提升特征分类性能。

现有技术中CBAM的处理过程如下：通道注意力模块把输入大小为H*W*C的特征图A分别经过基于W和H的全局平均池化和最大池化进行压缩，把压缩后的两部分特征分别放入含有一个隐藏层的多层感知机MLP(Multi-Layer Perceptron，MLP)中作降维升维操作，并提取用以表达通道重要度的权值向量，将经MLP处理后的输出特征作求和运算，再通过Sigmoid激活，生成最后的通道注意力加权系数，如式(1)所示。

N_C(A)＝σ(MLP(AvgPool(A))+MLP(MaxPool(A))) (1)

其中σ表示Sigmoid激活函数，W₀和W₁是多层感知机中的两层FC层权重，中间包含有隐藏层和Relu激活函数。将通道注意力权重系数N_C(A)和该模块的输入特征A做掩膜运算后，得到通道注意力细化后的特征，即串行后的空间注意力模块的特征输入。

申请人发现，在神经网络训练过程中，每个神经元会根据经过的每组特征前后进行参数计算调整，并且容易倾向于后输入的特征。在共享权重的情况下，若将两组特征经过同一MLP中去训练权重的话，会出现左支右绌的情况。为了解决上述问题，在本发明的优选实施例中，提供一种优化改进的CBAM，其基本架构如图3所示，具体处理过程如下：

S13将该第一融合特征通过多层感知机进行降维升维处理，再通过Sigmoid函数进行激活处理，获得通道注意力权重系数。该降维升维处理过程具体包括：

进一步的，通道注意力模块的处理过程通过式

N_C(A)＝σ(MLP([MaxPool(A)；AvgPool(A)]) (2)表示。

若将两组池化特征分别经过MLP训练权重，输入特征X∈R^C×1×1，输出Y₀∈R^C/r×1×1和Y₁∈R^C×1×1，则训练得到的权重为W₀∈R^C/r×C,W₁∈R^C×C/r。而将两组特征做特征融合后再训练，此时特征输入X′∈R^2C×1×1，两个FC层的输出为Y′₀∈R^C/r×1×1，Y′₁∈R^C×1×1，得到的训练权重为W′₀∈R^C/r×2C,W′₁∈R^C×C/r。

虽然改进前后提取到的表示通道重要度的权值向量维度相同，然而经过特征融合后再去训练的第一个FC层的权重W′₀的参数量比W₀更多，模型性能更强。而W′₁和W₁虽然在参数量上不发生变化，但改进后的第二个FC层可以混合计算两部分特征，能更好地拟合通道间复杂的相关性，有利于计算两组特征互信息，增强关键性通道特征的表达。

在本发明提供的优选实施例中，空间注意力模块主要用来提取特征图内部空间上的关系，通过对特征的空间位置信息给予不同权重，让网络根据权重分配学习到对图片分类有用的特征信息，从而增强了对判别性特征的表达能力，它的整体结构如图4所示，实施过程包括如下子步骤：

作为一个具体示例，将大小为H*W*C的输入特征A′分别做基于通道上的全局最大池化和平均池化，把多通道的数据压缩成单通道特征图，把两个一维通道特征图进行基于通道上的concat操作后，在空间层通过一个卷积核为7*7卷积层进行压缩。用Sigmoid激活后得到大小为H*W*1的空间注意力的加权系数N_S(A′)，如公式(5)所示。

N_S(A′)＝σ(f^7*7([MaxPool(A′)；AvgPool(A′)]) (5)

其中σ是sigmoid激活函数，f表示卷积操作，7*7是卷积核大小。最后将该权重系数N_S(A′)和该模块的输入特征A′做掩膜运算后，得到整个CBAM的特征输出即空间位置关键信息特征图。

CBAM把输入特征A经过通道注意力模块得到的通道注意力权重系数N_C(A)与输入特征相乘，得到含有更多通道维度上关键信息的通道维度关键信息特征图A′。再将A′通过用来提取特征图内部空间关系的空间注意力模块得到空间注意力权重系数N_S(A′)，并和A′相乘得到的含有更多空间位置关键信息的空间位置关键信息特征图A″，作为CBAM最后的输出特征图，如式(6)和式(7)所示。

在本发明提供的实施例中，残差学习网络采用ResNet50，其基本架构如图5所示，假定残差块网络的输入是x，通过捷径连接把输入x传到输出作初始结果，期望输出是H(x)＝F(x)+x。此时需要学习的目标就是F(x)，ResNet改变了网络学习目标，从学习一个完整的输出H(x)改为输出和输入的差别H(x)。传统的卷积层或全连接层在信息传递时，都会存在信息丢失、损耗等问题。ResNet通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出的差别，简化学习目标和难度。如果网络层成为了冗余层，期望最理想的输出目标让F(x)＝0，此时虽然未学习到新的特征，但也不会造成信息丢失和损耗的问题。

对于残差网络来说，前向过程是线性的，后面的输出是输入加上每一次的残差元的结果如式(8)所示，通过反向传播的链式法则可得到

如式(9)所示，梯度主要包含通过主干传播的

和通过捷径连接传播的

而相比于普通网络增加的

确保了梯度可直接传回任意浅层，解决了因网络加深造成的梯度消失引起的网络退化问题。

若将注意力模块置于残差结构后融合构建新网络，会使加入的激活函数影响通过捷径连接反向传播的

容易导致因网络层冗余而造成的梯度减小和退化的情况发生。针对此弊端，本发明将改进后的CBAM融入到ResNet50残差学习模块中，与特征提取层以先后串行结构融合构建下采样卷积模块(Down Sampling Convolution Module,DSCM)和残差注意力模块(Residual Attention Module,RAM)。DSCM和RAM将输入特征先经过改进后CBAM作通道注意力和空间注意力上的重要性判别加权后，再通过残差结构中的卷积层去提取特征，最后通过捷径连接与输入特征相加融合作为整个模块的特征输出。注意力机制的融入增强了判别性表情特征的表示，提升了对表情特征的提取性能，而捷径连接则避免了随着网络深度的加深而出现网络性能退化的问题。

如图6所示，该DSCM和RAM分别采用双支路结构。在DSCM中具有第一支路和第二支路，第一支路将上述改进后CBAM的输出作为输入，依次经过1*1卷积核的卷积层、3*3卷积核的卷积层、1*1卷积核的卷积层进行卷积操作。第二支路为捷径连接，将原始特征图经过一个1*1卷积核的卷积层进行卷积操作。两条支路获得的结果进行加和运算之后再通过一次Relu函数运算处理作为DSCM的特征输出。RAM中，第三支路将上述改进后CBAM的输出作为输入，依次经过1*1卷积核的卷积层、3*3卷积核的卷积层、1*1卷积核的卷积层进行卷积操作。作为捷径连接的第四支路直接输出原始特征图，再将该原始特征图与第三支路的操作结果进行加和运算，然后通过一次Relu函数运算处理作为RAM的特征输出。

RAM以堆叠的思路加深网络深度，提升对高层语义特征的提取，其输入和输出的特征图大小不发生变化。DSCM不仅起到了与RAM相同的提取特征的作用，并且通过下采样，用减小特征图大小(降低分辨率，特征图高、宽减半)，增加维度，将浅层特征细化后并转换为深层特征；该两个模块不仅避免了CBAM对捷径连接反向传播的影响，且先根据注意力划分输入特征的重要度再去提取特征，更符合注意力机制的思想。在本发明提供的优选实施例中，通过DSCM和RAM的多次串联组合，建立了一个新的残差注意力调和网络(ResidualAttention Reconcile Network，RARNet)，进一步增强特征提取性能。

本发明还提供一个实施例，用于显示本发明提供的方法的一个具体试验过程。

在本实施例中，采用CK+和FER2013数据集来训练和测试，CK+数据集是在Cohn-Kanade数据库的基础上扩展来的，其中含有327个贴有标签的面部视频，实验所用图片则从每个序列中提取最后三个帧，选取包含愤怒、轻蔑、厌恶、害怕、高兴、悲伤、惊讶七种人脸表情的图片981张。FER2013人脸表情数据集包含有35886张表情图片，含有愤怒、厌恶、害怕、高兴、悲伤、惊讶、中性七种表情图片。

CK+原始数据集的原始图像中含有许多和人脸表情特征无关的冗余信息，并且图像数据量较大，不适合直接用于网络训练。在训练之前，先对CK+输入图片进行预处理。通过OpenCV的人脸检测器提取出图片中的人脸部分，并把图片像素处理成48*48大小，图7显示了图像预处理前和处理后的人脸表情图像示例。

采用Pytorch深度学习框架把将DSCM和RAM根据ResNet50网络中的残差结构配置搭建新的网络模型RARNet，如图8所示。该网络模型由一个7*7大小的卷积层，3个DSCM层，13个RAM层和一个全连接层构成，通过堆叠思路构建并加深网络深度提升模型对表情特征的提取能力，又因残差网络的捷径连接避免了网络退化的问题。在参数设置上采取迁移学习的方法在RARNet残差结构上采用ResNet50的预训练模型参数初始化，注意力模块采用参数随机初始化。分类器选用Softmax分类，输出不同面部表情的预测值。

在训练阶段，采用数据增强的方法随机切割44*44的表情图像，并将图像进行随机镜像，然后送入网络模型训练。在测试阶段，采用一种集成的策略来减少异常值。将图片在左上角，左下角，右上角，右下角，中心进行切割并做镜像操作，使得数据库扩大了10倍，再把这10张图片送入模型预测。将得到的概率取平均，最大的输出分类即为对应表情类别。一方面可以避免网络过快地过拟合，另一方面扩大了数据库的数据量，加强了训练网络的鲁棒性。

在训练参数设置上，根据GPU显存将训练过程中批量大小设置为128，两个数据集训练周期分别为60和250，优化算法采用动量梯度下降法。引入动量项后，网络参数的每次更新都会考虑上次的更新值，增强梯度方向与上次梯度方向相同的参数更新，削减当前梯度方向与上一次梯度方向不同的参数更新。进而增加稳定性和提升学习速度，一定程度上可以排除局部最优解。初始学习率为0.01，动量为0.9，权重衰减为5×10^-4，通过权重衰减的方式可防止过拟合，提升模型泛化性能。训练过程中每个Epoch结束后会通过测试集对模型进行评估和保存，完成所有轮次训练后，把识别效果最好的权值保存成最后的模型文件。通过保存的模型测试对每种表情的识别效果，最后观察并记录实验数据。

在本实施例中，还分别选用ResNet18、ResNet50、ResNet50+CBAM执行融入卷积块注意力模块进行训练的过程，并将输入的结果与本发明的RARNet做实验对比，通过识别率和模型参数量做测试性能指标，在两个数据集上的实验结果如表1所示。RARNet相比于其他模型在FER2013和CK+数据集识别性能上分别获得了1.78％～3.68％和2.02％～8.08％的提升，最终取得了72.78％和98.99％的较高识别率。因为RARNet通过引入DSCM将浅层特征通过注意力模块细化后再转化为高层特征，堆叠RAM则提升了网络对高层判别性特征的提取，增强区分不同表情关键信息的表达；而残差结构与改进后的注意力模块的结合既更好地拟合了不同通道特征的关联性，提升了注意力特征细化的表现力，又不会因为网络深度的增加而出现网络退化的现象，相较于Woo提出的改进前的CBAM的融合取得了更好的识别效果；注意力模块与卷积层的先后串行结构，先增强特征图重要特征的表示，再去提取特征，更切合人的视觉机制。

表1.在不同网络模型实验对比

通过加深网络深度，虽然一定程度上提升了训练模型的识别性能，但是模型参数量增加过多，并且成效也越来越低。ResNet50相较于ResNet18在参数量上增加了13.87M，识别率只有1％和2％的提升，而本发明构建的RARNet相比于ResNet50以2.99M较少参数量的增加取得了2.68％和6.06％识别率的提升，证明了本发明所用方法的可行性。

从图9中可以看出ResNet50、ResNet50+CBAM与RARNet模型在CK+数据集上的训练过程中测试准确率和损失值的变化趋势，三个模型在刚开始迭代训练时准确率和损失值波动幅度较大，到最后都基本趋于平稳。ResNet50和原CBAM融合后虽然识别率相较于ResNet50有很大的提升，但是训练过程中损失值和准确率波动较大。改进后的CBAM与残差块融合构建的RARNet在识别率最高，损失值也最小，并且迭代过程中损失值和准确率浮动较小，模型稳定性最好。因为加入改进后的注意力模块增强了对通道特征重要度的学习，更好地拟合了不同维度特征的相关性，降低了不必要特征对模型训练时造成的影响，减小了准确率和损失值的变化幅度，提升了模型的稳定性和对表情的识别性能。

改进的RARNet在CK+和FER2013数据集上的各类表情识别率与其他方法进行了对比。RARNet在CK+上对于害怕表情的判断有所欠缺，对其余6种表情取得了较好的识别效果。在FER2013数据集上对高兴、惊讶与厌恶这三种表情取得了较好的识别效果，在生气、害怕和悲伤上存在一定的判别错误，因为这三种表情之间有相近之处，而中性与悲伤表情在面部特征变化较小，增加了识别难度。

RARNet在FER2013数据集总识别率上比Khemakhem等人提出的在预处理阶段增强的卷积神经网络提升了2.19％，比Liu等人提出的在表情识别训练过程中加入课程学习策略高了0.67％；这两种方法都在表情识别的不同阶段增强了特征学习，而通过加入注意力的方式更加精细和有效。在CK+数据库上比Gan等人同样提出的在卷积层嵌入单池化的通道注意力模块高了2.71％，这主要源于改进后CBAM在通道注意力权重的训练中采用双池化融合策略，增强关键性通道特征的表示，并且同时关注了通道注意力机制和空间注意力机制，提升模型对判别性特征的提取；比Zhang等人提出的将原图与局部二值模式(Local BinaryPattern，LBP)特征图分别经过两个VGG网络通道提取到的特征融合再分类网络模型取得了更好的识别性能，该模型本质上是对图像局部纹理特征的加深再分类，而RARNet通过注意力机制去增强图像的关键特征，比传统LBP特征更具表达力，与残差网络的融合则避免了网络深度加深导致的退化问题。本发明所用方法与近年来其他文献相比取得了更好的识别率，证明了改进后的CBAM融入残差结构中，注意力模块和特征提取层先后串行连接方法的有效性。

综上所述，本发明提供的一种融入注意力的残差网络表情识别方法，对原CBAM进行优化改进，在获取通道重要度权重的策略上，采用特征融合训练的方法，提升了模型的拟合能力，增强了关键性通道特征的表示。将改进后的CBAM融入到ResNet模型的残差学习模块中，与特征提取层以先后串行结构融合构建了新的网络模型RARNet，将注意力模块融入到残差结构中，通过残差网络的捷径连接，避免了因网络深度的加深而出现的网络退化的情况。该模型加深了对表情判别性特征的表示，抑制了不必要特征，以小参数量的增加提升了对表情的特征提取性能。改进后的CBAM属于轻量级结构，RARNet以较小参数量的增加在FER2013和CK+数据集上取得了比传统网络模型和其他相关方法更好的识别效果。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融入注意力的残差网络表情识别方法，其特征在于，包括将特征图输入到卷积块注意力模块中进行处理和将卷积块注意力模块融入到残差学习网络中进行训练；

所述的将特征图输入到卷积块注意力模块中进行处理包括：

S1获取特征图，通过通道注意力模块处理该特征图，获得通道注意力权重系数；所述通道注意力模块中具有第一拼接融合器，用于将池化处理后的特征图在进行权重训练之前进行拼接融合处理；

S2将所述特征图与所述通道注意力权重系数相乘，获得通道维度关键信息特征图；

S4将所述空间注意力权重系数与通道维度关键信息特征图相乘，获得空间位置关键信息特征图；

所述的将卷积块注意力模块融入到残差学习网络中进行训练包括：

S5将卷积块注意力模块与残差学习网络中的特征提取层进行融合，分别构建下采样卷积模块和残差注意力模块，通过该下采样卷积模块和残差注意力模块训练所述卷积块注意力模块，获得特征图表情识别结果；

构建所述下采样卷积模块的过程包括：

S51将所述卷积块注意力模块的输出依次通过残差学习网络中的三个卷积层进行卷积操作；

S52对所述特征图通过一个卷积层进行卷积操作；

构建所述残差注意力模块的过程包括：

S54将所述卷积块注意力模块的输出依次通过残差学习网络中的三个卷积层进行卷积操作；

S55将S54的处理结果结合所述特征图进行加和运算，再进行一次Relu函数处理；

所述的通过该下采样卷积模块和残差注意力模块训练所述卷积块注意力模块，获得特征图表情识别结果包括：

基于该下采样卷积模块和残差注意力模块训练所述卷积块注意力模块建立残差注意力调和网络模型；该残差注意力调和网络模型由一个卷积层、一个最大池化层、3个所述下采样卷积模块、13个所述残差注意力模块、一个平均池化层和一个全连接层构成；

将待处理的表情图像输入到该残差注意力调和网络模型中进行处理，再通过Softmax分类器进行分类识别，获得所述特征图表情识别结果。

2.根据权利要求1所述的方法，其特征在于，步骤S1具体包括：

S12将该第一池化特征和第二池化特征通过所述第一拼接融合器进行拼接融合，获得第一融合特征；

S13将该第一融合特征通过多层感知机进行降维升维处理，再通过Sigmoid函数进行激活处理，获得所述通道注意力权重系数。

3.根据权利要求2所述的方法，其特征在于，步骤S13中，所述的通过多层感知机进行降维升维处理包括：

将所述第一融合特征输入第一FC层，通过Y₀＝W₀×X进行降维处理，获得降维后的第一融合特征Y₀；式中，X为所述第一融合特征，W₀为第一FC层的权重；

将该降维后的第一融合特征Y₀输入第二FC层，通过Y₁＝W₁×Y₀进行升维处理，获得输出特征Y₁。

4.根据权利要求3所述的方法，其特征在于，所述通道注意力模块的处理过程包括N_C(A)＝σ(MLP([MaxPool(A)；AvgPool(A)])；

式中，[MaxPool(A)；AvgPool(A)]为所述融合特征，N_C(A)为所述通道注意力权重系数。

5.根据权利要求4所述的方法，其特征在于，步骤S2包括：

S21通过

获得所述通道维度关键信息特征图；A为输入到通道注意力模块的特征图，A′为通道维度关键信息特征图。

6.根据权利要求5所述的方法，其特征在于，步骤S3包括：

S33将该第二融合特征进行卷积压缩，再通过Sigmoid函数进行激活处理，获得所述空间注意力权重系数。

7.根据权利要求6所述的方法，其特征在于，所述空间注意力模块的处理过程包括：

N_S(A′)＝σ(f^7*7([MaxPool(A′)；AvgPoolA′)])；

式中，σ是sigmoid激活函数，f表示卷积操作，7*7是卷积核大小，N_S(A′)为所述空间注意力权重系数。

8.根据权利要求7所述的方法，其特征在于，步骤S4具体包括：

S41通过

获得所述空间位置关键信息特征图；A″为空间位置关键信息特征图。