CN115909443A

CN115909443A - 基于多头注意力机制的表情识别模型及其训练方法

Info

Publication number: CN115909443A
Application number: CN202211402478.8A
Authority: CN
Inventors: 韦鹏程; 戴骁骏; 曾玉山; 张琦
Original assignee: Chongqing University of Education
Current assignee: Chongqing University of Education
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-04-04

Abstract

本发明公开了基于多头注意力机制的表情识别模型及其训练方法，该模型由3个部分组成：(1)基础主干网络，使用ResNet‑18的变体来提取图像的基本特征；(2)使用多头注意力机制提取图像中不同部分的空间特征和通道特征；(3)使用Linear和BN将四条注意力通道的注意力机制所提取到的空间特征和通道特征进行融合，并进行归一化处理，最后使用标签平滑策略减少网络的自信度和过拟合程度，并用交叉熵损失函数计算分类损失。本发明的技术方案通过三个模块增强了模型对特征的表达能力，提高了对样本不平衡数据集的识别能力；在RAF‑DB数据库上的识别率达到90.35％，平均准确率达到83.66％，达到当前技术领域的最好水平，在两个学生表情数据库OL‑SFED和JAFFE均达到100％的识别率。

Description

基于多头注意力机制的表情识别模型及其训练方法

技术领域

本发明涉及人脸识别技术领域，尤其涉及基于多头注意力机制的表情识别模型及其训练方法。

背景技术

情绪与认知活动之间具有强烈而复杂的关系，情绪能影响各种认知行为，包括信息处理、推理和决策。在学生的学习过程中，学生会因为各种因素产生不同情绪，如困惑、无聊、好奇、有趣、挫败等等。积极的情绪能够提高学习效果，而消极的情绪会产生相反的作用。分析学生的学习情绪可以帮助教师了解学生的学习兴趣、行为和注意力情况。教师可以根据这些信息及时调整教学方案和教学节奏，从而使学生保持一个高效的学习状态。进而实现高质量、高效率教学，如何能高效准确地识别学生学习过程中的情感状态，一直是教育领域研究热点。现有研究表明，在学习过程中，学生的情绪可以从学生的面部表情观察出来。

虽然现有的深度学习方法给学生表情识别领域提供了极大的帮助，但学生表情识别仍面临许多挑战。如当前开源的学生表情数据库极少，多数研究者都是自建数据库进行研究。而自建数据库的质量参差不齐，不仅耗费研究者大量精力，而且构建的数据库数据量少，难以满足实际应用的需求。对于数据库数据量少的问题，当前研究者大多是采用迁移学习的方式，先在其它数据库上进行预训练获得预训练模型，然后在学生表情数据库上进行训练。但这种方式只能作为一种过渡性方法。

网课的出现使学生在家中依然能正常上课，对表情识别的需求显得格外紧迫，老师急需了解学生上课时的表情反馈，进而了解到学生对于课程内容的理解度，从而及时调整教学节奏，本发明通过将先进的人工智能技术与在线学习相结合，使老师能实时了解学生的情绪变化，对于提升线上教育质量具有重要意义。

发明内容

针对上述现有技术在实际应用中难以满足使用需求的问题，本发明提供基于多头注意力机制的表情识别模型及其训练方法，首先通过基础特征提取模块提取主干特征，然后通过多头注意力模块使每一条注意力通道分别关注人脸图像不同的重要区域，接着经过特征融合网络将多条注意力通道所提取的特征进行融合，最后利用标签平滑策略和交叉熵损失函数来进行分类，并减小网络过拟合程度和自信度。

基于多头注意力机制的表情识别模型，包括：

基础特征提取网络，所述基础特征提取网络采用ResNet-18的变体作为表情图像的基础特征提取网络，通过低层特征与高层特征的特征进行融合，获得表情影像的特征图，通过特征图计算亲和力损失量；

多头注意力模块，所述多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；所述多头注意力模块基于特征图多尺度下的空间注意力关系s_i1及各个像素点之间关联的空间注意力关系s_i2获取总空间特征s′_i，根据总空间特征s′_i的H 与W的维度获得及通道注意力关系ac及通道特征c′_i，根据各条注意力通道的输出结果计算分区损失；

特征融合与标签平滑模块，所述特征融合与标签平滑模块将预设数量的注意力通道提取特征求和后并进行融合，使用多分类器Softmax计算表情图像属于各个类别的概率，选择其中概率最大的类别作为对表情图像的判定类别，并获得预测值y′，计算表情图像的预测值与实际真实值之间的差异，使用交叉熵损失函数计算分类损失，根据亲和力损失、分区损失及分类损失计算模型的总损失，根据总损失进行反向传播优化模型参数。

进一步的，对所述ResNet-18的变体的每一个BasicBlock进行采样，将低层特征与高层特征的采样结果进行特征融合，获得表情影像的特征图，所述基础特征提取网络的输出公式为：

x_i′＝F(w,x_i)

其中，x_i′表示基础特征提取网络的输出；F表示基础特征提取网络的映射关系；w表示网络模型的参数；x_i表示基础特征提取网络的输入；

亲和力损失计算公式为：

其中，L_af表示亲和力损失；M表示表情图像中心点的个数；c_yi表示对应表情图像中心点；σ²表示所有表情图像中心点之间的方差。

进一步的，所述多头注意力模块构造包含1x1，1x3，3x1及3x3卷积核的卷积层和一个激活函数来提取多尺度下的空间注意力关系s_i1；将x_i′的特征长H 和宽W压缩成一个维度，通过矩阵转置和矩阵相乘得到每个像素和其它像素点的关系以及其它像素点和本像素点的关系，获得像素点之间的像素关系特征，将x_i′的特征按通道的维度进行平均池化得到Bx1xHxW的位置特征，再将像素关系特征和Bx1xHxW的位置特征进行特征融合，通过1x1的卷积核获得各个像素点之间关联的空间注意力关系s_i2，通过以下公式获得总空间特征s′_i：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

其中，i表示第i条注意力通道；x′表示基础特征提取网络所提取的特征；μ_i1表示是注意力关系的系数；μ_i2为关系注意力的系数；s′_i表示总空间特征；

对总空间特征s′_i的H和W的维度进行自适应平均池化，再压缩维度，保留两个维度BxN得到特征c,通过两个Linear和sigmod函数自动学习通道注意力关系ac，通道特征公式为：

c′_i＝c_i×ac_i

其中，c′_i表示第i个注意力通道的通道特征；ac_i表示第i个通道注意力关系。

进一步的，应用Log-softmax函数来突出通道特征感兴趣的部分，公式如下：

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

进一步的，所述特征融合与标签平滑模块将预设数量的注意力通道提取的特征求和后进行融合，输出的最后一个维度约束到与类别的数量相同，为每一个类别分别输出一个得分；使用Batch Normalization对Linear后的得分进行归一化操作，得到网络输出out；

使用标签平滑公式对初始的标签进行重新编码，标签平滑公式为：

target_n＝(1-α)*target_s+α/cls

其中，target_n表示使用标签平滑的新标签；target_s表示初始标签，初始标签为one_hot编码标签；α表示标签平滑系数；cls表示分类类别数量；

使用交叉熵损失函数计算对表情图像的预测值与实际真实值之间的差异，得到分类损失L_cls，公式如下：

L_cls＝-target_n*lny′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。

基于多头注意力机制的表情识别训练方法，所述训练方法基于所述的基于多头注意力机制的表情识别模型，所述方法包括：

S1、基础特征提取网络采用ResNet-18的变体作为表情图像的基础特征提取网络，通过低层特征与高层特征的特征进行融合，获得表情影像的特征图，通过特征图计算亲和力损失量；

S2、多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；所述多头注意力模块基于特征图多尺度下的空间注意力关系s_i1及各个像素点之间关联的空间注意力关系s_i2获取总空间特征s′_i，根据总空间特征s′_i的H与W的维度获得及通道注意力关系ac及通道特征c′_i，根据各条注意力通道的输出结果计算分区损失；

S3、特征融合与标签平滑模块将预设数量的注意力通道提取特征求和后并进行融合，使用多分类器Softmax计算表情图像属于各个类别的概率，选择其中概率最大的类别作为对表情图像的判定类别，并获得预测值y′，计算表情图像的预测值与实际真实值之间的差异，使用交叉熵损失函数计算分类损失，根据亲和力损失、分区损失及分类损失计算模型的总损失，根据总损失进行反向传播优化模型参数。

x_i′＝F(w,x_i)

亲和力损失计算公式为：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

c′_i＝c_i×ac_i

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

target_n＝(1-α)*target_s+α/cls

L_cls＝-target_n*ln y′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。

相比于现有技术，本发明的优点及有益效果在于：本发明的技术方案通过三个模块增强了模型对特征的表达能力，提高了对样本不平衡数据集的识别能力；在RAF-DB、OL-SFED和JAFFE三个表情识别数据库进行了实验，实验结果表明，本发明提供的技术方案在RAF-DB数据库上的识别率达到90.35％，平均准确率达到83.66％，达到当前技术领域的最好水平，在两个学生表情数据库OL-SFED和 JAFFE均达到100％的识别率，证明了本发明的技术方案应用于实际学生表情识别场景。

附图说明

图1为本发明模型的结构简图；

图2为本发明训练方法的流程示意图；

图3为本发明模型的框架结构示意图；

图4为本发明的基础特征提取网络示意图；

图5为本发明的注意力通道示意图；

图6为本发明实施例中Acc随epoch变化图；

图7为本发明实施例中训练集准确率和验证集的准确率变化示意图；

图8为本发明实施例中训练集和验证集损失值变化示意图；

图9为本发明实施例中RAF-DB测试集上的混淆矩阵示意图；

图10为本发明实施例中JAFFE数据集上混淆矩阵示意图；

图11为本发明实施例中从左到右依次为原始数据库中的困惑、分心、快乐、中性和疲惫五种表情示意图；

图12为本发明实施例中从左到右依次是人脸图像截取后的困惑、分心、快乐、中性和疲劳五种表情示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B 和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A 和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

如图1所示，基于多头注意力机制的表情识别模型，包括：

基础特征提取网络，基础特征提取网络采用ResNet-18的变体作为表情图像的基础特征提取网络，通过低层特征与高层特征的特征进行融合，获得表情影像的特征图，通过特征图计算亲和力损失量；

多头注意力模块，多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；多头注意力模块基于特征图多尺度下的空间注意力关系s_i1及各个像素点之间关联的空间注意力关系s_i2获取总空间特征s′_i，根据总空间特征s′_i的H与W的维度获得及通道注意力关系ac及通道特征c′_i，根据各条注意力通道的输出结果计算分区损失；

特征融合与标签平滑模块，特征融合与标签平滑模块将预设数量的注意力通道提取特征求和后并进行融合，使用多分类器Softmax计算表情图像属于各个类别的概率，选择其中概率最大的类别作为对表情图像的判定类别，并获得预测值y′，计算表情图像的预测值与实际真实值之间的差异，使用交叉熵损失函数计算分类损失，根据亲和力损失、分区损失及分类损失计算模型的总损失，根据总损失进行反向传播优化模型参数。

本发明主要在现有的DAN算法进行改进，提出了一种性能更好的表情识别模型。该模型由3个部分组成：(1)基础主干网络，使用ResNet-18的变体来提取图像的基本特征；(2)使用多头注意力机制提取图像中不同部分的空间特征和通道特征；(3)使用Linear和BN将四条注意力通道(本发明实施例中将注意力通道预设为4条平行的注意力通道)的注意力机制所提取到的空间特征和通道特征进行融合，并进行归一化处理，最后使用标签平滑策略减少网络的自信度和过拟合程度，并用交叉熵损失函数计算分类损失。模型框架如图3所示。

其中，基础特征提取网络(BFEN)、多头注意力模块(MAM)、特征融合与标签平滑(FFALS)组成基于多头注意力机制的表情识别模型。

具体的，对ResNet-18的变体的每一个BasicBlock进行采样，将低层特征与高层特征的采样结果进行特征融合，获得表情影像的特征图，基础特征提取网络的输出公式为：

x_i′＝F(w,x_i)

本发明采用ResNet-18的变体作为基础特征提取网络的主干网络。深度卷积的优点在于能够提取高层特征，但忽略了低层特征。高层特征反映全局信息，而低层特征反映局部细节信息，两者都不可或缺。因此本发明对ResNet- 18的变体的每一个BasicBlock进行下采样，然后将多层采样结果进行特征融合，融合后的特征同时包含低层特征和高层特征，最终得到1027个7x7特征的特征图。为避免计算量过大，实际应用中使用1x1的卷积核将特征图个数变为512个。假设输入为x_i∈X,X为输入数据库，对应的标签y_i∈Y，Y为标签数据库。

然后将这512个特征图分别送入亲和力损失函数计算损失值和多头注意力机制中，基础特征提取网络图如图4所示。

本发明使用亲和力损失函数，该损失函数在促进类内距离最小化的同时最大化类间距离。

亲和力损失计算公式为：

在训练时，促使每一类的值向样本中心点靠近，从而达到类内距离最小，类间距离最大的目标。

多头注意力模块所包含的四条平行注意力通道。每条注意力通道包含空间注意力和通道注意力。注意力通道如图5所示。

每条注意力通道均接收来自基础特征提取网络所提取的特征。在空间注意力模块分别提取多尺度下的局部特征和每个像素点之间的关系特征。

具体的，多头注意力模块构造包含1x1，1x3，3x1及3x3卷积核的卷积层和一个激活函数来提取多尺度下的空间注意力关系s_i1；将x_i′的特征长H和宽W 压缩成一个维度，通过矩阵转置和矩阵相乘得到每个像素和其它像素点的关系以及其它像素点和本像素点的关系，获得像素点之间的像素关系特征，将x_i′的特征按通道的维度进行平均池化得到Bx1xHxW的位置特征，再将像素关系特征和Bx1xHxW的位置特征进行特征融合，通过1x1的卷积核获得各个像素点之间关联的空间注意力关系s_i2，通过以下公式获得总空间特征s′_i：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

本发明中μ_i1为0.8；μ_i2为0.2。

c′_i＝c_i×ac_i

具体的，应用Log-softmax函数来突出通道特征感兴趣的部分，公式如下：

本发明为了使各个注意力机制通道关注表情的不同地方，现有提出的分区损失函数做了一些改进，提高了训练时的速度和稳定性，同时引导各个通道的注意力关注不同的地方。

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

具体的，特征融合与标签平滑模块将预设数量的注意力通道提取的特征求和后进行融合，输出的最后一个维度约束到与类别的数量相同，为每一个类别分别输出一个得分；使用Batch Normalization对Linear后的得分进行归一化操作，得到网络输出out；

本发明中为了减小网络的过拟合程度使用标签平滑公式对原来的标签进行重新编码。

target_n＝(1-α)*target_s+α/cls

L_cls＝-target_n*ln y′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。

如图2所示，基于多头注意力机制的表情识别训练方法，训练方法基于的基于多头注意力机制的表情识别模型，方法包括：

S2、多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；多头注意力模块基于特征图多尺度下的空间注意力关系s_i1及各个像素点之间关联的空间注意力关系s_i2获取总空间特征s′_i，根据总空间特征s′_i的H与W的维度获得及通道注意力关系ac及通道特征c′_i，根据各条注意力通道的输出结果计算分区损失；

x_i′＝F(w,x_i)

亲和力损失计算公式为：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

本发明中μ_i1为0.8；μ_i2为0.2。

c′_i＝c_i×ac_i

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

target_n＝(1-α)*target_s+α/cls

L_cls＝-target_n*lny′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。

实施例：

实验：

当前实验环境：所使用的语言为Python3.8,深度学习框架是pytorch1.10.1, 操作系统是64位的Win10家庭版，CPU为i5-10400F,显卡为NVIDIA GeForce GTX 1660 SUPER。为了公平比较，本发明使用ResNet-18的变体网络在MS1M- Celeb-1M人脸识别数据库上进行预训练。Acc为测试集预测正确的样本数占总测试集样本数的比值。Avg.Acc为平均准确率，该准确率包含样本权重调节系数，避免夸大对样本数量不平衡数据集的性能估计。

实验数据库：

JAFFE:日本女性面部表情数据库由日本九州大学收集。该数据库包含10名日本女大学生的表情数据。其中，记录每名学生的七种面部表情，每种表情由60 人共同标注，总共213张图片。

OL-SFED:在线学习自发面部表情数据库由中国海洋大学吕伟刚等人收集建立。该数据库收集了来自中国海洋大学的82名17到26岁之间(平均年龄20.09 岁，标准差＝2.26)的学生在线上课时的图片信息，男性29人，女性53人。标签信息由参与者与专家一起注释，可靠性高。数据库中包含开心、困惑、疲劳、分心和中性五种表情。总共31115张图片，其中困惑5763张、分心5652张、开心6010张、中性7928张、疲劳5762张。

RAF-DB:该数据库在野外收集6种基本表情和1种中性表情，与实验室收集的数据库相比，没有刻意扮演的表情，它更复杂多变，更加接近真实环境下的人脸表情。该数据库每一张图片都由40个标签者单独标记，以确保准确性。它有两种数据库，分别是单标签数据库和多标签数据库，本实验只使用前者。训练集为12271张和测试集为3068张。训练集和测试集具有相似的分布。

消融实验：

本发明在这里将WEN等人的DAN网络复现后作为本发明的Base-line，然后将DAN网络中的模块分别替换成本发明的BFEN、MAM和FFALS模块。由于OL- SFED数据库和JAFFE数据库难度较小，本发明在RAF-DB数据库上进行消融实验。实验结果如表1所示。

表1消融实验

从表4可知，使用BFEN模块与Base-line相比，准确率提高了0.46％。MAM 模块对整个模型提升不多，Acc提高了0.14％，这是由于多尺度空间注意力和关系型空间注意力提取到的空间特征具有较大的相关性。FFALS模块在ACC上提升约0.36％。最后三个模块一起使用得到的结果与Base-line相比，ACC提升了 0.72％。若将该结果与原论文数据相比，ACC提升了0.65％。图6为5种Model的准确率Acc随epoch变化图，可以明显观察到本发明所提出的最终模型具有最高的准确率。

与最先进的方法进行比较：

如图7-图10，在这一部分，本发明将所提出的新模型在RAF-DB、OL-SFED、 JAFFE这三个数据库上与当前最先进的模型进行比较，数据选所引用的论文。在 RAF-DB上，总共训练80个epoch，BatchSi ze为128。在OLSFE和JAFFE数据库上，本发明采用十折交叉验证方法，总共训练5个epoch，OL-SFED的BatchSize 为128，JAFFE的BatchSize为14。

RAF-DB数据库：比较结果如表2所示。在RAF-DB数据库上将准确率提高到90.35％，提高了0.65％；平均准确率达到83.66％，达到了当前最好的水平。在RAF-DB数据库上训练集和验证集的准确率和损失值变化如图7-图8所示。由于使用了预训练数据，更好地剔除了与表情不相关的信息，训练结果在初始阶段就有较好的表现，ACC达到80.64％，并在第51个epoch达到90.35％。本发明还制作了各个类别的混淆矩阵和分类指标报告，如图9和表3所示。结合图9和表3 可知，该模型对快乐的识别率最高达到96.2％，对恐惧和厌恶的识别率较低分别为64.9％和73.8％，这是由于这两类表情与其它表情有较大相似性以及样本分布并不均衡所导致。

表2在RAF-DB数据库上的性能比较

表3 RAF-DB数据库各个类别分类指标报告

JAFFE数据库。在该数据库上采用十折交叉验证，统计十折中每一折的准确率，最后取平均值作为一个epoch的准确率。在本实验中，在第3个epoch准确率达到100％。在表4中，本发明与当前最先进的方法进行比较。结果表明，本发明所提出的方法达到最好的水平。图10为JAFFE数据库各个类别的混淆矩阵，结果表明，本发明所提出的方法能够正确识别出该数据库的每一类表情。

表4在JAFFE数据库上的比较

Methods	Acc.(％)
		VIT^[21](2021)	94.83
Muhammad,G^[22](2020)	93.5
		Arya,R^[23](2021)	95.52
Kalsum,T^[24](2021)	98.2
		ours	100

OL-SFED数据库：本发明在使用该数据库前先进行人脸图像截取，原图如图 11所示，截取结果如图12所示。在OL-SFED数据库上，准确率计算方式与在 JAFFE数据库的方式相同。实验时，在第3个eopch准确率达到100％。由于该数据库是专门的在线学习自发面部表情数据库，使用人数较少，本发明仅与数据库创建者进行比较，比较结果如表5所示。各个类别分类指标报告如表6所示。结果表明，本发明所提出的方法能够准确识别五种表情，可以应用于在线学习场景中。

表5在OL-SFED数据库上的比较结果

Algorithm	Precision	Recall	F1	k	Acc.(％)
						Bian[11]	0.910	0.907	0.908	0.892	91.6
Ours	1	1	1	1	100

表6 OL-SFED数据库各个类别分类指标报告

线下教学在特殊时期可能无法进行，而线上教学成为一种有效的替代。然而，在线上教学时，学生与教师处于两个空间，学生与教师之间的情感交流极其匮乏。本发明基于深度学习理论，提出一种改进型多头注意力机制学生表情识别网络。在公开的大型野外人脸表情数据库RAF-DB和日本女性大学生表情数据库JAFFE上与其它先进算法进行比较，结果表明，该算法具有极强的竞争性；在在线学习自发面部表情数据库OL-SFED上实验表明，该算法能够准确识别快乐、困惑、疲惫、分心和中性等上课过程中出现的表情，这为该算法应用于在线学生表情识别提供了可靠凭证。未来，本研究将基于该算法开发一个在线学习平台。该平台将利用学生表情识别算法识别学生的表情，统计全班所有同学的相关信息，统计结果将作为教师调整教学策略的依据。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述基于多头注意力机制的表情识别训练方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述基于多头注意力机制的表情识别训练方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：S1、基础特征提取网络采用ResNet-18的变体作为表情图像的基础特征提取网络，通过低层特征与高层特征的特征进行融合，获得表情影像的特征图，通过特征图计算亲和力损失量；

S2、多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；所述多头注意力模块基于特征图多尺度下的空间注意力关系及各个像素点之间关联的空间注意力关系获取总空间特征，根据总空间特征的H与W的维度获得及通道注意力关系及通道特征，根据各条注意力通道的输出结果计算分区损失；

S3、特征融合与标签平滑模块将预设数量的注意力通道提取特征求和后并进行融合，使用多分类器Softmax计算表情图像属于各个类别的概率，选择其中概率最大的类别作为对表情图像的判定类别，并获得预测值，计算表情图像的预测值与实际真实值之间的差异，使用交叉熵损失函数计算分类损失，根据亲和力损失、分区损失及分类损失计算模型的总损失，根据总损失进行反向传播优化模型参数。本发明中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：S1、基础特征提取网络采用ResNet-18的变体作为表情图像的基础特征提取网络，通过低层特征与高层特征的特征进行融合，获得表情影像的特征图，通过特征图计算亲和力损失量；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括显卡和/或一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本发明中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.基于多头注意力机制的表情识别模型，其特征在于，包括：

多头注意力模块，所述多头注意力模块包含预设数量的平行注意力通道，每条注意力通道包含空间注意力和通道注意力，接收基础特征提取网络输出的特征；所述多头注意力模块基于特征图多尺度下的空间注意力关系s_i1及各个像素点之间关联的空间注意力关系s_i2获取总空间特征s′_i，根据总空间特征s′_i的H与W的维度获得及通道注意力关系ac及通道特征c′_i，根据各条注意力通道的输出结果计算分区损失；

2.根据权利要求1所述的基于多头注意力机制的表情识别模型，其特征在于，对所述ResNet-18的变体的每一个BasicBlock进行采样，将低层特征与高层特征的采样结果进行特征融合，获得表情影像的特征图，所述基础特征提取网络的输出公式为：

x_i′＝F(w,x_i)

亲和力损失计算公式为：

3.根据权利要求2所述的基于多头注意力机制的表情识别模型，其特征在于，所述多头注意力模块构造包含1x1，1x3，3x1及3x3卷积核的卷积层和一个激活函数来提取多尺度下的空间注意力关系s_i1；将x_i′的特征长H和宽W压缩成一个维度，通过矩阵转置和矩阵相乘得到每个像素和其它像素点的关系以及其它像素点和本像素点的关系，获得像素点之间的像素关系特征，将x_i′的特征按通道的维度进行平均池化得到Bx1xHxW的位置特征，再将像素关系特征和Bx1xHxW的位置特征进行特征融合，通过1x1的卷积核获得各个像素点之间关联的空间注意力关系s_i2，通过以下公式获得总空间特征s′_i：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

c′_i＝c_i×ac_i

4.根据权利要求3所述的基于多头注意力机制的表情识别模型，其特征在于，应用Log-softmax函数来突出通道特征感兴趣的部分，公式如下：

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

5.根据权利要求1所述的基于多头注意力机制的表情识别模型，其特征在于，所述特征融合与标签平滑模块将预设数量的注意力通道提取的特征求和后进行融合，输出的最后一个维度约束到与类别的数量相同，为每一个类别分别输出一个得分；使用BatchNormalization对Linear后的得分进行归一化操作，得到网络输出out；

target_n＝(1-α)*target_s+α/cls

L_cls＝-target_n*lny′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。

6.基于多头注意力机制的表情识别训练方法，其特征在于，所述训练方法基于上述权利要求1-5项任一项所述的基于多头注意力机制的表情识别模型，所述方法包括：

7.根据权利要求6所述的基于多头注意力机制的表情识训练方法，其特征在于，对所述ResNet-18的变体的每一个BasicBlock进行采样，将低层特征与高层特征的采样结果进行特征融合，获得表情影像的特征图，所述基础特征提取网络的输出公式为：

x_i′＝F(w,x_i)

亲和力损失计算公式为：

8.根据权利要求7所述的基于多头注意力机制的表情识别训练方法，其特征在于，所述多头注意力模块构造包含1x1，1x3，3x1及3x3卷积核的卷积层和一个激活函数来提取多尺度下的空间注意力关系s_i1；将x_i′的特征长H和宽W压缩成一个维度，通过矩阵转置和矩阵相乘得到每个像素和其它像素点的关系以及其它像素点和本像素点的关系，获得像素点之间的像素关系特征，将x_i′的特征按通道的维度进行平均池化得到Bx1xHxW的位置特征，再将像素关系特征和Bx1xHxW的位置特征进行特征融合，通过1x1的卷积核获得各个像素点之间关联的空间注意力关系s_i2，通过以下公式获得总空间特征s′_i：

s′_i＝x′*(μ_i1*s_i1+μ_i2*s_i2)

c′_i＝c_i×ac_i

9.根据权利要求8所述的基于多头注意力机制的表情识别训练方法，其特征在于，应用Log-softmax函数来突出通道特征感兴趣的部分，公式如下：

根据各条注意力通道的输出结果计算分区损失，公式如下：

其中，L_pt表示分区损失；N表示样本个数；C表示通道数；

表示第i个采样的第j个通道的标准差的k次方。

10.根据权利要求6所述的基于多头注意力机制的表情识别训练方法，其特征在于，所述特征融合与标签平滑模块将预设数量的注意力通道提取的特征求和后进行融合，输出的最后一个维度约束到与类别的数量相同，为每一个类别分别输出一个得分；使用BatchNormalization对Linear后的得分进行归一化操作，得到网络输出out；

target_n＝(1-α)*target_s+α/cls

L_cls＝-target_n*lny′

其中，y′表示预测值；

模型的总损失计算公式为：

其中，L表示模型的总损失；

表示亲和力损失系数；

表示分区损失系数。