CN116758621A

CN116758621A - 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

Info

Publication number: CN116758621A
Application number: CN202311049424.2A
Authority: CN
Inventors: 曾大克
Original assignee: Ningbo Wols Software Co ltd
Current assignee: Ningbo Wols Software Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-09-15
Anticipated expiration: 2043-08-21
Also published as: CN116758621B

Abstract

本发明实施例公开了一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，包括以下步骤：构建并训练表情识别模型，所述表情识别模型包括：深度卷积神经网络骨干模块、自注意力瓶颈模块和表情分类模块；将遮挡人脸表情图像输入深度卷积神经网络骨干模块，提取遮挡人脸表情图像的抽象表情特征；将所述遮挡人脸表情图像的抽象表情特征输入所述自注意力瓶颈模块，学习不同特征图在整张图像特征的权重比值；将所述权重比值输入所述表情分类模块，输出遮挡人脸表情识别结果。本发明能够有效提高识别遮挡人脸表情的性能。

Description

基于自注意力机制的遮挡人脸面部表情深度卷积识别方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法。

背景技术

近年来，面部表情识别在人机交互、医疗、行为分析等计算机视觉应用中发挥着越来越重要的作用。目前的研究大多集中在人脸表情识别（Facial ExpressionRecognition, FER）算法的开发上。然而，由于面部表情的变化，包括头部姿势、光照和遮挡，识别面部表情仍然是一项具有挑战性的任务。大多数FER系统在CK+、MMI、Oulu-CASIA等实验室采集的数据集上表现良好，但在野外面部表情识别上表现较差。

由于面部表情的不确定性和高质量数据的缺乏，在真实世界的数据集上进行实验很难达到较高的精度。特别是对于遮挡问题，可能会导致识别精度降低。因为在面部表情上有不同的咬合和位置，解决咬合问题具有挑战性。用于FER的卷积神经网络通常需要大数据来实现。深度卷积运算虽然可以捕获人脸图像的局部特征，但可能会导致过拟合问题。

传统的遮挡人脸表情识别技术主要是基于人脸的局部特征，而忽略了全局人脸的特征联系。他们利用面部分割的斑块和标志等局部特征来检测到被遮挡的部分，并且修补遮挡的部分或者丢弃无用的面部信息斑块。现在也有部分技术，将注意力机制结合深度神经网络应用在遮挡人脸表情识别中，在训练过程中不断调整局部遮挡特征和全局特征的权重。但是这些方法计算量大，分类效果较差，并没有完全考虑到全局的面部特征之间的联系。目前，自然语言处理领域广泛应用了Transformer技术，Transformer技术是能够将全局特征进行联系，并有助于处理接下来的深度学习任务，因此，将其应用于遮挡人脸表情识别中有效提高分类效果。

发明内容

为了解决上述现有技术中所存在的问题，本发明提供一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，能够有效提高识别遮挡人脸表情的性能。

为了实现上述的技术目的，本发明提供如下技术方案：

一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，包括以下步骤：

构建并训练表情识别模型，所述表情识别模型包括：深度卷积神经网络骨干模块、自注意力瓶颈模块和表情分类模块；

将遮挡人脸表情图像输入深度卷积神经网络骨干模块，提取遮挡人脸表情图像的抽象表情特征；

将所述遮挡人脸表情图像的抽象表情特征输入所述自注意力瓶颈模块，学习不同特征图在整张图像特征的权重比值；

将所述权重比值输入所述表情分类模块，输出遮挡人脸表情识别结果。

一种可能的实施方式中，所述训练表情识别模型包括：

获取所述遮挡人脸表情图像的数据集；

构建交叉熵损失函数；

基于所述数据集和所述交叉熵损失函数对所述表情识别模型进行训练。

一种可能的实施方式中，所述深度卷积神经网络骨干模块包括9个卷积层，3个最大化池化层，所述卷积层、池化层按照VGG16模型的结构依次连接。

一种可能的实施方式中，所述自注意力瓶颈模块包括依次连接的1个卷积层，1个多头注意力机制层，1个卷积层和 1个残差连接单元结构。

一种可能的实施方式中，所述多头自注意力机制使用四个注意力头和相对距离编码技术，包括如下步骤：

从所述深度卷积神经网络骨干模块得到一个张量，其中，H代表特征图的高度，W代表特征图的宽度，/>代表输入特征图的通道数，将其展开成一个特征图的矩阵/>，输入到多头注意力中，一个自注意力头h的输出的计算方式如下：（1）其中，/>函数是一个归一化指数函数，适用于多分类问题中求各类别的概率；/>分别对应查询、键和值学习到的线性权重参数，下标q、k、v用来标注对应的查询、键和值，/>，并且/>；Q代表查询矩阵，K代表键矩阵，V代表值矩阵，Q，K，V分别满足如下等式：/>，/>，/>；/>是自注意力头h的键的维度，T代表对矩阵进行转置；然后，使用如下公式将输出的所有自注意力头连接起来：（2）其中，/>是一个学习到的线性权重，/>代表n个自注意力头h，MHA(X)被重新定义为一个形状为/>的张量来匹配原始的空间维度。

一种可能的实施方式中，将多头注意力机制应用在图像上采用相对距离编码技术，包括：

在自注意力机制中使用二维相对编码技术，对每个像素点添加相对高度信息和相对宽度信息，一个像素点与另一个像素点/>的关系的计算方式如下：/>（3）其中，/>是像素点/>的查询向量，/>是像素点j的键向量，/>和/>是相对宽度/>的和相对高度/>的学习的嵌入表征，（3）式转换为：/>（4）其中，，并且/>，/>和/>满足和/>，/>，/>分别指从深度卷积网络中得到的张量的H、W向量与注意力机制结合后的乘积，即为H、W层在注意力机制中的权重。

一种可能的实施方式中，所述表情分类模块将遮挡人脸表情分为7种类别，包括快乐、悲伤、生气、厌恶、惊讶、害怕和自然；所述表情分类模块包括两个全连接层和交叉熵损失函数。

采用本发明具有如下的有益效果：

（1）提出了基于自注意机制的深度卷积神经网络，将局部CNN特征与全局自注意相结合，提高表情识别精度；

（2）在FER中应用了相对位置编码的自注意力机制。全局自我注意可以学习单个特征与整个面部信息之间的关系。因此，可以关注高度相关的区域，而忽略信息不足的区域。

附图说明

图1 为本发明实施例的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，所示为本发明实施例的一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，包括以下步骤：

S10，构建并训练表情识别模型，所述表情识别模型包括深度卷积神经网络骨干模块、自注意力瓶颈模块和表情分类模块；

S20，将遮挡人脸表情图像输入深度卷积神经网络骨干模块，提取遮挡人脸表情图像的抽象表情特征；

S30，将遮挡人脸表情图像的抽象表情特征输入所述自注意力瓶颈模块，学习不同特征图在整张图像特征的权重比值；

S40，将权重比值输入所述表情分类模块，输出遮挡人脸表情识别结果。其中表情分类模块将遮挡人脸表情分为7种类别，包括快乐、悲伤、生气、厌恶、惊讶、害怕和自然；表情分类模块包括两个全连接层和交叉熵损失函数。

通过以上设置的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，使用主干卷积神经网络CNN从面部图像中有效地学习抽象特征图。其次，利用全局自注意力对卷积层捕获的特征图中包含的信息进行处理和聚合。最后，通过两个全连接层实现7种不同的面部表情分类，能够有效提高识别遮挡人脸表情的性能。

本发明一实施例中，训练表情识别模型包括：

获取所述遮挡人脸表情图像的数据集；

构建交叉熵损失函数；

本发明一实施例中，深度卷积神经网络骨干模块包括9个卷积层，3个最大化池化层，所述卷积层、池化层按照VGG16模型的结构依次连接。

本发明一实施例中，自注意力瓶颈模块包括依次连接的1个卷积层，1个多头注意力机制层，1个卷积层和 1个残差连接单元结构。其中多头自注意力机制使用四个注意力头和相对距离编码技术，包括如下步骤：

从所述深度卷积神经网络骨干模块得到一个张量其中，H代表特征图的高度，W代表特征图的宽度，/>代表输入特征图的通道数。将其展开成一个特征图的矩阵，输入到多头注意力中，一个自注意力头h的输出的计算方式如下：（1）其中，/>函数是一个归一化指数函数，适用于多分类问题中求各类别的概率；/>分别对应查询、键和值学习到的线性权重参数，下标q、k、v用来标注对应的查询、键和值，/>，并且；Q代表查询矩阵，K代表键矩阵，V代表值矩阵，Q，K，V分别满足如下等式：，/>，/>；/>是自注意力头h的键的维度，T代表对矩阵进行转置；然后，使用如下公式将输出的所有自注意力头连接起来：/>（2）其中，/>是一个学习到的线性权重，/>代表n个自注意力头h，MHA(X)被重新定义为一个形状为/>的张量来匹配原始的空间维度。

将多头注意力机制应用在图像上采用相对位置编码技术，包括：

在自注意力机制中使用二维相对编码技术，对每个像素点添加相对高度信息和相对宽度信息，一个像素点与另一个像素点/>的关系的计算方式如下：（3）其中，/>是像素点/>的查询向量，/>是像素点j的键向量，/>和/>是相对宽度/>的和相对高度/>的学习的嵌入表征，（3）式转换为：/>（4）其中，/>，并且/>，/>和/>满足/>和，/>，/>分别指从深度卷积网络中得到的张量的H、W向量与注意力机制结合后的乘积，即为H、W层在注意力机制中的权重。

一具体应用实例中，一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法中的构建并训练表情识别模型具体流程如下：

构建并训练表情识别模型具体包括：获取公开人脸表情数据集RAF数据集和AffectNet数据集，对数据集中的表情图片进行预处理；对数据集进行训练集和测试集划分，以及对7种表情数据标签的标注和修正，然后对图像进行预处理，包括旋转，归一化，将图像重构为224×224大小等操作。

构建表情识别模型过程如下：构建一个CNN主干网络，采用VGG16的前9层，包括9个卷积层和3个最大化池化层，然后连接自注意力机制的关键层，由一个卷积层，多头注意力机制，一个卷积层依次连接，最后使用残差结构。

使用ImageNet数据集和MS-Celeb-1M数据集对模型进行预训练，然后再使用RAF和AffectNet数据集训练并测试，提高模型的识别准确率。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，所述训练表情识别模型包括：

获取所述遮挡人脸表情图像的数据集；

构建交叉熵损失函数；

3.根据权利要求1所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，所述深度卷积神经网络骨干模块包括9个卷积层，3个最大化池化层，所述卷积层、池化层按照VGG16模型的结构依次连接。

4.根据权利要求1所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，所述自注意力瓶颈模块包括依次连接的1个卷积层，1个多头注意力机制层，1个卷积层和 1个残差连接单元结构。

5.根据权利要求4所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，所述多头自注意力机制使用四个注意力头和相对距离编码技术，包括如下步骤：

从所述深度卷积神经网络骨干模块得到一个张量，其中，H代表特征图的高度，W代表特征图的宽度，/>代表输入特征图的通道数，将其展开成一个特征图的矩阵，输入到多头注意力中，一个自注意力头h的输出的计算方式如下：

（1）

其中，函数是一个归一化指数函数，适用于多分类问题中求各类别的概率；/>分别对应查询、键和值学习到的线性权重参数，下标q、k、v用来标注对应的查询、键和值，/>，并且/>；Q代表查询矩阵，K代表键矩阵，V代表值矩阵，Q，K，V分别满足如下等式：/>，/>，/>；是自注意力头h的键的维度，T代表对矩阵进行转置；然后，使用如下公式将输出的所有自注意力头连接起来：

（2）

其中，是一个学习到的线性权重，/>代表n个自注意力头h，MHA(X)被重新定义为一个形状为/>的张量来匹配原始的空间维度。

6.根据权利要求5所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，将多头注意力机制应用在图像上采用相对距离编码技术，包括：

在自注意力机制中使用二维相对编码技术，对每个像素点添加相对高度信息和相对宽度信息，一个像素点与另一个像素点/>的关系的计算方式如下：

（3）

其中，是像素点/>的查询向量，/>是像素点j的键向量，/>和 />是相对宽度的和相对高度的学习的嵌入表征，（3）式转换为：

（4）

其中，，并且/>，/>和/>满足和/>，/>，/>分别指从深度卷积网络中得到的张量的H、W向量与注意力机制结合后的乘积，即为H、W层在注意力机制中的权重。

7.根据权利要求1所述的基于自注意力机制的遮挡人脸面部表情深度卷积识别方法，其特征在于，所述表情分类模块将遮挡人脸表情分为7种类别，包括快乐、悲伤、生气、厌恶、惊讶、害怕和自然；所述表情分类模块包括两个全连接层和交叉熵损失函数。