CN115909455A

CN115909455A - 多尺度特征提取与注意力机制融合的表情识别方法

Info

Publication number: CN115909455A
Application number: CN202211457045.2A
Authority: CN
Inventors: 陈千千; 贺广均; 梁颖; 符晗; 冯鹏铭
Original assignee: Space Star Technology Co Ltd
Current assignee: Space Star Technology Co Ltd
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-04
Anticipated expiration: 2042-11-16
Also published as: CN115909455B

Abstract

本发明涉及一种多尺度特征提取与注意力机制融合的表情识别方法，包括：构建复杂的面部图像数据集，对所述面部图像数据集进行处理；建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合；利用所述面部图像数据集对所述表情识别网络模型进行训练和优化；利用训练好的表情识别网络模型识别输入的面部图像，预测对应的表情类别。该方法可以有效改善不可控的真实复杂环境下的面部表情识别效果。

Description

多尺度特征提取与注意力机制融合的表情识别方法

技术领域

本发明涉及表情识别技术领域，尤其涉及一种多尺度特征提取与注意力机制融合的表情识别方法。

背景技术

面部表情包含了丰富的情感信息，传递着沟通者的真实心理状态，在人际交往中扮演着十分重要的角色。面部表情识别旨在通过对计算机获取的面部图像进行预处理、特征提取以及特征分类，涵盖了心理学、生理学以及计算机科学。面部表情识别被广泛应用在医疗、远程教学、智慧城市以及人机交互等众多领域。

面部表情识别的预处理过程包括面部对齐、归一化处理以及数据增强。特征的提取是面部表情识别的核心，包含传统的手工特征以及基于深度学习的特征。由于深度学习技术的发展，面部表情的识别性能得到极大提升。面部特征的非刚性特点使得提取通用的表情特征成为一项巨大的挑战，例如，不同人群呈现出同一种表情会有巨大的不同，同一个体的相同表情的呈现强度也不同。此外，复杂的数据采集环境使得样本呈现出多样性，与表情无关的属性降低了表情识别的性能。现有的大多数表情识别算法针对于实验室可控环境下采集的数据。所以，不可控环境下的面部表情识别有较大的发展空间，对其进行研究有着重要的应用价值。

发明内容

为解决上述现有技术存在的技术问题，本发明的目的在于提供一种多尺度特征提取与注意力机制融合的表情识别方法，可以有效改善不可控的真实复杂环境下的面部表情识别效果。

为实现上述发明目的，本发明的技术方案是：

本发明提供一种多尺度特征提取与注意力机制融合的表情识别方法，包括：

构建复杂的面部图像数据集，对所述面部图像数据集进行处理；

建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合；

利用所述面部图像数据集对所述表情识别网络模型进行训练和优化；

利用训练好的表情识别网络模型识别输入的面部图像，预测对应的表情类别。

根据本发明的一个方面，构建复杂的面部图像数据集，包括：

制作表情类别标签并作为对应的关键词条；

使用关键词条及对应的近义词的中英文表达，输入多种搜索引擎，利用Python爬虫方式检索得到大量含有复杂表情的面部图像，将所述面部图像保存到对应的表情类别文件夹。

根据本发明的一个方面，所述表情类别标签包括悲伤、愤怒、惊讶、恐惧、高兴、厌恶、蔑视和中性表情共计8种。

根据本发明的一个方面，对所述面部图像数据集进行处理，包括：

采用MTCNN检测算法对所述面部图像进行数据清洗，过滤噪声图像数据，并检查面部图像对应的表情类别标签；

将清洗后的面部图像的灰度进行归一化处理，将不同格式的面部图像转化为单通道面部图像，使用MTCNN网络检测面部图像并进行裁剪，实现面部对齐；

将裁剪后的面部图像的尺寸进行归一化处理，以不同角度旋转和水平翻转面部图像，加入椒盐噪声和散斑噪声，增强面部图像数据，其中，旋转角度为-15°～15°，以3°为间隔进行旋转。

根据本发明的一个方面，所述裁剪的方式为：

I_crop＝I_dec[γ₁×δ_W:W-γ₁×δ_W,γ₂×δ_H:H-γ₂×δ_H]

其中，I_crop、I_dec分别表示裁剪后的面部图像和检测裁剪的面部图像，γ₁、γ₂分别表示面部图像的宽和高的裁剪因子，δ_W、δ_H分别表示裁剪的宽度差和高度差，W、H分别表示检测后的面部图像的宽和高。

根据本发明的一个方面，建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合，包括：

建立表情识别网络模型，所述表情识别网络模型包含全局特征提取网络和局部特征提取网络；

利用所述全局特征提取网络多尺度提取所述面部图像数据集中面部图像的整体表情特征，将所述面部图像四等分得到局部区域图像，并输入所述局部特征提取网络，使用注意力机制加强有效的局部表情特征；

分别在所述全局特征提取网络的第二个基本卷积模块、第一个多尺度特征提取模块、第二个多尺度特征提取模块和第三个多尺度特征提取模块之后分别加入所述局部特征提取网络的第二个基本卷积模块、第一个注意力模块、第二个注意力模块和第二个注意力模块的上采样特征，将所述整体表情特征和所述局部表情特征进行融合；

将融合后的表情特征经过全局平均池化和全连接层，通过softmax输出每种表情类别的概率，表示为：

其中，y_i表示第i类表情类别的输出概率，z_i表示第i类表情类别的输出值，j表示表情类别的总数，预测的表情类别为概率最大的表情类别。

根据本发明的一个方面，所述全局特征提取网络依次由2个基本卷积模块、3个多尺度特征提取模块、全局平均池化和全连接分类层连接而成，

所述基本卷积模块包括卷积层、批归一化层和激活函数层，所述卷积层的滤波器尺寸为3×3；

多尺度特征提取模块包括基本残差模块和多尺度特征模块，所述基本残差模块使用ResNet18中的残差模块并融合了1×1的卷积特征；所述多尺度特征模块通过1×1的卷积对整体表情特征进行升维处理，并将升维后的多通道特征进行平均分组，采用3×3的深度可分离卷积依次将各组的特征与其前一组提取的特征进行融合并输入通道注意力模块，再经过1×1的卷积进行降维处理。

根据本发明的一个方面，所述局部特征提取网络依次由2个基本卷积模块和2个注意力模块连接而成，

所述注意力模块采用瓶颈模块作为基本模块，并使用通道空间注意力机制。

根据本发明的一个方面，利用所述面部图像数据集对所述表情识别网络模型进行训练和优化，包括：

设计损失函数，并采用Focal Loss，表示为：

FLoss＝-α_c(1-p_c)^βlog(p_c)

其中，α_c表示对应表情类别的权重，p_c表示预测为第c类的概率，β表示超参数；

利用初始的面部表情数据集和数据增强后的面部表情数据集输入对所述表情识别网络模型进行训练，并设置所述表情识别网络模型的参数，利用优化器对所述表情识别网络模型进行优化。

根据本发明的一个方面，所述表情识别网络模型的参数包括学习率、学习率衰减策略和训练的迭代次数，其中，所述学习率衰减策略为指数衰减策略，表示为：

LR′＝LR×γ^epoch

其中，LR′、LR分别表示衰减后的学习率与初始的学习率，γ表示衰减指数，epoch表示当前训练的轮次数；

所述优化器为Adam优化器。

与现有技术相比，本发明具有以下有益效果：

根据本发明的方案，构建由全局特征提取网络和局部特征提取网络构成的具有多分支网络的表情识别网络模型，通过融合多尺度特征提取与注意力机制，对面部图像数据集中的复杂面部表情的整体特征和局部特征进行提取和融合，提高了对不可控环境下的复杂表情的识别能力。

根据本发明的一个方案，通过构建表情类别的词条以及近义词，并通过各种搜索引擎结合爬虫的方式检索尽可能多的具有丰富面部表情的面部图像，通过粗略清洗以及精细筛选的方式获取数据容量大且复杂多样的表情样本，可以构成来源于多样采集环境的待识别的面部图像数据集。

根据本发明的一个方案，全局特征提取网络中的多尺度特征提取模块将特征图分组，使用前一分组的卷积后特征与当前分组的原始特征作为输入，在参数较少的情况下，增大了感受野，使得提取的特征具有不同的细粒度。同时，考虑到局部遮挡的情况，将含有面部局部表情特征的子区域图像作为局部特征提取网络的输入，并利用注意力机制加强子区域的重要面部特征。再将不同级别的子区域特征连接，上采样加入到全局特征提取网络，全局与局部重要面部特征在网络的不同层上融合，使得信息在不同层、不同尺度上进行流动，增强了表情识别网络模型对复杂面部表情数据的鲁棒性。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性表示本发明实施例公开的一种多尺度特征提取与注意力机制融合的表情识别方法的流程图；

图2示意性表示本发明实施例公开的一种多尺度特征提取与注意力机制融合的表情识别方法的具体实施流程图；

图3示意性表示本发明实施例建立的表情识别网络模型的网络架构图；

图4示意性表示本发明实施例构建的全局特征提取网络中多尺度特征提取模块的网络架构图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

根据本发明的构思，针对不可控的真实复杂环境下复杂多样的面部表情识别问题，本发明实施例公开一种多尺度特征提取与注意力机制融合的表情识别方法，采用多尺度特征提取与注意力机制融合的深度学习框架，通过融合面部的全局表情特征和面部切片的局部表情特征，改善了不可控环境下的面部表情识别效果，从而实现复杂面部表情的高精度识别。

参见图1和图2，本发明实施例公开的一种多尺度特征提取与注意力机制融合的表情识别方法，其具体实现流程包括以下步骤：

步骤100，构建复杂的面部图像数据集，对所述面部图像数据集进行处理。

一些实施例中，步骤100中构建复杂的面部图像数据集的具体实施过程，包括：

先制作表情类别标签并作为对应的关键词条。进一步地，所述表情类别标签包括悲伤、愤怒、惊讶、恐惧、高兴、厌恶、蔑视和中性表情共计8种。

然后使用关键词条及对应的近义词的中英文表达，输入多种搜索引擎，示例性地，例如，高兴可以与幸福、快乐和happy等关键词一起输入各大搜索引擎进行搜索，悲伤可以与伤心、沮丧和sad等关键词一起输入各大搜索引擎。之后，再利用Python使用爬虫方式进行图像检索，得到大量含有复杂表情的面部图像，并将所述面部图像保存到对应的表情类别文件夹。这样就构建了包含大量、复杂面部表情且多样的面部图像数据以及对应的表情类别标签数据的面部表情数据集。

一些实施例中，参见图2，步骤100中对所述面部图像数据集进行处理的具体实施过程，包括：

首先，采用MTCNN检测算法对所述面部图像进行数据清洗，过滤噪声图像数据，并检查面部图像对应的表情类别标签。实际上，通过所述步骤100中检索得到的具有复杂表情的面部图像包含了大量的噪声数据，例如非人脸图像和卡通图像等。考虑到检索到的图像的复杂多样性，本实施例采用鲁棒性更强的MTCNN检测算法对图像数据进行数据清洗，过滤掉未检测出人脸的图像样本。在粗清洗之后，通过多人交叉检查数据标签的正确性，保证面部图像对应的标签是准确的，实现精细筛选。

然后，将清洗后的面部图像的灰度进行归一化处理，将不同格式的面部图像转化为单通道面部图像，使用MTCNN网络检测面部图像并进行裁剪，实现面部对齐。考虑到检索得到的图像包含了复杂的背景，这将会影响后续的特征提取，所以为了移除与面部表情无关的背景信息，在特征提取之前，先对图像进行面部对齐。其中，图像灰度的归一化处理和图像格式的转化，可以减少计算量。在移除无关背景信息的同时考虑到表情特征在面部的分布，使用鲁棒性更强的MTCNN网络对面部图像及其表情使用如下裁剪方式进行裁剪：

I_crop＝I_dec[γ₁×δ_w:W-γ₁×δ_W,γ₂×δ_H:H-γ₂×δ_H]

可选地，示例性地，由于面部表情的重要特征主要分布在眼部和嘴部周围的区域，当人处于惊讶的状态(多数伴随着嘴部区域的张开)设置裁剪因子γ₂为1/3，γ₁为1/2，可以保证面部下半区域的保留。

接着，将裁剪后的面部图像的尺寸进行归一化处理，以不同角度旋转和水平翻转面部图像，加入椒盐噪声和散斑噪声，增强面部图像数据，其中，旋转角度为-15°～15°，以3°为间隔进行旋转。示例性地，归一化的尺寸为128×128。在原有面部图像样本中加入椒盐噪声和散斑噪声，可以增加表情识别网络模型对噪声的鲁棒性。

步骤200，建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合。

一些实施例中，参见图3，步骤200中建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合的具体实施过程，包括：

首先，建立表情识别网络模型，所述表情识别网络模型包含全局特征提取网络和局部特征提取网络。

具体的，所述全局特征提取网络依次由2个基本卷积模块、3个多尺度特征提取模块、全局平均池化和全连接分类层连接而成。其中，所述基本卷积模块包括卷积层、批归一化层(Batch Normalization，BN)和激活函数层，所述卷积层的滤波器尺寸采用3×3。参见图4，所述多尺度特征提取模块包括基本残差模块和多尺度特征模块，所述基本残差模块使用ResNet18中的残差模块并融合了1×1的卷积特征。所述多尺度特征模块通过1×1的卷积对整体表情特征进行升维处理，并将升维后的多通道特征进行平均分组，采用3×3的深度可分离卷积依次将各组的特征与其前一组提取的特征进行融合并输入通道注意力模块，再经过1×1的卷积进行降维处理，可以在增大感受野的同时丰富了所提取的表情特征。

具体的，所述局部特征提取网络依次由2个基本卷积模块和2个注意力模块连接而成。其中，所述基本卷积模块包括卷积层、批归一化层(Batch Normalization，BN)和激活函数层，所述卷积层的滤波器尺寸为3×3；所述注意力模块采用瓶颈模块作为基本模块，其滤波器组合为1×1+3×3+1×1，并使用通道空间注意力机制(Convolutional BlockAttention Module，CBAM)。

然后，利用所述全局特征提取网络多尺度提取所述面部图像数据集中面部图像的整体表情特征，将所述面部图像四等分得到局部区域图像，并输入所述局部特征提取网络，使用注意力机制加强有效的局部表情特征。

本实施例中，将面部图像数据集中的整张面部图像，即面部整体区域作为全局特征提取网络的输入，经过2个基本卷积模块之后特征图的纬度为64×64×64。参见图4，通过1×1的卷积对特征通道进行升维处理，加上BN层以及Swish激活函数，然后依据特征通道并进行分组，对上述的4个分组采用卷积滤波方式直接输出给3×3的深度可分离卷积，后两组的特征输入均为原始分组的特征与前一分组经过3×3深度可分离卷积的特征融合后的融合特征。之后，将四个通道连接，对连接后的特征输入到通道注意力模块中，再经过一个1×1的卷积进行降维处理，并加入到原始输入作为输出。经过3个多尺度特征提取模块后的特征尺寸为8×8×512。

由于所述步骤100中检索得到的面部图像数据集中的面部图像样本可能存在各种遮挡或者存着侧脸等情况，而重要的表情特征在眼部和嘴部，因此将面部图像四等分为面部局部区域图像，这四个面部分区域或子区域中必定包含无遮挡的部分。将面部图像数据集中的整张面部图像四等分后得到的面部分区域作为局部特征提取网络的输入。

再者，分别在所述全局特征提取网络的第二个基本卷积模块、第一个多尺度特征提取模块、第二个多尺度特征提取模块和第三个多尺度特征提取模块之后分别各自加入所述局部特征提取网络的第二个基本卷积模块、第一个注意力模块、第二个注意力模块和第二个注意力模块的上采样特征，将所述整体表情特征和所述局部表情特征进行融合。如此，本实施例的表情识别网络模型融合了多尺度特征与注意力机制，分别提取人脸面部的整体表情特征和局部表情特征，并在表情识别网络模型的不同层进行融合，可以增强人脸局部的有效特征，从而提高复杂表情的识别能力。

最后，将融合后的表情特征经过全局平均池化和全连接层，通过softmax输出每种表情类别的概率，表示为：

步骤300，利用所述面部图像数据集对所述表情识别网络模型进行训练和优化。

一些实施例中，步骤300中利用所述面部图像数据集对所述表情识别网络模型进行训练和优化的具体实施过程，包括：

由于通过不同搜索引擎构建的面部图像数据集存在类别不均衡的情况，例如，厌恶与蔑视的表情较少，而高兴与中性的表情居多。设计损失函数，并采用Focal Loss，表示为：

FLoss＝-α_c(1-p_c)^βlog(p_c)

其中，α_c表示对应表情类别的权重，p_c表示预测为第c类的概率，β表示超参数。

具体的，所述表情识别网络模型的参数包括学习率、学习率衰减策略和训练的迭代次数，其中，所述学习率衰减策略为指数衰减策略，表示为：

LR′＝LR×γ^epoch

其中，LR′、LR分别表示衰减后的学习率与初始的学习率，γ表示衰减指数，epoch表示当前训练的轮次数。

优选地，所述优化器为Adam优化器。

步骤400，利用训练好的表情识别网络模型识别输入的面部图像，预测对应的表情类别。

综上所述，本实施例公开的上述多尺度特征提取与注意力机制融合的表情识别方法，先通过制作表情类别以及相应的近义词词条，使用爬虫的方式搜索面部图像，通过粗清洗以及精筛选的方式来构建大规模且复杂、用于表情识别的面部图像数据集。通过将整张面部图像作为输入，输入构建的全局特征提取网络，利用多尺度特征提取模块，以较少的参数获取不同感受野的面部特征。再通过整幅图像划分为四等分，将包含局部面部表情特征的子区域作为输入，输入构建的局部特征提取网络，并使用残差注意力模块，加强面部的局部有效特征。最后通过将局部区域注意力特征进行拼接、上采样，再加入到对应的全局特征中，增强面部重要特征的流动，对有效特征进行较强，可以提升表情识别的性能。

对于本发明的方法所涉及的上述各个步骤的序号并不意味着方法执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明的实施方式的实施过程构成任何限定。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种多尺度特征提取与注意力机制融合的表情识别方法，包括：

2.根据权利要求1所述的方法，其特征在于，构建复杂的面部图像数据集，包括：

制作表情类别标签并作为对应的关键词条；

3.根据权利要求2所述的方法，其特征在于，所述表情类别标签包括悲伤、愤怒、惊讶、恐惧、高兴、厌恶、蔑视和中性表情共计8种。

4.根据权利要求2所述的方法，其特征在于，对所述面部图像数据集进行处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述裁剪的方式为：

I_crop＝I_dec[γ₁×δ_W:W-γ₁×δ_W,γ₂×δ_H:H-γ₂×δ_H]

6.根据权利要求1所述的方法，其特征在于，建立表情识别网络模型，对所述面部图像数据集多尺度提取面部图像的整体表情特征，并利用注意力机制加强有效的局部表情特征，将所述整体表情特征和所述局部表情特征进行融合，包括：

7.根据权利要求6所述的方法，其特征在于，所述全局特征提取网络依次由2个基本卷积模块、3个多尺度特征提取模块、全局平均池化和全连接分类层连接而成，

8.根据权利要求6所述的方法，其特征在于，所述局部特征提取网络依次由2个基本卷积模块和2个注意力模块连接而成，

9.根据权利要求1所述的方法，其特征在于，利用所述面部图像数据集对所述表情识别网络模型进行训练和优化，包括：

设计损失函数，并采用FocalLoss，表示为：

FLoss＝-α_c(1-p_c)^βlog(p_c)

10.根据权利要求9所述的方法，其特征在于，所述表情识别网络模型的参数包括学习率、学习率衰减策略和训练的迭代次数，其中，所述学习率衰减策略为指数衰减策略，表示为：

LR′＝LR×γ^epoch

所述优化器为Adam优化器。