CN116645716B

CN116645716B - 基于局部特征和全局特征的表情识别方法

Info

Publication number: CN116645716B
Application number: CN202310634726.XA
Authority: CN
Inventors: 郁舒兰; 储东东; 凌禹杭; 赵扬
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2024-01-19
Anticipated expiration: 2043-05-31
Also published as: CN116645716A

Abstract

本发明公开了一种基于局部特征和全局特征的表情识别方法，包括：获取人脸表情图像数据集；构建基于局部特征和全局特征的人脸表情识别模型，包括多尺度局部特征提取融合网络以及vit网络；基于训练好的人脸表情识别模型获取待测的人脸表情图像的表情识别结果。本发明不仅利用多尺度局部特征提取融合网络扩大感受野的特性，提取人脸图像中不同尺度的局部特征，减小无用信息的干扰，增强有用信息，将这些多尺度局部特征通过改进的注意力机制融合，通过vit网络，利用其能够学习全局特征的优势，将多尺度局部特征提取融合网络所得局部特征作为原始特征图，输入vit中进一步学习全局特征，输出最终表情分类结果，有效提高人脸表情识别的准确率。

Description

基于局部特征和全局特征的表情识别方法

技术领域

本发明属于图像处理与模式识别技术领域，涉及一种人脸表情识别方法，具体是一种基于局部特征和全局特征的表情识别方法，可用于人机交互、智慧教育、情感激励等领域。

背景技术

随着时代的发展，出现了两大类用于识别面部表情的方法，传统的面部表情识别方法和基于深度学习的面部表情识别方法。传统的面部表情识别方法的识别过程大致分为三个步骤，首先进行面部表情图像预处理，其次对面部表情的特征进行提取，最后训练分类器模型进行面部表情分类识别。相较于传统的面部表情识别方法，基于深度学习的面部表情识别方法可以自动提取特征，同时进行特征提取与分类识别两部分，实现了图像到图像的识别模式。因此，搭建合适的深度学习网络模型是这一类方法研究的重点。

大多数使用传统的方法进行面部表情识别的研究者都将特征提取作为他们研究的重点，找到一种性能良好的特征将大幅度提高面部表情的识别率。因此这里将按照特征提取的方法分类介绍面部表情识别的研究现状。

基于全局的特征提取方法：这种方法首先提取整张人脸上的所有特征，之后在尽量保留人脸关键信息的基础上去除一些重复特征以及无用特征，也就是降维操作，最后就获得了可以使用的特征。其代表性方法为主成分分析(PCA)方法，但是这种方法存在一些缺点，比如计算量大、识别率低等。

基于局部的特征提取方法：在这类特征提取的方法中，研究者多数使用提取纹理特征的方法来提取面部表情的特征，常用的方法有局部二值模式(LBP)、方向梯度直方图(HOG)、Gabor变换等。传统的LBP算子在提取细节丰富的面部表情图像特征时，容易丢失部分细节，造成最终识别率的下降。

虽然表情需要基于人的面部表达和显示，但这并不代表人的面部内所有信息都是有用信息，表情信息并非均匀地分布在整张人脸上。目前，在该方面，学术界普遍认为，在面部表情识别分类时，人脸内可用于识别的可用信息较多地集中于眼框、眉毛、鼻子、嘴巴的外轮廓等部位，往往通过观察这几个部位便能判断表情类别，而额头、脸颊等部分以及皮肤颜色等方面并无多少可用信息，甚至面部的一些生理缺陷如斑点痤疮会形成噪声，不利于神经网络模型的鲁棒性和分类结果。目前所流行的主要神经网络模型多是卷积神经网络，其通过固定大小的卷积核的窗口滑动的方式提取信息、聚合特征，但因为卷积核的尺寸相对较小，使得卷积的感受野较小，提取的特征多是局部特征，容易受到噪声的干扰，使无用信息在模型训练时被过度学习。

基于上述问题，目前，国内外一些研究人员提出，将传统机器学习和深度学习结合的解决方式。在表情识别时，对图像预先使用传统机器学习的方法手动提取特征，再输入神经网络模型中。这种方法虽然能够较好地避免无用信息噪声的干扰，提高识别率，甚至是一定程度上降低神经网络的计算量，但是这种方法失去了深度学习的意义，在使用时，都需事先手动提取特征，无法显现深度学习端到端的优势和更强的模型性能，且与其他深度学习方法相比鲁棒性较差。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于局部特征和全局特征的表情识别方法，本基于局部特征和全局特征的表情识别方法不仅利用基于改进res2net残差块和改进注意力机制的多尺度局部特征提取融合网络扩大感受野的特性，提取人脸图像中不同尺度的局部特征，以减小无用信息的干扰，增强有用信息，并将这些多尺度局部特征通过改进的注意力机制融合，还通过搭建vit网络，利用其能够学习全局特征的优势，将多尺度局部特征提取融合网络所得局部特征作为原始特征图，输入vit中进一步学习全局特征，并输出最终的表情分类结果，从而一定程度上缓解vit神经网络模型对输入图像的大小固定，以及对数据量要求过高的数据饥渴问题，进而能有效提高人脸表情识别的准确率。

为实现上述技术目的，本发明采取的技术方案为：

一种基于局部特征和全局特征的表情识别方法，包括：

步骤1：获取人脸表情图像数据集；

步骤2：构建基于局部特征和全局特征的人脸表情识别模型，基于局部特征和全局特征的人脸表情识别模型包括多尺度局部特征提取融合网络以及vit网络；

步骤3：采用步骤1中的人脸表情图像数据集训练人脸表情识别模型；

步骤4：基于训练好的人脸表情识别模型获取待测的人脸表情图像的表情识别结果。

作为本发明进一步改进的技术方案，所述的步骤1具体为：

获取多张人脸表情图像，并标注出每张人脸表情图像的表情类别，将人脸表情图像以及其对应的表情类别作为初始人脸表情图像数据集；

对初始人脸表情图像数据集分别进行数据增强，获得增强后的人脸表情图像数据集。

作为本发明进一步改进的技术方案，所述的步骤2包括：

搭建基于残差块和注意力机制的多尺度局部特征提取融合网络；

多尺度局部特征提取融合网络依次包括卷积块、多个残差块和后处理块；经卷积块操作后的特征图输送至残差块，经某一残差块处理后的特征图与经该残差块处理前的特征图相加后输送至下一个残差块，经最后一个残差块处理后的特征图与经该残差块处理前的特征图相加后输送至后处理块；

所述卷积块依次包括卷积层、批次归一化层、ReLu激活层和最大池化层；

所述残差块包括跨分支残差块和混合注意力特征融合模块；

所述后处理块包括双线性插值层、卷积层、批次归一化层和LeakyReLu激活层。

作为本发明进一步改进的技术方案，所述的跨分支残差块的计算过程为：

特征图X通过1×1卷积操作后分为子特征图X₁、子特征图X₂、子特征图X₃和子特征图X₄，子特征图X₁经过1×1卷积操作后得到第一个分支输出Y₁，子特征图X₂和输出Y₁相加后经过3×3卷积操作后得到第二个分支输出Y₂，子特征图X₃、输出Y₁和输出Y₂相加后经过5×5卷积操作后得到第三个分支输出Y₃，子特征图X₄、输出Y₁、输出Y₂和输出Y₃相加后经过7×7卷积操作后得到第四个分支输出Y₄，将输出Y₁、输出Y₂、输出Y₃和输出Y₄经过1×1卷积操作后拼接为输出Z，输出Z与特征图X相加后作为跨分支残差块的输出。

作为本发明进一步改进的技术方案，所述的混合注意力特征融合模块的计算过程为：

将特征图N分别输入空间域注意力模块和通道域注意力模块，将得到的结果逐点相乘后，经过sigmoid激活函数后，与特征图N相乘，得到混合注意力特征融合模块的输出M；

公式如下：

其中SA(N)表示将特征图N输入空间域注意力模块的输出结果，CA(N)表示将特征图N输入通道域注意力模块的输出结果，σ(·)表示Sigmoid激活，表示逐点相乘；

通道域注意力模块的计算过程为：

CA(N)＝σ(f(GMp(N))+f(GAp(N)))；

其中，GMp(N)表示对特征图N进行全局最大池化,GAp(N)表示对特征图N进行全局平均池化，f(·)表示1d卷积；

空间域注意力模块的计算过程为：

SA(N)＝σ(f^7×7([AvgPool(N)；MaxPool(N)]))；

其中，AvgPool(N)表示对特征图N在通道维度上进行平均池化,MaxPool(N)表示对特征图N在通道维度上进行最大池化，[AvgPool(N)；MaxPool(N)]表示将AvgPool(N)产生的特征图与MaxPool(N)产生的特征图进行拼接，f^7×7表示7×7卷积层。

作为本发明进一步改进的技术方案，所述的步骤2还包括：

搭建vit网络，vit网络包括图像嵌入模块、类别嵌入模块、6个Transformer编码器和多层感知机分类层。

作为本发明进一步改进的技术方案，所述的步骤3包括：

将人脸表情图像数据集按照4：1的比例划分训练集和测试集；

利用训练集先对多尺度局部特征提取融合网络进行训练，训练完毕后将多尺度局部特征提取融合网络内的权重参数冻结，与vit网络级联组成完整的基于局部特征和全局特征的人脸表情识别模型后，再对人脸表情识别模型内vit网络进行训练。

本发明的有益效果为：

本发明解决了现有技术中存在的因为在面部表情识别时其他不重要特征的无多少可用信息与生理缺陷形成的噪声，不利于神经网络模型的鲁棒性和分类结果和因为流行的神经网络模型多是卷积神经网络，而卷积核的尺寸相对较小，使得卷积的感受野较小，提取的特征多是局部特征，容易受到噪声的干扰，使无用信息在模型训练时被过度学习的技术问题。

本发明提出的一种基于局部特征和全局特征的表情识别方法，不仅利用改进的res2net残差模块扩大感受野的特性，提取人脸图像中不同尺度的局部特征，以减小无用信息的干扰，增强有用信息，并将这些多尺度局部特征通过改进的注意力机制融合，还通过搭建一个vit(visual transformer,视觉编码器)网络，利用其能够学习全局特征的优势，将多尺度局部特征提取融合网络所得局部特征作为原始特征图，输入vit中进一步学习全局特征，并输出最终的表情分类结果，从而一定程度上缓解vit神经网络模型对输入图像的大小固定，以及对数据量要求过高的数据饥渴问题，进而能有效提高人脸表情识别的准确率，可用于人机交互、智慧教育、情感激励等领域。

附图说明

图1是本发明的实现流程图。

图2是本发明的多尺度局部特征提取融合网络模型框架图。

图3是本发明的跨分支残差块示意图。

图4是本发明的混合注意力特征融合模块结构图。

图5是本发明的后处理模块示意图。

图6是本发明的ViT原理示意图。

图7是本发明多尺度局部特征提取融合网络的训练损失图。

图8是本发明多尺度局部特征提取融合网络的top-1accuracy曲线图。

图9是本发明基于全局特征的vit网络的准确率曲线图。

图10是本发明基于全局特征的vit网络的训练损失图。

具体实施方式

下面根据附图对本发明的具体实施方式作出进一步说明：

参照图1，本发明提供一种基于局部特征和全局特征的表情识别方法，包括：

步骤1：获取训练用的人脸表情图像数据集。

步骤1a：首先，对现有的数据集进行观察和分析，确认了人脸表情数据集的七个表情类别，包括高兴、惊讶、悲伤、愤怒、恐惧、厌恶和中性表情。接着，采用三种方式获取人脸表情图像，分别为招募大学生志愿者拍摄表情图片、利用网络爬虫技术以及从大学校园相关视频中抽帧，为避免抽出的图像相似度过高，本发明在编写抽帧程序时设定了较大的抽帧间隔，此外，在从视频抽帧时，本发明设置各类表情的图像获取1500张图片，总计10500张，以此确保获得足够数量和多样性的表情图像。最后将这些数据组合并分类，即标注出每张人脸表情图像的表情类别，用以制作为人脸表情图像数据集。

步骤1b：对图像数据初步的处理，筛选并剔除非质量过差无法采用算法增强或修复、表情不明显的图片，留下具有代表性且质量高的图片，经过对每个类别的图像进行筛选和剔除后，剩余图像约10000张左右。然后，使用人脸检测算法对图像和视频中的人脸进行定位和裁剪，并进行灰度化。接着，采用多种数据增强方式来扩充人脸表情图像数据集，以提高图像质量，包括对图像进行随机变换、改变光照条件、添加噪声等方法。最终成功构建了一个包含七个表情类别的人脸表情数据集。

步骤2：构建基于局部特征和全局特征的人脸表情识别模型，基于局部特征和全局特征的人脸表情识别模型包括多尺度局部特征提取融合网络以及vit网络。

步骤2a：搭建基于改进res2net残差块和改进注意力机制的多尺度局部特征提取融合网络。

首先，在模型构建时，针对提出的多尺度局部特征提取融合网络框架应用到多尺度特征提取任务之中时，需要将模型进行改进，本发明对此进行了如下两项工作：

1、在模型结构方面，先是压缩res2net50模型的层数，降低模型的res2net残差块的堆叠和网络深度；然后在残差块内去除下采样，同时适当扩大各分支卷积核的尺寸，并添加跨分支残差shortcut短连接，构建新的残差块——cross brunch res2net block(cbrblock，跨分支残差块)，便于输入vit网络模型的前处理。

2、在模块化设计方面，设计高效的特征融合模块代替res2net50在标准残差块中采用的1×1标准卷积层，并引入了混合域注意力机制用以特征融合——MAFFM(Mixedattention feature fusion module，混合注意力特征融合模块)，以整合各分支的细粒度特征。

其次，如图2所示，确定多尺度局部特征提取融合网络模型框架，尺度局部特征提取融合网络依次包括卷积块、8个残差块和后处理块。

在模块设计方面，原始图像在输入网络后，首先进入第一个卷积块，其包含一个卷积核尺寸为7、步长为2的卷积层、一个批次归一化层、一个ReLu激活层以及一个池化核尺寸为3、步长为2的最大池化层组成，原始图像在经过该卷积块时，会被两次下采样；在该卷积块之后，是数个改进后的残差块的堆叠，其中每个残差块中包含了一个cbr block(跨分支残差块)、一个MAFF Moudle(Mixed attention feature fusion module，混合注意力特征融合模块)，以及一次sc(skip connect，跳跃连接)，将经残差块处理后的特征图与处理之前的特征图相加。即：经卷积块操作后的特征图输送至残差块，经某一残差块处理后的特征图与经该残差块处理前的特征图相加后输送至下一个残差块，经最后一个残差块处理后的特征图与经该残差块处理前的特征图相加后输送至后处理块。

在网络模型中，将原本网络模型中的18个残差块缩减为8个。在网络的最后，添加了后处理块，所述后处理块包括双线性插值层、卷积层、批次归一化层和LeakyReLu激活层。后处理块目的是对经残差块输出的特征图进行后处理，通过双线性插值方法，将其特征图尺寸调整至56×56。

接着，在模型基本框架确定后，设计基于分支间多次残差短连接的跨分支残差块，并将其嵌入到浅层骨架之中。如图3所述，所述的跨分支残差块的计算过程为：

假设，跨分支残差块输入的特征图为特征图X，特征图X通过1×1卷积操作后分为子特征图X₁、子特征图X₂、子特征图X₃和子特征图X₄，子特征图X₁经过第一个分支上的1×1卷积操作后得到第一个分支输出Y₁，子特征图X₂和输出Y₁相加后经过第二个分支上的3×3卷积操作后得到第二个分支输出Y₂，子特征图X₃、输出Y₁和输出Y₂相加后经过第三个分支上的5×5卷积操作后得到第三个分支输出Y₃，子特征图X₄、输出Y₁、输出Y₂和输出Y₃相加后经过第四个分支上的7×7卷积操作后得到第四个分支输出Y₄，将输出Y₁、输出Y₂、输出Y₃和输出Y₄经过1×1卷积操作后拼接为输出Z，输出Z与特征图X相加后作为跨分支残差块的输出。

如公式(1)所示：

其中，f_i()是第i个分支上的卷积核。

根据公式2可知，相比原Res2net的残差块，经上述三个方面改进所得的跨分支残差块，感受野更大，感受野对比如表1所示；

式中为第k-1层对应的感受野大小，f_k为第k层的感受野大小，或者池化层的池化尺寸大小，S_i表示第i层卷积stride(步长)的大小或者池化stride(步长)大小。

表1：感受野对比：

分支No.	原Res2net残差块	跨分支残差块
			1(一)	1	1
2(二)	3	3
			3(三)	5	7
4(四)	7	13

由公式(2)可推导出跨分支残差块(cbr block)第k分支的卷积层感受野公式(3)，若卷积步长stride为1，并保持卷积核尺寸的递进，则增加跨分支残差块内分支的数量，即可获得的感受野组合更多，且感受野随着分支数量增加而呈指数级增加。

此外，在下采样方面，常用的下采样操作包括最大池化和平均池化。本发明认为，在原Res2net网络模型中，下采样的次数过多，导致特征图的尺寸急剧缩小，无法保持特征，造成信息丢失，不利于提升模型的特征提取能力；且经原Res2net网络模型所得特征图尺寸过小，以原始图像大小为224×224为例，经原Res2net网络模型所得特征图尺寸仅为7×7，过小的特征图尺寸无法作为后续的vit网络的输入，同时也使得局部特征被高强度压缩聚合，破坏了原本的全局特征，这对于旨在学习全局特征的vit网络来说是毫无意义的。故而，本发明去除了原Res2net模型除前处理模块之外的所有残差块的下采样。最后，引入了空间域注意力机制和通道域注意力机制，并对通道域注意力机制加以改进，分别为特征层添加不同权重，构建混合域注意力机制作为混合注意力特征融合模块的基础。

如图4所示，本发明改进后的通道域注意力机制，也即通道域注意力模块的操作流程如公式(4)所示；

CA(N)＝σ(f(GMp(N))+f(GAp(N))) (4)；

其中，GMp(N)表示对特征图N进行全局最大池化(Global Maxpool)，GAp(N)表示对特征图N进行全局平均池化(Global Avgpool)，f(·)表示1d卷积(Conv1d)，σ(·)表示Sigmoid激活归一化(Sigmoid)，图4中的⊕表示逐点相加，即公式(4)中的加号。

具体改动为，首先在原SE注意力机制中添加了全局最大池化层，从显著特征和平均特征两个角度来关注和计算每个通道的权重。然后去除了原SE注意力机制中的两个全连接层和ReLU激活层，以1d卷积替代。

如图4所示，引入的空间域注意力模块，如公式(5)所示。

SA(N)＝σ(f^7×7([AvgPool(N)；MaxPool(N)])) (5)；

其中，AvgPool(N)表示对特征图N在通道维度上进行平均池化(Channel-refinedMaxpool)；MaxPool(N)表示对特征图N在通道维度上进行最大池化(Channel-refinedAvgpool)；[AvgPool(N)；MaxPool(N)]表示将AvgPool(N)产生的特征图与MaxPool(N)产生的特征图进行拼接(cancat)，拼接步骤涉及到将在通道注意力机制中生成的经过加权处理的不同通道的特征图进行通道维度上的拼接，以便维持特征图维度的一致性；f^7×7表示7×7卷积层(Conv 7×7)。引入的具体的方法是首先在通道维度平均池化和最大池化，然后将产生的特征图在通道维度上进行拼接(concat)。在拼接后的特征图上，使用7×7卷积层产生最终的空间注意力特征图，经Sigmoid激活归一化后，最后通过乘法加权至原始特征图的每一像素上，完成空间注意力对原始特征的重新标定。

如图4所示，在对通道注意力机制的改进，以及引入和分析空间注意力机制后，本发明基于两者构建了一个混合域注意力机制，命名为MDAM(Mixed-Domain AttentionMechanism，混合域注意力机制)，并以此提出了一个连接至改进的残差块的特征融合模块，命名为MAFFM(Mixed attention feature fusion module，混合域注意力特征融合模块)，以融合残差块提取的多尺度局部特征。图4中scale是指Sigmoid激活后的输出和原特征图相乘，赋予其空间权值和通道权值。

混合域注意力机制的构建主要有两个步骤：

第一步是在每个特征域上计算出注意力权重在这个步骤中，每个特征域都会有自己的注意力权重；第二步是将不同特征域上计算出的注意力权重进行组合。具体来说，可以将注意力权重拼接在一起或进行分步赋予原特征图，得到最终的混合域注意力权重。

构建的混合域注意力机制，首先将特征图分别输入所述空间域注意力机制和通道域注意力机制中，然后将其所得关于空间和通道的权重逐点相乘，经过sigmoid激活函数后，与特征图N相乘，得到混合注意力特征融合模块的输出；如公式(6)所示。

其中SA(N)表示将特征图N输入空间域注意力模块的输出结果，CA(N)表示将特征图N输入通道域注意力模块的输出结果，σ(·)表示Sigmoid激活归一化，表示逐点相乘，N表示混合注意力特征融合模块的输入特征图。

参照图5，在网络的最后，本发明添加了后处理块，对经网络模型主体输出的特征图进行后处理。后处理由一个双线性插值层和一个卷积层、归一化层、激活函数级联组成；在该模块中，首先通过双线性插值方法，将特征图的尺寸调整至合适的大小，在本文中为56×56；在以1×1的逐点卷积将特征图在通道维度降维至3，使输出特征图便于被绘图工具库可视化。

步骤2b：搭建一个vit(visual transformer,视觉编码器)网络，包括以下方法：

参照图6，vit模型只使用Transformer模型的编码器部分，自注意力模块由多头注意力模块(Multiheaded Self-Attenhtion)和多层感知机(Multilayer Perceptron，MLP)模块组成。另外，vit模型在每个注意力模块之前应用层归一化(LayerNorm)，在每个多头注意力块之后应用残差连接，MLP模块包含两个具有GeLU激励的非线性层。

其原理为，首先将图像分割成固定大小的小块，对每个小块平坦化并进行线性嵌入，添加位置嵌入一个额外的可学习的“分类标记”以保留位置信息，并将得到的矢量序列作为Transformer编码器的输入。

发明基于其基本结构搭建了一个用于表情识别模型方法中的全局特征学习和最终分类任务的vit网络。vit网络包括图像嵌入(patch_embedding)模块、类别嵌入(Cla_embedding)模块、6个Transformer编码器(Transformer encoder)和多层感知机分类层(MLP head)。

vit网络模型结构如表2所示：

其中，patch_embedding(图像嵌入)模块为一个卷积层，其输入通道数In_channels为3，输出通道数out_channels为192，卷积核尺寸与步长均为4，以此实现对图像的不重叠的分割，输出尺寸大小为B×192×14×14。在卷积完成后，对所得特征图在第三(宽)和第四维度(高)上进行展平拉伸处理，输出尺寸大小为B×192×196，并与第二维度(通道维度)交换维度，输出尺寸大小为B×196×192。Cla_embedding(类别嵌入)由cls_token_Parameter(类别参数层)、pos_embed_Parameter(位置参数层)和Dropout层(舍弃层)构成。其中，cls_token_Parameter为一个尺寸大小为1×1×192的可学习张量，对其进行广播操作使其尺寸大小变为B×1×192，随之与patch_embedding的输出在第二维度上拼合，完成类别张量的嵌入，输出尺寸大小为B×197×192；pos_embed_Parameter为一个尺寸大小为1×197×192的可学习张量，在完成类别嵌入后，将其与类别嵌入的输出结果逐点相加，其结果尺寸大小为B×197×192。随后的6个堆叠的Transformer编码器具有完全一致的结构和参数。其中，多头自注意力模块中注意力头数为8。值得注意的是，在该模块中，全连接层Linear_1的输出结果尺寸大小为B×197×576，在多头注意力进行注意力权重的赋值后，尺寸大小恢复至B×197×192，并与归一化前的输入做残差连接后，作为全连接层Linear_2的输入。MLP包含两个全连接层Linear_3和Linear_4以及激活函数GeLU_1和GeLU_2。最终的分类层MLP head仅包含一个全连接层Linear_5，将Transformer编码器所得结果中嵌入的cls_token_Parameter取出(尺寸大小B×1×192)，通过该全连接层Linear_5得到尺寸大小为B×1×7的分类结果，对应7种表情类别。

步骤3：采用步骤1中的人脸表情图像数据集训练人脸表情识别模型。

步骤3a：将人脸表情图像数据集按照4：1的比例划分训练集和测试集。

步骤3b：设置模型训练的batchsize统一为4，损失函数采用SGD，初始学习率为0.001，学习率衰减为5E-5。

步骤3c：在整体模型训练时，将尺度局部特征提取融合网络先行训练(单独训练尺度局部特征提取融合网络时，后面会加上一个分类器)，训练完毕后将其权重参数冻结，与搭建的vit网络模型级联组成完整的模型后，在对模型内vit网络模型部分训练。

步骤3d：对特征提取网络，训练轮数epoch统一设置为100。

步骤3e：对于所有用来对比的vit模型，设置统一的训练轮数为300。

首先将测试集中的人脸表情图像输入到模型中，模型处理图像并输出一个概率向量，表示每个表情类别的概率。接着，选取概率向量中最大概率值所对应的表情类别作为测试集中的人脸表情图像的识别结果。最后，得到测试集中每个人脸表情图像的识别结果，以评估训练好的模型的准确性和性能。

以下结合仿真试验，对本发明的技术效果作进一步说明：

1.仿真条件和内容：

实验均在同一实验平台进行，实验使用python语言并基于pytorch深度学习框架进行开发，在GPU GeForce GTX 3090的硬件环境与Window10的软件环境下实现。

仿真实验，对本发明提出的网络模型进行训练实验，根据实验结果分析验证模型的效果，其中关于多尺度局部特征提取融合网络的结果如图7与图8所示，其中除res2net50之外，ours、+MAFFM、+downsample都采用了本发明提出的cbr block(cross brunchres2net block，跨分支残差块)；ours表示残差块中没有下采样、没有MAFFM、有跨分支残差块的多尺度局部特征提取融合网络；downsample表示残差块中有下采样、没有MAFFM、有跨分支残差块的多尺度局部特征提取融合网络；+MAFFM表示残差块中没有下采样、有MAFFM、有跨分支残差块的多尺度局部特征提取融合网络。关于基于全局特征的vit网络的结果如图9与图10所示。

2.仿真结果分析：

关于多尺度局部特征提取融合网络的结果，观察图7和图8可知，具有下采样的网络的top-1accuracy最低，仅为74.6％左右，并且训练损失收敛最大；res2net50网络模型的top-1accuracy为78.1％左右，相比于具有18个残差块的res2net50网络；另外，多尺度局部特征提取融合网络(ours，黑色线条)的top-1accuracy达到了77.6％，仅有不到1％的下降，这表明，所提出的多尺度局部特征提取融合网络(ours，黑色线条)中，改进所得的新的特征提取模块cbr block和取消下采样的措施是合理且有效的。此外，完整的多尺度局部特征提取融合网络(+MAFFM，黄色线条)的top-1accuracy达到了80.7％左右，相比于没有MAFFM的多尺度局部特征提取融合网络(ours)，以及res2net50网络，分别提升了3％和2.5左右，训练损失收敛速度最快且平稳，这表明，所提出的MAFFM对于特征融合具有良好的效果，能够一定程度上提升模型的分类效果。

关于基于全局特征的vit网络的结果，观察图9和图10可知，本发明搭建的vit网络模型与局部特征提取融合网络级联，可以有效地提升vit网络的效果与训练时的拟合速度。并且网络模型的损失起点较低，收敛速度快，表明所搭建的多尺度局部特征提取网络是很有效的；图9和图10中，cnn-vit表示本发明提出的基于多尺度局部特征和全局特征的级联网络模型(即人脸表情识别模型)，vit-n表示具有n个transformer编码器的单独vit网络。

综上所述，本发明提出的基于局部特征和全局特征的人脸表情识别方法能结合不同尺度的局部特征和全局特征，以取得更好的效果，得到更好的人脸表情图像识别准确率。

本发明的保护范围包括但不限于以上实施方式，本发明的保护范围以权利要求书为准，任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims

1.一种基于局部特征和全局特征的表情识别方法，其特征在于，包括：

步骤1：获取人脸表情图像数据集；

步骤4：基于训练好的人脸表情识别模型获取待测的人脸表情图像的表情识别结果；

所述的步骤2包括：

所述残差块包括跨分支残差块和混合注意力特征融合模块；

所述后处理块包括双线性插值层、卷积层、批次归一化层和LeakyReLu激活层；

所述的跨分支残差块的计算过程为：

特征图X通过1×1卷积操作后分为子特征图X₁、子特征图X₂、子特征图X₃和子特征图X₄，子特征图X₁经过1×1卷积操作后得到第一个分支输出Y₁，子特征图X₂和输出Y₁相加后经过3×3卷积操作后得到第二个分支输出Y₂，子特征图X₃、输出Y₁和输出Y₂相加后经过5×5卷积操作后得到第三个分支输出Y₃，子特征图X₄、输出Y₁、输出Y₂和输出Y₃相加后经过7×7卷积操作后得到第四个分支输出Y₄，将输出Y₁、输出Y₂、输出Y₃和输出Y₄经过1×1卷积操作后拼接为输出Z，输出Z与特征图X相加后作为跨分支残差块的输出；

所述的混合注意力特征融合模块的计算过程为：

公式如下：

通道域注意力模块的计算过程为：

CA(N)＝σ(f(GMp(N))+f(GAp(N)))；

其中，GMp(N)表示对特征图N进行全局最大池化，GAp(N)表示对特征图N进行全局平均池化，f(·)表示1d卷积；

空间域注意力模块的计算过程为：

SA(N)＝σ(f^7×7([AvgPool(N)；MaxPool(N)]))；

2.根据权利要求1所述的基于局部特征和全局特征的表情识别方法，其特征在于，所述的步骤1具体为：

3.根据权利要求1所述的基于局部特征和全局特征的表情识别方法，其特征在于，所述的步骤2还包括：

4.根据权利要求1所述的基于局部特征和全局特征的表情识别方法，其特征在于，所述的步骤3包括：