CN112766158B

CN112766158B - 基于多任务级联式人脸遮挡表情识别方法

Info

Publication number: CN112766158B
Application number: CN202110072707.3A
Authority: CN
Inventors: 唐宏; 向俊玲; 刘双; 周磊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2022-06-03
Anticipated expiration: 2041-01-20
Also published as: CN112766158A

Abstract

本发明涉及生物特征识别领域，涉及一种基于多任务级联式人脸遮挡表情识别方法；所述方法包括将预处理后的人脸图像进行人脸特征提取，将人脸特征图输入到OCC‑MTCNN网络中进行任务分类；在第一任务中对人脸特征图进行人脸关键点检测和遮挡检测；将检测到的未遮挡人脸关键点生成权重矩阵；在第二任务中将人脸特征图分为全局特征和局部特征，局部特征是按照权重矩阵进行裁剪；将全局特征和局部特征都输入到第一注意力模块中，得到第一注意力特征对不同任务的通道增强或抑制；将第一注意力特征输入到第二注意力模块得到表情识别结果；本发明在人脸表情识别任务中加入检测人脸特征点任务，可以提取有用信息，提升遮挡影响下人脸表情识别精度。

Description

基于多任务级联式人脸遮挡表情识别方法

技术领域

本发明涉及计算机视觉、深度学习、生物特征识别领域，特别涉及一种基于多任务级联式人脸遮挡表情识别方法。

背景技术

近年来，随着信息技术的飞速发展以及计算机的广泛应用，图像中的面部表情识别引起了越来越多的关注，面部表情作为人类交流过程中高效传达情感状态和意图的一种非语言手段，在科学研究上的价值也不容忽视。人脸表情识别就是设计一个模型能够自动准确地识别出一副人脸图像或者人脸视频序列中所包含的表情类别，表情分类主要分为：生气、厌恶、恐惧、高兴、悲伤和惊喜。人脸表情识别也面临着一些挑战，例如光照变化、遮挡、姿态变化、身份偏差、定性数据不足等。

尽管已经提出并实现了许多面部表情识别系统，但其中大多数是基于受控环境中的数据集，受控面是正面的人脸，没有任何的遮挡。在实验室收集的数据集上高准确率地运行人脸表情识别系统，但在自然和非受控条件下的识别人脸表情可能表现不佳。相比于受控条件，由于非受控条件更接近真实场景，具备更广泛的应用场景。解决人脸遮挡问题并不简单，因为不同环境下遮挡的位置以及遮挡的物体是不同的，这些遮挡可能是由头发、眼镜、围巾、口罩、手、手臂、食物和其他日常生活中放在人脸前的物体引起的。这些物体可能会阻挡眼睛、嘴巴、脸颊的一部分或脸部多个部分。

表情识别是图像分析任务中的一个子任务，人脸图像分析相关任务是相互关联的，如人脸表情的改变带动五官产生形变，导致人脸关键点位置的变化，人脸关键点位置改变也可以反映出表情。在人脸表情识别任务中加入人脸特征点定位任务，将提升人脸表情识别的准确性，且由于多任务学习拥有迁移学习内核，这无疑大大增加人脸表情识别任务的泛化能力。对于有遮挡的人脸，检测到遮挡位置至关重要，如果已知遮挡的位置，并且完全排除了遮挡的影响，那么，即使测试图包含了较大面积的遮挡，只要训练样本足够丰富，也能达到比较高的识别率。通过检测关键点生成权重矩阵，使得网络在两个任务的监督下更加关注五官周围信息，可以辅助表情特征的提取。

针对人脸遮挡进行表情识别方法，包括传统方法和深度学习方法。基于传统方法学习面部图像的有效特征表示可以明显提高人脸表情识别的性能，如局部二值式、方向梯度直方图和小波变换等方法，但这些很难满足大规模表情识别性能的要求，深度学习方式更有利于处理大规模图像。深度学习方法中，目前有两种主流方法，一是将遮挡人脸修复成完整人脸，二是添加注意力模块，更集中于未被遮挡的人脸表情区域，从而提取有效特征进行表情识别。第一种方法中，需要关于遮挡的先验知识，比如遮挡的精确位置，由于表情是人脸的一种微妙属性，需要对细节局部特征进行良好的表示，因此修复遮挡位置的方法不适用于存在任意遮挡的人脸表情识别，而第二种方法中能够让人脸识别过程集中于未被遮挡的人脸表情区域，但是对于发生遮挡部分的人脸表情部分则无法有效识别。

发明内容

为解决以上现有技术问题，本发明提出了一种基于多任务级联式人脸遮挡表情识别方法，该方法步骤包括：

将预处理后的人脸图像输入到带有扩展卷积的卷积神经网络中进行人脸特征提取，并输出人脸特征图；

将所述人脸特征图输入到可识别遮挡区域的OCC-MTCNN网络中，进行任务分类，并划分出第一任务和第二任务；

在第一任务中，对所述人脸特征图进行人脸关键点检测和遮挡检测；

对检测出的遮挡区域进行抑制，将检测到的未遮挡人脸关键点生成权重矩阵；

在第二任务中，将所述人脸特征图分为全局特征和局部特征，其中局部特征是按照人脸关键点的所述权重矩阵对人脸特征图进行裁剪；

将所述全局特征和所述局部特征都输入到第一注意力模块中，从特征中学习并提取出通道的权重分布，得到第一注意力特征并对不同任务的通道增强或者抑制；

将所述第一注意力特征输入到第二注意力模块中，得到第二注意力特征，将第二注意力特征经过两个全连接层后得到分类结果即表情识别结果。

本发明的有益效果：

本发明针对人脸部分遮挡进行表情识别，提出了一种多任务的卷积神经网络，检测人脸关键点以及被遮挡区域，同时识别人脸表情，网络在两个任务的监督下提取特征，更加关注五官附近的纹理信息。同时通过人脸关键点矩阵的辅助有效提取人脸重要区域，抑制遮挡部分，并采用添加注意力机制的方式，更加自动定位关键的面部区域，只关注最重要的面部信息，有效地学习辨别特征，从而消除无关的面部部分影响。本发明同时添加了扩展卷积块，在保证空间分辨率的同时扩大感受野，计算量没有增加，感受野以指数倍增长，有利于更全面提取图片信息，避免了信息丢失的问题。本发明采用多因子进化算法对两个任务进行优化，解决人脸关键点任务过程中获得的有用知识，有助于解决人脸表情识别的任务，其充分利用了基于种群搜索的隐式并行性，同时，本发明还引入了归纳偏置来改进OCC-MTCNN网络模型，采用L1正则化，使得模型更偏向那些稀疏的解，可以提高模型的泛化性。

附图说明

图1为本发明实施例中基于多任务级联式人脸遮挡表情识别方法的总体流程图；

图2为本发明实施例中的总体模型图；

图3为本发明改进的R-Net模型图；

图4为本发明改进的O-Net模型图；

图5为本发明采用的OCC-Net模型图；

图6为本发明的Channel注意力模块图；

图7为本发明的Spatial注意力模块图；

图8为本发明优选实施例中基于多任务级联式人脸遮挡表情识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中的基于多任务级联式人脸遮挡表情识别方法的总体流程图，如图1所示，本发明的总体流程主要包括以下内容：

101、采集遮挡人脸图像；

在本实施例中，采集数据集，所述数据集为包括遮挡人脸图像的数据集；由于人脸遮挡信息无开源的标准数据集，因此本发明可以采用对人脸随机添加遮挡块的形式处理数据集，随机遮挡块考虑了大小、形状、位置偏移等维度的多样性，并在公开数据集FER2013(7类表情类别)证实其有效性，这个公开数据集是由谷歌搜索引擎收集的大规模真实世界数据集，由28709幅训练图像、3589幅验证图像和3589幅测试图像组成。

当然，实际情况下，本发明的识别方法可以直接对现有的视频人脸或者图像人脸进行训练并识别，本发明实际应用所采用的数据集可以不限于上述实施例所提供的数据集。

102、对所述遮挡人脸图像进行预处理；

数据集中的图片可能会存在光照、姿态和复杂背景对人脸表情识别造成无关干扰，为了保证面部尺寸、位置和图像质量的一致性，首先需要对数据集中的图像进行预处理，主要包括人脸检测、人脸对齐、图像尺寸归一化和像素归一化，以人脸对齐和归一化进行具体说明：

对于人脸对齐：

首先通过MTCNN定位人脸图像的人眼两个中心，然后用直线l₁连接两个中心；其次，通过鼻子的关键点，做l₁的垂直线段l₂，假设左眼的坐标为(x₁，y₁)，右眼的坐标为(x₂，y₂)，当图像中的人脸有角度偏差时，l₁与水平轴l₃形成的角度为θ₁，由l₂和水平轴l₃形成的角度是θ₂。以右眼的关键点为中心逆时针旋转人脸图像，其表达式为：

θ₁＝arc tan|(y₁-y₂)/(x₁-x₂)|。

当θ₂＝90，完成人脸对齐。

图像归一化和像素归一化：

所述图像归一化即图像尺寸归一化，执行归一化以获得具有相同尺寸和相同灰度值范围的标准化人脸图像。经过人脸检测和对齐处理后，从原始人脸图像中裁剪出人脸区域，其裁剪框设置为正方形。

在一些实施例中，可以使用缩放的方式将所有裁剪的图像统一为固定大小的128×128，图像像素值从范围[0，255]归一化到[0，1]。

103、遮挡人脸关键点检测；

对于遮挡人脸的关键点检测，本发明实施例首先将预处理后的人脸图像输入到带有扩展卷积的卷积神经网络中进行人脸特征提取，并输出人脸特征图，将所述人脸特征图输入到遮挡感知网络即可识别遮挡区域的多任务卷积神经网络(Occlusion-Multi-taskCascaded Convolutional Networks，OCC-MTCNN)网络中进行任务分类；所述分类主要是将任务分成两类，第一任务是人脸遮挡关键点检测，第二任务是人脸表情识别。

本发明实施例中将预处理后的人脸图像经过扩展卷积CNN网络后进行任务分类；卷积神经网络(CNN)由具有可学习的权重和偏置常量的神经元组成，通常包含卷积层、线性整流层、池化层和全连接层，核心即为卷积运算。感受野用来表示网络内部的不同神经元对原图像的感受范围的大小，感受野的值越大表示能接触到的原始图像范围就越大，也意味着它可能蕴含更为全局，语义层次更高的特征。在深层网络中为了增加感受野且降低计算量，总要进行降采样，虽然可以增大感受野，但空间分辨率低，为了不丢失分辨率，且仍要扩大感受野，可以使用扩展卷积。扩展卷积保证在尽量获取更大范围内的图像信息的同时不损失额外信息。常规卷积的扩张率(dilation rate)为1，扩展卷积根据卷积核的点间隔数来设置扩张率的值。

在一些实施例中，本发明中的卷积神经网络是本发明的主干CNN，本发明实施例可以采用ResNet18网络实现，其中ResNet18网络最后一个池化层用于面部表现。

104、生成关键点权重矩阵图；

在第一任务中，将人脸特征图输入到OCC-MTCNN网络中进行人脸关键点检测和遮挡检测；将人脸图像中的遮挡范围进行抑制处理；将检测到的未遮挡人脸关键点生成权重矩阵；

在介绍OCC-MTCNN网络之前，首先介绍一下本发明实施例的总体模型，图2给出了本发明实施例中的总体模型图，如图2所示，本发明中主要包括用于特征提取的扩展卷积的卷积神经网络，以及多任务级联的OCC-MTCNN网络；整个模型中的输入是从带有扩展卷积的卷积神经网络开始的，该卷积神经网络中输入了处理后的人脸图像，并输出人脸特征图，该人脸图特征在OCC-MTCNN网络中的第一任务中实现人脸遮挡和权重矩阵的生成，同时在第二任务中将第一任务的结果与人脸特征图进行处理，采用注意力模块提取出其中的注意力特征并进行相应的通道增强或者抑制，以最终实现较为准确的分类结果。

其中，所述OCC-MTCNN网络包括：

本发明是基于多任务级联式人脸表情识别网络进行设计，所述多任务级联式人脸表情识别网络的P-Net与R-Net及O-Net的基础网络部分与人脸检测算法共享，本发明主要改进了R-Net及O-Net的任务结构，如图3和图4所示，在R-Net和O-Net输出层增加了新的任务遮挡识别，该任务包含五个类别，分别表示左眼、右眼、鼻子、左嘴角、右嘴角是否被遮挡；该任务为二分类任务，在训练阶段使用Sigmoid交叉熵损失函数；如图5所示，OCC-Net的输入由5张图片合成的一个15通道图片，五张图片分别是左眼、右眼、鼻子、左嘴角、右嘴角图片，针对五个不同位置的特征点分别进入不同的分支，分别经过3层卷积进行特征提取，为了增加特征信息交流，使用concat方式进行特征融合；后面再接入全连接层进行信息聚合，全连接层后分别为5个分支的全连接层，作用是输出各个点的类别。

其中，concat方式主要是通道数的合并，也就是描述图像的特征维度增加，而每一维度特征下的信息量不变，concat方式的作用就是将两个及以上的特征图按照在通道维度上进行拼接。

根据实际人脸和边框重合面积，将数据集中预处理后的人脸图像划分为正样本、负样本和部分样本。人脸分类用正样本和负样本，边框回归用正样本和部分样本。其中正样本、负样本和部分样本比例为3∶1∶1，在训练时3个网络分开训练，最后合在一块对待测人脸图像进行具体的测试以及应用。

在一些实施例中，

在第一任务中，所述人脸特征图会先经过图像金字塔，生成多个尺度的图片，再输入到P-Net中，其中输入图像的最小输入单元尺寸为12×12，输出每个候选框的置信度，并经过非最大抑制进行去重去掉部分候选框，从输入图像的相应位置截取图像并统一缩放至24×24；

将缩放后的图像输入到R-Net网络中，得到候选框偏移值和分数，用非最大抑制继续筛选；

把R-Net中置信度大于阈值的候选框缩放成48×48，输入到O-Net网络中，O-Net网络包含五个卷积层，是多任务级联式人脸识别网络三个级联网络中参数最多、表达能力最强的网络，最后O-Net将会输出人脸框位置及关键点信息。

在上述过程中，人脸分类属于二分类问题，采用交叉熵损失函数，具体表示如下：

其中，

表示第i个样本所对应的人脸分类；p_i表示多任务级联式人脸识别网络即OCC-MTCNN网络预测第i个样本为人脸的概率，

表示第i个人脸样本的标签；

人脸框回归属于回归问题，需要预测每一个候选框和最接近的人脸框的偏差，采用均方损失函数，具体表示如下：

其中，

表示第i个样本人脸框所对应的人脸框回归损失；

表示OCC-MTCNN网络预测第i个样本人脸框的位置，

表示第i个人脸框的实际位置；

人脸关键点检测属于回归问题，采用均方损失函数，具体表示如下：

其中，

表示第i个样本所对应的人脸关键点位置损失；

表示OCC-MTCNN网络预测的第i个样本的人脸关键点坐标，

表示第i个样本点人脸关键点的实际坐标。五个关键点分别是左眼、右眼、鼻子、左嘴角和右嘴角，所以

预测5个人脸关键点是否被遮挡属于二分类问题，采用交叉熵损失函数，具体表示如下：

其中，

表示第i个关键点所对应的遮挡信息损失；p_i表示网络预测第i个关键点遮挡信息，

表示第i个样本的真实遮挡信息，其中

将人脸图像中的遮挡范围进行抑制处理；将未遮挡范围的人脸关键点生成权重矩阵；

在此任务中检测到遮挡后，需要对遮挡范围进行抑制，更关注未遮挡范围，根据检测到的人脸关键点，将未遮挡关键点生成权重矩阵；经过步骤103处理，检测并保存所有数据库的人脸标志后，在训练阶段自动生成每个序列的人脸标志过滤器，再根据检测的像素点到标志点距离作为像素点分配的权重。一个像素点越接近一个面部标志，该像素点的权重就越大，从而生成人脸关键点矩阵；使用曼哈顿线性函数进行距离检测，将权重值赋给相应的特征权重函数是线性函数曼哈顿距离，可以表示为：

w(L，P)＝1-0.1·d_M(L，P)

其中，w(L，P)表示面部标志点L和像素P线性曼哈顿距离；d_M(L，P)是面部标志点L和像素P之间的曼哈顿距离，那么被定为的关键点将有更高的值，其周围像素与对应的关键点的距离比例权重将更低；同时对识别到遮挡的区域进行抑制，给予最低的权重值；生成的关键点矩阵可以辅助表情特征的提取，将其与最后一层共享卷积层得到的特征图相乘，进一步增大关键点周围特征的权重，过滤掉与表情不相关的特征，公式中，面部标志点L和像素P之间的曼哈顿距离的权重值为0.1，在实际情况中，该值可以介于0.01～0.2之间，本领域技术人员可以经过实际情况进行相应的调整。

105、特征提取；

首先，对第一任务的人脸特征图进行复制，同时也是第二任务的人脸特征图输入；按照人脸关键点的所述权重矩阵对特征图像进行裁剪；将经过复制和裁剪后的人脸图像特征图经过带有相同扩展卷积的卷积神经网络分别得到全局特征和局部特征。

106、表情识别

面部特征可以根据提取的位置分为局部特征和全局特征，一方面，局部特征能够捕捉特定的可区分信息，有利于表情的区分，另一方面，全局级特征包含图像的总体广义特征。融合全局和局部特征可以进一步提高表情识别性能。本发明利用深度学习方式，将人脸特征图进行复制和剪裁，分别进行全局和局部特征的提取，再对卷积网络进行优化，添加注意力模块，自动识别人脸遮挡区域，更聚焦于未遮挡区域进行表情识别。

将全局特征和局部特征F同时输入channel注意力模块，从特征中学习并提出权重分布，得到特征M_c；且如图6所示，channel注意力模块：将特征输入后，使用平均池化和最大池化操作来聚合特征映射的空间信息，生成两个不同的空间上下描述符F_cavg和F_cmax，F_cavg表示平均池化特征，F_cmax表示最大池化特征。这两个描述符然后送到一个共享网络中以产生本发明的通道注意力图M_c。在共享网络应用于每个描述符之后，使用逐元素求和及sigmoid函数计算输出特征向量，其公式可以表示为：

其中，σ表示sigmoid函数，AvgPool(F)表示对特征进行平均池化，MaxPool(F)表示最大池化；

W₀和W₁表示MLP权重，输入共享这两个权重，W₀在Relu激活函数后面。

得到的输出的channel注意力特征F′，输入到spatial注意力模块中，得到spatial注意力特征M_s；特征经过两个全连接层后，通过softmax分类器对特征进行分类，得到表情识别结果；且如图7所示，spatial注意力模块：首先在通道轴上应用平均池化和最大池化运算，并将它们连接起来生成一个有效的特征描述符。使用两个池化操作来聚合功能映射的通道信息，生成两个二维映射，然后通过一个标准卷积连接和卷积混合产生空间注意力图，其公式可以表示为：

其中，σ表示sigmoid函数，f^7×7表示滤波器大小为7×7的卷积运算。

在本发明中，channel注意力模块和spatial注意力模块统称为CBAM模块，主要方法是从特征中学习和提出权重分布，再将这个权重分布施加在原来特征之上，改变原有特征分布，通过建模各个通道的重要程度，针对不同的任务增强或抑制不同的通道。在本方法中，更关注于未遮挡人脸部分，从而消除无关面部部分影响。整个注意过程可以表示为：

分类问题中常使用交叉熵损失函数，交叉熵主要用于度量两个概率分布间的差异性。如果对于同一个随机变量X有两个单独的概率分布P(x)和Q(x)，可以使用KL函数来衡量这两个概率分布之间的差异，具体可以表示为：

其中，P(x)表示样本的真实分布，Q(x)表示模型所预测的分布；p(x_i)表示第i个样本的第一概率；q(x_i)表示第i个样本的第二概率。交叉熵函数可以根据KL公式表示为：

其中H(p(x))表示样本概率的信息熵，

为样本概率的交叉熵。

第一任务和第二任务是一个双流网络结构，即两个任务共享了两个卷积层和两个池化层，使得模型能够更关注人脸关键点附近的纹理信息，共享卷积层为5×5，卷积核为3×3。除了第一层卷积之外，其他卷积核均为3×3。

图8为本发明优选实施例中基于多任务级联式人脸遮挡表情识别方法流程图，如图8所示，所述识别过程还可以包括：

201、将预处理后的人脸图像输入到带有扩展卷积的卷积神经网络中进行人脸特征提取，并输出人脸特征图；

202、将所述人脸特征图输入到可识别遮挡区域的OCC-MTCNN网络中，进行任务分类，并划分出第一任务和第二任务；

203、在第一任务中，对所述人脸特征图进行人脸关键点检测和遮挡检测；

204、对检测出的遮挡区域进行抑制，将检测到的未遮挡人脸关键点生成权重矩阵；

205、在第二任务中，将所述人脸特征图分为全局特征和局部特征，其中局部特征是按照人脸关键点的所述权重矩阵对人脸特征图进行裁剪；

206、将所述全局特征和所述局部特征都输入到第一注意力模块中，从特征中学习并提取出通道的权重分布，得到第一注意力特征并对不同任务的通道增强或者抑制；

207、将所述第一注意力特征输入到第二注意力模块中，得到第二注意力特征，将第二注意力特征经过两个全连接层后得到分类结果即表情识别结果。

在本实施例中，所述可识别遮挡区域的OCC-MTCNN网络包括归纳偏置模块，并通过所述第二任务提供归纳偏置的解；在归纳偏置的前提下，采用L1正则化的方式训练任务分类结果，使得所述OCC-MTCNN网络中的任务分类偏向稀疏解。

在一些实施例中，所述第一任务和所述第二任务是通过多因子进化算法进行任务学习，学习出这两个任务的相似性和差异性；在所述OCC-MTCNN网络模型中在靠近输入层的隐层被所述第一任务和所述第二任务共享。

在本发明的优选实施例中，本发明采用多因子进化算法与归纳偏置结合的方式对任务分类学习进行优化，其中，所述优化过程可以包括以下内容：传统的表情识别方法，一般仅仅采用一个分类任务，将提取后的表情特征进行表情分类，由于关注点集中在单个任务上，传统方法忽略了可能帮助优化度量指标的其他信息。本发明可以利用人脸关键点任务的信息来提高表情识别的泛化能力，通过引入归纳偏置来改进OCC-MTCNN网络模型，本方法还可以使用L1正则化构建出任务分类损失，在最小化任务分类损失的前提下使得OCC-MTCNN网络模型更偏向那些稀疏的解，由于本发明中归纳偏置是由第一任务即关键点任务来提供，而关键点任务在本OCC-MTCNN网络模型中属于辅助任务，因此通过上述设置，可以有效增强OCC-MTCNN网络模型的泛化能力。

传统的多任务优化是研究同时解决多个优化任务从而独立提高解决每个任务的性能，利用关键点定位和表情识别任务的共同有用知识，有助于解决表情识别这一主要任务。在一个模型中，不同任务可能具有不同的属性，可能导致个体的不同表示，因此，需要一种统一的表示方法，使所有任务的解空间可以方便地编码为相同的表示方法，以便搜索，并将其解码为唯一的表示方法，以便求值。本方法采用多因子进化算法对这两个任务进行优化，本发明提出了一种统一的表示方案，其中每个变量都由0和1之间的随机秘钥编码，从而实现了双任务的通用性。

同时求解关键点任务和表情识别任务可定义为{T₁，T₂}，其中每个任务对应的搜索维度为{D₁，D₂}，定义一个维度为D_unified＝max{D₁，D₂}的统一空间X，其优点是当同时使用多维搜多空间解决多个任务时，这种方式就是一种基于种群搜索的有效方法，可以促进有用的遗传物质发现和从一个任务到另一个任务的隐形转移。这里X作为一个连续的统一空间，所有候选解都映射到其中编码，对于各种离散或组合问题，本发明可以设计不同编码或解码过程。基本原理主要是使用一个种群P去解决i个优化子任务，每个任务都被视为影响种群进化的因素，与第i个任务关联的子种群表示为P_i，同时搜索每个任务的全局最优解。这个过程可以表示为特征个体p_i在任务T_j上的因子代价

定位为

其中λ是一个惩罚因子，并且

和

定义为特征个体p_i在任务T_j上约束违反综述和目标函数值。

在一些实施例中，本发明可以使用Python语言进行编码实现，所采用的深度框架为Pytorch，在训练模型时，用OCC-MTCNN网络中多种损失函数和最后表情分类交叉熵损失函数联合训练，并采用Adam优化算法。学习率初始化为0.01，衰减率为0.98，衰减步长为500个周期。训练时先迭代200个周期，每个周期迭代200次，再加载测试准确率最高的模型并对其微调。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述方法包括以下步骤：

将预处理后的遮挡人脸图像输入到带有扩展卷积的卷积神经网络中进行人脸特征提取，并输出人脸特征图；

将所述全局特征和所述局部特征都输入到第一注意力模块中，从特征中学习并提取出通道的权重分布，使用平均池化和最大池化操作来聚合特征映射的空间信息，生成两个不同的空间上下描述符；将这两个描述符送到共享网络中以产生通道注意力图；在共享网络应用于每个描述符之后，使用逐元素求和及sigmoid函数计算输出第一注意力特征，并对不同任务的通道增强或者抑制；

将所述第一注意力特征输入到第二注意力模块中，使用平均池化和最大池化操作来聚合特征映射的通道信息，生成两个不同的通道的描述符；并将它们连接起来生成一个有效的特征描述符；使用两个池化操作来聚合功能映射的通道信息，生成两个二维映射，然后通过一个标准卷积连接和卷积混合产生空间注意力图；使用逐元素求和及sigmoid函数计算输出第二注意力特征，将第二注意力特征经过两个全连接层后得到分类结果即表情识别结果；

其中，所述可识别遮挡区域的OCC-MTCNN网络包括对多任务级联式人脸表情识别进行高精度候选窗口过滤选择的R-Net的输出层，以及生成最终边界框与人脸关键点的O-Net的输出层分别加入任务遮挡识别模块，对人脸中的五官进行遮挡识别，将五官中不同部位的特征点采用不同的分支，分别进入多层卷积进行特征提取，并使用concat方式进行特征融合；利用主全连接层进行信息聚合，所述主全连接层连接不同分支的全连接层，输出各个部位的识别结果。

2.根据权利要求1所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述预处理包括人脸检测、人脸对齐、图像归一化和像素归一化。

3.根据权利要求1所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述OCC-MTCNN的多任务级联式人脸表情识别网络中训练过程所采用的损失函数包括人脸分类损失、人脸框回归损失、人脸关键点位置损失和遮挡信息损失。

4.根据权利要求3所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述人脸分类损失采用交叉熵损失函数；所述人脸框回归损失采用均方损失函数；所述人脸关键点位置损失采用均方损失函数；所述遮挡信息损失采用交叉熵损失函数。

5.根据权利要求1所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述可识别遮挡区域的OCC-MTCNN网络包括归纳偏置模块，并通过所述第二任务提供归纳偏置的解；在归纳偏置的前提下，采用L1正则化的方式训练任务分类结果，使得所述OCC-MTCNN网络中的任务分类偏向稀疏解。

6.根据权利要求1或5所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述第一任务和所述第二任务是通过多因子进化算法进行任务学习，学习出这两个任务的相似性和差异性；在所述OCC-MTCNN网络模型中在靠近输入层的隐层被所述第一任务和所述第二任务共享。

7.根据权利要求1所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，将未遮挡人脸关键点生成权重矩阵包括获取人脸标志，为每个序列生成人脸标志过滤器，根据所有像素点到检测出的标志点距离分配权重，离人脸关键点越近的像素，其权重就越大。

8.根据权利要求1所述的一种基于多任务级联式人脸遮挡表情识别方法，其特征在于，所述第一注意力模块采用channel注意力模块，所述第二注意力模块采用spatial注意力模块。