CN117315752A

CN117315752A - 人脸情绪识别网络模型的训练方法、装置、设备和介质

Info

Publication number: CN117315752A
Application number: CN202311255467.6A
Authority: CN
Inventors: 马偲婷; 李东栋
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-29

Abstract

本发明提供一种人脸情绪识别网络模型的训练方法、装置、设备和介质，该人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，方法包括：获取数据集；将数据集中的训练图像输入到主干网络，得到第一特征图像；将第一特征图像输入到特征融合模块进行特征融合，得到第二特征图像；将第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像；将人脸特征图像输入到情绪分类模块，得到模型预测结果；根据模型预测结果对人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。本发明训练的模型可以直接对提取的特征进行分类并回归得到人脸情绪分类，识别精准度高的同时还能提高处理效率。

Description

人脸情绪识别网络模型的训练方法、装置、设备和介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种人脸情绪识别网络模型的训练方法、装置、设备和介质。

背景技术

基于卷积神经网络的情绪识别方法，较为主流的是基于卷积神经网络(Convolutional Neural Networks，CNN)的基础架构提出的监督评分集合(SupervisedScoring Estimator，SSE)；也可以将模型依次组合在一起，形成级联网络。现实中，人脸情绪是与多种因素共存的，如头部姿势，光照等，为了解决这一问题，引入多任务学习，如引入人脸关键点定位和人脸动作单元(Action Unit Set，AUS)检测；对抗神经网络(GenerativeAdversarial Network，GAN)也应用于人脸情绪识别，但是这样的模型构建起来相对复杂。

然而，这种将多个相对较小的网络并行或串联集成的网络明显地增加了计算成本和存储需求。此外，每个子网络的权重通常是根据原始训练数据的性能来学习的，导致对新出现的不可见测试数据的过拟合。多任务网络结合的缺点是，它需要来自所有任务的标记数据，而且随着涉及的任务越来越多，训练变得越来越麻烦。

发明内容

本发明实施例提供一种人脸情绪识别网络模型的训练方法、装置、设备和介质，以解决现有的构建人脸情绪识别网络模型复杂，识别精准差处理效率低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种人脸情绪识别网络模型的训练方法，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述方法包括：

获取数据集；

将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像；

将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像；

将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像；

将所述人脸特征图像输入到情绪分类模块，得到模型预测结果，所述模型预测结果包括：人脸情绪的分类得分、人脸框的坐标信息和人脸关键点的坐标信息；

根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

可选的，所述获取数据集包括：

获取初始数据集，所述初始数据集中包括多张训练图像；

在至少部分所述训练图像上生成网格掩码，所述网格掩码包括水平方向的连续掩码和垂直方向的连续掩码；

在RGB通道的每个维度上将所述网格掩码随机旋转相同角度，得到扩充的训练图像；

根据所述初始数据集中的训练图像和所述扩充的训练图像，得到所述数据集。

可选的，所述主干网络包括：

多个卷积层，每个所述卷积层包含若干个卷积块；

每个所述卷积块采用深度可分离卷积；

所述卷积块包括普通卷积块和跳跃卷积块，所述跳跃卷积块采用跳跃连接的方式与其他卷积块进行关联。

可选的，所述将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像包括：

从第一个卷积块到最后一个卷积块对不同输入特征图像进行特征提取，依次得到不同卷积块的输出结果；

其中，第一个卷积块的输入特征图像为所述训练图像，若所述卷积块为所述卷积块所在卷积层的最后一个卷积块，所述卷积块的输出结果为所述卷积层的输出结果；

从所述多个卷积层和多个卷积块的输出结果中提取多个不同尺度的特征图像作为所述训练图像的多个不同尺度的第一特征图像。

可选的，所述将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像包括：

将所述多个不同尺度的第一特征图像输入到1×1的卷积中，生成统一维度的多个不同尺度的子特征图像；

从最高尺度的所述子特征图像到最低尺度的所述子特征图像，逐一进行上采样特征融合，依次得到不同尺度的第二特征图像，其中，所述最高尺度的第二特征图像为所述最高尺度的所述子特征图像；

其中，对第j-1尺度的所述子特征图像进行上采样特征融合包括：

对所述第j尺度的第二特征图像进行上采样，得到上采样后的特征图；

将所述上采样后的特征图与所述第j-1尺度的所述子特征图像进行相加，得到所述第j-1尺度的前第二特征图像；

将所述第j-1尺度的前第二特征图像输入到3×3的卷积，得到所述第j-1尺度的第二特征图像。

可选的，所述检测模块包括：

多个子检测模块，所述子检测模块的个数与所述第二特征图像尺度的个数相同，所述多个子检测模块的网络结构相同；

其中，所述网络结构包括：3×3的卷积模块、上下文模块、人脸情绪分类模块、框体回归模块和关键点回归模块；

每个所述子检测模块分别包含3个不同的先验框，所述先验框用于对人脸进行检测。

可选的，所述将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像包括：

针对每个尺度的第二特征图执行以下操作，得到在所述尺度下的人脸特征图像：

将所述第二特征图像分别输入对应的所述子检测模块的3×3的卷积模块和上下文模块中，得到第一检测输出结果和第二检测输出结果；

将所述第一检测输出结果和所述第二检测输出结果进行维度上的拼接，得到所述尺度下的人脸特征图像。

可选的，所述情绪分类模块包括人脸情绪分类模块、框体回归模块和关键点回归模块，

所述将所述人脸特征图像输入到情绪分类模块，得到模型预测结果包括：

针对每个尺度的人脸特征图像执行以下操作，得到在所述尺度下的模型预测结果：

将所述人脸特征图像分别输入到三个1×1的卷积调整通道数，得到3个分类输入特征图像；

将所述三个分类输入特征图像分别输入到所述人脸情绪分类模块、框体回归模块和关键点回归模块，得到所述尺度下的人脸情绪的分类得分、人脸框的坐标信息和人脸关键点的坐标信息。

可选的，所述根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型包括：

获取多任务网络损失函数，所述多任务网络损失函数包括：人脸情绪的分类损失、人脸框的坐标信息的回归损失和人脸关键点的坐标信息回归损失；

根据所述人脸情绪的分类得分、人脸框的坐标信息、人脸关键点的坐标信息和所述多任务网络损失函数，对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

第二方面，本发明实施例提供了一种人脸情绪识别网络模型的训练装置，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述装置包括：

获取模块，用于获取数据集；

第一特征模块，用于将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像；

第二特征模块，用于将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像；

人脸特征模块，用于将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像；

分类模块，用于将所述人脸特征图像输入到情绪分类模块，得到模型预测结果，所述模型预测结果包括：人脸情绪的分类得分、人脸框的坐标信息和人脸关键点的坐标信息；

优化模块，用于根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

第三方面，本发明实施例提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上述第一方面所述的人脸情绪识别网络模型的训练方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的人脸情绪识别网络模型的训练方法的步骤。

本发明实施例提供的人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，基于主干网络和数据集中的训练图像，得到关于所述训练图像的多个不同尺度的第一特征图像；使再根据特征融合模块和第一特征图像得到多个不同尺度的第二特征图像；利用检测模块进行多个不同尺度人脸检测，得到人脸特征图像；多个不同尺度的人脸检测能够使得识别出图像中人脸特征图像，不同尺度的检测能够提高人脸特征图像识别的精准度；再根据情绪分类模块对人脸特征图像进行分析得到模型预测结果，基于不同尺度检测后的人脸特征图像得到的模型预测结果更加准确，对情绪的识别更加精准，最后对根据模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。通过本发明实施例的方法优化后的人脸情绪识别网络模型，能够在自然场景上让图像实现端到端的人脸情绪识别的流程，实现只通过一次人脸情绪识别网络模型就可以对提取的特征进行分类并回归得到人脸情绪分类，识别精准度高，同时还能提高处理效率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种人脸情绪识别网络模型的训练方法的流程图；

图2是本发明实施例提供的一种人脸情绪识别网络模型的结构示意图；

图3A是本发明实施例提供的一种输入图像数据增强前的示意图；

图3B是本发明实施例提供的一种双向的网格掩码的示意图；

图3C是本发明实施例提供的一种网格掩码的示意图；

图4是本发明实施例提供的一种深度可分离卷积的示意图；

图5是本发明实施例提供的一种卷积块结构的示意图；

图6是本发明实施例提供的一种逆残差结构的示意图；

图7是本发明实施例提供的一种注意力机制结构的示意图；

图8是本发明实施例提供的一种检测模块网络结构图；

图9是本发明实施例提供的一种上下文模块结构图；

图10是本发明实施例提供的一种先验框示意图；

图11是本发明实施例提供的一种人脸情绪识别网络模型的训练装置的结构示意图；

图12是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1和图2，本发明实施例提供一种人脸情绪识别网络模型的训练方法，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述方法包括：

步骤11：获取数据集；

步骤12：将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像；

步骤13：将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像；

步骤14：将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像；

步骤15：将所述人脸特征图像输入到情绪分类模块，得到模型预测结果，所述模型预测结果包括：人脸情绪的分类得分、人脸框的坐标信息和人脸关键点的坐标信息；

步骤16：根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

深度学习神经网络训练过程容易受到训练数据大小的影响，如果没有足够的训练数据来学习新参数，这个过程就会表现不佳。通常会将原始图像进行预处理，以此来产生相似的样本数据，数据增强实现简单，只需要处理输入的图像，而不需要改变网络结构或增加额外的参数。如果使用合理的预处理方法，能够提升模型的鲁棒性，避免过拟合和样本不均等问题。数据增强已经成为神经网络训练中不可或缺的一步。

信息遮挡目前被认为是最有效的一种数据增强的方法，但是单纯的信息遮挡也存在一些不足，如对小目标不兼容，学习局部特征的能力较弱等。

图像序列信息删除的关键在于避免连续区域的过度删除和保留，合理的信息删除方法应该在删除和保留图像的区域信息之间达到平衡。如果使用随机删除会导致失去很多有用的信息，导致模型训练有误。

因此，本发明实施例提供一种利用网格掩码来实现数据增强的方法，请参考图3A-3C，具体来说，可选的，所述获取数据集包括：

获取初始数据集，所述初始数据集中包括多张训练图像；

可选的，初始数据集可以采用Cohn-Kanade(CK+)数据集，CK+数据集基于Cohn-Kanade扩展得来的，该数据集包括来源于123个对象在实验室条下拍摄的593个图像序列，这些图像序列被分类标记为8个情绪类别。该数据集是用于开发和评估面部表情分析算法的常用方法之一。通常情况下，研究者采用留一法交叉验证策略，或者随机训练/测试集配置的方式使用该数据集。但是由于数据集过少，这些方法很难衡量算法的可靠性。

因此现有技术中，在对神经网络训练之前，数据增强也是非常重要的一步，从已有的数据生成更多的有用数据，使神经网络训练提高准确率，防止过拟合。常见的数据增强的方式主要有空间几何变换，如随机裁剪、随机缩放、随机翻转等；颜色变换，包括噪声、改变透明度，亮度和色调等；信息删除，如随机删除来帮助网络学习特征。已经有很多数据增强的方法，随机擦除是对输入图像连续区域随机设置为零；Has方法是随机删除图像中的几块区域；MixUP方法是基于多源图像融合的数据增强。

可选的，本发明实施例使用网格掩码对初始数据集中至少部分多张训练图像进行合理的删除。

网格掩码是一种有效的数据增强方法。它不是随机移除图像中的一些像素，也不是生成矩形块，而是生成连续的掩码，并填充一定的值。与其他方法不同，网格掩码的掩码块具有更好的稀疏性和规律性，有助于分割出更多的物体特征，减少掩码的总量，但是掩码的丰富性和随机性不足，因此，本发明实施例对网格掩码进行了进一步改进，具体来说：

请参考图3B，假设W_x表示水平掩码的宽度，W_y表示垂直掩码的宽度，G_x表示相邻掩码在水平方向上的距离宽度，G_y表示相邻掩码在垂直方向上的距离宽度。

分别用(W_x,W_y)和(G_x,G_y)生成一个双向(垂直方向和水平方向)的网格掩码，然后将它们相乘得到完整的网格掩码。

为了丰富掩码块的分布，提高掩码块的随机性，在RGB通道的每个维度上将所述网格掩码随机旋转相同角度，可选的，可以为顺时针随机旋转，旋转角度范围可以为从0度到30度。

以图3A中的输入训练图像为例，生成如图3B所示双向的网格掩码，对图3B中的网格掩码进行随机旋转得到图3C。

进一步的，可以进一步采取随机值得方法设定(W_x,W_y)和(G_x,G_y)的取值范围，将(W_min,W_max,g_min,g_min)的取值设定在一个范围内,这些参数取随机值。W_max表示水平掩码的宽度最大值，W_min表示垂直掩码的宽度最小值，G_max表示相邻掩码在水平方向上的最大值，G_min表示相邻掩码在垂直方向上的最小值。

G_x,G_y＝random(G_min,G_max)；

W_x,W_y＝random(W_min,W_max)；

进一步的，可以使用5个参数来表示网格掩码：

(W_min,W_max,g_min,g_min,F)；

F向量表示RGB通道中掩码的填充值，可选的，可以将填充值设为零来表示掩码。增强后的图像的像素值分布可以通过F的值设置，当掩码块在图像中占较大比例时，可以通过调整掩码块的参数来保留原始图像的信息。

本发明实施例提出的改进的网格掩码算法，既能保持数据删除率，又能对图像中细微的数据变化信息有效的保留，对于模糊的人脸也有效，还不会产生额外的计算。

本发明实施例中，可选的，所述主干网络包括：

多个卷积层，每个所述卷积层包含若干个卷积块；

每个所述卷积块采用深度可分离卷积；

在一些实施例中，可选的，主干网络设计采用卷积神经网络为基础。

请参考图2，在一些实施例中，可选的，主干网络构建7层卷积层。

为了达到轻量级的目的，在一些实施例中，可选的，使用深度可分离卷积代替普通卷积。请参考图4，本发明实施例提供一种深度可分离卷积结构，是将一个标准的卷积分解成为一个深度卷积和点卷积，使用深度可分离卷积替代传统卷积层，先使用单通道卷积融合空间信息，再使用逐点卷积融合特征的通道信息。本发明实施例提供的深度可分离卷积可以有效分离了图像的区域和通道，计算量大幅减少，效率有很大提升，模型更轻量型。具体来说：

请参考图4，假设输入数据尺寸是W×W×C，首先使用C个3×3×1的卷积核进行分组卷积；接着再通过N个1×1×C的点卷积操作融合各个通道的特征信息。假设卷积核的尺寸是D×D，步长为1，那么标准卷积的参数量为D×D×C×N，而深度可分离卷积的参数量为D×D×C+C×N。

标准卷积的计算量如下：

Amount(conv)＝D×D×C×W×W×N

深度可分离卷积的计算量如下：

Amount(dsconv)＝D×D×C×W×W+C×W×W×N

可以看出，两者的参数量之比等于计算量之比，假设输入一个80×80×24的特征图，经过3×3卷积输出40×40×40的特征图，采用深度可分离卷积在上述情况下参数量和计算量仅为传统卷积的1/7左右，很显然，网络模型计算速度大幅提升。

请参考图2，在一些实施例中，可选的，主干网络由Conv1～7构成，可选的，构建15个卷积块Block，每个Conv都包含了若干个Block。

请参考图2，本发明实施例中普通卷积块可以包括Block1、Block2、Block4、Block7、Block14，除上述卷积块，其余卷积块为跳跃卷积块，本发明实施例中在卷积块为跳跃卷积块时，卷积块进行了跳跃连接，请参考图5为跳跃卷积块的结构示意图。

请参考图2，本发明实施例中，可选的，所述将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像包括：

本发明实施例中，首先对第一个卷积块到最后一个卷积块对不同输入特征图像进行特征提取，依次得到不同卷积块的输出结果：

具体来说：可选的，请参考图5，当所述卷积块为第i个卷积块为跳跃卷积块时，首先将输入特征图像输入逆残差网络：

使用所述第i个卷积块中的1×1和3×3的卷积对第i个卷积块的输入特征图像的特征通道进行扩充，得到扩充后的特征图像；

使用1×1的卷积对所述扩充后的特征图像进行压缩，得到压缩后的特征图像。

请参考图6，本发明实施例中使用的逆残差结构是先对输入数据的特征通道进行扩充然后再对特征通道进行压缩，最后一层使用线性函数来代替Relu，避免从高维度向低纬度转换时大量信息丢失，当输入和输出的特征通道不一致时，跳层连接中需要通过1*1的卷积，将输出的特征通道再与输入的相加得到最终输出。采用本发明实施例中逆残差结构同样可以减少参数的同时，获得更深的图像特征。

接着引入注意力机制。在观察图像时，观察者通常会高效地分配有限的注意力，将更多的注意力投入到重点区域。深度学习中模仿这种方式在很多的特征信息中获取更感兴趣的信息。注意力机制的主要流程是，首先将输入特征图针对通道获取总体特征，然后对每个通道的总体特征学习权重，建立通道间相关性以增强高响应特征影响。因此，请参考图7，本发明实施例中的卷积块还引入了注意力机制，具体来说：

对所述压缩后的特征图像使用2x2的最大池化进行下采样，得到下采样后的特征图像；

使用1×1的卷积对所述下采样后的特征图像进行四次卷积，得到注意力特征图像；

将所述注意力特征图像作为所述第i个卷积块的输出结果；

将所述第i个卷积块的输出结果作为第i+1个卷积块的输入特征图像；

将所述注意力特征与输入逆残差网络之前的特征图像进行相加，得到第i个卷积块的输出结果。

请参考图7，本发明实施例中的注意力机制采用全卷积神经网络，采用1×1卷积代替全连接层，使得网络可以输入任意尺寸的图像数据，输入特征经过全局平均池化(GlobalAverage Pooling，GAP)，输出大小为1×1×C，经过第一个1×1卷积层降维，输出尺寸为1×1×C/4，经过第二个1×1卷积层升维，输出尺寸为1×1×C，最后进行Scale操作。Scale操作是把学习到的各通道权重与输入的C个通道相乘的结果。通过本发明实施例提供的注意力模型，可以让模型学习到更重要的特征而抑制不重要的特征。

最后，在本发明实施例中，在特征提取阶段Conv2、Conv3、Block11、Conv7得到的特征图像作为训练图像的4个尺度的第一特征图像。

进一步的，将不同尺度第一特征图像输入到特征融合模块进行特征融合，具体来说：

值得说明的是，在实际应用场景中，摄像头捕捉的画面往往存在人脸尺度变化很大的情况，因此需要人脸检测算法对多尺度就要较好的鲁棒性。

可选的，请参考图2，在本发明实施例中的主干网络中，有4个特征提取阶段，Stage1、Stage2、Stage3、Stage4分别提取了4个不同尺度的特征图，分别是Conv2、Conv3、Block11、Conv7输出的特征图，可选的，对应输入图片的下采样倍数为4倍、8倍、16倍、32倍，特征图尺寸分别为160×160×24、80×80×40、40×40×112、20×20×160，其中，Conv2输出的特征图感受野较小用于检测小人脸，Conv3输出的特征图用于检测中小人脸，Block11输出的特征图用于检测中大人脸，Conv7输出的特征图拥有较大的感受野用于检测大人脸。

本发明实施例中，特征融合部分将Conv2、Conv3、Block11和Conv7输出的特征图通过点卷积统一维度为64，输出分别表示为B1、B2、B3、B4层，令B4为P4层，将B4层进行上采样与B3层相加，为了消除上采样的混叠效应需要经过3×3的卷积得到P3层；同样的，将P3层进行上采样与B2层相加，经过3×3的卷积得到P2层；将P2层进行上采样与B1层相加，经过3×3的卷积得到P1层，至此特征融合完成。

进一步的，将P1、P2、P3、P4输入到检测模块，进行后续的分类和回归工作。

具体来说，请参考图8，可选的，所述检测模块包括：

请参考图2，在本发明实施例中，检测模块包括4个子检测模块，分别为D1、D2、D3、D4，即第二特征图像尺度的个数也为4，是指四种尺度的特征模块，即将人脸大小分成4级，根据不同的感受野分别识别小人脸、中小人脸、中大人脸和大人脸，具体来说：

请参考图8，可选的，分别使用Conv2、Conv3、Block11、Conv7输出的特征图进行特征融合过后的P1、P2、P3、P4的下采样不同倍数，可以得出D1、D2、D3、D4模块得到的输入尺寸分别是160×160×64、80×80×64、40×40×64、20×20×64，值得说明的是，D1、D2、D3、D4的网络结构相同，只是输入的特征图尺寸不同，根据不同的感受野分别识别小人脸、中小人脸、中大人脸和大人脸。

在本发明实施例中，4个子检测模块，每个子检测模块都有对应的三个先验框(Anchor)，以D1模块为例，网络输出为160×160×51，可以将这个特征图的每个通道看成是原始输入图像的160×160个像素点，每个像素点对应了三种不同尺度的先验框，先验框的中心位置也是像素的中心位置，请参考图10，虚线框代表人脸框真实位置，带有填充的中心框代表负责该人脸框预测的网格，三个从大到小的粗线框代表以该特征图中心像素为中心的三个不同尺寸的先验框，利用多尺度先验框对人脸进行检测。

进一步的，本发明实施例中，可选的，所述将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像包括：

请参考图8，本发明实施例中，对不同尺度进行识别为了获取更丰富的上下文特征信息，对每个模块D1、D2、D3、D4分别通过一个3×3的卷积和上下文模块Context Module，将两个输出进行维度上的拼接Concat，拼接后尺寸为W×W×C。

请参考图9,上下文模块通过引入大尺度滤波器来扩大感受野以获得更丰富的上下文信息，本发明实施例中三个3×3滤波器级联代替7×7滤波器，既增大了感受野又减少了28％的计算量。

所述情绪分类模块包括人脸情绪分类模块、框体回归模块和关键点回归模块，

本发明实施例中人脸情绪分类模块能够输出的不同人脸情绪的分类得分，可选的，人脸情绪的分类可以分为六种基本情绪：快乐、气愤、惊讶、害怕、厌恶和悲伤，当然，还可以根据实际应用需求对分类进行调整。

本发明实施例中使用三个1×1的卷积分别调整通道数作为输入进行人脸情绪分类、框体回归和关键点回归。获得W×W×(3×3)个人脸情绪分类得分、W×W×(3×4)个框体回归坐标和W×W×(3×10)个关键点回归坐标。

请参考图7，在识别模块增加关键点回归支路，由于相关的任务之间会产生相互促进的作用，加入关键点的回归器进行联合学习，这样可以提高识别的精度，并且关键点的识别可以矫正人脸，人脸对齐是人脸识别中的必经之路，关键点识别为后续识别提供了前提条件。每个识别模块都设置了不同尺度且长宽比为1的3个先验框。

因此，160×160尺寸的特征图会生成160×160×3个先验框，即，D1、D2、D3、D4模块分别生成76800、19200、4800、1200个先验框，总计102000个先验框。在训练阶段，需要将这些先验框与真实框计算交并比(Intersection over Union，IOU)，设定阈值为0.35，IOU大于0.35的先验框归为目标先验框，低于0.35则归为背景作为负样本，由于一张图上的人脸数有限而anchor数量庞大，会出现正负样本不均衡的问题，因此采用在线困难数据挖掘(Online Hard Example Mining，OHEM)，将判定为负样本的anchor损失值从高到低顺序选择负样本，正负比例为1：7，每个目标先验框都有负责预测的真实框，根据网络输出的对应的框体回归和关键点回归的偏移参数矫正预测框的位置以及关键点的位置。

因此，可以看出，获得适合尺寸的先验框至关重要，本发明实施例通过K-Means方法对数据集聚类，就可以获得适合该数据集的尺寸的先验框，该方法通常都是使用欧氏距离进行聚类分析，但是大框的欧式距离就更大，因此不能使用欧式距离，而采用聚类中心与其他框的IOU作为欧氏距离，聚类的距离公式如下公式所示，采用1-IOU可以保证重合度越高其距离应该越短，增强效果。

dist(i,center)＝1＝IOU(i,center)；

每个阶段特征图设置三种Anchor，因此k＝12，通过k-means聚算法，可以计算出12个先验框尺寸。

在本发明实施例中，可选的所述根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型包括：

在本发明是实施例中，使用多任务网络损失函数，该多任务网络损失函数总共分为三部分，第一部分为人脸情绪的分类损失；第二部分为人脸框的坐标信息的回归损失；第三部分为人脸关键点的坐标信息回归损失。多任务损失函数的公式如下：

L_c表示人脸分类损失，使用softmax损失做分类，p_i表示该先验框中分类的预测结果，表示真实标签的分类。

具体的优化过程为：首先预测值使用softmax计算概率，并且分类的概率之和为1，softmax函数公式下所示，表示softmax第i个分类的概率输出值，k表示k个类别。

接着通过交叉熵函数计算分类的真实值与网络中的预测的分类计算误差，交叉熵函数如下所示。

C＝-∑_iy_iloga_i；

多任务分类损失中的L_b表示人脸框坐标位置的回归损失，L_l表示人脸五个关键点位置的回归损失，这两个回归损失都使用损失函数，q_i表示是否是人脸，0代表背景，1代表其他情况，在数据集手工标注时，有部分人脸由于过小或其他原因未做人脸关键点的标注，因此t_i为0就表示该人脸没有标注关键点，为1就表示该人脸有可用的关键点信息用于计算回归损失，b_i表示模型预测的人脸框相对特征图网格的位置信息，/>表示真实标注的人脸框相对特征图网格的位置信息，同样的l_i表示模型预测的人脸关键点相对特征图网格的位置信息，/>表示真实标注的人脸关键点相对特征图网格的位置信息。

以L_b为例，回归损失函数如公式下所示。

其中，λ₁和λ₂作为权重参数分别为0.25和0.15，这在监督学习中增加了人脸框定位和人脸关键点定位的重要性，关键点权值较小，能够避免关键点预测偏差大时导致损失过大。

根据本发明实施例中的人脸情绪的分类得分、人脸框的坐标信息、人脸关键点的坐标信息和多任务网络损失函数，对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

本发明实施例中提出的人脸情绪识别网络模型主要包括主干网络、特征融合模块、检测模块和情绪分类模块。主干网络由Conv1～7构成，每个Conv都包含了对应的若干个含有卷积层的块，其中部分块与块之期间通过跳跃连接进行关联，可以解决深层网络导致的网格退化问题，同时利用批量归一化(Batch Normal)加速模型收敛，防止梯度消失和爆炸，利用深度可分离卷积代替传统卷积，达到轻量的目的。并且，从主干网络中提取四个不同尺度的特征层构建特征金字塔进行特征融合，然后将四层分别送到4个人脸检测模块(D1，D2，D3，D4)中，分别检测小、中小、中大、大目标人脸。进一步的，情绪分类模块基于SSH算法，采用多任务学习策略，包括人脸分类、框体回归和人脸关键点回归操作，在情绪分类模块中使用上下文模块结构扩大感受野获取更加丰富的上下文信息。在本发明实施例所训练的人脸情绪识别网络模型中不含全连接层，因此对输入的图片分辨率没有限制，效率更高。

请参考图11，本发明实施例还提供一种人脸情绪识别网络模型的训练装置20，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述装置包括：

获取模块21，用于获取数据集；

第一特征模块22，用于将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像；

第二特征模块23，用于将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像；

人脸特征模块24，用于将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像；

分类模块25，用于将所述人脸特征图像输入到情绪分类模块，得到模型预测结果，所述模型预测结果包括：人脸情绪的分类得分、人脸框的坐标信息和人脸关键点的坐标信息；

优化模块26，用于根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型。

本发明实施例中，可选的，所述获取模块21包括：

获取子模块，用于获取初始数据集，所述初始数据集中包括多张训练图像；

本发明实施例中，可选的，所述主干网络包括：

多个卷积层，每个所述卷积层包含若干个卷积块；

每个所述卷积块采用深度可分离卷积；

本发明实施例中，可选的，所述第一特征模块22包括：

第一特征子模块，用于从第一个卷积块到最后一个卷积块对不同输入特征图像进行特征提取，依次得到不同卷积块的输出结果；

本发明实施例中，可选的，所述第二特征模块23包括：

第二特征子模块，用于将所述多个不同尺度的第一特征图像输入到1×1的卷积中，生成统一维度的多个不同尺度的子特征图像；

本发明实施例中，可选的，所述检测模块包括：

本发明实施例中，可选的，所述人脸特征模块24包括：

人脸特征子模块，用于针对每个尺度的第二特征图执行以下操作，得到在所述尺度下的人脸特征图像：

本发明实施例中，可选的，所述情绪分类模块包括人脸情绪分类模块、框体回归模块和关键点回归模块，

所述分类模块25包括：

分类子模块，用于针对每个尺度的人脸特征图像执行以下操作，得到在所述尺度下的模型预测结果：

本发明实施例中，可选的，所述优化模块26包括：

优化子模块，用于获取多任务网络损失函数，所述多任务网络损失函数包括：人脸情绪的分类损失、人脸框的坐标信息的回归损失和人脸关键点的坐标信息回归损失；

本发明实施例提供的人脸情绪识别网络模型的训练装置能够实现图1的方法实施例实现的各个过程，并达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例提供了一种电子设备30，参见图12所示，图12为本发明实施例电子设备30的原理框图，包括处理器31，存储器32及存储在存储器32上并可在处理器31上运行的程序或指令，程序或指令被处理器执行时实现本发明的任一项人脸情绪识别网络模型的训练方法中的步骤。

本发明实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如上述任一项的人脸情绪识别网络模型的训练方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台服务分类设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种人脸情绪识别网络模型的训练方法，其特征在于，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述方法包括：

获取数据集；

2.根据权利要求1所述的方法，其特征在于，所述获取数据集包括：

获取初始数据集，所述初始数据集中包括多张训练图像；

3.根据权利要求1所述的方法，其特征在于，所述主干网络包括：

多个卷积层，每个所述卷积层包含若干个卷积块；

每个所述卷积块采用深度可分离卷积；

4.根据权利要求3所述的方法，其特征在于，所述将所述数据集中的训练图像输入到主干网络，得到关于所述训练图像的多个不同尺度的第一特征图像包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述多个不同尺度的第一特征图像输入到特征融合模块进行特征融合，得到多个不同尺度的第二特征图像包括：

6.根据权利要求1所述的方法，其特征在于，所述检测模块包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述多个不同尺度的第二特征图像输入到检测模块进行多个不同尺度人脸检测，得到人脸特征图像包括：

8.根据权利要求6所述的方法，其特征在于，所述情绪分类模块包括人脸情绪分类模块、框体回归模块和关键点回归模块，

9.根据权利要求1所述的方法，其特征在于，所述根据所述模型预测结果对所述人脸情绪识别网络模型进行优化，得到优化后的人脸情绪识别网络模型包括：

10.一种人脸情绪识别网络模型的训练装置，其特征在于，所述人脸情绪识别网络模型包括主干网络、特征融合模块、检测模块和情绪分类模块，所述装置包括：

获取模块，用于获取数据集；

11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至9中任一项所述的人脸情绪识别网络模型的训练方法的步骤。

12.一种计算机可读存储介质，其特征在于，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的人脸情绪识别网络模型的训练方法的步骤。