CN114694219A

CN114694219A - 改进胶囊网络的人脸表情识别方法及装置

Info

Publication number: CN114694219A
Application number: CN202210295485.6A
Authority: CN
Inventors: 余松森; 黄志机; 梁军; 洪泽泓; 陈建华
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-01

Abstract

本发明涉及一种改进胶囊网络的人脸表情识别方法，包括步骤：获取待识别人脸图像；将所述待识别人脸图像输入MFFAM‑CapsNet网络进行识别，获得所述待识别人脸图像所属的表情类别。相对于现有技术，本发明提供一种改进胶囊网络的人脸表情识别方法，其中MFFAM‑CapsNet网络的MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征，能够放大其中对人脸表情识别贡献大的胶囊特征的权重，缩小贡献小的胶囊特征的权重，从而增大人脸表情的类间差异，缩小人脸表情的类内差异，有效提高人脸表情识别准确率。

Description

改进胶囊网络的人脸表情识别方法及装置

技术领域

本发明涉及人脸表情识别技术领域，尤其是涉及一种改进胶囊网络的人脸表情识别方法及装置。

背景技术

人脸表情识别具有以下显著的特点：人脸表情具有细微的类间差异和强烈的类内变化。目前的人脸表情识别的算法主要依赖于深度卷积神经神经网络的框架，但是深度卷积神经网络在全连接层分类的时候，会丢失输入图像脸部各部位特征之间的相对关系，如脸部各部位特征之间的相对位置信息、相对大小关系和特征的方向信息等等，导致网络无法有效区分不同类别表情之间的差异以及相同类别表情内的不同变化，也就是无法有效地区分人脸表情细微的类间差异和类内变化。

为了解决这一问题，一种胶囊网络算法利用其动态路由算法，可以把所提取人脸各部位特征之间的相对关系反应在耦合系数更新上，保存了人脸各部位特征之间的相对关系，从而能够区分人脸表情细微的类间差异和类内变化。然而，由于传统的胶囊网络仅能提取单一层次的人脸图像特征，人脸图像特征提取不充分，导致人脸表情识别准确率低下。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种改进胶囊网络的人脸表情识别方法，能够区分人脸表情细微的类间差异和强烈的类内变化，能够充分提取人脸图像特征，从而使人脸表情识别准确率高。

本发明是通过以下技术方案实现的：一种改进胶囊网络的人脸表情识别方法，包括步骤：

获取待识别人脸图像；

将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别，获得所述待识别人脸图像所属的表情类别；

其中，所述MFFAM-CapsNet网络包括MFEM模块、MCAFM模块和分类预测模块，所述MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取；

所述MCAFM模块包括空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块，所述空间注意力子模块用于根据所述人脸图像特征获得基于空间域的空间特征图；所述通道注意力子模块用于根据所述空间特征图获得基于通道域的通道特征图；所述主胶囊子模块用于根据所述通道特征图获得初步胶囊特征；所述动态路由子模块用于根据所述初步胶囊特征通过动态路由算法获得预测胶囊特征；所述加权融合子模块用于根据所述预测胶囊特征通过自注意力机制计算预测胶囊特征的权重，同时将获得的权重与对应的预测胶囊特征相乘，并将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加，获得总胶囊特征；

所述分类预测模块用于根据所述总输出胶囊特征获得所述待识别人脸图像所属的表情类别。

相对于现有技术，本发明提供一种改进胶囊网络的人脸表情识别方法，其中MFFAM-CapsNet网络的MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征，能够放大其中对人脸表情识别贡献大的胶囊特征的权重，缩小贡献小的胶囊特征的权重，从而增大人脸表情的类间差异，缩小人脸表情的类内差异，有效提高人脸表情识别准确率。

进一步地，所述预测胶囊特征的权重的表达式为：

式中，W_j为所述预测胶囊特征中的第j个特征向量的权重，v_j为所述预测胶囊特征中的第j个特征向量。

进一步地，所述MFFAM-CapsNet网络还包括参数调整模块，所述参数调整模块包括损失反馈子模块，所述损失反馈子模块用于建立损失函数，并通过所述损失函数反馈到所述MFFAM-CapsNet网络的反向传播的网络参数更新中；

所述损失函数包括改进的亲和损失函数L_iaf，改进的亲和损失函数L_iaf的表达式为：

式中，M为所述待识别人脸图像的数量；

为第y_i个表情类别的类中心，y_i∈{1，2，...，K}，K为表情类别总数，

类中心

从d维高斯分布中随机抽样；x_i为M个待识别人脸图像中的第i个深层人脸图像特征；σ_c为K种不同表情类别的类中心之间的标准差。

进一步地，所述分类预测模块用于根据所述总输出胶囊特征获得每一表情类别的预测结果向量，确定模最长的所述预测结果向量对应的表情类别为所述待识别人脸图像所属的表情类别；

所述参数调整模块还包括解码器，所述解码器用于根据所述预测结果向量进行所述待识别人脸图像的重建，获得重建人脸图像；

所述损失函数的表达式为：

L＝0.95*L_c+0.05*L_r+L_iaf

其中，L为损失函数；L_c为边际损失函数，所述边际损失函数L_c的表达式为：

L_c＝T_c max(0，m⁺-||v_c||)+λ(1-T_c)max(0，||v_c||-m^-)²

式中，c为表情类别；T_c为表情类别c的指示函数，当c不为空时T_c为1，当c为空时T_c为0；m⁺为上边界；m^-为下边界；v_c为表情类别c的预测结果向量；λ为用于调整权重的超参数；

L_r为重建损失函数，所述重建损失函数L_r的表达式为：

式中，m为所述待识别人脸图像的数量；x_i为m个所述待识别人脸图像中的第i个所述待识别人脸图像；

为与第i个所述待识别人脸图像对应的所述重建人脸图像。

进一步地，所述MFEM模块包括多个不同通道数的MFEM卷积层；

所述将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别，获得所述待识别人脸图像所属的表情类别，包括步骤：

将所述待识别人脸图像输入所述MFEM模块，获得不同所述MFEM卷积层输出的浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征；

将所述浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征输入MCAFM模块，获得总胶囊特征；

将所述总胶囊特征输入所述分类预测模块，获得所述待识别人脸图像所属的表情类别。

进一步地，获取待识别人脸图像后，包括步骤：

以一预设概率对所述待识别人脸图像进行水平翻转；

和/或以一预设概率对所述待识别人脸图像旋转一定角度范围；

和/或以一预设概率在所述待识别人脸图像的边界向外填充预设数量的像素，并于所述待识别人脸图像的随机区域进行裁剪，以将所述待识别人脸图像调整为同一尺寸大小；

和/或通过遮挡块对所述待识别人脸图像进行随机遮挡。

进一步地，获取待识别人脸图像后，还包括步骤：

将所述待识别人脸图像调整为同一尺寸大小；

对所述待识别人脸图像的像素值进行归一化操作。

基于同一发明构思，本发明还提供一种改进胶囊网络的人脸表情识别装置，包括：

图像获取模块，用于获取待识别人脸图像；

图像识别模块，用于将所述待识别人脸图像输入MFFAM-CapsNet网络进行识别，获得所述待识别人脸图像所属的表情类别；

进一步地，所述预测胶囊特征的权重的表达式为：

所述MFFAM-CapsNet网络还包括参数调整模块，所述参数调整模块包括解码器和损失反馈子模块，所述解码器用于根据所述预测结果向量进行待识别人脸图像的重建，获得重建人脸图像；所述损失反馈子模块用于建立损失函数，并通过所述损失函数反馈到所述MFFAM-CapsNet网络的反向传播的网络参数更新中；所述损失函数的表达式为：

L＝0.95*L_c+0.05*L_r+L_iaf

L_c＝T_c max(0，m⁺-||v_c||)+λ(1-T_c)max(0，||v_c||-m^-)²

L_r为重建损失函数，所述重建损失函数L_r的表达式为：

为与第i个所述待识别人脸图像对应的所述重建人脸图像；

L_iaf为改进的亲和损失函数，改进的亲和损失函数L_iaf的表达式为：

式中，M为所述待识别人脸图像的数量；

为第yi个表情类别的类中心，y_i∈{1，2，...，K}，K为表情类别总数，

类中心

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为实施例的改进胶囊网络的人脸表情识别方法的流程示意图；

图2为实施例的MFFAM-CapsNet网络的结构示意图；

图3为一具体实施例的空间注意力子模块的结构示意图；

图4为一具体实施例的通道注意力子模块的结构示意图；

图5为动态路由子模块的一示例性流程示意图；

图6为实施例的改进胶囊网络的人脸表情识别装置的结构示意图；

图7为本发明的方法的t-SNE可视化效果示意图；

图8为未使用本发明的改进的亲和损失函数的人脸表情识别方法的t-SNE可视化效果示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本发明通过提取人脸表情图像的浅层、中层和深层等多层次的图像特征以使人脸表情图像的图像特征得到充分提取，并采用注意力机制放大能够区分不同类别表情的关键特征的权重，从而解决类间差异小和类内变化大导致的人脸表情识别准确率低的问题。同时，通过包括改进的亲和损失函数的损失函数来调整整个网络的参数，以最大化类间特征的间距和最小化类内特征的间距，从而提高人脸识别准确率。具体通过以下实施例进行说明。

请参阅图1，其为本实施例的改进胶囊网络的人脸表情识别方法的流程示意图，该方法包括步骤：

S1：获取待识别人脸图像。

所述待识别人脸图像为实体拍摄的包含了人脸主体的图像。在一具体实施中，可以通过与摄像头具有数据传输关系的手机终端、平板电脑终端、PC终端采集待识别人脸图像，并传输至处理器中，该处理器执行计算机程序时能够实现本发明的方法，该计算机程序可以存储于存储器或计算机可读存储介质中。

S2：对获取的所述待识别人脸图像进行预处理。

对所述待识别人脸图像的预处理具体包括：将待识别人脸图像调整为同一尺寸大小，在本实施例中，将待识别人脸图像同一调整为224×224；对所有待识别人脸图像的像素值进行归一化操作，归一化的表达式为channel＝(channel-mean)/std，式中channel为通道，channel-mean为每个通道的均值，std为方差，在本实施例中归一化操作包括3个通道，每个通道的均值channel-mean设置为(0.485，0456，0.406)，方差std设置为(0.229，0.224，0.225)，则经过归一化的待识别人脸图像尺寸为224×224×3。

为了进一步增加训练模型的泛化性能，在一优选实施例中，对用于训练模型的待识别人脸图像的预处理还包括以一预设概率对待识别人脸图像进行水平翻转，在本实施例中，该预设概率设置为0.5；以一预设概率对待识别人脸图像旋转一定角度范围，在本实施例中，该预设概率设置为0.2，旋转角度范围设置为-45°～45°；以一预设概率在待识别人脸图像的边界向外填充预设数量的像素，并在填充后的图像的随机区域进行裁剪，裁剪尺寸与填充前的图像一致，以将所述待识别人脸图像调整为同一尺寸大小；通过遮挡块对待识别人脸图像进行随机遮挡。

S3：将预处理后的待识别人脸图像输入MFFAM-CapsNet网络(Capsule NetworkBased On Multi-level Feature Fusion Attention Mechanism，基于多层次特征融合注意力机制的胶囊网络)进行表情识别，获得所述待识别人脸图像所属的表情类别。

请参阅图2，其为所述MFFAM-CapsNet网络的结构示意图，该MFFAM-CapsNet网络包括MFEM(Multi-level Feature Extraction Module，多层次特征提取)模块、MCAFM(Multi-level Capsule Attention Fusion Module，多层次胶囊注意力)模块、分类预测模块和参数调整模块，其中MFEM模块用于对待识别人脸图像进行多层次的人脸图像特征提取；MCAFM模块用于根据所述MFEM模块所提取的多层次的人脸图像特征分别进行基于注意力机制的胶囊处理，得到胶囊特征；分类预测模块用于根据所述MCAFM模块所得到的胶囊特征进行分类概率预测，得到各表情类别的预测结果向量；参数调整模块用于调整MFFAM-CapsNet网络反向传播的网络参数。

具体地，MFEM模块包括多个不同通道数的MFEM卷积层。将待识别人脸图像输入MFEM模块，依次通过多个不同通道数的MFEM卷积层对待识别人脸图像进行卷积，获得其中若干MFEM卷积层输出的人脸图像特征，并输入MCAFM模块。在一优选实施例中，通过所述MFEM模块获得的人脸图像特征包括浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。更具体地，本实施例采用Resnet18网络进行待识别人脸图像的多层次的人脸图像特征提取，该Resnet18网络的MFEM卷积层具体包括Conv1层、Layer1层、Layer2层、Layer3层和Layer4层，其中Conv1层包括一个通道数为64，卷积核大小为7×7的卷积层；Layer1层包括两个BasicBlock(基本块)，每一BasicBlock包含两个通道数为64，卷积核大小为3×3的卷积层和一个shortcut连接层；Layer2层包括两个BasicBlock，每一BasicBlock包含两个通道数为128，卷积核大小为3×3的卷积层和一个shortcut连接层；Layer3层包括两个BasicBlock，每一BasicBlock包含两个通道数为256，卷积核大小为3×3的卷积层和一个shortcut连接；Layer4层包括两个BasicBlock，每一BasicBlock包含两个通道数为512，卷积核大小为3×3的卷积层和一个shortcut连接。其中Layer2层、Layer3层和Layer4层输出的人脸图像特征分别为浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。

将待识别人脸图像输入MFEM模块，依次通过Conv1层、Layer1层、Layer2层、Layer3层和Layer4层对待识别人脸图像进行卷积，对于输入尺寸为224×224×3的待识别人脸图像，Conv1层输出的特征维度分别为64×112×112，Layer1层输出的特征维度为64×56×56，Layer2层输出特征维度为128×28×28，Layer3层输出特征维度为256×14×14，Layer4层输出特征维度为512×7×7。

MCAFM模块包括多个空间注意力(Spatial attention)子模块、多个通道注意力(Channel Attention)子模块、多个主胶囊(PrimaryCaps)子模块、多个动态路由(Dynamicrouting)子模块和向量加权(Weight)子模块，将同一待识别人脸图像的多个层次的人脸图像特征输入MCAFM模块，依次通过空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块分别对同一待识别人脸图像的多个层次的人脸图像特征进行处理，获得总输出胶囊特征。其中，空间注意力子模块用于根据人脸图像特征获得基于空间域的空间特征图；通道注意力子模块用于根据空间特征图获得基于通道域的通道特征图；主胶囊子模块用于根据通道特征图获得初步胶囊特征；动态路由子模块用于根据初步胶囊特征通过动态路由算法获得预测胶囊特征；加权融合子模块用于对预测胶囊特征进行加权操作，并将同一待识别人脸图像对应的多个具有权重的预测胶囊特征求和，获得总输出胶囊特征。在一优选实施例中，MCAFM模块包括三个空间注意力子模块、三个通道注意力子模块、三个主胶囊子模块、三个动态路由子模块和一个加权融合子模块。

请参阅图3，其为一具体实施例的空间注意力子模块的结构示意图，该空间注意力子模块包括第一卷积层(Conv2)、第二卷积层(Conv3)、第三卷积层(Conv4)、第四卷积层(Conv5)和激活函数(Activation)，其中第一卷积层的卷积核大小为1×1，第二卷积层的卷积核大小为3×3，第三卷积层的卷积核大小为1×3，第四卷积层卷积核大小为3×1。

将人脸图像特征输入空间注意力模块，首先通过第一卷积层对人脸图像特征进行卷积，以降低一半的通道数从而降低计算量；再分别通过第二卷积层、第三卷积层和第四卷积层对第一卷积层输出的特征进行卷积后求和；通过激活函数对求和结果特征进行处理；将激活函数的输出特征与输入的人脸图像特征进行点积运算，获得基于空间域的空间特征图。

请参阅图4，其为一具体实施例的通道注意力子模块的结构示意图，该通道注意力子模块包括全局平均池化层(Pooling)、第五卷积层(Conv6)和激活函数(Activation)。将空间特征图输入通道注意力子模块，通过全局平均池化层将空间特征图的每一通道压缩为1个权值；再依次经过卷积层和激活函数的处理后，将激活函数的输出特征与输入的空间特征图进行点积运算，获得基于通道域的通道特征图。在一具体实施中，通道特征图的特征维度为512×7×7。

主胶囊子模块包括卷积核大小为2×2，步长为1，填充为0的卷积层，将通道特征图输入主胶囊子模块，通过该卷积层对通道特征图进行预设次数的卷积操作，获得初步胶囊特征。在一优选实施例中，卷积操作的预设次数设置为8次，则对应得到8个初步胶囊特征。对于特征维度为512×7×7的通道特征图，经过主胶囊子模块的卷积层卷积后的特征维度为6×6×32，将8次卷积的卷积结果特征向量进行拼接，得到特征维度为6×6×32×8的初步胶囊特征，即初步胶囊特征包括6×6×32个8维的特征向量，即1152个8维的特征向量。

请参阅图5，其为动态路由子模块的一示例性流程示意图，该动态路由子模块对初步胶囊特征通过动态路由算法进行计算获得预测胶囊特征。其中，动态路由算法对初步胶囊特征进行计算得到的第j个父节点输出向量S_j表达式为：

式中，c_ij为耦合系数，耦合系数c_ij的总和为1；

为预测特征向量，预测特征向量

的表达式为：

式中，u_i为初步胶囊特征的第i个特征向量，w_ij为权重矩阵。

通过挤压函数(squashing)对父节点输出向量S_j进行计算获得预测胶囊特征v_j，预测胶囊特征v_j的表达式为：

当预测向量

与所有可能的父节点输出向量S_j的余弦值越大，则意味着该预测向量与该父节点越接近，由此调高该预测向量的耦合系数，同时降低其他预测向量的耦合系数，其中耦合系数c_ij的调整表达式为：

式中，当前的b_ij值为原b_ij的值加上预测向量

与预测胶囊特征v_j的乘积，即

b_ij的初始值为0。

在具体实施中，将包括1152个8维的特征向量的初步胶囊特征输入动态路由子模块，动态路由子模块输出的预测胶囊特征的特征维度为1152×8。

加权融合子模块根据预测胶囊特征通过自注意力机制计算其对应的权重，并将获得的权重与该预测胶囊特征相乘；将同一待识别人脸图像对应的具有权重的多个预测胶囊特征相加，获得总胶囊特征。其中，预测胶囊特征的权重W_j的表达式为：

在一具体实施中，将特征维度为1152×8的预测胶囊特征输入加权融合子模块，加权融合子模块输出的总胶囊特征的特征维度为1152×8。

分类预测模块根据总胶囊特征计算待识别人脸图像对于每一表情类别的预测概率，确定预测概率最高的表情类别为该待识别人脸图像所属的表情类别。将总胶囊特征输入分类预测模块，得到对应每一表情类别的预测结果向量，每一表情类别的预测结果向量的模为待识别人脸图像对于该表情类别的预测概率，模最长的预测结果向量对应的表情类别即为预测概率最高的表情类别。

在一具体实施中，将特征维度为1152×8的总胶囊特征输入分类预测模块，分类预测模块输出7×16的预测结果向量，即7个表情类别的16维的预测结果向量，其中表情类别可以包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和自然状态。

参数调整模块包括解码器和损失反馈子模块，解码器用于根据预测结果向量进行待识别人脸图像的重建，获得重建人脸图像。解码器包括FCl全连接层、FC2全连接层和FC3全连接层，其中FCl全连接层和FC2全连接层的激活函数为ReLU函数，FC3全连接层的激活函数为Sigmoid函数。将预测结果向量依次输入FC1全连接层、FC2全连接层和FC3全连接层，对于7×16的预测结果向量，FC1全连接层输出的向量特征维度为512，FC2全连接层输出的向量特征维度为1024，FC3全连接层输出的向量特征维度为150528(3×224×224)。

损失反馈子模块用于建立损失函数，通过损失函数反馈到MFFAM-CapsNet网络反向传播的网络参数更新当中。损失函数L的表达式为：

L＝0.95*L_c+0.05*L_r+L_iaf

其中，L_c为边际损失函数，其表达式为：

L_c＝T_c max(0，m⁺-||v_c||)+λ(1-T_c)max(0，||v_c||-m^-)²

式中，c为表情类别；T_c为表情类别c的指示函数，当c不为空时T_c为1，当c为空时T_c为0；m⁺为上边界，取值为0.9；m^-为下边界，取值为0.1；v_c为表情类别c的预测结果向量；λ为用于调整权重的超参数，取值为0.5。

L_r为重建损失函数，重建损失函数L_r根据重建人脸图像和经过预处理的待识别人脸图像像素间的欧式距离获得，重建损失函数L_r的表达式为：

式中，m为待识别人脸图像的数量，即batchsize；x_i为m个待识别人脸图像中的第i个经过预处理的待识别人脸图像；

为与经过预处理的待识别人脸图像对应重建人脸图像。

L_iaf为改进的亲和损失函数，改进的亲和损失函数L_iaf用于计算并最小化人脸图像特征x_i与其所属的表情类别的类中心

的距离，以最小化类内距离；计算所有表情类别的类中心的标准差σ_c，并最小化1/σ_c，由于所有表情类别的类中心的标准差可以描述所有类别的离散程度，通过最大化该标准差，可以使得所有类中心的分布更加的离散，从而扩大类间的距离；计算并扩大每一个类中心与其他所有类中心平均值的距离，以进一步扩大类间的差距。

改进的亲和损失函数L_iaf的表达式为：

式中，M为待识别人脸图像的数量，即batchsize；

类中心

从d维高斯分布中随机抽样；x_i为M个待识别人脸图像中的第i个MFEM模块的Layer4层输出的人脸图像特征；σ_c为K种不同表情类别的类中心之间的标准差。

此外，类中心

是随着深层特征的改变而更新的，由于训练集数据的庞大，难以一次性加载所有训练集中的待识别人脸图像，因此在一具体实施中，对训练集的数据进行分批，根据每一批的待识别人脸图像的数量来分批次更新类中心

则重建损失函数L_r中的m及改进的亲和损失函数L_iaf中的M为每批待识别人脸图像的数量。

基于同一发明构思，本发明还提供一种改进胶囊网络的人脸表情识别装置，请参阅图6，该装置包括图像获取模块10、图像预处理模块20和图像识别模块30，所述图像获取模块10用于获取待识别人脸图像；所述图像预处理模块20用于对所述图像获取模块获取的所述待识别人脸图像进行预处理；所述图像识别模块30用于将所述图像预处理模块预处理后的待识别人脸图像输入MFFAM-CapsNet网络进行表情识别，获得所述待识别人脸图像所属的表情类别，该MFFAM-CapsNet网络与上述改进胶囊网络的人脸表情识别方法实施例中的MFFAM-CapsNet网络相同。

更具体地，所述图像识别模块30包括特征提取模块31、特征融合模块32和预测类别获取模块33，所述特征提取模块31用于将待识别人脸图像输入MFFAM-CapsNet网络的MFEM模块，依次通过多个不同通道数的MFEM卷积层对待识别人脸图像进行卷积，获得其中若干MFEM卷积层输出的人脸图像特征，并输入MFFAM-CapsNet网络的MCAFM模块。在一优选实施例中，通过所述MFEM模块获得的人脸图像特征包括浅层人脸图像特征、中层人脸图像特征和深层人脸图像特征。

所述特征融合模块32用于将同一待识别人脸图像的多个层次的人脸图像特征输入MFFAM-CapsNet网络的MCAFM模块，依次通过MCAFM模块的空间注意力子模块、通道注意力子模块、主胶囊子模块、动态路由子模块和加权融合子模块分别对同一待识别人脸图像的多个层次的人脸图像特征进行处理，获得总输出胶囊特征。

所述预测类别获取模块33用于将总胶囊特征输入MFFAM-CapsNet网络的分类预测模块，得到对应每一表情类别的预测结果向量，每一表情类别的预测结果向量的模为待识别人脸图像对于该表情类别的预测概率，模最长的预测结果向量对应的表情类别即为预测概率最高的表情类别。

对于装置实施例而言，由于其基本对应于方法实施例，所有相关细节之处请参见方法实施例的说明，在此不再赘述。

以下通过三个实验来说明本发明的技术效果：

实验1：使用本发明的改进胶囊网络的人脸表情识别方法和现有流行的人脸表情识别方法对公开的RAF-DB(Real-world Affective Faces Database)数据集进行处理，RAF-DB数据集是一个真实世界的面部表情数据集，包含从互联网上下载的29672张高度多样化的面部图像，本实验采用其中7类基本情感的单标签子集，共包含15339张图像，其中12271张训练样本，3068张测试样本；将处理结果的准确率进行比较，如表1所示，本发明的方法的准确率达到89.13％，均高于其他人脸表情识别方法，尤其比2017年Hinton所提出的基于Capsnet(胶囊网络)的人脸识别方法高出了13.01％的准确率。

表1

由此可见，相对于现有技术，本发明的MFEM模块提取待识别人脸图像的浅层胶囊特征、中层胶囊特征和深层胶囊特征等多层次胶囊特征，充分提取了待识别人脸图像的特征，提高了模型对图像多层次特征的提取能力。由于人脸表情识别具有细微的类间差异，也就是不同表情之间通常共用大部分相同的脸部特征，所以只有通过关键部位的脸部特征的差异才能判断待识别人脸图像所属表情类别，因此MCAFM模块通过针对胶囊的注意力机制融合多层次胶囊特征，能够放大其中对人脸表情识别贡献大的胶囊特征的权重，缩小贡献小的胶囊特征的权重，从而增大人脸表情的类间差异，缩小人脸表情的类内差异，有效提高人脸表情识别准确率。

实验2：使用本发明的使用了改进亲和损失函数的方法和未使用本发明的改进的亲和损失函数的人脸表情识别方法分别对RAF-DB数据集进行处理，将处理结果通过t-SNE可视化算法对各表情类别的成员进行颜色编码。请参阅图7和图8，其中图7为本发明的方法的t-SNE可视化效果示意图；图8为未使用本发明的改进的亲和损失函数的人脸表情识别方法的t-SNE可视化效果示意图。可见，本发明的方法通过改进的亲和损失函数进行参数调整，可以有效地扩大不同表情类别之间的间距，同时聚合同表情类别的不同成员。

实验3：将本发明的方法中的损失函数替换为不使用损失函数、center loss、现有的亲和损失函数，并对RAF-DB数据集进行处理；使用本发明使用了改进的亲和损失函数的方法对RAF-DB数据集进行处理；将处理结果的准确率进行比较，如表2所示，本发明使用了改进的亲和损失函数的方法比本发明的方法中的损失函数替换为不使用损失函数、centerloss、现有的亲和损失函数的准确率分别高1.01％、0.62％、0.51％。

表2

损失函数	准确率
		不使用损失函数	88.12％
center loss	88.51％
		现有的亲和损失函数	88.62％
改进的亲和损失函数	89.13％

由此可见，相对于现有技术，本发明结合改进的亲和损失函数能够更好地最大化不同表情类别的类间间距以及最小化相同表情类别的类内间距，进一步提高人脸表情识别准确率。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。