CN111160163A

CN111160163A - 一种基于区域关系建模和信息融合建模的表情识别方法

Info

Publication number: CN111160163A
Application number: CN201911310196.3A
Authority: CN
Inventors: 于慧敏; 张净
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-15
Anticipated expiration: 2039-12-18
Also published as: CN111160163B

Abstract

本发明公开了一种基于区域关系建模和信息融合建模的表情识别方法。该方法通过对表情显著区域的关系进行建模，以及表情显著区域的信息融合进行建模，基于卷积神经网络、循环神经网络以及自动编码器对输入图片的表情进行识别，并且生成表情特征模式图。不同于之前的识别方法，该方法模拟了两个层次的信息建模，最大化提取表情相关特征的同时能够抑制噪声信息。并且通过自动编码器生成表情特征模式图，增强了表情识别的可解释性。

Description

一种基于区域关系建模和信息融合建模的表情识别方法

技术领域

本发明属于图像识别、人脸表情识别领域，特别地涉及一种基于区域关系建模和信息融合建模的表情识别方法。在算法设计和模型训练部分涉及了深度学习技术。

背景技术

人脸表情识别是下一代人机交互的重要途径之一。其目标是根据当前人脸图像，自动分析出用户的情绪特征，并划分为某一类别。

对于人脸表情识别的方法，大体可以分为两个流派。第一种是基于人脸动作编码系统(Facial Action Coding System)。它将人脸面部与表情运动有关的肌肉区域进行编码，形成不同的AU(Action Unit)。通过检测一张人脸图像中不同AU的出现与否，来分析当前用户的表情。

而另一类表情识别的方法主要是基于深度学习方法。通过设计不同结构的深度学习网络，对当前人脸图像的表情特征进行提取并分类，得到用户的表情类别。随着计算资源的不断发展，这类方法受到越来越多研究者的重视。本发明所提出的方法也是基于深度学习方法。

人脸表情识别有其独特性，即在人脸中仅有少部分的表情肌肉运动提供了关键性的信息，而大部分人脸样貌特征对于表情识别来说存在着负作用。因此，如何从人脸的样貌特征中提取出最具有价值的表情特征，是设计深度网络的关键所在。而注意力模型给这个问题提供了良好的思路。通过对人脸图片中的关键性表情变化区域进行注意力加强，能够使得提取表情信息的同时最大程度地减少人脸样貌特征的带来的影响。

发明内容

本发明的目的在于提供了一种基于区域关系建模和信息融合建模的表情识别方法。该方法通过两次建模，实现了从人脸图像中对表情特征进行提取和融合，并完成表情识别分类。

为实现上述目的，本发明的技术方案为：一种基于区域关系建模和信息融合建模的表情识别方法。该方法为：使用目标人脸图像生成表情掩模初值，用于指示表情显著性区域。通过对显著性区域之间的关系进行建模，优化掩模的生成结果。将掩模应用于初始表情特征后形成新的表情特征，并对表情特征进行融合建模，形成维度更低、更紧凑的特征用于分类；同时，生成表情模式图，提升表情识别可解释性。

具体的，本发明方法包括如下步骤：

步骤1：预训练网络并生成表情掩模。基于包括L种不同类别的表情图像数据{表情图像I_i，表情类别标签y_i}，其中i＝1,…,N为样本编号。使用卷积神经网络Exp-Net产生中间特征

其中H,W,C分别为G_ori的长、宽和通道数。卷积神经网络Mask-Net利用Exp-Net产生的中间特征G_ori来学习表情显著区域，并生成单通道掩模

将掩模M应用于特征G_ori上，形成新的表情特征

步骤2：将G_mask输入Exp-Net的后续层完成表情识别分类任务并进行网络预训练，得到优化的Exp-Net权值；

步骤3：构建Refine-Net模型并得到隐特征h。所述Refine-Net模型由单层循环神经网络RNN组成，将步骤1得到的掩模M输入到Refine-Net模型中生成隐特征h；

步骤4：精调掩模M的区域。将Mask-Net与步骤3构建的Refine-Net级联，使用Triplet-Loss对h进行度量学习，以优化Mask-Net的神经元权重，使其生成的掩模M能够更加准确地反映表情显著区域；

步骤5：信息融合建模与分类。精调掩模M之后，以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值，按照步骤1的方法，得到精调后的表情特征G′_mask，将G′_mask输入一个由自编码器网络组成的信息融合网络Fuse-Net。G′_mask通过Fuse-Net中的编码器后生成一维向量特征

其中S为e的长度。所述Fuse-Net的编码器使用Triplet-Loss对e进行度量学习，使其对表情识别任务具有更好的区分度；再使用一个全连接网络对e进行表情分类，得到最终的表情类别q′；Fuse-Net中的解码器用于生成表情模式图R，其中使用Triplet-Loss对R进行度量学习，使相同表情标签的不同样本所生成的表情模式图尽可能相似；同时对每一个样本的R与I使用MSE-Loss，使得同一个样本的表情模式图R与其原图I尽可能相似。通过平衡两种相似性损失的比例训练网络，最终得到表情模式图R。

步骤6：将步骤5更新权重后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接，在Fuse-Net的编码器输出连接一个训练好的全连接网络构建得到基于区域关系建模和信息融合建模的表情识别模型，将采集的人脸表情图像输入至表情识别模型中，即可得到采集的人脸表情图像的类别和对应的表情模式图。

进一步地，所述步骤1中所使用的Exp-Net的结构选自VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。所使用的Mask-Net的结构选自单层卷积神经网络、双层卷积神经网络等。

进一步地，步骤1中所述的将掩模M应用于特征G_ori形成G_mask的方法如下：

G_mask＝M⊙G_ori

其中⊙表示按元素相乘。

进一步地，步骤3中所述的显著性区域关系建模方法如下：

(3.1)将掩模

按其每个元素的下标顺序进行向量化展开，形成一个一维向量

其中T＝H×W；

(3.2)将M_vec中的每个元素依次输入由单层RNN组成的Refine-Net。其中h为隐层的输出，{o^j}_{j＝1,2,…,T}为输出层的输出集合；

(3.3)将{o^j}_{j＝1,2,…,T}按其下标顺序重新排列为二维掩模

使用M作为监督项训练Refine-Net；

(3.4)训练完成后，h即为对每一个掩模M进行区域关系建模的结果，它表征表情显著性区域之间的关系。

进一步地，步骤4中所述的掩模精调方法如下：

(4.1)进行三元组抽样。根据样本的表情类别标签y_i，随机挑选样本{I^a,I^p,Iⁿ}组成三元组。其中a表示锚点样本，p表示与锚点样本表情类别相同的样本，n表示与锚点样本表情类别不同的样本；

(4.2)从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{h^a,h^p,hⁿ}。将Mask-Net与Refine-Net进行级联，使用Triplet-Loss对三元组隐特征进行度量学习来训练整个网络，优化Mask-Net的权重，使其生成的掩模M能够更加准确地反映表情显著区域。其中，Triplet-Loss损失函数具体为：

其中A为三元组的组数，[·]₊＝max(·,0)为Hinge-Loss，α为阈值。

进一步地，步骤5中所述的信息融合建模与分类方法如下：

(5.1)固定Exp-Net和Mask-Net的权值作为特征生成器，对每一张图像生成表情特征

(5.2)将G_mask输入Fuse-Net。其中编码器用于对G_mask进行特征融和建模，生成更紧凑的表情特征

(5.3)使用步骤4中相同的挑选三元组方法，形成三元组特征{e^a,e^p,eⁿ}。对三元组特征使用Triplet-Loss形成损失函数L_embed训练编码器，使其生成的特征e对表情分类任务具有更好的区分度；

(5.4)将特征e输入一个全连接网络进行表情分类。

进一步地，步骤6中所述的生成表情模式图R的方法如下：

(5.5)使用步骤4中相同的挑选三元组方法，形成三元组特征{R^a,R^p,Rⁿ}。对三元组特征使用Triplet-Loss形成损失函数L_sim：

其中β为阈值；

对三元组中的每一个样本R与其对应的输入图像I使用MSE-Loss形成损失函数L_pattern：

γ为阈值；

解码器的总损失函数为L_decoder＝λ₁L_sim+λ₂L_pattern，其中λ₁、λ₂是用于平衡两种损失的参数。通过调整不同的λ₁、λ₂，使得生成的表情模式图R达到最好的效果。

本发明的有益效果是：

(1)通过对表情显著性区域之间的关系进行建模，并通过度量学习对这种区域关系进行约束，从而寻找到更为准确的表情显著性区域；

(2)通过对信息融合的过程进行建模，使得生成的特征更为紧凑，并且对于表情识别的任务具有更好的区分度；

(3)通过生成表情模式图，提升了表情识别任务的可解释性。

附图说明

图1为本发明实施例的基于区域关系建模和信息融合建模的表情识别方法的步骤流程图；

图2为本发明实施例的精调掩模前后的掩模示意图；

图3为本发明实施例的表情模式图示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1所示为本发明实施例的基于区域关系建模和信息融合建模的表情识别的步骤流程图。

对于{人脸表情图像I_i，表情类别标签y_i}，其中i＝1,…,N为样本编号，对其进行以下步骤处理：

1.预训练网络并生成表情掩模。具体地：

(1.1)以VGG-Face作为基础网络，组成Exp-Net，将最后一层的神经元输出数更改为匹配人脸表情识别的类别数。将图像I输入网络，并从Conv_5层输出图像的特征

其中H,W,C分别为G_ori的长、宽和通道数；本实施例以VGG-Face为例，但不限于此，除了VGG-Face以外，还可以采用VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。

(1.2)将G_ori输入包含一层卷积层的网络Mask-Net，输出掩模

(1.3)将掩模M应用于G_ori上，形成特征

具体地，应用方法为：

G_mask＝M⊙G_ori

其中⊙表示按元素相乘；

2.将G_mask输入VGG-Face中Conv_5之后的网络，并在最后一层输出表情识别的分类结果。利用表情标签联合训练VGG-Face和Mask-Net。具体地，损失函数如下：

其中N为样本总数，y_i为真值标签，q_i为预测的表情类别。

3.构建Refine-Net模型并得到隐特征h。具体地：

(3.1)将掩模

其中T＝H×W；

(3.2)将M_vec中的每个元素依次输入由单层RNN组成的Refine-Net。其中h为隐层的输出，{o^j}_j＝1,2,…, ^T为输出层的输出集合；

(3.3)将{o^j}_{j＝1,2，…,T}按其下标顺序重新排列为二维掩模

使用M作为监督项训练Refine-Net。具体地，损失函数设计如下：

其中‖·‖₂为L2范数；

4.精调掩模M的区域。具体地：

(4.2)针对每一个三元组样本，从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{h^a,h^p,hⁿ}。将Mask-Net与Refine-Net进行级联，冻结VGG-Face中的Conv_1到Conv_5层，保证G_ori不发生改变。使用Triplet-Loss对三元组隐特征进行度量学习训练Mask-Net与Refine-Net级联网络，优化Mask-Net的权重，使其生成的掩模M能够更加准确地反映表情显著区域。

具体地损失函数为：

其中A为三元组的组数，[·]₊＝max(·,0)为Hinge-Loss，α为阈值，α为正数，实验中，可以通过设置多个α值，选择实验结果最优的α值。

5.信息融合建模与分类。具体地：

(5.1)以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值，即固定Exp-Net和Mask-Net的权值，作为特征生成器，按照步骤1的方法，对每一张图像生成表情特征

(5.2)将G′_mask输入Fuse-Net。其中编码器用于对G′_mask进行特征融和建模，生成更紧凑的表情特征

(5.3)使用步骤4中相同的挑选三元组方法，形成三元组特征{e^a,e^p,eⁿ}。对三元组特征使用Triplet-Loss形成损失函数L_embed训练编码器，使其生成的特征e对表情分类任务具有更好的区分度。具体地：

其中β为阈值，β为正数，实验中，可以通过设置多个β值，选择实验结果最优的β值；

(5.4)将特征e输入一个全连接网络进行表情分类。具体地：

其中y′_i为真值标签，q′_i为预测的表情类别。

生成表情模式图R。具体地：

(5.5)采用步骤4中相同的挑选三元组方法挑选三元组样本，将三元组样本输入Fuse-Net，Fuse-Net的解码器生成三元组特征{R^a,R^p,Rⁿ}。对三元组特征使用Triplet-Loss形成损失函数L_sim。具体地：

其中γ为阈值，γ为正数，实验中，可以通过设置多个γ值，选择实验结果最优的γ值；

对三元组中的每一个样本R与其对应的输入图像I使用MSE-Loss形成损失函数L_pattern。具体地：

解码器的总损失函数为L_decoder＝λ₁L_sim+λ₂L_pattern，其中λ₁、λ₂是用于平衡两种损失的参数，为正数。通过调整不同的λ₁、λ₂，使得生成的表情模式图R达到最好的效果。

6.将步骤5更新权重后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接，在Fuse-Net的编码器输出连接一个训练好的全连接网络即可构建得到基于区域关系建模和信息融合建模的表情识别模型，将采集的人脸表情图像输入至表情识别模型中，即可得到采集的人脸表情图像的类别和对应的表情模式图。

图2的第一行表示精调前的掩模示意图，第二行表示通过本方法精调后的掩模示意图，其中α、β、γ均取值0.2，λ₁、λ₂取值0.5。可以看出掩模的覆盖区域变得更加集中，说明网络能够捕捉到更加具有区分度的表情区域进行特征提取，从而避免了冗余信息对于分类所产生的干扰。

图3的第一行表示输入图像，第二行表示对应图像生成的表情模式图。通过表情模式图，可以把特征可视化。通过最后的图3可以看出，特征可视化以后可以通过肉眼看出表情类别，相比于以往的表情识别方法，具有更好的表情识别任务的可解释性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于区域关系建模和信息融合建模的表情识别方法，其特征在于，该方法包括如下步骤：

步骤1：预训练网络并生成表情掩模。基于包括L种不同类别的表情图像数据{人脸表情图像I_i，表情类别标签y_i}，其中i＝1,…,N为样本编号，使用卷积神经网络Exp-Net对目标图像进行特征提取，并得到每张图像的表情特征

其中H,W,C分别为G_ori的长、宽和通道数。然后，将G_ori输入一个单层或多层卷积神经网络Mask-Net学习表情显著区域，并生成单通道掩模

将掩模M应用于特征G_ori上，形成新的表情特征

步骤2：将步骤1得到的G_mask输入Exp-Net的后续层完成表情识别分类任务并进行网络预训练，优化Exp-Net的权值；

步骤4：精调掩模M的区域。将Mask-Net与步骤3构建的Refine-Net级联，使用Triplet-Loss对h进行度量学习，优化Mask-Net的神经元权重，以达到精调掩模M的目的；

步骤5：信息融合建模与分类。以步骤2优化的Exp-Net的权值、步骤4优化的Mask-Net的神经元权重更新Exp-Net、Mask-Net的权值，按照步骤1的方法，得到精调后的表情特征G′_mask，将G′_mask输入一个由自编码器网络组成的信息融合网络Fuse-Net。G′_mask通过Fuse-Net中的编码器后生成一维向量特征

其中S为e的长度。所述Fuse-Net的编码器使用Triplet-Loss对e进行度量学习，使其对表情识别任务具有更好的区分度；再使用一个全连接网络对e进行表情分类，得到最终预测的每张表情图像的类别q′；Fuse-Net中的解码器用于生成表情模式图R，其中使用Triplet-Loss对R进行度量学习，同时对每一个样本的R与其对应的输入图像I使用MSE-Loss，通过平衡两种相似性损失的比例训练网络，最终得到表情模式图R。

步骤6：将步骤5更新权值后的Exp-Net、Mask-Net和训练得到的Fuse-Net依次连接，在Fuse-Net的编码器输出连接一个训练好的全连接网络构建得到基于区域关系建模和信息融合建模的表情识别模型，将采集的人脸表情图像输入至表情识别模型中，即可得到采集的人脸表情图像的类别和对应的表情模式图。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中所使用的Exp-Net的结构选自VGG-16、VGG-19、Res-Net等常用卷积神经网络结构。所使用的Mask-Net的结构选自单层卷积神经网络、双层卷积神经网络等。

3.根据权利要求1所述的方法，其特征在于，步骤3所述的区域关系建模方法具体如下：

将掩模

其中T＝H×W。将M_vec中的每个元素依次输入由单层RNN组成的Refine-Net，最终得到RNN网络的隐特征h。

4.根据权利要求1所述的方法，其特征在于，步骤4所述的精调掩模方法具体如下：

根据样本的表情类别标签y_i，随机挑选表情图像数据组成三元组{I^a,I^p,Iⁿ}。其中a表示锚点样本，p表示与锚点样本表情类别相同的样本，n表示与锚点样本表情类别不同的样本。从步骤3得到的隐特征h中找出三元组样本对应的隐特征得到三元组隐特征{h^a,h^p,hⁿ}。将Mask-Net与Refine-Net进行级联，使用Triplet-Loss对三元组隐特征进行度量学习训练Mask-Net与Refine-Net级联网络，优化Mask-Net的权重。其中，Triplet-Loss损失函数具体为：

5.根据权利要求1所述的方法，其特征在于，所述步骤5中，采用三元组数据{I^a,I^p,Iⁿ}得到的三元组特征{e^a,e^p,eⁿ}和三元组特征{R^a,R^p,Rⁿ}分别对Fuse-Net的编码器和解码器进行训练。

6.根据权利要求5所述的方法，其特征在于，编码器的损失函数L_embed为：

其中β为阈值；

解码器的总损失函数为L_decoder＝λ₁L_sim+λ₂L_pattern，其中λ₁、λ₂是用于平衡两种损失的参数。

其中，损失函数

损失函数

γ为阈值。