CN110135251A

CN110135251A - 一种基于注意力机制和混合网络的群体图像情绪识别方法

Info

Publication number: CN110135251A
Application number: CN201910280721.5A
Authority: CN
Inventors: 邵洁; 钱勇生; 季欣欣; 李晓瑞; 莫晨; 程其玉
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2019-08-16
Anticipated expiration: 2039-04-09
Also published as: CN110135251B

Abstract

本发明涉及一种基于注意力机制和混合网络的群体图像情绪识别方法，包括以下步骤：步骤1：使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN，通过注意力机制结合图像中的面部特征获取面部特征的单个表示；步骤2：使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN；步骤3：利用数据库训练各分支网络模型；步骤4：融合各个模型的预测结果，执行网络搜索以学习每个模型的权重；步骤5：通过权重得出混合网络针对图像的最终识别结果。与现有技术相比，本发明具有降低由个别面部表情混淆最终分类的概率，充分结合了图像中场景、人脸、骨架的特征信息，降低由不同特征混淆最终分类的概率，更高的识别准确率等优点。

Description

一种基于注意力机制和混合网络的群体图像情绪识别方法

技术领域

本发明涉及群体情绪识别技术领域，尤其是涉及一种基于注意力机制和混合网络的群体图像情绪识别方法。

背景技术

智能情感分析研究已经走过了漫长的道路，但传统上一直关注场景中的单一个体，对群体情感识别的研究相对匮乏，然而，随着城市人口的迅速增长，研究对象由个体逐渐转变为群体。群体可分为大小群体，大群体如街道的人流，此时人与人之间并没有情感的交流和统一的情绪，本发明是对多位个体间有情感交流的小群体进行情绪识别。并且在拥挤的环境中，由于遮挡和分辨率的问题，很难根据个人的表情去推断群体的情感。因此，基于小群体情感识别显得尤为重要，它不仅可以应用于监控视频的异常检测，预测小群体情绪变化，保证社会安全。还可以应用于智能城市的规划，以给人们提供更加人性化的服务。如何高效地识别群体情感是目前急需解决的问题。

群体情绪识别最早由Dhall等人进行，该工作介绍了AFEW数据库和群体情绪识别框架，包括使用面部动作单元提取面部特征，在对齐的面上提取低级特征，使用GIST和CENTRIST描述符提取场景特征并使用多核学习融合。然而，他们提出的方法依赖于LBQ和PHOG特征和CENTRIST，其捕获面部表示和场景表示是有限的。

以往的情绪识别广泛使用人体面部特征，但根据实验心理学和情感计算的研究结果，身体姿势特征也传达重要的情感信息。人脸标志可直接作为位置向量，或者通过计算它们之间的几何距离来识别情绪，身体姿势特征主要被编码为图像中身体区域的手工特征。为了保留人脸标志和身体特征关键点的相对位置，可使用骨架特征表示，对应于人脸、身体和手的关键点集合。由于面部遮挡、光照变化、头部姿势变化，各种室内和室外环境不同以及由于相机距离不同而导致低分辨率的面部图像，因此群体情绪识别问题具有挑战性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制和混合网络的群体图像情绪识别方法。

本发明的目的可以通过以下技术方案来实现：

一种基于注意力机制和混合网络的群体图像情绪识别方法，包括以下步骤：

步骤1：使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN，通过注意力机制结合图像中的面部特征获取面部特征的单个表示；

步骤2：使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN；

步骤3：利用数据库训练各分支网络模型；

步骤4：融合各个模型的预测结果，执行网络搜索以学习每个模型的权重；

步骤5：通过权重得出混合网络针对图像的最终识别结果。

优选地，所述的步骤1包括以下分步骤：

步骤11：使用多任务级联卷积网络模型获取图像中人的面部信息；

步骤12：将面部信息输入面部CNN；

步骤13：引入损失函数减轻过拟合；

步骤14：通过注意力机制找到图像中每个面部的概率权重并获得单个面部特征向量。

优选地，所述步骤12中的面部CNN采用ResNet18和SphereFace模型，其输入为96×112RGB对齐的人脸图像。

优选地，所述步骤13中的损失函数为L-Softmax损失函数。

优选地，所述步骤14中的单个面部特征向量，其描述公式为：

式中，P_d为单个面部特征向量，δ_i为权重，p_i为面部特征向量。

优选地，所述步骤3中的各分支网络模型还包括场景CNN，所述场景CNN的网络模型架构包括VGG19、ResNet101、SE-net154和DenseNet-161，所述场景CNN中还引入压缩和奖惩网络模块，其描述公式为：

s＝σ(W₂δ(W₁z))

式中，z_c为压缩通道的第c个元素，F_sq(.)为挤压函数，W和H为输入图像的宽度和高度，u_c(i,j)为第i个通道第j个元素的输入，σ为sigmoid函数，δ为ReLU函数，z为压缩通道的所有压缩量，W₁和W₂表示升维层和降维层，s为奖惩量。

优选地，所述步骤2中的骨架CNN的网络模型架构包括ResNet101和SE-net154，所述步骤2中姿势估计方法采用OpenPose姿势估计方法。

与现有技术相比，本发明具有以下优点：

(1)本发明方法步骤1以及自身的分步骤11～分步骤14能给予各个面部表情不同的权重，降低由个别面部表情混淆最终分类的概率。

(2)本发明中步骤1～4充分结合了图像中场景、人脸、骨架的特征信息，降低由不同特征混淆最终分类的概率。

(3)本发明中的场景、人脸、骨架各自的模型构成不同，场景CNN包括VGG19、ResNet101、SE-net154和DenseNet-161且引入了压缩和奖惩网络模块，骨架CNN包括ResNet101和SE-net154，面部CNN中从MTCNN模型获得的面部因图像差异而具有不同的取向和比例，其架构使用ResNet18和SphereFace模型，具有很强的学习和泛化能力，具有更高的识别准确率。

附图说明

图1为本发明识别方法对应的整体流程框架示意图；

图2为本发明合并面部特征向量的流程示意图，其中，图2-a为利用平均值的合并面部特征向量的流程示意图，图2-b为利用注意力机制的合并面部特征向量的流程示意图；

图3为本发明中的压缩和奖惩网络模块的架构示意图；

图4为本发明中的利用OpenPose的骨架提取图，其中，图4-a为图例1的利用OpenPose的骨架提取图，图4-b为图例2的利用OpenPose的骨架提取图；

图5为本发明中的各分支最优模型识别结果混淆矩阵示意图，其中，图5-a为SphereFace Attention的识别结果混淆矩阵示意图，图5-b为DenseNet-161的识别结果混淆矩阵示意图，图5-c为SE-net154的识别结果混淆矩阵示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

1.群体情绪识别架构

主要包括三种类型CNN，即基于面部的CNN，基于场景的CNN和基于骨架的CNN。三种类型的CNN都训练了多个模型，然后对选取的模型执行决策融合以学习最佳组合，如图1所示。

2.面部CNN

2.1面部CNN预处理

使用多任务级联卷积网络模型(MTCNN)来检测图像中人的面部，MTCNN是基于卷积神经网络的人脸检测方法，具有性能高和速度快的优点。它包含级联CNN，可以快速准确地检测和对齐面部关节(五个面部标志检测，即两只眼睛、两个嘴角和鼻子)。它根据输入图像构建图像金字塔，然后将它们提供给以下三级级联框架，候选区域在第一阶段产生并在后两个阶段细化，面部标志位置在第三阶段产生。

从MTCNN模型获得的面部因图像差异而具有不同的取向和比例，为了学习更简单的模型，将每个面部标准化为正面视图并且统一面部图像的分辨率。可使用五个检测到的面部标志点来进行相似变换，使得各脸部的眼睛处于同一水平并将图像尺寸重新缩放到96×112，获得所有基于人脸表情面部CNN所需要的对齐人脸。面部情感CNN使用ResNet18和SphereFace模型，模型的输入为96×112RGB对齐的人脸图像。为了减轻过度拟合并增强泛化，使用人脸识别数据集对其进行预训练。

2.2L-Softmax损失函数

Large-Margin Softmax Loss(L-Softmax)被引入用于判别学习，它能够有效地引导网络学习使得类内距离较小、类间距离较大的特征。同时，L-Softmax不但能够调节不同的间隔(margin)，而且能够减轻过拟合问题。在微调阶段，对于面部特征x_i，损失通过以下公式计算：

其中y_i是x_i的标签，w_yi是全连接层中j类的权重；

其中m是预设角度边界约束，k是整数且k∈[0,m-1]。

2.3注意力机制

群体图像中存在多个人脸，为了可以独立于图像中存在的不同面部来进行情感识别，需要将所有的面部特征转换为单个表示。最简单的解决方法是计算平均特征，如图2-a所示，但是并非所有面部对于群体情感识别都同样重要。使用注意力机制来找到图像中每个面部的概率权重，计算根据这些权重的加权和以产生面部特征的单个表示，如图2-b所示。该注意力机制的方案将图像中检测到的面部输入到特征提取网络，即SphereFace。再把面部特征向量P_i输入到具有一维输出的全μ_i连接层，计算得分向量P_m：

然后将P_m和P_i连接起来并将其输入另一个全连接层，其中一维输出注意权重δ_i表示P_i和P_m之间的关系。根据注意权重计算面部特征的加权和，以产生单个面部特征向量P_d：

3.场景CNN

图像的全局场景为群体情绪识别提供重要线索。本发明使用四种最先进分类网络架构作为场景分类器来预测群体情绪，即VGG19，ResNet101，SE-net154和DenseNet-161，从整个图像中学习全局场景特征，训练基于图像全局的场景CNN。SE-net154是一种先进的识别网络，引入了压缩和奖惩网络模块筛选有用特征。

压缩和奖惩网络模块(Squeeze-and-Excitation blocks，SE)主要思想是通过显式地建模卷积特征通道之间的相互依赖性来提高网络的表达能力。对每个特征通道进行校准的机制，使网络从全局信息出发来提升有价值的特征通道并且抑制对当前任务无用的特征通道，如图3所示。squeeze功能如下所示：

其中z_c是压缩通道的第c个元素，F_sq(.)是挤压函数，u_c是第c个通道的输入，W和H表示输入图像的高度和宽度。

excition操作包括两个全连接层两个激活层操作，具体公式如下：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中δ和σ分别是激活函数ReLU和Sigmoid，降维层和升维层

4.骨架CNN

以往的情绪识别广泛使用人体面部特征，但根据实验心理学和情感计算的研究结果，身体姿势特征也传达重要的情感信息。为了保留人脸标志和身体特征关键点的相对位置，使用OpenPose来获得人体骨架姿势，如图4-a和图4-b所示，它可以联合检测单幅图像中人体、手和面部的关键点(每个人总共135个关键点)，并且与图像中检测到的人数相同。提取结果显示清晰的嘴形、身体姿势、手势和人物在图像中的布局，骨架特征图像与原始图像尺寸相同，再将图像按人体骨架外部最大矩形裁剪。本发明使用ResNet101、SE-net154作为骨架CNN来识别群体情绪，首先通过模型获取图像中每个人骨架的得分，然后将所有得分平均作为整个图像的预测。

5.本发明情绪识别方法具体实施结果分析

5.1各分支模型的结果，如图5-a、图5-b和图5-c所示，

表1显示了EmotiW验证集上六种面部CNN模型的结果，其中两种使用了注意机制，所有型号的准确度均达到70％左右。如表可得用注意机制的网络比Resnet18和SphereFace的基线提高了性能约2％，即训练面部CNN时，本发明使用注意机制是有效的。

表1 EmotiW验证集上面部CNN模型的结果

表2列出了EmotiW验证集上四种场景CNN模型的结果。其中VGG19使用L-Softmax损失，ResNet101、SE-net154和DenseNet-161使用Softmax损失。由表可见SE-net154和DenseNet-161获得了较优的性能。

表2 EmotiW验证集上场景CNN模型的结果

表3显示了EmotiW验证集上两种骨架CNN模型的结果。由表可见SE-net154的性能优于ResNet101。

表3 EmotiW验证集上骨架CNN模型的结果

5.2混合网络模型的结果，如表4所示：

表4 EmotiW测试集混合模型的结果

混合网络最终由7个模型组成：SphereFace、SphereFace_Attention、ResNet18、VGG-FACE、SE-net154(场景)、DenseNet-161(场景)和SE-net154(骨架)。表2显示了EmotiW测试集上具有不同权重的多个模型组合结果，并与Xin Guo和Dakshit Agrawal的模型进行比较，准确率分别提高了3.9％和1.9％。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于注意力机制和混合网络的群体图像情绪识别方法，其特征在于，包括以下步骤：

步骤3：利用数据库训练各分支网络模型；

步骤5：通过权重得出混合网络针对图像的最终识别结果。

2.根据权利要求1所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，其特征在于，所述的步骤1包括以下分步骤：

步骤12：将面部信息输入面部CNN；

步骤13：引入损失函数减轻过拟合；

3.根据权利要求2所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，所述步骤12中的面部CNN采用ResNet18和SphereFace模型，其输入为96×112RGB对齐的人脸图像。

4.根据权利要求3所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，所述步骤13中的损失函数为L-Softmax损失函数。

5.根据权利要求4所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，所述步骤14中的单个面部特征向量，其描述公式为：

6.根据权利要求1所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，所述步骤3中的各分支网络模型还包括场景CNN，所述场景CNN的网络模型架构包括VGG19、ResNet101、SE-net154和DenseNet-161，所述场景CNN中还引入压缩和奖惩网络模块，其描述公式为：

s＝σ(W₂δ(W₁z))

7.根据权利要求1所述的一种基于注意力机制和混合网络的群体图像情绪识别方法，所述步骤2中的骨架CNN的网络模型架构包括ResNet101和SE-net154，所述步骤2中姿势估计方法采用OpenPose姿势估计方法。