CN111914600A

CN111914600A - 一种基于空间注意力模型的群组情绪识别方法

Info

Publication number: CN111914600A
Application number: CN201910386847.0A
Authority: CN
Inventors: 卿粼波; 黄义波; 何小海; 吴晓红; 周文俊; 熊淑华
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-05-08
Filing date: 2019-05-08
Publication date: 2020-11-10

Abstract

本发明提供了一种基于空间注意力模型的群组情绪识别方法，主要涉及利用双通道群组情绪识别网络对群组情绪图像进行学习分类。该方法包括：构建双通道群组情绪识别网络，其中一通道通过以特征图的方式加入人脸掩膜引入空间注意力模型进行局部特征提取，另外一通道则将重点放在全局图像之上，提取群组情绪图像的全局特征，再将两通道模型进行融合，测试得到群组情绪的分类效果。本发明充分发挥深度学习的优势，有效避免手动提取特征的偏差和耗时长等问题，使得本发明方法的适应能力更强。此外，利用双通道网络的结构特征，并行训练及预测，形成一种互补的架构，再融合两个子网络的训练模型，提高群组情绪识别的准确率。

Description

一种基于空间注意力模型的群组情绪识别方法

技术领域

本发明涉及深度学习领域中的群组情绪识别问题，尤其是涉及一种基于空间注意力模型的群组情绪识别方法。

背景技术

群组情绪是指对至少有两张可见人脸图像中的群体进行情绪分析，群组情绪作为人类情绪状态最直接、最有效的表达方式之一，一直具有重要的研究意义。群组情绪识别是指从给定的静态图像中分离出特定的局部以及全局特征信息，继而确定研究对象的情绪状态，实现计算机对群组情绪的识别与理解，达到人机交互的过程。目前，群组情绪识别技术在人机交互领域的应用主要包括异常检测、移动终端最佳拍摄时机检测以及社交机器人等等。

情绪识别作为计算机视觉领域的重要研究内容，受到了国内外研究者的广泛关注，而群组情绪作为情绪识别的重要组成部分，有极大的研究价值。目前，对群组情绪的识别主要是基于静态群组情绪图片。基于静态图片的群组情绪分析的重点在于提取单张群组图像中的静态群组特征，目前利用这种方式进行群组情绪识别已经取得了不错的识别率和泛化能力。因此本专利利用群组情绪数据集的静态图片进行群组情绪识别。

深度学习(Deep Learning)是近年来备受关注的研究领域，它将多个抽象的数据处理层组合构成计算模型代替传统的人工选择特征的方法，让机器自主地学习数据样本的特征，有效避免人工选择特征的缺陷。并且与人工选择特征相比，深度学习方法利用大量的数据来学习特征，能够描述数据的特征信息进行更为丰富的描述。简言之，深度学习不管在识别时间还是准确度上，与传统方法相比都有了很大的提高。

发明内容

本发明的目的是提供一种基于空间注意力模型的群组情绪识别方法，引入深度学习中的双流网络结构以及空间注意力模型，充分学习群组情绪特征，进行群组情绪识别。有效解决目前浅层学习的参数调整困难、准确率不高等问题。

为了方便说明，首先引入如下概念：

卷积神经网络(Convolutional Neural Network,CNN)：受视觉神经机制的启发而设计，是一种多层前馈神经网络，每层由多个二维平面组成，平面上的每个神经元独立工作，卷积神经网络主要包括特征提取层和特征映射层。

空间注意力模型(Spatial Attention Model,SAM)：深度学习中的空间注意力模型从本质上讲和人类的选择性视觉注意力机制类似，核心目标是从众多信息中选择出对当前任务目标更关键的信息，并加强该信息对最终结果的影响。

人脸掩膜(Face Mask)：利用人脸检测工具检测人脸，将检测到的人脸区域像素值设为128，非人脸区域像素值设为0，得到的图像称为人脸掩膜。

双通道群组情绪识别网络：利用两个并行且互不相同的子神经网络分别提取图像局部以及全局情绪特征，再将这两个子神经网络进行加权融合形成双通道神经网络模型。

本发明具体采用如下技术方案：

提出了基于空间注意力模型的群组情绪识别方法，该方法的主要特征在于：

a.将静态群组图像分别输入双通道卷积神经网络进行训练；

b.上述a中双通道网络的输入均为原始图像，其中在第一通道网络中以特征图的方式将人脸掩膜加入到每个池化层之后，即引入空间注意力模型提取群组图像的局部特征，第二通道提取群组图像的全局特征；

c.对上述b中的双通道网络进行加权融合，得到群组情绪识别网络模型；

该方法主要包括以下步骤：

(1)对群组图像进行预处理，其中通过人脸检测跟踪等技术获取所有图像的人脸区域，再将人脸区域像素值设为128，非人脸区域的像素值设为0，得到所有群组图像对应的人脸掩膜图像；

(2)引入基于卷积神经网络(CNN)的双通道群组情绪识别网络(Channel1通道，Channel 2通道)，其中Channel1通道(C1)引入人脸掩膜提取群组图像的局部特征，Channel2通道(C2)提取群组图像的全局特征；

(3)上述(2)引入人脸掩膜是将人脸掩膜以池化层输出特征图相同的尺寸加入到C1通道的每一个池化层之后，构建空间注意力模型，提取群组情绪图像的局部特征，C2通道则是将原始群组情绪图像作为输入提取图像的全局特征；

(4)先将训练、验证集及其对应的人脸掩膜输入到C1通道网络进行训练，再将训练、验证集输入C2通道网络进行训练，然后将两个通道的模型进行融合，再利用融合后的模型对测试集进行测试，得到测试集上的准确度ACC(Accuracy)。

本发明的有益效果是：

(1)充分发扬深度学习中自我学习的优势，让机器自动学习图像特征，有效避免人工选择特征的偏差和低效问题，具有更强的适应能力。

(2)利用其中一通道结合人脸掩膜提取群组图像的局部特征，另一通道直接提取图像的全局特征，有效结合局部和全局特征的互补优势，提升训练效果的准确性。

(3)利用双通道网络结构将群组情绪图像的局部特征与全局特征相结合，再将两个通道的网络进行加权融合，提升最终的分类效果。

(4)将深度学习与群组情绪识别相结合，解决传统方法准确率不高的问题，提高研究价值。

附图说明

图1为本发明中通过原始群组图像所提取的人脸掩膜示例。

图2为基于空间注意力模型的群组情绪识别网络的组成图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

图2中，基于空间注意力模型的群组情绪识别方法，具体包括以下步骤：

(1)对原始群组图像进行人脸检测，将检测到的人脸区域的像素值设为128，非人脸区域的像素值设为0，得到人脸掩膜。

(2)利用不同的网络通道分别提取群组图像的局部特征和全局特征，本方法具体使用C1通道将人脸掩膜以特征图的方式加入到每一个池化层之后，即引入空间注意力模型提取群组图像的局部特征，C2通道提取群组图像的全局特征，最后采用3:7的权重融合两个通道得到本方法的群组情绪识别网络。

(3)训练：其中采用VGG19作为C1通道的基础网络提取群组图像的局部特征，采用Inception-Resnet-v2作为C2通道的基础网络提取群组图像的全局特征，对两个通道的网络进行加权融合得到群组情绪识别网络。接着利用步骤(1)中训练集和验证集对群组情绪识别网络进行训练。在C1通道的训练过程中，将人脸掩膜信息以特征图的方式加入到最大池化层之后，将特征提取的重点放在人脸上面；C2通道则直接提取图像的全局特征，最后得到训练完成的网络的参数模型，用于预测网络。

(4)将两个通道得到的参数模型采用3:7的权重融合后，利用测试集验证网络模型的性能。

Claims

1.一种基于空间注意力模型的群组情绪识别方法，其特征在于：

a.将静态群组图像分别输入双通道卷积神经网络进行训练；

该方法主要包括以下步骤：

(2)引入基于卷积神经网络(CNN)的双通道群组情绪识别网络(Channel1通道，Channel2通道)，其中Channel1通道(C1)引入人脸掩膜提取群组图像的局部特征，Channel2通道(C2)提取群组图像的全局特征；

2.如权利要求1所述的基于空间注意力模型的群组情绪识别方法，其特征在于在步骤(2)中采用VGG19作为C1通道的基础网络提取群组图像的局部特征，Inception-Resnet-v2作为C2通道的基础网络提取群组图像的全局特征。

3.如权利要求1所述的基于空间注意力模型的群组情绪识别方法，其特征在于在步骤(3)中C1通道将人脸掩膜以特征图的方式加入到每一个池化层之后，即引入空间注意力模型提取群组图像的全局特征。

4.如权利要求1所述的基于空间注意力模型的群组情绪识别方法，其特征在于在步骤(4)中对C1和C2这两个通道的网络采用3:7的权重融合得到群组情绪识别网络，利用融合后的模型进行群组情绪识别。