CN107368798B

CN107368798B - 一种基于深度学习的人群情绪识别方法

Info

Publication number: CN107368798B
Application number: CN201710552019.0A
Authority: CN
Inventors: 卿粼波; 周文俊; 吴晓红; 何小海; 滕奇志; 熊文诗
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2017-07-07
Filing date: 2017-07-07
Publication date: 2019-11-29
Anticipated expiration: 2037-07-07
Also published as: CN107368798A

Abstract

本发明提供了一种基于深度学习的视频人群情绪分析方法,主要涉及利用多流神经网络对视频中人群情绪进行分类。该方法包括：构建多流神经网络(像素，光流，显著性)，并利用该网络并行提取视频序列的像素信息，叠加光流信息，显著性信息中的特征，最后融合这三种特征，得到人群情绪的分类。本发明充分发挥深度学习的自我学习能力，避免了人工提取特征的局限性，使得本发明方法的适应能力更强。利用多流深度学习网络的结构特征，并行训练及预测，最后融合多流子网络的分类结果，提高了准确率及工作效率。

Description

一种基于深度学习的人群情绪识别方法

技术领域

本发明涉及视频分析领域中的人群情绪识别问题，尤其是涉及一种基于深度学习的多流神经网络对人群情绪分类的视频分析方法。

背景技术

人群的情绪分析是通过分析人群的行为，着装来判断人群的情感状态，如激动、兴奋、正常、枯燥等。视频大量存在于现实生活之中，如无人机视频监控，网络共享视频，3D视频等。通过对视频中人群的情绪进行分析将有助于动态的了解视频中的人群的情感及情绪的变化，有着广阔的应用前景。以上海外滩踩踏事件为例，通过分析人群的情绪变化，管理员可以在发生突发事件之前通过干预手段防止此类事件再次发生。

传统人群情绪识别的算法主要是利用一些浅层的算法提取视频帧间的运动特征。对于一些浅层的算法(支持向量机，单层神经网络等)，它们需要人工提取特征，且在给定有限数量的样本和计算单元时，浅层结构难以有效的表达复杂模型的特征，尤其当研究的对象具有丰富的含义时，其泛化能力明显不足，所以浅层结构有一定的局限性。

深度学习(Deep Learning)是一个近几年备受关注的研究领域，在机器学习中起着重要的作用。深度学习通过建立、模拟人脑的分层结构来实现对外部输入的数据进行从低级到高级的特征提取，从而能够解释外部数据。深度学习强调网络结构的深度，通常有多个隐藏层，以用来突出特征学习的重要性。与人工规则构造特征的浅层结构相比，深度学习利用大量的数据来学习特征，更能够描述数据特有的丰富的特征信息。我们还可以通过学习一种深层非线性网络，实现复杂模型的逼近，表征输入数据分布式表示。

发明内容

本发明的目的是提供一种视频中人群情绪识别的方法，将深度学习与视频人群情绪相结合，充分发挥深度学习自我学习的优势，可以解决目前浅层学习的参数难以调整，需要人工选取特征，准确率不高等问题。

为了方便说明，首先引入如下概念：

人群情绪分类：对于视频中人群的情感状态进行分析，将视频划分到正确的情绪类别之中。根据实际需求不同，可定义不同的人群情绪类别。

卷积神经网络(CNN)：受视觉神经机制的启发而设计的，是为识别二维形状而设计的一种多层感知器，这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。

长短记忆型递归神经网络(LSTM)：为了解决循环神经网络在时间上的梯度消失问题，机器学习领域发展出了长短时记忆单元LSTM，通过门的开关实现时间上记忆功能，防止梯度消失。

像素通道：由CNN+LSTM+Softmax(分类器)组成的子神经网络，网络的输入为视频中提取的像素信息，即视频本身的像素信息。主要提取视频帧在空间维度上相关的颜色特征。

光流通道：由CNN+LSTM+Softmax(分类器)组成的子神经网络，网络的输入为从视频中提取的叠加的光流信息(10帧光流叠加平均)，主要提取视频在时间维度上的局部运动特征。

显著图通道：由CNN+LSTM+Softmax(分类器)组成的子神经网络，网络的输入为从视频中提取的视觉显著性信息，主要提取视频的视觉显著性特征。

多流神经网络：通过将多个并行的子神经网络，进行加权平均融合形成多流神经网络。

数据集：结合CUHK群体数据集、UCF数据集、Web数据集、PETS2009数据集。这些数据集最终被分为训练集，验证集和测试集，其中训练集和验证集用于训练阶段的训练数据和测试数据，测试集用于对最终训练完成的多流神经网络和参数模型进行测试。

本发明具体采用如下技术方案：

提出了一种基于深度学习的人群情绪识别方法，该方法的主要特征在于：

1.采用像素通道来处理视频的每一帧的像素信息；

2.采用光流通道来处理视频的叠加的光流信息；

3.采用显著图通道来处理视频的显著性信息；

4.采用平均加权的方法对多流神经网络的三个通道进行融合，得到多流神经网络；

该方法主要包括以下步骤：

A.多流神经网络的训练，其具体包括：

A1.将视频数据集分为训练集、测试集和验证集，并贴上定义好的几个情绪类别标签，通过预处理计算每个视频的像素信息、叠加的光流信息和显著性信息；

A2.采用目前图像识别领域典型的数据库ImageNet对多流神经网络模型进行预训练，然后使用步骤A1中的训练集和验证集对多流神经网络模型微调；

A3.训练时先将训练集和验证集视频的像素信息、叠加的光流信息和显著性信息分别输入三个通道训练CNN部分，然后将CNN部分提取的特征输入LSTM部分，完成整个网络的训练，保存生成的网络参数模型，以用于预测；

B.利用多流神经网络与训练好的网络参数模型进行视频的人群情绪分类：

B1.提取步骤A1中生成的测试集视频的像素信息、叠加的光流信息和显著性信息，为分类做准备；

B2.利用多流神经网络和步骤A中生成的网络参数模型，以步骤B1中计算的视频的像素信息、叠加的光流信息和显著性信息作为输入，并融合三通道的分类结果，来预测该视频的人群情绪类别。

优选地，在步骤A1中的情绪类别标签包括bored、excited、frantic、relaxed。

优选地，在步骤A1中数据预处理包括：提取各数据集的视频的像素信息、显著性信息以及光流信息，然后叠加相邻10帧的光流信息取平均得到叠加的光流信息。

优选地，在步骤A3中利用像素通道提取视频帧在空间维度上的颜色特征，利用光流通道提取视频在时间维度上的局部运动特征，利用显著图通道提取视频的显著性特征。

优选地，在步骤B中预测时对视频的像素信息、叠加的光流信息、显著性信息分别分类处理，然后对三个通道的分类结果采用加权平均的方法融合得到最终的人群情绪类别预测结果。

本发明的有益效果是：

(1)充分发挥深度学习的自我学习优势，机器自动学习良好的特征。当输入视频时能够快速准确地提取特征，并行抽取多种特征，融合分类，避免了人工提取特征的局限性，适应能力更强。

(2)利用多流深度学习网络的结构特征，对网络进行并行训练，预测，最后对结果进行融合，可以大大的减少训练及预测所需时间，增加工作效率。

(3)结合多流深度学习网络，融合多种特征(时间，空间，显著图等)，使分类结果更加准确、可靠。

(4)将深度学习与视频人群情绪分类相结合，解决传统方法准确率不高等问题，提高研究价值。

附图说明

图1为本发明的基于深度学习的人群情绪识别方法的流程图；

图2为多流神经网络的组成图；

图3为本发明方法在本文测试集上将三通道的分类结果按1：1：1的比例融合的准确度。

具体实施方式

下面通过实例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

图1中，基于深度学习的人群情绪识别方法，具体包括以下步骤：

(1)利用像素通道来处理视频的每一帧的像素信息，利用光流通道来处理视频的叠加的光流信息，利用显著图通道来处理视频的显著性信息，最后采用平均加权的方法对多流神经网络的三个通道进行融合，得到多流神经网络。

(2)将数据集分为bored，excited，frantic，relaxed四个不同的人群情绪等级，将分好等级的数据集按8:1:1的比例分为训练集、测试集和验证集，并制作数据标签。

(3)预处理：分别计算上述步骤(2)中各数据集的视频序列的像素信息、叠加的光流信息、显著性信息。将每个视频的光流图像按照相邻10帧叠加取平均的方法，得到该视频的叠加光流信息。

(4)训练：采用目前图像识别领域典型的数据库ImageNet对多流神经网络模型进行预训练，然后从上述步骤(3)处理过的训练集和验证集中取1/10的数据对多流神经网络微调，验证输入数据是否有效，如果无效则重新生成输入数据。接着利用步骤(3)中训练集和验证集对多流神经网络进行并行训练。这里先对网络的CNN部分进行训练，然后用CNN提取的特征对LSTM部分进行训练，最后得到训练完成的网络的参数模型，用于预测网络。

(5)多流神经网络加载步骤(4)中得到的网络参数模型。

(6)将上述步骤(3)的验证集视频的像素信息、叠加的光流信息、显著性信息分别输入预测网络的三个通道。

(7)将三个通道得到的结果加权平均融合得到预测结果。

Claims

1.一种基于深度学习的人群情绪识别方法，其特征在于：

1.采用像素通道来处理视频的每一帧的像素信息；

2.采用光流通道来处理视频的叠加的光流信息；

3.采用显著图通道来处理视频的显著性信息；

4.采用加权平均的方法对多流神经网络的三个通道进行融合，得到多流神经网络；

该方法主要包括以下步骤：

A.多流神经网络的训练，其具体包括：

A1.将视频数据集分为训练集、测试集和验证集，并贴上预先定义好的几个情绪类别标签，通过预处理计算每个视频的像素信息、叠加的光流信息和显著性信息；

B.利用多流神经网络与训练好的网络参数模型进行人群情绪分类：

2.如权利要求1所述的基于深度学习的人群情绪识别方法,其特征在于步骤A1中的情绪类别标签包括bored、excited、frantic、relaxed。

3.如权利要求1所述的基于深度学习的人群情绪识别方法,其特征在于在步骤A中利用像素通道提取视频帧在空间维度上的颜色特征，利用光流通道提取视频在时间维度上的局部运动特征，利用显著图通道提取视频的视觉显著性特征。

4.如权利要求1所述的基于深度学习的人群情绪识别方法,其特征在于在步骤A1中预处理包括：分别对训练集、测试集和验证集提取视频中的像素信息、显著性信息、光流信息，然后叠加相邻10帧的光流信息取平均得到叠加的光流信息。

5.如权利要求1所述的基于深度学习的人群情绪识别方法,其特征在于：在步骤B中预测时对视频的像素信息、叠加的光流信息、显著性信息分别分类处理，然后对三个通道的分类结果采用加权平均的方法融合得到最终的人群情绪类别预测结果。