CN105590099A

CN105590099A - 一种基于改进卷积神经网络的多人行为识别方法

Info

Publication number: CN105590099A
Application number: CN201510970326.1A
Authority: CN
Inventors: 龚安; 郑君; 宫文娟; 唐永红; 牛博
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2016-05-18
Anticipated expiration: 2035-12-22
Also published as: CN105590099B

Abstract

本发明提供一种基于改进卷积神经网络的多人行为识别方法。首先用densesift算法对图片集进行特征提取，得到4*4*8个描述子；然后从sift特征提取的4*4*8个描述子中取其中一个方向的描述子(即每个块将取到4*4*1个描述子)，并将这些描述子按序组合成为一个二维图像，这样同一张图像就可以得到八张特征图像。最后将每张图片的八张特征图像作为八个通道同时输入卷积神经网络中进行训练。本发明充分考虑了多人情况下，人物角色的多样化，场景的复杂化，及其数据特征多维化的因素，可以较为精确的进行多人行为的识别。

Description

一种基于改进卷积神经网络的多人行为识别方法

技术领域

本发明涉及一种多人行为识别方法，尤其涉及一种基于改进卷积神经网络的多人行为识别方法。

背景技术

识别复杂场景下的多人的行为是智能监控系统、高级人机交互等领域中的一项很重要的工作。随着信息时代的进步，一些重要场所如银行、停车场、火车站、住宅小区、商场都装有监控系统，这种传统监控系统要求监控人员时刻监控视频画面，甚至同时监视多个视频，并且还要根据监控人员的理解与分析，对视频中的人体行为做出判断，这样不仅导致人的工作繁重，而且由于存在人的主观判断，不可避免产生误判或者漏判，造成不必要的经济损失或者人员伤亡。

人体行为识别研究内容丰富、多样，既有手势识别、表情分析等局部的识别研究，也有针对独立个体的行为识别研究，还包括群体间的交互行为分析等。总体来说，按照数据采集方式可以将人体行为识别研究分为基于非视觉的方式和基于视觉的方式。基于非视觉的方式主要是利用放置在人体或者人的活动空间内的传感器获取人体运动参数，这种方法获取的人体运动参数较为精确，却会给人们生活带来不便。相对于前者，基于视觉的方式能够获得更丰富的信息，但是其在一定程度上也破坏了人的隐私。目前基于视觉的方式是人体行为识别研究的主流方法。

由于在多人情况下，每个人扮演了不同的角色，使得场景变得复杂，使用针对单人的卷积神经网络对其进行识别时难以区分这些角色；而且当识别对象由单人变为多人时，其特征维数变高，要想学习这些特征就需要更多的数据进行参数学习。因此目前的卷积神经网络难以完成精确识别多人行为的目的。故要想精确识别多人的行为具有一定的挑战性。

针对上述问题，迫切需要发明提供一种基于改进卷积神经网络的多人行为识别方法。本发明针对多人情况下复杂的背景环境，选择具有尺度不变性，可在图像中检测出关键点的densesift算法提取图像的关键特征，再采用卷积神经网络算法对关键特征进行无监督学习，最后利用逻辑回归对特征进行分类，从而达到对多人行为识别的目的。

发明内容

针对多人情况下，场景较为复杂，各种干扰因素多的问题，本发明研制一种基于改进卷积神经网络的多人行为识别方法。

本发明其特征在于,包括以下步骤：

(1)从经过预处理的图库中构建训练数据集；

(2)利用densesift算法对数据集进行特征提取；

(3)将关键点组合成可用于训练的数据体；

(4)利用卷积神经网络进行特征学习；

(5)将测试集放入训练好的卷积神经网络中学习特征进行分类。

所述densesift算法是将表达目标的矩形区域分成相同大小的矩形块,对每一个小块进行sift特征提取，得到4*4*8个描述子。

所述组合是从sift特征提取的4*4*8个描述子中取其中一个方向的描述子(即每个块将取到4*4*1个描述子)，然后将这些描述子按序组合成为一个二维图像。这样同一张图像就可以得到八张特征图像。

所述卷积神经网络是由一种典型的用来识别数字的卷积网络LeNet-5修改而来。

所述特征学习是将八个方向的八个特征图作为八个通道同时输入到卷积神经网络中进行特征学习。

附图说明

图1是基于改进卷积神经网络的多人行为识别方法的流程图；

图2是4*4*8个描述子；

图3是组合后的图片；

具体实施方式

下面结合附图说明本发明的实施方式。

1、图片预处理：

在图片库中删选出拥抱、接吻、拳击的图片各2000张作为训练集，再各选出100张作为测试集。然后将图片处理为统一大小。这里为了得到适合卷积神经网络输入的图片，统一将图片大小设置为720*480。为了得到更多的图片信息，这里图片依然为彩色，无需灰度化。

2、提取densesift特征

在这里选择用20为步长。首先将边缘的10个像素去除，然后以20为步长将图片进行分割，这样就可以得到35*23个大小为20*20的矩形块，对每个矩形块就行sift特征提取，将得到4*4*8个特征描述子，如图2所示。

3、组合图片

取每个矩形块中同一个方向的特征值，然后按照其特征中心相对于原图像中的位置将特征值重新排列，则可以得到一张像素为140*92的灰度图片。然后对每个方向的特征值做相同的处理，最终得到八张不同的灰度图片，如图3所示。

4、特征学习

原LeNet-5网络共有7层，不包含输入，每层都包含可训练参数(连接权重)。输入图像为32*32大小。其中7层分别为两层卷积层，两层下采样层，两层全连接层，最后为输出层。其中第一个卷积层采用6个5*5的模板，第二个卷基层采用16个5*5的模板，这里由于图片的复杂性以及输入图像增大为140*92，我们将第一个卷积层采用20个5*5的模板，第二个卷积层采用30个5*5的模板，并将learning_rate改为0.0005。最后将该网络一通道的输入增加变化为8通道的输入。这样将上面组合得到的图片集输入网络中就可以进行特征学习。

5、测试结果

将训练集通过训练好的网络中进行学习分类。

Claims

1.一种基于改进卷积神经网络的多人行为识别方法，其特征在于，包括以下步骤：

(1)从经过预处理的图库中构建训练数据集；

(2)利用densesift算法对数据集进行关键点提取；

(3)将关键点组合成可用于训练的数据体；

(4)利用卷积神经网络进行特征学习；

2.根据权利要求1所述的一种基于改进卷积神经网络的多人行为识别方法。其特征在于所述densesift算法是将表达目标的矩形区域分成相同大小的矩形块,对每一个小块进行sift特征提取，得到4*4*8个描述子；

所述组合是从sift特征提取的4*4*8个描述子中取其中一个方向的描述子(即每个块将取到4*4*1个描述子)，然后将这些描述子按序组合成为一个二维图像。这样同一张图像就可以得到八张特征图像；

所述卷积神经网络是由一种典型的用来识别数字的卷积网络LeNet-5修改而来；