CN106909887A

CN106909887A - 一种基于cnn和svm的动作识别方法

Info

Publication number: CN106909887A
Application number: CN201710043465.9A
Authority: CN
Inventors: 施旭涛; 孙知信; 赵学健; 骆冰清
Original assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd
Current assignee: Nupt Institute Of Big Data Research At Yancheng Co Ltd
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2017-06-30

Abstract

本发明公开了一种基于CNN和SVM的动作识别方法，该方法采用卷积神经网络对视频中的人体进行识别，然后通过支持向量机对识别出的人体区域进行动作识别。在进行支持向量机分类前，对卷积神经网络输出的人体区域采用有效帧提取方法剔除含信息量少的帧图片，再将有效帧片段输入金字塔特征优化模型，对一个连续动作进行综合性的特征描述，不仅减少了运算数据量，提升了方法实时性，同时改善了识别的精度。

Description

一种基于CNN和SVM的动作识别方法

技术领域

本发明属于计算机视觉分析技术领域，特别涉及了一种动作识别方法。

背景技术

动作识别已经成为计算机视觉分析领域的热点方向，动作识别技术可以运用在智能家居中，可以对危险动作做出预计，协助监控社会治安如对打架斗殴动作，偷窃动作等进行检测和识别。动作检测有着巨大的实用价值。

现阶段，常见的对人体动作进行识别的技术包括：基于3D CNN人体动作识别，双路CNN人体动作识别。基于LSTM和CNN的动作识别方法。这些方法存在重复计算，识别精度不高，识别过程中对硬件的寻求较大，对模型训练时需要的数据量和时间较长等问题。

利用深度学习能对人体动作进行分析，基本可以达到的对视频中的人的动作进行识别。但是也存在着些问题，使用深度学习对计算机的硬件要求较高，在添加新的类别时训练模型所要花费的时间较多，使用较大训练数据集前提下才能得出较为准确的预测值，实时性不高等缺点。

2013年在《IEEE Transactions on Pattern Analysis and MachineIntelligence》上发表的《3D Convolutional Neural Networks for Human ActionRecognition》在动作识别中提出了使用3D卷积网络来对动作做分类。该模型可以从视频中的空间和时间维度进行特征提取，然后进行3D卷积，以捕捉从多个连续帧得到的运动信息。基于3D卷积特征提取器构造了一个3D卷积神经网络。这个架构可以从连续的几帧中产生多通道信息，然后在每一个通道都分离地进行卷积和采样操作，最后将所有通道的信息组合起来得到最终的特征描述。通过将空间、时间维度和连续几帧相结合可以提高对视频中动作识别的精准度。但是也存在问题，3D CNN的主要步骤是先要确定人体的头部及其包围盒，这样一来会增加计算量，降低视频检测的实时性，因为3D CNN同时对连续的7帧进行卷积存在着大量的重复计算，降低了实时性。

2015年在《Image Processing(ICIP),2016IEEE International Conference on》上发表的《Saliency-context two-stream convnets for action recognition》上提出可以使用两个独立的神经网络了，最后再把两个模型的结果平均一下。第一个神经网络就是普通的单帧的CNN，这个CNN是在图片数据上进行预训练，然后在视频数据上对最后一层结果进行调参；第二个是CNN网络，是把连续几帧图片的光流叠加起来作CNN的输入，在最后将两个CNN计算的结果做权衡最后输出权衡结果。它利用两个CNN训练标记来克服数据量不足的问题。提高了CNN检测的精度。但是使用两个神经网络来对视屏进行分析计算流程复杂，对硬件的要求比较高实时性较差；虽然使用了运动的信息，但是运动信息是单独使用的而且只有相邻的两帧，使得识别精度不是很高。

发明内容

为了解决上述背景技术提出的技术问题，本发明旨在提供一种基于CNN和SVM的动作识别方法，克服了现有技术缺陷，提升了识别的精度和实时性。

为了实现上述技术目的，本发明的技术方案为：

一种基于CNN和SVM的动作识别方法，包括以下步骤：

(1)选择CNN训练数据集，进行卷积神经网络训练，得到人体识别模型，能够在视频中识别出人体；

(2)选择SVM训练数据集，进行支持向量机训练，得到动作识别模型，能够对人体动作进行分类；

(3)将待识别的视频输入步骤(1)得到的人体识别模型，从而识别出视频中的目标，即人体，并保存目标的位置坐标；

(4)读取步骤(3)保存的目标位置坐标，从待识别的视频各帧中截取对应位置区域的图片，并将其中的连续帧图片归为一类；

(5)构建有效帧提选取方法，使用有效帧提取方法从连续帧图片中选取有效信息集中的有效帧作为一个数据组；

(6)将步骤(5)得到的数据组输入卷积神经网络，提取fc7特征向量；

(7)构建金字塔特征优化模型，对步骤(6)得到的fc7特征向量进行优化；

(8)将优化后的特征向量进行整合，再输入步骤(2)得到的动作识别模型中进行分类，得到动作识别结果。

进一步地，步骤(1)的具体过程如下：

采用PASCAL VOC数据集作为CNN训练数据集，将人体图片转化成lmdb格式数据，将lmdb格式的人体图片和图片中人体的坐标输入卷积神经网络中进行训练，得到人体识别模型。

进一步地，步骤(2)的具体过程如下：

采用UCF sports数据集作为SVM训练集，在该数据集的每个动作中给定了人的图片和图片中相应的动作及相应的坐标，采用OPENCV中的cvSetImageROI函数截取感兴趣区域，将视频中截取的连续帧归为一类，采用有效帧提取方法从连续帧中提取出有效帧，将有效帧输入金字塔特征优化模型中得到特征向量，按照数据集中给定的动作对特征向量中的每个特征进行唯一标号，将带有标号的特征向量输入支持向量机中进行训练，得到动作识别模型。

进一步地，在步骤(5)中，所述有效帧提取方法的过程如下：

采用局部敏感哈希算法对连续的n帧图片的fc7特征向量进行hash映射，得到n个二进制特征空间，若当前帧的二进制特征空间中的特征与前一帧不同，则将当前帧作为有效帧，并把当前帧到下一个有效帧的前一帧作为一个有效帧片段。

进一步地，步骤(7)的具体过程如下：

将步骤(5)得到的有效帧片段作为金字塔的塔尖，提取每一帧图片的fc7层特征，将h₁＝f_M-f₁作为金字塔顶层的CNN流；在金字塔中间层，将有效帧片段均分为两份，将h₂＝f_(M/2)-f₁和h₃＝f_M-f_(M/2)+1作为金字塔中间层的两个CNN流；在金字塔底层，将金字塔中间层均分的两份有效帧片段各自再均分为两份，将h₄＝f_M/4-f₁，h₅＝f_(M/2)+1-f_(M/4)+1，h₆＝f_(3M/4)-f_(M/2)+1，h₇＝f_M-f_(3M/4)+1作为金字塔底层的CNN流，一共得到7个CNN流h₁-h₇，使用这7个CNN流作为某一个连续动作的特征向量；其中，f_i为有效帧片段中第i帧的fc7层特征，i＝1,2,…,M，M为有效帧片段的长度。

采用上述技术方案带来的有益效果：

本发明通过有效帧提取方法选取出连续帧之间的有效帧，通过此方法减少了对价值不高帧的识别，提高了方法的实时性；构建了金字塔特征优化模型对一个连续的动作进行综合性的特征描述，将一个连续的动作特征放入SVM中分类，提高了识别的准确性。

附图说明

图1是本发明的方法流程图。

图2是本发明中有效帧提取方法示意图。

图3是本发明中金字塔特征优化模型示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

一种基于CNN和SVM的动作识别方法，如图1所示，具体过程如下。

首先，选择CNN训练数据集，进行卷积神经网络训练，得到人体识别模型，能够在视频中识别出人体。

使用PASCAL VOC数据集来做全局卷积神经网络(CNN)训练所用的数据集，这里我们采用的是PASCAL VOC中人这一类的图片和人体相对应的包围盒坐标，我们将人这一类图片转化成lmdb格式的数据。将lmdb格式的数据和图片中人体的坐标放入卷积神经网络中进行训练，卷积神经网络通过若干个7*7的小格将图片分为若干块然后对小格进行同时处理。每个小格中有5个圈基层5个池化层和三个特征提层。当数据经过第一层卷积层卷积和池化层优化后生成27*27的图像，其中feature map个数为256，经过第二层卷积层和池化层后变为13*13的图像，其中feature map个数为256，经过第三层和第四层卷积层和池化层后变为13*13的图像，其中feature map个数为384，经过最后一层卷积层和池化层后生成6*6的图像，其中feature map为256，接下来进入三个特征提取层得出1024维的特征向量，最后一层对1024维向量进行训练，得出人体识别模型。

其次，选择SVM训练数据集，进行支持向量机训练，得到动作识别模型，能够对人体动作进行分类。

用UCF sports数据集对SVM进行训练，在UCF sports数据集中共有21个动作。每个动作中给定了人的图片和图片中相应的动作及相应的坐标。使用OPENCV中的cvSetImageROI函数对该区域截取得到兴趣ROI区域，然后将同一视频中截取的连续图片归为一类，使用有效帧提取方法对传入进来的连续帧进行筛选，筛选出12个有效的帧，将这些帧并传入到创建好的金字塔特征优化模型中去，得出C集合(7个CNN流)。将得出的C集合中7个CNN流按照数据集中给定的动作进行唯一标号，作为其对应的类型。(例如：跑步标号为1，拍照标号为2)，将7*4096特征中每个特征值打上1-28672的索引。将上述处理好的特征向量放入SVM中使用线性核函数进行训练，得出动作识别模型。

在选取视频帧的时候我们希望能选取一些富有表现力的视频片段，期望在一个有限的视频片中能有足够的信息来表达相应的动作，为此构建了有效帧提取方法。首先在CNN中创建一个长度为b的二进制特征空间，这些二进制代码是描述CNN特征之间的距离，描述距离的具体方法使用局部敏感哈希算法(LSH)。局部敏感哈希算法的主要作用是对连续数据帧的fc7特征向量进行hash映射，特征向量投射后分布较为密集的位置表示为1，特征向量分布稀疏的表示为0。对连续的n帧进行投射得出n个二进制的特征空间，如果当前帧的二进制特征空间中的特征与前一个帧不同，则把当前帧到下一个有效帧的前一帧作为一个有效帧片段。通过改变映射出的二维特征空间的大小来控制片段的长度，空间的长度越长，有效帧的片段就越短。图2为有效帧提取方法示意图。

通过这一步我们可以选取出有效帧段，我们可以使用有效帧段作为下一步提取特征向量的数据集。

人的一个动作一般包含多个动作细节，如打电话中包含了伸展手臂，手抓着手机，将手机靠向耳朵等多个连贯的动作。我们可以通过构建金字塔特征优化模型的方法来细化几个特征的表达，构建的金字塔总共有3层。我们定义了H_i{h_i:1,…,M}，F_i{fi:1,…,M}和C函数，其中H_i代表相连续帧中的CNN流，F_i为一帧中提取的fc7层特征。C{ci：h₁,…,h_m}代表视频帧中总体的CNN流。使用有效帧选择模块中选取出来的有效帧段作为采集fc7层特征的数据集，将视频有效帧段作为金字塔的塔尖并对这些连续的图片提取fc7层特征，将h₁＝f_M-f₁作为金字塔第一层的CNN流。第二层中我们将第一层的视频帧均分为两份，对这两份数据提取fc7特征，将h₂＝f_(M/2)-f₁和h₃＝f_M-f_(M/2)+1作为第二层的两个CNN流。在金字塔第三层中将上面两个视频帧段均分为四个帧段并提取fc层特征向量，将h₄＝f_M/4-f₁，h₅＝f_(M/2)+1-f_(M/4)+1，h₆＝f_(3M/4)-f_(M/2)+1，h₇＝f_M-f_(3M/4)+1作为金字塔第三层CNN流。这样便得到了7个CNN流。我们将这7个CNN流按照下标顺序放入C中作为这个视频帧集合的整体CNN流。C中有7*4096维的一个向量，我们使用这个7*4096向量作为这一个连续动作的特征向量。图3为金字塔优化模型示意图。

通过以上步骤完成了动作分类所需要模型的训练。在对视频进行分析时，使用人体识别模型对视频中的人进行识别，在识别的同时让卷积神经网络输出识别的类型和该类型的包围盒并且将包围盒的坐标记录下来保存为txt供下一步使用。运用OPENCV中对兴趣区域截取的cvSetImageROI函数读取保存下来的图片和txt中的坐标位置，对相应的位置进行截取得到需要的ROI区域。对连续的ROI区域采用有效帧提取方法进行有效帧的提取，将提取下来的有效帧放入金字塔特征优化模型中进行特征优化得到7*4096维的特征向量，将这些特征向量传入训练好的动作识别模型中进行分类。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于CNN和SVM的动作识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于CNN和SVM的动作识别方法，其特征在于：步骤(1)的具体过程如下：

3.根据权利要求1所述基于CNN和SVM的动作识别方法，其特征在于：步骤(2)的具体过程如下：

4.根据权利要求1所述基于CNN和SVM的动作识别方法，其特征在于：在步骤(5)中，所述有效帧提取方法的过程如下：

5.根据权利要求4所述基于CNN和SVM的动作识别方法，其特征在于：步骤(7)的具体过程如下：