CN106650655A

CN106650655A - 一种基于卷积神经网络的动作检测模型

Info

Publication number: CN106650655A
Application number: CN201611168185.2A
Authority: CN
Inventors: 刘波; 贾川川
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-05-10

Abstract

一种基于卷积神经网络的动作检测模型，属于计算机视觉研究领域，通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型，实现从视频中识别动作并对动作进行检测定位。动作检测模型由Faster RCNN、SVM分类器和动作管道组成。动作检测模型的每个部分分别完成相应工作。Faster RCNN对每帧图片获取多个兴趣区域，并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型，即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道，他们分别提取表观特征和动作特征。然后将这两种特征融合形成时空域特征，把时空域特征输入到SVM分类器中，经SVM分类给出相应区域的动作类别预测值。最后由动作管道从视频角度出发给出最终的动作检测结果。

Description

一种基于卷积神经网络的动作检测模型

技术领域

本发明属于计算机视觉研究领域，通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型，实现从视频中识别动作并进一步对动作进行检测定位。

背景技术

计算机视觉领域的视频识别分为动作分类和动作检测。动作分类要解决的问题类似“这段视频中有‘跑步’这样的动作或者行为么”；动作检测所解决的问题类似“这段视频中有‘跑步’这样动作或行为么，如果有，那么该动作出现在哪一段帧序列集以及该动作都在每帧的什么位置”。

近些年，受益于图像识别所取得的巨大进展，视频识别也同样取得了很大的进展。其中大多数动作识别方法都是针对动作分类任务而被提出，事实上这些方法也同样可以用于动作检测任务。J.Aggarwal、M.Ryoo、R.Poppe等人对近些年动作识别领域的方法和进展进行了很好的总结和梳理。许多传统的动作分类方法提取的特征多是采用手工特征提取法，例如使用HOG、SIFT等提取静态的外观特征，使用光流(optical flow)、MBH等提取动态的运动特征，再使用词袋(Bag of Words)、Fisher向量等方法对这些特征编码。动作分类则使用像SVM支持向量机、决策森林(decision forests)等方法。近几年，许多动作识别方法采用深度学习模型并取得很大的进展。受视觉层背侧通路理论的启发，Jhuang等人构建了一个由多层级的时空特征检测器组成的前馈网络，此网络中包含预设计好的分别用来提取表观和运动特征的过滤器。最近，Ji等人构建了3D CNNs，其卷积操作实施在三维的时空域，因此该网络在提取特征时能够获取更多的动作信息。

动作检测在实现动作分类的基础上还要对动作进行定位。过去许多动作检测方法采用滑动窗口法(sliding window)，然而基于滑动窗口法的动作定位极为耗时，时间效率低，为了加快动作的定位，Oneatra等人提出了一种逼近规范化的Fisher Vector策略，此策略使用一个比滑动窗口更有效的方法，即branch-and-bound搜寻算法。另一类动作定位的方法是基于“以人为中心”的模型。Lan等人通过使用“以人为中心”的视觉方法——学习得到一个时空动作模型，其中特征表示中的目标位置被视为潜变量(latent variable)并根据潜变量推断与某个动作标签高度关联性。最近，有一种基于区域的卷积神经网络的方法被用于动作检测任务中，取得了更好的动作检测效果。该方法最先由Girshick等人在做目标检测任务时提出的，其思想是先用选择搜索(Selective Search)、Edgeboxes等工具在每张图片上生成多个兴趣区域，然后将兴趣区域输入卷积神经网络并提取特征，最后将该特征用于分类。之后相继出现了效率更好的目标检测方法Fast RCNN、Faster RCNN。Gkioxari等人将基于区域的目标检测思想移植到动作检测任务中，他们采用双通路网络分别对兴趣区域和对应光流图提取特征，再用SVM分类器进行分类，最后将分类过后的兴趣区域在时间维度上进行链接形成最优的管道并给出动作类别预测。

发明内容

本发明提出的动作检测模型由三个部分组成，即Faster RCNN(更高效的基于区域的卷积神经网络)、SVM分类器和动作管道(Action Tubes)，动作检测模型的整体结构如图1所示。动作检测模型的每个部分分别完成相应工作，最终实现对一段或多段视频中所包含动作行为的检测任务。Faster RCNN对每帧图片获取多个兴趣区域，并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型，即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道，他们分别提取表观特征和动作特征。然后将表观特征和动作特征联合形成时空域特征，把时空域特征输入到SVM分类器中，经SVM分类给出相应区域的动作类别预测值。本模型中的SVM分类器是由多个二分器组成，每个动作类别有一个二分器。该阶段的SVM分类器从帧层面做出的动作预测，此预测将作为第三部分预测视频所属动作类别的凭据。第三部分即动作管道部分在视频层面给出最终的动作检测结果。该阶段从视频时序角度出发，基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点，将视频帧中综合得分高的区域链接起来，形成一个个竞选管道，最终将得分值最高竞选管道作为最终的动作检测结果。

第一部分：Faster RCNN

Faster RCNN由两个深度神经网络组成，即RPN(Region Proposal Network)和Fast RCNN(高效的基于区域的卷积神经网络)，Faster RCNN的整体结构如图2所示，网络中包含多层的卷积层、下采样层和全连接层，这些层通过组合形成了一个深度神经网络，其中每种类型的层都可对输入到深度网络中图像进行特征的提取。RPN网络如图3所示，该网络是一个全卷积网络，由多层卷积层构建，RPN网络最后输出值有两个，分别输出区域位置信息和对应区域包含及不包含目标的置信度。RPN和Fast RCNN分别完成获取兴趣区域和提取区域特征的任务。本方法提取深度特征采用双通路模型，两个通路的Faster RCNN网络分别是基于原始帧图数据集和光流图数据集训练而成，因此两个通路的Faster RCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力。然而本方法期望得到的兴趣区域包含的信息中，更多的是动作信息，所以选择使用基于光流图数据集训练的Faster RCNN网络的RPN来获取兴趣区域。此RPN基于光流信息生成兴趣区域，这些兴趣区域被双通路的Faster RCNN共享，分别作为这两个网络的后继网络Fast RCNN的输入，最终输出对应的动作特征和表观特征。

第二部分：SVM分类器

Faster RCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取，SVM分类器基于深度特征对区域所属的动作类别进行预测，给出每个区域属于每个动作类别的置信度大小，这个置信度大小将作为第三阶段链接最终动作管道的依据。SVM分类器的训练过程如下。

训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征，即时空域特征。任给一个区域R，分别假定φ_s(R)和φ_m(R)是由基于原帧图区域的Faster RCNN网络和基于光流图区域的Faster RCNN网络的第7层全连接层输出的特征向量，分别是4096维，联合这两个特征向量，得到时空域特征向量φ(R)＝[φ_s(R)^Tφ_m(R)^T]^T，其中“T”代表转置操作，时空域特征向量φ(R)维度为8192。然后对每个动作类别α∈A，A代表动作类别集，分别训练对应动作类别的SVM分类器W_α。

第三部分：动作管道

本动作检测模型的第二阶段只是从帧层面给出相关区域的动作类别预测，还没有考虑视频的时序性，需要从整段视频角度出发给出动作类别的预测。这里将对第三阶段如何从帧层面到视频层面做出最终的动作检测进行介绍。本方法中把组成视频的帧序列中包含某个动作类别的竞选区域按时间序列链接的集合叫做动作管道，动作管道就是最终的动作检测结果。

假定分别从视频中在时刻t、t+1的相邻两帧获取了两个区域，记为R_t和R_t+1，对于某个动作类别α∈A，定义链接这两个区域的得分公式为：这里表示动作类别α对应的分类器函数，δ(R_t+R_t+1)表示两个区域的交集；λ是常量，该常量是调整两区域交集大小在总得分公式中的权重。这个公式说明当两个区域在空间重叠区域越大且同属于某个动作类别的置信度越大，那个这两个区域应该被链接作为关联动作管道的子集。对于某段视频的一个动作α∈A，最优路径的寻找方法如下：

这里是关于动作α被链接的区域序列集合。对于上述的最优化问题使用维特比算法(Viterbi algorithm)，把所求的最优路径称作动作管道，并对生成的动作管道进行评价、给予相应的得分值其中得分值最大的动作管道所组成的区域集合便是对应视频最终动作检测的结果。

附图说明

图1动作检测模型。

图2 Faster RCNN结构图。

图3 RPN结构图。

图4动作检测效果图。

具体实施方式

本发明中动作检测模型构想的实现和验证，是以GPU(K80)作为计算平台，采用CUDA作为GPU并行计算框架，选取Caffe作为CNN框架。具体实施步骤如下：

步骤1：视频数据的预处理

本方法需要的视频数据需要以“一帧一图”的形式进行拆分和保存，并要求每帧图片的尺寸必须一致。当前有许多开放的视频数据集供选择，根据具体任务选择一种或多种。其次要对数据集中的每一帧进行光流计算，获得每帧图片对应光流图，整理并保存形成光流图数据集。

步骤2：Faster RCNN的训练

分别用视频数据集中的帧图数据集和光流图数据集对双通路的Faster RCNN网络进行训练，使其分别具备提取静态的表观特征和动态行为特征的能力，其中组成FasterRCNN的RPN和Fast RCNN两个网络结构参考ZF结构模型。整个训练过程大致分四个阶段：第一阶段是训练RPN网络，这个网络首先用ImageNet预训练好的模型进行初始化，然后微调；第二阶段单独训练Fast RCNN网络，其中输入到该网络的兴趣区域是由第一阶段的RPN网络提供。第三阶段使用第二阶段训练的Fast RCNN网络对RPN进行初始化，通过训练仅仅微调RPN所独有的网络层部分；第四阶段训练并微调Fast RCNN网络的全连接层部分。至此，整个Faster RCNN网络的训练任务完成。

步骤3：SVM分类器的训练

使用步骤2训练好的双通路网络获取兴趣区域并提取每个兴趣区域的表观特征和动作特征，即φ_s(R)和φ_m(R)，融合并得到时空域特征向量φ(R)＝[φ_s(R)^Tφ_m(R)^T]^T。对每个动作类别α∈A，分别训练对应动作类别的SVM分类器W_α，在训练时，将所有属于动作类别α的ground truth区域作为正例，将所有和动作α有关的但与对应groundtruth区域覆盖比值小于0.3的区域以及其他动作类别的区域作为反例，整个训练过程使用hard negativemining。

步骤4：Faster RCNN的特征提取

再次使用步骤2训练好的双通路网络获取兴趣区域并提取每个兴趣区域的表观特征和动作特征，例如φ_s(R)和φ_m(R)，融合并得到时空域特征向量φ(R)＝[φ_s(R)^Tφ_m(R)^T]^T。但是这一步骤要求从测试集中获取兴趣区域和提取对应区域的特征。

步骤5：SVM分类器的分类

对步骤4获取的区域进行分类，任给一个区域R，分别用步骤3中训练好的SVM分类器W_α计算此区域属于对应动作类别的置信度。

步骤6：动作管道的预测分类

此步骤考虑视频的时序性，从整段视频角度出发给出动作类别的预测。假定R_t和R_t+1分别表示时刻t、t+1的相邻两帧获取了的两个区域，计算动作类别α∈A下的S_α(R_t,R_t+1)，其中对于某段视频的一个动作α∈A，寻找最优路径：

反复运用维特比算法得到最优路径，最终得到的最优路径为所求得动作管道。

本发明提出的动检检测模型使用JHMDB数据集进行验证，并与当前在该数据集上检测效果最好的两个方法进行对比。

本动作检测模型的Faster RCNN部分的表现对于整个检测任务的检测准确率高低至关重要，这里评估本发明中Faster RCNN在帧图级别的检测效果，并与Malik等人的方法进行对比。这里使用frame-AP指标，阈值σ＝0.5，表1是对比结果：

表1

从表1可以看出，使用RPN+FastRCNN相结合的FasterRCNN模型，在帧图数据集和光流数据集训练得到的spatial-CNN和motion-CNN的检测结果比Malik等人的方法分别高出12.5和16.5个百分点，明显好于Malik等人的方法。

为了验证本发明中动作检测模型检测效果的优劣，将JHMDB的3组交叉训练验证集分别进行训练和测试，得到了最终的平均动作检测准确率，并与Malik等人和Wal等人的方法进行对比。这里阈值σ分别取0.5和0.6，表2是最终的平均动作检测准确率结果和对比结果：

表2

σ	Malik	Wal	ours
				0.5	53.3	60.66	60.86
0.6	—	53.60	56.12

从表2可以看出在σ分别取0.5和0.6时，本动作检测模型的平均动作检测率都比当前最好的方法要高，尤其当要求获取更精确的动作管道时，即检测的区域更精确(重合覆盖率σ＝0.6)，本方法要高出当前最好结果2.5个百分点。这表明本动作检测方法在动作的识别率和动作检测的精确度上都取得了非常好的效果。经实验结果分析，这得益于RPN网络获取兴趣区域的能力更高，以及经训练后的两个Faster RCNN网络提取时空域特征的能力更强。

图4展示了本动作检测模型在JHMDB测试集上检测结果的几个例子。

Claims

1.一种基于卷积神经网络的动作检测模型，其特征在于：

本方法提出的动作检测模型由三个部分组成，即更高效的基于区域的卷积神经网络Faster RCNN、SVM分类器和动作管道ActionTubes；动作检测模型的每个部分分别完成相应工作，最终实现对一段或多段视频中所包含动作行为的检测任务；Faster RCNN对每帧图片获取多个兴趣区域，并对每个兴趣区域提取特征；本检测模型提取特征采用双通道模型，即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道，他们分别提取表观特征和动作特征；然后将表观特征和动作特征联合形成时空域特征，把时空域特征输入到SVM分类器中，经SVM分类给出相应区域的动作类别预测值；本模型中的SVM分类器是由多个二分器组成，每个动作类别有一个二分器；该阶段的SVM分类器从帧层面做出的动作预测，此预测将作为第三部分预测视频所属动作类别的凭据；第三部分即动作管道部分在视频层面给出最终的动作检测结果；该阶段从视频时序角度出发，基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点，将视频帧中综合得分高的区域链接起来，形成一个个竞选管道，最终将得分值最高竞选管道作为最终的动作检测结果；

第一部分：Faster RCNN

Faster RCNN由两个深度神经网络组成，即RPN和Fast RCNN，网络中包含多层的卷积层、下采样层和全连接层，这些层通过组合形成了一个深度神经网络，其中每种类型的层都可对输入到深度网络中图像进行特征的提取；RPN网络是一个全卷积网络，由多层卷积层构建，RPN网络最后输出值有两个，分别输出区域位置信息和对应区域包含及不包含目标的置信度；RPN和Fast RCNN分别完成获取兴趣区域和提取区域特征的任务；本方法提取深度特征采用双通路模型，两个通路的Faster RCNN网络分别是基于原始帧图数据集和光流图数据集训练而成，因此两个通路的Faster RCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力；然而本方法期望得到的兴趣区域包含的信息中，更多的是动作信息，所以选择使用基于光流图数据集训练的Faster RCNN网络的RPN来获取兴趣区域；此RPN基于光流信息生成兴趣区域，这些兴趣区域被双通路的Faster RCNN共享，分别作为这两个网络的后继网络Fast RCNN的输入，最终输出对应的动作特征和表观特征；

第二部分：SVM分类器

Faster RCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取，SVM分类器基于深度特征对区域所属的动作类别进行预测，给出每个区域属于每个动作类别的置信度大小，这个置信度大小将作为第三阶段链接最终动作管道的依据；SVM分类器的训练过程如下；

训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征，即时空域特征；任给一个区域R，分别假定φ_s(R)和φ_m(R)是由基于原帧图区域的Faster RCNN网络和基于光流图区域的FasterRCNN网络的第7层全连接层输出的特征向量，分别是4096维，联合这两个特征向量，得到时空域特征向量φ(R)＝[φ_s(R)^Tφ_m(R)^T]^T，其中“T”代表转置操作，时空域特征向量φ(R)维度为8192；然后对每个动作类别α∈A，A代表动作类别集，分别训练对应动作类别的SVM分类器W_α；

第三部分：动作管道

本动作检测模型的第二阶段只是从帧层面给出相关区域的动作类别预测，还没有考虑视频的时序性，需要从整段视频角度出发给出动作类别的预测；这里将对第三阶段如何从帧层面到视频层面做出最终的动作检测进行介绍；本方法中把组成视频的帧序列中包含某个动作类别的竞选区域按时间序列链接的集合叫做动作管道，动作管道就是最终的动作检测结果；

假定分别从视频中在时刻t、t+1的相邻两帧获取了两个区域，记为R_t和R_t+1，对于某个动作类别α∈A，定义链接这两个区域的得分公式为：这里表示动作类别α对应的分类器函数，δ(R_t+R_t+1)表示两个区域的交集；λ是常量，该常量是调整两区域交集大小在总得分公式中的权重；这个公式说明当两个区域在空间重叠区域越大且同属于某个动作类别的置信度越大，那个这两个区域应该被链接作为关联动作管道的子集；对于某段视频的一个动作α∈A，最优路径的寻找方法如下：

这里是关于动作α被链接的区域序列集合；对于上述的最优化问题使用维特比算法，把所求的最优路径称作动作管道，并对生成的动作管道进行评价、给予相应的得分值其中得分值最大的动作管道所组成的区域集合便是对应视频最终动作检测的结果。