CN108399380A

CN108399380A - 一种基于三维卷积和Faster RCNN的视频动作检测方法

Info

Publication number: CN108399380A
Application number: CN201810144476.0A
Authority: CN
Inventors: 刘波; 聂相琴
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-02-12
Filing date: 2018-02-12
Publication date: 2018-08-14

Abstract

本发明公开一种基于三维卷积和Faster RCNN的视频动作检测方法，首先引入一个新的模型，其使用三维完全卷积网络对视频流进行编码；随后在生成的特征基础上生成包含动作的候选时间区域，并生成一组候选框；最后不同剪辑的候选框经过分类检测，将视频流中动作类别、视频动作开始和结束时间预测出来；同时预测出动作的空间位置边界框。与现有方法相比，本发明所述方法在未修剪的数据集视频时序动作检测上具有优异的性能，同时可以在缺乏空间标注信息的情况下实现动作定位。

Description

一种基于三维卷积和Faster RCNN的视频动作检测方法

技术领域

本发明属于图像处理技术领域，涉及一种基于三维卷积和Faster RCNN的视频动作检测方法。

背景技术

随着互联网视频媒介的蓬勃发展，近年来视频内容检测与分析引起了工业界和学术界的广泛关注。动作识别是视频内容检测与分析的一个重要分支。在计算机视觉领域，动作识别无论是在手工特征还是深度学习特征等方面都取得了很大的进步。动作识别通常归结为一个分类问题，其中，训练阶段的每个动作实例都是从一个较长视频序列中修剪出来，学习动作模型被用于修剪视频(例如，HMDB51和UCF101)或未修剪视频(例如，THUMOS14和ActivityNet)中的动作识别。然而，现实世界中的大多数视频是不受限制的，可能包含多个具有不相关背景场景活动的动作实例。针对该问题学术界开始逐渐关注另一个具有挑战性的识别方法-时序动作检测。该方法旨在检测未修剪视频中的动作实例，包括时间边界和实例类别。该方法在监控视频分析和智能家居护理等领域具有广阔前景。

自从2012年将卷积神经网络(CNN)运用于图像分类的重大突破以来，众多研究工作围绕在设计有效的深层网络架构运用于视频中的动作检测。Gaidon等人先后在2011年的IEEE Conference on Computer Vision and Pattern Recognition(CVPR)和2013年的IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上发表的“Actom sequence models for efficient action detection”和“Temporallocalization of actions with actoms”，介绍了在未修剪的视频中定位动作的问题，然而行为动作比较有限，如“喝酒吸烟”和“开门静坐”。Escorcia等人于2016年在EuropeanConference on Computer Vision(ECCV)上发表的“Daps:Deep action proposals foraction understanding”,建立了基于长短期记忆(LSTM)的时间动作候选框系统。Yeung等人于2015年在arXiv preprint(arXiv:1507.05738)上发表的“Every moment counts:Dense detailed labeling of actions in complex videos”，为THUMOS视频中的每个帧引入了多标签注释的MultiTHUMOS数据集，并定义了一个LSTM网络来模拟多个输入和输出连接。Yuan等人于2016年在IEEE Conference on Computer Vision and PatternRecognition(CVPR)上发表的“Temporal action localization with pyramid of scoredistribution features”，基于滑动窗口中心提出了一个分数分布特征的金字塔，以捕获多个分辨率的运动信息，并利用RNN提高了帧之间的一致性。Sun等人于2015年在ACMInternational Conference on Multimedia(ACM MM)上发表了“Temporal localizationof fine-grained actions in videos by domain transfer from web images”，研究了当仅有视频级注释可用时，利用网页图像来训练LSTM模型。此外，Lea等人于2016年在IEEEConference on Computer Vision and Pattern Recognition(ECCV)上发表了“Segmentalspatiotemporal cnns for fine-grained action segmentation”，在训练模型时使用了一维卷积来捕捉场景变化。虽然RNN和时间1D卷积可以对帧之间的时间依赖性进行建模并进行帧级预测，但它们通常位于深层ConvNets之上，该ConvNets采用单个帧作为输入，而不是直接建模原始视频中的时空特征。Shou等人于2016年在European Conference onComputer Vision(ECCV)上发表的“Temporal action localization in untrimmedvideos via multi-stage cnns”，提出了一种基于端到端的基于段的3D CNN框架(S-CNN)，该框架捕获时空信息的方式优于其他基于RNN的方法。然而，S-CNN缺乏在精细的时间分辨率下进行预测并将动作实例的精确时间边界定位的能力。同时由于当前的未修剪数据集缺乏空间标注信息，因而目前的未修剪数据集很难做到在定位动作时间边界的时候同步定位出该动作的空间边界框。

发明内容

鉴于目前视频动作检测算法的局限性，本发明提供一种基于三维卷积和FasterRCNN的视频动作检测方法，以提高未修剪数据集的时序动作检测定位正确率(mAP)，同时定位出动作的空间边界框。

为实现上述目的，本发明采用如下的技术方案：

一种基于三维卷积和Faster RCNN的视频动作检测方法，包括以下步骤：

步骤一、时空特征生成

对于输入的视频剪辑片段L，使用3D ConvNet网络提取时空特征立方体；3DConvNet网络包括依次连接的卷积层1、池化层1、卷积层2、池化层2、卷积层3a、卷积层3b、池化层3、卷积层4a、卷积层4b、池化层4、卷积层5a和卷积层5b；

步骤二、全局平均池化

在卷积层5b后添加一个3×3×3的卷积核，卷积的填充和跨幅为1，卷积核数量为1024个；然后再添加一个全局平均池化层，池化核大小为1×7×7，池化的深度跨幅为1，高度和宽度的跨幅分别为7；通过全局平均池化操作在训练过程中优化权重项

步骤三、时间候选框生成

将anchor纳入时间候选框子网，子网预测关于anchor的潜在候选框和预测候选框是否包含动作的二进制标签；anchor是以(L/8)均匀分布的时间位置为中心的预定义多尺度窗口；在每个时间位置获取特征预测候选框具体为：首先在Conv5b后添加3×3×3的卷积核；然后应用3D max-pooling来缩小空间维度以产生时间唯一的特征图；每一个时间位置上512维的特征向量用来预测每个时间候选框是动作还是背景的二进制得分；

步骤四、3D RoI阶段

设计一个3D RoI池化层，从步骤一共享卷积Conv5b中提取每个可变长度候选框的固定大小的卷积特征；

步骤五、分类和回归

步骤三所挑选的候选框在经过上述操作后被馈送到全连接层；所述候选框经过softmax层被分类成动作类别，视频的开始和结束时间在regression层中进行优化；

步骤六、动作定位

在生成动作类别的同时生成一个边界框，使用步骤二中得到的权重项来得到类别激活图，通过阈值方法在类别激活图基础上生成可能包含动作的空间位置边界框。

作为优选，步骤二中：

对于一个特定的时间位置，假设f_k(x,y)表示卷积层Conv5b在空间位置(x,y)第k个单元的激活值，那么，对于第k单元来说，在全局平均池化操作后即可得到F^k＝∑_kf_k(x,y)；对于一个特定类别c的softmax的输入其中，是第k个单元的类别c的相应权重，即表示F_k对于类别c的重要性；对于类别c的softmax输出

通过将F^k＝∑_x,yf_k(x,y)插入到分类得分S_c中，可以得到以下公式：

假设定义M_c为特定类别c的类别激活值，那么每一个空间位置(x,y)上可以得到如下公式：

从而可以得出：

S_c＝∑_x,yM_c(x,y)

其中，M_c(x,y)表示在特定时间位置上的空间位置(x,y)被分类为c类的重要性。

作为优选，步骤四中：

对于RoI池化层，首先需要确定输出大小，然后确定内核大小、步幅和填充值；将特征立方体表示为d×h×w，对特征立方体进行时空上的的RoI池化；假设Conv5b的输出为d×h×w，输出结果是D×H×W，那么首先将h×w的特征图平均分成H×W的格子，那么每个格子的大小为h/H×w/W；在每一个格子中应用最大池化方法来采样最大值，在空间维度上得到H×W的特征图；将d平均分成D份，那么每一份大小为d/D；在每一份中应用最大池化方法来采样最大值，从而得到D×H×W的特征图。

作为优选，步骤五中：

在训练网络的时候同时优化分类和回归任务，Softmax损失函数用于动作类别的分类，smooth L1损失函数用于动作时间边界的回归，步骤五的损失函数如下所示：

其中，N_cls和N_reg分别表示训练时候批处理数量和候选框的数量，λ表示损失权衡函数，a_i表示预测一个候选框是否是动作的可能性，表示其真实值，表示预测一个候选框和真实值之间的相对位移，表示一个候选框和真实值之间的坐标转换，这个坐标转换可以通过如下的公式进行计算：

其中，c_i和l_i表示候选框的中心位置和长度，和表示该候选框的真实值。

作为优选，步骤六中：

采用阈值操作作用于类别激活图，所述阈值分别取20、100和110；在生成的类别激活图的基础上，首先获取图像中动作的轮廓并细致轮廓，然后生成对应轮廓的外部矩形边界框，再对生成的边界框进行排序并合并矩形边界框。

本发明基于三维卷积和Faster RCNN的视频动作检测方法，首先引入一个新的模型，其使用三维完全卷积网络对视频流进行编码；随后在生成的特征基础上生成包含动作的候选时间区域，并生成一组候选框；最后不同剪辑的候选框经过分类检测，将视频流中动作类别、视频动作开始和结束时间预测出来；同时预测出动作的空间位置边界框。与现有方法相比，本发明所述方法在未修剪的数据集视频时序动作检测上具有优异的性能，同时可以在缺乏空间标注信息的情况下实现动作定位。

与现有技术相比，本发明具有以下优点：

1.本发明是基于端到端深度学习的视频动作检测方法。它直接对原始视频进行操作，并使用单个3D网络捕获时空信息，以基于3D卷积特征执行动作识别和检测。

2.同时我们在该发明中提出了一个新的层，该层是Faster-rcnn的兴趣区域(ROI层)的三维推广，它有效的解决了管道候选框可变时间和空间尺寸的问题。

3.最后引入弱监督方法，在缺乏空间标注信息的情况下预测出动作的空间位置。

4.本发明方法可直接运行在通用GPU计算设备，不需要额外的硬件设备。同时本发明可以运用于任何未修剪数据集，不需要指定的数据集。

附图说明

图1本发明方法的流程图

图2(a)、图2(b)本发明方法的实验结果:图2(a)、图2(b)分别为ActivityNet数据集中动作“Layup drill in basketball”和“Disc dog”的时序动作检测的结果，其中，GT信息标注的是真实值，Ours信息标注的是本实验的预测值；

图3本发明方法的实验结果：ActivityNet数据集中动作“Diving”的动作定位结果。

具体实施方式

下面将结合附图和具体实施方式对本发明做进一步说明。

本发明提供一种基于三维卷积和Faster RCNN的视频动作检测方法，在特征提取部分，使用3D ConvNet来提取视频动作的时空特征。为了实现高效计算和端到端训练，候选框生成和分类子网共享相同的3D ConvNet特征。提取候选框子网预测可能包含动作的可变长时间段，而分类子网将这些候选框分类为特定的动作类别或背景，并进一步优化候选框边界。同时通过弱监督方法在空间维度上生成可能包含动作的的空间位置边界框。

本发明方法流程图如图1所示，包括以下六个步骤：

步骤一、时空特征生成阶段。

本发明采用3D ConvNet来提取时空特征，经实验证明3D ConvNet可以有效地总结从原始视频到高级语义的时空特征。

对于输入的视频剪辑片段L，使用3D卷积和3D池化来提取时空特征立方体。在3DConvNet中，卷积和池化是在时空上同时进行的。因此，我们的网络结构保留了输入视频的时间信息。如表1所示，我们的3D ConvNet网络包括依次连接的卷积层1、池化层1、卷积层2、池化层2、卷积层3a、卷积层3b、池化层3、卷积层4a、卷积层4b、池化层4、卷积层5a和卷积层5b。

所述卷积层1用于输入视频片段与卷积核的卷积操作，从而可以实现提取视频的时空特征。其中输入的视频片段为512帧112×112大小的图像构成的视频流，卷积核大小为3×3×3，卷积的填充和跨幅为1，卷积核数量为64个。从而输入的视频流经过卷积操作可以得到64个512×112×112的特征图。

所述的池化层1采用最大池化方法对前一卷积层输出的特征图进行压缩，一方面使特征图变小，从而简化网络计算复杂度；另一方面进行特征压缩，从而提取主要特征。其中池化核大小为1×2×2，池化的深度跨幅为1，高度和宽度的跨幅分别为2。从而卷积层1的输出经过最大池化操作可以得到64个512×56×56的特征图。

卷积层2对池化层1输出的特征图进行卷积操作，从而继续提取视频时空特征。其中卷积核大小为3×3×3，卷积的填充和跨幅为1。由于上一层池化操作使得特征图缩小，有可能影响网络的准确度，因此我们通过增加特征图的数量来弥补，将卷积层2的卷积核数量设置为128个。从而池化层1的输出经过卷积操作可以得到128个512×56×56的特征图。

池化层2对卷积层2输出的特征图进行池化操作。池化核大小为2×2×2，池化的跨幅为2。从而卷积层2的输出经过最大池化操作可以得到128个256×28×28的特征图。

卷积层3a对池化层2输出的特征图进行卷积操作。卷积核大小为3×3×3，卷积的填充和跨幅为1，卷积核数量为256个。卷积层3b对卷积层3a的输出继续进行卷积操作，卷积核参数同卷积层3a一致。从而池化层2的输出经过两次卷积操作可以得到256个256×28×28的特征图。

池化层3对卷积层3b输出的特征图进行池化操作。池化核大小为2×2×2，池化的跨幅为2。从而卷积层3b的输出经过最大池化操作可以得到256个128×14×14的特征图。

卷积层4a对池化层3输出的特征图进行卷积操作。卷积核大小为3×3×3，卷积的填充和跨幅为1，卷积核数量为512个。卷积层4b对卷积层4a的输出继续进行卷积操作，卷积核参数同卷积层4a一致。从而池化层3的输出经过两次卷积操作可以得到512个128×14×14的特征图。

池化层4对卷积层4b输出的特征图进行池化操作。池化核大小为2×2×2，池化的跨幅为2。从而卷积层3b的输出经过最大池化操作可以得到512个64×7×7的特征图。

卷积层5a对池化层4输出的特征图进行卷积操作。卷积核大小为3×3×3，卷积的填充和跨幅为1，卷积核数量为512个。卷积层5b对卷积层4a的输出继续进行卷积操作，卷积核参数同卷积层5a一致。从而池化层4的输出经过两次卷积操作可以得到512个64×7×7的特征图。

我们使用C3D模型作为预训练模型，并在我们的实验中对ActivityNet数据集进行微调。

步骤二、全局平均池化阶段。

目前未修剪的数据集中对于空间位置的标注信息极少(ActivityNet中没有，Thumos14仅部分视频数据有空间标注信息)，因此我们仅能在弱监督情况下对视频动作的空间位置进行定位。受启发于Network in Network(NIN)和GoogLeNet中使用全局平均池化层(Global Average Pooling)，在本发明中我们将使用全局平均池化层，我们发现采用全局平均池化不仅仅起到了正则化的作用，而且全局平均池化能够很好的保持显著的定位作用。

对于一个特定的时间位置，假设f_k(x,y)表示卷积层Conv5b在空间位置(x,y)第k个单元的激活值。那么，对于第k单元来说，在全局平均池化操作后即可得到F^k＝∑_kf_k(x,y)。因此，对于一个特定类别c的softmax的输入其中是第k个单元的类别c的相应权重。本质上来说，表示F_k对于类别c的重要性。最后，对于类别c的softmax输出

假设我们定义M_c为特定类别c的类别激活值，那么每一个空间位置(x,y)上可以得到如下公式：

从而可以得出：

S_c＝∑_x,yM_c(x,y)

由此可以推断出M_c(x,y)表示在特定时间位置上的空间位置(x,y)被分类为c类的重要性。

我们在Conv5b后添加一个3×3×3的卷积核，卷积的填充和跨幅为1，卷积核数量为1024个。然后再添加一个全局平均池化层，池化核大小为1×7×7，池化的深度跨幅为1，高度和宽度的跨幅分别为7。通过以上的操作我们可以在训练过程中优化权重项

步骤三、时间候选框生成阶段。

我们利用步骤一中卷积层Conv5b的输出来生成时间候选框。为了允许模型预测可变长度候选框，我们将anchor纳入时间候选框子网。本阶段子网预测关于anchor的潜在候选框和预测候选框是否包含动作的二进制标签。anchor是以(L/8)均匀分布的时间位置为中心的预定义多尺度窗口。每个时间位置指定K个固定的不同尺寸的anchor。因此最终生成的anchor的总数为(L/8)*K。

为了在每个时间位置获取特征以用来预测这些候选框，我们首先在Conv5b后添加3×3×3的卷积核，以用来扩展时间候选子网的时间接收域。随后我们应用3D max-pooling来缩小空间维度以产生时间唯一的特征图。每一个时间位置上512维的特征向量用来预测每个时间候选框是动作还是背景的二进制得分，同时它还能预测时间候选框和真实值的中心位置以及长度的相对位移值。

候选框子网输出一组具有相关分数的候选框。一些动作候选框时间域彼此高度重叠，一些动作候选框是动作的得分低。根据物体检测和动作检测的标准，我们采用贪心的的非极大值抑制(NMS)策略来消除高度重叠和低置信度的候选框。随后将同一种尺度的anchor链接起来。由于同一种尺度的anchor存在不同的时间位置上，这就保证了候选框预测在时间上的不变性。

步骤四、3D RoI阶段。

由于步骤三生成链接的候选框可以是任意长度，然而我们需要为每个特征提取固定大小的特征，以便进一步来进行动作分类和回归。我们设计了一个3D RoI池化层，从步骤一共享卷积Conv5b中提取每个可变长度候选框的固定大小的卷积特征。经典的最大池化层定义了确定的内核大小、步幅和填充值。相反，对于RoI池化层，首先需要确定输出大小，然后确定内核大小、步幅和填充值。将特征立方体表示为d×h×w，对特征立方体进行时空上的RoI池化。假设Conv5b的输出为d×h×w，我们的输出结果是D×H×W，那么首先我们将h×w的特征图平均分成H×W的格子，那么每个格子的大小为h/H×w/W。在每一个格子中应用最大池化方法来采样最大值，这样在空间维度上我们将可以得到H×W的特征图。然后将d平均分成D份，那么每一份大小为d/D。在每一份中应用最大池化方法来采样最大值，从而我们将可以得到D×H×W的特征图。

步骤五、分类和回归阶段。

步骤三所挑选的候选链接框在经过上述操作后被馈送到全连接层。最后，这些候选框经过softmax层被分类成动作类别，视频的开始和结束时间在regression层中进行优化。

我们在训练网络的时候同时优化分类和回归任务。Softmax损失函数用于动作类别的分类，smooth L1损失函数用于动作时间边界的回归。从而本发明的损失函数如下所示：

其中N_cls和N_reg分别表示训练时候批处理数量和候选框的数量，λ表示损失权衡函数，本实验经过交叉验证将其设置为1。a_i表示预测一个候选框是否是动作的可能性，表示其真实值。表示预测一个候选框和真实值之间的相对位移，表示一个候选框和真实值之间的坐标转换。这个坐标转换可以通过如下的公式进行计算：

其中c_i和l_i表示候选框的中心位置和长度，和表示该候选框的真实值。

步骤六、动作定位阶段。

为了实现动作定位，本发明需要在生成动作类别的同时生成一个边界框。我们使用步骤二中得到的权重项来得到类别激活图。本发明采用一种简单的阈值操作作用于类别激活图，其中本发明的阈值分别取20、100和110。在生成的类别激活图的基础上，首先获取图像中动作的轮廓并细致轮廓，然后生成对应轮廓的外部矩形边界框，再对生成的边界框进行排序并合并矩形边界框。其中本发明中动作的轮廓取的是预测类别分数最高的前五个类别的动作轮廓。

实施例1：

本发明中，以英伟达GPU作为计算平台，采用CUDA作为GPU加速器，选取Caffe作为CNN框架。

S1数据准备：

本实验中使用ActivityNet 1.3数据集。ActivityNet数据集仅由未修剪的视频组成，有200种不同类型的活动，其中训练集10024个视频、验证集4926个视频和测试集5044个视频。与THUMOS14相比，这是一个大型数据集，无论是涉及的活动类别数量还是视频数量。

步骤1.1:从http://activity-net.org/download.html下载ActivityNet 1.3数据集至本地。

步骤1.2:根据每秒25帧图像(fps)将下载的视频转换成图像，不同子集的图像按照对应视频名称分文件夹放置。

步骤1.3:根据数据增广策略，本实验采用水平翻转策略。在生成视频训练数据阶段，采用图像间重叠0.7生成训练数据。同时本实验不仅按照视频从头到尾的方式来生成训练数据，而且还按照视频从尾到头的方式生成训练数据，从而增大数据量。

S2构建模型参数：

本实验采用Learning Spatiotemporal Features with 3D ConvolutionalNetworks作者提供的在Sports-1M数据集预训练的C3D模型参数(https://github.com/chuckcho/video-caffe)来初始化本实验的3D ConvNet参数，之后我们在ActivityNet 1.3数据集上进行微调。

S3模型训练：

步骤3.1:本实验的模型采用随机梯度下降算法(SGD)，批处理数量(batchsize)为128，动量为0.9，权重衰减为0.0005。

步骤3.2:本实验的学习率设置如下：前10个epochs学习率为0.0001，之后的学习率降为0.00001。

步骤3.3:模型训练过程中生成的solverstate可用于模型的继续训练，caffemodel可用于接下来的模型测试。

S4模型测试：

步骤4.1:用上述模型训练生成的caffemodel来进行测试。

步骤4.2:本实验采用贪心的非极大值抑制策略对测试生成的预测结果进行处理，消除高重叠度和低分数的预测结果。非极大值抑制阈值设置为0.99999，分数的阈值设置为0.005。

S5模型评估：

步骤5.1:根据上述处理后的预测结果计算tIoU(temporal Intersection overUnion)>0.5的测试集，当预测结果tIoU>0.5的预测结果我们认为是预测正确的结果。

步骤5.2:接着计算tIoU@0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95的正确率，从而得到模型预测结果的平均正确率mAP。

具体实施步骤叙述完毕，下表给出本发明在mAP@0.5的测试结果。本实验给出了ActivityNet数据集中动作“Layup drill in basketball”和“Disc dog”的时序动作检测以及动作“Diving”的动作定位结果，如图2(a)、图2(b)、图3所示。实验环境为：GPU K80，CUDA 8.0，cuDNN 5.1.10版本。结果为：

Claims

1.一种基于三维卷积和Faster RCNN的视频动作检测方法，其特征在于，包括以下步骤：

步骤一、时空特征生成

对于输入的视频剪辑片段L，使用3D ConvNet网络提取时空特征立方体；3D ConvNet网络包括依次连接的卷积层1、池化层1、卷积层2、池化层2、卷积层3a、卷积层3b、池化层3、卷积层4a、卷积层4b、池化层4、卷积层5a和卷积层5b；

步骤二、全局平均池化

步骤三、时间候选框生成

步骤四、3D RoI阶段

步骤五、分类和回归

步骤六、动作定位

2.如权利要求1所述的基于三维卷积和Faster RCNN的视频动作检测方法，其特征在于，步骤二中：

从而可以得出：

S_c＝∑_x,yM_c(x,y)

3.如权利要求2所述的基于三维卷积和Faster RCNN的视频动作检测方法，其特征在于，步骤四中：

4.如权利要求3所述的基于三维卷积和Faster RCNN的视频动作检测方法，其特征在于，步骤五中：

5.如权利要求4所述的基于三维卷积和Faster RCNN的视频动作检测方法，其特征在于，步骤六中：