CN106897714A

CN106897714A - 一种基于卷积神经网络的视频动作检测方法

Info

Publication number: CN106897714A
Application number: CN201710177579.2A
Authority: CN
Inventors: 王文敏; 李志豪; 王荣刚; 李革; 董胜富; 王振宇; 李英; 赵辉; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2017-06-27
Anticipated expiration: 2037-03-23
Also published as: CN106897714B; WO2018171109A1; US20200057935A1; US11379711B2

Abstract

本发明公布了一种视频动作检测方法，涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络，通过在网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和检测的速度，提高视频动作分类和时间定位的性能；卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层；卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层；本发明方法不需要通过下采样来获取不同时间长度的视频片段，而是直接一次输入整个视频，提高了效率；同时，由于网络训练的是同一频率的视频片段，并无增加类内的差异性，降低了网络的学习负担，模型收敛得更快，检测效果更好。

Description

一种基于卷积神经网络的视频动作检测方法

技术领域

本发明涉及计算机视觉识别技术，尤其涉及一种基于卷积神经网络的视频动作检测方法。

背景技术

近些年来，几乎人手一部手机。每部手机上都有摄像头。加上互联网的发展和通信技术的进步，人们越来越喜欢拍摄视频，并且传播到互联网上，所以视频的数量呈爆发式增长，视频的储存和分析技术非常重要。

视频动作检测是指对视频中的动作进行分类，并且给出动作发生的开始时间和结束时间，示例如图1所示。近几年，视频动作识别任务取得了很大的进展，但是主要适用于已经裁剪好的视频，即视频中有且只有一个动作，没有冗余的帧。于是，学者开始着手研究未裁剪的视频，即视频动作检测任务。

视频任务过去所采用的主流方法是首先手工提取传统特征，而后结合建模方法。此类方法目前效果最好的是提取基于改进后的稠密轨迹(improved Dense Trajectory，iDT)的传统特征，结合费舍尔向量(Fisher Vector，FV)建模。

卷积神经网络(Convolutional Neural Network,CNN)在图片任务和视频动作识别任务上取得了很大的突破。于是，学者开始把卷积神经网络应用到视频动作检测任务上。有学者尝试用卷积神经网络提取视频中帧级别的特征，再结合传统特征。但这类方法中，二维的卷积神经网络难以挖掘视频中的运动信息，而运动信息对动作的建模和动作的时间边界(即开始时间和结束时间)的确定起着非常重要的作用。

针对这个局限，有学者运用三维(二维空间+时间)卷积神经网络(3D CNN)，提出了分段卷积神经网络(Segment-CNN，S-CNN)。这类方法在视频中提取不同尺度的片段(Segment)，用三个结构相同的网络对其进行处理，各网络特点分述如下：

第一个是候选网络(Proposal Network)，对片段进行简单的二分类，剔除非动作片段，将动作片段输入第二个网络；

第二个是分类网络(Classification Network)，给出片段的具体类别(包括类别“背景”)。用分类网络的参数初始化第三个网络；

第三个是定位网络(Localization Network)，其损失函数(Loss Function)考虑了片段和实际视频动作片段(Ground Truths)的重合率，使得重合越多的片段的置信度越高，方便后处理确定动作的时间边界。

但是，有学者认为上述方法中的三个网络独立工作，阻碍了其间的信息共享，而且在训练阶段会耗费大量的运算资源和时间，同时，总体效果的上限受到候选网络的限制。于是，他们提出了将三个阶段的网络整合为一个网络，进行多任务学习。但是，这些方法都有一个局限：即要求网络输入的视频片段的尺寸一致，尤其是视频片段的帧数一致。由于上述现有方法均通过控制下采样的频率来获取不同时间长度的片段，例如每2帧取1帧，每4帧取一帧，每8帧取1帧……，而这些不同采样频率获得的片段通过同一网络结构来处理，因此会导致以下问题：

(一)稀疏采样会破坏动作内的连续性，使得3D CNN学习不到较好的运动特征；

(二)不同采样频率获取的视频片段共用一个网络进行训练，会增加类内差异性，使网络学习负担大，需要更复杂的网络，和更多的训练数据。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于卷积神经网络的视频动作检测方法，这是一种不要求输入的视频片段尺寸一致的方案。本发明通过在传统网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和测试的速度，更好地挖掘视频中的运动信息，使视频动作分类和时间定位的性能都得以提高。

本发明的核心特点：一是在传统卷积神经网络最后一个卷积层和第一个全连接层之间中加入了一个时空金字塔池化层；二是把整个视频输入网络，在最后一层特征图对感兴趣区域对应的特征进行处理，获取统一尺寸的特征，输入全连接层，进行分类。在传统卷积神经网络结构中增加时空金字塔池化层，时空金字塔池化层有以下几方面优势：第一，不管输入尺寸如何，时空金字塔池化层能提供统一尺寸的输出，而传统滑动窗口式的池化层做不到这一点；第二，时空金字塔池化层能提供多层次、更鲁棒的时空特征，而传统池化方法只能提供单一层次的特征；第三，由于输入的尺寸各异，时空金字塔池化层能对在不同尺寸上提取的特征进行池化。

一般地，现有卷积神经网络由两部分组成：卷积层和其后的全连接层。卷积层以滑动窗口的形式进行操作，因其权重共享，其实并不要求网络的输入尺寸一致，且能生成任意尺寸的特征图。但是，全连接层因其定义，则需要统一的输入尺寸。因此，现有方法需要固定尺寸的输入，尤其是视频。而在现有方法中，网络之所以需要同一尺寸的输入，仅是因为网络后面的全连接层。因此，本发明提出在3D CNN中增加时空金字塔池化层(PoolingLayers)来消除3D CNN网络对统一(固定)尺寸输入的限制。本发明采用时空金字塔池化层作为3D CNN网络最后一个池化层，即在3D CNN网络的最后一个卷积层和第一个全连接层之间插入一个时空金字塔池化层，使网络中的全连接层能获得统一尺寸的输入。

本发明提供的技术方案是：

一种基于卷积神经网络的视频动作检测方法，通过在网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和测试的速度，提高视频动作分类和时间定位的性能；所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层；

包括如下步骤：

(一)在训练阶段，执行如下操作：

11)把训练视频整个输入到三维卷积神经网络(3D CNN)模型中，得到特征图；

12)在训练视频中获取不同长度的片段，根据实际视频动作片段(ground truth)，从中挑选正样本和负样本，作为训练样本；

13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层，得到统一尺寸的特征表达；

14)把统一尺寸的特征输入到全连接层，定义损失函数，获取损失值；进行反向传播，调整模型中的参数，进行训练；

15)逐步降低训练的学习率，当训练损失已经不再下降时，便可得到已训练完毕的模型了；

(二)在检测阶段，执行如下操作：

21)把整个待检测视频输入到已训练完毕的模型中；

22)在待检测视频中提取不同长度的片段，在网络的特征层获取对应片段的特征区域，输入到时空金字塔池化层，得到统一尺寸的特征表达；

23)对统一尺寸的特征进行判别，得到分类置信度；最后选择置信度最高的为最终的定位结果和类别。分类置信度为模型最后的全连接层softmax的输出。

上述基于卷积神经网络的视频动作检测方法，在传统网络结构中增加时空金字塔池化层，使得不管输入尺寸如何，时空金字塔池化层能对在不同尺寸上提取的特征进行池化，且提供统一尺寸的输出；另外，时空金字塔池化层能提供多层次、更鲁棒的时空特征。在本发明实施例中，训练阶段采用随机梯度下降方式，学习参数，直至收敛。在测试阶段，和训练阶段一样获取样本，得到输出后，再选取得分最高的片段，即可得到视频中所发生的动作的类别，以及动作发生的起始时间和结束时间。

与现有技术相比，本发明的有益效果是：

本发明提供的基于卷积神经网络的视频动作检测方法，通过在传统网络结构中增加时空金字塔池化层，其技术优势包括：第一，不管输入尺寸如何，时空金字塔池化层能提供统一尺寸的输出，而传统滑动窗口式的池化层做不到这一点；第二，时空金字塔池化层能提供多层次、更鲁棒的时空特征，而传统池化方法只能提供单一层次的特征；第三，由于输入的尺寸各异，时空金字塔池化层能对在不同尺寸上提取的特征进行池化。

本发明方法能够消除网络对输入的限制，加快训练和测试的速度，更好地挖掘视频中的运动信息，使视频动作分类和时间定位的性能都得以提高。具体地，采用本发明技术方案来检测识别视频动作，不需要通过下采样来获取不同时间长度的视频片段，而是直接输入整个视频，把多次输入变为一次输入，提高了效率；同时，由于网络训练的是同一频率(都没有经过下采样)的视频片段，并无增加类内的差异性，降低了网络的学习负担，使得模型收敛得更快，检测效果更好。

附图说明

图1是视频动作与视频动作检测识别的起始时间示意图。

图2是本发明方法与传统方法的不同流程框图；

其中，(a)为现有传统方法；(b)为本发明提供的方法。

图3是本技术方案训练阶段和测试阶段流程框图；

其中，(a)为训练阶段；(b)为测试阶段。

图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。

图5是三维卷积与二维卷积的区别；

其中，(a)为二维卷积；(b)为三维卷积。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于卷积神经网络的视频动作检测方法，通过在传统网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和测试的速度，更好地挖掘视频中的运动信息，使视频动作分类和时间定位的性能都得以提高。本发明不要求输入的视频片段尺寸一致。

如图2所示，由于传统卷积神经网络要求输入的视频片段尺寸一致，视频片段输入网络前需要经过下采样操作。而本发明则去除下采样过程，在最后一个卷积层和第一个全连接层之间插入了一个时空金字塔池化层。图3是本技术方案训练阶段和测试阶段流程框图。

图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。如图4所示，时空金字塔池化层能生成统一尺寸的特征。其中，池化可分为n个层次。设定最后一层特征图的尺寸为W*H*T，各层次划分区域情况如下：

第一个层次：

我们把整个特征图看为一个区域，区域大小为W*H*T；

第k(k＞1且k≤n)个层次：

我们把整个特征图划分为2^k-1*2^k-1*2^k-1个区域，从前左上角开始划分，前左上角的(2^k-1-1)*(2^k-1-1)*(2^k-1-1)个区域的大小为其余区域的大小在此基础上取所余，如

本发明具体实施时，设定k为3，第一个层次，我们可以划分为4*4*4个区域，如果最后一层特征图的尺寸为W*H*T，则前左上角3*3*3个区域的尺寸为 (是向下取整符号)，其余区域的尺寸在此基础上取所余。第二个层次，我们可以划分为2*2*2个区域，各区域尺寸的计算和第一个层次相仿。第三个层次，我们可以把整个特征图看为一个区域。各区域内的池化方法可以采用最大池化法(Max Pooling)，即取最大值。

输入样本处理：

如果把一个片段的每一帧都输入网络当中，会导致两个问题：其一，相邻两帧间变化较小，包含的运动信息也少，有点冗余；其二，输入网络的帧数较多，使得网络占用内存过大。

因此，本发明实施例以每三帧取一帧，使得输入网络的帧数减少，减轻冗余帧带来的内存负担。

本发明可以用滑动窗口的方式获取正负样本，即以16,31,61,121，241，481这些不同时间长度，以75％的重叠率滑动获取。本发明以“交集比并集(Intersection-over-Union,IoU)”方法作为划分正负样本的标准。

正样本满足以下两个条件之一即可：一，与真实标注IoU值最大；二，与真实标注IoU值大于0.7。

通常情况下，第二个条件可以在一个视频中获取多个正样本，所以满足第二个条件就可以获得足够多的正样本了，但有些情况下，第二个条件无法获得正样本，所以条件一可以确保至少有一个正样本。

负样本满足以下条件：与真实标注IoU值小于0.3。

其他既不是正样本也不是负样本的样本不参与训练。

把样本对应的最后一层卷积层的特征送入时空金字塔卷积层中，获得统一尺寸的特征，然后再输入到下一层网络。

网络结构：

本发明在三维卷积神经网络结构上进行实现。三维卷积神经网络将时间维度与空间维度同等对待，同时进行，在卷积操作中，采用三维卷积核，在池化操作中，也采用三维池化。二维卷积和三维卷积的区别如图5所示。

本发明实施例中，所有池化操作使用最大池化运算，在空间维度上使用2*2的大小，步长为2，在时间维度上，各层有所不同；所有卷积操作的卷积核大小为3*3*3，在时空维度的步长都是1。网络结构可以有2种，一种为带全连接层的结构，另一种为不带全连接层的结构，即全卷积结构。

带全连接层的结构A表示为：

conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)–pool_pyramid-fc6(4096)-fc7(4096)-fc8(K+1)

不带全连接层的结构B表示为：

conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)-pool_pyramid-fc8(K+1)

其中，conv(卷积核的数量)代表三维卷积层，pool(时间维度的核尺寸，时间维度的步长) 代表三维池化层，pool_pyramid代表时空金字塔池化层，fc(神经元数量)代表全连接层，K是动作分类的类别数量，K+1是加上了无指定类别的动作。不带全连接层的结构B是基于全卷积神经网络(Fully Convolutional Networks，FCN)的，相比带全连接层的结构A，B结构的参数数量更少。A、B两种结构变式皆可。

输出：

网络最后有两个输出层，一个是类别分类，另一个是时间定位的回归计算，可视为多任务(2个任务)学习。

损失函数可定义为：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v) (式1)

其中，L_cls(p,u)＝-log p_u；p是样本在K+1个类别上的概率分布，p＝(p₀...,p_k)；u是真实的类别；v是样本所在时间轴上的真实位置(即开始时间和结束时间)v＝(v_b,v_e)；t^u是计算得到的位置λ为控制2个任务的损失值之间的平衡的参数，其取值范围为0到正无穷大；[u≥1]表示当u所代表的类别是动作时等于1，否则为0；

其中，t^u∩v是t^u和v的交集，t^u∪v是t^u和v的并集。

训练阶段：

在训练阶段可采用随机梯度下降，学习参数，直至收敛。本发明实施例中，批大小(batch size)为256，正负样本的比例为1:1，如果正样本数量不足，则由负样本补充。动量(momentum)可设为0.9。用三维卷积网络在Sports-1M数据集上训练得到的模型作为网络初始化的参数，全连接层fc8层的学习率为0.01，其他层的学习率为0.0001，当网络收敛时再降到原来的1/10，如此两次便停止训练。

测试阶段(检测)：

在测试阶段，和训练阶段一样获取样本，网络最后一层类别分类的输出即为置信度，得到输出后，再选取置信度最高的片段，即可得到视频中所发生的动作的类别，以及动作发生的起始时间和结束时间(即网络最后一层时间定位回归计算的输出)。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种视频动作检测方法，基于卷积神经网络模型，通过在网络结构中增加时空金字塔池化层，消除网络对输入的限制，加快训练和检测的速度，提高视频动作分类和时间定位的性能；所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层；所述卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层；所述视频动作检测方法分为训练阶段和检测阶段，包括如下步骤：

(一)在训练阶段，执行如下操作：

11)把训练视频整个输入到卷积神经网络模型中，得到特征图；

12)在训练视频中获取不同长度的片段，根据实际视频动作片段ground truth，挑选出正样本和负样本，作为训练样本；

14)把统一尺寸的特征输入到全连接层，通过定义损失函数获取损失值；再进行反向传播，调整模型中的参数，进行训练；

15)逐步降低训练的学习率，当训练损失不再下降时，得到训练好的模型；

(二)在检测阶段，执行如下操作：

21)把待检测视频整个输入到步骤15)所述训练好的模型中；

23)对统一尺寸的特征进行判别，根据类别分类输出层得到分类置信度；选择置信度最高的分类，得到视频中所发生动作的类别；并根据网络输出层输出的时间定位计算结果，得到动作发生的起始时间和结束时间；由此实现视频动作检测。

2.如权利要求1所述视频动作检测方法，其特征是，所述卷积神经网络模型采用三维卷积神经网络。

3.如权利要求1所述视频动作检测方法，其特征是，在所述卷积神经网络中加入时空金字塔池化层，所述时空金字塔池化层分为n个层次，设定最后一层特征图的尺寸为W*H*T，按以下方法划分各层次的区域：

第1个层次为整个特征图，区域大小为W*H*T；

第k(k＞1且k≤n)个层次：将整个特征图划分为2^k-1*2^k-1*2^k-1个区域，从前左上角开始划分，前左上角的(2^k-1-1)*(2^k-1-1)*(2^k-1-1)个区域的大小为其余区域的大小在此基础上取所余，为

4.如权利要求1所述视频动作检测方法，其特征是，所述正样本和负样本采用交集比并集(Intersection-over-Union,IoU)方法进行划分。

5.如权利要求1所述视频动作检测方法，其特征是，所述损失函数定义为式1：

L(p,u,t^u,v)＝L_cls(p,u)+λ[u≥1]L_loc(t^u,v) (式1)

其中，

L_cls(p,u)＝-log p_u；p是样本在K+1个类别上的概率分布，p＝(p₀...,p_k)；

L_{l o c} (t^{u}, v) = - l o g \frac{t^{u} \cap v}{t^{u} \cup v};

t^u∩v是t^u和v的交集，t^u∪v是t^u和v的并集；

u是真实的类别；

v是样本所在时间轴上的真实位置(即开始时间和结束时间)v＝(v_b,v_e)；

t^u是计算得到的位置

[u≥1]表示当u所代表的类别是动作时等于1，否则等于0；

λ为控制2个任务的损失值之间的平衡的参数，其取值范围为0到正无穷大。

6.如权利要求1所述视频动作检测方法，其特征是，在训练阶段采用随机梯度下降方式训练参数，直至收敛。