CN112434614A

CN112434614A - 一种基于Caffe框架的滑窗动作检测方法

Info

Publication number: CN112434614A
Application number: CN202011347236.4A
Authority: CN
Inventors: 苏寒松; 王玥; 刘高华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-02

Abstract

本发明公开了一种基于Caffe框架的滑窗动作检测方法，包括步骤：步骤(1)、建立时序动作检测视频数据库；步骤(2)、对数据库中的视频帧图像进行预处理；步骤(3)、用Caffe框架搭建卷积神经网络；步骤(4)、训练Caffe深度神经网络模型；步骤(5)、调用训练完毕的模型进行测试，本发明以基于Caffe的深度学习框架为基础，在改进的神经网络模型下能够更好更快地训练出合适的模型参数，提高了检测准确率。

Description

一种基于Caffe框架的滑窗动作检测方法

技术领域

本发明涉及计算机视觉、人工智能领域，特别是涉及一种基于Caffe框架的滑窗动作检测方法。

背景技术

近年来计算机视觉技术、人工智能技术迅速发展，给人类生活带来了诸多便捷，尤其是以此类技术为理论基础的的动作检测技术也不断得到发展。现如今，动作检测已被广泛应用于如机器人服务、人机交互、视频检索、视频监督、动作分析和智能安防等领域。

Caffe框架是一种开源软件框架，内部提供了一套基本的编程框架，或者说一个模板框架，用以实现GPU并行架构下的深度卷积神经网络深度学习等算法，可以按照框架定义各种各样的卷积神经网络的结构，并且可以再此框架下增加自己的代码，设计新的算法。

现有的时序动作检测方法多为分阶段检测，早期的研究多在时间或时空特征上使用基于滑窗的检测方法，首先使用滑动窗口生成时序动作提议，再利用SVM等分类器对提议进行起止时间预测和动作分类。随着深度学习在动作检测领域的应用，基于深度学习的方法显示出了优异的性能。目前基于深度学习的动作检测方法应用较广。但目前一些动作检测网络存在着结构较为复杂，速度较慢且识别度不高、鲁棒性不强的问题。

发明内容

本发明的目的是为了克服现有技术中的不足，针对现有技术中存在的动作检测方法的网络结构复杂、识别速度较慢且识别度不高、鲁棒性不强的问题，提供一种基于Caffe框架的滑窗动作检测方法，该方法可以实现在网络结构简单的条件下更快、更准确地对动作进行定位和识别。

本发明的目的是通过以下技术方案实现的：

一种基于Caffe框架的滑窗动作检测方法，该方法包括以下步骤：

步骤(1)、建立时序动作检测视频数据库；

步骤(2)、对数据库中的视频帧图像进行预处理；

步骤(3)、用Caffe框架搭建卷积神经网络；

步骤(4)、训练Caffe深度神经网络模型；

步骤(5)、调用训练完毕的模型进行测试。

进一步的，步骤(1)包括以下步骤：

步骤(101)、下载时序动作检测视频数据集THUMOS2014，将视频提取为帧序列图像，并将属于同一个视频的帧图像按照帧数命名，按顺序排列；

进一步的，步骤(2)具体包括以下处理过程：

步骤(201)、采用最近邻插值的方法对图片进行缩放，将图片尺寸改为171×128的固定大小；

步骤(202)、使用不同长度的滑动窗口，对未剪辑的视频帧序列生成动作提案。滑动窗口的大小分别为32、64、128帧，具有75％的重叠；

步骤(203)、对于每段提案，采用均匀采样构造具有16帧的视频段。

进一步的，所述步骤(3)的用Caffe框架搭建卷积神经网络，其构建流程具体包括以下处理过程：

步骤(301)、构建提议模块，包含八个卷积层、五个最大池化层和三个个全连接层，判断提案中是否含有动作实例；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(302)、构建分类模块，包含八个卷积层、五个最大池化层和三个全连接层，对提案中的动作实例进行分类；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(303)、构建定位模块，包含九个卷积层、六个最大池化层和三个全连接层，对提案中的动作实例进行精确定位；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(304)、在sovler.prototxt文件中设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value)；选择两块GPU同时进行训练。

进一步的，所述步骤(4)的训练Caffe深度神经网络模型，其训练流程具体包括以下处理步骤：

步骤(401)、将用于训练的视频提取为帧序列，利用滑动窗口生成动作提案，再进行16帧的均匀采样，得到等长的视频段。将视频段输入进提议网络、分类网络和定位网络，最终得到未剪辑视频中各个动作实例的起始时间，输出动作实例的类别。采用softmax损失函数，逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值；

步骤(402)、每次训练完后观察损失函数的收敛情况，若出现发散现象则及时调整学习率及步长值(step value)的大小；比对多次训练结果，得到最佳权值，结束网络训练，训练完毕之后生成一个Caffe模型文件以储存网络结构和权值。

进一步的，步骤(5)具体包括以下处理步骤：

步骤(501)、设定待测的视频中包含若干动作；首先将视频提取为帧序列图片，缩放为171×128的大小，使用不同长度的滑动窗口，对未剪辑的视频帧序列生成动作提案；

步骤(502)、将动作提案输入到训练好的提议网络、分类网络和定位网络中，若经过训练后的神经网络具备检测能力，即可判断出待测视频中包含的动作实例，以及动作实例的开始和结束时间。

有益效果

与现有技术相比，本发明的技术方案所带来的有益效果是：

本发明通过不同尺度的滑动窗口对未剪辑的视频生成动作提案，能够识别出感兴趣的视频片段，定位开始帧和结束帧，并对该片段的动作类型做出判断。此网络结构简单，检测准确率高，鲁棒性强，得到了很好的检测效果，且以基于Caffe框架的深度学习框架为基础，在改进的神经网络模型下能够更好更快地训练出合适的模型参数，提高了在大量数据情况下的检测效率。

附图说明

图1为本发明时序动作检测方法的流程示意图；

图2为本发明时序动作检测方法所用提议网络的连接图；

图3为本发明时序动作检测方法所用分类网络的连接图；

图4为本发明时序动作检测方法所用定位网络的连接图。

具体实施方式：

以下结合实施案例和附图，对本发明的技术和方法进行详细描述，以下案例和附图用于说明本发明的构成，但不是用来限定本发明的范围。

如图1所示，为一种基于Caffe框架的滑窗动作检测方法。包括以下步骤：

1.建立时序动作检测视频数据库，具体的：

步骤101、下载时序动作检测视频数据集THUMOS2014，将视频提取为帧序列图像，并将属于同一个视频的帧图像按照帧数命名，按顺序排列；

2.对数据库中的视频帧图像进行预处理，具体的：

步骤201、采用最近邻插值的方法对图片进行缩放，将图片尺寸改为171×128的固定大小；

步骤202、使用不同长度的滑动窗口，对未剪辑的视频帧序列生成动作提案。滑动窗口的大小分别为16、32、64、128、256、512帧，具有75％的重叠；

步骤203、对于每段提案，采用均匀采样构造具有16帧的视频段。

3.用Caffe框架搭建卷积神经网络，具体的：

步骤301、本发明所用的提议网络包含八个卷积层、五个最大池化层和三个个全连接层；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；具体地：卷积核大小均为3*3*3，步长均为1；pool_1的空间尺度大小为2*2，步长为1，时间尺度大小为1*1，步长为1；pool_2、pool_3、pool_4、pool_5的空间尺度大小为2*2，步长为1，时间尺度大小为2*2，步长为2；

步骤302、本发明所用的分类网络包含八个卷积层、五个最大池化层和三个全连接层；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；具体地：卷积核大小均为3*3*3，步长均为1；pool_1的空间尺度大小为2*2，步长为1，时间尺度大小为1*1，步长为1；pool_2、pool_3、pool_4、pool_5的空间尺度大小为2*2，步长为1，时间尺度大小为2*2，步长为2；

步骤303、本发明所用的定位网络包含九个卷积层、六个最大池化层和三个全连接层；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；具体地：卷积核大小均为3*3*3，步长均为1；pool_1的空间尺度大小为2*2，步长为1，时间尺度大小为1*1，步长为1；pool_2、pool_3、pool_4、pool_5、pool_6的空间尺度大小为2*2，步长为1，时间尺度大小为2*2，步长为2；

步骤304、在sovler.prototxt文件中设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value)；选择两块GPU同时进行训练。

4.训练Caffe深度神经网络模型，具体的：

步骤401、将用于训练的视频提取为帧序列，利用滑动窗口生成动作提案，再进行16帧的均匀采样，得到等长的视频段。将视频段输入进提议网络、分类网络和定位网络，最终得到未剪辑视频中各个动作实例的起始时间，输出动作实例的类别。采用softmax损失函数，逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值；

步骤402、每次训练完后观察损失函数的收敛情况，若出现发散现象则及时调整学习率及步长值(step value)的大小；比对多次训练结果，得到最佳权值，结束网络训练，训练完毕之后生成一个Caffe模型文件以储存网络结构和权值。

5.调用训练完毕的模型进行测试，具体的：

步骤501、设定待测的视频中包含若干动作；首先将视频提取为帧序列图片，缩放为171×128的大小，使用不同长度的滑动窗口，对未剪辑的视频帧序列生成动作提案；

步骤502、将动作提案输入到训练好的提议网络、分类网络和定位网络中，若经过训练后的神经网络具备检测能力，即可判断出待测视频中包含的动作实例，以及动作实例的开始和结束时间。

如图2、图3和图4所示，为本发明时序动作检测方法所用提议网络、分类网络和定位网络的连接图：均包含八个卷积层、五个最大池化层和三个全连接层；本方法在数据库的测试集下的平均精度为25％(IoU＝0.5)。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于Caffe框架的滑窗动作检测方法，其特征在于，该方法包括以下步骤：

步骤(1)、通过序动作检测视频数据集对视频提取为帧序列图像，并将属于同一个视频的帧序列图像进行帧数命名构建时序动作检测视频数据库；

步骤(2)、对数据库中的帧序列图像进行预处理获得等长16帧视频段；

步骤(3)、用Caffe框架对卷积神经网络处理获得提议模块、分离模块和定位模块的Caffe深度神经网络模型；

步骤(4)、训练Caffe深度神经网络模型；其中包括如下步骤：

将16帧视频段输入提议模型、分类模型和定位模型，提取视频中各个动作实例的起始时间，输出动作实例的类别；

采用损失函数逐层训练卷积神经网络的权值，并采用动量的随机梯度下降法降低损失函数、优化权值；

通过卷积神经网络训练后生成具有储存网络结构和权值Caffe模型文件；

步骤(5)、调用训练完毕的Caffe模型文件进行测试。

2.根据权利要求1所述的一种基于Caffe框架的滑窗动作检测方法，其特征在于，步骤(2)具体包括以下步骤：

步骤(201)、采用最近邻插值的方法对帧进行缩放，将图片尺寸改为171×128的固定大小；

步骤(202)、使用不同长度的滑动窗口，对未剪辑的视频帧序列生成动作提案；滑动窗口的大小分别为32、64、128帧，具有75％的重叠；

3.根据权利要求1所述的一种基于Caffe框架的滑窗动作检测方法，其特征在于，步骤(3)Caffe深度神经网络模型，其构建流程具体包括以下处理过程：

步骤(301)、构建提议网络，包含八个卷积层、五个最大池化层和三个全连接层，判断提案中是否含有动作实例；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(302)、构建分类网络，包含八个卷积层、五个最大池化层和三个全连接层，对提案中的动作实例进行分类；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；

步骤(303)、构建定位网络，包含九个卷积层、六个最大池化层和三个全连接层，对提案中的动作实例进行精确定位；在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式；