CN112434614A - 一种基于Caffe框架的滑窗动作检测方法 - Google Patents

一种基于Caffe框架的滑窗动作检测方法 Download PDF

Info

Publication number
CN112434614A
CN112434614A CN202011347236.4A CN202011347236A CN112434614A CN 112434614 A CN112434614 A CN 112434614A CN 202011347236 A CN202011347236 A CN 202011347236A CN 112434614 A CN112434614 A CN 112434614A
Authority
CN
China
Prior art keywords
size
caffe
layers
model
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011347236.4A
Other languages
English (en)
Inventor
苏寒松
王玥
刘高华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011347236.4A priority Critical patent/CN112434614A/zh
Publication of CN112434614A publication Critical patent/CN112434614A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Caffe框架的滑窗动作检测方法,包括步骤:步骤(1)、建立时序动作检测视频数据库;步骤(2)、对数据库中的视频帧图像进行预处理;步骤(3)、用Caffe框架搭建卷积神经网络;步骤(4)、训练Caffe深度神经网络模型;步骤(5)、调用训练完毕的模型进行测试,本发明以基于Caffe的深度学习框架为基础,在改进的神经网络模型下能够更好更快地训练出合适的模型参数,提高了检测准确率。

Description

一种基于Caffe框架的滑窗动作检测方法
技术领域
本发明涉及计算机视觉、人工智能领域,特别是涉及一种基于Caffe框架的滑窗动作检测方法。
背景技术
近年来计算机视觉技术、人工智能技术迅速发展,给人类生活带来了诸多便捷,尤其是以此类技术为理论基础的的动作检测技术也不断得到发展。现如今,动作检测已被广泛应用于如机器人服务、人机交互、视频检索、视频监督、动作分析和智能安防等领域。
Caffe框架是一种开源软件框架,内部提供了一套基本的编程框架,或者说一个模板框架,用以实现GPU并行架构下的深度卷积神经网络深度学习等算法,可以按照框架定义各种各样的卷积神经网络的结构,并且可以再此框架下增加自己的代码,设计新的算法。
现有的时序动作检测方法多为分阶段检测,早期的研究多在时间或时空特征上使用基于滑窗的检测方法,首先使用滑动窗口生成时序动作提议,再利用SVM等分类器对提议进行起止时间预测和动作分类。随着深度学习在动作检测领域的应用,基于深度学习的方法显示出了优异的性能。目前基于深度学习的动作检测方法应用较广。但目前一些动作检测网络存在着结构较为复杂,速度较慢且识别度不高、鲁棒性不强的问题。
发明内容
本发明的目的是为了克服现有技术中的不足,针对现有技术中存在的动作检测方法的网络结构复杂、识别速度较慢且识别度不高、鲁棒性不强的问题,提供一种基于Caffe框架的滑窗动作检测方法,该方法可以实现在网络结构简单的条件下更快、更准确地对动作进行定位和识别。
本发明的目的是通过以下技术方案实现的:
一种基于Caffe框架的滑窗动作检测方法,该方法包括以下步骤:
步骤(1)、建立时序动作检测视频数据库;
步骤(2)、对数据库中的视频帧图像进行预处理;
步骤(3)、用Caffe框架搭建卷积神经网络;
步骤(4)、训练Caffe深度神经网络模型;
步骤(5)、调用训练完毕的模型进行测试。
进一步的,步骤(1)包括以下步骤:
步骤(101)、下载时序动作检测视频数据集THUMOS2014,将视频提取为帧序列图像,并将属于同一个视频的帧图像按照帧数命名,按顺序排列;
进一步的,步骤(2)具体包括以下处理过程:
步骤(201)、采用最近邻插值的方法对图片进行缩放,将图片尺寸改为171×128的固定大小;
步骤(202)、使用不同长度的滑动窗口,对未剪辑的视频帧序列生成动作提案。滑动窗口的大小分别为32、64、128帧,具有75%的重叠;
步骤(203)、对于每段提案,采用均匀采样构造具有16帧的视频段。
进一步的,所述步骤(3)的用Caffe框架搭建卷积神经网络,其构建流程具体包括以下处理过程:
步骤(301)、构建提议模块,包含八个卷积层、五个最大池化层和三个个全连接层,判断提案中是否含有动作实例;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(302)、构建分类模块,包含八个卷积层、五个最大池化层和三个全连接层,对提案中的动作实例进行分类;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(303)、构建定位模块,包含九个卷积层、六个最大池化层和三个全连接层,对提案中的动作实例进行精确定位;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(304)、在sovler.prototxt文件中设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择两块GPU同时进行训练。
进一步的,所述步骤(4)的训练Caffe深度神经网络模型,其训练流程具体包括以下处理步骤:
步骤(401)、将用于训练的视频提取为帧序列,利用滑动窗口生成动作提案,再进行16帧的均匀采样,得到等长的视频段。将视频段输入进提议网络、分类网络和定位网络,最终得到未剪辑视频中各个动作实例的起始时间,输出动作实例的类别。采用softmax损失函数,逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值;
步骤(402)、每次训练完后观察损失函数的收敛情况,若出现发散现象则及时调整学习率及步长值(step value)的大小;比对多次训练结果,得到最佳权值,结束网络训练,训练完毕之后生成一个Caffe模型文件以储存网络结构和权值。
进一步的,步骤(5)具体包括以下处理步骤:
步骤(501)、设定待测的视频中包含若干动作;首先将视频提取为帧序列图片,缩放为171×128的大小,使用不同长度的滑动窗口,对未剪辑的视频帧序列生成动作提案;
步骤(502)、将动作提案输入到训练好的提议网络、分类网络和定位网络中,若经过训练后的神经网络具备检测能力,即可判断出待测视频中包含的动作实例,以及动作实例的开始和结束时间。
有益效果
与现有技术相比,本发明的技术方案所带来的有益效果是:
本发明通过不同尺度的滑动窗口对未剪辑的视频生成动作提案,能够识别出感兴趣的视频片段,定位开始帧和结束帧,并对该片段的动作类型做出判断。此网络结构简单,检测准确率高,鲁棒性强,得到了很好的检测效果,且以基于Caffe框架的深度学习框架为基础,在改进的神经网络模型下能够更好更快地训练出合适的模型参数,提高了在大量数据情况下的检测效率。
附图说明
图1为本发明时序动作检测方法的流程示意图;
图2为本发明时序动作检测方法所用提议网络的连接图;
图3为本发明时序动作检测方法所用分类网络的连接图;
图4为本发明时序动作检测方法所用定位网络的连接图。
具体实施方式:
以下结合实施案例和附图,对本发明的技术和方法进行详细描述,以下案例和附图用于说明本发明的构成,但不是用来限定本发明的范围。
如图1所示,为一种基于Caffe框架的滑窗动作检测方法。包括以下步骤:
1.建立时序动作检测视频数据库,具体的:
步骤101、下载时序动作检测视频数据集THUMOS2014,将视频提取为帧序列图像,并将属于同一个视频的帧图像按照帧数命名,按顺序排列;
2.对数据库中的视频帧图像进行预处理,具体的:
步骤201、采用最近邻插值的方法对图片进行缩放,将图片尺寸改为171×128的固定大小;
步骤202、使用不同长度的滑动窗口,对未剪辑的视频帧序列生成动作提案。滑动窗口的大小分别为16、32、64、128、256、512帧,具有75%的重叠;
步骤203、对于每段提案,采用均匀采样构造具有16帧的视频段。
3.用Caffe框架搭建卷积神经网络,具体的:
步骤301、本发明所用的提议网络包含八个卷积层、五个最大池化层和三个个全连接层;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;具体地:卷积核大小均为3*3*3,步长均为1;pool_1的空间尺度大小为2*2,步长为1,时间尺度大小为1*1,步长为1;pool_2、pool_3、pool_4、pool_5的空间尺度大小为2*2,步长为1,时间尺度大小为2*2,步长为2;
步骤302、本发明所用的分类网络包含八个卷积层、五个最大池化层和三个全连接层;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;具体地:卷积核大小均为3*3*3,步长均为1;pool_1的空间尺度大小为2*2,步长为1,时间尺度大小为1*1,步长为1;pool_2、pool_3、pool_4、pool_5的空间尺度大小为2*2,步长为1,时间尺度大小为2*2,步长为2;
步骤303、本发明所用的定位网络包含九个卷积层、六个最大池化层和三个全连接层;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;具体地:卷积核大小均为3*3*3,步长均为1;pool_1的空间尺度大小为2*2,步长为1,时间尺度大小为1*1,步长为1;pool_2、pool_3、pool_4、pool_5、pool_6的空间尺度大小为2*2,步长为1,时间尺度大小为2*2,步长为2;
步骤304、在sovler.prototxt文件中设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择两块GPU同时进行训练。
4.训练Caffe深度神经网络模型,具体的:
步骤401、将用于训练的视频提取为帧序列,利用滑动窗口生成动作提案,再进行16帧的均匀采样,得到等长的视频段。将视频段输入进提议网络、分类网络和定位网络,最终得到未剪辑视频中各个动作实例的起始时间,输出动作实例的类别。采用softmax损失函数,逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值;
步骤402、每次训练完后观察损失函数的收敛情况,若出现发散现象则及时调整学习率及步长值(step value)的大小;比对多次训练结果,得到最佳权值,结束网络训练,训练完毕之后生成一个Caffe模型文件以储存网络结构和权值。
5.调用训练完毕的模型进行测试,具体的:
步骤501、设定待测的视频中包含若干动作;首先将视频提取为帧序列图片,缩放为171×128的大小,使用不同长度的滑动窗口,对未剪辑的视频帧序列生成动作提案;
步骤502、将动作提案输入到训练好的提议网络、分类网络和定位网络中,若经过训练后的神经网络具备检测能力,即可判断出待测视频中包含的动作实例,以及动作实例的开始和结束时间。
如图2、图3和图4所示,为本发明时序动作检测方法所用提议网络、分类网络和定位网络的连接图:均包含八个卷积层、五个最大池化层和三个全连接层;本方法在数据库的测试集下的平均精度为25%(IoU=0.5)。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (3)

1.一种基于Caffe框架的滑窗动作检测方法,其特征在于,该方法包括以下步骤:
步骤(1)、通过序动作检测视频数据集对视频提取为帧序列图像,并将属于同一个视频的帧序列图像进行帧数命名构建时序动作检测视频数据库;
步骤(2)、对数据库中的帧序列图像进行预处理获得等长16帧视频段;
步骤(3)、用Caffe框架对卷积神经网络处理获得提议模块、分离模块和定位模块的Caffe深度神经网络模型;
步骤(4)、训练Caffe深度神经网络模型;其中包括如下步骤:
将16帧视频段输入提议模型、分类模型和定位模型,提取视频中各个动作实例的起始时间,输出动作实例的类别;
采用损失函数逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法降低损失函数、优化权值;
通过卷积神经网络训练后生成具有储存网络结构和权值Caffe模型文件;
步骤(5)、调用训练完毕的Caffe模型文件进行测试。
2.根据权利要求1所述的一种基于Caffe框架的滑窗动作检测方法,其特征在于,步骤(2)具体包括以下步骤:
步骤(201)、采用最近邻插值的方法对帧进行缩放,将图片尺寸改为171×128的固定大小;
步骤(202)、使用不同长度的滑动窗口,对未剪辑的视频帧序列生成动作提案;滑动窗口的大小分别为32、64、128帧,具有75%的重叠;
步骤(203)、对于每段提案,采用均匀采样构造具有16帧的视频段。
3.根据权利要求1所述的一种基于Caffe框架的滑窗动作检测方法,其特征在于,步骤(3)Caffe深度神经网络模型,其构建流程具体包括以下处理过程:
步骤(301)、构建提议网络,包含八个卷积层、五个最大池化层和三个全连接层,判断提案中是否含有动作实例;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(302)、构建分类网络,包含八个卷积层、五个最大池化层和三个全连接层,对提案中的动作实例进行分类;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(303)、构建定位网络,包含九个卷积层、六个最大池化层和三个全连接层,对提案中的动作实例进行精确定位;在model.prototxt文件中设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(304)、在sovler.prototxt文件中设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择两块GPU同时进行训练。
CN202011347236.4A 2020-11-26 2020-11-26 一种基于Caffe框架的滑窗动作检测方法 Pending CN112434614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011347236.4A CN112434614A (zh) 2020-11-26 2020-11-26 一种基于Caffe框架的滑窗动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011347236.4A CN112434614A (zh) 2020-11-26 2020-11-26 一种基于Caffe框架的滑窗动作检测方法

Publications (1)

Publication Number Publication Date
CN112434614A true CN112434614A (zh) 2021-03-02

Family

ID=74697509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011347236.4A Pending CN112434614A (zh) 2020-11-26 2020-11-26 一种基于Caffe框架的滑窗动作检测方法

Country Status (1)

Country Link
CN (1) CN112434614A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095183A (zh) * 2021-03-31 2021-07-09 西北工业大学 一种基于深度神经网络的微表情检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980817A (zh) * 2017-02-27 2017-07-25 南京邮电大学 一种基于Caffe框架的恐怖视频识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980817A (zh) * 2017-02-27 2017-07-25 南京邮电大学 一种基于Caffe框架的恐怖视频识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHENG SHOU,ET AL.: "Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs", 《ARXIV》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095183A (zh) * 2021-03-31 2021-07-09 西北工业大学 一种基于深度神经网络的微表情检测方法

Similar Documents

Publication Publication Date Title
CN111553193B (zh) 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN110110624B (zh) 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN108875624B (zh) 基于多尺度的级联稠密连接神经网络的人脸检测方法
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN111626245A (zh) 一种基于视频关键帧的人体行为识别方法
CN112766355A (zh) 一种标签噪声下的脑电信号情绪识别方法
CN111738054A (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN112766062A (zh) 一种基于双流深度神经网络的人体行为识别方法
CN113780423A (zh) 一种基于多尺度融合的单阶段目标检测神经网络及工业品表面缺陷检测模型
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN114821299B (zh) 一种遥感图像变化检测方法
Xu et al. Graphical modeling for multi-source domain adaptation
CN114882497A (zh) 一种基于深度学习算法实现水果分类识别的方法
CN114038011A (zh) 一种室内场景下人体异常行为的检测方法
CN112434614A (zh) 一种基于Caffe框架的滑窗动作检测方法
CN111401209A (zh) 一种基于深度学习的动作识别方法
CN112434615A (zh) 一种基于Tensorflow深度学习框架的时序动作检测方法
Tripathi Facial emotion recognition using convolutional neural network
CN116433980A (zh) 脉冲神经网络结构的图像分类方法、装置、设备及介质
CN114821632A (zh) 一种遮挡行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210302