CN112434615A - 一种基于Tensorflow深度学习框架的时序动作检测方法 - Google Patents
一种基于Tensorflow深度学习框架的时序动作检测方法 Download PDFInfo
- Publication number
- CN112434615A CN112434615A CN202011347312.1A CN202011347312A CN112434615A CN 112434615 A CN112434615 A CN 112434615A CN 202011347312 A CN202011347312 A CN 202011347312A CN 112434615 A CN112434615 A CN 112434615A
- Authority
- CN
- China
- Prior art keywords
- time sequence
- training
- layers
- tensorflow
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Tensorflow深度学习框架的时序动作检测方法,包括步骤:步骤(1)、建立时序动作检测视频数据库;步骤(2)、对数据库中的视频帧图像进行预处理;步骤(3)、用Tensorflow框架搭建卷积神经网络;步骤(4)、训练Tensorflow深度神经网络模型;步骤(5)、调用训练完毕的模型进行测试;本发明以基于Tensorflow的深度学习框架为基础,在改进的神经网络模型下能够更好更快地训练出合适的模型参数,提高了检测准确率。
Description
技术领域
本发明涉及计算机视觉、人工智能领域,特别是涉及一种基于Tensorflow深度学习框架的时序动作检测方法。
背景技术
近年来计算机视觉技术、人工智能技术迅速发展,给人类生活带来了诸多便捷,尤其是以此类技术为理论基础的的动作检测技术也不断得到发展。现如今,动作检测已被广泛应用于如机器人服务、人机交互、视频检索、视频监督、动作分析和智能安防等领域。
TensorFlow是专门适用于深度学习的框架,它可拓展性强、效率高、能够可视化,可以立刻生成训练模型,便于使用。并且,框架中已经构建了多种高级接口,我们可以按照框架定义各种各样的卷积神经网络的结构,并且在此框架下增加自己的代码,设计新的算法。
现有的时序动作检测方法多为分阶段检测,早期的研究多在时间或时空特征上使用基于滑窗的检测方法,首先使用滑动窗口生成时序动作提议,再利用SVM等分类器对提议进行起止时间预测和动作分类。随着深度学习在动作检测领域的应用,基于深度学习的方法显示出了优异的性能。目前基于深度学习的动作检测方法应用较广。但目前一些动作检测网络存在着结构较为复杂,速度较慢且识别度不高、鲁棒性不强的问题。
发明内容
本发明的目的是为了克服现有技术中的不足,针对现有技术中存在的动作检测方法的网络结构复杂、识别速度较慢且识别度不高、鲁棒性不强的问题,提供一种基于Tensorflow深度学习框架的时序动作检测方法,该方法可以实现在网络结构简单的条件下更快、更准确地对动作进行定位和识别。
本发明的目的是通过以下技术方案实现的:
一种基于Tensorflow深度学习框架的时序动作检测方法,该方法包括以下步骤:
步骤(1)、建立时序动作检测视频数据库;
步骤(2)、对数据库中的视频帧图像进行预处理;
步骤(3)、用Tensorflow框架搭建卷积神经网络;
步骤(4)、训练Tensorflow深度神经网络模型;
步骤(5)、调用训练完毕的模型进行测试。
进一步的,步骤(1)包括以下步骤:
步骤(101)、下载时序动作检测视频数据集MERL Shopping,将视频提取为帧序列图像,并将属于同一个视频的帧图像按照帧数命名,按顺序排列;
步骤(102)、为数据库中的图片帧制作标签,每个图片帧对应一个动作标签。
进一步的,步骤(2)具体包括以下处理过程:
步骤(201)、采用双线性插值的方法对图片进行缩放,将图片尺寸改为224×224的固定大小。
进一步的,所述步骤(3)的用Tensorflow框架搭建卷积神经网络,其构建流程具体包括以下处理过程:
步骤(301)、构建特征提取网络,包含八个卷积层、八个ReLU激活函数层、五个最大池化层和一个全连接层;并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(302)、构建时序卷积网络,包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层;并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(303)、设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择一块GPU进行训练。
进一步的,所述步骤(4)的训练Tensorflow深度神经网络模型,其训练流程具体包括以下处理步骤:
步骤(401)、将缩放后的帧序列图像输入进特征提取网络,逐级提取空间特征。采用交叉熵损失函数,逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值;损失函数为交叉熵损失函数,具体表达式如下:
其中,p是判定结果为真实标签的概率,y为标记的真实标签;
步骤(402)、使用已训练好的特征提取网络模型,输出图片的特征向量;将提取好的特征向量送入时序卷积网络,判断每张图片所属的动作类别,所分类个数即为所训练数据集中动作类别的总数;最终的输出该图片所属的类别标签;
步骤(403)、每次训练完后观察损失函数的收敛情况,若出现发散现象则及时调整学习率及步长值(step value)的大小;比对多次训练结果,得到最佳权值,结束网络训练,训练完毕之后生成一个HDF5模型文件以储存网络结构和权值。
进一步的,步骤(5)具体包括以下处理步骤:
有益效果
本发明将未剪辑视频的帧图像送入已训练好的网络后,能够识别出感兴趣的视频片段,标记出开始帧和结束帧,并对该片段的动作类型做出判断。此网络结构简单,检测准确率高,鲁棒性强,得到了很好的检测效果,且以基于Tensorflow框架的深度学习框架为基础,在改进的神经网络模型下能够更好更快地训练出合适的模型参数,提高了在大量数据情况下的检测效率。
附图说明
图1为本发明时序动作检测方法的流程示意图;
图2为本发明时序动作检测方法所用特征提取网络的连接图;
图3为本发明时序动作检测方法所用时序卷积网络的连接图;
具体实施方式:
以下结合实施案例和附图,对本发明的技术和方法进行详细描述,以下案例和附图用于说明本发明的构成,但不是用来限定本发明的范围。
如图1所示,为一种基于Tensorflow深度学习框架的时序动作检测方法。包括以下步骤:
1.建立时序动作检测视频数据库,具体的:
步骤101、下载时序动作检测视频数据集MERL Shopping,将视频提取为帧序列图像,并将属于同一个视频的帧图像按照帧数命名,按顺序排列;
步骤102、为数据库中的图片帧制作标签,每个图片帧对应一个动作标签。
2.对数据库中的视频帧图像进行预处理,具体的:
步骤201、采用双线性插值的方法对图片进行缩放,将图片尺寸改为224×224的固定大小。
3.用Tensorflow框架搭建卷积神经网络,具体的:
步骤301、本发明方法所用的特征提取网络包含八个卷积层,八个ReLU激活函数层、五个最大池化层和一个全连接层。设置卷积核大小及卷积步长,池化层的大小、步长以及全连接层的参数以及各个层之间的相互连接方式;具体的:ReLU函数即为max(0,x)函数,其中x指的是输入;卷积核大小均为3*3,步长均为1;池化层均为2*2,步长为1;
步骤302、本发明方法所用的时序卷积网络包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层;设置卷积核大小及卷积步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;具体的:ReLU函数即为max(0,x)函数,其中x指的是输入;卷积核大小均为25*25,步长均为1;上采样层和下采样层步长均为2;
步骤303、设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择一块GPU进行训练。
4.训练Tensorflow深度神经网络模型,具体的:
步骤401、将缩放后的帧序列图像输入进特征提取网络,逐级提取空间特征。采用交叉熵损失函数,逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值;损失函数为交叉熵损失函数,具体表达式如下:
其中,p是判定结果为真实标签的概率,y为标记的真实标签;
步骤402、使用已训练好的特征提取网络模型,输出图片的特征向量;将提取好的特征向量送入时序卷积网络,判断每张图片所属的动作类别,所分类个数即为所训练数据集中动作类别的总数;最终的输出该图片所属的类别标签;
步骤403、每次训练完后观察损失函数的收敛情况,若出现发散现象则及时调整学习率及步长值(step value)的大小;比对多次训练结果,得到最佳权值,结束网络训练,训练完毕之后生成一个HDF5模型文件以储存网络结构和权值。
5.调用训练完毕的模型进行测试,具体的:
步骤501、设定待测的视频中包含若干动作;首先将视频提取为帧序列图片,缩放为224×224的大小,并为每一帧的图片设定动作标签;
步骤502、将待测帧序列图片输入进训练好的特征提取网络中,提取出图片特征;再输入进时序卷积网络中;若经过训练后的神经网络具备检测能力,即可对每一帧图片所属动作类别做出判断。
如图2和图3所示,为本发明时序动作检测方法所用特征提取网络和时序卷积网络的连接图:卷积神经网络包含八个卷积层、八个ReLU激活函数层、五个最大池化层以及一个全连接层;时序卷积网络包括四个卷积层、四个ReLU激活函数层、两个最大池化层、两个上采样层、一个全连接层和一个Softmax层。通过本方法在数据库的测试集下的平均准确率达到了79.8%。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (3)
1.一种基于Tensorflow深度学习框架的时序动作检测方法,其特征在于,该方法包括以下步骤:
步骤(1)、通过时序动作检测视频数据集将视频提取为帧序列图像并将属于同一个视频的帧图像按照帧数命名建立时序动作检测视频数据库;并对视频数据库中的每个图像帧制作标签对应一个动作标签;
步骤(2)、采用双线性插值的方法对对数据库中的视频帧图像进行缩放;
步骤(3)、用Tensorflow框架构建具有特征提取模块、时序卷积模块的深度神经网络模型;
步骤(4)、训练Tensorflow深度神经网络模型建立具有储存网络结构和权值的HDF5模型;
步骤(5)、通过HDF5模型对每一帧图片所属动作类别做出判断。
2.根据权利要求1所述的一种基于Tensorflow深度学习框架的时序动作检测方法,其特征在于,步骤(3)的用Tensorflow框架构建深度神经网络模型过程:
步骤(301)、构建特征提取模块,包含八个卷积层、八个ReLU激活函数层、五个最大池化层和一个全连接层;并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(302)、构建时序卷积模块,包含四个卷积层、四个ReLU激活函数层、两个上采样层、两个最大池化层、一个全连接层和一个Softmax层;并设置合适的卷积核大小及步长、池化层大小及步长、全连接层的参数以及各层之间的相互连接方式;
步骤(303)、设置整个迭代过程所需的迭代次数、批尺寸(batch size)、学习率、及每次学习率下降的步长值(step value);选择一块GPU进行训练。
3.根据权利要求1所述的一种基于Tensorflow深度学习框架的时序动作检测方法,其特征在于,所述步骤(4)的训练Tensorflow深度神经网络模型,其训练流程具体包括以下处理步骤:
步骤(401)、将缩放后的帧序列图像输入进特征提取网络,逐级提取空间特征;采用交叉熵损失函数,逐层训练卷积神经网络的权值,并采用动量的随机梯度下降法(SGD)不断降低损失函数、优化权值;损失函数为交叉熵损失函数,具体表达式如下:
其中,p是判定结果为真实标签的概率,y为标记的真实标签;
步骤(402)、使用已训练好的特征提取网络模型,输出图片的特征向量;将提取好的特征向量送入时序卷积网络,判断每张图片所属的动作类别,所分类个数即为所训练数据集中动作类别的总数;最终的输出该图片所属的类别标签;
步骤(403)、每次训练完后观察损失函数的收敛情况,若出现发散现象则及时调整学习率及步长值(step value)的大小;比对多次训练结果,得到最佳权值,结束网络训练,训练完毕之后生成一个具有储存网络结构和权值的HDF5模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011347312.1A CN112434615A (zh) | 2020-11-26 | 2020-11-26 | 一种基于Tensorflow深度学习框架的时序动作检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011347312.1A CN112434615A (zh) | 2020-11-26 | 2020-11-26 | 一种基于Tensorflow深度学习框架的时序动作检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112434615A true CN112434615A (zh) | 2021-03-02 |
Family
ID=74697508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011347312.1A Pending CN112434615A (zh) | 2020-11-26 | 2020-11-26 | 一种基于Tensorflow深度学习框架的时序动作检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434615A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794689A (zh) * | 2021-08-20 | 2021-12-14 | 浙江网安信创电子技术有限公司 | 一种基于tcn的恶意域名检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753864A (zh) * | 2018-09-24 | 2019-05-14 | 天津大学 | 一种基于caffe深度学习框架的人脸识别方法 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
CN110580450A (zh) * | 2019-08-12 | 2019-12-17 | 西安理工大学 | 一种基于卷积神经网络的交通标志识别方法 |
CN111291699A (zh) * | 2020-02-19 | 2020-06-16 | 山东大学 | 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法 |
CN111898514A (zh) * | 2020-07-24 | 2020-11-06 | 燕山大学 | 一种基于目标检测与动作识别的多目标视觉监管方法 |
CN111950393A (zh) * | 2020-07-24 | 2020-11-17 | 杭州电子科技大学 | 一种基于边界搜索智能体的时序动作片段分割方法 |
-
2020
- 2020-11-26 CN CN202011347312.1A patent/CN112434615A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753864A (zh) * | 2018-09-24 | 2019-05-14 | 天津大学 | 一种基于caffe深度学习框架的人脸识别方法 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
CN110580450A (zh) * | 2019-08-12 | 2019-12-17 | 西安理工大学 | 一种基于卷积神经网络的交通标志识别方法 |
CN111291699A (zh) * | 2020-02-19 | 2020-06-16 | 山东大学 | 基于监控视频时序动作定位和异常检测的变电站人员行为识别方法 |
CN111898514A (zh) * | 2020-07-24 | 2020-11-06 | 燕山大学 | 一种基于目标检测与动作识别的多目标视觉监管方法 |
CN111950393A (zh) * | 2020-07-24 | 2020-11-17 | 杭州电子科技大学 | 一种基于边界搜索智能体的时序动作片段分割方法 |
Non-Patent Citations (2)
Title |
---|
COLIN LEA等: ""Temporal Convolutional Networks for Action Segmentation and Detection"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
王教金等: ""基于3D全时序卷积神经网络的视频显著性检测"", 《计算机科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113794689A (zh) * | 2021-08-20 | 2021-12-14 | 浙江网安信创电子技术有限公司 | 一种基于tcn的恶意域名检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Unsupervised learning of view-invariant action representations | |
CN107341452B (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN112750129B (zh) | 一种基于特征增强位置注意力机制的图像语义分割模型 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
Guo et al. | JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing | |
CN112884033B (zh) | 一种基于卷积神经网络的生活垃圾分类检测方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN111738054A (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN111160356A (zh) | 一种图像分割分类方法和装置 | |
CN112766062A (zh) | 一种基于双流深度神经网络的人体行为识别方法 | |
CN112633377A (zh) | 一种基于生成对抗网络的人体行为预测方法及系统 | |
US20240161531A1 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
CN111027440A (zh) | 一种基于神经网络的人群异常行为检测装置和检测方法 | |
CN112434615A (zh) | 一种基于Tensorflow深度学习框架的时序动作检测方法 | |
CN113469238A (zh) | 一种基于crnn解决拼图任务的自监督学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210302 |
|
WD01 | Invention patent application deemed withdrawn after publication |