CN111832336A - 一种基于改进的c3d视频行为检测方法 - Google Patents

一种基于改进的c3d视频行为检测方法 Download PDF

Info

Publication number
CN111832336A
CN111832336A CN201910302041.9A CN201910302041A CN111832336A CN 111832336 A CN111832336 A CN 111832336A CN 201910302041 A CN201910302041 A CN 201910302041A CN 111832336 A CN111832336 A CN 111832336A
Authority
CN
China
Prior art keywords
network
module
fire
improved
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910302041.9A
Other languages
English (en)
Other versions
CN111832336B (zh
Inventor
卿粼波
李龙
何小海
李诗菁
吴晓红
滕奇志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910302041.9A priority Critical patent/CN111832336B/zh
Publication of CN111832336A publication Critical patent/CN111832336A/zh
Application granted granted Critical
Publication of CN111832336B publication Critical patent/CN111832336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Fire-Detection Mechanisms (AREA)

Abstract

本发明提供了一种基于改进的C3D视频行为检测方法,主要涉及卷积神经网络。在NVIDIA JetsonTX2上,采用改进的SqueezeNet与C3D相结合卷积神经网络,并引入BN层与short‑cut结构,最后将训练模型部署到NVIDIA JetsonTX2上,对视频行为进行分析、检测。实验结果表明,改进后的SqueezeNet‑C3D卷积神经网络相比于C3D神经网络在精度上提高了4.4%;改进后的SqueezeNet‑C3D网络与SqueezeNet‑C3D网络相比,参数量降低了15%,降低网络对计算机硬件的要求。可见本发明提出的网络具有精度高、参数量少的优点。

Description

一种基于改进的C3D视频行为检测方法
技术领域
本发明涉及深度学习领域中的行为检测问题,尤其是涉及一种基于改进的C3D视频行为检测方法。
背景技术
行为检测作为计算机视觉领域和图像处理中的一个重要的研究方向。在传统行为检测领域,DT算法是最经典的算法之一,它主要包括密集采样特征点,特征点轨迹跟踪以及基于轨迹的特征提取三个部分;2013年由IEAR实验室发表的iDT算法,对DT算法做了改进,主要改进在于对光流图像的优化,特征正则化方式的改进以及特征编码方式的改进,大大提升了算法的效果。自深度学习应用到行为检测领域后,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。
深度学习理论提出以来,研究人员发现应用深度学习去进行行为检测,可以有效提高检测效果和性能,因此深度学习在实时视频的行为检测开始广泛应用,到现在为止,其检测效率和精度已经有了很大提高。在深度学习理论中,Two-Stream是一个主流方法,它是由时间、空间两个网络组成,该方法提出对视频序列中每两帧计算密集光流,然后得到密集光流的序列。然后再对光流序列和图像序列分别训练卷积神经网络模型,然后再训练一个fusion网络进行融合图像序列和光流序列的网络;C3D(3-Dimensional Convolution)是另一个主流方法,在目前来看,使用C3D方法得到的效果要比Two-Stream方法略差些,但C3D网络结构简单,而且C3D运行时间短,处理速度快,所以仍然是当前研究热门。总之,使用基于深度学习的方法得到的效果已经明显超过了使用传统算法。
发明内容
本发明的目的是为提高检测精度的同时减少网络参数量,本发明基于深度学习,提出了一种基于改进的C3D视频行为检测方法,相比C3D神经网络,本发明的方法提高了检测的准确度,大大减小网络的参数量。
为了方便说明,首先引入如下概念:
卷积神经网络(Convolutional Neural Network,CNN):受视觉神经机制的启发而设计,是一种多层前馈神经网络,每层由多个二维平面或三维平面组成,平面上的每个神经元独立工作,卷积神经网络主要包括特征提取层和特征映射层。
C3D(3-Dimensional Convolution)卷积神经网络:该网络采用三维卷积对视频连续帧进行操作,相比于二维卷积更能简单有效地处理时间信息。如图1所示,C3D一共进行了8次卷积、5次池化和2次全连接操作,具有较高的准确度,是一种简单、高效、通用、快速的行为识别卷积神经网络。
SqueezeNet:主要是为了降低卷积神经网络模型参数数量而设计的,如图2所示,将原本为一层的卷积分解为两层:squeeze层和expand层,每层都有一个激活层,squeeze层里都是1*1的卷积,数量为s1;expand层里有1*1和3*3两种卷积核,数量分别为e1、e3,在数量上4*s1=e1=e3。expand层之后将1*1和3*3卷积后得到的feature map进行拼接,然后把这两层封装为一个Fire_Module。Fire_Module输入的feature map为H*W*C,输出的featuremap为H*W*(e1+e3),可以看到feature map的分辨率是不变的,变化的是通道的数量。
本发明具体采用如下技术方案:
本发明的基本思想是以C3D网络为基础,结合ResNet的short-cut结构以及改进的SqueezeNet来进行网络结构调整,并将网络部署到NVIDIA JetsonTX2上进行行为检测,如图3所示。
本发明对SqueezeNet提出如下两种修订,以应用到C3D网络中:
(1)因为所用网络使用的是三维卷积,所以将Fire_Module中的1*1和3*3卷积改为使用三维卷积1*1*1和3*3*3。为提高准确度,借鉴Inception V1结构,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,如图4,输出大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的Fire_Module包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度。而网络越到后面,特征也越抽象,每个特征所涉及的感受野也更大,因此随着网络深度的增加,3*3*3和5*5*5的卷积比例也会增加。
(2)如果将网络中的卷积全部应用为上述改进后的Fire_Module V1,因为5*5*5卷积所需的计算量太大,会造成特征图厚度增大,网络参数量也会随着增加。为减少网络参数量,借鉴Inception V3结构,提出另一种方法,将Fire_Module中的3*3*3卷积替换为3*1*3卷积,在不影响网络性能的情况下,大大减小参数量,如图5所示。
本文在C3D网络基础上,对网络结构进行调整,首先,紧跟着卷积层引入BN(BatchNormalization)层,在神经网络层的中间,它起到预处理的功能,也就是对上一层的输入进行归一化后,再送到网络的下一层,这样做可以有效防止梯度弥散,也可以在网络训练过程中加快网络收敛速度,加速网络训练。其次,将网络中的卷积层替换为Fire_Module V1、Fire_Module V2,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,Fire_Module V1、Fire_Module V2按图6所示进行卷积层替换,参数量会大大减小。最后,替换后的网络深度变深,为防止训练时出现梯度退化问题以及提高精度,在Fire_Module V2通道数量相同的模块之间,添加short-cut结构,如图7。
本文采用改进的SqueezeNet与C3D相结合的卷积神经网络,引入BN层,随着网络深度的增加采用了ResNet的short-cut结构,对走路、跑步、打架、摔倒、坐、等动作进行检测识别,取得较好的检测结果,得到以下结论:
(1)本文提出的网络提升了检测的准确度,具有较好的识别率。
(2)本文提出的网络参数量减少很多,降低对硬件的要求,使得C3D网络性能在嵌入式平台如NVIDIA JetsonTX2上进一步提高。
附图说明
图1为C3D网络结构;
图2为Fire_Module结构;
图3为为本发明总体结构图;
图4为基于InceptionV1的Fire_Module V1;
图5为基于InceptionV3的Fire_Module V2;
图6为整体网络结构图;
图7为Short-cut结构。
具体实施方式
下面对本发明作进一步的详细说明,有必要指出的是,以下的实施例只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本发明的保护范围。
基于改进的C3D视频行为检测方法,主要包括以下步骤:
(1)本专利使用的数据集为UCF101数据集,该数据集共有13320个视频,每个视频大小为320*240,包含动作101类,并为每个动作贴上相应的名称。
(2)将数据集中的视频转换为图片格式;按照3:1的比例将数据集分为训练集、测试集。
(3)训练:训练平台配置:Intel(R)Core(TM)i7-6700 3.4GHz处理器;显卡为显存12GB的NVIDIA Titan X;Ubuntu 16.04 64位操作系统;训练采用的深度学习框架为Keras。将改进的网络在服务器上采用GPU模式进行网络训练。
(4)对训练得到的模型进行评估。

Claims (1)

1.一种基于改进的C3D视频行为检测方法,其特征在于主要包括以下过程步骤:
(1)本发明以C3D网络为基本网络进行网络改进,首先,引入BN(Batch Normalization)层,防止梯度弥散,加快网络收敛速度;
(2)SqueezeNet网络主要是由多个输出通道数相同或不同的Fire_Module模块组成,能够有效简化网络复杂度,本发明对SqueezeNet网络进行如下改进以应用到C3D网络中,因为C3D为三维卷积网络,所以将SqueezeNet的Fire_Module中的1*1和3*3卷积改为三维卷积1*1*1和3*3*3,本发明借鉴InceptionV1的设计思路对SqueezeNet进行改进,在Fire_Module的expand层中增加一个数量为e5的5*5*5卷积支路,输出通道大小为H*W*(e1+e3+e5),这样不仅增加了网络的宽度,而且改进后的SqueezeNet包含了3种不同尺寸的卷积,同时也增加了网络对不同尺度的适应性,从而提高准确度,然后将它封装,称为Fire_Module V1,但这种改进会增加网络的参数量;
(3)为降低网络的参数量,本发明借鉴Inception V3的设计思路将Fire_Module的expand层中的3*3*3卷积改为3*1*3卷积,数量为e3,进行封装,称为Fire_Module V2,这种改进相比于Fire_Module和Fire_Module V1参数量降低很多;
(4)然后将网络中的卷积层使用改进后的Fire_Module替换,如果全部使用Fire_Module V1,会造成网络参数量增大,经多次实验得出,当网络第二、三个卷积层使用Fire_Module V1替代,其余部分(除第一个和最后一个卷积层)使用Fire_Module V2替代时,准确度会得到明显提高,参数量会大大减小;
(5)最后在输出通道数量相同的Fire_Module V2模块之间,添加ResNet的short-cut结构,将训练得到的网络模型进行行为检测。
CN201910302041.9A 2019-04-16 2019-04-16 一种基于改进的c3d视频行为检测方法 Active CN111832336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910302041.9A CN111832336B (zh) 2019-04-16 2019-04-16 一种基于改进的c3d视频行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910302041.9A CN111832336B (zh) 2019-04-16 2019-04-16 一种基于改进的c3d视频行为检测方法

Publications (2)

Publication Number Publication Date
CN111832336A true CN111832336A (zh) 2020-10-27
CN111832336B CN111832336B (zh) 2022-09-02

Family

ID=72914599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910302041.9A Active CN111832336B (zh) 2019-04-16 2019-04-16 一种基于改进的c3d视频行为检测方法

Country Status (1)

Country Link
CN (1) CN111832336B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361417A (zh) * 2021-06-09 2021-09-07 陕西理工大学 一种基于可变时序的人体行为识别方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014262199A1 (en) * 2003-10-20 2014-11-27 Bgc Partners, Inc. System for providing futures contracts in a financial market environment
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN106815596A (zh) * 2016-12-08 2017-06-09 中国银联股份有限公司 一种图像分类器建立方法及装置
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
CN108596030A (zh) * 2018-03-20 2018-09-28 杭州电子科技大学 基于Faster R-CNN的声呐目标检测方法
CN108921007A (zh) * 2018-05-08 2018-11-30 河海大学常州校区 一种基于SqueezeNet的手写体数字识别方法
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN108985314A (zh) * 2018-05-24 2018-12-11 北京飞搜科技有限公司 目标检测方法及设备
CN109035779A (zh) * 2018-08-30 2018-12-18 南京邮电大学 基于DenseNet的高速公路交通流预测方法
CN109214399A (zh) * 2018-10-12 2019-01-15 清华大学深圳研究生院 一种嵌入SENet结构的改进YOLOV3目标识别算法
WO2019010950A1 (zh) * 2017-07-13 2019-01-17 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
CN109241946A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 异常行为监控方法、装置、计算机设备及存储介质
CN109272107A (zh) * 2018-08-10 2019-01-25 广东工业大学 一种改进深层卷积神经网络的参数个数的方法
CN109299733A (zh) * 2018-09-12 2019-02-01 江南大学 利用紧凑型深度卷积神经网络进行图像识别的方法
CN109376572A (zh) * 2018-08-09 2019-02-22 同济大学 基于深度学习的交通视频中实时车辆检测与轨迹跟踪方法
CN109544510A (zh) * 2018-10-24 2019-03-29 广州大学 一种基于卷积神经网络的三维肺结节识别方法
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014262199A1 (en) * 2003-10-20 2014-11-27 Bgc Partners, Inc. System for providing futures contracts in a financial market environment
CN106407903A (zh) * 2016-08-31 2017-02-15 四川瞳知科技有限公司 基于多尺度卷积神经网络的实时人体异常行为识别方法
CN106815596A (zh) * 2016-12-08 2017-06-09 中国银联股份有限公司 一种图像分类器建立方法及装置
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
WO2019010950A1 (zh) * 2017-07-13 2019-01-17 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108596030A (zh) * 2018-03-20 2018-09-28 杭州电子科技大学 基于Faster R-CNN的声呐目标检测方法
CN108510012A (zh) * 2018-05-04 2018-09-07 四川大学 一种基于多尺度特征图的目标快速检测方法
CN108921007A (zh) * 2018-05-08 2018-11-30 河海大学常州校区 一种基于SqueezeNet的手写体数字识别方法
CN108985314A (zh) * 2018-05-24 2018-12-11 北京飞搜科技有限公司 目标检测方法及设备
CN108960059A (zh) * 2018-06-01 2018-12-07 众安信息技术服务有限公司 一种视频动作识别方法及装置
CN109376572A (zh) * 2018-08-09 2019-02-22 同济大学 基于深度学习的交通视频中实时车辆检测与轨迹跟踪方法
CN109272107A (zh) * 2018-08-10 2019-01-25 广东工业大学 一种改进深层卷积神经网络的参数个数的方法
CN109035779A (zh) * 2018-08-30 2018-12-18 南京邮电大学 基于DenseNet的高速公路交通流预测方法
CN109299733A (zh) * 2018-09-12 2019-02-01 江南大学 利用紧凑型深度卷积神经网络进行图像识别的方法
CN109241946A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 异常行为监控方法、装置、计算机设备及存储介质
CN109214399A (zh) * 2018-10-12 2019-01-15 清华大学深圳研究生院 一种嵌入SENet结构的改进YOLOV3目标识别算法
CN109544510A (zh) * 2018-10-24 2019-03-29 广州大学 一种基于卷积神经网络的三维肺结节识别方法
CN109559297A (zh) * 2018-11-15 2019-04-02 大连大学 一种基于三维区域生成网络的肺结节检测的方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
HONGDOU YAO等: ""Automatic Segmentation of Brain Tumor Using 3D SE-Inception Networks with Residual Connections"", 《INTERNATIONAL MICCAI BRAINLESION WORKSHOP》 *
IANDOLA F N等: ""SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size"", 《ARXIV》 *
JAVIER RUIZ-DEL-SOLAR等: ""using Convolutional Neural Networks in Robots with Limited Computational Resources:Detecting NAO Robots While Playing Soccer"", 《ROBOT WORLD CUP》 *
XU H等: ""R-C3D:Region convolutional 3D network for temporal activity detection"", 《PROCEEDINGS OF INTERNATIONAL CONFERENCE ON COMPUTER VISION》 *
吴进等: ""紧凑型深度卷积神经网络在图像识别中的应用"", 《计算机科学与探索》 *
周智等: ""基于3D-CNN的暴力行为检测"", 《计算机系统应用》 *
廖小东等: ""基于改进型C3D神经网络的动作识别技术"", 《计算机与现代化》 *
黄跃珍等: ""基于改进型MobileNet网络的车型识别方法"", 《电子技术与软件工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361417A (zh) * 2021-06-09 2021-09-07 陕西理工大学 一种基于可变时序的人体行为识别方法
CN113361417B (zh) * 2021-06-09 2023-10-31 陕西理工大学 一种基于可变时序的人体行为识别方法

Also Published As

Publication number Publication date
CN111832336B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Luo et al. Autopruner: An end-to-end trainable filter pruning method for efficient deep model inference
CN111091045B (zh) 一种基于时空注意力机制的手语识别方法
CN111144329B (zh) 一种基于多标签的轻量快速人群计数方法
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
WO2021057056A1 (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
EP4099220A1 (en) Processing apparatus, method and storage medium
CN111242844B (zh) 图像处理方法、装置、服务器和存储介质
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
CN110717527A (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN109614874B (zh) 一种基于注意力感知和树形骨架点结构的人体行为识别方法和系统
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110533022B (zh) 一种目标检测方法、系统、装置及存储介质
CN112529146B (zh) 神经网络模型训练的方法和装置
CN112906718A (zh) 一种基于卷积神经网络的多目标检测方法
CN108664993B (zh) 一种密集权重连接的卷积神经网络图像分类方法
CN112036475A (zh) 融合模块和多尺度特征融合卷积神经网络及图像识别方法
CN107292458A (zh) 一种应用于神经网络芯片的预测方法和预测装置
CN110503149B (zh) 一种图像中局部特征分类方法及系统
CN110889416A (zh) 一种基于级联改良网络的显著性物体检测方法
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN111832336B (zh) 一种基于改进的c3d视频行为检测方法
EP4024343A1 (en) Viewpoint image processing method and related device
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant