CN110084202B - 一种基于高效三维卷积的视频行为识别方法 - Google Patents

一种基于高效三维卷积的视频行为识别方法 Download PDF

Info

Publication number
CN110084202B
CN110084202B CN201910356716.8A CN201910356716A CN110084202B CN 110084202 B CN110084202 B CN 110084202B CN 201910356716 A CN201910356716 A CN 201910356716A CN 110084202 B CN110084202 B CN 110084202B
Authority
CN
China
Prior art keywords
dimensional convolution
dimensional
video
network
convolution network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910356716.8A
Other languages
English (en)
Other versions
CN110084202A (zh
Inventor
李春国
徐煜耀
常颖
赵清玄
徐琴珍
杨绿溪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910356716.8A priority Critical patent/CN110084202B/zh
Publication of CN110084202A publication Critical patent/CN110084202A/zh
Application granted granted Critical
Publication of CN110084202B publication Critical patent/CN110084202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于高效三维卷积的视频行为识别方法,在三维卷积神经网络的基础上,进一步降低了它的运行时间、计算量以及参数量。本发明先对输入视频进行稀疏采样,再利用二维卷积网络处理经过稀疏采样之后的视频帧,得到各个随机采样帧的特征表示,然后利用一个三维卷积网络对这些不同帧的特征进行融合,生成最终的动作分类标签。本发明提出了一种新的三维卷积方式,使网络能在保持甚至超过现有性能的情况下,降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。

Description

一种基于高效三维卷积的视频行为识别方法
技术领域
本发明属于计算机视觉与人工智能、多媒体信号处理领域,特别是涉及一种基于高效三维卷积的视频行为识别方法。
背景技术
近年来,视频理解领域飞速发展,特别是行动识别,这主要得益于深入学习和大数据集的创建。新的数据集,如Kinetics、ActivityNet和Something-Something为这一领域贡献了更多的多样性和现实性。行为识别可以分为动作检测与活动理解。动作检测所针对的动作是短时的动作,在短时间内可以决定当前动作的类别,能足够快地实时运行,而活动理解涉及的是可以跨越几秒钟的长期活动,它需要将长期的前后帧视频信息集合起来才能达到预测的精确性。本发明就是综合了上述两个目的。利用稀疏采样、二维特征提取、三维卷积特征融合的方式,可以很好完成活动理解的任务。但当一个动作是短时的,经过上述的稀疏采样之后,得到的可能仅仅是一个静态图片的语义信息。因此,这里通过在3D网络上并联一个2D网络,来改善这个问题。对于短时的行为,这个2D网络结构可以保证这个静态图片语义信息被充分利用。
为了降低计算资源以及时间上的浪费,同时充分利用长时视频中的行为信息,Mohammadreza等人提出了ECO网络。该网络与前面方法的不同主要有以下三点:
1)类似于TSN,该网络从整个视频中采样固定数量的帧,以覆盖用于理解视频的长时时间结构。这样的话,采样的视频帧将包含整个视频且不受限于视频长度。
2)与TSN不同的一点是,该方法使用3D网络来融合帧之间的关系,并在整个视频中跟踪它们。ECO可以实现端到端的训练来完成对这个关系的学习。
3)该网络直接提供视频层面(video-level)的分数,没有上述的事后归因的特征融合。因此,他们的计算资源与时间将大大节省,可以被移植到移动端设备上,实现在线视频理解。
虽然ECO网络有上述的优点,但是由于它采用了传统的C3D网络来融合特征,而C3D网络计算量大、模型大的缺点将会制约该网络实现移动端迁移。因此本发明在C3D网络的基础上提出了一种新的特征融合3D网络,称为移动三维卷积网络(Mobile 3D ConvolutionalNetwork,简称M3D网络),并在ECO网络结构中用M3D网络作为三维卷积网络来融合特征,提出了一种基于高效三维卷积的视频行为识别网络——Mobile-ECO网络。
发明内容
针对视频行为识别任务中,算法在满足较高识别准确率的同时,还需要能够降低运行时间,减少计算量与参数量,这样利于算法的可移植性。本发明提出了一种基于高效三维卷积的视频行为识别方法,其特征在于:所述的方法包括如下步骤:
(1)将输入的视频进行稀疏采样;
(2)将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图;
(3)将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量;
(4)将二维卷积网络提取的特征分别通过另一个与上述三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量;
(5)将上述两者的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类。
作为本发明进一步改进,所述步骤(1)中对输入的视频进行稀疏采样,具体步骤为:
步骤1.1:对于一个输入视频,假设它的总帧长为L,将此视频分成N段等长的子视频段Si,i=1,...,N,然后在每一个子视频段Si中,随机采样一帧,进行后续的处理。
作为本发明进一步改进,所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图,具体步骤为:
步骤2.1:将步骤2.1稀疏采样后的视频帧,送入批次归一化Inception网络进行特征提取,得到不同视频帧的特征图,这里取inception-3c层特征,以备后续三维模块特征融合使用。
作为本发明进一步改进,所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量,具体步骤为:
步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征,将不同帧的特征组合成一个输入块,利用新的三维卷积网络Mobile-3D进行特征融合,这里将Pool层的输出作为此步骤的特征向量。
作为本发明进一步改进,所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量,具体步骤为:
步骤4.1:将稀疏采样视频帧经过二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数。
作为本发明进一步改进,所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类,具体步骤为:
步骤5.1:将步骤3.1得到的512维特征向量与步骤4.1得到的1024维向量连接,得到1536维的特征向量;
步骤5.2:将上述的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101,然后利用SoftMax层进行预测;
作为本发明进一步改进,所述UCF101数据集来源为YouTube视频,共计101类动作,13320段视频。共有5个大类的动作包括:人-物交互、肢体运动、人-人交互、弹奏乐器、运动。
作为本发明进一步改进,建立模型的实验平台如下:Ubuntu 14系统,采用GeForceGTX 980显卡,采用Caffe框架来进行网络的训练与测试,使用基于Nesterov动量优化的小批次法来训练,并在每个全连接层中使用Dropout法进行正则化,防止过拟合,将每个视频分割成16片段,并从每个片段中随机选择一个帧,将输入帧的大小调整到240×320,并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强,然后,将输入调整为3×16×224×224,训练时初始学习率设置为0.001,当验证误差饱和4次时,学习率降低10倍,训练网络的动量设置为0.9,权重衰减设置为0.0005,小批次的大小设置为16。
本申请一种基于高效三维卷积的视频行为识别方法,本发明先对输入视频进行稀疏采样,再利用二维卷积网络处理经过稀疏采样之后的视频帧,得到各个随机采样帧的特征表示,然后利用一个三维卷积网络对这些不同帧的特征进行融合,生成最终的动作分类标签。本发明在中佛罗里达大学提出的数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。
附图说明
图1为本申请高效三维卷积的视频行为识别整体流程。
图2为本申请Mobile-3D网络卷积结构。
图3为本申请利用摄像头采集的测试视频结果举例。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提出了一种新的三维卷积方式,使网络能在保持甚至超过现有性能的情况下,降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试,利用该三维卷积网络结合上述的行为识别流程,使得在UCF101数据集上的准确率达到了92.9%。另一方面,本发明大大降低了三维网络的计算量、参数量以及运行时间,有利于算法实时性的实现。
一种基于高效三维卷积的视频行为识别方法,整体流程说明书附图1所示,包括如下步骤:
步骤1:将输入的视频进行稀疏采样。
对于一个输入视频,假设它的总帧长为L。将此视频分成N段等长的子视频段Si,i=1,...,N。然后在每一个子视频段Si中,随机采样一帧,进行后续的处理。
步骤2:将步骤1稀疏采样后的视频帧,送入BatchNorm-Inception网络进行特征提取,得到不同视频帧的特征图。这里取inception-3c层特征,以备后续三维模块特征融合使用。
步骤3:将步骤2提取到的特征组合成一个输入块,利用本发明提出的新的三维卷积网络(Mobile-3D)进行特征融合,这里将Pool层的输出作为最后的特征向量。Mobile-3D网络结构见说明书附表1所示。
表1Mobile-3D网络结构
Figure GDA0004085569710000041
表中的P3Dform的操作层表示的是3×1×1卷积核与1×3×3卷积核级联的结构;M3D_form表示的是利用说明书附图2中的Mobile-3D网络卷积结构,其中如果重复次数大于1时,所列大于一的空间维步长与时间维步长只是针对第一层重复层的,后面的重复层的步长均为1;T_Pool层表示的是对时间维度进行池化,其尺寸为2×1×1;Pool层就是二维空间的池化层,其尺寸为1×4×4;3Dconv表示的是就是一般的三维卷积,其中1×1×1表示的是卷积核的尺寸;FC层表示的是全连接层,它的输出通道k表示的是分类的类别数。
步骤4:将步骤2得到的视频帧特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为BatchNorm-Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数。
步骤5:将步骤3得到的512维特征向量与步骤4得到的1024维向量连接,得到1536维的特征向量。
步骤6:将步骤5得到的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101。然后利用SoftMax层进行预测。在数据集UCF101上的测试结果如表2所示。利用作者采集的视频进行测试的情况如说明书附图3所示。
表2视频行为识别测试结果
Figure GDA0004085569710000051
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (1)

1.一种基于高效三维卷积的视频行为识别方法,其特征在于:所述的方法包括如下步骤:
(1)将输入的视频进行稀疏采样;
所述步骤(1)中对输入的视频进行稀疏采样,具体步骤为:
步骤1.1:对于一个输入视频,假设它的总帧长为L,将此视频分成N段等长的子视频段Si,i=1,...,N,然后在每一个子视频段Si中,随机采样一帧,进行后续的处理;
(2)将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图;
所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征,得到相应的特征图,具体步骤为:
步骤2.1:将步骤2.1稀疏采样后的视频帧,送入批次归一化Inception网络进行特征提取,得到不同视频帧的特征图,这里取inception-3c层特征,以备后续三维模块特征融合使用;
(3)将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量;
所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合,并得到相应的特征向量,具体步骤为:
步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征,将不同帧的特征组合成一个输入块,利用新的三维卷积网络Mobile-3D进行特征融合,这里将Pool层的输出作为此步骤的特征向量;
(4)将二维卷积网络提取的特征分别通过另一个与上述三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量;
所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络,并通过平均池化,得到特征向量,具体步骤为:
步骤4.1:将稀疏采样视频帧中的二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取,此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分,然后将输出的N×1024维特征图通过平均池化为1024维的特征向量,其中N为稀疏采样后的视频帧数;
(5)将上述两者的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类;
所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接,得到最终的特征向量,利用这个特征向量进行分类,具体步骤为:
步骤5.1:将步骤3.1得到的512维特征向量与步骤4.1得到的1024维向量连接,得到1536维的特征向量;
步骤5.2:将上述的1536维特征向量利用全连接层转化为101维的输出,这里采用101维输出的原因是数据集UCF101的类别数为101,然后利用SoftMax层进行预测;
所述UCF101数据集来源为YouTube视频,共计101类动作,13320段视频,共有5个大类的动作包括:人-物交互、肢体运动、人-人交互、弹奏乐器、运动;
Ubuntu 14系统,采用GeForce GTX 980显卡,采用Caffe框架来进行网络的训练与测试,使用基于Nesterov动量优化的小批次法来训练,并在每个全连接层中使用Dropout法进行正则化,防止过拟合,将每个视频分割成16片段,并从每个片段中随机选择一个帧,将输入帧的大小调整到240×320,并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强,然后,将输入调整为3×16×224×224,训练时初始学习率设置为0.001,当验证误差饱和4次时,学习率降低10倍,训练网络的动量设置为0.9,权重衰减设置为0.0005,小批次的大小设置为16。
CN201910356716.8A 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法 Active CN110084202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910356716.8A CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910356716.8A CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN110084202A CN110084202A (zh) 2019-08-02
CN110084202B true CN110084202B (zh) 2023-04-18

Family

ID=67417792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910356716.8A Active CN110084202B (zh) 2019-04-29 2019-04-29 一种基于高效三维卷积的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN110084202B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688918B (zh) * 2019-09-12 2023-02-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN110705389A (zh) * 2019-09-16 2020-01-17 全球能源互联网研究院有限公司 一种电网作业行为的识别方法及系统
CN110765860B (zh) * 2019-09-16 2023-06-23 平安科技(深圳)有限公司 摔倒判定方法、装置、计算机设备及存储介质
CN110991278A (zh) * 2019-11-20 2020-04-10 北京影谱科技股份有限公司 计算机视觉系统的视频中人体动作识别方法和装置
CN111259874B (zh) * 2020-05-06 2020-07-28 成都派沃智通科技有限公司 一种基于深度学习的校园安全视频监测方法
CN112560678A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 表情识别方法、装置、设备及计算机存储介质
CN112580557A (zh) * 2020-12-25 2021-03-30 深圳市优必选科技股份有限公司 行为识别方法、装置、终端设备和可读存储介质
CN112381071A (zh) * 2021-01-11 2021-02-19 深圳市一心视觉科技有限公司 一种视频流中目标的行为分析方法、终端设备及介质
CN112364850B (zh) * 2021-01-13 2021-04-06 北京远鉴信息技术有限公司 一种视频质检方法、装置、电子设备及存储介质
CN117714875B (zh) * 2024-02-06 2024-04-30 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104B (zh) * 2015-06-30 2018-05-11 山东管理学院 一种基于三维卷积神经网络的视频分类方法
CN107506712B (zh) * 2017-08-15 2021-05-18 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108805083B (zh) * 2018-06-13 2022-03-01 中国科学技术大学 单阶段的视频行为检测方法
CN109102025A (zh) * 2018-08-15 2018-12-28 电子科技大学 基于深度学习联合优化的行人重识别方法
CN109389055B (zh) * 2018-09-21 2021-07-20 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法

Also Published As

Publication number Publication date
CN110084202A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN110084202B (zh) 一种基于高效三维卷积的视频行为识别方法
CN110580500B (zh) 一种面向人物交互的网络权重生成少样本图像分类方法
CN113688723B (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN111462735A (zh) 语音检测方法、装置、电子设备及存储介质
CN108509976A (zh) 动物的识别装置和方法
CN113657465A (zh) 预训练模型的生成方法、装置、电子设备和存储介质
CN110263215B (zh) 一种视频情感定位方法及系统
CN109815903A (zh) 一种基于自适应融合网络的视频情感分类方法
CN110188654B (zh) 一种基于移动未裁剪网络的视频行为识别方法
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN112188306B (zh) 一种标签生成方法、装置、设备及存储介质
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN114333070A (zh) 一种基于深度学习的考生异常行为检测方法
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN115830392A (zh) 基于改进的YOLOv5的学生行为识别方法
CN114282047A (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
CN109753906A (zh) 基于域迁移的公共场所异常行为检测方法
Novopoltsev et al. Fine-tuning of sign language recognition models: a technical report
CN113569687B (zh) 基于双流网络的场景分类方法、系统、设备及介质
Zou et al. 360$^{\circ} $ Image Saliency Prediction by Embedding Self-Supervised Proxy Task
Li et al. CNN model for screen content image quality assessment based on region difference
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN114727093B (zh) 数据分析方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant