CN110738129B - 一种基于r-c3d网络的端到端视频时序行为检测方法 - Google Patents

一种基于r-c3d网络的端到端视频时序行为检测方法 Download PDF

Info

Publication number
CN110738129B
CN110738129B CN201910892237.8A CN201910892237A CN110738129B CN 110738129 B CN110738129 B CN 110738129B CN 201910892237 A CN201910892237 A CN 201910892237A CN 110738129 B CN110738129 B CN 110738129B
Authority
CN
China
Prior art keywords
layer
long
time sequence
feature
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910892237.8A
Other languages
English (en)
Other versions
CN110738129A (zh
Inventor
桑农
张士伟
马百腾
高常鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910892237.8A priority Critical patent/CN110738129B/zh
Publication of CN110738129A publication Critical patent/CN110738129A/zh
Application granted granted Critical
Publication of CN110738129B publication Critical patent/CN110738129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于R‑C3D网络的端到端视频时序行为检测方法,属于计算机视觉领域,该方法包括:对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;构建时序行为检测模型;该时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;其中长时信息编码模块,对提取的特征图进行编码,得到包含长时间信息的特征;将训练集和测试集输入时序行为检测模型中进行训练;将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别和定位信息。本发明通过设计长时信息编码网络,对提取的特征进行编码,使得网络能够获得时序动作的全局时间信息,提高了动作定位和分类的准确度。

Description

一种基于R-C3D网络的端到端视频时序行为检测方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于R-C3D网络的端到端视频时序行为检测方法。
背景技术
随着视频,手机,网络的普及,越来越多的视频被产生。为了能够定向的搜索视频,以及从视频中找到特定的行为,比如偷盗,打架等危险行为,以便于保证财产和人身安全。长未修剪视频中的时间动作检测越来越受到关注。该任务的目的是暂时定位感兴趣的动作发生间隔,并在长的未修剪的视频中预测动作类别。由于行动的时间持续时间变化很大,从几秒钟到几秒钟之间的分数,以及目标行为在非相关活动的背景下,行动检测任务面临诸多挑战。
目前,大多数现有方法将时间动作检测分成多个阶段,即预先计算特征,生成提议,对提议进行分类以及排名。比如PSDF方法,该方法基于iDT特征对视频提取了一种分数分布金字塔,之后再利用LSTM网络对PSDF特征序列进行处理,并根据输出的帧级的行为类别置信度分数处理得到行为片段的预测,但是由于iDT特征的提取耗费大量的时间和资源,严重限制了网络的运行速度;BSN方法则是利用CNN网络对视频提取特征,一定程度上减少了特征提取的时间,但是该方法并不是端到端的,而是利用TEM定位动作的开始点和结束点然后生成动作的提议,随后对提议进行打分,由于不是端到端,使得该方法在应用上存在一定的限制。CTAP方法则是对视频中的每一帧进行分类,随后利用得分进行聚合,然后再利用滑窗的方法对聚合得到的提议进行调整,该方法也是多阶段的方法,导致在应用上存在问题。上述方法均采用局部特征进行行为检测,不能获取全局信息,因此检测精度较低。
总体而言,现有时序行为检测方法不能同时兼顾特征提取时间与实现端到端检测,也不能获取全局信息,因此存在检测准确度低、运行速度慢的问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,其目的在于解决现有时序行为检测方法存在检测准确度低、运行速度慢的技术问题。
为实现上述目的,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
(2)构建时序行为检测模型;
所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;
所述特征提取模块,用于对输入图片进行提取特征,得到特征图;所述长时信息编码模块,用于对所述特征图进行编码,得到包含长时间信息的特征;所述行为识别模块,用于根据所述长时间信息的特征进行动作识别和定位;
(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
进一步地,经过所述长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000021
Figure BDA0002209121980000022
其中,Vi代表编码的第i个特征,wij是可学习的权重,Lt是编码长度,fi表示输入的第i个特征。
进一步地,所述长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。
进一步地,所述卷积层的卷积核大小为Le×1×1;
其中,Le=2*Lf-1,Lf表示时序长度。
进一步地,经过所述长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000031
Vij=wijCos(fi,fj)
其中,Vij代表编码的第ij个特征,
Figure BDA0002209121980000032
进一步地,所述长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;
所述第一特征变形层用于将经过卷积的三维特征变为一维特征;
所述相关性获取层用于获得一维特征之间的相关性;
所述第二特征变形层用于将具有相关性的特征变为二维特征。
进一步地,所述第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度。
进一步地,经过所述长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000033
Figure BDA0002209121980000034
其中,Vir代表编码的第ir个特征,r是降采样率,rm是降采样率的最大值,wj是可学习的参数。
进一步地,所述长时信息编码模块包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。
进一步地,所述特征提取模块为3D Resnet网络。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得以下有益效果:
(1)本发明通过设计长时信息编码网络,增加神经元感受野,对提取的特征进行编码,使得网络能够获得时序动作的全局时间信息,由于增加的计算量很少,因此,本发明能够在较快的运行速度下,实现动作定位和分类的准确检测。
(2)本发明采用RGB图片作为输入,可以节省大量的数据处理时间,并且是端到端的进行预测,进一步提高了网络的运行速度。
附图说明
图1是本发明实例提供的一种基于R-C3D网络的端到端视频时序行为检测方法的流程图;
图2(a)-图2(c)分别是本发明实例中长时信息编码模块三种不同的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
参考图1,本发明提供了一种基于R-C3D网络的端到端视频时序行为检测方法,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
具体地,本发明实施例首先利用ffmpeg将视频的帧率变成25fps,但本发明不限于此,具体应用中帧率根据视频中持续时间最长的动作时间决定,目的是使最长的动作可以完整的输入网络中;随后将视频变成连续的图片,并且分辨率归一化到171x128,具体实施中也可选择其他尺寸;最后对归一化的图片进行随机翻转,以进行数据增强。
(2)构建时序行为检测模型;
具体地,本发明构建的时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;特征提取模块,用于对输入图片进行提取特征,得到特征图;本发明采用3D Resnet网络进行特征提取;长时信息编码模块,用于对特征图进行编码,得到包含长时间信息的特征;行为识别模块,用于根据长时间信息的特征进行动作识别和定位;
本发明针对长时信息编码模块编码的特征,设计了三种时间编码函数:第一种,线性函数,即线性地对时间特征进行加权,经过长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000051
Figure BDA0002209121980000052
其中,Vi代表编码的第i个特征,wij是可学习的权重,Lt是编码长度,fi表示输入的第i个特征。
对应该线性函数的长时信息编码模块结构如图2(a)所示,包括依次连接的卷积层、批正则化层和非线性激活层;其中,卷积层的卷积核大小为Le×1×1用于接收长期时间信息;Le=2*Lf-1,Lf表示时序长度。本发明实施例为191×1×1。
第二种,相关函数,受各种应用中成对相关性的启发,本发明采用标准相关函数,即余弦相似性捕获每对特征之间的相似性,经过长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000061
Vij=wijCos(fi,fj)
其中,Vij代表编码的第ij个特征,
Figure BDA0002209121980000062
对应该相关函数的长时信息编码模块结构如图2(b)所示,包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;其中,第一特征变形层用于将经过卷积的三维特征变为一维特征;相关性获取层用于获得一维特征之间的相关性;第二特征变形层用于将具有相关性的特征变为二维特征;第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度,本发明实施例为191×1×1。
第三种,多尺度时间聚合函数,考虑具有相同类别的动作实例通常具有不同的持续时间,我们还考虑以多尺度方式执行如下的长期时间聚合,此时经过所述长时信息编码模块编码的特征表示为:
Figure BDA0002209121980000063
Figure BDA0002209121980000064
其中,Vir代表编码的第ir个特征,r是降采样率,rm是降采样率的最大值,wj是可学习的参数。
对应该多尺度时间聚合函数的长时信息编码模块结构如图2(c)所示,包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。每个空洞卷积层的卷积核大小为Le×1×1,本发明实施例为191×1×1。
(3)将训练集和测试集输入时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,包括:
(1)对输入视频进行帧率调整和帧提取,将提取到的帧进行归一化和数据增强后,作为训练集和测试集;
(2)构建时序行为检测模型;
所述时序行为检测模型包括特征提取模块、长时信息编码模块和行为识别模块;
所述特征提取模块,用于对输入图片进行提取特征,得到特征图;所述长时信息编码模块,用于对所述特征图进行编码,得到包含长时间信息的特征;所述长时信息编码模块由线性函数、相关函数或多尺度时间聚合函数实现:
其中,线性函数,用于线性地对时间特征进行加权;经过所述线性函数处理的特征表示为:
Figure FDA0003545482840000011
Figure FDA0003545482840000012
其中,Vi代表编码的第i个特征,wij是可学习的权重,Lt是编码长度,fj表示输入的第j个特征;
相关函数,利用余弦相似性捕获每对特征之间的相似性;经过所述相关函数处理的特征表示为:
Figure FDA0003545482840000013
Vij=wijCos(fi,fj)
其中,Vij代表编码的第ij个特征,
Figure FDA0003545482840000014
多尺度时间聚合函数,用于将持续时间不同,但类别相同的特征进行聚合;经过所述多尺度时间聚合函数处理的特征表示为:
Figure FDA0003545482840000021
Figure FDA0003545482840000022
其中,Vir代表编码的第ir个特征,r是降采样率,rm是降采样率的最大值,wij是可学习的参数,fj*r表示输入的第j*r个特征;
所述行为识别模块,用于根据所述长时间信息的特征进行动作识别和定位;
(3)将所述训练集和测试集输入所述时序行为检测模型中进行训练;
(4)将待检测视频输入训练好的时序行为检测模型进行检测,得到视频中存在的行为类别,以及与行为对应的起始位置和结束位置。
2.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,对应所述线性函数的长时信息编码模块包括依次连接的卷积层、批正则化层和非线性激活层。
3.根据权利要求2所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述卷积层的卷积核大小为Le×1×1;
其中,Le=2*Lf-1,Lf表示时序长度。
4.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,对应所述相关函数的长时信息编码模块包括依次连接的第一卷积层、第一特征变形层、相关性获取层、第二特征变形层、第二卷积层、批正则化层和非线性激活层;
所述第一特征变形层用于将经过卷积的三维特征变为一维特征;
所述相关性获取层用于获得一维特征之间的相关性;
所述第二特征变形层用于将具有相关性的特征变为二维特征。
5.根据权利要求4所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述第一卷积层和第二卷积层卷积核大小均为Le×1×1,其中Le=2*Lf-1;Lf表示时序长度。
6.根据权利要求1所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,对应所述多尺度时间聚合函数的长时信息编码模块包括多个并列的空洞卷积单元,以及依次连接的卷积层、批正则化层和非线性激活层;其中,每个空洞卷积单元包括依次连接的空洞卷积层、批正则化层、非线性激活层和特征变形层。
7.根据权利要求1-6任一项所述的一种基于R-C3D网络的端到端视频时序行为检测方法,其特征在于,所述特征提取模块为3D Resnet网络。
CN201910892237.8A 2019-09-20 2019-09-20 一种基于r-c3d网络的端到端视频时序行为检测方法 Active CN110738129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910892237.8A CN110738129B (zh) 2019-09-20 2019-09-20 一种基于r-c3d网络的端到端视频时序行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910892237.8A CN110738129B (zh) 2019-09-20 2019-09-20 一种基于r-c3d网络的端到端视频时序行为检测方法

Publications (2)

Publication Number Publication Date
CN110738129A CN110738129A (zh) 2020-01-31
CN110738129B true CN110738129B (zh) 2022-08-05

Family

ID=69269347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910892237.8A Active CN110738129B (zh) 2019-09-20 2019-09-20 一种基于r-c3d网络的端到端视频时序行为检测方法

Country Status (1)

Country Link
CN (1) CN110738129B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611847B (zh) * 2020-04-01 2021-04-30 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN113537164B (zh) * 2021-09-15 2021-12-07 江西科技学院 一种实时的动作时序定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN109101881A (zh) * 2018-07-06 2018-12-28 华中科技大学 一种基于多尺度时序图像的实时眨眼检测方法
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN108629326A (zh) * 2018-05-14 2018-10-09 中国科学院自动化研究所 目标体的动作行为识别方法及装置
CN109101881A (zh) * 2018-07-06 2018-12-28 华中科技大学 一种基于多尺度时序图像的实时眨眼检测方法
CN110032926A (zh) * 2019-02-22 2019-07-19 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"R-C3D: Region Convolutional 3D Network for Temporal Activity Detection";Huijuan Xu 等;《arXiv》;20170811;全文 *
"Two-Stream Region Convolutional 3D Network for Temporal Activity Detection";Huijuan Xu 等;《JOURNAL OF LATEX CLASS FILES》;20190430;第6卷(第1期);全文 *
"基于卷积神经网络的人体行为检测研究";周道洋;《中国优秀硕士学位论文全文数据库-信息科技辑》;20190115;第2019年卷(第1期);I138-3959 *

Also Published As

Publication number Publication date
CN110738129A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN111738244B (zh) 图像检测方法、装置、计算机设备和存储介质
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN109325440B (zh) 人体动作识别方法及系统
CN112464807A (zh) 视频动作识别方法、装置、电子设备和存储介质
CN112465008A (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN110826056B (zh) 一种基于注意力卷积自编码器的推荐系统攻击检测方法
CN110738129B (zh) 一种基于r-c3d网络的端到端视频时序行为检测方法
CN116453067B (zh) 基于动态视觉识别的短跑计时方法
Yingxin et al. A robust hand gesture recognition method via convolutional neural network
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
US11394929B2 (en) System and method for language-guided video analytics at the edge
CN111242114B (zh) 文字识别方法及装置
Owusu et al. An SVM–AdaBoost-based face detection system
CN114882334B (zh) 用于生成预训练模型的方法、模型训练方法及装置
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
US20230154139A1 (en) Systems and methods for contrastive pretraining with video tracking supervision
Sarcar et al. Detecting violent arm movements using cnn-lstm
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
CN113920584A (zh) 一种基于时间感知特征学习的动作质量评估方法
Ren et al. Research on Safety Helmet Detection for Construction Site
Akila Recognition of inter-class variation of human actions in sports video
CN117152142B (zh) 一种轴承缺陷检测模型构建方法及系统
CN117292307B (zh) 一种基于粗时间粒度的时序动作提名生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant