CN108764026A - 一种基于时序检测单元预筛选的视频行为检测方法 - Google Patents
一种基于时序检测单元预筛选的视频行为检测方法 Download PDFInfo
- Publication number
- CN108764026A CN108764026A CN201810326870.6A CN201810326870A CN108764026A CN 108764026 A CN108764026 A CN 108764026A CN 201810326870 A CN201810326870 A CN 201810326870A CN 108764026 A CN108764026 A CN 108764026A
- Authority
- CN
- China
- Prior art keywords
- unit
- behavior
- frame
- time
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于时序检测单元预筛选的视频行为检测方法。该方法是从长视频中构建时序检测单元,对其中关键帧进行目标识别后生成候选片段,解决了长视频分析中检测费时的问题,同时设计了边界回归模块以提高检测精度。本发明由于将性能提升着眼于数据预处理环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。并且可以与其它提高检测速度与精度的方法相结合,进一步提高时序行为检测性能。
Description
技术领域
本发明属于深度学习及视频分析技术领域,涉及一种基于时序检测单元预筛选的视频行为检测方法。
背景技术
在视频分析领域,行为检测是从一段未经裁剪的视频中检测出包含人类行为的片段,在辨别行为类与背景类的同时预测行为的开始与结束时间点,生成时间轴定位。在实际应用时,目前已有方法主要面对两大问题,一是巨量的视频数据中可能仅包含稀疏的行为片段,若将全部数据进行同等的处理将耗费过长的时间;二是对视频数据进行分析需要最大程度的提取时序结构信息以保证预测结果的准确性。本发明所提出的基于时序检测单元预筛选的视频行为检测方法就是从冗长视频中筛选候选片段提取时序结构信息作为突破口。
候选区域筛选的方法有很多种,传统的方法如滑动窗口法,它将视频分成多种尺寸的视频片段,进行分析之后进行去重叠处理。从巨大时长的视频中生成可能包含行为的候选片段对方案的计算效率要求很高。同时,必须避免对同一段或者含重叠部分的候选片段反复提取特征而徒增计算量。本发明采用时序检测单元预筛选的方法,能够快速有效地生成候选区域。
发明内容
本发明的目的在于针对传统视频行为检测方法的不足,为深度学习及视频分析研究提供一种基于时序检测单元筛选的长视频行为检测方法。
本发明方法包括以下步骤:
步骤(1)、构建时序检测单元,提取用于生成候选片段的预筛选帧
一段长为t秒视频V包含T帧,则视频帧率w=T/t。将视频V分割为T/nu个连续的时序检测单元,其中nu表示每个单元的帧数。一个单元可以表示为其中sf表示起始帧,sf+nu-1表示结束帧,单元与单元之间无重叠部分。
步骤(2)、进行预筛选处理,获得候选片段行为单元集。
对每一个单元的起始帧nu=w/2都输入至Faster R-CNN网络进行目标检测,输出结果为帧图像中各目标及其分类概率,对其中检测为人类目标概率≥80%的源视频单元生成单元集{ui},再从其中筛选出时间轴连续的视频单元组成候选行为单元集{uj}。
步骤(3)、候选行为片段特征提取
候选行为单元集{uj}中的每一个单元都将由一个视觉编码器Ev进行处理,得到单元层级表示fu=Ev(u)。将上述处理后候选行为单元集{uj}中下标连续的单元组合后定义为单元块可以得到多个单元块c,其中su表示起始单元的初始帧,nc表示单元块c中的单元数量。eu=su+nu·(nc-1)则是结束单元的初始帧,称为c的内部单元。除了内部单元,类似可定义c的上下文单元。和分别为上文单元和下文单元,nctx表示作为上下文单元帧数。单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池。c的最终特征fc与上下文特征和内部特征连接。fc由下式得到:
其中||表示对P的向量连接和平均池化。
步骤(4)、设计一个单元回归模块,输入为单元块c的最终特征fc,输出为时序边界回归补偿。起始回归补偿os、结束回归补偿oe由下式得到:
os=su-sgt,oe=eu-egt
其中,su、eu表示c的起始单元初始帧和结束单元初始帧;sgt、egt是真实边界的起始帧和结束帧。
步骤(5)、最终特征fc输入LSTM网络,得到背景/行为分类及初步边界;
为得到背景/行为分类,需要对LSTM网络训练过程以及损失函数进行调整,具体如下:
给每个单元块c打上分类标签(是否为行为)。正样本标签的单元块需满足以下条件之一:(1)单元块与某个已知真实行为片段重叠;(2)单元块与某个已知真实行为片段的时序交除并(temporal Intersection over Union,tIoU)大于0.5。因此,一个已知真实行为片段可能给多个单元块打上正标签。若某单元块与任意已知真实行为片段的tIoU等于0,则它为负样本。其余样本不输入网络参与训练。
定义一个多任务损失函数L用于训练分类以及边界回归。
L=Lcls+λLreg
其中,Lcls表示动作/背景分类的损失,它是一个标准Softmax损失函数;Lreg是时序边界回归的损失,λ是一个超参数。回归损失Lreg由式(3)得到:
采用L1距离范数;表示标签,1为正样本,0为负样本;Npos表示正样本的数量。只对正样本计算回归损失。
LSTM网络其余操作为常规操作,故不详解。
步骤(6)、采用步骤(4)得到的边界回归补偿对步骤(5)得到的初步边界进行调整,从而生成准确的行为边界,进而完成行为检测。
本发明的有益效果是:
本发明的关键在于从长视频中构建时序检测单元,对其中关键帧进行目标识别后生成候选片段,解决了长视频分析中检测费时的问题,同时设计了边界回归模块以提高检测精度。本发明由于将性能提升着眼于数据预处理环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。并且可以与其它提高检测速度与精度的方法相结合,进一步提高时序行为检测性能。
附图说明
图1为本发明的流程图。
图2为本发明时序检测单元构建与预筛选图。
具体实施方式
下面结合具体实施例对本发明做进一步的分析。
本实施例采用THUMOS 14数据集作为训练的样本数据集。在运用时序检测单元进行预筛选的视频行为检测网络训练过程中具体包括以下步骤,如图1所示:
步骤(1)、构建时序检测单元,提取用于生成候选片段的预筛选帧
以THUMOS 14数据集训练子集中video_test_0000179.mp4视频为例,此段视频长168秒,包含5040帧,视频帧率30fps。将将视频分割为336个连续的视频单元,每个单元的帧数为15。一个单元可以表示为其中sf表示起始帧,sf+14表示结束帧,单元与单元之间无重叠部分。
步骤(2)、进行预筛选处理,获得候选片段行为单元集。
对每一个单元的起始帧都输入至Faster R-CNN网络进行目标检测,输出结果为帧图像中各目标及其分类概率,对其中检测为人类目标概率≥80%的源视频单元生成一个单元集{ui},再从其中筛选出时间轴连续的视频单元组成候选行为单元集{uj}。
图2为本实施例时序检测单元构建与预筛选图。
步骤(3)、候选行为片段特征提取
候选行为单元集{uj}中的每一个单元都将由一个视觉编码器Ev进行处理,得到单元层级表示fu=Ev(u)。将候选行为单元集{uj}中某几个下标连续的单元组合后可得到一个单元块其中1501表示起始单元的初始帧,单元块c中的单元数量为8。1606则是结束单元的初始帧,称为c的内部单元。除了内部单元,类似可定义c的上下文单元。和分别为上文单元和下文单元,作为上下文单元的帧数为30。单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池。c的最终特征fc与上下文特征和内部特征连接。fc由下式得到:
其中||表示对P的向量连接和平均池化。
步骤(4)、设计一个单元回归模块,输入为单元块c的最终特征fc,输出为时序边界回归补偿。起始回归补偿os、结束回归补偿oe由下式得到:
os=su-sgt,oe=eu-egt
其中,su、eu表示c的起始单元初始帧和结束单元初始帧;sgt、egt是真实边界的起始帧和结束帧。
步骤(5)、最终特征fc输入LSTM网络,得到背景/行为分类及初步边界;
对LSTM网络训练过程进行调整,具体如下:
由于本实施例的单元块与某个已知真实行为片段的tIoU大于0.5,给此单元块打上正样本标签(是行为),输入网络参与训练并由改进的多任务损失函数L对此正样本计算回归损失。
步骤(6)、对于THUMOS 14数据集中训练集中所有视频重复步骤(1)-(5)得到训练完毕的网络模型,利用此网络模型进行测试操作即可实现行为检测。
此实施例中,浮点计算能力为11TFLOPs的设备训练该单元块约需1280ms,用作测试(检测)过程仅需约640ms,耗时仅为传统方法的三分之一,精度相当。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
Claims (1)
1.一种基于时序检测单元预筛选的视频行为检测方法,其特征在于该方法包括以下步骤:
步骤(1)、构建时序检测单元,提取用于生成候选片段的预筛选帧
将待检测视频V分割为T/nu个连续的时序检测单元单元与单元之间无重叠部分,其中nu表示每个单元的帧数,sf表示起始帧,sf+nu-1表示结束帧;
所述的待检测视频V包含T帧,时间长为t秒,则视频帧率w=T/t;
步骤(2)、对上述时序检测单元进行预筛选处理,获得候选片段行为单元集;
将所有时序检测单元的起始帧nu=w/2均输入至Faster R-CNN网络进行目标检测,输出结果为帧图像中各目标及其分类概率,然后将其中检测为人类目标概率≥80%的源时序检测单元生成单元集{ui},再从其中筛选出时间轴连续的时序检测单元组成候选行为单元集{uj};
步骤(3)、候选行为片段特征提取
候选行为单元集{uj}中的每一个单元采用视觉编码器Ev进行处理,得到单元层级表示fu=Ev(u);然后将上述处理后的候选行为单元集{uj}中下标连续的单元组合后定义为单元块得到多个单元块c,其中su表示起始单元的初始帧,nc表示单元块c中的单元数量;eu=su+nu·(nc-1)则是结束单元的初始帧,称为c的内部单元;定义c的上下文单元分别为和nctx表示作为上下文单元帧数;单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池;c的最终特征fc与上下文特征和内部特征连接;fc由下式得到:
其中||表示对P的向量连接和平均池化;
步骤(4)、假定一个单元回归模块,输入为单元块c的最终特征fc,输出为时序边界回归补偿;起始回归补偿os、结束回归补偿oe由下式得到:
os=su-sgt,oe=eu-egt
其中,su、eu表示c的起始单元初始帧和结束单元初始帧;sgt、egt是真实边界的起始帧和结束帧;
步骤(5)、最终特征fc输入LSTM网络,得到背景/行为分类及初步边界;
为得到背景/行为分类,需要对LSTM网络训练过程以及损失函数进行调整,具体如下:
给每个单元块c打上分类标签(是否为行为);正样本标签的单元块需满足以下条件之一:(1)单元块与某个已知真实行为片段重叠;(2)单元块与某个已知真实行为片段的时序交除并(tIoU)大于0.5;若某单元块与任意已知真实行为片段的tIoU等于0,则它为负样本;其余样本不输入网络参与训练;
定义一个多任务损失函数L用于训练分类以及边界回归;
L=Lcls+λLreg
其中,Lcls表示动作/背景分类的损失,它是一个标准Softmax损失函数;Lreg是时序边界回归的损失,λ是一个超参数;回归损失Lreg由式(3)得到:
采用L1距离范数;表示标签,1为正样本,0为负样本;Npos表示正样本的数量;只对正样本计算回归损失;
步骤(6)、采用步骤(4)得到的边界回归补偿对步骤(5)得到的初步边界进行调整,从而生成准确的行为边界,进而完成行为检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810326870.6A CN108764026B (zh) | 2018-04-12 | 2018-04-12 | 一种基于时序检测单元预筛选的视频行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810326870.6A CN108764026B (zh) | 2018-04-12 | 2018-04-12 | 一种基于时序检测单元预筛选的视频行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108764026A true CN108764026A (zh) | 2018-11-06 |
CN108764026B CN108764026B (zh) | 2021-07-30 |
Family
ID=63981756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810326870.6A Active CN108764026B (zh) | 2018-04-12 | 2018-04-12 | 一种基于时序检测单元预筛选的视频行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764026B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109753884A (zh) * | 2018-12-14 | 2019-05-14 | 重庆邮电大学 | 一种基于关键帧提取的视频行为识别方法 |
CN115187917A (zh) * | 2022-09-13 | 2022-10-14 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364305A (zh) * | 2007-08-07 | 2009-02-11 | 索尼株式会社 | 电子装置、运动向量检测方法和其程序 |
WO2009026433A1 (en) * | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
CN104793193A (zh) * | 2015-01-27 | 2015-07-22 | 杭州电子科技大学 | 基于sar-dpca微多普勒时-空-频三维分析方法 |
CN105513095A (zh) * | 2015-12-30 | 2016-04-20 | 山东大学 | 一种行为视频无监督时序分割方法 |
CN105893967A (zh) * | 2016-04-01 | 2016-08-24 | 北京大学深圳研究生院 | 基于时序保留性时空特征的人体行为分类检测方法及系统 |
US20160335509A1 (en) * | 2015-05-11 | 2016-11-17 | Denso Corporation | Entity Recognition System |
CN106339667A (zh) * | 2016-08-15 | 2017-01-18 | 北京大学 | 一种视频异常事件在线检测方法及装置 |
CN106650655A (zh) * | 2016-12-16 | 2017-05-10 | 北京工业大学 | 一种基于卷积神经网络的动作检测模型 |
CN106897742A (zh) * | 2017-02-21 | 2017-06-27 | 北京市商汤科技开发有限公司 | 用于检测视频中物体的方法、装置和电子设备 |
CN107423730A (zh) * | 2017-09-20 | 2017-12-01 | 湖南师范大学 | 一种基于语义折叠的人体步态行为主动检测识别系统和方法 |
CN107689053A (zh) * | 2017-07-31 | 2018-02-13 | 温州大学 | 一种基于标签传播和排序约束的目标跟踪方法 |
CN107808144A (zh) * | 2017-11-10 | 2018-03-16 | 深圳市唯特视科技有限公司 | 一种基于视频时空关系进行自我监督嵌入姿态学习方法 |
-
2018
- 2018-04-12 CN CN201810326870.6A patent/CN108764026B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101364305A (zh) * | 2007-08-07 | 2009-02-11 | 索尼株式会社 | 电子装置、运动向量检测方法和其程序 |
WO2009026433A1 (en) * | 2007-08-21 | 2009-02-26 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
CN104793193A (zh) * | 2015-01-27 | 2015-07-22 | 杭州电子科技大学 | 基于sar-dpca微多普勒时-空-频三维分析方法 |
US20160335509A1 (en) * | 2015-05-11 | 2016-11-17 | Denso Corporation | Entity Recognition System |
CN105513095A (zh) * | 2015-12-30 | 2016-04-20 | 山东大学 | 一种行为视频无监督时序分割方法 |
CN105893967A (zh) * | 2016-04-01 | 2016-08-24 | 北京大学深圳研究生院 | 基于时序保留性时空特征的人体行为分类检测方法及系统 |
CN106339667A (zh) * | 2016-08-15 | 2017-01-18 | 北京大学 | 一种视频异常事件在线检测方法及装置 |
CN106650655A (zh) * | 2016-12-16 | 2017-05-10 | 北京工业大学 | 一种基于卷积神经网络的动作检测模型 |
CN106897742A (zh) * | 2017-02-21 | 2017-06-27 | 北京市商汤科技开发有限公司 | 用于检测视频中物体的方法、装置和电子设备 |
CN107689053A (zh) * | 2017-07-31 | 2018-02-13 | 温州大学 | 一种基于标签传播和排序约束的目标跟踪方法 |
CN107423730A (zh) * | 2017-09-20 | 2017-12-01 | 湖南师范大学 | 一种基于语义折叠的人体步态行为主动检测识别系统和方法 |
CN107808144A (zh) * | 2017-11-10 | 2018-03-16 | 深圳市唯特视科技有限公司 | 一种基于视频时空关系进行自我监督嵌入姿态学习方法 |
Non-Patent Citations (4)
Title |
---|
GIANLUCA ANTONINI AND SANTIAGO VENEGAS MARTINEZ: "Behavioral priors for detection and tracking of pedestrians in video sequences", 《INTERNATIONAL JOURNAL OF COMPUTER VISION 》 * |
THIAGO VALLIN SPINA: "Video Human Segmentation using Fuzzy Object Models and its Application to Body Pose Estimation of Toddlers for Behavior Studies", 《ARXIV:1305.6918V1 [CS.CV]》 * |
李瑞峰 等: "人体动作行为识别研究综述", 《模式识别与人工智能》 * |
郭丁云 等: "一种新的时序一致性特征的近重复视频检测算法", 《电脑知识与技术》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753884A (zh) * | 2018-12-14 | 2019-05-14 | 重庆邮电大学 | 一种基于关键帧提取的视频行为识别方法 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN115187917A (zh) * | 2022-09-13 | 2022-10-14 | 山东建筑大学 | 基于视频片段检索的无人车历史场景检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108764026B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | DeepDetect: A cascaded region-based densely connected network for seismic event detection | |
CN107346420A (zh) | 一种基于深度学习的自然场景下文字检测定位方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
Deng et al. | Amae: Adaptive motion-agnostic encoder for event-based object classification | |
CN104268586A (zh) | 一种多视角动作识别方法 | |
CN108764026A (zh) | 一种基于时序检测单元预筛选的视频行为检测方法 | |
CN114049477A (zh) | 一种过鱼鱼道系统、鱼类数量和种类的动态识别跟踪方法 | |
Zhang et al. | I-MMCCN: Improved MMCCN for RGB-T crowd counting of drone images | |
Khoshraftar et al. | Dynamic graph embedding via lstm history tracking | |
Xie et al. | Sliding-window based scale-frequency map for bird sound classification using 2d-and 3d-cnn | |
CN112288778A (zh) | 一种基于多帧回归深度网络的红外小目标检测方法 | |
Nie et al. | Adap-EMD: Adaptive EMD for aircraft fine-grained classification in remote sensing | |
Cheng et al. | An Image‐Based Deep Learning Approach with Improved DETR for Power Line Insulator Defect Detection | |
CN104537392B (zh) | 一种基于判别性语义部件学习的对象检测方法 | |
Tang et al. | An end‐to‐end steel surface defect detection approach via Swin transformer | |
Li et al. | Memory-token transformer for unsupervised video anomaly detection | |
Huang et al. | Video frame prediction with dual-stream deep network emphasizing motions and content details | |
Cao et al. | Adaptive receptive field U-shaped temporal convolutional network for vulgar action segmentation | |
Ouyang et al. | An anchor-free detector with channel-based prior and bottom-enhancement for underwater object detection | |
Lin et al. | Temporal action localization with two-stream segment-based RNN | |
AlDahoul et al. | Local receptive field-extreme learning machine based adult content detection | |
CN113609294B (zh) | 一种基于情感分析的生鲜冷链监管方法及系统 | |
Hu et al. | STRNN: End-to-end deep learning framework for video partial copy detection | |
Zhang et al. | Machine Learning‐Based Multitarget Tracking of Motion in Sports Video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |