CN110688918B - 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 - Google Patents
基于长时增强特征增强及稀疏动态采样的快速行为检测方法 Download PDFInfo
- Publication number
- CN110688918B CN110688918B CN201910867364.2A CN201910867364A CN110688918B CN 110688918 B CN110688918 B CN 110688918B CN 201910867364 A CN201910867364 A CN 201910867364A CN 110688918 B CN110688918 B CN 110688918B
- Authority
- CN
- China
- Prior art keywords
- detection
- frame
- time
- time domain
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法,对视频直接进行时空联合的三维特征提取后进行时域检测,利用全局的长时信息对三维特征进行长时增强,根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样,得到空间检测结果后与时域检测结果相结合,利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接,得到的检测框的集合,即行为管道。本发明能够显著提升分类精度以及定位精度从而最终有效提升检测的准确率,同时能够提升视频行为检测的运行效率。
Description
技术领域
本发明涉及的是一种视频分析领域的技术,具体是一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法。
背景技术
基于视频的行为检测与识别分类技术是自动将视频中的目标进行逐帧定位,并在特定时间区间内识别目标行为的技术,主要通过逐帧提取出精确的运动空间定位;对逐帧的行为定位进行分类;将逐帧的检测结果沿时域链接形成时空联合的行为检测结果。
现有的视频的时空行为检测技术或采集只能描述单帧行为的特征,限制了行为识别的准确率,或采用稠密检测的策略导致算法运行效率较低。因此现阶段急需一种快速高效的行为检测算法,同时能够合理地利用长时与短时信息对目标行为进行描述,提高视频行为检测的准确性。
发明内容
本发明针对现有技术存在的上述不足,提出一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法,能够显著提升分类精度以及定位精度从而最终有效提升检测的准确率,同时能够提升视频行为检测的运行效率。
本发明是通过以下技术方案实现的:
本发明涉及一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法,对视频直接进行时空联合的三维特征提取后进行时域检测,利用全局的长时信息对三维特征进行长时增强,根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样,得到空间检测结果后与时域检测结果相结合,利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接,得到的检测框的集合,即行为管道。
所述的视频,采用但不限于具有固定的帧数,优选为经过重采样的视频流用于后级的行为检测与分类。
所述的三维特征提取是指:通过时空联合特征提取,从视频中得到三维特征图。
所述的时域检测是指:将三维特征图池化为一维特征,并通过时域检测器得到在一维特征上得到时域检测结果。
所述的全局的长时信息是指:将池化操作得到的一维特征输入评估网络得到不同时间戳的权重,再通过该权重对三维特征图进行时域重组实现长时增强。
本发明涉及一种实现上述方法的系统,包括:时空联合特征提取单元、时域检测单元、长时增强单元、动态采样单元、空间检测单元和行为生成单元,其中:时空联合特征提取单元分别与时域检测单元和长时增强单元相连并传输提取得到的三维时空特征给后级的时域检测以及特征增强,时域检测单元分别与时空联合特征提取单元、长时增强单元以及动态采样单元相连接,从原始三维时空特征中提取时域特征,将时域特征用于后级的长时增强,并将生成的时域区间传递给动态采样单元,长时增强单元分别与时空联合特征提取单元、时域检测单元及动态采样单元连接,利用时域特征增强原始三维时空特征,并将增强的特征传递给动态采样单元,动态采样单元分别与长时增强单元、时域检测单元以及空间检测单元相连并传输采样得到的二维特征信息到后级的空间检测,空间检测单元与动态采样单元和行为生成单元相连接,从二维采样特征上检测出空间行为属性并传输给后级行为生成单元,行为生成单元与空间检测单元相连接,利用前级得到的空间行为属性插值得到三维的行为管道。
所述的空间行为属性包括:类别、置信度、偏移向量以及特征向量。
技术效果
与现有技术相比,本发明技术效果包括:
1、本发明利用直接采用3D卷积网络进行时空联合特征提取,同时采用长时信息对三维特征进行增强,因此在本发明中用于描述目标行为的特征具有更加丰富的长时信息和表征能力,有助于目标行为的分类与检测;同时采用时空联合特征提取的方案也避免了额外提取光流信息所带来的时间开销。
2、本发明通过重采样输入以及后续的稀疏动态采样的方式,避免了稠密冗余的中间帧检测。该算法中根据行为的复杂度提出自适应的采样参数,在保证了检测定位精度的同时避免了大量冗余的采样,后续的空间检测网络只需要检测采样时间戳对应的目标框并进行关联,因而相比于既有的基于稠密检测和链接的视频行为检测技术,本发明具有更快的运行效率。
3、本发明中采用框的特征向量以及偏移向量来计算不同帧间检测框的相似度,从而进一步将不同时间戳下的行为检测框相关联,该技术合理避免了在中间帧上误捡的干扰。
附图说明
图1是本发明的流程图;
图2是权重评估网络结构示意图;
图3为空间检测网络以及辅助网络的结构示意图;
图4为卷积模块的操作的具体构成图。
具体实施方式
如图1所示,为本实施例涉及一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法,包括以下步骤:
A:对输入视频流进行重采样,使得输入视频保持固定的帧数用于后级的行为检测与分类。
所述的对输入视频流重采样是指:对输入视频进行降采样或补中间帧,使其输入长度为本实施例中的固定长度Ti=96。对于采样系数不为整数的情况,采用双线性插值的方法得到中间采样帧。
B、将重采样后的视频进行时空联合的特征提取,得到三维特征图;
所述的时空联合的特征提取是指:利用3D卷积神经网络对重采样后的视频进行卷积,并输出3D网格,每个网格中包含一个用于描述局部时空关系的固定维度的高维特征向量。
本实施例中的3D卷积神经网络采用Carriar等人提出的I3D网络以提取三维特征。
C、对三维特征图进行空间池化操作得到一维特征,并通过时域检测器得到一维特征的时域检测结果。
所述的空间池化操作是指:采用空间平均池化的方式将三维特征降为一维特征:
所述的时域检测器是指:利用单层1D卷积神经网络对池化后的一维特征进行卷积,并输出时域检测结果。
所述的时域检测结果包括:表征对应位置是否存在行为的概率p、归一化的起始时间s、终止时间e以及对应的采样点数d,即稀疏采样的总帧数。
D、将步骤C中池化操作得到的一维特征输入评估网络得到不同时间戳的权重,利用该权重对三维特征图进行时域重组,重组后的三维特征为长时增强的特征;
图1中所述的评估网络R(·)为级联的多层1D卷积神经网络,其结构如图2所示,该神经网络输出一个对各个时间戳的大小为T×T的评估矩阵T为三维特征F3D的时间维度;并在输出端通过Sigmoid算子对输出权重进行归一化,使得每个时间戳对应的权重在[0,1]之间,即其中:W(t,k)与分别为归一化与未归一化的权重系数。
E、根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行动态采样,得到稀疏的2D空间特征。
所述的时域区间,即时域检测结果中的归一化的起始时间s至终止时间e。
在本实施例中,为了防止过多采样点数的带来冗余采样和过高的计算复杂度,最大采样点数优选为Nm=12,即1≤n≤d≤Nm=12。
F、将步骤E中采样得到的2D空间特征通过空间检测器,得到在稀疏的d帧采样帧上的空间检测框,通过辅助网络对每个空间检测结果生成一个特征向量fe,ti以及偏移向量fs,ti。
所述的空间检测结果,即在对应采样时间戳上的目标检测框及其分类,包括:检测框的检测坐标bt,i、置信度的分数pt,i以及对应的类别ct,i,其中i表示在该采样帧中检测到的空间检测框的序号。
如图3所示,所述的空间检测器以及辅助网络分别为级联的2D和3D卷积神经网络,通过与采样的2维特征以及2维特征沿时域堆叠的三维特征卷积得到对应的输出。
G、将时域区间(s,e)内动态采样得到的空间检测框进行结合,利用每个特征向量及其偏移向量计算相邻采样帧上得到的空间检测框的相似度并通过逐帧聚类的方法实现检测框的链接,将连接在一起的稀疏采样帧检测框沿时间坐标轴进行插值,得到稠密的逐帧行为检测,即行为管道。
所述的相似度是指:两个检测框之间的特征距离其中:bt,i为第t帧检测到的第i个行为目标,第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的特征距离Da,tij=||fe,ti-fe,(t+1)j||2,第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的偏移距离即两个框的坐标偏移以及框bt,i对应的偏移向量的差值,(xt,I,yt,i)表示检测目标框bt,i在采样帧上的中心坐标。
所述的逐帧聚类是指:为了将稀疏采样帧上的目标进行关联得到逐帧的行为轨迹,首先在第一帧采样帧中选取置信度最大的框作为当前行为的起始:其中表示预测得到的当前行为在第t帧上目标框。之后的每一帧采样帧,采取贪心策略选取与当前行为最近的检测框相似度最高的检测框并入当前的行为轨迹:从而得到一个行为轨迹的稀疏表示受其对应的置信度以及分类的类别
经过具体实际实验,在Ubuntu14.04+CUDA 9.0+UCF101-24标准数据集的环境设置下,以Ti=96,T=12,H=16,W=16的参数配置启动/运行上述方法,能够得到的实验数据是:在0.3 的阈值下达到mAP为71.1较目前最优方法提升0.2,在0.5阈值下达到mAP为54.0,较目前最优方法提升1.7,同时平均每个视频的检测时间降至0.57秒,相比当前最快的行为检测方法提速7.6倍。
与现有技术相比,本方法通过长时特征增强模块进行了特征增强,使特征具有更加丰富的语义信息和长时感受野,提高了空间检测器的分类效果;同时稀疏动态采样单元降低了空间检测器的运行次数,也降低了冗余检测或者是误捡带来的干扰,因而提高了系统运行效率与精度。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (11)
1.一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法,其特征在于,对视频直接进行时空联合的三维特征提取后进行时域检测,利用全局的长时信息对三维特征进行长时增强,根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样,得到空间检测结果后与时域检测结果相结合,利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接,得到的检测框的集合,即行为管道;
所述的三维特征提取是指:通过时空联合特征提取,从视频中得到三维特征图;
所述的时域检测是指:将三维特征图池化为一维特征,并通过时域检测器得到在一维特征上得到时域检测结果;
所述的全局的长时信息是指:将池化操作得到的一维特征输入评估网络得到不同时间戳的权重,再通过该权重对三维特征图进行时域重组实现长时增强;
所述的空间检测结果,即在对应采样时间戳上的目标检测框及其分类,包括:检测框的检测坐标bt,i、置信度的分数pt,i以及对应的类别ct,i,其中i表示在该采样帧中检测到的空间检测框的序号。
2.根据权利要求1所述的快速行为检测方法,其特征是,所述的视频经过重采样的视频流用于后级的行为检测与分类。
4.根据权利要求1所述的快速行为检测方法,其特征是,所述的时域检测器是指:利用单层1D卷积神经网络对池化后的一维特征进行卷积,并输出时域检测结果;
所述的时域检测结果包括:表征对应位置是否存在行为的概率p、归一化的起始时间s、终止时间e以及对应的采样点数d。
8.根据权利要求7所述的快速行为检测方法,其特征是,所述的检测框的集合,通过将时域区间(s,e)内动态采样得到的空间检测框进行结合,利用每个特征向量及其偏移向量计算相邻采样帧上得到的空间检测框的相似度并通过逐帧聚类的方法实现检测框的链接,将连接在一起的稀疏采样帧检测框沿时间坐标轴进行插值,得到稠密的逐帧行为检测,即行为管道。
11.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:时空联合特征提取单元、时域检测单元、长时增强单元、动态采样单元、空间检测单元和行为生成单元,其中:时空联合特征提取单元分别与时域检测单元和长时增强单元相连并传输提取得到的三维时空特征给后级的时域检测以及特征增强,时域检测单元分别与时空联合特征提取单元、长时增强单元以及动态采样单元相连接,从原始三维时空特征中提取时域特征,将时域特征用于后级的长时增强,并将生成的时域区间传递给动态采样单元,长时增强单元分别与时空联合特征提取单元、时域检测单元及动态采样单元连接,利用时域特征增强原始三维时空特征,并将增强的特征传递给动态采样单元,动态采样单元分别与长时增强单元、时域检测单元以及空间检测单元相连并传输采样得到的二维特征信息到后级的空间检测,空间检测单元与动态采样单元和行为生成单元相连接,从二维采样特征上检测出空间行为属性并传输给后级行为生成单元,行为生成单元与空间检测单元相连接,利用前级得到的空间行为属性插值得到三维的行为管道。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910867364.2A CN110688918B (zh) | 2019-09-12 | 2019-09-12 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910867364.2A CN110688918B (zh) | 2019-09-12 | 2019-09-12 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110688918A CN110688918A (zh) | 2020-01-14 |
CN110688918B true CN110688918B (zh) | 2023-02-14 |
Family
ID=69109060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910867364.2A Active CN110688918B (zh) | 2019-09-12 | 2019-09-12 | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688918B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259790B (zh) * | 2020-01-15 | 2023-06-20 | 上海交通大学 | 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 |
EP4208814A4 (en) * | 2020-09-22 | 2023-08-02 | Huawei Technologies Co., Ltd. | OBJECT DETECTION AND TRACKING |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN108399380A (zh) * | 2018-02-12 | 2018-08-14 | 北京工业大学 | 一种基于三维卷积和Faster RCNN的视频动作检测方法 |
CN109547803A (zh) * | 2018-11-21 | 2019-03-29 | 北京航空航天大学 | 一种时空域显著性检测及融合方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110084202A (zh) * | 2019-04-29 | 2019-08-02 | 东南大学 | 一种基于高效三维卷积的视频行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896342B2 (en) * | 2017-11-14 | 2021-01-19 | Qualcomm Incorporated | Spatio-temporal action and actor localization |
-
2019
- 2019-09-12 CN CN201910867364.2A patent/CN110688918B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN108399380A (zh) * | 2018-02-12 | 2018-08-14 | 北京工业大学 | 一种基于三维卷积和Faster RCNN的视频动作检测方法 |
CN109547803A (zh) * | 2018-11-21 | 2019-03-29 | 北京航空航天大学 | 一种时空域显著性检测及融合方法 |
CN109784269A (zh) * | 2019-01-11 | 2019-05-21 | 中国石油大学(华东) | 一种基于时空联合的人体动作检测和定位方法 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110084202A (zh) * | 2019-04-29 | 2019-08-02 | 东南大学 | 一种基于高效三维卷积的视频行为识别方法 |
Non-Patent Citations (4)
Title |
---|
Action Tubelet Detector for Spatio-Temporal Action Localization;Vicky Kalogeiton等;《2017 IEEE International Conference on Computer Vision》;20171225;全文 * |
一种基于深度度量学习的视频分类方法;智洪欣等;《电子与信息学报》;20180823(第11期);全文 * |
基于深度学习的视频动作时空检测算法研究;何逸凡;《中国优秀硕士学位论文全文数据库》;20190815;全文 * |
基于连续帧的在线实时人体行为检测;周道洋等;《信息技术与网络安全》;20180610(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110688918A (zh) | 2020-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
US20230045519A1 (en) | Target Detection Method and Apparatus | |
CN114529799A (zh) | 一种基于改进型yolov5算法的飞机多目标跟踪方法 | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
CN113034548A (zh) | 一种适用于嵌入式终端的多目标跟踪方法及其系统 | |
CN110969648B (zh) | 一种基于点云序列数据的3d目标跟踪方法及系统 | |
CN112734809B (zh) | 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置 | |
CN110688918B (zh) | 基于长时增强特征增强及稀疏动态采样的快速行为检测方法 | |
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN110853074A (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
CN112507861A (zh) | 一种多层卷积特征融合的行人检测方法 | |
CN115982573B (zh) | 多功能送料机及其控制方法 | |
CN115013298A (zh) | 污水泵的实时性能在线监测系统及其监测方法 | |
CN111639591B (zh) | 轨迹预测模型生成方法、装置、可读存储介质及电子设备 | |
CN112327104A (zh) | 一种含分布式电源配电网的故障检测与定位方法 | |
CN115984330A (zh) | 一种边界感知的目标跟踪模型及目标跟踪方法 | |
CN115937520A (zh) | 基于语义信息引导的点云运动目标分割方法 | |
CN115018910A (zh) | 点云数据中目标的检测方法、装置和计算机可读存储介质 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN108985385A (zh) | 基于生成对抗学习的快速弱监督目标检测方法 | |
CN112966815A (zh) | 基于脉冲神经网络的目标检测方法、系统及设备 | |
CN117372676A (zh) | 一种基于注意力特征融合的稀疏sar舰船目标检测方法及装置 | |
CN115661429B (zh) | 一种锅炉水冷壁管缺陷识别系统、方法和存储介质 | |
CN115797684A (zh) | 一种基于上下文信息的红外小目标检测方法及系统 | |
CN115375742A (zh) | 生成深度图像的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |