CN114972840A - 一种基于时域关系的动量视频目标检测方法 - Google Patents

一种基于时域关系的动量视频目标检测方法 Download PDF

Info

Publication number
CN114972840A
CN114972840A CN202210381003.9A CN202210381003A CN114972840A CN 114972840 A CN114972840 A CN 114972840A CN 202210381003 A CN202210381003 A CN 202210381003A CN 114972840 A CN114972840 A CN 114972840A
Authority
CN
China
Prior art keywords
momentum
level calibration
frames
feature map
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210381003.9A
Other languages
English (en)
Inventor
蔡强
康楠
李海生
韩龙飞
常浩东
万如一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Technology and Business University
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN202210381003.9A priority Critical patent/CN114972840A/zh
Publication of CN114972840A publication Critical patent/CN114972840A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于时域关系的动量视频目标检测方法,包括:(1)利用实例级校准方法获得时间维度的实例级校准特征图;(2)为了获取到更有用的信息,进一步利用在时域方面关键帧之间的先后关系计算相邻实例级校准特征图产生的动量偏移量;(3)将产生的动量偏移量和时域信息最新的实例级校准特征图融合,即可获得动量级实例校准特征图,用动量级实例校准特征图代替下一关键帧的实例校准特征图。本发明利用两个相邻的实例级特征图产生动量级实例校准特征图,通过这种类似于速度相对于加速度的偏移量,结合实例级特征图产生动量级实例校准特征图,以已知信息来预测未知信息的位置信息,从而提高检测精确率。

Description

一种基于时域关系的动量视频目标检测方法
技术领域
本发明涉及计算机视觉中的深度学习部分,特别是涉及目标检测中的视频目标检测方面, 一种基于时域关系的动量视频目标检测方法。
背景技术
随着物联网以及多媒体技术的发展、计算机性能的显著提高,使得深度学习和云计算成 为可能。在监控领域一个1080P高清摄像头的码流率为8Mb/s,一天可捕获约86.4GB视频 数量。据《2017-2022年全球视频分析,VCA,ISR和智能视频监控市场报告》,视频监控和分析2015-2022年市场复合增长率18.2%,将会形成167个子市场,视频监控、智能交通系统、安全城市、无人驾驶自动驾驶汽车、无人机、警用摄像头、智能零售视频系统和社交媒体视频流只是用户为提高其性能而使用的部分视频。
目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可 以分为图像目标检测和视频目标检测。当前,图像目标检测在深度学习的背景下,已经趋于 成熟。但是,在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。当 前的视频目标检测算法,大多数是将视频中独有的时序信息和上下文信息以不同的形式加入 到图像目标检测的框架中,从而对视频中包含的目标进行分类和检测。
相较于图像来说,视频的一个关键元素是时序信息,人们普遍认为图像内容在视频帧之 间变化缓慢,尤其是在高级语义上。因此,视频中目标的位置和外观在时间上应该是一致的, 即检测结果在边界框位置和检测置信度上不应该随着时间发生剧烈的变化。视频的另一个关 键因素是上下文信息,即在相邻的关键帧之间检测出来的目标应该具有一定的联系。虽然在 视频图像上下文信息方面已经有相关研究,但是将具有更丰富的上下文信息视频作为数百幅 静态图像的集合直接用于静态图像目标检测器得不到较好的检测结果。所以要做好视频目标 检测就要充分利用视频中包含的时序信息和上下文信息。
视频目标检测还在起步阶段,目前大部分的视频目标检测方案都是借助于静态图像目标 检测框架进一步利用视频的上下文信息和时序信息。2015年大规模视觉挑战赛中提出了 ImageNet VID数据集,作为视频目标检测的基准数据集。随后,视频目标检测在计算机视觉 领域内引起了广大的关注。非极大值抑制Seq-NMS方法将静止图像检测的结果关联到序列 中,构建高置信度边界框序列,并对检测框按平均置信度或最大置信度重新评分。该方法作 为一个后处理步骤,需要在每帧检测上额外运行。基于tubelets的视频目标检测算法采用对 象跟踪算法生成tubelets,虽然可以生成tubelets,但是计算量非常大。为了优化tubelets的 生成,T-CNN的算法基于运动的方式能够有效地获得致密的tubelets,但是长度通常仅为几 帧,这对于包含长期时间信息不是最佳方案。为了进一步优化,金字塔网络TPN和长短期 记忆网络通过产生时空候选区域并融合时间信息来获取高准确率。在大规模数据集ImageNet VID上的实验表明了这种框架可以在视频目标检测中取得很好的结果。
针对通过改善图像目标检测的后处理步骤来进行视频目标检测算法的计算量较大问题, 深度前馈网络DFF方法按固定的时间间隔提取视频帧作为关键帧,在关键帧上运行计算量 极大的卷积神经网络,得到关键帧的检测结果,然后,采用光流表示视频中的时序信息,通 过光流场将关键帧的检测结果传播到相邻帧,大幅度提高了视频目标检测的精度。由于在检 测过程中,输入到卷积神经网络的信息不包含时序信息,光流引导的视频目标检测特征聚合 方法FGFA算法将通过光流图像得到的特征和原始视频帧提取到的特征进行融合,输入到卷 积神经网络中进行训练,最终,提高了视频目标检测算法的精度。针对算法中,在固定的时 间间隔提取关键帧可能会造成重要信息缺失的问题。全动作感知网络的视频对象检测方法 MANet模型先提取出帧的特征和用FlowNet(simple version)提取出帧间的光流信息,完成 像素级的校准,接着通过预测出来的实例的移动过程,其实就是R-FCN得到的建议区域, 再进行实例级别的校准,后融合像素级最和实例级得到的特征用于训练和测试。
但是以上的方法都没有考虑使用时域关系来处理相邻关键帧的信息,为了解决视频帧中 存在大量物体外观退化现象,导致目标特征不明显,视频中存在的噪声较多,其中最主要的 是因为视频质量的不同,视频中存在很多外观退化物体,这类图像具有很少的可利用信息。
目前还没有机构将相邻关键帧之间的时域关系应用到根据相邻关键帧产生动量偏移量, 得到动量级实例校准信息来提高视频目标的检测精确率。
发明内容
本发明技术解决问题:针对视频中存在部分遮挡、散焦、特殊姿势和动作模糊等视频帧 中存在的现象,提供一种基于时域关系的动量视频目标检测方法,利用两个相邻的实例级特 征图产生动量级校准特征图,通过这种类似于速度相对于加速度的偏移量,结合实例级特征 图产生动量级校准特征图,以已知信息来预测未知信息的位置信息,从而提高检测精确率。
本发明的技术方案如下:
一种基于时域关系的动量视频目标检测方法,解决视频帧中存在大量物体外观退化现象, 导致目标特征不明显,视频中存在很多外观退化物体,这类图像具有很少的可利用信息,为 了进一步提高视频目标检测的精确率。
具体包括以下步骤:
步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证;将 所有视频切割为先后顺序帧并存储;
步骤(2)利用OpenCV库中对应图像数据读取方法每次从步骤(1)中的顺序帧中读取 五个关键帧,作为输入;所述五个关键帧分别表示为第一张关键帧data_before_before,第二 张关键帧data_before,第三张关键帧data,第四张关键帧data_after,第五张关键帧 data_after_after,并分别给每个关键帧融合周围K张非关键帧图像特征图,K范围为1到25; 第二张和第四张为参考关键帧,并分别给每个关键帧融合周围K张非关键帧图像特征图,K 范围为1到25,K为13时效果最好;第二张和第四张为参考关键帧;
步骤(3)选择ResNet101深度残差网络作为特征提取主干网络,特征提取主干网络包 含由100个卷积层和一个全连接层,通过恒等映射(identity mapping)保持所述深度残差网 络的最优性,使深度残差网络性能不会随着深度的影响降低;步骤(2)中得到的关键帧在 经过ResNet101深度残差网络后,提取出基本特征,从而得到关键帧图像特征图;
步骤(4):将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络(FlowNet,simple version),通过光流网络获取相邻关键帧中的光流信息;光流网络的结构采用编解码 网络结构;
步骤(5):将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合,得到加强后的像素级校准特征图;
步骤(6):利用步骤(5)得到的加强后的像素级校准特征图,通过候选区域生成网络 RPN(Region Proposal Network)生成候选区域(region proposals),候选区域通过softmax 判断生成的锚框(anchors)属于正向判断(positive)还是属于负向判断(negative),再利 用边界框回归(bounding box regression)修正锚框,得到精确的候选区域;
步骤(7):将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入,获取到能更好抓取目标移动信息的实例级校准特征图,相对于获取具体目标的像素级校 准,实例级校准精确抓取物体的刚性特征;同时为利用时域关系,将加强后图像特征图中的 前三张关键帧获取的实例级校准特征图,即第一个实例级校准特征图和后三张关键帧获取的 实例级校准特征图,即第二个实例级校准特征图在时域上融合获取动量偏移量,中间帧即第 三张关键帧被使用两次;所述动量偏移量是仿照单位时间同一目标的速度变化量,求出两个 实例级校准特征图中同一个目标的位移偏移量;
步骤(8):利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动 量级校准特征图,动量级校准特征图的本质和实例级校准特征图的实质是一样的,只是动量 级校准特征图带有时域信息,用来代替下一个实例级校准特征图,提高检测精度;
步骤(9):为了防止到达镜头边界,将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合,同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中,得到所有带有区域建议目标候选框的特征图(target_candidate_boxs);
步骤(10):采用区域二分类器(proposal binary classification)对步骤(9)中得到的所 有区域建议目标候选框(target_candidate_boxs)进行投票分类,筛选出包含真实目标的候 选框,以判断区域建议目标候选框与真实目标的候选框的交并比IOU(Intersection over Union) 是否超过阈值,根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值,则说明该感 兴趣区域中包含检测目标,并保留真实目标的候选框,否则丢弃;
步骤(11):构建ImageNet VID数据集中包含的30个目标类的多分类器,对步骤(10) 中得到的目标候选框进行分类,通过投票机制判断目标候选框属于ImageNet VID数据集中 已知的30类标签中的哪一类,从而实现目标分类任务;
步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归,使得生成的区域 建议目标候选框与真实目标的候选框重合,实现视频目标检测的精确分类。
所述步骤(2)中,提取五个关键帧时,每次提取以5张视频作为关键帧为一个批次进 行,同时每个关键帧融合周围13张其他非关键帧,当非关键帧少于5张时,缺少的部分使用最后一张关键帧代替。
所述步骤(5)具体实现如下;
将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚 合,得到加强后的像素级校准特征图yt,如下:
Figure BDA0003592986650000041
Figure BDA0003592986650000042
表示光流信息和关键帧信息聚合过程,其中:
Figure BDA0003592986650000043
ωt+τ→t表示距离关键帧远近距离的权重参数,K表示非关键帧图像特征图的张数;
τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure BDA0003592986650000044
Figure BDA0003592986650000051
其中
Figure BDA0003592986650000052
是应用于关键帧图像特征图ft+τ→t中从帧t+τ到帧t变换的目标移位;
Figure BDA0003592986650000053
为生 成两张关键帧的光流信息;It表示当前关键帧,It+τ表示下一关键帧。
所述步骤(7)获取能更好抓取目标移动信息的实例级校准特征图如下:
(71)将加强后的像素级校准特征图送入到区域建议网络RPN中,通过公式(4,5,6)获取实例级校准特征图,其中
Figure BDA0003592986650000054
利用感兴趣区域RoI池化操作在
Figure BDA0003592986650000055
上生成第i个候选区:
Figure BDA0003592986650000056
φ(·)表示池化,
Figure BDA0003592986650000057
是光流估计结果,RoI池化使用最大池化将任何有效感兴 趣区域中的特征转换为具有固定空间范围大小的实例级校准特征图;
根据
Figure BDA0003592986650000058
在第t-τ帧和第t-τ/2帧之间利用回归网络R(·)计算第i个目标候选区域在 关键帧之间的相对移动,公式如下:
Figure BDA0003592986650000059
其中
Figure BDA00035929866500000510
表示候选区域的相对运动,
Figure BDA00035929866500000511
由全连接层实现,通过将 候选区域与真实的候选区域进行比较生成相对运动;
(72)在时域上的针对不同关键帧获取实例级校准特征图如下:
Figure BDA00035929866500000512
其中τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure BDA00035929866500000513
表示实例级校准特征图的横坐标x和纵坐标y的变化量,
Figure BDA00035929866500000514
表示 实例级校准特征图的高和宽的变化量,
Figure BDA00035929866500000515
表示在t-τ/2帧中检测出的实例级校准特征图 的横坐标,
Figure BDA00035929866500000516
表示在t-τ/2帧中检测出的实例级校准特征图的纵坐标,
Figure BDA00035929866500000517
表示在t- τ/2帧中检测出的实例级校准特征图的宽度,
Figure BDA00035929866500000518
表示在t-τ/2帧中检测出的实例级校准 特征图的高度;
最后,根据产生的坐标信息确定实例级校准特征图,该位置即是真实目标存在的位置。
本发明利用了相邻帧之间同一目标的动量位移来确定下一帧目标要出现的位置,具有克 服视频目标检测中出现的外观劣化现象带来的检测精度偏低情况的作用,能够帮助提高视频 目标检测的精度。
所述步骤(8)中,利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到 最终动量级校准特征图如下:
Figure BDA0003592986650000061
ψ(·)表示两个实例级特征图融合产生动量偏移量,
其中:
Figure BDA0003592986650000062
Figure BDA0003592986650000063
st-τ标记为相邻位置敏感得分图,
Figure BDA0003592986650000064
是位置敏感的池化层,
Figure BDA0003592986650000065
表示在第i-1帧上 的实例级校准特征图,同样的方法得到第i+1帧上实例级校准为
Figure BDA0003592986650000066
Figure BDA0003592986650000067
是最后输入 到基于区域的全卷积网络检测R-FCN的动量级校准特征图:
动量级校准特征图
Figure BDA0003592986650000068
包含了帮助克服视频目标检测中物体外观劣化现象的动量信息, 这种采用动量的方法具有利用已知信息帮助确定下一时域目标位置的特征,这样提高视频中 存在外观劣化现象时目标的检测精度。
本发明与现有的技术相比优点在于:本发明基于动量级的实例级校准方法,不仅利用了 时域信息,将两个在时域上存在先后关系的特征图进行融合,克服视频目标检测中存在的目 标外观劣化现象,而且为了防止到达镜头边界,获取到动量级校准特征图后,再次利用了像 素级校准特征与动量级实例校准特征进行融合,增强模型的鲁棒性;而且基于R-FCN的目 标检测模型可操作性强且检测准确度高,使得在保证图像目标检测速度的同时提高了准确度。
附图说明
图1是本发明方法流程图;
图2是本发明中动量级校准特征图的融合过程;
图3是本发明中主干提取网络的残差块图;
图4是本发明中候选区域示意图;
图5是本发明中实例级校准生成过程图;
图6是本发明中动量偏移量获取和动量级实例校准特征图融合的示意图;
图7是本发明中融合加强像素级校准特征图和动量级实例校准特征图的过程示意图;
图8是本发明整体框架示意图;
图9是本发明中候选区域的边界回归和检测结果示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行描述。
如图1所示,本发明一种基于时域关系的动量视频目标检测方法,通过在时域信息上利 用视频关键帧之间的先后关系,以现有的特征图-动量级特征图,去对应下一帧实例级特征 图,动量级特征图主要尝试解决关键帧中出现的外观劣化现象。
步骤(1):利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证; 将所有视频切割为先后顺序帧并存储,存储过程是按照各个视频的名称为视频帧的文件夹进 行存储;
步骤(2):利用OpenCV库中对应图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧作为输入;如图2所示,是动量级校准特征图的融合过程;所述五个关键帧 分别表示为第一张关键帧data_before_before,第二张关键帧data_before,第三张关键帧data, 第四张关键帧data_after,第五张关键帧data_after_after,并分别给每个关键帧融合周围K张 非关键帧图像特征图,K范围为1到25;第二张和第四张为参考关键帧。分别给每个关键 帧融合周围K张帧图像特征图,K为周围帧的数量,范围为1到25,K为13时效果最好; 该步骤中第三张关键帧会被使用两次,第一次是和前两张关键帧一起使用,第二次是和后两 张关键帧一起使用,分别用于生成时域上两个在时域上具有先后关系的实例级校准特征图; 其中,图2中自上而下演示了动量级校准特征图的生成过程,首先是从视频关键帧提取基 本特征到实例级校准特征图,再从实例级校准特征图产生动量偏移量,最后结合实例级校准 特征图和动量偏移量融合生成动量级校准特征图。
步骤(3):选择ResNet101深度残差网络作为特征提取主干网络,特征提取主干网络 包含由100个卷积层和一个全连接层,如图3所示,是残差网络的残差块结构,其中x表示上层输入,F(x)表示卷积处理后的特征,F(x)+x是卷积处理后的上层输入和卷积处理后的特征的融合后的基本特征。通过恒等映射(identity mapping)保持所述深度残差网络的最优性, 使深度残差网络性能不会随着深度的影响降低;步骤(2)中得到的关键帧在经过ResNet101 深度残差网络后,得到每个关键帧的基本特征;这些基本特征主要由关键帧的基本特征和关 键帧图像特征图附近的叠加特征共同组成;关键帧附近帧的叠加特征即指从非关键帧中提取 的基本特征。其中,图3中x表示上层输入,F(x)表示卷积特征,F(x)+x是基本特征,Relu表 示修正线性单元,1×1、3×3表示卷积核,256和64表示维数。
步骤(4):将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络(FlowNet,simple version),通过光流网络获取相邻帧中存在的光流信息;光流网络的结构采用编解码 网络结构,对输入的图像先进行编码,获取到具体的特征信息后,再结合解码器作为光流信 息;
步骤(5):将步骤(3)获取的关键帧图像特征图和步骤(4)相邻关键帧中的光流信息进行聚合,得到加强后的像素级校准特征图yt,从图4中可以看到,图中包含了两个加 强后的像素级特征图,具体公式如下:
Figure BDA0003592986650000081
Figure BDA0003592986650000082
表示光流信息和关键帧信息聚合过程:
Figure BDA0003592986650000083
ωt+τ→t表示距离关键帧远近距离的权重参数,K表示非关键帧图像特征图的张数;
关键帧的图像特征图和光流信息融合主要是为了突出关键帧中存在的目标移动的特征; 光流网络信息的计算方式如下所示:
Figure BDA0003592986650000084
其中τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure BDA0003592986650000085
是应用于关键帧图 像特征图ft+τ→t中从帧t+τ到帧t变换的目标移位;
Figure BDA0003592986650000086
为生成两张关键帧的光流信息;It表示 当前关键帧,It+τ表示下一关键帧。
步骤(6):利用步骤(5)得到的加强后的像素级校准特征图,通过候选区域生成网络 RPN(Region Proposal Network)生成候选区域(region proposals),候选区域示意图如图4 所示,该候选区域总共生成了三个大小、长宽不一样的锚框,候选区域通过softmax判断生 成的锚框(anchors)属于正向判断(positive)还是属于负向判断(negative),再利用边界 框回归(bounding box regression)修正锚框(anchors),得到精确的候选区域(proposals); 其中根据通过RPN网络生成的候选区域是在加强后的像素级校准特征图上划分出很多大 小、宽高比不相同的候选区域,RPN会对这些框进行二分类;上述的二分类主要是选取 一些包含前景的正向判断候选区域。
步骤(7):将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入,获取到能更好抓取目标移动信息的实例级校准特征图,如图5所示,是实例级校准特征图的生成过程,其中Sampling表示选取关键帧,F表示光流网络,主要执行步骤如下,通 过公式(4,5,6)获取实例级校准特征图,其中
Figure BDA0003592986650000087
利用感兴趣区域RoI池化操作在
Figure BDA0003592986650000088
上生成第i个候选区:
Figure BDA0003592986650000089
φ(·)表示池化,
Figure BDA0003592986650000091
是光流估计结果,RoI池化使用最大池化将任何有效感兴 趣区域中的特征转换为具有固定空间范围大小的实例级校准特征图;
根据
Figure BDA0003592986650000092
在第t-τ帧和第t-τ/2帧之间利用回归网络R(·)计算第i个目标候选区域在 关键帧之间的相对移动,公式如下:
Figure BDA0003592986650000093
其中
Figure BDA0003592986650000094
表示候选区域的相对运动,
Figure BDA0003592986650000095
由全连接层实现,通过将 候选区域与真实的候选区域进行比较生成相对运动;
在时域上的针对不同关键帧获取实例级校准特征图如下:
Figure BDA0003592986650000096
其中τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure BDA0003592986650000097
表示实例级校准特征图的横坐标x和纵坐标y的变化量,
Figure BDA0003592986650000098
表示 实例级校准特征图的高和宽的变化量,
Figure BDA0003592986650000099
表示在t-τ/2帧中检测出的实例级校准特征图 的横坐标,
Figure BDA00035929866500000910
表示在t-τ/2帧中检测出的实例级校准特征图的纵坐标,
Figure BDA00035929866500000911
表示在t- τ/2帧中检测出的实例级校准特征图的宽度,
Figure BDA00035929866500000912
表示在t-τ/2帧中检测出的实例级校准 特征图的高度。
相对于获取具体目标的像素级校准,实例级校准精确抓取物体的刚性特征;同时为利用 时域关系,将前三张关键帧获取的实例级校准特征图和后三张关键帧(中间帧被使用两次) 获取的实例级校准特征图在时域上融合获取一个动量偏移量;所述动量偏移量是仿照单位时 间同一目标的速度变化量,求出两个实例级特征图中同一个目标的位移偏移量,如图6所 示,
Figure BDA00035929866500000913
表示获取的第一个实例级校准特征图,
Figure BDA00035929866500000914
表示第二个实例级校准特征图, 实例级融合表示对计算两个实例级校准特征图融合获取动量偏移量,动量偏移量与实例级校 准特征图对齐表示将动量偏移量和实例级校准特征图融合的操作;
Figure BDA00035929866500000915
表示最后的融合结 果动量级校准特征图。
步骤(8):利用步骤(7)得到的动量偏移量和实例级特征图进行融合得到最终的动量 级校准特征图如下,
Figure BDA00035929866500000916
ψ(·)表示两个实例级特征图融合产生动量偏移量,如图7所示。
其中:
Figure BDA0003592986650000101
Figure BDA0003592986650000102
st-τ标记为相邻位置敏感得分图,
Figure BDA0003592986650000103
是位置敏感的池化层,
Figure BDA0003592986650000104
表示在第i-1帧 上的实例级校准特征图,同样的方法得到第i+1帧上实例级校准为
Figure BDA0003592986650000105
Figure BDA0003592986650000106
是最后输 入到基于区域的全卷积网络检测R-FCN的动量级校准特征图。
动量级校准特征图的本质和实例级特征图的实质是一样的,只是动量级校准特征图带有 时域信息,用来代替下一个实例级特征,提高检测精度;
步骤(9):为了防止到达镜头边界,将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合,如图7所示,是实例级校准特征图的生成过程,其中Sampling表示选取关键帧,F表示光流网络,Motion Action Reasoning表示像素级校准特征和实例级校准特征的融合过程,公式如下:
Figure BDA0003592986650000107
其中α表示不同级别的特征图的权重系数,
Figure BDA0003592986650000108
表示最终的动量级校准特征图。同时将 步骤(6)中获取到的候选区域也带入到动量级校准特征图中,得到带有区域建议候选框 (target_candidate_boxs)的动量级校准特征图,该特征图就是要通过R-FCN检测模型检 测的具体特征图,其中不仅包含了时域信息和光流信息。
步骤(10):采用区域二分类器(proposal binary classification)对步骤(9)中得到 的所有区域建议目标候选框(target_candidate_boxs)进行投票分类,此处的区域二分类器, 主要是依据映射函数{0,1}根据正向判断和负向判断得到的值筛选出可能包含目标的候选区 域。筛选出包含真实目标的候选框,以判断区域建议目标候选框与真实目标的候选框的交并 比IOU(Intersection over Union)是否超过阈值,根据IOU的值决定候选框是否为感兴趣区 域(ROI),如果超过阈值,则说明该感兴趣区域中包含检测目标,并保留区域建议目标候选 框,否则丢弃;
步骤(11):构建ImageNet VID数据集中包含的30个目标类的多分类器进行分类,因 为候选区域被分成了多个部分,每个部分属于之前ImageNet VID中的30个类中的某一类, 通过对每个部分进行投票,获得票数最多的类就是该候选区域所属的分类,从而实现目标分 类任务;这里的多分类器主要是根据步骤(10)中已经确定的区域建议目标候选框与真实目 标的候选框的交并比IOU大于0.5的目标候选框进行分类;其中多分类器是使用多数票机 制的分类器,顾名思义,通过投票选择,票数最多的就是候选区域的分类,其具体步骤如下:
(111)初始化多分类器方法;
(112)将多个不同的分类器适应集成;
(113)预测分类标签方法;
(114)计算标签平均概率以及返回分类器参数;
(115)通过多分类器投票对候选区域进行分类;
步骤(12):对步骤(10)中的区域建议目标候选框区域进行边界回归,回归损失函数 如下公式(11)所示:
Figure BDA0003592986650000111
其中
Figure BDA0003592986650000112
是真实的分类,pi代表预测的分类最大可能分数,bi表示在动量级基准特征图的 上的边界框回归,
Figure BDA0003592986650000113
和deltai表示遮挡可能性和实例级校准的相对移动,
Figure BDA0003592986650000114
表示 只回归正向判断的候选区域,Ntr表示只让正向判断的候选区域回归移动目标,Lcls表示交叉 熵,Lreg和Ltr都是smooth L1损失函数。λ表示实例级校准对于整个损失函数影响的权重参数, I表示视频帧中的关键帧。
整体框架如图8所示,其中
Figure RE-GDA0003747410850000115
表示第t+τ个关键帧的加强像素级校准特征图,从步骤 (1)到当前步骤所有过程在图8中进行展示;最后回归结果图如图9所示,其中包含了不同场景的检测结果。
通过以上回归损失函数使得生成的区域建议目标候选框与真实目标的候选框重合,实现 视频目标检测的精确分类。
以上虽然描述了本发明的具体实施方法,但是本领域的技术人员应当理解,这些仅是举 例说明,在不背离本发明原理和实现的前提下,可以对这些实施方案做出多种变更或修改, 因此,本发明的保护范围由所附权利要求书限定。

Claims (5)

1.一种基于时域关系的动量视频目标检测方法,其特征在于,包括以下步骤:
步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证;将所有视频切割为先后顺序帧并存储;
步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧,作为输入;所述五个关键帧分别表示为第一张关键帧data_before_before,第二张关键帧data_before,第三张关键帧data,第四张关键帧data_after,第五张关键帧data_after_after,并分别给每个关键帧融合周围K张非关键帧图像特征图,K范围为1到25;第二张和第四张为参考关键帧;
步骤(3)选择ResNet101深度残差网络作为特征提取主干网络,特征提取主干网络包含由100个卷积层和一个全连接层,通过恒等映射保持所述深度残差网络的最优性,使深度残差网络性能不会随着深度的影响降低;步骤(2)中得到的关键帧在经过ResNet101深度残差网络后,提取出基本特征,从而得到关键帧图像特征图;
步骤(4):将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络,通过光流网络获取相邻关键帧中的光流信息;
步骤(5):将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合,得到加强后的像素级校准特征图;
步骤(6):利用步骤(5)得到的加强后的像素级校准特征图,通过候选区域生成网络RPN生成候选区域,候选区域通过softmax判断生成的锚框属于正向判断还是属于负向判断,再利用边界框回归)修正锚框,得到精确的候选区域;
步骤(7):将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入,获取到能更好抓取目标移动信息的实例级校准特征图,相对于获取具体目标的像素级校准,实例级校准精确抓取物体的刚性特征;同时为利用时域关系,将加强后图像特征图中的前三张关键帧获取的实例级校准特征图,即第一个实例级校准特征图和后三张关键帧获取的实例级校准特征图,即第二个实例级校准特征图在时域上融合获取动量偏移量,中间帧即第三张关键帧被使用两次;所述动量偏移量是仿照单位时间同一目标的速度变化量,求出两个实例级校准特征图中同一个目标的位移偏移量;
步骤(8):利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图,动量级校准特征图的本质和实例级校准特征图的实质是一样的,只是动量级校准特征图带有时域信息,用来代替下一个实例级校准特征图,提高检测精度;
步骤(9):将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合,同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中,得到所有带有区域建议目标候选框的特征图;
步骤(10):采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票分类,筛选出包含真实目标的候选框,以判断区域建议目标候选框与真实目标的候选框的交并比IOU是否超过阈值,根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值,则说明该感兴趣区域中包含检测目标,并保留真实目标的候选框,否则丢弃;
步骤(11):构建ImageNet VID数据集中包含的30个目标类的多分类器,对步骤(10)中得到的目标候选框进行分类,通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类,从而实现目标分类任务;
步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归,使得生成的区域建议目标候选框与真实目标的候选框重合,实现视频目标检测的精确分类。
2.根据权利要求1所述的基于时域关系的动量视频目标检测方法,其特征在于:所述步骤(2)中,提取五个关键帧时,每次提取以5张视频作为关键帧为一个批次进行,同时每个关键帧融合周围13张其他非关键帧,当非关键帧少于5张时,缺少的部分使用最后一张关键帧代替。
3.根据权利要求1所述的基于时域关系的动量视频目标检测方法,其特征在于:所述步骤(5)具体实现如下;
将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合,得到加强后的像素级校准特征图yt,如下:
Figure FDA0003592986640000021
Figure FDA0003592986640000022
表示光流信息和关键帧信息聚合过程:
Figure FDA0003592986640000023
ωt+τ→t表示距离关键帧远近距离的权重参数,K表示非关键帧图像特征图的张数;
τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure FDA0003592986640000024
Figure FDA0003592986640000025
其中
Figure FDA0003592986640000031
是应用于关键帧图像特征图ft+τ→t中从帧t+τ到帧t变换的目标移位;
Figure FDA00035929866400000319
为生成两张关键帧的光流信息;It表示当前关键帧,It+τ表示下一关键帧。
4.根据权利要求1所述的基于时域关系的动量视频目标检测方法,其特征在于:所述步骤(7)获取能更好抓取目标移动信息的实例级校准特征图如下:
(71)将加强后的像素级校准特征图送入到区域建议网络RPN中,通过公式(4,5,6)获取实例级校准特征图,其中
Figure FDA0003592986640000032
利用感兴趣区域RoI池化操作在
Figure FDA0003592986640000033
上生成第i个候选区:
Figure FDA0003592986640000034
φ(·)表示池化,
Figure FDA0003592986640000035
是光流估计结果,RoI池化使用最大池化将任何有效感兴趣区域中的特征转换为具有固定空间范围大小的实例级校准特征图;
根据
Figure FDA0003592986640000036
在第t-τ帧和第t-τ/2帧之间利用回归网络R(·)计算第i个目标候选区域在关键帧之间的相对移动,公式如下:
Figure FDA0003592986640000037
其中
Figure FDA0003592986640000038
表示候选区域的相对运动,
Figure FDA0003592986640000039
由全连接层实现,通过将候选区域与真实的候选区域进行比较生成相对运动;
(72)在时域上的针对不同关键帧获取实例级校准特征图如下:
Figure FDA00035929866400000310
Figure FDA00035929866400000311
其中τ标识前后不同关键帧的位置,t表示参考关键帧的位置;
Figure FDA00035929866400000312
表示实例级校准特征图的横坐标x和纵坐标y的变化量,
Figure FDA00035929866400000313
表示实例级校准特征图的高和宽的变化量,
Figure FDA00035929866400000314
表示在t-τ/2帧中检测出的实例级校准特征图的横坐标,
Figure FDA00035929866400000315
表示在t-τ/2帧中检测出的实例级校准特征图的纵坐标,
Figure FDA00035929866400000316
表示在t-τ/2帧中检测出的实例级校准特征图的宽度,
Figure FDA00035929866400000317
表示在t-τ/2帧中检测出的实例级校准特征图的高度。
5.根据权利要求1所述的基于时域关系的动量视频目标检测方法,其特征在于:所述步骤(8)中,利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图如下:
Figure FDA00035929866400000318
ψ(·)表示两个实例级特征图融合产生动量偏移量;
其中:
Figure FDA0003592986640000041
Figure FDA0003592986640000042
st-τ标记为相邻位置敏感得分图,
Figure FDA0003592986640000043
是位置敏感的池化层,
Figure FDA0003592986640000044
表示在第i-1帧上的实例级校准特征图,第i+1帧上实例级校准为
Figure FDA0003592986640000045
是最后输入到基于区域的全卷积网络检测R-FCN的动量级校准特征图。
CN202210381003.9A 2022-04-12 2022-04-12 一种基于时域关系的动量视频目标检测方法 Withdrawn CN114972840A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381003.9A CN114972840A (zh) 2022-04-12 2022-04-12 一种基于时域关系的动量视频目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381003.9A CN114972840A (zh) 2022-04-12 2022-04-12 一种基于时域关系的动量视频目标检测方法

Publications (1)

Publication Number Publication Date
CN114972840A true CN114972840A (zh) 2022-08-30

Family

ID=82978122

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381003.9A Withdrawn CN114972840A (zh) 2022-04-12 2022-04-12 一种基于时域关系的动量视频目标检测方法

Country Status (1)

Country Link
CN (1) CN114972840A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475358A (zh) * 2023-12-27 2024-01-30 广东南方电信规划咨询设计院有限公司 一种基于无人机视觉的碰撞预测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117475358A (zh) * 2023-12-27 2024-01-30 广东南方电信规划咨询设计院有限公司 一种基于无人机视觉的碰撞预测方法及装置
CN117475358B (zh) * 2023-12-27 2024-04-23 广东南方电信规划咨询设计院有限公司 一种基于无人机视觉的碰撞预测方法及装置

Similar Documents

Publication Publication Date Title
CN111460926B (zh) 一种融合多目标跟踪线索的视频行人检测方法
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
US20180129919A1 (en) Apparatuses and methods for semantic image labeling
US8374393B2 (en) Foreground object tracking
US8218819B2 (en) Foreground object detection in a video surveillance system
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN108564598B (zh) 一种改进的在线Boosting目标跟踪方法
CN110688905A (zh) 一种基于关键帧的三维物体检测与跟踪方法
CN113139896A (zh) 基于超分辨重建的目标检测系统及方法
CN112906614A (zh) 基于注意力指导的行人重识别方法、装置及存储介质
Lu et al. Superthermal: Matching thermal as visible through thermal feature exploration
CN113160283A (zh) 一种基于sift的多摄像头场景下的目标跟踪方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN114943888B (zh) 基于多尺度信息融合的海面小目标检测方法
Tsutsui et al. Distantly supervised road segmentation
CN114972840A (zh) 一种基于时域关系的动量视频目标检测方法
CN114359196A (zh) 雾气检测方法及系统
CN114529894A (zh) 一种融合空洞卷积的快速场景文本检测方法
CN111275733A (zh) 基于深度学习目标检测技术实现多艘船舶快速跟踪处理的方法
CN113989265B (zh) 基于深度学习的速度传感器螺栓丢失故障识别方法
CN114863249A (zh) 基于运动特征和外观特征的视频目标检测及域适应方法
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN114782860A (zh) 一种监控视频中暴力行为检测系统及方法
CN110602487A (zh) 一种基于tsn网络的视频画面抖动检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220830

WW01 Invention patent application withdrawn after publication