CN114972840A

CN114972840A - 一种基于时域关系的动量视频目标检测方法

Info

Publication number: CN114972840A
Application number: CN202210381003.9A
Authority: CN
Inventors: 蔡强; 康楠; 李海生; 韩龙飞; 常浩东; 万如一
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-08-30

Abstract

本发明公开一种基于时域关系的动量视频目标检测方法，包括：(1)利用实例级校准方法获得时间维度的实例级校准特征图；(2)为了获取到更有用的信息，进一步利用在时域方面关键帧之间的先后关系计算相邻实例级校准特征图产生的动量偏移量；(3)将产生的动量偏移量和时域信息最新的实例级校准特征图融合，即可获得动量级实例校准特征图，用动量级实例校准特征图代替下一关键帧的实例校准特征图。本发明利用两个相邻的实例级特征图产生动量级实例校准特征图，通过这种类似于速度相对于加速度的偏移量，结合实例级特征图产生动量级实例校准特征图，以已知信息来预测未知信息的位置信息，从而提高检测精确率。

Description

一种基于时域关系的动量视频目标检测方法

技术领域

本发明涉及计算机视觉中的深度学习部分，特别是涉及目标检测中的视频目标检测方面，一种基于时域关系的动量视频目标检测方法。

背景技术

随着物联网以及多媒体技术的发展、计算机性能的显著提高，使得深度学习和云计算成为可能。在监控领域一个1080P高清摄像头的码流率为8Mb/s，一天可捕获约86.4GB视频数量。据《2017-2022年全球视频分析，VCA，ISR和智能视频监控市场报告》，视频监控和分析2015-2022年市场复合增长率18.2％，将会形成167个子市场，视频监控、智能交通系统、安全城市、无人驾驶自动驾驶汽车、无人机、警用摄像头、智能零售视频系统和社交媒体视频流只是用户为提高其性能而使用的部分视频。

目标检测的目的是对图片或视频中多个感兴趣的目标进行检测和分类。其按检测对象可以分为图像目标检测和视频目标检测。当前，图像目标检测在深度学习的背景下，已经趋于成熟。但是，在无人驾驶、视频监控、人机交互等方面对视频目标检测有着广泛的需求。当前的视频目标检测算法，大多数是将视频中独有的时序信息和上下文信息以不同的形式加入到图像目标检测的框架中，从而对视频中包含的目标进行分类和检测。

相较于图像来说，视频的一个关键元素是时序信息，人们普遍认为图像内容在视频帧之间变化缓慢，尤其是在高级语义上。因此，视频中目标的位置和外观在时间上应该是一致的，即检测结果在边界框位置和检测置信度上不应该随着时间发生剧烈的变化。视频的另一个关键因素是上下文信息，即在相邻的关键帧之间检测出来的目标应该具有一定的联系。虽然在视频图像上下文信息方面已经有相关研究，但是将具有更丰富的上下文信息视频作为数百幅静态图像的集合直接用于静态图像目标检测器得不到较好的检测结果。所以要做好视频目标检测就要充分利用视频中包含的时序信息和上下文信息。

视频目标检测还在起步阶段，目前大部分的视频目标检测方案都是借助于静态图像目标检测框架进一步利用视频的上下文信息和时序信息。2015年大规模视觉挑战赛中提出了 ImageNet VID数据集，作为视频目标检测的基准数据集。随后，视频目标检测在计算机视觉领域内引起了广大的关注。非极大值抑制Seq-NMS方法将静止图像检测的结果关联到序列中，构建高置信度边界框序列，并对检测框按平均置信度或最大置信度重新评分。该方法作为一个后处理步骤，需要在每帧检测上额外运行。基于tubelets的视频目标检测算法采用对象跟踪算法生成tubelets，虽然可以生成tubelets，但是计算量非常大。为了优化tubelets的生成，T-CNN的算法基于运动的方式能够有效地获得致密的tubelets，但是长度通常仅为几帧，这对于包含长期时间信息不是最佳方案。为了进一步优化，金字塔网络TPN和长短期记忆网络通过产生时空候选区域并融合时间信息来获取高准确率。在大规模数据集ImageNet VID上的实验表明了这种框架可以在视频目标检测中取得很好的结果。

针对通过改善图像目标检测的后处理步骤来进行视频目标检测算法的计算量较大问题，深度前馈网络DFF方法按固定的时间间隔提取视频帧作为关键帧，在关键帧上运行计算量极大的卷积神经网络，得到关键帧的检测结果，然后，采用光流表示视频中的时序信息，通过光流场将关键帧的检测结果传播到相邻帧，大幅度提高了视频目标检测的精度。由于在检测过程中，输入到卷积神经网络的信息不包含时序信息，光流引导的视频目标检测特征聚合方法FGFA算法将通过光流图像得到的特征和原始视频帧提取到的特征进行融合，输入到卷积神经网络中进行训练，最终，提高了视频目标检测算法的精度。针对算法中，在固定的时间间隔提取关键帧可能会造成重要信息缺失的问题。全动作感知网络的视频对象检测方法 MANet模型先提取出帧的特征和用FlowNet(simple version)提取出帧间的光流信息，完成像素级的校准，接着通过预测出来的实例的移动过程，其实就是R-FCN得到的建议区域，再进行实例级别的校准，后融合像素级最和实例级得到的特征用于训练和测试。

但是以上的方法都没有考虑使用时域关系来处理相邻关键帧的信息，为了解决视频帧中存在大量物体外观退化现象，导致目标特征不明显，视频中存在的噪声较多，其中最主要的是因为视频质量的不同，视频中存在很多外观退化物体，这类图像具有很少的可利用信息。

目前还没有机构将相邻关键帧之间的时域关系应用到根据相邻关键帧产生动量偏移量，得到动量级实例校准信息来提高视频目标的检测精确率。

发明内容

本发明技术解决问题：针对视频中存在部分遮挡、散焦、特殊姿势和动作模糊等视频帧中存在的现象，提供一种基于时域关系的动量视频目标检测方法，利用两个相邻的实例级特征图产生动量级校准特征图，通过这种类似于速度相对于加速度的偏移量，结合实例级特征图产生动量级校准特征图，以已知信息来预测未知信息的位置信息，从而提高检测精确率。

本发明的技术方案如下：

一种基于时域关系的动量视频目标检测方法，解决视频帧中存在大量物体外观退化现象，导致目标特征不明显，视频中存在很多外观退化物体，这类图像具有很少的可利用信息，为了进一步提高视频目标检测的精确率。

具体包括以下步骤：

步骤(1)利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证；将所有视频切割为先后顺序帧并存储；

步骤(2)利用OpenCV库中对应图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧，作为输入；所述五个关键帧分别表示为第一张关键帧data_before_before,第二张关键帧data_before,第三张关键帧data,第四张关键帧data_after,第五张关键帧 data_after_after，并分别给每个关键帧融合周围K张非关键帧图像特征图，K范围为1到25；第二张和第四张为参考关键帧，并分别给每个关键帧融合周围K张非关键帧图像特征图，K 范围为1到25，K为13时效果最好；第二张和第四张为参考关键帧；

步骤(3)选择ResNet101深度残差网络作为特征提取主干网络，特征提取主干网络包含由100个卷积层和一个全连接层，通过恒等映射(identity mapping)保持所述深度残差网络的最优性，使深度残差网络性能不会随着深度的影响降低；步骤(2)中得到的关键帧在经过ResNet101深度残差网络后，提取出基本特征，从而得到关键帧图像特征图；

步骤(4)：将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络(FlowNet，simple version)，通过光流网络获取相邻关键帧中的光流信息；光流网络的结构采用编解码网络结构；

步骤(5)：将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图；

步骤(6)：利用步骤(5)得到的加强后的像素级校准特征图，通过候选区域生成网络 RPN(Region Proposal Network)生成候选区域(region proposals)，候选区域通过softmax 判断生成的锚框(anchors)属于正向判断(positive)还是属于负向判断(negative)，再利用边界框回归(bounding box regression)修正锚框,得到精确的候选区域；

步骤(7)：将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入，获取到能更好抓取目标移动信息的实例级校准特征图，相对于获取具体目标的像素级校准，实例级校准精确抓取物体的刚性特征；同时为利用时域关系，将加强后图像特征图中的前三张关键帧获取的实例级校准特征图，即第一个实例级校准特征图和后三张关键帧获取的实例级校准特征图，即第二个实例级校准特征图在时域上融合获取动量偏移量，中间帧即第三张关键帧被使用两次；所述动量偏移量是仿照单位时间同一目标的速度变化量，求出两个实例级校准特征图中同一个目标的位移偏移量；

步骤(8)：利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图，动量级校准特征图的本质和实例级校准特征图的实质是一样的，只是动量级校准特征图带有时域信息，用来代替下一个实例级校准特征图，提高检测精度；

步骤(9)：为了防止到达镜头边界，将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合，同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中，得到所有带有区域建议目标候选框的特征图(target_candidate_boxs)；

步骤(10)：采用区域二分类器(proposal binary classification)对步骤(9)中得到的所有区域建议目标候选框(target_candidate_boxs)进行投票分类，筛选出包含真实目标的候选框，以判断区域建议目标候选框与真实目标的候选框的交并比IOU(Intersection over Union) 是否超过阈值，根据IOU的值决定候选框是否为感兴趣区域RoI，如果超过阈值，则说明该感兴趣区域中包含检测目标，并保留真实目标的候选框，否则丢弃；

步骤(11)：构建ImageNet VID数据集中包含的30个目标类的多分类器，对步骤(10) 中得到的目标候选框进行分类，通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类，从而实现目标分类任务；

步骤(12)对步骤(10)中的区域建议目标候选框区域进行边界回归，使得生成的区域建议目标候选框与真实目标的候选框重合，实现视频目标检测的精确分类。

所述步骤(2)中，提取五个关键帧时，每次提取以5张视频作为关键帧为一个批次进行，同时每个关键帧融合周围13张其他非关键帧，当非关键帧少于5张时，缺少的部分使用最后一张关键帧代替。

所述步骤(5)具体实现如下；

将步骤(3)获取的关键帧图像特征图和步骤(4)中的相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图y_t，如下：

表示光流信息和关键帧信息聚合过程，其中：

ω_t+τ→t表示距离关键帧远近距离的权重参数，K表示非关键帧图像特征图的张数；

τ标识前后不同关键帧的位置，t表示参考关键帧的位置；

其中

是应用于关键帧图像特征图f_t+τ→t中从帧t+τ到帧t变换的目标移位；

为生成两张关键帧的光流信息；I_t表示当前关键帧，I_t+τ表示下一关键帧。

所述步骤(7)获取能更好抓取目标移动信息的实例级校准特征图如下：

(71)将加强后的像素级校准特征图送入到区域建议网络RPN中，通过公式(4，5，6)获取实例级校准特征图，其中

利用感兴趣区域RoI池化操作在

上生成第i个候选区：

φ(·)表示池化，

是光流估计结果，RoI池化使用最大池化将任何有效感兴趣区域中的特征转换为具有固定空间范围大小的实例级校准特征图；

根据

在第t-τ帧和第t-τ/2帧之间利用回归网络R(·)计算第i个目标候选区域在关键帧之间的相对移动，公式如下：

其中

表示候选区域的相对运动，

由全连接层实现，通过将候选区域与真实的候选区域进行比较生成相对运动；

(72)在时域上的针对不同关键帧获取实例级校准特征图如下：

其中τ标识前后不同关键帧的位置，t表示参考关键帧的位置；

表示实例级校准特征图的横坐标x和纵坐标y的变化量，

表示实例级校准特征图的高和宽的变化量，

表示在t-τ/2帧中检测出的实例级校准特征图的横坐标，

表示在t-τ/2帧中检测出的实例级校准特征图的纵坐标，

表示在t- τ/2帧中检测出的实例级校准特征图的宽度，

表示在t-τ/2帧中检测出的实例级校准特征图的高度；

最后，根据产生的坐标信息确定实例级校准特征图，该位置即是真实目标存在的位置。

本发明利用了相邻帧之间同一目标的动量位移来确定下一帧目标要出现的位置，具有克服视频目标检测中出现的外观劣化现象带来的检测精度偏低情况的作用，能够帮助提高视频目标检测的精度。

所述步骤(8)中，利用步骤(7)得到的动量偏移量和实例级校准特征图进行融合得到最终动量级校准特征图如下：

ψ(·)表示两个实例级特征图融合产生动量偏移量，

其中：

s_t-τ标记为相邻位置敏感得分图，

是位置敏感的池化层，

表示在第i-1帧上的实例级校准特征图，同样的方法得到第i+1帧上实例级校准为

是最后输入到基于区域的全卷积网络检测R-FCN的动量级校准特征图：

动量级校准特征图

包含了帮助克服视频目标检测中物体外观劣化现象的动量信息，这种采用动量的方法具有利用已知信息帮助确定下一时域目标位置的特征，这样提高视频中存在外观劣化现象时目标的检测精度。

本发明与现有的技术相比优点在于：本发明基于动量级的实例级校准方法，不仅利用了时域信息，将两个在时域上存在先后关系的特征图进行融合，克服视频目标检测中存在的目标外观劣化现象，而且为了防止到达镜头边界，获取到动量级校准特征图后，再次利用了像素级校准特征与动量级实例校准特征进行融合，增强模型的鲁棒性；而且基于R-FCN的目标检测模型可操作性强且检测准确度高，使得在保证图像目标检测速度的同时提高了准确度。

附图说明

图1是本发明方法流程图；

图2是本发明中动量级校准特征图的融合过程；

图3是本发明中主干提取网络的残差块图；

图4是本发明中候选区域示意图；

图5是本发明中实例级校准生成过程图；

图6是本发明中动量偏移量获取和动量级实例校准特征图融合的示意图；

图7是本发明中融合加强像素级校准特征图和动量级实例校准特征图的过程示意图；

图8是本发明整体框架示意图；

图9是本发明中候选区域的边界回归和检测结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。

如图1所示，本发明一种基于时域关系的动量视频目标检测方法，通过在时域信息上利用视频关键帧之间的先后关系，以现有的特征图-动量级特征图，去对应下一帧实例级特征图，动量级特征图主要尝试解决关键帧中出现的外观劣化现象。

步骤(1)：利用ImageNet VID数据集的视频帧之间存在的时序信息进行训练和验证；将所有视频切割为先后顺序帧并存储，存储过程是按照各个视频的名称为视频帧的文件夹进行存储；

步骤(2)：利用OpenCV库中对应图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧作为输入；如图2所示，是动量级校准特征图的融合过程；所述五个关键帧分别表示为第一张关键帧data_before_before，第二张关键帧data_before，第三张关键帧data，第四张关键帧data_after，第五张关键帧data_after_after，并分别给每个关键帧融合周围K张非关键帧图像特征图，K范围为1到25；第二张和第四张为参考关键帧。分别给每个关键帧融合周围K张帧图像特征图，K为周围帧的数量，范围为1到25，K为13时效果最好；该步骤中第三张关键帧会被使用两次，第一次是和前两张关键帧一起使用，第二次是和后两张关键帧一起使用，分别用于生成时域上两个在时域上具有先后关系的实例级校准特征图；其中，图2中自上而下演示了动量级校准特征图的生成过程，首先是从视频关键帧提取基本特征到实例级校准特征图，再从实例级校准特征图产生动量偏移量，最后结合实例级校准特征图和动量偏移量融合生成动量级校准特征图。

步骤(3)：选择ResNet101深度残差网络作为特征提取主干网络，特征提取主干网络包含由100个卷积层和一个全连接层，如图3所示，是残差网络的残差块结构，其中x表示上层输入，F_(x)表示卷积处理后的特征，F_(x)+x是卷积处理后的上层输入和卷积处理后的特征的融合后的基本特征。通过恒等映射(identity mapping)保持所述深度残差网络的最优性，使深度残差网络性能不会随着深度的影响降低；步骤(2)中得到的关键帧在经过ResNet101 深度残差网络后，得到每个关键帧的基本特征；这些基本特征主要由关键帧的基本特征和关键帧图像特征图附近的叠加特征共同组成；关键帧附近帧的叠加特征即指从非关键帧中提取的基本特征。其中，图3中x表示上层输入，F_(x)表示卷积特征，F_(x)+x是基本特征，Relu表示修正线性单元，1×1、3×3表示卷积核，256和64表示维数。

步骤(4)：将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络(FlowNet，simple version)，通过光流网络获取相邻帧中存在的光流信息；光流网络的结构采用编解码网络结构，对输入的图像先进行编码，获取到具体的特征信息后，再结合解码器作为光流信息；

步骤(5)：将步骤(3)获取的关键帧图像特征图和步骤(4)相邻关键帧中的光流信息进行聚合，得到加强后的像素级校准特征图y_t，从图4中可以看到，图中包含了两个加强后的像素级特征图，具体公式如下：

表示光流信息和关键帧信息聚合过程：

关键帧的图像特征图和光流信息融合主要是为了突出关键帧中存在的目标移动的特征；光流网络信息的计算方式如下所示：

步骤(6)：利用步骤(5)得到的加强后的像素级校准特征图，通过候选区域生成网络 RPN(Region Proposal Network)生成候选区域(region proposals)，候选区域示意图如图4 所示，该候选区域总共生成了三个大小、长宽不一样的锚框，候选区域通过softmax判断生成的锚框(anchors)属于正向判断(positive)还是属于负向判断(negative)，再利用边界框回归(bounding box regression)修正锚框(anchors)，得到精确的候选区域(proposals)；其中根据通过RPN网络生成的候选区域是在加强后的像素级校准特征图上划分出很多大小、宽高比不相同的候选区域，RPN会对这些框进行二分类；上述的二分类主要是选取一些包含前景的正向判断候选区域。

步骤(7)：将步骤(5)得到的加强后像素级校准特征图作为区域建议网络RPN的输入，获取到能更好抓取目标移动信息的实例级校准特征图，如图5所示，是实例级校准特征图的生成过程，其中Sampling表示选取关键帧，F表示光流网络，主要执行步骤如下，通过公式(4，5，6)获取实例级校准特征图，其中

利用感兴趣区域RoI池化操作在

上生成第i个候选区：

φ(·)表示池化，

根据

其中

表示候选区域的相对运动，

在时域上的针对不同关键帧获取实例级校准特征图如下：

表示实例级校准特征图的横坐标x和纵坐标y的变化量，

表示实例级校准特征图的高和宽的变化量，

表示在t-τ/2帧中检测出的实例级校准特征图的横坐标，

表示在t-τ/2帧中检测出的实例级校准特征图的纵坐标，

表示在t- τ/2帧中检测出的实例级校准特征图的宽度，

表示在t-τ/2帧中检测出的实例级校准特征图的高度。

相对于获取具体目标的像素级校准，实例级校准精确抓取物体的刚性特征；同时为利用时域关系，将前三张关键帧获取的实例级校准特征图和后三张关键帧(中间帧被使用两次) 获取的实例级校准特征图在时域上融合获取一个动量偏移量；所述动量偏移量是仿照单位时间同一目标的速度变化量，求出两个实例级特征图中同一个目标的位移偏移量，如图6所示，

表示获取的第一个实例级校准特征图，

表示第二个实例级校准特征图，实例级融合表示对计算两个实例级校准特征图融合获取动量偏移量，动量偏移量与实例级校准特征图对齐表示将动量偏移量和实例级校准特征图融合的操作；

表示最后的融合结果动量级校准特征图。

步骤(8)：利用步骤(7)得到的动量偏移量和实例级特征图进行融合得到最终的动量级校准特征图如下，

ψ(·)表示两个实例级特征图融合产生动量偏移量，如图7所示。

其中：

s_t-τ标记为相邻位置敏感得分图，

是位置敏感的池化层，

是最后输入到基于区域的全卷积网络检测R-FCN的动量级校准特征图。

动量级校准特征图的本质和实例级特征图的实质是一样的，只是动量级校准特征图带有时域信息，用来代替下一个实例级特征，提高检测精度；

步骤(9)：为了防止到达镜头边界，将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合，如图7所示，是实例级校准特征图的生成过程，其中Sampling表示选取关键帧，F表示光流网络，Motion Action Reasoning表示像素级校准特征和实例级校准特征的融合过程，公式如下：

其中α表示不同级别的特征图的权重系数，

表示最终的动量级校准特征图。同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中，得到带有区域建议候选框 (target_candidate_boxs)的动量级校准特征图，该特征图就是要通过R-FCN检测模型检测的具体特征图，其中不仅包含了时域信息和光流信息。

步骤(10)：采用区域二分类器(proposal binary classification)对步骤(9)中得到的所有区域建议目标候选框(target_candidate_boxs)进行投票分类，此处的区域二分类器，主要是依据映射函数{0，1}根据正向判断和负向判断得到的值筛选出可能包含目标的候选区域。筛选出包含真实目标的候选框，以判断区域建议目标候选框与真实目标的候选框的交并比IOU(Intersection over Union)是否超过阈值，根据IOU的值决定候选框是否为感兴趣区域(ROI)，如果超过阈值，则说明该感兴趣区域中包含检测目标，并保留区域建议目标候选框，否则丢弃；

步骤(11)：构建ImageNet VID数据集中包含的30个目标类的多分类器进行分类，因为候选区域被分成了多个部分，每个部分属于之前ImageNet VID中的30个类中的某一类，通过对每个部分进行投票，获得票数最多的类就是该候选区域所属的分类，从而实现目标分类任务；这里的多分类器主要是根据步骤(10)中已经确定的区域建议目标候选框与真实目标的候选框的交并比IOU大于0.5的目标候选框进行分类；其中多分类器是使用多数票机制的分类器，顾名思义，通过投票选择，票数最多的就是候选区域的分类，其具体步骤如下：

(111)初始化多分类器方法；

(112)将多个不同的分类器适应集成；

(113)预测分类标签方法；

(114)计算标签平均概率以及返回分类器参数；

(115)通过多分类器投票对候选区域进行分类；

步骤(12)：对步骤(10)中的区域建议目标候选框区域进行边界回归，回归损失函数如下公式(11)所示：

其中

是真实的分类，pⁱ代表预测的分类最大可能分数，bⁱ表示在动量级基准特征图的上的边界框回归，

和deltaⁱ表示遮挡可能性和实例级校准的相对移动，

表示只回归正向判断的候选区域，N_tr表示只让正向判断的候选区域回归移动目标，L_cls表示交叉熵，L_reg和L_tr都是smooth L₁损失函数。λ表示实例级校准对于整个损失函数影响的权重参数， I表示视频帧中的关键帧。

整体框架如图8所示，其中

表示第t+τ个关键帧的加强像素级校准特征图，从步骤 (1)到当前步骤所有过程在图8中进行展示；最后回归结果图如图9所示，其中包含了不同场景的检测结果。

通过以上回归损失函数使得生成的区域建议目标候选框与真实目标的候选框重合，实现视频目标检测的精确分类。

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种基于时域关系的动量视频目标检测方法，其特征在于，包括以下步骤：

步骤(2)利用图像数据读取方法每次从步骤(1)中的顺序帧中读取五个关键帧，作为输入；所述五个关键帧分别表示为第一张关键帧data_before_before，第二张关键帧data_before，第三张关键帧data，第四张关键帧data_after，第五张关键帧data_after_after，并分别给每个关键帧融合周围K张非关键帧图像特征图，K范围为1到25；第二张和第四张为参考关键帧；

步骤(3)选择ResNet101深度残差网络作为特征提取主干网络，特征提取主干网络包含由100个卷积层和一个全连接层，通过恒等映射保持所述深度残差网络的最优性，使深度残差网络性能不会随着深度的影响降低；步骤(2)中得到的关键帧在经过ResNet101深度残差网络后，提取出基本特征，从而得到关键帧图像特征图；

步骤(4)：将步骤(2)获取到的关键帧按照通道拼接后送入到光流网络，通过光流网络获取相邻关键帧中的光流信息；

步骤(6)：利用步骤(5)得到的加强后的像素级校准特征图，通过候选区域生成网络RPN生成候选区域，候选区域通过softmax判断生成的锚框属于正向判断还是属于负向判断，再利用边界框回归)修正锚框,得到精确的候选区域；

步骤(9)：将步骤(5)和步骤(8)两步分别得到的像素级校准特征图和动量级校准特征图进行融合，同时将步骤(6)中获取到的候选区域也带入到动量级校准特征图中，得到所有带有区域建议目标候选框的特征图；

步骤(10)：采用区域二分类器对步骤(9)中得到的所有区域建议目标候选框进行投票分类，筛选出包含真实目标的候选框，以判断区域建议目标候选框与真实目标的候选框的交并比IOU是否超过阈值，根据IOU的值决定候选框是否为感兴趣区域RoI,如果超过阈值，则说明该感兴趣区域中包含检测目标，并保留真实目标的候选框，否则丢弃；

步骤(11)：构建ImageNet VID数据集中包含的30个目标类的多分类器，对步骤(10)中得到的目标候选框进行分类，通过投票机制判断目标候选框属于ImageNet VID数据集中已知的30类标签中的哪一类，从而实现目标分类任务；

2.根据权利要求1所述的基于时域关系的动量视频目标检测方法，其特征在于：所述步骤(2)中，提取五个关键帧时，每次提取以5张视频作为关键帧为一个批次进行，同时每个关键帧融合周围13张其他非关键帧，当非关键帧少于5张时，缺少的部分使用最后一张关键帧代替。

3.根据权利要求1所述的基于时域关系的动量视频目标检测方法，其特征在于：所述步骤(5)具体实现如下；