CN113642498B

CN113642498B - 一种基于多层次时空特征融合的视频目标检测系统及方法

Info

Publication number: CN113642498B
Application number: CN202110965014.7A
Authority: CN
Inventors: 刘勇; 徐超
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2024-05-03
Anticipated expiration: 2041-08-20
Also published as: CN113642498A

Abstract

本发明公开了一种基于多层次时空特征融合的视频目标检测系统及方法，其中的视频目标检测系统包括可变形特征对齐模块和多层次时空特征融合模块，所述可变形特征对齐模块，根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该运动偏移量将支撑帧的特征与参考帧的特征对齐；所述多层次时空特征融合模块，利用对齐后支撑帧的特征对参考帧的特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果。很好的应对模糊、遮挡、虚焦以及罕见姿态等视频低质量帧的情况，提高了视频目标检测的稳定性和时序一致性，可以广泛应用在自动驾驶、智能视频监控等领域。

Description

一种基于多层次时空特征融合的视频目标检测系统及方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于多层次时空特征融合的视频目标检测系统及方法。

背景技术

深度学习(DL,Deep Learning)，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

深度学习在图像目标检测领域迅速发展，已经取得了显著的成绩，各种高精度的实时目标检测器已经应用在生活中的许多场景，比如智能视频监控、自动驾驶导航等。然而，基于静态图像的目标检测很难应对一些低质量视频帧，比如运动模糊、遮挡、虚焦以及因为运动而引起的罕见姿态等。在检测过程中如何保持时序一致性使得中间帧的一些结果不会漏检或误检，这是视频目标检测技术的一个难点。由于视频相比较于单帧图像有时序信息，利用时序上下文信息可以提升低质量帧的检测性能。在视频目标检测领域中，待检测帧叫做参考帧，过去帧和未来帧统一称为支撑帧。目前常见方法有两种，第一种是对每一帧进行目标检测，然后对所有帧的结果做一个修正。另一种是利用运动信息来对当前帧的特征进行增强。第二种方法从融合上下文特征的角度出发，而不是在结果层面上进行融合，比第一种方法更本质。但是现在第二种方法的一些子方法如帧级别融合的方法(Flow-GuidedFeature Aggregation for Video Object Detection，简称FGFA)、候选框级别的方法(Relation Distillation Networks for Video Object Detection，简称RDN))等往往只在帧级别或者候选框级别对当前帧的特征进行特征增强，这样并不能充分利用时序上下文信息仍然难以提高对低质量帧目标物体的检测精准率和召回率，可能存在因为运动过快而导致融合不准确的问题。

发明内容

本发明的目的是针对目前的方法不能充分的融合时序上下文的特征这一问题，提供了一种基于多层次时空特征融合的视频目标检测系统及方法。能很好的应对模糊、遮挡、虚焦以及罕见姿态等视频低质量帧的情况，提高了视频目标检测的稳定性和时序一致性，可以广泛应用在自动驾驶、智能视频监控等领域。

为了实现以上目的，本发明提供了一种基于多层次时空特征融合的视频目标检测系统，包括可变形特征对齐模块和多层次时空特征融合模块，所述可变形特征对齐模块，根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该运动偏移量将支撑帧的特征与参考帧的特征对齐；所述多层次时空特征融合模块，利用对齐后的支撑帧的特征对参考帧的特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果。

进一步的，在所述的可变形特征对齐模块中：首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的对齐。

进一步的，所述可变形特征对齐模块包括4个可变形卷积模块，每个可变形卷积模块包括1层卷积和1层可变形卷积。

进一步的，所述多层次时空特征融合模块包括帧级别的特征融合模块、候选框级别的特征融合模块和实例级别的特征融合模块，所述帧级别的特征融合模块，采用注意力机制通过对齐后的支撑帧的特征来增强参考帧的特征得到更新后的参考帧的特征；

所述候选框级别的特征融合模块，使用注意力机制，用支撑帧的候选框特征来增强参考帧的候选框特征；

所述实例级别的特征融合模块，根据物体身份信息辨别出候选框级别的特征融合模块输出的参考帧的候选框属于前景还是背景，对参考帧的候选框特征进行增强，并将参考帧增强后的候选框特征输入到分类和回归网络得到参考帧的检测结果。

更进一步的，所述帧级别特征融合模块的注意力机制采用多层多头的结构，包含4层注意力机制结构，每一层注意力机制结构包含8个注意力机制头。每一层注意力机制结构使用1层全连接层对查询和键值进行映射。

更进一步的，所述候选框级别特征融合模块中的注意力机制采用多层多头的结构，包含2层注意力机制结构，每一层注意力机制结构包含16个注意力机制头；每一层注意力机制结构使用2层全连接层对查询和键值进行映射。

更进一步的，在所述的帧级别特征融合模块中：首先将对齐后的支撑帧的特征和参考帧的特征拉平成一维向量，参考帧的特征作为查询，支撑帧的特征作为键值；查询和键值通过全连接层进行映射，查询和键值之间进行点积和softmax层得到两者之间的相似度权重，相似度权重和键值进行点积，点积后的特征经过全连接层映射并和原始的值(即查询)进行逐元素相加得到更新后的特征。

更进一步的，在所述的候选框级别特征融合模块中：参考帧的候选框特征作为查询，所有支撑帧的候选框特征作为键值，先经过全连接层对查询和键值特征进行映射；其次计算查询和键值之间的相似度权重；将候选框的尺寸特征和语义特征进行合并，通过softmax层计算相似度权重；之后相似度权重和键值进行点积，再和原始的值(即查询)进行相加得到更新后的参考帧的候选框特征。

更进一步的，在所述的实例级别的特征融合模块中：根据物体身份信息辨别出候选框级别的特征融合模块输出的参考帧的候选框属于前景还是背景，得到参考帧的前景候选框以及与之关联的支撑帧的前景候选框，根据支撑帧的前景候选框特征对参考帧的前景候选框特征进行增强。

本发明还提供一种基于多层次时空特征融合的视频目标检测方法，其特征在于，包括以下步骤：

第一步、根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该偏移量将支撑帧的特征与参考帧的特征对齐；

第二步、从粗到精利用支撑帧的特征对参考帧的特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果。

进一步的，所述第一步具体为：首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的特征对齐。

更进一步的，所述第二步具体为：

S1、将对齐后的参考帧的特征经帧级别特征融合网络，该网络利用支撑帧的特征来增强参考帧的特征实现初步的特征更新；

S2、将初步的特征更新后的参考帧的特征通过候选框提取网络，得到每一帧的候选框的特征，并对参考帧的候选框的特征进行增强；

S3、利用实例级别的特征网络根据物体身份信息辨别出参考帧的候选框属于前景还是背景，对参考帧的候选框特征进行增强，并将参考帧增强后的候选框特征输入到分类和回归网络得到参考帧的检测结果。

更进一步的，所述步骤S3中，判断参考帧的候选框属于前景还是背景，使用框之间的交并比来实现。

采用本发明技术方案，本发明的有益效果为：本系统及方法采用基于Py-Torch深度学习框架，首先通过前期处理的可变形特征对齐模块实现帧间之间的运动对齐，这样保证了在帧级别特征融合模块使用的是对齐后的特征，不会因为运动过快而导致融合不准确，相比传统方法多了这个前期处理步骤；其次通过多层次特征融合模块中的多个模块依次配合，整体网络采用了从粗略融合到精细融合的设计思想，相比较于目前的方法使用单一层次的特征进行融合，本系统及方法大大提高了低质量帧的特征，提高了视频目标检测整体的稳定性和时序一致性，减少了漏检和误检的情况。

附图说明

图1是本发明中整体网络结构示意图；

图2是本发明中可变形特征对齐模块的功能结构示意图；

图3是本发明中帧级别特征融合模块的功能结构示意图；

图4是本发明应用在ImageNet VID数据集上的效果示意图。

具体实施方式

结合附图对本发明具体方案具体实施例作进一步的阐述，使得本技术方案更加清楚、明白。

如图1所示的完整网络结构图，本实施例公开了一种基于多层次时空特征融合的视频目标检测系统，包含可变形特征对齐网络和多层次时空特征融合网络，分别包括可变形特征对齐模块以及由帧级别特征融合模块/>候选框级别特征融合模块/>实例级别特征融合模块/>组成的多层次时空特征融合模块。

本实施例使用ImageNet VID数据集包含30个类别，包括3862个训练序列和555个验证序列。本实施例的系统及方法采用ImageNet DET图像数据集作为数据补充，该数据集包含200个类别，其中包含VID中的30类。将图像重复三次构成一个序列进行训练。

本实施例的多层次时空特征融合网络基于二阶段单帧图像目标检测器FasterRCNN进行搭建，包含骨架网络、候选框提取网络以及最终的分类和回归分支。在此基础上提出了可变形特征对齐模块和多层次时空特征融合模块。整个序列经过FasterRCNN骨架网络得到帧级别的特征/>帧级别的特征先经过可变形特征对齐模块对帧间特征进行对齐，得到对齐后的特征/>帧级别的特征融合模块使用了注意力机制对序列的每一帧的特征都进行了增强更新，得到增强后的特征/>接下来经过候选框提取模块，得到每一帧的候选框级别的特征，/>表示参考帧候选框特征，/>表示支撑帧候选框特征。在候选框级别和实例级别对参考帧的候选框特征继续进行增强。最后增强的参考帧的特征输入到分类和回归网络得到最终的检测框。

按照图2所示的结构搭建可变形特征对齐模块，将骨架网络输出的特征计算帧间的运动偏移量，然后利用运动偏移量对支撑帧的特征进行校准，实现对参考帧的特征对齐。

本实施例的可变形特征对齐模块包括4个可变形卷积结构，其中每一个可变形卷积结构包括1层卷积和1层可变形卷积。为了将支撑帧的前景和参考帧的前景进行对齐，首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的对齐。

所述的帧级别特征融合模块采用注意力机制，用支撑帧的特征来增强参考帧的特征。具体地，首先将对齐后的支撑帧的特征和参考帧的特征拉平成一维向量，参考帧的特征作为查询，支撑帧的特征作为键值。查询和键值通过全连接层进行映射，查询和键值之间进行点积和softmax层得到两者之间的相似度权重，相似度权重和值进行点积，点积后的特征经过全连接层映射并和原始的值(指代查询，即参考帧的特征)进行逐元素相加得到更新后的参考帧的特征。

帧级别特征融合模块中的注意力机制使用1层全连接层对查询和键值进行映射。注意力机制使用多层结构，本实施例中包含4层注意力机制结构。注意力机制使用多头注意力机制结构，本实施例中每一层注意力机制结构包含8个注意力机制头。

本实施例的候选框级别特征融合模块使用注意力机制，用支撑帧的候选框的特征来增强参考帧候选框特征。具体地，参考帧候选框特征作为查询，所有支撑帧候选框特征作为键值，首先经过全连接层对查询和键值特征进行映射。接下来计算查询和键值之间的相似度权重。为了考虑到前景物体的尺寸，将候选框的尺寸特征和语义特征进行合并，通过softmax层计算相似度权重。之后相似度权重和键值进行点积，再和原始的值进行相加得到更新后的参考帧候选框特征。

候选框级别特征融合模块中的注意力机制使用2层全连接层对查询和键值进行映射。注意力机制使用多层结构，本实施例多层结构包含2层注意力机制结构。注意力机制使用多头注意力机制结构，每一层注意力机制结构包含16个注意力机制头。

本实施例的实例级别特征融合模块进一步对前景物体进行特征增强。具体地，根据物体身份信息辨别出候选框属于前景还是背景，得到参考帧前景候选框以及与之关联的支撑帧前景候选框，根据支撑帧的前景候选框的特征对参考帧的前景候选框的特征做进一步增强。

实例级别特征融合模块中，判断候选框属于前景还是背景，使用框之间的交并比来实现。判断参考帧的前景候选框与支撑帧的前景候选框是否关联，使用框之间的交并比来实现。实例级别特征融合模块使用了多层多头注意力机制，和候选框级别特征融合模块相同。

优选的，本系统在训练时，采用交叉熵函数对分类结果进行约束，采用L1损失对物体框回归的结果进行约束。本系统在训练时采用的采样策略是：在给定的序列里随机采用一帧作为参考帧，在参考帧前后18帧范围内随机采用两帧作为支撑帧；在测试时采用的采样策略是：在给定的序列里采用滑窗的策略，每一个采样序列包含37帧，其中中间帧是参考帧，前后18帧是支撑帧。在序列的首尾，滑窗存在超出序列范围的情况，通过堆叠起始帧或结束帧来填充从而满足37帧的要求。

本实施例的帧级别的特征融合模块，采用注意力机制通过对齐后的支撑帧的特征来增强参考帧的特征得到更新后的参考帧的特征；

所述实例级别的特征融合模块，根据物体身份信息辨别出候选框(候选框级别的特征融合模块输出的增强后的参考帧的候选框)属于前景还是背景，对参考帧的候选框特征(具体是指参考帧前景候选框)进行增强，并将参考帧增强后的候选框特征输入到分类和回归网络得到参考帧的检测结果。

当特征输入到RPN模块，每张图片会有很多候选框，有些候选框会覆盖住前景，有些候选框就单纯的覆盖住背景，这两者称为正负候选框。经过候选框级别的特征融合，用支撑帧的候选框特征集合来对参考帧的候选框特征进行特征更新，参考帧的候选框数目不变，但是特征会变化，得到了更新。更新后的候选框再输入到实例级别的特征融合模块，实例级别的特征融合模块会根据物体的位置和身份信息，把参考帧的候选框和支撑帧的候选框中的前景候选框找出来，然后用支撑帧的前景候选框对参考帧的前景候选框做进一步的特征增强。

上述三个特征融合模块采用了从粗到精的策略，帧级别的特征融合模块首先在整张特征图的层面上进行特征融合操作。之后将参考帧的特征通过RPN网络得到各个候选框的特征，输入到候选框级别的特征融合模块在候选框层面对参考帧的候选框特征进行更新，候选框覆盖的区域可能是前景也可能是背景区域，进一步缩小了特征更新的区域。接下来把参考帧更新后的候选框特征输入到实例级别的特征融合模块，该特征模块对候选框特征进行筛选，得到前景的候选框特征，再次对参考帧的前景区域的特征做增强。

本发明提出的多层次时空特征融合的视频目标检测方法，首先通过可变形特征模块对帧间运动物体的特征进行对齐，保证了支撑帧的特征不会因为高速运动而与参考帧特征差异过大对后续的融合模块带来负面影响；后续的多层次融合模块包括帧级别特征融合模块，候选框级别特征融合模块和实例级别特征融合模块，依次对参考帧特征，参考帧候选框特征以及参考帧前景候选框特征进行增强，这样的从粗到精的设计思想可以充分利用支撑帧的特征来提高低质量参考帧的特征，从而预测更准确的目标框。该方法可以很好的应对模糊、遮挡、虚焦以及罕见姿态等视频低质量帧的情况，提高了视频目标检测的稳定性和时序一致性，可以广泛应用在自动驾驶、智能视频监控等领域。

按照图2结构搭建可变形特征对齐模块，将骨架网络输出的特征计算帧间的偏移量，然后利用偏移量对支撑帧的特征进行校准，实现对参考帧的对齐。

按照图1结构搭建完整的多层次时空特征融合的视频目标检测系统，将采样的序列输入骨架网络得到初步的帧级别特征，可变形特征对齐网络对该特征进行对齐，使得帧间的运动保持一致；对齐后的特征经过帧级别特征融合网络实现初步的特征更新，接下来候选框提取网络，得到每一帧的候选框特征；候选框级别的特征融合网络对参考帧候选框的特征进行增强，实例级别的特征网络进一步对前景参考框特征进行增强，这样得到更新后的参考帧候选框特征输入到分类和回归网络，最终输出参考帧的类别和位置信息。根据真值和预测结果的误差，按照梯度反向传播的方法对网络的参数进行更新。

整个网络在4块GPU上运行，使用SGD优化器，学习率设置为0.0001，本方法中用到的交并比参数设置为0.5。

图4是本发明应用在ImageNet VID数据集上的效果示意图，其中，第一列、第二列和第三列分别是不同时刻采样的帧，第一行BS代表单帧图像检测结果，代表加上可变形特征对齐模块和帧级别特征融合模块的检测结果，/>代表继续加上候选框级别的特征融合模块的检测结果，Ours代表完整的本发明方法的检测结果；图4中应用的ImageNet VID数据集是公开的现有数据集。采用本发明的方法，解决了图中因运动模糊导致物体分辨不清的这个问题，利用时序上下文和多层次时空特征融合来正确检测出这些低质量帧里的目标物体。

本实施例还提供一种基于多层次时空特征融合的视频目标检测方法，包括以下步骤：

第一步、根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该偏移量将支撑帧特征与参考帧对齐；

第二步、从粗到精利用支撑帧的特征对参考帧特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果。

本方法中所述的第一步具体为：首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的对齐。

本方法中所述的第二步具体为：

S3、利用实例级别的特征网络根据物体身份信息辨别出参考帧的候选框属于前景还是背景，对参考帧的候选框的特征进行增强，并将参考帧增强后的候选框的特征输入到分类和回归网络得到参考帧的检测结果。

在所述步骤S3中，判断参考帧的候选框属于前景还是背景，使用框之间的交并比来实现。

本发明将采样的序列经过骨架网络提取帧级别的特征，通过可变形特征模块对帧间运动物体的特征进行对齐，保证了支撑帧的特征不会因为高速运动而与参考帧特征差异过大对后续的融合模块带来负面影响；多层次融合模块包括帧级别特征融合模块，候选框级别特征融合模块和实例级别特征融合模块，依次对参考帧特征，参考帧候选框特征以及参考帧前景候选框特征进行增强，这样的从粗到精的设计思想可以充分利用支撑帧的特征来提高低质量参考帧的特征，从而预测更准确的目标框。该方法可以很好的应对模糊、遮挡、虚焦以及罕见姿态等视频低质量帧的情况，提高了视频目标检测的稳定性和时序一致性，可以广泛应用在自动驾驶、智能视频监控等领域。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于多层次时空特征融合的视频目标检测系统，其特征在于，包括可变形特征对齐模块和多层次时空特征融合模块，

所述可变形特征对齐模块，根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该运动偏移量将支撑帧的特征与参考帧的特征对齐_；所述参考帧为待检测帧，所述支撑帧为过去帧和未来帧；所述可变形特征对齐模块包括4个可变形卷积模块，每个可变形卷积模块包括1层卷积和1层可变形卷积；

所述多层次时空特征融合模块，利用对齐后的支撑帧的特征对参考帧的特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果_；所述多层次时空特征融合模块包括依次连接的帧级别的特征融合模块、候选框级别的特征融合模块和实例级别的特征融合模块，

所述帧级别的特征融合模块，采用注意力机制通过对齐后的支撑帧的特征来增强参考帧的特征得到更新后的参考帧的特征；在所述的帧级别特征融合模块中：首先将对齐后的支撑帧的特征和参考帧的特征拉平成一维向量，参考帧的特征作为查询，支撑帧的特征作为键值；查询和键值通过全连接层进行映射，查询和键值之间进行点积和softmax层得到两者之间的相似度权重，相似度权重和键值进行点积，点积后的特征经过全连接层映射并和原始的值进行逐元素相加得到更新后的特征；

所述候选框级别的特征融合模块，使用注意力机制，用支撑帧的候选框特征来增强参考帧的候选框特征；在所述的候选框级别特征融合模块中：参考帧的候选框特征作为查询，所有支撑帧的候选框特征作为键值，先经过全连接层对查询和键值特征进行映射；其次计算查询和键值之间的相似度权重；将候选框的尺寸特征和语义特征进行合并，通过softmax层计算相似度权重；之后相似度权重和键值进行点积，再和原始的值进行相加得到更新后参考帧的候选框特征；

所述实例级别的特征融合模块，根据物体身份信息辨别出候选框级别的特征融合模块输出的参考帧的候选框属于前景还是背景，对参考帧的候选框特征进行增强，并将参考帧增强后的候选框特征输入到分类和回归网络得到参考帧的检测结果；在所述的实例级别的特征融合模块中：根据物体身份信息辨别出候选框级别的特征融合模块输出的参考帧的候选框属于前景还是背景，得到参考帧的前景候选框以及与之关联的支撑帧的前景候选框，根据支撑帧的前景候选框的特征对参考帧的前景候选框的特征进行增强。

2.根据权利要求1所述的一种基于多层次时空特征融合的视频目标检测系统，其特征在于，在所述的可变形特征对齐模块中：首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的对齐。

3.根据权利要求1所述的一种基于多层次时空特征融合的视频目标检测系统，其特征在于，所述帧级别特征融合模块的注意力机制采用多层多头的结构，包含4层注意力机制结构，每一层注意力机制结构包含8个注意力机制头；每一层注意力机制结构使用1层全连接层对查询和键值进行映射；

或者，所述候选框级别特征融合模块中的注意力机制采用多层多头的结构，包含2层注意力机制结构，每一层注意力机制结构包含16个注意力机制头；每一层注意力机制结构使用2层全连接层对查询和键值进行映射。

4.一种基于多层次时空特征融合的视频目标检测方法，其特征在于，包括以下步骤：

第一步、通过可变形特征对齐模块根据参考帧和支撑帧预测得到支撑帧相对于参考帧的运动偏移量，通过该偏移量将支撑帧的特征与参考帧的特征对齐；所述参考帧为待检测帧，所述支撑帧为过去帧和未来帧；所述可变形特征对齐模块包括4个可变形卷积模块，每个可变形卷积模块包括1层卷积和1层可变形卷积；

第二步、通过多层次时空特征融合模块从粗到精利用对齐后的支撑帧的特征对参考帧的特征进行增强，最终得到参考帧增强后的候选框特征，并输入到分类和回归网络得到参考帧的检测结果；

所述第二步具体为：

S1、通过帧级别的特征融合模块采用注意力机制将对齐后的参考帧的特征经帧级别特征融合网络，该网络利用支撑帧的特征来增强参考帧的特征实现初步的特征更新；在所述的帧级别特征融合模块中：首先将对齐后的支撑帧的特征和参考帧的特征拉平成一维向量，参考帧的特征作为查询，支撑帧的特征作为键值；查询和键值通过全连接层进行映射，查询和键值之间进行点积和softmax层得到两者之间的相似度权重，相似度权重和键值进行点积，点积后的特征经过全连接层映射并和原始的值进行逐元素相加得到更新后的特征；

S2、通过候选框级别的特征融合模块使用注意力机制，将初步的特征更新后的参考帧的特征通过候选框提取网络，得到每一帧的候选框特征，并对参考帧的候选框特征进行增强；参考帧的候选框特征作为查询，所有支撑帧的候选框特征作为键值，先经过全连接层对查询和键值特征进行映射；其次计算查询和键值之间的相似度权重；将候选框的尺寸特征和语义特征进行合并，通过softmax层计算相似度权重；之后相似度权重和键值进行点积，再和原始的值进行相加得到更新后参考帧的候选框特征；

S3、通过实例级别的特征融合模块利用实例级别的特征网络根据物体身份信息辨别出参考帧的候选框属于前景还是背景，对参考帧的候选框的特征进行增强，并将参考帧增强后的候选框的特征输入到分类和回归网络得到参考帧的检测结果；根据物体身份信息辨别出候选框级别的特征融合模块输出的参考帧的候选框属于前景还是背景，得到参考帧的前景候选框以及与之关联的支撑帧的前景候选框，根据支撑帧的前景候选框的特征对参考帧的前景候选框的特征进行增强。

5.根据权利要求4所述的一种基于多层次时空特征融合的视频目标检测方法，其特征在于，所述第一步具体为：首先将支撑帧的特征和参考帧的特征在通道上进行合并，过1层卷积得到支撑帧每一个特征点的运动偏移量，可变形卷积通过运动偏移量对支撑帧的特征进行校准，实现对参考帧的特征对齐。

6.根据权利要求4所述的一种基于多层次时空特征融合的视频目标检测方法，其特征在于，所述步骤S3中，判断参考帧的候选框属于前景还是背景，使用框之间的交并比来实现。