CN115063717B

CN115063717B - 一种基于重点区域实景建模的视频目标检测与跟踪方法

Info

Publication number: CN115063717B
Application number: CN202210644386.4A
Authority: CN
Inventors: 陈亮; 李琦; 张婧; 剧立伟
Original assignee: Nanjing Institute Of Information Technology
Current assignee: Nanjing Institute Of Information Technology
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2024-04-23
Anticipated expiration: 2042-06-08
Also published as: CN115063717A

Abstract

本发明公开一种基于重点区域实景建模的视频目标检测与跟踪方法，将重点区域卫星定位信息转化成三维全景地图；对三维全景地图提取高层特征，根据重点区域天气信息对对应视频流进行处理得到清晰的重点区域实景建模视频帧，将一系列帧输入骨干网络提取高级特征再通过空洞残差网络，将目标检测任务化大为小，使用跨模态注意力模块进行多模态信息融合，通过叠加连续帧的特征图得到特征融合图，进而获得连续的目标时空特征，同时结合之前画面帧获得的跟踪边界框，最后匹配目标框和跟踪框实现检测与跟踪任务。本发明对重点区域进行实时实景建模，有效解决重点区域的复杂人流车流造成的目标遮挡与错误跟踪问题，使得算法具有更好的鲁棒性。

Description

一种基于重点区域实景建模的视频目标检测与跟踪方法

技术领域

本发明属于视觉目标检测技术，具体涉及一种基于重点区域实景建模的视频目标检测与跟踪方法，涉及基于空洞残差编码的目标检测算法与实景建模视频跟踪方法属于图像处理领域。

背景技术

目标检测一直以来都是计算机视觉任务中的经典问题，其广泛应用于人脸识别，自动驾驶，智能视频监控等领域，因此成为了近年来的研究热门方向。对于当前的计算机视觉系统，基于视频的场景理解的研究是计算机理解人类行为必不可少的组成。为了估计视频中感兴趣对象的轨迹，目标跟踪是一项重要任务，其应用于许多实际场景中，例如视觉监视，公共安全，体育视频分析和人机交互，因此视频目标检测与跟踪成为了近年来的一个研究重点。

目前的目标检测算法大多运用了特征金字塔结构，该结构一方面可以进行多尺度融合大大提高了特征的丰富程度，另一方面可以将目标检测任务分为若干个子检测任务，达到化繁为简的目的。但是，由于特征金字塔的复杂结构也增加了模型的计算量，提高了计算机的硬件需求。最近，基于注意力机制的Transformer模型被广泛应用于计算机视觉领域，由于该模型具有很强大的关系建模能力，可以建立视频样本的时空依赖关系，也很适合应用在目标跟踪领域。

然而，现有的基于注意力机制的模型在初始化阶段的注意力权重几乎是均匀分配的，但是训练好的模型得到的注意力权重又是稀疏的，也就是说该模型在训练过程中难以收敛。同时，对于一些小目标或是在复杂密集场景中的目标，模型需要的输入图像数据具有较高分辨率，这也增加计算复杂度，限制了该模型在目标检测与跟踪中的应用。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于重点区域实景建模的视频目标检测与跟踪方法，本发明使用单一特征以及分治法构建一个拥有良好性能的目标检测器，可以避免使用比较复杂的特征金字塔模块，只保留高层的特征进行输入，网络也可以保持良好的性能，并且降低计算负担。

本发明为了解决现有技术中存在的问题，提供一种基于重点区域实景建模的视频目标检测与跟踪方法。利用空洞残差编码器来捕获不同感受野特征信息，以此实现将大的检测任务分解为若干小的目标坚持任务，实现各种尺度物体的鲁棒性检测；利用基于稀疏空间采样注意力的方法加速模型收敛并降低运算复杂度。为了达到上述目的，本发明提出的技术方案为。

技术方案：本发明的一种基于重点区域实景建模的视频目标检测与跟踪方法，包括以下步骤：

步骤一、输入重点区域的卫星定位信息L，通过逆地理编码函数得到重点区域的3维全景地图BMAP，然后对重点区域的3维全景地图进行稀疏点采样，得到重点区域的实景建模数据集b＝Ω(BMAP)；接着，将获取到的实景建模数据输入到刚性不变特征提取器，以获取实景建模数据的高层特征S；

步骤二、将步骤一所得重点区域的卫星定位信息L(即经纬度信息)输入天气查询函数γ(.)中，得到天气信息W_dic后输入雨雾判断器，其作用是解析获得的字典数据，从而判断重点区域是否为良好天气；若非良好天气，则将重点区域的视频流输入到多阶段渐进式图像恢复模块，利用多阶段渐进式图像恢复模块进行图像去雾及去雨等预处理来获取纯净的视频数据；

步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C₅；接着，利用空洞残差编码器对骨干网络输出的高层语义特征C₅进行编码，并将空洞残差编码器输出的特征输入到空洞残差模块中，以此来捕获不同感受野特征，最终得到不同感受野的融合特征P₅；

步骤四、将步骤三所得融合特征P₅与步骤一所得实景建模数据的高层特征S进行融合，即：使用跨模态注意模块获取两种模态的注意力；然后再使用多层感知机网络进行非线性拟合，接着，利用得到的当前帧特征图叠加前一帧的特征图，得到连续两帧的特征融合图

步骤五、将步骤四特征融合图拉伸后得到一系列的特征点向量/>C为特征融合图/>的通道数，结合参考特征点与其偏移量得到最终的采样点向量；利用查询向量与得到的最终关键值采样点向量，得到当前帧的特征图的Transformer编码器输出，然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征，同时利用前一帧的目标特征作为当前帧的跟踪查询向量v_qt，同样经过解码器后获得跟踪特征D为跟踪解码器；

步骤六、将步骤五中目标特征和跟踪特征通过前馈神经网络分别得到检测框以及跟踪框，利用匈牙利匹配方法将检测框与跟踪框建立匹配关系，得到最终跟踪结果。

进一步地，所述步骤一重点区域实景建模数据处理包括：

输入重点区域的卫星定位信息，然后利用逆地理编码函数获取重点区域的3维全景地图BMAP，BMAP＝T(L)，其中，L代表重点区域的经纬度信息且经度在前纬度在后，BMAP代表获取到的3维全景地图数据；

接着，利用点采样函数对3维全景地图数据进行稀疏点采样：b＝Ω(BMAP)；其中，代表抽取到的点云数据，N表示点的数目且每一个点的坐标为(x,y,z)；

将获取到的点云数据输入到刚性不变特征提取器，获取点云的高层特征S：

S＝MAXPOOL(MLPs(b))；

其中，MLPs表示一系列多层感知机，MAXPOOL代表的是矩阵的取最大数操作，S代表的是点云的高层特征，其具有刚性不变的性质。

进一步地，所述步骤二的具体过程为：

先对重点区域的视频流进行处理：

利用卫星定位获取的重点区域的经纬度信息，通过使用天气查询函数γ(.)，得到重点区域的天气信息W_dic，此处的天气信息为字典数据，若是良好天气则其值为1，否则为0，即：W_dic＝γ(L)，其中，L代表重点区域的经纬度信息，经度在前纬度在后，W_dic代表得到的该区域的天气信息；若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。进一步地，所述步骤三的具体过程为：

首先，将预处理后的视频数据逐帧输入到ResNet50网络中，并且取最高层的语义特征作为后面的输入：

C₅＝ResNet50(x),

其中，ResNet50网络的网络结构为残差结构，表示为：X＝E(x)+G(x)，表示预处理后的图片，X代表得到的输出，/>代表获取到的高层语义特征，B表示批量处理的大小，H,W分别表示图片的高和宽，C表示图片的通道数，则E(·)表示为conv1×1(conv3×3(conv1×1(·)))(以及相关批归一化处理BN和非线性激活函数RELU)，G(·)表示conv1×1(·)，conv1×1(·)表示1×1的卷积神经网络，conv3×3(·)表示3×3的卷积神经网络，本发明中ResNet50使用在ImageNet数据集中预训练的参数；

然后，利用空洞残差编码器将高层语义特征C₅编码转化为多种感受野融合特征，即将ResNet50网络的第四层得到的高层语义特征作为空洞残差模块的输入，并且输出一个融合多种感受野的特征，从而降低网络设计的复杂度，并且提示网络推理速度，空洞残差编码器编码器为MC＝conv3×3(conv1×1(C₅))；

接着，利用空洞残差模块捕获不同感受野的融合特征P₅，残差模块表示为：

P₅＝Φ(Φ(Φ(Φ(MC,rate₁),rate₂),rate₃),rate₄)

其中，Φ(MC,rate_i),i∈{1,2,3,4}代表空洞残差网络模块，d_i表示第i层的空洞残差模块的膨胀卷积率，空洞残差网络模块的计算方式为：

Φ(MC,rate_i)＝E(MC,rate_i)+MC,

进一步地，所述步骤四中跨模态注意力模块设计过程为：

首先，使用跨模态注意力模块将得到的多种感受野的融合特征P₅与步骤一所得点云的高层特征S进行多模态融合，具体方法为：

其中，MLP代表一个多层感知机，S_query,q_key,q_value代表注意力模块中的query，key，value，F代表得到的多模态融合特征；

其次，通过几个多层感知机进行非线性拟合得到当前帧特征图，具体方法：

F_t＝MLPs(F)；

其中，MLPs表示一系列的多层感知机；

然后，利用得到的当前帧特征图叠加前一帧的特征图，得到连续两帧的特征融合图

其中，F_t表示视频第t帧的特征图，F_t-1是在前一帧运算后就保存下来的特征图，并没有进行重复运算。

进一步地，所述步骤五的编码器结构为：

使q∈Ω_q表示查询向量的索引，表示查询向量，k∈Ω_k、/>分别表示关键值下标与关键值向量，其中C是特征图的通道数；

多头稀疏采样注意力计算公式如下：

其中，h是不同注意力头的索引，是可学习的权重(默认C_v＝C/H)，R_hqk是与第h个注意头的采样点v_k的注意力权重，且/>

p_q是查询向量v_q的一个二维参考点，而表示采样集合点相对于p_q的偏移量，由于下标p_q+Δp_hqk可能为非整数，因此使用双线性差值来计算。

进一步地，所述步骤六中将检测框与跟踪进行匹配的方法为：

使D_t＝{d₁,d₂,...,d_n}表示检测框集合，T_t＝{d′₁,d′₂,...,d′_m}表示跟踪框集合，其中n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量；

首先，从检测框集合D_t＝{d₁,d₂,...,d_n}的未匹配点d₁开始在跟踪框集合，T_t＝{d′₁,d′₂,...,d′_m}中寻找与之相匹配的跟踪框d_j′(j∈[1,m])即找到增广路d₁→d_j′，匹配边为d₁-d_j′；

接着，从未匹配的检测框d₂开始找增广路，若增广路为d₂→d_k′(k,j∈[1,m]且k≠j)，则匹配边为d₁-d_j′与d₂-d_k′；若增广路为d₂→d_j′→d₁→d_k′(k,j∈[1,m]且k≠j)即d₂与d_j′匹配且此时d₁与d_k′也匹配，故匹配边改为d₁-d_k′与d₂-d_j′；

以此类推可以为检测框d_i(i∈[1,n])匹配对应的跟踪框，直至没有未匹配的检测框则匹配结束，若出现未匹配检测框d_i的增广路中均为已匹配的检测框与跟踪框，例如d_i→d_k′→d₁→d_j′且d₁与d_j′,d₂与d_k′已匹配，即无法给d_i分配未匹配的跟踪框时，匹配也结束；

最终，可以通过匈牙利算法得到检测框与跟踪框的匹配边集合A，即实现对连续帧中目标检测框的关联跟踪。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明有效的将检测任务由大批量拆分为多个小批量，从而以较少运算量精简特征。

(2)本发明的加速模型收敛性能并降低运算复杂度，并具有强大的关系建模能力，有效地结合天气信息和地理信息，通过特征融合显著提高视频目标检测与跟踪算法的鲁棒性和准确度。

(3)本发明采用可变形的Transformer模型作为目标跟踪模块，只需要通过可学习的偏移向量，并添加到关键值参考点，得到稀疏的关键值，而查询向量则只需要计算对这些关键值的注意力，大大减少了计算量，并且利用可学习的偏移量能够根据不同场景自适应地调整关键值，使得模型对复杂场景更加鲁棒。

(4)本发明只需对重点区域进行实时实景建模，有效解决重点区域的复杂人流车流造成的目标遮挡与错误跟踪问题，使得算法具有更好的鲁棒性。

附图说明

图1为本发明的整体结构示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本实施例的基于重点区域实景建模的视频目标检测与跟踪方法，具体包括以下环节：

步骤一

输入重点区域的卫星定位信息L(即重点区域的经纬度信息且经度在前纬度在后)，然后利用逆地理编码函数获取重点区域的3维全景地图，具体可以描写为：

BMAP＝T(L)，BMAP代表获取到的3维全景地图数据；

然后，利用点采样函数对3维全景地图数据进行稀疏点采样，得到重点区域的实景建模数据集b＝Ω(BMAP)，

b∈^N×3代表抽取到的点云数据，N表示点的数目，其每一个点的坐标为(x,y,z)；

接着，将获取到的实景建模数据输入到刚性不变特征提取器中，以获取实景建模数据的高层特征S＝MAXPOOL(MLPs(b))，

步骤二

首先，利用卫星定位获取的重点区域的经纬度信息，通过使用天气查询函数γ(.)，得到重点区域的天气信息(字典数据)W_dic＝Υ(L)，若良好天气则其值为1，否则为0；

然后将重点区域的视频流输入到多阶段渐进式图像恢复模块，利用多阶段渐进式图像恢复模块进行图像去雾去雨等预处理以获取纯净的视频数据。

步骤三

首先，对获取的纯净视频数据进行预处理，并将进行预处理之后的视频帧输入到骨干网络ResNet50中，得到高层语义特征C₅。其过程为：使表示预处理后的图片/>代表获取到的高层语义特征，B表示batch的大小，H,W分别表示图片的高和宽，C表示图片的通道数，骨干网络ResNet50具体表现为：

C₅＝ResNet50(x)，

本实施例的网络结构为残差结构表示为：

X＝E(x)+G(x)，

其中，E(·)表示conv1×1(conv3×3(conv1×1(·)))，G(·)代表conv1×1(·)，conv1×1(·)表示1×1的卷积神经网络，同样的conv3×3(·)表示3×3的卷积神经网络；

接着，利用空洞残差编码器对骨干网络输出的高层语义特征进行编码，并将编码器输出的特征输入到空洞残差模块中，以此来捕获不同感受野特征，最后得到多种感受野的融合特征。

此处空洞残差编码器设计为：

MC＝conv3×3(conv1×1(C₅))，

这里表示特征C₅经过1×1卷积减少通道数目，再经过3×3卷积进行非线性变化，得到进一步精炼后的特征MC；

然后利用空洞残差模块捕获不同感受野特征P₅，空洞残差模块表示为：

P₅＝Φ(Φ(Φ(Φ(MC,rate₁),rate₂),rate₃),rate₄)

其中，Φ(MC,rate_i),i∈{1,2,3,4}代表空洞残差网络模块，Φ(MC,rate_i)＝F(MC,rate_i)+MC,，E(·)表示三个卷积块(包括BN和ReLU),rate_i表示第i层的空洞残差模块的膨胀卷积率。

步骤四

首先，使用跨模态注意力模块将得到的多种感受野的融合特征P₅与步骤一输出点云的高层特征S进行多模态融合，具体表示为：

其中，MLP代表一个多层感知机，S_query,q_key,q_value代表注意力模块中的query、key和value，F代表得到的多模态融合特征；

其次，通过几个多层感知机进行非线性拟合得到当前帧特征图F_t＝MLPs(F)，MLPs表示一系列的多层感知机；

接着，为利用Transformer模型来获得检测与跟踪结果，需要先获得输入特征图，即利用得到的当前帧特征图叠加前一帧的特征图，得到连续两帧的特征融合图，则融合特征表示为：/>

其中，F_t表示视频第i帧的特征图，F_t-1是在前一帧运算后就保存下来的特征图，并没有进行重复运算。

步骤五

将融合特征图按照宽高拉伸展平得到编码器的输入/>其中C是特征图的通道数，然后通过对输入参考点进行偏移采样获得采样集合点，注意力机制的运算仅在查询向量与采样点上进行，最终得到当前帧的特征图的编码器输出。

具体的做法是：使q∈Ω_q表示查询向量的索引，表示查询向量，同样地，k∈Ω_k、/>分别表示关键值下标与关键值向量。

那么，多头稀疏采样注意力计算公式如下：

其中，h是不同注意力头的索引，是可学习的权重(默认C_v＝C/H)，R_hqk是v_q与第h个注意头的采样点v_k的注意力权重，且/>p_q是查询向量v_q的一个二维参考点，而/>表示采样集合点相对于p_q的偏移量，由于下标p_q+Δp_hqk可能为非整数，因此使用双线性差值来计算/>

对目标查询向量和跟踪查询向量分别进行解码，首先进行自注意力的计算，即v′_q、v′_k和均由查询向量本身经过线性变换得到，再与编码器输出线性变换后得到的v_q、v_k进行交叉注意力计算，两种计算均如上式(多头稀疏采样注意力计算公式)所示，

步骤六

解码器的输出经过前馈神经网络(FFN)后得到两个边框集合，一个是检测框集合D_t＝{d₁,d₂,...,d_n}＝{[x₁,y₁,w₁,h₁],[x₂,y₂,w₂,h₂],...,[x_n,y_n,w_n,h_n]}，另一个为跟踪框集合T_t＝{d′₁,d′₂,...,d′_m}＝{[x′₁,y′₁,w′₁,h′₁],[x′₂,y′₂,w′₂,h′₂],...,[x′_m,y′_m,w′_m,h′_m]}，n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量。

将D_t和T_t视为二部图G＝(u,v)两个非空子集u与v，这样就把跟踪关联问题转化为二部图G的最大匹配问题，使用匈牙利匹配算法即可得到u，v边组成的集合A，算法流程如下：

首先，从检测框集合D_t＝{d₁,d₂,...,d_n}的未匹配点d₁开始在跟踪框集合T_t＝{d′₁,d′₂,...,d′_m}中寻找与之相匹配的跟踪框d_j′(j∈[1,m])即找到增广路d₁→d_j′，匹配边为d₁-d_j′。

接着，从未匹配的检测框d₂开始找增广路，若增广路为d₂→d_k′(k,j∈[1,m]且k≠j)，则匹配边为d₁-d_j′与d₂-d_k′；若增广路为d₂→d_j′→d₁→d_kv(k,j∈[1,m]且k≠j)即d₂与d_j′匹配且此时d₂与d_k′也匹配，故匹配边改为d₁-d_k′与d₂-d_j′。以此类推可以为检测框d_i(i∈[1,n])匹配对应的跟踪框，直至没有未匹配的检测框则匹配结束，若出现未匹配检测框d_i的增广路中均为已匹配的检测框与跟踪框，例如d_i→d_k′→d₁→d_j′且d₁与d_j′,d₂与d_k′已匹配，即无法给d_i分配未匹配的跟踪框时，匹配也结束；即最终通过匈牙利匹配方法得到检测框与跟踪框的匹配边集合A，即完成了对连续帧中目标检测框的关联跟踪，最终可以得到重点区域的目标追踪视频。

Claims

1.一种基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：包括以下步骤：

步骤一、输入重点区域的卫星定位信息L，通过逆地理编码函数得到重点区域的3维全景地图BMAP，然后对重点区域的3维全景地图进行稀疏点采样，得到重点区域的实景建模数据集b＝Ω(BMAP)；接着，将获取到的实景建模数据输入到刚性不变特征提取器来获取实景建模数据的高层特征S；

步骤二、将步骤一所得重点区域的卫星定位信息L输入天气查询函数Υ(.)中，得到天气信息W_dic后输入雨雾判断器来判断重点区域是否为良好天气；若非良好天气，则将重点区域的视频流输入到多阶段渐进式图像恢复模块，来进行图像预处理来获取纯净的视频数据；

步骤三、将进行预处理之后的视频数据转换为图片并输入到骨干网络ResNet50中得到高层语义特征C₅；接着，利用空洞残差编码器对骨干网络输出的高层语义特征C₅进行编码，并将空洞残差编码器输出的特征输入到空洞残差模块中，以此来捕获不同感受野特征，最终得到多种感受野的融合特征P₅；

步骤五、将步骤四特征融合图拉伸后得到编码器的输入特征点向量/>C为特征融合图/>的通道数，结合参考特征点与其偏移量得到最终的采样点向量；利用查询向量与得到的最终关键值采样点向量，得到当前帧的特征图的Transformer编码器输出，然后利用目标查询与关键值采样点向量获得当前帧解码器输出的目标特征，同时利用前一帧的目标特征作为当前帧的跟踪查询向量v_qt，同样经过解码器后获得跟踪特征D为跟踪解码器；

2.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤一重点区域实景建模数据处理包括：

将获取到的点云数据输入到刚性不变特征提取器以此获取点云的高层特征S：

S＝MAXPOOL(MLPs(b))；

其中，MLPs表示一系列多层感知机，MAXPOOL代表的是矩阵的取最大数操作，S代表的是点云的高层特征。

3.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤二的具体过程为：

先对重点区域的视频流进行处理：

利用卫星定位获取的重点区域的经纬度信息，通过使用天气查询函数Υ(.)，得到重点区域的天气信息W_dic，若是良好天气则其值为1，否则为0，即：W_dic＝Υ(L)，其中，L代表重点区域的经纬度信息且经度在前纬度在后，W_dic代表得到的该区域的天气信息；若天气字典数据为0则传入多阶段渐进式图像恢复模块进行去雾去雨处理。

4.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤三的具体过程为：

首先，将预处理后的视频数据逐帧输入到ResNet50网络中，并且取最高层语义特征作为后面的输入：

C₅＝ResNet50(x),

其中，ResNet50网络的网络结构为残差结构，表示为：X＝E(x)+G(x)；表示预处理后的图片，X代表得到的输出，/>代表获取到的高层语义特征，B表示批量处理的大小，H,W分别表示图片的高和宽，C表示图片的通道数，E(·)表示conv1×1(conv3×3(conv1×1(·)))，G(·)表示conv1×1(·)，conv1×1(·)表示1×1的卷积神经网络，conv3×3(·)表示3×3的卷积神经网络；

然后，利用空洞残差编码器将高层语义特征C₅编码转化为多种感受野融合特征，即将ResNet50网络第四层得到的高层语义特征作为空洞残差模块的输入，并且输出一个融合多种感受野的特征MC＝conv3×3(conv1×1(C₅))；接着，利用空洞残差模块捕获不同感受野得到融合特征P₅，残差模块表示为：

P₅＝Φ(Φ(Φ(Φ(MC,rate₁),rate₂),rate₃),rate₄)

其中，Φ(MC,rate_i),i∈{1,2,3,4}代表空洞残差网络模块，rate_i表示第i层的空洞残差模块的膨胀卷积率，空洞残差网络模块的计算方式为：

Φ(MC,rate_i)＝E(MC,rate_i)+MC,

其中，E(·)表示conv1×1(conv3×3(conv1×1(·)))。

5.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤四中跨模态注意力模块设计过程为：

首先，使用跨模态注意力模块将所得多种感受野的融合特征P₅与步骤一所得点云的高层特征S进行多模态融合，具体方法为：

其中，MLP代表多层感知机，S_query,q_key,q_value分别代表注意力模块中的query、key和value，F代表得到的多模态融合特征；

其次，通过多层感知机进行非线性拟合得到当前帧特征图，具体方法：

F_t＝MLPs(F)；

其中，MLPs表示一系列的多层感知机；

6.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤五的编码器结构为：

使q∈Ω_q作为查询向量的索引，表示查询向量，k∈Ω_k、/>分别表示关键值下标与关键值向量，此处C是特征图的通道数；

多头稀疏采样注意力计算公式如下：

其中，h是不同注意力头的索引，是可学习的权重，R_hqk是与第h个注意头的采样点v_k的注意力权重，且/>p_q是查询向量v_q的一个二维参考点，而表示采样集合点相对于p_q的偏移量。

7.根据权利要求1所述的基于重点区域实景建模的视频目标检测与跟踪方法，其特征在于：所述步骤六中将检测框与跟踪进行匹配的方法为：

设定D_t＝{d₁,d₂,...,d_n}为检测框集合，T_t＝{d′₁,d′₂,...,d′_m}为跟踪框集合，其中n和m分别是当前帧的检测目标数量和当前帧的跟踪目标数量；

首先，从检测框集合D_t＝{d₁,d₂,...,d_n}的未匹配点d₁开始在跟踪框集合，T_t＝{d′₁,d′₂,...,d′_m}中寻找与之相匹配的跟踪框d_j′即找到增广路d₁→d_j′，匹配边为d₁-d_j′；j∈[1,m]；

接着，从未匹配的检测框d₂开始找增广路，若增广路为d₂→d_k′，k,j∈[1,m]且k≠j，则匹配边为d₁-d_j′与d₂-d_k′；若增广路为d₂→d_j′→d₁→d_k′即d₂与d_j′匹配且此时d₁与d_k′也匹配，故匹配边改为d₁-d_k′与d₂-d_j′；

以此类推可以为检测框d_i匹配对应的跟踪框，直至没有未匹配的检测框则匹配结束，若出现未匹配检测框d_i的增广路中均为已匹配的检测框与跟踪框，当d_i→d_k′→d₁→d_j′且d₁与d_j′,d₂与d_k′已匹配，即无法给d_i分配未匹配的跟踪框时，匹配也结束；i∈[1,n]；

最终，通过匈牙利算法得到检测框与跟踪框的匹配边集合A，即实现对连续帧中目标检测框的关联跟踪。