CN115482375A

CN115482375A - 一种基于时空通联数据驱动的跨镜目标跟踪方法

Info

Publication number: CN115482375A
Application number: CN202211024862.9A
Authority: CN
Inventors: 陈亮; 李琦; 张婧; 剧立伟
Original assignee: Nanjing Institute Of Information Technology
Current assignee: Nanjing Institute Of Information Technology
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-12-16

Abstract

本发明公开一种基于时空通联数据驱动的跨镜目标跟踪方法，先分别获取跟踪目标模板图片和搜索区域的编码序列，然后三阶段混合注意力机制融合目标图片与视频帧获得对应特征序列，概率估计得到单摄像头视频的目标跟踪结果；接着通过注意力模块残差网络获得消失目标以及视频帧的强化特征，并计算二者相似度，最后通过相似度判断目标跟踪结果。本发明用于实时监控视频数据，结合追踪目标的通讯信息调用单个摄像头视频，并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域，实现了跨镜的目标跟踪，从而达到及时预警，保护重点区域人员人身安全与信息安全的目的。

Description

一种基于时空通联数据驱动的跨镜目标跟踪方法

技术领域

本发明属于图像处理领域，特别是目标跟踪领域，具体涉及一种基于时空通联数据驱动的跨镜目标跟踪方法。

背景技术

目标跟踪是计算机视觉领域的一项基本任务，其成功部署于各种应用中，如人机交互和视觉监控。当前流行的跟踪器通常包含几个组件来完成跟踪任务：(1)提取跟踪目标和搜索区域(即监控的重点区域)一般特征的主干；(2)允许跟踪目标和搜索区域之间进行信息通信的集成模块，以便后续进行目标定位；(3)特定于任务的头部，以精确定位目标并估计其边界框。

在现实场景中，由于输入图像的尺度不同、目标的形变、被遮挡和类似对象的混淆等方面因素的影响，难以设计出一个简单而有效的端到端跟踪器。最近，由于基于注意力的Transformer具有全局和动态建模能力，研究人员将其应用于跟踪领域，并产生良好的性能。然而，基于Transformer的跟踪器仍然依赖于卷积神经网络(CNN)进行一般特征提取，并且只在后一个高层抽象表示空间中应用注意力操作。由于CNN采用局部卷积核，缺乏全局建模能力，限制了自注意力模块在整个跟踪模型中的应用。

近年来，多镜头目标跟踪在跟踪模型领域的应用越来越广，目前的主流方法是采用行人重识别技术来实现跨镜追踪，该技术主要分为图像到图像以及图像到视频的人员重新识别，旨在从基于图像或视频的库集中检索与需查询的目标相同的行人，其主要原理是将跨镜追踪视为跨模态检索任务，并从图像和视频模态中学习常见的潜在嵌入信息，以此来度量视频中行人与查询目标的相似性。

但是，由于图像和视频模态间隙大，且是利用所有视频帧进行冗余特征学习，而对于摄像头密布的场景下，由于目标在一个摄像机中可能被遮挡而在另一个摄像机中可以完全观察到，也就是说行人的部分可见性和不可辨性就不那么严重了，因此冗余特征学习会降低模型的效率和准确性。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于时空通联数据驱动的跨镜目标跟踪方法，本发明用混合注意力机制将通用特征提取和目标信息进行耦合，从而获取更多精细的特征信息并具有全局建模能力；利用互补残差学习器获取视频帧中最显著的特征减少冗余匹配信息，同时挖掘视频帧之间的潜在互补信息以强化特征表示，进而在跨镜匹配时减小匹配误差。

技术方案：本发明的一种基于时空通联数据驱动的跨镜目标跟踪方法，包括以下步骤：

步骤S1、将跟踪目标模板图片T_i和当前搜索区域(即当前视频帧)S分别切割为固定大小的子图片(例如可以将一个目标模板图片分割为N个子图片)，利用卷积操作对各子图片进行基本编码分别得到对应编码序列t_j和s_j，此处j的取值范围是根据输入的目标模板图片大小以及视频帧大小而改变的；然后对基本编码序列t_j和s_j进行分离和重建，最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<q_t,k_t,v_t>、<q_s,k_s,v_s>；

其中，T_i表示第i个跟踪目标模板图片，i∈{1,2,...,n}；q_t,k_t,v_t为跟踪目标模板图片的查询、键和值，q_s,k_s,v_s为搜索图片的查询、键和值；

步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取

第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接，然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F₁；

第二阶段、将第一阶段所得混合特征通过可分离卷积改变尺寸后输入到混合注意力机制中，得到第二阶段的特征序列F₂；

第三阶段、将第二阶段的特征序列F₂再次通过可分离卷积改变尺寸，并进行多个混合注意力操作得到最终第三阶段的特征序列F₃；

步骤S3、先将特征序列F₃通过分离和重建得到搜索区域的特征序列，并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果；然后，根据预测置信度进行在线更新，同时将下一帧视频帧下一个搜索区域作为步骤S1的搜索区域，重新对视频中的跟踪目标进行跟踪，直至搜索区域中的目标消失；

步骤S4、利用手机定位获取(例如可以可用手机定位)消失目标的位置并调取距离最近的三个摄像头的部分视频，同时将消失目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的图像通过注意力机制进行特征融合，并与调取的视频帧通过残差网络提取各自初始特征，分别得到三个摄像头视频序列的帧级特征以及特征融合后的目标初始特征；

步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图，并利用多头注意机制获取该特征图上的显著特征；然后，利用激活和卷积操作获取初始特征中被激活的冗余显著区域，从而挖掘当前视频帧剩余互补区域，捕获剩余互补信息；接着，利用残差网络从互补信息中获取当前帧补充特征，进而得到当前视频帧的强化特征；最后，将消失目标的图像视为一个视频帧序列，并以相同的方式获得其对应的强化特征；

步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算，并根据经验设置余弦相似度阈值，若最大相似度低于阈值则表示消失目标已离开重点区域，反之，则获取最大相似度对应行人的边界框以及摄像头编号，并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。

进一步地，所述步骤S1的具体过程为：

S1.1、分别获取跟踪目标模板图片T_i和搜索区域S的基本编码序列t_j和s_j；

采用C个补零层数为1、步长为4且核大小为7的卷积层，对各个子图片进行编码，公式如下：

其中，

H_t和W_t分别为跟踪目标模板图的高度和宽度，H_s和W_s分别表示搜索区域的高度和宽度，t_j表示目标模板图片的编码，s_j表示搜索区域的编码，Conv_7×7表示核大小为7的卷积；

进而得到目标子图像的基本编码大小分别为

搜索子图像的基本编码大小为

C为通道数(取值64)；

然后，将跟踪目标模板图片T_i的N个目标子图像的基本编码

和搜索区域的子图片的基本编码

展开，并沿通道方向拼接得到大小为

的编码序列；将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像

和

S1.2、分别获取目标模板图片和搜索区域的查询、键和值向量

首先，对每个二维特征图像

进行深度分离卷积操作DConv，然后将目标模板图片和搜索区域的每个特征映射进行矩阵展平操作

以及线性投影操作

最终得到对应查询query、键key和值value，具体公式如下：

进一步地，所述步骤S2利用混合注意力机制提取特征的详细过程为：

步骤S2.1、将目标模板图片的k_t和搜索区域的k_s进行拼接得到键向量k_m＝Concat(k_t,k_s)，将目标模板图片的v_t和搜索区域v_s进行拼接得到值向量v_m＝Concat(v_t,v_s)，Concat表示拼接操作；此处下标m仅用于变量参数的符号区分；

步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合，具体公式如下：

d表示键key的维度，上标T表示对应向量的转置，

表示激活函数，Atten_t和Atten_s分别是目标模板图片和搜索区域的注意力图，即提取各自的特征以及二者之间的关联性；

步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列，提取公式为：

其中，F表示目标模板图片和搜索区域使用一次混合注意力操作提取到的特征，Concat表示拼接操作，

表示多层感知机网络；

先使用一次混合注意力操作提取得到大小为

的第一阶段特征序列F₁；C为通道数，例如取值为64；

然后，将F₁进行序列分离与重建得到目标和搜索区域的二维特征图，再利用3C个卷积核大小为3、步长为2、补零层数为1的卷积分别得到大小为

和

的编码序列，将其展平并拼接后输入到混合注意力机制，进行4次混合注意力操作得到第二阶段的特征序列F₂，其大小为

最后，将F₂进行序列分离与重建得到目标和搜索区域的二维特征图，利用6C个卷积核获取对应编码序列，并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为

的第三阶段最终特征序列F₃。

进一步地，所述步骤S3中获取单个摄像头目标检测结果的具体过程为：

首先，将特征序列F₃拆分得到搜索区域特征序列，并重建大小为

的特征图

然后，将

输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络，得到两个概率图为：

其中P_a(x,y)表示边界框左上方的顶点概率图，P_b(x,y)表示边界框右下方的顶点概率图，Conv表示卷积操作，BN表示批量标准化；

接着，通过计算两个顶点概率分布的期望值获得预测边界框坐标

和

如下式所示：

这两个顶点内的区域就是目标检测的结果；

最后，采用在线更新策略来获取跟踪结果。

进一步地，在线更新策略来获取跟踪结果的具体方法为：

对于目标模板图片和搜索区域的注意力图，使用多层感知机网络和Sigmoid函数得到最终的分数，然后选择分数大于0.5的部分作为最终结果并存入目标模板库中；并将更新后的目标模板图片以及下一帧视频作为步骤S1内初始目标模板图片和搜索区域，再次对视频中的异常目标进行跟踪，直至搜索区域内目标消失即目标离开该摄像头的搜索区域。

进一步地，所述步骤S4的详细过程包括如下：

步骤S4.1、获取融合特征：

使γ_loc,γ_net,γ_com分别表示抽取的目标的位置信息、上网信息和通讯信息的对应特征，T_i表示第i个消失目标的模板图片，则利用注意力机制进行特征的融合的计算公式如下：

其中，α,β为可调整参数，Ω_t,Ω_γ,Ω_θ为可学习的权重，b_A,b_θ为偏置向量，t_j为向量T_i的一个元素，θ_j为权重向量θ的一个元素，

表示第i个消失目标的模板图片包含时空通联信息的融合特征；

步骤S4.2、利用残差网络提取初始特征：

使

表示抽取的前

帧视频序列，采用残差网络Resnet50的前四个残差层来提取视频序列和消失目标的最初特征，视频序列的帧级特征为

特征融合后的目标的初始特征为

具体公式如下：

其中，h、w和c是每个特征

的高度、宽度和通道大小，κ表示视频序列所属摄像头的序号，

表示视频序列的总数量，g是视频帧的索引。

进一步地，所述步骤S5获取强化特征的过程为：

使

表示摄像头序号为κ的第g帧视频初始特征，

表示第g-1帧视频的强化特征，其包含第g-1帧的帧级特征以及前g-1帧的时间互补信息；

首先，将强化特征

投射为特征图

并采用多头注意力机制生成对应的注意力图

然后，利用Softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度，以获取第g帧视频的剩余互补信息

其中Conv₁和Conv₂表示不同的卷积层，BN是批量归一化层，Relu是激活函数，

是特征重建操作，

表示摄像头序号为κ的第g-1个视频帧的显著特征，

表示卷积操作，

表示摄像头序号为κ的第g帧视频的剩余互补信息；

最后，利用残差网络从

中获取该摄像头第g帧视频的补充特征

并将其与第g-1个的帧级强化特征

整合得到第g帧视频的强化特征

并利用相同方法计算消失目标模板图片的强化特征

进一步地，所述步骤S6中跨镜目标追踪的具体方法为：

首先，对帧级强化特征

进行全局平均池化得到视频帧中每个行人图像的特征向量

表示摄像头序号为κ的第g帧视频中检测到的行人数量；

然后，对消失目标模板图片的强化特征

与视频帧中行人目标的强化特征向量

进行通道归一化，并进行相似度计算即：

其中

表示消失目标与摄像头κ中行人图像的相似度；

接着，根据经验设置余弦相似度阈值为0.5，通过相似度的大小得到行人图像与消失目标模板图片的相似性排序；

最后，选择相似度最大的行人图像所属摄像头继续跟踪消失目标，即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片，并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪；当所有视频帧中行人图像与目标模板的相似度均低于阈值时，则表示消失的目标已离开重点区域。

有益效果：与现有技术相比，本发明具有以下优点：

(1)本发明有效地利用了目标和搜索区域之间的相关性，使得提取的特征更加针对相应的跟踪目标，并捕获更多针对特定目标的鉴别特征。

(2)本发明由于采用基于全卷积操作的预测头，可以预测出目标所在区域，显著地提高了跟踪算法的精度和稳健性。

(3)本发明由于结合了异常目标的时空通联数据(即目标的手机上网数据、通联数据以及位置信息等)对其进行跨镜跟踪，从而提高了跟踪速度及其准确性。

(4)本发明由于采用互补残差学习器，不仅可以获取视频帧之间的时间互补信息，从而抑制公共显著信息达到平衡效率和准确性的目的，还能彻底挖掘视频帧之间的潜在互补信息，以增强行人的特征表示，进而在跨镜匹配时减小匹配误差。

附图说明

图1为本发明的整理流程图；

图2为实施例中混合注意力机制示意图；

图3为实施例中互补残差学习模块示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

本发明利用监控的重点搜索区域中异常目标的通联信息对跟踪目标进行粗略定位以调用附近的单个摄像头的实时视频，并利用三阶段混合注意力机制提取并融合目标图片与视频帧之间的特征，通过概率估计得到检测结果，同时利用在线更新策略获取单个摄像头视频中的目标跟踪结果；然后，通过注意力模块将消失目标模板与其对应的时空通联信息进行融合，并利用手机定位获取消失目标的位置并通过调取距离最小的三个摄像头的视频；将消失目标的融合特征与视频输入到互补残差学习器进行特征增强与匹配，进而将强化特征与目标特征进行相似度计算；最后，找到相似度最高且大于阈值的行人图像，并返回其边界框以及所属摄像头编号进行继续追踪，直到在查询的视频中未匹配到消失的目标即判定为目标离开该重点区域。

简言之，本发明可用于实时监控视频数据，结合追踪目标的通讯信息调用单个摄像头视频，并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域，实现跨镜目标跟踪，从而达到及时预警，保护重点区域人员人身安全与信息安全的目的。

如图1所示，本发明跨镜目标跟踪的整体流程为：首先，获取目标模板和单摄像头的视频序列；然后，目标跟踪，即利用多阶段混合注意力机制实现单摄像头目标跟踪；接着进行行人重识别，即当目标离开当前摄像头视野时，通过注意力模块将消失目标模板与其时空通联信息进行融合，并利用互补残差学习模块从多镜头视频中获取强化特征，计算其与消失目标的相似度；其次判断相似度是否均大于阈值，如果都大于阈值，则找到相似度最高的行人图像所属镜头并返回目标模板以及但摄像头的视频，如果没有都大于阈值则表示该目标已离开重点区域，并结束跨镜追踪。

实施例：

本实施例以监控某重点建筑物周围异常目标为例，这里将以该建筑物为中心的特定范围划分为重点区域，将重点区域中新增的时空通联数据以及其对应的目标视为异常信号与异常目标。

本实施例的具体跨镜目标追踪的步骤如下：

步骤一：首先，将目标模板图片和搜索区域(即视频帧)切割固定大小的子图片，并利用卷积操作对图片进行基本编码。具体来说，就是采用C个补零层数为1、步长为4、核大小为7的卷积层，对第i个跟踪目标模板图片T_i以及搜索区域S进行编码得到基本编码序列t_j和s_j。

然后，将目标模板图片T_i的N个目标子图片的基本编码和搜索区域的子图片的基本编码展开，并且沿着通道方向拼接，并对得到的编码序列进行分离和重建得到目标序列与搜索序列的二维特征图像

和

最后，对每张特征图进行深度分离卷积操作，并将目标模板图片和搜索区域的每个特征映射进行展平，通过线性投影进行处理，得到所需的查询(query)、键(key)和值(value)向量：

其中，q_t、k_t和v_t分别表示目标模板图片的query、key和value，q_s、k_s和v_s分别表示搜索区域的query、key和value。DConv表示深度可分离卷积，

表示将矩阵展平，

表示线性投影操作。

步骤二：利用图2中得到三阶段混合注意力机制，对输入进行编码序列进行特征提取。

首先，将目标模板图片与搜索区域的键和值向量分别进行拼接得到k_m和v_m，并利用混合注意力机制将目标模板图片与搜索区域进行特征融合：

d表示key的维度，上标T表示对应向量的转置，Softmax表示激活函数，Atten_t和Atten_s分别是目标模板图片和搜索区域注意力图。

接着，通过多层感知机将目标模板图片和搜索区域的注意力图进行拼接，拼接公式为：

目标模板图片和搜索区域使用一次混合注意力操作提取到特征F₁，F₁大小为

和

最后，进行类似操作提取第三阶段的特征图，就是将F₂进行序列分离与重建得到目标和搜索区域的二维特征图，利用6C个卷积核获取对应编码序列，并将其展平拼接后输入到混合注意力机制进行16次混合注意力操作得到大小为

的最终特征序列F₃。

步骤三：为获取单摄像头的跟踪结果，首先将第三阶段输出的特征序列F₃拆分得到搜索区域特征序列，并重建为特征图

然后，将其输入到由L个卷积层、批量标准化层和Relu激活函数组成的全卷积网络，得到两个概率图：

P_a(x,y),P_b(x,y)＝Conv(BN(Relu(T)))

P_a(x,y)表示边界框左上方的顶点概率图，P_b(x,y)表示边界框右下方的顶点概率图。接着，通过计算顶点概率分布的期望值获得预测边界框坐标

和

这里两个顶点内的区域就是目标检测的结果，如下式所示：

最后，采用在线更新策略来获取跟踪结果。具体来说，先获取预测结果的注意力图，然后使用多层感知机网络和Sigmoid函数得到最终的分数，选择分数大于0.5的部分作为最终结果并存入目标模板库中。并将更新后的目标模板图片以及下一帧视频作为步骤一中初始目标模板图片和搜索区域，再次对视频中的异常目标进行跟踪，直至搜索区域内目标消失即目标离开该摄像头的搜索区域。

步骤四：为提高跨镜追踪目标的准确率，将目标的时空通联讯息作为行人重识别的辅助信息，即利用手机定位获取消失目标的位置并调取最近的三个摄像头的前

帧视频(也就是先定位跟踪目标消失时的地理位置，然后调取该地理位置附近最近的三个摄像头视频)，同时将目标的时空通联讯息(位置信息、通讯信息与上网信息)和消失目标的模板图像通过图3中的注意力机制进行特征融合。

接着，采用残差网络Resnet50的前四个残差层对消失目标模板图片与调取的三个摄像头的前

个视频帧进行初始特征提取，得到视频序列的帧级特征

以及目标模板的初始特征

步骤五：利用特征图上的冗余显著区域挖掘当前视频帧的剩余互补信息，并利用残差网络从中获取补充特征来强化当前视频帧的特征。为获取剩余互补信息，本实施例将第g-1帧的强化特征

投射为

并利用多头注意机制生成对应的注意力图

然后，利用Softmax函数获取前g-1个视频帧的显著特征与第g个视频帧的初始特征之间的相似度，从而获取第g帧视频的剩余互补信息

此处，

是特征重建操作，

表示摄像头序号为κ的第g-1个视频帧的显著特征，

表示摄像头序号为κ的第g帧视频初始特征。

最后，利用残差网络从

中获取该摄像头第g帧视频的补充特征，并将其与第g-1帧的强化特征整合得到第g帧的强化特征

其中

表示第κ个摄像头的第g帧视频的补充特征，

表示第κ个摄像头的第g-1帧视频的强化特征，并以相同的方式获得消失目标模板图片的强化特征

步骤六：利用相似度计算获取的强化特征向量与消失目标的模板图片之间相似性，并根据经验设置余弦相似度阈值，以实现跨镜目标追踪。

首先，对帧级强化特征

进行全局平均池化得到视频帧中每个行人图像的特征向量

表示摄像头序号为κ的第g帧视频中检测到的行人数量。

然后，对消失目标模板图片的强化特征

与视频帧中行人的强化特征向量

进行通道归一化，并计算进行相似度Θ^κ：

这里

表示消失目标与摄像头κ中行人图像的相似度。

接着，根据经验设置余弦相似度阈值为0.5，通过相似度的大小得到行人图像与消失目标模板图片的相似性排序。

最后，选择相似度最大的行人图像所属摄像头继续跟踪消失目标，即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片，并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪。当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时，则表示消失的目标已离开重点区域。

综上，本发明采用多阶段混合注意力机制能够很好地克服现有方法中利用卷积神经网络时因局部卷积而导致目标识别精度低的问题，不但可以实现单镜头目标跟踪；还可以利用互补残差学习模块有效地解决了因视频帧之间的冗余特征学习而导致行人重识别效率低的问题，进一步地完成跨镜头跟踪。通过在重点区域进行监控，根据目标的通联信息对其进行粗略定位以调用附近的单个摄像头进行单镜头跟踪，然后通过行人重识别技术在其它摄像头中找到消失目标持续跟踪，实现对目标快速精确的跨镜头跟踪。

Claims

1.一种基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：包括以下步骤：

步骤S1、将跟踪目标模板图片T_i和当前搜索区域S切割为固定大小的子图片，利用卷积操作对各子图片进行基本编码分别得到对应编码序列t_j和s_j；然后对基本编码序列t_j和s_j进行分离和重建，最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<q_t,k_t,v_t>、<q_s,k_s,v_s>；

其中，T_i表示第i个跟踪目标模板图片，i∈{1,2,...,n}，q_t,k_t,v_t为跟踪目标模板图片的查询、键和值，q_s,k_s,v_s为搜索区域的查询、键和值；

第二阶段、将混合特征F₁通过可分离卷积改变尺寸后输入到混合注意力机制中，得到第二阶段的特征序列F₂；

第三阶段、将特征序列F₂通过可分离卷积改变尺寸，并进行多个混合注意力操作得到最终第三阶段的特征序列F₃；

步骤S3、先将特征序列F₃通过分离和重建得到搜索区域的特征序列，并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果；然后，根据预测置信度进行在线更新，同时将下一帧视频帧作为步骤S1的搜索区域，重新对视频中的跟踪目标进行跟踪，直至搜索区域中的目标消失；

步骤S4、利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频，同时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合，并与调取的视频帧通过残差网络提取各自初始特征，分别得到三个摄像头视频序列的帧级特征以及特征融合后的消失目标初始特征；

2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S1的具体过程为：

S1.1、分别获取跟踪目标模板图片T_i和视频帧内搜索图片S的基本编码序列t_j和s_j；

其中，

H_t和W_t分别为跟踪目标模板图的高度和宽度，H_s和W_s分别表示搜索图片的高度和宽度，t_j表示目标模板图片的编码，s_j表示搜索图片的编码，Conv_7×7表示核大小为7的卷积；

进而得到目标子图像的基本编码大小分别为

搜索子图像的基本编码大小为

C为通道数；

然后，将跟踪目标模板图片T_i的N个目标子图像的基本编码

和搜索区域的子图片的基本编码

展开，并沿通道方向拼接得到大小为

和

S1.2、分别获取目标模板图片和搜索图片的查询、键和值向量

首先，对二维特征图像

进行深度分离卷积操作DConv，然后将目标模板和搜索图片的每个特征映射进行矩阵展平操作

以及线性投影操作

最终得到对应查询query、键key和值value，具体公式如下：

。

3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S2利用混合注意力机制提取特征的详细过程为：

步骤S2.1、将目标模板图片的k_t和搜索区域的k_s进行拼接得到键向量k_m＝Concat(k_t,k_s)，将目标模板图片的v_t和搜索区域v_s进行拼接得到值向量v_m＝Concat(v_t,v_s)，Concat表示拼接操作；

d表示键key的维度，上标T表示对应向量的转置，

表示激活函数，Atten_t和Atten_s分别是目标模板图片和搜索区域的注意力图；

表示多层感知机网络；

先使用一次混合注意力操作提取得到大小为

的第一阶段特征序列F₁，C为通道数；

和

的第三阶段最终特征序列F₃。

4.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S3中获取单个摄像头目标检测结果的具体过程为：

的特征图

C为通道数；

然后，将

和

如下式所示：

最后，采用在线更新策略来获取跟踪结果。

5.根据权利要求4所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：在线更新策略来获取跟踪结果的具体方法为：

6.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S4的详细过程包括如下：

步骤S4.1、获取融合特征：

使用γ_loc,γ_net,γ_com分别表示时空通联讯息中的目标的位置信息、上网信息和通讯信息的对应特征，然后利用注意力机制进行特征的融合的计算公式如下：

其中，α,β为可调整参数，Ω_t,Ω_Υ,Ω_θ为可学习的权重，b_A,b_θ为偏置向量，t_j为向量T_i的一个元素，θ_j为权重向量θ的一个元素，

步骤S4.2、利用残差网络提取初始特征：

使

表示抽取的前

特征融合后的目标初始特征为

具体公式如下：

其中，h、w和c是每个特征

表示视频序列的总数量，g是视频帧的索引。

7.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S5获取强化特征的过程为：

使

表示摄像头序号为κ的第g帧视频初始特征，

首先，将强化特征

投射为特征图

并采用多头注意力机制生成对应的注意力图

是特征重建操作，

表示摄像头序号为κ的第g-1个视频帧的显著特征，

表示卷积操作，

表示摄像头序号为κ的第g帧视频的剩余互补信息；

最后，利用残差网络从

中获取该摄像头第g帧视频的补充特征

并将其与第g-1个的帧级强化特征

整合得到第g帧视频的强化特征

并利用相同方法计算消失目标模板图片的强化特征

8.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S6中跨镜目标追踪的具体方法为：

首先，对帧级强化特征

进行全局平均池化得到视频帧中每个行人图像的特征向量

表示摄像头序号为κ的第g帧视频中检测到的行人数量；

然后，对消失目标模板图片的强化特征

与视频帧中行人目标的强化特征向量

进行通道归一化，并进行相似度计算即：

其中

表示消失目标与摄像头κ中行人图像的相似度；

接着，根据经验设置余弦相似度阈值，通过相似度的大小得到行人图像与消失目标模板图片的相似性排序；

最后，选择相似度最大的行人图像所属摄像头继续跟踪消失目标，即利用该行人特征对应于视频帧中的边界框长度、宽度以及中心位置坐标来获取目标图像作为新的目标模板图片，并将对应编号的摄像头视频序列与新的目标模板图片返回到步骤一中对目标进行持续跟踪；当所有视频帧中行人图像与目标模板图片的相似度均低于阈值时，则表示消失的目标已离开重点区域。