CN113361329B

CN113361329B - 一种基于实例特征感知的鲁棒单目标跟踪方法

Info

Publication number: CN113361329B
Application number: CN202110510460.9A
Authority: CN
Inventors: 刘勇; 杨小倩; 王蒙蒙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-05-06
Anticipated expiration: 2041-05-11
Also published as: CN113361329A

Abstract

本发明公开了一种基于实例特征感知的鲁棒单目标跟踪方法，包括以下步骤：步骤一、模型训练，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于实例特征感知的鲁棒单目标跟踪的网络权重；步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列中跟踪目标。基于实例特征感知的鲁棒单目标跟踪方法，通过学习区分相似目标之间的特征，增强跟踪器的判别能力，提高跟踪过程的抗干扰能力和鲁棒性。本方法在众多困难的实际场景中都可以准确稳定的跟踪目标，和其他方法相比，取得了更好的目标追踪捕捉效果。

Description

一种基于实例特征感知的鲁棒单目标跟踪方法

技术领域

本发明属于计算机视觉的技术领域，具体涉及一种基于实例特征感知的鲁棒单目标跟踪方法。

背景技术

深度学习推动计算机视觉领域的快速发展，目标跟踪在现实生活中具有重要的应用价值和意义，例如机器人视觉跟踪系统、视频监督系统等。从特征提取的角度看，目标跟踪主要经历了三个阶段：传统的手工特征提取、深度特征、端到端的深度特征。在第一个阶段，跟踪器通常使用颜色、直方图等方式表示跟踪对象的特征，并且使用支持向量机、相关滤波等方式实现特征匹配。这类方法提取的特征泛化性有限，因此跟踪性能受限。在第二阶段，将深度学习应用到目标跟踪领域，使用深度学习的方法提取目标特征，由于深度学习的使用，跟踪性能取得了大幅提升。然而仅仅在特征提取阶段使用深度学习实现，整个目标跟踪框架是多阶段实现的，虽然跟踪准确率提高，但是降低了目标跟踪的速度。目前，我们正处于第三个阶段，使用统一的端到端的框架实现目标跟踪，不再需要将特征提取和跟踪分为两个阶段，而是从特征提取到特征匹配都使用深度学习的方式来实现。

虽然目前统一的实现框架使目标跟踪在准确率和速度上取得一个很好的平衡，但是在目标跟踪领域仍然面临很多的困难和挑战，主要包括：遮挡、运动模糊、视角变化、旋转形变、背景杂乱、相似目标干扰等。因此如何有效解决跟踪过程中会遇到的难题，提取具有判别性和抗干扰能力的对象特征是目标跟踪领域目前需要解决的问题。

针对上述问题，我们提出一种基于实例感知的鲁棒目标跟踪方法，实例感知的目的在于通过提出的网络分支学习相同类别不同对象的不同特征，提取具有判别性的特征表示，提高整个系统的判别性和跟踪鲁棒性。

发明内容

本发明针对现有基于深度学习的单目标跟踪方法中，对相似目标干扰的判别能力不足，跟踪过程中容易跟错目标的问题，提出一种基于实例特征感知的鲁棒单目标跟踪方法。旨在通过实例特征感知方法增强网络模型对相同类别不同目标的判别能力，尤其是对外形特征相似、颜色相似的目标，跟踪器仍然能够较稳定的在长时间序列中跟踪正确的目标。

为了达到上述发明目的，本发明采用以下技术方案。一种基于实例特征感知的鲁棒单目标跟踪方法，包括以下步骤：

步骤一、模型训练，利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于实例特征感知的鲁棒单目标跟踪的网络权重；

步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列中跟踪目标。

进一步的，所述模型训练具体包括以下步骤：

S11、利用服务器执行模板图像和图像搜索区域的生成单元，进行模板图像和图像搜索区域的生成；具体是从多个数据集的任意视频中获取模型训练所需要的大量模板图像X和图像搜索区域Z，模板图像和图像搜索区域是在真实候选框的位置中选取围绕真实候选框的F倍大小、包含目标的区域，其中F为大于或等于1的整数；

S12、利用服务器执行图像特征提取单元，进行图像特征的提取，图像特征定义为f；具体为从模板图像和图像搜索区域提取图像特征，图像特征使用残差网络进行提取，将模板图像和图像搜索区域经过相同的残差网络，得到模板图像特征为f(x)、图像搜索区域特征为f(z)；

S13、利用服务器执行相关卷积核生成单元，进行相关卷积核生成；具体为从模板图像特征 f(x)中提取目标的特征，目标的特征就是相关卷积核kernel；

S14、利用服务器执行目标分类单元，对目标进行分类，用于分类前景和背景，具体为在得到的特征图中，将分数大于阈值的区域认为是前景，低于阈值的区域为背景；具体为将S13提取的相关卷积核kernel与图像搜索区域特征f(z)做卷积操作kernel*f(z)，卷积后的响应图中分数最高的部位就作为目标中心位置center；

S15、利用服务器执行选框回归单元，生成跟踪对象的候选框；具体为输入图像搜索区域特征 f(z)，根据S14得到的目标中心位置center生成围绕目标中心位置的固定大小的多个目标候选框,在后续优化网络中，选择出与真实目标框有最大交并比的候选框作为预测的跟踪目标候选框；

S16、利用服务器执行实例特征感知学习单元，学习相似目标不同特征的判别能力；具体为将之前帧(当前帧之前处理过的帧,也就是已经处理过的那些帧)的图像搜索区域特征 {f(z₀),f(z₁),…,f(z_t-1)}保存到存储器M中，作为与当前跟踪目标相似的干扰对象，其中t小于或等于N,N为存储器M的容量大小；然后网络学习从存储器的多个相似干扰对象中正确区分出需要跟踪的目标；

S17、利用服务器进行网络训练，采用联合统一的方式训练；具体为将实例特征感知学习单元中的损失函数计算值L_ins、目标分类单元中的损失函数计算值L_cls、候选框回归单元中的损失函数计算值L_reg三者按预设权重值λ_ins、λ_cls、λ_reg加权在一起，联合整个服务器系统进行统一训练，加权后的损失函数计算公式为：L＝λ_insL_ins+λ_clsL_cls+λ_regL_reg；

S18、根据损失函数L计算梯度，具体为梯度是指损失函数表达式对模型中可学习的参数求偏导，然后使用Adam优化器反向传播更新网络参数，使网络损失函数降低直至收敛，至此训练结束，得到训练好的基于实例特征感知的鲁棒单目标跟踪的网络权重，网络权值是指损失函数收敛时，网络中可学习参数的值。

更进一步的，所述步骤S11中的N取值为6。

更进一步的，所述步骤S13中，对于多个模板图像特征，提取的相关卷积核为多个模板图像特征对应的多个相关卷积核的平均值。

更进一步的，所述步骤S16中，实例特征感知学习单元的损失函数采用自监督的对比损失L_ins，目标分类单元损失L_cls，候选框回归单元损失L_reg，具体计算方式如下：

L_reg＝KL(p(.|y_i),p(.|x_i,θ))

其中S_test是需要找到跟踪目标的图片序列，x是其中的一张图片，c是目标，g⁽ⁱ⁾用于提取目标特征，i表示第i次迭代，提取目标特征一共需要迭代N_iter，l(x*g⁽ⁱ⁾)是指将g⁽ⁱ⁾得到的目标特征在图像x上进行卷积操作，得到目标特征在图像x上的响应图。z_c是基于目标c 生成的真值。

KL是计算两个分布p(.|y_i)和p(.|x_i,θ)的相似度，其中分布p(.|y_i)是真实的分布，分布 p(.|x_i,θ)是预测的分布，两个分布越相似越好。

更进一步的，所述步骤S16中，实例特征感知学习单元包括一个采用动量更新方式的图像特征提取单元，以及卷积层、池化层、全连接层+relu、全连接层、存储器。具体为输入的图像经过图像特征提取单元，然后经过卷积层，经过池化层，经过全连接层+relu，经过全连接层，最终得到一个1x128维的向量，存储到存储器中。习得到一个实例特征感知分数得到的感知分数和其他两个分支得到的分数按照S17进行加权求和，其中另外两个分支(即目标分类单元，候选框回归单元)是已经公开的技术。

更进一步的，所述步骤S16具体为：

(1)、固定所述存储器M的存储大小为N，每个存储的元素大小为1x128的特征向量，因此存储器是一个Nx128的二维矩阵的形式；使用随机数初始化所述存储器M，后续用图像搜索区域特征f(z)来更新所述存储器M，该存储器M存储的都是和当前正样本非常相似的大量负样本{f(z₀),f(z₁),…,f(z_t-1)}，负样本即相似的干扰对象，正样本即需要跟踪的目标；

(2)、从大量负样本{f(z₀),f(z₁),…,f(z_t-1)}中正确找出唯一的正样本f(z_t)；通过学习对不同目标的判别能力，尤其是对相似目标的判别能力，使相同对象之间相似性更接近，不同对象之间的相似性更远，也就是f(x)和f(z_t)尽可能相似，但和{f(z₀),f(z₁),…,f(z_t-1),…,f(z_N)}尽可能远离；使用的损失函数是自监督的对比损失，具体计算方式如下：

更进一步的，所述步骤二的模型推断包括以下步骤：

S21、初始化跟踪对象，需要跟踪的对象会在新的视频序列的视频第一帧中给出；将第一帧的图像经过图像模板生成单元获取得到多张模板图像，经过图像特征提取单元和在线学习的方法获取跟踪对象的特征，并经过相关卷积核生成单元，获取跟踪目标的相关卷积核；

S22、后续帧的图像经过图像搜索区域生成单元，及图像特征提取单元，获取搜索区域特征，与步骤S21获得的相关卷积核做卷积操作；

S23、将步骤S22卷积操作后得到的响应图经过目标分类单元和候选框回归单元，获得目标的跟踪位置和目标框，完成鲁棒单目标跟踪。

本发明与现有技术相比，有益效果是：基于实例特征感知的鲁棒单目标跟踪方法，通过学习区分相似目标之间的特征，增强跟踪器的判别能力，提高跟踪过程的抗干扰能力和鲁棒性。本方法在众多困难的实际场景中都可以准确稳定的跟踪目标，和其他方法相比取得了更好的目标追踪捕捉效果。

附图说明

图1是一种基于实例特征感知的鲁棒单目标跟踪方法的网络框架示意图；

图2是一种基于实例特征感知的鲁棒单目标跟踪方法与另外两种现有方法的效果图。

具体实施方式

为了更好的理解上述技术方案，下面通过具体实施例结合附图对本发明的技术方案作进一步描述说明，使得本技术方案更加清楚、明白。通过本说明书所揭露的内容本领域技术人员可轻易地了解本发明的其他优点与功效。本发明还可以通另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

如图1所示，本实施例公开的一种基于实例特征感知的鲁棒单目标跟踪方法，在具有相似目标干扰的情况下，跟踪器仍然能够鲁棒跟踪目标。本方法主要包括模型训练和模型推断两个阶段。具体的：

步骤一、在模型训练阶段中，利用具有高计算性能的服务器对网络模型进行训练，通过降低网络损失函数来优化网络参数，直至网络收敛，获得基于实例特征感知的鲁棒单目标跟踪的网络权重；

步骤二、在模型推断阶段中，利用训练阶段获得的网络权重，在新的视频序列中跟踪目标，实现鲁棒单目标跟踪。

图1中有三个特征提取单元，深色的两个特征提取单元是权重共享的，浅色的单元使用动量更新的方法。三个单元包括：目标分类单元，输出的特征图用于区分前景背景并得到目标的中心位置，候选框回归单元，输出候选框的iou(预测框和真实框的交并比)值；实例特征感知学习单元，输出实习特征特征感知分数。

本实施例的服务器包括模板图像和图像搜索区域生成单元、图像特征提取单元、相关卷积核生成单元、目标分类单元、候选框回归单元、实例特征感知学习单元等多个功能模块。具体的，每个功能单元如下：

(a)模板图像和图像搜索区域生成单元：用于从多个数据集的任意视频中获取模型训练所需要的大量模板图像和图像搜索区域，所述模板图像为包含跟踪目标的图像，图像搜索区域为搜索目标的图像区域；

(b)图像特征提取单元：用于从模板图像和图像搜索区域提取图像特征。将模板图像和图像搜索区域分别经过相同的特征提取网络，分别获得模板图像和图像搜索区域的特征；

(c)相关卷积核生成单元：用于从模板图像特征中提取目标的特征，所述提取的目标特征就是相关卷积核，对于多个模板图像特征，提取的相关卷积核是多个卷积核的平均值；

(d)目标分类单元：用于分类前景和背景，使用所述相关卷积核在图像搜索区域特征中执行卷积操作，卷积高响应部位作为前景目标中心位置；

(e)候选框回归单元：用于生成跟踪对象的候选框。输入图像搜索区域的特征，根据所述目标分类单元得到的目标中心位置，首先生成围绕目标中心位置的固定大小的多个目标候选框，然后在后续优化网络中选择最大交并比的候选框作为预测出的跟踪目标候选框；

(f)实例特征感知学习单元：用于学习相似目标不同特征的判别能力。首先将之前帧的所述图像搜索区域特征保存到存储器中，作为与当前跟踪目标相似的干扰对象。然后网络学习从存储器的多个相似干扰对象中正确区分出需要跟踪的目标。

本实施例的基于实例特征感知的鲁棒单目标跟踪方法中步骤一的模型训练阶段的操作过程如下：

步骤S11:执行模板图像和图像搜索区域生成单元：从多个数据集的任意视频中获取模型训练所需要的大量模板图像X和图像搜索区域Z，模板图像和图像搜索区域是根据真实候选框的位置，选取围绕真实候选框的6倍大小，包含目标对象和背景的区域；

步骤S12:执行图像特征提取单元，定义为f，用于从模板图像和图像搜索区域提取图像特征。所述图像提取单元使用残差网络，模板图像和图像搜索区域经过相同的所述图像特征提取单元，模板图像特征f(x)，图像搜索区域特征f(z)；

步骤S13:执行相关卷积核生成单元，从模板图像特征f(x)中提取目标的特征，所述提取的目标特征就是相关卷积核kernel。其中对于多个模板图像特征，提取的相关卷积核是多个模板图像特征对应的多个相关卷积核的平均值；

步骤S14:执行目标分类单元，用于分类前景和背景。将S3提取的相关卷积核kernel与图像搜索区域特征f(z)做卷积操作kernel*f(z)，卷积后响应图上分数最高的部位就作为目标中心位置center；

步骤S15:执行选框回归单元，用于生成跟踪对象的候选框。输入图像搜索区域特征f(z)，根据S14得到的目标中心位置center，首先生成围绕目标中心位置的不同大小(每个目标候选框大小预先设定)的多个目标候选框，然后在后续优化网络中，选择出与真实目标框有最大交并比的候选框作为预测的跟踪目标候选框；

步骤S16:执行实例特征感知学习单元，用于学习相似目标不同特征的判别能力。首先将之前帧的所述图像搜索区域特征{f(z₀),f(z₁),…,f(z_t-1)}保存到存储器M中，作为与当前跟踪目标相似的干扰对象。然后网络学习从存储器的多个相似干扰对象中正确区分出需要跟踪的目标。步骤S17:网络训练，实例特征感知学习单元的损失函数计算值L_ins和目标分类单元的损失函数计算值L_cls，候选框回归单元的损失函数计算值L_reg，按照预设权重值λ_ins,λ_cls,λ_reg加权在一起，联合整个系统进行统一训练，加权后的损失计算公式为：

L＝λ_insL_ins+λ_clsL_cls+λ_regL_reg。

步骤S18:损失函数计算梯度，反向传播更新网络参数，使损失函数降低直至收敛到稳定值，至此训练结束，得到训练好的网络权重。

具体地，本实施例中的实例特征感知学习单元的损失函数采用自监督的对比损失，具体计算方式如下：

本实施例中的实例特征感知学习单元包括一个采用动量更新方式的图像特征提取单元，以及卷积层、池化层、全连接层+relu、全连接层、存储器部分。本单元最终学习得到一个实例特征感知分数。

本实施例的步骤S16中的实例特征感知学习单元，其用于学习相似目标不同特征的判别能力。首先将之前帧的所述图像搜索区域特征{f(z₀),f(z₁),…,f(z_t-1)}保存到存储器M中，作为与当前跟踪目标相似的干扰对象。然后网络学习从存储器的多个相似干扰对象中正确区分出需要跟踪的目标。具体执行步骤如下：

(1)固定存储器M的存储大小N，每个存储的元素大小为1x128的特征向量，因此存储器是一个N乘以128的二维矩阵的形式；使用随机数初始化存储器M，后续用图像搜索区域特征f(z)来更新存储器M，该存储器M存储的都是和当前正样本非常相似的大量负样本；

(2)实例特征感知学习单元的学习目的是从大量负样本{f(z₀),f(z₁),…,f(z_t-1)}中正确找出唯一的正样本f(z_t)。因此该单元需要学习对不同目标的判别能力，尤其是对相似目标的判别能力，需要使相同对象之间相似性更接近，不同对象之间的相似性更远，也就是f(x)和f(z_t) 尽可能相似，但和{f(z₀),f(z₁),…,f(z_t-1),…,f(z_N)}尽可能远离。使用的损失函数是自监督的对比损失，具体计算方式如下：

网络训练是使用联合统一的方式训练的，训练损失函数为三个单元的加权和，具体为实例特征感知学习单元的损失函数计算值L_ins和目标分类单元的损失函数计算值L_cls，候选框回归单元的损失函数计算值L_reg，按照一定的权重值λ_ins,λ_cls,λ_reg加权在一起，联合整个系统进行统一训练，加权后的损失计算公式为：

L＝λ_insL_ins+λ_clsL_cls+λ_regL_reg。

本实施例中步骤二的推断阶段的具体步骤如下：

步骤(1):初始化跟踪对象，需要跟踪的对象会在视频第一帧中给出；将第一帧的图像经过图像模板生成单元，获取多张模板图像，经过图像特征提取单元和在线学习的方法获取跟踪对象的特征，并经过相关卷积核生成单元，获取跟踪目标的相关卷积核；

步骤(2):后续帧的图像经过图像搜索区域生成单元，及图像特征提取单元，获取搜索区域特征，与步骤(1)获得的相关卷积核做卷积操作；

步骤(3):将步骤(2)的卷积操作响应图结果经过目标分类单元和候选框回归单元，获得目标的跟踪位置和目标框。如图2所示。

图2中，方框1是采用本实施例的基于实例特征感知的鲁棒单目标跟踪方法，方框2是 PrdiMP方法，方框3是SiamRPN++方法，在相同环境条件下，从三个方法的对比中可以看出，我们的方法在很多复杂的环境情况下能够对目标进行更好的跟踪。比如第一行图，目标被遮挡后，其他方法可能跟错了，但是采用本实施例的方法仍然能够跟住。第二行图，运动员跳水过程中有很多的旋转身体变化，采用本实施例的方法能够得到更精准的候选框。第三行图，当跟踪目标和一些干扰目标重叠时，其他两个方法很容易跟错目标，但是本实施例的方法仍然对目标进行准确的跟踪捕捉。

上述实施例为本发明最佳的实施方式，但是本发明的实施方式不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所做的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本方面的保护范围之内。更具体地说，在本申请公开、附图和权利要求的范围内，可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变型和改进外，对于本领域技术人员来说，其他的用途也将是明显的。

Claims

1.一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，包括以下步骤：

步骤二、模型推断，利用训练阶段获得的网络权重，在新的视频序列中跟踪目标；

所述模型训练具体包括以下步骤：

S13、利用服务器执行相关卷积核生成单元，进行相关卷积核生成；具体为从模板图像特征f(x)中提取目标的特征，目标的特征就是相关卷积核kernel；

S14、利用服务器执行目标分类单元，对目标进行分类，用于分类前景和背景；具体为将S13提取的相关卷积核kernel与图像搜索区域特征f(z)做卷积操作kernel*f(z)，卷积后的响应图中分数最高的部位就作为目标中心位置center；具体的，在特征响应图上，大于或等于阈值的区域认为是前景，小于阈值区域认为是背景；

S15、利用服务器执行选框回归单元，生成跟踪目标的候选框；具体为输入图像搜索区域特征f(z)，根据S14得到的目标中心位置center生成围绕目标中心位置的固定大小的多个目标候选框，在后续优化网络中，选择出与真实目标框有最大交并比的候选框作为预测的跟踪目标候选框；

S16、利用服务器执行实例特征感知学习单元，学习相似目标不同特征的判别能力；具体为将之前帧的图像搜索区域特征{f(z₀)，f(z₁)，...，f(z_t-1)}保存到存储器M中，作为与当前跟踪目标相似的干扰对象，其中t小于或等于N，N为存储器M的容量大小；然后网络学习从存储器的多个相似干扰对象中正确区分出需要跟踪的目标；

S18、根据损失函数L计算梯度，具体为梯度是指损失函数表达式对模型中可学习的参数求偏导，然后使用Adam优化器反向传播更新网络参数，使网络损失函数降低直至收敛，至此训练结束，得到训练好的基于实例特征感知的鲁棒单目标跟踪的网络权重，网络权值是指损失函数收敛时，网络中可学习参数的值；

实例特征感知学习单元的损失函数采用自监督的对比损失计算值L_ins，目标分类单元损失计算值L_cls，候选框回归单元损失计算值L_reg，具体计算方式如下：

L_reg＝KL(p(.|y_i)，p(.|x_i，θ))；

其中S_test是需要找到跟踪目标的图片序列，x是其中的一张图片，c是目标，g⁽ⁱ⁾用于提取目标特征，i表示第i次迭代，提取目标特征一共需要迭代N_iter，l(x*g⁽ⁱ⁾)是指将g⁽ⁱ⁾得到的目标特征在图像x上进行卷积操作，得到目标特征在图像x上的响应图；z_c是基于目标c生成的真值；KL是计算两个分布p(.|y_i)和p(.|x_i，θ)的相似度，其中前一个分布是真实的分布，后一个分布是预测的分布。

2.根据权利要求1所述的一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，所述步骤S11中的N取值为6。

3.根据权利要求1所述的一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，所述步骤S13中，对于多个模板图像特征，提取的相关卷积核为多个模板图像特征对应的多个相关卷积核的平均值。

4.根据权利要求1所述的一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，所述步骤S16中，实例特征感知学习单元包括一个采用动量更新方式的图像特征提取单元，以及卷积层、池化层、全连接层+relu、全连接层、存储器；具体为输入的图像经过图像特征提取单元，然后经过卷积层，经过池化层，经过全连接层+relu，经过全连接层，最终得到一个1x128维的向量，存储到存储器中。

5.根据权利要求1所述的一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，所述步骤S16具体为：

(1)、固定所述存储器M的存储大小为N，每个存储的元素大小为1x128的特征向量，因此存储器是一个Nx128的二维矩阵的形式；使用随机数初始化所述存储器M，后续用图像搜索区域特征f(z)来更新所述存储器M，该存储器M存储的都是和当前正样本非常相似的大量负样本{f(z₀)，f(z₁)，...，f(z_t-1)}，负样本即相似的干扰对象，正样本即需要跟踪的目标；

(2)、从大量负样本{f(z₀)，f(z₁)，...，f(z_t-1)}中正确找出唯一的正样本f(z_t)；通过学习对不同目标的判别能力，尤其是对相似目标的判别能力，使相同对象之间相似性更接近，不同对象之间的相似性更远，也就是f(x)和f(z_t)尽可能相似，但和{f(z₀)，f(z₁)，...，f(z_t-1)，...，f(z_N)}尽可能远离；使用的损失函数是自监督的对比损失计算值L_ins。

6.根据权利要求1-5任一所述的一种基于实例特征感知的鲁棒单目标跟踪方法，其特征在于，所述步骤二的模型推断包括以下步骤：