CN112884037A

CN112884037A - 一种基于模板更新和无锚框方式的目标跟踪方法

Info

Publication number: CN112884037A
Application number: CN202110178314.0A
Authority: CN
Inventors: 唐川明; 秦鹏; 张建林; 徐智勇
Original assignee: Institute of Optics and Electronics of CAS
Current assignee: Institute of Optics and Electronics of CAS
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-01
Anticipated expiration: 2041-02-09
Also published as: CN112884037B

Abstract

本发明公开了一种基于模板更新和无锚框方式的目标跟踪方法，主要用于对视频目标进行跟踪，确定目标在视频中的位置和大小。该方法包括对训练数据集进行裁剪；对卷积神经网络的构建和改进；实现基于无锚框和椭圆标注下的预测框回归结构；更新目标模板并进行特征融合以提高模板鲁棒性；使用带距离度量的重叠率回归损失函数提高训练的收敛效果和对目标的拟合程度等步骤。本发明解决了跟踪方法中目标模板随时间逐渐退化，跟踪漂移甚至丢失的问题，使得改进后的网络结构更加鲁棒和稳定，在保持实时跟踪的基础上实现较高精度的跟踪效果。

Description

一种基于模板更新和无锚框方式的目标跟踪方法

技术领域

本发明涉及计算机视觉、深度学习以及图像处理领域，特别是涉及基于孪生网络的特征提取，模板更新和无锚框方式的目标回归等领域。具体涉及一种基于模板更新和无锚框方式的目标跟踪方法，主要针对视频图像中的目标在运动过程中产生形变、旋转、遮挡等变化，导致算法模板容易出现退化，目标跟踪出现漂移和丢失等问题。

背景技术

目标跟踪作为计算机视觉领域的基础研究任务之一，在智能监控、无人驾驶、安防等领域受到广泛应用。简单来说，目标跟踪旨在给出初始帧标注情况下，通过学习其初始外观特征，预测视频后续帧中该目标的位置和形态大小。然而目前跟踪算法仍然面临许多问题，包括目标剧烈的外观形变、旋转、消失重现、快速移动等问题，都可能致使跟踪算法出现目标丢失情况。因此一个鲁棒而稳定的跟踪方法是急需和必要的。

现有的跟踪算法大多采用基于有锚框的方式完成跟踪任务，该方式通过人工阈值来筛选预设的多个锚框，采用平移和缩放等方式消除偏移量，回归目标位置。然而，预设锚框需要设置包括尺度和锚框纵横比等超参数，这一手工设定将会导致最终跟踪框很难达到最优的拟合效果，从而限制了跟踪精确度的上限。

此外孪生网络算法大多仅采用的初始模板作为参考帧搜索目标，不更新初始目标模板。这一不更新模板的方式会导致过分依赖初始模板。当目标受到剧烈形变，旋转，遮挡等问题影响时，特征信息会产生显著变化，会导致模板有用信息随时间呈指数衰减，无法较好的和现有目标匹配，造成目标漂移甚至丢失，以及发生漂移后难以从跟踪失败中恢复等问题。部分算法会简单的逐帧更新样本，但逐帧的更新会严重的影响了速度，无法达到实时的跟踪速度。算法训练过程中的损失函数方面，目前算法都是使用逻辑损失、Smooth L1损失或者IOU损失，而这些损失函数对算法训练的收敛效果还不足以满足社会需求和复杂场景，面对预测框和真实目标相差较远时难以较好回归预测框。综上所述分析，本发明提出一种基于模板更新和无锚框方式的目标跟踪方法。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于模板更新和无锚框方式的目标跟踪方法，该方法充分利用视频后续帧中跟踪目标的特征信息来更新模板信息，保持在跟踪过程中目标模板的可用性，改进跟踪算法的鲁棒性和稳定性，同时保证更新模板不影响跟踪的实时速度。

为达到上述目的，本发明提供了一种基于模板更新和无锚框方式的目标跟踪方法，所述的方法包括如下步骤：

步骤1：根据图像中的目标位置和大小，分别对目标模板图像和搜索区域图像进行区域裁剪，以裁剪后的目标模板图像和搜索区域图像组成的图像对作为训练数据集；

步骤2：构建基于模板更新的卷积神经网络，所述基于模板更新的卷积神经网络包含3个完全相同的分支卷积网络结构，分别为第一分支、第二分支、第三分支，第一分支为当前模板分支，用于生成已有模板的特征；第二分支为更新模板分支，用于完成模板信息的更新并获取特征图；第三分支为搜索区域分支，用于完成对搜索区域图像进行特征提取；三分支中第一二分支先进行加权融合后再与第三分支进行逐层互相关运算，得到响应得分图；

步骤3：构建图像分类和目标位置回归子网络；分类是对图像进行前景背景的二分类，回归采用无锚框方式直接预测目标的中心点和矩形框的上下左右四条边框位置；

步骤4：基于公开训练数据集，训练所述步骤3和步骤4组成的基于模板更新和无锚框方式的跟踪网络，获得训练好参数的基于模板更新和无锚框方式的跟踪网络；

步骤5：使用训练好参数的基于模板更新和无锚框方式的跟踪网络确定视频序列中每帧图像中目标的位置和大小，完成目标跟踪。

进一步地，步骤1中所述裁剪训练数据集的具体过程如下：

步骤1.1：以目标所在区域为中心裁剪出矩形图像构成初始模板图像，所述矩形图像长宽分别为目标矩形框长宽的四分之一；若矩形框超出原视频帧边界，则扩展部分以图像平均像素进行填充；最后将裁剪的目标缩放到127×127；

步骤1.2：以目标所在区域为中心裁剪出矩形图像构成搜索区域图像，所述矩形图像长宽分别为目标矩形框长宽的二分之一，若矩形框超出原视频帧边界，则扩展部分以图像平均像素进行填充；最后将裁剪的目标缩放到255×255；

进一步地，步骤2中所述构建基于模板更新和无锚框方式的跟踪网络的具体过程如下：

步骤2.1：加载网络的预训练模型和参数配置文件，以模板图像和搜索图像对作为第一、第三分支的输入；

步骤2.2：所述第一分支将模板T_i-1输入第一分支卷积神经网络，通过Conv1-Conv3输出第一层特征图

通过Conv1-Conv4输出第二层特征图

通过Conv1-Conv5输出第三层特征图

i＝1表示T₀为初始模板，i>1表示T_i-1为后续帧中的当前模板；

步骤2.3：所述第三分支将模板S输入第一分支卷积神经网络，通过Conv1-Conv3输出第一层特征图

通过Conv1-Conv4输出第二层特征图

通过Conv1-Conv5输出第三层特征图

步骤2.4：将所述模板特征图与搜索图像特征图进行逐层互相关运算，公式如下：

对所述三层得分图进行平均值融合，得到最后的响应得分图和模板置信度，用于步骤4中完成训练；

步骤2.5：模板更新采用高置信度的模板进行更新，目标模板的更新控制器的公式如下：

即当置信度大于0.99，并且两次更新帧之间相差30的时候进行一次模板更新；

步骤2.6：将更新的模板图像T_i按照步骤1.1进行裁剪后，输入第一分支卷积神经网络，得到特征图

将更新模板与当前模板进行加权融合，生成新的模板，融合模板公式如下：

其中，λ代表更新模板和当前模板的权重比例，可以根据经验条件，默认设置为0.15。将当前新模板代替初始模板存储在寄存器中，直到下次模板更新完成。

进一步地，步骤3中分类和目标位置回归的具体过程如下：

步骤3.1：将步骤2.5中所述响应得分图送入分类与回归子网络，分别对目标进行前景和背景的二分类和基于无锚框的目标预测框回归；

步骤3.2：所述预测框的无锚框位置回归的具体过程如下：针对当前跟踪任务中采用矩形框标注方式进行跟踪回归存在着严重的背景干扰问题，本发明采用了椭圆形的标注方式，以减少对背景的学习。设真实框中心点(x_c,y_c)，宽w，高h,左上角(x₀,y₀)，右下角(x₁,y₁)，分别以(x_c,y_c)为中心，

与

为半径确定两个相包含的椭圆E₁,E₂。样本标签性质的确定方式与矩形框下的IOU相似：

即如果(p_x，p_y)落在椭圆E₁外部，则被看作是负样本标签，如果落在E₂内部，则被看作是负标签，如果落在E₁和E₂之间，则忽略它。正样本点被用于边框回归，回归目标被定义为：

d_l＝p_x-x₀，

d_t＝p_x-y₀，

d_r＝x₁-p_x，

d_b＝y₁-p_x，

其中，d_l，d_t，d_r，d_b分别代表左，上，右，下四条边框到(p_x，p_y)的距离。

进一步地，步骤4中训练所述基于模板更新和无锚框方式的跟踪网络设计如下：

步骤4.1：将步骤2.5中所述响应得分图送入分类与回归子网络，分别对目标进行前景和背景的二分类和目标预测框的回归；

步骤4.2：所述分类分支采用常规交叉熵损失函数；所述回归分支本发明使用了新型的损失函数DIOU完成预测框回归，具体步骤如下：

步骤4.2.1：采用无锚框的预测框回归方式下，DIOU的实现公式如下：

其中，p是预测框中心点坐标，p^gt为目标真实框中心点坐标，ρ²(p，p^gt)为所述两点的欧氏距离，c为同时包含预测框和目标真实框的最小闭包区域的对角线距离。设(p_x，p_y)到真值框左上右下的距离分别为g_l，g_t，g_r，g_b，(p_x，p_y)到左，上，右，下四条边框的距离分别为d_l，d_t，d_r，d_b。

步骤4.2.2：预测框与目标真实框之间的交集框的宽高：

w_i＝min(g_l，d_l)+min(g_r，d_r)，

h_i＝min(g_b，d_b)+min(g_t，d_t)，

预测框与目标真实框之间并集的宽高：

w_u＝max(g_l，d_l)+max(g_r，d_r)，

h_u＝max(g_b，d_b)+max(g_t，d_t)，

中心点p与p^gt的距离的宽高为：

步骤4.2.3：则预测框中心点和目标真实框中心点的欧氏距离为：

c²＝h_u ²+w_u ²

ρ²(p，p^gt)＝w_c ²+h_c ²

步骤4.3：联立所述公式，完成了DIOU损失在无锚框下的实现。无锚点回归和分类网络联合训练，优化了如下的多任务损失函数：

L＝α₁L_reg+α₂L_cls

其中，L_cls代表分类网络采用交叉熵损失函数。训练过程中，α₁，α₂是可变参数，本发明默认设置α₁＝1，a₂＝2；

步骤4.4：采用上述损失函数对无锚框跟踪网络进行训练，使用多个数据集进行多轮联合训练；

进一步地，步骤5中所述完成目标跟踪的具体过程如下：

步骤5.1：加载训练好的权重参数和配置文件，配置好所述基于模板更新和无锚框方式的目标跟踪网络和分类回归子网络；

步骤5.2：将跟踪视频帧送入网络中，按照步骤1裁剪图像后输入跟踪网络，依次按照步骤2和步骤3输出目标的位置和大小；

步骤5.3：根据步骤2.6所述模板更新控制器确定是否更新模板；

步骤5.4：将视频后续帧中图像逐帧输入基于模板更新和无锚框方式的跟踪网络，重复上述步骤5.2-5.4的过程，直到视频序列中的图像全部处理完毕为止。

与现有技术相比，本发明的有益效果为：在跟踪过程中，将更新模板作为孪生网络的独立分支，提取多层语义信息，并进行跨深度融合，实现了更合理的模板更新策略，使得模板可以更好的与搜索区域比较，防止跟踪过程中由于模板信息过时而出现目标漂移甚至丢失现象；本发明在跟踪方法的训练过程中实现了无锚框网络下的DIOU损失函数进行在线训练，在IOU损失的基础上考虑了跟踪框与预测框距离度量的因素，在无锚框网络中实现了更收敛的训练效果，避免了训练不够充分而出现无法完全发挥网络效果的情况；本发明在保证跟踪速度实时的情况下，发挥了模板更新和充分训练的效果，提升了跟踪方法的跟踪准确度和鲁棒性。

附图说明

图1为本发明提供的基于模板更新和无锚框方式的目标跟踪方法整体结构流程图；

图2为本发明提供的椭圆形标注部分的示意图；

图3为本发明提供的无锚框下DIOU损失函数的计算示意图；

图4为本发明在跟踪过程中与其他两种方法的部分跟踪结果对比图，图像左上角数字代表图像所对应的视频帧，浅灰色矩形框代表目标真实框，越接近真实框精度越高；深灰色矩形框代表本发明跟踪方法。

表1为本发明与其他9种跟踪方法在公开数据集VOT2018上平均重叠率(EAO)，成功率，鲁棒性的性能对比。其中平均重叠率和成功率越大越好，鲁棒性越小越好；EAO是成功率和失败率结合后的整体性能。本发明方法在EAO和鲁棒性上都超过了比较算法，同时保持拥有相似成功率，说明本发明在主流的数据集上取得了优异的跟踪结果。

表1

跟踪方法	EAO	成功率	鲁棒性
				本发明方法	0.469	0.592	0.155
Retina-MAML	0.452	0.604	0.159
				SiamBAN	0.452	0.597	0.178
PrDiMP	0.442	0.618	0.165
				SiamFC++	0.426	0.587	0.183
SiamRPN++	0.414	0.600	0.234
				ATOM	0.400	0.590	0.203
SiamRPN	0.383	0.586	0.184
				UPDT	0.378	0.536	0.184
ECO	0.280	0.484	0.276

在表1中：

Retina-MAML对应Wang G等人提出的方法(Wang G，Luo C，Sun X，et a1.Trackingby instance detection：A meta-learning approach[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020：6288-6297.)

SiamBAN对应Chen Z等人提出的方法(Chen Z，Zhong B，Li G，et al.Siamese BoxAdaptive Network for Visual Tracking[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2020：6668-6677.)

PrDiMP对应Danelljan M等人提出的方法(Danelljan M，Gool L V，TimofteR.Probabilistic regression for visual tracking[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2020：7183-7192.)

SiamFC++对应Xu Y等人提出的方法(Xu Y，Wang Z.Li，x.；Yuan，Y.；and Yu，G.2020.Siamfc++：Towards robust and accurate visual tracking with targetestimation guidelines[C].AAAI.)

SiamRPN++对应Li B等人提出的方法(Li B,Wu W,Wang Q,et al.Siamrpn++:Evolution of siamese visual tracking with very deep networks[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition.2019:4282-4291.)

ATOM对应Danelljan M等人提出的方法(Danelljan M,Bhat G,Khan F S,etal.Atom:Accurate tracking by overlap maximization[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2019:4660-4669.)

SiamRPN对应Li B等人提出的方法(Li B,Yan J,Wu W,et al.High performancevisual tracking with siamese region proposal network[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2018:8971-8980.)

UPDT对应Bhat G等人提出的方法(Bhat G,Johnander J,Danelljan M,etal.Unveiling the power of deep tracking[C]//Proceedings of the EuropeanConference on Computer Vision(ECCV).2018:483-498.)

ECO对应Danelljan M等人提出的方法(Danelljan M,Bhat G,Shahbaz Khan F,etal.Eco:Efficient convolution operators for tracking[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2017:6638-6646.)

具体实施方式

为了更清楚的说明本发明的目的、技术方案和优点，下面结合附图与具体实施方式对本发明作进一步详细描述：

下面以在公开数据集上训练和测试为例，结合附图对本发明一种基于模板更新和无锚框方式的目标跟踪方法的具体实施方式进一步详细说明，其中图1为基于模板更新和无锚框的跟踪算法流程图。

步骤1：对公开的跟踪数据集ImageNet VID、DET、COCO、YouTube-BBox、GOT-10K中每张图片分别进行裁剪操作。裁剪方式为：以目标所在区域为中心裁剪出矩形图像构成初始模板图像，所述矩形图像长宽分别为目标矩形框长宽的四分之一。若矩形框超出原视频帧边界，则扩展部分以图像平均像素进行填充，最后将裁剪的目标缩放到127×127；以目标所在区域为中心裁剪出矩形图像构成搜索区域图像，所述矩形图像长宽分别为目标矩形框长宽的二分之一，若矩形框超出原视频帧边界，则扩展部分以图像平均像素进行填充；最后将裁剪的目标缩放到255×255；将裁剪好的初始模板图像和搜索区域图像作为图像对，送入基于模板更新和无锚框方式的跟踪网络的第一分支和第三分支。

步骤2：构建基于模板更新的卷积神经网络，所述基于模板更新的卷积神经网络包含3个完全相同的分支卷积网络结构，分别为第一分支、第二分支、第三分支，第一分支为当前模板分支，用于生成已有模板的特征；第二分支为更新模板分支，用于完成模板信息的更新并获取特征图；第三分支为搜索区域分支，用于完成对搜索区域图像进行特征提取。三分支所用骨干网络为ResNet-50卷积神经网络经过改进获得，具体改进为：删除ResNet-50中最后两层卷积的下采样操作，保证三阶段网络的三阶段输出可以具有完全相同的尺寸大小，便于后续融合；为减少计算量加入1x1卷积将输出特征减少到256通道。

三分支中第一二分支先进行加权融合，融合公式如下：

其中，λ代表更新模板和当前模板的权重比例，此处设置为0.15。

融合后再与第三分支进行逐层互相关运算，得到响应得分图，互相关公式如下：

对所述三层得分图进行平均值融合，得到最后的响应得分图，公式如下：

模板更新采用高置信度的模板进行更新，为了减少计算量，每30帧更新一次；目标模板的更新控制器的公式如下：

即当置信度大于0.99并且当前帧与上次更新帧之间相差30的时候进行一次模板更新；将当前新模板代替初始模板存储在寄存器中，直到下次模板更新完成。

步骤3：像素分类分支和目标位置回归分支网络：

将步骤2中所述响应得分图送入分类与回归子网络，分别对目标进行前景和背景的二分类和基于无锚框的目标预测框回归：

预测框的无锚框位置回归的具体过程如下。针对当前跟踪任务中采用矩形框标注方式进行跟踪回归存在着严重的背景干扰问题，本发明采用了椭圆形的标注方式，以减少对背景的学习。设真实框中心点(x_c,y_c)，宽w，高h，左上角(x₀,y₀)，右下角(x₁,y₁)，分别以(x_c,y_c)为中心，

与

为半径确定两个相包含的椭圆E₁,E₂，如附图2所示。样本标签性质的确定方式与矩形框下的IOU相似：

d_l＝p_x-x₀，

d_t＝p_x-y₀，

d_r＝x₁-p_x，

d_b＝y₁-p_x，

步骤4：基于所述训练数据集对基于模板更新和无锚框方式的目标跟踪网络进行训练。将数据集输入步骤1，完成图片裁剪后，分别以127x127和255x255的图片对作为输入训练样本对，输入采用ImageNet的预训练权重初始化改进后的ResNet-50分支网络，获得响应得分图。

将响应得分图送入步骤3中的分类与回归子网络，分别对目标进行前景和背景的二分类和目标预测框的回归；分类分支采用常规交叉熵损失函数；回归分支本发明使用了新型的损失函数DIOU完成预测框回归，采用无锚框的预测框回归方式下，DIOU的实现公式如下：

其中，p是预测框中心点坐标，p^gt为目标真实框中心点坐标，ρ²(p，p^gt)为所述两点的欧氏距离，c为同时包含预测框和目标真实框的最小闭包区域的对角线距离，如附图3所示。设(p_x，p_y)到真值框左上右下的距离分别为g_l，g_t，g_r，g_b，(p_x，p_y)到左，上，右，下四条边框的距离分别为d_l，d_t，d_r，d_b。

预测框与目标真实框之间的交集框的宽高：

w_i＝min(g_l，d_l)+min(g_r，d_r)，

h_i＝min(g_b，d_b)+min(g_t，d_t)，

预测框与目标真实框之间并集的宽高：

w_u＝max(g_l，d_l)+max(g_r，d_r)，

h_u＝max(g_b，d_b)+max(g_t，d_t)，

中心点p与p^gt的距离的宽高为：

则预测框中心点和目标真实框中心点的欧氏距离为：

c²＝h_u ²+M_u ²

p²(p，p^gt)＝w_c ²+h_c ²

联立所述公式,完成了DIOU损失在无锚框下的实现。

无锚点回归和分类网络联合训练，优化了如下的多任务损失函数：

L＝α₁L_reg+α₂L_cls

其中，L_cls代表分类网络采用交叉熵损失函数。训练过程中，本发明对于经验性的设置为α₁＝1,α₂＝2。使用这一联合损失函数对无锚框跟踪网络进行训练。训练过程中损失函数作为梯度反向传播时的重要参考，让跟踪方法可以向性能更好，梯度最大的方向学习。

训练过程本发明以随机梯度下降法总共训练了25轮，批量处理值设置为32，前5轮使用热启动方式训练，学习率从0.001增大到0.005，第6-20轮学习率从0.005衰减到0.00005，第21-25轮学习率使用余弦退火方式，从0.00005衰减到0.00001。

步骤5：完成实际视频序列的目标跟踪过程。

加载训练好的权重参数和配置文件，配置好所述基于模板更新和无锚框方式的目标跟踪网络和分类回归子网络。在视频的第一帧中需要框选待跟踪的目标及其位置大小。将跟踪视频图像帧送入步骤1中，按照步骤1裁剪出模板和搜索区域，送入改进后的ResNet-50后，将输出的互相关得分图送入分类回归分支；分类网络对图像进行分类，确定出目标所在的位置；回归分支采用无锚框的方式和椭圆形的标注方式确定目标大小，回归边框位置。结合分类和回归分支的结果预测出目标的位置和大小，完成对这一帧图像的目标跟踪。

将上一帧的目标位置送入步骤2中的更新控制器，判断是否更新模板，如果更新就按照步骤2中融合模板分支的方式确定新的模板，如果不更新则依旧使用当前模板继续跟踪目标。重复步骤5，直到视频序列中的图像全部跟踪完毕为止。

以上已经描述了本发明的具体实施例，上述说明是示例性的，并非穷尽性的，不能以此限定本发明的保护范围，凡是按照本发明提出的技术构思做出的等同技术方法均落入本发明保护范围之内。

Claims

1.一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，所述步骤1中裁剪模板图像和搜索图像的具体过程如下：

步骤1.2：以目标所在区域为中心裁剪出矩形图像构成搜索区域图像，所述矩形图像长宽分别为目标矩形框长宽的二分之一，若矩形框超出原视频帧边界，则扩展部分以图像平均像素进行填充；最后将裁剪的目标缩放到255×255。

3.根据权利要求2所述的一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，所述步骤2中构建基于模板更新的卷积神经网络的具体过程如下：

通过Conv1-Conv4输出第二层特征图

通过Conv1-Conv5输出第三层特征图

表示T₀为初始模板，i>1表示T_i-1为后续帧中的当前模板；

通过Conv1-Conv4输出第二层特征图

通过Conv1-Conv5输出第三层特征图

4.根据权利要求3所述的一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，所述步骤3中分类和目标位置回归的具体过程如下：

步骤3.2：所述预测框的无锚框位置回归的具体过程如下：针对当前跟踪任务中采用矩形框标注方式进行跟踪回归存在着严重的背景干扰问题，采用了椭圆形的标注方式，以减少对背景的学习，设真实框中心点(x_c,y_c)，宽w，高h，左上角(x₀,y₀)，右下角(x₁,y₁)，分别以(x_c,y_c)为中心，

与

为半径确定两个相包含的椭圆E₁,E₂，样本标签性质的确定方式与矩形框下的IOU相似：

即如果(p_x,p_y)落在椭圆E₁外部,则被看作是负样本标签，如果落在E₂内部，则被看作是负标签，如果落在E₁和E₂之间，则忽略它，正样本点被用于边框回归，回归目标被定义为：

d_l＝p_x-x₀

d_t＝p_x-y₀

d_r＝x₁-p_x

d_b＝y₁-p_x

其中，d_l,d_t,d_r,d_b分别代表左，上，右，下四条边框到(p_x,p_y)的距离。

5.根据权利要求3所述的一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，所述步骤4中所述训练基于模板更新和无锚框方式的目标跟踪方法的具体过程如下：

步骤4.2：所述分类分支采用常规交叉熵损失函数；所述回归分支使用了新型的损失函数DIOU完成预测框回归，具体步骤如下：

其中，p是预测框中心点坐标，p^gt为目标真实框中心点坐标，ρ²(p,p^gt)为所述两点的欧氏距离，c为同时包含预测框和目标真实框的最小闭包区域的对角线距离，设(p_x,p_y)到真值框左上右下的距离分别为g_l,g_t,g_r,g_b，(p_x,p_y)到左，上，右，下四条边框的距离分别为d_l,d_t,d_r,d_b；

步骤4.2.2：预测框与目标真实框之间的交集框的宽高：

w_i＝min(g_l,d_l)+min(g_r,d_r),

h_i＝min(g_b,d_b)+min(g_t,d_t),

预测框与目标真实框之间并集的宽高：

w_u＝max(g_l,d_l)+max(g_r,d_r),

h_u＝max(g_b,d_b)+max(g_t,d_t),

中心点p与p^gt的距离的宽高为：

c²＝h_u ²+w_u ²

ρ²(p,p^gt)＝w_c ²+h_c ²

步骤4.3：联立所述公式,完成了DIOU损失在无锚框下的实现，无锚点回归和分类网络联合训练，优化了如下的多任务损失函数：

L＝α₁L_reg+α₂L_cls

其中，L_cls代表分类网络采用交叉熵损失函数，训练过程中，α₁，α₂是可变参数，默认设置α₁＝1,α₂＝2；

步骤4.4：采用上述损失函数对无锚框跟踪网络进行训练，使用多个数据集进行多轮联合训练。

6.根据权利要求3所述的一种基于模板更新和无锚框方式的目标跟踪方法，其特征在于，所述步骤5中所述完成目标跟踪的具体过程如下：