CN113223053A

CN113223053A - 一种基于孪生网络融合多层特征的无锚点目标跟踪方法

Info

Publication number: CN113223053A
Application number: CN202110588231.9A
Authority: CN
Inventors: 陈渝; 贾西平; 林智勇; 魏纵横
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-06

Abstract

本发明提供一种基于孪生网络融合多层特征的无锚点目标跟踪方法，针对基于孪生网络的目标跟踪算法易受物体形变等因素影响而导致跟踪任务失败的问题，提出一种多层特征融合方法，通过联合多层网络的特征图组成特征空间来丰富模型提取的特征信息；引入无锚点方法，在预测物体位置的分支上，本文通过预测中心点与边框四周的距离，位置预测网络部分是基于锚点的目标跟踪算法参数量的20％，有效缩短目标跟踪所需要的计算时间。

Description

一种基于孪生网络融合多层特征的无锚点目标跟踪方法

技术领域

本发明涉及计算机视觉技术，具体涉及一种基于孪生网络融合多层特征的无锚点目标跟踪方法。

背景技术

如今，目标跟踪已经成为深度学习当中的研究热点，也是计算机视觉领域的重要组成部分。在深度学习的帮助下，目标跟踪算法的精确度、速度、鲁棒性得到了巨大的提高，广泛应用于无人机、自动驾驶、体育赛事等系统中。尽管当前的目标跟踪算法针对遮挡、形变、抖动、快速移动等问题已经有了多种解决方案，但是当目标在复杂环境中发生形变时，跟踪器对位置预测的准确度会大大降低。

近年来，基于孪生网络的目标跟踪算法在计算机视觉目标跟踪领域中取得了重要进展。孪生网络的跟踪器利用大规模数据集，通过离线训练的方式训练出一个相似性匹配函数，判别两个图像输入是否相同。SiamFC首次把孪生网络引入到目标跟踪领域中，使用孪生网络作为特征提取网络，计算模板分支和搜索分支之间的相关性得到一个特征图(响应图)，而这个特征图包含这两个分支之间的关联信息，依据该特征图计算图像目标位置。C-COT使用VGG提取图像特征，转化为频域使用插值方式对深层特征图进行插值，结合不同层级的特征图得到特征空间的响应图，把这些特征结合起来，通过迭代求得最优解。ECO对卷积进行因式分解，不仅提高了跟踪的精确度，在速度上是C-COT的20倍。SiamRPN在SiamFC的基础上引入区域生成网络(RPN)，使得目标跟踪的准确度和鲁棒性得到进一步提升。DaSiamRPN增加Distractor-aware模块进一步提高跟踪器对物体的判别能力。尽管上述跟踪器很好的平衡了准确度和检测速度之间的矛盾，但SiamRPN等算法在位置预测方面仍然受限于先验框大小的超参数设定上，由于设定的比例越多，网络训练的参数越多，在进行目标跟踪任务时会增加计算的时间成本。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于孪生网络融合多层特征的无锚点目标跟踪方法，所述方法包括：

提出用于融合深层特征和浅层特征的多层特征融合方法，联合多层网络特征图组成连续特征空间，在保留图像特征细节的基础上，融合深层网络的高维特征；在区域生成孪生网络中引入无锚点方法，解决模型在进行跟踪任务时计算耗时过长问题，以及在物体发生形变时跟踪失败率高的问题。在预测物体位置的分支上，本文通过直接预测中心点与边框四周的距离，有效缩短了目标跟踪所需要的计算时间。

所述目标跟踪网络的训练步骤包括：

步骤(1)：对数据集进行预处理：将数据集中的每张图像通过仿射变换裁剪成(3×127×127)大小的模板图像样本(z)和(3×511×511)大小的搜索图像样本(x)，

其中目标真实框的高和宽为h和w，对于模本图像样本：以图像真实边框为中心裁剪大小为(3×127×127)的图像。对于搜索图像样本你，以图像真实边框为中心，对图像进行偏移后再裁剪大小为(3×511×511)的图像。

步骤(2)：对步骤(1)中获得的数据使用缩放、图像模糊、反转和转换颜色等方法进行数据增强，把(3×511×511)的搜索图像样本裁剪成(3×255×255)的搜索图像样本(x)，把(3×127×127)和(3×255×255)大小的图像样本作为特征提取网络输入；

关于步骤(2)中所述的特征提取网络以Resnet50为特征提取网络，取第二层、第三层和第四层的特征图作为特征提取网络的输出，调整第三层特征图

通过双线性插值得到特征图

然后将

通过调整通道与上一层特征图拼接得到的特征图

作为Resnet50第三层的输出

调整第四层特征图

经过同样的转化后得到孪生网络第四层的特征提取输出

步骤(3)输入图像样本z和x得到特征图z_F和x_F，使用z_F作为卷积核应用在x_F上，计算z_F和x_F的关联程度响应图F；

关于步骤(3)中的响应图F具体为：

其中

为卷积操作，F为拼接后使用卷积层调整通道得到最后的响应图；

关于步骤(3)中的关联程度响应图F中的每个特征点与原图对应关系为

其中(X，Y)为原图的坐标，s为网络的总步长，(x，y)表示关联程度响应图F的坐标；

步骤(4)：使用步骤(3)的响应图F输入到区域生成网络分别预测响应图F中各个特征点的属于前景的概率和对应的位置坐标；

关于步骤(4)中的区域生成网络包含前后景预测子网络和位置预测子网络，其中前后景预测子网络和位置预测子网络均由4个卷积块组成，卷积块由卷积层、组归一化和ReLU组成；前后景预测子网络后接前后景预测分支，位置预测子网络后接中心点预测分支和位置预测分支；

步骤(5)：使用步骤(4)得到的前后景预测结果和位置坐标与标签计算误差损失；

关于步骤(5)中的损失函数有3部分组成，分别为前后景预测损失误差Loss_cls、位置预测损失误差Loss_IoU和中心点误差损失Loss_cen。前后景预测分支使用NLLLoss损失函数，位置预测分支使用IoU Loss损失函数，中心点预测分支使用BCE Loss损失函数计算误差。因此模型训练的总损失误差为：Loss_total＝Loss_cls+2×Loss_IoU+Loss_cen；

关于步骤(5)中位置标签生成方式为：在响应图F的每个特征点处计算该点到真实边框四周的距离。设s为网络的总步长，真实边框为B＝(x₀，x₁，y₀，y₁)，其中(x₀，y₀)为真实边框的左上角的坐标，(x₁，y₁)为真实边框的右下角的坐标。设定计算损失的位置标签g^*＝(l^*，t^*，r^*，b^*)，计算公式如公式(3)所示：

步骤(6)：使用随机梯度下降优化方法调整网络参数，减少步骤(5)中的预测结果与标签之间的误差损失；

步骤(7)：通过20次迭代调整网络参数，保存此时的目标跟踪网络；

孪生网络：孪生神经网络有两个输入，将两个输入输进两个神经网络分支(两个神经网络分支权值共享)，分别将输入映射到新的空间，形成输入在新的空间中的表示。

本发明融合深层特征和浅层特征的多层特征融合方法，联合多层网络特征图组成连续特征空间，在保留图像特征细节的基础上，融合深层网络的高维特征，丰富了网络模型的特征提取能力同时还减少了网络训练的参数量；在区域生成孪生网络中引入无锚点方法，解决模型在进行跟踪任务时计算耗时过长问题，以及在物体发生形变时跟踪失败率高的问题。在预测物体位置的分支上，本文通过直接预测中心点与边框四周的距离，有效缩短了目标跟踪所需要的计算时间。

附图说明

图1多层特征融合的无锚点目标跟踪网络结构图；

图2不同重叠率对应的模型跟踪的成功率。

具体实施方式

下面结合附图和事例对本发明的方法作详细说明。

通常我们处理数据集会把同一张图片通过仿射变换的方式裁剪成(3×127×127)和(3×511×511)的大小，A²＝(w+p)×(h+p)，

其中目标真实框的高和宽为h和w，(3×127×127)大小的图像称为模板图像样本(z)，(3×511×511)大小的图像称为搜索图像样本(x)，模板图像样本的具体裁剪方式为以真实边框为中心并对图像裁剪成(3×127×127)大小的图像，搜索图像样本的具体裁剪方式为以真实边框为中心且对图像进行移动后进行裁剪成(3×255×255)大小的图像。对图像进行裁剪后对图像的其余部分使用平均像素填充；

步骤(2)：对步骤(1)中获得的数据使用缩放、图像模糊、反转和转换颜色等方法进行数据增强，把(3×511×511)的搜索图像样本裁剪成(3×255×255)的搜索图像样本x，把(3×127×127)和(3×255×255)的图像样本作为特征提取网络输入；

关于步骤(2)中所述的特征提取网络以Resnet50为特征提取网络，图像经过Conv层和第一层后，取第二层、第三层和第四层的特征图作为特征提取网络的输出，调整第三层特征图

通过双线性插值得到

然后将

通过调整通道与上一层特征图拼接得到的特征图作为Resnet50第三层的输出

调整第四层特征图

经过同样的转化后得到孪生网络第四层的特征提取输出

关于步骤(3)中的响应图F具体为：

其中

为卷积操作，F为拼接后使用卷积层调整通道得到最后的响应图

响应图F中的每个特征点与原图对应关系为

将响应图F输入到前后景预测子网络和位置预测子网络分别得到

和

将

输入到前后景预测分支得到

把

输入到中心点预测分支和位置预测分支分别得到

和

步骤(5)：使用LogSoftmax激活函数作用于步骤(4)得到的

然后和图像分类标签计算误差损失；使用指数函数作为激活函数作用于步骤(4)得到的

中，然后和位置坐标标签计算误差损失；

关于步骤(5)中位置标签生成方式为：在响应图F的每个特征点处计算该点到真实边框四周的距离。设s为网络的总步长，真实边框为B＝(x₀，x₁，y₀，y₁)，其中(x₀，y₀)为真实边框的左上角的坐标，(x₁，y₁)为真实边框的右下角的坐标。设定计算损失的位置标签g^*＝(l^*，t^*，r^*，b^*)，计算公式如公式(4)所示：

关于步骤(5)中的中心点标签生成方式为计算真实边框内每个像素点的与目标中心的距离，距离越远权重越低，反之越高，计算公式如(5)所示：

其中centerness^*为

本发明的网络结构图如图1所示，图1A表示网络整体结构，图1B表示调整第三层和第四层特征图大小的模块。

表1表示本发明其余跟踪器在GOT-10k数据集上的准确度对比，结果显示显示本方法与SiamFCv2对比，本方法在平均交并比(Average Overlap，AO)指标上比SiamFCv2高出0.016，当重叠阈值设定为0.5时，目标跟踪成功率(Success Rate)比SiamFCv2高出0.032。以上实验数据均从GOT-10k的官方网站上获取，实验使用的评估工具由GOT-10k的官方网站提供。

表1 GOT-10k数据集上的对比实验

跟踪器	AO	SR<sub>0.5</sub>	SR<sub>0.75</sub>
				MDNet	0.299	0.303	0.099
ECO	0.316	0.309	0.111
				CCOT	0.325	0.328	0.107
GOTURN	0.347	0.375	0.124
				SiamFC	0.348	0.353	0.098
SiamFCv2	0.374	0.404	0.144
				本发明	0.390	0.436	0.018

在表1中：

MDNet对应为NAM H等人提出的方法(NAM H，HAN B.Learning multi-domainconvolutional neural networks for visual tracking；proceedings of theProceedings of the IEEE conference on computer vision and patternrecognition，F，2016[C].)

ECO对应为DANELLJAN M等人提出的方法(DANELLJAN M，BHAT G，SHAHBAZ KHAN F，et al.Eco：Efficient convolution operators for tracking；proceedings oftheProceedings of the IEEE conference on computer vision and patternrecognition，F，2017[C].)

CCO对应为DANELLJAN M等人提出的方法(DANELLJAN M，ROBINSON A，KHAN F S，eta1.Beyond correlation filters：Learning continuous convolution operators forvisual tracking；proceedings of the European conference on computer vision，F，2016[C].Springer.)

GOTURN对应为HELD D等人提出的方法(HELD D，THRUN S，SAVARESE S.Learningto track at 100 fps with deep regression networks；proceedings of the Europeanconference on computer vision，F，2016[C].Springer.)

SiamFC对应为BERTINETTO L等人提出的方法(BERTINETTO L，VALMADRE J，HENRIQUES J F，et al.Fully-convolutional siamese networks for object tracking；proceedings of the European conference on computer vision，F，2016[C].Springer.)

SiamFCv2对应为VALMADRE J等人提出的方法(VALMADRE J，BERTINETTO L，HENRIQUES J，et al.End-to-end representation learning for correlation filterbased tracking；proceedings of the Proceedings of the IEEE conference oncomputer vision and pattern recognition，F，2017[C].)

图2表示不同重叠率对应跟踪器跟踪成功率的曲线图，结果显示本方法的平均重叠率在当前对比的跟踪器中取得了最好成绩。

Claims

1.一种基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述方法包括：

将图像通过仿射变换得到2种尺寸的图像输入到特征提取网络中，使用双线性插值方法放大第三层和第四层的特征图，融合上一层特征图以丰富目标跟踪网络提取的特征信息，然后匹配两者之间的相似度输入到区域生成网络预测目标物体的位置。

2.根据权利要求1所述的基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述目标跟踪网络的训练步骤包括：

步骤(1)：对数据集进行预处理，把数据集中的每张图像通过仿射变换裁剪成(3×127×127)的模板图像样本(z)和(3×511×511)的搜索图像样本(x)，裁剪公式如(1)所示，

其中目标真实框的高和宽为h和w，以图像真实边框为中心裁剪大小为(A×A)的模板图像的大小，再把图像转变为(3×127×127)和(3×511×511)的大小；

步骤(3)：输入图像样本z和x得到特征图x_F和z_F，使用z_F作为卷积核应用在x_F上，计算x_F与z_F的关联程度响应图F；

步骤(4)：使用步骤(3)的响应图F输入到区域生成网络分别预测响应图F中各个特征点的前后景分类和位置坐标；

步骤(7)：通过20次迭代调整网络参数，保存此时的目标跟踪网络。

3.根据权利要求2所述的基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述步骤(2)的特征提取网络为：以Resnet50为特征提取网络，取第二层、第三层和第四层的特征图作为特征提取网络的输出，调整第三层特征图

通过双线性插值得到

然后将

调整第四层特征图

经过同样的转化后得到孪生网络第四层的特征提取输出

4.根据权利要求2所述的基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述步骤(4)中的区域生成网络包含前后景预测子网络和位置预测子网络，前后景预测子网络后接前后景预测分支，位置预测子网络后接中心点预测分支和位置预测分支。

5.根据权利要求2所述的基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述步骤(5)中的前后景预测分支使用NLLLoss损失函数，位置预测分支使用IoULoss损失函数，中心点预测分支使用BCE Loss损失函数计算误差，而总的损失函数如公式(2)所示：

Loss_total＝Loss_cls+2×Loss_IoU+Loss_cen (2)

其中，Loss_cls表示前后景误差损失，Loss_IoU表示位置坐标误差损失，Loss_cen表示中心点误差损失。

6.根据权利要求2所述的基于孪生网络融合多层特征的无锚点目标跟踪方法，其特征在于，所述步骤(3)中的关联程度响应图F与原图对应关系为

其中(X，Y)为原图的坐标，s为网络的总步长，(x，y)表示关联程度响应图F的坐标；所述步骤(7)中的标签，将位于真实边框内的视为正样本，其余为负样本。