CN114266988A

CN114266988A - 基于对比学习的无监督视觉目标跟踪方法及系统

Info

Publication number: CN114266988A
Application number: CN202010969893.6A
Authority: CN
Inventors: 朱佳君; 马超; 徐树公
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-04-01

Abstract

一种基于对比学习的无监督视觉目标跟踪方法及系统，包括：训练阶段和测试阶段，训练阶段包括：生成训练数据、构建视觉跟踪模型、设计组合损失函数以及训练模型，在测试阶段将测试的跟踪视频序列输入到训练后的视觉跟踪模型中，即对于每个待测帧，按上一帧预测得到的跟踪框作为中心进行裁剪得到输入图像，结合上一帧以及上一帧的搜索响应，得到待测帧的搜索响应，响应中最大值的位置表示跟踪目标所在位置，并结合所对应的尺度得到最终预测的跟踪框，从而完成该帧中目标的跟踪。本发明不仅能让模型进行无监督训练，还能让模型学到不同数据增强下搜索响应的一致性，从而学到更加鲁棒的无监督表征并显著提高跟踪性能。

Description

基于对比学习的无监督视觉目标跟踪方法及系统

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种基于对比学习的无监督视觉目标跟踪方法及系统，可以用于自然场景的视觉目标跟踪中，比如，无人机动态目标跟踪。

背景技术

现有的视觉目标跟踪方法一般均基于有监督的方法训练实现，由于有监督训练需要大量标注好的训练数据且有标注的数据集的跟踪场景受到一定的限制，从而导致训练出的模型缺乏一定的泛化能力。无监督视觉目标跟踪方法相应解决这些问题，着重于寻找一个合适的辅助任务以及自监督信号，并直接使用原始数据进行训练，因此采样训练数据以及训练方式将实质性影响模型的无监督训练，进而决定无监督视觉目标跟踪方法的效果。

现有的无监督相似性判别学习的目标跟踪方法通过对提取到的特征降维聚类后作为图像类别伪标签，在一定程度上实现数据的无监督聚类，无需使用真实标签进行训练，但这类技术无法处理目标跟踪过程遇到的目标相似、目标遮挡等问题。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于对比学习的无监督视觉目标跟踪方法及系统，通过对比学习并结合有效的数据增强操作进行循环一致性学习，辅以增强对比一致性的组合损失函数，不仅能让模型进行无监督训练，还能让模型学到不同数据增强下搜索响应的一致性，从而学到更加鲁棒的无监督表征并显著提高跟踪性能。

本发明是通过以下技术方案实现的：

本发明涉及一种基于对比学习的无监督视觉目标跟踪方法，包括：训练阶段和测试阶段。

步骤1)训练阶段：生成训练数据、构建模型、设计损失函数以及训练模型，具体包括：

步骤1.1)对于训练集中的一个连续的视频序列，在预设的一段时间间隔内，采用随机采样的方式来选择两个帧作为一组训练数据，然后对所有采样得到的训练数据都进行中心裁剪，得到尺寸大小为原图大小1/2的图像块，并进行尺寸的缩放，使其具有统一的尺寸大小125x125。

步骤1.2)构建一个基于对比学习的孪生网络模型，该模型包括前向跟踪模块和后向跟踪模块，其中的前向跟踪模块采用孪生网络框架进一步包括模板分支和搜索分支；后向跟踪模块采用孪生网络框架进一步包括两个模板分支和一个搜索分支。

后向跟踪模块中，第一模板分支的输入为模板帧，并经过特征提取模块提取特征；第二模板分支的输入为模板帧经过对比度改变得到的结果，并经过特征提取模块提取特征；搜索分支的输入为搜索帧，并经过特征提取模块提取特征；从而构建成一个对比框架。

所述的孪生网络模型中所有模板分支和搜索分支均共享特征提取模块，该共享特征提取模块包括：两个卷积层，一个激活函数层和一个局部响应归一化层。

所述的特征提取模块的输出端进一步设有一个用来结合模板特征和搜索特征得到最终的搜索响应的相关滤波器。

步骤1.3)设计一种增强对比一致性的组合损失函数，通过三个子损失函数加权得到最终的增强对比一致性的组合损失函数，其中：第一个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应与中心初始化的高斯响应的均方误差；第二个子损失函数是计算含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应与中心初始化的高斯响应的均方误差；第三个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应与含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应的均方误差。

步骤1.4)利用步骤1.3)设计的组合损失函数进行模型的无监督训练：对于每次迭代过程，将步骤1.1)得到一组训练数据分别标定为模板帧和搜索帧作为步骤1.2)构建得到的视觉跟踪模型的输入，具体包括：

①前向跟踪模块通过特征提取模板得到模板特征和搜索特征，再结合中心初始化的高斯响应，将这三者输入到相关滤波器模块中，得到搜索帧的搜索响应；

②后向跟踪模块将模板帧和搜索帧的位置对调，并通过特征提取模板得到此时的模板特征和搜索特征，再结合前向跟踪模块中输出的响应，将这三者输入到相关滤波器模块中，得到此时的搜索帧的响应，即一开始标定的模板帧的搜索响应。

③同时，在后向跟踪模块中，对对调后的模板分支进行数据增强操作，之后进行与步骤②相同的操作，得到经过数据增强操作后的搜索响应。

优选地，训练时基于对比学习的视觉跟踪模型中的特征提取模块中的卷积核和权重采用随机参数初始化，偏置采用全0初始化。

进一步优选地，采用随机梯度下降算法进行视觉跟踪模型参数的更新，当视觉跟踪模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的基于对比学习的视觉跟踪模型。

步骤2)测试阶段：将测试的跟踪视频序列输入到训练好的所述视觉跟踪模型中。对于一个待测帧，把上一帧预测得到的跟踪框作为中心，裁剪出125×125尺寸大小的搜索图像并输入到模型中，结合上一帧以及上一帧的搜索响应，得到待测帧的搜索响应，响应中最大值的位置表示跟踪目标所在位置，并结合所对应的尺度得到最终预测的跟踪框，从而完成该帧中目标的跟踪。

优选地，进一步将模型预测的跟踪框与测试集所对应的跟踪框标注进行对比，计算出目标跟踪的成功率和精确度。

本发明涉及一种实现上述方法的系统，包括：特征提取模块、相关滤波器模块、对比学习框架，其中：特征提取模块与相关滤波器模块相连并传输提取到的输入的特征信息；相关滤波器的输出即为跟踪响应结果。

技术效果

与现有技术相比，本发明结合改变对比度的数据增强操作迫使模型学习具有高级语义的无监督表征，而不仅仅是学习简单的颜色分布，从而能使训练的模型更具鲁棒性，以处理目标丰富的外观变化。

附图说明

图1为基于对比学习的无监督视觉目标跟踪方法流程图。

具体实施方式

如图1所示，为本实施例涉及一种基于对比学习的无监督视觉目标跟踪方法，在对比学习框架中加入数据增强操作，使模型学到更加鲁棒的无监督表征。提出的方法在两个公开数据集OTB-2015和Temple-Color-128数据集上进行测试，其中的训练集采用含有112万帧的ILSVRC2015数据集作为训练数据集；测试集采用的OTB-2015数据集包含100个具有挑战性的序列，具有灰度视频序列和彩色视频序列。Temple-Color-128数据集包含128种颜色序列，具有更大的挑战。

本实施例具体包括以下步骤：

i)对于训练集中的一个连续的视频序列，在一段时间间隔T内，采用随机采样的方式来选择两个帧作为一组训练数据，从而保证能够获得一定的跟踪目标外观变化。对于每一组训练数据，把第一次采样到的帧标为模板帧，第二次采样到的帧标为搜索帧，并均进行中心裁剪，和尺寸的缩放，最终使其具有统一的尺寸大小125x125，且跟踪目标在该范围内。

ii)将训练样本输入到模型中，进行模型的无监督训练。对于单次迭代过程，将一组训练数据分别标为模板帧和搜索帧作为模型的输入，标记为T和S。在前向跟踪模块中，采用孪生网络框架，分为两个分支，上面的分支为模板分支，下面的分支为搜索分支。先通过共享的特征提取模板得到模板特征Z_T和搜索特征Z_S，再结合中心初始化的高斯响应Y，将这三者输入到相关滤波器模块DCF中，得到搜索帧的搜索响应R_S。紧接着，在后向跟踪模块中，包括两个模板分支和一个搜索分支。两个模板分支的不同点在于对模板进行的数据增强操作不同，从而构建成一个对比框架。为使模型训练更稳定，只对其中一个模板分支进行数据增强操作。经研究对比，采用的是改变对比度的数据增强操作。然后，将模板帧和搜索帧的位置对调，输入到后向跟踪模块得到最终的搜索响应R_T和

所有的分支都共享特征提取模块，包含两个卷积核尺寸为3×3，步长为1×1，卷积核数量为32的卷积层，两者之间有一个ReLU激活函数层，最后一层为一个局部响应归一化层。实际上，可以增加一组训练数据中帧的数量，从而获得更多的跟踪目标的外观变化，使模型更加鲁棒。

利用增强对比一致性的组合损失函数进行模型的无监督训练。增强对比一致性的组合损失函数由三个子损失函数组成，其中：第一个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应R_T与中心初始化的高斯响应Y的均方误差，即L1＝||R_T-Y||。第二个子损失函数是计算含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应

与中心初始化的高斯响应Y的均方误差，即

第三个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应R_T与含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应

的均方误差，即

最后，分别给这三个子损失函数赋予一个系数并相加，即

得到最终的增强对比一致性的组合损失函数。

训练时，卷积核和权重采用随机参数初始化，偏置采用全0初始化。采用随机梯度下降算法进行模型参数的更新，当模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的模型。

iii)将测试的跟踪视频序列输入到训练好的所述视觉跟踪模型中。对于当前t时刻一个待测帧，把上一帧预测得到的跟踪框作为中心，裁剪出125×125尺寸大小的搜索图像标记为I_t作为搜索帧，上一帧裁剪得到的图像标记为I_t-1作为模板帧，上一帧模型输出的搜索响应标记为R_t-1，将这三者输入到模型中，得到当前测试帧的搜索响应R_t。响应图中最大值的位置表示跟踪目标所在位置，并结合所对应的尺度得到最终预测的跟踪框，从而完成当前测试帧中目标的跟踪。将模型预测的跟踪框与测试集所对应的跟踪框标注进行对比，计算出目标跟踪的成功率和精确度。其中，成功率为预测的跟踪框与标注的跟踪框重叠率大于给定的阈值的比例。精确度为预测的跟踪框的中心点与标注的跟踪框的中心点之间的距离在不同距离像素范围内的比例。如表2和表3所示，在不同的公开数据集上都能取得很好的结果，且在所有无监督视觉目标跟踪方法中取得最好的结果。

表2在OTB-2015数据集上不同视觉目标跟踪方法的性能对比

表3在Temple-Color-128数据集上不同视觉目标跟踪方法的性能对比

综上，本发明提出的基于对比学习的孪生网络模型结合对模板进行不同的数据增强操作，采用的改变对比度的数据增强操作，使训练的模型更具鲁棒性，以处理目标丰富的外观变化；本发明通过增强对比一致性的三个子损失函数组成的组合损失函数不仅能让模型进行无监督训练，还能让模型学到不同数据增强下搜索响应的一致性，从而学习到更加鲁棒的无监督表征。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于对比学习的无监督视觉目标跟踪方法，其特征在于，包括：训练阶段和测试阶段，训练阶段包括：生成训练数据、构建视觉跟踪模型、设计组合损失函数以及训练模型，在测试阶段将测试的跟踪视频序列输入到训练后的视觉跟踪模型中，即对于每个待测帧，按上一帧预测得到的跟踪框作为中心进行裁剪得到输入图像，结合上一帧以及上一帧的搜索响应，得到待测帧的搜索响应，响应中最大值的位置表示跟踪目标所在位置，并结合所对应的尺度得到最终预测的跟踪框，从而完成该帧中目标的跟踪。

2.根据权利要求1所述的无监督视觉目标跟踪方法，其特征是，所述的训练数据，通过对于训练集中的一个连续的视频序列，采用随机采样的方式来选择两个帧作为一组训练数据，然后对所有采样得到的训练数据都进行中心裁剪。

3.根据权利要求1所述的无监督视觉目标跟踪方法，其特征是，所述的视觉跟踪模型包括前向跟踪模块和后向跟踪模块，其中：

前向跟踪模块采用孪生网络框架，具体包括：模板分支和搜索分支；

后向跟踪模块采用孪生网络框架，具体包括：两个模板分支和一个搜索分支，两个模板分支对模板进行的数据增强操作不同，从而构建成一个对比框架；

4.根据权利要求3所述的无监督视觉目标跟踪方法，其特征是，所述的后向跟踪模块中的第一模板分支的输入为模板帧，并经过特征提取模块提取特征；第二模板分支的输入为模板帧经过对比度改变得到的结果，并经过特征提取模块提取特征；搜索分支的输入为搜索帧，并经过特征提取模块提取特征；从而构建成一个对比框架。

5.根据权利要求3所述的无监督视觉目标跟踪方法，其特征是，所述的特征提取模块的输出端进一步设有一个用来结合模板特征和搜索特征得到最终的搜索响应的相关滤波器。

6.根据权利要求1所述的无监督视觉目标跟踪方法，其特征是，所述的组合损失函数，通过三个子损失函数加权得到最终的增强对比一致性的组合损失函数，其中：第一个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应与中心初始化的高斯响应的均方误差；第二个子损失函数是计算含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应与中心初始化的高斯响应的均方误差；第三个子损失函数是计算原始的模板分支与搜索分支前后向跟踪模块得到的搜索响应与含有数据增强操作的模板分支与搜索分支前后向跟踪模块得到的搜索响应的均方误差。

7.根据权利要求1所述的无监督视觉目标跟踪方法，其特征是，所述的训练，利用组合损失函数进行模型的无监督训练：对于每次迭代过程，将训练数据分别标定为模板帧和搜索帧作为视觉跟踪模型的输入，具体包括：

②后向跟踪模块将模板帧和搜索帧的位置对调，并通过特征提取模板得到此时的模板特征和搜索特征，再结合前向跟踪模块中输出的响应，将这三者输入到相关滤波器模块中，得到此时的搜索帧的响应，即一开始标定的模板帧的搜索响应；

8.根据权利要求7所述的无监督视觉目标跟踪方法，其特征是，训练时基于对比学习的视觉跟踪模型中的特征提取模块中的卷积核和权重采用随机参数初始化，偏置采用全0初始化。

9.根据权利要求7或8所述的无监督视觉目标跟踪方法，其特征是，采用随机梯度下降算法进行视觉跟踪模型参数的更新，当视觉跟踪模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的基于对比学习的孪生网络模型。

10.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：特征提取模块、相关滤波器模块、对比学习框架，其中：特征提取模块与相关滤波器模块相连并传输提取到的输入的特征信息；相关滤波器的输出即为跟踪响应结果。