CN113870330B

CN113870330B - 基于特定标签和损失函数的孪生视觉跟踪方法

Info

Publication number: CN113870330B
Application number: CN202111165323.2A
Authority: CN
Inventors: 张轶; 孟飞妤
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-05-12
Anticipated expiration: 2041-09-30
Also published as: CN113870330A

Abstract

本发明公开了基于特定标签和损失函数的孪生视觉跟踪方法，涉及图像识别技术领域，包括S1获取训练样本，S2基于孪生网络建立孪生视觉跟踪模型，S3导入训练样本训练优化孪生视觉跟踪模型，S4将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪；解决了传统孪生网络方法带来的语言模糊性，同时又将网络的重点导向更为重要的分辨能力，没有过分拟合值要求的大参数量；在超出大量跟踪器性能的基础上，速度也十分快；引入了新型的标签设计方法和损失函数，可以在不改变网络架构的基础上，在不同的跟踪器上进行使用，以提升性能。

Description

基于特定标签和损失函数的孪生视觉跟踪方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于特定标签和损失函数的孪生视觉跟踪方法。

背景技术

传统的相关滤波是解决目标跟踪问题的一大方向。相关滤波源于信号处理领域，相关性用于表示两个信号之间的相似程度，基于相关滤波的跟踪方法的基本思想就是，寻找一个滤波模板，让下一帧的图像与滤波模板做相关操作，响应最大的区域则是预测的目标。但随着近年来深度学习方法的兴起，传统方法逐渐显得落后。

深度学习方法中，孪生网络方法是目前目标跟踪的主流方向之一，但是它的分类置信度设置没有明确的解释，因为只有边界框的真实值，预测得分图没有相应的标签。预测置信度的值范围和特征在很大程度上取决于损失的选择和生成相应训练伪标签的策略。对有目标剧烈变换等问题的跟踪情景难以很好地处理。

以前的方法大致可以分为两类：二进制值或连续值。第一类将满足特定条件的所有阳性样本校准为一，忽略不同状态之间的差异。第二类采用高斯分布或PSS指标模拟置信值，部分缓解了二进制设置造成的模糊。然而，强制模型回归给定的置信指标需要大量的模型容量。这种方法迫使学习专注于复杂的值拟合，而不是获得最佳识别能力。

除此之外，有些方法不把跟踪问题分为分类和回归两个子问题，而是将视频帧输入到神经网络中，该网络依次输出每帧中被跟踪对象的位置。并且使用视频序列和图像对跟踪器进行完全离线的训练。通过离线训练程序，跟踪器学习了外观和运动之间的一般关系，可用于在测试时跟踪新对象，无需在线训练。

发明内容

本发明的目的就在于为了解决上述问题设计了一种基于特定标签和损失函数的孪生视觉跟踪方法。

本发明通过以下技术方案来实现上述目的：

基于特定标签和损失函数的孪生视觉跟踪方法，包括：

S1、获取训练样本，训练样本包括训练示例和推理示例，训练示例和推理示例为训练对；

S2、基于孪生网络建立孪生视觉跟踪模型，孪生视觉跟踪模型包括模板分支、搜索分支和特征转化模块，模板分支和搜索分支为两个完全相同的孪生网络，特征交换层位于模板分支和搜索分支的特征提取之后，特征交换层用于模板分支的回归结果和搜索分支的分类结果；

S3、导入训练样本训练优化孪生视觉跟踪模型；

S4、将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪。

本发明的有益效果在于：解决了传统孪生网络方法带来的语言模糊性，同时又将网络的重点导向更为重要的分辨能力，没有过分拟合值要求的大参数量；在超出大量跟踪器性能的基础上，速度也十分快；引入了新型的标签设计方法和损失函数，可以在不改变网络架构的基础上，在不同的跟踪器上进行使用，以提升性能。

附图说明

图1是本发明的孪生视觉跟踪模型深度学习架构图；

图2是本发明与现有技术的跟踪结果对比示意图；

实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

基于特定标签和损失函数的孪生视觉跟踪方法，包括：

S1、获取训练样本，训练样本包括训练示例和推理示例，训练示例和推理示例为训练对，训练样本包括静态图片和长时跟踪视频，当使用静态图片进行训练时，通过增强技术生成用于训练的图像对，将图像对的训练图片分别裁剪为303*303和127*127大小，对图像对的推理图片进行随机缩放和平移处理；当使用一个视频进行训练时，随机选择一个视频作为推理示例，并在该视频中随机选择一对相差不过大的帧作为训练示例。

S2、基于孪生网络建立孪生视觉跟踪模型，孪生视觉跟踪模型包括模板分支、搜索分支和特征转化模块，模板分支和搜索分支为两个完全相同的孪生网络，特征交换层位于模板分支和搜索分支的特征提取之后，特征交换层用于模板分支的回归结果和搜索分支的分类结果。

S3、导入训练样本训练优化孪生视觉跟踪模型；

S31、模板分支提取训练示例的特征并进行卷积层处理得到模板分类结果和模板回归结果；搜索分支提取推理示例的特征并进行卷积层处理得到搜索分类结果和搜索回归结果；

S32、特征交换层交换模板回归结果和搜索分类结果；

S33、在孪生视觉跟踪模型的分类分支采用基于通道的相乘方法对模板分类结果和搜索分类结果进行相关计算得到得分图，在孪生视觉跟踪模型的回归分支采用基于通道的相乘方法对模板回归结果和搜索回归结果进行相关计算得到偏移量图；

S34、计算得分图的分类得分损失和偏移量图的回归损失；

S35、加权分类得分损失和回归损失对孪生视觉跟踪模型进行优化更新。

从需要跟踪视频的第一帧中裁剪目标模板，模板分支提取目标模板的特征并缓存，需要跟踪视频进入搜索分支；当下帧根据前一帧的目标位置裁剪搜索块并提取特征，并使用余弦窗口和尺度变化惩罚来平滑目标的移动和变化，然后选择具有最佳分数的预测框，并通过线性插值与前一帧中的状态更新其大小，搜索分支在当下帧域进行预测跟踪得到得分图和偏移量图。

进行跟踪具体包括：

S41、在输入图像时按序裁剪，选取某张图像块为x，其图像序列为X，对于输入图像C_ij=(C_i,C_j)点在置信度图中的对应位置为(i,j)，置信度图中所有状态记为s={C_ij|(i,j)∈置图信度}，状态空间为S包含了所有的子状态s，对于某个图像x_k，将y_k记为该图像中待跟踪目标的外围框的中心点坐标；

S42、将输入图像和状态空间写为{X,S}，置信度的预测就等同于最小化的损失函数，，其中θ代表网络f的参数组，l和v分别代表损失函数以及标签函数；

S43、将该预测问题建模为椭圆形状的高斯函数，其中，其中w和h分别代表目标框的宽和高，y_i和y_j分别代目标框中心点的横纵坐标，σ为目标跟踪领域的经验值，与图像目标区域和图像裁剪范围有关；

S44、通过概率函数判断任意相邻两个图像x_i比x_j更接近于目标真实位置是否成立，概率函数为，其中x_i和x_j分别代表两个图像块，f_i和f_j代表对应的置信度；若成立则表示排序正确；否则排序错误进行一次累加并交换排序；

S45、采用交叉熵表示损失函数为，H是一个0-1值，排序正确为1，否则为0；

S46、结合排序相关性表损失函数，具体包括：排序图像的计算为r_i=r(x_i)，其中r_i为正确排序情况下的标签；定义衰减函数为，并引入其标准化项；对g进行归一化项计算为；则损失函数表示。

解决了传统孪生网络方法带来的语言模糊性，同时又将网络的重点导向更为重要的分辨能力，没有过分拟合值要求的大参数量；在超出大量跟踪器性能的基础上，速度也十分快；引入了新型的标签设计方法和损失函数，可以在不改变网络架构的基础上，在不同的跟踪器上进行使用，以提升性能。

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.基于特定标签和损失函数的孪生视觉跟踪方法，其特征在于，包括：

S3、导入训练样本训练优化孪生视觉跟踪模型；具体包括：

S32、特征交换层交换模板回归结果和搜索分类结果；

S33、在孪生视觉跟踪模型的分类分支对模板分类结果和搜索分类结果进行相关计算得到得分图，在孪生视觉跟踪模型的回归分支对模板回归结果和搜索回归结果进行相关计算得到偏移量图；

S34、计算得分图的分类得分损失和偏移量图的回归损失；

S35、加权分类得分损失和回归损失对孪生视觉跟踪模型进行优化更新；

S4、将需要跟踪的视频导入优化后的孪生视觉跟踪模型进行跟踪；具体包括：

S41、选取某张图像块为x，其图像序列为X，对于输入图像C_ij=(C_i,C_j)点在置信度图中的对应位置为(i,j)，置信度图中所有状态记为s={C_ij|(i,j)ϵ置信度图}，状态空间为S包含了所有的子状态s，对于某个图像x_k，将y_k记为该图像中待跟踪目标的外围框的中心点坐标；

S43、将该预测问题建模为椭圆形状的高斯函数，其中，其中w和h分别代表目标框的宽和高,y_i和y_j分别代目标框中心点的横纵坐标，σ为目标跟踪领域的经验值，与图像目标区域和图像裁剪范围有关；

S44、通过概率函数判断任意两个图像x_i比x_j更接近于目标真实位置是否成立，概率函数为，其中x_i和x_j分别代表两个图像块，f_i和f_j代表对应的置信度；若成立则表示排序正确；否则排序错误进行一次累加并交换排序；

2.根据权利要求1所述的基于特定标签和损失函数的孪生视觉跟踪方法，其特征在于，在S1中，训练样本包括静态图片和长时跟踪视频，当使用静态图片进行训练时，将训练图片对分别裁剪为303*303和127*127大小，对推理图片进行随机缩放和平移处理；当使用一个视频进行训练时，随机选择一个视频作为推理示例，并在该视频中随机选择一对相差不大的帧作为训练示例。

3.根据权利要求1所述的基于特定标签和损失函数的孪生视觉跟踪方法，其特征在于，在S4中，从需要跟踪视频的第一帧中裁剪目标模板，模板分支提取目标模板的特征并缓存，需要跟踪视频进入搜索分支；当下帧根据前一帧的目标位置裁剪搜索块并提取特征，搜索分支在当下帧域进行预测跟踪得到得分图和偏移量图。