CN116543019A

CN116543019A - 一种基于精确边界框预测的单目标跟踪方法

Info

Publication number: CN116543019A
Application number: CN202310515531.3A
Authority: CN
Inventors: 刘书君; 田新雨; 曾强文; 雷茂林; 张奎
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2023-05-09
Filing date: 2023-05-09
Publication date: 2023-08-04

Abstract

本发明公开了一种基于精确边界框预测的单目标跟踪方法。属于计算机视觉目标跟踪领域。它是一种采用像素点互相关、通道注意力机制和关键点式边界框预测网络相结合的单目标跟踪方法。首先构建基于精确边界框预测的网络模型，并对该模型进行离线训练，其次加载并初始化离线训练的精确边界框预测算法的网络模型，并通过像素互相关操作获得响应特征，最后将响应特征转换得到目标的预测边界框，并更新目标边界框的预测结果，完成对整个视频序列中目标的定位和跟踪。本发明提出一种更加灵活、精确、计算量小的边界框预测模块，有效地提取和维护特征中的空间信息，提高对目标发生尺度变化、旋转和快速运动时的鲁棒性。

Description

一种基于精确边界框预测的单目标跟踪方法

技术领域

本发明属于计算机视觉领域，涉及单目标跟踪技术，具体为一种基于精确边界框预测的单目标跟踪方法。

背景技术

随着科学技术的不断发展，社会信息化，智能化程度日益提高，人类已经迈入大数据，信息化时代，这给人们的生活带来极大的便利，同时也使得计算机视觉研究更加活跃。

视觉目标跟踪是计算机视觉领域中一个十分重要且极具挑战性的分支，它是指对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的位置、运动轨迹、速度和加速度等运动参数，并对这些数据进行处理分析，实现对运动目标的行为理解，完成高级视频分析任务，广泛应用于现代化军事、视频监控、自动驾驶及医疗诊断等领域，有着重要的研究价值和实际意义。

尽管目标跟踪技术在多个领域都有所应用，但是在实际的跟踪过程中，由于不可控因素，仍面临着许多挑战，比如目标存在光照变化、运动模糊、旋转、相似物干扰、低分辨率、遮挡、形状变化、光照变化等。因此，为了解决目标跟踪过程中遇到的困难及挑战，并在多个领域能够更好地被应用，研究并设计出高精度且实时的目标跟踪算法具有重要的价值和深远的影响力。

近年来，随着深度学习技术的不断发展和应用，基于判别式模型的目标跟踪算法也在不断演进，从基于相关滤波的目标跟踪算法发展到基于深度学习的目标跟踪算法，不断提高跟踪算法的准确性、实时性和鲁棒性。基于孪生网络的跟踪器因其速度快、精度高，受到了研究者们的广泛关注。

发明内容

本发明的目的在于针对当前的孪生网络结构缺乏特定目标的背景特征，无法有效识别出目标相似物干扰，降低背景噪声的影响，提出一种基于精确边界框预测的单目标跟踪方法。该方法通过分数融合策略使用目标特定特征的判别学习，帮助孪生网络更好地处理干扰和噪声，并通过将像素互相关和通道注意力机制相融合的策略，有效地提取和维护特征中的空间信息；通过关键点式边界框预测网络，可以有效地保持特征图中的自然空间结构，并且避免将空间信息编码到通道中，提高目标发生尺度变化、旋转和快速运动时的鲁棒性。具体包括以下步骤：

(1)构建基于精确边界框预测的网络模型，并对该模型进行离线训练；

(1a)输入一段视频序列，选取两帧间隔小于50帧的随机模板帧F_ref和测试帧F_test；

(1b)通过将模板帧F_ref裁剪为给定标注边界框两倍大小的图像作为模板分支的输入，将测试帧F_test以标注边界框为中心进行裁剪后的图像进行平移、翻转、缩放、颜色变化和模糊处理后作为搜索分支的输入，通过下列公式进行计算

可以得到以[c_x,c_y]为中心，大小为[h,w]的区域，其中分别表示给定的标注边界框中心点的横坐标值和纵坐标值及标注边界框的长度和宽度，/>和/>是两个标量因子，分别表示尺度和中心，N和U分别表示二维标准正态分布随机变量和二维均匀随机变量；

(1c)将目标边界框的预测输出结果转换为最左、最上、最右、最下格式的坐标，并与给定的标注边界框的坐标值进行比较，得到总损失：

L＝L_box+λL_mask

其中，L_box表示均方误差，L_mask表示交叉熵损失，λ表示权重系数；

(2)加载初始跟踪算法的网络模型，初始化离线训练的基于精确边界框预测算法的网络模型；

(3)优化预测边界框的坐标，并对提取到的搜索图像和模板图像特征进行像素互相关操作，通过通道注意力机制对像素互相关后的特征进行挤压和激活操作得到响应特征，具体步骤为：

(3a)输入的模板图像特征和/>的搜索图像特征，其中，C表示特征通道数，H₀、W₀分别表示模板图像特征的长度和宽度，H、W分别表示搜索图像特征的长度和宽度，将模板图像特征K分解成H₀×W₀个较小的卷积核/>与搜索图像特征进行相关性计算得到像素相关图/>整个过程可以描述为

其中，*表示朴素互相关，下标j表示第j个通道；

(3b)通过全局平均池化操作生成基于通道的统计信息，并将全局空间信息压缩到通道描述符中，统计量z∈R^C通过对特征图u_c的空间维数H×W进行F_sq(.)收缩操作得到，则z的第c个元素计算为

其中，i表示特征图u_c的第i行，j表示特征图u_c的第j列；

(3c)通过参数w为每个特征通道生成权重s，整个过程可以描述为

s＝F_ex(z,w)＝σ(w₂δ(w₁z))

δ(x)＝max(0,x)

其中，F_ex(.)表示提取操作，σ(x)表示Sigmoid激活函数，δ(x)表示ReLU激活函数，z表示收缩后的特征信息，分别表示全连接层的第一层和第二层，其中，L表示特征的通道数，r表示特征压缩比例因子；

(3d)通过将学习得到的每个通道注意力权重s_c与主干的输入特征u_c相乘得到输出特征为

其中，F_sc(u_c,s_c)表示注意力权重s_c和特征图之间的通道乘法；

(4)计算得到响应特征中目标左上点和右下点的热力图信息，通过概率密度函数转换得到目标的预测边界框，并更新初始跟踪算法中目标边界框的预测结果，完成对整个视频序列中目标的定位和跟踪，具体计算方式为

其中，h_n,m表示大小为W_h×H_h的归一化热力图中的第m列第n行对应的元素，m表示热力图的第m列，n表示热力图的第n行，p＝(p_x,p_y)表示目标左上点或右下点的位置。

本发明的创新点是提出一种更加灵活、精确、计算量小的边界框预测模块；通过将像素互相关及通道注意力机制相融合的策略，有效地提取和维护特征中的空间信息；采用关键点式边界框预测网络，有效地抑制背景噪声，保持特征图中的自然空间结构，显著提高跟踪器的边界框预测质量。

本发明的有益效果：有效地解决了目标跟踪过程中目标出现外观变化、旋转和运动模糊时表现出的目标漂移问题；提高对目标发生尺度变化和旋转时的鲁棒性；在保证实时跟踪速度的前提下，大幅提升跟踪的精度。

本发明主要采用仿真实验的方法进行验证，所有步骤、结论都在基于pytracking的开源目标跟踪算法框架上验证正确。

附图说明

图1是本发明的流程框图；

图2是本发明的网络框架图；

图3是本发明的像素互相关示意图；

图4是本发明的关键点式边界框预测网络结构图；

图5是采用不同方法在OTB100数据集上部分序列的跟踪结果。

具体实施方式

参照图1，本发明是一种基于精确边界框预测的单目标跟踪方法，具体步骤如下：

L＝L_box+λL_mask

其中，*表示朴素互相关，下标j表示第j个通道；

其中，i表示特征图u_c的第i行，j表示特征图u_c的第j列；

s＝F_ex(z,w)＝σ(w₂δ(w₁z))

δ(x)＝max(0,x)

其中，F_sc(u_c,s_c)表示标量s_c和特征图之间的通道乘法；

本发明的效果可以通过以下仿真实验进一步说明：

一、实验条件和内容

实验条件：实验采用OTB100数据集中部分视频序列，如图5所示；实验结果评价指标采用成功率曲线图和精度曲线图来客观评价重构结果，成功率曲线图根据跟踪算法得到的边界框和人工标注的准确边界框的面积重叠比IoU(Intersection over Union)来进行绘制，其计算公式为：

其中Box_P为跟踪算法预测的目标边界框，Box_G为目标真实边界框。设定一个阈值T，当某一帧的成功率大于T时，才会认为此帧的跟踪是成功的。成功率曲线图反映边界框重叠率大于给定阈值的视频帧的百分比，更能描述跟踪算法预测的目标尺度与真实尺度的接近程度。精确度曲线图根据跟踪算法得到的目标边界框和人工标注的准确边界框的中心欧氏距离误差进行绘制，其计算公式为：

其中(x_P,y_P)为跟踪算法预测的目标边界框的中心位置，(x_G,y_G)为人工标注的准确边界框的中心位置。设定一个阈值，只有当d<T时，才会认定此帧的跟踪是成功的，常采用阈值为20个像素点所对应的数值作为精确度评价指标。

实验内容：在上述条件下，采用在单目标跟踪领域目前处于领先水平的SiamBAN方法、SiamBAN++方法与本发明方法进行对比，跟踪对比结果如图5所示。

从图5(a)可以看出，在Board序列中，目标进行快速运动和旋转，出现了运动模糊的情况，SiamBAN方法跟丢了目标，只有SiamBAN++方法和本发明方法做出了正确的预测，但是由于SiamBAN++方法采用的是RPN式边界框预测网络，未能充分利用特征图空间分布中包含的信息，造成边界框预测不准确，只有本发明方法最精确地预测出目标的位置。

从图5(b)可以看出，在Clifbar序列中，只有本发明方法预测的边界框与人工标注的正确边界框相重合，SiamBAN方法和SiamBAN++方法预测的边界框与人工标注的正确边界框差异较大。

从图5(c)可以看出，在Ironman序列中，目标周围出现强烈的光照变化，并伴随着相似物干扰和遮挡情况，SiamBAN方法和SiamBAN++方法均出现了目标漂移的现象，只有本发明方法做出精确预测并成功跟踪目标。

从图5(d)可以看出，在Walking2序列中，目标周围出现相似物干扰，SiamBAN方法和SiamBAN++方法均出现了跟丢目标的情况，只有本发明方法能够成功跟踪目标。

表1不同跟踪方法在OTB100数据集下部分视频序列的成功率指标

视频序列	SiamBAN方法	SiamBAN++方法	本发明方法
				Board	0.474	0.730	0.766
Clifbar	0.473	0.509	0.722
				Ironman	0.565	0.520	0.645
Walking2	0.279	0.271	0.347

表1给出了各跟踪方法的成功率指标情况，其中成功率值越大表示跟踪效果越好；由表可见本发明方法相比其他方法跟踪成功率均有较大提高。

表2不同跟踪方法在OTB100数据集下部分视频序列的精确度指标

视频序列	SiamBAN方法	SiamBAN++方法	本发明方法
				Board	0.431	0.646	0.699
Clifbar	0.790	0.835	0.908
				Ironman	0.802	0.668	0.818
Walking2	0.381	0.373	0.428

表2给出了各跟踪方法的精确度指标情况，其中精确度值越高表示预测边界框与人工标注边界框更接近；可见本发明方法对应的精确度值最高，预测边界框与人工标注边界框更相近，此结果与跟踪效果图相吻合。

上述实验表明，本发明提出的像素互相关和通道注意力机制模块可以解决目标背景噪声的影响。同时，提出的关键点式边界框预测网络可以有效地解决RPN网络头部中数据不一致问题，也解决了R-CNN网络空间信息崩溃的问题，并且能够保持特征图中的自然空间结构，实现对目标边界框的精确定位。

Claims

1.一种基于精确边界框预测的单目标跟踪方法，包括以下步骤：

其中，*表示朴素互相关，下标j表示第j个通道；

(3b)通过全局平均池化操作生成基于通道的统计信息，并将全局空间信息压缩到通道描述符中，统计量z∈R^C通过对特征图u_c的空间维数H×W进行F_sq(.)收缩操作得到，则z的第c个元素为

其中，i表示特征图u_c的第i行，j表示特征图u_c的第j列；

s＝F_ex(z,w)＝σ(w₂δ(w₁z))

δ(x)＝max(0,x)

2.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法，其步骤(1)的主要特征在于，模型进行离线训练的具体步骤为：

(1c)将目标边界框的预测输出结果转换为最左、最上、最右、最下格式的坐标，并与给定的标注边界框的坐标值进行比较，得到总损失

L＝L_box+λL_mask

其中，L_box表示均方误差，L_mask表示交叉熵损失，λ表示权重系数。

3.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法，其步骤(3)的主要特征在于，采用像素点互相关的方式完成模板帧特征和搜索帧特征的融合，并且引入通道注意力机制可以确保每个相关图能够映射到目标某个局部区域的信息，避免较大相关窗口造成特征模糊的现象。

4.根据权利要求1所述的一种基于精确边界框预测的单目标跟踪方法，其步骤(4)的主要特征在于，通过概率密度函数对热力图进行归一化处理，可以实现高效的像素定位，使离散的热力图能够更加精确地描述出目标左上点和右下点的位置信息，并从离散的热力图中预测连续值，有效地避免RPN网络头的数据不一致问题，解决了R-CNN网络空间信息崩溃的问题，并且能够保持特征图中的自然空间结构，避免将空间信息编码到通道中。