CN113658217A

CN113658217A - 一种自适应目标跟踪方法、装置及存储介质

Info

Publication number: CN113658217A
Application number: CN202110794380.0A
Authority: CN
Inventors: 胡栋; 张婷; 张雪
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-16
Anticipated expiration: 2041-07-14
Also published as: CN113658217B

Abstract

本发明公开了一种自适应目标跟踪方法、装置及存储介质，属于计算机视觉分析技术领域，该方法通过对ResNet50网络结构进行调整，使用ILSVRC‑2012大规模数据集训练调整后的网络，使用预训练过的网络的第三、四层卷积层提取图像特征并训练各层相关滤波器，将各层响应结果依据跟踪置信度赋予自适应权重，融合后响应图的最大值处即为目标位置，在所确定的尺度变化方向上以一种类似于二叉排序树的树形结构进行不断地二分搜索，通过尺度判别指标找到目标合适的尺度；本发明利用深度残差网络的第三、四层卷积层提取图像特征，此特征提取方法能够精准定位目标，利用树形搜索策略有助于目标的尺度自适应，实现可持续跟踪。

Description

一种自适应目标跟踪方法、装置及存储介质

技术领域

本发明涉及一种自适应目标跟踪方法、装置及存储介质，属于计算机视觉分析技术领域。

背景技术

目标跟踪技术作为计算机视觉领域的研究热点，其发展十分迅速，并在视频监控、人机交互、军事科技等各个应用领域都有着不错的发展前景。但目标跟踪的场景往往是错综复杂，容易会发生诸如光照变化、尺度改变和被遮挡等状况，目标跟踪的研究仍然面临着巨大的挑战。世界各国都投入了大量时间和资金在该领域，进行深入的探讨和研究，推动了目标跟踪技术的发展。现如今，目标跟踪技术日益成熟，大致分为三类：传统跟踪方法、基于相关滤波的目标跟踪和基于深度学习的目标跟踪。在提升跟踪性能和提高跟踪系统的鲁棒性方面，跟踪方法仍然有改进的空间。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域普通技术人员所公知的现有技术。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种自适应目标跟踪方法、装置及存储介质，利用ResNet50网络进行特征提取，提高了目标定位的精度，利用树形搜索策略实现了目标的尺度自适应，其跟踪效果比传统跟踪算法的可靠性更高。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种自适应目标跟踪方法，包括以下步骤：

读取视频序列第一帧图像，进行相关滤波器训练；

读取下一帧中的图像块，计算得到相关滤波器和样本图像块的相关响应图；

依据置信度评价函数进行各层响应图权重的自适应分配，计算融合后响应图，得到目标估计位置；

将目标估计位置输入尺度估计模块，以目标估计位置为中心的图像块，利用树形搜索策略找到目标候选位置的最佳尺度；

判断当前帧是否为最后一帧：若是，则确定当前目标候选位置的最佳尺度；若不是，对相关滤波器进行更新，然后转入读取视频序列第一帧图像，进行相关滤波器训练的步骤。

进一步的，进行相关滤波器训练包括：

调整ResNet50卷积层的滤波器个数调整为原先的二分之一，将调整过后的ResNet50网络利用ILSVRC-2012数据集进行训练；

利用预训练过的Resnet50网络的第三、四层卷积层提取图像特征；

根据第三、四层卷积层提取图像特征，训练各层相关滤波器。

进一步的，读取下一帧中的图像块，计算得到相关滤波器和样本图像块的相关响应图包括：

以pos1(μ,ν)为中心截取W×H大小的图像块patch2，假设z_l(z_l∈R^M×N×D)表示的是第l层上大小为M×N×D的特征向量，利用对patch2计算得到相关滤波器和样本图像块的相关响应图，公式如下：

其中，运算符F^-1表示傅里叶逆变换，通过在大小为M×N的相关响应图f(z)上寻找具有最大响应值的位置，估计第l个卷积层所得的目标所在位置。

进一步的，所述对相关滤波器进行更新，更新策略为：

设定

分别表示其在第t帧的分子项与分母项，η_p为相关滤波器W^p的学习率，其中η_p∈(0,1)。

进一步的，所述计算融合后响应图，得到目标估计位置包括：

利用APCE值描述目标响应的波动程度；

定义相邻两帧图像之间相关滤波响应一致程度来表述跟踪的稳定程度；

定义一个更具可靠性的目标跟踪置信度评价函数进行响应图的权重分配，计算第l层卷积滤波后的跟踪置信度评价函数；

依据所得的跟踪置信度评价函数进行各层响应图权重的自适应分配；

所得到响应图的最大位置就是目标估计的位置。

进一步的，所述利用树形搜索策略找到目标候选位置的最佳尺度包括：

通过进行目标的快速尺度建立以确定尺度的搜索方向，定义一个简单尺度池，获得不同尺寸的候选目标；

从待测样本中提取特征，构成滤波器训练样本，进行尺度滤波器的训练；

计算尺度判别指标，以确定目标候选尺度的寻找方向；

在所确定的尺度搜索方向上进行尺度的二分，计算尺度判别指标，确定接下来的尺度搜索方向，以此类推，直至确定目标候选位置的最佳尺度。

进一步的，所述计算尺度判别指标包括：

对图像样本进行若干次尺度估计并提取特征，训练得到相关响应最大值；

求得这若干次尺度估计的相关响应图的最大位置；

利用响应图与期望输出响应的欧氏距离衡量响应图最大值的可靠程度，定义尺度判别指标。

第二方面，本发明提供一种自适应目标跟踪装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

第三方面，本发明提供计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明通过对ResNet50网络结构进行调整，使用ILSVRC-2012大规模数据集训练后的网络，选取第三、四层卷积层提取的图像特征训练各层相关滤波器，将各层响应结果依据跟踪置信度赋予自适应权重，融合后响应图的最大值处即为目标位置，有效提高目标的定位精度，之后，加入尺度滤波器进行尺度估计，利用树形搜索策略实现目标的尺度自适应，实现可持续跟踪，其跟踪效果比传统跟踪算法的可靠性更高。

附图说明

图1是本发明实施例提供的算法流程图；

图2是本发明实施例提供的各层特征跟踪性能对比图；

图3为本发明实施例提供的基于树形搜索策略的目标尺度估计示例图；

图4为本发明实施例提供的基于树形搜索策略的目标尺度估计流程图；

图5为本发明实施例提供的跟踪性能对比图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

如图1所示，本实施例提出了一种自适应目标跟踪方法，主要针对在跟踪过程中，目标发生尺度改变时跟踪准确率降低甚至跟踪失败的问题。

本实施例提供的融合ResNet和核相关滤波的尺度自适应跟踪方法具体实施方式如下：

步骤1、ResNet50网络结构调整与训练；

(a)结构调整：相比于初始的网络结构，将卷积层的滤波器个数调整为原先的二分之一，则卷积层提取出的特征在保持尺度不变的前提下，通道数目会相应减少二分之一；经过上述的网络结构调整过程，能够有效减少图像训练时间，提高深度卷积特征提取的效率；

(b)训练过程：将调整过后的ResNet50网络利用ILSVRC-2012数据集进行训练；训练时，将相应卷积层进行随机初始化，使用等批量大小进行样本训练，批尺寸大小设置为64。本实验中的损失函数选择交叉熵损失函数，并添加L2正则化，权重衰减惩罚系数设置为7×10^-5。采取基于动量的随机梯度下降算法进行网络参数更新，动量设置为0.9，初始学习率设为10^-2，采用轮数减缓策略，当经过0.4和0.8倍的总轮数时，学习率衰减为原先的十分之一，使用dropout正则化，丢包比率设为0.5，随机对训练过程中的输出特征进行舍弃。

步骤2、ResNet50网络卷积层的选择：用改进的网络分别提取分别各层特征并用于相关滤波目标跟踪中，在OTB2015数据集中的所有视频序列上利用精度进行评估，通过计算人工标注目标框中心点与跟踪算法预测的目标所在位置中心点的距离，当计算得到的距离小于阈值时表示跟踪成功，本章的阈值设置为20像素。图2是使用ResNet不同层卷积特征进行跟踪得到的OPE精度图，其中，C1～C5分别表示使用ResNet50网络的第一层到第五层提取的特征进行跟踪所得的结果，比较分析后，选取第三、四层卷积层提取图像特征；

通过特征可视化分析发现调整后的ResNet50网络的第一、二层输出的特征分辨率高，有丰富的纹理和空间信息，第三、四层输出的特征所含语义信息较多，能够非常有效的区分出目标和背景。由单层特征跟踪性能分析可知，使用第四层卷积层单层跟踪的效果最佳。利用不同层提取的特征组合下对比的跟踪结果，可以发现第三层和第四层的特征组合有更加完善的特征表达，成功率和准确率均为最高，能够获得最佳的跟踪效果，因此，采用ResNet50的第三、第四层卷积特征的组合用于相关滤波目标跟踪算法的跟踪性能更好。

步骤3、读取视频序列第一帧图像，并开始进行训练，具体步骤如下：

(a)给定目标初始目标框(μ,ν,w,h)，目标的中心为pos1(μ,ν)，尺寸为target_sz(w,h)，以中心点pos1(μ,ν)裁剪尺寸为W×H的图像块patch1。

(b)对patch1利用预训练过的Resnet50的第三、四层卷积层提取图像特征，每一个卷积层从当前帧的目标特征图中提取出多通道的高维特征x，其中，x表示第l,l∈{3,4}层上大小为M×N×D的特征向量，M、N、D表示的是宽度、高度以及特征通道数，x∈R^M×N×D，将目标样本特征X沿M和N方向循环移位得到的虚拟样本用来做训练样本。每个循环移位样本为x(i，j)∈{0,1,...,M-1}×{0,1,...,N-1}。通过求解如式(1)所示的最小化问题来学习最佳相关滤波器。

其中，λ表示正则化参数(λ≥0)。线性乘积是通过

定义的，d，(d∈{1,...,D})表示不同的特征通道。y(i，j)∈R^M×N代表目标图像块的一个二维高斯函数，即：

其中，σ为高斯核带宽。未进行循环移位时，目标中心y值最大，即y(i,j)＝1，逐渐偏离目标中心时，y(i,j)的值不断趋近于0。

(c)将式(1)的最小化问题从时域转化到频域进行求解，如式(3)所示。

其中，X、Y、W分别是x(i，j)、y(i，j)和w的傅立叶变换，字母上的横线代表复数共轭，运算符表示对应元素进行相乘。假设x_l表示第l层卷积层提取的图像特征，则第d(d∈{1,...,D})个通道上在频域上求解得到如式(4)所示的最佳滤波器W_l ^d。

步骤4、读取下一帧中的图像块，以pos1(μ,ν)为中心截取W×H大小的图像块patch2，假设z_l(z_l∈R^M×N×D)表示的是第l层上大小为M×N×D的特征向量，利用对patch2用式(5)可以计算得到相关滤波器和样本图像块的相关响应图。

其中，运算符F^-1表示傅里叶逆变换。通过在大小为M×N的相关响应图f(z)上寻找具有最大响应值的位置，估计得出第l个卷积层的目标所在位置。

步骤5、对卷积层的相关响应图f_l赋予自适应权重，具体操作如下：

(a)利用APCE值描述了目标响应的波动程度，如式(6)所示。

其中，F_max和F_min分别表示输出相关响应中的峰值和最小值，F_x，y表示目标在位置(x,y)处的响应。APCE值描述了目标响应的波动程度，该值越大表明跟踪的置信度越高，反之则表明跟踪的置信度较差。

(b)定义相邻两帧图像之间的相关滤波响应一致程度来表述跟踪的稳定程度，如式(7)所示。

其中，f^t(x，y)代表了目标在第t帧的相关响应图，Δx、Δy表示目标在相邻两帧之间位置的相对变化。CCFR值越小，表明相邻两帧图像之间响应图的相似性越高，跟踪的稳定性也越强；反之则表示跟踪的稳定性较弱。

(c)定义一个更具可靠性的目标跟踪置信度评价函数conf(APCE,CCFR)进行响应图的权重分配，具体如式(8)所示。

其中，ε为一个趋于0的常数。通过式(9)计算第l层卷积滤波后的跟踪置信度评价函数。

(d)依据所得的跟踪置信度评价函数进行各层响应图权重的自适应分配，由式(10)计算得到最终融合后的响应图。

经过式(11)计算，所得到响应图的最大位置就是目标估计的位置pos2(μ′,ν′)。

步骤5、在初步找到目标所在位置后加入尺度估计模块，具体操作如下：

(a)通过进行目标的快速尺度建立以确定尺度的搜索方向。定义一个简单尺度池SP＝{1-δ,1,1+δ}，视频序列里的每一帧图像都使用简单尺度池以获得不同尺寸的候选目标。其中，1表示了目标图像的初始尺寸大小，δ为变化的尺度，1-δ表示对原始图像的长和宽缩小δ尺度，1+δ表示图像的长和宽放大δ尺度。

(b)将图像大小进行尺度池SP＝{1-δ,1,1+δ}处理后的待测样本，提取各样本的快速HOG特征，获得d维的特征x_t ^d之后进行串联形成一个特征向量x^s，最后构成不同尺度为S的滤波器训练样本，进行尺度滤波器w^s的训练，如式(12)所示。

其中，

分别是第t帧的滤波器系数，λ是正则化系数，g通常是期望的高斯响应，g、w^s和x^s具有相同的维数和尺寸，大写字母W^s、X^s、G^s为相应量的离散傅里叶变换，字母上的横线代表复数共轭。

第t帧时，位置滤波器输出目标图像的位置，对该处图像样本Z进行若干次尺度估计并提取特征Z^s，然后训练得到了第t帧尺度为s时的相关响应最大值

如式(13)所示。

通过式(14)可以求得若干个尺度响应图的最大位置。

(c)利用响应图

与期望输出响应g的欧氏距离衡量响应图最大值的可靠程度，如式(15)所示。

其中，

为误差权重。定义式(16)的尺度判别指标

(d)将简单尺度池排列成二叉排序树的形式，也就是图3所示的第一、二层，利用公式(16)分别计算这三个尺度的尺度判别指标

得出其中的最大值以确定目标候选尺度的寻找方向；然后，在所确定的尺度搜索方向上进行尺度的二分，在第二层的A2确定为尺度的搜索方向，则在该方向上分别进行图像放大和缩小δ/2的尺度，也就是说此时的第三层中B1的尺度为1+δ-δ/2，B2的尺度为1+δ+δ/2，再分别计算此时的尺度判别指标

确定接下来的尺度搜索方向。以此类推，当尺度变化到第n(n≥2)层时，所形成搜索结构的左、右子结点处的尺度为在当前父结点尺度的基础上分别放大和缩小δ/2^n-2，并且此时整个的搜索尺度结构仍然保持着类似于二叉排序树的树形结构，当父结点计算得到的尺度判别指标T_f大于左子结点处的尺度判别指标T_l和右子结点处的尺度判别指标T_r时，停止在树形结构进行尺度二分，即此时父结点所在的尺度s为目标候选位置的最佳尺度，整个树形尺度搜索的流程如图4所示。

步骤6、判断当前帧是否为最后一帧：若是，则结束；否则对核相关滤波器进行更新，然后转入步骤3。

其中，当进入下一图像帧时，根据当前帧跟踪目标的位置，对相关滤波器进行更新，更新策略为式(17)所示。

设定

为验证本发明提出的目标自适应跟踪方法的有效性，使用OTB2015数据集进行对比实验，选取4组包含尺度变化的视频序列进行测试，详情见下表1。

表1测试序列的相关信息

将本发明所提算法与目标跟踪领域经典的HCF算法、当前主流处理尺度跟踪算法SAMF算法、DSST算法及本课题组张碧秋提出的SAHCF(基于分层卷积特征的目标尺度自适应算法)进行对比，各方法跟踪效果的对比图，如图5所示。从图5(a)可以看出，本文的算法平均精度达到了84.3％，SAHCF算法为80.7％，HCF算法为74.8％，SAMF算法为72.3％，DSST算法为70.5％，本文的算法相比其他的四个算法分别提高了4.5％、12.7％、16.6％和19.6％。在图5(b)中，本文的成功率达到了64.7％，SAHCF算法为61.2％，HCF算法为58.9％，SAMF算法为53.7％，DSST算法为52.9％，本文算法与这四个算法相比较，成功率分别提高了5.7％、9.8％、20.5％和22.3％。在尺度变化的条件下，本文的算法因为能够实现目标的尺度自适应，因而仍然保持着较高的准确度和精确度。从图5(c)中可以看出，本文的算法在尺度变化因素下的准确度为82.9％，相比于SAHCF、HCF、SAMF和DSST算法分别提高了4.6％、14.2％、17.1％和21.6％。在图5(d)中，本文算法在尺度变化因素干扰下的成功率为63.6％，对比于SAHCF、HCF、SAMF和DSST这几个算法分别提高了5.8％、10.4％、20.7％和23.2％。

综上，本发明通过对ResNet50网络结构进行调整，使用ILSVRC-2012大规模数据集训练后的网络，选取第三、四层卷积层提取的图像特征训练各层相关滤波器，将各层响应结果依据跟踪置信度赋予自适应权重，融合后响应图的最大值处即为目标位置，有效提高目标的定位精度。之后，加入尺度滤波器进行尺度估计，利用树形搜索策略实现目标的尺度自适应，实现可持续跟踪，其跟踪效果比传统跟踪算法的可靠性更高。

实施例2

本实施例提供一种自适应目标跟踪装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行下述方法的步骤：

读取视频序列第一帧图像，进行相关滤波器训练；

实施例3

本实施例提供计算机可读存储介质，其上存储有计算机程序该程序被处理器执行时实现下述方法的步骤：

读取视频序列第一帧图像，进行相关滤波器训练；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种自适应目标跟踪方法，其特征是，包括：

读取视频序列第一帧图像，进行相关滤波器训练；

2.根据权利要求1所述的自适应目标跟踪方法，其特征是，进行相关滤波器训练包括：

3.根据权利要求1所述的自适应目标跟踪方法，其特征是，读取下一帧中的图像块，计算得到相关滤波器和样本图像块的相关响应图包括：

4.根据权利要求1所述的自适应目标跟踪方法，其特征是，所述对相关滤波器进行更新，更新策略为：

设定

5.根据权利要求1所述的自适应目标跟踪方法，其特征是，所述计算融合后响应图，得到目标估计位置包括：

利用APCE值描述目标响应的波动程度；

所得到响应图的最大位置就是目标估计的位置。

6.根据权利要求1所述的自适应目标跟踪方法，其特征是，所述利用树形搜索策略找到目标候选位置的最佳尺度包括：

计算尺度判别指标，以确定目标候选尺度的寻找方向；

7.根据权利要求6所述的自适应目标跟踪方法，其特征是，所述计算尺度判别指标包括：

求得这若干次尺度估计的相关响应图的最大位置；

8.一种自适应目标跟踪装置，其特征是，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

9.计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。