CN113554679A

CN113554679A - 一种面向计算机视觉应用的无锚框目标跟踪算法

Info

Publication number: CN113554679A
Application number: CN202110466775.8A
Authority: CN
Inventors: 罗越
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-10-26

Abstract

本方面主要提供了一种面向计算机视觉应用的无锚框目标跟踪算法，基于孪生架构的方法因其能在保持良好速度的同时取得较显著的性能,引起了视觉跟踪领域的广泛关注。然而，孪生网络分支通常是独立的，缺乏信息交互，这限制了模型性能的进一步提升。为了增强孪生网络分支的协作能力，本文提出基于孪生架构的交叉感知网络模型，称之为SiamCross(SiameseCrossObject‑AwareNetwork)。在SiamCross中，我们基于孪生网络分支的互监督，设计了全新的孪生交叉感知子网络(SiameseCross‑AwareNetwork，SCAN)。SCAN可使得孪生网络提取的特征能够有效感知并区分前景和背景。基于无锚框的区域候选网络将跟踪任务直接定义为对每个像素的分类和回归，网络分支特征可各自聚焦于目标的局部与全局空间信息。

Description

一种面向计算机视觉应用的无锚框目标跟踪算法

技术领域

本发明涉及目标追踪领域，具体涉及一种面向计算机视觉应用的无锚框目标跟踪算法。

背景技术

视觉目标跟踪是计算机视觉的一项基本任务。给定了序列初始帧中任意的目标状态后，跟踪器需准确估计后续帧的目标状态。目标跟踪在自动监控、车辆导航、机器人传感、人机交互和增强现实等领域有着广泛的应用。虽然视觉跟踪已经取得了很大的进展，但是由于存在光照变化、遮挡和背景干扰等诸多因素的影响，鲁棒视觉跟踪仍具有很大的挑战性。

基于孪生网络的跟踪算法将视觉目标跟踪问题视为学习一个通用相似得分图，因为其在精度和速度上取得了不错的平衡，近年来受到视觉跟踪领域的广泛关注。跟踪器通常需要对目标进行粗糙的中心定位和精确的状态估计(边界框)。目前许多算法使用多尺度搜索来估计目标大小，这种方法耗时且计算负担大。为了获得精确的目标边界框，SiamRPN引入了包括分类和回归分支的区域候选网络(RegionProposalNetwork，RPN)。但是，锚框需要人工参与设计，不仅增加了许多额外的超参数还需要先验知识(如比例分布)，这与通用目标跟踪精神相悖。与以往的基于锚框的算法相比，无锚框算法具有显著的优势，它不需要预先定义候选框，可以在无任何参考的情况下预测每个像素对应的目标边界框。虽然众多高效的算法被提出，但如图1所示，在诸如背景模糊、光照变化和遮挡等具有复杂背景信息的跟踪问题挑战下，依旧易发生跟踪漂移，亟待采用更好的方法进行优化。

目前大多数基于孪生区域候选网络(SiameseRPN)的特征学习方法，没有充分考虑分支之间的特征交互，因此,导致在部分挑战性的场景中，学习到的特征不具有高区分性和可靠性。孪生网络分支中提取的特征通常是分开计算的，搜索分支不会主动学习目标信息，目标信息则忽略了搜索图像中丰富的上下文信息，不利于产生更有意义的目标表示。另一方面，基于无锚框算法的RPN网络对每个像素直接进行分类和回归，使得生成的分类特征集中于局部图像特征信息，对目标中心位置具有很强的鲁棒性；回归特征则通过学习目标的空间位置全局信息来获得准确的状态估计。因此以上两种特征具有很好的互补性。然而，最近的方法并没有充分探索分类和回归分支之间进行有效交互互补的机制和方案。这使我们产生了研究动机：可以基于增强分支之间的交互能力去设计更加准确可靠的无锚框跟踪框架。当前的一些研究，试图通过结合分支之间的特征来提高跟踪器的性能，但没有充分挖掘Siamese-RPN架构的潜力。

发明内容

本发明主要提供了一种面向计算机视觉应用的无锚框目标跟踪算法，用以解决上述背景技术中提出的技术问题。

本发明解决上述技术问题采用的技术方案为：

一种面向计算机视觉应用的无锚框目标跟踪算法，包括以下步骤：

1)将图片输入SCAN网络，首先使用一个共享的深度骨干网络来提取高纬度语义特征。

2)在步骤1的骨干网络后串联一个交叉感知模块，并增加1×1卷积减少输出特征通道数。

3)将步骤2得到的输出特征输入具有两个分支的SPRIN网络。首先进行互相关操作。

4)将步骤3得到的输出输入新设计的PCA模块，包含一个通道注意力子模块以生成通道注意力特征

并视作空间位置权重图与空间注意力子模块输出的2D特征进行计算生成更鲁棒的空间注意力特征

最后使用自适应可形变交叉对齐卷积模块ADCA获得更可靠的定位结果。

进一步地，所述步骤1中的深度骨干网络为ResNet-50。

进一步地，所述步骤2中的交叉感知模块具体构建过程为：

首先改变模板特征f(z)形状大小为并作为地址，同时准备一个对应标记的二进制掩码V作为值，以指示模板特征中每个位置是否存在目标。在地址-值对组成的查找表LUT中，计算出搜索图像特征f(x)中的每个空间位置和其它所有地址的相似度矩阵。利用相似度矩阵，计算出f(x)中每个空间位置存在目标的概率。最后将注意力矩阵编码到f(x)中。我们还引入了交叉注意力子模块，通过对搜索图像中的上下文信息编码来生成更有意义的目标表示。特别的，我们从从搜索特征而不是目标本身来学习关联映射，最终的输出特征可通过类似上述过程计算出。

进一步地，所述步骤4中PCA模块的具体构建过程为：

对于分类分支，对给定的特征

我们首先使用一个平均池化层去聚合空间信息，和一个最大池化层，去获取目标显著特征。然后将具有一个隐藏层的共享多层感知器(MLP)，应用在每个池化后的1D特征描述符上。最后通过softmax使输出特征映射值映射到区间(0，1)中。对于回归分支，首先输入的回归特征F_reg经过全局平均池化层(AvgPool)和最大池化层(MaxPool)生成两个2D空间特征描述符。空间特征描述符进行逐元素相加后，被送入四个单层感知器(SLP)去分别学习不同的空间信息。网络输出四个不同的空间特征分别使用Sigmoid函数进行归一化并和分类特征

相乘，最后累加生成回归注意力特征。

进一步地，所述步骤4中多任务损失函数计算具体如下：

分类分支采用交叉熵损失来衡量分类准确性，回归分支使用具有尺度不变性的IoU损失，来更好反应预测边界框与真实框重合度。具体损失函数计算如下：

其中，L_cls和L_align分别表示分类结果中基于规则特征区域和对齐特征的二值交叉熵损失，p_i，j和q_i，j是位置(i，j)对应输出的分类得分值；

和

则是对应的真实标签。L_reg为边界框的IoU损失，t_i，j为预测的回归距离向量。使用权重超参数λ₁，λ₂，λ₃来平衡不同的任务。

进一步地，所述步骤5中具体过程为：

我们首先将输入的回归特征图和偏移量输入到可形变卷积中，对特征采样区域进行对齐，然后使用一个1×1卷积将输出通道特征减少到1。

与现有技术相比，本发明的有益效果为：

我们提出了孪生交叉目标感知网络SiamCross，它能够改善模型漂移并减弱目标受相似干扰物的影响，提高跟踪器在复杂场景中的性能。

我们设计了全新的SCAN子网络和SRPIN子网络，充分挖掘网络分支之间的交互潜力，保持跟踪效率的同时提高了跟踪精度。

附图说明

图1为孪生交叉感知网络模块展示示意图；

图2为Siamross的交叉感知网络模块示意图；

图3为特征采样区域自适应目标的位移和变形展示示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分例，实施而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示，本发明提供一种面向计算机视觉应用的无锚框目标跟踪算法SiamCross，由提取泛化特征的孪生网络SCAN(左上部分)和用于分类、回归的SRPIN网络(右上部分)组成。对于SCAN，我们首先使用一个共享的深度骨干网络来提取高维度语义特征，然后串联一个交叉感知模块(Cross-AwareModule，CA)来加强生成的特征表示。通过该过程，模板分支可以产生更具有区分度的表示，搜索分支受语义背景干扰的影响也将被减弱。为了更好地对目标进行定位和准确状态估计，我们还设计了一种新型的基于分支信息交互的SRPIN网络。SiamCross充分利用分支之间的互监督信息，使得生成的特征进行交互增强，获得更准确的跟踪结果。为方便描述，模板帧和搜索帧分别表示为和，SiamCross具体跟踪过程可用算法1描述。

孪生网络：

孪生网络特征提取：

孪生网络由两个并行分支组成，分别以一个模板图像和一个搜索图像作为输入。模板图像在起始帧中以目标对象为中心进行裁剪，而搜索图像则是以上一帧预测的目标位置为中心，在当前帧裁剪出更大的搜索区域。我们采用改进后的ResNet-50作为主干网络。具体来说，在网络最后两个阶段，下采样单元的步长设为1，并将所有的3×3空洞卷积的扩张幅度从2增大为4，以增加其感受野。最后，额外增加了一个1×1卷积将最后输出特征通道数减少至256，以降低计算负担。

无锚框网络分类与回归：

基于无锚框的算法将跟踪视为逐像素预测问题，即直接对搜索图像上每个位置进行分类，并回归对应的目标边界框。相对于以往基于锚框的算法，响应图A的每个位置(i,j,∶)不再被视为多尺度锚框的中心，而是直接映射到搜索图像中的对应位置(x,y)，其对应的值Acls(i,j,∶)负责预测相应区域前景-背景概率。回归分支则直接输出一个4D向量T(l*；r*；t*；b*)表示从位置(x,y))到搜索图像上目标边界四条边的距离，而非通过回归来调整预定义的锚框。整个过程可表述为：

其中，(∶)为用于特征提取的孪生嵌入编码空间，★表示深度互相关操作[13]。φcls和φreg分别表示分类分支和回归分支的编码空间。Aclsw×h×1表示分类响应图，Aclsw×h×1表示回归响应图。随后,让(0,0)和(1,1)代表真值框的左上角和右下角，则位置(x,y)的回归目标(l*；r*；t*；b*)可计算如下：

l^*＝x-x₀；r^*＝x₁-x

t^*＝y-y₀；b^*＝y₁-y

在线下训练时，我们进行集中采样去学习区域匹配的鲁棒相似度度量。具体来说，只有靠近目标中心ct(xc,yc)半径为16像素范围的位置将被回归。

SCAN网络：

以往大多数基于孪生网络的跟踪器使用从孪生分支提取的特征，来完成不同的跟踪任务。但是在缺少目标模板监督的情况下，从搜索图像中学习到的特征

缺乏被跟踪对象的相关信息。输出的模板特征

也无法从搜索图像中丰富的上下文信息中获益。基于以上原因，如图2所示，我们提出了一个交叉感知模块，允许孪生分支彼此高效协同工作去学习输入图像对的更有区别性的表示。得益于模板和搜索分支相互监督，模板分支可从搜索分支中获取丰富的上下文信息，从而生成有意义的目标表示；生成搜索特征具有高区分性，更侧重于跟踪对象本身特性。受文献的启发，对于搜索特征，我们期望在目标模板监督下为其建立一个空间约束。整个过程被视作检索一个由地址-值对组成的查找表，即Look-Up-Table。对此，我们首先改变模板特征f(z)形状大小为

并作为地址，同时准备一个对应标记的二进制掩码

作为值，以指示f(z)中每个位置是否存在目标。参考SiamBAN，我们明确考虑目标尺度和比例的影响，采用椭圆标签进行标签分配。只有在真值框内的内切椭圆位置被认为是有效目标(记为1)，其它部分被认为是背景(记为0)。因此LUT中,f(z)中每个空间位置和其它所有地址相似度矩阵为：

其中

是f(z)改变形状大小后的特征矩阵输出。利用相似度矩阵A，可以计算出f(z)中每个空间位置存在目标的概率，其注意力矩阵为:

M＝A×V

这样，与背景杂波相似的像素被削弱，而属于目标的像素被增强。最后，我们将注意力矩阵编码到搜索特征f(z)中：

其中A是缩放参数，

是逐元素广播加法。最终输出特征和f(z)具有相同的形状。受文献启发，我们还引入了交叉注意力子模块，通过对搜索图像块中的上下文信息进行编码来生成更有意义的目标表示。特别的，我们从搜索特征而不是目标本身来学习关联映射：

其中

同样是改变形状大小后的特征。最终的输出特征可通过类似上述过程计算出：

其中是缩放参数，输出特征

形状大小为

相较以往基于孪生网络的方法，通常使用经典的视觉注意力机制从特征本身学习权重图，缺乏分支特征之间的相互监督。跨分支的交互使生成的注意力特征更能感知区分前景和背景。

SPRIN网络：

图1显示了互相关操作后连接的具有两个分支的SRPIN网络。分类分支对目标中心进行粗略定位，回归分支则对目标空间状态进行精确估计。以往基于Siamese-RPN的算法直接将RPN分支用于完成相应的跟踪任务。然而，后续实验结果显示，得益于无锚框网络下各个分支的任务清晰明确，分支之间的特征信息互补可进一步提高跟踪性能。因此，充分利用分支之间的关系是至关重要的。为了达到这个目标,我们设计了一种新型的PCA模块：包括一个通道注意力子模块以生成通道注意力特征

并视作空间位置权重图与空间注意力子模块输出的2D特征进行计算，生成更鲁棒空间注意力特征

最后我们使用一个自适应可形变交叉对齐卷积模块ADCA去获得更可靠的定位结果，整体过程如算法2所示：

PCA模块：

我们观察到分类特征的特定通道可以学习到目标更多的语义信息。对此，我们通过注意力来进一步强化语义通道信息，并削弱其余通道的影响，使分类特征更具有区分性。具体来说，对于给定的特征F_cls，我们首先使用一个平均池化层去聚合空间信息和一个最大池化层，去获取目标显著特征；然后将具有一个隐藏层的共享多层感知器(MLP)，应用在每个池化后的1D特征描述符上。最后，通过softmax使得输出特征值映射到区间(0,1)中。整个注意力特征生成过程可被描述为：

其中，σ代表Sigmoid函数,

表示逐元素广播乘法。隐藏层的输出大小为

为了降低计算负担减少率r设为16.

回归特征更侧重于全局空间信息表达，但仅靠自身产生的空间注意力特征是难以实现的。由于通道和空间注意力模块生成的特征考虑了不同维度的信息，可以相互促进产生更可靠的特征；学习到的分类和回归特征也包含了互补的局部和全局空间信息。因此，我们使用增强后的分类特征来辅助生成更鲁棒的回归特征。首先，输入的回归特征F_reg经过全局平均池化层(AvgPool)和最大池化层(MaxPool)生成两个2D空间特征描述符。与之前的研究不同的是，空间特征描述符进行逐元素相加后被送入四个单层感知器(SLP)去分别学习不同的空间信息。网络输出4个不同空间特征分别使用Sigmod函数对进行归一化并和分类特征

相乘，最后累加生成回归注意力特征：

其中SLP_i和σ_i分别是第i个SLP头部和Sigmoid函数。SLP由一个填充为3的7×7卷积组成以保持输入、输出特征大小相同。最终的输出Si乘以相应的权重系数1,2,3和4，在我们的实验中简单地将其分别设置为1,1,1和0.05。

自适应可形变交叉对齐模块：

在本文提出的框架中，分类分数反映了搜索图像相应采样区域的目标存在的置信度。特征采样区域自适应目标的位移和变形，例如聚焦于目标区域，以提高跟踪器在复杂场景中的性能。如图3(a)和3(b)所示,先前的方法从一个固定的规则区域(R_f)采样或膨胀间隔采样(R_d),通常不能有效地覆盖目标或包含了过多的背景信息,不利于目标定位。图3(c)则展示了带有一个空间转换机制的自适应可形变交叉对齐模块，使得采样区域从固定区域Rf转化到自适应采样区域Ra(预测的目标边界框)。给定输入特征x，对齐特征y上每个位置u(dx,dy)的特征对齐变换被定义为：

上式中，R是核大小为k的标准卷积，具有固定规则采样网格

o∈O表示从规则的蓝色样本点{(dx,dy)+G}到自适应绿色采样点{(mx,my)+M}(如图3(c)所示)的2D距离偏移向量。位置(mx,my)为预测边界框的中心；

表示相对于(mx,my)新的自适应采样位置。

回归特征相比分类特征可学习到更多的目标空间尺寸信息，具有更好的目标全局特征描述。而分类特征对目标中心位置具有更强的鲁棒性，两种特征的结合又进一步提高分类精度。如图2，我们首先将输入的回归特征图和偏移量输入到可形变卷积中，对特征采样区域进行对齐，然后使用一个1×1卷积将输出特征通道减少到1。我们在实验中发现，将ADCA模块作为一个独立的分支进行训练，可以减少训练难度，提高实验效果。在推理过程中，我们结合分类分支和自适应形变交叉对齐模块的输出，以产生更可靠的分类置信度。

损失函数：

和

在实验中它们被经验性地设置为λ₁＝λ₂及λ₃＝1.1。

本文提出了无锚框的孪生网络框架SiamCross，实现了一个基于孪生网络分支协同交互的高性能跟踪器。为了使得孪生网络产生的特征更有区分性，从而增强目标感知能力，我们提出了一个基于分支监督的孪生交叉感知子网络，以提高跟踪器在复杂场景下的表现。为了获得更准确的跟踪结果，我们还提出了一种新型区域候选交互子网络。得益于并行交叉空间-通道注意力机制，RPN分支特征更关注局部或全局的空间信息，它们之间的交互又进一步提高了跟踪性能。SiamCross在5个流行的基准数据集(OTB2015、VOT2018/2019、GOT10k和LaSOT)上展现了具有相当竞争力的性能，并且跟踪速度达到36帧/秒，验证了其有效性和高效性。

Claims

1.一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于，包括以下步骤：

5)最后使用自适应可形变交叉对齐卷积模块ADCA获得更可靠的定位结果。

2.根据权利要求1所述的一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于：所述步骤1中的深度骨干网络为ResNet-50。

3.根据权利要求1所述的一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于：所述步骤2中的交叉感知模块具体构建过程为：

4.根据权利要求1所述的一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于：所述步骤4中PCA模块的具体构建过程为：

对于分类分支，对给定的特征

相乘，最后累加生成回归注意力特征。

5.根据权利要求1所述的一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于：所述步骤4中多任务损失函数计算具体如下：

和

6.根据权利要求1所述的一种面向计算机视觉应用的无锚框目标跟踪算法，其特征在于：所述步骤5中具体过程为：