CN113807188A

CN113807188A - 基于锚框匹配和Siamese网络的无人机目标跟踪方法

Info

Publication number: CN113807188A
Application number: CN202110958648.XA
Authority: CN
Inventors: 刘芳; 张帅超
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-17
Anticipated expiration: 2041-08-20
Also published as: CN113807188B

Abstract

本发明公开了基于锚框匹配和Siamese网络的无人机目标跟踪方法，包括以下步骤：搭建一个5层的Siamese网络和一个包含分类与回归两个分支的区域建议网络RPN，通过分类分支得到目标位置，通过回归分支得到目标尺度；将动态锚框匹配准则应用在训练阶段，用于优化分类任务与回归任务，使一个任务的预测能够动态的设计锚框样本用来改善另一个任务的模型，从而使得RPN的两个分支模型可以相互学习，更加快速准确的得到目标的位置与尺度；在跟踪阶段，先获取目标附近的前K个得分最高的候选框建立目标搜索库，再利用感兴趣区域(ROI)感知模型找出最可靠的预测框，降低复杂背景对跟踪算法的影响。本发明有效地提升了跟踪算法的精度，具有较好的鲁棒性。

Description

基于锚框匹配和Siamese网络的无人机目标跟踪方法

技术领域

本发明涉及一种视频目标跟踪方法，融合了图像处理、模式识别、人工智能、自动控制以及计算机等许多领域的先进技术，特别涉及一种锚框匹配和Siamese网络的无人机视频目标跟踪算法。

背景技术

视觉目标跟踪已经应用在许多领域中，尤其是在无人机领域。它已在无人机的空中侦察，空中飞机追踪和空中加油等任务上有着广泛的应用。由于无人机拍摄视角和飞行速度的不断改变，会造成目标周围存在相似物体以及被遮挡等复杂的情况。因此设计一个有效而鲁棒的无人机目标跟踪算法具有十分重要的意义。近年来，基于Siamese网络的跟踪器具有良好的跟踪精度和效率，不少学者开始采用Siamese网络框架进行无人机目标跟踪。然而，由于无人机所拍摄的视频范围广，目标小，含背景信息多，使得目标含有的特征信息少，易受到周围物体以及背景的干扰；另外，由于无人机的飞行高度以及在高空中所拍摄的角度的不同，易使目标出现尺度变化以及遮挡现象。因此，在无人机视频中进行目标跟踪要比在正常自然场景中进行目标跟踪困难的多，这都给无人机目标跟踪带来了一定的挑战性。SiamFC算法利用孪生网络直接学习目标模板和侯选目标的匹配函数，然后利用这个匹配函数比较目标模板和搜索区域的相似度，最后得到搜索区域的得分图，来获得跟踪目标的位置，该跟踪算法虽然在精度和速度上都取得了不错的效果，但是该算法仅使用单一的初始帧模板特征，目标一受到干扰，就容易出现漂移现象。为此，Morimitsu等提出用多种上下文特征来扩展SiamFC跟踪器，从深层网络中提取多个上下文和语义级别的特征，获取跟踪目标更加完备的特性描述，从而提高跟踪效果。该算法能够有效地从不同层中提取出互补特征，并在融合时显著提高模型的抗干扰性能。为了提高模型的抗干扰能力和泛化能力，Wang等提出了RASNet，该算法在Siamese网络的基础上，通过引入3种注意力机制(ResidualAttention、General Attention和Channel Attention),精确描述目标的外观轮廓，优先选择更加强有力的特征通道，再对其进行加权融和，并把注意力机制作为一个网络层嵌入Siamese网络中，从而提升模型的判别能力和抗干扰能力。但是，这类算法一方面增加了模型的训练负担，损失了大量的跟踪速度；另一方面，由于这类算法仅通过相似性函数得到搜索区域的得分图，获得目标的位置信息，并没有得到目标的尺度信息，导致算法的准确率下降。SiamRPN算法在Siamese网络的基础上引入RPN，将每一帧的跟踪转换为一次局部检测任务，另外，通过先验的锚框设置使得算法能够自适应尺度的变化，从而使得该算法获得了较高的精度和速度。然而，当目标周围有干扰物以及受到遮挡的时候，跟丢目标的概率依然很高。

综上所述，针对无人机视频中目标易受到遮挡、相似物干扰等问题，提出了一种基于锚框匹配和Siamese网络的无人机目标跟踪算法。首先，搭建一个5层的Siamese网络和一个包含分类与回归两个分支的区域建议网络，模板帧图像与检测帧图像经过Siamese网络后得到模板帧特征图与检测帧特征图，对这两个特征图进行指定通道维度的扩展，将其作为分类分支与回归分支的输入，在分类分支中进行卷积得到一个2维的响应图，用来做前景背景区分，获得目标的位置，在回归分支中进行卷积得到一个4维的响应图，用来调整锚框与真实框之间的偏移量，获得目标的尺度。其次，引入动态锚框匹配标准来动态地设计训练样本，优化模型的分类分支与回归分支，使分类分支的预测能够指导回归分支，同时，回归分支的预测也能够指导分类分支，从而来获取目标更加完备的语义信息。最后，在跟踪阶段，设计了ROI感知模型来抑制余弦窗惩罚后而造成的跟踪过程中出现漂移后对原目标分配的权值过小问题，从而进一步精确目标的位置。仿真实验结果表明：该算法有效地降低了相似物干扰以及遮挡对跟踪算法性能的影响，有效提升了算法的准确度。

现有的方法存在的不足：一方面，基于深度学习的跟踪算法在跟踪精度上有很大的提升，基本可以达到95％以上的精度，可是算法结构复杂度高，运算量大，不能满足高帧率无人机视频实时性的要求。另一方面，经典的跟踪算法对于特定目标的跟踪效果很好，而且可以达到实时性，但不具有泛化性，不能应用于各种场合中，且对于长时跟踪、相似物体干扰、遮挡等问题解决不好，容易导致跟踪失败。

发明内容

本发明针对无人机视频中目标易受到遮挡、相似物干扰等问题，设计一种基于锚框匹配和Siamese网络的无人机目标跟踪算法，结合动态锚框匹配策略、Siamese网络和区域建议网络构建了Siamese网络模型，通过此网络可以获取目标更加鲁棒的特征信息。根据所获得的含丰富语义信息的目标特征来进行相似性匹配，从而来获得更加精确的目标位置与尺度。同时设计了ROI感知模型来找出最可靠的预测框，降低了复杂背景对跟踪算法的影响。

为达到上述目的，本发明提出基于锚框匹配和Siamese网络的无人机目标跟踪算法，包括以下步骤：

S1：选取大量无人机采集的跟所要跟踪目标有关的图像序列，并离线预训练一个Siamese网络，网络包含一个用于特征提取的骨干网络和一个包含分类与回归的区域建议网络，训练方法如下：

S1.1：设计了由五层卷积层组成的孪生网络和一个区域建议网络，孪生网络的上面为模板分支下面为检测分支，构造有效的损失函数，设计了动态锚框匹配策略在训练过程中进行正负样本的设计，设计了针对于每个分支的损失函数；

S1.2：采用两个分支的加权损失作为对于整个网络的整体损失，并采用SGD算法进行网络权重优化，保留训练的模型参数，用于跟踪阶段；

S2：将视频转化为图像帧输入系统，并读入第1帧；

S3：利用模板分支提取第1帧目标图像特征

之后经过卷积运算分别上采样到2k个通道和4k个通道，分别作为检测分支分类任务与回归任务的核滤波；

S4：读取下一帧，利用检测分支提取当前帧图像中搜索区域的图像特征

之后扩展为两个分支任务特征图，分别与预计算出的起始帧两个核滤波做卷积运算，得到每个锚框相应的得分与偏移量；

S5：对预设定的锚框进行距离惩罚，抛弃那些距离中心点过远的锚框；

S6：利用所保留的锚框以及结合网络输出的锚框偏移量来获得建议框；

S7：利用余弦窗和惩罚项对保留下来的锚框分数重新排序得到分数最高的一个侯选锚框，同时添加余弦窗来抑制大的距离位移，并且对分数添加惩罚项来抑制尺寸和尺度上大的变化；

S8：对分类得分进行重新排序，然后利用ROI感知模型来选择最终的作为当前帧的跟踪预测框，ROI感知模型操作过程如下：

S8.1：利用ROIAlign得到初始帧中目标的ROI特征Z_roi；

S8.2：选择分类得分中前K个最高得分，并且对相应的目标框进行nms过滤，得到上一帧预测目标中心附近的所有目标的最佳检测框；利用ROIAlign得到这些检测目标的ROI特征集X_roi；

S8.3：将Z_roi与特征集X_roi依次进行相似度计算，相似度计算函数采用曼哈顿距离，得到最相似的建议框为下一帧的目标框；

S9：利用线性插值法更新目标尺寸，保持平滑变化；

S10：重复S4-S9直到处理完全部无人机视频帧图像，得到并输出视频跟踪结果。

有益效果

根据本发明针对无人机视频中目标易受到遮挡、相似物干扰等问题，需要跟踪目标更多的上下文和语义级别的特征以供算法预测目标，结合动态锚框匹配策略和Siamese网络构建了Siamese网络模型。动态锚框匹配策略用于优化网络的分类任务与回归任务，使一个任务的预测能够动态的设计锚框样本用来改善另一个任务的模型，从而使得RPN的两个分支模型可以相互学习，更加快速准确的得到目标的位置与尺度。根据所构建的网络模型进行训练，得到了跟踪目标更加完备的特性描述，从而提升了预测准确度和精确度。同时设计了ROI感知模型来获取最可靠的预测框，降低周围背景对网络性能的影响。仿真实验表明，所提算法在遮挡、相似物干扰、尺度变化、背景干扰等场景下具有较好的性能，能够较好地处理这些视频，并对于其他场景下的测试视频，所提算法的性能也是较好的，这也充分验证所提算法在跟踪准确性、稳定性和鲁棒性方面具有优异的整体性能。其中的主要原因是采用了动态锚框匹配策略来获取更加可靠的训练样本，从而使得网络学习到更加鲁棒的目标特征，同时结合ROI感知模型抑制了余弦窗惩罚后而造成的跟踪过程中出现漂移后对原目标分配权重过小的问题，能够更好地处理目标受到遮挡以及相似物干扰等问题，整体效果相比于SiamRPN提升大约8％。

附图说明

本发明上述和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例的一个锚框匹配策略示意图。

图2为本发明一个实施例的一个Siamese网络模型示意图。

图3为本发明一个实施例的一个ROI感知模型示意图。

图4为本发明实施的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的原件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图2所示，根据本发明基于锚框匹配和Siamese网络的无人机目标跟踪方法，包括以下几个步骤：

跟踪网络是由两部分组成的，如图2所示，包含一个Siamese网络用来提取特征和一个RPN用来生成建议框。Siamese网络包含两个分支：一个为模板分支，以过去帧(命名为z)作为输入；另一个为检测分支，以当前帧(命名为x)作为输入。这两个分支共享骨干网络的参数，其输出分别命名为

和

后一部分为RPN网络，该部分网络也包含两个分支，一个为分类分支，用来分类前景与背景，另一个为回归分支，用来回归出偏移量。假设设置k个锚框，则对于分类分支，输出图有2k个通道；对于回归分支，输出图有4k个通道。为了有效利用前一部分骨干网络的输出，将模板分支输出的特征图

通道增加到2k和4k,分别用于分类任务与回归任务，其分别命名为

和

而对于检测分支输出特征图

将它扩展为两个分支

和

其通道数保持不变。然后利用互相关操作可以分别计算得到分类分支与回归分支的特征图。

对于正负样本的设计，如图1所示，采用动态锚框匹配策略，动态锚框匹配策略包含两个部分：回归优化分类、分类优化回归。回归优化分类：利用网络回归得到的预测框与真实框之间IOU(IOU-G)来设计锚框标签用来优化分类任务。与IOU-A类似，将IOU-G与给定的阈值进行比较，高于正样本阈值的作为正样本，低于负样本阈值的作为负样本。设计一个动态阈值，将IOU-A选择的样本数量可以作为动态设计阈值的参考值。为了样本的平衡与训练的稳定，选择正样本的数量最多不超过16个，总样本数量最多不超过64个。将IOU-A选择的正样本数记为Np，可忽略样本数记为Ni，在IOU-G中，将第Np个IOU值作为正样本的阈值，将Np+Ni个IOU值作为负样本的阈值。分类优化回归：结合IOU设计新的样本选择标准(IOU-P)：

式中，δ是调整放大程度的超参，p代表前景得分Classifscore，利用动态阈值设置策略来选择正锚框样本来优化回归任务，其正锚框数量与回归优化分类标准锚框数量一致。基于IOU-P，最高得分的Np个锚框作为正样本。结合两个策略的推荐样本计算其交集，得到最终用于整个网络端到端训练的动态样本。

损失函数包含分类损失与回归损失两部分，对于分类分支的损失函数采用交叉熵损失。而对于回归损失，采用CIOUloss：L_CIOU＝1-IOU+R_CIOU，式中R_CIOU＝ρ²(b,b^gt)/c²+αv为惩罚项，ρ(·)表示欧式距离，b和b^gt分别表示预测框和目标框的中心点，c表示预测框和目标框的最小外界矩形的对角线距离。αv作为一个影响因子。v是衡量长宽比一致性的参数，v＝4/π²[arctan(w^gt/h^gt)-arctan(w/h)]²，α是一个平衡参数，α＝v/(1-IOU)+v。最后设计总的损失函数为：loss＝L_cls+λL_reg。

卷积网络的参数θ使用SGD(Stochastic Gradient Descent)即随机梯度下降优化算法对损失进行优化计算：

网络分为2个输入，一个输入模板帧图像，大小为127×127×3，另一个输入当前帧搜索区域图像，大小为255×255×3，搜索区域为上一帧目标大小的4倍。

S2：将视频转化为图像帧输入系统，并读入第1帧；

S3：利用模板分支提取第1帧目标图像特征

在分类特征图上仅保留离中心点距离为8的锚框，也即保留g×g×k个锚框。我们假设L为这些锚框的索引。分类和回归特征图用点集表示：

式中，i∈[0,w),j∈[0,h),l∈[0,2k)，

式中，i∈[0,w),j∈[0,h),p∈[0,k)分类特征图含有2k个通道，奇数通道表示前景得分，偶数通道表示背景得分，给定一个奇数l，则满足筛选要求的分类点集为

代表着保留锚框的索引集。i,j表示每一个像素的位置，l代表一个像素位置上不同比率的锚框。同理，可以得到相应的锚框集

得到回归集为

根据S5中的集合变量，求出建议框集：

式中，

S8.1：利用ROIAlign得到初始帧中目标的ROI特征Z_roi；

ROI感知模型是利用ROI来改进跟踪策略。其具体做法是如图3所示，首先利用ROIAlign得到初始帧中目标的ROI特征，给之命名为Z_roi。然后对惩罚后的网络预测得分进行选择，选取前K个最高得分，随后，对上一步选择的K个建议得分对应的目标框进行nms过滤，则可以得到上一帧预测目标中心附近的所有目标的最佳检测框，如图3中的当前帧输入，然后再对这些检测框同时利用ROIAlign得到各个检测目标的ROI特征集，命名为集合

最后利用这些特征与Z_roi进行相似度计算，在这里相似度函数采用曼哈顿距离。最后得到的最相似的建议框即为下一帧的目标框。

S9：利用线性插值法更新目标尺寸，保持平滑变化；

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改替换和变形，本发明的范围有所附权利要求及其等同限定。

Claims

1.基于锚框匹配和Siamese网络的无人机目标跟踪方法，其特征在于：该方法包括以下步骤，

S2：将视频转化为图像帧输入系统，并读入第1帧；

S3：利用模板分支提取第1帧目标图像特征

S8：对分类得分进行重新排序，然后利用ROI感知模型来选择最终的作为当前帧的跟踪预测框；

S9：利用线性插值法更新目标尺寸，保持平滑变化；

2.根据权利要求1所述的基于锚框匹配和Siamese网络的无人机目标跟踪方法，其特征在于：S1中，S1.1：设计由五层卷积层组成的孪生网络和一个区域建议网络，孪生网络的上面为模板分支下面为检测分支，构造有效的损失函数，设计了动态锚框匹配策略在训练过程中进行正负样本的设计，设计了针对于每个分支的损失函数；

S1.2：采用两个分支的加权损失作为对于整个网络的整体损失，并采用SGD算法进行网络权重优化，保留训练的模型参数，用于跟踪阶段。

3.根据权利要求1所述的基于锚框匹配和Siamese网络的无人机目标跟踪方法，其特征在于：ROI感知模型操作过程如下：S8.1：利用ROIAlign得到初始帧中目标的ROI特征Z_roi；

S8.3：将Z_roi与特征集X_roi依次进行相似度计算，相似度计算函数采用曼哈顿距离，得到最相似的建议框为下一帧的目标框。