CN111192291B

CN111192291B - 一种基于级联回归与孪生网络的目标跟踪方法

Info

Publication number: CN111192291B
Application number: CN201911242648.9A
Authority: CN
Inventors: 陆生礼; 庞伟; 杨文韬; 狄敏; 姚志强
Original assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Southeast University
Current assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Southeast University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2022-11-11
Anticipated expiration: 2039-12-06
Also published as: CN111192291A

Abstract

本发明公开了一种基于级联回归与孪生网络的目标跟踪方法，在第一帧，将指定的目标图像及以目标图像为中心构建的搜索区域分别输入以孪生网络构成的特征提取网络，分别得到目标图像与搜索区域的特征图。将得到的不同层次的特征图按设计的Attention机制融合，并一同输入到后续的级联区域推荐网络之中。经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息，并得到锚框的预测得分图。通过非极大值抑制以及添加余弦窗等操作筛选出得分最高的锚框，并根据回归的得到的位置信息得到最终的预测框。本发明与传统算法相比上述算法具有精度高，鲁棒性强以及运行效率高的优点。

Description

一种基于级联回归与孪生网络的目标跟踪方法

技术领域

本发明属于深度学习和计算机视觉领域，特别是指一种基于级联回归和孪生网络的图像跟踪方法。

背景技术

目标跟踪算法作为计算机视觉领域的重要研究方向之一，历年来都有许多学者对其展开了大量的工作，当前已经取得了一定的进展。但是，在复杂环境中涉及到目标外形剧烈变化、光照变化、快速运动、运动模糊、背景相似干扰、平面内外旋转、尺度变换、遮挡和超出视野等难题，这使得复杂环境稳定准确的目标跟踪仍是一个具有挑战性的任务。

传统的目标跟踪算法主要包括结合人工设计特征的生成类算法和相关滤波方法。这些方法取得了一定的效果，但依旧存在速度慢、鲁棒性差等缺点。近些年随着深度学习的快速发展，基于卷积神经网络的跟踪算法取得了相当优异的表现，弥补了之前算法的不足。尤其是其在速度与性能之间取得了较好的平衡，并且充分利用大量数据进行训练的特点为其带来了巨大的优势。其中孪生网络凭借其简洁的实现方式尤其适合部署在近期迅猛发展的硬件加速结构上。然而此类算法由于缺少在线跟新等原因，在面对物体形变、光照变化、长期跟踪的复杂情况时依旧存在相当的改进空间。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于级联回归与孪生网络的目标跟踪方法，用以解决当前算法难以应对跟踪期间遭遇的物体形变、光照变化、遮挡等复杂情况的问题。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于级联回归与孪生网络的目标跟踪方法，包括以下步骤：

步骤1：在第一帧，将指定的目标图像及以目标图像为中心构建的搜索区域输入孪生网络中，分别得到各自的特征图；

步骤2：将步骤1得到的特征图通过Attention机制进行通道间的融合，随后送入到级联区域推荐网络之中；

步骤3：经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息，并计算得到锚框的预测得分图；通过预测得分图及位置预测信息得到最终预测框；

在所述步骤3中的级联区域推荐网络包括以下步骤：

步骤31：首先根据孪生网络得到的特征图尺寸生成若干个对应的、不同大小及长宽比例的预设锚框；

步骤32：将目标图像和搜索区域的特征图分别做一次卷积操作并分别得到两组不同的特征图，将对应的特征图两两进行互相关计算，并分别通过一次卷积用以得到锚框的类别和形状的预测；以上为第一级区域推荐网络；

步骤33：将已经进行回归过的锚框作为预设锚框输入第二级区域推荐网络，重复步骤32的操作，得到最终预测框。

在所述步骤33中得到最终预测框的步骤包括：对预测特征图施加余弦窗，并根据锚框形变程度计算惩罚因子，并计算得到预测得分；最后通过非极大值抑制选出最终预测框；

惩罚因子的计算公式为：

其中k为超参数，r为初始锚框的长宽比，r′为回归过后的锚框长宽比。(w+p)*(h+p)＝s²,p＝(w+h)/2，其中w与h分别代表锚框的宽与高。

得分计算公式为S＝score_{_pred}*Penalty*(1-k_{_cos})+cos_win*k_{_cos},其中score_{_pred}为网络输出的类别预测结果，k_{_cos}为余弦窗影响因子，cos_win为施加的余弦窗参数；

步骤4：在下一帧，以预测框为中心构建搜索区域，并通过步骤1-步骤3进行新一轮的预测，实现在连续图像序列的目标跟踪。

优选的：所述孪生网络由两个共享参数的全卷积网络构成。

优选的：步骤1中选取孪生网络中最后若干层的网络输出构成最终的特征信息。

优选的：所述步骤2中通过Attention机制进行通道间的融合方法：目标图像可由特征提取网络中不同的卷积层计算得到数组不同的特征图；每组特征图中包含若干通道，对于任意通道i，首先对该通道的特征图做最大池化操作，然后将池化后的参数输入到多层感知机中，最后经过Sigmoid函数得到该通道对应的权重参数ζ_i；将每通道的特征图与对应的权重参数相乘，随后对该组特征图做1*1卷积，保持通道数不变，完成通道间的融合。

本发明相比现有技术，具有以下有益效果：

本发明提供了一种基于孪生网络与级联回归的图像目标跟踪方法，该算法以孪生网络以及级联区域推荐算法为框架，利用大规模视频图像数据训练网络参数，并设计了Attention机制融合了不同卷积层的输出特征以充分利用目标图像的外观及语义信息，且无需在线更新算法模型。与传统算法相比上述算法具有精度高，鲁棒性强以及运行效率高的优点。

附图说明

图1是本发明所提出的目标跟踪方法网络结构示意图。

图2是本发明所提出的Attention机制原理示意图。

图3是本发明所提出的级联区域推荐网络结构示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示为本发明提出的一种基于孪生网络与级联回归的图像目标跟踪方法示意图。在该实例中模板图像大小为127*127，搜索区域大小为271*271，特征提取网络由五层卷积构成，并利用最后三层的特征信息进行后续推断，级联区域推荐网络层数为三层，所述目标跟踪方法包括：

S1：设计全卷积的孪生网络用于提取跟踪模板与搜索区域的特征，将给定的模板图像及以模板图像为中心构建的搜索区域输入到该网络中，可以分别提取对应的特征信息，用于后续的预测。

S2：将通过特征提取网络得到模板特征通过Attention机制进行通道间的融合。如图2所示，该机制的实现方式是通过对每一通道的特征图进行池化操作，得到固定数量的参数，之后将这些参数分别输入一个由全连接网络构成的多层感知机，从而得到对应通道的权重参数。

S3：将上述步骤得到的特征信息输入到第一级区域推荐网络中，进行互相关计算用以预测目标的形状及位置信息。其具体方法为：对得到的特征图分别进行一次卷积各自得到两个分支，对应分支的特征图通道数相同，将模板图像的特征图作为卷积核与搜索区域的特征图做逐通道卷积。再经过一次卷积计算分别的到各个锚框的形状及位置预测。

S4：如图3所示该级联区域推荐网络实施方法为，将修正过后的锚框作为预设锚框输入下一级区域推荐网络中，重复步骤三中的操作得到新的预测结果。该步骤中可以根据实际的性能需求设计级联的区域推荐网络层数，并得到最终的预测结果。

S5：根据步骤四中的预测结果筛选出最终的预测框。其中筛选的方法具体为：首先剔除搜索区域边缘的锚框，只选择搜索区域中心距离小于等于7的锚框作为待选锚框。然后通过余弦窗和计算惩罚因子得到锚框的最终得分，并通过非极大值抑制选取最终的锚框，作为最终的预测信息。

惩罚因子的计算公式为：Penalty＝exp(k*max(r/r^',r^'/r)*max(s/s^',s^'/s)),其中k为超参数，r为初始锚框的长宽比，r^'为回归过后的锚框长宽比。(w+p)*(h+p)＝s2,p＝(w+h)/2，其中w与h分别代表锚框的宽与高。

得分计算公式为S＝score_pred*Penalty*(1-k_cos)+cos_win*k_cos,其中score_pred为网络输出的类别预测结果，k_cos为余弦窗影响因子，cos_win为施加的余弦窗参数。

S6：在下一帧中将上一帧中得到的预测结果作为模板图像，重复上述的预测过程，实现在连续图像序列的目标跟踪。

其次，本方法采用大规模图像数据集对网络进行端到端的训练，其具体流程包括：

T1：使用图像分类数据集对特征提取网络进行预训练，训练完成后去除网络末端的全连接层，连接区域推荐网络。

T2：选取一段视频内包含同一物体的两张不同帧，通过剪裁与缩放建立模板图像—搜索区域的图像对。将其输入到网络中，通过构建的损失函数与反向传播算法对网络进行训练。

T3：本方法采用级联区域推荐网络，因此对各级区域推荐网络逐一训练。在训练过程中，通过判断与标定框的交并比选取正负样本，在第一级网络中交并比大于0.65的视为正例，在第二级网络中交并比大于0.7的视为正例，在第三级网络中交并比大于0.75的视为正例，交并比小于0.3的视为负例。

本发明在第一帧，将指定的目标图像及以目标图像为中心构建的搜索区域分别输入以孪生网络构成的特征提取网络，分别得到目标图像与搜索区域的特征图。将得到的不同层次的特征图按设计的Attention机制融合，并一同输入到后续的级联区域推荐网络之中。经过级联区域推荐网络之后得到各个锚框的分类及位置预测信息，并得到锚框的预测得分图。通过非极大值抑制以及添加余弦窗等操作筛选出得分最高的锚框，并根据回归的得到的位置信息得到最终的预测框。在下一帧，以预测框为中心构建搜索区域，并通过上述方法进行新一轮的预测。该算法以孪生网络以及级联区域推荐算法为框架，利用大规模视频图像数据训练网络参数，并设计了Attention机制融合了不同卷积层的输出特征以充分利用目标图像的外观及语义信息，且无需在线更新算法模型。与传统算法相比上述算法具有精度高，鲁棒性强以及运行效率高的优点。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于级联回归与孪生网络的目标跟踪方法，其特征在于，包括以下步骤：

在所述步骤3中的级联区域推荐网络包括以下步骤：

惩罚因子的计算公式为：

2.根据权利要求1所述基于级联回归与孪生网络的目标跟踪方法，其特征在于：所述孪生网络由两个共享参数的全卷积网络构成。

3.根据权利要求2所述基于级联回归与孪生网络的目标跟踪方法，其特征在于：步骤1中选取孪生网络中最后若干层的网络输出构成最终的特征信息。

4.根据权利要求3所述基于级联回归与孪生网络的目标跟踪方法，其特征在于：所述步骤2中通过Attention机制进行通道间的融合方法：目标图像可由特征提取网络中不同的卷积层计算得到数组不同的特征图；每组特征图中包含若干通道，对于任意通道i，首先对该通道的特征图做最大池化操作，然后将池化后的参数输入到多层感知机中，最后经过Sigmoid函数得到该通道对应的权重参数ζ_i；将每通道的特征图与对应的权重参数相乘，随后对该组特征图做1*1卷积，保持通道数不变，完成通道间的融合。