CN112446900A

CN112446900A - 孪生神经网络目标跟踪方法及系统

Info

Publication number: CN112446900A
Application number: CN201910829033.XA
Authority: CN
Inventors: 李荅群; 陈小林; 吴志佳; 王雨青
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-03-05
Anticipated expiration: 2039-09-03
Also published as: CN112446900B

Abstract

本发明涉及一种孪生神经网络目标跟踪方法，包括：将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中；利用所述孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到三个卷积块的特征图；对特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图；在多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。本发明还涉及一种孪生神经网络目标跟踪系统。本发明能够得到语义信息更加丰富的深度特征，提高跟踪精度并能更好地利用深层网络的优势。

Description

孪生神经网络目标跟踪方法及系统

技术领域

本发明涉及一种孪生神经网络目标跟踪方法及系统。

背景技术

作为计算机视觉领域中的一个重要方向，目标跟踪一直以来都受到学者们的高度关注。并且，在视频监控、增强现实和人机交互等领域中具有很广泛的应用。虽然，在最近的研究过程中跟踪算法的性能已经得到了提升，但是，由于光照变化、遮挡和相似干扰等复杂场景的存在，目标跟踪任务依旧充满了挑战。

近年来，随着深度卷积神经网络的引入，自适应提取的语义信息丰富的高维特征使目标跟踪算法获得了很大的提升。但是，由于深度神经网络结构的复杂性及卷积特征的高维性，使得跟踪算法的端到端训练和在线微调变得尤为复杂。同时，深度神经网络中计算量的大幅增加会导致跟踪速度的减慢，即使算法满足了精度的要求也无法达到实时性的要求。为了解决这些问题，基于孪生神经网络的目标跟踪算法获得了较快的进展。

BERTINETTO等最先提出了全卷积孪生神经网络(SiamFC)。算法结合两个具有相同参数的卷积神经网络，通过离线训练的方式学习一种高性能的相似性度量函数，从而进行实时准确的在线跟踪。并且，采用卷积层将网络中的全连接层进行替代，使得网络能够实现端到端的训练，且搜索模块不再受尺寸的限制。在SiamFC之后，开展了很多后续的研究工作。Tao等使用孪生神经网络分别对模板模块和搜索模块进行特征提取。为了提高跟踪精度，算法减少了最大池化层的使用，并采用感兴趣区域池化层(ROI pooling)来减少特征提取的复杂度。同时，为了提高算法的性能，采用光流法对需要搜索的候选样本进行滤除，保证采样机制的自适应性。Held等将孪生网络作为特征提取器，并运用全连接层融合张量。在跟踪过程中，算法采用一种的回归的方式进行处理，将上一帧与当前帧的图像剪裁后输入到离线训练好的网络中，继而计算出当前帧目标的位置。Valmadre等将相关滤波器融入到模板分支中，使得孪生神经网络在浅层网络结构的条件下变得更加高效。不仅提升了网络在较浅层结构下的跟踪性能，还能将深度特征与相关滤波器完美结合。Li等为了在保证跟踪器优越性能的同时进一步提升处理速度，将区域生成网络(Region Proposal Network,RPN)与孪生网络相结合，不仅能够利用大尺度的图像进行端到端的离线训练，还能优化传统多尺度测试及在线微调带来的计算复杂的问题，大大提高了算法的运行速度。

虽然，上述的算法能够在保证实时性的同时，充分利用深度特征提高算法的精度与鲁棒性。但是，采用的网络结构都是浅层网络，无法充分利用深度神经网络带来的优势。而且，如果直接使用VGG等深度网络，边缘填充、网络步长较大和神经元感受野的大幅度增加，会直接影响目标特征的可辨识性及定位精度，不利于目标的精确定位。同时，上述算法在离线训练后，网络参数和模板都是固定的，虽然这种方式会大幅度提升算法的处理速度，减少计算复杂度，但是当遇到遮挡和相似目标干扰等复杂场景时，算法精度会出现下滑。

发明内容

有鉴于此，有必要提供一种孪生神经网络目标跟踪方法及系统。

本发明提供一种孪生神经网络目标跟踪方法，该方法包括如下步骤：a.将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中；b.利用所述孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到Layer2、Layer3和Layer4三个卷积块的特征图；c.对上述特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图；d.在上述多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。

其中，所述的步骤b包括：所述Layer3和Layer4的步长为1。

所述的步骤b还包括：将所述Layer2、Layer3和Layer4三个卷积块的特征图进行裁剪，裁剪后的特征图尺寸分别为8×8和24×24。

所述的步骤c包括：采用APCE对各响应图进行质量评估，并将评估得分进行归一化处理，作为各层响应图的权重，

其中，R_max，R_min和R_w,h分别代表响应图R中的最大值、最小值和第w行，h列的值。

所述的步骤c还包括：在得到各响应图的评分数后，进行层级加权融合，加权公式如下：

其中，

为各层响应图的归一化权重，Res_i为进行卷积加权后的第i个响应图。

本发明提供一种孪生神经网络目标跟踪系统，该系统包括输入模块、提取模块、融合模块、定位模块，其中：所述输入模块用于将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中；所述提取模块用于利用所述孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到Layer2、Layer3和Layer4三个卷积块的特征图；所述融合模块用于对上述特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图；所述定位模块用于在上述多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。

其中，所述的提取模块具体用于：将Layer3和Layer4的步长设为1。

所述的提取模块还具体用于：将所述Layer2、Layer3和Layer4三个卷积块的特征图进行裁剪，裁剪后的特征图尺寸分别为8×8和24×24。

所述的融合模块具体用于：采用APCE对各响应图进行质量评估，并将评估得分进行归一化处理，作为各层响应图的权重，

所述的融合模块还具体用于：在得到各响应图的评分数后，进行层级加权融合，加权公式如下：

其中，

本发明一种孪生神经网络目标跟踪方法及系统，基于深度特征与多层信息融合，在SiamFC的基础上采用残差网络对原有的浅层网络进行替代，从而得到语义信息更加丰富的深度特征。为了消除深层网络中填充处理对目标定位造成的不利影响，对卷积层提取的特征图进行了剪切操作，采用多层信息融合的方式对多个响应图进行了加权合并，从而提高跟踪精度并能更好地利用深层网络的优势。

附图说明

图1为本发明孪生神经网络目标跟踪方法的流程图；

图2为本发明实施例提供的跟踪示意图；

图3为本发明实施例提供的多层信息融合示意图；

图4为本发明孪生神经网络目标跟踪系统的硬件架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

参阅图1所示，是本发明孪生神经网络目标跟踪方法较佳实施例的作业流程图。请一并同时参阅图2。

步骤S1，将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中。其中：

所述模板分支图像、所述搜索区域分支图像均为提前做过预处理的数据，尺寸分别固定为127×127像素和255×255像素。

步骤S2，利用所述孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到Layer2、Layer3和Layer4三个卷积块的特征图。

所述孪生神经网络的结构如表1所示：

表1

其中，层结构中卷积层和卷积块(Conv和Layer)的数据顺序为核尺寸、通道数、步长和边缘填充数，池化层(Maxpool)的数据顺序为核尺寸、步长和边缘填充数，XCorr代表交叉相关。

所述孪生神经网络的结构优势主要有以下三个方面：

(1)Layer3和Layer4的步长为1。与分类任务不同，网络中的步长增大会使得定位精度下降，从而影响跟踪精度。同时，为了使交叉相关计算后的响应图尺寸为17像素×17像素，且方便之后的多层信息融合，最后两个卷积块的步长设为1。

(2)增加了特征图裁剪操作。由于模板分支图像与搜索区域分支图像，在经过Layer2、Layer3和Layer4三个卷积块后得到的特征图尺寸分别为16像素×16像素和32像素×32像素。这样不仅增加了交叉相关计算的运算量，还将边缘填充所引入的背景信息结合到计算中，不利于目标的精确定位。为此，本实施例将所述Layer2、Layer3和Layer4三个卷积块的特征图进行裁剪，裁剪后的特征图尺寸分别为8像素×8像素和24像素×24像素，从而提高网络的定位精度。

(3)对所述Layer2、Layer3和Layer4三个卷积块分别进行交叉相关计算。将裁剪后的Layer2、Layer3和Layer4分别进行交叉相关计算，从而得到三个尺寸为17像素×17像素的响应图。结合三个响应图，可以进行多层信息融合，更好地利用深层网络的优势，提高跟踪器的跟踪精度。

步骤S3，对上述特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图。

为了更好地利用深度网络的优势，提高跟踪器的定位精度，本实施例采用多层信息融合的方式，将三个卷积块交叉相关计算后的多个响应图进行融合，请一并参阅图3。具体而言：

Conv2、Conv3和Conv4为1×1大小，通道数为1的卷积核，主要用来对三个响应图进行像素级加权。为了能自适应的将各层的响应图进行层级加权，采用APCE(average peak-to-correlation energy)对各响应图进行质量评估，并将评估得分进行归一化处理，作为各层响应图的权重。

其中，R_max，R_min和R_w,h分别代表响应图R中的最大值、最小值和第w行，h列的值。APCE能够反映响应图的波动程度与检测目标的置信度。其值越大，代表响应图峰值越高，噪声就越小。

在得到各响应图的评分数后，进行层级加权融合，加权公式如下：

其中，

为各层响应图的归一化权重，Res_i为进行卷积加权后的第i个响应图。从图3中可以看出，融合后的响应图明显比各层单独的响应图峰值更明显，噪声更小，质量更高。

步骤S4，在上述多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。具体而言：

在多层信息融合得到的响应图中通过滑动窗遍历搜索来寻找最大峰值，并结合网络结构总体步长和尺度变换因子将峰值映射到搜索区域分支图像中，搜索区域分支图像中的位置即为目标的精确位置。

为了解决目标尺度变化的问题，本实施例将映射的尺度估计规定为1.0375^{-1,0,1}三种。

参阅图4所示，是本发明孪生神经网络目标跟踪系统10的硬件架构图。该系统包括：输入模块101、提取模块102、融合模块103、定位模块104。

所述输入模块101用于将模板分支图像与搜索区域分支图像输入到离线训练过的孪生神经网络中。其中：

所述提取模块102用于利用所述孪生神经网络中的卷积层对上述输入的模板分支图像与搜索区域分支图像进行特征提取，得到Layer2、Layer3和Layer4三个卷积块的特征图。

所述孪生神经网络的结构如表1所示：

表1

所述孪生神经网络的结构优势主要有以下三个方面：

所述融合模块103用于对上述特征提取得到的三个卷积块的特征图，采用多层信息融合得到响应图。

其中，

所述定位模块104用于在上述多层信息融合得到的响应图中寻找最大峰值，并映射到搜索区域分支图像中确定目标的精确位置。具体而言：

所述定位模块104在多层信息融合得到的响应图中通过滑动窗遍历搜索来寻找最大峰值，并结合网络结构总体步长和尺度变换因子将峰值映射到搜索区域分支图像中，搜索区域分支图像中的位置即为目标的精确位置。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。