CN113763417B

CN113763417B - 一种基于孪生网络和残差结构的目标跟踪方法

Info

Publication number: CN113763417B
Application number: CN202011439451.7A
Authority: CN
Inventors: 陈洪刚; 崔珂璠; 熊淑华; 何小海; 吴晓红; 王正勇; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-07-21
Anticipated expiration: 2040-12-10
Also published as: CN113763417A

Abstract

本发明公开了一种基于孪生网络和残差结构的目标跟踪方法，涉及计算机视觉和人工智能领域。方法包括：(1)分别输入作为跟踪目标的模板图像，和作为搜索范围的检测图像；(2)利用引入非对称残差注意力模块及自适应权值更新的SiameseRPN网络模型，分别提取获得目标的位置和外形；(3)将获得的目标位置信息和外形信息融合，得到最终的跟踪结果。本发明采用基于孪生网络和非对称残差结构的深度学习方法，能够准确地进行目标跟踪，有效提高了目标的跟踪准确率。

Description

一种基于孪生网络和残差结构的目标跟踪方法

技术领域

本发明涉及一种基于孪生网络和残差结构的目标跟踪方法，属于计算机视觉领域。

背景技术

目标跟踪是计算机视觉领域重要的研究方向，在很多实际应用中具有至关重要的地位，利用目标跟踪技术可以对视频序列中运动目标进行识别和跟踪。

目标跟踪算法早期使用光流法、mean-shif算法、CamShift算法等，但是这类算法的精度和速度逐渐无法满足人们的需求。受到信号处理的启发，相关滤波被应用到计算机视觉领域。研究者首次将相关滤波器的思想应用在目标跟踪领域,提出了最小输出误差平方和算法,通过快速傅里叶变换将时域中复杂的运算转化为频域中的点乘运算来进行滤波器模板的求解,因此可以快速地跟踪到目标,但是其对灰度特征的表征能力限制了其性能。随后研究者在MOSSE算法的基础上提出了KCF算法,利用循环矩阵采集正负样本,使用核函数提高分类器性能,并引入了HOG特征,极大地提高了跟踪器的性能。还有研究者从相关滤波响应图入手,对响应图进行多峰目标检测并提出高置信度的模型更新策略,避免了模型频繁更新导致跟踪速度变慢。

随后，由于深度学习在视频领域中的深入应用，目标跟踪也利用深度学习进行跟踪。HCF的提出，使用了VGG网络提取卷积特征,并结合了深层卷积特征语义信息和浅层卷积特征细节信息。MDNet提出了端到端的网络，从多个标注的视频序列中学习物体共享的表示,在测试时将最后的多个全连接层替换为一个全连接层并在线微调，并且取得了较好的效果。SINT算法最早将孪生网络引入目标跟踪算法中，随着SiamFC的提出，基于孪生网络的跟踪器迅速发展，并获得了很好的效果。

基于孪生网络的目标跟踪方法近年来得到了很多的研究，并且都获得了很好的效果，但是在真实场景中，受到场景光照变化、遮挡、目标形变、尺度变化等各种因素的影响，给实现鲁棒的目标跟踪带来了严峻的挑战。

发明内容

为了解决现有技术的不足，本发明提出了一种基于孪生网络和残差结构的目标跟踪方法，目的在于提高目标跟踪的定位精度。

本发明采用以下技术方案：一种基于孪生网络和残差结构的目标跟踪方法，

该方法包括以下步骤：

(1)分别输入作为跟踪目标的模板图像，和作为搜索范围的检测图像；

(2)利用引入非对称残差注意力模块及自适应权值更新的SiameseRPN网络模型，分别提取获得目标的位置和外形；

(3)将获得的目标位置信息和外形信息融合，得到最终的跟踪结果。

与现有技术相比，本发明的有益效果在：

1、本发明利用孪生网络获得目标外观，受到光照变化、尺度变化等影响因素较小，在遇到这些问题时仍可以准确的进行跟踪；

2、本发明对区域候选网络的网络结构进行改进，使其更好的提取特征，减少计算量，提高网络速度；

3、本发明加入非对称残差注意模块，更好的学习了输入目标的特征，增强了网络的鲁棒性，使得在背景变化等情况能更好更稳定地跟踪目标。

附图说明

图1为本发明跟踪方法算法图，a为算法框架，b为SiameseRPN结构图；

图2为本发明非对称残差注意力模块示意图；

图3为本发明与其他算法结果对比效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进一步详细说明。应当理解，此处所描述具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1中a所示，一种基于孪生网络和残差结构的目标跟踪方法，包括以下步骤：

详细步骤如下：

步骤1：首先将带有标注目标的跟踪图像和待跟踪的检测图像分别修改大小至127*127*3和255*255*3，然后分别送入ResNet网络进行特征提取。使用Pytorch框架搭建ResNet网络，结构如下：两幅127*127*3和255*255*3的图像分别作为模板图像和检测图像输入至网络，经过5层残差块，第一层残差块卷积核大小为7*7*64，步长为2；第二层卷积核为1*1*64、3*3*64、1*1*256、1*1*256，步长为1；第三层卷积核为1*1*128、3*3*128、1*1*512、3*3*512，步长为2；第四层为1*1*256、3*3*256、1*1*1024、3*3*1024，步长为1；第五层为1*1*512、3*3*512、1*1*2048、3*3*2048，步长为1；每一层卷积都含有批标准化、relu激活函数；将最后三层的输出送入SiameseRPN网络中。同时采用膨胀卷积增加感受野。在这里，ResNet网络的第4层和第5层卷积模块获得单位空间尺度变化，将最后两个残差块的步长去掉，有效步幅从16个像素和32个像素减少到8个像素。在每个块输出端附加一个额外的1*1卷积层，以将信道减少到256。由于所有层的填充都保持不变，模板特征的空间大小增加到15，这给相关模块带来了沉重的计算负担。因此，裁剪中心7*7区域作为模板特征，其中每个特征单元仍然可以捕获整个目标区域，这样后面三个残差块的分辨率就一致。

步骤2：将模板图像和检测图像所在分支的特征图像分别送入SiameseRPN中以获得分类结果和回归结果，SiameseRPN网络结构如图1中b所示。

将特征图输入到RPN网络中对其进行目标检测，对每一张图进行分类检测和定位框位置。在深层网络结构中，早期图层的特征主要集中在颜色，形状等低级信息上，对于本地化至关重要，因此才使用将前面的卷积特征图输出。

本发明对SiameseRPN进行了改进，将RPN模块中模板分支对应的网络修改为非对称残差注意力网络，该网络结构图如图2所示。

关于非对称残差注意力网络，具体说明如下：

非对称残差注意力模块中，每一个残差块由数个卷积核大小为3×3、1×3以及3×1的并行层组成，每一层都进行批处理归一化处理；非对称残差注意力模块包含两个下采样和两个上采样；注意力网络结构由多层注意力模块堆叠而成。

注意力模块能够使模块更专注于所需的特征图，获得跟踪所需不同层次的信息，如颜色、纹理等。但是如果单纯叠加注意力模块会导致模型性能下降，这是由于注意力模块分为两部分：掩膜分支(mask branch)和主干分支(trunk branch)，掩膜分支会为了输出权重归一的特征图，用Sigmoid作为激活函数，将输出归一化到0至1之间后与主干分支进行点乘会使得特征图的输出响应变弱，多层叠加会使得最终输出的特征图每个点上的值变得很小；掩膜分支输出的特征图可能会破坏主干分支的优点，会使得深层网络的梯度不能很好地回传。为了解决这个问题提出残差注意力网络，残差注意力网络包含数个堆积的注意力模块，每个模块专注于不同类型的注意力信息，增加更多的注意力模块可以提升网络的分类性能，基于不同深度的特征图可以提取额外的注意力模型。残差注意力模型可以结合到目前的大部分深层网络中，做到端到端训练结果，因为残差结构的存在，可以很容易将网络扩展到百数层。将得到的注意力特征图与主干特征图进行element-wised add，注意力输出为：

H_i,c(x)＝(1+M_i,c(x))*F_i,c(x) (1)

其中，x为输入，主干分支输出特征图为T_i,c(x)，掩膜M_i,c(x)取值在[0,1]区间内，F_i,c(x)是一个深层卷积神经网络输出的特征。

增加残差注意力网络的同时，会导致模型计算量和参数增加，同时对于图片旋转、翻转上鲁棒性降低，为了解决这个问题，在残差注意力中引入非对称卷积函数，标准的d×d对称卷积层可分解为包含d×1和1×d卷积核的连续两层，这样能够减少参数和所需的计算，并且对于翻转图像仍能正确提取特征。如果二维卷积核的秩为1，则运算可等价地转换为一系列一维卷积。然而，由于深度网络中下学习到的核具有分布特征值，其内在秩比实际中的高，因此直接将变换应用于核会导致信息损失。非对称卷积模块由三个卷积核大小为3×3、1×3以及3×1的并行层组成，每一层都进行批处理归一化处理，三个分支的输出汇总为非对称卷积模块的输出。这样以不对称卷积等效地融合到标准方形核层中的方式，不会引入额外的推理时间计算负担。非对称卷积使用一些与架构无关的结构来增强现有的模型，能够强化特征提取，实现效果提升的同时不增加计算量，提升模型对图像翻转的鲁棒性。

对于非对称残差注意力网络，给定输入特征图谱x，对其进行两次下采样，两次上采样，得到特征图谱M(x)，经过函数得到输出的掩模：

输出的掩模能够自适应地学习有效特征同时抑制住噪声因素，输出得到的非对称残差注意力模块P(x)公式如下所示：

P_i,c(x)＝(1+S_i,c(x))*x_i,c (3)

式中，i代表神经元的空间位置，c代表神经元的通道位置。同残差网络中的恒等映射类似，S(x)的输出范围为[0,1]，当S(x)接近0时，P(x)的输出接近原始的特征x。

三个RPN模块的输出尺寸具有相同的空间分辨率，因此可以直接对RPN输出进行加权求和，加权融合层结合了所有的输出，直接加权融合得到的结果并不能充分地表达特征，故采用自适应权值更新融合的方法来更好的学习特征，以突显出视频帧中更具鲁棒性的特征。

关于自适应权值更新，具体说明如下：

网络中使用ResNet中的第三、四、五层的输出特征来衡量模板分支和搜索分支的相似度，最后进行跟踪操作。

对于不同RPN模块输出的特征，获得的损失值越小则表明该特征下学习的滤波器性能越好，则应对该特征图提供更高的权重。

任一RPN输出的特征f对应的归一化的权重为：

F＝{rpn1,rpn2,rpn3}表示特征的集合，其中：{F-f}表示F中不同于f的另一特征。采用各自的RPN网络得到的特征图分别表示为：则特征图层面的特征融合采用如下的自适应加权方式实现：

网络损失函数为：

loss＝L_cls+λL_reg (7)

分类损失L_cls采用交叉熵损失，回归损失L_reg采用smooth L1损失，计算如下：

其中L₁(x)为

L₁(x)＝|x| (9)

步骤3：模板图像和检测图像的特征图，在回归分支和分类分支中，都首先分别经过一个卷积神经层，得到一样的空间分辨率和通道维度。该卷积神经层不对特征图进行通道升维，只是对两组特征图都进行了微调，使其维度对称。在经过卷积神经层之后，模板图像和检测图像的特征图进行depthwise的相关操作，即逐个通道的两者的分量之间进行相关操作，输出和通道数相等数量的得分图。最后，对于不同任务分支输出的相同分辨率和通道维度的得分图，再分别使用不同的1*1卷积进行维度调整，以获得不同任务对应的不同维度的输出，分类任务对应通道维度为2k的输出，回归任务对应通道维度为4k的输出。对于回归分支，输出的特征图上，每个特征点都对应其在原图中的感受野内的k个anchor，各个通道值即为这k个anchor各自的(x,y,w,h)；对于分类分支，输出的特征图上，每个特征点都对应其在原图中的感受野内的k个anchor，各个通道值即为这k个anchor里面各自的前后景分类分数。将分类分支和回归分支输出结果结合，即是检测图像的目标跟踪结果。

为了验证本发明方法的有效性，本发明使用目标跟踪领域常用的VOT2018公共数据集进行训练和测试。选取两种基于深度学习的目标跟踪方法作为对比方法，具体为：

方法1：Zhu等人提出的方法，参考文献“Z.Zhu,Q.Wang,B.Li,W.Wu,J.Yan,andW.Hu,"Distractor-aware siamese networks for visual object tracking,"inProceedings of the European Conference on Computer Vision(ECCV),2018,pp.101-117.”

方法2：Valmadre等人提出的方法，参考文献“J.Valmadre,L.Bertinetto,J.Henriques,A.Vedaldi,and P.H.Torr,"End-to-end representation learning forcorrelation filter based tracking,"in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2017,pp.2805-2813.”

如表1所示，本发明提出的方法以EAO、Accuracy、Robustness作为评价指标，与其他两个方法的比较来看，本发明方法EAO达到了0.4，Accuracy达到了0.587，在三者之间效果最好，Robustness为0.215，在三者之间达到了最低，说明本方法识别的准确率有较大的优势，鲁棒性也较好。

如图3所示为本发明方法与其他算法结果对比效果图，从图中可以看出当目标运动时，本方法能够正确跟踪出目标，方法1和方法2存在跟踪漂移的现象，对比效果图可以看出，本方法跟踪效果更佳。

表1与其他方法评价指标对比

最后应说明的是:以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于孪生网络和残差结构的目标跟踪方法，其特征在于，包括以下步骤：

其中，非对称残差注意力模块中，每一个残差块由数个卷积核大小为3×3、1×3以及3×1的并行层组成，每一层都进行批归一化处理；非对称残差注意力模块包含两个下采样和两个上采样；注意力网络结构由多层注意力模块堆叠而成，注意力模块包含主干分支和掩模分支，采用残差学习的方式，将得到的注意力特征图与特征图进行element-wisedadd，输出为：

H_i,c(x)＝(1+M_i,c(x))*F_i,c(x) (1)

其中，x为输入，F_i,c(x)是一个深层卷积神经网络输出的特征，掩模M_i,c(x)取值在[0,1]区间内；

给定输入特征图谱x，对其进行两次下采样，两次上采样，得到特征图谱M(x)，经过函数得到输出的掩模：

P_i,c(x) ＝ (1 + S_i,c(x)) * x_i,c (3)

式中，i代表神经元的空间位置，c代表神经元的通道位置；同残差网络中的恒等映射类似，S(x)的输出范围为[0,1]，当S(x)接近0时，P(x)的输出接近原始的特征x；

2.根据权利要求1所述的一种基于孪生网络和残差结构的目标跟踪方法，其特征在于，建立骨干网络进行特征提取，网络结构如下：

使用Pytorch框架搭建骨干网络，结构如下：两幅127*127*3和255*255*3的图像分别作为模板图像和检测图像输入至网络，经过5层残差块，第一层残差块卷积核大小为7*7*64，步长为2；第二层卷积核为1*1*64、3*3*64、1*1*256、1*1*256，步长为1；第三层卷积核为1*1*128、3*3*128、1*1*512、3*3*512，步长为2；第四层为1*1*256、3*3*256、1*1*1024、3*3*1024，步长为1；第五层为1*1*512、3*3*512、1*1*2048、3*3*2048，步长为1；每一层卷积都含有批标准化、relu激活函数；将最后三层的输出送入SiameseRPN网络中。

3.根据权利要求1所述的一种基于孪生网络和残差结构的目标跟踪方法，其特征在于，所述步骤(2)中SiameseRPN网络引入了自适应权值更新模块；

对于不同RPN模块输出的特征图，获得的损失值越小则表明该特征下学习的滤波器性能越好，则应对该特征图提供更高的权重；

任一RPN输出的特征f对应的归一化的权重为：

F＝{rpn1,rpn2,rpn3}表示特征的集合，其中：{F-f}表示F中不同于f的另一特征；采用各自的RPN网络得到的特征图分别表示为：则特征图层面的特征融合采用如下的自适应加权方式实现：

网络损失函数为：

loss＝L_cls+λL_reg (6)

其中L₁(x)为：

L₁(x)＝|x| (8)

smooth L1在x较小时，对x的梯度也会变小，而在x很大时，对x的梯度的绝对值达到上限1，不会太大以至于破坏网络参数。