CN113706581B

CN113706581B - 基于残差通道注意与多层次分类回归的目标跟踪方法

Info

Publication number: CN113706581B
Application number: CN202110931701.7A
Authority: CN
Inventors: 于俊洋; 左梦乐; 祝旭阳
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2024-02-20
Anticipated expiration: 2041-08-13
Also published as: CN113706581A

Abstract

本发明公开了一种基于残差通道注意与多层次分类回归的目标跟踪方法，包括构建深度孪生神经网络，获取模板区域的特征图和搜索区域的特征图；将模板区域的特征图和搜索区域的特征图做深度互相关运算，得到第一响应图；构建多层次分类回归网络，对所述分类回归网络的得分进行加权融合，得到第二响应图，获取所述第二响应图上的每个像素点对应的前景概率和预测的包围框，计算每个像素点的总得分，总得分最高的像素点位置是跟踪目标的中心；进行孪生神经网络和多层次分类回归网络的训练，使用训练好的网络计算待测图像序列中目标的得分图，根据得分图对目标进行定位，提高了在复杂环境下跟踪的准确性和鲁棒性。

Description

基于残差通道注意与多层次分类回归的目标跟踪方法

技术领域

本发明属于视觉目标跟踪技术领域，具体涉及一种基于残差通道注意与多层次分类回归的目标跟踪方法。

背景技术

视觉目标跟踪在计算机视觉领域中一直以来都是一个研究热点，其应用在现实生活中体现在人机交互、智能监控和交通检测等领域，近些年来目标跟踪已经取得了非常大的进步，随着SiamFC的提出，基于孪生网络的目标跟踪算法研究取得了显著的进展，在平均期望重叠和准确率上达到一个较高的水准，然而，在搜索区域中存在相似语义信息对目标定位带来的干扰，并且由于大多数孪生网络方法使用了深层的特征网络，而深层特征包含目标的细节信息较少，而且基于前景、背景分类的网络不能有效的增强前景特征，所以即使是比较先进的跟踪算法SiamCAR，其鲁棒性依然存在不足。

发明内容

为解决上述技术问题，本发明提供一种基于残差通道注意与多层次分类回归的目标跟踪方法。

具体方案如下：

基于残差通道注意与多层次分类回归的目标跟踪方法，包括如下步骤，

步骤1）：构建深度孪生神经网络，所述深度孪生神经网络包括模板分支和搜索分支，所述模板分支和搜索分支中均采用ResNet50网络用于特征提取，所述模板分支中还设置有残差通道注意力机制；

步骤2）：从图像样本集中截取模板区域图像和搜索区域图像，将截取的模板区域图像输入到模板分支中，以获取模板区域的特征图；将截取的搜索区域图像输入到搜索分支中，以获取搜索区域的特征图；

步骤3）：将模板区域的特征图和搜索区域的特征图做深度互相关运算，以得到第一响应图；

步骤4）：构建多层次分类回归网络，所述多层次分类回归网络中均包含分类分支和回归分支，所述分类分支输出每个像素点位置属于目标区域前景的概率，所述回归分支输出四条包围框对应像素点位置之间的距离，将所述响应图经过降维后输入到多层次分类回归网络中；

步骤5）：对所述分类回归网络的得分进行加权融合，得到第二响应图，获取所述第二响应图上的每个像素点对应的前景概率和预测的包围框，结合前景概率和包围框的信息，计算每个像素点的总得分，总得分最高的像素点位置是跟踪目标的中心；

步骤6）：使用训练数据集进行孪生神经网络和多层次分类回归网络的训练，使用训练好的网络计算待测图像序列中目标的得分图，根据得分图对目标进行定位。

所述模板分支和所述搜索分支的结构相同且参数共享。

残差通道注意力机制对所述模板区域图像的处理方法为

P1）：将所述模板区域图像做最大池化和均值池化操作，并输入到共享的多层感知机进行相加；

P2）：将步骤P1）中相加后的结果经过Sigmoid激活函数得到通道权重，并将所述通道权重与模板区域图像的特征相乘后再与所述模板区域图像相加，以输出通道残差注意力机制。

所述模板区域图像是视频序列第一帧中目标的位置区域，所述搜索区域图像是以上一帧定位的目标位置为中心截取的二倍目标位置的区域。

所述多层次分类回归网络包含三个分类回归网络，所述三个分类回归网络的输入分别为浅层模板区域特征、中层模板区域特征和深层模板区域特征与对应搜索区域特征进行深度互相关运算的结果。

获取第二响应图上的每个像素点对应的前景概率和预测的包围框的方法为

S1):根据第二响应图上像素点的位置在搜索区域图像中找到所述像素点的映射位置；

S2）：对搜索区域图像上的像素点进行前景和背景分类，并在每个像素点位置回归处作为目标包围框；

S3）：采用分类分支计算第二响应图上每个像素点的前景和背景的概率，采用回归分支计算第二响应图中每个像素点位置对应的目标包围框的大小。

步骤5）中采用目标尺度变换惩罚对所述每个像素的总得分进行重新排序。

步骤6）中，使用训练好的网络计算待测图像序列中目标得分图的方法为：

M1）：根据目标在测试图像序列第一帧中的位置裁剪出目标模板图像，将第一帧模板图像输入到训练好的孪生网络的模板分支中，经过残差通道注意力机制得到目标模板图像的特征图φ(Z)；

M2）：以上一帧图像目标所在位置为中心裁剪出当前帧的搜索区域，将当前帧的搜索区域输入到训练好的孪生网络的搜索区域分支中，获得当前帧的搜索区域图像的特征图φ(X)；

M3）：将第一帧的目标模板特征图φ(Z)与当前帧的搜索区域图像的特征图φ(X)的对应层特征做深度互相关运算，并将所述深度互相关运行的结果进行降维后输入到多层次分类回归网络中，以计算目标在当前帧搜索区域图像内的分类得分图；

M4）：根据当前帧的最终得分图计算目标在当前帧中的位置；

M5）：切换至下一帧测试图像，重复步骤M2）-M4），直至最后一帧测试完成。

本发明公开了一种基于残差通道注意与多层次分类回归的目标跟踪方法，与现有技术相比，本发明具有如下有益效果：

1) 增强目标特征。所述方法在ResNet-50特征提取网络的基础上，加入残差通道注意力机制，增强前景特征，抑制背景特征，使得模板分支特征和搜索分支特征做深度互相关运算后的特征更加鲁棒。

2) 有效利用深层和浅层的特征。所述方法利用多层次分类回归网络，使不同层的特征先进行分类回归，再使用各层训练的权重对分类回归的得分进行加权融合，从而增强浅层特征响应图在分类回归中的表达效果，获取跟踪目标更多的细节信息。

3) 本发明通过获取鲁棒的模板特征以及跟踪目标更多的细节信息，能够有效降低相似语义信息对目标定位的影响，提高在复杂环境下跟踪的准确性和鲁棒性。

附图说明

图1是本发明网络框架结构示意图。

图2是本发明分类回归网络结构示意图。

图3是本发明残差通道注意力模板的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施，而不是全部的实施，基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明的网络结构示意图，左侧是加入残差注意力机制的孪生子网络，用于提取目标模板图像特征和搜索区域图像特征，右侧是多层次分类回归子网络，用于预测目标前、背景概率和包围框。

孪生子网络使用改进过的ResNet-50作为主干网络，其中包含两个结构相同的分支网络，图1中左上方是模板分支，左下方是搜索分支。

目标模板图像经过裁剪和尺度调整后输入孪生子网络得到最后三层的特征，其中最后三层的特征分别通过残差通道注意力机制后得到的特征形状，所述特征形状采用宽×高×通道数来表示，本实施例中所述特征形状分别为15×15×512，15×15×1024，15×15×2048，分别取其中间特征7×7区域得到3个形状为7×7×512，7×7×1024，7×7×2048的模板图像特征图。

搜索区域图像经过孪生子网络，得到3个形状分别为31×31×512，31×31×1024，31×31×2048的搜索图像特征图。

在目标模板图像特征与搜搜区域图像特征的对应层，以目标模板图像特征为核在搜索区域图像特征上做深度互相关运算，得到3个形状分别为25×25×512，25×25×1024，25×25×2048的互相关特征图。

浅层特征包含了丰富的目标位置信息，深层特征包含了目标的语义信息，本发明将最后三层经过互相关运算的特征图分别经过1×1的卷积降维后，得到3个形状均为25×25×256的特征图，然后将其输入多层次分类回归网络。

图2为本发明提供的单个分类回归网络结构示意图，分类回归网络包括分类分支网络和回归分支网络，分类分支网络中包含了分类分支和中心分支。分类分支输出响应图上每个像素点对应的前景和背景概率，中心分支输出响应图中像素点位于中心位置的得分，回归分支网络输出对应分类响应图中的像素点位置到包围框四个边的距离。

所述模板分支和所述搜索分支的结构相同且参数共享。

残差通道注意力机制对所述模板区域图像的处理方法为

图3为本发明提供的残差通道注意力机制结构示意图，对输入的特征Z分别做最大池化和均值池化操作，得到特征图的形状均为N×C×1×1，然后分别输入共享的多层感知机后相加再经过Sigmoid激活函数输出，输出特征形状为N×C×1×1的通道权重，通道权重与输入特征Z相乘得到通道残差，之后再与特征Z相加输出。在多层感知机中，为了减少计算量，首先用1×1的卷积将输入特征的通道数缩小16倍，经过Relu激活函数后，再使用1×1的卷积将特征的通道数扩大16倍。其中N为单次输入样本量大小，C为通道数。

本实施例中，裁剪目标模板图像的方法为：根据第一帧的目标位置，裁剪宽和高都为p的区域，如果裁剪区域超出图像的边界，则使用第一帧图像像素的均值填充超出部分，最后将裁剪过的目标模板图像尺度调整为127×127像素大小；

搜索区域的图像裁剪方法为：根据前一帧目标的位置，裁剪出宽和高分别为2p的区域，如果裁剪区域超出图像的边界，则使用第一帧图像像素的均值填充超出部分，最后将裁剪过的搜索区域图像尺度调整为255×255像素大小。

其中，p=(w+h)/2，w和h分别为当前帧目标的宽和高。

多层次分类回归子网络包含3个分类回归网络，分类回归自网络包含两个网络分支，图2中右上方是分类分支网络，右下方是回归分支网络，与分类分支网络并列的是中心分支网络。分类分支输出响应图R^cls的形状为25×25×2，每个像素点位置(i , j , :)都对应一个2维向量，表示该像素点被分为前景和背景的概率，中心分支输出响应图R^cen的形状为25×25×1，表示每个像素点位置的中心得分，回归分支输出响应图R^reg的形状为25×25×4，每个像素点位置都对应一个4维向量D(i , j , :) = (l , t , r , b)，表示像素点位置到包围框四条边的距离，其中l，t，r，b分别表示像素点位置到包围框左边、上边、右边、下边的距离。

经过降维的互相关特征分别输入分类回归网络，分类分支网络和回归分支经过2层相同的普通卷积层，两个分支的每一层卷积网络的输入通道和输出通道都是256，卷积核为3，步长为1，填充为1，特征尺度不变。经过降维的3层互相关特征分别输入分类回归网络后，分别得到分类得分图，中心得分图和回归得分图，然后利用训练的权重对各个得分图进行加权融合，最后输入一个分类得分图，一个中心得分图和一个回归得分图，加权融合的公式如下：

其中为网络训练的权重。

对于任意位置(i , j)，所述框架都能产生对应的前景概率、中心得分以及该位置当前帧包围框的宽和高，其中宽和高分别由像素点位置到包围框四条边的距离表示，即宽和高表示为l + r和t + b。

在跟踪过程中，相邻帧之间包围框的大小和宽高比例只有微小的变化，对此，本发明引入尺度变化惩罚p(i , j)和余弦窗对分类的前景得分进行重新排序。寻找最终总得分最高的像素位置作为目标中心的位置，目标包围框的大小由对应位置到包围框四条边的距离求得。

采用交叉熵损失计算分类分支损失，采用交并比损失计算回归分支损失。

设真实包围框左上角和右下角的坐标分别为(x₀ , y₀)和(x₁ , y₁)，坐标点(x , y)代表点(i , j)映射的位置，回归分支的输出特征图的某一坐标位置(i , j)到包围框四条边的距离D(i , j)可通过以下公式计算：

回归分支损失表示为：

其中，

=，是交并比损失。

中心分支的目的是移除偏离中心的离群点，避免离群点产生的低质量预测包围框降低跟踪的性能。响应图中每一个值表示对应位置的中心得分情况，对于位置(i , j)的得分S(i , j)的定义为：

中心分支的损失定义为：

总损失函数为。其中，表示分类分支的交叉熵损失，常数表示回归损失的权重，在训练模型的过程中，常数权重=3。

整体网络的训练可以通过最小化以上损失离线进行。

训练过程中，批处理大小为80，总共训练20个周期，前5个周期使用0.001到0.005的预热学习率，后15个周期从0.005到0.0005指数衰减学习率；其中前10代训练多层次分类回归子网络时，用于特征提取的孪生子网络参数被冻结，后10代解冻ResNet-50后三层的权重参数，和多层次分类回归子网络一起训练，残差通道注意力机制则全程参与训练。

本发明的有益效果：

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于残差通道注意与多层次分类回归的目标跟踪方法，

其特征在于：包括如下步骤，

步骤6）：使用训练数据集进行孪生神经网络和多层次分类回归网络的训练，使用训练好的网络计算待测图像序列中目标的得分图，根据得分图对目标进行定位;

残差通道注意力机制对所述模板区域图像的处理方法为

2.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：所述模板分支和所述搜索分支的结构相同且参数共享。

3.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：所述模板区域图像是视频序列第一帧中目标的位置区域，所述搜索区域图像是以上一帧定位的目标位置为中心截取的二倍目标位置的区域。

4.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：所述多层次分类回归网络包含三个分类回归网络，所述三个分类回归网络的输入分别为浅层模板区域特征、中层模板区域特征和深层模板区域特征与对应搜索区域特征进行深度互相关运算的结果。

5.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：获取第二响应图上的每个像素点对应的前景概率和预测的包围框的方法为

6.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：步骤5）中采用目标尺度变换惩罚对所述每个像素的总得分进行重新排序。

7.根据权利要求1所述的基于残差通道注意与多层次分类回归的目标跟踪方法，其特征在于：步骤6）中，使用训练好的网络计算待测图像序列中目标得分图的方法为：