CN115205336A

CN115205336A - 一种基于多层感知机的特征融合目标感知跟踪方法

Info

Publication number: CN115205336A
Application number: CN202210877419.XA
Authority: CN
Inventors: 产思贤; 王煜; 陶键; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-10-18

Abstract

本发明公开了一种基于多层感知机的特征融合目标感知跟踪方法，在图片中裁出一块区域作为模版图片，并且输入ResNet网络提取其特征，在后续的跟踪过程中，首先会根据上一帧的目标位置信息在当前帧裁出模版图片多倍的搜索区域图片，输入相同的ResNet网络提取其特征，并与模版特征做像素级相关计算，获得具有两者的相似性信息的相关特征；然后将相关特征依次通过非局部注意力模块、全局信息编码模块和角点预测模块，获得精准的边界框回归结果。

Description

一种基于多层感知机的特征融合目标感知跟踪方法

技术领域

本申请属于图像处理技术领域，尤其涉及一种基于多层感知机的特征融合目标感知跟踪方法。

背景技术

目标跟踪是计算机视觉领域的重要研究方向之一，在机器人、人机交互、军事侦查、智能交通、虚拟现实等军事、民用领域都有广泛的应用。近年来，许多学者在目标跟踪方面开展了大量工作，并取得了一定的进展。但是，在复杂环境中仍存在目标外观变形(目标纹理、形状、姿态变化等)、光照变化、快速运动和运动模糊、背景相似干扰、平面内外旋转、尺度变化、遮挡和出视野等难题，使得复杂环境下稳定实时的目标跟踪仍然是一个具有挑战性的问题。

基于孪生网络的跟踪器通过学习模板特征和搜索特征生成的相似性相关特征来预测目标在当前帧的位置信息，成功的将目标跟踪问题转换为相似性度量问题。SiamFC通过学习从基础相关(

-correlation)获得的单通道相似响应图来预测目标的边界框，从而取得了开创性的工作。然而，单通道响应图难以包含多尺度空间信息，对精确跟踪具有一定的局限性。为了克服跟踪过程中由于物体或相机运动引起的尺度变化，SiamRPN采用更好的相关方法获取更多的空间信息，并引入区域建议网络(RPN)，利用精心设计的锚盒(anchor)对不同尺度的目标进行预测。SiamRPN++通过使用深度相关方法将相关特征的通道数增加到了256，同时使用了不同深度的ResNet的特征进行目标跟踪，极大的提升了跟踪精度。近年来，学者们发现基于孪生网路的跟踪器中的相关运算本身是局部线性匹配过程，容易丢失语义信息，并且陷入局部最优。因此，设计了更健壮、更准确的编码器-解码器结构的跟踪器，提出一个全新的特征融合模块。然而，尽管编码器-解码器结构可以来解决跟踪过程中语义信息丢失的挑战，但其需要大量数据集训练，并且难以拟合。

发明内容

本申请的目的是提供一种基于多层感知机的特征融合目标感知跟踪方法，在现有技术方案中引入多层感知机进行全局感受野编码，以克服上述背景技术中所提出的技术问题。

为了实现上述目的，本申请技术方案如下：

一种基于多层感知机的特征融合目标感知跟踪方法，通过构建的深度学习模型进行目标跟踪，所述深度学习模型包括特征提取模块、特征相关模块、非局部注意力模块、全局信息编码器和角点预测模块，所述基于多层感知机的特征融合目标感知跟踪方法，包括：

获取待跟踪视频序列的跟踪模板，将跟踪模板输入到特征提取模块，提取模板特征；

从待跟踪视频序列中获取当前搜索图片，将搜索图片输入到特征提取模块，提取搜索特征；

将模板特征和搜索特征输入特征相关模块，计算模板特征每个子核与搜索特征的相关性，得到相关特征图；

将相关图输入到非局部注意力模块，得到相关注意力图；

将相关注意力图输入到全局信息编码器进行特征增强，得到全局信息编码特征，所述全局信息编码器包括允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器，每个编码器由两层全连接层和一个激活函数GELU构成；

将全局信息编码特征输入角点预测模块，获得跟踪目标的包围框信息。

进一步的，所述获取待跟踪视频序列的跟踪模板，包括：

将人为标注的跟踪目标包围框信息放大预设第一倍数，从待根据视频序列第一帧图片中裁剪出跟踪模板。

进一步的，所述从待跟踪视频序列中获取当前搜索图片，包括：

将上一帧的跟踪结果信息放大预设第二倍数，从当前待处理的帧中裁剪出搜索图片。

进一步的，所述计算模板特征每个子核与搜索特征的相关性，得到相关特征图，包括：

将模板特征

分解成h×w个子核

计算每个子核与搜索特征

的基础相关，从而得到相关特征图

进一步的，所述将相关注意力图输入到全局信息编码器进行特征增强，得到全局信息编码特征，包括：

将相关注意力图

矩阵变形成

输入到全局信息编码器；

采用如下公式表示全局信息编码器的操作：

R₁＝R^GT+W₂σ(W₁LN(R^GT))

R^T＝R₁ ^T+W₄σ(W₃LN(R₁ ^T))

其中，R^T表示全局编码器输出的全局信息编码特征，LN表示归一化，W₁-W₄表示全连接层操作，σ表示激活函数GELU，T表示转置。

进一步的，所述深度学习模型的联合损失函数表示为：

其中，L_iou表示交并比损失，L₁表示平均绝对误差损失，λ_iou、

表示对应损失函数的权重，b_i和

表示真值和预测的包围框。

本申请提出了一种基于多层感知机的特征融合目标感知跟踪方法，引入多层感知机进行全局感受野编码，使得跟踪器具有全局信息的搜索感知能力，使用Resnet-50进行特征提取以及像素级的特征相关模块，从而获得更精细的特征表达，再通过本文提出的全局信息编码器模块增大模型的感受野，克服了跟踪过程中感受野小引发的遮挡、超出视野等跟踪问题。

附图说明

图1为本申请基于多层感知机的特征融合目标感知跟踪方法流程图；

图2为本申请深度学习模型网络示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提出了一种基于多层感知机的特征融合目标感知跟踪方法，包括：

步骤S1、获取待跟踪视频序列的跟踪模板，将跟踪模板输入到特征提取模块，提取模板特征。

对于需要进行目标跟踪的视频序列，本实施例首先获取其跟踪模板Z₁。具体的，将人为标注的跟踪目标包围框信息B₁放大预设第一倍数，从待根据视频序列第一帧图片I₁中裁剪出跟踪模板Z₁。

例如将包围框信息B₁放大2倍，然后第一帧图片I₁中裁剪出跟踪模版Z₁，包围框信息B₁包括跟踪目标包围框的左上角坐标和右下角坐标。

本实施例特征提取模块，采用预训练好的深度残差网络ResNet-50(图2中用CNN表示)，在输入跟踪模板后，提取得到模板特征

步骤S2、从待跟踪视频序列中获取当前搜索图片，将搜索图片输入到特征提取模块，提取搜索特征。

本实例将上一帧的跟踪结果信息放大预设第二倍数，从当前待处理的帧中裁剪出搜索图片。

例如，根据上一帧的跟踪结果B_i-1，对输入的图片I_i,i∈[2,n]，根据上一帧的跟踪结果的包围框信息，放大5倍然后裁剪出搜索图片。同理上一帧的跟踪结果B_i-1，包括跟踪目标包围框的左上角坐标和右下角坐标。

本实施例特征提取模块，在输入搜索图片后，提取得到搜索特征

步骤S3、将模板特征和搜索特征输入特征相关模块，计算模板特征每个子核与搜索特征的相关性，得到相关特征图。

本步骤将模板特征

和搜索特征

输入到特征相关模块中，具体操作如下：首先，将模板特征

分解成h×w个子核

计算每个子核与搜索特征

的基础相关，从而得到相关特征图

数学表达式如下：

其中，*表示基础相关计算，基础相关计算指的是

和子核k_i的矩阵乘法，最后将获得的r_i按通道连结得到

需要说明的是，

通常用来表示特征的尺寸，c表示通道数，h表示高度，w表示宽度。本申请用小写的h和w表示模板特征的高度和宽度，用大写的H和W表示搜索特征的高度和宽度。

步骤S4、将相关图输入到非局部注意力模块，得到相关注意力图。

然后，利用非局部注意力(Non-Local attention)来聚合全局上下文信息，首先将特征

输入三个并行1*1卷积层(θ，φ，g)降低特征通道数，获得三个特征

后将三个特征

的后两维向量在同一个向量空间聚合获得三个新的特征向量

然后，通过矩阵乘法和softmax函数，将

和

计算这两个特征在不同位置之间的响应值得到A_NL，其数学表达式如下：

其中，

表示矩阵乘法。

然后再将A_NL与

进行矩阵乘法操作，即与X_g再次计算特征不同位置之间的响应值。之后通过一个1*1层卷积层Conv恢复通道数，最后与原始特征

相加完成非局部注意力的优化过程：

其中，

表示元素间的求和，

与

的尺寸一致。非局部注意力机制是本领域比较成熟的技术，这里不再赘述。

步骤S5、将相关注意力图输入到全局信息编码器进行特征增强，得到全局信息编码特征。

本步骤将相关注意力图

矩阵变形成

送入全局信息编码器进行特征增强。该编码器由两类编码器交替组成，分别是允许不同通道之间交流的通道编码器和允许不同空间位置交流的空间编码器，每个编码器由两层全连接层和一个激活函数GELU构成。

具体来说，经过矩阵变形的R^G，先将特征转置后，进入空间编码器聚合空间信息，空间编码器作用在特征的列上并且共享所有的列参数，得到的输出再重新转置一下，然后和原始特征R^G相加，得到特征R₁；其次，经过矩阵变形的R₁，先将特征转置后，进入通道编码器聚合空间信息，通道编码器作用在特征的行上并且共享所有的行参数，得到的输出再重新转置一下，然后和经过空间编码器的特征R₁相加，得到全局信息编码特征R^T。

采用公式表示如下：

R₁＝R^GT+W₂σ(W₁LN(R^GT))

R^T＝R₁ ^T+W₄σ(W₃LN(R₁ ^T))

其中，R^G是输入到全局信息编码器的特征，R^GT是转置后的特征，LN表示归一化，计算R^GT特征的通道中所有参数的均值和方差，使其分布在(0，1)之间。W₁-W₄表示全连接层操作，包含可学习的权重系数，根据每次重复的计算拟合出一个合适的权重使跟踪器更加鲁棒，σ表示激活函数GELU，R₁表示经过通道编码器的特征，输入空间编码器，R₁ ^T表示转置后的进入空间编码器的特征，R^T表示全局编码器的输出，T表示转置。

步骤S6、将全局信息编码特征输入角点预测模块，获得跟踪目标的包围框信息。

本步骤将全局信息编码特征R^T变形为一个新的特征图

输入角点预测模块，角点预测模块包括3层全连接层(FCN)，并且通过soft-argmax归一化，R^T通过三层全连接层得到预测结果的左上角和右下角的概率分布P_tl(x,y)和P_br(x,y)，然后分别经过soft-argmax函数，得到包围框的左上角和右下角的坐标

其中，

表示：预测包围框的左上角坐标；

表示：预测包围框的左上角坐标；P_tl(x,y)表示：预测包围框左上角坐标的概率分布；P_br(x,y)表示：预测包围框右下角坐标的概率分布。

根据概率分布的期望值得到预测结果左上角和右下角的坐标，然后获得包围框结果，最终获得跟踪结果。

对于如图2所示的整个深度学习模型，需要进行训练后才能够进行实际的应用，训练过程如下：

对训练数据集进行预处理，选取视频序列中间隔为T的两帧，根据标注信息，依照裁切模板图片和搜索图片到128×128和320×320尺寸；

将预处理后的训练数据集输入到深度学习模型，进行训练，训练中计算联合损失，进行反向传播，更新模型参数，完成训练。

联合损失采用如下公式表示：

其中，L_iou表示交并比损失，用来衡量真值与预测值的距离，L₁表示平均绝对误差损失，λ_iоu、

表示对应损失函数的权重，例如分别是5和2，b_i和

表示真值和预测的包围框。

训练过程中，批处理大小为256，学习率从0.0001下降到0.00001，使用AdamW算法迭代训练10次并保存每次迭代结果，前十次迭代冻结ResNet的参数，后十次迭代以整体网络学习率的十分之一开始训练。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。