CN113297961A

CN113297961A - 一种基于边界特征融合孪生循环神经网络的目标跟踪方法

Info

Publication number: CN113297961A
Application number: CN202110563653.0A
Authority: CN
Inventors: 韩光; 肖峣; 王福祥; 刘旭辉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-24
Anticipated expiration: 2041-05-24
Also published as: CN113297961B

Abstract

本发明公开了一种基于边界特征融合孪生循环神经网络的目标跟踪方法，包括获取待跟踪目标视频；将获取的待跟踪目标视频输入预先训练好的基于孪生网络的目标跟踪模型，输出目标的预测位置；所述基于孪生网络的目标跟踪模型包括孪生网络模块、候选区域提取模块及区域细化模块；孪生网络模块用于特征提取融合，生成多尺度特征响应图；候选区域提取模块用于将多尺度特征响应图作为输入，提取多尺度特征响应图的中心区域特征和边界特征，合并中心区域特征和边界特征获得候选目标；区域细化模块用于将候选区域提取模块得到的候选目标作为输入，对候选目标进一步细化分类和回归。解决锚框重叠难以区分目标以及手工设置参数导致目标位置预测不可靠的问题。

Description

一种基于边界特征融合孪生循环神经网络的目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于边界特征融合孪生循环神经网络的目标跟踪方法。

背景技术

视觉跟踪是一个开放且有吸引力的研究领域，具有广泛的类别和应用，包括自动驾驶汽车，自动驾驶机器人，监视，增强现实，无人机(UAV)跟踪，体育，外科手术，生物学，海洋探险等。在复杂的现实世界场景中，视觉跟踪仍然是一个巨大挑战，此外，速度在实际应用中也很重要。目前国内外已有的视觉跟踪模型大多针对于可见光场景，对夜间场景的研究比较少。由于夜间场景的光照条件不足，颜色信息退化严重，亮度和信噪比都相对较低，造成了图像感知质量大幅度降低，因此现有算法和技术对夜间图像的分析、理解和目标跟踪都存在很大困难，这也将夜间场景目标跟踪上升为一项具有挑战性的研究。

目标跟踪技术的发展方向主要分为两类：在线更新法和基于Siamese网络离线训练方法。近年来，Siamese tracker因其平衡的速度和准确性而备受关注，并且随着将目标检测方法引入目标跟踪中取得可喜的表现，具有代表性的称为SiamRPN，逐渐开启了目标跟踪领域的新篇章。但由于SiamRPN采用手工参数的锚框训练回归网络，因此难以细化与目标对象重叠的锚，并且由于跟踪中的误差累积，目标位置的预测可能变得不可靠。

发明内容

本发明的目的是提供一种基于边界特征融合孪生循环神经网络的目标跟踪方法，解决锚框重叠难以区分目标以及手工设置参数导致目标位置预测不可靠的问题。

本发明为实现上述发明目的采用如下技术方案：

本发明提供了一种基于边界特征融合孪生循环神经网络的目标跟踪方法，包括：

获取待跟踪目标视频；

将获取的待跟踪目标视频输入预先训练好的基于孪生网络的目标跟踪模型，输出目标的预测位置；

其中，所述基于孪生网络的目标跟踪模型包括孪生网络模块、候选区域提取模块及区域细化模块；

所述孪生网络模块用于特征提取和融合，生成多尺度特征响应图；

所述候选区域提取模块用于将多尺度特征响应图作为输入，提取多尺度特征响应图的中心区域特征和边界特征，合并中心区域特征和边界特征获得候选目标；

所述区域细化模块用于将候选区域提取模块得到的候选目标作为输入，对候选目标进一步细化分类和回归。

进一步地，所述孪生网络模块包括上支路模块、下支路模块及特征融合模块，用于特征提取和融合，生成多尺度特征响应图，包括：

上支路模块、下支路模块通过共享参数的卷积神经网络提取目标图像特征和搜索图像特征，通过提取目标图像特征和搜索图像特征中包含外观信息conv2层以及包含语义信息的conv4、conv5层来构建多尺度特征；

将生成的多尺度特征输入到特征融合模块，目标图像特征图分别沿H和W轴逆时针旋转90°获得在H轴和W轴的旋转特征张量，经过pooling以及标准卷积层和sigmoid生成对应的在H轴和W轴的注意力权值，生成的注意力权值与其对应的旋转特征张量相乘获得对应的注意力响应图，最后注意力响应图沿着H和W轴进行顺时针旋转90°获得在H轴和W轴的增强目标图像特征图；

将增强目标图像特征图以及目标图像特征图分别与搜索图像特征图进行互相关并相加获得最终的多尺度特征响应图。

进一步地，所述候选区域提取模块包括点特征提取模块和边界特征提取模块；

所述点特征提取模块用于将多尺度特征响应图作为输入，对多尺度特征响应图每个位置点对应的边界框进行回归获得候选目标的中心区域特征；

所述边界特征提取模块用于对点特征模块获得的中心区域特征提取获得候选目标的边界特征，合并点特征提取模块和边界特征特征提取模块获得候选目标。

进一步地，所述点特征提取模块包括分类分支，回归分支和中心点预测分支。

进一步地，所述边界特征提取模块用于对点特征模块获得的中心区域特征提取获得候选目标的边界特征的方法包括：

对点特征模块获得的中心区域特征提取四个边界框特征，并对四个边界框特征分别做pooling操作，采用双线性插值方法对pooling操作之后的边界框特征进行采样，获得候选区域的边界特征。

进一步地，所述区域细化模块用于将候选区域提取模块得到的候选目标作为输入，对每个候选目标进一步细化分类和回归的方法包括：

对候选目标进行特征提取生成候选proposal；

分别对目标图像特征和搜索图像特征中的conv2浅层特征和conv4，conv5深层特征串联融合；

最后，对候选proposal进行分类和回归，将串联融合的conv4，conv5特征接入判别子网络，conv2，conv4特征接入定位子网络，其中判别子网络采用两个FC层进行分类特征提取，定位子网络采用两个Conv层进行回归特征提取，选取响应最大的候选proposal的作为目标的预测位置。

本发明的有益效果如下：

本发明的目标跟踪方法，将边界特征检测、特征融合与孪生网络相结合，形成一种多阶段的基于边界特征融合循环神经网络的目标跟踪模型。通过提取不同尺度和不同维度的特征来构建包含语义信息和空间信息的多尺度特征响应图进而来适应目标大小的变化，将获得的多尺度响应图输入到候选区域模块通过提取中心区域特征和边界特征来获得目标位置的分类和回归信息，并且该模型通过多阶段的细化完善初始结果，以获得更精确的盒子预测，提升目标跟踪的准确性和鲁棒性。

附图说明

图1为根据本发明实施例提供的一种基于边界特征融合孪生循环神经网络的目标跟踪方法的流程框图；

图2为根据本发明实施例提供的一种基于边界特征融合孪生循环神经网络的目标跟踪方法中特征融合模块的流程框图；

图3为根据本发明实施例提供的一种基于边界特征融合孪生循环神经网络的目标跟踪方法中特征融合模块中attention模块的流程框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1至图3，本发明提供一种基于边界特征融合孪生循环神经网络的目标跟踪方法，所述方法包括：

步骤1，构建边界特征融合孪生循环神经网络目标跟踪模型。

目标跟踪模型主要包括孪生网络模块，候选区域提取模块，区域细化模块，所述孪生网络模块包含上、下支路模块和特征融合模块，候选区域模块包含点特征提取模块和边界特征提取模块。

步骤1-1：构建孪生网络模块，孪生网络上、下支路模块以改进的AlexNet作为基础网络提取目标图像特征和搜索图像特征。所述改进的AlexNet网络包括5个卷积层和3个最大池化层，5个卷积层卷积核的大小依次为11×11、5×5、3×3、3×3和3×3，最大池化层池化核为2×2，所述改进的AlexNet的网络采用了一种空间感知采样策略来训练模型，解决在深度网络中由于填充而破坏绝对平移不变性的问题，通过提取目标图像特征和搜索图像特征中包含外观信息conv2层以及包含语义信息的conv4、conv5层来构建多尺度特征。

步骤1-1-1：特征融合模块，将生成的多尺度特征输入到特征融合模块，第一步，目标特征图沿H轴逆时针旋转90°,这个旋转张量的形状为(W×H×C)，再然后经过Z-Pool后的张量的shape为(2×H×C)，其中Z-Pool是将该维度上的平均汇集特征和最大汇集特征连接起来。这使得该层能够保留实际张量的丰富表示，同时缩小其深度以使进一步的计算量更轻，然后，通过内核大小为k×k的标准卷积层，再通过批处理归一化层和sigmoid来生成在H轴的注意力权值。生成的注意力权值与其旋转张量相乘获得对应的注意力响应图，最后沿着H轴进行顺时针旋转90°获得在H轴的增强目标图像特征图。第二步，目标特征图沿W轴逆时针旋转90°，这个旋转张量表示为的形状为(H×C×W)，再然后经过Z-Pool后的张量的shape为(2×C×W)，然后，通过内核大小为k×k的标准卷积层，再通过批处理归一化层和sigmoid来生成在H轴的注意力权值。生成的注意力权值与其旋转张量相乘获得对应的注意力响应图，最后沿着W轴进行顺时针旋转90°获得在W轴的增强目标图像特征图。第一步和第二步得到的增强目标图像特征图与目标特征图分别与搜索特征图进行互相关并相加得到最终的多尺度特征响应图。

步骤1-2：候选区域提取模块，分为点特征提取模块和边界特征提取模块。所述点特征提取模块用于将多尺度特征响应图作为输入，对多尺度特征响应图每个位置点对应的边界框进行回归获得候选目标的中心区域特征；所述边界特征提取模块用于对点特征模块获得的中心区域特征提取获得候选目标的边界特征，合并点特征提取模块和边界特征特征提取模块获得候选目标。

步骤1-2-1：点特征提取模块采用fcos网络，fcos网络分为三个分支，分类，回归以及中心点预测。

首先确定正负样本，点特征提取模块将多尺度特征响应图作为输入，对响应图每个位置点对应的边框进行回归，即把每个位置都作为训练样本，核心思想是估计从目标对象内的每个像素到ground truth边界框的四个侧面的距离。具体地，令B＝(x₀,y₀,x₁,y₁)表示目标物体的ground truth的左上角和右下角。如果像素的坐标(x,y)落入ground truth中，则将其视为回归样本。因此，训练样本的标签T^*＝(l^*,t^*,r^*,b^*)计算为

l^*＝x-x₀,t^*＝y-y₀ (1)

r^*＝x₁-x,b^*＝y₁-y (2)

为增加更强的约束，抑制低质量的预测边界框，加入center-ness分支，center-ness的定义如下所示：

当loss越小时，centerness就越接近1，也就是说回归框的中心越接近真实框，j将预测的center-ness乘上对应分类置信度，可以降低距离目标中心很远的边界框分数的权重。

对其进行分类和回归，其中分类分支采用交叉熵损失函数进行分类运算，即分类中前景和背景，回归分支采用Smooth-L1损失计算，进而最终获得候选目标的中心区域特征。

步骤1-2-2：边界特征提取模块，对于点特征模块得到候选目标的中心区域特征，边界特征提取模块对其特征进一步优化，获得其边界特征，而后采用此特征进一步分类和回归。

首先密集地从边界提取特征是很低效的，一般边界上的目标物体相关的点很少，大多为背景点。对于一个特征图，提取通道个数为4xC，分别对应物体4个边界框特征并对在特征图上的特征分别做pooling操作，且由于框的位置是小数，所以该操作使用双线性插值取出每个边界框上的特征。

其中F_c(i,j)是输出特征图F的第c个通道在第(i,j)上的特征值，(x₀,y₀,x₁,y₁)是点(i,j)左上角和右下角坐标，w和h是(x₀,y₀,x₁,y₁)的宽度和高度。

即如果特征点是属于第一组C的，因为它是中心点保留所有特征不变。而如果特征点是属于第二组C的，是为左边界特征，对其每个通道基于左边界的位置定位做最大池化，即对所有的左边界特征点的每一个通道做最大池化使其赋值为该边上特征最突出的点的特征。其余各边同理。通过这样的四组最大池化操作，选取了四条边界上最具代表性的特征点表征整个边界的特征，突出边界点上的特征优势。

候选区域提取模块最终将点特征模块输出和边界特征模块输出合并作为最后输出，经此模块后，即可得到同类所有对象的具体位置，即获得候选目标。

步骤1-3：区域细化模块将候选区域得到候选目标作为输入，对其进行进一步特征提取，通过多阶段模式细化结果，获得最终网络的输出预测对象。

步骤1-3-1：考虑到浅层特征包含详细的外观信息并可导致较高的定位精度，采用ROI Align方式为每个候选目标创建固定尺寸的候选proposal，并将上、下支路模块的conv2浅层特征和深层特征conv4，conv5串联融合。

因定位特征主要在边缘，而分类特征主要在中心，所以采用特征分离的方式，将分类特征和定位分支在特征融合后分为两个子网络，对分类和回归进行解耦，来提高定位精度。

步骤1-3-2：conv4，conv5特征接入判别子网络，conv2,conv4特征接入定位子网络，经过卷积适应获得分类特征和定位特征。

进一步地，为获得更好的分类效果，缓解正负样本比例严重失衡问题，采用focalloss作为分类损失函数。该损失函数降低了大量简单负样本在训练中所占权重，平衡正负样本的重要性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

获取待跟踪目标视频；

2.根据权利要求1所述的一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

所述孪生网络模块包括上支路模块、下支路模块及特征融合模块，用于特征提取和融合，生成多尺度特征响应图，包括：

3.根据权利要求2所述的一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

所述候选区域提取模块包括点特征提取模块和边界特征提取模块；

4.根据权利要求3所述的一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

所述点特征提取模块包括分类分支，回归分支和中心点预测分支。

5.根据权利要求3所述的一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

所述边界特征提取模块用于对点特征模块获得的中心区域特征提取获得候选目标的边界特征的方法包括：

6.根据权利要求1所述的一种基于边界特征融合孪生循环神经网络的目标跟踪方法，其特征在于，

所述区域细化模块用于将候选区域提取模块得到的候选目标作为输入，对每个候选目标进一步细化分类和回归的方法包括：

对候选目标进行特征提取生成候选proposal；