CN110570458A

CN110570458A - 一种基于内部裁剪和多层特征信息融合的目标跟踪方法

Info

Publication number: CN110570458A
Application number: CN201910738616.1A
Authority: CN
Inventors: 梁超; 张精制; 阮威健; 孙志宏; 虞吟雪; 林子琪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-08-12
Filing date: 2019-08-12
Publication date: 2019-12-13
Anticipated expiration: 2039-08-12
Also published as: CN110570458B

Abstract

本发明属于计算机视觉技术领域，公开了一种基于内部裁剪和多层特征信息融合的目标跟踪方法，包括：获取视频序列数据集，根据视频序列数据集构成训练集；构建孪生网络，孪生网络的基础骨干采用经内部裁剪单元改进后的ResNet18特征提取网络和RPN网络的组合；基于训练集，训练孪生网络，获得训练收敛的孪生网络模型；利用孪生网络模型进行在线跟踪。本发明解决了现有技术中深度学习跟踪方法的特征表达能力和模型泛化能力弱，跟踪器无法有效地应对目标表观的剧烈时空变化的问题。

Description

一种基于内部裁剪和多层特征信息融合的目标跟踪方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于内部裁剪和多层特征信息融合的目标跟踪方法。

背景技术

目标跟踪技术是提取视频关键信息的重要技术手段，其旨在获取感兴趣目标在视频序列中的位置，从而提取出目标的运动轨迹。该课题是计算机视觉领域的重要基础课题，在此基础上可以进行更深层次的分析，如异常行为识别，基于视频序列的行人重识别等。

目前主流的目标跟踪算法包括相关滤波类算法和深度学习算法。相关滤波类算法引入信号处理中信号相关性的概念，代表性算法有MOSSE、KCF、BACF等。其中，KCF算法的提出将相关滤波类算法在跟踪领域的应用推向了高潮，但是相关滤波类算法都存在尺度自适应和边界效应的问题。尺度自适应是指如果滤波模板的尺度不能与目标尺度统一的话，当目标尺度变小，滤波模板会引入过多的背景信息；当目标尺度变大，滤波模板会局限在目标的局部特征，最终都会导致跟踪漂移现象。所谓的边界效应是由于循环矩阵的样本生成方式引入的，会造成许多不合理的训练样本，并且在测试阶段无法应对运动过快的场景。深度学习算法相比于传统算法，具备特征表达能力较强的优势。但是由于在目标跟踪任务中，待跟踪目标是任意的，且只有第一帧的信息，而深度学习的优势之一就是利用大量的标注信息学习到一个统计模型，训练数据和先验信息的缺失导致深度学习算法在跟踪领域的应用起步较晚。深度学习算法大致分为深度学习网络只做特征提取器，采用“线下训练+线上微调”的策略进行，代表性算法有DLT、HCF等，以及基于孪生网络的单目标跟踪算法。基于孪生网络的单目标跟踪算法将跟踪问题看作相似度计算问题，形式简单，可以利用线下大规模视频序列数据集，无需线上更新。

然而，现有的大多数基于孪生网络的跟踪器的特征提取模块都采用类AlexNet的浅层神经网络，特征表达能力较弱。但是通过实验发现当采用更深的Inception或ResNet做特征提取模块时，跟踪准确率会迅速下降，分析其原因是由于深层网络的填充操作，破坏了孪生网络的特征平移不变性。因此，如何消除深层网络填充操作带来的不利影响，从而可以构造更深层次的特征提取网络是值得探索的问题。

发明内容

本申请实施例通过提供一种基于内部裁剪和多层特征信息融合的目标跟踪方法，解决了现有技术中深度学习跟踪方法的特征表达能力和模型泛化能力弱，跟踪器无法有效地应对目标表观的剧烈时空变化的问题。

本申请实施例提供一种基于内部裁剪和多层特征信息融合的目标跟踪方法，包括以下步骤：

步骤1、获取视频序列数据集，根据所述视频序列数据集构成训练集；

步骤2、构建孪生网络，所述孪生网络的基础骨干采用经内部裁剪单元改进后的ResNet18特征提取网络和RPN网络的组合；

步骤3、基于所述训练集，训练所述孪生网络，获得训练收敛的孪生网络模型；

步骤4、利用所述孪生网络模型进行在线跟踪。

优选的，所述步骤1包括：

步骤1.1、根据视频序列数据集的标注信息，获得目标中心位置和尺寸信息；

步骤1.2、根据所述目标中心位置和尺寸信息，通过裁剪、缩放处理获得所述视频序列数据集中所有视频序列图像的模板图像和搜索图像，所述模板图像和搜索图像组成的成对图像构成所述训练集。

优选的，所述步骤1.2中包括：

以目标中心位置为中心，以第一边长截取正方形区域；其中，p为扩充的上下文区域大小，p＝(w+h)/2，w为目标矩形的宽，h为目标矩形的长；

对于所述模板图像，将所述正方形区域的边长放缩s₁倍，将所述模板图像的边长调整为127；

对于所述搜索图像，对边长为所述第一边长sz的正方形区域的周围再次进行扩充，扩充后得到第二边长sx＝sz+2*pad，对所述第二边长放缩s₂倍，将所述搜索图像的边长调整为255；其中，pad为搜索图像扩充的上下文区域大小，pad＝(255-127)/2s₁。

优选的，如果所述模板图像或所述搜索图像的扩充区域超过图像边界，则以图像的RGB三通道的平均值进行补齐。

优选的，所述步骤2中，所述孪生网络包括模板分支和搜索分支；

所述模板分支、所述搜索分支均包括conv1、conv2、conv3三个阶段，两个所述conv2分别与第一RPN模块连接，两个所述conv3分别与第二RPN模块连接；

所述模板分支的conv1用于特征图的下采样，conv2用于浅层空间特征的提取，conv3用于深层语义特征的提取；

所述搜索分支的conv1用于特征图的下采样，conv2用于浅层空间特征的提取，conv3用于深层语义特征的提取；

所述第一RPN模块用于利用浅层空间特征进行候选框的分类与位置回归，所述第二RPN模块用于利用深层语义特征进行候选框的分类与位置回归；

池化层用于特征图下采样，分类分支用于判断候选框是目标还是背景，回归分支用于获取候选框的坐标和尺寸信息。

优选的，所述步骤4包括：

步骤4.1、根据待测视频序列的第一帧构建模板图像，用于确定待跟踪目标和附近上下文信息；

步骤4.2、将第一帧构建的模板图像送入训练收敛的孪生网络的模板分支，提取模板图像的特征，获得模板图像的特征图；

步骤4.3、根据待测视频序列后续的每一帧分别构建搜索图像，用于构造目标的搜索范围；

步骤4.4、将后续每一帧构建的搜索图像分别送入训练收敛的孪生网络的搜索分支，提取搜索图像的特征，获得搜索图像的特征图；

步骤4.5、将所述模板图像的特征图作为卷积核，对所述搜索图像的特征图进行卷积操作，计算区域相似性，得到目标的位置与尺度。

优选的，所述步骤4.5中，使用尺度惩罚抑制目标尺度过大的变化，使用余弦窗抑制目标位移过大的变化，使用非极大抑制进行去重，最后选取分值最高的anchor作为目标在下一帧的位置。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

在本申请实施例中，首先利用线下大规模视频序列数据集，训练基于内部裁剪单元与多层特征信息融合的孪生网络，孪生网络的基础骨干采用经内部裁剪单元改进后的ResNet18特征提取网络和RPN网络的组合。深层神经网络中填充操作会破坏特征平移不变性，而内部裁剪单元可以消除该不利影响。在ResNet18的conv2和conv3两个卷积块之后分别添加RPN模块，利用不同层级的特征做判别，能够有效提升网络判别力。即本发明通过引入内部裁剪单元用于构造更深层次的孪生网络，增强网络的特征表达能力，并且通过在不同层级的特征图后添加RPN模块，充分利用深层语义特征和浅层空间特征(深层特征具备更强的语义信息，浅层特征保留了一定的空间结构信息)，增强网络的特征表达能力与判别力。

附图说明

为了更清楚地说明本实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于内部裁剪和多层特征信息融合的目标跟踪方法的流程图；

图2为本发明实施例提供的一种基于内部裁剪和多层特征信息融合的目标跟踪方法中构建的孪生网络的结构示意图；

图3为本发明实施例提供的一种基于内部裁剪和多层特征信息融合的目标跟踪方法中非下采样内部裁剪单元结构的示意图；

图4为本发明实施例提供的一种基于内部裁剪和多层特征信息融合的目标跟踪方法中下采样内部裁剪单元结构的示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本实施例提供了一种基于内部裁剪和多层特征信息融合的目标跟踪方法，如图1所示，包括以下步骤：

步骤1、获取视频序列数据集，根据所述视频序列数据集构成训练集。

步骤1.1、根据视频序列数据集的标注信息，获得目标中心位置和尺寸信息。

具体的，以目标中心位置为中心，以第一边长截取正方形区域；其中，p为扩充的上下文区域大小，p＝(w+h)/2，w为目标矩形的宽，h为目标矩形的长。扩充的目的是因为相隔不远的视频帧中，目标周围的局部上下文信息较为稳定，可以辅助网络做前景和背景的判别。

对于所述模板图像，将所述正方形区域的边长放缩s₁倍，将所述模板图像的边长调整为127。对于所述搜索图像，对边长为所述第一边长sz的正方形区域的周围再次进行扩充，扩充后得到第二边长sx＝sz+2*pad，对所述第二边长放缩s₂倍，将所述搜索图像的边长调整为255；其中，pad为搜索图像扩充的上下文区域大小，pad＝(255-127)/2s₁。

即处理过后的所述模板图像的尺寸为127*127，所述搜索图像的尺寸为255*255。

如果模板图像或搜索图像的扩充区域超过图像边界，则以图像的RGB三通道的平均值进行补齐。

所述模板图像和所述搜索图像都是线下提取好的，避免训练过程中再进行放缩。最后从中随机选取5万对图像进行训练，输入给网络的成对图像是来自同一视频序列，最大间隔不超过T帧的视频帧。

步骤2、构建孪生网络，所述孪生网络的基础骨干采用经内部裁剪单元改进后的ResNet18特征提取网络和RPN网络的组合。

如图2所示，所述孪生网络包括模板分支和搜索分支。所述模板分支、所述搜索分支均包括conv1、conv2、conv3三个阶段，两个所述conv2分别与第一RPN模块连接，两个所述conv3分别与第二RPN模块连接。

所述模板分支的conv1用于特征图的下采样，conv2用于浅层空间特征的提取，conv3用于深层语义特征的提取。所述搜索分支的conv1用于特征图的下采样，conv2用于浅层空间特征的提取，conv3用于深层语义特征的提取。所述第一RPN模块用于利用浅层空间特征进行候选框的分类与位置回归，所述第二RPN模块用于利用深层语义特征进行候选框的分类与位置回归。池化层用于特征图下采样，分类分支用于判断候选框是目标还是背景，回归分支用于获取候选框的坐标和尺寸信息。

深层神经网络中填充操作会破坏特征平移不变性，内部裁剪单元用于消除该不利影响。如图3、图4所示，内部裁剪单元分为两种，一种为非下采样内部裁剪单元CIR，另一种是下采样内部裁剪单元CIR-D，分别对应残差网络的残差块和下采样残差块。

CIR中没有进行下采样操作，只是通过裁剪去掉受填充影响的特征图；CIR-D中会有下采样操作，CIR-D将原有下采样残差块的步长调整为1，然后通过裁剪去掉受填充影响的特征图，最后使用最大池化层进行特征图下采样。

在第一个卷积层conv1后采取2:N-2的裁剪操作，其中N为特征图的尺寸，即去掉特征图最外层的两圈，消除零值填充的影响。conv2和conv3的第一个残差块是CIR-D结构，完成特征图尺寸下采样、通道数增加的作用，其它残差块都为CIR结构。在conv2和conv3后面添加RPN模块，为保证输出尺寸为17*17，并且减小相关操作计算量，首先采用2*2的最大池化层对conv2特征做下采样操作，最后将两个RPN模块产生的分值响应结果进行加权融合。

步骤3、基于所述训练集，训练所述孪生网络，获得训练收敛的孪生网络模型。

以ImageNet预训练网络进行参数初始化，采用随机梯度下降法进行训练。首先固定第一个7*7卷积层，然后从后往前，逐步微调每一个残差块单元。每迭代5轮，则释放一个残差块单元的参数。即首先固定conv1和conv2的网络参数，微调conv3的网络参数，迭代5轮后，释放conv2的网络参数进行微调。总共训练50轮，学习率由10^-2下降到10^-5次方。RPN模块分类分支采用交叉熵损失，回归分支采用Smooth L₁损失。

步骤4、利用所述孪生网络模型进行在线跟踪。

步骤4.1、根据待测视频序列的第一帧构建模板图像，用于确定待跟踪目标和附近上下文信息。

步骤4.2、将第一帧构建的模板图像送入训练收敛的孪生网络的模板分支，提取模板图像的特征，获得模板图像的特征图。

步骤4.3、根据待测视频序列后续的每一帧分别构建搜索图像，用于构造目标的搜索范围。

步骤4.4、将后续每一帧构建的搜索图像分别送入训练收敛的孪生网络的搜索分支，提取搜索图像的特征，获得搜索图像的特征图。

具体的，使用尺度惩罚抑制目标尺度过大的变化，使用余弦窗抑制目标位移过大的变化，使用非极大抑制进行去重，最后选取分值最高的anchor作为目标在下一帧的位置。

测试阶段采用one-shot流程，对于一个视频序列来说，对待跟踪目标的特征表达运算只做一次。首先在起始帧指定待跟踪目标的位置，在第一帧根据第一步描述的方式构造模板图像，并经过网络的模板分支提取特征。然后在后续帧同样按照第一步描述的方式构造搜索图像，经过网络的搜索分支提取特征。最后经过两个RPN模块得到融合后的分值响应图，舍弃掉分值响应图中距离中心位置太远的anchor，因为相邻两帧之间目标位移不会太大。输出得分图尺寸为17*17，保留距离中心位置为7的分值点。并且利用尺度惩罚来抑制目标尺度过大的变化，余弦窗抑制目标位移过大的变化。经过一系列操作后，再使用非极大抑制进行去重，最后选取分值最高的anchor作为目标在下一帧的位置。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，包括以下步骤：

步骤4、利用所述孪生网络模型进行在线跟踪。

2.根据权利要求1所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，所述步骤1包括：

3.根据权利要求2所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，所述步骤1.2中包括：

4.根据权利要求3所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，如果所述模板图像或所述搜索图像的扩充区域超过图像边界，则以图像的RGB三通道的平均值进行补齐。

5.根据权利要求1所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，所述步骤2中，所述孪生网络包括模板分支和搜索分支；

6.根据权利要求1所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，所述步骤4包括：

7.根据权利要求6所述的基于内部裁剪和多层特征信息融合的目标跟踪方法，其特征在于，所述步骤4.5中，使用尺度惩罚抑制目标尺度过大的变化，使用余弦窗抑制目标位移过大的变化，使用非极大抑制进行去重，最后选取分值最高的anchor作为目标在下一帧的位置。