CN112200831B

CN112200831B - 一种基于动态模板的密集连接孪生神经网络目标跟踪方法

Info

Publication number: CN112200831B
Application number: CN202010973244.3A
Authority: CN
Inventors: 产思贤; 王平浩; 周小龙; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2024-03-26
Anticipated expiration: 2040-09-16
Also published as: CN112200831A

Abstract

一种基于动态模板的密集连接孪生神经网络目标跟踪方法，包括以下步骤：1)提取输入模板帧和检测帧图像对特征：使用主干网络为DenseNet的孪生神经网络提取输入图像对特征；2)将特征图输入RPN网络，经过分类分支和回归分支得到多个proposals；筛选候选区域：使用余弦窗抑制和尺度惩罚筛选出最终的proposals；3)对模板分支和检测分支得到的proposals进行相似性度量，使用非极大抑制得到最终的bounding box，通过线性插值更新图像尺寸，得到在检测帧中目标最终的预测跟踪位置；4)使用置信度作为模板是否更新的评判依据，更新模板。本发明在处理视频序列中特定目标的跟踪取得了较好的效果。

Description

一种基于动态模板的密集连接孪生神经网络目标跟踪方法

技术领域

本发明涉及到计算机视觉中目标跟踪任务，是一种孪生神经网络目标跟踪框架，可以对视频序列执行跟踪定位功能，属于图像处理领域。

背景技术

基于视觉的目标跟踪是计算机视觉中众多任务里的一个重要分支，被广泛应用于智能安防，智慧交通和自动驾驶等领域。目标跟踪的任务就是在给定某视频序列初始帧的目标大小与位置的情况下，预测后续帧中该目标的大小与位置，实现对运动目标行为的分析和理解，以便完成后续更高级的任务。研究人员对目标跟踪技术的探索已有多年，目标跟踪算法的性能逐渐改善，但是在复杂条件下对运动目标实现实时、稳定的跟踪仍存在很大的挑战，面临的挑战主要有：形态变化、尺度变化、遮挡与消失、图像模糊等。

随着深度学习在目标跟踪领域的应用，以孪生神经网络为基础的算法凭借其良好的性能和速度引起了广泛的关注。Tao等人首次将孪生神经网络引入到目标跟踪，在OTB50数据集上取得了很好的效果，但是受限于候选采样处理的计算量，速度仅有2FPS，无法实时运行。Bertinetto等人采用全连接层减少了计算量，并且只使用了五层卷积层来训练相似性函数，在实时运行的情况下取得了良好的跟踪结果，但是其精度依然无法超过使用相关滤波的算法如ECO。

发明内容

为了克服现有技术的不足，本发明提出了一种基于动态模板的密集连接孪生神经网络目标跟踪方法，与现有的孪生神经网络目标跟踪框架不同的是，该方法引入了更深的且效果更好的密集连接网络DenseNet取代AlexNet作为孪生神经网络特征提取的主干网络，进一步提升了网络的性能，并且改变了当前不使用模板更新的策略，引入了动态的模板更新策略来避免复杂场景下模型发生漂移的现象。本发明创造性的将深层卷积神经网络应用到孪生目标跟踪网络中且使用了动态的模板更新策略，有效的提升了目标跟踪的精度以及算法运行的鲁棒性。

本发明解决其技术问题所采用的技术方案是：

一种基于动态模板的密集连接孪生神经网络目标跟踪方法，该方法包括以下步骤：

步骤1：使用孪生神经网络提取特征，过程如下：

步骤1.1：该网络由拥有三个Dense Block的DenseNet组成，相邻两个Dense Block之间连接一个1*1的卷积层和一个2*2mean-pooling层；

步骤1.2：每个Dense Block由Batch Normalization层、ReLU层和卷积层组成；

步骤1.3：视频序列的初始帧为模板帧，当前帧为检测帧，分别输入孪生神经网络，得到模板帧和检测帧的特征图；

步骤2：将特征图输入RPN网络，生成候选区域，过程如下：

步骤2.1：RPN网络由两部分组成，一部分是分类分支，用于区分目标和背景，另一部分是回归分支，用于微调候选区域；

步骤2.2：对于分类分支，RPN网络接收步骤1生成的模板帧和检测帧的特征图，使用一个新的卷积核对它们进行卷积操作，缩小特征图的同时产生了新的特征图；

步骤2.3：以模板帧特征图为卷积核对检测帧特征图进行卷积操作得到响应图；

步骤2.4：对于回归分支，执行上述相同的操作同样得到响应图，根据分类分支和回归分支的输出提取出得分前M的输出，得到前M个proposals的位置信息；

步骤3：确定跟踪位置，过程如下：

步骤3.1：对模板分支的proposals和检测分支的proposals做相似性度量，获得跟踪结果的bounding box；

步骤3.2：使用非极大抑制(NMS)对最后预测输出的bounding box进行筛选，得出最终跟踪到的目标bounding box；

步骤3.3：使用线性插值更新目标尺寸，得出最终在检测帧上跟踪得到的目标位置；

步骤4：更新模板，过程如下：使用置信度作为模板是否更新的评判依据，置信度计算方式如下：

其中，F_max，F_min，F_w,h分别代表响应图上的最大值，最小值和(w，h)位置上的响应值；当置信度突然减小的时候，是目标跟丢的情况，这种情况不宜进行模板的更新，避免发生跟踪漂移；只有当APCEs和F_max都以设定比例大于各自的历史均值时才进行模板更新。

经过上述步骤的操作，即可实现对视频序列中特定目标的精确跟踪。

进一步，所述2.4中，选择在目标周围7个单位内的anchors而不是整个特征图的anchors，删除了离目标较远的proposals，使用余弦窗抑制最大位移，使用尺度变化penalty抑制尺寸和比例的大幅变化，得出最后评分较高的五个proposals。

本发明的有益效果主要表现在：本发明提出一种基于密集连接孪生神经网络的目标跟踪方法。首先通过使用密集连接网络DenseNet为主干网络的孪生神经网络提取模板帧和检测帧的特征，然后通过RPN网络生成五个proposals，对模板分支和检测分支得到的proposals做相似性度量，获得预测的目标bounding box，使用非极大抑制对预测boundingbox进行筛选得出最终的目标bounding box，最后使用线性插值更新目标尺寸，得到检测帧中目标的具体位置。本发明可实现对视频序列中特定目标的精确跟踪。

附图说明

图1是本发明所提跟踪方法的算法框架示意图。

图2是密集连接孪生跟踪网络整体结构示意图。

图3是Dense Block结构示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于密集连接孪生神经网络的目标跟踪方法，所述方法包括特征提取，生成候选区域，确定跟踪位置三个过程。图2为密集连接孪生跟踪网络的整体结构，分为孪生网络特征提取和RPN网络生成候选区域两个部分。图3是Dense Block结构示意图。

所述基于密集连接孪生神经网络的目标跟踪方法包括以下步骤：

步骤1：使用孪生神经网络提取特征，过程如下：

步骤1.1：该网络主要以DenseNet为基础，由上下两个部分组成，两个部分共享权重和网络结构，分别接受模板帧和检测帧图像的输入；

步骤1.2：每个部分的主要结构都是使用三个Dense Block的DenseNet，相邻两个Dense Block之间连接一个1*1的卷积层和一个2*2的mean-pooling层；

步骤1.3：每个Dense Block由均由Batch Normalization层、ReLU层和卷积层三个部分组成；

步骤1.4：模板帧和检测帧经过这样的孪生网络结构分别得到各自的特征图；

步骤2：将特征图输入RPN网络，生成候选区域，过程如下：

根据以下策略选择proposals；：选择在目标周围7个单位内的anchors而不是整个特征图的anchors，删除了离目标较远的proposals，使用余弦窗抑制最大位移，使用尺度变化penalty抑制尺寸和比例的大幅变化，得出最后评分较高的五个proposals；

步骤3：确定跟踪位置，过程如下：

步骤3.1：对模板分支和检测分支得到的proposals进行相似性度量，获得跟踪结果的bounding box；

步骤3.2：使用非极大抑制NMS对预测得到的多个bounding box进行筛选，得出最终的跟踪结果bounding box；

步骤3.3：使用线性插值更新模板尺寸，得出最终在检测帧上跟踪得到的目标位置；

经过上述步骤的操作，即可实现对视频序列中的选定目标的精确跟踪。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于动态模板的密集连接孪生神经网络目标跟踪方法，其特征在于，该方法包括以下步骤：

步骤1：使用孪生神经网络提取特征，过程如下：

步骤2：将特征图输入RPN网络，生成候选区域，过程如下：

步骤2.4：对于回归分支，执行与分类分支相同的操作得到响应图，根据分类分支和回归分支的输出提取出得分前M的输出，得到前M个proposals的位置信息；

步骤3：确定跟踪位置，过程如下：

步骤3.2：使用非极大抑制NMS对最后预测输出的bounding box进行筛选，得出最终跟踪到的目标bounding box；

其中，F_max，F_min，F_w，h分别代表响应图上的最大值，最小值和(w，h)位置上的响应值；当置信度突然减小的时候，是目标跟丢的情况，这种情况不宜进行模板的更新，避免发生跟踪漂移；只有当APCEs和F_max都以设定比例大于各自的历史均值时才进行模板更新。

2.如权利要求1所述的一种基于动态模板的密集连接孪生神经网络目标跟踪方法，其特征在于，所述步骤2.4中，选择在目标周围7个单位内的anchors而不是整个特征图的anchors，删除了离目标较远的proposals，使用余弦窗抑制最大位移，使用尺度变化penalty抑制尺寸和比例的大幅变化，得出最后评分较高的五个proposals。