CN113076123A

CN113076123A - 一种用于目标跟踪的自适应模板更新系统及方法

Info

Publication number: CN113076123A
Application number: CN202110420541.XA
Authority: CN
Inventors: 陈志�; 张天宇; 王爽; 赵桂秋; 姜竹青
Original assignee: Zhiling Hi Tech Development Beijing Co ltd
Current assignee: Zhiling Hi Tech Development Beijing Co ltd
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-06

Abstract

本发明提供一种用于目标跟踪的自适应模板更新系统及方法，包括：初始模板模块、累积模板模块、预测模板模块、级联模块、非线性残差计算单元和图像输出模块；所述级联模块分别与所述初始模板模块、所述累积模板模块和所述预测模板模块连接，用于合并三个模块输入的通道数；所述线性残差计算单元用于从初始模板模块中获取目标模板、从所述累积模板模块中获取前一时刻的累积模板、从预测模板模块中获取当前时刻的预测模板，并根据目标模板、前一时刻的累积模板和当前时刻的预测模板计算更新后的累积模板；所述图像输出模块用于根据所述累积模板实时更新目标在每一帧图像中的位置。

Description

一种用于目标跟踪的自适应模板更新系统及方法

技术领域

本发明涉及计算机视觉目标跟踪技术领域，具体而言，涉及一种用于目标跟踪的自适应模板更新系统及方法。

背景技术

现代跟踪器有两个分支。第一个分支是基于相关滤波(Correlation Filter,CF)的跟踪器，相关滤波通过利用循环相关(Circular Correlation)的特性并在傅立叶域中执行运算来训练回归器，可以进行在线跟踪并同时有效地更新滤波器的权重。随着深度学习的发展，最近所提出的基于相关滤波的方法使用深层特征来提高跟踪器的准确性，但在模型更新期间会极大地降低速度，几乎无法满足实时性要求。另一分支旨在使用深度学习来使模型获得强大的自主学习特征的能力。其中，基于深度学习的跟踪器包括两类。第一类是经过预训练的判别式分类器，并根据指定的追踪对象在线更新分类器，以区分目标前景与背景。这种类型的跟踪器可以有效地利用背景信息，从而在多个测试基准集上展现出较强的鲁棒性。但是，此类方法依赖于复杂的在线学习过程，不仅使得网络无法轻松地在端到端的学习框架中制定，还导致整体的执行速度变慢，无法满足实时性要求。

第二类是基于相似度匹配的跟踪器，此类跟踪器通过将模板帧与搜索帧中的候选区域进行互相关操作，取得分图中最高相似性得分的位置作为此刻目标的位置。这种方法的显著优点是不需要或只需很少的在线训练，可以很容易地进行实时跟踪。而深度卷积神经网络通常使用孪生(Siamese)结构来实现相似性学习，其开拓性结构是由LucaBertinetto等人提出的全卷积孪生网络(Fully-Convolutional Siamese Networks,SiamFC)。全卷积网络的优势在于，可以将更大的搜索图像作为输入提供给卷积网络，并且其在单次测试中将计算密集网格上所有滑动子窗口的相似性。在训练时，这种机制使得每个滑动子窗口在几乎没有额外消耗的情况下都有效表示了样本特征。在SiamFC之后，又涌现出了大量基于Siamese结构改进的追踪器。CFNet在SiamFC的基础上加入了CF层，在不降低追踪精度的前提下使用了较少的卷积层数，并且网络可以实现端到端的训练。DSiam设计了一个能够有效利用前几帧来在线学习目标的外观变化和背景抑制的快速更新模块，以此提高Siamese跟踪器在目标变形和背景嘈杂情况下的鲁棒性。SiamRPN在孪生网络之后又引入了区域生成网络，使得模型可以进行基于分类和回归的联合跟踪。DaSiamRPN基于SiamRPN的训练数据集做了数据增强，不仅扩展了训练数据集的数量，还进一步引入了有语意信息的负样本对来增强跟踪器的判别能力，使得跟踪模型在复杂环境下的鲁棒性得到了提高，并具备了将短时跟踪拓展到长时跟踪的能力。

现阶段目标跟踪最主流的方法就是基于Siamese孪生网络的相似度匹配。通俗来说就是一段视频序列中的每一帧图像都与对应的目标模板做相似度匹配操作，得分图中得分最高的位置就是此目标在每一帧图像中的位置。所以，每一帧目标模板的准确性至关重要。但其使用的传统模板更新机制大多为线性更新。采用线性更新的结果就是模板更新器对视频序列中的每一帧图像所需要的模板都采用恒定的更新幅度。但这与实际应用是不相符的，因为视频中的被跟踪目标在每一帧图像中的变化幅度肯定是不一样的，也就是说每一帧图像对于模板更新幅度的需求是不同的。所以线性更新机制容易使跟踪器使出现跟踪漂移的情况，也就是目标丢失。因此需要提供一种方案以便于根据每一帧的实际更新需求来自动调整自身更新幅度大小。

发明内容

本发明的目的在于提供一种用于目标跟踪的自适应模板更新系统及方法，用以实现根据每一帧的实际更新需求来自动调整自身更新幅度大小的技术效果。

第一方面，本发明提供了一种用于目标跟踪的自适应模板更新系统，包括初始模板模块、累积模板模块、预测模板模块、级联模块、非线性残差计算单元和图像输出模块；所述级联模块分别与所述初始模板模块、所述累积模板模块和所述预测模板模块连接，用于合并三个模块输入的通道数；所述线性残差计算单元用于从初始模板模块中获取目标模板、从所述累积模板模块中获取前一时刻的累积模板、从预测模板模块中获取当前时刻的预测模板，并根据目标模板、前一时刻的累积模板和当前时刻的预测模板计算更新后的累积模板；所述图像输出模块用于根据所述累积模板实时更新目标在每一帧图像中的位置。

进一步地，所述非线性残差计算单元包括第一组卷积层与所述第一组卷积层连接的通道混洗层；与所述通道混洗层连接的第二组卷积层；以及与所述第二组卷积层连接的跳跃连接加法运算层；所述第一组卷积层用于提取输入图像信号的特征信息，并完成降维操作，降低后续操作的参数量，输入为6×6×768的图像信号，输出为6×6×96的图像信号；所述通道混洗层用于组卷积来自不同组的输入数据，使得输入和输出通道之间处于全关联状态；所述第二组卷积层用于提取输入图像信号的特征信息，并完成升维操作，恢复图像信号的通道数，输入为6×6×96的图像信号，输出为6×6×256的图像信号；所述跳跃连接加法运算层用于将第二组卷积层的输出与初始模板模块、累积模板模块、预测模板模块之间跳跃连接时获取到的模板进行相加后输出。

进一步地，所述第一组卷积层是参数为1×1×768×96的组卷积层；所述第二组卷积层为是参数为1×1×96×256的组卷积层。

进一步地，所述非线性残差计算单元的计算方式为：

式中，φ表示残差计算函数，

表示目标模板；

表示上一帧的累积模板；T_i表示预测模板；

表示更新后的累积模板。

进一步地，所述初始模板模块、所述累积模板模块和所述预测模板模块中的图像大小均为6×6×256。

第二方面，本发明提供了一种用于目标跟踪的自适应模板更新方法，应用于上述的自适应模板更新系统，包括：

S1.基于目标图像的时间特征和所述目标图像经过深层神经网路提取的外观特征构建自适应模板更新网络；

S2.根据目标模板、上一帧的累积模板和当前帧的预测模板的确定非线性残差计算单元的具体计算方式；

S3.通过多步迭代训练的方式训练所述自适应模板更新网络，获取用于模板更新的模型。

进一步地，所述S3的训练过程包括：

S31.训练第1阶段，让跟踪器在训练集上运行基于标准的线性更新策略，获得在下一阶段的训练数据；所述训练数据包括每帧数据生成的累积模板和实际的预测模板；

S32.训练第2-k阶段，使用前一阶段所获得的累积模板和预测模板作为训练集来训练当前阶段的只使用模板更新网络。

进一步地，所述线性更新策略的计算方法为：

式中，

表示上一帧的累积模板；T_i表示预测模板；

表示更新后的累积模板；γ表示更新速率，标准值为0.01。

进一步地，所述S32的实现方法为：

式中，k表示迭代次数。

本发明能够实现的有益效果是：本发明基于现阶段的深层网络跟踪器，突破以往跟踪器使用线性插值来更新每帧模板的限制，提出一种全新的非线性快速模板更新系统，通过提供的自适应模板更新系统可以根据每一帧的实际更新需求来自动调整自身更新幅度大小增强了跟踪器对于复杂环境的鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种自适应模板更新系统的拓扑结构示意图；

图2为本发明实施例提供的一种通道混洗层的实现流程示意图；

图3为本发明实施例提供的一种自适应模板更新系统的实际效果图；

图4为本发明实施例提供的一种自适应模板更新方法的流程示意图。

图标：10-自适应模板更新系统；100-初始模板模块；200-累积模板模块；300-预测模板模块；400-级联模块；500-非线性残差计算单元；510-跳跃连接加法运算层；600-图像输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参看图1、图2和图3，图1为本发明实施例提供的一种自适应模板更新系统的拓扑结构示意图；图2为本发明实施例提供的一种通道混洗层的实现流程示意图；图3为本发明实施例提供的一种自适应模板更新系统的实际效果图。

在一种实施方式中，本发明实施例提供了一种用于目标跟踪的自适应模板更新系统10，包括初始模板模块100、累积模板模块200、预测模板模块300、级联模块400、非线性残差计算单元500和图像输出模块600；级联模块400分别与初始模板模块100、累积模板模块200和预测模板模块300连接，用于合并三个模块输入的通道数；线性残差计算单元用于从初始模板模块100中获取目标模板、从累积模板模块200中获取前一时刻的累积模板、从预测模板模块300中获取当前时刻的预测模板，并根据目标模板、前一时刻的累积模板和当前时刻的预测模板计算更新后的累积模板；图像输出模块600用于根据累积模板实时更新目标在每一帧图像中的位置。

在一种实施方式中，非线性残差计算单元500包括第一组卷积层与第一组卷积层连接的通道混洗层；与通道混洗层连接的第二组卷积层；以及与第二组卷积层连接的跳跃连接加法运算层510；第一组卷积层用于提取输入图像信号的特征信息，并完成降维操作，降低后续操作的参数量，输入为6×6×768的图像信号，输出为6×6×96的图像信号；通道混洗层用于组卷积来自不同组的输入数据，使得输入和输出通道之间处于全关联状态；第二组卷积层用于提取输入图像信号的特征信息，并完成升维操作，恢复图像信号的通道数，输入为6×6×96的图像信号，输出为6×6×256的图像信号；跳跃连接加法运算层510用于将第二组卷积层的输出与初始模板模块100、累积模板模块200、预测模板模块300之间跳跃连接时获取到的模板进行相加后输出。

具体地，在非线性残差计算单元500中，应用组卷积的优势在于其本身可以确保每个卷积操作仅在对应的输入通道组中进行，这样做可以显著降低计算损失。然而，如果多个组卷积堆叠在一起，会造成某个通道的输出仅由一小部分输入通道决定的现象，这样又降低了通道组之间的信息流通，降低了特征的表示能力。为解决上述问题，在组卷积之间引入通道混洗模块，该模块允许组卷积能够得到来自不同组的输入数据，使得输入和输出通道之间处于一种全关联状态。

在一种实施方式中，第一组卷积层是参数为1×1×768×96的组卷积层；第二组卷积层为是参数为1×1×96×256的组卷积层。初始模板模块、累积模板模块和预测模板模块中的图像大小均为6×6×256。

具体地，非线性残差计算单元的计算方式为：

式中，φ表示残差计算函数，

表示目标模板；

表示上一帧的累积模板；T_i表示预测模板；

表示更新后的累积模板。

如图2所示，通道混洗模层进行操作使用，使用以下步骤实现：

若一个卷积层被分为G组，则其一共有G×N个输出通道。首先进行reshape操作，得到(G,N)，然后将其转置为(N,G)，最后进行坦平分组得到下一层的输入。这样操作的好处在于整个过程是可微的，可以使模型进行端到端的训练。

为先确定在跳跃连接(Skip)结构的最优解，选取了训练耗时短的SiamFC在进行了一系列实验，得到实验结果如表1所示。当跳连到三项输入中的

时，跟踪器取得的性能是最优的，与最初的假设一致。其中，---表示无跳连结构。

表1基于VOT2018的Skip实验结果

请参看图4，图4为本发明实施例提供的一种自适应模板更新方法的流程示意图。

在一种实施方式中，本发明实施例还提供了一种自适应模板更新方法，包括：

S1.基于目标图像的时间特征和目标图像经过深层神经网路提取的外观特征构建自适应模板更新网络；

S3.通过多步迭代训练的方式训练自适应模板更新网络，获取用于模板更新的模型。

其中，S3的训练过程包括：

S31.训练第1阶段，让跟踪器在训练集上运行基于标准的线性更新策略，获得在下一阶段的训练数据；训练数据包括每帧数据生成的累积模板和实际的预测模板；

线性更新策略的计算方法为：

式中，

表示上一帧的累积模板；T_i表示预测模板；

表示更新后的累积模板；γ表示更新速率，标准值为0.01。

S32的实现方法为：

式中，k表示迭代次数。

下面按照本发明方法进行实验，说明本发明的效果。

测试环境：Ubuntu16.04、Python3.0、Pytorch。

测试数据：用于目标跟踪的公共数据集VOT系列。

评价指标：

Accuracy：用来评价tracker跟踪目标的准确度，数值越大，准确度越高。

Robustness：用来评价tracker跟踪目标的稳定性，数值越大，稳定性越差。

EAO：基于overlap定义的accuracy，数值越大，性能越强。

测试结果：

首先使用SimFC和DiaSiamRPN作为基础跟踪器对自适应模板更新网络进行了测试，测试结果如图3所示。

由于SiamFC和DiaSiamRPN所使用的基础网络是层数较浅的AlexNet，为了更好地探究本发明提供的自适应模板更新系统(以下简称FtuNet)在深层网络中的表现，所以引入根据ResNet和Inception结构改进的基于深层特征的跟踪器SiamDW。将FtuNet应用于SiamDW，并分别在VOT2015、VOT2016、VOT2017上进行测试，结果如表2所示。

表2在SiamDW下自适应模板更新网络的实际效果

综上所述，本发明实施例提供一种用于目标跟踪的自适应模板更新系统及方法，包括：初始模板模块、累积模板模块、预测模板模块、级联模块、非线性残差计算单元和图像输出模块；所述级联模块分别与所述初始模板模块、所述累积模板模块和所述预测模板模块连接，用于合并三个模块输入的通道数；所述线性残差计算单元用于从初始模板模块中获取目标模板、从所述累积模板模块中获取前一时刻的累积模板、从预测模板模块中获取当前时刻的预测模板，并根据目标模板、前一时刻的累积模板和当前时刻的预测模板计算更新后的累积模板；所述图像输出模块用于根据所述累积模板实时更新目标在每一帧图像中的位置。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于目标跟踪的自适应模板更新系统，其特征在于，包括：初始模板模块、累积模板模块、预测模板模块、级联模块、非线性残差计算单元和图像输出模块；所述级联模块分别与所述初始模板模块、所述累积模板模块和所述预测模板模块连接，用于合并三个模块输入的通道数；所述线性残差计算单元用于从初始模板模块中获取目标模板、从所述累积模板模块中获取前一时刻的累积模板、从预测模板模块中获取当前时刻的预测模板，并根据目标模板、前一时刻的累积模板和当前时刻的预测模板计算更新后的累积模板；所述图像输出模块用于根据所述累积模板实时更新目标在每一帧图像中的位置。

2.根据权利要求1所述的自适应模板更新系统，其特征在于，所述非线性残差计算单元包括第一组卷积层与所述第一组卷积层连接的通道混洗层；与所述通道混洗层连接的第二组卷积层；以及与所述第二组卷积层连接的跳跃连接加法运算层；所述第一组卷积层用于提取输入图像信号的特征信息，并完成降维操作，降低后续操作的参数量，输入为6×6×768的图像信号，输出为6×6×96的图像信号；所述通道混洗层用于组卷积来自不同组的输入数据，使得输入和输出通道之间处于全关联状态；所述第二组卷积层用于提取输入图像信号的特征信息，并完成升维操作，恢复图像信号的通道数，输入为6×6×96的图像信号，输出为6×6×256的图像信号；所述跳跃连接加法运算层用于将第二组卷积层的输出与初始模板模块、累积模板模块、预测模板模块之间跳跃连接时获取到的模板进行相加后输出。

3.根据权利要求1所述的自适应模板更新系统，其特征在于，所述第一组卷积层是参数为1×1×768×96的组卷积层；所述第二组卷积层为是参数为1×1×96×256的组卷积层。

4.根据权利要求1所述的自适应模板更新系统，其特征在于，所述非线性残差计算单元的计算方式为：