CN108682022B

CN108682022B - 基于对抗迁移网络的视觉跟踪方法及系统

Info

Publication number: CN108682022B
Application number: CN201810381169.4A
Authority: CN
Inventors: 鲁继文; 周杰; 刘礼杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2020-11-24
Anticipated expiration: 2038-04-25
Also published as: CN108682022A

Abstract

本发明提出了一种基于对抗迁移网络的视觉跟踪方法及系统，其中，方法包括：对训练集进行特征提取以得到特征矩阵，并根据训练集训练通用的样本特征提取器和目标背景样本分类器；在得到线上跟踪任务提供的第一帧图片后，从训练集中查找与线上跟踪任务相似度最大的一个视频；根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练；根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪。该方法能够解决视觉跟踪方法中的负迁移问题，大量训练迁移后的训练样本使得跟踪网络拥有更强跟踪能力，显著提高跟踪算法的鲁棒性和精确度。

Description

基于对抗迁移网络的视觉跟踪方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于对抗迁移网络的视觉跟踪方法及系统。

背景技术

视觉跟踪问题是计算机视觉领域中的一个重要而又基本的问题，同时也是实现很多高级计算机视觉任务的基础，比如机器人应用，智能化视频监控系统，医疗图像分析和智能交通控制等。视觉跟踪问题可以定义为：给定待跟踪目标在视频中第一帧的位置后，需要算法在接下来的每一帧中根据图像信息和上一帧的位置估计出移动目标在这一帧中的状态。

从框架上来看，过去几十年最为经典的视觉跟踪方法主要可以被分为两大类，一类是产生式方法，一类是判别式方法。产生式方法的核心思想是通过学习一个模板去寻找每一帧中与模板最相似的那一个图像块作为跟踪的目标，候选图像块一般由粒子滤波框架给出。判别式方法则是利用机器学习的理论，通过在真实目标周围使用各种运动模型采集出主体是背景的负样本图像块和主体是目标的正样本图像块，用这些有标签的图像块训练出一个分类器，并用分类器对下一帧中采集到的新样本进行分类，并把其中得分最高的候选区域样本作为这一帧跟踪的结果。尽管已经有很多巧妙的跟踪算法被提出，但是在很多实际应用中，算法的跟踪性能还不是很令人满意，因为不同的跟踪任务中的待跟踪目标往往差异很大，同时目标在跟踪过程中发生的剧烈形变也会导致对跟踪目标的建模难度增加。

目前主流的跟踪算法包括两类：基于相关滤波的跟踪算法和基于卷积神经网络的跟踪算法。受益于快速傅里叶变换，基于相关滤波的跟踪算法可以达到很高的跟踪速度，相关技术中首次将相关滤波的思想应用于视觉跟踪中，提出了最小均方误差输出和滤波器，并达到了669FPS的跟踪速度。相关技术中进一步用循环矩阵理论给出了相关滤波算法的原理分析，并提出了核化相关滤波器，进一步提高了跟踪的精度。相关技术中通过对相关滤波跟踪算法引入卷积神经网络特征，使得基于相关滤波的跟踪算法达到了最先进的水平。但是，随着相关滤波所使用的特征变得越来越复杂，其跟踪速度上的优势也不复存在。

基于卷积神经网络的跟踪算法使用深度卷积神经网络来对目标的外观进行建模，但是通常都会由于巨大的计算量而导致跟踪速度很慢，早期的基于卷积神经网络的跟踪算法通常是在离线训练好网络以后就将其作为一个通用的特征提取器，相关技术中使用一个图像数据集训练出了一个紧凑的目标表征方式用于对跟踪目标进行建模。相关技术中发现了卷积神经网络的底层往往能够获取到目标和背景之间的判别信息，而顶层网络则是作为一个类别检测器。相关技术中通过使用带有标签的视频进行训练，并且在线收集样本对网络进行微调成功达到了视觉跟踪领域的先进水平。

此外，也有很多方法尝试将基于相关滤波的跟踪算法和基于卷积神经网络的算法进行融合。相关技术中提出在不同的卷积神经网络层学习相关滤波器，从而得到层次化的滤波响应用于跟踪。相关技术中使用图像对来训练卷积神经网络，并使用第一帧作为模板来对后续的帧进行匹配。

尽管基于深度神经网络的跟踪算法已经成为了视觉跟踪领域的主流算法，但是这些算法往往都需要大量的标注样本进行训练。然而，对于视觉跟踪任务，只有第一帧可以提供准确的正负样本。为了解决这个问题，很多算法都尝试用有标注的图片或视频数据训练出一个通用的模型，然后再用线上第一帧中的样本对模型进行微调。尽管这种做法也得到了不错的跟踪效果，但是却不可避免的会导致负迁移现象，因为这种做法忽视了不同跟踪任务中待跟踪目标之间的本质差异。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一方面目的在于提出一种具有更强跟踪能力，更高鲁棒性和精确度的基于对抗迁移网络的视觉跟踪方法。

本发明另一方面目的在于提出一种基于对抗迁移网络的视觉跟踪系统。

为达到上述目的，本发明一方面的实施例提出了一种基于对抗迁移网络的视觉跟踪方法，包括以下步骤：对训练集进行特征提取以得到特征矩阵，并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器；在得到线上跟踪任务提供的第一帧图片后，从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频；根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练；根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪。

根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪方法，通过建立特征矩阵和查找相似度最大的一个视频，使之有选择性地在相似的跟踪任务之间进行对抗迁移学习，从而更好地实现对每一帧图像进行跟踪，使得跟踪网络拥有更强跟踪能力，显著提高跟踪算法的鲁棒性和精确度。

在一些示例中，从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频，包括：根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频，其中，所述距离为：

在一些示例中，所述根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练，包括：

学习目标函数，所述目标函数为：

其中，X_s和X_t分别为源域和目标域中的样本；

具体训练迭代过程为首先训练判别器，令

表示判别网络，参数为θ_d，则θ_d通过优化损失函数L_d得到：

其中，损失函数L_d是二值交叉熵损失，定义为：

其中，

分别是源域和目标域中的目标和背景样本，

表示目标域第一帧中的样本训练出来的特征提取器，

是源域目标特征提取器，

其中，生成器的训练包括，令

表示生成网络，参数为θ_s，则θ_s通过优化损失函数L_s得到：

其中，损失函数L_s包含对抗损失L_adv和跟踪分类器损失L_f，其中，

其中，对抗损失L_adv定义为：

跟踪分类器损失L_f定义为：

其中，

是相应的样本的输出标签，

则分别是源域和目标域中的分类准确率。

在一些示例中，所述根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪，包括：使用判别式跟踪方法对每一帧采集样本并打分，并将得分最高的样本作为跟踪结果，以对每一帧图像进行跟踪，以及使用长短时更新方法对对抗迁移网络进行线上更新。

本发明的另一方面的实施例提出了一种基于对抗迁移网络的视觉跟踪系统，包括：提取模块，用于对训练集进行特征提取以得到特征矩阵，并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器；匹配模块，用于在得到线上跟踪任务提供的第一帧图片后，从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频；训练模块，用于根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练；跟踪模块，用于根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪。

根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪系统，通过建立特征矩阵和查找相似度最大的一个视频，使之有选择性地在相似的跟踪任务之间进行对抗迁移学习，从而更好地实现对每一帧图像进行跟踪，使得跟踪网络拥有更强跟踪能力，显著提高跟踪算法的鲁棒性和精确度。

在一些示例中，所述特征矩阵包括多个512维深度特征。

在一些示例中，所述匹配模块用于：根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频，其中，所述距离为：

在一些示例中，所述训练模块用于：

学习目标函数，所述目标函数为：

其中，X_s和X_t分别为源域和目标域中的样本；

具体训练迭代过程为首先训练判别器，令

其中，损失函数L_d是二值交叉熵损失，定义为：

其中，

分别是源域和目标域中的目标和背景样本，

表示目标域第一帧中的样本训练出来的特征提取器，

是源域目标特征提取器，

其中，生成器的训练包括，令

其中，对抗损失L_adv定义为：

跟踪分类器损失L_f定义为：

其中，

是相应的样本的输出标签，

则分别是源域和目标域中的分类准确率。

在一些示例中，所述跟踪模块用于：使用判别式跟踪方法对每一帧采集样本并打分，并将得分最高的样本作为跟踪结果，以对每一帧图像进行跟踪，以及使用长短时更新方法对对抗迁移网络进行线上更新。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明实施例使用的算法与已有的基于卷积神经网络的跟踪算法的核心区别示意图；

图2是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程图；

图3是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程示意图；

图4是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法所设计的网络的结构示意图；和

图5是本发明实施例的基于对抗迁移网络的视觉跟踪系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

图1是本发明实施例使用的算法与已有的基于卷积神经网络的跟踪算法的核心区别示意图，本发明的实施例提出了一种基于对抗迁移网络的视觉跟踪方法。具体地，本发明实施例提出了一种新的深度网络架构，和已有的基于卷积神经网络的跟踪算法相比，如图1所示，本发明实施例的核心思想是要减小很多已有的基于深度卷积网络的跟踪算法中出现的负迁移现象。

本发明实施例将视觉跟踪看成了一个迁移学习问题，其中目标域就是线上视频，而源域就是线下的训练视频，通过深度对抗迁移学习，本网络架构可以成功地在相似的跟踪任务之间迁移每个域特定的信息，因此为线上跟踪过程提供了更多的训练样本。

下面结合附图详细介绍本发明实施例的基于对抗迁移网络的视觉跟踪方法。

图2是根据本发明一个实施例的基于对抗迁移网络的视觉跟踪方法的流程图，如图2所示并结合图3根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程示意图，该方法具体步骤如下所示：

S1：对训练集进行特征提取以得到特征矩阵，并根据训练集训练通用的样本特征提取器和目标背景样本分类器。

具体来说，由于视频跟踪任务对于速度要求很高，因此我们将一些计算过程都提前做好，预处理阶段首先要训练一个通用的视觉跟踪网络特征矩阵，以便在迁移阶段进行进一步的训练。

进一步地，在一个具体示例中，根据训练集训练通用的样本特征提取器和目标背景样本分类器，例如：可以利用ImageNet上预训练好的VGG网络提取出数据集每一帧中跟踪目标的512维深度特征，这样在选择阶段，就可以根据特征进行选择。

S2：在得到线上跟踪任务提供的第一帧图片后，从训练集中查找与线上跟踪任务相似度最大的一个视频。

具体来说，该步骤的目的是从大量的训练视频中选择出和线上跟踪任务最相似的那个视频，这样在迁移阶段，则是在这两个视频之间进行。选择阶段使用的算法是k近邻单纯形重构法，我们将选择阶段建模为一个点到集合的距离最小化问题，其中点就是线上跟踪视频第一帧，而集合就是训练集中的每个视频。k近邻单纯形重构法假设点都位于一个周围空间的子流形上，这和帧与视频的关系相符。

在具体的示例中，可以用

表示线上跟踪任务第一帧中目标的CNN特征，V_i表示训练视频集中的第i个视频，其中第j帧中目标的CNN特征表示为

因此定义视频V_i的k近邻单纯形为：

其中，集合

就是视频V_i中X_t的k个近邻。线上跟踪任务和线下训练视频V_i之间的距离可以通过最下化下列重构误差得到：

在计算得到距离以后，我们很容易通过选择距离最小的那个视频作为我们的迁移阶段的视频：

其中，i^*就是所选视频的索引。

S3：根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练。

简而言之，该步骤可以被看作是一个迁移学习步骤，其中目标域是线上跟踪任务，而源域是之前步骤S2中选出来的那个视频。该步骤可以视为迁移阶段，其目的是要最小化源域和目标域之间的特征差异，这样源域中大量带有标记的训练样本就可以迁移到目标域，并被用于训练用于线上跟踪的网络。

在一个具体示例中，如图4所示，本实施例所设计的网络的结构包含4个子网络，分别是目标域特征提取网络M，源域特征提取网络G，跟踪分类器F和域判别器D。其中M是使用目标域的第一帧样本进行训练得到，因此可以获取到目标域的特征并适合用于目标域的目标背景分类。G是使用源域中的有标签样本进行训练得到，因此适合用于源域的目标背景分类。F是M的分类层和G的分类层的融合，因此既可以分类目标域和源域中的特征。D是用于判断特征是属于源域还是属于目标域。

迁移阶段的目标是通过迭代的训练G和D，来使得源域和目标域中的特征无法区分，因此学习的目标函数如下：

其中X_s和X_t分别代表了源域和目标域中的样本。

具体的训练迭代过程是先训练判别器，令

表示判别网络，其参数为θ_d，则θ_d可以通过优化损失函数L_d得到：

其中损失函数L_d是二值交叉熵损失，定义为：

其中

分别是源域和目标域中的目标和背景样本，而

表示目标域第一帧中的样本训练出来的特征提取器，而

是源域目标特征提取器。

对于生成器的训练，令

表示生成网络，其参数为θ_s，则θ_s可以通过优化损失函数L_s得到：

其中损失函数L_s包含了两个重要组成部分，对抗损失L_adv和跟踪分类器损失L_f，前者减少了域间的差异，而后者保证了跟踪的精度：

其中对抗损失L_adv定义为：

跟踪分类器损失L_f定义为：

其中

是相应的样本的输出标签，而

则分别是源域和目标域中的分类准确率。

S4：根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪。

在一个具体示例中，可以使用经典的通过检测跟踪框架，对于每一帧，首先采样256个样本候选区域，将这些区域送到网络M和G中，得到特征，再用F对这些特征进行评分，将得分最高的5个样本的平均位置作为这一帧的跟踪结果，同时利用长短时更新使得网络可以跟随目标的变化，长时更新每10帧进行一次，而短时更新是在最高得分低于0的时候进行一次，每次更新的时候都会使用之前帧中的正负样本对网络进行更新

图5是本发明实施例的基于对抗迁移网络的视觉跟踪系统的结构示意图，如图5所示，本发明实施例的基于对抗迁移网络的视觉跟踪系统10，包括：提取模块101、匹配模块102、训练模块103和跟踪模块104。

其中，提取模块101，用于对训练集进行特征提取以得到特征矩阵，并根据训练集训练通用的样本特征提取器和目标背景样本分类器。

在一个实施例中，特征矩阵包括多个512维深度特征。

匹配模块102，用于在得到线上跟踪任务提供的第一帧图片后，从训练集中查找与线上跟踪任务相似度最大的一个视频。

在一个实施例中，匹配模块用于：根据训练集中的图像与第一帧图片之间的距离得到与线上跟踪任务相似度最大的一个视频，其中，距离为：

训练模块103，用于根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练。

在一个实施例中，训练模块用于：学习目标函数，目标函数为：

其中，X_s和X_t分别为源域和目标域中的样本；

具体训练迭代过程为首先训练判别器，令

其中，损失函数L_d是二值交叉熵损失，定义为：

其中，

分别是源域和目标域中的目标和背景样本，

表示目标域第一帧中的样本训练出来的特征提取器，

是源域目标特征提取器，

其中，生成器的训练包括，令

其中，对抗损失L_adv定义为：

跟踪分类器损失L_f定义为：

其中，

是相应的样本的输出标签，

则分别是源域和目标域中的分类准确率。

跟踪模块104，用于根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器，对每一帧图像进行跟踪。

在一个实施例中，跟踪模块用于：使用判别式跟踪方法对每一帧采集样本并打分，并将得分最高的样本作为跟踪结果，以对每一帧图像进行跟踪，以及使用长短时更新方法对对抗迁移网络进行线上更新。

需要说明的是，前述对基于对抗迁移网络的视觉跟踪方法实施例的解释说明也适用于该基于对抗迁移网络的视觉跟踪系统，此处不再赘述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。