CN108682022B - 基于对抗迁移网络的视觉跟踪方法及系统 - Google Patents

基于对抗迁移网络的视觉跟踪方法及系统 Download PDF

Info

Publication number
CN108682022B
CN108682022B CN201810381169.4A CN201810381169A CN108682022B CN 108682022 B CN108682022 B CN 108682022B CN 201810381169 A CN201810381169 A CN 201810381169A CN 108682022 B CN108682022 B CN 108682022B
Authority
CN
China
Prior art keywords
tracking
frame
training
video
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810381169.4A
Other languages
English (en)
Other versions
CN108682022A (zh
Inventor
鲁继文
周杰
刘礼杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810381169.4A priority Critical patent/CN108682022B/zh
Publication of CN108682022A publication Critical patent/CN108682022A/zh
Application granted granted Critical
Publication of CN108682022B publication Critical patent/CN108682022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于对抗迁移网络的视觉跟踪方法及系统,其中,方法包括:对训练集进行特征提取以得到特征矩阵,并根据训练集训练通用的样本特征提取器和目标背景样本分类器;在得到线上跟踪任务提供的第一帧图片后,从训练集中查找与线上跟踪任务相似度最大的一个视频;根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练;根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪。该方法能够解决视觉跟踪方法中的负迁移问题,大量训练迁移后的训练样本使得跟踪网络拥有更强跟踪能力,显著提高跟踪算法的鲁棒性和精确度。

Description

基于对抗迁移网络的视觉跟踪方法及系统
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于对抗迁移网络的视觉跟踪方法及系统。
背景技术
视觉跟踪问题是计算机视觉领域中的一个重要而又基本的问题,同时也是实现很多高级计算机视觉任务的基础,比如机器人应用,智能化视频监控系统,医疗图像分析和智能交通控制等。视觉跟踪问题可以定义为:给定待跟踪目标在视频中第一帧的位置后,需要算法在接下来的每一帧中根据图像信息和上一帧的位置估计出移动目标在这一帧中的状态。
从框架上来看,过去几十年最为经典的视觉跟踪方法主要可以被分为两大类,一类是产生式方法,一类是判别式方法。产生式方法的核心思想是通过学习一个模板去寻找每一帧中与模板最相似的那一个图像块作为跟踪的目标,候选图像块一般由粒子滤波框架给出。判别式方法则是利用机器学习的理论,通过在真实目标周围使用各种运动模型采集出主体是背景的负样本图像块和主体是目标的正样本图像块,用这些有标签的图像块训练出一个分类器,并用分类器对下一帧中采集到的新样本进行分类,并把其中得分最高的候选区域样本作为这一帧跟踪的结果。尽管已经有很多巧妙的跟踪算法被提出,但是在很多实际应用中,算法的跟踪性能还不是很令人满意,因为不同的跟踪任务中的待跟踪目标往往差异很大,同时目标在跟踪过程中发生的剧烈形变也会导致对跟踪目标的建模难度增加。
目前主流的跟踪算法包括两类:基于相关滤波的跟踪算法和基于卷积神经网络的跟踪算法。受益于快速傅里叶变换,基于相关滤波的跟踪算法可以达到很高的跟踪速度,相关技术中首次将相关滤波的思想应用于视觉跟踪中,提出了最小均方误差输出和滤波器,并达到了669FPS的跟踪速度。相关技术中进一步用循环矩阵理论给出了相关滤波算法的原理分析,并提出了核化相关滤波器,进一步提高了跟踪的精度。相关技术中通过对相关滤波跟踪算法引入卷积神经网络特征,使得基于相关滤波的跟踪算法达到了最先进的水平。但是,随着相关滤波所使用的特征变得越来越复杂,其跟踪速度上的优势也不复存在。
基于卷积神经网络的跟踪算法使用深度卷积神经网络来对目标的外观进行建模,但是通常都会由于巨大的计算量而导致跟踪速度很慢,早期的基于卷积神经网络的跟踪算法通常是在离线训练好网络以后就将其作为一个通用的特征提取器,相关技术中使用一个图像数据集训练出了一个紧凑的目标表征方式用于对跟踪目标进行建模。相关技术中发现了卷积神经网络的底层往往能够获取到目标和背景之间的判别信息,而顶层网络则是作为一个类别检测器。相关技术中通过使用带有标签的视频进行训练,并且在线收集样本对网络进行微调成功达到了视觉跟踪领域的先进水平。
此外,也有很多方法尝试将基于相关滤波的跟踪算法和基于卷积神经网络的算法进行融合。相关技术中提出在不同的卷积神经网络层学习相关滤波器,从而得到层次化的滤波响应用于跟踪。相关技术中使用图像对来训练卷积神经网络,并使用第一帧作为模板来对后续的帧进行匹配。
尽管基于深度神经网络的跟踪算法已经成为了视觉跟踪领域的主流算法,但是这些算法往往都需要大量的标注样本进行训练。然而,对于视觉跟踪任务,只有第一帧可以提供准确的正负样本。为了解决这个问题,很多算法都尝试用有标注的图片或视频数据训练出一个通用的模型,然后再用线上第一帧中的样本对模型进行微调。尽管这种做法也得到了不错的跟踪效果,但是却不可避免的会导致负迁移现象,因为这种做法忽视了不同跟踪任务中待跟踪目标之间的本质差异。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一方面目的在于提出一种具有更强跟踪能力,更高鲁棒性和精确度的基于对抗迁移网络的视觉跟踪方法。
本发明另一方面目的在于提出一种基于对抗迁移网络的视觉跟踪系统。
为达到上述目的,本发明一方面的实施例提出了一种基于对抗迁移网络的视觉跟踪方法,包括以下步骤:对训练集进行特征提取以得到特征矩阵,并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器;在得到线上跟踪任务提供的第一帧图片后,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频;根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练;根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪。
根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪方法,通过建立特征矩阵和查找相似度最大的一个视频,使之有选择性地在相似的跟踪任务之间进行对抗迁移学习,从而更好地实现对每一帧图像进行跟踪,使得跟踪网络拥有更强跟踪能力,显著提高跟踪算法的鲁棒性和精确度。
在一些示例中,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频,包括:根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频,其中,所述距离为:
Figure GDA0002635557540000031
在一些示例中,所述根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练,包括:
学习目标函数,所述目标函数为:
Figure GDA0002635557540000032
其中,Xs和Xt分别为源域和目标域中的样本;
具体训练迭代过程为首先训练判别器,令
Figure GDA0002635557540000033
表示判别网络,参数为θd,则θd通过优化损失函数Ld得到:
Figure GDA0002635557540000034
其中,损失函数Ld是二值交叉熵损失,定义为:
Figure GDA0002635557540000035
其中,
Figure GDA0002635557540000036
分别是源域和目标域中的目标和背景样本,
Figure GDA0002635557540000037
表示目标域第一帧中的样本训练出来的特征提取器,
Figure GDA0002635557540000038
是源域目标特征提取器,
其中,生成器的训练包括,令
Figure GDA0002635557540000039
表示生成网络,参数为θs,则θs通过优化损失函数Ls得到:
Figure GDA00026355575400000310
其中,损失函数Ls包含对抗损失Ladv和跟踪分类器损失Lf,其中,
Figure GDA0002635557540000041
其中,对抗损失Ladv定义为:
Figure GDA0002635557540000042
跟踪分类器损失Lf定义为:
Figure GDA0002635557540000043
其中,
Figure GDA0002635557540000044
是相应的样本的输出标签,
Figure GDA0002635557540000045
Figure GDA0002635557540000046
则分别是源域和目标域中的分类准确率。
在一些示例中,所述根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪,包括:使用判别式跟踪方法对每一帧采集样本并打分,并将得分最高的样本作为跟踪结果,以对每一帧图像进行跟踪,以及使用长短时更新方法对对抗迁移网络进行线上更新。
本发明的另一方面的实施例提出了一种基于对抗迁移网络的视觉跟踪系统,包括:提取模块,用于对训练集进行特征提取以得到特征矩阵,并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器;匹配模块,用于在得到线上跟踪任务提供的第一帧图片后,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频;训练模块,用于根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练;跟踪模块,用于根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪。
根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪系统,通过建立特征矩阵和查找相似度最大的一个视频,使之有选择性地在相似的跟踪任务之间进行对抗迁移学习,从而更好地实现对每一帧图像进行跟踪,使得跟踪网络拥有更强跟踪能力,显著提高跟踪算法的鲁棒性和精确度。
在一些示例中,所述特征矩阵包括多个512维深度特征。
在一些示例中,所述匹配模块用于:根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频,其中,所述距离为:
Figure GDA0002635557540000047
在一些示例中,所述训练模块用于:
学习目标函数,所述目标函数为:
Figure GDA0002635557540000051
其中,Xs和Xt分别为源域和目标域中的样本;
具体训练迭代过程为首先训练判别器,令
Figure GDA0002635557540000052
表示判别网络,参数为θd,则θd通过优化损失函数Ld得到:
Figure GDA0002635557540000053
其中,损失函数Ld是二值交叉熵损失,定义为:
Figure GDA0002635557540000054
其中,
Figure GDA0002635557540000055
分别是源域和目标域中的目标和背景样本,
Figure GDA0002635557540000056
表示目标域第一帧中的样本训练出来的特征提取器,
Figure GDA0002635557540000057
是源域目标特征提取器,
其中,生成器的训练包括,令
Figure GDA0002635557540000058
表示生成网络,参数为θs,则θs通过优化损失函数Ls得到:
Figure GDA0002635557540000059
其中,损失函数Ls包含对抗损失Ladv和跟踪分类器损失Lf,其中,
Figure GDA00026355575400000510
其中,对抗损失Ladv定义为:
Figure GDA00026355575400000511
跟踪分类器损失Lf定义为:
Figure GDA00026355575400000512
其中,
Figure GDA00026355575400000513
是相应的样本的输出标签,
Figure GDA00026355575400000514
Figure GDA00026355575400000515
则分别是源域和目标域中的分类准确率。
在一些示例中,所述跟踪模块用于:使用判别式跟踪方法对每一帧采集样本并打分,并将得分最高的样本作为跟踪结果,以对每一帧图像进行跟踪,以及使用长短时更新方法对对抗迁移网络进行线上更新。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明实施例使用的算法与已有的基于卷积神经网络的跟踪算法的核心区别示意图;
图2是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程图;
图3是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程示意图;
图4是根据本发明实施例的基于对抗迁移网络的视觉跟踪方法所设计的网络的结构示意图;和
图5是本发明实施例的基于对抗迁移网络的视觉跟踪系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
图1是本发明实施例使用的算法与已有的基于卷积神经网络的跟踪算法的核心区别示意图,本发明的实施例提出了一种基于对抗迁移网络的视觉跟踪方法。具体地,本发明实施例提出了一种新的深度网络架构,和已有的基于卷积神经网络的跟踪算法相比,如图1所示,本发明实施例的核心思想是要减小很多已有的基于深度卷积网络的跟踪算法中出现的负迁移现象。
本发明实施例将视觉跟踪看成了一个迁移学习问题,其中目标域就是线上视频,而源域就是线下的训练视频,通过深度对抗迁移学习,本网络架构可以成功地在相似的跟踪任务之间迁移每个域特定的信息,因此为线上跟踪过程提供了更多的训练样本。
下面结合附图详细介绍本发明实施例的基于对抗迁移网络的视觉跟踪方法。
图2是根据本发明一个实施例的基于对抗迁移网络的视觉跟踪方法的流程图,如图2所示并结合图3根据本发明实施例的基于对抗迁移网络的视觉跟踪方法的流程示意图,该方法具体步骤如下所示:
S1:对训练集进行特征提取以得到特征矩阵,并根据训练集训练通用的样本特征提取器和目标背景样本分类器。
具体来说,由于视频跟踪任务对于速度要求很高,因此我们将一些计算过程都提前做好,预处理阶段首先要训练一个通用的视觉跟踪网络特征矩阵,以便在迁移阶段进行进一步的训练。
进一步地,在一个具体示例中,根据训练集训练通用的样本特征提取器和目标背景样本分类器,例如:可以利用ImageNet上预训练好的VGG网络提取出数据集每一帧中跟踪目标的512维深度特征,这样在选择阶段,就可以根据特征进行选择。
S2:在得到线上跟踪任务提供的第一帧图片后,从训练集中查找与线上跟踪任务相似度最大的一个视频。
具体来说,该步骤的目的是从大量的训练视频中选择出和线上跟踪任务最相似的那个视频,这样在迁移阶段,则是在这两个视频之间进行。选择阶段使用的算法是k近邻单纯形重构法,我们将选择阶段建模为一个点到集合的距离最小化问题,其中点就是线上跟踪视频第一帧,而集合就是训练集中的每个视频。k近邻单纯形重构法假设点都位于一个周围空间的子流形上,这和帧与视频的关系相符。
在具体的示例中,可以用
Figure GDA0002635557540000071
表示线上跟踪任务第一帧中目标的CNN特征,Vi表示训练视频集中的第i个视频,其中第j帧中目标的CNN特征表示为
Figure GDA0002635557540000072
因此定义视频Vi的k近邻单纯形为:
Figure GDA0002635557540000073
其中,集合
Figure GDA0002635557540000074
就是视频Vi中Xt的k个近邻。线上跟踪任务和线下训练视频Vi之间的距离可以通过最下化下列重构误差得到:
Figure GDA0002635557540000075
在计算得到距离以后,我们很容易通过选择距离最小的那个视频作为我们的迁移阶段的视频:
Figure GDA0002635557540000076
其中,i*就是所选视频的索引。
S3:根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练。
简而言之,该步骤可以被看作是一个迁移学习步骤,其中目标域是线上跟踪任务,而源域是之前步骤S2中选出来的那个视频。该步骤可以视为迁移阶段,其目的是要最小化源域和目标域之间的特征差异,这样源域中大量带有标记的训练样本就可以迁移到目标域,并被用于训练用于线上跟踪的网络。
在一个具体示例中,如图4所示,本实施例所设计的网络的结构包含4个子网络,分别是目标域特征提取网络M,源域特征提取网络G,跟踪分类器F和域判别器D。其中M是使用目标域的第一帧样本进行训练得到,因此可以获取到目标域的特征并适合用于目标域的目标背景分类。G是使用源域中的有标签样本进行训练得到,因此适合用于源域的目标背景分类。F是M的分类层和G的分类层的融合,因此既可以分类目标域和源域中的特征。D是用于判断特征是属于源域还是属于目标域。
迁移阶段的目标是通过迭代的训练G和D,来使得源域和目标域中的特征无法区分,因此学习的目标函数如下:
Figure GDA0002635557540000081
其中Xs和Xt分别代表了源域和目标域中的样本。
具体的训练迭代过程是先训练判别器,令
Figure GDA0002635557540000082
表示判别网络,其参数为θd,则θd可以通过优化损失函数Ld得到:
Figure GDA0002635557540000083
其中损失函数Ld是二值交叉熵损失,定义为:
Figure GDA0002635557540000084
其中
Figure GDA0002635557540000085
分别是源域和目标域中的目标和背景样本,而
Figure GDA0002635557540000086
表示目标域第一帧中的样本训练出来的特征提取器,而
Figure GDA0002635557540000087
是源域目标特征提取器。
对于生成器的训练,令
Figure GDA0002635557540000088
表示生成网络,其参数为θs,则θs可以通过优化损失函数Ls得到:
Figure GDA0002635557540000089
其中损失函数Ls包含了两个重要组成部分,对抗损失Ladv和跟踪分类器损失Lf,前者减少了域间的差异,而后者保证了跟踪的精度:
Figure GDA00026355575400000810
其中对抗损失Ladv定义为:
Figure GDA00026355575400000811
跟踪分类器损失Lf定义为:
Figure GDA0002635557540000091
其中
Figure GDA0002635557540000092
是相应的样本的输出标签,而
Figure GDA0002635557540000093
Figure GDA0002635557540000094
则分别是源域和目标域中的分类准确率。
S4:根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪。
在一个具体示例中,可以使用经典的通过检测跟踪框架,对于每一帧,首先采样256个样本候选区域,将这些区域送到网络M和G中,得到特征,再用F对这些特征进行评分,将得分最高的5个样本的平均位置作为这一帧的跟踪结果,同时利用长短时更新使得网络可以跟随目标的变化,长时更新每10帧进行一次,而短时更新是在最高得分低于0的时候进行一次,每次更新的时候都会使用之前帧中的正负样本对网络进行更新
根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪方法,通过建立特征矩阵和查找相似度最大的一个视频,使之有选择性地在相似的跟踪任务之间进行对抗迁移学习,从而更好地实现对每一帧图像进行跟踪,使得跟踪网络拥有更强跟踪能力,显著提高跟踪算法的鲁棒性和精确度。
图5是本发明实施例的基于对抗迁移网络的视觉跟踪系统的结构示意图,如图5所示,本发明实施例的基于对抗迁移网络的视觉跟踪系统10,包括:提取模块101、匹配模块102、训练模块103和跟踪模块104。
其中,提取模块101,用于对训练集进行特征提取以得到特征矩阵,并根据训练集训练通用的样本特征提取器和目标背景样本分类器。
在一个实施例中,特征矩阵包括多个512维深度特征。
匹配模块102,用于在得到线上跟踪任务提供的第一帧图片后,从训练集中查找与线上跟踪任务相似度最大的一个视频。
在一个实施例中,匹配模块用于:根据训练集中的图像与第一帧图片之间的距离得到与线上跟踪任务相似度最大的一个视频,其中,距离为:
Figure GDA0002635557540000095
训练模块103,用于根据第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练。
在一个实施例中,训练模块用于:学习目标函数,目标函数为:
Figure GDA0002635557540000101
其中,Xs和Xt分别为源域和目标域中的样本;
具体训练迭代过程为首先训练判别器,令
Figure GDA0002635557540000102
表示判别网络,参数为θd,则θd通过优化损失函数Ld得到:
Figure GDA0002635557540000103
其中,损失函数Ld是二值交叉熵损失,定义为:
Figure GDA0002635557540000104
其中,
Figure GDA0002635557540000105
分别是源域和目标域中的目标和背景样本,
Figure GDA0002635557540000106
表示目标域第一帧中的样本训练出来的特征提取器,
Figure GDA0002635557540000107
是源域目标特征提取器,
其中,生成器的训练包括,令
Figure GDA0002635557540000108
表示生成网络,参数为θs,则θs通过优化损失函数Ls得到:
Figure GDA0002635557540000109
其中,损失函数Ls包含对抗损失Ladv和跟踪分类器损失Lf,其中,
Figure GDA00026355575400001010
其中,对抗损失Ladv定义为:
Figure GDA00026355575400001011
跟踪分类器损失Lf定义为:
Figure GDA00026355575400001012
其中,
Figure GDA00026355575400001013
是相应的样本的输出标签,
Figure GDA00026355575400001014
Figure GDA00026355575400001015
则分别是源域和目标域中的分类准确率。
跟踪模块104,用于根据与线上跟踪任务相似度最大的一个视频的特征矩阵以及通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪。
在一个实施例中,跟踪模块用于:使用判别式跟踪方法对每一帧采集样本并打分,并将得分最高的样本作为跟踪结果,以对每一帧图像进行跟踪,以及使用长短时更新方法对对抗迁移网络进行线上更新。
需要说明的是,前述对基于对抗迁移网络的视觉跟踪方法实施例的解释说明也适用于该基于对抗迁移网络的视觉跟踪系统,此处不再赘述。
根据本发明实施例的基于深度学习的基于对抗迁移网络的视觉跟踪系统,通过建立特征矩阵和查找相似度最大的一个视频,使之有选择性地在相似的跟踪任务之间进行对抗迁移学习,从而更好地实现对每一帧图像进行跟踪,使得跟踪网络拥有更强跟踪能力,显著提高跟踪算法的鲁棒性和精确度。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于对抗迁移网络的视觉跟踪方法,其特征在于,包括以下步骤:
对训练集进行特征提取以得到特征矩阵,并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器;
在得到线上跟踪任务提供的第一帧图片后,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频;
根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练;
根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪;
其中,所述根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练,包括:
学习目标函数,所述目标函数为:
Figure FDA0002635557530000011
其中,Xs和Xt分别为源域和目标域中的样本,D为域判别器,M为目标域特征提取网络,G为源域特征提取网络;
具体训练迭代过程为首先训练判别器,令
Figure FDA0002635557530000012
表示判别网络,参数为θd,则θd通过优化损失函数Ld得到:
Figure FDA0002635557530000013
其中,损失函数Ld是二值交叉熵损失,定义为:
Figure FDA0002635557530000014
其中,
Figure FDA0002635557530000015
分别是源域和目标域中的目标和背景样本,
Figure FDA0002635557530000016
表示目标域第一帧中的样本训练出来的特征提取器,
Figure FDA0002635557530000017
是源域目标特征提取器,
其中,生成器的训练包括,令
Figure FDA0002635557530000018
表示生成网络,参数为θs,则θs通过优化损失函数Ls得到:
Figure FDA0002635557530000021
其中,损失函数Ls包含对抗损失Ladv和跟踪分类器损失Lf,其中,
Figure FDA0002635557530000022
其中,对抗损失Ladv定义为:
Figure FDA0002635557530000023
跟踪分类器损失Lf定义为:
Figure FDA0002635557530000024
其中,
Figure FDA0002635557530000025
是相应的样本的输出标签,
Figure FDA0002635557530000026
Figure FDA0002635557530000027
Figure FDA0002635557530000028
则分别是源域和目标域中的分类准确率。
2.根据权利要求1所述的基于对抗迁移网络的视觉跟踪方法,其特征在于,所述特征矩阵包括多个512维深度特征。
3.根据权利要求1所述的基于对抗迁移网络的视觉跟踪方法,其特征在于,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频,包括:
根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频,其中,所述距离为
Figure FDA0002635557530000029
Figure FDA00026355575300000210
其中,
Figure FDA00026355575300000211
为线上跟踪任务第一帧中目标的CNN特征,Si为视频Vi的k近邻单纯形,Vi表示训练视频集中的第i个视频。
4.根据权利要求1所述的基于对抗迁移网络的视觉跟踪方法,其特征在于,所述根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪,包括:
使用判别式跟踪方法对每一帧采集样本并打分,并将得分最高的样本作为跟踪结果,以对每一帧图像进行跟踪,以及使用长短时更新方法对对抗迁移网络进行线上更新。
5.一种基于对抗迁移网络的视觉跟踪系统,其特征在于,包括:
提取模块,用于对训练集进行特征提取以得到特征矩阵,并根据所述训练集训练通用的样本特征提取器和目标背景样本分类器;
匹配模块,用于在得到线上跟踪任务提供的第一帧图片后,从所述训练集中查找与所述线上跟踪任务相似度最大的一个视频;
训练模块,用于根据所述第一帧图片和线下视频中的正负样本对对抗迁移网络进行对抗迁移训练;
跟踪模块,用于根据与所述线上跟踪任务相似度最大的一个视频的特征矩阵以及所述通用的样本特征提取器和目标背景样本分类器,对每一帧图像进行跟踪;
所述训练模块用于:
学习目标函数,所述目标函数为:
Figure FDA0002635557530000031
其中,Xs和Xt分别为源域和目标域中的样本,D为域判别器,M为目标域特征提取网络,G为源域特征提取网络;
具体训练迭代过程为首先训练判别器,令
Figure FDA0002635557530000032
表示判别网络,参数为θd,则θd通过优化损失函数Ld得到:
Figure FDA0002635557530000033
其中,损失函数Ld是二值交叉熵损失,定义为:
Figure FDA0002635557530000034
其中,
Figure FDA0002635557530000035
分别是源域和目标域中的目标和背景样本,
Figure FDA0002635557530000036
表示目标域第一帧中的样本训练出来的特征提取器,
Figure FDA0002635557530000037
是源域目标特征提取器,
其中,生成器的训练包括,令
Figure FDA0002635557530000038
表示生成网络,参数为θs,则θs通过优化损失函数Ls得到:
Figure FDA0002635557530000039
其中,损失函数Ls包含对抗损失Ladv和跟踪分类器损失Lf,其中,
Figure FDA00026355575300000310
其中,对抗损失Ladv定义为:
Figure FDA00026355575300000311
Figure FDA0002635557530000041
跟踪分类器损失Lf定义为:
Figure FDA0002635557530000042
其中,
Figure FDA0002635557530000043
是相应的样本的输出标签,
Figure FDA0002635557530000044
Figure FDA0002635557530000045
Figure FDA0002635557530000046
则分别是源域和目标域中的分类准确率。
6.根据权利要求5所述的基于对抗迁移网络的视觉跟踪系统,其特征在于,所述特征矩阵包括多个512维深度特征。
7.根据权利要求5所述的基于对抗迁移网络的视觉跟踪系统,其特征在于,所述匹配模块用于:
根据所述训练集中的图像与所述第一帧图片之间的距离得到与所述线上跟踪任务相似度最大的一个视频,其中,所述距离为
Figure FDA0002635557530000047
Figure FDA0002635557530000048
其中,
Figure FDA0002635557530000049
为线上跟踪任务第一帧中目标的CNN特征,Si为视频Vi的k近邻单纯形,Vi表示训练视频集中的第i个视频。
8.根据权利要求5所述的基于对抗迁移网络的视觉跟踪系统,其特征在于,所述跟踪模块用于:
使用判别式跟踪方法对每一帧采集样本并打分,并将得分最高的样本作为跟踪结果,以对每一帧图像进行跟踪,以及使用长短时更新方法对对抗迁移网络进行线上更新。
CN201810381169.4A 2018-04-25 2018-04-25 基于对抗迁移网络的视觉跟踪方法及系统 Active CN108682022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810381169.4A CN108682022B (zh) 2018-04-25 2018-04-25 基于对抗迁移网络的视觉跟踪方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810381169.4A CN108682022B (zh) 2018-04-25 2018-04-25 基于对抗迁移网络的视觉跟踪方法及系统

Publications (2)

Publication Number Publication Date
CN108682022A CN108682022A (zh) 2018-10-19
CN108682022B true CN108682022B (zh) 2020-11-24

Family

ID=63802462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810381169.4A Active CN108682022B (zh) 2018-04-25 2018-04-25 基于对抗迁移网络的视觉跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN108682022B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111238524B (zh) * 2018-11-28 2021-12-14 驭势科技(北京)有限公司 视觉定位方法以及装置
CN110443352B (zh) * 2019-07-12 2023-12-15 创新先进技术有限公司 基于迁移学习的半自动神经网络调优方法
CN110489661B (zh) * 2019-07-24 2022-04-26 武汉大学 一种基于生成对抗网络和迁移学习的社交关系预测方法
CN111161315B (zh) * 2019-12-18 2023-01-03 北京大学 一种基于图神经网络的多目标跟踪方法和系统
CN111627044B (zh) * 2020-04-26 2022-05-03 上海交通大学 基于深度网络的目标追踪攻击与防御方法
CN111597946B (zh) * 2020-05-11 2022-04-08 腾讯医疗健康(深圳)有限公司 图像生成器的处理方法、图像生成方法及装置
CN112232150A (zh) * 2020-09-29 2021-01-15 天津大学 一种基于生成对抗的目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058427A1 (ko) * 2011-10-21 2013-04-25 한국과학기술연구원 골프 스윙 분석을 위한 신체 부위별 위치 추적 장치 및 방법
CN106651915A (zh) * 2016-12-23 2017-05-10 大连理工大学 基于卷积神经网络的多尺度表达的目标跟踪方法
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN107545245A (zh) * 2017-08-14 2018-01-05 中国科学院半导体研究所 一种年龄估计方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013058427A1 (ko) * 2011-10-21 2013-04-25 한국과학기술연구원 골프 스윙 분석을 위한 신체 부위별 위치 추적 장치 및 방법
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN106651915A (zh) * 2016-12-23 2017-05-10 大连理工大学 基于卷积神经网络的多尺度表达的目标跟踪方法
CN107545245A (zh) * 2017-08-14 2018-01-05 中国科学院半导体研究所 一种年龄估计方法及设备

Also Published As

Publication number Publication date
CN108682022A (zh) 2018-10-19

Similar Documents

Publication Publication Date Title
CN108682022B (zh) 基于对抗迁移网络的视觉跟踪方法及系统
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN109410242B (zh) 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN110443827B (zh) 一种基于改进孪生网络的无人机视频单目标长期跟踪方法
Tsintotas et al. Assigning visual words to places for loop closure detection
CN103324937B (zh) 标注目标的方法和装置
CN107145862B (zh) 一种基于霍夫森林的多特征匹配多目标跟踪方法
CN109858406B (zh) 一种基于关节点信息的关键帧提取方法
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN110781262B (zh) 基于视觉slam的语义地图的构建方法
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN108090919A (zh) 一种基于超像素光流和自适应学习因子改进的核相关滤波跟踪方法
CN105069434B (zh) 一种视频中人体动作行为识别方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN110288627B (zh) 一种基于深度学习和数据关联的在线多目标跟踪方法
CN110189362B (zh) 基于多分支自编码对抗网络的高效目标跟踪方法
CN110619268B (zh) 基于时空分析与深度特征的行人再识别方法及装置
CN109543615B (zh) 一种基于多级特征的双学习模型目标跟踪方法
CN112836640A (zh) 一种单摄像头多目标行人跟踪方法
CN103413295A (zh) 一种视频多目标长程跟踪方法
CN110728694A (zh) 一种基于持续学习的长时视觉目标跟踪方法
Zhang et al. A background-aware correlation filter with adaptive saliency-aware regularization for visual tracking
CN108830170A (zh) 一种基于分层特征表示的端到端目标跟踪方法
Ma et al. CapsuleRRT: Relationships-aware regression tracking via capsules
CN113870312B (zh) 基于孪生网络的单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant