CN109840518B - 一种结合分类与域适应的视觉追踪方法 - Google Patents

一种结合分类与域适应的视觉追踪方法 Download PDF

Info

Publication number
CN109840518B
CN109840518B CN201910289415.8A CN201910289415A CN109840518B CN 109840518 B CN109840518 B CN 109840518B CN 201910289415 A CN201910289415 A CN 201910289415A CN 109840518 B CN109840518 B CN 109840518B
Authority
CN
China
Prior art keywords
sample
foreground
domain
samples
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910289415.8A
Other languages
English (en)
Other versions
CN109840518A (zh
Inventor
刘杰彦
马奥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Publication of CN109840518A publication Critical patent/CN109840518A/zh
Application granted granted Critical
Publication of CN109840518B publication Critical patent/CN109840518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合分类与域适应的视觉追踪方法,一方面结合了分类构图与迁移学习域适应两种方法的优势,寻求既能将前景和背景分离,又能为近期所获取的源域数据与当前待分类的目标域数据所共享的特征空间;另一方面,采纳了深度学习的思想,在目标域Xt的前景、背景判定和特征空间映射矩阵V的更新过程中,层层迭代,每一次迭代中根据上一次迭代的结果完成分类构图与域适应学习的结合,并将当前层次的输出结果V作为下一次迭代的输入,经过层层迭代学习,获得追踪结果,使得追踪结果的准确性更高。

Description

一种结合分类与域适应的视觉追踪方法
技术领域
本发明属于计算机视觉技术领域,更为具体地讲,涉及一种结合分类与域适应的视觉追踪方法。
背景技术
随着人工智能和机器学习技术的发展,视觉追踪一直是计算机视觉技术领域的研究热点。视觉追踪是对视频中的目标进行位置探测、特征提取和识别、并完成跟踪的过程,可以应用在视频监控、人机交互、增强现实、智能交通和视频压缩等诸多领域。由于追踪目标经常具有位移、变形、旋转等特性,同时周围环境的复杂性,如光线变化、障碍物遮挡、参照物变化等原因,使得视觉追踪一直是一个充满挑战的研究课题。
分类方式是视觉追踪当中的一种常见方式,该方式将追踪目标从特征相似的其他候选样本分离出来,将成为目标可能性大的候选样本看作前景,而将周围环境看作背景,通过前景和背景的识别和分离,获取追踪目标。这种方法简单清晰,但是通常需要提前获知前景和背景的数据特征分布,所以往往采用的是有监督或半监督的学习方式,而真实环境中训练样本数据往往无法提前获知,使得有监督或半监督的学习方式开展受到阻碍。如果能利用历史追踪数据来对当前追踪目标作识别分析,可以解决训练样本不足的问题。
迁移学习(transferring learning)利用在源数据学习到的知识,应用到目标测试数据上,完成对目标数据的识别与分析。当现实中源数据和目标数据的特征分布具有差异时,不能直接将在源数据上建立的模型应用到目标数据中。为此,域适应(domainadaptation)尝试学习一个特征转化,它针对源域(source domain)和目标域(targetdomain)完成迁移学习,源域中数据的标签信息是已知的,而目标域中数据的标签信息未知,域适应采用特征转化的方法,使得经过特征转换后,源域的数据和目标域的数据在转换后的特征空间上的区分度最小,从而完成基于源域数据分布完成对目标域数据识别分析的任务。受追踪目标移动和环境变化影响,视觉追踪历史上前景和背景数据特征分布与当前的前景和背景数据特征分布常常存在差异。基于此,一种自然的想法就是能否将迁移学习的域适应思想应用到视觉追踪中,利用历史追踪数据分布完成对当前追踪目标的分析识别。
发明内容
本发明的目的在于克服现有技术的不足,针对视觉追踪问题,提供一种结合分类与域适应的视觉追踪方法,该方法结合了分类追踪方法的思想,同时利用了域适应方法的优势,以提高视觉追踪的效率和准确性,同时也充分利用了历史数据而无需额外的训练样本,具有无监督追踪方法的优点
为了实现上述发明目的,本发明结合分类与域适应的视觉追踪方法,其特征在于,包括如下步骤:
(1)、以上一帧图像中的目标窗口St-1为参考窗口,在当前帧图像中,利用动态模型(dynamic model)获取若干候选窗口,将候选窗口对应的样本作为候选样本;
(2)、将前一帧图像追踪得到的前景样本和背景样本构成源域Xs,利用分类器在上一次迭代所获得特征空间映射矩阵V所映射的特征空间中,将当前帧图像的候选样本分为两个类别:伪前景样本和伪背景样本,二者构成目标域Xt
(3)、令域X=[Xs,Xt],基于源域Xs中样本(前景样本和背景样本)的标签信息以及目标域Xt中样本(伪前景样本和伪背景样本)的伪标签信息,应用FDA(FisherDiscriminant Analysis)判别分类,对域X进行分类构图,以寻求一个映射矩阵V,使得在映射的特征空间中,前景节点紧凑分布,背景节点紧凑分布,而前景和背景很好的分离。为此:将域X中的样本作为图中的节点,构造类内图(Gw,Mw)以及类间图(Gb,Mb),并进一步得到分类构图下求取特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000021
其中,tr为矩阵求迹运算符,Lw为图Gw的拉普拉斯矩阵,Lw根据类内关系矩阵Mw计算得到,Lb为图Gb的拉普拉斯矩阵,Lb根据类间关系矩阵Mb计算得到;
(4)、基于迁移学习的域适应,寻求能够为源域和目标域共享的特征空间,得到域适应下求解该特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000031
s.t.,VTX=VTXsZ+E
其中,Z为重构的系数矩阵,rank(Z)为矩阵Z的秩,E为噪音矩阵。进一步的,再与步骤(3)结合,寻求能够同时满足域适应和分类目标的特征空间,得到最终求解特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000032
s.t.,VTX=VTXsZ+E
获得目标函数后,对其求解,得到特征空间映射矩阵V;
重复步骤(2)~(4),直到求解特征空间映射矩阵V的算法收敛;
(5)、基于上述算法收敛后获得的特征空间映射矩阵V,再次调用分类器对当前帧图像的候选样本作最终分类,获取前景样本、背景样本以及当前帧图像的追踪目标xt,其中,前景样本和背景样本作为求解下一帧图像的源域。
(6)、追踪下一帧图像,对下一帧图像重复上述步骤(1)-(5),直至视觉追踪结束。
本发明的目的是这样实现的:
本发明结合分类与域适应的视觉追踪方法,一方面结合了分类构图与迁移学习域适应两种方法的优势,寻求既能将前景、背景分离,又能为近期所获取的源域数据与当前待分类的目标域数据所共享的特征空间;另一方面,采纳了深度学习的思想,在目标域Xt的前景、背景判定和特征空间映射矩阵V的更新过程中,层层迭代,每一层(步骤(2)-(4)中的一次迭代)中根据上一层(上一次迭代)的结果,基于分类构图与域适应的结合完成对V的求解,并将当前层次的输出结果V作为下一层次(下一次迭代)的输入,经过层层迭代学习,获得追踪结果,使得追踪结果的准确性更高。
附图说明
图1是本发明结合分类与域适应的视觉追踪方法一种具体实施方式流程图;
图2是基于动态模型的候选窗口示意图;
图3是前景样本和背景样本分类构图示意图;
图4是不同视觉追踪方法效果对比示例图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
在视觉追踪当中,一方面:可以利用分类判别方法将图像分为前景样本及背景样本;另一方面,由于视频图像具有连续性,上一帧图像和下一帧图像在特征分布上虽然存在差异,但往往也具有很多相似性。为此,可以基于域适应的思想,将上一帧追踪到的前景样本和背景样本的数据特征分布信息,应用到下一帧图像中前景样本和背景背景的分离以及追踪目标的识别当中。如果能够将上述两个方面结合,不但能够提高追踪的效率和准确性,同时还能够充分利用即时获取的历史数据作为训练数据,具有无监督追踪方法的优点。为此,本发明将分类构图思想和迁移学习中的域适应思想加以结合,应用到视觉追踪当中,提出了一种结合分类和域适应的视觉追踪方法。
图1是本发明结合分类与域适应的视觉追踪方法一种具体实施方式流程图。
在本实施例中,如图1所示,本发明结合分类与域适应的视觉追踪方法包括如下步骤:
步骤S1:以上一帧图像中的目标窗口St-1为参考窗口,在当前帧图像中,利用动态模型(dynamic model)获取若干候选窗口,将候选窗口对应的样本作为候选样本。
动态模型(dynamic model)是视觉追踪算法中常见的获取候选样本的方式。具体步骤为:以上一帧图像中追踪到的目标窗口St-1为参考窗口,参考窗口对应(界定)的图像数据(即上一帧图像的追踪目标)xt-1为参考样本,设当前帧图像中的候选窗口用St表示,St=(ut,vt,wt,ht,qt),其中(ut,vt)为窗口的中心坐标,wt为窗口宽度,ht为窗口高度,qt为旋转角度。以参考窗口St-1为中心,获取若干候选窗口St。动态模型中候选窗口St的分布服从高斯分布,如式:
p(St|St-1)=N(St;St-1,H) (1)
其中,H为ut,vt,wt,ht,qt的协方差矩阵。采用动态模型,在St-1的周围获取若干候选窗口,每个候选窗口对应的样本称为候选样本,候选样本集用C={c1,c2,…,cy}表示,任意一个候选样本用向量ci表示,i=1,2,...,y。如图2所示,其中,图2(a)中所示窗口为上一帧图像追踪得到的参考窗口,参考窗口对应(界定)的图像数据即为追踪目标,而图2(b)中所示为当前帧图像中基于动态模型,在参考窗口周围获得的若干候选窗口,每个候选窗口对应一个候选样本。
步骤S2:将前一帧图像追踪得到的前景样本和背景样本构成源域Xs,利用分类器在上一次迭代所获得的特征空间映射矩阵V映射的特征空间中,将当前帧图像的候选样本分为两个类别:伪前景样本和伪背景样本,二者构成目标域Xt
步骤S2.1:以前一帧图像追踪所获得的前景样本和背景样本作为源域Xs
追踪问题可以看作是一个分类问题,即将成为追踪目标可能性大的候选样本看作一个类别:前景,而将周围环境候选样本看作另一个类别:背景。分类的目的,就是要将特征相似的前景样本和背景样本加以区分,进而能够获取追踪目标。对每一帧图像,在获取候选样本后,通过分类器将候选样本分为前景样本和背景样本。由于视频图像具有连续性,上一帧的图像和当前帧的图像通常具有很大的相似性。因此,本发明以上一帧图像的前景样本和背景样本构成的集合为源域Xs,Xs=[x1,x2,...,xa,xa+1,xa+2,...,xa+b],其中x1,x2,...,xa为a个前景样本,xa+1,xa+2,...,xa+b为b个背景样本,源域Xs中任意一个样本用向量xj表示,j=1,2,...,a+b。源域Xs对应的标签集为Ls={l1,l2,...,la,la+1,la+2,...,la+b},lj=(pj,qj),pj和qj分别表示类别和簇别,(pj,qj)∈{(0,0),(01,),(1,0),(1,1)},类别和簇别的定义如表1所示:
(p<sub>i</sub>,q<sub>i</sub>) 类别(p<sub>i</sub>) 簇别(q<sub>i</sub>)
(0,0) 前景类 X<sub>t</sub>中的伪前景簇
(0,1) 前景类 X<sub>s</sub>中的前景簇
(1,0) 背景类 X<sub>t</sub>中的伪背景簇
(1,1) 背景类 X<sub>s</sub>中的背景簇
表1
步骤S2.2:基于源域和特征空间映射矩阵V,利用分类器在特征空间映射矩阵V映射的特征空间中将当前帧图像的候选样本分为两个类别:伪前景样本和伪背景样本,二者构成目标域Xt
V是一个映射矩阵,未经过任何处理的样本为原始样本,原始样本往往是高维度的,同时前景样本和背景样本是难以区分的,为了能够降低计算的复杂性,通过特征空间映射矩阵V来作映射,将原始样本映射到低维的特征空间中,并且在V所映射的特征空间中,能够满足将前景样本和背景样本很好的分离的目标。步骤S2-S4是一个迭代重复过程,当前设V已在上一次迭代中获取。关于V的求解,在后面的步骤S3-S4中有详细说明。
在步骤S1中所获取的当前帧图像的候选样本和上一帧图像的前、背景样本往往有很多相似的特征,为此,可利用当前帧图像的候选样本和源域Xs中样本的相似性,对候选样本分类,得到伪前景样本和伪背景样本,伪前景样本和伪背景样本构成目标域Xt
对候选样本分类的分类器为:
Figure BDA0002024426750000061
该分类器的输入为候选样本集C、源域Xs、特征空间映射矩阵V,以及历史上追踪目标样本的均值
Figure BDA0002024426750000062
输出目标域Xt和伪追踪目标xt。分类器F的功能为:对C中的任意一个候选样本ci,通过在特征空间映射矩阵V映射的特征空间中与源域Xs中的前景样本和背景样本进行比较,确定候选样本ci的类别,即为伪前景样本或伪背景样本,从而输出得到的若干个伪前景样本和伪背景样本构成目标域Xt,并从伪前景样本中挑出追踪目标为伪追踪目标xt。Xt=[x′1,x′2,...,x′a,x′a+1,x′a+2,...,x′a+b],其中x′1,x′2,...,x′a为a个伪前景样本,x′a+1,x′a+2,...,x′a+b为b个伪背景样本,Xt对应的伪标签集为Lt={l1′,l′2,...,l′a,l′a+1,l′a+2,...,l′a+b},l′j=(pj′,qj′),pj′和qj′分别表示类别和簇别,(p′j,q′j)的定义与表1所述相同。之所以称为“伪前景样本”、“伪背景样本”和“伪追踪目标”,是因为本发明采用深度学习的思想,经过多次迭代、层层学习(步骤S2-S4将多次迭代)来获得特征空间映射矩阵V,进而在V映射的特征空间中对候选样本进行分类,每一层学习到输出会作为下一次的输入,因此仅基于当前一次(层)学习到的分类结果还不是最终结果,故暂称为伪前景样本、伪背景样本和伪追踪目标。
步骤S3:令域X=[Xs,Xt],基于源域Xs中样本(前景样本和背景样本)的标签信息以及目标域Xt中样本(伪前景样本和伪背景样本)的伪标签信息,应用FDA(FisherDiscriminant Analysis)判别分类,对域X进行分类构图,以寻求一个映射矩阵V,使得在映射的特征空间中,前景节点紧凑分布,背景节点紧凑分布,而前景和背景很好的分离。为此:将域X中的样本作为图中的节点,构造类内图(Gw,Mw)以及类间图(Gb,Mb),然后,根据类内图(Gw,Mw)以及类间图(Gb,Mb),得到分类构图下求解特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000071
其中,tr为矩阵求迹的运算符,Lw为图Gw的拉普拉斯矩阵,根据类内关系矩阵Mw计算得到,Lb为图Gb的拉普拉斯矩阵,根据类间关系矩阵Mb计算得到。
前景样本和背景样本往往特征相似而不易区分,而分类方法的目的就是要将前景样本和背景样本很好的分开,为此,需要寻求一个特征空间,通过特征空间映射矩阵V的映射转化,在获得的特征空间中能够很好的将前景样本和背景样本分开,从而能够获取追踪目标xt,基于此,本发明应用FDA判别分析理论,基于分类构图方式来寻求能够分类的特征空间映射矩阵V。设域X=[Xs,Xt],对域X构造两个图:类内图Gw和类间图Gb,将域X中的样本作为图中的一个节点。
步骤S3.1:构造类内图(Gw,Mw)
构造类内图(Gw,Mw):Mw为n*n的(n=a+b)表示类内关系的矩阵,Mw中任意一个元素
Figure BDA0002024426750000072
表示节点xi和节点xj之间的关系权值,可看作节点间的相似性。Gw中的节点分为两个类别:前景类和背景类,每一类又分为两个簇,如前景类节点分为由源域Xs中的前景样本构成的簇和由目标域Xt中的伪前景样本构成的簇,类似的,背景类节点也分为由源域Xs中的背景样本构成的簇和由Xt中的伪背景样本构成的簇。对簇内的任意一个节点xi,采用KNN方法,连接距离最近的k个同簇节点,例如,对Xs中的任意前景节点xi,当k=3时,连接xi与源域Xs中离xi最近的3个前景节点。对同类不同簇节点间的关系表示:对任意一个节点xi,采用KNN方法,连接k个最近的同类不同簇节点,例如,对源域Xs中的任意前景节点xi,当k=2时,连接xi与Xt中离xi最近的2个伪前景节点,如图3所示。节点间连线的权值计算如下:
Figure BDA0002024426750000081
dij为节点xi和xj间的欧氏距离,dimax为节点xi到Nk(xi)中k个邻居节点的最大欧氏距离,Nk(xi)为离节点xi最近的k个邻居节点构成的集合。
步骤S3.2:构造类间图(Gb,Mb)
构造类间图(Gb,Mb):Mb为n*n的(n=a+b)的表示类间关系的矩阵,Mb中任意一个元素
Figure BDA0002024426750000082
表示节点xi和节点xj之间的关系权值,可看作节点间的相似性。对任意一个节点xi,采用KNN方法,连接它的最近k个非同类节点,例如,如果xi为前景节点,xj为背景节点,当k=1时,假如xj为背景节点中距离xi最近的节点,则连接xi和xj,如图3所示。此时计算节点间相似性
Figure BDA0002024426750000083
Figure BDA0002024426750000084
步骤S3.3:根据类内图(Gw,Mw)以及类间图(Gb,Mb),得到分类构图下求取特征空间映射矩阵V的目标函数。
对任意图G,它的拉普拉斯矩阵L=D-M,D为对角矩阵,D中的对角元素为:
Figure BDA0002024426750000085
基于此,分别求取图Gw和图Gb的拉普拉斯矩阵Lw和Lb:Lw=Dw-Mw,Dw中的对角元素为:
Figure BDA0002024426750000086
Lb=Db-Mb,Db中的对角元素为:
Figure BDA0002024426750000087
求取Lw和Lb后,利用FDA判别的思想,求取一个特征空间映射矩阵V,使得在经过V映射的特征空间中,同类样本能尽量紧凑分布,而前景样本和背景样本间尽量分离,对X中的任意样本xi,在经过V映射后的特征空间中将变成VTxi,按照分类图嵌入思想,上述要求转化为求取满足式(8)的V:
Figure BDA0002024426750000091
式(8)可进一步等价为求取V的目标公式(9),其中tr为矩阵求迹的运算符。
Figure BDA0002024426750000092
步骤S4:基于迁移学习的域适应,寻求能够为源域和目标域共享的特征空间,得到域适应下求解该特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000093
s.t.,VTX=VTXsZ+E
其中,Z为重构的系数矩阵,E为噪音矩阵。进一步的,再与步骤S3相结合,寻求能够同时满足域适应和分类目标的特征空间,得到最终的求解特征空间映射矩阵V的目标函数:
Figure BDA0002024426750000094
s.t.,VTX=VTXsZ+E
获得目标函数后,对其求解,得到特征空间映射矩阵V。
步骤S4.1:基于域适应寻求能够为源域和目标域共享的特征空间
如前所述,由于视频图像具有连续性,且追踪的目标是同一个,因此上一帧的图像和当前帧的图像通常具有很多的相似性,当前帧图像的候选样本和上一帧图像的前景、背景样本往往有很多相似的特征,为此,我们寻求一个特征空间映射矩阵V,使得在通过V映射的特征空间中,目标域Xt能够用源域Xs来表示,即Xt中的前景、背景样本可以用Xs中的前景、背景样本来表示,因此有:
VTXt=VTXsZ (10)
Z为重构的系数矩阵,无论是前景样本还是背景样本,上一帧图像的样本和当前帧的样本常常是高度相关的,因此Z应该具有低秩的特性。进一步的,既然目标域Xt能够用源域Xs来映射表示,那么当域X=[Xs,Xt]时,域X也应可以用Xs来映射表示,另外,在实际环境中,受目标移动、光线变化、障碍物阻挡等原因,噪音干扰是不可避免的,因此,进一步引入噪音矩阵E,用以表示样本相关的噪音数据,而噪音通常是稀疏的,通常可采用l2,1范数来优化,为此有求解V的目标公式:
Figure BDA0002024426750000101
其中rank(Z)为矩阵Z的秩,||E||2,1为矩阵E的l2,1范数。
步骤S4.2:结合域适应和分类构图,求解特征空间映射矩阵V
本发明的目标是找到一个能够满足步骤S3中所述,能使前景样本和背景样本能很好的分离的特征空间,同时也能满足如步骤S4.1所述,在这个特征空间中,能够使目标域当中的前景、背景样本可以用源域的相关前景、背景样本来加以表示。为此,这一目标转化为寻找能够同时满足步骤S3.3中式(9)和步骤S4.1中式(11)的特征空间映射矩阵V(一旦获得这样的V,进一步可以采用步骤S2.2中所述的分类器,在分类器中通过V的映射,使得在映射的特征空间上,候选样本可被很好的分为前景样本、背景样本,进而可以在前景样本中获取最终的追踪目标xt)。为此,结合式(9)和式(11),获得求解V目标公式为:
Figure BDA0002024426750000102
式(12)等价于:
Figure BDA0002024426750000103
s.t.,VTX=VTXsZ+E (13)
由于秩的最小化问题可以用核范数来替代,因此,目标公式(13)可以进一步转化为:
Figure BDA0002024426750000111
其中||Z||*为Z的核范数,引入松弛变量J,并对式(14)进行优化,有:
Figure BDA0002024426750000112
式(15)的优化问题可以采用ALM(Augmented Lagrange Multiplier)方法加以解决,此时,我们首先将式(15)转化为:
Figure BDA0002024426750000113
A1和A2为拉格朗日乘子,μ>0是惩罚参数,接下来,使用ADMM(AlternatingDirection Method of Multiplier)方法来求解V,Z,E,具体而言,求解V时,与V无关的部分如:||J||*,||E||2,1,
Figure BDA0002024426750000114
Figure BDA0002024426750000115
等都可以看作常量。
多次迭代求解J、E、Z、V,用i表示第i次迭代,在第i次对各个变量优化时,有:
Figure BDA0002024426750000116
Figure BDA0002024426750000117
Figure BDA0002024426750000118
Figure BDA0002024426750000119
在获得Vi后,重复步骤S2-S4,多次迭代更新Vi,直至算法收敛,最后得到的Vi即为特征空间映射矩阵V。
上述求解过程如表2所示,步骤S2-S4重复过程如代码第1-11行所示:其中步骤S2见第1行,步骤S3见第2行,步骤S4见第3-11行,求解收敛判定见第10行。
Figure BDA0002024426750000121
表2
从上述流程看出,本发明采用了一种基于深度学习思想求解特征空间映射矩阵V的方法,该方法经过层层迭代求解特征空间映射矩阵V,每一层(即步骤S2-S4中的一次迭代,上述流程中的一次while循环)的输出的V、Z、E,都作为了下一层(即下一次迭代/循环)的输入,在每一层(每一次迭代)处理中,完成目标域Xt的伪前景和伪背景判定(步骤S2:while循环流程第1步)、完成X的前景和背景的分类构图(步骤S3:while循环流程第2步)、以及完成近期追踪结果和当前追踪结果共享的特征空间映射矩阵V的更新、Z和E的更新(步骤S4:while循环流程第3-11步,其中第7步更新V),并将当前层次的输出结果V、Z、E作为下一层次(下一次迭代)的输入,直到算法收敛,输出最终的V,Z,E,其中V即为分类器所需的特征空间映射矩阵。
步骤S5:基于上述算法收敛后获得的特征空间映射矩阵V,再次调用分类器对当前帧图像的候选样本作最终分类,获取前景样本、背景样本以及当前帧图像的追踪目标xt,其中,前景样本和背景样本作为求解下一帧图像的源域。
步骤S6:追踪下一帧图像,对下一帧图像重复上述步骤S1-S5,直至视觉追踪结束。
需要说明的是,追踪开始时,需要初始化源域Xs和特征空间映射矩阵V,由于第一帧图像中追踪目标窗口S1是预先给定的,因此可以将第一帧图像中S1定为参考窗口,对应的追踪目标定为参考样本,此时采用步骤S1中提及的动态模型在参考窗口的周围获取候选窗口并进而得到候选样本,在V未知的情况下,基于候选样本和参考样本在原始空间中的欧式距离远近来决定前景样本和背景样本,距离最近的a个样本为前景样本,距离最远的b个样本为背景样本,并由前景样本和背景样本构成Xs,之后对Xs中的样本,采用步骤S2中提及的方法构图,此时让X=Xs,且前景类和背景类都只有一个簇,并基于FDA线性判别的思想,构图初始化特征空间V,即求解
Figure BDA0002024426750000131
此时,V可以通过XLwXTV=ΛXLbXTV求解,Λ为对角矩阵,其对角元素为特征值,最终完成V的初始化。在完成对Xs和V的初始化之后,可依次调用上述步骤S1-S6完成对后续图像的追踪。
采用本发明的视觉追踪方法,得到的在car4数据集上的部分测试结果如图4和表3所示。从图4和表3看出,与其他方法相比,本发明的追踪准确性更高,同时所花的追踪时间较短。MTT方法出现了一定的偏差,所花时间也较长,SPT方法多次没有追踪到目标,且耗时较多;CT方法虽然所花时间短,但却也多次追踪失败。各个方法的比较结果,说明了本发明的高效性。
视觉追踪方法 本发明 MTT方法 SPT方法 CT方法
时间追踪时间(分钟) 3.76 19.68 34.47 1.98
表3
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种结合分类与域适应的视觉追踪方法,其特征在于,包括如下步骤:
(1)、以上一帧图像中的目标窗口St-1为参考窗口,在当前帧图像中,利用动态模型获取若干候选窗口,将候选窗口对应的样本作为候选样本;
(2)、将前一帧图像追踪得到的前景样本和背景样本构成源域Xs,利用分类器在上一次迭代所获得特征空间映射矩阵V所映射的特征空间中,将当前帧图像的候选样本分为两个类别:伪前景样本和伪背景样本,二者构成目标域Xt
(3)、令域X=[Xs,Xt],基于源域Xs中样本即前景样本和背景样本的标签信息以及目标域Xt中样本即伪前景样本和伪背景样本的伪标签信息,应用FDA(Fisher DiscriminantAnalysis)判别分类,对域X进行分类构图,以寻求一个映射矩阵V,使得在映射的特征空间中,前景节点紧凑分布,背景节点紧凑分布,而前景和背景很好的分离;为此:将域X中的样本作为图中的节点,构造类内图(Gw,Mw)以及类间图(Gb,Mb),并进一步得到分类构图下求取特征空间映射矩阵V的目标函数:
Figure FDA0003508636270000011
其中,tr为矩阵求迹运算符,Lw为图Gw的拉普拉斯矩阵,Lw根据类内关系矩阵Mw计算得到,Lb为图Gb的拉普拉斯矩阵,Lb根据类间关系矩阵Mb计算得到;
(4)、基于迁移学习的域适应,寻求能够为源域和目标域共享的特征空间,得到域适应下求解该特征空间映射矩阵V的目标函数:
Figure FDA0003508636270000012
s.t.,VTX=VTXsZ+E
其中,Z为重构的系数矩阵,rank(Z)为矩阵Z的秩,E为噪音矩阵;进一步的,再与步骤(3)结合,寻求能够同时满足域适应和分类目标的特征空间,得到最终求解特征空间映射矩阵V的目标函数:
Figure FDA0003508636270000013
s.t.,VTX=VTXsZ+E
获得目标函数后,对其求解,得到特征空间映射矩阵V;
重复步骤(2)~(4),直到求解特征空间映射矩阵V的算法收敛;
(5)、基于上述算法收敛后获得的特征空间映射矩阵V,再次调用分类器对当前帧图像的候选样本作最终分类,获取前景样本、背景样本以及当前帧图像的追踪目标xt,其中,前景样本和背景样本作为求解下一帧图像的源域;
(6)、追踪下一帧图像,对下一帧图像重复上述步骤(1)-(5),直至视觉追踪结束。
2.根据权利要求1所述的视觉追踪方法,其特征在于,步骤(2)中,所述分类器为:
Figure FDA0003508636270000021
该分类器的输入为候选样本集C、源域Xs、特征空间映射矩阵V,以及历史上追踪目标样本的均值
Figure FDA0003508636270000022
输出目标域Xt和伪追踪目标xt
CN201910289415.8A 2018-09-07 2019-04-11 一种结合分类与域适应的视觉追踪方法 Active CN109840518B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018110427675 2018-09-07
CN201811042767.5A CN109299676A (zh) 2018-09-07 2018-09-07 一种结合分类与域适应的视觉追踪方法

Publications (2)

Publication Number Publication Date
CN109840518A CN109840518A (zh) 2019-06-04
CN109840518B true CN109840518B (zh) 2022-03-25

Family

ID=65166507

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811042767.5A Pending CN109299676A (zh) 2018-09-07 2018-09-07 一种结合分类与域适应的视觉追踪方法
CN201910289415.8A Active CN109840518B (zh) 2018-09-07 2019-04-11 一种结合分类与域适应的视觉追踪方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201811042767.5A Pending CN109299676A (zh) 2018-09-07 2018-09-07 一种结合分类与域适应的视觉追踪方法

Country Status (1)

Country Link
CN (2) CN109299676A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255321B (zh) * 2018-09-03 2021-12-10 电子科技大学 一种结合历史与即时信息的视觉追踪分类器构建方法
CN111209935B (zh) * 2019-12-26 2022-03-25 武汉安视感知科技有限公司 基于自适应域转移的无监督目标检测方法及系统
CN113920382B (zh) * 2021-12-15 2022-03-15 深圳大学 基于类一致性结构化学习的跨域图像分类方法和相关装置
CN114997266B (zh) * 2022-04-22 2023-07-11 苏州大学 一种面向语音识别的特征迁移学习方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107146237A (zh) * 2017-04-24 2017-09-08 西南交通大学 一种基于在线状态学习与估计的目标跟踪方法
CN107292915A (zh) * 2017-06-15 2017-10-24 国家新闻出版广电总局广播科学研究院 基于卷积神经网络的目标跟踪方法
CN107527068A (zh) * 2017-08-07 2017-12-29 南京信息工程大学 基于cnn和域自适应学习的车型识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031331B2 (en) * 2012-07-30 2015-05-12 Xerox Corporation Metric learning for nearest class mean classifiers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971174A (zh) * 2017-04-24 2017-07-21 华南理工大学 一种cnn模型、cnn训练方法以及基于cnn的静脉识别方法
CN107146237A (zh) * 2017-04-24 2017-09-08 西南交通大学 一种基于在线状态学习与估计的目标跟踪方法
CN107292915A (zh) * 2017-06-15 2017-10-24 国家新闻出版广电总局广播科学研究院 基于卷积神经网络的目标跟踪方法
CN107527068A (zh) * 2017-08-07 2017-12-29 南京信息工程大学 基于cnn和域自适应学习的车型识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Locality Sensitive Discriminant Analysis;Deng Cai 等;《IJCAI》;20071212;708-713 *
Low-Rank Representation with Graph Constraints for Robust Visual Tracking;Jieyan LIU 等;《IEICE TRANSACTIONS on Information and Systems》;20170601;第E100-D卷(第6期);1325-1338 *
Semi-Supervised Tensor-Based Graph Embedding Learning and Its Application to Visual Discriminant Tracking;Weiming Hu 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20160309;第39卷(第1期);172-188 *
基于半监督判别分析的迁移学习算法研究;冯其帅;《万方学位论文》;20180801;1-52 *

Also Published As

Publication number Publication date
CN109840518A (zh) 2019-06-04
CN109299676A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN110163258B (zh) 一种基于语义属性注意力重分配机制的零样本学习方法及系统
CN108154118B (zh) 一种基于自适应组合滤波与多级检测的目标探测系统及方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
Károly et al. Unsupervised clustering for deep learning: A tutorial survey
CN107609460B (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN109977757B (zh) 一种基于混合深度回归网络的多模态的头部姿态估计方法
CN110309856A (zh) 图像分类方法、神经网络的训练方法及装置
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN113592894B (zh) 一种基于边界框和同现特征预测的图像分割方法
Wang et al. GKFC-CNN: Modified Gaussian kernel fuzzy C-means and convolutional neural network for apple segmentation and recognition
CN104616316A (zh) 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN110516533B (zh) 一种基于深度度量的行人再辨识方法
Palomo et al. Learning topologies with the growing neural forest
Mahmoud et al. Pseudoinverse learning autoencoder with DCGAN for plant diseases classification
Grigorev et al. Depth estimation from single monocular images using deep hybrid network
CN109165698A (zh) 一种面向智慧交通的图像分类识别方法及其存储介质
Souly et al. Scene labeling using sparse precision matrix
Du et al. Linear dynamical systems approach for human action recognition with dual-stream deep features
CN111091129A (zh) 一种基于多重颜色特征流形排序的图像显著区域提取方法
CN115393631A (zh) 基于贝叶斯层图卷积神经网络的高光谱图像分类方法
Zarbakhsh et al. Low-rank sparse coding and region of interest pooling for dynamic 3D facial expression recognition
CN116030463A (zh) 神经元荧光显微图像的树突棘标注方法和追踪方法
Milletari et al. Robust segmentation of various anatomies in 3d ultrasound using hough forests and learned data representations
CN117671666A (zh) 一种基于自适应图卷积神经网络的目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant