CN109544603B - 基于深度迁移学习的目标跟踪方法 - Google Patents

基于深度迁移学习的目标跟踪方法 Download PDF

Info

Publication number
CN109544603B
CN109544603B CN201811436746.1A CN201811436746A CN109544603B CN 109544603 B CN109544603 B CN 109544603B CN 201811436746 A CN201811436746 A CN 201811436746A CN 109544603 B CN109544603 B CN 109544603B
Authority
CN
China
Prior art keywords
target
subspace
background
subspaces
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811436746.1A
Other languages
English (en)
Other versions
CN109544603A (zh
Inventor
刘金华
吴姗
任桂平
徐信叶
徐牡莲
李永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Benxi Steel Group Information Automation Co ltd
Dragon Totem Technology Hefei Co ltd
Original Assignee
Shangrao Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shangrao Normal University filed Critical Shangrao Normal University
Priority to CN201811436746.1A priority Critical patent/CN109544603B/zh
Publication of CN109544603A publication Critical patent/CN109544603A/zh
Application granted granted Critical
Publication of CN109544603B publication Critical patent/CN109544603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度迁移学习的目标跟踪方法,涉及数据处理技术领域。该方法包括离线训练和在线跟踪两个阶段。离线训练阶段基于辅助图像数据,利用深度卷积神经网络获取通用目标的先验结构特征信息;然后采用迁移学习将获取的先验结构特征信息迁移到在线跟踪过程中。在线跟踪阶段结合离线学习获得的先验结构特征信息和Haar特征以及图像灰度特征,采用结构稀疏表示和基于多子空间的字典模板技术,建立一种基于深度迁移学习的目标跟踪模型,获取最终的目标跟踪结果。该方法充分利用了视频图像数据的先验结构特征信息,并融合了在线跟踪阶段获取的特征信息,可较好地减轻跟踪的漂移问题,提高目标跟踪的鲁棒性。

Description

基于深度迁移学习的目标跟踪方法
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于深度迁移学习的目标跟踪方法。
背景技术
随着高性能计算机和高质量摄像终端的增多,以及智能视频分析需求的增长,视觉目标跟踪技术引起人们越来越多的关注,并且在军事和民用的诸多领域(智能安防系统、智能交通系统、精确制导系统、医学诊断、航空航天)等都具有极为广泛的应用前景。
视觉目标跟踪的主要过程是对视频或图像序列进行处理,在对感兴趣的目标进行特征提取、目标定位、跟踪检测以及分类识别后,最后获取目标的位置或运动参数。这些信息可用来执行更高级的视觉任务,如目标行为的分析和理解、场景分析、运动模式分类以及目标的行为趋势预测等。视觉目标跟踪技术是目前机器视觉研究的热点之一。虽然研究人员提出了许多目标跟踪方法,这些方法在一定范围内已经取得了良好的效果,但是仍然存在很多问题有待进一步解决。如在目标的背景、形态、姿势、大小和光照条件发生强烈变化的情况下,对目标进行稳健、实时的跟踪就有非常大的挑战性。常用的视觉目标跟踪方法包括产生式跟踪方法和判别式跟踪方法两大类。
产生式跟踪方法主要关注如何精确地拟合源自目标表观的数据。如基于核的目标跟踪方法、增强视觉跟踪方法、基于L1稀疏表示的跟踪方法、多任务跟踪方法以及基于软阈值的均方跟踪方法等。这类目标跟踪方法通过采用均值漂移、稀疏表示、在线增量学习等技术,较好地拟合了目标表观数据,取得了相对鲁棒的目标跟踪性能。然而,由于目标表观并没有特定的形式,在实际应用中验证产生式跟踪方法的正确性极其困难,而且在参数估计(例如期望最大化方法)过程中经常受到局部极值的影响。为了适应目标的表观变化,此类方法一般通过在线更新机制,增量地学习目标区域的目标表示,但是忽略了背景信息,而且计算量也较大。因此,此类方法通常无法处理背景区域中与目标具有相似表观的物体的干扰。
判别式跟踪方法将视觉目标跟踪视为一个二分类问题,而且大多数该类方法基于跟踪-检测(tracking-by-detection)的框架,如多示例学习跟踪方法、基于压缩感知的目标跟踪方、Struck方法、基于在线可区分特征选择的方法、基于核相关滤波的跟踪方法、基于低秩稀疏表示的目标跟踪方法等。判别式跟踪方法的主要目的是最大化目标与非目标区域的差异,同时也关注于挖掘高信息量的特征用于视觉目标跟踪。考虑到计算效率,此类方法通常使用在线方法增量地学习判别目标与非目标的分类函数。判别式跟踪方法虽然可以更好地适应场景的变化,能将目标从背景中分离出来。但是该类跟踪方法的不足是很大程度上依赖于大量地训练样本来拟合目标表观的数据分布。
因此,现有的目标跟踪方法难以实现对目标的准确跟踪。
发明内容
有鉴于此,本发明提供了一种基于深度迁移学习的目标跟踪方法。
本发明提供的技术方案如下:
一种基于深度迁移学习的目标跟踪方法,包括:
获取视频图像序列,确认所述视频图像序列是否为第一帧视频图像;
若所述视频图像序列为第一帧视频图像,对所述视频图像序列进行离线训练处理;
若所述视频图像序列不是第一帧视频图像,对所述视频图像序列进行在线跟踪处理;
确认所有候选样本是否处理完成,若所有候选样本都处理完成,结束跟踪;
若所述所有候选样本没有处理完成,计算当前候选样本的置信度;
判断所述候选样本的最大置信度是否小于预设阈值,若所述候选样本的最大置信度小于预设阈值,对所述最大置信度对应的候选样本重新进行训练,并根据训练完成的特征调整深度学习模型参数;
若所述候选样本的最大置信度大于预设阈值,读取所述视频图像序列中的下一帧图像,进行所述离线训练和在线跟踪,以得到目标的跟踪结果和目标位置。
进一步地,对所述视频图像序列进行离线训练的方法包括:
在所述第一帧视频图像中标定需要跟踪的目标,在所述目标的背景中选取预设数量的图片作为训练的负样本;
将所有训练样本归一化为像素大小为预设大小的图像;
采用深度学习模型对所有训练样本进行训练,获得学习到的先验结构特征信息;
采用迁移学习算法将所述先验结构特征信息迁移至所述在线跟踪处理流程。
进一步地,对所述视频图像序列进行在线跟踪处理的步骤包括:
构造字典模板,并获得所述视频图像中的N个采样粒子的粒子状态;
对所述字典模板和N个采样粒子对应的候选样本进行重叠分块,得到每个分块的灰度特征、Haar特征;
将所述灰度特征和Haar特征与所述先验结构特征信息进行多特征结构稀疏表示;
利用块正交匹配追踪算法求解所述结构稀疏表示,获得所述采样粒子的稀疏表示系数;
应用最大后验概率方法计算所述目标的状态和跟踪结果;
将字典模板表示为目标子空间和背景子空间多个子空间的组合,以更新所述字典模板。
进一步地,采用深度卷积神经网络模型作为所述深度学习模型,采用深度学习模型对所有训练样本进行训练,获得学习到的先验结构特征信息的步骤包括:
将所述训练样本划分为多个批次;
在每个所述批次中的所有训练样本经过所述深度卷积神经网络模型传播后,更新一次网络节点权值,直至所述深度卷积神经网络模型收敛,获得所述先验结构特征信息。
进一步地,构造字典模板,并获得所述视频图像中的N个采样粒子对应的粒子状态的步骤包括:
以所述视频图像序列t时刻的第一帧为对象,构造第一个目标子空间D+[1]和第一个背景子空间D-[1],所述字典模板表示为:DT-1=[D+[1],D-[1],I],其中,DT-1为所述字典模板,I为单位矩阵;
根据所述视频图像序列在t-1时刻的状态,采用粒子滤波法采样得到N个粒子状态
Figure GDA0002626082850000051
进一步地,将所述灰度特征和Haar特征与所述先验结构特征信息进行多特征结构稀疏表示的步骤包括:
建立所述采样粒子的运动模型,根据所述运动模型获得所述采样粒子对应的候选样本,其中:
所述运动模型表示为
Figure GDA0002626082850000052
其中,xt-1,xt分别表示t-1和t时刻目标的状态向量;
xt=(xt,ytt,sttt);
其中,xt,yt表示目标在第t帧x,y方向上的坐标;ηt,sttt分别表示所述目标在第t帧时的旋转角度、变化尺度、宽高比和倾斜角;
Figure GDA0002626082850000053
表示正态分布;ψ表示对角协方差矩阵。
进一步地,利用块正交匹配追踪算法求解所述结构稀疏表示,获得所述采样粒子的稀疏表示系数的步骤包括:
设定所述采样粒子的稀疏表示系数为w,其中:
Figure GDA0002626082850000054
其中,K表示提取的特征数量,
Figure GDA0002626082850000055
表示第j类N个候选样本的第k个特征;
所述字典模板的线性表示为:
Figure GDA0002626082850000061
其中,
Figure GDA0002626082850000062
表示第j类N个候选样本在特征k下的稀疏表示系数,
Figure GDA0002626082850000063
表示残差,λ表示正则化因子,
Figure GDA0002626082850000064
为矩阵wj转置后的第i行。
进一步地,采用以下公式应用最大后验概率方法计算所述目标的状态和跟踪结果的步骤包括:
Figure GDA0002626082850000065
其中,p(yt|xt)表示观测模型,p(xt|xt-1)表示运动模型。y1:t={y1,y2,…,yt};
采用以下公式根据所述采样粒子的观测模型计算似然函数,获取目标跟踪结果:
Figure GDA0002626082850000066
其中,
Figure GDA0002626082850000067
表示重构的目标样本,yt表示观测的目标样本。
进一步地,将字典模板表示为目标子空间和背景子空间多个子空间的组合,以更新所述字典模板的步骤包括:
构造所述目标子空间和背景子空间,将所述字典模板表示为D=[D+,D-,I];
其中,D+=[D+[1],D+[2],…D+[p]]表示所述目标子空间的集合,p表示目标子空间的个数;
D-=[D-[1],D-[2],…D-[q]]表示所述背景子空间的集合,q表示背景子空间的个数,I表示单位矩阵;
相应的,所述采样粒子的稀疏表示系数w表示为w=[w+,w-,e]T
其中w+,w-分别表示由所述目标子空间的集合和所述背景子空间的集合分解得到的稀疏系数。
进一步地,构造所述目标子空间的方法包括:
输入M个样本序列{y1,y2,…,yM},并设置目标子空间的维度为d,目标子空间的数量为S;
对所述视频图像序列中的每d个视频帧,构建d维子空间Ω,其中:Ω=(U,Λ,n),设Ωi=(Uii,ni),则Ω←{yi,yi+1,…,yi+d};U,Λ,n分别表示所述目标子空间的特征向量、特征值和所述目标子空间中总的样本数量;
确定所述目标子空间对应的字典模板是否为空,若为空,结束构造所述目标子空间的过程;
若不为空,将分解的所述特征向量赋值给所述字典模板;
采用以下公式计算所述目标子空间对应的字典模板之间的最大相似度:
给定两个目标子空间Ω1=(U11,n1)和Ω2=(U22,n2);
所述两个目标子空间的相似度为:
Figure GDA0002626082850000071
其中,d表示目标子空间的维度,d2表示子空间Ω2=(U22,n2)的维度,σk表示采用奇异值分解得到的第k个特征值;
采用以下公式根据所述目标子空间对应的字典模板之间的最大相似度,将最为相似的目标子空间进行合并,形成总的目标子空间,
(j,k)*=argmaxSim(D+[j],D+[k]),j,k∈[1,…,S],j≠k;
D+[k]←Unew
D+[j]=D+[j]∪D+[k]。
进一步地,构造所述背景子空间的方法包括:
采集r个背景样本序列{Z1,Z2,…,Zr},并设置所述背景子空间的维度为d,目标子空间的数量为H;
对所述视频图像序列中每d个视频帧,构建d维新的背景子空间Ωh,
Figure GDA0002626082850000081
其中Uhh,nh分别表示背景子空间的特征向量、特征值和子空间总的样本数量;
确认所述背景子空间对应的字典模板是否为空,若所述背景子空间对应的字典模板D-为空,将d维新的背景子空间Ω,
Figure GDA0002626082850000082
赋值给所述背景子空间对应的字典模板D-,即D-[h]←Ωh,h=1,2,…,H;
若所述背景子空间对应的字典模板D-不为空,采用以下公式在H个所述背景子空间中,计算所述背景子空间所在字典模板之间的最大相似度:
给定两个背景子空间Ω3=(U33,n3)和Ω4=(U44,n4);
所述两个背景子空间的相似度为:
Figure GDA0002626082850000083
其中,d表示背景子空间的维度,d4表示子空间Ω4=(U4,Λ4,n4)的维度,σk表示采用SVD分解得到的第k个特征值;
采用以下公式将最为相似的所述背景子空间进行合并,形成总的背景子空间:
Figure GDA0002626082850000091
Figure GDA0002626082850000092
本申请实施例中,通过离线训练处理先学习目标图像的先验结构特征信息,采用在线跟踪处理可以联合多个目标的特征信息对目标进行稀疏表示,且综合考虑候选样本之间的相互关系,实现对目标的精确跟踪。目标跟踪过程中考虑到了目标图像的先验结构特征信息,可以增加目标跟踪的准确性,可以提高在出现目标被遮挡、背景噪声干扰、光照变化以及目标快速运动等复杂环境下的稳健性和自适应性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于深度迁移学习的目标跟踪方法的流程示意图。
图2为本发明实施例提供的一种基于深度迁移学习的目标跟踪方法中步骤S102的子步骤的流程示意图。
图3为本发明实施例提供的一种基于深度迁移学习的目标跟踪方法中步骤S103的子步骤的流程示意图。
图4为本发明实施例提供的一种基于深度迁移学习的目标跟踪方法中步骤S102的子步骤另一的流程示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
发明人在实现本发明实施例过程中发现:现有的目标跟踪方法一般基于手工设置的相似度准则来进行模板匹配,如基于欧式距离、K-L距离、互信息等,基于手工设置的相似度准则方法简单,容易实现。但在目标跟踪过程中,目标受形变、光照、尺度变化、姿态变化等复杂条件的影响,在连续视频帧中目标的外观要经历非常大的变化,采用这些事先给定的相似度准则将难以有效地度量目标分布的准确性,容易产生跟踪轨迹漂移现象。存在的具体缺陷归纳为:
第一,现有的目标跟踪方法大都基于手工设置的相似度准则来进行模板匹配,采用这些事先给定的相似度准则将难以有效地度量目标分布的准确性,也就是目标外观在经历诸如光照、尺度变化、背景噪声干扰等条件影响前和影响后的统计分布特性一般来说有较大差异,如果用统一的相似度准则来进行模板的匹配,容易导致目标的跟踪器偏移真实的目标。
第二,现有的目标跟踪方法大都采用目标图像的灰度特征,没有考虑到目标的其它有效特征如Haar特征、HoG特征、梯度特征等,同时也较少运用到目标图像的先验结构特征信息,这样将影响目标跟踪的鲁棒性。通过联合目标图像的先验信息和在线跟踪获取的特征信息,可较好地减轻目标跟踪的漂移问题,提高目标跟踪的鲁棒性。
第三,现有的目标跟踪方法大都基于单一子空间对目标外观进行建模,导致其在刻画目标非平稳外观流形的区分能力有限;另一方面,现有的目标跟踪方法忽略了视频图像的背景信息,也容易导致出现目标轨迹漂移问题。
为解决上述问题,本申请实施例提供了一种基于深度迁移学习的目标跟踪方法,包括以下步骤。
步骤S101,获取视频图像序列,确认所述视频图像序列是否为第一帧视频图像。
视频图像序列可以表示为O1,O2,…,OT,通过判断视频图像序列是不是第一帧视频图像来确认是进行离线训练处理,还是进行在线跟踪处理。
步骤S102,若所述视频图像序列为第一帧视频图像,对所述视频图像序列进行离线训练处理。
详细的,如图2所示,可以通过以下子步骤进行离线训练处理。
子步骤S121,在所述第一帧视频图像中标定需要跟踪的目标,在所述目标的背景中选取预设数量的图片作为训练的负样本。
子步骤S122,将所有训练样本归一化为像素大小为预设大小的图像。
在对需要跟踪的目标进行标定时,可以采用人工手动标定的方式,使用矩形框等显示形式将目标框中。确定负样本时,可以从目标周围的背景中选取图片作为负样本,选取的背景图片的数量可以根据实际需要确定。可选的,训练样本可以归一化为像素大小为32*32的图像。
子步骤S123,采用深度学习模型对所有训练样本进行训练,获得学习到的先验结构特征信息。
在确定了所有的训练样本后,就可以将所有训练样本通过深度学习模型进行训练,深度学习模型具体采用预设的深度卷积神经网络模型。训练过程中可以将训练样本分为多个批次,在每个批次中所有荀兰样本经过深度卷积神经网络传播后更新一次网络节点权值,直至深度卷积神经网络收敛,获得学习到的先验结构特征信息。
子步骤S124,采用迁移学习算法将所述先验结构特征信息迁移至所述在线跟踪处理流程。
可以将获得的先验结构特征信息迁移到跟踪处理流程,用于目标分类过程。
步骤S103,若所述视频图像序列不是第一帧视频图像,对所述视频图像序列进行在线跟踪处理。
详细的,如图3所示,可以通过以下子步骤进行在线跟踪处理。
子步骤S131,构造字典模板,并获得所述视频图像中的N个采样粒子的粒子状态。
详细的,可以给定t-1时刻的字典模板DT-1,并对DT-1初始化。然后利用粒子滤波方法采样目标的候选样本,获取N个粒子状态
Figure GDA0002626082850000131
子步骤S132,对所述字典模板和N个采样粒子对应的候选样本进行重叠分块,得到每个分块的灰度特征、Haar特征。
子步骤S133,将所述灰度特征和Haar特征与所述先验结构特征信息进行多特征结构稀疏表示。
具体的,对字典模板和N个采样粒子产生的候选样本进行重叠分块,提取每个分块的灰度特征、Haar特征,并与目标的先验结构特征信息进行多特征结构稀疏表示。
子步骤S134,利用块正交匹配追踪算法求解所述结构稀疏表示,获得所述采样粒子的稀疏表示系数。
详细的,设定所述采样粒子的稀疏表示系数为w,其中:
Figure GDA0002626082850000132
其中,K表示提取的特征数量,本申请实施例中提取了图像分块的三种特征即灰度特征、Haar特征以及先验结构特征,因此,这里的k可以取值3。
Figure GDA0002626082850000141
表示第j类N个候选样本的第k个特征。所述字典模板的线性表示为:
Figure GDA0002626082850000142
其中,
Figure GDA0002626082850000143
表示第j类N个候选样本在特征k下的稀疏表示系数,
Figure GDA0002626082850000144
表示残差,λ表示正则化因子,
Figure GDA0002626082850000145
为矩阵wj转置后的第i行。
子步骤S135,应用最大后验概率方法计算所述目标的状态和跟踪结果。
Figure GDA0002626082850000146
其中p(yt|xt)表示观测模型,p(xt|xt-1)表示运动模型。y1:t={y1,y2,…,yt}。然后根据粒子的观测模型计算似然函数,即置信度,获取目标跟踪结果。
Figure GDA0002626082850000147
其中
Figure GDA0002626082850000148
表示重构的目标样本,yt表示观测的目标样本。
子步骤S136,将字典模板表示为目标子空间和背景子空间多个子空间的组合,以更新所述字典模板。
详细的,构造所述目标子空间和背景子空间,将所述字典模板表示为D=[D+,D-,I]。
其中,D+=[D+[1],D+[2],…D+[p]]表示所述目标子空间的集合,p表示目标子空间的个数;
D-=[D-[1],D-[2],…D-[q]]表示所述背景子空间的集合,q表示背景子空间的个数,I表示单位矩阵;
相应的,所述采样粒子的稀疏表示系数w表示为w=[w+,w-,e]T
其中w+,w-分别表示由所述目标子空间的集合和所述背景子空间的集合分解得到的稀疏系数。
目标子空间的构造步骤包括:
输入M个样本序列{y1,y2,…,yM},并设置目标子空间的维度为d,目标子空间的数量为S。然后对所述视频图像序列中的每d个视频帧,构建d维子空间Ω,其中:Ω=(U,Λ,n),设Ωi=(Uii,ni),则Ω←{yi,yi+1,…,yi+d};U,Λ,n分别表示所述目标子空间的特征向量、特征值和所述目标子空间中总的样本数量。
进一步的确定所述目标子空间对应的字典模板是否为空,若为空,结束构造所述目标子空间的过程。若不为空,将分解的所述特征向量赋值给所述字典模板,采用以下公式计算所述目标子空间对应的字典模板之间的最大相似度:
给定两个目标子空间Ω1=(U11,n1)和Ω2=(U22,n2);
所述两个目标子空间的相似度为:
Figure GDA0002626082850000151
其中,d表示目标子空间的维度,d2表示子空间Ω2=(U22,n2)的维度,σk表示采用奇异值分解得到的第k个特征值。
最后可以采用以下公式根据所述目标子空间对应的字典模板之间的最大相似度,将最为相似的目标子空间进行合并,形成总的目标子空间:
(j,k)*=argmaxSim(D+[j],D+[k]),j,k∈[1,…,S],j≠k;
D+[k]←Unew
D+[j]=D+[j]∪D+[k]。
如图4所示,背景子空间的构造过程包括以下子步骤。
子步骤S201,采集r个背景样本序列{Z1,Z2,…,Zr},并设置所述背景子空间的维度为d,目标子空间的数量为H;
子步骤S202,对所述视频图像序列中每d个视频帧,构建d维新的背景子空间Ωh,
Figure GDA0002626082850000161
其中Uh,Λh,nh分别表示背景子空间的特征向量、特征值和子空间总的样本数量;
子步骤S203,确认所述背景子空间对应的字典模板是否为空,若所述背景子空间对应的字典模板D-为空,将d维新的背景子空间Ω,
Figure GDA0002626082850000162
赋值给所述背景子空间对应的字典模板D-,即D-[h]←Ωh,h=1,2,…,H;
子步骤S204,若所述背景子空间对应的字典模板D-不为空,采用以下公式在H个所述背景子空间中,计算所述背景子空间所在字典模板之间的最大相似度:
给定两个背景子空间Ω3=(U33,n3)和Ω4=(U44,n4);
所述两个背景子空间的相似度为:
Figure GDA0002626082850000163
其中,d表示背景子空间的维度,d4表示子空间Ω4=(U44,n4)的维度,σk表示采用SVD分解得到的第k个特征值;
子步骤S205,采用以下公式将最为相似的所述背景子空间进行合并,形成总的背景子空间:
Figure GDA0002626082850000164
Figure GDA0002626082850000165
步骤S104,确认所有候选样本是否处理完成,若所有候选样本都处理完成,结束跟踪。
步骤S105,若所述所有候选样本没有处理完成,计算当前候选样本的置信度;
步骤S106,判断所述候选样本的最大置信度是否小于预设阈值,若所述候选样本的最大置信度小于预设阈值,对所述最大置信度对应的候选样本重新进行训练,并根据训练完成的特征调整深度学习模型参数;
步骤S107,若所述候选样本的最大置信度大于预设阈值,读取所述视频图像序列中的下一帧图像,进行所述离线训练和在线跟踪,以得到目标的跟踪结果和目标位置。
所有的候选样本都可以通过上述子步骤S132至子步骤S136进行处理,然后判断所有候选样本是否全部处理完,如果全部处理完,则结束跟踪过程;如果没有全部处理完,计算当前候选样本的置信度。
如果候选样本的最大置信度小于设定阈值(在本申请实施例中,置信度阈值可以设置为0.85),则认为目标发生了较大的遮挡、光照或形变等变化,然后最大置信度所对应的目标样本加入深度学习模型中重新进行训练,根据训练好的特征重新调整深度学习模型参数。
如果候选样本的最大置信度大于设定阈值,则读取下一帧视频图像,重复离线训练阶段和在线跟踪两个过程。直到获取目标的跟踪结果和用跟踪矩形框表示的目标位置为止。
综上所述,本申请实施例中,通过离线训练处理先学习目标图像的先验结构特征信息,并可将先验结构特征信息采用图正则化迁移学习迁移至在线跟踪处理阶段,采用在线跟踪处理可以联合多个目标的特征信息对目标进行稀疏表示,且综合考虑候选样本之间的相互关系,实现对目标的精确跟踪。目标跟踪过程中考虑到了目标图像的先验结构特征信息,可以增加目标跟踪的准确性,同时结合多个子空间的字典模板更新技术,可以提高在出现目标被遮挡、背景噪声干扰、光照变化以及目标快速运动等复杂环境下的稳健性和自适应性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种基于深度迁移学习的目标跟踪方法,其特征在于,包括:
获取视频图像序列,确认所述视频图像序列是否为第一帧视频图像;
若所述视频图像序列为第一帧视频图像,对所述视频图像序列进行离线训练处理;
若所述视频图像序列不是第一帧视频图像,对所述视频图像序列进行在线跟踪处理;
确认所有候选样本是否处理完成,若所有候选样本都处理完成,结束跟踪;
若所述所有候选样本没有处理完成,计算当前候选样本的置信度;
判断所述候选样本的最大置信度是否小于预设阈值,若所述候选样本的最大置信度小于预设阈值,对所述最大置信度对应的候选样本重新进行训练,并根据训练完成的特征调整深度学习模型参数;
若所述候选样本的最大置信度大于预设阈值,读取所述视频图像序列中的下一帧图像,进行所述离线训练和在线跟踪,以得到目标的跟踪结果和目标位置;
对所述视频图像序列进行离线训练的方法包括:
在所述第一帧视频图像中标定需要跟踪的目标,在所述目标的背景中选取预设数量的图片作为训练的负样本;
将所有训练样本归一化为像素大小为预设大小的图像;
采用深度学习模型对所有训练样本进行训练,获得学习到的先验结构特征信息;
采用迁移学习算法将所述先验结构特征信息迁移至所述在线跟踪处理流程;
对所述视频图像序列进行在线跟踪处理的步骤包括:
构造字典模板,并获得所述视频图像中的N个采样粒子的粒子状态;
对所述字典模板和N个采样粒子对应的候选样本进行重叠分块,得到每个分块的灰度特征、Haar特征;
将所述灰度特征和Haar特征与所述先验结构特征信息进行多特征结构稀疏表示;
利用块正交匹配追踪算法求解所述结构稀疏表示,获得所述采样粒子的稀疏表示系数;
应用最大后验概率方法计算所述目标的状态和跟踪结果;
将字典模板表示为目标子空间和背景子空间多个子空间的组合,以更新所述字典模板;
利用块正交匹配追踪算法求解所述结构稀疏表示,获得所述采样粒子的稀疏表示系数的步骤包括:
设定所述采样粒子的稀疏表示系数为
Figure FDA0003075598600000021
其中:
Figure FDA0003075598600000022
其中,K表示提取的特征数量,
Figure FDA0003075598600000023
表示第j类N个候选样本的第k个特征;
所述字典模板的线性表示为:
Figure FDA0003075598600000031
其中,
Figure FDA0003075598600000032
表示第j类N个候选样本在特征k下的稀疏表示系数,
Figure FDA0003075598600000033
表示残差,λ表示正则化因子,
Figure FDA0003075598600000034
为矩阵wj转置后的第i行。
2.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,采用深度卷积神经网络模型作为所述深度学习模型,采用深度学习模型对所有训练样本进行训练,获得学习到的先验结构特征信息的步骤包括:
将所述训练样本划分为多个批次;
在每个所述批次中的所有训练样本经过所述深度卷积神经网络模型传播后,更新一次网络节点权值,直至所述深度卷积神经网络模型收敛,获得所述先验结构特征信息。
3.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,构造字典模板,并获得所述视频图像中的N个采样粒子对应的粒子状态的步骤包括:
以所述视频图像序列t时刻的第一帧为对象,构造第一个目标子空间U和第一个背景子空间R,所述字典模板表示为:DT-1=[D+[1],D-[1],I],其中,R为所述字典模板,I为单位矩阵;
根据所述视频图像序列在t-1时刻的状态,采用粒子滤波法采样得到N个粒子状态
Figure FDA0003075598600000035
4.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,将所述灰度特征和Haar特征与所述先验结构特征信息进行多特征结构稀疏表示的步骤包括:
建立所述采样粒子的运动模型,根据所述运动模型获得所述采样粒子对应的候选样本,其中:
所述运动模型表示为I(R;E);
其中,I(D;F),I(E;F)分别表示t-1和t时刻目标的状态向量;
Figure FDA0003075598600000041
其中,xt,yt表示目标在第t帧CD方向上的坐标;CE分别表示所述目标在第t帧时的旋转角度、变化尺度、宽高比和倾斜角;CF表示正态分布;R表示对角协方差矩阵。
5.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,采用以下公式应用最大后验概率方法计算所述目标的状态和跟踪结果的步骤包括:
Figure FDA0003075598600000042
其中,p(yt|xt)表示观测模型,p(xt|xt-1)表示运动模型,y1:t={y1,y2,…,yt};
采用以下公式根据所述采样粒子的观测模型计算似然函数,获取目标跟踪结果:
Figure FDA0003075598600000043
其中,
Figure FDA0003075598600000044
表示重构的目标样本,yt表示观测的目标样本。
6.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,将字典模板表示为目标子空间和背景子空间多个子空间的组合,以更新所述字典模板的步骤包括:
构造所述目标子空间和背景子空间,将所述字典模板表示为D=[D+,D-,I];
其中,D+=[D+[1],D+[2],…D+[p]]表示所述目标子空间的集合,p表示目标子空间的个数;
D-=[D-[1],D-[2],…D-[q]]表示所述背景子空间的集合,QA表示背景子空间的个数,I表示单位矩阵;
相应的,所述采样粒子的稀疏表示系数w表示为w=[w+,w-,e[]T];
其中w+,w-分别表示由所述目标子空间的集合和所述背景子空间的集合分解得到的稀疏系数。
7.根据权利要求1所述的基于深度迁移学习的目标跟踪方法,其特征在于,构造所述目标子空间的方法包括:
输入M个样本序列{y1,y2,…,yM},并设置目标子空间的维度为d,目标子空间的数量为S;
对所述视频图像序列中的每d个视频帧,构建d维子空间Ω,其中:Ω=(U,Λ,n),设Ωi=(Uii,ni),则Ω←{yi,yi+1,…,yi+d};U,Λ,n分别表示所述目标子空间的特征向量、特征值和所述目标子空间中总的样本数量;
确定所述目标子空间对应的字典模板是否为空,若为空,结束构造所述目标子空间的过程;
若不为空,将分解的所述特征向量赋值给所述字典模板;
采用以下公式计算所述目标子空间对应的字典模板之间的最大相似度:
给定两个目标子空间Ω1=(U11,n1)和Ω2=(U22,n2);
所述两个目标子空间的相似度为:
Figure FDA0003075598600000061
其中,d表示目标子空间的维度,d2表示子空间Ω2=(U22,n2)的维度,σk表示采用奇异值分解得到的第k个特征值;
采用以下公式根据所述目标子空间对应的字典模板之间的最大相似度,将最为相似的目标子空间进行合并,形成总的目标子空间:
(j,k)*=argmaxSim(D+[j],D+[k]),j,k∈[1,…,S],j≠k;
D+[k]←Unew
D+[j]=D+[j]∪D+[k];
构造所述背景子空间的方法包括:
采集r个背景样本序列{Z1,Z2,…,Zr},并设置所述背景子空间的维度为d,背景子空间的数量为H;
对所述视频图像序列中每d个视频帧,构建d维新的背景子空间Ωh,Ωh=(Uhh,nh),h=1,2,…H;其中U,Λ,n分别表示背景子空间的特征向量、特征值和子空间总的样本数量;
确认所述背景子空间对应的字典模板是否为空,若所述背景子空间对应的字典模板D-为空,将d维新的背景子空间Ω,Ωh=(Uhh,nh),h=1,2,…H赋值给所述背景子空间对应的字典模板D-,即D-[]←Ω,=1,2,…,H;
若所述背景子空间对应的字典模板D-不为空,采用以下公式在H个所述背景子空间中,计算所述背景子空间所在字典模板之间的最大相似度:
给定两个背景子空间Ω3=(U33,n3)和Ω4=(U44,n4);
所述两个背景子空间的相似度为:
Figure FDA0003075598600000071
其中,d表示背景子空间的维度,d4表示子空间Ω4=(U44,n4)的维度,σk表示采用SVD分解得到的第k个特征值;
采用以下公式将最为相似的所述背景子空间进行合并,形成总的背景子空间:
j*=argmaxSim(D-[j],Ωh),j∈[1,…,H]
D-[j]=D-[j]∪Ωh
CN201811436746.1A 2018-11-28 2018-11-28 基于深度迁移学习的目标跟踪方法 Active CN109544603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811436746.1A CN109544603B (zh) 2018-11-28 2018-11-28 基于深度迁移学习的目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811436746.1A CN109544603B (zh) 2018-11-28 2018-11-28 基于深度迁移学习的目标跟踪方法

Publications (2)

Publication Number Publication Date
CN109544603A CN109544603A (zh) 2019-03-29
CN109544603B true CN109544603B (zh) 2021-07-23

Family

ID=65851889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811436746.1A Active CN109544603B (zh) 2018-11-28 2018-11-28 基于深度迁移学习的目标跟踪方法

Country Status (1)

Country Link
CN (1) CN109544603B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021046681A1 (zh) * 2019-09-09 2021-03-18 深圳市迪米欧科技有限公司 面向复杂场景的多源目标跟踪方法
CN111134662B (zh) * 2020-02-17 2021-04-16 武汉大学 一种基于迁移学习和置信度选择的心电异常信号识别方法及装置
CN111368830B (zh) * 2020-03-03 2024-02-27 西北工业大学 基于多视频帧信息和核相关滤波算法的车牌检测识别方法
CN111462184B (zh) * 2020-04-02 2022-09-23 桂林电子科技大学 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
CN113297964B (zh) * 2021-05-25 2022-11-15 周口师范学院 基于深度迁移学习的视频目标识别模型及方法
CN113537383B (zh) * 2021-07-29 2023-04-07 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN114780512B (zh) * 2022-03-22 2023-05-12 荣耀终端有限公司 一种灰度发布方法、系统及服务器

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101325691B (zh) * 2007-06-14 2010-08-18 清华大学 融合不同生存期的多个观测模型的跟踪方法和跟踪装置
CN102609682B (zh) * 2012-01-13 2014-02-05 北京邮电大学 一种针对感兴趣区域的反馈式行人检测方法
CN103093199B (zh) * 2013-01-15 2015-09-23 中国科学院自动化研究所 基于在线识别的特定人脸跟踪方法
CN103295242B (zh) * 2013-06-18 2015-09-23 南京信息工程大学 一种多特征联合稀疏表示的目标跟踪方法
CN109416728A (zh) * 2016-09-30 2019-03-01 富士通株式会社 目标检测方法、装置以及计算机系统
CN108038452B (zh) * 2017-12-15 2020-11-03 厦门瑞为信息技术有限公司 一种基于局部图像增强的家电手势快速检测识别方法
CN108304873B (zh) * 2018-01-30 2020-09-11 深圳市国脉畅行科技股份有限公司 基于高分辨率光学卫星遥感影像的目标检测方法及其系统

Also Published As

Publication number Publication date
CN109544603A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109544603B (zh) 基于深度迁移学习的目标跟踪方法
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Sodhi et al. In-field segmentation and identification of plant structures using 3D imaging
US9141871B2 (en) Systems, methods, and software implementing affine-invariant feature detection implementing iterative searching of an affine space
CN109711366B (zh) 一种基于群组信息损失函数的行人重识别方法
Tian et al. Globally optimal estimation of nonrigid image distortion
US9697614B2 (en) Method for segmenting and tracking content in videos using low-dimensional subspaces and sparse vectors
Ommer et al. Multi-scale object detection by clustering lines
Jia et al. Visual tracking via coarse and fine structural local sparse appearance models
Zhang et al. Online dictionary learning on symmetric positive definite manifolds with vision applications
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN108509925B (zh) 一种基于视觉词袋模型的行人重识别方法
Rudovic et al. Coupled gaussian process regression for pose-invariant facial expression recognition
WO2015012136A1 (en) Method for segmenting data
Wildenauer et al. Vanishing point detection in complex man-made worlds
Venkataraman et al. Adaptive kalman filtering for histogram-based appearance learning in infrared imagery
CN107784284B (zh) 人脸识别方法及系统
Yang et al. Non-rigid point set registration via global and local constraints
Hempel et al. Pixel-wise motion segmentation for SLAM in dynamic environments
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN113313179A (zh) 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法
De la Torre et al. Filtered component analysis to increase robustness to local minima in appearance models
Kirstein et al. Rapid online learning of objects in a biologically motivated recognition architecture
Dewaele et al. The alignment between 3-d data and articulated shapes with bending surfaces
Rahimi et al. Uav sensor fusion with latent-dynamic conditional random fields in coronal plane estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231205

Address after: 117000 No. 130, Guangyu Road, Pingshan District, Benxi City, Liaoning Province

Patentee after: BENXI STEEL (GROUP) INFORMATION AUTOMATION CO.,LTD.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20231205

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: No. 401, Zhimin Avenue, Xinzhou District, Shangrao City, Jiangxi Province

Patentee before: SHANGRAO NORMAL University