CN110533691A - 基于多分类器的目标跟踪方法、设备和存储介质 - Google Patents

基于多分类器的目标跟踪方法、设备和存储介质 Download PDF

Info

Publication number
CN110533691A
CN110533691A CN201910752142.6A CN201910752142A CN110533691A CN 110533691 A CN110533691 A CN 110533691A CN 201910752142 A CN201910752142 A CN 201910752142A CN 110533691 A CN110533691 A CN 110533691A
Authority
CN
China
Prior art keywords
search
region
template
target
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910752142.6A
Other languages
English (en)
Other versions
CN110533691B (zh
Inventor
齐美彬
吴晶晶
蒋建国
杨艳芳
李小红
詹曙
苏兆品
张国富
刘学亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Hefei Polytechnic University
Original Assignee
Hefei Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Polytechnic University filed Critical Hefei Polytechnic University
Priority to CN201910752142.6A priority Critical patent/CN110533691B/zh
Publication of CN110533691A publication Critical patent/CN110533691A/zh
Application granted granted Critical
Publication of CN110533691B publication Critical patent/CN110533691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多分类器的目标跟踪方法、设备和存储介质,其中目标跟踪方法包括:1、建立第一特征提取网络和第二特征提取网络并进行预训练;2、构建离线训练样本集、离线分类器,离线giou预测器,并进行离线训练;3、构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tgt和在线训练样本集,对在线分类器进行训练;4、根据离线分类器和在线分类器对当前视频帧进行粗定位;5、利用离线giou预测器判断是否要更新搜索区域;6、利用离线giou预测器对当前视频帧进行精确定位;7、持续对视频后续帧中的目标进行跟踪,直到跟踪结束。该方法通过结合泛化性强的离线分类器和针对性强的在线分类器,能够得到跟踪精度高的跟踪效果。

Description

基于多分类器的目标跟踪方法、设备和存储介质
技术领域
本发明属于视频信号处理技术领域,具体涉及一种对视频中目标进行跟踪的方法、设备以及存储介质。
背景技术
单目标跟踪任务在安防系统中具有较高的实际应用价值,因此其在计算机视觉领域受到了广泛的关注。单目标跟踪任务是在给定视频第一帧图像中设定跟踪目标,追踪和定位视频后续帧中该目标的位置。其主要难点是先验知识少,跟踪的目标仅由第一帧图像中矩形框决定。目标的高速运动,较大的形变等都会给单目标识别任务带来挑战。随着深度学习技术的发展,深度学习任务被成功的运用到了单目标跟踪任务中并取得较好的精度。目前实现单目标跟踪的深度学习算法可以分为三步:1.选定当前帧的固定大小的搜索区域:在上一帧图像中预测的目标中心作为搜索区域中心,将目标面积四倍大小的区域作为当前帧的搜索区域;2.通过目标分类任务确定搜索区域中目标的大致位置:对搜索区域每个位置进行二分类,判断每个位置是否为目标,将是目标的得分最大的位置作为目标的粗略位置。3.利用目标回归对目标大致位置进行回归,得到目标的精确位置:利用图像对训练交并比(iou)预测网络,该网络可以学习衡量模版图像的目标(给定的第一帧目标)与搜索区域的候选目标位置相似度,预测出搜索区域中候选位置的iou。因此可以通过这个网络优化候选位置从而获得iou值最大的候选位置。
虽然上述步骤的方法取得了较好的结果。但是仍存在以下问题和不足:1.不同的物体有不同的运动速率,对于不同的运动目标,在相邻两帧中目标位置变化的幅度也不尽相同。固定搜索区域的尺寸虽然可以适用于大部分的物体,但是对于位置变化较大的目标,目标可能出现在搜索区域外的其他图像区域中,从而出现无法定位目标的情况。2.目标分类中使用的分类器分为两种,分别是可以离线训练的离线分类器和跟踪测试时训练的在线分类器。离线分类器通过使用大量的离线训练数据学习到分类的先验知识,具有较高的泛化性。但是由于追踪的物体未知,因此离线分类器针对性较弱。并且目前的离线分类器尺度单一,无法利用多尺度的特征解决目标尺度变化的问题。而在线分类可以针对追踪视频第一帧的目标学习到符合该目标的分类器,其针对性更强。但是为了保持跟踪速率,在线分类器仅使用少量的追踪视频中的进行少数迭代来迭代更新在线分类器,泛化性较弱。目前大部分的方法都是仅选择一种分类器,而无法解决单一类型分类器带来的问题。
发明内容
发明目的:本发明旨在提供一种目标跟踪方法、设备和存储介质,其中目标跟踪方法通过结合泛化性强的离线分类器和针对性强的在线分类器,能够得到跟踪精度高的跟踪效果。
技术方案:本发明公开了一种基于多分类器的目标跟踪方法,包括如下步骤:
(1)建立第一特征提取网络和第二特征提取网络,所述第一特征提取网络和第二特征提取网络均为基于CNN的特征提取网络;对第一特征提取网络和第二特征提取网络进行预训练;
(2)构建离线训练样本集、离线分类器,离线giou预测器;
所述离线训练样本集中的样本为示例目标图像、示例目标裁剪图像、包含所述示例目标的原始图像构成的图像组合;所述原始图像中示例目标处于中心位置,且原始图像的面积是示例目标面积的4倍;所述示例目标裁剪图像为示例目标图像裁剪背景后的图像;
所述离线分类器用于计算待跟踪目标在搜索区域上不同位置处的离线相似度得分图;
所述离线giou预测器用于计算待跟踪目标与粗略定位位置的相似度Pgiou(Pc(k));
(3)离线训练:采用离线训练样本对所述离线分类器和所述离线giou预测器同时进行训练,训练目标为最小化损失函数:L=Ld+Lg
其中Ld为离线分类器的损失函数;Lg为离线giou预测器的损失函数;
(4)构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tgt和在线训练样本集,对在线分类器进行训练;
所述在线定位分类器用于计算待跟踪目标在视频图像搜索区域上不同位置处的在线相似度得分图;
(5)对视频第k帧图像进行在线目标跟踪,k>1,包括:
(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域Rk
(5.2)粗定位:根据待跟踪目标模板和Rk计算离线相似度得分图Sd(k)与在线相似度得分图Son(k),并进行融合,得到综合得分图;综合得分图中得分最大的像素位置为待跟踪目标粗定位中心位置;根据k-1帧图像中得到的待跟踪目标的大小,得到待跟踪目标粗略位置Pc(k)=[x1,y1,x2,y2],其中(x1,y1)和(x2,y2)分别为目标外部矩形的左上角和右下角在图像中的坐标值;
(5.3)利用离线giou预测器计算待跟踪目标模板与粗略定位位置Pc(k)的相似度Pgiou(Pc(k)),如果Pgiou(Pc(k))小于预设的相似度阈值giouth,扩大搜索区域Rk,重新执行步骤(5.1)进行粗定位;
(5.4)精确定位:设第k帧图像中待跟踪目标的真实位置为Ps(k)=[x′1,y′1,x′2,y′2],以待跟踪目标模板、待跟踪目标在第一帧图像中的位置为离线giou预测器模板流的输入;以第k帧图像的搜索区域Rk、真实位置Ps(k)为离线giou预测器搜索区域流的输入,则离线giou预测器的输出为Ps(k)的函数,即Pgiou=F(Ps(k),其中F(.)为根据离线giou预测器的结构得到的函数;
以粗略定位位置Pc(k)作为Ps(k)的初始值,采用梯度下降法计算Pgiou取最大值时的Ps(k),即为第k帧图像中待跟踪目标的精确位置
(6)令k=k+1,重复步骤5,持续对视频后续帧中的目标进行跟踪,直到跟踪结束。
所述离线分类器为Siamese框架网络,包括结构与参数均相同的上下两流,其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2);上流为模板流,上流的输入为目标图像;下流为搜索区域流,下流的输入为包含上流输入目标的搜索区域图像;
离线分类器上流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层模板特征F1(template);浅层模板特征F1(template)经过第二卷积层(Conv2)的处理后得到深层模板特征F2(template);
离线分类器下流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层搜索区域特征F1(search);浅层搜索区域特征F1(search)经过第二卷积层(Conv2)的处理后得到深层搜索区域特征F2(search);
浅层模板特征F1(template)对浅层搜索区域特征F1(search)做卷积运算,得到浅层特征得分图S1;深层模板特征F2(template)对深层搜索区域特征F2(search)做卷积运算,得到深层特征得分图S2
所述离线相似度得分图Sd=S1+S2
所述离线分类器训练时上流输入为离线训练样本集中的示例目标裁剪图像;下流输入为包含所述示例目标的原始图像;
所述离线分类器的损失函数Ld为:Ld=L1+L2
其中,L1为浅层特征得分图损失函数:L2为深层特征得分图损失函数:
|S1|为浅层特征得分图S1的像素总数;Y1[u]为距离标签,当u距离S1中心点的像素距离大于dth时,Y1[u]=1,否则Y1[u]=0;dth为预设的像素距离阈值。
所述离线giou预测器包括上下两流;其中离线giou预测器上流为模板流,输入为目标图像以及目标图像中目标的位置坐标A;下流为搜索区域流,输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B;
所述离线giou预测器模板流包括第一特征提取网络、第二特征提取网络、模板流卷积层(Conv_t)、模板流上支路全连接层(F_t)、模板流下支路第一全连接层(F_t1)、模板流下支路第二全连接层(F_t2)、模板流特征连接器(C_t);
模板流的输入图像经过第一特征提取网络的处理后得到模板特征G1(template),G1(template)分别经过模板流上支路和模板流下支路的处理,得到模板流上支路特征和模板流下支路特征;所述模板流上支路包括依次连接的模板流卷积层(Conv_t)、Prpool运算模块、模板流上支路全连接层(F_t);所述模板流下支路包括依次连接的第二特征提取网络和Prpool运算模块;模板流上支路特征和模板流下支路特征由模板流特征连接器(C_t)连接在一起,得到模板流特征;模板流特征分别经过模板流下支路第一全连接层(F_t1)和模板流下支路第二全连接层(F_t2)得到两个调制信号T1和T2
所述离线giou预测器搜索区域流包括第一特征提取网络、第二特征提取网络、搜索区域流卷积层(Conv_s)、搜索区域流全连接层(F_s)、搜索区域流上支路全连接层(F_s1)、搜索区域流下支路全连接层(F_s2)、搜索区域流上支路调制器(M1)、搜索区域流下支路调制器(M2)和搜索区域流特征连接器(C_s);
搜索区域流的输入图像经过第一特征提取网络的处理后得到搜索区域特征G1(search),G1(search)分别经过搜索区域流上支路和搜索区域流下支路的处理,得到搜索区域流上支路特征和搜索区域流下支路特征;所述搜索区域流上支路包括依次连接的搜索区域流卷积层(Conv_s)、Prpool运算模块、以T1作为调制信号的搜索区域流上支路调制器(M1)和搜索区域流上支路全连接层(F_s1);所述搜索区域流下支路包括依次连接的第二特征提取网络、Prpool运算模块、以T2作为调制信号的搜索区域流下支路调制器(M2)和搜索区域流下支路全连接层(F_s2);搜索区域流上支路特征和搜索区域流下支路特征由搜索区域流特征连接器(C_s)连接在一起,经过搜索区域流特征连接器(C_s)的处理得到离线giou预测器的输出Pgiou;
离线训练时,在原始图像中随机生成Nc个候选位置Bi,i=1,2,…,Nc;分别用每一个候选位置Bi作为搜索区域流的输入,计算离线giou预测器的输出Pigiou;
所述离线giou预测器的损失函数Lg为:
Gigiou是使用搜索区域中候选位置Bi与真实位置A的giou作为网络监督标签信息。Gigiou的计算为:
A是搜索区域中目标的真实位置框;Bi是搜索区域中目标的候选位置框,C是能够包住A和B的最小框。
所述在线训练样本集的构建包括:
在视频第一帧图像中选择待跟踪目标,其位置为P0=[xl,yl,xr,yr],其中(xl,yl)和(xr,yr)分别为待跟踪目标外部矩形的左上角和右下角在第一帧图像中的坐标值;第一帧图像中待跟踪目标外部矩形内图像区域为待跟踪目标模板tgt
以矩形P0=[xl,yl,xr,yr]的中心为中心,设定宽为2|xl-xr|、高为2|yl-yr|的区域为搜索区域;对搜索区域进行翻转、平移操作,生成m张增强图像mapj,作为在线训练样本集,j=1,2,…,m;
利用第一特征提取网络提取m张增强图像mapj的特征tj
所述在线分类器为n×n的卷积模板w,通过最小化下式损失函数对w进行迭代优化,得到在线分类器卷积模板w:
其中,γj为mapj的权重,yj是在线分类得分图的标签,f(tj;w)是图像特征tj上通过卷积模板w得到的预测位置;∑lλl‖wl2为正则化项;wl为卷积模板w中的第l个参数,l=1,2,…,n2
所述步骤(5.2)中用优化后的在线卷积模板w对Rk进行卷积运算,得到在线特征得分图Son(k)。
步骤(5.1)中搜索区域Rk为:以k-1帧的跟踪结果的中心为中心,宽为高为的区域为第k帧图像的搜索区域Rk
所述步骤(5.2)将待跟踪目标模板和Rk分别作为离线分类器的模板流与搜索流,得到第k帧图像的浅层特征得分图S1,k和深层特征得分图S2,k,离线相似度得分图Sd(k)为:Sd(k)=(S1,k+S2,k);
离线相似度得分图Sd(k)与在线相似度得分图Son(k)融合得到的综合得分图为:S(k)=Sd(k)×Son(k)。
所述步骤(5.3)中扩大搜索区域Rk的具体步骤为:
如果k=2,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%;
如果k>2,k-1帧与k-2帧图像中待跟踪目标在水平方向的位移偏移量大于目标模板tgt的宽度的1.5倍,或k-1帧与k-2帧图像中待跟踪目标在竖直方向的位移偏移量大于目标模板tgt的高度的1.5倍时,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大25%;否则保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%。
本发明采用imagenet对resnet18进行预训练,所述第一特征提取网络为resnet18网络的block1-2;所述第二特征提取网络为resnet18网络的block3。
另一方面,本发明公开了一种计算机可读取存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述目标跟踪方法的步骤。
本发明还公开了一种目标跟踪设备,包括处理器及存储介质,所述存储介质为计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现上述目标跟踪方法。
有益效果:与现有技术相比,本发明公开的目标跟踪方法同时使用离线分类器和在线分类器对待跟踪目标粗定位,结合两种分类器的分类结果产生较为精确的目标粗略位置,从而实现两种分类器功能上的互补,使其能够充分发挥两种分类器的作用而避免使用单一分类器的缺点,在此基础上进行精确定位能够得到跟踪精度高的跟踪效果。
附图说明
图1为本发明公开的目标跟踪方法的流程图;
图2为离线训练样本集示意图;
图3为实施例中离线分类器的结构图;
图4为实施例中离线giou预测器的结构图;
图5为本发明公开的目标跟踪方法整体框架图;
图6为本发明公开的目标跟踪设备示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1所示,本发明公开了一种基于多分类器的目标跟踪方法,包括如下步骤:
步骤1、建立第一特征提取网络和第二特征提取网络,所述第一特征提取网络和第二特征提取网络均为基于CNN的特征提取网络;对第一特征提取网络和第二特征提取网络进行预训练;
第一特征提取网络和第二特征提取网络用于提取图像的特征,本实施例采用imagenet对resnet18进行预训练,在后续训练和跟踪过程中,resnet18的参数保持固定不更新。resnet18包括一个卷积层conv1和4个卷积块conv2_x-conv 5_x,考虑到目标跟踪的实时性,本实施例中,第一特征提取网络为预训练后的resnet18网络的conv1和conv2_x,conv3_x,即使用两个卷积块:block1-2;第二特征提取网络为resnet18网络的conv4_x,即第三卷积块block3。经过实验,仅使用部分网络就可以达到使用全部网络所能达到的性能,且处理速度更快,满足了视频目标跟踪所要求的实时性。
步骤2、构建离线训练样本集、离线分类器,离线giou预测器;
离线训练样本集中的样本为示例目标图像、示例目标裁剪图像、包含所述示例目标的原始图像构成的图像组合;所述原始图像中示例目标处于中心位置,且原始图像的面积是示例目标面积的4倍;所述示例目标裁剪图像为示例目标图像裁剪背景后的图像。
本实施例中,包含示例目标的原始图像尺寸为288×288,示例目标图像的尺寸同样resize到288×288,示例目标图像中仍有少量背景,以示例目标图像中心为中心进行裁剪,裁剪出184×184大小的图像作为示例目标裁剪图像。示例目标裁剪图像中基本只有目标的图像部分。如图2所示,图2-(a)为示例目标图像,其中还有少量背景;图2-(b)为示例目标裁剪图像,基本没有背景;图2-(c)为包含示例目标的原始图像,其中包含的示例目标与示例目标图像中的目标相同,来自视频中不同的图像。
离线分类器用于计算待跟踪目标在搜索区域上不同位置处的离线相似度得分图;离线giou预测器用于计算待跟踪目标与粗略定位位置的相似度Pgiou(Pc(k));
本实施例中,离线分类器为Siamese框架网络,如图3所示,包括结构与参数均相同的上下两流,其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2);上流为模板流,上流的输入为目标图像;下流为搜索区域流,下流的输入为包含上流输入目标的搜索区域图像;Siamese双流网络旨在衡量两张图像的相似性。
离线分类器上流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层模板特征F1(template);浅层模板特征F1(template)经过第二卷积层(Conv2)的处理后得到深层模板特征F2(template);
离线分类器下流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层搜索区域特征F1(search);浅层搜索区域特征F1(search)经过第二卷积层(Conv2)的处理后得到深层搜索区域特征F2(search);
浅层模板特征F1(template)对浅层搜索区域特征F1(search)做卷积运算,得到浅层特征得分图S1;深层模板特征F2(template)对深层搜索区域特征F2(search)做卷积运算,得到深层特征得分图S2
离线相似度得分图Sd=S1+S2
离线分类器训练时上流输入为离线训练样本集中的示例目标裁剪图像;下流输入为包含所述示例目标的原始图像。本实施例中,第一卷积层(Conv1)为4层卷积层,四层卷积层的卷积核大小分别为5×5,3×3,3×3,3×3,输出通道数分别为128,128,256,256,步长均为1,padding均为0;第二卷积层Conv2由3层卷积层组成,卷积核大小均为3×3,输出通道数分别为256,512,512,步长均为1,padding均为0。184×184的示例目标裁剪图像经过resnet18block1-2和第一卷积层Conv1得到的浅层模板特征F1(template)为13×13×256;288×288的原始图像经过resnet18block1-2和第一卷积层Conv1得到的浅层搜索区域特征F1(search)为26×26×256。
根据当卷积核与图像越相似,卷积结果越大的原理,使用模板特征作为卷积核,对搜索区域特征进行卷积操作,得到离线分类的得分图S1,即:将F1(template)作为卷积核在F1(search)上进行卷积,得到14×14×1的浅层特征得分图S1
同样地,F1(template)经过第二卷积层Conv2得到7×7×512的深层模板特征F2(template);F1(search)经过第二卷积层Conv2得到20×20×512的深层搜索区域特征F2(search);将F2(template)作为卷积核在F2(search)上进行卷积,得到14×14×1的深层特征得分图S2
所述离线分类器的损失函数Ld为:Ld=L1+L2
其中,L1为浅层特征得分图损失函数:L2为深层特征得分图损失函数:
|S1|为浅层特征得分图S1的像素总数;Y1[u]为距离标签,当u距离S1中心点的像素距离大于dth时,Y1[u]=1,否则Y1[u]=0;dth为预设的像素距离阈值。
本实施例中采用浅层特征与深层特征级联的离线分类器,能够利用多级多尺度的特征,以适应目标尺度变化带来的问题,提高分类器的鲁棒性。
本实施例中,离线giou预测器包括上下两流;如图4所示,其中离线giou预测器上流为模板流,输入为目标图像以及目标图像中目标的位置坐标A;下流为搜索区域流,输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B;
离线giou预测器模板流包括第一特征提取网络、第二特征提取网络、模板流卷积层(Conv_t)、模板流上支路全连接层(F_t)、模板流下支路第一全连接层(F_t1)、模板流下支路第二全连接层(F_t2)、模板流特征连接器(C_t);
模板流的输入图像经过第一特征提取网络的处理后得到模板特征G1(template),G1(template)分别经过模板流上支路和模板流下支路的处理,得到模板流上支路特征和模板流下支路特征;其中模板流上支路包括依次连接的模板流卷积层(Conv_t)、Prpool(PrROI Pooling)运算模块、模板流上支路全连接层(F_t);模板流下支路包括依次连接的第二特征提取网络和Prpool运算模块;模板流上支路特征和模板流下支路特征由模板流特征连接器(C_t)连接在一起,得到模板流特征;模板流特征分别经过模板流下支路第一全连接层(F_t1)和模板流下支路第二全连接层(F_t2)得到两个调制信号T1和T2
离线giou预测器搜索区域流包括第一特征提取网络、第二特征提取网络、搜索区域流卷积层(Conv_s)、搜索区域流全连接层(F_s)、搜索区域流上支路全连接层(F_s1)、搜索区域流下支路全连接层(F_s2)、搜索区域流上支路调制器(M1)、搜索区域流下支路调制器(M2)和搜索区域流特征连接器(C_s);
搜索区域流的输入图像经过第一特征提取网络的处理后得到搜索区域特征G1(search),G1(search)分别经过搜索区域流上支路和搜索区域流下支路的处理,得到搜索区域流上支路特征和搜索区域流下支路特征;所述搜索区域流上支路包括依次连接的搜索区域流卷积层(Conv_s)、Prpool运算模块、以T1作为调制信号的搜索区域流上支路调制器(M1)和搜索区域流上支路全连接层(F_s1);搜索区域流下支路包括依次连接的第二特征提取网络、Prpool运算模块、以T2作为调制信号的搜索区域流下支路调制器(M2)和搜索区域流下支路全连接层(F_s2);搜索区域流上支路特征和搜索区域流下支路特征由搜索区域流特征连接器(C_s)连接在一起,经过搜索区域流特征连接器(C_s)的处理得到离线giou预测器的输出Pgiou。
本实施例中,离线giou预测器的模板流与搜索区域流均分为两个支路,是为了得到多尺度的特征,其中上支路用一层卷积层提取特征,得到浅层特征,下支路用共享权重的resnet18block3,得到深层特征。
本实施例中,conv_t是一个kernel_size=3,stride=1,输出通道数是128的卷积层。conv_s是kernel_size=3,stride=1,输出通道数是256的卷积层。离线giou预测器训练时,上流输入为示例目标图像,下流输入为包含所述示例目标的原始图像。图4中,G11(template)经过PrPool运算模块后得到3×3×128的特征,其后接全连接层F_t得到1×1×256,G12(template)经过PrPool运算模块后得到1×1×256的特征,将两个1×1×256的特征用C_t连接在一起得到1×1×512的特征,然后通过两个全连接层F_t1及F_t2分别该特征变为两个1×1×256的调制信号T1和T2。G11(search)经过PrPool运算模块的大小为5×5×256,G12(search)经过PrPool运算模块大小为3×3×256,调制是分别将两个调制信号按通道相乘在search流的两个特征G11(search),G12(search)上,具体计算方法见参考文献:Danelljan M,Bhat G,Khan F S,et al.ATOM:Accurate tracking by overlapmaximization[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2019:4660-4669。乘完后将两个特征拼接在一起并经过全连接层F_s,即可得到预测的Pgiou。
离线训练时,在原始图像中随机生成Nc个候选位置Bi,i=1,2,…,Nc;分别用每一个候选位置Bi作为搜索区域流的输入,计算离线giou预测器的输出Pigiou。本实施例中随机生成16个候选位置,即Nc=16,由此得到离线giou预测器的损失函数Lg为:
其中Gigiou是使用搜索区域中候选位置Bi与真实位置A的giou作为网络监督标签信息。Gigiou的计算为:
其中A是搜索区域中目标的真实位置框;B是搜索区域中目标的候选位置框。C是能够包住A和B的最小框。通过公式可以看出giou不仅使用了两个区域的交集和并集信息,还使用了交集周围的部分背景信息,因此其所包含的信息更多,使用giou训练网络可以使网络更具有判别性。
步骤3、离线训练:采用离线训练样本对离线分类器和所述离线giou预测器同时进行训练,训练目标为最小化损失函数:L=Ld+Lg
其中Ld为离线分类器的损失函数;Lg为离线giou预测器的损失函数;
步骤4、构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tgt和在线训练样本集,对在线分类器进行训练;
在线定位分类器用于计算待跟踪目标在视频图像搜索区域上不同位置处的在线相似度得分图;
在线训练样本集的构建包括:
在视频第一帧图像中选择待跟踪目标,其位置为P0=[xl,yl,xr,yr],其中(xl,yl)和(xr,yr)分别为待跟踪目标外部矩形的左上角和右下角在第一帧图像中的坐标值;第一帧图像中待跟踪目标外部矩形内图像区域为待跟踪目标模板tgt
以矩形P0=[xl,yl,xr,yr]的中心为中心,设定宽为2|xl-xr|、高为2|yl-yr|的区域为搜索区域;对搜索区域进行翻转、平移操作,生成m张增强图像mapj,作为在线训练样本集,j=1,2,…,m;本实施例中,在线训练样本集包括30张增强图像,即m=30。
利用第一特征提取网络提取m张增强图像mapj的特征tj
在线分类器为n×n的卷积模板w,本实施例中采用4×4大小的卷积模板,即n=4。随机生成4×4大小的卷积模板w作为在线分类器的初始值,通过最小化下式损失函数对w进行迭代优化,得到在线分类器卷积模板w:
其中,γj为mapj的权重,yj是在线分类得分图的标签,f(tj;w)是图像特征tj上通过卷积模板w得到的预测位置;∑lλl‖wl‖2为正则化项,其可以防止滤波器过拟合;wl为卷积模板w中的第l个参数,l=1,2,…,n2
利用变量代换:损失函数变为:L(w)=‖r(w)‖2
然后通过二次高斯牛顿估计可得在相关滤波器w的增量Δw上的目标函数变为根据一阶泰勒展开r(w+Δw)≈rw+JwΔw,是雅可比矩阵。损失函数可以变成:
利用共轭梯度法迭代60次对上式进行优化,更新得到卷积模版增量Δw,进而得到模版w。
步骤5、对视频第k帧图像进行在线目标跟踪,k>1,包括以下步骤:
(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域Rk
第k帧图像的搜索区域Rk为:以k-1帧的跟踪结果的中心为中心,宽为高为的区域为第k帧图像的搜索区域Rk
(5.2)粗定位:将待跟踪目标模板tgt和Rk分别作为离线分类器的模板流与搜索流,得到第k帧图像的浅层特征得分图S1,k和深层特征得分图S2,k,离线相似度得分图Sd(k)为:Sd(k)=(S1,k+S2,k);用优化后的在线卷积模板w对Rk进行卷积运算,得到在线特征得分图Son(k)。离线相似度得分图Sd(k)与在线相似度得分图Son(k)融合得到的综合得分图为:S(k)=Sd(k)×Son(k)。
通过傅立叶变换将S(k)插值到搜索区域Rk大小,找到最大值的像素位置即为本帧图像中待跟踪目标的中心位置,由于分类器只需要判断目标的大致位置,因此取上一帧得到的目标的长和宽作为本帧图像中目标粗略位置的长和宽,有了中心位置以及长宽,即可得到本帧待跟踪目标粗略位置Pc(k)=[x1,y1,x2,y2],其中(x1,y1)和(x2,y2)分别为目标外部矩形的左上角和右下角在图像中的坐标值;
(5.3)利用离线giou预测器计算待跟踪目标模板与粗略定位位置Pc(k)的相似度Pgiou(Pc(k)),如果Pgiou(Pc(k))小于预设的相似度阈值giouth,扩大搜索区域Rk,重新执行步骤(5.1)进行粗定位;
扩大搜索区域Rk的具体步骤为:
如果k=2,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%,即扩大后Rk的面积约为跟踪目标模板面积的5倍;
如果k>2,k-1帧与k-2帧图像中待跟踪目标在水平方向的位移偏移量大于目标模板tgt的宽度的1.5倍,或k-1帧与k-2帧图像中待跟踪目标在竖直方向的位移偏移量大于目标模板tgt的高度的1.5倍时,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大25%,即扩大后Rk的面积约为跟踪目标模板面积的6倍;否则保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%。
(5.4)精确定位:设第k帧图像中待跟踪目标的真实位置为Ps(k)=[x′1,y′1,x′2,y′2],以待跟踪目标模板、待跟踪目标在第一帧图像中的位置为离线giou预测器模板流的输入;以第k帧图像的搜索区域Rk、真实位置Ps(k)为离线giou预测器搜索区域流的输入,则离线giou预测器的输出为Ps(k)的函数,即Pgiou=F(Ps(k),其中F(.)为根据离线giou预测器的结构得到的函数;
以粗略定位位置Pc(k)作为Ps(k)的初始值,采用梯度下降法计算Pgiou取最大值时的Ps(k),即为第k帧图像中待跟踪目标的精确位置
本实施例中,根据图4,有:
Pgiou(Ps(k))=concat(Fs11×Ft1(α1)),Fs22×Ft2(α2)))
其中:α1=PrPool(G11(template),P(template)),
α2=PrPool(G12(template),P(template)),
ε1和ε2分别是Prpool运算模块根据提取的当前第k帧图像中搜索区域的特征G11(search)(x,y)和G12(search)(x,y),计算出粗略位置Pc(k)内的特征。P(template)是第一帧图像中的待跟踪目标模版的位置,该位置已知且固定,因此α1,α2是Prpool运算模块根据提取的模板目标特征G11(template),G12(template)计算出模板位置内的特征,是固定的常数。
Ft1是图4中F_t及F_t1两个全连接层对特征α1进行进一步运算。Ft11),F_t22)也是可以计算得到的常数。Fs1是图中F_s1及F_s两个全连接层,Fs2是图中F_s2及F_s两个全连接层,Fs1及Fs2进行进一步运算并连接(Concat)得到的Pgiou。根据梯度下降法迭代五次,获得使Pgiou最大的x′1,y′1,x′2,y′,即为当前帧中待跟踪目标的精确位置导数计算如下(以x1为例):
以第一项为例,导数计算如下:
其中,依靠对全连接网络对输出逐层反向求导可得。
步骤6、令k=k+1,重复步骤5,持续对视频后续帧中的目标进行跟踪,直到跟踪结束。
本实施例中目标跟踪方法的整体框图如图5所示。
将本实施例中的目标跟踪方法在VOT2018上进行测试,VOT2018包含60段测试视频序列,其评价标准为期望平均重叠率Expect Average Overlap Rate(EAO),该指标能够同时显示跟踪的精度Accuracy和鲁棒性Robustness。其中精度Accuracy表示跟踪成功状态下的跟踪框与实际框的平均重叠率。Robustness用来评价跟踪目标的稳定性,其反映了跟踪的失败次数。Robustness数值越大,稳定性越差。(当跟踪框与实际框iou大于0即为成功,等于0即为失败)。
测试结果如表1所示:
表1
方法 EAO Accuracy Robustness
Baseline 0.401 0.590 0.204
Baseline+离线分类 0.423 0.600 0.183
Baseline+giou 0.411 0.604 0.192
Baseline+动态规划 0.408 0.607 0.192
Baseline+离线+giou+动态规划 0.434 0.604 0.178
DasiamRPN 0.383 0.586 0.276
SASiamR 0.337 0.566 0.258
DeepSTRCF 0.345 0.523 0.215
Baseline即使用iou作为预训练标签,仅使用在线分类器且无动态规划搜索区域,具体方法见文献:Danelljan M,Bhat G,Khan F S,et al.ATOM:Accurate tracking byoverlap maximization[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2019:4660-4669。DasiamRPN为采用文献:Zhu Z,WangQ,Li B,et al.Distractor-aware siamese networks for visual object tracking[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:101-117.中记载的方法进行目标跟踪;SASiamR为采用文献:He A,Luo C,Tian X,etal.Towards a better match in siamese network based visual object tracker[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:0-0中记载的方法进行目标跟踪;DeepSTRCF为采用文献:Li F,Tian C,Zuo W,et al.Learningspatial-temporal regularized correlation filters for visual tracking[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:4904-4913.中记载的方法进行目标跟踪。
从表1中的对比结果来看,本发明公开的方法在各个评价维度均有较好的表现。
本发明公开的目标跟踪设备如图6所示,包括处理器601及存储介质602,其中存储介质602为计算机可读取存储介质,其上存储有计算机指令,该计算机指令运行时执行本发明所公开的目标跟踪方法的步骤;处理器601加载并执行存储介质602中的指令及数据用于实现上述目标跟踪方法。

Claims (10)

1.基于多分类器的目标跟踪方法,其特征在于,包括如下步骤:
(1)建立第一特征提取网络和第二特征提取网络,所述第一特征提取网络和第二特征提取网络均为基于CNN的特征提取网络;对第一特征提取网络和第二特征提取网络进行预训练;
(2)构建离线训练样本集、离线分类器,离线giou预测器;
所述离线训练样本集中的样本为示例目标图像、示例目标裁剪图像、包含所述示例目标的原始图像构成的图像组合;所述原始图像中示例目标处于中心位置,且原始图像的面积是示例目标面积的4倍;所述示例目标裁剪图像为示例目标图像裁剪背景后的图像;
所述离线分类器用于计算待跟踪目标在搜索区域上不同位置处的离线相似度得分图;
所述离线giou预测器用于计算待跟踪目标与粗略定位位置的相似度Pgiou(Pc(k));
(3)离线训练:采用离线训练样本对所述离线分类器和所述离线giou预测器同时进行训练,训练目标为最小化损失函数:L=Ld+Lg
其中Ld为离线分类器的损失函数;Lg为离线giou预测器的损失函数;
(4)构建在线分类器、根据视频第一帧图像生成待跟踪目标模板tgt和在线训练样本集,对在线分类器进行训练;
所述在线定位分类器用于计算待跟踪目标在视频图像搜索区域上不同位置处的在线相似度得分图;
(5)对视频第k帧图像进行在线目标跟踪,k>1,包括:
(5.1)根据k-1帧图像的跟踪结果获取第k帧图像的搜索区域Rk
(5.2)粗定位:根据待跟踪目标模板和Rk计算离线相似度得分图Sd(k)与在线相似度得分图Son(k),并进行融合,得到综合得分图;综合得分图中得分最大的像素位置为待跟踪目标粗定位中心位置;根据k-1帧图像中得到的待跟踪目标的大小,得到待跟踪目标粗略位置Pc(k)=[x1,y1,x2,y2],其中(x1,y1)和(x2,y2)分别为目标外部矩形的左上角和右下角在图像中的坐标值;
(5.3)利用离线giou预测器计算待跟踪目标模板与粗略定位位置Pc(k)的相似度Pgiou(Pc(k)),如果Pgiou(Pc(k))小于预设的相似度阈值giouth,扩大搜索区域Rk,重新执行步骤(5.1)进行粗定位;
(5.4)精确定位:设第k帧图像中待跟踪目标的真实位置为Ps(k)=[x′1,y′1,x′2,y′2],以待跟踪目标模板、待跟踪目标在第一帧图像中的位置为离线giou预测器模板流的输入;以第k帧图像的搜索区域Rk、真实位置Ps(k)为离线giou预测器搜索区域流的输入,则离线giou预测器的输出为Ps(k)的函数,即Pgiou=F(Ps(k),其中F(.)为根据离线giou预测器的结构得到的函数;
以粗略定位位置Pc(k)作为Ps(k)的初始值,采用梯度下降法计算Pgiou取最大值时的Ps(k),即为第k帧图像中待跟踪目标的精确位置
(6)令k=k+1,重复步骤5,持续对视频后续帧中的目标进行跟踪,直到跟踪结束。
2.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,所述离线分类器为Siamese框架网络,包括结构与参数均相同的上下两流,其中每一流包括依次连接的第一特征提取网络、第一卷积层(Conv1)、第二卷积层(Conv2);上流为模板流,上流的输入为目标图像;下流为搜索区域流,下流的输入为包含上流输入目标的搜索区域图像;
离线分类器上流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层模板特征F1(template);浅层模板特征F1(template)经过第二卷积层(Conv2)的处理后得到深层模板特征F2(template);
离线分类器下流输入图像经过第一特征提取网络和第一卷积层(Conv1)的处理后得到浅层搜索区域特征F1(search);浅层搜索区域特征F1(search)经过第二卷积层(Conv2)的处理后得到深层搜索区域特征F2(search);
浅层模板特征F1(template)对浅层搜索区域特征F1(search)做卷积运算,得到浅层特征得分图S1;深层模板特征F2(template)对深层搜索区域特征F2(search)做卷积运算,得到深层特征得分图S2
所述离线相似度得分图Sd=S1+S2
所述离线分类器训练时上流输入为离线训练样本集中的示例目标裁剪图像;下流输入为包含所述示例目标的原始图像;
所述离线分类器的损失函数Ld为:Ld=L1+L2
其中,L1为浅层特征得分图损失函数:L2为深层特征得分图损失函数:
|S1|为浅层特征得分图S1的像素总数;Y1[u]为距离标签,当u距离S1中心点的像素距离大于dth时,Y1[u]=1,否则Y1[u]=0;dth为预设的像素距离阈值。
3.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,所述离线giou预测器包括上下两流;其中离线giou预测器上流为模板流,输入为目标图像以及目标图像中目标的位置坐标A;下流为搜索区域流,输入为与上流输入对应的原始图像以及原始图像中目标的候选位置B;
所述离线giou预测器模板流包括第一特征提取网络、第二特征提取网络、模板流卷积层(Conv_t)、模板流上支路全连接层(F_t)、模板流下支路第一全连接层(F_t1)、模板流下支路第二全连接层(F_t2)、模板流特征连接器(C_t);
模板流的输入图像经过第一特征提取网络的处理后得到模板特征G1(template),G1(template)分别经过模板流上支路和模板流下支路的处理,得到模板流上支路特征和模板流下支路特征;所述模板流上支路包括依次连接的模板流卷积层(Conv_t)、Prpool运算模块、模板流上支路全连接层(F_t);所述模板流下支路包括依次连接的第二特征提取网络和Prpool运算模块;模板流上支路特征和模板流下支路特征由模板流特征连接器(C_t)连接在一起,得到模板流特征;模板流特征分别经过模板流下支路第一全连接层(F_t1)和模板流下支路第二全连接层(F_t2)得到两个调制信号T1和T2
所述离线giou预测器搜索区域流包括第一特征提取网络、第二特征提取网络、搜索区域流卷积层(Conv_s)、搜索区域流全连接层(F_s)、搜索区域流上支路全连接层(F_s1)、搜索区域流下支路全连接层(F_s2)、搜索区域流上支路调制器(M1)、搜索区域流下支路调制器(M2)和搜索区域流特征连接器(C_s);
搜索区域流的输入图像经过第一特征提取网络的处理后得到搜索区域特征G1(search),G1(search)分别经过搜索区域流上支路和搜索区域流下支路的处理,得到搜索区域流上支路特征和搜索区域流下支路特征;所述搜索区域流上支路包括依次连接的搜索区域流卷积层(Conv_s)、Prpool运算模块、以T1作为调制信号的搜索区域流上支路调制器(M1)和搜索区域流上支路全连接层(F_s1);所述搜索区域流下支路包括依次连接的第二特征提取网络、Prpool运算模块、以T2作为调制信号的搜索区域流下支路调制器(M2)和搜索区域流下支路全连接层(F_s2);搜索区域流上支路特征和搜索区域流下支路特征由搜索区域流特征连接器(C_s)连接在一起,经过搜索区域流特征连接器(C_s)的处理得到离线giou预测器的输出Pgiou;
离线训练时,在原始图像中随机生成Nc个候选位置Bi,i=1,2,…,Nc;分别用每一个候选位置Bi作为搜索区域流的输入,计算离线giou预测器的输出Pigiou;所述离线giou预测器的损失函数Lg为:
其中Gigiou是使用搜索区域中候选位置Bi与真实位置A的giou作为网络监督标签信息;Gigiou的计算公式为:
A是搜索区域中目标的真实位置框;Bi是搜索区域中目标的候选位置框,C是能够包住A和B的最小框。
4.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,所述在线训练样本集的构建包括:
在视频第一帧图像中选择待跟踪目标,其位置为P0=[xl,yl,xr,yr],其中(xl,yl)和(xr,yr)分别为待跟踪目标外部矩形的左上角和右下角在第一帧图像中的坐标值;第一帧图像中待跟踪目标外部矩形内图像区域为待跟踪目标模板tgt
以矩形P0=[xl,yl,xr,yr]的中心为中心,设定宽为2|xl-xr|、高为2|yl-yr|的区域为搜索区域;对搜索区域进行翻转、平移操作,生成m张增强图像mapj,作为在线训练样本集,j=1,2,…,m;
利用第一特征提取网络提取m张增强图像mapj的特征tj
所述在线分类器为n×n的卷积模板w,通过最小化下式损失函数对w进行迭代优化,得到在线分类器卷积模板w:
其中,γj为mapj的权重,yj是在线分类得分图的标签,f(tj;w)是图像特征tj上通过卷积模板w得到的预测位置;∑lλl‖wl2为正则化项;wl为卷积模板w中的第l个参数,l=1,2,…,n2
所述步骤(5.2)中用优化后的在线卷积模板w对Rk进行卷积运算,得到在线特征得分图Son(k)。
5.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,
步骤(5.1)中搜索区域Rk为:以k-1帧的跟踪结果的中心为中心,宽为高为的区域为第k帧图像的搜索区域Rk
6.根据权利要求2所述的基于多分类器的目标跟踪方法,其特征在于,所述步骤(5.2)将待跟踪目标模板和Rk分别作为离线分类器的模板流与搜索流,得到第k帧图像的浅层特征得分图S1,k和深层特征得分图S2,k,离线相似度得分图Sd(k)为:Sd(k)=(S1,k+S2,k);
离线相似度得分图Sd(k)与在线相似度得分图Son(k)融合得到的综合得分图为:S(k)=Sd(k)×Son(k)。
7.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,所述步骤(5.3)中扩大搜索区域Rk的具体步骤为:
如果k=2,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%;
如果k>2,k-1帧与k-2帧图像中待跟踪目标在水平方向的位移偏移量大于目标模板tgt的宽度的1.5倍,或k-1帧与k-2帧图像中待跟踪目标在竖直方向的位移偏移量大于目标模板tgt的高度的1.5倍时,保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大25%;否则保持Rk的中心不变,将Rk宽和高的范围均沿正负方向扩大10%。
8.根据权利要求1所述的基于多分类器的目标跟踪方法,其特征在于,采用imagenet对resnet18进行预训练,所述第一特征提取网络为resnet18网络的block1-2;所述第二特征提取网络为resnet18网络的block3。
9.一种计算机可读取存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8任一项所述的目标跟踪方法的步骤。
10.一种目标跟踪设备,其特征在于,包括处理器及存储介质,所述存储介质为权利要求9所述的计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现权利要求1至8任一项所述的目标跟踪方法。
CN201910752142.6A 2019-08-15 2019-08-15 基于多分类器的目标跟踪方法、设备和存储介质 Active CN110533691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752142.6A CN110533691B (zh) 2019-08-15 2019-08-15 基于多分类器的目标跟踪方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752142.6A CN110533691B (zh) 2019-08-15 2019-08-15 基于多分类器的目标跟踪方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110533691A true CN110533691A (zh) 2019-12-03
CN110533691B CN110533691B (zh) 2021-10-22

Family

ID=68663307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752142.6A Active CN110533691B (zh) 2019-08-15 2019-08-15 基于多分类器的目标跟踪方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110533691B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091105A (zh) * 2019-12-23 2020-05-01 郑州轻工业大学 基于新的边框回归损失函数的遥感图像目标检测方法
CN111223128A (zh) * 2020-01-17 2020-06-02 深圳大学 目标跟踪方法、装置、设备及存储介质
CN111462173A (zh) * 2020-02-28 2020-07-28 大连理工大学人工智能大连研究院 基于孪生网络判别特征学习的视觉跟踪方法
CN111508002A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种小型低飞目标视觉检测跟踪系统及其方法
CN112002131A (zh) * 2020-07-16 2020-11-27 深圳云游四海信息科技有限公司 路内停车行为检测方法及装置
CN113240709A (zh) * 2021-04-23 2021-08-10 中国人民解放军32802部队 基于对比学习的孪生网络目标跟踪方法
CN113298850A (zh) * 2021-06-11 2021-08-24 安徽大学 一种基于注意力机制与特征融合的目标跟踪方法及系统
CN113538507A (zh) * 2020-04-15 2021-10-22 南京大学 一种基于全卷积网络在线训练的单目标跟踪方法
CN114757970A (zh) * 2022-04-15 2022-07-15 合肥工业大学 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统
CN114897941A (zh) * 2022-07-13 2022-08-12 长沙超创电子科技有限公司 基于Transformer和CNN的目标跟踪方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204632A (zh) * 2015-04-29 2016-12-07 株式会社理光 基于多分类器融合的目标跟踪方法和系统
US20170132334A1 (en) * 2015-11-05 2017-05-11 Zoox, Inc. Simulation system and methods for autonomous vehicles
CN109543553A (zh) * 2018-10-30 2019-03-29 中国舰船研究设计中心 基于机器学习的低小慢目标的光电识别跟踪方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法
US20190188753A1 (en) * 2017-12-20 2019-06-20 Lucid Holdings, LLC System and process for audience segment attribute identification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106204632A (zh) * 2015-04-29 2016-12-07 株式会社理光 基于多分类器融合的目标跟踪方法和系统
US20170132334A1 (en) * 2015-11-05 2017-05-11 Zoox, Inc. Simulation system and methods for autonomous vehicles
US20190188753A1 (en) * 2017-12-20 2019-06-20 Lucid Holdings, LLC System and process for audience segment attribute identification
CN109543553A (zh) * 2018-10-30 2019-03-29 中国舰船研究设计中心 基于机器学习的低小慢目标的光电识别跟踪方法
CN109829398A (zh) * 2019-01-16 2019-05-31 北京航空航天大学 一种基于三维卷积网络的视频中的目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TAE-KYUN KIM等: "Online multiple classifier boosting for object tracking", 《2010 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION - WORKSHOPS》 *
ZHENG ZHU等: "Distractor-aware Siamese Networks for Visual Object Tracking", 《ARXIV COMPUTER VISION AND PATTERN RECOGNITION》 *
把萍等: "基于局部稀疏表示的目标跟踪算法", 《合肥工业大学学报(自然科学版)》 *
钱志明等: "基于视频的车辆检测与跟踪研究进展", 《中南大学学报(自然科学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091105A (zh) * 2019-12-23 2020-05-01 郑州轻工业大学 基于新的边框回归损失函数的遥感图像目标检测方法
CN111223128A (zh) * 2020-01-17 2020-06-02 深圳大学 目标跟踪方法、装置、设备及存储介质
CN111462173A (zh) * 2020-02-28 2020-07-28 大连理工大学人工智能大连研究院 基于孪生网络判别特征学习的视觉跟踪方法
CN111462173B (zh) * 2020-02-28 2023-11-17 大连理工大学人工智能大连研究院 基于孪生网络判别特征学习的视觉跟踪方法
CN113538507B (zh) * 2020-04-15 2023-11-17 南京大学 一种基于全卷积网络在线训练的单目标跟踪方法
CN113538507A (zh) * 2020-04-15 2021-10-22 南京大学 一种基于全卷积网络在线训练的单目标跟踪方法
CN111508002A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种小型低飞目标视觉检测跟踪系统及其方法
CN112002131A (zh) * 2020-07-16 2020-11-27 深圳云游四海信息科技有限公司 路内停车行为检测方法及装置
CN113240709A (zh) * 2021-04-23 2021-08-10 中国人民解放军32802部队 基于对比学习的孪生网络目标跟踪方法
CN113298850A (zh) * 2021-06-11 2021-08-24 安徽大学 一种基于注意力机制与特征融合的目标跟踪方法及系统
CN114757970A (zh) * 2022-04-15 2022-07-15 合肥工业大学 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统
CN114757970B (zh) * 2022-04-15 2024-03-08 合肥工业大学 一种基于样本平衡的多层级回归目标跟踪方法和跟踪系统
CN114897941A (zh) * 2022-07-13 2022-08-12 长沙超创电子科技有限公司 基于Transformer和CNN的目标跟踪方法

Also Published As

Publication number Publication date
CN110533691B (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110533691A (zh) 基于多分类器的目标跟踪方法、设备和存储介质
Zhang et al. SCSTCF: spatial-channel selection and temporal regularized correlation filters for visual tracking
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
Zhu et al. Tornado: A spatio-temporal convolutional regression network for video action proposal
CN108154159B (zh) 一种基于多级检测器的具有自恢复能力的目标跟踪方法
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN106952288A (zh) 基于卷积特征和全局搜索检测的长时遮挡鲁棒跟踪方法
Fu et al. Camera-based basketball scoring detection using convolutional neural network
CN109886356A (zh) 一种基于三分支神经网络的目标追踪方法
CN109544600A (zh) 一种基于上下文相关和判别相关滤波器的目标跟踪方法
Zhao et al. Adversarial deep tracking
Zhang et al. A background-aware correlation filter with adaptive saliency-aware regularization for visual tracking
CN110390294A (zh) 一种基于双向长短期记忆神经网络的目标跟踪方法
CN110569706A (zh) 一种基于时间和空间网络的深度集成目标跟踪算法
Liu et al. Toward occlusion handling in visual tracking via probabilistic finite state machines
CN112529005A (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
Xu et al. Hierarchical convolution fusion-based adaptive Siamese network for infrared target tracking
CN112991394B (zh) 基于三次样条插值和马尔科夫链的kcf目标跟踪方法
Cores et al. Short-term anchor linking and long-term self-guided attention for video object detection
Abdullah et al. Vehicle counting using deep learning models: a comparative study
Raju et al. Detection based long term tracking in correlation filter trackers
Yang et al. A feature temporal attention based interleaved network for fast video object detection
Lian et al. A novel scale insensitive KCF tracker based on HOG and color features
CN112883928A (zh) 一种基于深度神经网络的多目标追踪算法
Hu et al. Siamese network object tracking algorithm combining attention mechanism and correlation filter theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant