CN115620206A - 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法 - Google Patents

一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法 Download PDF

Info

Publication number
CN115620206A
CN115620206A CN202211373166.9A CN202211373166A CN115620206A CN 115620206 A CN115620206 A CN 115620206A CN 202211373166 A CN202211373166 A CN 202211373166A CN 115620206 A CN115620206 A CN 115620206A
Authority
CN
China
Prior art keywords
template
image
network
target tracking
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211373166.9A
Other languages
English (en)
Inventor
雷汝霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202211373166.9A priority Critical patent/CN115620206A/zh
Publication of CN115620206A publication Critical patent/CN115620206A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法,该方法中的多模板视觉目标跟踪网络基于多模板设计,在跟踪过程中根据跟踪的结果,实时生成模板,能实时感知跟踪对象的状态变化,提升长期跟踪能力与辨别相似物体的能力。该方法中的多模板视觉目标跟踪方法设计有模板管理器,对在跟踪过程中的产生的新模板进行动态管理,并推荐出最合适的模板,排除不合适的模板,进一步提升跟踪准确度,同时能减少内存占用和算力需求,提高运行速度。

Description

一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法
技术领域
本发明属于计算机视觉领域,尤其涉及视觉目标跟踪算法。
背景技术
视觉目标跟踪是计算机视觉领域的一项基本研究方向。视觉目标跟踪的主要过程是在一个视频帧序列中,指定初始帧的某一区域为跟踪对象,利用跟踪对象的视觉特征和视频帧序列的上下文信息,对目标的外观特征和运动状态进行建模,在后续的视频帧中,利用建模信息,标注出目标所在的位置及大小。视觉目标跟踪技术已广泛用于各项领域,包括自动驾驶、工业控制、智慧医疗、卫星遥感、军事攻防等。
目前常见的基于深度学习的视觉目标跟踪方法大多遵从孪生网络的结构。通过对视频帧中初始帧所标记的跟踪对象进行视觉特征提取,在后续帧中划定搜索区域,在搜索区域中搜寻跟踪对象。此类方法仅使用初始帧的视觉信息进行建模,在后续跟踪过程中并不对此模型进行更新或修正,从而不能感知到跟踪对象的状态变化,包括遮挡、运动模糊、光照变化、非刚性形变等,导致方法的长时间跟踪能力差。同时,在实际应用中,视频帧序列中往往存在与跟踪对象相似的干扰物,现有方法辨别干扰物的能力差,应用场景受限。
因此,需要一种能在跟踪过程中对跟踪目标进行动态建模的方法。
发明内容
为解决现有技术中存在的上述缺陷,本发明提供一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法,该方法使用初始帧生成模板,并动态记录与管理跟踪过程中产生的新模板,从而实现更高的长时间跟踪性能和更强的干扰物区分能力。
根据本发明的第一方面,提供一种多模板视觉目标跟踪网络的训练方法,其特征在于:多模板视觉目标跟踪网络包括:特征提取主干网络,多模板特征融合网络,分支预测网络;该训练方法包括:
步骤101:对数据集进行预处理,数据集包括多个视频帧序列,每个序列包含多个原始图像,每个图像对应一个边界框,该边界框表示出跟踪对象在图像中的位置。
原始图像进行预处理后形成对应的图像元组,该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像,其中正确模板图像与偏移模板图像具有相同尺寸,搜索区域图像的尺寸大于模板图像。跟踪对象处于正确模板图像的中心位置,不必处于偏移模板图像或搜素区域图像的中心位置。正确模板图像用于模拟跟踪过程中,视频帧中初始帧与与之对应的正确的边界框标记。偏移模板图像用于模拟跟踪过程中,后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记。搜索区域图像用于模拟跟踪过程中,某一时刻需要搜索跟踪对象的搜索区域。
步骤102:将图像元组内的图像分别输入到特征提取主干网络,得到输出的图像元组对应的特征图。
步骤103:将图像特征图输入到多模板特征融合网络,得到输出的图像元组对应的融合特征图。
其中,图像元组对应的融合需与位置编码参数和模板编码参数相加。位置编码参 数和模板编码参数都是可学习的,在深度神经网络训练中学习。模板编码参数包括正确模 板编码参数,偏移模板编码参数和搜索区域编码参数。
Figure 40963DEST_PATH_IMAGE001
Figure 639435DEST_PATH_IMAGE002
为正确模 板图像特征图,
Figure 453807DEST_PATH_IMAGE003
Figure 479532DEST_PATH_IMAGE004
等为偏移模板图像特征图,
Figure 448363DEST_PATH_IMAGE005
为搜索区域图像特征图,
Figure 584946DEST_PATH_IMAGE006
为位 置编码参数,
Figure 394770DEST_PATH_IMAGE007
为正确模板编码参数,
Figure 591396DEST_PATH_IMAGE008
为偏移模板编码参数,
Figure 781944DEST_PATH_IMAGE009
为搜索区域编 码参数,
Figure 784535DEST_PATH_IMAGE010
为输入到多模板特征融合网络的特征。
步骤104:将图像元组对应的融合特征图输入到分支预测网络,得到输出相似度分 数
Figure 245604DEST_PATH_IMAGE011
,以及角点热力图
Figure 878710DEST_PATH_IMAGE012
Figure 995702DEST_PATH_IMAGE013
相似度分数表示搜索区域x中的目标,与正确模板z0偏移模板z1,z2…的相似程 度。角点热力图分别代表深度神经网络对搜索区域内跟踪对象的左上角点、右下角点预测 的置信度。对角点热力图计算argsoftmax,可以得到网络估计的跟踪对象左上点和右下点 的坐标。
Figure 67563DEST_PATH_IMAGE014
Figure 170690DEST_PATH_IMAGE015
其中,
Figure 443539DEST_PATH_IMAGE016
Figure 375723DEST_PATH_IMAGE017
分别为argsoftmax计算后估计的跟踪对象左上点和右下 点的坐标。
Figure 392221DEST_PATH_IMAGE012
Figure 795258DEST_PATH_IMAGE013
为分支预测网络预测的角点热力图。
步骤105:计算损失,并根据损失来训练多模板视觉目标跟踪网络的参数。
其中,相似度分数损失
Figure 566905DEST_PATH_IMAGE018
Figure 720806DEST_PATH_IMAGE019
表 示当前训练元组中,搜索区域内是否存在跟踪对象,存在则为1,不存在为0。边界框回归损 失
Figure 806573DEST_PATH_IMAGE020
,其中
Figure 300003DEST_PATH_IMAGE021
为边界框GIOU损失,
Figure 678769DEST_PATH_IMAGE022
为边界框L1损失,
Figure 319966DEST_PATH_IMAGE023
Figure 678266DEST_PATH_IMAGE024
为预设参数。
进一步地,本发明所提供的多模板视觉目标跟踪网络的训练方法,其特征在于,原始图像预处理和模板编码参数。
其中,原始图像预处理包括采样多个偏移模板图像,并对偏移模板图像进行边界框抖动处理。
根据本发明的第二方面,提供一种基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法,其特征在于:多模板视觉目标跟踪网络是第一方面的训练方法训练得到的;使用模板管理器;该目标跟踪方法包括:
步骤201:在连续视频帧序列中,根据初始帧图像和与之对应的边界框,以边界框中心获取到正确模板图像。
步骤202:从后续帧中,以跟踪对象在上一帧图像中的位置为中心点,截取搜索区域。
步骤203:从模板管理器中获取多个合适的模板作为偏移模板图像。
步骤204:将正确模板图像、多个偏移模板图像和搜索区域图像输入多模板视觉目标跟踪网络,得到相似度分数和角点热力图。
步骤205:根据多模板视觉目标跟踪网络的输出,确定跟踪对象的左上角点和右下角点,从而确定跟踪对象在此视频帧上的边界框信息。
步骤206:根据多模板视觉目标跟踪网络的输出,如果相似度分数大于某一阈值,则根据步骤205的估计的边界框信息,截取当前帧中的跟踪目标对象,作为模板推送至模板管理器。
步骤207:继续处理后续帧,重复执行步骤202至步骤206。
进一步地,本发明所提供的基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法,其特征在于,特征融合网络的输入中,包括视频初始帧所生成的正确模板,和多个在跟踪过程中生成的,有一定边界框偏移的偏移模板。
进一步地,本发明所提供的基于多模板视觉目标跟踪网络的训练方法的目标跟踪方法,其特征在于,步骤203和步骤206中所述的模板管理器。
模板管理器保有一定大小的模板存储空间,采用缓存管理算法来管理模板存储空间。当进行步骤206将新模板被推送至模板管理器时,模板管理器首先计算新模板与所有已缓存模板的相似度,当相似度大于等于设定的阈值,则认为新模板与已缓存模板相同,即缓存命中,当相似度小于设定的阈值,则认为新模板与已缓存模板不相同,即缓存未来命中。如果模板存储空间已满,根据缓存管理算法,淘汰最近最少使用的模板。最后将新模板存储至模板存储空间。当进行步骤203向模板管理器请求模板时,模板管理器将返回多个最近最多使用的模板。
根据本发明的第三方面,提供一种计算机设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的多模板视觉目标跟踪网络的训练方法。
根据本发明的第四方面,提供一种计算机设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第二方面的基于多模板视觉目标跟踪网络的跟踪方法。
根据本发明的第五方面,提供一种计算机可读存储介质,其特征在于,存储有指令,指令被处理器执行时,执行第一方面的多模板视觉目标跟踪网络的训练方法。
根据本发明的第六方面,提供一种计算机可读存储介质,其特征在于,存储有指令,指令被处理器执行时,执行第二方面的基于多模板视觉目标跟踪网络的跟踪方法。
与现有技术相比,本发明所构思的上述技术方案至少具有以下有益效果:
1.本发明提出基于多模板设计的视觉目标跟踪框架,能实时感知与保存跟踪对象的视觉外观变换,从而提升长时间视觉目标跟踪性能。
2.针对多模板设计导致的空间占用问题,本发明提出一种基于缓存算法的模板管理器,动态管理跟踪过程中生成的新模板,显著减少在视觉跟踪过程中的资源占用。同时模板管理器能推荐出最合适的模板,排除不合适的模板,进一步提升跟踪准确度。
3.为模拟跟踪过程中预测偏差,本发明提出一种图片预处理方法和可学习的模板编码参数,提高网络鲁棒性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的多模板视觉目标跟踪网络结构示意图。
图2是根据一示例性实施例示出的多模板特征融合网络结构示意图。
图3是根据一示例性实施例示出的多模板视觉目标跟踪网络的训练方法示意图。
图4是根据一示例性实施例示出的视觉目标跟踪方法示意图。
图5是根据一示例性实施例示出的视觉目标跟踪方法流程示意图。
图6是根据一示例性实施例示出的模板管理器模板替换算法描述图。
图7是根据一示例性实施例示出的视觉目标跟踪方法在一示例性视频序列上的效果图。
图8是根据一示例性实施例示出的视觉目标跟踪方法在另一示例性数据集上与现有技术的性能对比图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。
本发明所涉及的多模板视觉目标跟踪网络,如图1所示,包括:特征提取主干网络,多模板特征融合网络,分支预测网络。
在一些实施例中,特征提取主干网络为全卷积网络,由1个Stem模块和4个Layer模块串联组成,网络总步长为32,分别在Stem模块和4个Layer模块后进行下采样,每个Layer逐步提升通道数。图像经由特征提取主干网络后,得到图像的特征图。
具体而言,特征提取主干网络可以为一种改进的ResNet网络,所述ResNet网络去除最后的池化层和全连接层。
在一些实施例中,如图2所示,多模板特征融合网络为Transformer Encoder网络,由多个Transformer Layer模块串联组成,每个Transformer Layer包括Multi-headAttention和Feed Forward层。将上述特征提取主干网络提取的正确模板图像特征图、偏移模板图像特征图、搜索区域图像特征图每个像素点作为一个token,经由TransformerEncoder网络融合特征图。
在一些实施例中,经由特征融合网络融合入模板特征后,只保留搜索区域图像的特征图。
在一些实施例中,分支预测网络为两个全卷积神经网络,其中一个全卷积神经网络用于获取相似度分数,另一个全卷积神经网络用于获取跟踪对象在搜索区域的左上角点和右下角点的角点热力图。通过argsoftmax操作可从角点热力图中计算出跟踪对象的左上角点和右下角点坐标。
本发明提供一种针对上述多模板视觉目标跟踪网络的训练方法10,如图3所示,其步骤如下:
步骤101:对数据集进行预处理,数据集包括多个视频帧序列,每个序列包含多个原始图像,每个图像对应一个边界框,该边界框表示出跟踪对象在图像中的位置。原始图像进行预处理后形成对应的图像元组,该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像,其中正确模板图像与偏移模板图像具有相同尺寸,搜索区域图像的尺寸大于模板图像。跟踪对象处于正确模板图像的中心位置,不必处于偏移模板图像或搜素区域图像的中心位置。正确模板图像用于模拟跟踪过程中,视频帧中初始帧与与之对应的正确的边界框标记。偏移模板图像用于模拟跟踪过程中,后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记。搜索区域图像用于模拟跟踪过程中,某一时刻需要搜索跟踪对象的搜索区域。
在一些实施例中,通常需要对训练数据进行填充、裁剪、缩放等调整,例如,正确模板图像是以选定跟踪对象为中心按照128*128尺寸进行调整的,偏移模板图像以选定跟踪对象为中心进行一定随机偏移后按照128*128尺寸进行调整的,搜索区域图像则是在以跟踪对象在上一帧位置为中心按照320*320尺寸进行调整。
在一些实施例中,偏移模板图像的数量设置为3。
步骤102:将图像元组内的图像分别输入到特征提取主干网络,得到输出的图像元组对应的特征图。
在一些实施例中,特征提取主干网络为全卷积网络,由1个Stem模块和4个Layer模块串联组成,网络总步长为32,分别在Stem模块和4个Layer模块后进行下采样,每个Layer逐步提升通道数。图像经由特征提取主干网络后,得到图像的特征图。
具体而言,正确模板图像经由特征提取主干网络得到的正确模板图像特征图的分辨率为4*4,偏移模板图像经由特征提取主干网络得到的偏移模板图像特征图的分辨率为4*4,搜索区域图像经由特征提取主干网络得到的搜索区域图像特征图的分辨率为10*10。
步骤103:将图像特征图输入到多模板特征融合网络,得到输出的图像元组对应的融合特征图。
在一些实施例中,多模板特征融合网络为Transformer Encoder网络,由多个Transformer Layer模块串联组成,每个Transformer Layer包括Multi-head Attention和Feed Forward层。将上述特征提取主干网络提取的正确模板图像特征图、偏移模板图像特征图、搜索区域图像特征图每个像素点作为一个token,经由Transformer Encoder网络融合特征图。
在一些实施例中,经由特征融合网络融合入模板特征后,只保留搜索区域图像的特征图。
具体而言,正确模板图像特征图、3个偏移模板图像特征图、搜索区域图像特征图分别作为16,48,100个token,合计164个token,经过6个Transformer Layer,获得164个特征融合后的token。仅保留对应于搜索区域图像的100个特征,将其重新排列为10*10分辨率。
步骤104:将图像元组对应的融合特征图输入到分支预测网络,得到输出相似度分数,以及角点热力图。
在一些实施例中,分支预测网络为两个全卷积神经网络,其中一个全卷积神经网 络用于获取相似度分数,另一个全卷积神经网络用于获取跟踪对象在搜索区域的左上角点 和右下角点的角点热力图。通过argsoftmax操作可从角点热力图中计算出跟踪对象的左上 角点和右下角点坐标。
Figure 416415DEST_PATH_IMAGE014
Figure 201969DEST_PATH_IMAGE015
其中,
Figure 828997DEST_PATH_IMAGE016
Figure 194250DEST_PATH_IMAGE017
分别为argsoftmax计算后估计的跟踪对象左上点和右下 点的坐标,W,H均为10。
步骤105:计算损失,并根据损失来训练多模板视觉目标跟踪网络的参数。
在一些实施例中,相似度分数损失
Figure 724589DEST_PATH_IMAGE018
Figure 274519DEST_PATH_IMAGE019
表示当前训练元组中,搜索区域内 是否存在跟踪对象,存在则为1,不存在为0。边界框回归损失
Figure 890308DEST_PATH_IMAGE020
,其 中
Figure 292208DEST_PATH_IMAGE021
为边界框GIOU损失,
Figure 411474DEST_PATH_IMAGE022
为边界框L1损失,
Figure 69988DEST_PATH_IMAGE023
Figure 500969DEST_PATH_IMAGE024
为2.0和5.0。
在一些实施例中,多模板视觉目标跟踪网络训练分为两个阶段。第一个阶段,仅使用边界框回归损失来训练多模板视觉目标跟踪网络。第二阶段,仅使用相似度分数损失来训练分支预测网络中的相似度分数分支,冻结多模板视觉目标跟踪网络的其他部分。
本发明提供一种基于上述多模板视觉目标跟踪网络训练方法的目标跟踪方法20,其中多模板视觉目标跟踪网络是根据训练方法10训练得到的。
如图4及图5所示,目标跟踪方法20包含步骤如下:
步骤201:在连续视频帧序列中,根据初始帧图像和与之对应的边界框,以边界框中心获取到正确模板图像。
步骤202:从后续帧中,以跟踪对象在上一帧图像中的位置为中心点,截取搜索区域。
步骤203:从模板管理器中获取多个合适的模板作为偏移模板图像。
步骤204:将正确模板图像、多个偏移模板图像和搜索区域图像输入多模板视觉目标跟踪网络,得到相似度分数和角点热力图。
步骤205:根据多模板视觉目标跟踪网络的输出,确定跟踪对象的左上角点和右下角点,从而确定跟踪对象在此视频帧上的边界框信息。
步骤206:根据多模板视觉目标跟踪网络的输出,如果相似度分数大于某一阈值,则根据步骤205的估计的边界框信息,截取当前帧中的跟踪目标对象,作为模板推送至模板管理器。
步骤207:继续处理后续帧,重复执行步骤202至步骤206。
在一些实施例中,模板管理器遵循改进的ARC算法,如图6所示。
具体而言,模板管理器维护模板存储空间,模板存储空间包含两个LRU最近最少使 用序列,序列L1存储首次被访问的模板,L2存储被访问过两次及以上的模板。设定参数c=3。 模板存储空间总容量为2c=6,即队列L1和L2总共的最大长度为6。L1的最大长度为c=3。将L1 分为头部T1和尾部B1两个部分,头部T1保存最近最常使用模板,尾部B1保存最近最少使用 模板。将L2分为头部T2和尾部B2两个部分,头部T2保存最近最常使用模板,尾部B2保存最近 最少使用模板。为T1的长度设置一个动态的目标值p,0≤p≤c。在步骤206中,推送新模板至 模板管理器时,首先分别计算新模板与所有已存储模板的余弦相似度
Figure 4763DEST_PATH_IMAGE025
,其中
Figure 680333DEST_PATH_IMAGE026
为新模板的特征图,
Figure 509749DEST_PATH_IMAGE027
为已存储模板的特征图。当新 模板与某已存储模板相似度大于等于阈值thres=0.8时,则认为新模板与此已存储模板相 同,为一次模板命中。当新模板与所有已存储模板相似度都小于阈值thres=0.8时,则认为 新模板与所有已存储模板不同,为一次模板未命中。如图6所示,模板管理器动态维护模板 存储空间。当进行步骤203时,模板管理器返回T1与T2中存储的模板,这些模板被认为是最 有价值的。
基于同一个发明构思,本发明提供一种多模板视觉目标跟踪网络训练方法的实施例。
本实施例是基于Pytorch在Intel(R) Xeon(R) E5-2620v4 CPU @ 2.10GHz,126GB of RAM,以及3×NVIDIA TITAN Xp with 12GB of RAM实现的。在训练过程中,设置网络的batch size为32。其步骤如下:
步骤1:数据集我们采用LaSOT,TrackingNet,GOT-10k,COCO作为我们的基础训练集。在小于200的间隔内选择帧元组,每个帧元组包括5张图片,其中第一张为正确模板图片,最后一张为搜索区域图片。对训练数据进行填充、裁剪、缩放等调整,正确模板图像是以选定跟踪对象为中心按照128*128尺寸进行调整的,偏移模板图像以选定跟踪对象为中心进行一定随机偏移后按照128*128尺寸进行调整的,搜索区域图像则是在以跟踪对象在上一帧位置为中心按照320*320尺寸进行调整。
步骤2:将步骤1所述图像元组输入到由改进的ResNet50网络的特征提取主干网络,提取得到输出的图像元组对应的特征图。
正确模板图像特征图分辨率为4*4。每个偏移模板图像特征图分辨率为4*4。搜索区域图像特征图分辨率为10*10。
步骤3:将图像元组对应的特征图输入多模板特征融合网络Transformer Encoder网络中,得到融合后的融合特征图。
正确模板图像特征图、3个偏移模板图像特征图、搜索区域图像特征图分别作为16,48,100个token,合计164个token,经过6个Transformer Layer,获得164个特征融合后的token。仅保留对应于搜索区域图像的100个特征,将其重新排列为10*10分辨率。
步骤4:将融合后的融合特征图输入到分支预测网络,得到输出相似度分数,以及角点热力图。根据角点热力图使用argsoftmax计算出跟踪对象的左上点和右下点的坐标,得到目标的边界框。
步骤5:计算出相似度损失和边界框回归损失。
其中,相似度分数损失
Figure 834551DEST_PATH_IMAGE018
Figure 204352DEST_PATH_IMAGE019
表 示当前训练元组中,搜索区域内是否存在跟踪对象,存在则为1,不存在为0。边界框回归损 失
Figure 767052DEST_PATH_IMAGE020
,其中
Figure 265904DEST_PATH_IMAGE021
为边界框GIOU损失,
Figure 140319DEST_PATH_IMAGE022
为边界框L1损失,
Figure 517074DEST_PATH_IMAGE023
Figure 668700DEST_PATH_IMAGE024
为预设参数。多模板视觉目标跟踪网络的训练分为两个阶段。训练的第一阶段,仅使用边界 框回归损失来训练多模板视觉目标跟踪网络,进行500个epoch,使用AdamW方法优化,初始 学习率为0.0001,在第400个epoch后,降低学习率至0.00001。训练的第二阶段,仅使用相似 度分数损失来训练分支预测网络中的相似度分数分支,冻结多模板视觉目标跟踪网络的其 他部分,进行50个epoch,使用AdamW方法优化,初始学习率为0.0001,在第40个epoch后,降 低学习率至0.00001。
基于同一个发明构思,本发明提供一种基于多模板视觉目标跟踪网络的目标跟踪方法的实施例。
通过训练得到的网络进行跟踪,输入初始帧作为正确模板图像,在后续帧中,每帧 作为搜索图片,从搜索图片中根据上一帧的目标位置和大小,裁剪出搜索区域图像。从模板 管理器请求3个偏移模板,将正确模板,偏移模板,搜索区域图片输入至网络。通过网络输出 相似度分数,和角点热力图,计算出跟踪对象的预测边界框。根据跟踪对象的预测边界框和 搜索裁剪信息,计算得到跟踪对象在搜索图片上的位置与大小。如果相似度分数
Figure 574340DEST_PATH_IMAGE011
大于0.5,则将搜索图片上的跟踪对象裁剪出来,推送至模板管理器,模板管理器根据改进 的ARC算法,如图6所示,动态维护模板存储空间。
在LaSOT测试集上对所提一种多模板视觉目标跟踪网络与方法进行综合性能评估,并与DIMP50,KYS,STARK_ST50,TOMP,MIXFORMER,SIAMBAN-RBO,CSWINTT等先进方法进行对比,评估了跟踪器的精度Precision和成功度Success,如图8所示。
上述LaSOT测试集包含280个测试视频帧序列。测试视频帧序列的平均长度超过2500帧,可能包含光照变化、模糊、遮挡等情况,每帧都人为进行高质量标注,能综合评价出跟踪器的性能,是最流行目标跟踪数据集之一。所提一种多模板视觉目标跟踪网络与方法在此测试集中一示例性视频序列上的效果图如图7所示。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种多模板视觉目标跟踪网络的训练方法以及基于此网络的目标跟踪方法,该方法使用初始帧生成模板,并动态记录与管理跟踪过程中产生的新模板,从而实现更高的长时间跟踪性能和更强的干扰物区分能力;
根据本发明的第一方面,提供一种多模板视觉目标跟踪网络的训练方法,其特征在于:多模板视觉目标跟踪网络包括:特征提取主干网络,多模板特征融合网络,分支预测网络;该训练方法包括:
步骤101:对数据集进行预处理,数据集包括多个视频帧序列,每个序列包含多个原始图像,每个图像对应一个边界框,该边界框表示出跟踪对象在图像中的位置;
原始图像进行预处理后形成对应的图像元组,该元组包含一个正确模板图像、多个含有人为添加随机边界框抖动的偏移模板图像、一个搜索区域图像,其中正确模板图像与偏移模板图像具有相同尺寸,搜索区域图像的尺寸大于模板图像;跟踪对象处于正确模板图像的中心位置,不必处于偏移模板图像或搜素区域图像的中心位置;正确模板图像用于模拟跟踪过程中,视频帧中初始帧与与之对应的正确的边界框标记;偏移模板图像用于模拟跟踪过程中,后续帧与与之对应的深度学习网络估计的可能具有偏移的边界框标记;搜索区域图像用于模拟跟踪过程中,某一时刻需要搜索跟踪对象的搜索区域;
步骤102:将图像元组内的图像分别输入到特征提取主干网络,得到输出的图像元组对应的特征图;
步骤103:将图像特征图输入到多模板特征融合网络,得到输出的图像元组对应的融合特征图;
其中,图像元组对应的融合需与位置编码参数和模板编码参数相加;位置编码参数和 模板编码参数都是可学习的,在深度神经网络训练中学习;模板编码参数包括正确模板编 码参数,偏移模板编码参数和搜索区域编码参数;
Figure 796692DEST_PATH_IMAGE001
Figure 748378DEST_PATH_IMAGE002
为正确模 板图像特征图,
Figure 426615DEST_PATH_IMAGE003
Figure 673795DEST_PATH_IMAGE004
等为偏移模板图像特征图,
Figure 194906DEST_PATH_IMAGE005
为搜索区域图像特征图,
Figure 710201DEST_PATH_IMAGE006
为位 置编码参数,
Figure 101999DEST_PATH_IMAGE007
为正确模板编码参数,
Figure 847976DEST_PATH_IMAGE008
为偏移模板编码参数,
Figure 121962DEST_PATH_IMAGE009
为搜索区域编 码参数,
Figure 113052DEST_PATH_IMAGE010
为输入到多模板特征融合网络的特征;
步骤104:将图像元组对应的融合特征图输入到分支预测网络,得到输出相似度分数
Figure 218411DEST_PATH_IMAGE011
,以及角点热力图
Figure 902334DEST_PATH_IMAGE012
Figure 834255DEST_PATH_IMAGE013
相似度分数表示搜索区域x中的目标,与正确模板z0偏移模板z1,z2…的相似程度;角 点热力图分别代表深度神经网络对搜索区域内跟踪对象的左上角点、右下角点预测的置信 度;对角点热力图计算argsoftmax,可以得到网络估计的跟踪对象左上点和右下点的坐标;
Figure 894615DEST_PATH_IMAGE014
Figure 854481DEST_PATH_IMAGE015
其中,
Figure 709304DEST_PATH_IMAGE016
Figure 692304DEST_PATH_IMAGE017
分别为argsoftmax计算后估计的跟踪对象左上点和右下点的 坐标;
Figure 726994DEST_PATH_IMAGE012
Figure 479049DEST_PATH_IMAGE013
为分支预测网络预测的角点热力图;
步骤105:计算损失,并根据损失来训练多模板视觉目标跟踪网络的参数;
其中,相似度分数损失
Figure 832670DEST_PATH_IMAGE018
Figure 302966DEST_PATH_IMAGE019
表示当 前训练元组中,搜索区域内是否存在跟踪对象,存在则为1,不存在为0;边界框回归损失
Figure 377232DEST_PATH_IMAGE020
,其中
Figure 747908DEST_PATH_IMAGE021
为边界框GIOU损失,
Figure 272431DEST_PATH_IMAGE022
为边界框L1损失,
Figure 964443DEST_PATH_IMAGE023
Figure 107980DEST_PATH_IMAGE024
为 预设参数。
2.根据权利要求1所述的多模板视觉目标跟踪网络的训练方法,其特征在于,原始图像预处理和模板编码参数;
其中,原始图像预处理包括采样多个偏移模板图像,并对偏移模板图像进行边界框抖动处理。
3.一种基于多模板视觉目标跟踪网络的目标跟踪方法,其特征在于:多模板视觉目标跟踪网络是第一方面的训练方法训练得到的;使用模板管理器;该目标跟踪方法包括:
步骤201:在连续视频帧序列中,根据初始帧图像和与之对应的边界框,以边界框中心获取到正确模板图像;
步骤202:从后续帧中,以跟踪对象在上一帧图像中的位置为中心点,截取搜索区域;
步骤203:从模板管理器中获取多个合适的模板作为偏移模板图像;
步骤204:将正确模板图像、多个偏移模板图像和搜索区域图像输入多模板视觉目标跟踪网络,得到相似度分数和角点热力图;
步骤205:根据多模板视觉目标跟踪网络的输出,确定跟踪对象的左上角点和右下角点,从而确定跟踪对象在此视频帧上的边界框信息;
步骤206:根据多模板视觉目标跟踪网络的输出,如果相似度分数大于某一阈值,则根据步骤205的估计的边界框信息,截取当前帧中的跟踪目标对象,作为模板推送至模板管理器;
步骤207:继续处理后续帧,重复执行步骤202至步骤206。
4.根据权利要求3所述的基于多模板视觉目标跟踪网络的目标跟踪方法,其特征在于,特征融合网络的输入中,包括视频初始帧所生成的正确模板,和多个在跟踪过程中生成的,有一定边界框偏移的偏移模板。
5.根据权利要求4所述的基于多模板视觉目标跟踪网络的目标跟踪方法,其特征在于,步骤203和步骤206中所述的模板管理器;
模板管理器保有一定大小的模板存储空间,采用缓存管理算法来管理模板存储空间;当进行步骤206将新模板被推送至模板管理器时,模板管理器首先计算新模板与所有已缓存模板的相似度,当相似度大于等于设定的阈值,则认为新模板与已缓存模板相同,即缓存命中,当相似度小于设定的阈值,则认为新模板与已缓存模板不相同,即缓存未来命中;如果模板存储空间已满,根据缓存管理算法,淘汰最近最少使用的模板;最后将新模板存储至模板存储空间;当进行步骤203向模板管理器请求模板时,模板管理器将返回多个最近最多使用的模板。
6.一种计算机设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行如权利要求1或2所述的多模板视觉目标跟踪网络的训练方法。
7.一种计算机设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行如权利要求3-5中任一所述的基于多模板视觉目标跟踪网络的跟踪方法。
8.一种计算机可读存储介质,其特征在于,存储有指令,指令被处理器执行时,执行如权利要求1或2所述的多模板视觉目标跟踪网络的训练方法。
9.一种计算机可读存储介质,其特征在于,存储有指令,指令被处理器执行时,执行如权利要求3-5中任一所述的基于多模板视觉目标跟踪网络的跟踪方法。
CN202211373166.9A 2022-11-04 2022-11-04 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法 Pending CN115620206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211373166.9A CN115620206A (zh) 2022-11-04 2022-11-04 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211373166.9A CN115620206A (zh) 2022-11-04 2022-11-04 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法

Publications (1)

Publication Number Publication Date
CN115620206A true CN115620206A (zh) 2023-01-17

Family

ID=84876100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211373166.9A Pending CN115620206A (zh) 2022-11-04 2022-11-04 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法

Country Status (1)

Country Link
CN (1) CN115620206A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN117333514A (zh) * 2023-12-01 2024-01-02 科大讯飞股份有限公司 一种单目标视频跟踪方法、装置、存储介质及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402858A (zh) * 2023-04-11 2023-07-07 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN116402858B (zh) * 2023-04-11 2023-11-21 合肥工业大学 基于transformer的时空信息融合的红外目标跟踪方法
CN117333514A (zh) * 2023-12-01 2024-01-02 科大讯飞股份有限公司 一种单目标视频跟踪方法、装置、存储介质及设备
CN117333514B (zh) * 2023-12-01 2024-04-16 科大讯飞股份有限公司 一种单目标视频跟踪方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111462175B (zh) 时空卷积孪生匹配网络目标跟踪方法、装置、介质及设备
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
Pang et al. Hierarchical dynamic filtering network for RGB-D salient object detection
JP7147078B2 (ja) ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム
CN107274433B (zh) 基于深度学习的目标跟踪方法、装置及存储介质
CN115620206A (zh) 一种多模板视觉目标跟踪网络的训练方法和目标跟踪方法
CN111754541A (zh) 目标跟踪方法、装置、设备及可读存储介质
KR20230156105A (ko) 고해상도 신경 렌더링
US20240153240A1 (en) Image processing method, apparatus, computing device, and medium
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN113610087B (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
CN113554679A (zh) 一种面向计算机视觉应用的无锚框目标跟踪算法
CN117011342A (zh) 一种注意力增强的时空Transformer视觉单目标跟踪方法
Wang et al. An efficient sparse pruning method for human pose estimation
CN114882076B (zh) 一种基于大数据记忆存储的轻量型视频对象分割方法
Wang et al. EMAT: Efficient feature fusion network for visual tracking via optimized multi-head attention
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
CN113705325B (zh) 基于动态紧凑记忆嵌入的可变形单目标跟踪方法及装置
CN116977683A (zh) 对象识别方法、装置、计算机设备、存储介质和程序产品
Li et al. Video prediction for driving scenes with a memory differential motion network model
CN116453033A (zh) 一种视频监控场景下高精度低算量的人群密度估计方法
Liang et al. Semi-supervised video object segmentation based on local and global consistency learning
Xing et al. Redefined target sample-based background-aware correlation filters for object tracking
Miao et al. Chinese font migration combining local and global features learning
CN117241065B (zh) 视频插帧图像生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination