CN113052873A - 一种在线自监督学习场景适应的单目标跟踪方法 - Google Patents

一种在线自监督学习场景适应的单目标跟踪方法 Download PDF

Info

Publication number
CN113052873A
CN113052873A CN202110278727.6A CN202110278727A CN113052873A CN 113052873 A CN113052873 A CN 113052873A CN 202110278727 A CN202110278727 A CN 202110278727A CN 113052873 A CN113052873 A CN 113052873A
Authority
CN
China
Prior art keywords
template
score
tracking
target
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110278727.6A
Other languages
English (en)
Other versions
CN113052873B (zh
Inventor
王利平
杭津如
陈霄宇
韩静
张毅
何丰郴
陈名洋
魏驰恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202110278727.6A priority Critical patent/CN113052873B/zh
Publication of CN113052873A publication Critical patent/CN113052873A/zh
Application granted granted Critical
Publication of CN113052873B publication Critical patent/CN113052873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种在线自监督学习场景适应的单目标跟踪方法,对于输入待测视频序列Dtest的每一帧图像I:加载SiamFC离线训练得到的匹配模型;对输入图像I经过裁剪缩放得到模板图像z和搜索区域图像x;得到尺寸为22×22×128的模板特征图
Figure DDA0002977511370000011
和尺寸为22×22×128的搜索区域特征图
Figure DDA0002977511370000012
将模板特征
Figure DDA0002977511370000013
看作卷积核,在搜索区域特征
Figure DDA0002977511370000014
上进行卷积运算,可以得到正向响应得分图scorei;搭建在线自监督学习框架;输出优化后的响应得分图scorei,作为最终响应图response_map。本专利以SiamFC算法为基准,设计了在线自监督学习的场景适应的跟踪网络结构,利用模板自身数据生成标签,构建在线一致性约束,使得离线训练过程中得到的匹配模型更关注于目标区域,增强了模型的匹配性能,提升了跟踪定位的精度,获得了良好的跟踪效果。

Description

一种在线自监督学习场景适应的单目标跟踪方法
技术领域
本发明涉及一种在线自监督学习场景适应的单目标跟踪方法,属于单目标跟踪的技术领域。
背景技术
在基于孪生网络结构的目标跟踪算法中,在线跟踪过程中为了提升跟踪速度,通常是直接采用离线训练得到的匹配模型。尽管采用大量的数据训练得到的匹配模型具备较强的匹配泛化性能,但是由于在线跟踪过程中为了应对目标形变等挑战因素,模板处于不断更新的状态,所以不可避免地会存在模板累积误差。
SiamFC模板图像生成原理是以目标边界框包围的区域为中心进行延展,引入目标周围上下文信息,然后resize成网络输入尺寸127×127×3。所以对于SiamFC结构,理想状态下目标区域应位于模板图像的中心位置。但是,在跟踪过程中,由于存在目标形变、运动模糊、光照变换等诸多挑战因素,所以匹配网络预测到的目标位置会和实际位置存在一定误差,导致模板样本被污染。随着跟踪时间推移,匹配网络更多关注于背景区域,而非目标区域,导致模板累积误差不断变大,故而跟踪鲁棒性较差。
基于上述缺陷,以及在线跟踪过程中人工精确标记样本量极少,仅在视频序列的第一帧中有一个含标记样本(即用边界框框选的目标模板区域),所以如何充分利用有限的模板信息、减小其在跟踪过程中的累积误差,从而实现高效稳定的跟踪是一个亟需解决的难题。
发明内容
为了解决上述技术问题,本发明提供一种在线自监督学习场景适应的单目标跟踪方法,该方法能够有效改善SiamFC在线跟踪过程中对不同场景的适应性,从而使其跟踪成功率得到较大的提升,其具体技术方案如下:
一种在线自监督学习场景适应的单目标跟踪方法,包括如下步骤:
对于输入待测视频序列Dtest的每一帧图像I:
步骤一:加载SiamFC离线训练得到的匹配模型;
步骤二:对输入图像I经过裁剪缩放得到模板图像z和搜索区域图像x;
步骤三:对尺寸为127×127×3模板图像z进行边缘填充,令其尺寸变为255×255×3,从而与搜索区域x输入网络时的尺寸一致,将此时经过边缘填充的模板图像记为z';
步骤四:将经过边缘填充的模板图像z'与尺寸为255×255×3的搜索区域图像x分别通过参数相同、权重共享的特征提取网络提取特征,得到尺寸为22×22×128的模板特征图
Figure BDA0002977511350000021
和尺寸为22×22×128的搜索区域特征图
Figure BDA0002977511350000022
步骤五:将模板特征
Figure BDA0002977511350000023
看作卷积核,在搜索区域特征
Figure BDA0002977511350000024
上进行卷积运算,可以得到正向响应得分图scorei,此时预测到的目标位置可能存在误差,故需要进行修正;
步骤六:搭建在线自监督学习框架:
步骤6.1:构建模板中的目标位置标签gt:对于初始帧,由于目标位于模板中心,所以gt为一个17×17的高斯标签,中心区域亮,四周区域暗;对于后续帧,gt根据上一帧预测到的目标在模板中的位置计算得到;
步骤6.2:将搜索区域特征
Figure BDA0002977511350000025
看作卷积核,在模板特征
Figure BDA0002977511350000026
上进行卷积运算,可以得到自监督学习阶段的响应得分图scorez'
步骤6.3:计算自监督学习阶段的响应得分图scorez'与目标位置标签gt间的损失函数L(scorez',gt),并设置损失函数阈值Lthr;当L(scorez',gt)>Lthr时,采用梯度优化器对L(scorez',gt)进行迭代优化;当L(scorez',gt)≤Lthr时,结束自监督学习过程,转至步骤七;
步骤七:输出优化后的响应得分图scorei,作为最终响应图response_map;
步骤八:对最终响应图response_map进行归一化、尺度惩罚处理后,获取响应值最大位置的坐标,并将其映射到原图像中的对应位置,作为预测到的目标中心位置,即bbox的中心位置,并根据学习得到的尺度参数对bbox原本的尺度进行更新,输出最终的bbox作为当前帧的跟踪结果。
进一步的,所述步骤五中,预测到的目标位置误差的修正过程为:将搜索区域特征作为卷积核,模板特征作为待卷积区域,进行卷积运算可以得到逆向自监督学习阶段的响应得分图scoree
采用在线一致性约束损失函数对自监督学习阶段的响应图scoree与模板中的目标位置标签gt计算Loss,并进行在线迭代优化,设定阈值Lthr,直到损失函数值低于Lthr时,表示目标位置已经修正完毕,此时结束自监督学习过程,继续接下来的跟踪过程。
进一步的,所述步骤二在线更新方法为:
假设网络输入的模板图像为z,搜索区域图像为x,对模板图像z进行边缘填充得到z',将经过边缘填充得到的模板图像z'和搜索区域图像x经过参数相同的特征提取网络后,提取到模板特征
Figure BDA0002977511350000031
和搜索区域特征
Figure BDA0002977511350000032
则在正向跟踪过程中,将模板特征
Figure BDA0002977511350000033
看作卷积核,在搜索区域特征
Figure BDA0002977511350000034
上进行卷积运算,得到正向响应得分图scorei
Figure BDA0002977511350000035
式(1)中,*为卷积运算符,bi为响应图上每个位置对应的值。
进一步的,所述步骤六具体为:
第一步,构建模板中的目标位置标签gt,并将其通过双线性插值上采样得到模板标签zgt
第二步,将模板标签zgt与正向跟踪过程提取到的模板特征
Figure BDA0002977511350000036
相乘得到自监督学习过程的模板特征
Figure BDA0002977511350000037
Figure BDA0002977511350000038
第三步,将正向跟踪过程提取到的搜索区域特征
Figure BDA0002977511350000039
作为卷积核,与自监督学习过程的模板特征
Figure BDA00029775113500000310
进行卷积运算,得到自监督学习阶段的响应得分图scorez'
Figure BDA00029775113500000311
式(3)中,*为卷积运算符,bz'为逆向响应得分图上每个位置对应的值;
第四步,计算自监督学习阶段的响应得分图scorez'与模板中的目标位置标签gt的损失函数L(scorez',gt),用二分类交叉熵的损失函数计算场景自适应损失函数,并对其进行在线迭代优化;
L(scorez',gt)=-[scorez'log(gt)+(1-scorez')log(1-gt)] (4)。
进一步的,用二分类交叉熵的损失函数作为场景自适应损失函数,
Li=-[yi·log(pi)+(1-yi)·log(1-pi)] (5),
式(5)中,Li为通过二分类交叉熵的损失函数计算得到的误差值,pi为匹配模型预测得到的样本类别为正样本的概率,yi表示编号为i的样本的类别标签:当编号为i的样本属于正样本时,yi=1;当编号为i的样本属于负样本时,yi=0;
假设输入样本中编号为i的样本为xi,网络权重参数为wi,模型预测得到的匹配得分值为si,采用sigmoid函数作为激活函数,则通过求解损失函数Li对网络权重参数为wi的偏导数,最终得到:
Figure BDA0002977511350000041
式(6)中,
Figure BDA0002977511350000042
本发明的有益效果是:
本专利以SiamFC算法为基准,设计了在线自监督学习的场景适应的跟踪网络结构,利用模板自身数据生成标签,构建在线一致性约束,使得离线训练过程中得到的匹配模型更关注于目标区域,增强了模型的匹配性能,提升了跟踪定位的精度,获得了良好的跟踪效果。
附图说明
图1是本发明的基于在线自监督学习的场景适应跟踪网络结构图,
图2是本发明的OSATracker在OTB2013数据集上的OPE评测结果图,
其中(a)为成功率曲线图,(b)为精度曲线图;
图3是本发明的OSATracker在OTB2015数据集上的OPE评测结果图,
其中(a)为成功率曲线图,(b)为精度曲线图;
图4是本发明目标形变场景中SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图5是本发明目标形变场景中OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图6是本发明尺度变化+运动模糊场景中SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图7是本发明尺度变化+运动模糊场景中OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图8是景干扰场景中SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图9是背景干扰场景中OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图10是光照变化场景中SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图11是光照变化场景中OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图12是场景遮挡中SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图13是场景遮挡中OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图14是目标快速运动时SiamFC跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图;
图15是目标快速运动时OSATracker跟踪结果可视化图,
其中(a)为跟踪结果,(b)为搜索区域,(c)为响应图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
本发明的实现过程如下:
1基于在线自监督学习的场景适应跟踪网络整体结构
1.1在线自监督学习框架的搭建
为了在离线训练数据量有限的情况下,使孪生网络结构在离线训练过程中得到的特征匹配模型更好地适应于当前在线跟踪场景,提升匹配定位的精度,本专利设计了基于在线自监督学习的场景适应跟踪网络结构,如图1所示。
前向匹配过程与SiamFC类似,不同之处在于本专利先将尺寸为127×127×3的模板图像z的四周进行边缘填充,令其尺寸变为255×255×3,即与搜索区域的输入尺寸一致,记此时的模板图像为z'。将经过边缘填充的模板图像z'与尺寸为255×255×3的搜索区域图像x分别通过参数相同、权重共享的特征提取网络提取特征,得到尺寸为22×22×128的模板特征图
Figure BDA0002977511350000051
和尺寸为22×22×128的搜索区域特征图
Figure BDA0002977511350000052
将模板特征图作为卷积核,在搜索区域特征图上进行卷积运算,得到尺寸为17×17×1的正向响应得分图scorei
对于输入待测视频序列Dtest的每一帧图像I:
步骤一:加载SiamFC离线训练得到的匹配模型。
步骤二:对输入图像I经过裁剪缩放得到模板图像z和搜索区域图像x。
步骤三:对模板图像z进行边缘填充,使其与搜索区域x输入网络时的尺寸一致,将此时经过边缘填充的模板图像记为z'。
步骤四:利用特征提取网络对模板图像z'和搜索区域图像x进行特征提取,得到模板特征
Figure BDA0002977511350000061
和搜索区域特征
Figure BDA0002977511350000062
步骤五:将模板特征
Figure BDA0002977511350000063
看作卷积核,在搜索区域特征
Figure BDA0002977511350000064
上进行卷积运算,可以得到正向响应得分图scorei,此时预测到的目标位置可能存在误差,故需要进行修正。
步骤六:构建模板中的目标位置标签gt:对于初始帧,由于目标位于模板中心,所以gt为一个17×17的高斯标签,中心区域亮,四周区域暗;对于后续帧,gt根据上一帧预测到的目标在模板中的位置计算得到。
步骤七:将搜索区域特征
Figure BDA0002977511350000065
看作卷积核,在模板特征
Figure BDA0002977511350000066
上进行卷积运算,可以得到自监督学习阶段的响应得分图scorez'
步骤八:计算自监督学习阶段的响应得分图scorez'与目标位置标签gt间的损失函数L(scorez',gt),并设置损失函数阈值Lthr。当L(scorez',gt)>Lthr时,采用梯度优化器对L(scorez',gt)进行迭代优化;当L(scorez',gt)≤Lthr时,转至步骤九。
步骤九:输出优化后的响应得分图scorei,作为最终响应图response_map。
步骤十:对最终响应图response_map进行归一化、尺度惩罚处理后,获取响应值最大位置的坐标,并将其映射到原图像中的对应位置,作为预测到的目标中心位置,即bbox的中心位置,并根据学习得到的尺度参数对bbox原本的尺度进行更新,输出最终的bbox作为当前帧的跟踪结果。
由于预测得到的匹配定位结果可能与目标实际位置存在一定误差,即响应得分值最大的位置不一定位于scorei的中间或者其附近。此时,需要对目标的位置进行修正。所以,构建了在线自监督学习框架,将搜索区域特征作为卷积核,模板特征作为待卷积区域,进行卷积运算可以得到逆向自监督学习阶段的响应得分图scoree。由于理论上模板中的目标位置应处于中心,所以可以根据这个性质构建在线更新的目标位置标签gt,该标签不依赖于手工标记,只依赖于上一帧预测结果,故而可以利用这种约束关系构建自监督学习框架。
采用在线一致性约束损失函数对自监督学习阶段的响应图scoree与模板中的目标位置标签gt计算Loss,并进行在线迭代优化,设定阈值Lthr,直到损失函数值低于Lthr时,表示目标位置已经修正完毕,此时结束自监督学习过程,继续接下来的跟踪过程。通过加入在线自监督学习过程,可以在由于光照变换、运动模糊等因素导致的模板样本被污染时,及时对目标位置进行修正,使得匹配网络更关注于目标模板特征,令离线训练得到的匹配模型更好地适应于当前跟踪场景,有效提升了跟踪定位的精度。
1.2在线更新跟踪器的过程分析
如图1所示,假设网络输入的模板图像为z,搜索区域图像为x,对模板图像z进行边缘填充得到z'。将经过边缘填充得到的模板图像z'和搜索区域图像x经过参数相同的特征提取网络后,可以提取到模板特征
Figure BDA0002977511350000071
和搜索区域特征
Figure BDA0002977511350000072
则在正向跟踪过程中,将模板特征
Figure BDA0002977511350000073
看作卷积核,在搜索区域特征
Figure BDA0002977511350000074
上进行卷积运算,可以得到正向响应得分图scorei
Figure BDA0002977511350000075
式(1)中,*为卷积运算符,bi为响应图上每个位置对应的值。
当跟踪场景较为简单,目标模板区域没有因光照变换、运动模糊等因素被污染时,由于SiamFC在离线训练过程中采用的ILSVRC2015数据集涵盖了大量样本类别,所以在跟踪不同类别的目标时具备了较好的匹配泛化性能。此外,由于采用了全卷积神经网络提取特征,所以SiamFC能够较为有效地提取模板和搜索区域的深层语义信息,从而对于目标形变具有较强的鲁棒性。
但是,由于实际跟踪场景非常复杂,当遇到遮挡、光照变换、运动模糊等挑战因素时,目标模板不可避免地会受到一定污染,导致匹配模型错误地将匹配重心转移到背景区域,给跟踪定位带来了较大的误差,且随着跟踪过程的延长,由于累积误差不断增大,跟踪的鲁棒性也会受到影响,甚至丢失目标。
为了能够让匹配网络在匹配定位出现偏差时,及时调整定位到的目标位置,降低环境干扰对匹配结果的影响,使得匹配网络始终关注模板区域的特征,本专利设计了基于在线自监督学习的场景适应跟踪网络结构,其具体步骤如下:
1)第一步,构建模板中的目标位置标签gt,并将其通过双线性插值上采样得到模板标签zgt
2)第二步,将模板标签zgt与正向跟踪过程提取到的模板特征
Figure BDA0002977511350000076
相乘得到自监督学习过程的模板特征
Figure BDA0002977511350000081
Figure BDA0002977511350000082
3)第三步,将正向跟踪过程提取到的搜索区域特征
Figure BDA0002977511350000083
作为卷积核,与自监督学习过程的模板特征
Figure BDA0002977511350000084
进行卷积运算,得到自监督学习阶段的响应得分图scorez'
Figure BDA0002977511350000085
式(3.3)中,*为卷积运算符,bz'为逆向响应得分图上每个位置对应的值。
4)第四步,计算自监督学习阶段的响应得分图scorez'与模板中的目标位置标签gt的损失函数L(scorez',gt),本专利采用了二分类交叉熵的损失函数计算场景自适应损失函数,并对其进行在线迭代优化。
L(scorez',gt)=-[scorez'log(gt)+(1-scorez')log(1-gt)] (4)
以下是关于每一个步骤的说明:
在第一步中,关于标签设置的考虑因素:对于初始帧,将模板中的目标位置标签gt设置为一个17×17的高斯标签,中心区域亮,四周区域暗,这是因为在SiamFC中,模板区域是以边界框包含的目标区域为中心进行裁剪和缩放得到的,所以目标区域位于模板区域的中心。对于后续帧,gt根据上一帧预测到的目标在模板中的相对位置计算得到。
在第二步中,关于模板标签zgt与模板特征图相乘得到自监督学习阶段的模板特征的原因:SiamFC为了引入目标周边上下文信息、提升匹配模型判别能力,以边界框包含的目标区域为中心进行裁剪和缩放得到模板。为了在定位出现误差时,在保证匹配模型判别性能的情况下,使得匹配模型更关注于目标区域本身提取到的特征,弱化目标周边背景特征干扰,故而将模板标签zgt与模板特征图
Figure BDA0002977511350000086
相乘得到自监督学习阶段的模板特征
Figure BDA0002977511350000087
在第三步中,关于自监督学习阶段的响应得分图的计算:在自监督学习阶段,本专利以正向跟踪过程提取到的搜索区域特征
Figure BDA0002977511350000088
作为卷积核,与自监督学习阶段的模板特征
Figure BDA0002977511350000089
进行卷积运算,得到自监督学习阶段的响应得分图scorez。由于目标区域位于模板区域的中心位置,所以在进行卷积运算后,理论上得到响应图上的最亮的区域应位于中心附近的位置。但是,由于模板特征在跟踪过程中可能受到运动模糊、相机抖动等因素干扰,导致模板特征被弱化,匹配模型将匹配重心转移到其周边的背景区域,从而带来定位误差,即响应图最亮的区域相较于发生了较大偏移。此时,需要进行第四步在线迭代优化过程,对当前预测到的目标位置进行修正,让匹配模型重新将匹配重心转移到目标区域。
在第四步中,关于在线迭代优化过程理解:本专利通过计算自监督学习阶段的响应得分图scorez'与模板中的目标位置标签gt的损失函数L(scorez',gt)作为场景自适应损失函数,用来评估匹配模型预测得到的目标位置与理论上目标应处于的位置的偏差,设置阈值Lthr,当L(scorez',gt)<Lthr时,说明当前匹配得到的目标位置是准确的,此时继续正向跟踪过程;当L(scorez',gt)>Lthr时,说明当前匹配得到的目标位置存在误差,此时需要对目标位置进行修正。所以,在本部分采用了在线迭代优化器,目的是减小预测结果与理想结果之间的偏差值,直至其满足L(scorez',gt)<Lthr的要求时,结束自监督学习的过程。
在上述四个步骤中,第三步是本专利的核心。在前向跟踪过程中,以模板特征作为卷积核,在搜索区域上进行卷积运算时,由于目标不一定位于搜索区域的中心,所以响应图中响应值最大的位置也不一定在中心区域附近;但是,在反向自监督学习对目标位置进行矫正的过程中,以搜索区域的特征作为卷积核,对经过边界填充的模板特征进行卷积运算时,响应值最大的区域理论上应位于中心区域附近。所以,本专利充分利用了模板中的目标位置信息构建在线自监督学习的标签,有效减小了跟踪定位误差,提升了离线训练得到的匹配模型对不同跟踪场景的适应性,从而获得了良好的跟踪效果。
2场景自适应损失函数的设计和分析
在机器学习任务中,会使用损失函数L=f(y,y)来衡量通过模型预测得到的值y与真实值y之间的差异程度。若损失函数值较小,表示通过模型预测得到的结果与真实结果的数据分布比较接近,即模型预测性能较佳;若损失函数值较大,表示通过模型预测得到的结果与真实结果的数据分布差异较大,即模型预测性能还不够好。
本专利在设计基于在线自监督学习的场景适应跟踪网络结构时,需要评估响应图scorez'与模板中的目标位置标签gt之间的概率分布差异,判断匹配模型预测得到的目标位置是否正确,该问题属于二分类问题。本专利最终采用二分类交叉熵的损失函数作为场景自适应损失函数,其公式如式(4)所示。这里将从理论上对二分类交叉熵的损失函数的原理和特点进行概述,将设计消融实验探讨不同分类损失函数对跟踪性能可能带来的影响。
对于二分类问题,交叉熵的损失函数的公式可表示为:
Li=-[yi·log(pi)+(1-yi)·log(1-pi)] (5)
式(5)中,Li为通过二分类交叉熵的损失函数计算得到的误差值,pi为匹配模型预测得到的样本类别为正样本的概率。yi表示编号为i的样本的类别标签:当编号为i的样本属于正样本时,yi=1;当编号为i的样本属于负样本时,yi=0。
假设输入样本中编号为i的样本为xi,网络权重参数为wi,模型预测得到的匹配得分值为si,采用sigmoid函数作为激活函数,则通过求解损失函数Li对网络权重参数为wi的偏导数,最终可以得到:
Figure BDA0002977511350000101
式(6)中,
Figure BDA0002977511350000102
由(6)式可见,二分类交叉熵的损失函数对权重参数求解偏导数获得的计算结果非常简洁。所以,采用二分类交叉熵的损失函数来设计场景自适应损失函数,用来计算自监督学习阶段的响应得分图scorez与其模板中的目标位置标签gt之间的概率分布差异,不仅能够很好地对模型预测效果进行评估,而且求导过程也非常清晰便捷。在后面的在线更新模块消融实验分析中也验证了,本专利采用二分类交叉熵的损失函数能够有效衡量逆向响应图scorez与其模板中的目标位置标签gt之间的概率分布差异,从而对匹配模型的预测结果进行更好的修正,提升了跟踪定位的准确性。
3不同优化策略对于OSATracker的影响
在机器学习领域,梯度下降优化器主要是用于寻找模型最优解。常用的梯度优化策略主要有随机梯度下降法、动量随机梯度下降法、AdaGrad算法、RMSProp算法、Adam算法等。本专利将从理论上阐述它们对OSATracker自监督学习过程可能带来的影响,并设计消融实验进行分析论证。
(1)随机梯度下降法(SGD)
Wt+1=Wt-αg(Wt) (7)
随机梯度下降法的迭代公式如式(7)所示。式(7)中,Wt+1为时刻t+1所对应的模型权重参数,Wt为时刻t对应的模型权重参数,α为学习率。g(Wt)为随机选取的一个梯度方向,表示在时刻t权重参数Wt对应的损失梯度。这里,E(gt)=ΔJ(Wt),其中ΔJ(Wt)为损失函数对模型权重参数求得的偏导数。这表明,尽管在计算过程中会引入一些随机噪声参数,但是其期望仍能够保证正确的梯度下降。
但是,随机梯度下降法也存在一些局限性,例如在引入随机噪声时可能会造成部分权重参数被错误更新。此外,随机梯度下降法也没有能够很好地化解训练过程中存在的局部最优解的问题。
(2)动量随机梯度下降法(SGD-Momentum)
Figure BDA0002977511350000111
动量随机梯度下降法的迭代公式如式(8)所示。式(8)中,vt为时刻t权重参数变化的大小;vt-1为时刻t-1权重参数变化的大小;η为动量系数,通常取值为0.9;α为学习率。g(Wt)与随机梯度下降法中的含义相同,为随机选取的一个梯度方向,表示在时刻t权重参数Wt对应的损失梯度。
动量随机梯度下降法能够缓解随机梯度下降法中由于引入噪声而带来的权重参数错误更新的问题。此外,动量随机梯度下降法对于随机梯度下降法在收敛的过程中梯度值摆动不定的问题也有一定的改善。
(3)AdaGrad算法
Figure BDA0002977511350000112
AdaGrad算法的迭代公式如式(9)所示。式(9)中,Wt为时刻t对应的模型权重参数;α为学习率;g(Wt)为在时刻t权重参数Wt对应的损失梯度;st是对损失函数的平方值进行求和;ε通常取值10-7,作用是防止分母为0。
AdaGrad算法可以用来改善样本数据稀疏或者样本数据分布不平衡的问题,因为它会对给数目较少的样本数据类别赋予较大的学习率,给数目较多的样本数据类别赋予较小的学习率。
(4)RMSProp算法
Figure BDA0002977511350000113
RMSProp算法的迭代公式如式(10)所示。式(10)中,Wt为时刻t对应的模型权重参数;α为学习率;g(Wt)为在时刻t权重参数Wt对应的损失梯度;ε通常取值10-7,作用是防止分母为0;η为动量系数,通常取值为0.9;E[g2]t表示前t次迭代的得到的梯度结果的平方的平均值。
RMSProp算法是对AdaGrad算法的改进,由于对梯度结果的平方求均值,故而能够有效缓解AdaGrad算法存在的学习率不断降低的问题,且能对学习率进行自适应调整,所以具备较强的梯度优化性能。
(5)Adam算法
Figure BDA0002977511350000121
Adam算法迭代公式如式(11)所示。式(11)中,Wt为时刻t对应的模型权重参数;α为学习率;mt为一阶动量,vt为二阶动量;
Figure BDA0002977511350000122
为一阶动量的修正值,
Figure BDA0002977511350000123
为二阶动量的修正值;β1为一阶动量的系数,通常取值0.9,β2为二阶动量的系数,通常取值0.999;g(Wt)为在时刻t权重参数Wt对应的损失梯度;ε通常取值10-7,作用是防止分母为0。
Adam算法在RMSProp算法的基础上加入了偏置修正和二阶动量,能够在梯度稀疏时取得更佳的优化性能;且对于不同的超参数设置具有较强的鲁棒性,需要的参数调节的工作量小。
本专利在在线自监督学习过程最终选用了动量随机梯度下降法(SGD-Momentum)作为在线自监督学习过程中的梯度优化器,它能够有效缓解随机梯度下降法中由于引入噪声而带来的权重参数错误更新的问题,提升模型收敛效果,从而获得了更为鲁棒的跟踪结果。在后面的3.5节的在线更新模块消融实验分析中也验证了本专利采用动量随机梯度下降法作为在线自监督学习过程中的梯度优化器可以取得更好的跟踪性能。
实验分析
为对本专利提出的跟踪算法OSATracker跟踪性能进行验证和评测,本专利将在标准公开数据OTB2013和OTB2015上与其他算法进行对比实验,并通过在线更新模块消融实验分析在线自监督模块中各项参数设置对OSATracker的跟踪性能的影响。
1公用数据集评测实验
(1)本专利采用的评价测试数据集
本专利采用公用评价测试数据集OTB2013和OTB2015对OSATracker算法的跟踪性能进行评测分析。
其中,OTB2013中包含50个短视频图像测试序列,OTB2015中包含100个短视频测试序列。不同的视频测试序列所包含的跟踪场景中的挑战因素不同,如目标形变、场景遮挡、运动模糊、目标暂离视场、相似目标干扰等。
在OTB数据集中,除了包含一些用于算法性能进行评估的短视频图像测试序列,也含有一些经典算法的测试结果及用于对算法进行测试的代码库。
算法的评估主要包括以下几个指标:
1)Precision Plot
在精确度图中,需要在视频图像序列中,首先确定采用跟踪算法预测得到的目标边界框中心点和每一帧的图像上人工标注的目标边界框的中心点,然后计算这两个中心点之间的距离低于所设置的阈值的图像帧数占该视频中包含的图像总数的百分比,即可得到精确度。由于设定不同的阈值,计算得到的精确度不同,故而可以画出设定的阈值与计算所得的精确度之间的关系曲线。但是,这项评估指标有一个局限性,即它无法对目标的尺度变化情况做出合适的评估。
2)Success Plot
在成功率图中,将视频图像序列中每一帧的图像上采用跟踪算法预测得到的目标边界框记为a,人工标注的目标边界框记为b,定义重合率得分OS为
Figure BDA0002977511350000131
式中,|·|表示边界框包含的区域里像素的数目。对于视频图像序列的每一帧,当通过(12)式计算得到的值高于设定的阈值时,表示跟踪成功;反之,则表示跟踪失败。统计视频图像序列中跟踪成功的图像数目,计算跟踪成功的图像数目占视频图像序列中图像总数的百分比,即可得到成功率。由于设定不同的阈值,计算得到的成功率不同,故而可以画出设定的阈值与计算所得的成功率之间的关系曲线。
3)OPE
OPE全称为One Pass Evaluation,即一遍评估。在OTB评测过程中,在视频序列的第一帧采用人工标注的目标边界框对目标的位置和大小初始化,令待测跟踪算法在视频图像序列里测试一次,得到每一帧中算法预测出的目标大小和位置,并据此计算出平均精确度和平均成功率,画出对应的曲线图。该方法称为一遍评估。
(2)公用数据集评测实验分析
1)OTB2013评测实验
OSATracker在OTB2013数据集上的评测结果如图2所示。
不同算法在OTB2013数据集上的评测结果如表2所示。由表1可见,本专利提出的OSATracker算法的跟踪成功率相较于基准算法SiamFC提升了0.5%,这是因为OSATracker能够在跟踪过程中样本量有限的情况下通过构建在线自监督学习的结构,使得网络更关注目标区域的特征,从而对目标进行更准确的定位。实验结果也证明了本专利所提出的在线自监督学习结构对于目标跟踪任务的有效性。
表1不同算法在OTB2013数据集上的评测结果
Figure BDA0002977511350000141
2)OTB2015评测实验
OSATracker在OTB2015数据集上的评测结果如图3所示。
不同算法在OTB2015数据集上的评测结果如表3所示。
表2不同算法在OTB2015数据集上的评测结果
Figure BDA0002977511350000142
由表2可知,本专利提出的OSATracker算法的跟踪成功率相较于基准算法SiamFC提升了2.1%,且相较于Staple、SINT等算法而言也毫不逊色。这是因为OSATracker算法采用了自监督学习的思想,在在线跟踪过程中样本量有限的情况下充分利用目标模板信息构建标签搭建在线自监督学习结构,能够在目标定位不准确时及时对其进行修正,降低模板累积误差给跟踪任务带来的不利影响,有效提升SiamFC离线训练得到的匹配模型对当前跟踪场景的适应性,从而跟踪准确率也有了较大的提升。
2在线自监督学习部分消融实验分析
为了研究OSATracker的在线自监督学习部分各组成模块的选型及参数设置对跟踪成功率可能产生的影响,本专利将从在线迭代次数、损失函数阈值设置、损失函数类型、在线梯度优化策略类型等潜在影响因素出发,设计了几组消融实验来对在线自监督学习部分不同模块和参数组合对跟踪成功率的影响进行全面探讨。
(1)不同损失函数阈值设置对跟踪性能的影响
表3不同损失函数阈值设置对跟踪性能的影响
Figure BDA0002977511350000151
由表3可知,在在线迭代次数、损失函数类型、在线梯度优化策略等因素不变的情况下,设置不同的损失函数阈值,跟踪成功率也稍有不同,在在线迭代次数为1,损失函数为二分类交叉熵,在线梯度优化策略为动量随机梯度下降法时,将损失函数阈值设置为12,可以获得较高的跟踪成功率。
(2)不同损失函数的类型对跟踪性能的影响
由表4可知,在在线迭代次数、损失函数阈值、在线梯度优化策略等因素不变的情况下,选用不同的损失函数来对自监督学习阶段的响应得分图和模板中的目标位置标签之间的概率分布差异进行评估,跟踪成功率也稍有不同。在在线迭代次数为1,损失函数阈值设置为12,在线梯度优化策略为动量随机梯度下降法时,选用二分类交叉熵的损失函数来对在线自监督学习过程中响应得分图和模板中目标位置标签构建概率分布差异约束,可以获得较高的跟踪成功率。
表4不同损失函数的类型对跟踪性能的影响
Figure BDA0002977511350000152
(3)不同在线迭代次数对跟踪性能的影响
表5不同在线迭代次数对跟踪性能的影响
Figure BDA0002977511350000161
由表5可知,在损失函数阈值、损失函数类型、在线梯度优化策略等因素不变的情况下,随着迭代次数增加,跟踪成功率也会有一定变化。由表格中的实验结果可以发现,当迭代次数增多时,成功率有可能会下降,这是因为在线跟踪过程样本量较少,如果迭代次数过多可能会出现过拟合的情况。此外,跟踪任务是一个对实时性要求较高的任务,如果在线迭代次数过多,跟踪速度也会受到较大的影响。所以基于在线跟踪过程中样本量不足和跟踪实时性需求这两个因素考虑,最终设置迭代次数为1。
(4)不同在线梯度优化策略的类型对跟踪性能的影响
表6在线梯度优化策略对跟踪性能的影响
Figure BDA0002977511350000162
由表6可知,在在线迭代次数、损失函数阈值、损失函数类型等因素不变的情况下,选用不同的在线梯度优化策略来对自监督学习阶段的响应得分图和模板中的目标位置标签之间的概率分布差异进行迭代优化,跟踪成功率也稍有不同。在在线迭代次数为1,损失函数为二分类交叉熵的损失函数,损失函数阈值设置为12时,选用含有动量的随机梯度下降法作为在线梯度优化策略,可以获得较高的跟踪成功率。
(5)总结
经过大量实验,本专利最终设置在线迭代次数为1,损失函数阈值为12,场景自适应损失函数为二分类交叉熵,在线梯度优化策略为动量随机梯度下降法,在OTB2015数据集上跟踪成功率可达到60.3%,相较于基准算法SiamFC跟踪成功率提升了2.1%。
3不同视频序列跟踪性能可视化分析
为了研究OSATracker在不同跟踪场景下的跟踪性能,本专利将在不同的视频序列中对其跟踪结果进行可视化分析,观测OSATracker在应对目标形变、尺度变化、运动模糊、背景干扰、场景遮挡等挑战因素时的性能表现情况。
(1)目标形变
由图4和图5可见,OSATracker相较于SiamFC而言,能够在目标发生形变时对其进行更准确的定位,说明OSATracker对目标模板特征变化具有更强的鲁棒性;同时OSATracker预测得到的跟踪框也可以依据目标的尺度变化情况调整尺寸。
(2)尺度变化+运动模糊
由图6和图7可见,OSATracker在同时存在尺度变化和运动模糊挑战因素的场景中预测得到的跟踪框比SiamFC更准确,说明OSATracker在处理尺度变化情形时,能够较好地维持鲁棒的模板特征,从而保证了跟踪定位的准确性。
(3)背景干扰
由图8和图9可见,在第351帧图像中,当目标运动到黑色背景附近时,因为目标与背景特征相近,SiamFC误将背景识别成目标,导致跟踪失败;而OSATracker由于采用了自监督学习策略,能够很快对跟踪框的位置进行及时修正,保证了在线跟踪的鲁棒性,说明OSATracker在跟踪过程中具有较强的学习能力,能够针对场景中的不同挑战因素对跟踪策略进行调整,不仅使得SiamFC离线训练得到的匹配模型对当前跟踪场景的泛化能力有了一定提上,也提升了跟踪的成功率。
(4)光照变化
由图10和图11可见,在光照变化的场景下,SiamFC的判别能力会受到一定影响,导致跟踪框出现部分偏移;而OSATracker则能够更好地适应光照变化的场景,能够对目标进行准确稳定的跟踪定位。
(5)场景遮挡
由图12和图13可见,在目标未被遮挡时,SiamFC和OSATracker均能进行较为精确的跟踪,但是在第435帧和第461帧中由于目标被部分遮挡,导致SiamFC的定位结果出现误差,跟踪框会出现偏移;而OSATracker由于采用了在线自监督学习策略,能够及时对定位误差进行矫正,保证了跟踪的精度和鲁棒性。
(6)快速运动
由图14和图15可见,当目标运动速度较快时,SiamFC提取到的目标特征会受到较大的影响,导致匹配误差变大,错误地将背景区域识别为目标;而OSATracker则能够充分利用模板信息进行在线自监督学习,展现出了良好的跟踪性能。
(7)总结分析
通过对OSATracker在含有不同挑战因素的视频序列里的跟踪结果进行可视化分析,可以发现其在应对目标形变、目标尺度变化、背景干扰、光照变化、目标快速运动等挑战因素时展现出了良好的跟踪性能,相较于基准算法SiamFC而言跟踪成功率有了较大的提升。此外,OSATracker能够在跟踪定位出现误差时,利用模板自身信息构建学习标签,整个过程无需人工标注,并采用自监督学习的方式对跟踪框的位置进行及时修正,使得离线训练得到的匹配模型能够更好地适应于当前跟踪场景,有效地改善了SiamFC的跟踪准确率,具备较好的跟踪表现。
结论
本专利基于自监督学习,针对孪生网络结构的跟踪算法离线训练得到的匹配模型不能很好地适应于当前跟踪场景的问题,提出了基于在线自监督学习的场景适应跟踪算法OSATracker。该算法基于SiamFC进行改进,充分利用在线跟踪过程中有限的目标模板信息构建标签来搭建在线自监督学习结构,使得匹配网络更关注需要跟踪的目标区域,有效缓解由于模板累积误差造成的跟踪失败情况,提升了SiamFC离线训练得到的匹配模型对当前跟踪场景的适应性。
公用数据集评测实验表明,OSATracker在OTB数据集上相较于SiamFC平均提升了1.3%。其中,OSATracker在OTB2013上跟踪准确率达到61.7%,相较于SiamFC(61.2%)提升了0.5%;在OTB2015上跟踪成功率为60.3%,相较于SiamFC(58.2%)提升了2.1%。同时,本专利还设计了消融实验分析OSATracker的在线自监督学习部分各组成模块的选型及参数设置对跟踪性能可能产生的影响,最后通过不同视频序列跟踪性能可视化分析论证了本专利提出的算法的有效性。以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

Claims (5)

1.一种在线自监督学习场景适应的单目标跟踪方法,其特征在于:包括如下步骤:
对于输入待测视频序列Dtest的每一帧图像I:
步骤一:加载SiamFC离线训练得到的匹配模型;
步骤二:对输入图像I经过裁剪缩放得到模板图像z和搜索区域图像x;
步骤三:对尺寸为127×127×3模板图像z进行边缘填充,令其尺寸变为255×255×3,从而与搜索区域x输入网络时的尺寸一致,将此时经过边缘填充的模板图像记为z';
步骤四:将经过边缘填充的模板图像z'与尺寸为255×255×3的搜索区域图像x分别通过参数相同、权重共享的特征提取网络提取特征,得到尺寸为22×22×128的模板特征图
Figure FDA0002977511340000011
和尺寸为22×22×128的搜索区域特征图
Figure FDA0002977511340000012
步骤五:将模板特征
Figure FDA0002977511340000013
看作卷积核,在搜索区域特征
Figure FDA0002977511340000014
上进行卷积运算,可以得到正向响应得分图scorei,此时预测到的目标位置可能存在误差,故需要进行修正;
步骤六:搭建在线自监督学习框架:
步骤6.1:构建模板中的目标位置标签gt:对于初始帧,由于目标位于模板中心,所以gt为一个17×17的高斯标签,中心区域亮,四周区域暗;对于后续帧,gt根据上一帧预测到的目标在模板中的位置计算得到;
步骤6.2:将搜索区域特征
Figure FDA0002977511340000015
看作卷积核,在模板特征
Figure FDA0002977511340000016
上进行卷积运算,可以得到自监督学习阶段的响应得分图scorez'
步骤6.3:计算自监督学习阶段的响应得分图scorez'与目标位置标签gt间的损失函数L(scorez',gt),并设置损失函数阈值Lthr;当L(scorez',gt)>Lthr时,采用梯度优化器对L(scorez',gt)进行迭代优化;当L(scorez',gt)≤Lthr时,结束自监督学习过程,转至步骤七;
步骤七:输出优化后的响应得分图scorei,作为最终响应图response_map;
步骤八:对最终响应图response_map进行归一化、尺度惩罚处理后,获取响应值最大位置的坐标,并将其映射到原图像中的对应位置,作为预测到的目标中心位置,即bbox的中心位置,并根据学习得到的尺度参数对bbox原本的尺度进行更新,输出最终的bbox作为当前帧的跟踪结果。
2.根据权利要求1所述的在线自监督学习场景适应的单目标跟踪方法,其特征在于:所述步骤五中,预测到的目标位置误差的修正过程为:将搜索区域特征作为卷积核,模板特征作为待卷积区域,进行卷积运算可以得到逆向自监督学习阶段的响应得分图scoree
采用在线一致性约束损失函数对自监督学习阶段的响应图scoree与模板中的目标位置标签gt计算Loss,并进行在线迭代优化,设定阈值Lthr,直到损失函数值低于Lthr时,表示目标位置已经修正完毕,此时结束自监督学习过程,继续接下来的跟踪过程。
3.根据权利要求1所述的在线自监督学习场景适应的单目标跟踪方法,其特征在于:所述步骤二在线更新方法为:
假设网络输入的模板图像为z,搜索区域图像为x,对模板图像z进行边缘填充得到z',将经过边缘填充得到的模板图像z'和搜索区域图像x经过参数相同的特征提取网络后,提取到模板特征
Figure FDA0002977511340000021
和搜索区域特征
Figure FDA0002977511340000022
则在正向跟踪过程中,将模板特征
Figure FDA0002977511340000023
看作卷积核,在搜索区域特征
Figure FDA0002977511340000024
上进行卷积运算,得到正向响应得分图scorei
Figure FDA0002977511340000025
式(1)中,*为卷积运算符,bi为响应图上每个位置对应的值。
4.根据权利要求1所述的在线自监督学习场景适应的单目标跟踪方法,其特征在于:所述步骤六具体为:
第一步,构建模板中的目标位置标签gt,并将其通过双线性插值上采样得到模板标签zgt
第二步,将模板标签zgt与正向跟踪过程提取到的模板特征
Figure FDA0002977511340000026
相乘得到自监督学习过程的模板特征
Figure FDA0002977511340000027
Figure FDA0002977511340000028
第三步,将正向跟踪过程提取到的搜索区域特征
Figure FDA0002977511340000029
作为卷积核,与自监督学习过程的模板特征
Figure FDA00029775113400000210
进行卷积运算,得到自监督学习阶段的响应得分图scorez'
Figure FDA0002977511340000031
式(3)中,*为卷积运算符,bz'为逆向响应得分图上每个位置对应的值;
第四步,计算自监督学习阶段的响应得分图scorez'与模板中的目标位置标签gt的损失函数L(scorez',gt),用二分类交叉熵的损失函数计算场景自适应损失函数,并对其进行在线迭代优化;
L(scorez',gt)=-[scorez'log(gt)+(1-scorez')log(1-gt)] (4)。
5.根据权利要求4所述的在线自监督学习场景适应的单目标跟踪方法,其特征在于:用二分类交叉熵的损失函数作为场景自适应损失函数,
Li=-[yi·log(pi)+(1-yi)·log(1-pi)] (5)
式(5)中,Li为通过二分类交叉熵的损失函数计算得到的误差值,pi为匹配模型预测得到的样本类别为正样本的概率,yi表示编号为i的样本的类别标签:当编号为i的样本属于正样本时,yi=1;当编号为i的样本属于负样本时,yi=0;
假设输入样本中编号为i的样本为xi,网络权重参数为wi,模型预测得到的匹配得分值为si,采用sigmoid函数作为激活函数,则通过求解损失函数Li对网络权重参数为wi的偏导数,最终得到:
Figure FDA0002977511340000032
式(6)中,
Figure FDA0002977511340000033
CN202110278727.6A 2021-03-16 2021-03-16 一种在线自监督学习场景适应的单目标跟踪方法 Active CN113052873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110278727.6A CN113052873B (zh) 2021-03-16 2021-03-16 一种在线自监督学习场景适应的单目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110278727.6A CN113052873B (zh) 2021-03-16 2021-03-16 一种在线自监督学习场景适应的单目标跟踪方法

Publications (2)

Publication Number Publication Date
CN113052873A true CN113052873A (zh) 2021-06-29
CN113052873B CN113052873B (zh) 2022-09-09

Family

ID=76512672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110278727.6A Active CN113052873B (zh) 2021-03-16 2021-03-16 一种在线自监督学习场景适应的单目标跟踪方法

Country Status (1)

Country Link
CN (1) CN113052873B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487027A (zh) * 2021-07-08 2021-10-08 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113643178A (zh) * 2021-08-11 2021-11-12 宁锐慧创信息科技南京有限公司 一种基于方向搜索的离散激光条纹中心点跟踪方法
CN113724290A (zh) * 2021-07-22 2021-11-30 西北工业大学 一种用于红外图像的多层次模板自适应匹配目标跟踪方法
CN114339360A (zh) * 2021-09-09 2022-04-12 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置及设备
CN114648703A (zh) * 2022-04-08 2022-06-21 安徽工业大学 一种基于改进SiamFC的水果自动化采摘方法
CN114926498A (zh) * 2022-04-26 2022-08-19 电子科技大学 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930436A (zh) * 2019-11-27 2020-03-27 深圳市捷顺科技实业股份有限公司 一种目标跟踪方法及设备
US20200327680A1 (en) * 2019-04-12 2020-10-15 Beijing Moviebook Science and Technology Co., Ltd. Visual target tracking method and apparatus based on deep adversarial training
CN112184752A (zh) * 2020-09-08 2021-01-05 北京工业大学 一种基于金字塔卷积的视频目标跟踪方法
CN112200870A (zh) * 2020-10-30 2021-01-08 上海海事大学 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200327680A1 (en) * 2019-04-12 2020-10-15 Beijing Moviebook Science and Technology Co., Ltd. Visual target tracking method and apparatus based on deep adversarial training
CN110930436A (zh) * 2019-11-27 2020-03-27 深圳市捷顺科技实业股份有限公司 一种目标跟踪方法及设备
CN112184752A (zh) * 2020-09-08 2021-01-05 北京工业大学 一种基于金字塔卷积的视频目标跟踪方法
CN112200870A (zh) * 2020-10-30 2021-01-08 上海海事大学 基于孪生网络的分类和位置损失相结合的单目标跟踪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHON HOU SIO 等: "S2SiamFC: Self-supervised Fully Convolutional Siamese Network for Visual Tracking", 《HTTPS://DL.ACM.ORG/DOI/PDF/10.1145/3394171.3413611》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113487027A (zh) * 2021-07-08 2021-10-08 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113487027B (zh) * 2021-07-08 2023-09-22 中国人民大学 基于时序对齐预测的序列距离度量方法、存储介质及芯片
CN113724290A (zh) * 2021-07-22 2021-11-30 西北工业大学 一种用于红外图像的多层次模板自适应匹配目标跟踪方法
CN113724290B (zh) * 2021-07-22 2024-03-05 西北工业大学 一种用于红外图像的多层次模板自适应匹配目标跟踪方法
CN113643178A (zh) * 2021-08-11 2021-11-12 宁锐慧创信息科技南京有限公司 一种基于方向搜索的离散激光条纹中心点跟踪方法
CN114339360A (zh) * 2021-09-09 2022-04-12 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置及设备
CN114339360B (zh) * 2021-09-09 2023-05-02 腾讯科技(深圳)有限公司 一种视频处理的方法、相关装置及设备
CN114648703A (zh) * 2022-04-08 2022-06-21 安徽工业大学 一种基于改进SiamFC的水果自动化采摘方法
CN114648703B (zh) * 2022-04-08 2024-06-25 安徽工业大学 一种基于改进SiamFC的水果自动化采摘方法
CN114926498A (zh) * 2022-04-26 2022-08-19 电子科技大学 一种基于时空约束与可学习特征匹配的快速目标跟踪方法

Also Published As

Publication number Publication date
CN113052873B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN113052873B (zh) 一种在线自监督学习场景适应的单目标跟踪方法
CN111401201B (zh) 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN110427839B (zh) 基于多层特征融合的视频目标检测方法
JP5025893B2 (ja) 情報処理装置および方法、記録媒体、並びにプログラム
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN110120065B (zh) 一种基于分层卷积特征和尺度自适应核相关滤波的目标跟踪方法及系统
CN109271958B (zh) 人脸年龄识别方法及装置
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
CN113159120A (zh) 一种基于多尺度跨图像弱监督学习的违禁物检测方法
CN111080675A (zh) 一种基于时空约束相关滤波的目标跟踪方法
CN111612817A (zh) 基于深浅特征自适应融合与上下文信息的目标跟踪方法
CN110120064A (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
CN101281648A (zh) 低复杂度的尺度自适应视频目标跟踪方法
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
CN113705490B (zh) 基于重构和预测的异常检测方法
CN111582349A (zh) 一种基于YOLOv3和核相关滤波改进的目标跟踪算法
CN114299383A (zh) 基于密度图与注意力机制融合的遥感图像目标检测方法
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN108846850B (zh) 一种基于tld算法的目标跟踪方法
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
CN115830319A (zh) 一种基于注意力机制的斜视虹膜分割方法及验证方法
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN111462184A (zh) 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
CN110751671B (zh) 一种基于核相关滤波与运动估计的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant