CN115100238A - 基于知识蒸馏的轻量化单目标跟踪器训练方法 - Google Patents

基于知识蒸馏的轻量化单目标跟踪器训练方法 Download PDF

Info

Publication number
CN115100238A
CN115100238A CN202210570157.2A CN202210570157A CN115100238A CN 115100238 A CN115100238 A CN 115100238A CN 202210570157 A CN202210570157 A CN 202210570157A CN 115100238 A CN115100238 A CN 115100238A
Authority
CN
China
Prior art keywords
tracker
student
knowledge
teacher
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210570157.2A
Other languages
English (en)
Inventor
白永强
孙瀚
陈杰
窦丽华
邓方
甘明刚
蔡涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210570157.2A priority Critical patent/CN115100238A/zh
Publication of CN115100238A publication Critical patent/CN115100238A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于知识蒸馏的轻量化目标跟踪器训练方法,提出了简单高效的知识蒸馏框架,将高性能的大型目标跟踪器的知识高效地传递给轻量化的小型目标跟踪器,有效提升跟踪精度。轻量化目标跟踪器由学生跟踪器和教师跟踪器组成,训练包括如下步骤:向学生跟踪器传递四部分知识进行学习:真实标签的监督信息GTS,为学生跟踪器提供了来自真实标签最真实的标准答案;教师自适应有界知识TAB,表示学生跟踪器从教师跟踪器的最终输出直接获取的知识;教师注意力引导知识TAG,为学生跟踪器提供来自教师跟踪器对输入图像的空间注意力及通道注意力的引导;学生相互学习知识SML,旨在让多个学生之间相互学习和指导,以达到共同进步的目的。

Description

基于知识蒸馏的轻量化单目标跟踪器训练方法
技术领域
本发明属于深度学习技术在计算机视觉领域的应用,适用于计算机视觉应用在边端设备的部署,可广泛应用于视频监控、人机交互、智能驾驶等领域,更具体地说为基于知识蒸馏的轻量化单目标跟踪器训练方法。
背景技术
目标跟踪技术作为计算机视觉的一个重要研究方向,近年来受到学者们的广泛关注。在深度学习的潮流下,基于孪生神经网络的目标跟踪方法脱颖而出,显著提高了实时跟踪器的最新水平。孪生跟踪器能够有效的根源在于,孪生网络的度量学习能力恰好适配目标跟踪对视频前后帧匹配相似目标的任务需求。早期的工作SiamFC提供了一个简单有效的模型框架,能够以86FPS的实时速度,取得在当时不错的跟踪精度。随后,许多追求更高精度的孪生跟踪器涌现,目标跟踪领域得到长足发展。然而随之而来的是巨大的模型尺寸和高昂的计算成本。代表性的SiamRPN++为了实现最卓越的性能,使用53.9M的参数量和48.9GFLOPs的计算量。这样的存储成本和计算代价严重限制了先进的目标跟踪器在具有内存及算力限制的移动端设备中部署及应用。因此,如何在保证跟踪器性能的前提下实现跟踪模型的压缩与提速成为目标跟踪领域跨越学术研究与工业落地之间鸿沟的决定性因素。
知识蒸馏是一种常用且有效的模型压缩方法,它通过让轻量化的小型学生网络模仿高性能的大型教师网络,以表现出相近或更高的精度。现有的知识蒸馏方法大都基于图像分类任务所设计,而将其应用到目标跟踪领域尚有以下挑战:
(1)目标跟踪任务的场景更加复杂多变,富含丰富的挑战,教师跟踪器也无法在任何场景都保持鲁棒性,它的判别失误可能会引导学生跟踪器至错误的方向,学生跟踪器如何辨别出这种情况是提高精度的一个重要因素。
(2)在孪生目标跟踪的框架中,511*511大小的搜索区域只有不到20%的部分是前景(目标区域),小型孪生网络特征提取能力不足的问题被放大了,这是造成精度下降的罪魁祸首。
(3)孪生跟踪器的架构相对复杂,包括模板帧和搜索帧,分别提取到模板特征和搜索特征后又会各自分流为分类分支和回归分支。因此针对孪生跟踪器所设计的知识蒸馏框架必须足够精细,才能严格契合孪生跟踪器的架构。
综上所述,目前缺少一种能够高效、轻量化、且跟踪精度较高的单目标跟踪器。
发明内容
有鉴于此,本发明提供了基于知识蒸馏的轻量化目标跟踪器训练方法,提出了一种简单高效的知识蒸馏框架,将高性能的大型目标跟踪器的知识高效地传递给轻量化的小型目标跟踪器,能够在不引入额外参数和推理运算量的情况下有效提升小模型的跟踪精度。
为达到上述目的,本发明的技术方案为:基于知识蒸馏的轻量化目标跟踪器训练方法,轻量化目标跟踪器由学生跟踪器和教师跟踪器组成,针对该轻量化目标跟踪器的训练包括如下步骤:
向学生跟踪器传递四部分知识进行学习:真实标签的监督信息GTS、教师自适应有界知识TAB、教师注意力引导知识TAG、学生相互学习知识SML。
真实标签的监督信息GTS,为学生跟踪器提供了来自真实标签最真实的标准答案。
教师自适应有界知识TAB,表示学生跟踪器从教师跟踪器的最终输出直接获取的知识。
教师注意力引导知识TAG,为学生跟踪器提供来自教师跟踪器对输入图像的空间注意力及通道注意力的引导。
学生相互学习知识SML,旨在让多个学生之间相互学习和指导,以达到共同进步的目的。
进一步地,真实标签的监督信息GTS,其转移的具体过程如下,
利用锚框与目标包围矩形框间的交并比信息,可以获取对应点标签信息,获得分类分支的真实标签信息GTcls和回归分支的真实标签信息GTreg;接着,将CS和RS分别表示学生跟踪器的分类输出和回归输出,于是GTS的损失表达式为:
Figure BDA0003658798280000031
其中,
Figure BDA0003658798280000032
为分类分支的损失函数,采用交叉熵来计算损失,
Figure BDA0003658798280000033
为回归分支的损失函数,采用平滑L1计算损失;超参数λ的定义被用于平衡两部分的重要性。
进一步地,教师自适应有界知识TAB,其转移的具体过程如下,
将自适应边界设置为学生跟踪器和教师跟踪器与真实标签值的损失之差;
分类边界从教师跟踪器和学生跟踪器的分类分支输出层提取,其定义为:
Figure BDA0003658798280000034
Bcls分类边界,
Figure BDA0003658798280000035
为教师跟踪器和分类分支的真实标签值之间的损失,
Figure BDA0003658798280000036
为学生跟踪器和分类分支的真实标签值之间的损失,CT是教师跟踪器的分类分支输出,CS是学生跟踪器的分类分支输出;
回归边界从教师跟踪器和学生跟踪器的回归分支输出层提取,其定义为:
Figure BDA0003658798280000037
Breg分类边界,
Figure BDA0003658798280000038
是教师跟踪器和回归分支的真实标签值之间的损失,
Figure BDA0003658798280000039
是学生跟踪器和回归分支的真实标签值之间的损失,RT是教师跟踪器的回归分支输出,RS是学生跟踪器的回归分支输出,
对于分类分支,只有在分类边界值小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器分类分支输出层的软化损失;当分类边界值超过预设阈值,TAB则停止为学生跟踪器提供损失;对于回归分支,只有在分类边界值和回归边界值均小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器回归分支输出层的软化损失;两边界值只要有其一超过预设阈值,TAB则停止为学生跟踪器提供损失。
优选地,分类分支的TAB转移损失定义为:
Figure BDA0003658798280000041
其中,KL表示KL散度损失,t为温度参数,表示将原先分类概率软化以提取暗知识thcls为分类边界值的预设阈值;;
回归分支的TAB转移损失定义为:
Figure BDA0003658798280000042
其中,
Figure BDA0003658798280000043
表示平滑L1损失函数;thcls为回归边界值的预设阈值。
进一步地,整体的TAB转移损失定义为:
Figure BDA0003658798280000044
其中λ为权重值。
进一步地,教师注意力引导知识TAG,其转移的具体过程如下,
对孪生骨干网络提取后的特征层FC×H×W沿着通道维度进行压缩,得到空间注意力映射图,映射
Figure BDA0003658798280000045
的公式为:
Figure BDA0003658798280000046
其中C为特征层通道数,H为特征层的高,W为特征层的宽;Fi,*,*为第i个通道的特征层;
对孪生骨干网络提取后的特征层FC×H×W沿着图像的宽度和高度这两个维度进行压缩,得到通道注意力映射图,映射
Figure BDA0003658798280000047
的公式为:
Figure BDA0003658798280000048
其中F*,j,k为高度为j宽度为k的特征层。
进一步地,对于搜索分支x,TAG的优化目标为减小学生跟踪器和教师跟踪器间模板分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure BDA0003658798280000051
其中
Figure BDA0003658798280000052
学生跟踪器的搜索分支的特征图,
Figure BDA0003658798280000053
教师跟踪器的搜索分支的特征图;
对于模板分支z,TAG的优化目标为减小学生跟踪器和教师跟踪器间搜索分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure BDA0003658798280000054
其中
Figure BDA0003658798280000055
学生跟踪器的模板分支的特征图,
Figure BDA0003658798280000056
教师跟踪器的搜索分支的特征图。
8.根据权利要求7基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,整体的TAG转移损失定义为:
Figure BDA0003658798280000057
优选地,学生相互学习知识SML,其转移的具体过程如下,
选择两个轻量化的学生跟踪器S1和S2,对S1来说,提取S2的分类结果
Figure BDA0003658798280000058
和回归结果
Figure BDA0003658798280000059
进行知识转移,损失函数定义为:
Figure BDA00036587982800000510
其中
Figure BDA00036587982800000511
是对软化后的分类结果求取KL散度的过程,其公式为:
Figure BDA00036587982800000512
Figure BDA00036587982800000513
为第一学生跟踪器S1的分类输出;
Figure BDA00036587982800000514
为第二学生跟踪器S2的分类输出;
Figure BDA00036587982800000515
表示对教师跟踪器和学生跟踪器的回归结果输出求取平滑L1的过程,其公式为:
Figure BDA00036587982800000516
Figure BDA00036587982800000517
为第一学生跟踪器S1的回归输出;
Figure BDA00036587982800000518
为第二学生跟踪器S2的回归输出;
对S2来说,提取S1的分类结果
Figure BDA00036587982800000519
和回归结果
Figure BDA00036587982800000520
进行知识转移,损失函数定义为:
Figure BDA00036587982800000521
优选地,对于学生跟踪器S1来说,整个知识蒸馏框架的总损失可以定义为:
Figure BDA0003658798280000061
对于学生跟踪器S2来说,整个知识蒸馏框架的总损失可以定义为:
Figure BDA0003658798280000062
其中,α,β,γ为可调的关于每种知识重要性权重的超参数。
有益效果:
1、本发明提出了基于知识蒸馏的轻量化目标跟踪器训练方法,针对通用的知识蒸馏框架,通过向学生跟踪器传递四部分知识以得到高效的轻量化目标跟踪器:真实标签的监督信息GTS、教师自适应有界知识TAB、教师注意力引导知识TAG、学生相互学习知识SML。能够让先进的孪生跟踪器在不损失精度的前提下大幅压缩模型尺寸,提高跟踪速率,得到轻量化且高效的跟踪器;
2、本发明提供的基于知识蒸馏的轻量化目标跟踪器训练方法,所提出的知识蒸馏框架是结合孪生跟踪器的架构精密设计的,设计的知识蒸馏框架仅用于孪生跟踪器的训练阶段,因此在跟踪阶段不会造成任何额外的计算和存储负担。此外,本实施例中的知识蒸馏策略全部都是基于特征和响应的,因此它适用于所有孪生跟踪器,并不拘泥于某种固定结构。本发明的基于知识蒸馏的轻量化单目标跟踪器是由上面训练方法训练得到的,可以在视频序列或实际场景中进行跟踪。
3、本发明提供的基于知识蒸馏的轻量化目标跟踪器训练方法,通过引入教师自适应有界知识TAB,学生跟踪器获得了鉴别能力,能够对来自教师跟踪器的知识自适应地过滤;通过引入教师注意力引导知识TAG,学生跟踪器模仿教师跟踪器对输入图像的注意力,能够进一步理解教师跟踪器的思考过程,加快模型收敛速度。
4、本发明提供的基于知识蒸馏的轻量化目标跟踪器训练方法,通过引入学生相互学习知识SML,学生跟踪器之间相互学习和指导,进一步提高彼此精度。
5、本发明提供的基于知识蒸馏的轻量化目标跟踪器训练方法,学生跟踪器相比教师跟踪器有近9倍的模型压缩率以及10倍的计算代价减少,与此同时,它还能够获得比教师跟踪器更高的跟踪精度。
附图说明
图1为本发明实施例中的基于知识蒸馏的孪生跟踪器的总体示意图。
图2(a)为本发明实施例中的教师注意力引导TAG的示意图。
图2(b)为本发明实施例中的空间注意力映射的示意图。
图2(c)为本发明实施例中的通道注意力映射的示意图。
图3为本发明实例中的学生相互学习SML的示意图。
图4为本发明实例中的学生跟踪器在OTB100上的评估图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供的基于知识蒸馏的轻量化目标跟踪器训练方法,总体示意图如图1所示,通过向学生跟踪器传递四部分知识以得到高效的轻量化目标跟踪器:真实标签的监督信息GTS、教师自适应有界知识TAB、教师注意力引导知识TAG、学生相互学习知识SML。
(1)真实标签的监督信息GTS(从数据集中产生),为学生跟踪器提供了来自真实标签最真实的标准答案。由于其语义信息之深,这对脑容量较小的学生跟踪器来说有些难以理解,因此还需要通过教师跟踪器进行辅导。首先利用锚框与目标包围矩形框间的交并比信息,可以获取对应点标签信息,对于分类和回归分支分别有分类分支的真实标签信息GTcls和回归分支的标签信息GTreg。接着,将CS和RS分别表示学生跟踪器的分类输出和回归输出,于是GTS的损失表达式为:
Figure BDA0003658798280000081
其中,
Figure BDA0003658798280000082
采用交叉熵来计算损失分类分支的损失函数,,
Figure BDA0003658798280000083
采用平滑L1计算损失回归分支的损失函数。超参数λ的定义被用于平衡两部分的重要性。
(2)教师自适应有界知识TAB,表示学生跟踪器从教师跟踪器的最终输出直接获取的知识,它提供了来自教师跟踪器最直观的知识理解。然而教师可能会提供与真实标签完全违背的知识,通过引入一个自适应界限来尽可能规避这部分错误,使得学生能够获得更准确的辅导。
将自适应边界设置为学生跟踪器和教师跟踪器与真实标签值的损失之差。
进一步,分类边界从教师跟踪器和学生跟踪器的分类分支输出层提取,其定义为:
Figure BDA0003658798280000084
Bcls分类边界,
Figure BDA0003658798280000085
教师跟踪器和真实标签值之间的损失,CT是教师跟踪器的分类分支输出,CS是学生跟踪器的分类分支输出,
回归边界从教师跟踪器和学生跟踪器的回归分支输出层提取,其定义为:
Figure BDA0003658798280000086
再进一步,对于分类分支,只有在分类边界值小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器分类分支输出层的软化损失。当分类边界值超过预设阈值thcls,TAB则停止为学生跟踪器提供损失。分类分支的TAB转移损失定义为:
Figure BDA0003658798280000087
其中,KL表示KL散度损失。t为温度参数,表示将原先分类概率软化以提取暗知识。
对于回归分支,只有在分类边界值和回归边界值均小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器回归分支输出层的软化损失。两边界值只要有其一超过预设阈值,TAB则停止为学生跟踪器提供损失。回归分支的TAB转移损失定义为:
Figure BDA0003658798280000091
其中,
Figure BDA0003658798280000092
表示平滑L1损失函数。
更进一步,将这两部分损失加权,就可以得到整体的TAB转移损失,定义如下:
Figure BDA0003658798280000093
(3)教师注意力引导知识TAG,如图2(a)所示,它能为学生跟踪器提供来自教师跟踪器对输入图像的空间注意力及通道注意力的引导,使得学生跟踪器更进一步理解教师的思考过程,将学习兴趣集中在正确的方向上。
如图2(b)所示,对孪生骨干网络提取后的特征层FC×H×W沿着通道维度进行压缩,得到空间注意力映射图,映射
Figure BDA0003658798280000094
的公式为:
Figure BDA0003658798280000095
C为特征层通道数,H特征层的高和宽W,Fi,*,*,如图2(c)所示,对孪生骨干网络提取后的特征层FC×H×W沿着图像的宽度和高度这两个维度进行压缩,得到通道注意力映射图,映射
Figure BDA0003658798280000096
的公式为:
Figure BDA0003658798280000097
进一步,对于搜索分支x,TAG的优化目标为减小学生跟踪器和教师跟踪器间模板分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure BDA0003658798280000098
Figure BDA0003658798280000099
学生跟踪器的搜索分支的特征图,
Figure BDA00036587982800000910
教师跟踪器的搜索分支的特征图
对于模板分支z,TAG的优化目标为减小学生跟踪器和教师跟踪器间搜索分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure BDA00036587982800000911
Figure BDA0003658798280000101
学生跟踪器的模板分支的特征图,
Figure BDA0003658798280000102
教师跟踪器的搜索分支的特征图
更进一步,将这两部分损失相加,就可以得到整体的TAG转移损失,定义如下:
Figure BDA0003658798280000103
(4)学生相互学习知识SML,旨在让多个学生之间相互学习和指导,以达到共同进步的目的。如图3所示,选择两个轻量化的学生跟踪器S1和S2,对S1来说,提取S2的分类结果
Figure BDA0003658798280000104
和回归结果
Figure BDA0003658798280000105
进行知识转移,损失函数定义为:
Figure BDA0003658798280000106
其中
Figure BDA0003658798280000107
是对软化后的分类结果求取KL散度的过程,其公式为:
Figure BDA0003658798280000108
Figure BDA0003658798280000109
表示对教师跟踪器和学生跟踪器的回归结果输出求取平滑L1的过程,其公式为:
Figure BDA00036587982800001010
对S2来说,提取S1的分类结果
Figure BDA00036587982800001011
和回归结果
Figure BDA00036587982800001012
进行知识转移,损失函数定义为:
Figure BDA00036587982800001013
(5)知识汇总。对于学生跟踪器S1来说,整个知识蒸馏框架的总损失可以定义为:
Figure BDA00036587982800001014
对于学生跟踪器S2来说,整个知识蒸馏框架的总损失可以定义为:
Figure BDA00036587982800001015
其中,α,β,γ为可调的关于每种知识重要性权重的超参数。
需要强调的是,我们设计的知识蒸馏框架仅用于孪生跟踪器的训练阶段,因此在跟踪阶段不会造成任何额外的计算和存储负担。此外,本实施例中的知识蒸馏策略全部都是基于特征和响应的,因此它适用于所有孪生跟踪器,并不拘泥于某种固定结构。本发明的基于知识蒸馏的轻量化单目标跟踪器是由上面训练方法训练得到的,可以在视频序列或实际场景中进行跟踪。
本发明的轻量化目标跟踪器相较于原教师跟踪器有近9倍的模型压缩率以及10倍的计算代价减少,并能够以66FPS的超实时速度运行在CPU上。与此同时,它能够获得与教师模型相近甚至更高的跟踪精度。为了对比的统一性,所有的实验均是在一台拥有IntelXeon 5218R CPU以及4张RTX 3090显卡的服务器下的python3.8,pytorch1.10.1和cuda11.3环境运行的。具体实验如下。
本实施例以大小为64的批处理大小在四块GPU上分布式训练50轮。两个学生跟踪器选取的骨干网络为Alexnet和Mobilenet-v2,均是在ImageNet数据集上预训练过的,并且这部分参数会在蒸馏训练的前十轮被冻结。在训练过程中,经过前五轮的热身,学习率会从1e-3逐步提升至5e-3,在剩余训练回合又指数衰减至5e-4。另外,0.9的动量被设置为0.9,权重衰减被设置为1e-4。一些训练过程的参数设定为:回归分支权重λ=1.2,TAB中的阈值参数thcls=threg=0.01,温度参数t=10,知识汇总各部分权重参数为α=β=γ=1。
图4为本实施例训练得到的轻量化目标跟踪器在OTB100上的评估结果。我们的跟踪器Ours(M)和Ours(A)对比蒸馏前(SiamRPN++(M)和SiamRPN++(A))均有显著的性能提升。并且Ours(M)在成功率图和精确度图上均超过了教师跟踪器(SiamRPN++(R))。
表1为本实施例训练得到的轻量化目标跟踪器在VOT2018上的评估结果。根据表1的对比,本实施例的跟踪器在保证高精度的同时还保证了实时性(>20fps on CPU)。
表1 VOT2018评估结果
Figure BDA0003658798280000111
Figure BDA0003658798280000121
表2中对比了蒸馏前后跟踪器的计算量和存储成本。本实施例中的跟踪器Ours(M)和Ours(A)相较于蒸馏之前的SiamRPN++(R)分别有5和9倍的模型压缩率,使用了7和10倍少的计算量,并且实时运行帧率提高至4和11倍。
表2蒸馏前后跟踪器计算量和存储成本对比
Figure BDA0003658798280000122
综上,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,所述轻量化目标跟踪器由学生跟踪器和教师跟踪器组成,针对该轻量化目标跟踪器的训练包括如下步骤:
向学生跟踪器传递四部分知识进行学习:真实标签的监督信息GTS、教师自适应有界知识TAB、教师注意力引导知识TAG、学生相互学习知识SML;
所述的真实标签的监督信息GTS,为学生跟踪器提供了来自真实标签最真实的标准答案;
所述的教师自适应有界知识TAB,表示学生跟踪器从教师跟踪器的最终输出直接获取的知识;
所述的教师注意力引导知识TAG,为学生跟踪器提供来自教师跟踪器对输入图像的空间注意力及通道注意力的引导;
所述的学生相互学习知识SML,旨在让多个学生之间相互学习和指导,以达到共同进步的目的。
2.根据权利要求1所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,所述的真实标签的监督信息GTS,其转移的具体过程如下,
利用锚框与目标包围矩形框间的交并比信息,可以获取对应点标签信息,获得分类分支的真实标签信息GTcls和回归分支的真实标签信息GTreg;接着,将CS和RS分别表示学生跟踪器的分类输出和回归输出,于是GTS的损失表达式为:
Figure FDA0003658798270000011
其中,
Figure FDA0003658798270000012
为分类分支的损失函数,采用交叉熵来计算损失,
Figure FDA0003658798270000013
为回归分支的损失函数,采用平滑L1计算损失;超参数λ的定义被用于平衡两部分的重要性。
3.根据权利要求1或2所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,所述的教师自适应有界知识TAB,其转移的具体过程如下,
将自适应边界设置为学生跟踪器和教师跟踪器与真实标签值的损失之差;
分类边界从教师跟踪器和学生跟踪器的分类分支输出层提取,其定义为:
Figure FDA0003658798270000021
Bcls分类边界,
Figure FDA0003658798270000022
为教师跟踪器和分类分支的真实标签值之间的损失,
Figure FDA0003658798270000023
为学生跟踪器和分类分支的真实标签值之间的损失,CT是教师跟踪器的分类分支输出,CS是学生跟踪器的分类分支输出;
回归边界从教师跟踪器和学生跟踪器的回归分支输出层提取,其定义为:
Figure FDA0003658798270000024
Breg分类边界,
Figure FDA0003658798270000025
是教师跟踪器和回归分支的真实标签值之间的损失,
Figure FDA0003658798270000026
是学生跟踪器和回归分支的真实标签值之间的损失,RT是教师跟踪器的回归分支输出,RS是学生跟踪器的回归分支输出,
对于分类分支,只有在分类边界值小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器分类分支输出层的软化损失;当分类边界值超过预设阈值,TAB则停止为学生跟踪器提供损失;对于回归分支,只有在分类边界值和回归边界值均小于预设阈值的情况下,TAB才为学生跟踪器提供来自教师跟踪器回归分支输出层的软化损失;两边界值只要有其一超过预设阈值,TAB则停止为学生跟踪器提供损失。
4.根据权利要求3所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,分类分支的TAB转移损失定义为:
Figure FDA0003658798270000027
其中,KL表示KL散度损失,t为温度参数,表示将原先分类概率软化以提取暗知识thcls为分类边界值的预设阈值;;
回归分支的TAB转移损失定义为:
Figure FDA0003658798270000028
其中,
Figure FDA0003658798270000029
表示平滑L1损失函数;thcls为回归边界值的预设阈值。
5.根据权利要求1、2或4所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,整体的TAB转移损失定义为:
Figure FDA0003658798270000031
其中λ为权重值。
6.根据权利要求1、2或4所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,所述的教师注意力引导知识TAG,其转移的具体过程如下,
对孪生骨干网络提取后的特征层FC×H×W沿着通道维度进行压缩,得到空间注意力映射图,映射
Figure FDA0003658798270000032
的公式为:
Figure FDA0003658798270000033
其中C为特征层通道数,H为特征层的高,W为特征层的宽;Fi,*,*为第i个通道的特征层;
对孪生骨干网络提取后的特征层FC×H×W沿着图像的宽度和高度这两个维度进行压缩,得到通道注意力映射图,映射
Figure FDA0003658798270000034
的公式为:
Figure FDA0003658798270000035
其中F*,j,k为高度为j宽度为k的特征层。
7.根据权利要求6所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,对于搜索分支x,TAG的优化目标为减小学生跟踪器和教师跟踪器间模板分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure FDA0003658798270000036
其中
Figure FDA0003658798270000037
学生跟踪器的搜索分支的特征图,
Figure FDA0003658798270000038
教师跟踪器的搜索分支的特征图;
对于模板分支z,TAG的优化目标为减小学生跟踪器和教师跟踪器间搜索分支骨干特征的通道注意力和空间注意力损失,损失定义如下:
Figure FDA0003658798270000039
其中
Figure FDA0003658798270000041
学生跟踪器的模板分支的特征图,
Figure FDA0003658798270000042
教师跟踪器的搜索分支的特征图。
8.根据权利要求7所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,整体的TAG转移损失定义为:
Figure FDA0003658798270000043
9.根据权利要求1所述的基于知识蒸馏的轻量化目标跟踪器训练方法,其特征在于,所述的学生相互学习知识SML,其转移的具体过程如下,
选择两个轻量化的学生跟踪器S1和S2,对S1来说,提取S2的分类结果
Figure FDA0003658798270000044
和回归结果
Figure FDA0003658798270000045
进行知识转移,损失函数定义为:
Figure FDA0003658798270000046
其中
Figure FDA0003658798270000047
是对软化后的分类结果求取KL散度的过程,其公式为:
Figure FDA0003658798270000048
Figure FDA0003658798270000049
为第一学生跟踪器S1的分类输出;
Figure FDA00036587982700000410
为第二学生跟踪器S2的分类输出;
Figure FDA00036587982700000411
表示对教师跟踪器和学生跟踪器的回归结果输出求取平滑L1的过程,其公式为:
Figure FDA00036587982700000412
Figure FDA00036587982700000413
为第一学生跟踪器S1的回归输出;
Figure FDA00036587982700000414
为第二学生跟踪器S2的回归输出;
对S2来说,提取S1的分类结果
Figure FDA00036587982700000415
和回归结果
Figure FDA00036587982700000416
进行知识转移,损失函数定义为:
Figure FDA00036587982700000417
对于学生跟踪器S1来说,整个知识蒸馏框架的总损失可以定义为:
Figure FDA00036587982700000418
对于学生跟踪器S2来说,整个知识蒸馏框架的总损失可以定义为:
Figure FDA00036587982700000419
其中,α,β,γ为可调的关于每种知识重要性权重的超参数。
CN202210570157.2A 2022-05-24 2022-05-24 基于知识蒸馏的轻量化单目标跟踪器训练方法 Pending CN115100238A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210570157.2A CN115100238A (zh) 2022-05-24 2022-05-24 基于知识蒸馏的轻量化单目标跟踪器训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210570157.2A CN115100238A (zh) 2022-05-24 2022-05-24 基于知识蒸馏的轻量化单目标跟踪器训练方法

Publications (1)

Publication Number Publication Date
CN115100238A true CN115100238A (zh) 2022-09-23

Family

ID=83288285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210570157.2A Pending CN115100238A (zh) 2022-05-24 2022-05-24 基于知识蒸馏的轻量化单目标跟踪器训练方法

Country Status (1)

Country Link
CN (1) CN115100238A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439510A (zh) * 2022-11-08 2022-12-06 山东大学 一种基于专家策略指导的主动目标跟踪方法及系统
CN115797794A (zh) * 2023-01-17 2023-03-14 南京理工大学 基于知识蒸馏的卫星视频多目标跟踪方法
CN116206275A (zh) * 2023-02-23 2023-06-02 南通探维光电科技有限公司 基于知识蒸馏的识别模型训练方法及装置
CN116612379A (zh) * 2023-05-30 2023-08-18 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统
CN116823891A (zh) * 2023-08-28 2023-09-29 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439510A (zh) * 2022-11-08 2022-12-06 山东大学 一种基于专家策略指导的主动目标跟踪方法及系统
CN115439510B (zh) * 2022-11-08 2023-02-28 山东大学 一种基于专家策略指导的主动目标跟踪方法及系统
CN115797794A (zh) * 2023-01-17 2023-03-14 南京理工大学 基于知识蒸馏的卫星视频多目标跟踪方法
CN116206275A (zh) * 2023-02-23 2023-06-02 南通探维光电科技有限公司 基于知识蒸馏的识别模型训练方法及装置
CN116206275B (zh) * 2023-02-23 2024-03-01 南通探维光电科技有限公司 基于知识蒸馏的识别模型训练方法及装置
CN116612379A (zh) * 2023-05-30 2023-08-18 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统
CN116612379B (zh) * 2023-05-30 2024-02-02 中国海洋大学 一种基于多知识蒸馏的水下目标检测方法及系统
CN116823891A (zh) * 2023-08-28 2023-09-29 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统
CN116823891B (zh) * 2023-08-28 2023-11-17 江南大学 基于注意力和知识蒸馏的孪生高光谱图像跟踪方法和系统

Similar Documents

Publication Publication Date Title
CN115100238A (zh) 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN111062951B (zh) 一种基于语义分割类内特征差异性的知识蒸馏方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110298404B (zh) 一种基于三重孪生哈希网络学习的目标跟踪方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
Kim et al. Fast pedestrian detection in surveillance video based on soft target training of shallow random forest
US20210056357A1 (en) Systems and methods for implementing flexible, input-adaptive deep learning neural networks
CN112330718B (zh) 一种基于cnn的三级信息融合视觉目标跟踪方法
Zhai et al. Group-split attention network for crowd counting
CN117689731B (zh) 一种基于改进YOLOv5模型的轻量化新能源重卡电池包识别方法
Sun et al. YOLO-P: An efficient method for pear fast detection in complex orchard picking environment
CN114708270B (zh) 基于知识聚合与解耦蒸馏的压缩方法在语义分割中的应用
Lv et al. An inverted residual based lightweight network for object detection in sweeping robots
Gao et al. Autonomous driving based on modified sac algorithm through imitation learning pretraining
CN104331717B (zh) 一种整合特征字典结构与视觉特征编码的图像分类方法
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN115049786B (zh) 任务导向的点云数据下采样方法及系统
CN116206082A (zh) 一种语义场景补全方法、系统、设备及存储介质
CN111881794B (zh) 一种视频行为识别方法及系统
CN114647752A (zh) 基于双向可切分深度自注意力网络的轻量化视觉问答方法
Murata et al. Segmentation of Cell Membrane and Nucleus using Branches with Different Roles in Deep Neural Network.
Sun et al. Distilling Siamese Trackers with Attention Mask
Ge et al. Video question answering using a forget memory network
CN117557857B (zh) 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法
Li et al. Proper Reuse of Features Extractor for Real-time Continual Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination