CN113837296B - 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 - Google Patents
一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 Download PDFInfo
- Publication number
- CN113837296B CN113837296B CN202111144930.0A CN202111144930A CN113837296B CN 113837296 B CN113837296 B CN 113837296B CN 202111144930 A CN202111144930 A CN 202111144930A CN 113837296 B CN113837296 B CN 113837296B
- Authority
- CN
- China
- Prior art keywords
- fusion
- tracking
- layer
- full
- layers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000007 visual effect Effects 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 230000000750 progressive effect Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005316 response function Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 abstract description 6
- 230000006872 improvement Effects 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 2
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统,属于计算机视觉技术领域,解决如何为基于鲁棒实例表示的RGBT跟踪找到最佳的融合网络结构,从而进一步提高跟踪性能的问题,本发明的技术方案在离线搜索阶段,为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示,引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战;这种两阶段搜索算法可以动态更新视频融合策略,从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构,进一步提高跟踪性能。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统。
背景技术
目标跟踪是计算机视觉领域中的一个热点问题。目标跟踪也是无人驾驶,智能交通和智能监控的关键技术之一。目标跟踪是在给定初始帧的包围盒的情况下,估计目标在后续帧中的位置。目前的跟踪算法大多基于可见光单一模态条件,在一些极端条件下会受到较大的影响,比如恶劣天气和光照强烈变化等,单一模态跟踪算法往往表现的不尽人意。可见光和热红外的模态融合跟踪被称为RGBT(Red Green Blue Thermal)跟踪,由于可见光信息和热红外信息是相互补充的,已经被证明是可以提高跟踪性能的有效方法。尽管RGBT跟踪已经取得了很大的进展,但由于复杂场景和环境下信息融合的困难,RGBT跟踪仍然是一项具有挑战性的任务。
由于RGBT跟踪具有巨大的潜在价值和应用前景,从传统的基于稀疏表示的方法到深度学习方法,RGBT领域涌现出了许多卓有成效的研究成果。虽然这些RGBT跟踪器已经取得了不错的进展,但仍然存在一些悬而未决的问题。首先,这些手动设计的RGBT跟踪器需要大量重复实验、专家经验和科学直觉。其次,这些融合策略忽视了跨层融合的潜在好处。最后,由于结构固定,这些跟踪器通常难以应对跟踪过程中的各种挑战。
现有方式存在着如下缺点:1)手工设计的融合网络需要大量重复的实验、专家经验和科学直觉,不同卷积层的融合具有不同的效果,找到一个最优的融合结构需要耗费大量的人力物力;2)由于手工设计的模型结构是固定的,因此难以应对跟踪中出现的各种挑战。
公开号为CN110349185A、公开日期为2019年10月18日的中国发明专利申请《一种RGBT目标跟踪模型的训练方法及装置》具体公开了:1)构建依次由稠密特征聚合模块以及分类模块组成的跟踪模型,稠密特征聚合模块包括提取可见光图像特征的第一卷积层序列;以及提取热红外图像特征的第二卷积层序列,第一卷积层中的与第二卷积层中深度相同的卷积层为配对卷积层;除第一个配对卷积层以外的配对卷积层均对应一个特征聚合层,第一个配对卷积层的卷积结果输入到下一个配对卷积层的特征聚合层中;分类模块包括依次串联的若干层全连接层;2)使用预先标记的可见光图像样本以及预先标记的热红外图像样本训练跟踪模型,得到目标跟踪模型。但是文献并未解决上述问题。
发明内容
本发明所要解决的技术问题在于如何为基于鲁棒实例表示的RGBT跟踪找到最佳的融合网络结构,从而进一步提高跟踪性能的问题。
本发明是通过以下技术方案解决上述技术问题的:
一种基于两阶段融合结构搜索的RGBT视觉跟踪方法,包括以下步骤:
S1、离线搜索阶段,设计一个通用搜索空间,同时输入一对配准的多模态图像,通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法,离线搜索通用的融合网络结构,使用搜索到的通用的融合网络结构提取图像特征;
S2、在线跟踪阶段,将所述的通用的融合网络结构进行固定,在第一层全连接层处设计一个实例感知搜索空间,根据每个视频的第一帧来选择全连接层的融合网络结构,在后续帧的跟踪中继续使用这一融合网络结构;
S3、把得到的图像特征在最后一个全连接层后送入softmax层,得到样本的得分,正样本中得分最高的就是预测的目标跟踪结果,并根据跟踪结果的成功与否判断是否更新融合网络结构。
本发明的技术方案在离线搜索阶段,为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示,引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战;这种两阶段搜索算法可以动态更新视频融合策略,从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构,进一步提高跟踪性能。
作为本发明技术方案的进一步改进,步骤S1中所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数:Tanh、ReLU、PReLU、LReLU、ReLU6。
作为本发明技术方案的进一步改进,步骤S1中所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成。
作为本发明技术方案的进一步改进,步骤S2中所述的实例感知搜索空间的模态融合方式包括:加法、减法、取最大值、取最小值、取平均值和拼接。
作为本发明技术方案的进一步改进,步骤S3中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为:当目标的得分大于零时,判定为跟踪成功,当目标得分小于零时,判定为跟踪失败时,此时进行更新融合网络结构。
一种基于两阶段融合结构搜索的RGBT视觉跟踪系统,包括:
离线搜索模块,用于设计一个通用搜索空间,同时输入一对配准的多模态图像,通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法,离线搜索通用的融合网络结构,使用搜索到的通用的融合网络结构提取图像特征;
在线跟踪模块,用于将所述的通用的融合网络结构进行固定,在第一层全连接层处设计一个实例感知搜索空间,根据每个视频的第一帧来选择全连接层的融合网络结构,在后续帧的跟踪中继续使用这一融合网络结构;
判断更新模块,用于把得到的图像特征在最后一个全连接层后送入softmax层,得到样本的得分,正样本中得分最高的就是预测的目标跟踪结果,并根据跟踪结果的成功与否判断是否更新融合网络结构。
作为本发明技术方案的进一步改进,离线搜索模块中所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数:Tanh、ReLU、PReLU、LReLU、ReLU6。
作为本发明技术方案的进一步改进,离线搜索模块中所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成。
作为本发明技术方案的进一步改进,在线跟踪模块中所述的实例感知搜索空间的模态融合方式包括:加法、减法、取最大值、取最小值、取平均值和拼接。
作为本发明技术方案的进一步改进,判断更新模块中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为:当目标的得分大于零时,判定为跟踪成功,当目标得分小于零时,判定为跟踪失败时,此时进行更新融合网络结构。
本发明的优点在于:
(1)本发明的技术方案在离线搜索阶段,为了提取对光照变化、运动模糊和尺度变化等各种挑战具有鲁棒性的共享特征表示,引入了多域学习框架来离线搜索通用融合空间中的融合网络结构。在线跟踪阶段,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战;这种两阶段搜索算法可以动态更新视频融合策略,从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构,进一步提高跟踪性能;
(2)把神经结构搜索技术引入模态融合,可以避免手工设计所需要的大量重复实验、专家经验和科学直觉,使模态之间的融合自动化;
(3)基于渐进式神经结构搜索算法实现通用融合网络的搜索,模态间不同层的融合往往具有不同的效果,通过渐进式神经结构搜索来实现在已有搜索空间中搜索一个最佳的融合结构,将多域训练引入搜索框架,使得搜索到的融合网络能够处理各种通用挑战;
(4)引入实例感知搜索来应对跟踪过程中的各种挑战,每个视频都有各种各样的挑战,只使用一个固定的结构难以应对不同视频中的不同挑战,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战。
附图说明
图1是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的流程图;
图2是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的离线搜索阶段是通用融合结构搜索网络模型示意图;
图3是本发明实施例一的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法的在线跟踪阶段是实例感知融合结构搜索网络模型示意图;
图4是本发明本发明一种基于两阶段融合结构搜索的RGBT视觉跟踪方法及系统实验结果展示图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述:
实施例一
如图1、2所示,一种基于两阶段融合结构搜索的RGBT视觉跟踪方法,具体包括离线搜索和在线跟踪两个阶段:
如图1所示,在离线搜索阶段设计一个通用搜索空间,包括VGG-M卷积层不同融合的方式、五种激活函数Tanh、ReLU、PReLU、LReLU、ReLU6。搜索空间的大小与可能的融合层数成指数关系,因此根据融合层数逐步探索搜索空间,这与渐进式神经结构搜索的思想是一致的,从简单的融合层数为1开始,依次扩展融合层的数目。训练一个代理函数来进一步指导搜索空间的探索,为了学习到不同视频中目标的共性,采用多域学习的训练方式,假设用K个视频做训练,一共做N次循环。每个mini-batch的构成是从某一视频中随机采8帧图片,在这8帧图片中随机采样32个正样本和96个负样本。在每一次循环中会做K次迭代,依次用K个视频的mini-batch来做训练,重复进行N次循环。在离线搜索阶段搜索的结构是由堆叠一系列的卷积层、非线性层(ReLU、LReLU)和池化层所组成的,在进行在线跟踪的时候将其固定,离线搜索阶段具体包括以下步骤:
(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数,全连接层是随机初始化的。特征提取器由三个卷积层和激活函数Relu组成,其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool,而卷积核大小分别为7*7*96、5*5*256、3*3*512。
(2)初始化一些融合层数L=1的候选结构描述,根据描述构造该融合网络,为了学习不同视频目标的共性,使用多域方法将这些融合网络进行训练。
(3)使用人工标注好的可见光热红外数据集来训练整个网络,用K个视频来做训练,一共做N次循环,每次循环使用随机梯度法进行K次迭代。在第k次迭代,每个minibatch(batchsize=128,包含32个正样本和96个负样本)是从第(k mod K)个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的,同时更换对应视频序列的第(k mod K)个fc6层。卷积层学习率设置为0.0001,全连接层的学习率设置为0.0002。保存模型,进行测试,得到网络真实的精度。
(4)用(2)中的候选结构描述和对应的真实精度,使用随机梯度下降去训练一个模型预测器(RNN模型),学习率设置为0.001,迭代50次。
(5)依次扩展融合层数L=2...4,生成候选结构描述,通过预测器预测候选结构的精度,根据预测精度采样前G个结构描述,根据描述构造前G个融合网络,使用(3)进行训练,然后进行测试,得到网络真实精度。再将这些结构描述和精度去更新预测器。
(6)最后得到一个最好的融合网络结构,保存该模型,用于在线跟踪阶段,在线跟踪阶段将其进行固定。
如图2所示,在线跟踪阶段在全连接层处(fc4)设计了一个实例感知搜索空间(加法、减法、取最大值、取最小值、取平均值和拼接),根据每个视频的第一帧来选择全连接层的融合结构,在后续帧的跟踪中继续使用这一融合结构,在线跟踪阶段包括以下步骤:
(1)根据多模态视频序列中提供的一对第一帧真值框,我们抽取S+=500(IOU≥0.7)个正样本和S-=5000(IOU≤0.3)个负样本作为训练样本,训练迭代次数设置为30次。使用这5500个样本分别初始化六种网络模型(加、减、最大值、最小值、平均值、拼接),分别得到新的fc6层。此时固定卷积层的学习率,fc6的学习率设置为0.001,前两个全连接层学习率设置为0.0005。然后计算500个正样本在六种网络模型中的得分,选取得分最大的样本所在的结构作为该视频的融合结构,后续帧继续沿用此融合结构,初始化结束后,把前一帧的目标位置求均值,使用高斯分布采样,以(0.09r2,0.09r2,0.25)为协方差。产生256个候选样本,其中r为前一帧目标框的宽和高的平均值。
(2)将候选样本送入到特征提取网络,分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F,将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量,然后再和fc4_F进行通道维度的拼接,继续传入下一层的全连接层,在最后一层全连接层送入softmax函数得到二分类得分,分别记为f+(xi)(正样本得分)和f-(xi)(负样本得分),而下一帧的目标位置再由下式产生:其中,xi表示采样的第i个样本,x*为预测的目标位置。
(3)当目标的得分大于零时,判定为跟踪成功。在当前帧进行正负样本采样,包含50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3),把他们加入到正负样本数据集中。在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域,帧数个数若超过20个则抛弃最早的那些帧的负样本区域。当目标得分小于零时,即跟踪失败时将进行短期更新,从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003。
如图3所示,在线跟踪过程中会执行长期更新,每10帧进行一次长期更新,从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003。如不满足短期更新和长期更新的条件,则直接跟踪下一帧,模型不更新。
如图4所示,本发明展示的实验结果图,分别在公开的数据集GTOT和RGBT234上进行了测试,并将测试结果与其他的跟踪器在SR(成功率)和PR(准确度)上进行了评估。其中TFAS表示本发明的跟踪结果精度,可以很明显的看到相比于其他方法,其跟踪性能更好。
本发明的技术方案把神经结构搜索技术引入模态融合,使模态之间进一步实现优质的特征互补;离线搜索阶段离线搜索,在通用融合空间通过引入多域训练方式、使用渐进式结构搜索算法搜索通用的融合结构,使得融合结构更为鲁棒;在线跟踪阶段在线跟踪,在实例感知搜索空间根据视频的不同动态更新融合策略,以处理特定实例的挑战。
把神经结构搜索技术引入模态融合,可以避免手工设计所需要的大量重复实验、专家经验和科学直觉,使模态之间的融合自动化。
基于渐进式神经结构搜索算法实现通用融合网络的搜索,模态间不同层的融合往往具有不同的效果,通过渐进式神经结构搜索来实现在已有搜索空间中搜索一个最佳的融合结构,将多域训练引入搜索框架,使得搜索到的融合网络能够处理各种通用挑战。
引入实例感知搜索来应对跟踪过程中的各种挑战,每个视频都有各种各样的挑战,只使用一个固定的结构难以应对不同视频中的不同挑战,从实例感知的融合空间中,在线搜索每个视频序列的融合结构以应对特定于实例的挑战。
本实施例的两阶段搜索算法可以动态更新视频融合策略,从而为基于鲁棒实例表示的RGBT跟踪找到合适的融合网络结构,进一步提高跟踪性能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种基于两阶段融合结构搜索的RGBT视觉跟踪方法,其特征在于,包括以下步骤:
S1、离线搜索阶段,设计一个通用搜索空间,同时输入一对配准的多模态图像,通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法,离线搜索通用的融合网络结构,使用搜索到的通用的融合网络结构提取图像特征;
所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数:Tanh、ReLU、PReLU、LReLU、ReLU6;
所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成;
离线搜索阶段具体包括以下步骤:
(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数,全连接层是随机初始化的;特征提取器由三个卷积层和激活函数Relu组成,其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool,而卷积核大小分别为7*7*96、5*5*256、3*3*512;
(2)初始化融合层数L=1的候选结构描述,根据描述构造融合网络,使用多域方法将融合网络进行训练;
(3)使用人工标注好的可见光热红外数据集来训练整个网络,用K个视频来做训练,一共做N次循环,每次循环使用随机梯度法进行K次迭代;在第k次迭代,每个minibatch是从第个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的,同时更换对应视频序列的第/>个/>层;卷积层学习率设置为0.0001,全连接层的学习率设置为0.0002;保存模型,进行测试,得到网络真实的精度;
(4)用步骤(2)中的候选结构描述和对应的真实精度,使用随机梯度下降去训练一个模型预测器,学习率设置为0.001,迭代50次;
(5)依次扩展融合层数L=2...4,生成候选结构描述,通过预测器预测候选结构的精度,根据预测精度采样前G个结构描述,根据描述构造前G个融合网络,使用步骤(3)进行训练,然后进行测试,得到网络真实精度;再将这些结构描述和精度去更新预测器;
(6)最后得到一个最好的融合网络结构,保存该模型,用于在线跟踪阶段,在线跟踪阶段将其进行固定;
S2、在线跟踪阶段,将所述的通用的融合网络结构进行固定,在第一层全连接层处设计一个实例感知搜索空间,根据每个视频的第一帧来选择全连接层的融合网络结构,在后续帧的跟踪中继续使用这一融合网络结构;
所述的实例感知搜索空间的模态融合方式包括:加法、减法、取最大值、取最小值、取平均值和拼接;
在线跟踪阶段具体包括以下步骤:
(1)根据多模态视频序列中提供的一对第一帧真值框,抽取个正样本和/>个负样本作为训练样本,训练迭代次数设置为30次;使用这5500个样本分别初始化六种网络模型,分别得到新的/>层;此时固定卷积层的学习率,的学习率设置为0.001,前两个全连接层学习率设置为0.0005;然后计算500个正样本在六种网络模型中的得分,选取得分最大的样本所在的结构作为该视频的融合结构,后续帧继续沿用此融合结构,初始化结束后,把前一帧的目标位置求均值,使用高斯分布采样,以/>为协方差,产生256个候选样本,其中r为前一帧目标框的宽和高的平均值;
(2)将候选样本送入到特征提取网络,分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F,将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量,然后再和fc4_F进行通道维度的拼接,继续传入下一层的全连接层,在最后一层全连接层送入softmax函数得到二分类得分,分别记为和/>,而下一帧的目标位置再由下式产生:/>,其中,/>表示采样的第i个样本,/>为预测的目标位置;
(3)当目标的得分大于零时,判定为跟踪成功;在当前帧进行正负样本采样,包含50个正样本和200个负样本/>,把它们加入到正负样本数据集中;在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域,帧数个数若超过20个则抛弃最早的那些帧的负样本区域;当目标得分小于零时,即跟踪失败时将进行短期更新,从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003;
S3、把得到的图像特征在最后一个全连接层后送入softmax层,得到样本的得分,正样本中得分最高的就是预测的目标跟踪结果,并根据跟踪结果的成功与否判断是否更新融合网络结构。
2.根据权利要求1所述的一种基于两阶段融合结构搜索的RGBT视觉跟踪方法,其特征在于,步骤S3中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为:当目标的得分大于零时,判定为跟踪成功,当目标得分小于零时,判定为跟踪失败时,此时进行更新融合网络结构。
3.一种基于两阶段融合结构搜索的RGBT视觉跟踪系统,其特征在于,包括:
离线搜索模块,用于设计一个通用搜索空间,同时输入一对配准的多模态图像,通过使用多域学习的训练方式以及基于预测器的渐进式搜索方法,离线搜索通用的融合网络结构,使用搜索到的通用的融合网络结构提取图像特征;
所述的通用搜索空间包括VGG-M卷积层不同融合的方式以及五种激活函数:Tanh、ReLU、PReLU、LReLU、ReLU6;
所述的离线搜索通用的融合网络结构是由堆叠一系列的卷积层、非线性层和池化层所组成;
离线搜索阶段具体包括以下步骤:
(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数,全连接层是随机初始化的;特征提取器由三个卷积层和激活函数Relu组成,其中前两层有局部响应函数LRN以及最大值池化层函数MaxPool,而卷积核大小分别为7*7*96、5*5*256、3*3*512;
(2)初始化融合层数L=1的候选结构描述,根据描述构造融合网络,使用多域方法将融合网络进行训练;
(3)使用人工标注好的可见光热红外数据集来训练整个网络,用K个视频来做训练,一共做N次循环,每次循环使用随机梯度法进行K次迭代;在第k次迭代,每个minibatch是从第个视频序列中随机抽取八帧配对的可见光和热红外图片通过高斯分布采样生成的,同时更换对应视频序列的第/>个/>层;卷积层学习率设置为0.0001,全连接层的学习率设置为0.0002;保存模型,进行测试,得到网络真实的精度;
(4)用步骤(2)中的候选结构描述和对应的真实精度,使用随机梯度下降去训练一个模型预测器,学习率设置为0.001,迭代50次;
(5)依次扩展融合层数L=2...4,生成候选结构描述,通过预测器预测候选结构的精度,根据预测精度采样前G个结构描述,根据描述构造前G个融合网络,使用步骤(3)进行训练,然后进行测试,得到网络真实精度;再将这些结构描述和精度去更新预测器;
(6)最后得到一个最好的融合网络结构,保存该模型,用于在线跟踪阶段,在线跟踪阶段将其进行固定;
在线跟踪模块,用于将所述的通用的融合网络结构进行固定,在第一层全连接层处设计一个实例感知搜索空间,根据每个视频的第一帧来选择全连接层的融合网络结构,在后续帧的跟踪中继续使用这一融合网络结构;
所述的实例感知搜索空间的模态融合方式包括:加法、减法、取最大值、取最小值、取平均值和拼接;
在线跟踪阶段具体包括以下步骤:
(1)根据多模态视频序列中提供的一对第一帧真值框,抽取个正样本和/>个负样本作为训练样本,训练迭代次数设置为30次;使用这5500个样本分别初始化六种网络模型,分别得到新的/>层;此时固定卷积层的学习率,的学习率设置为0.001,前两个全连接层学习率设置为0.0005;然后计算500个正样本在六种网络模型中的得分,选取得分最大的样本所在的结构作为该视频的融合结构,后续帧继续沿用此融合结构,初始化结束后,把前一帧的目标位置求均值,使用高斯分布采样,以/>为协方差,产生256个候选样本,其中r为前一帧目标框的宽和高的平均值;
(2)将候选样本送入到特征提取网络,分别将最后一个卷积层不同模态的特征图和经过通用融合网络之后的特征图送入不同的全连接层fc4_R、fc4_T、fc4_F,将fc4_R和fc4_T按照上一个步骤选择的融合结构进行融合得到一个向量,然后再和fc4_F进行通道维度的拼接,继续传入下一层的全连接层,在最后一层全连接层送入softmax函数得到二分类得分,分别记为和/>,而下一帧的目标位置再由下式产生:/>,其中,/>表示采样的第i个样本,/>为预测的目标位置;
(3)当目标的得分大于零时,判定为跟踪成功;在当前帧进行正负样本采样,包含50个正样本和200个负样本/>,把它们加入到正负样本数据集中;在正负样本数据集中帧数超过100个则抛弃最早的那些帧的正样本区域,帧数个数若超过20个则抛弃最早的那些帧的负样本区域;当目标得分小于零时,即跟踪失败时将进行短期更新,从正负样本集中抽出32个正样本和96个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003;
判断更新模块,用于把得到的图像特征在最后一个全连接层后送入softmax层,得到样本的得分,正样本中得分最高的就是预测的目标跟踪结果,并根据跟踪结果的成功与否判断是否更新融合网络结构。
4.根据权利要求3所述的一种基于两阶段融合结构搜索的RGBT视觉跟踪系统,其特征在于,判断更新模块中所述的根据跟踪结果的成功与否判断是否更新融合网络结构的方法为:当目标的得分大于零时,判定为跟踪成功,当目标得分小于零时,判定为跟踪失败时,此时进行更新融合网络结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144930.0A CN113837296B (zh) | 2021-09-28 | 2021-09-28 | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111144930.0A CN113837296B (zh) | 2021-09-28 | 2021-09-28 | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837296A CN113837296A (zh) | 2021-12-24 |
CN113837296B true CN113837296B (zh) | 2024-05-31 |
Family
ID=78967108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111144930.0A Active CN113837296B (zh) | 2021-09-28 | 2021-09-28 | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837296B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180009180A (ko) * | 2016-07-18 | 2018-01-26 | 단국대학교 천안캠퍼스 산학협력단 | 모바일 환경 객체 신뢰도 평가와 학습을 통한 융합 객체 추적 시스템 및 방법 |
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
CN110728694A (zh) * | 2019-10-10 | 2020-01-24 | 北京工业大学 | 一种基于持续学习的长时视觉目标跟踪方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
CN111476823A (zh) * | 2020-05-09 | 2020-07-31 | 安徽大学 | 基于多挑战交互学习的实时rgbt跟踪方法及装置 |
CN112418203A (zh) * | 2020-11-11 | 2021-02-26 | 南京邮电大学 | 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法 |
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11055854B2 (en) * | 2018-08-23 | 2021-07-06 | Seoul National University R&Db Foundation | Method and system for real-time target tracking based on deep learning |
-
2021
- 2021-09-28 CN CN202111144930.0A patent/CN113837296B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180009180A (ko) * | 2016-07-18 | 2018-01-26 | 단국대학교 천안캠퍼스 산학협력단 | 모바일 환경 객체 신뢰도 평가와 학습을 통한 융합 객체 추적 시스템 및 방법 |
CN110570458A (zh) * | 2019-08-12 | 2019-12-13 | 武汉大学 | 一种基于内部裁剪和多层特征信息融合的目标跟踪方法 |
CN110728694A (zh) * | 2019-10-10 | 2020-01-24 | 北京工业大学 | 一种基于持续学习的长时视觉目标跟踪方法 |
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
CN111476823A (zh) * | 2020-05-09 | 2020-07-31 | 安徽大学 | 基于多挑战交互学习的实时rgbt跟踪方法及装置 |
CN112418203A (zh) * | 2020-11-11 | 2021-02-26 | 南京邮电大学 | 基于双线性汇合四流网络的鲁棒性rgb-t跟踪方法 |
CN112801182A (zh) * | 2021-01-27 | 2021-05-14 | 安徽大学 | 一种基于困难样本感知的rgbt目标跟踪方法 |
CN113077491A (zh) * | 2021-04-02 | 2021-07-06 | 安徽大学 | 基于跨模态共享和特定表示形式的rgbt目标跟踪方法 |
Non-Patent Citations (6)
Title |
---|
Object Tracking in RGB-T Videos Using Modal-Aware Attention Network and Competitive Learning;Hui Zhang;Physical Sensors;20191231;全文 * |
RGB-T目标跟踪综述;丁正彤;徐磊;张研;李飘扬;李阳阳;罗斌;涂铮铮;;南京信息工程大学学报(自然科学版);20191128(06);全文 * |
Weighted sparse representation regularized graph learning for RGB-T object tracking;C Li;Proceedings of the 25th ACM International conference on Multimedia 2017;20171231;全文 * |
一种基于多样性正实例的单目标跟踪算法;张博言;钟勇;;哈尔滨工业大学学报;20200925(10);全文 * |
基于可靠相关度的实时多模态目标跟踪方法;鲁玉龙;安徽大学学报(自然科学版);20191231;全文 * |
基于注意力机制的在线自适应孪生网络跟踪算法;董吉富;刘畅;曹方伟;凌源;高翔;;激光与光电子学进展;20200125(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837296A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Fast and accurate online video object segmentation via tracking parts | |
CN108256561B (zh) | 一种基于对抗学习的多源域适应迁移方法及系统 | |
Haeusser et al. | Associative domain adaptation | |
CN107909101B (zh) | 基于卷积神经网络的半监督迁移学习字符识别方法及系统 | |
CN110910391B (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN110782015A (zh) | 神经网络的网络结构优化器的训练方法、装置及存储介质 | |
CN111507378A (zh) | 训练图像处理模型的方法和装置 | |
Costea et al. | Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization | |
WO2022160772A1 (zh) | 一种基于视角引导多重对抗注意力的行人重识别方法 | |
CN110852447A (zh) | 元学习方法和装置、初始化方法、计算设备和存储介质 | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN112233124A (zh) | 基于对抗式学习与多模态学习的点云语义分割方法及系统 | |
CN110874590B (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
CN113936275A (zh) | 一种基于区域特征对齐的无监督域适应语义分割方法 | |
US10762389B2 (en) | Methods and systems of segmentation of a document | |
CN110349179B (zh) | 一种基于多适配器的可见光红外视觉跟踪方法及装置 | |
CN113435430B (zh) | 基于自适应时空纠缠的视频行为识别方法、系统、设备 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
CN114445461A (zh) | 基于非配对数据的可见光红外目标跟踪训练方法及装置 | |
CN112633100B (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN110210523B (zh) | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 | |
CN113837296B (zh) | 一种基于两阶段融合结构搜索的rgbt视觉跟踪方法及系统 | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |