CN114444597B - 基于渐进式融合网络的视觉跟踪方法及装置 - Google Patents
基于渐进式融合网络的视觉跟踪方法及装置 Download PDFInfo
- Publication number
- CN114444597B CN114444597B CN202210096431.7A CN202210096431A CN114444597B CN 114444597 B CN114444597 B CN 114444597B CN 202210096431 A CN202210096431 A CN 202210096431A CN 114444597 B CN114444597 B CN 114444597B
- Authority
- CN
- China
- Prior art keywords
- attribute
- fusion
- module
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 149
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000000750 progressive effect Effects 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 title claims abstract description 11
- 230000002776 aggregation Effects 0.000 claims abstract description 51
- 238000004220 aggregation Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008859 change Effects 0.000 description 6
- 238000005286 illumination Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- WNTGYJSOUMFZEP-UHFFFAOYSA-N 2-(4-chloro-2-methylphenoxy)propanoic acid Chemical compound OC(=O)C(C)OC1=CC=C(Cl)C=C1C WNTGYJSOUMFZEP-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于渐进式融合网络的视觉跟踪方法及装置,方法包括基于一对配准的多模态视频,获取候选样本;将候选样本送入主干网络,生成候选样本的特征图,主干网络包括三个卷积层,每个卷积层加入基于属性的渐进式融合模块,基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;将特征图按照通道维度进行拼接后送入全连接模块,得到目标位置。本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式,使用小规模的训练数据就能有效地训练,解决了对大规模数据的依赖的问题。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于渐进式融合网络的视觉跟踪方法及装置。
背景技术
目标跟踪旨在给定初始帧目标状态(位置和大小)的情况下,估计后续帧中指定目标的状态,是计算机视觉研究中的前沿和热点问题,在视频监控、智能交通和无人驾驶等领域中有着重要的应用价值。然而,在复杂场景环境条件下,常用的可见光成像质量急剧下降,甚至失效,导致目标跟踪性能低下,无法满足应用需求。现有工作一般通过引入其他模态相机(如热红外)克服可见光成像的弱点,极大了提升了恶劣环境下的跟踪性能,但由于复杂场景下多模态信息融合的困难,可见光热红外视觉(RGBT)跟踪仍然是一项具有挑战性的任务。
RGBT跟踪通常会受到各种挑战因素的影响,如热交叉、光照变化、尺度变化、遮挡和快速运动等挑战,目前的RGBT跟踪工作尝试研究各种融合模型以解决RGBT跟踪存在的各种挑战。有的工作在网络的每一层融合RGB和热红外的特征,并在所有层中聚合这些特征;或者在网络所有层中挖掘模态共享和模态特定信息。但是单一模型很难同时为所有挑战建模,此外还需要构建大规模的训练数据,严重的限制了RGBT跟踪器的性能。为了减轻模型设计和数据构建的负担,一些工作尝试对不同挑战下的目标进行建模,然后使用聚合模块自适应融合不同挑战下的目标表示,这些方法可以在训练数据不足的情况下通过少量参数来学习特定属性下的目标表示。但这些方法的融合方式过于简单,导致跟踪性能难以进一步提升。
相关技术中,申请号为202111261942.1的发明专利申请公开了一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统,通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习,以得到对应的局部语义信息,对局部语义信息进行聚合得到全局上下文相关信息;利用预训练后的特征融合网络模型,在模板分支中提取目标图像特征以及搜索区域目标图像特征,并引入到带有锚点的区域建议网络的分类分支与回归分支中;并分别进行深度互相关卷积计算以得到相似度得分;对最大相似度得分的目标候选块进行目标跟踪。可提高目标图像和搜索区域目标图像的全局匹配的准确性,实现更准确的跟踪。
但该融合模块设计只是设计了一个完整的融合结构来融合特征,其融合方式只是一个完整的模型,仍需要大规模的数据训练。
综上,现有的目标跟踪方法存在以下缺陷:
(1)现有方法针研究各种融合模型以同时解决RGBT跟踪中的所有挑战,导致融合模型过于复杂,或着构建大规模的训练数据去设计不同的融合策略,但由于现实世界场景中的挑战因素众多,因此性能仍然有限。
(2)对不同挑战属性下的目标外观进行建模,然后使用聚合模块将它们融合。这样,即使在训练数据不足的情况下,也可以通过少量参数来学习某些属性下的目标表示。但是融合方式过于简单,融合模型的容量可能因此受到限制并且跟踪性能会降低。
发明内容
本发明所要解决的技术问题在于如何在减少对大规模训练数据的依赖的同时,以少量参数增强融合能力。
本发明通过以下技术手段实现解决上述技术问题的:
一方面,本发明提出了一种基于渐进式融合网络的视觉跟踪方法,所述方法包括以下步骤:
基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置。
本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式,即属性融合阶段、属性聚合阶段和增强融合阶段,只需要少量的参数,使用小规模的训练数据就能有效地训练,这样就解决了对大规模数据的依赖;同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征,该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征;通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。有效减少了训练所需要的数据量,并且整体的网络参数也较少。
进一步地,所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合。
进一步地,所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入。
进一步地,所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
进一步地,所述全连接模块包括依次连接的三个全连接层,前两个所述全连接后加入神经元随机激活函数,最后一个所述全连接层包含softmax层。
进一步地,在所述将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置之后,还包括:
判断目标跟踪是否成功;
若否,则从训练数据集抽取正负样本,对所述全连接模块的参数进行微调;
若是,则跟踪下一帧。
进一步地,所述方法还包括:
在目标跟踪过程中,利用训练数据集中的样本对所述全连接模块的参数进行更新。
此外,本发明还提出了一种基于渐进式融合网络的视觉跟踪装置,所述装置包括:
获取模块,用于基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
增强模块,用于将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
跟踪模块,用于将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置。
进一步地,所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合。
进一步地,所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入;
所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
本发明的优点在于:
(1)本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式,即属性融合阶段、属性聚合阶段和增强融合阶段,只需要少量的参数,使用小规模的训练数据就能有效地训练,这样就解决了对大规模数据的依赖;同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征,该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征;通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。有效减少了训练所需要的数据量,并且整体的网络参数也较少。
(2)本发明涉及了5个挑战分支学习特定属性下的融合模式,包括热交叉(TC)、光照变化(IV)、尺度变化(SV)、遮挡(OCC)和快速运动(FM),对于每个特定属性的融合分支,因为每个分支只需要关注某个属性下的特征融合方式,所以模型只需少量的参数。
(3)设计了基于属性的聚合模块来有效地自适应聚合所有多个属性融合分支的特征,基于注意力机制对通道进行加权,可以通过基于注意力的加权有效地抑制来自未出现属性的噪声特征。
(4)增强融合模块使用三个分离的编码器对聚合融合分支输出的聚合特征和卷积层输出的两个特定于模态的特征进行自我增强;同时使用两个独立的解码器以交互方式进一步增强这些编码功能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明第一实施例中基于渐进式融合网络的视觉跟踪方法的流程图;
图2是本发明第一实施例中基于渐进式融合网络的视觉跟踪方法的整体流程图;
图3是本发明第一实施例中目标跟踪模型的网络结构图;
图4是本发明第二实施例中基于渐进式融合网络的视觉跟踪装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提出了一种基于渐进式融合网络的视觉跟踪方法,包括以下步骤:
S10、基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
S20、将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
S30、将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置。
本实施例通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式,即属性融合阶段、属性聚合阶段和增强融合阶段,只需要少量的参数,使用小规模的训练数据就能有效地训练,这样就解决了对大规模数据的依赖;同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征,该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征;通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。
在一实施例中,如图2所示,所述属性融合模块包括若干属性融合分支网络,每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合。
具体来说,特征提取网络借鉴了VGG-M的前三个卷积层作为主干网络的双流网络部分,用于分别提取可见光和热红外的特征,卷积核大小分别为7×7,5×5,3×3,主干网络的每一层均加入基于属性的渐进式融合模块。
属性融合模块包括5个特定属性的融合分支网络,5个特定属性的融合分支分别对应RGBT目标跟踪中的5种常见的挑战,包括热交叉、光照变化、尺度变化、遮挡和快速运动。每个分支只需要学习特定属性下的融合方式,首先使用属性特定分支(由卷积核大小为5×5的卷积层、激活函数ReLU层和卷积核大小为4×4的卷积层组成)从两种模态提取特征,然后使用简单的空间注意力机制来融合可见光和热红外的信息。每一个融合分支网络虽然结构相同,但通过使用特定挑战下的数据训练从而可以学习到不同的融合方式。
相关技术中,申请号为201510632255.4的发明专利申请中提出的挑战是目标尺度变换、光照变化和遮挡挑战,采用结合目标及图像上下文信息,以目标中心裁剪不同尺度的图像,与之前保存的尺度图像做对比,确定最终的目标边界框。申请号为201310361932.4的发明专利申请所提出的挑战是针对于运动所造成的目标发生光照或尺度变化,使用度量学习的方法区分目标和背景。
本实施例则是通过RGB图像和热红外图像,融合两种图像,提取两种图像中互补的信息去同时解决更多的挑战。通过设置对应目标跟踪中常见挑战设置特定属性的融合分支网络,每个融合分支只需要少量的参数,可以使用小规模的训练数据有效地训练,因为它只需要关注某个属性下的特征融合即可。
特别说明的是,本实施例中所需使用到的各个分支网络训练数据综总和是原小于传统模型训练的数据的,比如在GTOT本实施例只有50个序列,并且每一个序列中的所有帧都可以使用。但是本实施例的方法需要人手工标注到帧级别来选取挑战,也就是说一个包含挑战的序列,只能从中选取对应的具有挑战帧片段来训练对应的分支。举例说明:别的模型训练需要全部的50个序列的所有帧数据。而光照变化只有8个左右的序列存在这种挑战,本实施例还要从这8个序列中选取对应的挑战帧片段来训练。每一个都做类似的处理,所以每一个分支训练的数据实际使用的数据量总和时小于整个数据集的。
在一实施例中,所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入。
具体地来说,5个特定属性的融合分支网络的输出特征经过属性聚合模块通过注意力机制生成通道权重,然后对五个分支特征进行加权求和,获得更鲁棒的聚合特征。
需要说明的是,5个属性融合分支网络和属性聚合模块使用的注意力机制均由一个全局最大池化层GAP和两个全连接层FC串联实现。
其中,属性融合分支的具体操作为:RGB特征输入一支,T特征输入一支,将两者特征加在一起之后进行全局平均池化操作后,再将过两个FC层做非线性变换。之后进过chunk函数一分为二,表示对应模态的权重(每个通道的权重相加为1)。最后需要将原来两个模态的特征和对应的模态权重分别和对应的通道权重相乘,最后将加权后的两个模态相加即可得到融合之后的特征。属性聚合模块也是相似处理,这里将权重chunk成为5份,表示每个挑战的权重。
因为属性标注仅在训练阶段使用,在测试阶段不用,因此不知道在跟踪过程中并不知道遇到了哪些挑战,为了解决这个问题,本实施例设计了基于属性的聚合模块来有效地自适应聚合所有多个属性融合分支的特征,基于注意力机制对通道进行加权,有效地抑制来自未出现属性的噪声特征。
在一实施例中,所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
进一步地来说,增强融合模块包括三个编码器和两个解码器,热红外图像经卷积层输入至第一编码器,第一编码器的输出与第一解码器连接,第二编码器的输入为所述聚合特征、输出分别与第一解码器和第二解码器连接,可见光图像经卷积层输入至第三编码器,第三编码器的输出与第二解码器的输入连接,第一解码器的输出经卷积层与主干网络中下一卷积层中的基于属性的渐进式融合模块连接,第二解码器的输出经卷积层与主干网络中下一卷积层中的基于属性的渐进式融合模块连接,且第一解码器和第二解码器的输出分别直接与主干网络中下一卷积层中的基于属性的渐进式融合模块连接;主干网络的最后一卷积层中的基于属性的渐进式融合模块将获得的聚合特征和之前的两个模态图像特征一起输入到增强融合模块。
需要说明的是,通过使用编码器结构中的自注意力机制对双流网络提取的模态特定特征和聚合特征进行自增强之后,使用解码器结构中的交叉注意力对模态特定特征和聚合特征进行融合交互,得到增强后的两个模态候选样本特征图传入下一层主干网络。
由于仅使用单个编码器和单个解码器来建模模板和搜索帧之间的关系,无法实现多重自我增强和交互增强,本实施例使用三个分离的编码器对聚合融合分支输出的聚合特征和卷积层输出的两个特定于模态的特征进行自我增强。同时使用两个独立的解码器以交互方式进一步增强这些编码功能
在一实施例中,所述全连接模块包括依次连接的三个全连接层,前两个所述全连接后加入神经元随机激活函数,最后一个所述全连接层包含softmax层。
需要说明的是,三个全连接层的大小分别为(512*3*3*2,512),(512,512),(512,2)的全连接层中,其中前两个全连接层fc4、fc5后面加入了Dropout(神经元随机激活)的正则化方法来降低过拟合的风险,最后一个大小为2的全连接层fc6是含有softmax层对每个候选样本特征计算其正负得分:f+(xi)和f-(xi)。
具体来说,后续帧以前一帧预测结果的中心点为均值进行高斯分布采样,以(0.09r2,0.09r2,0.25)为协方差,产生256个候选样本,其中r为前一帧目标宽和高的平均值,最后由下式得到正样本的目标位置,然后取样本得分中最高的5个得分,将这5个得分最高的候选框平均一下作为当前帧的跟踪结果:
其中,xi表示采样的第i个样本,f+(xi)表示获取的正样本得分,表示获f-(xi)取的负样本得分,x*为正样本的目标位置。
在一实施例中,如图3所示,在所述步骤S30之后,所述方法还包括以下步骤:
判断目标跟踪是否成功;
需要说明的是,当目标的得分大于零时,判定为跟踪成功。在当前帧进行正负样本采样,包含50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3),把他们加入到正负样本更新队列中。在正负样本数据集中帧数超过100个则丢弃最早的那些帧的正样本,帧数个数若超过20个则丢弃最早的那些帧的负样本。当目标得分小于零时,即跟踪失败时立即更新网络(短期更新),从正负样本集中抽出20个正样本和100个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003。
若否,则从训练数据集抽取正负样本,对所述全连接模块的参数进行微调;
若是,则跟踪下一帧。
需要说明的是,跟踪器跟踪一旦失败,则认为跟踪器的性能可能受到影响(这个可能是因为跟踪的目标的外观发生了变化),因此需要短期更新来及时适应跟踪目标的变化。
需要说明的是,根据多模态视频序列中提供的一对第一帧真值框,我们抽取S+=500(IOU≥0.7)个正样本和S-=5000(IOU≤0.5)个负样本作为训练样本,训练迭代次数设置为30次。使用这5500个样本初始化网络模型,得到新的fc6层。此时固定卷积层的学习率,fc6的学习率设置为0.0005,前两个全连接层学习率设置为0.001。并且在第一帧的时候采集1000个样本构成训练样本集来训练回归器,这个用作之后对跟踪结果进行微调。初始化的训练结束后,把前一帧的目标位置求均值,使用高斯分布采样,以(0.09r2,0.09r2,0.25)为协方差。产生256个候选样本,其中:r为前一帧目标框的宽和高的平均值。
在一实施例中,所述方法还包括:
在目标跟踪过程中,利用训练数据集中的样本对所述全连接模块的参数进行更新。
需要说明的是,在线跟踪过程中,会执行长期更新,每10帧进行一次长期更新,从正负样本集中抽出200个正样本和100个负样本微调全连接层的参数,迭代10次,学习率设置为0.00003。
本实施例中,认为跟踪的过程中即使没有跟踪失败(也就不会进行短期更新),经过较长的时间,跟踪目标或多或少会发生一些变化,因此第一帧在线训练的分类器可能就不会较好的适应这些变化,因此需要进过一定的时间间隔来更新跟踪器来更好的适应这种变化。
应当说明的是,如不满足短期更新和长期更新的条件,则直接跟踪下一帧,模型不更新,其中,短期更新的条件是:在跟踪器跟踪失败时进行,也就是网络输出的得分小于0;长期更新的条件是:每隔一定的时间间隔一定进行更新本实施例中设置为每隔10帧进行。
在一实施例中,所述方法还包括对目标跟踪模型进行训练,具体包括以下步骤:
(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数,全连接层是随机初始化的。特征提取器有三个卷积层和激活函数ReLU组成,其中前两层有局部响应归一化函数LRN以及最大值池化函数MaxPool,而卷积核大小分别为7*7*96、5*5*256、3*3*512。
(2)在每一层都加入APF模块,特定属性融合分支先用设计的卷积层提取特定属性下的特征,然后使用通道注意力机制对特征进行加权求和,特定属性融合后的各分支特征经过聚合融合部分,通过注意力机制进行有效特征的自适应选择(特定属性融合分支和聚合融合分支使用的注意力机制均由一个全局平均最大池化层和两个全连接层串联实现),最后聚合后的特征和之前提取的两个模态特征输入到增强聚合Transformer部分,使用三个编码器和两个解码器进行自增强和交互融合。
(3)使用三阶段训练方法来有效地训练网络,第一阶段只在主干网络的基础网络上逐个添加每一个属性融合分支,只使用具有特定属性的训练数据去训练特定属性融合分支,每一个分支的学习率设置为0.001,并训练fc6,学习率为0.0005,训练迭代次数为200。这个阶段只保存属性融合分支的参数。
(4)第二阶段添加所有的属性融合分支,并且固定先前训练好的属性融合分支参数,使用所有训练数据训练聚合模块。随机初始化聚合模块和fc6的参数,并将学习率分别设置为0.001和0.0005。这一阶段保存所有聚合模块的参数以及fc4,fc5的参数。
(5)固定前两个阶段的参数,使用所有训练数据训练增强融合Transformer部分。随机初始化增强融合Transformer部分和全连接层fc6的参数,并将学习率分别设置为0.001和0.0005。这一阶段微调整体网络,并且设置其他模块的学习率为0.0001。
(6)最后保存该模型,用于在线跟踪阶段。
本实施例分别采用本方案跟踪模型和现有的一些跟踪器在公开的数据集LasHeR和RGBT234上进行了测试,并将测试结果与其他的跟踪器在SR(成功率)和PR(准确率)上进行了评估,结果如表1和表2所示:
表1本发明方法和一些现有方法在RGBT234数据集上的实验结果
方法 | PR | SR |
SiamDW+RGBT | 0.604 | 0.397 |
ECO | 0.702 | 0.514 |
CMR | 0.711 | 0.486 |
SGT | 0.720 | 0.472 |
MDNet+RGBT | 0.722 | 0.495 |
MACNet | 0.764 | 0.532 |
DAPNet | 0.766 | 0.537 |
MANet | 0.777 | 0.539 |
mfDiMP | 0.785 | 0.559 |
FANet | 0.787 | 0.553 |
JMMAC | 0.790 | 0.573 |
DAFNet | 0.796 | 0.544 |
CAT | 0.804 | 0.561 |
CMPP | 0.823 | 0.575 |
Ours(APFNet) | 0.827 | 0.579 |
表2本发明方法和一些现有方法在LasHeR数据集上的实验结果
方法 | PR | SR |
SGT | 0.327 | 0.232 |
CMR | 0.352 | 0.257 |
SGT++ | 0.365 | 0.251 |
DAPNet | 0.431 | 0.314 |
FANet | 0.441 | 0.309 |
mfDiMP | 0.447 | 0.343 |
DAFNet | 0.448 | 0.311 |
CAT | 0.450 | 0.314 |
MANet | 0.455 | 0.326 |
MANet++ | 0.467 | 0.314 |
MaCNet | 0.482 | 0.350 |
Ours(APFNet) | 0.500 | 0.362 |
其中,APFNet表示本发明的跟踪结果精度,本发明方法在LasHeR的PR精度值为0.500,SR精度值为0.362;本发明方法是在RGBT234的PR精度值为0.827,SR精度值为0.579,可以很明显的看到相比于其他方法,其跟踪性能取得了不错的成绩。
此外,如图4所示,本发明实施例还提出了一种基于渐进式融合网络的视觉跟踪装置,所述装置包括:
获取模块10,用于基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
增强模块20,用于将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
跟踪模块30,用于将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置。
进一步地,所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合。
进一步地,所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入;
所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
需要说明的是,本发明实施例所述基于渐进式融合网络的视觉跟踪装置的其他实施例或具有实现方法可参照上述各方法实施例,此处不再赘余。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (5)
1.一种基于渐进式融合网络的视觉跟踪方法,其特征在于,所述方法包括:
基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置;
所述属性融合模块包括若干属性融合分支网络,每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合;
所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入;
所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
2.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法,其特征在于,所述全连接模块包括依次连接的三个全连接层,前两个所述全连接后加入神经元随机激活函数,最后一个所述全连接层包含softmax层。
3.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法,其特征在于,在所述将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置之后,还包括:
判断目标跟踪是否成功;
若否,则从训练数据集抽取正负样本,对所述全连接模块的参数进行微调;
若是,则跟踪下一帧。
4.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法,其特征在于,所述方法还包括:
在目标跟踪过程中,利用训练数据集中的样本对所述全连接模块的参数进行更新。
5.一种基于渐进式融合网络的视觉跟踪装置,其特征在于,所述装置包括:
获取模块,用于基于一对配准的多模态视频,获取候选样本,所述候选样本包括可见光图像和热红外图像;
增强模块,用于将所述候选样本送入主干网络,生成所述候选样本的特征图,其中,所述主干网络包括三个卷积层,每个所述卷积层加入基于属性的渐进式融合模块,所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块;
跟踪模块,用于将所述特征图按照通道维度进行拼接后送入全连接模块,得到目标位置;
所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络;
所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征;
所述注意力网络用于对所述候选样本的特征进行融合;
所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重,并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征,所述聚合特征作为所述增强融合模块的输入;
所述增强融合模块包括编码器和解码器,其中:
所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强,所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征;
所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互,得到增强后的所述候选样本的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096431.7A CN114444597B (zh) | 2022-01-26 | 2022-01-26 | 基于渐进式融合网络的视觉跟踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210096431.7A CN114444597B (zh) | 2022-01-26 | 2022-01-26 | 基于渐进式融合网络的视觉跟踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444597A CN114444597A (zh) | 2022-05-06 |
CN114444597B true CN114444597B (zh) | 2024-03-15 |
Family
ID=81370240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210096431.7A Active CN114444597B (zh) | 2022-01-26 | 2022-01-26 | 基于渐进式融合网络的视觉跟踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444597B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
-
2022
- 2022-01-26 CN CN202210096431.7A patent/CN114444597B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929848A (zh) * | 2019-11-18 | 2020-03-27 | 安徽大学 | 基于多挑战感知学习模型的训练、跟踪方法 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
Also Published As
Publication number | Publication date |
---|---|
CN114444597A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mukhoti et al. | Evaluating bayesian deep learning methods for semantic segmentation | |
CN112651995B (zh) | 基于多功能聚合和跟踪模拟训练的在线多目标跟踪方法 | |
US20150325046A1 (en) | Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations | |
JP2022526513A (ja) | ビデオフレームの情報ラベリング方法、装置、機器及びコンピュータプログラム | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN113409361B (zh) | 一种多目标跟踪方法、装置、计算机及存储介质 | |
CN111696110B (zh) | 场景分割方法及系统 | |
Feng et al. | Learning reliable modal weight with transformer for robust RGBT tracking | |
Xing et al. | Traffic sign recognition using guided image filtering | |
CN114332166A (zh) | 基于模态竞争协同网络的可见光红外目标跟踪方法及装置 | |
CN114445461A (zh) | 基于非配对数据的可见光红外目标跟踪训练方法及装置 | |
Fan et al. | MP-LN: motion state prediction and localization network for visual object tracking | |
Lv et al. | Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle | |
CN116861262B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
Duan | [Retracted] Deep Learning‐Based Multitarget Motion Shadow Rejection and Accurate Tracking for Sports Video | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
CN114444597B (zh) | 基于渐进式融合网络的视觉跟踪方法及装置 | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
CN115953430A (zh) | 基于改进的批量样本损失函数的视频单目标跟踪方法及系统 | |
CN115630361A (zh) | 一种基于注意力蒸馏的联邦学习后门防御方法 | |
Cao et al. | Separable-programming based probabilistic-iteration and restriction-resolving correlation filter for robust real-time visual tracking | |
CN113095328A (zh) | 一种基尼指数引导的基于自训练的语义分割方法 | |
Tian et al. | Lightweight dual-task networks for crowd counting in aerial images | |
CN113362372B (zh) | 一种单目标追踪方法及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |