CN114444597B

CN114444597B - 基于渐进式融合网络的视觉跟踪方法及装置

Info

Publication number: CN114444597B
Application number: CN202210096431.7A
Authority: CN
Inventors: 汤进; 孙浩强; 杨蒙蒙; 刘磊; 李成龙; 肖云
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2024-03-15
Anticipated expiration: 2042-01-26
Also published as: CN114444597A

Abstract

本发明公开一种基于渐进式融合网络的视觉跟踪方法及装置，方法包括基于一对配准的多模态视频，获取候选样本；将候选样本送入主干网络，生成候选样本的特征图，主干网络包括三个卷积层，每个卷积层加入基于属性的渐进式融合模块，基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块；将特征图按照通道维度进行拼接后送入全连接模块，得到目标位置。本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式，使用小规模的训练数据就能有效地训练，解决了对大规模数据的依赖的问题。

Description

基于渐进式融合网络的视觉跟踪方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于渐进式融合网络的视觉跟踪方法及装置。

背景技术

目标跟踪旨在给定初始帧目标状态(位置和大小)的情况下，估计后续帧中指定目标的状态，是计算机视觉研究中的前沿和热点问题，在视频监控、智能交通和无人驾驶等领域中有着重要的应用价值。然而，在复杂场景环境条件下，常用的可见光成像质量急剧下降，甚至失效，导致目标跟踪性能低下，无法满足应用需求。现有工作一般通过引入其他模态相机(如热红外)克服可见光成像的弱点，极大了提升了恶劣环境下的跟踪性能，但由于复杂场景下多模态信息融合的困难，可见光热红外视觉(RGBT)跟踪仍然是一项具有挑战性的任务。

RGBT跟踪通常会受到各种挑战因素的影响，如热交叉、光照变化、尺度变化、遮挡和快速运动等挑战，目前的RGBT跟踪工作尝试研究各种融合模型以解决RGBT跟踪存在的各种挑战。有的工作在网络的每一层融合RGB和热红外的特征，并在所有层中聚合这些特征；或者在网络所有层中挖掘模态共享和模态特定信息。但是单一模型很难同时为所有挑战建模，此外还需要构建大规模的训练数据，严重的限制了RGBT跟踪器的性能。为了减轻模型设计和数据构建的负担，一些工作尝试对不同挑战下的目标进行建模，然后使用聚合模块自适应融合不同挑战下的目标表示，这些方法可以在训练数据不足的情况下通过少量参数来学习特定属性下的目标表示。但这些方法的融合方式过于简单，导致跟踪性能难以进一步提升。

相关技术中，申请号为202111261942.1的发明专利申请公开了一种基于卷积自注意力模块的孪生网络目标跟踪方法与系统，通过卷积神经网络模型对模板分支上的目标图像特征以及搜索区域目标图像特征中的局部区域进行学习，以得到对应的局部语义信息，对局部语义信息进行聚合得到全局上下文相关信息；利用预训练后的特征融合网络模型，在模板分支中提取目标图像特征以及搜索区域目标图像特征，并引入到带有锚点的区域建议网络的分类分支与回归分支中；并分别进行深度互相关卷积计算以得到相似度得分；对最大相似度得分的目标候选块进行目标跟踪。可提高目标图像和搜索区域目标图像的全局匹配的准确性，实现更准确的跟踪。

但该融合模块设计只是设计了一个完整的融合结构来融合特征，其融合方式只是一个完整的模型，仍需要大规模的数据训练。

综上，现有的目标跟踪方法存在以下缺陷：

(1)现有方法针研究各种融合模型以同时解决RGBT跟踪中的所有挑战，导致融合模型过于复杂，或着构建大规模的训练数据去设计不同的融合策略，但由于现实世界场景中的挑战因素众多，因此性能仍然有限。

(2)对不同挑战属性下的目标外观进行建模，然后使用聚合模块将它们融合。这样，即使在训练数据不足的情况下，也可以通过少量参数来学习某些属性下的目标表示。但是融合方式过于简单，融合模型的容量可能因此受到限制并且跟踪性能会降低。

发明内容

本发明所要解决的技术问题在于如何在减少对大规模训练数据的依赖的同时，以少量参数增强融合能力。

本发明通过以下技术手段实现解决上述技术问题的：

一方面，本发明提出了一种基于渐进式融合网络的视觉跟踪方法，所述方法包括以下步骤：

基于一对配准的多模态视频，获取候选样本，所述候选样本包括可见光图像和热红外图像；

将所述候选样本送入主干网络，生成所述候选样本的特征图，其中，所述主干网络包括三个卷积层，每个所述卷积层加入基于属性的渐进式融合模块，所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块；

将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置。

本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式，即属性融合阶段、属性聚合阶段和增强融合阶段，只需要少量的参数，使用小规模的训练数据就能有效地训练，这样就解决了对大规模数据的依赖；同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征，该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征；通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。有效减少了训练所需要的数据量，并且整体的网络参数也较少。

进一步地，所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络；

所述特征提取网络用于采用所对应属性的提取方式提取所述候选样本的特征；

所述注意力网络用于对所述候选样本的特征进行融合。

进一步地，所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重，并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征，所述聚合特征作为所述增强融合模块的输入。

进一步地，所述增强融合模块包括编码器和解码器，其中：

所述编码器用于采用自注意力机制对模态特定特征和所述聚合特征进行自增强，所述模态特定特征包括所述可见光图像的特征和所述热红外图像的特征；

所述解码器用于采用交叉注意力机制对所述模态特定特征和所述聚合特征进行融合交互，得到增强后的所述候选样本的特征图。

进一步地，所述全连接模块包括依次连接的三个全连接层，前两个所述全连接后加入神经元随机激活函数，最后一个所述全连接层包含softmax层。

进一步地，在所述将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置之后，还包括：

判断目标跟踪是否成功；

若否，则从训练数据集抽取正负样本，对所述全连接模块的参数进行微调；

若是，则跟踪下一帧。

进一步地，所述方法还包括：

在目标跟踪过程中，利用训练数据集中的样本对所述全连接模块的参数进行更新。

此外，本发明还提出了一种基于渐进式融合网络的视觉跟踪装置，所述装置包括：

获取模块，用于基于一对配准的多模态视频，获取候选样本，所述候选样本包括可见光图像和热红外图像；

增强模块，用于将所述候选样本送入主干网络，生成所述候选样本的特征图，其中，所述主干网络包括三个卷积层，每个所述卷积层加入基于属性的渐进式融合模块，所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块；

跟踪模块，用于将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置。

所述注意力网络用于对所述候选样本的特征进行融合。

进一步地，所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重，并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征，所述聚合特征作为所述增强融合模块的输入；

所述增强融合模块包括编码器和解码器，其中：

本发明的优点在于：

(1)本发明通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式，即属性融合阶段、属性聚合阶段和增强融合阶段，只需要少量的参数，使用小规模的训练数据就能有效地训练，这样就解决了对大规模数据的依赖；同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征，该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征；通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。有效减少了训练所需要的数据量，并且整体的网络参数也较少。

(2)本发明涉及了5个挑战分支学习特定属性下的融合模式，包括热交叉(TC)、光照变化(IV)、尺度变化(SV)、遮挡(OCC)和快速运动(FM)，对于每个特定属性的融合分支，因为每个分支只需要关注某个属性下的特征融合方式，所以模型只需少量的参数。

(3)设计了基于属性的聚合模块来有效地自适应聚合所有多个属性融合分支的特征，基于注意力机制对通道进行加权，可以通过基于注意力的加权有效地抑制来自未出现属性的噪声特征。

(4)增强融合模块使用三个分离的编码器对聚合融合分支输出的聚合特征和卷积层输出的两个特定于模态的特征进行自我增强；同时使用两个独立的解码器以交互方式进一步增强这些编码功能。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明第一实施例中基于渐进式融合网络的视觉跟踪方法的流程图；

图2是本发明第一实施例中基于渐进式融合网络的视觉跟踪方法的整体流程图；

图3是本发明第一实施例中目标跟踪模型的网络结构图；

图4是本发明第二实施例中基于渐进式融合网络的视觉跟踪装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提出了一种基于渐进式融合网络的视觉跟踪方法，包括以下步骤：

S10、基于一对配准的多模态视频，获取候选样本，所述候选样本包括可见光图像和热红外图像；

S20、将所述候选样本送入主干网络，生成所述候选样本的特征图，其中，所述主干网络包括三个卷积层，每个所述卷积层加入基于属性的渐进式融合模块，所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块；

S30、将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置。

本实施例通过将单个融合步骤给分离为一种三阶段的渐进式的融合方式，即属性融合阶段、属性聚合阶段和增强融合阶段，只需要少量的参数，使用小规模的训练数据就能有效地训练，这样就解决了对大规模数据的依赖；同时通过属性聚合阶段来自适应地聚合属性融合阶段得到的特征，该模型可以通过基于注意力的加权有效地抑制未出现的属性的噪声特征；通过增强融合阶段来分别增强聚合特征和模态特定特征并且融合它们。

在一实施例中，如图2所示，所述属性融合模块包括若干属性融合分支网络，每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络；

所述注意力网络用于对所述候选样本的特征进行融合。

具体来说，特征提取网络借鉴了VGG-M的前三个卷积层作为主干网络的双流网络部分，用于分别提取可见光和热红外的特征，卷积核大小分别为7×7，5×5，3×3，主干网络的每一层均加入基于属性的渐进式融合模块。

属性融合模块包括5个特定属性的融合分支网络，5个特定属性的融合分支分别对应RGBT目标跟踪中的5种常见的挑战，包括热交叉、光照变化、尺度变化、遮挡和快速运动。每个分支只需要学习特定属性下的融合方式，首先使用属性特定分支(由卷积核大小为5×5的卷积层、激活函数ReLU层和卷积核大小为4×4的卷积层组成)从两种模态提取特征，然后使用简单的空间注意力机制来融合可见光和热红外的信息。每一个融合分支网络虽然结构相同，但通过使用特定挑战下的数据训练从而可以学习到不同的融合方式。

相关技术中，申请号为201510632255.4的发明专利申请中提出的挑战是目标尺度变换、光照变化和遮挡挑战，采用结合目标及图像上下文信息，以目标中心裁剪不同尺度的图像，与之前保存的尺度图像做对比，确定最终的目标边界框。申请号为201310361932.4的发明专利申请所提出的挑战是针对于运动所造成的目标发生光照或尺度变化，使用度量学习的方法区分目标和背景。

本实施例则是通过RGB图像和热红外图像，融合两种图像，提取两种图像中互补的信息去同时解决更多的挑战。通过设置对应目标跟踪中常见挑战设置特定属性的融合分支网络，每个融合分支只需要少量的参数，可以使用小规模的训练数据有效地训练，因为它只需要关注某个属性下的特征融合即可。

特别说明的是，本实施例中所需使用到的各个分支网络训练数据综总和是原小于传统模型训练的数据的，比如在GTOT本实施例只有50个序列，并且每一个序列中的所有帧都可以使用。但是本实施例的方法需要人手工标注到帧级别来选取挑战，也就是说一个包含挑战的序列，只能从中选取对应的具有挑战帧片段来训练对应的分支。举例说明：别的模型训练需要全部的50个序列的所有帧数据。而光照变化只有8个左右的序列存在这种挑战，本实施例还要从这8个序列中选取对应的挑战帧片段来训练。每一个都做类似的处理，所以每一个分支训练的数据实际使用的数据量总和时小于整个数据集的。

在一实施例中，所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重，并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征，所述聚合特征作为所述增强融合模块的输入。

具体地来说，5个特定属性的融合分支网络的输出特征经过属性聚合模块通过注意力机制生成通道权重，然后对五个分支特征进行加权求和，获得更鲁棒的聚合特征。

需要说明的是，5个属性融合分支网络和属性聚合模块使用的注意力机制均由一个全局最大池化层GAP和两个全连接层FC串联实现。

其中，属性融合分支的具体操作为：RGB特征输入一支，T特征输入一支，将两者特征加在一起之后进行全局平均池化操作后，再将过两个FC层做非线性变换。之后进过chunk函数一分为二，表示对应模态的权重(每个通道的权重相加为1)。最后需要将原来两个模态的特征和对应的模态权重分别和对应的通道权重相乘，最后将加权后的两个模态相加即可得到融合之后的特征。属性聚合模块也是相似处理，这里将权重chunk成为5份，表示每个挑战的权重。

因为属性标注仅在训练阶段使用，在测试阶段不用，因此不知道在跟踪过程中并不知道遇到了哪些挑战，为了解决这个问题，本实施例设计了基于属性的聚合模块来有效地自适应聚合所有多个属性融合分支的特征，基于注意力机制对通道进行加权，有效地抑制来自未出现属性的噪声特征。

在一实施例中，所述增强融合模块包括编码器和解码器，其中：

进一步地来说，增强融合模块包括三个编码器和两个解码器，热红外图像经卷积层输入至第一编码器，第一编码器的输出与第一解码器连接，第二编码器的输入为所述聚合特征、输出分别与第一解码器和第二解码器连接，可见光图像经卷积层输入至第三编码器，第三编码器的输出与第二解码器的输入连接，第一解码器的输出经卷积层与主干网络中下一卷积层中的基于属性的渐进式融合模块连接，第二解码器的输出经卷积层与主干网络中下一卷积层中的基于属性的渐进式融合模块连接，且第一解码器和第二解码器的输出分别直接与主干网络中下一卷积层中的基于属性的渐进式融合模块连接；主干网络的最后一卷积层中的基于属性的渐进式融合模块将获得的聚合特征和之前的两个模态图像特征一起输入到增强融合模块。

需要说明的是，通过使用编码器结构中的自注意力机制对双流网络提取的模态特定特征和聚合特征进行自增强之后，使用解码器结构中的交叉注意力对模态特定特征和聚合特征进行融合交互，得到增强后的两个模态候选样本特征图传入下一层主干网络。

由于仅使用单个编码器和单个解码器来建模模板和搜索帧之间的关系，无法实现多重自我增强和交互增强，本实施例使用三个分离的编码器对聚合融合分支输出的聚合特征和卷积层输出的两个特定于模态的特征进行自我增强。同时使用两个独立的解码器以交互方式进一步增强这些编码功能

在一实施例中，所述全连接模块包括依次连接的三个全连接层，前两个所述全连接后加入神经元随机激活函数，最后一个所述全连接层包含softmax层。

需要说明的是，三个全连接层的大小分别为(512*3*3*2，512)，(512，512)，(512，2)的全连接层中，其中前两个全连接层fc4、fc5后面加入了Dropout(神经元随机激活)的正则化方法来降低过拟合的风险，最后一个大小为2的全连接层fc6是含有softmax层对每个候选样本特征计算其正负得分：f⁺(xⁱ)和f^-(xⁱ)。

具体来说，后续帧以前一帧预测结果的中心点为均值进行高斯分布采样，以(0.09r2,0.09r2,0.25)为协方差，产生256个候选样本，其中r为前一帧目标宽和高的平均值，最后由下式得到正样本的目标位置，然后取样本得分中最高的5个得分，将这5个得分最高的候选框平均一下作为当前帧的跟踪结果：

其中，xⁱ表示采样的第i个样本，f⁺(xⁱ)表示获取的正样本得分，表示获f^-(xⁱ)取的负样本得分，x^*为正样本的目标位置。

在一实施例中，如图3所示，在所述步骤S30之后，所述方法还包括以下步骤：

判断目标跟踪是否成功；

需要说明的是，当目标的得分大于零时，判定为跟踪成功。在当前帧进行正负样本采样，包含50个正样本(IOU≥0.6)和200个负样本(IOU≤0.3)，把他们加入到正负样本更新队列中。在正负样本数据集中帧数超过100个则丢弃最早的那些帧的正样本，帧数个数若超过20个则丢弃最早的那些帧的负样本。当目标得分小于零时，即跟踪失败时立即更新网络(短期更新)，从正负样本集中抽出20个正样本和100个负样本微调全连接层的参数，迭代10次，学习率设置为0.00003。

若是，则跟踪下一帧。

需要说明的是，跟踪器跟踪一旦失败，则认为跟踪器的性能可能受到影响(这个可能是因为跟踪的目标的外观发生了变化)，因此需要短期更新来及时适应跟踪目标的变化。

需要说明的是，根据多模态视频序列中提供的一对第一帧真值框，我们抽取S₊＝500(IOU≥0.7)个正样本和S-＝5000(IOU≤0.5)个负样本作为训练样本，训练迭代次数设置为30次。使用这5500个样本初始化网络模型，得到新的fc6层。此时固定卷积层的学习率，fc6的学习率设置为0.0005，前两个全连接层学习率设置为0.001。并且在第一帧的时候采集1000个样本构成训练样本集来训练回归器，这个用作之后对跟踪结果进行微调。初始化的训练结束后，把前一帧的目标位置求均值，使用高斯分布采样，以(0.09r²,0.09r²,0.25)为协方差。产生256个候选样本，其中：r为前一帧目标框的宽和高的平均值。

在一实施例中，所述方法还包括：

需要说明的是，在线跟踪过程中，会执行长期更新，每10帧进行一次长期更新，从正负样本集中抽出200个正样本和100个负样本微调全连接层的参数，迭代10次，学习率设置为0.00003。

本实施例中，认为跟踪的过程中即使没有跟踪失败(也就不会进行短期更新)，经过较长的时间，跟踪目标或多或少会发生一些变化，因此第一帧在线训练的分类器可能就不会较好的适应这些变化，因此需要进过一定的时间间隔来更新跟踪器来更好的适应这种变化。

应当说明的是，如不满足短期更新和长期更新的条件，则直接跟踪下一帧，模型不更新，其中，短期更新的条件是：在跟踪器跟踪失败时进行，也就是网络输出的得分小于0；长期更新的条件是：每隔一定的时间间隔一定进行更新本实施例中设置为每隔10帧进行。

在一实施例中，所述方法还包括对目标跟踪模型进行训练，具体包括以下步骤：

(1)首先使用VGG-M的预训练模型的前三层初始化特征提取器的参数，全连接层是随机初始化的。特征提取器有三个卷积层和激活函数ReLU组成，其中前两层有局部响应归一化函数LRN以及最大值池化函数MaxPool，而卷积核大小分别为7*7*96、5*5*256、3*3*512。

(2)在每一层都加入APF模块，特定属性融合分支先用设计的卷积层提取特定属性下的特征，然后使用通道注意力机制对特征进行加权求和，特定属性融合后的各分支特征经过聚合融合部分，通过注意力机制进行有效特征的自适应选择(特定属性融合分支和聚合融合分支使用的注意力机制均由一个全局平均最大池化层和两个全连接层串联实现)，最后聚合后的特征和之前提取的两个模态特征输入到增强聚合Transformer部分，使用三个编码器和两个解码器进行自增强和交互融合。

(3)使用三阶段训练方法来有效地训练网络，第一阶段只在主干网络的基础网络上逐个添加每一个属性融合分支，只使用具有特定属性的训练数据去训练特定属性融合分支，每一个分支的学习率设置为0.001，并训练fc6，学习率为0.0005，训练迭代次数为200。这个阶段只保存属性融合分支的参数。

(4)第二阶段添加所有的属性融合分支，并且固定先前训练好的属性融合分支参数，使用所有训练数据训练聚合模块。随机初始化聚合模块和fc6的参数，并将学习率分别设置为0.001和0.0005。这一阶段保存所有聚合模块的参数以及fc4，fc5的参数。

(5)固定前两个阶段的参数，使用所有训练数据训练增强融合Transformer部分。随机初始化增强融合Transformer部分和全连接层fc6的参数，并将学习率分别设置为0.001和0.0005。这一阶段微调整体网络，并且设置其他模块的学习率为0.0001。

(6)最后保存该模型，用于在线跟踪阶段。

本实施例分别采用本方案跟踪模型和现有的一些跟踪器在公开的数据集LasHeR和RGBT234上进行了测试，并将测试结果与其他的跟踪器在SR(成功率)和PR(准确率)上进行了评估，结果如表1和表2所示：

表1本发明方法和一些现有方法在RGBT234数据集上的实验结果

方法	PR	SR
			SiamDW+RGBT	0.604	0.397
ECO	0.702	0.514
			CMR	0.711	0.486
SGT	0.720	0.472
			MDNet+RGBT	0.722	0.495
MACNet	0.764	0.532
			DAPNet	0.766	0.537
MANet	0.777	0.539
			mfDiMP	0.785	0.559
FANet	0.787	0.553
			JMMAC	0.790	0.573
DAFNet	0.796	0.544
			CAT	0.804	0.561
CMPP	0.823	0.575
			Ours(APFNet)	0.827	0.579

表2本发明方法和一些现有方法在LasHeR数据集上的实验结果

方法	PR	SR
			SGT	0.327	0.232
CMR	0.352	0.257
			SGT++	0.365	0.251
DAPNet	0.431	0.314
			FANet	0.441	0.309
mfDiMP	0.447	0.343
			DAFNet	0.448	0.311
CAT	0.450	0.314
			MANet	0.455	0.326
MANet++	0.467	0.314
			MaCNet	0.482	0.350
Ours(APFNet)	0.500	0.362

其中，APFNet表示本发明的跟踪结果精度，本发明方法在LasHeR的PR精度值为0.500，SR精度值为0.362；本发明方法是在RGBT234的PR精度值为0.827，SR精度值为0.579，可以很明显的看到相比于其他方法，其跟踪性能取得了不错的成绩。

此外，如图4所示，本发明实施例还提出了一种基于渐进式融合网络的视觉跟踪装置，所述装置包括：

获取模块10，用于基于一对配准的多模态视频，获取候选样本，所述候选样本包括可见光图像和热红外图像；

增强模块20，用于将所述候选样本送入主干网络，生成所述候选样本的特征图，其中，所述主干网络包括三个卷积层，每个所述卷积层加入基于属性的渐进式融合模块，所述基于属性的渐进式融合模块包括依次连接的属性融合模块、属性聚合模块和增强融合模块；

跟踪模块30，用于将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置。

所述注意力网络用于对所述候选样本的特征进行融合。

所述增强融合模块包括编码器和解码器，其中：

需要说明的是，本发明实施例所述基于渐进式融合网络的视觉跟踪装置的其他实施例或具有实现方法可参照上述各方法实施例，此处不再赘余。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于渐进式融合网络的视觉跟踪方法，其特征在于，所述方法包括：

将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置；

所述属性融合模块包括若干属性融合分支网络，每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络；

所述注意力网络用于对所述候选样本的特征进行融合；

所述属性聚合模块用于生成与若干所述属性融合分支网络对应的通道权重，并将若干所述属性融合分支网络输出的特征进行加权求和得到聚合特征，所述聚合特征作为所述增强融合模块的输入；

所述增强融合模块包括编码器和解码器，其中：

2.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法，其特征在于，所述全连接模块包括依次连接的三个全连接层，前两个所述全连接后加入神经元随机激活函数，最后一个所述全连接层包含softmax层。

3.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法，其特征在于，在所述将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置之后，还包括：

判断目标跟踪是否成功；

若是，则跟踪下一帧。

4.如权利要求1所述的基于渐进式融合网络的视觉跟踪方法，其特征在于，所述方法还包括：

5.一种基于渐进式融合网络的视觉跟踪装置，其特征在于，所述装置包括：

跟踪模块，用于将所述特征图按照通道维度进行拼接后送入全连接模块，得到目标位置；

所述属性融合模块包括若干属性融合分支网络、每个所述属性融合分支网络包括依次连接的特征提取网络和注意力网络；

所述注意力网络用于对所述候选样本的特征进行融合；

所述增强融合模块包括编码器和解码器，其中：