CN114663470B

CN114663470B - 基于软选择的自适应跨模态视觉跟踪方法

Info

Publication number: CN114663470B
Application number: CN202210094864.9A
Authority: CN
Inventors: 李成龙; 方峥; 刘磊; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2024-03-15
Anticipated expiration: 2042-01-26
Also published as: CN114663470A

Abstract

本发明公开了一种软选择的自适应跨模态视觉跟踪方法，属于计算机视觉技术领域，方法包括：从跨模态跟踪数据集中随机抽取一个测试序列；将测试序列作为跟踪网络的输入，对测试序列中目标进行跟踪；跟踪网络包括特征提取网络、软性选择模块、模型预测器和IoU网络，特征提取网络的输入为测试序列、输出与软性选择模块连接，软性模块的输出分别与模型预测器和IoU网络连接，软性选择模块用于自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图。本发明通过设置软性选择模块来自适应预测各模态对应的重要性权重解决现有技术中跨模态跟踪中不同模态切换导致跟踪器性能下降的问题。

Description

基于软选择的自适应跨模态视觉跟踪方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于软选择的自适应跨模态视觉跟踪方法。

背景技术

目标跟踪作为计算机视觉领域的一个基本研究任务，在很多视觉系统中扮演着重要的角色，如视频监控、智能交通和无人驾驶等。

目标跟踪旨在给定初始帧目标状态(位置和大小)的情况下，估计后续帧中目标的状态。现在主流的目标跟踪的方法可以分为目标粗定位和目标形状估计两个子任务，目标粗定位的目的是确定跟踪目标存在于图像的大致位置，而目标形状估计的目的是确定跟踪目标在图像上的精准位置。目标粗定位模块可以通过在线训练得到的，利用初始帧目标状态或者前一帧的预测结果通过平移、反转、模糊等操作生成训练样本，对应的训练标签是使用2D高斯函数作用于样本的中心位置生成的分类得分图。目标形状估计模块可以使用离线训练的方式得到，通过从大规模视频跟踪数据集和目标检测数据集得到对应的检测目标的边界框和IoU(IoU表示真值框和样本之间的交并比)作为训练样本来完成训练。大致的跟踪流程为：

(1)对于第一帧，模板分支产生调制向量，快速训练目标粗定位模块。

(2)对于当前帧，提取特征，经过目标粗定位模块确定位置，再结合前一帧的边界框形状，生成当前帧的初始边界框。

(3)将当前帧的边界框传入目标粗定位模块产生预测的IoU。

(4)通过最大化IoU，来优化当前帧的边界框，经过几次迭代产生当前帧的预测框。

(5)预测下一帧，至步骤(2)。

近些年来，近红外成像已经成为许多监控相机重要的功能之一，它能够根据光照强度在RGB模态和近红外模态之间自适应切换，从而避免了多模态成像技术的一些缺点，如深度传感器受成像范围的限制，热红外传感器需要和其他的模态图片进行像素级对齐，比如申请号为201610697825.2的发明专利申请公开的一种结合可见光和红外图像的多模态目标跟踪方法。然而，可见光与近红外模态间的切换会给目标带来严重的外观变化，从而影响跟踪器的性能。

如何解决模态切换导致跟踪器的性能下降问题对提升跨模态跟踪器的性能十分关键，目前的跨模态跟踪网络通过设计特定模态特征提取网络分支来提取目标的不同模态信息，然后将不同的模态特征输入到一个集成模块来自适应地获取有效的模态信息，最后通过多阶段训练策略来训练网络不同模块来达到训练整个网络的效果。

然而，设计集成模块的目的是用来减轻不同模态之间的异质性，这可能会导致在模态发生切换时降低有辨别性的模态特征。除此之外，多阶段的模型训练策略是十分耗时的，而且各个模块不能联合训练，导致了整个模型不是处于一个最优的状态。

发明内容

本发明所要解决的技术问题在于解决模态切换时导致有辨别性的模态特征降低的问题。

本发明通过以下技术手段实现解决上述技术问题的：

一方面，本发明提出了一种软选择的自适应跨模态视觉跟踪方法，所述方法包括：

从跨模态跟踪数据集中随机抽取一个测试序列；

将所述测试序列作为跟踪网络的输入，对所述测试序列中目标进行跟踪；

其中，所述跟踪网络包括特征提取网络、软性选择模块、模型预测器和IoU网络，特征提取网络的输入为所述测试序列、输出与所述软性选择模块连接，所述软性模块的输出分别与所述模型预测器和所述IoU网络连接，所述软性选择模块用于自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图。

本发明通过设置软性选择模块来自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图，通过自适应地融合不同模态的特征来优化整个跟踪网络，解决现有技术中跨模态跟踪中不同模态切换导致跟踪器性能下降的问题。

进一步地，所述测试序列包括模板图片和测试图片，所述模板图片标注有所述目标的真值框；所述将所述测试序列作为跟踪网络的输入，对所述测试序列中目标进行跟踪，包括：

将所述模板图片作为所述跟踪网络的输入，对所述跟踪网络进行初始化，并由所述模型预测器生成卷积权重，所述卷积权重包括所述目标的外观信息；

将所述测试图片作为跟踪网络的输入，并由所述软性选择模块生成所述各模态的融合特征图；

将所述各模态的融合特征图和所述卷积权重作为所述IoU网络的输入，得到所述测试图片的分类得分图，并根据所述分类得分图，预测所述目标的位置。

进一步地，所述特征提取网络采用ResNet50网络中的结构体block1-3和结构体block4，所述结构体block 1-3和所述结构体block4依次连接，所述结构体block 1-3的输入为所述测试序列，所述结构体block 1-3和所述结构体block4的输出分别与所述软性选择模块的输入连接。

进一步地，所述软性选择模块包括第一特征提取分支网络、第二特征提取分支网络和具有可学习参数的权重预测分支网络，所述第一特征提取分支网络的输出和所述权重预测分支网络的输出经第一相乘操作连接，所述第二特征提取分支网络的输出和所述权重预测分支网络的输出经第二相乘操作连接，所述第一相乘操作和所述第二相乘符号经相加操作连接，其中：

所述第一特征提取分支网络和所述第二特征提取分支网络分别用于提取可见光图像的第一模态特征和近红外图像的第二模态特征；

所述权重预测分支网络用于自适应预测所述可见光图像的模态特征所占的第一权重和所述近红外图像的模态特征所占第二权重；

所述软性选择模块的输出结果公式表示为：

F＝α×F_NIR+(1-α)F_RGB

其中，F_NIR和F_RGB分别表示所述第二模态特征和所述第一模态特征，α为所述第二权重，(1-α)为所述第一权重。

进一步地，所述第一特征提取分支网络和所述第二特征提取分支网络均包括第一卷积层、第二卷积和第三卷积层，所述第一卷积层的输入为所述特征提取网络输出的特征图，所述第一卷积层的输出分别与所述第二卷积层和所述第三卷积层连接，所述第二卷积层和所述第三卷积层的输出经concat操作连接。

进一步地，所述权重预测分支网络包括全局平均池化层、第一全连接层、第二全连接层和具有可学习参数的sigmoid函数，其中：

所述全局平均池化层的输入为所述特征提取网络输出的特征图，所述全局平均池化层的输出经所述第一全连接层与所述第二全连接层连接，所述第二全连接层后加入所述具有可学习参数的sigmoid函数；

所述sigmoid函数的公式表示为：

其中，x是经过所述第二全连接层后输出的特征，k是用来控制sigmoid函数陡峭程度的可学习参数，α，1-α分别是预测的各模态的权重。

进一步地，所述IoU网络包括IoU调制器和IoU预测器，所述软性选择模块的输出与所述IoU调制器的输入连接，所述软性选择模块的输出、所述模型预测器的输出和所述IoU调制器的输出分别与所述IoU预测器连接。

进一步地，将所述模板图片作为所述跟踪网络的输入，对所述跟踪网络进行初始化，包括：

以所述模板图片中给定所述目标的中心点坐标P_ref为中心，长宽为S_ref×576在图片中裁剪出测试样本，并基于所述测试样本进行数据增强，得到增强样本，其中S_ref为所述目标的长宽比；

将所述增强样本的尺寸统一缩放到设定尺寸后，作为所述跟踪网络的输入，以对所述跟踪网络进行初始化。

进一步地，所述将所述测试图片作为跟踪网络的输入，并由所述软性选择模块生成所述各模态的融合特征图，包括：

在所述测试图片中，以所述模板图片中真值框中心点坐标为中心，边长为所述真值框长边的设定倍裁剪出正方形区域作为测试样本；

将所述测试样本缩放到设定尺寸后，作为所述跟踪网络的输入，并由所述软性选择模块生成所述各模态的融合特征图。

进一步地，所述方法还包括：

采用梯度上升法最大化所述目标的坐标框的IoU值，并根据IoU值从高到低排序；

选取前n个IoU值对应的坐标框求平均，作为所述目标的预测位置。

本发明的优点在于：

(1)本发明通过设置软性选择模块来自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图，通过自适应地融合不同模态的特征来优化整个跟踪网络，解决现有技术中跨模态跟踪中不同模态切换导致跟踪器性能下降的问题。

(2)软性选择模块中设置了具有可学习参数的权重预测模块，学习的软性选择模块是可微的，可以端到端的形式联合训练整个跟踪网络从而降低模型的训练复杂度并优化了整个网络的性能。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一实施例中基于软选择的自适应跨模态视觉跟踪方法的流程图；

图2是本发明一实施例中基于软选择的自适应跨模态视觉跟踪方法的整体流程图；

图3是本发明中跟踪网络的结构图；

图4是本发明中软性选择模块的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1至图3所示，本发明实施例提出了一种基于软选择的自适应跨模态视觉跟踪方法，所述方法包括以下步骤：

S10、从跨模态跟踪数据集中随机抽取一个测试序列；

需要说明的是，本实施例选择一个跨模态跟踪数据集，数据集中包含由不同类别的跟踪目标构成的视频序列，序列图片对应的标注信息包括跟踪目标的真值框、模态类别，从数据集中随机抽选出一个序列作为测试序列，输入至跟踪网络中进行目标跟踪。

应当理解的是，本实施例所述跨模态包括可见光模态和近红外模态。

S20、将所述测试序列作为跟踪网络的输入，对所述测试序列中目标进行跟踪；

本实施例中提出的跟踪网络中设计了软性选择模块，利用软性选择模块自适应的预测不同模态特征所占重要性权重，通过自适应地融合不同模态的特征来优化整个跟踪网络，解决现有技术中跨模态跟踪中不同模态切换导致跟踪器性能下降的问题。

在一实施例中，所述测试序列包括模板图片和测试图片，所述模板图片标注有所述目标的真值框；所述步骤S20，包括：

需要说明的是，模板图片一般指测试序列的初始帧图像，初始帧图像中标注有跟踪目标的真值框，测试图片指的是不包含跟踪目标真值框的帧图像。

在实际跟踪过程中，利用初始帧图像对跟踪网络进行初始化，具体对模型预测器和IoU网络进行初始化。

在一实施例中，如图3所示，所述特征提取网络采用ResNet50网络中的结构体block 1-3和结构体block4，所述结构体block 1-3和所述结构体block4依次连接，所述结构体block 1-3的输入为所述测试序列，所述结构体block 1-3和所述结构体block4的输出分别与所述软性选择模块的输入连接。

ResNet50网络用于提取图像的颜色、纹理和边缘特征，根据生成的特征图，特征图中某些区域响应比较大，便是需要跟踪的目标区域，然后从特征图映射到原图位置便可以确定这张图片上跟踪目标的坐标。

初始化过程中，模板图片输入跟踪网络，通过主干网络block 1-3、block4得到特征图F_{ref_3}、F_{ref_4}，再将特征图F_{ref_3}、F_{ref_4}送入到软性选择模块中，由软性选择模块自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图F_{ref_soft_3}、F_{ref_soft_4}。

测试过程中，测试图片输入跟踪网络，通过主干网络block 1-3、block4生成特征图F_{test_3}、F_{test_4}，特征图F_{test_3}、F_{test_4}送入到软性选择模块中，由软性选择模块自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图F_{test_soft_3}、F_{test_soft_4}。

在一实施例中，如图4所示，软性选择模块Soft Selector包括第一特征提取分支网络、第二特征提取分支网络和具有可学习参数的权重预测分支网络，所述第一特征提取分支网络的输出和所述权重预测分支网络的输出经第一相乘操作连接，所述第二特征提取分支网络的输出和所述权重预测分支网络的输出经第二相乘操作连接，所述第一相乘操作和所述第二相乘符号经相加操作连接，其中：

所述软性选择模块的输出结果公式表示为：

F＝α×F_NIR+(1-α)F_RGB

需要说明的是，设计软性选择模块的目的是在网络中可以准确预测不同模态特征的重要性权重，比如在模态发生切换的某个时刻，网络可以准确预测此刻近红模态特征权重90％，RGB特征权重10％，且这个预测的权重值和真值几乎保持一样的。没有设置软性选择模块的方法只能将近红外和RGB模态融合，而每个模态所占权重无法准确预测，则会降低有辨别性的模态特征，比如说这里例子中所占90％的近红外模态特征。

本实施例通过设置软性选择模块，能够自适应地预测不同模态特征的重要性权重，然后分别与第一特征提取分支网络、第二特征提取分支网络取的模态特征加权得到最终融合多个模态的特征。在跨模态跟踪中，发生的模态切换会导致跟踪目标外观的显著变化，所以本实施例利用特征提取分支网络提取近红外模态和RGB模态的特定信息。

在一实施例中，所述第一特征提取分支网络和所述第二特征提取分支网络均包括第一卷积层、第二卷积和第三卷积层，所述第一卷积层的输入为所述特征提取网络输出的特征图，所述第一卷积层的输出分别与所述第二卷积层和所述第三卷积层连接，所述第二卷积层和所述第三卷积层的输出经concat操作连接。

具体地来说，第一特征提取分支网络和第二特征提取分支网络参照inception网络来设计，特征提取网络输出的特征图会经大小为1×1的第一卷积层来提取模态特定的信息，然后特征会分别经过第二卷积层和第三卷积层。第二卷积层和第三卷积层中首先设置了一个1×1的卷积降低特征的通道数量来降低计算量，其次设置了3×3卷积，第二卷积层和第三卷积层作为两个分支，通过两种不同类型的3×3卷积来提高网络对于不同尺寸跟踪目标的泛化能力，最终上下分支的生成的特征concat到一起作为第一特征提取分支网络或第二特征提取分支网络的输出特征。

在一实施例中，如图4所示，所述权重预测分支网络包括全局平均池化层GAP、第一全连接层FC、第二全连接层FC和具有可学习参数的sigmoid函数，其中：

所述全局平均池化层GAP的输入为所述特征提取网络输出的特征图，所述全局平均池化层GAP的输出经所述第一全连接层FC与所述第二全连接层FC连接，所述第二全连接层FC后加入所述具有可学习参数的sigmoid函数；

所述sigmoid函数的公式表示为：

需要说明的是，软性选择模块中设置了具有可学习参数的权重预测模块，学习的软性选择模块是可微的，可以端到端的形式联合训练整个跟踪网络从而降低模型的训练复杂度并优化了整个网络的性能。

在一实施例中，所述IoU网络包括IoU调制器和IoU预测器，所述软性选择模块的输出与所述IoU调制器的输入连接，所述软性选择模块的输出、所述模型预测器的输出和所述IoU调制器的输出分别与所述IoU预测器连接。

其中，IoU网络主要用来预测检测框和真值框的IoU，IoU调制器即IoU Modulation用来生成带有跟踪目标外观信息的Modulation vector(调制向量)，IoU预测器即IoUPredictor，用于将Modulation vector和测试图片的特征做相关性运算得到测试图片的IoU，然后通过梯度上升法来用优化跟踪框。

在一实施例中，模型预测器包括初始器和迭代优化器，模型预测器ModelPredictor用来生成一个卷积权重和测试样本的特征做卷积运算来预测跟踪目标的得分图。

通过对模型预测器初始化生成卷积权重W_ref，W_ref会包含跟踪目标的外观信息，用来和后续测试图片特征做相关性运算来预测得分图。

其中，初始器和迭代器为DiMP网络中的组件，初始器的作用是产生一个初始的卷积权重，这个卷积权重刚开始还没有包含跟踪目标的所有特征，所以会将这个卷积权重送入到后续的迭代优化器经过多次迭代最终生成一个能够包含跟踪目标所有特征的卷积权重。

在一实施例中，如图2所示，所述将所述模板图片作为所述跟踪网络的输入，对所述跟踪网络进行初始化，包括：

具体地来说，对测试样本采用如水平翻转、模糊和旋转等操作生成13个增强样本，并将生成的增强样本的尺寸统一缩放到288×288。

在一实施例中，所述将所述测试图片作为跟踪网络的输入，并由所述软性选择模块生成所述各模态的融合特征图，包括：

在所述测试图片中，以所述模板图片中真值框中心点坐标P_ref为中心，边长为所述真值框长边的设定倍裁剪出正方形区域作为测试样本；

需要说明的是，本实施例以初始帧中真值框的中心点坐标为中心，边长为真值框长边的288倍裁剪出正方形区域作为测试样本，最后将样本尺寸缩放到288×288。

在一实施例中，所述方法还包括：

需要说明的是，本实施例在根据分类得分图预测跟踪目标的大致位置后，根据初始帧中的目标长宽比S_ref来随机初始化9个候选框，最后将这个9个候选框送入到IoU网络中去预测对应的IoU并使用梯度上升法去最大化候选框和跟踪目标坐标框的IoU值，最终选取IoU得分最高的三个候选框坐标值求平均值就是预测的跟踪目标位置。

需要说明的是，将本发明方法和现有方法在公开数据集跨模态数据CMOTB上进行的了测试，并将测试结果与其他跟踪器在SR(成功率)和PR(准确度)上进行了评估，并与其它15个方法做了不同指标上的对比，如表1所示。其中LS²Net表示本发明方法的跟踪结果精度，可以很明显的看到相比于其他方法，其跟踪性能均匀较大程度的提升。

表1

具体地，用于实现基于软选择的自适应跨模态视觉跟踪的一种跟踪网络结构如图3所示，跟踪网络中软性选择模块进行复用，初始化分支中，模板图片作为第一结构体block1-3的输入，第一结构体block 1-3的输出经一软性选择模块Soft Selector与IoUModulation的输入连接，第一结构体block 4的输出经一软性选择模块Soft Selector分别与IoU Modulation和Model Predictor连接，第一结构体block 1-3的输出还与第一结构体block 4的输入连接；

测试分支中，测试图片作为第二结构体block 1-3的输入，第二结构体block 1-3的输入，第一结构体block 1-3的输出经一软性选择模块Soft Selector与IoU Predictor的输入连接，第二结构体block 4输出经一软性选择模块Soft Selector分别IoUPredictor的输入和卷积层conv连接，第二结构体block 1-3的输出还与第二结构体block4的输入连接。

具体地，跟踪网络的训练过程包括：

(1)选择一个跨模态跟踪数据集，数据集中会有包含不同类别的跟踪目标构成的视频序列，序列的标注文件包括跟踪目标的真值框、模态类别、可见状态。首先设置网络训练的batch_size＝10，每次网络迭代训练的时候会从数据集中随机选取一个视频序列，再从这个视频序列中随机选择一张图片作为基准帧并得到对应的序号为ID_base，定义一个最大搜索区间GAP_max＝10用来控制训练集和数据集的图片选取范围。从视频序列ID的范围ID_base-GAP_max≤ID≤ID_base中选取三张作为训练样本，再从视频序列ID范围为ID_base<ID≤ID_base+GAP_max内选取三张作为测试样本，要求每次选取的样本中跟踪目标为状态都为可见状态，否之则逐渐增大GAP_max直到选取到满足条件的样本。

(2)对步骤(1)得到的测试样本和训练样本进行数据增强，首先将图片处理为灰度图，然后对真值框进行随机扰动，即随机扰动真值框的中心坐标值和尺寸，随机扰动的目的是避免分类网络学习到是输入图片的中心坐标而不是跟踪目标的中心坐标。以扰动后的真值框的中心为中心，面积为初始真值框面积的5²倍裁剪得到一个正方形搜索区域样本，并将其尺寸缩放到288×288，最终将该样本和真值框作为训练集和测试集的样本以及标签。针对测试集，还需要生成训练IoU网络的样本，每张测试图片会生成8个样本和该样本与真值框的IoU值。对于目标分类的真值标签，以对应的真值框的中心位置，加上二维的高斯函数生成置信度图作为分类的真值标签，然后将其尺寸调整到19×19。

(3)将步骤(2)中得到的训练和测试样本输入到预训练好的ResNet50网络中提取特征，经过ResNet50 Block 1-3得到训练样本和测试样本的特征F_{train_3}和F_{test_3}，再经过ResNet50 Block4得到特征F_{train_4}和F_{test_4}，然后将得到的特征F_{train_3}、F_{train_4}、F_{test_3}和F_{test_4}输入到软性选择模块中。特征F_{train_3}、F_{train_4}输入到软性选择模块中得到预测后的权重W_train、特征F_{train_soft_3}和F_{train_soft_4}，同理特征F_{test_3}、F_{test_4}输入到软性选择模块中得到预测后的权重W_test、特征F_{test_soft_3}和F_{test_soft_4}。然后将特征F_{train_soft_4}、训练集的真值框坐标输入到模型预测器D中，预测器D输出一个卷积权重用来和测试样本的特征F_{test_soft_4}做相关性运算来生成测试集的样本的预测分类图。

(4)对于IoU网络的训练，使用步骤(3)中的F_{train_3}、F_{train_4}和真值框的坐标生成对应的调制向量V_{train_3}、V_{train_4}，调制向量包含了跟踪目标的外观信息。我们将(2)中为IoU生成训练样本的坐标值和特征F_{test_3}、F_{test_4}做PrPool池化操作得到对应的训练样本特征F_{test_prpool_3}、F_{test_prpool_4}，再将调制向量V_{train_3}、V_{train_4}和样本特征F_{test_prpool_3}、F_{test_prpool_4}逐通道相乘得到的两个特征Concat到一起经过全连接层得到最终的IoU得分。网络的损失函数是L＝β×L_s+γ×L_reg+δ×L_cls，L_s是权重预测的损失函数，使用的是BCE Loss(二分类交叉熵损失函数)，L_reg是IoU网络的训练函数，使用的是MES Loss(均方损失函数)，而L_cls是分类损失函数，使用Hinge Loss(铰链损失函数)。我们在实验过程中设置损失函数权重为β＝1，γ＝1，δ＝100，网络训练过程中梯度回传到整个网络从而联合优化了网络的各个部分。跟踪网络训练好后即可用于进行目标跟踪。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述方法包括：

从跨模态跟踪数据集中随机抽取一个测试序列；

其中，所述跟踪网络包括特征提取网络、软性选择模块、模型预测器和IoU网络，特征提取网络的输入为所述测试序列、输出与所述软性选择模块连接，所述软性模块的输出分别与所述模型预测器和所述IoU网络连接，所述软性选择模块用于自适应预测各模态对应的重要性权重并将权重与各模态对应特征图加权融合得到各模态的融合特征图；

所述测试序列包括模板图片和测试图片，所述模板图片标注有所述目标的真值框；所述将所述测试序列作为跟踪网络的输入，对所述测试序列中目标进行跟踪，包括：

将所述各模态的融合特征图和所述卷积权重作为所述IoU网络的输入，得到所述测试图片的分类得分图，并根据所述分类得分图，预测所述目标的位置；

所述软性选择模块包括第一特征提取分支网络、第二特征提取分支网络和具有可学习参数的权重预测分支网络，所述第一特征提取分支网络的输出和所述权重预测分支网络的输出经第一相乘操作连接，所述第二特征提取分支网络的输出和所述权重预测分支网络的输出经第二相乘操作连接，所述第一相乘操作和所述第二相乘符号经相加操作连接，其中：

所述软性选择模块的输出结果公式表示为：

F＝α×F_NIR+(1-α)F_RGB

2.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述特征提取网络采用ResNet50网络中的结构体block 1-3和结构体block4，所述结构体block1-3和所述结构体block4依次连接，所述结构体block 1-3的输入为所述测试序列，所述结构体block 1-3和所述结构体block4的输出分别与所述软性选择模块的输入连接。

3.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述第一特征提取分支网络和所述第二特征提取分支网络均包括第一卷积层、第二卷积和第三卷积层，所述第一卷积层的输入为所述特征提取网络输出的特征图，所述第一卷积层的输出分别与所述第二卷积层和所述第三卷积层连接，所述第二卷积层和所述第三卷积层的输出经concat操作连接。

4.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述权重预测分支网络包括全局平均池化层、第一全连接层、第二全连接层和具有可学习参数的sigmoid函数，其中：

所述sigmoid函数的公式表示为：

5.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述IoU网络包括IoU调制器和IoU预测器，所述软性选择模块的输出与所述IoU调制器的输入连接，所述软性选择模块的输出、所述模型预测器的输出和所述IoU调制器的输出分别与所述IoU预测器连接。

6.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，将所述模板图片作为所述跟踪网络的输入，对所述跟踪网络进行初始化，包括：

7.如权利要求1所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述将所述测试图片作为跟踪网络的输入，并由所述软性选择模块生成所述各模态的融合特征图，包括：

8.如权利要求5所述的基于软选择的自适应跨模态视觉跟踪方法，其特征在于，所述方法还包括：