CN112308883A

CN112308883A - 一种基于可见光和红外图像的多船舶融合跟踪方法

Info

Publication number: CN112308883A
Application number: CN202011348365.5A
Authority: CN
Inventors: 张雯; 贺金夯; 何旭杰; 张秋雨
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-02

Abstract

本发明提供一种基于可见光和红外图像的多船舶融合跟踪方法，包括：检测视频的每帧图像中的船舶对象；将所有待输入的红外和可见光图像对进行预处理；将预处理后的两帧图像对及图像中船舶目标的中心位置信息输入特征提取网络，提取船舶的特征向量，实现对船舶外观特征的建模；将获得的船舶的外观特征输入相似度估计模块中，求取前后两视频帧的关联矩阵；借助匈牙利算法关联船舶目标，更新目标跟踪轨迹，进而实现多船舶的稳定跟踪。本发明实现了基于红外和可见光图像的多船舶自适应融合跟踪。本发明解决了基于单源图像的多船舶跟踪易受海上特殊环境条件的约束而无法实现对多船舶的稳定跟踪的问题，从而满足了多船舶跟踪技术的全天候的应用需求。

Description

一种基于可见光和红外图像的多船舶融合跟踪方法

技术领域

本发明涉及一种基于可见光和红外图像的多船舶融合跟踪方法，属于模式识别、计算机视觉技术领域。

背景技术

多船舶跟踪是海上监视系统和智能船舶的重要组成部分，对沿海国家的船舶航行安全和执法具有重要意义。在船舶安全航行方面，多船舶自动跟踪能有效地避免人为因素引起的监视误差，为分析和判断船舶航行行为提供依据，从而有效地避免水上航行事故的发生。在海上安全执法方面，利用多船舶跟踪能够及时发现并跟踪非法移民、海盗或贩运毒品、武器和非法物质等海上犯罪活动并采取必要的措施。

多船舶跟踪要求具备较好稳定性和鲁棒性以满足船舶全天候不间断航行的需求，而海天环境的特殊性问题，例如海雾，波浪，光照变化频繁，目标间相似度大和目标远小等，加大了海上多船舶跟踪的难度。由于可见光图像成像机制的局限性，基于可见光图像的多船舶跟踪存在对光照条件变化敏感等问题难以适应海上多海雾、光照变化频繁和目标远小的特殊环境。红外图像检测物体的热信息，红外辐射穿透海雾及大气的能力比可见光强，因此对海雾天气和光照条件等因素不敏感。而基于红外图像的多船舶跟踪具有因缺乏目标的纹理和色彩信息而造成对目标辨识度低的问题，难以适应船舶目标相似性大的特点。由于可见光和红外图像具有互补性，基于可见光和红外图像的融合跟踪算法可以提高在恶劣环境下的跟踪性能。多船舶融合跟踪能够利用可见光和红外图像的优势互补，在不降低目标辨识度的前提下提高多船舶跟踪的海上环境适应能力。针对船舶融合跟踪的研究主要集中在船舶单目标跟踪上，对多船舶跟踪的研究较少。目前，对于一般场景的多目标跟踪(MOFT)的研究较多，但这些MOFT方法是利用传统的背景减法等技术来检测和跟踪运动目标。近年来，深度学习以其强大的特征表示能力而闻名，与手工构造的特征相比，学习的深度特征更有效、更稳健，有利于跟踪问题。因此，利用深度学习等先进技术，在多船舶跟踪性能方面有很大的改进空间。

发明内容

本发明的目的是为了提供一种基于可见光和红外图像的多船舶融合跟踪方法。由于图像成像机制的局限性，基于可见光图像的多船舶跟踪存在对光照条件变化敏感等问题难以适应海上多海雾、光照变化频繁和目标远小的特殊环境；而基于红外图像的多船舶跟踪具有因缺乏目标的纹理和色彩信息而造成对目标辨识度低的问题，难以适应船舶目标相似性大的特点。本发明为了解决以上基于单源图像的船舶跟踪易受海上特殊环境条件的约束而无法实现对多船舶的稳定性跟踪的问题，提出了一种基于可见光和红外图像的多船舶融合跟踪的方法。

本发明的目的是这样实现的：步骤如下：

S1：检测视频的每帧图像中的船舶对象，具体为：将一帧图像作为检测阶段的输入，并为该帧图像中的船舶对象输出一组边界框，根据输出的边界框，计算出该帧图像中目标的中心位置；

S2：将所有待输入的红外和可见光图像对进行预处理；

S3：将预处理后的两帧图像对及图像中船舶目标的中心位置信息输入特征提取网络，提取船舶的特征向量，实现对船舶外观特征的建模；

S4：将获得的船舶的外观特征输入相似度估计模块中，求取前后两视频帧的关联矩阵，即当前帧中的船舶与先前帧中的船舶之间的相似度矩阵；

S5：借助匈牙利算法关联船舶目标，增添新目标，更新目标跟踪轨迹，实现多船舶的稳定跟踪。

本发明还包括这样一些结构特征：

1.步骤S2具体包括：

S21：红外图像属于单通道图像，增加红外图像的通道数使之成为三通道图像，即红外图像复制两次，然后与原红外图像在通道维度上拼接，接着将红外和可见光图像对并行输入后续的图像预处理层，做相同的处理操作；

S22：首先光度失真处理，以随机概率按顺序对输入图像进行如下处理操作：图像像素值缩放、转换HSV格式、饱和度的缩放和转换RGB格式；接着图像放大处理，采用缩放因子为[1，1.2]的随机值对图像进行放大，用数据的平均像素值来填充放大的图像中的像素值；其次图像裁剪处理，采用随机比率裁剪图片，只保留包含所有检测目标中心点的裁剪；最后将所有的输入图像调整为固定值大小并以0.5的概率进行图像的水平反转操作。

2.S3具体为：首先增添红外图像特征提取流，将图像对并行输入特征提取流以提取特征图；在特征提取流的9个固定位置层抽取9对卷积层输出的红外和可见光特征图对；将提取的9层不同空间尺度的特征图对输入引入的特征图融合层，利用设计的融合策略分配融合权重，实现红外和可见光特征图对的自适应融合；将融合后的特征图输入特征向量提取网络，获取每帧图像的特征矩阵；具体步骤如下：

S31：特征图提取部分以第t帧和第t-n帧两帧红外和可见光图像对及其目标的中心位置信息作为输入；首先将两帧图像对分别从上下两层特征提取流并行输入并提取特征图；针对前后两帧图像对，分别在特征提取流的9个固定位置层抽取9对卷积层输出的红外和可见光特征图对；将抽取的特征图通过附加卷积层实现在通道上的降维；特征图提取层对输入的前后两个图像对，分别提取了9层不同空间尺度的特征图对；

S32：将S31中获得的特征图对输入特征图融合层，根据设计的基于L₁范数的融合策略给不同模态的特征图分配不同的融合权重值，实现红外和可见光特征图对的自适应融合；

S33：将融合后的特征图输入特征向量提取层；利用输入的目标中心位置信息，从融合特征图中抽取目标的中心像素值作为特征值，并将从9层融合特征图中获取的特征进行拼接，这样每个船舶目标形成了520维的特征向量，每帧图像中包含多个船舶目标，将每帧图像中所有船舶的特征向量放在一个二维矩阵中，形成一个Nm*520的特征矩阵，其中Nm表示规定的允许一帧图像中最大目标数；若帧中的目标数目少于Nm，则特征矩阵中非真实的目标的特征向量为零向量；实现了对每帧图像中船舶的外观特征的建模。

3.步骤S31中红外特征提取流具体为：该特征提取流是由VGG卷积层和Extension卷积层共同构成的深度卷积流，VGG卷积层是在VGG16的基础上将全连接层和softmax层改成了卷积层，在VGG层之后，将得到的特征图通过更深的Extension卷积层进行空间降维，提取深层的图像特征；将处理后的三通道红外图像输入特征提取流，提取对应输入图像的特征图；

步骤S32中特征融合层具体为：在红外和可见光特征图提取之后引入特征融合层以实现两种模态的特征级融合；在特征融合层中，利用设计的基于L₁范数的融合策略给不同模态的特征图分配不同的融合权重值，实现红外和可见光特征图对的自适应融合；

步骤S32中融合策略具体为：将可见光和红外特征图对输入特征融合层，

和

分别表示可见光特征图和红外特征图，其中m∈{1,2,…,M}表示该特征图的第m通道，M表示特征图的通道数，f^m表示融合后的特征图；

基于L₁范数计算

和

的初始作用程度图像C_i(i＝1,2)：

其中：(x,y)表示特征图和融合特征图中的对应位置，1:M表示该特征图的所有通道；

基于块的平均算子来计算最终的作用程度图

根据获得作用程度图

计算出两种模态的可见光特征图的权重ω₁和红外特征图的权重；通过加权求和生成融合的特征图：

4.步骤S4具体为：

S41：将从第t帧和t-n帧的两帧图像中获取的特征矩阵分别按行和按列复制Nm次，得到两个大小为Nm*Nm*520特征矩阵，然后两个复制后的特征矩阵按照520维度方向进行拼接形成一个Nm*Nm*1024的特征体；

S42：将特征体通过带有1*1卷积核的5层卷积压缩网络映射成Nm*Nm大小的相似度矩阵，该相似度矩阵反映了第t帧和第t-n帧图像中船舶目标之间的相似度。

5.步骤S5具体为：

S51：在S23提取第t帧的特征矩阵后，存储了该帧的特征矩阵及其帧编号，通过存储的特征矩阵计算当前帧中的目标与先前帧中的目标之间的相似度，实现将当前帧中的目标与多个先前帧中的目标的相关联；

S52：在目标关联之前，生成累加器矩阵；

S53：关联过程和轨迹更新：首先根据第一帧图像中的目标个数初始化轨迹集合，轨迹中每个元素是个二元组；然后使用匈牙利算法对累加器矩阵分解来寻求最优目标匹配；对于未成功匹配的目标且在当前帧中确实存在的目标，定义为新出现的目标；对于历史帧中出现过的目标且在连续Δ_t帧中没再次出现的目标，定义为消失的旧目标；最后，完成轨迹更新：匹配成功的目标放入对应的轨迹中；为新出现的目标创建新轨迹并添加到轨迹集中；将消失的旧目标的轨迹从轨迹集中删除。

与现有技术相比，本发明的有益效果是：

(1)本发明提出了一种基于可见光和红外图像的多船舶融合跟踪的方法，利用可见光和红外图像的优势互补，有效的解决基于单源图像的船舶跟踪易受环境条件约束而无法实现对船舶稳定地跟踪的问题。因为，受成像机理的约束，可见光图像具有对光照条件，天气状况等因素比较敏感的问题，而红外图像因缺乏目标的纹理和颜色信息对目标的辨识度低。

(2)本发明是在Deep Affinity Network(DAN)的基础上提出的一种具较好鲁棒性的多船舶融合跟踪的方法，DAN跟踪算法旨在解决可见光图像序列中多目标跟踪问题，且跟踪目标限制于行人和汽车。海上环境具有多海雾，光照变化频繁等特殊性，为了解决DAN不适用于多船舶融合跟踪，本发明对DAN进行了改进：1)特征提取模块中增加了红外图像特征提取流，使其能够对前后两帧红外图像的特征进行提取，从而可以将红外和可见光图像序列并行输入网络，以便后续处理。2)采用了特征级融合方案，在红外和可见光图像特征层后添加了融合层。3)采用基于L₁范数的自适应融合策略实现红外和可见光特征图的融合。

(3)本发明提出了一种基于可见光和红外图像的多船舶融合跟踪的方法，该方法以端到端的方式使用深度学的方法解决了多目标跟踪的数据关联的问题，从而解决了依赖人为设定的约束条件计算目标间的相关性的非深度学习方法带来的问题。

附图说明

图1是本发明提出的基于可见光和红外图像的多船舶融合跟踪方法的整体结构图；

图2是融合层的结构图；

图3(a)-(d)均是多船舶融合跟踪数据集示例图片；其中，第一行是可见光图片，第二行是对应的红外图片，图3(a)为远小目标的环境；图3(b)为多尺度环境；图3(c)为海雾天环境；图3(d)为高光照条件环境；

图4(a)-(c)是跟踪结果示例图片；

图5是本发明的流程附图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

结合图1至图5，结合图1，本发明提供了一种基于可见光和红外图像的多船舶融合跟踪方法，包括以下步骤：

步骤一、检测图视频的每帧图像中的船舶对象；

步骤二、将所有待输入的红外图像和可见光图像进行预处理；

步骤三、将预处理后的两帧图像对及图像中船舶目标的中心位置信息输入特征提取网络，提取船舶的特征向量，实现对船舶外观特征的建模，具体为：首先增添红外图像特征提取流，将图像对并行输入特征提取流以提取特征图；在特征提取流的9个固定位置层抽取9对卷积层输出的红外和可见光特征图对；将提取的9层不同空间尺度的特征图对输入引入的特征图融合层，利用设计的融合策略分配融合权重，实现红外和可见光特征图对的自适应融合；将融合后的特征图输入特征向量提取网络，获取每帧图像的特征矩阵。

步骤四、将获得的船舶的外观特征输入相似度估计模块中，求取前后两视频帧的关联矩阵，即当前帧中的船舶与先前帧中的船舶之间的相似度矩阵。

步骤五、借助匈牙利算法更新目标跟踪轨迹，进而实现多船舶的稳定跟踪。

进一步地，步骤一、检测视频的每帧图像中的船舶对象实施如下：

将一帧图像作为检测阶段的输入，并为该帧图像中的船舶对象输出一组边界框，根据输出的边界框，计算出该帧图像中目标的中心位置；

进一步地，步骤二，将所有待输入的红外图像和可见光图像进行预处理实施如下：

步骤二一、首先，红外图像属于单通道图像，增加红外图像的通道数使之成为三通道图像，即红外图像复制两次，然后与原红外图像在通道维度上拼接。接着将红外和可见光图像对并行输入后续的图像预处理层，做相同的处理操作。

步骤二二、首先光度失真处理，以随机概率按顺序对输入图像进行如下处理操作：图像像素值缩放、转换HSV格式、饱和度的缩放和转换RGB格式；接着图像放大处理，采用缩放因子为[1，1.2]的随机值对图像进行放大，用数据的平均像素值来填充放大的图像中的像素值；其次图像裁剪处理，采用随机比率裁剪图片，同时只保留包含所有检测目标中心点的裁剪；最后将所有的输入图像调整为固定值大小并以0.5的概率进行图像的水平反转操作。

进一步地，步骤三、将预处理后的两帧图像对及图像中船舶目标的中心位置信息输入特征提取网络，提取船舶的特征向量，实现对船舶外观特征的建模，实施如下：

步骤三一、特征图提取部分以第t帧和第t-n帧两帧红外和可见光图像对及其目标的中心位置信息作为输入。首先将两帧图像对分别从上下两层特征提取流并行输入并提取特征图。该特征提取流是由32层卷积层共同构成的深度卷积流。其次，为了减少计算量且保证提取到的特征具有足够的表现力。针对前后两帧图像对，分别在特征提取流的9个固定位置层抽取9对卷积层输出的红外和可见光特征图对。这9对特征图包含了来自特征提取流前部分的浅层特征图和来自特征提取流后部分的深层特征图。然后，将抽取的特征图通过附加卷积层实现在通道上的降维，以便进一步减少计算量。最终，特征图提取层对输入的前后两个图像对，分别提取了9层不同空间尺度的特征图对。

步骤三二、将步骤三一中获得的特征图对输入特征图融合层，根据设计的基于L1范数的融合策略给不同模态的特征图分配不同的融合权重值，从而实现红外和可见光特征图对的自适应融合。至此，对应于输入的两帧图像对，分别提取了9层不同空间尺度的融合特征图；

步骤三三、将融合后的特征图输入特征向量提取层。利用输入的目标中心位置信息，从融合特征图中抽取目标的中心像素值作为特征值，并将从9层融合特征图中获取的特征进行拼接，这样每个船舶目标形成了520维的特征向量。每帧图像中包含多个船舶目标，将每帧图像中所有船舶的特征向量放在一个二维矩阵中，就形成一个Nm*520的特征矩阵，其中Nm表示规定的允许一帧图像中最大目标数。若帧中的目标数目少于Nm,则特征矩阵中非真实的目标的特征向量为零向量。最终实现了对每帧图像中船舶的外观特征的建模。

更进一步地，步骤三一中红外特征提取流具体为：该特征提取流是由VGG卷积层和Extension卷积层共同构成的深度卷积流。VGG卷积层是在VGG16的基础上将全连接层和softmax层改成了卷积层，在VGG层之后，将得到的特征图通过更深的Extension卷积层进行空间降维，以便提取深层的图像特征。

更近一步地，步骤三二中特征融合层具体为：在红外和可见光特征图提取之后引入特征融合层以实现两种模态的特征级融合；在特征融合层中，利用设计的基于L₁范数的融合策略给不同模态的特征图分配不同的融合权重值，从而实现红外和可见光特征图对的自适应融合；结合图2，步骤三二中提到的融合层实施如下：

红外和可见光降维后的9个特征图对作为融合层的输入，在融合层中，对每个特征图对采用L₁范数和softmax运算的融合策略分配融合权重，实现红外和可见光特征图的自适应融合。

将可见光和红外特征图对输入特征融合层，

和

分别表示可见光特征图和红外特征图，其中m∈{1,2,…,M}表示该特征图的第m通道，M表示特征图的通道数。f^m表示融合后的特征图。

首先由式1基于L₁范数计算

和

的初始作用程度图像C_i(i＝1,2)。

其中(x,y)表示特征图和融合特征图中的对应位置，1:M表示该特征图的所有通道。然后利用式2基于块的平均算子来计算最终的作用程度图

这里的r决定作用块的大小,其中r＝1决定一个像素是由以其为中心的3×3的范围内进行平均得到。

最后我们根据获得作用程度图

由式3计算出两种模态的权重ω₁(可见光特征图的权重)和ω₂(红外特征图的权重)。由式4通过加权求和生成融合的特征图。

进一步地，步骤四、将获得的船舶的外观特征输入相似度估计模块中，求取前后两视频帧的关联矩阵的实施如下：

步骤四一、首先将从第t帧和t-n帧的两帧图像中获取的特征矩阵分别按行和按列复制Nm次，得到两个大小为Nm*Nm*520特征矩阵，然后两个复制后的特征矩阵按照520维度方向进行拼接形成一个Nm*Nm*1024的特征体；

步骤四二、将特征体通过带有1*1卷积核的5层卷积压缩网络映射成Nm*Nm大小的相似度矩阵，该相似度矩阵反映了第t帧和第t-n帧图像中船舶目标之间的相似度。

进一步地，步骤五、借助匈牙利算法更新目标跟踪轨迹实施如下：

步骤五一、在三二提取第t帧的特征矩阵后，就存储了该帧的特征矩阵及其帧编号。通过存储的特征矩阵计算当前帧中的目标与先前帧中的目标之间的相似度，这样就实现了将当前帧中的目标与多个先前帧中的目标的相关联。

步骤五二、在目标关联之前，首先生成累加器矩阵。使用累加器矩阵的目的是为了通过回顾多个历史帧来实现更精确的跟踪。累加器矩阵是当前帧目标与多个历史帧目标的相似度矩阵的累加求和，这里累积求和是相同轨迹编号进行求和。

步骤五三、关联过程和轨迹更新：首先根据第一帧图像中的目标个数初始化轨迹集合，轨迹中每个元素是个二元组(帧编号，轨迹编号)。然后使用匈牙利算法对累加器矩阵分解来寻求最优目标匹配。匈牙利算法是一对一约束，只能匹配当前帧曾在历史帧中出现过的目标。对于未成功匹配的目标且在当前帧中确实存在的目标，定义为新出现的目标。对于历史帧中出现过的目标且在连续Δ_t(设定的最大连续帧数)帧中没再次出现的目标，定义为消失的旧目标。最后，完成轨迹更新：匹配成功的目标放入对应的轨迹中；为新出现的目标创建新轨迹并添加到轨迹集中；将消失的旧目标的轨迹从轨迹集中删除。

结合具体数值给出本发明的实施例：

本发明提出了一种基于可见光和红外图像的多船舶跟踪方法(VTNet)，具体实施步骤如下：

一、数据集准备阶段

为了使得数据集更接近于真实的环境及更好的对算法测试和跟踪性能的比较分析，从大量原始船舶视频数据集中构建了红外-可见光多船舶跟踪数据集(DLF)。

从原始数据集中精心挑选了22对适合多船舶跟踪的视频段，经过裁剪，配准等一系列图像预处理后共生成了22对图像序列。该数据集涵盖了广泛工作环境，如海雾天、光照变化频繁，目标远小和多尺度等环境，可以很好的训练跟踪网络及测试网络的泛化能力和性能。为了测试本发明在不同特殊环境中的跟踪性能，对DLF数据集依据不同的环境条件进行分类。数据集示例图片，如图3(a)-(d)所示：图3(a)图是远小目标在海天线附近的环境；图3(b)图是多尺度环境，即视野中存在多个目标且由于目标距离远近不同造成船体尺度相差较大的环境；图3(c)图是海雾天的环境。雾天环境中，红外辐射对海雾和大气的穿透能力强，因此，红外图像中目标可见度高于可见光图像；图3(d)图是高光照强度的场景。

二、目标检测与定位

大多数现存的多目标跟踪算法从目标如何初始化角度分为两类：DetectionBased Tracking(DBT)和Detection Free Tracking(DFT)。相对来说，DBT更受欢迎，因为它可以自动发现新目标、自动终止消失的目标，因此本发明采用DBT跟踪算法。DBT第一阶段是检测视频的每一帧中感兴趣的对象，第二阶段是在不同帧中检测到的对象之间建立对应关系以获得目标的运动轨迹。目标检测阶段需要一个视频帧作为输入，并为该帧中的目标对象输出一组边界框。根据输出的边界框，计算出该帧图像中目标的中心位置信息。本发明采用YOLOv3目标检测器来获取目标的位置信息。之所以选择YOLOv3算法，是因为YOLOv3在检测速度、检测精度和通用性等方面具有很明显的优势；此外，DLF数据集采集自远海，视频中的目标尺度较小，而YOLOv3在小目标的识别上有明显的优势。

三、训练和测试阶段

为了证明融合跟踪方法的有效性，在DLF数据集进行了三组实验，分别是单独可见光图像序列跟踪、单独红外图像图序列跟踪及基于红外和可见光图像的融合跟踪。该实验采用14对图像序列作为训练集，8对图像序列作为测试集，无论是训练集还是测试集，其中都包含了多种环境下的图像序列，如海雾，光照变化频繁和多尺度等环境，有助于测试和验证算法的环境泛化能力。

实验的硬件环境为PC机器配置(CPU为Intel Xeon CPU E5-2637，显卡为NvidiaGTX1080Ti)，操作系统为Ubuntu 16.04，深度学习框架为PyTorch 1.6.0，CUDA为NVIDIACUDA 10.01。

四、实验结果分析

本发明从以下14种多目标评价指标对跟踪器性能进行评价：IDF1、IDP、IDR、Rcll、Prcn、MT、PT、ML、FP、FN、IDs、FM、MOTA和MOTP(以上指标为本领域技术人员所公知的多目标跟踪指标，本发明实施例对此不做赘述)。表1和表2是两种跟踪实验的结果，其中最好的结果以粗体字体标识。表中的向上的箭头表示该指标值越大越好，向下的箭头表示该指标之越小越好，表中每行表示一种实验的跟踪结果。

1)综合跟踪实验结果分析

图4是从三组实验跟踪结果序列中随机选取的对应图像帧跟踪效果图。从效果图上可以明显看出，在同一时刻，就跟踪目标数量上看，VTNet在跟踪目标数量上多于单独红外和单独可见光跟踪。若仅根据跟踪效果图，无法比较出跟踪器的优劣。要评判出不同跟踪方法间的差距，就要利用跟踪指标进行定量的比较。三组实验跟踪结果的评价指标如表1所示,若以某一个序列的跟踪结果作为评价三组实验的跟踪性能，必然使得跟踪结果过于片面，所有该指标统计是所有测试序列跟踪指标的均值指标。由表1中可知，在指标IDF1，IDR，Rcll，MT，PT，ML，FN和MOTA上，VTNet跟踪均处于领先地位，虽然其它指标未能领先，但和处于领先地位的指标差距较小。MOTA和MOTP是衡量多目标跟踪两项重要指标，VTNet跟踪的MOTA指标高达75.9％，超过了红外跟踪7.3％。虽然融合跟踪在MOTP指标上排在第二位，但也仅比最高跟踪低了0.9％。红外跟踪中的IDs指标低于可见光的，是因为可见光图像对目标的辨识度高于红外图像。综上分析，VTNet相比于单源数据跟踪，在提升多船舶跟踪性能方面的效果是显而易见的。

表1

2)海雾环境实验结果分析

为了进一步验证VTNet对海上特殊环境下的目标跟踪性能的提升，针对海雾环境下的跟踪进行了测试。海雾环境中，红外辐射穿透海雾的能力高于可见光，因此，可见光中目标的可见度远低于红外图像。海雾天气中的多船舶跟踪结果如表2所示，可见光跟踪的MOTA，MOTP等指标低于红外指标。融合跟踪利用了红外和可见光的优势互补性，可以兼顾目标的可见度和辨识度，进而提高目标的跟踪性能。由跟踪指标可知，VTNet在MOTA，MOTP，IDF1和IDR等跟踪指标上处于领先地位。实验结果证明了VTNet对雾天环境的有效性。

表2

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

综上，本发明涉及一种基于可见光和红外图像的多船舶融合跟踪方法，属于模式识别、计算机视觉技术领域。该方法包括：检测视频的每帧图像中的船舶对象；将所有待输入的红外和可见光图像对进行预处理；将预处理后的两帧图像对及图像中船舶目标的中心位置信息输入特征提取网络，提取船舶的特征向量，实现对船舶外观特征的建模；将获得的船舶的外观特征输入相似度估计模块中，求取前后两视频帧的关联矩阵；借助匈牙利算法关联船舶目标，更新目标跟踪轨迹，进而实现多船舶的稳定跟踪。本发明采用特征级融合跟踪方案，通过增添红外特征提取流，引入特征融合层并利用L₁范数分配融合权重，实现了基于红外和可见光图像的多船舶自适应融合跟踪。本发明解决了基于单源图像的多船舶跟踪易受海上特殊环境条件的约束而无法实现对多船舶的稳定跟踪的问题，从而满足了多船舶跟踪技术的全天候的应用需求。

Claims

1.一种基于可见光和红外图像的多船舶融合跟踪方法，其特征在于：步骤如下：

S2：将所有待输入的红外和可见光图像对进行预处理；

2.根据权利要求1所述的一种基于可见光和红外图像的多船舶融合跟踪方法，其特征在于：步骤S2具体包括：

3.根据权利要求1或2所述的一种基于可见光和红外图像的多船舶融合跟踪方法，其特征在于：S3具体为：首先增添红外图像特征提取流，将图像对并行输入特征提取流以提取特征图；在特征提取流的9个固定位置层抽取9对卷积层输出的红外和可见光特征图对；将提取的9层不同空间尺度的特征图对输入引入的特征图融合层，利用设计的融合策略分配融合权重，实现红外和可见光特征图对的自适应融合；将融合后的特征图输入特征向量提取网络，获取每帧图像的特征矩阵；具体步骤如下：

4.根据权利要求3所述的一种基于可见光和红外图像的多船舶融合跟踪方法，其特征在于：步骤S31中红外特征提取流具体为：该特征提取流是由VGG卷积层和Extension卷积层共同构成的深度卷积流，VGG卷积层是在VGG16的基础上将全连接层和softmax层改成了卷积层，在VGG层之后，将得到的特征图通过更深的Extension卷积层进行空间降维，提取深层的图像特征；将处理后的三通道红外图像输入特征提取流，提取对应输入图像的特征图；