CN113361466B

CN113361466B - 一种基于多模态交叉指导学习的多光谱目标检测方法

Info

Publication number: CN113361466B
Application number: CN202110737860.3A
Authority: CN
Inventors: 陈莹; 朱宇; 化春键; 李祥明; 胡蒙; 裴佩
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2024-03-12
Anticipated expiration: 2041-06-30
Also published as: CN113361466A

Abstract

本发明公开了一种基于多模态交叉指导学习的多光谱目标检测方法，属于多模态信息处理技术领域。所述方法包括：将成对多模态图片送入特征生成模块生成高低层特征，从中间层特征开始，成对多模态特征送入权重感知网络。权重感知网络输出各模态的加权特征，并将其分别返回另一模态的特征生成模块，从而将加权信息以联合交叉指导的方式逐步传输到下一层，建立模态间的长期依赖关系；然后融合特征输入下一阶段的权重感知网络，以加强不同阶段融合特征之间的联系，获得更具判别力的特征；最后提取不同尺度的特征层送入检测层，生成目标的位置和得分。该方法在KAIST数据集上获得77.16％的行人检测精度，行人平均漏检率下降至25.03％。

Description

一种基于多模态交叉指导学习的多光谱目标检测方法

技术领域

本发明涉及一种基于多模态交叉指导学习的多光谱目标检测方法，属于多模态信息处理技术领域。

背景技术

多光谱目标检测算法是无人驾驶，智慧视频监控等全天候应用的关键技术。区别于传统目标检测算法只使用可见光图像作为输入源，多光谱目标检测算法同时使用可见光和红外图像作为输入源，利用可见光和红外图像的互补性，有效应对光照变化及恶劣天气的影响。

多光谱目标检测算法的关键问题是红外和可见光的信息融合问题。根据融合方式的不同，现有的多光谱目标检测算法可分为基于像素级、特征级、决策级。其中，像素级方法发生在数据层，获得的信息过于原始，一般是应用在传统方法中，较少能集成在神经网络的优化训练中；单纯基于决策级的融合大多是在测试阶段对目标检测框进行处理，缺少网络训练过程中的交互，也较少单独使用。近几年，深度学习的飞速发展，深度特征显现出明显优势，因此目前大多方法都集中在特征级融合这一类，通过多模态特征间的交互，提升多光谱目标检测的性能。

然而当前一些特征级融合方法也存在一些不足：用于模态间融合的红外和可见光特征多是独立生成，模态间未形成长期依赖关系，因此影响融合特征质量，进而导致目标检测精度低下。

发明内容

为了解决目前存在的用于模态间融合的红外和可见光特征多是独立生成，模态间未形成长期依赖关系，因此影响融合特征质量的问题，本发明提供一种基于多模态交叉指导学习的多光谱目标检测方法，所述方法包括：

构建基于多模态交叉指导学习的多光谱目标检测网络，所述基于多模态交叉指导学习的多光谱目标检测网络包括多模态特征交叉指导生成模块和检测模块；其中多模态特征交叉指导生成模块包含红外特征生成单元、可见光特征生成单元和权重感知单元；

将成对的红外和可见光图片经由多模态特征交叉指导生成模块生成各级红外特征、可见光特征和融合特征，送入检测模块，得到行人目标的分类分数和定位框。

可选的，所述将成对的可见光和红外图片送入多模态特征交叉指导生成模块生成各级红外特征、可见光特征和融合特征，送入检测模块，得到行人目标的分类分数和定位框，包括：

将成对的可见光和红外图片送入多模态特征交叉指导生成模块生成各级红外特征、可见光特征和融合特征；

从中间层特征开始，成对的红外特征和可见光特征经过权重感知单元，获得各自的加权特征以及融合特征，然后可见光加权特征返回红外特征生成单元，而红外加权特征返回可见光特征生成单元，交叉指导下一阶段的特征生成，同时融合特征也输入下一阶段的权重感知单元，最后提取不同尺度的特征送入检测模块，生成行人目标的分类分数和定位框。

可选的，所述外特征生成单元和可见光特征生成单元分别由结构相同的特征提取网络组成，所述特征提取网络由Conv1-Conv5层、Conv6层、Conv7层，以及卷积层Conv8-Conv12组成；其中Conv6层、Conv7层分别为3*3的带孔卷积和1*1的卷积，所述卷积层Conv8-Conv12用于提取不同尺寸的特征。

可选的，所述权重感知单元包含一个两输入、三输出的多模态权重感知网络和三个三输入、三输出的多模态权重感知网络；其中，两输入、三输出的多模态权重感知网络用于融合中间层红外特征Conv4-3_T和中间层可见光特征Conv4-3_V，剩余用于融合的红外和可见光特征对：Conv6_T、Conv6_V，Conv7_T、Conv7_V，Conv8-2_T、Conv8-2_V皆输入三输入、三输出的多模态权重感知网络获得各模态的加权特征以及融合特征。

可选的，所述两输入、三输出的多模态权重感知网络由2个级联层、2组3*3的卷积、Sigmoid激活函数以及1*1的卷积层组成；

将中间层特征对红外特征可见光特征/>先通过第一个级联层进行特征堆叠，再用两个并行的3*3卷积层分离出两个特征，然后用Sigmoid门函数获取各个模态特征的对应权值，再将权值与中间层红外特征/>可见光特征/>相乘，输出加权红外特征/>加权可见光特征/>加权红外特征/>加权可见光特征/>再通过第二个级联层进行特征堆叠，再通过1*1的卷积层进行特征的降维和信息交互，得到融合特征/>

将所述两输入、三输出的多模态权重感知网络输出的加权红外特征返回可见光特征生成网络，生成下一阶段可见光特征/>同样将所述两输入、三输出的多模态权重感知网络输出的可见光特征/>返回红外特征生成网络，生成下一阶段红外特征/>

可选的，所述三输入、三输出的多模态权重感知网络由2个级联层、3组3*3的卷积、Sigmoid激活函数以及1*1的卷积层组成；

将两输入、三输出的多模态权重感知网络输出的融合特征通过卷积操作进行维度变换，得到与红外特征/>可见光特征/>维度一致的融合特征/>

将红外特征可见光特征/>以及维度变换后的融合特征/>先通过第一个级联层进行特征堆叠，再用三个并行的3*3卷积层分离出三个特征，然后用Sigmoid门函数获取各个模态特征的对应权值，再将权值与上一级提取到的红外特征/>可见光特征/>以及融合特征/>相乘，得到加权红外特征/>加权可见光特征/>以及融合特征/>加权红外特征/>加权可见光特征/>以及融合特征/>再通过第二个级联层进行特征堆叠，再通过1*1的卷积层进行特征的降维和信息交互，得到融合特征/>最后输出加权红外特征/>加权可见光特征/>融合特征/>

将加权红外特征加权可见光特征/>分别返回可见光和红外模态特征生成网络，指导下一阶段各模态特征的生成；同时将融合特征/>输入下一阶段的多模态权重感知网络，参与下一阶段融合特征的生成。

可选的，所述基于多模态交叉指导学习的多光谱目标检测网络的损失函数是位置损失L_loc和分类损失L_conf的加权和。

可选的，所述方法还包括训练所构建的基于多模态交叉指导学习的多光谱目标检测网络：

步骤1：预处理数据集，预处理后的数据集中包含成对的归一化尺寸至512×512的红外图像和可见光图像；

步骤2：将预处理后的成对的红外图像和可见光图像输入多模态特征交叉指导生成模块，将提取到的中间层红外特征Conv4-3_T和中间层可见光特征Conv4-3_V送入两输入、三输出的多模态权重感知网络，获取三个输出：加权红外特征、加权可见光特征和融合特征Conv4-3_F；

步骤3：加权红外特征用来指导可见光特征生成网路的下一阶段特征Conv6_V的生成，加权可见光特征用来指导下一阶段红外特征Conv6_T的生成，完成模态间的交叉指导；而输出的融合特征Conv4-3_F不仅输入检测模块，而且经由卷积池化获取高层特征输入下一层的三输入、三输出的多模态权重感知网络，参与下一阶段融合特征的生成；

步骤4：下一阶段两模态特征对：Conv6_T、Conv6_V重复步骤3，交互指导直到生成融合特征Conv8-2_F；最后分别通过红外特征提取网络和可见光特征提取网络额外添加的卷积层，各自生成不同尺度的特征；

步骤5：提取不同尺度的特征送入检测模块，得到目标的分类分数和位置偏移量，以计算分类损失和位置损失的加权和，通过损失的回传，逐步优化各级特征，多次迭代以最小化损失函数，从而获得最优模型。

可选的，所述数据集采用KAIST多光谱行人检测数据集。

可选的，所述步骤1预处理数据集，包括：随机裁剪、随机翻转和随机扩展；所述随机裁剪过程中，保证随机裁剪的部分区域和任意标注框的交并比大于0.1、0.3、0.5、0.7或0.9，且满足任意标注框的中心点位置在随机裁剪的部分区域中；所述随机翻转为以0.5的概率进行水平镜像操作；所述随机扩展以0.6的概率进行扩展，扩展部分用0像素值填充。

本发明有益效果是：

本申请方法将成对多模态图片送入特征生成模块生成高低层特征，通过从中间层特征开始，成对多模态特征送入权重感知网络输出各模态的加权特征，并将其分别返回另一模态的特征生成模块，从而将加权信息以联合交叉指导的方式逐步传输到下一层，建立模态间的长期依赖关系；然后融合特征输入下一阶段的权重感知网络，以加强不同阶段融合特征之间的联系，获得更具判别力的特征；最后提取不同尺度的特征层送入检测层，生成目标的位置和得分。该方法在KAIST数据集上获得77.16％的行人检测精度，行人平均漏检率下降至25.03％。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为基于多模态交叉指导学习的多光谱目标检测方法对应的网络框图。

图2A为现有多模态特征独立生成方式的结构简图。

图2B为多模态特征互指导生成方式的结构简图。

图3A为两输入三输出的权重感知网络的结构简图。

图3B为三输入三输出权重感知网络的结构简图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于多模态交叉指导学习的多光谱目标检测方法，参见图1，所述方法包括：

实施例二：

本实施例提供一种基于多模态交叉指导学习的多光谱目标检测方法，参见图1，所述方法包括：将成对的可见光和红外图片送入多模态特征交叉指导可见光和红外特征生成模块，从中间层特征开始，成对的红外和可见光特征经过权重感知单元模块，获得各自的加权特征以及融合特征，然后可见光(红外)加权特征返回红外(可见光)特征生成单元模块，交叉指导下一阶段的特征生成，从而将来自权重感知单元模块的加权信息以联合指导的方式逐步传输到下一层，同时融合特征也输入下一阶段的权重感知单元模块，以加强高低层融合特征之间的联系，最后提取不同尺度的特征层送入检测模块层，生成目标的位置和得分。

所述方法还包括训练所构建的基于多模态交叉指导学习的多光谱目标检测网络；具体包含以下步骤：

步骤(1)：预处理数据集：

步骤1.1：为增强网络的泛化能力，对KAIST多光谱目标检测数据集中的成对红外和可见光图像采用数据增广策略；首先针对红外和可见光图像对做如下三组操作：

(1)随机裁剪：随机裁剪红外和可见光图像部分区域(patch)，保证patch和任意标注框(Ground Truth)的交并比(Intersection Over Union,IOU)大于0.1、0.3、0.5、0.7或0.9，且满足Ground Truth的中心点位置在patch中，随机裁剪可提高部分被遮挡物体的检测性能。

(2)随机翻转：以0.5的概率进行水平镜像操作，以增加样本角度的多样性。

(3)随机扩展：以0.6的概率进行扩展，扩展部分用0像素值填充。

然后单独针对红外图像和可见光图像进行色彩变换和图像增强，即随机改变可见光图像的亮度、对比度、色度以及饱和度等，使用限制对比度的自适应直方图均衡方法对红外图像做图像增强。

步骤1.2：将所有图像尺寸归一化至512×512；

本申请采用公开的数据集对所建立的基于多模态交叉指导学习的多光谱目标检测网络进行训练，KAIST多光谱行人检测数据集是2015年由韩国KAIST大学制作的行人检测数据集，提供常规交通场景下的红外视频序列以及可见光视频序列，并通过相机校准等方法进行严格的图像配准，也是目前为止唯一一个大型的、提供成对对齐的可见光和红外图像的数据集。

KAIST数据集的详细介绍可参考Hwang Soonmin的“Multispectral pedestriandetection:Benchmark dataset and baseline”，该文章于2015年发表在《IEEEConference on Computer Vision and Pattern Recognition》第1037-1045页。

步骤(2)：构建网络模型：参见图1，本申请构建的基于多模态交叉指导学习的多光谱目标检测网络的整体网络框架由多模态特征交叉指导生成模块和检测模块组成，其中，多模态特征交叉指导生成模块中还包含红外特征生成单元、可见光特征生成单元、权重感知单元。

步骤2.1：由于是多模态输入，多模态特征交叉指导生成模块中的红外特征生成单元和可见光特征生成单元分别由结构相同的特征提取网络组成：即红外和可见光的特征生成网络。两个特征提取网络均以VGG16网络为基础网络，与VGG16网络中Conv1-Conv5层后是全连接层FC6、FC7不同，本申请提供的红外和可见光的特征生成网络利用3*3的带孔卷积和1*1的卷积代替FC6、FC7两个全连接层，生成两个新的卷积特征，命名为Conv6和Conv7。因此红外和可见光的特征生成网络均由Conv1-Conv5层、Conv6层、Conv7层，以及一系列额外添加的卷积层Conv8-Conv12组成，额外添加的卷积层Conv8-Conv12一方面是用于获取更高层次的语义信息，一方面是完成多尺度检测，即要在不同尺寸的特征层上做检测。

下面将通过比较两种多模态特征的生成方式来具体介绍本方案的多模态特征互指导生成模块和现有的多模态特征独立生成模块的区别。

(1)现有的一般多模态特征独立生成模块

参见图2A，在特征生成阶段，红外分支和可见光分支的高层特征都是由各分支的低层特征经过一系列卷积和池化操作得到的。红外和可见光图片首先经过卷积层提取特征，并将对应层的特征取出，经过融合机制(fusion)，获取用于后期检测任务的融合特征。

为了直观的表示特征的生成过程，可用公式表示逐层特征的生成过程：其中，/>表示可见光流的第l层特征，/>表示可见光流的第l+1层特征。f(x,l)表示第l层的卷积池化以及激活操作，那么根据链式法则，可以推出对应损失函数/>在特征上的反向传播公式为：

红外流上的特征对应的反向传播为：

(2)本申请提供的多模态特征交叉指导生成模块

参见图2B，与上述一般多模态特征独立生成模块不同，多模态特征交叉指导生成模块中，红外和可见光两模态的特征先送入权重感知单元，获得对应的加权红外特征、加权可见光特征以及融合特征，然后加权红外特征以相加的方式叠加至可见光模态共同指导下一层可见光特征的生成，同样加权可见光特征也以相加的方式叠加至红外模态共同指导下一层红外特征的生成，从而完成模态间的交叉指导。

可见光特征的生成方式如式所示：其中τ(·)表示特征相加的指导方式，根据链式法则可以求得对应的反向传播为：

其中表示红外特征和可见光特征经过权重感知单元后，红外特征获得的加权特征，ψ(·)表示权重感知单元的加权操作。

同样红外流上的特征生成方式为：

反向传播为：

其中，表示红外特征和可见光特征经过权重感知单元后，可见光特征获得的加权特征。

显然，本申请提供的交叉指导生成模块下，可见光特征的生成包含了红外加权特征/>和可见光特征/>的共同参与，其中，红外加权特征/>也是/>经由权重感知机制评估权重获得的，因此，可见光特征的生成是依据可见光和红外特征的联合指导，红外亦然。

对比一般的多模态特征独立生成机制中，可见光(红外)特征的生成只由上一层可见光(红外)特征生成，互指导生成模块能够加深多模态网络之间的联系，建立更深入、更准确的模态关联，从而获得更具判别力的增强特征，提升目标检测性能。同时，区别于一般的多模态特征独立生成模块中经过融合机制获取的融合特征直接输入检测层，本申请提供的交互指导生成模块将融合特征输入下一阶段权重感知机制参与下一阶段融合特征的生成，让各特征之间的联系更为密切。红外流和可见光流交互指导生成网络均共享网络参数，以减小参数量，节约训练时间。

步骤2.2：权重感知单元包含一个两输入、三输出的多模态权重感知网络和三个三输入、三输出的多模态权重感知网络；两输入、三输出的多模态权重感知网络和三输入、三输出的多模态权重感知网络的结构分别参见图3A和图3B。两输入、三输出的多模态权重感知网络只在融合中间层红外和可见光特征：Conv4-3_T、Conv4-3_V时使用，剩余用于融合的红外和可见光特征对Conv6_T、Conv6_V，Conv7_T、Conv7_V，Conv8-2_T、Conv8-2_V皆输入三输入、三输出的多模态权重感知网络获得各模态的加权特征以及融合特征；第三个输入是由上一层经过多模态权重感知网络获得的融合特征经过卷积操作后获得的高层融合特征/>

参见图3A和图3B，两者皆由级联层、几组3*3的卷积、Sigmoid激活函数以及1*1的卷积层组成。

对于两输入、三输出的多模态权重感知网络，将中间层特征对红外特征可见光特征/>先通过第一个级联层进行特征堆叠，再用两个并行的3*3卷积层分离出两个特征，然后用Sigmoid门函数获取各个模态特征的对应权值，再将权值与中间层红外特征/>可见光特征/>相乘，输出加权红外特征/>加权可见光特征/>加权红外特征/>加权可见光特征/>再通过第二个级联层进行特征堆叠，再通过1*1的卷积层进行特征的降维和信息交互，得到融合特征/>

对于第一个三输入、三输出的多模态权重感知网络，也即与两输入、三输出的多模态权重感知网络相邻的三输入、三输出的多模态权重感知网络，将两输入、三输出的多模态权重感知网络输出的融合特征通过卷积操作进行维度变换，得到与红外特征/>可见光特征/>维度一致的融合特征/>

然后将红外特征可见光特征/>以及维度变换后的融合特征/>先通过第一个级联层进行特征堆叠，再用三个并行的3*3卷积层分离出三个特征，然后用Sigmoid门函数获取各个模态特征的对应权值，再将权值与上一级提取到的红外特征/>可见光特征以及融合特征/>相乘，得到加权红外特征/>加权可见光特征/>以及融合特征加权红外特征/>加权可见光特征/>以及融合特征/>再通过第二个级联层进行特征堆叠，再通过1*1的卷积层进行特征的降维和信息交互，得到融合特征/>最后输出加权红外特征/>加权可见光特征/>融合特征/>

将加权红外特征加权可见光特征/>分别返回可见光和红外模态特征交叉指导生成模块，指导下一阶段各模态特征的生成；同时将融合特征/>输入下一阶段的多模态权重感知网络，参与下一阶段融合特征的生成。

本申请中以上标t和v区分红外和可见光对应的特征，以上标m将融合特征与其他特征区分开，以再添加上标w将加权后的特征与其他特征区分开。

一些常用的多模态融合网络多是在某一层融合特征生成后，将特征暂存，等待后续融合特征生成后再共同处理，而根据上述内容可知，本申请在融合特征生成后，并未将特征暂存，而是让其参与下一阶段融合特征的生成，以充分利用融合特征，加深特征之间的联系。

最后一个三输入、三输出的多模态权重感知网络输出对应的加权红外特征、加权可见光特征和融合特征后，加权红外特征和加权可见光特征分别返回可见光和红外模态特征生成网络生成对应的红外特征和可见光特征，所生成的红外特征和可见光特征分别输入对应的额外卷积层以提取不同尺寸的特征，进而将所提取的不同尺寸的特征输入检测模块，同时将最后一个三输入、三输出的多模态权重感知网络输出的融合特征也输入检测模块。

步骤2.3：检测模块通过在不同尺度的特征层预设不同尺度，不同大小的先验框，利用两个并行的卷积层完成目标的分类和回归。

步骤2.4：网络损失函数：网络的整体损失函数是位置损失L_loc和分类损失L_conf的加权和，网络的整体损失函数可参见文献Liu W,Anguelov D,Erhan D,et al.SSD:Singleshot multibox detector[C].European Conference on Computer Vision.Heidelberg:Springer,2016:21-37.中的介绍，本申请未对此进行改进，因此不再赘述。

步骤(3)：训练网络模型，具体操作如下：

步骤3.1：参见图2，将步骤(1)处理过的训练集中的成对红外和可见光图像以及对应目标标注依次送入多模态特征交叉指导生成模块逐层生成红外和可见光特征；

步骤3.2：相比于浅层特征，中高层的特征往往包含着有助于缩小模态差异性的更多信息。因此，两模态特征交互从中间层Conv4-3层开始，首先，来自Conv4-3层的两个多模态特征对：Conv4-3_T、Conv4-3_V，送入两输入多模态权重感知网络，获取三个输出：加权红外特征、加权可见光特征和融合特征Conv4-3_F。

步骤3.3：加权红外特征用来指导可见光特征生成网路的下一阶段特征Conv6_V的生成，加权可见光特征用来指导下一阶段红外特征Conv6_T的生成，完成模态间的交叉指导，而输出的融合特征Conv4-3_F不仅输入检测层，而且经由卷积池化获取高层特征输入下一层的三输入权重感知网络，参与下一阶段融合特征的生成。

步骤3.4：下一阶段两模态特征对：Conv6_T、Conv6_V重复步骤3.3，交互指导直到生成融合特征Conv8-2_F。最后分别向两流网络添加额外的卷积层，以各自生成后期不同尺度的特征。

步骤3.5：提取不同尺度的融合层：Conv4-3_F、Conv7_F、Conv8-2_F，可见光模态特征层：Conv9-2_V，Conv10-2_V、Conv11-2_V、Conv12-2_V，红外模态特征层：Conv9-2_T、Conv10-2_T、Conv11-2_T、Conv12-2_T送入检测模块，得到目标的分类分数和位置偏移量，以计算分类损失和位置损失的加权和，通过损失的回传，逐步优化各级特征，多次迭代以最小化损失函数，从而获得最优模型。

用于检测的特征层尺寸参见表1：

表1：各检测层的尺寸及通道数

步骤(4)：测试网络模型：

步骤4.1：将测试集中的成对红外和可见光图像输入多模态特征交叉指导模块以提取特征，将提取的特征输入检测模块，然后再经过非极大值抑制(Non-maximumSuppression,NMS)层输出最终检测结果，其中NMS的阈值设置为0.45。

为了验证本申请提出的有效性，将本申请方法与现有先进算法ACF+T+THOG、Halfway-fusion、IAF-RCNN、Fusion-RPN、YOLO-TGB、FPN+SUM、IATDNN+IAMSS在KAIST数据集上进行了MR值和AP值的比较，这些算法的多模态特征的生成相对独立，缺乏长期深入的交互。

MR值为平均漏检率(Log-average Miss Rate,MR)，通过计算正样本丢失率和每张图片上负样本误判为正样本的数量，可得到MR值，MR值越小，检测性能越优；AP值为目标检测中通用的评价指标：平均精度(Average Precision,AP)，通过计算准确率和召回率得到AP值，值越大，检测性能越优。

比较结果参见表2(表中对最优数值加粗展示，次优数值加下划线显示)所示，可以看出本申请提出的算法在全时段获得了最低的MR值：25.03％和最高的AP值：77.16％，与次优算法IATDNN+IAMSS相比，MR值下降了1.34％，AP值上升了0.19％，与其它算法相比，性能较优于其它几种算法。

表2：本申请与不同算法在KAIST多光谱行人检测集上相关评价指标比较结果

上述几种现有先进算法介绍如下：

ACF+T+THOG，是利用ACF特征提取算法提取两模态特征，再使用特征级联方法融合多模态特征。由于是首个针对KAIST多光谱数据集提出的多光谱行人检测算法，因此常被用作Baseline算法；可参考Hwang Soonmin的“Multispectral pedestrian detection:Benchmark dataset and baseline”，该文章于2015年发表在《IEEE Conference onComputer Vision and Pattern Recognition》第1037-1045页。

Halfway-fusion，是以Faster R-CNN目标检测器为行人检测基础框架，并采用中间层特征通道堆叠策略完成红外和可见光两种模态的融合，以最大限度的整合红外和可见光信息，同时更好的保留低层的细节信息和高层的语义信息；可参考Liu Jingjing的“Multispectral deep neural networks for pedestrian detection”，该文章于2016年发表在《British Machine Vision Conference》第73.1-73.13页。

IAF-RCNN，是在多光谱行人检测框架中引入光照感知机制，通过设计一种光照感知模块来模拟外界照明情况，判断是白天或是黑夜的概率，然后根据红外模态和可见光模态在不同光照环境下的不同特性为两者分配不同权重，用于两者的加权融合；可参考LiChengyang的“Illumination-aware faster R-CNN for robust multispectralpedestrian detection”，该文章于2019年发表在《Pattern Recognition》第161-171页。

YOLO-TGB，是对处于数据层的红外和可见光图片做通道相加操作，再利用一阶段目标检测器YOLO为基础检测器，完成多光谱行人检测任务；可参考Maarten Vandersteegen的“Real-Time multispectral pedestrian detection with a single-pass deepneural network”，该文章于2018年发表在《International Conference on ImageAnalysis and Recognition》第419-426页。

Fusion-RPN，是使用Faster R-CNN框架中的区域建议生成网络和增强决策树分类算法(Boosted Decision Trees，BDT)协同完成多光谱行人检测，在模态融合部分沿用Halfway-fusion的中间层特征通道堆叠策略；可参考Daniel Konig的“Fullyconvolutional region proposal networks for multispectral person detection”，该文章于2017年发表在《IEEE Conference on Computer Vision and PatternRecognition》第49-56页。

FPN+SUM，是针对深度卷积神经网络的三个卷积阶段设计了三种融合架构，然后在三种融合架构上比较三种融合策略(相加、取最大值、堆叠)的性能，得出在该网络上采用相加融合策略性能最优，最后将得出的最优融合策略与基于特征金字塔网络的目标检测器(Feature Pyramid Networks for Object Detection,FPN)相结合，完成多光谱行人检测；可参考Pei Dashun的“A fast RetinaNet fusion framework for multi-spectralpedestrian detection”，该文章于2020年发表在《Infrared Physics&Technology》。

IATDNN+IAMSS，是将光照感知机制和语义分割相结合，从而利用光照感知加权机制来准确描述场景的光照条件，以学习不同光照条件(白天和夜间)下的多光谱人类相关特征，并利用光照信息和多光谱数据来生成更准确的语义分割，以提高行人检测的准确性。可参考Guan Dayan的“Fusion of multispectral data through illumination-aware deepneural networks for pedestrian detection”，该文章于2019年发表在《InformationFusion》第148-157页。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态交叉指导学习的多光谱目标检测方法，其特征在于，所述方法包括：

将成对的红外和可见光图片经由多模态特征交叉指导生成模块生成各级红外特征、可见光特征和融合特征，送入检测模块，得到行人目标的分类分数和定位框；

所述将成对的可见光和红外图片送入多模态特征交叉指导生成模块生成各级红外特征、可见光特征和融合特征，送入检测模块，得到行人目标的分类分数和定位框，包括：

从中间层特征开始，成对的红外特征和可见光特征经过权重感知单元，获得各自的加权特征以及融合特征，然后可见光加权特征返回红外特征生成单元，而红外加权特征返回可见光特征生成单元，交叉指导下一阶段的特征生成，同时融合特征也输入下一阶段的权重感知单元，最后提取不同尺度的特征送入检测模块，生成行人目标的分类分数和定位框；

所述外特征生成单元和可见光特征生成单元分别由结构相同的特征提取网络组成，所述特征提取网络由Conv1-Conv5层、Conv6层、Conv7层，以及卷积层Conv8-Conv12组成；其中Conv6层、Conv7层分别为3*3的带孔卷积和1*1的卷积，所述卷积层Conv8-Conv12用于提取不同尺寸的特征；

所述权重感知单元包含一个两输入、三输出的多模态权重感知网络和三个三输入、三输出的多模态权重感知网络；其中，两输入、三输出的多模态权重感知网络用于融合中间层红外特征Conv4-3_T和中间层可见光特征Conv4-3_V，剩余用于融合的红外和可见光特征对：Conv6_T、Conv6_V，Conv7_T、Conv7_V，Conv8-2_T、Conv8-2_V皆输入三输入、三输出的多模态权重感知网络获得各模态的加权特征以及融合特征；

所述两输入、三输出的多模态权重感知网络由2个级联层、2组3*3的卷积、Sigmoid激活函数以及1*1的卷积层组成；

所述三输入、三输出的多模态权重感知网络由2个级联层、3组3*3的卷积、Sigmoid激活函数以及1*1的卷积层组成；

将红外特征可见光特征/>以及维度变换后的融合特征/>先通过第一个级联层进行特征堆叠，再用三个并行的3*3卷积层分离出三个特征，然后用Sigmoid门函数获取各个模态特征的对应权值，再将权值与上一级提取到的红外特征/>可见光特征/>以及融合特征/>相乘，得到加权红外特征/>加权可见光特征/>以及融合特征/>加权红外特征/>加权可见光特征/>以及融合特征/>再通过第二个级联层进行特征堆叠，再通过1*1的卷积层进行特征的降维和信息交互，得到融合特征/>最后输出加权红外特征加权可见光特征/>融合特征/>

2.根据权利要求1所述的方法，其特征在于，所述基于多模态交叉指导学习的多光谱目标检测网络的损失函数是位置损失L_loc和分类损失L_conf的加权和。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括训练所构建的基于多模态交叉指导学习的多光谱目标检测网络：

4.根据权利要求3所述的方法，其特征在于，所述数据集采用KAIST多光谱行人检测数据集。

5.根据权利要求4所述的方法，其特征在于，所述步骤1预处理数据集，包括：随机裁剪、随机翻转和随机扩展；所述随机裁剪过程中，保证随机裁剪的部分区域和任意标注框的交并比大于0.1、0.3、0.5、0.7或0.9，且满足任意标注框的中心点位置在随机裁剪的部分区域中；所述随机翻转为以0.5的概率进行水平镜像操作；所述随机扩展以0.6的概率进行扩展，扩展部分用0像素值填充。