CN113449680A

CN113449680A - 一种基于知识蒸馏的多模小目标检测方法

Info

Publication number: CN113449680A
Application number: CN202110798886.9A
Authority: CN
Inventors: 李伟; 王昊; 黄展超; 陶然
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-09-28
Anticipated expiration: 2041-07-15
Also published as: CN113449680B

Abstract

本发明公开了一种基于知识蒸馏的多模小目标检测方法，包括构建可见光‑多光谱图像数据本征知识迁移模型，利用空谱联合的非局部特征金字塔视觉注意力结构进行特征精炼，以及通过基于空谱联合特征迁移的知识蒸馏模型精炼多光谱空谱联合特征得到高精度、高效率深度神经网络三个主要步骤。本发明能够利用可见光大数据对目标本征知识进行迁移解决多光谱数据样本不充足的问题，通过非局部注意力提升检测识别鲁棒性，并且通过知识蒸馏后的神经网络参数数量精简、计算资源开销降低，能够轻量化运行。

Description

一种基于知识蒸馏的多模小目标检测方法

技术领域

本发明涉及多模小目标检测识别，特别是涉及一种基于知识蒸馏的多模小目标检测方法。

背景技术

通过多模成像，既有空间信息，还有光谱信息；综合利用这些信息进行目标识别相比单独使用可见光和红外数据进行目标识别有大幅精度提升。该技术在诸多领域具有广泛的应用需求，包括在海上搜救人员、船只、漂浮物等目标，在机场、城市安防系统中探测识别飞机、无人机、鸟等低慢小目标；同时它还在要地防空、航空侦测、森林防火等场景下发挥重要作用。

目前存在一些通过深度学习的方法进行多模光电小目标检测的方法，但是在实际强对抗战场环境场景下，可用的多光谱图像数据样本不足，难以支撑高精度神经网络模型进行训练，因此一个能解决多光谱图像样本不足的可训练深度神经网络模型是当前该领域的重要需求之一。

另一方面针对强对抗环境复杂，通过深度神经网络模型所提取的目标特征易受复杂背景和噪声干扰；经典的卷积运算只能提取图像的局部领域特征，然而在复杂环境中，由于姿态、距离等变化使得目标之间的度量变得困难，无法有效捕捉不同目标所在不同区域特征之间的关联性，这些问题都制约了目标检测定位精度的提升和其鲁棒性。

在深度神经网络模型实际训练时，会遇到多光谱图像高维度输入导致深度神经网络参数数量多、计算资源开销大的问题，因此在高精度、高效率方面仍然需要做出较大的改进。

总结上述现存问题，可以看出，针对多光谱小目标检测问题，需要从实际场景的多光谱数据样本量、环境和噪声的复杂程度、目标的特殊形态特征以及多光谱高维度的参数量进行多方面考虑，需要针对深度网络模型的精度和效率做出较大的改进。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于知识蒸馏的多模小目标检测方法，既能解决特定环境下多光谱数据样本数量不足难以支撑高精度神经网络模型训练的问题，又具有在复杂环境和噪声的干扰下提升模型精度和鲁棒性的能力，同时模型检测精度较高，训练效率较高。

本发明的目的是通过以下技术方案来实现的：一种基于知识蒸馏的多模小目标检测方法，包括以下步骤：

S1：构建可见光-多光谱图像数据本征知识迁移模型；

S2：利用空谱联合的非局部特征金字塔视觉注意力结构进行特征精炼；

S3：通过基于空谱联合特征迁移的知识蒸馏模型精炼多光谱空谱联合特征得到高精度、高效率深度神经网络。

其中，可见光-多光谱图像数据本征知识迁移模型由可见光大数据训练的目标检测识别模型剪枝得到，再利用少量多光谱图像进行微调训练；空谱联合的非局部特征金字塔视觉注意力结构利用卷积层对空间-通道联合特征进行重编码和向量化，采用泰勒级数展开近似对非局部特征关联建模过程进行优化；空谱联合特征迁移的知识蒸馏精炼方法在FCOS模型的基础上利用光-多光谱图像数据本征知识迁移模型和空谱联合的非局部特征金字塔视觉注意力结构增强教师网络特征提取能力并训练教师网络，基于同源结构设计学生网络，将教师网络的增强后的特征图作为学生网络特征图的训练目，均方误差最小化作为训练目标，对存在目标潜在区域的部分进行知识蒸馏联合训练，得到知识蒸馏的高性能学生网络模型用于目标识别。

其中构建可见光-多光谱图像数据本征知识迁移模型流程如下：

S11:利用资源丰富、容易获取的大量可见光图像目标检测数据集，训练一个深度学习目标检测模型。

在本申请的实施例中，目标检测数据集使用公开的大型光学图像目标检测数据集，如DOTA、DIOR等，针对特定目标采集并标记的数据集，标记格式可以采取通用的voc或者coco格式；选取典型的一阶段目标检测模型如YOLOv3、FCOS等作为基础网络模型，利用目标检测数据集中大量可见光图和对应的标记像作为训练样本训练该模型，训练结束后，得到深度学习目标检测模型，实现对可见光图像中多类型、多尺度目标的高精度检测；

S12：以该模型为基础进行模型剪枝和分解，剪去与可见光目标检测任务直接关联的网络层，包括三通道的输入卷积层、面向可见光图像目标位置回归和分类的输出卷积层或全连接层、以及其他在稀疏化训练后冗余度高于预设阈值的卷积层，精简后的模型即通过可见光大数据学习到的能够提取目标本征知识的特征提取网络。

S13：将精简的特征提取网络作为多光谱目标检测与智能识别模型的网络骨架，以此为基础设计并增加面向多光谱图像目标检测识别任务的神经网络层，包括输入和预处理多光谱图像的卷积层(依据多光谱的波段数选择通道数)、多光谱图像空谱联合特征的提取和融合层(由学习多光谱图像谱间关联特征的卷积模块，目标的空间特征卷积模块构成)、多光谱目标检测分支的输出卷积层(包括回归预测目标的位置，包括中心点、目标长宽尺寸参数，目标检测概率)、多光谱目标分类与识别分支的输出卷积层，最终得到用于多光谱目标初次粗检测的深度神经网络模型。

S14:利用少量多光谱图像对上述模型进行微调(Fine-tune)训练，训练分为两个阶段进行，训练过程采用冻结部分网络层的分阶段训练策略，使得神经网络能够通过少量的多光谱数据样本，迁移学习到在可见光大数据中提取的目标特征。在神经网络训练的第一阶段，冻结基础特征提取网络的权值不更新，只通过训练更新直接关联多光谱目标检测识别任务的卷积网络层(即初次粗检测模型中新增加的卷积层)，当损失函数连续十个轮次稳定下降后，解冻被冻结的其他卷积层进行第二阶段训练。第二阶段利用可见光-多光谱跨模态联合训练方法，同时训练两个卷积神经网络模型，直至联合损失函数收敛，提取多光谱图像的空谱联合数据特征。可见光-多光谱跨模态联合训练采用的损失函数定义为

l＝l_C(D_s,y_s)+λl_A(D_s,D_t)

式中，l_C(D_s,y_s)表示在可见光有标注数据上的目标检测识别损失，D_s,y_s分别表示训练数据和先验标签，l_A(D_s,D_t)表示模态联合训练时可见光-多光谱模型的特征一致性损失，D_t表示少量的多光谱图像数据，l表示总损失，λ表示权衡可见光-多光谱两部分网络模型的权重参数。

其中，利用空谱联合的非局部特征金字塔视觉注意力结构进行特征精炼流程如下；

S21：通过多尺度池化操作汇聚和融合雷达图像空间多尺度特征块(patch-to-patch)之间特征，该过程可以描述为：

式中，X_PA表示pyramid-aware特征图，X_n表示尺度为n的金字塔池化特征图。patch_n ^(i,j)表示原始特征图X₁中左上角坐标为(i,j)、尺寸为n×n的图像patch。采用步长为1的最大池化操作，得到一系列不同尺度的特征图并形成特征金字塔，池化后特征图每个像素包含以该像素为中心的patch区域特征信息。这样使得多尺度patches之间相关矩阵运算仍然转变为和之前一样的矩阵元素间的相关运算，同时这还保持了多尺度特征图尺寸不变。利用卷积层对空间-通道联合特征进行重编码和向量化，捕捉不同尺度目标所在图像不同区域、不同通道特征之间的非局部关联关系，实现不同尺度空间-通道特征知识的互补，提高信息的完备性，并使得抽象出的目标特征具有尺度、通道鲁棒性。

S22：采用视觉问答机制构建目标注意力机制，即

Query:θ(X)_vec＝vec(XW_θ)

Value:g(X_NP)_vec＝vec(X_NPW_g)

其中，

是对输入特征的可学习映射，vec(·)表示向量化的多尺度特征，X表示输入特征图，W表示神经网络的可学习权重。

构建非局部特征关联，使得神经网络模型学习到目标的空间长距离依赖关系

采用泰勒级数展开近似对非局部特征关联建模过程进行优化，即

式中，P表示泰勒展开的最高阶次。f^(p) _θ表示f(.)对vec(XW_θ)的p阶偏导数；

表示f(.)对

的p阶偏导数。由于两项的自变量相同，并且初始参数被设置为0，因此实际上它们可以被合并。当P确定时，相似度函数f(.)有闭式解令

采用点积(dot-product)形式，则注意力模块的输出可以表示为

在上式中，两个NC×NC维矩阵的相关运算简化为两个NC×P维(P＜＜NC)矩阵的相关运算，使得捕捉长距离依赖特征的效率得到优化，快速高效地提取到复杂海杂波场景下目标的多尺度非局部关联特征。

其中通过空谱联合特征迁移的知识蒸馏精炼流程如下：

S31：将经过S1、S2设计的训练得到的多光谱图像特征提取网络作为教师网络，在教师网络的输出特征图中对物体所在区域提取物体全局特征，共有76层卷积层，下采样32倍，并将全局特征包括空间特征和光谱特征叠加至特征图中物体的关键目标位置进行特征增强；然后将增强后的特征图作为学生网络的回归目标加入损失函数进行优化。

S32：在全局特征叠加部分，根据所训练教师网络用来提供知识蒸馏监督信息。教师网络使用FCOS模型结构，经过骨干网络和特征金字塔结构后，得到5级下采样倍率stride分别为8，16，32，64，128的特征图，这些特征图用于预测目标位置坐标、边界框尺寸以及目标类别。具体地，对于任一经过预处理后输入到神经网络的图像I，经过骨干网络和特征金字塔后的特征图分别为F_i(i＝1,2,3,…,5)＝I/stride_{i(i＝1,2,3,…,5)}，每个输出特征图F_i的通道数为position+class，其中position表示以下几个参数的总数量，即：目标的中心点(x,y)的两个坐标参数、目标边界框的宽w和高h参数；需要说明的是，中心点(x,y)和宽w和高h在此处解码为当前网格点到目标边界框的距离F_itblr，class表示目标的类别F_iclass；最终输出的特征图可以表示为F_i＝[F_itblr,F_iclass]；其维度为C×W_i×H_i，其中W_i×H_i为物体框在特征图上对应的宽与高，C＝position+class为特征图的通道数，i为输入图片中的目标的索引；。

S33：在知识蒸馏部分，为了将教师网络增强后的特征迁移至学生网络，在训练学生网络时将教师网络的参数被固定，图片分别被输入教师网络和学生网络，经过教师网络得到的特征图

经过学生网络得到的特征图分别为

将教师网络的增强后的特征图作为学生网络特征图的训练目，均方误差最小化作为训练目标。由于和物体识别任务不同，目标检测任务通常还存在许多背景区域，因此在进行知识蒸馏时只对存在目标潜在区域的部分进行蒸馏。具体而言，通过对各层特征图F_i乘上掩码矩阵M_i∈R^W×H _i实现。目标置信度大于0.5的位置值为1，否则值根据中心度量规则进行衰减至0，即

式中K^tl,br为正样本区域的点集合，越接近目标中心(即该位置存在目标的置信度越高)则M_i的值越大，说明神经网络回归预测的质量越好。因此知识蒸馏损失函数可表示为

式中，

表示焦点交叉熵损失函数

S34：训练模型并实现基于空谱联合数据的本征知识蒸馏，输出高质量多光谱图像特征，知识蒸馏过程首先训练好教师网络，而后对教师网络的输出预测使用加入温度T变量的Softmax函数：

其中x_i表示目标类别，当T数值等于1时，为标准的Softmax函数；选取数值较高的T_high通过教师网络产生Soft-target，即教师网络模型经过Softmax层输出的类别概率，每一类别都分配了概率，正样本的概率最高，而后使用Soft-target和T_high、Hard-target和T＝1作为Loss，同时训练学生网络，其中Hard-target指原始数据标注的类别标签，正样本为1，其余负样本为0，最后设置T＝1，在学生网络上进行微调。经过知识蒸馏训练后的学生网络性能高于单独训练得到的学生网络，所得到的学生网络可以作为目标检测算法的基础网络，结合目标检测算法后续结构化网络如特征金字塔网络和输出头，输出的参数包含目标的位置信息、类别概率以及置信度概率，其中位置信息包含目标的中心点坐标和长宽信息，将能够在推理预测阶段使用相同参数量和计算量可以实现更高性能的多光谱图像目标检测识别。

S35：将经过知识蒸馏训练好学生网络进行封装，移植到嵌入式TX2设备上，输入待预测的多光谱小目标图像，进行目标检测识别并输出可视化结果。

本发明中，可见光-多光谱图像数据本征知识迁移模型旨在解决多光谱数据样本不充足的问题，其可以利用资源丰富，容易获取的大量可见光图像目标检测数据集，训练一个深度学习目标检测模型，而后以该模型为基础进行模型剪枝和分解，并将该模型作为多模小目标检测模型的网络骨架，以此为基础设计并增加面向多光谱图像小目标检测任务的神经网络层，得到用于多光谱小目标检测的深度神经网络模型之后，利用少量多光谱图像对此模型进行微调训练。

本发明中，利用空谱联合的非局部特征金字塔视觉注意力结构旨在解决深度神经网络提取目标特征易受复杂背景和噪声干扰的问题；在复杂环境中，由于姿态距离等变化使得目标之间的度量变得困难，无法有效捕捉不同目标所在不同区域特征之间的关联性，即长距离依赖关系，因此非局部金字塔注意力机制旨在学习图像不同区域特征的长距离依赖关系，进而引导卷积神经网络模型学习图像中目标的有效可判特征的同时抑制复杂背景的干扰，降低目标检测网络在学习判别前景目标与背景噪声时出现正负样本分类错误的概率，提升目标检测精度与鲁棒性。

本发明中基于空谱联合特征迁移的知识蒸馏模型，主要解决多光谱图像高维度输入导致神经网络参数数量多，计算资源开销大的问题，精炼基于S2进行特征精炼后的模型，有效节省了计算资源。

本发明的有益效果是：既能解决特定环境下多光谱数据样本数量不足难以支撑高精度神经网络模型训练的问题，又具有在复杂环境和噪声的干扰下提升模型精度和鲁棒性的能力，同时模型检测精度较高，训练效率较高。

附图说明

图1为本发明的方法流程图；

图2为可见光-多光谱图像本证知识迁移方法技术图；

图3为空谱联合的非局部特征金字塔视觉注意力算法技术图；

图4为空谱联合特征迁移的知识蒸馏方法技术图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于知识蒸馏的多模小目标检测方包括以下步骤：

S1：构建可见光-多光谱图像数据本征知识迁移模型；

在一种具体实施方案中，如附图2所示，可见过-多光谱图像数据本征知识迁移模型构建流程如下：

S12：以该模型为基础进行模型剪枝和分解，剪去与可见光目标检测任务直接关联的网络层，包括三通道的输入卷积层、面向可见光图像目标位置回归和分类的输出卷积层或全连接层、以及其他在稀疏化训练后冗余度高于预设阈值的卷积层，稀疏化训练是利用深度神经网络模型的Batch Normalization层中的缩放因子γ作为重要性因子来对网络进行裁剪，即γ越小，所对应的每层卷积层中的通道越不重要，在稀疏化训练过程中可以对γ设置阈值，低于阈值的通道就会被删减。达到压缩深度神经网络模型大小的效果，精简后的模型即可通过可见光大数据学习到的能够提取目标本征知识的特征提取网络。优选的，γ的值设置为0.5时效果最好。

S13：将精简的特征提取网络作为多光谱目标检测与智能识别模型的网络骨架，以此为基础设计并增加面向多光谱图像目标检测识别任务的神经网络层，包括输入和预处理多光谱图像的卷积层、多光谱图像空谱联合特征的提取和融合层、多光谱目标检测分支的输出卷积层、以及多光谱目标分类与识别分支的输出卷积层。当输入图像尺寸为1024×1024像素时，这些卷积层的空间尺寸分别为128×128，64×64，32×32，16×16，8×8。在通道方向，输入和预处理多光谱图像的卷积层的通道数为6，即选择了可见光的RGB波段以及近、中、远红外波段。多光谱图像空谱联合特征的提取和融合层在骨干网络每个残差单元的通道数分别为64、128、256、512和1024、多光谱目标检测分支的输出卷积层的通道数为5，包括目标中心点、目标长宽尺寸参数、目标检测概率。多光谱目标分类与识别分支的输出卷积层的通道数与待识别的目标类别数相同。

S14:利用少量多光谱图像对上述模型进行微调(Fine-tune)训练，训练分为两个阶段进行，训练过程采用冻结部分网络层的分阶段训练策略，使得神经网络能够通过少量的多光谱数据样本，迁移学习到在可见光大数据中提取的目标特征，在训练时，参数可以如下设置：初始学习率为1×10^-4，最终的学习率为1×10^-6在训练过程中采用余弦退火的方式进行学习率调整，优化器可以选取Adam算法。在神经网络训练的第一阶段，训练轮次可设置100，冻结基础特征提取网络的权值不更新，只通过训练更新直接关联多光谱目标检测识别任务的卷积网络层(即初次粗检测模型中新增加的卷积层)，当损失函数连续十个轮次稳定下降后，解冻被冻结的其他卷积层进行第二阶段训练，第二阶段训练轮次设置为50，第二阶段利用可见光-多光谱跨模态联合训练方法，同时训练两个卷积神经网络模型，直至联合损失函数收敛，提取多光谱图像的空谱联合数据特征。可见光-多光谱跨模态联合训练采用的损失函数定义为

l＝l_C(D_s,y_s)+λl_A(D_s,D_t)

式中，l_C(D_s,y_s)表示在可见光有标注数据上的目标检测识别损失，D_s,y_s分别表示训练数据和先验标签，l_A(D_s,D_t)表示模态联合训练时可见光-多光谱模型的特征一致性损失，D_t表示少量的多光谱图像数据，l表示总损失，λ表示权衡可见光-多光谱两部分网络模型的权重参数；其中λ可设置为0.5。

在一种具体实施方案中，如附图3所示，利用空谱联合的非局部特征金字塔视觉注意力结构构建流程如下：

式中，X_PA表示pyramid-aware特征图，X_n表示尺度为n的金字塔池化特征图，其中参数n选择为1、3和5。patch_n ^(i,j)表示原始特征图X₁中左上角坐标为(i,j)、尺寸为n×n的图像patch，其中n×n选为1×1，3×3，5×5，这是由通过统计分析训练数据中目标的大小，并将其与注意力特征图的大小相比较所确定的。采用步长为1的最大池化操作，得到一系列不同尺度的特征图并形成如附图3所示特征金字塔，池化后特征图每个像素包含以该像素为中心的patch区域特征信息。这样使得多尺度patches之间相关矩阵运算仍然转变为和之前一样的矩阵元素间的相关运算，同时这还保持了多尺度特征图尺寸不变。利用卷积层对空间-通道联合特征进行重编码和向量化，捕捉不同尺度目标所在图像不同区域、不同通道特征之间的非局部关联关系，实现不同尺度空间-通道特征知识的互补，提高信息的完备性，并使得抽象出的目标特征具有尺度、通道鲁棒性。

S22：采用视觉问答机制构建目标注意力机制，即

Query:θ(X)_vec＝vec(XW_θ)

其中，

其中f表示核函数，常见的形式有Softmax、RBF以及点积，采用泰勒级数展开近似对非局部特征关联建模过程进行优化，即

式中，P表示泰勒展开的最高阶次。阶次P建议选取小于等于3的数值，当P大于3时，会影响检测精度，f^(p) _θ表示f(.)对vec(XW_θ)的p阶偏导数；

表示f(.)对

例如以采用点积(dot-product)形式为例，选取P＝1，则注意力模块的输出可以表示为

S3：通过空谱联合特征迁移的知识蒸馏模型精炼多光谱空谱联合特征得到高精度、高效率深度神经网络。

在一种具体实施方案中，如附图4所示，通过空谱联合特征迁移的知识蒸馏精炼流程如下：

S31：将经过S1、S2设计的训练得到的输入为1024×1024×3的多光谱图像特征提取网络作为教师网络，在教师网络的输出特征图中对物体所在区域提取物体全局特征，共有76层卷积层，下采样32倍，并将全局特征包括空间特征和光谱特征叠加至特征图中物体的关键目标位置进行特征增强；然后将增强后的特征图作为学生网络的回归目标加入损失函数进行优化。具体而言，76层卷积共分为7组残差卷积模块，每一组残差卷积均由上一组卷积经过步长为2的3×3卷积下采样2倍得到，取最后5个残差模块的输出作为特征金字塔的输入进行多尺度融合，同样得到5组输出用于预测。

S32：在全局特征叠加部分，根据所训练教师网络用来提供知识蒸馏监督信息。在全局特征叠加部分，根据所训练教师网络用来提供知识蒸馏监督信息。教师网络使用FCOS模型结构，经过骨干网络和特征金字塔结构后，得到5级下采样倍率stride分别为8，16，32，64，128的特征图，然后这些特征图将经过每个由2组包括3×3和1×1卷积的组合卷积构成的特征图预测模块得到模型的预测输出特征图。这些特征图用于预测目标位置坐标、边界框尺寸以及目标类别。具体地，对于任一经过预处理后输入到神经网络的图像I，经过骨干网络和特征金字塔后的特征图分别为F_i(i＝1,2,3,…,5)＝I/stride_{i(i＝1,2,3,…,5)}。具体地，中心点(x,y)和宽w和高h此处解码为当前网格点到目标边界框的距离F_itblr，class表示目标的类别F_iclass。因此最终输出的特征图可以表示为F_i＝[F_itblr,F_iclass]。具体而言，特征和图维度为C×W_i×H_i，其中W_i×H_i为物体框在特征图上对应的宽与高，C＝4+class为特征图的通道数(position＝4的情况)，i为输入图片中的目标的索引。当输入图像尺寸为1024×1024像素时，F_i(i＝1,2,3,…,5)＝I/stride_{i(i＝1,2,3,…,5)}卷积层的空间尺寸分别为128×128，64×64，32×32，16×16，8×8，通道数均为4+class。学生网络的结构与教师网络一致，但是每个残差模块的卷积层数量减少一半，即学生网络共有38层卷积层，同样输出5组不同尺度的特征图。输出特征图的通道数和空间尺寸与教师网络的5组输出特征图保持一致，便于计算联合损失函数。

经过学生网络得到的特征图分别为

式中，

表示焦点交叉熵损失函数，

表示回归和分类任务的联合损失函数。

以上所述是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应该看作是对其他实施例的排除，而可用于其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于知识蒸馏的多模小目标检测方法，其特征在于：包括以下步骤：

S1：构建可见光-多光谱图像数据本征知识迁移模型；

2.根据权利要求1所述的一种基于知识蒸馏的多模小目标检测方法，其特征在于：所述步骤S1包括以下子步骤：

S11：获取包含大量可见光图像目标检测数据集，

S12：以深度学习目标检测模型为基础进行模型剪枝和分解，剪去与可见光目标检测任务直接关联的网络层，包括三通道的输入卷积层、面向可见光图像目标位置回归和分类的输出卷积层或全连接层、以及其他在稀疏化训练后冗余度高于预设阈值的卷积层，精简后的模型即通过可见光大数据学习到的能够提取目标本征知识的特征提取网络；

S13：将精简的特征提取网络作为多光谱目标检测与智能识别模型的网络骨架，以此为基础设计并增加面向多光谱图像目标检测识别任务的神经网络层，包括输入和预处理多光谱图像的卷积层、多光谱图像空谱联合特征的提取和融合层、多光谱目标检测分支的输出卷积层、多光谱目标分类与识别分支的输出卷积层，最终得到用于多光谱目标初次粗检测的深度神经网络模型；

S14：利用少量多光谱图像对深度神经网络模型进行微调训练，训练分为两个阶段进行，训练过程采用冻结部分网络层的分阶段训练策略，使得神经网络能够通过少量的多光谱数据样本，迁移学习到在可见光大数据中提取的目标特征；在神经网络训练的第一阶段，冻结基础特征提取网络的权值不更新，只通过训练更新直接关联多光谱目标检测识别任务的卷积网络层，当损失函数连续十个轮次稳定下降后，解冻被冻结的其他卷积层进行第二阶段训练；第二阶段利用可见光-多光谱跨模态联合训练方法，同时训练两个卷积神经网络模型，直至联合损失函数收敛，提取多光谱图像的空谱联合数据特征；可见光-多光谱跨模态联合训练采用的损失函数定义为：

l＝l_C(D_s,y_s)+λl_A(D_s,D_t)

3.根据权利要求1所述的一种基于知识蒸馏的多模小目标检测方法，其特征在于：所述步骤S2包括以下子步骤：

S21：通过多尺度池化操作汇聚和融合雷达图像空间多尺度特征块之间特征，该过程描述为：

式中，X_PA表示pyramid-aware特征图，X_n表示尺度为n的金字塔池化特征图；patch_n ^(i,j)表示原始特征图X₁中左上角坐标为(i,j)、尺寸为n×n的图像patch；采用步长为1的最大池化操作，得到一系列不同尺度的特征图并形成如特征金字塔，池化后特征图每个像素包含以该像素为中心的patch区域特征信息；使得多尺度patches之间相关矩阵运算仍然转变为和之前一样的矩阵元素间的相关运算，保持多尺度特征图尺寸不变；利用卷积层对空间-通道联合特征进行重编码和向量化，捕捉不同尺度目标所在图像不同区域、不同通道特征之间的非局部关联关系，实现不同尺度空间-通道特征知识的互补，提高信息的完备性，并使得抽象出的目标特征具有尺度、通道鲁棒性；

S22：采用视觉问答机制构建目标注意力机制，即

Query:θ(X)_vec＝vec(XW_θ)

Value:g(X_NP)_vec＝vec(X_NPW_g)

其中，θ(·),

g(·)是对输入特征的可学习映射，vec(·)表示向量化的多尺度特征，X表示输入特征图，W表示神经网络的可学习权重；

构建非局部特征关联，使得神经网络模型学习到目标的空间长距离依赖关系：

采用泰勒级数展开近似对非局部特征关联建模过程进行优化，即：

式中，P表示泰勒展开的最高阶次；f^(p) _θ表示f(.)对vec(XW_θ)的p阶偏导数；

表示f(.)对

的p阶偏导数；由于两项的自变量相同，并且初始参数被设置为0，因此实际上它们能够被合并，当P确定时，相似度函数f(.)有闭式解令：

采用点积形式，将注意力模块的输出表示为：

式中，两个NC×NC维矩阵的相关运算简化为两个NC×P维矩阵的相关运算，使得捕捉长距离依赖特征的效率得到优化，从而提取到复杂海杂波场景下目标的多尺度非局部关联特征，其中P＜＜NC。

4.根据权利要求1所述的一种基于知识蒸馏的多模小目标检测方法，其特征在于：所述步骤S3包括：

S31：将经过S1、S2设计的训练得到的多光谱图像特征提取网络作为教师网络，在教师网络的输出特征图中对物体所在区域提取物体全局特征，共有76层卷积层，下采样32倍，并将全局特征包括空间特征和光谱特征叠加至特征图中物体的关键目标位置进行特征增强；然后将增强后的特征图作为学生网络的回归目标加入损失函数进行优化；

S32：在全局特征叠加部分，根据所训练教师网络用来提供知识蒸馏监督信息；教师网络使用FCOS模型结构，经过骨干网络和特征金字塔结构后，得到5级下采样倍率stride分别为8，16，32，64，128的特征图，这些特征图用于预测目标位置坐标、边界框尺寸以及目标类别；对于任一经过预处理后输入到神经网络的图像I，经过骨干网络和特征金字塔后的特征图分别为F_i(i＝1,2,3,…,5)＝I/stride_{i(i＝1,2,3,…,5)}，每个输出特征图F_i的通道数为position+class，其中position表示以下几个参数的总数量，即：目标的中心点(x,y)的两个坐标参数、目标边界框的宽w和高h参数；需要说明的是，中心点(x,y)和宽w和高h在此处解码为当前网格点到目标边界框的距离F_itblr，class表示目标的类别F_iclass；最终输出的特征图可以表示为F_i＝[F_itblr,F_iclass]；其维度为C×W_i×H_i，其中W_i×H_i为物体框在特征图上对应的宽与高，C＝position+class为特征图的通道数，i为输入图片中的目标的索引；

经过学生网络得到的特征图分别为

将教师网络的增强后的特征图作为学生网络特征图的训练目，均方误差最小化作为训练目标；由于和物体识别任务不同，目标检测任务通常还存在许多背景区域，在进行知识蒸馏时只对存在目标潜在区域的部分进行蒸馏，具体通过对各层特征图F_i乘上掩码矩阵M_i∈R^W×H _i实现；目标置信度大于0.5的位置值为1，否则值根据中心度量规则进行衰减至0，即

式中，K^tl,br为正样本区域的点集合，越接近目标中心则M_i的值越大，说明神经网络回归预测的质量越好；因此知识蒸馏损失函数表示为

式中，

表示焦点交叉熵损失函数；

其中x_i表示目标类别，当T数值等于1时，为标准的Softmax函数；选取数值较高的T_high通过教师网络产生Soft-target，即教师网络模型经过Softmax层输出的类别概率，每一类别都分配了概率，正样本的概率最高，而后使用Soft-target和T_high、Hard-target和T＝1作为Loss，同时训练学生网络，其中Hard-target指原始数据标注的类别标签，正样本为1，其余负样本为0，最后设置T＝1，在学生网络上进行微调；经过知识蒸馏训练后的学生网络性能高于单独训练得到的学生网络，所得到的学生网络可以作为目标检测算法的基础网络，结合目标检测算法后续结构化网络如特征金字塔网络和输出头，输出的参数包含目标的位置信息、类别概率以及置信度概率，其中位置信息包含目标的中心点坐标和长宽信息，将能够在推理预测阶段使用相同参数量和计算量实现更高性能的多光谱图像目标检测识别；