CN116363469A

CN116363469A - 一种少样本红外目标检测方法、装置和系统

Info

Publication number: CN116363469A
Application number: CN202310336246.5A
Authority: CN
Inventors: 黎云; 王浩铭; 张熠; 杨卫东
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-06-30

Abstract

本发明公开了一种少样本红外目标检测方法、装置和系统，属于少样本图像识别技术领域，利用基类预训练数据集和少样本微调数据集训练得到少样本微调模型，少样本微调模型包括：域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块；将当前红外图像输入训练好的少样本微调模型，利用域适应特征提取模块提取域相关特征适应红外场景，利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景，利用基于全局注意力机制的Transformer模块获得当前红外图像的全局特征图，从而实现目标主体识别，在少样本场景下能够准确实现红外目标检测，由此解决现有少样本场景下目标检测计算复杂度低且准确率低的技术问题。

Description

一种少样本红外目标检测方法、装置和系统

技术领域

本发明属于少样本图像识别技术领域，更具体地，涉及一种少样本红外目标检测方法、装置和系统。

背景技术

近年来，随着卷积神经网络(convolutional neural networks，CNN)在图像领域的应用和发展以及高性能计算设备的强力推进，图像分类识别技术取得了巨大成功。从2012年AlexNet到后来的VGG、GoogleNet、ResNet。以深度学习为核心的目标检测技术充分吸收了图像分类领域的研究成果，而且目标检测技术也可以应用到更多的领域包括自动驾驶、安全防护、智能监测，使得目标检测技术成为计算机视觉领域新的研究热点，许多成熟的算法模型已经成功部署到实际应用场景当中。目前基于深度学习的目标检测模型需要大量的标注样本进行训练，但在实际场景当中，往往很难获取到相应规模的高质量标注样本。而少样本学习可以在少量标签样本条件下实现对新类型目标的快速分类识别，降低了对大规模标签数据的依赖，近年来，少样本图像目标检测技术研究逐渐引起广泛关注。

如军事领域中，通过少量的情报信息识别敌方目标获取红外图像，并在截获新型目标时进行快速学习，有很好的应用前景。因为具体的军事项目，涉及到数据层面存在两个问题，一个是数据的获取难度，一个是数据保密性。所以在之前这一领域往往通过对于目标特性包括目标的大小轮廓以及与背景的相对关系研制特定的传统目标检测算法。然而，当面对各种各样的干扰包括云层、雾时、传统图像算法会出现无法适应的情况，目标被部分遮挡，目标由于干扰与背景相对差异性较小，这种场景下传统目标检测算法，往往计算复杂度高、准确率低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种少样本红外目标检测方法、装置和系统，其目的在于，提出一种少样本红外目标检测方法；将当前红外图像输入训练好的少样本微调模型，利用域适应特征提取模块提取域相关特征适应红外场景，利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景，利用基于全局注意力机制的Transformer模块获得所述当前红外图像的全局特征图，从而实现目标主体识别，在少样本场景下能够准确实现红外目标检测，由此解决现有少样本场景下目标检测计算复杂度低且准确率低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种少样本红外目标检测方法，包括：

S1：获取基类预训练数据集和少样本微调数据集，所述基类预训练数据集包括多个可见光图像，所述少样本微调数据集包括：若干红外图像和所述基类预训练数据集中的部分可见光图像；

S2：利用所述基类预训练数据集对初始目标检测网络进行训练，得到基类预训练模型；利用所述少样本微调数据集对所述基类预训练模型进行训练，得到少样本微调模型；

其中，所述少样本微调模型包括：域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块；所述域适应特征提取模块用于提取输入的查询图像和支撑图像的特征，得到查询特征和支撑特征；所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景，将所述查询特征和支撑特征进行聚合，得到融合特征；所述Transformer模块用于对所述融合特征进行编码解码处理，得到所述查询图像对应的目标特征，所述目标特征图携带目标主体的位置信息和类别信息；

S3：将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型，得到所述当前红外图像对应的述目标特征图，从中获得所述当前红外图像中目标主体的位置信息和类别信息。

在其中一个实施例中，所述查询特征支撑特征融合模块，包括：

编码单元，用于将支撑特征进行特征裁剪得到标注框区域，将所述标注框区域表征的类别原型及其对应的类别编码相加，得到综合支撑特征；

操作单元，用于将所述综合支撑特征与所述查询特征进行单头交叉注意力操作，得到所述支撑特征中感兴趣部分；

融合单元，用于将所述查询特征和所述支撑特征中感兴趣部分进行融合，得到所述融合特征。

在其中一个实施例中，所述融合单元，用于将所述查询特征和所述支撑特征中感兴趣部分进行点积，使得所述查询特征中包含支撑特征中感兴趣部分；最后通过全连接层得到所述融合特征。

在其中一个实施例中，所述类别原型对应的类别编码表示为：

CE_(c,2i)＝sin(c/10000^2i/d)

CE_(c,2i+1)＝cos(c/10000^2i/d)

其中，d代表特征维度，c代表当前类别原型，CE_(c,2i)表示c类别中第2i个特征的编码，CE_(c,2i)表示c类别中第2i+1个特征的编码。

在其中一个实施例中，所述域适应特征提取模块包括：

多个压缩激励单元，用于作为域适应库用于输入图像X在不同域上进行特征获取，得到各个域对应的特征X_USE；

域注意力单元，用于对各个域的特征进行全局池化，并依次经过全连接层和softmax层，得到各个域的特征对应的权重S_DA；

计算单元，用于将权重S_DA加载在对应的特征上，即X_DA＝X_USES_DA；将X_DA经过sigmoid后与所述输入图像X进行点积，得到输出特征；

其中，当所述压缩激励单元的输入图像为所述查询图像时，所述计算单元的输出为所述查询特征；当所述压缩激励单元的输入图像为支撑集中的图像时，所述计算单元的输出为所述支撑特征。

在其中一个实施例中，所述Transformer模块包括：

编码器单元包括多个级联的第一子层，每个所述第一子层包括一个多头自注意力和一个前馈网络，相邻所述第一子层由残差连接，所述编码器单元用于输入所述融合特征及其对应的位置编码，输出得到编码特征；

解码器单元，包括多个级联的第二子层，每个所述第二子层包括两个多头自注意力和一个前馈网络，相邻所述第一子层由残差连接，所述解码器单元用于输入所述编码特征，输出所述查询图像对应的目标特征。

在其中一个实施例中，所述初始目标检测网络的总损失函数包括：二分匹配损失L_match、附加损失L_aux、支撑集类别损失L_p和边界损失L_m；所述总损失函数表示为：L＝L_match+L_max+λ_pL_p+λ_mL_m；λ_p与λ_m为预设的权重超参数。

在其中一个实施例中，所述边界损失L_m表示为：

其中，N为类别总数；IntraDistance_i表示第i个类别对应的内部距离，

InterDistance_i表示第i个类别对应的类别间距离，

p_ik表示类别i的第k个原型向量，其平均原型表示为

m_j表示类别j的平均原型。

按照本发明的另一方面，提供了一种少样本红外目标检测装置，用于执行所述少样本红外目标检测方法，包括：

获取模块，用于获取基类预训练数据集和少样本微调数据集，所述基类预训练数据集包括多个可见光图像，所述少样本微调数据集包括：若干红外图像和所述基类预训练数据集中的部分可见光图像；

训练模块，用于利用所述基类预训练数据集对初始目标检测网络进行训练，得到基类预训练模型；利用所述少样本微调数据集对所述基类预训练模型进行训练，得到少样本微调模型；

检测模块，用于将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型，得到所述当前红外图像对应的述目标特征图，从中获得所述当前红外图像中目标主体的位置信息和类别信息。

按照本发明的另一方面，提供了一种少样本红外目标检测系统，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提出一种少样本红外目标检测方法；将当前红外图像输入训练好的少样本微调模型；其中的域适应特征提取模块能够使网络从可见光数据集中学习到通用知识，再通过少样本微调，从而使得网络适用于红外场景；利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景，利用基于全局注意力机制的Transformer模块获得所述当前红外图像的全局特征图，从而实现目标主体识别，在少样本场景下能够准确实现红外目标检测。

(2)本发明的查询特征支撑特征融合模块将支撑特征进行特征裁剪得到标注框区域，将所述标注框区域表征的类别原型及其对应的类别编码相加，得到综合支撑特征；将所述综合支撑特征与所述查询特征进行单头交叉注意力操作，得到所述支撑特征中感兴趣部分；将所述查询特征和所述支撑特征中感兴趣部分进行融合得到所述融合特征；本发明利用查询特征支撑特征融合模块支撑特征和查询特征进行融合，应用到红外少样本目标检测领域，不需要传统的区域建议和非极大值抑制算法(Non-maximum suppression，NMS)后处理，属于端到端的模型，降低了红外少样本目标检测方法的计算复杂度。

(3)本发明采用包括边界损失的总损失函数训练初始目标检测网络，对训练过程中的特征空间进行了约束，使得同类别的样本彼此靠近，不同类别样本尽可能远离，最终得到少样本微调模型检测准确率更高。

附图说明

图1为本发明实施例1提供的少样本红外目标检测方法的流程图。

图2为本发明实施例1提供的少样本目标检测网络的结构是示意图。

图3为本发明实施例2提供的查询特征支撑特征融合模块的结构示意图。

图4为本发明实施例5提供的域适应特征提取模块的结构示意图。

图5为本发明实施例6提供的Transformer模块的结构结构图。

图6为本发明实施例8提供的红外检测图像检测的结果仿真图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1

如图1所示，本实施例提供了一种少样本红外目标检测方法，包括：

S1：获取基类预训练数据集和少样本微调数据集，基类预训练数据集包括多个可见光图像，少样本微调数据集包括：若干红外图像和基类预训练数据集中的部分可见光图像。

S2：利用基类预训练数据集对初始目标检测网络进行训练，得到基类预训练模型；利用少样本微调数据集对基类预训练模型进行训练，得到少样本微调模型。

其中，如图2所示，少样本微调模型包括：域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块；域适应特征提取模块用于提取输入的查询图像和支撑图像的特征，得到查询特征和支撑特征；查询特征支撑特征融合模块用于通过元学习方法适应少样本场景，将查询特征和支撑特征进行聚合，得到融合特征；Transformer模块用于对融合特征进行编码解码处理，得到查询图像对应的目标特征，目标特征图携带目标主体的位置信息和类别信息。

S3：将所有类支撑集和当前红外图像对应的查询图像输入少样本微调模型，得到当前红外图像对应的述目标特征图，从中获得当前红外图像中目标主体的位置信息和类别信息。

需要说明的是，以海上舰船采集的红外图像数据为例，基类预训练数据集使用可见光Pascal VOC数据集中15个类别作为基类，每个类别都有丰富的标注数据；少样本微调数据集包括红外少样本数据和部分PascalVOC可见光数据，引入红外作为新类，红外数据使用Vega仿真的海面场景红外图像。样本图像为640×512像素的单通道图像，其中背景叠加随机的黑云干扰，红外训练数据包含k(k值一般取1，5，10)个标注，为了平衡基类和新类之间的数据分布，少样本微调数据集也包含基类15个类别的部分可见光数据样本，其中每类只包含3k个标注信息。组织基类预训练和少样本微调的训练数据时遵循Episode方法，在每一次前向运算中被输入网络的数据称为一个任务，而每一个任务由查询集和支撑集组成，查询集中只包含一张查询图像，支撑集中包含N张支撑图像。N取5，每一张支撑图像对应一个类别。支撑集的标注信息在训练时是可见的，而查询集的标注信息只用于计算损失以及衡量网络的检测精度。

实施例2

如图3所示，查询特征支撑特征融合模块，包括：

编码单元，用于将支撑特征进行特征裁剪得到标注框区域，将标注框区域表征的类别原型及其对应的类别编码相加，得到综合支撑特征；

操作单元，用于将综合支撑特征与查询特征进行单头交叉注意力操作，得到支撑特征中感兴趣部分；

融合单元，用于将查询特征和支撑特征中感兴趣部分进行融合，得到融合特征。

实施例3

融合单元，用于将查询特征和支撑特征中感兴趣部分进行点积，使得查询特征中包含支撑特征中感兴趣部分；最后通过全连接层得到融合特征。

具体的，查询特征支撑特征融合模块用于将查询特征和多个支撑集类别特征进行聚合，首先对支撑特征进行RoIAlign获取图像中的标注框部分信息作为代表类别的原型，再对类别进行编码，将类别编码和类别原型进行相加，得到最后的综合支撑特征，再使用综合支撑特征和查询特征进行单头交叉注意力操作，将单头注意力输出的结果作为调整系数对查询特征进行调整。最终通过点积运算从而使得查询特征中包含支撑特征中感兴趣的部分，最后再通过全连接层得到最终融合特征。

实施例4

类别原型对应的类别编码表示为：

CE_(c,2i)＝sin(c/10000^2i/d)；

CE_(c,2i+1)＝cos(c/10000^2i/d)；

实施例5

如图4所示，域适应特征提取模块包括：

计算单元，用于将权重S_DA加载在对应的特征上，即X_DA＝X_USES_DA；将X_DA经过sigmoid后与输入图像X进行点积，得到输出特征；

具体地，域适应特征提取模块，其作用是对图像特征进行学习，并且针对不同域的图像特征进行不同的学习。在ResNet的基础上引入多个SE模块作为域适应库用于不同域特征获取，具体公式如下：

其中，N代表SE模块的个数，

代表每个SE模块的输出；同时引入域注意力机制，域注意力部分用于产生各个域对应权重，用于组合各个SE模块。域注意力模块首先对特征图应用全局池化，之后经过全连接层之后跟上softmax层为SE模块提供权重，具体公式如下：

S_DA＝F_DA(X)＝softmax(W_DAF_avg(X))；

获得的S_DA作为通用域适应库输出的权重获得域适应模块的输出X_DA，具体公式如下：

X_DA经过sigmoid之后作为权重和原始输入作点积得到最终的输出，具体公式如下：

其中，当压缩激励单元的输入图像为查询集中的图像时，计算单元的输出为查询特征；当压缩激励单元的输入图像为支撑集中的图像时，计算单元的输出为支撑特征。

实施例6

如图5所示，Transformer模块包括：

编码器单元包括多个级联的第一子层，每个第一子层包括一个多头自注意力和一个前馈网络，相邻第一子层由残差连接，编码器单元用于输入融合特征及其对应的位置编码，输出得到编码特征；

解码器单元，包括多个级联的第二子层，每个第二子层包括两个多头自注意力和一个前馈网络，相邻第一子层由残差连接，解码器单元用于输入编码特征，输出查询图像对应的目标特征。

具体地，Transformer编码器和解码器包括编码器和解码器两个部分，结构参考图5，编码器由6个具有相同结构的层组成，编码器的输入包括经过提取特征之后的特征图，同时还包括位置编码，位置编码具体公式如下：

PE_(posx,2i)＝sin(posx/10000^4i/d)

PE_(posx,2i+1)＝cos(posx/10000^4i/d)

PE_(posy,2i)＝sin(posy/10000^4i/d)

PE_(posy,2i+1)＝cos(posy/10000^4i/d)

其中posx和posy分别代表特征图的x与y坐标，d代表特征维度。编码器每层包含2个子层：多头自注意力和前馈网络，每组子层进行残差连接，在最后进行归一化处理；解码器的输入包括编码器的输出以及object queries，object queries是N个可学习的嵌入变量，训练刚开始时可以随机初始化，解码器的结构和编码器结构类似，也是由6个具有相同结构的子层构成，但每个子层多一个多头注意力层，用于编码器的输出与object queries的关系建模。

实施例7

初始目标检测网络的总损失函数包括：二分匹配损失L_match、附加损失L_aux、支撑集类别损失L_p和边界损失L_m；总损失函数表示为：L＝L_match+L_aux+λ_pL_p+λ_mL_m；λ_p与λ_m为预设的权重超参数。

具体地，网络训练总的损失函数可以表示如下，包括四个部分，分别为二分匹配损失L_match，附加损失L_aux，支撑集类别损失L_p和边界损失L_m：

L＝L_match+L_aux+λ_pL_p+λ_mL_m。

其中，二分匹配损失函数L_match表示为：

表示当ct_i≠φ取值为1，否则取值为0，其中网络输出结果表示为

ground-truth标注框表示为/>

二分匹配损失函数L_match主要由两部分组成，类别损失L_cls以及框损失L_box，具体公式表示如下：

类别损失中，其中p_i代表sigmoid输出概率，α_i代表当前属于哪个类别，γ参数用于平衡难易划分样本；框损失使用L1loss以及GIou loss来计算，其中λ_cls、λ_iou和λ_L1为权重超参数，本发明训练时使用λ_cls＝2，λ_iou＝2，λ_L1＝5。

附加损失L_aux表示为：

对于Transformer中每一个解码器层，在后面的输出都加上全连接层得到输出结果，所有的全连接层共享权重，输出结果和标注框以及标注类别来计算损失，其中每一层的损失L_cls和L_box同二分匹配损失中公式计算，总体附加损失函数计算公式如下，其中m代表解码器的层数：

支撑集类别损失L_p，使用一个维度为(d，C)的全连接层对支撑集原型进行映射，C为类别总数，使得不同类别的支撑集彼此进行区分，这里使用交叉熵损失来进行度量。

边界损失L_m，每个类的原型向量需要足够靠近它们的平均原型向量，而对于不同类别则需要足够远离，对于类别i的第k个原型向量p_ik，它的平均原型表示为

类别内部的距离为/>

类别之间的距离为

对于由特征提取器提取到的支撑集特征向量，定义两个类别i和j之间的边界距离M_ij为两个类别中特征向量距离决策边界最近的距离之和，其中j代表距离类别i最近的类别，M_ij很难直接进行计算衡量，在这里考虑对M_ij进行一个估计，对于M_ij而言，它的上界其实就是类别之间的距离即InterDistance_i，而它的下界则为类别之间的距离减去类别i类内距离再减去类别j类内距离即IntraDistance_i-IntraDistance_i-IntraDistance_j。

实施例8

边界损失L_m表示为：

IntraDistance_i表示第i个类别对应的类别间距离，

p_ik表示类别i的第k个原型向量，其平均原型表示为

m_j表示类别j的平均原型。

具体的，为了增大两个类别的边界距离M_ij，可以通过增大它的上界以及下界，即增大InterDistance_i的同时减少IntraDistance_i和IntraDistance_j，因此设计边界损失L_m来使得每个类别类内距离尽可能小，类间距离尽可能大，边界损失L_m表示为：

为了验证本实施例对于少样本场景下红外目标的有效性，将其与现有主流少样本目标检测模型Meta-RCNN、FSCE进行对比实验。实验中，所有模型采用相同的训练集与测试集，采用1-shot、5-shot和10-shot以及平均精度50(AP50)作为评价指标，其中k-shot代表少样本微调阶段红外类别只有k个标注样本，实验结果如表1所示。根据结果可知，本发明方法在各种少样本设置下都达到最高的检测精度，另外本发明在10-shot设置下部分测试数据集检测结果如图6所示。

表1

实施例9

本实施例提供了一种少样本红外目标检测装置，用于执行少样本红外目标检测方法，包括：

获取模块，用于获取基类预训练数据集和少样本微调数据集，基类预训练数据集包括多个可见光图像，少样本微调数据集包括：若干红外图像和基类预训练数据集中的部分可见光图像；

训练模块，用于利用基类预训练数据集对初始目标检测网络进行训练，得到基类预训练模型；利用少样本微调数据集对基类预训练模型进行训练，得到少样本微调模型；

其中，少样本微调模型包括：域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块；域适应特征提取模块用于提取输入的查询图像和支撑图像的特征，得到查询特征和支撑特征；查询特征支撑特征融合模块用于通过元学习方法适应少样本场景，将查询特征和支撑特征进行聚合，得到融合特征；Transformer模块用于对融合特征进行编码解码处理，得到查询图像对应的目标特征，目标特征图携带目标主体的位置信息和类别信息；

检测模块，用于将所有类支撑集和当前红外图像对应的查询图像输入少样本微调模型，得到当前红外图像对应的述目标特征图，从中获得当前红外图像中目标主体的位置信息和类别信息。

实施例10

本实施例提供了一种少样本红外目标检测系统，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述方法的步骤。

实施例11

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法的步骤。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种少样本红外目标检测方法，其特征在于，包括：

其中，所述少样本微调模型包括：域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块；所述域适应特征提取模块用于提取输入的查询集图像和支撑集图像的特征，得到查询特征和支撑特征；所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景，将所述查询特征和支撑特征进行聚合，得到融合特征；所述Transformer模块用于对所述融合特征进行编码解码处理，得到所述查询图像对应的目标特征，所述目标特征图携带目标主体的位置信息和类别信息；

2.如权利要求1所述的少样本红外目标检测方法，其特征在于，所述查询特征支撑特征融合模块，包括：

3.如权利要求2所述的少样本红外目标检测方法，其特征在于，所述融合单元，用于将所述查询特征和所述支撑特征中感兴趣部分进行点积，使得所述查询特征中包含支撑特征中感兴趣部分；最后通过全连接层得到所述融合特征。

4.如权利要求2所述的少样本红外目标检测方法，其特征在于，所述类别原型对应的类别编码表示为：

CE_(c,2i)＝sin(c/10000^2i/d)

CE_(c,2i+1)＝cos(c/10000^2i/d)

5.如权利要求1所述的少样本红外目标检测方法，其特征在于，所述域适应特征提取模块包括：

6.如权利要求1所述的少样本红外目标检测方法，其特征在于，所述Transformer模块包括：

7.如权利要求1所述的少样本红外目标检测方法，其特征在于，所述初始目标检测网络的总损失函数包括：二分匹配损失L_match、附加损失L_aux、支撑集类别损失L_p和边界损失L_m；所述总损失函数表示为：L＝L_match+L_aux+λ_pL_p+λ_mL_m；λ_p与λ_m为预设的权重超参数。

8.如权利要求7所述的少样本红外目标检测方法，其特征在于，所述边界损失L_m表示为：

InterDistance_i表示第i个类别对应的类别间距离，

p_ik表示类别i的第k个原型向量，其平均原型表示为

m_j表示类别j的平均原型。

9.一种少样本红外目标检测装置，其特征在于，用于执行权利要求1-8任一项所述少样本红外目标检测方法，包括：

10.一种少样本红外目标检测系统，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。