CN116363469A - 一种少样本红外目标检测方法、装置和系统 - Google Patents

一种少样本红外目标检测方法、装置和系统 Download PDF

Info

Publication number
CN116363469A
CN116363469A CN202310336246.5A CN202310336246A CN116363469A CN 116363469 A CN116363469 A CN 116363469A CN 202310336246 A CN202310336246 A CN 202310336246A CN 116363469 A CN116363469 A CN 116363469A
Authority
CN
China
Prior art keywords
feature
query
support
features
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310336246.5A
Other languages
English (en)
Inventor
黎云
王浩铭
张熠
杨卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310336246.5A priority Critical patent/CN116363469A/zh
Publication of CN116363469A publication Critical patent/CN116363469A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种少样本红外目标检测方法、装置和系统,属于少样本图像识别技术领域,利用基类预训练数据集和少样本微调数据集训练得到少样本微调模型,少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;将当前红外图像输入训练好的少样本微调模型,利用域适应特征提取模块提取域相关特征适应红外场景,利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景,利用基于全局注意力机制的Transformer模块获得当前红外图像的全局特征图,从而实现目标主体识别,在少样本场景下能够准确实现红外目标检测,由此解决现有少样本场景下目标检测计算复杂度低且准确率低的技术问题。

Description

一种少样本红外目标检测方法、装置和系统
技术领域
本发明属于少样本图像识别技术领域,更具体地,涉及一种少样本红外目标检测方法、装置和系统。
背景技术
近年来,随着卷积神经网络(convolutional neural networks,CNN)在图像领域的应用和发展以及高性能计算设备的强力推进,图像分类识别技术取得了巨大成功。从2012年AlexNet到后来的VGG、GoogleNet、ResNet。以深度学习为核心的目标检测技术充分吸收了图像分类领域的研究成果,而且目标检测技术也可以应用到更多的领域包括自动驾驶、安全防护、智能监测,使得目标检测技术成为计算机视觉领域新的研究热点,许多成熟的算法模型已经成功部署到实际应用场景当中。目前基于深度学习的目标检测模型需要大量的标注样本进行训练,但在实际场景当中,往往很难获取到相应规模的高质量标注样本。而少样本学习可以在少量标签样本条件下实现对新类型目标的快速分类识别,降低了对大规模标签数据的依赖,近年来,少样本图像目标检测技术研究逐渐引起广泛关注。
如军事领域中,通过少量的情报信息识别敌方目标获取红外图像,并在截获新型目标时进行快速学习,有很好的应用前景。因为具体的军事项目,涉及到数据层面存在两个问题,一个是数据的获取难度,一个是数据保密性。所以在之前这一领域往往通过对于目标特性包括目标的大小轮廓以及与背景的相对关系研制特定的传统目标检测算法。然而,当面对各种各样的干扰包括云层、雾时、传统图像算法会出现无法适应的情况,目标被部分遮挡,目标由于干扰与背景相对差异性较小,这种场景下传统目标检测算法,往往计算复杂度高、准确率低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种少样本红外目标检测方法、装置和系统,其目的在于,提出一种少样本红外目标检测方法;将当前红外图像输入训练好的少样本微调模型,利用域适应特征提取模块提取域相关特征适应红外场景,利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景,利用基于全局注意力机制的Transformer模块获得所述当前红外图像的全局特征图,从而实现目标主体识别,在少样本场景下能够准确实现红外目标检测,由此解决现有少样本场景下目标检测计算复杂度低且准确率低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种少样本红外目标检测方法,包括:
S1:获取基类预训练数据集和少样本微调数据集,所述基类预训练数据集包括多个可见光图像,所述少样本微调数据集包括:若干红外图像和所述基类预训练数据集中的部分可见光图像;
S2:利用所述基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用所述少样本微调数据集对所述基类预训练模型进行训练,得到少样本微调模型;
其中,所述少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;所述域适应特征提取模块用于提取输入的查询图像和支撑图像的特征,得到查询特征和支撑特征;所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将所述查询特征和支撑特征进行聚合,得到融合特征;所述Transformer模块用于对所述融合特征进行编码解码处理,得到所述查询图像对应的目标特征,所述目标特征图携带目标主体的位置信息和类别信息;
S3:将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型,得到所述当前红外图像对应的述目标特征图,从中获得所述当前红外图像中目标主体的位置信息和类别信息。
在其中一个实施例中,所述查询特征支撑特征融合模块,包括:
编码单元,用于将支撑特征进行特征裁剪得到标注框区域,将所述标注框区域表征的类别原型及其对应的类别编码相加,得到综合支撑特征;
操作单元,用于将所述综合支撑特征与所述查询特征进行单头交叉注意力操作,得到所述支撑特征中感兴趣部分;
融合单元,用于将所述查询特征和所述支撑特征中感兴趣部分进行融合,得到所述融合特征。
在其中一个实施例中,所述融合单元,用于将所述查询特征和所述支撑特征中感兴趣部分进行点积,使得所述查询特征中包含支撑特征中感兴趣部分;最后通过全连接层得到所述融合特征。
在其中一个实施例中,所述类别原型对应的类别编码表示为:
CE(c,2i)=sin(c/100002i/d)
CE(c,2i+1)=cos(c/100002i/d)
其中,d代表特征维度,c代表当前类别原型,CE(c,2i)表示c类别中第2i个特征的编码,CE(c,2i)表示c类别中第2i+1个特征的编码。
在其中一个实施例中,所述域适应特征提取模块包括:
多个压缩激励单元,用于作为域适应库用于输入图像X在不同域上进行特征获取,得到各个域对应的特征XUSE
域注意力单元,用于对各个域的特征进行全局池化,并依次经过全连接层和softmax层,得到各个域的特征对应的权重SDA
计算单元,用于将权重SDA加载在对应的特征上,即XDA=XUSESDA;将XDA经过sigmoid后与所述输入图像X进行点积,得到输出特征;
其中,当所述压缩激励单元的输入图像为所述查询图像时,所述计算单元的输出为所述查询特征;当所述压缩激励单元的输入图像为支撑集中的图像时,所述计算单元的输出为所述支撑特征。
在其中一个实施例中,所述Transformer模块包括:
编码器单元包括多个级联的第一子层,每个所述第一子层包括一个多头自注意力和一个前馈网络,相邻所述第一子层由残差连接,所述编码器单元用于输入所述融合特征及其对应的位置编码,输出得到编码特征;
解码器单元,包括多个级联的第二子层,每个所述第二子层包括两个多头自注意力和一个前馈网络,相邻所述第一子层由残差连接,所述解码器单元用于输入所述编码特征,输出所述查询图像对应的目标特征。
在其中一个实施例中,所述初始目标检测网络的总损失函数包括:二分匹配损失Lmatch、附加损失Laux、支撑集类别损失Lp和边界损失Lm;所述总损失函数表示为:L=Lmatch+LmaxpLpmLm;λp与λm为预设的权重超参数。
在其中一个实施例中,所述边界损失Lm表示为:
Figure BDA0004156538120000041
其中,N为类别总数;IntraDistancei表示第i个类别对应的内部距离,
Figure BDA0004156538120000042
InterDistancei表示第i个类别对应的类别间距离,
Figure BDA0004156538120000043
pik表示类别i的第k个原型向量,其平均原型表示为
Figure BDA0004156538120000044
mj表示类别j的平均原型。
按照本发明的另一方面,提供了一种少样本红外目标检测装置,用于执行所述少样本红外目标检测方法,包括:
获取模块,用于获取基类预训练数据集和少样本微调数据集,所述基类预训练数据集包括多个可见光图像,所述少样本微调数据集包括:若干红外图像和所述基类预训练数据集中的部分可见光图像;
训练模块,用于利用所述基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用所述少样本微调数据集对所述基类预训练模型进行训练,得到少样本微调模型;
其中,所述少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;所述域适应特征提取模块用于提取输入的查询图像和支撑图像的特征,得到查询特征和支撑特征;所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将所述查询特征和支撑特征进行聚合,得到融合特征;所述Transformer模块用于对所述融合特征进行编码解码处理,得到所述查询图像对应的目标特征,所述目标特征图携带目标主体的位置信息和类别信息;
检测模块,用于将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型,得到所述当前红外图像对应的述目标特征图,从中获得所述当前红外图像中目标主体的位置信息和类别信息。
按照本发明的另一方面,提供了一种少样本红外目标检测系统,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提出一种少样本红外目标检测方法;将当前红外图像输入训练好的少样本微调模型;其中的域适应特征提取模块能够使网络从可见光数据集中学习到通用知识,再通过少样本微调,从而使得网络适用于红外场景;利用查询特征支撑特征融合模块基于元学习进行特征融合适应少样本场景,利用基于全局注意力机制的Transformer模块获得所述当前红外图像的全局特征图,从而实现目标主体识别,在少样本场景下能够准确实现红外目标检测。
(2)本发明的查询特征支撑特征融合模块将支撑特征进行特征裁剪得到标注框区域,将所述标注框区域表征的类别原型及其对应的类别编码相加,得到综合支撑特征;将所述综合支撑特征与所述查询特征进行单头交叉注意力操作,得到所述支撑特征中感兴趣部分;将所述查询特征和所述支撑特征中感兴趣部分进行融合得到所述融合特征;本发明利用查询特征支撑特征融合模块支撑特征和查询特征进行融合,应用到红外少样本目标检测领域,不需要传统的区域建议和非极大值抑制算法(Non-maximum suppression,NMS)后处理,属于端到端的模型,降低了红外少样本目标检测方法的计算复杂度。
(3)本发明采用包括边界损失的总损失函数训练初始目标检测网络,对训练过程中的特征空间进行了约束,使得同类别的样本彼此靠近,不同类别样本尽可能远离,最终得到少样本微调模型检测准确率更高。
附图说明
图1为本发明实施例1提供的少样本红外目标检测方法的流程图。
图2为本发明实施例1提供的少样本目标检测网络的结构是示意图。
图3为本发明实施例2提供的查询特征支撑特征融合模块的结构示意图。
图4为本发明实施例5提供的域适应特征提取模块的结构示意图。
图5为本发明实施例6提供的Transformer模块的结构结构图。
图6为本发明实施例8提供的红外检测图像检测的结果仿真图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1
如图1所示,本实施例提供了一种少样本红外目标检测方法,包括:
S1:获取基类预训练数据集和少样本微调数据集,基类预训练数据集包括多个可见光图像,少样本微调数据集包括:若干红外图像和基类预训练数据集中的部分可见光图像。
S2:利用基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用少样本微调数据集对基类预训练模型进行训练,得到少样本微调模型。
其中,如图2所示,少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;域适应特征提取模块用于提取输入的查询图像和支撑图像的特征,得到查询特征和支撑特征;查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将查询特征和支撑特征进行聚合,得到融合特征;Transformer模块用于对融合特征进行编码解码处理,得到查询图像对应的目标特征,目标特征图携带目标主体的位置信息和类别信息。
S3:将所有类支撑集和当前红外图像对应的查询图像输入少样本微调模型,得到当前红外图像对应的述目标特征图,从中获得当前红外图像中目标主体的位置信息和类别信息。
需要说明的是,以海上舰船采集的红外图像数据为例,基类预训练数据集使用可见光Pascal VOC数据集中15个类别作为基类,每个类别都有丰富的标注数据;少样本微调数据集包括红外少样本数据和部分PascalVOC可见光数据,引入红外作为新类,红外数据使用Vega仿真的海面场景红外图像。样本图像为640×512像素的单通道图像,其中背景叠加随机的黑云干扰,红外训练数据包含k(k值一般取1,5,10)个标注,为了平衡基类和新类之间的数据分布,少样本微调数据集也包含基类15个类别的部分可见光数据样本,其中每类只包含3k个标注信息。组织基类预训练和少样本微调的训练数据时遵循Episode方法,在每一次前向运算中被输入网络的数据称为一个任务,而每一个任务由查询集和支撑集组成,查询集中只包含一张查询图像,支撑集中包含N张支撑图像。N取5,每一张支撑图像对应一个类别。支撑集的标注信息在训练时是可见的,而查询集的标注信息只用于计算损失以及衡量网络的检测精度。
实施例2
如图3所示,查询特征支撑特征融合模块,包括:
编码单元,用于将支撑特征进行特征裁剪得到标注框区域,将标注框区域表征的类别原型及其对应的类别编码相加,得到综合支撑特征;
操作单元,用于将综合支撑特征与查询特征进行单头交叉注意力操作,得到支撑特征中感兴趣部分;
融合单元,用于将查询特征和支撑特征中感兴趣部分进行融合,得到融合特征。
实施例3
融合单元,用于将查询特征和支撑特征中感兴趣部分进行点积,使得查询特征中包含支撑特征中感兴趣部分;最后通过全连接层得到融合特征。
具体的,查询特征支撑特征融合模块用于将查询特征和多个支撑集类别特征进行聚合,首先对支撑特征进行RoIAlign获取图像中的标注框部分信息作为代表类别的原型,再对类别进行编码,将类别编码和类别原型进行相加,得到最后的综合支撑特征,再使用综合支撑特征和查询特征进行单头交叉注意力操作,将单头注意力输出的结果作为调整系数对查询特征进行调整。最终通过点积运算从而使得查询特征中包含支撑特征中感兴趣的部分,最后再通过全连接层得到最终融合特征。
实施例4
类别原型对应的类别编码表示为:
CE(c,2i)=sin(c/100002i/d);
CE(c,2i+1)=cos(c/100002i/d);
其中,d代表特征维度,c代表当前类别原型,CE(c,2i)表示c类别中第2i个特征的编码,CE(c,2i)表示c类别中第2i+1个特征的编码。
实施例5
如图4所示,域适应特征提取模块包括:
多个压缩激励单元,用于作为域适应库用于输入图像X在不同域上进行特征获取,得到各个域对应的特征XUSE
域注意力单元,用于对各个域的特征进行全局池化,并依次经过全连接层和softmax层,得到各个域的特征对应的权重SDA
计算单元,用于将权重SDA加载在对应的特征上,即XDA=XUSESDA;将XDA经过sigmoid后与输入图像X进行点积,得到输出特征;
具体地,域适应特征提取模块,其作用是对图像特征进行学习,并且针对不同域的图像特征进行不同的学习。在ResNet的基础上引入多个SE模块作为域适应库用于不同域特征获取,具体公式如下:
Figure BDA0004156538120000091
其中,N代表SE模块的个数,
Figure BDA0004156538120000092
代表每个SE模块的输出;同时引入域注意力机制,域注意力部分用于产生各个域对应权重,用于组合各个SE模块。域注意力模块首先对特征图应用全局池化,之后经过全连接层之后跟上softmax层为SE模块提供权重,具体公式如下:
SDA=FDA(X)=softmax(WDAFavg(X));
获得的SDA作为通用域适应库输出的权重获得域适应模块的输出XDA,具体公式如下:
Figure BDA0004156538120000093
XDA经过sigmoid之后作为权重和原始输入作点积得到最终的输出,具体公式如下:
Figure BDA0004156538120000101
其中,当压缩激励单元的输入图像为查询集中的图像时,计算单元的输出为查询特征;当压缩激励单元的输入图像为支撑集中的图像时,计算单元的输出为支撑特征。
实施例6
如图5所示,Transformer模块包括:
编码器单元包括多个级联的第一子层,每个第一子层包括一个多头自注意力和一个前馈网络,相邻第一子层由残差连接,编码器单元用于输入融合特征及其对应的位置编码,输出得到编码特征;
解码器单元,包括多个级联的第二子层,每个第二子层包括两个多头自注意力和一个前馈网络,相邻第一子层由残差连接,解码器单元用于输入编码特征,输出查询图像对应的目标特征。
具体地,Transformer编码器和解码器包括编码器和解码器两个部分,结构参考图5,编码器由6个具有相同结构的层组成,编码器的输入包括经过提取特征之后的特征图,同时还包括位置编码,位置编码具体公式如下:
PE(posx,2i)=sin(posx/100004i/d)
PE(posx,2i+1)=cos(posx/100004i/d)
PE(posy,2i)=sin(posy/100004i/d)
PE(posy,2i+1)=cos(posy/100004i/d)
其中posx和posy分别代表特征图的x与y坐标,d代表特征维度。编码器每层包含2个子层:多头自注意力和前馈网络,每组子层进行残差连接,在最后进行归一化处理;解码器的输入包括编码器的输出以及object queries,object queries是N个可学习的嵌入变量,训练刚开始时可以随机初始化,解码器的结构和编码器结构类似,也是由6个具有相同结构的子层构成,但每个子层多一个多头注意力层,用于编码器的输出与object queries的关系建模。
实施例7
初始目标检测网络的总损失函数包括:二分匹配损失Lmatch、附加损失Laux、支撑集类别损失Lp和边界损失Lm;总损失函数表示为:L=Lmatch+LauxpLpmLm;λp与λm为预设的权重超参数。
具体地,网络训练总的损失函数可以表示如下,包括四个部分,分别为二分匹配损失Lmatch,附加损失Laux,支撑集类别损失Lp和边界损失Lm
L=Lmatch+LauxpLpmLm
其中,二分匹配损失函数Lmatch表示为:
Figure BDA0004156538120000111
Figure BDA0004156538120000112
表示当cti≠φ取值为1,否则取值为0,其中网络输出结果表示为
Figure BDA0004156538120000113
ground-truth标注框表示为/>
Figure BDA0004156538120000114
二分匹配损失函数Lmatch主要由两部分组成,类别损失Lcls以及框损失Lbox,具体公式表示如下:
Figure BDA0004156538120000115
Figure BDA0004156538120000116
Figure BDA0004156538120000117
类别损失中,其中pi代表sigmoid输出概率,αi代表当前属于哪个类别,γ参数用于平衡难易划分样本;框损失使用L1loss以及GIou loss来计算,其中λcls、λiou和λL1为权重超参数,本发明训练时使用λcls=2,λiou=2,λL1=5。
附加损失Laux表示为:
Figure BDA0004156538120000118
对于Transformer中每一个解码器层,在后面的输出都加上全连接层得到输出结果,所有的全连接层共享权重,输出结果和标注框以及标注类别来计算损失,其中每一层的损失Lcls和Lbox同二分匹配损失中公式计算,总体附加损失函数计算公式如下,其中m代表解码器的层数:
Figure BDA0004156538120000119
支撑集类别损失Lp,使用一个维度为(d,C)的全连接层对支撑集原型进行映射,C为类别总数,使得不同类别的支撑集彼此进行区分,这里使用交叉熵损失来进行度量。
边界损失Lm,每个类的原型向量需要足够靠近它们的平均原型向量,而对于不同类别则需要足够远离,对于类别i的第k个原型向量pik,它的平均原型表示为
Figure BDA0004156538120000121
类别内部的距离为/>
Figure BDA0004156538120000122
Figure BDA0004156538120000123
类别之间的距离为
Figure BDA0004156538120000124
对于由特征提取器提取到的支撑集特征向量,定义两个类别i和j之间的边界距离Mij为两个类别中特征向量距离决策边界最近的距离之和,其中j代表距离类别i最近的类别,Mij很难直接进行计算衡量,在这里考虑对Mij进行一个估计,对于Mij而言,它的上界其实就是类别之间的距离即InterDistancei,而它的下界则为类别之间的距离减去类别i类内距离再减去类别j类内距离即IntraDistancei-IntraDistancei-IntraDistancej
实施例8
边界损失Lm表示为:
Figure BDA0004156538120000125
其中,N为类别总数;IntraDistancei表示第i个类别对应的内部距离,
Figure BDA0004156538120000126
IntraDistancei表示第i个类别对应的类别间距离,
Figure BDA0004156538120000127
pik表示类别i的第k个原型向量,其平均原型表示为
Figure BDA0004156538120000128
mj表示类别j的平均原型。
具体的,为了增大两个类别的边界距离Mij,可以通过增大它的上界以及下界,即增大InterDistancei的同时减少IntraDistancei和IntraDistancej,因此设计边界损失Lm来使得每个类别类内距离尽可能小,类间距离尽可能大,边界损失Lm表示为:
Figure BDA0004156538120000131
为了验证本实施例对于少样本场景下红外目标的有效性,将其与现有主流少样本目标检测模型Meta-RCNN、FSCE进行对比实验。实验中,所有模型采用相同的训练集与测试集,采用1-shot、5-shot和10-shot以及平均精度50(AP50)作为评价指标,其中k-shot代表少样本微调阶段红外类别只有k个标注样本,实验结果如表1所示。根据结果可知,本发明方法在各种少样本设置下都达到最高的检测精度,另外本发明在10-shot设置下部分测试数据集检测结果如图6所示。
表1
Figure BDA0004156538120000132
实施例9
本实施例提供了一种少样本红外目标检测装置,用于执行少样本红外目标检测方法,包括:
获取模块,用于获取基类预训练数据集和少样本微调数据集,基类预训练数据集包括多个可见光图像,少样本微调数据集包括:若干红外图像和基类预训练数据集中的部分可见光图像;
训练模块,用于利用基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用少样本微调数据集对基类预训练模型进行训练,得到少样本微调模型;
其中,少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;域适应特征提取模块用于提取输入的查询图像和支撑图像的特征,得到查询特征和支撑特征;查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将查询特征和支撑特征进行聚合,得到融合特征;Transformer模块用于对融合特征进行编码解码处理,得到查询图像对应的目标特征,目标特征图携带目标主体的位置信息和类别信息;
检测模块,用于将所有类支撑集和当前红外图像对应的查询图像输入少样本微调模型,得到当前红外图像对应的述目标特征图,从中获得当前红外图像中目标主体的位置信息和类别信息。
实施例10
本实施例提供了一种少样本红外目标检测系统,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述方法的步骤。
实施例11
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种少样本红外目标检测方法,其特征在于,包括:
S1:获取基类预训练数据集和少样本微调数据集,所述基类预训练数据集包括多个可见光图像,所述少样本微调数据集包括:若干红外图像和所述基类预训练数据集中的部分可见光图像;
S2:利用所述基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用所述少样本微调数据集对所述基类预训练模型进行训练,得到少样本微调模型;
其中,所述少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;所述域适应特征提取模块用于提取输入的查询集图像和支撑集图像的特征,得到查询特征和支撑特征;所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将所述查询特征和支撑特征进行聚合,得到融合特征;所述Transformer模块用于对所述融合特征进行编码解码处理,得到所述查询图像对应的目标特征,所述目标特征图携带目标主体的位置信息和类别信息;
S3:将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型,得到所述当前红外图像对应的述目标特征图,从中获得所述当前红外图像中目标主体的位置信息和类别信息。
2.如权利要求1所述的少样本红外目标检测方法,其特征在于,所述查询特征支撑特征融合模块,包括:
编码单元,用于将支撑特征进行特征裁剪得到标注框区域,将所述标注框区域表征的类别原型及其对应的类别编码相加,得到综合支撑特征;
操作单元,用于将所述综合支撑特征与所述查询特征进行单头交叉注意力操作,得到所述支撑特征中感兴趣部分;
融合单元,用于将所述查询特征和所述支撑特征中感兴趣部分进行融合,得到所述融合特征。
3.如权利要求2所述的少样本红外目标检测方法,其特征在于,所述融合单元,用于将所述查询特征和所述支撑特征中感兴趣部分进行点积,使得所述查询特征中包含支撑特征中感兴趣部分;最后通过全连接层得到所述融合特征。
4.如权利要求2所述的少样本红外目标检测方法,其特征在于,所述类别原型对应的类别编码表示为:
CE(c,2i)=sin(c/100002i/d)
CE(c,2i+1)=cos(c/100002i/d)
其中,d代表特征维度,c代表当前类别原型,CE(c,2i)表示c类别中第2i个特征的编码,CE(c,2i)表示c类别中第2i+1个特征的编码。
5.如权利要求1所述的少样本红外目标检测方法,其特征在于,所述域适应特征提取模块包括:
多个压缩激励单元,用于作为域适应库用于输入图像X在不同域上进行特征获取,得到各个域对应的特征XUSE
域注意力单元,用于对各个域的特征进行全局池化,并依次经过全连接层和softmax层,得到各个域的特征对应的权重SDA
计算单元,用于将权重SDA加载在对应的特征上,即XDA=XUSESDA;将XDA经过sigmoid后与所述输入图像X进行点积,得到输出特征;
其中,当所述压缩激励单元的输入图像为所述查询图像时,所述计算单元的输出为所述查询特征;当所述压缩激励单元的输入图像为支撑集中的图像时,所述计算单元的输出为所述支撑特征。
6.如权利要求1所述的少样本红外目标检测方法,其特征在于,所述Transformer模块包括:
编码器单元包括多个级联的第一子层,每个所述第一子层包括一个多头自注意力和一个前馈网络,相邻所述第一子层由残差连接,所述编码器单元用于输入所述融合特征及其对应的位置编码,输出得到编码特征;
解码器单元,包括多个级联的第二子层,每个所述第二子层包括两个多头自注意力和一个前馈网络,相邻所述第一子层由残差连接,所述解码器单元用于输入所述编码特征,输出所述查询图像对应的目标特征。
7.如权利要求1所述的少样本红外目标检测方法,其特征在于,所述初始目标检测网络的总损失函数包括:二分匹配损失Lmatch、附加损失Laux、支撑集类别损失Lp和边界损失Lm;所述总损失函数表示为:L=Lmatch+LauxpLpmLm;λp与λm为预设的权重超参数。
8.如权利要求7所述的少样本红外目标检测方法,其特征在于,所述边界损失Lm表示为:
Figure FDA0004156538110000031
其中,N为类别总数;IntraDistancei表示第i个类别对应的内部距离,
Figure FDA0004156538110000032
InterDistancei表示第i个类别对应的类别间距离,
Figure FDA0004156538110000033
pik表示类别i的第k个原型向量,其平均原型表示为
Figure FDA0004156538110000034
mj表示类别j的平均原型。
9.一种少样本红外目标检测装置,其特征在于,用于执行权利要求1-8任一项所述少样本红外目标检测方法,包括:
获取模块,用于获取基类预训练数据集和少样本微调数据集,所述基类预训练数据集包括多个可见光图像,所述少样本微调数据集包括:若干红外图像和所述基类预训练数据集中的部分可见光图像;
训练模块,用于利用所述基类预训练数据集对初始目标检测网络进行训练,得到基类预训练模型;利用所述少样本微调数据集对所述基类预训练模型进行训练,得到少样本微调模型;
其中,所述少样本微调模型包括:域适应特征提取模块、查询特征支撑特征融合模块和Transformer模块;所述域适应特征提取模块用于提取输入的查询集图像和支撑集图像的特征,得到查询特征和支撑特征;所述查询特征支撑特征融合模块用于通过元学习方法适应少样本场景,将所述查询特征和支撑特征进行聚合,得到融合特征;所述Transformer模块用于对所述融合特征进行编码解码处理,得到所述查询图像对应的目标特征,所述目标特征图携带目标主体的位置信息和类别信息;
检测模块,用于将所述所有类支撑集和当前红外图像对应的查询图像输入所述少样本微调模型,得到所述当前红外图像对应的述目标特征图,从中获得所述当前红外图像中目标主体的位置信息和类别信息。
10.一种少样本红外目标检测系统,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202310336246.5A 2023-03-31 2023-03-31 一种少样本红外目标检测方法、装置和系统 Pending CN116363469A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310336246.5A CN116363469A (zh) 2023-03-31 2023-03-31 一种少样本红外目标检测方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310336246.5A CN116363469A (zh) 2023-03-31 2023-03-31 一种少样本红外目标检测方法、装置和系统

Publications (1)

Publication Number Publication Date
CN116363469A true CN116363469A (zh) 2023-06-30

Family

ID=86936734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310336246.5A Pending CN116363469A (zh) 2023-03-31 2023-03-31 一种少样本红外目标检测方法、装置和系统

Country Status (1)

Country Link
CN (1) CN116363469A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法

Similar Documents

Publication Publication Date Title
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
CN106909924B (zh) 一种基于深度显著性的遥感影像快速检索方法
CN108960330B (zh) 基于快速区域卷积神经网络的遥感图像语义生成方法
CN109711422B (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN108021947B (zh) 一种基于视觉的分层极限学习机目标识别方法
CN110516716B (zh) 基于多分支相似度网络的无参考图像质量评价方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN113592007B (zh) 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN113139594A (zh) 一种机载图像无人机目标自适应检测方法
CN116363469A (zh) 一种少样本红外目标检测方法、装置和系统
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
CN116503399A (zh) 基于yolo-afps的绝缘子污闪检测方法
CN113592008B (zh) 小样本图像分类的系统、方法、设备及存储介质
CN115222954A (zh) 弱感知目标检测方法及相关设备
CN115546468A (zh) 一种基于transformer的细长类物体目标检测方法
CN116630749A (zh) 工业设备故障检测方法、装置、设备以及存储介质
CN113033587A (zh) 图像识别结果评估方法、装置、电子设备及存储介质
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN115861595A (zh) 一种基于深度学习的多尺度域自适应异源图像匹配方法
CN113032612B (zh) 一种多目标图像检索模型的构建方法及检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination