CN116310655A - 基于半监督混合域适应的红外弱小目标检测方法和装置 - Google Patents

基于半监督混合域适应的红外弱小目标检测方法和装置 Download PDF

Info

Publication number
CN116310655A
CN116310655A CN202310443045.5A CN202310443045A CN116310655A CN 116310655 A CN116310655 A CN 116310655A CN 202310443045 A CN202310443045 A CN 202310443045A CN 116310655 A CN116310655 A CN 116310655A
Authority
CN
China
Prior art keywords
domain
image
training
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310443045.5A
Other languages
English (en)
Inventor
张宇
张焱
石志广
杨卫平
刘荻
凌峰
张毅
沈奇
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310443045.5A priority Critical patent/CN116310655A/zh
Publication of CN116310655A publication Critical patent/CN116310655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及一种基于半监督混合域适应的红外弱小目标检测方法和装置。所述方法包括:通过训练包括跨域风格迁移模型、教师模型和学生模型的半监督混合域适应学习网络,得到训练好的半监督混合域适应学习网络进行跨域的红外弱小目标检测,得到目标检测结果。采用本方法能够根据跨域风格迁移模型对源域图像与目标域图像进行交叉风格迁移以补足跨域的语义差异,并基于教师模型为学生模型持续提供少量、高质量的伪标签,从而使得训练好的半监督混合域适应学习网络实现对红外弱小目标实例的域不变特征的充分学习,增强半监督混合域适应学习网络在跨域情况下对弱小目标的特征偏移的适应能力。

Description

基于半监督混合域适应的红外弱小目标检测方法和装置
技术领域
本申请涉及红外目标检测技术领域,特别是涉及一种基于半监督混合域适应的红外弱小目标检测方法和装置。
背景技术
红外弱小目标检测技术是红外搜索跟踪系统(Infrared search and trackingsystem,IRST)中的核心要素。在工程应用中,IRST系统所部署的环境往往是全新的,这意味着使用原始训练集训练的红外弱小目标检测模型可能会面临检测性能下降的问题。具体来说,在应用场景下获取红外图像时(即目标域),由于使用的探测器体制的不同,以及获取数据时的时间段、背景环境、自然光源、天气条件、大气环境的变化,所获得的红外图像的各项特征与原始训练集(即源域)相比会有较大差异,即红外图像的域偏移现象。
特征偏移对于数据驱动的红外弱小目标检测算法来说是致命的,虽然使用经过标注的目标域图像进行训练可以解决此问题,但是,对目标域图像进行人工标注需要耗费大量时间和人力。因此,如何有效利用目标域大量的无标注的数据是提高跨域情况下目标检测性能的关键。对此,通用的域适应目标检测(DAOD)成为研究热点。但是,针对红外弱小目标检测的域适应研究非常稀缺。而且由于红外弱小目标检测的特殊性,通用的DAOD算法难以在该任务上发挥作用。
红外弱小目标检测识别实质上是一种稀疏的目标检测任务,主要体现在以下两个方面:首先,红外弱小目标的体积较小,当目标域探测器距离较远时,红外小目标的成像面积在整幅红外图像仅占很小的比例;其次,在红外图像中,感兴趣目标的数量较少。以上原因都导致目标与背景的数量、面积比例悬殊,且正负样本严重失衡。然而,红外小目标的特征较弱,极易被淹没在复杂背景中,因此红外弱小目标的实例知识尤为重要。在跨域情况下的红外弱小目标检测问题中,目标域未标注的数据中包含着潜在的目标知识。因此,在单阶段目标检测器中,有效、准确地提取目标域无标注数据中的潜在的实例信息,并传递给检测模型用以充分的学习其域不变特征,是提高模型在目标域适应性和鲁棒性的关键。
同时,在小样本情况下,源域与目标域之间可能存在较大的背景语义差异(比如楼群vs山丘,林地vs天空)。在语义偏差远大于风格特征差异的情况下,基于特征对齐的方法和域混淆的方法都会受到极大影响。此外,IRST系统需要红外弱小目标检测算法具有较高的实时性。然而,目前的通用DAOD研究中,多数基于精度较高但计算负担较重的Faster-RCNN等双阶段目标检测器。相比之下,基于实时性较高、参数量较少的单阶段目标检测器的域适应研究较少,仍缺少性能优良的基线方法。
综上所述,在跨域的红外弱小目标检测任务中,以下三个问题急需解决:
(1)如何在目标域的复杂背景中准确地获取稀疏的目标实例信息,同时充分学习弱小目标实例中的特征不变性。
(2)在小样本情况下,如何消除源域与目标域数据之间的语义差异。
(3)如何在高实时性的单阶段目标检测器中实现红外弱小目标的实例级特征域适应,从而对抗跨域情况下弱小目标的特征偏移。
发明内容
基于此,有必要针对上述技术问题,提供一种能够弥补跨域的语义差异,实现对红外弱小目标实例的域不变特征的充分学习,以及对抗跨域情况下弱小目标的特征偏移的基于半监督混合域适应的红外弱小目标检测方法和装置。
一种基于半监督混合域适应的红外弱小目标检测方法,所述方法包括:
获取包括源域图像和目标域图像的基础数据集,并按照一定比例将基础数据集划分为训练集和测试集;
将训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;
其中,半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型;在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集;教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型;学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型;
将测试集中的源域图像和目标域图像输入训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
在其中一个实施例中,在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,包括:
在训练时,将源域图像
Figure BDA0004194740130000031
提供的内容信息和目标域图像
Figure BDA0004194740130000032
提供的风格信息输入跨域风格迁移模型进行训练,得到源域到目标域的迁移模型MS2T,根据MS2T对源域图像
Figure BDA0004194740130000033
进行迁移,得到源域迁移图像
Figure BDA0004194740130000034
将目标域图像
Figure BDA0004194740130000035
提供的内容信息和源域图像
Figure BDA0004194740130000036
提供的风格信息输入跨域风格迁移模型进行训练,得到目标域到源域的迁移模型MT2S,根据MT2s对目标域图像
Figure BDA0004194740130000037
进行迁移,得到目标域迁移图像
Figure BDA0004194740130000038
其中,MS2T和MT2S的网络结构均为卷积自编码器。
在其中一个实施例中,根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集,包括:
将源域迁移图像
Figure BDA0004194740130000039
扩充至源域图像
Figure BDA00041947401300000310
所属的原始源域数据集DS中,得到源域扩充集
Figure BDA00041947401300000311
将目标域迁移图像
Figure BDA00041947401300000312
扩充至目标域图像
Figure BDA00041947401300000313
所属的原始目标域数据集DT中,得到目标域扩充集
Figure BDA00041947401300000314
其中,源域扩充集
Figure BDA00041947401300000315
与目标域扩充集
Figure BDA00041947401300000316
中的图像仅风格信息不同,内容信息相互对应,且源域扩充集
Figure BDA00041947401300000317
中的源域图像
Figure BDA00041947401300000318
与源域迁移图像
Figure BDA00041947401300000319
共享真实标签LAs,目标域扩充集
Figure BDA00041947401300000320
无标签。
在其中一个实施例中,教师模型和学生模型均由包括特征提取网络、检测颈部网络和检测头部网络的基础单阶段目标检测器Yolov5-s组成,教师模型和学生模型的网络结构一致,但参数不共享。
在其中一个实施例中,教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,包括:
教师模型通过获取跨域风格迁移模型输入的源域迁移图像
Figure BDA0004194740130000041
和目标域图像
Figure BDA0004194740130000042
采用平均指数移动、源域迁移图像
Figure BDA0004194740130000043
的监督式训练以及目标域图像
Figure BDA0004194740130000044
的自监督训练进行训练和参数更新,得到训练好的教师模型,其中,教师模型具体的参数更新规则为
Figure BDA0004194740130000045
Figure BDA0004194740130000046
式中,θ′Tch表示教师模型更新后的模型参数,θTch表示教师模型更新前的初始参数,αTch表示教师模型的平均指数移动平滑系数,lrTch表示教师模型的监督学习学习率,LTch表示教师模型在源域迁移图像
Figure BDA0004194740130000047
和目标域图像
Figure BDA0004194740130000048
上进行训练的总损失,
Figure BDA0004194740130000049
表示教师模型在源域迁移图像
Figure BDA00041947401300000410
上进行监督式训练产生的检测损失,
Figure BDA00041947401300000411
表示教师模型在目标域图像
Figure BDA00041947401300000412
上进行自监督训练产生的自训练损失,θStu表示学生模型更新前的初始参数,γT表示自监督学习平衡系数。
在其中一个实施例中,将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型,包括:
将目标域图像
Figure BDA00041947401300000413
的自监督训练产生的预测结果输入过滤器,根据过滤器设置非极大值抑制阈值和置信度阈值THep对预测结果进行过滤筛选,得到目标域扩充集
Figure BDA00041947401300000414
对应的伪标签LAT,并将伪标签LAT传递至学生模型;其中,非极大值抑制阈值为0.1,置信度阈值THep由前一次训练迭代中的平均最大置信度确定,表示为
Figure BDA00041947401300000415
式中,
Figure BDA00041947401300000416
表示前一次训练迭代中的平均最大置信度,ep为当前的迭代次数,
Figure BDA0004194740130000051
表示在第ep-1次迭代中,教师模型对第i个输入样本预测为第C类目标的最大预测置信度,Dn表示输入样本的总数,s.t.表示约束条件,thb表示基础置信度。
在其中一个实施例中,学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型,包括:
根据跨域风格迁移模型输入的源域扩充集
Figure BDA0004194740130000052
目标域扩充集
Figure BDA0004194740130000053
以及教师模型输入的伪标签LAT,分别在源域扩充集
Figure BDA0004194740130000054
和目标域扩充集
Figure BDA0004194740130000055
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU
根据图像级域判别器和实例级域判别器对学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA
根据跨域监督训练损失LSTU和无监督的多层级域判别损失LDA对学生模型进行训练和参数更新,得到训练好的学生模型,其中,学生模型具体的参数更新规则为
Figure BDA0004194740130000056
式中,θStu表示学生模型更新后的模型参数,θStu表示学生模型更新前的初始参数,lrStu表示学生模型的学习率。
在其中一个实施例中,根据跨域风格迁移模型输入的源域扩充集
Figure BDA0004194740130000057
目标域扩充集
Figure BDA0004194740130000058
以及教师模型输入的伪标签LAT,分别在源域扩充集
Figure BDA0004194740130000059
和目标域扩充集
Figure BDA00041947401300000510
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU,表示为
Figure BDA00041947401300000511
式中,λsup和λcon分别表示半监督损失与检测一致性损失的权重系数,
Figure BDA00041947401300000512
表示监督损失,
Figure BDA00041947401300000513
表示半监督损失,
Figure BDA00041947401300000514
表示检测一致性损失,
Figure BDA00041947401300000515
表示学生模型在源域扩充集
Figure BDA00041947401300000516
上进行监督对比训练的检测一致性损失
Figure BDA0004194740130000061
Figure BDA0004194740130000062
表示学生模型在目标域扩充集
Figure BDA00041947401300000621
上进行半监督对比训练的检测一致性损失,
Figure BDA0004194740130000063
Figure BDA0004194740130000064
分别表示为
Figure BDA0004194740130000065
Figure BDA0004194740130000066
式中,
Figure BDA0004194740130000067
Figure BDA0004194740130000068
分别表示学生模型在源域图像
Figure BDA0004194740130000069
和源域迁移图像
Figure BDA00041947401300000610
进行监督式训练产生的检测损失,
Figure BDA00041947401300000611
Figure BDA00041947401300000612
分别表示学生模型在目标域图像
Figure BDA00041947401300000613
和目标域迁移图像
Figure BDA00041947401300000614
进行半监督训练产生的检测损失。
在其中一个实施例中,根据图像级域判别器和实例级域判别器对学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA,包括:
根据图像级域判别器对学生模型的特征提取网络的前四个下采样层进行无监督的图像级全局域特征混淆对抗学习,得到图像级全局域判别损失Limg,表示为
Figure BDA00041947401300000615
式中,DMl表示特征提取网络的第l层对应的图像级域判别器,fl表示当前输入图像在特征提取网络的第l层的输出特征图,且l=[1,2,4,6],Di表示学生模型的当前输入图像的域标签,其中,目标域迁移图像
Figure BDA00041947401300000616
与源域图像
Figure BDA00041947401300000617
共享域标签Di=0,源域迁移图像
Figure BDA00041947401300000618
与目标域图像
Figure BDA00041947401300000619
共享域标签Di=1;
根据实例级域判别器对学生模型的特征提取网络的前四个下采样层进行实例级局部域特征混淆对抗学习,得到实例级局部域判别损失Lins,表示为
Figure BDA00041947401300000620
式中,m=1,...,nl表示学生模型的当前输入图像中所包含的真实标签LAS或伪标签LAT的数量,nl表示学生模型的当前输入图像中所包含的真实标签或伪标签的总数,DNl表示特征提取网络的第l层对应的实例域判别器,fl ins表示当前输入图像根据对应的真实标签LAS或伪标签LAT,在特征提取网络的第l层的进行映射得到的实例特征向量;
根据图像级全局域判别损失Limg和实例级局部域判别损失Lins进行计算,得到无监督的多层级域判别损失LDA,表示为
LDA=λimgLimginsLins
式中,λimg、λins分别为Limg与Lins的权重系数。
一种基于半监督混合域适应的红外弱小目标检测装置,所述装置包括:
数据获取模块,用于获取包括源域图像和目标域图像的基础数据集,并按照一定比例将基础数据集划分为训练集和测试集;
半监督混合域适应学习网络训练模块,用于将训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;其中,半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型;在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集;教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型;学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型;
半监督混合域适应学习网络测试模块,用于将测试集中的源域图像和目标域图像输入训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
上述基于半监督混合域适应的红外弱小目标检测方法和装置,搭建了一个包括跨域风格迁移模型、教师模型和学生模型的半监督混合域适应学习网络,在对网络进行训练时,首先,根据跨域风格迁移模型对源域图像与目标域图像进行交叉风格迁移以补足跨域的语义差异,而后,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练的方式对教师模型进行训练,在训练中持续提供少量、高质量的伪标签;在此基础上,通过对学生模型采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练,从而实现对红外弱小目标实例的域不变特征的充分学习,增强半监督混合域适应学习网络在跨域情况下对弱小目标的特征偏移的适应能力。
附图说明
图1为一个实施例中基于半监督混合域适应的红外弱小目标检测方法的流程示意图;
图2为一个实施例中半监督混合域适应学习网络进行训练的工作流程示意图;
图3为一个实施例中教师模型进行训练的工作流程示意图;
图4为一个实施例中在学生模型中进行源域扩充集的监督对比训练和目标域扩充集的半监督对比训练的工作流程示意图;
图5为一个实施例中图像级全局域特征混淆对抗学习的工作路程示意图;
图6为一个实施例中实例级局部域特征混淆对抗学习的工作流程示意图;
图7为一个实施例中各方法在跨域红外弱小目标检测识别任务中的结果可视化示意图:(a)为各算法在Set-A→Set-B任务中的检测识别结果,(b)为各算法在Set-B→Set-A任务中的检测识别结果。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于半监督混合域适应的红外弱小目标检测方法,包括以下步骤:
步骤S1,获取包括源域图像和目标域图像的基础数据集,并按照一定比例将基础数据集划分为训练集和测试集。
步骤S2,将训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;其中,半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型。其中,半监督混合域适应学习网络的训练包括以下步骤:
步骤S2.1,在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集。具体地步骤如图2所示,在跨域风格迁移模型中执行离线红外图像跨域风格迁移,分别对源域图像
Figure BDA0004194740130000091
和目标域图像
Figure BDA0004194740130000092
进行交叉迁移,得到的迁移图像
Figure BDA0004194740130000093
并作为子集扩充原始数据集得到扩充后的源域扩充集
Figure BDA0004194740130000094
和目标域扩充集
Figure BDA0004194740130000095
步骤S2.2,教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型。具体地步骤如图2所示,教师模型MTch采用平均指数移动进行参数更新,并在训练中还受到具有目标域风格的图像目标域图像
Figure BDA0004194740130000096
和源域迁移图像
Figure BDA0004194740130000097
的监督,包括通过
Figure BDA0004194740130000098
的监督式训练以及通过
Figure BDA0004194740130000099
的自监督训练,而后将
Figure BDA00041947401300000910
的预测结果经过滤波筛选得到的LAT作为伪标签传递至学生模型。其中,伪标签LAT代表模型对于目标域训练样本的预测值,包括{(x′t,y′t),(w′t,h′t),c′t},(x′t,y′t)代表预测的目标域目标中心点坐标,(w′t,h′t)代表预测的目标域目标包围框宽和高,c′t代表目标域预测类别。
步骤S2.3,学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型。具体地步骤如图2所示,学生模型MStu的训练包括:通过
Figure BDA00041947401300000911
进行的源域监督式训练以及在子集
Figure BDA00041947401300000912
Figure BDA00041947401300000913
之间的对比训练,通过
Figure BDA00041947401300000914
与伪标签LAT进行的目标域半监督式训练以及在子集
Figure BDA00041947401300000915
Figure BDA00041947401300000916
之间的对比训练以及无监督的多层级域混淆训练。
步骤S3,将测试集中的源域图像和目标域图像输入训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
在其中一个实施例中,在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,包括:
在训练时,将源域图像
Figure BDA0004194740130000101
提供的内容信息和目标域图像
Figure BDA0004194740130000102
提供的风格信息输入跨域风格迁移模型进行训练,得到源域到目标域的迁移模型MS2T,根据MS2T对源域图像
Figure BDA0004194740130000103
进行迁移,得到源域迁移图像
Figure BDA0004194740130000104
将目标域图像
Figure BDA0004194740130000105
提供的内容信息和源域图像
Figure BDA0004194740130000106
提供的风格信息输入跨域风格迁移模型进行训练,得到目标域到源域的迁移模型MT2S,根据MT2S对目标域图像
Figure BDA0004194740130000107
进行迁移,得到目标域迁移图像
Figure BDA0004194740130000108
其中,MS2T和MT2S的网络结构均为卷积自编码器。
在其中一个实施例中,根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集,包括:
将源域迁移图像
Figure BDA0004194740130000109
扩充至源域图像
Figure BDA00041947401300001010
所属的原始源域数据集DS中,得到源域扩充集
Figure BDA00041947401300001011
将目标域迁移图像
Figure BDA00041947401300001012
扩充至目标域图像
Figure BDA00041947401300001013
所属的原始目标域数据集DT中,得到目标域扩充集
Figure BDA00041947401300001014
其中,源域扩充集
Figure BDA00041947401300001015
与目标域扩充集
Figure BDA00041947401300001016
中的图像仅风格信息不同,内容信息相互对应,且源域扩充集
Figure BDA00041947401300001017
中的源域图像
Figure BDA00041947401300001018
与源域迁移图像
Figure BDA00041947401300001019
共享真实标签LAS,目标域扩充集
Figure BDA00041947401300001020
无标签。其中,如图2所示,真实标签LAS中包括{(xs,ys),(ws,hs),cs},(xs,ys)代表目标的真实中心点的横坐标和纵坐标,(ws,hs)代表目标的真实包围框宽和高,cs代表真实类别。
可以理解,本申请通过风格迁移方法对各域的每个数据点生成一个具有跨域风格的伪图像对(又称迁移图像对),弥补了原始数据集DS、DT之间的语义差异,两者的语义分布保持了一致,即,不同风格的图像集均包含了真实源域和目标域的所涵盖的全部内容信息,避免了特征混淆过程中由于源域和目标域之间的语义差异对域混淆的干扰。
在其中一个实施例中,教师模型和学生模型均由包括特征提取网络、检测颈部网络和检测头部网络的基础单阶段目标检测器Yolov5-s组成,教师模型和学生模型的网络结构一致,但参数不共享。
可以理解,本申请通过利用单阶段目标检测方法仅通过一次预测就可直接得到预测值的优势,在进行红外弱小目标检测时,具有较高的实时性。并且,由于本申请中的教师模型与学生模型的参数不共享,在进行训练时,二者采用不同的参数更新方式。
在其中一个实施例中,如图3所示,教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,包括:
教师模型通过获取跨域风格迁移模型输入的源域迁移图像
Figure BDA0004194740130000111
和目标域图像
Figure BDA0004194740130000112
采用平均指数移动、源域迁移图像
Figure BDA0004194740130000113
的监督式训练以及目标域图像
Figure BDA0004194740130000114
的自监督训练进行训练和参数更新,得到训练好的教师模型,其中,教师模型具体的参数更新规则为
Figure BDA0004194740130000115
Figure BDA0004194740130000116
式中,θ′Tch表示教师模型更新后的模型参数,θTch表示教师模型更新前的初始参数,αTch表示教师模型的平均指数移动平滑系数,lrTch表示教师模型的监督学习学习率,LTch表示教师模型在源域迁移图像
Figure BDA0004194740130000117
和目标域图像
Figure BDA0004194740130000118
上进行训练的总损失,
Figure BDA0004194740130000119
表示教师模型在源域迁移图像
Figure BDA00041947401300001110
上进行监督式训练产生的检测损失,
Figure BDA00041947401300001111
表示教师模型在目标域图像
Figure BDA00041947401300001112
上进行自监督训练产生的自训练损失,θStu表示学生模型更新前的初始参数,γT表示自监督学习平衡系数。具体地,在训练时αTch和γT分别设置为0.999和1,lrTch与学生模型的学习率采取相同的设置。
图3中的预测值LAS′代表模型对于源域训练样本的预测值:(x′s,y′s)代表预测的源域目标中心点坐标,(w′s,h′s)代表预测的源域目标包围框宽和高,c′s代表源域预测类别。
可以理解,在目标域中,红外弱小目标较为稀疏,而复杂背景带来的大量虚警容易对伪标签集造成污染,使得教师模型在反复迭代中陷入恶性循环。因此,本申请分别通过加入监督信号和严格的伪标签挑选策略来稳定学习过程,确保教师模型自身的鲁棒性。如图3所示,教师模型可以看作是在监督式学习与半监督的自学习约束下的处于不同训练状态的学模型的集合平均。其中,本申请采用自学习框架来直接地提高教师模型在目标域上预测准确度,通过充分学习较为准确的伪标签中包含的实例信息来逐步提高其他尚未预测到(置信度较低)的潜在目标,逐渐提高其置信度从而丰富伪标签集,提高生成伪标签的数量和效率;在此基础上采用EMA(Exponential Moving Average,指数移动平均值)进行更新可以让教师模型通过稳健的参数移动减轻伪标签偏差引入的噪声,从而渐进式地生成更加稳定的高质量伪标签。而后在此基础上添加监督式训练,即利用源域数据的准确标签来时时校正教师模型的参数更新,通过维持教师模型在真实标签上的预测性能,以此来校正模型可能出现的,由噪声标签引起的错误学习。
在其中一个实施例中,将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型,包括:
将目标域图像
Figure BDA0004194740130000121
的自监督训练产生的预测结果输入过滤器,根据过滤器设置非极大值抑制阈值和置信度阈值THep对预测结果进行过滤筛选,得到目标域扩充集
Figure BDA0004194740130000122
对应的伪标签LAT,并将伪标签LAT传递至学生模型;其中,非极大值抑制阈值为0.1,置信度阈值THep由前一次训练迭代中的平均最大置信度确定,表示为
Figure BDA0004194740130000123
式中,
Figure BDA0004194740130000124
表示前一次训练迭代中的平均最大置信度,ep为当前的迭代次数,
Figure BDA0004194740130000125
表示在第ep-1次迭代中,教师模型对第i个输入样本预测为第C类目标的最大预测置信度,Dn表示输入样本的总数,s.t.表示约束条件,thb表示基础置信度。
可以理解,为了应对复杂红外背景中可能出现的大量虚警目标对伪标签集造成的污染,本申请采用严格的筛选策略进行伪标签的筛选,仅将少量高质量标签传递至学生模型,而不是采用大量软标签。在教师模型中,自训练阶段的产生的预测结果通过高阈值的非极大值抑制和置信度进行过滤(图3中的过滤器G(·)),并且严格限制单幅图像产生的伪标签数量。
可以理解,在第ep次训练迭代中,教师模型产生的类别为C的伪标签的置信度阈值
Figure BDA0004194740130000131
即为上一次迭代中每个样本中预测置信度最大值的均值,若
Figure BDA0004194740130000132
的数值小于基础置信度thb,则该样本不参与计算。通过这种方式动态更新置信度阈值,以应对目标域中红外弱小目标的稀疏分布,充分保证伪标签的准确性。更准确的目标标签导致了教师与学生之间更快的反馈回路,也减少了噪声标签污染伪标签集的风险,提高了知识蒸馏过程的有效性。
在其中一个实施例中,学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型,包括:
首先,如图4所示,根据跨域风格迁移模型输入的源域扩充集
Figure BDA0004194740130000133
目标域扩充集
Figure BDA0004194740130000134
以及教师模型输入的伪标签LAT,分别在源域扩充集
Figure BDA0004194740130000135
和目标域扩充集
Figure BDA0004194740130000136
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU
然后,根据图像级域判别器和实例级域判别器对学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA
最后,根据跨域监督训练损失LSTU和无监督的多层级域判别损失LDA对学生模型进行训练和参数更新,得到训练好的学生模型,其中,学生模型具体的参数更新规则为
Figure BDA0004194740130000137
式中,θStu表示学生模型更新后的模型参数,θStu表示学生模型更新前的初始参数,lrStu表示学生模型的学习率。
在其中一个实施例中,根据跨域风格迁移模型输入的源域扩充集
Figure BDA0004194740130000138
目标域扩充集
Figure BDA0004194740130000139
以及教师模型输入的伪标签LAT,分别在源域扩充集
Figure BDA00041947401300001310
和目标域扩充集
Figure BDA0004194740130000141
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU,表示为
Figure BDA0004194740130000142
式中,λsup和λcon分别表示半监督损失与检测一致性损失的权重系数,优选地,λsup=0.05,λcon=3,
Figure BDA0004194740130000143
表示监督损失,
Figure BDA0004194740130000144
表示半监督损失,
Figure BDA0004194740130000145
Figure BDA00041947401300001422
表示检测一致性损失,
Figure BDA0004194740130000146
表示学生模型在源域扩充集
Figure BDA0004194740130000147
上进行监督对比训练的检测一致性损失,
Figure BDA0004194740130000148
表示学生模型在目标域扩充集
Figure BDA0004194740130000149
上进行半监督对比训练的检测一致性损失,
Figure BDA00041947401300001410
Figure BDA00041947401300001411
通过学生模型在成对样本上最小化预测值的L-2距离来度量其在不同风格下的预测差异,分别表示为
Figure BDA00041947401300001412
Figure BDA00041947401300001413
式中,
Figure BDA00041947401300001414
Figure BDA00041947401300001415
分别表示学生模型在源域图像
Figure BDA00041947401300001416
和源域迁移图像
Figure BDA00041947401300001417
进行监督式训练产生的检测损失,
Figure BDA00041947401300001418
Figure BDA00041947401300001419
分别表示学生模型在目标域图像
Figure BDA00041947401300001420
和目标域迁移图像
Figure BDA00041947401300001421
进行半监督训练产生的检测损失。
可以理解,本申请在两组监督式学习的基础之上,采用跨域对比学习的方法,通过最小化学生模型在具备相同内容信息、不同风格信息的图像对中的预测一致性,使其趋向于学习红外弱小目标的在跨域情况下的特征不变性,从而提高检测识别算法的鲁棒性。在语义信息相同的情况下,学生模型对不同风格特征图像的预测结果越一致,则代表学生模型抵抗风格噪声干扰的能力越强,具有越高的泛化性,也更趋向于在目标域具有更强的性能。
在其中一个实施例中,根据图像级域判别器和实例级域判别器对学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA,包括:
根据图像级域判别器对学生模型的特征提取网络的前四个下采样层进行无监督的图像级全局域特征混淆对抗学习,得到图像级全局域判别损失Limg,表示为
Figure BDA0004194740130000151
式中,DMl表示特征提取网络的第l层对应的图像级域判别器,fl表示当前输入图像在特征提取网络的第l层的输出特征图,且l=[1,2,4,6],Di表示学生模型的当前输入图像的域标签,其中,目标域迁移图像
Figure BDA0004194740130000157
的风格特征取自源域,因此在特征对齐的过程中,
Figure BDA0004194740130000152
与源域图像
Figure BDA0004194740130000153
被视作源域风格图像集,共享域标签Di=0,同理,源域迁移图像
Figure BDA0004194740130000154
与目标域图像
Figure BDA0004194740130000155
被视作目标域风格图像集,共享域标签Di=1;
根据实例级域判别器对学生模型的特征提取网络的前四个下采样层进行实例级局部域特征混淆对抗学习,得到实例级局部域判别损失Lins,表示为
Figure BDA0004194740130000156
式中,m=1,...,nl表示学生模型的当前输入图像中所包含的真实标签LAS或伪标签LAT的数量,nl表示学生模型的当前输入图像中所包含的真实标签或伪标签的总数,DNl表示特征提取网络的第l层对应的实例域判别器,fl ins表示当前输入图像根据对应的真实标签LAS或伪标签LAT,在特征提取网络的第l层的进行映射得到的实例特征向量;
根据图像级全局域判别损失Limg和实例级局部域判别损失Lins进行计算,得到无监督的多层级域判别损失LDA,表示为
LDA=λimgLimginsLins
式中,λimg、λins分别为Limg与Lins的权重系数,优选地,Limg=0.01,Lins=0.01。
具体地,图像级全局域特征混淆对抗学习的工作流程如图5所示,本申请根据图像级域判别器对学生模型的特征提取网络的前四个下采样层(步长为2的卷积层)进行基于梯度翻转的无监督的图像级全局域特征混淆对抗学习,从而实现多尺度的图像级全局域特征混淆。具体步骤包括:
首先,在前向传播阶段,将各尺度的输出特征图fl∈(bs,c,w,h)分别输入各尺度对应的图像级域判别器DMl中,图像级域判别器中的3个1×1卷积负责逐步将输入特征进行降维,而后通过平均池化进行信息聚合,最后通过Sigmoid层进行域类别预测,图像级域判别器的输出即为域分类结果
Figure BDA0004194740130000161
而后与域标签Di进行对比,得到图像级全局域判别损失Limg。具体地,为了充分混淆各个层级的特征表示,本申请分别选取特征提取网络中的前四个下采样层作为输入特征图,即l=[1,2,4,6],在输入红外图像分辨率为512×512的情况下,各特征层的输出特征图fl尺度分别为[(256×256),(128×128),(64×64),(32×32)],即分别下采样了2、4、8、16倍。
Figure BDA0004194740130000162
的输入特征图维度与其连接的特征提取网络各特征层输出维度相对应,分别为[(bs×32×256×256),(bs×64×128×128),(bs×128×64×64),(bs×256×32×32)]。其中,bs指每批次训练中的输入图像数,c为输入通道数,w、h为输入特征图的宽、高像素数。
然后,在反向传播阶段,图像级域判别器DMl保持正常的正向梯度反传,保证图像级域判别器在对抗学习中趋向于更精确地区分输入图像的所属类别。而后,该梯度信号经过GRL(梯度反转)层,并进行了梯度翻转,而后传递至特征提取网络。这意味着,特征提取网络在参数更新中,根据相反的梯度进行对抗学习,使其趋向于混淆来自不同域的输入图像的特征表示,进而使得域分类器无法正确分类。通过上述操作,即完成了图像级别的全局域特征混淆,最终,在图像级域判别器的对抗之下,学生模型能够在检测识别任务的监督学习中逐渐增强在跨域数据中的域不变特征的提取能力,提高跨域情况下的检测精度。
具体地,实例级局部域特征混淆对抗学习的工作流程如图6所示,本申请根据实例级域判别器对学生模型的特征提取网络的前四个下采样层进行实例级局部域特征混淆对抗学习,具体步骤包括:
首先,将目标边界框位置及大小根据各特征层的下采样倍率进行映射,得到每个目标实例在多尺度特征层中对应的空间位置,为了避免弱小目标的深层特征在量化过程中遭到丢失,在此本申请采用向上取整的方式进行位置映射。其中,在源域扩充集
Figure BDA0004194740130000163
中,目标实例位置可由真实标签LAs提供;而在目源域扩充集
Figure BDA0004194740130000164
中,目标实例位置则由教师模型提供的伪标签LAT提供。由此,即可得到分别具有源域与目标域特征的多尺度实例特征切片。
然后,由于目标实例的大小不同,因而其映射在各特征层上的特征切片也具有不同尺寸。因此,为了将不同尺寸的多尺度实例特征切片归一化为相同的特征向量,进而实现特征分类,本申请采用基于几何特征映射的特征池化方法对不同大小的特征矩阵进行聚合,采用K-Means聚类算法(K均值聚类算法)对训练集标签中的边界框宽、高进行聚类,得到其聚类中心约为(24,18),即24×18像素,该数值即为特征聚合的初始值。与全局特征对齐相同,为了充分混淆各个层级的实例特征表示,本申请选择在l=[1,2,4,6]的四个特征层上进行实例特征混淆。由于上述特征层较输入红外图像,分辨率分别下降了2、4、8、16倍。因此,对应特征层上的特征映射应当保留相应的下采样倍率。为了保留弱小目标在高倍率下采样情况下的特征颗粒度,该量化过程中保持向上取整。通过上述规则,即得到在四个层级下的聚合尺度,但为了减轻计算负担,本申请将前两个特征层的聚合尺度设置为一致。因此,各特征层的聚合尺度具体设置为:6×5、6×5、3×3、2×2。
在前向推理中,当输入图像为
Figure BDA0004194740130000171
Figure BDA0004194740130000172
时,实例特征向量由标签LAS映射产生,输入图像为
Figure BDA0004194740130000173
Figure BDA0004194740130000174
时实例特征向量则由教师模型同时提供的LAT映射产生。由上述方法得到的多尺度的实例特征向量fl ins被送入对应层级的实例级域判别器DN1-DN6。由于各特征层的通道数分别为32、64、128、256,因此展平后的实例特征向量fl ins的长度分别实际为960、1920、1152、1024,即各实例级域判别器的输入尺寸。而后,各实例级域判别器将对输入特征向量进行域判别,并计算实例级局部域判别损失Lins。其中,实例级域判别器的网络结构包含3个全连接层、3个激活层、1个Sigmoid层。实例级域判别器将特征长度为k的实例特征向量聚合为[0,1]的预测值Dins,而后与域标签进行对比计算二分类交叉熵损失,实例特征向量的域类别划分与来源图像一致。对每个标签、层级计算一次,最终求和得到实例级局部域判别损失Lins
最后,在反向传播阶段,梯度信号经过GRL翻转从而进行对抗学习,与同图像级域混淆相同。
应该理解的是,虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
为进一步地验证本申请所提方法的技术效果,本申请还进行了试验验证,实验基于Python3.7+Pytorch框架实现,训练与测试均在搭载NVIDIA GeForce2080s×4的工作站中进行。首先,使用源域数据采用yolov5的默认方法进行监督式训练,并作为学生模型和教师模型的预训练模型。在教师-学生模型的多任务联合学习阶段,初始学习率设置为5×10-3,动量设置为0.8,共经过约300次迭代,学习批次大小为8,由于学生模型与教师模型的基础模型完全一致,因此采用相同的训练配置,在训练中其交替执行前向推理和参数更新。
在本实验中,本申请采用跨波段红外无人机数据集作为基础数据集。其中,子集Set-A为3840张中波红外图像数据、子集Set-B为1600张长波红外图像数据,统一按照7:3的比例将各子集划分为训练集与测试集。两个子集的图像均被归一化为分辨率640×640、8bit红外灰度图像,其中共包含两各类别的无人机:有云台的旋翼无人机DJI-Phantom4,类别记为Ph;无云台的旋翼无人机DJI-Mavic,类别记为Mav。
本实验采用平均准确率(Average Precision,AP)来进行定量评价,即某类别的检测准确率-召回率(Precision-Recall,P-R)曲线下的面积,具体表达式如下:
Figure BDA0004194740130000181
Figure BDA0004194740130000182
Figure BDA0004194740130000191
式中,P为检测准确率,R为召回率,TP为真正例,FP为假正例,FN为假负例。各类目标的AP均值即为类平均准确率(mAP)。判定为真正例的标准为,预测框与真实目标框的IOU(交并比)大于门限值τ。门限值τ=0.5时可得到mAP0.5,取0.5-0.95(间隔0.05)可得到各门限下的类平均准确率均值mAP0.5:0.95,类平均准确率越大,算法的检测性能更优。
本申请分别将Set-A与Set-B交替作为源域和目标域进行交叉验证,将本文提出的基于半监督混合域适应的红外弱小目标检测方法(缩写为HSDA)与现有的通用单阶段域适应目标检测方法进行比较,其中包括IA-YOLO、I3-Net、IBN、SCAN、SSDA。为了分析每种方法对基础检测模型的性能增益,本申请还使用相同的数据训练并测试了各方法的基础检测器,包括I3-Net的基本检测器SSD,SCAN的基本检测器FCOS,IA-YOLO、SSDA、NQSA和本申请所提方法的基本检测器YOLOv5-s。
实验结果如表1所示,在现有的通用域适应目标检测方法中的IA-Yolo、I3Net方法与其基础检测器Yolo-v5、SSD(单次多盒检测器)相比并没有在本任务中获得明显的性能提升,在某些指标上甚至低于仅使用源域训练的基础检测器;而后,SCAN、IBN、SSDA和NQSA方法获得了高于基础检测器的平均准确率,证明其域适应策略在红外弱小目标检测任务是有效的。其中,SSDA方法采用了与本文方法类似的伪标签学习策略。与其他未使用目标域伪标签的方法相比,SSDA方法的平均准确率具有明显的优势,在现有通用的域适应方法中取得了最佳性能。
结合表1可知,提出的基于半监督混合域适应的红外弱小目标检测方法在所有模型中表现出了最好的性能,与仅使用源域训练的基础网络Yolo-v5相比,各项指标获得了较大幅度的提升:在Set-A到Set-B任务中,mAP0.5提升了0.133,提升率为25.1%;mAP0.5:0.95提升了0.106,提升率达到46.5%;在Set-B到Set-A任务中,mAP0.5提升了0.175,提升率为31.1%;mAP0.5:0.95提升了0.101,提升率达到45.1%。
表1各方法在跨域红外弱小目标检测任务中的性能对比
Figure BDA0004194740130000201
图7展示了各算法的检测识别结果。在图7(a)和图7(b)中所示典型场景下,本方法HSDA取得了最佳的检测识别准确率。首先,在低对比度情况下的弱小目标检测方面,本方法的召回率与基准方法相比得到了极大提升;其次,在大多数情况下,本方法对真实目标(真正例)具有更高的预测置信度,这意味着在相同的置信度阈值下,本方法可以得到更多的正确输出。最后,在测试阶段,本方法的多层级域混淆支路不参与前向推理,因此该模型的实际参数规模和计算量并没有增加,这也保证了本方法在IRST系统中的实时性。
在一个实施例中,提供了一种基于半监督混合域适应的红外弱小目标检测装置,包括:
数据获取模块,用于获取包括源域图像和目标域图像的基础数据集,并按照一定比例将基础数据集划分为训练集和测试集;
半监督混合域适应学习网络训练模块,用于将训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;其中,半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型;在训练时,跨域风格迁移模型分别对源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据源域图像与源域迁移图像构建源域扩充集,根据目标域图像与目标域迁移图像构建目标域扩充集;教师模型通过获取跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型;学生模型通过获取跨域风格迁移模型输入的源域扩充集、目标域扩充集以及教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型;
半监督混合域适应学习网络测试模块,用于将测试集中的源域图像和目标域图像输入训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
关于基于半监督混合域适应的红外弱小目标检测装置的具体限定可以参见上文中对于基于半监督混合域适应的红外弱小目标检测方法的限定,在此不再赘述。上述基于半监督混合域适应的红外弱小目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于半监督混合域适应的红外弱小目标检测方法,其特征在于,所述方法包括:
获取包括源域图像和目标域图像的基础数据集,并按照一定比例将所述基础数据集划分为训练集和测试集;
将所述训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;
其中,所述半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型;在训练时,所述跨域风格迁移模型分别对所述源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据所述源域图像与源域迁移图像构建源域扩充集,根据所述目标域图像与目标域迁移图像构建目标域扩充集;所述教师模型通过获取所述跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型;所述学生模型通过获取所述跨域风格迁移模型输入的源域扩充集、目标域扩充集以及所述教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型;
将所述测试集中的源域图像和目标域图像输入所述训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,在训练时,所述跨域风格迁移模型分别对所述源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,包括:
在训练时,将源域图像
Figure FDA0004194740120000011
提供的内容信息和目标域图像
Figure FDA0004194740120000012
提供的风格信息输入所述跨域风格迁移模型进行训练,得到源域到目标域的迁移模型MS2T,根据所述MS2T对所述源域图像
Figure FDA0004194740120000013
进行迁移,得到源域迁移图像
Figure FDA0004194740120000014
将目标域图像
Figure FDA0004194740120000015
提供的内容信息和源域图像
Figure FDA0004194740120000016
提供的风格信息输入所述跨域风格迁移模型进行训练,得到目标域到源域的迁移模型MT2S,根据所述MT2S对所述目标域图像
Figure FDA0004194740120000021
进行迁移,得到目标域迁移图像
Figure FDA0004194740120000022
其中,所述MS2T和MT2S的网络结构均为卷积自编码器。
3.根据权利要求2所述的方法,其特征在于,根据所述源域图像与源域迁移图像构建源域扩充集,根据所述目标域图像与目标域迁移图像构建目标域扩充集,包括:
将源域迁移图像
Figure FDA0004194740120000023
扩充至源域图像
Figure FDA0004194740120000024
所属的原始源域数据集DS中,得到源域扩充集
Figure FDA0004194740120000025
将目标域迁移图像
Figure FDA0004194740120000026
扩充至目标域图像
Figure FDA0004194740120000027
所属的原始目标域数据集DT中,得到目标域扩充集
Figure FDA0004194740120000028
其中,所述源域扩充集
Figure FDA0004194740120000029
与目标域扩充集
Figure FDA00041947401200000210
中的图像仅风格信息不同,内容信息相互对应,且所述源域扩充集
Figure FDA00041947401200000211
中的源域图像
Figure FDA00041947401200000212
与源域迁移图像
Figure FDA00041947401200000213
共享真实标签LAS,所述目标域扩充集
Figure FDA00041947401200000214
无标签。
4.根据权利要求3所述的方法,其特征在于,所述教师模型和学生模型均由包括特征提取网络、检测颈部网络和检测头部网络的基础单阶段目标检测器Yolov5-s组成,所述教师模型和学生模型的网络结构一致,但参数不共享。
5.根据权利要求4所述的方法,其特征在于,所述教师模型通过获取所述跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,包括:
所述教师模型通过获取所述跨域风格迁移模型输入的源域迁移图像
Figure FDA00041947401200000215
和目标域图像
Figure FDA00041947401200000216
采用平均指数移动、源域迁移图像
Figure FDA00041947401200000217
的监督式训练以及目标域图像
Figure FDA00041947401200000218
的自监督训练进行训练和参数更新,得到训练好的教师模型,其中,教师模型具体的参数更新规则为
Figure FDA00041947401200000219
Figure FDA00041947401200000220
式中,θ′Tch表示教师模型更新后的模型参数,θTch表示教师模型更新前的初始参数,αTch表示教师模型的平均指数移动平滑系数,lrTch表示教师模型的监督学习学习率,LTch表示教师模型在源域迁移图像
Figure FDA0004194740120000031
和目标域图像
Figure FDA0004194740120000032
上进行训练的总损失,
Figure FDA0004194740120000033
表示教师模型在源域迁移图像
Figure FDA0004194740120000034
上进行监督式训练产生的检测损失,
Figure FDA0004194740120000035
表示教师模型在目标域图像
Figure FDA0004194740120000036
上进行自监督训练产生的自训练损失,θStu表示学生模型更新前的初始参数,γT表示自监督学习平衡系数。
6.根据权利要求5所述的方法,其特征在于,将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型,包括:
将目标域图像
Figure FDA0004194740120000037
的自监督训练产生的预测结果输入过滤器,根据过滤器设置非极大值抑制阈值和置信度阈值THep对所述预测结果进行过滤筛选,得到目标域扩充集
Figure FDA0004194740120000038
对应的伪标签LAT,并将所述伪标签LAT传递至学生模型;其中,所述非极大值抑制阈值为0.1,所述置信度阈值THep由前一次训练迭代中的平均最大置信度确定,表示为
Figure FDA0004194740120000039
式中,
Figure FDA00041947401200000310
表示前一次训练迭代中的平均最大置信度,ep为当前的迭代次数,
Figure FDA00041947401200000311
表示在第ep-1次迭代中,教师模型对第i个输入样本预测为第C类目标的最大预测置信度,Dn表示输入样本的总数,s.t.表示约束条件,thb表示基础置信度。
7.根据权利要求6所述的方法,其特征在于,所述学生模型通过获取所述跨域风格迁移模型输入的源域扩充集、目标域扩充集以及所述教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型,包括:
根据所述跨域风格迁移模型输入的源域扩充集
Figure FDA00041947401200000312
目标域扩充集
Figure FDA00041947401200000313
以及所述教师模型输入的伪标签LAT,分别在源域扩充集
Figure FDA00041947401200000314
和目标域扩充集
Figure FDA00041947401200000315
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU
根据图像级域判别器和实例级域判别器对所述学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA
根据所述跨域监督训练损失LSTU和无监督的多层级域判别损失LDA对所述学生模型进行训练和参数更新,得到训练好的学生模型,其中,学生模型具体的参数更新规则为
Figure FDA0004194740120000041
式中,θ′Stu为学生模型更新后的模型参数,θStu表示学生模型更新前的初始参数,lrStu表示学生模型的学习率。
8.根据权利要求7所述的方法,其特征在于,根据所述跨域风格迁移模型输入的源域扩充集
Figure FDA0004194740120000042
目标域扩充集
Figure FDA0004194740120000043
以及所述教师模型输入的伪标签LAT,分别在源域扩充集
Figure FDA0004194740120000044
和目标域扩充集
Figure FDA0004194740120000045
上进行监督对比训练和半监督对比训练,得到学生模型的跨域监督训练损失LSTU,表示为
Figure FDA0004194740120000046
式中,λsup和λcon分别表示半监督损失与检测一致性损失的权重系数,
Figure FDA0004194740120000047
表示监督损失,
Figure FDA0004194740120000048
表示半监督损失,
Figure FDA0004194740120000049
表示检测一致性损失,
Figure FDA00041947401200000410
表示学生模型在源域扩充集
Figure FDA00041947401200000411
上进行监督对比训练的检测一致性损失
Figure FDA00041947401200000412
Figure FDA00041947401200000413
表示学生模型在目标域扩充集
Figure FDA00041947401200000414
上进行半监督对比训练的检测一致性损失,
Figure FDA00041947401200000415
Figure FDA00041947401200000416
分别表示为
Figure FDA00041947401200000417
Figure FDA00041947401200000418
式中,
Figure FDA00041947401200000419
Figure FDA00041947401200000420
分别表示学生模型在源域图像
Figure FDA00041947401200000421
和源域迁移图像
Figure FDA00041947401200000422
进行监督式训练产生的检测损失,
Figure FDA00041947401200000423
Figure FDA00041947401200000424
分别表示学生模型在目标域图像
Figure FDA00041947401200000425
和目标域迁移图像
Figure FDA00041947401200000426
进行半监督训练产生的检测损失。
9.根据权利要求7所述的方法,其特征在于,根据图像级域判别器和实例级域判别器对所述学生模型的特征提取网络进行无监督的多层级域混淆训练,得到无监督的多层级域判别损失LDA,包括:
根据图像级域判别器对所述学生模型的特征提取网络的前四个下采样层进行无监督的图像级全局域特征混淆对抗学习,得到图像级全局域判别损失Limg,表示为
Figure FDA0004194740120000051
式中,DMl表示所述特征提取网络的第l层对应的图像级域判别器,fl表示当前输入图像在所述特征提取网络的第l层的输出特征图,且l=[1,2,4,6],Di表示学生模型的当前输入图像的域标签,其中,目标域迁移图像
Figure FDA0004194740120000052
与源域图像
Figure FDA0004194740120000053
共享域标签Di=0,源域迁移图像
Figure FDA0004194740120000054
与目标域图像
Figure FDA0004194740120000055
共享域标签Di=1;
根据实例级域判别器对所述学生模型的特征提取网络的前四个下采样层进行实例级局部域特征混淆对抗学习,得到实例级局部域判别损失Lins,表示为
Figure FDA0004194740120000056
式中,m=1,…,nl表示所述学生模型的当前输入图像中所包含的真实标签LAS或伪标签LAT的数量,nl表示所述学生模型的当前输入图像中所包含的真实标签或伪标签的总数,DNl表示所述特征提取网络的第l层对应的实例域判别器,fl ins表示当前输入图像根据对应的真实标签LAS或伪标签LAT,在所述特征提取网络的第l层的进行映射得到的实例特征向量;
根据所述图像级全局域判别损失Limg和实例级局部域判别损失Lins进行计算,得到无监督的多层级域判别损失LDA,表示为
LDA=λimgLimginsLins
式中,λimg、λins分别为Limg与Lins的权重系数。
10.一种基于半监督混合域适应的红外弱小目标检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取包括源域图像和目标域图像的基础数据集,并按照一定比例将所述基础数据集划分为训练集和测试集;
半监督混合域适应学习网络训练模块,用于将所述训练集中的源域图像和目标域图像输入预先构建的半监督混合域适应学习网络进行训练,得到训练好的半监督混合域适应学习网络;其中,所述半监督混合域适应学习网络包括跨域风格迁移模型、教师模型和学生模型;在训练时,所述跨域风格迁移模型分别对所述源域图像和目标域图像进行交叉风格迁移,得到源域迁移图像和目标域迁移图像,并根据所述源域图像与源域迁移图像构建源域扩充集,根据所述目标域图像与目标域迁移图像构建目标域扩充集;所述教师模型通过获取所述跨域风格迁移模型输入的源域迁移图像和目标域图像,采用平均指数移动、源域迁移图像的监督式训练以及目标域图像的自监督训练进行训练和参数更新,得到训练好的教师模型,并将目标域图像的自监督训练产生的预测结果进行滤波筛选,得到伪标签并传递至学生模型;所述学生模型通过获取所述跨域风格迁移模型输入的源域扩充集、目标域扩充集以及所述教师模型输入的伪标签,采用源域扩充集的监督对比训练、目标域扩充集的半监督对比训练以及多层级域混淆训练进行训练和参数更新,得到训练好的学生模型;
半监督混合域适应学习网络测试模块,用于将所述测试集中的源域图像和目标域图像输入所述训练好的半监督混合域适应学习网络进行红外弱小目标检测,得到预测的目标检测结果。
CN202310443045.5A 2023-04-23 2023-04-23 基于半监督混合域适应的红外弱小目标检测方法和装置 Pending CN116310655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310443045.5A CN116310655A (zh) 2023-04-23 2023-04-23 基于半监督混合域适应的红外弱小目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310443045.5A CN116310655A (zh) 2023-04-23 2023-04-23 基于半监督混合域适应的红外弱小目标检测方法和装置

Publications (1)

Publication Number Publication Date
CN116310655A true CN116310655A (zh) 2023-06-23

Family

ID=86780025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310443045.5A Pending CN116310655A (zh) 2023-04-23 2023-04-23 基于半监督混合域适应的红外弱小目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN116310655A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778335A (zh) * 2023-07-04 2023-09-19 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统
CN116895002A (zh) * 2023-08-11 2023-10-17 山东大学 基于多重图对比学习的源自由域适应目标检测方法及系统
CN117132607A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 图像分割模型处理方法、装置、计算机设备和存储介质
CN117151200A (zh) * 2023-10-27 2023-12-01 成都合能创越软件有限公司 基于半监督训练提升yolo检测模型精度方法及系统
CN117636086A (zh) * 2023-10-13 2024-03-01 中国科学院自动化研究所 无源域适应目标检测方法及装置
CN117689946A (zh) * 2023-12-12 2024-03-12 电子科技大学 基于元增强对比学习的无源无监督域适应方法
CN117934869A (zh) * 2024-03-22 2024-04-26 中铁大桥局集团有限公司 一种目标检测方法、系统、计算设备以及介质
CN118015402A (zh) * 2024-04-10 2024-05-10 传申弘安智能(深圳)有限公司 小样本迁移目标检测模型训练方法、装置及计算机设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778335A (zh) * 2023-07-04 2023-09-19 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统
CN116778335B (zh) * 2023-07-04 2024-04-26 中国科学院空天信息创新研究院 一种基于交叉域师生互训的倒塌建筑物检测方法和系统
CN116895002A (zh) * 2023-08-11 2023-10-17 山东大学 基于多重图对比学习的源自由域适应目标检测方法及系统
CN117636086A (zh) * 2023-10-13 2024-03-01 中国科学院自动化研究所 无源域适应目标检测方法及装置
CN117132607A (zh) * 2023-10-27 2023-11-28 腾讯科技(深圳)有限公司 图像分割模型处理方法、装置、计算机设备和存储介质
CN117151200A (zh) * 2023-10-27 2023-12-01 成都合能创越软件有限公司 基于半监督训练提升yolo检测模型精度方法及系统
CN117689946A (zh) * 2023-12-12 2024-03-12 电子科技大学 基于元增强对比学习的无源无监督域适应方法
CN117934869A (zh) * 2024-03-22 2024-04-26 中铁大桥局集团有限公司 一种目标检测方法、系统、计算设备以及介质
CN118015402A (zh) * 2024-04-10 2024-05-10 传申弘安智能(深圳)有限公司 小样本迁移目标检测模型训练方法、装置及计算机设备
CN118015402B (zh) * 2024-04-10 2024-06-28 传申弘安智能(深圳)有限公司 小样本迁移目标检测模型训练方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN116310655A (zh) 基于半监督混合域适应的红外弱小目标检测方法和装置
Deng et al. Vision based pixel-level bridge structural damage detection using a link ASPP network
Wang et al. Collaborative learning for weakly supervised object detection
WO2020046213A1 (en) A method and apparatus for training a neural network to identify cracks
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
CN107491734B (zh) 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN114648665A (zh) 一种弱监督目标检测方法及系统
Li et al. A review of deep learning methods for pixel-level crack detection
CN112115916A (zh) 域适应Faster R-CNN半监督SAR检测方法
Cerrone et al. End-to-end learned random walker for seeded image segmentation
Ling et al. Solving optimization problems through fully convolutional networks: An application to the traveling salesman problem
CN113762327B (zh) 机器学习方法、机器学习系统以及非暂态电脑可读取媒体
CN112052818A (zh) 无监督域适应的行人检测方法、系统及存储介质
CN116110022A (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN116977710A (zh) 一种遥感图像长尾分布目标半监督检测方法
CN112101114B (zh) 一种视频目标检测方法、装置、设备以及存储介质
CN116310812B (zh) 基于半监督语义分割对比学习的高分辨遥感图像语义变化检测方法
CN115546196A (zh) 一种基于知识蒸馏的轻量级遥感影像变化检测方法
CN117152484A (zh) 改进YOLOv5s的小目标布匹瑕疵检测方法
Sun et al. NSD‐SSD: a novel real‐time ship detector based on convolutional neural network in surveillance video
CN114708637A (zh) 一种基于元学习的人脸动作单元检测方法
CN114419374A (zh) 模型训练及图像处理方法、装置、设备、存储介质
CN112529025A (zh) 一种数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination