CN116681976A - 用于红外小目标检测的渐进式特征融合方法 - Google Patents
用于红外小目标检测的渐进式特征融合方法 Download PDFInfo
- Publication number
- CN116681976A CN116681976A CN202310508666.7A CN202310508666A CN116681976A CN 116681976 A CN116681976 A CN 116681976A CN 202310508666 A CN202310508666 A CN 202310508666A CN 116681976 A CN116681976 A CN 116681976A
- Authority
- CN
- China
- Prior art keywords
- output
- feature
- image
- small target
- infrared small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 230000000750 progressive effect Effects 0.000 title claims abstract description 22
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 230000004044 response Effects 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000003331 infrared imaging Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 28
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明提供一种用于红外小目标检测的渐进式特征融合方法,涉及红外目标检测技术领域。本发明首先采集数据图像并将其裁剪缩放至256×256大小,然后对其进行掩码标注,再将采集的数据集进行划分。经过训练集图像预处理、网络结构随机初始化后,进行特征提取。生成三种不同尺寸的特征图,并分别传入FSM和PFM增强目标高频特征响应幅值。将增强后的结果传入分割头得出最终的预测分割图。最后使用已标注的数据集与预测分割图进行损失计算,根据损失值进行反向传播实现对模型参数的优化直至损失收敛,保存模型与权值文件。本发明解决了红外小目标检测中由于目标轮廓模糊、纹理细节特征少带来的误检漏检问题,提高了红外小目标检测的准确率和检测速度。
Description
技术领域
本发明涉及红外目标检测技术领域,尤其涉及一种用于红外小目标检测的渐进式特征融合方法。
背景技术
红外小目标检测(Infrared small target detect)是计算机视觉目标检测领域中的主要一环,其目的是检出红外图像中所感兴趣的目标,确定其所处的位置。与一般的检测目标相比,红外小目标具有暗弱、尺寸小、形状变化大等特点。与可见光图像中的目标相比,红外图像中的目标存在更多的困难,如缺乏形状和纹理特征,通过滤波和卷积计算后容易造成小目标高频幅值的减弱甚至丢失,红外小目标检测一直是红外目标检测技术领域的研究热点。得益于CNN方法的发展,更多基于数据驱动的方法应用于红外小目标检测。基于数据驱动的方法适合更加复杂的真实场景,受目标尺寸、形状和背景等变化的影响小,该方法需要有庞大的数据量才能表现出强大的模型拟合能力,并且已经取得比传统方法更好的检测性能。
基于数据驱动的红外目标检测算法目前分为边界框检测和像素级分割检测两大类。其中边界框检测:从two stage到one stage一直采用的思路是将预测框与标注框进行匹配获取多个置信度score,然后通过非极大值抑制(Non Maximum Suppression)方法将分数值最大的预测目标通过矩形框的方式表示,这种基于anchor的方法分为两个任务即预测和检出,且直接应用于红外小目标时并不能得到准确的结果。像素级分割检测方法将目标检测视为语义分割任务,直接针对像素进行分类预测,这种端到端的单任务结构更适合小目标检测并获取极好的检出结果。
由于可见光成像在光源不足或者遭遇恶劣环境天气时会严重影响目标检出效果,而红外成像可以很好的解决该类问题,红外探测器具备全天候工作能力,在空域监视、海上监视、反导、导弹制导等领域有着重要的应用。而传统的红外小目标检测方法严重依赖于手工特征,这些方法虽然计算友好,不需要训练和学习,但是手工特征的设计和超参数的调优需要专家知识和大量的工程努力。在深度学习算法中通过搭建浅层网络可以提高性能,但高级语义特征和高分辨率的矛盾仍无法解决。总的来说,由于无人机目标尺寸变化大且在红外图像中像素占比极低,导致图像中的负样本数量过多,在算法运行中损失了大部分可用信息;大多数负样本容易被分类,算法无法在期望的方向上进行优化。因此,直接利用针对正常物体设计的网络来检测红外小目标是非常困难的,需要专门设计一种针对红外小目标的深度学习检测算法。
为了检出红外小目标,近几十年提出许多传统方法。传统的检测方法是通过计算测量目标与背景之间的非连贯性来实现SIRST检测。包括基于滤波的方法,通过滤波方法只能抑制均匀平缓的背景杂波,对于复杂的背景会产生较高的虚警率,性能不稳定;基于HVS的方法,该方法利用每个像素位置与其相邻区域之间的灰度比值作为增强因子,可以有效地增强真实目标,但不能有效地抑制背景中的杂波;基于低秩表示的方法能够适应低SCR红外图像,但在复杂背景下目标较小且形状多变的图像上仍存在较高的虚警率。
第一个基于分割的SIRST检测方法ACM,设计了一个使用非对称上下文模块的语义分割网络,随后ALC引入扩张的局部对比度来改进他们的模型,将传统方法与深度学习方法相结合并使用自底向上的局部注意力调制模块将细微的低层细节嵌入到更高层,从而实现了优异的检测性能。MDvsFA实现了漏检和虚警两种度量之间的平衡,应用cGAN网络将MD和FA作为两个子任务来单独进行模型搭建作为生成器,再使用一个用于图像分类的判别器来辨别两个生成器的输出以及ground-truth这三类图像。AGPCNet利用注意力机制引导金字塔上下文网络来检测目标,首先将特征图分块计算局部关联,然后使用全局上下文注意力来计算语义之间的关联性,最后将不同尺度的解码图进行融合提升检测效果。尽管它们都从不同的角度来解决红外小目标检测问题,但仍存在许多不足。首先红外小目标在经过多次下采样操作后高频响应幅值减小甚至丢失;另一方面由于红外小目标轮廓模糊、纹理细节特征少导致容易出现误检漏检的问题。
发明内容
本发明要解决的问题是针对上述现有技术的不足,提供一种用于红外小目标检测的渐进式特征融合方法,以解决红外成像中小目标在CNN方法中高频响应幅值减小甚至消失的问题及红外小目标检测中由于目标轮廓模糊、纹理细节特征少带来的误检漏检问题,提高红外小目标检测的准确率和检测速度。
为了实现本发明的上述目的,本发明所采取的技术方案是:
一种用于红外小目标检测的渐进式特征融合方法,包括以下步骤:
步骤1使用红外成像仪器捕获包含前景目标的红外图像,并使用标注工具对图像中的目标无人机进行数据标注得到红外小目标数据集。
步骤具体包括:
步骤1.1将获取的红外小目标数据集图像统一裁剪缩放成大小为256×256的图片。
步骤1.2使用标注工具沿着目标轮廓进行标注生成像素掩码图并保存,获得红外小目标数据集,按照设定比例将红外小目标数据集划分为训练集和测试集。
步骤2对红外小目标数据集进行数据增强。
步骤具体包括:
步骤2.1对输入网络的图片进行Resize操作,保持其高宽比例不变,输出图像为x。
步骤2.2对步骤2.1所输出图像进行随机裁剪,裁剪满足y1=λx,λ∈[0.5,0.75],其中λ表示裁剪系数,x为步骤2.1的输出图像,y1表示步骤2.2的输出图像。
步骤2.3将步骤2.2输出图像y1进行随机平移,平移满足y2=0.5y1,其中y1为步骤2.2的输出图像,y2表示步骤2.3的输出图像。
步骤2.4对步骤2.3输出图像y2在数值上进行归一化处理并输出图像。
步骤2.5将步骤2.4输出图像的分辨率放大至256×256大小,对于扩充区域数值上取0。
步骤3设计网络结构,使得给定一幅输入图像,通过此网络结构的端到端卷积对每个像素进行分类以判别其是否为无人机目标,然后输出与其相同大小的分割结果,最后使用CELoss和SoftIoULoss损失函数以实现在期望的方向上优化。上述网络结构分为两个部分:全局特征提取器和特征融合网络,其中特征融合网络又分为两个模块:Neck和Head,其中Neck包括Pool Pyramid Fusion Model简称为PFM和Feature Selection Model简称为FSM。
步骤3具体包括:
步骤3.1使用Swin-Transformer作为全局特征提取器,将步骤2.5的输出图像进行3次下采样,生成64×64、32×32、16×16三种不同尺度的编码图。
步骤3.2将16×16尺寸的编码图作为PFM的输入并输出解码图,上述PFM是由四种输出尺寸不同的自适应池化层并联组成金字塔式网络。
步骤3.2具体包括:
步骤3.2.1设输入特征图其中C、W、H分别代表图像维度、宽度、高度。将输入特征图Input并行传入金字塔池化模块进行解码,产生1×1、2×2、3×3、6×6四种尺寸大小不同的编码结构。
步骤3.2.2使用1×1卷积将特征维度减少到1/4C,然后通过双线性插值对这4个不同尺度大小的特征图进行上采样并与输入的特征图在通道维度上进行级联操作。
步骤3.2.3通过3×3卷积进行卷积计算输出特征图促使相同维度但不同尺度的五个特征图构成上下文金字塔。
步骤3.3将步骤3.2输出解码图进行上采样操作后与步骤3.1中的32×32的编码图一并传入FSM模块并输出解码图F2,然后将输出的编码图F2进行上采样后与步骤3.1中的64×64的编码图再次传入FSM模块并输出F1。上述FSM模块由位置挑选LSM模块和通道挑选CSM模块组成,基于CBAM模块进行改进设计LSM和CSM模块。将LSM、CSM分别应用于低层采样输出和高层采样输出以获取目标位置信息和轮廓信息。接着将LSM的输出和输入与CSM的输入和输出分别进行元素相乘,用于聚合不同采样层的输出特征图。同时对输出的特征图采用卷积核大小为5×5的卷积操作。
输出编码图的计算公式如下:
其中F为FSM模块的最终输出,XH为囊括高层语义信息的深层特征,XL是含有丰富图像轮廓信息及位置信息的浅层特征,和⊕分别表示向量元素相乘和相加,C(*)和L(*)分别表示CSM和LSM模块。
步骤3.3具体包括:
步骤3.3.1首先使用CSM模块对输入的特征图X进行平均池化和最大池化操作从而产生不同的3D张量xi,把特征图X的全局信息软耦合在其内部通道中,然后使用1×1的卷积评估每个通道的重要程度计算出对应权重。其计算公式如下:
其中H为CSM的输出,P(*)为CSM模块的函数表达,Xi表示相同输入图像的不同池化操作,当i=1时x1为平均池化得到的特征向量,当i=2时x2为最大池化得到的特征向量,w和h分别表示特征图的宽度和高度,ε1×1是两个卷积核为1×1但维度不同的point-wiseconvolution,δ表示Sigmoid function,σ表示Rectified Linear Unit。
步骤3.3.2使用LSM模块分别计算输入特征图X的最大值和均值并在维度方向上进行级联操作,然后对拼接之后的特征图进行卷积操作。使用7×7的卷积进一步扩展卷积核的感受野,从低层网络中捕捉出具备更高局部响应幅值的区域,进而计算无人机目标在整个特征图中的准确位置。其计算公式如下:
xi=M(X)
其中L为LSM模块的最终输出,M(*)为针对特征图维度的计算方式,当i=1时M(*)对特征图X取均值输出x1,当i=2时M(*)对特征图X取最大值输出x2,表示维度级联操作,ε7×7代表卷积核为7×7的point-wise convolution。
步骤3.4将步骤3.2和步骤3.3的输出图像作为head的输入,利用该分割头融合不同尺寸的特征图,实现高-低层之间的信息叠加。将步骤3.2和步骤3.3的输出图像分别经过Ghost Model,通过线性计算产生相同数量、纹理信息的编码图。通过Ghost Model处理后对高层编码图进行尺寸翻倍和元素加运算,接着将融合的输出图像通过卷积计算后进行上采样以及维度级联操作,采用多尺度融合策略对不同尺寸的特征图进行渐进式融合,并对融合后的特征图进行最后的阈值分割得到置信图O。
步骤3.5使用CELoss和SoftIoULoss损失函数计算总损失,实现算法在期望的方向上的优化,计算公式为:
CELoss=-∑clsTlog(P)
Loss=α(1-IoU)+β(1-CELoss)
其中,Pixels表示对每个像素进行计算,α、β表示损失权重系数,smooth无实际意义,避免取值为0,使得计算稳定,T和P分别表示真实目标和输出预测对应的像素值。
步骤4使用设计的渐进式特征融合网络PFFNet对已标注的红外小目标数据集进行训练直至网络收敛,保存为最佳训练模型与权重文件。使用最佳训练模型对测试集进行检测,并获取测试集的测试结果。
具体步骤包括:
步骤4.1使用SGD优化器对PFFNet进行优化,设置动量、权值衰减系数及初始学习率,并采用ploy的衰减策略进行训练直至网路收敛,保存最佳训练模型与权重文件。
步骤4.2使用步骤4.1得到的模型权重对测试集进行结果测试,即相同硬件条件下对PFFNet和其他红外小目标检测算法在公开红外小目标数据集上进行对比测试。
本发明采用的技术方案与现有技术相比,具有以下的技术效果:
考虑到高层语义特征中有丰富的目标轮廓特征,低层语义特征中具有准确的目标位置信息,本发明提供了一种用于红外小目标检测的渐进式特征融合方法,该方法模型参数小,具有较强的鲁棒性、很好的检测效果和较短的检测时间。
通过FSM模块中的CSM模块增强目标区域响应幅值,解决无人机目标在上采样过程中容易丢失甚至削弱目标区域响应值的问题。同时通过LSM模块快速定位具有视觉显著性局部区域,克服了红外小目标在红外图像中像素数极低,在对目标进行特征提取过程中容易引入干扰信号的问题。由上述两个模块融合成的FSM模块可以对每个维度的语义信息实现不同编码图之间的信息交互,有效增加下采样与上采样输出编码图的利用率并保证了多尺度特征融合的有效性。
使用用于红外小目标检测的池化金字塔融合模块PFM处理最高下采样层的编码图,通过不同的全局自适应池化层结构可以对空间维度进行压缩,同时取出对应维度的均值,增强小目标在深层网络中的特征表示,解决了由于卷积下采样次数的增加,带来的如螺旋桨、机臂等无人机目标特征信息减弱甚至丢失的问题。
设计了更适合红外小目标的轻量化分割头,解决了目标在卷积网络最深层特征响应减弱的问题。
附图说明
图1为本发明实施例中用于红外小目标检测的渐进式特征融合方法的整体结构流程图;
图2为本发明实施例中PFM模块结构示意图;
图3为本发明实施例中FSM结构示意图;
图4为本发明实施例中CSM结构示意图;
图5为本发明实施例中LSM结构示意图;
图6为本发明实施例中轻量化分割头结构示意图;
图7为本发明实施例中PFFNet结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
如图1所示,本实施例的方法如下所述:
步骤1使用红外成像仪器捕获包含前景目标的红外图像,并使用标注工具对图像中的目标无人机进行数据标注得到红外小目标数据集。
步骤具体包括:
步骤1.1将获取的红外小目标数据集图像统一裁剪缩放成大小为256×256的图片。
步骤1.2使用标注工具沿着目标轮廓进行标注生成像素掩码图并保存,按照8:2的比例将红外小目标数据集划分为训练集和测试集。
步骤2对红外小目标数据集进行数据增强。
步骤具体包括:
步骤2.1对输入网络的图片进行Resize操作,保持其高宽比例不变。
步骤2.2对步骤2.1所输出图像进行随机裁剪,裁剪满足y1=λx,λ∈[0.5,0.75],其中λ表示裁剪系数,x为步骤2.1的输出图像,y1表示步骤2.2的输出图像。
步骤2.3将步骤2.2输出图像进行随机平移,平移满足y2=0.5y1,其中y1为步骤2.2的输出图像,y2表示步骤2.3的输出图像。
步骤2.4对步骤2.3输出图像在数值上进行归一化处理并输出图像。
步骤2.5将步骤2.4输出图像的分辨率放大至256×256大小,对于扩充区域数值上取0。
步骤3设计网络结构,使得给定一幅输入图像,通过此网络结构的端到端卷积对每个像素进行分类以判别其是否为无人机目标,然后输出与其相同大小的分割结果,最后使用CELoss和SoftIoULoss损失函数以实现算法在期望的方向上优化,加快模型收敛速度,提升预测准确度。上述网络结构分为两个部分:全局特征提取器和特征融合网络。全局特征提取器通过查看整幅图像来提取输入红外图像的基本特征,获取这些基本特征可以有效地减少图像冗余信息。特征融合网络又分为两个模块:Neck和Head,其中Head用于实现不同尺度大小特征图的渐进式融合,并生成分割掩码图。Neck又包括Pool PyramidFusion Model简称为PFM和Feature Selection Model简称为FSM,前者用于增强红外无人机目标深层网络中的特征响应幅值,后者作为高-低层之间信息交互的桥梁提高下采样输出编码图的利用率。
步骤3具体包括:
步骤3.1使用Swin-Transformer作为全局特征提取器,将步骤2.5的输出图像进行3次下采样,生成64×64、32×32、16×16三种不同尺度的编码图。
步骤3.2将16×16尺寸的编码图作为PFM的输入并输出解码图,通过PFM增强深层目标高频响应幅值。上述PFM是由四种输出尺寸不同的自适应池化层并联组成金字塔式网络。
步骤具体包括:
步骤3.2.1如图2所示,设输入特征图其中C、W、H分别代表图像维度、宽度、高度。将输入特征图Input并行传入金字塔池化模块进行解码,产生1×1、2×2、3×3、6×6四种尺寸大小不同的编码结构。
步骤3.2.2使用1×1卷积将特征维度减少到1/4C,然后通过双线性插值对这4个不同尺度大小的特征图进行上采样并与输入的特征图在通道维度上进行级联操作。
步骤3.2.3通过3×3卷积进行卷积计算输出特征图促使相同维度但不同尺度的五个特征图构成上下文金字塔。
步骤3.3将步骤3.2输出解码图进行上采样操作后与步骤3.1中的32×32的编码图一并传入FSM模块,并输出解码图F2,然后将输出的编码图F2进行上采样后与步骤3.1中的64×64的编码图再次传入FSM模块并输出F1。如图3所示,上述FSM模块由位置挑选LSM模块和通道挑选CSM模块组成,囊括高层语义信息的深层特征和含有丰富图像轮廓信息及位置信息的浅层特征可以充分融合,进而提高输出编码图的利用率。基于CBAM模块进行改进设计LSM和CSM模块。将LSM、CSM分别应用于低层采样输出和高层采样输出以获取目标位置信息和轮廓信息。接着将LSM的输出和输入与CSM的输入和输出分别进行元素相乘,用于聚合不同采样层的输出特征图。同时对输出的特征图采用卷积核大小为5×5的卷积操作。FSM模块利用每个维度的语义信息实现不同编码图之间的信息交互,通过该模块可以有效增加下采样与上采样输出编码图的利用率,通过定位和增强高频响应幅值区域保证多尺度特征融合的有效性。为保留小目标在深层网络中的特征表示,同时不丢失目标位置空间细节编码,利用CSM增强高-低层之间信息交互,通过LSM获取目标位置信息。
输出编码图的计算公式如下:
其中F为FSM模块的最终输出,XH为囊括高层语义信息的深层特征,XL是含有丰富图像轮廓信息及位置信息的浅层特征,和⊕分别表示向量元素相乘和相加,C(*)和L(*)表示CSM和LSM模块。
步骤3.3具体包括:
步骤3.3.1如图4所示,首先使用CSM模块对输入的特征图X进行平均池化和最大池化操作从而产生不同的3D张量xi,把特征图X的全局信息软耦合在其内部通道中,然后使用1×1的卷积评估每个通道的重要程度计算出对应权重。其计算公式如下:
其中H为CSM的输出,P(*)为CSM模块的函数表达,Xi表示相同输入图像的不同池化操作,当i=1时x1为平均池化得到的特征向量,当i=2时x2为最大池化得到的特征向量,w和h分别表示特征图的宽度和高度,ε1×1是两个卷积核为1×1但维度不同的point-wiseconvolution,δ表示Sigmoid function,σ表示Rectified Linear Unit。
步骤3.3.2如图5所示,使用LSM模块分别计算输入特征图X的最大值和均值并在维度方向上进行级联操作,然后对拼接之后的特征图进行卷积操作。使用7×7的卷积进一步扩展卷积核的感受野,从低层网络中捕捉出具备更高局部响应幅值的区域,进而计算无人机目标在整个特征图中的准确位置。其计算公式如下:
xi=M(X)
其中L为LSM模块的最终输出,M(*)为针对特征图维度的计算方式,当i=1时M(*)对特征图X取均值输出x1,当i=2时M(*)对特征图X取最大值输出x2,表示维度级联操作,ε7×7代表卷积核为7×7的point-wise convolution。
步骤3.4如图6所示,将步骤3.2和步骤3.3的输出图像作为head的输入,利用该分割头融合不同尺寸的特征图,实现高-低层之间的信息叠加,增强目标高频响应幅值。将步骤3.2和步骤3.3的输出图像分别经过GhostModel,由于红外小目标在图像中占比极小,同时通过普通的卷积计算后会产生大量相同纹理信息的特征图,GhostModel可以通过线性计算产生相同数量、纹理信息的编码图,从而降低卷积参数量提升训练和推理效率。通过Ghost Model处理后对高层编码图进行尺寸翻倍和元素加运算,该过程对所有卷积块共享相同权重大大简化了小目标检测的任务,使用元素求和运算降低网络推理时间的同时可以减少P算法参数量。接着将融合的输出图像通过卷积计算后进行上采样以及维度级联操作,采用多尺度融合策略对不同尺寸的特征图进行渐进式融合,并对融合后的特征图进行最后的阈值分割得到置信图O。
步骤3.5使用CELoss和SoftIoULoss损失函数计算总损失,实现算法在期望的方向上的优化,计算公式为:
CELoss=-∑clsTlog(P)
Loss=α(1-IoU)+β(1-CELoss)
其中,T和P分别表示真实目标和输出预测对应的像素值,Pixels表示对每个像素进行计算,α、β表示损失权重系数,smooth无实际意义,避免取值为0,使得计算稳定。根据训练开始阶段的损失值,设定α=3,β=1以平衡个体损失对总损失的影响以实现算法在期望的方向上优化,同时为了计算的稳定性本文令smooth=1。不同的权重平衡可能会影响性能指标。
步骤4使用如图7中所示的渐进式特征融合网络PFFNet对已标注的红外小目标数据集进行训练直至网络收敛,保存最佳训练模型与权重文件。使用最佳训练模型对测试集进行检测,并获取测试集的测试结果。
具体步骤包括:
步骤4.1使用SGD优化器对PFFNet进行优化,其中动量和权值衰减系数分别设置为0.9和0.0001,初始学习率为0.05,并采用ploy的衰减策略进行训练直至网路收敛,保存最佳训练模型与权重文件。
步骤4.2使用步骤4.1得到的模型权重对测试集进行结果测试。
在相同硬件条件下对PFFNet和其他红外小目标检测算法在公开红外小目标数据集上进行对比测试,测试结果如表1所示:
表1本发明方法与其他红外小目标检测算法的检测性能对比
从表1可以看出,PFFNet的IoU比ALC高1.8个百分点,运行速度提升0.047s,检测速度虽然比最快的ACM慢了0.006s但检测性能提升明显。表1充分说明本文方法的有效性可以实现实时性红外小目标检测。
Claims (7)
1.一种用于红外小目标检测的渐进式特征融合方法,其特征在于,包括以下步骤:
步骤1使用红外成像仪器捕获包含前景目标的红外图像,并使用标注工具对图像中的目标无人机进行数据标注得到红外小目标数据集;
步骤2对红外小目标数据集进行数据增强;
步骤3设计网络结构,使得给定一幅输入图像,通过此网络结构的端到端卷积对每个像素进行分类以判别其是否为无人机目标,然后输出与其相同大小的分割结果,最后使用CELoss和SoftIoULoss损失函数以实现在期望的方向上优化,上述网络结构分为两个部分:全局特征提取器和特征融合网络,其中特征融合网络又分为两个模块:Neck和Head,其中Neck包括Pool Pyramid Fusion Model简称为PFM和Feature Selection Model简称为FSM;
步骤4使用设计的渐进式特征融合网络PFFNet对已标注的红外小目标数据集进行训练直至网络收敛,保存为最佳训练模型与权重文件,使用最佳训练模型对测试集进行检测,并获取测试集的测试结果。
2.根据权利要求1所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1将获取的红外小目标数据集图像统一裁剪缩放成大小为256×256的图片;
步骤1.2使用标注工具沿着目标轮廓进行标注生成像素掩码图并保存,获得红外小目标数据集,按照设定比例将红外小目标数据集划分为训练集和测试集。
3.根据权利要求1所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤2具体包括以下步骤:
步骤2.1对输入网络的图片进行Resize操作,保持其高宽比例不变,输出图像为x;
步骤2.2对步骤2.1所输出图像进行随机裁剪,裁剪满足y1=λx,λ∈[0.5,0.75],其中λ表示裁剪系数,x为步骤2.1的输出图像,y1表示步骤2.2的输出图像;
步骤2.3将步骤2.2输出图像y1进行随机平移,平移满足y2=0.5y1,其中y1为步骤2.2的输出图像,y2表示步骤2.3的输出图像;
步骤2.4对步骤2.3输出图像y2在数值上进行归一化处理并输出图像;
步骤2.5将步骤2.4输出图像的分辨率放大至256×256大小,对于扩充区域数值上取0。
4.根据权利要求1所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1使用Swin-Transformer作为全局特征提取器,将步骤2.5的输出图像进行3次下采样,生成64×64、32×32、16×16三种不同尺度的编码图;
步骤3.2将16×16尺寸的编码图作为PFM的输入并输出解码图,上述PFM是由四种输出尺寸不同的自适应池化层并联组成金字塔式网络;
步骤3.3将步骤3.2输出解码图进行上采样操作后与步骤3.1中的32×32的编码图一并传入FSM模块并输出解码图F2,然后将输出的编码图F2进行上采样后与步骤3.1中的64×64的编码图再次传入FSM模块并输出F1,上述FSM模块由位置挑选LSM模块和通道挑选CSM模块组成,基于CBAM模块进行改进设计LSM和CSM模块,将LSM、CSM分别应用于低层采样输出和高层采样输出以获取目标位置信息和轮廓信息,接着将LSM的输出和输入与CSM的输入和输出分别进行元素相乘,用于聚合不同采样层的输出特征图,同时对输出的特征图采用卷积核大小为5×5的卷积操作;
输出编码图的计算公式如下:
其中F为FSM模块的最终输出,XH为囊括高层语义信息的深层特征,XL是含有丰富图像轮廓信息及位置信息的浅层特征,和⊕分别表示向量元素相乘和相加,C(*)和L(*)分别表示CSM和LSM模块;
步骤3.4将步骤3.2和步骤3.3的输出图像作为head的输入,利用该分割头融合不同尺寸的特征图,实现高-低层之间的信息叠加,将步骤3.2和步骤3.3的输出图像分别经过Ghost Model,通过线性计算产生相同数量、纹理信息的编码图,通过Ghost Model处理后对高层编码图进行尺寸翻倍和元素加运算,接着将融合的输出图像通过卷积计算后进行上采样以及维度级联操作,采用多尺度融合策略对不同尺寸的特征图进行渐进式融合,并对融合后的特征图进行最后的阈值分割得到置信图O;
步骤3.5使用CELoss和SoftIoULoss损失函数计算总损失,实现算法在期望的方向上的优化,计算公式为:
CELoss=-∑clsTlog(P)
Loss=α(1-IoU)+β(1-CELoss)
其中,Pixels表示对每个像素进行计算,α、β表示损失权重系数,smooth无实际意义,避免取值为0,使得计算稳定,T和P分别表示真实目标和输出预测对应的像素值。
5.根据权利要求4所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤3.2具体包括以下步骤:
步骤3.2.1设输入特征图其中C、W、H分别代表图像维度、宽度、高度,将输入特征图Input并行传入金字塔池化模块进行解码,产生1×1、2×2、3×3、6×6四种尺寸大小不同的编码结构;
步骤3.2.2使用1×1卷积将特征维度减少到1/4C,然后通过双线性插值对这4个不同尺度大小的特征图进行上采样并与输入的特征图在通道维度上进行级联操作;
步骤3.2.3通过3×3卷积进行卷积计算输出特征图促使相同维度但不同尺度的五个特征图构成上下文金字塔。
6.根据权利要求4所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤3.3具体包括以下步骤:
步骤3.3.1首先使用CSM模块对输入的特征图X进行平均池化和最大池化操作从而产生不同的3D张量xi,把特征图X的全局信息软耦合在其内部通道中,然后使用1×1的卷积评估每个通道的重要程度计算出对应权重,其计算公式如下:
其中H为CSM的输出,P(*)为CSM模块的函数表达,Xi表示相同输入图像的不同池化操作,当i=1时x1为平均池化得到的特征向量,当i=2时x2为最大池化得到的特征向量,w和h分别表示特征图的宽度和高度,ε1×1是两个卷积核为1×1但维度不同的point-wiseconvolution,δ表示Sigmoid function,σ表示Rectified Linear Unit;
步骤3.3.2使用LSM模块分别计算输入特征图X的最大值和均值并在维度方向上进行级联操作,然后对拼接之后的特征图进行卷积操作,使用7×7的卷积进一步扩展卷积核的感受野,从低层网络中捕捉出具备更高局部响应幅值的区域,进而计算无人机目标在整个特征图中的准确位置,其计算公式如下:
xi=M(X)
其中L为LSM模块的最终输出,M(*)为针对特征图维度的计算方式,当i=1时M(*)对特征图X取均值输出x1,当i=2时M(*)对特征图X取最大值输出x2,表示维度级联操作,ε7×7代表卷积核为7×7的point-wise convolution。
7.根据权利要求1所述的一种用于红外小目标检测的渐进式特征融合方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1使用SGD优化器对PFFNet进行优化,设置动量、权值衰减系数及初始学习率,并采用ploy的衰减策略进行训练直至网路收敛,保存最佳训练模型与权重文件;
步骤4.2使用步骤4.1得到的模型权重对测试集进行结果测试,即相同硬件条件下对PFFNet和其他红外小目标检测算法在公开红外小目标数据集上进行对比测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310508666.7A CN116681976A (zh) | 2023-05-08 | 2023-05-08 | 用于红外小目标检测的渐进式特征融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310508666.7A CN116681976A (zh) | 2023-05-08 | 2023-05-08 | 用于红外小目标检测的渐进式特征融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116681976A true CN116681976A (zh) | 2023-09-01 |
Family
ID=87779938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310508666.7A Pending CN116681976A (zh) | 2023-05-08 | 2023-05-08 | 用于红外小目标检测的渐进式特征融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681976A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
-
2023
- 2023-05-08 CN CN202310508666.7A patent/CN116681976A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765378A (zh) * | 2024-02-22 | 2024-03-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
CN117765378B (zh) * | 2024-02-22 | 2024-04-26 | 成都信息工程大学 | 多尺度特征融合的复杂环境下违禁物品检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN114202696B (zh) | 基于上下文视觉的sar目标检测方法、装置和存储介质 | |
CN114565860B (zh) | 一种多维度增强学习合成孔径雷达图像目标检测方法 | |
CN113222824B (zh) | 一种红外图像超分辨率及小目标检测方法 | |
Cho et al. | Semantic segmentation with low light images by modified CycleGAN-based image enhancement | |
CN113505634B (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN116758117B (zh) | 可见光与红外图像下的目标跟踪方法及系统 | |
CN114782298B (zh) | 一种具有区域注意力的红外与可见光图像融合方法 | |
CN112446292B (zh) | 一种2d图像显著目标检测方法及系统 | |
CN115761393B (zh) | 一种基于模板在线学习的无锚目标跟踪方法 | |
CN117422971A (zh) | 一种基于跨模态注意力机制融合的双模态目标检测方法与系统 | |
CN113536920A (zh) | 一种半监督三维点云目标检测方法 | |
CN116681976A (zh) | 用于红外小目标检测的渐进式特征融合方法 | |
CN116071676A (zh) | 一种基于注意力导向金字塔融合的红外小目标检测方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN116935249A (zh) | 一种无人机场景下三维特征增强的小目标检测方法 | |
CN115861669A (zh) | 一种基于聚类思想的红外弱小目标检测方法 | |
CN115797684A (zh) | 一种基于上下文信息的红外小目标检测方法及系统 | |
CN114627183A (zh) | 一种激光点云3d目标检测方法 | |
Yu et al. | YOLOv5-Based Dense Small Target Detection Algorithm for Aerial Images Using DIOU-NMS. | |
CN115471729B (zh) | 一种基于改进YOLOv5的舰船目标识别方法及系统 | |
Yan et al. | Optical remote sensing image waters extraction technology based on deep learning context-unet | |
CN116486203B (zh) | 一种基于孪生网络和在线模板更新的单目标跟踪方法 | |
Ning et al. | YOLOv7-SIMAM: An effective method for SAR ship detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |