CN114862844A - 一种基于特征融合的红外小目标检测方法 - Google Patents
一种基于特征融合的红外小目标检测方法 Download PDFInfo
- Publication number
- CN114862844A CN114862844A CN202210661383.1A CN202210661383A CN114862844A CN 114862844 A CN114862844 A CN 114862844A CN 202210661383 A CN202210661383 A CN 202210661383A CN 114862844 A CN114862844 A CN 114862844A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- window
- attention
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种基于特征融合的红外小目标检测方法,其步骤包括:1、对红外图像进行预处理,避免在训练过程中过拟合;2、构建Transformer架构的神经网络分支提取图像特征;3、构建CNN架构的神经网络分支提取图像特征;4、构建特征融合模块将两个分支的特征进行融合;5、结合两种损失函数来优化模型。本发明利用Transformer分支、CNN分支和一个特征融合模块,可以学习与背景相对应的像素之间的长期依赖关系,融合局部细节特征和全局语义特征,从而实现更精确的目标检测,提升了网络的性能。
Description
技术领域
本发明属于计算机视觉领域,具体地说是一种基于特征融合的红外小目标检测方法。
背景技术
在计算机视觉领域中,基于红外探测系统的红外弱小目标检测一直都是一个重要的课题和研究热点,具有较高的实际应用价值,可以广泛应用于海上监视、红外预警、红外制导、红外搜索、跟踪等实际场景中。然而,由于红外小目标缺乏如颜色和纹理这种易于区别的特征,且体积小,成像距离长,信噪比较低,在复杂多变的背景下很容易被噪声淹没,这使得它很难被发现。因此,高检测率、低虚警率的红外小目标检测算法仍然是实际应用的必然需求。
然而,在大多数实际应用的红外成像系统中,待检测目标与探测器之间的距离较远,使得红外目标占整幅红外图像的面积非常小,一般少于100个像素,加上背景复杂多变的特点,为检测带来困难。具体表现为以下几点:(1)目标可用特征少。由于目标尺寸小,总辐射能量小于背景的辐射能量,在图像中灰度分布多变,难以采用统一的数学模型进行描述;且不存在精细的纹理、形状等结构信息,使得传统可见光图像的目标检测方法无法直接用于红外弱小目标检测中。(2)图像的信噪比低。由于成像距离远,使得小目标与云层、海浪等的杂波和噪声有相似的特点,图像的信噪比低,目标信号几乎淹没在难以预测的背景中,更加难以检测。(3)成像环境复杂。在红外精确制导和预警方面,成像过程中往往伴随着烟雾和海波等,这对不同检测算法的鲁棒性提出了更高的要求。
为了解决上述问题,传统的基于单帧图像的红外小目标检测主要有基于滤波的方法、基于人类视觉系统(human visual system,HVS)的方法和基于低秩稀疏恢复的方法。基于滤波的检测方法是最早用于小目标检测的方法,该类算法主要利用设计的滤波器对红外图像背景进行估计,达到抑制背景的效果,或者利用目标、背景和杂波之间的频率差异,在频域内设计相应的滤波器将背景与杂波滤除;基于人类视觉系统的方法通过目标与背景的局部差异构建可以突出目标的显著图,进而实现对目标的检测;基于低秩稀疏恢复的方法利用频率特征差异实现目标检测,或者通过“滑窗”方式分块,分离出每个块的稀疏的目标特征,实现检测任务。但是这些传统方法只能在一定程度上起到抑制均匀背景的作用,不能解决复杂背景的问题,且检测率低,对于目标较暗且背景复杂的红外图像虚警率高,算法的鲁棒性较差。现有的基于CNN的方法通过改进卷积神经网络的特征提取框架来检测复杂背景下不同尺寸、低信噪比的小目标,相对传统算法来说鲁棒性更强,但是检测精度仍有提高空间。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于特征融合的红外小目标检测方法,从而能提升网络的检测性能以实现更精确的红外小目标检测。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于特征融合的红外小目标检测方法的特点是按如下步骤进行:
步骤1、对红外图像进行预处理;
步骤1.1、获取红外图像数据集并进行尺寸统一、裁剪、水平和垂直翻转的预处理后,得到处理后的红外图像数据集,记为{In|n=1,2,…,N};其中,In表示第n张红外图像;N表示红外图像数据集中的图像数量;
步骤2、构建Transformer架构的神经网络分支,并将所述处理后的红外图像数据集输入所述神经网络分支中;
步骤2.1、基于Transformer的神经网络分支由M个多头自注意力块组成,分别记为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M;所述第m级多头自注意力块SwinTBm依次由第m级合并采样层PatchMergingm、第m级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成;
所述第m级合并采样层PatchMergingm由第m级划分窗口层DivWm、第m级归一化层NLm和第m级线性层Fcm组成;
所述第m级窗口多头自注意力层WMSLm由第m级前归一化层LN1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LN2m和第m级窗口全连接层WMLPm组成;
所述第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LN3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LN4m和第m级移位窗口全连接层SMLPm组成;
步骤2.2、当m=1时,所述第n张红外图像In输入第m个多头自注意力块中,并经过第m 级自注意力块SwinTBm的第m级合并采样层PatchMergingm的处理后,输出合并特征张量RIn,m;
所述合并特征张量RIn,m经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LN1m的处理,得到归一化后的特征张量再输入第m级窗口多头计算单元WMSAm中进行线性变换和自注意力特征计算后;再与第m级合并采样层PatchMergingm输出的合并特征张量RIn,m进行残差连接,得到自注意力特征张量WRIn,m;所述自注意力特征张量WRIn,m依次输入第m级后归一化层LN2m和第m级窗口全连接层WMLPm中进行线性变换和通道数调整后,再与自身进行残差连接后得到残差特征张量WMRIn,m;
所述残差特征张量WMRIn,m经过第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LN3m的归一化处理后,再输入第m级移位窗口多头计算单元SWMSAm中进行线性变换和窗口偏移的自注意力特征计算;然后与残差特征张量WMRIn,m进行残差连接得到偏移自注意力特征张量SWRIn,m;
所述偏移自注意力特征张量SWRIn,m依次输入第m级后归一化层LN4m和第m级窗口全连接层SWMLPm中进行线性变换和通道数调整后,再与偏移自注意力特征张量SWRIn,m自身进行残差连接并得到相应输出尺寸为的第m个窗口特征张量SWMRIn,m,并作为所述m级多头自注意力块SwinTBm的输出特征张量;其中,W,H为第n张红外强度图像In的宽和高,C为第m级多头自注意力块的输出通道数,a为倍数,a=2(m-1);
步骤2.3、当m=2,3,...,M时,将第m-1个窗口特征张量SWMRIm-1作为第m级多头自注意力块SwinTBm的输入,并由第m级多头自注意力块SwinTBm输出第m个窗口特征张量SWMRIn,m,从而由第M级多头自注意力块SwinTBM输出第M个窗口特征张量SWMRIn,M,并作为Transformer的神经网络分支最终输出的窗口特征张量,记为SWMRIn;
步骤3、构建CNN架构的网络分支,包括:下采样模块、中间模块以及上采样模块;并将所述处理后的红外图像数据集输入所述网络分支中;
步骤3.1、所述下采样模块由M个下采样块组成,M个下采样块分别为DSampleBlock1,...,DSampleBlockm,...,DSampleBlockM;其中,DSampleBlockm表示第m级下采样块,m=1,2,...,M;所述第m级下采样块DSampleBlockm由第m级最大池化层MaxPool2dm和第m级多层卷积层nCovm组成;
所述第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及X个ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X;
当m=1时,所述第n张红外图像In输入第m级下采样模块DSampleBlock1中的第m级最大池化层MaxPool2dm和第m级多层卷积层nCovm进行池化和卷积等处理,将特征张量的尺寸转变为输入的倍后,输出特征张量DResultn,m,其中,b表示缩放尺度系数;
当m=2,3,...,M时,将特征张量DResultn,m-1作为第m级下采样块DSampleBlockm的输入,并由第m级多层卷积层nCovm输出特征张量DResultn,m;从而由第M级下采样块DSampleBlockM输出所述下采样模块最终输出的特征张量DResultn,M;
步骤3.2:所述中间模块是一个多层二维卷积层,依次包括:X个卷积核为k×k的二维卷积层、X个批量归一化层和X个ReLU激活函数;
所述特征张量DResultn,M经过所述中间模块的处理后,输出第n个特征张量midResultn;
步骤3.3:所述上采样模块由M个上采样块组成,M个上采样块分别记为USampleBlock1,...,USampleBlockm,...,USampleBlockM;其中,USampleBlockm表示第m级上采样模块;
所述第m级上采样块USampleBlockm由第m级逆卷积层ConvTransm和第m级多层卷积层 nCovm组成;所述第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及 X个ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X;
所述第n个特征图midResultn输入第M级上采样块USampleBlockM中的第m级逆卷积层 ConvTransm进行转置卷积,再经过第m级多层卷积层nCovm的处理后得到输出特征张量UResultn,M;
所述特征张量UResultn,M与中间模块的输出midResultn进行拼接形成跳跃连接后共同作为所述第M级多层二维卷积层Uconv2dM的输入,并相应输出特征张量UCresultn,M;
当m=1,2,…,M-1时,下采样模块中第m级下采样块DSampleBlockm的第m级多层卷积层nCovm输出的特征张量DCresultn,m和第m+1级上采样块USampleBlockm+1中第m+1级第多层卷积层nCovm+1输出的特征张量UCresultn,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCovm的输入;从而由第1级上采样块USampleBlock1得到所述上采样模块最终输出的采样特征张量UIn;
步骤4、构建特征融合模块,依次由全局平均池化层GAP、线性层、加权层和校准层组成;
步骤4.1、将所述Transformer的神经网络分支输出的窗口特征张量SWMRIn和CNN架构的网络分支输出的采样特征张量UIn分别作为特征融合模块的两个输入特征向量,并输入到全局平均池化层GAP中,先将输入特征向量中每个通道的特征图信息压缩,再将压缩后的信息累加得到空间压缩向量,其中,窗口特征张量SWMRIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量TransIn,采样特征张量UIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量CNNIn;
步骤4.2、所述向量TransIn和向量CNNIn分别通过线性层的展平和线性操作后得到向量 TransLn和向量CNNLn;
步骤4.3、加权层将所述向量TransIn和向量CNNIn分别乘以权值L1和L2后相加得到一个融合的特征权重TCWeightn;
步骤4.4、校准层将所述融合特征权重TCWeightn通过Sigmoid函数和升维处理后与所述 Transformer的神经网络分支输出的窗口特征张量SWMRIn相乘,得到信息校准过后的特征张量TCResultn,最后再通过一个Sigmoid激活函数得到模型最终的输出特征图xn;
步骤5、损失函数的设计与迭代训练;
步骤5.1、利用式(8)和式(9)构建第n张图片的模型预测输出与第n张图片真实像素标签之间的交叉熵损失LBCE(x,y):
LBCE(x,y)=L={l1,…,ln,…,lN}T (8)
ln=-wn[yn·logxn+(1-yn)·log(1-xn)] (9)
式(8)和式(9)中,ln表示输入的第n张图片的交叉熵损失,xn表示输入的第n张红外图像In的模型预测输出,yn表示输入的第n张红外图像In的真实像素标签,wn表示表示对loss中每个元素的加权权值;
步骤5.2、利用式(10)构建第n张红外图像In的模型预测输出xn与第n张红外图像In真实像素标签yn之间的Dice损失LDice:
LDice=1-2|xn∩yn|/(|xn|+|yn|) (10)
步骤5.3、利用式(11)构建总体损失函数L:
L=αLBCE+βLDice (11)
式(11)中,α和β为自定义的两个平衡系数;
步骤5.4、基于红外图像数据集,利用梯度下降法对所述Transformer架构的神经网络分支和CNN架构的网络分支进行训练,并计算所述总体损失函数L,以更新网络参数,当迭代次数达到最大迭代次数epoch时,停止训练,从而得到最优红外小目标预测模型,用于对所输入的红外小目标数据集进行检测,并输出检测结果图。
与现有技术相比,本发明的有益效果在于:
1、本发明结合了Transformer自注意力模型,来捕获红外背景与目标之间的长期依赖关系,在红外图像强噪声背景下也能很好的将目标与背景分离,针对红外图像中小目标与背景杂波亮点相似的问题,自注意力机制能使模型更专注于定位小目标在图像中的位置,降低了虚警率,解决了现有的传统方法只能在一定程度上起到抑制均匀背景而不能处理复杂背景的问题。
2、本发明使用了CNN架构的神经网络,结合了多个下采样和上采样模块,映射出不同大小的特征图像,可以捕捉到具有不同尺度的特征信息,以应对目标尺寸小、可用特征少的问题,一定程度上提高了对不存在精细纹理、形状等结构信息的小目标的检测率。
3、本发明设计了一个特征融合模块来进行特征信息的融合以消除两个分支的差异,通过更好的融合局部细节特征和全局语义特征,使模型将注意力放在小目标的位置,从而实现了更精确的目标检测,提升了网络的性能。
附图说明
图1为本发明中红外小目标检测网络总结构图;
图2为本发明中SwinTBm模块图;
图3为本发明中特征融合模块图。
具体实施方式
本实施例中,一种基于特征融合的红外小目标检测方法,是利用CNN和Transformer两个分支来分别提取小目标的特征信息,对杂波背景、目标大小和目标形状的变化具有较强的鲁棒性。如图1所示,其中,一个分支使用强大的分层Transformer来捕捉大范围的依赖关系,另一个分支使用U-Net的变体来提取小目标局部细节,最后,通过一个特征融合模块来重构从两个分支中提取的特征,从而实现精确的目标检测,缓解背景杂波的影响,具体的说,该方法是按如下步骤进行:
步骤1、对红外图像进行预处理;
步骤1.1、获取红外图像数据集并进行尺寸统一、裁剪、水平和垂直翻转的预处理后,得到处理后的红外图像数据集,记为{In|n=1,2,…,N};其中,In表示第n张红外图像;N表示红外图像数据集中的图像数量,本发明中将图像统一resize到384×384大小,输入通道为3;
步骤2、构建Transformer架构的神经网络分支,并将处理后的红外图像数据集输入神经网络分支中;
步骤2.1、基于Transformer的神经网络分支由M个多头自注意力块组成,分别记为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M,如图2所示;第m级多头自注意力块SwinTBm依次由第m级合并采样层PatchMergingm、第m 级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成,本实施例中, M=4;
第m级合并采样层PatchMergingm由第m级划分窗口层DivWm、第m级归一化层NLm和第m级线性层Fcm组成,本实施例中,划分窗口大小设置为12;
第m级窗口多头自注意力层WMSLm由第m级前归一化层LN1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LN2m和第m级窗口全连接层WMLPm组成;
第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LN3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LN4m和第m级移位窗口全连接层SMLPm组成,本实施例中,每一级中移位窗口多头计算单元的数值分别设置为4,8,16,32;
步骤2.2、当m=1时,第n张红外图像In输入第m个多头自注意力块中,并经过第m级自注意力块SwinTBm的第m级合并采样层PatchMergingm的处理后,输出合并特征张量RIn,m;
合并特征张量RIn,m经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LN1m的处理,得到归一化后的特征张量再输入第m级窗口多头计算单元WMSAm中进行线性变换和自注意力特征计算后;再与第m级合并采样层PatchMergingm输出的合并特征张量RIn,m进行残差连接,得到自注意力特征张量WRIn,m;自注意力特征张量WRIn,m依次输入第m级后归一化层LN2m和第m级窗口全连接层WMLPm中进行线性变换和通道数调整后,再与自身进行残差连接后得到残差特征张量WMRIn,m;
残差特征张量WMRIn,m经过第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LN3m的归一化处理后,再输入第m级移位窗口多头计算单元SWMSAm中进行线性变换和窗口偏移的自注意力特征计算;然后与残差特征张量WMRIn,m进行残差连接得到偏移自注意力特征张量SWRIn,m;
偏移自注意力特征张量SWRIn,m依次输入第m级后归一化层LN4m和第m级窗口全连接层SWMLPm中进行线性变换和通道数调整后,再与偏移自注意力特征张量SWRIn,m自身进行残差连接并得到相应输出尺寸为的第m个窗口特征张量SWMRIn,m,并作为m级多头自注意力块SwinTBm的输出特征张量;其中,W,H为第n张红外强度图像In的宽和高, C为第m级多头自注意力块的输出通道数,a为倍数,a=2(m-1);
步骤2.3、当m=2,3,...,M时,将第m-1个窗口特征张量SWMRIm-1作为第m级多头自注意力块SwinTBm的输入,并由第m级多头自注意力块SwinTBm输出第m个窗口特征张量SWMRIn,m,从而由第M级多头自注意力块SwinTBM输出第M个窗口特征张量SWMRIn,M,并作为Transformer的神经网络分支最终输出的窗口特征张量,记为SWMRIn;
步骤3、构建CNN架构的网络分支,包括:下采样模块、中间模块以及上采样模块;并将处理后的红外图像数据集输入网络分支中;
步骤3.1、下采样模块由M个下采样块组成,M个下采样块分别为DSampleBlock1,...,DSampleBlockm,...,DSampleBlockM;其中,DSampleBlockm表示第m级下采样块,m=1,2,...,M;第m级下采样块DSampleBlockm由第m级最大池化层MaxPool2dm和第 m级多层卷积层nCovm组成,本实施例中,M=4;
第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及X个ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X,本实施例中,X=2, kx=3;
当m=1时,第n张红外图像In输入第m级下采样模块DSampleBlock1中的第m级最大池化层MaxPool2dm和第m级多层卷积层nCovm进行池化和卷积等处理,将特征张量的尺寸转变为输入的倍后,输出特征张量DResultn,m,其中,b表示缩放尺度系数,本实施例中,b=2,本实施例中,每级多层二维卷积层中每层卷积的卷积核为3×3,卷积步长为1,填充补零,第 1级到第4级的多层二维卷积层输出的特征图的通道数分别为64,128,256,512;
当m=2,3,...,M时,将特征张量DResultn,m-1作为第m级下采样块DSampleBlockm的输入,并由第m级多层卷积层nCovm输出特征张量DResultn,m;从而由第M级下采样块DSampleBlockM输出下采样模块最终输出的特征张量DResultn,M;
步骤3.2:中间模块是一个多层二维卷积层,依次包括:X个卷积核为k×k的二维卷积层、X个批量归一化层和X个ReLU激活函数;
特征张量DResultn,M经过中间模块的处理后,输出第n个特征张量midResultn,本实施例中,中间层的输入通道数和输出通道数为512;
步骤3.3:上采样模块由M个上采样块组成,M个上采样块分别记为USampleBlock1,...,USampleBlockm,...,USampleBlockM;其中,USampleBlockm表示第m级上采样模块;
第m级上采样块USampleBlockm由第m级逆卷积层ConvTransm和第m级多层卷积层nCovm组成;第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及X个 ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X;
第n个特征图midResultn输入第M级上采样块USampleBlockM中的第m级逆卷积层ConvTransm进行转置卷积,再经过第m级多层卷积层nCovm的处理得到输出特征张量UResultn,M;
特征张量UResultn,M与中间模块的输出midResultn进行拼接形成跳跃连接后共同作为第 M级多层二维卷积层Uconv2dM的输入,并相应输出特征张量UCresultn,M;
当m=1,2,...,M-1时,下采样模块中第m级下采样块DSampleBlockm的第m级多层卷积层nCovm输出的特征张量DCresultn,m和第m+1级上采样块USampleBlockm+1中第m+1级第多层卷积层nCovm+1输出的特征张量UCresultn,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCovm的输入;从而由第1级上采样块USampleBlock1得到上采样模块最终输出的采样特征张量UIn,本实施例中,每级多层二维卷积层中每层卷积的卷积核为3×3,卷积步长为1,填充补零,第4级到第1级的多层二维卷积层输出的特征图的通道数分别为512,256,128, 64;
步骤4、构建特征融合模块,依次由全局平均池化层GAP、线性层、加权层和校准层组成,如图3所示;
步骤4.1、将Transformer的神经网络分支输出的窗口特征张量SWMRIn和CNN架构的网络分支输出的采样特征张量UIn分别作为特征融合模块的两个输入特征向量,并输入到全局平均池化层GAP中,先将输入特征向量中每个通道的特征图信息压缩,再将压缩后的信息累加得到空间压缩向量,其中,窗口特征张量SWMRIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量TransIn,采样特征张量UIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量CNNIn;
步骤4.2、向量TransIn和向量CNNIn分别通过线性层的展平和线性操作后得到向量TransLn和向量CNNLn;
步骤4.3、加权层将向量TransIn和向量CNNIn分别乘以权值L1和L2后相加得到一个融合的特征权重TCWeightn;
步骤4.4、校准层将融合特征权重TCWeightn通过Sigmoid函数和升维处理后与Transformer的神经网络分支输出的窗口特征张量SWMRIn相乘,得到信息校准过后的特征张量TCResultn,最后再通过一个Sigmoid激活函数得到模型最终的输出特征图xn,本实施例中,模型的输出特征图尺寸还原到输入尺寸384×384,通道数为3;
步骤5、损失函数的设计与迭代训练;
步骤5.1、利用式(8)和式(9)构建第n张图片的模型预测输出与第n张图片真实像素标签之间的交叉熵损失LBCE(x,y):
LBCE(x,y)=L={l1,…,ln,…,lN}T (8)
ln=-wn[yn·logxn+(1-yn)·log(1-xn)] (9)
式(8)和式(9)中,ln表示输入的第n张图片的交叉熵损失,xn表示输入的第n张图片的模型预测输出,yn表示输入的第n张图片的真实像素标签,wn表示表示对loss中每个元素的加权权值;
步骤5.2、利用式(10)构建构建第n张图片的模型预测输出与第n张图片真实像素标签之间的Dice损失LDice:
LDice=1-2|xn∩yn|/(|xn|+|yn|) (10)
步骤5.3、利用式(11)构建总体损失函数L:
L=αLBCE+βLDice (11)
式(11)中,α和β为自定义的两个平衡系数,本实施例中,α和β都设置为0.5;
步骤5.4、基于红外图像数据集,利用梯度下降法对Transformer架构的神经网络分支和 CNN架构的网络分支进行训练,并计算总体损失函数L,以更新网络参数,当迭代次数达到最大迭代次数epoch时,停止训练,从而得到最优红外小目标预测模型,用于对所输入的红外小目标数据集进行检测,并输出检测结果图。本实施例中,epoch设置为300,batchsize设置为8,并使用初始学习率为0.001的Adam优化器来训练设计的模型。
综上所述,本发明将Transformer序列模型与CNN模型相结合,以增强捕获长期和大范围依赖性的能力。由于红外图像的信噪比较低,且小目标与背景杂波有很大的相似性,容易将待检测目标淹没。学习与背景相对应的像素之间的长期依赖关系至关重要,这有助于防止网络将像素误分类为背景,减少误报。同时在基于cnn的分支中,去掉了原来U-Net网络中的浅层跳跃连接部分,在优化网络的同时尽可能多地获取局部细节,更多的保留了小目标特征。同时,本发明为了解决Transformer分支和CNN解码器输出之间特征和语义不一致的问题,使用了一个特征融合模块来消除差异,融合局部细节特征和全局语义特征,从而实现了更精确的目标检测。
Claims (1)
1.一种基于特征融合的红外小目标检测方法,其特征是按如下步骤进行:
步骤1、对红外图像进行预处理;
步骤1.1、获取红外图像数据集并进行尺寸统一、裁剪、水平和垂直翻转的预处理后,得到处理后的红外图像数据集,记为{In|n=1,2,…,N};其中,In表示第n张红外图像;N表示红外图像数据集中的图像数量;
步骤2、构建Transformer架构的神经网络分支,并将所述处理后的红外图像数据集输入所述神经网络分支中;
步骤2.1、基于Transformer的神经网络分支由M个多头自注意力块组成,分别记为SwinTB1,...,SwinTBm,...,SwinTBM;其中,SwinTBm表示第m级多头自注意力块,m=1,2,...,M;所述第m级多头自注意力块SwinTBm依次由第m级合并采样层PatchMergingm、第m级窗口多头自注意力层WMSLm和第m级移位窗口多头自注意力层SWMSLm构成;
所述第m级合并采样层PatchMergingm由第m级划分窗口层DivWm、第m级归一化层NLm和第m级线性层Fcm组成;
所述第m级窗口多头自注意力层WMSLm由第m级前归一化层LN1m、第m级窗口多头计算单元WMSAm、第m级后归一化层LN2m和第m级窗口全连接层WMLPm组成;
所述第m级移位窗口多头自注意力层SWMSLm由第m级前归一化层LN3m、第m级移位窗口多头计算单元SWMSAm、第m级后归一化层LN4m和第m级移位窗口全连接层SMLPm组成;
步骤2.2、当m=1时,所述第n张红外图像In输入第m个多头自注意力块中,并经过第m级自注意力块SwinTBm的第m级合并采样层PatchMergingm的处理后,输出合并特征张量RIn,m;
所述合并特征张量RIn,m经过第m级窗口多头自注意力层WMSLm的第m级前归一化层LN1m的处理,得到归一化后的特征张量再输入第m级窗口多头计算单元WMSAm中进行线性变换和自注意力特征计算后;再与第m级合并采样层PatchMergingm输出的合并特征张量RIn,m进行残差连接,得到自注意力特征张量WRIn,m;所述自注意力特征张量WRIn,m依次输入第m级后归一化层LN2m和第m级窗口全连接层WMLPm中进行线性变换和通道数调整后,再与自身进行残差连接后得到残差特征张量WMRIn,m;
所述残差特征张量WMRIn,m经过第m级移位窗口多头自注意力层SWMSLm的第m级前归一化层LN3m的归一化处理后,再输入第m级移位窗口多头计算单元SWMSAm中进行线性变换和窗口偏移的自注意力特征计算;然后与残差特征张量WMRIn,m进行残差连接得到偏移自注意力特征张量SWRIn,m;
所述偏移自注意力特征张量SWRIn,m依次输入第m级后归一化层LN4m和第m级窗口全连接层SWMLPm中进行线性变换和通道数调整后,再与偏移自注意力特征张量SWRIn,m自身进行残差连接并得到相应输出尺寸为的第m个窗口特征张量SWMRIn,m,并作为所述m级多头自注意力块SwinTBm的输出特征张量;其中,W,H为第n张红外强度图像In的宽和高,C为第m级多头自注意力块的输出通道数,a为倍数,a=2(m-1);
步骤2.3、当m=2,3,...,M时,将第m-1个窗口特征张量SWMRIm-1作为第m级多头自注意力块SwinTBm的输入,并由第m级多头自注意力块SwinTBm输出第m个窗口特征张量SWMRIn,m,从而由第M级多头自注意力块SwinTBM输出第M个窗口特征张量SWMRIn,M,并作为Transformer的神经网络分支最终输出的窗口特征张量,记为SWMRIn;
步骤3、构建CNN架构的网络分支,包括:下采样模块、中间模块以及上采样模块;并将所述处理后的红外图像数据集输入所述网络分支中;
步骤3.1、所述下采样模块由M个下采样块组成,M个下采样块分别为DSampleBlock1,...,DSampleBlockm,...,DSampleBlockM;其中,DSampleBlockm表示第m级下采样块,m=1,2,...,M;所述第m级下采样块DSampleBlockm由第m级最大池化层MaxPool2dm和第m级多层卷积层nCovm组成;
所述第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及X个ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X;
当m=1时,所述第n张红外图像In输入第m级下采样模块DSampleBlock1中的第m级最大池化层MaxPool2dm和第m级多层卷积层nCovm进行池化和卷积等处理,将特征张量的尺寸转变为输入的倍后,输出特征张量DResultn,m,其中,b表示缩放尺度系数;
当m=2,3,...,M时,将特征张量DResultn,m-1作为第m级下采样块DSampleBlockm的输入,并由第m级多层卷积层nCovm输出特征张量DResultn,m;从而由第M级下采样块DSampleBlockM输出所述下采样模块最终输出的特征张量DResultn,M;
步骤3.2:所述中间模块是一个多层二维卷积层,依次包括:X个卷积核为k×k的二维卷积层、X个批量归一化层和X个ReLU激活函数;
所述特征张量DResultn,M经过所述中间模块的处理后,输出第n个特征张量midResultn;
步骤3.3:所述上采样模块由M个上采样块组成,M个上采样块分别记为USampleBlock1,...,USampleBlockm,...,USampleBlockM;其中,USampleBlockm表示第m级上采样模块;
所述第m级上采样块USampleBlockm由第m级逆卷积层ConvTransm和第m级多层卷积层nCovm组成;所述第m级多层卷积层nCovm包括:X个二维卷积层,X个批量归一化层以及X个ReLU激活函数层,其中,第x个二维卷积层的卷积核大小为kx,x=1,2,…,X;
所述第n个特征图midResultn输入第M级上采样块USampleBlockM中的第m级逆卷积层ConvTransm进行转置卷积,再经过第m级多层卷积层nCovm的处理后得到输出特征张量UResultn,M;
所述特征张量UResultn,M与中间模块的输出midResultn进行拼接形成跳跃连接后共同作为所述第M级多层二维卷积层Uconv2dM的输入,并相应输出特征张量UCresultn,M;
当m=1,2,...,M-1时,下采样模块中第m级下采样块DSampleBlockm的第m级多层卷积层nCovm输出的特征张量DCresultn,m和第m+1级上采样块USampleBlockm+1中第m+1级第多层卷积层nCovm+1输出的特征张量UCresultn,m+1进行拼接形成跳跃连接后共同作为第m级多层卷积层nCovm的输入;从而由第1级上采样块USampleBlock1得到所述上采样模块最终输出的采样特征张量UIn;
步骤4、构建特征融合模块,依次由全局平均池化层GAP、线性层、加权层和校准层组成;
步骤4.1、将所述Transformer的神经网络分支输出的窗口特征张量SWMRIn和CNN架构的网络分支输出的采样特征张量UIn分别作为特征融合模块的两个输入特征向量,并输入到全局平均池化层GAP中,先将输入特征向量中每个通道的特征图信息压缩,再将压缩后的信息累加得到空间压缩向量,其中,窗口特征张量SWMRIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量TransIn,采样特征张量UIn经过全局平均池化层GAP的处理后输出的空间压缩向量记为向量CNNIn;
步骤4.2、所述向量TransIn和向量CNNIn分别通过线性层的展平和线性操作后得到向量TransLn和向量CNNLn;
步骤4.3、加权层将所述向量TransIn和向量CNNIn分别乘以权值L1和L2后相加得到一个融合的特征权重TCWeightn;
步骤4.4、校准层将所述融合特征权重TCWeightn通过Sigmoid函数和升维处理后与所述Transformer的神经网络分支输出的窗口特征张量SWMRIn相乘,得到信息校准过后的特征张量TCResultn,最后再通过一个Sigmoid激活函数得到模型最终的输出特征图xn;
步骤5、损失函数的设计与迭代训练;
步骤5.1、利用式(8)和式(9)构建第n张图片的模型预测输出与第n张图片真实像素标签之间的交叉熵损失LBCE(x,y):
LBCE(x,y)=L={l1,…,ln,…,lN}T (8)
ln=-wn[yn·logxn+(1-yn)·log(1-xn)] (9)
式(8)和式(9)中,ln表示输入的第n张图片的交叉熵损失,xn表示输入的第n张红外图像In的模型预测输出,yn表示输入的第n张红外图像In的真实像素标签,wn表示表示对loss中每个元素的加权权值;
步骤5.2、利用式(10)构建第n张红外图像In的模型预测输出xn与第n张红外图像In真实像素标签yn之间的Dice损失LDice:
LDice=1-2|xn∩yn|/(|xn|+|yn|) (10)
步骤5.3、利用式(11)构建总体损失函数L:
L=αLBCE+βLDice (11)
式(11)中,α和β为自定义的两个平衡系数;
步骤5.4、基于红外图像数据集,利用梯度下降法对所述Transformer架构的神经网络分支和CNN架构的网络分支进行训练,并计算所述总体损失函数L,以更新网络参数,当迭代次数达到最大迭代次数epoch时,停止训练,从而得到最优红外小目标预测模型,用于对所输入的红外小目标数据集进行检测,并输出检测结果图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210661383.1A CN114862844B (zh) | 2022-06-13 | 2022-06-13 | 一种基于特征融合的红外小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210661383.1A CN114862844B (zh) | 2022-06-13 | 2022-06-13 | 一种基于特征融合的红外小目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114862844A true CN114862844A (zh) | 2022-08-05 |
CN114862844B CN114862844B (zh) | 2023-08-08 |
Family
ID=82623736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210661383.1A Active CN114862844B (zh) | 2022-06-13 | 2022-06-13 | 一种基于特征融合的红外小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114862844B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115375999A (zh) * | 2022-10-25 | 2022-11-22 | 城云科技(中国)有限公司 | 应用于危化品车检测的目标检测模型、方法及装置 |
CN115375665A (zh) * | 2022-08-31 | 2022-11-22 | 河南大学 | 一种基于深度学习策略的早期阿尔兹海默症发展预测方法 |
CN115481681A (zh) * | 2022-09-09 | 2022-12-16 | 武汉中数医疗科技有限公司 | 一种基于人工智能的乳腺采样数据的处理方法 |
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN117115015A (zh) * | 2023-08-02 | 2023-11-24 | 中国人民解放军61540部队 | 一种sar海洋图像中海浪抑制方法、系统、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930072A (zh) * | 2010-07-28 | 2010-12-29 | 重庆大学 | 基于多特征融合的红外弱小运动目标航迹起始方法 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN113591968A (zh) * | 2021-07-27 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种基于非对称注意力特征融合的红外弱小目标检测方法 |
US20220027611A1 (en) * | 2021-03-03 | 2022-01-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image classification method, electronic device and storage medium |
-
2022
- 2022-06-13 CN CN202210661383.1A patent/CN114862844B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930072A (zh) * | 2010-07-28 | 2010-12-29 | 重庆大学 | 基于多特征融合的红外弱小运动目标航迹起始方法 |
CN109584248A (zh) * | 2018-11-20 | 2019-04-05 | 西安电子科技大学 | 基于特征融合和稠密连接网络的红外面目标实例分割方法 |
US20220027611A1 (en) * | 2021-03-03 | 2022-01-27 | Beijing Baidu Netcom Science Technology Co., Ltd. | Image classification method, electronic device and storage medium |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN113591968A (zh) * | 2021-07-27 | 2021-11-02 | 中国人民解放军国防科技大学 | 一种基于非对称注意力特征融合的红外弱小目标检测方法 |
Non-Patent Citations (3)
Title |
---|
HANBO ZHENG; YONGHUI SUN; XINGHUA LIU; CALVIN LAURENT TCHETEU DJIKE; JINHENG LI; YANG LIU; JIANCHAO MA: "Infrared Image Detection of Substation Insulators Using an Improved Fusion Single Shot Multibox Detector", IEEE TRANSACTIONS ON POWER DELIVERY, pages 3351 * |
MEIBIN QI; LIU LIU; SHUO ZHUANG; YIMIN LIU; KUNYUAN LI; YANFANG YANG; XIAOHONG LI: "FTC-Net: Fusion of Transformer and CNN Features for Infrared Small Target Detection", IEEE JOURNAL OF SELECTED TOPICS IN APPLIED EARTH OBSERVATIONS AND REMOTE SENSING, pages 8613 * |
徐廷想: "基于深度学习的红外小目标检测研究与实现", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 3, pages 135 - 96 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115375665A (zh) * | 2022-08-31 | 2022-11-22 | 河南大学 | 一种基于深度学习策略的早期阿尔兹海默症发展预测方法 |
CN115375665B (zh) * | 2022-08-31 | 2024-04-16 | 河南大学 | 一种基于深度学习策略的早期阿尔兹海默症发展预测方法 |
CN115481681A (zh) * | 2022-09-09 | 2022-12-16 | 武汉中数医疗科技有限公司 | 一种基于人工智能的乳腺采样数据的处理方法 |
CN115481681B (zh) * | 2022-09-09 | 2024-02-06 | 武汉中数医疗科技有限公司 | 一种基于人工智能的乳腺采样数据的处理方法 |
CN115375999A (zh) * | 2022-10-25 | 2022-11-22 | 城云科技(中国)有限公司 | 应用于危化品车检测的目标检测模型、方法及装置 |
CN116402858A (zh) * | 2023-04-11 | 2023-07-07 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN116402858B (zh) * | 2023-04-11 | 2023-11-21 | 合肥工业大学 | 基于transformer的时空信息融合的红外目标跟踪方法 |
CN117115015A (zh) * | 2023-08-02 | 2023-11-24 | 中国人民解放军61540部队 | 一种sar海洋图像中海浪抑制方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114862844B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cai et al. | Coarse-to-fine sparse transformer for hyperspectral image reconstruction | |
CN114862844A (zh) | 一种基于特征融合的红外小目标检测方法 | |
CN110969124B (zh) | 基于轻量级多分支网络的二维人体姿态估计方法及系统 | |
WO2023070447A1 (zh) | 模型训练方法、图像处理方法、计算处理设备及非瞬态计算机可读介质 | |
CN113052210A (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
Li et al. | YOLOSR-IST: A deep learning method for small target detection in infrared remote sensing images based on super-resolution and YOLO | |
Shao et al. | Uncertainty guided multi-scale attention network for raindrop removal from a single image | |
Xia et al. | PANDA: Parallel asymmetric network with double attention for cloud and its shadow detection | |
Zhang et al. | Semantic image segmentation for sea ice parameters recognition using deep convolutional neural networks | |
Wang et al. | MCT-Net: Multi-hierarchical cross transformer for hyperspectral and multispectral image fusion | |
Khan et al. | An encoder–decoder deep learning framework for building footprints extraction from aerial imagery | |
CN115578262A (zh) | 基于afan模型的偏振图像超分辨率重建方法 | |
Chen et al. | MICU: Image super-resolution via multi-level information compensation and U-net | |
CN113408540B (zh) | 一种合成孔径雷达图像叠掩区提取方法及存储介质 | |
Zhang et al. | Deep joint neural model for single image haze removal and color correction | |
CN116434074A (zh) | 基于邻支互补显著性和多先验稀疏表征的目标识别方法 | |
CN115546640A (zh) | 遥感影像的云检测方法、装置、电子设备及存储介质 | |
Liu et al. | Dual UNet low-light image enhancement network based on attention mechanism | |
Zhang et al. | Coarse-to-fine multiscale fusion network for single image deraining | |
Du et al. | Contrastive learning-based generative network for single image deraining | |
Zahir et al. | Robust Counting in Overcrowded Scenes Using Batch-Free Normalized Deep ConvNet. | |
Zhou et al. | A lightweight object detection framework for underwater imagery with joint image restoration and color transformation | |
CN114842012B (zh) | 基于位置意识u型网络的医学图像小目标检测方法及装置 | |
CN116503737B (zh) | 基于空间光学图像的船舶检测方法和装置 | |
CN117392392B (zh) | 一种割胶线识别与生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |