CN116486102A - 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 - Google Patents
一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 Download PDFInfo
- Publication number
- CN116486102A CN116486102A CN202310406665.1A CN202310406665A CN116486102A CN 116486102 A CN116486102 A CN 116486102A CN 202310406665 A CN202310406665 A CN 202310406665A CN 116486102 A CN116486102 A CN 116486102A
- Authority
- CN
- China
- Prior art keywords
- convolution
- attention
- target
- window
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 230000001629 suppression Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000010586 diagram Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 14
- 238000013461 design Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 235000004257 Cordia myxa Nutrition 0.000 claims description 3
- 244000157795 Cordia myxa Species 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 40
- 238000000605 extraction Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241001272996 Polyphylla fullo Species 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 230000023004 detection of visible light Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000021018 plums Nutrition 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,该步骤如下:一:构造多方向固定高斯核注意力,使用全局注意力进行背景抑制,继而使用固定权重的高斯核提取目标多个方向特征进行目标特征增强;二:构造基于混合感受野卷积块串联的骨干网络对增强后的浅层特征进行三组特征提取;三:构造交叉滑动注意力机制,将骨干网络提取的三组特征通过交叉滑动窗口注意力机制进行融合,在通道维度上拼接;利用多方向高斯核注意力和卷积层进行逐像素预测,得到整幅图像像素级别的概率预测图;四:将模块依次串联搭建成卷积神经网络,并构造损失函数对网络进行训练;使用预测结果与像素级标签进行损失计算,以实现对网络参数的训练。
Description
技术领域
本发明涉及一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,属于数字图像处理和计算机视觉领域,主要涉及深度学习和目标检测技术,在各类基于图像的应用系统中有广阔的应用前景。
背景技术
当前,红外弱小目标检测在武器精确制导、森林火灾监测预警、无人机目标检测与识别等领域中有着广泛的运用,其检测算法准确性、稳定性和实时性是衡量红外弱小目标检测系统性能的重要指标。近年来,随着无人机行业的快速发展,无人机较高的移动速度和较小的体积给可见光检测带来困扰,其较高的威胁性要求对应的检测算法具有实时检测的能力。在红外图像中,无人机携带的电池、相机等设备亮度较高,这使得利用红外图像对无人机目标进行检测成为可能。然而在实际运用中,红外弱小目标检测会受到诸多干扰:比如天空中的云、雾、絮团通常在红外图像中有较高的亮度,极易淹没弱小目标的存在或是被检测器误判为目标。在山林环境下,由于反射的存在和自然光的干扰,弱小目标通常能够较好隐匿其中。在海洋背景下,海面波浪的变化能够干扰红外辐射,同时也存在海面反射的杂波干扰。这些复杂因素大大提高了红外弱小目标检测的难度。因而实现复杂背景下的红外弱小目标实时检测算法是一项极具挑战且富有意义的任务。
早期的红外弱小目标检测算法大致可以分为三类:基于背景一致性估计的方法,基于人眼视觉系统的显著性检测方法和基于图像块的方法。基于背景一致性估计的方法假设背景是连续平滑的区域,弱小目标的出现将会导致背景区域的连续平滑特性被局部破坏,因而可以设计滤波器或利用形态学的方法进行检测;邓等基于顶帽变换提出了自适应红外小目标检测算法,(参见文献:邓丽珍等,基于自适应M-估计器环顶帽变换的红外小目标检测,模式识别,2021,112:107729.(Deng L,Zhang J,Xu G,et al.Infrared SmallTarget Detection via Adaptive M-estimator Ring Top-Hat Transformation[J].Pattern Recognition,2021,112:107729.)),姚等基于手工设计滤波器设计了红外小目标检测算法(参见文献:姚琴等,基于多种核滤波器和随机游动器的红外小目标检测,美国电气电子工程师学会地理与遥感汇刊,2019,57(9):7104-7118.(Qin Y,Bruzzone L,GaoC,et al.Infrared Small Target Detection Based on Facet Kernel and RandomWalker[J].IEEE Transactions on Geoscience and Remote Sensing,2019,57(9):7104-7118.))该类方法受限于固定的手工特征设计,准确度较低,适用场合极为有限。基于人眼视觉系统的显著性检测方法主要基于目标和背景的对比度进行算法设计,陈等基于局部对比度计算提出了一种检测方法(参考文献:陈春平等。一种用于小红外目标检测的局部对比度方法,美国电气电子工程师学会地理与遥感汇刊,2013,52(1):574-581.(Chen C L P,LiH,Wei Y,et al.A Local Contrast Method for Small Infrared Target Detection[J].IEEE Transactions on Geoscience and Remote Sensing,2013,52(1):574-581.)),邓等设计显著性测度提出了基于局部特性的红外小目标检测方法(参见文献:邓贺等,基于局部权重差异度量的红外小目标检测方法,美国电气电子工程师学会地理与遥感汇刊,2016,54(7):4204-4214.(Deng H,Sun X,Liu M,et al.Small Infrared Target DetectionBased on Weighted Local Difference Measure[J].IEEE Transactions on Geoscienceand Remote Sensing,2016,54(7):4204-4214.))。此外,韩等依据显著性将小目标及其邻域分为核心层、保留层和背景层,以此划分窗口构建局部对比度。(参见文献:韩金辉等,一种利用三层窗口进行红外小目标检测的局部对比度方法,美国电气电子工程师学会地球科学及遥感刊物,2019,17(10):1822-1826.Han J,Moradi S,Faramarzi I,et al.A LocalContrast Method for Infrared Small-target Detection Utilizing a Tri-layerWindow[J].IEEE Geoscience and Remote Sensing Letters,2019,17(10):1822-1826.))尽管基于人眼视觉系统的算法检测速度较快,但鲁棒性较差,容易受到局部异亮背景、噪声等的干扰。基于图像块的方法依据弱小目标占比小,分布稀疏的特点,将整幅红外图像划分为多个图像块并使用优化算法将目标从背景中分离。高等率先利用这一思想提出基于分块模型的检测方法(参见文献:高陈强等,用在单幅图像中检测小目标的红外分块图像模型,美国电气电子工程师学会图像处理汇刊,2013,22(12):4996-5009.(Gao C,Meng D,YangY,et al.Infrared Patch-image Model for Small Target Detection in a SingleImage[J].IEEE Transactions on Image Processing,2013,22(12):4996-5009.)),但所提出的模型相对复杂,造成计算量过大,实用性较差。张等在上述IPI模型中引入一种张量核范数的部分和(PSTNN)联合加权l1范数进行抑制背景并保留目标,(参见文献:张兰丹等,基于张量核范数部分和的红外小目标检测,遥感学报,2019,11(4):382.(Zhang L,PengZ.Infrared Small Target Detection Based on Partial Sum of the Tensor NuclearNorm[J].Remote Sensing,2019,11(4):382.))但仍然无法解决较大的图像块带来的计算量问题。
近年来,深度学习技术在计算机视觉、目标检测与识别领域中得到广泛应用,这同时促进了红外弱小目标检测与深度学习技术的融合。刘等提出一种基于相关滤波器的多层卷积网络,将检测问题视为二分类问题,级联多个弱分类器并得到相对准确的结果(刘强等,用于热红外物体跟踪的深度卷积神经网络,系统知识基础,2017,134:189-198.(Liu Q,Lu X,He Z,et al.Deep Convolutional Neural Networks for Thermal InfraredObject Tracking[J].Knowledge-Based Systems,2017,134:189-198.))。此外,注意力机制被认为是增强网络对于感兴趣区域关注度的一种有效手段,多种注意力的提取手段如:瓦斯瓦尼等提出的自注意力机制(参见文献:瓦斯瓦尼等,自注意力模型,神经信息处理系统会议和研讨会,2017,30.(Vaswani A,Shazeer N,Parmar N,et al.Attention Is AllYou Need[J].Advances in Neural Information Processing Systems,2017,30.))、李等提出的卷积空间注意力机制(参见文献:李尚宇等,Cbam:卷积块注意模块,欧洲计算机视觉会议,2018:3-19.(Woo S,Park J,Lee J Y,et al.Cbam:Convolutional Block AttentionModule[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:3-19.)、曹等提出的全局注意力机制(参见文献:曹越等,Gcnet:非局部网络同等并超越压缩激励网络及其他网络,计算机视觉研讨会国际会议论文集,2019:0-0.(Cao Y,XuJ,Lin S,et al.Gcnet:Non-local networks meet squeeze-excitation networks andbeyond[C]//Proceedings of the IEEE/CVF international conference on computervision workshops.2019:0-0.))被广泛应用于各个神经网络模型中。综合自上而下的任务驱动注意力和自下而上的显著性注意力,戴等提出非调制对称上下文机制,融合目标局部信息和语义信息来实现对于弱小目标的检测。(参见文献:戴一冕等,用于红外小目标检测的非对称背景调制,计算机视觉应用冬季会议,2021:950-959.(Dai Y,Wu Y,Zhou F,etal.Asymmetric Contextual Modulation for Infrared Small Target Detection[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of ComputerVision.2021:950-959.))。李等提出了稠密链接的目标检测网络,用于缓解弱小目标特征在网络深层丢失目标信息的困难。(参见文献:李博洋等,用于红外小目标检测的密集嵌套注意力网络,美国电气电子工程师学会图像处理汇刊,2022.(Li B,Xiao C,Wang L,etal.Dense Nested Attention Network for Infrared Small Target Detection[J].IEEETransactions on Image Processing,2022.))
深度学习方法虽然在精度上存在优势,但当前该类型方法较少考虑弱小目标特性,同时由于复杂的网络结构设计导致实时性较差,在弱小目标检测任务上性能有限。本发明为了实现快速且有效的弱小目标检测,由弱小目标的尺度特性、灰度分布特性出发设计深度学习网络模型,提出了一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法。
发明内容
1、目的:针对复杂背景下弱小目标检测精度低、虚警率高、实时性差的问题,本发明提出了一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,模型充分提取红外弱小目标具有高斯分布特性的多方向特征、灰度突变的局部特征并基于多层次跨尺度的特征融合思路进行网络设计,在提高检测精度,降低模型参数量、虚警率以及运行时间上有明显改善。
2、技术方案:为实现上述目的,本发明的整体思路是基于弱小目标局部亮度较高且与背景存在显著差异这一统计结果,从多方向、混合感受野和多尺度特征融合三个角度出发,设计多方向高斯核注意力、轻量化混合感受野骨干网络以及进行提取多尺度信息并进行低中高层特征融合的交叉滑动窗口注意力机制,搭建一个针对红外弱小目标检测的轻量级神经网络,同时保证较快的检测速度和较高的目标特征提取能力。本发明的技术思路主要体现在以下三方面:
1)依据弱小目标通常可以近似一个为二维高斯分布的噪斑的统计结果,设计多方向固定高斯核注意力提取空间注意力,使其能够进行背景抑制的同时充分融合各个方向特征,增强对于目标的提取效果。
2)根据弱小目标局部亮度较高且与背景存在较大的突变这一局部灰度特性,设计混合感受野卷积块,通过若干不同尺寸、扩展系数、分组数的卷积单元串并联充分提取目标局部特征以及目标和其邻域背景间的差异特征,进一步实现对目标增强。
3)基于弱小目标的边缘、形状、纹理等细节信息集中于低层特征和包含空间位置、背景抑制的语义信息集中于高层特征的特性,设计交叉滑动窗口注意力机制,将骨干网络低层特征、中层特征和高层特征划分成不同尺寸的窗口,结合滑动窗口注意力实现对应细节信息和语义信息的充分融合,提取多尺度特征的同时保证较低的计算复杂度,从而到达更好的分割检测效果。
本发明涉及一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,该方法具体步骤如下:
步骤一:提取浅层特征并构造多方向固定高斯核注意力,使用全局注意力进行背景抑制,继而使用固定权重的高斯核提取目标多个方向特征进行目标特征增强;
步骤二:构造基于混合感受野卷积块串联的骨干网络对增强后的浅层特征进行三组特征提取;
步骤三:构造交叉滑动注意力机制,将骨干网络提取的三组特征通过交叉滑动窗口注意力机制进行融合,并在通道维度上拼接;并再次利用多方向高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层进行逐像素预测,得到整幅图像像素级别的概率预测图;
步骤四:将上述模块依次串联搭建成卷积神经网络,并构造损失函数对网络进行训练。使用预测结果与像素级标签进行损失计算,以实现对网络参数的训练。
输出:用训练好的神经网络处理红外图像;在使用训练数据对基于混合空间调制特征卷积神经网络进行充分迭代训练之后,得到训练好的网络用于检测目标像素。
其中,所述步骤一具体如下:
1.1:提取浅层特征并使用多方向固定高斯核注意力进行目标特征增强。网络主要使用卷积单元作为基本组件,每个卷积单元由1个卷积层、批量归一化层、Selu激活函数操作组合而成,卷积层中卷积核大小、扩展系数、分组数、步长、激活函数类型等参数根据需要进行调整。首先,输入图像经过一个卷积核大小为7×7、扩展系数为1、分组数为1、步长为1的卷积单元,生成通道数为16的浅层特征Fs。通常,一幅红外弱小目标图像可被认为由三部分组成:目标、背景、噪声。I=B+T+N,其中I代表原图矩阵,B代表背景矩阵,T代表目标矩阵,N代表噪声等误差矩阵。为了能准确将背景和目标分离,本发明认为弱小目标可以建模为出现于图像中的与背景具有较大对比度的异常亮点,其灰度分布具有类似二维高斯函数的特性,如图1区域c所示,因而设计多方向固定高斯核来有效定位目标。此外,背景中可能存在亮度较高的云、雾,容易干扰到对弱小目标的检测,如图1区域s1~s3所示,其灰度分布特性类似弱小目标,因此需要引入背景抑制机制来减弱背景中存在的干扰。针对以上要点,本发明提出多方向固定高斯核注意力,对所提取的浅层特征Fs进行背景抑制和目标增强,得到增强后的浅层特征Fe,具体结构如图2所示。考虑到背景中的云、雾分布较广,而目标分布稀疏,故首先引入全局注意力机制GCBlock进行背景抑制,随后构建多方向固定高斯核,以某像素点以及其邻域像素点在多个方向上存在的灰度差大小来衡量该点为目标的概率,提取空间注意力来增强目标特征。本发明多方向固定高斯核注意力首先对输入特征图Fs使用通道维度压缩比为0.25的全局注意力机制GCBlock进行背景抑制,得到特征图Fc-attn,其次使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层将背景抑制处理后的特征图像的通道维度降至8,得到特征图Fa。随后将特征图Fa于通道维上分为8组,并行使用8个固定卷积核分别计算方向特征图Fd,固定卷积核的大小取5×5,卷积核其余卷积核di由d1逆时针旋转i×45°得到。再使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的两组串联的逐点卷积单元充分融合方向特征图Fd不同通道的方向信息,得到融合方向特征图F′d。最后将Fd与F′d做逐点乘法并使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1、激活函数为sigmoid的逐点卷积单元将通道维度降至1,得到多方向注意力特征图Fd-attn,将多方向注意力特征图Fd-attn与Fc-attn做逐点乘法得到增强后的输入特征图Fe。
其中,所述步骤二具体如下:
2.1:构建骨干网络对增强后的低层特征进行特征提取;骨干网络由三组混合感受野卷积块和负责降采样的卷积单元交替构成,每个混合感受野卷积块由一定数量的混合感受野卷积单元和一个负责背景抑制的全局注意力机制GCBlock串联构成,每个混合感受野卷积单元由卷积核大小递增、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元,卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元,卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层以及残差连接组成,以提取不同尺度的特征,其具体结构如图3所示。本发明设计的混合感受野卷积单元将输入特征首先于通道维度上分成四组,对每一组特征分别用卷积核大小为1×1,3×3,5×5,7×7、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元进行特征提取后在通道维度上拼接;对处理后的特征依次使用卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元和卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层处理,随后与输入特征做残差连接得到输出特征。混合感受野卷积块之间用负责降采样的一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元连接。增强后的浅层特征Fe经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第一组混合感受野卷积块G1得到对应输出特征图F1,再经过一组卷积核大小为3×3、扩展系数为1、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至32,随后经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第二组混合感受野卷积块G2得到对应输出特征图F2,再经过一组卷积核大小为3×3、扩展系数为1、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至64,最后经过由三个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第三组混合感受野卷积块G3得到对应输出特征图F3。特征提取过程的具体实现如图4所示。
其中,所述步骤三具体如下:
3.1:交叉滑动窗口注意力机制。考虑在红外弱小目标检测任务中,反映边缘、形状、纹理等细节信息的低层特征与目标的边缘分割相关,如图5b所示;包含更多语义信息的中、高层特征与目标的位置确定、背景抑制相关,如图5c、5d所示。本发明设计了针对弱小目标特征的交叉滑动窗口注意力机制,结合窗口划分将低层特征与中、高层特征进行多尺度融合,得到多尺度输出特征图Fm。交叉滑动窗口注意力机制的主要部分交叉窗口注意力模块实现方式如图6所示。
3.2:通过由多方向固定高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层组成的轻量化输出层进行检测。将多尺度输出特征图Fm利用多方向固定高斯核注意力再次增强后,利用卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层将通道维度降至1,随后经过sigmoid激活函数处理后输出全图像像素级别的概率预测图。
其中,所述步骤四具体如下:
4.1:将步骤一至三所提出各个模块依次串联搭建成卷积神经网络,如图4所示。损失函数由交并比(IOU)损失构成,L=LIOU。交并比是指产生的预测区域与真实目标区域的交叠率,即是指两者的交集和并集的比值。我们训练网络进行目标检测时,期望达到的理想情况是预测区域与真实区域能够完全重叠,即交并比等于1。因此,实际情况中,交并比的值总是在0~1之间,且值越大,则代表网络的检测效果越精确。由此,定义交并比损失其中area(predict)为本发明方法预测的目标区域,area(trut)为真实目标区域面积,∩为集合交运算,∪为集合并运算。给出以上损失函数定义后,将红外图像输入卷积神经网络,得到概率预测图并与标注的真实结果图进行逐像素点乘,得到预测目标区域与真实目标区域的重叠结果,即area(predict)∩area(trut);在此基础上,分别求和计算真实目标区域、预测目标区域、二者重叠区域的像素数,进而计算交并比损失。
4.2:本发明采用Adamw优化器进行优化,网络的初始学习率为0.0002,权重衰减系数为10-3,训练中自适应更新学习率,通过梯度反向传播结合滑动指数平均方式调整网络参数降低相应的损失函数。
3、优点及功效:
本发明提出一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,从弱小目标具有高斯分布特性这一多方向特征出发,利用全局注意力机制和卷积操作构造多方向固定高斯注意力以抑制背景并增强目标特征;从弱小目标局部亮度较高且与背景存在较大的突变这一局部灰度特性出发,构造混合感受野骨干网络进一步利用弱小目标的局部邻域特性,实现更适于本任务的特征提取;构造交叉窗口注意力机制融合低中高层特征,更好地保留小目标相关特征的同时提取多尺度特征。模型设计从红外弱小目标的特性出发,在可解释性和性能方面有较好表现,应用前景广泛。
附图说明
图1为本发明中目标局部特性示意图以及容易干扰检测器的背景区域示意图。其中,区域c为目标区域,区域s1~s3是容易干扰检测的背景区域。
图2为多方向固定高斯核注意力模块的基本结构。
图3为混合感受野卷积块的基本结构混合卷积单元结构示意图。
图4为本发明提出的基于混合空间调制特征卷积神经网络的红外弱小目标检测方法的原理流程图。
图5a-5d展示了本发明提取的低层特征和高层特征示意图。其中,图5a为输入原始红外图像,图5b、5c、5d是本发明三组混合感受野卷积块分别提取的低层特征、中层特征和高层特征示意图。
图6为交叉窗口注意力模块的基本结构。
图7a-7h展示了本发明在实际场景中的检测结果;其中,图7a、7b、7e、7f是原始红外图像,小目标由白色方框标记出,图7c、7d、7g、7h是本发明方法的检测结果。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述。
本发明涉及一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,该方法具体步骤如下:
步骤一:构造多方向固定高斯核注意力,抑制背景同时提取目标多个方向特征进行目标特征增强;
步骤二:构造基于混合感受野卷积块串联的骨干网络对增强后的浅层特征进行三组特征提取;
步骤三:构造交叉滑动注意力机制,将骨干网络提取的三组特征通过交叉滑动窗口注意力机制进行融合,并在通道维度上拼接;并再次利用多方向高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层进行逐像素预测,得到整幅图像像素级别的概率预测图;
步骤四:将上述模块依次串联搭建成卷积神经网络;并构造损失函数对网络进行训练;
输出:用训练好的神经网络处理红外图像;在使用训练数据对基于混合空间调制特征卷积神经网络进行充分迭代训练之后,得到训练好的网络用于检测目标像素。
其中,所述步骤一具体如下:
1.1:提取浅层特征并使用多方向固定高斯核注意力进行目标特征增强。网络主要使用卷积单元作为基本组件,每个卷积单元由1个卷积层、批量归一化层、Selu激活函数操作组合而成,卷积层中卷积核大小,扩展系数,分组数,步长,激活函数类型等参数根据需要进行调整。首先,输入图像经过一个卷积核大小为7×7、扩展系数为1、分组数为1、步长为1的卷积单元,生成通道数为16的浅层特征Fs。通常,一幅红外弱小目标图像可被认为由三部分组成:目标、背景、噪声。I=B+T+N,其中I代表原图矩阵,B代表背景矩阵,T代表目标矩阵,N代表噪声等误差矩阵。为了能准确将背景和目标分离,本发明认为弱小目标通常可以建模为出现于图像中的与背景具有较大对比度的异常亮点,其灰度分布具有类似二维高斯函数的特性,如图1区域c所示,因而设计多方向固定高斯核来有效定位目标。此外,背景中可能存在亮度较高的云、雾,容易干扰到对弱小目标的检测,如图1区域s1~s3所示,其灰度分布特性类似弱小目标,因此需要引入背景抑制机制来减弱背景中存在的干扰。针对以上要点,本发明提出多方向固定高斯核注意力,对所提取的浅层特征Fs进行背景抑制和目标增强,得到增强后的浅层特征Fe,具体结构如图2所示。考虑到背景中的云、雾分布较广,而目标分布稀疏,故首先引入全局注意力机制GCBlock进行背景抑制,随后构建多方向固定高斯核,以某像素点以及其邻域像素点在多个方向上存在的灰度差大小来衡量该点为目标的概率,提取空间注意力来增强目标特征。本发明多方向固定高斯核注意力首先对输入特征图Fs使用通道维度压缩比为0.25的全局注意力机制GCBlock进行背景抑制,得到特征图Fc-attn,其次使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层将背景抑制处理后的特征图像的通道维度降至8,得到特征图Fa。随后将特征图Fa于通道维上分为8组,并行使用8个固定卷积核分别计算方向特征图Fd,固定卷积核的大小取5×5,卷积核其余卷积核di由d1逆时针旋转i×45°得到。再使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的两组串联的逐点卷积单元充分融合方向特征图Fd不同通道的方向信息,得到融合方向特征图F′d。最后将Fd与F′d做逐点乘法并使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1、激活函数为sigmoid的逐点卷积单元将通道维度降至1,得到多方向注意力特征图Fd-attn,将多方向注意力特征图Fd-attn与Fc-attn做逐点乘法得到增强后的输入特征图Fe。
其中,所述步骤二具体如下:
2.1:构建骨干网络对增强后的低层特征进行特征提取;骨干网络由三组混合感受野卷积块和负责降采样的卷积单元交替构成,每个混合感受野卷积块由一定数量的混合感受野卷积单元和一个负责背景抑制的全局注意力机制GCBlock串联构成,每个混合感受野卷积单元由卷积核大小递增、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元,卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元,卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层以及残差连接组成,以提取不同尺度的特征,其具体结构如图3所示。本发明设计的混合感受野卷积单元将输入特征首先于通道维度上分成四组,对每一组特征分别用卷积核大小为1×1,3×3,5×5,7×7、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元进行特征提取后在通道维度上拼接;对处理后的特征依次使用卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元和卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层处理,随后与输入特征做残差连接得到输出特征。混合感受野卷积块之间用负责降采样的一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元连接。增强后的浅层特征Fe经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第一组混合感受野卷积块G1得到对应输出特征图F1,再经过一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至32,随后经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第二组混合感受野卷积块G2得到对应输出特征图F2,再经过一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至64,最后经过由三个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第三组混合感受野卷积块G3得到对应输出特征图F3。特征提取过程的具体实现如图4所示。
其中,所述步骤三具体如下:
3.1:交叉滑动窗口注意力机制。考虑在红外弱小目标检测任务中,反映边缘、形状、纹理等细节信息的低层特征与目标的边缘分割相关,包含更多语义信息的高层特征与目标的位置确定、背景抑制相关。例如,对于如图5a所示的红外图像输入,输出特征图F1主要反映骨干网络对于低层特征的提取,其保留了图中目标、山脉背景、海面背景中较为清晰、准确的边缘、纹理特征,如图5b所示;输出特征图F2反映骨干网络中间层对于特征的提取,其保留了图中目标和背景的大致轮廓,同时对目标位置信息有了进一步的提取和增强,如图5c所示;输出特征图F3反映骨干网络对于高层特征的提取,其不同通道分别包含原红外图像中具有不同语义的部分,能够实现目标区域与背景区域的区分和不同的背景区域之间的区分,但其细节信息已经模糊,如图5d所示。因此需要有效地将低层特征与中、高层特征进行融合,充分结合语义信息和细节信息实现对目标的分割提取。同时考虑到弱小目标局部邻域内有较为丰富的多尺度特征,本发明设计了针对弱小目标特征的交叉滑动窗口注意力机制,通过不同尺寸窗口划分并计算交叉窗口注意力实现不同层特征融合,其主要部分交叉窗口注意力模块按照公式Attn(X,Y)=softmax(norm(X)norm(YT)+B)Linear(Y)和CWA(X,Y)=X+Mlp(Attn(X,Y))计算交叉窗口注意力CWA(X,Y),式中norm为归一化函数,softmax为softmax激活函数,B为相对位置偏移,Linear为线性投影函数,Mlp为多层感知机函数,X、Y分别为输入特征矩阵,YT为Y的转置,如图6所示。交叉滑动窗口注意力机制首先利用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积单元将骨干网络输出特征图F3、F3的通道维度压缩至16得到对应的特征图F′2、F′3;利用双线性插值恢复F′2、F′3至原输入尺寸大小得到对应的特征图F″2、F″3。随后利用交叉窗口注意力模块分别计算F′2、F′3对于F1的交叉窗口注意力;将输入F′2、F′3分别分成8×8互不重叠的窗口F′2-window和4×4互不重叠的窗口F′3-window,将输入F1分成16×16互不重叠的窗口F′1window;使用交叉窗口注意力模块分别计算F′1window与F′2window和F′3window的注意力增强特征图CWA(F′1window,F′2window)和CWA(F′1window,F′3window);再将注意力增强特征图CWA(F′1window,F′2window)、CWA(F′1window,F′3window)向右下方平移8个像素并分成16×16互不重叠的窗口F′1-2window、F′1-3window;将F′2、F′3分别向右下方平移4、2个像素并别分成8×8互不重叠的窗口F′2shifted-window和4×4互不重叠的窗口F′3shifted-window;使用交叉窗口注意力模块分别计算F′1-2window与F′2shifted-window的交叉窗口注意力CWA(F′1-2window,F′2shifted-window)和F′1-3window与F′3shifted-window的交叉窗口注意力CWA(F′1-3window,F′1shifted-window),向左上方平移8个像素得到对应的交叉滑动窗口注意力特征图最后将交叉滑动窗口注意力特征图/>与F″2、F″3做残差连接得到融合特征图/>将F1、/>在通道维度上拼接得到多尺度输出特征图Fm。
3.2:通过由多方向固定高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层组成的轻量化输出层进行检测。将多尺度输出特征图Fm利用多方向固定高斯核注意力再次增强后,利用卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层将通道维度降至1,随后经过sigmoid激活函数处理后输出全图像像素级别的概率预测图。
其中,所述步骤四具体如下:
4.1:将步骤一至三所提出各个模块依次串联搭建成卷积神经网络,如图4所示。损失函数由交并比(IOU)损失构成,L=LIOU。交并比是指产生的预测区域与真实目标区域的交叠率,即是指两者的交集和并集的比值。我们训练网络进行目标检测时,期望达到的理想情况是预测区域与真实区域能够完全重叠,即交并比等于1。因此,实际情况中,交并比的值总是在0~1之间,且值越大,则代表网络的检测效果越精确。由此,定义交并比损失其中area(predict)为本发明方法预测的目标区域,area(trut)为真实目标区域面积,∩为集合交运算,∪为集合并运算。给出以上损失函数定义后,将红外图像输入卷积神经网络,得到概率预测图并与标注的真实结果图进行逐像素点乘,得到预测目标区域与真实目标区域的重叠结果,即area(predict)∩area(trut);在此基础上,分别求和计算真实目标区域、预测目标区域、二者重叠区域的像素数,进而计算交并比损失。
4.2:本发明采用Adamw优化器进行优化,网络的初始学习率为0.0002,权重衰减系数为10-3,训练中自适应更新学习率,通过梯度反向传播结合滑动指数平均方式调整网络参数降低相应的损失函数。在该过程中,使用梯度下降法进行反向传播,通过求导链式法则,将损失函数对某一网络参数求偏导来进行参数更新:其中θi为反向传播前的网络参数,θ′i为反向传播更新后的网络参数,η为学习率,L为损失函数。
图7a-7h是本发明在实际红外场景中的应用,弱小目标的位置用白框标出,图7c、7d、7g、7h为相应的检测结果。用于实验的图像来自于不同的红外场景,其中的弱小目标大多数非常暗淡且尺寸小,难以提取有效纹理信息,且背景中存在云、植被、噪波等复杂干扰,但实验结果不仅有效排除噪声干扰并精准检测目标的位置与形状,而且在运算时间上具备优势,实现了快速准确检测的目标,这充分说明本发明的高效性,可广泛应用于各类红外弱小目标检测系统,具有广阔的市场前景与应用价值。
Claims (10)
1.一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于,包括如下步骤:
步骤一:构造多方向固定高斯核注意力,抑制背景同时提取目标多个方向特征进行目标特征增强;
步骤二:构造基于混合感受野卷积块串联的骨干网络对增强后的浅层特征进行三组特征提取;
步骤三:构造交叉滑动注意力机制,将骨干网络提取的三组特征通过交叉滑动窗口注意力机制进行融合,并在通道维度上拼接;并再次利用多方向高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层进行逐像素预测,得到整幅图像像素级别的概率预测图;
步骤四:将上述模块依次串联搭建成卷积神经网络;并构造损失函数对网络进行训练;
输出:用训练好的神经网络处理红外图像;在使用训练数据对基于混合空间调制特征卷积神经网络进行充分迭代训练之后,得到训练好的网络用于检测目标像素。
2.根据权利要求1所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:步骤一具体如下:
提取浅层特征并使用多方向固定高斯核注意力进行目标特征增强;网络主要使用卷积单元作为基本组件,每个卷积单元由1个卷积层、批量归一化层、Selu激活函数操作组合而成,卷积层中卷积核大小,扩展系数,分组数,步长,激活函数类型等参数根据需要进行调整。
3.根据权利要求1或2所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:首先,输入图像经过一个卷积核大小为7×7、扩展系数为1、分组数为1、步长为1的卷积单元,生成通道数为16的浅层特征Fs;对所提取的浅层特征Fs进行背景抑制和目标增强,得到增强后的浅层特征Fe;首先引入全局注意力机制GCBlock进行背景抑制,随后构建多方向固定高斯核,以某像素点以及其邻域像素点在多个方向上存在的灰度差大小来衡量该点为目标的概率,提取空间注意力来增强目标特征。
4.根据权利要求3所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:多方向固定高斯核注意力,首先对输入特征图Fs使用通道维度压缩比为0.25的全局注意力机制GCBlock进行背景抑制,得到特征图Fc-attn,其次使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层将背景抑制处理后的特征图像的通道维度降至8,得到特征图Fa;随后将特征图Fa于通道维上分为8组,并行使用8个固定卷积核分别计算方向特征图Fd,固定卷积核的大小取5×5,卷积核 其余卷积核di由d1逆时针旋转i×45°得到;再使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的两组串联的逐点卷积单元充分融合方向特征图Fd不同通道的方向信息,得到融合方向特征图F′d;最后将Fd与F′d做逐点乘法并使用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1、激活函数为sigmoid的逐点卷积单元将通道维度降至1,得到多方向注意力特征图Fd-attn,将多方向注意力特征图Fd-attn与Fc-attn做逐点乘法得到增强后的输入特征图Fe。
5.根据权利要求1所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:步骤二具体如下:
构建骨干网络对增强后的低层特征进行特征提取;骨干网络由三组混合感受野卷积块和负责降采样的卷积单元交替构成,每个混合感受野卷积块由一定数量的混合感受野卷积单元和一个负责背景抑制的全局注意力机制GCBlock串联构成,每个混合感受野卷积单元由卷积核大小递增、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元,卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元,卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层以及残差连接组成,以提取不同尺度的特征。
6.根据权利要求5所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:混合感受野卷积单元将输入特征首先于通道维度上分成四组,对每一组特征分别用卷积核大小为1×1,3×3,5×5,7×7、扩展系数为1、分组数为对应输入通道数、步长为1的卷积单元进行特征提取后在通道维度上拼接;对处理后的特征依次使用卷积核大小为3×3、扩展系数为2、分组为4、步长为1的分组扩展卷积单元和卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积层处理,随后与输入特征做残差连接得到输出特征;混合感受野卷积块之间用负责降采样的一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元连接;增强后的浅层特征F经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第一组混合感受野卷积块G1得到对应输出特征图F1,再经过一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至32,随后经过由一个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第二组混合感受野卷积块G2得到对应输出特征图F2,再经过一组卷积核大小为3×3、扩展系数为2、分组为输入通道数、步长为2的卷积单元降采样,于通道维度上翻倍至64,最后经过由三个混合感受野卷积单元和一个全局注意力机制GCBlock组成的第三组混合感受野卷积块G3得到对应输出特征图F3。
7.根据权利要求1所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:步骤三具体如下:
3.1:交叉滑动窗口注意力机制;设计针对弱小目标特征的交叉滑动窗口注意力机制,通过不同尺寸窗口划分并计算交叉窗口注意力实现不同层特征融合,交叉窗口注意力模块按照公式Attn(X,Y)=softmax(norm(X)norm(YT)+B)Linear(Y)和CWA(X,Y)=XMlp(Attn(X,Y))计算交叉窗口注意力CWA(X,Y),式中norm为归一化函数,softmax为softmax激活函数,B为相对位置偏移,Linear为线性投影函数,Mlp为多层感知机函数,X、Y分别为输入特征矩阵,YT为Y的转置;
交叉滑动窗口注意力机制首先利用卷积核大小为1×1、扩展系数为1、分组数为1、步长为1的逐点卷积单元将骨干网络输出特征图F2、F3的通道维度压缩至16得到对应的特征图F′2、F′3;利用双线性插值恢复F′2、F′3至原输入尺寸大小得到对应的特征图F″2、F″3;随后利用交叉窗口注意力模块分别计算F′2、F′3对于F1的交叉窗口注意力;将输入F′2、F′3分别分成8×8互不重叠的窗口F′2-window和4×4互不重叠的窗口F′3-window,将输入F1分成16×16互不重叠的窗口F′1window;使用交叉窗口注意力模块分别计算F′1window与F′2window和F′3window的注意力增强特征图CWA(F′1window,F′2window)和CWA(F′1window,F′3window);再将注意力增强特征图(F′1window,F′2window)、CWA(F′1window,F′3window)向右下方平移8个像素并分成16×16互不重叠的窗口F′1-2window、F′1-3window;将F′2、F′3分别向右下方平移4、2个像素并别分成8×8互不重叠的窗口F′2shifted-window和4×4互不重叠的窗口F′3shifted-window;使用交叉窗口注意力模块分别计算F′1-2window与F′2shifted-window的交叉窗口注意力CWA(F′1-2window,F′2shifted-window)和F′1-3window与F′3shifted-window的交叉窗口注意力CWA(F′1-3windoe,F′3shifted-window),向左上方平移8个像素得到对应的交叉滑动窗口注意力特征图最后将交叉滑动窗口注意力特征图/>与F″2、F″3做残差连接得到融合特征图/>将F1、/>在通道维度上拼接得到多尺度输出特征图Fm。
8.根据权利要求7所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:3.2:通过由多方向固定高斯核注意力和卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层组成的轻量化输出层进行检测;将多尺度输出特征图Fm利用多方向固定高斯核注意力再次增强后,利用卷积核大小为3×3、扩展系数为1、分组为1、步长为1的卷积层将通道维度降至1,随后经过sigmoid激活函数处理后输出全图像像素级别的概率预测图。
9.根据权利要求1所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:步骤四具体如下:
4.1:损失函数由交并比IOU损失构成,L=LIOU;交并比是指产生的预测区域与真实目标区域的交叠率,即是指两者的交集和并集的比值;训练网络进行目标检测时,期望达到的理想情况是预测区域与真实区域能够完全重叠,即交并比等于1;因此,交并比的值总是在0~1之间,且值越大,则代表网络的检测效果越精确;由此,定义交并比损失其中area(predict)为预测的目标区域,area(trut)为真实目标区域面积,∩为集合交运算,∪为集合并运算;给出以上损失函数定义后,将红外图像输入卷积神经网络,得到概率预测图并与标注的真实结果图进行逐像素点乘,得到预测目标区域与真实目标区域的重叠结果,即area(predict)∩area(trut);分别求和计算真实目标区域、预测目标区域、二者重叠区域的像素数,进而计算交并比损失。
10.根据权利要求9所述的一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法,其特征在于:4.2:采用Adamw优化器进行优化,网络的初始学习率为0.0002,权重衰减系数为10-3,训练中自适应更新学习率,通过梯度反向传播结合滑动指数平均方式调整网络参数降低相应的损失函数;在该过程中,使用梯度下降法进行反向传播,通过求导链式法则,将损失函数对某一网络参数求偏导来进行参数更新:其中θi为反向传播前的网络参数,θ′i为反向传播更新后的网络参数,η为学习率,L为损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406665.1A CN116486102A (zh) | 2023-04-17 | 2023-04-17 | 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406665.1A CN116486102A (zh) | 2023-04-17 | 2023-04-17 | 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486102A true CN116486102A (zh) | 2023-07-25 |
Family
ID=87214919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406665.1A Pending CN116486102A (zh) | 2023-04-17 | 2023-04-17 | 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486102A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078920A (zh) * | 2023-10-16 | 2023-11-17 | 昆明理工大学 | 一种基于可变形注意力机制的红外-可见光目标检测方法 |
CN117764988A (zh) * | 2024-02-22 | 2024-03-26 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
-
2023
- 2023-04-17 CN CN202310406665.1A patent/CN116486102A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078920A (zh) * | 2023-10-16 | 2023-11-17 | 昆明理工大学 | 一种基于可变形注意力机制的红外-可见光目标检测方法 |
CN117078920B (zh) * | 2023-10-16 | 2024-01-23 | 昆明理工大学 | 一种基于可变形注意力机制的红外-可见光目标检测方法 |
CN117764988A (zh) * | 2024-02-22 | 2024-03-26 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
CN117764988B (zh) * | 2024-02-22 | 2024-04-30 | 山东省计算中心(国家超级计算济南中心) | 基于异核卷积多感受野网络的道路裂缝检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cong et al. | RRNet: Relational reasoning network with parallel multiscale attention for salient object detection in optical remote sensing images | |
Chen et al. | MSARN: A deep neural network based on an adaptive recalibration mechanism for multiscale and arbitrary-oriented SAR ship detection | |
CN116486102A (zh) | 一种基于混合空间调制特征卷积神经网络的红外弱小目标检测方法 | |
CN113239830B (zh) | 一种基于全尺度特征融合的遥感图像云检测方法 | |
Chen et al. | Geospatial transformer is what you need for aircraft detection in SAR Imagery | |
Xia et al. | River segmentation based on separable attention residual network | |
CN117237740B (zh) | 一种基于CNN和Transformer的SAR图像分类方法 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
Han et al. | KCPNet: Knowledge-driven context perception networks for ship detection in infrared imagery | |
CN115223017B (zh) | 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法 | |
Chen et al. | Change detection algorithm for multi-temporal remote sensing images based on adaptive parameter estimation | |
Yan et al. | STDMANet: Spatio-temporal differential multiscale attention network for small moving infrared target detection | |
Kang et al. | YOLO-FA: Type-1 fuzzy attention based YOLO detector for vehicle detection | |
Zhao et al. | GeSANet: Geospatial-Awareness Network for VHR Remote Sensing Image Change Detection | |
CN116953702A (zh) | 基于演绎范式的旋转目标检测方法及装置 | |
Zhang et al. | Multilevel feature context semantic fusion network for cloud and cloud shadow segmentation | |
CN116503602A (zh) | 基于多层级边缘增强的非结构化环境三维点云语义分割方法 | |
Ding et al. | Sw-YoloX: An anchor-free detector based transformer for sea surface object detection | |
CN116758219A (zh) | 基于神经网络的区域感知多视角立体匹配三维重建方法 | |
CN116434074A (zh) | 基于邻支互补显著性和多先验稀疏表征的目标识别方法 | |
Zhang et al. | Peakconv: Learning peak receptive field for radar semantic segmentation | |
CN114821018B (zh) | 一种利用多方向性特征构造卷积神经网络的红外弱小目标检测方法 | |
Wang et al. | RLPGB-Net: Reinforcement learning of feature fusion and global context boundary attention for infrared dim small target detection | |
Su et al. | Small target detection method based on feature fusion for deep learning in state grid environment evaluation | |
Qiu et al. | ARODNet: adaptive rain image enhancement object detection network for autonomous driving in adverse weather conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |