CN116863305A - 基于时空特征融合网络的红外弱小目标检测方法 - Google Patents
基于时空特征融合网络的红外弱小目标检测方法 Download PDFInfo
- Publication number
- CN116863305A CN116863305A CN202310864360.5A CN202310864360A CN116863305A CN 116863305 A CN116863305 A CN 116863305A CN 202310864360 A CN202310864360 A CN 202310864360A CN 116863305 A CN116863305 A CN 116863305A
- Authority
- CN
- China
- Prior art keywords
- sau
- space
- convolution
- infrared
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000006467 substitution reaction Methods 0.000 claims abstract description 5
- 238000011065 in-situ storage Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Aiming, Guidance, Guns With A Light Source, Armor, Camouflage, And Targets (AREA)
Abstract
本发明涉及红外弱小目标检测技术领域,为充分挖掘红外图像序列中的时空特性,在时间和空间两个维度上实现注意力引导机制。本发明主要应用于设计制造场合。本发明采取的技术方案是,基于时空特征融合网络的红外弱小目标检测方法,时空特征融合红外弱小目标检测网络模型STNet,以相邻帧红外图像为输入,送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征,最终送入时序引导的Transformer结构完成时空特征融合,并最终生成检测结果的预测,其中,由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。本发明主要应用于红外弱小目标检测场合。
Description
技术领域
本发明涉及面向红外弱小目标检测的深度学习目标检测方法,可应用于远程红外预警、反无人机、海岸监视等多种任务,适应于机载、舰载、弹载、地面等不同平台。具体涉及基于时空特征融合网络的红外弱小目标检测方法。
背景技术
红外探测设备在应用过程中,由于被探测目标相距探测设备距离相对较远,受限于光学系统的口径和传播路径中的大气衰减,红外探测器接收到目标的红外辐射信号相对较弱。目标在红外探测器的成像画面中通常仅占几个到十几个像素,缺乏可用于识别的纹理信息。同时,不同于可见光相机可同时采集目标红绿蓝三个谱段的光谱信息,常规的红外探测器仅能对特定的单一红外谱段成像,缺乏多光谱特性。所以,红外探测设备需要识别的是信噪比低、特征少、面积小的红外弱小目标。在现有的红外图像单帧处理过程中,受限于目标的特征信息有限,不可避免要面临虚警和漏警问题。然而,在红外探测设备的应用过程中,熟练的设备操作人员在面对红外探测设备的监控画面中,却能够精准有效从红外图像中识别出感兴趣的目标。这是由于经过长期的经验积累,操作人员能够依照目标的运动轨迹、形状变化和亮度变化来辨别真实目标和假目标。由此可见,如何高效的运用目标的时空特征,成为了解决红外弱小目标识别问题的关键。伴随着深度神经网络技术的发展,尤其是以LSTM、Transformer等网络结构的出现,为解决序列信号的高效处理提供了可能。Transformer结构起源于自然语言处理领域,后拓展到视觉处理任务中。Transformer结构以其引入的自注意力机制,突破了RNN网络不能并行化计算的限制,可产生更具解释性的网络结构,成为了解决序列问题的全新解决思路。自注意力机制解决的是在序列特征输入神经网络后,如何依靠自身网络的学习积累建立当前向量与后续向量的联系,并使得模型快速收敛达到预期效果,为此自注意模型引入检索矩阵Q、键值矩阵K和数值矩阵V,如图1所示,每个输入的特征向量由三个独立的MLP网络计算得到Q、K、V三个向量,并计算经注意力计算后的特征输出。Transformer网络沿用了编码器-解码器的设计思路,在编码器和解码器中堆叠了多个自注意力结构,将特征作为编码器的输入,最终输出预测结果。在现有的视觉处理任务应用中,Transformer网络更多的是将整帧图像图像划分为若干个图像块,将图像块和对应位置的编码信息送入编解码网络结构中,生成对目标的位置和类型预测,这种方式是将单帧图像作为一个序列,缺乏了在以单帧图像组成的图像时序上的理解和学习,这势必会影响以目标轨迹、形状变化、能量变化为识别依据的红外弱小目标识别问题的解决。此外,现有的Transformer网络结构主要采用通用的卷积神经网络结构提取目标的视觉特征,未针对红外弱小目标识别问题设计特定的模型样式,使之更加符合红外弱小目标的目标特性,这同样会影响识别网络的性能。
发明内容
为克服现有技术的不足,充分挖掘红外图像序列中的时空特性,在时间和空间两个维度上实现注意力引导机制,本发明旨在提出空间注意力单元(SAU)和时序引导的Transformer两种网络结构,利用SAU构成的特征提取主干网络和时序引导的Transformer结构,构成端到端的时空特征融合红外弱小目标检测网络(STNet)。为此,本发明采取的技术方案是,基于时空特征融合网络的红外弱小目标检测方法,时空特征融合红外弱小目标检测网络模型STNet,以相邻帧红外图像为输入,送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征,最终送入时序引导的Transformer结构完成时空特征融合,并最终生成检测结果的预测,其中,由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。
其中,SAU增加可形变卷积层,可形变卷积核在运算的过程中增加了可变化的位置偏移量,卷积运算的感受野因此能够具备尺度变换、旋转能力。
SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征,卷积核大小均设定为3×3,膨胀卷积的膨胀率分别设定为2和4;经卷积运算后的特征图合并为统一的张量,为保持特征的维度不变,利用一个卷积核大小为1×1的卷积进行降维,使之与输入维度保持一致;同时,SAU添加直连通路,在直连通路中,将SAU输入的特征图与1×1卷积运算后的特征相加,以此来缓解模型深度增加带来的梯度消失问题,为了满足通道数要求,当SAU的输入与输出通道数不一致时,在直连通路上添加1×1卷积。
选用ResNet-18网络为原始构型形成ResNet-SAU-18模型,,ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1,其中,SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层,将输出的7×7×512维度特征展开,以49×512维度特征作为视觉特征,相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构,得到对应的视觉特征Ft-1和Ft。
Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V,利用公式(1)得到自注意力之后的特征:
其中,为了约束特征的数值大小,引入了特征维度数dk,将Q与K T的乘积结果除以利用图像序列的空间特征fs作为K矩阵和V矩阵的输入,而时间特征ft作为Q矩阵的输入,则改造后的自注意力机制表示为:
采用的时序引导的Transformer编码器和解码器层数设定为3,解码器的输出特征作为MLP的输入,得到目标类型和位置的预测,每个MLP网络实现对位置框的预测,在STNet中,Transformer编码器后连接20个MLP网络,单个MLP的层数设定为3,中间隐层个数分别为512、256、128。
STNet模型的训练过程过程如下:
步骤1:从红外图像序列中选取图像帧It和其前一帧It-1,两帧图像送入由SAU组成的主干网络,主干网络结构以ResNet-18为基础架构,将ResNet-18中的部分卷积层替换为SAU单元,形成ResNet-SAU-18模型,It和It-1以224×224分辨率输入ResNet-SAU-18模型,将输出49×512维度特征展开作为两帧图像的视觉特征Ft和Ft-1;
步骤2:计算时序特征ft和空间特征fs,其中,ft=Ft-Ft-1,fs=Ft+Fcode,Fcode为位置编码;
步骤3:将ft和fs送入时序引导的Transformer结构,空间特征fs作为编码器的键值矩阵K和内容矩阵V的输入,而时序特征ft作为编码器和解码器中检索矩阵Q的输入,得到目标检测结果的预测Yp=[yp1,yp2,...,yp20]T;
步骤4:利用匈牙利算法完成预测结果Yp和真实值Ygt的匹配,形成配对后预测结果Yp′=[yp1,yp2,...,ypn]T;
步骤5:利用Ygt和Yp′计算损失函数 为类别损失,为预测结果中类别与真实类别的交叉熵损失值,/>为预测框损失,由预测框的水平中心点x、垂直中心点y、框的宽度w、框的高度h与真实值中对应的框的参数计算L1范数得来;
步骤6:根据损失函数计算值计算梯度,更新模型参数。
STNet模型的目标预测过程如下:步骤1:将需要检测图像帧I’t和其前一帧I’t-1输入STNet,若当前帧为第一帧,则I’t-1=I’t,得到20个MLP网络的预测结果;
步骤2:判断20个预测结果中,当类别对应的概率Plabel=i大于设定阈值θ,则将该MLP网络的预测框结果输出,认定该检测框为第i类目标的位置。
本发明的特点及有益效果是:
本发明采用空间注意力单元(SAU)和时序引导的Transformer结构,实现了针对红外弱小目标检测的时空特征融合网络框架(STNet),其优势主要体现在:(1)新颖性:充分考虑了红外弱小目标的时空特性,首次提出了可应用于红外弱小目标空间视觉特征提取的空间注意力单元(SAU)结构,结合时序引导的Transformer结构,构建了时空特征融合的红外弱小目标检测网络(STNet)。(2)有效性:通过主观和客观实验证明了,与目前的某些红外弱小目标检测算法相比较,本发明设计的时空特征融合的红外弱小目标检测网络模型在性能上相对有所提高,因此更适用于红外弱小目标检测问题中。(3)实用性:简单可行,本发明解决的红外弱小目标检测问题,在红外预警、威胁感知、海岸监视、反无人机作战等领域具有广泛的应用。
附图说明:
图1是自注意力机制示意图。
图2是时空特征融合红外弱小目标检测网络模型结构示意图。
图3是不同形态卷积运算对比。
图4是空间注意力单元结构示意图。
图5是ResNet-SAU-18网络结构示意图。
图6是时序引导的Transformer结构示意图。
具体实施方式
红外弱小目标红外辐射能量上会高于背景,如何设计网络结构使其能够关注到局部的对比度差异,是空间注意力单元所要解决的问题。为此,引入了膨胀卷积和可形变卷积两种卷积层。区别于传统卷积,膨胀卷积在计算卷积运算的过程中,增加了膨胀系数,如图3-(b)所示,卷积核根据膨胀系数与前一层特征图数据按一定间隔进行卷积运算,这样在不增加计算的情况下,增大了卷积层的感受野,与此同时,通过控制不同的膨胀系数,可充分计算目标中心点与周围像素之间的对比度差异,这也更加符合红外弱小目标的数据分布特点。此外,为了应对红外弱小目标形状不规则变化的可能性,SAU增加了可形变卷积层,如图3-(c)所示,可形变卷积核在运算的过程中增加了可变化的位置偏移量,卷积运算的感受野因此能够具备尺度变换、旋转等能力,可以更好的适应形状不规则物体的特征提取。具体而言,如图4所示,SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征,卷积核大小均设定为3×3,膨胀卷积的膨胀率分别设定为2和4。经卷积运算后的特征图合并为统一的张量,为保持特征的维度不变,利用一个卷积核大小为1×1的卷积进行降维,使之与输入维度保持一致。同时,SAU继承了ResNet中的“残差”思想,添加了直连通路。在直连通路中,将SAU输入的特征图与1×1卷积运算后的特征相加,以此来缓解模型深度增加带来的梯度消失问题,为了满足通道数要求,当SAU的输入与输出通道数不一致时,在直连通路上添加1×1卷积。在主干网络方面,SAU适用于VGG、GoogleNet、ResNet等各类主流卷积神经网络,可利用SAU实现对卷积层的原位替代,为了平衡检测性能和检测速度,本发明选用ResNet-18网络为原始构型形成ResNet-SAU-18模型。如图5所示,ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1,其中,图5中的S为卷积步长,P为填充个数,C为通道数。SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层,将输出的7×7×512维度特征展开,以49×512维度特征作为视觉特征,相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构,得到对应的视觉特征Ft-1和Ft。红外图像在经过ResNet-SAU-18主干网络后可充分提取弱小目标的空间结构信息,为挖掘序列图像的时间相关性,提升目标的检测能力,采用时序引导的Transformer结构,融合序列图像相邻帧的空间结构信息,得到最终的目标识别结果的预测。现有的Transformer结构通过自注意机制实现对序列信息的关注点生成,Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V,利用公式(1)得到自注意力之后的特征。
其中,为了约束特征的数值大小,引入了特征维度数dk,将Q与K T的乘积结果除以为结合红外图像序列中相邻帧的目标轨迹、能量变化等时间特性,改变了Transformer结构中由同一特征分别得到Q、K、V三个矩阵的架构,如图3所示,利用图像序列的空间特征fs作为K矩阵和V矩阵的输入,而时间特征ft作为Q矩阵的输入,以此达到在时序特征ft的检索引导下,使得网络更加关注空间特征fs的重点区域,则改造后的自注意力机制表示为:
为了降低模型复杂度,本发明采用的时序引导的Transformer编码器和解码器层数设定为3,最终,解码器的输出特征作为MLP的输入,得到目标类型和位置的预测,每个MLP网络实现对位置框的预测,在STNet中,Transformer编码器后连接20个MLP网络,即对一张图片可实现最大20个位置框的预测。单个MLP的层数设定为3,中间隐层个数分别为512、256、128。
在整体的检测框架上,本发明采用如图2所示的时空特征融合红外弱小目标检测网络模型(STNet),以相邻帧红外图像为输入,送入由空间注意力单元(SAU)组成的主干网络提取视觉特征,最终送入时序引导的Transformer结构完成时空特征融合,并最终生成检测结果的预测。
STNet模型的训练过程过程如下:
步骤1:从红外图像序列中选取图像帧It和其前一帧It-1,两帧图像送入由SAU组成的主干网络。主干网络结构以ResNet-18为基础架构,将ResNet-18中的部分卷积层替换为SAU单元,形成ResNet-SAU-18模型,如图5所示,It和It-1以224×224分辨率输入ResNet-SAU-18模型,将输出49×512维度特征展开作为两帧图像的视觉特征Ft和Ft-1。
步骤2:计算时序特征ft和空间特征fs,其中,ft=Ft-Ft-1,fs=Ft+Fcode,Fcode为位置编码。
步骤3:将ft和fs送入本发明提出的时序引导的Transformer结构,如图6所示,空间特征fs作为编码器的键值矩阵K和内容矩阵V的输入,而时序特征ft作为编码器和解码器中检索矩阵Q的输入,得到目标检测结果的预测Yp=[yp1,yp2,...,yp20]T。
步骤4:利用匈牙利算法完成预测结果Yp和真实值Ygt的匹配,形成配对后预测结果Yp′=[yp1,yp2,...,ypn]T。
步骤5:利用Ygt和Yp′计算损失函数 为类别损失,为预测结果中类别与真实类别的交叉熵损失值,/>为预测框损失,由预测框的水平中心点x、垂直中心点y、框的宽度w、框的高度h与真实值中对应的框的参数计算L1范数得来。步骤6:根据损失函数计算值/>计算梯度,更新模型参数。
STNet模型的目标预测过程如下:步骤1:将需要检测图像帧I’t和其前一帧I’t-1输入STNet,若当前帧为第一帧,则I’t-1=I’t,得到20个MLP网络的预测结果。
步骤2:判断20个预测结果中,当类别对应的概率Plabel=i大于设定阈值θ,则将该MLP网络的预测框结果输出,认定该检测框为第i类目标的位置
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于时空特征融合网络的红外弱小目标检测方法,其特征是,时空特征融合红外弱小目标检测网络模型STNet,以相邻帧红外图像为输入,送入由空间注意力单元SAU组成的STNet主干网络提取视觉特征,最终送入时序引导的Transformer结构完成时空特征融合,并最终生成检测结果的预测,其中,由空间注意力单元SAU组成的STNet主干网络是指利用SAU实现对STNet主干网络卷积层的原位替代。
2.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,其中,SAU增加可形变卷积层,可形变卷积核在运算的过程中增加了可变化的位置偏移量,卷积运算的感受野因此能够具备尺度变换、旋转能力。
3.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,SAU首先采用两个膨胀卷积和一个可形变卷积提取多尺度特征,卷积核大小均设定为3×3,膨胀卷积的膨胀率分别设定为2和4;经卷积运算后的特征图合并为统一的张量,为保持特征的维度不变,利用一个卷积核大小为1×1的卷积进行降维,使之与输入维度保持一致;同时,SAU添加直连通路,在直连通路中,将SAU输入的特征图与1×1卷积运算后的特征相加,以此来缓解模型深度增加带来的梯度消失问题,为了满足通道数要求,当SAU的输入与输出通道数不一致时,在直连通路上添加1×1卷积。
4.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,选用ResNet-18网络为原始构型形成ResNet-SAU-18模型,ResNet-SAU-18模型以7×7的卷积层和最大值池化层为第一个卷积组Conv_1,其中,SAU单元依次替换了ResNet-18中的卷积组Conv_2、Conv_3、Conv_4、Conv_5的卷积层,将输出的7×7×512维度特征展开,以49×512维度特征作为视觉特征,相邻两帧红外图像It-1和It分别送入ResNet-SAU-18结构,得到对应的视觉特征Ft-1和Ft。
5.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,Transformer结构利用三个MLP网络从输入的特征Fin得到检索矩阵Q、键值矩阵K和内容矩阵V,利用公式(1)得到自注意力之后的特征:
其中,为了约束特征的数值大小,引入了特征维度数dk,将Q与K T的乘积结果除以利用图像序列的空间特征fs作为K矩阵和V矩阵的输入,而时间特征ft作为Q矩阵的输入,则改造后的自注意力机制表示为:
采用的时序引导的Transformer编码器和解码器层数设定为3,解码器的输出特征作为MLP的输入,得到目标类型和位置的预测,每个MLP网络实现对位置框的预测,在STNet中,Transformer编码器后连接20个MLP网络,单个MLP的层数设定为3,中间隐层个数分别为512、256、128。
6.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,STNet模型的训练过程过程如下:
步骤1:从红外图像序列中选取图像帧It和其前一帧It-1,两帧图像送入由SAU组成的主干网络,主干网络结构以ResNet-18为基础架构,将ResNet-18中的部分卷积层替换为SAU单元,形成ResNet-SAU-18模型,It和It-1以224×224分辨率输入ResNet-SAU-18模型,将输出49×512维度特征展开作为两帧图像的视觉特征Ft和Ft-1;
步骤2:计算时序特征ft和空间特征fs,其中,ft=Ft-Ft-1,fs=Ft+Fcode,Fcode为位置编码;
步骤3:将ft和fs送入时序引导的Transformer结构,空间特征fs作为编码器的键值矩阵K和内容矩阵V的输入,而时序特征ft作为编码器和解码器中检索矩阵Q的输入,得到目标检测结果的预测Yp=[yp1,yp2,...,yp20]T;
步骤4:利用匈牙利算法完成预测结果Yp和真实值Ygt的匹配,形成配对后预测结果
Yp′=[yp1,yp2,...,ypn]T;
步骤5:利用Ygt和Yp′计算损失函数为类别损失,为预测结果中类别与真实类别的交叉熵损失值,/>为预测框损失,由预测框的水平中心点x、垂直中心点y、框的宽度w、框的高度h与真实值中对应的框的参数计算L1范数得来;
步骤6:根据损失函数计算值计算梯度,更新模型参数。
7.如权利要求1所述的基于时空特征融合网络的红外弱小目标检测方法,其特征是,STNet模型的目标预测过程如下:步骤1:将需要检测图像帧I’t和其前一帧I’t-1输入STNet,若当前帧为第一帧,则I’t-1=I’t,得到20个MLP网络的预测结果;
步骤2:判断20个预测结果中,当类别对应的概率Plabel=i大于设定阈值θ,则将该MLP网络的预测框结果输出,认定该检测框为第i类目标的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310864360.5A CN116863305A (zh) | 2023-07-13 | 2023-07-13 | 基于时空特征融合网络的红外弱小目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310864360.5A CN116863305A (zh) | 2023-07-13 | 2023-07-13 | 基于时空特征融合网络的红外弱小目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863305A true CN116863305A (zh) | 2023-10-10 |
Family
ID=88228297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310864360.5A Pending CN116863305A (zh) | 2023-07-13 | 2023-07-13 | 基于时空特征融合网络的红外弱小目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863305A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893561A (zh) * | 2024-03-14 | 2024-04-16 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN117934820A (zh) * | 2024-03-22 | 2024-04-26 | 中国人民解放军海军航空大学 | 基于困难样本增强损失的红外目标识别方法 |
-
2023
- 2023-07-13 CN CN202310864360.5A patent/CN116863305A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117893561A (zh) * | 2024-03-14 | 2024-04-16 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN117893561B (zh) * | 2024-03-14 | 2024-06-07 | 大连理工大学 | 一种基于局部对比度计算方法的红外细小目标检测算法 |
CN117934820A (zh) * | 2024-03-22 | 2024-04-26 | 中国人民解放军海军航空大学 | 基于困难样本增强损失的红外目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
Du et al. | Weak and occluded vehicle detection in complex infrared environment based on improved YOLOv4 | |
CN107016357B (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
Bakkay et al. | BSCGAN: Deep background subtraction with conditional generative adversarial networks | |
CN116863305A (zh) | 基于时空特征融合网络的红外弱小目标检测方法 | |
CN113158723B (zh) | 一种端到端的视频动作检测定位系统 | |
CN110222604B (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN105528794A (zh) | 基于混合高斯模型与超像素分割的运动目标检测方法 | |
CN109902612B (zh) | 一种基于无监督学习的监控视频异常检测方法 | |
CN110097028A (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN113139468B (zh) | 融合局部目标特征与全局特征的视频摘要生成方法 | |
CN109063609A (zh) | 一种基于光流特征与全卷积语义分割特征结合的异常行为检测方法 | |
Zhang et al. | Surveillance video anomaly detection via non-local U-Net frame prediction | |
Wang et al. | MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection | |
Cao et al. | EFFNet: Enhanced feature foreground network for video smoke source prediction and detection | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN115862066A (zh) | 一种改进YOLOv5的轻量化社区场景下行人检测方法 | |
CN109447014A (zh) | 一种基于双通道卷积神经网络的视频在线行为检测方法 | |
CN114332053A (zh) | 一种多模态两阶段无监督视频异常检测方法 | |
CN116109947A (zh) | 一种基于大核等效卷积注意力机制的无人机图像目标检测方法 | |
Algamdi et al. | Learning temporal information from spatial information using CapsNets for human action recognition | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
US20230154139A1 (en) | Systems and methods for contrastive pretraining with video tracking supervision | |
CN111339892A (zh) | 一种基于端到端3d卷积神经网络的泳池溺水检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |