CN116824317A - 一种基于多尺度特征自适应融合的水上红外目标检测方法 - Google Patents
一种基于多尺度特征自适应融合的水上红外目标检测方法 Download PDFInfo
- Publication number
- CN116824317A CN116824317A CN202310544364.5A CN202310544364A CN116824317A CN 116824317 A CN116824317 A CN 116824317A CN 202310544364 A CN202310544364 A CN 202310544364A CN 116824317 A CN116824317 A CN 116824317A
- Authority
- CN
- China
- Prior art keywords
- feature
- scale
- module
- fusion
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 66
- 230000004927 fusion Effects 0.000 title claims abstract description 62
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 230000001629 suppression Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims 1
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 235000006506 Brasenia schreberi Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明提供了一种基于多尺度特征自适应融合的水上红外目标检测方法,该方法包括:对输入的水上红外图像进行自适应缩放,统一输入图像尺寸。使用特征提取网络得到多尺度特征信息。然后,通过双向跳跃连接特征融合模块对多尺度特征信息进行初步的特征融合。初步融合后的特征再经过多尺度特征自适应融合模块输出最终的特征信息,其中,所述多尺度特征自适应融合模块通过高效频率通道注意力模块来自适应调整不同尺度特征层之间的融合比例。最后,预测层对特征信息进行预测,得到多个预测框,使用非极大值抑制方法来确定目标框、目标类别和置信度,从而检测到目标。本发明能够适应复杂多变的水上场景,提升水上红外目标检测的准确性和抗干扰能力。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于多尺度特征自适应融合的水上红外目标检测方法。
背景技术
水上无人系统是无人艇和无人机上不可缺少的关键技术,是未来执行水上监控、水上救援、水上运输、空海协同等任务的主要手段,在民用和军事领域内具有重要的应用意义。水上红外目标检测技术是水上无人系统的主要研究内容之一,是在低照度和黑暗情况下实现水上环境感知的核心技术。水上无人系统可利用水上红外目标检测技术在低照度环境下实现自主探测、自主决策、自主避障等功能。
由于水上环境相比较陆上场景更加复杂,水上红外目标检测经常受到大雾、海浪以及日光反射的影响,环境干扰因素较多,提高了目标检测难度。并且,红外目标缺少颜色和纹理信息,特征信息弱,使得水上红外目标检测变得非常地艰难。
针对上述的水上红外目标检测难点,传统的水上红外目标检测算法中通常是根据目标本身灰度值和邻域背景信息等相关图像信息来设计特征进行检测识别,这些特征不论采用局部特征还是全局特征,都是人工设计的特征模型。根据不同应用的场景预先设置特征策略,复杂的水上红外场景一旦超出预置的条件,已有的传统算法就很难适用,检测能力较难提高。随着深度学习的快速发展,卷积神经网络模型突破了人工设计特征的局限,且表现出优秀的性能。它通过数据集训练可以自主设计特征,更好地适应水上红外目标检测,提升目标检测的鲁棒性。由于水上红外目标图像的特殊性,多为小目标并且缺乏纹理信息,通常的基于深度学习的红外目标检测方法采用简单的特征融合来增强特征,虽然提升了检测效果,但是对于复杂水上环境适应性较差,检测稳定性较低,抗干扰能力弱,导致水上红外目标检测效果差,易检错目标。
发明内容
有鉴于此,本发明的目的在于提出一种基于多尺度特征自适应融合的水上红外目标检测方法,以解决复杂水上环境目标检测效果差的问题。
基于上述目的,本发明提供了一种基于多尺度特征自适应融合的水上红外目标检测方法,包括以下步骤:
S1、对输入的水上红外图像进行预处理;
S2、将预处理后的图像通过特征提取网络得到四种不同层次的多尺度深度特征图;
S3、将四种不同层次的多尺度深度特征图通过双向跳跃连接特征融合,输出初步融合后的四种不同尺度的特征信息;
S4、将初步融合后的四种不同尺度的特征信息经过多尺度特征自适应融合,输出最终的特征信息,包括通过高效频率通道注意力模块获得不同尺寸特征图中不同通道的注意力权重,将注意力权重与相应的不同尺寸特征图的不同通道信息进行自适应加权,自适应调整不同特征层之间的融合比例,输出三种尺度特征信息;
S5、将三种尺度特征信息输入预测层,预测出多个预测框,通过非极大值抑制方法从多个预测框中确定最终的目标框、目标类别和置信度,获得目标检测结果。
优选地,预处理包括对输入的水上红外图像进行自适应缩放,统一输入图像尺寸为640×640×3大小。
优选地,步骤S2中,特征提取网络为CSP-Darknet53特征提取网络,包括CBS模块、C3模块和SPPF模块,其中CBS模块为卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成,C3模块是由3个CBS卷积模块构成的残差结构,SPPF模块先通过CBS卷积模块,然后通过3个5×5的最大池化层来抽取不同尺度特征,再通过通道合并实现多尺度特征融合。
优选地,步骤S2具体包括以下子步骤:
S21、640×640×3的水上红外图像输入特征提取网络后,经过两个CBS模块和一个C3模块可以得到160×160×128的特征图P1;
S22、经过一个CBS模块和一个C3模块得到80×80×256的特征图P2,之后经过一个CBS模块和一个C3模块得到40×40×512的特征图P3,再之后经过一个CBS模块、一个C3模块和SPPF模块后得到20×20×1024的特征图P4。
优选地,步骤S3进一步包括:
S31、通过双向跳跃连接特征融合,将输入的P1、P2、P3、P4特征图,通过自顶向下和横向跳跃结合方式将深层特征向浅层特征融合输出B1、B2、B3、B4特征,具体融合过程包括:
B1=Conv(P1)
B1是由P1横向跳跃连接过来的,式中,Conv为卷积操作;
B4是由P4和B3特征信息融合而成的,式中,Upsample为上采样运算操作,ωi为每条路径上的权重,由反向传播得到,ε为防止数值不稳定设置的学习率,参数设置为0.0001,B3是由P3和B2特征信息根据相同的融合方式得到的,B2是由P2和B1特征信息根据相同的融合方式得到的;
S32、对B1、B2、B3、B4特征进行自低向上和横向跳跃连接的特征融合,输出初步融合后的四种不同尺度的特征信息F1、F2、F3、F4特征,具体融合过程包括:
F1是由B1、F2和横向跳跃连接的P1特征信息融合而成的,式中,Downsample为下采样运算操作,ω′i为每条路径上的权重,由反向传播得到。根据相同的融合方式,F2是由P2、B2和F3特征信息融合而成的,F3是由P3、B3和F4特征信息融合而成的。
F4是由P4和B4特征信息融合而成的。
优选地,步骤S4进一步包括以下子步骤:
S41、多尺度特征自适应融合模块对特征提取网络输出的多尺度F1、F2、F3、F4特征图,通过尺度变化把多尺度特征图都统一到相同的尺度和通道数,第一次按照F1的尺度进行调整,得到相同尺度的特征图为X1、X2、X3和X4,然后经过通道拼接统一特征图为X,
X=Cat([X1,X2,X3,X4])
其中,Cat(·)表示对所有特征图进行通道拼接操作;
S42、不同尺度变换来的特征图Xi通过高效频率通道注意力模块获取不同特征图中不同通道注意力权重Ei,
Ei=EFCA(Xi),i=1,2,3,4
其中,EFCA(·)代表利用高效频率通道注意力模块EFCA,来获取不同特征图不同通道的注意力。Ei为特征Xi的通道注意力权重值;
S43、对整个多尺度通道注意力进行通道拼接,得到新的权重E,
其中,表示通道拼接操作,Ei为每个多尺度通道注意力权重;
S44、采用归一化指数函数Softmax重新自适应分配通道注意力E,从而得到多尺度特征自适应加权的通道注意力权重atti,
其中,Softmax(·)表示Softmax函数,用于获取不同尺度特征图中通道重新标定权重atti;
S45、将通道注意力权重向量atti与不同尺度特征图Xi的通道信息进行自适应加权,通过并行组合输出多尺度特征图Y1,
其中,表示特征加权的乘法运算符号。通道拼接操作能在不破坏原始特征信息的前提下,完整地保持特征信息;
S46、多尺度特征自适应融合模块依次按照F1、F2、F3尺度,重复S41-S45的步骤输出3种尺度特征信息Y1、Y2、Y3。
优选地,步骤S42具体包括:
S421:EFCA对输入特征图X进行尺寸压缩,经离散余弦变换操作得到一个特征向量s=(s1,s2,…,sc),作为一维卷积操作的输入,其中,s=(s1,s2,…,sc)的计算方式为:
其中,i∈{0,1,…,H-1}和j∈{0,1,…,W-1}表示DCT的分量下标,每一块采用不同的频率分量,为DCT的基本函数,
S422:通过核为k的一维卷积对通道与其相邻k-1个通道信息进行信息交互,再经过Sigmoid函数得到权重向量E=(E1,E2,…,Ec),
E=σ(C1Dk(s))
其中,σ为Sigmoid函数,卷积核k=5。
优选地,步骤S2中,特征提取网络需要在使用前进行训练,训练选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集,将数据集随机分为训练集、验证集和测试集,所占数据量分别为80%、10%和10%。
优选地,在网络训练前,根据不同的目标检测数据集,自动设定初始锚框的大小,训练参数设置batchsize为16,测试时batchsize为1,epoch为500,初始化学习率为0.01,学习率动量为0.937。
本发明的有益效果:本发明适用于水上无人系统对红外目标检测场景,通过本发明提供的水上红外目标检测方法,有效解决了在复杂水上环境中水上红外目标检测效果差,抗干扰能力弱的问题。通过本发明提供的结合高效频率通道注意力的多尺度特征自适应融合模块,突显红外特征中重要的目标信息,增强水上红外特征信息,抑制水上复杂环境干扰等其他无关信息,提升水上红外目标检测的准确性和抗干扰能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的目标检测方法整体流程示意图;
图2是本发明实施例的目标检测方法网络结构总图;
图3是本发明实施例的目标检测方法网络详细结构图;
图4是本发明实施例的多尺度特征自适应融合模块结构图;
图5是本发明实施例的高效频率通道注意力模块结构图;
图6是本发明实施例的检测结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1和图2所示,本说明书实施例提供了一种基于多尺度特征自适应融合的水上红外目标检测方法,包括以下步骤:
S1、对输入的水上红外图像进行预处理,具体来说,是对输入的水上红外图像进行自适应缩放,统一将输入图像尺寸。
具体实施时,步骤S1中输入的水上红外图像是由水上无人系统采用红外摄像机采集的,对采集的水上红外图像进行自适应缩放,统一将输入图像尺寸变换为640×640×3大小。
S2、将预处理后的图像通过特征提取网络得到四种不同层次的多尺度深度特征图,四种尺度的特征信息分别主要包含弱小、小、中、大不同尺度的目标特征信息。
具体实施时,步骤S2中输入图像通过CSP-Darknet53特征提取网络提取不同层次的多尺度深度特征图。所述的特征提取网络CSP-Darknet53主要由CBS模块、C3模块和SPPF模块组成,如附图3所示。其中,CBS模块是一个基本的卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成。C3模块是由3个CBS卷积模块构成的残差结构。先按照通道数将特征图拆除两部分,一部分进行卷积,另一部分进行残差构建,最后进行通道合并。该模块可以缓解梯度消失的问题,增强网络泛化能力。SPPF模块先通过CBS卷积模块,然后通过3个5×5的最大池化层来抽取不同尺度特征,再通过通道合并实现多尺度特征融合,提高特征提取网络的尺度不变性。
具体实施时,步骤S2中4种不同层次的多尺度深度特征图为原输入图像4倍、8倍、16倍的、32倍下采样操作得到的4种尺度为160×160、80×80、40×40、20×20的P1、P2、P3、P4特征图。
在本实施例中,步骤S2的具体过程包括:
S21:640×640×3的水上红外图像输入特征提取网络后,经过两个CBS模块和一个C3模块可以得到160×160×128的特征图P1。
S22:再经过一个CBS模块和一个C3模块得到80×80×256的特征图P2,接着经过一个CBS模块和一个C3模块得到40×40×512的特征图P3,最后经过一个CBS模块、一个C3模块和SPPF模块后得到20×20×1024的特征图P4。
S3、将四种不同层次的多尺度深度特征图通过双向跳跃连接特征融合,输出初步融合后的四种不同尺度的特征信息,丰富了红外特征信息,增强对红外弱小目标的检测能力。
具体实施时,步骤S3包括:
S31、双向跳跃连接特征融合模块主要是将不同层级的特征信息进行融合,使网络不断调整权重以学习不同输入特征的重要性,如图3所示。通过双向跳跃连接特征融合,将输入的P1、P2、P3、P4特征图,通过自顶向下和横向跳跃结合方式将深层特征向浅层特征融合输出B1、B2、B3、B4特征,具体融合过程包括:
B1=Conv(P1)
B1是由P1横向跳跃连接过来的,式中,Conv为卷积操作;
B4是由P4和B3特征信息融合而成的,式中,Upsample为上采样运算操作,ωi为每条路径上的权重,由反向传播得到,ε为防止数值不稳定设置的学习率,参数设置为0.0001,B3是由P3和B2特征信息根据相同的融合方式得到的,B2是由P2和B1特征信息根据相同的融合方式得到的;
S32、对B1、B2、B3、B4特征进行自低向上和横向跳跃连接的特征融合,输出初步融合后的四种不同尺度的特征信息F1、F2、F3、F4特征,具体融合过程包括:
F1是由B1、F2和横向跳跃连接的P1特征信息融合而成的,式中,Downsample为下采样运算操作,ω′i为每条路径上的权重,由反向传播得到。根据相同的融合方式,F2是由P2、B2和F3特征信息融合而成的,F3是由P3、B3和F4特征信息融合而成的。
F4是由P4和B4特征信息融合而成的。
S4、将初步融合后的四种不同尺度的特征信息经过多尺度特征自适应融合,输出最终的特征信息,包括通过高效频率通道注意力模块获得不同尺寸特征图中不同通道的注意力权重,将注意力权重与相应的不同尺寸特征图的不同通道信息进行自适应加权,自适应调整不同特征层之间的融合比例,输出三种尺度特征信息;
具体实施时,步骤S4包括:在水上复杂环境下,为更好地突出水上红外弱小目标的特征信息,弱化复杂背景干扰信息,结合高效频率通道注意力模块(Efficient FrequencyChannel Attention,EFCA)和多尺度特征信息融合,设计了一种多尺度特征自适应融合模块(Multi-scale feature adaptive fusion,MFAF),通过注意力模块来自适应加权多尺度特征信息进行融合,如图4所示。具体如下:
S41、多尺度特征自适应融合模块对特征提取网络输出的多尺度F1、F2、F3、F4特征图,通过尺度变化把多尺度特征图都统一到相同的尺度和通道数,第一次按照F1的尺度进行调整,得到相同尺度的特征图为X1、X2、X3和X4,然后经过通道拼接统一特征图为X,
X=Cat([X1,X2,X3,X4])
其中,Cat(·)表示对所有特征图进行通道拼接操作;
S42、不同尺度变换来的特征图Xi通过高效频率通道注意力模块获取不同特征图中不同通道注意力权重Ei,
Ei=EFCA(Xi),i=1,2,3,4
其中,EFCA(·)代表利用高效频率通道注意力模块EFCA,来获取不同特征图不同通道的注意力。Ei为特征Xi的通道注意力权重值;
S43、对整个多尺度通道注意力进行通道拼接,得到新的权重E,
其中,表示通道拼接操作,Ei为每个多尺度通道注意力权重;
S44、采用归一化指数函数Softmax重新自适应分配通道注意力E,从而得到多尺度特征自适应加权的通道注意力权重atti,
其中,Softmax(·)表示Softmax函数,用于获取不同尺度特征图中通道重新标定权重atti;
S45、将通道注意力权重向量atti与不同尺度特征图Xi的通道信息进行自适应加权,通过并行组合输出多尺度特征图Y1,
其中,表示特征加权的乘法运算符号。通道拼接操作能在不破坏原始特征信息的前提下,完整地保持特征信息;
S46、多尺度特征自适应融合模块依次按照F1、F2、F3尺度,重复S41-S45的步骤输出3种尺度特征信息Y1、Y2、Y3。
此方法不仅考虑到多尺度特征信息,同时能够有选择地处理关键的特征信息,对目标关键区域投入更多的注意力权重,以获取更多待检目标的细节信息,也相对弱化水上复杂环境干扰信息。
在本实施例中,步骤S42中所述高效频率通道注意力模块的具体实施过程包括:
本实例采用高效频率通道注意力模块EFCA作为核心注意力模块,根据学到的通道注意力权重对特征图进行加权处理,赋予与目标相关性较低的特征信息较低的权重,反之则赋予较高的权重,突显特征中重要的目标信息,抑制水上复杂环境干扰等其他无关信息。如图5所示,EFCA注意力模块使用离散余弦变换引入更多的频率分量来充分的利用特征信息,并且适当跨通道交互能够显著的降低模型参数。
步骤1:EFCA对输入特征图X进行尺寸压缩,经离散余弦变换(Discrete CosineTransform,DCT)操作得到一个特征向量s=(s1,s2,…,sc),作为一维卷积操作的输入。其中,s=(s1,s2,…,sc)的计算方式如下:
其中,i∈{0,1,…,H-1}和j∈{0,1,…,W-1}表示DCT的分量下标,每一块采用不同的频率分量, 为DCT的基本函数,
步骤2:通过核为k的一维卷积对通道与其相邻k-1个通道信息进行信息交互,再经过Sigmoid函数得到权重向量E=(E1,E2,…,Ec)
E=σ(C1Dk(s))
其中,σ为Sigmoid函数,卷积核k=5。
S5、将三种尺度特征信息输入预测层,预测出多个预测框,通过非极大值抑制方法从多个预测框中确定最终的目标框、目标类别和置信度,获得目标检测结果。
上述实施例中S1为输入待检测图像,S2为目标深度特征提取过程,S3和S4为多尺度特征信息融合,S5对三种尺度的特征图进行预测,输出最终检测目标。在实际的水上红外目标检测过程中,需要提前对网络模型进行训练,从而更好地完成整个目标检测过程。
本实施例选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集。将数据集随机分为训练集、验证集和测试集,所占数据量分别为80%、10%和10%。
本实施例训练过程中由于水上红外图像数据集数量有限,采用随机缩放、随机裁剪、随机排布的数据增强方式,丰富水上红外图像数据集,提升了红外目标检测的效果。在网络训练前,本实施例根据不同的目标检测数据集,自动设定初始锚框的大小。本实施例训练参数设置batchsize为16,测试时batchsize为1,epoch为500,初始化学习率为0.01,学习率动量为0.937。
本实施例在测试集上进行水上目标测试,测试结果如图6所示,左侧为YOLOv5算法识别结果,右侧为本实例识别结果。对比YOLOv5算法,本实例在不同背景、不同天气以及不同大小目标下,均能够有效检测到水上红外目标,并且精准度较高。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,包括以下步骤:
S1、对输入的水上红外图像进行预处理;
S2、将预处理后的图像通过特征提取网络得到四种不同层次的多尺度深度特征图;
S3、将四种不同层次的多尺度深度特征图通过双向跳跃连接特征融合,输出初步融合后的四种不同尺度的特征信息;
S4、将初步融合后的四种不同尺度的特征信息经过多尺度特征自适应融合,输出最终的特征信息,包括通过高效频率通道注意力模块获得不同尺寸特征图中不同通道的注意力权重,将注意力权重与相应的不同尺寸特征图的不同通道信息进行自适应加权,自适应调整不同特征层之间的融合比例,输出三种尺度特征信息;
S5、将三种尺度特征信息输入预测层,预测出多个预测框通过非极大值抑制方法从多个预测框中确定最终的目标框、目标类别和置信度,获得目标检测结果。
2.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,所述预处理包括对输入的水上红外图像进行自适应缩放,统一输入图像尺寸为640×640×3大小。
3.根据权利要求2所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S2中,特征提取网络为CSP-Darknet53特征提取网络,包括CBS模块、C3模块和SPPF模块,其中CBS模块为卷积模块,由Conv2d卷积、BatchNorm标准化和SiLu激活函数组成,C3模块是由3个CBS卷积模块构成的残差结构,SPPF模块先通过CBS卷积模块,然后通过3个5×5的最大池化层来抽取不同尺度特征,再通过通道合并实现多尺度特征融合。
4.根据权利要求3所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S2具体包括以下子步骤:
S21、640×640×3的水上红外图像输入特征提取网络后,经过两个CBS模块和一个C3模块可以得到160×160×128的特征图P1;
S22、经过一个CBS模块和一个C3模块得到80×80×256的特征图P2,之后经过一个CBS模块和一个C3模块得到40×40×512的特征图P3,再之后经过一个CBS模块、一个C3模块和SPPF模块后得到20×20×1024的特征图P4。
5.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S3进一步包括:
S31、通过双向跳跃连接特征融合,将输入的P1、P2、P3、P4特征图,通过自顶向下和横向跳跃结合方式将深层特征向浅层特征融合输出B1、B2、B3、B4特征,具体融合过程包括:
B1=Conv(P1)
B1是由P1横向跳跃连接过来的,式中,Conv为卷积操作;
B4是由P4和B3特征信息融合而成的,式中,Upsample为上采样运算操作,ωi为每条路径上的权重,由反向传播得到,ε为防止数值不稳定设置的学习率,参数设置为0.0001,B3是由P3和B2特征信息根据相同的融合方式得到的,B2是由P2和B1特征信息根据相同的融合方式得到的;
S32、对B1、B2、B3、B4特征进行自低向上和横向跳跃连接的特征融合,输出初步融合后的四种不同尺度的特征信息F1、F2、F3、F4特征,具体融合过程包括:
F1是由B1、F2和横向跳跃连接的P1特征信息融合而成的,式中,Downsample为下采样运算操作,ω′i为每条路径上的权重,由反向传播得到。根据相同的融合方式,F2是由P2、B2和F3特征信息融合而成的,F3是由P3、B3和F4特征信息融合而成的。
F4是由P4和B4特征信息融合而成的。
6.根据权利要求5所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S4进一步包括以下子步骤:
S41、多尺度特征自适应融合模块对特征提取网络输出的多尺度F1、F2、F3、F4特征图,通过尺度变化把多尺度特征图都统一到相同的尺度和通道数,第一次按照F1的尺度进行调整,得到相同尺度的特征图为X1、X2、X3和X4,然后经过通道拼接统一特征图为X,
X=Cat([X1,X2,X3,X4])
其中,Cat(·)表示对所有特征图进行通道拼接操作;
S42、不同尺度变换来的特征图Xi通过高效频率通道注意力模块获取不同特征图中不同通道注意力权重Ei,
Ei=EFCA(Xi),i=1,2,3,4
其中,EFCA(·)代表利用高效频率通道注意力模块EFCA,来获取不同特征图不同通道的注意力。Ei为特征Xi的通道注意力权重值;
S43、对整个多尺度通道注意力进行通道拼接,得到新的权重E,
其中,表示通道拼接操作,Ei为每个多尺度通道注意力权重;
S44、采用归一化指数函数Softmax重新自适应分配通道注意力E,从而得到多尺度特征自适应加权的通道注意力权重atti,
其中,Softmax(·)表示Softmax函数,用于获取不同尺度特征图中通道重新标定权重atti;
S45、将通道注意力权重向量atti与不同尺度特征图Xi的通道信息进行自适应加权,通过并行组合输出多尺度特征图Y1,
其中,表示特征加权的乘法运算符号。通道拼接操作能在不破坏原始特征信息的前提下,完整地保持特征信息;
S46、多尺度特征自适应融合模块依次按照F1、F2、F3尺度,重复S41-S45的步骤输出3种尺度特征信息Y1、Y2、Y3。
7.根据权利要求6所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S42具体包括:
S421:EFCA对输入特征图X进行尺寸压缩,经离散余弦变换操作得到一个特征向量s=(s1,s2,…,sc),作为一维卷积操作的输入,其中,s=(s1,s2,…,sc)的计算方式为:
其中,i∈{0,1,…,H-1}和j∈{0,1,…,W-1}表示DCT的分量下标,每一块采用不同的频率分量, 为DCT的基本函数,
S422:通过核为k的一维卷积对通道与其相邻k-1个通道信息进行信息交互,再经过Sigmoid函数得到权重向量E=(E1,E2,…,Ec),
E=σ(C1Dk(s))
其中,σ为Sigmoid函数,卷积核k=5。
8.根据权利要求1所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,步骤S2中,特征提取网络需要在使用前进行训练,训练选取SMD数据集、VAIS数据集以及LSOTB-TIR数据集中包含水上红外场景的图像数据作为数据集,将数据集随机分为训练集、验证集和测试集,所占数据量分别为80%、10%和10%。
9.根据权利要求8所述的基于多尺度特征自适应融合的水上红外目标检测方法,其特征在于,在网络训练前,根据不同的目标检测数据集,自动设定初始锚框的大小,训练参数设置batchsize为16,测试时batchsize为1,epoch为500,初始化学习率为0.01,学习率动量为0.937。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544364.5A CN116824317A (zh) | 2023-05-12 | 2023-05-12 | 一种基于多尺度特征自适应融合的水上红外目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310544364.5A CN116824317A (zh) | 2023-05-12 | 2023-05-12 | 一种基于多尺度特征自适应融合的水上红外目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824317A true CN116824317A (zh) | 2023-09-29 |
Family
ID=88119356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310544364.5A Pending CN116824317A (zh) | 2023-05-12 | 2023-05-12 | 一种基于多尺度特征自适应融合的水上红外目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824317A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828407A (zh) * | 2024-03-04 | 2024-04-05 | 江西师范大学 | 双向跳跃存储的双阶段门控注意力时序分类方法及系统 |
-
2023
- 2023-05-12 CN CN202310544364.5A patent/CN116824317A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828407A (zh) * | 2024-03-04 | 2024-04-05 | 江西师范大学 | 双向跳跃存储的双阶段门控注意力时序分类方法及系统 |
CN117828407B (zh) * | 2024-03-04 | 2024-05-14 | 江西师范大学 | 双向跳跃存储的双阶段门控注意力时序分类方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111126258B (zh) | 图像识别方法及相关装置 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
Nguyen et al. | Satellite image classification using convolutional learning | |
CN112597815A (zh) | 一种基于Group-G0模型的合成孔径雷达图像舰船检测方法 | |
Zhang et al. | CNN cloud detection algorithm based on channel and spatial attention and probabilistic upsampling for remote sensing image | |
CN115147731A (zh) | 一种基于全空间编码注意力模块的sar图像目标检测方法 | |
CN114972107A (zh) | 基于多尺度堆叠式注意力网络的低照度图像增强方法 | |
CN115512206A (zh) | 适用于低照度环境下的改进版YOLOv5目标检测方法 | |
CN114220126A (zh) | 一种目标检测系统及获取方法 | |
CN116824317A (zh) | 一种基于多尺度特征自适应融合的水上红外目标检测方法 | |
CN115830449A (zh) | 显式轮廓引导和空间变化上下文增强的遥感目标检测方法 | |
CN115393690A (zh) | 一种轻量化神经网络的空对地观测多目标识别方法 | |
Shankar et al. | Comparing YOLOV3, YOLOV5 & YOLOV7 Architectures for Underwater Marine Creatures Detection | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN117218545A (zh) | 基于LBP特征与改进Yolov5的雷达图像检测方法 | |
CN115861595B (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN114283082A (zh) | 一种基于注意力机制的红外小目标检测方法 | |
Li | Construction method of swimming pool intelligent assisted drowning detection model based on computer feature pyramid networks | |
Feng et al. | An underwater image enhancement strategy based on pyramid attention mechanism | |
CN111738267B (zh) | 基于线性多步残差学习的视觉感知方法及视觉感知装置 | |
CN113449611B (zh) | 一种基于yolo网络压缩算法的安全帽识别智能监控系统 | |
CN118015477B (zh) | 一种航海雷达图像识别方法、装置、电子设备及存储介质 | |
CN114842012B (zh) | 基于位置意识u型网络的医学图像小目标检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |