CN117372853A - 一种基于图像增强和注意力机制的水下目标检测算法 - Google Patents
一种基于图像增强和注意力机制的水下目标检测算法 Download PDFInfo
- Publication number
- CN117372853A CN117372853A CN202311337753.7A CN202311337753A CN117372853A CN 117372853 A CN117372853 A CN 117372853A CN 202311337753 A CN202311337753 A CN 202311337753A CN 117372853 A CN117372853 A CN 117372853A
- Authority
- CN
- China
- Prior art keywords
- module
- target
- image
- layer
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 230000007246 mechanism Effects 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 22
- 230000003014 reinforcing effect Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 230000002787 reinforcement Effects 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 5
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 4
- 230000002776 aggregation Effects 0.000 abstract description 3
- 238000004220 aggregation Methods 0.000 abstract description 3
- 230000000873 masking effect Effects 0.000 abstract description 2
- 239000002131 composite material Substances 0.000 abstract 1
- 230000004913 activation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 241000258957 Asteroidea Species 0.000 description 1
- 241000257465 Echinoidea Species 0.000 description 1
- 241000251511 Holothuroidea Species 0.000 description 1
- 241000237509 Patinopecten sp. Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 235000020637 scallop Nutrition 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于图像增强与注意力机制的水下目标检测算法,属于图像处理技术领域,用于对水下复杂模糊的目标进行检测,其步骤包括:使用自适应参数的全局直方图拉伸对水下图像进行图像增强;利用YOLOV7骨干网络对其进行特征提取;将上一步得到的输出特征输入到自注意力BSPPCSP模块进行互相关操作;将上一步得到的输出特征输入到基于跨空间注意力机制的FPN特征融合区域,通过目标置信度损失得到目标框内的目标存在分数,通过类别置信度损失得到目标框内存在物体的类别分数,通过坐标回归损失得到预测框与真实框之间的误差分数;最后通过三类损失综合计算得到最终预测结果;普通的目标检测算法无法很好的应对水下环境中色彩模糊、对比度低以及小目标聚集、遮掩、目标尺度变化较大等问题,本发明提出的一种基于YOLOV7的水下目标检测算法,实现了对水下模糊目标的高效检测。
Description
技术领域
本发明提供一种基于图像增强和注意力机制的水下目标检测算法,属于图像处理技术领域。
背景技术
海洋作为大自然的宝库,蕴含着丰富的资源,无论是矿物资源、化学资源还是海洋水产资源都有着极大的开采空间。然而因为水下环境复杂危险,传统的人工水下作业方式存在着危险性高、回报率低等问题。因此使用目标检测算法替代传统的人工作业方式对水下目标进行高效的检测和分析是十分有必要的。
目标检测作为计算机视觉中最基本同样也是最具挑战性的方向之一,一直都是研究的热点领域,目标检测构成了许多其它视觉任务的基础,在目标跟踪、机器人、医学图像分析、自动驾驶等领域都有重要应用。近些年来,随着计算机硬件性能的提升和卷积算法在图像中的应用,基于深度学习的目标检测算法逐渐代替传统检测算法,精度和速度都得到了极大提升。基于深度学习的目标检测依据检测方式被分为两类:“两阶段检测”和“单阶段检测”,前者是一个“从粗到细”的过程;而后者端到端“一步完成”。通常,两阶段检测的定位和目标识别精度较高;单阶段检测速度较快,典型代表有YOLO(You Only Look Once)等。YOLO将目标检测概括为一个回归问题,实现端到端的训练和检测,由于其良好的速度-精度平衡,近几年一直处于目标检测领域的领先地位,被成功地研究、改进和应用到众多不同领域。
与普通的图像检测任务相比,由于水下透明度低,水中微小无机物和有机物的颗粒含量高,这些颗粒对光的散射作用导致水下图像通常会出现模糊、尺度变化、颜色偏移等色彩问题以及小目标聚集、小目标遮掩、目标尺度变化较大等问题。这给目标检测等计算机视觉任务带来了很大的挑战。
发明内容
本发明的目的在于提供一种基于图像增强和多种注意力机制的水下目标检测算法,以解决水下目标检测中的诸多问题。首先,为了解决水下图像的模糊问题,本发明使用自适应参数的全局直方图拉伸进行图像增强;其次,针对水下小目标聚集以及目标尺度变化大的问题,本发明将P2层引入FPN特征融合区域,以提高特征分辨率与对应感受野;将EMA(Efficient Multi-Scale Attention)模块引入FPN特征融合区域,实现多尺度跨通道学习空间和通道信息,以提升特征提取能力;引入一种动态稀疏自注意力机制Bi-LevelRouting Attention,用较小的成本捕获长距离依赖,以提升小目标检测能力。
一种基于图像增强和多注意力机制的水下目标检测算法,包括:
S1.使用自适应数参数的全局直方图拉伸对水下图像进行增强,提高图像对比度、校正色彩;
S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取;
S3.将S2得到的特征输入基于自注意力机制的BSPPCSP模块,此模块通过收集前K个相关窗口中的键值对,并利用稀疏性操作跳过最不相关区域的计算来节省参数量和计算量,捕获长距离依赖,更好的理解上下文语义信息并扩大感受野;
S4.将S3融合后的特征输入到添加EMA注意力机制以及融合P2层的FPN特征融合区域,获得四个加强特征;
S5.将S4加强特征输入到基于Anchor-base的检测头网络中,得到目标框内的目标存在分数、物体的类别分数、预测框与真实框之间的误差分数,最终得到目标位置。
优选地,S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括:
S1.1.对图像的R-G-B三通道进行全局直方图拉伸来矫正对比度,即:
其中pi和po分别为拉伸前后的像素强度值,a,b和c,d分别表示输入图像和目标输出图像的最小和最大强度。在全局直方图拉伸中,c和d是常数,通常分别设置为255和0;
S1.2.将R-G-B图像转换为CIE-Lab图像,并对L通道进行自适应参数的全局直方图拉伸即:
其中pin和pout分别代表为拉伸前后的像素值,Imax、Imin、Omax、Omin分别为拉伸前后图像的自适应参数。
对a,b通道进行自适应色彩校正即:
其中Ix和px分别代表校正前后的像素值,x∈(a,b)代表通道a或通道b,是最优实验值,设定为1.3。
优选地,S2所述神经网络为YOLOV7的骨干网络,由若干CBS模块、ELAN模块以及MP-1模块组成,将增强过的图像输入到骨干网络中进行特征提取:经过3×3下采样卷积进行两次两倍下采样,输入ELAN模块得到C2层,随后依次经过stage1、stage2、stage3分别到的C3、C4、C5层,每个stage包含一个MP-1模块和ELAN模块,每次下采样两倍,最终输入特征图像下采样32倍。
优选地,S3所述的自注意力模块BSPPCSP具体构建过程为:
S3.1.对输入特征X∈RC×H×W使用1×1卷积将通道分割为将F1进行多个尺度的最大池化以增加特征感受野,随后将各尺度输出进行concat操作,再次经过1×1卷积通道降维后与F2concat得到结果;
S3.2.将输入特征X∈RC×H×W的图像划分为s×s个非重叠区域对每个区域通过线性映射得到query、key、value,并对query和key求均值得到query_r和key_r;
S3.3.query_r和转置后的key_r进行转置矩阵乘法得到区域间相似度邻接矩阵A_r,使用topK算子保留关系最密切的前K个区域,得到区域路由索引矩阵I_r;
S3.4.将I_r输入细粒度的Token-to-token attention,汇集以I_r中的所有元素为索引的路由区域,并收集它们的所有Key和Value得到Key_g和Value_g,再将Key_g和Value_g应用于注意力,将注意力与输入特征X相乘得到最终输出结果。
优选地,S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程:
C5层经由BSPPCSP模块得到P5层,P5层经过上采样模块与C4层concat得到P4层,P4层重复上述操作依次得到P3层、P2层,完成自上而下的特征融合过程,P2层作为下采样四倍的加强特征输出给检测头;
随后P2层经过MP-2下采样模块与P3层concat输入ELAN模块得到大小为80×80的加强特征;80×80的加强特征经过MP-2模块与P4层concat输入ELAN模块得到大小为40×40的加强特征;40×40的加强特征经过MP-2模块与P5层concat输入ELAN模块得到大小为20×20的加强特征;最终将这些加强特征分别输入检测头中;
添加注意力模块:在FPN特征融合层中每个ELAN模块中都加入EMA注意力模块,以增强ELAN模块的特征提取能力。
优选地,EMA注意力机制的具体构建过程为:
S4.1.将输入特征X∈RC×H×W按通道数划分G个子特征(G<<C)以学习不同语义,每个子特征 子特征Xi输入三条并行支路,其中包含两条1×1支路、一条3×3支路;
S4.2.在1×1支路中,分别沿两个空间方向(H和W)使用1D全局池化操作对通道进行编码得到 将X1、X2两个编码特征按照图像高度进行拼接得到然后使用1×1卷积分解为两个向量,再使用两个非线性Sigmoid函数进行归一化处理。最后将两个归一化处理结果进行Re-weight操作得到/>
S4.3.在3×3支路中,通过3×3卷积捕获局部空间信息,扩大特征空间。此过程不仅对通道信息进行编码以得到不同通道的重要性,而且将精确地空间结构信息保存到通道中;
S4.4.将1×1支路的输出X1和3×3支路的输出X3进行跨空间学习:
利用2D全局平均池化对X1进行全局空间信息编码,再经过softmax归一化处理,得到并将X1与X3进行矩阵相乘/>进行跨空间学习;
相似的,同样利用2D全局平均池化对3×3支路的输出X3进行编码和softmax归一化处理,并将结果与X1通过矩阵相乘实现跨空间学习。
优选地,置信度损失表示边界框中是否包含目标,使用二分类的交叉熵损失函数;类别损失衡量预测类别与真实类别之间的差异,使用二分类的交叉熵损失函数;边界框回归损失衡量预测边界框与真实框之间的差异,在本发明中使用CIOULoss与NWDLoss的加权损失,整个网络的最终损失L表示为:
L=Lcls+Lbox+Lobj
其中Lcls和Lobj代表类别损失函数和目标置信度损失函数,具体为BCELoss;Lbox代表目标框坐标的回归损失函数,具体为CIOULoss和NWDLoss的加权损失。
附图说明
图1为本发明的技术流程图
图2为本发明的神经网络整体框图
图3为本发明的EMA注意力机制原理图
图4为本发明的自注意力机制原理图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于图像增强和多注意力机制的水下目标检测算法,包括:
S1.使用自适应数参数的全局直方图拉伸对水下图像进行增强,提高图像对比度、校正色彩;
S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取;
S3.将S2得到的特征输入基于自注意力机制的BSPPCSP模块,此模块通过收集前K个相关窗口中的键值对,并利用稀疏性操作跳过最不相关区域的计算来节省参数量和计算量,捕获长距离依赖,更好的理解上下文语义信息并扩大感受野;
S4.将S3融合后的特征输入到添加EMA注意力机制以及融合P2层的FPN特征融合区域,获得四个加强特征;
S5.将S4加强特征输入到基于Anchor-base的检测头网络中,得到目标框内的目标存在分数、物体的类别分数、预测框与真实框之间的误差分数,最终得到目标位置。
S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括:
S1.1.对图像的R-G-B三通道进行全局直方图拉伸来矫正对比度,即:
其中pi和po分别为拉伸前后的像素强度值,a,b和c,d分别表示输入图像和目标输出图像的最小和最大强度。在全局直方图拉伸中,c和d是常数,通常分别设置为255和0;
S1.2.将R-G-B图像转换为CIE-Lab图像,并对L通道进行自适应参数的全局直方图拉伸即:
其中pin和pout分别代表为拉伸前后的像素值,Imax、Imin、Omax、Omin分别为拉伸前后图像的自适应参数。
对a,b通道进行自适应色彩校正即:
其中Ix和px分别代表校正前后的像素值,x∈(a,b)代表通道a或通道b,是最优实验值,设定为1.3。
优选地,S2所述神经网络为YOLOV7的骨干网络,由若干CBS模块、ELAN模块以及MP-1模块组成,将增强过的图像输入到骨干网络中进行特征提取:经过3×3下采样卷积进行两次两倍下采样,输入ELAN模块得到C2层,随后依次经过stage1、stage2、stage3分别到的C3、C4、C5层,每个stage包含一个MP-1模块和ELAN模块,每次下采样两倍,最终输入特征图像下采样32倍。
S3所述的自注意力模块BSPPCSP具体构建过程为:
S3.1.对输入特征X∈RC×H×W使用1×1卷积将通道分割为将F1进行多个尺度的最大池化以增加特征感受野,随后将各尺度输出进行concat操作,再次经过1×1卷积通道降维后与H2concat得到结果;
S3.2.将输入特征X∈RC×H×W的图像划分为s×s个非重叠区域对每个区域通过线性映射得到query、key、value,并对query和key求均值得到query_r和key_r;
S3.3.query_r和转置后的key_r进行转置矩阵乘法得到区域间相似度邻接矩阵A_r,使用topK算子保留关系最密切的前K个区域,得到区域路由索引矩阵I_r;
S3.4.将I_r输入细粒度的Token-to-token attention,汇集以I_r中的所有元素为索引的路由区域,并收集它们的所有Key和Value得到Key_g和Value_g,再将Key_g和Value_g应用于注意力,将注意力与输入特征X相乘得到最终输出结果。
S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程:
C5层经由BSPPCSP模块得到P5层,P5层经过上采样模块与C4层concat得到P4层,P4层重复上述操作依次得到P3层、P2层,完成自上而下的特征融合过程,P2层作为下采样四倍的加强特征输出给检测头;
随后P2层经过MP-2下采样模块与P3层concat输入ELAN模块得到大小为80×80的加强特征;80×80的加强特征经过MP-2模块与P4层concat输入ELAN模块得到大小为40×40的加强特征;40×40的加强特征经过MP-2模块与P5层concat输入ELAN模块得到大小为20×20的加强特征;最终将这些加强特征分别输入检测头中;
添加注意力模块:在FPN特征融合层中每个ELAN模块中都加入EMA注意力模块,以增强ELAN模块的特征提取能力。
EMA注意力机制的具体构建过程为:
S4.1.将输入特征X∈RC×H×W按通道数划分G个子特征(G<<C)以学习不同语义,每个子特征 子特征Xi输入三条并行支路,其中包含两条1×1支路、一条3×3支路;
S4.2.在1×1支路中,分别沿两个空间方向(H和W)使用1D全局池化操作对通道进行编码得到 将X1、X2两个编码特征按照图像高度进行拼接得到然后使用1×1卷积分解为两个向量,再使用两个非线性Sigmoid函数进行归一化处理。最后将两个归一化处理结果进行Re-weight操作得到/>
S4.3.在3×3支路中,通过3×3卷积捕获局部空间信息,扩大特征空间。此过程不仅对通道信息进行编码以得到不同通道的重要性,而且将精确地空间结构信息保存到通道中;
S4.4.将1×1支路的输出X1和3×3支路的输出X3进行跨空间学习:
利用2D全局平均池化对X1进行全局空间信息编码,再经过softmax归一化处理,得到并将X1与X3进行矩阵相乘/>进行跨空间学习;
相似的,同样利用2D全局平均池化对3×3支路的输出X3进行编码和softmax归一化处理,并将结果与X1通过矩阵相乘实现跨空间学习。
置信度损失表示边界框中是否包含目标,使用二分类的交叉熵损失函数;类别损失衡量预测类别与真实类别之间的差异,使用二分类的交叉熵损失函数;边界框回归损失衡量预测边界框与真实框之间的差异,在本发明中使用CIOULoss与NWDLoss的加权损失,整个网络的最终损失L表示为:
L=Lcls+Lbox+Lobj
其中Lcls和Lobj代表类别损失函数和目标置信度损失函数,具体为BCELoss;Lbox代表目标框坐标的回归损失函数,具体为CIOULoss和NWDLoss的加权损失。
现将本发明中部分英文含义进行解释,YOLO:You Only Look Once,一种单阶段目标检测算法;FPN:Feature Pyramid Network,一种用于特征融合的深度学习网络结构;Bi-Level Routing Attention:一种动态稀疏的自注意力机制;BSPPCSP:将Bi-Level RoutingAttention融入SPPCSP模块的新模块;EMA:Efficient Multi-Scale Attention,一种跨空间学习的多尺度注意力机制;Anchor-base:一种目标检测正负样本匹配策略;R-G-B:一种对应红、绿、蓝三种基本色的色彩空间;CIE-Lab:一种对应L、a、b的色彩空间,L代表亮度,a代表红色到绿色的分量,b代表黄色到蓝色之间的分量;CBS:C代表CONV(卷积),B代表BatchNormalization(归一化),S代表Silu(激活函数);ELAN:一种有多条并行支路的特征提取模块;MP-1:一种下采样卷积和全局池化并行的下采样模块;concat:张量拼接;Sigmoid:一种激活函数;Softmax:一种激活函数。
本发明的技术流程如图1所示,构建模型的整体网络,整体网络由图像增强模块、特征提取网络、自注意力机制模块、特征融合网络和检测头网络组成。其中图像增强模块使用自适应全局直方图拉伸对输入网络前的图像进行增强;特征提取网络对增强过后的图像进行特征提取;自注意力机制模块用于计算像素之间的相似度,捕获长距离依赖;检测头网络由分类和回归分支组成,用于对目标进行分类和定位,本发明的目标检测网络结构如图2所示。
EMA注意力机制是一种高效的跨空间多尺度注意力机制,如图3所示,数据流程表示为:
x1,x2,…,xG-1=Group(X)
y1=X_A(xn)
y2=Y_A(xn)
y3=S(σ(concat(y1,y2))
y4=S(σ(concat(y1,y2))
y5=Re(y3,y4)
y6=σ(xn)
y7=M(S(A(GN(y5))),y6)
y8=M(S(A(y6)),y5)
y9=Re(S(y7,y8))
式中:X代表特征输入,Group(X)代表特征分组操作,A(·)表示AveragePool操作,σ(·)表示卷积运算,S(·)表示Sigmoid激活函数,X_,Y_代表不同的维度处理,Re(·)代表Re-weight,GN(·)代表GroupNorm,M(·)代表矩阵相乘Matmul,y9代表特征输出。
Bi-Level Routing Attention是一种动态的、查询感知的稀疏注意力机制,其核心思想是在划分的区域中过滤掉大部分不相关的键值对,从而只保留一小部分路由区域以实现更灵活的计算分配和内容感知。如图4所示,数据流程表示为:
x=patch(X)
q,k,v=linear(x)
qm=q.mean,km=k.mean
Ir=topKIndex(Ar,K)
kg=gather(k,Ir),vg=gather(v,Ir)
O=Attention(q,kg,vg)+LCE(v)
式中patch(·)表示区域划分操作,linear(·)表示线性映射,.mean表示均值操作,M(·)代表矩阵相乘Matmul,topKIndex(·)表示topK算子。
本发明使用三个常用指标,即mAP@0.5、mAP0.5:0.95以及参数量Parms,对算法进行评估。mAP@0.5即mean average precision(Iou=0.5),即将Iou设为0.5时,计算每一个类别下所有图片的平均AP。mAP0.5:0.95则表示在不同Iou阈值(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP。在DUO数据集上进行试验测试,并与当前比较先进的同类检测器进行对比。
Detecting Underwater Objects(DUO)数据集是一个大规模有标注的水下图像数据集,该数据集是对URPC2017、URPC2018、URPC2019、URPC2020、UDD五个数据集进行收集和重新标注的一个更加合理的水下数据集,包含了7,782张删除过相似图像后的水下图像,对四类(海参、海胆、扇贝、海星)有较准确地标注。
本发明在使用图像增强对数据集进行处理之后发现数据中存在未标注目标,认为这会对训练以及测试造成影响,因此对DUO数据集进行了进一步的修注。修注后的数据集训练集groundtruth由63954至72682增加13%,测试集gorundtruth由10516至13736至增加25%。
将本发明的目标检测模型与Yolov5_l、Yolov5_l、YoloX_l、Yolov7四种目标检测模型在DUO数据集上进行测试评估,最终结果如表1所示。
表1
从表1中可以看出本发明在整体性能上都取得了不错的效果。
以上实施例仅用于说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (7)
1.一种基于图像增强和多注意力机制的水下目标检测算法,其特征在于,包括:
S1.使用自适应数参数的全局直方图拉伸对水下图像进行增强,提高图像对比度、校正色彩;
S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取;
S3.将S2得到的特征输入基于自注意力机制的BSPPCSP模块,此模块通过收集前K个相关窗口中的键值对,并利用稀疏性操作跳过最不相关区域的计算来节省参数量和计算量,捕获长距离依赖,更好的理解上下文语义信息并扩大感受野;
S4.将S3融合后的特征输入到添加EMA注意力机制以及融合P2层的FPN特征融合区域,获得四个加强特征;
S5.将S4加强特征输入到基于Anchor-base的检测头网络中,得到目标框内的目标存在分数、物体的类别分数、预测框与真实框之间的误差分数,最终得到目标位置。
2.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法,其特征在于,S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括:
S1.1.对图像的R-G-B三通道进行全局直方图拉伸来矫正对比度,即:
其中pi和po分别为拉伸前后的像素强度值,a,b和c,d分别表示输入图像和目标输出图像的最小和最大强度。在全局直方图拉伸中,c和d是常数,通常分别设置为255和0;
S1.2.将R-G-B图像转换为CIE-Lab图像,并对L通道进行自适应参数的全局直方图拉伸即:
其中pin和pout分别代表为拉伸前后的像素值,Imax、Imin、Omax、Omin分别为拉伸前后图像的自适应参数。
对a,b通道进行自适应色彩校正即:
其中Ix和px分别代表校正前后的像素值,x∈(a,b)代表通道a或通道b,是最优实验值,设定为1.3。
3.根据权利要求1所述的一种基于图像增强和多住注意力机制的水下目标检测算法,其特征在于,S2所述神经网络为YOLOV7的骨干网络,由若干CBS模块、ELAN模块以及MP-1模块组成,将增强过的图像输入到骨干网络中进行特征提取:经过3×3下采样卷积进行两次两倍下采样,输入ELAN模块得到C2层,随后依次经过stage1、stage2、stage3分别到的C3、C4、C5层,每个stage包含一个MP-1模块和ELAN模块,每次下采样两倍,最终输入特征图像下采样32倍。
4.根据权利要求1所述的一种基于图像增强和多住注意力机制的水下目标检测算法,其特征在于,S3所述的自注意力模块BSPPCSP具体构建过程为:
S3.1.对输入特征X∈RC×H×W使用1×1卷积将通道分割为将F1进行多个尺度的最大池化以增加特征感受野,随后将各尺度输出进行concat操作,再次经过1×1卷积通道降维后与F2concat得到结果;
S3.2.将输入特征X∈RC×H×W的图像划分为s×s个非重叠区域对每个区域通过线性映射得到query、key、value,并对query和key求均值得到query_r和key_r;
S3.3.query_r和转置后的key_r进行矩阵乘法得到区域间相似度邻接矩阵A_r,使用topK算子保留关系最密切的前K个区域,得到区域路由索引矩阵I_r;
S3.4.将I_r输入细粒度的Token-to-token attention,汇集以I_r中的所有元素为索引的路由区域,并收集它们的所有Key和Value得到Key_g和Value_g,再将Key_g和Value_g应用于注意力,将注意力与输入特征X相乘得到最终输出结果。
5.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法,其特征在于,S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程:
C5层经由BSPPCSP模块得到P5层,P5层经过上采样模块与C4层concat得到P4层,P4层重复上述操作依次得到P3层、P2层,完成自上而下的特征融合过程,P2层作为下采样四倍的加强特征输出给检测头;
随后P2层经过MP-2下采样模块与P3层concat输入ELAN模块得到大小为80×80的加强特征;80×80的加强特征经过MP-2模块与P4层concat输入ELAN模块得到大小为40×40的加强特征;40×40的加强特征经过MP-2模块与P5层concat输入ELAN模块得到大小为20×20的加强特征;最终将这些加强特征分别输入检测头中;
添加注意力模块:在FPN特征融合层中每个ELAN模块中都加入EMA注意力模块,以增强ELAN模块的特征提取能力。
6.根据权利要求5所述的一种基于图像增强和多住注意力机制的水下目标检测算法,其特征在于,EMA注意力机制的具体构建过程为:
S4.1.将输入特征X∈RC×H×W按通道数划分G个子特征(G<<C)以学习不同语义,每个子特征 子特征Xi输入三条并行支路,其中包含两条1×1支路、一条3×3支路;
S4.2.在1×1支路中,分别沿两个空间方向(H和W)使用1D全局池化操作对通道进行编码得到 将X1、X2两个编码特征按照图像高度进行拼接得到然后使用1×1卷积分解为两个向量,再使用两个非线性Sigmoid函数进行归一化处理。最后将两个归一化处理结果进行Re-weight操作得到/>
S4.3.在3×3支路中,通过3×3卷积捕获局部空间信息,扩大特征空间。此过程不仅对通道信息进行编码以得到不同通道的重要性,而且将精确地空间结构信息保存到通道中;
S4.4.将1×1支路的输出X1和3×3支路的输出X3进行跨空间学习:
利用2D全局平均池化对X1进行全局空间信息编码,再经过softmax归一化处理,得到并将X1与X3进行矩阵相乘/>进行跨空间学习;
相似的,同样利用2D全局平均池化对3×3支路的输出X3进行编码和softmax归一化处理,并将结果与X1通过矩阵相乘实现跨空间学习。
7.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法,其特征在于,置信度损失表示边界框中是否包含目标,使用二分类的交叉熵损失函数;类别损失衡量预测类别与真实类别之间的差异,使用二分类的交叉熵损失函数;边界框回归损失衡量预测边界框与真实框之间的差异,在本发明中使用CIOULoss与NWDLoss的加权损失,整个网络的最终损失L表示为:
L=Lcls+Lbox+Lobj
其中Lcls和Lobj代表类别损失函数和目标置信度损失函数,具体为BCELoss;Lbox代表目标框坐标的回归损失函数,具体为CIOULoss和NWDLoss的加权损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311337753.7A CN117372853A (zh) | 2023-10-16 | 2023-10-16 | 一种基于图像增强和注意力机制的水下目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311337753.7A CN117372853A (zh) | 2023-10-16 | 2023-10-16 | 一种基于图像增强和注意力机制的水下目标检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372853A true CN117372853A (zh) | 2024-01-09 |
Family
ID=89407185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311337753.7A Pending CN117372853A (zh) | 2023-10-16 | 2023-10-16 | 一种基于图像增强和注意力机制的水下目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372853A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542045A (zh) * | 2024-01-10 | 2024-02-09 | 济南大学 | 一种基于空间引导自注意力的食品识别方法及系统 |
-
2023
- 2023-10-16 CN CN202311337753.7A patent/CN117372853A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117542045A (zh) * | 2024-01-10 | 2024-02-09 | 济南大学 | 一种基于空间引导自注意力的食品识别方法及系统 |
CN117542045B (zh) * | 2024-01-10 | 2024-05-10 | 山东记食信息科技有限公司 | 一种基于空间引导自注意力的食品识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
CN111950649B (zh) | 基于注意力机制与胶囊网络的低照度图像分类方法 | |
Qian et al. | Sequence-dropout block for reducing overfitting problem in image classification | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN115631369A (zh) | 一种基于卷积神经网络的细粒度图像分类方法 | |
CN113159067A (zh) | 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置 | |
CN114255403A (zh) | 基于深度学习的光学遥感图像数据处理方法及系统 | |
CN108416795B (zh) | 基于排序池化融合空间特征的视频动作识别方法 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN117372853A (zh) | 一种基于图像增强和注意力机制的水下目标检测算法 | |
Zhao et al. | Research on detection method for the leakage of underwater pipeline by YOLOv3 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN112686242A (zh) | 一种基于多层聚焦注意力网络的细粒度图像分类方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN113743521B (zh) | 一种基于多尺度上下文感知的目标检测方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN116863293A (zh) | 一种基于改进YOLOv7算法的可见光下海上目标检测方法 | |
CN117115616A (zh) | 一种基于卷积神经网络的实时低照度图像目标检测方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及系统 | |
Suvetha et al. | Automatic Traffic Sign Detection System With Voice Assistant | |
CN111008986A (zh) | 一种基于多任务半卷积的遥感图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |