CN117372853A

CN117372853A - 一种基于图像增强和注意力机制的水下目标检测算法

Info

Publication number: CN117372853A
Application number: CN202311337753.7A
Authority: CN
Inventors: 齐玉娟; 孙家浩; 郭宇轩; 王延江
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-09

Abstract

本发明提供了一种基于图像增强与注意力机制的水下目标检测算法，属于图像处理技术领域，用于对水下复杂模糊的目标进行检测，其步骤包括：使用自适应参数的全局直方图拉伸对水下图像进行图像增强；利用YOLOV7骨干网络对其进行特征提取；将上一步得到的输出特征输入到自注意力BSPPCSP模块进行互相关操作；将上一步得到的输出特征输入到基于跨空间注意力机制的FPN特征融合区域，通过目标置信度损失得到目标框内的目标存在分数，通过类别置信度损失得到目标框内存在物体的类别分数，通过坐标回归损失得到预测框与真实框之间的误差分数；最后通过三类损失综合计算得到最终预测结果；普通的目标检测算法无法很好的应对水下环境中色彩模糊、对比度低以及小目标聚集、遮掩、目标尺度变化较大等问题，本发明提出的一种基于YOLOV7的水下目标检测算法，实现了对水下模糊目标的高效检测。

Description

一种基于图像增强和注意力机制的水下目标检测算法

技术领域

本发明提供一种基于图像增强和注意力机制的水下目标检测算法，属于图像处理技术领域。

背景技术

海洋作为大自然的宝库，蕴含着丰富的资源，无论是矿物资源、化学资源还是海洋水产资源都有着极大的开采空间。然而因为水下环境复杂危险，传统的人工水下作业方式存在着危险性高、回报率低等问题。因此使用目标检测算法替代传统的人工作业方式对水下目标进行高效的检测和分析是十分有必要的。

目标检测作为计算机视觉中最基本同样也是最具挑战性的方向之一，一直都是研究的热点领域，目标检测构成了许多其它视觉任务的基础，在目标跟踪、机器人、医学图像分析、自动驾驶等领域都有重要应用。近些年来，随着计算机硬件性能的提升和卷积算法在图像中的应用，基于深度学习的目标检测算法逐渐代替传统检测算法，精度和速度都得到了极大提升。基于深度学习的目标检测依据检测方式被分为两类：“两阶段检测”和“单阶段检测”，前者是一个“从粗到细”的过程；而后者端到端“一步完成”。通常，两阶段检测的定位和目标识别精度较高；单阶段检测速度较快，典型代表有YOLO(You Only Look Once)等。YOLO将目标检测概括为一个回归问题，实现端到端的训练和检测，由于其良好的速度-精度平衡，近几年一直处于目标检测领域的领先地位，被成功地研究、改进和应用到众多不同领域。

与普通的图像检测任务相比，由于水下透明度低，水中微小无机物和有机物的颗粒含量高，这些颗粒对光的散射作用导致水下图像通常会出现模糊、尺度变化、颜色偏移等色彩问题以及小目标聚集、小目标遮掩、目标尺度变化较大等问题。这给目标检测等计算机视觉任务带来了很大的挑战。

发明内容

本发明的目的在于提供一种基于图像增强和多种注意力机制的水下目标检测算法，以解决水下目标检测中的诸多问题。首先，为了解决水下图像的模糊问题，本发明使用自适应参数的全局直方图拉伸进行图像增强；其次，针对水下小目标聚集以及目标尺度变化大的问题，本发明将P2层引入FPN特征融合区域，以提高特征分辨率与对应感受野；将EMA(Efficient Multi-Scale Attention)模块引入FPN特征融合区域，实现多尺度跨通道学习空间和通道信息，以提升特征提取能力；引入一种动态稀疏自注意力机制Bi-LevelRouting Attention，用较小的成本捕获长距离依赖，以提升小目标检测能力。

一种基于图像增强和多注意力机制的水下目标检测算法，包括：

S1.使用自适应数参数的全局直方图拉伸对水下图像进行增强，提高图像对比度、校正色彩；

S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取；

S3.将S2得到的特征输入基于自注意力机制的BSPPCSP模块，此模块通过收集前K个相关窗口中的键值对，并利用稀疏性操作跳过最不相关区域的计算来节省参数量和计算量，捕获长距离依赖，更好的理解上下文语义信息并扩大感受野；

S4.将S3融合后的特征输入到添加EMA注意力机制以及融合P2层的FPN特征融合区域，获得四个加强特征；

S5.将S4加强特征输入到基于Anchor-base的检测头网络中，得到目标框内的目标存在分数、物体的类别分数、预测框与真实框之间的误差分数，最终得到目标位置。

优选地，S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括：

S1.1.对图像的R-G-B三通道进行全局直方图拉伸来矫正对比度，即：

其中p_i和p_o分别为拉伸前后的像素强度值，a,b和c,d分别表示输入图像和目标输出图像的最小和最大强度。在全局直方图拉伸中，c和d是常数，通常分别设置为255和0；

S1.2.将R-G-B图像转换为CIE-Lab图像，并对L通道进行自适应参数的全局直方图拉伸即：

其中p_in和p_out分别代表为拉伸前后的像素值，I_max、I_min、O_max、O_min分别为拉伸前后图像的自适应参数。

对a,b通道进行自适应色彩校正即：

其中I_x和p_x分别代表校正前后的像素值，x∈(a,b)代表通道a或通道b，是最优实验值，设定为1.3。

优选地，S2所述神经网络为YOLOV7的骨干网络，由若干CBS模块、ELAN模块以及MP-1模块组成，将增强过的图像输入到骨干网络中进行特征提取：经过3×3下采样卷积进行两次两倍下采样，输入ELAN模块得到C2层，随后依次经过stage1、stage2、stage3分别到的C3、C4、C5层，每个stage包含一个MP-1模块和ELAN模块，每次下采样两倍，最终输入特征图像下采样32倍。

优选地，S3所述的自注意力模块BSPPCSP具体构建过程为：

S3.1.对输入特征X∈R^C×H×W使用1×1卷积将通道分割为将F1进行多个尺度的最大池化以增加特征感受野，随后将各尺度输出进行concat操作，再次经过1×1卷积通道降维后与F₂concat得到结果；

S3.2.将输入特征X∈R^C×H×W的图像划分为s×s个非重叠区域对每个区域通过线性映射得到query、key、value，并对query和key求均值得到query_r和key_r；

S3.3.query_r和转置后的key_r进行转置矩阵乘法得到区域间相似度邻接矩阵A_r，使用topK算子保留关系最密切的前K个区域，得到区域路由索引矩阵I_r；

S3.4.将I_r输入细粒度的Token-to-token attention，汇集以I_r中的所有元素为索引的路由区域，并收集它们的所有Key和Value得到Key_g和Value_g，再将Key_g和Value_g应用于注意力，将注意力与输入特征X相乘得到最终输出结果。

优选地，S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程：

C5层经由BSPPCSP模块得到P5层，P5层经过上采样模块与C4层concat得到P4层，P4层重复上述操作依次得到P3层、P2层，完成自上而下的特征融合过程，P2层作为下采样四倍的加强特征输出给检测头；

随后P2层经过MP-2下采样模块与P3层concat输入ELAN模块得到大小为80×80的加强特征；80×80的加强特征经过MP-2模块与P4层concat输入ELAN模块得到大小为40×40的加强特征；40×40的加强特征经过MP-2模块与P5层concat输入ELAN模块得到大小为20×20的加强特征；最终将这些加强特征分别输入检测头中；

添加注意力模块：在FPN特征融合层中每个ELAN模块中都加入EMA注意力模块，以增强ELAN模块的特征提取能力。

优选地，EMA注意力机制的具体构建过程为：

S4.1.将输入特征X∈R^C×H×W按通道数划分G个子特征(G<<C)以学习不同语义，每个子特征子特征X_i输入三条并行支路，其中包含两条1×1支路、一条3×3支路；

S4.2.在1×1支路中，分别沿两个空间方向(H和W)使用1D全局池化操作对通道进行编码得到将X₁、X₂两个编码特征按照图像高度进行拼接得到然后使用1×1卷积分解为两个向量，再使用两个非线性Sigmoid函数进行归一化处理。最后将两个归一化处理结果进行Re-weight操作得到/>

S4.3.在3×3支路中，通过3×3卷积捕获局部空间信息，扩大特征空间。此过程不仅对通道信息进行编码以得到不同通道的重要性，而且将精确地空间结构信息保存到通道中；

S4.4.将1×1支路的输出X¹和3×3支路的输出X³进行跨空间学习：

利用2D全局平均池化对X¹进行全局空间信息编码，再经过softmax归一化处理，得到并将X¹与X³进行矩阵相乘/>进行跨空间学习；

相似的，同样利用2D全局平均池化对3×3支路的输出X³进行编码和softmax归一化处理，并将结果与X¹通过矩阵相乘实现跨空间学习。

优选地，置信度损失表示边界框中是否包含目标，使用二分类的交叉熵损失函数；类别损失衡量预测类别与真实类别之间的差异，使用二分类的交叉熵损失函数；边界框回归损失衡量预测边界框与真实框之间的差异，在本发明中使用CIOULoss与NWDLoss的加权损失，整个网络的最终损失L表示为：

L＝L_cls+L_box+L_obj

其中L_cls和L_obj代表类别损失函数和目标置信度损失函数，具体为BCELoss；L_box代表目标框坐标的回归损失函数，具体为CIOULoss和NWDLoss的加权损失。

附图说明

图1为本发明的技术流程图

图2为本发明的神经网络整体框图

图3为本发明的EMA注意力机制原理图

图4为本发明的自注意力机制原理图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取；

S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括：

对a,b通道进行自适应色彩校正即：

S3所述的自注意力模块BSPPCSP具体构建过程为：

S3.1.对输入特征X∈R^C×H×W使用1×1卷积将通道分割为将F1进行多个尺度的最大池化以增加特征感受野，随后将各尺度输出进行concat操作，再次经过1×1卷积通道降维后与H₂concat得到结果；

S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程：

EMA注意力机制的具体构建过程为：

S4.4.将1×1支路的输出X¹和3×3支路的输出X³进行跨空间学习：

置信度损失表示边界框中是否包含目标，使用二分类的交叉熵损失函数；类别损失衡量预测类别与真实类别之间的差异，使用二分类的交叉熵损失函数；边界框回归损失衡量预测边界框与真实框之间的差异，在本发明中使用CIOULoss与NWDLoss的加权损失，整个网络的最终损失L表示为：

L＝L_cls+L_box+L_obj

现将本发明中部分英文含义进行解释，YOLO：You Only Look Once，一种单阶段目标检测算法；FPN：Feature Pyramid Network，一种用于特征融合的深度学习网络结构；Bi-Level Routing Attention：一种动态稀疏的自注意力机制；BSPPCSP：将Bi-Level RoutingAttention融入SPPCSP模块的新模块；EMA：Efficient Multi-Scale Attention，一种跨空间学习的多尺度注意力机制；Anchor-base：一种目标检测正负样本匹配策略；R-G-B：一种对应红、绿、蓝三种基本色的色彩空间；CIE-Lab：一种对应L、a、b的色彩空间，L代表亮度，a代表红色到绿色的分量，b代表黄色到蓝色之间的分量；CBS：C代表CONV(卷积)，B代表BatchNormalization(归一化)，S代表Silu(激活函数)；ELAN：一种有多条并行支路的特征提取模块；MP-1：一种下采样卷积和全局池化并行的下采样模块；concat：张量拼接；Sigmoid：一种激活函数；Softmax：一种激活函数。

本发明的技术流程如图1所示，构建模型的整体网络，整体网络由图像增强模块、特征提取网络、自注意力机制模块、特征融合网络和检测头网络组成。其中图像增强模块使用自适应全局直方图拉伸对输入网络前的图像进行增强；特征提取网络对增强过后的图像进行特征提取；自注意力机制模块用于计算像素之间的相似度，捕获长距离依赖；检测头网络由分类和回归分支组成，用于对目标进行分类和定位，本发明的目标检测网络结构如图2所示。

EMA注意力机制是一种高效的跨空间多尺度注意力机制，如图3所示，数据流程表示为：

x₁,x₂,…,x_G-1＝Group(X)

y₁＝X_A(x_n)

y₂＝Y_A(x_n)

y₃＝S(σ(concat(y₁,y₂))

y₄＝S(σ(concat(y₁,y₂))

y₅＝Re(y₃,y₄)

y₆＝σ(x_n)

y₇＝M(S(A(GN(y₅))),y₆)

y₈＝M(S(A(y₆)),y₅)

y₉＝Re(S(y₇,y₈))

式中：X代表特征输入，Group(X)代表特征分组操作，A(·)表示AveragePool操作，σ(·)表示卷积运算，S(·)表示Sigmoid激活函数,X_,Y_代表不同的维度处理，Re(·)代表Re-weight，GN(·)代表GroupNorm，M(·)代表矩阵相乘Matmul，y₉代表特征输出。

Bi-Level Routing Attention是一种动态的、查询感知的稀疏注意力机制，其核心思想是在划分的区域中过滤掉大部分不相关的键值对，从而只保留一小部分路由区域以实现更灵活的计算分配和内容感知。如图4所示，数据流程表示为：

x＝patch(X)

q,k,v＝linear(x)

q_m＝q.mean,k_m＝k.mean

I_r＝topKIndex(A_r,K)

k_g＝gather(k,I_r),v_g＝gather(v,I_r)

O＝Attention(q,k_g,v_g)+LCE(v)

式中patch(·)表示区域划分操作，linear(·)表示线性映射，.mean表示均值操作，M(·)代表矩阵相乘Matmul，topKIndex(·)表示topK算子。

本发明使用三个常用指标，即mAP@0.5、mAP0.5:0.95以及参数量Parms，对算法进行评估。mAP@0.5即mean average precision(Iou＝0.5)，即将Iou设为0.5时，计算每一个类别下所有图片的平均AP。mAP0.5:0.95则表示在不同Iou阈值(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP。在DUO数据集上进行试验测试，并与当前比较先进的同类检测器进行对比。

Detecting Underwater Objects(DUO)数据集是一个大规模有标注的水下图像数据集，该数据集是对URPC2017、URPC2018、URPC2019、URPC2020、UDD五个数据集进行收集和重新标注的一个更加合理的水下数据集，包含了7,782张删除过相似图像后的水下图像，对四类(海参、海胆、扇贝、海星)有较准确地标注。

本发明在使用图像增强对数据集进行处理之后发现数据中存在未标注目标，认为这会对训练以及测试造成影响，因此对DUO数据集进行了进一步的修注。修注后的数据集训练集groundtruth由63954至72682增加13％，测试集gorundtruth由10516至13736至增加25％。

将本发明的目标检测模型与Yolov5_l、Yolov5_l、YoloX_l、Yolov7四种目标检测模型在DUO数据集上进行测试评估，最终结果如表1所示。

表1

从表1中可以看出本发明在整体性能上都取得了不错的效果。

以上实施例仅用于说明本发明的技术方案，而非对其限制，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图像增强和多注意力机制的水下目标检测算法，其特征在于，包括：

S2.将S1得到的图像输入YOLOV7骨干网络进行特征提取；

2.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法，其特征在于，S1所述利用的自适应参数的全局直方图拉伸的图像增像过程包括：

对a,b通道进行自适应色彩校正即：

3.根据权利要求1所述的一种基于图像增强和多住注意力机制的水下目标检测算法，其特征在于，S2所述神经网络为YOLOV7的骨干网络，由若干CBS模块、ELAN模块以及MP-1模块组成，将增强过的图像输入到骨干网络中进行特征提取：经过3×3下采样卷积进行两次两倍下采样，输入ELAN模块得到C2层，随后依次经过stage1、stage2、stage3分别到的C3、C4、C5层，每个stage包含一个MP-1模块和ELAN模块，每次下采样两倍，最终输入特征图像下采样32倍。

4.根据权利要求1所述的一种基于图像增强和多住注意力机制的水下目标检测算法，其特征在于，S3所述的自注意力模块BSPPCSP具体构建过程为：

S3.3.query_r和转置后的key_r进行矩阵乘法得到区域间相似度邻接矩阵A_r，使用topK算子保留关系最密切的前K个区域，得到区域路由索引矩阵I_r；

5.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法，其特征在于，S4所述添加EMA注意力机制以及融合P2层的FPN特征融合区域包括自上而下和自下而上的融合过程：

6.根据权利要求5所述的一种基于图像增强和多住注意力机制的水下目标检测算法，其特征在于，EMA注意力机制的具体构建过程为：

S4.4.将1×1支路的输出X¹和3×3支路的输出X³进行跨空间学习：

7.根据权利要求1所述的一种基于图像增强和多注意力机制的水下目标检测算法，其特征在于，置信度损失表示边界框中是否包含目标，使用二分类的交叉熵损失函数；类别损失衡量预测类别与真实类别之间的差异，使用二分类的交叉熵损失函数；边界框回归损失衡量预测边界框与真实框之间的差异，在本发明中使用CIOULoss与NWDLoss的加权损失，整个网络的最终损失L表示为：

L＝L_cls+L_box+L_obj