CN114782798A

CN114782798A - 一种基于注意力融合的水下目标检测方法

Info

Publication number: CN114782798A
Application number: CN202210410629.8A
Authority: CN
Inventors: 张亚新; 赵志强; 唐金龙; 吕帅帅; 潘勉; 于海滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2022-07-22

Abstract

本发明公开了一种基于注意力融合的水下目标检测方法，包括以下步骤：步骤一，准备数据集。步骤二，构建基于注意力融合的目标检测网络。步骤三，获得通用场景下的特征提取网络。步骤四，构建损失函数，训练得到基于注意力融合的水下目标检测网络。本发明使用Vision‑Transformer模块提取输入图像的自注意力信息，并通过对输入图像分块，避免对完整图像计算自注意力，减少了计算量。使用PAFPN模块提取特征的空间注意力信息，并分层输出，将提取到的高级语义信息和低级细节信息进行融合。使用SE模块提取特征的通道注意力信息，进一步提升了模型的检测精度。

Description

一种基于注意力融合的水下目标检测方法

技术领域

本发明涉及计算机技术领域，尤其涉及计算机视觉、图像模式识别技术领域。

背景技术

目标检测技术是目前计算机视觉领域非常热门的基础研究方向，该技术能够准确地给出图像/视频中感兴趣的目标的类别和位置。作为计算机视觉领域的的基础研究方向，基于目标检测技术有很多重要的应用，例如工业生产线上瑕疵检测、水下鱼类养殖场捕捞、文字识别等。

申请号为202111127297.4的发明专利(大连理工大学专利中心)，公布了一种基于特征融合及神经网络搜索的轻量型水下目标检测方法，该发明将陆上与水下检测网络特征进行融合，即相加操作，以实现利用陆上先验知识指导水下网络结构建设的目标。同时利用神经网络搜索算法，设计高效搜索空间，采用基于梯度的可微搜索策略，并构建水下超网络结构以及陆上镜像检测结构以直接建立水下降质因素、陆上先验信息与检测网络结构的联系。

现有技术存在以下不足之处：

1、现阶段，把特征相加的操作，即特征融合，属于提取空间注意力信息，而仅使用空间注意力信息是不完备的。

2、现阶段，使用Vision-Transformer提取图像的自注意力信息已被证明，性能优于卷积神经网络提取的空间注意力信息。

3、现阶段，基于卷积神经网络的深度学习模型只能用于图像领域，而Vision-Transformer为深度学习计算机视觉领域和自然语言处理领域的大一统提供了有效的标准框架。

发明内容

本发明旨在解决现有基于卷积神经网络的水下目标检测方法的不足，提供一种有监督学习的基于注意力融合的水下目标检测方法。改进基于通用目标检测先验信息的水下目标检测结构。

一种基于注意力融合的水下目标检测方法，步骤如下：

步骤一，准备数据集。

步骤二，构建基于注意力融合的目标检测网络。

步骤三，获得通用场景下的特征提取网络。

步骤四，构建损失函数，训练得到基于注意力融合的水下目标检测网络。

进一步的，步骤一具体方法如下：

在实际水下场景下拍摄含有感兴趣目标的图片/视频(拍摄的是视频，需要截取为图片)，采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注，获得水下目标检测数据集；从ImageNet官方网站下载数据集，以备模型预训练使用；

进一步的，步骤二具体方法如下：

所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头。

图片输入到目标检测网络中，通过主干特征提取网络提取自注意力信息，通过PAFPN路径增强特征金字塔模块提取空间注意力信息，通过检测头内部的SE模块(SqueezeExcitation Block)提取通道间注意力信息。

之后进行注意力信息融合，通过级联的方式传递特征，并根据不同类型的注意力机制的优势，对注意力信息进行融合，将主干特征提取网络提取的自注意力信息、PAFPN路径增强特征金字塔模块提取的空间注意力信息、检测头内部的SE模块提取的通道间注意力信息做逐步融合。

进一步的，目标检测网络使用Vision-Transformer作为主干特征提取网络，提取自注意力信息。

进一步的，所述的PAFPN路径增强的特征金字塔模块，包含特征金字塔模块和路径增强模块。特征金字塔模块通过下采样，压缩了特征的尺寸，提取了低级细节信息。路径增强模块通过上采样，扩大了特征的尺寸，提取了高级语义信息，并将低级细节信息和高级语义信息进行融合，并分M层输出。PAFPN路径增强的特征金字塔模块，不仅提取了多尺寸的特征信息，还将高级语义信息和低级细节信息进行融合，专注于空间层面的信息，即提取了空间注意力信息。

进一步的，所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测，检测出可能存在目标的区域并推荐给对应的检测头。区域推荐网络包括分类分支和定位分支两个分支。其中，分类分支是对区域内是否存在目标分类，若存在则将它的边界框推荐给检测头；定位分支是对目标所在区域做回归，输出目标所在边界框的左上角、右下角坐标。使用检测头内部的SE模块提取通道间注意力信息，并输送到检测头内部的定位分支和分类分支，对输入图像中可能存在的目标做检测。

进一步的，所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定，有M个。检测头根据送入的区域中可能存在目标的特征，对目标分类，并预测目标的位置。将特征拷贝，再输入到分类分支，经过全连接层输出目标属于可能类别的概率；将特征输入定位分支，经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。

进一步的，步骤三具体方法如下：

通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络，得到具有强大特征提取能力的预训练模型权重；

进一步的，步骤四具体方法如下：

构建位置回归损失函数和分类预测损失函数。其中位置回归损失函数采用smoothL1 loss，衡量预测边界框与真实边界框之间的差距，

分类预测损失函数采用Focal loss，衡量预测类别与真实类别之间的差距，

其中，y取值为1或-1，表示目标是否是真实类别；p取值[0，1]，表示目标是某待测类别的概率；α、γ用来调节分类损失的权重，参考Focal loss原文中推荐的取值，α＝0.25，γ＝2。

总损失函数是位置回归损失和分类预测损失之和：

Loss＝L_reg+L_class

设计基于注意力融合的水下目标检测网络，采用Adam优化器更新模型权重，同时将多种注意力机制模型提取的特征进行融合，通过步骤一获得的水下目标检测数据集训练目标检测网络，得到基于注意力融合的水下目标检测网络。

使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重。

其中W_t，W_t+1分别表示在t阶段和t+1阶段的目标检测模型权重；η_t表示在t阶段的目标检测模型的学习率；m_t，m_t-1分别表示在t阶段和t-1阶段目标检测模型的一阶动量项；v_t，v_t-1分别表示在t阶段和t-1阶段目标检测模型的二阶动量项；

和

分别表示t阶段目标检测模型梯度的一阶矩和二阶矩；β₁和β₂分别表示一阶动量项和二阶动量项的常数系数，通常取0.9和0.999；∈是一个取值很小的数(一般为10^-8)为了避免分母为0。

进一步的，所述的PAFPN路径增强的特征金字塔模块中的M取值为5，PAFPN路径增强的特征金字塔模块分5层输出。

本发明有益效果如下：

1、本文提出的基于注意力融合的水下目标检测模型，提取了空间注意力信息、自注意力信息和通道注意力信息。弥补了只提取空间注意力信息、通道注意力信息的不足。

2、本文使用Vision-Transformer模块提取输入图像的自注意力信息，并通过对输入图像分块，避免对完整图像计算自注意力，减少了计算量。

3、本文使用PAFPN模块提取特征的空间注意力信息，并分层输出，将提取到的高级语义信息和低级细节信息进行融合。

4、本文使用SE模块提取特征的通道注意力信息，进一步提升了模型的检测精度。

附图说明

图1为本发明实施例流程图；

图2为本发明实施例整体结构图；

图3为本发明实施例主干特征提取模块示意图；

图4为本发明实施例路径增强的金字塔模块示意图；

图5是本发明实施例检测头示意图。

具体实施方式

下面结合具体实施例来对本发明进行进一步说明，但并不将本发明局限于这个具体实施方式。本领域技术人员应该认识到，本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。

一种基于注意力融合的水下目标检测方法，步骤如下：

步骤一，准备数据集。

步骤二，构建基于注意力融合的目标检测网络。

目标检测网络使用Vision-Transformer作为主干特征提取网络，提取自注意力信息。

所述的PAFPN路径增强的特征金字塔模块，包含特征金字塔模块和路径增强模块。特征金字塔模块通过下采样，压缩了特征的尺寸，提取了低级细节信息。路径增强模块通过上采样，扩大了特征的尺寸，提取了高级语义信息，并将低级细节信息和高级语义信息进行融合，并分M层输出。PAFPN路径增强的特征金字塔模块，不仅提取了多尺寸的特征信息，还将高级语义信息和低级细节信息进行融合，专注于空间层面的信息，即提取了空间注意力信息。

所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测，检测出可能存在目标的区域并推荐给对应的检测头。区域推荐网络包括分类分支和定位分支两个分支。其中，分类分支是对区域内是否存在目标分类，若存在则将它的边界框推荐给检测头；定位分支是对目标所在区域做回归，输出目标所在边界框的左上角、右下角坐标。使用检测头内部的SE模块提取通道间注意力信息，并输送到检测头内部的定位分支和分类分支，对输入图像中可能存在的目标做检测。

所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定，有M个。检测头根据送入的区域中可能存在目标的特征，对目标分类，并预测目标的位置。将特征拷贝，再输入到分类分支，经过全连接层输出目标属于可能类别的概率；将特征输入定位分支，经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。

步骤三，获得通用场景下的特征提取网络。

通过预训练数据集(例如ImageNet数据集)预训练通用目标检测网络的主干特征提取网络，得到具有强大特征提取能力的预训练模型权重；

总损失函数是位置回归损失和分类预测损失之和：

Loss＝L_reg+L_class

和

下面对本发明的水下目标检测方法的流程示意图进行详细介绍。

请参阅图1，图1是本发明实施例提供的一种基于注意力融合的水下目标检测方法的流程图：

步骤101，获取应用场景下的图片，制作目标检测数据集

在实际应用的水下场景中用水下摄像头拍摄感兴趣的目标，然后使用目标检测标注软件(例如labelme)对感兴趣的目标做标注，构建水下目标检测数据集。

步骤102，构建水下目标检测模型；

所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头

步骤103，Vision-Transformer提取图像的自注意力信息；

将输入的图片平均分成两行两列，共四块，对每个图片块计算局部自注意力机制，并且为每个图片块嵌入位置编码，嵌入了位置编码的图片块经过层正则化，分别经过三个端子Q、K、V，获取多头自注意力信息，并且和输入的编码图片块以残差链接的形式像素级相加，将得到的输出再做层正则化、多层感知机，再以残差链接的形式像素级相加，得到单个Vision-Transformer模块的输出。经过多个Vision-Transformer模块得到主干特征提取网络提取的自注意力信息。

步骤104，PAFPN路径增强的特征金字塔提取特征的空间注意力信息

将提取到的自注意力信息输入到路径增强的特征金字塔，以进一步提取空间注意力信息。路径增强的特征金字塔结构不仅提取了多尺寸的特征信息，并分层输出，还将提取到的高级语义信息和低级细节信息进行融合，即提取了空间注意力信息。

步骤105，区域推荐网络推荐出感兴趣区域

将输入到区域推荐网络的特征信息，拷贝一份特征信息并分别输入到分类分支和定位分支。其中，分类分支是对区域内是否存在目标分类，若存在则将它的边界框推荐给检测头；定位分支是对目标所在区域做回归，输出目标所在边界框的左上角、右下角坐标。得到感兴趣区域。

步骤106，检测头内部的SE模块提取特征的通道间注意力信息

根据感兴趣区域划分提取到的多层空间注意力信息，分别输入到对应层的检测头。针对高维度的特征采用SE模块提取通道间注意力信息。SE模块包括压缩和扩展两个部分，先是将高维度特征经过全局平均池化，然后压缩到低维度，表示提取到重要的通道，然后再扩张到原来的高维度，表示恢复到原通道数，经过sigmoid函数归一化，得到高维度特征中每个维度的权重，再相乘得到通道间注意力信息。

步骤107，检测头检测目标

将提取通道间注意力信息的特征，分别输送到全连接层定位分支和全连接层分类分支，对输入图像中可能存在的目标做定位和分类。

步骤108，训练模型

将准备好的水下目标检测数据集图片输入搭建好的水下目标检测模型。采用指定的Smooth L1损失函数和Focal loss损失函数衡量定位损失和分类损失，并用梯度下降算法更新权重，最后保存模型权重。

请参阅图2，图2是本发明实施例提供的一种基于注意力融合的水下目标检测方法的整体结构图：

执行步骤201，将图像分块输送到下一模块；

执行步骤202，Vision-Transformer模块对输入的分块图像提取自注意力信息；

执行步骤203，路径增强的特征金字塔模块能够输出多尺寸的特征和空间注意力信息；

执行步骤204，区域推荐网络做第一次粗糙地检测，输出感兴趣区域；

执行步骤205，检测头对感兴趣区域内的空间注意力信息提取通道间注意力信息，并且做第二次精细地检测。

请参阅图3，图3为本发明提供的基于注意力融合的水下目标检测方法的主干特征提取模块示意图；

Vision-Transformer提取图像的自注意力信息，首先是对嵌入了位置编码的图片块经过层正则化，分别经过三个端子Q、K、V，获取多头自注意力信息，并且和输入的编码图片块以残差链接的形式像素级相加，将得到的输出再做层正则化、多层感知机，再以残差链接的形式像素级相加，得到单个Vision-Transformer模块的输出。经过多个Vision-Transformer得到主干特征提取网络提取的自注意力信息。

请参阅图4，图4为本发明提供的基于注意力融合的水下目标检测方法的路径增强的金字塔模块示意图；

将提取到的自注意力信息输入到路径增强的特征金字塔，经过下采样支路p，以进一步提取空间注意力信息。再经过上采样支路q，并与支路p的输出融合，提取低级细节信息。最后经过下采样支路r，并与支路q的输出融合，提取高级语义信息，即提取了空间注意力信息。路径增强的特征金字塔结构不仅提取了多尺寸的特征信息，并分层输出。

请参阅图5，图5是本发明提供的基于注意力融合的水下目标检测方法的检测头示意图；

将提取到的多层空间注意力信息分别输入到不同的检测头，针对高维度的特征使用SE模块(Squeeze Excitation Block)提取通道间注意力信息。SE模块包括压缩和扩展两个部分，先是将高维度特征经过全局平均池化，得到高维度特征向量，然后压缩到低维度，表示提取到重要的通道，然后再扩张到原来的高维度，表示恢复到原数量的通道，经过sigmoid函数归一化，得到高维度特征中每个维度的权重，再相乘得到通道间注意力信息。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于注意力融合的水下目标检测方法，其特征在于，步骤如下：

步骤一，准备数据集；

步骤二，构建基于注意力融合的目标检测网络；

步骤三，获得通用场景下的特征提取网络；

2.根据权利要求1所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤一具体方法如下：

在实际水下场景下拍摄含有感兴趣目标的图片/视频，采用目标检测数据集标注软件为图片中出现的感兴趣目标做标注，获得水下目标检测数据集；从ImageNet官方网站下载数据集，以备模型预训练使用。

3.根据权利要求2所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤二具体方法如下：

所述的基于注意力融合的目标检测网络包括主干特征提取网络、PAFPN路径增强特征金字塔模块、区域推荐网络和检测头；

图片输入到目标检测网络中，通过主干特征提取网络提取自注意力信息，通过PAFPN路径增强特征金字塔模块提取空间注意力信息，通过检测头内部的SE模块提取通道间注意力信息；

4.根据权利要求3所述的一种基于注意力融合的水下目标检测方法，其特征在于，目标检测网络使用Vision-Transformer作为主干特征提取网络，提取自注意力信息。

5.根据权利要求4所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的PAFPN路径增强的特征金字塔模块，包含特征金字塔模块和路径增强模块；特征金字塔模块通过下采样，压缩了特征的尺寸，提取了低级细节信息；路径增强模块通过上采样，扩大了特征的尺寸，提取了高级语义信息，并将低级细节信息和高级语义信息进行融合，并分M层输出；PAFPN路径增强的特征金字塔模块，不仅提取了多尺寸的特征信息，还将高级语义信息和低级细节信息进行融合，专注于空间层面的信息，即提取了空间注意力信息。

6.根据权利要求5所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的区域推荐网络用于对PAFPN输出的每一层特征图做初步检测，检测出可能存在目标的区域并推荐给对应的检测头；区域推荐网络包括分类分支和定位分支两个分支；其中，分类分支是对区域内是否存在目标分类，若存在则将它的边界框推荐给检测头；定位分支是对目标所在区域做回归，输出目标所在边界框的左上角、右下角坐标；使用检测头内部的SE模块提取通道间注意力信息，并输送到检测头内部的定位分支和分类分支，对输入图像中可能存在的目标做检测。

7.根据权利要求6所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的检测头的个数由PAFPN路径增强的特征金字塔模块的层数确定，有M个；检测头根据送入的区域中可能存在目标的特征，对目标分类，并预测目标的位置；将特征拷贝，再输入到分类分支，经过全连接层输出目标属于可能类别的概率；将特征输入定位分支，经过全连接层输出目标可能所在边框的左上角、右下角的横纵坐标。

8.根据权利要求3-7任一所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤三具体方法如下：

通过预训练数据集预训练基于注意力融合的目标检测网络的主干特征提取网络，得到具有强大特征提取能力的预训练模型权重。

9.根据权利要求8所述的一种基于注意力融合的水下目标检测方法，其特征在于，步骤四具体方法如下：

构建位置回归损失函数和分类预测损失函数；其中位置回归损失函数采用smooth L1loss，衡量预测边界框与真实边界框之间的差距，

其中，y取值为1或-1，表示目标是否是真实类别；p取值[0,1]，表示目标是某待测类别的概率；α、γ用来调节分类损失的权重，参考Focal loss原文中推荐的取值，α＝0.25,γ＝2；

总损失函数是位置回归损失和分类预测损失之和：

Loss＝L_reg+L_class

设计基于注意力融合的水下目标检测网络，采用Adam优化器更新模型权重，同时将多种注意力机制模型提取的特征进行融合，通过步骤一获得的水下目标检测数据集训练目标检测网络，得到基于注意力融合的水下目标检测网络；

使用基于梯度下降的Adam优化算法更新水下目标检测网络模型权重；

和

分别表示t阶段目标检测模型梯度的一阶矩和二阶矩；β₁和β₂分别表示一阶动量项和二阶动量项的常数系数，通常取0.9和0.999；∈是一个取值很小的数，为了避免分母为0。

10.根据权利要求7所述的一种基于注意力融合的水下目标检测方法，其特征在于，所述的PAFPN路径增强的特征金字塔模块中的M取值为5，PAFPN路径增强的特征金字塔模块分5层输出。