CN117671473B

CN117671473B - 基于注意力和多尺度特征融合的水下目标检测模型及方法

Info

Publication number: CN117671473B
Application number: CN202410138335.3A
Authority: CN
Inventors: 张沁悦; 郑冰; 王柘; 李继哲
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-07
Anticipated expiration: 2044-02-01
Also published as: CN117671473A

Abstract

本发明提供了一种基于注意力和多尺度特征融合的水下目标检测模型及方法，属于水下图像数据处理分析技术领域，该模型分为四个模块，分别是预处理模块、基于焦点自注意力的特征提取模块、多尺度特征融合模块和水下目标定位模块；首先，提取图像的从低级到高级的语义特征表示，并通过注意力机制自动学习目标在图像数据中的重要性分布；通过对目标区域实现更高的关注，最终成功捕捉图像中的关键纹理、形状、颜色等信息，为后续的目标检测提供基础。通过特征融合模块融合多尺度的特征信息，得到对目标特征的多维度数据描述，从而提高目标的检测率和定位精度。经过以上关键步骤后，模型能够基于多尺度融合特征完成水下目标检测和定位的任务。

Description

基于注意力和多尺度特征融合的水下目标检测模型及方法

技术领域

本发明属于水下图像数据处理分析技术领域，尤其涉及一种基于注意力和多尺度特征融合的水下目标检测模型及方法。

背景技术

近年来，随着生活水平的提高与科技的快速发展，海洋资源的开发和利用备受关注。水下目标检测能够帮助探测和定位海洋中的资源，监测海洋环境状态，维护海洋安全并提高搜救与救援能力。然而，由于水下图像通常受到光线衰减散射、噪声等多种因素的影响，导致图像质量差且细节模糊。传统的水下目标检测方法通常依赖于手工设计的特征提取器和分类器，如滤波器纹理分析和模型匹配。然而，由于水下图像的不确定性和多样性，传统方法的性能通常不能满足实际需求，特别是在复杂场景和目标边界模糊的检测方面表现较差。

相比于传统的基于特征工程的方法，深度学习技术可以自动地从数据中学习到更高维度的特征表示，从而提高目标检测的准确性和鲁棒性。深度学习算法通过构建多层神经网络，利用大规模标注数据进行训练，能够从输入图像中提取出丰富的语义信息，并准确地定位和识别水下目标。并且此类算法具有较强的泛化能力，能够适应不同水下环境和目标类型的变化。常见的深度学习目标检测算法主要是基于卷积神经网络（CNN）的方法，如Faster R-CNN、YOLO和SSD等。这些模型能够处理复杂的水下图像，克服光线衰减、散射和噪声等问题，提供更精确的目标定位和识别结果。这些深度学习算法在目标检测领域表现出了明显的优势，因此受到了广泛的实际应用。

但是，由于水下环境中存在各种背景干扰，如水草、沉积物等。传统的深度学习网络可能无法对复杂水下环境下图像的特征重要性进行区分，导致误检测率较高。同时，水下目标尤其是鱼类在不同姿态和形变下表现出不同的外观特征。传统的深度学习网络可能对目标形变和姿态变化较为敏感，难以对具有变化的目标进行准确检测。

发明内容

针对上述问题，本发明引入了注意力机制来帮助模型选择和加权输入数据中最相关的特征，并结合多尺度特征融合来解决水下目标检测中的尺度不变性、目标定位精度、目标背景干扰和目标形变姿态变化等问题。通过利用不同尺度的特征信息，提高了模型的感知能力和区分能力，从而提升了水下目标检测的准确性和鲁棒性。

本发明第一方面提出了一种基于注意力和多尺度特征融合的水下目标检测模型，包括依次连接的特征提取模块、多尺度特征融合模块和水下目标定位模块；

所述特征提取模块基于焦点自注意力，使用预处理后的水下目标图像作为该模块输入，提取图像的低级到高级的语义特征表示，从而得到基础特征表示；

所述多尺度特征融合模块是为了适应水下目标图像检测的尺度变化，将基础特征表示输入多尺度特征融合模块进行特征整合，得到具有更强表达能力的融合特征；

所述水下目标定位模块是使用基于CNN的目标检测模型，引入图像目标角点的回归策略，基于输入融合特征进行目标图像识别，以得到水下目标图像的检测结果。

优选的，所述特征提取模块之前还连接有预处理模块，所述预处理模块的处理流程为：

获取水下真实图像；

将图像的像素值缩放到范围，使用双线性插值调整图像的大小，并保持图像的纵横比不变；

使用高斯滤波在对图像像素进行平滑操作以减少噪声的影响，从而提高图像的质量和清晰度；

使用对比度增强、亮度调整和直方图均衡化对图像增强，从而使特征和细节更显著。

优选的，所述特征提取模块的具体处理过程为：

首先，将目标图片划分为个子图，每个子图的像素点为/>，以中心的一圈子图作为查询，并采用多粒度提取其周围边缘的标记级别，作为中间子图对于其周围子图查询得到的键和值；对于第一级，以最细的粒度提取最接近中间部分的标记；然后在第二级，扩展注意力区域并池化周围的部分，从而产生池化的标记；在第三级，参与覆盖整个特征图和部分的更大区域；最后，将这三个级别的标记拼接起来计算中间部分所有标记的键和值；

将上述得到的标记送入N个FSA 层，采用局部感受野机制池化，并将多个标记的信息进行聚合，以减少计算量；每个标记级别中，首先将标记划分成多个的子窗口，然后用一个线性层进行池化操作，定义为：

(1)

其中，输入特征图，其中/>是空间维度，/>是特征维度；/>代表每个子窗口的大小，/>表示线性层，不同层次的特征映射/>提供了丰富的细粒度和粗粒度信息；

在所有的标记级别上获得了池化的特征映射后，进行第一级计算查询，并使用三个线性投影层/>计算所有层的键和值：

(2)

然后提取特征映射中每个查询标记的周围标记；对于第个窗口/>内的查询，从查询所在窗口周围的/>和/>中提取/>个键和值，然后从所有/>中收集键和值，得到/>和/>，其中/>为各级焦点区域之和，即，/>；最后，纳入相对位置偏差，并通过以下方式计算/>的焦点自注意：

(3)

其中，可学习相对位置偏差，由/>个焦点级别的/>个子集组成；/>是特征维度；

经过以上步骤可以得到水下目标图像中各尺度有代表性的基础特征表示，以供后续的多尺度特征融合使用。

优选的，所述多尺度特征融合模块的具体处理过程为：

将得到的各尺度代表性基础特征表示作为输入，构建一个多尺度特征金字塔来获取鲁棒的特征图；从较高级别的特征图进行上采样，以使用上下文信息增强较低级别的特征图；

多尺度特征图定义为、/>、/>、/>、/>和/>、/>、/>、/>、/>，对应的步幅分别为 8、16、32、64、128；定义/>、/>、/>是初始特征层，缩放过程可以描述为:

(4)

(5)

(6)

(7)

表示/>级特征金字塔的第/>层特征，为可变通道数滤波器，卷积核为/>，步幅为1，/>为下采样滤波器，卷积核为/>，步幅为 2，/>是上采样，/>是卷积运算；

每个构建块通过横向连接获取更高分辨率的特征图和更为概略的图/>，并生成新的特征图/>；每个特征图/>通过一个卷积层，以减小特征图尺寸大小；然后通过横向连接将特征图/>的每个元素与经过下采样后特征图相加；然后融合的特征图由另一个卷积层处理以生成/>,用于后续子网络；此为迭代过程，在接近/>后终止；特征融合过程可以表述如下：

(8)

经过多尺度特征融合，可以得到各个尺度融合后的最终特征向量表示。

优选的，所述水下目标定位模块中引入图像目标角点的回归策略，具体为：

将融合特征数据作为待检测目标的输入特征向量，并且根据数据集中的目标标签类别得到待检测的总类别数；

引入的目标图像像素目标角点的回归策略，是将图像像素网格的角点也作为召回点，角点与实际框的距离除以相应的步幅，以匹配水下物体的实际大小，角点到真值框的距离分别为、/> 、/> 、/>，其中，

(9)

训练目标是网格中心点到真值框的距离；和/>是真值框的角点，是网格的中心点，角点回归策略为：

(10)

基于以上策略，优化损失函数，不断提升检测框精度，实现复杂水下环境下的目标检测。

优选的，在训练时，首先获取水下目标图像的原始数据集；

然后对图像数据集进行预处理，并采用5倍交叉验证法对数据集进行划分，将所有数据集分成5份，不重复地每次取其中1份做测试集，用其他4份做训练集训练模型；最终，将5次评估的结果取平均值作为模型的性能指标。

本发明第二方面提供了一种基于注意力和多尺度特征融合的水下目标检测方法，包括以下过程：

拍摄获取水下原始目标图像；

将目标图像输入到如第一方面所述的水下目标检测模型中；

输出水下目标检测结果。

本发明第三方面提供了一种水下目标检测设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如第一方面所述的水下目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行水下目标图像检测。

本发明第四方面提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如第一方面所述的水下目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时，使处理器执行水下目标图像检测。

与现有技术相比，本发明具有如下有益效果：

（1）基于焦点自注意力的特征提取模块：针对水下目标检测中的目标背景干扰等问题，构建基于焦点自注意力的特征提取模块，通过学习自适应的注意力权重，增强目标与背景的区分能力，提高模型的感知能力和区分能力。

（2）多尺度特征融合模块：针对水下鱼类目标形变和姿态变化等问题，构建多尺度特征融合模块，利用不同尺度的特征信息，取目标与背景的差异信息，使模型能够自动关注鱼类图像不同尺度特征中与目标相关的部分，在不同尺度上实现精细的目标定位和分割。

（3）自适应学习模型框架：引入注意力机制和多尺度特征融合，在水下环境中准确地定位和分割鱼类目标，克服目标形变、光照变化和背景干扰等困难。自适应地调整模型的关注重点，从而提高水下目标检测的性能和鲁棒性，具有较强的适应性，适用于不同水下场景和目标类型的检测任务。

总体来讲，本发明在深度学习中引入了多尺度特征融合和注意力机制，用以构建水下目标检测模型，这种方法可以有效提升水下目标检测的精度，特别适用于复杂的水下场景。

附图说明

为了更清楚地说明本发明或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍，显而易见地，下面描述的仅仅是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明水下目标检测模型的逻辑框图。

图2为本发明多尺度特征融合模块的结构示意图。

图3为本发明目标角点的回归策略原理示意图。

图4为本发明目标检测网络结构示意图。

图5实施例2中水下目标检测设备的简易结构框图。

具体实施方式

下面结合具体实施例对发明进行进一步说明。

为提高复杂场景中目标边界模糊的水下目标检测的准确性和通用性，本发明提出了一种基于注意力机制和多尺度特征融合的水下目标检测方法。该方法主要分为四个模块，如图1所示，分别是预处理模块，基于焦点自注意力的特征提取模块、多尺度特征融合模块和水下目标定位模块。

首先，提取图像的从低级到高级的语义特征表示，并通过注意力机制自动学习目标在图像数据中的重要性分布。通过对目标区域实现更高的关注，最终成功捕捉图像中的关键纹理、形状、颜色等信息，为后续的目标检测提供基础。通过特征融合模块融合多尺度的特征信息，得到对目标特征的多维度数据描述，从而提高目标的检测率和定位精度。经过以上关键步骤后，模型能够基于多尺度融合特征完成水下目标检测和定位的任务。

本实施例以水下鱼类图像为例，对本发明的方法展开进一步说明。

1.水下鱼类目标检测数据集收集与预处理

首先拍摄不同色调的水下真实鱼类图像作为数据集；

将图像的像素值缩放到范围，使用双线性插值调整图像的大小为尺寸，并保持图像的纵横比不变；

使用对比度增强、亮度调整和直方图均衡化对图像增强，从而使特征和细节更显著；

采用5倍交叉验证法对数据集进行划分。将所有数据集分成5份，不重复地每次取其中1份做测试集，用其他4份做训练集训练模型，最终，将5次评估的结果取平均值作为模型的性能指标。

2.基于焦点自注意力的特征提取模块并得到基础特征表示的过程

（1）首先，将鱼类图片划分为个子图，每个子图的像素点为/>，以中心的一圈子图作为查询，并采用多粒度提取其周围边缘的标记级别（焦点自注意力机制中对特征关注的细粒度程度。级别越小，对特征关注也就越精细），作为中间子图对于其周围子图查询得到的键和值。对于第一级，以最细的粒度提取最接近中间部分的标记；然后在第二级，扩展注意力区域并池化周围的部分，从而产生池化的标记；第三级，参与覆盖整个特征图和部分的更大区域。最后，将这三个级别的标记拼接起来计算中间部分所有标记的键和值。

（2）将上述得到的标记送入N个FSA (Focal Self-Attention)层，采用局部感受野机制池化，并将多个标记的信息进行聚合，以减少计算量。每个标记级别中，首先将标记划分成多个的子窗口，然后用一个线性层进行池化操作，定义为：

(1)

其中，输入特征图，其中/>是空间维度，/>是特征维度；/>代表每个子窗口的大小，/>表示线性层，不同层次的特征映射/>提供了丰富的细粒度和粗粒度信息。

（3）在所有的标记级别上获得了池化的特征映射后，进行第一级计算查询，并使用三个线性投影层/>计算所有层的键和值：

(2)

（4）然后提取特征映射中每个查询标记的周围标记。对于第个窗口内的查询，从查询所在窗口周围的/>和/>中提取/>个键和值，然后从所有/>中收集键和值，得到/>和，其中/>为各级焦点区域之和，即，/>；最后，纳入相对位置偏差，并通过以下方式计算/>的焦点自注意：

(3)

经过以上步骤可以得到水下鱼类图像中各尺度有代表性的基础特征表示，以供后续的多尺度特征融合使用。

3.多尺度特征融合模块的具体处理过程

将得到的各尺度代表性基础特征表示作为输入，构建一个多尺度特征金字塔来获取鲁棒的特征图；从较高级别的特征图进行上采样，以使用上下文信息增强较低级别的特征图；构建的一个多尺度特征融合模块如图2所示。

（1）多尺度特征图定义为、/>、/>、/>、/>和/>、/>、/>、/>、/>，对应的步幅分别为 8、16、32、64、128；定义/>、/>、/>是初始特征层，缩放过程可以描述为:

(4)

(5)

(6)

(7)

（2）每个构建块通过横向连接获取更高分辨率的特征图和更为概略的图/>，并生成新的特征图/>；每个特征图/>通过一个卷积层，以减小特征图尺寸大小；然后通过横向连接将特征图/>的每个元素与经过下采样后特征图相加；然后融合的特征图由另一个卷积层处理以生成/>,用于后续子网络；此为迭代过程，在接近/>后终止；特征融合过程可以表述如下：

(8)

4.关于水下目标定位模块

采用特征融合后的特征向量，建立基于CNN的检测网络，并引入鱼类图像目标角点（鱼类图像中具有明显角度变化的位置像素点，即边缘像素点）的回归策略，以目标真实框和预测框的差异作为训练目标，优化损失函数，对角点位置进行后处理和调整，以提高角点的准确性和精度，以得到输入图像更精准的目标检测结果。目标角点的回归策略如图3所示。该过程详细步骤如下：

（1）将经过融合特征数据作为待检测目标的输入特征向量，并且根据数据集中的鱼类标签类别得到待检测的总类别数。

（2）引入的鱼类图像像素目标角点的回归策略，如图3所示。将图像像素网格的角点也作为召回点（鱼类目标分类器中正确地将其判定为正例），图3的若干个框内，都增加了召回点，有利于损失函数的优化。对于水下存在大量的小目标而言，采用这种方法可以提高小物体的召回率，同样也提高了算法的检测精度。在实际应用中，角点与实际框的距离除以相应的步幅，以匹配水下物体的实际大小。那么角点到真值框的距离分别为，/> ，/> ，/>：

(9)

训练目标是网格中心点到真值框的距离。和/>是真值框的角点，是网格的中心点。角点回归策略为：

(10)

因此，基于以上策略，优化损失函数，不断提升检测框精度，实现复杂水下环境下的鱼类检测，检测网络结构以及检测结果示意图如图4所示。

实施例2：

如图5所示，本发明同时提供了一种水下目标检测设备，设备包括至少一个处理器和至少一个存储器，同时还包括通信接口和内部总线；存储器中存储有如实施例1所述的水下目标检测模型的计算机执行程序；所述处理器执行存储器存储的计算机执行程序时，可以使处理器执行水下目标图像检测。其中内部总线可以是工业标准体系结构(IndustryStandard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(XtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

设备可以被提供为终端、服务器或其它形态的设备。

图5是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件：处理组件，存储器，电源组件，多媒体组件，音频组件，输入/输出(I/O)的接口，传感器组件，以及通信组件。处理组件通常控制电子设备的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件可以包括一个或多个模块，便于处理组件和其他组件之间的交互。例如，处理组件可以包括多媒体模块，以方便多媒体组件和处理组件之间的交互。

存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。I/O接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件包括一个或多个传感器，用于为电子设备提供各个方面的状态评估。例如，传感器组件可以检测到电子设备的打开/关闭状态，组件的相对定位，例如所述组件为电子设备的显示器和小键盘，传感器组件还可以检测电子设备或电子设备一个组件的位置改变，用户与电子设备接触的存在或不存在，电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

实施例3：

本发明还提供了一种计算机可读存储介质，计算机可读存储介质中存储有如实施例1所述的水下目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时可以使处理器执行水下目标图像检测。

具体地，可以提供配有可读存储介质的系统、装置或设备，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘（如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW）、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

应理解存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于终端或服务器中。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述虽然对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于注意力和多尺度特征融合的水下目标检测模型，其特征在于：包括依次连接的特征提取模块、多尺度特征融合模块和水下目标定位模块；

所述特征提取模块基于焦点自注意力，使用预处理后的水下目标图像作为该模块输入，提取图像的低级到高级的语义特征表示，从而得到基础特征表示；所述特征提取模块的具体处理过程为：

(1)

(2)

然后提取特征映射中每个查询标记的周围标记；对于第个窗口/>内的查询，从查询所在窗口周围的/>和/>中提取/>个键和值，然后从所有/>中收集键和值，得到/>和/>，其中/>为各级焦点区域之和，即，；最后，纳入相对位置偏差，并通过以下方式计算/>的焦点自注意：

(3)

经过以上步骤可以得到水下目标图像中各尺度有代表性的基础特征表示，以供后续的多尺度特征融合使用；

所述多尺度特征融合模块是为了适应水下目标图像检测的尺度变化，将基础特征表示输入多尺度特征融合模块进行特征整合，得到具有更强表达能力的融合特征；所述多尺度特征融合模块的具体处理过程为：

(4)

(5)

(6)

(7)

表示/>级特征金字塔的第/>层特征，/>为可变通道数滤波器，卷积核为/>，步幅为1，/>为下采样滤波器，卷积核为/>，步幅为 2，/>是上采样，/>是卷积运算；

(8)

经过多尺度特征融合，可以得到各个尺度融合后的最终特征向量表示；

所述水下目标定位模块是使用基于CNN的目标检测模型，引入图像目标角点的回归策略，基于输入融合特征进行目标图像识别，以得到水下目标图像的检测结果；具体为：

(9)

训练目标是网格中心点到真值框的距离；和/>是真值框的角点，/>是网格的中心点，角点回归策略为：

(10)

2.如权利要求1所述的一种基于注意力和多尺度特征融合的水下目标检测模型，其特征在于，所述特征提取模块之前还连接有预处理模块，所述预处理模块的处理流程为：

获取水下真实图像；

3.如权利要求1所述的一种基于注意力和多尺度特征融合的水下目标检测模型，其特征在于：在训练时，首先获取水下目标图像的原始数据集；

4.一种基于注意力和多尺度特征融合的水下目标检测方法，其特征在于，包括以下过程：

拍摄获取水下原始目标图像；

将目标图像输入到如权利要求1至3任意一项所述的水下目标检测模型中；

输出水下目标检测结果。

5.一种水下目标检测设备，其特征在于：所述设备包括至少一个处理器和至少一个存储器，所述处理器和存储器相耦合；所述存储器中存储有如权利要求1至3任意一项所述的水下目标检测模型的计算机执行程序；所述处理器执行存储器中存储的计算机执行程序时，使处理器执行水下目标图像检测。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有如权利要求1至3任意一项所述的水下目标检测模型的计算机程序或指令，所述程序或指令被处理器执行时，使处理器执行水下目标图像检测。