CN115311544A

CN115311544A - 一种水下鱼类目标检测方法及装置

Info

Publication number: CN115311544A
Application number: CN202210990221.2A
Authority: CN
Inventors: 刘金存; 刘杨; 安冬; 位耀光; 李道亮
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-08

Abstract

本发明涉及一种水下鱼类目标检测方法和装置。所述水下鱼类目标检测方法通过采用目标检测主干网络，能够有效的提取并融合输入的水下鱼类图像全局相关性特征和局部相关性特征，增强了特征提取和复用能力，并且，通过采用目标检测网络模型，基于目标检测主干网络得到的融合特征得到包含目标分类信息和目标位置信息的目标检测结果，能够显著提高目标检测的精度。

Description

一种水下鱼类目标检测方法及装置

技术领域

本发明涉及图像数据处理技术领域，特别是涉及一种水下鱼类目标检测方法及装置。

背景技术

评估鱼类物种的多样性和检测鱼类种群的变化十分重要，同时使用非破坏性和自动化的方法进行鱼类物种检测，以降低人工检测的劳动力成本和时间成本也极具意义。基于机器视觉的鱼类检测方法可以有效的分类和定位鱼类目标，检测鱼类的生物多样性，为生态系统检测和海洋资源评估提供重要的数据支持。但是由于从真实环境中获取的图像呈现出很多问题，包括小目标、低光照、高噪声、模糊、背景复杂、鱼与背景的颜色相似度、遮挡、成像设备等问题。这些问题会极大的干扰水下鱼类目标检测的精度，对于水下鱼类检测任务而言极具挑战性。

传统的图像处理方法只考虑图像的浅层信息，如颜色、纹理、形状等信息对水下鱼类进行检测。此类方法需要人工选择检测目标的特征，如形状、周长等，所选择的特征对最终的精度影响很大。面对水下多变的背景环境，卷积神经网络因其感受野是局部的，无法更为高效的提取图像的全局特征。如申请号为202011373485.0的中国发明专利提供了一种水下鱼类目标检测方法，主要是通过增加辅助网络提取特征并进行主干网络和辅助网络的特征相减融合。由于辅助网络的加入，在很大程度上增加了模型的参数，导致模型的检测速度变慢。基于此，通过牺牲检测速度换取检测精度的提高并不是合适的解决方案，其整个检测框架均是使用卷积神经网络，没有更好的利用输入图像的全局相关性特征。

虽然目标检测算法发展迅速、应用广泛，但是基于传统的水下鱼类目标检测算法和基于卷积神经网络的算法，没有进一步考虑图像全局相关性特征的提取，在背景多变、鱼类运动、光线不足等复杂的水下环境中表现一般。

发明内容

针对现有技术存在的上述问题，本发明提供了一种水下鱼类目标检测方法及装置。

为实现上述目的，本发明提供了如下方案：

一种水下鱼类目标检测方法，包括：

获取水下鱼类图像和目标检测主干网络；所述目标检测主干网络包括：视觉自注意力路径、卷积神经网络路径和特征融合模块；

将所述水下鱼类图像输入至所述目标检测主干网络中得到融合特征；

将所述融合特征输入至目标检测网络模型得到目标检测结果；所述目标检测结果包括：目标分类信息和目标位置信息；所述目标检测网络模型通过带有标注信息的水下鱼类图像数据集训练得到。

优选地，所述将所述水下鱼类图像输入至所述目标检测主干网络中得到融合特征，具体包括：

将所述水下鱼类图像输入所述视觉自注意力路径得到全局相关性特征；

将所述水下鱼类图像输入所述卷积神经网络路径得到局部相关性特征；

融合所述全局相关性特征和所述局部相关性特征得到融合特征；所述融合特征包括：第一输出特征、第二输出特征、第三输出特征和第四输出特征。

优选地，所述特征融合模块包括：第一特征融合子模块、第二特征融合子模块、第三特征融合子模块和第四特征融合子模块；所述视觉自注意力路径和所述卷积神经网络路径均包括四个特征提取模块；

所述水下鱼类图像分别输入所述视觉自注意力路径的第一个特征提取模块和所述卷积神经网络路径的第一个特征提取模块，所述视觉自注意力路径的第一个特征提取模块的输出特征与所述卷积神经网络路径的第一个特征提取模块的输出特征经所述第一特征融合子模块融合后，得到第一输出特征；将所述第一输出特征输入至所述目标检测网络模型；

将所述第一输出特征分别输入所述视觉自注意力路径的第二个特征提取模块和所述卷积神经网络路径的第二个特征提取模块，所述视觉自注意力路径的第二个特征提取模块的输出特征与所述卷积神经网络路径的第二个特征提取模块的输出特征经所述第二特征融合子模块融合后，得到第二输出特征；将所述第二输出特征输入至所述目标检测网络模型；

将所述第二输出特征分别输入所述视觉自注意力路径的第三个特征提取模块和所述卷积神经网络路径的第三个特征提取模块，所述视觉自注意力路径的第三个特征提取模块的输出特征与所述卷积神经网络路径的第三个特征提取模块的输出特征经所述第三特征融合子模块融合后，得到第三输出特征；将所述第三输出特征输入至所述目标检测网络模型；

将所述第三输出特征分别输入所述视觉自注意力路径的第四个特征提取模块和所述卷积神经网络路径的第四个特征提取模块，所述视觉自注意力路径的第四个特征提取模块的输出特征与所述卷积神经网络路径的第四个特征提取模块的输出特征经所述第四特征融合子模块融合后，得到第四输出特征；将所述第四输出特征输入至所述目标检测网络模型。

优选地，所述将所述融合特征输入至目标检测网络模型得到目标检测结果，具体包括：

将所述第一输出特征、所述第二输出特征、所述第三输出特征和所述第四输出特征输入至所述目标检测网络模型的颈部组件进行特征融合，得到第五输出特征；所述第五输出特征包括：第一特征图、第二特征图、第三特征图和第四特征图；

将所述第一输出特征、所述第二输出特征、所述第三输出特征、所述第四输出特征和所述第五输出特征均输入至所述目标检测网络模型的区域提议网络组件进行候选框筛选，得到候选区域特征层；

将所述候选区域特征层输入至所述目标检测网络模型的多级检测器中得到目标检测结果。

优选地，所述将所述第一输出特征、所述第二输出特征、所述第三输出特征和所述第四输出特征输入至所述目标检测网络模型的颈部组件进行特征融合，得到第五输出特征，具体包括：

所述第一输出特征、所述第二输出特征、所述第三输出特征和所述第四输出特征输入至所述目标检测网络模型的颈部组件中，经特征内容感知重组上采样、最大池化层、卷积层、归一化层后得到第一特征图、第二特征图、第三特征图和第四特征图。

优选地，采用带有标注信息的水下鱼类图像数据集训练所述目标检测网络模型时，设置网络训练过程中的超参数，以标注信息为真实值和网络训练过程中的预测值进行损失计算。

优选地，采用带有标注信息的水下鱼类图像数据集训练所述目标检测网络模型时，设置网络训练过程中的超参数，以标注信息为真实值和网络训练过程中的预测值进行损失计算，使用跷板损失分类损失对模型进行训练。

优选地，采用带有标注信息的水下鱼类图像数据集训练所述时，设置网络训练过程中的超参数，使用多尺度训练策略对所述目标检测网络模型进行训练。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的水下鱼类目标检测方法，通过采用目标检测主干网络，能够有效的提取并融合输入的水下鱼类图像全部相关性特征，增强了特征提取和复用能力，并且，通过采用目标检测网络模型，基于目标检测主干网络得到的融合特征得到包含目标分类信息和目标位置信息的目标检测结果，能够显著提高目标检测的精度。

对应于上述提供的水下鱼类目标检测方法，本发明还提供了以下实施系统：

其中一种为水下鱼类目标检测装置，该装置包括：

图像采集模块，用于获取水下鱼类图像；

图像处理模块，与所述图像采集模块连接，植入有实施上述水下鱼类目标检测方法的计算机执行程序，用于基于所述水下鱼类图像得到目标检测结果。

另一种为电子设备，该电子设备包括：处理器、通信接口、存储器和通信总线；所述处理器、所述通信接口和所述存储器通过通信总线完成相互间的通信；所述处理器用于调用所述存储器中存储的逻辑指令，以执行上述提供的水下鱼类目标检测方法。

因本发明提供的装置和电子设备实现的技术效果与本发明上述提供的水下鱼类目标检测方法实现的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的水下鱼类目标检测方法的流程图；

图2为本发明实施例提供的主干网络的框架图；

图3为本发明实施例提供的水下鱼类目标检测方法的数据处理框架图；

图4为本发明提供的水下鱼类目标检测装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种水下鱼类目标检测方法及装置，能够有效提高水下鱼类目标的检测精度。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

下面结合图1-图5描述本发明的具体方案。图1是本发明提供的水下鱼类目标检测方法流程图，如图1所示，本发明提供的水下鱼类目标检测方法，包括：

S1、采集水下鱼类图像。

通过水下相机对水下鱼类进行拍摄，将视频进行取帧操作，生成水下鱼类图像。对水下鱼类进行检测需要采用视频监控的方式采样图片进行检测。图像输入模型前需要进行预处理操作，图片大小将被调整为最短边不超过800像素点，最长边不超过1333像素点。

S2、将水下鱼类图像同时输入到目标检测主干网络的两条路径：视觉自注意力（Transformer）路径和卷积神经网络路径。

本实例中的目标检测主干网络被命名为DP-PVT（Dual-Path Pyramid VisionTransformer），它由两条特征提取路径组合而成：视觉自注意力路径和卷积神经网络路径。视觉自注意力（Transformer）路径由PVTv2-b0模型构建而成。

S3、视觉自注意力（Transformer）路径提取图像的全局相关性特征，卷积神经网络路径提取图像的局部相关性特征。

卷积神经网络是通过固定尺寸的卷积核在输入特征层通过滑动卷积的方式进行计算。其计算方式决定了卷积神经网络的感受野(local receptive fields)是局部的，因此卷积神经网络有着较强的局部特征提取能力。但是由于复杂的水下环境、背景多变、鱼类运动、光线不足等因素，往往导致出现水下图像的对比度低、成像质量差等问题。面对水下多变的背景环境，提取更多的全局特征会更有利于目标检测精度的提升，卷积神经网络因其感受野是局部的，无法更为高效的提取图像的全局特征。视觉自注意力（Transformer）将图像和过程特征图切分生成很多patches，然后输入到Patch Embedding和TransformerEncoder等模块中进行特征提取。视觉Transformer的图像处理过程决定其感受野是全局的。全局感受野的优势在于可以更好的提取全局特征信息和全局相关性信息，更加高效的对目标和背景进行分类，减少将背景物体误判成目标的概率。因此图像输入目标检测主干网络后，将被有效的提取全局和局部相关性信息，进而有效提高目标检测精度。

S4、将全局相关性特征和局部相关性特征融合的特征图输入后续目标检测网络，输出带有位置和分类信息的目标检测结果。

在主干网络中，特征融合模块将有效融合全局相关性特征和局部相关性特征，并输入到后续目标检测网络中，本实例中使用经典二阶检测算法Cascade R-CNN作为水下鱼类目标检测基础网络架构，并在其基础上进行优化设计。目标检测主干网络DP-PVT生成四个特征融合的输出特征FI₁、FI₂、FI₃和FI₄，通过目标检测网络的颈部（neck）组件进一步进行特征融合，生成五个输出特征C₁、C₂、C₃、C₄和C₅，并输入到网络的RPN组件中进行候选框的筛选，根据候选框信息从五个输出特征中截取候选区域特征层，输入到多级检测器中进行目标的分类和定位，输出带有位置和分类信息的目标检测结果。

本发明的水下目标检测方法，通过主干网络DP-PVT对输入待测图像的全局相关性特征和局部相关性特征进行提取，并通过特征融合模块对提取的全局和局部特征进行融合，从而提高了目标检测的精度。

在一个实施例中，水下目标检测方法主干网络DP-PVT的框架如图2所示。本实例以PVT v2作为主干网络的一个路径，在主干网络中添加一条卷积神经网络路径，设计了一种双路径金字塔视觉Transformer(DP-PVT)主干网络。考虑到自注意力（Transformer）在视觉任务中能取得优势的原因是其对输入图片全局相关性特征的提取能力。在复杂背景的水下环境中进行鱼类目标检测，提取特征时全局相关性的建立将更有利于检测器对图像进行前景和背景的区分以及显著目标的检测。但是同时会造成局部相关性的弱化，导致自注意力（Transformer）对于小目标的检测能力较卷积神经网络有所弱化。因此加入卷积神经网络路径，增强网络的局部特征提取能力。主干网络DP-PVT由四个DP-PVT Block组成，每个DP-PVT Block中包含Conv Stage、PVTv2 Stage和Feature Interaction三部分组成。ConvStage、PVTv2 Stage分别作为两个分支进行特征提取，Feature Interaction对两个分支特征图进行融合。PVTv2 Stage1-4（视觉自注意力路径中的四个特征提取模块）用于提取特征图的全局相关性，Conv Stage1-4（卷积神经网络路径中的四个特征提取模块）用于增强特征图的局部相关性。特征融合的目的是在保留部分输出特征图中全局相关性的同时，增强模型输出特征图中的局部相关性信息，进一步提高模型的检测性能。其中，如图2所示，水下鱼类图像分别输入视觉自注意力路径的第一个特征提取模块（PVTv2 Stage1）和卷积神经网络路径的第一个特征提取模块（Conv Stage1），视觉自注意力路径的第一个特征提取模块的输出特征与卷积神经网络路径的第一个特征提取模块的输出特征经第一特征融合子模块（Feature Interaction 1）融合后，得到第一输出特征；将第一输出特征输入至目标检测网络模型；将第一输出特征分别输入视觉自注意力路径的第二个特征提取模块（PVTv2Stage2）和卷积神经网络路径的第二个特征提取模块（Conv Stage2），视觉自注意力路径的第二个特征提取模块的输出特征与卷积神经网络路径的第二个特征提取模块的输出特征经第二特征融合子模块（Feature Interaction 2）融合后，得到第二输出特征；将第二输出特征输入至目标检测网络模型；将第二输出特征分别输入视觉自注意力路径的第三个特征提取模块（PVTv2 Stage3）和卷积神经网络路径的第三个特征提取模块（Conv Stage3），视觉自注意力路径的第三个特征提取模块的输出特征与卷积神经网络路径的第三个特征提取模块的输出特征经第三特征融合子模块（Feature Interaction 3）融合后，得到第三输出特征；将第三输出特征输入至目标检测网络模型；将第三输出特征分别输入视觉自注意力路径的第四个特征提取模块（PVTv2 Stage4）和卷积神经网络路径的第四个特征提取模块（Conv Stage4），视觉自注意力路径的第四个特征提取模块的输出特征与卷积神经网络路径的第四个特征提取模块的输出特征经第四特征融合子模块（Feature Interaction 4）融合后，得到第四输出特征；将第四输出特征输入至目标检测网络模型。

Conv Stage组件由一个Resnet50中的bottleneck（瓶颈层）、一个3*3的深度卷积层(Depthwise Convolution)、两个1*1的卷积层和一个最大池化层组成。Conv Stage的计算公式如下所示。

CS(x _in)=MaxPooling(cov(DWconv(conv(Bottleneck(x _in)))))

其中，x _in是特征输入层，CS(x _in)为Conv Stage i的输出特征，conv(*)为卷积处理，MaxPooling(*)为最大池化处理，DWconv(*)为深度卷积处理，Bottleneck(x _in)为瓶颈处理。

PVTv2 Stage组件的所有参数设置与PVTv2-b0参数设置一致。如图2所示，PVTv2Stage由Patch Embedding和自注意力（Transformer） Encoder两部分组成。

Patch Embedding首先通过一个卷积层实现对特征图的patch划分以及特征图的下采样。特征图维度从

变换为

，即

。其中，

和

是stage i-1特征图的高和宽，

为stage i的特征图下采样步长，

分别为4、2、2和2，

为stage i的特征图维度，

分别为32、64、160和256。Patch Embedding的Linear层将三维特征图

变换为

的二维特征图，即实现了reshape操作。Patch Embedding在stage i的计算公式如下所示。

其中，

是特征输入层，Norm为layer normalization操作，

为Patch Embedding的输出特征，Linear(*)为Linear层操作。

在自注意力（Transformer） Encoder组件中，SRA是指spatial reductionattention（空间还原注意力），与multi-head attention(MHA)类似。SRA接收一个查询Q、一个键K和一个值V作为输入。SRA通过在attention操作之前降低键K和值V的空间尺度，从而降低运算成本。SRA在stage i的计算公式如下所示。

其中，

是concatenation operation（串联运算），

，

，

和

是线性映射参数(linear projectionparameters)。N _i为stage i的MHA中head的个数，N _i分别为1、2、5和8，因此每个head的维度为：

。

是减少输入序列空间尺度的操作，公式如下：

。

其中，

是输入矩阵。R _i是SRA中的参数reduction ratio，在模型中分别为8、4、2和1。

是将输入x _in reshaping成

。

是线性映射参数，通过与

矩阵相乘得到矩阵大小为

。x _in的矩阵大小从

缩小为

。Attention的计算公式是：

在自注意力（Transformer） Encoder组件中，Feed Forward Network（FFN）由两次线性变换（linear transformation）组成。可以通过两个1*1的卷积核在三维特征图上实现。FFN在stage i的计算公式如下所示：

因此自注意力（Transformer） Encoder的计算公式为：

其中A_{i_out}为过程函数，TE_i(x _in)为自注意力（Transformer） Encoder的输出特征，SRA(*)为空间还原注意力处理。因此PVTv2 Stage i的特征输出计算公式为：

Feature Interaction组件的公式如下所示。

其中，CS_i(x _in)为Conv Stage i的输出特征，PS_i(x _in)为PVTv2 Stage i的输出特征，FI_i(x _in)为Feature Interaction i的输出特征。

本发明实例的水下鱼类目标检测方法的框架图如图3所示。实例使用经典二阶检测算法Cascade R-CNN作为水下鱼类目标检测基础网络，并设计命名为双路径金字塔视觉自注意力（Transformer）鱼网络(DP-FishNet)。网络结构由backbone、颈部、RegionProposal Network (RPN)和RoI Head四部分组成。其中，RoI Head中包含了RoI Align和Cascade R-CNN Head。网络的backbone使用DP-PVT。

在一个实施例中，将四个融合的输出特征，通过目标检测网络的颈部（neck）组件进一步进行特征融合，生成五个输出特征，并输入到网络的RPN组件中进行候选框的筛选，根据候选框信息从五个输出特征中截取候选区域特征层，输入到多级检测器中进行目标的分类和定位，输出带有位置和分类信息的目标检测结果。

考虑到目标检测器的颈部（neck）部分是卷积神经网络结构，例如FPN(FeaturePyramid Network)和PAN等颈部（neck）结构的特征上采样是关键步骤。如何高效利用特征图的信息进行上采样，减少特征信息损失，对于目标检测等密集的预测任务十分重要。本实例在模型上采样时使用内容感知的特征重组特征内容感知重组（Carafe），作为通用且轻量的上采样操作，特征内容感知重组（Carafe）相比于最近邻插值和双线性插值方法不同。它可以在更大的接受域内聚合上下文信息。同时特征内容感知重组（Carafe）可以根据特征图不同位置的特征信息生成自适应的卷积内核，从而利用更多的特征信息。然而针对更为复杂的上采样操作，特征内容感知重组（Carafe）并未增加过多的计算开销，可以作为轻量化的操作符加入到网络结构中。

将四次融合后的输出特征FI₁、FI₂、FI₃和FI₄输入到目标检测网络的颈部（neck）组件中，FI₁、FI₂、FI₃和FI₄通过特征内容感知重组（Carafe）上采样、Max pooling、卷积层、批归一化层（Batch Normalization）等操作生成特征图C₁、C₂、C₃、C₄和C₅，其中C₁、C₂和C₃的生成使用到了特征内容感知重组（Carafe）上采样操作符。C₁、C₂、C₃、C₄和C₅的计算公式为：

其中，

是上采样操作符特征内容感知重组（Carafe），该操作符可以有效的利用主干网络提取的特征信息，保留更多的特征图语义信息；FIF₁、FIF₂、FIF₃和FIF₄为输出特征FI₁、FI₂、FI₃和FI₄层的输出特征。特征内容感知重组（Carafe）上采样的超参数中，up_kernel设置为5，encoder_kernel设置为3，compressed_channels设置为64。

在一个实施例中，将水下鱼类待测图片输入到该目标检测模型之前，需要将具有标注信息的水下鱼类检测数据集输入到初始化参数的目标检测模型中，设置网络训练过程中的超参数，以正确的标注信息作为真实值，和网络预测值之间进行损失计算，从而对模型进行训练。

本实施例按照0.85：0.15的划分比例将带有标注信息的水下鱼类图像划分为训练集和验证集，其中训练集图片4487张，验证集图片792张。使用Adamw作为优化器，初始学习率为10^-4，权重衰减为10^-4。模型训练时均未使用预训练权重文件，以随机种子的方式随机设置网络权重参数并重新训练。模型训练总轮次为72轮，第55轮开始学习率下降为10^-5，第69轮开始学习率下降为10^-6。

使用多尺度训练策略对模型进行训练。针对水下鱼类中尾部类别样本量过少的问题，实施例使用多尺度训练策略(muti-scale training)。通过多尺度数据增强，输入图片以0.5的概率被随机调整大小，图片尺寸被调整为高度最少480像素最多800像素，同时宽度不超过1333像素，从而帮助主干网络进行更充分的全局特征的学习。另外输入图片有0.5的概率被调整大小后随机裁剪成图像子块，并且子块再次进行尺寸调整。

在一个实施例中，设置基础检测框架Cascade R-CNN训练配置，模型训练的分类损失函数设置为跷板损失（Seesaw loss），边界框的回归损失设置为SmoothL1Loss。

跷板损失（Seesaw loss）的计算公式如下所示：

其中，

是独热编码标签，

是分类器的预测logits，

是分类器的归一化预测值。

对于一个第i种类的样本，它施加在第j类上的负样本梯度为：

其中，

作为一个平衡系数，通过调节

的大小，可以增加或者减少第i类样本施加在第j类样本的负样本梯度值，达到平衡正负样本梯度的效果。当存在样本不平衡问题时，头部类别样本会对尾部类别施加过量的负样本梯度，可以通过降低

值使其小于1，有效减少头部样本对尾部样本施加的负样本梯度。

由于鱼类种群数量差距较大，水下鱼类目标检测精度很大程度上受限于鱼类种类的样本不均衡问题，即长尾问题。本实施例通过使用跷板损失（Seesaw loss）解决样本不均衡问题。尾部类别上的正负样本梯度的不平衡是影响长尾检测性能的关键因素之一。由于训练过程中，头部类别样本（样本量多）会对尾部类别样本（样本量少）施加过量的负样本梯度，从而覆盖了尾部类别本身的正样本梯度。这种问题导致分类器对尾部类别的响应降低，从而进一步降低分类精度。跷板损失（Seesaw loss）通过训练过程中累计的尾部类别数量和头部类别数量的比值，作为头部类别施加在尾部类别的负样本梯度的系数。它平衡了类别间的正负样本梯度，进而提升尾部类别的分类准确率。

下面对本发明的水下目标检测装置进行描述。

图4是本发明提供的水下鱼类目标检测装置的结构示意图，如图4所示，该水下鱼类目标检测装置包括：图像采集模块3和图像处理模块4。图像采集模块3用于采集水下待测鱼类图像。图像处理模块4集成了上述水下目标检测方法，将水下鱼类图像同时输入到目标检测主干网络的两条路径：视觉自注意力（Transformer）路径和卷积神经网络路径；视觉自注意力（Transformer）路径提取图像的全局相关性特征，卷积神经网络路径提取图像的局部相关性特征；将全局相关性特征和局部相关性特征融合的特征图输入后续目标检测网络，输出带有位置和分类信息的目标检测结果；其中，所述目标检测网络模型，通过带有正确标注信息的水下鱼类图像数据集训练得到。

更进一步图像采集模块3中包括了水下相机31、光源32和光照度变送器33。水下相机31、光源32和光照度变送器33分别与图像处理模块4相连接。水下相机31用于水下鱼类拍摄，光源32用于为受拍摄的水下环境提供光照，光照度变送器33用于感知水下环境的光照强度，反馈到控制端并控制光源的光照强度，起到调节光源的光照强度的作用。光照度变送器33包括光照度传感器、微控制器以及通信接口，微控制器与光照度传感器和通信接口分别相连，微控制器能够控制光照度传感器采集数据，并通过通信接口将光照度传感器采集的数据传递给水下鱼类目标检测装置。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810、通信接口820和存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行水下鱼类目标检测方法，该方法包括：采集水下鱼类图像；将水下鱼类图像同时输入到目标检测主干网络的两条路径：视觉自注意力（Transformer）路径和卷积神经网络路径；视觉自注意力（Transformer）路径提取图像的全局相关性特征，卷积神经网络路径提取图像的局部相关性特征；将全局相关性特征和局部相关性特征融合的特征图输入后续目标检测网络，输出带有位置和分类信息的目标检测结果；其中，所述目标检测网络模型，通过带有正确标注信息的水下鱼类图像数据集训练得到。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述提供的水下鱼类目标检测方法，该方法包括：采集水下鱼类图像；将水下鱼类图像同时输入到目标检测主干网络的两条路径：视觉自注意力（Transformer）路径和卷积神经网络路径；视觉自注意力（Transformer）路径提取图像的全局相关性特征，卷积神经网络路径提取图像的局部相关性特征；将全局相关性特征和局部相关性特征融合的特征图输入后续目标检测网络，输出带有位置和分类信息的目标检测结果；其中，所述目标检测网络模型，通过带有正确标注信息的水下鱼类图像数据集训练得到。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的水下鱼类目标检测方法，该方法包括：采集水下鱼类图像；将水下鱼类图像同时输入到目标检测主干网络的两条路径：视觉自注意力（Transformer）路径和卷积神经网络路径；视觉自注意力（Transformer）路径提取图像的全局相关性特征，卷积神经网络路径提取图像的局部相关性特征；将全局相关性特征和局部相关性特征融合的特征图输入后续目标检测网络，输出带有位置和分类信息的目标检测结果；其中，所述目标检测网络模型，通过带有正确标注信息的水下鱼类图像数据集训练得到。

基于上述描述，相对于现有技术，本发明具有以下优点：

1.本发明有效的提取并融合了输入图片的全局相关性特征和局部相关性特征，增强了特征提取和复用能力，从而提高目标检测方法的检测精度。

2.本发明以PVTv2网络中的轻量化网络PVTv2-b0为基础网络，模型更加轻量化，进而有效提升了检测速度。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种水下鱼类目标检测方法，其特征在于，包括：

2.根据权利要求1所述的水下鱼类目标检测方法，其特征在于，所述将所述水下鱼类图像输入至所述目标检测主干网络中得到融合特征，具体包括：

3.根据权利要求2所述的水下鱼类目标检测方法，其特征在于，所述特征融合模块包括：第一特征融合子模块、第二特征融合子模块、第三特征融合子模块和第四特征融合子模块；所述视觉自注意力路径和所述卷积神经网络路径均包括四个特征提取模块；

4.根据权利要求3所述的水下鱼类目标检测方法，其特征在于，所述将所述融合特征输入至目标检测网络模型得到目标检测结果，具体包括：

5.根据权利要求4所述的水下鱼类目标检测方法，其特征在于，所述将所述第一输出特征、所述第二输出特征、所述第三输出特征和所述第四输出特征输入至所述目标检测网络模型的颈部组件进行特征融合，得到第五输出特征，具体包括：

6.根据权利要求1所述的水下鱼类目标检测方法，其特征在于，采用带有标注信息的水下鱼类图像数据集训练所述目标检测网络模型时，设置网络训练过程中的超参数，以标注信息为真实值和网络训练过程中的预测值进行损失计算。

7.根据权利要求6所述的水下鱼类目标检测方法，其特征在于，采用带有标注信息的水下鱼类图像数据集训练所述目标检测网络模型时，设置网络训练过程中的超参数，以标注信息为真实值和网络训练过程中的预测值进行损失计算，使用跷板损失分类损失对模型进行训练。

8.根据权利要求1所述的水下鱼类目标检测方法，其特征在于，采用带有标注信息的水下鱼类图像数据集训练所述时，设置网络训练过程中的超参数，使用多尺度训练策略对所述目标检测网络模型进行训练。

9.一种水下鱼类目标检测装置，其特征在于，包括：

图像采集模块，用于获取水下鱼类图像；

图像处理模块，与所述图像采集模块连接，植入有实施如权利要求1-8任意一项所述的水下鱼类目标检测方法的计算机执行程序，用于基于所述水下鱼类图像得到目标检测结果。

10.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；所述处理器、所述通信接口和所述存储器通过通信总线完成相互间的通信；所述处理器用于调用所述存储器中存储的逻辑指令，以执行如权利要求1-8任意一项所述的水下鱼类目标检测方法。