CN117078637A

CN117078637A - 基于上下文聚合与自蒸馏的鱼群计数方法及系统

Info

Publication number: CN117078637A
Application number: CN202311057518.4A
Authority: CN
Inventors: 马昕; 刘涵池; 姜文鑫; 于弋甯; 汤庆凯
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-17

Abstract

本发明公开的基于上下文聚合与自蒸馏的鱼群计数方法及系统，包括：获取鱼群图像；对鱼群图像进行特征提取，获得初始空间特征图；从初始空间特征图中提取局部上下文信息和全局上下文信息；将局部上下文信息和全局上下文信息进行拼接，并通过密度回归模块生成密度图，其中，密度回归模块包括多个级联回归块和一个卷积层，每个回归块对输入特征进行卷积和转置卷积，多个回归块的卷积进行级联，最后一个回归块卷积后特征经卷积层卷积后，生成密度图，每个回归块转置卷积后特征输入自蒸馏模块中，在自蒸馏模块中，利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征；根据密度图，获得鱼群计数结果。实现了对鱼群的准确计数。

Description

基于上下文聚合与自蒸馏的鱼群计数方法及系统

技术领域

本发明涉及鱼群计数技术领域，尤其涉及基于上下文聚合与自蒸馏的鱼群计数方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

养殖环境中准确的鱼群计数有助于水产养殖管理者监测鱼类各生长阶段的养殖密度，制定精准的饲养策略。传统的鱼群计数主要依靠人工采样和直接计数，不仅费时费力，还可能会损害鱼群的正常生长。基于机器视觉的非侵入式鱼类监测方法能够避免破坏鱼类的正常生长，已经逐渐取代了传统的人工计数方法，并广泛应用于水产养殖和海洋环境中。

如利用边缘检测、分水岭算法等传统图像分割方法对获取的鱼群图像进行分割鱼类目标，然后结合目标斑点计数或量化鱼类所占据的区域面积估计鱼群数量。但是该种方法存在易受背景噪声影响、难以分割粘连或重叠目标、依赖手工阈值设置或特征提取等问题。

随着深度学习技术的快速发展，深度神经网络也在鱼群计数领域得到广泛应用。目前，水产养殖中基于深度神经网络的鱼群计数方法主要分为两类：基于目标检测的鱼群计数与基于密度估计的鱼群计数。基于目标检测的鱼群计数为利用基于深度神经网络的目标检测算法对图像中的鱼进行识别和定位，然后通过计算包围框的数量估计鱼群计数。然而，基于目标检测的算法主要适用于低密度场景，在鱼群频繁重叠的密集情况下难以准确检测鱼类，使得鱼群计数不准确。

基于密度估计的鱼群计数方法为将鱼群图像映射成相应的密度图，然后通过整合密度图估计图像中鱼群的总数。然而，现有基于密度估计的鱼群计数方法往往仅适用于图像中鱼类尺度变化较小且背景均匀的水产养殖场景。其在应用至复杂深远海养殖鱼群计数时仍存在以下限制：(1)深远海养殖网箱覆盖水域广阔，水下相机视角较大。由于相机透视以及相机相对于网箱中自由游动的鱼的不同距离，深远海养殖网箱获取的水下鱼群图像中个体鱼类的像素尺度在大范围内密集变化，从几个像素到几千个像素。这种极端的尺度变化使得鱼群计数模型难以从图像中提取通用性特征以准确计数鱼群。尽管现有的鱼群计数方法采用了不同卷积核大小的多列深度网络来提取鱼类的多尺度特征，但他们从不同列中提取的特征高度相似并且引入了训练负担；(2)由于光线角度的变化和网箱中心立柱的遮挡，深远海养殖网箱中获取的水下鱼群图像中出现了明显的不均匀背景光照，这导致一些鱼被淹没在具有高相似度的局部背景区域中。在这种情况下，如果只关注像素周围的相邻信息，即局部上下文，难以识别图像低对比度区域中的鱼；(3)现有的基于密度估计的鱼群计数方法只使用密度图标签监督网络的最后一层，容易导致浅层网络的监督不力，表征不足；导致基于密度估计的鱼群计数方法不能实现对鱼群的准确计数。

发明内容

本发明为了解决上述问题，提出了基于上下文聚合与自蒸馏的鱼群计数方法及系统，提取了鱼群图像的局部上下文信息和全局上下文信息，根据局部上下文信息和全局上下文信息生成密度图，并且在生成密度图时引入了自蒸馏策略，使得最终获得的密度图能够包含更多的鱼类特征信息，保证鱼群计数的准确性。

为实现上述目的，本发明采用如下技术方案：

第一方面，提出了基于上下文聚合与自蒸馏的鱼群计数方法，包括：

获取鱼群图像；

对鱼群图像进行特征提取，获得初始空间特征图；

从初始空间特征图中提取局部上下文信息和全局上下文信息；

将局部上下文信息和全局上下文信息进行拼接，并通过密度回归模块生成密度图，其中，密度回归模块包括多个级联回归块和一个卷积层，每个回归块对输入特征进行卷积和转置卷积，多个回归块的卷积进行级联，最后一个回归块卷积后特征经卷积层卷积后，生成密度图，每个回归块转置卷积后特征输入自蒸馏模块中，在自蒸馏模块中，利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征；

根据密度图，获得鱼群计数结果。

第二方面，提出了基于上下文聚合与自蒸馏的鱼群计数系统，包括：

鱼群图像获取模块，用于获取鱼群图像；

鱼群图像特征提取模块，用于对鱼群图像进行特征提取，获得初始空间特征图；

上下文信息获取模块，用于从初始空间特征图中提取局部上下文信息和全局上下文信息；

密度图生成模块，用于将局部上下文信息和全局上下文信息进行拼接，并通过密度回归模块生成密度图，其中，密度回归模块包括多个级联回归块和一个卷积层，每个回归块对输入特征进行卷积和转置卷积，多个回归块的卷积进行级联，最后一个回归块卷积后特征经卷积层卷积后，生成密度图，每个回归块转置卷积后特征输入自蒸馏模块中，在自蒸馏模块中，利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征；

鱼群计数模块，用于根据密度图，获得鱼群计数结果。

第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成基于上下文聚合与自蒸馏的鱼群计数方法所述的步骤。

第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成基于上下文聚合与自蒸馏的鱼群计数方法所述的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明提取了鱼群图像的局部上下文信息和全局上下文信息，根据局部上下文信息和全局上下文信息生成密度图，并且在生成密度图时引入了自蒸馏策略，使得最终获得的密度图能够包含更多的鱼类特征信息，保证鱼群计数的准确性。

2、本发明通过局部多尺度上下文聚合模块从初始空间特征图中提取局部上下文信息，局部多尺度上下文聚合模块包括多层空洞卷积层，初始空间特征图输入每一个空洞卷积层中，每个空洞卷积层的输出特征图还输入空洞卷积层之后的所有空洞卷积层中；初始空间特征图与所有空洞卷积层输出特征图进行拼接，输出局部上下文信息，该局部上下文信息不仅涵盖了大范围感受野的上下文信息，而且以非常密集的方式覆盖该范围。通过全局上下文聚合模块从初始空间特征图中提取全局上下文信息，对局部上下文信息进行补充，来增强鱼类鉴别性表征信息，将全局上下文信息和局部上下文信息进行拼接后，能够获得不同大小和背景光照的鱼类的稳健特征，当利用该特征进行鱼类计数时，提高了鱼类计数的准确性。

3、本发明引入了自蒸馏策略，利用网络较深层的特征图来监督浅层的特征图，在不增加推理时间的条件下改善网络模型的表征学习，进一步提高鱼群计数的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为实施例公开的养殖网箱；

图2为实施例公开的数据采集系统示意图；

图3为实施例公开的视频1中的水下鱼群图像；

图4为实施例公开的视频2中的水下鱼群图像；

图5为实施例公开的视频1中的水下鱼群图像的密度图；

图6为实施例公开的LGSDNet的总体架构图；

图7为实施例公开的LCMAM的总体架构图；

图8为实施例公开的GCAM的总体架构图；

图9为实施例公开的第一低密度鱼群图像；

图10为实施例公开的第一中密度鱼群图像；

图11为实施例公开的第一高密度鱼群图像；

图12为实施例公开的第一低密度鱼群图像的密度图标签；

图13为实施例公开的第一中密度鱼群图像的密度图标签；

图14为实施例公开的第一高密度鱼群图像的密度图标签；

图15为实施例公开的采用基线获得的第一低密度鱼群计数结果；

图16为实施例公开的采用基线获得的第一中密度鱼群计数结果；

图17为实施例公开的采用基线获得的第一高密度鱼群计数结果；

图18为实施例公开的采用LGSDNet获得的第一低密度鱼群计数结果；

图19为实施例公开的采用LGSDNet获得的第一中密度鱼群计数结果；

图20为实施例公开的采用LGSDNet获得的第一高密度鱼群计数结果；

图21为实施例公开的第二低密度鱼群图像；

图22为实施例公开的第二中密度鱼群图像；

图23为实施例公开的第二高密度鱼群图像；

图24为实施例公开的第二低密度鱼群图像的密度图标签；

图25为实施例公开的第二中密度鱼群图像的密度图标签；

图26为实施例公开的第二高密度鱼群图像的密度图标签；

图27为实施例公开的采用MAN获得的第二低密度鱼群计数结果；

图28为实施例公开的采用MAN获得的第二中密度鱼群计数结果；

图29为实施例公开的采用MAN获得的第二高密度鱼群计数结果；

图30为实施例公开的采用HDNN获得的第二低密度鱼群计数结果；

图31为实施例公开的采用HDNN获得的第二中密度鱼群计数结果；

图32为实施例公开的采用HDNN获得的第二高密度鱼群计数结果；

图33为实施例公开的采用CSRNet获得的第二低密度鱼群计数结果；

图34为实施例公开的采用CSRNet获得的第二中密度鱼群计数结果；

图35为实施例公开的采用CSRNet获得的第二高密度鱼群计数结果；

图36为实施例公开的采用LGSDNet获得的第二低密度鱼群计数结果；

图37为实施例公开的采用LGSDNet获得的第二中密度鱼群计数结果；

图38为实施例公开的采用LGSDNet获得的第二高密度鱼群计数结果；

图39为实施例公开的第三低密度鱼群图像；

图40为实施例公开的第三中密度鱼群图像；

图41为实施例公开的第三低密度鱼群图像的密度图标签；

图42为实施例公开的第三高密度鱼群图像的密度图标签；

图43为实施例公开的采用LGSDNet获得的第三低密度鱼群计数结果；

图44为实施例公开的采用LGSDNet获得的第三中密度鱼群计数结果。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1

鱼群计数是深远海养殖的基本任务。然而，水下图像中鱼类的显著尺度变化以及非均匀背景光照极大限制了深远海养殖鱼群的计数精度。为了克服这些问题，本实施例公开了基于上下文聚合与自蒸馏的鱼群计数方法，包括：

获取鱼群图像；

对鱼群图像进行特征提取，获得初始空间特征图；

根据密度图，获得鱼群计数结果。

在具体实施时，如图2所示，通过水下相机捕获水下鱼群视频，每隔设定帧数从鱼群视频中提取一帧图像，获得鱼群图像。其中，水下相机捕获的视频分辨率为1920×1080像素，帧率为25fps，设定帧数为15帧。

本实施例利用基于局部-全局上下文聚合与自蒸馏的深度神经网络(deep neuralnetwork with local-global context aggregation and self-distillation for fishcounting in deep-sea aquaculture,LGSDNet)将鱼群图像生成密度图。

如图6所示，LGSDNet以鱼群图像为输入，以端到端的方式将鱼群图像映射为高质量的密度图，然后通过整合密度图得到鱼群的数量。LGSDNet包括特征提取模块(featureextraction module,FEM)、局部-全局上下文聚合模块(local-global contextaggregation module,LGCAM)、密度回归模块(density regression module,DRM)和自蒸馏模块(self-distillation module,SDM)。

其中，通过FEM对鱼群图像进行特征提取；FEM以鱼群图像为输入，以初始空间特征图为输出，采用VGG16的前十层构建获得。

LGCAM以FEM输出的初始空间特征图为输入，从局部和全局角度聚合图像的上下文信息，用于鱼类多样性特征提取，从而捕捉不同大小和背景光照的鱼类的稳健特征。LGCAM包含两个并行分支：局部多尺度上下文聚合模块(LCMAM)和全局上下文聚合模块(GCAM)。通过LCMAM从初始空间特征图中提取局部上下文信息，通过GCAM从初始空间特征图中提取全局上下文信息。LCMAM利用密集连接的具有不同感受野的空洞卷积提取和聚集初始空间特征图中大范围感受野上的丰富的多尺度局部上下文信息，GCAM被用来聚合初始空间特征图中的全局上下文信息，以对局部上下文进行补充，增强鱼类鉴别性表征。最后，将包含全局信息和丰富的局部背景信息的特征拼接起来作为输出，从而得到不同大小和背景光照的鱼类的稳健特征。

由于相机透视以及深远海养殖网箱中自由游动的鱼距离相机的不同距离，网箱中相似尺寸的鱼在水下鱼群图像上的像素尺度具有显著差异。并且，由于深远海养殖鱼群数量较多，鱼的尺度变化较为密集。因此，本实施例提出了LCMAM，以利用密集连接的具有不同感受野的空洞卷积，在大范围的接受野内聚合丰富的多尺度局部上下文信息，从而有效地处理图像中鱼类的显著尺度变化。

如图7所示，局部多尺度上下文聚合模块以初始空间特征图为输入，包括多层空洞卷积层，多层空洞卷积层的空洞率均不相同，且空洞卷积层的空洞率逐层增加。初始空间特征图输入每一个空洞卷积层中，每个空洞卷积层的输出特征图还输入空洞卷积层之后的所有空洞卷积层中；初始空间特征图与所有空洞卷积层输出特征图进行拼接，输出局部上下文信息。

优选的，LCMAM包含四层空洞卷积层，LCMAM密集连接了输入的初始空间特征图和四个不同空洞率的空洞卷积层，空洞卷积的空洞率逐层增加。每个空洞卷积层的输出特征图与输入的初始空间特征图和该空洞卷积层之前的所有空洞卷积层的输出特征图相连接，然后被送入下一个空洞卷积层。最后，将输入的初始空间特征图与所有空洞卷积层的输出特征图进行拼接，得到最终的局部上下文信息。通过这种方式，最后集成的局部上下文信息不仅涵盖了大范围感受野的上下文信息，而且以非常密集的方式覆盖该范围。

所有空洞卷积的卷积核均为3×3，不同空洞卷积层的空洞率分别设为2、4、6、8。为控制网络模型参数量和防止网络增长的过快，在输入的初始空间特征图之后，在每一层空洞卷积层之前均设置一个卷积核为1×1的卷积层，通过该卷积层对输入空洞卷积层的特征进行通道压缩，将输入特征图的深度减少到原来的一半，卷积后特征输入空洞卷积层中。每层的通道数被设置为{128,128,128，128}。此外，每个卷积后面都有一个ReLU激活函数。

LCMAM以FEM生成的特征作为输入，并输出精细化的特征，这些特征包含丰富的具有不同感受野的局部上下文信息,并且与输入特征具有相同的空间分辨率。

本实施例利用有效和轻量级的全局上下文聚合模块(GCAM)从初始空间特征图中提取全局上下文信息，来捕捉所有鱼类的长距离依赖性，进行全局上下文建模，增强鱼类特征。

全局上下文聚合模块以初始空间特征图为输入，从初始空间特征图中提取与查询无关的注意力权重图，并将注意力权重图与初始空间特征图相乘，获得全局上下文初始特征；对全局上下文初始特征进行压缩后恢复，获得全局上下文特征图；将全局上下文特征图与初始空间特征图相加后输出全局上下文信息。

优选的，利用第一个卷积层对全局上下文初始特征的通道进行压缩，对压缩后特征进行归一化，利用第二个卷积层对归一化后特征进行通道恢复，获得全局上下文特征图，全局上下文特征图通道数与全局上下文初始特征通道数相同。

如图8所示，全局上下文聚合模块包括全局上下文建模模块、瓶颈变换模块和特征融合模块，其中，全局上下文建模模块首先使用1×1卷积层和SoftMax激活函数从初始空间特征图中提取与查询无关的注意力权重图，然后通过将权重图与输入的初始空间特征图的相应点相乘，将全局上下文特征建模为所有位置的加权平均，获得全局上下文初始特征。瓶颈变换模块由两个1×1卷积层组成，其用以提取全局上下文特征的通道依赖性。具体来说，为了降低模型的复杂性，采用第一个卷积核为1×1的卷积层将输入的全局上下文初始特征的通道从c压缩到c/r，r>1，第二个卷积核为1×1的卷积层用于将压缩后特征的通道从c/r恢复到c，获得全局上下文特征图，优选的，超参数r被设定为4。此外，在第一个卷积核为1×1的卷积层之后的层归一化被用来简化优化，增加模型的泛化能力。最后，特征融合模块将全局上下文特征图与输入的初始空间特征图的逐个元素相加以捕获图像中的长距离依赖，得到最终的全局上下文信息，进行输出。

将局部上下文信息和全局上下文信息进行拼接，作为LGCAM的输出，从而得到不同大小和背景光照的鱼类的稳健特征。

将LGCAM的输出输入密度回归模块(DRM)中，通过DRM生成密度图。

具体的，密度回归模块包括多个级联回归块和一个卷积层，每个回归块对输入特征分别进行卷积和转置卷积，多个回归块的卷积进行级联，最后一个回归块卷积后特征经卷积层卷积后，生成密度图；每个回归块转置卷积后特征输入自蒸馏模块中。

优选的，DRM包括三个级联回归块和一个卷积核为1×1的卷积层，每个回归块包含一个卷积核为3×3的卷积层和一个卷积核为4×4的转置卷积层，首先通过卷积层对输入回归块的特征进行特征提取，获得卷积后特征，继而通过转置卷积层对输入回归块的特征进行上采样，获得转置卷积后特征。三个回归块的卷积层进行级联，实现三个回归块的级联，最后一个回归块获得的卷积后特征经卷积核为1×1的卷积层卷积后，获得密度图，每个回归块的转置卷积后特征输入SDM中，SDM被用来改善网络模型的表征学习。它直接使用较深层的特征图作为目标来指导网络早期层的学习，而不增加任何额外的推理时间消耗。优选的，三个级联回归块中卷积层和转置卷积层的特征通道数依次为256，128和64。

现有的方法仅使用密度图标签对鱼群计数网络的最后一层进行监督，这会导致浅层的优化不充分，鉴别性特征较差。受自蒸馏策略的启发，本实施例提出了SDM，将深层的潜在信息作为监督信息来指导浅层的学习，然后反过来使深层和最终的密度图预测结果受益，从而在不增加推理时间的情况下增强鱼群计数网络的表征学习。

如图6所示，LGSDNet从密度回归模块的三个回归块中提取了三个输出分支，即三个转置卷积后特征，并将三个转置卷积后特征送到自蒸馏模块，以监督网络优化，自蒸馏模块对所有转置卷积后特征进行特征调整，使得调整后特征的通道和尺度相匹配，之后，将浅层回归块获得的调整后特征去模拟相邻深层回归块获得的调整后特征，实现利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征。

具体的，在自蒸馏模块中，首先利用瓶颈层对不同输出分支的转置卷积后特征进行特征调整，包括尺度调整和通道调整。具体来说，瓶颈层中的1×1卷积层首先被利用，以匹配相邻回归块之间的转置卷积后特征的通道数。由于浅层回归块输出的转置卷积后特征的大小与深层回归块不同，双线性上采样被利用来匹配相邻回归块之间的转置卷积后特征的空间尺寸。然后，采用均方误差(MSE)作为分支间的自蒸馏损失函数L_d来衡量相邻分支之间获得的调整后特征的差异，使得浅层回归块获得的调整后特征的空间信息依次去模拟相邻深层回归块获得的调整后特征的空间信息，实现利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征，图6中的虚线代表知识蒸馏的模拟方向。自蒸馏模块总体的自蒸馏损失函数L_SKD定义为：

其中，N代表一个训练批次中的图像总数，M代表回归块的数量，设置为3。F^m-1和F^m分别代表深层回归块和浅层回归块的转置卷积后特征。

本实施例构建的LGSDNet的损失函数L包括三个部分：MSE损失L_MSE、结构相似性指数(SSIM)损失L_SSIM和自蒸馏损失L_SKD。模型在最小化L的方向上进行了优化。

L＝L_MSE+L_SSIM+L_SKD (3)

MSE损失L_MSE被用来计算预测的密度图和密度图标签之间的像素级欧氏距离。该损失函数L_MSE定义为：

其中，N代表一个训练批次中的图像总数；X_i和Y_i分别代表输入图像和相应的密度图标签；θ代表所提出的模型学习的模型参数，F(X_i；θ)代表LGSDNet预测输出的密度图。

SSIM被用来量化预测的密度图和密度图标签之间的局部结构的相似性。损失函数L_SSIM定义为：

其中，μ_x和δ_x分别代表预测密度图的平均值和方差；μ_y和δ_y分别代表标签的平均值和方差；δ_xy代表密度图标签和预测密度图的协方差；C₁和C₂分别代表稳定性计算的常数参数。

自蒸馏损失被用来衡量LGSDNet较深层的特征图与较早层的特征图之间的差异，其定义见式(1)。

本实施例通过获取已有鱼群图像，并将已有鱼群图像进行标记后生成密度图，来构建数据集，通过数据集来对构建的LGSDNet进行训练和验证，训练完成的LGSDNet能够将鱼群图像准确转化为密度图。标记过程如下：

使用MATLAB代码对每幅已有鱼群图像中的每条鱼的中心进行了手工标注。在每个标注的水下鱼群图像中，如果在像素x_i处有一个鱼的实例，它可以表示为一个冲击响应函数δ(x-x_i)。因此，一个标有N条鱼的鱼群图像H(x)可表示为：

其中，x代表图像中的像素点，x_i代表图像中每条鱼的标注点的位置。

然后，自适应高斯核与该函数H(x)进行卷积，为每个水下图像生成相应的真实密度图标签F(x)，其表达方式如下：

其中，σ_i代表应用于位置i的高斯核的方差。代表每条鱼的标注点x_i与k个最近的邻居之间的平均距离，k被设置为3。β是一个可调参数，被设置为0.3。图1显示了原始水下鱼群图像，图5显示了由公式(8)得到的相应密度图。密度图中区域更明显，这意味着该区域的鱼群更密集。相反，该区域越模糊，这意味着鱼的密度越低。

在训练过程中，采用Adam作为模型的优化器，学习率设置为1e-4，批次大小为1。在训练数据集上对LGSDNet进行了100个迭代次数的训练以获得足够的参数更新，并将在验证数据集上表现最好的参数保存为最佳模型参数。

通过训练后的LGSDNet将鱼群图像生成密度图后，通过密度图，获得鱼群计数结果。

本实施例还对本实施例公开方法进行了验证，实验数据采集于位于黄海的"深蓝1号"养殖网箱。如图1所示，网箱的周长和高度分别为180米和30米。网箱内养殖的为成年大西洋鲑鱼。实验数据采集系统如图2所示。一台水下摄像机被部署在网箱的中央立柱上，与水面成一定角度，从下到上捕捉鱼群游泳视频。为了提高实验数据多样性，以一定的时间间隔在两个时间段内采集水下视频数据：2022年6月(视频1)和2022年12月(视频2)。本实验的数据是在不影响成年大西洋鲑鱼正常生长的条件下采集的，不涉及动物伦理问题。

水下相机捕获的视频分辨率为1920×1080像素，帧率为25fps。每隔15帧从视频数据中提取一帧图像以构建数据集。为了进一步减少计算，鱼群图像被调整为1280×720像素。此外，对调整后鱼群图像进行随机裁剪和水平翻转进行数据增强。最后，从视频1获取了1200张图像，从视频2获取了300张图像。视频1和视频2中提取的原始水下鱼群图像如图3、图4所示。由于相机拍摄角度的调整和各种因素的变化，如光照、水浊度以及鱼的数量和大小，视频1和视频2的水下图像之间出现了明显的场景差异。

对获取的1500张图像进行鱼标记，并生成相应的密度图，使用在不同采集时间获得的水下图像和相应的密度图，构建了两个鱼群计数数据集，称为数据集1和数据集2。数据集1包含1200张图像和相应的密度图标签。成年大西洋鲑鱼的数量从[101,259]不等，总共有206,400条鱼。将数据集1随机分为三组：1000个数据对用于训练，100个数据对用于验证，100个数据对用于测试。数据集2包含了300张图片和相应的密度图标签。成年大西洋鲑鱼的数量从[150,218]不等，共53,447条鱼。其中，200个数据对用于训练，50个数据对用于测试，50个数据对用于验证。对比实验在数据集1上进行，该数据集有足够的数据来验证LGSDNet的功效和优越性。LGSDNet的普适性用数据集2进行验证。

为了定量证明所提方法的有效性，采用了平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)来评估本实施例所提方法的性能。其中，MAE是目标计数领域中最广泛使用的评价指标之一。它被用来衡量预测鱼群数量和实际鱼群数量之间的平均差异，代表预测结果的准确性。RMSE对极值比较敏感，被用于考察模型的稳健性。MAPE不仅考虑了预测鱼群数量数和实际鱼群数量之间的差异，还考虑了该差异与图像中实际鱼群数量之间的比率，是一个更全面的评价指标。MAE、RMSE和MAPE值越小，计数准确性越高。MAE、RMSE和MAPE的定义如下：

其中，K是测试图像的总数，y_i是第i幅图像中鱼的实际数量，是第i幅图像中鱼的预测数量。

在本实施例所提出的方法中，LGCAM用以捕捉图像中的局部-全局上下文信息，其结合了LCMAM和GCAM。其中，LCMAM被用来在大范围的接收场上聚集密集的局部多尺度上下文信息。GCAM被用来建模全局上下文并捕捉图像中的长距离依赖。此外，利用SDM来进一步加强网络的表征学习，这不需要额外的推理时间。为了证明LGCAM和SDM的有效性，这些子模块被逐渐结合起来，并在数据集1的测试数据集上进行比较。基线方法表示由FEM和DRM组成的鱼群计数网络。基线+LCMAM，基线+LGCAM在基线上分别增加了一个LCMAM和一个LGCAM。基线+LGCAM+SDM代表本实施例的LGSDNet，它在基线上增加了LGCAM和SDM。为了确保公平的比较，三种方法都使用了相同的超参数和实验设置。

表1显示了不同方法的定量结果。可以看出，所有关键模块的加入均有助于提高深远海养殖鱼群计数的性能。与基线相比，引入LCMAM带来的密集的局部多尺度上下文信息后，MAE和MSE分别降低了2.4和2.65，MAPE降低了1.39％。此后，当全局上下文信息被进一步整合到所提出的鱼群计数模型中时，计数性能得到进一步改善。基线+LGCAM比基线+LCMAM的MAE低3.34，MSE低4.11，MAPE低1.78％。这证明了密集的局部多尺度上下文信息和全局信息的结合对于增强不同尺寸和背景照度的鱼类的特征表示的有效性。最后，受益于SDM中深层信息对浅层信息的监督，LGSDNet获得了最低的MAE(5.47)、MSE(7.39)和MAPE(3.32％)。与基线相比，LGSDNet将MAE和MSE分别降低了6.8和7.6，MAPE降低了3.7％。总体而言，这些定量结果显示，局部-全局上下文聚合模块和自蒸馏策略可以有效地提高深远海养殖鱼群计数的准确性。

表1.LGSDNet与其变体的性能对比

此外，为了评估LGSDNet在不同鱼群数量范围内的计数性能，将数据集1的测试数据集按照鱼群数量增加的顺序分为三个子数据集：低密度鱼群图像子数据集、中密度鱼群图像子数据集、高密度鱼群图像子数据集。表2展示了LGSDNet在三个不同密度等级上的子数据集上取得的计数结果。可以看出，LGSDNet在每个密度等级上都表现良好。LGSDNet在低密度等级获得最小的MAE和RMSE，分别为5.25和6.16，在高密度等级获得最小的MAPE，为2.74％。这些结果表明LGSDNet在不同密度等级下计数鱼群时具有良好的稳定性。

表2.LGSDNet在不同密度等级上的实验结果

为了更清楚地说明LGSDNet的效果，图7展示了一些有代表性的密度图估计和鱼群计数结果，以直观地比较LGSDNet和基线的鱼群性能。总体而言，基线和LGSDNet都能有效地描绘出不同密度的鱼群的整体空间分布。然而，可以看出，通过将LCMAM、GCM和SDRM整合到一个统一的框架中，LGSDNet获得了更接近于标签的真实密度图，整体计数误差较小。具体而言，对于鱼群分布稀疏的低密度水下场景，基线和LGSDNet都有效地估计了鱼群的总数。然而，对于水下图像中不同尺度的鱼类，LGSDNet估计的鱼群密度比基线更为准确，且质量更高。对于鱼群相对密集的更为复杂的中、高密度水下场景，LGSDNet在密度图估计和整体计数方面的优势更为明显，如图9-图20所示。对于鱼群尺寸变化较大的密集区域和背景照度过低的区域，基线方法错误地检测了一些鱼，并且低估了鱼群的区域密度。此外，基线估计的密度图也不够平滑。相比之下，LGSDNet增强了这些复杂区域的鱼类特征，准确定位了空间分布并估算了区域密度。

这受益于局部-全局上下文信息聚合和自蒸馏策略的结合，LGSDNet有效地提高了鱼群计数模型对不同大小和背景光照的各种鱼类的表现能力。然而，由于重叠、大规模变化和背景光照干扰造成的鱼类特征的不一致，这使得基线难以区分鱼类和非鱼类。总体而言，这些实验表明，本实施例的方法不仅在鱼群大规模变化和背景干扰的稀疏场景中表现出稳定性和鲁棒性，而且在密集场景中也是如此。

为进一步验证所提出的LGSDNet的有效性和优越性，将本实施例所提出的模型与现有的两种基于密度估计的鱼群计数网络和经典的人群计数网络CSRNet进行了比较。现有的两个基于密度估计的鱼群计数网络包括混合深度神经网络(HDNN)和MAN，它们使用基于深度学习的密度估计技术来处理密集的鱼群计数任务。CSRNet是一个单列神经网络，被广泛用于人群密度估计。为了确保公平的比较，三种方法都使用了相同的超参数和实验设置。

表3列出了这些方法的定量比较结果，以评价三种方法的性能。结果显示，LGSDNet提供了最低的计数误差，在所有评价指标上都优于现有的两种方法和CSRNet。与MAN和HDNN相比，MAPE分别降低了7.96％和7.22％。对这一差异的合理解释是，MAN和HDNN中使用的浅层多列深度神经网络架构所提取的特征高度相似，难以匹配鱼类的大规模变化。此外，它们也难以处理深远海养殖的水下图像中的非均匀背景光照。CSRNet使用更深的单列结构来改善特征提取,计数性能优于现有的多列深度神经网络。然而，它忽略了图像中局部多尺度上下文和全局上下文信息，以及浅层的弱监督。相比之下，LGSDNet通过聚合局部多尺度和全局上下文信息以及自蒸馏策略，大大增强了网络对深远海养殖中鱼类的特征和计数能力。LGSDNet比CSRNet得到的MAE低6.33，MSE低6.73，MAPE低3.36％。这表明LGSDNet在深远海养殖的鱼群计数方面具有优越性。

表3.LGSDNet与其他计数方法的性能比较

此外，图21-图38展示了几个具有代表性的具有不同鱼类分布的密度图和三种方法估算的计数结果，以直观地比较不同方法的性能。总体而言，所有的方法都有效地预测了不同密度的鱼类的空间分布。然而，LGSDNet估计的密度图与地面实况更一致，计数误差也更小。在MCNN和HDNN估计的不同密度等级的密度图中，有明显的错误检测的密度点。这很可能是因为在水下图像中鱼的大规模变化和非均匀背景光照的干扰下，由简单的多列深度神经网络架构提取的鱼的特征表示是不稳定的。此外，MAN的输出密度图不可避免地存在模糊和信息损失，因为它们的分辨率相对较低(MAN和DNN估计的密度图的长度和宽度分别为原始水下图像的1/4和1/8)。相比之下，CSRNet和LGSDNet明显地过滤掉了错误检测的密度点，输出了高分辨率的密度图。然而，LGSDNet提供了更清晰的密度图，计数误差更小。对于更复杂的中密度和高密度水下场景，LGSDNet在密度图估计和整体计数方面的优势更加明显，即使在鱼群大规模变化的极密集区域和背景过高、过低的区域，LGSDNet估计的鱼群区域密度仍然接近于地面实况。这证明了LGSDNet的有效性和稳定性。

为了进一步验证LGSDNet对未见过的水产养殖场景的泛化能力，我们对数据集2进行了泛化实验。由于数据集1和数据集2中的水下图像在颜色、水下图像的光照以及鱼的尺度方面存在明显的场景差异，因此很难将在一个场景的数据集上训练的基于监督学习的LGSDNet直接推广到另一个不同场景的数据集上，这通常不会产生理想的鱼群计数结。因此，为了有效地将LGSDNet推广到具有从未见过的水下图像的新数据域，采用了数据集2中的训练数据集来微调LGSDNet。这是一种典型的迁移学习方法，其目的是将数据集1中的通用性知识转移到数据集2中的新数据领域。具体来说，LGSDNet把在数据集1上训练的模型参数作为初始权重，然后在数据集2的训练数据集(200个"图像-密度图"数据对)上重新训练了100次，超参数与第4.1节中提到的相同。

定量实验结果表明，LGSDNet在数据集2的测试集上的MSE、RMSE和MAPE分别达到7.53％、9.81％和4.32％。这证明了LGSDNet通过将数据集1的知识转移到数据集2，可以有效地泛化到未见过的水产养殖场景。此外，可视化结果如图39-图44所示。可以看出，经过微调的LGSDNet在鱼群大规模变化和背景光照不均匀的情况下，对图像中相对稀疏和拥挤的区域都获得了满意的鱼群计数结果和可靠的高分辨率密度图。尽管如此，LGSDNet在转移到不同水产养殖场景时，需要对不同水产养殖场景的水下图像进行充分的注释。在未来，应该使用半监督和无监督的领域适应方法来进一步减少未见过的数据领域的注释负担。

故本实施例公开方法提出了LGCAM，其结合了并行工作的LMCAM和GCAM，以聚合图像中密集的局部多尺度上下文信息和全局上下文信息，促使该网络对图像中具有不同尺寸和背景光照的鱼类提取稳健特征表示；引入了一种自蒸馏策略，将知识从网络的深层提炼到浅层，从而在不增加推理时间的情况下增强网络的表征学习；在从实际深远海养殖网箱中收集的数据集上进行的广泛实验，证明了LGSDNet的有效性和优越性。此外，通过迁移学习将LGSDNet扩展到不同的水产养殖场景，进一步验证了LGSDNet的泛化能力。

实施例2

在该实施例中，公开了基于上下文聚合与自蒸馏的鱼群计数系统，包括：

鱼群图像获取模块，用于获取鱼群图像；

鱼群计数模块，用于根据密度图，获得鱼群计数结果。

实施例3

在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的基于上下文聚合与自蒸馏的鱼群计数方法所述的步骤。

实施例4

在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的基于上下文聚合与自蒸馏的鱼群计数方法所述的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，包括：

获取鱼群图像；

对鱼群图像进行特征提取，获得初始空间特征图；

根据密度图，获得鱼群计数结果。

2.如权利要求1所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，通过特征提取模块对鱼群图像进行特征提取；

特征提取模块以鱼群图像为输入，以初始空间特征图为输出，采用VGG16的前十层构建获得。

3.如权利要求1所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，通过局部多尺度上下文聚合模块从初始空间特征图中提取局部上下文信息；

局部多尺度上下文聚合模块以初始空间特征图为输入，包括多层空洞卷积层，初始空间特征图输入每一个空洞卷积层中，每个空洞卷积层的输出特征图还输入空洞卷积层之后的所有空洞卷积层中；初始空间特征图与所有空洞卷积层输出特征图进行拼接，输出局部上下文信息。

4.如权利要求3所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，在每一层空洞卷积层之前均设置一个卷积层，通过该卷积层对输入空洞卷积层的特征进行通道压缩，卷积后特征输入空洞卷积层中。

5.如权利要求1所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，通过全局上下文聚合模块从初始空间特征图中提取全局上下文信息；

6.如权利要求5所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，利用第一个卷积层对全局上下文初始特征的通道进行压缩，对压缩后特征进行归一化，利用第二个卷积层对归一化后特征进行通道恢复，获得全局上下文特征图，全局上下文特征图通道数与全局上下文初始特征通道数相同。

7.如权利要求1所述的基于上下文聚合与自蒸馏的鱼群计数方法，其特征在于，自蒸馏模块对所有转置卷积后特征进行特征调整，使得调整后特征的通道和尺度相匹配，之后，将浅层回归块获得的调整后特征去模拟相邻深层回归块获得的调整后特征，实现利用深层回归块转置卷积后特征来监督浅层回归块转置卷积后特征。

8.基于上下文聚合与自蒸馏的鱼群计数系统，其特征在于，包括：

鱼群图像获取模块，用于获取鱼群图像；

鱼群计数模块，用于根据密度图，获得鱼群计数结果。

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的基于上下文聚合与自蒸馏的鱼群计数方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的基于上下文聚合与自蒸馏的鱼群计数方法的步骤。