CN114359199A

CN114359199A - 一种基于深度学习的鱼类计数方法、装置、设备和介质

Info

Publication number: CN114359199A
Application number: CN202111623734.1A
Authority: CN
Inventors: 江兴龙; 李凯; 陈尔康; 陈彭; 许志扬; 林茜
Original assignee: Jimei University
Current assignee: Jimei University
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-15

Abstract

本发明提供一种基于深度学习的鱼类计数方法、装置、设备和介质，方法包括：采集鱼类图像；将鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；搭建改进的Faster RCNN模型，该模型改进了三个部分，使用ResNet50+FPN网络提取并融合多尺度的特征，基于训练集使用K‑means聚类算法获取适合鱼类数据集的anchors，使用Soft‑NMS算法对候选框进行筛选；采用训练集训练改进的Faster RCNN模型，之后采用测试集测试，达到设定要求后，保存模型；通过保存的模型对鱼类进行计数；本发明对传统的Faster RCNN模型进行改进，大大提高了模型对鱼类的检测准确率和计数准确率。

Description

一种基于深度学习的鱼类计数方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，特别涉及一种基于深度学习的鱼类计数方法、装置、设备和介质。

背景技术

在鱼类养殖过程中，掌握养殖鱼类的准确数量有助于科学投喂饲料、控制养殖密度、计算养殖存活率和提高养殖效益，对实现鱼类精准高效养殖有重要意义。

传统的鱼类计数方法多采用人工计数法，通常由养殖场工人将鱼从养殖池中捞出，逐条进行计数或者抽样进行计数，这类方法不仅存在耗费人力、计数效率低、计数误差大等缺点，而且很容易导致鱼体应激、损伤，甚至发病，不利于养殖鱼类后续的生长发育。

随着计算机和图像处理技术的飞速发展，应用图像处理技术进行鱼类计数成为了一种重要的方法，这种方法能够在不影响养殖鱼类正常生长发育的前提下，用较快的速度实现对养殖鱼类的计数，但是这类方法对图像质量要求较高，例如图像要清晰、噪声少，还要求鱼类和养殖环境对比度明显，而真实的养殖条件很难满足这些要求。

近年来，深度学习技术在包括计算机视觉在内的多个领域内取得了重大进展，因此利用深度学习技术对鱼类进行检测和识别成为研究学者们的重要研究课题之一。深度学习模型的网络结构较深，它通过卷积神经网络学习大量的样本数据来提取特征，这些学习到的特征不容易受到鱼类大小、光照不均、图像噪声等不利因素的影响，与图像处理等方法相比适应性和可操作性更强，但是现有的技术方案还是不能够精确的进行鱼类的检测和计数。

发明内容

本发明要解决的技术问题，在于提供一种基于深度学习的鱼类计数方法、装置、设备和介质，大大提高了模型对鱼类的检测准确率和计数准确率。

第一方面，本发明提供了一种基于深度学习的鱼类计数方法，包括：

步骤1、采集鱼类图像；

步骤2、将鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；

步骤3、搭建改进的Faster RCNN模型，该模型改进了三个部分，第一是使用ResNet50+FPN网络提取并融合多尺度的特征，第二是基于训练集使用K-means聚类算法获取适合鱼类数据集的anchors，第三是使用了Soft-NMS算法对候选框进行筛选；

步骤4、采用训练集训练改进的Faster RCNN模型，之后采用测试集测试，达到设定要求后，保存模型；

步骤5、通过保存的模型对鱼类进行计数。

进一步地，所述步骤2进一步具体为：使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注。

进一步地，所述步骤3中使用ResNet50+FPN网络提取并融合多尺度的特征进一步具体为：使用ResNet50+FPN网络为模型的特征提取网络，该网络包含ResNet50和FPN两个部分：

ResNet50部分包含：Conv1、Conv2_x、Conv3_x、Conv4_x以及Conv5_x；五个卷积模块，C2、C3、C4以及C5分别表示ResNet50后四个卷积模块的最后一层输出的特征图，这四层特征图的维度分别为256维、512维、1024维和2048维；

所述四层特征图输入FPN部分后都先经过一个1×1卷积层，卷积核大小为1×1，维度为256维，步长为1，将维度统一变为256维；M5层由C5层经过上述1×1卷积层得到，M5层进行2倍上采样后与经过1×1卷积层的C4层执行相加操作得到M4层，用同样的方法依次可以得到M3层和M2层；将M2层特征图、M3层特征图、M4层特征图以及M5层特征图都分别经过一个3×3卷积层，卷积核大小为3×3，维度为256维，步长为1，然后依次得到P2层特征、P3层特征、P4层特征以及P5层特征，P6层特征由P5层经过一个1×1的最大池化层得到，所述最大池化层的卷积核大小为1×1，维度为256维，步长为2；

最终得到的P2、P3、P4、P5以及P6，这五个特征层分别用来预测不同尺度的目标；

所述步骤3中基于训练集数据使用K-means聚类算法获取适合鱼类数据集的anchors进一步具体为：根据聚类结果将anchor尺寸重新设置为14×14、18×18、24×24、28×28以及32×32，宽高比均设置为{0.6,1.2,1.8}；

所述步骤3中使用Soft-NMS算法对候选框进行筛选进一步具体为：Soft-NMS算法为衰减与最高得分检测框重叠的相邻检测框的分数，具体如下式所示：

式中：N_t为人为设定阈值；S_i为第i个检测框对应的得分；M为当前得分最高的检测框，b_i为检测框集合b中的第i个检测框；IOU为M和b_i的重叠度。

进一步地，所述步骤4中训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

式中：i表示候选框编号，p_i表示第i个候选框预测的概率，p_i ^*值为1时表示此候选框为正样本，p_i ^*值为0表示此候选框为负样本；t_i表示第i个候选框预测的边界框位置回归参数，t_i ^*表示第i个候选框对应真实标注框的边界框位置回归参数；λ表示平衡系数；N_cls表示训练时一个mini-batch的样本数量，N_reg表示生成的候选框位置数量；L_cls表示分类损失函数，L_reg表示边界框位置回归函数；

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

第二方面，本发明提供了一种基于深度学习的鱼类计数装置，包括：

采集模块，采集鱼类图像；

标注模块，将鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；

搭建模块，搭建改进的Faster RCNN模型，该模型改进了三个部分，第一是使用ResNet50+FPN网络提取并融合多尺度的特征，第二是基于训练集使用K-means聚类算法获取适合鱼类数据集的anchors，第三是使用了Soft-NMS算法对候选框进行筛选；

训练模块，采用训练集训练改进的Faster RCNN模型，之后采用测试集测试，达到设定要求后，保存模型；

计数模块，通过保存的模型对鱼类进行计数。

进一步地，所述标注模块进一步具体为：使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注。

进一步地，所述搭建模块中使用ResNet50+FPN网络提取并融合多尺度的特征进一步具体为：使用ResNet50+FPN网络为模型的特征提取网络，该网络包含ResNet50和FPN两个部分：

所述搭建模块中基于训练集数据使用K-means聚类算法获取适合鱼类数据集的anchors进一步具体为：根据聚类结果将anchor尺寸重新设置为14×14、18×18、24×24、28×28以及32×32，宽高比均设置为{0.6,1.2,1.8}；

所述搭建模块中使用Soft-NMS算法对候选框进行筛选进一步具体为：Soft-NMS算法为衰减与最高得分检测框重叠的相邻检测框的分数，具体如下式所示：

进一步地，所述训练模块中训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述的方法。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例提供的一种基于深度学习的鱼类计数方法、装置、设备和介质，该方法对传统Faster RCNN模型进行了改进，本发明使用ResNet50+FPN作为模型的骨干网络，以提取并融合多尺度的特征，提升了模型对小尺度目标即鱼类头部的识别准确率；使用K-means聚类算法获取适合鱼类头部检测的anchors，减少了因anchor尺度不匹配而造成的检测目标丢失的情况；使用Soft-NMS算法替代了传统的NMS算法，减少了模型对鱼类密集区域的漏检情况；改进后的FasterRCNN模型大大提高了对鱼类头部的检测识别准确率；改进后的Faster RCNN模型在mAP(平均精度均值)结果上，与当前行业上使用的SSD300模型、YOLOV3模型和Faster RCNN模型相比，分别相应地显著提升了24.9％、15％和14％。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为本发明中改进的FasterRCNN模型示意图；

图2为本发明中ResNet50+FPN网络示意图；

图3为改进的FasterRCNN模型训练总损失和学习率变化示意图；

图4为本发明实施例一中方法中的流程图；

图5为本发明实施例二中装置的结构示意图。

具体实施方式

本申请实施例中的技术方案，总体思路如下：

本发明提出一种基于深度学习的鱼类计数方法，具体步骤包括：

(1)使用近红外工业相机、红外补光灯以及计算机采集鱼类图像。

(2)使用LabelImg标注工具对图像中的鱼类进行标注，整理标注数据以建立鱼类图像数据集，并将数据集划分为训练集和测试集。

(3)搭建改进的FasterRCNN模型，该模型改进了三个部分，第一是使用了ResNet50+FPN网络提取并融合了多尺度的特征，第二是基于训练集数据使用K-means聚类算法获取适合鱼类数据集的anchors(anchors中文叫做锚，为一个个按照固定比例(大小、宽高)预定义的框，通常包括多种不同尺度的矩形框)，第三是使用了Soft-NMS算法替代了传统的NMS算法对候选框进行筛选，以减少模型对图像中鱼类密集区域的漏检情况。

(4)利用训练集训练改进的FasterRCNN模型，并使用测试集进行测试，达到设定要求后保存模型。

(5)基于改进的FasterRCNN模型检测结果的鱼类计数方法。

1、所述步骤(2)中LabelImg标注图像，若对整条鱼进行标注可能会出现一个标注框中包含多条鱼的情况，存在过多的冗余信息，因此只标注有明显特征的鱼头部。

2、所述步骤(3)中搭建改进的Faster RCNN模型，其模型结构，如图1所示，鱼类图像输入ResNet50+FPN骨干网络中提取多尺度特征并融合，利用K-means聚类算法获取适合鱼类头部检测的anchors，经过RPN网络后获得一系列候选框，使用Soft-NMS算法对这些候选框进行筛选，之后将得到的不同尺寸的特征图通过ROI Pooling层统一缩放至固定尺寸，最后特征图经过一系列全连接层进行类别预测和边界框回归位置预测。接下来将对改进的三个部分做具体介绍。

3、如图2所示，所述步骤(3)中模型改进的第一部分即使用ResNet50+FPN网络为模型的特征提取网络，该网络包含ResNet50和FPN两个部分，下面将做具体分析：

ResNet50部分包含(Conv1、Conv2_x、Conv3_x、Conv4_x、Conv5_x)五个卷积模块，(C2、C3、C4、C5)分别表示ResNet50后四个卷积模块的最后一层输出的特征图，这四层特征图的维度分别为256维、512维、1024维和2048维。

四层特征图输入FPN部分后先经过一个1×1卷积层(卷积核大小为1×1，维度为256维，步长为1)，M5层由C5层经过上述1×1卷积层得到，M5层进行2倍上采样后与经过1×1卷积层的C4层执行相加操作得到M4层，用同样的方法依次可以得到M3层和M2层。(M2、M3、M4、M5)层特征都分别经过一个3×3卷积层(卷积核大小为3×3，维度为256维，步长为1)，然后依次可以得到(P2、P3、P4、P5)层特征，P6层特征由P5层经过一个1×1的最大池化层(卷积核大小为1×1，维度为256维，步长为2)得到。

最终得到的(P2、P3、P4、P5、P6)这五个特征层分别用来预测不同尺度的目标。

4、所述步骤(3)中模型改进的第二部分即基于训练集数据使用K-means聚类算法获取适合鱼类数据集的anchors，根据聚类结果将anchor尺寸重新设置为(14×14,18×18,24×24,28×28,32×32)，宽高比设置为{0.6,1.2,1.8}。

5、所述步骤(3)中模型改进的第三部分即使用Soft-NMS算法对候选框进行筛选。传统的NMS算法的主要流程是将检测框按照置信度大小进行排序，筛选出置信度最高的框，然后依次计算剩余检测框与该框的重叠度，如果重叠度的值大于或等于所设阈值，就将此检测框的置信度直接置为0。所以当图像中存在鱼类较为密集的区域时就容易导致漏检目标，而Soft-NMS算法只是衰减与最高得分检测框重叠的相邻检测框的分数，并没有简单地将其分数置0，具体方法如下式所示：

6、所述步骤(4)中训练改进的FasterRCNN模型，模型的总损失函数如下式所示，包括分类损失和边界框位置回归损失：

式中：i表示候选框编号，p_i表示第i个候选框预测的概率，p_i ^*值为1时表示此候选框为正样本，p_i ^*值为0表示此候选框为负样本；t_i表示第i个候选框预测的边界框位置回归参数，t_i ^*表示第i个候选框对应真实标注框的边界框位置回归参数；λ表示平衡系数；N_cls表示训练时一个mini-batch的样本数量，N_reg表示生成的候选框位置数量；L_cls表示分类损失函数，L_reg表示边界框位置回归函数。

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

改进后的Faster RCNN模型每迭代一次就记录一下模型总损失值，将训练集数据输入COCO预训练模型进行训练，模型训练时的总损失和学习率变化如图3所示。从图中可知，模型训练总迭代次数为35000，训练过程中模型总损失下降很快，在迭代5000次之前有持续下降趋势，超过5000次之后基本趋于稳定，证明模型已经达到收敛。

7、所述步骤(5)的基于模型检测结果的鱼类计数方法，也就是说模型的检测识别效果越好，鱼类的计数准确率也越高。图像中鱼类头部识别结果均以检测框的形式呈现，检测框的上方标明了检测框中目标的类别及其对应的置信度分数。首先人为设定置信度阈值N(本文设定为0.7)，然后遍历图像当中所有的检测框，当某一检测框的得分S大于阈值N时，就认为检测到了目标，此检测框参与统计计数；当某一检测框的得分S小于或等于阈值N时，就认为没有检测到目标，此检测框不参与统计计数，计数方法如下式所示：

8、所述步骤(4)中测试训练好的模型是为了验证改进Faster RCNN模型的有效性，在同一训练集上进行训练，同时在其测试集上比较模型的平均精度均值(mAP)和检测速度，其中mAP选取的IOU阈值为0.5，实验时的实验环境和所设置的参数均保持一致。模型改进前后的实验结果如表1所示：

表1

根据表1可知改进后的Faster RCNN模型在mAP结果上与Faster RCNN模型相比提升了14％，而检测速度上仅多耗时0.024s；与SSD300和YOLOV3模型相比模型检测精度有了显著提升。其中，与SSD300模型相比，改进后的模型mAP提升了24.9％，而检测速度上仅多耗时0.101s；与YOLOV3模型相比，改进后的模型mAP提升了15％，而检测速度上仅多耗时0.054s。由此可见本发明提出的改进方法对于鱼类头部的检测精度有了显著的提升，即相应显著地提升了鱼类计数准确率。

实施例一

如图4所示，本实施例提供一种基于深度学习的鱼类计数方法，包括：

步骤1、采集鱼类图像；

步骤2、使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注；

所述步骤3中使用ResNet50+FPN网络提取并融合多尺度的特征进一步具体为：使用ResNet50+FPN网络为模型的特征提取网络，该网络包含ResNet50和FPN两个部分：

式中：N_t为人为设定阈值；S_i为第i个检测框对应的得分；M为当前得分最高的检测框，b_i为检测框集合b中的第i个检测框；IOU为M和b_i的重叠度

步骤4、采用训练集训练改进的Faster RCNN模型，之后采用测试集测试，达到设定要求后，保存模型，所述训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

步骤5、通过保存的模型对鱼类进行计数。

基于同一发明构思，本申请还提供了与实施例一中的方法对应的装置，详见实施例二。

实施例二

如图5所示，在本实施例中提供了一种基于深度学习的鱼类计数装置，包括：

采集模块，采集鱼类图像；

标注模块，使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注；

所述搭建模块中使用ResNet50+FPN网络提取并融合多尺度的特征进一步具体为：使用ResNet50+FPN网络为模型的特征提取网络，该网络包含ResNet50和FPN两个部分：

训练模块，采用训练集训练改进的Faster RCNN模型，之后采用测试集测试，达到设定要求后，保存模型，所述训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

计数模块，通过保存的模型对鱼类进行计数。

由于本发明实施例二所介绍的装置，为实施本发明实施例一的方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置都属于本发明所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的电子设备实施例，详见实施例三。

实施例三

本实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，可以实现实施例一中任一实施方式。

由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备，故而基于本申请实施例一中所介绍的方法，本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式，所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备，都属于本申请所欲保护的范围。

基于同一发明构思，本申请提供了实施例一对应的存储介质，详见实施例四。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，可以实现实施例一中任一实施方式。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于深度学习的鱼类计数方法，其特征在于：包括：

步骤1、采集鱼类图像；

步骤5、通过保存的模型对鱼类进行计数。

2.根据权利要求1所述的一种基于深度学习的鱼类计数方法，其特征在于：所述步骤2进一步具体为：使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注。

3.根据权利要求1所述的一种基于深度学习的鱼类计数方法，其特征在于：

4.根据权利要求1所述的一种基于深度学习的鱼类计数方法，其特征在于：所述步骤4中训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

5.一种基于深度学习的鱼类计数装置，其特征在于：包括：

采集模块，采集鱼类图像；

计数模块，通过保存的模型对鱼类进行计数。

6.根据权利要求5所述的一种基于深度学习的鱼类计数装置，其特征在于：所述标注模块进一步具体为：使用LabelImg标注工具对鱼类图像进行标注，建立鱼类图像数据集，将该数据集划分为训练集和测试集；所述LabelImg标注图像为：针对鱼的头部进行标注。

7.根据权利要求5所述的一种基于深度学习的鱼类计数装置，其特征在于：

8.根据权利要求5所述的一种基于深度学习的鱼类计数装置，其特征在于：所述训练模块中训练改进的Faster RCNN模型，模型的总损失函数包括分类损失函数和边界框位置回归函数；具体如下式所示：

L_cls具体的的表达式如下所示：

L_reg具体的表达式如下所示：

式中smooth_L1函数具体表达式为：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的方法。