CN114724179A

CN114724179A - 一种基于深度学习的水下扇贝识别方法

Info

Publication number: CN114724179A
Application number: CN202210234823.5A
Authority: CN
Inventors: 李松松; 李晨; 杨莹; 张琦; 王宇恒; 郭忠宇
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-08
Anticipated expiration: 2042-03-10
Also published as: CN114724179B

Abstract

本发明涉及水下扇贝识别技术领域，提供一种基于深度学习的水下扇贝识别方法，包括：步骤100，形成水下扇贝图像的数据集；步骤200，对水下扇贝图像的数据集进行扇贝目标分析与图像成像情况分析；步骤300，利用步骤200得到的数据集成像分析结果，设计图像降噪方法；步骤400，根据步骤200得到的扇贝目标分布统计结果，建立扇贝识别模型；步骤500，将采集到的数据集，划分为数据集与训练集，对建立的扇贝识别模型进行多次扇贝识别训练，最终训练出在验证集上识别效果最优的扇贝识别模型；步骤600，利用训练出最优扇贝识别模型，对实际环境中拍摄的视频或照片进行扇贝识别。本发明能够提高水下扇贝识别的效率和可靠性。

Description

一种基于深度学习的水下扇贝识别方法

技术领域

本发明涉及水下扇贝识别技术领域，尤其涉及一种基于深度学习的水下扇贝识别方法。

背景技术

在扇贝养殖产业中，扇贝的识别检测一直是养殖者进行捕捞、选别、分级的重要依据。目前底播扇贝养殖过程中扇贝的识别主要靠人工肉眼判别，这种检测方式需要经验的积累，检测过程耗时费力，并且由于水下光线折射现象以及水下环境复杂，水下成像的图像质量差、噪声多，导致人工肉眼观察的检测结果主观性强、一致性差、出错率高，因此设计一种客观且识别率高的扇贝识别方法至关重要。

目前深度学习的目标检测算法体现出强大的优势，其在无人驾驶，人脸识别，智能机器人等领域的成功应用都展现出该算法广泛的应用前景，然而目前主流的深度学习框架都是应用在高性能图形处理器和高容量随机存取存储器的基础之上，考虑到农业嵌入式设备的存储和计算资源受限。

当前主流的深度学习网络YOLO(You Only Look Once，你只需看一次)第五个迭代版本YOLOv5的运行过程可以简化为目标特征提取与目标分类两个部分。其中目标特征提取是该网络的核心，该过程是模型计算量最大的部分。使用类残差模块的颈部结构和普通卷积组成的主干网络参数量庞大。需要相当多的计算资源支撑。但是农业领域不同新兴领域如无人驾驶、智能机器人等，在农业领域中的高新技术的应用相对滞后，目前应用在农业中的计算设备大多为嵌入式设备等低算力的设备，所以如何对模型进行删减，提高模型的效率，是一个热门的研究方向，逆残差思想是一个模型轻量化的重要思想，在轻量级网络MobileNet(可移动式网络)中。这种思想的应用，可以增强特征提取网络梯度的传播，显著减少推理所需的内存占用，进而使得网络在相同计算量的情况下有更高的参数量，提取到更多的特征信息，特征提取效率也就更高。将逆残差思想和注意力思想结合的逆残差模块，可以在通道维度上使用挤压和激励轻量级注意机制，并且注意力机制可以使特征提取网络更加关注信息量大的通道特征，并抑制不重要的通道特征，使检测目标信息与背景信息更易区分，从而进一步提高模型的精度。

发明内容

为了解决水下拍摄的图像模糊、噪声大的情况，本发明设计图像增强模块，将利用暗通道原理，在非水下环境中图像中局部区域存在一些像素，这些像素中至少有一个颜色通道的亮度值非常非常低，据此就可以估计出水下悬浮物的浓度信息。然后利用种颜色恒常知觉的计算理论就可以去除水下悬浮颗粒对成像的模糊效果，提高图像的清晰度。由于该算法计算量大所以在实际扇贝识别中，设置清晰度阈值，先对输入图像使用拉普拉斯算子进行水下成像的清晰度判断，然后再对清晰度小于阈值的模糊图像进行去模糊处理。

本发明提供了一种基于深度学习的水下扇贝识别方法，包括以下过程：

步骤100，大量采集水下扇贝图像，形成水下扇贝图像的数据集；

步骤200，对水下扇贝图像的数据集进行扇贝目标分析与图像成像情况分析；

步骤300，利用步骤200得到的数据集成像分析结果，设计图像降噪方法，提高数据集中的模糊图像的清晰程度；

步骤400，根据步骤200得到的扇贝目标分布统计结果，建立扇贝识别模型；步骤400包括步骤4001至步骤4003：

步骤4001，设计扇贝识别模型中的预设锚框；

步骤4002，设计扇贝识别模型的颈部与预测层；

步骤4003，建立扇贝识别模型的主干网络；

步骤4004，根据步骤4001至步骤4003得到的结果，得到扇贝识别模型；所述扇贝识别模型包括：图像去噪模块、主干网络模块、颈部模块、预测层；

步骤500，将采集到的数据集，划分为数据集与训练集，对建立的扇贝识别模型进行多次扇贝识别训练，其中训练集用来训练扇贝识别模型进行特征的学习，验证集用来验证每次迭代扇贝识别模型训练结果的优劣，每次迭代完成后根据训练结果进行优化器参数调整，最终训练出在验证集上识别效果最优的扇贝识别模型用于扇贝的识别；

步骤600，利用训练出最优扇贝识别模型，对实际环境中拍摄的视频或照片进行扇贝识别。

进一步的，所述步骤200包括步骤步骤2001至步骤2002：

步骤2001，对数据集中的图片进行图像成像情况分析；

步骤2002，通过基于欧式距离的聚类算法对数据集中所有扇贝目标的长宽进行聚类，训练出具有针对性的预设锚框。

进一步的，所述步骤300包括步骤步骤3001至步骤3004：

步骤3001，利用数据集，根据公式(1)确定图像的暗通道；

J^dark(x)＝min_y∈Ω(x)(min_{c∈{r，g，b}}J^c(y)) (1)

其中，J^dark(x)表示x像素点的暗通道，min_y∈Ω(x)中Ω(x)表示该像素点x附近Ω区域，min表示Ω区域中的亮度最小值，min_{c∈{r，g，b}}中r，g，b表示彩色图像中的红色、绿色、蓝色3个通道，c表示3个个通道中的任意一个通道，min表示取3个通道中的最小值，其中J^c(y)表示彩色图像的某一通道；

步骤3002，根据公式(2)确定图像的透射率估计值；

其中，

表示图像透射率，ω是对暗通道的加权值矫正，c代表R，G，B三个通道中的任意一个，I^c代表清晰图像的c通道，A^c表示c通道的大气光值对应于水下光源强度，min_y∈Ω(x)中Ω(x)表示该像素点x附近Ω区域，min表示Ω区域中的亮度最小值，

就是水下图像的暗通道；

步骤3003，从暗通道图中取出所有亮度的大小为目标亮度值的像素，然后找到在这些像素点中对应在原始水下图像具有最高亮度的点的亮度值；

步骤3004，根据公式(3)确定最终去掉模糊的图像，得到去噪后的图像。

其中，A表示像素点中对应在原始水下图像具有最高亮度的点的亮度值，I(x)为水下拍摄直出的模糊图像，t与A在前面已经求得，当t值过小时，求出的图像亮度会过高，所以设置阈值t₀＝0.1，超过该阈值即按t＝0.1计算。

进一步的，在步骤4002中，所述扇贝识别模型的颈部包括：瓶颈模块、普通卷积与堆叠操作；预测层包括：普通卷积与最终的输出结果。

进一步的，在步骤4003中，所述扇贝识别模型的主干网络，包括：图像切片模块、标准卷积、逆残差融合模块、分组卷积、逆残差模块、分组卷积、逆残差模块、分组卷积、空间金字塔池化模块。

进一步的，所述步骤4003包括步骤40031至步骤步骤40034：

步骤40031，图像切片模块把输入的图像以4个像素点的步长抽出新的图像；

步骤40032，利用分组卷积算法，先将输入特征图按通道分成组，然后将各组的输入特征图与组内对应的卷积核做卷积操作，每个卷积核不参与其余组的卷积操作；

步骤40033，利用逆残差模块首先对输入特征图进行1×1的逐点卷积操作，使输出通道维度升为原来的2倍；利用3×3的卷积核对扩展后的特征图进行深度卷积操作；然后在通道维度上使用注意力神经网络获得不同通道的权值，利用权值对特征图通道进行重要程度的区分，使模型可以激励对识别任务有用的特征通道，而挤压对识别任务无用的特征通道；此后再次利用多个1x1的逐点卷积操作降维，从而投影回原通道维度；最后把输入部分作为残差进行跳跃连接，得到最终的输出特征图，这样类似倒瓶颈的结构可以使模型在高纬度提取特征，在很少参数量的情况下提取到更多的特征；

步骤40034，空间金字塔池化模块使同一图像不同特征图作为输入，得到同样长度的池化特征，输出给颈部。

本发明提供的一种基于深度学习的水下扇贝识别方法，在主流深度学习框架的基础上设计了一种更加轻量的模型，利用相比普通卷积计算量更少的分组卷积进行通道的变化，然后利用轻量且高效的逆残差模块进行特征学习，再根据数据集先验框的聚类结果重新设计颈部与预测层，最终设计出来精确度相比主流深度学习框架YOLOv5相同，但计算量大大降低的轻量深度学习模型，能够提高水下扇贝识别的效率和可靠性。

附图说明

图1是本发明提供的基于深度学习的水下扇贝识别方法的实现流程图；

图2是本发明提供的深度学习网络的预测层与颈部的结构示意图；

图3是本发明提供的主干网络结构示意图

图4是本发明提供的主干网络中逆残差模块和头部融合逆残差模块的结构示意图；

图5是本发明深度学习网络总体结构图。

图6是本发明与主流深度学习网络YOLOv5训练误差曲线对比

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

如图1所示，本发明实施例提供的基于深度学习的水下扇贝识别方法，包括以下过程：

步骤100，大量采集水下扇贝图像，形成水下扇贝图像的数据集。

由于深度学习网络需要用初始的数据对神经网络进行训练，使深度学习模型充分的学习到识别目标的特征，初始数据约越接近于真实环境则学习的效果越好，提取的特征效果也就越好。大量采集水下扇贝图像，本发明的开始，就是在实验室中模拟水下环境，实拍扇贝的各种位姿，数据集采用相机为GoPro Hero 5Session，采集图像分辨率为3648×2736，焦距为3毫米。实验拍摄环境在一个长宽高为2m×1.5m×1m的水池，相机距池底27cm，倾斜角度为30°，扇贝距离相机水平距离1m，水面没过摄像机。

图像收集完成后将采集到的图像使用标注工具标注出扇贝再图像中的位置，并把位置信息储存在txt文件中，形成水下扇贝图像的数据集。

步骤200，对水下扇贝图像的数据集进行扇贝目标分析与图像成像情况分析。

步骤2001，对数据集中的图片进行图像成像情况分析。

对数据进行成像情况分析，使用拉普拉斯算子求出图像的清晰度，发现本数据集中部分的图像存在模糊的现象，严重影响图像对比度，识别时需要对成像模糊的水下图像进行降噪处理。

这样训练出来的锚框代表数据集中大多数扇贝在图像中所占大小，通过对该结果分析，发现采集数据集中的扇贝长和宽集中在原图像大小的5％～20％。该结果表明采集的数据集中扇贝尺度较大。

步骤300，利用步骤200得到的数据集成像分析结果，设计图像降噪方法，提高数据集中的模糊图像的清晰程度。

陆上雾天拍摄的图像与水下图像成像具有类似的数学模型，所以本发明采用将用于雾天去雾的算法，暗通道先验算法用在水下模糊图像去模糊上。由于该方法无法达到实时性要求，如果在推理时对所有图片进行暗通道处理，会极大的降低模型的推理速度，所以在实际扇贝识别中，设置清晰度阈值，先对输入图像使用拉普拉斯算子进行快速清晰度判断，然后再对清晰度小于阈值的模糊图像进行去模糊处理。

步骤3001，利用数据集，根据公式(1)确定图像的暗通道。

J^dark(x)＝min_y∈Ω(x)(min_{c∈{r，g，b}}J^c(y)) (1)

J^dark(x)表示x像素点的暗通道，min_y∈Ω(x)中Ω(x)表示该像素点x附近区域，min表示Ω区域中的亮度最小值，min_{c∈{r，g，b}}中r，g，b表示彩色图像中的红色、绿色、蓝色3个通道，c表示3个个通道中的任意一个通道，min表示取3个通道中的最小值，其中J^c(y)表示彩色图像的某一通道。

步骤3002，根据公式(2)确定图像的透射率估计值。

其中，

就是水下图像的暗通道。

步骤3003，从暗通道图中取出所有亮度的大小为目标亮度值的像素，然后找到在这些像素点中对应在原始水下图像具有最高亮度的点的亮度值，即为A值。

在本实施例中，目标亮度值选为0.1％。

其中I(x)为水下拍摄直出的模糊图像，t与A在前面已经求得，当t值过小时，求出的图像亮度会过高，所以设置阈值t₀＝0.1，超过该阈值即按t＝0.1计算。

步骤400，根据步骤200得到的扇贝目标分布统计结果，建立扇贝识别模型。

步骤4001，设计扇贝识别模型中的预设锚框。

基于步骤200中分析，本发明设计了6个集中在原图像大小的5％～20％预设锚框。由于原图像输入到模型中时会被缩放至640╳640大小，所以设计预设锚框的大小分别为(51,36,68,54,97,62,131,84,116,106,154,118)。

步骤4002，设计扇贝识别模型的颈部与预测层。

由于训练集小目标较少，所以小尺度特征层在这个数据集中的作用就不是很明显，所以不再使用小尺度特征层预进行测，如图2所示本发明中预测层和颈部使用2层预测层。其中，扇贝识别模型的颈部包括：瓶颈模块、普通卷积与堆叠操作；预测层包括：普通卷积与最终的输出结果。

其中颈部模块中使用瓶颈模块主要目的是为了减少计算量，把特征图降维之后更加有效、直观地进行数据的训练和特征提取，普通卷积进行通道的变换，把深层特征的特征图放大到与浅层特征的特征图同样的大小，然后通过堆叠操作把深层特征与浅层特征叠加在一起，使得最终输出到预测层的特征图即包含深层特征的语义信息，又包含千层特征的位置信息，

预测层使用普通卷积把最终的特征图变为80*80*14和40*40*14的预测结果，其中包含扇贝目标的类别、位置和置信度，最终通过设置置信度的阈值判别目标识别的结果。本发明设置的置信度阈值为0.5。

步骤4003，建立扇贝识别模型的主干网络。

如图3所示，扇贝识别模型的主干网络，包括：图像切片模块、标准卷积、逆残差融合模块、分组卷积、逆残差模块、分组卷积、逆残差模块、分组卷积、空间金字塔池化模块。使用分组卷积实现特征提取中特征维度的变换，并设计中间维度为输入维度2倍的逆残差模块进行特征学习。

步骤40031，图像切片模块把输入的图像以4个像素点的步长抽出新的图像，这样每个样本图像的通道变为原来的4倍，每个通道的大小减为原来的1/4，减少了原始信息的丢失并提高训练速度。

步骤40032，利用分组卷积(Group Convolution)算法，先将输入特征图按通道分成组，然后将各组的输入特征图与组内对应的卷积核做卷积操作，每个卷积核不参与其余组的卷积操作。

极大地减少模型的理论运算量，因为其只负责维度变换不负责特征学习，所以对特征提取的影响较小。

本发明使用逆残差模块有两种，逆残差模块与头部融合逆残差模块，如图4(1)所示：

步骤40033，利用逆残差模块首先对输入特征图进行1×1的逐点卷积(PointwiseConv)操作，使输出通道维度升为原来的2倍；在此基础上，利用3×3的卷积核对扩展后的特征图进行深度卷积操作；然后在通道维度上使用注意力神经网络获得不同通道的权值，利用权值对特征图通道进行重要程度的区分，使模型可以激励对识别任务有用的特征通道，而挤压对识别任务无用的特征通道；此后再次利用多个1x1的逐点卷积操作降维，从而投影回原通道维度；最后把输入部分作为残差进行跳跃连接，得到最终的输出特征图，这样类似倒瓶颈的结构可以使模型在高纬度提取特征，在很少参数量的情况下提取到更多的特征。

在本步骤中，头部融合逆残差模块应用在网络浅层中可以更加充分的利用CPU和GPU，从而明显提高模型的训练速度和预测速度。图4(2)的为头部融合逆残差模块，其原理同逆残差模块，区别是头部融合逆残差模块采用3×3标准卷积对输入通道进行升维，替换逆残差模块中的逐点卷积和深度卷积。

在本发明的主干网络设计中在浅层使用头部融合逆残差模块，深层使用逆残差模块，达到模型轻量化的目的。

步骤40034，空间金字塔池化模块使同一图像不同特征图作为输入,得到同样长度的池化特征，输出给颈部。

步骤4004，根据步骤4001至步骤4003得到的结果，得到扇贝识别模型；

本发明使用模型最终结构如图5所示，本发明最终建立扇贝识别模型共包含4部分：图像去噪模块、主干网络模块、颈部模块、预测层。

步骤500，将采集到的数据集，按照9：1的比例划分为数据集与训练集，对建立的扇贝识别模型进行多次扇贝识别训练，其中训练集用来训练扇贝识别模型进行特征的学习，验证集用来验证每次迭代扇贝识别模型训练结果的优劣，每次迭代完成后根据训练结果进行优化器参数调整，最终训练出在验证集上识别效果最优的扇贝识别模型用于扇贝的识别。

具体可将实际环境中拍摄的视频或照片(二者都可)放到模型文件相同路径下，点击detect.py。在runs文件夹下即可看到识别的结果。

下面对本发明采用的方法与现有技术的识别效果进行对比论证：

分别采用相同的训练方式对本发明方法和原始Yolov5s网络进行训练。训练误差曲线可以监测损失函数的变化趋势，图6为两种模型每个迭代周期在验证集上的损失值的变化曲线。由图6可以看出两种模型在前60个周期迭代中拟合速度快，损失值降低幅度大，本发明方法在第60迭代周期后下降幅度变小，终稳定在0.03左右，而原始Yolov5s在110迭代周期时稳定在0.04左右，两种模型均未出现大幅的升高趋势，说明模型未产生过拟合且训练完成。图中本发明方法曲线较平滑，没有出现大幅波动且损失值曲线始终在原始Yolov5s网络的下方，说明改进后的网络特征提取效率更高，收敛速度更快、训练效率更高。

本发明方法采用2类评价指标对模型的复杂度和模型的检测效果进行评估：其中网络模型的体积、每秒10亿次的浮点运算次数(Gigafloating—point operations persecond，GFLOPS)和每幅影像的平均推理时间(ms)作为模型复杂度评价指标，参数越少，模型所需计算资源越少，计算量和推理时间越低，说明模型的计算复杂度越小；采用识别准确率P、识别召回率R、准确率和召回率综合评价指标F1以及平均精度均值(Mean averageprecision，mAP)作为模型检测效果评价指标.

两种模型预测最终在测试集上的预测效果对比如表1所示

表1两种模型预测效果对比

由表1可知，本文算法在准确率P指标上比原始Yolov5s高7.9个百分点；在召回率R指标上比原始Yolov5s高1.2个百分点；对于P和R的调和均值F1指标本文算法比原始Yolov5s高4.7个百分点，这说明说明本文算法在准确率和召回率的均衡性上更好，模型优化更好，更适合实际应用场景；在mAP指标上本文算法比原始Yolov5s高1.6个百分点。综合各项指标，本文算法均高于原始的原始Yolov5s，说明本文算法模型特征提取能力比原始Yolov5s更强，泛化能力更好。

模型复杂度评价指标

两种模型的计算量，模型体积和预测速度指标的对比如下表所示

表2预测复杂度对比

由表2可以看出改进Yolov5比原始Yolov5s网络浮点数计算量(GFLOPS)降低43个百分点；模型体积减少35个百分点；使用本文实验硬件平台GPU的预测速度提升25个百分点；CPU的预测速度提升39个百分点。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。