CN113537106A

CN113537106A - 一种基于YOLOv5的鱼类摄食行为识别方法

Info

Publication number: CN113537106A
Application number: CN202110837178.1A
Authority: CN
Inventors: 邹娟; 苏立恒; 师泽晨; 陈宁夏; 杨灵
Original assignee: Zhongkai University of Agriculture and Engineering
Current assignee: Zhongkai University of Agriculture and Engineering
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-22
Anticipated expiration: 2041-07-23
Also published as: CN113537106B

Abstract

一种基于YOLOv5的鱼类摄食行为识别方法，包括如下步骤：通过摄像头采集某一单一鱼群喂食前后的视频，提取关键帧图片并标注，建立数据集；图片输入YOLOv5网络模型，经预处理后依次进入Backbone网络和Neck网络进行特征融合，再输入Head输出端，得到预测框的位置、类别和置信度，采用加权非极大值抑制筛选预测框，通过计算损失函数调节权重参数，通过验证集不断优化模型参数，得到最佳权重数据；将测试集图片输入训练好的YOLOv5网络模型中，得到目标检测结果。本发明目标检测的准确性，采用YOLOv5网络模型，能够快速识别、实时跟踪和预测，并及时采取行动，达到提高养殖效益的目的。

Description

一种基于YOLOv5的鱼类摄食行为识别方法

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于YOLOv5的鱼类摄食行为识别方法。

背景技术

水产养殖中，饵料投放量是关系着水产养殖经济的一个重要因素，饵料投放不足，养殖鱼类难以快速生长，饵料投放过量，一方面造成浪费，增加成本，另一方面也使养殖水体环境恶化，不利于鱼类的健康和生产，理想的状态是按需投喂，饵料的投加量能刚刚保证每个鱼体能摄取足量的食物而又不剩余。但理想的状态难以达到，仅凭经验难以控制，当饵料成本增加时，甚至用人工投喂代替自动投饲设备，但人工投喂依靠投料人员的经验，主观影响较大，不同的投喂人员会产生不同的投喂效果，而且人员劳动强度大，人工成本增加。为此，相关研究人员通过分析研究鱼类的摄食行为来预测优化其摄食量，从而为投喂行为提供有用的参考。目前，鱼类摄食行为监测方法主要采用计算机视觉技术与声学技术，获取、处理和分析鱼类摄食的图像、声音等信息，以量化和识别鱼类的摄食行为。计算机视觉技术主要是通过获取剩余饵料或鱼类摄食的图片来评估鱼类的摄食状态，预测其摄食量是否足够，由此实时判断是否需要继续投加饲料，以达到按需投喂、精准投喂的目的。对于视觉技术，需要提取摄食图片的特征参数，建立摄食预测模型，目前常用的模型有BP神经网络模型、支持向量机(SVM)模型等，但往往准确度较低，模型体积大，运行速度慢，影响其应用。

发明内容

本发明的目的是克服上述现有技术的缺点，提供一种贴近实际的应用场景、目标检测准确性好、可提高养殖效益的基于YOLOv5的鱼类摄食行为识别方法。

本发明是通过以下技术方案来实现的：

一种基于YOLOv5的鱼类摄食行为识别方法，包括如下步骤：

S1、通过摄像头采集某单一鱼群(待检测识别的鱼类)喂食前后的视频，提取视频的关键帧图片，对图片中鱼群中的鱼按照各自的摄食状态进行标注，将图片中的鱼标注为摄食鱼和非摄食鱼两个类别，建立某一鱼类的摄食行为数据集，将数据集分为训练集、验证集和测试集。鱼群的种类与待检测的鱼群种类一致。

S2、将训练集和验证集中的图片输入YOLOv5网络模型进行模型训练，得到YOLOv5网络模型的最佳权重数据；

S3、将最佳权重数据加载到YOLOv5网络模型中，输入测试集图片，输出目标检测结果(目标框位置、类别和置信度)；

所述S2步骤中的YOLOv5网络模型包括依次连接的输入端、Backbone骨干网络、Neck网络和Head输出端，将训练集和验证集中的图片输入YOLOv5网络模型进行模型训练的方法为：

S2-1、图片预处理：图片进入输入端，输入端对图片进行预处理，预处理包括Mosaic数据增强、自适应锚框计算和自适应图片缩放；

S2-2、特征提取：预处理后的图片进入Backbone骨干网络，进行特征提取后得到三个不同大小的特征图；

S2-3、特征融合：将S2-2步骤得到的三个不同大小的特征图输入Neck网络进行特征融合，得到三个尺度的特征图；

S2-4、预测输出：将S2-3步骤得到的三个尺度的特征图输入Head输出端，得到三个特征张量，由此得到预测框的位置、类别和置信度；在训练阶段，将预测框与真实框进行匹配得出正负样本，然后通过计算损失函数来调节权重参数，验证阶段采用加权非极大值抑制的方式筛选预测框，通过计算准确率、平均精度来不断优化模型参数。

Head输出端包括损失函数和非极大值抑制(NMS)。YOLOv5的损失函数包括分类损失、定位损失和置信度损失，而在定位损失中使用GIOU_Loss作为损失函数，有效解决了边界框不重合时问题。在目标检测预测结果处理阶段，针对出现的众多目标框的筛选，采用加权NMS操作，获得最优目标框。

进一步地，所述S1步骤中提取视频的关键帧图片是使用opencv程序来进行，对图片中鱼群中的鱼按照其摄制状态进行标注是使用LabelImg来进行标注，标注后的文件以xml作为后缀，文件名和图片名称一致；使用NVIDIA2080Ti的显卡进行运算。

进一步地，所述S1步骤中的摄像头为海康威视网络摄像头，型号为DS-2CD5026EFWD，帧率25fps/s，视频分辨率为1920*1680。

进一步地，所述S2-1步骤图片预处理后的尺寸为640×640×3，YOLOv5网络模型的初始锚框设定为[116，90，156，198，373，326]、[30，61，62，45，59，119]、[10，13，16，30，33，23]，网络模型在初始锚框的基础上训练得到预测框，并和真实框进行比较，根据差值反向更新，迭代调整网络模型参数。

进一步地，所述YOLOv5网络模型为YOLOv5x模型，设置训练的数据集最大迭代次数(Epoch)为300次，每次模型训练的输入图片数量(Batchsize)为12，模型初始学习率为0.01；前50次迭代次数采取预热更新学习率，之后采用余弦退火算法更新学习率。

进一步地，所述Backbone骨干网络包含Focus结构和CSP结构，Focus结构中含有切片操作，将预处理后尺寸为640×640×3的图片接入Focus结构中，通过切片操作与Concat操作，得到160×160×12的特征图，然后进行一次32个卷积核操作(该通道个数仅仅针对的是YOLOv5s结构，其它结构会有相应的变化)，得到160×160×32的特征图。

进一步地，所述S2-2中预处理后的图片尺寸为640×640×3，三个不同大小的特征图分别为M1、M2、M3，特征图M1的大小为80×80，特征图M2的大小为40×40，特征图M3的大小为20×20；

所述Neck网络采用FPN+PAN的结构，特征金字塔FPN利用上采样的方式对信息进行传递融合，路径聚合网络PAN采用自底向上的特征金字塔；S2-3步骤中三个尺度的特征图分别为F2、P1、P2；所述Neck网络将特征图M3进行上采样，然后和特征图M2特征融合，得到40×40的特征图F1；特征图F1再经过上采样和特征图M1特征融合，得到80×80的特征图F2；特征图F2经过步长为2的Conv结构，和特征图F1特征融合，得到40×40的特征图P1；特征图P1经过步长为2的Conv结构，和特征图M3特征融合，得到20×20的特征图P2。

YOLOv5网络模型在Neck网络部分构建PAN网络结构，通过在FPN结构的基础上增加一条自下而上的路径，缩短了底层特征图信息与顶层特征图信息融合的路径，整个特征图融合的过程均使用Concat拼接完成。Head输出端部分根据提取的特征预测目标，通过在三个不同尺度的特征图上，分别对应使用三种不同大小的锚框预测目标，并使用加权极大值抑制的方式对目标框进行筛选。

进一步地，所述Head输出端包括Detect结构，特征图F2、P1、P2输入到Detect结构后得到80×80×(B×(5+C))、40×40×(B×(5+C))、40×40×(B×(5+C))这三个特征张量，其中C为数据集分类数，B为每个特征张量的锚框数量，B＝3，C＝2，即有两个目标类别(摄食鱼和非摄食鱼)。

每个特征张量为(t_x，t_y，t_w，t_h，p_o，p_c1，p_c2)×3，其中(t_x，t_y，t_w，t_h)为定位信息，t_x、t_y是预测框目标中心点相对于该点所在网格左上角的偏移量，t_w、t_h是预测框相对于锚框在宽度和高度上的缩放尺度，p_o为置信度信息，(p_c1，p_c2)为类别信息；以图片每个网格的中心作为锚框的中心基点，通过(t_x，t_y，t_w，t_h)和锚框的宽高，可以得出预测框的位置。假设某一网格距离图片左上角的边距为(c_x，c_y)，该网格对应的锚框的宽和高分别为(p_w，p_h)，则预测框的位置信息就可以表示为：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

其中，b_x、b_y分别为预测框的中心点坐标，b_w、b_h分别为预测框的宽度和高度，σ是sigmoid函数，预测框的置信度为σ(p_o)，预测框的类别为(σ(p_c1)，σ(p_c2))。

进一步地，在训练阶段，将预测框与真实框进行匹配得出正负样本，包括：

采用跨网格匹配，即从真实框所在网格的上下左右的四个网格中找到离真实框中心点最近的两个网格，再加上真实框所在网格共三个网格进行匹配，计算真实框和这三个网格的所有锚框的宽高比，当真实框的宽与锚框的宽的比值、真实框的高与锚框的高的比值均大于1/4且小于4，则认为匹配，否则则认为不匹配，即匹配需同时满足下列公式：

hyp＝4

其中，GT_W是真实框的宽，GT_H是真实框的高，Anchor_W是锚框的宽，Anchor_H是锚框的高。

匹配的锚框通过预测框的回归公式得出匹配的预测框的位置信息，预测框的回归公式如下：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

匹配的预测框作为正样本，计算与真实框的定位损失、置信度损失和分类损失，正样本匹配的真实框的置信度为真实框和正样本的交并比；不匹配的预测框则作为负样本，只计算与真实框的置信度损失，而负样本匹配的真实框的置信度为0。

进一步地，所述损失函数包括分类损失函数loss(class)、定位损失函数loss(box)和置信度损失函数loss(obj)，损失函数Loss的定义如下：

Loss＝loss(box)+loss(obj)+loss(class)

loss(GIOU)＝1-GIOU

式中的参数有以下定义，网格为S×S，每个网格产生B个锚框，A为真实框矩形面积，B为预测框矩形面积，C为真实框与预测框形成的最小外接矩形面积，即同时包含了预测框和真实框的最小框的面积；IOU(Intersection over Union)指交并比，预测框和真实框的交集和并集的比值；

表示第i个网格的第j个预测框匹配上了这个目标，如果匹配，

否则为0；

表示第i个网格的第j个预测框不匹配该目标；

是第i个网格边界框的真实置信度，c是第i个网格边界框预测的置信度；

是真实的条件类别概率，P_i(c)是网络预测的条件类别概率。loss(BCE)是指二元交叉熵损失(Binary Cross Entropy)；λ_box是指定位损失的权重系数，λ_class是指分类损失的权重系数；而置信度损失由两部分组成，正样本置信度损失和负样本置信度损失，λ_obj是指正样本置信度损失的权重系数，λ_noobj是指负样本置信度损失的权重系数。

本发明通过采集鱼群摄食前后的视频数据，并由此提取得到图像数据集，而非毫无关联的单张图像，能够充分获得鱼群摄食的运动信息，贴近实际的应用场景，提高目标检测的准确性；采用YOLOv5网络模型对鱼类摄食行为进行检测识别，模型尺寸小，检测速度快，方便快速部署，并可检测较小的目标，根据检测结果判断鱼群的摄食是否足够，达到快速识别、实时跟踪和预测，并及时采取行动，使投料更加科学化和智能化，从而达到降低养殖成本、改善水体环境、提高养殖效益的目的。

附图说明

图1为本发明实施例中标注过的训练集图片。

图2为本发明实施例中Neck网络的特征融合过程图。

图3为本发明实施例中YOLOv5网络的学习率变化图。

图4为本发明实施例的训练结果图。

图5为本发明实施例中测试集的标注示意图。

图6为图5中测试集的相应测试示意图。

图7为本发明实施例测试集的precision-recall曲线图。

具体实施方式

一种基于YOLOv5的鱼类摄食行为识别方法，包括如下步骤：

S1、建立数据集：通过摄像头采集某一鱼群(待检测识别的鱼类)喂食前后的视频，提取视频的关键帧图片，对图片中鱼群中的的鱼按照各自的摄食状态进行标注，将图片中的鱼标注为摄食鱼和非摄食鱼两个类别，建立某一鱼类的摄食行为数据集，将数据集分为训练集、验证集和测试集。鱼群的种类与待检测的鱼群种类一致，以提高目标识别的准确性。

本实施例以黑鲷为例，要识别黑鲷的摄食行为以确定其投喂方案，需首先建立黑鲷的摄食行为数据集，故选取黑鲷鱼群为数据采集对象，黑鲷鱼群可为循环水养殖系统中的黑鲷鱼群，摄像头放置在循环水养殖系统的斜上角，采用人工抛洒饵料或自动投料机投料的方式进行投喂，喂食前开启摄像头，采集鱼群的摄食行为状态视频数据。摄像头可采用海康威视网络摄像头，型号为DS-2CD5026EFWD，帧率25fps/s，视频分辨率为1920*1680。

使用opencv程序提取黑鲷摄食视频的关键帧，获得黑鲷图片，黑鲷图片可分为摄食和非摄食两类，图像目标标注使用LabelImg，如图1所示，选择清晰可见的黑鲷嘴部吞食饵料的帧图片将其标注为摄食，其他可见的黑鲷为非摄食，标签0为非摄食黑鲷图像，标签1为摄食黑鲷图像，标注后的文件以xml作为后缀，文件名和图片名称一致。LabelImg是一个可视化的图像标定工具，生成的xml文件是遵循PASCAL VOC的格式的。

训练集、验证集和测试集可按一定的比例划分，如总数据集600张图片，可分配训练集420张，验证集120张，测试集60张。

本发明可采取如下运行环境：Windows10操作系统，选用PyTorch架构，使用NVIDIA2080Ti的显卡进行运算，CPU为Intel(R)Core(TM)E5，Python3.7语言，CUDA10.0加速环境。

S2、模型训练：将训练集和验证集中的图片输入YOLOv5网络模型进行模型训练，得到YOLOv5网络模型的最佳权重数据。

S3、目标检测：将最佳权重数据加载到YOLOv5网络模型中，输入测试集图片，输出目标检测结果(目标框位置、类别和置信度)。

本发明采用YOLOv5(You Only Look Once)进行目标识别，YOLOv5的图像推理速度最快达0.007s，即每秒可处理140帧，满足视频图像实时检测需求，同时结构更为小巧，YOLOv5s版本的权重数据文件为YOLOv4的1/9，大小为27MB。

YOLOv5网络模型包括依次连接的输入端、Backbone骨干网络、Neck网络和Head输出端，将训练集和验证集中的图片输入YOLOv5网络模型进行模型训练的方法和步骤为：

S2-1、图片预处理：图片进入输入端，输入端对图片进行预处理，预处理包括Mosaic数据增强、自适应锚框计算和自适应图片缩放。

图片预处理是将输入的图像缩放到网络的输入大小，并进行归一化等操作。在网络训练阶段，YOLOv5使用Mosaic数据增强操作提升模型的训练速度和网络的精度，并提出了一种自适应锚框计算与自适应图片缩放方法。Mosaic方式是一种混合四幅训练图像的数据增强方法，这种数据增强的方法可以丰富检测物体的背景，提高检测的精度。Mosaic数据增强的基本流程为首先随机读取四张图片，然后分别对四张图片进行裁剪、翻转、缩放、色域变化等，并且按照四个方向位置摆好，最后再进行图片的组合，非常适合小目标的检测。

在YOLO系列算法中，针对不同的数据集，都需要设定特定长宽的锚点框。在网络训练阶段，模型在初始锚点框的基础上输出对应的预测框，计算其与真实框之间的差距，并执行反向更新操作，从而更新整个网络的参数，因此设定初始锚点框也是比较关键的一环，同时需要将输入图片的尺寸变换成固定大小，再送入检测模型中训练。本实施例中，图片预处理后的固定尺寸大小为640×640×3，YOLOv5网络模型的初始锚框设定为[116，90，156，198，373，326]、[30，61，62，45，59，119]、[10，13，16，30，33，23]，网络模型在初始锚框的基础上训练得到预测框，并和真实框进行比较，根据差值反向更新，迭代调整网络模型参数。

S2-2、特征提取：预处理后的图片进入Backbone骨干网络，进行特征提取后得到三个不同大小的特征图。

Backbone骨干网络包含Focus结构和CSP结构，Focus结构中含有切片操作，将预处理后尺寸为640×640×3的图片接入Focus结构中，通过切片操作与Concat操作，得到160×160×12的特征图，然后进行一次32个卷积核操作(该通道个数仅仅针对的是YOLOv5s结构，其它结构会有相应的变化)，得到160×160×32的特征图。

YOLOv5模型里中设计了2种跨阶段局部网络CSP(Cross Stage Partial Network)结构，BottleneckCSP(True)和BottleneckCSP(False)。其中，BottleneckCSP(True)结构主要应用于Backbone网络中，BottleneckCSP(False)结构主要应用于Neck网络结构中。这两种CSP结构采用了密集跨层跳层连接的思想，进行局部跨层融合，利用不同层的特征信息来获得更为丰富的特征图。

S2-3、特征融合：将S2-2步骤得到的三个不同大小的特征图输入Neck网络进行特征融合，得到三个尺度的特征图。

本实施例中，如图2所示，预处理后的图片尺寸为640×640×3，三个不同大小的特征图分别为M1、M2、M3，特征图M1的大小为80×80，特征图M2的大小为40×40，特征图M3的大小为20×20。

YOLOv5的Neck网络采用FPN+PAN的结构，特征金字塔FPN利用上采样的方式对信息进行传递融合，路径聚合网络PAN采用自底向上的特征金字塔；S2-3步骤中三个尺度的特征图分别为F2、P1、P2；所述Neck网络将特征图M3进行上采样，然后和特征图M2融合，得到40×40的特征图F1；特征图F1再经过上采样和特征图M1特征融合，得到80×80的特征图F2；特征图F2经过步长为2的Conv结构，和特征图F1特征融合，得到40×40的特征图P1；特征图P1经过步长为2的Conv结构，和特征图M3特征融合，得到20×20的特征图P2。

S2-4、预测输出：将S2-3步骤得到的三个尺度的特征图输入Head输出端，得到三个特征张量，由此得到预测框的位置、类别和置信度。在训练集阶段，直接将预测框与真实框进行匹配得出正负样本，然后计算YOLOv5损失函数(包括分类损失函数、定位损失函数和置信度损失函数)；在验证集阶段，采用加权非极大值抑制，筛选出预测框，得出准确率、平均精度等评价指标来不断优化模型参数。

Head输出端包括损失函数和非极大值抑制(NMS)。YOLOv5的损失函数包括分类损失、定位损失和置信度损失，预测框的训练过程中使用GIOU_Loss作为定位损失函数，通过计算损失函数GIOU_Loss调节权重参数，有效解决了边界框不重合时问题。

目标检测的后处理过程中，针对出现的众多目标框的筛选，采用加权NMS(非极大值抑制)的方式筛选预测框，并通过与真实框比对，获得最优目标框，并使用反向传播算法以进一步训练YOLOv5网络，优化模型参数。

YOLOv5不同的层使用不同的学习率调整方法，分别分为权重层(Weight)、偏执层(Bias)和归一化层(BatchNorm2d)，单独调整不同层的学习率可以使得模型训练的更好。由于刚开始训练时，模型的权重是随机初始化的，此时若选择一个较大的学习率，可能带来模型的不稳定，选择预热学习率的方式，可以使得开始训练的迭代次数内学习率较小，在预热的小学习率下，模型可以慢慢趋于稳定，等模型相对稳定后在选择预先设置的学习率进行训练，使得模型收敛速度变得更快，模型效果更佳。小学习率的范围为0到初始学习率，即0到0.01。YOLOv5在对学习率更新就采用了warm-up的方法预热学习率，在warm-up阶段以后采用的余弦退火算法来对学习率进行更新。

本实施例中，所述YOLOv5网络模型为YOLOv5x模型，设置训练的数据集最大迭代次数(Epoch)为300次，每次模型训练的输入图片数量(Batchsize)为12，模型初始学习率为0.01。图3为三类学习率的调整变化图(lr表示学习率，Learning Rate，lr0，lr1，lr2分别代表三类学习率，lr0是归一化层学习率，lr1是权重层学习率，lr2是偏执层学习率)，图3中x轴是迭代次数(epoch)，y轴为学习率，图3中的2e-3代表2*10^(-3)，即0.002。前50次迭代次数采取预热更新学习率，之后的采用余弦退火算法去更新学习率。依据此模型配置，对黑鲷摄食行为数据集进行训练，训练结果如图4所示，图4中的框代表预测框的位置，预测框上标记有类别和置信度信息，如fish 1.0表示类别为非摄食黑鲷、置信度为1.0，fish 0.9表示类别为非摄食黑鲷、置信度为0.9，eating fish 1.0表示类别为摄食黑鲷、置信度为1.0。

YOLOv5的Head输出端包括Detect结构，本实施例中，特征图F2、P1、P2输入到Detect结构后得到80×80×(B×(5+C))、40×40×(B×(5+C))、40×40×(B×(5+C))这三个特征张量，其中C为数据集分类数，为了加快收敛，为每种尺度的特征张量设置了B个锚框(anchor box)，预测框(bounding box)在设置的锚框基础上微调，B＝3，C＝2。

预测框的回归方法如下：

YOLOv5网络每个尺度网络输出为一个S×S×(B×(5+C))的张量。输出特征图的高度、宽度相当于将图像划分为S×S个网格，图像的每个网格对应输出特征图平面上的一个点。

设每个特征张量为：(t_x，t_y，t_w，t_h，p_o，p_c1，p_c2)×3，其中(t_x，t_y，t_w，t_h)为定位信息，t_x、t_y是预测框目标中心点相对于该点所在网格左上角的偏移量，t_w、t_h是预测框相对于锚框在宽度和高度上的缩放尺度，p_o为置信度信息，(p_c1，p_c2)为类别信息；以图片每个网格的中心作为锚框的中心基点，通过(t_x，t_y，t_w，t_h)和锚框的宽高，可以得出预测框的位置。假设某一网格距离图像左上角的边距为(c_x，c_y)，该网格对应的锚框的宽和高分别为(p_w，p_h)，则预测框的位置信息就可以表示为：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

真实框和预测框的匹配：

如上所述，YOLOv5网络的输出张量能得到众多的预测框，为了降低计算量，需要匹配出与真实框(标注的边框)接近的预测框，再计算损失函数。

采用跨网格匹配，即从真实框(标注的边框)所在网格的上下左右的四个网格中找到离真实框中心点最近的两个网格，再加上真实框所在网格共三个网格进行匹配，计算真实框和这三个网格的所有的预测框宽高比，当真实框的宽与锚框的宽的比值、真实框的高与锚框的高的比值均大于1/4且小于4，则认为匹配，匹配的预测框通过预测框的回归公式得出匹配预测框的位置信息。预测框的回归公式为上述预测框的位置信息表达式。否则则认为不匹配。

宽高比表达公式为：

hyp＝4

式中GT_W是真实框的宽，GT_H是真实框的高，Anchor_W是预测框的宽，Anchor_H是预测框的高。这两个不等式都要满足才认为匹配。

匹配的预测框作为正样本，计算与真实框的定位损失、置信度损失和分类损失，正样本匹配的真实框的置信度为真实框和正样本的交并比IoU；不匹配的预测框则作为负样本，只计算与真实框的置信度损失，而负样本匹配的真实框的置信度为0。

模型优化：计算YOLOv5的损失函数，使用反向传播算法进一步训练YOLOv5网络，通过验证集不断优化模型参数。

所述损失函数包括分类损失函数loss(class)、定位损失函数loss(box)和置信度损失函数loss(obj)，损失函数Loss的定义如下：

Loss＝loss(box)+loss(obj)+loss(class)

loss(GIOU)＝1-GIOU

式中的参数有以下定义，网格为S×S，每个网格产生B个锚框，B对应上式

中的B，意思是指遍历每个网格的锚框，查找符合条件能匹配真实框的预测框。A为真实框矩形面积，B为预测框矩形面积，C为真实框与预测框形成的最小外接矩形面积，即同时包含了预测框和真实框的最小框的面积；IOU(Intersection over Union)指交并比，预测框和真实框的交集和并集的比值；

否则为0；

表示第i个网格的第j个预测框不匹配该目标；

是真实的条件类别概率，P_i(c)是网络预测的条件类别概率；loss(BCE)是指二元交叉熵损失(Binary Cross Entropy)；λ_box是指定位损失的权重系数，λ_class是指分类损失的权重系数；而置信度损失由两部分组成，正样本置信度损失和负样本置信度损失，λ_obj是指正样本置信度损失的权重系数，λ_noobj是指负样本置信度损失的权重系数。

预先标注测试集(如图5)，当测试集数据的预测框和标注的真实框之间交并比IOU大于0.5时，则认为该目标检测准确。测试集的60张图片，共标注了369个目标，测试集图片输入训练好的YOLOv5网络中，得到测试集图片的预测框(如图6)，测试结果显示，检测结果的准确率(precision)为0.817，召回率(recall)为0.636。

mAP(mean average precision)表示平均准确率均值，取值在[0,1]之间，mAP越大，模型检测性能越高，是评价目标检测算法性能的最重要指标之一。将检测图像中，对某一个类别的所有目标检测框的置信度由大到小排序，逐个计算累计至每个检测框时的准确率及召回率，并绘制precision-recall曲线。AP即为单个类别precision-recall曲线与精度、召回率坐标轴围成的面积，mAP为多个类别AP的平均值。测试结果如图7所示，可知，非摄食行为黑鲷类别的AP值为0.831，摄食行为黑鲷类别的AP值为0.730，平均准确率均值mAP的值为0.781。

多次测试表明，用本发明的方法训练的YOLOv5模型的目标定位准确，识别率高，YOLOv5算法能实现循环水养殖系统下多种鱼类的的摄食行为检测，准确率和检测速度均能满足实验场景需求，为鱼类在循环水养殖系统的摄食行为检测提供参考。

上列详细说明是针对本发明可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明所为的等效实施或变更，均应包含于本案的专利范围中。

Claims

1.一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，包括如下步骤：

S1、通过摄像头采集某单一鱼群喂食前后的视频，提取视频的关键帧图片，将图片中鱼群中的鱼按照其摄食状态标注为摄食鱼和非摄食鱼两个类别，建立某一鱼类摄食行为数据集，将数据集分为训练集、验证集和测试集；

S3、将最佳权重数据加载到YOLOv5网络模型中，输入测试集图片，输出目标检测结果；

所述YOLOv5网络模型包括依次连接的输入端、Backbone骨干网络、Neck网络和Head输出端，所述S2步骤中将训练集和验证集中的图片输入YOLOv5网络模型进行模型训练的方法为：

2.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述S1步骤中提取视频的关键帧图片是使用opencv程序来进行，对图片中鱼群中的的鱼进行标注是使用LabelImg来进行标注，标注后的文件以xml作为后缀，文件名和图片名称一致；使用NVIDIA 2080Ti的显卡进行运算。

3.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述S1步骤中的摄像头为海康威视网络摄像头，型号为DS-2CD5026EFWD，帧率25fps/s，视频分辨率为1920*1680。

4.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述S2-1步骤图片预处理后的尺寸为640×640×3，YOLOv5网络模型的初始锚框设定为[116，90，156，198，373，326]、[30，61，62，45，59，119]、[10，13，16，30，33，23]，网络模型在初始锚框的基础上训练得到预测框，并和真实框进行比较，根据差值反向更新，迭代调整网络模型参数。

5.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述YOLOv5网络模型为YOLOv5x模型，设置训练的数据集最大迭代次数为300次，每次模型训练的输入图片数量为12，模型初始学习率为0.01；前50次迭代次数采取预热更新学习率，之后采用余弦退火算法更新学习率。

6.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述Backbone骨干网络包含Focus结构和CSP结构，Focus结构中含有切片操作，将预处理后尺寸为640×640×3的图片接入Focus结构中，通过切片操作与Concat操作，得到160×160×12的特征图，然后进行一次32个卷积核操作，得到160×160×32的特征图。

7.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述S2-2中三个不同大小的特征图分别为M1、M2、M3，特征图M1的大小为80×80，特征图M2的大小为40×40，特征图M3的大小为20×20；

8.根据权利要求7所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述Head输出端包括Detect结构，特征图F2、P1、P2输入到Detect结构后得到80×80×(B×(5+C))、40×40×(B×(5+C))、40×40×(B×(5+C))这三个特征张量，其中C为数据集分类数，B为每个特征张量的锚框数量，B＝3，C＝2；

每个特征张量为(t_x，t_y，t_w，t_h，p_o，p_c1，p_c2)×3，其中t_x、t_y是预测框目标中心点相对于该点所在网格左上角的偏移量，t_w、t_h分别是预测框相对于锚框在宽度和高度上的缩放尺度，p_o为置信度信息，(p_c1，p_c2)为类别信息；以图片每个网格的中心作为锚框的中心基点，通过(t_x，t_y，t_w，t_h)和锚框的宽高，可以得出预测框的位置；假设某一网格距离图片左上角的边距为(c_x，c_y)，该网格对应的锚框的宽和高分别为(p_w，p_h)，则预测框的位置信息就可以表示为：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

9.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述S2-4中在训练阶段，将预测框与真实框进行匹配得出正负样本，包括：

采用跨网格匹配，即从真实框所在网格的上下左右的四个网格中找到离真实框中心点最近的两个网格，再加上真实框所在网格共三个网格进行匹配，计算真实框和这三个网格的所有锚框的宽高比，当真实框的宽与锚框的宽的比值、真实框的高与锚框的高的比值均大于1/4且小于4，则认为匹配，即同时满足下列公式：

hyp＝4

其中，GT_W是真实框的宽，GT_H是真实框的高，Anchor_W是锚框的宽，Anchor_H是锚框的高；

否则认为不匹配；

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

其中，b_x、b_y分别为预测框的中心点坐标，b_w、b_h分别为预测框的宽度和高度，σ是sigmoid函数，预测框的置信度为σ(p_o)，预测框的类别为(σ(p_c1)，σ(p_c2))；

10.根据权利要求1所述的一种基于YOLOv5的鱼类摄食行为识别方法，其特征在于，所述损失函数包括分类损失函数loss(class)、定位损失函数loss(box)和置信度损失函数loss(obj)，损失函数Loss的定义如下：

Loss＝loss(box)+loss(obj)+loss(class)

loss(GIOU)＝1-GIOU

式中的参数有以下定义：网格为S×S，每个网格产生B个锚框，A为真实框矩形面积，B为预测框矩形面积，C为真实框与预测框形成的最小外接矩形面积，即同时包含了预测框和真实框的最小框的面积；IOU指交并比，预测框和真实框的交集和并集的比值；

否则为0；

表示第i个网格的第j个预测框不匹配该目标；

是真实的条件类别概率，P_i(c)是网络预测的条件类别概率；loss(BCE)是指二元交叉熵损失；λ_box是指定位损失的权重系数，λ_class是指分类损失的权重系数；而置信度损失由两部分组成，正样本置信度损失和负样本置信度损失，λ_obj是指正样本置信度损失的权重系数，λ_noobj是指负样本置信度损失的权重系数。