CN115690778A

CN115690778A - 基于深度神经网络的成熟期水果的检测与跟踪计数的方法

Info

Publication number: CN115690778A
Application number: CN202211390864.XA
Authority: CN
Inventors: 李修华; 王翔
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-02-03

Abstract

本发明提供一种基于深度神经网络的各成熟期水果的检测与跟踪计数的方法，该方法使用了深度学习YOLOv5算法检测不同成熟期的水果，利用YOLOv5的检测结果作为输入，结合ByteTrack目标跟踪算法对各成熟期的水果进行跟踪并且分配唯一的ID，实现端到端的检测与跟踪，最后使用ROI区域对不同成熟期的水果进行计数统计。本发明适用于果园中复杂的环境，实现了对果园中不同成熟期的水果检测与计数，加快了农业巡检机器人的智能化进程。

Description

基于深度神经网络的成熟期水果的检测与跟踪计数的方法

技术领域

本发明属于机器视觉技术领域，具体涉及一种各成熟期水果的检测与跟踪计数的方法。

背景技术

目前果园中水果的产量预测主要方式仍然是基于人工实地统计，即在果园中通过人工目测计数或抽样的方式进行数量估测来预测产量，这种计数方法费时费力、效率低下。另外由于水果生长密集以及水果枝条产生的遮挡，这种计数方法容易产生视觉疲劳，从而导致计数出错。因此对果园中的水果进行智能识别与计数就显得尤为重要，使用农业巡检机器人成为解决方法之一，这就要求巡检机器人能够完全代替人类进行水果的识别和计数，即在机器人巡检过程中准确地识别出水果，并且完成相应的计数。

近年来，随着计算机技术与机器视觉技术的发展，基于深度学习神经网络的目标检测方法得到了广泛的应用，果园中水果的目标检测方法开始由传统方法转变为深度学习方法。

在AlexNet深度神经网络出现之后，出现了如RCNN，SSD，YOLO等一系列优秀的目标检测算法，相比于传统的目标检测方法，深度学习方法检测精度更高，速度更快，更适合用于果园中水果的检测。

但是目前果园中水果目标图像公开数据集较为稀少，针对不同成熟期的水果检测十分困难。并且由于天气，光照，以及遮挡等外在环境因素，使得果园中的水果检测环境变得非常复杂。由于以上原因导致现有方法无法直接用于果园中水果的检测计数。因此如何实现果园中不同成熟期的水果检测与计数成为一个亟待解决的问题。

发明内容

本发明的目的是提供一种基于深度神经网络的各成熟期水果的检测与跟踪计数的方法，包括以下步骤：

步骤一：水果视频数据采集；

步骤二：构建目标检测数据集；

步骤三：构建YOLOv5的网络结构，训练基于YOLOv5的水果目标检测模型；

步骤四：对水果数据进行目标检测；

步骤五：将目标检测的结果结合多分类的ByteTrack目标跟踪算法进行多目标跟踪；

步骤六：设定ROI区域，对分配了身份ID的水果进行分类计数。

进一步的，所述步骤一具体为：

通过相机拍摄处于不同生长时期的水果视频；

拍摄的时间包括中午12点，下午3点以及晚上8点；

光照环境包括前光、背光、散射光以及灯光照明；

采集的视频为MP4格式，分辨率为水平1920×垂直1080，视频的帧率为30f/s。

进一步的，所述通过相机拍摄处于不同生长时期的水果视频，包括：

在视频拍摄的过程中，拍摄方向正向平行于太阳光照射的方向以模拟前光，拍摄方向反向平行于太阳光照射的方向以模拟背光，在阴天多云的环境下采集视频以模拟散射光，在晚上只有果园中灯光照明的条件下同样采集视频。

进一步的，所述步骤二具体为：

提取拍摄视频的图像，然后筛选出用于构建目标检测数据集的图片；

对图像编号后，使用labelimg软件人工对样本图片进行标注，绘制边框，手工分类；

将标注的数据集按照9:1的比例划分为训练集以及测试集。

进一步的，所述步骤三中所述YOLOv5的网络结构包括输入端、主干网络模块、颈部网络模块以及输出端四个部分；

所述输入端用于对水果图像输入网络之前做预处理，包括自适应缩放图片、Mosaic数据增强；

所述自适应缩放图片为，首先设定待进行训练的图片大小为512x512，以w,h来表示原图像的宽和高；那么经过缩放后的宽高分别为：w1＝w× Min{w/512,h/512}，h1＝h×Min{w/512,h/512}；如果w1<512，则对应的w 边上下添加[(512w1)％64]/2高度的黑边，最终凑成512×512大小的图片；对h也同理操作；其中Min表示取最小值操作；

所述Mosaic数据增强，随机选取4张图片，对4张图片进行数据增广操作，操作包括对原始图像进行左右的翻转，大小的缩放以及明亮度，饱和度，色调的调整；然后将4张图片进行拼接，形成一张新的图片；

所述主干网络模块用于对输入图像进行特征提取使用C3和SPPF结构， C3模块将基础的特征层分为两个部分，一部分用来做卷积运算，另一部分通过跨层组合的方式与卷积运算后的部分进行融合，通过融合之后输出特征F，提高运算速度；SPPF模块的作用是将在C3中提取的多个尺度的特征融合到一起，进一步扩展图像的感受野；

所述颈部网络模块采用了FPN+PAN结合的形式将不同层的特征进行融合，FPN是自上向下传递特征，PAN是自下而上传递特征，通过两者的结合，可以将不同层的特征进行融合，减少特征信息的丢失；

所述输出端用于输出输入图像的1/8、1/16、1/32的3个特征图，使用 CIOU_Loss作为预测框的损失函数，CIOU_Loss函数公式如下式所示：

其中，B为预测框，B^gt为真实框；ρ²(B,B^gt)表示预测框和真实框他们中心点的距离；B∩B^gt为预测框与真实框之间的并集，B∪B^gt为预测框与真实框之间的交集；

w表示为预测框的宽度，h表示预测框的高度，w^gt为真实框的宽度，h^gt表示为真实框的高度；c²表示预测框与真实框形成的外接矩形对角线的长度。

进一步的，所述步骤三所述训练YOLOv5水果目标检测模型各条件为：

网络模型的深度depth_multiple设为0.33，宽度width_multiple设为0.5，图片的尺寸设为512x512，batch-size设为64，训练200轮，每一轮训练，训练集中所有的图片都经过YOLOv5模型训练一次，得到效果最优的YOLOv5 检测模型用于后续检测。

进一步的，所述步骤四的具体步骤为：

逐帧读取水果检测视频；

将每一帧图像帧使用YOLOv5网络训练的水果检测模型进行推理检测，检测每一帧图像中所有的水果目标的位置、类别以及置信度，使用检测框的形式存储检测的结果；检测框bbox的表达式为：

bbox＝[x,y,w,h,cls,conf]

其中x、y、w、h依次分别为检测框的中心点坐标以及检测框的宽高；cls为目标的类别，conf为目标的置信度。

进一步的，所述步骤五的具体步骤包括：

Ⅰ、构建多分类ByteTrack跟踪算法的目标检测器，将步骤四中对水果视频数据进行目标检测得到的检测框以置信度得分进行划分，得分高于0.5 的划为高分框，得分低于0.5的划为低分框，并对所有目标框创建轨迹对象。

Ⅱ、构建多分类ByteTrack跟踪算法的轨迹预测，使用改进的多分类卡尔曼滤波，对检测的各类水果目标轨迹进行运动建模，预测目标轨迹的下一帧目标框的位置和大小，用一个9维空间表示轨迹某时刻的状态，运动模型表达式如下：

其中x_k、y_k表示检测框的中心点，r_k为宽高比，高h_k；

表示检测框中心点坐标的变化率。

为检测框宽高比变化率，

为检测框高度变化率，cls_k为检测框的类别信息。

Ⅲ、构建多分类ByteTrack跟踪算法的匹配器，使用检测框和跟踪轨迹进行匹配时先使用高分框和当前所有的跟踪轨迹进行匹配，再使用低分框和没有匹配上高分框的跟踪轨迹进行匹配；对于没有匹配上跟踪轨迹的高分框，对其新建一个跟踪轨迹；对于没有匹配上检测框的跟踪轨迹，保留30帧，在其再次出现时再进行匹配；

Ⅳ、为每一个水果检测目标分配身份ID，当一帧图像中的目标能够与之前帧中出现的目标成功匹配则保持其身份ID不变，若当前帧中的目标不能与之前帧中的目标匹配则为其分配新的身份ID。

进一步的，所述步骤六中的设定ROI区域为，

在图像中设定进行计数的区域，通过设定坐标点的形式，形成计数区域，当跟踪目标出现在计数区域时，对跟踪目标进行计数。

进一步的，所述分类计数方法包括：

步骤a逐帧判断每一帧识别的水果目标框的中心位置坐标是否位于ROI 计数区域之内，若不在ROI计数区域之内，重复执行这一步骤；若坐标位置位于ROI计数区域之内，执行下一步骤；

步骤b提取识别的水果目标框的类别信息，然后判断ROI区域相应类别的跟踪列表是否包含该水果目标的身份ID；若该类别的跟踪列表不包含此身份ID，则将此身份ID加入该类别的跟踪列表，并将对应类别的计数器加一；若该类别的跟踪列表已经包含此身份ID，则不对其计数；

步骤c检测完所有视频帧之后，对ROI区域的所有类别的跟踪列表清空。

本发明的技术效果：

适用于果园中复杂的环境，实现对果园中不同成熟期的水果检测与计数，加快农业巡检机器人的智能化进程。

附图说明

附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出了本发明的果园中火龙果视频数据采集画面示意图；

图2示出了本发明的技术路线示意图；

图3示出了YOLOv5的网络结构示意图；

图4示出了ROI计数方法的流程示意图；

图5示出了本发明的各成熟期火龙果计数效果示意图A；

图6示出了本发明的各成熟期火龙果计数效果示意图B。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

具体实施例：

以火龙果花、未成熟期火龙果以及成熟期火龙果的检测与跟踪计数为例。

步骤1.各成熟期火龙果数据采集。

步骤1-1.在火龙果种植园内，通过手持智能手机沿垄间道路拍摄了多处火龙果植株的视频，有的地块处于即将成熟的时期，植株上挂有成熟果(红果) 和未成熟果(绿果)，如图1(a)所示。有的地块处于花果共存期，有火龙果花和绿果，如图1(b)所示。有的地块还处于花、绿果、红果共存的时期，如图 1(c)所示。拍摄的时间包括太阳光直射的中午时分、光线较为柔和的下午时分以及补光灯照射下的夜晚时分。光照环境包括前光，背光，散射以及灯光照明。采集的视频为MP4格式，分辨率为1920(水平)×1080(垂直)，帧率为30f/s。采集方式为沿着垄间道路，从过道的底部一直拍摄到过道的顶部。拍摄角度分为两种，分别是约45度倾斜于种植行，拍摄单垄火龙果种植行以及平行于垄间过道，拍摄双垄火龙果种植行。

步骤2.火龙果目标检测数据集的构建

步骤2-1.将拍摄的白天以及夜晚的视频，按照每30帧提取一帧图像的方式，对视频帧进行提取，然后对提取完的图片进行筛选，将不包含火龙果目标，镜头模糊的图片剔除，一共筛选出5500张图片。对图像编号后，使用 labelimg软件人工对样本图片进行标注，绘制边框，手工分类。对于遮挡面积超过90％或者模糊不清晰的目标不进行标注。为了更好的比较不同的目标检测算法的性能，将标注的数据格式保存为PASCAL VOC格式。标注的火龙果数据分为3大类，分别是火龙果花，未成熟期火龙果，成熟期火龙果。标注完成之后，将5500张样本的数据集按照9:1的比例划分为5000张训练集，以及500张测试集。

步骤3.搭建YOLOv5目标检测模型并进行训练，用于对各成熟期火龙果的检测。YOLOv5模型结构如图3所示，其内部包括输入端，主干层，颈部层以及输出层。各层搭建方法如下：

步骤3-1.YOLOv5模型输入端的搭建，包括图像自适应缩放与Mosaic数据增强。其中图像自适应缩放为：首先设定待进行训练的图片大小为512x512，以w,h来表示原图像的宽和高。那么经过缩放后的宽高分别为：w1＝w× Min{w/512,h/512}，h1＝h×Min{w/512,h/512}，如果w1<512，则对应的w 边上下添加[(512w1)％64]/2高度的黑边，最终凑成512×512大小的图片，同理h操作，其中Min表示取最小值操作。Mosaic数据增强操作为：随机选取4张图片，对4张图片进行数据增广操作，操作包括对原始图像进行左右的翻转，大小的缩放以及明亮度，饱和度，色调的调整。然后将4张图片进行拼接，形成一张新的图片，加强了处理的效率。

步骤3-2.YOLOv5模型主干层的搭建，使用C3和SPPF结构，C3模块将基础的特征层分为两个部分，一部分用来做卷积运算，另一部分通过跨层组合的方式与卷积运算后的部分进行融合，通过融合之后输出特征F(Feature，特征)，提高了运算速度。SPPF模块的作用是将在C3中提取的多个尺度的特征融合到一起，进一步扩展图像的感受野。

步骤3-3.YOLOv5模型颈部层的搭建，用了FPN+PAN结合的形式，FPN 是自上向下传递特征，PAN是自下而上传递特征，通过两者的结合，可以将主干层中输出的特征进行融合，减少特征信息的丢失。

步骤3-4.YOLOv5模型输出端的搭建，对颈部层融合的特征进行预测。使用CIOU_Loss作为预测框的损失函数，CIOU_Loss函数公式如下式(1)所示：

其中，ρ²(B,B^gt)表示预测框和真实框他们中心点的距离，B为预测框，B^gt为真实框。B∩B^gt为预测框与真实框之间的并集，B∪B^gt为预测框与真实框之间的交集。

w表示为预测框的宽度，h表示预测框的高度，w^gt为真实框的宽度，h^gt表示为真实框的高度，c²表示预测框与真实框形成的外接矩形对角线的长度。

步骤3-5.训练YOLOv5火龙果检测模型，将网络模型的深度 depth_multiple设为0.33，宽度width_multiple设为0.5，图片的尺寸设为512x512，batch-size设为64，训练200轮，每一轮训练，训练集中所有的图片都经过YOLOv5模型训练一次，得到效果最优的YOLOv5火龙果检测模型用于后续检测。

步骤4.搭建改进的多分类ByteTrack跟踪器，用于对各成熟期的火龙果跟踪。改进的多分类ByteTrack包括使用目标检测器对火龙果进行检测，使用卡尔曼滤波器对火龙果运动轨迹的下一帧位置进行预测，以及使用特征匹配器对检测目标与预测目标进行匹配。

步骤4-1.使用YOLOv5火龙果目标检测模型作为改进的多分类 ByteTrack的目标检测器，检测图像中所有的火龙果目标的位置，类别以及置信度，使用检测框的形式存储目标位置，类别以及置信度信息等检测结果。检测框(bbox)的表达式为：

bbox＝[x,y,w,h,cls,conf]

其中x、y、w、h为检测框的中心点坐标以及检测框的宽高。cls为目标的类别，conf为目标的置信度。

步骤4-2.构建多分类ByteTrack跟踪算法的目标检测器，将步骤4-1中对火龙果视频数据进行目标检测得到的检测框以置信度得分进行划分，得分高于0.5的划为高分框，得分低于0.5的划为低分框，并对所有目标框创建轨迹对象，置信度得分最大为1。

步骤4-3.构建多分类ByteTrack跟踪算法的轨迹预测，使用卡尔曼滤波，对检测的火龙果目标轨迹进行运动建模，预测目标轨迹的下一帧目标框的位置和大小，用一个9维空间表示轨迹某时刻的状态，运动模型表达式如下：

其中x_k、y_k表示检测框的中心点，r_k为宽高比，高h_k。

表示检测框中心点坐标的变化率。

为检测框宽高比变化率，

为检测框高度变化率，cls_k为检测框的类别信息。

步骤4-4.构建多分类ByteTrack跟踪算法的匹配器，使用检测框和跟踪轨迹进行匹配时先使用高分框和当前所有的跟踪轨迹进行匹配，再使用低分框和没有匹配上高分框的跟踪轨迹进行匹配；对于没有匹配上跟踪轨迹的高分框，对其新建一个跟踪轨迹；对于没有匹配上检测框的跟踪轨迹，保留30 帧，在其再次出现时再进行匹配；

步骤4-5.为每一个火龙果果检测目标分配身份ID，当一帧图像中的目标能够与之前帧中出现的目标成功匹配则保持其身份ID不变，若当前帧中的目标不能与之前帧中的目标匹配则为其分配新的身份ID。

步骤5.使用YOLOv5火龙果检测模型以及改进的多分类ByteTrack跟踪器对各成熟期火龙果进行跟踪。

步骤5-1.逐帧读取火龙果视频，按前后顺序分别进入检测。

步骤5-2.使用YOLOv5火龙果检测模型对每一帧图像进行检测，使用主干层进行特征提取，将提取的特征通过颈部层进行融合，最终将融合后的特征进行检测输出。将得到的检测框按置信度得分分为高分框和低分框。

步骤5-3.对检测输出的结果(x,y,r,h,

,cls)，其中(x,y)表示检测目标框的中心点坐标，r,h表示检测框的宽高，cls表示检测框类别，其余参数表示前4个参数在坐标系中对应的速度变化信息。使用卡尔曼滤波器来对目标的轨迹状态进行预测和更新，使用(x,y,r,h,cls)表示火龙果目标的观测变量，得到经过卡尔曼滤波器预测之后的预测框。

步骤5-4.将步骤5-2得到的高分框与步骤5-3得到的预测轨迹进行匹配。

步骤5-5.将步骤5-2得到的低分框与步骤5-4中没有匹配上高分框的轨迹进行匹配。

步骤5-6.对于没有匹配上轨迹的高分框，给它新建一个轨迹。

步骤5-7.对于没有匹配上检测框的轨迹，保留30帧，等待下次匹配。

步骤5-8.对于匹配上的检测目标保留身份ID，对于未匹配上的目标生成新的身份ID。

步骤6设定ROI区域对分配了身份ID的火龙果进行分类计数。

步骤6-1.对检测的火龙果视频设定ROI计数区域，如图5与图6所示，针对单垄火龙果种植行，分配一块大小200x700的矩形区域，针对双垄火龙果种植行，分配两块大小为200x700的矩形区域。

步骤6-2.对进入到矩形区域中的火龙果目标进行计数，计数方法如图4 所示，可分为3个步骤：

步骤a逐帧判断每一帧识别的火龙果目标框的中心位置坐标是否位于 ROI计数区域之内，若不在ROI计数区域之内，重复执行这一步骤；若坐标位置位于ROI计数区域之内，执行下一步骤；

步骤b提取识别的火龙果目标框的类别信息，然后判断ROI区域相应类别的跟踪列表是否包含该水果目标的身份ID；若该类别的跟踪列表不包含此身份ID，则将此身份ID加入该类别的跟踪列表，并将对应类别的计数器加一；若该类别的跟踪列表已经包含此身份ID，则不对其计数；

以上所述，仅为本发明优选的具体实施方式，但本发明的保护范围不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的各成熟期水果的检测与跟踪计数的方法，其特征在于，包括以下步骤：

步骤一：水果视频数据采集；

步骤二：构建目标检测数据集；

步骤四：对水果数据进行目标检测；

2.根据权利要求1所述的方法，其特征在于，所述步骤一具体为：

通过相机拍摄处于不同生长时期的水果视频；

拍摄的时间包括中午12点，下午3点以及晚上8点；

光照环境包括前光、背光、散射光以及灯光照明；

3.根据权利要求2所述的方法，其特征在于，所述通过相机拍摄处于不同生长时期的水果视频，包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤二具体为：

将标注的数据集按照9:1的比例划分为训练集以及测试集。

5.根据权利要求1所述的方法，其特征在于，所述步骤三中所述YOLOv5的网络结构包括输入端、主干网络模块、颈部网络模块以及输出端四个部分；

所述自适应缩放图片为，首先设定待进行训练的图片大小为512x512，以w,h来表示原图像的宽和高；那么经过缩放后的宽高分别为：w1＝w×Min{w/512,h/512}，h1＝h×Min{w/512,h/512}；如果w1<512，则对应的w边上下添加[(512w1)％64]/2高度的黑边，最终凑成512×512大小的图片；对h也同理操作；其中Min表示取最小值操作；

所述主干网络模块用于对输入图像进行特征提取使用C3和SPPF结构，C3将基础的特征层分为两个部分，一部分用来做卷积运算，另一部分通过跨层组合的方式与卷积运算后的部分进行融合，通过融合之后输出特征F,SPPF结构的作用是将在C3中提取的多个尺度的特征融合到一起；

所述颈部网络模块采用FPN+PAN结合的形式将不同层的特征进行融合；

所述输出端用于输出输入图像的1/8、1/16、1/32的3个特征图，使用CIOU_Loss作为预测框的损失函数，CIOU_Loss函数公式如下式所示：

6.根据权利要求1所述的方法，其特征在于，所述步骤三所述训练YOLOv5水果目标检测模型各条件为：

网络模型的深度depth_multiple设为0.33，宽度width_multiple设为0.5，图片的尺寸设为512x512，batch-size设为64，训练200轮，每一轮训练，训练集中所有的图片都经过YOLOv5模型训练一次，得到效果最优的YOLOv5检测模型用于后续检测。

7.根据权利要求1所述的方法，其特征在于，所述步骤四的具体步骤为：

逐帧读取水果检测视频；

bbox＝[x,y,w,h,cls,conf]

8.根据权利要求1所述的方法，其特征在于，所述步骤五的具体步骤包括：

Ⅰ、构建多分类ByteTrack跟踪算法的目标检测器，将步骤四中对水果视频数据进行目标检测得到的检测框以置信度得分进行划分，得分高于0.5的划为高分框，得分低于0.5的划为低分框，并对所有目标框创建轨迹对象。

其中x_k、y_k表示检测框的中心点，r_k为宽高比，高h_k；

表示检测框中心点坐标的变化率。

为检测框宽高比变化率，

为检测框高度变化率，cls_k为检测框的类别信息。

9.根据权利要求1所述的方法，其特征在于，所述步骤六中的设定ROI区域为，

10.根据权利要求1所述的方法，其特征在于，所述分类计数方法包括：

步骤a逐帧判断每一帧识别的水果目标框的中心位置坐标是否位于ROI计数区域之内，若不在ROI计数区域之内，重复执行这一步骤；若坐标位置位于ROI计数区域之内，执行下一步骤；