CN112668445A

CN112668445A - 一种基于yolov5的蔬菜种类检测与识别方法

Info

Publication number: CN112668445A
Application number: CN202011547550.7A
Authority: CN
Inventors: 段连元
Original assignee: Nanjing Hongtu Artificial Intelligence Technology Research Institute Co ltd
Current assignee: Nanjing Hongtu Artificial Intelligence Technology Research Institute Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-16

Abstract

本发明提供一种基于yolov5的蔬菜种类检测与识别方法，包括模型训练过程和模型应用过程，模型训练过程步骤如下：准备包含各类蔬菜的照片数据；标注照片数据中的蔬菜区域的类别，采用边框框出蔬菜区域，定义此边框为真实的边框；将标注好的照片数据输入YOLOv5网络模型进行训练，得到训练结果并获得模型权重文件。本发明能够自动检测识别蔬菜，可以方便超市和菜市场对蔬菜的管理，减少资源的消耗，同时提高工作效率，本发明同时具备较高的准确率和实时性，为蔬菜市场提供高效的管理办法，使得买家在购买蔬菜时，不需要工作人员的帮助就可以自动完成购买活动，提高蔬菜购买的效率，减少市场管理资源的消耗，加速智能信息时代的经济发展。

Description

一种基于yolov5的蔬菜种类检测与识别方法

技术领域

本发明涉及计算机领域，具体为一种基于yolov5的蔬菜种类检测与识别方法。

背景技术

计算机视觉是一门研究如何使机器"看"的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取'信息'的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个"决定"的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中"感知"的科学。

而近年来深度学习在计算机视觉领域的飞速发展，让机器自动检测识别蔬菜成为可能，目前在超市或者菜市场，人们一般采用的是工作人员手动记忆分辨、二维码或条形码扫描等方式对蔬菜进行分类识别，这种方式会消耗较大的人力和物力，已经难以满足智能信息时代的需求。

发明内容

本发明目的在于提供一种基于yolov5的蔬菜种类检测与识别方法，具备较高的准确率和实时性，为蔬菜市场提供高效的管理办法，使得买家在购买蔬菜时，不需要工作人员的帮助就可以自动完成购买活动，提高蔬菜购买的效率，减少市场管理资源的消耗，加速智能信息时代的经济发展。

为达成上述目的，本发明提出如下技术方案：一种基于yolov5的蔬菜种类检测与识别方法，包括模型训练过程和模型应用过程，模型训练过程步骤如下：

准备包含各类蔬菜的照片数据；

标注照片数据中的蔬菜区域的类别，采用边框框出蔬菜区域，定义此边框为真实的边框；

将标注好的照片数据输入YOLOv5网络模型进行训练，得到训练结果并获得模型权重文件；

模型应用过程步骤如下：

使用拍照设备采集蔬菜的清晰、光照均匀的照片；

加载训练好的YOLOv5网络模型，将蔬菜图片输入训练好的YOLOv5网络模型进行预测；

得到蔬菜区域及类别和数量信息，为之后计算蔬菜价格等后序操作作准备。

进一步的，在本发明中，所述YOLOv5网络模型包括：

Backbone，同图像细粒度上聚合并形成图像特征的卷积神经网络；

Neck，一系列混合和组合图像特征的网络层，并将图像特征传递到预测层；

Head，对图像特征进行预测，生成边界框并预测类别定义此边界框为预测的边框；

Backbone和Neck用于提取图像特征，图像特征即为输入图片预测框中各种蔬菜的特征，ead用于特征检测和预测类别。

进一步的，在本发明中，所述YOLOv5网络模型的输出为(x，y，w，h，c)，分别表示预测框在图像坐标系上的x、y坐标，矩形宽高width、height，以及置信度confidence。

进一步的，在本发明中，训练过程中，所述YOLOv5网络模型的输出多个目标，并对多个目标进行误差校正，误差校正采用聚类法和非极大值抑制法结合的方式，聚类使得预测结果聚成不同的类，选择confidence较大的结果作为最终结果，使用非极大值抑制的方法筛选掉重合度较高的预测结果框。

进一步的，在本发明中，训练过程中，通过损失函数计算调节权重参数，YOLOv5网络的损失函数为GIOU_loss，使用相交尺度衡量的方式计算损失。GIOU_loss的计算公式为：

IOU即交并比，计算的是预测的边框和真实的边框的交集和并集的比值，C表示标签给定的真实的边框与模型给出的预测的边框两者的最小外接矩形，差集＝C–并集B，并集B即真实框与预测框的并集，在进行预测时，加载训练得到的权重文件，YOLOv5网络即可对输入的图片给出输出结果(x，y，w，h，c)，将相应的矩形坐标在原图片上表示，即可得到可视化的预测结果。

有益效果，本申请的技术方案具备如下技术效果：

本发明能够自动检测识别蔬菜，可以方便超市和菜市场对蔬菜的管理，减少资源的消耗，同时提高工作效率，为高速发展的经济做出贡献，本发明同时具备较高的准确率和实时性，为蔬菜市场提供高效的管理办法，使得买家在购买蔬菜时，不需要工作人员的帮助就可以自动完成购买活动，提高蔬菜购买的效率，减少市场管理资源的消耗，加速智能信息时代的经济发展。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1为本发明结构实施流程示意图；

图2为本发明YOLOv5网络整体结构示意图；

图3为本发明蔬菜检测效果图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本实施例提供一种基于yolov5的蔬菜种类检测与识别方法，分为两个具体实施过程，包括模型训练过程和模型应用过程，模型训练过程：准备大量包含各类蔬菜的照片数据。

人工对数据进行蔬菜区域及类别标注。

准备YOLOv5网络模型，投入数据进行训练，得到训练结果。

模型应用过程：

使用拍照设备采集蔬菜的清晰、光照均匀的照片。

加载训练得到的目标检测模型，对蔬菜图片进行预测。

得到蔬菜区域及类别、数量等信息，为之后计算蔬菜价格等后序操作作准备。

关于模型训练过程是本实施例的关键，下面对本发明中用到的目标检测用的YOLOv5网络模型进行具体说明：

YOLOv5网络模型主要由三个主要组件组成：

Backbone：在不同图像细粒度上聚合并形成图像特征的卷积神经网络。

Neck：一系列混合和组合图像特征的网络层，并将图像特征传递到预测层。

Head：对图像特征进行预测，生成边界框并预测类别。

Backbone和Neck主要用于提取图像特征，图像特征即为输入图片预测框中各种蔬菜的特征。Head用于特征检测和预测类别。

输入YOLOv5网络模型的是图片，可以看成一个矩阵，输出是(x，y，w，h，c)，分别表示预测框在图像坐标系上的x、y坐标，矩形宽高width、height，以及置信度confidence。本质上是一个矩阵，通过上面Backbone、Neck、Head三个组件组成的网络，得到了另一个输出矩阵。为了保证目标都被检测到，还会尽可能输出多个目标，再靠后期的误差校正来去除错误的预测结果。

误差校正的方法主要有聚类和非极大值抑制(NMS)。聚类即将预测结果聚成不同的类，选择confidence较大的结果作为最终结果。但是聚类也存在几个问题：相近的目标容易聚成一个类，并且目标总数类别未知，不知道应该聚成几个类。所以需要加入非极大值抑制的方法，筛选掉重合度较高的预测结果框。

组织YOLOv5网络模型的训练，需要找尽可能多的训练样本图片，并做好标注，标注数据叫做label，格式仍然可表示为(x，y，w，h，1)，其中x，y，w，h均为真值，将confidence设置为1。将训练图片和标签投入YOLOv5网络模型进行训练，得到权重文件。接受训练后的神经网络会赋予它认为重要的输入信息更高的权重值，而那些不重要的输入信息权重值则会相对较小。这些权重信息就组成了我们所需要的蔬菜检测识别的权重文件。

权重参数时通过损失函数来决定的，损失函数是关于模型输出和样本标签值之差的函数，可以通过对误差函数求导来调节权重参数。YOLOv5网络模型的损失函数为GIOU_loss。使用相交尺度衡量的方式计算损失。GIOU_loss的计算公式为：

IOU，即交并比(Intersection over Union)，计算的是预测的边框和真实的边框的交集和并集的比值，C表示标签给定的真实的边框与模型给出的预测的边框两者的最小外接矩形。差集＝C–并集B，并集B即真实框与预测框的并集。

在进行预测时，加载训练得到的权重文件，YOLOv5网络模型即可对输入的图片给出输出结果(x，y，w，h，c)，将相应的矩形坐标在原图片上表示，即可得到可视化的预测结果。

YOLOv5网络模型有如下特点：

1、增加了正样本：方法是邻域的正样本anchor(anchor表示目标检测中固定的参考框)匹配策略。

2、通过灵活的配置参数，可以得到不同复杂度的模型。

3、通过一些内置的超参数优化策略，提升整体性能。超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

4、使用了mosaic增强，提升小物体检测性能。mosaic增强，即每次读取四张图片，分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好，最后进行图片和框的组合。

YOLOv5网络模型在训练可以采用以下方式，YOLOv5网络模型至少可以使用7800张蔬菜的数据进行训练，包括上海青、白菜、萝卜、黄瓜、西红柿、茄子、土豆、香菇、杏鲍菇、西葫芦、山药、洋葱、辣椒、西兰花、胡萝卜、莴笋、红薯、包菜、苦瓜、豆角等。目标总数有22000个。图片像素尺寸设置为512x512。将训练数据按4：1划分为训练集和验证集，载入YOLOv5网络，进行训练。加载训练得到的YOLOv5网络模型，可以对新的蔬菜拍摄图片给出预测结果。本实施例具备较高的准确率和实时性，为蔬菜市场提供高效的管理办法，使得买家在购买蔬菜时，不需要工作人员的帮助就可以自动完成购买活动，提高蔬菜购买的效率，减少市场管理资源的消耗，加速智能信息时代的经济发展。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于yolov5的蔬菜种类检测与识别方法，包括模型训练过程和模型应用过程，其特征在于：模型训练过程步骤如下：

准备包含各类蔬菜的照片数据；

模型应用过程步骤如下：

使用拍照设备采集蔬菜的清晰、光照均匀的照片；

2.根据权利要求1所述的一种基于yolov5的蔬菜种类检测与识别方法，其特征在于：所述YOLOv5网络模型包括：

3.根据权利要求2述的一种基于yolov5的蔬菜种类检测与识别方法，其特征在于：所述YOLOv5网络模型的输出为(x，y，w，h，c)，分别表示预测框在图像坐标系上的x、y坐标，矩形宽高width、height，以及置信度confidence。

4.根据权利要求3述的一种基于yolov5的蔬菜种类检测与识别方法，其特征在于：训练过程中，所述YOLOv5网络模型的输出多个目标，并对多个目标进行误差校正，误差校正采用聚类法和非极大值抑制法结合的方式，聚类使得预测结果聚成不同的类，选择confidence较大的结果作为最终结果，使用非极大值抑制的方法筛选掉重合度较高的预测结果框。

5.根据权利要求2所述的一种基于yolov5的蔬菜种类检测与识别方法，其特征在于：训练过程中，通过损失函数计算调节权重参数，YOLOv5网络的损失函数为GIOU_loss，使用相交尺度衡量的方式计算损失。GIOU_loss的计算公式为：