CN115953775A

CN115953775A - 一种果蔬智能识别方法

Info

Publication number: CN115953775A
Application number: CN202310062565.1A
Authority: CN
Inventors: 徐子健; 周锦阳; 吴欣桐
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-04-11

Abstract

本发明提供了一种果蔬智能识别方法，包括以下步骤：步骤一：前期数据准备，拍摄水果图像，拍摄时保持相机与称的夹角为90°，拍摄距离为30‑35厘米，在每幅图像中，均只含有一种类型的不同数量的水果。步骤二：数据预处理，利用数据增广的方法处理步骤一采集的数据图片，所采用的增广方式包括翻转图像、旋转角度、随机颜色(调整图像饱和度、调整图像的亮度、调整图像的对比度、调整图像的锐度)、对比度增强、亮度增强、颜色增强。其中亮度增强15％、20％。对比度增强15％、20％。颜色增强15％、20％。步骤三：模型的训练和测试。本发明运用了深度学习模型进行水果种类的分类，节约了人工成本和时间成本。

Description

一种果蔬智能识别方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种果蔬智能识别方法。

背景技术

随着5G以及物联网技术的不断进步，各行各业都在利用新的智能技术，减少人力成本，使生产和服务“无人化”。无人超市也在不断的发展和普及，在果蔬自动计价方面需要准确无误的快速识别出顾客购买的水果种类，进行称重和价格计算，从而实现超市结算的无人化。

这就对水果种类识别的速度和准确度有很高的要求，而且相对于以往的图像识别技术，超市结算的环境下，对于目标的识别需要隔着超市提供的塑料袋包装进行识别。塑料袋会模糊水果的特征，从而对水果种类的识别造成干扰。这就需要针对此类目标的识别进行专门的识别模型进行训练，从而得到适用于超市结算环境的水果种类识别的模型。此类模型的训练有着很大的研究意义，并且对于无人超市的普及，结算的快速化都有着重要的应用。

发明内容

为解决背景技术中现有技术的缺陷，本发明提出了一种果蔬智能识别方法，解决了现有技术中的智能识别系统难以根据超市的现实环境准确识别水果种类的问题。

一种果蔬智能识别方法，包括以下步骤：

步骤一：前期数据准备

拍摄水果图像，拍摄时保持相机与称的夹角为90°，拍摄距离为30-35厘米，在每幅图像中，均只含有一种类型的不同数量的水果。

步骤二：数据预处理

利用数据增广的方法处理步骤一采集的数据图片，所采用的增广方式包括翻转图像、旋转角度、随机颜色(调整图像饱和度、调整图像的亮度、调整图像的对比度、调整图像的锐度)、对比度增强、亮度增强、颜色增强。

其中亮度增强15％、20％。对比度增强15％、20％。颜色增强15％、20％。

步骤三：模型的训练和测试

将采集图像与数据增广获得的图像合并，作为本研究的数据集。在数据集中，按照8：2的比例，分别分配给模型训练和测试，由于增广后的图片有损坏，程序默认跳过损坏图片。

采用LabelImg软件，以最小外接矩画框标记每幅样本图像中的目标，保证每个矩形标注框内只包含一种类型的水果，并包含尽可能少的背景像素，将待标记样本图像依次导入LabelImg中，并标记图像中的水果。

有益效果

1.运用了大量数据集，通过数据扩充，高效合理利用训练数据，使模型学习效果良好，模型预测准确度很高。

2.运用了深度学习模型进行水果种类的分类，节约了人工成本和时间成本。

3.YOLO网络的核心原理是基于CNN也就是卷积神经网络，通过设计好的卷积核和池化层提取分通道图片中信息，再通过全连接层进行分类学习任务，根据损失函数调整学习结果。YOLO在此基础上将图像划分为不同的区域，提前预设好可能的物体范围然后在进行匹配，以提高网络的准确度和速度，同时省去了再用提取的特征加入全连接层进行回归的步骤，直接由图片信息画出物体检测区域，大大提高了检测效率。

附图说明

图1是本发明流程图；

图2是YOLOX网络结构图；

图3是Focus网络结构图；

图4是train loss和trainval loss曲线变化；

图5是各类mAP评价结果。

图6是葡萄的采集图像；

图7是黑布林的采集图像；

图8是草莓的采集图像；

图9是芒果的采集图像；

图10是苹果的采集图像；

图11是橘子的采集图像；

图12是香蕉的采集图像；

图13是火龙果的采集图像；

图14是葡萄的标记图像；

图15是黑布林的标记图像；

图16是芒果的标记图像；

图17是火龙果的标记图像；

图18是香蕉的标记图像；

图19是草莓的标记图像；

图20是苹果的标记图像；

图21是橘子的标记图像。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据图2-3所示，YoloX网络：

整个YoloX可以分为三个部分，分别是CSPDarknet，FPN以及YoloHead，对应了YoloX网络特征提取，特征加强，预测特征点对应的物体情况三个工作过程。

CSPDarknet可以被称作YoloX的主干特征提取网络，输入的图片首先会在CSPDarknet里面进行特征提取，提取到的特征可以被称作特征层，是输入图片的特征集合。在主干部分，我们获取了三个特征层进行下一步网络的构建，可以将这三个特征层当做有效特征层。其中使用了Focus网络结构：一张图片中每隔一个像素拿到一个值，这个时候获得了四个独立的特征层，然后将四个独立的特征层进行堆叠，此时宽高信息就集中到了通道信息，输入通道扩充了四倍。拼接起来的特征层相对于原先的三通道变成了十二个通道。

FPN特征金字塔可以被称作YoloX的加强特征提取网络，在主干部分获得的三个有效特征层会在这一部分进行特征融合，特征融合的目的是结合不同尺度的特征信息。在FPN部分，已经获得的有效特征层被用于继续提取特征。在YoloX里面用了Panet的结构，不仅会对特征进行上采样实现特征融合，还会对特征再次进行下采样实现特征融合。

Yolo Head是YoloX的分类器与回归器，通过CSPDarknet和FPN，我们已经可以获得三个加强过的有效特征层。每一个特征层都有宽、高和通道数，此时我们可以将特征图看作一个又一个特征点的集合，每一个特征点都有通道数个特征。Yolo Head实际上所做的工作就是对特征点进行判断，判断特征点是否有物体与其对应。

根据图1所示，一种果蔬智能识别方法，包括以下步骤：

步骤一：前期数据准备

步骤二：数据预处理

步骤三：模型的训练和测试

实施例

根据图2-21所示，步骤一：共拍摄1225张水果图像，且拍照时尽可能保持相机与水果秤夹角为90°；拍摄距离在30-35cm。在每幅图像中，均只含有一种类型的不同数量的水果，分别为葡萄、苹果、芒果、黑布林、火龙果、橘子、香蕉、草莓八种类型。

步骤二：利用数据增广的方法处理采集的1225张数据图片，所采用的增广方式有翻转图像、旋转角度、随机颜色(调整图像饱和度、调整图像的亮度、调整图像的对比度、调整图像的锐度)、对比度增强、亮度增强、颜色增强。其中亮度增强有15％、20％。对比度增强15％、20％。颜色增强15％、20％等几种处理，经过图像增强处理得到新生成图像8000张。具体如表1所示：

表1数据集增强处理情况

将采集图像与数据增广获得的图像合并，作为本研究的9900张数据集。在数据集中，按照8：2的比例，分别分配给模型训练和测试，由于增广后的图片有损坏，程序默认跳过损坏图片，剩余9626张：其中葡萄1395张、苹果1109张、芒果996张、黑布林1127张、火龙果1252张、橘子1411张、香蕉986张、草莓1350张；其中7702张用于训练，在其中6932用于模型训练：葡萄1004张、苹果798张、芒果717张、黑布林812张、火龙果902张、橘子1016张、香蕉711张、草莓972张；770张用于验证：葡萄112张，苹果89张、芒果80张、黑布林90张、火龙果100张、橘子112张、香蕉79张、草莓108张；1924用于测试：葡萄279张、苹果222张、芒果199张、黑布林225张、火龙果250张、橘子282张、香蕉197张、草莓270张。

为了得到更好的检测模型，首先需要标记数据集图像，再对模型进行训练。本研究以葡萄、苹果、芒果、黑布林、火龙果、橘子、香蕉、草莓八种水果为检测目标，采用LabelImg软件，以最小外接矩画框标记每幅样本图像中的目标，保证每个矩形标注框内只包含一种类型的水果，并包含尽可能少的背景像素。将待标记样本图像依次导入LabelImg中，并标记图像中的水果，其中葡萄被标记为grape；苹果被标记为apple；芒果被标记为mango；黑布林被标记为plum；火龙果被标记为dragonfruit；橘子被标记为orange；香蕉被标记为banana；草莓被标记为strawberry。在标记过程中，软件自动生成xml文件，文件内包含样本图像路径、水果标签等信息。为保证训练的可靠性，避免偶然因素对模型检测性能的影响，本研究对图像有损坏的目标也进行了画框标记。标注结果为YOLO格式的.txt标签文件。

模型训练过程中的学习率会影响损失函数的收敛速度，本次实验使用的优化器为adam，并且使用了cos余弦退火算法，将学习率最大设置0.001，学习率最小设置为0.00001，一共训练了300代，前50代为冻结阶段训练，后250代为解冻阶段训练。图4反映了模型迭代训练过程中在本实验的学习率下的train loss和trainval loss曲线变化见图4。从曲线图中可知，模型的train loss和trainval loss均先下降，后趋于稳定，在该学习率下，模型的损失函数值均达到了好的收敛效果。具体如表2所示：

表2测试评估数据总表

Recall(召回率/查全率)：是指在所有确实为正的样本中，被预测为正样本的占比。

Precision(精确率/查准率)：是指在所有被预测为正的样本中，确实是正样本的占比。

AP是PR曲线围成的面积，用来衡量对一个类检测的好坏。

mAP是所有类AP的平均值，衡量多类别目标检测的好坏。

主要程序段如下：

1.Yolo网络(Yolo.py)：

2.训练部分(train.py)：

3.预测部分(predict.py)：

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种果蔬智能识别方法，其特征在于，包括以下步骤：

步骤一：前期数据准备

拍摄水果图像，拍摄时保持相机与称的夹角为90°，拍摄距离为30-35厘米，在每幅图像中，均只含有一种类型的不同数量的水果；

步骤二：数据预处理

利用数据增广的方法处理步骤一采集的数据图片，所采用的增广方式包括翻转图像、旋转角度、随机颜色、调整图像饱和度、调整图像的亮度、调整图像的对比度、调整图像的锐度、对比度增强、亮度增强、颜色增强；

步骤三：模型的训练和测试

将采集图像与数据增广获得的图像合并，作为数据集，在数据集中，按照8：2的比例，分别分配给模型训练和测试；

使用LabelImg软件，以最小外接矩画框标记每幅样本图像中的目标，保证每个矩形标注框内只包含一种类型的水果，将待标记样本图像依次导入LabelImg中，并标记图像中的水果。

2.根据权利要求1所述的一种果蔬智能识别方法，其特征在于，所述的亮度增强15％、20％，对比度增强15％、20％，颜色增强15％、20％。