CN114565864A

CN114565864A - 一种基于深度学习的果实识别方法

Info

Publication number: CN114565864A
Application number: CN202210188728.6A
Authority: CN
Inventors: 章军; 胡涛; 陈鹏; 夏懿; 王儒敬; 陈建峰; 牛子寒; 王刘向; 黄琼娇; 路宝榕; 许浪
Original assignee: Hefei Intelligent Agriculture Collaborative Innovation Research Institute Of China Science And Technology
Current assignee: Hefei Intelligent Agriculture Collaborative Innovation Research Institute Of China Science And Technology
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-31

Abstract

本发明提供一种基于深度学习的果实识别方法，通过获取拍摄图像；所述拍摄图像包括果实对象；基于TPH‑YOLOv5模型执行果实对象的检测；所述TPH‑YOLOv5模型包括Transformer编码器预测头和yolo‑v5的主干网络；所述Transformer编码器包含多头注意模块和前馈神经网络MLP模块；所述多头注意模块基于卷积块注意模块CBAM来实现，用于提取注意区域。通过改进的TPH‑YOLOv5目标检测算法，用变换器预测头(TPH)替换原来的预测头，提高了注意机制的预测潜力，且通过集成了卷积块注意模型(CBAM)来寻找稠密物体场景中的注意区域，本发明TPH‑YOLOv5目标检测算法能够大大提高了检测效率以及检测准确率。

Description

一种基于深度学习的果实识别方法

技术领域

本发明涉及图像检测领域，具体涉及一种基于深度学习的果实识别方法。

背景技术

世界上广泛应用温室进行设施栽培，20世纪后期以来设施农业产业得到了大规模迅猛发展。设施农业是典型的劳动密集型产业，其中鲜食果蔬的收获又是占用劳动力最多且最难以实现机械化作业的关键环节。即使发达国家的设施农业作业已达到了高度自动化，但采摘环节仍依赖大量人工来完成，实现采摘作业的自动化已成为设施农业生产发展的现实需求。然而，人工采摘十分辛苦和劳累，很多果农因为沉重的采收劳动也使广大果农苦不堪言。因此，国内外针对温室采摘机器人技术开展了大量研究并取得了重要成果。中国现有设施农业面积超过400万hm2，占世界设施园艺总面积的85％。近几十年来中国的设施农业借助农业劳动力资源丰富的优势实现了超高速发展，但是农业劳动力急缺、农业劳动力成本骤升和居民对设施蔬果品质要求的提高，已使我国设施农业遇到了发展的瓶颈。解决关键采摘环节的劳动力替代问题，使我国采摘机器人技术快速发展成为必然。草莓是全球生产和消费最为广泛的鲜食果蔬，也是采摘机器人研究最为活跃、研发成果最为丰富的领域。现阶段随着工业自动化的不断发展，实现草莓采摘的智能化、机械化已经成为了一种必然的发展趋势，而实现智能草莓采摘的关键就是要设计出精度较高的图像识别系统。

受到卷积神经网络(CNN)在许多计算机视觉任务的成功应用的启发，我们将注意力转向基于深度学习的方法来解决视觉问题。基于无人机拍摄的带有注释的草莓数据集，通过神经网络模型训练来得到最终的分类结果。然而，大多数以前的卷积神经网络是为自然场景图像设计的。直接应用以前的模型来处理无人机捕获场景中的目标检测任务主要有三个问题。首先，由于无人驾驶飞机的飞行高度可能变化很大，因此目标比例变化剧烈。其次，无人机拍摄的图像包含高密度的对象，这会在对象之间造成遮挡。第三，无人机拍摄的图像由于覆盖面积大，总是包含令人困惑的背景元素。上述三个问题使得无人机拍摄图像的目标检测非常具有挑战性，而草莓采摘机器人的图像识别系统也会遇到后面两个同样的问题，因此针对无人机拍摄得到草莓图像的解决方案也能很好的仔草莓采摘机器人上进行应用。

现有技术进行草莓的采摘，其中人工采摘，首先，由于我国传统栽培方式都是地面垄作栽培，产量低，地面环境复杂，容易遮挡草莓也不利于草莓采光和采摘，且受到土地限制，采摘时要一直低头弯腰，十分辛苦和劳累，沉重的采收劳动也使广大果农苦不堪言；其次，人工采摘也有很大的经济成本。而基于图像处理的自动采摘，无论是草莓采摘机器人还是无人机拍摄的图像都会包含高密度的对象，这会在对象之间造成遮挡；其次，拍摄的图像由于覆盖面积大，总是包含令人困惑的背景元素。因此使得对采集到的图像进行目标检测非常具有挑战性。为此，得到一个实时性高，识别准确率高的草莓检测识别系统，这个检测识别系统要能够实现较高的识别准确率、识别效率，并且能够有效的降低设备成本，且要对复杂背景中的小目标有很好的检测识别效果显得尤为重要。

发明内容

有鉴于此，本发明提供了一种基于深度学习的果实识别方法，通过用变换器预测头(TPH)替换原来的预测头，提高了注意机制的预测潜力，且集成了卷积块注意模型(CBAM)来寻找稠密物体场景中的注意区域，使得TPH-YOLOv5目标检测算法解决了识别效率以及识别准确率低的问题，且保证小目标识别。

本发明的技术方案如下：

一种基于深度学习的果实识别方法，包括：

获取拍摄图像；所述拍摄图像包括果实对象；

基于TPH-YOLOv5模型执行果实对象的检测；

所述TPH-YOLOv5模型包括Transformer编码器预测头和 yolo-v5主干网络；所述Transformer编码器包含多头注意模块和前馈神经网络MLP模块；

所述多头注意模块基于卷积块注意模块CBAM来实现，用于提取注意区域。

优选的，所述方法还包括事先训练TPH-YOLOv5模型，所述训练过程包括：

获取样本集合，并进行初始化操作；

将样本数据集输入至TPH-YOLOv5模型，将预测结果与真实结果比对，计算损失函数，并更新网络权重；

若达到预设的迭代次数，则结束训练。

优选的，所述初始化操作，包括：对训练样本集合中的图像进行翻转、随机裁剪、旋转、局部变形；以及对样本集合进行标注，扩充。

优选的，所述对样本集合进行扩充，包括：

对所述样本集合进行数据增强处理，通过样本集合中的图像随机缩放、裁剪、平移、剪切和旋转，并更新标注信息。

此外，还提出一种基于深度学习的果实识别装置，包括：

获取模块，获取拍摄图像；所述拍摄图像包括果实对象；

检测模块，基于TPH-YOLOv5模型执行果实对象的检测；

优选的，所述装置还包括训练模块，用于事先训练TPH-YOLOv5 模型，所述训练过程包括：

获取样本集合，并进行初始化操作；

若达到预设的迭代次数，则结束训练。

优选的，所述对样本集合进行扩充，包括：

此外，还提出一种计算机存储介质，所述计算机存储介质存储有程序；所述程序由处理器加载并执行以实现如上述基于深度学习的果实识别方法。

在本发明的方案中，基于深度学习的果实识别方法，通过获取拍摄图像；所述拍摄图像包括果实对象；基于TPH-YOLOv5模型执行果实对象的检测；所述TPH-YOLOv5模型包括Transformer编码器预测头和yolo-v5主干网络；所述Transformer编码器包含多头注意模块和前馈神经网络MLP模块；所述多头注意模块基于卷积块注意模块 CBAM来实现，用于提取注意区域。本发明，通过改进的 TPH-YOLOv5目标检测算法，用变换器预测头(TPH)替换原来的预测头，提高了注意机制的预测潜力，且通过集成了卷积块注意模型 (CBAM)来寻找稠密物体场景中的注意区域，本发明TPH-YOLOv5 目标检测算法能够大大提高了检测效率以及检测准确率。

附图说明

图1为本发明实施例中基于深度学习的果实识别方法流程图；

图2为本发明实施例中基于深度学习的果实识别装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施一种基于深度学习的果实识别方法，包括：

S1，获取拍摄图像；所述拍摄图像包括果实对象；

具体地，通过无人机的拍摄，能够很好地采集实际工程应用场景中的实际草莓图片。在采集的过程中，要注意充分考虑实际情况，模拟实际情况下的光线、角度、清晰度等问题。

S2，基于TPH-YOLOv5模型执行果实对象的检测；

具体地，本实施例，提出了TPH-YOLOv5模型，在YOLOv5的基础上，通过增加了一个预测头来检测不同尺度的目标。然后，本实施例用变换器预测头(TPH)替换原来的预测头，以探索具有自我注意机制的预测潜力；还集成了卷积块注意模型(CBAM)来寻找稠密物体场景中的注意区域。在YOLOv5的基础上，本实施例只在头部使用变换编码器块，形成变换器预测头(Transformer Prediction Head 简称：TPH)和主干的末端。因为网络末端的特征地图分辨率较低。在低分辨率特征地图上应用TPH可以降低昂贵的计算和存储成本。具体操作就是本实施例将原始版本的YOLOv5中的一些卷积块和 CSP块替换为transformer编码器块。transformer编码器的结构包括两个主要模块，一个多头注意模块和一个前馈神经网络(MLP)。 LayerNorm和Dropout层有助于网络更好地融合，防止网络过度拟合。多头注意不仅可以帮助当前节点注意当前像素，还可以获得上下文的语义。每个Transformer编码器包含两个子层。第一个子层是一个多头注意层，第二个子层(MLP)是一个完全连接的层。每个子层之间使用剩余连接。Transformer编码器块提高了捕获不同本地信息的能力。它还可以利用自我注意机制探索特征的表征潜力。

本实施例，通过将原始版本的YOLOv5中的一些卷积块和CSP 瓶颈块替换为transformer编码器块。与CSPDarknet53中的原始瓶颈块相比，我们认为transformer编码器块能够捕获全局信息和丰富的上下文信息。每个变换编码器包含两个子层，第一个子层是一个多头注意层，第二个子层(MLP)是一个完全连接的层。每个子层之间使用Transformer编码器块增加了捕获不同本地信息的能力。它还可以利用自我注意机制探索特征表征潜力，在无人机拍摄的草莓数据集上， transformer编码器块在高密度遮挡对象上具有更好的性能。在 YOLOv5的基础上，只在头部应用变换编码器块，形成变换器预测头(TPH)和主干的末端。因为网络末端的要素地图分辨率较低。在低分辨率特征地图上应用TPH可以降低昂贵的计算和存储成本。此外，当放大输入图像的分辨率时，我们可以选择删除早期层中的一些TPH 块。两个连续的子模块用于细化通过CBAM的特征映射，还使用了剩余路径。

本实施例，所述多头注意模块基于卷积块注意模块CBAM来实现，用于提取注意区域。

卷积块注意模块CBAM是一个简单但有效的注意模块。它是一个轻量级模块，可以集成到最著名的CNN体系结构中，并且可以以端到端的方式进行培训。给定一个特征映射，CBAM沿着通道和空间两个独立的维度依次推断注意映射，然后将注意映射与输入特征映射相乘以执行自适应特征细化。在无人机拍摄的图像上，大的覆盖区域总是包含令人困惑的背景元素。使用CBAM可以提取注意区域，帮助TPH-YOLOv5抵抗混乱的信息，并专注于有用的目标对象。

获取样本集合，并进行初始化操作；

若达到预设的迭代次数，则结束训练。

本实施例，目标检测中的多模型集成方法深度学习神经网络是一种非线性方法。它们提供了更大的灵活性，并且可以根据训练数据量按比例扩展。这种灵活性的一个缺点是，它们通过随机训练算法学习，这意味着它们对训练数据的细节非常敏感，每次训练时可能会找到不同的权重集，从而产生不同的预测。这使神经网络具有很高的方差。减少神经网络模型方差的一个成功方法是训练多个模型而不是单一模型，并将这些模型的预测结合起来。有三种不同的方法从不同的目标检测模型中集成盒子：非最大抑制(NMS)，Soft-NMS，加权盒融合(WBF)。在NMS方法中，如果框的重叠、相交于并集高于某个阈值，则认为它们属于同一对象。对于每个对象，NMS只保留一个置信度最高的边界框，其他边界框将被删除。因此，框过滤过程取决于单个阈值的选择，这对模型性能有很大影响。Soft-NMS对NMS 做了一点小小的改变，这使得Soft-NMS在标准基准数据集上比传统 NMS有了显著的改进。它基于阈值为相邻边界框的置信度设置衰减函数，而不是将其置信度分数完全设置为零并删除它们。WBF的工作原理与NMS不同。NMS和Soft-NMS都排除一些框，而WBF合并所有框以形成最终结果。因此，它可以解决所有不准确的预测模型。本实施例使用WBF集成最终模型，其性能比NMS好得多。

基于CNN的目标探测器可分为多种类型：单级探测器：YOLOX、 FCOS、DETR、Scaled-YOLOv4、EfficientDet。两级探测器：VFNet， CenterNet2。基于锚的探测器：ScaledYOLOv4，YOLOv5。无锚探测器：CenterNet、YOLOX、RepPoints。一些探测器是专门为无人机拍摄的图像设计的，如RRNet、PENet、CenterNet等。但从组件的角度来看，它们通常由两部分组成，一部分是基于CNN的主干，用于图像特征提取，另一部分是探测头，用于预测对象的类别和边界框。此外，近年来发展起来的物体探测器往往在主干和头部之间插入一些层，人们通常称这部分为探测器的颈部。接下来，本实施例将分别详细介绍这三种结构。经常使用的主干网包括VGG、ResNet、DenseNet、 MobileNet、EfficientNet、CSPDarknet53、Swin Transformer等，因为这些网络已经证明它们在分类和其他问题上具有强大的特征提取能力。但是研究人员一般还将对主干网络进行微调，使其更适合具体任务。网络的颈部设计用于更好地利用主干提取的特征，在不同阶段对主干提取的特征图进行再处理和合理使用是非常重要的。通常，网络的颈部由几个自下而上的路径和几个自上而下的路径组成。颈部是目标检测框架中的关键环节。最早的颈部是使用上下采样块，该方法的特点是没有特征层聚合操作，如SSD，直接跟随多层特征映射后的头部。neck中常用的路径聚合块有：FPN、PANet、NAS-FPN、BiFPN、 ASFF、SFAM。这些方法的共同点是重复使用各种上下采样、拼接、点和或点积来设计聚合策略，还有一些用于颈部的附加块，如SPP、 ASPP、RFB、CBAM。网络的头作为一个分类网络，主干网不能完成定位任务，而头部则负责通过从主干网中提取的特征图来检测目标的位置和类别。磁头一般分为两类：一级目标探测器和两级目标探测器。两级探测器长期以来一直是目标检测领域的主导方法，最具代表性的是RCNN系列。与两级检测器相比，一级检测器可以同时预测边界盒和对象类别。单级探测器的速度优势明显，但精度较低。对于单级探测器，最具代表性的型号是YOLO系列、SSD。

YOLOv5有四种不同的型号，包括YOLOv5s、YOLOv5m、 YOLOv5l和YOLOv5x。通常，YOLOv5分别使用CSPDarknet53的架构，SPP层作为主干，PANet作为颈部和YOLO检测头。由于它是最显著和最方便的单级探测器，本实施例选择它作为基线。当本实施例使用从草莓数据集对模型进行训练时，本实施例发现YOLOv5x的结果远优于YOLOv5s、YOLOv5m和YOLOv5l，并且准确率值的差距大于1.5％。尽管YOLOv5x模型的训练计算成本高于其他三种模型，但本实施例仍然选择使用YOLOv5x来追求最佳的检测性能。另外，根据无人机拍摄图像的特点，调整常用的光度畸变和几何畸变参数。

本实施例修改了原始的YOLOv5，使其专门用于本实施例的草莓数据集，一种微小物体的预测头。本实施例分析了草莓数据集，发现它包含许多非常小的实例，因此本实施例又添加了一个用于微小对象检测的预测头。结合其他三个预测头，本实施例的结构可以缓解物体尺度变化带来的负面影响。本实施例添加的预测头是从低级别、高分辨率的特征图生成的，该特征图对微小对象更敏感。在增加检测头后，虽然计算和存储成本增加，但微小目标检测的性能得到了很大的提高。

在使用TPH-YOLOv5对无人机拍摄的草莓数据集进行训练后，我对测试数据集进行了测试，然后通过可视化分析结果，得出结论： TPH-YOLOv5具有良好的定位能力，但分类能力相对较差。因此，我们提出了一种额外的自训练分类器。首先，我们通过裁剪真实边界框并将每个图像面片的大小调整为64×64来构建训练集。然后我们选择ResNet18作为分类器网络。训练过程中，首先，将所有训练图像输入到本实施例改进后的TPH-YOLOv5网络进行训练，每次迭代都要与真实的目标物体类别和位置进行对比，更新网络权重和损失，最后达到设定的迭代次数后停止训练。训练模型完成后，再把测试图像输入到训练好的网络模型中，加载训练好的网络权重，得到最终的测试准确率。

数据是训练模型的基础，通过无人机的拍摄，能够很好地采集实际工程应用场景中的实际草莓图片。在采集的过程中，要注意充分考虑实际情况，模拟实际情况下的光线、角度、清晰度等问题。通过人工采集数据，本数据集总量为1028张。

进一步，对数据集进行标注。在本数据集标注的过程中，本项目采用的标注工具为labelimg，其安装过程如下：首先，在anaconda 中新建一个名称为labelimg的虚拟环境；其次，激活相应的虚拟环境，在虚拟环境中，输入pip install labelimg，然后再重新激活相应的虚拟环境，输入labelimg，即可得到标注的界面；最后，标注完成后，会得到相应的含有标注信息的.xml文件，再通过脚本将XML文件转为 TXT文件。

优选的，所述对样本集合进行扩充，包括：

数据扩充的有效性在于扩展数据集，使模型对来自不同环境的图像具有更高的鲁棒性。光度畸变和几何畸变被研究人员广泛使用。对于光度失真，我们调整了图像的色调、饱和度和值。在处理几何变形时，我们添加了随机缩放、裁剪、平移、剪切和旋转。除了上述全局像素增强方法外，还有一些更独特的数据增强方法。一些研究人员已经提出了使用多幅图像进行数据增强的方法。在TPH-YOLOv5中，我们将随机缩放、裁剪、平移、剪切和旋转用于数据增强，通过数据增强后，相应的标注信息也会得到更新，因此就能够比较好地完成对数据集扩充的任务，从而更好地提高训练的精度。

此外，如图2所示，还实施一种基于深度学习的果实识别装置，包括：

获取模块，获取拍摄图像；所述拍摄图像包括果实对象；

检测模块，基于TPH-YOLOv5模型执行果实对象的检测；

获取样本集合，并进行初始化操作；

若达到预设的迭代次数，则结束训练。

优选的，所述对样本集合进行扩充，包括：

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现。也可以全部以硬件的形式实现。还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和偏移处理。该类修改、改进和偏移处理在本说明书中被建议，所以该类修改、改进、偏移处理仍属于本说明书示范实施例的精神和范围。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对它们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其它的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种基于深度学习的果实识别方法，其特征在于，包括：

获取拍摄图像；所述拍摄图像包括果实对象；

基于TPH-YOLOv5模型执行果实对象的检测；

所述TPH-YOLOv5模型包括Transformer编码器预测头和yolo-v5主干网络；所述Transformer编码器包含多头注意模块和前馈神经网络MLP模块；

2.根据权利要求1所述的基于深度学习的果实识别方法，其特征在于，所述方法还包括事先训练TPH-YOLOv5模型，所述训练过程包括：

获取样本集合，并进行初始化操作；

若达到预设的迭代次数，则结束训练。

3.根据权利要求2所述的基于深度学习的果实识别方法，其特征在于，所述初始化操作，包括：对训练样本集合中的图像进行翻转、随机裁剪、旋转、局部变形；以及对样本集合进行标注，扩充。

4.根据权利要求3所述的基于深度学习的果实识别方法，其特征在于，所述对样本集合进行扩充，包括：

5.一种基于深度学习的果实识别装置，其特征在于，包括：

获取模块，获取拍摄图像；所述拍摄图像包括果实对象；

检测模块，基于TPH-YOLOv5模型执行果实对象的检测；

所述TPH-YOLOv5模型包括Transformer编码器预测头；所述Transformer编码器包含多头注意模块和前馈神经网络MLP模块；

6.根据权利要求5所述的基于深度学习的果实识别装置，其特征在于，所述装置还包括训练模块，用于事先训练TPH-YOLOv5模型，所述训练过程包括：

获取样本集合，并进行初始化操作；

若达到预设的迭代次数，则结束训练。

7.根据权利要求6所述的基于深度学习的果实识别装置，其特征在于，所述初始化操作，包括：对训练样本集合中的图像进行翻转、随机裁剪、旋转、局部变形；以及对样本集合进行标注，扩充。

8.根据权利要求7所述的基于深度学习的果实识别装置，其特征在于，所述对样本集合进行扩充，包括：

9.一种计算机存储介质，所述计算机存储介质存储有程序；所述程序由处理器加载并执行以实现如上述权利要求1-4任一项所述的基于深度学习的果实识别方法。