CN114882498A - 面向采摘机器人的遮挡和重叠果实识别方法 - Google Patents

面向采摘机器人的遮挡和重叠果实识别方法 Download PDF

Info

Publication number
CN114882498A
CN114882498A CN202210565489.1A CN202210565489A CN114882498A CN 114882498 A CN114882498 A CN 114882498A CN 202210565489 A CN202210565489 A CN 202210565489A CN 114882498 A CN114882498 A CN 114882498A
Authority
CN
China
Prior art keywords
module
picking robot
fruit
original
overlapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210565489.1A
Other languages
English (en)
Inventor
朱意霖
郑太雄
刘劲松
易源
谢新宇
张世博
张黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210565489.1A priority Critical patent/CN114882498A/zh
Publication of CN114882498A publication Critical patent/CN114882498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30181Earth observation
    • G06T2207/30188Vegetation; Agriculture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Sorting Of Articles (AREA)

Abstract

本发明涉及一种面向采摘机器人的遮挡和重叠果实识别方法,属于图像识别领域,提出Dense‑TRH‑YOLO模型,在YOLOv5的基础上将Denseblock模块融合到骨干网中,创建了早期层到后期层的段路径,并且将Transfomer模块融入到模型中,提高语义可分辨性并减少类别混淆,增加对遮挡物的识别精度,然后通过Unet++‑PAN颈部结构提取各层图像特征,最后用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度,在CIOU的基础上分别计算宽高的差异值代替了纵横比,同时引入Focal Loss解决难易样本不平衡的问题。

Description

面向采摘机器人的遮挡和重叠果实识别方法
技术领域
本发明属于图像识别领域,涉及一种面向采摘机器人的遮挡和重叠果实识别方法。
背景技术
收获水果是非常劳动密集和耗时的工作。随着人工智能的发展,这项工作的大部分可以被收割机器人所取代。用机器人收割分为两个步骤。首先,使用计算机视觉系统进行水果检测。其次,根据检测结果引导机械手采摘水果。在这两个步骤中,水果检测是最关键和最具挑战性的。它不仅决定了机械手的后续操作,而且还决定了检测精度。复杂的条件和非结构环境使这项任务非常具有挑战性。
对于果实的识别与分类,人们采用了各种传统视觉检测方法来分割或定位出果实图像,如今如SSD网络模型、YOLO网络模型、Fast R-CNN网络模型能够很好的应用在不同平台和领域。目前深度学习技术应用日益广泛,成为了当今主流的检测手段,这些算法虽然能解决采摘机器人的果实检测识别问题,但对于非结构化的环境下,对于遮挡和重叠严重的果实,往往得不到好的检测效果,从而使采摘机器人无法正确识别果实能否采摘,影响生产。
发明内容
有鉴于此,本发明的目的在于提供一种面向采摘机器人的遮挡和重叠果实识别方法,解决在非结构化环境下传统的目标检测易受复杂背景的影响、对遮挡和重叠严重的果实的漏检和误检,使用基于最新YOLOv5网络改进后的模型Dense-TRU-YOLO,在保持精度的前提下降低了大量的模型参数量,克服了一般深度学习神经网络模型参数里大、计算量大、计算时间长、对计算机硬件要求高,识别精度不够高等缺点。
为达到上述目的,本发明提供如下技术方案:
一种面向采摘机器人的遮挡和重叠果实识别方法,包括以下步骤:
S1:采用改进的Yolov5作为果实目标检测的主体算法,将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络,将Denseblock模块融合到骨干网中,创建了早期层到后期层的段路径,改进了信息和梯度的流动,使得模型易于训练,并且减少了过拟合问题的出现;
S2:为了提高语义可分辨性并减少类别混淆,增加对遮挡物的识别精度,将原YOLOv5的最深层C3模块替换为C3TR模块;
S3:采用Unet++-PAN结构替换原YOLOv5中的PAnet作为模型的颈部结构,并且在结合浅层信息和深层信息时,引入可学习的权重来学习不同输入特征的重要性;
S4:在步骤S3对图像特征进行深层提取后,以三个不同特征提取层传入Yolo head对水果种类进行检测和分类;
S5:在步骤S4的全连接层中采用softmax分类器进行目标检测分类,并采用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度;
S6:对步骤S5中定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类。
进一步,所述步骤S1中采用改进的Yolov5作为目标检测的主体算法,其骨干网络包含一个Focus模块和四个BottleneckCSP模块,将Denseblcok模块融入到骨干网络中,组成Dense-CSPDarknet53,有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下,大幅度增加了对遮挡物的检测精度和特征提取能力,实现了采摘机器人对遮挡果实识别网络的改进设计。
进一步,步骤S2中为了提高提高语义可分辨性并减少类别混淆,增加对遮挡物的识别精度,所述将原YOLOv5的最深层C3模块替换为C3TR模块,具体包括:首先将传入的图像特征分为两个分支,在第一个分支中,通过1×1卷积后传入带有多头注意力机制的Transfomer模块,在第二个分支中仅采用1×1卷积操作;在两个分支提取完成后,采用拼接操作将分支信息融合,并通过1×1卷积还原通道数量;
Transformer模块中自注意力机制计算公式为:
Figure BDA0003649835820000021
其中,Q、K、V分别表示查询向量、键向量和值向量、dk为缩放因子。
进一步,在所述步骤S3中,首先在同尺寸的原始输入节点和输出节点之间加入跨层加权链接;跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息,使得网络对目标边界的回归更加精准,提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合,得到Unet++-PAN结构提取不同尺寸的图像特征;
Unet++-PAN中各节点计算式为:
Figure BDA0003649835820000022
其中,H是卷积,D是下采样,u是上采样,令xi,j表示节点输出,i表示沿采样层数,j表示沿跳接索引密集块的卷积层。
进一步,所述步骤S4中通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。
进一步,所述步骤S5中使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度,在CIOU的基础上分别计算宽高的差异值代替纵横比,同时引入Focal Loss解决难易样本不平衡的问题;
其中GFL计算公式为:
Figure BDA0003649835820000031
其中,Cw和Ch是覆盖框的最小宽度和高度,LIOU是IOU损失,Ldis是距离损失,Lasp是方面损失,b、w、h分别代表了中心点。
进一步,所述步骤S6中对定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类;
SVM的原理为求数据之间的最大几何间隔:
Figure BDA0003649835820000032
S.t.yi(wTxi+b)≧1
其中:w,b为需要求得的参数,xi,yi为训练样本数。
本发明的有益效果在于:本发明解决了在非结构化环境下传统的目标检测易受复杂背景的影响、对遮挡和重叠严重的果实的漏检和误检,还使用基于最新YOLOv5网络改进后的模型取名为Dense-TRU-YOLO,在保持精度的前提下降低了大量的模型参数量,克服了一般深度学习神经网络模型参数里大、计算量大、计算时间长、对计算机硬件要求高,识别精度不够高等缺点。本发明采用Dense-TRU-YOLO作为目标检测的主体算法,将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络,将Denseblock模块融合到骨干网中,有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下,大幅度增加了对遮挡物的检测精度和特征提取能力,实现了采摘机器人对遮挡果实识别网络的改进设计。本发明为了提高语义可分辨性并减少类别混淆,增加对遮挡物的识别精度,将原YOLOv5的最深层C3模块,替换为C3TR模块,首先将传入的图像特征分为两个不同分支,在第一个分支中,通过1×1卷积后传入带有多头注意力机制的Transfomer模块,在第二个分支中仅采用1×1卷积操作。在两个分支提取完成后,采用拼接操作将分支信息融合,并通过1×1卷积还原通道数量。本发明在颈部结构采用Unet++-PAN结构,首先在同尺寸的原始输入节点和输出节点之间加入了跨层加权链接。跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息,使得网络对目标边界的回归更加精准,提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合,能够更加充分的融合各尺寸图像特征。本发明使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度,在原模型上CIOU的基础上分别计算宽高的差异值代替了纵横比,同时引入Focal Loss解决难易样本不平衡的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述面向采摘机器人的遮挡和重叠果实识别方法的流程示意图;
图2为本发明Dense-TRU-YOLO网络模型结构和原理图;
图3为本发明DenseCSP骨干网结构图;
图4为本发明Transfomer机制原理图;
图5为本发明C3模块和改进的C3TR结构原理图;
图6为本发明原模型PANet结构和本发明提出的Unet++-PAN结构图;
图7为本发明Dense-TRU-YOLO模型对番茄数据集训练情况P、R和mAP@0.5图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,本发明提供了一种面向采摘机器人的遮挡和重叠果实识别方法的流程图,包括如下具体步骤:
(1)采用改进的Yolov5作为果实目标检测的主体算法,Dense-TRU-YOLO如图2所示,将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络,将Denseblock模块融合到骨干网中,创建了早期层到后期层的段路径,改进了信息和梯度的流动,使得模型易于训练,并且减少了过拟合问题的出现,如图3所示。YOLOv5s架构的骨干网络包含一个Focus模块和四个BottleneckCSP模块,将Denseblcok模块融入到骨干网络中,组成Dense-CSPDarknet53,有效的减少了图像在深层网络信息丢失。在保证检测速度和模型复杂度的前提下,大幅度增加了对遮挡物的检测精度和特征提取能力,实现了采摘机器人对遮挡果实识别网络的改进设计。
(2)为了提高提高语义可分辨性并减少类别混淆,增加对遮挡物的识别精度,将原YOLOv5的最深层C3模块,替换为C3TR模块,如图4,图5所示;首先将传入的图像特征分为两个不同分支,在第一个分支中,通过1×1卷积后传入带有多头注意力机制的Transfomer模块,在第二个分支中仅采用1×1卷积操作。在两个分支提取完成后,采用拼接操作将分支信息融合,并通过1×1卷积还原通道数量。
Transformer模块中自注意力机制计算公式为:
Figure BDA0003649835820000051
其中,Q、K、V分别表示查询向量、键向量和值向量、dk为缩放因子。
(3)采用Unet++-PAN结构替换原模型中的PAnet作为模型的颈部结构,并且在结合浅层信息和深层信息的时,引入了可学习的权重来学习不同输入特征的重要性,如图6所示。首先在同尺寸的原始输入节点和输出节点之间加入了跨层加权链接。跨层级链接可以在保证不增加过多网络复杂度的情况下融合更多的浅层语义信息,使得网络对目标边界的回归更加精准,提升对遮挡物的识别精度。在不同尺寸的节点之间采用上采样或下采样加权特征融合,得到Unet++-PAN结构提取不同尺寸的图像特征。
Unet++-PAN中各节点计算式为:
Figure BDA0003649835820000061
其中,H是卷积,D是下采样,u是上采样,令xi,j表示节点输出,i表示沿
采样层数,j表示沿跳接索引密集块的卷积层。
(4)在步骤(3)对图像特征进行深层提取后,以三个不同特征提取层传入Yolohead对水果种类进行检测和分类;通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。
(5)在步骤(4)的全连接层中采用softmax分类器和进行目标检测分类和并采用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度;使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度,在CIOU的基础上分别计算宽高的差异值代替了纵横比,同时引入FocalLoss解决难易样本不平衡的问题。
其中GFL计算公式为:
Figure BDA0003649835820000062
其中,Cw和Ch是覆盖框的最小宽度和高度,LIOU是IOU损失,Ldis是距离损失,Lasp是方面损失,b、w、h分别代表了中心点。
(6)对(5)中定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类。对定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类。
SVM的原理为求数据之间的最大几何间隔:
Figure BDA0003649835820000063
S.t.yi(wTxi+b)≧1
其中:w,b为我们需要求得的参数,xi,yi为训练样本数。
如图7所示,是本发明Dense-TRU-YOLO模型对番茄数据集训练情况P、R和mAP@0.5图。
表1给出了本发明Dense-TRU-YOLO消融实验数据。
表1
Figure BDA0003649835820000071
表2给出了本发明与各种常用网络数据对比,以mAP@0.5,F1,fps,模型大小为性能评估。
表2
Figure BDA0003649835820000072
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:包括以下步骤:
S1:采用改进的Yolov5作为果实目标检测的主体算法,将改良的Dense-TR-CSP代替CSPDarknet-53作为骨干网络,将Denseblock模块融合到骨干网中;
S2:将原YOLOv5的最深层C3模块替换为C3TR模块;
S3:采用Unet++-PAN结构替换原YOLOv5中的PAnet作为模型的颈部结构,并且在结合浅层信息和深层信息时,引入可学习的权重来学习不同输入特征的重要性;
S4:在步骤S3对图像特征进行深层提取后,以三个不同特征提取层传入Yolo head对水果种类进行检测和分类;
S5:在步骤S4的全连接层中采用softmax分类器进行目标检测分类,并采用EfficientIOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度;
S6:对步骤S5中定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类。
2.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:所述步骤S1中采用改进的Yolov5作为目标检测的主体算法,其骨干网络包含一个Focus模块和四个BottleneckCSP模块,将Denseblcok模块融入到骨干网络中,组成Dense-CSPDarknet53。
3.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:步骤S2中所述将原YOLOv5的最深层C3模块替换为C3TR模块,具体包括:首先将传入的图像特征分为两个分支,在第一个分支中,通过1×1卷积后传入带有多头注意力机制的Transfomer模块,在第二个分支中仅采用1×1卷积操作;在两个分支提取完成后,采用拼接操作将分支信息融合,并通过1×1卷积还原通道数量;
Transformer模块中自注意力机制计算公式为:
Figure FDA0003649835810000011
其中,Q、K、V分别表示查询向量、键向量和值向量、dk为缩放因子。
4.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:在所述步骤S3中,首先在同尺寸的原始输入节点和输出节点之间加入跨层加权链接;在不同尺寸的节点之间采用上采样或下采样加权特征融合,得到Unet++-PAN结构提取不同尺寸的图像特征;
Unet++-PAN中各节点计算式为:
Figure FDA0003649835810000021
其中,H是卷积,D是下采样,u是上采样,令xi,j表示节点输出,i表示沿采样层数,j表示沿跳接索引密集块的卷积层。
5.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:所述步骤S4中通过将得到的图像特征输入到Yolov5框架中末端的基于anchor的Yolo head进行不同尺寸的特征提取。
6.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:所述步骤S5中使用Efficient IOU Loss损失函数代替原模型的CIOU进行边框回归输出检测框位置和分类置信度,在CIOU的基础上分别计算宽高的差异值代替纵横比,同时引入FocalLoss解决难易样本不平衡的问题;
其中GFL计算公式为:
Figure FDA0003649835810000022
其中,Cw和Ch是覆盖框的最小宽度和高度,LIOU是IOU损失,Ldis是距离损失,Lasp是方面损失,b、w、h分别代表了中心点。
7.根据权利要求1所述的面向采摘机器人的遮挡和重叠果实识别方法,其特征在于:所述步骤S6中对定位后图像剪裁后进行边缘提取,使用SVM分类器对定位后的果实进行是否能直接采摘作分类;
SVM的原理为求数据之间的最大几何间隔:
Figure FDA0003649835810000023
S.t.yi(wTxi+b)≧1
其中:w,b为需要求得的参数,xi,yi为训练样本数。
CN202210565489.1A 2022-05-18 2022-05-18 面向采摘机器人的遮挡和重叠果实识别方法 Pending CN114882498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210565489.1A CN114882498A (zh) 2022-05-18 2022-05-18 面向采摘机器人的遮挡和重叠果实识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210565489.1A CN114882498A (zh) 2022-05-18 2022-05-18 面向采摘机器人的遮挡和重叠果实识别方法

Publications (1)

Publication Number Publication Date
CN114882498A true CN114882498A (zh) 2022-08-09

Family

ID=82678088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210565489.1A Pending CN114882498A (zh) 2022-05-18 2022-05-18 面向采摘机器人的遮挡和重叠果实识别方法

Country Status (1)

Country Link
CN (1) CN114882498A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861922A (zh) * 2022-11-23 2023-03-28 南京恩博科技有限公司 一种稀疏烟火检测方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861922A (zh) * 2022-11-23 2023-03-28 南京恩博科技有限公司 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN115861922B (zh) * 2022-11-23 2023-10-03 南京恩博科技有限公司 一种稀疏烟火检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN109800689B (zh) 一种基于时空特征融合学习的目标跟踪方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN106778472A (zh) 基于深度学习的输电走廊常见侵入物目标检测与识别方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN107609525A (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
Ojha et al. Vehicle detection through instance segmentation using mask R-CNN for intelligent vehicle system
CN107993215A (zh) 一种天气雷达图像处理方法及系统
CN110751076B (zh) 车辆检测方法
CN112434723B (zh) 一种基于注意力网络的日/夜间图像分类及物体检测方法
CN106934355A (zh) 基于深度卷积神经网络的车内手检测方法
CN113361533A (zh) 重叠遮挡的目标物的分割识别方法及系统
CN111027586A (zh) 一种基于新型响应图融合的目标跟踪方法
CN110008899A (zh) 一种可见光遥感图像候选目标提取与分类方法
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、系统及计算机可读介质
CN117197676A (zh) 一种基于特征融合的目标检测识别方法
CN112330718A (zh) 一种基于cnn的三级信息融合视觉目标跟踪方法
CN114882498A (zh) 面向采摘机器人的遮挡和重叠果实识别方法
CN114495050A (zh) 一种面向自动驾驶前向视觉检测的多任务集成检测方法
Wang et al. A transformer-based mask R-CNN for tomato detection and segmentation
Zhang et al. Recognition and detection of wolfberry in the natural background based on improved YOLOv5 network
CN110111358B (zh) 一种基于多层时序滤波的目标跟踪方法
CN115294176B (zh) 一种双光多模型长时间目标跟踪方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination