CN115240188A - 一种基于深度学习的橙子采摘机器人目标实时检测方法 - Google Patents

一种基于深度学习的橙子采摘机器人目标实时检测方法 Download PDF

Info

Publication number
CN115240188A
CN115240188A CN202210874239.6A CN202210874239A CN115240188A CN 115240188 A CN115240188 A CN 115240188A CN 202210874239 A CN202210874239 A CN 202210874239A CN 115240188 A CN115240188 A CN 115240188A
Authority
CN
China
Prior art keywords
feature map
feature
network
time detection
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210874239.6A
Other languages
English (en)
Inventor
郑太雄
刘斯宇
杨新琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210874239.6A priority Critical patent/CN115240188A/zh
Publication of CN115240188A publication Critical patent/CN115240188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的橙子采摘机器人目标实时检测方法,属于目标实时检测领域,采用YOLOv5s作为橙子目标实时检测的框架,将改进的CSP‑Darknet‑s作为骨干网络对橙子图像进行特征图提取;将特征图输入空间金字塔池化网络进行最大池化,得到固定大小的最终输出特征图;采用BiFPN架构作为颈部网络,对特征图进行多尺度融合;将多尺度融合特征图输入到检测网路中,经过卷积层后,输出三个尺度的特征图;再输入Bounding Box损失函数来预测边界和原始图像中目标的类别并标记;使用非极大值抑制来处理步骤S5中重复冗余的预测框,保留置信度最高的预测框信息,得到最终预测结果。

Description

一种基于深度学习的橙子采摘机器人目标实时检测方法
技术领域
本发明属于目标实时检测领域,涉及一种基于深度学习的橙子采摘机器人目标实时检测方法.
背景技术
水果采摘机器人目标检测识别技术主要应用在智慧农业生产领域。国内外相关研究人员在水果采摘机器人目标实时检测方面取得了一系列研究成果,水果采摘机器人目标实时检测的方法经历了基于传统数字图像处理、机器学习的图像处理以及深度学习的图像处理。
传统数字图像处理技术需要精确的目标果实特征信息,它曾经广泛的应用于水果采摘机器人目标检测研究中,并取得了很多成果。众多研究人员从水果颜色、纹理、形状和多特征融合等方面来分割识别水果。此类方法在环境较理想的情况下可以取得较好的识别效果,然而,由于自然环境下光线不均匀、土壤和天空等背景干扰、图像噪声等因素使得采用果实的光谱反射特性进行果实分割、提取和识别往往达不到理想的效果;其次对于枝叶遮挡果实、相互重叠果实的情况,采用果实的色彩、灰度信息往往不能分割和识别出单个果实区域;最后采用数字图像处理的方法进行果实识别时,特征提取过程大大增加了计算量,耗时而无法满足实时性的需求。
随着机器学习图像处理的方法日渐成熟,越来越多的分类识别算法被融入到水果采摘机器人目标检测研究中,并取得了很多成果,如贝叶斯算法、KNN聚类算法、SVM算法、K-means聚类算法等。虽然此类分类算法相较于传统数字图像处理可以取得较好的效果,但其也具有明显的缺点,如:通过滑动窗口策略进行区域选择时针对性不强且全局遍历运算量大,这提高了时间复杂度和窗口冗余;手动设计的特征对于目标的多样性并没有很好的鲁棒性。
近年来,深度学习的发展非常迅速,它被大量的应用于智慧农业领域,基于深度学习的卷积神经网络也被很多学者应用于水果采摘机器人目标检测研究中,如:CNN网络模型、AlexNet网络模型、VGGNet网络模型、残差神经网络(ResNet)网络模型的水果目标检测、Faster R-CNN网络模型、SSD网络模型和YOLO网络模型等。以上各种基于深度学习的水果采摘机器人目标检测方法研究,受环境影响的程度较低,具备较强的特征学习能力,无需人工再进行复杂的特征组合与设计工作,节省了大量的人力物力,最后得到的水果识别准确率和速度都能媲美甚至远超于传统的基于传统数字图像处理和基于机器学习的水果目标检测方法。但是纵观基于深度学习的水果目标识别研究,现有的大部分水果检测模型虽然识别准确率较高,但由于其复杂度高、参数多、规模大、很多模型的实时性不足。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度学习的橙子采摘机器人目标实时检测方法,在保证水果识别准确率的同时,满足采摘机器人实时识别的要求。
为达到上述目的,本发明提供如下技术方案:
一种基于深度学习的橙子采摘机器人目标实时检测方法,包括以下步骤:
S1:采用YOLOv5s作为橙子目标实时检测的框架,将改进的CSP-Darknet-s作为骨干网络对橙子图像进行特征图提取,所述改进的CSP-Darknet-s为:将切片结构(Focus)、改进的瓶颈层(BottleneckCSP-s)和CBAM(Convolutional Block Attention Module)注意力机制模块进行结合得到的网络模型;
S2:将所述特征图输入空间金字塔池化网络(SPP)进行最大池化,得到固定大小的最终输出特征图;
S3:采用加权双向特征金字塔网络(BiFPN)架构作为颈部网络,将所述最终输出特征图输入到BiFPN中,对特征图进行多尺度融合;
S4:将多尺度融合特征图输入到检测网路中,经过卷积层后,输出三个尺度的特征图;
S5:将三个尺度的特征图输入Bounding Box损失函数来预测边界和原始图像中目标的类别并标记;
S6:使用非极大值抑制(Non Maximum Suppression,NMS)来处理步骤S5中重复冗余的预测框,保留置信度最高的预测框信息,得到最终预测结果。
进一步,在步骤S1之前对橙子进行图像采集和图像增强,所述图像采集包括以下情况:橙子被树叶遮挡,橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度;所述图像增强包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转。
进一步,步骤S1中,所述切片结构(Focus)的实施步骤为:首先输入608×608×3的图像,随后进行切片操作,从而得到304×304×12的特征图,随后再经过一次32个卷积核的卷积操作,最后输出304×304×32的特征图;
所述改进的瓶颈层(BottleneckCSP-s)为1个卷积核大小为1×1的卷积层(Conv2d+BN+Hardswish激活函数)与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构,瓶颈模块的最终输出是BottleneckCSP-s部分的输出和通过残差结构的初始输入的相加;
所述CBAM注意力机制模块融合两种注意力机制,先是channel attention,然后是spatial attention,使用CBAM提取需要注意的区域,以减少获取其他无关的信息。
进一步,步骤S1中,CBAM注意力机制模块融合两种注意力机制,先是channelattention,然后是spatial attention,具体流程为:
将输入的特征图F(H×W×C)分别经过基于width和height的全局最大池化(global max pooling)和全局平均池化(global average pooling),得到两个1×1×C的特征图;
接着,再将两个1×1×C的特征图分别送入一个两层的神经网络(MLP),第一层神经元个数为C/r,其中r为减少率,激活函数为Relu,第二层神经元个数为C,两层的神经网络是共享的;
而后,将MLP输出的特征进行基于element-wise的加和操作,再经过sigmoid激活操作,生成最终的channel attention feature,即M_c;
最后,将M_c和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征;
将Channel attention模块输出的特征图F’作为Spatial attention模块的输入特征图,首先做一个基于channel的全局最大池化(global max pooling)和全局平均池化(global average pooling),得到两个H×W×1的特征图;
然后将两个H×W×1的特征图基于channel做通道拼接(concat)操作;
接着经过一个7×7卷积操作,降维为1个channel,即H×W×1;
再经过sigmoid生成spatial attention feature,即M_s;
最后将M_s和M_c做乘法,得到最终生成的特征。
进一步,步骤S2中,金字塔池化网络(SPP)通过一个1×1的卷积对步骤S1得到的特征图进行卷积操作,并通过三个平行的最大池化层(Maxpooling)进行深度连接得到最终输出特征图。
进一步,步骤S3中,BiFPN通过引入可学习的权值来学习不同输入特征的重要性,同时反复应用自顶向下和自下而上的多尺度特征融合,以聚合不同分辨率的特征。
进一步,步骤S4中,将步骤S3得到的多尺度融合特征图输入到检测网路中,经过卷积层后,输出76×76、38×38和19×19维的特征图,对应检测小目标、中目标、大目标。
进一步,步骤S5中,将步骤S4得到的三个尺度的特征图采用CIOU_Loss做BoundingBox的损失函数来预测边界和原始图像中目标的类别并标记,CIOU_Loss损失函数的计算公式为:
Figure BDA0003757256360000041
Figure BDA0003757256360000042
Figure BDA0003757256360000043
其中α表示预测框和目标框的长宽比,v表示衡量长宽比一致的参数,IOU表示真实框和预测框之间的交并集,Distance_22表示最小外接矩形对角线距离,wgt、hgt表示真实框的宽度和高度,wp、hp表示预测框的宽度和高度。
进一步,步骤S6中,采用DIOU_NMS来筛选预测框,DIOU_NMS的表达式如下所示:
Figure BDA0003757256360000044
Figure BDA0003757256360000045
其中
Figure BDA0003757256360000046
表示高置信度候选框,
Figure BDA0003757256360000047
是遍历各个候选框与置信度高的重合情况。
本发明的有益效果在于:本方法解决了传统目标检测容易受到光照条件的影响、复杂背景影响、水果重叠遮挡、枝叶遮挡、水果成簇生长等问题,还克服了一般基于深度学习的水果检测方法计算时间长、复杂度高、参数多、梯度消失慢以及实时性不足等缺点。
1)本发明能够解决自然光照条件变化、枝叶遮挡果实、果实聚类重叠遮挡的检测识别难题,使采摘机器人对橙子的目标识别具有较好的实时性和鲁棒性。
2)本发明采用改进的轻量化YOLOv5s神经网络,不仅可以快速的识别出橙子,识别橙子的准确度还很高,同时满足了识别的实时性和准确性。
3)本发明将RGB彩色相机获取到的彩色图像缩放为480*480,极大减少模型训练和测试的计算量和运行时间。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1是本发明基于深度学习的橙子目标实时检测方法的流程示意图;
图2是本发明基于改进的YOLOv5s目标检测框架中改进的瓶颈层BottleneckCSP-s的结构示意图;
图3是本发明基于改进的YOLOv5s目标检测框架结构示意图;
图4是本发明基于改进的YOLOv5s目标检测框架中注意力机制模块CBAM的结构示意图;
图5是本发明基于改进的YOLOv5s目标检测框架中加权双向特征金字塔网络(BiFPN)融合底层和高层特征图的流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1~图5,本发明优选了一种基于深度学习的橙子目标实时检测方法,首先,需要进行橙子图像采集和图像增强,图像采集包括以下情况:橙子被树叶遮挡,橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度等。另外,图像增强方法包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转等。然后进行橙子目标实时检测,包括如下具体步骤:
(1)采用轻量级网络YOLOv5s作为橙子目标实时检测的框架,将改进的CSP-Darknet-s作为骨干网络,即结合切片结构(Focus)、改进的瓶颈层(BottleneckCSP-s)和CBAM(Convolutional Block Attention Module)注意力机制模块对橙子图像进行特征图提取;
切片结构(Focus)具体实施步骤为首先输入608×608×3的图像,随后进行切片操作,从而得到304×304×12的特征图,随后再经过一次32个卷积核的卷积操作,最后输出304×304×32的特征图;改进的瓶颈层(BottleneckCSP-s)为1个卷积核大小为1×1的卷积层(Conv2d+BN+Hardswish激活函数)与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构,瓶颈模块的最终输出是将该部分的输出与初始输入通过残差结构相加。
CBAM注意力机制模块融合了两种注意力机制,先是channel attention,然后是spatial attention,具体流程为:将输入的特征图F(H×W×C)分别经过基于width和height的global max pooling(全局最大池化)和global average pooling(全局平均池化),得到两个1×1×C的特征图,接着,再将它们分别送入一个两层的神经网络(MLP),第一层神经元个数为C/r(r为减少率),激活函数为Relu,第二层神经元个数为C,这个两层的神经网络是共享的。而后,将MLP输出的特征进行基于element-wise的加和操作,再经过sigmoid激活操作,生成最终的channel attention feature,即M_c。最后,将M_c和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征;将Channelattention模块输出的特征图F’作为本模块的输入特征图。首先做一个基于channel的global max pooling和global average pooling,得到两个H×W×1的特征图,然后将这2个特征图基于channel做concat操作(通道拼接)。然后经过一个7×7卷积(7×7比3×3效果要好)操作,降维为1个channel,即H×W×1。再经过sigmoid生成spatial attentionfeature,即M_s。最后将该feature和该模块的输入feature做乘法,得到最终生成的特征。
(2)将步骤(1)得到的特征图输入空间金字塔池化网络(SPP)进行最大池化得到固定大小的最终输出特征图,具体为:首先输入大小为512×20×20的特征图,经过卷积核大小为1×1的卷积层后输出大小为256×20×20的特征图;然后,将该特征图与经过三个平行的Maxpooling层(最大池化层)进行二次采样的输出特征图进行深度连接,输出特征图的大小为1024×20×20;最后,通过具有512个卷积核的卷积层,得到大小为512×20×20的最终输出特征图。
(3)采用加权双向特征金字塔网络(BiFPN)架构作为颈部网络,将步骤(2)得到的最终输出特征输入到BiFPN中,对特征图进行高效的多尺度融合;BiFPN通过引入可学习的权值来学习不同输入特征的重要性,同时反复应用自顶向下和自下而上的多尺度特征融合,以聚合不同分辨率的特征。
(4)将步骤(3)得到的多尺度融合特征图输入到检测网路中,经过卷积层后,输出76×76、38×38和19×19维的特征图,对应检测小目标、中目标、大目标。
(5)将步骤(4)得到的三个尺度的特征图采用CIOU_Loss做Bounding Box的损失函数来预测边界和原始图像中目标的类别并标记,采用其中CIOU_Loss做Bounding box的损失函数。损失函数CIOU_Loss增加了一个影响因子既考虑了预测框和目标框的长宽比,又考虑了重叠面积和中心点距离,当目标框包裹预测框时,直接度量两个框的距离,使得预测框回归的速度和精度更高。CIOU_Loss损失函数的表达式如下所示:
Figure BDA0003757256360000071
Figure BDA0003757256360000072
Figure BDA0003757256360000073
其中α表示预测框和目标框的长宽比,v表示衡量长宽比一致的参数,IOU表示真实框和预测框之间的交并集,Distance_22表示最小外接矩形对角线距离,wgt、ggt表示真实框的宽度和高度,wp、hp表示预测框的宽度和高度。
(6)使用非极大值抑制(Non Maximum Suppression,NMS)来处理步骤(5)中重复冗余的预测框,保留置信度最高的预测框信息,得到最终预测结果,采用DIOU_NMS来筛选预测框。使用DIOU作为NMS的标准,不仅考虑了重叠区域IOU的值,还考虑了两个Box中心点距离。DIOU_NMS的表达式如下所示:
Figure BDA0003757256360000074
Figure BDA0003757256360000075
其中
Figure BDA0003757256360000076
表示高置信度候选框,
Figure BDA0003757256360000077
是遍历各个候选框与置信度高的重合情况。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:包括以下步骤:
S1:采用YOLOv5s作为橙子目标实时检测的框架,将改进的CSP-Darknet-s作为骨干网络对橙子图像进行特征图提取,所述改进的CSP-Darknet-s为:将切片结构、改进的瓶颈层和CBAM注意力机制模块进行结合得到的网络模型;
S2:将所述特征图输入空间金字塔池化网络进行最大池化,得到固定大小的最终输出特征图;
S3:采用加权双向特征金字塔网络BiFPN架构作为颈部网络,将所述最终输出特征图输入到BiFPN中,对特征图进行多尺度融合;
S4:将多尺度融合特征图输入到检测网路中,经过卷积层后,输出三个尺度的特征图;
S5:将三个尺度的特征图输入Bounding Box损失函数来预测边界和原始图像中目标的类别并标记;
S6:使用非极大值抑制来处理步骤S5中重复冗余的预测框,保留置信度最高的预测框信息,得到最终预测结果。
2.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:在步骤S1之前对橙子进行图像采集和图像增强,所述图像采集包括以下情况:橙子被树叶遮挡,橙子被树枝遮挡、混合遮挡、水果之间重叠、自然光角度、逆光角度、侧光角度;所述图像增强包括图像亮度增强和降低、水平镜像、垂直镜像、多角度旋转。
3.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S1中,所述切片结构的实施步骤为:首先输入608×608×3的图像,随后进行切片操作,从而得到304×304×12的特征图,随后再经过一次32个卷积核的卷积操作,最后输出304×304×32的特征图;
所述改进的瓶颈层为1个卷积核大小为1×1的卷积层与一个Bottleneck模块和一个卷积核大小为1×1的卷积层连接起来的残差网络架构,瓶颈模块的最终输出是BottleneckCSP-s部分的输出和通过残差结构的初始输入的相加;
所述CBAM注意力机制模块融合两种注意力机制,先是channel attention,然后是spatial attention,使用CBAM提取需要注意的区域,以减少获取其他无关的信息。
4.根据权利要求3所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S1中,CBAM注意力机制模块融合两种注意力机制,先是channel attention,然后是spatial attention,具体流程为:
将输入的特征图F(H×W×C)分别经过基于width和height的全局最大池化和全局平均池化,得到两个1×1×C的特征图;
接着,再将两个1×1×C的特征图分别送入一个两层的神经网络,第一层神经元个数为C/r,其中r为减少率,激活函数为Relu,第二层神经元个数为C,两层的神经网络是共享的;
而后,将MLP输出的特征进行基于element-wise的加和操作,再经过sigmoid激活操作,生成最终的channel attention feature,即M_c;
最后,将M_c和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征;
将Channel attention模块输出的特征图F’作为Spatial attention模块的输入特征图,首先做一个基于channel的全局最大池化和全局平均池化,得到两个H×W×1的特征图;
然后将两个H×W×1的特征图基于channel做通道拼接操作;
接着经过一个7×7卷积操作,降维为1个channel,即H×W×1;
再经过sigmoid生成spatial attention feature,即M_s;
最后将M_s和M_c做乘法,得到最终生成的特征。
5.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S2中,金字塔池化网络通过一个1×1的卷积对步骤S1得到的特征图进行卷积操作,并通过三个平行的最大池化层进行深度连接得到最终输出特征图。
6.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S3中,BiFPN通过引入可学习的权值来学习不同输入特征的重要性,同时反复应用自顶向下和自下而上的多尺度特征融合,以聚合不同分辨率的特征。
7.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S4中,将步骤S3得到的多尺度融合特征图输入到检测网路中,经过卷积层后,输出76×76、38×38和19×19维的特征图,对应检测小目标、中目标、大目标。
8.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S5中,将步骤S4得到的三个尺度的特征图采用CIOU_Loss做Bounding Box的损失函数来预测边界和原始图像中目标的类别并标记,CIOU_Loss损失函数的计算公式为:
Figure FDA0003757256350000021
Figure FDA0003757256350000022
Figure FDA0003757256350000023
其中α表示预测框和目标框的长宽比,v表示衡量长宽比一致的参数,IOU表示真实框和预测框之间的交并集,Distance_22表示最小外接矩形对角线距离,wgt、hgt表示真实框的宽度和高度,wp、hp表示预测框的宽度和高度。
9.根据权利要求1所述的基于深度学习的橙子采摘机器人目标实时检测方法,其特征在于:步骤S6中,采用DIOU_NMS来筛选预测框,DIOU_NMS的表达式如下所示:
Figure FDA0003757256350000031
Figure FDA0003757256350000032
其中
Figure FDA0003757256350000033
表示高置信度候选框,
Figure FDA0003757256350000034
是遍历各个候选框与置信度高的重合情况。
CN202210874239.6A 2022-07-21 2022-07-21 一种基于深度学习的橙子采摘机器人目标实时检测方法 Pending CN115240188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210874239.6A CN115240188A (zh) 2022-07-21 2022-07-21 一种基于深度学习的橙子采摘机器人目标实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210874239.6A CN115240188A (zh) 2022-07-21 2022-07-21 一种基于深度学习的橙子采摘机器人目标实时检测方法

Publications (1)

Publication Number Publication Date
CN115240188A true CN115240188A (zh) 2022-10-25

Family

ID=83675071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210874239.6A Pending CN115240188A (zh) 2022-07-21 2022-07-21 一种基于深度学习的橙子采摘机器人目标实时检测方法

Country Status (1)

Country Link
CN (1) CN115240188A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843988A (zh) * 2023-06-26 2023-10-03 中国信息通信研究院 一种基于深度学习的目标检测方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843988A (zh) * 2023-06-26 2023-10-03 中国信息通信研究院 一种基于深度学习的目标检测方法和系统
CN116843988B (zh) * 2023-06-26 2024-01-30 中国信息通信研究院 一种基于深度学习的目标检测方法和系统

Similar Documents

Publication Publication Date Title
Fu et al. Fast and accurate detection of kiwifruit in orchard using improved YOLOv3-tiny model
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
Cheng et al. FusionNet: Edge aware deep convolutional networks for semantic segmentation of remote sensing harbor images
CN108573276B (zh) 一种基于高分辨率遥感影像的变化检测方法
CN109325960B (zh) 一种红外云图气旋分析方法及分析系统
CN111222396B (zh) 一种全天候多光谱行人检测方法
CN113592845A (zh) 一种电池涂布的缺陷检测方法及装置、存储介质
CN108830188A (zh) 基于深度学习的车辆检测方法
CN108898065B (zh) 候选区快速筛选与尺度自适应的深度网络舰船目标检测方法
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN108664838A (zh) 基于改进rpn深度网络的端到端的监控场景行人检测方法
CN109766823A (zh) 一种基于深层卷积神经网络的高分辨率遥感船舶检测方法
Shen et al. Biomimetic vision for zoom object detection based on improved vertical grid number YOLO algorithm
Lv et al. A visual identification method for the apple growth forms in the orchard
CN104809471B (zh) 一种基于空间光谱信息的高光谱图像残差融合分类方法
Ju et al. Classification of jujube defects in small data sets based on transfer learning
CN115661622A (zh) 一种基于图像增强和改进YOLOv5的陨石坑检测方法
CN115205590A (zh) 一种基于互补集成Transformer网络的高光谱图像分类方法
CN110969121A (zh) 一种基于深度学习的高分辨率雷达目标识别算法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN114399799A (zh) 一种基于YOLOv5网络的口罩佩戴检测方法
Fan et al. A novel sonar target detection and classification algorithm
Sun et al. GHFormer-Net: Towards more accurate small green apple/begonia fruit detection in the nighttime
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination