CN115063478A - 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质 - Google Patents

基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质 Download PDF

Info

Publication number
CN115063478A
CN115063478A CN202210596577.8A CN202210596577A CN115063478A CN 115063478 A CN115063478 A CN 115063478A CN 202210596577 A CN202210596577 A CN 202210596577A CN 115063478 A CN115063478 A CN 115063478A
Authority
CN
China
Prior art keywords
fruit
rgb
module
visual positioning
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210596577.8A
Other languages
English (en)
Other versions
CN115063478B (zh
Inventor
李君�
李灯辉
姚中威
周浩波
黄光文
贾宇航
林佩怡
周峥琦
李钊
陈盈宜
伍源水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202210596577.8A priority Critical patent/CN115063478B/zh
Publication of CN115063478A publication Critical patent/CN115063478A/zh
Application granted granted Critical
Publication of CN115063478B publication Critical patent/CN115063478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/155Segmentation; Edge detection involving morphological operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于RGB‑D相机和视觉定位的水果定位方法、系统、设备及介质,方法包括:构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注;利用标注数据训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测。本发明基于RGB‑D相机和计算机视觉技术获取水果果实的三维坐标信息,对自动采摘机器人的发展具有重要意义。

Description

基于RGB-D相机和视觉定位的水果定位方法、系统、设备及 介质
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于RGB-D相机和视觉定位的水果定位方法、系统、设备及介质。
背景技术
当前水果果实定位方法主要使用结构光结合HIS颜色阈值分割、双目立体视觉、提取形态学特征等方法完成果实的定位,但这种方法容易受光照影响、拟合精度和对复杂场景的处理能力有限,在果实排列密集、形状较为特殊的果实中难以起到良好的定位效果。因此,研究基于RGB-D相机和计算机视觉定位技术对果园水果果实进行定位的方法,获取水果果实的三维坐标信息,对自动采摘机器人的发展具有重要意义。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供了一种基于RGB-D相机和视觉定位的水果定位方法、系统、设备及介质,其可以对果园水果果实进行精准定位,提高水果采摘机器人的自动化水平,在不同光照和遮挡条件下,可实现不同品种水果果实的快速定位,获得水果果实的三维坐标信息,为水果采摘机器人提供三维空间坐标信息。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提供了一种基于RGB-D相机和视觉定位的水果定位方法,包括下述步骤:
构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;
利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测。
作为优选的技术方案,所述预训练参数加载模块用于导入预训练参数,对目标赋予一个初始权重值。
作为优选的技术方案,所述SPP模块分别使用多个不同大小的卷积核对前层特征进行最大池化处理。
作为优选的技术方案,所述获取水果果园场景中处于成熟期的果实RGB图像和深度图像,具体为:
在水果果实处于成熟期阶段时,分别选择晴天和阴天的白天时间;
采用RGB-D相机在距离水果果实0.5-2m之间采集RGB图像和深度图像;
在太阳直射光下和背光下的场景中都要采集RGB图像和深度图像。
作为优选的技术方案,所述对采集的果实RGB图像和深度图像进行预处理,获得初始数据集,具体为:
对采集的果实RGB图像进行预处理,去除模糊图像;
将采集的果实深度图像在Intel RealSense SDK包上通过空间边缘保留过滤器和孔填充过滤器进行优化处理。
作为优选的技术方案,所述利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练,具体包括:
利用模型加载模块导入预训练参数,对目标赋予一个初始权重值;
将RGB图像输入到目标特征提取模块,提取深层次的水果果实特征;
将特征提取模块操作后的特征图像依次进行池化操作、多尺度特征融合操作,获得水果果实在RGB图像中的像素坐标;
在目标视觉定位模型训练的过程中,每完成一轮训练,利用验证集中的RGB图像和标注数据对当前目标视觉定位模型进行验证,根据验证结果调整当前目标视觉定位模型的权重值;
设定最大迭代次数,当达到预设的最大迭代次数或者在验证集上错误率不再下降时终止训练,选取验证结果最优的目标视觉定位模型作为水果果实的目标视觉定位模型。
作为优选的技术方案,所述利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测,具体为:
将RGB-D相机实时采集的RGB图像和深度图像输入目标视觉定位模型,RGB图像依次经过训练好的目标视觉定位模型的参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块的处理,在定位预测模块中通过卷积操作输出多个备选水果果实的最大外接矩形框并且给出相应的置信度值,将所有置信度大于0.75的矩形框标记的区域保存,获得水果果实在RGB图像中的像素坐标;
将果实在RGB图像中的像素坐标映射到优化的深度图像上,以提取果实的空间信息,通过融合果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得果实在三维空间中的定位坐标。
本发明另一方面提供了一种基于RGB-D相机和视觉定位的水果定位系统,应用于所述的基于RGB-D相机和视觉定位的水果定位方法,包括目标视觉定位模型构建模块、水果果实RGB图像数据集获取模块、目标视觉定位模型训练模块、目标视觉定位模块和信息显示模块;
所述目标视觉定位模型构建模块,用于构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
所述水果果实RGB图像数据集获取模块,用于获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
所述视觉定位模型训练模块,用于将所述水果果实训练集中的RGB图像和标注数据导入目标视觉定位模型中进行迭代训练,训练集中的图像数据每完成一轮迭代训练后,将所述水果果实验证集中的RGB图像和标注数据导入目标视觉定位模型中验证模型的性能,并且调整目标的权重值,当达到预设的最大迭代次数或者在验证集上错误率不再下降时终止训练,得到最优的水果果实视觉定位模型;
所述目标视觉定位模块,用于加载最优模型权重值,将RGB-D相机实时采集的水果RGB图像和深度图像导入所述果实视觉定位模型,通过融合果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得果实在三维空间中的定位坐标;
所述信息显示模块,用于将所述水果果实的视觉定位结果图像输入到显示设备上进行展示。
本发明又一方面提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于RGB-D相机和视觉定位的水果定位方法。
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于RGB-D相机和视觉定位的水果定位方法。
本发明与现有技术相比,具有如下优点和有益效果:
与当前传统的视觉定位方法相比,本发明提供的一种基于RGB-D相机和视觉定位的水果定位方法和系统,将RGB-D相机成像技术和计算机视觉定位技术应用到自然条件下水果果实的视觉定位,避免了基于结构光结合HIS颜色阈值分割、双目立体视觉、提取形态学特征等定位方法的局限性;在果实排列密集、形状较为特殊的水果(如龙眼)果园中定位水果果实的泛化能力比较强,使用一台RGB-D相机和一台处理器即可实现实时地获得不同品种的水果果实在三维空间中的定位坐标,方便搭载到水果自动采摘机器人上,为自动采摘机器人提供了路径信息。因此,研究基于RGB-D相机和计算机视觉定位技术对水果果实进行精准定位对果园自动采摘机器人的发展具有重要意义。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1的基于RGB-D相机和视觉定位的水果定位方法的流程图;
图2是本发明实施例1的目标视觉定位模型网络结构示意图;
图3是本发明实施例2基于RGB-D相机和视觉定位的水果定位系统结构示意图;
图4是本发明实施例3的微型处理器及其相关设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
实施例1:
如图1所示,本实施例提供了一种基于RGB-D相机和视觉定位的水果定位方法,包括以下步骤:
S101、构建目标视觉定位模型;
具体地,目标视觉定位模型的结构如图2所示,包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块,本实施例的目标视觉定位模型中的预训练参数加载模块导入预训练参数,对目标赋予一个初始权重值;在目标特征提取模块中,使用深度可分离卷积代替传统卷积,在此过程中,深度可分离卷积将传统卷积中的部分卷积分离成一个3×3的深度卷积和一个1×1的逐点卷积,降低模型的参数量和计算量,提高了提取水果果实特征时的速度;在池化模块中采用的SPP模块分别使用4个不同大小的卷积核对前层特征进行最大池化处理,能够获取更多局部特征信息;在多尺度特征融合模块中引入scSE注意力模块,它通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,可以提取更深刻的水果果实像素信息,定位出更精细的水果果实位置信息,进而对水果果实实现准确定位。
S102、获取水果果园场景中处于成熟期的果实RGB图像和深度图像;
具体地,本实施例以龙眼为例进行说明,在龙眼果实处于成熟期阶段时,分别选择晴天和阴天的白天时间,采用RGB-D相机在距离龙眼果实0.5-2m之间采集水果果实RGB图像和深度图像,在太阳直射光下和背光下的场景中都要采集,该水果果实的RGB图像和深度图像各采集1050张,分辨率都是1280×720像素的图像。
S103、对采集的水果果实RGB图像和深度图像进行预处理,获得初始数据集;
具体地,对采集的水果果实RGB图像进行预处理,处理方式主要是去除模糊图像;将采集的水果果实深度图像在Intel RealSense SDK包上通过空间边缘保留过滤器和孔填充过滤器进行优化处理,组成初始数据集。
S104、对初始数据集进行标注,使用LabelImg程序,用矩形标注框将RGB图像中水果果实框住,使得矩形标注框外切水果果实区域;标注时,对某张图上的水果果实是否需要标注,在图像拍摄角度、光照等条件下,通过肉眼观察判别水果果实是否完整为标准,若完整,则进行标注;若不完整,则放弃标注。
S105、将完成标注的初始数据集按照4:1的比例分为训练集和验证集;
具体地,将1050张完成标注的RGB图像中的840张作为训练集,210张作为验证集。
S106、利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;
该步骤S106具体包括:
S1061、将RGB图像输入到特征提取模块,提取深层次的水果果实特征;
具体地,将训练集中预设张数的水果果实RGB图像输入特征提取模块,使用深度可分离卷积代替传统卷积,降低模型的参数量和计算量,提高了提取水果果实特征时的速度。
S1062、将特征提取模块操作后的特征图像输入池化模块,采用最大池化操作;
具体地,将特征提取操作后的特征图像输入SPP模块,采用13×13、9×9、5×5、1×1的最大池化操作,以获取更多局部特征信息,减少了计算成本,提升了预测精度。
S1063、将池化模块操作后的结果输入到特征融合模块,在scSE注意力模块中通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,可以提取更深刻的水果果实像素信息,定位出更精细的水果果实位置信息,进而对水果果实实现准确定位。
S1064、通过迭代训练水果果实视觉定位模型,直到训练集中所有RGB图像和标注数据都被用于模型训练时,完成一轮epoch训练。
本实施例中,训练集图像数量为840张,每次迭代的输入图像数量batch size=8,每轮epoch的迭代次数等于训练集图像数量除以batch size,即每轮epoch的迭代次数=840/8=105,训练集中的图像共需要迭代训练105次即完成一轮epoch训练。
S107、每完成一轮epoch训练,利用验证集中RGB图像和标注数据对水果果实视觉定位模型进行验证,根据验证结果调整水果果实视觉定位模型的各参数的权重值。
本实施例的训练轮数epoch=500,每轮epoch训练的迭代次数为105次,利用验证集中图像和标注数据对当前目标视觉定位模型进行验证,根据验证结果调整当前目标视觉定位模型的各参数的权重值,具体包括:
S1071、利用验证集中图像和标注数据对水果果实视觉定位模型进行验证,设定多个不同的阈值,模型计算获得多组不同的精确率(P)与召回率(R)。
S1072、根据多组不同的精确率与召回率数值,以召回率为横坐标,以精确率为纵坐标,绘制出精确率-召回率(P-R)曲线,将绘制得到的P-R曲线与横纵坐标轴之间围成的面积作为平均准确率。
S1073、根据训练损失函数的数值和所有目标的平均准确率调整水果果实视觉定位模型的各参数的权重值。
完成上述步骤S1071~S1073后,判断训练轮数epoch是否达到预设的数值,若训练轮数epoch未达到预设的数值,即训练轮数epoch小于500,则返回步骤S106,若训练轮数epoch达到预设的数值,即训练轮数epoch等于500,则进入步骤S108。
S108、选取验证结果中平均准确率最高的水果果实视觉定位模型作为水果果实视觉定位模型。
S109、利用水果果实视觉定位模型对图像中的水果果实进行视觉定位。
本实施例将RGB-D相机实时采集的龙眼RGB图像和深度图像作为输入图像,水果果实视觉定位模型在定位完一张图像后,才会定位下一张图像;在每张复杂果园龙眼图像的视觉定位中,将每张复杂果园龙眼图像输入水果果实视觉定位模型,依次经过最优模型参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块的处理,目标特征提取模块、池化模块、多尺度特征融合模块的处理可以参见上述步骤S1061~S1064,在预测模块中通过卷积操作输出多个备选水果果实的最大外接矩形框并且给出相应的置信度值,将所有置信度大于0.75的矩形框标记的区域保存,获得水果果实在RGB图像中的像素坐标;将水果果实在RGB图像中的像素坐标映射到优化的深度图像上,以提取水果果实的空间信息,通过融合水果果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得水果果实在三维空间中的定位坐标。
可以理解的是,本实施例的方法,除了应用在龙眼果实定位外,其他果实同样适用,其原理都是相同的。
上述实施例的方法采用Ubuntu16.04系统,Python编程语言,在NVIDIA 2070superGPU,8GB RAM的处理器和显示器型号为HD Graphics上实现。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图3所示,本实施例提供了一种基于RGB-D相机和视觉定位的水果定位系统,该系统包括目标视觉定位模型构建模块、水果果实RGB图像数据集获取模块、目标视觉定位模型训练模块、目标视觉定位模块和信息显示模块;
所述目标视觉定位模型构建模块,用于构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
所述水果果实RGB图像数据集获取模块,用于获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
所述视觉定位模型训练模块,用于将所述水果果实训练集中的RGB图像和标注数据导入目标视觉定位模型中进行迭代训练,训练集中的图像数据每完成一轮迭代训练后,将所述水果果实验证集中的RGB图像和标注数据导入目标视觉定位模型中验证模型的性能,并且调整目标的权重值,当达到预设的最大迭代次数或者在验证集上错误率不再下降时终止训练,得到最优的水果果实视觉定位模型;
所述目标视觉定位模块,用于加载最优模型权重值,将RGB-D相机实时采集的水果RGB图像和深度图像导入所述果实视觉定位模型,通过融合果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得果实在三维空间中的定位坐标;
所述信息显示模块,用于将所述水果果实的视觉定位结果图像输入到显示设备上进行展示。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的系统仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。该系统是应用于上述实施例的基于RGB-D相机和视觉定位的水果定位方法。
此外,上述实施例的基于RGB-D相机和视觉定位的水果果实定位系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于同态加密和可信硬件的多方隐私保护机器学习系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,如图4所示,其通过Ubuntu16.04系统总线连接的NVIDIA 2070super GPU处理器、存储器、输入装置、显示器和网络接口,该微型处理器用于提供计算和控制能力,该存储器包括非易失性存储介质和内存储器,该非易失性存储介质存储有Ubuntu16.04操作系统、Python编程语言的相关程序和龙眼图像数据库,该内存储器为非易失性存储介质中的Ubuntu16.04操作系统和Python编程语言的相关程序的运行提供环境,处理器执行存储器存储的Python编程语言的相关程序时,实现上述实施例1的水果果实视觉定位方法,如下:
构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;
利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测。
可以理解的是,所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于RGB-D相机和视觉定位的水果定位程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块,以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有Ubuntu16.04操作系统、Python编程语言的相关程序和龙眼图像数据库,所述Python编程语言的相关程序被NVIDIA 2070super GPU处理器执行时,实现上述实施例1的果园水果果实视觉定位方法,如下:
构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;
利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测。
需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
综上所述,本发明通过构建水果果实视觉定位模型,该视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块,并对目标视觉定位模型进行训练,得到水果果实视觉定位模型,该水果果实视觉定位模型能够实现实时地获得不同品种的水果果实在三维空间中的定位坐标,方便搭载到龙眼自动采摘机器人上,为龙眼自动采摘机器人提供了路径信息。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于RGB-D相机和视觉定位的水果定位方法,其特征在于,包括下述步骤:
构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练;
利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测。
2.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述预训练参数加载模块用于导入预训练参数,对目标赋予一个初始权重值。
3.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述SPP模块分别使用多个不同大小的卷积核对前层特征进行最大池化处理。
4.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述获取水果果园场景中处于成熟期的果实RGB图像和深度图像,具体为:
在水果果实处于成熟期阶段时,分别选择晴天和阴天的白天时间;
采用RGB-D相机在距离水果果实0.5-2m之间采集RGB图像和深度图像;
在太阳直射光下和背光下的场景中都要采集RGB图像和深度图像。
5.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述对采集的果实RGB图像和深度图像进行预处理,获得初始数据集,具体为:
对采集的果实RGB图像进行预处理,去除模糊图像;
将采集的果实深度图像在Intel RealSense SDK包上通过空间边缘保留过滤器和孔填充过滤器进行优化处理。
6.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述利用训练集中的RGB图像和标注数据对目标视觉定位模型进行训练,具体包括:
利用模型加载模块导入预训练参数,对目标赋予一个初始权重值;
将RGB图像输入到目标特征提取模块,提取深层次的水果果实特征;
将特征提取模块操作后的特征图像依次进行池化操作、多尺度特征融合操作,获得水果果实在RGB图像中的像素坐标;
在目标视觉定位模型训练的过程中,每完成一轮训练,利用验证集中的RGB图像和标注数据对当前目标视觉定位模型进行验证,根据验证结果调整当前目标视觉定位模型的权重值;
设定最大迭代次数,当达到预设的最大迭代次数或者在验证集上错误率不再下降时终止训练,选取验证结果最优的目标视觉定位模型作为水果果实的目标视觉定位模型。
7.根据权利要求1所述基于RGB-D相机和视觉定位的水果定位方法,其特征在于,所述利用训练好的目标视觉定位模型对水果果园图像的果实进行定位预测,具体为:
将RGB-D相机实时采集的RGB图像和深度图像输入目标视觉定位模型,RGB图像依次经过训练好的目标视觉定位模型的参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块的处理,在定位预测模块中通过卷积操作输出多个备选水果果实的最大外接矩形框并且给出相应的置信度值,将所有置信度大于0.75的矩形框标记的区域保存,获得水果果实在RGB图像中的像素坐标;
将果实在RGB图像中的像素坐标映射到优化的深度图像上,以提取果实的空间信息,通过融合果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得果实在三维空间中的定位坐标。
8.基于RGB-D相机和视觉定位的水果定位系统,其特征在于,应用于权利要求1-7中任一项所述的基于RGB-D相机和视觉定位的水果定位方法,包括目标视觉定位模型构建模块、水果果实RGB图像数据集获取模块、目标视觉定位模型训练模块、目标视觉定位模块和信息显示模块;
所述目标视觉定位模型构建模块,用于构建目标视觉定位模型;所述目标视觉定位模型包括预训练参数加载模块、目标特征提取模块、池化模块、多尺度特征融合模块和目标定位预测模块;所述目标特征提取模块使用深度可分离卷积代替传统卷积,利用深度可分离卷积将传统卷积中的部分卷积分离成一个的深度卷积和一个逐点卷积,降低模型的参数量和计算量,提高提取水果果实特征时的速度;所述池化模块采用SPP模块对目标特征提取模块提取的特征进行池化处理,获得更多局部特征信息;所述多尺度特征融合模块中引入scSE注意力模块,所述scSE注意力模块通过全局平均池化排除空间依赖性,增强了对输入水果果实特征图的重要通道和空间特征的学习,提取更深刻的水果果实像素信息;
所述水果果实RGB图像数据集获取模块,用于获取水果果园场景中处于成熟期的果实RGB图像和深度图像;对采集的果实RGB图像和深度图像进行预处理,获得初始数据集;对初始数据集中每个RGB图像上的果实用进行标注,获得xml格式的信息文件;将完成标注的初始数据集按照设定的比例分为训练集和验证集;
所述视觉定位模型训练模块,用于将所述水果果实训练集中的RGB图像和标注数据导入目标视觉定位模型中进行迭代训练,训练集中的图像数据每完成一轮迭代训练后,将所述水果果实验证集中的RGB图像和标注数据导入目标视觉定位模型中验证模型的性能,并且调整目标的权重值,当达到预设的最大迭代次数或者在验证集上错误率不再下降时终止训练,得到最优的水果果实视觉定位模型;
所述目标视觉定位模块,用于加载最优模型权重值,将RGB-D相机实时采集的水果RGB图像和深度图像导入所述果实视觉定位模型,通过融合果实在RGB图像中的像素坐标和在深度图像上提取的深度信息,获得果实在三维空间中的定位坐标;
所述信息显示模块,用于将所述水果果实的视觉定位结果图像输入到显示设备上进行展示。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于RGB-D相机和视觉定位的水果定位方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于RGB-D相机和视觉定位的水果定位方法。
CN202210596577.8A 2022-05-30 2022-05-30 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质 Active CN115063478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210596577.8A CN115063478B (zh) 2022-05-30 2022-05-30 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210596577.8A CN115063478B (zh) 2022-05-30 2022-05-30 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN115063478A true CN115063478A (zh) 2022-09-16
CN115063478B CN115063478B (zh) 2024-07-12

Family

ID=83199416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210596577.8A Active CN115063478B (zh) 2022-05-30 2022-05-30 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115063478B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252928A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597897A (zh) * 2020-12-24 2021-04-02 华南农业大学 基于深度神经网络的果园香蕉检测方法、系统、设备及介质
CN113869412A (zh) * 2021-09-28 2021-12-31 安徽大学 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法
CN114387520A (zh) * 2022-01-14 2022-04-22 华南农业大学 一种用于机器人采摘的密集李子精准检测方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597897A (zh) * 2020-12-24 2021-04-02 华南农业大学 基于深度神经网络的果园香蕉检测方法、系统、设备及介质
CN113869412A (zh) * 2021-09-28 2021-12-31 安徽大学 一种联合轻量级注意力机制和YOLOv3网络的图像目标检测方法
CN114387520A (zh) * 2022-01-14 2022-04-22 华南农业大学 一种用于机器人采摘的密集李子精准检测方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
和超;张印辉;何自芬;: "多尺度特征融合工件目标语义分割", 中国图象图形学报, no. 03, 16 March 2020 (2020-03-16), pages 62 - 71 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252928A (zh) * 2023-11-20 2023-12-19 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位系统
CN117252928B (zh) * 2023-11-20 2024-01-26 南昌工控机器人有限公司 用于电子产品模块化智能组装的视觉图像定位系统

Also Published As

Publication number Publication date
CN115063478B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN110196053B (zh) 一种基于fpga的实时田间机器人视觉导航方法与系统
CN110221690A (zh) 基于ar场景的手势交互方法及装置、存储介质、通信终端
CN108198145A (zh) 用于点云数据修复的方法和装置
CN104376594A (zh) 三维人脸建模方法和装置
CN110796135B (zh) 目标的定位方法及装置、计算机设备、计算机存储介质
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110163831A (zh) 三维虚拟沙盘的物体动态展示方法、装置及终端设备
CN110992366A (zh) 一种图像语义分割方法、装置及存储介质
CN115063478B (zh) 基于rgb-d相机和视觉定位的水果定位方法、系统、设备及介质
CN108764139A (zh) 一种人脸检测方法、移动终端及计算机可读存储介质
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN112348737A (zh) 模拟图像生成的方法、电子设备及存储介质
CN116244805A (zh) 一种住宅建筑规划设计方案自动生成系统及生成方法
Ji et al. Apple fruit recognition based on a deep learning algorithm using an improved lightweight network
CN116070687A (zh) 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN114119695A (zh) 一种图像标注方法、装置及电子设备
CN112966687B (zh) 图像分割模型训练方法、装置及通信设备
CN112527442B (zh) 一种环境数据多维显示方法、装置、介质及终端设备
CN115019301A (zh) 基于图像识别的复杂果园龙眼串果检测方法、系统、设备及介质
CN115937234B (zh) 基于预处理加速的肿瘤图像分割方法、装置和电子设备
CN116258756A (zh) 一种自监督单目深度估计方法及系统
CN115984712A (zh) 基于多尺度特征的遥感图像小目标检测方法及系统
CN113034449B (zh) 目标检测模型训练方法、装置及通信设备
CN110377776A (zh) 生成点云数据的方法和装置
Zhang et al. Dense Reconstruction from Visual SLAM with Probabilistic Multi-Sequence Merging

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant