CN118015081A

CN118015081A - 一种基于机器视觉的立体定位方法

Info

Publication number: CN118015081A
Application number: CN202311819782.7A
Authority: CN
Inventors: 刘晋胜; 周靖; 方世豪; 李基照; 许展沛; 刘桂林; 李家焕
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-05-10

Abstract

本发明公开了一种基于机器视觉的立体定位方法，构建柑橘的训练和验证图像数据集，并且对所述图像数据中柑橘的脐部位置进行标注；构建卷积神经网络模型；通过柑橘的训练和验证图像数据集对卷积神经网络模型进行训练；采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置；根据所述柑橘的脐部位置确定采摘控制指令；机械臂根据所述采摘控制指令执行采摘动作。本发明利用深度学习的图像分析技术，实现了柑橘的脐部位置的高效识别和定位，解决了传统方法中的光照、遮挡、背景等干扰因素的问题；本发明控制机械从底部抓取柑橘的方式，实现了柑橘的无损采摘，提高了柑橘的采摘质量，避免了对柑橘的表皮造成损伤。

Description

一种基于机器视觉的立体定位方法

技术领域

本发明属于图像目标检测技术领域，具体涉及一种基于机器视觉的立体定位方法。

背景技术

柑橘是一种广泛种植和消费的水果，具有丰富的营养和多种功效。柑橘的采摘是柑橘生产的重要环节，直接影响柑橘的产量和品质。传统的柑橘采摘方式主要是人工采摘，存在以下几个问题：

1.人工成本高，人力资源紧缺，采摘效率低，难以满足大规模柑橘园的需求。

2.人工采摘容易对柑橘的表皮造成损伤，影响柑橘的外观和保鲜性，降低柑橘的市场价值。

3.人工采摘存在安全风险，柑橘树的高度和密度可能导致采摘工人的摔伤和划伤。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于机器视觉的立体定位方法。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提一种基于机器视觉的立体定位方法，所述方法包括：

构建柑橘的训练和验证图像数据集，并且对所述图像数据中柑橘的脐部位置进行标注；

构建卷积神经网络模型；

通过柑橘的训练和验证图像数据集对卷积神经网络模型进行训练；

采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置；

根据所述柑橘的脐部位置确定采摘控制指令；

机械臂根据所述采摘控制指令执行采摘动作。

上述方案中，所述构建柑橘的训练和验证图像数据集，具体包括：

选择柑橘品种和成熟度、以及不同的拍摄角度和光照条件，采集柑橘的原始图像数据；

对原始图像数据进行预处理，包括裁剪、缩放、旋转、翻转、调整亮度、对比度、色彩饱和度操作。

上述方案中，所述对所述图像数据中柑橘的脐部位置进行标注，具体包括：采用矩形框或者多边形框对预处理后的原始图像数据进行标注，在原始图像数据中标出柑橘的脐部位置。

上述方案中，所述采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置，具体包括：

通过一层卷积层对当前作业的图像数据进行特征提取，获得输出结果S；

采用多次深度可分离卷积层记作K对输出结果S进行特征提取并且融合；

将融合后的结果进行最大池化层，再将其转化为一维数据进行全连接层得到离图片中心最近的位置信息作为最后结果。

上述方案中，所述通过一层卷积层对当前作业的图像数据进行特征提取，获得输出结果S，具体包括：根据S^{M×O1×W3×H3}＝f(X^{M×N1×W1×H1}*C1^{N1×O1×W2×H2})得到输出结果S；其中M为样本数量、N为输入通道数、O为输出通道数、W为特征的宽、H为特征的高、X为输入样本、S为输出结果、C为卷积核、*为卷积符号、f()为进行BN标准化后通过Leaky-Relu激活函数得到的结果。

上述方案中，所述采用多次深度可分离卷积层记作K对输出结果S进行特征提取并且融合，具体包括：根据S^{M×Oj×Wj×Hj}＝k(X^{M×Ni×Wi×Hi})进行特征提取，其中，i∈(2,3,...,n)；根据K(X)＝f(f(X^{M×Ni×Wi×Hi}*C^1×Oi×3×3)*C^N×Oj×1×1)进行融合，其中，i,j分别表示输入和输出的层数且i＝j。

上述方案中，所述将融合后的结果进行最大池化层，再将其转化为一维数据进行全连接层得到离图片中心最近的位置信息作为最后结果，具体包括：根据y＝line(maxpool(x))、S`＝y*l＝[s¹,s²,...,sⁿ]得到最后结果，其中maxpool()对其进行最大池化，line()将二维特征转为一维特征，再通过l对其进行全连接层得到最后的位置信息。

上述方案中，所述方法还包括：根据L(θ)＝(S`-S)²/(2×M)确定损失函数，所述损失函数用于衡量模型预测的脐部位置与真实标注的脐部位置之间的差异。

与现有技术相比，本发明利用深度学习的图像分析技术，实现了柑橘的脐部位置的高效识别和定位，解决了传统方法中的光照、遮挡、背景等干扰因素的问题。

附图说明

此处所说明的附图用来公开对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例提供一种基于机器视觉的立体定位方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、物品或者装置中还存在另外的相同要素。

本发明实施例提供一种基于机器视觉的立体定位方法，如图1所示，所述方法包括：

步骤101：构建柑橘的训练和验证图像数据集，并且对所述图像数据中柑橘的脐部位置进行标注；

具体地，选择柑橘品种和成熟度、以及不同的拍摄角度和光照条件，采集柑橘的原始图像数据；

所述图像数据集包括不同品种、成熟度、角度、光照等条件下的柑橘图像，以及对应的脐部位置的标注。

采用矩形框或者多边形框对预处理后的原始图像数据进行标注，在原始图像数据中标出柑橘的脐部位置。

进一步地，也可以使用像素级的掩码来表示脐部的精确位置

步骤102：构建卷积神经网络模型；

具体地，选择一个合适的卷积神经网络模型，MobileNetV1作为图像特征提取器，有效地提取图像的高层语义特征，可以使用预训练的模型参数，也可以在柑橘图像数据上进行微调。

需要在卷积神经网络模型的输出层添加一个回归层，用于预测脐部位置的坐标信息。回归层可以使用全连接层或者卷积层来实现，输出一个固定长度的向量，表示脐部位置的坐标信息。

步骤103：通过柑橘的训练和验证图像数据集对卷积神经网络模型进行训练；

步骤104：采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置；

具体地，通过一层卷积层对当前作业的图像数据进行特征提取，获得输出结果S；根据S^{M×O1×W3×H3}＝f(X^{M×N1×W1×H1}*C1^{N1×O1×W2×H2})得到输出结果S；其中M为样本数量、N为输入通道数、O为输出通道数、W为特征的宽、H为特征的高、X为输入样本、S为输出结果、C为卷积核、*为卷积符号、f()为进行BN标准化后通过Leaky-Relu激活函数得到的结果。

采用多次深度可分离卷积层记作K对输出结果S进行特征提取并且融合；根据S^M ^×Oj×Wj×Hj＝k(X^{M×Ni×Wi×Hi})进行特征提取，其中，i∈(2,3,...,n)；根据K(X)＝f(f(X^{M×Ni×Wi×Hi}*C^1×Oi×3×3)*C^N×Oj×1×1)进行融合，其中，i,j分别表示输入和输出的层数且i＝j。

将融合后的结果进行最大池化层，再将其转化为一维数据进行全连接层得到离图片中心最近的位置信息作为最后结果；根据y＝line(maxpool(x))、S`＝y*l＝[s¹,s²,...,sⁿ]得到最后结果，其中maxpool()对其进行最大池化，line()将二维特征转为一维特征，再通过l对其进行全连接层得到最后的位置信息。

根据L(θ)＝(S`-S)²/(2×M)确定损失函数，所述损失函数用于衡量模型预测的脐部位置与真实标注的脐部位置之间的差异。

进一步地，确定柑橘所在位置以及柑橘的脐部位置，之后，通过控制机械从底部抓取柑橘的方式，实现了柑橘的无损采摘，提高了柑橘的采摘质量，避免了对柑橘的表皮造成损伤。

根据所述柑橘的脐部位置确定采摘控制指令；机械臂根据所述采摘控制指令执行采摘动作。

利用多个关节和末端执行器组成的机器人臂，实现了柑橘的灵活抓取，解决了传统方法中的树枝、叶片、柑橘形状等干扰因素的问题。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种基于机器视觉的立体定位方法，其特征在于，所述方法包括：

构建卷积神经网络模型；

采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置。

2.根据权利要求1所述的一种基于机器视觉的立体定位方法，其特征在于，所述构建柑橘的训练和验证图像数据集，具体包括：

3.根据权利要求2所述的一种基于机器视觉的立体定位方法，其特征在于，所述对所述图像数据中柑橘的脐部位置进行标注，具体包括：采用矩形框或者多边形框对预处理后的原始图像数据进行标注，在原始图像数据中标出柑橘的脐部位置。

4.根据权利要求3所述的一种基于机器视觉的立体定位方法，其特征在于，所述采集当前作业的图像数据，并且根据训练好的卷积神经网络模型确定柑橘所在位置以及柑橘的脐部位置，具体包括：

5.根据权利要求4所述的一种基于机器视觉的立体定位方法，其特征在于，所述通过一层卷积层对当前作业的图像数据进行特征提取，获得输出结果S，具体包括：根据S^{M×O1×W3×H3}＝f(X^{M×N1×W1×H1}*C1^{N1×O1×W2×H2})得到输出结果S；其中M为样本数量、N为输入通道数、O为输出通道数、W为特征的宽、H为特征的高、X为输入样本、S为输出结果、C为卷积核、*为卷积符号、f()为进行BN标准化后通过Leaky-Relu激活函数得到的结果。

6.根据权利要求5所述的一种基于机器视觉的立体定位方法，其特征在于，所述采用多次深度可分离卷积层记作K对输出结果S进行特征提取并且融合，具体包括：根据S^{M×Oj×Wj×Hj}＝k(X^{M×Ni×Wi×Hi})进行特征提取，其中，i∈

(2,3,...,n)；根据K(X)＝f(f(X^{M×Ni×Wi×Hi}*C^1×Oi×3×3)*C^N×Oj×1×1)进行融合，其中，i,j分别表示输入和输出的层数且i＝j。

7.根据权利要求6所述的一种基于机器视觉的立体定位方法，其特征在于，所述将融合后的结果进行最大池化层，再将其转化为一维数据进行全连接层得到离图片中心最近的位置信息作为最后结果，具体包括：根据y＝line(maxpool(x))、S`＝y*l＝[s¹,s²,...,sⁿ]得到最后结果，其中maxpool()对其进行最大池化，line()将二维特征转为一维特征，再通过l对其进行全连接层得到最后的位置信息。

8.根据权利要求7所述的一种基于机器视觉的立体定位方法，其特征在于，所述方法还包括：根据L(θ)＝(S`-S)²/(2×M)确定损失函数，所述损失函数用于衡量模型预测的脐部位置与真实标注的脐部位置之间的差异。