CN113076819A

CN113076819A - 同色系背景下的果实识别方法、装置及果实采摘机器人

Info

Publication number: CN113076819A
Application number: CN202110286581.XA
Authority: CN
Inventors: 贾伟宽; 孟虎; 李倩雯; 侯素娟; 郑元杰; 李晓洁
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-06

Abstract

本发明提供一种同色系背景下的果实识别方法，属于果实采摘机器人技术领域，包括：获取果园环境中的环境照片；将环境照片输入到识别模型中，确定所述环境照片中是否有果实；其中，所述识别模型为：基于构建的transformer模型与神经前馈网络FFN，使用多组数据通过机器学习训练得出；所述多组数据中的每组数据均包括：有果实的环境照片和标识该照片有果实的标注信息。本发明使用transformer编码器‑解码器模型，可并行处理，提高了目标识别速度；且方法稳定，速度快，精度较高，可以很好的满足果实采摘机器人、产量预测等农业需求。使用重采样方法扩充样本空间，很好的适应小样本数据集，泛化能力强，可以应用到各种果实采摘或预产的机器人视觉系统中。

Description

同色系背景下的果实识别方法、装置及果实采摘机器人

技术领域

本发明涉及果实采摘机器人技术领域，具体涉及一种基于transformer模型同色系背景下的果实识别方法、装置及果实采摘机器人。

背景技术

在农业机器人身体结构之中，机器视觉系统就如同人的眼睛一样，帮助机器人了解周围的环境以及对目标进行识别与定位。机器视觉已经广泛应用于果蔬产量预测和采摘机器人的目标识别之中。对于果蔬预测产量，可以根据结果给种植者提供更加精细与完美的科学管理方式；而实现目标果实的准确而又快速的定位，对于采摘机器人实时性的工作有着巨大的影响。

在进行机器识别时，对于目标物识别的准确程度以及目标物的定位是视觉系统的关键。目前，对于机器视觉系统，大多沿用机器学习与深度学习两个方向。其中，基于机器学习的识别方法通常伴随预处理、特征选择等操作，不能实现端到端的检测流程，且识别效果容易受到自然环境下各种干扰的影响。基于深度学习的识别方法，虽然在精度上有了显著提升，且能够实现端到端的检测流程，但由于卷积等操作以及模型对锚框的依赖，导致其需要耗费大量的计算与存储资源，识别速度尚达不到实时性要求。

发明内容

本发明的目的在于提供一种利用transformer的并行计算特性，在保证精度的前提之下，提高了识别速度的同色系背景下的果实识别方法、装置及果实采摘机器人，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

第一方面，本发明提供一种同色系背景下的果实识别方法，包括：

获取果园环境中的环境照片；

将环境照片输入到识别模型中，确定所述环境照片中是否有果实；

其中，所述识别模型为：基于构建的transformer模型与神经前馈网络FFN，使用多组数据通过机器学习训练得出；所述多组数据中的每组数据均包括：有果实的环境照片和标识该照片有果实的标注信息。

优选的，所述识别模型的训练包括：

采集多张果园环境照片，并进行标注，标注时，将每个目标果实标注为一个独立的连通域，制作成COCO格式数据集；

使用重采样法扩充COCO格式数据集，并分成训练集、测试集和验证集；

将训练集作为深度卷积网络的输入，构建transformer网络框架和神经前馈网络FFN，得到目标检测网络；

对目标检测网络结合损失函数并进行迁移学习，获得识别结果；

利用测试集，评估识别结果，根据评估结果调整原始模型的参数，重复训练改进目标检测网络，直至获得最优识别结果，得到识别模型。

优选的，构建transformer模型包括：

由初始图像开始，生成一个低分辨率的激活映射特征；

降低将激活映射特征的通道维度，创建一个新的特征映射，将新的特征映射的空间维度压缩成一维，构建由一个标准框架组成的编码器；其中，标准框架包括：一个多头自注意模块和一个前馈神经网络FFN；

使用多头自注意机制和transformer编码器-解码器注意力机制对多个对象嵌入进行并行解码后，添加到每个自注意层的输入之中，之后转换成解码器嵌入的输出；

通过前馈神经网络将解码器嵌入的输出独立解码为框坐标和类标签，产生多个对象嵌入的对应预测。

优选的，所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。

优选的，结合损失函数并进行迁移学习包括：

确定背景真值集和预测集之间的二值匹配；

将l₁损失函数与GLOU损失函数在尺度不变的基础上相结合，建立边界框损失；

l₁损失函数：基于逐像素比较差异，然后取绝对值，x(p)表示原图片像素，y(p)表示计算之后图像的像素，公式为：

GLOU损失函数如下所示，我们用L_iou来表示，其中A和B表示生成的边界框区域。

以匈牙利算法为基础，结合二值匹配和边界框损失，对类预测的负对数似然值和盒损失进行线性组合，得到损失函数。

盒损失，又称边界框损失，将l₁损失函数与GLOU损失函数在尺度不变的基础上相结合，建立自己的损失函数，即为盒损失。

优选的，采用召回率与精确度来对识别结果进行评估，依据召回率与精确度反复训练并进行识别结果评估，直到得到最优化结果。

第二方面本发明提供一种同色系背景下的果实识别装置，包括：

图像采集模块，用于获取果园环境中的环境照片；

识别模块，用于将环境照片输入到识别模型中，确定所述环境照片中是否有果实；其中，所述识别模型为：基于构建的transformer模型与神经前馈网络FFN，使用多组数据通过机器学习训练得出；所述多组数据中的每组数据均包括：有果实的环境照片和标识该照片有果实的标注信息。

第三方面，本发明提供一种果实采摘机器人，包括如上所述的同色系背景下的果实识别装置。

第四方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于执行如上所述的同色系背景下的果实识别方法的指令。

第五方面，本发明提供一种电子设备，包括如上所述的非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。

本发明有益效果：使用transformer编码器-解码器模型，可并行处理，提高了目标识别速度；且方法稳定，速度快，精度较高，可以很好的满足果实采摘机器人、产量预测等农业需求。使用重采样方法扩充样本空间，很好的适应小样本数据集，泛化能力强，可以应用到各种果实采摘或预产的机器人视觉系统中。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于transformer模型的同色系背景下果实检测方法流程图。

图2为本发明实施例所述的原始的果实图像。

图3为本发明实施例所述的目标检测网络结构示意图。

图4为本发明实施例所述的transformer编码器-解码器网络结构示意图。

图5为本发明实施例所述的前馈神经网络FNN效果图。

图6为本发明实施例所述的采用同色系背景下果实识别方法的果实识别效果图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本发明实施例1提供一种同色系背景下的果实识别方法，该方法包括：

获取果园环境中的环境照片；

在本实施例1中，所述识别模型的训练包括：

在本实施例1中，构建transformer模型包括：

由初始图像开始，生成一个低分辨率的激活映射特征；

在本实施例1中，所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。

在本实施例1中，结合损失函数并进行迁移学习包括：

确定背景真值集和预测集之间的二值匹配；

采用召回率与精确度来对识别结果进行评估，依据召回率与精确度反复训练并进行识别结果评估，直到得到最优化结果。

其中，准确率为：

召回率为：

其中，TP表示真实的正样本数量，FP表示虚假的正样本数量，FN表示虚假的负样本数量。

实施例2

本发明实施例2提供一种同色系背景下的果实识别装置，该装置包括：

图像采集模块，用于获取果园环境中的环境照片；

在本实施例2中，利用上述的同色系背景下的果实识别装置实现了同色系背景下的果实识别方法，该方法包括：

获取果园环境中的环境照片；

在本实施例2中，所述识别模型的训练包括：

在本实施例2中，构建transformer模型包括：

由初始图像开始，生成一个低分辨率的激活映射特征；

在本实施例2中，所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。

在本实施例2中，结合损失函数并进行迁移学习包括：

确定背景真值集和预测集之间的二值匹配；

其中，准确率为：

召回率为：

实施例3

本发明实施例3提供一种果实采摘机器人，该机器人包括有一种同色系背景下的果实识别装置，该装置包括：

图像采集模块，用于获取果园环境中的环境照片；

识别模块，用于将环境照片输入到识别模型中，确定所述环境照片中是否有果实，如图6所示。其中，所述识别模型为：基于构建的transformer模型与神经前馈网络FFN，使用多组数据通过机器学习训练得出；所述多组数据中的每组数据均包括：有果实的环境照片和标识该照片有果实的标注信息。

在本实施例3中，利用上述的果实识别装置，实现了一种基于transformer的同色系背景下果实检测方法，解决了果实采摘机器人的视觉系统果实分割效率较差、速度较慢的问题。本方法精度高、速度快，较好的满足果实采摘机器人、产量预测等农业需求。

如图1所示，本发明实施例3中，基于transformer的同色系背景下果实检测方法，包括以下步骤：

步骤1、图像采集与数据集制作。在果园环境下使用佳能EOS 80D单反相机采集丰富的绿色果实图像。使用LabelMe软件对图像进行标注，标注时，将每个目标果实标注为一个独立的连通域，制作成COCO格式数据集。如图2所示，为采集的绿色果实原始图像。

步骤2、数据集处理。使用重采样法(bootstrapping)扩充样本，加快模型收敛。

步骤3、构建transformer模型与神经前馈网络FFN。将制作好的数据集作为深度卷积网络的输入，构建transformer网络框架，并构建神经前馈网络FFN，处理并输出最终结果。

步骤4、构建损失函数并进行迁移学习。使用匈牙利损失函数优化网络模型，进行训练模型时，使用迁移学习，加快模型收敛，减少训练时间。

步骤5、评估模型并优化网络模型。输入测试样本，使用评估指标评价获得的绿色果实检测模型的检测结果，根据评估结果调整模型的参数，重复训练改进模型，直至获得最优网络模型。

在本实施例3中，上述步骤1-步骤5的具体流程如下：

1、图像采集与数据集制作：

(1)使用佳能EOS 80D单反相机采集不同光照、不同时间段、不同角度下的青苹果图像，图像分辨率为6000×4000，输出格式为JPG，24位彩色图像。

(2)对采集的图像进行预处理和标注，构建数据集。

2、数据集处理

(1)在实际训练时，数据不充足不利于网络模型的收敛，所以使用重采样方法(bootstrapping)扩充样本，重采样法利用有限的样本资料经由多次重复抽样，重新建立起足以代表母体样本分布之新样本。

(2)将扩充完成的数据集分为训练集、验证集和测试集。

3、构建transformer模型与神经前馈网络FFN方法，如图4所示。

(1)构建网络头部。传统的CNN网络骨干是从初始图像

(由3个颜色通道)开始，生成一个低分辨率的激活映射特征f∈R^C×H×W。本实施例3中，使用的特征值为：C＝2048，

其中，H₀表示原始图像的高度，W₀表示原始图像的宽度。

(2)构建transformer编码器。首先，使用1×1卷积将激活映射特征f的通道维度从C降低到更小的维度d。创建一个新的特征映射z₀＝R^d×H×W。编码器希望输入是一个序列输入，因此，在本实施例3中，将z₀的空间维度压缩成一维，从而产生一个d×HW的特征映射。每一个编码器都是由一个标准框架组成：一个多头自注意模块和一个前馈神经网络(FFN)。由于transformer体系结构是不变的，对于损失，使用固定位置编码来补充它，这些编码都加入到在每个注意层的输入之中。

(3)构建transformer解码器。transformer解码器遵循transformer的标准架构，使用多头自注意机制和transformer编码器-解码器注意力机制对尺寸为d的N个对象嵌入进行转换。与原始转化器的不同之处在于，原始转换器使用的是一个自回归模型，每次都会预测一个元素的输出序列，而本文却是在解码器层中对N个对象进行并行解码。由于解码器也是排列不变的，因此N个输入嵌入必须不同才可以产生不同的结果。这些输入嵌入的学习到的位置编码，我们称之为对象查询，与编码器类似，我们将他们添加到每个自注意层的输入之中，之后转换成解码器嵌入的输出。然后通过前馈网络将它们独立解码为框坐标和类标签，从而产生N个最终预测。使用编码器-解码器对这些嵌入进行处理，模型全局使用所有对象之间的成对关系，同时可以使用整个图像作为上下文，优化结果输出。

(4)构建前馈神经网络FFN。神经前馈网络通过一个带有ReLU激活函数和隐藏维数为d的3层感知器和一个线性投影层来计算出结果。如图5所示。

4、构建损失函数并使用迁移学习减少训练时间，如图3所示。

(1)用y来表示背景真值集，用

表示预测集，使用如下公式找到这两个集合之间的二部匹配。

其中，L_match(y_i,y_σ(i))是真值y_i与预测序列σ_(i)之间的二值匹配损失，此优化算法在以匈牙利算法基础上进行的工作，G_N表示N个元素的排列。

(2)使用如下公式来计算损失函数，对损失的定义类似于普通对象检测器的损失，即类预测的负对数似然值和后面定义的盒损失(边界框损失函数)

的线性组合：

其中，N表示固定大小的预测集，

表示目标概率值，c_i表示目标类标签，φ表示空值，b_i表示定义真值中心坐标的向量，

表示预测框。

(3)将l₁损失函数与GLOU损失函数L_iou(·,·)在尺度不变的基础上相结合，建立自己的边界框损失函数，将边界框损失函数

定义为：

其中，λ_iou表示GLOU损失函数的超参数，

表示l₁损失函数的超参数。

5、评估模型并优化网络模型

(1)采用召回率与精确度来对模型进行评估，为优化模型提供依据。

其中，准确率为：

召回率为：

(2)依据召回率与精确度反复训练并模型评估模型，直到得到最优化结果。

实施例4

本发明实施例4提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于执行同色系背景下的果实识别方法的指令。该果实识别方法包括：

获取果园环境中的环境照片；

实施例5

本发明实施例7提供一种电子设备，该电子设备包括一种非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。所述非暂态计算机可读存储介质包括用于执行同色系背景下的果实识别方法的指令。该果实识别方法包括：

获取果园环境中的环境照片；

实施例6

本发明实施例8提供一种电子设备，所述设备包括用于执行同色系背景下的果实识别方法的装置。该果实识别方法包括：

获取果园环境中的环境照片；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种同色系背景下的果实识别方法，其特征在于，包括：

获取果园环境中的环境照片；

2.根据权利要求1所述的同色系背景下的果实识别方法，其特征在于，所述识别模型的训练包括：

3.根据权利要求2所述的同色系背景下的果实识别方法，其特征在于，构建transformer模型包括：

由初始图像开始，生成一个低分辨率的激活映射特征；

4.根据权利要求3所述的同色系背景下的果实识别方法，其特征在于，所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。

5.根据权利要求2所述的同色系背景下的果实识别方法，其特征在于，结合损失函数并进行迁移学习包括：

确定背景真值集和预测集之间的二值匹配；

建立边界框损失；

以匈牙利算法为基础，结合二值匹配和边界框损失，对类预测的负对数似然值和边界框损失函数进行线性组合，得到最终的损失函数。

6.根据权利要求2所述的同色系背景下的果实识别方法，其特在于，采用召回率与精确度来对识别结果进行评估，依据召回率与精确度反复训练并进行识别结果评估，直到得到最优化结果。

7.一种同色系背景下的果实识别装置，其特征在于，包括：

图像采集模块，用于获取果园环境中的环境照片；

8.一种果实采摘机器人，其特征在于：包括如权利要求7所述的同色系背景下的果实识别装置。

9.一种非暂态计算机可读存储介质，其特征在于：所述非暂态计算机可读存储介质包括用于执行如权利要求1-6中任一项所述的方法的指令。

10.一种电子设备，其特征在于：包括如权利要求9所述的非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。