CN113076819A - 同色系背景下的果实识别方法、装置及果实采摘机器人 - Google Patents
同色系背景下的果实识别方法、装置及果实采摘机器人 Download PDFInfo
- Publication number
- CN113076819A CN113076819A CN202110286581.XA CN202110286581A CN113076819A CN 113076819 A CN113076819 A CN 113076819A CN 202110286581 A CN202110286581 A CN 202110286581A CN 113076819 A CN113076819 A CN 113076819A
- Authority
- CN
- China
- Prior art keywords
- fruit
- environment
- data
- model
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000013399 edible fruits Nutrition 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000001537 neural effect Effects 0.000 claims abstract description 20
- 239000002420 orchard Substances 0.000 claims abstract description 17
- 238000010801 machine learning Methods 0.000 claims abstract description 14
- 238000012952 Resampling Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 55
- 238000001514 detection method Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000013526 transfer learning Methods 0.000 claims description 10
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 235000012055 fruits and vegetables Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011514 reflex Effects 0.000 description 2
- 241000581835 Monodora junodii Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/38—Outdoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种同色系背景下的果实识别方法,属于果实采摘机器人技术领域,包括:获取果园环境中的环境照片;将环境照片输入到识别模型中,确定所述环境照片中是否有果实;其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。本发明使用transformer编码器‑解码器模型,可并行处理,提高了目标识别速度;且方法稳定,速度快,精度较高,可以很好的满足果实采摘机器人、产量预测等农业需求。使用重采样方法扩充样本空间,很好的适应小样本数据集,泛化能力强,可以应用到各种果实采摘或预产的机器人视觉系统中。
Description
技术领域
本发明涉及果实采摘机器人技术领域,具体涉及一种基于transformer模型同色系背景下的果实识别方法、装置及果实采摘机器人。
背景技术
在农业机器人身体结构之中,机器视觉系统就如同人的眼睛一样,帮助机器人了解周围的环境以及对目标进行识别与定位。机器视觉已经广泛应用于果蔬产量预测和采摘机器人的目标识别之中。对于果蔬预测产量,可以根据结果给种植者提供更加精细与完美的科学管理方式;而实现目标果实的准确而又快速的定位,对于采摘机器人实时性的工作有着巨大的影响。
在进行机器识别时,对于目标物识别的准确程度以及目标物的定位是视觉系统的关键。目前,对于机器视觉系统,大多沿用机器学习与深度学习两个方向。其中,基于机器学习的识别方法通常伴随预处理、特征选择等操作,不能实现端到端的检测流程,且识别效果容易受到自然环境下各种干扰的影响。基于深度学习的识别方法,虽然在精度上有了显著提升,且能够实现端到端的检测流程,但由于卷积等操作以及模型对锚框的依赖,导致其需要耗费大量的计算与存储资源,识别速度尚达不到实时性要求。
发明内容
本发明的目的在于提供一种利用transformer的并行计算特性,在保证精度的前提之下,提高了识别速度的同色系背景下的果实识别方法、装置及果实采摘机器人,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
第一方面,本发明提供一种同色系背景下的果实识别方法,包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
优选的,所述识别模型的训练包括:
采集多张果园环境照片,并进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成COCO格式数据集;
使用重采样法扩充COCO格式数据集,并分成训练集、测试集和验证集;
将训练集作为深度卷积网络的输入,构建transformer网络框架和神经前馈网络FFN,得到目标检测网络;
对目标检测网络结合损失函数并进行迁移学习,获得识别结果;
利用测试集,评估识别结果,根据评估结果调整原始模型的参数,重复训练改进目标检测网络,直至获得最优识别结果,得到识别模型。
优选的,构建transformer模型包括:
由初始图像开始,生成一个低分辨率的激活映射特征;
降低将激活映射特征的通道维度,创建一个新的特征映射,将新的特征映射的空间维度压缩成一维,构建由一个标准框架组成的编码器;其中,标准框架包括:一个多头自注意模块和一个前馈神经网络FFN;
使用多头自注意机制和transformer编码器-解码器注意力机制对多个对象嵌入进行并行解码后,添加到每个自注意层的输入之中,之后转换成解码器嵌入的输出;
通过前馈神经网络将解码器嵌入的输出独立解码为框坐标和类标签,产生多个对象嵌入的对应预测。
优选的,所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。
优选的,结合损失函数并进行迁移学习包括:
确定背景真值集和预测集之间的二值匹配;
将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立边界框损失;
以匈牙利算法为基础,结合二值匹配和边界框损失,对类预测的负对数似然值和盒损失进行线性组合,得到损失函数。
盒损失,又称边界框损失,将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立自己的损失函数,即为盒损失。
优选的,采用召回率与精确度来对识别结果进行评估,依据召回率与精确度反复训练并进行识别结果评估,直到得到最优化结果。
第二方面本发明提供一种同色系背景下的果实识别装置,包括:
图像采集模块,用于获取果园环境中的环境照片;
识别模块,用于将环境照片输入到识别模型中,确定所述环境照片中是否有果实;其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
第三方面,本发明提供一种果实采摘机器人,包括如上所述的同色系背景下的果实识别装置。
第四方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括用于执行如上所述的同色系背景下的果实识别方法的指令。
第五方面,本发明提供一种电子设备,包括如上所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
本发明有益效果:使用transformer编码器-解码器模型,可并行处理,提高了目标识别速度;且方法稳定,速度快,精度较高,可以很好的满足果实采摘机器人、产量预测等农业需求。使用重采样方法扩充样本空间,很好的适应小样本数据集,泛化能力强,可以应用到各种果实采摘或预产的机器人视觉系统中。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的基于transformer模型的同色系背景下果实检测方法流程图。
图2为本发明实施例所述的原始的果实图像。
图3为本发明实施例所述的目标检测网络结构示意图。
图4为本发明实施例所述的transformer编码器-解码器网络结构示意图。
图5为本发明实施例所述的前馈神经网络FNN效果图。
图6为本发明实施例所述的采用同色系背景下果实识别方法的果实识别效果图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本发明实施例1提供一种同色系背景下的果实识别方法,该方法包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
在本实施例1中,所述识别模型的训练包括:
采集多张果园环境照片,并进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成COCO格式数据集;
使用重采样法扩充COCO格式数据集,并分成训练集、测试集和验证集;
将训练集作为深度卷积网络的输入,构建transformer网络框架和神经前馈网络FFN,得到目标检测网络;
对目标检测网络结合损失函数并进行迁移学习,获得识别结果;
利用测试集,评估识别结果,根据评估结果调整原始模型的参数,重复训练改进目标检测网络,直至获得最优识别结果,得到识别模型。
在本实施例1中,构建transformer模型包括:
由初始图像开始,生成一个低分辨率的激活映射特征;
降低将激活映射特征的通道维度,创建一个新的特征映射,将新的特征映射的空间维度压缩成一维,构建由一个标准框架组成的编码器;其中,标准框架包括:一个多头自注意模块和一个前馈神经网络FFN;
使用多头自注意机制和transformer编码器-解码器注意力机制对多个对象嵌入进行并行解码后,添加到每个自注意层的输入之中,之后转换成解码器嵌入的输出;
通过前馈神经网络将解码器嵌入的输出独立解码为框坐标和类标签,产生多个对象嵌入的对应预测。
在本实施例1中,所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。
在本实施例1中,结合损失函数并进行迁移学习包括:
确定背景真值集和预测集之间的二值匹配;
将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立边界框损失;
以匈牙利算法为基础,结合二值匹配和边界框损失,对类预测的负对数似然值和盒损失进行线性组合,得到损失函数。
盒损失,又称边界框损失,将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立自己的损失函数,即为盒损失。
采用召回率与精确度来对识别结果进行评估,依据召回率与精确度反复训练并进行识别结果评估,直到得到最优化结果。
其中,TP表示真实的正样本数量,FP表示虚假的正样本数量,FN表示虚假的负样本数量。
实施例2
本发明实施例2提供一种同色系背景下的果实识别装置,该装置包括:
图像采集模块,用于获取果园环境中的环境照片;
识别模块,用于将环境照片输入到识别模型中,确定所述环境照片中是否有果实;其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
在本实施例2中,利用上述的同色系背景下的果实识别装置实现了同色系背景下的果实识别方法,该方法包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
在本实施例2中,所述识别模型的训练包括:
采集多张果园环境照片,并进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成COCO格式数据集;
使用重采样法扩充COCO格式数据集,并分成训练集、测试集和验证集;
将训练集作为深度卷积网络的输入,构建transformer网络框架和神经前馈网络FFN,得到目标检测网络;
对目标检测网络结合损失函数并进行迁移学习,获得识别结果;
利用测试集,评估识别结果,根据评估结果调整原始模型的参数,重复训练改进目标检测网络,直至获得最优识别结果,得到识别模型。
在本实施例2中,构建transformer模型包括:
由初始图像开始,生成一个低分辨率的激活映射特征;
降低将激活映射特征的通道维度,创建一个新的特征映射,将新的特征映射的空间维度压缩成一维,构建由一个标准框架组成的编码器;其中,标准框架包括:一个多头自注意模块和一个前馈神经网络FFN;
使用多头自注意机制和transformer编码器-解码器注意力机制对多个对象嵌入进行并行解码后,添加到每个自注意层的输入之中,之后转换成解码器嵌入的输出;
通过前馈神经网络将解码器嵌入的输出独立解码为框坐标和类标签,产生多个对象嵌入的对应预测。
在本实施例2中,所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。
在本实施例2中,结合损失函数并进行迁移学习包括:
确定背景真值集和预测集之间的二值匹配;
将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立边界框损失;
以匈牙利算法为基础,结合二值匹配和边界框损失,对类预测的负对数似然值和盒损失进行线性组合,得到损失函数。
盒损失,又称边界框损失,将l1损失函数与GLOU损失函数在尺度不变的基础上相结合,建立自己的损失函数,即为盒损失。
采用召回率与精确度来对识别结果进行评估,依据召回率与精确度反复训练并进行识别结果评估,直到得到最优化结果。
其中,TP表示真实的正样本数量,FP表示虚假的正样本数量,FN表示虚假的负样本数量。
实施例3
本发明实施例3提供一种果实采摘机器人,该机器人包括有一种同色系背景下的果实识别装置,该装置包括:
图像采集模块,用于获取果园环境中的环境照片;
识别模块,用于将环境照片输入到识别模型中,确定所述环境照片中是否有果实,如图6所示。其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
在本实施例3中,利用上述的果实识别装置,实现了一种基于transformer的同色系背景下果实检测方法,解决了果实采摘机器人的视觉系统果实分割效率较差、速度较慢的问题。本方法精度高、速度快,较好的满足果实采摘机器人、产量预测等农业需求。
如图1所示,本发明实施例3中,基于transformer的同色系背景下果实检测方法,包括以下步骤:
步骤1、图像采集与数据集制作。在果园环境下使用佳能EOS 80D单反相机采集丰富的绿色果实图像。使用LabelMe软件对图像进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成COCO格式数据集。如图2所示,为采集的绿色果实原始图像。
步骤2、数据集处理。使用重采样法(bootstrapping)扩充样本,加快模型收敛。
步骤3、构建transformer模型与神经前馈网络FFN。将制作好的数据集作为深度卷积网络的输入,构建transformer网络框架,并构建神经前馈网络FFN,处理并输出最终结果。
步骤4、构建损失函数并进行迁移学习。使用匈牙利损失函数优化网络模型,进行训练模型时,使用迁移学习,加快模型收敛,减少训练时间。
步骤5、评估模型并优化网络模型。输入测试样本,使用评估指标评价获得的绿色果实检测模型的检测结果,根据评估结果调整模型的参数,重复训练改进模型,直至获得最优网络模型。
在本实施例3中,上述步骤1-步骤5的具体流程如下:
1、图像采集与数据集制作:
(1)使用佳能EOS 80D单反相机采集不同光照、不同时间段、不同角度下的青苹果图像,图像分辨率为6000×4000,输出格式为JPG,24位彩色图像。
(2)对采集的图像进行预处理和标注,构建数据集。
2、数据集处理
(1)在实际训练时,数据不充足不利于网络模型的收敛,所以使用重采样方法(bootstrapping)扩充样本,重采样法利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布之新样本。
(2)将扩充完成的数据集分为训练集、验证集和测试集。
3、构建transformer模型与神经前馈网络FFN方法,如图4所示。
(1)构建网络头部。传统的CNN网络骨干是从初始图像(由3个颜色通道)开始,生成一个低分辨率的激活映射特征f∈RC×H×W。本实施例3中,使用的特征值为:C=2048,其中,H0表示原始图像的高度,W0表示原始图像的宽度。
(2)构建transformer编码器。首先,使用1×1卷积将激活映射特征f的通道维度从C降低到更小的维度d。创建一个新的特征映射z0=Rd×H×W。编码器希望输入是一个序列输入,因此,在本实施例3中,将z0的空间维度压缩成一维,从而产生一个d×HW的特征映射。每一个编码器都是由一个标准框架组成:一个多头自注意模块和一个前馈神经网络(FFN)。由于transformer体系结构是不变的,对于损失,使用固定位置编码来补充它,这些编码都加入到在每个注意层的输入之中。
(3)构建transformer解码器。transformer解码器遵循transformer的标准架构,使用多头自注意机制和transformer编码器-解码器注意力机制对尺寸为d的N个对象嵌入进行转换。与原始转化器的不同之处在于,原始转换器使用的是一个自回归模型,每次都会预测一个元素的输出序列,而本文却是在解码器层中对N个对象进行并行解码。由于解码器也是排列不变的,因此N个输入嵌入必须不同才可以产生不同的结果。这些输入嵌入的学习到的位置编码,我们称之为对象查询,与编码器类似,我们将他们添加到每个自注意层的输入之中,之后转换成解码器嵌入的输出。然后通过前馈网络将它们独立解码为框坐标和类标签,从而产生N个最终预测。使用编码器-解码器对这些嵌入进行处理,模型全局使用所有对象之间的成对关系,同时可以使用整个图像作为上下文,优化结果输出。
(4)构建前馈神经网络FFN。神经前馈网络通过一个带有ReLU激活函数和隐藏维数为d的3层感知器和一个线性投影层来计算出结果。如图5所示。
4、构建损失函数并使用迁移学习减少训练时间,如图3所示。
其中,Lmatch(yi,yσ(i))是真值yi与预测序列σ(i)之间的二值匹配损失,此优化算法在以匈牙利算法基础上进行的工作,GN表示N个元素的排列。
5、评估模型并优化网络模型
(1)采用召回率与精确度来对模型进行评估,为优化模型提供依据。
其中,TP表示真实的正样本数量,FP表示虚假的正样本数量,FN表示虚假的负样本数量。
(2)依据召回率与精确度反复训练并模型评估模型,直到得到最优化结果。
实施例4
本发明实施例4提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质包括用于执行同色系背景下的果实识别方法的指令。该果实识别方法包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
实施例5
本发明实施例7提供一种电子设备,该电子设备包括一种非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。所述非暂态计算机可读存储介质包括用于执行同色系背景下的果实识别方法的指令。该果实识别方法包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
实施例6
本发明实施例8提供一种电子设备,所述设备包括用于执行同色系背景下的果实识别方法的装置。该果实识别方法包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种同色系背景下的果实识别方法,其特征在于,包括:
获取果园环境中的环境照片;
将环境照片输入到识别模型中,确定所述环境照片中是否有果实;
其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
2.根据权利要求1所述的同色系背景下的果实识别方法,其特征在于,所述识别模型的训练包括:
采集多张果园环境照片,并进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成COCO格式数据集;
使用重采样法扩充COCO格式数据集,并分成训练集、测试集和验证集;
将训练集作为深度卷积网络的输入,构建transformer网络框架和神经前馈网络FFN,得到目标检测网络;
对目标检测网络结合损失函数并进行迁移学习,获得识别结果;
利用测试集,评估识别结果,根据评估结果调整原始模型的参数,重复训练改进目标检测网络,直至获得最优识别结果,得到识别模型。
3.根据权利要求2所述的同色系背景下的果实识别方法,其特征在于,构建transformer模型包括:
由初始图像开始,生成一个低分辨率的激活映射特征;
降低将激活映射特征的通道维度,创建一个新的特征映射,将新的特征映射的空间维度压缩成一维,构建由一个标准框架组成的编码器;其中,标准框架包括:一个多头自注意模块和一个前馈神经网络FFN;
使用多头自注意机制和transformer编码器-解码器注意力机制对多个对象嵌入进行并行解码后,添加到每个自注意层的输入之中,之后转换成解码器嵌入的输出;
通过前馈神经网络将解码器嵌入的输出独立解码为框坐标和类标签,产生多个对象嵌入的对应预测。
4.根据权利要求3所述的同色系背景下的果实识别方法,其特征在于,所述前馈神经网络FFN通过一个带有ReLU激活函数和隐藏维数为对象嵌入的尺寸相同的3层感知器和一个线性投影层来计算出结果。
5.根据权利要求2所述的同色系背景下的果实识别方法,其特征在于,结合损失函数并进行迁移学习包括:
确定背景真值集和预测集之间的二值匹配;
建立边界框损失;
以匈牙利算法为基础,结合二值匹配和边界框损失,对类预测的负对数似然值和边界框损失函数进行线性组合,得到最终的损失函数。
6.根据权利要求2所述的同色系背景下的果实识别方法,其特在于,采用召回率与精确度来对识别结果进行评估,依据召回率与精确度反复训练并进行识别结果评估,直到得到最优化结果。
7.一种同色系背景下的果实识别装置,其特征在于,包括:
图像采集模块,用于获取果园环境中的环境照片;
识别模块,用于将环境照片输入到识别模型中,确定所述环境照片中是否有果实;其中,所述识别模型为:基于构建的transformer模型与神经前馈网络FFN,使用多组数据通过机器学习训练得出;所述多组数据中的每组数据均包括:有果实的环境照片和标识该照片有果实的标注信息。
8.一种果实采摘机器人,其特征在于:包括如权利要求7所述的同色系背景下的果实识别装置。
9.一种非暂态计算机可读存储介质,其特征在于:所述非暂态计算机可读存储介质包括用于执行如权利要求1-6中任一项所述的方法的指令。
10.一种电子设备,其特征在于:包括如权利要求9所述的非暂态计算机可读存储介质;以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286581.XA CN113076819A (zh) | 2021-03-17 | 2021-03-17 | 同色系背景下的果实识别方法、装置及果实采摘机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110286581.XA CN113076819A (zh) | 2021-03-17 | 2021-03-17 | 同色系背景下的果实识别方法、装置及果实采摘机器人 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113076819A true CN113076819A (zh) | 2021-07-06 |
Family
ID=76612927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110286581.XA Pending CN113076819A (zh) | 2021-03-17 | 2021-03-17 | 同色系背景下的果实识别方法、装置及果实采摘机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076819A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723312A (zh) * | 2021-09-01 | 2021-11-30 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718945A (zh) * | 2016-01-20 | 2016-06-29 | 江苏大学 | 基于分水岭和神经网络的苹果采摘机器人夜间图像识别方法 |
CN107590799A (zh) * | 2017-08-25 | 2018-01-16 | 山东师范大学 | 基于深度卷积神经网络的香蕉成熟期识别方法和装置 |
CN109409365A (zh) * | 2018-10-25 | 2019-03-01 | 江苏德劭信息科技有限公司 | 一种基于深度目标检测的待采摘水果识别和定位方法 |
CN109919930A (zh) * | 2019-03-07 | 2019-06-21 | 浙江大学 | 基于卷积神经网络yolo v3的树上果实数量的统计方法 |
CN111652326A (zh) * | 2020-06-30 | 2020-09-11 | 华南农业大学 | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN112150568A (zh) * | 2020-09-16 | 2020-12-29 | 浙江大学 | 基于Transformer模型的磁共振指纹成像重建方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112232263A (zh) * | 2020-10-28 | 2021-01-15 | 中国计量大学 | 一种基于深度学习的番茄识别方法 |
CN112270268A (zh) * | 2020-10-29 | 2021-01-26 | 重庆邮电大学 | 一种非结构化环境下基于深度学习的果实采摘机器人目标检测方法 |
-
2021
- 2021-03-17 CN CN202110286581.XA patent/CN113076819A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718945A (zh) * | 2016-01-20 | 2016-06-29 | 江苏大学 | 基于分水岭和神经网络的苹果采摘机器人夜间图像识别方法 |
CN107590799A (zh) * | 2017-08-25 | 2018-01-16 | 山东师范大学 | 基于深度卷积神经网络的香蕉成熟期识别方法和装置 |
CN109409365A (zh) * | 2018-10-25 | 2019-03-01 | 江苏德劭信息科技有限公司 | 一种基于深度目标检测的待采摘水果识别和定位方法 |
CN109919930A (zh) * | 2019-03-07 | 2019-06-21 | 浙江大学 | 基于卷积神经网络yolo v3的树上果实数量的统计方法 |
CN111652326A (zh) * | 2020-06-30 | 2020-09-11 | 华南农业大学 | 基于MobileNet v2网络改进的果实成熟度识别方法和识别系统 |
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN112150568A (zh) * | 2020-09-16 | 2020-12-29 | 浙江大学 | 基于Transformer模型的磁共振指纹成像重建方法 |
CN112149619A (zh) * | 2020-10-14 | 2020-12-29 | 南昌慧亦臣科技有限公司 | 一种基于Transformer模型自然场景文字识别方法 |
CN112232263A (zh) * | 2020-10-28 | 2021-01-15 | 中国计量大学 | 一种基于深度学习的番茄识别方法 |
CN112270268A (zh) * | 2020-10-29 | 2021-01-26 | 重庆邮电大学 | 一种非结构化环境下基于深度学习的果实采摘机器人目标检测方法 |
Non-Patent Citations (5)
Title |
---|
ASHISH VASWANI等: "Attention Is All You Need", 《ARXIV:1706.03762V5 [CS.CL] 》 * |
NICOLAS CARION等: "End-to-End Ob ject Detection with Transformers", 《ARXIV:2005.12872V3 [CS.CV]》 * |
XIZHOU ZHU等: "DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION", 《ARXIV:2010.04159V1 [CS.CV]》 * |
熊俊涛等: "自然环境下树上绿色芒果的无人机视觉检测技术", 《农业机械学报》 * |
熊俊涛等: "自然环境下绿色柑橘视觉检测技术研究", 《农业机械学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723312A (zh) * | 2021-09-01 | 2021-11-30 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
CN113723312B (zh) * | 2021-09-01 | 2024-01-23 | 东北农业大学 | 基于视觉transformer的水稻病害识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11429818B2 (en) | Method, system and device for multi-label object detection based on an object detection network | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN114220035A (zh) | 一种基于改进yolo v4的快速害虫检测方法 | |
CN106845434B (zh) | 一种基于支持向量机的图像型机房漏水监测方法 | |
CN109635676A (zh) | 一种从视频中定位音源的方法 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN111160096A (zh) | 禽蛋异常的识别方法、装置及系统、存储介质、电子装置 | |
CN112200057A (zh) | 人脸活体检测方法、装置、电子设备及存储介质 | |
CN111488766A (zh) | 目标检测方法和装置 | |
CN114332942A (zh) | 基于改进YOLOv3的夜间红外行人检测方法及系统 | |
CN116912674A (zh) | 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及系统 | |
CN111898614B (zh) | 神经网络系统以及图像信号、数据处理的方法 | |
CN114187590A (zh) | 同色系背景下目标果实识别方法及系统 | |
CN114492755A (zh) | 基于知识蒸馏的目标检测模型压缩方法 | |
CN113076819A (zh) | 同色系背景下的果实识别方法、装置及果实采摘机器人 | |
CN117523394A (zh) | 一种基于聚合特征增强网络的sar船舰检测方法 | |
Hu et al. | Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard | |
CN117292324A (zh) | 一种人群密度估计方法及系统 | |
CN116563795A (zh) | 一种玩偶的生产管理方法及其系统 | |
CN116543295A (zh) | 一种基于退化图像增强的轻量化水下目标检测方法及系统 | |
CN114926691A (zh) | 基于卷积神经网络的虫害智能化识别方法及系统 | |
CN114329070A (zh) | 视频特征提取方法、装置、计算机设备和存储介质 | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 | |
JP2023519527A (ja) | アルファチャネルにおけるオートエンコーダに基づくセグメンテーションマスクの生成 | |
Yu et al. | Precise segmentation of remote sensing cage images based on SegNet and voting mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210706 |