CN116863371A - 一种基于深度学习的agv叉车货物托盘位姿识别方法 - Google Patents
一种基于深度学习的agv叉车货物托盘位姿识别方法 Download PDFInfo
- Publication number
- CN116863371A CN116863371A CN202310771666.6A CN202310771666A CN116863371A CN 116863371 A CN116863371 A CN 116863371A CN 202310771666 A CN202310771666 A CN 202310771666A CN 116863371 A CN116863371 A CN 116863371A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- pose
- deep learning
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013135 deep learning Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000005286 illumination Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 7
- 238000009499 grossing Methods 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 238000013519 translation Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 2
- 230000007613 environmental effect Effects 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的AGV叉车货物托盘位姿识别方法,包括以下操作步骤:相机控制模块控制深度相机采集原始RGBD数据;数据预处理模块对收集到的原始数据进行预处理,先对彩色图进行语义分割,找出托盘所在区域作为ROI,然后对ROI对应的点云数据进行平滑处理和噪声过滤。本发明所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,具有精度高,成本低,环境鲁棒性强等优点,可以避免因部分遮挡和光照变化导致的误检,采用深度相机收集图像和点云数据,并通过卷积神经网络和PointNet将彩色特征与深度特征进行像素级的稠密融合生成全局特征,并根据此全局特征采用深度学习训练检测模型。
Description
技术领域
本发明涉及AGV叉车货物托盘位姿识别领域,特别涉及一种基于深度学习的AGV叉车货物托盘位姿识别方法。
背景技术
随着人工智能技术的飞速发展,工业机器人的智能化毫无疑问成为了发展趋势。AGV(Automated Guided Vehicle)叉车是一种工业机器人,其具有自动导航、移动、避障,多传感器控制和装载运输等多种功能,其主要任务包括短途运输和完成对装载货物的托盘的装卸。近年来,随着物流需求的迅速增长,为提升工作效率,越来越多的工厂和仓库选择将传统人工叉车替换为自动引导叉车(AGV),而对货物托盘的检测是AGV的一项重要技术。实际仓储环境具有背景复杂、光线条件不一致,动态及静态障碍物较多等特点,因此如何精准高效的完成对货物托盘的检测和定位是AGV叉车亟待解决的核心问题,随着科技的不断发展,人们对于AGV叉车货物托盘位姿识别方法的制造工艺要求也越来越高。
现有的AGV叉车货物托盘位姿识别方法在使用时存在一定的弊端,目前,对货物托盘的检测主要采用机器视觉或激光雷达检测等方法。其中,单目视觉相机成本较低,但是精度不高且受光线影响很大;激光雷达和双目视觉检测都拥有较高检测精度,但是激光雷达价格昂贵,双目视觉相机受光照影响较大;基于特征标签的视觉检测方法对于特征检测的精度要求比较高,环境鲁棒性较差等等。总的来说,现阶段对托盘检测的各种方法在托盘被部分遮挡情况下都易产生误检。
参考的同类产品专利包括CN104777835A和CN107507167A。CN104777835A公开了一种全向自动叉车及3D视觉导航定位方法,该方法采用双目视觉进行托盘定位,但是容易受到复杂仓储环境下光照的影响。CN107507167A则公开了一种基于点云平面轮廓匹配的货物托盘检测方法,尽管该方法具有高精度和低成本的优点,但是只适用于近距离检测场景,并且无法处理托盘被遮挡的情况。
综上,针对现有技术的各种缺点和不足,本发明的技术问题主要集中在如何在复杂的仓储环境中,提高托盘检测的精度并减小误检,如何提升对托盘检测的环境鲁棒性,尤其是在托盘部分被遮挡的情况下。同时,为了普及AGV叉车的应用,还需要降低托盘检测方法的成本。为此,我们需要开发一种基于深度学习的AGV叉车货物托盘位姿识别方法。
发明内容
解决的技术问题:针对现有技术的不足,本发明提供了一种基于深度学习的AGV叉车货物托盘位姿识别方法,具有精度高,成本低,环境鲁棒性强等优点,可以避免因部分遮挡和光照变化导致的误检,采用深度相机收集图像和点云数据,并通过卷积神经网络和PointNet将彩色特征与深度特征进行像素级的稠密融合生成全局特征,并根据此全局特征采用深度学习训练检测模型,可以有效解决背景技术中的问题。
技术方案:为实现上述目的,本发明采取的技术方案为:一种基于深度学习的AGV叉车货物托盘位姿识别方法,包括以下操作步骤:
S1:数据采集:相机控制模块控制深度相机采集原始RGBD数据;
S2:数据预处理:数据预处理模块对收集到的原始数据进行预处理,先对彩色图进行语义分割,找出托盘所在区域作为ROI,然后对ROI对应的点云数据进行平滑处理和噪声过滤,主要滤除传感器原始数据中的明显奇异点和较大离群点;
S3:数据滤波:对RGBD生成点云进行滤波,具体操作为对相邻数据进行中值滤波以平滑点云,并采用体素滤波进行降采样,采用统计滤波滤除数据中的明显奇异点和较大离群点;
S4:模型推理:将处理完成的ROI彩色图和对应点云输入预训练的模型,经过模型推理,得到的最优的输出位姿;
S5:预训练位姿:采用的预训练位姿预测模型主要由主干训练网络和自迭代优化网络两部分构成,在训练过程中不再拘泥于单一颜色或者几何特征,而是输入通过像素级的稠密融合形成的全局特征;
S6:位姿转换:结合AGV车体位姿与传感器在车体上的相对位姿,将托盘在传感器坐标系下的位姿转换为全局坐标系下的位姿。
作为本申请一种优选的技术方案,包括以下内容部分:模型训练部分、模型推理部分、程序模块部分与深度学习硬件部分。
作为本申请一种优选的技术方案,所述模型训练部分包括以下步骤:
S1:部署仓储环境下的托盘摆放场景,模拟各种遮蔽与光照情况,并在背景中参照数据集摆放二维码标识;
S2:使用深度相机对仓储环境下货物托盘的样本数据进行拍摄采集,同时根据背景二维码推算记录不同拍摄角度下相机的旋转和平移矩阵真值,即4x4变换矩阵;
S3:对彩色图像进行语义分割,使用包围盒标注托盘目标,同时在深度图中使用掩码标注分割结果;
S4:以第一张图片为参考面将深度图转化为点云数据作为model。由此可根据其他的拍摄样本时的摄像头参数计算出对应的点云数据;
S5:将所有样本数据按照托盘类别分类,并对每类数据划分train、validate和test索引;
S6:全局特征提取,根据数据集中的掩码标注,使用卷积神经网络编码-解码结构将语义分割的图片部分进行颜色特征提取;
S7:搭建训练主干网络,输入是预处理之后点云数据随机选择的500个点、物体的分割结果、随机选取的像素索引和物体的类别编号;
S8:优化网络最终输出为优化之后的旋转和平移,根据新的旋转和平移对points和target进行逆转操作,并重新输入该优化网络进行自迭代,在重复固定次数自迭代后,最终保留最优模型文件。
作为本申请一种优选的技术方案,所述模型推理部分包括以下步骤:
S1:部署深度相机采集仓储环境下目标托盘的RGBD图像;
S2:对收集的图像数据进行预处理,以彩色图像数据为输入,对目标托盘进行语义分割;
S3:将处理后的彩色图像与对应点云数据输入预训练完成的位姿预测模型,初始化estimator,得到模型预测的最优旋转与平移;
S4:根据模型中初始托盘model的固定位姿与预测输出的最优姿态计算出目标托盘在传感器坐标系下的位姿,并将其压扁为2D位姿,然后根据相机与AGV车体的2D相对位姿和车体在地图全局坐标系下的2D位姿,最终计算出托盘在地图全局坐标系下的2D位姿。
作为本申请一种优选的技术方案,所述程序模块部分包括相机模块、图像预处理模块、模型训练模块、模型优化模块和模型推理模块,所述相机模块主要负责控制相机的实时拍摄和数据收集,并将图像数据传输给图像预处理模块,所述图像预处理模块主要负责一系列对输入数据的预处理工作,包括对彩色图的语义分割,彩色图深度图合成点云,点云去噪,bounding box生成,掩码标注2D和3D图像处理任务,且经过处理后的图像数据在训练阶段会传输给模型训练模块,在测试阶段则会传输给模型推理模块,所述模型训练模块主要负责对收集数据集的预处理和深度学习训练任务,当模型训练精度达到一定数值后,将输出姿态输入模型优化模块。
作为本申请一种优选的技术方案,所述模型优化模块主要采用自迭代方式,将上一过程的预测结果作为下一过程的输入,不断改善预测位姿以缩小损失,最终保留最优的推测模型参数,所述模型推理模块读取模型优化模块保存的最优预测模型参数,根据参数构建预测模型。
作为本申请一种优选的技术方案,所述深度学习硬件部分包括深度学习工作站、工业计算机和深度相机,所述深度相机用于采集训练用彩色和深度图像数据和实时拍摄目标检测场景,并通过USB接口将数据发送给工业计算机,所述工业计算机内部通过算法完成环境目标托盘的识别、彩色和深度特征的提取。
作为本申请一种优选的技术方案,所述深度学习工作站带有高性能GPU,主要用于深度学习模型的训练和迭代优化,所述工业计算机主要用于实时数据的处理和部分硬件的控制,主要负责控制深度相机的拍摄任务,处理图像,将数据输入深度学习模型完成实时推理任务。
有益效果:与现有技术相比,本发明提供了一种基于深度学习的AGV叉车货物托盘位姿识别方法,具备以下有益效果:该一种基于深度学习的AGV叉车货物托盘位姿识别方法,具有精度高,成本低,环境鲁棒性强等优点,可以避免因部分遮挡和光照变化导致的误检,采用深度相机收集图像和点云数据,并通过卷积神经网络和PointNet将彩色特征与深度特征进行像素级的稠密融合生成全局特征,并根据此全局特征采用深度学习训练检测模型;
(1)基于深度学习将目标图像彩色特征与深度特征进行像素级的稠密融合形成全局特征,并根据该全局特征预测目标托盘位姿,有效避免因部分环境遮挡和光照变化导致的误检;
(2)对每个随机选取的像素特征进行位姿预测,并根据置信度选择结果,使用自监督的方式对置信度的预测结果进行训练,提升了预测的精度和鲁棒性;
(3)采用一种基于网络的位姿迭代优化方法,通过逆转操作纠正预测姿态,大大提升了模型的预测精度,整个AGV叉车货物托盘位姿识别方法结构简单,操作方便,使用的效果相对于传统方式更好。
附图说明
图1为本发明一种基于深度学习的AGV叉车货物托盘位姿识别方法的模型训练流程图。
图2为本发明一种基于深度学习的AGV叉车货物托盘位姿识别方法中模型推理流程图。
图3为本发明一种基于深度学习的AGV叉车货物托盘位姿识别方法中程序模块结构示意图。
图4为本发明一种基于深度学习的AGV叉车货物托盘位姿识别方法中硬件结构示意图。
图5为本发明一种基于深度学习的AGV叉车货物托盘位姿识别方法中数据集准备流程图。
具体实施方式
下面将结合附图和具体实施方式对本发明的技术方案进行清楚、完整地描述,但是本领域技术人员将会理解,下列所描述的实施例是本发明一部分实施例,而不是全部的实施例,仅用于说明本发明,而不应视为限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
如图1-5所示,本发明提出了一种基于深度学习的货物托盘位姿识别方法,具有精度高,成本低,环境鲁棒性强等优点,可以避免因部分遮挡和光照变化导致的误检。此方法采用深度相机收集图像和点云数据,并通过卷积神经网络和PointNet将彩色特征与深度特征进行像素级的稠密融合生成全局特征,并根据此全局特征采用深度学习训练检测模型。
步骤一、相机控制模块控制深度相机采集原始RGBD数据。
步骤二、数据预处理模块对收集到的原始数据进行预处理。先对彩色图进行语义分割,找出托盘所在区域作为ROI。然后对ROI对应的点云数据进行平滑处理和噪声过滤,主要滤除传感器原始数据中的明显奇异点和较大离群点,保证后续处理的数据均是正常可用的数据,提高预测精确度。
进一步的,上述步骤二中对RGBD生成点云进行滤波。具体操作为对相邻数据进行中值滤波以平滑点云,并采用体素滤波进行降采样,采用统计滤波滤除数据中的明显奇异点和较大离群点,保证后续处理的数据均是正常可用的数据,提高模型预测精确度和效率。
步骤三、将处理完成的ROI彩色图和对应点云输入预训练的模型,经过模型推理,得到的最优的输出位姿p=[R|t]。其中R由四元数表示,t则为[xt yt zt 1]齐次向量。在初始设定的托盘model位姿基础上上进行[R|t]变换,即可得到目标托盘在传感器坐标系下的位姿。
进一步的,上述步骤三中采用的预训练位姿预测模型主要由主干训练网络和自迭代优化网络两部分构成。在训练过程中不再拘泥于单一颜色或者几何特征,而是输入通过像素级的稠密融合形成的全局特征。其优势在于,模型不会因部分遮挡或者光照变化导致丢失部分特征造成误检,由此提高了模型位姿预测的鲁棒性。同时,通过像素投票置信度和自迭代等优化办法进一步提高了模型的预测精度。
步骤四、结合AGV车体位姿与传感器在车体上的相对位姿,将托盘在传感器坐标系下的位姿转换为全局坐标系下的位姿。
本发明基于深度学习,通过优化特征提取,将彩色图的颜色特征与点云的几何特征稠密融合得到鲁棒性更强的全局特征,有效减弱了因环境因素造成的特征丢失对预测结果影响。同时,在模型训练过程中加入像素投票置信度机制和自迭代优化网络进一步提升了模型预测精度。
参考图1,模型训练部分:
步骤一、部署仓储环境下的托盘摆放场景,模拟各种遮蔽与光照情况,并在背景中参照Occlusion Linemod数据集摆放二维码标识。
步骤二、使用深度相机对仓储环境下货物托盘的样本数据进行拍摄采集,同时根据背景二维码推算记录不同拍摄角度下相机的旋转和平移矩阵真值,即4x4变换矩阵。
步骤三、对彩色图像进行语义分割,使用包围盒(bounding box)标注托盘目标,同时在深度图中使用掩码标注分割结果。
步骤四、以第一张图片为参考面将深度图转化为点云数据作为m odel。由此可根据其他的拍摄样本时的摄像头参数(旋转和偏移矩阵)计算出对应的点云数据。
给定一张深度图像,每个像素(u,v)中存储的深度值Z与相机坐标系下z轴的值相对应,根据相机不同有特定的深度比例(dept h scale)。转换相机坐标系下的点云(xc,yc,zc)为:
步骤五、将所有样本数据按照托盘类别分类,并对每类数据划分train、validate和test索引。每类物体数据包含RGB图像、深度图像、掩码标签、姿态真值即相机变换矩阵、model点云数据和索引文件。
步骤六、全局特征提取。根据数据集中的掩码标注,使用卷积神经网络编码-解码结构将语义分割的图片部分进行颜色特征提取。结合相对应的深度图像生成掩码部分点云,并使用PointNet网络提取几何特征。最后将图像颜色特征与几何特征通过MLP进行像素级的稠密融合形成全局特征。
步骤七、搭建训练主干网络,输入是预处理之后点云数据随机选择的500个点(像素)、物体的分割结果、随机选取的像素索引和物体的类别编号。输出为预测的每个像素的旋转r、平移t、置信度c和随机选择之后的500个像素的RGB图像。对于某一像素,ADD计算公式为:
其中xj代表在随机选取500个点中的第j个点,p=[R|t]是位姿真值,是预测位姿。由此,我们计算真实模型上的点和预测模型上的对应点之间的距离,求和再取平均值。总的损失函数如为:
即每个像素的Loss与其置信度相乘,然后添加了一平衡参数ω,并取置信度的负对数来平衡Loss与置信度之间的关系。
步骤八、搭建后端位姿优化网络,输入为步骤三中经过损失函数选取后的最大置信度的姿态[R|t]转换得到的新点云,对原有tar get进行姿态[R|t]的逆转换得到新target,和主干网络输出的500像素的RGB图像。此网络复用主干训练网络结构实现全局特征提取,并用该特征回归旋转r、平移t和置信度c,但优化过程不再对每个像素进行投票,仅仅进行姿态矫正。该优化网络最终输出为优化之后的旋转R和平移t,根据新的旋转和平移对points和target进行逆转操作,并重新输入该优化网络进行自迭代。在重复固定次数自迭代后,最终保留最优模型文件。
参考图2,模型推理部分:
步骤一、部署深度相机采集仓储环境下目标托盘的RGBD图像。
步骤二、对收集的图像数据进行预处理。以彩色图像数据为输入,对目标托盘进行语义分割。根据语义分割的结果,用bounding box裁剪ROI(region of interest)图像,并将对应的掩码深度图按像素转化为3D点云。对ROI的点云数据进行滤波处理,平滑点云并去除噪声点、离群点。
步骤三、将处理后的彩色图像与对应点云数据输入预训练完成的位姿预测模型,初始化estimator,得到模型预测的最优(置信度最高)旋转R与平移t。
步骤四、根据模型中初始托盘model的固定位姿与预测输出的最优姿态[R|t]计算出目标托盘在传感器坐标系下的位姿,并将其压扁为2D位姿。然后根据相机与AGV车体的2D相对位姿和车体在地图全局坐标系下的2D位姿,最终计算出托盘在地图全局坐标系下的2D位姿。具体操作为:首先将模型预测结果降为二维,设传感器二维坐标系原点为相机光心,x轴指向目标托盘,y轴正交x轴且满足右手定则。设托盘坐标系为O,传感器坐标系为C,AGV车体坐标系为A,地图全局坐标系为G,则目标托盘在传感器坐标系下的2D位姿为(xc yc θc),传感器坐标系到全局坐标系的变换关系C→G为 表示托盘前端面中心点(即托盘坐标系原点)在传感器坐标系中的位置,θc表示与托盘前端立面与传感器坐标系y轴正方向的夹角,且/>同理,已知传感器在AGV车体坐标系下的2D位姿和车体在地图全局坐标系下的2D位姿,则已知/>和/>根据坐标系变换公式:
其中我们可以求得/>和/>最终可以求得托盘前端面中心点在全局坐标系下的位置为/>又因二维地图中Z轴一致性,最终旋转/>
模型训练的过程中,通过优化特征提取,融合了托盘信息的颜色与几何特征形成全局特征做统一处理,极大提高了模型的鲁棒性。同时,通过设计像素置信度投票和相应的损失函数以及自迭代优化网络,有效提升了模型的预测精度和稳定性。在实际模型推理前,对输入数据实行了语义分割和点云滤波算法,有效去除无效噪点,提升了推理精度和效率。
参考图3,程序模块包括相机模块,图像预处理模块,模型训练模块,模型优化模块和模型推理模块。相机模块主要负责控制相机的实时拍摄和数据收集,并将图像数据传输给图像预处理模块。图像预处理模块主要负责一系列对输入数据的预处理工作,包括对彩色图的语义分割,彩色图深度图合成点云,点云去噪,bounding bo x生成,掩码标注等2D和3D图像处理任务。经过处理后的图像数据在训练阶段会传输给模型训练模块,在测试阶段则会传输给模型推理模块。模型训练模块主要负责对收集数据集的预处理和深度学习训练任务。当模型训练精度达到一定数值后,将输出姿态输入模型优化模块。模型优化模块主要采用自迭代方式,将上一过程的预测结果作为下一过程的输入,不断改善预测位姿以缩小损失,最终保留最优的推测模型参数。模型推理模块读取模型优化模块保存的最优预测模型参数,根据参数构建预测模型。在模型构建完成后,此模块会对输入的图像数据进行实时位姿预测,预测结果经过坐标系转换得到最终的托盘全局坐标系位姿。
参考图4,硬件包括深度学习工作站,工业计算机和深度相机。深度相机用于采集训练用彩色和深度图像数据和实时拍摄目标检测场景,并通过USB接口将数据发送给工业计算机,工业计算机内部通过算法完成环境目标托盘的识别、彩色和深度特征的提取。深度学习工作站带有高性能GPU,主要用于深度学习模型的训练和迭代优化,与其他部件没有关联性。工业计算机主要用于实时数据的处理和部分硬件的控制,主要负责控制深度相机的拍摄任务,处理图像,将数据输入深度学习模型完成实时推理任务。
需要说明的是,在本文中,诸如第一和第二(一号、二号)等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (8)
1.一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:包括以下操作步骤:
S1:数据采集:相机控制模块控制深度相机采集原始RGBD数据;
S2:数据预处理:数据预处理模块对收集到的原始数据进行预处理,先对彩色图进行语义分割,找出托盘所在区域作为ROI,然后对ROI对应的点云数据进行平滑处理和噪声过滤,主要滤除传感器原始数据中的明显奇异点和较大离群点;
S3:数据滤波:对RGBD生成点云进行滤波,具体操作为对相邻数据进行中值滤波以平滑点云,并采用体素滤波进行降采样,采用统计滤波滤除数据中的明显奇异点和较大离群点;
S4:模型推理:将处理完成的ROI彩色图和对应点云输入预训练的模型,经过模型推理,得到的最优的输出位姿;
S5:预训练位姿:采用的预训练位姿预测模型主要由主干训练网络和自迭代优化网络两部分构成,在训练过程中不再拘泥于单一颜色或者几何特征,而是输入通过像素级的稠密融合形成的全局特征;
S6:位姿转换:结合AGV车体位姿与传感器在车体上的相对位姿,将托盘在传感器坐标系下的位姿转换为全局坐标系下的位姿。
2.根据权利要求1所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:包括以下内容部分:模型训练部分、模型推理部分、程序模块部分与深度学习硬件部分。
3.根据权利要求2所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述模型训练部分包括以下步骤:
S1:部署仓储环境下的托盘摆放场景,模拟各种遮蔽与光照情况,并在背景中参照数据集摆放二维码标识;
S2:使用深度相机对仓储环境下货物托盘的样本数据进行拍摄采集,同时根据背景二维码推算记录不同拍摄角度下相机的旋转和平移矩阵真值,即4x4变换矩阵;
S3:对彩色图像进行语义分割,使用包围盒标注托盘目标,同时在深度图中使用掩码标注分割结果;
S4:以第一张图片为参考面将深度图转化为点云数据作为model。由此可根据其他的拍摄样本时的摄像头参数计算出对应的点云数据;
S5:将所有样本数据按照托盘类别分类,并对每类数据划分train、validate和test索引;
S6:全局特征提取,根据数据集中的掩码标注,使用卷积神经网络编码-解码结构将语义分割的图片部分进行颜色特征提取;
S7:搭建训练主干网络,输入是预处理之后点云数据随机选择的500个点、物体的分割结果、随机选取的像素索引和物体的类别编号;
S8:优化网络最终输出为优化之后的旋转和平移,根据新的旋转和平移对points和target进行逆转操作,并重新输入该优化网络进行自迭代,在重复固定次数自迭代后,最终保留最优模型文件。
4.根据权利要求2所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述模型推理部分包括以下步骤:
S1:部署深度相机采集仓储环境下目标托盘的RGBD图像;
S2:对收集的图像数据进行预处理,以彩色图像数据为输入,对目标托盘进行语义分割;
S3:将处理后的彩色图像与对应点云数据输入预训练完成的位姿预测模型,初始化estimator,得到模型预测的最优旋转与平移;
S4:根据模型中初始托盘model的固定位姿与预测输出的最优姿态计算出目标托盘在传感器坐标系下的位姿,并将其压扁为2D位姿,然后根据相机与AGV车体的2D相对位姿和车体在地图全局坐标系下的2D位姿,最终计算出托盘在地图全局坐标系下的2D位姿。
5.根据权利要求2所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述程序模块部分包括相机模块、图像预处理模块、模型训练模块、模型优化模块和模型推理模块,所述相机模块主要负责控制相机的实时拍摄和数据收集,并将图像数据传输给图像预处理模块,所述图像预处理模块主要负责一系列对输入数据的预处理工作,包括对彩色图的语义分割,彩色图深度图合成点云,点云去噪,bounding box生成,掩码标注2D和3D图像处理任务,且经过处理后的图像数据在训练阶段会传输给模型训练模块,在测试阶段则会传输给模型推理模块,所述模型训练模块主要负责对收集数据集的预处理和深度学习训练任务,当模型训练精度达到一定数值后,将输出姿态输入模型优化模块。
6.根据权利要求5所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述模型优化模块主要采用自迭代方式,将上一过程的预测结果作为下一过程的输入,不断改善预测位姿以缩小损失,最终保留最优的推测模型参数,所述模型推理模块读取模型优化模块保存的最优预测模型参数,根据参数构建预测模型。
7.根据权利要求2所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述深度学习硬件部分包括深度学习工作站、工业计算机和深度相机,所述深度相机用于采集训练用彩色和深度图像数据和实时拍摄目标检测场景,并通过USB接口将数据发送给工业计算机,所述工业计算机内部通过算法完成环境目标托盘的识别、彩色和深度特征的提取。
8.根据权利要求7所述的一种基于深度学习的AGV叉车货物托盘位姿识别方法,其特征在于:所述深度学习工作站带有高性能GPU,主要用于深度学习模型的训练和迭代优化,所述工业计算机主要用于实时数据的处理和部分硬件的控制,主要负责控制深度相机的拍摄任务,处理图像,将数据输入深度学习模型完成实时推理任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310771666.6A CN116863371A (zh) | 2023-06-28 | 2023-06-28 | 一种基于深度学习的agv叉车货物托盘位姿识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310771666.6A CN116863371A (zh) | 2023-06-28 | 2023-06-28 | 一种基于深度学习的agv叉车货物托盘位姿识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863371A true CN116863371A (zh) | 2023-10-10 |
Family
ID=88233291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310771666.6A Pending CN116863371A (zh) | 2023-06-28 | 2023-06-28 | 一种基于深度学习的agv叉车货物托盘位姿识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863371A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315264A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市普拉托科技有限公司 | 基于图像识别的托盘检测方法及相关装置 |
-
2023
- 2023-06-28 CN CN202310771666.6A patent/CN116863371A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315264A (zh) * | 2023-11-30 | 2023-12-29 | 深圳市普拉托科技有限公司 | 基于图像识别的托盘检测方法及相关装置 |
CN117315264B (zh) * | 2023-11-30 | 2024-03-08 | 深圳市普拉托科技有限公司 | 基于图像识别的托盘检测方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112476434B (zh) | 一种基于协作机器人的视觉3d取放方法及系统 | |
CN112258618B (zh) | 基于先验激光点云与深度图融合的语义建图与定位方法 | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
CN109410321B (zh) | 基于卷积神经网络的三维重建方法 | |
CN110222626B (zh) | 一种基于深度学习算法的无人驾驶场景点云目标标注方法 | |
US11120280B2 (en) | Geometry-aware instance segmentation in stereo image capture processes | |
CN112836734A (zh) | 一种异源数据融合方法及装置、存储介质 | |
CN112529015A (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN113267761B (zh) | 激光雷达目标检测识别方法、系统及计算机可读存储介质 | |
CN114972968A (zh) | 基于多重神经网络的托盘识别和位姿估计方法 | |
CN115032648B (zh) | 一种基于激光雷达密集点云的三维目标识别与定位方法 | |
Rubio et al. | Efficient monocular pose estimation for complex 3D models | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN113011317A (zh) | 三维目标检测方法及检测装置 | |
Zelener et al. | Cnn-based object segmentation in urban lidar with missing points | |
CN115578460B (zh) | 基于多模态特征提取与稠密预测的机器人抓取方法与系统 | |
CN116863371A (zh) | 一种基于深度学习的agv叉车货物托盘位姿识别方法 | |
CN115861601A (zh) | 一种多传感器融合感知方法及装置 | |
CN110992424A (zh) | 基于双目视觉的定位方法和系统 | |
CN116503803A (zh) | 障碍物检测方法、装置、电子设备以及存储介质 | |
CN116486287A (zh) | 基于环境自适应机器人视觉系统的目标检测方法及系统 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN115546202A (zh) | 一种用于无人叉车的托盘检测与定位方法 | |
CN113553943B (zh) | 目标实时检测方法以及装置、存储介质、电子装置 | |
Zhang et al. | Front vehicle detection based on multi-sensor fusion for autonomous vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |