CN114972968A - 基于多重神经网络的托盘识别和位姿估计方法 - Google Patents
基于多重神经网络的托盘识别和位姿估计方法 Download PDFInfo
- Publication number
- CN114972968A CN114972968A CN202210545026.9A CN202210545026A CN114972968A CN 114972968 A CN114972968 A CN 114972968A CN 202210545026 A CN202210545026 A CN 202210545026A CN 114972968 A CN114972968 A CN 114972968A
- Authority
- CN
- China
- Prior art keywords
- tray
- point cloud
- pose
- estimation
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims description 20
- 230000036544 posture Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 9
- 238000004088 simulation Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 3
- 238000009616 inductively coupled plasma Methods 0.000 claims 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000035945 sensitivity Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
基于多重神经网络的托盘识别和位姿估计方法及系统,涉及多重神经网络应用技术领域,解决现有方法对托盘的位姿估计精度低,同时在分割阶段中存在较多误差量以及鲁棒性差等问题,该方法通过基于图像的托盘分割模块,托盘位置区域点云获取模块,托盘位姿粗估计模块和托盘位姿精估计模块实现,本发明方法能够直接估计托盘位姿六自由度,传递给车辆控制系统,克服了地面等干扰因素的影响,更准确的对托盘进行位姿估计。本发明方法在现有PointNet网络的基础上,增加了点云姿态估计的分支,该姿态分支输出托盘点云的偏航角;加速了精准姿态估计算法收敛,提升了算法速度。本方法取消了局部特征提取网络中的T‑Net模块以加强网络对点云姿态角的敏感性。
Description
技术领域
本发明涉及多重神经网络应用技术领域,具体涉及一种基于多重神经网络的托盘识别和位姿估计方法。
背景技术
托盘位姿估计方法的设计与传感器类型、识别场景特点和托盘特征相关。下面将根据传感器类型对托盘位姿估计方法分类,对比分析基于各类传感器的托盘位姿估计方法的特点和不同算法的应用条件。
近年来学者们使用的传感器主要分为:2D激光雷达、摄像头和多传感器融合。激光雷达通过激光束扫描,获得扫描平面内,各激光束的离散探测数据。激光数据具有稳定、抗干扰能力强等特点。摄像头获得彩色图像信息,图像信息具有较为丰富的纹理和色彩特征。多传感器融合以视觉加深度传感器为主,如视觉加激光、RGB-D传感器。多传感器融合的形式由于融合了多种信息,托盘的位姿估计更加准确,是目前主流的托盘位姿估计方式。
基于上述传感器,目前,国内外也有很多相关的托盘位姿检测解决方案。
专利CN 111445517 A提出一种机器人视觉末端定位方法、装置及计算机可读存储介质。其中机器人视觉末端定位方法,采用了视觉加激光的传感器形式。该方法通过获取托盘区域的点云,提取点云内的感兴趣区域,以及剔除感兴趣区域内的离群点,并滤除地面点;对感兴趣区域进行物体平面分割,将分割后的点云进行点云平面提取,将点云平面转换为图片,进行托盘识别。该方法由于采用了多传感器融合方式,能够一定程度上降低背景光线和摆放位置的影响。但也存在一些问题如,(1)方法内未解释如何获取托盘区域点云,可能引入了人工操作,自动化程度低。(2)使用场景中地面不平的干扰,方法假设托盘所在是个平面,只估计3自由度位姿,姿态估计精度低。
专利CN 112907666 A提出一种基于RGB-D的托盘位姿估计方法、系统及装置。其中托盘姿态估计方法,采用对RGB-D图像像素进行分类,通过压缩及模板匹配计算匹配度;根据匹配度进行兴趣区域提取,并通过提取区域的支架坐标计算得到位姿参数。该方法采用了RGB-D传感器,由于红外结构光的影响,该方法可一定程度克服光照影响。但也存在一些问题如,(1)方法未考虑地面不平的影响,在图像像素分类时如何分类这种像素。(2)方法未考虑托盘上物品包装遮挡托盘,导致像素分类不准确的影响,导致算法鲁棒性低,姿态估计精度可信度低。
现有基于多传感器融合方式的托盘识别和位姿估计方法,如上述2篇现有专利,在获取点云兴趣区域时,未考虑地面不平对点云兴趣区域提取的影响,其假设托盘所在位置是个平面,只估计了三个自由度位姿,位姿估计精度低;同时在点云兴趣区域获取后的平面分割及平面提取阶段引入了较多误差量,以及存在鲁棒性差等问题。
发明内容
本发明为解决现有方法对托盘的位姿估计精度低,同时在分割阶段中存在较多误差量以及鲁棒性差等问题,提供一种基于多重神经网络的托盘识别和位姿估计方法。
基于多重神经网络的托盘识别和位姿估计方法,该方法通过基于图像的托盘分割模块,托盘位置区域点云获取模块,托盘位姿粗估计模块和托盘位姿精估计模块实现,具体过程如下:
步骤一、基于图像的托盘分割;
步骤一一、收集托盘图像,所述图像包括姿态、位置和环境光照;采用人工标注的方法,在图像中找出属于托盘的像素区域,并将该区域生成托盘分割掩图,设定托盘区域像素值为1,其他区域像素值为0;
步骤一二、采用训练后的UNet网络对步骤一一获得的托盘图像进行预测;
采用所述UNet网络对输入图像进行语义分割前,采用最近邻插值的方法将图像尺寸进行缩放,当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸,获得UNet网络输出经预测后的托盘的分割图像。
步骤二、托盘位置区域点云获取;
根据步骤一获得托盘的分割图像,将所述分割图像的托盘区域对应的托盘点云提取出来;
步骤三、将步骤二提取的托盘区域点云送入改进PointNet网络进行推断,获得托盘姿态粗估计;
步骤三一、对改进PointNet网络增加点云姿态估计的分支,该姿态估计的分支用于输出托盘点云的偏航角,即托盘姿态角;
步骤三二、采用分类-残差的方法对预测角度进行编码;
首先将托盘角度取值范围均匀地分成多个区间;然后,通过神经网络预测托盘角度落在每个区间的概率和角度残差;选取概率最高的区间对应的最小角度作为托盘姿态预测初值;将托盘姿态初值与神经网络预测的角度残差相加,获得完整的点云姿态角度;
步骤三三、对所述改进PointNet网络进行训练,然后采用训练后的PointNet网络进行预测,所述PointNet网络以带有环境噪声的点云作为输入,对点云中每个点进行前背景评分,筛选出大于阈值的点,实现托盘姿态粗估计;
步骤四、对托盘位姿精估计;
首先根据托盘实际三维尺寸生成完整的托盘点云作为匹配模板,然后将分割后的场景托盘点云,与所述匹配模板进行配准,获得两个点云坐标系之间的刚体变换矩阵,计算出托盘在场景中的位置和姿态。
优选的,所述步骤二中,托盘点云提取的方法为:遍历点云中每个三维点,将三维点投影到图像上,判断投影点是否在托盘区域,保留投影到托盘区域的三维点,最后得到图像托盘区域对应的点云。
优选的,所述步骤三三中,对改进PointNet网络进行训练的方法为:
步骤A、数据集的建立;
改进PointNet网络需要从带标注的数据集中学习点云分割和姿态角估计,采用人工标注和仿真生成两种方法生成数据集,并使用数据增强方法扩充训练数据;
人工标注数据集的建立方法如下:
首先,将激光雷达安装在AGV上,将托盘摆放在AGV前不同位置上,并不断调整姿态,托盘每进行一次调整就记录一次托盘点云以及托盘的姿态角;托盘角度变化充满整个预测范围,托盘的位置放在激光雷达视角内各个位置;
采用人工标注软件,划出属于托盘的点云,生成点云分割真值,并与托盘姿态角真值结合在一起生成标注文件。
仿真数据集的建立方法如下:
首先,首先根据托盘实际三维尺寸生成完整的托盘点云,并使其姿态标准化;然后,选取托盘前侧点云,随机加入噪声和随机偏航角旋转,生成用于训练的仿真数据。
步骤B、采用Adam优化器对改进PointNet网络进行训练。
本发明的有益效果:本发明所述的基于多重神经网络的托盘识别和位姿估计方法,具备以下优点:
一、本发明方法采用基于多重神经网络的托盘识别和位姿估计方法,方法在三维空间内数据对齐,鲁棒性强;
二、本发明方法能够直接估计托盘位姿六自由度,传递给车辆控制系统,克服了地面等干扰因素的影响,更准确的对托盘进行位姿估计。
三、本发明方法在现有PointNet网络的基础上,增加了点云姿态估计的分支,该姿态分支输出托盘点云的偏航角;加速了精准姿态估计算法收敛,提升了算法速度。
四、本发明方法取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。
附图说明
图1为本发明所述的基于多重神经网络对托盘识别和位姿估计的方法的流程图;
图2为UNet网络架构图;
图3为改进PointNet网络结构流程图;
图4为角度编码示意图;
图5为UNet托盘分割效果图;
图6为托盘图像分割效果对应的托盘区域点云效果图;
图7为托盘图像经过PointNet网络分割和姿态校正的点云效果图;
图8为托盘姿态配准效果图。
具体实施方式
具体实施方式一、结合图1至图8说明本实施方式,基于多重神经网络对托盘识别和位姿估计的方法,本实施方式中,托盘位姿估计方法,指基于托盘探测传感器数据,筛选分离托盘数据,对托盘位置和姿态进行估计。在半结构化环境中托盘识别算法主要解决的问题,因为人工在有限时间内码放托盘存在着不确定性,无法控制码放的位置精度;所以,系统应能在拾取托盘的过程中,对位置和姿态不准确的托盘进行实时识别,持续对托盘的位置和姿态进行精确估计。如果不能解决所述问题,叉车在自动拾取过程中将会与托盘发生碰撞,引发安全事故。
本实施方式的流程图如图1所示;具体过程为:
步骤1:基于图像的托盘分割;
托盘分割采取了语义分割方式(Unet网络)。与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割。
本实施方式中,采用Unet网络,如图2所示,该网络结构主要分为三部分:下采样,上采样以及跳跃连接。
步骤11:首先将该网络分为左右部分来分析,左边是压缩的过程,即编码器(Encoder)。通过卷积和下采样来降低图像尺寸,提取一些浅显的特征。右边部分是解码的过程,即解码器(Decoder)。
通过卷积和上采样来获取一些深层次的特征。其中卷积采用不使用零填充的方式来保证结果是基于没有缺失上下文特征得到的,因此每次经过卷积后,图像的大小会减小。中间通过连接的方式,将编码阶段获得的特征图(feature map)同解码阶段获得的featuremap结合在一起,结合深层次和浅层次的特征,细化图像,根据得到的feature map进行预测分割。要注意的是这里两层的feature map大小不同,因此需要经过切割。最后一层通过1x1的卷积做分类。
步骤12:数据集的建立;
采用AGV(自动导引运输车)叉车上的相机收集图像。托盘的姿态、位置、环境光照、叉车位置应尽可能多变,保证托盘前景图像和背景图像的多样性。之后使用人工标注的方法,在图像中找出属于托盘的像素区域,并将该区域生成托盘分割掩图,托盘区域像素值为1,其他区域像素值为0。托盘数据集规模越大越好,推荐在1000张以上,以保证托盘出现在图像的各个区域,包含托盘的各种姿态,以及实际场景的各种背景。
步骤13:训练方法;
采用Adam作为UNet训练优化器,初始学习率为0.001,每次训练2张图片,总共训练50个epoch。在训练过程中,增加随机噪声,随机裁剪缩放和随机水平翻转三种数据增强样本,提升UNet的稳定性。
步骤14:网络预测;
UNet网络以尺寸为572*572的图像作为输入,输出388*388的语义分割评分图。当网络对输入图像进行语义分割前,采用最近邻插值的方法将图像尺寸进行缩放。当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸。如图5为对原始的输入图像采用UNet网络输出的经过分割后的图像。
步骤2:托盘位置区域点云获取:
当采用步骤1将托盘区域从图像中分割出来后,需要将托盘区域对应的托盘点云提取出来。其方法是遍历点云中每个三维点,将三维点投影到图像上,判断投影点是否在托盘区域,保留投影到托盘区域的三维点,最后得到图像托盘区域对应的点云。
具体流程如下:
步骤21:求取点云数据中每个位置i上的点对应的图像image上的位置(u,v)已知,变换矩阵M;
其中λ表示深度,所述变换矩阵M是相机内参K与激光雷达到相机的外参矩阵Tr的乘积,即M=KTr。
步骤22:判断该投影点是否在分割区域;
将图像的托盘区域用分割掩图Mask来表示,即属于托盘的像素值为1,不属于托盘的像素值为0。分割掩图Mask在图像image位置(u,v)的像素值为:
pix=Mask[u,v]
步骤23:若pix==1,将该三维点pointcloud[i](点云中的第i个点)存入到托盘点云中。
由分割掩图Mask获得的托盘区域点云如图6所示,这些点云不但包含托盘点云,还存在地面和其他环境噪声,为了测量托盘点云的姿态,需要将点云进行分割,获取属于托盘点云。
步骤3:基于改进PointNet的托盘点云分割与姿态估计;
将步骤2所获取的托盘区域点云送入改进PointNet网络进行推断,得到托盘姿态粗估计结果。
步骤31:由于PointNet是以原始点云为输入的神经网络,可用于点云数据的识别,语义分割等。在本实施方式中,改进PointNet,使其能同时进行托盘点云的分割和姿态估计。
网络结构图如3所示,在现有的PointNet的基础上,增加了点云姿态估计的分支,该姿态分支输出托盘点云的偏航角。偏航角是托盘姿态估计的关键角度。这一步估计的托盘姿态角作为下一步精准预测托盘姿态和位置的初值,可起到加速精准姿态估计算法收敛,提升算法速度的作用。取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。图中,n是输入点云中点的数量,k是点云分割的类别,b是角度编码的长度。在该任务中,分割托盘点云,可以将k设为1,并用Sigmoid函数将分割结果转为分割评分。
步骤32:角度编码长度确定;使用分类-残差的方法对预测角度进行编码。其方法如下:
先将预测角度范围均匀地分成N个区域。之后,网络预测姿态角落在每个区域的评分和基于该区域的残差角。选取评分最大的角度区域和该区域对应的残差角度。将区域起点与残差角相加,就得到了预测的点云姿态角度。
如图4所示,网络的姿态角编码长度为b=2N。图中前N个特征值代表依次每个区域的评分即S1…SN,后N个区域代表每个区域的残差,即图中的R1…RN。
步骤33:训练方法包括数据集的建立、训练策略和网络预测;
所述数据集的建立过程为:
改进PointNet算法需要从带标注的数据集中学习点云分割和姿态角估计任务。为了让算法具备鲁棒性,需要大量的标注点云,我们使用人工标注和仿真生成两种方法生成数据集,并使用数据增强方法扩充训练数据。
人工标注数据集的建立方法如下:
首先,将激光雷达安装在AGV上,将托盘摆放在AGV前不同位置上,并不断调整姿态,托盘每进行一次调整就记录一次托盘点云以及托盘的姿态角。托盘角度变化尽可能充满整个预测范围,托盘的位置尽可能放在激光雷达视角内各个位置。
使用人工标注软件,划出属于托盘的点云,生成点云分割真值,并与托盘姿态角真值结合在一起生成标注文件。
仿真数据集的建立方法如下:
首先,用三维扫描设备,例如激光雷达,对托盘进行扫描,获取托盘的完整点云,并使其姿态标准化。之后,选取托盘前侧点云,随机加入噪声和随机偏航角旋转,可直接生成用于训练的仿真数据。
所述训练策略为:
优化器设置:使用Adam优化器,初始学习率10-4,训练200个epoch,每次训练32个批次的数据。
数据增强设置:随机平移位移:N[0,0.25],随机旋转角度:U[-π/20,π/20]。随机点云噪声:每次引入托盘点云总量的10%的点云噪声。
所述网络预测如图6和图7所示,PointNet以带有环境噪声的点云作为输入,对点云中每个点进行前背景评分,筛选出大于阈值的点,如图7所示,PointNet另外一个分支输出托盘点云的方向角为19.5°。
步骤4:托盘姿态精估计;
通过将分割后的场景托盘点云,与完整的托盘模板点云进行配准,获得两个点云坐标系之间的刚体变换矩阵,从而计算出托盘在场景中的位置和姿态。
具体步骤如下:
步骤41:输入场景托盘点云P和模板点云Q,分别进行降采样;
步骤42:对Q中每个点进行遍历,寻找P中欧氏距离最近的点,作为对应点组成点集P’;
步骤43:求解如下非线性最小二乘问题:
其中N为Q中点的数量,qi,pi分别为Q,P’中第i个点,Tj表示第j次迭代的刚体变换矩阵。
步骤44:判断是否满足收敛条件,满足进行步骤46,不满足进行步骤45;
其中收敛条件为:
a.e(P′,Q)<∈
b.迭代次数k>kmax;
∈和kmax为预先定义的阈值和最大值。
步骤45:根据将变换到新的位置,然后重复步骤42;
步骤46:根据下式输出托盘姿态Tout:
其中M为最终迭代次数。
将求得的变换矩阵Tout与步骤3中所获得的姿态初值相乘,获得最终的托盘位姿结果。
具体实施方式二、本实施方式为具体实施方式一所述的基于多重神经网络的托盘识别和位姿估计方法的估计系统,包括基于图像的托盘分割模块、托盘位置区域点云获取模块、托盘位姿粗估计模块和托盘位姿精估计模块。
所述基于图像的托盘分割模块实现图像的托盘分割,获得托盘位置区域。
托盘分割部分采取了语义分割方式(Unet网络)。与分类任务不同,语义分割需要判断图像每个像素点的类别,进行精确分割,分割结果如图5所示。
所述托盘位置区域点云获取模块根据所述基于图像的托盘分割模块分割所得的托盘位置区域,采用相机与雷达的外参矩阵,变换得到托盘位置区域点云,点云区域图像如图6图所示。
所述托盘位姿粗估计模块采用改进PointNet对所述托盘位置区域点云获取模块中获取的托盘区域点云进行托盘姿态粗估计,生成姿态粗估计结果,经过姿态校正点云分割图像如图7所示。
在原版PointNet的基础上,增加了点云姿态估计的分支,该姿态分支输出托盘点云的偏航角;加速了精准姿态估计算法收敛,提升了算法速度。
取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。
使用分类-残差的方法对预测角度进行编码。
所述托盘位姿精估计模块将所述托盘位姿粗估计模块中所得的粗估计结果,作为ICP算法初值,进行托盘位姿精确估计,得到托盘位姿六自由度结果,传递给车辆控制系统。托盘姿态配准示意图如图7所示。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.基于多重神经网络的托盘识别和位姿估计方法,其特征是:该方法由以下步骤实现:
步骤一、基于图像的托盘分割;
步骤一一、收集托盘图像,所述图像包括姿态、位置和环境光照;采用人工标注的方法,在图像中找出属于托盘的像素区域,并将该区域生成托盘分割掩图,设定托盘区域像素值为1,其他区域像素值为0;
步骤一二、采用训练后的UNet网络对步骤一一获得的托盘图像进行预测;
采用所述UNet网络对输入图像进行语义分割前,采用最近邻插值的方法将图像尺寸进行缩放,当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸,获得UNet网络输出经预测后的托盘的分割图像;
步骤二、托盘位置区域点云获取;
根据步骤一获得托盘的分割图像,将所述分割图像的托盘区域对应的托盘点云提取出来;
步骤三、将步骤二提取的托盘区域点云送入改进PointNet网络进行推断,获得托盘姿态粗估计;
步骤三一、对改进PointNet网络增加点云姿态估计的分支,该姿态估计的分支用于输出托盘点云的偏航角,即托盘姿态角;
步骤三二、采用分类-残差的方法对预测角度进行编码,获得点云姿态角度;
首先将托盘角度取值范围均匀地分成多个区间;然后,通过神经网络预测托盘角度落在每个区间的概率和角度残差;选取概率最高的区间对应的最小角度作为托盘姿态预测初值;将托盘姿态初值与神经网络预测的角度残差相加,获得完整的点云姿态角度;
步骤三三、对所述改进PointNet网络进行训练,然后采用训练后的PointNet网络进行预测,所述PointNet网络以带有环境噪声的点云作为输入,对点云中每个点进行前背景评分,筛选出大于阈值的点,实现托盘姿态粗估计;
步骤四、对托盘位姿精估计;
首先根据托盘实际三维尺寸生成完整的托盘点云作为匹配模板,然后将分割后的场景托盘点云,与所述匹配模板进行配准,获得两个点云坐标系之间的刚体变换矩阵,计算出托盘在场景中的位置和姿态。
2.根据权利要求1所述的基于多重神经网络的托盘识别和位姿估计方法,其特征在于:
所述步骤二中,托盘点云提取的方法为:遍历点云中每个三维点,将三维点投影到图像上,判断投影点是否在托盘区域,保留投影到托盘区域的三维点,最后得到图像托盘区域对应的点云。
3.根据权利要求1所述的基于多重神经网络的托盘识别和位姿估计方法,其特征在于:
所述步骤三三中,对改进PointNet网络进行训练的方法为:
步骤A、数据集的建立;
改进PointNet网络需要从带标注的数据集中学习点云分割和姿态角估计,采用人工标注和仿真生成两种方法生成数据集,并使用数据增强方法扩充训练数据;
步骤B、采用Adam优化器对改进PointNet网络进行训练。
4.根据权利要求3所述的基于多重神经网络的托盘识别和位姿估计方法,其特征在于:
采用人工标注的方法建立的数据集的过程为:
首先,将激光雷达安装在AGV上,将托盘摆放在AGV前不同位置上,并不断调整姿态,托盘每进行一次调整就记录一次托盘点云以及托盘的姿态角;托盘角度变化充满整个预测范围,托盘的位置放在激光雷达视角内各个位置;
采用人工标注软件,划出属于托盘的点云,生成点云分割真值,并与托盘姿态角真值结合在一起生成标注文件。
采用仿真方法建立的数据集的过程为:
首先,根据托盘实际三维尺寸生成完整的托盘点云数据,并将点云数据姿态标准化;
然后,选取托盘前侧点云数据,随机加入噪声和随机偏航角旋转,生成用于训练的仿真数据。
5.基于多重神经网络的托盘识别和位姿估计系统,其特征是:该系统用于实现权利要求1-4任意一项所述的基于多重神经网络的托盘识别和位姿估计方法;该系统包括图像的托盘分割模块,托盘位置区域点云获取模块,托盘位姿粗估计模块和托盘位姿精估计模块;
所述图像的托盘分割模块用于获取托盘位置区域;
所述托盘位置区域点云获取模块根据所述图像的托盘分割模块分割获得的托盘位置区域,采用相机与雷达的外参矩阵,变换获得托盘位置区域点云;
所述托盘位姿粗估计模块采用改进PointNet对所述托盘位置区域点云获取模块中获取的托盘区域点云进行托盘姿态粗估计,生成姿态粗估计结果;
所述托盘位姿精估计模块用于将所述托盘位姿粗估计模块中所得的粗估计结果,作为ICP算法初值,进行托盘位姿精确估计,得到托盘位姿六自由度结果,传递给车辆控制系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210545026.9A CN114972968A (zh) | 2022-05-19 | 2022-05-19 | 基于多重神经网络的托盘识别和位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210545026.9A CN114972968A (zh) | 2022-05-19 | 2022-05-19 | 基于多重神经网络的托盘识别和位姿估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972968A true CN114972968A (zh) | 2022-08-30 |
Family
ID=82984479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210545026.9A Pending CN114972968A (zh) | 2022-05-19 | 2022-05-19 | 基于多重神经网络的托盘识别和位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972968A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147491A (zh) * | 2022-09-02 | 2022-10-04 | 山东西曼克技术有限公司 | 用于agv小车的搬运目标位姿信息估计方法 |
CN115546202A (zh) * | 2022-11-23 | 2022-12-30 | 青岛中德智能技术研究院 | 一种用于无人叉车的托盘检测与定位方法 |
CN115965855A (zh) * | 2023-02-14 | 2023-04-14 | 成都睿芯行科技有限公司 | 一种提高托盘识别精度的方法及装置 |
CN116310622A (zh) * | 2022-12-15 | 2023-06-23 | 珠海创智科技有限公司 | 一种基于深度学习对托盘进行准确识别的方法及系统 |
CN117409077A (zh) * | 2023-10-18 | 2024-01-16 | 无锡九霄科技有限公司 | 基于多尺度残差UNet分割的芯片姿态检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110948492A (zh) * | 2019-12-23 | 2020-04-03 | 浙江大学 | 一种基于深度学习的三维抓取平台和抓取方法 |
CN111145253A (zh) * | 2019-12-12 | 2020-05-12 | 深圳先进技术研究院 | 一种高效的物体6d姿态估计算法 |
CN111915746A (zh) * | 2020-07-16 | 2020-11-10 | 北京理工大学 | 一种基于弱标注的三维点云目标检测方法及标注工具 |
CN112396655A (zh) * | 2020-11-18 | 2021-02-23 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
US20210078843A1 (en) * | 2019-09-13 | 2021-03-18 | Kabushiki Kaisha Toyota Jidoshokki | Position and posture estimation system |
CN112907667A (zh) * | 2021-02-23 | 2021-06-04 | 广东省农业科学院设施农业研究所 | 一种视觉激光融合的托盘位姿估计方法、系统及装置 |
CN113487587A (zh) * | 2021-07-21 | 2021-10-08 | 华中科技大学 | CT图像分割与骨密度t值预测方法、系统、计算机设备 |
CN113895439A (zh) * | 2021-11-02 | 2022-01-07 | 东南大学 | 一种基于车载多源传感器概率融合的自动驾驶变道行为决策方法 |
CN113920108A (zh) * | 2021-10-29 | 2022-01-11 | 北京航空航天大学 | 一种对用于处理细胞图像的U-Net模型进行训练的训练方法 |
CN114022408A (zh) * | 2021-09-22 | 2022-02-08 | 中国空间技术研究院 | 基于多尺度卷积神经网络的遥感图像云检测方法 |
CN114155524A (zh) * | 2021-10-29 | 2022-03-08 | 中国科学院信息工程研究所 | 单阶段3d点云目标检测方法及装置、计算机设备、介质 |
-
2022
- 2022-05-19 CN CN202210545026.9A patent/CN114972968A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210078843A1 (en) * | 2019-09-13 | 2021-03-18 | Kabushiki Kaisha Toyota Jidoshokki | Position and posture estimation system |
CN111145253A (zh) * | 2019-12-12 | 2020-05-12 | 深圳先进技术研究院 | 一种高效的物体6d姿态估计算法 |
CN110948492A (zh) * | 2019-12-23 | 2020-04-03 | 浙江大学 | 一种基于深度学习的三维抓取平台和抓取方法 |
CN111915746A (zh) * | 2020-07-16 | 2020-11-10 | 北京理工大学 | 一种基于弱标注的三维点云目标检测方法及标注工具 |
CN112396655A (zh) * | 2020-11-18 | 2021-02-23 | 哈尔滨工程大学 | 一种基于点云数据的船舶目标6d位姿估计方法 |
CN112907667A (zh) * | 2021-02-23 | 2021-06-04 | 广东省农业科学院设施农业研究所 | 一种视觉激光融合的托盘位姿估计方法、系统及装置 |
CN113487587A (zh) * | 2021-07-21 | 2021-10-08 | 华中科技大学 | CT图像分割与骨密度t值预测方法、系统、计算机设备 |
CN114022408A (zh) * | 2021-09-22 | 2022-02-08 | 中国空间技术研究院 | 基于多尺度卷积神经网络的遥感图像云检测方法 |
CN113920108A (zh) * | 2021-10-29 | 2022-01-11 | 北京航空航天大学 | 一种对用于处理细胞图像的U-Net模型进行训练的训练方法 |
CN114155524A (zh) * | 2021-10-29 | 2022-03-08 | 中国科学院信息工程研究所 | 单阶段3d点云目标检测方法及装置、计算机设备、介质 |
CN113895439A (zh) * | 2021-11-02 | 2022-01-07 | 东南大学 | 一种基于车载多源传感器概率融合的自动驾驶变道行为决策方法 |
Non-Patent Citations (2)
Title |
---|
梁晋等: "《3D反求技术》", 31 January 2019, 华中科技大学出版社, pages: 179 - 180 * |
钟跃崎: "《人工智能技术原理与应用》", 30 September 2020, 东华大学出版社, pages: 252 - 253 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147491A (zh) * | 2022-09-02 | 2022-10-04 | 山东西曼克技术有限公司 | 用于agv小车的搬运目标位姿信息估计方法 |
CN115546202A (zh) * | 2022-11-23 | 2022-12-30 | 青岛中德智能技术研究院 | 一种用于无人叉车的托盘检测与定位方法 |
CN115546202B (zh) * | 2022-11-23 | 2023-03-03 | 青岛中德智能技术研究院 | 一种用于无人叉车的托盘检测与定位方法 |
CN116310622A (zh) * | 2022-12-15 | 2023-06-23 | 珠海创智科技有限公司 | 一种基于深度学习对托盘进行准确识别的方法及系统 |
CN115965855A (zh) * | 2023-02-14 | 2023-04-14 | 成都睿芯行科技有限公司 | 一种提高托盘识别精度的方法及装置 |
CN117409077A (zh) * | 2023-10-18 | 2024-01-16 | 无锡九霄科技有限公司 | 基于多尺度残差UNet分割的芯片姿态检测方法 |
CN117409077B (zh) * | 2023-10-18 | 2024-04-05 | 无锡九霄科技有限公司 | 基于多尺度残差UNet分割的芯片姿态检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN111553859B (zh) | 一种激光雷达点云反射强度补全方法及系统 | |
CN109829398B (zh) | 一种基于三维卷积网络的视频中的目标检测方法 | |
CN110163904B (zh) | 对象标注方法、移动控制方法、装置、设备及存储介质 | |
CN108932736B (zh) | 二维激光雷达点云数据处理方法以及动态机器人位姿校准方法 | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
CN114972968A (zh) | 基于多重神经网络的托盘识别和位姿估计方法 | |
WO2022188663A1 (zh) | 一种目标检测方法及装置 | |
CN114677554A (zh) | 一种基于YOLOv5与Deepsort的统计滤波红外小目标检测跟踪方法 | |
CN116229408A (zh) | 一种图像信息与激光雷达点云信息融合的目标识别方法 | |
CN110197106A (zh) | 物件标示系统及方法 | |
CN111738071B (zh) | 一种基于单目摄像机的运动变化的逆透视变换方法 | |
CN114693661A (zh) | 一种基于深度学习的快速分拣方法 | |
CN110992424B (zh) | 基于双目视觉的定位方法和系统 | |
Lin et al. | CNN-based classification for point cloud object with bearing angle image | |
CN114399675A (zh) | 一种基于机器视觉与激光雷达融合的目标检测方法和装置 | |
CN116309817A (zh) | 一种基于rgb-d相机的托盘检测与定位方法 | |
CN116863371A (zh) | 一种基于深度学习的agv叉车货物托盘位姿识别方法 | |
CN117576665B (zh) | 一种面向自动驾驶的单摄像头三维目标检测方法及系统 | |
CN114608522A (zh) | 一种基于视觉的障碍物识别与测距方法 | |
CN116091706B (zh) | 多模态遥感影像深度学习匹配的三维重建方法 | |
CN112233079A (zh) | 多传感器图像融合的方法及系统 | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
Wang et al. | Holistic Parking Slot Detection with Polygon-Shaped Representations | |
CN114494849B (zh) | 用于轮式机器人的路面状态识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |