CN114972968A

CN114972968A - 基于多重神经网络的托盘识别和位姿估计方法

Info

Publication number: CN114972968A
Application number: CN202210545026.9A
Authority: CN
Inventors: 曹文强; 杨岳航; 李研冰; 凌剑勇; 姚凯男; 叶超; 王博; 李正然
Original assignee: Changchun Dazhong Logistics Assembly Co ltd
Current assignee: Changchun Dazhong Logistics Assembly Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-30

Abstract

基于多重神经网络的托盘识别和位姿估计方法及系统，涉及多重神经网络应用技术领域，解决现有方法对托盘的位姿估计精度低，同时在分割阶段中存在较多误差量以及鲁棒性差等问题，该方法通过基于图像的托盘分割模块，托盘位置区域点云获取模块，托盘位姿粗估计模块和托盘位姿精估计模块实现，本发明方法能够直接估计托盘位姿六自由度，传递给车辆控制系统，克服了地面等干扰因素的影响，更准确的对托盘进行位姿估计。本发明方法在现有PointNet网络的基础上，增加了点云姿态估计的分支，该姿态分支输出托盘点云的偏航角；加速了精准姿态估计算法收敛，提升了算法速度。本方法取消了局部特征提取网络中的T‑Net模块以加强网络对点云姿态角的敏感性。

Description

基于多重神经网络的托盘识别和位姿估计方法

技术领域

本发明涉及多重神经网络应用技术领域，具体涉及一种基于多重神经网络的托盘识别和位姿估计方法。

背景技术

托盘位姿估计方法的设计与传感器类型、识别场景特点和托盘特征相关。下面将根据传感器类型对托盘位姿估计方法分类，对比分析基于各类传感器的托盘位姿估计方法的特点和不同算法的应用条件。

近年来学者们使用的传感器主要分为：2D激光雷达、摄像头和多传感器融合。激光雷达通过激光束扫描，获得扫描平面内，各激光束的离散探测数据。激光数据具有稳定、抗干扰能力强等特点。摄像头获得彩色图像信息，图像信息具有较为丰富的纹理和色彩特征。多传感器融合以视觉加深度传感器为主，如视觉加激光、RGB-D传感器。多传感器融合的形式由于融合了多种信息，托盘的位姿估计更加准确，是目前主流的托盘位姿估计方式。

基于上述传感器，目前，国内外也有很多相关的托盘位姿检测解决方案。

专利CN 111445517 A提出一种机器人视觉末端定位方法、装置及计算机可读存储介质。其中机器人视觉末端定位方法，采用了视觉加激光的传感器形式。该方法通过获取托盘区域的点云，提取点云内的感兴趣区域，以及剔除感兴趣区域内的离群点，并滤除地面点；对感兴趣区域进行物体平面分割，将分割后的点云进行点云平面提取，将点云平面转换为图片，进行托盘识别。该方法由于采用了多传感器融合方式，能够一定程度上降低背景光线和摆放位置的影响。但也存在一些问题如，(1)方法内未解释如何获取托盘区域点云，可能引入了人工操作，自动化程度低。(2)使用场景中地面不平的干扰，方法假设托盘所在是个平面，只估计3自由度位姿，姿态估计精度低。

专利CN 112907666 A提出一种基于RGB-D的托盘位姿估计方法、系统及装置。其中托盘姿态估计方法，采用对RGB-D图像像素进行分类，通过压缩及模板匹配计算匹配度；根据匹配度进行兴趣区域提取，并通过提取区域的支架坐标计算得到位姿参数。该方法采用了RGB-D传感器，由于红外结构光的影响，该方法可一定程度克服光照影响。但也存在一些问题如，(1)方法未考虑地面不平的影响，在图像像素分类时如何分类这种像素。(2)方法未考虑托盘上物品包装遮挡托盘，导致像素分类不准确的影响，导致算法鲁棒性低，姿态估计精度可信度低。

现有基于多传感器融合方式的托盘识别和位姿估计方法，如上述2篇现有专利，在获取点云兴趣区域时，未考虑地面不平对点云兴趣区域提取的影响，其假设托盘所在位置是个平面，只估计了三个自由度位姿，位姿估计精度低；同时在点云兴趣区域获取后的平面分割及平面提取阶段引入了较多误差量，以及存在鲁棒性差等问题。

发明内容

本发明为解决现有方法对托盘的位姿估计精度低，同时在分割阶段中存在较多误差量以及鲁棒性差等问题，提供一种基于多重神经网络的托盘识别和位姿估计方法。

基于多重神经网络的托盘识别和位姿估计方法，该方法通过基于图像的托盘分割模块，托盘位置区域点云获取模块，托盘位姿粗估计模块和托盘位姿精估计模块实现，具体过程如下：

步骤一、基于图像的托盘分割；

步骤一一、收集托盘图像，所述图像包括姿态、位置和环境光照；采用人工标注的方法，在图像中找出属于托盘的像素区域，并将该区域生成托盘分割掩图，设定托盘区域像素值为1，其他区域像素值为0；

步骤一二、采用训练后的UNet网络对步骤一一获得的托盘图像进行预测；

采用所述UNet网络对输入图像进行语义分割前，采用最近邻插值的方法将图像尺寸进行缩放，当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸，获得UNet网络输出经预测后的托盘的分割图像。

步骤二、托盘位置区域点云获取；

根据步骤一获得托盘的分割图像，将所述分割图像的托盘区域对应的托盘点云提取出来；

步骤三、将步骤二提取的托盘区域点云送入改进PointNet网络进行推断，获得托盘姿态粗估计；

步骤三一、对改进PointNet网络增加点云姿态估计的分支，该姿态估计的分支用于输出托盘点云的偏航角，即托盘姿态角；

步骤三二、采用分类-残差的方法对预测角度进行编码；

首先将托盘角度取值范围均匀地分成多个区间；然后，通过神经网络预测托盘角度落在每个区间的概率和角度残差；选取概率最高的区间对应的最小角度作为托盘姿态预测初值；将托盘姿态初值与神经网络预测的角度残差相加，获得完整的点云姿态角度；

步骤三三、对所述改进PointNet网络进行训练，然后采用训练后的PointNet网络进行预测，所述PointNet网络以带有环境噪声的点云作为输入，对点云中每个点进行前背景评分，筛选出大于阈值的点，实现托盘姿态粗估计；

步骤四、对托盘位姿精估计；

首先根据托盘实际三维尺寸生成完整的托盘点云作为匹配模板，然后将分割后的场景托盘点云，与所述匹配模板进行配准，获得两个点云坐标系之间的刚体变换矩阵，计算出托盘在场景中的位置和姿态。

优选的，所述步骤二中，托盘点云提取的方法为：遍历点云中每个三维点，将三维点投影到图像上，判断投影点是否在托盘区域，保留投影到托盘区域的三维点，最后得到图像托盘区域对应的点云。

优选的，所述步骤三三中，对改进PointNet网络进行训练的方法为：

步骤A、数据集的建立；

改进PointNet网络需要从带标注的数据集中学习点云分割和姿态角估计，采用人工标注和仿真生成两种方法生成数据集，并使用数据增强方法扩充训练数据；

人工标注数据集的建立方法如下：

首先，将激光雷达安装在AGV上，将托盘摆放在AGV前不同位置上，并不断调整姿态，托盘每进行一次调整就记录一次托盘点云以及托盘的姿态角；托盘角度变化充满整个预测范围，托盘的位置放在激光雷达视角内各个位置；

采用人工标注软件，划出属于托盘的点云，生成点云分割真值，并与托盘姿态角真值结合在一起生成标注文件。

仿真数据集的建立方法如下：

首先，首先根据托盘实际三维尺寸生成完整的托盘点云，并使其姿态标准化；然后，选取托盘前侧点云，随机加入噪声和随机偏航角旋转，生成用于训练的仿真数据。

步骤B、采用Adam优化器对改进PointNet网络进行训练。

本发明的有益效果：本发明所述的基于多重神经网络的托盘识别和位姿估计方法，具备以下优点：

一、本发明方法采用基于多重神经网络的托盘识别和位姿估计方法，方法在三维空间内数据对齐，鲁棒性强；

二、本发明方法能够直接估计托盘位姿六自由度，传递给车辆控制系统，克服了地面等干扰因素的影响，更准确的对托盘进行位姿估计。

三、本发明方法在现有PointNet网络的基础上，增加了点云姿态估计的分支，该姿态分支输出托盘点云的偏航角；加速了精准姿态估计算法收敛，提升了算法速度。

四、本发明方法取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。

附图说明

图1为本发明所述的基于多重神经网络对托盘识别和位姿估计的方法的流程图；

图2为UNet网络架构图；

图3为改进PointNet网络结构流程图；

图4为角度编码示意图；

图5为UNet托盘分割效果图；

图6为托盘图像分割效果对应的托盘区域点云效果图；

图7为托盘图像经过PointNet网络分割和姿态校正的点云效果图；

图8为托盘姿态配准效果图。

具体实施方式

具体实施方式一、结合图1至图8说明本实施方式，基于多重神经网络对托盘识别和位姿估计的方法，本实施方式中，托盘位姿估计方法，指基于托盘探测传感器数据，筛选分离托盘数据，对托盘位置和姿态进行估计。在半结构化环境中托盘识别算法主要解决的问题，因为人工在有限时间内码放托盘存在着不确定性，无法控制码放的位置精度；所以，系统应能在拾取托盘的过程中，对位置和姿态不准确的托盘进行实时识别，持续对托盘的位置和姿态进行精确估计。如果不能解决所述问题，叉车在自动拾取过程中将会与托盘发生碰撞，引发安全事故。

本实施方式的流程图如图1所示；具体过程为：

步骤1：基于图像的托盘分割；

托盘分割采取了语义分割方式(Unet网络)。与分类任务不同，语义分割需要判断图像每个像素点的类别，进行精确分割。

本实施方式中，采用Unet网络，如图2所示，该网络结构主要分为三部分：下采样，上采样以及跳跃连接。

步骤11：首先将该网络分为左右部分来分析，左边是压缩的过程，即编码器(Encoder)。通过卷积和下采样来降低图像尺寸，提取一些浅显的特征。右边部分是解码的过程，即解码器(Decoder)。

通过卷积和上采样来获取一些深层次的特征。其中卷积采用不使用零填充的方式来保证结果是基于没有缺失上下文特征得到的，因此每次经过卷积后，图像的大小会减小。中间通过连接的方式，将编码阶段获得的特征图(feature map)同解码阶段获得的featuremap结合在一起，结合深层次和浅层次的特征，细化图像，根据得到的feature map进行预测分割。要注意的是这里两层的feature map大小不同，因此需要经过切割。最后一层通过1x1的卷积做分类。

步骤12：数据集的建立；

采用AGV(自动导引运输车)叉车上的相机收集图像。托盘的姿态、位置、环境光照、叉车位置应尽可能多变，保证托盘前景图像和背景图像的多样性。之后使用人工标注的方法，在图像中找出属于托盘的像素区域，并将该区域生成托盘分割掩图，托盘区域像素值为1，其他区域像素值为0。托盘数据集规模越大越好，推荐在1000张以上，以保证托盘出现在图像的各个区域，包含托盘的各种姿态，以及实际场景的各种背景。

步骤13：训练方法；

采用Adam作为UNet训练优化器，初始学习率为0.001，每次训练2张图片，总共训练50个epoch。在训练过程中，增加随机噪声，随机裁剪缩放和随机水平翻转三种数据增强样本，提升UNet的稳定性。

步骤14：网络预测；

UNet网络以尺寸为572*572的图像作为输入，输出388*388的语义分割评分图。当网络对输入图像进行语义分割前，采用最近邻插值的方法将图像尺寸进行缩放。当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸。如图5为对原始的输入图像采用UNet网络输出的经过分割后的图像。

步骤2：托盘位置区域点云获取：

当采用步骤1将托盘区域从图像中分割出来后，需要将托盘区域对应的托盘点云提取出来。其方法是遍历点云中每个三维点，将三维点投影到图像上，判断投影点是否在托盘区域，保留投影到托盘区域的三维点，最后得到图像托盘区域对应的点云。

具体流程如下：

步骤21：求取点云数据中每个位置i上的点对应的图像image上的位置(u,v)已知，变换矩阵M；

其中λ表示深度，所述变换矩阵M是相机内参K与激光雷达到相机的外参矩阵Tr的乘积，即M＝KTr。

步骤22：判断该投影点是否在分割区域；

将图像的托盘区域用分割掩图Mask来表示，即属于托盘的像素值为1，不属于托盘的像素值为0。分割掩图Mask在图像image位置(u,v)的像素值为：

pix＝Mask[u,v]

步骤23：若pix＝＝1，将该三维点pointcloud[i](点云中的第i个点)存入到托盘点云中。

由分割掩图Mask获得的托盘区域点云如图6所示，这些点云不但包含托盘点云，还存在地面和其他环境噪声，为了测量托盘点云的姿态，需要将点云进行分割，获取属于托盘点云。

步骤3：基于改进PointNet的托盘点云分割与姿态估计；

将步骤2所获取的托盘区域点云送入改进PointNet网络进行推断，得到托盘姿态粗估计结果。

步骤31：由于PointNet是以原始点云为输入的神经网络，可用于点云数据的识别，语义分割等。在本实施方式中，改进PointNet，使其能同时进行托盘点云的分割和姿态估计。

网络结构图如3所示，在现有的PointNet的基础上，增加了点云姿态估计的分支，该姿态分支输出托盘点云的偏航角。偏航角是托盘姿态估计的关键角度。这一步估计的托盘姿态角作为下一步精准预测托盘姿态和位置的初值，可起到加速精准姿态估计算法收敛，提升算法速度的作用。取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。图中，n是输入点云中点的数量，k是点云分割的类别，b是角度编码的长度。在该任务中，分割托盘点云，可以将k设为1，并用Sigmoid函数将分割结果转为分割评分。

步骤32：角度编码长度确定；使用分类-残差的方法对预测角度进行编码。其方法如下：

先将预测角度范围均匀地分成N个区域。之后，网络预测姿态角落在每个区域的评分和基于该区域的残差角。选取评分最大的角度区域和该区域对应的残差角度。将区域起点与残差角相加，就得到了预测的点云姿态角度。

如图4所示，网络的姿态角编码长度为b＝2N。图中前N个特征值代表依次每个区域的评分即S1…SN，后N个区域代表每个区域的残差，即图中的R1…RN。

步骤33：训练方法包括数据集的建立、训练策略和网络预测；

所述数据集的建立过程为：

改进PointNet算法需要从带标注的数据集中学习点云分割和姿态角估计任务。为了让算法具备鲁棒性，需要大量的标注点云，我们使用人工标注和仿真生成两种方法生成数据集，并使用数据增强方法扩充训练数据。

人工标注数据集的建立方法如下：

首先，将激光雷达安装在AGV上，将托盘摆放在AGV前不同位置上，并不断调整姿态，托盘每进行一次调整就记录一次托盘点云以及托盘的姿态角。托盘角度变化尽可能充满整个预测范围，托盘的位置尽可能放在激光雷达视角内各个位置。

使用人工标注软件，划出属于托盘的点云，生成点云分割真值，并与托盘姿态角真值结合在一起生成标注文件。

仿真数据集的建立方法如下：

首先，用三维扫描设备，例如激光雷达，对托盘进行扫描，获取托盘的完整点云，并使其姿态标准化。之后，选取托盘前侧点云，随机加入噪声和随机偏航角旋转，可直接生成用于训练的仿真数据。

所述训练策略为：

优化器设置：使用Adam优化器，初始学习率10^-4，训练200个epoch，每次训练32个批次的数据。

数据增强设置：随机平移位移：N[0,0.25]，随机旋转角度：U[-π/20,π/20]。随机点云噪声：每次引入托盘点云总量的10％的点云噪声。

所述网络预测如图6和图7所示，PointNet以带有环境噪声的点云作为输入，对点云中每个点进行前背景评分，筛选出大于阈值的点，如图7所示，PointNet另外一个分支输出托盘点云的方向角为19.5°。

步骤4：托盘姿态精估计；

通过将分割后的场景托盘点云，与完整的托盘模板点云进行配准，获得两个点云坐标系之间的刚体变换矩阵，从而计算出托盘在场景中的位置和姿态。

具体步骤如下：

步骤41：输入场景托盘点云P和模板点云Q，分别进行降采样；

步骤42：对Q中每个点进行遍历，寻找P中欧氏距离最近的点，作为对应点组成点集P’；

步骤43：求解如下非线性最小二乘问题：

其中N为Q中点的数量，qi，pi分别为Q,P’中第i个点，T_j表示第j次迭代的刚体变换矩阵。

步骤44：判断是否满足收敛条件，满足进行步骤46，不满足进行步骤45；

其中收敛条件为：

a.e(P′，Q)＜∈

b.迭代次数k>k_max；

∈和k_max为预先定义的阈值和最大值。

步骤45：根据将变换到新的位置，然后重复步骤42；

步骤46：根据下式输出托盘姿态T_out：

其中M为最终迭代次数。

将求得的变换矩阵T_out与步骤3中所获得的姿态初值相乘，获得最终的托盘位姿结果。

具体实施方式二、本实施方式为具体实施方式一所述的基于多重神经网络的托盘识别和位姿估计方法的估计系统，包括基于图像的托盘分割模块、托盘位置区域点云获取模块、托盘位姿粗估计模块和托盘位姿精估计模块。

所述基于图像的托盘分割模块实现图像的托盘分割，获得托盘位置区域。

托盘分割部分采取了语义分割方式(Unet网络)。与分类任务不同，语义分割需要判断图像每个像素点的类别，进行精确分割，分割结果如图5所示。

所述托盘位置区域点云获取模块根据所述基于图像的托盘分割模块分割所得的托盘位置区域，采用相机与雷达的外参矩阵，变换得到托盘位置区域点云，点云区域图像如图6图所示。

所述托盘位姿粗估计模块采用改进PointNet对所述托盘位置区域点云获取模块中获取的托盘区域点云进行托盘姿态粗估计，生成姿态粗估计结果，经过姿态校正点云分割图像如图7所示。

在原版PointNet的基础上，增加了点云姿态估计的分支，该姿态分支输出托盘点云的偏航角；加速了精准姿态估计算法收敛，提升了算法速度。

取消了局部特征提取网络中的T-Net模块以加强网络对点云姿态角的敏感性。

使用分类-残差的方法对预测角度进行编码。

所述托盘位姿精估计模块将所述托盘位姿粗估计模块中所得的粗估计结果，作为ICP算法初值，进行托盘位姿精确估计，得到托盘位姿六自由度结果，传递给车辆控制系统。托盘姿态配准示意图如图7所示。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.基于多重神经网络的托盘识别和位姿估计方法，其特征是：该方法由以下步骤实现：

步骤一、基于图像的托盘分割；

采用所述UNet网络对输入图像进行语义分割前，采用最近邻插值的方法将图像尺寸进行缩放，当得到预测结果后将分割结果以最近邻插值的方法放大到图像原始输入尺寸，获得UNet网络输出经预测后的托盘的分割图像；

步骤二、托盘位置区域点云获取；

步骤三二、采用分类-残差的方法对预测角度进行编码，获得点云姿态角度；

步骤四、对托盘位姿精估计；

2.根据权利要求1所述的基于多重神经网络的托盘识别和位姿估计方法，其特征在于：

所述步骤二中，托盘点云提取的方法为：遍历点云中每个三维点，将三维点投影到图像上，判断投影点是否在托盘区域，保留投影到托盘区域的三维点，最后得到图像托盘区域对应的点云。

3.根据权利要求1所述的基于多重神经网络的托盘识别和位姿估计方法，其特征在于：

所述步骤三三中，对改进PointNet网络进行训练的方法为：

步骤A、数据集的建立；

步骤B、采用Adam优化器对改进PointNet网络进行训练。

4.根据权利要求3所述的基于多重神经网络的托盘识别和位姿估计方法，其特征在于：

采用人工标注的方法建立的数据集的过程为：

采用仿真方法建立的数据集的过程为：

首先，根据托盘实际三维尺寸生成完整的托盘点云数据，并将点云数据姿态标准化；

然后，选取托盘前侧点云数据，随机加入噪声和随机偏航角旋转，生成用于训练的仿真数据。

5.基于多重神经网络的托盘识别和位姿估计系统，其特征是：该系统用于实现权利要求1-4任意一项所述的基于多重神经网络的托盘识别和位姿估计方法；该系统包括图像的托盘分割模块，托盘位置区域点云获取模块，托盘位姿粗估计模块和托盘位姿精估计模块；

所述图像的托盘分割模块用于获取托盘位置区域；

所述托盘位置区域点云获取模块根据所述图像的托盘分割模块分割获得的托盘位置区域，采用相机与雷达的外参矩阵，变换获得托盘位置区域点云；

所述托盘位姿粗估计模块采用改进PointNet对所述托盘位置区域点云获取模块中获取的托盘区域点云进行托盘姿态粗估计，生成姿态粗估计结果；

所述托盘位姿精估计模块用于将所述托盘位姿粗估计模块中所得的粗估计结果，作为ICP算法初值，进行托盘位姿精确估计，得到托盘位姿六自由度结果，传递给车辆控制系统。