CN115546302A

CN115546302A - 一种局部几何建模的点云数据解算方法

Info

Publication number: CN115546302A
Application number: CN202211285950.4A
Authority: CN
Inventors: 李学龙; 王栋; 罗健
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2022-12-30

Abstract

本发明涉及一种局部几何建模的点云数据解算方法，包括：由全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征；由方向解码器学习点云上的每个采样点的可抓取性以及方向向量，预测可抓取方向；以及由操作解码器预测可抓取方向上的平面旋转以及抓取深度、宽度。该方法能够充分挖掘点数数据的几何结构信息，输出一定范围内的最稳定的抓取，并且该方法的模型采用端到端的编码器解码器结构，可以并行输出预测的抓取参数。

Description

一种局部几何建模的点云数据解算方法

技术领域

本发明涉及空间抓取技术领域，尤其涉及一种局部几何建模的点云数据解算方法。

背景技术

空间抓取是智能硬件感知方向中最核心、最基本的任务之一，是智能硬件如机械臂进行复杂运动的前提与基础。并且，空间抓取算法也是解放人类双手，从而实现工业信息化、产业智能化的重要方向之一，未来会计划应用于工业制造、物流分拣、太空无人操作等。空间抓取的主要任务是通过对物体的三维数据等进行解析，计算出多组包括抓取点坐标，抓取点姿态信息，抓取宽度的数据信息，利用这些信息，可以实现物体的稳定抓取。

从输入的三维数据格式来分，可以分为基于点云、基于体素的方法。

基于点云的空间抓取模型。针对点云数据无序性以及离散型，PointNet以及PointNet++等衍生网络是提取点云特征的主要方法，其特点是利用最大上采样操作来解决点云数据表示的无序性问题，同时利用集合聚合(Set Aggregation)操作处理多尺度信息，实现了点云数据的有效解析。然而由于抓取问题对物体的结构信息尤其是局部几何结构非常敏感与点云数据结构稀疏、离散之间的矛盾，现有的点云数据解析方法对抓取问题的应用表现效果不理想，没有充分挖掘点数数据的几何结构信息。而且现有的模型没有实现真正的端到端，姿态解析模型复杂冗余。

发明内容

本发明的任务是提供一种局部几何建模的点云数据解算方法，能够充分挖掘点数数据的几何结构信息，输出一定范围内的最稳定的抓取，并且该方法的模型采用端到端的编码器解码器结构，可以并行输出预测的抓取参数。

针对现有技术中存在的问题，本发明提供一种局部几何建模的点云数据解算方法，包括：

由全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征；

由方向解码器学习点云上的每个采样点的可抓取性以及方向向量，预测可抓取方向；以及

由操作解码器预测可抓取方向上的平面旋转以及抓取深度、宽度。

在本发明的一个实施例中，还包括：

从原始数据集中提取点云数据和标注信息；

对原始数据集进行预处理及数据增强得到建模数据集；

将建模数据集分为训练集和测试集；

以训练集作为输入，经过多尺度特征映射层处理后得到语义特征和几何特征。

在本发明的一个实施例中，注意力的计算公式如下：

其中Q,K,V分别为特征经过映射后的查询，待查询，值矩阵，d为特征维度，Softmax(.)为归一化指数函数。

在本发明的一个实施例中，由方向解码器预测可抓取方向包括：

在每个采样点上以球面的形式均匀采样300个方向；

方向解码器计算300个方向的方向置信度，并从300个方向中选取一个方向置信度最高的方向作为可抓取方向。

在本发明的一个实施例中，所述方向解码器或所述操作解码器首先将抓取查询特征进行自注意力计算，之后抓取查询特征与所述全局特征进行交叉注意力计算以学习局部的特征。

在本发明的一个实施例中，进行交叉注意力计算时，设置查询半径，每个抓取查询特征与查询半径内的全局特征进行交叉注意力计算。

在本发明的一个实施例中，还包括将傅里叶位置编码信息加入到抓取查询特征中。

在本发明的一个实施例中，根据预测的可抓取方向，利用所述可抓取方向的方向编码作为嵌入和抓取查询特征一起输入所述操作解码器。

在本发明的一个实施例中，所述对原始数据集进行预处理包括：

每个场景随机采样两万个点，若一次采样不够两万个点，则重复采样；

根据每个场景中的单个物体的位姿得到当前场景下的标签；和/或

所述对原始数据集进行数据增强包括：

随机将每个场景沿着YZ平面进行反转或者沿着Z轴进行旋转，旋转角度在-30度～+30度之间。

在本发明的一个实施例中，将所述建模数据集分为训练集和测试集，其中训练集包含100个场景，每个场景包含256个点云数据，测试集包含90个场景，每个场景包含256个点云数据；

将所述测试集平均分成三份，其中第一份测试集中的物体出现在训练集，第二份测试集中的物体与训练集中的物体形状相近，第三份测试集中的物体未出现在训练集。

在本发明的一个实施例中，还包括：

输出映射层将预测的结果与标签结果进行损失计算，并反向传播更新基于Transformer的多尺度抓取模型的参数，其中基于Transformer的多尺度抓取模型的预测包括抓取方向的方向向量、抓取中心、平面旋转矩阵、抓取宽度、抓取置信度以及抓取深度。

本发明至少具有下列有益效果：本发明公开的一种局部几何建模的点云数据解算方法，利用基于Transformer的多尺度抓取模型的强大的全局建模能力来对点云数据进行解析，同时为每个抓取查询添加傅里叶位置编码信息和可学习的方向信息，利用抓取查询特征和编码器输出的特征进行交叉注意力机制，进一步融合局部特征，能够充分挖掘点数数据的几何结构信息，输出一定范围内的最稳定的抓取；并且该方法的模型采用端到端的编码器解码器结构，多个模块之间能够进行信息沟通，可以并行输出预测的抓取参数。

附图说明

为了进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。

图1示出了根据本发明一个实施例的一种局部几何建模的点云数据解算方法的流程。

图2示出了根据本发明一个实施例的基于Transformer的多尺度抓取模型的模型架构流程。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。

在此还应当指出，在本发明的描述中，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为明示或暗示相对重要性。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

在传统的针对智能硬件感知的方法，如机器人抓取中，往往存在对点云数据的几何结构解析不彻底或者分阶段式的处理抓取位姿信息的问题，如将空间中的抓取姿态分成抓取方向，沿抓取方向的平面旋转，沿抓取方向的抓取深度等阶段性的进行独立的学习，造成模型结构复杂冗余、单独的学习模块之间相互隔绝。在这种情况下，发明人认为一个端到端的，且融合全局几何信息的空间抓取姿态网络模型可以提供更加准确、鲁棒的效果。

如图1所示，一种局部几何建模的点云数据解算方法包括数据处理、模型设计、实验验证三个阶段。

首先是对数据集进行处理得到用于建模的训练集和测试使用的测试集。利用训练集训练基于Transformer的多尺度抓取模型。得到基于Transformer的多尺度抓取模型后还需要利用测试集进行测试，判断模型的性能。最后利用基于Transformer的多尺度抓取模型进行实验验证。

在数据处理阶段，选取的是人工标注的真实数据集作为原始数据集，该原始数据集涵盖场景点云信息、碰撞检测标签、抓取姿态标签等信息。从原始数据集中提取点云数据和标注信息，其中点云数据包括场景点云信息，标注信息包括碰撞检测标签、抓取姿态标签。

之后对原始数据集进行预处理及数据增强得到建模数据集，为模型训练提供可靠的数据输入。由于原始点云数据过大并且每个场景的点云数目不一样，所以数据预处理的主要过程是每个场景随机采样两万个点，若一次采样不够两万个点，则重复采样。原始数据集标注的是单个物体的标签，数据预处理还包括根据每个场景中的单个物体的位姿得到当前场景下的标签。

数据增强主要是为了让模型更具有鲁棒性，所以随机将每个场景沿着YZ平面进行反转，或者沿着Z轴进行旋转，旋转角度在-30度～+30度之间。

在此，将数据预处理和数据增强后的建模数据集分为训练集和测试集，其中训练集包含100个场景，每个场景包含256个点云数据，测试集包含90个场景，每个场景包含256个点云数据。同时进一步将测试集平均分成三份，其中第一份测试集中的物体在训练集中出现过，第二份测试集中的物体与训练集中的物体形状相近，第三份测试集中的物体没有在训练集中出现过。

在模型设计阶段，建立了基于Transformer的多尺度抓取模型。模型的架构图如2图所示，其中模型的主体由全局特征编码器、方向解码器、操作解码器组成。

训练集作为输入，经过多尺度特征映射层处理后得到语义特征和几何特征。

全局特征编码器。全局特征编码器对多尺度特征映射层输出的特征进行注意力操作得到全局特征，其中注意力的计算公式如下：

其中Q,K,V分别为特征经过映射后的查询，待查询，值矩阵，d为特征维度，Softmax(.)为归一化指数函数。全局特征编码器期望对点云整体的特征进行建模，从而后续可以利用查询特征来进行有效的解码。

方向解码器。方向解码器学习点云上的每个采样点的可抓取性(可抓取信息)以及方向向量(方向信息)，其中在每个采样点上以球面的形式均匀采样300个角度(方向)以供学习。这个采样点是点云中的点。方向解码器预测可抓取方向。方向解码器计算300个方向的方向置信度，从300个方向中选取一个方向置信度最高的方向作为可抓取方向。方向解码器首先将抓取查询特征进行自注意力计算，之后抓取查询特征会与全局特征进行交叉注意力计算以学习局部的特征。同时在进行交叉注意力计算时，人为设置一个查询半径，每个抓取查询特征只会与查询半径内的全局特征进行交叉注意力计算，这样有利于模型的收敛以及加强局部特征的学习。额外的，因为注意力机制缺少对位置信息，所以会将傅里叶位置编码信息加入到抓取查询特征中。在方向解码器将抓取查询特征进行自注意力计算时以及抓取查询特征会与全局特征进行交叉注意力计算时，傅里叶位置编码信息就已经加入到了抓取查询特征中。

操作解码器。操作解码器负责预测由方向解码器预测的可抓取方向上的平面旋转以及抓取深度、宽度。由于方向解码器已经预测点云上每个采样点的可抓取方向，因此根据预测的可抓取方向，利用这个可抓取方向的可学习的方向编码(方向的向量)作为嵌入和抓取查询特征一起输入操作解码器，来加强操作解码器的学习能力。同样的，操作解码器中，抓取查询特征首先会进行自注意力计算操作，之后会与全局特征进行交叉注意力计算操作，以及人为设置查询半径。同样将傅里叶位置编码信息加入到抓取查询特征中。

输出映射层将预测的结果与标签结果进行损失计算，并反向传播更新基于Transformer的多尺度抓取模型的参数。基于Transformer的多尺度抓取模型的最终预测包括作为抓取方向一个方向向量、一个抓取中心、一个平面旋转矩阵、一个抓取宽度、一个抓取置信度以及一个抓取深度。根据这些输出就能得到一个空间抓取姿态，实现准确的抓取。上述方法具有更高效、更准确的点云数据感知能力，由于Transformer在自然语言处理任务及图片分类、检测任务上的优秀表现，上述方法引入了Transformer结构来提高现有抓取任务的准确度，提高机器人感知外界的能力。类比人的抓取倾向以及抓取任务的特点(局部几何特征比全局几何特征更为重要)，上述方法更注重物体的局部特征，引入了基于掩码机制的查询半径，限制了每个查询特征的查询范围，在解码阶段进一步融合局部几何特征即实现了对抓取点周围局部几何的建模，同时也加快了模型的收敛速度。

由于使用了Transformer结构，相比较其他方法的复杂、冗余模型结构，上述方法的模型结构较为简单，其中编码器、解码器均为简单堆叠的注意力模块。同时，抓取方向对抓取任务的成功率影响很大，并且传统方法没有考虑点云数据中不同采样点之间的相同可抓取方向性关系，因此本发明提出了可学习的方向嵌入特征模块。此模块利用方向解码器预测的方向序号显示的从方向嵌入特征模块中抽取对应的方向特征，并与傅里叶位置编码一起加入操作编码器中进行后续计算，加强了不同采样点上相同抓取方向的特征联系。

本发明的技术方案所得出的基于Transformer的多尺度抓取模型以及利用该模型的局部几何建模的点云数据解算方法，可在空间抓取领域中用于实现如下技术效果：能够充分挖掘点数数据的几何结构信息，提升了抓取的精准度，该方法的模型采用端到端的编码器解码器结构，多个模块之间能够进行信息沟通，可以并行输出预测的抓取参数，提高了运算速度。

可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中，可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但对此不作要求。

虽然本发明的一些实施方式已经在本申请文件中予以了描述，但是本领域技术人员能够理解，这些实施方式仅仅是作为示例示出的。本领域技术人员在本发明的教导下可以想到众多的变型方案、替代方案和改进方案而不超出本发明的范围。所附权利要求书旨在限定本发明的范围，并借此涵盖这些权利要求本身及其等同变换的范围内的方法和结构。

Claims

1.一种局部几何建模的点云数据解算方法，其特征在于，包括：

2.根据权利要求1所述的局部几何建模的点云数据解算方法，其特征在于，还包括：

从原始数据集中提取点云数据和标注信息；

对原始数据集进行预处理及数据增强得到建模数据集；

将建模数据集分为训练集和测试集；

3.根据权利要求1所述的局部几何建模的点云数据解算方法，其特征在于，注意力的计算公式如下：

4.根据权利要求1所述的局部几何建模的点云数据解算方法，其特征在于，由方向解码器预测可抓取方向包括：

在每个采样点上以球面的形式均匀采样300个方向；

5.根据权利要求4所述的局部几何建模的点云数据解算方法，其特征在于，所述方向解码器或所述操作解码器首先将抓取查询特征进行自注意力计算，之后抓取查询特征与所述全局特征进行交叉注意力计算以学习局部的特征。

6.根据权利要求5所述的局部几何建模的点云数据解算方法，其特征在于，进行交叉注意力计算时，设置查询半径，每个抓取查询特征与查询半径内的全局特征进行交叉注意力计算。

7.根据权利要求5所述的局部几何建模的点云数据解算方法，其特征在于，还包括将傅里叶位置编码信息加入到抓取查询特征中。

8.根据权利要求1所述的局部几何建模的点云数据解算方法，其特征在于，根据预测的可抓取方向，利用所述可抓取方向的方向编码作为嵌入和抓取查询特征一起输入所述操作解码器。

9.根据权利要求2所述的局部几何建模的点云数据解算方法，其特征在于，所述对原始数据集进行预处理包括：

所述对原始数据集进行数据增强包括：

10.根据权利要求2所述的局部几何建模的点云数据解算方法，其特征在于，将所述建模数据集分为训练集和测试集，其中训练集包含100个场景，每个场景包含256个点云数据，测试集包含90个场景，每个场景包含256个点云数据；

11.根据权利要求2所述的局部几何建模的点云数据解算方法，其特征在于，还包括：