CN109816050A

CN109816050A - 物体位姿估计方法及装置

Info

Publication number: CN109816050A
Application number: CN201910134640.4A
Authority: CN
Inventors: 周韬; 成慧
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-02-23
Filing date: 2019-02-23
Publication date: 2019-05-28
Also published as: TW202032437A; KR20210043632A; SG11202101493XA; WO2020168770A1; JP2021536068A; TWI776113B; US20210166418A1

Abstract

本申请公开了一种物体位姿估计方法及装置。该方法包括：获取物体的点云数据，其中，所述点云数据中包含至少一个点；将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角。还公开了相应的装置。本申请通过点云神经网络对物体的点云数据进行处理，得到物体的位姿。

Description

物体位姿估计方法及装置

技术领域

本申请涉及机器视觉技术领域，尤其涉及一种物体位姿估计方法及装置。

背景技术

随着机器人研究的深入和各方面需求的巨大增长，机器人的应用领域在不断扩大，如：通过机器人抓取物料框中堆叠的物体。通过机器人抓取堆叠的物体首先需要识别待抓取物体在空间中的位姿，再根据识别到的位姿对待抓取物体进行抓取。传统方式首先从图像中提取特征点，随后将该图像与预先设定的参考图像进行特征匹配获得相匹配的特征点，并根据相匹配的特征点确定待抓取物体在相机坐标系下的位置，再根据相机的标定参数，解算得到物体的位姿，但对于不同场景下的待抓取物体，位姿的识别精确率较低。

发明内容

本申请提供一种物体位姿估计方法及装置，以获取堆叠物体的位姿。

第一方面，提供了一种物体位姿估计方法，包括：获取物体的点云数据，其中，所述点云数据中包含至少一个点；将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角。

在一种可能实现的方式中，所述物体的位姿包括所述物体的参考点的位姿；所述物体的位姿包括所述物体的参考点的位置和姿态角，所述参考点包括质心、重心、中心中的至少一种。

在另一种可能实现的方式中，所述将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点分别所属的物体的预测位姿，所述点云神经网络对所述物体的点云数据执行的操作包括：对所述至少一个点进行特征提取处理，得到特征数据；对所述特征数据进行线性变换，得到所述至少一个点分别所属的物体的预测位姿。

在又一种可能实现的方式中，所述物体的预测位姿包括所述物体的参考点的预测位置和预测姿态角；所述对所述特征数据进行线性变换，得到所述物体的点云数据中的点的预测位姿，包括：对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角。

在又一种可能实现的方式中，所述点云神经网络包括第一全连接层，所述对所述特征数据进行第一线性变换，得到所述至少一个点分别所属的物体的预测位置，包括：获取所述第一全连接层的权重；根据所述第一全连接层的权重对所述特征数据进行加权叠加运算，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置。

在又一种可能实现的方式中，所述点云神经网络包括第二全连接层，对所述特征数据进行第二线性变换，得到所述点所属物体的预测姿态角，包括：获取第二全连接层的权重；根据所述第二全连接层的权重对所述特征数据进行加权叠加运算，得到所述分别物体的预测姿态角。

在又一种可能实现的方式中，所述获取物体的点云数据，包括：获取所述物体所在的场景的场景点云数据以及预先存储的背景点云数据；在所述场景点云数据以及所述背景点云数据中存在相同的数据的情况下，确定所述场景点云数据以及所述背景点云数据中的相同数据；从所述场景点云数据中去除所述相同数据，得到所述物体的点云数据。

在又一种可能实现的方式中，所述方法还包括：对所述物体的点云数据进行下采样处理，得到数量为第一预设值的点；将所述数量为第一预设值的点输入至预先训练的点云神经网络，得到所述数量为第一预设值的点中至少一个点所属的物体的预测位姿。

在又一种可能实现的方式中，所述预测位姿包括预测位置，所述对所述至少一个点进行聚类处理，得到至少一个聚类集合，包括：根据所述至少一个聚类集合中的点的所属的物体的预测位置，将所述至少一个点划分成至少一个集合，得到所述至少一个聚类集合。

在又一种可能实现的方式中，所述根据所述至少一个聚类集合中的点的所属的物体的预测位置，将所述至少一个点划分成至少一个集合，得到所述至少一个聚类集合，包括：从所述物体的点云数据中任取一个点作为第一点；以所述第一点为球心、第二预设值为半径，构建第一待调整聚类集合；以所述第一点为起始点、所述第一待调整聚类集合中除所述第一点之外的点为终点，得到第一向量，并对所述第一向量求和得到第二向量；若所述第二向量的模小于或等于阈值，将所述第一待调整聚类集合作为所述聚类集合。

在又一种可能实现的方式中，所述方法还包括：若所述第二向量的模大于所述阈值，将所述第一点沿所述第二向量进行移动，得到第二点；以所述第二点为球心，所述第二预设值为半径，构建第二待调整聚类集合；以所述第二点为起始点、所述第二待调整聚类集合中除所述第二点之外的点为终点，得到第三向量，并对第三向量求和得到第四向量；若所述第四向量的模小于或等于所述阈值，将所述第二待调整聚类集合作为所述聚类集合。

在又一种可能实现的方式中，所述根据所述聚类集合中所包含物体的预测位姿，得到所述物体的位姿，包括：计算所述聚类集合中所包含物体的预测位姿的平均值；将所述预测位姿的平均值作为所述物体的位姿。

在又一种可能实现的方式中，所述方法还包括：对所述物体的位姿进行修正，将修正后的位姿作为所述物体的位姿。

在又一种可能实现的方式中，所述对所述物体的位姿进行修正，将修正后的位姿作为所述物体的位姿，包括：获取所述物体的三维模型；将所述聚类集合中所包含的点所属的物体的预测位姿的平均值作为所述三维模型的位姿；根据迭代最近点算法以及所述物体对应的聚类集合对所述三维模型的位置进行调整，并将调整位置后的三维模型的位姿作为所述物体的位姿。

在又一种可能实现的方式中，所述方法还包括：将所述物体的点云数据输入至所述点云神经网络，得到所述点云数据中的点所属物体的类别。

在又一种可能实现的方式中，所述点云神经网络基于逐点点云损失函数加和值，并进行反向传播训练得到，所述逐点点云损失函数基于位姿损失函数、分类损失函数以及可见性预测损失函数加权叠加得到，所述逐点点云损失函数为对所述点云数据中至少一个点的损失函数进行加和，所述位姿损失函数为：L＝∑||R_P-R_GT||²；

其中，R_P为所述物体的位姿，R_GT为所述位姿的标签，Σ为对所述点云数据中至少一个点的点云位姿损失函数进行加和。

第二方面，提供了一种物体位姿估计装置，包括：获取单元，用于获取物体的点云数据，其中，所述点云数据中包含至少一个点；第一处理单元，用于将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；第二处理单元，用于对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；第三处理单元，用于根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角。

在一种可能实现的方式中，所述物体的位姿包括所述物体的参考点的位姿；

所述物体的位姿包括所述物体的参考点的位置和姿态角，所述参考点包括质心、重心、中心中的至少一种。

在另一种可能实现的方式中，所述第一处理单元包括：特征提取子单元，用于对所述至少一个点进行特征提取处理，得到特征数据；线性变换子单元，用于对所述特征数据进行线性变换，得到所述至少一个点分别所属的物体的预测位姿。

在又一种可能实现的方式中，所述物体的预测位姿包括所述物体的参考点的预测位置和预测姿态角；所述线性变换子单元还用于：对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；以及根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；以及对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角。

在又一种可能实现的方式中，所述点云神经网络包括第一全连接层，所述线性变换子单元还用于：获取所述第一全连接层的权重；以及根据所述第一全连接层的权重对所述特征数据进行加权叠加运算，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；以及根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置。

在又一种可能实现的方式中，所述点云神经网络包括第二全连接层，所述线性变换子单元还用于：获取第二全连接层的权重；以及根据所述第二全连接层的权重对所述特征数据进行加权叠加运算，得到所述分别物体的预测姿态角。

在又一种可能实现的方式中，所述获取单元包括：第一获取子单元，用于获取所述物体所在的场景的场景点云数据以及预先存储的背景点云数据；第一确定子单元，用于在所述场景点云数据以及所述背景点云数据中存在相同的数据的情况下，确定所述场景点云数据以及所述背景点云数据中的相同数据；去除子单元，用于从所述场景点云数据中去除所述相同数据，得到所述物体的点云数据。

在又一种可能实现的方式中，所述获取单元还包括：第一处理子单元，用于对所述物体的点云数据进行下采样处理，得到数量为第一预设值的点；第二处理子单元，用于将所述数量为第一预设值的点输入至预先训练的点云神经网络，得到所述数量为第一预设值的点中至少一个点所属的物体的预测位姿。

在又一种可能实现的方式中，所述预测位姿包括预测位置，所述第二处理单元包括：划分子单元，用于根据所述至少一个聚类集合中的点的所属的物体的预测位置，将所述至少一个点划分成至少一个集合，得到所述至少一个聚类集合。

在又一种可能实现的方式中，所述划分子单元还用于：从所述物体的点云数据中任取一个点作为第一点；以及以所述第一点为球心、第二预设值为半径，构建第一待调整聚类集合；以及以所述第一点为起始点、所述第一待调整聚类集合中除所述第一点之外的点为终点，得到第一向量，并对所述第一向量求和得到第二向量；以及若所述第二向量的模小于或等于阈值，将所述第一待调整聚类集合作为所述聚类集合。

在又一种可能实现的方式中，所述划分子单元还用于：若所述第二向量的模大于所述阈值，将所述第一点沿所述第二向量进行移动，得到第二点；以及以所述第二点为球心，所述第二预设值为半径，构建第二待调整聚类集合；以及以所述第二点为起始点、所述第二待调整聚类集合中除所述第二点之外的点为终点，得到第三向量，并对第三向量求和得到第四向量；以及若所述第四向量的模小于或等于所述阈值，将所述第二待调整聚类集合作为所述聚类集合。

在又一种可能实现的方式中，所述第三处理单元包括：计算子单元，用于计算所述聚类集合中所包含物体的预测位姿的平均值；第二确定子单元，用于将所述预测位姿的平均值作为所述物体的位姿。

在又一种可能实现的方式中，所述物体位姿估计装置还包括：修正单元，用于对所述物体的位姿进行修正，将修正后的位姿作为所述物体的位姿。

在又一种可能实现的方式中，所述修正单元包括：第二获取子单元，用于获取所述物体的三维模型；第三确定子单元，用于将所述聚类集合中所包含的点所属的物体的预测位姿的平均值作为所述三维模型的位姿；调整子单元，用于根据迭代最近点算法以及所述物体对应的聚类集合对所述三维模型的位置进行调整，并将调整位置后的三维模型的位姿作为所述物体的位姿。

在又一种可能实现的方式中，所述物体位姿估计装置还包括：第四处理单元，用于将所述物体的点云数据输入至所述点云神经网络，得到所述点云数据中的点所属物体的类别。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被批处理装置的处理器执行时，使所述处理器执行第一方面中任意一项所述的方法。

第四方面，本申请提供了一种获取物体位姿及类别的装置，包括：处理器和存储器，所述处理器和所述存储耦合器；其中，所述存储器存储有程序指令，所述程序指令被所述处理器执行时，使所述处理器执行第一方面中任意一项所述的方法。

本申请实施例通过点云神经网络对物体的点云数据进行处理，预测物体的点云数据中每个点所属物体的参考点的位置以及每个点所属物体的姿态角，再通过对物体的点云数据中的点所属的物体的预测位姿进行聚类处理，得到聚类集合，并对聚类集合中包含的点的位置的预测值以及姿态角的预测值求平均值得到物体的参考点的位置以及物体的姿态角。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种物体位姿估计方法的流程示意图；

图2为本申请实施例提供的另一种物体位姿估计方法的流程示意图；

图3为本申请实施例提供的另一种物体位姿估计方法的流程示意图；

图4为本申请实施例提供的一种基于物体位姿估计抓取物体的流程示意图；

图5为本申请实施例提供的一种物体位姿估计装置的结构示意图；

图6为本申请实施例提供的一种物体位姿估计装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在工业领域中，待装配的零件一般都放置于物料框或物料盘里，将放置于物料框或物料盘里的零配件进行装配是装配过程中重要的一环，由于待装配的零配件数量巨大，人工装配的方式显得效率低下，且人工成本较高，本申请通过点云神经网络对物料框或物料盘里的零配件进行识别，可自动获得待装配零件的位姿信息，机器人或机械臂再根据待装配零件的位姿信息可完成对待装配零件的抓取及装配。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种物体位姿估计方法的流程示意图。

101、获取物体的点云数据。

本公开实施例通过对物体的点云数据进行处理，得到物体的位姿，在一种获取物体的点云数据的可能的方式中，通过三维激光扫描仪对物体进行扫描，当激光照射到物体表面时，所反射的激光会携带方位、距离等信息，将激光束按照某种轨迹进行扫描，便会边扫描边记录到反射的激光点信息，由于扫描极为精细，可得到大量的激光点，进而得到物体的点云数据。

102、将上述物体的点云数据输入至预先训练的点云神经网络，得到至少一个点所属的物体的预测位姿。

通过将物体的点云数据输入至预先训练的点云神经网络，对点云数据中每个点所属的物体的参考点的位置以及所属物体的姿态角进行预测，得到各个物体的预测位姿，并以向量的形式给出，其中，上述物体的预测位姿包括所述物体的参考点的预测位置和预测姿态角，上述参考点包括质心、重心、中心中的至少一种。

上述点云神经网络是预先训练好的，在一种可能实现的方式中，上述点云神经网络的训练方法包括：获取物体的点云数据和标签数据；对所述物体的点云数据进行特征提取处理，得到特征数据；对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角；对所述特征数据进行第三线性变换，得到所述点云数据中的点对应的物体类别识别结果；对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合，其中，所述预测位姿包括所述点所属物体的参考点的预测位置以及所述点所属物体的参考点的预测姿态角；根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角；根据分类损失函数、所述物体类别预测结果及所述标签数据，得到分类损失函数值；根据位姿损失函数、所述物体的位姿以及所述物体的位姿标签，得到位姿损失函数值，所述位姿损失函数的表达式为：L＝∑||R_P-R_GT||²；其中，R_P为所述物体的位姿，R_GT为所述位姿的标签，Σ表示对至少一个点的点云位姿函数进行加和；根据逐点点云损失函数、可见性预测损失函数、所述分类损失函数值、所述位姿损失函数值，得到逐点点云损失函数值；调整所述点云神经网络的权重，使得所述逐点点云损失函数值小于阈值，得到训练后的点云神经网络。

需要理解的是，本申请对上述分类损失函数以及总损失函数的具体形式不做限定。训练后的点云神经网络可对物体的点云数据中的每个点所属物体的参考点的位置以及每个点所属物体的姿态角进行预测，并将位置的预测值以及姿态角的预测值以向量的形式给出，同时还将给出点云中的点所属物体的类别。

103、对上述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合。

对物体的点云数据中的点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合，每个聚类集合对应一个物体，在一种可能实现的方式中，通过均值漂移聚类算法对物体的点云数据中的点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合。

104、根据上述至少一个聚类集合中所包含物体的预测位姿，得到上述物体的位姿。

每个聚类集合内包含多个点，每个点都有位置的预测值以及姿态角的预测值。在一种可能实现的方式中，对聚类集合中所包含的点的位置的预测值求平均值，并将位置的预测值的平均值作为上述物体的参考点的位置，对聚类集合中所包含的点的姿态角的预测值求平均值，并将姿态角的预测值的平均值作为上述物体的姿态角。

可选地，通过101～104的处理，可获得任意场景下的堆叠的至少一个物体的位姿，由于物体的抓取点均是预先设定的，因此，在得到相机坐标系下的物体的参考点的位置以及物体的姿态角的情况下，根据物体的姿态角，得到机器人末端执行器的调整角度；根据物体的参考点与抓取点之间的位置关系，得到相机坐标系下的抓取点的位置；再根据机器人的手眼标定结果(即相机坐标系下的抓取点的位置)，得到机器人坐标系下的抓取点的位置；根据机器人坐标系下的抓取点的位置进行路径规划，得到机器人的行径路线；将调整角度及行径路线作为控制指令，控制机器人对至少一个堆叠物体进行抓取。本申请实施例通过点云神经网络对物体的点云数据进行处理，预测物体的点云中每个点所属物体的参考点的位置以及每个点所属物体的姿态角，再通过对物体的点云数据中的点所属的物体的预测位姿进行聚类处理，得到聚类集合，并对聚类集合中包含的点的位置的预测值以及姿态角的预测值求平均值得到物体的参考点的位置以及物体的姿态角。

请参阅图2，图2是本申请实施例提供的另一种物体位姿估计方法的流程示意图。

201、获取物体所在的场景的场景点云数据以及预先存储的背景点云数据。

由于物体放置于物料框或物料盘内，且所有物体都处于堆叠状态，因此无法直接获得物体在堆叠状态下的点云数据。通过获取物料框或物料盘的点云数据(即预先存储的背景点云数据)，以及获取放置有物体的物料框或物料盘的点云数据(即物体所在的场景的场景点云数据)，再通过上述两个点云数据得到物体的点云数据。在一种可能实现的方式中，通过三维激光扫描仪对物体所在的场景(上述物料框或物料盘)进行扫描，当激光照射到物料框或物料盘表面时，所反射的激光会携带方位、距离等信息，将激光束按照某种轨迹进行扫描，便会边扫描边记录到反射的激光点信息，由于扫描极为精细，可得到大量的激光点，进而得到背景点云数据。再将物体放置于物料框或物料盘内，通过三维激光扫描获取物体所在的场景的场景点云数据。

需要理解的是，上述物体的数量至少为1个，且物体可以是同一类物体，也可以是不同种类的物体；将物体放置于物料框或物料盘内时，无特定放置顺序要求，可将所有的物体任意堆叠于物料框或物料盘内；此外，本申请对获取物体所在的场景的场景点云数据和获取预先存储的背景点云数据的顺序并不做具体限定。

202、在上述场景点云数据以及上述背景点云数据中存在相同的数据的情况下，确定所述场景点云数据以及所述背景点云数据中的相同数据。

点云数据中包含的点的数量巨大，对点云数据进行处理的计算量也非常大，因此，只对物体的点云数据进行处理，可减少计算量，提高处理速度。首先，确定上述场景点云数据以及上述背景点云数据中是否存在相同的数据，若存在相同的数据，从上述场景点云数据中去除所述相同数据，得到上述物体的点云数据。

203、对上述物体的点云数据进行下采样处理，得到数量为第一预设值的点。

如上所述，点云数据中包含有大量的点，即使通过202的处理，以及减少了很多计算量，但由于物体的点云数据中仍然包含大量的点，若直接通过点云神经网络对物体的点云数据进行处理，其计算量仍然非常大。此外，受限于运行点云神经网络的硬件配置，计算量若太大会影响后续处理的速度，甚至无法进行正常处理，因此，需要对输入至点云神经网络的物体的点云数据中的点的数量进行限制，将上述物体的点云数据中的点的数量减少至第一预设值，第一预设值可根据具体硬件配置进行调整。在一种可能实现的方式中，对物体的点云数据进行随机采样处理，得到数量为第一与设置的点；在另一种可能实现的方式中，对物体的点云数据进行最远点采样处理，得到数量为第一与设置的点；在又一种可能实现的方式中，对物体的点云数据进行均匀采样处理，得到数量为第一与设置的点。

204、将上述数量为第一预设值的点输入至预先训练的点云神经网络，得到上述数量为第一预设值的点中至少一个点所属的物体的预测位姿。

将上述数量为第一预设值的点输入至点云神经网络，通过点云神经网络对上述数量为第一预设值的点进行特征提取处理，得到特征数据，在一种可能实现的方式中，通过点云神经网络中的卷积层对上述数量为第一预设值的点进行卷积处理，得到特征数据。

经过特征提取处理得到的特征数据将输入至全连接层，需要理解的是，全连接层的数量可以为多个，由于在对点云神经网络进行训练后，不同的全连接层具有不同的权重，因此特征数据经过不同的全连接层处理后得到的结果均不一样。对上述特征数据进行第一线性变换，得到上述数量为第一预设值的点所属物体的参考点的位置到点的位置的预测位移向量，根据上述点的位置与上述预测位移向量得到上述点所属物体的参考点的预测位置，即通过预测每个点到所属物体的参考点的位移向量以及该点的位置，得到每个点所属物体的参考点的位置，这样可使每个点所属物体的参考点的位置的预测值的范围变得相对统一，点云神经网络的收敛性质更好。对上述特征数据进行第二线性变换，得到上述数量为第一预设值的点所属物体的姿态角的预测值，对上述特征数据进行第三线性变换，得到上述数量为第一预设值的点所属物体的类别。在一种可能实现的方式中，根据第一全连接层的权重，确定卷积层输出的不同的特征数据的权重，并进行第一加权叠加，得到上述数量为第一预设值的点所属物体的参考点的位置的预测值；根据第二全连接层的权重，对卷积层输出的不同的特征数据进行第二加权叠加，得到上述数量为第一预设值的点所属物体的姿态角的预测值；根据第三全连接层的权重，确定卷积层输出的不同的特征数据的权重，并进行第三加权叠加，得到上述数量为第一预设值的点所属物体的类别。

本公开实施例通过对点云神经网络进行训练，使训练后的点云神经网络能基于物体的点云数据，识别点云数据中的点所属物体的参考点的位置以及所属物体的姿态角。

请参阅图3，图3是本申请实施例提供的另一种物体位姿估计方法的流程示意图

301、对至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合。

通过点云神经网络的处理，物体的点云数据中的每个点都有一个对应的预测向量，每个预测向量中包含：该点所属的物体的位置的预测值以及姿态角的预测值。由于不同的物体的位姿在空间中必定是不重合的，因此属于不同的物体上的点所得到的预测向量会有较大的差异，而属于相同物体上的点所得到的预测向量基本相同，对此，基于上述至少一个点所属的物体的预测位姿以及聚类处理方法对物体的点云数据中的点进行划分，得到相应的聚类集合。在一种可能实现的方式中，从上述物体的点云数据中任取一个点作为第一点；以第一点为球心、第二预设值为半径，构建第一待调整聚类集合；以上述第一点为起始点、上述第一待调整聚类集合中除所述第一点之外的点为终点，得到第一向量，并对上述第一向量求和得到第二向量；若上述第二向量的模小于或等于阈值，将上述第一待调整聚类集合作为聚类集合；若上述第二向量的模大于阈值，将第一点沿上述第二向量进行移动，得到第二点；以第二点为球心，上述第二预设值为半径，构建第二待调整聚类集合；对第三向量求和得到第四向量，其中，上述第三向量的起始点为所述第二点，上述第三向量的终点为所述第二待调整聚类集合中除所述第二点之外的点；若上述第四向量的模小于或等于上述阈值，将上述第二待调整聚类集合作为聚类集合；若上述第四向量的模大于上述阈值，重复上述构建第二待调整聚类集合的步骤，直到新构建的待调整聚类集合中除球心之外的点到球心的向量的和的模小于或等于上述阈值，将该待调整聚类集合作为聚类集合。通过上述聚类处理，得到至少一个聚类集合，每个聚类集合都有一个球心，若任意两个球心之间的距离小于第二阈值，将这两个球心对应的聚类集合合并成一个聚类集合。

需要理解的是，除上述可实现的聚类处理方法之外，还可通过其他聚类方法对上述至少一个点所属的物体的预测位姿进行聚类，如：基于密度的聚类方法、基于划分的聚类方法、基于网络的聚类方法。对此，本申请不做具体限定。

302、根据上述至少一个聚类集合中所包含物体的预测位姿，得到上述物体的位姿。

上述得到的聚类集合中包含多个点，每个点都有所属物体的参考点的位置的预测值以及所属物体的姿态角的预测值，且每个聚类集合对应一个物体。通过对聚类集合中的点所属物体的参考点的位置的预测值求平均值，并将位置的预测值的平均值作为该聚类集合的对应的物体的参考点的位置，对聚类集合中的点所属物体的姿态角的预测值求平均值，并将姿态角的预测值的平均值作为该聚类集合的对应的物体的姿态角，得到上述物体的位姿。

上述这种方式获得的物体的位姿的精度较低，通过对所述物体的位姿进行修正，将修正后的位姿作为所述物体的位姿，可提高获得的物体的位姿的精度。在一种可能实现的方式中，获取上述物体的三维模型，并将三维模型置于仿真环境下，将上述聚类集合中的点所属物体的参考点的位置的预测值的平均值作为三维模型的参考点的位置，将上述聚类集合中的点所属物体的姿态角的预测值的平均值作为三维模型的姿态角，再根据迭代最近点算法、上述三维模型和上述物体的点云，调整三维模型的位置，使三维模型与物体的点云数据中相应位置的物体的区域的重合度达到第三预设值，并将调整位置后的三维模型的参考点的位置作为物体的参考点的位置，将调整后的三维模型的姿态角作为物体的姿态角。

本公开实施例基于点云神经网络输出的至少一个点的所属物体的位姿对物体的点云数据进行聚类处理，得到聚类集合；再根据聚类集合内所包含的点所属物体的参考点的位置的预测值的平均值及姿态角的预测值的平均值，得到物体的参考点的位置及物体的姿态角。

请参阅图4，图4是本申请实施例提供的一种基于物体位姿估计抓取物体的流程示意图

401、根据物体的位姿，得到控制指令。

通过实施例2(201～204)和实施例3(301～302)的处理，可获得任意场景下的堆叠的物体的位姿，由于物体的抓取点均是预先设定的，因此，在得到相机坐标系下的物体的参考点的位置以及物体的姿态角的情况下，根据物体的姿态角，得到机器人末端执行器的调整角度；根据物体的参考点与抓取点之间的位置关系，得到相机坐标系下的抓取点的位置；再根据机器人的手眼标定结果(即相机坐标系下的抓取点的位置)，得到机器人坐标系下的抓取点的位置；根据机器人坐标系下的抓取点的位置进行路径规划，得到机器人的行径路线；将调整角度及行径路线作为控制指令。

402、根据上述控制指令，控制机器人抓取物体。

将控制指令发送给机器人，控制机器人对物体进行抓取，并将物体进行装配。在一种可能实现的方式中，根据物体的姿态角，得到机器人末端执行器的调整角度，并根据调整角度控制机器人的末端执行器进行调整。根据物体的参考点的位置以及抓取点的与参考点之间的位置关系，得到抓取点的位置。通过手眼标定结果对抓取点的位置进行转换，得到机器人坐标系下的抓取点的位置，并基于机器人坐标系下的抓取点的位置进行路径规划，得到机器人的行径路线，并控制机器人按照行径路线进行移动，通过末端执行器抓取物体，再对物体进行装配。

本公开实施例基于物体的位姿，控制机器人抓取物体以及装配。

以下实施例是本申请实施例提供的一种训练上述点云神经网络的方法。

获取物体的点云数据和标签数据；对所述物体的点云数据进行特征提取处理，得到特征数据；对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角；对所述特征数据进行第三线性变换，得到所述点云数据中的点对应的物体类别识别结果；对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合，其中，所述预测位姿包括所述点所属物体的参考点的预测位置以及所述点所属物体的参考点的预测姿态角；根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角；根据分类损失函数、所述物体类别预测结果及所述标签数据，得到分类损失函数值；根据位姿损失函数、所述物体的位姿以及所述物体的位姿标签，得到位姿损失函数值，所述位姿损失函数的表达式为：L＝∑||R_P-R_GT||²；其中，R_P为所述物体的位姿，R_GT为所述位姿的标签，Σ表示对至少一个点的点云位姿函数进行加和；根据逐点点云损失函数、可见性预测损失函数、所述分类损失函数值、所述位姿损失函数值，得到逐点点云损失函数值；调整所述点云神经网络的权重，使得所述逐点点云损失函数值小于阈值，得到训练后的点云神经网络。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图5，图5为本申请实施例提供的一种物体位姿估计装置的结构示意图，该装置1包括：获取单元11、第一处理单元12、第二处理单元13、第三处理单元14、修正单元15以及第四处理单元16，其中：

获取单元11，用于获取物体的点云数据，其中，所述点云数据中包含至少一个点；

第一处理单元12，用于将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；

第二处理单元13，用于对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；

第三处理单元14，用于根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角；

修正单元15，用于对所述物体的位姿进行修正，将修正后的位姿作为所述物体的位姿；

第四处理单元16，用于将所述物体的点云数据输入至所述点云神经网络，得到所述点云数据中的点所属物体的类别。

进一步地，所述物体的位姿包括所述物体的参考点的位姿；所述物体的位姿包括所述物体的参考点的位置和姿态角，所述参考点包括质心、重心、中心中的至少一种。

进一步地，所述第一处理单元12包括：特征提取子单元121，用于对所述至少一个点进行特征提取处理，得到特征数据；线性变换子单元122，用于对所述特征数据进行线性变换，得到所述至少一个点分别所属的物体的预测位姿。

进一步地，所述物体的预测位姿包括所述物体的参考点的预测位置和预测姿态角；所述线性变换子单元122还用于：对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；以及根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；以及对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角。

进一步地，所述点云神经网络包括第一全连接层，所述线性变换子单元122还用于：获取所述第一全连接层的权重；以及根据所述第一全连接层的权重对所述特征数据进行加权叠加运算，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；以及根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置。

进一步地，所述点云神经网络包括第二全连接层，所述线性变换子单元122还用于：获取第二全连接层的权重；以及根据所述第二全连接层的权重对所述特征数据进行加权叠加运算，得到所述分别物体的预测姿态角。

进一步地，所述获取单元11包括：第一获取子单元111，用于获取所述物体所在的场景的场景点云数据以及预先存储的背景点云数据；第一确定子单元112，用于在所述场景点云数据以及所述背景点云数据中存在相同的数据的情况下，确定所述场景点云数据以及所述背景点云数据中的相同数据；去除子单元113，用于从所述场景点云数据中去除所述相同数据，得到所述物体的点云数据。

进一步地，所述获取单元11还包括：第一处理子单元114，用于对所述物体的点云数据进行下采样处理，得到数量为第一预设值的点；第二处理子单元115，用于将所述数量为第一预设值的点输入至预先训练的点云神经网络，得到所述数量为第一预设值的点中至少一个点所属的物体的预测位姿。

进一步地，所述预测位姿包括预测位置，所述第二处理单元13包括：划分子单元131，用于根据所述至少一个聚类集合中的点的所属的物体的预测位置，将所述至少一个点划分成至少一个集合，得到所述至少一个聚类集合。

进一步地，所述划分子单元131还用于：从所述物体的点云数据中任取一个点作为第一点；以及以所述第一点为球心、第二预设值为半径，构建第一待调整聚类集合；以及以所述第一点为起始点、所述第一待调整聚类集合中除所述第一点之外的点为终点，得到第一向量，并对所述第一向量求和得到第二向量；以及若所述第二向量的模小于或等于阈值，将所述第一待调整聚类集合作为所述聚类集合。

进一步地，所述划分子单元131还用于：若所述第二向量的模大于所述阈值，将所述第一点沿所述第二向量进行移动，得到第二点；以及以所述第二点为球心，所述第二预设值为半径，构建第二待调整聚类集合；以及以所述第二点为起始点、所述第二待调整聚类集合中除所述第二点之外的点为终点，得到第三向量，并对第三向量求和得到第四向量；以及若所述第四向量的模小于或等于所述阈值，将所述第二待调整聚类集合作为所述聚类集合。

进一步地，所述第三处理单元14包括：计算子单元141，用于计算所述聚类集合中所包含物体的预测位姿的平均值；第二确定子单元142，用于将所述预测位姿的平均值作为所述物体的位姿。

进一步地，所述修正单元15包括：第二获取子单元151，用于获取所述物体的三维模型；第三确定子单元152，用于将所述聚类集合中所包含的点所属的物体的预测位姿的平均值作为所述三维模型的位姿；调整子单元153，用于根据迭代最近点算法以及所述物体对应的聚类集合对所述三维模型的位置进行调整，并将调整位置后的三维模型的位姿作为所述物体的位姿。

进一步地，所述点云神经网络基于逐点点云损失函数加和值，并进行反向传播训练得到，所述逐点点云损失函数基于位姿损失函数、分类损失函数以及可见性预测损失函数加权叠加得到，所述逐点点云损失函数为对所述点云数据中至少一个点的损失函数进行加和，所述位姿损失函数为：

L＝∑||R_P-R_GT||²；

图6为本申请实施例提供的一种物体位姿估计装置的硬件结构示意图。该估计2装置包括处理器21，还可以包括输入装置22、输出装置23和存储器24。该输入装置22、输出装置23、存储器24和处理器21之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmable readonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号，以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件，也可以是一个整体的器件。

处理器可以包括是一个或多个处理器，例如包括一个或多个中央处理器(centralprocessing unit，CPU)，在处理器是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据，执行上述方法实施例中的步骤。具体可参见方法实施例中的描述，在此不再赘述。

可以理解的是，图6仅仅示出了一种物体位姿估计装置的简化设计。在实际应用中，物体位姿估计装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等，而所有可以实现本申请实施例的物体位姿估计装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种物体位姿估计方法，其特征在于，包括：

获取物体的点云数据，其中，所述点云数据中包含至少一个点；

将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；

对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；

根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角。

2.根据权利要求1所述的方法，其特征在于，所述物体的位姿包括所述物体的参考点的位姿；

3.根据权利要求1所述的方法，其特征在于，所述将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点分别所属的物体的预测位姿，所述点云神经网络对所述物体的点云数据执行的操作包括：

对所述至少一个点进行特征提取处理，得到特征数据；

对所述特征数据进行线性变换，得到所述至少一个点分别所属的物体的预测位姿。

4.根据权利要求3所述的方法，其特征在于，所述物体的预测位姿包括所述物体的参考点的预测位置和预测姿态角；

所述对所述特征数据进行线性变换，得到所述物体的点云数据中的点的预测位姿，包括：

对所述特征数据进行第一线性变换，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；

根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置；

对所述特征数据进行第二线性变换，得到所述点所属物体的参考点的预测姿态角。

5.根据权利要求4所述的方法，其特征在于，所述点云神经网络包括第一全连接层，所述对所述特征数据进行第一线性变换，得到所述至少一个点分别所属的物体的预测位置，包括：

获取所述第一全连接层的权重；

根据所述第一全连接层的权重对所述特征数据进行加权叠加运算，得到所述点所属物体的参考点的位置到所述点的位置的预测位移向量；

根据所述点的位置与所述预测位移向量得到所述点所属物体的参考点的预测位置。

6.根据权利要求4所述的方法，其特征在于，所述点云神经网络包括第二全连接层，对所述特征数据进行第二线性变换，得到所述点所属物体的预测姿态角，包括：

获取第二全连接层的权重；

根据所述第二全连接层的权重对所述特征数据进行加权叠加运算，得到所述分别物体的预测姿态角。

7.根据权利要求1所述的方法，其特征在于，所述获取物体的点云数据，包括：

获取所述物体所在的场景的场景点云数据以及预先存储的背景点云数据；

在所述场景点云数据以及所述背景点云数据中存在相同的数据的情况下，确定所述场景点云数据以及所述背景点云数据中的相同数据；

从所述场景点云数据中去除所述相同数据，得到所述物体的点云数据。

8.一种物体位姿估计装置，其特征在于，包括：

获取单元，用于获取物体的点云数据，其中，所述点云数据中包含至少一个点；

第一处理单元，用于将所述物体的点云数据输入至预先训练的点云神经网络，得到所述至少一个点所属的物体的预测位姿；

第二处理单元，用于对所述至少一个点所属的物体的预测位姿进行聚类处理，得到至少一个聚类集合；

第三处理单元，用于根据所述至少一个聚类集合中所包含物体的预测位姿，得到所述物体的位姿，其中，所述位姿包括位置和姿态角。

9.一种物体位姿估计的装置，其特征在于，包括：处理器和存储器，所述处理器和所述存储耦合器；其中，所述存储器存储有程序指令，所述程序指令被所述处理器执行时，使所述处理器执行如权利要求1至7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被批处理装置的处理器执行时，使所述处理器执行如权利要求1至7任意一项所述的方法。