CN115631326A

CN115631326A - 一种智能机器人的知识驱动3d视觉检测方法

Info

Publication number: CN115631326A
Application number: CN202210981606.2A
Authority: CN
Inventors: 曹东
Original assignee: Wuxi Dongru Technology Co ltd
Current assignee: Wuxi Dongru Technology Co ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2023-01-20
Anticipated expiration: 2042-08-15
Also published as: CN115631326B

Abstract

本发明提出一种智能机器人的知识驱动3D视觉检测方法，包括步骤:（1）基于初始螺母CAD种子模型，在模拟器中生成训练数据集；（2）生成数据污损增强数据集；（3）3D点云数据，在模拟器里自动标注真实正确标签，获得生成数据集以及实例标签；（4）将获得的数据集及实例标签分别作为输入和输出训练3D空洞卷积神经网；（5）预测输出得到在知识驱动3D满贴面归一化目标物体单位正方体空间的表示；（6）通过和线下比较提前学到的归一化空间表示实现密集关联映射，完成物体缺失部分的补全。本发明实现了模型匹配迁移学习，在智能机器人工业打磨应用场景中，补全实际物体相机采集的点云的缺失问题。

Description

一种智能机器人的知识驱动3D视觉检测方法

技术领域

本发明涉及一种用于工业智能机器人操控位置与姿态感知的知识驱动3D视觉检测方法，涉及智能制造与机器视觉领域。

背景技术

在智能制造数字工厂环境中，有大量智能机器人参与生产操作的应用需求，随着生产环节与生产场景过程复杂度越来越高，以及对生产工艺智能化要求的逐步提高，现有基于传统工业机器人的解决方案往往不能适应多变的和多样化的生产操控需求，迫切需要机器人能够更智能、更灵巧、应用更灵活。尤其在小批量多场景条件下，结合3D深度相机对环境实时检测感知做出决策规划，智能适应环境变化柔性协作完成生产任务是目前亟待解决的问题。

机器人操作通常需要确定与下游任务协同的恰当抓取，一个重要的应用领域是工业打磨，机器人在抓取物体后需要执行约束条件，即确保合适的抓取不能影响下游任务，既不能抓到打磨件需要被打磨的部位，也要确保抓握姿势不遮挡打磨件的待打磨部位与打磨带的充分接触；同时还需要在物体抓取和运输过程中保持稳定。所以最初的正确抓取是后续自动智能打磨的关键，而在抓取前对目标打磨件的3D视觉检测、感知与建模，形成完备的综合抓取策略就尤为重要。

现有无模型方法通过直接对原始点云观察结果进行操作，训练一个抓取评估网络，对抓取方案排名。也有基于抓取姿势预测网络，在给定条件下输出抓取得分。然而仅能计算稳定未考虑后续下游工业打磨任务。结合任务约束的方法有的框架预测观察点云分割，缺陷在于假设人工标注数据可用于监督学习导致生成成本太高，也有通过仿真试验实现自我交互来学习，但通常涉及单一物品场景，并且仍然需要大量人工标注，所以无法广泛应用，且泛化性能也不太理想。

发明内容

本发明所要解决的技术问题是：为了更好的实现了模型匹配迁移学习，在智能机器人工业打磨应用场景中，采用知识驱动3D满贴面归一化目标物体单位正方体空间表示方法，补全实际物体相机采集的点云的缺失问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提出一种智能机器人的知识驱动3D视觉检测方法，包括以下步骤：

步骤1、基于初始螺母CAD种子模型，在模拟器中生成训练数据集；

步骤2、对得到的数据集进行数据污损，包括对成堆螺母3D模型进行随机深度偏移，引入噪声因子，得到数据污损增强数据集

步骤3、对数据污损增强数据集

回到模拟器环境采用相机视角拍照，采集RGB图像的深度图，将深度图进一步转化为3D点云数据

在模拟器里自动标注真实正确标签，包括实例分割的标签

以及知识驱动3D满贴面归一化目标物体单位正方体空间表示实例标签

步骤4、将数据污损增强数据集

以及实例标签

分别作为输入和输出训练一个3D空洞卷积神经网络，即：知识驱动归一化网络

用于在测试或推理阶段对输入点云的预测；

步骤5、推理阶段：将真实世界相机采集到的实际物体点云输入到知识驱动归一化网络

预测输出得到在知识驱动3D满贴面归一化目标物体单位正方体空间的表示；

步骤6、基于线下知识驱动数据集

的归一化目标物体单位正方体空间表示，通过和线下比较提前学到的归一化空间表示实现密集关联映射，完成物体缺失部分的补全。

经过上述步骤，完成智能机器人在抓取目标打磨件前的3D视觉检测、感知与建模，进一步形成综合抓取策略。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、相比于现有的方法，本发明更好的实现了模型匹配迁移学习，在智能机器人工业打磨应用场景中，采用知识驱动3D满贴面归一化目标物体单位正方体空间表示方法，补全实际物体相机采集的点云的缺失问题。

2、本发明所提出的框架仅在模拟中进行训练，并且无需任何再训练就可以泛化到真实世界，利用域随机化双向对齐和领域不变性，在类别级规范空间中建模，在工业打磨真实场景的复杂噪声环境中生成的新数据集，相比现有其他方法更具鲁棒性，算法模型泛化性能更优。

具体实施方式

下面对本发明的技术方案做进一步的详细说明：

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

步骤1、基于初始螺母CAD种子模型，在模拟器中生成训练数据集，模拟器根据设定参数仿真生成螺母3D模型，通过多次运行试验得到符合需求的训练数据集D。

步骤2、对得到的数据集进行数据污损，包括对成堆螺母3D模型进行随机深度偏移，人为引入了一些噪声因子，使得模拟器生成数据集的深度图以及点云逼近现实世界，因为通过模拟器得到的模型是完美的，而数据需要在真实世界中测试，本步骤用以解决仿真到现实的鸿沟问题，得到数据污损增强数据集

步骤3、生成堆之后的数据污损增强数据集

回到模拟器环境采用相机视角拍照，采集RGB图像，深度图，深度图进一步转化为3D点云数据

在模拟器里自动标注(模拟器在生成过程中就已经同步标签数据了)真实正确标签，包括实例分割的标签

以及“知识驱动3D满贴面归一化目标物体单位正方体空间表示”实例标签

步骤4、在上述步骤获得的生成数据集

以及实例标签

分别作为输入和输出训练一个3D空洞卷积神经网络，称为知识驱动归一化网络，表示为

用于在测试或推理阶段对输入点云的预测。

步骤5、推理阶段，真实世界相机采集到的实际物体点云(设为

表示点数，6表示3个位置X，Y，Z坐标和3个法向量分量)输入到知识驱动归一化网络

预测输出得到在知识驱动3D满贴面归一化目标物体单位正方体空间的表示，用

来代表，输出与输入是逐点一一对应的也是

结构。

步骤6、由于相机采集到的点云只是相机这个视角可见部分，所以步骤5得到的

也只是物体部分点云描述，所以本发明基于线下知识驱动数据集

的归一化目标物体单位正方体空间表示，通过和线下比较提前学到的归一化空间表示实现密集关联映射，完成物体缺失部分的补全，从而完成先验知识的迁移操作。

在步骤1中生成训练数据集的具体方法如下：

(1)设置初始螺母3D模型，设计具有基本结构的螺母CAD模型作为种子，用于后续步骤生成这样堆的时候，从中随机采样一些不同的模型。

(2)在模拟器中的空中随机生成n个螺母，每个螺母分别处在不同高度和不同的初始位姿朝向，其中n的取值范围是[10，20]的自然数，即n∈N，取值规则遵循均匀分布，共计取值50个，即在构造数据集的完整试验中n是一个50维向量，其向量元素是取值10到20的自然数，表示为n＝{n₁，n₂，…，n₅₀}，n_i∈N，i＝1，2，…，50。

(3)释放这些螺母，做自由落体运动下落到其正下方承接框容器里面。在运行自由落体的过程中，本发明设计微分方程模型来满足螺母的运动符合真实世界物理定律，即实际合理性，以满足逼近自然形成的物体堆放形态的多样性。

(4)为了满足自然形态堆放约束条件，本发明采用仿真到现实的领域随机化方法，包括调整相机姿态，物体初始化姿态随机泛化，物体表面物理摩擦力范围参数适配，螺母刚体弹性系数微调等等。

(5)随机初始化空中螺母的高度设定为距离落地点20厘米到50厘米的高度范围，螺母高度值服从均匀分布；每个螺母的位姿朝向由3个参数，为相对于世界坐标系的三个坐标轴X，Y，Z的旋转角度α，β，γ决定，其中取值范围α∈[0，360)，β∈[0，180)，γ∈[0，360)，角度α，β，γ取值服从均匀分布。

(6)在上述约束条件以及参数设定基础上，依次选取n＝{n₁，n₂，…，n₅₀}中的取值，每个取值运行一次释放这些数量螺母的试验以构建物体堆放数据集，其中n_i，i＝1，2，…，25个螺母的释放是依次逐个单独释放，前一个螺母落到下方承接框容器里面稳定后，再释放下一个螺母。

(7)依次重复运行步骤(5)-(6)，共计运行试验25次，得到螺母数分别为n₁，n₂，…，n₂₅的试验结果数据集，分别编号为D₁，D₂，…，D₂₅。

(8)依次选取n＝{n₂₆，n₂₇，…，n₅₀}中的取值，每个取值n_i数量螺母运行一次释放(此处的操作是同时全部释放，其中n_i，i＝26,27，…，50)的试验，以构建物体堆放数据集，

(9)依次重复运行步骤(5)-(8)，共计运行试验25次，得到螺母数分别为n₂₆，n₂₇，…，n₅₀的试验结果数据集，分别编号为D₂₆，D₂₇，…，D₅₀。

(10)组合数据集D₁，D₂，…，D₂₅和D₂₆，D₂₇，…，D₅₀，然后得到训练数据集D＝{D₁，D₂，…，D₅₀}即为所求数据集。

步骤3中的“知识驱动3D满贴面归一化目标物体单位正方体空间表示”的具体构造方法如下：

知识驱动是指在构建连接器物理实体目标物体的3D深度模型基础上，通过领域泛化结合3D特征检测算法抽取多种形态连接器目标模型知识(包括常规朝向、部件结构关系等等)，构建的常识知识库，用于实现小样本标注到大量无监督数据的迁移学习，实现类级别的3D物体建模、检测与位姿估计方法有效泛化。

(1)针对物理实体的线下特定连接器，具有多种不同形状的模型，选择具有代表性的形状各异的k个连接器，通过深度相机采集得到它们的点云数据，表示为

(2)所述单位立方体空间，是指构建边长都是单位1的正立方体

，所有

中的每个物体模型

都初阶归一化到该单位正方体

中，初阶归一化是指每个物体模型分别等比例缩放到单位长度，由于物体在长宽高(X，Y，Z轴三个方向)上的尺寸往往并不相对，所以选择最大尺寸的轴向缩放到单位长度1，那么物体模型的最长尺寸轴就贴合到了单位正方体的两个相对面，而物体模型其他四个面都在正方体里面。

(3)对初步归一化模型进一步在X，Y，Z轴三个方向上做不等比例缩放，实现物体模型相对较小尺寸的四个面也完全贴合单位立方体的对应四个面，我们称之为实现满贴面归一化(满贴面是指立方体六个面都与物体模型相切贴合)。

(4)在上一步的六面完全贴合单位立方体基础上，本发明进一步做模型质心中心化变换，模型质心定义为物体材质均匀分布的几何中心，做X→Y→Z三个方向的均匀偏移，假设质心处于单位正方体中心偏上方位置，即处于Z轴正上方δz，那么质心在X，Y轴向保持不变，在Z轴f负方向下移|δz|，模型所有点相应按比例偏移。优点是即使这个训练集里面物体各个轴向的相对尺寸不一样，经过满贴面归一化之后匹配在一个相似的空间里面。

本发明采用以上技术实施方案，与现有技术相比的实质性的创新优点在于：

(1)本发明的训练数据集是从模拟器中生成的，因为本发明要解决的是工业界抓取的问题，为了避免再重新收集一个数据集，本发明选择在模拟器里面直接生成数据集，在模拟器里面训练的好处就是全程都是免费的，并且生成速度比较快，数据集想要多大规模就可以生成多大，与真实世界相比本发明不需要采购各种各样的螺母实体。

(2)整合训练集中不同类别的不同物体实例的先验信息，本发明引入知识驱动3D满切边归一化目标物体单位正方体空间表示方法，达到类级别实例的共有空间的表示，充分利用迁移学习知识，显著减少标注工作量，降低生产成本，显著提升产能和效益。

(3)采用知识驱动3D满切边归一化目标物体单位正方体空间表示，该方法的优越性在于即使待检测物体是不同形状的，它也可以在一个共有的单位正方体空间里，可以做类级别的6D物体姿态估计，相比于之前的单位立方体归一化方法，本发明的优点在于目标物可以贴合到立方体的六个面，因为之前的归一化方法是简单地按比例对原始目标物体模型进行缩放，而物体可以有高瘦或矮胖，大尺寸物理方向贴合对称边，而小尺寸物理方向缩进在单位立方体里面，比如高瘦物体的头顶和脚部分别贴合到单位立方体的顶面和底面，而侧面并没有接触到立方体侧面的四个面，给后续迁移学习带来困难，对给定一个新的物体，不曾在训练集里面出现过，也可以估计它的6D物体姿态。进一步可以利用类级别的表示方法来整合各个不同实例的先验信息，实现泛化迁移学习。

(4)因为本发明有真实正确标签的CAD模型，模拟器在生成过程中就已经同步标签数据了，所以可以精确计算出每个模型在知识驱动3D满贴面归一化目标物体单位正方体空间中的表示，优点是知识驱动归一化表示还可以给我们带来9D的迁移，因为本发明有了在知识驱动归一化空间预测出的一个点云之后，可以转变为一个点云匹配的问题，点云A在相机坐标系下，点云B在物体局部坐标系下，我们可以求解一个9D位姿，点云B的9D包括原来的6D位姿(6D包括3D平移和3D旋转)，还有3D是沿各个轴的尺度变化。9D求解方法用RANSAC，现在我们可以求解出一个6D物体姿态，以及它跟模板类的逐点的密集关联，实现超低时延实时推断，生产部署中性能显著优于目前其他同类方法。

在本发明构造的工业打磨数据集上进行性能对比分析，10个不同真实场景，采用2K的RGB-D数据，其中训练集规模2000个，验证集规模500个，测试集规模1500个用于工业打磨场景评估。将本发明的方法与现有其他方法进行比较：NOCS、CASS、FS-Net、DualPoseNet，其中NOCS引入了目标物体坐标空间表示，以在类级内部实现对象之间的一致表示；CASS才用变分自编码器捕获位姿无关性特征表示直接预测6D位姿。FS-Net提出了一种解耦旋转机制并使用双解码器来解码类别级位姿信息。DualPoseNet利用两个并行解码器显式地进行位姿估计。

结果如表中所示。本发明的方法在(5°,5cm)、(10°,5cm)和(15°,5cm)上分别实现了35.2、63.9和71.2的mAP。它比其他最好方法高出3.8、1.4和1.5，在工业打磨场景下本发明的算法性能具有显著的优越性。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种智能机器人的知识驱动3D视觉检测方法，其特征在于，包括以下步骤：

步骤3、对数据污损增强数据集

在模拟器里自动标注真实正确标签，包括实例分割的标签

步骤4、将数据污损增强数据集

以及实例标签

用于在测试或推理阶段对输入点云的预测；

步骤6、基于线下知识驱动数据集

2.根据权利要求1所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，步骤1中，模拟器根据设定参数仿真生成螺母3D模型，通过多次运行试验得到符合需求的训练数据集D。

3.根据权利要求1所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，在步骤1中生成训练数据集的具体方法如下：

步骤101、设置初始螺母3D模型，设计具有基本结构的螺母CAD模型作为种子；

步骤102、在模拟器中的空中随机生成n个螺母，每个螺母分别处在不同高度和不同的初始位姿朝向，其中n的取值范围是[10,20]的自然数，即n∈N，取值规则遵循均匀分布，共计取值50个，即在构造数据集的完整试验中n是一个50维向量，其向量元素是取值10到20的自然数，表示为n＝{n₁,n₂,…,n₅₀},n_i∈N,i＝1,2,…,50；

步骤103、释放随机生成n个螺母，做自由落体运动下落到其正下方承接框容器里面，通过设计微分方程模型来满足螺母的运动符合真实世界物理定律；

步骤104、采用仿真到现实的领域随机化方法，包括调整相机姿态，物体初始化姿态随机泛化，物体表面物理摩擦力范围参数适配，螺母刚体弹性系数微调；

步骤105、随机初始化空中螺母的高度设定为距离落地点20厘米到50厘米的高度范围，螺母高度值服从均匀分布；每个螺母的位姿朝向由3个参数，为相对于世界坐标系的三个坐标轴X,Y,Z的旋转角度α,β,γ决定，其中取值范围α∈[0,360),β∈[0,180),γ∈[0,360)，角度α,β,γ取值服从均匀分布；

步骤106、在上述约束条件以及参数设定基础上，依次选取n＝{n₁,n₂,…,n₅₀}中的取值，每个取值运行一次释放这些数量螺母的试验以构建物体堆放数据集，其中n_i,i＝1,2,…,25个螺母的释放是依次逐个单独释放，前一个螺母落到下方承接框容器里面稳定后，再释放下一个螺母；

步骤107、依次重复运行步骤105、106，共计运行试验25次，得到螺母数分别为n₁,n₂,…,n₂₅的试验结果数据集，分别编号为D₁,D₂,…,D₂₅；

步骤108、依次选取n＝{n₂₆,n₂₇,…,n₅₀}中的取值，每个取值n_i数量螺母运行一次释放的试验，其中n_i,i＝26,27,…,50，以构建物体堆放数据集；

步骤109、依次重复运行步骤105至步骤108，共计运行试验25次，得到螺母数分别为n₂₆,n₂₇,…,n₅₀的试验结果数据集，分别编号为D₂₆,D₂₇,…,D₅₀；

步骤110、组合数据集D₁,D₂,…,D₂₅和D₂₆,D₂₇,…,D₅₀，然后得到训练数据集D＝{D₁,D₂,…,D₅₀}即为所求数据集。

4.根据权利要求1所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，在步骤3中的知识驱动3D满贴面归一化目标物体单位正方体空间表示，所述知识驱动是指在构建连接器物理实体目标物体的3D深度模型基础上，通过领域泛化结合3D特征检测算法抽取多种形态连接器目标模型知识，包括常规朝向、部件结构关系，所构建的常识知识库，用于实现小样本标注到大量无监督数据的迁移学习，实现类级别的3D物体建模、检测与位姿估计方法有效泛化。

5.根据权利要求4所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，所述常识知识库的具体构造方法如下：

步骤301、选择具有代表性的形状各异的k个连接器，通过深度相机采集得到它们的点云数据，表示为

步骤302、构建单位正方体空间：构建边长都是单位1的正立方体

所有

中的每个物体模型

都初阶归一化到该单位正方体

中，(cloud-i)∈1,2,…,k，所述初阶归一化是指每个物体模型分别等比例缩放到单位长度，选择物体最大尺寸的轴向缩放到单位长度1，使得物体模型的最长尺寸轴贴合到单位正方体的两个相对面，而物体模型其他四个面都在正方体里面；

步骤303、对初步归一化模型进一步在X,Y,Z轴三个方向上做不等比例缩放，实现物体模型相对较小尺寸的四个面也完全贴合单位立方体的对应四个面，实现满贴面归一化，即立方体六个面都与物体模型相切贴合；

步骤304、做模型质心中心化变换：模型质心定义为物体材质均匀分布的几何中心，做X→Y→Z三个方向的均匀偏移。

6.根据权利要求5所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，在步骤304中做X→Y→Z三个方向的均匀偏移，假设质心处于单位正方体中心偏上方位置，即处于Z轴正上方δz，质心在X,Y轴向保持不变，在Z轴f负方向下移|δz|，模型所有点相应按比例偏移，使得物体各个轴向经过满贴面归一化之后匹配在一个相似的空间里面。

7.根据权利要求1所述的一种智能机器人的知识驱动3D视觉检测方法，其特征在于，步骤5中，实际物体点云设为

表示点数，6表示3个位置X,Y,Z坐标和3个法向量分量，目标物体单位正方体空间的表示，用

来代表，输出与输入是逐点一一对应的，也是

结构。