CN110956663A

CN110956663A - 一种六维姿态估计的神经网络系统及神经网络方法

Info

Publication number: CN110956663A
Application number: CN201911270652.6A
Authority: CN
Inventors: 张耕慎; 宁立; 张涌; 林进挚
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-04-03
Anticipated expiration: 2039-12-12
Also published as: CN110956663B

Abstract

本发明提供的六维姿态估计的神经网络系统及神经网络方法，通过深度学习特征维度的比例，结合分别从二维RGB彩色图像和由深度图转换得到的三维点云中提取出的一定维度的两种特征再通过特征选择机制来选出两种特征的维度并按一定的比例进行融合，提高了神经网络的适应能力以及准确性，并可使工业机器人在工厂中进行抓取等任务时，能更好的适用于各种各样的工件，并提高抓取的精确度。

Description

一种六维姿态估计的神经网络系统及神经网络方法

技术领域

本发明涉及三维计算机视觉，特别涉及一种六维姿态估计的神经网络系统及神经网络方法。

背景技术

在日常生活中，我们无时无刻不进行着人和物体之间的交互。为了得到更好的交互效果，我们需要知道物体的六维姿态。举个例子，当我们需要伸手去拿桌子上的一支笔时，必须要知道这只笔在我们的什么方位，距离是多少以及笔是什么样的摆放。同理，机器也是这样的，它利用各种摄像头来获取所看见的物体的各种信息，来进行六维姿态的估计，然后做出后续的一些操作，比如机械臂的抓取，无人驾驶和增强现实等。

在三维计算机视觉里，六维姿态包括了三维的平移和三维的旋转。三维的平移是我们从摄像机坐标系原点开始沿着X、Y、Z轴移动到所观察物体的坐标系原点之间的距离。三维的平移可以表示为一个三维的向量

而三维的旋转可以看作，从摄像机坐标系到所观察物体的坐标系分别绕着X、Y、Z轴所旋转的角度，可以用一个3×3的矩阵来表示，即R∈SO(3)。最后，六维姿态可以用[R|t]来表示。

目前据我们所知，现有的方法是对所有物体按1比1的固定比例将二维RGB彩色图像和三维点云进行融合判断六维姿态。比如，DenseFusion分别处理二维RGB彩色图像输入信息和三维点云输入信息，并将这两种特征在每个像素上以1比1的维度比例融合在一起，用于后面的六维姿态估计。但是，二维RGB彩色图像和三维点云是两种完全不同的数据格式，它们所包含的信息是不同的。具体来说，二维RGB彩色图像提供了外观特征信息，比如颜色，纹理等，而三维点云具有几何特征信息，比如三维形状等。对于不用的物体来说，这两种特征信息的强度不一定是一样的，也就是说，可能有的物体的外观特征更加明显，有的物体的几何特征更加明显，而有的物体的两种特征差不多。因此，要找到每个物体的最佳特征比例，使更多有用的特征信息被使用。

发明内容

有鉴如此，有必要针对现有技术存在的缺陷，提供一种能够充分利用更有用的信息，有助于得到更好的结果的六维姿态估计的神经网络系统。

为实现上述目的，本发明采用下述技术方案：

本发明提供了一种六维姿态估计的神经网络系统，包括：

外观特征信息提取单元，用于提取出二维RGB彩色图像的外观特征信息；

几何特征信息提取单元，用于提取三维点云的几何特征信息；

特征选择机制单元，用于根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合；

六维姿态估计单元，用于根据融合后的特征进行六维姿态的估计。

在一些较佳的实施例中，所述外观特征信息提取单元通过带有Resnet-18的PSPNet提取出二维RGB彩色图像的外观特征信息。

在一些较佳的实施例中，所述几何特征信息提取单元通过PointNet提取三维点云的几何特征信息。

在一些较佳的实施例中，所述特征选择机制单元根据所述外观特征信息和几何特征信息，手动选取两种特征的维度并将两种特征融合，具体为：

利用卷积层的输出神经元数来对所述外观特征信息和几何特征信息的维度进行设置，调整其中一种特征的维度，使二者比例为1：2或2：1，再将调整后的所述外观特征信息和几何特征信息合并。

在一些较佳的实施例中，所述特征选择机制单元根据所述外观特征信息和几何特征信息，基于自动编码器自动选取两种特征的维度并将两种特征融合，具体为：

将所述外观特征信息和几何特征信息作为该特征选择机制单元的输入神经元，再经过一层或几层的全连接层的特征维度的选择后，输出总特征维度固定但两种特征的维度比例不固定的融合信息。

在一些较佳的实施例中，所述特征选择机制单元根据所述外观特征信息和几何特征信息，基于自动化机器学习自动选取两种特征的维度并将两种特征融合，具体为：

根据所述外观特征信息和几何特征信息设计特征选择机制单元中多种不同的神经网络子结构，每一种神经网络子结构会选出不同的总特征维度以及特征维度比例，并给每种神经网络子结构一个权重值；

通过对上述的神经网络子结构分别进行测试学习，得到不同的效果来影响着该神经网络结构对应的权重值；

选出权重值最大的神经网络结构作为该特征选择机制单元的网络结构；

所述该特征选择机制单元的网络结构根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

在一些较佳的实施例中，所述六维姿态估计单元，用于将融合后的特征通过DenseFusion进行六维姿态的估计。

另外，本发明还提供了一种六维姿态估计的神经网络方法，包括下述步骤：

提取出二维RGB彩色图像的外观特征信息；

提取三维点云的几何特征信息；

根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合；

根据融合后的特征进行六维姿态的估计。

在一些较佳的实施例中，提取出二维RGB彩色图像的外观特征信息，具体为：

通过带有Resnet-18的PSPNet提取出二维RGB彩色图像的外观特征信息。

在一些较佳的实施例中，提取三维点云的几何特征信息，具体为：

通过PointNet提取三维点云的几何特征信息。

在一些较佳的实施例中，根据所述外观特征信息和几何特征信息，手动选取两种特征的维度并将两种特征融合，具体为：

在一些较佳的实施例中，根据所述外观特征信息和几何特征信息，基于自动编码器自动选取两种特征的维度并将两种特征融合，具体为：

将所述外观特征信息和几何特征信息作为特征选择机制单元的输入神经元，再经过一层或几层的全连接层的特征维度的选择后，输出总特征维度固定但两种特征的维度比例不固定的融合信息。

在一些较佳的实施例中，根据所述外观特征信息和几何特征信息，基于自动化机器学习自动选取两种特征的维度并将两种特征融合，具体为：

选出权重值最大的神经网络结构作为特征选择机制单元的网络结构；

所述特征选择机制单元的网络结构根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

在一些较佳的实施例中，根据融合后的特征进行六维姿态的估计，具体为：

将融合后的特征通过DenseFusion进行六维姿态的估计。

本发明采用上述技术方案的优点是：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的六维姿态估计的神经网络系统的结构示意图。

图2为本发明实施例提供的通过人工选择的方式选取两种特征的维度并将两种特征融合的原理示意图。

图3为本发明实施例提供的通过基于自动编码器的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

图4为本发明实施例提供的通过基于自动化机器学习的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

图5为本发明实施例提供的六维姿态估计的神经网络系统原理示意图。

图6为本发明实施例二提供的一种六维姿态估计的神经网络方法的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅图1，为本发明提供了一种六维姿态估计的神经网络系统结构示意图，包括：外观特征信息提取单元110、几何特征信息提取单元120、特征选择机制单元130及六维姿态估计单元140。

所述外观特征信息提取单元110用于提取出二维RGB彩色图像的外观特征信息。

具体地，所述外观特征信息提取单元110通过带有Resnet-18的PSPNet提取出二维RGB彩色图像的外观特征信息。

所述几何特征信息提取单元120用于提取三维点云的几何特征信息。

具体地，所述几何特征信息提取单元120通过PointNet提取三维点云的几何特征信息。

所述特征选择机制单元130用于根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

在一些实施例中，通过人工选择的方式选取两种特征的维度并将两种特征融合。

请参阅图2，为通过人工选择的方式选取两种特征的维度并将两种特征融合的原理示意图。

在本实施例中，利用卷积层的输出神经元数来对所述外观特征信息和几何特征信息的维度进行设置，调整其中一种特征的维度，使二者比例为1：2或2：1，再将调整后的所述外观特征信息和几何特征信息合并。

在一些实施例中，通过基于自动编码器的选择自动选取两种特征的维度并将两种特征融合。

请参阅图3，为通过基于自动编码器的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

具体地，对前面特征提取得到的外观特征信息和几何特征信息作为该特征选择机制单元的输入神经元，然后经过一层或几层的全连接层的特征维度的选择后，再通过固定的输出神经元数，输出总特征维度固定但两种特征的维度比例不固定的融合信息。

可以理解，与一般的自动编码器不同的是，在这里使用的是对自动编码器的改进，一般的自动编码器的输入与输出维度是一样的大小，而本实施例不一定采用一样大小的输入输出，在此时的特征选择机制中会自动选择每个像素上的特征的维度比例，这意味着每个像素中都有最适合两种特征的组合方法。

在一些实施例中，通过基于自动化机器学习的选择自动选取两种特征的维度并将两种特征融合。

请参阅图4，为通过基于自动化机器学习的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

具体地，根据所述外观特征信息和几何特征信息设计该特征选择机制单元中多种不同的神经网络子结构，每一种神经网络子结构会选出不同的总特征维度以及特征维度比例，并给每种神经网络子结构一个权重值；通过对上述的神经网络子结构分别进行测试学习，得到不同的效果来影响着该神经网络结构对应的权重值；选出权重值最大的神经网络结构作为该特征选择机制单元的网络结构；所述该特征选择机制单元的网络结构根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

可以理解，与上述实施例的基于自动编码器的选择不同的是，基于自动化机器学习的网络结构是不固定的，即每一层的种类，隐藏层的数量，每层隐藏层的神经元数量，输出神经元的数量都不固定。根据网络的自主学习，自动选择最适合的总特征维度以及在每个像素上的外观特征和几何特征的特征维度的比例，具有最高的网络灵活性。

所述六维姿态估计单元140用于将融合后的特征通过DenseFusion进行六维姿态的估计。

请参阅图5，为本发明实施例提供的六维姿态估计的神经网络系统原理示意图。

可以理解，从二维RGB彩色图像中选取出了n个像素点，即(x1,y1),(x2,y2),…,(xn,yn)，将它们原始的RGB三维信息通过CNN模块提取出一定维度的外观特征。与此同时，从二维深度图像中找到这n个像素点，利用相机的内参对这n个像素点的深度值进行计算，将其转化成三维点云中的n个点。将这些点通过PointNet模块提取出一定维度的几何特征。然后将外观特征和几何特征送入我们的特征选择机制，选出一定比例的特征后，通过DenseFusion来预测六维姿态。

本发明提供的六维姿态估计的神经网络系统，通过深度学习特征维度的比例，结合分别从二维RGB彩色图像和由深度图转换得到的三维点云中提取出的一定维度的两种特征再通过特征选择机制来选出两种特征的维度并按一定的比例进行融合，提高了神经网络的适应能力以及准确性，并可使工业机器人在工厂中进行抓取等任务时，能更好的适用于各种各样的工件，并提高抓取的精确度。

实施例二

请参阅图6，为本发明提供了一种六维姿态估计的神经网络方法的步骤流程图，包括：

步骤S110：提取出二维RGB彩色图像的外观特征信息。

具体地，通过带有Resnet-18的PSPNet提取出二维RGB彩色图像的外观特征信息。

步骤S120：提取三维点云的几何特征信息。

具体地，通过PointNet提取三维点云的几何特征信息。

步骤S130：根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

请再参阅图2，为通过人工选择的方式选取两种特征的维度并将两种特征融合的原理示意图。

请再参阅图3，为通过基于自动编码器的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

具体地，对前面特征提取得到的外观特征信息和几何特征信息作为特征选择机制单元的输入神经元，然后经过一层或几层的全连接层的特征维度的选择后，再通过固定的输出神经元数，输出总特征维度固定但两种特征的维度比例不固定的融合信息。

可以理解，在这里使用的是对自动编码器的改进，自动编码器的输入与输出维度是一样的大小，而本实施例不一定采用一样大小的输入输出，在此时的特征选择机制中会自动选择每个像素上的特征的维度比例，这意味着每个像素中都有最适合两种特征的组合方法。

请再参阅图4，为通过基于自动化机器学习的选择自动选取两种特征的维度并将两种特征融合的原理示意图。

具体地，根据所述外观特征信息和几何特征信息设计特征选择机制单元中多种不同的神经网络子结构，每一种神经网络子结构会选出不同的总特征维度以及特征维度比例，并给每种神经网络子结构一个权重值；通过对上述的神经网络子结构分别进行测试学习，得到不同的效果来影响着该神经网络结构对应的权重值；选出权重值最大的神经网络结构作为特征选择机制单元的网络结构；所述特征选择机制单元的网络结构根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合。

步骤S140：根据融合后的特征进行六维姿态的估计。

具体地，将融合后的特征通过DenseFusion进行六维姿态的估计。

请再参阅图5，为本发明实施例提供的六维姿态估计的神经网络系统原理示意图。

本发明提供的六维姿态估计的神经网络方法，通过深度学习特征维度的比例，结合分别从二维RGB彩色图像和由深度图转换得到的三维点云中提取出的一定维度的两种特征再通过特征选择机制来选出两种特征的维度并按一定的比例进行融合，提高了神经网络的适应能力以及准确性，并可使工业机器人在工厂中进行抓取等任务时，能更好的适用于各种各样的工件，并提高抓取的精确度。

实施例

我们对本发明中的部分方案进行了对比实验，实验分成如下4个部分，具体地：

提取出二维RGB彩色图像的外观特征信息，提取三维点云的几何特征信息，根据所述外观特征信息和几何特征信息，自动选取两种特征的维度并将两种特征融合，根据融合后的特征进行六维姿态的估计。

DenseFusion：直接使用1比1的外观特征和几何特征融合。

人工选择：在DenseFusion之前，使用特征选择机制手动调整外观特征与几何特征的比例为1：2和2：1。

基于自动编码器的选择：在DenseFusion之前，在特征选择机制中插入一层神经网络，以便从外观特征和几何特征中自动选择更有价值的信息。

基于自动编码器的选择。在DenseFusion之前，在特征选择机制中插入几层神经网络自动来获取有用的信息。

表1准确率(单位％)

实验结果如表1所示，可以看出我们提出的方案的准确率在大多数物体上都超过了DenseFusion，且总的效果比DenseFusion好。

以上所述实施例的各技术特征可以进行任意的选择，为使描述简洁，未对上述实施例中的各个技术特征所有可能的选择都进行描述，然而，只要这些技术特征的选择不存在矛盾，都应当认为是本说明书记载的范围。

当然本发明的六维姿态估计的神经网络系统正极材料还可具有多种变换及改型，并不局限于上述实施方式的具体结构。总之，本发明的保护范围应包括那些对于本领域普通技术人员来说显而易见的变换或替代以及改型。

Claims

1.一种六维姿态估计的神经网络系统，其特征在于，包括：

2.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述外观特征信息提取单元通过带有Resnet-18的PSPNet提取出二维RGB彩色图像的外观特征信息。

3.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述几何特征信息提取单元通过PointNet提取三维点云的几何特征信息。

4.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述特征选择机制单元根据所述外观特征信息和几何特征信息，手动选取两种特征的维度并将两种特征融合，具体为：

5.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述特征选择机制单元根据所述外观特征信息和几何特征信息，基于自动编码器自动选取两种特征的维度并将两种特征融合，具体为：

6.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述特征选择机制单元根据所述外观特征信息和几何特征信息，基于自动化机器学习自动选取两种特征的维度并将两种特征融合，具体为：

7.如权利要求1所述的六维姿态估计的神经网络系统，其特征在于，所述六维姿态估计单元，用于将融合后的特征通过DenseFusion进行六维姿态的估计。

8.一种六维姿态估计的神经网络方法，其特征在于，包括下述步骤：

提取出二维RGB彩色图像的外观特征信息；

提取三维点云的几何特征信息；

根据融合后的特征进行六维姿态的估计。

9.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，提取出二维RGB彩色图像的外观特征信息，具体为：

10.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，提取三维点云的几何特征信息，具体为：

通过PointNet提取三维点云的几何特征信息。

11.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，根据所述外观特征信息和几何特征信息，手动选取两种特征的维度并将两种特征融合，具体为：

12.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，根据所述外观特征信息和几何特征信息，基于自动编码器自动选取两种特征的维度并将两种特征融合，具体为：

13.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，根据所述外观特征信息和几何特征信息，基于自动化机器学习自动选取两种特征的维度并将两种特征融合，具体为：

14.如权利要求8所述的六维姿态估计的神经网络方法，其特征在于，根据融合后的特征进行六维姿态的估计，具体为：

将融合后的特征通过DenseFusion进行六维姿态的估计。