CN109948514A

CN109948514A - 基于单目标三维重建的工件快速识别与定位方法

Info

Publication number: CN109948514A
Application number: CN201910199355.0A
Authority: CN
Inventors: 徐显兵; 彭成斌; 肖江剑; 李现�; 张加焕
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-06-28

Abstract

本发明公开了一种基于单目标三维重建的工件快速识别与定位方法，其包括如下步骤：a)渲染工件三维模型，获取工件在设定三维坐标系中不同角度的图片作为训练图像，扩充训练集,将点云格式的三维模型转化为体素格式放入训练集；b)将二维图片与相应的三维模型进行匹配作为训练集；c)将所述训练集内的图像输入进行训练；d)训练完成后，保存权重，输入从相机中获取的单帧图像进行测试，重建出整个三维模型。本发明将单目标三维重建算法应用于工业生产中，通过单帧图像获取其三维模型，达到抓取与装配的目的；相比于目标检测算法，本发明的网络不需要任何的图像注释或对象类标签，效率比更高，准确度更高，鲁棒性更好。

Description

基于单目标三维重建的工件快速识别与定位方法

技术领域

本发明涉及一种深度学习算法与图像渲染技术，特别涉及一种基于单目标三维重建的工件快速识别与定位方法。

背景技术

在工业生产中，工件的自动抓取与装配问题困扰着许多制造商。传统的机械臂主要基于手动预定义的操作，并且具有较差的适应性和对复杂任务的低抗干扰能力。因此，它的应用非常有限。如今，制造商必须面对的工件通常具有不规则的形状和结构，具有各种姿态和位置。随着劳动力成本的增加和现代制造业的发展，传统机器人系统已不能满足工厂生产的需要。工件的自动识别抓取问题成为了生产线上的一个难点与热点。让机器人拥有像人一样的视觉能力，就能够很好的克服这些困难，并且减少失误率，减少工业生产中的人工成本。

机器视觉与目标检测技术密切相关，近年来深度学习技术已广泛运用到目标检测中，与传统的机器视觉和物体检测算法相比，深度学习具有更强大的计算性能，更广泛的应用范围和更好的实际效果。2014年，Ross Girshick等人提出了基于CNN特征图(CNN区域，R-CNN)的区域定位网络结构模型。将检测问题转化为分类问题，并在图像分类中取得了显着成功。随后Fast R-CNN、Faster R-CNN、SSD、YOLO等算法的出现，使得目标检测技术日益成熟，工件的分类与定位问题可以很好的解决，但要实现工件的自动装配，还需获得工件的三维姿态信息，这就成为了这整个抓取装配过程中的技术难题。

发明内容

本发明的主要目的在于提供一种基于单目标三维重建的工件快速识别与定位方法，该方法可以通过单帧图片获取与之对应的工件三维模型，从而实现工件的自动抓取与装配，进而克服现有技术中的不足。

为实现前述发明目的，本发明采用的技术方案包括：

本发明实施例提供了一种基于单目标三维重建的工件快速识别与定位方法，其包括如下步骤：

a)渲染工件三维模型，获取工件在设定三维坐标系中不同角度的图片作为训练图像，扩充训练集，将点云格式的三维模型转化为体素格式放入训练集；

b)将二维图片与相应的三维模型进行匹配作为训练集；

c)将所述训练集内的图像输入训练网络进行训练；

d)训练完成后，保存权重，输入获取的单帧图像进行测试，重建出整个三维模型。

在一些较为具体的实施方案中，步骤a)包括：将每一幅所述训练图像按照使工件绕所述设定三维坐标系的X、Y、Z轴旋转的角度进行标注，进行制作训练集。

在一些较为具体的实施方案中，步骤a)包括：定义选定姿势为参考取值，对应于该选定姿势，工件绕所述设定三维坐标系中X、Y、Z轴旋转的角度都为0°；以及，获取工件绕X轴、Y轴旋转-15°～14°以及绕Z轴旋转0°～90°的图片作为训练图像。

在一些较为具体的实施方案中，步骤c)包括：通过核心模块(3D ConvolutionalLSTM)对所述训练集内的图像输入进行训练。

在一些较为具体的实施方案中，步骤c)包括：

i、设置训练网络，所述训练网络包括编码器、核心模块(3D Convolutional LSTM)和解码器；

ii、将编码器提取到的特征输入到核心模块(3D Convolutional LSTM)中进行学习；

iii、基于损失函数对训练变量进行优化，得到测试结果。

在一些较为具体的实施方案中，所述核心模块(3D Convolutional LSTM)表述为：

f_t＝σ(W_fT(x_t)+U_f*h_t-1+b_f) 1)

i_t＝σ(W_iT(x_t)+U_i*h_t-1+b_i) 2)

h_t＝tanh(s_t) 4)

其中，i_t和f_t分别表示输入流和输出流,s_t和h_t分别表示记忆单元和隐藏层,x为输入图像，T(x)为低维特征，*为卷积操作。

在一些较为具体的实施方案中，所述损失函数的表述为：

式5)中(i,j,k)为每个体素的位置，其最终输出满足伯努利分布[1-p(i,j,k),p(i,j,k)]，y(i,j,k)为每个体素对应的训练样本真实值。

在一些较为具体的实施方案中，所述编码器采用带有残差网络的CNN网络结构。

在一些较为具体的实施方案中，所述步骤d)包括：保存训练好的权重后，输入单帧图片，输出与之对应的三维模型。

与现有技术相比，本发明的优点包括：

1)将单目标三维重建算法应用于工业生产中，通过单帧图像获取其三维模型，达到抓取与装配的目的；

2)相比于目标检测算法，本发明提供的网络不需要任何的图像注释或对象类标签；

3).与传统算法相比，本发明提供的方法更快，准确度更高，鲁棒性更好。

附图说明

图1是本发明一典型实施案例中一种基于单目标三维重建的工件快速识别与定位方法的流程图；

图2a-图2c分别是本发明一典型实施案例中实验测试工件不同角度的示意图；

图3是本发明一典型实施案例中体素格式的示意图；

图4是本发明一典型实施案例中算法结构示意图；

图5是本发明一典型实施案例中核心模块(3D Convolutional LSTM)的结构示意图；

图6a是本发明一典型实施案例中试验工件的结构示意图；

图6b、图6c分别是与图6a中工件对应的三维模型示意图。

具体实施方式

鉴于现有技术中的不足，本案发明人经长期研究和大量实践，得以提出本发明的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。

本实施例提供了一种基于单目标三维重建的工件快速识别与定位方法，其包括如下步骤：

a)通过OPENGL渲染工件三维模型，获取不同角度工件图片，扩充训练集；

b)将点云格式的三维模型转化为体素格式放入训练集，作为三维重建的GroundTruth(即前述训练样本真实值，下同)；

c)通过核心模块(3D Convolutional LSTM)进行学习；

d)训练完成后，保存权重，输入从相机中获取的单帧图像进行测试，重建出整个三维模型，即可实现工件的快速分类、定位、姿态估计，便于后续抓取与装配。

具体的，步骤a)包括图片的采集；在训练中使用的工件是图2a-图2c中所示的三种类型，它们在形状和尺寸上都有所不同，并且没有高度对称性；它们的体积较小，长、宽、高都大于2厘米，但不超过5厘米。以第一种工件为例，为了获得姿势信息，工件的3D CAD模型可以围绕轴旋转，并通过OPENGL来获得每个姿势图像；将某个姿势视为参考取值(0°，0°，0°)，表示围绕X、Y、Z轴旋转的角度都为0°；如果捕获每1°为差异的图像，则对于单一类型的工件总共有360³个训练图像；庞大的训练集导致大量计算和大量训练时间，建议采取部分常见姿势训练和测试；在实验中，绕X轴和Y轴的旋转角度是-15°到14°，绕Z轴的旋转角度在0°和90°之间，这样可以得到81000张图片，并可以准确地确定每张图片的旋转角度。

具体的，步骤b)包括体素格式的获取；在生成训练集二维图像之后，需要将每一幅图对应一个相应姿态的三维模型，由于二维图像本来就是讲对应姿态的三维模型投影而来，所以并不难得到相应的三维模型，而原三维模型的表现形式是obj格式的点云，为便于直观显示，将其转为体素格式，体素大小为32×32×32，如图3所示。

步骤c)具体包括以下步骤：

(c1)建立网络结构；网络结构包括三部分，如图4所示，分别为编码器、核心模块(3D Convolutional LSTM)、解码器。其中编码器是一个带有残差网络的CNN网络结构，可采用ResNet系列网络，通过层层卷积后全连接层得到的是一个1024维的向量，之后将编码提取到的特征输入到核心模块(3D Convolutional LSTM)中进行学习；关于LSTM，它是RNN的一种，通常用于输入为序列并具有相关性的情况。假若我们对一个物体拍摄多角度的图片，在对该物体进行三维重建时，每个角度的图片都是具有高度相关性和连续性的，因此可以将同一个物体不同视角的图片看作连续的序列输入到神经网络中，使神经网络拥有对之前图片的记忆性。最后用解码器(3D Deconvolutional NeuralNetwork)对其进行解码(decode)输出，解码器获取3D-LSTM隐藏状态并将它们转换为最终体素占用图。

(c2)核心模块(3D Convolutional LSTM)的计算；核心模块(3D ConvolutionalLSTM)的网络结构如图5所示，其表述如下：

f_t＝σ(W_fT(x_t)+U_f*h_t-1+b_f) 1)

i_t＝σ(W_iT(x_t)+U_i*h_t-1+b_i) 2)

h_t＝tanh(s_t) 4)

(c3)损失函数；网络的损失函数定义为体素方式的交叉熵的总和，令每个体素(i,j,k)的最终输出为伯努利分布[1-p(i,j,k)；p(i,j,k)]，输入为，相应的ground truth占有率为，最终的损失函数表示如下：

式5)中(i,j,k)为每个体素的位置，其最终输出满足伯努利分布[1-p(i,j,k),p(i,j,k)]，y(i,j,k)为每个体素对应的GroundTruth。

(c4)训练过程；在这一部分中，描述了训练方法，参数设置和变量保存，在整个训练过程中，我们使用批量大小为30，初始学习率为0.01，衰减率为0.1，步长为3000，周期为60，使用梯度下降优化器优化变量。通过连续训练，得出最终结果，保存权重。

具体的，步骤(d)包括实验测试；保存训练好的权重后，输入单帧图片，输出与之对应的三维模型，如图6所示。

相较于现有技术，本发明实施例提出了一种基于单目标三维重建的工件快速识别与定位方法，主要用于生产线上的工件抓取与装配，其优点包括以下几个方面：

2)相比于目标检测算法，本发明的网络不需要任何的图像注释或对象类标签；

3).与传统算法相比，这种方法更快，准确度更高，鲁棒性更好。

应当理解，上述实施例仅为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于单目标三维重建的工件快速识别与定位方法，其特征在于包括如下步骤：

b)将二维图片与相应的三维模型进行匹配作为训练集；

c)将所述训练集内的图像输入训练网络进行训练；

2.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于，步骤a)包括：将每一幅所述训练图像按照使工件绕所述设定三维坐标系的X、Y、Z轴旋转的角度进行标注，进行制作训练集。

3.根据权利要求2所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于，步骤a)包括：定义选定姿势为参考取值，对应于该选定姿势，工件绕所述设定三维坐标系中X、Y、Z轴旋转的角度都为0°；以及，获取工件绕X轴、Y轴旋转-15°～14°以及绕Z轴旋转0°～90°的图片作为训练图像。

4.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于，步骤c)包括：

i、设置训练网络，所述训练网络包括编码器、核心模块和解码器；

ii、将编码器提取到的特征输入到核心模块中进行学习；

iii、基于损失函数对训练变量进行优化，得到测试结果。

5.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于：所述核心模块表述为：

f_t＝σ(W_fT(x_t)+U_f*h_t-1+b_f) 1)

i_t＝σ(W_iT(x_t)+U_i*h_t-1+b_i) 2)

h_t＝tanh(s_t) 4)

6.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于：所述损失函数表述为：

7.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于，所述编码器采用带有残差网络的CNN网络结构。

8.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法，其特征在于，所述步骤d)包括：保存训练好的权重后，输入单帧图片，输出与之对应的三维模型。