CN109948514A - 基于单目标三维重建的工件快速识别与定位方法 - Google Patents

基于单目标三维重建的工件快速识别与定位方法 Download PDF

Info

Publication number
CN109948514A
CN109948514A CN201910199355.0A CN201910199355A CN109948514A CN 109948514 A CN109948514 A CN 109948514A CN 201910199355 A CN201910199355 A CN 201910199355A CN 109948514 A CN109948514 A CN 109948514A
Authority
CN
China
Prior art keywords
workpiece
training
threedimensional model
dimensional reconstruction
localization method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910199355.0A
Other languages
English (en)
Inventor
徐显兵
彭成斌
肖江剑
李现�
张加焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute of Material Technology and Engineering of CAS
Original Assignee
Ningbo Institute of Material Technology and Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute of Material Technology and Engineering of CAS filed Critical Ningbo Institute of Material Technology and Engineering of CAS
Priority to CN201910199355.0A priority Critical patent/CN109948514A/zh
Publication of CN109948514A publication Critical patent/CN109948514A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于单目标三维重建的工件快速识别与定位方法,其包括如下步骤:a)渲染工件三维模型,获取工件在设定三维坐标系中不同角度的图片作为训练图像,扩充训练集,将点云格式的三维模型转化为体素格式放入训练集;b)将二维图片与相应的三维模型进行匹配作为训练集;c)将所述训练集内的图像输入进行训练;d)训练完成后,保存权重,输入从相机中获取的单帧图像进行测试,重建出整个三维模型。本发明将单目标三维重建算法应用于工业生产中,通过单帧图像获取其三维模型,达到抓取与装配的目的;相比于目标检测算法,本发明的网络不需要任何的图像注释或对象类标签,效率比更高,准确度更高,鲁棒性更好。

Description

基于单目标三维重建的工件快速识别与定位方法
技术领域
本发明涉及一种深度学习算法与图像渲染技术,特别涉及一种基于单目标三维重建的工件快速识别与定位方法。
背景技术
在工业生产中,工件的自动抓取与装配问题困扰着许多制造商。传统的机械臂主要基于手动预定义的操作,并且具有较差的适应性和对复杂任务的低抗干扰能力。因此,它的应用非常有限。如今,制造商必须面对的工件通常具有不规则的形状和结构,具有各种姿态和位置。随着劳动力成本的增加和现代制造业的发展,传统机器人系统已不能满足工厂生产的需要。工件的自动识别抓取问题成为了生产线上的一个难点与热点。让机器人拥有像人一样的视觉能力,就能够很好的克服这些困难,并且减少失误率,减少工业生产中的人工成本。
机器视觉与目标检测技术密切相关,近年来深度学习技术已广泛运用到目标检测中,与传统的机器视觉和物体检测算法相比,深度学习具有更强大的计算性能,更广泛的应用范围和更好的实际效果。2014年,Ross Girshick等人提出了基于CNN特征图(CNN区域,R-CNN)的区域定位网络结构模型。将检测问题转化为分类问题,并在图像分类中取得了显着成功。随后Fast R-CNN、Faster R-CNN、SSD、YOLO等算法的出现,使得目标检测技术日益成熟,工件的分类与定位问题可以很好的解决,但要实现工件的自动装配,还需获得工件的三维姿态信息,这就成为了这整个抓取装配过程中的技术难题。
发明内容
本发明的主要目的在于提供一种基于单目标三维重建的工件快速识别与定位方法,该方法可以通过单帧图片获取与之对应的工件三维模型,从而实现工件的自动抓取与装配,进而克服现有技术中的不足。
为实现前述发明目的,本发明采用的技术方案包括:
本发明实施例提供了一种基于单目标三维重建的工件快速识别与定位方法,其包括如下步骤:
a)渲染工件三维模型,获取工件在设定三维坐标系中不同角度的图片作为训练图像,扩充训练集,将点云格式的三维模型转化为体素格式放入训练集;
b)将二维图片与相应的三维模型进行匹配作为训练集;
c)将所述训练集内的图像输入训练网络进行训练;
d)训练完成后,保存权重,输入获取的单帧图像进行测试,重建出整个三维模型。
在一些较为具体的实施方案中,步骤a)包括:将每一幅所述训练图像按照使工件绕所述设定三维坐标系的X、Y、Z轴旋转的角度进行标注,进行制作训练集。
在一些较为具体的实施方案中,步骤a)包括:定义选定姿势为参考取值,对应于该选定姿势,工件绕所述设定三维坐标系中X、Y、Z轴旋转的角度都为0°;以及,获取工件绕X轴、Y轴旋转-15°~14°以及绕Z轴旋转0°~90°的图片作为训练图像。
在一些较为具体的实施方案中,步骤c)包括:通过核心模块(3D ConvolutionalLSTM)对所述训练集内的图像输入进行训练。
在一些较为具体的实施方案中,步骤c)包括:
i、设置训练网络,所述训练网络包括编码器、核心模块(3D Convolutional LSTM)和解码器;
ii、将编码器提取到的特征输入到核心模块(3D Convolutional LSTM)中进行学习;
iii、基于损失函数对训练变量进行优化,得到测试结果。
在一些较为具体的实施方案中,所述核心模块(3D Convolutional LSTM)表述为:
ft=σ(WfT(xt)+Uf*ht-1+bf) 1)
it=σ(WiT(xt)+Ui*ht-1+bi) 2)
ht=tanh(st) 4)
其中,it和ft分别表示输入流和输出流,st和ht分别表示记忆单元和隐藏层,x为输入图像,T(x)为低维特征,*为卷积操作。
在一些较为具体的实施方案中,所述损失函数的表述为:
式5)中(i,j,k)为每个体素的位置,其最终输出满足伯努利分布[1-p(i,j,k),p(i,j,k)],y(i,j,k)为每个体素对应的训练样本真实值。
在一些较为具体的实施方案中,所述编码器采用带有残差网络的CNN网络结构。
在一些较为具体的实施方案中,所述步骤d)包括:保存训练好的权重后,输入单帧图片,输出与之对应的三维模型。
与现有技术相比,本发明的优点包括:
1)将单目标三维重建算法应用于工业生产中,通过单帧图像获取其三维模型,达到抓取与装配的目的;
2)相比于目标检测算法,本发明提供的网络不需要任何的图像注释或对象类标签;
3).与传统算法相比,本发明提供的方法更快,准确度更高,鲁棒性更好。
附图说明
图1是本发明一典型实施案例中一种基于单目标三维重建的工件快速识别与定位方法的流程图;
图2a-图2c分别是本发明一典型实施案例中实验测试工件不同角度的示意图;
图3是本发明一典型实施案例中体素格式的示意图;
图4是本发明一典型实施案例中算法结构示意图;
图5是本发明一典型实施案例中核心模块(3D Convolutional LSTM)的结构示意图;
图6a是本发明一典型实施案例中试验工件的结构示意图;
图6b、图6c分别是与图6a中工件对应的三维模型示意图。
具体实施方式
鉴于现有技术中的不足,本案发明人经长期研究和大量实践,得以提出本发明的技术方案。如下将对该技术方案、其实施过程及原理等作进一步的解释说明。
本实施例提供了一种基于单目标三维重建的工件快速识别与定位方法,其包括如下步骤:
a)通过OPENGL渲染工件三维模型,获取不同角度工件图片,扩充训练集;
b)将点云格式的三维模型转化为体素格式放入训练集,作为三维重建的GroundTruth(即前述训练样本真实值,下同);
c)通过核心模块(3D Convolutional LSTM)进行学习;
d)训练完成后,保存权重,输入从相机中获取的单帧图像进行测试,重建出整个三维模型,即可实现工件的快速分类、定位、姿态估计,便于后续抓取与装配。
具体的,步骤a)包括图片的采集;在训练中使用的工件是图2a-图2c中所示的三种类型,它们在形状和尺寸上都有所不同,并且没有高度对称性;它们的体积较小,长、宽、高都大于2厘米,但不超过5厘米。以第一种工件为例,为了获得姿势信息,工件的3D CAD模型可以围绕轴旋转,并通过OPENGL来获得每个姿势图像;将某个姿势视为参考取值(0°,0°,0°),表示围绕X、Y、Z轴旋转的角度都为0°;如果捕获每1°为差异的图像,则对于单一类型的工件总共有3603个训练图像;庞大的训练集导致大量计算和大量训练时间,建议采取部分常见姿势训练和测试;在实验中,绕X轴和Y轴的旋转角度是-15°到14°,绕Z轴的旋转角度在0°和90°之间,这样可以得到81000张图片,并可以准确地确定每张图片的旋转角度。
具体的,步骤b)包括体素格式的获取;在生成训练集二维图像之后,需要将每一幅图对应一个相应姿态的三维模型,由于二维图像本来就是讲对应姿态的三维模型投影而来,所以并不难得到相应的三维模型,而原三维模型的表现形式是obj格式的点云,为便于直观显示,将其转为体素格式,体素大小为32×32×32,如图3所示。
步骤c)具体包括以下步骤:
(c1)建立网络结构;网络结构包括三部分,如图4所示,分别为编码器、核心模块(3D Convolutional LSTM)、解码器。其中编码器是一个带有残差网络的CNN网络结构,可采用ResNet系列网络,通过层层卷积后全连接层得到的是一个1024维的向量,之后将编码提取到的特征输入到核心模块(3D Convolutional LSTM)中进行学习;关于LSTM,它是RNN的一种,通常用于输入为序列并具有相关性的情况。假若我们对一个物体拍摄多角度的图片,在对该物体进行三维重建时,每个角度的图片都是具有高度相关性和连续性的,因此可以将同一个物体不同视角的图片看作连续的序列输入到神经网络中,使神经网络拥有对之前图片的记忆性。最后用解码器(3D Deconvolutional NeuralNetwork)对其进行解码(decode)输出,解码器获取3D-LSTM隐藏状态并将它们转换为最终体素占用图。
(c2)核心模块(3D Convolutional LSTM)的计算;核心模块(3D ConvolutionalLSTM)的网络结构如图5所示,其表述如下:
ft=σ(WfT(xt)+Uf*ht-1+bf) 1)
it=σ(WiT(xt)+Ui*ht-1+bi) 2)
ht=tanh(st) 4)
其中,it和ft分别表示输入流和输出流,st和ht分别表示记忆单元和隐藏层,x为输入图像,T(x)为低维特征,*为卷积操作。
(c3)损失函数;网络的损失函数定义为体素方式的交叉熵的总和,令每个体素(i,j,k)的最终输出为伯努利分布[1-p(i,j,k);p(i,j,k)],输入为,相应的ground truth占有率为,最终的损失函数表示如下:
式5)中(i,j,k)为每个体素的位置,其最终输出满足伯努利分布[1-p(i,j,k),p(i,j,k)],y(i,j,k)为每个体素对应的GroundTruth。
(c4)训练过程;在这一部分中,描述了训练方法,参数设置和变量保存,在整个训练过程中,我们使用批量大小为30,初始学习率为0.01,衰减率为0.1,步长为3000,周期为60,使用梯度下降优化器优化变量。通过连续训练,得出最终结果,保存权重。
具体的,步骤(d)包括实验测试;保存训练好的权重后,输入单帧图片,输出与之对应的三维模型,如图6所示。
相较于现有技术,本发明实施例提出了一种基于单目标三维重建的工件快速识别与定位方法,主要用于生产线上的工件抓取与装配,其优点包括以下几个方面:
1)将单目标三维重建算法应用于工业生产中,通过单帧图像获取其三维模型,达到抓取与装配的目的;
2)相比于目标检测算法,本发明的网络不需要任何的图像注释或对象类标签;
3).与传统算法相比,这种方法更快,准确度更高,鲁棒性更好。
应当理解,上述实施例仅为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于单目标三维重建的工件快速识别与定位方法,其特征在于包括如下步骤:
a)渲染工件三维模型,获取工件在设定三维坐标系中不同角度的图片作为训练图像,扩充训练集,将点云格式的三维模型转化为体素格式放入训练集;
b)将二维图片与相应的三维模型进行匹配作为训练集;
c)将所述训练集内的图像输入训练网络进行训练;
d)训练完成后,保存权重,输入获取的单帧图像进行测试,重建出整个三维模型。
2.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于,步骤a)包括:将每一幅所述训练图像按照使工件绕所述设定三维坐标系的X、Y、Z轴旋转的角度进行标注,进行制作训练集。
3.根据权利要求2所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于,步骤a)包括:定义选定姿势为参考取值,对应于该选定姿势,工件绕所述设定三维坐标系中X、Y、Z轴旋转的角度都为0°;以及,获取工件绕X轴、Y轴旋转-15°~14°以及绕Z轴旋转0°~90°的图片作为训练图像。
4.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于,步骤c)包括:
i、设置训练网络,所述训练网络包括编码器、核心模块和解码器;
ii、将编码器提取到的特征输入到核心模块中进行学习;
iii、基于损失函数对训练变量进行优化,得到测试结果。
5.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于:所述核心模块表述为:
ft=σ(WfT(xt)+Uf*ht-1+bf) 1)
it=σ(WiT(xt)+Ui*ht-1+bi) 2)
ht=tanh(st) 4)
其中,it和ft分别表示输入流和输出流,st和ht分别表示记忆单元和隐藏层,x为输入图像,T(x)为低维特征,*为卷积操作。
6.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于:所述损失函数表述为:
式5)中(i,j,k)为每个体素的位置,其最终输出满足伯努利分布[1-p(i,j,k),p(i,j,k)],y(i,j,k)为每个体素对应的训练样本真实值。
7.根据权利要求4所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于,所述编码器采用带有残差网络的CNN网络结构。
8.根据权利要求1所述的基于单目标三维重建的工件快速识别与定位方法,其特征在于,所述步骤d)包括:保存训练好的权重后,输入单帧图片,输出与之对应的三维模型。
CN201910199355.0A 2019-03-15 2019-03-15 基于单目标三维重建的工件快速识别与定位方法 Pending CN109948514A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910199355.0A CN109948514A (zh) 2019-03-15 2019-03-15 基于单目标三维重建的工件快速识别与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910199355.0A CN109948514A (zh) 2019-03-15 2019-03-15 基于单目标三维重建的工件快速识别与定位方法

Publications (1)

Publication Number Publication Date
CN109948514A true CN109948514A (zh) 2019-06-28

Family

ID=67010204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910199355.0A Pending CN109948514A (zh) 2019-03-15 2019-03-15 基于单目标三维重建的工件快速识别与定位方法

Country Status (1)

Country Link
CN (1) CN109948514A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110271006A (zh) * 2019-07-19 2019-09-24 北京农业智能装备技术研究中心 机械臂视觉引导方法及装置
CN110443810A (zh) * 2019-07-17 2019-11-12 北京建筑大学 基于快速邻接体素查询的点云平面分割方法
CN112700499A (zh) * 2020-11-04 2021-04-23 南京理工大学 一种辐照环境下基于深度学习的视觉定位仿真方法及系统
CN112734727A (zh) * 2021-01-11 2021-04-30 安徽理工大学 一种基于改进深度神经网络的苹果采摘方法
CN114078152A (zh) * 2020-08-20 2022-02-22 北京瓦特曼科技有限公司 一种基于三维重建的机器人碳块清理方法
US11676406B2 (en) 2020-05-20 2023-06-13 Applications Mobiles Overview Inc. System and method of augmenting a three-dimensional objects training dataset

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106872476A (zh) * 2017-03-31 2017-06-20 武汉理工大学 一种基于线结构光的铸造类工件表面质量检测方法与系统
CN107862741A (zh) * 2017-12-10 2018-03-30 中国海洋大学 一种基于深度学习的单帧图像三维重建装置及方法
CN109029257A (zh) * 2018-07-12 2018-12-18 中国科学院自动化研究所 基于立体视觉和结构光视觉的大型工件位姿测量系统、方法
CN109101966A (zh) * 2018-06-08 2018-12-28 中国科学院宁波材料技术与工程研究所 基于深度学习的工件识别定位和姿态估计系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106872476A (zh) * 2017-03-31 2017-06-20 武汉理工大学 一种基于线结构光的铸造类工件表面质量检测方法与系统
CN107862741A (zh) * 2017-12-10 2018-03-30 中国海洋大学 一种基于深度学习的单帧图像三维重建装置及方法
CN109101966A (zh) * 2018-06-08 2018-12-28 中国科学院宁波材料技术与工程研究所 基于深度学习的工件识别定位和姿态估计系统和方法
CN109029257A (zh) * 2018-07-12 2018-12-18 中国科学院自动化研究所 基于立体视觉和结构光视觉的大型工件位姿测量系统、方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHRISTOPHER B. CHOY ET AL: "3D-R2N2: A Unied Approach for Single and Multi-view 3D Object Reconstruction", 《ARXIV》 *
XIANBING XU ET AL: "A Fast Positioning Algorithm Based on 3D Posture Recognition", 《INTERNATIONAL CONFERENCE ON INTELLIGENT SCIENCE AND BIG DATA ENGINEERING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443810A (zh) * 2019-07-17 2019-11-12 北京建筑大学 基于快速邻接体素查询的点云平面分割方法
CN110271006A (zh) * 2019-07-19 2019-09-24 北京农业智能装备技术研究中心 机械臂视觉引导方法及装置
US11676406B2 (en) 2020-05-20 2023-06-13 Applications Mobiles Overview Inc. System and method of augmenting a three-dimensional objects training dataset
CN114078152A (zh) * 2020-08-20 2022-02-22 北京瓦特曼科技有限公司 一种基于三维重建的机器人碳块清理方法
CN114078152B (zh) * 2020-08-20 2023-05-02 北京瓦特曼科技有限公司 一种基于三维重建的机器人碳块清理方法
CN112700499A (zh) * 2020-11-04 2021-04-23 南京理工大学 一种辐照环境下基于深度学习的视觉定位仿真方法及系统
CN112700499B (zh) * 2020-11-04 2022-09-13 南京理工大学 一种辐照环境下基于深度学习的视觉定位仿真方法及系统
CN112734727A (zh) * 2021-01-11 2021-04-30 安徽理工大学 一种基于改进深度神经网络的苹果采摘方法

Similar Documents

Publication Publication Date Title
CN109948514A (zh) 基于单目标三维重建的工件快速识别与定位方法
CN109101966A (zh) 基于深度学习的工件识别定位和姿态估计系统和方法
CN109816725A (zh) 一种基于深度学习的单目相机物体位姿估计方法及装置
CN110349247B (zh) 一种基于语义理解的室内场景cad三维重建方法
CN110992317A (zh) 一种基于语义分割的pcb板缺陷检测方法
CN108416428B (zh) 一种基于卷积神经网络的机器人视觉定位方法
CN112070727B (zh) 一种基于机器学习的金属表面缺陷检测方法
CN107633272B (zh) 一种基于小样本下压缩感知的dcnn纹理疵点识别方法
CN108985337A (zh) 一种基于图像深度学习的产品表面划痕检测方法
CN110992422B (zh) 一种基于3d视觉的药盒姿态估计方法
CN114332214A (zh) 物体姿态估计方法、装置、电子设备及存储介质
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
CN115330734A (zh) 一种基于三维目标检测和点云缺陷补全的自动化机器人补焊系统
CN113927597A (zh) 基于深度学习的机器人连接件六自由度位姿估计系统
CN115965960A (zh) 一种基于深度学习与3d点云的焊缝识别方法
CN111951226A (zh) 一种基于x光图像的多尺度违禁品检测系统及方法
CN115496862A (zh) 基于spin模型的实时三维重建方法和系统
Jeon et al. Struct-MDC: Mesh-refined unsupervised depth completion leveraging structural regularities from visual SLAM
Ikeda et al. Sim2Real instance-level style transfer for 6D pose estimation
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN110516527A (zh) 一种基于实例分割的视觉slam回环检测改进方法
CN117351078A (zh) 基于形状先验的目标尺寸与6d姿态估计方法
CN113420776A (zh) 一种基于模型融合的多侧面联合检测物品分类方法
CN115719363B (zh) 可进行二维动态检测和三维重建的环境感知方法与系统
CN117079125A (zh) 一种基于改进型YOLOv5的猕猴桃授粉花朵识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication