CN113012122B - 一种类别级6d位姿与尺寸估计方法及装置 - Google Patents
一种类别级6d位姿与尺寸估计方法及装置 Download PDFInfo
- Publication number
- CN113012122B CN113012122B CN202110266160.0A CN202110266160A CN113012122B CN 113012122 B CN113012122 B CN 113012122B CN 202110266160 A CN202110266160 A CN 202110266160A CN 113012122 B CN113012122 B CN 113012122B
- Authority
- CN
- China
- Prior art keywords
- point cloud
- cloud data
- target object
- template
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 15
- 238000011084 recovery Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/77—Determining position or orientation of objects or cameras using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/08—Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种类别级6D位姿与尺寸估计方法及装置,基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计,其特征在于,包括如下步骤:基于相机内参将深度观测数据重投影到三维空间并归一化,得到目标物体的部分观测点云数据;根据目标物体从模板点云数据库中选出与目标类型相同的规范化模板点云数据;基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸。本发明的类别级6D位姿与尺寸估计方法及装置,可以准确估计出类别已知但未见过实例物体的6D位姿和尺寸,具有较高的准确性、泛化能力以及实用性。
Description
技术领域
本发明属于数据识别领域,具体涉及一种类别级6D位姿与尺寸估计方法及装置。
背景技术
在增强现实、场景理解任务中,尤其是机器人应用领域,准确估计目标物体的6D位姿(空间中的3D位移和3D旋转)尤为重要。目前大多数现有技术在“实例级”6D物体位姿估计已经达到非常高的精度,但是这些方法都比较依赖事先提供的关于相关目标物体的精确三维模型,从而限制了算法泛化推广到未知实例的能力。
近年来,“类别级”6D物体位姿和尺寸估计技术尝试解决上述问题。目前绝大多数方法是考虑从彩色(RGB)或者RGB-深度(RGB-D)通道提取特征进而进行估计。但由于同类别内的物体在几何、纹理上会存在类别内差异,使得现有模型的泛化能力较差。例如:
文[1]中先将实例物体的彩色像素观测(RGB)映射到归一化的规范表示空间(NOCS)中,然后根据其实际深度观测(D)和规范表示空间中表达式之间的仿射变换关系得到实际6D位姿和尺寸,但该方法主要学习从像素观测到规范空间的映射关系,纹理上的极大的类内差异使得其估计效果较差。
文[2]中则是提取RGB-D通道的特征并进行融合,但其实验结果表明,使得模型性能提升的因素是RGB通道提取的特征为主。而RGB和D通道存在固有差异,文[2]中的融合方式难以充分探索和利用来自D通道的几何信息。
文[3]中是通过帧跟踪的方式来进行目标物体的实时6D位姿估计,但该方法需要事先提供目标物体初始的6D位姿和尺寸,另外,该方法中的一个网络模型只能针对单一类别内物体,限制了其拓展到移动设备上的潜力。
综上,现有的类别级6D位姿和尺寸估计方法泛化能力均较差。
参考文献
[1]Wang H,Sridhar S,Huang J,et al.Normalized object coordinate spacefor category-level 6d object pose and size estimation[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition.2019:2642-2651.
[2]Tian M,Ang M H,Lee G H.Shape Prior Deformation for Categorical 6DObject Pose and Size Estimation[C]//European Conference on ComputerVision.Springer,Cham,2020:530-546.
[3]Wang C,Martín-Martín R,Xu D,et al.6-pack:Category-level 6d posetracker with anchor-based keypoints[C]//2020IEEE International Conference onRobotics and Automation(ICRA).IEEE,2020:10059-10066.
发明内容
为解决上述问题,提供了一种能够针对不同的类别已知但未见过实例的目标物体进行6D位姿与尺寸估计,本发明采用了如下技术方案:
本发明提供了一种类别级6D位姿与尺寸估计方法,基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计,其特征在于,包括如下步骤:步骤S1-1,基于相机内参将深度观测数据重投影到三维空间并归一化,从而得到目标物体的部分观测点云数据;步骤S1-2,根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据;步骤S1-3,基于部分观测点云数据以及规范化模板点云数据利用预先训练好的几何特征学习网络对目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸,其中,几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络,朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向,从而得到与目标物体朝向一致的模板模型的朝向一致点云数据,并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册,从而得到目标物体的3D朝向,几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复,从而得到反射对称点云数据,尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸,根据3D朝向以及中心坐标得到预测位姿,并将空间尺寸作为预测尺寸。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,尺度估计子网络包括稠密中心投票模块以及尺寸估计模块,尺度估计子网络为去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量,并从去中心化点云组数据中提取得到尺度特征,稠密中心投票模块基于预测偏移向量通过加权机制裁决得到目标物体的中心坐标,尺寸估计模块根据尺度特征得到目标物体的空间尺寸。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,模板点云数据库的构建包括如下步骤:步骤S2-1,从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型;步骤S2-2,依次对模板模型进行采样,得到每一类别的三维模板形状点云;步骤S2-3,利用最远距离采样算法依次从三维模板形状点云中采样出多个用于表征物体形状的稀疏关键点,作为每一类别物体的模板点云数据;步骤S2-4,依次将模板点云数据中的大小、中心位置以及朝向进行规范化处理,得到每一模板模型对应的规范化模板点云数据。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,图像包括RGB图像以及与该RGB图像对齐的深度图像,深度观测数据包括如下预处理步骤:步骤S3-1,利用实例分割技术从RGB图像中分割得到目标物体的分割掩膜以及目标物体的预测类别;步骤S3-2,基于分割掩膜从深度图像中提取得到目标物体的深度观测数据。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,几何反射对称子网络对部分观测点云数据进行的反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,几何特征学习网络训练过程中预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据,并对该合成深度数据进行重投影得到用于训练的部分观测点云数据,作为物体局部点云数据。
根据本发明提供的一种类别级6D位姿与尺寸估计方法,还可以具有这样的技术特征,其中,几何特征学习网络训练过程中基于预定的损失函数进行训练更新,损失函数包括关键点重建损失、对称性预测损失、向心距离加权向量损失以及尺寸估计损失。
本发明提供了一种类别级6D位姿与尺寸估计装置,基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计,其特征在于,包括:深度数据处理模块,基于相机内参将深度观测数据重投影到三维空间并归一化,从而得到部分观测点云数据;模板点云确定模块,根据目标物体的目标类别利用预先训练好的几何特征学习网络从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据;以及位姿尺寸预测模块,基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸,其中,几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络,朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向,从而得到与目标物体朝向一致的模板模型的朝向一致点云数据,并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册,从而得到目标物体的3D朝向,几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称,从而得到反射对称点云数据,尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸,根据3D朝向以及中心坐标得到预测位姿,并将空间尺寸作为预测尺寸。
发明作用与效果
根据本发明的一种类别级6D位姿与尺寸估计方法及装置,由于根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据,从而让后续的几何特征学习网络能够学习并归纳出同一类别内物体在几何上的类内差异以及语义形状对应关系。因此,可以针对不同类别已知但未见过实例的目标物体进行6D位姿与尺寸估计,具有较好的泛化能力。
由于朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向,从而得到与目标物体朝向一致的模板模型的朝向一致点云数据,因此隐式学习了类内物体的语义对应关系,间接恢复物体的3D朝向,充分利用了深度观测数据更具有区分性、类内误差相对小的特点,从而克服了同类别内的物体在几何、纹理上会存在类别内差异的问题。
另外,由于几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复从而得到反射对称点云数据,因此通过物体在几何上存在反射对称的先验假设,实现物体的朝向表征解耦和形状理解,并且可以为点云补全操作从而获得更完整形状。
由于尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,因此将点云搬移到与真实中心更接近的中心位置进行了进一步优化,从而减小了预测偏移,为后续逐点潜在中心偏移向量和整体尺寸提供更为准确的预测。
通过本发明的类别级6D位姿与尺寸估计方法及装置,可以准确估计出类别已知但未见过实例物体的6D位姿和尺寸,具有较高的准确性、泛化能力以及实用性。可以应用在工业领域、AR领域,例如,工业中机械臂可以根据6D位姿与尺寸估计结果更精准地抓取放置目标物。
附图说明
图1为本发明实施例的一种类别级6D位姿与尺寸估计方法的流程图;
图2为本发明实施例的规范化模板点云数据的示例图;
图3为本发明实施例的几何特征学习网络的结构示意图;以及
图4为本发明实施例的位姿与尺寸估计实验结果对比图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种类别级6D位姿与尺寸估计方法及装置作具体阐述。
<实施例>
本实施例中一种类别级6D位姿与尺寸估计方法及装置是对类别已知但是未见过的实例物体(即目标物体)进行估计。
图1为本发明实施例的一种类别级6D位姿与尺寸估计方法的流程图。
如图1所示,一种类别级6D位姿与尺寸估计方法包括如下步骤:
步骤S1-1,基于相机内参将深度观测数据重投影到三维空间并归一化,从而得到部分观测点云数据。
其中,深度观测数据基于利用相机拍摄到的RGB图像以及与该RGB图像对齐的深度图像得到,包括如下预处理步骤:
步骤S3-1,利用实例分割技术从RGB图像中分割得到目标物体的分割掩膜以及目标物体的预测类别;
步骤S3-2,基于分割掩膜从深度图像中提取得到目标物体的深度观测数据。
步骤S1-2,根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据。
其中,模板点云数据库的构建包括如下步骤:
步骤S2-1,从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型。
本实施例中,3D数据库为ShapeNet数据集,该ShapeNet数据集中包含各种常见类别的物体的计算机辅助设计生成的CAD模型,从所有类别中选择6个常见的类别(如图2所示,分别为饮料瓶、碗、相机、罐头、笔记本电脑以及马克杯)作为本发明的类别级6D位姿与尺寸估计方法及装置的实验基础。
同时,从每个常见类别的多个CAD模型中随机选取一个作为该常见类别的模板模型。
另外,对6个常见类别的所有的CAD模型按照80:20的比例划分训练用数据集与测试用数据集。
步骤S2-2,依次对模板模型进行采样,得到每一类别的三维模板形状点云。
本实施例中,利用Meshlab软件提供的泊松盘采样在CAD模板模型上进行采样,得到顶点个数约3000-5000的三维模板形状点云。
步骤S2-3,利用最远距离采样算法依次从三维模板形状点云中采样出多个用于表征物体形状且具有最远距离的稀疏关键点,作为每一类别物体的模板点云数据,从而最大限度保留三维模板形状点云的几何形状。
步骤S2-4,依次将模板点云数据中的大小、中心位置以及朝向进行规范化处理,得到每一模板模型对应的规范化模板点云数据。
步骤S1-3,基于部分观测点云数据以及规范化模板点云数据利用几何特征学习网络对目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸。
图3为本发明实施例的几何特征学习网络的结构示意图。
如图3所示,几何特征学习网络包括朝向一致性子网络(简称3D-OCR)、几何反射对称子网络(简称GeoReS)以及尺度估计子网络(简称MPDE)。
朝向一致性子网络为一个用于处理点云朝向的编解码器,几何反射对称子网络为一个用于处理点云对称的编解码器,尺度估计子网络为一个用于处理点云尺寸的编解码器。
朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向,从而得到与目标物体朝向一致的模板模型的朝向一致点云数据,并利用仿射变换对规范化模板点云数据以及朝向一致点云数据进行点云注册,从而得到目标物体的3D朝向。
几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称性点云恢复,完成对部分观测点云数据进行补全,从而得到反射对称点云数据。
具体地,几何反射对称子网络将模板形状特征观测物体形状特征以及部分观测点云数据(即部分物体点云)进行拼接生成几何逐点嵌入编码,再通过几何反射对称子网络中的解码器进行预测,得到反射对称点云数据该反射对称点云数据与部分观测点云数据为反射对称关系。
另外,反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。
尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,并基于该去中心化点云组数据得到目标物体的中心坐标以及目标物体的空间尺寸。
其中,尺度估计子网络包括稠密中心投票模块以及尺寸估计模块。
尺度估计子网络为去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量,并从去中心化点云组数据中提取得到尺度特征。
稠密中心投票模块基于预测偏移向量通过加权机制裁决得到目标物体的中心坐标。
尺寸估计模块根据尺度特征得到目标物体的空间尺寸。
根据3D朝向以及中心坐标得到预测位姿,并将空间尺寸作为预测尺寸。
在几何特征学习网络训练过程中,不需要采集包含目标物体的深度图像以及RGB图像,而是通过合成手段基于每一类别的不同CAD模型的相关数据进行合成,从而得到合成深度数据作为训练几何特征学习网络的训练数据。具体地:
需要预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据,并对该合成深度数据进行重投影得到用于训练的部分观测点云数据,作为物体局部点云数据。
首先,通过随机设置相机位姿从而完成对深度图片的渲染,得到每个CAD模型在不同视角下对应的渲染深度图,并记录相机位姿的相机外参。其中,通过渲染软件Blender编程渲染深度图片,每个CAD模型选取60张不同视角下的渲染深度图作为合成深度数据,并获取合成深度数据中每一张渲染深度图的相机内部参数和外部参数作为相机参数。
其次,对合成深度数据进行重投影得到用于训练的部分观测点云数据,作为物体局部点云数据。
接下来,对合成深度数据、规范化模板点云数据以及对应的相机参数进行处理,得到朝向一致性点云真实值以及物体对称性点云真实值,根据物体局部点云数据对应的相机内参得到物体局部点云数据的中心真实值以及尺寸真实值。
然后,基于物体局部点云数据、规范化模板点云数据、朝向一致性点云真实值、物体对称性点云真实值、中心真实值以及尺寸真实值对几何特征学习网络训练。
另外,在训练过程中,尺度估计子网络直接将部分观测点云数据与真实值对称点云组成点云组数据,并进行后续的去中心化。
在上述几何特征学习网络训练过程中基于预定的损失函数进行训练更新。该损失函数包括关键点重建损失(Keypoint Reconstruction Loss)、对称性预测损失(SymmetryPrediction Loss)、向心距离加权向量损失(Centripetal Distance-weighted VectorLoss)以及尺寸估计损失(Size Loss)。
其中,关键点重建损失用于使得朝向一致点云数据中的顶点逼近真实坐标;对称性预测损失用于监督反射对称点云数据的学习和生成;向心距离加权向量损失用于监督逐点产生一个指向目标物体潜在中心的方向权重向量,以及后续最终中心点的裁决;尺寸估计损失用于监督网络对尺寸的回归精度。
几何特征学习网络利用反向传播算法以梯度下降算法优化训练得到。具体地,利用Adam优化器对网络进行优化,系数betas=(0.9,0.999),权重衰减系数为0。总共训练大约200轮直至收敛,初始学习率为1e-4,每过20轮学习率降为原来的0.75。
本实施例的类别级6D位姿与尺寸估计装置包括深度数据处理模块、模板点云确定模块以及位姿尺寸预测模块。本实施例中,类别级6D位姿与尺寸估计装置是类别级6D位姿与尺寸估计方法得到的,基于图像中目标物体的深度观测数据以及拍摄该图像的相机内参进行6D位姿与尺寸估计,并可应用于嵌入式设备。
深度数据处理模块基于相机内参将深度观测数据重投影到三维空间并归一化,从而得到目标物体的部分观测点云数据。
模板点云确定模块根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据。
位姿尺寸预测模块基于部分观测点云数据以及规范化模板点云数据利用预先训练好的几何特征学习网络对目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸。
为了验证本发明的类别级6D位姿与尺寸估计方法及装置的效果,针对从ShapeNet数据集中选取6个常见类别CAD模板模型的测试用数据集,与参考文献[1]中的NOCS方法、参考文献[2]中的DeformNet方法以及参考文献[3]中的6-PACK方法进行实验对比。
实验结果从3DIoU(>k%)、n度m厘米的平均精度(mAP)、准确度(Accuracy)以及网络模型大小三个方面进行评估。
其中,mAP-3DIoU(>k%)具体指标为3DIoU(>50%)和3DIoU(>75%)。mAP-n度m厘米具体指标为5度2厘米,5度5厘米、10度2厘米和10度5厘米。Accuracy-n度m厘米指标为5度5厘米。
mAP-3DIoU(>k%)、mAP-n度m厘米和Accuracy-n度m厘米评估标准最大值100,值越大越理想,而网络模型大小数值越小越理想,单位为MBit。
图4为本发明实施例的位姿与尺寸估计实验结果对比图。
如图4所示,本发明的mAP-3DIoU中各个指标值均高于NOCS与DeformNet,mAP-n度m厘米高于DeformNet与6-PACK,模型大小远远小于DeformNet与6-PACK。
综上,本发明的类别级6D位姿与尺寸估计方法及装置不仅具有较高的估计准确率,并且因模型体积小,从而使得将本发明的估计方法直接应用在移动设备上成为可能,更加具有实用性。
另外,DeformNet模型大小为73.3MBit,该模型是对应了多个类别的大小,即单个模型可应用到多个类别中。
6-PACK模型大小为81.5MBit,该模型只对应了一个类别,即单个模型对应单个类别。相较于DeformNet与本发明的模型而言,泛化性能较差。
而DeformNet模型虽然与本发明一样,都可以单个模型应用到多个类别中,但是本发明的模型大小远远小于DeformNet模型,且准确性优于DeformNet。因此,本发明的方法不仅具有较好的泛化性,还具有较高的准确性以及实用性。
其中,NOCS方法的未对Accuracy进行评价,所以图4中对应位置为空值,而模型大小方面由于该NOCS模型集成了实例分割和6D位姿和尺寸估计网络,而本实验部分只是为了比对6D位姿和尺寸估计网络模型的大小,所以图4中NOCS模型大小值为空。
另外,由于6-PACK方法为跟踪方法,从而无法计算平均精度指标,故图4中mAP-3DIoU中各个指标值均为空值。
实施例作用与效果
根据本实施例提供的类别级6D位姿与尺寸估计方法及装置,由于根据目标物体的目标类别从预定的模板点云数据库中选出与目标类型相同的模板模型对应的规范化模板点云数据,从而让后续的几何特征学习网络能够学习并归纳出同一类别内物体在几何上的类内差异和语义形状对应关系。因此,可以针对不同类别已知但未见过实例的目标物体进行6D位姿与尺寸估计,具有较好的泛化能力。
由于朝向一致性子网络基于部分观测点云数据在3D朝向上的语义信息调整规范化模板点云数据对应的朝向,从而得到与目标物体朝向一致的模板模型的朝向一致点云数据,因此隐式学习了类内物体的语义对应关系,间接恢复物体的3D朝向,充分利用了深度观测数据更具有区分性、类内误差相对小的特点,从而克服了同类别内的物体在几何、纹理上会存在类别内差异的问题。
另外,由于几何反射对称子网络基于规范化模板点云数据对部分观测点云数据对应的目标物体进行反射对称,并对部分观测点云数据进行补全,从而得到反射对称点云数据,因此通过物体在几何上存在反射对称的先验假设,实现物体的朝向表征解耦和形状理解,并且可以为点云补全操作从而获得更完整形状。
由于尺度估计子网络基于部分观测点云数据以及反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,因此将点云搬移到与真实中心更接近的中心位置进行了进一步优化,从而减小了预测偏移,为后续逐点潜在中心偏移向量和整体尺寸提供更为准确的预测。
另外,实施例中,由于训练集从6个常见类别的所有的CAD模型中选出,因此使得最后训练好的几何特征学习网络具有较高的准确性,且因为几何特征学习网络训练过程中的训练数据通过合成手段基于每一类别的不同CAD模型的相关数据合成得到,而无需采集真实环境中的数据,从而避免了繁杂的人工6D位姿数据标注过程,减少了工作量。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
在实施例中,模板点云数据库包括6个常见类别的规范化模板点云数据,在本发明的其他方案中,模板点云数据库可以根据实际应用场景调整规范化模板点云数据的种类与数量。
Claims (7)
1.一种类别级6D位姿与尺寸估计方法,基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计,其特征在于,包括如下步骤:
步骤S1-1,基于所述相机内参将所述深度观测数据重投影到三维空间并归一化,从而得到所述目标物体的部分观测点云数据;
步骤S1-2,根据所述目标物体的目标类别从预定的模板点云数据库中选出与所述目标类型相同的模板模型对应的规范化模板点云数据;
步骤S1-3,基于所述部分观测点云数据以及所述规范化模板点云数据利用预先训练好的几何特征学习网络对所述目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸,
其中,所述几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络,
所述朝向一致性子网络基于所述部分观测点云数据在3D朝向上的语义信息调整所述规范化模板点云数据对应的朝向,从而得到与所述目标物体朝向一致的模板模型的朝向一致点云数据,并利用仿射变换对所述规范化模板点云数据以及所述朝向一致点云数据进行点云注册,从而得到所述目标物体的3D朝向,
所述几何反射对称子网络基于所述规范化模板点云数据对所述部分观测点云数据对应的目标物体进行反射对称性点云恢复从而得到反射对称点云数据,
所述尺度估计子网络基于所述部分观测点云数据以及所述反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,并基于该去中心化点云组数据得到所述目标物体的中心坐标以及所述目标物体的空间尺寸,
根据所述3D朝向以及所述中心坐标得到所述预测位姿,并将所述空间尺寸作为所述预测尺寸,
所述模板点云数据库的构建包括如下步骤:
步骤S2-1,从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型;
步骤S2-2,依次对所述模板模型进行采样,得到每一类别的三维模板形状点云;
步骤S2-3,利用最远距离采样算法依次从所述三维模板形状点云中采样出多个用于表征物体形状的稀疏关键点,作为每一类别物体的模板点云数据;
步骤S2-4,依次将所述模板点云数据中的大小、中心位置以及朝向进行规范化处理,得到每一模板模型对应的所述规范化模板点云数据。
2.根据权利要求1所述的类别级6D位姿与尺寸估计方法,其特征在于:
其中,所述尺度估计子网络包括稠密中心投票模块以及尺寸估计模块,
所述尺度估计子网络为所述去中心化点云组数据中每个点云生成一个潜在目标物体中心的预测偏移向量,并从所述去中心化点云组数据中提取得到尺度特征,
所述稠密中心投票模块基于所述预测偏移向量通过加权机制裁决得到所述目标物体的中心坐标,
所述尺寸估计模块根据所述尺度特征得到所述目标物体的空间尺寸。
3.根据权利要求1所述的类别级6D位姿与尺寸估计方法,其特征在于:
其中,所述图像包括RGB图像以及与该RGB图像对齐的深度图像,
所述深度观测数据包括如下预处理步骤:
步骤S3-1,利用实例分割技术从所述RGB图像中分割得到所述目标物体的分割掩膜以及所述目标物体的预测类别;
步骤S3-2,基于所述分割掩膜从所述深度图像中提取得到所述目标物体的深度观测数据。
4.根据权利要求1所述的类别级6D位姿与尺寸估计方法,其特征在于:
其中,所述几何反射对称子网络对所述部分观测点云数据进行的反射对称性点云恢复包括完全旋转对称属性点云恢复以及反射对称属性点云恢复。
5.根据权利要求1所述的类别级6D位姿与尺寸估计方法,其特征在于:
其中,所述几何特征学习网络训练过程中预先对每一类别的不同模型在不同视角下进行渲染得到合成深度数据,并对该合成深度数据进行重投影得到用于训练的部分观测点云数据,作为物体局部点云数据。
6.根据权利要求1所述的类别级6D位姿与尺寸估计方法,其特征在于:
其中,所述几何特征学习网络训练过程中基于预定的损失函数进行训练更新,
所述损失函数包括关键点重建损失、对称性预测损失、向心距离加权向量损失以及尺寸估计损失。
7.一种类别级6D位姿与尺寸估计装置,基于图像中目标物体的深度观测数据以及拍摄该目标物体的相机内参进行6D位姿与尺寸估计,其特征在于,包括:
深度数据处理模块,基于所述相机内参将所述深度观测数据重投影到三维空间并归一化,从而得到所述目标物体的部分观测点云数据;
模板点云确定模块,根据所述目标物体的目标类别从预定的模板点云数据库中选出与所述目标类型相同的模板模型对应的规范化模板点云数据;以及
位姿尺寸预测模块,基于所述部分观测点云数据以及所述规范化模板点云数据利用预先训练好的几何特征学习网络对所述目标物体的6D位姿及尺寸进行估计,得到对应的预测位姿与预测尺寸,
其中,所述几何特征学习网络包括朝向一致性子网络、几何反射对称子网络以及尺度估计子网络,
所述朝向一致性子网络基于所述部分观测点云数据在3D朝向上的语义信息调整所述规范化模板点云数据对应的朝向,从而得到与所述目标物体朝向一致的模板模型的朝向一致点云数据,并利用仿射变换对所述规范化模板点云数据以及所述朝向一致点云数据进行点云注册,从而得到所述目标物体的3D朝向,
所述几何反射对称子网络基于所述规范化模板点云数据对所述部分观测点云数据对应的目标物体进行反射对称性点云恢复,从而得到反射对称点云数据,
所述尺度估计子网络基于所述部分观测点云数据以及所述反射对称点云数据进行去中心化处理从而得到去中心化点云组数据,并基于该去中心化点云组数据得到所述目标物体的中心坐标以及所述目标物体的空间尺寸,
根据所述3D朝向以及所述中心坐标得到所述预测位姿,并将所述空间尺寸作为所述预测尺寸,
所述模板点云数据库的构建包括如下步骤:
步骤S2-1,从包含不同类别的物体的多个CAD模型的3D数据库中为每一个类别随机选取一个CAD模型作为模板模型;
步骤S2-2,依次对所述模板模型进行采样,得到每一类别的三维模板形状点云;
步骤S2-3,利用最远距离采样算法依次从所述三维模板形状点云中采样出多个用于表征物体形状的稀疏关键点,作为每一类别物体的模板点云数据;
步骤S2-4,依次将所述模板点云数据中的大小、中心位置以及朝向进行规范化处理,得到每一模板模型对应的所述规范化模板点云数据。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266160.0A CN113012122B (zh) | 2021-03-11 | 2021-03-11 | 一种类别级6d位姿与尺寸估计方法及装置 |
US17/691,728 US11593957B2 (en) | 2021-03-11 | 2022-03-10 | Network and system for pose and size estimation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266160.0A CN113012122B (zh) | 2021-03-11 | 2021-03-11 | 一种类别级6d位姿与尺寸估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113012122A CN113012122A (zh) | 2021-06-22 |
CN113012122B true CN113012122B (zh) | 2022-07-29 |
Family
ID=76405328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266160.0A Active CN113012122B (zh) | 2021-03-11 | 2021-03-11 | 一种类别级6d位姿与尺寸估计方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11593957B2 (zh) |
CN (1) | CN113012122B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11651497B2 (en) * | 2021-03-25 | 2023-05-16 | Mitsubishi Electric Research Laboratories, Inc. | InSeGAN: a generative approach to instance segmentation in depth images |
WO2023206268A1 (zh) * | 2022-04-28 | 2023-11-02 | 西门子股份公司 | 训练数据集的生成方法、装置、电子设备和可读介质 |
CN114998561B (zh) * | 2022-05-13 | 2024-06-11 | 清华大学 | 类别级位姿优化方法及装置 |
CN116245940B (zh) * | 2023-02-02 | 2024-04-05 | 中国科学院上海微系统与信息技术研究所 | 基于结构差异感知的类别级六自由度物体位姿估计方法 |
CN117455837A (zh) * | 2023-09-22 | 2024-01-26 | 苏州诺克汽车工程装备有限公司 | 一种基于深度学习的高反光汽车零件识别上料方法与系统 |
CN117455983B (zh) * | 2023-12-26 | 2024-04-12 | 深圳市亿境虚拟现实技术有限公司 | Vr手柄空间定位方法、装置、电子设备及存储介质 |
CN117689990B (zh) * | 2024-02-02 | 2024-05-31 | 南昌航空大学 | 一种基于6d姿态估计的三支流双向融合网络方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111915677A (zh) * | 2020-07-08 | 2020-11-10 | 哈尔滨工程大学 | 一种基于三维点云特征的船舶位姿估计方法 |
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN112465903A (zh) * | 2020-12-21 | 2021-03-09 | 上海交通大学宁波人工智能研究院 | 一种基于深度学习点云匹配的6dof物体姿态估计方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10839575B2 (en) | 2018-03-15 | 2020-11-17 | Adobe Inc. | User-guided image completion with image completion neural networks |
AU2019323401B2 (en) | 2018-08-21 | 2023-06-01 | Huawei Technologies Co., Ltd. | Binarization and normalization-based inpainting for removing text |
US20220284666A1 (en) * | 2019-07-19 | 2022-09-08 | Five Al Limited | Structure annotation |
WO2021080158A1 (en) | 2019-10-25 | 2021-04-29 | Samsung Electronics Co., Ltd. | Image processing method, apparatus, electronic device and computer readable storage medium |
US11373332B2 (en) * | 2020-01-06 | 2022-06-28 | Qualcomm Incorporated | Point-based object localization from images |
-
2021
- 2021-03-11 CN CN202110266160.0A patent/CN113012122B/zh active Active
-
2022
- 2022-03-10 US US17/691,728 patent/US11593957B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110533721A (zh) * | 2019-08-27 | 2019-12-03 | 杭州师范大学 | 一种基于增强自编码器的室内目标物体6d姿态估计方法 |
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111915677A (zh) * | 2020-07-08 | 2020-11-10 | 哈尔滨工程大学 | 一种基于三维点云特征的船舶位姿估计方法 |
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN112465903A (zh) * | 2020-12-21 | 2021-03-09 | 上海交通大学宁波人工智能研究院 | 一种基于深度学习点云匹配的6dof物体姿态估计方法 |
Also Published As
Publication number | Publication date |
---|---|
US11593957B2 (en) | 2023-02-28 |
CN113012122A (zh) | 2021-06-22 |
US20220292698A1 (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113012122B (zh) | 一种类别级6d位姿与尺寸估计方法及装置 | |
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN111179324B (zh) | 基于颜色和深度信息融合的物体六自由度位姿估计方法 | |
CN108416840B (zh) | 一种基于单目相机的三维场景稠密重建方法 | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
Sun et al. | Aerial 3D building detection and modeling from airborne LiDAR point clouds | |
JP6681729B2 (ja) | オブジェクトの3d姿勢およびオブジェクトのランドマーク点の3dロケーションを求める方法、およびオブジェクトの3d姿勢およびオブジェクトのランドマークの3dロケーションを求めるシステム | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN112818925B (zh) | 一种城市建筑和树冠识别方法 | |
CN109815847B (zh) | 一种基于语义约束的视觉slam方法 | |
CN111311708B (zh) | 一种基于语义光流和逆深度滤波的视觉slam方法 | |
CN107917710B (zh) | 一种基于单线激光的室内实时定位与三维地图构建方法 | |
CN109035329A (zh) | 基于深度特征的相机姿态估计优化方法 | |
CN111998862B (zh) | 一种基于bnn的稠密双目slam方法 | |
CN110751097B (zh) | 一种半监督的三维点云手势关键点检测方法 | |
CN110544279A (zh) | 一种结合图像识别和遗传算法精配准的位姿估计方法 | |
CN113393524A (zh) | 一种结合深度学习和轮廓点云重建的目标位姿估计方法 | |
CN112801945A (zh) | 基于双重注意力机制特征提取的深度高斯混合模型颅骨配准方法 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN115471748A (zh) | 一种面向动态环境的单目视觉slam方法 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN114299339A (zh) | 一种基于区域相关性建模的三维点云模型分类方法及系统 | |
Pan et al. | Online human action recognition based on improved dynamic time warping | |
CN116894876A (zh) | 基于实时图像的6-dof的定位方法 | |
CN113487741B (zh) | 稠密三维地图更新方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240610 Address after: Room 368, 302, 211 Fute North Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai, 200120 Patentee after: Shanghai Yuanmu Intelligent Technology Co.,Ltd. Country or region after: China Address before: 200433 No. 220, Handan Road, Shanghai, Yangpu District Patentee before: FUDAN University Country or region before: China |