CN116958958A - 基于图卷积双流形状先验自适应类别级物体姿态估计方法 - Google Patents
基于图卷积双流形状先验自适应类别级物体姿态估计方法 Download PDFInfo
- Publication number
- CN116958958A CN116958958A CN202310963602.6A CN202310963602A CN116958958A CN 116958958 A CN116958958 A CN 116958958A CN 202310963602 A CN202310963602 A CN 202310963602A CN 116958958 A CN116958958 A CN 116958958A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- features
- point
- graph
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 230000008447 perception Effects 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 20
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000003475 lamination Methods 0.000 claims description 6
- 238000010845 search algorithm Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims 5
- 101000619156 Streptomyces griseus Streptogrisin-A Proteins 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 241000282836 Camelus dromedarius Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 208000014451 palmoplantar keratoderma and congenital alopecia 2 Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,包括:S1、输入物体RGB‑D图像数据和物体三维CAD模型集合数据;S2、获取物体类别级形状先验点云;S3、获取物体在深度相机下的下采样前点云;S4、多尺度图卷积网络提取多尺度姿态感知物体特征;S5、多层感知机网络提取多尺度形状感知物体特征;S6、对多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合,得到物体描述符;S7、从特征融合获得变形场和对应关系矩阵;S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示,实现物体姿态估计。本发明更高效和准确,解决了类别级物体姿态估计中姿态感知不足的问题。
Description
技术领域
本发明涉及计算机视觉和物体姿态估计技术领域,尤其涉及一种基于图卷积双流形状先验自适应类别级物体姿态估计方法。
背景技术
近年来,基于深度学习的六自由度(6D)物体姿态估计技术受到广泛关注。因为深度学习方法提取的物体特征具有较强的鲁棒性,使得结合深度学习的物体姿态估计技术在性能上取得了显著提升。同时,低成本的三维传感器的出现使得获取三维数据变得更加简单,丰富的公开数据集有助于研究人员对模型性能进行评估和分析,这进一步推动了物体姿态估计相关研究的发展。
但是在实际的应用中,6D物体姿态估计在真实环境中,获取物体的三维CAD模型往往非常困难,因此实例级方法在实际应用中存在一定的局限性。为了克服这一困难,一些最近的研究开始探索在测试阶段无需物体CAD模型的类别级6D物体姿态估计方法。由于物体的CAD模型未知,类别级任务不仅需要预测未知实例的6D物体姿态,还需预测其3D尺寸。为解决上述的问题,现有的归一化物体坐标空间NOCS,在规范化空间中为具有相同尺度和方向的不同实例重建其对应的三维模型,并根据重建的三维模型得到其对应的规范化坐标,通过实例点云和规范化坐标之间的稠密关联,再利用Umeyama算法结合RANSAC算法实现姿态估计。同时现有的另一种规范形状空间表示方法CASS,该方法的核心思想是利用与姿态无关的三维形状表示来重构物体三维模型。但是,由于以上两种方法提出的规范化表示缺乏对同一类别不同实例之间形状变化的明确表示,限制了其6D姿态估计的准确性。
针对上述问题,SPD模型提出利用类别级形状先验重构规范化物体,尽管SPD在一定程度上减轻了类内差异对姿态估计的准确率造成的影响,然而该方法将同一类别的所有实例限制在了同一个形状空间,忽略了同一类物体之间的形状差异。同时现有的另一种结构引导的类别级形状先验表示方法SGPA,利用transformer神经网络来学习实例点云与类别统一的形状先验之间的相关性,为不同形状的实例赋予各自的形状先验。但是形状先验适应方法通常只是将观测到的点云映射到标准化的物体空间,这样会导致提取的物体特征不足以感知物体的姿态。因此,如何提供一种基于图卷积双流形状先验自适应类别级物体姿态估计方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,本发明相对现有的方法来说更高效和准确,解决了类别级物体姿态估计中姿态感知不足的问题。
根据本发明实施例的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,包括:
S1、输入摄像机采集的物体RGB-D图像数据和物体三维CAD模型集合数据;
S2、从物体三维CAD模型集合数据库中获取物体类别级形状先验点云;
S3、对物体RGB-D图像数据进行预处理,获取物体在深度相机下的下采样前点云;
S4、通过多尺度图卷积网络从下采样前点云中提取多尺度姿态感知物体特征;
S5、通过多层感知机网络从先验点云中提取多尺度形状感知物体特征;
S6、对提取的多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合,得到物体描述符;
S7、利用形状先验适应方法从特征融合获得变形场和对应关系矩阵;
S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示,并实现物体姿态估计。
可选的,所述S2具体包括:
S21、利用SPD技术中的自动编码器网络对物体三维CAD模型集合数据库进行训练;
S22、通过将同一类别的所有物体的平均编码作为解码器的输入,解码获得类别级的类别级形状先验点云。
可选的,所述S3具体包括:
S31、使用MASK R-CNN对物体RGB-D图像数据中的物体进行分割和检测;
S32、将MASK R-CNN得到的物体掩码区域映射到物体的深度图像上,获得物体的深度区域;
S33、利用摄像机参数将物体的深度区域信息转换为物体的三维点云,作为摄像机的下采样前点云。
可选的,所述摄像机的下采样前点云为:
其中,P0表示点云,表示实数集,N0表示点云中点的个数,每个点具有X、Y、Z三个坐标。
可选的,所述S4具体包括:
S41、多尺度图卷积网络分为五个图卷积层和两个图最大池化层;
其中,图卷积层的卷积核个数为[128,128,256,256,512],图最大池化层采用固定的下采样比例为4;
S42、图卷积层从下采样前点云中学习姿态感知的物体特征,图最大池化层对学习到的特征进行聚合和压缩;
S43、每两个连续的图卷积层之间插入一个图最大池化层,在多尺度图卷积网络的最后添加了一个传统的最大池化层,以获得每个点的全局物体描述符;
其中,多尺度图卷积网络产生六个输出特征Fp分别对应不同尺度下的特征表示,Fp为:
其中,[N0,N0,N0/4,N0/4,N0/16,N0]分别表示六个尺度下下采样前点云的个数,[128,128,256,256,512,512]分别表示六个尺度下物体特征的维度。
可选的,所述S5具体包括:
S51、引入三层多层感知机捕获局部先验特征,引入一个两层多层感知机和一个通道最大池化层生成全局先验特征;
其中,三层多层感知机的维度设置为[64,64,64],两层多层感知机的维度设置为[128,1024];
S52、将全局先验特征被嵌入到每个先验点云中,用于提取多尺度形状感知物体特征;
多尺度形状感知物体特征包括具有不同尺度的局部先验特征和全局先验特征:
其中,Fs表示局部先验特征和全局先验特征的集合,Nr表示先验点云中点的个数,64和1024分别表示每个先验点云中点对应的特征维度。
可选的,所述S6包括采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。
可选的,所述S6具体包括:
S61、对于下采样前点云Po中的每个点Pn执行最近邻搜索算法,找到每个点在下采样点云Qo中最近点的索引i:
其中,函数表示求出满足{}中最近点条件的索引i,i∈{1,2,…,|Qo|},n∈{1,2,…,|Po|},|Qo|表示下采样后点云中点的个数,|Po|表示下采样前点云中点的个数,qi表示下采样后点云Qo中的点,pn表示下采样前点云Po中的点;
S62、对下采样前点云Po中的每个点pn执行特征索引操作,通过索引点qi的特征来获取其在下采样后点云Qo中对应的特征;
S63、通过最近邻搜索算法和特征索引操作,将下采样前点云Po中每个点pn的特征与不同下采样尺度下的特定点的特征对齐;
S64、将对齐后的多尺度姿态感知物体特征Fp'和多尺度形状感知物体特征Fs进行拼接,得到全面的物体描述符Fobj;
其中,No表示经过特征传播机制后六个尺度上的特征都被对齐为具有No个点的特征,Nr和No均设置为1024;
其中,Nr和No均设置为1024;
即Fobj具有1024个2880维特征的物体描述符:
可选的,所述S7中包含形变场解码器和对应矩阵解码器,分别用于回归形变场Ddef和对应矩阵A;
形变场回归解码器由三个线性层组成,维度分别为[512,256,Nr*3],形变场解码器预测先验点云Pr到重建的物体点云的每个点的形变,其中,Ddef的每一行di表示了形变场中的一个向量,Nr是先验点云中点的数量,即重建的物体点云/>
对应矩阵回归解码器由三个线性层组成,维度分别为[512,256,No*Nr],对应矩阵解码器预测下采样前点云Po中每个点与其重建的物体点云中所有点之间的软对应关系。
可选的,所述S8中具体包括:
S81、物体标准化坐标通过将对应矩阵A与重建的点云/>进行矩阵相乘而获得:
S82、每个下采样前点云Po中的点都会被映射到其在重建点云中对应的物体标准化坐标上,通过得到的物体标准化坐标表示物体在三维空间中的位置和方向;
S83、给定下采样前点云Po及其重建的物体标准化坐标使用Umeyama算法结合RANSAC算法计算相似变换参数,包括旋转、平移和缩放,旋转和平移参数对应于物体6D姿态,缩放参数对应于物体尺寸,进而估计物体在在空间中的位置、方向和尺寸下的姿态信息。
本发明的有益效果是:
本发明在类别级别的物体姿态和尺寸估计方面具有显著的优势,通过采用新的双流形状先验适应方法,该方法能够提取姿态感知的物体特征和形状感知的物体特征,并通过多尺度特征传播机制将它们融合为综合的物体描述符,最终实现了精确的物体6D姿态及尺寸估计和准确的三维形状重构,与现有技术相比,本发明的方法不仅准确度更高,而且参数量更少,具有更好的实用性和效率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法的流程图;
图2为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法的框架图;
图3为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法在REAL275数据集上进行姿态估计的可视化结果示意图;
图4为本发明提出的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法在REAL275数据集上进行的三维形状重构结果示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,包括:
S1、输入摄像机采集的物体RGB-D图像数据和物体三维CAD模型集合数据;
S2、从物体三维CAD模型集合数据库中获取物体类别级形状先验点云;
本实施方式中,S2具体包括:
S21、利用SPD技术中的自动编码器网络对物体三维CAD模型集合数据库进行训练;
S22、通过将同一类别的所有物体的平均编码作为解码器的输入,解码获得类别级的类别级形状先验点云。
S3、对物体RGB-D图像数据进行预处理,获取物体在深度相机下的下采样前点云;
本实施方式中采用通用的深度图像-点云转换技术,从RGB-D图像中获取物体的下采样前点云:
S31、使用MASK R-CNN对物体RGB-D图像数据中的物体进行分割和检测;
S32、将MASK R-CNN得到的物体掩码区域映射到物体的深度图像上,获得物体的深度区域;
S33、利用摄像机参数将物体的深度区域信息转换为物体的三维点云,作为摄像机的下采样前点云。
本实施方式中,摄像机的下采样前点云为:
其中,P0表示点云,表示实数集,N0表示点云中点的个数,每个点具有X、Y、Z三个坐标。
S4、通过多尺度图卷积网络从下采样前点云中提取多尺度姿态感知物体特征;
参考图2,本实施方式中由于摄像机的下采样前点云中具有关于物体姿态的丰富几何信息,为了充分利用相机下采样前点云中宝贵的姿态信息,本实施方式提出了一个多尺度图卷积网络作为特征提取骨干网络,为了学习姿态感知的物体特征:
S41、多尺度图卷积网络分为五个图卷积层和两个图最大池化层;
其中,图卷积层的卷积核个数为[128,128,256,256,512],图最大池化层采用固定的下采样比例为4;
S42、图卷积层从下采样前点云中学习姿态感知的物体特征,图最大池化层对学习到的特征进行聚合和压缩;
S43、为了获得紧凑的三维物体描述符,每两个连续的图卷积层之间插入一个图最大池化层,然而,由于这些层都是局部点云运算符,缺乏对物体的全局感知,因此,在多尺度图卷积网络的最后添加了一个传统的最大池化层,以获得每个点的全局物体描述符;
为了在不同尺度上获得更丰富的特征,本实施方式多尺度图卷积网络产生六个输出特征Fp分别对应不同尺度下的特征表示,Fp为:
其中,[N0,N0,N0/4,N0/4,N0/16,N0]分别表示六个尺度下下采样前点云的个数,[128,128,256,256,512,512]分别表示六个尺度下物体特征的维度,图卷积层的感受野中最近邻的数量设置为50,每个核的支撑点数设置为3。
通过实施方式的设置,多尺度图卷积网络能够有效提取下采样前点云中的姿态感知的物体特征,并为后续步骤提供准确且丰富的描述符。
S5、通过多层感知机网络从先验点云中提取多尺度形状感知物体特征;
先验点云提供了同一类别物体实例形状的先验知识,反映了物体实例的一般几何结构,这些先验知识对于恢复物体的三维模型和预测物体的姿态至关重要。
为了有效提取先验点云中有价值的形状信息,本实施方式采用了一个三层的多层感知机来捕获局部先验特征,接下来,另外一个两层的多层感知机和一个通道最大池化层被用来生成全局先验特征,最后,这些全局先验特征被嵌入到每个点中,以提供形状感知的物体特征,具体描述为:
S51、引入三层多层感知机捕获局部先验特征,引入一个两层多层感知机和一个通道最大池化层生成全局先验特征;
其中,三层多层感知机的维度设置为[64,64,64],两层多层感知机的维度设置为[128,1024];
S52、将全局先验特征被嵌入到每个先验点云中,用于提取多尺度形状感知物体特征;
多尺度形状感知物体特征包括具有不同尺度的局部先验特征和全局先验特征:
其中,Fs表示局部先验特征和全局先验特征的集合,Nr表示先验点云中点的个数,64和1024分别表示每个先验点云中点对应的特征维度。
通过综合利用这两部分特征,本实施方式能够获得丰富且多尺度的形状信息,为后续步骤提供准确的先验知识。
S6、对提取的多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合,得到物体描述符;
本实施方式中为了有效地利用物体的姿态和形状信息,提出了一种整合从下采样前点云中提取的姿态感知的物体特征和从先验点云中提取的形状感知的物体特征的方法,然而,由于S4中的图最大池化层操作导致不同下采样层输出的点的数量不同,下采样前点云的特征无法直接与下采样点云的特征进行整合,为了解决这个问题,本实施方式采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。
本实施方式中S6具体包括:
S61、对于下采样前点云Po中的每个点Pn执行最近邻搜索算法,找到每个点在下采样点云Qo中最近点的索引i:
其中,函数表示求出满足{}中最近点条件的索引i,i∈{1,2,…,|Qo|},n∈{1,2,…,|Po|},|Qo|表示下采样后点云中点的个数,|Po|表示下采样前点云中点的个数,qi表示下采样后点云Qo中的点,pn表示下采样前点云Po中的点;
S62、对下采样前点云Po中的每个点pn执行特征索引操作,通过索引点qi的特征来获取其在下采样后点云Qo中对应的特征;
S63、通过最近邻搜索算法和特征索引操作,将下采样前点云Po中每个点pn的特征与不同下采样尺度下的特定点的特征对齐;
S64、将对齐后的多尺度姿态感知物体特征Fp'和多尺度形状感知物体特征Fs进行拼接,得到全面的物体描述符Fobj;
其中,No表示经过特征传播机制后六个尺度上的特征都被对齐为具有No个点的特征,Nr和No均设置为1024;
其中,Nr和No均设置为1024;
即Fobj具有1024个2880维特征的物体描述符:
通过本实施方式特征传播机制,能够有效整合不同尺度上的物体特征,提供更全面准确的物体描述符。
S7、利用形状先验适应方法从特征融合获得变形场和对应关系矩阵;
本实施方式中,S7中包含包含两个解码器,分别为形变场解码器和对应矩阵解码器,分别用于回归形变场Ddef和对应矩阵A;
形变场回归解码器由三个线性层组成,维度分别为[512,256,Nr*3],形变场解码器的任务是预测先验点云Pr到重建的物体点云的每个点的形变,其中,Ddef的每一行di表示了形变场中的一个向量,Nr是先验点云中点的数量,即重建的物体点云/>
对应矩阵回归解码器由三个线性层组成,维度分别为[512,256,No*Nr],对应矩阵解码器的任务是预测下采样前点云Po中每个点与其重建的物体点云中所有点之间的软对应关系。
通过形变场解码器和对应矩阵解码器,能够恢复形变场和建立下采样前点云与重建点云之间的对应关系,为后续的物体姿态及尺寸估计提供基础。
S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示,并实现物体姿态估计。
本实施方式中,S8中具体包括:
S81、物体标准化坐标通过将对应矩阵A与重建的点云/>进行矩阵相乘而获得:
S82、每个下采样前点云Po中的点都会被映射到其在重建点云中对应的物体标准化坐标上,通过得到的物体标准化坐标表示物体在三维空间中的位置和方向;
S83、给定下采样前点云Po及其重建的物体标准化坐标使用Umeyama算法结合RANSAC算法计算相似变换参数,包括旋转、平移和缩放,旋转和平移参数对应于物体6D姿态,缩放参数对应于物体尺寸,进而估计物体在在空间中的位置、方向和尺寸下的姿态信息。
实施例1:
为与已有技术进行公平比较,在训练过程中从反投影的深度图像中采样No=1024个点以获得观测到的实例点云,形状先验中的点数Nr也设置为1024,在两个NVIDIAGeForce RTX 3090GPU上进行实验,批量大小为64。训练所使用的损失函数以及训练方式与SPD技术中的方案相同。
本发明报告了50%和75%阈值下的三维交并比(IoU)的平均精度,以综合评估旋转、平移和尺寸估计的准确性。为了直接比较旋转和平移的误差,还采用了5°2cm、5°5cm、10°2cm、10°5cm和10°10cm的指标。如果旋转和平移误差低于给定的阈值,则认为姿态是正确的。此外,采用倒角距离来评估三维模型重建结果的准确性。
6D姿态及尺寸估计准确率结果如下表1所示:
表1
根据上述表1的结果可以看出本发明方法在REAL275数据集上的所有评估指标都显著优于目前最先进的SGPA技术,取得了最佳的6D姿态和尺寸估计结果。在综合评估旋转、平移和尺寸估计的准确性方面,3D50指标超过了1.6%,3D75指标超过了7.8%。在直接评估旋转和平移估计的准确性方面,5°2cm超过了9.1%,5°5cm超过了12.4%,10°2cm超过了2.2%,10°5cm超过了6.3%。此外,本发明方法的参数数量相比SGPA技术减少了75%。在CAMERA25数据集上,本发明方法取得了与SGPA技术十分接近的结果,然而本发明方法的参数数量相比SGPA技术减少了75%。
三维形状重构误差结果如下表2所示:
表2
根据上述表2的结果,可以看出本发明方法在REAL275数据集中的瓶子、碗、相机、罐子和笔记本电脑这5个物体类别上都取得了最低的形状重构误差,在杯子这个类别上的误差也只比最好的SPD技术低0.01,总共6个类别的平均误差比目前最先进的SGPA技术低0.04,另外,本发明方法在CAMERA25数据集中的瓶子、碗、相机、罐子和杯子这5个物体类别上都取得了最低的形状重构误差,在笔记本电脑这个类别上的误差只比最好的SGPA技术低0.01,总共6个类别的平均误差比目前最先进的SGPA技术低0.01,这些结果表明本发明方法取得了最佳的三维形状重构结果。
由上表1和表2的结果可以看出,本发明提出了双流形状先验适应方法,用于类别级别的物体姿态和尺寸估计,该方法通过整合下采样前点云和先验点云的特征信息,实现了准确的姿态和尺寸估计。
同时根据实施例1的实验结果表明,与其他形状先验适应方法相比,本发明提出的方案仅使用了5.9M的参数就达到了最先进的性能。相比于传统方法,本发明的方法在性能上具有显著的提升,并且参数量较少,具有更高的效率和更低的计算成本。
实施例2:
参考图3可以观察到本发明提出的方法对于6D姿态和物体尺寸的预测结果,图中深色包围盒,相较于SGPA技术的预测结果更接近真实标签,即图中的白色包围盒。
本发明设计了一种新颖的多尺度图卷积网络来从下采样前点云中提取姿态感知的物体特征,并设计了一个多层感知机网络来从先验点云中提取形状感知的物体特征。这两个网络相互补充,能够有效地捕捉物体的几何结构和形状特征。
实施例3:
参考图4可以看到本发明提出的方法重构出的三维物体形状相较于SGPA技术重构出的三维物体形状更加接近物体的真实形状。
通过实施例2-3可以看出,本发明通过聚合多尺度姿态感知物体特征和多尺度形状感知物体特征,生成综合的物体描述符。这样做既能保持姿态敏感的几何稳定性,又能保持类内形状的一致性,提高了姿态和尺寸估计的准确性和鲁棒性。
通过实施例1-3可以看出本发明的方法在类别级别的物体姿态和尺寸估计方面具有显著的优势,通过采用新的双流形状先验适应方法,该方法能够提取姿态感知的物体特征和形状感知的物体特征,并通过多尺度特征传播机制将它们融合为综合的物体描述符,最终实现了精确的物体6D姿态及尺寸估计和准确的三维形状重构,与现有技术相比,本发明的方法不仅准确度更高,而且参数量更少,具有更好的实用性和效率,因此,本发明的方法在计算机视觉、机器人技术等领域具有广泛的应用前景。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,包括:
S1、输入摄像机采集的物体RGB-D图像数据和物体三维CAD模型集合数据;
S2、从物体三维CAD模型集合数据库中获取物体类别级形状先验点云;
S3、对物体RGB-D图像数据进行预处理,获取物体在深度相机下的下采样前点云;
S4、通过多尺度图卷积网络从下采样前点云中提取多尺度姿态感知物体特征;
S5、通过多层感知机网络从先验点云中提取多尺度形状感知物体特征;
S6、对提取的多尺度姿态感知物体特征和多尺度形状感知物体特征进行信息传递与特征融合,得到物体描述符;
S7、利用形状先验适应方法从特征融合获得变形场和对应关系矩阵;
S8、根据变形场、对应关系矩阵以及物体类别级形状先验点云重构物体标准化坐标表示,并实现物体姿态估计。
2.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S2具体包括:
S21、利用SPD技术中的自动编码器网络对物体三维CAD模型集合数据库进行训练;
S22、通过将同一类别的所有物体的平均编码作为解码器的输入,解码获得类别级的类别级形状先验点云。
3.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S3具体包括:
S31、使用MASK R-CNN对物体RGB-D图像数据中的物体进行分割和检测;
S32、将MASK R-CNN得到的物体掩码区域映射到物体的深度图像上,获得物体的深度区域;
S33、利用摄像机参数将物体的深度区域信息转换为物体的三维点云,作为摄像机的下采样前点云。
4.根据权利要求3所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述摄像机的下采样前点云为:
其中,P0表示点云,表示实数集,N0表示点云中点的个数,每个点具有X、Y、Z三个坐标。
5.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S4具体包括:
S41、多尺度图卷积网络分为五个图卷积层和两个图最大池化层;
其中,图卷积层的卷积核个数为[128,128,256,256,512],图最大池化层采用固定的下采样比例为4;
S42、图卷积层从下采样前点云中学习姿态感知的物体特征,图最大池化层对学习到的特征进行聚合和压缩;
S43、每两个连续的图卷积层之间插入一个图最大池化层,在多尺度图卷积网络的最后添加了一个传统的最大池化层,以获得每个点的全局物体描述符;
其中,多尺度图卷积网络产生六个输出特征Fp分别对应不同尺度下的特征表示,Fp为:
其中,[N0,N0,N0/4,N0/4,N0/16,N0]分别表示六个尺度下下采样前点云的个数,[128,128,256,256,512,512]分别表示六个尺度下物体特征的维度。
6.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S5具体包括:
S51、引入三层多层感知机捕获局部先验特征,引入一个两层多层感知机和一个通道最大池化层生成全局先验特征;
其中,三层多层感知机的维度设置为[64,64,64],两层多层感知机的维度设置为[128,1024];
S52、将全局先验特征被嵌入到每个先验点云中,用于提取多尺度形状感知物体特征;
多尺度形状感知物体特征包括具有不同尺度的局部先验特征和全局先验特征:
其中,Fs表示局部先验特征和全局先验特征的集合,Nr表示先验点云中点的个数,64和1024分别表示每个先验点云中点对应的特征维度。
7.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S6包括采用特征传播机制将不同尺度上的先验点云中点的个数对齐为相同。
8.根据权利要求7所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S6具体包括:
S61、对于下采样前点云Po中的每个点Pn执行最近邻搜索算法,找到每个点在下采样点云Qo中最近点的索引i:
其中,函数表示求出满足{}中最近点条件的索引i,i∈{1,2,…,|Qo|},n∈{1,2,…,|Po|},|Qo|表示下采样后点云中点的个数,|Po|表示下采样前点云中点的个数,qi表示下采样后点云Qo中的点,pn表示下采样前点云Po中的点;
S62、对下采样前点云Po中的每个点pn执行特征索引操作,通过索引点qi的特征来获取其在下采样后点云Qo中对应的特征;
S63、通过最近邻搜索算法和特征索引操作,将下采样前点云Po中每个点pn的特征与不同下采样尺度下的特定点的特征对齐;
S64、将对齐后的多尺度姿态感知物体特征Fp'和多尺度形状感知物体特征Fs进行拼接,得到全面的物体描述符Fobj;
其中,No表示经过特征传播机制后六个尺度上的特征都被对齐为具有No个点的特征,Nr和No均设置为1024;
其中,Nr和No均设置为1024;
即Fobj具有1024个2880维特征的物体描述符:
或/>
9.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S7中包含形变场解码器和对应矩阵解码器,分别用于回归形变场Ddef和对应矩阵A;
形变场回归解码器由三个线性层组成,维度分别为[512,256,Nr*3],形变场解码器预测先验点云Pr到重建的物体点云的每个点的形变,其中,Ddef的每一行di表示了形变场中的一个向量,Nr是先验点云中点的数量,即重建的物体点云/>
对应矩阵回归解码器由三个线性层组成,维度分别为[512,256,No*Nr],对应矩阵解码器预测下采样前点云Po中每个点与其重建的物体点云中所有点之间的软对应关系。
10.根据权利要求1所述的一种基于图卷积双流形状先验自适应类别级物体姿态估计方法,其特征在于,所述S8中具体包括:
S81、物体标准化坐标通过将对应矩阵A与重建的点云/>进行矩阵相乘而获得:
S82、每个下采样前点云Po中的点都会被映射到其在重建点云中对应的物体标准化坐标上,通过得到的物体标准化坐标表示物体在三维空间中的位置和方向;
S83、给定下采样前点云Po及其重建的物体标准化坐标使用Umeyama算法结合RANSAC算法计算相似变换参数,包括旋转、平移和缩放,旋转和平移参数对应于物体6D姿态,缩放参数对应于物体尺寸,进而估计物体在在空间中的位置、方向和尺寸下的姿态信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310963602.6A CN116958958B (zh) | 2023-07-31 | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310963602.6A CN116958958B (zh) | 2023-07-31 | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116958958A true CN116958958A (zh) | 2023-10-27 |
CN116958958B CN116958958B (zh) | 2024-10-25 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408304A (zh) * | 2023-12-14 | 2024-01-16 | 江苏未来网络集团有限公司 | 6d姿态预测神经网络模型及方法 |
CN118518009A (zh) * | 2024-07-19 | 2024-08-20 | 湖南视比特机器人有限公司 | 标定参数确定方法、校正方法、介质及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067473A (zh) * | 2015-12-31 | 2017-08-18 | 达索系统公司 | 对3d建模对象进行重构 |
CN113052030A (zh) * | 2021-03-11 | 2021-06-29 | 北京工业大学 | 一种基于单张rgb图像的双流多尺度手部姿态估计方法 |
CN113393503A (zh) * | 2021-05-24 | 2021-09-14 | 湖南大学 | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 |
CN114820932A (zh) * | 2022-04-25 | 2022-07-29 | 电子科技大学 | 一种基于图神经网络和关系优化的全景三维场景理解方法 |
CN114863573A (zh) * | 2022-07-08 | 2022-08-05 | 东南大学 | 一种基于单目rgb-d图像的类别级6d姿态估计方法 |
CN115115700A (zh) * | 2022-05-17 | 2022-09-27 | 清华大学 | 物体的姿态估计方法、装置、电子设备及存储介质 |
CN115187748A (zh) * | 2022-07-14 | 2022-10-14 | 湘潭大学 | 一种基于点云的类别级的物体的质心与位姿估计 |
CN115965765A (zh) * | 2022-12-02 | 2023-04-14 | 东南大学 | 一种基于神经变形的可变形场景中人体运动捕捉方法 |
CN116245940A (zh) * | 2023-02-02 | 2023-06-09 | 中国科学院上海微系统与信息技术研究所 | 基于结构差异感知的类别级六自由度物体位姿估计方法 |
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067473A (zh) * | 2015-12-31 | 2017-08-18 | 达索系统公司 | 对3d建模对象进行重构 |
CN113052030A (zh) * | 2021-03-11 | 2021-06-29 | 北京工业大学 | 一种基于单张rgb图像的双流多尺度手部姿态估计方法 |
CN113393503A (zh) * | 2021-05-24 | 2021-09-14 | 湖南大学 | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 |
CN114820932A (zh) * | 2022-04-25 | 2022-07-29 | 电子科技大学 | 一种基于图神经网络和关系优化的全景三维场景理解方法 |
CN115115700A (zh) * | 2022-05-17 | 2022-09-27 | 清华大学 | 物体的姿态估计方法、装置、电子设备及存储介质 |
CN114863573A (zh) * | 2022-07-08 | 2022-08-05 | 东南大学 | 一种基于单目rgb-d图像的类别级6d姿态估计方法 |
CN115187748A (zh) * | 2022-07-14 | 2022-10-14 | 湘潭大学 | 一种基于点云的类别级的物体的质心与位姿估计 |
CN115965765A (zh) * | 2022-12-02 | 2023-04-14 | 东南大学 | 一种基于神经变形的可变形场景中人体运动捕捉方法 |
CN116245940A (zh) * | 2023-02-02 | 2023-06-09 | 中国科学院上海微系统与信息技术研究所 | 基于结构差异感知的类别级六自由度物体位姿估计方法 |
Non-Patent Citations (3)
Title |
---|
CHEN K, ET AL: "Sgpa: Structure-guided prior adaptation for category-level 6d object pose estimation", PROCEEDINGS OF THE IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION, 31 December 2021 (2021-12-31), pages 2773 - 2782 * |
FAN Z, ET AL: "Deep learning on monocular object pose detection and tracking: A comprehensive overview", ACM COMPUTING SURVEYS, 21 April 2022 (2022-04-21), pages 1 - 38 * |
李惠芳: "面向细小镜架的参数化三维重建技术研究", 江苏:南京理工大学, 23 February 2023 (2023-02-23), pages 1 - 89 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408304A (zh) * | 2023-12-14 | 2024-01-16 | 江苏未来网络集团有限公司 | 6d姿态预测神经网络模型及方法 |
CN117408304B (zh) * | 2023-12-14 | 2024-02-27 | 江苏未来网络集团有限公司 | 6d姿态预测神经网络模型系统及方法 |
CN118518009A (zh) * | 2024-07-19 | 2024-08-20 | 湖南视比特机器人有限公司 | 标定参数确定方法、校正方法、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
CN110348330B (zh) | 基于vae-acgan的人脸姿态虚拟视图生成方法 | |
CN115170638B (zh) | 一种双目视觉立体匹配网络系统及其构建方法 | |
CN110503630B (zh) | 一种基于三维深度学习模型的脑出血分类、定位与预测方法 | |
CN113361560B (zh) | 一种基于语义的多姿势虚拟试衣方法 | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
CN113077471A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN117522990B (zh) | 基于多头注意力机制和迭代细化的类别级位姿估计方法 | |
CN112288645A (zh) | 一种颅骨面貌复原模型构建方法及复原方法与系统 | |
CN114926742B (zh) | 一种基于二阶注意力机制的回环检测及优化方法 | |
CN115376019A (zh) | 一种异源遥感影像对象级变化检测方法 | |
CN116052159A (zh) | 基于深度霍夫投票的3d物体识别系统及其识别方法 | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN118261979A (zh) | 一种基于几何信息增强的类别级6d姿态估计方法 | |
CN112686202B (zh) | 一种基于3d重建的人头识别方法及系统 | |
CN116958958B (zh) | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 | |
CN115082778B (zh) | 一种基于多分支学习的宅基地识别方法及系统 | |
CN116958958A (zh) | 基于图卷积双流形状先验自适应类别级物体姿态估计方法 | |
CN113593007B (zh) | 一种基于变分自编码的单视图三维点云重建方法及系统 | |
CN117095033B (zh) | 一种基于图像与几何信息引导的多模态点云配准方法 | |
CN116959120B (zh) | 一种基于手部关节的人手姿态估计方法及系统 | |
CN114018271B (zh) | 一种基于陆标图像的精确定点着陆自主导航方法和系统 | |
CN107895164A (zh) | 基于单样本人耳图像的识别方法及装置 | |
CN118470442B (zh) | 一种基于多尺度超图及特征配准的小样本异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |