CN112270249A - 一种融合rgb-d视觉特征的目标位姿估计方法 - Google Patents
一种融合rgb-d视觉特征的目标位姿估计方法 Download PDFInfo
- Publication number
- CN112270249A CN112270249A CN202011152483.9A CN202011152483A CN112270249A CN 112270249 A CN112270249 A CN 112270249A CN 202011152483 A CN202011152483 A CN 202011152483A CN 112270249 A CN112270249 A CN 112270249A
- Authority
- CN
- China
- Prior art keywords
- target
- rgb
- image
- feature
- pose
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 230000000007 visual effect Effects 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 71
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000003384 imaging method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种融合RGB‑D视觉特征的目标位姿估计方法。所述融合RGB‑D视觉特征的目标位姿估计方法包括如下步骤:获取包含目标物体的RGB图像和深度图像;将RGB图像输入至主干网络进行RGB特征提取和实例分割,获得多通道卷积特征图像和目标物体分割掩码;利用目标分割掩码裁剪多通道卷积特征图像和深度图像,得到每个目标物体的图像卷积特征块和深度图像块;对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化,得到规范大小的目标RGB特征向量;从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量;融合目标的RGB特征和点云特征,进行目标位置估计和姿态估计,输出每个对应目标的类别和位姿P。本发明目标位姿估计精度高、过程简便。
Description
技术领域
本发明涉及机器人视觉感知及深度学习中目标识别与检测领域,特别涉及一种基于RGB-D(深度图像)视觉特征的目标位姿估计方法。
背景技术
目标位姿估计是机器人视觉感知领域一个重要内容,一般而言,目标位姿由三维位置和三维旋转共6个参数组成,指的是在以机器人相机中心为原点的坐标系下,目标物体的位置t和朝向R。在机器人抓取、搬运和操纵任务中,获取作业目标精确的三维空间信息是保证任务有效执行的前提,因此目标位姿估计成为提升机器人应用能力的一个关键技术。由于环境复杂和目标物体多样性,目标位姿估计是一个具有挑战性的问题,容易受到诸如背景干扰、杂乱堆叠、相互遮挡和表面弱纹理等情况的影响,也因此位姿估计是计算机视觉研究中的一个热点。
传统的位姿估计方法主要包括模板匹配和特征点匹配,前者使用多尺度窗口,在图像上不断滑动,计算每个位置与数据库中已知位姿数据的匹配度,最后根据匹配情况利用非极大值抑制法确定最佳位姿;后者首先提取并检测出二维图像特征点,其次匹配至物体模型中三维关键点,最后利用PnP方法解算出目标位姿。此类方法由于需要针对目标人为设计特征提取方法,易受物体遮挡、表面弱纹理影响,鲁棒性差。
随着深度学习在计算机视觉领域的快速发展,基于卷积神经网络的目标位姿估计方法得到了广泛应用。此类方法利用卷积网络自动进行特征提取,然后直接预测各目标物体三维关键点在二维图像平面的投影,并通过PnP方法计算位姿参数。在此基础上,另一类深度学习方法省去关键点预测和位姿解算步骤,直接通过卷积特征回归物体位姿参数,实现端到端的位姿估计。与传统方法比较,基于深度学习的方法克服了人工特征计算的弊端,自适应能力强,同时抑制了复杂背景和光照变化带来的检测干扰,鲁棒性高。但当预测物体表面纹理弱或存在严重遮挡时,卷积网络难以提取有效的特征,使得网络参数回归能力下降,精度差。
近年来,低成本消费级深度相机的出现为基于视觉图像的位姿估计方法提供了新的思路,深度图像由于不受光照和物体表面纹理影响,对空间几何位置敏感,可以与彩色图像进行优势互补,进一步提高位姿估计精度。由于数据类型存在差异,现有深度学习网络处理RGB-D数据主要分两类,一类将深度图像作为彩色图像的附加通道,直接输入现有网络进行卷积特征提取,该方法忽略了深度图像的空间几何特征;另一类则从深度图像重建点云,并利用点云网络进行特征提取,然后通过一些复杂的处理步骤结合卷积网络特征实现位姿估计,此类方法过程繁琐,未能充分利用RGB-D不同类型数据特征。
发明内容
本发明提供了一种融合RGB-D视觉特征的目标位姿估计方法,其目的是为了解决背景技术中RGB-D目标位姿估计精度差、过程繁琐的问题。
为了达到上述目的,本发明的实施例提供的一种融合RGB-D视觉特征的目标位姿估计方法,包括如下步骤:
步骤S1:获取包含目标物体的RGB图像(彩色图像)和深度(Depth);
步骤S2:将RGB图像输入至主干网络进行RGB特征提取和实例分割,获得多通道卷积特征图像和目标物体分割掩码;
步骤S3:利用目标分割掩码裁剪多通道卷积特征图像和深度图像,得到每个目标物体的图像卷积特征块和深度图像块;
步骤S4:对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化,得到规范大小的目标RGB特征向量;
步骤S5、从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量;
步骤S6:融合目标RGB特征向量和点云特征向量,通过位姿回归网络进行目标位置估计和姿态估计,输出每个对应目标的类别C和6维位姿P。
优选地,所述步骤S2具体包括如下步骤:
步骤S21、利用主干网络对RGB图像进行特征提取,获得多个不同尺寸和通道的特征图(Feature Maps);
步骤S22、利用步骤S21中得到的特征图进行实例分割,利用上采样、特征融合操作,获得目标在RGB图像中的实例分割掩码(SegmentationMask);
步骤S23、对步骤S21中得到的特征图进行上采样、特征融合操作,获得与输入的RGB图像相同尺寸的多通道卷积特征图像。
优选地,步骤S5具体为:
根据小孔成像模型,利用相机内参从包含目标的深度图像块中计算出三维点云,计算过程中通过随机采样或填充策略对点云数量进行删增,确保每个目标点云数量相同,最后利用一个点云特征网络获得目标规范大小的点云特征向量。
优选地,所述步骤S21具体为:
主干网络基于ResNet18卷积神经网络,舍弃网络层中的"layer4"与"fc"层,输出"layer2"和"layer3"层作为图像的卷积特征,其尺寸大小分别为输入图像的和特征通道数分别为128和256。
优选地,所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征的获取采用类似的网络结构,仅输出特征通道数不同,F1、F2、F3和F4为网络卷积处理过程中不同阶段特征图像的张量形式,其步骤如下:
步骤S2233:融合F1和F3,依次进行8倍上采样、1×1卷积特征融合,获得与输入图像尺寸一致的特征层F4:[128,H,W];
步骤S2234:采用不同的卷积策略完成多通道卷积特征获取与目标实例分割,多通道卷积特征获取保持F4的张量形式,目标实例分割降低特征通道至目标类别总数,获取类别C和分割掩码。
优选地,所述步骤S3中,场景中各目标裁剪出的RGB特征形状、大小各异,对此构造一个目标边界框大小的矩形特征空间,填入裁剪后的目标RGB特征,对其余空间用0填充,具体为:利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。
优选地,所述步骤S5、从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量,具体为:
裁剪后的目标深度图像块表述为Di∈(ui,vi,I(ui,vi)),i=1,2,...,m,其中u,v为图像坐标,ui为目标物体点云的横向坐标,vi为目标物体点云的纵向坐标,I(u,v)为该点深度值,首先利用最远点采样或复制方法确保各目标m一致,其次利用相机内参和小孔成像模型从深度图像中获取点云(Xi,Yi,Zi):
点云特征网络采用PointNet结构,通过全局池化输出固定大小的点云特征向量。
优选地,所述步骤S6具体为:融合目标RGB特征向量与点云特征向量后,分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息和姿态信息,得到位置向量t和姿态矩阵R,最终组合成目标位姿矩阵,输出每个对应目标的类别C和6维位姿P,6维位姿P的输出包括目标位姿矩阵T=[R|t;0,1]T=[R|t;0,1]的输出。
优选地,还包括:
步骤S7:利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对步骤S6中提出的位姿回归网络进行训练。
优选地,所述步骤S7中位姿估计网络训练方法具体为:
步骤S71:实例分割网络学习,获取数据集中的RGB图像和对应目标分割掩码输入到网络中,学习主干网络、实例分割模块及对应上采样模块的网络层参数,所采用损失函数为逐像素的交叉熵(Cross Entropy)计算,先利用SoftMax函数对分割结果中各像素进行类别概率估计:
其中,(u,v)为输出特征像素坐标,j为通道数量,也即目标类别总数,特别的,w=0表示类别为背景的概率,为索引变量;通过计算输出概率与分割掩码的交叉熵作为损失:
LossCE=-∑(u,v)cwlog(Pw)
其中,wi=1,w为分割掩码中(u,v)处所属类别,Pi为上述式子P(w,u,v)计算得到,遍历了整个图像,其求和范围直接用(u,v)表示;
步骤S72:固定主干网络和实例分割网络参数,输入RGB-D图像,利用各目标物体位置参数和姿态参数对网络剩余部分进行训练,采用的损失函数计算如下:
Loss=Losst+αLossR
采用本发明能达到的技术效果:
(1)提出一种融合RGB-D视觉特征策略的位姿估计方法,利用卷积神经网络和点云网络分别提取RGB图像和Depth图像(预处理成点云数据)特征,并规范化处理特征尺度,保留特征空间信息,实现两种不同特质数据的融合,提高网络的位姿参数回归能力。
(2)针对位姿参数中,位置和姿态两种不同几何含义数据的特点,使用两个独立MLP结构进行回归预测,使网络更有效地学习特征表述。
(3)采用端到端的训练和推理方式,避免了基于关键点预测方法的后处理操作,执行速度快,效率高。
附图说明
图1为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的网络结构和流程示意图;
图2为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的位姿估计网络中各模块数据的张量形式示意图;
图3(a)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标位姿网络训练及推理采用的数据集LINEMOD的图片示意图;
图3(b)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标位姿网络训练及推理采用的数据集YCB的图片示意图;
图4(a)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的目标实例分割过程中损失下降曲线;
图4(b)为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的位姿参数回归总损失下降曲线;
图5为本发明的一种融合RGB-D视觉特征的目标位姿估计方法的一具体实施例的网络部分推理结果展示。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的问题,提供了一种融合RGB-D视觉特征的目标位姿估计方法,如图1所示,包括如下步骤:
步骤S1:获取包含目标物体的RGB图像(彩色图像)和深度(Depth)图像;
步骤S2:将RGB图像输入至主干网络进行RGB特征提取和实例分割,获得多通道卷积特征图像和目标物体分割掩码;
步骤S3:利用目标分割掩码裁剪多通道卷积特征图像和深度图像,得到每个目标物体的图像卷积特征块和深度图像块;场景中各目标裁剪出的RGB特征形状、大小各异,对此构造一个目标边界框大小的矩形特征空间,填入裁剪后的目标RGB特征,对其余空间用0填充,具体为:利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。
步骤S4:对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化,得到规范大小的目标RGB特征向量;
步骤S5、从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量;具体为:
根据小孔成像模型,利用相机内参从包含目标的深度图像块中计算出三维点云,计算过程中通过随机采样或填充策略对点云数量进行删增,确保每个目标点云数量相同,最后利用一个点云特征网络获得目标规范大小的点云特征向量。
裁剪后的目标深度图像块表述为Di∈(ui,vi,I(ui,vi)),i=1,2,...,m,其中u,v为图像坐标,ui为目标物体点云的横向坐标,vi为目标物体点云的纵向坐标,I(u,v)为该点深度值,首先利用最远点采样或复制方法确保各目标m一致,其次利用相机内参和小孔成像模型从深度图像中获取点云(Xi,Yi,Zi):
点云特征网络采用PointNet结构,通过全局池化输出固定大小的点云特征向量。
步骤S6:融合目标RGB特征向量和点云特征向量,通过位姿回归网络进行目标位置估计和姿态估计,输出每个对应目标的类别C和6维位姿P;具体为:融合目标RGB特征向量与点云特征向量后,分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息t和姿态信息R,得到位置向量t和姿态矩阵R,最终组合成目标位姿矩阵T=[R|t],最终组合成目标位姿矩阵T=[R|t;0,1],输出每个对应目标的类别C和6维位姿P,6维位姿P的输出包括目标位姿矩阵T=[R|t;0,1]的输出。
步骤S7:利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对步骤S6中提出的位姿回归网络进行训练。
其中,所述步骤S2具体包括如下步骤:
步骤S21、利用主干网络对RGB图像进行特征提取,获得多个不同尺寸和通道的特征图;具体为:
主干网络基于ResNet18卷积神经网络,舍弃网络层中的"layer4"与"fc"层,输出"layer2"和"layer3"层作为图像的卷积特征,其尺寸大小分别为输入图像的和特征通道数分别为128和256。
步骤S22、利用步骤S21中得到的特征图进行实例分割,利用上采样、特征融合操作,获得目标在RGB图像中的实例分割掩码;
步骤S23、对步骤S21中得到的特征图进行上采样、特征融合操作,获得与输入的RGB图像相同尺寸的多通道卷积特征图像。
所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征的获取采用类似的网络结构,仅输出特征通道数不同,F1、F2、F3和F4为网络卷积处理过程中不同阶段特征图像的张量形式,其步骤如下:
步骤S2233:融合F1和F3,依次进行8倍上采样、1×1卷积特征融合,获得与输入图像尺寸一致的特征层F4:[128,H,W];
步骤S2234:采用不同的卷积策略完成多通道卷积特征获取与目标实例分割,多通道卷积特征获取保持F4的张量形式,目标实例分割降低特征通道至目标类别总数,获取类别C和分割掩码。
所述步骤S7中,位姿估计网络训练方法具体为:
步骤S71:实例分割网络学习,获取数据集中的RGB图像和对应目标分割掩码输入到网络中,学习主干网络、实例分割模块及对应上采样模块的网络层参数,所采用损失函数为逐像素的交叉熵(Cross Entropy)计算,先利用SoftMax函数对分割结果中各像素进行类别概率估计:
其中,(u,v)为输出特征像素坐标,j为通道数量,也即目标类别总数,特别的,w=0表示类别为背景的概率,为索引变量;通过计算输出概率与分割掩码的交叉熵作为损失:
LossCE=-∑(u,v)cwlog(Pw)
其中,wi=1,w为分割掩码中(u,v)处所属类别,Pi为上述式子P(w,u,v)计算得到,遍历了整个图像,其求和范围直接用(u,v)表示;
步骤S72:固定主干网络和实例分割网络参数,输入RGB-D图像,利用各目标物体位置参数和姿态参数对网络剩余部分进行训练,采用的损失函数计算如下:
Loss=Losst+αLossR
在本发明的另一较佳实施例中,具体实施步骤如下:
步骤1:利用RGB-D相机获取目标场景下的RGB图像与Depth图像,图像数据分别为[3,480,640](张量形式,通道-高度-宽度),[480,640](张量形式,高度-宽度),并已由相机内部自动配准,相机内部参数K已知;
步骤2:将RGB图像输入至主干网络进行特征提取,获取不同尺寸和通道数的特征图。本方法主干网络基于ResNet18结构,在其基础上,舍弃网络结构中的"layer4"与"fc"层,输出"layer2"与"layer3"层,特征数据张量形式分别为[128,60,80]和[256,30,40];
步骤3:利用步骤2中得到的特征图进行目标实例分割,通过上采样、特征融合和卷积操作,获取目标在RGB图像中的实例分割掩码。具体操作为,从主干网络获取两种卷积特征F1:[128,60,80],F2:[256,30,40],对F2上采样一倍至[256,60,80],接着进行一个1×1卷积处理以融合各通道特征信息,降低特征通道,输出特征F3:[128,60,80],其次,融合F1和F3,依次进行8倍上采样、1×1卷积特征融合,获得与输入图像尺寸一致的特征层F4:[128,480,640],最后执行一次3×3卷积,降低特征通道至[22,480,640],其中22为目标类别数量,背景区域也作为一个独立类别并入其中,利用SoftMax处理获得类别掩码,同时输出图像中的目标数量及类别Object:[n]。
步骤4:获取RGB图像相同尺寸的多通道特征图,处理过程与步骤3类似,从主干网络中获取F1和F2,进行上采样、融合、卷积操作,不同之处在于该步最后直接输出特征层F4,作为RGB图像卷积特征,用于裁剪目标RGB特征。
步骤5:利用上述步骤3获取的目标分割掩码从步骤4获取的多通道RGB特征图裁剪出与目标相同大小的特征图块,经过一个空间金字塔池化模块(Spatial PyramidPooling)得到一个规范大小的RGB特征向量。由于目标分割结果中,大小、形状各异,首先获从分割掩码中计算得到边界框(x,y,h,w),并以此大小构造一个[128,h,w]的空张量,填入裁剪后的目标RGB特征,对其余未涉及到的空间用0填充,之后利用一个空间金字塔池化模块,将[128,h,w]特征规范化成一个固定大小特征向量[128,21],所采用的池化格子为(1,2,4)。分割掩码中每个目标进行一次特征裁剪和池化操作,共获得n个RGB特征向量FRGB:[n,128,21]。
步骤6:裁剪目标Depth图像并计算获得目标点云,首先通过步骤3中分割掩码从Depth图像中裁剪出目标物体深度信息块,表述为Di∈(ui,vi,I(ui,vi)),i=1,2,...,m,其中u、v为裁剪出的图像块中像素二维坐标,I(u,v)为该坐标像素值(深度值)。为保证各目标物体裁剪后深度图像块像素点总数m一致,利用最远点采样法或复制法分别对像素点较多或较少的目标物体进行删增,本发明实施过程中m设置为1000。其次,利用小孔成像模型中,目标三维点云(Xi,Yi,Zi)与二维图像投影点(ui,vi)的映射关系,获取目标点云:
各目标物体获取的点云数据依次输入到点云网络进行特征提取,本发明方法所采用的点云特征网络基于PointNet结构,舍弃"fc"层,降低特征通道数,并利用复制操作扩展向量长度至21,使输出为[128,21],确保与目标物体RGB图像特征向量形式一致,同样的,n个目标物体输出特征向量为FPoints:[n,128,21]。
步骤7:融合步骤5和6中目标物体RGB特征向量FRGB与点云特征向量FPoints,获得目标融合特征FObjs:[n,128,21],然后分别输入两个独立MLP回归网络MLPt和MLPR,对各目标物体位置参数和姿态参数进行预测,得到各物体位姿参数translation:[n,3],rotation:[n,3,3]。
利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对上述提出的位姿估计网络进行训练,具体步骤为:
步骤1:实例分割网络学习,获取数据集中的RGB图像和对应目标分割掩码输入到网络中,学习主干网络、实例分割模块及对应上采样模块的网络层参数,所采用损失函数为逐像素的交叉熵(Cross Entropy)计算,先利用SoftMax函数对分割结果中各像素进行类别概率估计:
其中,(u,v)为输出特征像素坐标,j为通道数量,也即目标类别总数,特别的,i=0表示类别为背景的概率。通过计算输出概率与分割掩码的交叉熵作为损失:
LossCE=-∑(u,v)cilog(Pi)
其中,ci=1,i为分割掩码中(u,v)处所属类别。
步骤2:固定主干网络和实例分割网络参数,输入RGB-D图像,利用各目标物体位置参数和姿态参数对网络剩余部分进行训练,采用的损失函数计算如下:
Loss=Losst+αLossR
为了验证本发明方法的有效性和准确性,分别在目标位姿公开数据集LINEMOD(图3(a))和YCB(图3(b)所示)上进行了测试,首先利用训练集对网络进行训练,然后在测试集上进行位姿预测性能测试。图4(a)为目标实例分割过程中损失下降曲线,图4(b)为位姿参数回归总损失下降曲线,图5为部分位姿结果展示。可以看出,各目标物体能准确进行分割,各目标物体通过预测的位姿参数,绘制三维边界框,能与目标真实三维边界框准确重合。
采用本发明所提供的一种融合RGB-D视觉特征的目标位姿估计方法,其技术优点体现如下:
(1)提出一种融合RGB-D视觉特征策略的位姿估计方法,利用卷积神经网络和点云网络分别提取RGB图像和Depth图像(预处理成点云数据)特征,并规范化处理特征尺度,保留特征空间信息,实现两种不同特质数据的融合,提高网络的位姿参数回归能力。
(2)针对位姿参数中,位置和姿态两种不同几何含义数据的特点,使用两个独立MLP结构进行回归预测,使网络更有效地学习特征表述。
(3)采用端到端的训练和推理方式,避免了基于关键点预测方法的后处理操作,执行速度快,效率高。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,包括如下步骤:
步骤S1:获取包含目标物体的RGB图像和深度图像;
步骤S2:将RGB图像输入至主干网络进行RGB特征提取和实例分割,获得多通道卷积特征图像和目标物体分割掩码;
步骤S3:利用目标分割掩码裁剪多通道卷积特征图像和深度图像,得到每个目标物体的图像卷积特征块和深度图像块;
步骤S4:对目标物体任意尺寸的图像卷积特征块进行空间金字塔池化,得到规范大小的目标RGB特征向量;
步骤S5、从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量;
步骤S6:融合目标RGB特征向量和点云特征向量,通过位姿回归网络进行目标位置估计和姿态估计,输出每个对应目标的类别C和6维位姿P。
2.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S2具体包括如下步骤:
步骤S21、利用主干网络对RGB图像进行特征提取,获得多个不同尺寸和通道的特征图;
步骤S22、利用步骤S21中得到的特征图进行实例分割,利用上采样、特征融合操作,获得目标在RGB图像中的实例分割掩码;
步骤S23、对步骤S21中得到的特征图进行上采样、特征融合操作,获得与输入的RGB图像相同尺寸的多通道卷积特征图像。
3.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,步骤S5具体为:
根据小孔成像模型,利用相机内参从包含目标的深度图像块中计算出三维点云,计算过程中通过随机采样或填充策略对点云数量进行删增,确保每个目标点云数量相同,最后利用一个点云特征网络获得目标规范大小的点云特征向量。
5.根据权利要求2所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S22中的目标实例分割及所述S23中的多通道卷积特征图像的获取采用类似的网络结构,仅输出特征通道数不同,F1、F2、F3和F4为网络卷积处理过程中不同阶段特征图像的张量形式,其步骤如下:
步骤S2233:融合F1和F3,依次进行8倍上采样、1×1卷积特征融合,获得与输入图像尺寸一致的特征层F4:[128,H,W];
步骤S2234:采用不同的卷积策略完成多通道卷积特征图像获取与目标实例分割,多通道卷积特征图像获取保持F4的张量形式,目标实例分割降低特征通道至目标类别总数,获取类别C和分割掩码。
6.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S3中,场景中各目标裁剪出的RGB特征形状、大小各异,对此构造一个目标边界框大小的矩形特征空间,填入裁剪后的目标RGB特征,对其余空间用0填充,具体为:利用获取的目标分割掩码从所述多通道卷积特征图像和输入深度图像中分别裁剪出与目标相同大小的图像卷积特征块和深度图像块。
7.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S5、从深度图像块获取目标物体点云,并提取点云特征,获得点云特征向量,具体为:
裁剪后的目标深度图像块表述为Di∈(ui,vi,I(ui,vi)),i=1,2,...,m,其中u,v为图像坐标,ui为目标物体点云的横向坐标,vi为目标物体点云的纵向坐标,I(u,v)为该点深度值,首先利用最远点采样或复制方法确保各目标m一致,其次利用相机内参和小孔成像模型从深度图像中获取点云(Xi,Yi,Zi):
点云特征网络采用PointNet结构,通过全局池化输出固定大小的点云特征向量。
8.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S6具体为:融合目标RGB特征向量与点云特征向量后,分别输入位置和通过两个独立位姿回归网络估计出目标的位置信息和姿态信息,得到位置向量t和姿态矩阵R,最终组合成目标位姿矩阵T=[R|t;0,1],输出每个对应目标的类别C和6维位姿P,6维位姿P的输出包括目标位姿矩阵T=[R|t;0,1]的输出。
9.根据权利要求1所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,还包括:
步骤S7:利用目标位姿估计数据集中提供的RGB-D图像、图像中各目标物体分割掩码和位姿参数对步骤S6中提出的位姿回归网络进行训练。
10.根据权利要求9所述的一种融合RGB-D视觉特征的目标位姿估计方法,其特征在于,所述步骤S7中位姿估计网络训练方法具体为:
步骤S71:实例分割网络学习,获取数据集中的RGB图像和对应目标分割掩码输入到网络中,学习主干网络、实例分割模块及对应上采样模块的网络层参数,所采用损失函数为逐像素的交叉熵(Cross Entropy)计算,先利用SoftMax函数对分割结果中各像素进行类别概率估计:
其中,(u,v)为输出特征像素坐标,j为通道数量,也即目标类别总数,特别的,w=0表示类别为背景的概率,为索引变量;通过计算输出概率与分割掩码的交叉熵作为损失:
LossCE=-∑(u,v)cwlog(Pw)
其中,wi=1,w为分割掩码中(u,v)处所属类别,Pi为上述式子P(w,u,v)计算得到,遍历了整个图像,其求和范围直接用(u,v)表示;
步骤S72:固定主干网络和实例分割网络参数,输入RGB-D图像,利用各目标物体位置参数和姿态参数对网络剩余部分进行训练,采用的损失函数计算如下:
Loss=Losst+αLossR
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011152483.9A CN112270249B (zh) | 2020-10-26 | 2020-10-26 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011152483.9A CN112270249B (zh) | 2020-10-26 | 2020-10-26 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270249A true CN112270249A (zh) | 2021-01-26 |
CN112270249B CN112270249B (zh) | 2024-01-23 |
Family
ID=74341085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011152483.9A Active CN112270249B (zh) | 2020-10-26 | 2020-10-26 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270249B (zh) |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802101A (zh) * | 2021-02-01 | 2021-05-14 | 上海交通大学 | 一种基于多维金字塔的分层模板匹配方法 |
CN113012122A (zh) * | 2021-03-11 | 2021-06-22 | 复旦大学 | 一种类别级6d位姿与尺寸估计方法及装置 |
CN113052835A (zh) * | 2021-04-20 | 2021-06-29 | 江苏迅捷装具科技有限公司 | 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统 |
CN113077512A (zh) * | 2021-03-24 | 2021-07-06 | 浙江中体文化集团有限公司 | 一种rgb-d位姿识别模型训练方法及系统 |
CN113111974A (zh) * | 2021-05-10 | 2021-07-13 | 清华大学 | 基于深度典型相关分析的视觉-激光雷达融合方法及系统 |
CN113284184A (zh) * | 2021-05-24 | 2021-08-20 | 湖南大学 | 面向机器人rgbd视觉感知的6d位姿估计方法及系统 |
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN113313810A (zh) * | 2021-06-18 | 2021-08-27 | 广东工业大学 | 一种透明物体的6d姿态参数计算方法 |
CN113327298A (zh) * | 2021-07-05 | 2021-08-31 | 深圳市拓普智造科技有限公司 | 基于图像实例分割和点云pca算法的一种抓取姿态估计方法 |
CN113393503A (zh) * | 2021-05-24 | 2021-09-14 | 湖南大学 | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 |
CN113450408A (zh) * | 2021-06-23 | 2021-09-28 | 中国人民解放军63653部队 | 一种基于深度相机的非规则物体位姿估计方法及装置 |
CN113538474A (zh) * | 2021-07-12 | 2021-10-22 | 大连民族大学 | 基于边缘特征融合的3d点云分割目标检测系统 |
CN113537072A (zh) * | 2021-07-19 | 2021-10-22 | 之江实验室 | 一种基于参数硬共享的姿态估计与人体解析联合学习系统 |
CN113795867A (zh) * | 2021-08-09 | 2021-12-14 | 百果园技术(新加坡)有限公司 | 物体姿态的检测方法、装置、计算机设备和存储介质 |
CN113822174A (zh) * | 2021-09-02 | 2021-12-21 | 北京的卢深视科技有限公司 | 视线估计的方法、电子设备及存储介质 |
CN114055781A (zh) * | 2021-10-24 | 2022-02-18 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114119753A (zh) * | 2021-12-08 | 2022-03-01 | 北湾科技(武汉)有限公司 | 面向机械臂抓取的透明物体6d姿态估计方法 |
CN114170312A (zh) * | 2021-12-07 | 2022-03-11 | 南方电网电力科技股份有限公司 | 一种基于特征融合的目标物体位姿估计方法及装置 |
CN114332211A (zh) * | 2022-01-06 | 2022-04-12 | 南京航空航天大学 | 一种基于边缘重建和密集融合网络的零件位姿计算方法 |
CN114494156A (zh) * | 2022-01-03 | 2022-05-13 | 西北工业大学 | 一种物体位姿估计和物理属性协同估计方法 |
CN114663514A (zh) * | 2022-05-25 | 2022-06-24 | 浙江大学计算机创新技术研究院 | 一种基于多模态稠密融合网络的物体6d姿态估计方法 |
CN114714365A (zh) * | 2022-06-08 | 2022-07-08 | 湖南大学 | 一种基于云平台的无序工件抓取方法及其系统 |
CN114972763A (zh) * | 2022-07-28 | 2022-08-30 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN115082559A (zh) * | 2022-07-20 | 2022-09-20 | 广东工业大学 | 一种柔性件的多目标智能分拣方法、系统及存储介质 |
CN115147488A (zh) * | 2022-07-06 | 2022-10-04 | 湖南大学 | 一种基于密集预测的工件位姿估计方法与抓取系统 |
CN115222809A (zh) * | 2021-06-30 | 2022-10-21 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备及存储介质 |
CN115420277A (zh) * | 2022-08-31 | 2022-12-02 | 北京航空航天大学 | 一种物体位姿测量方法及电子设备 |
WO2023273271A1 (zh) * | 2021-06-30 | 2023-01-05 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备、存储介质及计算机程序 |
CN116152345A (zh) * | 2023-04-19 | 2023-05-23 | 盐城数智科技有限公司 | 一种嵌入式系统实时物体6d位姿和距离估计方法 |
CN116342800A (zh) * | 2023-02-21 | 2023-06-27 | 中国航天员科研训练中心 | 一种多模态位姿优化的语义三维重建方法及系统 |
TWI811102B (zh) * | 2021-09-14 | 2023-08-01 | 聯發科技股份有限公司 | 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路 |
CN117576217A (zh) * | 2024-01-12 | 2024-02-20 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
CN117689990A (zh) * | 2024-02-02 | 2024-03-12 | 南昌航空大学 | 一种基于6d姿态估计的三支流双向融合网络方法 |
CN117808855A (zh) * | 2024-02-29 | 2024-04-02 | 新西旺智能科技(深圳)有限公司 | 一种基于视觉图像的目标对位方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330194A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Training an rgb-d classifier with only depth data and privileged information |
US20190294970A1 (en) * | 2018-03-23 | 2019-09-26 | The Governing Council Of The University Of Toronto | Systems and methods for polygon object annotation and a method of training an object annotation system |
CN110910451A (zh) * | 2019-10-23 | 2020-03-24 | 同济大学 | 一种基于变形卷积网络的物体位姿估计方法及系统 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
-
2020
- 2020-10-26 CN CN202011152483.9A patent/CN112270249B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180330194A1 (en) * | 2017-05-15 | 2018-11-15 | Siemens Aktiengesellschaft | Training an rgb-d classifier with only depth data and privileged information |
US20190294970A1 (en) * | 2018-03-23 | 2019-09-26 | The Governing Council Of The University Of Toronto | Systems and methods for polygon object annotation and a method of training an object annotation system |
CN110910451A (zh) * | 2019-10-23 | 2020-03-24 | 同济大学 | 一种基于变形卷积网络的物体位姿估计方法及系统 |
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111667535A (zh) * | 2020-06-04 | 2020-09-15 | 电子科技大学 | 一种针对遮挡场景下的六自由度位姿估计方法 |
Non-Patent Citations (1)
Title |
---|
董帅;李文生;张文强;邹昆;: "基于多视图循环神经网络的三维物体识别", 电子科技大学学报, no. 02, pages 269 - 275 * |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802101B (zh) * | 2021-02-01 | 2023-04-07 | 上海交通大学 | 一种基于多维金字塔的分层模板匹配方法 |
CN112802101A (zh) * | 2021-02-01 | 2021-05-14 | 上海交通大学 | 一种基于多维金字塔的分层模板匹配方法 |
CN113012122A (zh) * | 2021-03-11 | 2021-06-22 | 复旦大学 | 一种类别级6d位姿与尺寸估计方法及装置 |
CN113012122B (zh) * | 2021-03-11 | 2022-07-29 | 复旦大学 | 一种类别级6d位姿与尺寸估计方法及装置 |
CN113077512A (zh) * | 2021-03-24 | 2021-07-06 | 浙江中体文化集团有限公司 | 一种rgb-d位姿识别模型训练方法及系统 |
CN113077512B (zh) * | 2021-03-24 | 2022-06-28 | 浙江中体文化集团有限公司 | 一种rgb-d位姿识别模型训练方法及系统 |
CN113052835A (zh) * | 2021-04-20 | 2021-06-29 | 江苏迅捷装具科技有限公司 | 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统 |
CN113052835B (zh) * | 2021-04-20 | 2024-02-27 | 江苏迅捷装具科技有限公司 | 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统 |
CN113111974B (zh) * | 2021-05-10 | 2021-12-14 | 清华大学 | 基于深度典型相关分析的视觉-激光雷达融合方法及系统 |
CN113111974A (zh) * | 2021-05-10 | 2021-07-13 | 清华大学 | 基于深度典型相关分析的视觉-激光雷达融合方法及系统 |
US11532151B2 (en) | 2021-05-10 | 2022-12-20 | Tsinghua University | Vision-LiDAR fusion method and system based on deep canonical correlation analysis |
CN113393503B (zh) * | 2021-05-24 | 2022-05-27 | 湖南大学 | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 |
CN113284184A (zh) * | 2021-05-24 | 2021-08-20 | 湖南大学 | 面向机器人rgbd视觉感知的6d位姿估计方法及系统 |
CN113393503A (zh) * | 2021-05-24 | 2021-09-14 | 湖南大学 | 一种分割驱动形状先验变形的类别级物体6d位姿估计方法 |
CN113313810A (zh) * | 2021-06-18 | 2021-08-27 | 广东工业大学 | 一种透明物体的6d姿态参数计算方法 |
CN113450408B (zh) * | 2021-06-23 | 2022-10-25 | 中国人民解放军63653部队 | 一种基于深度相机的非规则物体位姿估计方法及装置 |
CN113450408A (zh) * | 2021-06-23 | 2021-09-28 | 中国人民解放军63653部队 | 一种基于深度相机的非规则物体位姿估计方法及装置 |
CN115222809A (zh) * | 2021-06-30 | 2022-10-21 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备及存储介质 |
WO2023273272A1 (zh) * | 2021-06-30 | 2023-01-05 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备、存储介质及计算机程序 |
WO2023273271A1 (zh) * | 2021-06-30 | 2023-01-05 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备、存储介质及计算机程序 |
CN113313720B (zh) * | 2021-06-30 | 2024-03-29 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN113313720A (zh) * | 2021-06-30 | 2021-08-27 | 上海商汤科技开发有限公司 | 对象分割方法和装置 |
CN115222809B (zh) * | 2021-06-30 | 2023-04-25 | 达闼科技(北京)有限公司 | 目标位姿估计方法、装置、计算设备及存储介质 |
CN113327298B (zh) * | 2021-07-05 | 2024-05-28 | 深圳市拓普智造科技有限公司 | 基于图像实例分割和点云pca算法的一种抓取姿态估计方法 |
CN113327298A (zh) * | 2021-07-05 | 2021-08-31 | 深圳市拓普智造科技有限公司 | 基于图像实例分割和点云pca算法的一种抓取姿态估计方法 |
CN113538474B (zh) * | 2021-07-12 | 2023-08-22 | 大连民族大学 | 基于边缘特征融合的3d点云分割目标检测系统 |
CN113538474A (zh) * | 2021-07-12 | 2021-10-22 | 大连民族大学 | 基于边缘特征融合的3d点云分割目标检测系统 |
CN113537072B (zh) * | 2021-07-19 | 2024-03-12 | 之江实验室 | 一种基于参数硬共享的姿态估计与人体解析联合学习系统 |
CN113537072A (zh) * | 2021-07-19 | 2021-10-22 | 之江实验室 | 一种基于参数硬共享的姿态估计与人体解析联合学习系统 |
CN113795867A (zh) * | 2021-08-09 | 2021-12-14 | 百果园技术(新加坡)有限公司 | 物体姿态的检测方法、装置、计算机设备和存储介质 |
CN113822174A (zh) * | 2021-09-02 | 2021-12-21 | 北京的卢深视科技有限公司 | 视线估计的方法、电子设备及存储介质 |
TWI811102B (zh) * | 2021-09-14 | 2023-08-01 | 聯發科技股份有限公司 | 用於檢測對象的位置、像素和框架的視訊處理方法以及視訊處理電路 |
CN114055781A (zh) * | 2021-10-24 | 2022-02-18 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114055781B (zh) * | 2021-10-24 | 2023-12-29 | 扬州大学 | 基于点体素相关场的燃油箱焊接机械臂自适应校正方法 |
CN114170312A (zh) * | 2021-12-07 | 2022-03-11 | 南方电网电力科技股份有限公司 | 一种基于特征融合的目标物体位姿估计方法及装置 |
CN114119753A (zh) * | 2021-12-08 | 2022-03-01 | 北湾科技(武汉)有限公司 | 面向机械臂抓取的透明物体6d姿态估计方法 |
CN114494156B (zh) * | 2022-01-03 | 2024-03-08 | 西北工业大学 | 一种物体位姿估计和物理属性协同估计方法 |
CN114494156A (zh) * | 2022-01-03 | 2022-05-13 | 西北工业大学 | 一种物体位姿估计和物理属性协同估计方法 |
CN114332211B (zh) * | 2022-01-06 | 2022-12-13 | 南京航空航天大学 | 一种基于边缘重建和密集融合网络的零件位姿计算方法 |
CN114332211A (zh) * | 2022-01-06 | 2022-04-12 | 南京航空航天大学 | 一种基于边缘重建和密集融合网络的零件位姿计算方法 |
CN114663514A (zh) * | 2022-05-25 | 2022-06-24 | 浙江大学计算机创新技术研究院 | 一种基于多模态稠密融合网络的物体6d姿态估计方法 |
CN114714365A (zh) * | 2022-06-08 | 2022-07-08 | 湖南大学 | 一种基于云平台的无序工件抓取方法及其系统 |
CN115147488A (zh) * | 2022-07-06 | 2022-10-04 | 湖南大学 | 一种基于密集预测的工件位姿估计方法与抓取系统 |
CN115082559A (zh) * | 2022-07-20 | 2022-09-20 | 广东工业大学 | 一种柔性件的多目标智能分拣方法、系统及存储介质 |
CN114972763A (zh) * | 2022-07-28 | 2022-08-30 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN114972763B (zh) * | 2022-07-28 | 2022-11-04 | 香港中文大学(深圳)未来智联网络研究院 | 激光雷达点云分割方法、装置、设备及存储介质 |
CN115420277B (zh) * | 2022-08-31 | 2024-04-12 | 北京航空航天大学 | 一种物体位姿测量方法及电子设备 |
CN115420277A (zh) * | 2022-08-31 | 2022-12-02 | 北京航空航天大学 | 一种物体位姿测量方法及电子设备 |
CN116342800A (zh) * | 2023-02-21 | 2023-06-27 | 中国航天员科研训练中心 | 一种多模态位姿优化的语义三维重建方法及系统 |
CN116342800B (zh) * | 2023-02-21 | 2023-10-24 | 中国航天员科研训练中心 | 一种多模态位姿优化的语义三维重建方法及系统 |
CN116152345A (zh) * | 2023-04-19 | 2023-05-23 | 盐城数智科技有限公司 | 一种嵌入式系统实时物体6d位姿和距离估计方法 |
CN117576217B (zh) * | 2024-01-12 | 2024-03-26 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
CN117576217A (zh) * | 2024-01-12 | 2024-02-20 | 电子科技大学 | 一种基于单实例图像重建的物体位姿估计方法 |
CN117689990A (zh) * | 2024-02-02 | 2024-03-12 | 南昌航空大学 | 一种基于6d姿态估计的三支流双向融合网络方法 |
CN117689990B (zh) * | 2024-02-02 | 2024-05-31 | 南昌航空大学 | 一种基于6d姿态估计的三支流双向融合网络方法 |
CN117808855A (zh) * | 2024-02-29 | 2024-04-02 | 新西旺智能科技(深圳)有限公司 | 一种基于视觉图像的目标对位方法及系统 |
CN117808855B (zh) * | 2024-02-29 | 2024-05-31 | 新西旺智能科技(深圳)有限公司 | 一种基于视觉图像的目标对位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112270249B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270249A (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN109934121B (zh) | 一种基于YOLOv3算法的果园行人检测方法 | |
CN110135455B (zh) | 影像匹配方法、装置及计算机可读存储介质 | |
CN110084304B (zh) | 一种基于合成数据集的目标检测方法 | |
WO2020164092A1 (zh) | 图像处理方法、设备、可移动平台、无人机及存储介质 | |
CN108898676B (zh) | 一种虚实物体之间碰撞及遮挡检测方法及系统 | |
CN110599537A (zh) | 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统 | |
US10402978B1 (en) | Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same | |
CN113052109A (zh) | 一种3d目标检测系统及其3d目标检测方法 | |
CN111553869B (zh) | 一种空基视角下的生成对抗网络图像补全方法 | |
CN111046767B (zh) | 一种基于单目图像的3d目标检测方法 | |
CN114663502A (zh) | 物体姿态估计、图像处理方法及相关设备 | |
CN112801169A (zh) | 一种基于改进yolo算法的伪装目标检测方法 | |
CN109145836A (zh) | 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法 | |
CN114926747A (zh) | 一种基于多特征聚合与交互的遥感图像定向目标检测方法 | |
CN113160062A (zh) | 一种红外图像目标检测方法、装置、设备及存储介质 | |
CN113674400A (zh) | 基于重定位技术的光谱三维重建方法、系统及存储介质 | |
CN114170290A (zh) | 图像的处理方法及相关设备 | |
CN117058646A (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
CN111626241A (zh) | 一种人脸检测方法及装置 | |
CN111488783A (zh) | 基于cnn检测伪3d边界框的方法及其装置 | |
CN114821536A (zh) | 一种改进yolov5的无人驾驶拖拉机田间障碍物识别方法 | |
CN114494594A (zh) | 基于深度学习的航天员操作设备状态识别方法 | |
CN112037282B (zh) | 一种基于关键点以及骨架的飞机姿态估计方法及系统 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |