CN115222810A - 目标位姿估计方法、装置、计算设备及存储介质 - Google Patents
目标位姿估计方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN115222810A CN115222810A CN202110743455.2A CN202110743455A CN115222810A CN 115222810 A CN115222810 A CN 115222810A CN 202110743455 A CN202110743455 A CN 202110743455A CN 115222810 A CN115222810 A CN 115222810A
- Authority
- CN
- China
- Prior art keywords
- target
- features
- preset number
- point clouds
- depth image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 claims abstract description 89
- 230000004927 fusion Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000004891 communication Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及计算机视觉技术领域,公开了一种目标位姿估计方法、装置、计算设备及存储介质,方法包括:根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。通过上述方式,本发明实施例能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,具体涉及一种目标位姿估计方法、装置、计算设备及存储介质。
背景技术
智能机器人,除了能够感知周围世界,还要能够与环境进行交互,而抓取是不可或缺的能力。机器人抓取无论在工业场景还是在家庭场景,都有着十分巨大的应用价值,其中对待抓取物体进行位姿估计是影响抓取成功与否的重要因素。现有的位姿估计方法通常分为特征匹配法、模板法和基于深度学习的方法。特征匹配法通常计算3D模型和2D图像之间的特征点并将其进行匹配,然后使用透视n点投影(perspective n point,PnP)的方法计算位姿。模板法通常对待抓取物体的3D模型进行从各个视角进行建模,通过将采集到的图像和模板进行匹配来进行位姿的估计。基于深度学习的方法通常需要首先采集大量待抓取物体在各种位姿状态下的彩色图及深度图,创建数据集,然后通过训练基于深度学习的卷积神经网络,直接或者间接地估计出待抓取物体的位姿。
然而,目前算法在真实物体的抓取上仍存在缺陷。特征匹配法往往需要大量的计算,算法运行时间较长。不仅如此,特征点选取及匹配的成功与否直接影响了位姿估计的准确性,对于特征点较少的物体算法往往无法获得准确且稳定的结果。基于模板匹配的方法往往需要大量的模板制作,并且位姿估计本质上是回归问题,因此算法准确度和模版的数量选取往往成正比,很难做到平衡。基于深度学习的方法直接通过卷积神经网络回归物体位姿,通常无法达到足够高的精度。
发明内容
鉴于上述问题,本发明实施例提供了一种目标位姿估计方法、装置、计算设备及存储介质,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种目标位姿估计方法,所述方法包括:根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
在一种可选的方式中,所述根据RGB图像和深度图像进行2D检测,获取目标的检测区域,包括:应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别;根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
在一种可选的方式中,所述根据与所述检测区域对应的所述RGB图像提取所述RGB图像的纹理特征,包括:应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。
在一种可选的方式中,所述根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征,包括:将所述检测区域内的所述深度图像转换成点云;在转换后的所述点云中提取预设数量个点云的几何特征。
在一种可选的方式中,所述在转换后的所述点云中提取预设数量个点云的几何特征,包括:根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。
在一种可选的方式中,所述根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,包括:将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵;根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。
在一种可选的方式中,所述将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵,包括:根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应;将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征;根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。
根据本发明实施例的另一方面,提供了一种目标位姿估计装置,所述目标位姿估计装置包括:2D检测单元,用于根据RGB图像和深度图像进行2D检测,获取目标的检测区域;第一提取单元,用于根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;第二提取单元,用于根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;位姿估计单元,用于根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述目标位姿估计方法的步骤。
根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述目标位姿估计方法的步骤。
本发明实施例的目标位姿估计方法包括:根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的目标位姿估计方法的流程示意图;
图2示出了本发明实施例提供的目标位姿估计方法中的第一卷积神经网络的结构示意图;
图3示出了本发明实施例提供的目标位姿估计方法中的位姿估计示意图;
图4示出了本发明实施例提供的目标位姿估计方法中的Point++网络的结构示意图;
图5示出了本发明实施例提供的目标位姿估计方法中的Point++网络示意图;
图6示出了本发明实施例提供的目标位姿估计方法中的Point++segmentation网络结构示意图;
图7示出了本发明实施例提供的目标位姿估计方法中的第一多层感知机的结构示意图;
图8示出了本发明实施例提供的目标位姿估计装置的结构示意图;
图9示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的目标位姿估计方法的流程示意图,该目标位姿估计方法应用于机器人设备,如图1所示,目标位姿估计方法包括:
步骤S11:根据RGB图像和深度图像进行2D检测,获取目标的检测区域。
在本发明实施例中,在步骤S11之前,准备好机器人设备,包括机器人底座、机械臂和深度摄像头等,然后将物体放置在机械臂前方的桌面上,应用深度摄像头采集当前位置的RGB图像和深度(Depth)图像。
在步骤S11中,可选地,应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别。第一卷积神经网络的构建方法中如下:首先构建数据集,采集目标(待抓取物体)在不同环境背景下的RGB图像,对每张RGB图像,标记最合适的边界框(x,y,w,h)及物体类别id;其次,对大量RGB图像数据,使用卷积神经网络(Convolutional Neural Network,CNN)进行训练,得到第一卷积神经网络模型。第一卷积神经网络的结构如图2所示,将图像块进行缩放得到448x448像素的块,作为网络输入,网络层数为31层。在步骤S11中运行该第一卷积神经网络时,输入目标的RGB图像,缩放至448x448像素,输入至第一卷积神经网络,预测出当前图像中的第一边界框(x,y,w,h)以及物体类别id。该第一边界框(x,y,w,h)即为RGB图像中目标的检测区域,其中x,y,表示像素坐标,w,h表示目标的宽度和高度。
然后根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
步骤S12:根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征。
在本发明实施例中,如图3所示,可选地,应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。其中第二卷积神经网络的结构与图2类似,只是具体的网络模型参数不相同。每个像素点的纹理特征可以有多个,能完整表征对应像素即可。
步骤S13:根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征。
可选地,继续参见图3,将所述检测区域内的所述深度图像转换成点云,转换公式如下:
其中(X,Y,Z)是点云坐标,(x′,y′)是图像坐标,D是深度值,fx和fy是焦距,cx,cy是主点偏移。
然后在转换后的所述点云中提取预设数量个点云的几何特征。可选地,根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。优选地,第一网络模型为Point++segmentation网络,第二网络模型为Point++网络。Point++网络如图4和图5所示,其中,MLP为多层感知机,通过多个全链接层的堆叠实现。第二网络模型通过堆叠多层感知机以及池化操作获得点云特征,通过在每一组多层感知机前对点云进行分组来获得不同尺度的特征信息。如图6所示,Point++segmentation网络在Point++网络的基础上通过插值+MLP的方法对点云进行上采样,最终获得分割结果。在步骤S13中最终获取预设数量M个种子点(点云)的所述几何特征,其中每个种子点的几何特征可以有多个,在此不作限制。
步骤S14:根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
可选地,根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。参见图3,根据目标点云中的各点云对M个预设数量种子点进行投票分组,然后聚类,以将目标点云中的各点云聚类到M个预设数量种子点,再经过第一多层感知机处理后得到目标的位置信息T和尺寸信息S。其中第一多层感知机通过多个全链接层的堆叠实现,网络结构如图7所示。
在本发明实施例中,将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵。可选地,根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应。即将预设数量个点云投影到RGB图像上获取对应位置的像素点的纹理特征,从而得到预设数量M个种子点纹理特征。将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征。例如,第i个种子点的纹理特征有2个,几何特征有4个,则融合后该种子点的融合特征有6个,即相当于有6个融合特征来表征该种子点。最后根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。第二多层感知机的结构与第一多层感知机的结构类似,只具体的网络参数可能不相同。M个种子点的融合特征经过第二多层感知机处理后得到全局特征,再经一全连接层后即可得到目标的旋转矩阵R。至此,目标的位置信息T和旋转矩阵R用以表征目标的位姿信息。得到目标的位姿信息和尺寸信息后,机器人设备根据该位姿使机械臂执行抓取目标。本发明实施例使用卷积神经网络分别提取RGB图像的纹理特征、Depth图像的几何特征,使用几何特征回归物体的位置信息和尺寸信息。将纹理特征和几何特征融合回归物体的旋转矩阵。使用卷积神经网络直接回归算法计算时间短,并且能够根据训练数据选择适合的特征,不受传统特征提取的约束。而通过特征融合的思想,能够对物体的纹理和几何特征充分结合,提高算法的准确性,提高抓取的成功率。
在本发明实施例中,继续参见图3,2D检测之后的包括第二卷积神经网络、第一网络模型、第二网络模型、第一多层感知机以及第二多层感知机在内的各执行单元可以组合形成一个总的网络模型,该网络模型分别将对应的RGB图像和Depth图像作为网络输入,提取特征后进行融合,该网络模型运行时,输入目标的RGB图像和深度图像,预测出当前图像中目标(待抓取物体)的位置T(x,y,z)、尺寸S(w,l,h)和旋转矩阵R。在此之前同样需要构建该网络模型:首先需要构建数据集,采集待抓取物体在不同位姿条件下的RGB图像和Depth图像,对每组图像,标记其位姿和尺寸的真实值;其次,对大量RGB图像和Depth图像数据,使用卷积神经网络进行训练,得到网络模型。
本发明实施例的目标位姿估计方法通过根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
图8示出了本发明实施例的目标位姿估计装置的结构示意图,如图5所示,该目标位姿估计装置包括:2D检测单元801、第一提取单元802、第二提取单元803以及位姿估计单元804。
2D检测单元801用于根据RGB图像和深度图像进行2D检测,获取目标的检测区域;第一提取单元802用于根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;第二提取单元803用于根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;位姿估计单元804用于根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
在一种可选的方式中,2D检测单元801用于:应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别;根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
在一种可选的方式中,第一提取单元802用于:应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。
在一种可选的方式中,第二提取单元803用于:将所述检测区域内的所述深度图像转换成点云;在转换后的所述点云中提取预设数量个点云的几何特征。
在一种可选的方式中,第二提取单元803用于:根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。
在一种可选的方式中,位姿估计单元804用于:将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵;根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。
在一种可选的方式中,位姿估计单元804用于:根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应;将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征;根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。
本发明实施例的目标位姿估计方法通过根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的目标位姿估计方法。
可执行指令具体可以用于使得处理器执行以下操作:
根据RGB图像和深度图像进行2D检测,获取目标的检测区域;
根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;
根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;
根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别;
根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述检测区域内的所述深度图像转换成点云;
在转换后的所述点云中提取预设数量个点云的几何特征。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;
应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵;
根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应;
将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征;
根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。
本发明实施例的目标位姿估计方法通过根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
图9示出了本发明设备实施例的结构示意图,本发明具体实施例并不对设备的具体实现做限定。
如图9所示,该设备可以包括:处理器(processor)902、通信接口(CommunicationsInterface)904、存储器(memory)906、以及通信总线908。
其中:处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。通信接口904,用于与其它设备比如客户端或其它服务器等的网元通信。处理器902,用于执行程序910,具体可以执行上述目标位姿估计方法实施例中的相关步骤。
具体地,程序910可以包括程序代码,该程序代码包括计算机操作指令。
处理器902可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器906,用于存放程序910。存储器906可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序910具体可以用于使得处理器902执行以下操作:
根据RGB图像和深度图像进行2D检测,获取目标的检测区域;
根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;
根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;
根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别;
根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
将所述检测区域内的所述深度图像转换成点云;
在转换后的所述点云中提取预设数量个点云的几何特征。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;
应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵;
根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。
在一种可选的方式中,所述程序910使所述处理器执行以下操作:
根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应;
将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征;
根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。
本发明实施例的目标位姿估计方法通过根据RGB图像和深度图像进行2D检测,获取目标的检测区域;根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,能够提高位姿计算的准确性和稳定性,提高抓取的成功率。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种目标位姿估计方法,其特征在于,所述方法包括:
根据RGB图像和深度图像进行2D检测,获取目标的检测区域;
根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;
根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;
根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
2.如权利要求1所述的方法,其特征在于,所述根据RGB图像和深度图像进行2D检测,获取目标的检测区域,包括:
应用预构建的第一卷积神经网络对所述RGB图像进行处理,获取所述RGB图像中所述目标的第一边界框以及物体类别;
根据所述第一边界框确定所述深度图像中所述目标的第二边界框,所述第一边界框和所述第二边界框分别对应所述RGB图像和所述深度图像中所述目标的相同的所述检测区域。
3.如权利要求1所述的方法,其特征在于,所述根据与所述检测区域对应的所述RGB图像提取所述RGB图像的纹理特征,包括:
应用第二卷积神经网络对所述检测区域内的所述RGB图像进行处理,提取所述RGB图像中各个像素点的所述纹理特征。
4.如权利要求1所述的方法,其特征在于,所述根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征,包括:
将所述检测区域内的所述深度图像转换成点云;
在转换后的所述点云中提取预设数量个点云的几何特征。
5.如权利要求4所述的方法,其特征在于,所述在转换后的所述点云中提取预设数量个点云的几何特征,包括:
根据所述点云应用第一网络模型获取目标点云,其中所述目标点云为去除了背景的与所述目标对应的点云;
应用第二网络模型对所述目标点云进行处理选取所述预设数量个点云的所述几何特征。
6.如权利要求1所述的方法,其特征在于,所述根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿,包括:
将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵;
根据所述深度图像的所述几何特征应用第一多层感知机进行处理,获取所述目标的位置信息和尺寸信息。
7.如权利要求6所述的方法,其特征在于,所述将所述预设数量个点云的所述几何特征与所述RGB图像的所述纹理特征进行融合,获取所述预设数量个种子点的融合特征,并根据融合后的所述融合特征估计所述目标的旋转矩阵,包括:
根据所述预设数量个点云的所述几何特征在所述RGB图像的所述纹理特征中选取所述预设数量个像素点的所述纹理特征,其中所述预设数量个像素点的位置与所述深度图像中的所述预设数量个点云的位置对应;
将预设数量个像素点的所述纹理特征与对应的点云的所述几何特征融合,获取所述预设数量个种子点的所述融合特征;
根据所述预设数量个种子点的所述融合特征应用第二多层感知机进行处理,获取所述目标的所述旋转矩阵。
8.一种目标位姿估计装置,其特征在于,所述装置包括:
2D检测单元,用于根据RGB图像和深度图像进行2D检测,获取目标的检测区域;
第一提取单元,用于根据所述检测区域内的所述RGB图像提取所述RGB图像的纹理特征;
第二提取单元,用于根据所述检测区域内的所述深度图像提取所述深度图像中的预设数量个点云的几何特征;
位姿估计单元,用于根据所述预设数量个点云的所述几何特征和所述纹理特征获取所述目标的位姿。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7任一项所述目标位姿估计方法的步骤。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行根据权利要求1-7任一项所述目标位姿估计方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110743455.2A CN115222810A (zh) | 2021-06-30 | 2021-06-30 | 目标位姿估计方法、装置、计算设备及存储介质 |
PCT/CN2021/143441 WO2023273271A1 (zh) | 2021-06-30 | 2021-12-30 | 目标位姿估计方法、装置、计算设备、存储介质及计算机程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110743455.2A CN115222810A (zh) | 2021-06-30 | 2021-06-30 | 目标位姿估计方法、装置、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115222810A true CN115222810A (zh) | 2022-10-21 |
Family
ID=83606049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110743455.2A Pending CN115222810A (zh) | 2021-06-30 | 2021-06-30 | 目标位姿估计方法、装置、计算设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115222810A (zh) |
WO (1) | WO2023273271A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140139639A1 (en) * | 2013-01-30 | 2014-05-22 | Qualcomm Incorporated | Real-time 3d reconstruction with power efficient depth sensor usage |
CN110119148A (zh) * | 2019-05-14 | 2019-08-13 | 深圳大学 | 一种六自由度姿态估计方法、装置及计算机可读存储介质 |
CN110956663A (zh) * | 2019-12-12 | 2020-04-03 | 深圳先进技术研究院 | 一种六维姿态估计的神经网络系统及神经网络方法 |
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111259934A (zh) * | 2020-01-09 | 2020-06-09 | 清华大学深圳国际研究生院 | 一种基于深度学习的堆叠物体6d位姿估计方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102647351B1 (ko) * | 2017-01-26 | 2024-03-13 | 삼성전자주식회사 | 3차원의 포인트 클라우드를 이용한 모델링 방법 및 모델링 장치 |
CN108171748B (zh) * | 2018-01-23 | 2021-12-07 | 哈工大机器人(合肥)国际创新研究院 | 一种面向机器人智能抓取应用的视觉识别与定位方法 |
CN110648367A (zh) * | 2019-08-15 | 2020-01-03 | 大连理工江苏研究院有限公司 | 一种基于多层深度与彩色视觉信息的几何体目标定位方法 |
CN110580725A (zh) * | 2019-09-12 | 2019-12-17 | 浙江大学滨海产业技术研究院 | 一种基于rgb-d相机的箱体分拣方法及系统 |
CN112270249B (zh) * | 2020-10-26 | 2024-01-23 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
-
2021
- 2021-06-30 CN CN202110743455.2A patent/CN115222810A/zh active Pending
- 2021-12-30 WO PCT/CN2021/143441 patent/WO2023273271A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140139639A1 (en) * | 2013-01-30 | 2014-05-22 | Qualcomm Incorporated | Real-time 3d reconstruction with power efficient depth sensor usage |
CN110119148A (zh) * | 2019-05-14 | 2019-08-13 | 深圳大学 | 一种六自由度姿态估计方法、装置及计算机可读存储介质 |
CN110956663A (zh) * | 2019-12-12 | 2020-04-03 | 深圳先进技术研究院 | 一种六维姿态估计的神经网络系统及神经网络方法 |
CN111179324A (zh) * | 2019-12-30 | 2020-05-19 | 同济大学 | 基于颜色和深度信息融合的物体六自由度位姿估计方法 |
CN111259934A (zh) * | 2020-01-09 | 2020-06-09 | 清华大学深圳国际研究生院 | 一种基于深度学习的堆叠物体6d位姿估计方法和装置 |
Non-Patent Citations (5)
Title |
---|
CHARLES R. QI等: "PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation", 《HTTPS://ARXIV.ORG/PDF/1612.00593.PDF》, 10 April 2017 (2017-04-10), pages 1 - 19, XP055874762 * |
CHARLES R. QI等: "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", 《HTTPS://ARXIV.ORG/PDF/1706.02413.PDF》 * |
CHARLES R. QI等: "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", 《HTTPS://ARXIV.ORG/PDF/1706.02413.PDF》, 7 June 2017 (2017-06-07), pages 1 - 14 * |
CHEN WANG等: "DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion", pages 3338 - 3347 * |
曲成璋等: "不同复杂度行为识别", 上海:上海财经大学出版社, pages: 43 - 44 * |
Also Published As
Publication number | Publication date |
---|---|
WO2023273271A1 (zh) | 2023-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113409384B (zh) | 一种目标物体的位姿估计方法和系统、机器人 | |
WO2022170844A1 (zh) | 一种视频标注方法、装置、设备及计算机可读存储介质 | |
CN111080693A (zh) | 一种基于YOLOv3的机器人自主分类抓取方法 | |
CN110176032B (zh) | 一种三维重建方法及装置 | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
CN111862201B (zh) | 一种基于深度学习的空间非合作目标相对位姿估计方法 | |
CN111553949B (zh) | 基于单帧rgb-d图像深度学习对不规则工件的定位抓取方法 | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
WO2022042304A1 (zh) | 识别场景轮廓的方法、装置、计算机可读介质及电子设备 | |
CN114898313B (zh) | 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质 | |
CN114332214A (zh) | 物体姿态估计方法、装置、电子设备及存储介质 | |
CN113034581B (zh) | 基于深度学习的空间目标相对位姿估计方法 | |
CN110097599B (zh) | 一种基于部件模型表达的工件位姿估计方法 | |
CN114219855A (zh) | 点云法向量的估计方法、装置、计算机设备和存储介质 | |
CN112053441A (zh) | 一种室内鱼眼图像的全自动布局恢复方法 | |
CN113284184A (zh) | 面向机器人rgbd视觉感知的6d位姿估计方法及系统 | |
CN115082498A (zh) | 一种机器人抓取位姿估计方法、装置、设备及存储介质 | |
JP7178803B2 (ja) | 情報処理装置、情報処理装置の制御方法およびプログラム | |
CN112013820B (zh) | 一种面向无人机机载平台部署的实时目标检测方法及装置 | |
CN111709269A (zh) | 一种深度图像中基于二维关节信息的人手分割方法和装置 | |
CN115222810A (zh) | 目标位姿估计方法、装置、计算设备及存储介质 | |
JP6198104B2 (ja) | 3次元物体認識装置及び3次元物体認識方法 | |
CN113658274B (zh) | 用于灵长类动物种群行为分析的个体间距自动计算方法 | |
WO2023273272A1 (zh) | 目标位姿估计方法、装置、计算设备、存储介质及计算机程序 | |
CN112449701B (zh) | 学习模板表示库 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221021 |