CN114170312A - 一种基于特征融合的目标物体位姿估计方法及装置 - Google Patents
一种基于特征融合的目标物体位姿估计方法及装置 Download PDFInfo
- Publication number
- CN114170312A CN114170312A CN202111485996.6A CN202111485996A CN114170312A CN 114170312 A CN114170312 A CN 114170312A CN 202111485996 A CN202111485996 A CN 202111485996A CN 114170312 A CN114170312 A CN 114170312A
- Authority
- CN
- China
- Prior art keywords
- target
- preset
- prediction
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013519 translation Methods 0.000 claims abstract description 94
- 238000000605 extraction Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于特征融合的目标物体位姿估计方法及装置,方法包括:采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图,预设目标掩模根据RGB图像提取得到;根据目标点云图和目标特征图进行特征叠加融合,得到全局特征图;根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;基于平移预测量和旋转预测量对目标物体进行位姿估计,得到位姿估计结果。本申请能解决现有位姿估计方法针对弱纹理物体的估计效果欠佳,导致结果偏差较大的技术问题。
Description
技术领域
本申请涉及机器人视觉技术领域,尤其涉及一种基于特征融合的目标物体位姿估计方法及装置。
背景技术
六自由度位姿估计是许多实际应用中的一个重要组成部分,例如机器人抓取,在生产车间或者物品分拣领域,针对弱纹理塑料瓶的抓取需要机器人对其进行精确的6D位姿估计。物体的6D位姿估计是机器视觉技术中的一大关键问题,六自由度位姿是指物体坐标系与相机坐标系之间的坐标变换,即物体的3D旋转变换和3D平移变换。在六自由度位姿估计任务中,最基本的需求就是确定所检测物体相对于其参考坐标系下的具体位置,这也是视觉感知的主要挑战之一。
虽然随着深度学习算法的发展,越来越多的位姿估计方法可以利用神经网络的强大的学习能力来提升位姿估计的精度。然而,通常的六自由度位姿估计算法对于弱纹理物体的位姿估计效果并不理想,估计结果偏差较大。
发明内容
本申请提供了一种基于特征融合的目标物体位姿估计方法及装置,用于解决现有位姿估计方法针对弱纹理物体的估计效果欠佳,导致结果偏差较大的技术问题。
有鉴于此,本申请第一方面提供了方法,包括:
采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;
根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图;
根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;
基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计,得到位姿估计结果。
优选地,所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图,之前还包括:
将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
优选地,所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图,包括:
采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像;
对所述初始点云图像进行栅格采样处理,得到目标点云图;
采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像;
将所述目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,所述预设CNN模型中包括金字塔池化模块。
优选地,所述根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图,包括:
对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图;
将所述第一特征图和所述第二特征图进行特征维度方向的拼接,得到全局特征图。
优选地,所述根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量,包括:
将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值;
求取预设平移基准值与所述平移偏移预测值之和,得到平移预测量;
将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值;
计算预设旋转基准值与所述旋转偏移预测值的乘积,得到旋转预测量。
本申请第二方面提供了一种基于特征融合的目标物体位姿估计装置,包括:
图像获取模块,用于采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;
特征融合模块,用于根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图;
位置预测模块,用于根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;
位姿估计模块,用于基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计,得到位姿估计结果。
优选地,还包括:
掩模提取模块,用于将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
优选地,所述图像获取模块,包括:
点云获取子模块,用于采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像;
点云采样子模块,用于对所述初始点云图像进行栅格采样处理,得到目标点云图;
图像裁剪子模块,用于采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像;
特征提取子模块,用于将所述目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,所述预设CNN模型中包括金字塔池化模块。
优选地,所述特征融合模块,包括:
特征处理子模块,用于对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图;
特征拼接子模块,用于将所述第一特征图和所述第二特征图进行特征维度方向的拼接,得到全局特征图。
优选地,所述位置预测模块,包括:
平移偏移预测子模块,用于将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值;
平移量预测子模块,用于求取预设平移基准值与所述平移偏移预测值之和,得到平移预测量;
旋转偏移预测子模块,用于将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值;
旋转量预测子模块,用于计算预设旋转基准值与所述旋转偏移预测值的乘积,得到旋转预测量。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种基于特征融合的目标物体位姿估计方法,包括:采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;根据目标点云图和目标特征图进行特征叠加融合,得到全局特征图;根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;基于平移预测量和旋转预测量对目标物体进行位姿估计,得到位姿估计结果。
本申请提供的基于特征融合的目标物体位姿估计方法,基于特征融合的方式从不同角度获取目标物体的特征信息,从信息源确保估计结果的可靠性;另外在进行平移预测和旋转预测的过程中,加入基准值对预测量进行调整,确保预测量的准确性,在对弱纹理目标物体进行估计时能有效提升估计结果的精确度。因此,本申请能够解决现有位姿估计方法针对弱纹理物体的估计效果欠佳,导致结果偏差较大的技术问题。
附图说明
图1为本申请实施例提供的一种基于特征融合的目标物体位姿估计方法的流程示意图一;
图2为本申请实施例提供的一种基于特征融合的目标物体位姿估计方法的流程示意图二;
图3为本申请实施例提供的一种基于特征融合的目标物体位姿估计装置的结构示意图;
图4为本申请实施例提供的目标点云图和目标特征图的获取过程示意图;
图5为本申请实施例提供的平移偏移量预测网络处理过程示意图;
图6为本申请实施例提供的旋转偏移量预测网络处理过程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种基于特征融合的目标物体位姿估计方法的实施例一,包括:
步骤101、采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图。
目标物体的深度图像和RGB图像均可以提前获取得到;而预设目标掩模则是根据RGB图像提取得到的,主要包括目标物体的轮廓框。采用预设目标掩模可以在深度图像中框出目标点云图,在RGB图像中框出目标区域图后在进行特定的图像特征提取,就可以得到目标特征图,具体的特征提取方式可以根据需要选择,在此不作限制。
步骤102、根据目标点云图和目标特征图进行特征叠加融合,得到全局特征图。
目标点云图与目标特征图之间可能存在尺寸偏差,因此,在特征融合之前还需要对两种图像进行基本的处理,使得两种图的尺寸表达一致,而且还可以根据需要设定叠加流程,将点云图和特征图处理后叠加,还是将处理后的图与点云图或者特征图叠加都可以,只要能够增加全局特征图的特征表达能力均可,在此不作具体限定。全局特征图能够描述目标物体的多种属性,能够加强弱纹理目标物体的特征表达能力。
步骤103、根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量。
本实施例将基准值与预测操作结合的方式提升预测准确度,保证估计效果的可靠性。预设平移基准值和预设旋转基准值都可以根据实际情况设定,本实施例中将目标点云图中的三维坐标信息取得的平均值作为预设平移基准值,将预先选取的旋转候选空间中不确定度最小位置的旋转量作为预设旋转基准值。
步骤104、基于平移预测量和旋转预测量对目标物体进行位姿估计,得到位姿估计结果。
平移预测量和旋转预测量可以组成堆叠场景中单个目标物体的6D位姿预测结果,即Pose=[R|T],其中,R为旋转预测量,T为平移预测量。
本申请实施例提供的基于特征融合的目标物体位姿估计方法,基于特征融合的方式从不同角度获取目标物体的特征信息,从信息源确保估计结果的可靠性;另外在进行平移预测和旋转预测的过程中,加入基准值对预测量进行调整,确保预测量的准确性,在对弱纹理目标物体进行估计时能有效提升估计结果的精确度。因此,本申请实施例能够解决现有位姿估计方法针对弱纹理物体的估计效果欠佳,导致结果偏差较大的技术问题。
为了便于理解,请参阅图2,本申请提供了一种基于特征融合的目标物体位姿估计方法的实施例二,包括:
步骤201、将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
MaskRCNN是用于进行实例分割的神经网络模型,可以用于目标检测和目标分割,本实施例中通过配置符合要求的MaskRCNN,用于对RGB图像进行掩模提取,获取逐像素的预设目标掩模。
步骤202、采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像。
步骤203、对初始点云图像进行栅格采样处理,得到目标点云图。
请参阅图4,预置相机参数即为获取深度图像的相机对应的参数信息,得到初始点云图像后,进行栅格采样处理,保留N个点,记作P,尺寸为[6,N];其中,点云的三维坐标和法向量信息构成点云的6维特征;即目标点云图。
步骤204、采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像。
步骤205、将目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,预设CNN模型中包括金字塔池化模块。
请参阅图4,掩模用于RGB图像的目的即为裁剪图像信息,保留目标物体所在区域信息,即目标块图像,然后通过预设CNN模型提取图像块特征,由于图像块特征大小可能不一致,因此需要通过金字塔池化模块对特征进行尺寸统一处理,得到[C,H,W]统一大小的目标特征图,其中,C为特征图的通道数,H为特征图的高度,W为特征图的宽度,且为了便于后续的特征融合,在本实施例中设定C=N,目标特征图记作Fp-rgb。
步骤206、对目标点云图和目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图。
步骤207、将第一特征图和第二特征图进行特征维度方向的拼接,得到全局特征图。
特征图融合过程可以根据实际情况设定,本实施例给出一种叠加融合过程的示例:对目标特征图Fp-rgb进行形状变换,从尺寸[C,H,W]变换为[H×W,C],随后将变换尺寸后的特征图输入连续四个一维卷积进一步提取特征,四个一维卷积的输出通道数分别为[64,256,256,512],前两个卷积操作中得到的特征图分别记为Frgb-1、Frgb-2;然后,对目标点云图P进行一次一维卷积操作得到点云特征图Fpc-1,再将Fpc-1通过特征变换矩阵A进行变换得到Ft,并再次通过一维卷积操作得到点云特征图Fpc-2;接着,将Frgb-2和Fpc-2进行求和操作进行第一次融合得到耦合特征Fmix;再对Frgb-2和Fpc-2分别进行一维卷积,得到的结果和耦合特征Fmix叠加,再次进行交叉融合并统一处理激活,分别得到特征图Frgb-3和点云特征图Fpc-3;并再次进行一维卷积得到特征图Frgb-4和点云特征图Fpc-4;最后,对Frgb-4和Fpc-4进行特征维度方向的拼接操作,经过一个一维卷积得到最终的全局特征图。可以理解的是,激活函数可以选取LeakyReLU激活函数,从而保证提取的特征的非线性。
步骤208、将全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值。
步骤209、求取预设平移基准值与平移偏移预测值之和,得到平移预测量。
请参阅图5,输入预设平移偏移量分支的除了全局特征图,还可以包括点云特征图变换的中间量Ft;用于提升预测准确度。输入图像经过三个输出维度为[512,256,128]的一维卷积,然后通过全局平均池化压缩特征信息,最后经过一个四层全连接神经网络得到最终网络输出的平移偏移量预测结果Δt=[Δx,Δy,Δz]。预设平移基准值是目标点云图中三维坐标信息的平均值,即那么平移预测量可以表达为:
步骤210、将全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值。
步骤211、计算预设旋转基准值与旋转偏移预测值的乘积,得到旋转预测量。
请参阅图6,全局特征图输入预设旋转偏移量预测分支中可以得到旋转偏移量预测值,具体的为:对全局特征图进行一个通道注意力机制模块和全局加权平均池化压缩特征信息,然后网络再一次分支,上分支使用四个输出维度为[512,256,128,NR×4]的一维卷积输出每个基准值对应的旋转偏移量四元数表示形式ΔR;下分支使用四个输出维度为[512,256,128,NR]的一维卷积输出每个偏移量对应的不确定度σ∈[0,1]。
步骤212、基于平移预测量和旋转预测量对目标物体进行位姿估计,得到位姿估计结果。
将平移预测量与旋转预测量进行组合,即可得到堆叠场景中目标物体的6D位姿估计结果Pose=[R|T]。
本申请实施例提供的基于特征融合的目标物体位姿估计方法,基于特征融合的方式从不同角度获取目标物体的特征信息,从信息源确保估计结果的可靠性;另外在进行平移预测和旋转预测的过程中,加入基准值对预测量进行调整,确保预测量的准确性,在对弱纹理目标物体进行估计时能有效提升估计结果的精确度。因此,本申请实施例能够解决现有位姿估计方法针对弱纹理物体的估计效果欠佳,导致结果偏差较大的技术问题。
为了便于理解,请参阅图3,本申请还提供了一种基于特征融合的目标物体位姿估计装置的实施例,包括:
图像获取模块301,用于采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;
特征融合模块302,用于根据目标点云图和目标特征图进行特征叠加融合,得到全局特征图;
位置预测模块303,用于根据全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;
位姿估计模块304,用于基于平移预测量和旋转预测量对目标物体进行位姿估计,得到位姿估计结果。
进一步地,还包括:
掩模提取模块305,用于将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
进一步地,图像获取模块301,包括:
点云获取子模块3011,用于采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像;
点云采样子模块3012,用于对初始点云图像进行栅格采样处理,得到目标点云图;
图像裁剪子模块3013,用于采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像;
特征提取子模块3014,用于将目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,预设CNN模型中包括金字塔池化模块。
进一步地,特征融合模块302,包括:
特征处理子模块3021,用于对目标点云图和目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图;
特征拼接子模块3022,用于将第一特征图和第二特征图进行特征维度方向的拼接,得到全局特征图。
进一步地,位置预测模块303,包括:
平移偏移预测子模块3031,用于将全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值;
平移量预测子模块3032,用于求取预设平移基准值与平移偏移预测值之和,得到平移预测量;
旋转偏移预测子模块3033,用于将全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值;
旋转量预测子模块3034,用于计算预设旋转基准值与旋转偏移预测值的乘积,得到旋转预测量。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种基于特征融合的目标物体位姿估计方法,其特征在于,包括:
采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;
根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图;
根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;
基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计,得到位姿估计结果。
2.根据权利要求1所述的基于特征融合的目标物体位姿估计方法,其特征在于,所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图,之前还包括:
将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
3.根据权利要求1所述的基于特征融合的目标物体位姿估计方法,其特征在于,所述采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图,包括:
采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像;
对所述初始点云图像进行栅格采样处理,得到目标点云图;
采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像;
将所述目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,所述预设CNN模型中包括金字塔池化模块。
4.根据权利要求1所述的基于特征融合的目标物体位姿估计方法,其特征在于,所述根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图,包括:
对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图;
将所述第一特征图和所述第二特征图进行特征维度方向的拼接,得到全局特征图。
5.根据权利要求1所述的基于特征融合的目标物体位姿估计方法,其特征在于,所述根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量,包括:
将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值;
求取预设平移基准值与所述平移偏移预测值之和,得到平移预测量;
将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值;
计算预设旋转基准值与所述旋转偏移预测值的乘积,得到旋转预测量。
6.一种基于特征融合的目标物体位姿估计装置,其特征在于,包括:
图像获取模块,用于采用预设目标掩模根据目标物体的深度图像和RGB图像分别获取目标点云图和目标特征图;
特征融合模块,用于根据所述目标点云图和所述目标特征图进行特征叠加融合,得到全局特征图;
位置预测模块,用于根据所述全局特征图、预设平移基准值和预设旋转基准值分别进行平移预测操作和旋转预测操作,得到平移预测量和旋转预测量;
位姿估计模块,用于基于所述平移预测量和所述旋转预测量对所述目标物体进行位姿估计,得到位姿估计结果。
7.根据权利要求6所述的基于特征融合的目标物体位姿估计装置,其特征在于,还包括:
掩模提取模块,用于将RGB图像输入至预设MaskRCNN中进行掩模提取操作,得到预设目标掩模。
8.根据权利要求6所述的基于特征融合的目标物体位姿估计装置,其特征在于,所述图像获取模块,包括:
点云获取子模块,用于采用预设目标掩模根据目标物体的深度图像和预置相机参数获取初始点云图像;
点云采样子模块,用于对所述初始点云图像进行栅格采样处理,得到目标点云图;
图像裁剪子模块,用于采用预设目标掩模根据RGB图像进行图像裁剪处理,得到目标块图像;
特征提取子模块,用于将所述目标块图像输入预设CNN模型中进行特征提取操作,得到目标特征图,所述预设CNN模型中包括金字塔池化模块。
9.根据权利要求6所述的基于特征融合的目标物体位姿估计装置,其特征在于,所述特征融合模块,包括:
特征处理子模块,用于对所述目标点云图和所述目标特征图依次执行卷积、求和和特征叠加操作,得到第一特征图和第二特征图;
特征拼接子模块,用于将所述第一特征图和所述第二特征图进行特征维度方向的拼接,得到全局特征图。
10.根据权利要求6所述的基于特征融合的目标物体位姿估计装置,其特征在于,所述位置预测模块,包括:
平移偏移预测子模块,用于将所述全局特征图输入预设平移偏移量预测分支中进行平移偏移预测,得到平移偏移预测值;
平移量预测子模块,用于求取预设平移基准值与所述平移偏移预测值之和,得到平移预测量;
旋转偏移预测子模块,用于将所述全局特征图输入预设旋转偏移量预测分支中进行旋转偏移预测,得到旋转偏移预测值;
旋转量预测子模块,用于计算预设旋转基准值与所述旋转偏移预测值的乘积,得到旋转预测量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485996.6A CN114170312A (zh) | 2021-12-07 | 2021-12-07 | 一种基于特征融合的目标物体位姿估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111485996.6A CN114170312A (zh) | 2021-12-07 | 2021-12-07 | 一种基于特征融合的目标物体位姿估计方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114170312A true CN114170312A (zh) | 2022-03-11 |
Family
ID=80483956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111485996.6A Pending CN114170312A (zh) | 2021-12-07 | 2021-12-07 | 一种基于特征融合的目标物体位姿估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114170312A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598946A (zh) * | 2020-03-16 | 2020-08-28 | 华南理工大学 | 一种物体位姿测量方法、装置及存储介质 |
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN113065546A (zh) * | 2021-02-25 | 2021-07-02 | 湖南大学 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 |
-
2021
- 2021-12-07 CN CN202111485996.6A patent/CN114170312A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598946A (zh) * | 2020-03-16 | 2020-08-28 | 华南理工大学 | 一种物体位姿测量方法、装置及存储介质 |
CN112270249A (zh) * | 2020-10-26 | 2021-01-26 | 湖南大学 | 一种融合rgb-d视觉特征的目标位姿估计方法 |
CN113065546A (zh) * | 2021-02-25 | 2021-07-02 | 湖南大学 | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 |
Non-Patent Citations (1)
Title |
---|
陈友东等: "工业机器人集成与应用", 31 January 2021, 机械工业出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629843B (zh) | 一种实现增强现实的方法及设备 | |
CN106503684B (zh) | 一种人脸图像处理方法和装置 | |
US7760932B2 (en) | Method for reconstructing three-dimensional structure using silhouette information in two-dimensional image | |
CN114863037B (zh) | 基于单手机的人体三维建模数据采集与重建方法及系统 | |
CN107329962B (zh) | 图像检索数据库生成方法、增强现实的方法及装置 | |
US10726612B2 (en) | Method and apparatus for reconstructing three-dimensional model of object | |
CN113689578B (zh) | 一种人体数据集生成方法及装置 | |
CN111080776B (zh) | 人体动作三维数据采集和复现的处理方法及系统 | |
CN109544621A (zh) | 基于卷积神经网络的光场深度估计方法、系统及介质 | |
TW201436552A (zh) | 用於使用至少一較高訊框率之影像流而增加影像流之訊框率之方法及裝置 | |
CN112734914A (zh) | 一种增强现实视觉的图像立体重建方法及装置 | |
CN115641322A (zh) | 一种基于6d位姿估计的机器人抓取方法及其系统 | |
CN116012432A (zh) | 立体全景图像的生成方法、装置和计算机设备 | |
CN111340878A (zh) | 图像处理方法以及装置 | |
CN107203961B (zh) | 一种表情迁移的方法及电子设备 | |
CN113312966B (zh) | 一种基于第一人称视角的动作识别方法及装置 | |
CN114638866A (zh) | 一种基于局部特征学习的点云配准方法及系统 | |
CN114399595A (zh) | 三维全景数字展厅的图像自动处理方法、系统及终端 | |
CN111783497B (zh) | 视频中目标的特征确定方法、装置和计算机可读存储介质 | |
CN102075777A (zh) | 一种基于运动对象的视频图像平面转立体处理方法 | |
KR101673144B1 (ko) | 부분 선형화 기반의 3차원 영상 정합 방법 | |
CN114170312A (zh) | 一种基于特征融合的目标物体位姿估计方法及装置 | |
CN116206320A (zh) | 图纸特征与数字匹配的方法、系统、设备及介质 | |
CN112307799A (zh) | 姿态识别方法、装置、系统、存储介质及设备 | |
CN114419158A (zh) | 六维姿态估计方法、网络训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |