CN117576217B

CN117576217B - 一种基于单实例图像重建的物体位姿估计方法

Info

Publication number: CN117576217B
Application number: CN202410048613.6A
Authority: CN
Inventors: 金乐; 周军; 周国顺
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-03-26
Anticipated expiration: 2044-01-12
Also published as: CN117576217A

Abstract

本发明提供一种基于单实例图像重建的物体位姿估计方法，包括实例分割步骤：接收传感器采集的包含目标物体的场景RGB图像作为输入；对输入RGB图像中目标物体按实例进行分割为图片块；位姿估计步骤：在训练时先通过对图片块中的目标物体进行单实例重建，以去除遮挡和背景为物体重建目的得到重建的目标物体，同时通过重建学习到目标物体的特征；最后对提取的特征进行6DoF位姿预测。本发明通过对单个目标物体进行标准化的重建，大大降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响，使得算法泛化性增强，对单个目标物体RGB图像重建并提取特征，直接预测6DoF位姿也极大提升了估计的鲁棒性和准确率。

Description

一种基于单实例图像重建的物体位姿估计方法

技术领域

本发明涉及位姿估计技术，特别涉及基于单实例图像重建的物体位姿估计技术。

背景技术

物体的位姿估计算法是指对物体在三维空间中的位置和方向进行估计，也就是将物体从世界坐标系转换到相机坐标系的重要算法。其中对物体六个自由度6DoF（6 degreesof freedom）的估计和追踪（Estimation and Tracking）尤其重要。所谓6DoF是指物体在三维空间中的6个自由度，即沿x、y、z三个直角坐标轴方向的移动自由度和绕这三个坐标轴的转动自由度，分别是前/后-上/下-左/右和俯仰 (pitch)-偏摆 (yaw)-翻滚 (roll)共6个自由度。

物体6DoF位姿估计在机器人视觉、抓取和控制等领域有着广泛的应用。例如，在机器人抓取领域，6DoF位姿估计可以帮助机器人更好地抓取物体，提高抓取成功率。在机器人视觉领域，6DoF位姿估计可以帮助机器人更好地感知环境，提高机器人的自主性和智能化水平。在控制领域，6DoF位姿估计可以帮助机器人更好地控制运动轨迹，提高运动精度和稳定性。

现有物体6DoF位姿估计算法包括基于模板匹配的方法、基于点的方法和基于原始图片的深度学习方法。

1.模板匹配方法：这种方法通过在可能的特殊欧氏群空间SE(3)通过渲染技术对要检测的物体作充分的采样，提取足够鲁棒的模板，再对模板进行匹配就可以大致的估计位姿，最后使用迭代最近点算法ICP(Iterative closest point)精化结果。

2.基于点的方法：这种方法基本上是通过点云上面少量的点对构成描述子来做的。最典型的方法就是点对特征PPF（Point pair feature），其首先进行全局建模，就是对模型的点云中任意的两个点法都计算PPF描述子，构建模型哈希hash表。在匹配的时候，同样对场景中的点同样计算PPF描述子，之后进行投票匹配，最终计算估计物体的位姿。

3.基于原始图像的深度学习方法：这类方法首先在传感器采集的场景图片中检测被估计物体，基于检测结果将图片分割成一定大小的图像块。之后将分割的图像块送入神经网络中进行预测，根据预测结果类型的不同，又分为直接方法和间接方法。所谓直接方法就是网络可以直接预测物体的6DoF位姿，而间接方法则是网络预测图像和模型之间的二维到三维2D-3D对应关系，之后使用多点透视投影PnP（Perspective-n-Point）算法求解物体的6DoF位姿。

现有物体6DoF位姿估计算法存在以下问题：

1.模板匹配方法：

模板匹配类算法的核心是对渲染的模型进行各个角度进行采样建立模板，并且在实际估计物体位姿的过程中使用实际的场景和每一个模板进行比对。因为每一个模板在建立过程中其参数都是固定的，但是实际场景中的光照明暗、传感器特性、距离远近和旋转角度都是不相同的。这样就导致了该方法对光照、噪声、旋转、缩放等变化非常敏感，当和模板数据不匹配的场景进行估计时会导致准确率大为下降。

2.基于点的方法：

点匹配算法常常基于深度相机的深度图，利用点云中点或多点的空间信息构造描述子和特征。并且利用这些特征和离线时通过目标物体计算机辅助设计CAD模型构造的特征进行匹配，之后得到场景中目标物体的位姿估计。因为深度相机的特性，其深度信息往往会在物体边缘出现跳变，使得特征计算出现较大偏差。此外场景中其他杂乱物体的干扰和相似物体的干扰也会很大程度上影响特征的匹配造成错误的位姿估计结果导致准确率下降。

3.基于原始图像的深度学习方法：

这类算法使用目标检测算法在原始RGB图像找到目标物体的位置，然后基于这一位置确定包含目标物体的图像块并送入神经网络中进行推理，最终预测物体的位姿。因为其送入网络的是包含目标物体的原始RGB图像，那么整个场景的杂乱程度，以及目标物体是否被遮挡以及遮挡的比例都会对神经网络预测的准确率造成很大影响。

发明内容

本发明所要解决的技术问题是，提供一种能有效降低场景与遮挡影响的物体6DoF位姿估计方法。

本发明为解决上述技术问题所采用的技术方案是，一种基于单实例图像重建的物体位姿估计方法，包括步骤：

实例分割模块实施步骤：实例分割模块接收传感器采集的包含目标物体的场景RGB图像作为输入；对输入RGB图像中目标物体按实例进行分割为图片块；

位姿估计模块实施步骤：位姿估计模块在训练时先通过对图片块中的目标物体进行单实例重建，以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标；同时通过单实例重建学习目标物体的特征的提取能力；最后对提取的特征进行6DoF位姿预测。

具体的，位姿估计模块的训练步骤具体包括：

位姿估计模块接收来自目标物体分割模块输出的多通道图片块；利用分块随机采样遮挡算法对多通道图片块进行处理；再将多通道图片块切分形成子图块集合，从子图块集合中按设定比例随机丢弃子图块，再将剩下的子图块作为训练数据送入视觉转换ViT(Vision Transformer)编、解码器模块；ViT编、解码器模块用于提取目标物体的特征；

ViT解码器输出类别向量和图像块编码向量作为提取到目标物体的特征；类别向量输入用于进行位姿预测的多层感知器MLP预测头中，该MLP预测头输出物体目标的6DoF位姿估计结果；图像块编码向量输入用于进行图像重建的MLP预测头中，该MLP预测头输出重建的物体目标；位姿估计模块的训练过程中，ViT编、解码器模块学习目标物体的特征的提取能力，以使得输入至用于位姿预测的MLP预测头的类别向量有利于该MLP预测头输出接近真实的物体目标的6DoF位姿估计结果，以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标。

位姿估计模块中2个MLP预测头的具体的训练过程为：

先使用训练数据中的图像块编码向量对用于进行图像重建的MLP预测头进行物体目标重建的训练，在此训练过程中， ViT编、解码器模块学习目标物体的特征的提取能力，以使得输入至用于图像重建的MLP预测头的图像块编码向量有利于该MLP预测头输出重建物体目标接近完整且标准物体目标；

再将训练数据中的类别向量输入用于进行位姿预测的MLP预测头中，将训练数据中的图像块编码向量输入用于进行图像重建的MLP预测头中同时进行位姿预测和物体目标重建的并行训练，进一步提升ViT编、解码器模块学习目标物体的特征的提取能力。

本发明的有益效果是，通过对单个目标物体进行标准化的重建，大大降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响，使得算法泛化性增强。基于深度神经网络对单个目标物体RGB图像重建并提取特征，直接预测6DoF位姿，极大提升估计算法在面对场景杂乱和对目标物体的高遮挡情况下的鲁棒性和准确率。

附图说明

图1为本发明的位姿估计流程示意图。

图2为目标物体分割模块实施示意图。

图3为位姿估计模块实施示意图。

具体实施方式

以下结合附图和实施例对本发明作进一步说明。本领域普通技术人员所获得的所有基于本发明思想通过常规手段变化得到的其他实施例也应当属于本发明保护的范围。

基于单实例图像重建的物体位姿估计方法，包括以下步骤：

实例分割模块实施步骤：

（1）实例分割模块接收传感器采集的包含目标物体的场景RGB图像作为输入；

（2）实例分割模块对输入RGB图像中目标物体按实例进行分割为图片块；

位姿估计模块实施步骤：

（3）位姿估计模块在训练时先对图片块中的目标物体进行单实例重建，以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标；同时通过单实例重建学习目标物体的特征的提取能力；

（4）位姿估计模块对提取的特征进行6DoF位姿预测。

实现本实施例方法的系统包括目标物体分割模块和位姿估计模块。目标物体分割模块用于实施步骤（1）和（2）。采用位姿估计模块用于实施步骤（3）和（4）。

目标物体分割模块完成目标物体分割的具体实现方式为，如图2所示：

（1）接收RGB输入图像；

（2）将RGB图像输入至完成训练的实例分割模型MaskRCNN网络。MaskRCNN是一种有效检测目标的同时输出高质量的实例分割算法。MaskRCNN网络输出的分割结果一方面进行图像截取处理，另一方面通过图像掩码弱化算法进行图像掩码弱化处理。分割结果为含有目标物体的掩码mask图像；

具体的，图像截取处理为：将分割结果截取为一个长宽一致的图像块并输出。一个具体实例是将分割结果截取为一个长宽都为224的图像块P；

具体的，图像掩码弱化为：将分割结果划分为小块；再对每个小块中的像素值进行算术平均，如果算术平均值大于设定值，则将小块中所有像素填充为1；如果像素平均值小于等于设定值，则将小块中所有像素填充为0。一个具体实例中，将分割结果的mask图像M划分为16*16的小块；再对每个16*16小块中的像素值进行算术平均，如果算术平均值大于0.5，则将16*16小块中所有像素填充为1；如果像素平均值小于等于0.5,则将16*16小块中所有像素填充为0，最后得到弱化后的图像M＇；（3）将含有RGB三个通道的图像块P和一个通道的弱化图像M＇合并变为四通道的多通道图片块并输出，其数据大小为4*224*224。

位姿估计模块基于单实例重建得到物体位姿估计结果，其训练步骤如图3所示：

（1）位姿估计模块接收来自目标物体分割模块输出的多通道图片块；

（2）利用分块随机采样遮挡算法对多通道图片块进行处理；此步骤用于模拟杂乱背景、光照、传感器色彩偏差带来的干扰以及目标物体被部分遮挡造成的影响；

（3）将多通道图片块切分形成子图块集合，从子图块集合中按设定比例随机丢弃子图块，再将剩下的子图块作为训练数据送入ViT编、解码器模块；ViT编、解码器模块用于提取目标物体的特征。一个具体实例中，先将4*224*224的多通道图片块切分为196个16*16的子图块形成的集合，从中按设定比例随机丢弃子图块，训练过程中丢弃子图块用于进一步模拟目标物体被遮挡干扰的情况，再将剩下的子图块S送入ViT编码器模块，ViT编码器模块输出词元T，再将T送入ViT解码器模块，ViT解码器输出类别向量C和图像块编码向量P；类别向量C输入用于进行位姿预测的多层感知器MLP预测头中，训练多层感知器MLP预测头尽可能地输出接近真实的物体目标的6DoF位姿估计；图像块编码向量P输入用于进行图像重建的MLP预测头中进行训练，使得用于进行图像重建的MLP预测头尽量在子图块被丢弃的情况下输出的重建的目标物体能接近完整的标准的物体目标；这里的标准是指在训练数据中作为标签的包含目标物体的图片是经过光照、色彩以及几何形态这些方向的标准校正之后的，以降低场景中光照、传感器色彩偏差和轻微几何畸变对物体位姿估计精确度的影响。

训练数据采用广泛使用的数据集LM（线性化内存多模态LineMOD）。LM数据集包含13个对象，每个对象包含大约1.2k张手动标注的图像。在训练过程中使用了15%的数据集进行训练，其余用于测试。也就是使用每个对象约1.2k张真实数据。此外，为了进一步扩大训练数据进行训练，我们使用了公开可用的合成图像和基于真实渲染PBR的LM数据集。

对2个MLP预测头的具体的训练过程为：先使用训练数据中的图像块编码向量P对用于进行图像重建的MLP预测头进行训练，用于进行图像重建的MLP预测头输出重建的目标物体图像；再将训练数据中的类别向量C输入用于进行位姿预测的MLP预测头中，将训练数据中的图像块编码向量P输入用于进行图像重建的MLP预测头中同时进行并行训练。

训练过程中通过对场景中目标物体进行单实例标准化重建，排除原始图片中杂乱背景和目标物体被部分遮挡对位姿估计的影响，提高了进行位姿预测的MLP预测头的泛化性。

ViT 的操作单位是词元Token，也就是图像先分割成固定大小的图像块Patches，经过图像块嵌入Patch Embedding之后生成的序列信息。每个Token代表图像中的一个局部区域，可以看作是图像的抽象表示。通过将图像分割成Token，并将其输入到转换器Transformer模型中，ViT能够利用自注意力机制来建模图像中的全局关系。在ViT中，图像块Patches被用作生成Token的基本单位。每个图像块由一组像素组成，并通过线性变换映射为Token的向量表示。ViT解码过程中除了图像块编码向量Patch Token之外，还生成一个常用于分类预测的类别向量Class Token。

完成训练的位姿估计模块在实际使用时，接收来自目标物体分割模块输出的多通道图片块后，将多通道图片块直接输入ViT编、解码器模块，再将ViT解码器模块输出的图像块编码向量P输入至完成训练的用于进行位姿预测的MLP预测头中，MLP预测头输出目标物体的6DoF位姿估计。

采用ViT编码器解码器结构按照统一标准重建仅包含单个完整目标物体的图像，以便网络可以在嵌入空间中学习到更好的特征向量。这样就可以排除现场原始图片中由于杂乱背景、光照、传感器色彩偏差带来的干扰，以及由于目标物体被部分遮挡造成的影响，最终提高位姿预测算法的准确率和鲁棒性。

Claims

1.一种基于单实例图像重建的物体位姿估计方法，其特征在于，包括以下步骤：

位姿估计模块实施步骤：位姿估计模块在训练时先通过对图片块中的目标物体进行单实例重建，以去除遮挡和背景得到完整目标物体为单实例重建过程的训练目标；同时通过单实例重建学习目标物体的特征的提取能力；最后对提取的特征进行六个自由度6DoF位姿预测；

其中，位姿估计模块的训练步骤具体包括：

位姿估计模块接收来自目标物体分割模块输出的多通道图片块；利用分块随机采样遮挡算法对多通道图片块进行处理；再将多通道图片块切分形成子图块集合，从子图块集合中按设定比例随机丢弃子图块，再将剩下的子图块作为训练数据送入ViT编、解码器模块；ViT编、解码器模块用于提取目标物体的特征；

2.如权利要求1所述方法，其特征在于，实例分割具体实现方式为：

接收RGB输入图像；将RGB图像输入至完成训练的实例分割模型MaskRCNN网络；MaskRCNN网络输出含有目标物体的掩码图像作为分割结果，对分割结果一方面进行图像截取，另一方面进行图像掩码弱化；最后将图像截取的图像块与弱化图像一起合并为多通道图片块输出。

3.如权利要求2所述方法，其特征在于，图像截取具体实现方式为：将分割结果截取为一个长宽一致的图像块并输出；

图像掩码弱化具体为：将分割结果划分为小块；再对每个小块中的像素值进行算术平均，如果算术平均值大于设定值，则将小块中所有像素填充为1；如果像素平均值小于等于设定值，则将小块中所有像素填充为0。

4.如权利要求1所述方法，其特征在于，位姿估计模块中2个MLP预测头的具体的训练过程为：

先使用训练数据中的图像块编码向量对用于进行图像重建的MLP预测头进行物体目标重建的训练；

再将训练数据中的类别向量输入用于进行位姿预测的MLP预测头中，将训练数据中的图像块编码向量输入用于进行图像重建的MLP预测头中同时进行位姿预测和物体目标重建的并行训练。

5.如权利要求4所述方法，其特征在于，完成训练的位姿估计模块在实际使用时，接收来自目标物体分割模块输出的多通道图片块后，将多通道图片块直接输入ViT编、解码器模块，再将ViT解码器模块输出的类别向量输入至完成训练的用于进行位姿预测的MLP预测头中，该MLP预测头输出目标物体的6DoF位姿估计。