CN110930452A

CN110930452A - 一种基于自监督学习与模板匹配的物体位姿估计方法

Info

Publication number: CN110930452A
Application number: CN201911013282.8A
Authority: CN
Inventors: 陈启军; 王德明; 颜熠; 周光亮; 刘成菊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-03-27
Anticipated expiration: 2039-10-23
Also published as: CN110930452B

Abstract

本发明涉及一种基于自监督学习与模板匹配的物体位姿估计方法，包括：S1：采集目标物体的彩色图和深度图，经裁剪获得对应的彩色候选图和深度候选图；S2：所述的彩色候选图和深度候选图经过已训练的带有噪声生成器的自监督编码解码器分割后获得彩色分割图和深度分割图；S3：利用彩色分割图和深度分割图与模板库匹配，获得匹配位姿；S4：精修匹配位姿获得目标物体位姿，其中，通过球面多尺度方法采集目标物体三维模型的彩色样本图和深度样本图；利用彩色样本图训练自监督编码解码器；提取多尺度下彩色样本图和深度样本图的带有位姿信息的特征并根据该特征构建模板库。与现有技术相比，本发明具有鲁棒性好、成本低和无需标签信息等优点。

Description

一种基于自监督学习与模板匹配的物体位姿估计方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及一种基于自监督学习与模板匹配的物体位姿估计方法。

背景技术

物体位姿估计技术是基于三维视觉确定目标物体相对于相机的三维平移和三维旋转变换参数，进而估计物体位姿，物体位姿估计是机器人的环境感知、抓取与灵巧操作领域的关键问题，而该技术的研究对于推进服务机器人、工业机器人自动化、VR和AR技术的推广具有重要的意义。

目前物体位姿估计方法主要基于激光点云、模板匹配和深度学习，上述技术均存在一定的不足，具体为：

基于激光点云的方法：以高精度的激光传感器采集高精度的点云数据，进而利用三维点云进行匹配，该方法虽然能够得到较为准确的匹配结果，但激光传感器价格昂贵且高密度的点云处理时间很长，不利于在生产和生活中的大规模推广和应用，也无法应用在实时性要求很高的领域；

基于模板匹配的方法：通过提取人工设计的特征在二维图像上进行滑窗搜索，定位目标物体的二维图像坐标。该方法在背景杂乱、物体多而混杂的情况下鲁棒性不高，匹配成功率低，同时模板匹配的时间会随着模板数量的增加而急剧上升，很难满足实时性的要求；

基于深度学习的方法：借助卷积神经网络，利用端到端学习的方式直接回归的物体位姿的方式。该方法需要大量标注了六自由度位姿真值的样本，深度学习方法成功与否在相当程度上取决于样本的数量以及样本涵盖的范围，二维深度学习目标检测的成功在于互联网、大数据等领域的大量样本使得二维标注更加容易，但带有六自由度位姿真值的样本是相当匮乏的，同时样本标注也相当困难，因此基于深度学习的方法的应用推广比较困难。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自监督学习与模板匹配的物体位姿估计方法，兼顾了模型渲染的便利性、自监督学习的泛化能力和树形结构模板匹配的高效性，无需包含标签信息的样本，成本低且鲁棒性高。

本发明的目的可以通过以下技术方案来实现：

一种基于自监督学习与模板匹配的物体位姿估计方法，包括：

S1：利用已标定的消费级深度相机采集目标物体的彩色图和深度图，所述的彩色图和深度图经卷积神经网络裁剪获得对应的彩色候选图和深度候选图；

S2：所述的彩色候选图和深度候选图经过已训练的带有噪声生成器的自监督编码解码器分割后对应获得彩色分割图和深度分割图；

S3：利用彩色分割图和深度分割图与模板库匹配，获得目标物体的匹配位姿；

S4：通过ICP算法精修匹配位姿，获得目标物体在相机坐标系下的物体位姿；

其中，通过球面多尺度方法采集目标物体三维模型的彩色样本图和深度样本图；

利用彩色样本图训练自监督编码解码器；

提取多尺度下彩色样本图和深度样本图的带有位姿信息的特征并根据该特征构建模板库。

进一步地，所述的物体位姿包括目标物体相对于相机的三维平移和三维旋转变换参数共计六个自由度的位置和姿态信息。

进一步地，球面多尺度方法具体过程为：

载入目标物体的三维模型，利用OpenGL将N个虚拟相机均匀放置在斐波那契网格的球面点上，所述的虚拟相机渲染获得多视角的彩色样本图和深度样本图，第i个虚拟相机的坐标(x_i,y_i,z_i)为：

进一步地，训练过程中噪声生成器在彩色样本图上加入噪声，加入噪声的彩色样本图经过自监督编码解码器的编码器编码为低维特征，自监督编码解码器的解码器解码该低维特征并输出降噪图像和目标物体的掩膜，并利用掩膜分割彩色候选图和深度候选图获得对应的彩色分割图和深度分割图。

进一步地，所述的掩膜包含目标物体分布的区域，分割过程具体为：

自监督编码解码器将彩色候选图和深度候选图中除掩膜所在区域外的非目标物体区域的像素置为0，获得对应的彩色分割图和深度分割图。

进一步地，所述的加入噪声方式包括增加高斯噪声、增加杂乱背景和部分抠除，训练过程中自监督编码解码器的参考真值为不加噪声的彩色样本图。

进一步地，所述特征的获取方法为：

球面上任意视点绕x轴、y轴和相机主轴做随机旋转变换，并沿相机主轴做随机平移变换，根据梯度方向对彩色样本图中每个像素的梯度的角度进行量化，对深度样本图中每个像素的法向量的方向进行量化，选择梯度值和法向量值大于设定阈值的像素组成候选点集合，采用最远距离法从候选点集合中选择特征点集合，保存特征点集合的直方图信息作为特征。

进一步地，所述的模板库呈树形结构且其中父节点的特征由子节点的特征经相似度聚类和降采样得到，每个父节点根据空间位置选择距离最近的若干节点作为子节点。

进一步地，按照自父节点到子节点的方向进行模板库匹配。

进一步地，所述的自监督编码解码器的编码器包括若干卷积层、激活函数和一个全连接层，解码器包括一个全连接层、若干解卷积层和激活函数，自监督编码解码器的输入和输出表达式为：

其中，x、x_noise、x_code和

分别表示原始输入图像、经过噪声生成器的图像、经过自监督编码器编码的特征以及解码器的生成图像，F_noise、F_encoder和F_decoder分别代表噪声生成器、编码器和解码器的网络函数；

训练自监督编码解码器的损失函数为：

其中，x_i表示输入图像x中的第i个像素，

表示生成图像

中的第i个像素。

进一步地，所述的相似度聚类过程具体为：

取子节点特征的直方图编码值的并集，对应权重相加并做归一化；

进一步地，所述的降采样过程具体为：

将父节点子设定邻域内子节点特征的直方图编码值取并集，权重相加并做归一化。

进一步地，卷积神经网络通过生成预选框并利用预选框裁剪彩色图和深度图，获得彩色候选图和深度候选图，彩色候选图和深度候选图包含目标物体的最小矩形区域。

所述的卷积神经网络包括卷积层、池化层和全连接层，所述的卷积神经网络包括Faster RCNN、SSD或Yolo。

与现有技术相比，本发明具有以如下有益效果：

(1)本发明利用采集的样本图训练自监督编码解码器，通过训练后的自监督编码解码器对经卷积神经网络裁剪的候选图进行精确的像素级分割，获得目标物体的像素级分布区域并与模板库匹配获取目标物体的三维物姿，避免了杂乱背景对模板匹配的影响，同时自监督编码解码器自带噪声生成器，在不需要额外带有标签信息的彩色样本图的情况下进行自我训练，避免了样本不足和复杂的样本标注过程，节约了整个物体位姿估计过程的难度和成本；

(2)本发明通过球面多尺度方法均匀采样视点，根据彩色样本图和深度样本图的特征对应构建了多尺度多模态的模板库，且模板库呈树形结构，模板库中父节点的特征由子节点的特征经相似度聚类和降采样得到，按照自父节点到子节点的方向进行模板库匹配，保证了模板匹配过程搜索的高效性；

(3)本发明提取彩色样本图和深度样本图的特征的过程中充分利用彩色图梯度和深度图法向量这两种非纹理的结构性信息，二者互为补充，提高了检测纹理信息丰富、弱纹理等检测难度大的目标物体的适应性和鲁棒性；

(4)本发明离线训练自监督编码解码器只需通过球面多尺度方法获取目标物体三维模型的仿真数据，在线检测时需用到消费级深度相机采集的彩色图和深度图，步骤简单且成本低。

附图说明

图1为本发明的方法流程图；

图2为本发明的整体结构示意图；

图3为球面多尺度均匀采样虚拟相机点的示意图；

图4为编码解码器的结构示意图；

图5为多视角渲染图像；

图6为增加噪声图像；

图7为降噪后的高维图像；

图8为目标掩膜图像；

图9为最远点方法选区特征点的示意图；

图10为彩色图像梯度方向量化示意图；

图11为随机变换梯度量化方向统计直方图；

图12为多层次模板树的示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

S2：所述的彩色候选图和深度候选图经过已训练的自监督编码解码器分割后对应获得彩色分割图和深度分割图；

S4：通过ICP算法精修匹配位姿，获得目标物体在相机坐标系下的物体位姿，物体位姿包括目标物体相对于相机的三维平移和三维旋转变换参数共计六个自由度的位置和姿态信息。

卷积神经网络通过生成预选框并利用预选框裁剪彩色图和深度图，获得彩色候选图和深度候选图，彩色候选图和深度候选图包含目标物体的最小矩形区域；

卷积神经网络包括卷积层、池化层和全连接层，所述的卷积神经网络包括FasterRCNN、SSD或Yolo；

自监督编码解码器的编码器包括若干卷积层、激活函数和一个全连接层，解码器包括一个全连接层、若干解卷积层和激活函数；

自监督编码解码器的输入和输出表达式为：

其中，x、x_noise、x_code和

训练自监督编码解码器的损失函数为：

其中，x_i表示输入图像x中的第i个像素，

表示生成图像

中的第i个像素。

如图12，按照模板库的树形结构按照自父节点到子节点、从顶而下、自低分辨率到高分辨率、自粗糙到精细的方向进行模板库匹配；

而在多个尺度下计算待检测彩色图像的梯度特征和待检测深度图像的法向量特征，匹配过程中依据直方图特征，若对应点直方图特征为模板直方图特征的子集，则保留其对应权重，最终以保留权重之和与总权重之比作为相似度，依据离线过程中形成的树形结构，按照从顶而下、自低分辨率到高分辨率、自粗糙到精细的方式进行匹配，找到上一层相似度最高的父节点，在下一层中搜索该父节点对应的子节点即可，从而提高匹配效率；

整体流程结构如图2所示，其中，步骤S1-S4为在线检测过程，离线训练过程包括：

通过球面多尺度方法采集目标物体三维模型的彩色样本图和深度样本图；

利用彩色样本图训练带有噪声生成器的自监督编码解码器；

提取彩色样本图和深度样本图的带有位姿信息的特征并根据该特征构建模板库。

球面多尺度方法具体为：

如图3，载入目标物体的三维模型，利用OpenGL将多个虚拟相机均匀放置在斐波那契网格的球面点上，虚拟相机渲染获得多视角的彩色样本图和深度样本图，

为保证后期训练和匹配的效果，虚拟相机的视点应均匀排布在以物体模型坐标系中心为球心的球面上，均匀是指采样点相互之间的距离保持近似相等，球面上各区域采样点分布的稠密保持一致，多尺度是指在球面半径确定的情况下多次采样不同密度的采样点；

目标物体的三维模型的存储形式可以是pcd、ply其他三维模型格式，同时需已知检测过程中用到的消费级深度相机的内参，虚拟相机的内参需根据实际采用的消费级深度相机的内参进行设置，内参矩阵的一般格式为：

假设在球面上均匀采样N个点，第i个虚拟相机的坐标(x_i,y_i,z_i)为：

如图4，训练过程中噪声生成器在彩色样本图上加入噪声，加入噪声的彩色样本图经过自监督编码解码器的编码器编码为低维特征，自监督编码解码器的解码器解码该低维特征并输出降噪图像和目标物体的掩膜，并利用掩膜分割彩色候选图和深度候选图获得对应的彩色分割图和深度分割图，图5为彩色样本图，如图6，加入噪声的彩色样本图经过编码器编码为低维特征，该低维特征经过解码器解码为高维的降噪图像，同时输出目标图像的掩膜，降噪图像和掩膜图对应图7和图8。

掩膜包含目标物体分布的区域，分割过程具体为：

加入噪声方式包括增加高斯噪声、增加杂乱背景和部分抠除，训练过程中自监督编码解码器的参考真值为不加噪声的彩色样本图。

噪声生成器在彩色样本图上生成噪声的方式包括增加高斯噪声、增加杂乱背景和部分抠除，自监督编码解码器的参考真值为不加噪声的彩色样本图。

子节点的特征获取方法为：

球面上任意视点绕x轴、y轴和相机主轴做随机旋转变换，随机旋转变换角度均为一组服从(-5°，+5°)的均匀分布，并沿相机主轴做随机平移变换，随机平移距离为一组服从(-0.05m，+0.05m)的均匀分布，变换次数设定为1000次，如图11，根据梯度方向对彩色样本图中每个像素的梯度的角度进行量化，对深度样本图中每个像素的法向量的方向进行量化，彩色样本图的梯度和深度样本图的法向量的数量均为8个，如图10，选择梯度值和法向量值大于设定阈值的像素组成候选点集合，采用最远距离法从候选点集合中选择特征点集合，保存特征点集合的直方图信息作为特征；

如图9为最远距离法选择特征点集合的示意图，该方法实现了稀疏均匀的采样，最远距离法的公式为：

其中，

为候选点初选集合，p为选择特征点集合中的特征点。

模板库中高层节点为父节点，低层节点为子节点，根据空间位置关系确定父子关系，每个父节点选择距离最近的若干点作为子节点，子节点数量为4。

呈树形结构的模板库中父节点中的信息由子节点的特征经相似度聚类和降采样得到，相似度聚类和降采样过程具体为：

取子节点特征的直方图编码值的并集，对应权重相加并做归一化，进一步对其进行降采样，将2×2邻域内的编码值再次取并集，权重相加并做归一化，彩色图梯度特征和深度法向量特征均是如此，依此类推，自下而上地形成整个多尺度多模态的模板树。

本实施例提出了一种基于自监督学习与模板匹配的物体位姿估计方法，兼顾了模型渲染的便利性、自监督学习的泛化能力和树形结构模板匹配的高效性，是一种高效准确的位姿估计方法，成本低，鲁棒性高，且避免了样本匮乏等问题，有利于推进位姿估计技术在服务机器人、工业机器人、增强现实等领域的应用。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，包括：

利用彩色样本图训练自监督编码解码器；

2.根据权利要求1所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，训练过程中噪声生成器在彩色样本图上加入噪声，加入噪声的彩色样本图经过自监督编码解码器的编码器编码为低维特征，自监督编码解码器的解码器解码该低维特征并输出降噪图像和目标物体的掩膜，并利用掩膜分割彩色候选图和深度候选图获得对应的彩色分割图和深度分割图。

3.根据权利要求2所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，所述的掩膜包含目标物体分布的区域，分割过程具体为：

4.根据权利要求2所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，所述的加入噪声方式包括增加高斯噪声、增加杂乱背景和部分抠除，训练过程中自监督编码解码器的参考真值为不加噪声的彩色样本图。

5.根据权利要求1所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，所述的球面多尺度方法具体为：

利用OpenGL将多个虚拟相机均匀放置在斐波那契网格的球面点上，所述的虚拟相机渲染获得多视角的彩色样本图和深度样本图。

6.根据权利要求1所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，所述提取多尺度下彩色样本图和深度样本图的带有位姿信息的特征的具体方法为：

7.根据权利要求1所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，所述的模板库呈树形结构，其中父节点的特征由子节点的特征经相似度聚类和降采样得到。

8.根据权利要求7所述的一种基于自监督学习与模板匹配的物体位姿估计方法，其特征在于，每个父节点根据空间位置选择距离最近的若干节点作为子节点，按照自父节点到子节点的方向进行模板库匹配。