CN112802101B

CN112802101B - 一种基于多维金字塔的分层模板匹配方法

Info

Publication number: CN112802101B
Application number: CN202110138632.4A
Authority: CN
Inventors: 熊振华; 柴子奇; 吴建华; 朱向阳
Original assignee: Shanghai Jiaotong University
Current assignee: Chongqing Research Institute Of Shanghai Jiaotong University
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-04-07
Anticipated expiration: 2041-02-01
Also published as: CN112802101A

Abstract

本发明公开了一种基于多维金字塔的分层模板匹配方法。将离线渲染的模板数据，按照其渲染时的视点参数进行聚类，建立多个维度下的金字塔结构，实现匹配过程中的效率优化，其方法步骤如下：步骤1、在离线生成过程，得到彩色图和深度图；步骤2、构建多维模板金字塔；步骤3、在在线匹配过程，得到输入特征图；步骤4、得到高层匹配结果；步骤5、得到物体所在大致区间，作为二维图像上的ROI；步骤6、对应低层次金字塔的模板进行匹配测试；步骤7、对匹配姿态进行随机抽样一致检测，得到物体最终的检测和姿态估计结果。本发明利用CAD模型进行使用，适用于工业应用，能快速地查询，保证了匹配速度和精度的权衡。

Description

一种基于多维金字塔的分层模板匹配方法

技术领域

本发明涉及物体检测及其六自由度姿态估计方法领域，尤其涉及一种基于多维金字塔的分层模板匹配方法。

背景技术

物体识别与6D姿态估计(Object Recognition and 6D Pose Estimation)是机器视觉技术中的一大关键问题，目标是给机器人提供操作目标物体的信息，解决物体是什么以及在哪里的问题。这里目标获取的6D姿态是物体坐标系与视觉传感器(相机)坐标系的变换，由3D平移变换与3D旋转变换组成。目前，物体识别与6D姿态估计仍然是很多机器人实际应用中重要且具有挑战性的课题，也是工业机器人完成智能化任务(抓取、打磨和装配等)的关键技术。

传统的模板匹配法主要是通过滑窗法在输入图像上提取一系列图像块，并采用图像相关系数法比较场景图像块与物体模板的相似度。需要首先建立物体在不同姿态，不同光照环境以及不同背景下的图像模板，由于其较低的泛化能力，模板数量需要足够多影响实时性，而在早些年被局部特征点方法取代。Hinterstoisser于2011年和2012年先后提出了LINE2D和LINEMOD算法，这些算法的框架还是模板匹配，但模板的组成则与传统模板不同。模板由目标物体轮廓边缘特征和表面法向特征组成，不依赖物体的纹理信息。为实现物体在各种姿态下都可以识别，这些算法需要建立多个视角与尺度下的物体模板，因此模板数量较大。为了加快图像块与模板相似度的计算，该算法使用了SIMD指令集和SSE指令集等一系列优化方法进行并行计算。但是在尺度未知，物体位姿变化范围较大的情况下，模板数量可达万级，因此较差的实时性约束了其在工业领域的应用。

因此，本领域的技术人员致力于开发一种基于多维金字塔的分层模板匹配方法，来解决这些问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何提高模板匹配方法，更确切地说是LINEMOD方法在大尺度搜索空间下的匹配实时性，提升其在工业应用中的适应性。

为实现上述目的，本发明提供了一种基于多维金字塔的分层模板匹配方法，将离线渲染的模板数据，按照其渲染时的视点参数进行聚类，建立多个维度下的金字塔结构，实现匹配过程中的效率优化，其方法步骤如下：

步骤1、在离线生成过程，利用正二十面体的三角片面递归细分生成相机观测视点参数，利用OpenGL渲染模板数据，得到彩色图和深度图；

步骤2、对模板数据进行特征提取，并利用视点参数进行二次组织，构建多维模板金字塔；

步骤3、在在线匹配过程，先对输入样本进行特征提取，得到输入特征图；

步骤4、在整体输入特征图上，利用高层金字塔的模板进行匹配测试，得到高层匹配结果；

步骤5、对特征图上匹配位置进行非极大值抑制，得到物体所在大致区间，作为二维图像上的ROI；

步骤6、在上述ROI内，根据匹配到的高层金字塔模板匹配结果的索引，继续使用对应低层次金字塔的模板进行匹配测试；

步骤7、当匹配到最底层金字塔的模板后，对匹配姿态进行随机抽样一致检测，得到物体最终的检测和姿态估计结果。

进一步地，所述步骤1中的正二十面体三角递归划分生成相机观测视点参数过程包括以下步骤：

步骤1.1、在半径为1的球面上构建内切正二十面体，得到其顶点坐标和三角形表面索引；

步骤1.2、选取每个三角形表面的各条边线的中点，并将此点投影到球面上，得到新的顶点，完成对正二十面体的每个三角形表面的细分，得到新的顶点和三角形片面索引；

步骤1.3、循环三角形递归细分过程，直到预期的递归层数；

步骤1.4、使用目标半径对所有视点进行缩放，得到所有视点在不同半径球面上的视点坐标；

步骤1.5、将目标物体模型置于坐标系原点，相机置于上述得到的顶点位置，使相机光轴指向坐标系原点，设定相机沿着光轴的面内旋转角度，渲染得到每个视点参数下的彩色图和深度图。

进一步地，所述步骤2中的多维模板金字塔构建包括以下步骤：

步骤2.1、使用与原始LINEMOD相同的特征构造方式对原始模板进行特征提取；

步骤2.2、针对相机视点参数，在半径维度建立金字塔索引，因为每个半径上的视点都分布在一个真实的物理球面上，因此称为物理半径层，金字塔自上而下，半径参数采样变得密集，称为半径维度金字塔；

步骤2.3、针对相机视点参数，在相机面内旋转维度建立金字塔索引，由于不同面内旋转的相机视点坐标是空间上重合的，因此称为虚拟半径层，金字塔自上而下，面内旋转参数采样变得密集，称为面内旋转维度金字塔；

步骤2.4、针对相机视点参数，在正二十面体的三角形片面递归细分维度建立金字塔索引，金字塔自上而下，对应三角形递归细分的层数，称为递归细分维度金字塔。

进一步地，所述步骤2的所述多维模板金字塔，利用了视点参数在空间内的层次结构，将模板在物理半径维度由粗到细组织成半径金字塔；在面内旋转维度将不同的面内旋转作为虚拟半径层，使用与物理半径层相似的方式，由粗到细组织成面内旋转金字塔；在正二十面体的三角表面递归细分维度，通过递归细分父子关系，将模板由粗到细组织成递归细分金字塔。

进一步地，所述步骤4中的高层金字塔匹配，在匹配过程中，使用了半径维度、递归细分维度和面内旋转维度的高层次金字塔内的模板，且使用了SSE指令集进行相似度并行计算加速。

进一步地，所述步骤6中的在ROI内进行分层模板匹配包括以下步骤：

步骤6.1、在每个ROI内，使用初始匹配结果前N个候选值，得到他们在半径维度、递归细分维度和面内旋转维度三个金字塔内对应的低层次模板索引，继续进行匹配，得到新的候选值；

步骤6.2、保留新候选值的前N个匹配结果，重复上述过程至最底层金字塔。

进一步地，所述多维金字塔约束了相似视点之间的连接关系，能够很好地索引最近邻模板。

进一步地，所述匹配方法所使用的分层搜索算法，分为初始搜索和分层搜索两个阶段。

进一步地，在所述初始搜索阶段生成初始候选值时，使用多维金字塔高层模板在输入图像上进行全局搜索，得到图像上的ROI和多维金字塔内的初始候选匹配模板。

进一步地，根据初始候选值进行所述分层搜索，一方面缩小了全局搜索空间，另一方面在金字塔由高层到低层的搜索过程中，各个维度的参数的采样密度都在增大，增大了局部搜索细粒度，保证了匹配精度；在所述分层搜索阶段，仅在ROI内匹配，且根据初始候选匹配模板寻找多维金字塔内的低层金字塔模板。

本发明与现有的技术相比，具有以下特点：

利用CAD模型即可使用OpenGL快速便捷地渲染物体的彩色图和深度图模板，适用于工业应用。

基于视点参数的多个维度的特性，建立了多维模板金字塔，对模板(视点参数)进行索引，便于快速地由粗到细地对相似的和临近的模板进行查询。

利用两步匹配，在初始匹配过程中，确定二维输入图像的ROI和多维金字塔内的初始候选值；在分层搜索过程中，一方面使用初始候选值，减小了全局搜索空间，一方面随着金字塔层数增多，增大了局部搜索细粒度，保证了匹配速度和精度的权衡。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的离线渲染和在线匹配整体流程示意图；

图2是本发明的三角形递归细分维度金字塔示意图；

图3是本发明的面内旋转(虚拟半径层)和半径(物理半径层)维度金字塔示意图；

图4是本发明的多维金字塔总体示意图；

图5是本发明的匹配过程结果可视化图；

图6是本发明的工业场景散乱零件逐一匹配和分拣效果图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

一种基于多维金字塔的分层模板匹配方法，在离线生成过程，利用正二十面体的三角片面递归划分生成相机观测视点参数，利用OpenGL渲染模板数据，得到彩色图和深度图。其具体步骤如下：

如图2所示，在半径为1的球面上构建内切正二十面体，得到其顶点坐标和三角形表面索引。

选取每个三角形表面的各条边线的中点，并将此点投影到球面上，得到新的顶点，完成对正二十面体的每个三角形表面的细分，得到新的顶点和三角形片面索引。

循环三角形递归细分过程，直到预期的递归层数。

如图3所示，面内旋转(虚拟半径层)和半径(物理半径层)维度金字塔示意图，使用目标半径对所有视点进行缩放，得到所有视点在不同半径球面上的视点坐标。

将目标物体模型置于坐标系原点，相机置于上述得到的顶点位置，使相机光轴指向坐标系原点，设定相机沿着光轴的面内旋转角度，渲染得到每个视点参数下的彩色图和深度图。

如图4所示，多维金字塔总体示意图；对模板数据进行特征提取，利用视点参数进行二次组织，构建多维模板金字塔。多维金字塔约束了相似视点之间的连接关系，能够很好地索引最近邻模板。其具体步骤如下：

使用与原始LINEMOD相同的特征构造方式对原始模板进行特征提取。

针对相机视点参数，在半径维度建立金字塔索引，因为每个半径上的视点都分布在一个真实的物理球面上，因此称为物理半径层，金字塔自上而下，半径参数采样变得密集，称为半径维度金字塔。

针对相机视点参数，在相机面内旋转维度建立金字塔索引，由于不同面内旋转的相机视点坐标是空间上重合的，因此称为虚拟半径层，金字塔自上而下，面内旋转参数采样变得密集，称为面内旋转维度金字塔。

针对相机视点参数，在正二十面体的三角形片面递归细分维度建立金字塔索引，金字塔自上而下，对应三角形递归细分的层数，称为递归细分维度金字塔。

在在线匹配过程，先对查询数据进行特征提取，得到输入特征图。

在整体输入特征图上，利用高层金字塔的模板进行初始搜索，得到高层匹配结果，生成初始候选值。此过程仅仅使用了半径维度、递归细分维度和面内旋转维度的高层次金字塔内的模板在整体输入图像上进行全局搜索，目标是得到图像上的ROI和高层多维金字塔内的初始候选值。所有相似度计算环节均使用了LINEMOD一致的SSE指令集并行计算加速。

对特征图上匹配位置进行非极大值抑制，得到物体所在大致区间，作为二维图像上的ROI。

在上述ROI内，根据初始搜索的高层金字塔模板匹配结果索引，继续使用对应低层次金字塔的模板进行分层搜索。其具体步骤如下：

在每个ROI内，使用初始匹配结果(候选值)前N个值，得到他们在半径维度、递归细分维度和面内旋转维度三个金字塔内对应的低层次模板索引，继续进行匹配，得到新的候选值。

保留新候选值的前N个结果，重复上述过程至最底层金字塔。

根据初始候选值进行分层搜索，一方面缩小了全局搜索空间，另一方面在金字塔由高层到低层的搜索过程中，各个维度的参数的采样密度都在增大，增大了局部搜索细粒度，保证了匹配精度。

如图5所示，发明的匹配过程结果可视化图，当匹配到底层金字塔的模板后，对匹配姿态进行随机抽样一致检测，得到物体最终的检测和姿态估计结果。

如图6所示，本发明的工业场景散乱零件逐一匹配和分拣效果图，是按本发明一种基于多维金字塔的分层模板匹配方法进行分拣的效果图。

如图1所示，本发明的离线渲染和在线匹配整体流程示意图，在离线模板生成流程，基于正二十面体三角递归细分的视点参数采样→基于OpenGL彩色图、深度图渲染→特征提取→建立多维模板金字塔→匹配结果筛选；在线模板匹配流程，输入样本→特征提取→输入样本的特征图→分层模板匹配→匹配结果筛选；是建立多维模板金字塔与分层模板匹配共同进入匹配结果筛选的。

本发明提供的基于多维金字塔的分层模板匹配方法能够保证对目标物的识别和姿态估计的准确性，且时间复杂度低，效率高，保证了其在工业应用中的实时性。在渲染模板的过程中，通过相机的视点参数，建立了半径维度、递归细分维度和面内旋转维度三个金字塔。在匹配过程中，先通过各个金字塔的高层次模板索引进行匹配，再通过在输入图像局部进行分层匹配，实现了模板匹配效率的提升。所用的多维金字塔结构，利用了视点参数在空间内的层次结构，将模板在物理半径维度由粗到细组织成半径金字塔；在面内旋转维度将不同的面内旋转作为虚拟半径层，使用与物理半径层相似的方式，由粗到细组织成面内旋转金字塔；在正二十面体的三角表面递归细分维度，将模板由粗到细组织成递归细分金字塔。多维金字塔约束了相似视点之间的连接关系，能够很好地索引最近邻模板。所使用的分层搜索算法根据初始候选值进行分层搜索，一方面缩小了全局搜索空间，另一方面增大了局部搜索细粒度，取得了匹配速度和匹配精度的权衡。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多维金字塔的分层模板匹配方法，其特征在于，将离线渲染的模板数据，按照其渲染时的视点参数进行聚类，建立多个维度下的金字塔结构，实现匹配过程中的效率优化，所述匹配方法所使用的分层搜索算法，分为初始搜索和分层搜索两个阶段，在所述初始搜索阶段生成初始候选值时，使用多维金字塔高层模板在输入图像上进行全局搜索，得到图像上的ROI和多维金字塔内的初始候选匹配模板，其方法步骤如下：

步骤2、对模板数据进行特征提取，并利用视点参数进行二次组织，构建多维模板金字塔；所述多维模板金字塔，利用视点参数在空间内的层次结构，将模板在物理半径维度由粗到细组织成半径金字塔，在面内旋转维度将不同的面内旋转作为虚拟半径层，使用与物理半径层相似的方式，由粗到细组织成面内旋转金字塔，在正二十面体的三角表面递归细分维度，通过递归细分父子关系，将模板由粗到细组织成递归细分金字塔；

步骤4、在整体输入特征图上，利用高层金字塔的模板进行匹配测试，得到高层匹配结果；所述高层金字塔匹配，在匹配过程中，使用半径维度、递归细分维度和面内旋转维度的高层次金字塔内的模板，且使用SSE指令集进行相似度并行计算加速；

2.如权利要求1所述的基于多维金字塔的分层模板匹配方法，其特征在于，所述步骤1中的正二十面体三角递归划分生成相机观测视点参数过程包括以下步骤：

步骤1.3、循环三角形递归细分过程，直到预期的递归层数；

3.如权利要求1所述的基于多维金字塔的分层模板匹配方法，其特征在于，所述步骤2中的多维模板金字塔构建包括以下步骤：

4.如权利要求1所述的基于多维金字塔的分层模板匹配方法，其特征在于，所述步骤6中的在ROI内进行分层模板匹配包括以下步骤：

5.如权利要求1所述的基于多维金字塔的分层模板匹配方法，其特征在于，所述多维金字塔约束了相似视点之间的连接关系，能够很好地索引最近邻模板。

6.如权利要求1所述的基于多维金字塔的分层模板匹配方法，其特征在于，根据初始候选值进行所述分层搜索，一方面缩小了全局搜索空间，另一方面在金字塔由高层到低层的搜索过程中，各个维度的参数的采样密度都在增大，增大了局部搜索细粒度，保证了匹配精度；在所述分层搜索阶段，仅在ROI内匹配，且根据初始候选匹配模板寻找多维金字塔内的低层金字塔模板。