CN111768447A

CN111768447A - 一种基于模板匹配的单目相机物体位姿估计方法及系统

Info

Publication number: CN111768447A
Application number: CN202010619253.2A
Authority: CN
Inventors: 刘振; 范晓东; 武帅; 宋思远; 丁亮; 洪伟
Original assignee: HRG International Institute for Research and Innovation
Current assignee: Hefei Hagong Huicai Intelligent Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-13
Anticipated expiration: 2040-07-01
Also published as: CN111768447B

Abstract

本发明提供一种基于模板匹配的单目相机物体位姿估计方法，包括以下步骤：根据物体3D模型的投影，以物体3D模型的质心或重心为基准坐标系原点，原点记作P，对基准坐标进行空间坐标转化，将基准坐标系转化为以观察点P’为原点的目标坐标系，记录此时物体的三维位置以及P’点到物体3D模型之间的距离，即生成二维模板数据集，形成目标模板图像；图像预处理，得到目标二维图像；物体位姿识别。本发明以模板匹配算法为基础，可根据需求调节观测距离和基准坐标原点。对于新的待识别目标物体，只需要其3D模型即可快速生成大量模板数据集，算法的可移植性较强。本发明在硬件传感器上只需使用单目2D摄像机，能够降低硬件成本。

Description

一种基于模板匹配的单目相机物体位姿估计方法及系统

技术领域

本发明涉及物体位姿评估技术领域，具体来说是一种基于模板匹配的单目相机物体位姿估计方法及系统。

背景技术

近年来，计算机视觉相关的技术迅速发展，物体位姿检测是计算机视觉领域最热门的研究领域之一。而使用位姿估计算法估算物体3D模型相对于摄像机的位置姿态，在物体位姿识别实际应用中尤为重要。

位姿估计的信息获取必须使用硬件传感器，根据原理不同，完成位姿估计使用到的传感器分为激光雷达和摄像机。在视觉领域可分为单目视觉位姿估计、多目视觉位姿估计和3D视觉位姿估计。在目前的生产技术水平下，现有多目和3D相机价格都比较贵，后者价格普遍在数十万元以上。在实际工业应用中，既要保证算法的处理速度、稳定性以及鲁棒性，也要把产品成本控制在较低范围，此时价格较低的单目相机受到消费者们的重视。

根据算法使用的先验条件不同，位姿估计算法可以分为基于特征点的位姿估计方法、基于神经网络的位姿估计算法和基于模型的位姿估计算法。基于特征点的位姿估计方法从图像中提取出有效特征点与标准图像进行匹配。这种方法不仅耗时，而且只使用到图像中特征点信息，信息利用率不高。而且如果遇到图像含有特征点较少的情形，对位置和角度的估计出现严重偏差的几率较大。基于神经网络的位姿估计算法虽然具有极强的泛化能力，但对硬件算力要求较高，无形中提升了硬件成本。基于模型的位姿估计算法需要提前构建物体的模型，能较强适用于具有形状较规则的物体，且对硬件算力要求低。

发明内容

本发明要解决的是现有技术对于物体位姿评估结果误差大、对硬件要求高的技术问题。

本发明通过以下技术方案来解决上述技术问题：

一种基于模板匹配的单目相机物体位姿估计方法，包括以下步骤：

S100、建立目标模板图像库

根据物体3D模型以球形相机的视野进行多角度、不同距离的投影，光照模式选择为模拟平行光投影；以物体3D模型的质心或重心为基准坐标系原点，原点记作P，对基准坐标进行空间坐标转化，将基准坐标系转化为以观察点P’为原点的目标坐标系，其中PP’为目标坐标系的z轴；随后在P’点将物体3D模型投影到xoy平面上获得二维模板图像，记录此时物体的三维位置以及P’点到物体3D模型之间的距离，即生成在不同位姿和观测距离下的物体3D模型二维模板数据集，形成目标模板图像；

S200、图像预处理

对目标物体进行拍照，然后对获取到的二维图像采用直方图均衡法处理，得到目标二维图像；

S300、物体位姿识别

采用目标模板图像对目标二维图像进行检测与识别；

S400、配准

对目标模板图像进行平移和旋转，找到目标模板图像上的每个特征点对应在目标图像上的对应点坐标，通过特征点坐标和对应点切线进行最小平方差运算，使特征点尽量靠近对应点。

优选的，所述步骤S100具体包括：

1)投影距离渐进设计

对投影观察原点到物体3D模型之间的距离进行多层次步进式设计，选择3至5个不同观测距离和角度进行投影；

2)基准坐标系的转换及投影

通过空间坐标变换，将基准坐标系转换为以观察点P’为原点、PP’为z轴的目标坐标系。目标坐标系的y轴和z轴旋转公式为：

其中θ_y是pitch角，θ_z是yaw角。

[y',x',z']^T＝R_y(-θ_y)R_z(-θ_z)[x,y,z]^T (3)

z'＝-z'+R (4)

其中，[x,y,z]是基准坐标系的原点坐标，[x',y',z']是目标坐标系的原点坐标，R代表偏移量。随后在P’点按照透视原理以及视场“近大远小”规则，将物体3D模型投影到xoy平面上获得二维模板图像，记录此时物体的三维位置以及P’点到物体3D模型之间的距离，即生成在不同位姿和观测距离下的物体3D模型二维模板数据集。

优选的，所述步骤S200具体包括：

首先统计二维图像中灰度级范围r_k，r_k值域为[0,L-1]，在八位像素值表示中L等于256；然后统计每一个灰度级在二维图像中出现的频次n_k，n_k表示在二维图像中第k个灰度级的像素总数；当图像总像素点个数为N时，计算各级的概率公式为：

p(r_k)＝n_k/N (5)

由于r_k步进为1，可以将式(5)改写为：

p(k)＝n_k/N (6)

上式中将直方图分布归一化，将函数值p(k)值域归一化为[0,1]，然后对灰度级概率进行直方图变换：

s_k＝T(r_k) (7)

s_k代表将原始灰度值r_k通过函数映射得到的新灰度值。

优选的，所述步骤S300具体包括：

预先加载目标模板图像到内存中，对预处理后的目标二维图像进行物体检测与识别；模板与源图像进行比较时，采用相似度测量的方法进行检测识别：

其中ori(O,r)为目标模板图像上位置r上的梯度，ori(I,c+r)为目标二维图像上在c+r上的梯度，其中c为目标二维图像上对应于目标模板图像的中心点，目标二维图像上和目标模板图像像素对应的像素的梯度；当多个同样目标二维图像堆叠摆放时，根据最终计算结果值，取最高得分值对应的位置。

优选的，所述步骤S400具体包括：

先对目标模板图像进行平移和旋转，通过最小二乘法来求出平移量和旋转量；然后对目标模板图像上的特征点，寻找特征点在目标二维图像上某邻域内的最近点作为其在目标二维图像上的对应点，对物体模板上每个特征点都找到对应点坐标，计算对应点的切线，同时计算特征点到对应点切线的距离，对所有特征点进行相同操作，通过特征点坐标和对应点切线进行最小平方差运算，使特征点尽量靠近对应点，分别求出最小平方差和对(x,y；ω)的一阶偏导，并令其为0，求出(x,y；ω)值，其中(x,y)为目标物体在二维目标图像中的位置坐标，ω目标模板图像的旋转角度，将ω与当前匹配的目标模板图像的三维位姿信息进行合并叠加，即可得到目标物体最终三维位姿识别结果。

本发明还提供一种基于模板匹配的单目相机物体位姿估计系统，包括

建立目标模板图像库模块，根据物体3D模型以球形相机的视野进行多角度、不同距离的投影，光照模式选择为模拟平行光投影；以物体3D模型的质心或重心为基准坐标系原点，原点记作P，对基准坐标进行空间坐标转化，将基准坐标系转化为以观察点P’为原点的目标坐标系，其中PP’为目标坐标系的z轴；随后在P’点将物体3D模型投影到xoy平面上获得二维模板图像，记录此时物体的三维位置以及P’点到物体3D模型之间的距离，即生成在不同位姿和观测距离下的物体3D模型二维模板数据集，形成目标模板图像；

图像预处理模块，对目标物体进行拍照，然后对获取到的二维图像采用直方图均衡法处理，得到目标二维图像；

物体位姿识别模块，采用目标模板图像对目标二维图像进行检测与识别；

配准模块，对目标模板图像进行平移和旋转，找到目标模板图像上的每个特征点对应在目标图像上的对应点坐标，通过特征点坐标和对应点切线进行最小平方差运算，使特征点尽量靠近对应点。

优选的，所述建立目标模板图像库模块具体建立过程为：

1)投影距离渐进设计

2)基准坐标系的转换及投影

其中θ_y是pitch角，θ_z是yaw角。

[y',x',z']^T＝R_y(-θ_y)R_z(-θ_z)[x,y,z]^T (3)

z'＝-z'+R (4)

优选的，所述图像预处理模块具体处理过程为：

p(r_k)＝n_k/N (5)

由于r_k步进为1，可以将式(5)改写为：

p(k)＝n_k/N (6)

s_k＝T(r_k) (7)

s_k代表将原始灰度值r_k通过函数映射得到的新灰度值。

优选的，所述物体位姿识别模块具体识别过程为：

优选的，所述配准模块具体配准过程为：

本发明的优点在于：

本发明的创新点在于以模板匹配算法为基础，可根据需求调节观测距离和基准坐标原点。对于新的待识别目标物体，只需要其3D模型即可快速生成大量模板数据集，算法的可移植性较强。本发明在硬件传感器上只需使用单目2D摄像机，能够降低硬件成本，易于在市场上进行推广应用。

附图说明

图1为本发明物体位姿评估方法实施例的流程框图；

图2为对图1的流程进一步细化的流程框图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

如图1、图2所示，一种基于模板匹配的单目相机物体位姿估计方法，包括以下步骤：

步骤1、建立目标模板图像库

1)投影距离渐进设计

本实施例根据物体3D模型以球形相机的视野进行多角度、不同距离的投影，光照模式选择为模拟平行光投影；在实际情况中，物体无序摆放时会出现上下堆叠情况，此时相机镜头到物体的拍摄距离会有所差异。因此根据实际情况，选取与之相同距离的投影距离十分重要。根据上述情况，对投影观察原点到目标物体3D模型之间的距离进行多层次步进式设计，一般取三至五个不同观测距离即可满足应用要求。

2)基准坐标系的转换及投影

本实施例以物体3D模型的质心或重心为基准坐标系原点，原点记作P，对基准坐标进行空间坐标转化，将基准坐标系转化为以观察点P’为原点的目标坐标系，其中PP’为目标坐标系的z轴；随后在P’点将物体3D模型投影到xoy平面上获得二维模板图像，记录此时物体3D模型的三维位置以及P’点到物体3D模型之间的距离，即生成在不同位姿和观测距离下的物体3D模型二维模板数据集，形成目标模板图像；

2)基准坐标系的转换及投影

其中θ_y是pitch角，θ_z是yaw角。

[y',x',z']^T＝R_y(-θ_y)R_z(-θ_z)[x,y,z]^T (3)

z'＝-z'+R (4)

通过(3)式(4)式两步即可实现基准坐标系的转化，其中，[x,y,z]是基准坐标系的原点坐标，[x',y',z']是目标坐标系的原点坐标，R代表偏移量。随后在P’点按照透视原理以及视场“近大远小”规则，将物体3D模型投影到xoy平面上获得二维模板图像，记录此时物体的三维位置以及P’点到物体3D模型之间的距离，即可快速生成大量在不同位姿和观测距离下的目标物体二维模板数据集。

S200、图像预处理

对获取到的二维图像采用直方图均衡法处理，得到目标二维图像；具体处理过程为：在使用2D相机对实际物体进行拍照时，由于室内光线的影响以及物体本身的纹理反光，会在图像中产生噪点和干扰纹理，影响模板匹配的效果。

根据不同物体的本身特性，对获取到的2D相机图像首先进行预处理。本发明用到的图像预处理算法是全局直方图均衡法。首先统计原始图像中灰度级范围r_k，r_k值域为[0,L-1]，在八位像素值表示中L等于256。然后统计每一个灰度级在原始图像中出现的频次n_k，n_k表示在图像中第k个灰度级的像素总数。当图像总像素点个数为N时，计算各级的概率公式为：

p(r_k)＝n_k/N (5)

由于r_k步进为1，可以将式(5)改写为：

p(k)＝n_k/N (6)

上式中将直方图分布归一化，将函数值p(k)值域归一化为[0,1]，与图像中像素总数无关。然后对灰度级概率进行直方图变换：

s_k＝T(r_k) (7)

s_k代表将原始灰度值r_k通过函数映射得到的新灰度值。

S300、物体位姿识别

采用目标模板图像对目标二维图像进行检测与识别；具体过程为：预先加载目标模板图像到内存中，对预处理后的目标二维图像进行物体检测与识别；模板与源图像进行比较时，采用相似度测量的方法进行检测识别：

S400、配准

行模板匹配时，模板匹配算法得到的位置和图像中物体位置不一定完全重合，这时需要对匹配结果进行姿态微调，使其匹配到更准确的位置。具体操作为：先对目标模板图像进行平移和旋转，通过最小二乘法来求出平移量和旋转量；然后对目标模板图像上的特征点，寻找特征点在目标二维图像上某邻域内的最近点作为其在目标二维图像上的对应点，对物体模板上每个特征点都找到对应点坐标，计算对应点的切线，同时计算特征点到对应点切线的距离，对所有特征点进行相同操作，通过特征点坐标和对应点切线进行最小平方差运算，使特征点尽量靠近对应点，分别求出最小平方差和对(x,y；ω)的一阶偏导，并令其为0，求出(x,y；ω)值，其中(x,y)为目标物体在二维目标图像中的位置坐标，ω目标模板图像的旋转角度，将ω与当前匹配的目标模板图像的三维位姿信息进行合并叠加，然后转化成rpy格式数据，即可得到目标物体最终三维位姿识别结果。

本实施例还提供一种基于模板匹配的单目相机物体位姿估计系统，包括

图像预处理模块，对获取到的二维图像采用直方图均衡法处理，得到目标二维图像；

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于模板匹配的单目相机物体位姿估计方法，其特征在于：包括以下步骤：

S100、建立目标模板图像库

S200、图像预处理

S300、物体位姿识别

采用目标模板图像对目标二维图像进行检测与识别；

S400、配准

2.根据权利要求1所述的一种基于模板匹配的单目相机物体位姿估计方法，其特征在于：所述步骤S100具体包括：

1)投影距离渐进设计

2)基准坐标系的转换及投影

其中θ_y是pitch角，θ_z是yaw角。

[y',x',z']^T＝R_y(-θ_y)R_z(-θ_z)[x,y,z]^T (3)

z'＝-z'+R (4)

3.根据权利要求1所述的一种基于模板匹配的单目相机物体位姿估计方法，其特征在于：所述步骤S200具体包括：

p(r_k)＝n_k/N (5)

由于r_k步进为1，可以将式(5)改写为：

p(k)＝n_k/N (6)

s_k＝T(r_k) (7)

s_k代表将原始灰度值r_k通过函数映射得到的新灰度值。

4.根据权利要求1所述的一种基于模板匹配的单目相机物体位姿估计方法，其特征在于：所述步骤S300具体包括：

5.根据权利要求1所述的一种基于模板匹配的单目相机物体位姿估计方法，其特征在于：所述步骤S400具体包括：

6.一种基于模板匹配的单目相机物体位姿估计系统，其特征在于：包括

7.根据权利要求6所述的一种基于模板匹配的单目相机物体位姿估计系统，其特征在于：所述建立目标模板图像库模块具体建立过程为：

1)投影距离渐进设计

2)基准坐标系的转换及投影

其中θ_y是pitch角，θ_z是yaw角。

[y',x',z']^T＝R_y(-θ_y)R_z(-θ_z)[x,y,z]^T (3)

z'＝-z'+R (4)

8.根据权利要求6所述的一种基于模板匹配的单目相机物体位姿估计系统，其特征在于：所述图像预处理模块具体处理过程为：

p(r_k)＝n_k/N (5)

由于r_k步进为1，可以将式(5)改写为：

p(k)＝n_k/N (6)

s_k＝T(r_k) (7)

s_k代表将原始灰度值r_k通过函数映射得到的新灰度值。

9.根据权利要求6所述的一种基于模板匹配的单目相机物体位姿估计系统，其特征在于：所述物体位姿识别模块具体识别过程为：

10.根据权利要求9所述的一种基于模板匹配的单目相机物体位姿估计系统，其特征在于：所述配准模块具体配准过程为：