CN110197509B

CN110197509B - 一种基于彩色人工标识的相机位姿求解法

Info

Publication number: CN110197509B
Application number: CN201910361625.3A
Authority: CN
Inventors: 陈龙; 石超; 王永锋
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2023-07-11
Anticipated expiration: 2039-04-30
Also published as: CN110197509A

Abstract

本发明提出了一种基于彩色人工标识的相机位姿求解法，首先创建预定义字典自动生成法以生成字典，根据所需标识的个数m与标识的阶数大小n，即可自动产生满足要求的字典；然后通过图像处理技术实现了人工标识的检测，将检测到的标识与字典中的标识进行匹配，即可完成标识的识别；最后根据人工标识提供的4组对应点，采用levenberg一marquardt算法对平面单应性矩阵进行求解，可获得相机位姿。本发明提出了预定义字典自动生成算法，提高了字典的容量，使人工标识的编码更加灵活，其使用场景也得以拓展。同时人工标识的纠错能力得到了提升。

Description

一种基于彩色人工标识的相机位姿求解法

技术领域

本发明属于人工识别技术领域，尤其涉及一种基于彩色人工标识的相机位姿求解法。

背景技术

位姿估计是计算机视觉领域的研究热点，在增强现实、机器人视觉导航、相机标定等领域发挥着重要的作用。根据位姿求解方式的不同，可分为基于硬件的位姿估计和基于视觉的位姿估计。基于硬件的位姿估计方法通过各种传感器如激光、红外、超声等，可对物体的位姿进行正确测量，但硬件成本高昂。基于视觉的位姿估计技术根据检测目标的不同，又可分为基于自然特征的位姿估计和基于人工标识的位姿估计。基于自然特征的位姿估计方法通过检测关键点或纹理来求解位姿，但自然特征检测困难，算法计算量大，效率较低，不适用于对实时性要求较高的应用场合。而人工标识的检测具有难度低、速度快、定位精度高等优点，使用人工标识可摆脱应用场景的限制，通过人工标识还可以实现与虚拟物体的实时交互。因此，设计出性能优异的人工标识具有很大的价值。

发明内容

本发明的目的在于提供一种基于彩色人工标识的相机位姿求解法，提出了预定义字典自动生成法，字典的生成更加灵活方便，同时提高了字典的容量，其使用场景也得以拓展。为实现上述目的，本发明所采用的技术方案为：

一种基于彩色人工标识的相机位姿求解法，包括预定义字典自动生成法，具体包括以下步骤：

步骤S1：设计彩色人工标识；所述彩色人工标识包括(n+2)×(n+2)个单元格；所述彩色人工标识包括编码部分和包绕所述编码部分的外围部分；所述编码部分包括n×n个单元格；所述编码部分的单元格填充三种不同的颜色；所述三种颜色依次通过数字0、1、2进行表示；所述外围部分包括4个用于求解位姿的顶点；

步骤S2：创建一空字典，同时设置距离阀值的初始值、初始化无效迭代次数的计算变量为零、设置最大无效迭代次数；所述距离阀值为标识间距离的最大值；

步骤S3：判断所述字典中的人工彩色标识的数量；若数量小于预设值，则进行步骤S4；

步骤S4：从所述彩色人工标识包含的三进制数串构成的集合中，随机选择n个三进制数串而构成一个标识元素；若标识元素与字典中元素的距离大于距离阀值，则将所述标识元素添加至字典中，无效迭代次数的计算变量的值不变；否则，进行步骤S5；

步骤S5：舍弃该标识元素，无效迭代次数的计算变量的值自加，同时判断是否达到最大无效迭代次数；如是，则距离阀值自减，将无效迭代次数的计算变量重新初始化为零；判断结束后执行下一次迭代，执行步骤S3。

优选地，在步骤S4中，所述距离包括标识元素和字典中每个标识元素之间的汉明距离

的最小值、同一标识元素4种旋转状态下，单元格间的汉明距离S(m_i)的最小值。

优选地，在步骤S4中，距离阀值的初始值满足以下公式：

优选地，在步骤S4中，数串在每次迭代中被选中的概率为：

优选地，在字典自动生成后，进一步包括彩色人工标识的检测，具体包括以下步骤：

步骤S6：获取彩色人工标识的边缘图像；

步骤S7：对所述边缘图像进行轮廓提取并对提取的轮廓进行多边形近似处理以获取彩色人工标识所在的区域；

步骤S8：对所述彩色人工标识所在的区域进行编码提取；

步骤S9：在所述字典中搜索所述编码。

优选地，在步骤S9中，若所述字典中不存在与所述编码匹配的标识编码，则计算错误标识与字典中所有标识元素之间的汉明距离

如果汉明距离不大于

则字典中与该错误标识距离最小的标识元素为纠正后的标识。

优选地，彩色人工标识的检测完成后，进一步包括基于彩色人工标识的位姿估计，具体包括以下步骤：

步骤S10：指定彩色人工标识所在的平面为世界坐标系中Z_w＝0的平面，坐标系原点指定为标识的中心；

步骤S11：根据摄像机成像模型，将彩色人工标识上的点投影到图像上；

步骤S12：根据人工标识提供的4组顶点，采用levenberg一marquardt算法对平面单应性矩阵进行求解，可获得相机位姿。

与现有技术相比，本发明的优点为：通过对彩色人工标识进行数学建模完成其创建，同时求解字典可具有的最大标识间距离并最终创建相应的预定义字典自动生成法，实现了字典的自动生成，使得字典的生成更加灵活方便，同时提高了字典的容量，其使用场景也得以拓展。

附图说明

图1(a)～(c)为黑、白、红三色彩色人工标识示意图；

图2(a)～(b)为单元格路径变化示意图；

图3(a)～(b)为情况一示意图：相同颜色的单元格为对角关系；

图4(a)～(d)为情况二示意图：相同颜色的单元格为相邻关系；

图5(a)～(d)为彩色人工标识所在的区域提取过程示意图；

图6为人工标识编码提取示意图；

图7为摄像机成像过程示意图；

图8为根据位姿估计结果在人工标识上绘制坐标系效果图；

图9为立方体注册效果图。

具体实施方式

下面将结合示意图对本发明的基于彩色人工标识的相机位姿求解法进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果。因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

本实施例中，提出了一种基于彩色人工标识的相机位姿求解法，包括预定义字典自动生成法，具体包括步骤S1～S5：

步骤S1：设计彩色人工标识；彩色人工标识采用正方形设计，因为正方形易于检测；考虑到人工标识的可扩展性，将彩色人工标识划分为(n+2)×(n+2)个单元格；所述彩色人工标识包括编码部分和包绕所述编码部分的外围部分；外围部分的一圈单元格使用黑色填充；编码部分包括n×n个单元格；编码部分的单元格填充任意三种不同的颜色从而对标识进行编码；三种颜色依次通过数字0、1、2进行表示；所述外围部分包括4个用于求解位姿的顶点；本实施例采用黑、白、红三种颜色填充单元格，如图1所示。下文以此形式的彩色人工标识为基础，进行预定义字典自动生成法的说明，该方法根据所需标识的个数m与标识的阶数大小n，即可自动产生满足要求的字典，具体如下：

假设所有大小为n×n的标识构成了集合

那么问题在于从该集合中选择m个标识构成所求字典，使得它们间的距离尽可能大，并且标识的位转换次数也尽可能大。该问题的求解目标为寻找使设计准则/>

最大时的字典/>

即使对于较小的n，完全搜索整个集合寻求最优解也是不可行的。因此，本实施例提出了寻找次优解的随机算法，具体如步骤S2～S5。

步骤S2：创建一空字典，同时设置距离阀值的初始值、初始化无效迭代次数的计算变量为零、设置最大无效迭代次数；所述距离阀值为标识间距离的最大值；彩色人工标识包括大小为(n+2)×(n+2)的单元格，编码过程中，黑、白、红三种颜色依次通过数字0、1、2进行表示。其中，外围部分的单元格被置为黑色，创建易于检测的外部边界。剩下的编码部分的大小为n×n的单元格用来进行编码。因此，一个标识m可定义为由n个长为n的三进制数串w组成的元组，通过式(2)、(3)描述：

m＝(W₀，w₁，...，W_n-1) (2)

w＝(t₀，t₁，...，t_n-1|t_i∈{0，1，2}) (3)

定义

为所有的长为n的三进制数串所构成的集合，则该集合的基数为

步骤S4：从彩色人工标识包含的三进制数串构成的集合中，，随机选择n个三进制数串而构成一个标识元素；若标识元素与字典中元素的距离大于距离阀值，则将所述标识元素添加至字典中，无效迭代次数的计算变量的值不变；否则，进行步骤S5；

步骤S5：舍弃该标识元素，无效迭代次数的计算变量的值自加，同时判断是否达到最大无效迭代次数；如是，则距离阀值自减，将无效迭代次数的计算变量重新初始化为零，判断结束后执行下一次迭代，执行步骤S3。

步骤S2～S5总结如下：

在本实施例中，在步骤S4中，所述距离包括标识元素和字典中每个标识元素之间的汉明距离

的最小值、同一标识元素4种旋转状态下，单元格间的汉明距离S(m_i)的最小值。如前所述，若某一标识与字典/>

中所有标识的距离都大于距离阀值τ，则将该标识添加到字典/>

中。因此，有必要对标识间的距离进行准确的定义。标识通过n×n的单元格进行编码，可定义两个标识间的距离如下：

式(7)中，函数H表示两个标识单元格之间的汉明距离，其被定义为对应数串之间的汉明距离的总和。R_k是一个算子，可将标识单元格按顺时针方向旋转k×90°。函数D表示两个标识之间的汉明距离，具有旋转不变性。进一步可定义某个标识m_i与某个字典

之间的距离。计算该标识与字典/>

中每个标识之间的汉明距离，最小值即为所求，定义如式(8)所示。

为顺利进行相机位姿估计，不仅需要对不同的标识进行区分，还须准确判定标识的方向。每个标识具有4种旋转状态，分别计算初始状态与4种旋转状态下单元格间的汉明距离，取最小值并将其记为标识的自身距离，定义如式(9)所示。为满足要求，需保证标识的自身距离大于τ。

总之，只有当S(m_i)与

满足大于等于τ时，将标识添加到字典中，否则，舍弃该标识并随机生成一个新的标识。对于任一字典，无论是手动生成还是自动生成的，最小距离/>

可通过式(10)计算获得：

在本实施例中，在步骤S4中，距离阀值的初始值满足以下公式：

需要确定距离阈值的初始值τ⁰。当算法进行第一次迭代时，字典为空，所以仅需考虑标识的自身距离。对于阶数为n的标识，其最大自身距离通过符号/>

来表示，该距离即为拥有该类型标识的字典可具有的最大自身距离。本节主要介绍如何确定/>

该问题等同于求取n×n位标识的最大自身距离。不停地对某一标识进行90°的旋转操作，以此来分析单元格的路径变化。显然，对于坐标为(x，y)处的单元格，会依次变换到3个不同的坐标位置，直到变换为初始位置。图2(a)～(b)中以2×2标识和3×3标识为例进行说明，将标识按顺时针方向旋转90°，箭头所指方向表示单元格在旋转后所处的新位置。一个标识的自身距离只与该标识的其它3种旋转状态有关，因此，可定义一个由这4个位置坐标组成的4元集合如下：

{(x，y)，(n-y-1，x)，(n-x-1，n-y-1)，(y，n-x-1)}。

通常，n×n位标识所含有的4元集合的总数可通过式(11)计算：

式(11)中，

表示向下取整函数。当n为奇数时，标识中心的位置坐标在旋转后并未改变。因此，该位置坐标所构成的4元集合对于求解标识的自身距离S并未提供额外的约束条件。

若将一个4元集合通过各坐标位置处的颜色编码表示为一个编码串，即可将90°的旋转操作转换为循环位移操作。举例来说，若某个4元集合表示的编码串为0102，则旋转操作将导致编码串变换为2010→0201→1020。对于计算

来说，上面所述的4个编码串实际上是等价的，可将它们视为一组，归为集合Q_i之中。任一4元集合对S的影响可通过旋转后的编码串与初始编码串间的汉明距离给出。比如编码串0102在旋转时对S的影响通过距离给出的结果为(4，2，4)：

H(0102，2010)＝4；H(0102，0201)＝2；H(0102，1020)＝4.

同理，若初始编码串为2010，旋转操作可导致编码串依次变换为0201→1020→0102，但计算出的距离依然为(4，2，4)：

H(2010，0201)＝4；H(2010，1020)＝2；H(2010，0102)＝4.

对于一个4元集合而言，可使用黑、白、红三种颜色分别填充4个坐标位置处的单元格，有多种填充方式。如果在单元格中填充单一的某种颜色，或者在三种颜色中任意选择两种颜色随机地填充单元格，虽然获得的4元集合满足要求，但很显然，这对于求解参数τ⁰的意义不大。因此，需要充分使用三种颜色。由于共有4个坐标位置处的单元格需要被填充，所以某种颜色不可避免地会被使用两次。根据该颜色在4元集合中的位置关系，可分为以下两种情况进行讨论。

情况一，当两个相同颜色的单元格在4元集合中为对角关系时，如图3(a)～(b)所示，图中的一组方格代表一个4元集合，标有旗子的两个单元格表示用相同颜色进行填充。将该4元集合通过各坐标位置处的编码表示为一个编码串，该编码串在旋转时对S的影响通过距离给出的结果为(4，2，4)，将满足情况一的4元集合归为集合G₁之中。情况二，当两个相同颜色的单元格在4元集合中为相邻关系时，如图4(a)～(d)所示，计算出的汉明距离为(3，4，3)，将满足情况二的4元集合归为集合G₂之中。

如前所述，计算

即为求取阶数为n的标识所具有的最大自身距离，通过以上分析，将问题进行转化，对标识所具有的C个4元集合进行合理分配，即可求解。这是一个多目标优化问题，其中，每个集合Q_i都是可能的解，优化目标是使标识在每次旋转后与原始标识单元格间的距离都达到最大值。可观察到G₁和G₂中的元素支配着余下所有的解，因此G₁和G₂中的元素为Pareto解，这些解构成的集合即为Pareto front。问题得到简化，只需将G₁和G₂中的元素分配给一个标识的C个4元集合。

通过简单的分析可推断出，只要按照{G₂，G₂，G₁}的顺序从G₁和G₂中选择元素，循环不停地对标识进行4元集合的分配，直到分配完成即可获得

以最简单的2×2标识为例，其C＝1，从集合G₂中选择某一个元素为其分配，得到/>

对于一个3×3的标识而言，C＝2，两次均在集合G₂中选择元素为标识进行分配，获得/>

对于4×4的标识，C＝4，按照{G₂，G₂，G₁，G₂}的方式进行分配，获得/>

因此，对于具有C个4元集合的标识，推导可得

满足如下规律：

故在本文所提算法中，距离阈值的初始值应置为

在本实施例中，在步骤S4中，数串在每次迭代中被选中的概率为：

算法每次迭代时，数串的选择是基于随机过程的。该随机过程将大概率分配给位转换次数较多并且尚未添加到字典

中的标识；对于任一/>

定义其在每次迭代中被选中的概率为：

式(4)将数串w_i被选中的概率定义为两个函数的组合。第一个函数T(w_i)∈[0，1]，它与数串的位转换次数有关，定义如式(5)所示：

其中，

表示数串w_i的第j位，当/>

与/>

相等时，δ的值取为0，否则为1。随着位转换次数的增大，T(w_i)趋于1，随着位转换次数的减小，T(w_i)趋于0。举例来说，数串012112与020011对应的数值分别为T＝4/5和T＝3/5，与其位转换次数成比例。

另一方面，函数

与数串w_i出现在字典/>

中的频率有关。该函数被定义在区间[0，1]上，如式(6)所示：

式(6)中，双重累加求和运算统计了数串w_i出现在字典

中的次数，而分母表示字典/>

中所有数串的总和。因此，当w_i不在/>

中时，/>

取值为1，随着w_i在字典/>

中出现频次的增加，/>

的值趋于0。当算法进行第一次迭代时，字典/>

为空，满足

此时函数被定义为1，所有数串等可能地被选中。

因此，对于一个数串w_i而言，若其位转换次数较大，并且其在字典

中出现的频率较低，那么该数串被选中的概率P{w＝w_i}就比较大。

在本实施例中，在字典自动生成后，进一步包括彩色人工标识的检测，人工标识检测的主要目标是检测彩色人工标识所在的区域，并从中提取出标识的编码，具体包括以下步骤S6～S9：

步骤S6：获取彩色人工标识的边缘图像；将彩色人工标识图像转化为灰度图像，采用Canny边缘检测算法获取边缘图像。图5(a)为某次试验的原图，边缘检测效果如图5(b)所示。

步骤S7：对所述边缘图像进行轮廓提取并对提取的轮廓进行多边形近似处理以获取彩色人工标识所在的区域；采用Suzuki算法对边缘图像进行轮廓提取。该过程的执行会产生一系列的图像轮廓，如图5(c)所示，但大部分轮廓与最终目的无关。为过滤掉无关轮廓，只保留人工标识的轮廓，采用Douglas-Peucker算法对轮廓进行多边形近似，只有近似结果为方形的轮廓才会被保留下来。在多数情况下，一些边缘会产生内外两层轮廓，只保留外部的轮廓。最终获得的人工标识候选区域如图5(d)所示。

步骤S8：对所述彩色人工标识所在的区域进行编码提取；首先，对彩色人工标识所在的区域即候选区域进行透视矫正。然后，根据所要检测的字典，将透视变换后的图像划分为(n+2)×(n+2)的单元格，提取每个单元格中的颜色信息，根据颜色信息确定单元格的编码，如图6所示。在分析编码之前，首先判断黑色的边界框是否存在。

步骤S9：在所述字典中搜索所述编码。一旦提取了候选标识的编码，则获得了4个不同的编码表示符，分别对应4种不同的旋转情况。若在字典中搜索到其中任意一个，则将该候选标识视为有效标识。

在本实施例中，在步骤S9中，若所述字典中不存在与所述编码匹配的标识编码，则计算错误标识与字典中所有标识元素之间的汉明距离

如果汉明距离不大于

则字典中与该错误标识距离最小的标识元素为纠正后的标识。考虑到字典

中任意两个标识之间的最小距离为/>

因此最多可纠正/>

个单元格的检测错误，相比于传统人工标识系统具有明显优势。采用更大阶数的人工标识将进一步增强字典的纠错能力。该过程的线性复杂度达到了/>

因为候选单元格每次旋转后所对应的编码都必须与整个字典进行比较。不过，由于该过程是一个高度可并行化的过程，在计算机中可以有效实现。

在本实施例中，，彩色人工标识的检测完成后，进一步包括基于彩色人工标识的位姿估计，具体包括以下步骤：

步骤S10：指定彩色人工标识所在的平面为世界坐标系中Z_w＝0的平面，坐标系原点指定为标识的中心；则标识的任一顶点P的世界坐标为(X_w，Y_w，0)。

姿态估计问题是确定某一三维目标物体的方位指向问题，求解该问题的基础是找到世界坐标系与像素坐标系之间的对应点。而本文所采用的方形人工标识提供了求解相机位姿的4组对应点，即标识的4个顶点。

将标识上的点投影到图像上时，会涉及到以下几个坐标系之间的转换：标识世界坐标系、摄像机坐标系、像平面坐标系以及像素坐标系。成像过程如图7所示。图中，标识世界坐标系通过X_w，Y_w，Z_w三个坐标轴描述，O点表示摄像机光心，z轴为摄像机光轴，O-xyz为摄像机坐标系，OO₁表示摄像机焦距，P表示人工标识的某一顶点，其在像平面上的投影点为点p。

使用齐次坐标，对成像过程进行数学描述，可得下式(13)：

其中，(X_w，Y_w，Z_w)为空间点P的世界坐标；Z_c为摄像机坐标系下的Z坐标；(u，v)表示点p的像素坐标；R、T分别表示旋转矩阵和平移向量，由世界坐标系与摄像机坐标系间的相对位置决定；f为相机焦距；dx，dy为离散化的单位长度；(u₀，v₀)表示O₁在像素坐标系下的坐标。

标识上任一顶点P的世界坐标为(X_w，Y_w，0)，因此令式(13)中的Z_w＝0，可得：

式(14)中：H是3×3的平面单应性矩阵。

H＝[h₁ h₂ h₃] (15)

根据式(14)，可得：

[h₁ h₂ h₃]＝λK[r₁ r₂ t] (16)

式(16)中：λ为一任意常数。

单应性矩阵H是一个齐次矩阵，有8个未知数需要求解，至少需要提供8个方程。根据人工标识提供的4组对应点，采用levenberg一marquardt算法对平面单应性矩阵进行求解，可获得相机位姿。

使用相机标定算法获得相机内参数后，旋转向量与平移向量可通过下式计算得出：

式(17)中，旋转矩阵R＝[r₁ r₂ r₃]，单应矩阵H＝[h₁ h₂ h₃]。

根据求解获得的旋转矩阵与平移向量，将固连在人工标识上的三维坐标系绘制出来，结果如图8所示。

在VS2015环境下，以OpenGL为渲染工具，在获得相机内外参后，将一个立方体模型注册到人工标识上，实现了简单的增强现实，如图9所示。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。