CN111783877B

CN111783877B - 基于单帧网格复合编码模板结构光的深度信息测量方法

Info

Publication number: CN111783877B
Application number: CN202010611584.1A
Authority: CN
Inventors: 李甫; 尚旭东; 张天娇; 牛毅; 李泉录; 石光明
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-08-01
Anticipated expiration: 2040-06-30
Also published as: CN111783877A

Abstract

本发明公开了一种基于单帧网格复合编码模板结构光的深度信息测量方法，主要解决现有技术深度信息获取精度低的问题。其方案为：设计网格复合模板P；获取场景调制后的图像I并对其进行预处理，得到仅包含横线条的变形图像I₂和仅包含竖线条的图像I'₂；对这两个图像I₂和I'₂进行精提取，得到具有网格线精确位置信息和图形特征的图像I₃；对该图像I₃和模板P进行解码得到码值序列；在码值序列中寻找模板P与图像I₃的匹配线条对；依据线条匹配关系，计算目标场景中的深度信息值Z。本发明设计的模板高鲁棒性、空间分辨率好，实现深度获取的精度高，可用于逆向工程、人机交互、自动驾驶、虚拟现实及现实增强。

Description

基于单帧网格复合编码模板结构光的深度信息测量方法

技术领域

本发明属于计算机视觉测量技术领域，特别涉及一种深度信息测量方法，可用于逆向工程、人机交互、自动驾驶、虚拟现实及现实增强。

背景技术

随着计算机视觉的不断发展，针对传统成像仪器只能采集二维平面信息的问题，3D成像技术以其可以增强对外界复杂事物的感知和理解能力的优势，得到了越来越广泛的应用。而如何从场景中快速、高效的获取三维深度信息也成为了当前研究的热点。

到目前为止，已有大量的深度感知技术被研究和应用。深度获取的方法按照是否接触物体，主要分为接触式和非接触式两大类。接触式测量由于直接与待测物体接触，具有很高的测量精度，在逆向工程和工业检测等领域已经有很长时间的应用。但该技术存在性能慢、使用成本高的缺点。此外，实际目标物体并不都是可以接触的，且这种测量方式易对物体造成损坏。于是，非接触式测量得到了人们的广泛关注。非接触式测量在不接触被测量物体的前提下,利用影像分析模型来获取被测物体的深度信息。又可将非接触式方法分为主动式和被动式两类。被动式不使用任何其他能量,而是通过获取外界光源的反射来进行三维测量，如立体视觉法、阴影测量法等，其中应用最广泛的就是立体视觉法，该方法采用多个相机多角度对同一场景进行拍摄，通过多幅图像之间的匹配获取深度信息。主动式需要向场景中发射结构光源,然后提取光源在场景中的投影信息来检测目标位置并进行测量。常见的方法有飞行时间法、结构光法、激光扫描法，其中结构光法由于其实现原理简单、测量精度、分辨率高，以及鲁棒性好等特点而被广泛研究和应用。

结构光测量法是通过将一幅或多幅编码模板投影到测量场景中,并在与投影方向成一定角度的位置用摄像机摄取场景的投影图像,然后通过对投影图像与编码图案对应点的匹配,利用三角测量法获取场景的三维深度信息。其中模板的编码方法将直接影响系统的精度和效率，是结构光法测量深度的核心技术和研究重点之一。根据模板的编码方式可分为时间编码和空间编码，其中：

时间编码法是向待测场景中投射多张编码模板，借助模板中每个像素点的灰度值或颜色信息，并依照模板投射的先后顺序对场景中每个像素点形成唯一编码值，利用唯一码值进行模板匹配，辅助获得场景深度信息。常见的时间编码法有相移法、二值法和n值编码。这些方法具有易于实现、空间分辨率高、3D测量精度高的优点。但这类方法在测量过程中需投影多幅图案，因而只适用于静态场景测量。

空间编码的特点是投影图案只有1幅,图案中每点的码字根据其周围邻近点的信息如像素值、颜色或几何形状等得到。空间编码适用于动态场景三维信息的获取,但在解码阶段,空间邻域信息的丢失会导致误差的产生，易造成精度降低、空间分辨率低的问题。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于单帧网格复合编码模板结构光的深度信息测量方法，以在不增加设备复杂性以及计算复杂性的基础下，生成高鲁棒性的模板，提高动态场景深度值的获取精度。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)设计单帧网格复合编码模板P：

(1a)获取黑色背景模板，并在模板上生成等间距的白色横线和竖线，产生具有m×n网格数量的模板I₁；

(1b)生成由数字码元组成的在二维空间内码值唯一、并具有高汉明距离的码表，设计与数字码元相对应的图形码元，图形码元大小须小于网格大小；

(1c)从码表中选取m×n个码元，按照从左到右、从上到下的顺序，将其映射到模板I₁的m×n个对应网格中，并将码元用已经设定好的对应图形码元替代，得到网格复合编码模板P；

(2)将投影仪T与摄像机V按照对角方向的45°放置，并使两者光轴互相平行，用投影仪T将所述的网格复合编码模板P投射到目标场景中，通过摄像机V对该场景进行拍摄，获得经场景调制后的变形图像I；

(3)对场景调制后的变形图像I进行校正和删除特征的预处理，得到仅包含横线条的变形图像I₂和仅包含竖线条的变形图像I'₂；

(4)对(3)获得的两个变形图像I₂、I'₂进行线条精提取处理，获得具有网格线精确位置信息和图形特征的变形图像I₃；

(5)采用深度学习网络模型，对具有网格线精确位置信息和图形特征的变形图像I₃和编码模板P中的图形特征进行识别分类，得到图形特征解码后的数字码元；再以网格交叉点右下方的数字码元作为起始码元，采用3×3的滑窗，将窗内的数字码元依次连接，构成该网格交叉点的序列码值；

(6)将所述变形图像I₃和编码模板P中的每条水平线条和竖直线条按照从上到下、从左到右的顺序进行排序，寻找编码模板P与所述变形图像I₃中具有相同码值数最多的线条匹配对；

(7)依据线面交原理和(6)中得到的网格线条匹配关系，计算目标场景中的深度信息值Z。

本发明与现有技术相比具有以下优点：

第一，本发明设计了一种有高汉明距离的码表，基于这种码表生成了高鲁棒性的单帧网格复合模板，由于码表的高汉明距离性以及网格线条的鲁棒性，使得该模板在抗干扰和噪声方面有着优秀表现，故而降低了解码错误率，有利于提高深度信息获取的精度；

第二，本发明借助深度学习网络能够充分利用并提取图像的多维特征的特点，并采用深度学习网络模型对形变的图形码元进行识别分类，其识别准确率相比传统方法有了极大的提高，因而在降低误匹配概率方面有了良好改善，进一步提高了深度测量的精度。

附图说明

图1为本发明的实现总流程图；

图2为本发明中生成的复合网格模板示意图；

图3为本发明中生成码表的子流程图；

图4为本发明中设计的图形码元示意图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明基于单帧网格复合编码模板结构光的深度信息测量方法，其实现步骤如下：

步骤1、设计单帧网格复合编码模板P。

(1.1)获取黑色背景模板，并在该模板上生成等间距的白色横线和竖线，产生具有m×n个网格数量的模板。本实施例中，根据实验使用的投影仪的分辨率，利用计算机生成一个大小为1140×912分辨率的黑色背景模板，在黑色模板上分别施画间距为32的横线条和施画间距为16竖线条，生成32×16大小的网格单元，形成网格模板W；

(1.2)生成由数字码元组成的码表，该码表在二维空间内码值唯一，且具有高汉明距离：

参照图3，在本实例中，选取4个数字码元，码值序列长度为9，设定最小汉明距离为3，则最多可生成的码值序列数量为16384个，最终设计生成尺寸为64×64的码表，满足16384个的数量限制，具体实现步骤如下：

(1.2.1)生成标志位存储表，存储所有16384个码元序列的当前状态，即将没有被使用的码元记为0，使用过的码元记为1；

(1.2.2)预先生成一张空白的64×64码表，从码表的起始位置开始，随机从4个数字码元中选取码元插入，每次插入码元后，检查相应码元序列在存储表中的状态：

如果该码元序列没被使用过且满足汉明距离大于3的要求，则继续向前随机插入码元；

否则，重新更换插入的码元，并采用深度优先搜索策略对已编码的码表空间进行逐个修正，直到符合条件为止；

(1.2.3)重复上述(1.2.2)直到将预设的64×64的码表填满，得到所需码表；

(1.3)设计4个数字码元所对应的图形码元，即设计了4个方向不同的斜“T”字型结构，依次对应数字码元1、2、3、4，如图4所示；

(1.4)从码表中选取m×n个码元，按照从左到右、从上到下的顺序，将其映射到模板W的m×n个对应网格中，并将数字码元用已经设定好的对应图形码元替代，得到网格复合编码模板P，如图2所示。

步骤2、获得经场景调制后的变形图像I。

先将投影仪T与摄像机V按照对角方向的45°放置，并使两者光轴互相平行；再用投影仪T将网格复合编码模板P投射到目标场景中，通过摄像机V对该场景进行拍摄，得到经场景调制后的变形图像I，简称为第一变形图像I。

步骤3、对场景调制后的变形图像I进行校正和删除特征的预处理，得到仅包含横线条的变形图像I₂和仅包含竖线条的变形图像I'₂。

(3.1)采用顶帽变换对图像背景的不均匀亮度进行校正，得到校正后的图像：f(I)＝I-Iοb，其中，ο表示形态学开操作，b是顶帽变换中的平坦结构单元，在本实例中平坦结构单元大小取11或13；

(3.2)设置大于一个网格大小的分块区域，对校正后的图像f(I)进行自适应区域二值化操作得到二值图像，本实例中先将变形图像I分成大小为50×50的图像块，将图像块内的灰度均值作为阈值，再进行二值化操作得到二值图像；

(3.3)对得到的二值图像分别在水平方向、垂直方向进行形态学开操作，以删除图像中的图形特征，得到仅包含横线条的变形图像I₂和仅包含竖线条的变形图像I'₂，简称为第二变形图像I₂和第三变形图像I'₂。

步骤4、对两个变形图像I₂、I'₂进行线条精提取处理，获得具有网格线精确位置信息和图形特征的变形图像I₃。

(4.1)分别对第二变形图像I₂取其在横向的梯度值、对第三变形图像I'₂取其在竖向的梯度值，并保留各自梯度值最大处为精提取的候选点，以生成初始的横线条和竖线条；

(4.2)以初始的横线条和竖线条为基准，分别建立第二、三变形图像I₂、I'₂中横线、竖线的能量函数y：

式中，λ是调节线段平滑程度的系数，本实例中λ值取0.1，y表示每条线条上包含的所有像素的向量，y₀为初始线条，表示矩阵的二范数，H为采样矩阵，D为差分矩阵，分别定义如下：

式中，p(x_i,y_i)为位于图像(x_i,y_i)处的像素灰度值，掩码为初始线条y₀；

(4.3)对能量函数y进行二次优化，得到优化后的函数y'：

y'＝(λH^TH+D^TD)^-1λH^Ty₀

式中，H^T、D^T分别代表对应矩阵的转置；

(4.4)根据(4.3)的优化式，解出y'矩阵，矩阵内的参数即为最后线条精提取后的网格线坐标，将坐标点映射到空白图像中，得到具有精细网格线的图像C；

(4.5)根据第一变形图像I、第二变形图像I₂、第三变形图像I'₂，计算仅具有图形特征的图像M：

M＝I-(I₂+I'₂)，

(4.6)将网格线图像C和仅具有图形特征的图像M进行叠加，得到具有网格线精确位置信息和图形特征的变形图像，简称为第四变形图像I₃：

I₃＝C+M。

步骤5、采用深度学习网络模型，对第四变形图像I₃和编码模板P进行解码，并对解码后的码元进行滑窗处理，得到每个网格交叉点的序列码值。

所述深度学习网络模型，包括DenseNet、VGGNet、AlexNet、GoogLeNet分类网络模型，本实例采用但不限于DenseNet深度学习网络模型，该网络模型由三个Dense Block模块和两个Transition Layer模块构成：前两个Dense Block模块后各自接一个TransitionLayer模块，最后一个Dense Block模块后连接一个池化层和一个全连接层，进而通过全连接层输出分类结果。其中，每个Dense Block模块中依次由归一化层、激活层、卷积层构成，且每层都与前面的所有层进行连接；每个Transition Layer模块由卷积层和池化层组成。

本步骤的具体实现如下：

(5.1)制作4种图形码元在不同场景下的数据集。本实例中将每种码元顺次投射到不同场景中，对每种码元拍摄2500张不同场景下的图片，共制作了10000张图片数据集；

(5.2)将图片数据集按照0.8的比例划分为训练集和测试集；

(5.3)利用训练集对DenseNet网络模型进行训练，并利用测试集对当前训练好的网络模型进行测试；

(5.4)判断测试结果的分类识别准确率是否达96％以上，若是，则执行(5.5)，否则，返回(5.3)，直到准确率达到96％以上，得到最终训练好的网络模型；

(5.5)利用最终训练好的网络模型，对第四变形图像I₃和编码模板P中的图形特征进行识别，得到解码后的数字码元；

(5.6)以每个网格交叉点右下方的数字码元作为起始码元，采用3×3的滑窗，将窗内的数字码元依次连接，得到每个网格交叉点的序列码值。

步骤6、寻找线条匹配对。

先将第四变形图像I₃和编码模板P中的每条水平线条和竖直线条按照从上到下、从左到右的顺序进行排序；

再在该排序中寻找编码模板P与第四变形图像I₃中具有相同码值数最多的线条，作为线条匹配对。

步骤7、根据步骤6得到的线条匹配关系，计算目标场景中的深度信息值Z。

本步骤的计算是依据线面交原理进行，具体实现如下：

(7.1)取第四变形图像I₃中的任意一个网格点X；

(7.2)以摄像机坐标系为参考坐标系，设摄像机光心坐标为(0,0,0)，将投影仪光心在摄像机坐标系下的坐标记为(x_o,y_o,z_o)；

(7.3)将上述网格点X在摄像机坐标系下的坐标记为(x_c,y_c,1)，将网格点X在编码模板P中的匹配点在摄像机坐标系下的坐标记为(x_p,y_p,1)；

(7.4)将经过投影仪光心(x_o,y_o,z_o)和编码模板P中匹配点(x_p,y_p,1)的竖直平面法向量记为(A,B,C)，通过下式计算得到第四变形图像I₃中网格点X的坐标(x_c,y_c,1)深度值Z：

式中，A、B、C分别为竖直平面法向量在x、y、z方向上的坐标点。

以上描述仅是本发明的一个具体事例，并不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于单帧网格复合编码模板结构光的深度信息测量方法，其特征在于，包括如下步骤：

(1)设计单帧网格复合编码模板P：

(1a)获取黑色背景模板，并在模板上生成等间距的白色横线和竖线，产生具有m×n个网格数量的模板I₁；

2.根据权利要求1所述的方法，其中(3)中对场景调制后的变形图像I进行校正和删除特征的预处理，实现如下：

(3a)采用顶帽变换对图像背景的不均匀亮度进行校正，得到校正后的图像：其中，/>表示形态学开操作，b是顶帽变换中的平坦结构单元；

(3b)设置大于一个网格大小的分块区域，对校正后的图像f(I)进行自适应区域二值化操作得到的二值图像，对该二值图像分别在水平方向、垂直方向进行形态学开操作，以删除图像中的图形特征，得到仅包含横线条的变形图像I₂和仅包含竖线条的变形图像I'₂。

3.根据权利要求1所述的方法，其中(4)中对(3)获得的两个变形图像I₂、I'₂进行线条精提取处理，实现如下：

(4a)根据(3)获得的两个变形图像I₂、I'₂中的每条网格线建立能量函数，并将线条中亮度极大值点作为精确提取位置，再对该能量函数进行二次优化得到每条网格线上各像素点的坐标；

(4b)将提取得到的网格线的坐标赋予到变形图像f(I)对应网格线上，得到包含网格线位置信息和图形特征的变形图像I₃。

4.根据权利要求1所述的方法，其步骤(1b)中生成由数字码元组成的在二维空间内码值唯一且有高汉明距离的码表，实现如下：

(1b1)设定码元数量C、码元序列长度M和最小汉明距离H_min，确定可构成码元序列的最大数量N，其中，

(1b2)生成标志位存储表，存储所有N个码元序列的当前状态，即将没有被使用的码元记为0，使用过的码元记为1；

(1b3)预先生成一张空白码表，从码表的起始位置开始，随机从数字码元中选取码元插入，每次插入码元后，检查相应码元序列在存储表中的状态：

如果该码元序列没被使用过且满足设定的汉明距离要求，则继续向前随机插入码元；

(1b4)重复上述(1b3)直到将预设的空白码表填满，得到所需码表。

5.根据权利要求3所述的方法，其中(4a)中根据(3)获得的两个变形图像I₂、I'₂中的每条网格线建立能量函数，实现如下：

(4a1)对(3)所述的两个变形图像I₂、I'₂分别求取在横向、竖向的梯度值，并保留梯度值最大处为精提取的候选点，以生成初始的横线条和竖线条；

(4a2)以初始的横线条和竖线条为基准，分别建立(3)所述的变形图像I₂、I'₂中横线、竖线的能量函数y：

式中，λ是调节线段平滑程度的系数，y表示每条线条上包含的所有像素的向量，y₀为初始线条，表示矩阵的二范数，H为采样矩阵，D为差分矩阵，分别定义如下：

式中，p(x_i,y_i)为位于图像(x_i,y_i)处的像素灰度值，掩码为初始线条y₀。

6.根据权利要求3所述的方法，其中(4a)中对能量函数y进行二次优化，通过下式进行：

y'＝(λH^TH+D^TD)^-1λH^Ty₀

式中，H^T、D^T分别代表对应矩阵的转置，y'则是对能量函数优化后的结果，根据该优化式，解出y'矩阵，矩阵内的参数便是最后线条精提取后的网格线坐标。

7.根据权利要求1所述的方法，其中步骤(7)中计算目标场景中的深度信息值Z，实现如下：

(7a)取(4)所得变形图像I₃中的任意一个网格点X；

(7b)以摄像机坐标系为参考坐标系，摄像机光心坐标为(0,0,0)，将投影仪光心在摄像机坐标系下的坐标记为(x_o,y_o,z_o)；

(7c)将上述网格点X在摄像机坐标系下的坐标记为(x_c,y_c,1)，将网格点X在编码模板P中的匹配点在摄像机坐标系下的坐标记为(x_p,y_p,1)；

(7d)将经过投影仪光心(x_o,y_o,z_o)和编码模板P中匹配点(x_p,y_p,1)的竖直平面法向量记为(A,B,C)，通过下式计算得到(4)所得变形图像I₃中网格点X的坐标(x_c,y_c,1)深度值Z：

8.根据权利要求1所述的方法，其中(5)中采用的深度学习网络模型，包括DenseNet、VGGNet、AlexNet、GoogLeNet分类网络模型，用以对图形特征进行识别分类。