CN110349209A

CN110349209A - 基于双目视觉的振捣棒定位方法

Info

Publication number: CN110349209A
Application number: CN201910351691.2A
Authority: CN
Inventors: 李波; 丁霞; 贺润润; 杨江骅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-10-18

Abstract

本发明公开的基于双目视觉的振捣棒定位方法，使用深度学习解决了目标检测和视差估计问题，一方面提高了振捣棒检测精度和速度，另一方面将双目立体匹配过程简化成端到端过程，为振捣棒实时、快速、准确定位提供了重要技术支撑，本发明通过自适应聚类算法确定了振捣点的二维位置和振捣时间，利用双目视觉技术将二维坐标转换成世界坐标，实现了振捣棒的绝对定位。本发明提供的基于双目视觉的振捣棒定位方法，解决了振捣工作质量监测问题，让质量监测环节更加智能、高效。

Description

基于双目视觉的振捣棒定位方法

技术领域

本发明涉及计算机视觉及建筑工地目标检测领域，具体涉及一种基于双目视觉的振捣棒定位方法。

背景技术

在建筑工地施工现场，使用插入式振捣棒对混凝土振捣可以消除混凝土中气泡、进行捣固。为了保证振捣工作的质量，需要实时监测振捣间距与振捣时间，则实时获取振捣棒的工作位置就显得非常重要。传统基于人工的监测，存在着很多的不可靠因素。随着科技的进步，有研究人员提出了基于GPS的振捣棒定位方法和基于激光三维定位振捣棒的方法，但这些方法在设备部署过程较复杂、成本较高。

因此，为减轻工作人员的劳动强度和加强振捣质量的监测力度，有必要研究出一种通过双目摄像机来自动定位振捣棒的视觉定位系统具有重要的意义。

发明内容

针对现有技术中存在的问题，本发明提供一种基于双目视觉的振捣棒定位方法，实现了振捣棒的绝对定位，解决了振捣工作质量监测问题。

本发明是通过以下技术方案来实现：

基于双目视觉的振捣棒定位方法，包括以下步骤：

步骤1、标定双目相机，获得相机的内外参数M；

步骤2、根据标定好的双目相机采集混凝土振捣图像，并对振捣图像进行处理，分别得到振捣棒检测数据集和视差估计数据集；

步骤3、根据步骤2得到的振捣棒检测数据集对SSD网络模型进行训练，得到振捣棒检测模型；

步骤4、基于无监督的深度学习构建视差估计模型，并根据步骤2得到的视差估计数据集进行模型训练；

步骤5、采用标定好的双目相机录制混凝土振捣视频，利用步骤3训练好的振捣棒检测模型对振捣视频进行检测，获得视频中每一帧的标记左二维回归框的左图像和标记右二维回归框的右图像；

步骤6、利用自适应聚类算法处理步骤5中的左二维回归框中心点坐标，得到每个振捣点的位置和每个振捣点所对应的视频帧数；

步骤7、根据步骤6得到的视频帧数，结合步骤4视差估计模型估计左图像和右图像对应的视差图、步骤1得到的相机内外参数M和步骤5中得到的左二维回归框的中心点坐标，得到每个振捣点的振捣棒三维坐标信息。

优选的，所述的步骤2中的采集的振捣图像处理包括以下步骤：

S1、利用标定好的双目相机采集N对原始振捣图像，每对原始振捣图像包括一张左图像和一张右图像，将N对原始振捣图像复制成两份，其中一份作为原始的振捣棒检测数据集，另一份作为原始的视差估计数据集；

S2、对原始的振捣棒检测数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理，然后用数据标注工具labelImg对增强后的振捣图像进行数据标注，得到振捣棒检测数据集；

S3、对原始的视差估计数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理，处理过程中需保证对每一对原始振捣图像中的左图像和右图像执行相同的数据增强处理，数据增强处理完成后得到视差估计数据集。

优选的，所述步骤3中SSD网络模型的结构如下：

SSD网络模型包括基础网络部分、金字塔网络部分和输出检测值部分；

基础网络部分，用于接收振捣棒检测数据集中的训练集数据，并利用VGG-16的前四层CNN网络提取底层特征图；

金字塔网络部分，根据特征图产生k个先验框，不同特征图上的先验框数不同，同一特征图上的先验框数相同；

输出检测值部分，根据先验框预测边界框的类别得分和位置偏移信息,输出检测结果。

优选的，采用最小化误差函数L训练SSD网络模型，通过后向传播策略更新模型参数，得到振捣棒检测模型；

最小化误差函数L如下：

其中，N为先验框的正样本数量，x为输入的图像，c为类别得分预测值，l为位置预测值，g是真实值的位置参数，权重项α在交叉验证的时候设置为1，L_conf为类别误差，L_loc为位置误差；

0.5x² if|x|＜1

其中，cx、cy为先验框中心点的横、纵坐标，w、h分别为先验框的宽和高，d为先验框，g为真实框，i为第i个先验框，j代表第j个真实框，p为第p类。

优选的，所述步骤4中视差估计模型包括两个结构相同的视差估计网络，分别为右图像视差估计网络和左图像视差估计网络；

视差估计网络包括输入部分、卷积部分、视差估计部分、采样部分和输出部分；

两个视差估计网络的输入部分，分别用于接收每对振捣图像中的左图像Il和右图像Il；

两个视差估计网络的卷积部分，分别通过CNN分别提取左图像Il和右图像的特征图Il；

左图像视差估计网络的视差估计部分，根据左图像的特征图估计出与其对应的右图像视差图dr1和左网络的左图像视差图dl1；

右图像视差估计网络的视差估计部分，根据右图像的特征图估计出与其对应的右图像视差图dr2和左图像视差图dl2；

左图像视差估计网络的采样部分，采集左图像Il、右图像视差图dr1、右图像Ir和左图像视差图dl1；

右图像视差估计网络的采样部分，采集左图像Il、右图像视差图dr2、右输入图像Il和左图像视差图dl2进行采样；

两个视差估计网络的输出部分，分别根据几何约束条件，对对应采样结果进行重建，得到左图像视差估计网络的右图像和左图像以及右图像视差估计网络的右图像和左图像

优选的，所述采用损失函数C_S对视差估计模型进行训练；

损失函数C_S包括左图像视差估计网络的损失函数C_Sl和右图像视差估计网络的损失函数C_Sr；

C_S＝C_Sl+C_Sr

其中，C_ap为重建损失，C_ds为局部平滑损失，C_lr为左右差异一致损失，l为左图像，r为右图像；

其中，N代表图像像素个数，I_ij和分别代表在原图像I和重建图像在(i,j)处的像素；

其中，为视差梯度；

优选的，步骤6中采用自适应聚类算法对每一帧中采集的左二维回归框中心点坐标进行聚类，得到的类簇个数，每个类簇中心点为振捣点坐标，每个簇的样本个数为每个振捣点对应的帧数，进而得到振捣点坐标和每个振捣点所对应的视频帧数。

优选的，所述的步骤7中获得振捣棒的三维坐标信息的方法如下：

首先，根据双目相机的投影模型得到图像像素坐标与三维世界坐标的转换方程，如下；

其中，f为焦距，R为旋转矩阵，t为平移矩阵，Z_C为深度值，(u,v)为图像像素坐标；(u₀,v₀)为摄像机光轴与图像平面的交点处的坐标；(X，Y，Z)为世界坐标；

根据双目相机的几何模型，得到深度值Zc；

其中，b为双目相机的基线，d为视差值；

然后，根据步骤5得到标记左二维回归框的左图像和标记右二维回归框的右图像以及步骤6的视频帧数，输入相应帧数下的左图像和右图像至视差估计模型，视差估计模型输出左右图像对应的视差图，将左二维回归框中心点处对应的视差值带入双目相机几何模型，得到深度值Zc；

最后，将步骤1的相机内外参数M、步骤5的左二维回归框中心点坐标(u,v)以及深度值Zc带入转换方程中，得到每个振捣点处的振捣棒三维坐标。

与现有技术相比，本发明具有以下有益的技术效果：

附图说明

图1为本发明的方法流程图；

图2为本发明双目相机的标定图；

图3为本发明振捣棒定位示意图；

图4为本发明基于深度学习进行视差估计的神经网络结构图；

图5为本发明视差估计网络模型的损失模块；

图6为本发明摄像机四个坐标系间的关系图；

图7为本发明双目视觉的几何模型图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

如图1所示，基于双目视觉的振捣棒定位方法，包括以下步骤：

步骤1、标定双目相机，获得相机的内外参数M。

双目相机标定是为了寻找图像平面某一点与三维场景间的位置关系，是目标定位的基础工作之一，标定参数的准确程度直接影响整个系统的定位精度。

双目相机的标定过程如图2所示，本发明采用张正友摄像机标定法实现标定任务，双目相机采用LenaCV超高速USB3.0双目视觉相机，采用PCB板固定两个相机来保证光轴的绝对平行，并且拼接双目图像为一帧图像后输出。双目相机通过标定得到每个相机的焦距、畸变系数、成像原点内部参数，以及左右相机间的相对位置关系，即平移参数和旋转参数，即相机的内外参数M。

步骤2、根据标定好的双目相机采集混凝土振捣图像，并对振捣图像进行处理，得到振捣棒检测数据集和视差估计数据集。

根据图3所示，灰色区域为振捣区域，每一个点代表振捣点，其世界坐标下的位置为(x,y,z)，两个振捣点之间的距离为振捣间距。

首先，利用标定好的双目相机在混凝土振捣现场采集三千幅原始振捣图像(一千五百幅左图像和一千五百幅右图像)，复制成两份，其中一份作为原始的振捣棒检测数据集，另一份作为原始的视差估计数据集。

其次，通过对原始的振捣棒检测数据集进行翻转、缩放、平移、颜色变化和高斯噪声实现数据增强。用数据标注工具labelImg对增强后的振捣图像进行数据标注，得到振捣棒检测数据集。

最后，对原始的视差估计数据集也进行相同的数据增强处理，但是对于每一对图像(左图像和右图像)，要执行相同的操作以保证左右图像位置一致。为了有效地降低立体匹配的计算复杂性，要分别对左右视图进行消除畸变和行对准，使得左右视图的左右成像平面共面以及对极线行对齐，即摄像机校正。由此，得到视差估计数据集。

步骤3、基于SSD目标检测算法构建振捣棒检测模型，并根据步骤2得到的振捣棒检测数据集进行模型训练；

3.1建立数据集

为了优化和检验振捣棒检测模型的训练效果，将步骤2得到的目标检测数据集分成训练集、验证集和测试集。

其中，训练集用于训练振捣棒检测模型而获得权值参数，验证集用于反馈模型和参数的训练效果，测试集用于估计模型的检测精度。

3.2构建振捣棒检测模型

由于混凝土振捣过程振捣棒的检测定位必须满足实时性和精确性的要求，通过比较与分析各目标检测算法发现，SSD目标检测算法更适合解决振捣棒检测问题。因此，振捣棒检测模型使用SSD网络模型。该模型由两部分组成：基础网络和金字塔网络。该模型的结构如下：

第一，基础网络部分。输入振捣棒检测图像，利用VGG-16的前四层CNN网络提取底层特征图。

第二，金字塔网络部分。对不同尺度特征图上的每个单元，生成k个先验框(default box)。其中，不同特征图上的先验框数不同，但同一特征图上的先验框数相同。

第三，输出检测值部分。由先验框预测边界框的类别得分和位置偏移信息,输出检测结果。

3.3训练模型

振捣棒检测模型通过最小化误差函数L来训练模型，通过后向传播策略更新模型参数。

误差函数L的计算公式主要由两部分构成，分别为反映目标类别的类别误差L_conf及反映目标位置的位置误差L_loc。

训练误差函数L的计算公式如下：

式子(1)中的N为先验框的正样本数量，x为输入的图像，c为类别得分预测值，l为位置预测值，g是真实值的位置参数，权重项α在交叉验证的时候设置为1。

其中，正样本N通过寻找与真实框匹配的先验框得到，匹配原则为：第一，对于图片中每个真实框，与其IOU值最大的先验框；第二，对于剩余的未匹配先验框，若某个真实框的IOU大于某个阈值(一般是0.5)，那么该先验框也与这个真实框匹配。

对于类别误差L_conf，采用softmax方法：

而对于位置误差L_loc，采用smooth_L1方法：

其中，cx、cy为先验框中心点的横、纵坐标，w、h分别为先验框的宽和高。

3.4测试模型

在振捣棒检测网络模型训练完成之后，输入3.1中的振捣棒检测测试集，输出标有二维回归框的图像，回归框中的目标类别是振捣棒。根据模型的预测值和真实值，评估模型的性能，评估方式有精确度和召回率。

4.1、建立数据集

同3.1，将步骤2中处理好的视差估计数据集分成训练集、验证集和测试集。

4.2、构建视差估计模型

基于深度学习的无监督视差估计借鉴Godard等人提出的左右视差一致性原理。由于Godard等人是为了解决无监督情况下单目深度估计问题而提出的左右视差一致性方法，因此他们的网络只输入左或右图像，输出左或右图像的视差图。为了充分利用左右图像的信息、输出精度更高的视差图，本发明在他们的网络结构的基础上，加入了右图像的视差估计网络(以下把左图像的视差估计网络简称左网络，右图像的视差估计网络简称右网络)。

如图4所示，左图像和右图像的网络结构一致，都由五部分组成：

第一，输入部分。左网络输入左图像Il，右网络输入右图像Ir。

第二，卷积部分。左、右网络通过CNN分别提取左图像和右图像的特征图。

第三，视差估计部分。左网络和右网络根据对应的特征图，分别估计出左网络的右图像视差图dr1和左网络的左图像视差图dl1，以及右网络的右图像视差图dr2和右网络的左图像视差图dl2。

第四，采样部分。

左网络的采样部分对左输入图像Il和视差图dr1进行采样、对右输入图像Ir和视差图dl1进行采样；

右网络的采样部分对左输入图像Il和视差图dr2进行采样、对右输入图像Ir和视差图dl2进行采样。

第五，输出部分。根据几何约束条件，对采样结果进行重建，得到左网络的右图像和左图像以及右网络的右图像和左图像

其中，图像的重建原理为视差值的概念定义，即视差＝(左图像像素位置xl)-(与左图像匹配的右图像像素位置xr)。

4.3训练模型

基于深度学习的无监督视差估计模型采用端对端的训练方式，训练损失模块如图5所示。总的损失模块C_S包含左视图损失模块C_Sl和右视图损失模块C_Sr，损失值结合了重建损失C_ap、局部平滑损失C_ds和左右差异一致损失C_lr。损失函数C_S的表达式如下：

C_S＝C_Sl+C_Sr (4)

其中，每个损失模块的每个项包含左图像损失变量和右图像损失变量，有关每个损失模块中左图像损失变量的C_ap、C_ds和C_lr的表达及说明如下(右图像损失变量类似如下)：

式子(7)中使用L1范式和单尺度SSIM项的组合作为图像重建成本，其中，N代表图像像素个数，I_ij和分别代表在原图像I和重建图像在(i,j)处的像素。

公式9和10中对视差梯度进行L1范式的惩罚，因为深度不连续性经常发生在图像梯度上。故使用图像梯度对边缘感知项加权，实现视差局部平滑。

公式11和12引入左右视差一致性惩罚作为损失模型的一部分，试图使左视差视图等于投影的右视差视图。

(4.4)测试模型

在视差估计模型训练完成之后，用带有深度图G的公有数据集KITTI来测试网络模型的性能。输入KITTI双目图像之后，输出视差图d。根据深度值Zc＝b*f/d，即可求出深度图Zc，其中b为双目相机基线值，f为相机焦距。

常见的评估指标有绝对相对差(Abs Rel)、平方相对差(Sq Rel)或均方根误差(RMSE)等，具体公式如以下的公式13、14和15所示：

具体方法如下，利用步骤1中标定好的相机，现场录制混凝土振捣视频。遍历视频的每一帧，用步骤3训练好的振捣棒检测模型检测左图像和右图像中的振捣棒，得到标记左二维回归框的左图像和标记右二维回归框的右图像，保存左二维回归框的中心点坐标，作为聚类算法的数据集。

由于视频中的振捣棒存在振捣点间移动快速以及振捣点处基本静止的特点，如果以视频的时间线为轴，以每帧间振捣棒在二维空间上的距离长短表示时间的长短，那么会存在振捣点附近坐标点密集，振捣点间坐标点疏散的特点。本发明采用基于距离阈值的自适应聚类算法对每一帧中采集的二维回归框中心点坐标进行聚类，就可以得到振捣点个数和振捣点坐标。此处的距离阈值，通过把振捣间距的实际物理距离转换为图片像素距离得到，实际的物理距离以工业上的振捣间距要求为准。

振捣时间等于振捣棒在视频中的静止时间，而振捣棒的静止时间可以转换为振捣棒在视频中静止时的帧数和，同样使用自适应聚类算法，计算出每个簇的样本个数，即得到了帧数，帧数/帧率就等于时间。

步骤7、根据步骤6得到的视频帧数，结合步骤4训练好的视差估计模型估计左图像和右图像对应的视差图，再结合步骤1得到的相机参数值M和步骤5中得到的左二维回归框中心点坐标，计算出每个振捣点的振捣棒三维坐标信息。

7.1、如图6所示，摄像机模型下的四个坐标系分别是：由代表像素点在图像中的行和列的u、v轴组成的图像像素坐标系；以摄像机光轴与图像平面的交点处O1(u0,v0)点为原点的图像坐标系；以摄像机光心O点为原点的摄像机坐标系；由X，Y，Z三个坐标轴组成的世界坐标系。

通过四个坐标系间的几何关系，可以推导出图像像素坐标与世界坐标存在的转换关系如下：

从式子(16)中可以看出，三维世界坐标与图像像素坐标、摄像机标定参数(包括焦距f、旋转矩阵R和平移矩阵t)和深度值Zc有着直接关系。

7.2、双目视觉模型结构如图7所示，其中，基线b为左右相机的投影中心连线的距离；点P为两相机在同一时刻观看时空物体的同一特征点；Pl(xl,yl)和Pr(xr,yr)分别是在左相机和右相机上获取的点P的图像坐标。将两相机定在同一平面上(光轴平行)，且焦距f一致，则特征点P的图像坐标的y坐标一定是相同的，即yl＝yr＝y。

由双目视觉模型中的三角几何关系，可以得到：

联立(14)中的式子，推导出深度值Zc值为：

从公式(18)中可以看出，深度值与双目相机标定参数和视差值有关。结合步骤7.2的结论可知，三维世界坐标的求解问题分解为：图像像素坐标、双目相机的内外参数M和深度值Zc的求解。

7.3、本发明已经在步骤1中通过标定相机得到了双目相机的内外参数M，在步骤5中通过振捣棒检测模型得到了左二维回归框中心点坐标，该步骤将通过视差估计模型来求解深度信息，结合着三个值，计算出振捣棒的三维坐标。

具体如下，根据步骤5得到的标记二维回归框的左右图像和步骤6的视频帧数，输入同一帧数下的左图像和右图像，根据视差估计模型，输出左图像和右图像对应的视差图。

根据步骤7.1中图像像素坐标到世界坐标的转换关系，将图像像素坐标、双目相机的内外参数M和深度值带入，即可求解出振捣棒的三维世界坐标。

本发明通过深度学习获得振捣棒的二维回归框，通过无监督的深度学习估计视差图，再结合摄像机成像模型和双目相机几何模型，推导出振捣棒的三维坐标，实现了振捣棒的定位。有了振捣棒坐标之后，计算相邻振捣点间的距离，从而智能、准确、有效地解决了混凝土振捣质量的监测问题。

本发明提出了一种基于双目视觉的振捣棒定位方法，适用于土木工程建设中振捣棒的定位问题，首先获得双目相机的内外参数，利用标定好的双目相机采集混凝土振捣图像；然后，基于深度学习训练振捣棒检测模型和基于无监督的深度学习训练视差估计模型，其次，用标定好的双目相机录制混凝土振捣视频，利用振捣棒检测模型，分别获得每一帧的左右二维回归框，利用自适应聚类算法处理左二维回归框，得到每个振捣点的位置和时间，并记录每个振捣点所对应的视频帧数，并记录的视频帧数下，根据视差估计模型来求左右回归框所对应的视差图，进而得到振捣棒的三维坐标信息。本发明可实现混凝土振捣过程中振捣棒的精确定位，解决了工人依靠经验造成的振捣棒位置估计的误差，大大提高了施工现场的质量监测效率。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于双目视觉的振捣棒定位方法，其特征在于，包括以下步骤：

步骤1、标定双目相机，获得相机的内外参数M；

2.根据权利要求1所述的基于双目视觉的振捣棒定位方法，其特征在于，所述的步骤2中的采集的振捣图像处理包括以下步骤：

3.根据权利要求1所述的基于双目视觉的振捣棒定位方法，其特征在于，所述步骤3中SSD网络模型的结构如下：

输出检测值部分，根据先验框预测边界框的类别得分和位置偏移信息，输出检测结果。

4.根据权利要求3所述的基于双目视觉的振捣棒定位方法，其特征在于，采用最小化误差函数L训练SSD网络模型，通过后向传播策略更新模型参数，得到振捣棒检测模型；

最小化误差函数L如下：

其中，c_x、cy为先验框中心点的横、纵坐标，w、h分别为先验框的宽和高，d为先验框，g为真实框，i为第i个先验框，j代表第j个真实框，p为第p类。

5.根据权利要求4所述的基于双目视觉的振捣棒定位方法，其特征在于，所述步骤4中视差估计模型包括两个结构相同的视差估计网络，分别为右图像视差估计网络和左图像视差估计网络；

6.根据权利要求5所述的基于双目视觉的振捣棒定位方法，其特征在于，所述采用损失函数C_S对视差估计模型进行训练；

C_S＝C_Sl+C_Sr

其中，N代表图像像素个数，I_ij和分别代表在原图像I和重建图像在(i，j)处的像素；

其中，为视差梯度；

。

7.根据权利要求1所述的基于双目视觉的振捣棒定位方法，其特征在于，步骤6中采用自适应聚类算法对每一帧中采集的左二维回归框中心点坐标进行聚类，得到的类簇个数，每个类簇中心点为振捣点坐标，每个簇的样本个数为每个振捣点对应的帧数，进而得到振捣点坐标和每个振捣点所对应的视频帧数。

8.根据权利要求7所述的基于双目视觉的振捣棒定位方法，其特征在于，所述的步骤7中获得振捣棒的三维坐标信息的方法如下：

其中，f为焦距，R为旋转矩阵，t为平移矩阵，Z_C为深度值，(u，v)为图像像素坐标；(u₀，v₀)为摄像机光轴与图像平面的交点处的坐标；(X，Y，Z)为世界坐标；

根据双目相机的几何模型，得到深度值Zc；

其中，b为双目相机的基线，d为视差值；

最后，将步骤1的相机内外参数M、步骤5的左二维回归框中心点坐标(u，v)以及深度值Zc带入转换方程中，得到每个振捣点处的振捣棒三维坐标。