CN110349209A - 基于双目视觉的振捣棒定位方法 - Google Patents
基于双目视觉的振捣棒定位方法 Download PDFInfo
- Publication number
- CN110349209A CN110349209A CN201910351691.2A CN201910351691A CN110349209A CN 110349209 A CN110349209 A CN 110349209A CN 201910351691 A CN201910351691 A CN 201910351691A CN 110349209 A CN110349209 A CN 110349209A
- Authority
- CN
- China
- Prior art keywords
- image
- vibrating spear
- disparity estimation
- frame
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Abstract
本发明公开的基于双目视觉的振捣棒定位方法,使用深度学习解决了目标检测和视差估计问题,一方面提高了振捣棒检测精度和速度,另一方面将双目立体匹配过程简化成端到端过程,为振捣棒实时、快速、准确定位提供了重要技术支撑,本发明通过自适应聚类算法确定了振捣点的二维位置和振捣时间,利用双目视觉技术将二维坐标转换成世界坐标,实现了振捣棒的绝对定位。本发明提供的基于双目视觉的振捣棒定位方法,解决了振捣工作质量监测问题,让质量监测环节更加智能、高效。
Description
技术领域
本发明涉及计算机视觉及建筑工地目标检测领域,具体涉及一种基于双目视觉的振捣棒定位方法。
背景技术
在建筑工地施工现场,使用插入式振捣棒对混凝土振捣可以消除混凝土中气泡、进行捣固。为了保证振捣工作的质量,需要实时监测振捣间距与振捣时间,则实时获取振捣棒的工作位置就显得非常重要。传统基于人工的监测,存在着很多的不可靠因素。随着科技的进步,有研究人员提出了基于GPS的振捣棒定位方法和基于激光三维定位振捣棒的方法,但这些方法在设备部署过程较复杂、成本较高。
因此,为减轻工作人员的劳动强度和加强振捣质量的监测力度,有必要研究出一种通过双目摄像机来自动定位振捣棒的视觉定位系统具有重要的意义。
发明内容
针对现有技术中存在的问题,本发明提供一种基于双目视觉的振捣棒定位方法,实现了振捣棒的绝对定位,解决了振捣工作质量监测问题。
本发明是通过以下技术方案来实现:
基于双目视觉的振捣棒定位方法,包括以下步骤:
步骤1、标定双目相机,获得相机的内外参数M;
步骤2、根据标定好的双目相机采集混凝土振捣图像,并对振捣图像进行处理,分别得到振捣棒检测数据集和视差估计数据集;
步骤3、根据步骤2得到的振捣棒检测数据集对SSD网络模型进行训练,得到振捣棒检测模型;
步骤4、基于无监督的深度学习构建视差估计模型,并根据步骤2得到的视差估计数据集进行模型训练;
步骤5、采用标定好的双目相机录制混凝土振捣视频,利用步骤3训练好的振捣棒检测模型对振捣视频进行检测,获得视频中每一帧的标记左二维回归框的左图像和标记右二维回归框的右图像;
步骤6、利用自适应聚类算法处理步骤5中的左二维回归框中心点坐标,得到每个振捣点的位置和每个振捣点所对应的视频帧数;
步骤7、根据步骤6得到的视频帧数,结合步骤4视差估计模型估计左图像和右图像对应的视差图、步骤1得到的相机内外参数M和步骤5中得到的左二维回归框的中心点坐标,得到每个振捣点的振捣棒三维坐标信息。
优选的,所述的步骤2中的采集的振捣图像处理包括以下步骤:
S1、利用标定好的双目相机采集N对原始振捣图像,每对原始振捣图像包括一张左图像和一张右图像,将N对原始振捣图像复制成两份,其中一份作为原始的振捣棒检测数据集,另一份作为原始的视差估计数据集;
S2、对原始的振捣棒检测数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理,然后用数据标注工具labelImg对增强后的振捣图像进行数据标注,得到振捣棒检测数据集;
S3、对原始的视差估计数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理,处理过程中需保证对每一对原始振捣图像中的左图像和右图像执行相同的数据增强处理,数据增强处理完成后得到视差估计数据集。
优选的,所述步骤3中SSD网络模型的结构如下:
SSD网络模型包括基础网络部分、金字塔网络部分和输出检测值部分;
基础网络部分,用于接收振捣棒检测数据集中的训练集数据,并利用VGG-16的前四层CNN网络提取底层特征图;
金字塔网络部分,根据特征图产生k个先验框,不同特征图上的先验框数不同,同一特征图上的先验框数相同;
输出检测值部分,根据先验框预测边界框的类别得分和位置偏移信息,输出检测结果。
优选的,采用最小化误差函数L训练SSD网络模型,通过后向传播策略更新模型参数,得到振捣棒检测模型;
最小化误差函数L如下:
其中,N为先验框的正样本数量,x为输入的图像,c为类别得分预测值,l为位置预测值,g是真实值的位置参数,权重项α在交叉验证的时候设置为1,Lconf为类别误差,Lloc为位置误差;
0.5x2 if|x|<1
其中,cx、cy为先验框中心点的横、纵坐标,w、h分别为先验框的宽和高,d为先验框,g为真实框,i为第i个先验框,j代表第j个真实框,p为第p类。
优选的,所述步骤4中视差估计模型包括两个结构相同的视差估计网络,分别为右图像视差估计网络和左图像视差估计网络;
视差估计网络包括输入部分、卷积部分、视差估计部分、采样部分和输出部分;
两个视差估计网络的输入部分,分别用于接收每对振捣图像中的左图像Il和右图像Il;
两个视差估计网络的卷积部分,分别通过CNN分别提取左图像Il和右图像的特征图Il;
左图像视差估计网络的视差估计部分,根据左图像的特征图估计出与其对应的右图像视差图dr1和左网络的左图像视差图dl1;
右图像视差估计网络的视差估计部分,根据右图像的特征图估计出与其对应的右图像视差图dr2和左图像视差图dl2;
左图像视差估计网络的采样部分,采集左图像Il、右图像视差图dr1、右图像Ir和左图像视差图dl1;
右图像视差估计网络的采样部分,采集左图像Il、右图像视差图dr2、右输入图像Il和左图像视差图dl2进行采样;
两个视差估计网络的输出部分,分别根据几何约束条件,对对应采样结果进行重建,得到左图像视差估计网络的右图像和左图像以及右图像视差估计网络的右图像和左图像
优选的,所述采用损失函数CS对视差估计模型进行训练;
损失函数CS包括左图像视差估计网络的损失函数CSl和右图像视差估计网络的损失函数CSr;
CS=CSl+CSr
其中,Cap为重建损失,Cds为局部平滑损失,Clr为左右差异一致损失,l为左图像,r为右图像;
其中,N代表图像像素个数,Iij和分别代表在原图像I和重建图像在(i,j)处的像素;
其中,为视差梯度;
优选的,步骤6中采用自适应聚类算法对每一帧中采集的左二维回归框中心点坐标进行聚类,得到的类簇个数,每个类簇中心点为振捣点坐标,每个簇的样本个数为每个振捣点对应的帧数,进而得到振捣点坐标和每个振捣点所对应的视频帧数。
优选的,所述的步骤7中获得振捣棒的三维坐标信息的方法如下:
首先,根据双目相机的投影模型得到图像像素坐标与三维世界坐标的转换方程,如下;
其中,f为焦距,R为旋转矩阵,t为平移矩阵,ZC为深度值,(u,v)为图像像素坐标;(u0,v0)为摄像机光轴与图像平面的交点处的坐标;(X,Y,Z)为世界坐标;
根据双目相机的几何模型,得到深度值Zc;
其中,b为双目相机的基线,d为视差值;
然后,根据步骤5得到标记左二维回归框的左图像和标记右二维回归框的右图像以及步骤6的视频帧数,输入相应帧数下的左图像和右图像至视差估计模型,视差估计模型输出左右图像对应的视差图,将左二维回归框中心点处对应的视差值带入双目相机几何模型,得到深度值Zc;
最后,将步骤1的相机内外参数M、步骤5的左二维回归框中心点坐标(u,v)以及深度值Zc带入转换方程中,得到每个振捣点处的振捣棒三维坐标。
与现有技术相比,本发明具有以下有益的技术效果:
本发明公开的基于双目视觉的振捣棒定位方法,使用深度学习解决了目标检测和视差估计问题,一方面提高了振捣棒检测精度和速度,另一方面将双目立体匹配过程简化成端到端过程,为振捣棒实时、快速、准确定位提供了重要技术支撑,本发明通过自适应聚类算法确定了振捣点的二维位置和振捣时间,利用双目视觉技术将二维坐标转换成世界坐标,实现了振捣棒的绝对定位。本发明提供的基于双目视觉的振捣棒定位方法,解决了振捣工作质量监测问题,让质量监测环节更加智能、高效。
附图说明
图1为本发明的方法流程图;
图2为本发明双目相机的标定图;
图3为本发明振捣棒定位示意图;
图4为本发明基于深度学习进行视差估计的神经网络结构图;
图5为本发明视差估计网络模型的损失模块;
图6为本发明摄像机四个坐标系间的关系图;
图7为本发明双目视觉的几何模型图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
如图1所示,基于双目视觉的振捣棒定位方法,包括以下步骤:
步骤1、标定双目相机,获得相机的内外参数M。
双目相机标定是为了寻找图像平面某一点与三维场景间的位置关系,是目标定位的基础工作之一,标定参数的准确程度直接影响整个系统的定位精度。
双目相机的标定过程如图2所示,本发明采用张正友摄像机标定法实现标定任务,双目相机采用LenaCV超高速USB3.0双目视觉相机,采用PCB板固定两个相机来保证光轴的绝对平行,并且拼接双目图像为一帧图像后输出。双目相机通过标定得到每个相机的焦距、畸变系数、成像原点内部参数,以及左右相机间的相对位置关系,即平移参数和旋转参数,即相机的内外参数M。
步骤2、根据标定好的双目相机采集混凝土振捣图像,并对振捣图像进行处理,得到振捣棒检测数据集和视差估计数据集。
根据图3所示,灰色区域为振捣区域,每一个点代表振捣点,其世界坐标下的位置为(x,y,z),两个振捣点之间的距离为振捣间距。
首先,利用标定好的双目相机在混凝土振捣现场采集三千幅原始振捣图像(一千五百幅左图像和一千五百幅右图像),复制成两份,其中一份作为原始的振捣棒检测数据集,另一份作为原始的视差估计数据集。
其次,通过对原始的振捣棒检测数据集进行翻转、缩放、平移、颜色变化和高斯噪声实现数据增强。用数据标注工具labelImg对增强后的振捣图像进行数据标注,得到振捣棒检测数据集。
最后,对原始的视差估计数据集也进行相同的数据增强处理,但是对于每一对图像(左图像和右图像),要执行相同的操作以保证左右图像位置一致。为了有效地降低立体匹配的计算复杂性,要分别对左右视图进行消除畸变和行对准,使得左右视图的左右成像平面共面以及对极线行对齐,即摄像机校正。由此,得到视差估计数据集。
步骤3、基于SSD目标检测算法构建振捣棒检测模型,并根据步骤2得到的振捣棒检测数据集进行模型训练;
3.1建立数据集
为了优化和检验振捣棒检测模型的训练效果,将步骤2得到的目标检测数据集分成训练集、验证集和测试集。
其中,训练集用于训练振捣棒检测模型而获得权值参数,验证集用于反馈模型和参数的训练效果,测试集用于估计模型的检测精度。
3.2构建振捣棒检测模型
由于混凝土振捣过程振捣棒的检测定位必须满足实时性和精确性的要求,通过比较与分析各目标检测算法发现,SSD目标检测算法更适合解决振捣棒检测问题。因此,振捣棒检测模型使用SSD网络模型。该模型由两部分组成:基础网络和金字塔网络。该模型的结构如下:
第一,基础网络部分。输入振捣棒检测图像,利用VGG-16的前四层CNN网络提取底层特征图。
第二,金字塔网络部分。对不同尺度特征图上的每个单元,生成k个先验框(default box)。其中,不同特征图上的先验框数不同,但同一特征图上的先验框数相同。
第三,输出检测值部分。由先验框预测边界框的类别得分和位置偏移信息,输出检测结果。
3.3训练模型
振捣棒检测模型通过最小化误差函数L来训练模型,通过后向传播策略更新模型参数。
误差函数L的计算公式主要由两部分构成,分别为反映目标类别的类别误差Lconf及反映目标位置的位置误差Lloc。
训练误差函数L的计算公式如下:
式子(1)中的N为先验框的正样本数量,x为输入的图像,c为类别得分预测值,l为位置预测值,g是真实值的位置参数,权重项α在交叉验证的时候设置为1。
其中,正样本N通过寻找与真实框匹配的先验框得到,匹配原则为:第一,对于图片中每个真实框,与其IOU值最大的先验框;第二,对于剩余的未匹配先验框,若某个真实框的IOU大于某个阈值(一般是0.5),那么该先验框也与这个真实框匹配。
对于类别误差Lconf,采用softmax方法:
而对于位置误差Lloc,采用smoothL1方法:
其中,cx、cy为先验框中心点的横、纵坐标,w、h分别为先验框的宽和高。
3.4测试模型
在振捣棒检测网络模型训练完成之后,输入3.1中的振捣棒检测测试集,输出标有二维回归框的图像,回归框中的目标类别是振捣棒。根据模型的预测值和真实值,评估模型的性能,评估方式有精确度和召回率。
步骤4、基于无监督的深度学习构建视差估计模型,并根据步骤2得到的视差估计数据集进行模型训练;
4.1、建立数据集
同3.1,将步骤2中处理好的视差估计数据集分成训练集、验证集和测试集。
4.2、构建视差估计模型
基于深度学习的无监督视差估计借鉴Godard等人提出的左右视差一致性原理。由于Godard等人是为了解决无监督情况下单目深度估计问题而提出的左右视差一致性方法,因此他们的网络只输入左或右图像,输出左或右图像的视差图。为了充分利用左右图像的信息、输出精度更高的视差图,本发明在他们的网络结构的基础上,加入了右图像的视差估计网络(以下把左图像的视差估计网络简称左网络,右图像的视差估计网络简称右网络)。
如图4所示,左图像和右图像的网络结构一致,都由五部分组成:
第一,输入部分。左网络输入左图像Il,右网络输入右图像Ir。
第二,卷积部分。左、右网络通过CNN分别提取左图像和右图像的特征图。
第三,视差估计部分。左网络和右网络根据对应的特征图,分别估计出左网络的右图像视差图dr1和左网络的左图像视差图dl1,以及右网络的右图像视差图dr2和右网络的左图像视差图dl2。
第四,采样部分。
左网络的采样部分对左输入图像Il和视差图dr1进行采样、对右输入图像Ir和视差图dl1进行采样;
右网络的采样部分对左输入图像Il和视差图dr2进行采样、对右输入图像Ir和视差图dl2进行采样。
第五,输出部分。根据几何约束条件,对采样结果进行重建,得到左网络的右图像和左图像以及右网络的右图像和左图像
其中,图像的重建原理为视差值的概念定义,即视差=(左图像像素位置xl)-(与左图像匹配的右图像像素位置xr)。
4.3训练模型
基于深度学习的无监督视差估计模型采用端对端的训练方式,训练损失模块如图5所示。总的损失模块CS包含左视图损失模块CSl和右视图损失模块CSr,损失值结合了重建损失Cap、局部平滑损失Cds和左右差异一致损失Clr。损失函数CS的表达式如下:
CS=CSl+CSr (4)
其中,每个损失模块的每个项包含左图像损失变量和右图像损失变量,有关每个损失模块中左图像损失变量的Cap、Cds和Clr的表达及说明如下(右图像损失变量类似如下):
式子(7)中使用L1范式和单尺度SSIM项的组合作为图像重建成本,其中,N代表图像像素个数,Iij和分别代表在原图像I和重建图像在(i,j)处的像素。
公式9和10中对视差梯度进行L1范式的惩罚,因为深度不连续性经常发生在图像梯度上。故使用图像梯度对边缘感知项加权,实现视差局部平滑。
公式11和12引入左右视差一致性惩罚作为损失模型的一部分,试图使左视差视图等于投影的右视差视图。
(4.4)测试模型
在视差估计模型训练完成之后,用带有深度图G的公有数据集KITTI来测试网络模型的性能。输入KITTI双目图像之后,输出视差图d。根据深度值Zc=b*f/d,即可求出深度图Zc,其中b为双目相机基线值,f为相机焦距。
常见的评估指标有绝对相对差(Abs Rel)、平方相对差(Sq Rel)或均方根误差(RMSE)等,具体公式如以下的公式13、14和15所示:
步骤5、采用标定好的双目相机录制混凝土振捣视频,利用步骤3训练好的振捣棒检测模型对振捣视频进行检测,获得视频中每一帧的标记左二维回归框的左图像和标记右二维回归框的右图像;
具体方法如下,利用步骤1中标定好的相机,现场录制混凝土振捣视频。遍历视频的每一帧,用步骤3训练好的振捣棒检测模型检测左图像和右图像中的振捣棒,得到标记左二维回归框的左图像和标记右二维回归框的右图像,保存左二维回归框的中心点坐标,作为聚类算法的数据集。
步骤6、利用自适应聚类算法处理步骤5中的左二维回归框中心点坐标,得到每个振捣点的位置和每个振捣点所对应的视频帧数;
由于视频中的振捣棒存在振捣点间移动快速以及振捣点处基本静止的特点,如果以视频的时间线为轴,以每帧间振捣棒在二维空间上的距离长短表示时间的长短,那么会存在振捣点附近坐标点密集,振捣点间坐标点疏散的特点。本发明采用基于距离阈值的自适应聚类算法对每一帧中采集的二维回归框中心点坐标进行聚类,就可以得到振捣点个数和振捣点坐标。此处的距离阈值,通过把振捣间距的实际物理距离转换为图片像素距离得到,实际的物理距离以工业上的振捣间距要求为准。
振捣时间等于振捣棒在视频中的静止时间,而振捣棒的静止时间可以转换为振捣棒在视频中静止时的帧数和,同样使用自适应聚类算法,计算出每个簇的样本个数,即得到了帧数,帧数/帧率就等于时间。
步骤7、根据步骤6得到的视频帧数,结合步骤4训练好的视差估计模型估计左图像和右图像对应的视差图,再结合步骤1得到的相机参数值M和步骤5中得到的左二维回归框中心点坐标,计算出每个振捣点的振捣棒三维坐标信息。
7.1、如图6所示,摄像机模型下的四个坐标系分别是:由代表像素点在图像中的行和列的u、v轴组成的图像像素坐标系;以摄像机光轴与图像平面的交点处O1(u0,v0)点为原点的图像坐标系;以摄像机光心O点为原点的摄像机坐标系;由X,Y,Z三个坐标轴组成的世界坐标系。
通过四个坐标系间的几何关系,可以推导出图像像素坐标与世界坐标存在的转换关系如下:
从式子(16)中可以看出,三维世界坐标与图像像素坐标、摄像机标定参数(包括焦距f、旋转矩阵R和平移矩阵t)和深度值Zc有着直接关系。
7.2、双目视觉模型结构如图7所示,其中,基线b为左右相机的投影中心连线的距离;点P为两相机在同一时刻观看时空物体的同一特征点;Pl(xl,yl)和Pr(xr,yr)分别是在左相机和右相机上获取的点P的图像坐标。将两相机定在同一平面上(光轴平行),且焦距f一致,则特征点P的图像坐标的y坐标一定是相同的,即yl=yr=y。
由双目视觉模型中的三角几何关系,可以得到:
联立(14)中的式子,推导出深度值Zc值为:
从公式(18)中可以看出,深度值与双目相机标定参数和视差值有关。结合步骤7.2的结论可知,三维世界坐标的求解问题分解为:图像像素坐标、双目相机的内外参数M和深度值Zc的求解。
7.3、本发明已经在步骤1中通过标定相机得到了双目相机的内外参数M,在步骤5中通过振捣棒检测模型得到了左二维回归框中心点坐标,该步骤将通过视差估计模型来求解深度信息,结合着三个值,计算出振捣棒的三维坐标。
具体如下,根据步骤5得到的标记二维回归框的左右图像和步骤6的视频帧数,输入同一帧数下的左图像和右图像,根据视差估计模型,输出左图像和右图像对应的视差图。
根据步骤7.1中图像像素坐标到世界坐标的转换关系,将图像像素坐标、双目相机的内外参数M和深度值带入,即可求解出振捣棒的三维世界坐标。
本发明通过深度学习获得振捣棒的二维回归框,通过无监督的深度学习估计视差图,再结合摄像机成像模型和双目相机几何模型,推导出振捣棒的三维坐标,实现了振捣棒的定位。有了振捣棒坐标之后,计算相邻振捣点间的距离,从而智能、准确、有效地解决了混凝土振捣质量的监测问题。
本发明提出了一种基于双目视觉的振捣棒定位方法,适用于土木工程建设中振捣棒的定位问题,首先获得双目相机的内外参数,利用标定好的双目相机采集混凝土振捣图像;然后,基于深度学习训练振捣棒检测模型和基于无监督的深度学习训练视差估计模型,其次,用标定好的双目相机录制混凝土振捣视频,利用振捣棒检测模型,分别获得每一帧的左右二维回归框,利用自适应聚类算法处理左二维回归框,得到每个振捣点的位置和时间,并记录每个振捣点所对应的视频帧数,并记录的视频帧数下,根据视差估计模型来求左右回归框所对应的视差图,进而得到振捣棒的三维坐标信息。本发明可实现混凝土振捣过程中振捣棒的精确定位,解决了工人依靠经验造成的振捣棒位置估计的误差,大大提高了施工现场的质量监测效率。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (8)
1.基于双目视觉的振捣棒定位方法,其特征在于,包括以下步骤:
步骤1、标定双目相机,获得相机的内外参数M;
步骤2、根据标定好的双目相机采集混凝土振捣图像,并对振捣图像进行处理,分别得到振捣棒检测数据集和视差估计数据集;
步骤3、根据步骤2得到的振捣棒检测数据集对SSD网络模型进行训练,得到振捣棒检测模型;
步骤4、基于无监督的深度学习构建视差估计模型,并根据步骤2得到的视差估计数据集进行模型训练;
步骤5、采用标定好的双目相机录制混凝土振捣视频,利用步骤3训练好的振捣棒检测模型对振捣视频进行检测,获得视频中每一帧的标记左二维回归框的左图像和标记右二维回归框的右图像;
步骤6、利用自适应聚类算法处理步骤5中的左二维回归框中心点坐标,得到每个振捣点的位置和每个振捣点所对应的视频帧数;
步骤7、根据步骤6得到的视频帧数,结合步骤4视差估计模型估计左图像和右图像对应的视差图、步骤1得到的相机内外参数M和步骤5中得到的左二维回归框的中心点坐标,得到每个振捣点的振捣棒三维坐标信息。
2.根据权利要求1所述的基于双目视觉的振捣棒定位方法,其特征在于,所述的步骤2中的采集的振捣图像处理包括以下步骤:
S1、利用标定好的双目相机采集N对原始振捣图像,每对原始振捣图像包括一张左图像和一张右图像,将N对原始振捣图像复制成两份,其中一份作为原始的振捣棒检测数据集,另一份作为原始的视差估计数据集;
S2、对原始的振捣棒检测数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理,然后用数据标注工具labelImg对增强后的振捣图像进行数据标注,得到振捣棒检测数据集;
S3、对原始的视差估计数据集进行翻转、缩放、平移、颜色变化和高斯噪声的数据增强处理,处理过程中需保证对每一对原始振捣图像中的左图像和右图像执行相同的数据增强处理,数据增强处理完成后得到视差估计数据集。
3.根据权利要求1所述的基于双目视觉的振捣棒定位方法,其特征在于,所述步骤3中SSD网络模型的结构如下:
SSD网络模型包括基础网络部分、金字塔网络部分和输出检测值部分;
基础网络部分,用于接收振捣棒检测数据集中的训练集数据,并利用VGG-16的前四层CNN网络提取底层特征图;
金字塔网络部分,根据特征图产生k个先验框,不同特征图上的先验框数不同,同一特征图上的先验框数相同;
输出检测值部分,根据先验框预测边界框的类别得分和位置偏移信息,输出检测结果。
4.根据权利要求3所述的基于双目视觉的振捣棒定位方法,其特征在于,采用最小化误差函数L训练SSD网络模型,通过后向传播策略更新模型参数,得到振捣棒检测模型;
最小化误差函数L如下:
其中,N为先验框的正样本数量,x为输入的图像,c为类别得分预测值,l为位置预测值,g是真实值的位置参数,权重项α在交叉验证的时候设置为1,Lconf为类别误差,Lloc为位置误差;
其中,cx、cy为先验框中心点的横、纵坐标,w、h分别为先验框的宽和高,d为先验框,g为真实框,i为第i个先验框,j代表第j个真实框,p为第p类。
5.根据权利要求4所述的基于双目视觉的振捣棒定位方法,其特征在于,所述步骤4中视差估计模型包括两个结构相同的视差估计网络,分别为右图像视差估计网络和左图像视差估计网络;
视差估计网络包括输入部分、卷积部分、视差估计部分、采样部分和输出部分;
两个视差估计网络的输入部分,分别用于接收每对振捣图像中的左图像Il和右图像Il;
两个视差估计网络的卷积部分,分别通过CNN分别提取左图像Il和右图像的特征图Il;
左图像视差估计网络的视差估计部分,根据左图像的特征图估计出与其对应的右图像视差图dr1和左网络的左图像视差图dl1;
右图像视差估计网络的视差估计部分,根据右图像的特征图估计出与其对应的右图像视差图dr2和左图像视差图dl2;
左图像视差估计网络的采样部分,采集左图像Il、右图像视差图dr1、右图像Ir和左图像视差图dl1;
右图像视差估计网络的采样部分,采集左图像Il、右图像视差图dr2、右输入图像Il和左图像视差图dl2进行采样;
两个视差估计网络的输出部分,分别根据几何约束条件,对对应采样结果进行重建,得到左图像视差估计网络的右图像和左图像以及右图像视差估计网络的右图像和左图像
6.根据权利要求5所述的基于双目视觉的振捣棒定位方法,其特征在于,所述采用损失函数CS对视差估计模型进行训练;
损失函数CS包括左图像视差估计网络的损失函数CSl和右图像视差估计网络的损失函数CSr;
CS=CSl+CSr
其中,Cap为重建损失,Cds为局部平滑损失,Clr为左右差异一致损失,l为左图像,r为右图像;
其中,N代表图像像素个数,Iij和分别代表在原图像I和重建图像在(i,j)处的像素;
其中,为视差梯度;
。
7.根据权利要求1所述的基于双目视觉的振捣棒定位方法,其特征在于,步骤6中采用自适应聚类算法对每一帧中采集的左二维回归框中心点坐标进行聚类,得到的类簇个数,每个类簇中心点为振捣点坐标,每个簇的样本个数为每个振捣点对应的帧数,进而得到振捣点坐标和每个振捣点所对应的视频帧数。
8.根据权利要求7所述的基于双目视觉的振捣棒定位方法,其特征在于,所述的步骤7中获得振捣棒的三维坐标信息的方法如下:
首先,根据双目相机的投影模型得到图像像素坐标与三维世界坐标的转换方程,如下;
其中,f为焦距,R为旋转矩阵,t为平移矩阵,ZC为深度值,(u,v)为图像像素坐标;(u0,v0)为摄像机光轴与图像平面的交点处的坐标;(X,Y,Z)为世界坐标;
根据双目相机的几何模型,得到深度值Zc;
其中,b为双目相机的基线,d为视差值;
然后,根据步骤5得到标记左二维回归框的左图像和标记右二维回归框的右图像以及步骤6的视频帧数,输入相应帧数下的左图像和右图像至视差估计模型,视差估计模型输出左右图像对应的视差图,将左二维回归框中心点处对应的视差值带入双目相机几何模型,得到深度值Zc;
最后,将步骤1的相机内外参数M、步骤5的左二维回归框中心点坐标(u,v)以及深度值Zc带入转换方程中,得到每个振捣点处的振捣棒三维坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910351691.2A CN110349209A (zh) | 2019-04-28 | 2019-04-28 | 基于双目视觉的振捣棒定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910351691.2A CN110349209A (zh) | 2019-04-28 | 2019-04-28 | 基于双目视觉的振捣棒定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110349209A true CN110349209A (zh) | 2019-10-18 |
Family
ID=68174330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910351691.2A Pending CN110349209A (zh) | 2019-04-28 | 2019-04-28 | 基于双目视觉的振捣棒定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110349209A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462096A (zh) * | 2020-04-03 | 2020-07-28 | 浙江商汤科技开发有限公司 | 三维目标检测方法及装置 |
CN114648637A (zh) * | 2022-03-28 | 2022-06-21 | 江苏禹润智能科技有限公司 | 一种基于机器视觉的混凝土自动振捣方法及系统 |
CN115393342A (zh) * | 2022-09-14 | 2022-11-25 | 西安理工大学 | 一种基于图像处理技术的混凝土振捣点定位方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130328444A1 (en) * | 2012-06-08 | 2013-12-12 | Seiko Epson Corporation | Electronic device, electronic apparatus, mobile unit, and method of manufacturing electronic device |
CN107256575A (zh) * | 2017-04-07 | 2017-10-17 | 天津市天中依脉科技开发有限公司 | 一种基于双目立体视觉的三维舌像重建方法 |
CN109005398A (zh) * | 2018-07-27 | 2018-12-14 | 杭州电子科技大学 | 一种基于卷积神经网络的立体图像视差匹配方法 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
-
2019
- 2019-04-28 CN CN201910351691.2A patent/CN110349209A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130328444A1 (en) * | 2012-06-08 | 2013-12-12 | Seiko Epson Corporation | Electronic device, electronic apparatus, mobile unit, and method of manufacturing electronic device |
CN107256575A (zh) * | 2017-04-07 | 2017-10-17 | 天津市天中依脉科技开发有限公司 | 一种基于双目立体视觉的三维舌像重建方法 |
CN109005398A (zh) * | 2018-07-27 | 2018-12-14 | 杭州电子科技大学 | 一种基于卷积神经网络的立体图像视差匹配方法 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
Non-Patent Citations (8)
Title |
---|
CL´EMENT GODARD等: "Unsupervised Monocular Depth Estimation with Left-Right Consistency", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
SUNSHINE_ZOE: "计算机视觉:相机成像原理:世界坐标系、相机坐标系、图像坐标系、像素坐标系之间的转换", 《HTTPS://BLOG.CSDN.NET/SUNSHINE_ZOE/ARTICLE/DETAILS/73457686》 * |
WU_WENHUAN: "双目相机--双目视差与深度距离关系推导详解", 《HTTPS://BLOG.CSDN.NET/WU_WENHUAN/ARTICLE/DETAILS/52538877?_U_U_U=0.7596961541461076》 * |
刘亚洁: "基于立体视觉的混凝土振捣质量监测系统的开发", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 * |
唐静: "基于卷积神经网络的道路场景感知算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
张国良等: "移动机器人的SLAM与VSLAM方法", 《移动机器人的SLAM与VSLAM方法》 * |
蒋志宏: "机器人学基础", 《机器人学基础》 * |
顾帅: "Android移动平台下基于深度学习的目标检测技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462096A (zh) * | 2020-04-03 | 2020-07-28 | 浙江商汤科技开发有限公司 | 三维目标检测方法及装置 |
CN114648637A (zh) * | 2022-03-28 | 2022-06-21 | 江苏禹润智能科技有限公司 | 一种基于机器视觉的混凝土自动振捣方法及系统 |
CN115393342A (zh) * | 2022-09-14 | 2022-11-25 | 西安理工大学 | 一种基于图像处理技术的混凝土振捣点定位方法 |
CN115393342B (zh) * | 2022-09-14 | 2023-08-22 | 西安理工大学 | 一种基于图像处理技术的混凝土振捣点定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270249B (zh) | 一种融合rgb-d视觉特征的目标位姿估计方法 | |
CN108764048B (zh) | 人脸关键点检测方法及装置 | |
WO2022188379A1 (zh) | 服务于电力机器人的人工智能系统及方法 | |
JP3735344B2 (ja) | キャリブレーション装置、キャリブレーション方法、及びキャリブレーション用プログラム | |
CN104484648B (zh) | 基于轮廓识别的机器人可变视角障碍物检测方法 | |
CN111340797A (zh) | 一种激光雷达与双目相机数据融合检测方法及系统 | |
CN112505065B (zh) | 一种实现室内无人机对大部件表面缺陷进行检测的方法 | |
CN104574393B (zh) | 一种三维路面裂缝图像生成系统和方法 | |
CN111126304A (zh) | 一种基于室内自然场景图像深度学习的增强现实导航方法 | |
CN107808407A (zh) | 基于双目相机的无人机视觉slam方法、无人机及存储介质 | |
CN109472828B (zh) | 一种定位方法、装置、电子设备及计算机可读存储介质 | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
CN106600627A (zh) | 一种基于标志点的刚体运动捕捉方法及系统 | |
CN104794737B (zh) | 一种深度信息辅助粒子滤波跟踪方法 | |
CN110334701B (zh) | 数字孪生环境下基于深度学习和多目视觉的数据采集方法 | |
CN112801074B (zh) | 一种基于交通摄像头的深度图估计方法 | |
CN111091023B (zh) | 一种车辆检测方法、装置及电子设备 | |
CN106996748A (zh) | 一种基于双目视觉的轮径测量方法 | |
CN110349209A (zh) | 基于双目视觉的振捣棒定位方法 | |
CN106705849A (zh) | 线结构光传感器标定方法 | |
CN110648362B (zh) | 一种双目立体视觉的羽毛球定位识别与姿态计算方法 | |
CN107657644A (zh) | 一种移动环境下稀疏场景流检测方法和装置 | |
CN112163588A (zh) | 基于智能进化的异源图像目标检测方法、存储介质及设备 | |
CN115115859A (zh) | 基于无人机航拍的长线性工程施工进度智能识别与分析方法 | |
WO2024007485A1 (zh) | 基于视觉特征的空地多机器人地图融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191018 |