CN117115260A - 基于yolo的类圆柱目标位姿估计方法、装置和设备 - Google Patents
基于yolo的类圆柱目标位姿估计方法、装置和设备 Download PDFInfo
- Publication number
- CN117115260A CN117115260A CN202311281413.7A CN202311281413A CN117115260A CN 117115260 A CN117115260 A CN 117115260A CN 202311281413 A CN202311281413 A CN 202311281413A CN 117115260 A CN117115260 A CN 117115260A
- Authority
- CN
- China
- Prior art keywords
- target
- information
- cylinder
- ellipse
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 134
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 238000003860 storage Methods 0.000 claims abstract description 12
- 238000005520 cutting process Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/10—Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于YOLO的类圆柱目标位姿估计方法、装置、计算机设备和存储介质。所述方法包括:通过类圆柱目标的训练图像集训练基于YOLO的目标检测网络,用于得到待检测类圆柱目标的目标检测框,根据目标检测框进行图像裁剪,再通过基于弧段邻接矩阵的快速椭圆检测算法对类圆柱目标进行椭圆检测,得到两组椭圆信息,通过EPnP算法求解得到类圆柱目标的位姿信息。本发明在目标部分被遮挡、复杂背景的情况下均可以实现准确的椭圆检测,从而进行类圆柱目标的位姿估计,检测精度更高,鲁棒性更强。
Description
技术领域
本申请涉及位姿估计领域,特别是涉及一种基于YOLO的类圆柱目标位姿估计方法、装置、计算机设备和存储介质。
背景技术
随着机器视觉技术的发展,装备视觉技术的工业机器人也被广泛应用到各种各样的工业场景中。在工业领域中,如何实现对类圆柱目标的准确定位仍是一个非常受关注的问题。希望通过检测形状确定目标位置,分析目标大小、方位等信息,进一步挖掘图像中反应的实体信息。但由于类圆柱体的截面为圆形,没有直线段,特征点不唯一,因此如何利用椭圆上的特征信息进行检测是急需解决的难题。
目前,不同的椭圆检测算法在性能和鲁棒性方面有很大的差别。基于Hough变换的椭圆检测算法的时间复杂度较高,当得到的边缘图像中非零像素点过多且椭圆个数较多时便很难达到实时性的要求;基于椭圆几何性质的椭圆检测算法的时间复杂度较低,但是其检测的准确度低于Hough椭圆捡测算法,且容易受到噪声干扰;基于最小二乘法的椭圆检测算法的检测精度较高,但时间复杂度受具体的边缘图像影响。
总结来看,现有的研究方法存在以下不足:(1)在进行目标检测时,容易受环境因素影响,实际应用效果较差;(2)针对空间圆、圆环目标遮挡和缺失的情况,目标位姿估计的鲁棒性较差。因此,现有技术存在适应性不佳的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高类圆柱目标识别鲁棒性的基于YOLO的类圆柱目标位姿估计方法、装置、计算机设备和存储介质。
一种基于YOLO的类圆柱目标位姿估计方法,所述方法包括:
构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
在其中一个实施例中,还包括:通过相机采集所述类圆柱目标的图像,得到图像集;其中,在采集目标图像时,所述类圆柱目标被放置于预设的aruco板上;
根据所述图像集中的图像,对所述aruco板的特征点进行检测,得到aruco板特征点信息,根据所述aruco板特征点信息,通过投影方程及最小二乘优化算法确定对应当前图像的位姿信息;
获取所述类圆柱目标的三维点云模型信息;所述三维点云模型由所述类圆柱目标圆环上多个三维点构成;
根据所述位姿信息和所述三维点云模型信息,通过投影方程确定所述三维点云模型的像素点坐标;
根据所述三维点云模型的像素点坐标确定所述类圆柱目标的目标检测框信息,作为当前图像的标签信息;
由所述图像集及其中图像对应的标签信息构成训练图像集。
在其中一个实施例中,还包括:获取预知的所述类圆柱目标的三维骨架模型信息;
根据所述类圆柱目标的位姿信息和所述三维骨架模型信息,将所述类圆柱目标的三维骨架模型重投影到所述窄带滤波图像上;
根据重投影结果判定求取的位姿信息的准确性。
在其中一个实施例中,还包括:根据所述裁剪后图像提取出边缘线,将所述边缘线分割成椭圆弧,根据所述椭圆弧构造有向的弧段邻接矩阵;
通过双向遍历所述弧段邻接矩阵,得到候选的弧段组合以及基于累积因子的累积矩阵;
通过Jacobi算法对所述累积矩阵进行二次特征分解,拟合出候选椭圆;
通过计算验证分数对所述候选椭圆矩阵进行验证,消除虚假椭圆,得到椭圆检测结果及两个圆环对应的椭圆信息。
在其中一个实施例中,还包括:所述椭圆信息为椭圆长短轴四个端点坐标信息和椭圆中心点坐标信息。
在其中一个实施例中,还包括:获取两组椭圆长短轴四个端点坐标信息和椭圆中心点坐标信息,确定控制点坐标信息;
获取所述类圆柱目标的三维骨架模型信息;
根据所述控制点坐标信息与所述三维骨架模型信息建立类圆柱目标椭圆特征的2D-3D对应关系;
根据所述类圆柱目标椭圆特征的2D-3D对应关系EPnP算法求解得到所述类圆柱目标的位姿信息。
在其中一个实施例中,还包括:所述基于YOLO的目标检测网络为基于YOLOv7的目标检测网络。
一种基于YOLO的类圆柱目标位姿估计装置,所述装置包括:
训练图像集构建模块,用于构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
目标检测网络训练模块,用于通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
图像裁剪模块,用于获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
椭圆信息确定模块,用于根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
位姿信息确定模块,用于根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
上述基于YOLO的类圆柱目标位姿估计方法、装置、计算机设备和存储介质,通过类圆柱目标的训练图像集训练基于YOLO的目标检测网络,用于得到待检测类圆柱目标的目标检测框,根据目标检测框进行图像裁剪,再通过基于弧段邻接矩阵的快速椭圆检测算法对类圆柱目标进行椭圆检测,得到两组椭圆信息,通过EPnP算法求解得到类圆柱目标的位姿信息。本发明在目标部分被遮挡、复杂背景的情况下均可以实现准确的椭圆检测,从而进行类圆柱目标的位姿估计,检测精度更高,鲁棒性更强。
附图说明
图1为一个实施例中基于YOLO的类圆柱目标位姿估计方法的流程示意图;
图2为一个实施例中待检测的类圆柱目标示意图;
图3为一个实施例中采集的图像示意图;
图4为一个实施例中标注了目标检测框的图像示意图;
图5为一个实施例中目标缺失的情况下的圆环检测效果图;
图6为一个实施例中位姿估计原理示意图;
图7为一个实施例中类圆柱目标三维骨架示意图;
图8为一个实施例中把三维骨架模型投影到图像上的重投影结果示意图;
图9为一个实施例中位置精度验证结果示意图,其中图9(a)为目标移动相对距离的视觉测量与精密位移台测量的结果比较图,图9(b)为相机测量的相对误差结果图;
图10为一个实施例中基于YOLO的类圆柱目标位姿估计装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于YOLO的类圆柱目标位姿估计方法,包括以下步骤:
步骤102,构建待检测的类圆柱目标的训练图像集。
训练图像集中包括类圆柱目标的多种位姿的目标图像;目标图像上标注了类圆柱目标的目标检测框;类圆柱目标具有两个圆环特征。
本发明类圆柱目标如圆柱,圆台,以及相应的组合体等具有椭圆性质的对称性目标,具有两个圆环特征,两个圆环深度不同、大小不同。步骤102-108的目的就是实现对圆环的识别和检测,从而在步骤110利用两个圆环的信息进行目标的位姿估计。
由于单一的圆环无法判断目标的朝向,因此需要两个圆环提供足够的信息,从而确定目标的朝向。
在一个具体实施例中,类圆柱目标为梯台型目标,顶端为圆形结构,例如图2所示的工业零件,对其进行检测能够实现通过机械臂进行目标的抓取,从而实现目标的自动化分拣。
针对具体的待检测目标,本发明需要提前制作并标注目标的训练图像集,标注数据集有两个作用,一是用于目标检测,二是用于特征提取。
具体地,使用大恒工业像机对类圆柱目标进行拍摄,且拍摄的姿态与距离尽可能覆盖实际测量过程中的各种情况,数据采集的过程中,需要结合aruco板,如图3所示为采集的图像示例,如图4为标注了目标检测框的数据标注结果。
步骤104,通过训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络。
具体地,本实施例采用YOLOv7网络作为目标检测框架。
步骤106,获取待检测的类圆柱目标的图像,将待检测的类圆柱目标的图像输入训练好的目标检测网络中,得到对应的目标检测框,根据目标检测框对待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像。
进行目标检测的时候容易受环境因素干扰,实际应用效果较差,如果直接对目标进行椭圆检测容易出现误检,而通过yolov7进行目标检测进行图像裁剪后,实际上是给出了具体的目标的检测区域,将裁剪后图像再用于之后的椭圆拟合算法能够避免周围复杂背景的干扰,提升椭圆拟合的速度,增强了实用性。
步骤108,根据裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对类圆柱目标进行椭圆检测,得到两组椭圆信息。
在对图像进行预处理后,本发明采用基于弧邻接矩阵的快速椭圆检测方法AAMED对目标进行椭圆检测。
首先,将提取出的边缘线分割成椭圆弧,之后构造有向的弧段邻接矩阵AAM,矩阵每个元素表示了3种邻接状态,并采用了曲率约束和区域约束来使得AAM变得稀疏。其次,通过双向遍历AAM,可以得到所有可能是真实椭圆候选的弧段组合,同时求出了基于累积因子CF的累积矩阵CM。CM与弧或弧的组合有关,可以通过CF的加法或减法进行计算,利用Jacobi方法对CM进行二次特征分解,有效地拟合出候选椭圆。最后,为了有效地消除虚假椭圆,给出了一个综合公式以计算验证分数,分数主要受自适应形状、切线相似性、分布补偿等约束条件的影响。
空间圆、圆环目标遮挡和缺失的情况,目标位姿估计的鲁棒性较差,采用弧段邻接矩阵的椭圆检测算法能提高目标在遮挡或缺失情况下的鲁棒性,如图5所示,目标遮挡和缺失的情况下本方法依然较好地实现了圆环的检测。
步骤110,根据两组椭圆信息,通过EPnP算法求解得到类圆柱目标的位姿信息。
通过弧段邻接矩阵椭圆检测,可以获得目标模型的椭圆方程。通过椭圆方程可以计算出椭圆长短轴,即可获得椭圆长短轴端点以及椭圆中心点在图像上的像素坐标。
因为类圆柱目标没有唯一特征点,如果只检测一个圆环进行位姿估计,目标方向无法确定,通过采取两个深度不一,大小不一的圆环,获取圆环上的长短轴四个端点以及圆心作为位姿求解的控制点,确定了目标的方向,提升位姿求解精度,有效利用了椭圆上的特征信息。
通过检测目标的两个椭圆,可以提供10个控制点坐标。由于目标的3D模型已知,因此可以建立起目标椭圆特征的2D-3D的对应关系,如图6所示。
这里的相机的内参可以通过查询官方参数或者张氏标定法等求解出来,而且2D-3D对应关系已经建立,则目标与相机之间的位姿关系可以通过EPnP算法求解。
EPnP原理是利用已知的三维空间点坐标,通过主成分分析(PCA)法选择4个控制点建立新的控制点坐标系,将三维空间点坐标以4个控制点的形式表示出来,如下式子所示。
其中j表示控制点标号,i表示特征点的标号,Pw表示世界坐标系下目标的特征点,α表示每个特征点对应控制点的权值,Pc表示相机坐标系下的目标的三维特征点,如下式子所示,其中R0和T0为待求位姿关系的初值。
通过主成分分析法(PCA),矩阵特征向量求解可以得相机坐标系下的目标的三维特征点Pc。此时可以建立Pw和Pc的3D-3D对应关系,并通过迭代最近点(Iterative ClosestPoint,ICP)求解。根据ICP求解的步骤,先求出两个坐标系下的两组三维特征点的质心,以及去质心坐标,计算公式如下:
其中,和Mw分别为世界坐标系下的质心坐标,去质心坐标。/>和Mc分别为相机坐标系下的质心坐标。设H=[Mc]T·[Mw],对H进行SVD分解,H=U∑VT,因此旋转矩阵R0和平移向量T0由如下式子可以求得,设poseinit=[R0,T0]。
通过EPnP解算,给定初值R0,T0,并进行优化求解。对于空间特征点已知的合作目标,通常采用像方重投影的方法来进行优化。光束平差优化是要将所有重投影误差最小化,因此对所有点的像素误差求和,如下式子所示。
A为相机内参,k为畸变系数,Riw,Tiw为相机与世界坐标系之间的相对位姿关系。在非线性方程迭代求解的过程中,微小增量Δx是一个六维的列向量,其表达形式如下式子所示。
Δx=[δρ,δφ]T=[ΔTX,ΔTY,ΔTZ,ΔAX,ΔAY,ΔAZ]T (5)
增量Δx的变化,引起像素坐标点e的变化。设e是关于x的函数,根据Taylor展开式,有如下式子。
其中H=JTJ。J为2ⅹ6雅可比矩阵(Jacobian Matrix),H为6ⅹ6的黑森矩阵(Hessian Matrix),J雅可比矩阵如下所示。
H矩阵的求解如下式子所示。
H=JTJ (8)
在列文伯格-马夸尔特(Levenberg-Marquadt)优化中,目标函数的优化问题是一个带着不等式的优化问题,用拉格朗日乘子把约束项放到目标函数中去,构成拉格朗日函数。
λ为拉格朗日乘子,I为单位矩阵,μ为一常数,令拉格朗日函数关于Δx的导数为零,其核心还是计算增量的线性方程,如下式子表示。
(H+λI)·Δx=JTe (10)
该处的e表示所有点重投影像差的列向量,假设由n个观测点,则J的维度为2n×6,H的维度为6×6,e的维度为2n×1。
本发明实际采用了10个控制点,即两组椭圆长短轴四个端点以及圆心坐标,使得算法的解算精度更高。
上述基于YOLO的类圆柱目标位姿估计方法中,通过类圆柱目标的训练图像集训练基于YOLO的目标检测网络,用于得到待检测类圆柱目标的目标检测框,根据目标检测框进行图像裁剪,再通过基于弧段邻接矩阵的快速椭圆检测算法对类圆柱目标进行椭圆检测,得到两组椭圆信息,通过EPnP算法求解得到类圆柱目标的位姿信息。本发明在目标部分被遮挡、复杂背景的情况下均可以实现准确的椭圆检测,从而进行类圆柱目标的位姿估计,检测精度更高,鲁棒性更强。
在其中一个实施例中,还包括:通过相机采集类圆柱目标的图像,得到图像集;其中,在采集目标图像时,类圆柱目标被放置于预设的aruco板上;根据图像集中的图像,对aruco板的特征点进行检测,得到aruco板特征点信息,根据aruco板特征点信息,通过投影方程及Levenberg-Marquardt最小二乘优化算法确定对应当前图像的位姿信息;获取类圆柱目标的三维点云模型信息;三维点云模型由类圆柱目标圆环上多个三维点构成;根据位姿信息和三维点云模型信息,通过投影方程确定三维点云模型的像素点坐标;根据三维点云模型的像素点坐标确定类圆柱目标的目标检测框信息,作为当前图像的标签信息;由图像集及其中图像对应的标签信息构成训练图像集。
标注目标检测框的步骤如下:
a.通过采集的图像数据检测aruco板的特征点;
b.根据aruco板的特征点通过投影方程以及优化算法求解出图像位姿;
c.利用解算出来的位姿,以及目标的三维点云模型,通过投影方程得到模型在图像上的像素点坐标;
其中K3×4表示相机内参矩阵,表示第i帧图像中目标到相机坐标系的位姿,表示第i帧图像,第j个关键点在图像上的像素点坐标,Pj表示目标第j个关键点的三维坐标。
d.通过式子(1),以及目标空间三维点坐标的集合P,可以求得训练数据集中第i帧图像的像素点坐标集合e(i),通过e(i)来构建目标检测和关键点提取所需要的训练标签,标签制作的方法如下。
其中{xmin,ymin,xmax,ymax}作为目标的检测框,{thr1,thr2,thr3,thr4}为设置的阈值,阈值是根据经验设置,使得裁剪图像大小可以按照需求调整,避免裁剪掉有效信息。
在其中一个实施例中,还包括:获取预知的类圆柱目标的三维骨架模型信息;根据类圆柱目标的位姿信息和三维骨架模型信息,将类圆柱目标的三维骨架模型重投影到窄带滤波图像上;根据重投影结果判定求取的位姿信息的准确性。
如图7中实线为一个具体实施例中类圆柱目标的三维骨架示意图,如图8为把三维骨架模型投影到图像上的重投影结果,其中,黑色方框表示检测到两个圆环特征的区域,灰色圆环表示三维骨架模型重投影到图像上的结果,可见三维骨架模型与图像上的目标吻合良好,验证所求得的位姿是准确的。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个具体实施例中,通过实验验证本发明方法的效果。实验采用的是圆面倒锥形类圆柱体,根据实际应用的需要,分别对不同角度的目标模型进行检测。
实验步骤如下,
(1)为获取真值,将类圆柱目标安装在精密水平位移台上,位移台精度可达到0.01mm;
(2)将相机安装在距离目标900mm处;
(3)分别测量目标移动37mm、52mm、58mm、71mm、85mm、92mm、104mm时的相机解算距离与平均误差。
数据处理后,实验结果表明,用YOLOv7作为目标检测模型的结果置信度可达到90%以上,相机测量的平均误差在3mm以内,如图9所示。
在一个实施例中,如图10所示,提供了一种基于YOLO的类圆柱目标位姿估计装置,包括:训练图像集构建模块1002、目标检测网络训练模块1004、图像裁剪模块1006、椭圆信息确定模块1008和位姿信息确定模块1010,其中:
训练图像集构建模块1002,用于构建待检测的类圆柱目标的训练图像集;训练图像集中包括类圆柱目标的多种位姿的目标图像;目标图像上标注了类圆柱目标的目标检测框;类圆柱目标具有两个圆环特征;
目标检测网络训练模块1004,用于通过训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
图像裁剪模块1006,用于获取待检测的类圆柱目标的图像,将待检测的类圆柱目标的图像输入训练好的目标检测网络中,得到对应的目标检测框,根据目标检测框对待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
椭圆信息确定模块1008,用于根据裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对类圆柱目标进行椭圆检测,得到两组椭圆信息;
位姿信息确定模块1010,用于根据两组椭圆信息,通过EPnP算法求解得到类圆柱目标的位姿信息。
训练图像集构建模块1002还用于通过相机采集类圆柱目标的图像,得到图像集;其中,在采集目标图像时,类圆柱目标被放置于预设的aruco板上;根据图像集中的图像,对aruco板的特征点进行检测,得到aruco板特征点信息,根据aruco板特征点信息,通过投影方程及最小二乘优化算法确定对应当前图像的位姿信息;获取类圆柱目标的三维点云模型信息;三维点云模型由类圆柱目标圆环上多个三维点构成;根据位姿信息和三维点云模型信息,通过投影方程确定三维点云模型的像素点坐标;根据三维点云模型的像素点坐标确定类圆柱目标的目标检测框信息,作为当前图像的标签信息;由图像集及其中图像对应的标签信息构成训练图像集。
位姿信息确定模块1010还用于获取预知的类圆柱目标的三维骨架模型信息;根据类圆柱目标的位姿信息和三维骨架模型信息,将类圆柱目标的三维骨架模型重投影到窄带滤波图像上;根据重投影结果判定求取的位姿信息的准确性。
椭圆信息确定模块1008还用于根据裁剪后图像提取出边缘线,将边缘线分割成椭圆弧,根据椭圆弧构造有向的弧段邻接矩阵;通过双向遍历弧段邻接矩阵,得到候选的弧段组合以及基于累积因子的累积矩阵;通过Jacobi算法对累积矩阵进行二次特征分解,拟合出候选椭圆;通过计算验证分数对候选椭圆矩阵进行验证,消除虚假椭圆,得到椭圆检测结果及两个圆环对应的椭圆信息。
位姿信息确定模块1010还用于获取两组椭圆长短轴四个端点坐标信息和椭圆中心点坐标信息,确定控制点坐标信息;获取类圆柱目标的三维骨架模型信息;根据控制点坐标信息与三维骨架模型信息建立类圆柱目标椭圆特征的2D-3D对应关系;根据类圆柱目标椭圆特征的2D-3D对应关系EPnP算法求解得到类圆柱目标的位姿信息。
关于基于YOLO的类圆柱目标位姿估计装置的具体限定可以参见上文中对于基于YOLO的类圆柱目标位姿估计方法的限定,在此不再赘述。上述基于YOLO的类圆柱目标位姿估计装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于YOLO的类圆柱目标位姿估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于YOLO的类圆柱目标位姿估计方法,其特征在于,所述方法包括:
构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
2.根据权利要求1所述的方法,其特征在于,构建待检测的类圆柱目标的训练图像集,包括:
通过相机采集所述类圆柱目标的图像,得到图像集;其中,在采集目标图像时,所述类圆柱目标被放置于预设的aruco板上;
根据所述图像集中的图像,对所述aruco板的特征点进行检测,得到aruco板特征点信息,根据所述aruco板特征点信息,通过投影方程及最小二乘优化算法确定对应当前图像的位姿信息;
获取所述类圆柱目标的三维点云模型信息;所述三维点云模型由所述类圆柱目标圆环上多个三维点构成;
根据所述位姿信息和所述三维点云模型信息,通过投影方程确定所述三维点云模型的像素点坐标;
根据所述三维点云模型的像素点坐标确定所述类圆柱目标的目标检测框信息,作为当前图像的标签信息;
由所述图像集及其中图像对应的标签信息构成训练图像集。
3.根据权利要求1所述的方法,其特征在于,在根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息之后,包括:
获取预知的所述类圆柱目标的三维骨架模型信息;
根据所述类圆柱目标的位姿信息和所述三维骨架模型信息,将所述类圆柱目标的三维骨架模型重投影到所述窄带滤波图像上;
根据重投影结果判定求取的位姿信息的准确性。
4.根据权利要求3所述的方法,其特征在于,根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息,包括:
根据所述裁剪后图像提取出边缘线,将所述边缘线分割成椭圆弧,根据所述椭圆弧构造有向的弧段邻接矩阵;
通过双向遍历所述弧段邻接矩阵,得到候选的弧段组合以及基于累积因子的累积矩阵;
通过Jacobi算法对所述累积矩阵进行二次特征分解,拟合出候选椭圆;
通过计算验证分数对所述候选椭圆矩阵进行验证,消除虚假椭圆,得到椭圆检测结果及两个圆环对应的椭圆信息。
5.根据权利要求4所述的方法,其特征在于,所述椭圆信息为椭圆长短轴四个端点坐标信息和椭圆中心点坐标信息。
6.根据权利要求5所述的方法,其特征在于,根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息,包括:
获取两组椭圆长短轴四个端点坐标信息和椭圆中心点坐标信息,确定控制点坐标信息;
获取所述类圆柱目标的三维骨架模型信息;
根据所述控制点坐标信息与所述三维骨架模型信息建立类圆柱目标椭圆特征的2D-3D对应关系;
根据所述类圆柱目标椭圆特征的2D-3D对应关系EPnP算法求解得到所述类圆柱目标的位姿信息。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述基于YOLO的目标检测网络为基于YOLOv7的目标检测网络。
8.一种基于YOLO的类圆柱目标位姿估计装置,其特征在于,所述装置包括:
训练图像集构建模块,用于构建待检测的类圆柱目标的训练图像集;所述训练图像集中包括所述类圆柱目标的多种位姿的目标图像;所述目标图像上标注了所述类圆柱目标的目标检测框;所述类圆柱目标具有两个圆环特征;
目标检测网络训练模块,用于通过所述训练图像集对基于YOLO的目标检测网络进行训练,得到训练好的目标检测网络;
图像裁剪模块,用于获取待检测的类圆柱目标的图像,将所述待检测的类圆柱目标的图像输入所述训练好的目标检测网络中,得到对应的目标检测框,根据所述目标检测框对所述待检测的类圆柱目标的图像中的类圆柱目标进行裁剪,得到裁剪后图像;
椭圆信息确定模块,用于根据所述裁剪后图像,通过基于弧段邻接矩阵的快速椭圆检测算法对所述类圆柱目标进行椭圆检测,得到两组椭圆信息;
位姿信息确定模块,用于根据所述两组椭圆信息,通过EPnP算法求解得到所述类圆柱目标的位姿信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311281413.7A CN117115260A (zh) | 2023-09-28 | 2023-09-28 | 基于yolo的类圆柱目标位姿估计方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311281413.7A CN117115260A (zh) | 2023-09-28 | 2023-09-28 | 基于yolo的类圆柱目标位姿估计方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117115260A true CN117115260A (zh) | 2023-11-24 |
Family
ID=88796666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311281413.7A Pending CN117115260A (zh) | 2023-09-28 | 2023-09-28 | 基于yolo的类圆柱目标位姿估计方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117115260A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649619A (zh) * | 2024-01-26 | 2024-03-05 | 北京科技大学 | 无人机视觉导航定位回收方法、系统、装置及可读存储介质 |
-
2023
- 2023-09-28 CN CN202311281413.7A patent/CN117115260A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649619A (zh) * | 2024-01-26 | 2024-03-05 | 北京科技大学 | 无人机视觉导航定位回收方法、系统、装置及可读存储介质 |
CN117649619B (zh) * | 2024-01-26 | 2024-04-19 | 北京科技大学 | 无人机视觉导航定位回收方法、系统、装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446585B (zh) | 目标跟踪方法、装置、计算机设备和存储介质 | |
JP4825253B2 (ja) | 可変形オブジェクト認識のためのシステムおよび方法 | |
CN107671896B (zh) | 基于scara机器人的快速视觉定位方法及系统 | |
CN117115260A (zh) | 基于yolo的类圆柱目标位姿估计方法、装置和设备 | |
CN109255802B (zh) | 行人跟踪方法、装置、计算机设备及存储介质 | |
Pei et al. | Effective image registration based on improved harris corner detection | |
KR20120044484A (ko) | 이미지 처리 시스템에서 물체 추적 장치 및 방법 | |
Wu et al. | Scale-adaptive pothole detection and tracking from 3-d road point clouds | |
WO2013024665A1 (ja) | 特徴点対応付けシステム、特徴点対応付け方法、および記録媒体 | |
Zhu et al. | Binocular vision positioning method for safety monitoring of solitary elderly | |
Guerreiro et al. | Incremental local Hough Transform for line segment extraction | |
CN109191489B (zh) | 一种飞行器着陆标志的检测跟踪方法与系统 | |
CN110619337B (zh) | 一种受电弓滑板的亚像素边缘提取和识别方法 | |
Wang et al. | Extracting hand articulations from monocular depth images using curvature scale space descriptors | |
CN117173246A (zh) | 基于窄带滤波的类圆柱目标位姿估计方法、装置和设备 | |
CN113870223A (zh) | 设备屏幕漏液检测方法及装置 | |
Du et al. | Grid-based matching for full-field large-area deformation measurement | |
Hsu et al. | Real-time 3-D object recognition using scale invariant feature transform and stereo vision | |
JP5814714B2 (ja) | 画像類似度判定装置、画像類似度判定方法及び画像類似度判定プログラム | |
Ma et al. | Sequential similarity detection algorithm based on image edge feature | |
Jiandong | Ellipse detection based on principal component analysis | |
Zhang et al. | Target strategy for industrial robots | |
CN117953002B (zh) | 基于Harris角点检测及匹配算法的CAD图纸翻模方法 | |
Gu et al. | An adaptive fitting approach for the visual detection and counting of small circular objects in manufacturing applications | |
CN118096742B (zh) | 一种基于角点检测和三维建模技术的贴片机吸嘴检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |