CN111462241B - 一种基于单目视觉的目标定位方法 - Google Patents
一种基于单目视觉的目标定位方法 Download PDFInfo
- Publication number
- CN111462241B CN111462241B CN202010268487.7A CN202010268487A CN111462241B CN 111462241 B CN111462241 B CN 111462241B CN 202010268487 A CN202010268487 A CN 202010268487A CN 111462241 B CN111462241 B CN 111462241B
- Authority
- CN
- China
- Prior art keywords
- target
- camera
- positioning
- monocular
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 230000004807 localization Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于单目视觉的目标定位方法,通过单幅RGB图像实现目标检测和定位测距,使用深度学习技术回归目标尺寸,无需交互式提供待检测目标先验信息,简化了整个定位流程;通过引入比例因子将传统单目定位模型扩展至三维空间,并且提出了一种基于优化理论的目标定位方法,将目标定位问题转化为优化问题,理论上,在焦距适合的前提下,针对不同距离的目标均能实现高精度目标定位;相较于双目测距,本发明所提出方法理论上不受基线限制,更易在室外复杂环境下部署,适用范围更广;本发明所提方法可以同时检测单幅RGB图像上的多个目标物,进而构建整个场景的动态地图。
Description
技术领域
本发明属于目标定位技术领域,具体涉及一种基于单目视觉的目标定位方法。
背景技术
目标定位技术是立体视觉的核心问题之一,广泛应用于无人驾驶、航空测绘、军事侦查和工业检测等领域。作为目标定位技术中的一个分支,基于单目视觉的目标定位技术在近年来的研究中受到广泛的关注,相应的研究方法主要可以分为以下三类:
1、基于传统单目定位模型的目标定位方法。根据相似三角形原理,传统的单目定位模型认为对于焦距固定的镜头,当目标投影大小不变时,目标深度与目标大小成正比。如姬艳鑫在专利《一种基于单目视觉的目标识别定位方法》(CN110009682)中将目标检测模型提取到的目标回归框大小作为目标投影大小并代入单目定位模型解算目标位置信息。显然,在现实情况下,检测回归框构成的是目标三维立体结构投影的边界,因此目标与回归框之间无法直接构成映射关系,因此将回归框大小用于目标定位会带来定位误差。
2、基于约束的目标定位方法。此类方法认为在理想条件下,目标的三维立体投影边界与检测回归框应保持一致,进而以此作为约束并参与目标位置解算。如A.Mousavian等在论文《3D Bounding Box Estimation Using Deep Learning and Geometry》中首先利用深度学习技术检测目标并回归尺寸、姿态等相关信息,然后基于约束定位目标。然而由于约束的强耦合性质,目标检测的微小误差会极大的削弱模型的定位性能。
3、基于深度学习的目标定位方法。随着深度学习技术的发展,一些学者利用端到端的神经网络检测目标并回归目标深度信息。一般而言,此类方法需要大量具有目标真实位置标签的数据集,且在陌生环境下,模型的定位稳定性较差。
发明内容
有鉴于此,本发明提供了一种基于单目视觉的目标定位方法,可利用简单设备,实现更好的目标定位。
一种基于单目视觉的目标定位方法,包括以下步骤:
步骤1:首先对单目视觉摄像头进行标定,获取摄像头的内参和畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;
步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像;使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高;然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R;最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;
步骤3:三维空间中,记BtBd为目标的中轴线,记H为目标高度,BtBd在图像平面的投影长度为hr且hr≠bh;引入比例因子α使得hr=α*bh;根据目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:
目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;
步骤4:以目标中心点B为原点,建立物体局部坐标系;根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{pi|1≤i≤8};利用步骤2与步骤3得到的数据,依据几何投影关系,得到目标的三维立体投影边界满足等式(2):
用目标函数Ld(α)表征目标的三维立体投影边界与步骤2中检测得到的目标回归框之间的重合程度,如下:
将等式(1)(2)(4)代入等式(3),得到Ld(α)的表达式,其中α为未知数;
求解使得Ld(α)取最小值的α,定义为α*;
步骤5:将hr=α**bh代入等式(1)中解算出目标在相机坐标系的坐标。
进一步的,所示步骤2中,当深度学习模型检测出环境中存在多个目标时,根据步骤3至步骤5的方法分别定位每个目标。
进一步的,所述步骤5中,采用摄像头GPS和惯性导航设备进一步获取目标的绝对位置。
进一步的,根据步骤5得到的目标位置信息,搭建可视化平台,构建环境的动态实时地图。
较佳的,采用梯度下降法求解α。
本发明具有如下有益效果:
1、本发明只利用了单幅RGB图像即可完成目标的检测与定位过程,相较于雷达等设备,单目摄像头更为廉价且易于安装使用。除此之外,相较于双目定位技术,本发明利用的单目定位理论不受基线的限制,因此更易于野外环境下的部署以及远距离小目标定位场景。
2、本发明所提供的方法将传统定位模型扩展至三维空间,并在一定程度上弱化了目标检测和目标定位之间的耦合关系,因此相较于传统单目定位模型以及基于约束的目标定位方法,本发明的定位性能更优。
3、本发明所提供的方法采用了深度学习技术回归目标尺寸大小,因此不需要交互式地提供目标具体尺寸等先验信息,完成了拍摄即检测,检测即定位一体化。
附图说明
图1为本发明所提供的方法的流程图;
图2为本发明的单目定位模型示意图。
具体实施方式
下面结合附图,对本发明进行详细描述。
如图1所示,本发明提供了一种基于单目视觉的目标定位方法,具体包括以下步骤:
步骤1:对单目摄像头进行标定并获得摄像头的内参及畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;
步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像。首先使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高。然后使用深度学习目标尺寸及姿态回归网络(参见文献:A.Mousavian,D.Anguelov,J.Flynn,et al.3D Bounding Box Estimation Using Deep Learning and Geometry[J].2016)得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R。最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;
步骤3:如图2所示,三维空间中,记BtBd为目标的中轴线,记H为目标高度。显然,BtBd在图像平面的投影长度为hr且hr≠bh,因此这里引入比例因子α使得hr=α*bh。假设目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:
由等式(1)可知,目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;
步骤4:建立物体局部坐标系,即以目标中心点B为原点,分别以平行于目标长、宽和高的方向作为三个坐标轴,建立三维空间直角坐标系。根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{pi|1≤i≤8}。利用步骤2与步骤3得到的数据,依据几何投影关系,可以得到目标的三维立体投影边界且满足等式(2):
这里认为目标的三维立体投影边界应与步骤2中检测得到的目标回归框保持一致,这里有多种方法可表征二者之间的重合程度,以二者之间的距离Ld为例,建立目标函数Ld(α)如下:
将等式(1)(2)(4)代入等式(3),即可得到Ld(α)的展开式,其中只有α为未知数。
综上所述,步骤4将目标定位问题转化为了单目标优化问题,这里可以使用多种优化方法求解α*,例如梯度下降法等。记α*=arg minα(Ld(α))。
步骤5:将hr=α**bh代入等式(1)中解算出目标在相机坐标系的坐标。
除此之外,在实际应用过程中,当需要更精确定位远近处不同的目标时,可以通过改变摄像头焦距获得更加精准的数据。
实施例
本实例中相机竖直放置,针对距离相机0至120米以内的不同汽车进行了多次定位,其中汽车姿态均保持竖直。为了能有效检测到分布在不同距离的目标,实例中挑选了具有三种不同焦距的镜头,具体参数见表1。
表1镜头相关参数(单位:像素)
这里用对照实验I与对照实验II验证本实验所提方法的性能。其中,对照实验I采用传统的单目定位模型[1],目标物(汽车)的长宽高分别设为4.75米、1.93米与1.8米,对照实验II采用基于约束的目标定位方法[2]。在我们的方法中,选中Multi-bin[1]模块回归目标尺寸及姿态,除此之外,为了获得具有对比性的实验结果,三组实验均选用YOLOv3网络作为目标检测模块。以目标测量距离与真实距离的差值绝对值作为最终评价标准,实验结果如表2所示。
表2目标定位实验结果(单位:米)
实验结果证明,本发明所提目标定位方法的性能远远优于两种对照方法,且在焦距合适的前提下,本方法可以满足远距离小目标精确定位的需求。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于单目视觉的目标定位方法,其特征在于,包括以下步骤:
步骤1:首先对单目视觉摄像头进行标定,获取摄像头的内参和畸变系数,假设标定后的内参矩阵为K,其中像素焦距为fx,fy,主点的像素坐标为Ox,Oy;
步骤2:使用单目摄像头获取环境图像,利用步骤1得到的内参及畸变系数矫正图像;使用深度学习目标检测模型检测目标得到目标类别及回归框,记回归框像素坐标为(bx,by,bw,bh),其中bx,by为回归框中心点的像素坐标,bw,bh为回归框的像素宽与像素高;然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R;最后查找先验信息库获取目标类别对应的平均尺寸,加上目标尺寸偏移量得到目标尺寸,记目标的长宽高分别为L,W,H;
步骤3:三维空间中,记BtBd为目标的中轴线,记H为目标高度,BtBd在图像平面的投影长度为hr且hr≠bh;引入比例因子α使得hr=α*bh;根据目标中心点B在图像平面内的投影点A的像素坐标为(bx,by),令点B在相机坐标系下的坐标为(Tx,Ty,Tz),那么改进的单目定位模型可表示为:
目标相对于相机的平移向量T=[Tx,Ty,Tz]T,其中Tx,Ty,Tz均为α的一元函数;
步骤4:以目标中心点B为原点,建立物体局部坐标系;根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{pi|1≤i≤8};利用步骤2与步骤3得到的数据,依据几何投影关系,得到目标的三维立体投影边界满足等式(2):
用目标函数Ld(α)表征目标的三维立体投影边界与步骤2中检测得到的目标回归框之间的重合程度,如下:
将等式(1)(2)(4)代入等式(3),得到Ld(α)的表达式,其中α为未知数;
求解使得Ld(α)取最小值的α,定义为α*;
步骤5:将hr=α**bh代入等式(1)中解算出目标在相机坐标系的坐标。
2.如权利要求1所述的一种基于单目视觉的目标定位方法,其特征在于,所示步骤2中,当深度学习模型检测出环境中存在多个目标时,根据步骤3至步骤5的方法分别定位每个目标。
3.如权利要求1所述的一种基于单目视觉的目标定位方法,其特征在于,所述步骤5中,采用摄像头GPS和惯性导航设备进一步获取目标的绝对位置。
4.如权利要求1所述的一种基于单目视觉的目标定位方法,其特征在于,还包括:根据步骤5得到的目标位置信息,搭建可视化平台,构建环境的动态实时地图。
5.如权利要求1所述的一种基于单目视觉的目标定位方法,其特征在于,采用梯度下降法求解α。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268487.7A CN111462241B (zh) | 2020-04-08 | 2020-04-08 | 一种基于单目视觉的目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010268487.7A CN111462241B (zh) | 2020-04-08 | 2020-04-08 | 一种基于单目视觉的目标定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462241A CN111462241A (zh) | 2020-07-28 |
CN111462241B true CN111462241B (zh) | 2023-03-28 |
Family
ID=71685184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010268487.7A Active CN111462241B (zh) | 2020-04-08 | 2020-04-08 | 一种基于单目视觉的目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462241B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112781562B (zh) * | 2020-12-29 | 2022-06-21 | 中国北方车辆研究所 | 基于单目摄像机的多目标侦察测距方法 |
CN113034609B (zh) * | 2021-03-17 | 2022-05-03 | 南京航空航天大学 | 一种基于摄像头对目标进行定位的方法 |
CN114359391A (zh) * | 2022-01-10 | 2022-04-15 | 北京雷神博峰信息技术有限责任公司 | 一种基于几何建模的汽车燃油加注口空间定位方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024407A1 (zh) * | 2013-08-19 | 2015-02-26 | 国家电网公司 | 基于电力机器人的双目视觉导航系统及方法 |
CN105512683A (zh) * | 2015-12-08 | 2016-04-20 | 浙江宇视科技有限公司 | 基于卷积神经网络的目标定位方法及装置 |
CN107784291A (zh) * | 2017-11-03 | 2018-03-09 | 北京清瑞维航技术发展有限公司 | 基于红外视频的目标检测跟踪方法和装置 |
CN110009682A (zh) * | 2019-03-29 | 2019-07-12 | 北京理工大学 | 一种基于单目视觉的目标识别定位方法 |
-
2020
- 2020-04-08 CN CN202010268487.7A patent/CN111462241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015024407A1 (zh) * | 2013-08-19 | 2015-02-26 | 国家电网公司 | 基于电力机器人的双目视觉导航系统及方法 |
CN105512683A (zh) * | 2015-12-08 | 2016-04-20 | 浙江宇视科技有限公司 | 基于卷积神经网络的目标定位方法及装置 |
CN107784291A (zh) * | 2017-11-03 | 2018-03-09 | 北京清瑞维航技术发展有限公司 | 基于红外视频的目标检测跟踪方法和装置 |
CN110009682A (zh) * | 2019-03-29 | 2019-07-12 | 北京理工大学 | 一种基于单目视觉的目标识别定位方法 |
Non-Patent Citations (4)
Title |
---|
3D Bounding Box Estimation Using Deep Learning and Geometry;Arsalan Mousavian 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;IEEE;全文 * |
Generalized Intersection Over Union: A Metric and a Loss for Bounding Box Regression;Hamid Rezatofighi 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;IEEE;全文 * |
基于单目视觉的运动目标跟踪定位技术研究;姚楠;《中国博士学位论文全文数据库 信息科技辑》;全文 * |
基于双目立体视觉的目标物定位研究;张曙等;《软件导刊》(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111462241A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717712B (zh) | 一种基于地平面假设的视觉惯导slam方法 | |
CN111862672B (zh) | 基于顶视图的停车场车辆自定位及地图构建方法 | |
CN111462241B (zh) | 一种基于单目视觉的目标定位方法 | |
US20180192035A1 (en) | Systems and methods for object location | |
CN104732518B (zh) | 一种基于智能机器人地面特征的ptam改进方法 | |
CN111862673B (zh) | 基于顶视图的停车场车辆自定位及地图构建方法 | |
CN110782524A (zh) | 基于全景图的室内三维重建方法 | |
CN112819903A (zh) | 基于l型标定板的相机和激光雷达联合标定的方法 | |
CN107170042B (zh) | 一种无序图像的多视立体匹配的三维重建方法 | |
CN109685855A (zh) | 一种道路云监控平台下的摄像机标定优化方法 | |
CN110288659B (zh) | 一种基于双目视觉的深度成像及信息获取方法 | |
CN109146958B (zh) | 一种基于二维图像的交通标志空间位置测量方法 | |
CN111127540B (zh) | 一种三维虚拟空间自动测距方法及系统 | |
CN110517284B (zh) | 一种基于激光雷达和ptz摄像机的目标追踪方法 | |
CN105551020A (zh) | 一种检测目标物尺寸的方法及装置 | |
CN111932627B (zh) | 一种标识物绘制方法及系统 | |
CN114037762B (zh) | 基于图像与高精度地图配准的实时高精度定位方法 | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
CN104182968A (zh) | 宽基线多阵列光学探测系统模糊动目标分割方法 | |
CN112197773A (zh) | 基于平面信息的视觉和激光定位建图方法 | |
CN111476798B (zh) | 一种基于轮廓约束的车辆空间形态识别方法及系统 | |
Hallquist et al. | Single view pose estimation of mobile devices in urban environments | |
CN115457130A (zh) | 一种基于深度关键点回归的电动汽车充电口检测定位方法 | |
CN116128966A (zh) | 一种基于环境物体的语义定位方法 | |
CN112712566B (zh) | 基于结构参数在线校正的双目立体视觉传感器测量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |