CN111462241B

CN111462241B - 一种基于单目视觉的目标定位方法

Info

Publication number: CN111462241B
Application number: CN202010268487.7A
Authority: CN
Inventors: 邓方; 高峰; 姬艳鑫; 石翔; 李凌汉; 王向阳; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-03-28
Anticipated expiration: 2040-04-08
Also published as: CN111462241A

Abstract

本发明公开了一种基于单目视觉的目标定位方法，通过单幅RGB图像实现目标检测和定位测距，使用深度学习技术回归目标尺寸，无需交互式提供待检测目标先验信息，简化了整个定位流程；通过引入比例因子将传统单目定位模型扩展至三维空间，并且提出了一种基于优化理论的目标定位方法，将目标定位问题转化为优化问题，理论上，在焦距适合的前提下，针对不同距离的目标均能实现高精度目标定位；相较于双目测距，本发明所提出方法理论上不受基线限制，更易在室外复杂环境下部署，适用范围更广；本发明所提方法可以同时检测单幅RGB图像上的多个目标物，进而构建整个场景的动态地图。

Description

一种基于单目视觉的目标定位方法

技术领域

本发明属于目标定位技术领域，具体涉及一种基于单目视觉的目标定位方法。

背景技术

目标定位技术是立体视觉的核心问题之一，广泛应用于无人驾驶、航空测绘、军事侦查和工业检测等领域。作为目标定位技术中的一个分支，基于单目视觉的目标定位技术在近年来的研究中受到广泛的关注，相应的研究方法主要可以分为以下三类：

1、基于传统单目定位模型的目标定位方法。根据相似三角形原理，传统的单目定位模型认为对于焦距固定的镜头，当目标投影大小不变时，目标深度与目标大小成正比。如姬艳鑫在专利《一种基于单目视觉的目标识别定位方法》(CN110009682)中将目标检测模型提取到的目标回归框大小作为目标投影大小并代入单目定位模型解算目标位置信息。显然，在现实情况下，检测回归框构成的是目标三维立体结构投影的边界，因此目标与回归框之间无法直接构成映射关系，因此将回归框大小用于目标定位会带来定位误差。

2、基于约束的目标定位方法。此类方法认为在理想条件下，目标的三维立体投影边界与检测回归框应保持一致，进而以此作为约束并参与目标位置解算。如A.Mousavian等在论文《3D Bounding Box Estimation Using Deep Learning and Geometry》中首先利用深度学习技术检测目标并回归尺寸、姿态等相关信息，然后基于约束定位目标。然而由于约束的强耦合性质，目标检测的微小误差会极大的削弱模型的定位性能。

3、基于深度学习的目标定位方法。随着深度学习技术的发展，一些学者利用端到端的神经网络检测目标并回归目标深度信息。一般而言，此类方法需要大量具有目标真实位置标签的数据集，且在陌生环境下，模型的定位稳定性较差。

发明内容

有鉴于此，本发明提供了一种基于单目视觉的目标定位方法，可利用简单设备，实现更好的目标定位。

一种基于单目视觉的目标定位方法，包括以下步骤：

步骤1：首先对单目视觉摄像头进行标定，获取摄像头的内参和畸变系数，假设标定后的内参矩阵为K，其中像素焦距为f_x,f_y,主点的像素坐标为O_x,O_y；

步骤2：使用单目摄像头获取环境图像，利用步骤1得到的内参及畸变系数矫正图像；使用深度学习目标检测模型检测目标得到目标类别及回归框，记回归框像素坐标为(b_x,b_y,b_w,b_h)，其中b_x,b_y为回归框中心点的像素坐标，b_w,b_h为回归框的像素宽与像素高；然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R；最后查找先验信息库获取目标类别对应的平均尺寸，加上目标尺寸偏移量得到目标尺寸，记目标的长宽高分别为L,W,H；

步骤3：三维空间中，记B_tB_d为目标的中轴线，记H为目标高度，B_tB_d在图像平面的投影长度为h_r且h_r≠b_h；引入比例因子α使得h_r＝α*b_h；根据目标中心点B在图像平面内的投影点A的像素坐标为(b_x,b_y)，令点B在相机坐标系下的坐标为(T_x,T_y,T_z)，那么改进的单目定位模型可表示为：

目标相对于相机的平移向量T＝[T_x,T_y,T_z]^T，其中T_x,T_y,T_z均为α的一元函数；

步骤4：以目标中心点B为原点，建立物体局部坐标系；根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{p_i|1≤i≤8}；利用步骤2与步骤3得到的数据，依据几何投影关系，得到目标的三维立体投影边界

满足等式(2)：

用目标函数L_d(α)表征目标的三维立体投影边界与步骤2中检测得到的目标回归框之间的重合程度，如下：

其中

为步骤2检测得到的目标回归框边界，满足：

将等式(1)(2)(4)代入等式(3)，得到L_d(α)的表达式，其中α为未知数；

求解使得L_d(α)取最小值的α，定义为α^*；

步骤5：将h_r＝α^**b_h代入等式(1)中解算出目标在相机坐标系的坐标。

进一步的，所示步骤2中，当深度学习模型检测出环境中存在多个目标时，根据步骤3至步骤5的方法分别定位每个目标。

进一步的，所述步骤5中，采用摄像头GPS和惯性导航设备进一步获取目标的绝对位置。

进一步的，根据步骤5得到的目标位置信息，搭建可视化平台，构建环境的动态实时地图。

较佳的，采用梯度下降法求解α。

本发明具有如下有益效果：

1、本发明只利用了单幅RGB图像即可完成目标的检测与定位过程，相较于雷达等设备，单目摄像头更为廉价且易于安装使用。除此之外，相较于双目定位技术，本发明利用的单目定位理论不受基线的限制，因此更易于野外环境下的部署以及远距离小目标定位场景。

2、本发明所提供的方法将传统定位模型扩展至三维空间，并在一定程度上弱化了目标检测和目标定位之间的耦合关系，因此相较于传统单目定位模型以及基于约束的目标定位方法，本发明的定位性能更优。

3、本发明所提供的方法采用了深度学习技术回归目标尺寸大小，因此不需要交互式地提供目标具体尺寸等先验信息，完成了拍摄即检测，检测即定位一体化。

附图说明

图1为本发明所提供的方法的流程图；

图2为本发明的单目定位模型示意图。

具体实施方式

下面结合附图，对本发明进行详细描述。

如图1所示，本发明提供了一种基于单目视觉的目标定位方法，具体包括以下步骤：

步骤1：对单目摄像头进行标定并获得摄像头的内参及畸变系数，假设标定后的内参矩阵为K，其中像素焦距为f_x,f_y,主点的像素坐标为O_x,O_y；

步骤2：使用单目摄像头获取环境图像，利用步骤1得到的内参及畸变系数矫正图像。首先使用深度学习目标检测模型检测目标得到目标类别及回归框，记回归框像素坐标为(b_x,b_y,b_w,b_h)，其中b_x,b_y为回归框中心点的像素坐标，b_w,b_h为回归框的像素宽与像素高。然后使用深度学习目标尺寸及姿态回归网络(参见文献：A.Mousavian,D.Anguelov,J.Flynn,et al.3D Bounding Box Estimation Using Deep Learning and Geometry[J].2016)得到目标尺寸偏移量及相对于相机的姿态角,记姿态角构成的旋转矩阵为R。最后查找先验信息库获取目标类别对应的平均尺寸，加上目标尺寸偏移量得到目标尺寸，记目标的长宽高分别为L,W,H；

步骤3：如图2所示，三维空间中，记B_tB_d为目标的中轴线，记H为目标高度。显然，B_tB_d在图像平面的投影长度为h_r且h_r≠b_h，因此这里引入比例因子α使得h_r＝α*b_h。假设目标中心点B在图像平面内的投影点A的像素坐标为(b_x,b_y)，令点B在相机坐标系下的坐标为(T_x,T_y,T_z)，那么改进的单目定位模型可表示为：

由等式(1)可知，目标相对于相机的平移向量T＝[T_x,T_y,T_z]^T，其中T_x,T_y,T_z均为α的一元函数；

步骤4：建立物体局部坐标系，即以目标中心点B为原点，分别以平行于目标长、宽和高的方向作为三个坐标轴，建立三维空间直角坐标系。根据步骤2得到的目标尺寸L,W,H初始化目标的8个顶点在物体局部坐标系下的坐标为{p_i|1≤i≤8}。利用步骤2与步骤3得到的数据，依据几何投影关系，可以得到目标的三维立体投影边界

且满足等式(2)：

这里认为目标的三维立体投影边界应与步骤2中检测得到的目标回归框保持一致，这里有多种方法可表征二者之间的重合程度，以二者之间的距离L_d为例，建立目标函数L_d(α)如下：

其中

为步骤2检测得到的目标回归框边界，满足：

将等式(1)(2)(4)代入等式(3)，即可得到L_d(α)的展开式，其中只有α为未知数。

综上所述，步骤4将目标定位问题转化为了单目标优化问题，这里可以使用多种优化方法求解α^*，例如梯度下降法等。记α^*＝arg min_α(L_d(α))。

除此之外，在实际应用过程中，当需要更精确定位远近处不同的目标时，可以通过改变摄像头焦距获得更加精准的数据。

实施例

本实例中相机竖直放置，针对距离相机0至120米以内的不同汽车进行了多次定位，其中汽车姿态均保持竖直。为了能有效检测到分布在不同距离的目标，实例中挑选了具有三种不同焦距的镜头，具体参数见表1。

表1镜头相关参数(单位：像素)

这里用对照实验I与对照实验II验证本实验所提方法的性能。其中，对照实验I采用传统的单目定位模型[1]，目标物(汽车)的长宽高分别设为4.75米、1.93米与1.8米，对照实验II采用基于约束的目标定位方法[2]。在我们的方法中，选中Multi-bin[1]模块回归目标尺寸及姿态，除此之外，为了获得具有对比性的实验结果，三组实验均选用YOLOv3网络作为目标检测模块。以目标测量距离与真实距离的差值绝对值作为最终评价标准，实验结果如表2所示。

表2目标定位实验结果(单位：米)

实验结果证明，本发明所提目标定位方法的性能远远优于两种对照方法，且在焦距合适的前提下，本方法可以满足远距离小目标精确定位的需求。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于单目视觉的目标定位方法，其特征在于，包括以下步骤：

步骤1：首先对单目视觉摄像头进行标定，获取摄像头的内参和畸变系数，假设标定后的内参矩阵为K，其中像素焦距为f_x，f_y，主点的像素坐标为O_x，O_y；

步骤2：使用单目摄像头获取环境图像，利用步骤1得到的内参及畸变系数矫正图像；使用深度学习目标检测模型检测目标得到目标类别及回归框，记回归框像素坐标为(b_x，b_y，b_w，b_h)，其中b_x，b_y为回归框中心点的像素坐标，b_w，b_h为回归框的像素宽与像素高；然后使用深度学习目标尺寸及姿态回归网络得到目标尺寸偏移量及相对于相机的姿态角，记姿态角构成的旋转矩阵为R；最后查找先验信息库获取目标类别对应的平均尺寸，加上目标尺寸偏移量得到目标尺寸，记目标的长宽高分别为L，W，H；

步骤3：三维空间中，记B_tB_d为目标的中轴线，记H为目标高度，B_tB_d在图像平面的投影长度为h_r且h_r≠b_h；引入比例因子α使得h_r＝α*b_h；根据目标中心点B在图像平面内的投影点A的像素坐标为(b_x，b_y)，令点B在相机坐标系下的坐标为(T_x，T_y，T_z)，那么改进的单目定位模型可表示为：

目标相对于相机的平移向量T＝[T_x，T_y，T_z]^T，其中T_x，T_y，T_z均为α的一元函数；

步骤4：以目标中心点B为原点，建立物体局部坐标系；根据步骤2得到的目标尺寸L，W，H初始化目标的8个顶点在物体局部坐标系下的坐标为{p_i|1≤i≤8}；利用步骤2与步骤3得到的数据，依据几何投影关系，得到目标的三维立体投影边界

满足等式(2)：

其中

为步骤2检测得到的目标回归框边界，满足：

求解使得L_d(α)取最小值的α，定义为α^*；

2.如权利要求1所述的一种基于单目视觉的目标定位方法，其特征在于，所示步骤2中，当深度学习模型检测出环境中存在多个目标时，根据步骤3至步骤5的方法分别定位每个目标。

3.如权利要求1所述的一种基于单目视觉的目标定位方法，其特征在于，所述步骤5中，采用摄像头GPS和惯性导航设备进一步获取目标的绝对位置。

4.如权利要求1所述的一种基于单目视觉的目标定位方法，其特征在于，还包括：根据步骤5得到的目标位置信息，搭建可视化平台，构建环境的动态实时地图。

5.如权利要求1所述的一种基于单目视觉的目标定位方法，其特征在于，采用梯度下降法求解α。