CN111462240B

CN111462240B - 一种基于多单目视觉融合的目标定位方法

Info

Publication number: CN111462240B
Application number: CN202010268482.4A
Authority: CN
Inventors: 邓方; 高峰; 姬艳鑫; 李凌汉; 石翔; 朱佳琪; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-05-30
Anticipated expiration: 2040-04-08
Also published as: CN111462240A

Abstract

本发明公开了一种基于多单目视觉融合的目标定位方法，使用一组变换系数描述平行放置的镜头间的区域映射关系，对多镜头重复检测的目标回归框进行分组，并设计融合规则完成多单目视觉融合定位；基于单目视觉定位原理，相较于双目视觉定位，本发明所提方法不受基线束缚，对于视野范围内的可检测目标均能实现定位测距；相较于单目视觉定位，本发明所提方法通过融合多单目视觉定位结果，扩展了单目视觉的性能边界，实现了大范围高精度目标定位；本发明所提方法原理简单，实现方便，支持模块快速扩展。

Description

一种基于多单目视觉融合的目标定位方法

技术领域

本发明属于目标定位技术领域，具体涉及一种基于多单目视觉融合的目标定位方法。

背景技术

目标定位技术广泛应用于辅助驾驶、精细制造、侦察打击等不同领域。目前较成熟的目标定位技术方案包括激光雷达、单目以及双目三大类，其中激光雷达定位精度高但成本高昂，一般存在于高端产品，难以广泛普及应用；单目定位技术与双目定位技术均属于计算机视觉技术，旨在借助摄像机等设备获取环境信息进行目标定位，原理简单，成本低廉，组装方便，因此具有极大的研究潜力空间。

双目定位技术利用双目摄像头获取同一环境信息，通过匹配左右两幅图像中的特征点来解算目标位置信息。原理上，双目定位技术精度受到基线和焦距的限制，针对远距离目标往往需要布置几十甚至上百米长的基线，因此难以在室外进行大规模部署。

相比之下，单目定位技术仅利用单幅RGB图像进行目标定位，如姬艳鑫在专利《一种基于单目视觉的目标识别定位方法》(CN 110009682)中结合深度学习技术与先验知识库获得目标尺寸等相关参数，然后基于单目视觉模型进行目标定位。单目定位技术原理上精度不受镜头焦距有关，即增大镜头焦距可以精确定位远距离目标，然而随着镜头焦距的增加，视野范围变窄，近距离目标易“溢出”图像平面，因此研究如何通过多单目视觉融合同时满足远近距离目标的精确定位是未来的发展方向。

发明内容

有鉴于此，本发明提供了一种基于多单目视觉融合的目标定位方法，使用一组变换系数描述平行放置的镜头间的区域映射关系，设计去重分组规则对多镜头重复检测的目标回归框进行分组，并设计融合规则完成多单目视觉融合定位。

一种基于多单目视觉融合的目标定位方法，包括以下步骤：

步骤1：挑选多个具有不同焦距的镜头满足不同距离目标高精度定位需求，保证镜头姿态一致、光轴平行且小焦距镜头视野涵盖大焦距镜头视野；标定得到相应内参及畸变系数；

步骤2：各镜头同时拍摄获取同一场景的环境信息，利用步骤1中的标定数据进行畸变矫正，然后解算得到两两镜头间的变换系数；

步骤3：在目标定位时，先利用各镜头拍摄获取环境的多幅图片并进行畸变矫正，得到各图片中目标类别及回归框像素坐标；然后，针对每一类目标，将含有该类目标的所有图片，根据步骤2得到的变换系数将不同图片中的检测回归框映射至同一图片内，再将属于同一个体的回归框进行分组，每组中保留一个最优个体，即为融合后的目标；

步骤4：根据融合后的目标回归框像素坐标和步骤1得到的镜头内参，使用单目视觉定位方法解算目标位置。

较佳的，所述步骤2中，通过匹配特征点的像素点坐标解算得到两两镜头间的变换系数。

较佳的，所述步骤2中，设

与/>

分别为镜头j到镜头i在u，v方向上的缩放系数，/>

与/>

分别为镜头j到镜头i在u，v方向上的平移系数；

则镜头m与镜头n之间的变换系数

通过递推得到：

其中，m>n+1。

较佳的，所述步骤3中，对回归框进行分组的具体方法为：

step1.记图片I_i内属于某类目标的回归框为

图片I_j内属于同一类目标的检测回归框为/>

且根据变换系数映射至图片I_i内得到回归框/>

其中c₁,c₂分别代表两幅图片内的属于该类的回归框总个数；

对于映射到图片I_i内的每一个回归框

检测其与图片I_i内原有回归框

的重合程度，记其中重合程度最大的回归框为/>

step2.设置阈值，若映射的回归框

与/>

的重合程度大于所述阈值，那么认为/>

与/>

为同一个体，并分为一组；

step3.如果镜头数目不止2个时，将第三个镜头拍摄图片I_h的回归框也映射到图片I_i内，并将图片I_h的映射回归框与图片I_j的未分组映射回归框，按照step1和step2的方法进行重合度检测；以此类推，直到把所有镜头图片的映射回归框重合度检测完毕，如此，可以得到每一类目标下的个体分组数据。

较佳的，所述步骤3中，每组中保留一个最优个体的规则为：只保留每一组中最大焦距镜头拍摄的个体。

较佳的，所述步骤4中，解算目标位置后，将融合后的目标个体由局部相机坐标系下变换到全局相机坐标系下。

较佳的，所述步骤1中，将各镜头平行紧密放置组成多目模组。

较佳的，根据所述步骤4的定位结果，搭建可视化平台，构建三维场景实时动态地图。

本发明具有如下有益效果：

1、本发明所提方法通过在二维图像平面上对回归框去重分组，可以有效融合多镜头定位结果，避免定位重影；

2、本发明所提方法通过融合具有不同焦距镜头的定位结果，扩展了单一镜头的定位性能，可以高精度定位分布在不同距离的目标；

3、本发明所提方法操作简单，扩展性好，只需根据场景需要，在满足上述条件的前提下，将合适焦距的镜头进行紧密平行放置即可。

附图说明

图1为本发明的目标定位方法流程图；

图2为多目标模组结构示意图；

具体实施方式

下面结合附图，对本发明进行详细描述。

如图1所示，本发明提供了一种基于多单目视觉融合的目标定位方法，具体包括以下步骤：

步骤1：如图2所示，挑选不同焦距的镜头满足不同距离目标的高精度定位需求，平行紧密放置保证小焦距镜头视野覆盖大焦距镜头视野，标定各镜头得到内参与畸变系数。这里称各相机坐标系为局部坐标系，并且称以其中一个相机光心为原点建立的相机坐标系为全局相机坐标系。

步骤2：这里用一组变换系数k^u,k^v,b^u,b^v描述镜头间的成像关系。假设目标在镜头i中成像点的像素坐标为

在镜头j中成像点的像素坐标为/>

那么p_i与p_j为一对匹配点，则等式(1)成立：

其中，

与/>

分别为u，v方向上的缩放系数，/>

与/>

分别为u，v方向上的平移系数。

理论上，两对匹配点即可解算出镜头间的变换系数，且变换系数服从独立的高斯分布。在实际解算镜头间的变换系数时，利用各镜头获取同一环境信息，经畸变矫正后利用特征点匹配算法获得特征点匹配对的像素坐标，代入等式(1)中即可。

进一步地，镜头m与镜头n(m>n+1)之间的变换系数

可通过递推得到，递推表达式如等式(2)所示：

/>

步骤3：步骤1与步骤2属于镜头标定过程，在目标定位时，利用各镜头拍摄获取环境的多幅图片并进行畸变矫正，使用深度学习目标检测模型并行地处理各图片得到目标类别及回归框像素坐标。

由于不同镜头可能检测到同一目标，因此需要对回归框进行去重检测，具体为：针对每一类目标，将含有该类目标的所有图片，根据步骤2得到的变换系数将不同图片中的检测回归框映射至同一图片内，记图片I_i内属于该类目标的回归框为

图片I_j内属于该类目标的检测回归框为/>

且根据变换系数映射至图片I_i内得到回归框/>

其中c₁,c₂分别代表两幅图片内的属于该类的回归框总个数。

设置回归框去重分组规则，以集合

中的元素/>

为例：

step1.对于映射到图片I_i内的每一个回归框

检测其与图片I_i内原有回归框

的重合程度，记其中重合程度最大的回归框为/>

step2.设置阈值θ，若映射的回归框

与/>

的重合程度大于阈值θ，那么认为/>

与/>

为同一个体，并分为一组；

step3.如果镜头数目不止两个时，将第三个镜头拍摄图片(设为图片I_h)的回归框也映射到图片I_i内，并将图片I_h的映射回归框与图片I_j的未分组映射回归框，按照step1和step2的方法进行重合度检测；以此类推，直到把所有镜头图片的映射回归框重合度检测完毕，如此，可以得到每一类目标下的个体分组数据。

步骤4：原理上在可以观测到目标“全貌”的前提下，镜头焦距越大，定位精度越高，因此为了过滤掉目标重复检测结果，回归框融合规则设置为在目标成像不“溢出”图像平面的前提下只保留大焦距镜头的检测结果，即只保留每一组中最大焦距镜头拍摄的个体，得到融合后的目标检测结果。

根据融合后的目标回归框像素坐标和步骤1得到的镜头内参，使用单目视觉定位方法解算目标位置。由于此时各类目标融合后的目标个体可能在不同的局部相机坐标系下，因此，需要将其转换到全局相机坐标系下，如式(3)所示：

其中，(X,Y,Z)为目标在局部相机坐标下的坐标，(X′,Y′,Z′)为平移变换后目标在全局相机坐标系下的坐标，[T,0,0]^T为相机坐标系间的平移向量。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。