CN110675453B

CN110675453B - 一种已知场景中运动目标的自定位方法

Info

Publication number: CN110675453B
Application number: CN201910982437.2A
Authority: CN
Inventors: 吴刚; 林姝含; 郑文涛
Original assignee: Beijing Tianrui Kongjian Technology Co ltd
Current assignee: Beijing Tianrui Kongjian Technology Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2021-04-13
Anticipated expiration: 2039-10-16
Also published as: CN110675453A

Abstract

本发明涉及一种已知场景中运动目标的自定位方法，将相机采集的图像样本与场景的全景图像配准，依据图像样本与全景图像的配准关系和全景图像与场景的三维模型的配准关系，估计图像样本的相机姿态，以相机姿态作为相应图像样本的标记进行回归训练，获得从场景图像到相机姿态的回归模型，以设置在运动目标上的相机实时采集场景图像，以从场景图像到相机姿态的回归模型进行相机姿态估计，进而实现运动目标的定位。本发明基于监督式深度学习方法训练获得的从图像到相机姿态的回归模型，实现已知场景中运动目标的自定位，以部分地克服传统视觉定位方法存在的实时性差、处理低纹理图像稳定性不足等问题。

Description

一种已知场景中运动目标的自定位方法

技术领域

本发明涉及一种已知场景中运动目标的自定位方法。

背景技术

近年来，在诸如大型广场安防、机场场面活动引导与控制、港口生产作业区运行状态监控、工业园区管控等已知场景(指事先可获得其图像、三维模型等信息的场景)中,增强现实(Augmented Reality,AR)技术得到了越来越多的应用。实现AR需要把虚拟对象置于真实环境或真实环境的实时视频中，在真实环境或真实视频上进行信息扩增，这就对场景中运动目标的定位(包括位置和姿态)的精度提出了较高的要求。另外，在上述场景中自动驾驶展现了比一般开放场景更令人期待的应用前景，自动驾驶中车辆需要对自身进行高精度的定位。

目前主流的室外定位技术包括：GPS、惯性传感器(IMU)、光学雷达(LiDAR)、视觉定位等。其中，GPS最为常用，但在复杂动态环境中存在多路径反射问题，容易导致定位精度不足，加上更新频率低(10Hz)，在目标快速运动时难以实时精准定位；IMU通过测量加速度和旋转运动实现定位，更新频率高(1KHz)，可提供实时定位，但误差会随时间累积，主要适于短时定位；LiDAR定位精度高，但只适用于测量车辆周围的目标的相对位置,且成本较高。

视觉定位是通过视频图像估计相机的姿态变化参数(包括旋转参数和位移参数)，从而达到定位相机搭载主体的目的。主要方法包括传统方法和深度学习方法两大类。

传统方法^[1]：按照是否需要提取图像特征点，可分为特征点法和直接法，前者更为主流，该方法利用一组3D或2D特征点及其匹配关系估计相机姿态，但由于依赖于图像特征点的提取与匹配，计算较为耗时，影响了定位的实时性，另外对于低纹理图像，通常难以提取足够多的特征点用于估计相机姿态。

深度学习方法^[2-3]：近年来随着深度学习技术在计算机视觉诸多领域取得巨大飞跃，深度学习与视觉定位的结合正在成为一种新的趋势，主要体现在：利用深度学习特征改善图像匹配的鲁棒性；实现端到端的定位，以期提升传统方法的性能与速度。该类方法可分为监督式^[2]与非监督式^[3]，前者精度总体优于后者，但需要预先标记大量图像样本，一般是借助传统立体视觉方法获取三维信息，进而估计相机姿态作为样本标记。但是，估计的三维信息本身可能存在误差，估计相机姿态时只利用了相邻时刻的图像变化，得到的实际是相对运动姿态，在向绝对位置与姿态转化过程中存在误差累积。

发明内容

为克服现有技术的上述缺陷，本发明提供了已知场景中运动目标的自定位方法，其基于监督式深度学习方法训练获得的从图像到相机姿态的回归模型，实现已知场景中运动目标的自定位，以部分地克服传统视觉定位方法存在的实时性差、处理低纹理图像稳定性不足等问题。

本发明的技术方案是：一种已知场景中运动目标的自定位方法，以设置在运动目标上的相机实时采集场景图像，以实时采集的场景图像作为相机姿态估计的输入，以从场景图像到相机姿态的回归模型进行相机姿态(包括位置和旋转姿态，或称姿态角)估计，将获得的相机姿态(相机姿态参数)转换为相机或运动目标的位置信息，由此实现运动目标的定位，采用下列方式构建所述的回归模型：使用相机采集若干图像样本(场景图像样本，或简称样本)，将图像样本与场景的全景图像配准，依据图像样本与全景图像的配准关系和全景图像与场景的三维模型的配准关系，估计图像样本的相机姿态，以相机姿态作为相应图像样本的标记进行回归训练，获得从场景图像到相机姿态的回归模型。

通过激光扫描获得高精度的三维模型。

基于三维模型的世界坐标系，通过三维模型数据计算出图像样本对应的相机绝对姿态，以此作为所述的相机姿态。

包括离线部分和在线部分。

其中离线部分主要用于训练从图像到相机姿态的回归模型，包括：

构建三维模型：采用激光扫描建模方法，通过激光测距技术生成包含三维坐标的点云数据，依据点云数据构建三维模型，其中包括点云滤波、平滑、筛检、分割和拼接操作；

获得全景图像：采用360度全景摄像机采集获得全景图像，或基于全景视频拼接技术将多幅具有不同视角但包含一定重叠区域的图像进行拼接，形成全景图像；

进行三维模型与全景图像的配准：基于交互式配准技术，将场景的三维模型与全景图像进行关联，建立2D的全景图像像素点与3D的三维模型空间点的映射关系；

采集图像样本：使用相机在场景中巡航拍摄视频，以视频中抽样得到的图像作为图像样本；

样本标记：利用全景图像、三维模型及两者的配准关系，基于相机注册技术，估计图像样本的相机姿态，以此作为相应图像样本的标记；

回归训练：给定图像样本及其标记，训练从图像到相机姿态的回归模型。

在线部分主要用于利用训练得到的回归模型和实时图像估计当前相机姿态。

所述离线部分采用车载嵌入式设备实施，所述车载嵌入式设备的前端接入用作相机的摄像头，并设有与外部通信的通信模块。

采用LIFT算子进行图像样本与全景图像的匹配。

以全景图像作为联系图像样本与三维模型的桥梁，将图像样本与全景图像进行特征点匹配，利用全景图像与三维模型间的映射关系，得到图像样本与三维模型间的2D-3D对应点(匹配点对)，基于2D-3D匹配点对求解PnP问题，实现相机姿态估计。

本发明的有益效果是：通过监督式深度学习，在训练阶段利用高精度的三维模型和全景图像估计图像样本的相机绝对姿态，减少了误差累积，提高了定位精度；引入场景三维模型和全景图像实现场景样本图像的自动标记，提高了样本标记的精度，从而为训练能够精确定位的网络模型奠定了基础。

附图说明

图1是本发明的流程示意图；

图2是本发明车载系统的示意图。

具体实施方式

参见图1，本发明的系统构成包括离线部分和在线部分。其中：

离线部分：主要用于训练从图像到相机姿态的回归模型，其中包括：

构建三维模型：采用激光扫描建模方法，通过激光测距技术生成包含三维坐标的点云数据，并利用点云滤波、平滑、筛检、分割、拼接等操作完成模型构建，这种方式构建的三维模型具有较高精度；

获得全景图像：采用360度全景摄像机采集，或基于全景视频拼接技术^[4]，将多幅具有不同视角但包含一定重叠区域的图像进行拼接。全景图像可以较好地呈现场景的整体面貌，如果一组全景不足以完全覆盖目标区域，可考虑使用多组全景；

进行三维模型与全景图像的配准：基于交互式配准技术^[5]，将场景的三维模型与全景图像进行关联，建立2D的全景图像像素点与3D的三维模型空间点的映射关系，或称三维模型与全景图像的配准；

采集样本(图像样本)：通过搭载相机的车辆或行人在场景中巡航拍摄视频，将视频中抽样得到的图像作为训练、测试的样本，抽样间隔通常可以是大致使相机位移为1米左右的间隔。为保证样本多样性，巡航路线应遍历场景中常规路线，并在拍摄过程中适当变化相机角度，以获得场景不同角度下的图像；

样本标记：利用全景图像、三维模型及两者的配准关系，基于相机注册技术，估计图像样本的相机姿态，作为该样本的标记；

在线部分：主要用于利用训练得到的回归模型估计当前相机姿态，从而实现定位，并将定位结果显示给用户。其中包括：

视频(场景图像)采集：实时获取当前的场景图像，作为相机姿态估计的输入；

姿态估计：利用回归模型，完成从图像到相机姿态的估计；

定位显示：将相机姿态参数转换为位置信息输出，例如，通过显示器呈现给用户，或传至相关管理系统等。

参见图2，本发明所述系统的硬件实现方式为车载嵌入式设备，前端接入摄像头，嵌入式系统负责采集视频，完成实时定位与结果显示，同时通过无线模块将定位信息传给后端系统，用以实现高层应用。

本发明采用监督式深度学习建立从场景图像到相机姿态的回归模型。在训练阶段，引入场景的高精度三维模型和全景图像用以提高深度网络的定位精度，具体包括：(1)通过激光扫描获得相关场景的高精度的三维模型，该模型不但是保证精确定位的前提，而且本身提供了可靠的三维世界坐标，能够用以估计相机的绝对姿态，避免了误差累积。(2)采集场景的全景图象,并且将之与三维模型进行配准；(3)采集用于实时定位的相机的图像样本(图像样本)，借助图像间局部与整体的匹配算法，将图像样本与全景图像进行配准，结合全景图像与三维模型的配准关系，通过三维模型数据计算出图像样本对应的相机姿态(包括位置和姿态角)，作为样本标记，全景图像为样本姿态标记的生成发挥了桥梁作用。

为完成从图像到相机姿态的监督式学习，需对图像样本进行标记，估计其对应的相机姿态。本发明引入场景三维模型和全景图像实现样本的自动标记，目的在于提高样本标记的精度，从而为训练能够精确定位的网络模型奠定基础。

在获得场景的三维模型和全景图像的基础上，按以下步骤估计图像样本的相机姿态：

1)图像样本与全景图像的匹配：将给定图像样本与全景图像进行匹配。优选采用近年提出的LIFT算子(Learned Invariant Feature Transform)^[6]，这是一种基于深度学习的图像不变性特征，无需再训练，可以提取比SIFT、SURF等传统方法更为稠密的特征点，在众多基准数据集上取得优于传统方法的性能。基于此方法，可得到图像样本与全景图像之间更为充足、稳定的匹配特征点；

2D-3D对应：将图像样本与全景图像进行特征点匹配，再利用全景图像与三维模型间的映射关系，得到图像样本与三维模型间的2D-3D对应点，在此步骤中，全景图像起到了联系图像样本与三维模型的桥梁作用；

相机姿态估计：也称相机注册，给定2D-3D对应点对，通过求解PnP问题^[1]，可估计相机姿态。具体地，对于给定图像样本，经过前述步骤，可以得到图像样本(2D)与三维模型(3D)间的2D-3D匹配点对{u_i,P_i|i＝1,…,n}，它们满足摄像机投影公式：

u_i＝K*exp(ξ^)P_i 公式1

其中，u_i、P_i分别代表2D和3D匹配点的齐次坐标，n是点对个数；K表示摄像机内参，可预先标定获得；exp(ξ^)是摄像机外参数ξ的李代数表示，ξ即待求的相机姿态参数，包括位移参数和旋转参数。利用集束调整法(Buddle Adjustment,BA)，最小化3D空间点到2D图像的投影误差，便可估计ξ，以之作为该图像样本的标记。

完成图像标记后，训练从图像(图像样本)I到相机姿态ξ的深度回归模型F，使得ξ＝F(I)；

模型结构：参考PoseNet^[2]，模型F主体网络框架采用GoogleNet，输入是224*224图像，网络包括22个卷积层及6个Inception单元，最后一层是含7个神经元的全连接层，用于输出7个相机姿态参数ξ＝[x,q]，其中，x∈R³是位移参数，q∈R⁴是旋转参数的四元组表示；

损失函数：以图像样本的标记姿态与估计姿态之差作为损失函数，具体采用位移向量差与旋转向量差的L2范数的加权求和：

其中，

分别是相机姿态参数的估计值和标记值，β是位移分量与旋转分量的权重系数，可令β＝0.5。训练过程可参照参考文献[2],采用随机梯度下降法，学习率设为0.00001。

综上，本发明提出一种基于深度学习的运动目标自定位方法，在训练阶段利用高精度三维模型和全景图像估计图像样本的相机绝对姿态，获得更为准确的样本标记，减少误差累积，从而提高定位精度。

本发明所称相机指用于采集图像的设备，包括照相机和摄像机(摄像头)等。

参考文献：

[1]高翔、张涛，视觉SLAM十四讲：从理论到实践，电子工业出版社，2017.

[2]Alex Kendall et al.,PoseNet:A Convolutional Network for Real-Time6-DOF Camera Relocalization,International Conference on Computer Vision(ICCV),2015.

[3]ZhiChao Yin and Jiangping Shi,GeoNet:Unsupervised Learning ofDense Depth,Optical Flow and Camera Pose,International Conference on ComputerVision and Pattern Recognition(CVPR),2018.

[4]Richard Szeliski,Image Alignment and Stitching:A Tutorial,Microsoft Technical Report,2004.

[5]北京天睿空间科技股份有限公司，一种单幅图像的三维配准方法，中国发明专利，201610774320.1，2016.08.31.

[6]Kwang Moo Yi et al.,LIFT:Learned Invariant Feature Transform,European Conference on Computer Vision(ECCV),2016.

Claims

1.一种已知场景中运动目标的自定位方法，以设置在运动目标上的相机实时采集场景图像，以实时采集的场景图像作为相机姿态估计的输入，以从场景图像到相机姿态的回归模型进行相机姿态估计，将获得的相机姿态转换为相机或运动目标的位置信息，由此实现运动目标的定位，采用下列方式构建所述的回归模型：使用相机采集若干图像样本，将图像样本与场景的全景图像配准，依据图像样本与全景图像的配准关系和全景图像与场景的三维模型的配准关系，估计图像样本的相机姿态，以相机姿态作为相应图像样本的标记进行回归训练，获得从场景图像到相机姿态的回归模型，

包括离线部分和在线部分，

回归训练：给定图像样本及其标记，训练从图像到相机姿态的回归模型，

2.如权利要求1所述的方法，其特征在于通过激光扫描获得高精度的三维模型。

3.如权利要求2所述的方法，其特征在于基于三维模型的世界坐标系，通过三维模型数据计算出图像样本对应的相机绝对姿态，以此作为所述的相机姿态。

4.如权利要求1所述的方法，其特征在于所述离线部分采用车载嵌入式设备实施，所述车载嵌入式设备的前端接入用作相机的摄像头，并设有与外部通信的通信模块。

5.如权利要求1-4任一所述的方法，其特征在于采用LIFT算子进行图像样本与全景图像的匹配。

6.如权利要求5所述的方法，其特征在于以全景图像作为联系图像样本与三维模型的桥梁，将图像样本与全景图像进行特征点匹配，利用全景图像与三维模型间的映射关系，得到图像样本与三维模型间的2D-3D匹配点对，基于2D-3D匹配点对求解PnP问题，实现相机姿态估计。