CN111652933A

CN111652933A - 基于单目相机的重定位方法、装置、存储介质与电子设备

Info

Publication number: CN111652933A
Application number: CN202010373453.4A
Authority: CN
Inventors: 彭冬炜
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-09-11
Anticipated expiration: 2040-05-06
Also published as: CN111652933B

Abstract

本公开提供一种基于单目相机的重定位方法、装置、存储介质与电子设备，涉及计算机视觉技术领域。其中，所述方法包括：获取由单目相机采集的现实场景的视频流；从所述视频流中提取多个关键帧图像；根据任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据；将所述现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。本公开提供了一种通过单目相机即可实现重定位的方法，硬件成本较低，且实现过程较为简单，具有较高的实用行。

Description

基于单目相机的重定位方法、装置、存储介质与电子设备

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种基于单目相机的重定位方法、基于单目相机的重定位装置、计算机可读存储介质与电子设备。

背景技术

在AR(Augmented Reality，增强现实)、SLAM(Simultaneous Localization andMapping，即时定位与建图)等领域中，重定位技术具有重要的应用，通过对相机采集的图像和已经建立的地图进行匹配，将搭载相机的设备(如智能手机、机器人等)重定位到地图中，以实现诸如多人AR共享地图、扫地机器人根据已经建立的地图规划路线等场景功能。

相关技术中，重定位的实现极大地依赖于相机的硬件条件，例如需要设置双目相机或者搭载深度传感器(如TOF(Time of Flight，飞行时间)摄像头)，通过双目相机采集的图像或者图像深度信息还原出三维信息，从而进行重定位。可见，相关技术对于硬件的要求较高，无法适用于仅具有单目相机的设备。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种基于单目相机的重定位方法、基于单目相机的重定位装置、计算机可读存储介质与电子设备，进而至少在一定程度上克服相关技术无法适用于单目相机的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种基于单目相机的重定位方法，包括：获取由单目相机采集的现实场景的视频流；从所述视频流中提取多个关键帧图像；根据任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据；将所述现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。

根据本公开的第二方面，提供一种基于单目相机的重定位装置，包括：视频流获取模块，用于获取由单目相机采集的现实场景的视频流；关键帧提取模块，用于从所述视频流中提取多个关键帧图像；三维重建模块，用于根据任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据；点云匹配模块，用于将所述现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的基于单目相机的重定位方法及其可能的实施方式。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的基于单目相机的重定位方法及其可能的实施方式。

本公开的技术方案具有以下有益效果：

根据上述基于单目相机的重定位方法、基于单目相机的重定位装置、计算机可读存储介质与电子设备，获取由单目相机采集的现实场景的视频流，从中提取关键帧图像，并根据任意两个关键帧图像之间的位姿变换参数进行三维重建处理，得到现实场景的点云数据，最后将现实场景的点云数据和预先获取的地图数据进行匹配，以确定单目相机的位姿。一方面，本方案提供了一种通过单目相机即可实现的重定位方法，无需设置双目相机、深度传感器等其他硬件，实现成本较低。另一方面，本方案的实现过程较为简单，且由单目相机所采集的视频与图像数量较少，使得重定位所涉及的数据处理量较低，具有较高的实用行。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施方式中运行环境的系统架构示意图；

图2示出本示例性实施方式中一种移动终端的结构示意图；

图3示出本示例性实施方式中一种基于单目相机的重定位方法的流程图；

图4示出本示例性实施方式中一种基于单目相机的重定位方法的子流程图；

图5示出本示例性实施方式中三角化处理的示意图；

图6示出本示例性实施方式中多线程三角化处理的示意图；

图7示出本示例性实施方式中一种基于单目相机的重定位装置的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开的示例性实施方式提供一种基于单目相机的重定位方法和基于单目相机的重定位装置。

图1示出了本公开示例性实施方式运行环境的系统架构示意图。

如图1所示，该系统架构100可以包括：单目相机110、网络120和电子设备130。单目相机110是指配置单摄像头的相机；电子设备130可以是具有处理功能的设备，如计算机、智能手机、平板电脑、智能可穿戴设备(如AR眼镜)、机器人、无人机等。单目相机110可以通过网络120，与电子设备130形成通讯连接，将所采集的图像或视频传输至电子设备130，由电子设备130进行分析处理。图1示出单目相机110设置于电子设备130之外，在一种实施方式中，单目相机110还可以内置于电子设备130中，如电子设备130可以是配置了单目相机的智能手机或机器人。

需要说明的是，本示例性实施方式中，是对单目相机110进行重定位，如果单目相机110内置于电子设备130，也相当于对电子设备130进行重定位。

应当理解的是，图1中各装置的数量仅仅是示意性的，例如根据实现需要，可以设置多个单目相机，其分别通过网络120连接到电子设备130，电子设备130可以同时对每个单目相机的图像进行分析处理，等等。

下面以图2中的移动终端200为例，对上述电子设备130的构造进行示例性说明。在另一些实施方式中，移动终端200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出，并不构成对移动终端200的结构限定。在另一些实施方式中，移动终端200也可以采用与图2不同的接口连接方式，或多种接口连接方式的组合。

如图2所示，移动终端200具体可以包括：处理器210、内部存储器221、外部存储器接口222、USB接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber Identification Module，SIM)卡接口295等。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、编码器、解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。编码器可以对图像或视频数据进行编码(即压缩)，形成码流数据；解码器可以对图像或视频的码流数据进行解码(即解压缩)，以还原出图像或视频数据。移动终端200可以支持一种或多种编码器和解码器。这样，移动终端200可以播放或录制多种编码格式的图像或视频，例如：JPEG(Joint Photographic Experts Group，联合图像专家组)、PNG(Portable Network Graphics，便携式网络图形)、BMP(Bitmap，位图)等图像格式，MPEG(Moving Picture Experts Group，动态图像专家组)1、MPEG2、MPEG3、MPEG4、H.263、H.264、H.265、HEVC(High Efficiency Video Coding，高效率视频编码)等视频格式。移动终端200从单目相机获取图像或视频后，可以先通过解码器进行解码，再进行后续处理。

在一些实施方式中，处理器210可以包括一个或多个接口。接口可以包括集成电路(Inter-Integrated Circuit，I2C)接口、集成电路内置音频(Inter-Integrated CircuitSound，I2S)接口、脉冲编码调制(Pulse Code Modulation，PCM)接口、通用异步收发传输器(Universal Asynchronous Receiver/Transmitter，UART)接口、移动产业处理器接口(Mobile Industry Processor Interface，MIPI)、通用输入输出(General-PurposeInput/Output，GPIO)接口、用户标识模块(Subscriber Identity Module，SIM)接口和/或通用串行总线(Universal Serial Bus，USB)接口等。通过不同的接口和移动终端200的其他部件形成连接。

USB接口230是符合USB标准规范的接口，具体可以是MiniUSB接口，MicroUSB接口，USBTypeC接口等。USB接口230可以用于连接充电器为移动终端200充电，也可以连接耳机，通过耳机播放音频，还可以用于移动终端200连接其他电子设备，例如连接电脑、外围设备等。

充电管理模块240用于从充电器接收充电输入。充电管理模块240为电池242充电的同时，还可以通过电源管理模块241为设备供电。

电源管理模块241用于连接电池242、充电管理模块240与处理器210。电源管理模块241接收电池242和/或充电管理模块240的输入，为移动终端200的各个部分供电，还可以用于监测电池的状态。

移动终端200的无线通信功能可以通过天线1、天线2、移动通信模块250、无线通信模块260、调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。移动终端200中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。移动通信模块250可以提供应用在移动终端200上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块260可以提供应用在移动终端200上的包括无线局域网(WirelessLocal Area Networks，WLAN)(如无线保真(Wireless Fidelity，Wi-Fi))、蓝牙(Bluetooth，BT)、全球导航卫星系统(Global Navigation Satellite System，GNSS)、调频(Frequency Modulation，FM)、近距离无线通信技术(Near Field Communication，NFC)、红外技术(Infrared，IR)等无线通信解决方案。无线通信模块260可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块260经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器210。无线通信模块260还可以从处理器210接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施方式中，移动终端200的天线1和移动通信模块250耦合，天线2和无线通信模块260耦合，使得移动终端200可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System for Mobilecommunications，GSM)，通用分组无线服务(General Packet Radio Service，GPRS)，码分多址接入(Code Division Multiple Access，CDMA)，宽带码分多址(Wideband CodeDivision Multiple Access，WCDMA)，时分码分多址(Time Division-Synchronous CodeDivision Multiple Access，TD-SCDMA)，长期演进(Long Term Evolution，LTE)，新空口(New Radio，NR)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。

移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU用于执行数学和几何计算，以实现图形渲染，并连接显示屏290和应用处理器。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。移动终端200可以包括一个或多个显示屏290，用于显示图像，视频等。

移动终端200可以通过ISP、摄像模组291、编码器、解码器、GPU、显示屏290及应用处理器等实现拍摄功能。

摄像模组291用于捕获静态图像或视频，通过感光元件采集光信号，转换为电信号。ISP用于处理摄像模组291反馈的数据，将电信号转换成数字图像信号。

外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展移动终端200的存储能力。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储移动终端200使用过程中所创建的数据(比如图像，视频)等。处理器210通过运行存储在内部存储器221的指令和/或存储在设置于处理器中的存储器的指令，执行移动终端200的各种功能应用以及数据处理。

移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。音频模块270用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块270还可以用于对音频信号编码和解码。扬声器271，用于将音频电信号转换为声音信号。受话器272，用于将音频电信号转换成声音信号。麦克风273，用于将声音信号转换为电信号。耳机接口274用于连接有线耳机。

传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803、气压传感器2804等。深度传感器2801用于获取景物的深度信息。压力传感器2802用于感受压力信号，可以将压力信号转换成电信号，用于实现压力触控等功能。陀螺仪传感器2803可以用于确定移动终端200的运动姿态，可用于拍摄防抖、导航、体感游戏等场景。气压传感器2804用于测量气压，可通过计算海拔高度，辅助定位和导航。此外，根据实际需要，还可以在传感器模块280中设置其他功能的传感器，例如磁传感器、加速度传感器、距离传感器等。

指示器292可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

马达293可以产生振动提示，例如来电、闹钟、接收信息等的振动提示，也可以用于触摸振动反馈等。

按键294包括开机键，音量键等。按键294可以是机械按键。也可以是触摸式按键。移动终端200可以接收按键输入，产生与移动终端200的用户设置以及功能控制有关的键信号输入。

移动终端200可以支持一个或多个SIM卡接口295，用于连接SIM卡，使移动终端200通过SIM卡和网络交互，实现通话以及数据通信等功能。

下面对本公开示例性实施方式的基于单目相机的重定位方法和基于单目相机的重定位装置进行具体说明。

图3示出该重定位方法的示意性流程，可以包括以下步骤S310至S340：

步骤S310，获取由单目相机采集的现实场景的视频流。

其中，现实场景是指在单目相机所在的真实世界环境，如现实的房间、咖啡店、商场或者街道等。在重定位时，一般需要相机一边移动一边拍摄周围的现实场景，例如用户可以手持手机，打开摄像头，一边走动一边拍摄现实场景，以完整地记录场景的每个部分、每个角落，拍摄的画面生成视频流，传输至处理器或外部的电子设备，以进行下一步处理。

步骤S320，从视频流中提取多个关键帧图像。

其中，关键帧图像是指视频流中质量较高、易于反映单目相机位姿的图像。

在一种可选的实施方式中，在提取关键帧图像之前，可以对视频流中的图像进行预处理，以滤除质量较差的图像。例如，考虑到视频流是单目相机在移动中采集的，难免因为抖动出现画面模糊的情况，因此可以对视频流中的图像进行模糊检测，以滤除视频流中的模糊图像。具体来说，可以通过拉普拉斯算子或索贝尔算子等算法，计算每一帧图像的梯度，如果梯度达到一定的水平(如大于按照经验设定的阈值)，则判断图像清晰，反之则判断图像模糊(一般模糊图像中存在较多的低梯度区域，导致整张图像的整体梯度较低)，予以滤除。这样通过对低质量图像进行过滤，可以缩小后续提取关键帧的范围，提高效率。

下面对于如何提取关键帧图像，提供两个具体方案：

方案一、参考图4所示，可以通过以下步骤S401至S403实现关键帧提取：

步骤S401，对视频流解码，依次得到连续多帧图像；

步骤S402，根据当前帧图像相对于上一帧图像的位姿变换参数，确定当前帧图像与上一帧图像的相对运动距离；

步骤S403，当上述相对运动距离处于预设数值范围内时，提取当前帧图像作为关键帧图像。

实际应用中，一般可以将视频流的采集和关键帧图像的提取同步执行，以提高效率；当然也可以在视频流采集完成或者采集到一定程度后，开始关键帧图像的提取，即关键帧图像的提取可以落后于视频帧的采集；本公开对此不做限定。

单目相机在采集视频流时，一帧一帧的流入处理器，处理器进行逐帧分析：

以当前流入的图像称为当前帧，获取当前帧图像相对于上一帧图像的位姿变换参数。位姿变换参数通常包括平移参数T(如可以是3*1的矩阵)和旋转参数R(如可以是3*3的矩阵)，是由于单目相机在拍摄这两帧时发生了移动。可以通过单目相机或内置有单目相机的电子设备所配置的IMU(Inertia Measurement Unit，惯性测量单元)，测量这两帧之间单目相机的加速度、角速度等参数，通过这些参数求解得到位姿变换参数。

将位姿变换参数以相对运动距离的方式进行量化，以表征单目相机在这两帧之间运动的程度。相对运动距离可以通过以下公式(1)计算：

D＝‖T‖+α·min(2π-‖R‖,‖R‖)； (1)

其中，D表示相对运动距离；T为当前帧图像相对于上一帧图像的平移参数，‖T‖表示T的范数；R为当前帧图像相对于上一帧图像的旋转参数，‖R‖表示R的范数；由于在表示单目相机的旋转时，通常固定为一个方向(如固定为逆时针或顺时针)，所以可能出现旋转超过180度的情况，例如逆时针旋转210度，其相当于顺时针旋转150度；这里用min(2π-‖R‖,‖R‖)来度量旋转量，即保证旋转角度值不超过180度；α为预设系数，表示在将平移参数与旋转参数进行统一时，对旋转参数这一部分所施加的权重，以均衡平移参数与旋转参数两个方面对于D的影响。

可见，公式(1)是对相邻两帧之间单目相机运动程度的一种度量。如果D过大，则两帧之间的运动程度过高，不利于对现实场景图像的连续采集，画面信息可能缺失；如果D过小，则两帧之间的运动程度过低(甚至接近静止)，所采集的图像中可能重复信息过多，有效信息不足。基于此，可以为D设定预设数值范围[Dmin,Dmax]，其中Dmin表示最小运动距离，Dmax表示最大运动距离，两者均为可调的经验参数。当D∈[Dmin,Dmax]时，可以将当前帧图像作为关键帧图像提取出来，这样得到的关键帧图像中，其信息的质量较高，有利于后续实现重定位。

方案二、可以在视频流中每间隔固定的帧数，例如每5帧或每30帧，提取一帧作为关键帧图像。

实际应用中，也可以结合上述方案一和方案二，例如每间隔固定的帧数，提取一帧，将其相对于上一帧图像的相对运动距离与预设数值范围进行比较，如果相对运动距离处于预设数值范围中，则确定所提取的帧为关键帧图像。

步骤S330，根据任意两个关键帧图像之间的位姿变换参数，对该两个关键帧图像进行三维重建处理，得到现实场景的点云数据。

其中，每个关键帧图像是对现实场景的一个局部进行采集的图像，两个关键帧图像所对应的局部中，一般存在重合的部分，而两个关键帧图像是单目相机从不同位置、不同角度拍摄得到的，因此可以通过对两个关键帧图像进行三维重建处理，还原出两个关键帧图像中至少一个像素点(一般是两个关键帧图像重合的部分)的三维信息(主要是恢复像素点的深度信息)，这样得到的三维信息可以作为现实场景的点云数据。为了增加两个关键帧图像中可实现三维重建的区域大小，两个关键帧图像可以选取相邻两个关键帧图像，以保证其重合的部分较多。

通常三维重建可以基于三角定位原理实现，在一种可选的实施方式中，步骤S330可以包括：

获取现实场景中的三维点在两个关键帧图像上的投影点；

基于同一三维点对应的两个投影点的相机坐标，以及上述两个关键帧图像之间的位姿变换参数进行三角化处理，求解得到该三维点的空间坐标。

其中，两个关键帧图像之间的位姿变换参数可以参考上述当前帧图像相对于上一帧图像的位姿变换参数，包括平移参数和旋转参数。在计算两个关键帧图像之间的位姿变换参数时，可以列出其间的所有帧，然后对每相邻两帧之间的位姿变换参数进行叠加，得到这两个关键帧图像之间的位姿变换参数。

参考图5所示，假设现实场景中存在一三维点P0，其在两个关键帧图像F1和F2上的投影点分别为P1和P2；基于F1建立相机坐标系c1，P1在c1中的坐标为X1(x1,y1)；基于F2建立相机坐标系c2，P2在c2中的坐标为X2(x2,y2)；构建以下三角化公式(2)：

s1X1＝s2RX2+T； (2)

其中，R、T分别为F2相对于F1的旋转参数和平移参数，注意与公式(1)中的R、T不相同。

可以利用叉乘进行消元，对公式(2)左右两边均乘以X1的反对称矩阵，可得：

s1X1×X1＝0＝s2X1×RX2+X1×T； (3)

由此可以求解得到P0的深度值，然后重建出P0的空间坐标，该空间坐标可以是在相机坐标系或世界坐标系中的坐标。

在得到P0的空间坐标后，可以将其添加到现实场景的点云数据中。现实场景的点云数据即大量三维点的空间坐标所形成的集合。

进一步的，在得到三维点的空间坐标后，可以对三维点进行筛选，不满足条件的三维点不加入点云数据中，从而提高点云数据的质量。具体来说，步骤S330还可以包括：

当判断三维点的梯度大于预设梯度阈值时，将该三维点添加到现实场景的点云数据中。

获取点云数据的目的，是对现实场景的纹理、地形、障碍物等特征进行表征，因此对现实场景中的轮廓、边角、纹理突变、起伏等较为鲜明的部分采集点云数据，可以更好地体现出上述特征。一般这些部分的三维点，由于和周围的临近店差异较大，其梯度也较大，所以可以通过梯度进行三维点的筛选。根据经验或实际应用需求确定预设梯度阈值，如果三维点的梯度大于该阈值，则将其添加到现实场景的点云中，反之则说明三维点的特征性较低，可以将其舍弃。

本示例性实施方式提供一种计算三维点梯度的方法，如以下公式(4)所示：

其中，G_"v表示三维点的像素梯度，由x轴方向的像素梯度gx_"v和y轴方向的像素梯度gy_"v组成，u、v表示三维点在上述两个关键帧图像的任一帧图像中的投影点位于第u行、第v列；

表示三维点的像素绝对梯度值；I_"v表示投影点在任一帧图像中的像素灰度值；i表示增量，一般是较小的数值。通常在任一帧图像中度量三维点的梯度，而图像是二维的，因此梯度一般包括x轴与y轴上的梯度分量，通过像素绝对梯度值可以将两分量进行综合度量。参考上述图5所示，P0在F1上的投影点，转换到F1的平面坐标中，为(u,v)，表示第u行、第v列的像素，在F1中，将该像素与邻近像素之间灰度值求梯度，可以得到P0的梯度。如果转换到F2中计算P0的梯度，得到的结果可能存在一定差别，但是差别一般不大，因此选用任一帧图像均可，本公开不做限定。基于公式(4)，在判断三维点的梯度是否大于预设梯度阈值时，可以判断三维点的像素绝对梯度值

是否大于预设梯度阈值。

步骤S340，将现实场景的点云数据和预先获取的地图数据进行匹配，以确定单目相机的位姿。

其中，地图数据是指已经建立的现实场景的三维地图模型，可以由其他设备建立并同步到本设备，也可以由本设备在以前建图的环节所建立得到。地图数据也是大量三维点的集合，可以看作是另一个点云数据。在将两个点云数据匹配时，基本原理是计算相匹配的三维点是否具有相同或相近的法线信息。具体来说，在进行匹配时，可以在点云数据中计算一部分三维点的特征描述子，然后根据特征描述子进行三维点的逐对匹配，最后返回匹配信息。

在一种可选的实施方式中，步骤S340可以包括：

通过ICP(Iterative Closest Point，迭代最近邻点)算法对现实场景的点云数据进行位姿变换，使变换后的点云数据和地图数据之间的误差收敛；

如果误差小于预设误差阈值，则确定现实场景的点云数据和地图数据匹配成功。

假设现实场景的点云数据为集合X＝{x_j|j＝1,2,...,m}，地图数据为集合Y＝{y_j|j＝1,2,…,n}，m和n分别为两个集合中的点数量，m和n可以相等，也可以不相等。通过以下公式(5)进行ICP运算：

其中，e表示误差，R、T为针对现实场景的点云数据的位姿变换参数，注意与公式(1)～(3)中的R、T不相同。误差收敛是指误差达到全局最小或局部最小，通过进一步的迭代无法再有效降低误差。ICP运算通过最小化e，迭代得到公式(5)中的R和T，然后基于R和T计算X和Y的误差，如果其小于根据经验确定的预设误差阈值，说明现实场景的点云和地图数据重合度较高，即匹配成功。

进一步的，在进行匹配时，可以先对现实场景的点云数据和地图数据进行配准(Alignment)，配准可以看作是粗匹配，然后再通过ICP等算法进行精匹配，这样可以提高匹配准确度，且减少精匹配阶段的运算量。

在确定现实场景的点云数据和地图数据匹配成功后，可以根据公式(5)中得到的点云数据的位姿变换参数，确定单目相机在世界坐标系中的位姿。具体来说，世界坐标系即地图数据的坐标系，公式(5)中的位姿变换参数可用于相机坐标系与世界坐标系间的转换。通过任一关键帧图像可以确定单目相机的相机坐标，将其转换到世界坐标系中，得到其在世界坐标系中的位姿。换而言之，将单目相机到定位到地图中，实现重定位。

一般的，现实场景的点云数据生成是逐帧累积的过程，当点云数据达到一定程度，即可进行匹配。在一种可选的实施方式中，步骤S340可以包括：

当现实场景的点云数据中三维点的数量达到第一数量阈值，或者达到预设周期时间时，将现实场景的点云数据和地图数据进行匹配；

如果匹配失败，则继续从视频流中提取关键帧图像，并根据所提取的关键帧图像向现实场景的点云数据中增加新的三维点；

直到新的三维点的数量达到第二数量阈值，或者达到下一预设周期时间时，再次将现实场景的点云数据和地图数据进行匹配。

其中，第一数量阈值和第二数量阈值是根据经验和实际需求确定的参数，和现实场景的面积、复杂度等相关。当现实场景的点云数据中三维点的数量达到第一数量阈值时，可以认为其三维点数量已经足够表征现实场景的特征，此时将其与地图数据进行匹配，如果匹配成功，则可以实现重定位；如果匹配不成功，则说明当前的点云数据还不够充分，继续执行步骤S320和S330，提取更多的关键帧图像，并通过三维重建处理得到更多的三维点；当新增三维点的数量达到第二数量阈值时，再进行一次匹配；如果仍然匹配不成功，则等到下一次新增三维点的数量达到第二数量阈值时，再进行匹配。即，以新增三维点的数量达到第二数量阈值为条件，不断地尝试匹配，直到匹配成功。

此外，也可以以预设周期时间为条件，例如预设周期时间为1分钟，则每分钟匹配一次，直到匹配成功为止。

本示例性实施方式中，三维重建处理的环节对于整个重定位过程具有重要影响，通常也是制约重定位响应速度的主要因素。基于此，可以预先创建多个用于三维重建处理的线程，例如对于N核处理器的电子设备，可以创建N个线程。在进行重定位时，获取上述多个线程，通过每个线程分别对不同的两个关键帧图像进行三角化，从而能够实现并行处理，提高重定位的响应速度。

进一步的，在从视频流中提取关键帧图像后，可以将关键帧图像放置到关键帧队列中。由上述每个线程依次从关键帧队列中提取相邻两个关键帧图像进行三维重建处理。图6示出了通过三角化实现三维重建处理时，设置多线程的情况。如图6所示，设置线程1、线程2、线程3，当产生第一关键帧图像时，放入关键帧队列，随后放入第二关键帧图像，此时线程1从队列中提取第一关键帧图像和第二关键帧图像，进行三角化处理；线程2随后从队列中提取第三关键帧图像和第四关键帧图像，进行三角化处理……各个线程进行三角化处理后输出的数据，也可以进入一个队列(输出数据队列)，然后再更新到点云数据中。通过这样的方式，实现了各线程的同步并行处理，且利用队列的方式实现了各线程的负载均衡，进一步提高了效率。

综上所述，本示例性实施方式中，获取由单目相机采集的现实场景的视频流，从中提取关键帧图像，并根据任意两个关键帧图像之间的位姿变换参数进行三维重建处理，得到现实场景的点云数据，最后将现实场景的点云数据和预先获取的地图数据进行匹配，以确定单目相机的位姿。一方面，提供了一种通过单目相机即可实现的重定位方法，无需设置双目相机、深度传感器等其他硬件，实现成本较低。另一方面，本示例性实施方式的实现过程较为简单，且由单目相机所采集的视频与图像数量较少，使得重定位所涉及的数据处理量较低，具有较高的实用行。

图7示出了本公开示例性实施方式中的基于单目相机的重定位装置。如图7所示，该重定位装置700可以包括：

视频流获取模块710，用于获取由单目相机采集的现实场景的视频流；

关键帧提取模块720，用于从视频流中提取多个关键帧图像；

三维重建模块730，用于根据任意两个关键帧图像之间的位姿变换参数，对该两个关键帧图像进行三维重建处理，得到现实场景的点云数据；

点云匹配模块740，用于将现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。

在一种可选的实施方式中，关键帧提取模块720，被配置为：

对视频流解码，依次得到连续多帧图像；

根据当前帧图像相对于上一帧图像的位姿变换参数，确定当前帧图像与上一帧图像的相对运动距离；

如果上述相对运动距离处于预设数值范围内，则提取当前帧图像作为关键帧。

在一种可选的实施方式中，三维重建模块730，被配置为：

获取预先创建的多个线程，通过每个线程分别对不同的两个关键帧图像进行三维重建处理。

进一步，关键帧提取模块720在从视频流中提取关键帧图像后，将关键帧图像放置到关键帧队列中；每个线程依次从关键帧队列中提取相邻两个关键帧图像进行三维重建处理。

在一种可选的实施方式中，三维重建模块730，被配置为：

获取现实场景中的三维点在两个关键帧图像上的投影点；

在一种可选的实施方式中，三维重建模块730，还用于当判断三维点的梯度大于预设梯度阈值时，将三维点添加到现实场景的点云数据中。

在一种可选的实施方式中，点云匹配模块740，被配置为：

通过迭代最近邻点算法对现实场景的点云数据进行位姿变换，使变换后的点云数据和地图数据之间的误差收敛；

进一步的，点云匹配模块740，还用于在确定现实场景的点云数据和地图数据匹配成功后，根据点云数据的位姿变换参数确定单目相机在世界坐标系中的位姿，世界坐标系为地图数据的坐标系。

在一种可选的实施方式中，关键帧提取模块720，还用于在从视频流中提取关键帧图像前，对视频流中的图像进行模糊检测，以滤除视频流中的模糊图像。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本公开的示例性实施方式还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤，如图3或图4所示的方法步骤。该程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于单目相机的重定位方法，其特征在于，包括：

获取由单目相机采集的现实场景的视频流；

从所述视频流中提取多个关键帧图像；

根据任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据；

将所述现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。

2.根据权利要求1所述的方法，其特征在于，所述从所述视频流中提取多个关键帧图像，包括：

对所述视频流解码，依次得到连续多帧图像；

根据当前帧图像相对于上一帧图像的位姿变换参数，确定所述当前帧图像与所述上一帧图像的相对运动距离；

当所述相对运动距离处于预设数值范围内时，提取所述当前帧图像作为关键帧图像。

3.根据权利要求1所述的方法，其特征在于，在对所述两个关键帧图像进行三维重建处理时，所述方法还包括：

获取预先创建的多个线程，通过每个所述线程分别对不同的所述两个关键帧图像进行三维重建处理。

4.根据权利要求3所述的方法，其特征在于，在从所述视频流中提取关键帧图像后，将所述关键帧图像放置到关键帧队列中；

每个所述线程依次从所述关键帧队列中提取相邻两个关键帧图像进行三维重建处理。

5.根据权利要求1所述的方法，其特征在于，所述基于任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据，包括：

获取所述现实场景中的三维点在两个关键帧图像上的投影点；

基于同一三维点对应的两个投影点的相机坐标，以及所述两个关键帧图像之间的位姿变换参数进行三角化处理，求解得到该三维点的空间坐标。

6.根据权利要求5所述的方法，其特征在于，所述基于任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据，还包括：

当判断所述三维点的梯度大于预设梯度阈值时，将所述三维点添加到所述现实场景的点云数据中。

7.根据权利要求1所述的方法，其特征在于，所述将所述现实场景的点云数据和预先获取的地图数据进行匹配，包括：

当所述现实场景的点云数据中三维点的数量达到第一数量阈值，或者达到预设周期时间时，将所述现实场景的点云数据和所述地图数据进行匹配；

如果匹配失败，则继续从所述视频流中提取关键帧图像，并根据所提取的关键帧图像向所述现实场景的点云数据中增加新的三维点；

直到所述新的三维点的数量达到第二数量阈值，或者达到下一预设周期时间时，再次将所述现实场景的点云数据和所述地图数据进行匹配。

8.根据权利要求1所述的方法，其特征在于，所述将所述现实场景的点云数据和预先获取的地图数据进行匹配，包括：

通过迭代最近邻点算法对所述现实场景的点云数据进行位姿变换，使变换后的所述点云数据和所述地图数据之间的误差收敛；

如果所述误差小于预设误差阈值，则确定所述现实场景的点云数据和所述地图数据匹配成功。

9.根据权利要求8所述的方法，其特征在于，在确定所述现实场景的点云数据和所述地图数据匹配成功后，根据所述点云数据的位姿变换参数确定所述单目相机在世界坐标系中的位姿，所述世界坐标系为所述地图数据的坐标系。

10.根据权利要求1所述的方法，其特征在于，在从所述视频流中提取关键帧图像前，所述方法还包括：

对所述视频流中的图像进行模糊检测，以滤除所述视频流中的模糊图像。

11.一种基于单目相机的重定位装置，其特征在于，包括：

视频流获取模块，用于获取由单目相机采集的现实场景的视频流；

关键帧提取模块，用于从所述视频流中提取多个关键帧图像；

三维重建模块，用于根据任意两个关键帧图像之间的位姿变换参数，对所述两个关键帧图像进行三维重建处理，得到所述现实场景的点云数据；

点云匹配模块，用于将所述现实场景的点云数据和预先获取的地图数据进行匹配，以确定所述单目相机的位姿。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至10任一项所述的方法。