CN111862337B

CN111862337B - 视觉定位方法、装置、电子设备和计算机可读存储介质

Info

Publication number: CN111862337B
Application number: CN201911309118.1A
Authority: CN
Inventors: 包灵; 徐斌; 杜宪策; 张军; 滕晓强; 阮志伟; 周焕青; 许鹏飞
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2024-05-10
Anticipated expiration: 2039-12-18
Also published as: CN111862337A

Abstract

本申请实施例提出一种视觉定位方法、装置、电子设备和计算机可读存储介质，涉及导航技术领域。其中，上述视觉定位方法包括：依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云；利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点；基于所述目标三维点计算定位信息。从而，可以达到减少定位时耗且确保定位精度的效果。

Description

视觉定位方法、装置、电子设备和计算机可读存储介质

技术领域

本申请涉及导航技术领域，具体而言，涉及一种视觉定位方法、装置、电子设备和计算机可读存储介质。

背景技术

随着增强现实(Augmented Reality,AR)技术的成熟，基于AR技术提供的服务已经出现在人们生活的各个方面，且展示出突出的优越性。比如，利用AR实现导航服务。相较于传统的导航而言，AR导航能够为用户提供了更为直观且准确的导航服务。可以理解地，AR导航的准确性和流程性均是取决于视觉定位的准确性和时效性。

然而，相关技术中提供的视觉定位方法，面对复杂场景时，不仅定位精度会降低，而且定位时耗也会增加。

发明内容

有鉴于此，本申请的目的在于提供一种视觉定位方法、装置、电子设备和计算机可读存储介质，在复杂场景下进行视觉定位，可以达到减少定位时耗且确保定位精度的效果。

根据本申请的一个方面，提供一种电子设备，可以包括存储介质和与存储介质通信的处理器。存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行以下操作：

依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云；

利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点；

基于所述目标三维点计算定位信息。

在一些实施例中，为了可以有效缩小寻找目标空调点云的范围，提高寻找目标点云的准确性，上述依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云的步骤包括：

基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域；

从AR引擎定位得到的预估坐标中，筛选出位于所述目标场景区域内的目标预估坐标；

根据所述目标预估坐标及所述二维投影图，从所述3D点云地图中确定出所述目标空间点云。

在一些实施例中，所述根据所述目标预估坐标及所述二维投影图，从所述3D点云地图中确定出所述目标空间点云的步骤包括：

从所述AR引擎获取从起始导航点开始已导航的导航距离值；

依据所述导航距离值，选择匹配的半径参数；其中，所述半径参数与所述导航距离值之间呈正比；

基于所述目标预估坐标及所述半径参数，从所述二维投影图中划分出待选图像区域；

从所述3D点云地图中获取投影至所述待选图像区域的三维点云，以得到所述目标空间点云。

在一些实施例中，在所述基于所述目标三维点计算定位信息的步骤之后，所述视觉定位方法还包括：

依据计算得到的所述定位信息更新所述起始导航点，以便下一轮视觉定位时从新的所述起始导航点开始计算所述导航距离值。

在一些实施例中，所述基于所述目标预估坐标及所述半径参数，从所述二维投影图中划分出待选图像区域的步骤包括：

依据所述目标预估坐标及所述半径参数，从所述二维投影图中划分出圆形图像区域；

获取所述电子设备的运动方向；

基于所述运动方向确定出目标方向角；

以所述目标方向角为圆心角，从所述圆形图像区域中划分出所述待选图像区域。

在一些实施例中，所述二维投影图包括多个场景区域，所述基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域的步骤包括：

获取每个所述场景区域对应的重建图像；所述对应的重建图像为用于重建投影于所述场景区域的三维点的图像；

根据所述视野图像与所述重建图像之间的相似度，从所述多个场景区域中确定出所述目标场景区域。

在一些实施例中，所述电子设备内存储有场景识别模型，所述场景识别模型用于分辨场景区域，所述基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域的步骤包括：

利用所述场景识别模型对所述视野图像进行分类，以得到所述目标场景区域。

在可选的实施方式中，所述利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点的步骤包括：

提取所述视野图像中的视觉特征点；

从所述目标空间点云中获取与所述视觉特征点匹配的三维点，以作为所述目标三维点。

在一些实施例中，所述基于所述目标三维点计算定位信息的步骤包括：

依据所述目标三维点计算出所述电子设备的位姿信息及位置坐标，以作为所述定位信息。

根据本申请的另一方面，一种视觉定位装置，应用于使用AR导航的电子设备，所述视觉定位装置：

划分模块，用于依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云；

获取模块，用于利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点；

定位模块，用于基于所述目标三维点计算定位信息。

在一些实施例中，所述划分模块包括：

识别子模块，用于基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域；

筛选子模块，用于从AR引擎定位得到的预估坐标中，筛选出位于所述目标场景区域内的目标预估坐标；

确定子模块，用于根据所述目标预估坐标及所述二维投影图，从所述3D点云地图中确定出所述目标空间点云。

在一些实施例中，所述确定子模块还用于：

从所述AR引擎获取从起始导航点开始已导航的导航距离值；

在一些实施例中，所述视觉定位装置还包括：

更新模块，用于依据计算得到的所述定位信息更新所述起始导航点，以便下一轮视觉定位时从新的所述起始导航点开始计算所述导航距离值。

在一些实施例中，所述确定子模块还用于：

获取所述电子设备的运动方向；

基于所述运动方向确定出目标方向角；

在一些实施例中，所述二维投影图包括多个场景区域，所述识别子模块还用于：

在可选的实施方式中，所述电子设备内存储有场景识别模型，所述场景识别模型用于分辨场景区域，所述识别子模块还用于：

在一些实施例中，所述获取模块包括：

提取子模块，用于提取所述视野图像中的视觉特征点；

匹配子模块，用于从所述目标空间点云中获取与所述视觉特征点匹配的三维点，以作为所述目标三维点。

在一些实施例中，所述定位模块还用于：

根据本申请的另一方面，还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行前述的视觉定位方法的步骤。

基于上述任一方面，本申请通过先利用采集到的视野图像，将匹配目标三维点的范围从整个3D点云地图准确地缩小到目标空间点云内，再使用视野图像从目标空间点云中寻找目标三维点。如此，不仅减少匹配误差，还减少匹配的计算量，提高匹配到准确的目标三维点的效率。最后，基于准确的目标三维点计算定位信息，确保视觉定位的准确性及时效性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的视觉定位系统的示意图。

图2示出了本申请实施例提供的电子设备的示意图。

图3示出了本申请实施例提供的视觉定位方法的步骤流程图。

图4为图3中步骤S101的子步骤流程图。

图5为图4中步骤S101-3的子步骤流程图。

图6示出了本申请实施例提供的另一种视觉定位方法的步骤流程图。

图7为实例中二维投影图的示例。

图8示出了本申请实施例提供的视觉定位装置的示意图。

图标：100-视觉定位系统；110-服务提供端；120-网络；130-服务请求端；60-电子设备；61-处理器；62-存储器；63-总线；200-视觉定位装置；201-划分模块；202-获取模块；203-定位模块。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“AR导航”，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕AR导航进行描述，但是应该理解，这仅是一个示例性实施例。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。本申请中的术语“需定位者”、“用户”在一些情况下可互换使用，以指代实际使用AR导航服务的客体。

本申请的一个方面涉及一种视觉定位方法。该方法可以通过缩小匹配目标三维点的范围，减少匹配出目标三维点的误差以及缩短匹配时长。如此，即便3D点云地图的规模增加、复杂程度加剧，也能够更快且更准确地获取到准确的目标三维点，确保视觉定位的准确性和时效性。从而确保AR导航的正确性和流畅性。

值得注意的是，在本申请提出申请之前，视觉定位时直接将视野图像中的视觉特征点依次与3D点云地图中所有的三维点进行匹配计算，以寻找出匹配的三维点，然后，依据匹配的三维点计算定位信息。可见，寻找到的匹配的三维点越准确，定位结果也越准确。但是，随着用户的使用区域越广，所用的3D点云地图的规模也越大。特别是，复杂环境所对应的3D点云地图，其内包含的三维点数量非常多，因此，依次将每个视觉特征点与3D点云地图，不仅计算量大，而且容易匹配出错误的三维点。从而，降低定位的准确性，且增加定位时耗。进而，从而影响到AR导航的正确性和流畅性。

为了解决上述问题，本申请提供的定位方法可以通过缩小目标三维点的搜索空间，降低匹配难度及计算量，提高定位精度及缩短定位时间。

下面通过可能的实现方式对本发明的技术方案进行说明。

图1是本申请实施例提供的一种视觉定位系统100的架构示意图。例如，视觉定位系统100可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、共享单车、或班车服务之类的运输服务、或其任意组合的在线运输服务平台，也可以是用于提供个人导航服务的平台。视觉定位系统100可以包括服务提供端110、网络120、服务请求端130等。

在一些实施例中，服务提供端110可以是，但不限于个人电脑(personalcomputer，PC)、服务器、分布式部署的计算机等等。可以理解的是，服务提供端110也不限于实体服务器，还可以是实体服务器上的虚拟机、基于云平台上构建的虚拟机等能提供与所述服务器或者虚拟机有相同功能的计算机。服务提供端110用于提供视觉定位所需的支持服务。服务提供端110，服务提供端110可以包括处理器61。处理器61可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器61可以基于从服务请求端130获得的导航服务请求来确定对应环境的3D点云地图。在一些实施例中，处理器61可以包括一个或多个处理核(例如，单核处理器61(S)或多核处理器61(S))。仅作为举例，处理器61可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器61(ApplicationSpecific Instruction-set Processor,ASIP)、图形处理单元(Graphics ProcessingUnit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器61(DigitalSignal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器61等，或其任意组合。

在一些实施例中，服务请求端130对应的设备类型可以是移动设备，比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，也可以是平板计算机、膝上型计算机、或机动车辆中的内置设备等。

在一些实施例中，视觉定位系统100中的一个或多个组件可以经由网络120进行通信。

图2示出根据本申请的一些实施例的可以实现本申请思想的服务提供端110和服务请求端130的电子设备60的示例性硬件和软件组件的示意图。电子设备60包括：处理器61、存储器62、和总线63。所述存储器62存储有所述处理器61可执行的机器可读指令(比如，图8中的装置中划分模块201、获取模块202、定位模块203对应的执行指令等)，当电子设备60运行时，所述处理器61与所述存储器62之间通过总线63通信。

可以理解地，本发明实施例中提到的应用视觉定位方法的电子设备60可以是服务提供端110，也可以是服务请求端130，还可以是服务提供端110和服务请求端130之间的组合。也就是，本发明实施例提供的视觉定位方法可以由服务请求端130执行，也可以由服务提供端110执行，还可以由服务提供端110和服务请求端130配合执行。

比如，由服务请求端130执行时，可以是服务请求端130响应用户请求后，从服务提供端110请求获取当前环境对应的3D点云地图，基于3D点云地图执行本发明实施例提供的视觉定位方法。再比如，由服务提供端110执行时，可以是服务提供端110接收到服务请求端130反馈的视觉定位请求后，依据服务请求端130反馈的视野图像或者由需定位者携带的其他图像采集设备采集到的视野图像，并基于上述视野图像执行本发明实施例提供的视觉定位方法。再比如，由服务提供端110和服务请求端130配合执行时，可以是服务请求端130响应用户请求后，采集视野图像并反馈至服务提供端110，由服务请求端130进行视觉定位，并将定位结果反馈服务请求端130进行展示，从而，实现服务提供端110和服务请求端130之间协作执行本发明实施例提供的视觉定位方法。

参照图3所示，为本申请实施例提供的一种视觉定位方法的流程示意图。如图3所示，上述视觉定位方法包括以下步骤：

步骤S101，依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云。

步骤S102，利用视野图像，从目标空间点云中得到匹配的目标三维点。

步骤S103，基于目标三维点计算定位信息。

上述视野图像可以由置于需定位者所在位置的图像采集设备采集到的图像。比如，可以是需定位者所持有的服务请求端130。再比如，还可以是需定位者携带的与电子设备60通信的摄像头。

上述3D点云地图可以是AR导航服务中所需的三维重建地图模型。上述3D点云地图可以是现实中可实现AR导航的可导航环境所对应的三维模型。上述3D点云地图可以预先通过三维重建生成，并存储于电子设备60。可以理解地，在一些实施例中，可导航环境会随着用户需求而不断增加，随着可导航环境的增加，3D点云地图也会随之更新，3D点云地图的规模也随之扩增。

可选地，上述生成3D点云地图的方式包括：在可导航环境中的多个位置上，以多个角度上采集大量待重建图像信息，基于采集到的大量待重建图像信息进行三维重建，得到表征该可导航环境的3D点云地图。

上述目标空间点云是3D点云地图中的一部分，也是评估出与视野图像相关的一部分3D点云地图。

上述目标三维点为目标空间点云中与视野图像中的视觉特征点存在对应关系的三维点。可以理解地，目标空间点云与3D点云地图均是由三维点构成。

上述定位信息可以是用于表征需定位者位置、姿态的信息，比如，可以包括位姿信息及位置坐标。

在本发明实施例中，先通过视觉图像快速从3D点云地图中确定出目标空间点云，再利用视觉图像从目标空间点云中寻找匹配的目标三维点。最后利用目标三维点计算对应的定位信息。也就是，通过将搜索目标三维点的范围从整个3D点云地图缩小到目标空间点云，缩短搜索目标三维点的时耗，提高搜索出的目标三维点的准确性。进而，提高定位效率和准确性。

为了方便理解，下面以用户使用手机进行AR导航的实例进行描述：

手机内存储有可导航的环境所对应的3D点云地图，用户启用了AR导航服务的过程中，在每一个预设的时间间隔内将手机的摄像头视野内的实时画面作为视野图像。利用视野图像从3D点云地图中确定出用于搜索目标三维点的目标空间点云。再利用视野图像从目标空间点云中搜索匹配的目标三维点，以便利用目标三维点计算用户本轮定位的位姿信息及位置坐标。如此，手机能够快速得到用户当前较为准确的定位信息，以保证AR导航服务的准确性和流畅性。

下面对本发明实施例的具体细节进行描述：

上述步骤S101的目的在于获取到与视野图像相关且规模尽可能小的空间点云。为了达到这一目的，上述步骤S101可以采用以下任意一种方式实现：

第一种实现方式：基于视野图像进行场景识别，确定出目标空间点云。即，利用场景识别技术从3D点云地图中确定出与视野图像相关的空间点云。

可选地，可以是对视野图像进行场景识别，以便从3D点云地图的二维投影图中确定出与视野图像匹配的目标场景区域，将映射到目标场景区域中的三维点构成的空间点云作为目标空间点云。

上述二维投影图可以是将3D点云地图中的所有的三维点投影到水平面后，得到的投影图。上述二维投影图中每一图像坐标对应多个三维点，二维投影图的图像坐标与可导航的环境中的位置坐标均存在一一对应关系。可以理解地，二维投影图中每一个图像坐标所对应的三维点为3D点云地图中表征可导航的环境的一位置坐标所对应的环境内容的所有三维点。

可以预先将上述二维投影图划分为多个图像区域，每一个图像区域所对应的三维点表征可导航的环境中的部分现实场景，为了方便描述，将二维投影图的图像区域称为场景区域。比如，可导航的环境是商场时，商场中有商铺A、商铺B、商铺C及公共通道D等，那么可以预先将商场的三维点云地图所对应的二维投影图划分为多个场景区域A、场景区域B、场景区域C，场景区域D。投影于场景区域A的三维点表征商铺A，投影于场景区域B的三维点表征商铺B，投影于场景区域C的三维点表征商铺C，投影于场景区域D的三维点表征公共通道D。

在一些实施例中，对视野图像进行场景识别得到目标场景区域的方式可以包括以下任意一种：

1)利用图像之间的相似度进行场景识别：

首先，获取每个场景区域对应的重建图像。可以理解地，上述重建图像为用于重建3D点云地图的图像，上述场景区域对应的重建图像包括用于重建投影于场景区域的三维点的图像。

其次，计算视野图像与重建图像之间的相似度。比如，计算视野图像与重建图像对应的特征相邻之间向量距离值，以作为二者之间的相似度。

最后，依据视野图像与重建图像之间的相似度，从多个场景区域中确定出目标场景区域。比如，将相似度最高的重建图像所对应的场景区域作为目标场景区域。再比如，还可以是当一个场景区域所对应的重建图像中与上述视野图像的相似度平均值最高时，将其作为目标场景区域。

2)利用神经网络120模型进行场景识别：

首先，获取场景识别模型。上述场景识别模型用于分辨场景区域。可以理解地，上述场景识别模型可以预先通过对选择的神经网络120模型进行训练得到。可选地，训练场景识别模型的步骤可以是：将重建3D点云地图的重建图像作为样本图像，并将每一个重建图像所对应的场景区间作为其对应的样本标签，利用样本图像对神经网络120模型进行训练，以得到用于场景区域分类的场景识别模型。

其次，将视野图像输入场景识别模型，将场景识别模型输出的场景区域作为目标场景区域。

第二种实现方式：该实现方式可以是在第一种实现方式的基础上进一步缩小与视野图像相关的空间点云的规模，以进一步减小目标三维点的匹配准确度和匹配速度。

可选地，如图4所示，上述步骤S101可以包括以下子步骤：

子步骤S101-1，基于视野图像，进行场景识别，以得到3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域。该子步骤与第一种实现方式中对视野图像进行场景识别得到目标场景区域的原理一致，在此不再赘述。

子步骤S101-2，从AR引擎定位得到的预估坐标中，筛选出位于目标场景区域内的目标预估坐标。

上述AR引擎可以是安装于电子设备60中用于提供AR导航服务的AR内核(比如，ARkit、ARcore、EasyAR)。在AR引擎提供AR导航服务的过程中，AR引擎会实时提供估计的位置坐标，将实时提供估计的位置坐标在二维投影图中对应的图像坐标作为预估坐标。在一些实施例中，每一轮定位周期内可以通过AR引擎得到的至少一个预估坐标。

可以理解地，AR引擎提供的预估坐标准确性不稳定。也就是，利用AR引擎输出的相邻两次的预估坐标也可能出现在二维投影图像内跳跃的情况，即可能出现与实际位置之间误差较大的预估坐标。故，将目标预估坐标限制于属于目标场景区域内，能够减少AR引擎提供的估计的位置坐标准确性不稳定而带来的影响。

利用目标场景区域作为条件筛选目标预估坐标，避免AR引擎提供的位置坐标准确性不稳定而影响获取到的目标空间点云的准确性。

当然，在该子步骤S101-2执行时，可能存在未获取到目标预估作为的情况。即，本轮定位周期通过AR引擎得到的预估坐标均不属于目标场景区域。针对这一情况，可以在得到的预估坐标均不属于目标场景区域时，判定本轮定位失败，流程结束，以等待下一次定位流程的启动。可以理解地，视觉定位的过程是周期性的且时间间隔较短，因此，在子步骤S101-2判定出现本轮定位失败并结束流程，节约本轮定位的时耗，也便于迅速启动下一轮视觉定位。因此，不仅不影响AR引擎导航的使用体验，还能确保视觉定位的准确性。

子步骤S101-3，根据目标预估坐标及二维投影图，从3D点云地图中确定出目标空间点云。

在一些实施例中，上述根据目标预估坐标及二维投影图，从3D点云地图中确定出目标空间点云的方式包括：依据目标预估坐标从二维投影图中确定出待选图像区域。再将投影于待选图像区域的三维点所构成的空间点云作为目标空间点云。

通过上述子步骤S101-1至S101-3，实现了结合了场景识别和预估坐标两项约束条件，从3D点云地图中目标空间点云，确保得到的目标空间点云与视野图像之间的相关性，同时缩小了目标空间点云的规模。

可以理解地，上述待选图像区域越准确，那么确定出的目标空间点云也越准确性。上述待选图像区域的准确性主要体现在位置和大小等多个方面。

一方面，上述待选图像区域位置的准确性可以由目标预估坐标确保。

可选地，为了确保待选图像区域位置足够准确，在目标预估坐标为一个时，可以是以目标预估坐标为基点从二维投影图中确定出待选图像区域。比如，上述待选图像区域可以是以目标预估坐标在二维投影图像中对应的图像坐标作为圆心，在二维投影图像中确定出的圆形图像区域。

可选地，为了确保待选图像区域位置足够准确，在目标预估坐标为多个时，可以是以目标预估坐标的均值作为基点，从二维投影图中确定出待选图像区域。比如，上述待选图像区域可以是：以多个目标预估坐标的均值在二维投影图像中对应的图像坐标作为圆心，在二维投影图像中确定出的圆形图像区域。

另一方面，上述待选图像区域大小的准确性可以由区域半径确保。

在一些实施例中，从二维投影图中确定出待选图像区域的大小可以是固定的。也就是，可以通过大量测试获得一个适用的区域半径作为半径参数。如此，在得到基点后，依据半径参数得到一包含基点的待选图像区域。比如，以基点为圆心、半径参数为半径，在二维投影图像中得到圆形图像区域，以作为待选图像区域。

在一些实施例中，为了提高自适应性，上述二维投影图中确定出待选图像区域的大小可以是不定。也就是，可以通过大量测试获得多个适用的区域半径。在得到基点后，从多个区域半径中确定出匹配的半径参数，并依据半径参数得到一包含基点的待选图像区域。

作为一种实现方式，为了确保待选区域对应的目标空间点云与视野图像之间的相关性，匹配半径参数可以是依据已导航的导航距离确定。通常已导航的导航距离越远，所对应的半径参数越大。故，如图5所示，上述子步骤S101-3可以包括以下步骤：

S101-3-1，从AR引擎获取从起始导航点开始已导航的导航距离值。

上述已导航的导航距离值为AR引擎输出的从起始导航点开始已导航的距离值。

S101-3-2，依据导航距离值，选择匹配的半径参数。

作为一种实施方式，可以划分多个距离区间，每个距离区间对应一个半径参数。可以理解地，距离区间对应的距离值越大，对应的半径参数越大。故，可以通过判断导航距离值所属的距离区间，选择出匹配的半径参数。比如，0-1米对应的半径参数为R，1-2米对应的半径参数为2R，3-4米对应的半径参数为3R。当AR引擎输出从起始导航点开始的已导航距离为2米时，匹配出的半径参数2R。

S101-3-3，基于目标预估坐标及半径参数，从二维投影图中划分出待选图像区域。

S101-3-4，从3D点云地图中获取投影至所述待选图像区域的三维点云，以得到所述目标空间点云。

在一些实施例中，上述起始导航点可以是电子设备60启用AR导航的启示位置点。

在另一些实施例中，上述起始导航点还可以是最近一次视觉定位成功得到的位置点。因此，在一些实施例中，如图6所示，上述视觉定位方法还可以包括步骤：

步骤S104，依据计算得到的定位信息更新起始导航点。

如此，在下一轮视觉定位时从新的起始导航点开始计算导航距离值。避免采用自适应选择半径参数机制时可能出现待选图像区域被不必要地扩大。

第三种实现方式：该实现方式可以在第二种实现方式的基础上进一步地缩小目标空间点云的规模。其相对于第二种实现方式的区别在于，上述依据目标预估坐标从二维投影图中确定出待选图像区域的实现方式包括：

(1)依据目标预估坐标及半径参数，从二维投影图中划分出目标区域。比如，基于目标预估坐标及半径参数，从二维投影图中划分出圆形图像区域。

(2)获取电子设备60的运动方向。比如，可以是通过电子设备60内设置的磁力计感知到的速度方向。

(3)基于运动方向确定出目标方向角。可以理解地，电子设备60提供的运动方向也可能存在误差，为了减小这一误差，可以基于运动方向确定目标方向角。上述目标方向角用于表征实际运动方向可能的方向范围。作为一种实施方式，以运动方向为中线，向两侧转动指定角度后得到的第二方向和第三方向，将第二方向和第三方向之间的夹角为目标方向角。比如，运动方向与预设的第一方向之间的夹角为90度，指定角度为60度，那么第二方向与第一方向之间的夹角为30度、第三方向与第一方向之间的夹角为150度，如此，将相较于第一方向的30度至150度之间的夹角作为目标方向角。

(4)以目标方向角为圆心角，从目标区域中划分出待选图像区域。可选地，以目标区域中依据目标预估坐标确定的基点为圆心角的定点，将目标区域中圆形角覆盖的范围作为待选图像区域。比如，以目标方向角为圆心角，将圆形图像区域的圆心为圆心角的定点，从圆形图像区域中划分出扇形的待选图像区域。

上述步骤S102的目的在于从目标空间点云中获得用于计算定位信息的三维点。可选地，上述步骤S102可以是：提取视野图像中的视觉特征点。从目标空间点云中获取与所述视觉特征点匹配的三维点，以作为目标三维点。可以理解地，获取与视觉特征点匹配的三维点的方式为：计算每一个三维点对应的特征向量与每一个视觉特征点对应的特征向量之间的距离，并基于此确定出匹配的目标三维点。在一些实施例中，还可以是采用词袋树匹配方法或者暴力匹配等方法从目标空间点云中匹配与视觉特征点匹配的目标三维点。

可见，3D点云地图中的三维点的数据量非常大时，采用相关技术的视觉定位方式(即，直接将视觉特征点与每一个三维点进行比对)，将存在巨大的工作量，不仅时耗增加，还会存在匹配出的目标三维点误差较大的问题。

上述步骤S103可以是依据目标三维点计算出电子设备60的位姿信息及位置坐标，以作为定位信息。所采用的方法包括但不限于RANSAC(算法、P3P解法、直接线性变换法等。

本发明实施例中，视觉定位采用了多重条件将搜索目标三维点的范围限制到与视野图像相关且规模较小的目标空间点云。所用的限制条件可以是由AR引擎提供的先验信息，容易获取。

下面以一实例对上述视觉定位方法进行说明。需要说明的是，在此实例中，用户需采用手机从S点导航到E点，AR导航过程中以t为时间间隔周期性的进行视觉定位。

S1，在时间点2t时，采集一帧视野图像。

S2，通过场景识别，判断与该视野图像对应的目标场景区域为图7中的A区。

S3，获取AR引擎提供的预估坐标，若预估坐标位于A区内，则流程进入步骤S4。比如，为A区内的O点。

S4，从AR引擎获取从起始导航点开始的已导航的导航距离值。若时间点t并没成功定位，则已导航的导航距离值为从s点开始的已导航的距离值。若时间点t成功定位，且定位点为A点，则已导航的导航距离值为从A点开始已导航的距离值。

S5，依据已导航的导航距离，选择匹配的半径参数。

S6，以O点为圆形，半径参数为半径确定出圆形的目标区域。

S7，获取电子设备60的运动方向。

S8，以O点为顶点，运动方向为中线，在运动方向的两侧确定出第二方向Oa、第三方向Ob。

S9，将角aOb作为圆心角，将角aOb在目标区域中对应的小弧形区域作为待选图像区域。

S10，将投影于待选图像区域的三维点所构成的三维点云作为目标空间点云。

S11，提取视野图像中的视觉特征点。

S12，利用词袋树匹配方法从目标空间点云中匹配出与视觉特征点匹配的目标三维点。

S13，基于目标三维点计算当前用户的位姿信息及定位坐标。

基于同一发明构思，本申请实施例中还提供了与视觉定位方法对应的视觉定位装置200，由于本申请实施例中的装置解决问题的原理与本申请实施例上述视觉定位方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图8所示，为本发明实施例提供的一种视觉定位装置200的示意图，所述装置包括：划分模块201、获取模块202、定位模块203。其中：

划分模块201，用于依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云。

获取模块202，用于利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点。

定位模块203，用于基于所述目标三维点计算定位信息。

一种可能的实施方式中，上述划分模块201包括：识别子模块、筛选子模块、确定子模块。

识别子模块，用于基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域。

筛选子模块，用于从AR引擎定位得到的预估坐标中，筛选出位于所述目标场景区域内的目标预估坐标。

一种可能的实施方式中，确定子模块还用于：

从所述AR引擎获取从起始导航点开始已导航的导航距离值；

一种可能的实施方式中，上述视觉定位装置200还包括：

一种可能的实施方式中，确定子模块还用于：

依据所述目标预估坐标及所述半径参数，从所述二维投影图中划分出圆形图像区域。

获取所述电子设备60的运动方向。

基于所述运动方向确定出目标方向角。

一种可能的实施方式中，二维投影图包括多个场景区域，所述识别子模块还用于：

获取每个所述场景区域对应的重建图像；所述对应的重建图像为用于重建投影于所述场景区域的三维点的图像。

一种可能的实施方式中，电子设备60内存储有场景识别模型，上述场景识别模型用于分辨场景区域，上述识别子模块还用于：

一种可能的实施方式中，上述获取模块202包括：

提取子模块，用于提取所述视野图像中的视觉特征点；

一种可能的实施方式中，上述定位模块203还用于：

依据所述目标三维点计算出所述电子设备60的位姿信息及位置坐标，以作为所述定位信息。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器61运行时执行上述视觉定位方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述视觉定位方法，从而解决3D点云地图复杂且规模过大时定位精度降低、耗时长等问题，进而达到缩短视觉定位时长、确保定位精度的效果，确保AR导航的正确性和流畅性，提高用户体验。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种视觉定位方法，其特征在于，应用于电子设备，所述视觉定位方法包括：

基于所述目标三维点计算定位信息；

其中，所述依据采集到的视野图像，从预设的3D点云地图中划分出目标空间点云的步骤包括：

2.根据权利要求1所述的视觉定位方法，其特征在于，所述根据所述目标预估坐标及所述二维投影图，从所述3D点云地图中确定出所述目标空间点云的步骤包括：

从所述AR引擎获取从起始导航点开始已导航的导航距离值；

3.根据权利要求2所述的视觉定位方法，其特征在于，在所述基于所述目标三维点计算定位信息的步骤之后，所述视觉定位方法还包括：

4.根据权利要求2所述的视觉定位方法，其特征在于，所述基于所述目标预估坐标及所述半径参数，从所述二维投影图中划分出待选图像区域的步骤包括：

获取所述电子设备的运动方向；

基于所述运动方向确定出目标方向角；

5.根据权利要求1所述的视觉定位方法，其特征在于，所述二维投影图包括多个场景区域，所述基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域的步骤包括：

6.根据权利要求1所述的视觉定位方法，其特征在于，所述电子设备内存储有场景识别模型，所述场景识别模型用于分辨场景区域，所述基于所述视野图像，进行场景识别，以得到所述3D点云地图的二维投影图中与所述视野图像匹配的目标场景区域的步骤包括：

7.根据权利要求1所述的视觉定位方法，其特征在于，所述利用所述视野图像，从所述目标空间点云中得到匹配的目标三维点的步骤包括：

提取所述视野图像中的视觉特征点；

8.根据权利要求1所述的视觉定位方法，其特征在于，所述基于所述目标三维点计算定位信息的步骤包括：

9.一种视觉定位装置，其特征在于，应用于电子设备，所述视觉定位装置：

定位模块，用于基于所述目标三维点计算定位信息；

其中，所述划分模块包括：

10.根据权利要求9所述的视觉定位装置，其特征在于，所述确定子模块还用于：

从所述AR引擎获取从起始导航点开始已导航的导航距离值；

11.根据权利要求10所述的视觉定位装置，其特征在于，所述视觉定位装置还包括：

12.根据权利要求10所述的视觉定位装置，其特征在于，所述确定子模块还用于：

获取所述电子设备的运动方向；

基于所述运动方向确定出目标方向角；

13.根据权利要求9所述的视觉定位装置，其特征在于，所述二维投影图包括多个场景区域，所述识别子模块还用于：

14.根据权利要求9所述的视觉定位装置，其特征在于，所述电子设备内存储有场景识别模型，所述场景识别模型用于分辨场景区域，所述识别子模块还用于：

15.根据权利要求9所述的视觉定位装置，其特征在于，所述获取模块包括：

提取子模块，用于提取所述视野图像中的视觉特征点；

16.根据权利要求9所述的视觉定位装置，其特征在于，所述定位模块还用于：

17.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现权利要求1-8任一所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。