CN114842069A

CN114842069A - 一种位姿确定方法以及相关设备

Info

Publication number: CN114842069A
Application number: CN202110134812.5A
Authority: CN
Inventors: 黄振; 刘进学; 曹军; 李尔; 冯文森
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2022-08-02
Also published as: EP4276760A4; EP4276760A1; US20230368417A1; WO2022161386A1

Abstract

本申请实施例提供了一种位姿确定方法，包括：获取第一图像，并在通过第一图像确定的第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息，通过用户根据提示拍摄得到的目标图像中的目标物体，可获取不满足位姿异常条件的第二位姿信息。本申请在无法进行高精度的位姿信息确定时，利用场景中的目标物体实现了位姿定位，且在进行终端设备的位姿信息确认过程中，显示指引用户拍摄目标物体的提示信息，指引用户拍摄目标物体，避免了用户不知如何操作或是扫描到无效目标物体等情况的出现。

Description

一种位姿确定方法以及相关设备

技术领域

本申请涉及图像处理领域，尤其涉及一种位姿确定方法以及相关设备。

背景技术

视觉定位技术要解决的问题是如何使用相机所拍摄的图像或者视频来进行定位，精确定位出相机在真实世界中的位置和姿态。视觉定位问题是近些年来计算机视觉领域的热点问题，同时非常具有挑战性，其在增强现实、交互虚拟现实、机器人视觉导航、公共场景监控、智能交通等诸多领域都具有十分重要的意义。当前的定位算法主要依赖视觉全局特征进行图像检索来确定候选帧，基于视觉局部特征来进行特征匹配，确定图像2D关键点与3D点云的对应关系，然后精确估算相机的位姿。

业界现有的视觉定位方案主要依赖视觉特征进行图像搜索和定位。然而基于视觉特征的方案，在一些场景中的效果较差，例如在室内博物馆场景，场地光线条件差，图像大部分区域无法提取出有效的特征点；例如在室外公园场景，视野比较空旷，图像大部分区域被绿植所占据，提取的特征点不能作为有效的匹配点。视觉定位的适用场景存在一些局限性。

发明内容

本申请提供的一种位姿确定方法，在无法进行高精度的位姿信息确定时，利用场景中的目标物体实现了高精度位姿定位。

第一方面，本申请提供了一种位姿确定方法，所述方法包括：

获取第一图像；

根据所述第一图像确定第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息；其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

在一种可能的实现中，所述方法还包括：

获取用户根据所述提示信息拍摄得到的目标图像，所述目标图像包括所述目标物体；

根据所述目标图像，获取所述第二位姿信息。

在一种可能的实现中，所述目标物体在所述终端所处的位置周围，包括：所述目标物体与所述终端所处的位置在预设距离范围内、所述目标物体与所述终端所处的位置在同一区域的地图内、所述目标物体与所述终端所处的位置之间没有其他障碍物。

在一种可能的实现中，所述显示用于指示拍摄目标物体的提示信息之前，所述方法还包括：

获取所述终端所处的位置；

向服务器发送所述终端所处的位置；

接收所述服务器发送的所述目标物体的信息，其中，所述目标物体为所述服务器基于所述终端所处的位置确定的。

获取所述终端所处的位置；

根据所述终端所处的位置，从数字地图中确定满足预设条件的所述目标物体，其中，所述数字地图包括多个物体，所述多个物体为在所述终端所处的位置周围的物体，所述预设条件包括如下的至少一个：

所述多个物体中距离所述终端所处的位置更近的至少一个物体；

所述多个物体中随机确定的至少一个物体；

所述多个物体中与所述终端所处的位置之间没有其他障碍物的至少一个物体；

所述终端从所处的位置移动至所述多个物体中所需移动距离更少的至少一个物体。

在一种可能的实现中，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别；相应的，所述提示信息，包括如下信息的至少一种：所述目标物体的位置、由所述终端所处的位置至所述目标物体的位置的导航信息、所述目标物体的图像、名称以及类别。

在一种可能的实现中，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体。

在一种可能的实现中，所述第一图像包括第一物体，所述第一物体用于确定所述第一位姿信息，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度。

在一种可能的实现中，所述当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息，包括：

向所述服务器发送所述第一位姿信息；接收所述服务器发送的用于指示所述第一位姿信息满足位姿异常条件的第一信息，并根据所述第一信息，显示用于指示拍摄目标物体的提示信息。

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值。

第二方面，本申请提供了一种位姿确定方法，所述方法包括：

获取第一位姿信息，所述第一位姿信息为根据第一图像确定的，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

获取所述终端所处的位置；

当所述第一位姿信息满足位姿异常条件时，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；

向所述终端发送所述目标物体的信息，所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

在一种可能的实现中，所述方法还包括：

获取终端发送的目标图像，所述目标图像包括所述目标物体；

根据所述目标图像，获取所述第二位姿信息，并向所述终端发送所述第二位姿信息。

在一种可能的实现中，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别。

在一种可能的实现中，所述第一位姿信息为基于所述第一物体在数字地图中对应的第一3D点云信息确定的；或，

所述第二位姿信息为基于所述目标物体在数字地图中对应的第二3D点云信息确定的，且所述第二3D点云信息的点云密度高于所述第一3D点云信息的点云密度。

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

在一种可能的实现中，所述根据所述终端所处的位置确定目标物体，包括：

所述多个物体中随机确定的至少一个物体；

在一种可能的实现中，所述获取所述目标物体在目标图像中的第一像素位置，包括：

接收所述终端发送的所述目标物体在目标图像中的第一像素位置。

在一种可能的实现中，所述获取所述目标物体在数字地图中对应的第一位置信息，包括：

接收所述终端发送的目标图像；

根据所述目标图像在数字地图中确定所述目标物体对应的第一位置信息。

接收所述终端发送的所述目标物体在数字地图中对应的第一位置信息。

在一种可能的实现中，所述根据所述第一像素位置以及所述第一位置信息确定第二位姿信息，包括：

获取所述第一像素位置以及所述第一位置信息的2D-3D对应关系，其中，所述2D-3D对应关系表示所述目标对象在所述目标图像中的二维坐标与在实际空间中的三维坐标的对应关系；

根据所述2D-3D对应关系，确定所述第二位姿信息。

在一种可能的实现中，所述第一位置信息包括预先拍摄所述目标对象时拍摄设备的全局位姿；相应的，所述第二位姿信息表示信息终端拍摄所述目标图像时所对应的全局位姿。

第三方面，本申请提供了一种位姿确定装置，所述装置包括：

获取模块，用于获取第一图像；

位姿确定模块，用于根据所述第一图像确定第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

显示模块，用于当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息；其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

在一种可能的实现中，所述获取模块，用于：

根据所述目标图像，获取所述第二位姿信息。

在一种可能的实现中，所述获取模块，用于：

获取所述终端所处的位置；

所述装置还包括：

发送模块，用于向服务器发送所述终端所处的位置；

接收模块，用于接收所述服务器发送的所述目标物体的信息，其中，所述目标物体为所述服务器基于所述终端所处的位置确定的。

在一种可能的实现中，所述获取模块，用于：

获取所述终端所处的位置；

所述多个物体中随机确定的至少一个物体；

在一种可能的实现中，所述发送模块，用于向所述服务器发送所述第一位姿信息；所述获取模块，用于接收所述服务器发送的用于指示所述第一位姿信息满足位姿异常条件的第一信息；所述显示模块，用于根据所述第一信息，显示用于指示拍摄目标物体的提示信息。

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

第四方面，本申请提供了一种位姿确定装置，所述装置包括：

获取模块，用于获取第一位姿信息，所述第一位姿信息为根据第一图像确定的，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

获取所述终端所处的位置；

目标物体确定模块，用于当所述第一位姿信息满足位姿异常条件时，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；

发送模块，用于向所述终端发送所述目标物体的信息，所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

在一种可能的实现中，所述获取模块，用于：

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

在一种可能的实现中，所述目标物体确定模块，用于根据所述终端所处的位置，从数字地图中确定满足预设条件的所述目标物体，其中，所述数字地图包括多个物体，所述多个物体为在所述终端所处的位置周围的物体，所述预设条件包括如下的至少一个：

所述多个物体中随机确定的至少一个物体；

在一种可能的实现中，所述获取模块，用于：

获取所述目标物体在所述目标图像中的第一像素位置；

获取所述目标物体在数字地图中对应的第一位置信息，其中，所述第一位置信息表示所述目标物体在所述数字地图中的位置；

根据所述第一像素位置以及所述第一位置信息确定第二位姿信息。

在一种可能的实现中，所述获取模块，具体用于：

接收所述终端发送的目标图像；

在一种可能的实现中，所述获取模块，具体用于：

根据所述2D-3D对应关系，确定所述第二位姿信息。

在一种可能的实现中，所述第一位置信息包括拍摄设备拍摄所述目标对象得到第一图像时所对应的全局位姿；相应的，所述第二位姿信息表示终端拍摄所述目标图像时所对应的全局位姿。

第五方面，本申请提供了一种位姿确定装置，包括：显示屏；摄像头；一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序。其中，一个或多个计算机程序被存储在存储器中，一个或多个计算机程序包括指令。当指令被位姿确定装置执行时，使得位姿确定装置执行上述第一方面及第一方面中任一项可能实现方式所述的步骤。

第六方面，本申请提供了一种服务器，包括：一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序。其中，一个或多个计算机程序被存储在存储器中，一个或多个计算机程序包括指令。当指令被一个或多个处理器执行时，使得一个或多个处理器执行上述第二方面及第二方面中任一项可能实现方式所述的步骤。

第七方面，本申请提供了一种计算机存储介质，包括计算机指令，当计算机指令在电子设备或服务器上运行时，执行上述第一方面及第一方面中任一项可能实现方式、第二方面及第二方面中任一项可能实现方式中任一项所述的步骤。

第九方面，本申请提供了一种计算机程序产品，当计算机程序产品在电子设备或服务器上运行时，执行上述第一方面及第一方面中任一项可能实现方式、第二方面及第二方面中任一项可能实现方式中任一项所述的步骤。

本申请实施例提供了一种位姿确定方法，所述方法包括：获取第一图像；根据所述第一图像确定第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息；其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。通过上述方式，一方面，在无法进行高精度的位姿信息确定时，利用场景中的目标物体进行位姿定位，利用场景中的有效信息，实现了更高精度的位姿信息的确认；且在另一方面，在进行终端设备的位姿信息确认过程中，显示指引用户拍摄目标物体的提示信息，指引用户拍摄目标物体，避免用户不知如何操作或是扫描到无效目标物体等情况的出现。

附图说明

图1为本申请实施例提供的终端设备的结构示意图；

图2a为本申请实施例的终端设备的软件结构框图；

图2b为本申请实施例的服务器结构框图；

图2c为本申请实施例的位姿确定系统的结构框图；

图3为本申请实施例提供的一种位姿确定方法的实施例示意图；

图4a为本申请实施例中的一种终端界面的示意；

图4b为本申请实施例中的一种终端界面的示意；

图5为本申请实施例中的一种终端界面的示意；

图6为本申请实施例中的一种终端界面的示意；

图7为本申请实施例中的一种终端界面的示意；

图8a为本申请实施例中的一种终端界面的示意；

图8b为本申请实施例中的一种终端界面的示意；

图9a为本申请实施例提供的一种位姿确定方法的示意；

图9b为本申请实施例提供的离线数据采集示意；

图9c为本申请实施例提供的一种位姿确定方法的示意；

图10为本申请实施例中的一种终端界面的示意；

图11为本申请实施例中的一种终端界面的示意；

图12为本申请实施例提供的一种位姿确定方法的示意；

图13为本申请实施例提供的一种位姿确定装置的结构示意；

图14为本申请实施例提供的一种位姿确定装置的结构示意；

图15为本申请实施例提供的终端设备的一种结构示意图；

图16为本申请实施例提供的服务器的一种结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释，而非旨在限定本发明。

下面结合附图，对本申请的实施例进行描述。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

为便于理解，下面将对本申请实施例提供的终端100的结构进行示例说明。参见图1，图1是本申请实施例提供的终端设备的结构示意图。

如图1所示，终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(lownoise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端100的各种功能应用以及数据处理。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端100根据压力传感器180A检测所述触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端100是翻盖机时，终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端100附近有物体。当检测到不充分的反射光时，终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端100对电池142加热，以避免低温导致终端100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端100中，不能和终端100分离。

终端100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android系统为例，示例性说明终端100的软件结构。

图2a是本公开实施例的终端100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2a所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2a所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合拍照场景，示例性说明终端100软件以及硬件的工作流程。

当触摸传感器180K接收到触摸操作，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件。以该触摸操作是触摸单击操作，该单击操作所对应的控件为相机应用图标的控件为例，相机应用调用应用框架层的接口，启动相机应用，进而通过调用内核层启动摄像头驱动，通过摄像头193捕获静态图像或视频。

本申请实施例还提供了一种服务器1300。

服务器1300可以包括处理器1310、收发器1320，收发器1320可以与处理器1310连接，如图2b所示。收发器1320可以包括接收器和发送器，可以用于接收或者发送消息或数据，收发器1320可以是网卡。服务器1300还可以包括加速部件(可称为加速器)，当加速部件为网络加速部件时，加速部件可以为网卡。处理器1310可以是服务器1300的控制中心，利用各种接口和线路连接整个服务器1300的各个部分，如收发器1320等。在本发明中，处理器1310可以是中央处理器(Central Processing Unit，CPU)，可选的，处理器1310可以包括一个或多个处理单元。处理器1310还可以是数字信号处理器、专用集成电路、现场可编程门阵列、GPU或者其他可编程逻辑器件等。服务器1300还可以包括存储器1330，存储器1330可用于存储软件程序以及模块，处理器1310通过读取存储在存储器1330的软件代码以及模块，从而执行服务器1300的各种功能应用以及数据处理。

本申请实施例还提供了一种位姿确定系统，如图2c所示，该系统可以包括终端设备和服务器。其中，终端设备可以是可移动终端、人机交互设备、车载视觉感知设备，如手机、扫地机、智能机器人、无人驾驶车辆、智能监控器、增强现实(Augmented Reality，AR)穿戴设备等。相应地，本公开实施例提供的方法可以用于人机交互、车载视觉感知、增强现实、智能监控、无人驾驶等应用领域中。

为了便于理解，结合附图和应用场景，对本申请实施例提供的一种位姿确定方法进行具体阐述。

参照图3，图3为本申请实施例提供的一种位姿确定方法的实施例示意图，如图3示出的那样，本申请提供的位姿确定方法，包括：

301、获取第一图像。

本申请实施例中，为了进行AR界面的显示，终端可以获取到所述终端拍摄的视频流，所述第一图像为终端拍摄的视频流中的一个图像帧。

302、根据所述第一图像确定第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿。

本申请实施例中，为了进行AR界面的显示，终端可以获取到所述终端拍摄的视频流，并基于视频流来获取所述终端拍摄所述视频流时所对应的位姿。

接下来描述，如何基于视频流来获取所述终端拍摄所述视频流时所对应的位姿。

在一种实现中，终端可以通过自身携带的拍摄设备以及一些与定位相关的传感器获取到的数据进行自身位姿的计算，终端也可以通过将自身携带的拍摄设备以及一些与定位相关的传感器获取到的数据发送到云侧的服务器，由服务器进行终端位姿的计算，并将计算得到的位姿发送至终端。

以由服务器进行终端位姿信息的计算为例，具体的，终端设备可以将获取到的基于自身拍摄设备拍摄得到的视频流、终端所处的位置信息(例如基于全球定位系统(GlobalPositioning System，GPS)获取到的位置信息或基于位置的服务(Location BasedServices，LBS)获取到的位置信息)、历史时刻即时定位与地图构建(simultaneouslocalization and mapping，SLAM)位姿、历史时刻定位位姿等数据发送到服务器。其中，历史时刻SLAM位姿是在终端设备记录的之前做在线定位时的SLAM位姿变化，历史时刻定位位姿是在终端设备记录的之前在线定位时的定位位姿结果。

服务器可以从接收的视频流中提取一帧图像作为输入帧，然后提取出输入帧的全局特征，利用全局特征在数字地图中搜索与输入帧相似的图像，得到多帧候选帧。其中，搜索出的候选帧与输入帧存在共视关系，所谓共视关系，是指搜索出的候选帧是在输入帧位置附近X米以内，拍摄角度相差Y度以内的图像，拍摄内容与输入帧存在共视关系的图像，X、Y可以是预先设定的值。

应理解，数字地图是组织、存储和管理地图数据的仓库。其中可以包括有场景地图数据的图像、特征数据(包括全局特征和局部特征)和点云数据、3D物体数据的图像、点云、特征数据(包括全局特征和局部特征)，这些数据是在离线注册处理后添加到数字地图中的。关于如何构建数字地图将在后续的实施例中描述，这里不再赘述。

在获取到候选帧之后，服务器可以提取输入帧的局部特征，对输入帧和多帧候选帧做图像匹配，可以得到2D-2D对应关系，从数字地图中可获取到候选帧的2D点和点云的匹配对，由此可得输入帧和点云的2D-3D对应关系。

服务器可以基于输入帧和点云的2D-3D对应关系，通过位姿求解算法计算出输入帧的位姿，即终端设备的位姿初步结果。其中，位姿求解算法可以包括但不限于透视n个点的位姿求解算法(perspective n points，pnp)、透视2个点的位姿求解算法(perspective2points，p2p)等等。

以上以服务器进行终端设备所处的位姿信息的计算为例进行的说明，接下来以终端设备自身完成所处的位姿信息的计算为例进行说明：

终端设备可以获取到基于自身拍摄设备拍摄得到的视频流、终端所处的位置信息(例如基于全球定位系统(Global Positioning System，GPS)获取到的位置信息或基于位置的服务(Location Based Services，LBS)获取到的位置信息)、历史时刻即时定位与地图构建(simultaneous localization and mapping，SLAM)位姿、历史时刻定位位姿等数据。并从视频流中提取一帧图像作为输入帧，然后提取出输入帧的全局特征，利用全局特征在数字地图中搜索与输入帧相似的图像，得到多帧候选帧。在获取到候选帧之后，终端设备可以提取输入帧的局部特征，对输入帧和多帧候选帧做图像匹配，可以得到2D-2D对应关系，从数字地图中可获取到候选帧的2D点和点云的匹配对，由此可得输入帧和点云的2D-3D对应关系。终端设备可以基于输入帧和点云的2D-3D对应关系，通过位姿求解算法计算出输入帧的位姿。

需要说明的是，本申请实施例中的位姿可以包括拍摄图像时，所述终端设备的三维位置坐标、偏航角、俯仰角和横滚角。

在获取到拍摄所述视频流时所对应的位姿的情况下，可以基于所述拍摄所述视频流时所对应的位姿，显示增强现实AR界面，其中，所述AR界面可以包括所述视频流对应的预览流，具体的，终端在获取到拍摄所述视频流时所对应的位姿之后，可以基于位姿进行AR界面的显示，其中，AR界面可以包括当前终端设备所处的环境图像(预览流)以及基于自身的位姿信息生成的标识，例如，若AR界面为AR导航界面，则标识可以为导航指引，若AR界面为场景讲解AR界面，例如博物馆中的展品讲解界面，则标识可以为展品的指示标记。

本申请实施例中，所述第一图像为所述视频流中的一帧，所述拍摄所述视频流时所对应的位姿包括所述第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿。

303、当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息；其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

在一些场景中，由于拍摄视频时所处的环境原因，使得无法从提取的输入帧中提取出有效的特征点，例如在某些室内场景，例如博物馆、艺术品展馆等，现场环境光照条件差，墙壁地面大多数是弱纹理和重复纹理，无法提取有效的视觉特征点；在某些室外场景，例如公园、大型广场等，环境中大部分是绿植，不存在显著的建筑物，提取到的视觉特征点是无法用于定位的。

具体的，本实施例中，终端可以基于视频流对应的位姿，来进行AR界面的显示，然而在计算视频流中第一图像对应的位姿时，由于拍摄第一图像时终端所处的环境原因，得到的位姿计算结果(第一位姿信息)的位姿精度满足位姿异常条件，位姿异常条件可以包括无法获取到位姿信息；或，当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值。

其中，无法获取到位姿信息可以理解为在T1时间内无法获取到位姿信息，或者基于图像并不能算出位姿信息，例如终端在T1时间内始终无法接收到服务器计算得到的位姿信息，或者，终端接收到服务器反馈的无法计算出位姿信息的指示，或者终端自身无法基于图像算出位姿信息。应理解，T1可以为预先设定的时间，T1可以是在0-0.5秒内的值，例如T1可以是0.1秒或者0.3秒。

其中，正确位姿信息可以理解为服务器基于标准的数字地图可以算出的位姿信息，该正确位姿信息可以客观上正确的表示终端当前所处的位姿；

其中，当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值可以理解为：当前确定出的位姿信息与终端当前所处的正确位姿之间的偏差过大。在一种实现中，以位姿基于6自由度(6DOF)表示为例，针对于每个自由度，可以设置对应的阈值，或者将位置坐标点(包括X坐标、Y坐标、Z坐标)设置对应的阈值，剩余的角度信息(偏航角θ1、俯仰角θ2以及翻滚角θ3)分别设置对应的阈值。具体的，针对于X、Y坐标，对应的阈值可以设置为0-2m之间的一个数值，例如X、Y坐标对应的阈值可以设置为0.5m或者1m，针对于Z坐标可以设置为0-0.5m之间的一个数值，例如Z坐标对应的阈值可以设置为0.1m或者0.25m，针对于偏航角θ1、俯仰角θ2以及翻滚角θ3，对应的阈值可以设置为0-10度之间的一个数值，例如偏航角θ1、俯仰角θ2以及翻滚角θ3对应的阈值可以设置为5度或者4度。在这种情况下，当6自由度中的任意自由度与对应的正确位姿值之间的偏差超过对应的阈值，则认为当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值，或者当6自由度中指定的几个自由度与对应的正确位姿值之间的偏差超过对应的阈值时，认为当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值。

在一种实现中，位姿计算结果除了包括位姿信息，还可以包括该位姿信息对应的置信度，置信度可以基于重投影误差，内点数量等方式确定，本申请实施例并不限定。当置信度过低时，可以认为当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值，例如假设置信度满分是1.0，当置信度低于0.6则认为当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值，或者当置信度低于0.7则认为当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值。

在上述场景中，通常存在有显著的视觉特征的物体(所谓有显著的视觉特征，是指物体在视觉上的纹理特征的辨识度较高，具体的，所谓纹理特征的辨识度较高，是指在世界上具有和目标物体相同纹理特征的物体较少，基于目标物体的纹理特征就可以确定出目标物体)，例如博物馆的文物、公园里的雕像等，把这些物体作为定位目标可以大大提升定位成功率，但是在现有的数字地图建模过程中，是按照固定的线路对大范围的场景采集视频序列，再通过离线处理生成场景的稀疏点云，针对于单个的物体只有少量的稀疏点云，无法达到用于3D物体定位的需求。因此，可以对3D物体做单独的采集和离线处理，生成稠密的点云和图像等数据。

在一种实现中，服务器可以对算出的位姿初步结果(第一位姿信息)做判定，如果第一位姿信息满足位姿异常条件，则可以基于终端所处的位置从数字地图中确定位于终端周围的物体(本实施例中称之为目标物体)，并将包含目标物体的信息发送至终端。其中，所谓在终端周围，可以理解为所述目标物体与所述终端所处的位置在预设距离范围内，由于距离较近，用户可以很容易移动到目标物体附近，所谓在终端周围，也可以理解为所述目标物体与所述终端所处的位置在同一区域的地图内，例如在博物馆的场景中，目标物体和第一物体都在博物馆内，进而用户可以很容易移动到目标物体附近，所谓在终端周围，也可以理解为所述目标物体与所述终端所处的位置之间没有其他障碍物。

具体的，数字地图中可以包括预先采集好的多个物体的信息，信息可以包括但不限于物体的位置、物体的图像、物体的点云等等。在服务器确定终端设备的实时位姿的精度满足位姿异常条件时，可以从数字地图中获取到位于终端所处位置周围的物体(包括目标物体)，并将指示这些物体的信息发送至终端，进而，终端可以在目标界面上显示这些物体的信息。进而，终端可以拍摄包括这些物体的目标图像，并基于该目标图像进行位姿的重新确定。

应理解，所述目标物体不在所述第一图像中，在一种实现中，第一图像中不包括目标物体的任何一部分，在一种实现中，第一图像中仅包括目标物体的一部分，目标物体的另一部分不在第一图像中，且第一图像中包括的目标物体的一部分并不足以用于确定终端的位子信息。

具体的，在数字地图中可以包括多个物体的3D点云信息，其中，在数字地图中第一物体对应第一3D点云信息，目标物体在数字地图中对应第二3D点云信息，且所述第二3D点云信息的点云密度高于所述第一3D点云信息的点云密度。

本申请实施例中，所述目标物体为能够在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体，其中，所谓能够在当前终端的拍摄参数下能够完整成像，可以理解为目标物体为中小型物体，进而用户可以在当前终端的拍摄参数下拍摄到目标物体的全貌，所谓物理位置相对固定，不是指目标物体不可以被移动，而是指在自然状态下，目标物体相对于地面处于静止状态，例如在博物馆的场景中，目标物体可以为展品。

在一种实现中，数字地图中包括多个位于终端所处位置周围的物体，服务器或者终端可以基于预设条件从多个物体中选择至少一个物体(包括目标物体)。接下来描述如何基于预设条件从多个物体中选择至少一个物体：

本申请实施例中，可以根据所述终端所处的位置，从数字地图中确定满足预设条件的所述目标物体，其中，所述数字地图包括多个物体，所述多个物体为在所述终端所处的位置周围的物体，所述预设条件包括如下的至少一个：

所述多个物体中随机确定的至少一个物体；

为了能够使得携带终端的用户可以方便移动至目标物体附近，可以从多个物体中选择距离所述终端所处的位置更近的至少一个物体，或者从多个物体中选择与所述终端所处的位置之间没有其他障碍物的至少一个物体，或者从多个物体中选择所述终端从所处的位置移动至所述多个物体中所需移动距离更少的至少一个物体。

更具体的，服务器可以向终端设备发送目标界面显示指示，目标界面显示指示可以包括目标物体的信息，相应的，终端设备可以显示指示拍摄目标物体的提示信息。

在一种实现中，终端设备可以自己计算第一位姿信息，并对算出的位姿初步结果(第一位姿信息)做判定，如果第一位姿信息满足位姿异常条件，例如第一位姿信息求解失败或者第一位姿信息的位姿精度相比正确值的偏差大于阈值，则可以基于自身所处的位置从数字地图中确定位于终端一定距离内的物体(本实施例中称之为目标物体)。或者，终端设备可以对算出的位姿初步结果(第一位姿信息)做判定，如果第一位姿信息满足位姿异常条件，则可以向服务器发送位姿精度满足位姿异常条件的指示，服务器可以从数字地图中确定位于终端一定距离内的物体(本实施例中称之为目标物体)，并将包含目标物体的信息发送至终端。

接下来描述，终端设备如何显示指示拍摄目标物体的提示信息。

在一种实现中，终端设备可以接收到服务器发送的目标物体的信息。

本申请实施例中，目标物体的信息可以包括所述目标物体的位置；相应的，终端设备可以显示所述目标物体的位置，或显示由所述终端所处的位置至所述目标物体的位置的导航信息。目标物体的信息还可以包括所述目标物体的图像、名称和/或类别，相应的，终端设备可以显示所述目标物体的图像、名称和/或类别，其中，图像可以是预先拍摄目标物体得到的，名称可以是目标物体的具体名称，例如在博物馆的场景中，目标物体的名称可以是展品的名称、展品的序号、展品的类别等等。

应理解，服务器可以将位于终端设备所处的位置附近的多个物体的信息发送至终端设备，目标物体为多个物体中的一个，相应的，目标界面上可以包括多个指示目标物体的信息，用户可以从多个物体中选择一个。

在一种实现中，终端设备可以自己从数字地图中获取目标物体的信息。

具体的，可以参照图4a，图4a为本申请实施例中的一种终端界面的示意，终端设备可以显示应用导航界面，其中，图4a示出的界面中包括AR导航应用，用户可以打开该AR导航应用，进而，终端可以显示如图4b所示的界面，图4b为本申请实施例中的一种终端界面的示意，其中，如图4b所示，AR导航界面可以包括终端设备拍摄的预览流以及导航标识，其中，导航标识为基于终端设备拍摄得到预览流时所对应的实时位姿信息生成的。若实时位姿信息的位姿精度低于阈值，则终端设备可以显示如图5所示的终端界面，其中，图5可以包括用于指示当前定位失败的标识、用于指示开启基于目标物体进行位姿信息确定的控件(如图5中示出的打开物体识别定位控件)，此外还可以包括重新定位控件。

如图5所示，用户可以点击打开物体识别定位控件，响应于用户的点击打开物体识别定位控件的操作，终端设备可以显示如图6所示的终端界面，其中，终端界面可以包括用于指示用户拍摄目标物体的提示信息，例如图6中示出的目标物体的名称(图6中示出的“A”、“B”、“C”以及“D”)，以及目标物体的位置(图6中示出的“位置1”、“位置2”、“位置3”以及“位置4”)。

此外，响应于用户的点击打开物体识别定位控件的操作，终端设备可以显示如图7所示的终端界面，其中，终端界面可以包括目标物体的信息(例如由所述终端所处的位置至所述目标物体的位置的导航信息)，例如图6中示出的导航界面，其中，导航界面可以为平面地图，包括了终端设备所在位置的指示，以及目标物体在平面地图中所在位置的指示。

应理解，图4b至图7示出的终端界面中的界面布局，控件类型仅为一种示意，并不构成对本实施例的限定。

本申请实施例中，终端可以获取用户根据所述提示信息拍摄得到的目标图像，所述目标图像包括所述目标物体。

本申请实施例中，用户可以根据所述提示找到目标物体所在的位置。

例如，在博物馆的场景中，终端设备可以显示至少一个展品的名称、图像或者位置信息，用户可以选择其中的一个展品(目标物体)，并基于名称、图像或者位置信息找到目标物体所在的位置。

进而，用户可以拍摄目标物体得到目标图像，或者用户可以拍摄目标图像得到视频流，目标图像为视频流中的一个图像帧。

接下来，描述终端如何拍摄目标物体得到目标图像。

如图6所示，若用户到达目标物体附近时，可以点击图6中终端界面上显示的“开始拍摄”控件，响应于用户点击“开始拍摄”控件，终端设备可以显示如图8a或图8b所示的拍摄界面，如图7所示，若用户到达目标物体附近时，可以点击图7中终端界面上显示的“开始拍摄”控件，响应于用户点击“开始拍摄”控件，终端设备可以显示如图8a或图8b所示的拍摄界面。

在一种实现中，终端设备在获取到目标图像之后，可以将目标图像发送至服务器，以便服务器基于目标图像进行终端设备的位姿信息计算。

在一种实现中，终端设备在获取到包括目标图像的视频流之后，可以将视频流发送至服务器，以便服务器基于视频流中的目标图像进行终端设备的位姿信息计算。

在一种实现中，终端设备在获取到目标图像之后，可以基于目标图像进行终端设备的位姿信息计算。

在一种实现中，终端设备在获取到包括目标图像的视频流之后，可以基于视频流中的目标图像进行终端设备的位姿信息计算。

如图8a所示，图8a为终端设备显示的拍摄目标物体的界面示意，用户可以通过图8a示出的拍摄界面拍摄目标物体得到包括目标物体的目标图像。

如图8b所示，图8b为终端设备显示的拍摄目标物体的界面示意，用户可以通过图8b示出的拍摄界面扫描目标物体，以得到包括目标物体的视频流。

本申请实施例中，在获取到用户根据所述提示信息拍摄得到的目标图像之后，可以根据所述目标图像中的所述目标物体，获取所述第二位姿信息。

本申请实施例中，可以获取所述目标物体在所述目标图像中的第一像素位置，获取所述目标物体在数字地图中对应的第一位置信息，其中，所述第一位置信息表示所述目标物体在所述数字地图中的位置，并根据所述第一像素位置以及所述第一位置信息确定第二位姿信息。

本申请实施例中，终端设备可以获取到目标物体在所述目标图像中的第一像素位置。

在一种实现中，第一像素位置的确定可以由终端设备独立完成，或者由终端设备和服务器的交互来实现，即，服务器确定第一像素位置，并将第一像素位置发送给终端设备。

本申请实施例中，终端设备可以获取所述目标物体在数字地图中对应的第一位置信息。

在一种实现中，第一位置信息的确定可以由终端设备独立完成，或者由终端设备和服务器的交互来实现，即服务器确定第一位置信息，并将第一位置信息发送给终端设备。

本申请实施例中，终端设备可以获取第二位姿信息。

在一种实现中，根据所述第一像素位置和所述第一位置信息来确定第二位姿信息的步骤可以由终端设备独立完成，或者由终端设备和服务器的交互来实现，即，服务器确定第二位姿信息，并将第二位姿信息发送给终端设备。

本申请实施例中，终端设备可以向服务器发送所述目标图像，接收所述服务器发送的第二位姿信息，其中，所述位姿信息为所述服务器根据所述目标物体在所述目标图像中的第一像素位置以及所述目标物体在数字地图中对应的第一位置信息确定的，所述第一位置信息表示所述目标物体在所述数字地图中的位置。

所述第二位姿信息为根据所述第一像素位置以及所述第一位置信息的2D-3D对应关系确定的，其中，所述2D-3D对应关系表示所述目标对象在所述目标图像中的二维坐标与在实际空间中的三维坐标的对应关系。

本申请实施例中，终端设备可以获取所述目标物体在所述目标图像中的第一像素位置，向所述服务器发送所述目标图像中的第一像素位置，接收所述服务器发送的第二位姿信息，其中，所述位姿信息为所述服务器根据所述目标物体在所述目标图像中的第一像素位置以及所述目标物体在数字地图中对应的第一位置信息确定的，所述第一位置信息表示所述目标物体在所述数字地图中的位置。

本申请实施例中，终端设备可以获取所述目标物体在数字地图中对应的第一位置信息，其中，所述第一位置信息表示所述目标物体在所述数字地图中的位置，向所述服务器发送所述目标图像和所述第一位置信息，接收所述服务器发送的第二位姿信息，其中，所述位姿信息为所述服务器根据所述目标物体在所述目标图像中的第一像素位置以及所述目标物体在数字地图中对应的第一位置信息确定的，所述第一位置信息表示所述目标物体在所述数字地图中的位置。

本申请实施例中，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度，因此，基于目标物体确定的所述第二位姿信息不满足所述位姿异常条件，例如第二位姿信息的求解成功，且与正确位姿信息之间的差异小于阈值。

接下来描述如何构建本实施例中的数字地图，参照图9b，可以预先采集目标物体的视频帧序列，例如可以360度环绕采集目标物体的视频帧序列，并处理视频帧序列，离线进行3D物体建模，输出目标物体的多个图像、每个图像的局部位姿以及全局位姿、3D点云数据等等。可以对需要定位的场景做视频帧序列采集，并处理场景的视频帧序列，离线完成场景的稀疏重建，输出场景图像数据库，场景图像数据库可以包括场景的图像数据、全局位姿和点云。然后在场景图像数据库中，搜索包含有目标物体的图像，输出场景地图的多帧关联图像。并对多帧关联图像做特征提取，与目标物体的局部位姿做图像匹配，可输出多帧关联图像特征与目标物体图像特征的2D-2D对应关系，并基于多帧关联图与目标物体的3D点云的2D-3D对应关系，由位姿求解算法即可求解出多帧关联帧与目标物体的位姿相对关系，并结合关联帧的全局位姿，即可计算出目标物体的全局位姿。数字地图中可以包括上述计算得到的目标物体的数据和全局位姿。

此外，还可以对全局位姿做图优化算法优化，进而得到更鲁棒的目标物体的全局位姿。具体的，如图9a所示，对多帧关联图计算得到了P1，P2，P3三帧的位姿，目标物体上的各个特征点X1～X6与相机的光心的连线会与图像相交，这个交点与真实物体点在图像平面上的投影(也就是图像上的像素点)存在差值，这个差值不可能恰好为0，此时需要将这个差值最小化来获取最优的相机位姿。求解这个最优的问题叫做BA优化，可以利用LM(Levenbrg-Marquardt)算法并在此基础上利用BA模型的稀疏性质来进行计算，其中，LM算法是最速下降法(梯度下降法)和Gauss-Newton的结合。

传统的位姿求解是用3D物体图像的2D特征和场景3D点云的2D-3D关系来求解3D物体位姿。但是由于场景地图的采集和稀疏重建的过程，提取是大范围环境内的视觉特征，在场景内的3D物体上提取到的特征和点云是稀疏，用这个稀疏点云来和3D物体的图像匹配和位姿求解，准确度和成功率都不是最优。本实施例中反向位姿求解是用场景的图像和稠密的3D物体点云来做匹配和位姿求解，这样定位的准确度和成功率都有较大的提升。

接下来描述如何获取到目标物体在所述目标图像中的第一像素位置以及目标物体在数字地图中对应的第一位置信息：

本申请实施例中，第一像素位置可以是目标物体在目标图像中的特征点或者是特征线的像素位置。特征点可以是目标物体在目标图像中的角点，特征线可以是目标物体在目标图像中的边缘线，本实施例并不限定。

本申请实施例中，第一位置信息可以包括目标物体在数字地图中的三维3D物体点云信息，所述第一位置信息还可以包括拍摄设备拍摄所述目标对象得到第一图像时所对应的全局位姿。相应的，最后计算得到的第二位姿信息可以表示终端拍摄所述目标图像时所对应的全局位姿。

本申请实施例中，可以获取所述第一像素位置以及所述第一位置信息的2D-3D对应关系，其中，所述2D-3D对应关系表示所述目标对象在所述目标图像中的二维坐标与在实际空间中的三维坐标的对应关系，根据所述2D-3D对应关系，确定所述第二位姿信息。

具体的，在获取所述第一像素位置以及所述第一位置信息的2D-3D对应关系之后，可以通过位姿求解算法计算第二位姿信息，位姿求解算法可以包括但不限于透视n个点的位姿求解算法(perspective n points，pnp)、透视2个点的位姿求解算法(perspective2points，p2p)等等。

在一种实现中，在获取到目标图像之后，可以首先对目标图像做物体识别。具体可以是基于深度学习的神经网络模型来识别出目标图像中的目标物体，并输出一个初步的拍摄目标物体的终端设备位姿信息；然后再提取目标图像中的局部视觉特征(第一像素位置)，同数字地图中的目标物体的图像做2D-2D匹配，再结合数字地图中的3D物体点云(第一位置信息)可得到2D-3D对应关系，把2D-3D对应关系输入至位姿求解算法做位姿求解，最后得到更精确的3D物体位姿(第二位姿信息)。关于2D-3D匹配的示意可以参照图9c。其中，点P1在数字地图中的3D点云为X1-X4，P2和P3类似。

本申请实施例中，所述第二位姿信息可以包括拍摄所述目标图像时，所述终端设备的偏航角、俯仰角和横滚角。

应理解，在获取到第二位姿信息之后，还可以基于第二位姿信息以及终端设备的历史时刻SLAM位姿和定位位姿结果，做位姿优化，输出优化后的第二位姿信息。

具体的，参照图9a，终端设备在对着目标物体(图9a中示出的狮子雕像)一边移动一边定位；在T1时刻，视觉定位全局位姿为Tvps_1，SLAM定位局部位姿为Tslam_1；在T2时刻，视觉定位全局位姿为Tvps_2，SLAM定位局部位姿为Tslam_2；在T3时刻，获取到的第二位姿信息为T3d_3，SLAM定位局部位姿为Tslam_3；在T4时刻，获取到的第二位姿信息为T3d_4，SLAM定位局部位姿为Tslam_4；在T5时刻，获取到的第二位姿信息为Tvps_5，SLAM定位局部位姿为Tslam_5；

获取到的第二位姿信息的结果是全局位姿，这些位姿间存在这样的约束关系：即任意两个时刻全局位姿间的变换矩阵，应该同对应时刻局部SLAM位姿间的变换矩阵相等。根据这个约束条件，使用图优化使两个变换矩阵的差值最小，输出优化后的T5时刻的第二位姿信息。

本申请实施例中，终端设备在获取到第二位姿信息，或者服务器获取到第二位姿信息并将第二位姿信息发送至终端设备之后，可以显示如图10所示的终端界面，其中该终端界面用于指示定位成功，进而，终端设备可以返回AR界面(例如图11所示的AR导航界面)。

本申请实施例中，终端设备在获取到第二位姿信息，或者服务器获取到第二位姿信息并将第二位姿信息发送至终端设备之后，终端设备可以还可以获取终端设备的位姿变化；并根据第二位姿信息和获取到的终端设备的位姿变化，确定实时位姿。

在本申请实施中，终端设备可以将获取到的第二位姿信息作为初始位姿，并通过即时定位与地图构建(simultaneous localization and mapping，slam)跟踪技术，确定终端设备的位姿变化，基于初始位姿和终端的位姿变化，确定实时位姿。终端设备可以基于实时位姿，进行导航、路线规划、避障等处理。例如在进行路径规划时，终端设备根据所述坐标位置进行路径规划，得到规划后的路径，其中所述规划后的路径的起点或终点为所述坐标位置，显示二维导航界面，所述二维导航界面包括所述规划后的路径。或者，显示AR导航界面，所述AR导航界面包括当前终端设备所处的环境图像以及导航指引，所述导航指引为基于所述终端设备的偏航角、俯仰角和横滚角确定的。

可选地，除了可以基于实时位姿，进行导航、路线规划、避障等处理之外，在获取到第二位姿信息之后，终端设备还可以获取当前场景的预览流；根据第二位姿信息，确定预览流中的场景对应的数字地图中包含的预设媒体内容；在预览流中渲染媒体内容。

参照图10，图10为终端获取到第二位姿信息之后显示的界面，如图10所示，第二位姿信息不满足位姿异常条件，则相当于第二位姿信息与位姿的正确值之间的差异小于阈值，即第二位姿信息可以正确的表示出终端当前所处的位姿，进而，如图11所示，AR导航应用可以以终端当前所处的位姿开始继续进行AR导航的界面显示。

在本申请实施中，如果终端设备为手机或者AR穿戴式设备等，可以基于位姿信息构建虚拟场景。首先，终端设备可以获取当前场景的预览流，例如，用户可以在某商场中拍摄当前环境的预览流。接着，终端设备可以根据上面提到过的方法确定第二位姿信息作为初始位姿。随后，终端设备可以获取数字地图，数字地图记录了世界坐标系中的各个位置的三维坐标，预设的三维坐标位置处存在对应的预设媒体内容，终端可以在数字地图中，确定实时位姿对应的目标三维坐标，如果目标三维坐标处存在对应的预设媒体内容，则获取预设媒体内容。例如，用户对着一个目标店铺进行拍摄，终端识别到实时位姿，确定当前摄像头正对着一个目标店铺进行拍摄，可以获取目标店铺对应的预设媒体内容，目标店铺对应的预设媒体内容可以是目标店铺的说明信息，比如目标店铺中有哪些商品是值得购买的商品等。基于此终端可以在预览流中渲染媒体内容，此时，用户可以在手机中目标店铺对应的图像附近的预设区域内，查看到目标店铺对应的预设媒体内容。在用户查看完目标店铺对应的预设媒体内容之后，就可以对目标店铺有大概的了解。

可以针对不同场所设置不同的数字地图，这样当用户移动到其他场所时，也可以基于本公开实施例中提供的渲染媒体内容的方式，获取实时位姿对应的预设媒体内容，在预览流中渲染媒体内容。

参照图12，图12为本申请实施例提供的一种位姿确定方法的实施例示意图，如图12示出的那样，本申请提供的位姿确定方法，包括：

1201、服务器获取第一位姿信息，所述第一位姿信息为根据第一图像确定的，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

步骤1201的具体描述可以参照步骤301以及步骤302中与服务器获取第一位姿信息相关的描述，这里不再赘述。

1202、获取所述终端所处的位置；

步骤1202的具体描述可以参照步骤302中与服务器获取所述终端所处的位置息相关的描述，这里不再赘述。

1203、当所述第一位姿信息满足位姿异常条件，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；

步骤1203的具体描述可以参照步骤303中与获取目标物体的信息相关的描述，这里不再赘述。

1204、向所述终端发送所述目标物体的信息，所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

步骤1204的具体描述可以参照步骤303中与向所述终端发送所述目标物体的信息相关的描述，这里不再赘述。

在一种可能的实现中，服务器还可以获取终端发送的目标图像，所述目标图像包括所述目标物体；

在一种可能的实现中，所述第一位姿信息为基于所述第一物体在数字地图中对应的第一3D点云信息确定的或，

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

根据所述终端所处的位置，从数字地图中确定所述目标物体，其中，所述数字地图包括多个物体，所述目标物体为所述多个物体中在所述终端所处的位置周围的物体。

在一种可能的实现中，服务器还可以获取所述目标物体在所述目标图像中的第一像素位置；获取所述目标物体在数字地图中对应的第一位置信息，其中，所述第一位置信息表示所述目标物体在所述数字地图中的位置；

在一种可能的实现中，服务器还可以接收所述终端发送的所述目标物体在目标图像中的第一像素位置。

在一种可能的实现中，服务器还可以接收所述终端发送的目标图像；

在一种可能的实现中，服务器还可以接收所述终端发送的所述目标物体在数字地图中对应的第一位置信息。

在一种可能的实现中，服务器还可以获取所述第一像素位置以及所述第一位置信息的2D-3D对应关系，其中，所述2D-3D对应关系表示所述目标对象在所述目标图像中的二维坐标与在实际空间中的三维坐标的对应关系；

根据所述2D-3D对应关系，确定所述第二位姿信息。

本申请实施例提供了一种位姿确定方法，所述方法包括：获取第一位姿信息，所述第一位姿信息为根据第一图像确定的，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；获取所述终端所处的位置；当所述第一位姿信息满足位姿异常条件，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；向所述终端发送所述目标物体的信息，所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。通过上述方式，在无法进行高精度的位姿信息确定时，利用场景中的目标物体进行位姿定位，利用场景中的有效信息，实现了位姿信息的确认。

本申请还提供了一种位姿确定装置，位姿确定装置可以是终端设备，参照图13，图13为本申请实施例提供的一种位姿确定装置的结构示意，如图13中示出的那样，所述位姿确定装置1300包括：

获取模块1301，用于获取第一图像；

关于获取模块1301的具体描述，可以参照步骤301对应的实施例中的描述，这里不再赘述。

位姿确定模块1302，用于根据所述第一图像确定第一位姿信息，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；

关于位姿确定模块1302的具体描述，可以参照步骤302对应的实施例中的描述，这里不再赘述。

显示模块1303，用于当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息；其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；所述目标物体用于获得第二位姿信息，所述第二位姿信息表示终端拍摄所述目标物体时所对应的位姿，且所述第二位姿信息不满足所述位姿异常条件。

关于显示模块1303的具体描述，可以参照步骤304对应的实施例中的描述，这里不再赘述。

在一种可能的实现中，所述获取模块1301，用于获取用户根据所述提示信息拍摄得到的目标图像，所述目标图像包括所述目标物体；

根据所述目标图像，获取所述第二位姿信息。

在一种可能的实现中，所述获取模块1301，用于：

获取所述终端所处的位置；

所述装置还包括：

发送模块，用于向服务器发送所述终端所处的位置；

在一种可能的实现中，所述获取模块1301，用于：

获取所述终端所处的位置；

根据所述终端所处的位置，从数字地图中获取所述目标物体的信息，其中，所述数字地图包括多个物体，所述目标物体为所述多个物体中在所述终端所处的位置周围的物体。

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

本申请还提供了一种位姿确定装置，位姿确定装置可以是服务器，参照图14，图14为本申请实施例提供的一种位姿确定装置的结构示意，如图14中示出的那样，所述位姿确定装置1400包括：

获取模块1401，用于获取第一位姿信息，所述第一位姿信息为根据第一图像确定的，所述第一位姿信息表示终端拍摄所述第一图像时所对应的位姿；获取所述终端所处的位置；

关于获取模块1401的具体描述，可以参照步骤1201以及步骤1202对应的实施例中的描述，这里不再赘述。

目标物体确定模块1402，用于当所述第一位姿信息满足位姿异常条件，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中；

关于目标物体确定模块1402的具体描述，可以参照步骤1203对应的实施例中的描述，这里不再赘述。

发送模块1403，用于当所述第一位姿信息满足位姿异常条件，根据所述终端所处的位置确定目标物体，其中，所述目标物体在所述终端所处的位置周围，且所述目标物体不在所述第一图像中。

关于发送模块1403的具体描述，可以参照步骤1203对应的实施例中的描述，这里不再赘述。

在一种可能的实现中，所述获取模块1401，用于：

在一种可能的实现中，所述位姿异常条件，包括：

无法获取到位姿信息；或，

当前确定出的位姿信息与正确位姿信息之间的偏差大于阈值。在一种可能的实现中，所述目标物体确定模块，用于根据所述终端所处的位置，从数字地图中确定所述目标物体，其中，所述数字地图包括多个物体，所述目标物体为所述多个物体中在所述终端所处的位置周围的物体。

在一种可能的实现中，所述获取模块1401，用于：

获取所述目标物体在所述目标图像中的第一像素位置；

在一种可能的实现中，所述获取模块1401，具体用于：

接收所述终端发送的目标图像；

在一种可能的实现中，所述获取模块1401，具体用于：

在一种可能的实现中，所述获取模块，具体用于：

根据所述2D-3D对应关系，确定所述第二位姿信息。

接下来介绍本申请实施例提供的一种终端设备，终端设备可以为图13中的位姿确定装置，请参阅图15，图15为本申请实施例提供的终端设备的一种结构示意图，终端设备1500具体可以表现为虚拟现实VR设备、手机、平板、笔记本电脑、智能穿戴设备等，此处不做限定。具体的，终端设备1500包括：接收器1501、发射器1502、处理器1503和存储器1504(其中终端设备1500中的处理器1503的数量可以一个或多个，图15中以一个处理器为例)，其中，处理器1503可以包括应用处理器15031和通信处理器15032。在本申请的一些实施例中，接收器1501、发射器1502、处理器1503和存储器1504可通过总线或其它方式连接。

存储器1504可以包括只读存储器和随机存取存储器，并向处理器1503提供指令和数据。存储器1504的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory，NVRAM)。存储器1504存储有处理器和操作指令、可执行模块或者数据结构，或者它们的子集，或者它们的扩展集，其中，操作指令可包括各种操作指令，用于实现各种操作。

处理器1503控制终端设备的操作。具体的应用中，终端设备的各个组件通过总线系统耦合在一起，其中总线系统除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都称为总线系统。

上述本申请实施例揭示的方法可以应用于处理器1503中，或者由处理器1503实现。处理器1503可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1503可以是通用处理器、数字信号处理器(digital signal processing，DSP)、微处理器或微控制器，还可进一步包括专用集成电路(application specific integratedcircuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器1503可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1504，处理器1503读取存储器1504中的信息，结合其硬件完成上述方法的步骤。具体的，处理器1503可以读取存储器1504中的信息，结合其硬件完成上述实施例中步骤301至这步骤303中与数据处理相关的步骤。

接收器1501可用于接收输入的数字或字符信息，以及产生与终端设备的相关设置以及功能控制有关的信号输入。发射器1502可用于通过第一接口输出数字或字符信息；发射器1502还可用于通过第一接口向磁盘组发送指令，以修改磁盘组中的数据；发射器1502还可以包括显示屏等显示设备。

本申请实施例还提供了一种服务器，服务器可以为图14中的位姿确定装置，请参阅图16，图16是本申请实施例提供的服务器一种结构示意图，具体的，服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)1616(例如，一个或一个以上处理器)和存储器1632，一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中，存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1616可以设置为与存储介质1630通信，在服务器1600上执行存储介质1630中的一系列指令操作。

服务器1600还可以包括一个或一个以上电源1626，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1658；或，一个或一个以上操作系统1641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

具体的，中央处理器1616可以完成上述实施例中步骤1201至这步骤1204中与数据处理相关的步骤。

本申请实施例中还提供一种包括计算机程序产品，当其在计算机上运行时，使得计算机执行位姿确定方法的步骤。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有用于进行信号处理的程序，当其在计算机上运行时，使得计算机执行如前述实施例描述的方法中的位姿确定方法的步骤。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种位姿确定方法，其特征在于，所述方法包括：

获取第一图像；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述目标图像，获取所述第二位姿信息。

3.根据权利要求1或2所述的方法，其特征在于，所述目标物体在所述终端所处的位置周围，包括：所述目标物体与所述终端所处的位置在预设距离范围内、所述目标物体与所述终端所处的位置在同一区域的地图内、所述目标物体与所述终端所处的位置之间没有其他障碍物。

4.根据权利要求1至3任一所述的方法，其特征在于，所述显示用于指示拍摄目标物体的提示信息之前，所述方法还包括：

获取所述终端所处的位置；

向服务器发送所述终端所处的位置；

5.根据权利要求1至3任一所述的方法，其特征在于，所述显示用于指示拍摄目标物体的提示信息之前，所述方法还包括：

获取所述终端所处的位置；

所述多个物体中随机确定的至少一个物体；

6.根据权利要求4或5所述的方法，其特征在于，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别；相应的，所述提示信息，包括如下信息的至少一种：所述目标物体的位置、由所述终端所处的位置至所述目标物体的位置的导航信息、所述目标物体的图像、名称以及类别。

7.根据权利要求1至6任一所述的方法，其特征在于，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体。

8.根据权利要求1至7任一所述的方法，其特征在于，所述第一图像包括第一物体，所述第一物体用于确定所述第一位姿信息，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度。

9.根据权利要求1至8任一所述的方法，其特征在于，所述当所述第一位姿信息满足位姿异常条件时，显示用于指示拍摄目标物体的提示信息，包括：

10.根据权利要求1至9任一所述的方法，其特征在于，所述位姿异常条件，包括：

无法获取到位姿信息；或，

11.一种位姿确定方法，其特征在于，所述方法包括：

获取所述终端所处的位置；

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.根据权利要求11或12所述的方法，其特征在于，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别。

14.根据权利要求11至13任一所述的方法，其特征在于，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体。

15.根据权利要求11至14任一所述的方法，其特征在于，所述第一图像包括第一物体，所述第一物体用于确定所述第一位姿信息，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度。

16.根据权利要求15所述的方法，其特征在于，所述第一位姿信息为基于所述第一物体在数字地图中对应的第一3D点云信息确定的；或，

17.根据权利要求11至16任一所述的方法，其特征在于，所述位姿异常条件，包括：

无法获取到位姿信息；或，

18.根据权利要求11至17任一所述的方法，其特征在于，所述根据所述终端所处的位置确定目标物体，包括：

所述多个物体中随机确定的至少一个物体；

19.根据权利要求12至18任一所述的方法，其特征在于，所述根据所述目标图像，获取第二位姿信息，包括：

获取所述目标物体在所述目标图像中的第一像素位置；

20.根据权利要求19所述的方法，其特征在于，所述获取所述目标物体在目标图像中的第一像素位置，包括：

21.根据权利要求19或20所述的方法，其特征在于，所述获取所述目标物体在数字地图中对应的第一位置信息，包括：

接收所述终端发送的目标图像；

22.根据权利要求19或20所述的方法，其特征在于，所述获取所述目标物体在数字地图中对应的第一位置信息，包括：

23.根据权利要求19至22任一所述的方法，其特征在于，所述根据所述第一像素位置以及所述第一位置信息确定第二位姿信息，包括：

根据所述2D-3D对应关系，确定所述第二位姿信息。

24.根据权利要求19至23任一所述的方法，其特征在于，所述第一位置信息包括预先拍摄所述目标对象时拍摄设备的全局位姿；相应的，所述第二位姿信息表示信息终端拍摄所述目标图像时所对应的全局位姿。

25.一种位姿确定装置，其特征在于，所述装置包括：

获取模块，用于获取第一图像；

26.根据权利要求25所述的装置，其特征在于，所述获取模块，用于：

根据所述目标图像，获取所述第二位姿信息。

27.根据权利要求25或26所述的装置，其特征在于，所述目标物体在所述终端所处的位置周围，包括：所述目标物体与所述终端所处的位置在预设距离范围内、所述目标物体与所述终端所处的位置在同一区域的地图内、所述目标物体与所述终端所处的位置之间没有其他障碍物。

28.根据权利要求25至27任一所述的装置，其特征在于，所述获取模块，用于：

获取所述终端所处的位置；

所述装置还包括：

发送模块，用于向服务器发送所述终端所处的位置；

29.根据权利要求25至27任一所述的装置，其特征在于，所述获取模块，用于：

获取所述终端所处的位置；

所述多个物体中随机确定的至少一个物体；

30.根据权利要求28或29所述的装置，其特征在于，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别；相应的，所述提示信息，包括如下信息的至少一种：所述目标物体的位置、由所述终端所处的位置至所述目标物体的位置的导航信息、所述目标物体的图像、名称以及类别。

31.根据权利要求25至30任一所述的装置，其特征在于，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体。

32.根据权利要求25至31任一所述的装置，其特征在于，所述第一图像包括第一物体，所述第一物体用于确定所述第一位姿信息，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度。

33.根据权利要求25至32任一所述的装置，其特征在于，所述发送模块，用于向所述服务器发送所述第一位姿信息；所述获取模块，用于接收所述服务器发送的用于指示所述第一位姿信息满足位姿异常条件的第一信息；所述显示模块，用于根据所述第一信息，显示用于指示拍摄目标物体的提示信息。

34.根据权利要求25至33任一所述的装置，其特征在于，所述位姿异常条件，包括：

无法获取到位姿信息；或，

35.一种位姿确定装置，其特征在于，所述装置包括：

获取所述终端所处的位置；

36.根据权利要求35所述的装置，其特征在于，所述获取模块，用于：

37.根据权利要求35或36所述的装置，其特征在于，所述目标物体的信息包括如下信息的至少一种：所述目标物体的位置、所述目标物体的图像、名称以及类别。

38.根据权利要求35至37任一所述的装置，其特征在于，所述目标物体为在当前终端的拍摄参数下能够完整成像，且物理位置相对固定的标志性物体。

39.根据权利要求35至38任一所述的方法，其特征在于，所述第一图像包括第一物体，所述第一物体用于确定所述第一位姿信息，且所述目标物体的纹理特征比所述第一物体的纹理特征具有更高的辨识度。

40.根据权利要求39所述的装置，其特征在于，所述第一位姿信息为基于所述第一物体在数字地图中对应的第一3D点云信息确定的；或，

41.根据权利要求35至40任一所述的装置，其特征在于，所述位姿异常条件，包括：

无法获取到位姿信息；或，

42.根据权利要求35至41任一所述的装置，其特征在于，所述目标物体确定模块，用于根据所述终端所处的位置，从数字地图中确定满足预设条件的所述目标物体，其中，所述数字地图包括多个物体，所述多个物体为在所述终端所处的位置周围的物体，所述预设条件包括如下的至少一个：

所述多个物体中随机确定的至少一个物体；

43.根据权利要求36至42任一所述的装置，其特征在于，所述获取模块，用于：

获取所述目标物体在所述目标图像中的第一像素位置；

44.根据权利要求43所述的装置，其特征在于，所述获取模块，具体用于：

45.根据权利要求42或43所述的装置，其特征在于，所述获取模块，具体用于：

接收所述终端发送的目标图像；

46.根据权利要求42或43所述的装置，其特征在于，所述获取模块，具体用于：

47.根据权利要求42至46任一所述的装置，其特征在于，所述获取模块，具体用于：

根据所述2D-3D对应关系，确定所述第二位姿信息。

48.根据权利要求42至47任一所述的装置，其特征在于，所述第一位置信息包括拍摄设备拍摄所述目标对象得到第一图像时所对应的全局位姿；相应的，所述第二位姿信息表示终端拍摄所述目标图像时所对应的全局位姿。

49.一种位姿确定装置，其特征在于，所述位姿确定装置包括处理器、存储器、收发器、摄像头和总线，其中：

所述处理器、所述存储器、所述收发器和所述摄像头通过所述总线连接；

所述摄像头，用于拍摄图像；

所述收发器，用于接收和发送数据；

所述存储器，用于存放计算机程序；

所述处理器，用于控制所述存储器、收发器和摄像头，执行所述存储器上所存放的程序，以实现权利要求1-10任一所述的方法步骤。

50.一种服务器，其特征在于，所述终端包括处理器、存储器、收发器和总线，其中：

所述处理器、所述存储器和所述收发器通过所述总线连接；

所述收发器，用于接收和发送数据；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序，以实现权利要求11-24任一所述的方法步骤。

51.一种计算机可读存储介质，包括程序，当其在计算机上运行时，使得计算机执行如权利要求1至24中任一项所述的方法。

52.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在终端上运行时，使得所述终端执行所述权利要求1-24中任一权利要求所述的方法。