CN116704034A

CN116704034A - 视觉定位方法、装置、设备及介质

Info

Publication number: CN116704034A
Application number: CN202310713995.5A
Authority: CN
Inventors: 王星博; 赵晨; 宋春雨; 王香伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-05

Abstract

本公开提供了视觉定位方法、装置、设备及介质，涉及人工智能技术领域，进一步涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、智慧城市等场景。具体实现方案为：获取用于视觉定位的图像帧；对所述图像帧进行图像检索和特征匹配，确定所述图像帧对应的目标视觉地图；根据所述目标视觉地图确定所述图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；利用预先设置的坐标点修正所述视觉位姿。

Description

视觉定位方法、装置、设备及介质

技术领域

涉及人工智能技术领域，进一步涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域，可应用于元宇宙、智慧城市等场景，具体涉及一种视觉定位方法、装置、设备及介质。

背景技术

在视觉定位与增强(Visual Positioning and Augmentation System，VPAS)任务中，视觉定位和视觉惯性里程计(Visual－Inertial Odometry，VIO)是两个关键技术。视觉定位要将用户手机拍摄的图片上传到服务器，在预先建好的视觉地图中进行6自由度定位。而VIO则是在用户手机上持续跟踪用户的六自由度(6dof)位姿，用于增强现实(AugmentedReality，AR)/虚拟现实(Virtual Reality，VR)场景中虚拟物体位置的精确定位。通常使用较低频率的视觉定位获取用户位置信息，用于更新视觉地图。而VIO则会以较高的频率运行，从而实现持续不断的6dof位姿估计。

然而在VPAS任务中，这两种关键技术均存在问题。对于视觉定位来说，地图中的一些场景会不定期地变化，如果用户在这些位置拍摄，将无法通过VPAS服务获取正确的定位结果或解算出错误的定位结果。因此，需要定期更新视觉地图以应对这种情况。对于VIO任务来说，6dof位姿定义在局部坐标系下，长时间追踪后会发生轨迹漂移，即用户回到原先的起点后，估计的6dof位姿并不和起点完全一致，会导致在AR/VR场景中虚拟物体与实际物体不贴合，从而影响用户的体验。

发明内容

本公开提供了一种视觉定位方法、装置、设备及介质。

根据本公开的第一方面，提供了一种视觉定位方法，包括：

获取用于视觉定位的图像帧；

对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图；

根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；

利用预先设置的坐标点修正视觉位姿。

在一种可能的实施方式中，本公开提供的方法中，根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿，包括：

基于图像帧的相机坐标系，修正图像帧的广度；

根据目标视觉地图和修正后的图像帧，确定修正后的图像帧的相机坐标系在视觉地图坐标系中的视觉位姿。

在一种可能的实施方式中，本公开提供的方法中，利用预先设置的坐标点修正视觉位姿，包括：

根据目标视觉地图确定与图像帧对应的预先设置的坐标点；

确定坐标点在图像帧的位置；

根据坐标点在图像帧的位置和坐标点的位姿，修正视觉位姿。

在一种可能的实施方式中，本公开提供的方法中，根据坐标点在图像帧的位置和坐标点的位姿，修正视觉位姿，包括：

根据坐标点在图像帧的位置和坐标点的位姿，确定坐标点与视觉位姿的重投影误差；

利用重投影误差修正视觉位姿。

在一种可能的实施方式中，本公开提供的方法中，方法还包括：

获取预设时间段内的多张目标图像帧；

在多张目标图像帧满足预设条件时，利用多张目标图像帧更新目标视觉地图。

在一种可能的实施方式中，本公开提供的方法中，在多张目标图像帧满足预设条件时，利用多张目标图像帧更新目标视觉地图，包括：

在多张目标图像帧满足预设条件时，确定目标视觉地图待更新；

利用多张目标图像帧通过位姿姿态先验，得到初始地图；

利用坐标点修正初始地图，得到用于更新目标视觉地图的视觉地图。

根据本公开的第二方面，提供了一种视觉定位装置，包括：

获取单元，用于获取用于视觉定位的图像帧；

第一确定单元，用于对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图；

第二确定单元，用于根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；

修正单元，用于利用预先设置的坐标点修正视觉位姿。

在一种可能的实施方式中，本公开提供的装置中，第二确定单元具体用于：

基于图像帧的相机坐标系，修正图像帧的广度；

在一种可能的实施方式中，本公开提供的装置中，修正单元具体用于：

根据目标视觉地图确定与图像帧对应的预先设置的坐标点；

确定坐标点在图像帧的位置；

在一种可能的实施方式中，本公开提供的装置中，修正单元具体还用于：

利用重投影误差修正视觉位姿。

在一种可能的实施方式中，本公开提供的装置中，装置还包括更新单元，用于：

获取预设时间段内的多张目标图像帧；

在一种可能的实施方式中，本公开提供的装置中，更新单元具体用于：

利用多张目标图像帧通过位姿姿态先验，得到初始地图；

根据本公开的第三方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。

根据本公开的第四方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现第一方面中任一项所述的方法中的步骤。

在本公开的实施例中，首先获取用于视觉定位的图像帧，然后对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图，再根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿，最后利用预先设置的坐标点修正视觉位姿，通过使用本公开的方案，利用目标视觉地图对图像帧进行定位，并利用预先设置的坐标点对视觉位姿进行修正，使得视觉定位的准确率更高，避免出现用户移动至初始位置时，虚拟定位不重合的情况，提升用户体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种视觉定位方法的流程示意图；

图2是根据本公开实施例提供一种视觉定位方法的具体流程示意图；

图3是根据本公开实施例提供的一种视觉定位方法中更新地图的具体流程示意图；

图4是根据本公开实施例提供的一种视觉定位装置的框图；

图5是用来实现本公开实施例的视觉定位方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

在对本公开提供的视觉定位方法进行详细说明之前，优先介绍一下涉及到的关键术语，其中：

VPAS：视觉定位与增强(Visual Positioning and Augmentation System)。它是一个通过将CPU、摄像头和深度学习算法结合在一起，提供用户精确的室内位置信息和增强现实体验的技术。

VIO：视觉惯性里程计(Visual－Inertial Odometry)，是一种结合了摄像机和惯性测量单元(IMU)的技术，用于跟踪相机或其它设备在三维空间中的运动轨迹。VIO技术通过实时计算相邻帧之间的变换矩阵，从而推断出相机或其他设备在三维空间中的运动。

EKF：扩展卡尔曼滤波器，是一种常用的状态估计方法。在EKF中，系统状态由平移向量、四元数、速度等多个变量组成，其中旋转和平移部分是非线性的。

相机的内参矩阵：焦距(f＿x，f＿y)：表示相机在x轴和y轴方向上的焦距，单位为像素。光心坐标(c＿x，c＿y)：表示相机光心在图像平面上的投影坐标，单位为像素。因此，相机的内参矩阵可以表示为下列形式：K＝[fx，0，cx；0，fy，cy；0，0，1]

位姿pose先验：即pose prior，是一个先验分布，用于描述相机或者机器人的初始状态或预测状态，包括位置、姿态和速度等信息。pose先验一般由IMU和之前的视觉数据进行推理得到，常用来初始化/重置VIO系统，在没有稳定定位时提供临时位置跟踪。

下面结合附图，说明本公开各实施例提供的技术方案。

图1是本公开实施例提供的一种视觉定位方法的流程示意图，如图1所示，该方法包括：

S110，获取用于视觉定位的图像帧。

在本公开实施例中，首先获取用户视觉定位的数据，即图像帧，该图像帧可以是通过摄像头等拍摄得到，也可以是通过其他传感器得到，该图像帧中不仅有拍摄的图片信息，也包含该时刻通过其他传感器获得的参数，例如速度、加速度和陀螺仪偏置参数等。

S120，对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图。

在本公开实施例中，首先在预先存储的多个视觉地图的数据库中对图像帧进行图像检索和特征匹配，从而匹配到图像帧对应的目标视觉地图。

S130，根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿。

在本公开实施例中，通过修正图像帧的广度，使得图像帧的相机坐标系定位更为准确，然后利用修正后的图像帧和目标视觉地图，确定出图像帧的相机坐标系在视觉地图坐标系中的视觉位姿。

S140，利用预先设置的坐标点修正视觉位姿。

在本公开实施例中，首先根据目标视觉地图确定与图像帧对应的预先设置的坐标点，然后确定坐标点在图像帧的位置，最后根据坐标点在图像帧的位置和坐标点的位姿，修正视觉位姿，具体是通过标点在图像帧的位置和坐标点的位姿，确定坐标点与视觉位姿的重投影误差，然后利用重投影误差修正视觉位姿。

在本公开实施例中，还可以对目标视觉地图进行更新，首先获取预设时间段内的多张目标图像帧，然后在多张目标图像帧满足预设条件时，确定目标视觉地图待更新，再利用多张目标图像帧通过位姿姿态先验，得到初始地图，最后利用坐标点修正初始地图，得到用于更新目标视觉地图的视觉地图。

在本公开的一些实施例中，如图2所示，视觉定位方法的具体实施方法如下：

S210，获取用于视觉定位的图像帧。

具体实施时，首先获取用户视觉定位的数据，即图像帧，该图像帧可以是通过摄像头等拍摄得到，也可以是通过其他传感器得到，该图像帧中不仅有拍摄的图片信息，也包含该时刻通过其他传感器获得的参数，例如速度、加速度和陀螺仪偏置参数等。输入图像帧时，每隔一定时间发送一张图像，记为S_locate。

S220，对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图。

具体实施时，通过图像检索，特征匹配等步骤，确定出该图像帧所对应的目标视觉地图。

S230，根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿。

具体实施时，先对图像帧进行最小化广度误差，然后根据T_CW＝[R_CW,p_CW]，计算该图像帧中的相机坐标系在视觉地图坐标系中的6dofT_CW。即视觉位姿，其中R_CW为地图坐标系到相机坐标系的旋转矩阵，p_CW为相机坐标系中心在地图坐标系中的位置。

S240，根据目标视觉地图确定与图像帧对应的预先设置的坐标点。

具体实施时，通过目标视觉地图，确定在该图像帧对应位置附近的预先设置的坐标点，也即3D点。

S250，确定坐标点在图像帧的位置。

具体实施时，通过扫描、图像检索，特征匹配等方式，确定该坐标点在图像帧上的位置，进而可以使得图像帧与预设的坐标点产生联系。

S260，根据坐标点在图像帧的位置和坐标点的位姿，修正视觉位姿。

具体实施时，可以通过卡尔曼滤波器状态估计方法(EKF)来确定和修正视觉位姿，一般EKF的更新变量x_ekf如下：

x_imu＝[q_IG,bg,v_GI,ba,t_GI]

其中，q_IG表示姿态四元数(从世界坐标系到IMU坐标系)，v_GI表示IMU坐标系在世界坐标系中的速度，t_GI表示IMU坐标系在世界坐标系中的位置，bg,ba分别表示陀螺仪和加速度计的偏置。EKF的优化变量包含过去M帧图像的位姿：表示姿态四元数(从世界坐标系到第k帧IMU坐标系)，/>表示第k帧IMU坐标系在世界坐标系中的位置。IMU坐标系到相机坐标系的旋转矩阵和平移向量分别为R_CI,t_CI。

将该x_ekf从世界坐标系G的状态都改为视觉地图坐标系W中的状态，得到如下表达式：

x_imu＝[q_IW,bg,v_WI,ba,t_WI]

然后将相机的内参矩阵、第k帧相机坐标系下位姿和特征点i在第k帧图像上的位置输入，计算得到坐标点的重投影误差。

相机的内参矩阵：

第k帧相机坐标系下位姿：

特征点i在第k帧图像上的位置：

计算得到残差项为：坐标点的位置^WP_i在第k帧图像平面上的投影与原始测量值的距离。以在第k帧上的投影计算为例：

重投影误差项可以修正EKF中的视觉位姿：

在本公开的实施例中，利用预先设置的坐标点，通过修正EKF参数的方式，来修正视觉定位，使得运用本公开的视觉定位方法能够在减少计算量的同时，增加视觉定位准确性，提升用户体验。

在本公开的一些实施例中，如图3所示，视觉定位方法中的具体更新地方的实施方法如下：

S310，获取预设时间段内的多张目标图像帧。

具体实施时，在预设时间段内获取多张目标图像帧，该预设时间段可以是5s，也可以是1min，具体设置数据可以根据需求自行设置，本公开实施例对此不做限定。

S320，在多张目标图像帧满足预设条件时，确定目标视觉地图待更新。

具体实施时，在多张目标图像帧满足预设条件时，也即确定目标视觉地图与实际拍摄内容有出入，需要更新目标视觉地图。

具体预设条件可以自行设置，优选地，同时满足以下三个条件即视为需要更新：

条件(1)：

计算VIO在t_k到t_k+N时间内的相对运动

若统计的相对旋转矩阵解算的轴角角度/>＞阈值α_TH，相对位移的模长＞阈值t_TH，表明用户在此期间是在持续运动，而非静止不动，条件(1)满足。

条件(2)：

将t_k到t_k+N期间用户手机上传的查询图像[_k,…,_k+N]在商场A的地图数据库中进行全局索引，全局索引的目的为在地图数据库中与查询图像最相似的M张图像。对于查询图像[_k,…,_k+N]中的每张图像I_i，统计其与数据库中最相似的前M张图像的相似度分数的平均值/>

在(2)统计的每张查询帧的平均相似度分数中，若至少有50％分数小于阈值s_TH，表明这些定位查询帧与地图数据库差距较大。

条件(3)：

对t_k到t_k+N期间用户手机上传的每张查询图像[_k,…,_k+N]，均与(2)中查询的前M张图像进行特征匹配，匹配数量分别为统计平均值/>

统计每张图像匹配点平均值中小于阈值m_TH的数量，表名这些定位查询帧与地图数据库中的图像帧匹配较少，说明场景变化较大。

S330，利用多张目标图像帧通过位姿姿态先验，得到初始地图。

具体实施时，根据移动端发送的N个图像，若检测到视觉地图需要更新，利用VIO提供的位姿pose先验，在服务器端产出由这N个图像计算的局部地图，该局部地图坐标系定义为W^′。

利用发送的N个图像和对应的6dof位姿，对N个图像中的每张图像提取局部特征和全局特征，然后对每张图像，按时间序列与前后w张图像进行特征匹配。

S340，利用坐标点修正初始地图，得到用于更新目标视觉地图的视觉地图。

具体实施时，对于所有坐标点，因为VIO提供了观测到这些特征点的关键帧位姿，三角化计算特征点在世界坐标系中的3D位置。所有成功三角化的地图点，和N个图像的6dof位姿组成了初始化的局部地图。建立全局问题，优化地图点和N个图像的6dof位姿。

输入：

相机的内参矩阵

第i帧位姿

第i+1帧位姿

坐标点j在第i帧图像上的位置

坐标点j在第i+1帧图像上的位置

由相机的内参矩阵和位姿矩阵计算相机的投影矩阵：

第i帧投影矩阵

第i+1帧投影矩阵

构造线性齐次方程组：

对上述线性齐次方程组求解，求得坐标点在局部地图坐标系中的位置：

最后，将1.1中向定位服务器发送的图像集合S_lccate，按照是否定位成功分为两类，定位成功集合S_{locate_}，定位失败集合S_{locate_}。

对于成功定位的每张图像i，其在视觉地图坐标系中的6dof位姿记为其在新的局部地图坐标系中的6dof位姿记为/>利用所有成功定位的图像位姿对，计算新的局部地图坐标系W^′和视觉地图坐标系W之间的转换关系T_w′W，将新地图中所有图像帧的位姿转到旧地图坐标系中。

利用新旧地图坐标系之间的转换关系T_W′W，将新地图中的地图点坐标位置全部变换到旧地图中，在旧地图中添加这些地图点，从而完成视觉地图的更新。

在本公开实施例中，提供了一种检测是否需要更新视觉地图的方案，同时又根据视觉定位中所获取的图像帧，对需要更新的视觉地图进行更新，无需单独更新该地图，使得视觉定位的时效性增强，且节约了更新视觉地图的成本。

基于相同的发明构思，本公开还提供了一种视觉定位装置，如图4所示，视觉定位装置400，可以包括：

获取单元401，用于获取用于视觉定位的图像帧；

第一确定单元402，用于对图像帧进行图像检索和特征匹配，确定图像帧对应的目标视觉地图；

第二确定单元403，用于根据目标视觉地图确定图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；

修正单元404，用于利用预先设置的坐标点修正视觉位姿。

在一种可能的实施方式中，本公开提供的装置中，第二确定单元403具体用于：

基于图像帧的相机坐标系，修正图像帧的广度；

在一种可能的实施方式中，本公开提供的装置中，修正单元404具体用于：

根据目标视觉地图确定与图像帧对应的预先设置的坐标点；

确定坐标点在图像帧的位置；

在一种可能的实施方式中，本公开提供的装置中，修正单元404具体还用于：

利用重投影误差修正视觉位姿。

获取预设时间段内的多张目标图像帧；

利用多张目标图像帧通过位姿姿态先验，得到初始地图；

根据本公开的实施例，本公开还提供了一种电子设备、一种非瞬时计算机可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

电子设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如视觉定位方法。例如，在一些实施例中，视觉定位方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM503并由计算单元501执行时，可以执行上文描述的深度学习编译器的运行方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视觉定位方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD－ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端－服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(＂Virtual Private Server＂，或简称＂VPS＂)中，存在的管理难度大，任务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视觉定位方法，其特征在于，包括：

获取用于视觉定位的图像帧；

对所述图像帧进行图像检索和特征匹配，确定所述图像帧对应的目标视觉地图；

根据所述目标视觉地图确定所述图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；

利用预先设置的坐标点修正所述视觉位姿。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视觉地图确定所述图像帧的相机坐标系在视觉地图坐标系中的视觉位姿，包括：

基于所述图像帧的相机坐标系，修正所述图像帧的广度；

根据所述目标视觉地图和修正后的图像帧，确定修正后的图像帧的相机坐标系在视觉地图坐标系中的视觉位姿。

3.根据权利要求1所述的方法，其特征在于，所述利用预先设置的坐标点修正所述视觉位姿，包括：

根据所述目标视觉地图确定与所述图像帧对应的预先设置的坐标点；

确定所述坐标点在所述图像帧的位置；

根据所述坐标点在所述图像帧的位置和所述坐标点的位姿，修正所述视觉位姿。

4.根据权利要求3所述的方法，其特征在于，所述根据所述坐标点在所述图像帧的位置和所述坐标点的位姿，修正所述视觉位姿，包括：

根据所述坐标点在所述图像帧的位置和所述坐标点的位姿，确定所述坐标点与所述视觉位姿的重投影误差；

利用所述重投影误差修正所述视觉位姿。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预设时间段内的多张目标图像帧；

在所述多张目标图像帧满足预设条件时，利用所述多张目标图像帧更新所述目标视觉地图。

6.根据权利要求5所述的方法，其特征在于，所述在所述多张目标图像帧满足预设条件时，利用所述多张目标图像帧更新所述目标视觉地图，包括：

在所述多张目标图像帧满足预设条件时，确定所述目标视觉地图待更新；

利用所述多张目标图像帧通过位姿姿态先验，得到初始地图；

利用所述坐标点修正所述初始地图，得到用于更新所述目标视觉地图的视觉地图。

7.一种视觉定位装置，其特征在于，包括：

获取单元，用于获取用于视觉定位的图像帧；

第一确定单元，用于对所述图像帧进行图像检索和特征匹配，确定所述图像帧对应的目标视觉地图；

第二确定单元，用于根据所述目标视觉地图确定所述图像帧的相机坐标系在视觉地图坐标系中的视觉位姿；

修正单元，用于利用预先设置的坐标点修正所述视觉位姿。

8.根据权利要求7所述的装置，其特征在于，所述第二确定单元具体用于：

基于所述图像帧的相机坐标系，修正所述图像帧的广度；

9.根据权利要求7所述的装置，其特征在于，所述修正单元具体用于：

确定所述坐标点在所述图像帧的位置；

10.根据权利要求9所述的装置，其特征在于，所述修正单元具体还用于：

利用所述重投影误差修正所述视觉位姿。

11.根据权利要求7所述的装置，其特征在于，所述装置还包括更新单元，用于：

获取预设时间段内的多张目标图像帧；

12.根据权利要求11所述的装置，其特征在于，所述更新单元具体用于：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视觉定位方法。

14.一种计算机存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的视觉定位方法。

15.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现根据权利要求1至6中任一项所述的方法中的步骤。