CN113723379A

CN113723379A - 人工智能设备、视觉定位方法、装置及可读存储介质

Info

Publication number: CN113723379A
Application number: CN202111289990.1A
Authority: CN
Inventors: 刘运航; 闫瑞君; 谭嘉豪; 周阳; 陈美文
Original assignee: Shenzhen Pudu Technology Co Ltd
Current assignee: Shenzhen Pudu Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2021-11-30

Abstract

本发明涉及人工智能领域，提供一种人工智能设备、视觉定位方法、装置及可读存储介质。本发明通过取自然场景中的文字信息，进而获取到场景中的平面信息，在此基础上基于文字平面信息的重投影误差和光度误差进行视觉定位。一方面为视觉系统增加了一种更高级语义特征，在点线特征缺乏但存在文字信息的区域视觉系统仍然可以稳定定位，提高了视觉定位系统的场景适应性和鲁棒性。另一方面，文字信息特征相比于传统点、线特征而言，对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力，因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

Description

人工智能设备、视觉定位方法、装置及可读存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种人工智能设备、视觉定位方法、装置及可读存储介质。

背景技术

随着人工智能技术的爆发，各种可自动行驶的人工智能设备的研发与落地也得到了广泛的关注。定位技术作为人工智能设备的核心技术，其相关的学术研究与实践落地也得到了广泛的研究与挖掘。

近年来，基于视觉的室内定位技术取得了较大的进展。视觉定位技术也由于其采用的相机传感器价格相对低廉，采集的数据信息量大可以较为鲁棒的完成感知、重定位等工作需求的原因，迅速得到学术界和产业界的广泛研究与运用。但是基于纯视觉的定位方案一般都主要提取视觉点特征、线特征等低级别的视觉特征来进行定位，这类低级别的视觉特征在用于对弱纹理、快速运动、模糊运动定位时的稳定性比较差。

发明内容

本发明所要解决的技术问题为如何提升对于弱纹理、快速运动、模糊运动的准确定位。

第一方面，本发明实施例提供了一种人工智能设备，所述人工智能设备可自动行进，包括相机、存储器和处理器；所述相机用于拍摄所述人工智能设备当前所处场景的图像组；所述存储器存储有可执行程序代码；所述处理器用于调用并运行所述可执行程序代码来实现视觉定位方法；所述视觉定位方法包括：

通过所述相机所拍摄的图像组得到所述人工智能设备的位姿信息；

当检测到所述图像组中有图像包含文字信息时，建立所述文字信息所在区域的初始平面方程，所述初始平面方程中包含平面参数；

利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测，并计算投影预测过程中所产生的重投影误差；

对所述文字信息所在区域进行投影预测，并于所述文字信息所在区域中选取若干角点，利用所述若干角点构造出所述文字信息所在区域的光度误差；

将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差，利用所述约束残差优化所述位姿信息，并使用优化后的位姿信息进行视觉定位。

第二方面，本发明实施例还提供了一种视觉定位装置，所述视觉定位装置应用于可自动行进的人工智能设备中，所述人工智能设备包括相机，所述相机用于拍摄所述人工智能设备当前所处场景的图像组；所述视觉定位装置包括：

位姿计算模块，用于通过所述相机所拍摄的图像组计算得到所述人工智能设备的位姿信息；

文字信息检测模块，用于检测到所述图像组中是否有图像包含文字信息；

平面方程建立模块，用于当所述文字信息检测模块检测到所述图像组中有图像包含文字信息时，建立所述文字信息所在区域的初始平面方程，所述初始平面方程中包含平面参数；

重投影误差计算模块，用于利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测，并得到投影预测过程中所产生的重投影误差；

光度误差计算模块，用于对所述文字信息所在区域进行投影预测，并于所述文字信息所在区域中选取若干角点，利用所述若干角点构造出所述文字信息所在区域的光度误差；

定位模块，用于将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差，利用所述约束残差优化所述位姿信息，并使用优化后的位姿信息进行视觉定位。

第三方面，本发明实施例还提供了一种视觉定位方法，所述视觉定位方法应用于可自动行进的人工智能设备中，所述人工智能设备包括相机，所述相机用于拍摄所述人工智能设备当前所处场景的图像组；所述视觉定位方法包括：

第四方面，本发明实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现第三方面所述的视觉定位方法。

从上述本发明各实施例可知，本发明通过取自然场景中的文字信息，进而获取到场景中的平面信息，在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差，进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征，在点线特征缺乏的区域如果存在文字信息，系统仍然可以稳定定位，提高了视觉定位系统的场景适应性和鲁棒性。另一方面，文字信息特征相比于传统点、线特征而言，对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力，因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的人工智能设备的结构示意图；

图2为本发明第一实施例提供的视觉定位方法的实现流程图；

图3为本发明第二实施例提供的视觉定位装置的模块结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，本发明第一实施例提供的人工智能设备的结构示意图。为了便于说明，仅示出了与本发明实施例相关的部分。该人工智能设备1具有自动行进的能力，可以是机器人，例如酒店/餐厅等场所内的迎宾机器人，在酒店、物流园区等固定场所内运行的送货机器人、扫地机器人等，甚至是无人驾驶的汽车等，只要是有自动行进能力且需要实时定位的人工智能设备均可适用。该人工智能设备可包括：

存储器11、处理器12和相机13。存储器11中存储有可执行程序代码，可以采用硬盘驱动存储器、非易失性存储器（例如闪存或用于形成固态驱动器的其它电子可编程限制删除的存储器等）、易失性存储器（例如静态或动态随机存取存储器等）等，本发明实施例不作限制。相机13用于拍摄所述人工智能设备当前所处场景的图像组，其中，“图像组”是指一组图像，一般情况下为至少两帧图像，所拍摄的图像组可用于后续获得人工智能设备的位姿信息。

处理器12为人工智能设备的运算和控制核心，是信息处理、程序运行的最终执行单元，与存储器11耦合/连接，用于调用存储器11中存储的所述可执行程序代码，执行如下视觉定位方法。

参见图2，该视觉定位方法包括如下步骤：

步骤S201，通过相机所拍摄的图像组得到人工智能设备的位姿信息。

首先人工智能设备通过传统的点特征SLAM（simultaneous localization andmapping，同步定位与建图）系统进行系统初始化，通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置，以及人工智能设备的运动朝向，即航向角ψ。

步骤S202，当检测到图像组中有图像包含文字信息时，建立文字信息所在区域的初始平面方程，其中，该初始平面方程中包含有平面参数。

一般地，可以通过EAST（An Efficient and Accurate Scene Text Detector，文字提取器）检测上述图像组中是否有文字信息，EAST在检测过程中会针对检测区域生成一个text检测框，然后进一步检测该text检测框中是否有文字信息。当检测到至少两帧图像中包含有同一种文字信息时，即可建立文字信息所在区域的初始平面方程。需要说明的是，上述的文字信息需要位于同一个平面，也就是上述文字信息所在区域为一个平面或足够接近于一个平面，该“足够接近”可以理解为该区域内的各个位置在世界坐标系下的相对高度差足够小，例如，若该区域内任意两个位置之间的高度差都小于预设的阈值，则可认为该区域的形状足够接近平面。

作为一种实现方式，本实施例中，具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数，以及相机在拍摄两帧图像时的人工智能设备位姿的相对关系，来建立文字信息所在区域的初始平面方程，该两帧图像可以是上述图像组中相邻的两帧图像，也可以是不相邻的两帧图像，只要该两帧图像中包含的文字信息所在区域相同即可。

具体可以根据下述公式建立文字信息所在区域的初始平面方程：

；

其中，

是图像坐标系下特征点的齐次坐标，

和

分别表示前后两帧图像中的同一个特征点，具体地，

表示前一帧图像的特征点，

表示后一帧图像的特征点，T为矩阵转置符号，R表示从图像组选取的两帧图像之间的旋转矩阵，t表示两帧图像之间的平移矩阵，θ表示世界坐标系中的文字信息所在区域的平面参数，θ=(θ ₁,θ ₂,θ ₃)^T=n/ d，n是文字所在区域的平面的法向量，d是文字所在区域的平面到相机的光心的距离，θ ₁、θ ₂、θ ₃分别表示文字所在区域的平面的法向量n的3个方向。

其中，所谓图像坐标系，是指相机在拍摄某帧图像时以相机的光心为原点的坐标系，也可称之为相机坐标系。而世界坐标系则是人工智能设备在移动时以某个位置为原点设置的坐标系。由于在最开始不知道相机的位置，那么相机所拍摄的图像上的点只能用图像坐标系下的坐标表示，图像坐标系下点的表示和常用的世界坐标系下三维点的表示相差了一个位姿变换。

而文字信息所在区域的初始平面方程指的是在世界坐标系下的平面方程，因此需要建立上文所述的平面方程，通过该平面方程进行位姿转换得到世界坐标系中的文字信息所在区域的平面参数，即上文中的θ。

上述初始平面方程中的平面参数θ的意义主要是将文字信息所在区域在世界坐标系下的参数化表达，便于后续步骤进行投影预测文字信息所在区域的地图点特征。对于有多个平面区域包含有文字信息的情况，则需要每个平面区域都进行在世界坐标系下的参数化表达。

步骤S203，利用平面参数对文字信息所在区域中的地图点特征进行投影预测，并计算投影预测过程中所产生的重投影误差。

本步骤的出发点在于利用世界坐标系中的平面信息去投影文字信息所在区域内的地图点特征，所谓地图点特征，是指两帧图像上提取的同一位置的角点的3d坐标，而角点则是该地图点特征在其中某一帧图像上的2d像素坐标所对应的像素点，角点附近区域的像素点无论在梯度方向上还是其梯度幅值上都有着较大变化。通常可以采用这种方式来检测角点，即，使用一个固定窗口在图像上进行任意方向上的滑动，比较滑动前与滑动后两种情况，窗口中的像素灰度变化程度，如果存在任意方向上的滑动，都有着较大灰度变化，那么我们可以认为该窗口中存在角点。

具体到本步骤，可设计一个text-slam专属的“匀速运动模型”，采用下述公式对文字信息所在区域中的地图点特征进行投影预测，得到各地图点特征的预测坐标：

；

；

其中，

和

分别表示地图点特征的预测坐标，

为地图点特征投影的x方向像素，

为地图点特征投影的y方向像素；r ₁表示旋转矩阵R的第一行行向量，r ₂表示旋转矩阵R的第二行行向量，r ₃表示旋转矩阵R的第三行行向量；t ₁表示平移矩阵t的第一行行向量，t ₂表示平移矩阵t的第二行行向量，t ₃表示平移矩阵t的第三行行向量。

然后，将各地图点特征的预测坐标与各自对应的角点坐标作差，得到重投影误差，此重投影误差用于在后续步骤中从文字平面信息的空间几何的角度来约束人工智能设备的位姿。

步骤S204，对文字信息所在区域进行投影预测，并于文字信息所在区域中选取若干角点，利用所述若干角点构造出文字信息所在区域的光度误差。

本步骤的出发点在于预测文字信息所在区域（即EAST生成的text检测框）的投影，同样也可以设计一个text-slam专属的“匀速运动模型”来预测投影，具体可以直接投影text检测框的4个顶点，确定出text检测框的范围大小，然后从这个范围里面选取若干角点作为代表，进而构造出文字信息所在区域的光度误差。

选取角点时，基于已有开源Fast角点检测算法，选择在text文本框之内的角点。角点的个数和具体位置不限，以能全面反映出该text文本框内的各像素的光度情况为佳，例如，可以从该text文本框的上下左右各区域中以矩阵形式选取15个角点来构造光度误差。本实施例中，光度即为灰度，用于表征图像中各像素点的明暗程度。

进一步地，本实施例中具体采用如下方式选取角点并构造光度误差：对文字信息所在区域的四个顶点进行投影，确定出区域范围；从区域范围内选取若干角点；计算各角点分别在两帧图像中对应坐标处的像素的灰度值之差，并作为各角点的光度误差；将若干角点的光度误差之和作为文字信息所在区域的光度误差。

计算出的光度误差用于在后续步骤中从文字平面信息所在区域内的像素的明暗程度的角度来约束人工智能设备的位姿。

步骤S205，将重投影误差与光度误差以各自对应的权重系数进行加权运算得到约束残差，利用约束残差优化位姿信息，并使用优化后的位姿信息进行视觉定位。

本步骤是用来上述的重投影误差和光度误差作为因子得到约束残差，来优化步骤S201中得到人工智能设备的位姿，该约束残差的误差形式如下：

E(x)=E _point(x)+λ _w E _text(x)；

其中，E(x)表示约束残差，E _point(x)表示重投影误差，E _text(x)表示光度误差，λ _w表示光度误差的相对权重。

通过图优化理论，通过约束残差E(x)调节优化人工智能设备的位姿、地图点、文字信息所在区域的平面方程，即可降低系统参差。

进一步地，位姿优化后，此时的人工智能设备由于已经具备尺度和位姿，根据优化后的位姿信息，以及优化后的初始平面方程的平面参数进一步三角化地图点的逆深度；根据三角化后的逆深度进行视觉定位。

直接三角化text区域内的地图特征点，只需要text区域内3个具有深度信息的地图点则可以唯一的确定一个平面。公式如下：

；

其中，ρ _i是地图特征点的逆深度，m _i是该地图特征点在图像坐标系下对应的像素特征点的齐次坐标。

上述视觉定位方法可以以软件模块的形式嵌入到任何一个基于滑窗优化的SLAM系统中，使得该系统除了可以采用点特征、线特征等低级别的视觉特征进行定位以外，还能在弱纹理、快速运动、运动模糊场景中提取工作场景中存在的文字广告、标语等文字信息，将高级别的文字信息作为一种视觉特征引入视觉定位框架，使得SLAM系统具有更好的场景适应性。

第一实施例中，通过取自然场景中的文字信息，进而获取到场景中的平面信息，在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差，进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征，在点线特征缺乏的区域如果存在文字信息，系统仍然可以稳定定位，提高了视觉定位系统的场景适应性和鲁棒性。另一方面，文字信息特征相比于传统点、线特征而言，对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力，因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

图3为本发明第二实施例提供的视觉定位装置的结构示意图。为了便于说明，仅示出了与本实施例相关的部分。该视觉定位装置可以以软件模块形式或硬件模块形式或软硬件结合的形式内置于人工智能设备中，该人工智能设备需要包括相机，所述相机用于拍摄所述人工智能设备当前所处场景的图像组。参见图3，所述视觉定位装置包括：

位姿计算模块31，用于通过所述相机所拍摄的图像组计算得到所述人工智能设备的位姿信息；

文字信息检测模块32，用于检测到所述图像组中是否有图像包含文字信息；

平面方程建立模块33，用于当所述文字信息检测模块32检测到所述图像组中有图像包含文字信息时，建立文字信息所在区域的初始平面方程，所述初始平面方程中包含平面参数；

重投影误差计算模块34，用于利用所述平面参数对文字信息所在区域中的地图点特征进行投影预测，并得到投影预测过程中所产生的重投影误差；

光度误差计算模块35，用于对文字信息所在区域进行投影预测，并于文字信息所在区域中选取若干角点，利用所述若干角点构造出文字信息所在区域的光度误差；

定位模块36，用于将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差，利用所述约束残差优化所述位姿信息，并使用优化后的位姿信息进行视觉定位。

具体地，人工智能设备初始化后，位姿计算模块31通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置，以及人工智能设备的运动朝向，即航向角ψ。

文字信息检测模块32可以通过EAST（An Efficient and Accurate Scene TextDetector，文字提取器）检测上述图像组中是否有文字信息，EAST在检测过程中会针对检测区域生成一个text检测框，然后进一步检测该text检测框中是否有文字信息。当检测到至少两帧图像中包含有同一种文字信息时，即可建立文字信息所在区域的初始平面方程。需要说明的是，上述的文字信息需要位于同一个平面，也就是上述文字信息所在区域为一个平面或足够接近于一个平面，该“足够接近”可以理解为该区域内的各个位置在世界坐标系下的相对高度差足够小，例如，若该区域内任意两个位置之间的高度差都小于预设的阈值，则可认为该区域的形状足够接近平面。

作为一种实现方式，平面方程建立模块33具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数，以及相机在拍摄两帧图像时人工智能设备的人工智能设备位姿的相对关系，来建立文字信息所在区域的初始平面方程，该两帧图像可以是上述图像组中相邻的两帧图像，也可以是不相邻的两帧图像，只要该两帧图像中包含的文字信息所在区域相同即可。

；

其中，

是图像坐标系下特征点的齐次坐标，

和

分别表示前后两帧图像中的同一个特征点，

表示前一帧图像的特征点，

表示后一帧图像的特征点，T为矩阵转置符号，R表示从所述图像组选取的两帧图像之间的旋转矩阵，t表示所述两帧图像之间的平移矩阵，θ表示世界坐标系中的所述文字信息所在区域的平面参数，θ=(θ ₁,θ ₂,θ ₃)^T=n/d，n是文字所在区域的平面的法向量，d是文字所在区域的平面到所述相机的光心的距离，θ ₁、θ ₂、θ ₃分别表示文字所在区域的平面的法向量n的3个方向。

重投影误差计算模块34可采用下述公式对文字信息所在区域中的地图点特征进行投影预测，得到各地图点特征的预测坐标：

；

；

其中，

和

分别表示地图点特征的预测坐标，

为地图点特征投影的x方向像素，

为地图点特征投影的y方向像素；r ₁表示旋转矩阵R的第一行行向量，r ₂表示旋转矩阵R的第二行行向量，r ₃表示旋转矩阵R的第三行行向量；t ₁表示平移矩阵t的第一行行向量，t ₂表示平移矩阵t的第二行行向量，t ₃表示平移矩阵t的第三行行向量。然后，重投影误差计算模块34将各地图点特征的预测坐标与各自对应的角点坐标作差，得到重投影误差，此重投影误差用于在后续步骤中从文字平面信息的空间几何的角度来约束人工智能设备的位姿。

光度误差计算模块35可以直接投影text检测框的4个顶点，确定出text检测框的范围大小，然后从这个范围里面选取若干角点作为代表，进而构造出文字信息所在区域的光度误差。选取角点时，基于已有开源Fast角点检测算法，选择在text文本框之内的角点。角点的个数和具体位置不限，以能全面反映出该text文本框内的各像素的光度情况为佳，例如，可以从该text文本框的上下左右各区域中以矩阵形式选取15个角点来构造光度误差。本实施例中，光度即为灰度，用于表征图像各像素点的明暗程度。

进一步地，本实施例中光度误差计算模块35具体采用如下方式选取角点并构造光度误差：对文字信息所在区域的四个顶点进行投影，确定出区域范围；从区域范围内选取若干角点；计算各角点分别在两帧图像中对应坐标处的像素的灰度值之差，并作为各角点的光度误差；将若干角点的光度误差之和作为文字信息所在区域的光度误差。

定位模块36将重投影误差和光度误差作为因子得到约束残差，来优化步骤S201中得到人工智能设备的位姿，该约束残差的误差形式如下：

E(x)=E _point(x)+λ _w E _text(x)；

通过图优化理论，定位模块36通过约束残差E(x)调节优化人工智能设备的位姿、地图点、文字信息所在区域的平面方程，即可降低系统参差。

进一步地，位姿优化后，此时的人工智能设备由于已经具备尺度和位姿，定位模块36还可以根据优化后的位姿信息，以及优化后的平面参数进一步三角化地图点的逆深度，然后根据三角化后的逆深度进行视觉定位。

；

第二实施例中，通过取自然场景中的文字信息，进而获取到场景中的平面信息，在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差，进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征，在点线特征缺乏的区域如果存在文字信息，系统仍然可以稳定定位，提高了视觉定位系统的场景适应性和鲁棒性。另一方面，文字信息特征相比于传统点、线特征而言，对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力，因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

本发明第三实施例提供了一种视觉定位方法，具体流程参见图2，该方法可应用于图1所示的人工智能设备，实现本方法所需要执行的程序可以以独立软件程序的形式被上传、下载、安装，也可以烧录到一些存储介质中。如图2所示，该视觉定位方法具体包括：

首先人工智能设备通过传统的点特征SLAM系统进行系统初始化，通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置，以及人工智能设备的运动朝向，即航向角ψ。

步骤S202，当检测到图像组中有图像包含文字信息时，建立文字信息所在区域的初始平面方程，该初始平面方程中包含平面参数。

作为一种实现方式，本实施例中，具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数，以及相机在拍摄两帧图像时人工智能设备位姿的相对关系，来建立文字信息所在区域的初始平面方程，该两帧图像可以是上述图像组中相邻的两帧图像，也可以是不相邻的两帧图像，只要该两帧图像中包含的文字信息所在区域相同即可。

；

其中，

是图像坐标系下特征点的齐次坐标，

和

分别表示前后两帧图像中的同一个特征点，具体地，

表示前一帧图像的特征点，

步骤S203，利用初始平面方程中的平面参数对文字信息所在区域中的地图点特征进行投影预测，并计算投影预测过程中所产生的重投影误差。

；

；

其中，

和

分别表示地图点特征的预测坐标，

为地图点特征投影的x方向像素，

E(x)=E _point(x)+λ _w E _text(x)；

进一步地，位姿优化后，此时的人工智能设备由于已经具备尺度和位姿，根据优化后的位姿信息，以及优化后的平面参数进一步三角化地图点的逆深度；根据三角化后的逆深度进行视觉定位。

；

第三实施例中，通过取自然场景中的文字信息，进而获取到场景中的平面信息，在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差，进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征，在点线特征缺乏的区域如果存在文字信息，系统仍然可以稳定定位，提高了视觉定位系统的场景适应性和鲁棒性。另一方面，文字信息特征相比于传统点、线特征而言，对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力，因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

本发明第四实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的机器人中，该计算机可读存储介质可以是机器人中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图2所示实施例中描述的视觉定位方法。进一步的，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明各实施例所提供的人工智能设备、视觉定位方法、装置及可读存储介质的描述，对于本领域的技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人工智能设备，其特征在于，所述人工智能设备可自动行进，包括相机、存储器和处理器；所述相机用于拍摄所述人工智能设备当前所处场景的图像组；所述存储器存储有可执行程序代码；所述处理器用于调用并运行所述可执行程序代码来实现视觉定位方法；所述视觉定位方法包括：

2.如权利要求1所述的人工智能设备，其特征在于，所述图像组包括两帧图像；所述建立所述文字信息所在区域的初始平面方程，包括：

根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数，以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系，来建立所述文字信息所在区域的初始平面方程。

3.如权利要求2所述的人工智能设备，其特征在于，所述根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数，以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系，来建立所述文字信息所在区域的初始平面方程，包括：

根据下述公式建立所述文字信息所在区域的初始平面方程：

；

其中，

是图像坐标系下特征点的齐次坐标，

和

分别表示前后两帧图像中的同一个特征点，

表示前一帧图像的特征点，

表示后一帧图像的特征点，T为矩阵转置符号，R表示从所述图像组选取的两帧图像之间的旋转矩阵，t表示所述两帧图像之间的平移矩阵，θ表示世界坐标系中的所述文字信息所在区域的平面参数，θ=(θ ₁,θ ₂,θ ₃)^T=n/ d，n是文字所在区域的平面的法向量，d是文字所在区域的平面到所述相机的光心的距离，θ ₁、θ ₂、θ ₃分别表示文字所在区域的平面的法向量n的3个方向。

4.根据权利要求3所述的人工智能设备，其特征在于，所述利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测，并计算投影预测过程中所产生的重投影误差，包括：

采用下述公式对所述文字信息所在区域中的地图点特征进行投影预测，得到各地图点特征的预测坐标：