CN113723379A - 人工智能设备、视觉定位方法、装置及可读存储介质 - Google Patents

人工智能设备、视觉定位方法、装置及可读存储介质 Download PDF

Info

Publication number
CN113723379A
CN113723379A CN202111289990.1A CN202111289990A CN113723379A CN 113723379 A CN113723379 A CN 113723379A CN 202111289990 A CN202111289990 A CN 202111289990A CN 113723379 A CN113723379 A CN 113723379A
Authority
CN
China
Prior art keywords
region
text information
information
error
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111289990.1A
Other languages
English (en)
Inventor
刘运航
闫瑞君
谭嘉豪
周阳
陈美文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Pudu Technology Co Ltd
Original Assignee
Shenzhen Pudu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Pudu Technology Co Ltd filed Critical Shenzhen Pudu Technology Co Ltd
Priority to CN202111289990.1A priority Critical patent/CN113723379A/zh
Publication of CN113723379A publication Critical patent/CN113723379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能领域,提供一种人工智能设备、视觉定位方法、装置及可读存储介质。本发明通过取自然场景中的文字信息,进而获取到场景中的平面信息,在此基础上基于文字平面信息的重投影误差和光度误差进行视觉定位。一方面为视觉系统增加了一种更高级语义特征,在点线特征缺乏但存在文字信息的区域视觉系统仍然可以稳定定位,提高了视觉定位系统的场景适应性和鲁棒性。另一方面,文字信息特征相比于传统点、线特征而言,对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力,因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。

Description

人工智能设备、视觉定位方法、装置及可读存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种人工智能设备、视觉定位方法、装置及可读存储介质。
背景技术
随着人工智能技术的爆发,各种可自动行驶的人工智能设备的研发与落地也得到了广泛的关注。定位技术作为人工智能设备的核心技术,其相关的学术研究与实践落地也得到了广泛的研究与挖掘。
近年来,基于视觉的室内定位技术取得了较大的进展。视觉定位技术也由于其采用的相机传感器价格相对低廉,采集的数据信息量大可以较为鲁棒的完成感知、重定位等工作需求的原因,迅速得到学术界和产业界的广泛研究与运用。但是基于纯视觉的定位方案一般都主要提取视觉点特征、线特征等低级别的视觉特征来进行定位,这类低级别的视觉特征在用于对弱纹理、快速运动、模糊运动定位时的稳定性比较差。
发明内容
本发明所要解决的技术问题为如何提升对于弱纹理、快速运动、模糊运动的准确定位。
第一方面,本发明实施例提供了一种人工智能设备,所述人工智能设备可自动行进,包括相机、存储器和处理器;所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述存储器存储有可执行程序代码;所述处理器用于调用并运行所述可执行程序代码来实现视觉定位方法;所述视觉定位方法包括:
通过所述相机所拍摄的图像组得到所述人工智能设备的位姿信息;
当检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差;
对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
第二方面,本发明实施例还提供了一种视觉定位装置,所述视觉定位装置应用于可自动行进的人工智能设备中,所述人工智能设备包括相机,所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述视觉定位装置包括:
位姿计算模块,用于通过所述相机所拍摄的图像组计算得到所述人工智能设备的位姿信息;
文字信息检测模块,用于检测到所述图像组中是否有图像包含文字信息;
平面方程建立模块,用于当所述文字信息检测模块检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
重投影误差计算模块,用于利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并得到投影预测过程中所产生的重投影误差;
光度误差计算模块,用于对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
定位模块,用于将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
第三方面,本发明实施例还提供了一种视觉定位方法,所述视觉定位方法应用于可自动行进的人工智能设备中,所述人工智能设备包括相机,所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述视觉定位方法包括:
通过所述相机所拍摄的图像组得到所述人工智能设备的位姿信息;
当检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差;
对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
第四方面,本发明实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现第三方面所述的视觉定位方法。
从上述本发明各实施例可知,本发明通过取自然场景中的文字信息,进而获取到场景中的平面信息,在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差,进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征,在点线特征缺乏的区域如果存在文字信息,系统仍然可以稳定定位,提高了视觉定位系统的场景适应性和鲁棒性。另一方面,文字信息特征相比于传统点、线特征而言,对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力,因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的人工智能设备的结构示意图;
图2为本发明第一实施例提供的视觉定位方法的实现流程图;
图3为本发明第二实施例提供的视觉定位装置的模块结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明第一实施例提供的人工智能设备的结构示意图。为了便于说明,仅示出了与本发明实施例相关的部分。该人工智能设备1具有自动行进的能力,可以是机器人,例如酒店/餐厅等场所内的迎宾机器人,在酒店、物流园区等固定场所内运行的送货机器人、扫地机器人等,甚至是无人驾驶的汽车等,只要是有自动行进能力且需要实时定位的人工智能设备均可适用。该人工智能设备可包括:
存储器11、处理器12和相机13。存储器11中存储有可执行程序代码,可以采用硬盘驱动存储器、非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程限制删除的存储器等)、易失性存储器(例如静态或动态随机存取存储器等)等,本发明实施例不作限制。相机13用于拍摄所述人工智能设备当前所处场景的图像组,其中,“图像组”是指一组图像,一般情况下为至少两帧图像,所拍摄的图像组可用于后续获得人工智能设备的位姿信息。
处理器12为人工智能设备的运算和控制核心,是信息处理、程序运行的最终执行单元,与存储器11耦合/连接,用于调用存储器11中存储的所述可执行程序代码,执行如下视觉定位方法。
参见图2,该视觉定位方法包括如下步骤:
步骤S201,通过相机所拍摄的图像组得到人工智能设备的位姿信息。
首先人工智能设备通过传统的点特征SLAM(simultaneous localization andmapping,同步定位与建图)系统进行系统初始化,通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置,以及人工智能设备的运动朝向,即航向角ψ。
步骤S202,当检测到图像组中有图像包含文字信息时,建立文字信息所在区域的初始平面方程,其中,该初始平面方程中包含有平面参数。
一般地,可以通过EAST(An Efficient and Accurate Scene Text Detector,文字提取器)检测上述图像组中是否有文字信息,EAST在检测过程中会针对检测区域生成一个text检测框,然后进一步检测该text检测框中是否有文字信息。当检测到至少两帧图像中包含有同一种文字信息时,即可建立文字信息所在区域的初始平面方程。需要说明的是,上述的文字信息需要位于同一个平面,也就是上述文字信息所在区域为一个平面或足够接近于一个平面,该“足够接近”可以理解为该区域内的各个位置在世界坐标系下的相对高度差足够小,例如,若该区域内任意两个位置之间的高度差都小于预设的阈值,则可认为该区域的形状足够接近平面。
作为一种实现方式,本实施例中,具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄两帧图像时的人工智能设备位姿的相对关系,来建立文字信息所在区域的初始平面方程,该两帧图像可以是上述图像组中相邻的两帧图像,也可以是不相邻的两帧图像,只要该两帧图像中包含的文字信息所在区域相同即可。
具体可以根据下述公式建立文字信息所在区域的初始平面方程:
Figure 12371DEST_PATH_IMAGE001
其中,
Figure 876290DEST_PATH_IMAGE002
是图像坐标系下特征点的齐次坐标,
Figure 845383DEST_PATH_IMAGE002
Figure 672525DEST_PATH_IMAGE003
分别表示前后两帧图像中的同一个特征点,具体地,
Figure 410674DEST_PATH_IMAGE002
表示前一帧图像的特征点,
Figure 55282DEST_PATH_IMAGE003
表示后一帧图像的特征点,T为矩阵转置符号,R表示从图像组选取的两帧图像之间的旋转矩阵,t表示两帧图像之间的平移矩阵,θ表示世界坐标系中的文字信息所在区域的平面参数,θ=(θ 1,θ 2,θ 3)T=n/ dn是文字所在区域的平面的法向量,d是文字所在区域的平面到相机的光心的距离,θ 1θ 2θ 3分别表示文字所在区域的平面的法向量n的3个方向。
其中,所谓图像坐标系,是指相机在拍摄某帧图像时以相机的光心为原点的坐标系,也可称之为相机坐标系。而世界坐标系则是人工智能设备在移动时以某个位置为原点设置的坐标系。由于在最开始不知道相机的位置,那么相机所拍摄的图像上的点只能用图像坐标系下的坐标表示,图像坐标系下点的表示和常用的世界坐标系下三维点的表示相差了一个位姿变换。
而文字信息所在区域的初始平面方程指的是在世界坐标系下的平面方程,因此需要建立上文所述的平面方程,通过该平面方程进行位姿转换得到世界坐标系中的文字信息所在区域的平面参数,即上文中的θ
上述初始平面方程中的平面参数θ的意义主要是将文字信息所在区域在世界坐标系下的参数化表达,便于后续步骤进行投影预测文字信息所在区域的地图点特征。对于有多个平面区域包含有文字信息的情况,则需要每个平面区域都进行在世界坐标系下的参数化表达。
步骤S203,利用平面参数对文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差。
本步骤的出发点在于利用世界坐标系中的平面信息去投影文字信息所在区域内的地图点特征,所谓地图点特征,是指两帧图像上提取的同一位置的角点的3d坐标,而角点则是该地图点特征在其中某一帧图像上的2d像素坐标所对应的像素点,角点附近区域的像素点无论在梯度方向上还是其梯度幅值上都有着较大变化。通常可以采用这种方式来检测角点,即,使用一个固定窗口在图像上进行任意方向上的滑动,比较滑动前与滑动后两种情况,窗口中的像素灰度变化程度,如果存在任意方向上的滑动,都有着较大灰度变化,那么我们可以认为该窗口中存在角点。
具体到本步骤,可设计一个text-slam专属的“匀速运动模型”,采用下述公式对文字信息所在区域中的地图点特征进行投影预测,得到各地图点特征的预测坐标:
Figure 872191DEST_PATH_IMAGE004
Figure 627657DEST_PATH_IMAGE005
其中,
Figure 95679DEST_PATH_IMAGE006
Figure 911188DEST_PATH_IMAGE007
分别表示地图点特征的预测坐标,
Figure 589294DEST_PATH_IMAGE006
为地图点特征投影的x方向像素,
Figure 273085DEST_PATH_IMAGE007
为地图点特征投影的y方向像素;r 1 表示旋转矩阵R的第一行行向量,r 2 表示旋转矩阵R的第二行行向量,r 3 表示旋转矩阵R的第三行行向量;t 1 表示平移矩阵t的第一行行向量,t 2 表示平移矩阵t的第二行行向量,t 3 表示平移矩阵t的第三行行向量。
然后,将各地图点特征的预测坐标与各自对应的角点坐标作差,得到重投影误差,此重投影误差用于在后续步骤中从文字平面信息的空间几何的角度来约束人工智能设备的位姿。
步骤S204,对文字信息所在区域进行投影预测,并于文字信息所在区域中选取若干角点,利用所述若干角点构造出文字信息所在区域的光度误差。
本步骤的出发点在于预测文字信息所在区域(即EAST生成的text检测框)的投影,同样也可以设计一个text-slam专属的“匀速运动模型”来预测投影,具体可以直接投影text检测框的4个顶点,确定出text检测框的范围大小,然后从这个范围里面选取若干角点作为代表,进而构造出文字信息所在区域的光度误差。
选取角点时,基于已有开源Fast角点检测算法,选择在text文本框之内的角点。角点的个数和具体位置不限,以能全面反映出该text文本框内的各像素的光度情况为佳,例如,可以从该text文本框的上下左右各区域中以矩阵形式选取15个角点来构造光度误差。本实施例中,光度即为灰度,用于表征图像中各像素点的明暗程度。
进一步地,本实施例中具体采用如下方式选取角点并构造光度误差:对文字信息所在区域的四个顶点进行投影,确定出区域范围;从区域范围内选取若干角点;计算各角点分别在两帧图像中对应坐标处的像素的灰度值之差,并作为各角点的光度误差;将若干角点的光度误差之和作为文字信息所在区域的光度误差。
计算出的光度误差用于在后续步骤中从文字平面信息所在区域内的像素的明暗程度的角度来约束人工智能设备的位姿。
步骤S205,将重投影误差与光度误差以各自对应的权重系数进行加权运算得到约束残差,利用约束残差优化位姿信息,并使用优化后的位姿信息进行视觉定位。
本步骤是用来上述的重投影误差和光度误差作为因子得到约束残差,来优化步骤S201中得到人工智能设备的位姿,该约束残差的误差形式如下:
E(x)=E point (x)+λ w E text (x);
其中,E(x)表示约束残差,E point (x)表示重投影误差,E text (x)表示光度误差,λ w 表示光度误差的相对权重。
通过图优化理论,通过约束残差E(x)调节优化人工智能设备的位姿、地图点、文字信息所在区域的平面方程,即可降低系统参差。
进一步地,位姿优化后,此时的人工智能设备由于已经具备尺度和位姿,根据优化后的位姿信息,以及优化后的初始平面方程的平面参数进一步三角化地图点的逆深度;根据三角化后的逆深度进行视觉定位。
直接三角化text区域内的地图特征点,只需要text区域内3个具有深度信息的地图点则可以唯一的确定一个平面。公式如下:
Figure 985826DEST_PATH_IMAGE008
其中,ρ i 是地图特征点的逆深度,m i 是该地图特征点在图像坐标系下对应的像素特征点的齐次坐标。
上述视觉定位方法可以以软件模块的形式嵌入到任何一个基于滑窗优化的SLAM系统中,使得该系统除了可以采用点特征、线特征等低级别的视觉特征进行定位以外,还能在弱纹理、快速运动、运动模糊场景中提取工作场景中存在的文字广告、标语等文字信息,将高级别的文字信息作为一种视觉特征引入视觉定位框架,使得SLAM系统具有更好的场景适应性。
第一实施例中,通过取自然场景中的文字信息,进而获取到场景中的平面信息,在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差,进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征,在点线特征缺乏的区域如果存在文字信息,系统仍然可以稳定定位,提高了视觉定位系统的场景适应性和鲁棒性。另一方面,文字信息特征相比于传统点、线特征而言,对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力,因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。
图3为本发明第二实施例提供的视觉定位装置的结构示意图。为了便于说明,仅示出了与本实施例相关的部分。该视觉定位装置可以以软件模块形式或硬件模块形式或软硬件结合的形式内置于人工智能设备中,该人工智能设备需要包括相机,所述相机用于拍摄所述人工智能设备当前所处场景的图像组。参见图3,所述视觉定位装置包括:
位姿计算模块31,用于通过所述相机所拍摄的图像组计算得到所述人工智能设备的位姿信息;
文字信息检测模块32,用于检测到所述图像组中是否有图像包含文字信息;
平面方程建立模块33,用于当所述文字信息检测模块32检测到所述图像组中有图像包含文字信息时,建立文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
重投影误差计算模块34,用于利用所述平面参数对文字信息所在区域中的地图点特征进行投影预测,并得到投影预测过程中所产生的重投影误差;
光度误差计算模块35,用于对文字信息所在区域进行投影预测,并于文字信息所在区域中选取若干角点,利用所述若干角点构造出文字信息所在区域的光度误差;
定位模块36,用于将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
具体地,人工智能设备初始化后,位姿计算模块31通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置,以及人工智能设备的运动朝向,即航向角ψ。
文字信息检测模块32可以通过EAST(An Efficient and Accurate Scene TextDetector,文字提取器)检测上述图像组中是否有文字信息,EAST在检测过程中会针对检测区域生成一个text检测框,然后进一步检测该text检测框中是否有文字信息。当检测到至少两帧图像中包含有同一种文字信息时,即可建立文字信息所在区域的初始平面方程。需要说明的是,上述的文字信息需要位于同一个平面,也就是上述文字信息所在区域为一个平面或足够接近于一个平面,该“足够接近”可以理解为该区域内的各个位置在世界坐标系下的相对高度差足够小,例如,若该区域内任意两个位置之间的高度差都小于预设的阈值,则可认为该区域的形状足够接近平面。
作为一种实现方式,平面方程建立模块33具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄两帧图像时人工智能设备的人工智能设备位姿的相对关系,来建立文字信息所在区域的初始平面方程,该两帧图像可以是上述图像组中相邻的两帧图像,也可以是不相邻的两帧图像,只要该两帧图像中包含的文字信息所在区域相同即可。
具体可以根据下述公式建立文字信息所在区域的初始平面方程:
Figure 316444DEST_PATH_IMAGE001
其中,
Figure 747426DEST_PATH_IMAGE002
是图像坐标系下特征点的齐次坐标,
Figure 579115DEST_PATH_IMAGE002
Figure 46830DEST_PATH_IMAGE003
分别表示前后两帧图像中的同一个特征点,
Figure 938563DEST_PATH_IMAGE002
表示前一帧图像的特征点,
Figure 466627DEST_PATH_IMAGE003
表示后一帧图像的特征点,T为矩阵转置符号,R表示从所述图像组选取的两帧图像之间的旋转矩阵,t表示所述两帧图像之间的平移矩阵,θ表示世界坐标系中的所述文字信息所在区域的平面参数,θ=(θ 1,θ 2,θ 3)T=n/dn是文字所在区域的平面的法向量,d是文字所在区域的平面到所述相机的光心的距离,θ 1θ 2θ 3分别表示文字所在区域的平面的法向量n的3个方向。
重投影误差计算模块34可采用下述公式对文字信息所在区域中的地图点特征进行投影预测,得到各地图点特征的预测坐标:
Figure 633166DEST_PATH_IMAGE004
Figure 851658DEST_PATH_IMAGE005
其中,
Figure 445450DEST_PATH_IMAGE006
Figure 211543DEST_PATH_IMAGE007
分别表示地图点特征的预测坐标,
Figure 916194DEST_PATH_IMAGE006
为地图点特征投影的x方向像素,
Figure 333400DEST_PATH_IMAGE007
为地图点特征投影的y方向像素;r 1 表示旋转矩阵R的第一行行向量,r 2 表示旋转矩阵R的第二行行向量,r 3 表示旋转矩阵R的第三行行向量;t 1 表示平移矩阵t的第一行行向量,t 2 表示平移矩阵t的第二行行向量,t 3 表示平移矩阵t的第三行行向量。然后,重投影误差计算模块34将各地图点特征的预测坐标与各自对应的角点坐标作差,得到重投影误差,此重投影误差用于在后续步骤中从文字平面信息的空间几何的角度来约束人工智能设备的位姿。
光度误差计算模块35可以直接投影text检测框的4个顶点,确定出text检测框的范围大小,然后从这个范围里面选取若干角点作为代表,进而构造出文字信息所在区域的光度误差。选取角点时,基于已有开源Fast角点检测算法,选择在text文本框之内的角点。角点的个数和具体位置不限,以能全面反映出该text文本框内的各像素的光度情况为佳,例如,可以从该text文本框的上下左右各区域中以矩阵形式选取15个角点来构造光度误差。本实施例中,光度即为灰度,用于表征图像各像素点的明暗程度。
进一步地,本实施例中光度误差计算模块35具体采用如下方式选取角点并构造光度误差:对文字信息所在区域的四个顶点进行投影,确定出区域范围;从区域范围内选取若干角点;计算各角点分别在两帧图像中对应坐标处的像素的灰度值之差,并作为各角点的光度误差;将若干角点的光度误差之和作为文字信息所在区域的光度误差。
定位模块36将重投影误差和光度误差作为因子得到约束残差,来优化步骤S201中得到人工智能设备的位姿,该约束残差的误差形式如下:
E(x)=E point (x)+λ w E text (x);
其中,E(x)表示约束残差,E point (x)表示重投影误差,E text (x)表示光度误差,λ w 表示光度误差的相对权重。
通过图优化理论,定位模块36通过约束残差E(x)调节优化人工智能设备的位姿、地图点、文字信息所在区域的平面方程,即可降低系统参差。
进一步地,位姿优化后,此时的人工智能设备由于已经具备尺度和位姿,定位模块36还可以根据优化后的位姿信息,以及优化后的平面参数进一步三角化地图点的逆深度,然后根据三角化后的逆深度进行视觉定位。
直接三角化text区域内的地图特征点,只需要text区域内3个具有深度信息的地图点则可以唯一的确定一个平面。公式如下:
Figure 832514DEST_PATH_IMAGE008
其中,ρ i 是地图特征点的逆深度,m i 是该地图特征点在图像坐标系下对应的像素特征点的齐次坐标。
第二实施例中,通过取自然场景中的文字信息,进而获取到场景中的平面信息,在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差,进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征,在点线特征缺乏的区域如果存在文字信息,系统仍然可以稳定定位,提高了视觉定位系统的场景适应性和鲁棒性。另一方面,文字信息特征相比于传统点、线特征而言,对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力,因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。
本发明第三实施例提供了一种视觉定位方法,具体流程参见图2,该方法可应用于图1所示的人工智能设备,实现本方法所需要执行的程序可以以独立软件程序的形式被上传、下载、安装,也可以烧录到一些存储介质中。如图2所示,该视觉定位方法具体包括:
步骤S201,通过相机所拍摄的图像组得到人工智能设备的位姿信息。
首先人工智能设备通过传统的点特征SLAM系统进行系统初始化,通过相机对人工智能设备所处的场景拍摄的至少两帧图像获取人工智能设备的位姿。位姿信息一般包括人工智能设备在世界坐标系中x轴方向的位置、y轴方向的位置,以及人工智能设备的运动朝向,即航向角ψ。
步骤S202,当检测到图像组中有图像包含文字信息时,建立文字信息所在区域的初始平面方程,该初始平面方程中包含平面参数。
作为一种实现方式,本实施例中,具体根据该两帧图像中文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄两帧图像时人工智能设备位姿的相对关系,来建立文字信息所在区域的初始平面方程,该两帧图像可以是上述图像组中相邻的两帧图像,也可以是不相邻的两帧图像,只要该两帧图像中包含的文字信息所在区域相同即可。
具体可以根据下述公式建立文字信息所在区域的初始平面方程:
Figure 318859DEST_PATH_IMAGE001
其中,
Figure 561622DEST_PATH_IMAGE002
是图像坐标系下特征点的齐次坐标,
Figure 833334DEST_PATH_IMAGE002
Figure 237771DEST_PATH_IMAGE003
分别表示前后两帧图像中的同一个特征点,具体地,
Figure 352357DEST_PATH_IMAGE002
表示前一帧图像的特征点,
Figure 490821DEST_PATH_IMAGE003
表示后一帧图像的特征点,T为矩阵转置符号,R表示从图像组选取的两帧图像之间的旋转矩阵,t表示两帧图像之间的平移矩阵,θ表示世界坐标系中的文字信息所在区域的平面参数,θ=(θ 1,θ 2,θ 3)T=n/ dn是文字所在区域的平面的法向量,d是文字所在区域的平面到相机的光心的距离,θ 1θ 2θ 3分别表示文字所在区域的平面的法向量n的3个方向。
步骤S203,利用初始平面方程中的平面参数对文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差。
具体到本步骤,可设计一个text-slam专属的“匀速运动模型”,采用下述公式对文字信息所在区域中的地图点特征进行投影预测,得到各地图点特征的预测坐标:
Figure 7253DEST_PATH_IMAGE004
Figure 723537DEST_PATH_IMAGE005
其中,
Figure 59840DEST_PATH_IMAGE006
Figure 644405DEST_PATH_IMAGE007
分别表示地图点特征的预测坐标,
Figure 874398DEST_PATH_IMAGE006
为地图点特征投影的x方向像素,
Figure 886217DEST_PATH_IMAGE007
为地图点特征投影的y方向像素;r 1 表示旋转矩阵R的第一行行向量,r 2 表示旋转矩阵R的第二行行向量,r 3 表示旋转矩阵R的第三行行向量;t 1 表示平移矩阵t的第一行行向量,t 2 表示平移矩阵t的第二行行向量,t 3 表示平移矩阵t的第三行行向量。
然后,将各地图点特征的预测坐标与各自对应的角点坐标作差,得到重投影误差,此重投影误差用于在后续步骤中从文字平面信息的空间几何的角度来约束人工智能设备的位姿。
步骤S204,对文字信息所在区域进行投影预测,并于文字信息所在区域中选取若干角点,利用所述若干角点构造出文字信息所在区域的光度误差。
进一步地,本实施例中具体采用如下方式选取角点并构造光度误差:对文字信息所在区域的四个顶点进行投影,确定出区域范围;从区域范围内选取若干角点;计算各角点分别在两帧图像中对应坐标处的像素的灰度值之差,并作为各角点的光度误差;将若干角点的光度误差之和作为文字信息所在区域的光度误差。
计算出的光度误差用于在后续步骤中从文字平面信息所在区域内的像素的明暗程度的角度来约束人工智能设备的位姿。
步骤S205,将重投影误差与光度误差以各自对应的权重系数进行加权运算得到约束残差,利用约束残差优化位姿信息,并使用优化后的位姿信息进行视觉定位。
本步骤是用来上述的重投影误差和光度误差作为因子得到约束残差,来优化步骤S201中得到人工智能设备的位姿,该约束残差的误差形式如下:
E(x)=E point (x)+λ w E text (x);
其中,E(x)表示约束残差,E point (x)表示重投影误差,E text (x)表示光度误差,λ w 表示光度误差的相对权重。
通过图优化理论,通过约束残差E(x)调节优化人工智能设备的位姿、地图点、文字信息所在区域的平面方程,即可降低系统参差。
进一步地,位姿优化后,此时的人工智能设备由于已经具备尺度和位姿,根据优化后的位姿信息,以及优化后的平面参数进一步三角化地图点的逆深度;根据三角化后的逆深度进行视觉定位。
直接三角化text区域内的地图特征点,只需要text区域内3个具有深度信息的地图点则可以唯一的确定一个平面。公式如下:
Figure 585182DEST_PATH_IMAGE008
其中,ρ i 是地图特征点的逆深度,m i 是该地图特征点在图像坐标系下对应的像素特征点的齐次坐标。
第三实施例中,通过取自然场景中的文字信息,进而获取到场景中的平面信息,在此基础上基于文字平面信息的重投影误差和光度误差得到约束残差,进而进行视觉定位。一方面为视觉系统增加了一种更高级语义特征,在点线特征缺乏的区域如果存在文字信息,系统仍然可以稳定定位,提高了视觉定位系统的场景适应性和鲁棒性。另一方面,文字信息特征相比于传统点、线特征而言,对于弱纹理、快速运动、运动模糊的情况具备更好的抵抗力,因此引入文字信息有助于提高定位系统对于运动模糊、快速运动的稳定性。
本发明第四实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的机器人中,该计算机可读存储介质可以是机器人中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图2所示实施例中描述的视觉定位方法。进一步的,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明各实施例所提供的人工智能设备、视觉定位方法、装置及可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种人工智能设备,其特征在于,所述人工智能设备可自动行进,包括相机、存储器和处理器;所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述存储器存储有可执行程序代码;所述处理器用于调用并运行所述可执行程序代码来实现视觉定位方法;所述视觉定位方法包括:
通过所述相机所拍摄的图像组得到所述人工智能设备的位姿信息;
当检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差;
对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
2.如权利要求1所述的人工智能设备,其特征在于,所述图像组包括两帧图像;所述建立所述文字信息所在区域的初始平面方程,包括:
根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系,来建立所述文字信息所在区域的初始平面方程。
3.如权利要求2所述的人工智能设备,其特征在于,所述根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系,来建立所述文字信息所在区域的初始平面方程,包括:
根据下述公式建立所述文字信息所在区域的初始平面方程:
Figure 777966DEST_PATH_IMAGE001
其中,
Figure 350898DEST_PATH_IMAGE002
是图像坐标系下特征点的齐次坐标,
Figure 661794DEST_PATH_IMAGE002
Figure 463528DEST_PATH_IMAGE003
分别表示前后两帧图像中的同一个特征点,
Figure 543479DEST_PATH_IMAGE002
表示前一帧图像的特征点,
Figure 897100DEST_PATH_IMAGE003
表示后一帧图像的特征点,T为矩阵转置符号,R表示从所述图像组选取的两帧图像之间的旋转矩阵,t表示所述两帧图像之间的平移矩阵,θ表示世界坐标系中的所述文字信息所在区域的平面参数,θ=(θ 1,θ 2,θ 3)T=n/ dn是文字所在区域的平面的法向量,d是文字所在区域的平面到所述相机的光心的距离,θ 1θ 2θ 3分别表示文字所在区域的平面的法向量n的3个方向。
4.根据权利要求3所述的人工智能设备,其特征在于,所述利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差,包括:
采用下述公式对所述文字信息所在区域中的地图点特征进行投影预测,得到各地图点特征的预测坐标:
Figure 321391DEST_PATH_IMAGE004
Figure 379345DEST_PATH_IMAGE005
其中,
Figure 579383DEST_PATH_IMAGE006
Figure 838326DEST_PATH_IMAGE007
分别表示地图点特征的预测坐标,
Figure 999180DEST_PATH_IMAGE006
为地图点特征投影的x方向像素,
Figure 267350DEST_PATH_IMAGE007
为地图点特征投影的y方向像素;r 1 表示旋转矩阵R的第一行行向量,r 2 表示旋转矩阵R的第二行行向量,r 3 表示旋转矩阵R的第三行行向量;t 1 表示平移矩阵t的第一行行向量,t 2 表示平移矩阵t的第二行行向量,t 3 表示平移矩阵t的第三行行向量;
将各地图点特征的预测坐标与各自对应的角点坐标作差,得到所述重投影误差。
5.根据权利要求1所述的人工智能设备,其特征在于,所述图像组包括两帧图像;所述对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差,包括:
对所述文字信息所在区域的四个顶点进行投影,确定出区域范围;
从所述区域范围内选取若干角点;
计算各角点分别在所述两帧图像中对应坐标处的像素的灰度值之差,并作为各角点的光度误差;
将所述若干角点的光度误差之和作为所述文字信息所在区域的光度误差。
6.根据权利要求1所述的人工智能设备,其特征在于,所述利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位包括:
利用所述约束残差对所述位姿信息、所述文字信息所在区域的初始平面方程进行优化;
根据优化后的位姿信息,以及优化后的所述平面参数进一步三角化地图点的逆深度;
根据三角化后的逆深度进行视觉定位。
7.一种视觉定位装置,其特征在于,所述视觉定位装置应用于可自动行进的人工智能设备中,所述人工智能设备包括相机,所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述视觉定位装置包括:
位姿计算模块,用于通过所述相机所拍摄的图像组计算得到所述人工智能设备的位姿信息;
文字信息检测模块,用于检测到所述图像组中是否有图像包含文字信息;
平面方程建立模块,用于当所述文字信息检测模块检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
重投影误差计算模块,用于利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并得到投影预测过程中所产生的重投影误差;
光度误差计算模块,用于对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
定位模块,用于将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
8.一种视觉定位方法,其特征在于,所述视觉定位方法应用于可自动行进的人工智能设备中,所述人工智能设备包括相机,所述相机用于拍摄所述人工智能设备当前所处场景的图像组;所述视觉定位方法包括:
通过所述相机所拍摄的图像组得到所述人工智能设备的位姿信息;
当检测到所述图像组中有图像包含文字信息时,建立所述文字信息所在区域的初始平面方程,所述初始平面方程中包含平面参数;
利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,并计算投影预测过程中所产生的重投影误差;
对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差;
将所述重投影误差与所述光度误差以各自对应的权重系数进行加权运算得到约束残差,利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位。
9.如权利要求8所述的视觉定位方法,其特征在于,所述图像组包括两帧图像;所述建立所述文字信息所在区域的初始平面方程,包括:
根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系,来建立所述文字信息所在区域的初始平面方程。
10.如权利要求9所述的视觉定位方法,其特征在于,所述根据所述两帧图像中所述文字信息所在区域内的特征点在图像坐标系下的位置参数,以及相机在拍摄所述两帧图像时的人工智能设备位姿的相对关系,来建立所述文字信息所在区域的初始平面方程,包括:
根据下述公式建立所述文字信息所在区域的初始平面方程:
Figure 945063DEST_PATH_IMAGE001
其中,
Figure 640486DEST_PATH_IMAGE002
是图像坐标系下特征点的齐次坐标,
Figure 288636DEST_PATH_IMAGE002
Figure 94918DEST_PATH_IMAGE003
分别表示前后两帧图像中的同一个特征点,
Figure 394181DEST_PATH_IMAGE002
表示前一帧图像的特征点,
Figure 260506DEST_PATH_IMAGE003
表示后一帧图像的特征点,T为矩阵转置符号,R表示从所述图像组选取的两帧图像之间的旋转矩阵,t表示所述两帧图像之间的平移矩阵,θ表示世界坐标系中的所述文字信息所在区域的平面参数,θ=(θ 1,θ 2,θ 3)T=n/ dn是文字所在区域的平面的法向量,d是文字所在区域的平面到所述相机的光心的距离,θ 1θ 2θ 3分别表示文字所在区域的平面的法向量n的3个方向。
11.根据权利要求10所述的视觉定位方法,其特征在于,所述利用所述平面参数对所述文字信息所在区域中的地图点特征进行投影预测,包括:
采用下述公式对所述文字信息所在区域中的地图点特征进行投影预测,得到各地图点特征的预测坐标:
Figure 395953DEST_PATH_IMAGE004
Figure 740346DEST_PATH_IMAGE005
其中,
Figure 769482DEST_PATH_IMAGE006
Figure 698386DEST_PATH_IMAGE007
分别表示地图点特征的预测坐标,
Figure 180183DEST_PATH_IMAGE006
为地图点特征投影的x方向像素,
Figure 203634DEST_PATH_IMAGE007
为地图点特征投影的y方向像素;r 1 表示旋转矩阵R的第一行行向量,r 2 表示旋转矩阵R的第二行行向量,r 3 表示旋转矩阵R的第三行行向量;t 1 表示平移矩阵t的第一行行向量,t 2 表示平移矩阵t的第二行行向量,t 3 表示平移矩阵t的第三行行向量;
将各地图点特征的预测坐标与各自对应的角点坐标作差,得到所述重投影误差。
12.根据权利要求8所述的视觉定位方法,其特征在于,所述图像组包括两帧图像;所述对所述文字信息所在区域进行投影预测,并于所述文字信息所在区域中选取若干角点,利用所述若干角点构造出所述文字信息所在区域的光度误差,包括:
对所述文字信息所在区域的四个顶点进行投影,确定出区域范围;
从所述区域范围内选取若干角点;
计算各角点分别在所述两帧图像中对应坐标处的像素的灰度值之差,并作为各角点的光度误差;
将所述若干角点的光度误差之和作为所述文字信息所在区域的光度误差。
13.根据权利要求8所述的视觉定位方法,其特征在于,所述利用所述约束残差优化所述位姿信息,并使用优化后的位姿信息进行视觉定位包括:
利用所述约束残差对所述位姿信息、所述文字信息所在区域的初始平面方程进行优化;
根据优化后的位姿信息,以及优化后所述平面参数进一步优化地图点的逆深度;
根据优化后的逆深度进行视觉定位。
14.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求8至13中的任一项所述的视觉定位方法。
CN202111289990.1A 2021-11-02 2021-11-02 人工智能设备、视觉定位方法、装置及可读存储介质 Pending CN113723379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111289990.1A CN113723379A (zh) 2021-11-02 2021-11-02 人工智能设备、视觉定位方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111289990.1A CN113723379A (zh) 2021-11-02 2021-11-02 人工智能设备、视觉定位方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN113723379A true CN113723379A (zh) 2021-11-30

Family

ID=78686487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111289990.1A Pending CN113723379A (zh) 2021-11-02 2021-11-02 人工智能设备、视觉定位方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN113723379A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080031490A1 (en) * 2006-08-07 2008-02-07 Canon Kabushiki Kaisha Position and orientation measuring apparatus and position and orientation measuring method, mixed-reality system, and computer program
CN110260861A (zh) * 2019-06-13 2019-09-20 北京华捷艾米科技有限公司 位姿确定方法及装置、里程计
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080031490A1 (en) * 2006-08-07 2008-02-07 Canon Kabushiki Kaisha Position and orientation measuring apparatus and position and orientation measuring method, mixed-reality system, and computer program
CN110260861A (zh) * 2019-06-13 2019-09-20 北京华捷艾米科技有限公司 位姿确定方法及装置、里程计
CN111767854A (zh) * 2020-06-29 2020-10-13 浙江大学 一种结合场景文本语义信息的slam回环检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI BOYING 等: "TextSLAM:Visual SLAM with Planar Text Features", 《2020 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 *

Similar Documents

Publication Publication Date Title
US11887247B2 (en) Visual localization
US11721067B2 (en) System and method for virtual modeling of indoor scenes from imagery
Taneja et al. City-scale change detection in cadastral 3d models using images
EP3242275B1 (en) Using photo collections for three dimensional modeling
US20140168367A1 (en) Calibrating visual sensors using homography operators
CN112991413A (zh) 自监督深度估测方法和系统
Taneja et al. Geometric change detection in urban environments using images
WO2015017941A1 (en) Systems and methods for generating data indicative of a three-dimensional representation of a scene
US20190057532A1 (en) Realistic augmentation of images and videos with graphics
US20090285544A1 (en) Video Processing
US20130251243A1 (en) Image processor, lighting processor and method therefor
CN108416385A (zh) 一种基于改进图像匹配策略的同步定位与建图方法
Kawai et al. Diminished reality for AR marker hiding based on image inpainting with reflection of luminance changes
US20200410759A1 (en) Providing augmented reality target images in a web browser
Guislain et al. Fine scale image registration in large-scale urban LIDAR point sets
KR101766823B1 (ko) 불규칙한 조도 변화에 강건한 영상 기반 주행거리 측정 시스템 및 방법
Angladon et al. Room floor plan generation on a project tango device
Balcı et al. Sun position estimation and tracking for virtual object placement in time-lapse videos
Fan et al. Collaborative three-dimensional completion of color and depth in a specified area with superpixels
CN113723379A (zh) 人工智能设备、视觉定位方法、装置及可读存储介质
CN111915632B (zh) 一种基于机器学习的贫纹理目标物体真值数据库构建方法
van de Wouw et al. Hierarchical 2.5-d scene alignment for change detection with large viewpoint differences
Agarwal et al. Visual odometry in smoke occluded environments
Masoud et al. Segmentation and tracking of nonplanar templates to improve VSLAM
Beňo et al. RGBD mapping solution for low-cost robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211130

RJ01 Rejection of invention patent application after publication