CN113807357A

CN113807357A - 一种基于室内地标文本与轮廓的室内定位方法

Info

Publication number: CN113807357A
Application number: CN202111051248.7A
Authority: CN
Inventors: 刘宁; 张星; 牛群
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-17
Anticipated expiration: 2041-09-08
Also published as: CN113807357B

Abstract

本发明公开了一种基于室内地标文本与轮廓的室内定位方法，包括步骤如下：S1：获取某一室内地标图像，图像包括地标的文本信息、轮廓信息；同时采用GPS定位获取用户当前所在的场景信息；S2：采用光学字符识别算法提取所述的图像中的文本信息，并与第三方平台的室内平面图信息进行匹配，确定用户在室内的初步定位结果，并获取该地标的尺度信息渲染模型，得到不同位置的渲染图像；S3：使用训练好的神经网络提取所述的图像的轮廓信息；S4：使用渲染图像与轮廓信息进行匹配，选择与轮廓信息最为相似的一张渲染图像，将渲染图像的渲染位置作为用户相对地标的拍摄位置，从而产生相对定位结果；S5：将初步定位结果、相对定位结果结合，得到用户的绝对位置信息。

Description

一种基于室内地标文本与轮廓的室内定位方法

技术领域

本发明涉及室内定位技术领域，更具体的，涉及一种基于室内地标文本与轮廓的室内定位方法。

背景技术

随着移动终端的普及和AR、机器人等技术的发展，室内定位技术得到了广泛的应用并吸引了国内外研究者的注意，如其在室内导航、机器人仓储等方面具有着极高的商业价值。

主流的室内定位方法主要包含蓝牙定位、Wi-Fi定位、地磁定位以及视觉定位。其主要思想都是先建立指纹数据库，然后在定位时采集指纹进行匹配，从而得到最终的定位结果。以上这些方法具有很大的弊端，即需要先构造数据库，此步骤需要付出极大的人力及时间成本。并且室内信号会随着时间进行波动，故若采用蓝牙、地磁等定位方法，则需每隔一段时间采集一遍指纹数据。若采用视觉定位，则如场景地标的外观发生变化，也需再次采集。

综上，现有室内定位技术耗费人力成本过高的问题亟待解决。

发明内容

本发明为了解决以上现有定位方法由于需构造及更新数据库导致的耗费人力成本过高的问题，提出了一种基于室内地标文本与轮廓信息的室内定位方法，该方法在确保定位精确度高的基础上，有效的降低了人力成本。

为实现上述本发明目的，采用的技术方案如下：

一种基于室内地标文本与轮廓的室内定位方法，所述的方法包括步骤如下：

S1：获取某一室内地标图像，所述的图像包括地标的文本信息、轮廓信息；同时采用GPS定位获取用户当前所在的场景信息；

S2：采用光学字符识别算法提取所述的图像中的文本信息，采用字符串匹配方法将提取的文本信息与第三方平台的室内平面图信息进行匹配，从而确定用户在室内的初步定位结果，并获取该地标的尺度信息渲染模型，得到不同位置的渲染图像；

S3：使用训练好的神经网络提取所述的图像的轮廓信息；

S4：使用渲染图像与步骤S3提取的轮廓信息进行匹配，选择与轮廓信息最为相似的一张渲染图像，将渲染图像的渲染位置作为用户相对地标的拍摄位置，从而产生相对定位结果；

S5：将步骤S2的初步定位结果、步骤S3的相对定位结果结合，得到用户的绝对位置信息。

本发明的有益效果如下：

本方法利用了广泛存在于室内场景的文本信息，以及地标本身比较恒定的轮廓信息来实现定位。其中文本信息可从第三方软件进行获取，降低了人工采集的成本。同时轮廓信息可使用神经网络算法进行提取，该算法也具有一定的泛化性。在匹配渲染图像与轮廓的神经网络中，考虑到特征稀疏的问题，将人的视觉感知引入衡量指标，从而提高了定位的准确度。

附图说明

图1是本实施例所述的定位方法的步骤流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于室内地标文本与轮廓的室内定位方法，所述的方法包括步骤如下：

S1：用户下载相应的定位程序客户端，然后打开客户端对准周围某一室内地标进行拍摄，获取某一室内地标图像，所述的图像包括地标的文本信息、轮廓信息；完成拍摄后，将图像上传发送到服务端。同时采用GPS定位获取用户当前所在的场景信息，如某一商场等，将其发送服务端。

S2：采用光学字符识别算法提取所述的图像中的文本信息，采用字符串匹配方法将提取的文本信息与第三方平台的室内平面图信息进行匹配，选择最为相似的室内平面图，从而确定用户在室内的初步定位结果，并获取该地标的尺度信息渲染模型，得到不同位置的渲染图像；

服务端首先根据GPS信息获得之粗略位置，从第三方软件获取粗略位置范围之内的平面图信息，所述的平面图信息包括地标文本、轮廓以及位置信息等。可使用其建立地标文本库以及文本对应的位置数据库，此步骤无需人力采集。根据获取的地标文本、轮廓信息，使用三维建模软件对地标进行建模，即一个宽高等于实际场景中地标大小的长方形。再在场景中新建一个相机，在不同位置对该模型进行渲染，从而模拟用户在不同位置拍照的动作。渲染的同时记录每张渲染图像的渲染位置信息，作为后续的定位结果使用。

在一个具体的实施例中，由于，使用光学字符识别算法(OCR)从用户拍摄图像中提取文本信息以待后续定位，但由于运动噪声以及OCR本身性能的影响，识别出的文本可能有错别字，故需对文本进行先处理后再进行下一步。因此在提取所述的图像中的文本信息之后，在与第三方平台的室内平面图信息进行对比之前，采用隐马尔可夫模型对提取的文本信息进行校正处理。

所述的校正处理具体如下：设光学字符识别算法提取得到的文本序列为O，图像中真实的文本序列为I：

O＝{o₁,o₂,…,o_n} (1)

I＝{i₁,i₂,…,i_n} (2)

其中，o_n、i_n表示第n个字符；

使用文本序列I对提取得到的文本序列O加以校正。

所述的隐马尔可夫模型包括初始概率分布、观测矩阵、状态转移矩阵；根据文本数据库中每个文本序列的起始字符，得到初始概率分布：

π＝[p₁,p₂,…,p_t]^T (3)

其中，p_t表示第t个字符作为文本序列的初始字符的概率，向量π中所有字符相加之和应为1；

所述的观测矩阵的定义如下：

b_i(j)＝P(o_t＝v_j|i_t＝q_i) (4)

其中，v_j表示第j个观测结果，如某个字符对应的图像；q_i表示状态结果，如某个具体字符；该式表示在i状态下，生成j观测的概率；

采用光学字符识别算法将某一字符识别正确的概率，其计算方式如下：

其中，p为光学字符识别算法中识别正确时的置信度；为简便计算，可将p设置为(0，1)之间的某个小数；i表示状态下标，j表示观测下标；当i与j相等时，则为观测正确时的概率，不同则为观测错误的概率。

再计算状态转移矩阵，此处即计算字符之间的跳转关系即可，其中q为字符集合中的元素；

a_i,j＝P(i_t+1＝q_j|i_t＝q_i) (6)

其中，q_j、q_i表示状态，a_i,j表示从状态q_i转移到状态q_j的概率；

最后校正问题则变成了给定一个文本序列O，将其解码成为正确的文本序列I的问题，使用维特比算法进行解码，根据解码得到校正后的文本序列。

在一个具体的实施例中，所述的解码具体如下：

将文本序列O中的字符称为观测，将图像中的真实字符称为状态；

给定观测序列O＝(o₁,o₂，…，o_T)，隐马尔可夫模型λ＝[A，B，π]；首先，计算各个状态观测到o₁的概率：

δ₁(i)＝π_ib_i(o₁) (7)

ψ₁(i)＝0 (8)

其次，计算文本序列O中下一个观测结果出现的概率：

δ₂(i)＝max_1≤j≤N[δ₁(j)a_ji]b_i(o₂) (9)

ψ₂(i)＝argmax_1≤j≤N[δ₁(j)a_ji] (10)

求得观测o_T对应的状态：

最后，采用最优路径回溯法，最终校正后的文本序列为I^*：

结果表明，使用隐马尔可夫模型大大提升了文本匹配的效果，继而提升了初始定位的准确度。

本实施例使用常见的字符串匹配，如字符串A是B的子字符串等方法，对提取所述的图像中的文本信息与第三方平台的室内平面图信息进行匹配。

S3：服务端使用训练好的神经网络对用户拍摄图像提取轮廓信息，其结果为四条线段组成的多边形框。

本实施例使用U-Net网络对图像提取轮廓信息，然后将原图像划分为边长为W_b个像素的正方形块；

采用训练集对U-Net网络进行训练，对于训练集中的每张图，标注轮廓两条线段的交点位置坐标，作为结构特征点，以及其连接关系，作为线段；故对于每张图，有交点：

V＝{p₁,p₂,…,p_n} (14)

使用两个卷积层分别生成两张图J和H，对于图像中的每个像素块b，其中J表示像素块b中是否含有交点，H表示像素点在像素块b中的偏移位置：

其中，b表示像素块b的中心像素坐标，通过归一化将H的结果约束在(-1/2,1/2)之间；

输出J中值最大的K个块，并在块中挑选一个点，最终采集出U-Net特征图中的K个点

并将其作为结构特征点；

将J的损失记为

采用二元交叉熵作为损失函数，其中，

表示由卷积层生成的预测图，J表示ground truth；

偏移量H的损失记为

采用欧氏距离作为损失函数，其中，

生成的偏移图，H表示ground truth中的偏移图。

对于每条线段，其损失函数记为L_ver：首先将两个点作为首尾，然后在线段中采样N个点，然后查看这N个点在U-Net生成的特征图中的值，将其返回。然后对这个N维向量输入三个全连接层最终得到一个一维数值，然后将该值与线段的标注(即1或0)做二元交叉熵，得到的结果为最终损失L_ver。

由此，可以所述的损失函数由三部分组成，其定义如下：

Loss＝L_ver+L_junc+L_off (17)

在一个具体的实施例中，为了训练出能够提取出轮廓的U-Net网络，则在训练中使用正负样本的线段，线段的表示如下：

L＝(p_i,p_j)。 (18)

在一个具体的实施例中，训练集中的训练样本的采集策略分两种：

第一种是直接从ground truth中采集，将有连接关系的点对标记为正样本，将没有连接关系的点对记为负样本；

第二种是计算与交点距离最近的真实点下标：

若

则说明

可与真实点p_mi匹配；则采样策略如下：

若点

与

都与真实点匹配，且

与

相连，则

标记为正样本；若点

与

都与真实点匹配，且

与

不相连，则

标记为负样本。

本步骤使用通过搭建神经网络来完成，由于轮廓图特征较少，使用传统的衡量指标如输出结果的欧氏距离来作为损失，容易产生过拟合的现象，泛化性较差。且图像之间形状相差越小的，则在实际场景内的距离越近，故本实施例使用了感知损失，用来模拟人的判断过程，以此来衡量两张图像的相似性。具体步骤如下

步骤S4，利用VGG神经网络完成渲染图像与步骤S3提取的轮廓信息的匹配；所述的VGG神经网络构建如下：

对于每张图像，采用不同的措施如加噪声或降低分辨率等，使其失真，生成两张失真图像，然后请实验人员判断哪张图像接近原图，并进行标注：

image＝(x,x₀,x₁,label) (20)

其中，x表示原图，x₀和x₁分别表示两张失真图像，label表示标注较为相似的图像；

使用经过预训练的VGG神经网络作为特征提取网络，将每张图像以及对应的两张失真图像输入VGG神经网络；由于VGG神经网络开始的几层提取的特征较浅，后续深层网络能提取出一些结构性信息，较为接近人类感知，故将每层网络输出的特征图之间的欧式距离求平均，作为损失函数；如对于失真图像x₀，则损失函数为：

其中，y^l表示x在VGG神经网络l层的输出结果，H_l与W_l分别表示该特征图的长宽；

得到两张失真图的损失后，使用三层全连接网络和一个激活层来衡量这两个损失之间的距离，最后计算其与label的交叉熵：

L＝-label*log(F(d(x,x₀),d(x,x₁)))-(1-label)*log(F(d(x,x₀),d(x,x₁)))

其中，F为三层全连接和激活层组成的网络。

将渲染图与步骤S3中提取的轮廓图输入VGG神经网络进行匹配，选择与轮廓图最为相似的一张渲染图像，渲染图像的渲染位置作为用户相对地标的拍摄位置。由于室内场景中地标之间的大小较为相似，所以用于比较轮廓图与渲染图的VGG神经网络可在多个地标上使用。

假设GPS可精确定位到某一具体场景，如商场等，故以下定位结果皆为该场景内的二维坐标，不涉及世界坐标。如需转换，与该场景的世界坐标相加即可。

本实施例根据步骤S2中得到的用户在室内的初步定位结果，获取到该地标的位置信息：

Location_landmark＝(u,v) (22)

此处的位置信息仅表示该地标在场景中的位置信息，如以平面图的左上角为原点等，根据平面图比例尺以及方向进行计算。

再结合步骤S4中，用户所在位置与地标之间的相对位置信息：

Location_relative＝(u_rel,w_rel) (23)

其中，u_rel，v_rel表示用户相对于地标中心的位置，以地标中心为原点；

即可获得用户的绝对位置信息：

Location_final＝Location_landmark+Location_relative (24)

将得到的绝对位置信息返回客户端，作为室内定位的最终结果。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于室内地标文本与轮廓的室内定位方法，其特征在于：所述的方法包括步骤如下：

S3：使用训练好的神经网络提取所述的图像的轮廓信息；

2.根据权利要求1所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：步骤S2，在提取所述的图像中的文本信息之后，在与第三方平台的室内平面图信息进行对比之前，采用隐马尔可夫模型对提取的文本信息进行校正处理。

3.根据权利要求2所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：所述的校正处理具体如下：设光学字符识别算法提取得到的文本序列为O，图像中真实的文本序列为I：

O＝{o₁,o₂,…,o_n} (1)

I＝{i₁,i₂,…,i_n} (2)

其中，o_n、i_n表示第n个字符；

使用文本序列I对提取得到的文本序列O加以校正。

4.根据权利要求3所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：所述的隐马尔可夫模型包括初始概率分布、观测矩阵、状态转移矩阵；根据文本数据库中每个文本序列的起始字符，得到初始概率分布：

π＝[p₁,p₂,…,p_t]^T (3)

其中，p_t表示第t个字符作为文本序列的初始字符的概率，向量π中所有字符相加之和为1；

所述的观测矩阵的定义如下：

b_i(j)＝P(o_t＝v_j|i_t＝q_i) (4)

其中，v_j表示第j个观测结果；q_i表示状态结果；式(4)表示在i状态下，生成j观测的概率；

其中，p为光学字符识别算法中识别正确时的置信度，i表示状态下标，j表示观测下标；当i与j相等时，则为观测正确时的概率，不同则为观测错误的概率；

a_i,j＝P(i_t+1＝q_j|i_t＝q_i) (6)

5.根据权利要求4所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：所述的解码具体如下：

给定观测序列O＝(o₁,o₂,…,o_T)，隐马尔可夫模型λ＝[A,B，π]；首先，计算各个状态观测到o₁的概率：

δ₁(i)＝π_ib_i(o₁) (7)

ψ₁(i)＝0 (8)

其次，计算文本序列O中下一个观测结果出现的概率：

δ₂(i)＝max_1≤j≤N[δ₁(j)a_ji]b_i(o₂) (9)

ψ₂(i)＝argmax_1≤j≤N[δ₁(j)a_ji] (10)

求得观测o_T对应的状态：

最后，对于前面的观测，采用最优路径回溯法，最终校正后的文本序列为I^*：

6.根据权利要求5所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：步骤S3，使用U-Net网络对图像提取轮廓信息，然后将原图像划分为边长为W_b个像素的正方形块；

V＝{p₁，p₂，…，p_n} (14)

并将其作为结构特征点；

将J的损失记为

采用二元交叉熵作为损失函数，其中，

表示由卷积层生成的预测图，J表示ground truth；

偏移量H的损失记为

采用欧氏距离作为损失函数，其中，

生成的偏移图，H表示ground truth中的偏移图；

对于每条线段，其损失函数记为L_ver：首先将两个点作为首尾，然后在线段中采样N个点，查看这N个点在U-Net生成的特征图中的值，将其返回；然后对这个N维向量输入三个全连接层最终得到一个一维数值，将该一维数值与线段的标注做二元交叉熵，得到的结果为最终损失L_ver；

所述的U-Net网络的损失函数定义如下：

Loss＝L_ver+L_junc+L_off。 (17)

7.根据权利要求6所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：为了训练出能够提取出轮廓的U-Net网络，则在训练中使用正负样本的线段，线段的表示如下：

L＝(p_i，p_j)。 (18)

8.根据权利要求7所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：训练集中的训练样本的采集策略分两种：

第二种是计算与交点距离最近的真实点下标：

若

则说明

可与真实点

匹配；则采样策略如下：

若点

与

都与真实点匹配，且

与

相连，则

标记为正样本；若点

与

都与真实点匹配，且

与

不相连，则

标记为负样本。

9.根据权利要求8所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：步骤S4，利用VGG神经网络完成渲染图像与步骤S3提取的轮廓信息的匹配；所述的VGG神经网络构建如下：

对于每张图像，使其失真，生成两张失真图像，然后进行标注：

image＝(x,x₀,x₁,label) (20)

使用经过预训练的VGG神经网络作为特征提取网络，将每张图像以及对应的两张失真图像输入VGG神经网络；将每层网络输出的特征图之间的欧式距离求平均，作为损失函数；对于失真图像x₀，则损失函数为：

L＝-label*log(F(d(x,x₀),d(x,x₁)))-(1-label)*log(F(d(x，x₀)，d(x，x₁)))

其中，F为三层全连接和激活层组成的网络。

10.根据权利要求9所述的基于室内地标文本与轮廓的室内定位方法，其特征在于：步骤S5，根据步骤S2中得到的用户在室内的初步定位结果，获取到该地标的位置信息：

Location_landmark＝(u，v) (22)

Location_relative＝(u_rel，v_rel) (23)

即可获得用户的绝对位置信息：

Location_final＝Location_landmark+Location_relative。 (24)。