CN112905798A

CN112905798A - 一种基于文字标识的室内视觉定位方法

Info

Publication number: CN112905798A
Application number: CN202110328170.2A
Authority: CN
Inventors: 倪子豪; 何照丹; 耿杨; 宿世利; 陈明涛
Original assignee: Shenzhen Adan Energy Information Technology Co ltd
Current assignee: Shenzhen Adan Energy Information Technology Co ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-04
Anticipated expiration: 2041-03-26
Also published as: CN112905798B

Abstract

本发明涉及一种基于文字标识的室内视觉定位方法，包括以下步骤：获取待定位环境的文字标识图像和该文字标识图像的位置坐标，建立位置指纹图像数据库，对位置指纹图像进行特征向量提取，建立特征向量数据库。通过聚类方法对特征向量数据库进行聚类得到视觉字典；将特征向量数据库量化为视觉词袋向量数据库。用户上传查询图像，对用户上传的查询图像进行文字标识的定位和分割，得到标准查询图像；标准查询图像在视觉词袋向量数据库中进行二次检索，辅助用户定位。本发明通过离线方式建立视觉词袋向量数据库，构建高质量的图像检索系统，通过在线定位对图像的文字标识进行针对性的检索，有效提高定位成功率，缩短整个定位过程的用时。

Description

一种基于文字标识的室内视觉定位方法

技术领域

本发明涉及视觉定位技术领域，具体涉及一种基于文字标识的室内视觉定位方法。

背景技术

基于图像的室内视觉定位是指通过图像信息为用户提供室内环境下的位置估计。该方法具有成本低、速度快、稳定性强等特点，广泛应用于许多现实场景中，比如大型商场、超市的行人位置估计、大型地下停车场中的位置估计等。当前的室内视觉定位方法主要为图像位置指纹法和精细定位法。

图像位置指纹法，先对查询图像进行特征提取，然后与数据库中的图像进行特征匹配，根据一定的相似性判定规则得到最相近的一张或多张数据库图像，进而获取图像相应的位置，以直接给定或组合估计的方式完成最终的位置估计。一般来说，这种定位方式简单快捷，对室内、室外环境都适用，但是图像特征匹配精确度低，错误的匹配导致定位精度低。

精细定位法具有定位精度高、可估计相机位置和朝向的特点。首先，同样利用一定的相似性判定规则得到最相近的一张或多张数据库图像，然后使用对极几何约束，根据查询图像与匹配图像之间相互匹配的特征点估算两张图像之间的本质矩阵；再通过对本质矩阵的分解，得到两张图像间的旋转矩阵与平移向量；最后，结合数据库图像已知的位姿，估算出查询图像的位姿。这种定位方式能够减少对位置指纹的依赖，提高定位精度，还可以增强与现实技术的相互结合，提供更高级的视觉服务；但这种定位方式对数据库有着很高的要求，

需要大量的存储和维护工作，因此一般只适用于环境简单的室内定位。

同时，当前的两种方法都以直接估计用户位置为目标，对图像数据库都有很高的依赖性，高准确率的图像检索系统是必不可缺的。为了保证有足够的位置信息来提供用户的位置估计，需要先收集大量的场景图像保存在图像数据库中，这就不可避免的带来检索准确率低和检索速度慢的问题。尽管精细化定位方法通过大量的数据信息、计算和优化工作，可以测算位置，在一定程度上减少了对图像数据的依赖，但并不能从根本上解决问题。基于上述原因，当前室内视觉定位系统的应用环境基本上都是没有变动的简单场景，一旦应用环境为复杂的场景，检索准确率会显著下降，定位精度下降，远不能满足实际复杂环境下的定位需求。

发明内容

本发明要解决的技术问题是提供一种基于文字标识的室内视觉定位方法，解决现有视觉定位方法对图像数据库具有高度的依赖性，需要先收集大量的场景图像保存在图像数据库中，定位过程中图像检索准确率低、速度慢，用时久的问题。

一种基于文字标识的室内视觉定位方法，包括以下步骤：

A1：获取待定位环境中的文字标识图像和文字标识图像的位置坐标，将文字标识图像的位置坐标添加到文字标识图像中，形成位置指纹图像数据库；

A2：通过特征向量提取方法对位置指纹图像数据库中所有位置指纹图像进行特征向量提取，获得特征向量数据库；

A3：通过聚类方法对特征向量数据库进行聚类，得到视觉字典；

A4：结合视觉字典，将特征向量数据库量化为视觉词袋向量数据库；

A5：用户上传查询图像，对用户上传的查询图像进行文字标识的定位和分割，得到标准查询图像；

A6：标准查询图像在视觉词袋向量数据库中进行二次检索；若检索成功，得到标准查询图像的位置坐标，辅助用户定位；若检索失败，要求用户再次上传查询图像。

进一步的，所述步骤A3中的聚类方法为k-means算法，所述K为视觉字典中单词的个数。

进一步的，所述步骤A5具体为：用户上传查询图像，通过图像形态学操作对用户上传的查询图像进行文字标识的定位和分割，得到标准查询图像。

进一步的，所述步骤A6具体为：

A601：通过特征向量提取方法对标准查询图像进行特征向量提取，得到标准查询图像的特征向量；标准查询图像的特征向量结合视觉字典得到标准查询图像的视觉词袋向量；

A602：根据相似性计算公式，计算标准查询图像的视觉词袋向量与视觉词袋向量数据库中所有向量的余弦距离和余弦相似度；根据所述余弦距离，以由小到大的方式对文字标识图像进行排序，取前M个文字标识图像作为初次检索结果；

A603：将标准查询图像分别与前M个文字标识图像进行图像匹配和单应矩阵空间验证，将匹配特征点的个数作为文字标识图像的相似度得分，取相似度得分最高的文字标识图像作为二次检索结果，其他M-1个文字标识图像的相似度得分作为错误的检索结果，对错误的检索结果进行统计，得到阈值；

A604：对相似度得分最高的文字标识图像进行判定，若相似度得分最高的文字标识图像的相似度得分大于阈值，则在地图上显示标准查询图像的位置坐标，辅助用户定位；否则，报告检索失败，要求用户再次上传查询图像。

进一步的，所述步骤A602中，相似性计算公式为：

所述D_C为余弦距离，S_C为余弦相似度，A为标准查询图像的视觉词袋向量，B为视觉词袋向量数据库中的向量。

进一步的，所述特征向量提取方法为SIFT或SURF特征向量提取方法。

本发明的有益效果是：本发明以一种简单、低成本的方式有效的满足了室内视觉定位的需求。通过离线方式，获取待定位环境中的文字标识图像和位置坐标，形成位置指纹图像数据库；对位置指纹图像数据库中所有位置指纹图像进行特征向量提取，建立特征向量数据库；通过聚类方法对特征向量数据库进行聚类，得到视觉字典；结合视觉字典，将特征向量数据库量化为视觉词袋向量数据库。通过离线方式，建立视觉词袋向量数据库，构建高质量的图像检索系统，减少视觉定位过程中对图像数据库的高度依赖性，无需要先收集大量的场景图像保存在图像数据库中，提高定位过程中图像检索的准确率、加快定位过程中图像检索的速度，减少视觉定位过程的用时。通过提供文字标识图像所在位置为参考的方式，可以利用人类本身的位置推断能力实现定位。

附图说明

图1为本发明一种基于文字标识的室内视觉定位方法的系统框架图。

具体实施方式

通过参考详细的附图和在此阐述的描述，可以最好地理解本发明。为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明提供一种基于文字标识的室内视觉定位方法，该方法的系统框架如图1所示，包括离线阶段和在线阶段。具体步骤为：

A1：获取待定位环境中的文字标识图像和文字标识图像的位置坐标，将文字标识图像的位置坐标添加到文字标识图像中，形成位置指纹图像数据库I＝{i₁，i₂，…，i_N}，N为文字标识图像的数量。

A2：通过特征向量提取方法对位置指纹图像数据库I中所有位置指纹图像进行特征向量提取，获得特征向量数据库V＝{v₁，v₂，…，v_T}，T为特征向量数据库中特征向量的数量；本发明可以采用SIFT或SURF特征向量提取方法对特征向量进行提取。

A3：通过聚类方法对特征向量数据库V进行聚类，得到视觉字典D＝{d₁，d₂，…，d_K}，K为视觉字典中单词的个数，一般为1500个。本发明的聚类方法优选k-means算法。

A4：结合视觉字典D，将特征向量数据库V量化为视觉词袋向量数据库Q＝{q₁，q₂，…，q_N}；

通过离线方式建立视觉词袋向量数据库，构建高质量的图像检索系统，通过对图像文字标识进行针对性的检索，有效地减少了视觉定位过程中对图像数据库的高度依赖性，提高定位过程中图像检索的准确率、加快定位过程中图像检索的速度，减少视觉定位过程的用时，使整个视觉定位过程的用时在1秒左右。

A5：用户上传查询图像i_q，对用户上传的查询图像i_q进行文字标识的定位和分割，得到标准查询图像i_s。本发明的一个实施例中，通过图像形态学操作对用户上传的查询图像i_q进行文字标识的定位和分割。

A6：标准查询图像i_s在视觉词袋向量数据库中进行二次检索；若检索成功，得到标准查询图像i_s的位置坐标，辅助用户定位；若检索失败，要求用户再次上传查询图像i_q。

步骤A6具体为：

A601：通过特征向量提取方法对标准查询图像i_s进行特征向量提取，得到标准查询图像i_s的特征向量；标准查询图像i_s的特征向量结合视觉字典D得到标准查询图像i_s的视觉词袋向量q_s。

A602：将标准查询图像i_s的视觉词袋向量q_s与视觉词袋向量数据库中的所有向量q_i(i＝1，2，...，N)进行相似性比较。根据相似性计算公式，计算标准查询图像i_s的视觉词袋向量q_s与视觉词袋向量数据库中所有向量q_i(i＝1，2，...，N)的余弦距离和余弦相似度；根据余弦距离，以由小到大的方式对文字标识图像进行排序，取前M个文字标识图像C＝{i_c1，i_c2，…，i_cM}作为初次检索结果。

在本发明的一个实施例中，相似性计算公式为：

其中，D_C为余弦距离，S_C为余弦相似度，A为标准查询图像i_s的视觉词袋向量q_s，B为视觉词袋向量数据库中的向量q_i(i＝1，2，...，N)。

A603：将标准查询图像i_s分别与前M个文字标识图像i_cj(j＝1，2，...，M)进行图像匹配和单应矩阵空间验证，将匹配特征点的个数作为前M个文字标识图像的相似度得分，取相似度得分最高的文字标识图像i_result作为二次检索结果，其他M-1个文字标识图像的相似度得分作为错误的检索结果，对错误的检索结果进行统计得到阈值T；

A604：对相似度得分最高的文字标识图像i_result进行判定，若相似度得分最高的文字标识图像i_result的相似度得分s大于阈值T，则在地图上显示标准查询图像i_s的位置坐标，辅助用户定位；否则，报告检索失败，要求用户再次上传查询图像。

通过在线方式对图像进行定位，整个定位过程的用时约为1.1s，图像检索的准确率为92％，即用户发起一次定位请求后，有92％的可能在地图上得到正确的参考位置，有8％的可能需要重新发起定位请求(即对场景进行拍摄并上传)。之后，通过感知拍摄物体与自身之间的相对位置，用户能够根据本发明返回的参考位置，轻松推断出自身的确切位置。

本发明的具体实施过程如下：

对于图像数据库，在本实施例中优选63个场景的带有GPS标签的文字标识图像，共252张。实例分析基于虚拟机，内存为10GB，处理器个数为2，操作系统为Ubuntu 14.04(64位)。主机为Intel(R)Core(TM)i7-5500U CPU@2.40GHz(2)16GB内存，64位Windows 7操作系统。程序以Python语言编写。若图像数据库规模较大，则需要在大型服务器上运行。

63个场景共252张文字标识图像，获取待定位环境中的文字标识图像和文字标识图像的位置坐标，将文字标识图像的位置坐标添加到文字标识图像中，形成位置指纹图像数据库I＝{i₁，i₂，…，i₂₅₂}。

通过DoG检测子和SIFT描述子对位置指纹图像数据库I中所有位置指纹图像进行特征向量提取，每个特征点的特征向量为128维，获得约126000个特征向量，获得特征向量数据库V；本实施例还可以通过SURF特征向量提取方法对位置指纹图像数据库I中所有位置指纹图像进行特征向量提取。

通过k-means聚类方法对特征向量数据库V进行聚类，取k值为1500，得到视觉字典D＝{d₁，d₂，…，d，₁₅₀₀}。结合视觉字典D，将特征向量数据库V量化为视觉词袋向量数据库Q＝{q₁，q₂，…，q₂₅₂}。

用户上传查询图像i_q，使用一系列的图像形态学操作对用户上传的查询图像i_q进行文字标识的定位和分割，得到标准查询图像i_s，该步骤平均用时约为110ms。

通过特征向量提取方法对标准查询图像i_s进行特征向量提取，得到标准查询图像i_s的特征向量；标准查询图像i_s的特征向量结合视觉字典D得到标准查询图像i_s的视觉词袋向量q_s。将标准查询图像i_s的视觉词袋向量q_s与视觉词袋向量数据库中的所有向量q_i(i＝1，2，...，252)进行相似性比较。根据相似性计算公式

计算标准查询图像i_s的视觉词袋向量q_s与视觉词袋向量数据库中所有向量q_i(i＝1，2，...，252)的余弦距离和余弦相似度；根据余弦距离，以由小到大的方式对文字标识图像进行排序，取前20个文字标识图像C＝{i_c1，i_c2，…，i_c20}作为初次检索结果。

将标准查询图像is分别与前20个文字标识图像i_cj(j＝1，2，...，20)进行图像匹配和单应矩阵空间验证，将匹配特征点的个数作为文字标识图像的相似度得分，取相似度得分最高的文字标识图像i_result作为二次检索结果，其他19个文字标识图像的相似度得分作为错误的检索结果，对错误的检索结果进行统计得到阈值19；

对相似度得分最高的文字标识图像i_result进行判定，若相似度得分最高的文字标识图像i_result的相似度得分s大于阈值19，则在地图上显示标准查询图像i_s的位置坐标，辅助用户定位；否则，报告检索失败，要求用户再次上传查询图像。

需要声明的是，上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理，在本发明所公开的技术范围内，任何熟悉本技术领域的技术人员在未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都应涵盖在本发明的保护范围内。

Claims

1.一种基于文字标识的室内视觉定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于文字标识的室内视觉定位方法，其特征在于：所述步骤A3中的聚类方法为k-means算法，所述K为视觉字典中单词的个数。

3.根据权利要求1所述的一种基于文字标识的室内视觉定位方法，其特征在于：所述步骤A5具体为：用户上传查询图像，通过图像形态学操作对用户上传的查询图像进行文字标识的定位和分割，得到标准查询图像。

4.根据权利要求1所述的一种基于文字标识的室内视觉定位方法，其特征在于：所述步骤A6具体为：

5.根据权利要求4所述的一种基于文字标识的室内视觉定位方法，其特征在于：所述步骤A602中，相似性计算公式为：

6.根据权利要求1或4所述的一种基于文字标识的室内视觉定位方法，其特征在于：所述特征向量提取方法为SIFT或SURF特征向量提取方法。