CN112667832B

CN112667832B - 一种未知室内环境下基于视觉的互定位方法

Info

Publication number: CN112667832B
Application number: CN202011638949.6A
Authority: CN
Inventors: 马琳; 董赫; 王彬; 叶亮; 何晨光; 韩帅; 孟维晓
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-05-13
Anticipated expiration: 2040-12-31
Also published as: CN112667832A

Abstract

本发明公开了一种未知室内环境下基于视觉的互定位方法。用户1与用户2分别对面前的室内环境进行拍摄；用户1将图像构成自己的数据库，用户2将图像共享给用户1；数据库利用R‑FCN识别出用户1图像数据库中每幅图像含有的语义信息，并将语义信息转换为对应的语义序列，构成语义数据库；用户1接收用户2的图像中将该图片通过R‑FCN转换为语义序列，将该语义序列与语义数据库进行匹配，若未检索到相同则继续沿着当前的方向行走，若检索到相同的语义序列则选取最具代表性的语义目标建立位置联系；此时以该目标为中心建立坐标系，实现了在未知环境下用户间的交互式定位。本发明解决如何在未知环境中快速、准确地完成用户间的相互定位的问题。

Description

一种未知室内环境下基于视觉的互定位方法

技术领域

本发明属于图像处理领域，具体涉及一种未知室内环境下基于视觉的互定位方法。

背景技术

在人们的日常生活中，经常会进入到一些例如商场、博物馆等完全陌生的室内场所中，而对于这些场所是没有办法获取到室内环境布局的先验知识的，因此在这种场所下进行定位显得尤为困难。当两用户身处于同一陌生室内场所下的不同位置时，彼此间的位置信息是迫切需要知道的，因此对于陌生环境下用户间的互定位具有重要的现实意义，并且有很广阔的发展前景。

由于无法提前在陌生的室内环境中进行无线基站的部署，因此传统的无线定位方法在陌生环境下并不适用。用户在陌生的室内环境下只能依靠现有的一些场景目标来对自身的位置进行确认，那么无疑利用图像进行室内信息的获取是一种方便快捷的方法。图像是一种比较可靠的在未知环境中获取内部信息的一种手段，当室内的光线亮度充足时，通过图像可以很清晰地获取到场景中含有的一些语义目标以及它们的分布情况。随着当今智能手机的快速发展，目前智能手机普遍都配有高像素的图像获取传感器，利用它能够更为方便快捷地对用户所在室内场景中进行图像的采集，而无需携带专业的离线数据采集设备，这也为基于视觉的室内定位技术提供了设备基础。由于当前智能手机具有的高普及性和高扩展性，以及计算机存储和处理技术的大大增强，使得基于视觉的室内定位技术拥有广阔的应用前景，基于视觉的室内定位技术正逐渐成为一种新的热门技术。此外，人类感知到的外界信息有80％是来源于视觉，因此采用视觉信息为用户提供定位服务符合人类感知事物的特点，具有很好的应用潜力。

传统视觉定位技术分为离线数据库建立和在线定位两个阶段，定位前需要通过手机按照一定的距离间隔对所在的室内场景进行图像的拍摄，从而建立Visual Map数据库。该数据库由图像空间和物理空间所构成，图像空间指的是室内环境下的图像信息，物理空间指的是地理位置的坐标信息。当在线阶段用户对当前看到的场景进行拍摄后，需要与Visual Map中所存储的图像进行检索匹配，找到相似度最高的图片，并根据两张图片的投影关系建立几何模型，从而估算出当前用户所处的具体位置，从而完成定位服务。传统视觉定位方法的问题在于建立的离线数据库存储容量过大，并且将室内场景的分布情况作为了先验信息，定位前提前将室内场景图像存储到了Visual Map数据库中。而当人们在一个未知的室内环境时，无法事先得知室内场景中的具体分布，那么就没有办法利用传统的视觉定位技术完成定位服务，因此该方法存在很大的局限性。

发明内容

本发明提供一种未知室内环境下基于视觉的互定位方法，用以解决如何在未知环境中快速、准确地找到一个公共坐标系，并实现在该坐标系下完成用户间的相互定位的问题。

本发明通过以下技术方案实现：

一种未知室内环境下基于视觉的互定位方法，所述互定位方法包括以下步骤：

步骤1：用户1与用户2分别对面前的室内环境进行拍摄；

步骤2：根据步骤1用户1将拍摄的图像进行存储构成自己的数据库，用户2拍摄完图像后将其共享给用户1；

步骤3：基于用户1的数据库在图像搜索与匹配模块，利用R-FCN语义分割网络识别出用户1图像数据库中每幅图像含有的语义信息，并将这些语义信息转换为对应的语义序列，从而构成用户1的语义数据库；

步骤4：当用户1接收到用户2的图像中将该图片放入到R-FCN中转换为其对应的语义序列，并将该语义序列与用户1中语义数据库中的每幅图像对应的语义序列进行匹配检索，若未检索到相同或相似的则进行步骤5，若检索到相同或相似的语义序列则进行步骤6；

步骤5：说明二者没有看到同一场景，则继续沿着当前的方向行走；

步骤6：选取这两幅图像中最具代表性的语义目标建立两用户之间的位置联系；

步骤7：此时以该目标为中心进行坐标系的建立，则两个用户在该坐标系下都有自己对应的位置坐标；

步骤8：最终通过用户间位置信息的共享实现了在未知环境下用户间的交互式定位。

进一步的，所述步骤3具体包括以下步骤：

步骤3.1：根据R-FCN语义分割网络分别提取出两用户图像中该语义目标对应的像素区域；

步骤3.2：基于该区域下进行SURF特征点的提取；

步骤3.3：当两用户图像都提取出特征点后，将这两个区域下的特征点进行匹配。

进一步的，所述R-FCN语义分割网络的工作流程具体为，假定当前语义分割网络可以识别c类语义目标，对于一张用户图像I，则该图像的对应的语义判别向量可表示为Ω＝[ω₁,ω₂,...,ω_k]，其中1≤k≤c；定义该图像对应的语义序列Sem＝[s₁,s₂,...,s_c]^T，其中：

则每一张用户图像根据R-FCN的输出结果都可以生成一个对应的语义序列；设定用户1的图像数据库I₁中含有n张用户图片，则

将用户1的图像数据库中的每张图片经过R-FCN后可以生成一个对应的语义数据库S₁，该语义数据库可表示为

用户2当前拍摄的图片Img₂经过R-FCN得到对应的语义序列为Sem₂。

进一步的，所述步骤3.3具体为，采用RANSAC算法对图像中的SURF误匹配点对进行剔除，并计算图像之间的单应矩阵H

步骤3.3.1：输入2幅图像的原始SURF匹配特征点；

步骤3.3.2：随机选取4对原始SURF匹配特征点；

步骤3.3.3：初步计算单应矩阵H；

步骤3.3.4：根据单应矩阵H计算剩余SURF特征点在对应图像中的像素坐标；

步骤3.3.5：计算匹配点理论坐标与实际坐标之间的欧氏距离d是否满足设定的阈值d₀；

步骤3.3.6：统计符合单应矩阵H的SURF匹配特征点的数目是否满足设定的阈值t₀；

步骤3.3.7：若满足以上条件，则输出2幅图像的匹配SURF特征点对和单应矩阵H；若不满足步骤3.3.5，则返回步骤3.3.1，重复执行该过程；

步骤3.3.8：输出2幅图像的匹配SURF特征点对及单应矩阵H。

进一步的，所述步骤4利用图像间基于语义区域的特征点匹配能求解出两图像之间的单应矩阵H，该矩阵代表了两幅图像的投影映射关系；在用户1图像中，当利用R-FCN识别出选取的语义目标的轮廓边缘时，可根据该边缘进行纠正线的建立；纠正线在建立时要保证尽可能地与现实的地面平行或垂直，这样可以方便对用户位置的解算；此时设定用户1的图像采集设备为类似于深度相机这种具有测距功能的高功能相机，因此其在识别出语义目标的同时可以获取到此时与该目标的距离；而用户2采用的类似于手机的这种普通的图像采集设备，无法获取到自身距离语义目标的距离；因此需要用户1建立好的纠正线对用户2的位置进行辅助求解，将用户1图像上的纠正线映射到用户2图像上，从而用户2也可以根据自身的纠正线解算出自身的位置坐标；由于此时用户1和用户2都处于以同一语义目标为中心的三维坐标系下，因此当两用户确定好自身的位置坐标并将其进行用户间的共享时，此时两用户就可以得知对方相对于自身的位置，从而实现在未知环境下用户间的交互式定位。

进一步的，所述步骤4当用户1接收到用户2的图像中将该图片放入到R-FCN中转换为其对应的语义序列，并将该语义序列与用户1中语义数据库中的每幅图像对应的语义序列进行匹配检索具体为，

设定一个距离阈值D，当前比较的两用户图像Img₁和Img₂分别对应的语义序列为

和

当两用户图像对应的语义序列满足式(6)的要求时：

则说明当前两幅用户图像含有同一语义场景，接下来将使用这两幅图像进行用户间相互位置的确定。

进一步的，求解图像2中纠正线在像素坐标系下的参数方程：

步骤S1：采样点由图像1至图像2的映射；

步骤S2：求解图像2中纠正线的参数方程；

根据步骤S1和步骤S2，最终得出了在线阶段用户输入图像中的纠正线参数W；通过该参数，在图像2中做出该纠正线，通过单应矩阵映射的方式得出的纠正线与实际的纠正线吻合，可利用该纠正线进行下一步的定位。

进一步的，所述步骤S1具体为，由于图像1和图像2中包含同一语义区域，因此两幅图像之间存在单应性关系，又已知图像1映射到图像2的单应矩阵为H₁₂，图像1中纠正线上的采样点P_i(i＝1,2,...,n)映射到图像2中像素坐标系的坐标Q_i＝(x_i,y_i,1)^T，其中i＝1,2,...,n，表示为：

[Q₁ Q₂ … Q_n]＝H₁₂·[P₁ P₂ … P_n] (16)。

进一步的，所述步骤S2具体为，对单应关系得出的图像2中纠正线的坐标矩阵Q＝[Q₁ Q₂ … Q_n]进行分离，将矩阵Q的第1行和第3行分离组成新的矩阵X，将矩阵Q剩下的部分作为向量Y；图像2中纠正线的直线方程表示为Y＝WX，其中Y和X已知，参数W＝[k,b]通过最小二乘法求得：

W＝YX^T(XX^T)^-1 (17)。

本发明的有益效果是：

1、本发明实现了在未知室内场所下的互定位，人们经常会出入例如商场展馆等位置场所，传统的定位方法由于没有室内环境的先验信息而无法进行定位，本专利提出的方法可以实现未知室内环境下的定位。

2、本发明利用基于视觉的定位方法，符合人类利用眼睛进行位置感知的特点，根据图像信息可以了解当前室内环境的分布情况。

3、本发明提出了基于图像语义序列的数据库构建方法，在进行图像检索时只需要比较图像对应的语义序列，可以大大提高检索速度。

4、本发明提出的互定位方法在室内环境下有较高的定位精度，具有广阔的发展前景。

附图说明

图1本发明的示意图。

图2本发明的方法流程框图。

图3本发明的R-FCN模型结构图。

图4本发明的R-FCN工作流程图。

图5本发明的两幅图像单应关系示意图。

图6本发明的室内实验场景平面示意图。

图7本发明的用户图像中的语义目标检测结果图。

图8本发明的两用户图像间的基于语义目标的特征匹配示意图。

图9本发明的存储SURF特征点数对比图。

图10本发明的用户间夹角示意图。

图11本发明的互定位方法定位误差曲线示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

用户间的互定位是一个彼此确定对方位置的一个过程，所以需要两用户间进行信息的共享，根据对方提供的信息来确定出对方相对于自己的位置。由于图像中含有丰富的视觉信息，因此用户间的图像共享相比于语言或文字的共享可以获取到更多的内容。用户通过对方传来的图片来判断其是否与自己可以看到相同的语义场景，如果未能找到同一目标则说明二者相距较远需要继续向前行走以找寻其他具有代表性的标识；而当用户找到了与对方可以观察到的相同目标时，说明两用户都是与该目标有一个相对位置关系，因此能以该目标为中心建立坐标系。当坐标系建立完成后，两用户可以各自求得自己在该坐标系的位置坐标，通过坐标的共享可以得知对方相对于自身的位置，从而完成未知环境下用户间的交互式定位。

由于两用户对当前的室内环境都是未知的，因此在进行互定位时两用户需要将当前自己所能看到的场景目标分享给对方，以确定双方是否可以看到同一个目标。如果双方可以看到同一目标，说明此时双方以该目标建立了位置联系，接下来两用户以该目标建立坐标系进行互定位；如果双方没有看到同一个目标，则说明双方此时相距较远，需进行沿着当前的路线行走，并实时分享看到的场景，直到双方看到同一目标时开始进行互定位。

步骤1：用户1与用户2分别对面前的室内环境进行拍摄；

进一步的，所述步骤3具体包括以下步骤：

步骤3.2：基于该区域下进行SURF特征点的提取；

进一步的，本发明使用的语义分割网络为R-FCN，它是一个两阶段的目标检测模型，从Faster R-CNN发展而来，沿用了全卷积网络FCN的思想，解决了分类网络位置不敏感性和检测网络位置敏感性之间的矛盾；R-FCN是由全卷积网络(Fully ConvolutionalNetwork，FCN)、候选区域生成网络(Region Proposal Network，RPN)和ROI(Region OfInterest)子网络组成；其中FCN用于对输入原图像进行特征提取从而生成特征图，RPN网络根据提取的特征来生成感兴趣区域ROI，ROI子网根据FCN提取的特征与RPN输出的ROI进行目标区域的定位与分类；R-FCN首先利用全卷积网络将原图像转换为对应的特征图，然后利用候选区域生成网络RPN对特征图上的前景信息进行筛选，框选出属于物体的区域；当前只是一个二分类操作，只能确定该区域是属于前景还是背景，而无法得知其具体的分类信息；最后通过位置敏感得分图实现对目标的具体分类以及定位；R-FCN模型结构如图3所示；从图3中可以看到，当一张用户图像输入到R-FCN语义分割网络中，该网络会检测识别出该图像中含有的语义信息，并记录用户图像中含有语义目标的种类，最终生成一个与图像对应的语义序列；

R-FCN的工作流程如图4所示，首先深度残差网络(Deep Residual Network，ResNet)对原用户图像进行全卷积操作，得到了一个对应的W×H×1024维的特征图，其中W和H分别代表特征图的宽和高，并且是现实输入图像按照一定比例缩小的结果；

ROI子网与RPN一样都是对ResNet-50输出的特征图再次进行卷积操作得到的结果，ROI子网利用了k×k×(c+1)个1×1×1024卷积核，其中k表示对候选区域矩形框在长宽方向进行等分的份数，一般取k＝3，即对每一个RoI进行9等分，对应的9个位置分别是：上左(左上角)，上中，上右，中左，中中，中右，下左，下中，下右(右下角)；而c表示最终划分的类别数，由于还有背景信息，因此一共有(c+1)个类别；ROI子网将ResNet-50输出的W×H×1024的特征图卷积生成了新的W×H×9(c+1)的特征图，该特征图称为位置敏感分数图(position-sensitive score map)；位置敏感分数图共有(c+1)层，每一层对应于一个类别，并且对于每一层都将RPN得到的RoI平均分成了9个子区域，划分的意义是为了让此RoI在每一个区域中都应含有类别c_i(i＝1,2,...,c+1)的各个部位，而当所有子区域都与某一目标的相应部位有较高的响应值时，那么分类器才会将该RoI判断为该类别；目标的各个部位和RoI的这些子区域是一一映射的对应关系；

通过RPN提取出来的RoI区域包含横纵坐标、长度、宽度这4个属性，也就是说不同的RoI区域能够对应到得分图的不同位置，而每个RoI都会分成9个子区域，每个子区域包含了多个位置敏感分数值，由于过多数据会对后续分类操作造成干扰，因此需要利用池化操作对数据进行压缩；对于每一个子区域bin(i,j),0≤i,j≤k-1，都要进行如下的池化操作：

其中，r_c(i,j|Θ)是子区域bin(i,j)对c个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表目标候选框左上角的像素坐标，x和y分别是当前像素坐标对于左上角像素坐标的偏移量，Θ代表了网络的所有学习所得到的参数，n是子区域bin(i,j)中的像素数目；

经过池化操作后9个子区域变为了9个位置敏感分数，分别代表了该位置对应该类别9个空间方位的得分，那么将这9个子区域的得分进行求和就可以得到此RoI属于该类别的得分；最终对于(c+1)个类别，将池化层的输出按照维度求和可以得到一个(c+1)维的向量；

再将这个向量代入到多项逻辑斯特回归(Softmax)公式，就可以利用Softmax回归类方法获得该搜索框中的目标属于每个类别的概率；

当将全部的概率计算完毕后按照最大概率原则对每个RoI进行归类，最终可以得知每个RoI所框选目标的类别信息，为了确定网络训练时的准确程度和最佳迭代次数，需要设置相关的损失函数；当损失函数最终的训练输出值小于事前规定的阈值时，表示网络训练结果较好；R-FCN网络的损失函数采用了多目标的损失函数，同时考虑了分类的损失和位置的损失；因此可以得出公式：

L(s,t_x,y,w,h)＝L_cis(S_c*0)+λ[c*＞0]L_reg(t,t*) (4)

其中，c*代表ground truth，L_cis代表了分类交叉熵的损失，L_reg代表了位置的损失，t*代表了ground truth的位置；[c*＞0]表示如果分类正确，其值为1；如果分类错误，其值为0，即对分类错误的不进行位置损失；λ表示超参数，若其为1，则表示分类损失和位置损失同等重要；在训练过程中，如果最终的损失函数小于规定的阈值或者迭代次数达到上限时，即停止训练；此时R-FCN模型中的各个参数都已经被调整到合适数值，可以进行目标检测与分类操作；

所述R-FCN语义分割网络的工作流程具体为，假定当前语义分割网络可以识别c类语义目标，对于一张用户图像I，则该图像的对应的语义判别向量可表示为Ω＝[ω₁,ω₂,...,ω_k]，其中1≤k≤c；定义该图像对应的语义序列Sem＝[s₁,s₂,...,s_c]^T，其中：

步骤3.3.1：输入2幅图像的原始SURF匹配特征点；

步骤3.3.2：随机选取4对原始SURF匹配特征点；

步骤3.3.3：初步计算单应矩阵H；

步骤3.3.8：输出2幅图像的匹配SURF特征点对及单应矩阵H。

因为归一化单应矩阵H的自由度为8，因此随机选取离线数据库图像Img₁和Img₂中标识区域的4对匹配点，通过求解8个方程来初步计算单应矩阵H。然后，利用欧氏距离公式验证该单应矩阵是否满足阈值要求。具体来说，将通过单应矩阵和图像Img₁中的特征点相乘求解出的图像Img₂的对应点坐标，并将其与图像Img₂中的原匹配点的像素坐标进行欧氏距离求解，得出距离d，通过其与给定的距离阈值d₀比较来判定该单应矩阵H能否满足两幅图像之间的单应性映射。重复此操作，若最终符合该单应矩阵H的特征点数目t大于设定的阈值t₀，则保留满足条件的匹配点对和单应矩阵H，将此过程求出的单应矩阵H作为图像Img₁和Img₂中相同语义区域的单应矩阵；反之则表示该单应矩阵H不满足两幅图像之间的单应性映射，需要重新随机选取离线数据库图像中语义区域的4对匹配点并重复整个过程。因此，基于RANSAC算法求解的单应矩阵H能够正确地反映图像间的对应映射关系，因此利用该矩阵可以准确地求解出纠正线的像素方程。

进一步的，所述步骤4当用户1接收到用户2的图像中将该图片放入到R-FCN中转换为其对应的语义序列，并将该语义序列与用户1中语义数据库中的每幅图像对应的语义序列进行匹配检索具体为，采用基于图像对应语义序列的检索算法；若两幅图像拍摄的是同一场景，则图像对应的语义序列也应该是相同的；但是由于两用户观察的视角是不同的，可能会存在某个目标在一个用户图像中可以被识别出来，但是在另一个用户图像中无法识别的问题；因此可能会存在同一场景在两用户的视角下最终得到的语义序列是有差异的；

和

当两用户图像对应的语义序列满足式(6)的要求时：

当用户对当前看到的场景进行图像的拍摄时，其实就是在模拟人眼功能采集周围环境的图像信息，并生成二维图像，人们利用图像中的信息对真实环境的物体进行识别和各种几何参数的测量；该过程也是一个投影映射的过程，现实世界中的一点经过相机成像映射到图像上的一点；而由于两个用户所处位置不同，因此观察同一目标的角度也不同，此时目标上的点分别通过不同的映射关系分别投影到两张用户图像上；而在视觉定位系统中，两幅图像中一系列共面的点构成的集合通过一个单应矩阵进行联系；因此，单应矩阵描述了某一平面和另一个平面之间的一一映射关系；在相机拍摄的场景中，若图像的某些特征点都落在同一平面(譬如墙面、地面，平面海报等)，那么通过单应矩阵就可以确定这些特征点在上述两幅图像之间的变换关系，进而确定图像中其他位置点的对应关系；由图5看到，

Img₁和Img₂分别是两个用户拍摄的2幅图像，现实世界的下的一点P通过相机成像映射p_l到了用户图像中的点p_l和p_r；则世界坐标系下的点P与像素坐标系下的点p_r之间的投影映射关系通过矩阵H_l和H_r表示出来；

p_i＝H_i·P(i＝l,r) (7)

也能表示为：

此时两个用户图像的二维成像平面上的投影点p_l和p_r之间存在一种映射关系，它通过世界坐标系中的P点联系起来；

p_r＝Hp_l＝H_rH_l ^-1p_l (9)

将上式展开：

上式在非零因子下成立，因此，在实际运算过程中乘以一个非零常数进行归一化操作，使得h₉＝1，通过非齐次坐标运算求得：

整理得：

从式(12)可以看出，单应矩阵的自由度在归一化操作之后为8，并且一组对应匹配点能够构造出两个约束条件；因此至少利用4对匹配特征点，完成单应矩阵H的求解，即：

两幅用户图像上特征匹配点对的选取是求解图像间单应矩阵的关键；所选取的特征点对是基于两幅图像中含有的相同语义区域进行选取的，将图像1中语义区域的某一SURF局部特征描述子用向量矩阵

表示，图像2中相同语义区域的某一SURF局部特征描述子用向量矩阵

表示；通过欧式距离公式计算这两个特征描述子之间的相似程度d_m,n为：

计算最小欧氏距离d_min和第二小欧氏距离d′_min之间的比值r，将该比值称作欧氏距离比；欧氏距离比的阈值用r₀表示，通常r₀的选取范围为0.6～0.8，用r₀描述了两个特征描述子之间相似程度的阈值，即比值r小于阈值r₀时，则该组特征点是匹配的；

虽然通过欧式距离能够初步确定两幅图像之间的匹配关系，但其中仍然会存在少量误匹配点。实际实验仿真过程中，图像成像会受到光照、噪声等客观因素的限制，在大量局部SURF特征匹配点对中产生几对误匹配点对。有时，这些误匹配点对会严重影响计算单应矩阵的准确度，进而对整个离线数据库的建立产生巨大影响。因此，我们需要通过一种行之有效的方法将少数的误匹配点从大量的匹配点对中剔除，以便计算出正确的单应矩阵，建立高质量的数据库，为高精度的在线定位打下良好的基础。根据RANSAC算法的特点我们发现，它能够在含有噪声的海量数据中筛选并剔除误匹配选项，具体来说即为两幅图像中的误匹配点。

进一步的，两个用户都已通过R-FCN将图像中相同的语义信息识别出来；由于其中一个用户的智能终端具备的功能更高级，因此在识别出语义目标的同时还可以获取到自身与该目标之间的距离，并在此基础上进行基于语义轮廓的纠正线建立；而另一个用户的终端不具备这样高级的功能，只能识别出语义目标而无法测出距离，因此需要借助他人建立好的纠正线并将其移植到自己的图像中，从而实现两用户处于同一坐标系下来进行定位；

设定具备测距功能相机的用户所拍摄的图像为图像1，不具备测距功能相机的用户所拍摄的图像为图像2；图像1中语义像素区域的SURF描述子映射到图像2中语义像素区域的SURF描述子的单应矩阵为H₁₂，图像1中对像素坐标系下纠正线的N个采样点的坐标P_i为(x_i,y_i,1)^T，其中i＝1,2,...,N；需要利用上述已知的信息，求解图像2中纠正线在像素坐标系下的参数方程：

步骤S1：采样点由图像1至图像2的映射；

由于图像1和图像2中包含同一语义区域，因此两幅图像之间存在单应性关系，又已知图像1映射到图像2的单应矩阵为H₁₂，那么图像1中纠正线上的采样点P_i(i＝1,2,...,n)映射到图像2中像素坐标系的坐标Q_i＝(x_i,y_i,1)^T，其中i＝1,2,...,n，表示为：

[Q₁ Q₂ … Q_n]＝H₁₂·[P₁ P₂ … P_n] (16)；

步骤S2：求解图像2中纠正线的参数方程；

对单应关系得出的图像2中纠正线的坐标矩阵Q＝[Q₁ Q₂ … Q_n]进行分离，将矩阵Q的第1行和第3行分离组成新的矩阵X，将矩阵Q剩下的部分作为向量Y。那么，图像2中纠正线的直线方程可以表示为Y＝WX，其中Y和X已知，参数W＝[k,b]通过最小二乘法求得：

W＝YX^T(XX^T)^-1 (17)；

实施例2

验证本发明所提方法的可行性，需要选取一个实验场景进行测试。本发明的实验环境为哈工大科学园2A栋12楼走廊，该实验场景的平面图如图6所示。由该平面示意图可以看到，该实验场景中含有多个转角处，当两个用户分别站在转角处的两侧，由于障碍物的遮挡两用户是没办法看到彼此的，但是可以同时观察到同一场景，符合本发明提出方法的背景条件，适合验证本发明提出方法的可行性。

在定位前需要对用户图像中含有的语义信息进行精准识别，以便通过图像对应的语义序列判断两用户是否可以观察到同一场景。本发明采用R-FCN进行图像语义分割，因此需要对R-FCN进行训练。首先在实验场景进行图像的采集，采集图像时要求每隔0.5米进行一次拍照，拍照时不需要镜头光轴与走廊中轴线严格平行。当遇到语义信息较丰富的场景时，需要进行多角度拍摄，尤其是对于那些在走廊中出现次数较少的语义目标时，例如通风口、消防栓、垃圾桶、安全出口标识等，更是要进行多次、多角度拍摄，以此来增加该语义信息在训练集中出现的次数，提高对该语义目标的分辨准确率。此外，对于门、窗这种有多种状态(开、关)的语义，需要分别对其不同的状态进行图像的拍摄，以便在任何状态中都可以对该种语义进行准确识别。

当将图像拍摄完并构成数据集后，需要对训练数据集中的每一张图片进行语义标注。本发明将走廊内的语义分为了10类，分别为：门，窗，暖气片，消防栓，垃圾桶，通风口，海报，展览板，安全出口标识和背景类。当所有图像都标注完成后放入到网络模型中进行训练。当网络训练完毕时，为了验证R-FCN进行图像语义分割的准确性，需要再拍摄几张测试图像来验证R-FCN目标识别的准确性，用户图像经过R-FCN的输出结果如图7所示。

由图7中可以看到红色框中为R-FCN识别出的语义目标，上方对应的蓝色框中标注了该语义目标所属的类别以及属于该种语义类别的概率。识别时设置识别概率的阈值为0.8，当高于这一阈值时认为识别是正确的并显示出对应的矩形框，低于这一阈值时认为该语义识别可能存在较大的风险，则不显示对应的矩形框。从图中可以看到，绝大多数的语义目标都能被正确地识别出来，说明该网络具有较好的目标识别能力，可以使用该R-FCN去识别用户图像中的语义目标。

当两用户进行互定位时，两个用户分别位于图6中相互垂直的箭头对应的两个过道处，并都逐渐向红点靠近。这里假定两用户对该室内环境下的布局是未知的，且由于墙壁等障碍物的遮挡是无法看到彼此的，满足了在未知室内环境下进行互定位的前提条件。两用户在向前行走的过程中，每隔一段距离进行图像的拍摄。由于用户1使用的拍摄设备具有测距功能，因此可得知其能看到的目标场景相对自己的距离，用户1向前行走的过程中将拍摄的图像进行保存构成自己的数据库。而用户2使用的普通的相机，只能进行图像的拍摄而没有测距功能，因此用户2每次拍摄完图像后将图像共享给用户1。用户1利用R-FCN识别自己图像数据库中每张图像中含有的语义目标，并最终生成与图像数据库对应的语义数据库，并同时识别用户2每次传来图像中含有的语义目标，生成用户2图像对应的语义序列。将用户2图像对应的语义序列在用户1的语义数据库中进行检索匹配，若可以找到相同或者相似的语义序列，则说明二者当前可以看到同一目标场景，此时二者进行互定位。而若没有检索到相同或相似的语义序列，则说明二者当前没有看到同一目标场景，则两个用户需要继续向前行走，直到检索成功后二者开始互定位。

图8为在实验场景下两用户通过图像语义序列的匹配发现当前二者可以看到同一目标场景，此时二者开始互定位。图8中的左右两幅图分别为用户1与用户2观看到的场景图像，定位时需要选取一个目标建立二者的位置联系，由于图中的海报还有较丰富的特征点，因此两用户在互定位时选用海报作为中心来建立两用户的位置联系。接下来对两用户图像中的海报区域进行特征点提取，并利用RANSAC算法对两用户图像上海报区域的特征点进行匹配，通过特征点匹配可以求解出两用户图像间的单应矩阵，该矩阵反映出了两用户图像间的映射关系。

本发明采用基于语义区域的特征点匹配来求解两幅用户图像间的单应矩阵，这么做的好处是可以减小图像中提取的SURF特征点数，不但可以减少特征点的存储容量，并且在图像特征点匹配时也可以缩短匹配需要的时间。图9为4张用户图像基于语义区域提取的SURF特征点数与基于整幅图像提取的SURF特征点数的对比，由图中可以看到，基于图像语义区域的特征点匹配可以大大减小存储的特征点数，加快图像检索时间的同时减少了存储容量。

为了验证本发明所提出的互定位方法是否具有良好的定位精度，下面将在实验场景中进行定位测试。由于两用户分别相对于语义目标有一个位置关系，因此两用户与该语义目标之间存在一个夹角θ，该夹角示意图如图10所示。

在定位时分别改变夹角θ为45°、60°和90°，并在每一个角度下进行多组互定位测试，统计不同夹角θ下的互定位误差，最终本发明所提出的方法在实验场景中的定位结果如图11所示。

由图11可以看出，当两用户与目标之间的夹角θ越小，互定位的精度越高。这是由于两个用户观察目标的角度越相似，两用户图像基于语义目标区域的特征点匹配效果也会越好，最终的互定位精度也会越高。由图中可以看到，本发明所提出的互定位方法的定位误差可以控制在1m以内，具有良好的定位效果。

在未知的室内环境中，由于无法提前在室内环境中部署无线信号发射基站并且无法提前得知环境中的分布，因此当用户进入到一个陌生的环境中时，定位起来比较困难。本发明提出了一种未知环境下基于视觉的互定位方法，实验结果表明，该方法不仅可以实现两用户在彼此无法看到对方的情况下确定对方的位置，而且该方法还有较高的定位精度。

Claims

1.一种未知室内环境下基于视觉的互定位方法，其特征在于，所述互定位方法包括以下步骤：

步骤1：用户1与用户2分别对面前的室内环境进行拍摄；

步骤4：当用户1接收到用户2的图像后将该图像放入到R-FCN中转换为其对应的语义序列，并将该语义序列与用户1中语义数据库中的每幅图像对应的语义序列进行匹配检索，若未检索到相同或相似的则进行步骤5，若检索到相同或相似的语义序列则进行步骤6；

步骤8：最终通过用户间位置信息的共享实现了在未知环境下用户间的交互式定位；

2.根据权利要求1所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.2：基于该区域下进行SURF特征点的提取；

3.根据权利要求2所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤3.3具体为，采用RANSAC算法对图像中的SURF误匹配点对进行剔除，并计算图像之间的单应矩阵H

步骤3.3.1：输入2幅图像的原始SURF匹配特征点；

步骤3.3.2：随机选取4对原始SURF匹配特征点；

步骤3.3.3：初步计算单应矩阵H；

步骤3.3.8：输出2幅图像的匹配SURF特征点对及单应矩阵H。

4.根据权利要求1所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤4利用图像间基于语义区域的特征点匹配能求解出两图像之间的单应矩阵H，该矩阵代表了两幅图像的投影映射关系；在用户1图像中，当利用R-FCN识别出选取的语义目标的轮廓边缘时，可根据该边缘进行纠正线的建立；纠正线在建立时要保证尽可能地与现实的地面平行或垂直，这样可以方便对用户位置的解算；此时设定用户1的图像采集设备为类似于深度相机这种具有测距功能的高功能相机，因此其在识别出语义目标的同时可以获取到此时与该目标的距离；而用户2采用的类似于手机的这种普通的图像采集设备，无法获取到自身距离语义目标的距离；因此需要用户1建立好的纠正线对用户2的位置进行辅助求解，将用户1图像上的纠正线映射到用户2图像上，从而用户2也可以根据自身的纠正线解算出自身的位置坐标；由于此时用户1和用户2都处于以同一语义目标为中心的三维坐标系下，因此当两用户确定好自身的位置坐标并将其进行用户间的共享时，此时两用户就可以得知对方相对于自身的位置，从而实现在未知环境下用户间的交互式定位。

5.根据权利要求4所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤4当用户1接收到用户2的图像后将该图像放入到R-FCN中转换为其对应的语义序列，并将该语义序列与用户1中语义数据库中的每幅图像对应的语义序列进行匹配检索具体为，

和

当两用户图像对应的语义序列满足式(6)的要求时：

6.根据权利要求3或4所述一种未知室内环境下基于视觉的互定位方法，其特征在于，求解图像2中纠正线在像素坐标系下的参数方程：

步骤S1：采样点由图像1至图像2的映射；

步骤S2：求解图像2中纠正线的参数方程；

根据步骤S1和步骤S2，最终得出了在线阶段用户输入图像中的纠正线参数W；通过该参数，在图像2中做出该纠正线，通过单应矩阵映射的方式得出的纠正线与实际的纠正线吻合，利用该纠正线进行下一步的定位。

7.根据权利要求6所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤S1具体为，由于图像1和图像2中包含同一语义区域，因此两幅图像之间存在单应性关系，又已知图像1映射到图像2的单应矩阵为H₁₂，图像1中纠正线上的采样点P_i(i＝1,2,...,n)映射到图像2中像素坐标系的坐标Q_i＝(x_i,y_i,1)^T，其中i＝1,2,...,n，表示为：

[Q₁ Q₂…Q_n]＝H₁₂·[P₁ P₂…P_n] (16)。

8.根据权利要求6所述一种未知室内环境下基于视觉的互定位方法，其特征在于，所述步骤S2具体为，对单应关系得出的图像2中纠正线的坐标矩阵Q＝[Q₁ Q₂…Q_n]进行分离，将坐标矩阵Q的第1行和第3行分离组成新的矩阵X，将坐标矩阵Q剩下的部分作为向量Y；图像2中纠正线的直线方程表示为Y＝WX，其中Y和X已知，参数W＝[k,b]通过最小二乘法求得：

W＝YX^T(XX^T)^-1 (17)。