CN111126304A

CN111126304A - 一种基于室内自然场景图像深度学习的增强现实导航方法

Info

Publication number: CN111126304A
Application number: CN201911363279.9A
Authority: CN
Inventors: 曹兴文; 吴孟泉; 陀名熠; 张文良; 刘韦韦; 伯英杰; 廖宗钰; 周卉林; 孙嘉欣; 张聪颖; 赵紫琦; 宁祥雨; 唐浩晨
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111126304B

Abstract

本发明公开了一种基于室内自然场景图像深度学习的增强现实导航方法，其特点是，该方法首先通过三维激光扫描仪扫描室内自然场景提取三维场景特征识别点，接着计算智能手机摄像机内参矩阵，使用智能手机采集室内自然场景图像提取二维图像特征识别点，通过室内平面地图建立室内自然场景拓扑网络结构图；将二维图像特征识别点与三维场景特征识别点、拓扑网络路径节点通过特定描述符进行绑定映射；将智能手机采集室内自然场景图像进行基于深度学习图像分类，将室内自然场景分割为多个子场景；接着使用光流追踪算法对三维场景特征识别点进行跟踪和恢复，进一步合成场景注册需要的三维注册矩阵，最后完成虚拟导航物体现实场景注册，完成室内自然场景路径导航。

Description

一种基于室内自然场景图像深度学习的增强现实导航方法

技术领域：

本发明涉及增强现实与室内导航技术，属于计算机视觉和增强现实结合领域，尤其是一种基于室内自然场景图像深度学习的增强现实导航方法。

背景技术：

增强现实(Augment Reality，简称AR)是近年来科研研究的一个热点，有着广泛的应用前景，通过将虚拟物体与真实环境紧密结合，增强人们对周边环境的认知。增强现实的特性是：虚实结合、实时交互和跟踪注册。它是将计算机产生的信息(图像、模型、动画等)叠加到现实场景中，实现虚拟和现实的无缝融合；增强现实不同与VR的完全虚拟化现实世界，而是对现实环境的补充。增强现实技术增强了用户对现实世界的感知能力和现实世界的交互能力，越来越受到研究者的关注；室内定位导航是指在建筑物内部或者室内环境中位置与目标导航，由于室内结构复杂，单纯的GPS技术无法满足定位要求，因此出现了多种多样的室内定位导航方法。主要包括：WIFI、通讯基站、蓝牙、超声波、地磁等信号定位，以及二维码及特征标识物定位，以及利用手机IMU传感器进行跟踪定位等；深度学习(DL，DeepLearning)是机器学习(ML，Machine Learning)领域中的一个新的研究方向，深度学习是学习样本数据的内在规律和表示层次，在图像分类识别、数据挖掘、多媒体学习等领域取得较大进展，解决了很多复杂的模式识别问题。

目前增强现实系统最常用的实时跟踪注册技术是利用ARTooLKit、ARCore等软件包，实现虚实场景融合，该方法需要在真实环境放置人工标志物，通过对标志物特征的提取获得注册所需要的信息而达成注册效果，在真实场景放置人工标志物具有算法鲁棒性差、容易被破坏、及环境变化带来的影响等缺点。

在移动增强现实领域中，针对平面物体及有标志物体的注册方法已经取得了很好的发展与应用。但是，智能手机端对自然场景图像深度学习与室内增强现实导航仍然是一个困难的开放的难题。

上述各类室内定位与导航技术或是通过各种信号感应以定位本地位置，或是需要布置人工标识物，存在着信号源不稳定、定位精确度低、故障率高等问题；同时，诸如在室内放置特定二维码方式，存在着实时性低，交互性差问题，另一方面，二维码等标识物容易受人为破坏，增加注册导航困难。鉴于以上诸多因素，基于自然场景图像室内增强现实导航至今难以普及。

发明内容：

本发明的目的是克服上述已有技术的不足，而提供一种基于室内自然场景图像深度学习的增强现实导航方法。

本发明提供的技术方案是：一种基于室内自然场景图像深度学习的增强现实导航方法，其特殊之处在于，包括以下步骤：

a建立室内自然场景三维场景特征识别点信息库，根据三维场景特征识别点对室内自然场景进行三维重建的基本原理，使用三维激光扫描仪扫描室内自然场景，提取室内自然场景三维场景特征识别点；

b对智能手机摄像机的内参数S进行标定，求解智能手机摄像机内参矩阵A；

c建立二维图像特征识别点信息库，通过采集室内自然场景多组图片，提取二维图像特征识别点；

d建立室内自然场景拓扑网络路径地图，拓扑网络路径地图将障碍物、房间区域抽象为节点数据，将通行区域抽象为边，通过边和节点数据组成室内自然场景拓扑网络路径图；

e用智能手机摄像机拍摄当前室内自然场景，获取当前室内自然场景视频图像，检测当前室内自然场景视频图像的自然特征；

f利用深度学习图像分类算法对智能手机摄像机当前拍摄室内自然场景视频图像进行场景分类和在线学习；

g将当前室内自然场景视频图像与离线场景图像库的参考图像进行场景匹配识别，判断当前室内自然场景视频图像与离线场景图像库的参考图像是否相似，如果匹配相似则进入步骤i进行转换关系建立，匹配不相似则进入步骤h进行场景识别；

h设定一个室内自然场景识别失败计数器M，3≤M≤5，当识别次数大于M时，说明进入了一个新室内自然场景，进入步骤a对新室内自然场景进行三维重建；否则由于智能手机摄像头移动过快从而导致匹配失败，重新进入步骤e重新拍摄当前室内自然场景；

i建立二维图像特征识别点坐标到三维场景特征识别点空间坐标的投影矩阵G、室内自然场景拓扑网络路径节点映射表转化关系；

j根据投影矩阵G和已知智能手机摄像机内参矩阵A恢复当前室内自然场景视频图像的位姿矩阵[R|T]；

k进行几何校验和反差投影分析当前是否为有效的位姿矩阵[R|T]，如果是有效的位姿矩阵[R|T]，则进入步骤l合成三维注册矩阵K；否则返回步骤e识别室内自然场景视频图像的自然特征；

l判断是否有效位姿矩阵[R|T]，由步骤i建立的投影矩阵G以及建立的世界坐标系和投影坐标系之间的变换关系合成注册所需要的三维注册矩阵K；

m利用光流跟踪算法对室内自然场景二维图像特征识别点进行跟踪和在线学习；

n对跟踪到的二维图像特征识别点进行分析，若跟踪上的特征点个数大于P₁并且小于P₂，25＜P₁＜35，40＜P₂＜50，跟踪到的特征点数量影响位姿矩阵的注册精度，则进行确实的特征识别点恢复，P₁为跟踪点下限，P₂为位姿矩阵[R|T]计算质量控制阈值；

o当跟踪到的二维图像特征识别点小于P₁，说明对当前场景跟踪失败，用户到达新的室内自然场景需要进行重建和识别，返回步骤a；

p已知步骤i建立的投影矩阵G以及室内自然场景拓扑网络路径节点映射表转化关系，用真实智能手机摄像头的内参数矩阵A和合成三维注册矩阵K，并设定虚拟摄像头的内外参数，对虚拟导航引导物进行虚拟叠加至现实场景，通过显示设备输出；

q显示现场地图和虚拟导航引导箭头，并将所获得的预存离线场景图像信息对应的预存现场位置信息在现场地图中进行标示；

r执行针对目标位置的增强现实室内导航功能命令，所述执行命令包括从用户所在位置到目标位置的相对位置显示、路径显示与虚拟导航指引箭头叠加在现实场景中。

进一步的，所述的步骤a中室内自然场景的三维场景特征识别点信息库建立包括如下具体步骤：

a对室内自然场景进行标靶布设，保证扫描物体在有效范围之内，避免扫描盲区、减少重复扫描区域；

b确定坐标配准、转换；

c使用三维激光扫描仪扫描室内自然场景，生成高密度三维场景特征识别点云数据；

d抽稀三维场景特征识别点云数据，保留权重值大、特征明显的三维场景特征识别点；

e根据投影矩阵G重建一组二维图像特征识别点与三维场景特征识别点匹配关系；

f建立二维图像特征识别点与三维场景特征识别点、室内自然场景拓扑网络路径节点映射表转化关系。

进一步的，所述的步骤b中对智能手机摄像机的内参数S进行标定，求解智能手机摄像机内参矩阵A包括如下具体步骤：

a采用张定友棋盘标定法完成对智能手机摄像机内参数S的标定；

b根据智能手机摄像机成像基本原理，建立智能手机显示屏幕坐标系与世界坐标系之间转换关系；

c建立三维场景特征识别点坐标系到世界坐标系转换关系Π；

d建立世界坐标系到动态追踪坐标系的转换关系Φ；

e建立动态追踪坐标系到人眼坐标系的转换关系Ψ；

f建立人眼坐标系到投影平面坐标系的转换关系Γ；

g建立T_ξ＝{Π,Φ,Ψ,Γ}；

h由T_ξ关系式求解三维场景特征识别点到二维图像上的单应矩阵；

i由单应矩阵求解出智能手机内参矩阵A。

进一步的，所述的步骤c中对二维图像特征识别点信息库建立包括如下具体步骤：

a从不同角度拍摄待注册室内自然场景的一组图像作为参考图像，并做二维图像特征识别点提取与匹配操作；

b根据二维图像特征识别点匹配结果，利用全概率RANSAC算法去除错误二维图像特征匹配点，根据二维图像特征匹配点求取基本矩阵F；

c由基本矩阵F和已知智能手机摄像机内参数S得到内参矩阵A；

d根据内参矩阵A计算智能手机摄像机外参数R和T；

e根据智能手机摄像机内参数S和外参数R和T组合成投影矩阵G；

f重建一组图像匹配好的二维图像特征识别点。

进一步的，所述的步骤d中室内自然场景拓扑网络路径地图建立包括如下具体步骤：

a对室内自然场景区域进行划分，将室内自然场景区域划分为两部分，一是可以直接连线，即为最短路径的部分；另一部分则是由阻挡物构成的区域，需要将可通行的区域与不可通行区域进行分离的区域；

b将室内自然场景建筑物抽象为四边形，添加各种地点信息，通过地点所对应相关节点的信息描述，获取室内自然场景各个区域对应节点的信息数据；

c路径点选取，通过Delaunay三角网对室内自然场景区域进行进一步细分，选取细分后的各个三角形中代表性的路径节点来表示这块区域，选择每个Delaunay三角形中的中心作为路径点；

d路径的建立，在路径节点连线通行的前提下，将代表性路径节点连接成室内自然场景拓扑网络路径网；

e路径优化，相邻节点所组成的连接线段最短，对关键路径点进行决策，对电梯、楼梯、扶梯路径点进行标记，得到绕过障碍物、降低复杂程度、提高规划效率；

f室内自然场景多楼层路径规划，先构建各楼层路径网络，根据室内实际情况，对各楼层实施拓扑连接，连接点为进行标记后的路径点，实现跨楼层路径规划；

g建立二维图像特征识别点与三维场景特征识别点、室内自然场景拓扑网络路径节点映射表转化关系。

进一步的，所述的步骤f中利用深度学习图像分类算法的具体步骤包括：

a采集室内自然场景图像数据集，该数据集编号包括数字类和字母类；

b对室内自然场景图像数据集卷积神经网络结构进行分析，进行多模型融合卷积神经网络图像分类；

c对现有的卷积神经网络模型提取其输出特征向量，进行融合得到新的输出特征向量；

d搭建单层分类器重新训练融合后的网络模型；

e基于室内自然场景图像数据集，采用caffe深度学习框架对网络模型进行训练；

f分类好的室内自然场景图像将室内自然场景分割为多个对应的子场景。

本发明的有益效果：

1、通过对室内自然场景进行特征识别点识别、并将特征点与室内拓扑网络路径节点进行绑定，完成了室内增强现实路径导航，大大降低了外部硬件设备的依赖性(传感器)，依靠智能手机自身计算能力完成实时路径导航；

2、对于一些大型室内会场或者展销现场，由于建筑结构复杂或现场人员较多，需要浪费大量时间和精力，带来诸多不便；本发明能够在结构复杂或人员较大的室内提供更加直观、现实感强的监测服务、更加智能、自动化地进行高效计算，完成路径导航；

3、能直接利用室内自然场景进行路径导航，无需在现场安置任何用于导航人工标识物，避免标识物位置受限、不易寻找、易破坏等问题，具有简单、灵活、适应性强、可覆盖任意位置等优点；

4、通过减少反投影误差来优化摄像机位姿矩阵，并通过建立虚拟导航引导物坐标系和投影平面坐标系，更加精确完成对现实场景注册，并通过光流跟踪算法对特征点进行恢复，大大减少特征识别时间，提高实时更新速度；

5、使用BRISK算子进行特征监测与跟踪，由于BRISK特征提取速度快，二进制汉明距离比较速度只需要一条简单的机器指令，减少监测识别时间；

6、将二维图像特征识别点与三维场景特征识别点、拓扑网络路径节点通过描述符进行绑定映射，使得虚拟导航指引物实时更新注册，并在智能手机屏幕实时展现。

附图说明：

图1是本发明的流程图；

图2是本发明的三维场景特征识别点扫描建立流程图；

图3是本发明的二维图像特征识别点提取建立流程图；

图4是本发明的室内拓扑网络路径节点建立流程图；

图5是本发明的进行多模型融合深度学习图像分类流程图；

图6是本发明的坐标关系与投影转换模型图；

图7是本发明的图像坐标系与像素坐标系转换关系图；

图8是本发明的场景重建三角测量法原理图；

图9是本发明的图像尺度空间的BRISK特征示意图；

图10是本发明的二维图像特征识别点与三维场景特征识别点、室内自然场景拓扑网络路径节点的关联表。

具体实施方式：

下面将结合附图对本发明的具体实施方式做详细描述。

本实施方式中，采用八核、6G内存的智能手机，摄像头分辨率采用1920*1080，内参数为事先标定好的，默认不变；对手机摄像头中出现的室内自然场景进行特征点识别和跟踪注册；

如图1所示，一种基于室内自然场景图像深度学习的增强现实导航方法，包括以下步骤：

步骤1：如图2所示，图2为建立室内自然场景的三维场景特征识别点信息库流程图，根据三维场景特征识别点对室内自然场景进行三维重建的基本原理，使用三维激光扫描仪扫描室内自然场景，提取室内自然场景三维场景特征识别点；

步骤1.1对室内自然场景进行标靶布设，布置标靶时进行数据建模的第一步工作，对墙面标靶进行布设，设置不同大小、形状的标靶，进行试验，直到标靶不受大小、形状等因素的影响；

步骤1.2通过测得标靶的三维坐标值，采用七参数法将三维激光扫描仪得到的点云网格中的三维数据转换为实际控制测量系统的三维坐标；

步骤1.3进行室内自然场景三维特征识别点云数据采集，对采集好的数据进行去燥、抽稀处理，保留权重值大的、特征明显三维场景特征识别点，确保点云数据的精度和精确性。根据投影矩阵G重建好一组图像二维识别点与抽稀后点云数据匹配关系；

步骤2：采用张定友棋盘标定方法标定摄像机内参数S并求解内参矩阵A；

步骤2.1：通过对智能手机摄像机内参数S的定标，可以确定与摄像机自身的几何和光学特性有关的参数(即为内参矩阵)，以及它对于世界坐标系的三维位置和方向(外参矩阵)；摄像机的定标在增强现实注册中扮演举足轻重的作用；采用基于OpenCV算法库完成内部参数标定，构建棋盘图像(8*8格)存储棋盘图像中各个角点的坐标，作为理想像素坐标，利用摄像头采集打印后的纸质棋盘各个角度的图像；识别采集的图像中棋盘角点坐标信息，并计算单应矩阵的值，作为实际像素坐标；根据棋盘实际坐标和理想坐标信息，求解两者之间对应关系，计算摄像机内参矩阵A，完成标定过程；

根据摄像机成像基本原理，手机显示屏幕坐标系与世界坐标系之间的变换关系可用以下模型关系式表示：

如图6所示，展示了自然场景图像深度学习的室内增强现实导航方法的坐标系与投影转换模型，主要包括以下内容：

Q点为三维激光扫描仪重建室内自然场景中的真实三维场景特征识别点，采用CGCS国家2000坐标系，地理坐标为(β₂₀₀₀,γ₂₀₀₀,η₂₀₀₀),其在用户视野中的坐标为(Xc,Yc,Zc)，用户视线与投影平面相交于Q’(x,y)。设世界坐标系为O-XYZ，成像变换过程涉及到坐标系投影、平移、旋转等变换形式；

实现虚拟导航指引物在真实场景的跟踪注册过程主要涉及四个坐标系之间的转换：

三维场景特征识别点坐标系到世界坐标系转换关系Π用于将三维场景特征识别点的经纬度坐标转换为世界坐标系的描述；

世界坐标系到动态追踪坐标系的转换关系Φ用于确定三维场景特征识别点相对于世界坐标系的位置和方向；

动态追踪坐标系到人眼坐标系的转换关系Ψ确定人眼位置相对真实室内自然场景中的位置和姿态；

人眼坐标系到投影平面坐标系的转换关系Γ确定将三维场景特征识别点坐标转化为二维图像透视投影和姿态；

设T_ξ＝{Π,Φ,Ψ,Γ}表示三维场景特征识别点坐标系到投影平面坐标系转换关系；

三维场景特征识别点坐标系到世界坐标系转换关系Π详细求解步骤如下：

1)先求解出三维场景特征识别点(β₂₀₀₀,γ₂₀₀₀,η₂₀₀₀)到世界坐标系(X₁,Y₁,Z₁)转换关系，根据三维激光扫描仪对室内自然场景进行三维重建，对三维场景特征识别点进行抽稀，获取每个三维场景特征识别点的经纬度及高度；

2)设室内自然三维场景特征识别点Q是国家GCS2000坐标系(β₂₀₀₀,γ₂₀₀₀,η₂₀₀₀)，将Q点坐标先转化为空间直角坐标(X,Y,Z)，由坐标转换公式得：

3)X＝(u+v)cosβ₂₀₀₀cosγ₂₀₀₀

Y＝(u+v)cosβ₂₀₀₀sinγ₂₀₀₀

Z＝[u(1-l²)+v]sinβ₂₀₀₀

其中

4)将空间直角坐标(X,Y,Z)进行高斯投影，将空间坐标系转化为世界坐标系(X₁,Y₁,Z₁)

此处中的x＝X₁,y＝Y₁,N＝u

GPS坐标中高程η₂₀₀₀为世界坐标系下坐标Z₁，由此过程已将室内自然三维场景特征识别点坐标转换为世界坐标系表示形式。后面均以世界坐标系为基准坐标系进行位姿关系的确定；

世界坐标系到动态追踪坐标系的转换关系Φ详细求解步骤如下：

1)采用的是基于自然场景特征跟踪注册求解，动态追踪矩阵的最终形式都可以化为旋转平移矩阵变换形式：

2)

3)[X_TY_Tz_T]^T表示室内自然场景三维场景特征识别点在动态追踪坐标系下的坐标；R和T分别表示世界坐标系和动态追踪坐标系之间的相对位置和姿态，其中R为绕坐标轴旋转矩阵，T为三维平移向量；

动态跟踪坐标系到人眼坐标系的转换关系Ψ详细求解步骤如下：

1)因为在动态追踪注册时采用的智能手机设备与人眼存在固定的位置偏移关系，可以用相应的旋转平移矩阵[R′T′]表示。将旋转平移矩阵[R′T′]代入

得：

2)

3)上述式子中[Xc,Yc,Zc]表示室内自然场景三维场景特征识别点在人眼坐标系下的坐标，其中[R′T′]为固定值，通过对智能手机的相对位置关系进行标定可以求解；

人眼坐标系到投影平面坐标系的转换关系Γ详细求解步骤如下：

1)此过程的转换矩阵求解可由图6中坐标轴的平行关系，结合平面几何中的相似三角形进行求解。由相似三角形性质得：

2)

3)其中(x,y,L)的x,y表示为室内自然场景三维场景特征识别点Q在投影平面的交点的平面坐标，L为人眼距离智能手机的垂直距离，λ为固定的不为0的比例系数，将该公式转换为齐次矩阵形式：

4)

5)(x,y,1)^T为室内自然场景三维场景特征识别点Q在投影平面坐标系下的齐次坐标，其度量单位为长度。还需将投影平面坐标系下坐标转换为智能手机屏幕的像素单位坐标系。两者转换关系如图7(图像坐标系与像素坐标系转换关系图)所示，其转换关系如下：

6)

7)(fu,fv,1)是Q点在像素坐标系下的齐次坐标，即像素行列数；d_x，dy表示单位像素坐标在x轴和y轴方向上的物理长度；(u₀,v₀)是图像坐标原点在像素坐标系下的描述，将其视为常量，γ代表像素坐标斜向畸变角；

8)由此求解出在室内自然场景三维场景特征识别点在图像像素坐标系的总关系式；

9)

10)

11)a_x＝1/dx，a_y＝1/dy，ξ＝1/λ，

在实际测试中，智能手机像素物理斜向畸变角γ近似为零，因此tanγ近似为0而(X₁,Y₁,Z₁)^T是室内自然场景任意一个三维场景特征识别点，在确定世界坐标系的原点后，就可以根据上式计算任意一点在智能手机显示屏幕上的像素点坐标；

12)由上式得出内参矩阵A的参数值均为常量，只与智能手机设备结构有关，称为内参矩阵，内部参数统称为S，R和T表示用户采用的智能手机相对于世界坐标系的位置和方向，其参数值在注册过程中随着用户在室内自然场景中的位置改变而改变，将两个矩阵合并后的T_cw称为外参矩阵；

假设主点(u₀,v₀)值为(0,0)，规定表示平面与世界坐标系下的Z＝0平面重合，则平面标识上Q点在世界坐标系下的坐标(X₁,Y₁,0,1)与Q点在第m帧影像

之间的关系可以用以下式子表示：

令

因为R为旋转矩阵，T为平移矩阵，

则

其中3*3矩阵

将真实世界中Z＝0平面上的Q点映射到第m帧图像上，称之为单应矩阵，下标1代表世界坐标系；单应矩阵通过下列式子计算：

令

则有

进而可以求出

由三维注册矩阵旋转分量的正交性可得：

r₁₁r₂₁+r₁₂r₂₂+r₁₃r₂₃＝0 (式5)；

将公式(4)和公式(5)，可以导出下列公式：

由上式(7)，(8)两式消去ξ，并结合(6)式可求出a_x，u_y，从而获取智能手机内参矩阵

步骤3：如图3所示，建立二维图像特征识别点信息库，具体流程；

步骤3.1从不同角度拍摄待注册场景的一组图像作为参考图像，做提取特征提取与匹配操作，对当前场景的一组参考图像，用基于自适应阈值选择的BRISK算法提取图像自然特征点，再对这组图像的BRISK算法特征点进行匹配，找到这一组图像的相似特征识别点；

步骤3.2根据图8(场景重建三角测量法原理图)所示的原理，利用二维图像特征识别点集，通过基于全概率的RANSAC算法求取基本矩阵F；

图8(场景重建三角测量法原理图)为欧式空间场景三维重建的示意图，图8中的两个摄像机，设U₁和U₂分别是两个摄像机的光心，Q为室内自然场景中的一点，它在第一台摄像机的成像平面C₁上的投影点x₁，在第二台摄像机的成像平面C₂上的投影点为x₂.则x₂必定位于C₂平面内，而且必然位于由x₁决定的一条直线L₁上，其中L₂是C₂和有三维场景点Q，两个光心U₁和U₂决定的平面T的交线。这是因为在图像C₁上的投影点是x₂的空间三维点，必然位于射线U₁Q上，而U₁Q在C₂上的投影为L₂。L₂称为x₁决定的极线(epiplar line)。不仅如此，从图中还可以发现，C₂上所有的极线交于同一点e₂，称为极点(epiplar point)它是U₁和U₂和C₂的交点。也可以换另一种简单的解释，任给U₁上一点x₁它在U₂上决定的极线L₂是U₂与T的交线，其中T是由x₁决定的极平面(epiplar plane)。由于两台摄像机的地位完全是对称的，因而类似的分析可以发现U₂上任一点x₂在U₁决定一条极线L₁，L₁上所有的极线交于e₁。e₁和e₂都在直线U₁U₂上，x₁、x₂、U₁和U₂四点共面，其中X₁和X₂是对应点，这被称为共面约束。它在已知摄像机内部参数的情况下从运动求解结构中有重要作用；

步骤3.3在已知智能手机摄像机内参矩阵A的情况下。很容易由基本矩阵F求出本质矩阵E；基本矩阵F到本质矩阵E的转换关系为：

A₁，A₂是智能手机摄像机的两个内参矩阵，

是智能手机摄像机2内参矩阵的逆矩阵，

是智能手机摄像机1的内参矩阵的逆矩阵；

步骤3.4根据智能手机摄像机的本质矩阵E正确估计智能手机摄像机外参数R|T。通过对本质矩阵E进行奇异值分解，可以得到两个3阶的酉矩阵U,V和一个三阶的对角矩阵P，由以下关系式：

E＝UPV^T

在通过设置世界坐标系下的一点

求出旋转矩阵R，和平移向量T，可以由以下公式表达：

R＝UQV^T或R＝UQ^TV^T，T＝U₃或T＝-U₃，其中u₃是矩阵U的最后一列；

步骤3.5将智能手机摄像机内参数S和外参数R和T组合成的投影矩阵G₁,G₂，由以下关系式：

G₁＝S[I 0]

G₂＝S[R T]

其中S为智能手机摄像机的内部参数，因为智能手机摄像机拍摄图像的内参数相同，R|T为智能手机摄像机的外部参数，I为3*3的单位矩阵。在得到智能手机摄像机内外参数S,R,T以及匹配点的投影图像坐标x₁,x₂之后，则可以算出每一个室内自然场景三维场景特征识别点Q所对应的二维图像特征识别点的具体坐标；

步骤3.6建立二维图像特征识别点信息库，将参考图像上匹配的2D描述符与重建的室内自然三维场景特征识别点进行绑定，建立2D/3D的信息库；

步骤4：如图4(室内自然场景拓扑网络路径节点建立流程图)所示，室内拓扑网络路径网络结构图建立，包括以下步骤，先建立室内自然场景拓扑网络路径，拓扑地图将障碍物、房间等区域抽象为节点数据，将可通行区域抽象为边，最终通过边和节点数据组成拓扑网络路径网络图；

步骤4.1室内拓扑地图将障碍物、房间等区域抽象为节点，将可通行的区域抽象为编，最终通过边和节点数据组成拓扑网络路径图，通过对室内环境具体研究，将室内黄金下的可通行区域和行人行走区域通过节点信息新型室内环境信息描述，室内自然场景下的房间、电梯、扶梯等区域抽象为节点，可以通行的区域或者道路抽象描述为边；

步骤4.2室内区域的划分，将室内区域划分为两部分，一是可以直接连线，即为最短路径的部分，另一部分则是由阻挡物构成的区域，需要将可通行的区域与不可通行区域进行分离的区域，室内自然场景中各个房间、电梯、扶梯等都是一个抽象的封闭四边形，方便用来表示室内元素，将室内各个区域转化为多边形后，为其添加各种地点信息，以便更好描述室内空间的元素，通过地点所对应的相关节点的信息描述，可以获取室内各个区域对应节点的信息数据，从而清晰完整描述了整个室内信息；

步骤4.3路径点选取，通过Delaunay三角网对室内区域进行进一步细分，选取细分后的各个三角形中代表性的特征点来表示这块区域，选择区域三角形中的中心作为路径点；

步骤4.4路径的建立，在路径节点连线可通行的前提下，将所有路径节点连接成室内路网，在此基础上对路网进行优化，解决传统路网复杂度较高的问题，以及考虑到室内自然场景存在多障碍物的情况。因此对路网内的路径点严格的邻接关系进行存储，邻接关系内两节点所组成的直线距离最短，并且考虑到室内自然场景大多由多楼层组成，因此在路网构建时候需要对一些关键的路径点进行特殊考虑，如电梯、扶梯等关键决策点对规划路径时间是否最优，对规划影响较大，因此在路网优化时候对关键路径点进行标记，从而得到一个可以绕过障碍物，更加合理、降低时间复杂度、提高规划效率和降低行人行走时间的室内优化路网；

步骤4.5室内多楼层路径规划，先构建各楼层路径网络，根据室内实际情况，对各楼层实施拓扑连接，连接点为进行标记后的路径点，实现跨楼层路径规划，在进行单楼层和多楼层的路径规划时，通过连接点的选取，以及拓扑网络的连接关系，将多个单楼层拓扑规划结果进行关键节点的连接从而获取跨楼层的路径规划效果；

步骤4.6规划路径算法，首先在Dijkstra算法的基础上，结合具体事例研究出的室内导航算法，其核心原理包括：循环方法将当前起点到起始节点的最短路径长度设置为0，非起始节点到起始节点之间没有边的连接则最短路径长度设置为无穷大；接着将未处理的集合中循环取出下一个节点nextNode直到未被处理的集合sourceNodeIDList.size＝0时，集合中的所有路径点被取出，完成遍历；最后判断经过当前节点至邻接节点的距离是否小于上个步骤保存的从源节点到各个邻接节点的距离；

步骤4.7定义一个私有化类，定义三个私有化对象，路径边的起始节点starNode，路径边的结束节点endNode，以及每条边的权重值LineWeight；

步骤4.8定义一个私有化类，定义一个数据读取方法读取将存有路网数据的TXT文件，由于涉及多个楼层，对每个楼层进行权重值设置，权重值大小取决于每层楼的路径节点的多少，当用户点击地图操作部分上的热点时，选中房间点为终点节点endNode，当前位置为起点starNode，由当前定位位置选择最近节点。接着计算两点间的距离，两点坐标分别用sx，sy和ex，ey表示：

则两个像素点的距离可以表示为

步骤4.9在数据结构设置中将每一层楼设置的节点ID用one、two、three、four……表示，因此在计算两点之间的坐标距离之前，因为ID都是进行顺序排序，每一层的路径节点不超多40个，若两个ID之间差距超过40时，则判定为进行跨楼层操作；

步骤4.10定义一个私有化类，定义路径节点编号StringID，从当前节点出发的信息列表List<StringID>，在室内多个楼层的环境下，楼层节点ID，one、two、three、four……分别与每个楼层中同一楼层内的路径节点存在映射关系，所以在计算楼层内各节点的距离时候，同时会计算多个楼层中起始点和终点两点之间楼层的映射关系one、two、three、four……楼层间的权重值差，通过设置当权重值差大于40时，则被认为是跨楼层上操作，当权重值差小于40时候，则被认为是跨楼层下操作；

步骤5：用智能手机摄像机拍摄当前室内场景，获取当前室内自然场景视频图像，检测当前室内自然场景视频图像的自然特征；先使用智能手机继续拍摄当前室内自然场景视频图像，将采集到的图像的分辨率转换成1920*1080，再进行灰度化处理，将图像转化为灰度图；

步骤6：如图5所示，基于深度学习图像分类分割场景，利用深度学习图像分类算法对摄像机当前拍摄视频图像进行场景分类和在线学习，从网络结构方面引入了Dropout层、并行交叉CNN模型、改变激活函数，跨连接来提高网络模型对特征的表达能力，提高网络模型对室内自然场景图像的分类正确率。采用的神经网络模型是AlextNet与VGGNet，将两者分别提取输出特征向量，通过融合输出新的特征向量，搭建单层分类器重新训练融合后的网络模型；

步骤6.1通过多模型融合的卷积神经网络分析，实现室内自然场景图像分类，将室内自然场景分为若干子场景，下面是对室内自然场景图像进行深度学习分类详细步骤：

AlextNet模型具有深层次的网络结构，包括5个卷积-池化层和三个全连接层，最后一层是softmax分类层，将室内自然场景图像分辨率由1920*1080调整为256*256，在每张图片上进行随机截图224*224小块进行训练神经网络，对训练图片的RGB频谱密度进行改变，接着进行PCA主成分分析，改变图像的像素值。AlexNet模型训练由以下公式组成：

激活函数：

重叠池化，每次移动的步长小于池化的变长，采用重叠池化对模型拟合进行改进；

局部相应归一化，激活函数无需对数据进行归一化避免模型的饱和性，在训练过程进行局部标准化提高性能，公式定义标准化：

上式中，

表示在特征图中第i个卷积核(x,y)经过激活函数的输出；

Dropout，Dropout方法通过选取不同的子网络进行迭代更新，削弱神经元节点的共适应关系，防止模型过度拟合；

VGGNet模型是基于Alexnet模型改进而来，做了两方面改进，一是所有的卷积核大小都使用3*3尺寸大小；二是在整个图像和mult-scale上训练和测试图片；

步骤6.2基于caffe框架对采集好室内自然场景数据集以及Caltech-101数据集进行分析，Caltech-101数据集是一个较大的分类数据集，包括9146张图片，101类前景照片。每类有30～800张图片，采集好的室内自然场景图像数据集包括2000张，每一组张片采取不同角度拍摄，作为随机初始化网络权值参数和预训练模型初始化网络权值参数；

将两个数据集每类选取30幅作为训练样本，其余作为测试集，将图片分辨率转换为256*256，在随机截取227*227像素，接着对所有图像进行减均值处理，在每个全连接层后，加入Dropout防止过度拟合，抑制神经元连接；

步骤6.3接着采用局部微调模式对随机初始化模型和预训练模型进行微调，只训练网络模型后基层全连接层权值参数；

采用AlexNet模型在室内自然场景图像数据集上训练好的权值参数作为预训练模型的初始参数。初始学习率设置为0.0001，每迭代1000次学习率减小10倍，训练过程总迭代次数为2000次，设置Dropout ratio参数为0.9。基于caffe框架的AlexNet网络结构对室内自然场景图像数据集进行随机初始化与预训练模型训练，经测试正确率在90.66％，同理采用VGGNet模型对Caltech-101数据集进行训练后的正确率在80％；

步骤6.4将两个模型进行融合，在进行单层softmax分类器分类，分别将Caltech-101数据集在AlexNet网络模型提取输出特征向量进行单层分类器训练，在VGGNet网络模型提取输出特征向量进行单层训练以及将两个网络模型的输出特征向量融合后进行单层训练；

步骤6.5在两个数据集(室内自然场景图像数据集、Caltech-101数据集)上分别进行多个模型训练，分类正确率都明显提高，多模型融合后，只需进行单层网络训练，对于硬件设施要求也降低，计算速度也提高；

步骤6.6将多模型融合后的场景图像分类，将室内自然场景分为多个对应的子场景，便于下一步特征点识别记载，地图显示；

步骤7：将当前室内自然场景视频图像与离线场景图像库的参考图像进行场景匹配识别，判断当前室内自然场景视频图像与离线场景图像库参考图像是否相似，如果匹配相似则进入步骤9进行转换关系建立，匹配不相似则进入步骤8进行场景识别，关键匹配的具体步骤为：

首先，进行特征提取，用基于自适应阈值选择的BRISK算法构建图像金字塔，在每一层图像上使用fast算法提取角点，并对角点进行分析设定阈值。满足以下条件的角点则被认为是稳定特征点：(1)角点阈值高于相同层上相邻的8像素，且高于相邻层对应的像素点，若角点位于最底层，则阈值只需要大于上一层即可。考虑到图像在坐标和尺度空间上的连续性，对提取到的二维图像特征识别点在坐标平面上和尺度空间上进行优化，得到表示二维图像特征识别点的最优坐标和尺度，如图9(图像尺度空间的BRISK特征示意图)所示；

再进行二维图像特征识别点描述符的构造与匹配，为了使特征点具有方向不变性，使用与SIFT算法相同的计算方法计算特征点的主方向。在确定主方向以后，将二维图像特征识别点旋转到主方向，在二维图像特征识别点周围选取具有代表性的比较像素对P_i,P_j，通过对这些像素对灰度值的比较获得描述符的一位，具体公式如下：

选取n对比较像素对可以得到长度为n的描述符，基于自适应阈值选择的BRISK算法特征描述符总共512位；

其次，进行特征点匹配，因为自适应阈值BRISK特征是用二进制特征描述符来进行标示的，在进行匹配的时候需要在汉明空间进行比较。设定汉明距离阈值为一个阈值T，30≤T≤50，当前智能手机拍摄的视频图像特征与参考图像的所有特征进行比较，选取距离最短的，并且小于T的特征作为匹配特征。对于户外场景，BRISK具有较好的匹配效果；

接着匹配图像的确定。当两幅图像匹配上的特征点数大于设定的阈值时，确定为相似图像。或者设置一个匹配正确率，匹配上的特征点数占总特征点数的比率，在室内自然场景干扰因素比较小的情况下比率阈值设为10％-20％，在室外场景干扰因素比较大的情况下比率阈值设为30％-50％；

最后，当智能手机摄像机拍摄当前室内自然场景图像，根据阈值比率判断图像相似率，进入对应步骤7基于多模型深度学习图像分类好的对应室内自然场景；

步骤8：设定一个场景识别失败计数器M，3≤M≤5，当识别次数大于M时，说明进入了一个新的场景，进入步骤1对新室内自然场景进行三维重建，否则由于摄像头移动太快从而导致匹配失败，重新进入步骤5；

步骤9：如图10(二维图像特征识别点描述符与三维场景特征识别点、室内自然成精拓扑网络路径节点的关联表)所示，建立二维图像特征识别点坐标到三维场景特征识别点空间坐标的投影矩阵G、室内自然场景拓扑网络路径节点映射的表转化关系；建立二维图像特征识别点与三维场景特征识别点、拓扑网络路径节点建立映射表，当智能手机摄像机拍摄当前室内自然场景时候，识别三维场景特征识别点，加载室内地图，实现室内增强现实路径导航；

步骤10：根据投影矩阵G和已知的内参矩阵A恢复出当前室内自然场景视频图像的位置矩阵[R|T]；根据已知的摄像机内参数S和投影矩阵G以及坐标轴间的正交性恢复出每个平面的三维注册矩阵K，由以下公式：

r₁₁＝ξn₁₁/a_x,r₁₂＝ξn₁₂/a_x,r₁₃＝r₂₁r₃₂-r₃₁r₂₂ t₁＝ξn₁₃/a_x,r₂₁＝ξn₂₁/a_y,r₂₂＝ξn₂₂/a_y,r₂₃＝r₃₁r₁₂-r₁₁r₃₂ t₂＝ξn₂₃/a_y,r₃₁＝ξm₃₁,r₃₂＝ξm₃₂,r₃₃＝r₁₁r₂₂-r₂₁r₁₂ t₃＝ξm₃₃；

步骤11：进行几何校验和反投影误差分析判断是不是有效的位姿矩阵[R|T]，如果是有效的位姿矩阵[R|T]，则进入步骤12，否则返回步骤5；

使用基于全概率RANSAC算法对二维图像特征识别点/三维场景特征识别点的匹配点对进行几何校验，删除错误匹配点。在随机选择3对匹配点对计算投影矩阵G时，确保选择的匹配对的二维图像特征识别点不是共线或者距离较近；基于全概率RANSAC算法剔除错误点由以下公式步骤组成：

(1)利用混合分布模型建立概率的初始估计；

(2)采用逆变映射原理随机选取n个测试样本，计算模型参数；

(3)如果模型估计错误，则返回(2)，否则运用阈值条件区分内外点，一次来剔除错误匹配点；

(4)重新计算模型参数，并利用阈值条件重新判断内外点；

(5)通过全概率公式计算更新所有测试样本的概率值；

(6)当达到最大迭代次数或者满足收敛条件后退出RANSAC算法，否则返回(2)进行下一次迭代；

公式：

其中e_i为p_i的模型误差，c为内点误差的期望，σ为误差的均方差，γ表示p_i是否为一个内点；

公式：

其中p_i为测试点，M为包含所有内点与正确模型的一致集，即剔除所有错误特征点后正确集；

每次选择三对匹配点计算投影矩阵G后，再随机选择一个三维场景特征识别点(3D点)，进行测试，计算在图像上的投影点，判断能否在真实的图像上找到匹配的特征点；如果不存在则丢弃此次投影矩阵G；通过设计一个计时器，设置为20ms，在这个时间里不断测试是否能找到计算出来较准确的投影矩阵G，并且包含匹配特征点对最多的投影矩阵；如果超时没有找到则判断没有有效的位姿矩阵[R|T]；

最后用levenberb-Marquardt算法对投影矩阵G进行优化，如下公式：

G是计算出来的初始投影矩阵，x_j是图像上的像素点，X_j是对应的三维点，‖x_j-P(X_j)‖是计算像素距离；

步骤12：存在有效的位姿矩阵[R|T]，定义虚拟物体的坐标系，合成有效的注册矩阵K，叠加虚拟三维导航指引物。由投影矩阵G以及所获得的世界坐标系与平面坐标系之间的变换关系合成三维注册所需要的变换矩阵K；

为了确定虚拟导航引导物的叠加位置所以必须指定世界坐标系，采用的技术方案是，在参考图像上指定4个可以构成矩形的特征点即可。为了提高精确性，当用户在一幅图像上指定一点后，在另一幅图像上绘出与该点相对应的极线，从而为用户指定对应点提供参照物。通过上述方法，可以计算出上述四点在智能手机摄像机坐标系中的位置，进而求解出四点构成的矩形平面，我们以矩形的对角线交点为坐标原点O，即矩形所在平面为世界坐标系XOY平面，Z轴为XOY轴的法线。至此建立起世界坐标系，已经确定它与智能手机摄像机坐标系的变换关系T_ξ，T_ξ在步骤2中已经详细阐述，包括室内自然场景三维场景特征识别点到世界坐标系的转换关系Π，世界坐标系到动态追踪坐标系的转换关系Φ，动态追踪坐标系到人眼坐标系的转换关系Ψ，人眼坐标系到投影平面坐标系的转换关系Γ，所以T_ξ＝{Π,Φ,Ψ,Γ}；

步骤13：利用光流跟踪算法对场景图像的局部特征识别点进行跟踪和在线学习；

参考图像以及智能手机摄像机连续拍摄的视频帧的分辨率统一为1920*1080；只有在对室内自然场景进行深度学习时，将图像分辨率转换为256*256进行学习，将室内自然场景进行分割为多个子场景。经过测试，对纹理丰富的图像可以提取超过一千个二维图像特征识别点；特征点数目过多给后续的匹配和姿态计算增加了许多工作量，同时在线跟踪精度并不能提高。在特征提取阶段，每一个特征点都可以计算出一个权重信息，权重值信息越高，特征点越稳定。所以本发明将图像特征识别点权重值信息进行排序，最后只选取权重值信息最高的300个特征识别点；

由于移动智能手机的计算能力较弱，无法对每一帧图像都通过提点匹配来计算摄像机的位姿。所以在实际情况下，摄像机的位姿在相邻帧之间变化不会太大，通过帧与帧之间的连续性可以有效的估计下一帧图像上特征点的位置，从而快速计算摄像机的位姿；

当通过自适应阈值BRISK提点算法成功计算出摄像机的位姿之后，后续帧通过光流来计算特征点的坐标，进而计算摄像机的姿态。光流利用图像序列中的像素强度的时域变化的相关性来确定像素点的运动。光流算法基于如下假设：相邻帧之间亮度恒定，相邻帧之间的特征点运动微小。用I(x_γ,y_γ,t_γ)表示t_γ时刻像素点(x,y)的灰度值，可由下列公式可得：

I(x_γ,y_γ,t_γ)＝I(x_γ+dx,y_γ+dy,t_γ+dt)

使用泰勒级数展开可得：

即I_xdx+I_ydy+I_tdt＝0

令

可得I_xu+I_yv＝-I_t

光流算法基于上述公式计算特征点像素“运动”。在移动智能手机终端使用光流算法计算相邻帧之间的特征点的坐标变化用时只需几十毫秒。随着时间的推移，光流跟踪上的点数将越来越少，进而影响摄像机位姿的计算精度。因此在光流点数小于一定阈值的情况下对当前图像提取二维特征点与参考图像进行匹配，如果同时在一定时间内都无法与关键帧建立一一匹配关系，则说明手机所在场景已经发生改变，则需要重新寻找正确的参考图像，直接进入步骤3场景初始化；

利用已经跟踪到的特征点对室内自然场景进行在线学习，选择权重值信息最高的投影矩阵作为当前图像帧到三维坐标的投影矩阵G，具体实施如下：

设当前跟踪到的二维图像特征识别点为I(x₁,x₂,x₃…..x_k)，相对应的描述符D(d₁,d₂,d₃……d_k)，对应的室内自然三维场景特征识别点为Q(q₁,q₂,q₃…….q_n)，J为匹配集合{J(q_n,x_k,s_nk)|q_n∈Q,x_k∈I,s_nk∈R}，s_nk为匹配的权重值，R为权重值集合，通常使用以下公式来表达：式(9)表示通过匹配特征点数最多作为最好的投影矩阵，要不断的循环计算投影空间中的投影矩阵，对于移动智能手机平台来说计算能力和时间代价几乎是不可行的。所以采用改进式(10)设置了特征点权重值信息集合w＝[w₁,w₂,w₃………w_n]^T，通过式(13)来求解，式(13)类似于支持向量机计算最大分类面解法。权重值最大的G投影矩阵作为当前图像相对三维场景特征识别点投影矩阵，智能手机摄像机每拍摄采集一幅图像都进行光流跟踪在线学习，对表现比较突出设置较高的权重值；式(11)为室内自然场景三维场景特征识别点对应的权重值；式(12)为匹配的二维图像特征识别点描述符；

w＝[w₁,w₂,w₃………w_n]^T (式11)

L(J,G)＝[L₁(J,G),L₂(J,G),L₃(J,G)],………L_j(J,G)]^T L_j(1≤j≤J) (式12)

采用梯度下降的方法对w_n的权重值进行更新，设(q_n,G_t)为第t幅训练图像三维特征识别坐标点集和需要估计的投影矩阵，在每一个三维识别坐标点会设置一个初始的权重值w_n，并关联上一个描述符和一个室内拓扑网络路径节点，通过逐个计算第t幅二维图像特征识别点对应三维场景特征识别点投影矩阵分量得出。选择权重值最大的位G_t计算得出

和更新

而在线学习阶段，通过基于全概率RANSAC计算方法，得到的中间G投影矩阵进行权重值判断，选择权重值最高的作为G_t，第二高的为G_i用来更新下一帧的

输出权重值最高的G_t，为当前图像的投影矩阵，对当前投影矩阵进行分解，分解为当前帧画面的位姿矩阵[R|T]；

步骤14：对跟踪的二维图像特征识别点进行分析，若跟踪上的特征点个数大于P₁并且小于P₂，25＜P₁＜35,40＜P₂＜50，跟踪到的特征点数量影响位姿矩阵的注册精度，则进行确实的特征识别点恢复，P₁为跟踪点下限，P₂为位姿矩阵[R|T]计算质量控制阈值；

丢失的特征点恢复通过计算参考图像与关键帧图像的单应矩阵来和当前图像对应三点的投影矩阵来实现，由步骤2中所求的单应矩阵公式可推导每一帧图像；

单应矩阵公式：

步骤2已经推导

对空间三维场景特征识别点Q对应在第二幅图像上参考图像的2D坐标点为

如果当前图像上没有匹配的2D特征点，利用投影矩阵G进行重投影，计算当前图像的坐标，并在该图像坐标点的周围10个像素邻域内，计算BRISK特征向量Z₁。在根据上式，利用当前图像的与第二幅参考图像的单应矩阵

将以x₂为中心的像素块投影到当前图像，

为x_r邻域上的第n个像素，

为单应变换后当前图像的像素坐标，并计算单应变化后的像素块的BRISK特征向量Z₂，然后计算两个特征向量Z₁Z₂的欧式空间距离，当满足设定的阈值T时候，将Z₁特征向量进行恢复，否则认为该特征点不符合条件丢弃该特征点；

步骤15：当跟踪到的图像特征识别点小于P₁，说明对当前场景跟踪失败，用户到达新的场景需要进行重建和识别，返回步骤1；

步骤16：由步骤5建立的投影矩阵G及通过描述符与室内路径节点映射转换关系表，用智能手机摄像机内的内参矩阵A和由投影矩阵G位姿矩阵[R|T]合成的三维注册矩阵K，设定虚拟摄像头的内外参数，将虚拟导航引导物体进行虚拟叠加至现实场景，通过显示设备进行输出；

当智能手机每采集当前场景图像时，先与参考图像进行对比，如果相似则判断进入相对应的子场景，接着通过光流跟踪算法进行特征点识别，权重值最大的特征识别点与室内拓扑网络节点进行绑定，每一个权重至最大的特征识别点都与网络节点进行绑定映射识别完成进行虚拟导航指引物体加载，实现路径导航；

步骤17：显示现场地图和虚拟导航引导箭头，并将所获得的预存离线场景图像信息对应的预存现场位置信息在现场地图中进行标示；

步骤18：执行针对目标位置的增强现实室内导航功能命令，执行命令包括从用户所在位置到目标位置的相对位置显示、路径显示与虚拟导航指引箭头叠加在现实场景中。

以上所述，仅为本发明的较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术发明范围内，可轻易想到的变换或替换，都应该涵盖在本发明的保护范围之内。因此，本发明保护范围应所述权利要求的保护范围为准。

Claims

1.一种基于室内自然场景图像深度学习的增强现实导航方法，其特征在于，包括以下步骤：

2.根据权利要求书1所述的一种基于室内自然场景图像深度学习的增强现实导航方法，其特征在于，所述的步骤a中室内自然场景的三维场景特征识别点信息库建立包括如下具体步骤：