CN110689623A

CN110689623A - 基于增强现实显示的游客导览系统及方法

Info

Publication number: CN110689623A
Application number: CN201910769728.3A
Authority: CN
Inventors: 徐超; 谢君; 崔娟
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2020-01-14
Anticipated expiration: 2039-08-20
Also published as: CN110689623B

Abstract

本申请公开了一种基于增强现实显示的游客导览方法，首先获取现实场景图像，然后从现实场景图像中识别出自然标记，自然标记包括指示牌，之后获取与自然标记对应的虚拟三维静态模型和/或虚拟三维动态模型，并将模型放置于虚拟场景中，其中模型包括指示牌指示地点所包含的游览景点模型和/或游玩项目的模型，和/或从当前位置到达指示牌指示地点的路线方向指示模型，最后将虚拟场景与现实场景图像相融合得到增强现实的导览画面，以对指示牌指示地点进行内容介绍和/或动态路线导引。该方法通过识别指示牌来对图像进行增强现实处理，使得游客能够形象地了解目标景物、目标设施的景色、游玩内容，同时能够为游客指明行进方向，起到路线指引作用。

Description

基于增强现实显示的游客导览系统及方法

技术领域

本申请涉及旅游管理技术领域，特别涉及基于增强现实显示的游客导览系统，以及基于增强现实显示的游客导览方法。

背景技术

近年来，随着国民生活水平的提高，旅游行业产值也增速迅猛，每年的游客接待量、旅游总收入都屡创新高，旅游观光逐渐成为了人们日常生活中放松、娱乐、休闲的一个重要途径。而为了提高游客在景区、游乐园、博物馆、纪念馆等旅游场所内的自助观赏游玩体验，旅游场所内的道路上会设置有指示牌，指示牌上显示有附近能够抵达的景点、展品展区、游乐设施的名称、所在方向、路程距离等信息，以供游客选择兴趣度最高的游览游玩的景点和设施。另外，旅游场所内的景点、展品、设施处会设置解说牌并展示有文字和图片说明，或者为游客配发语音导游器，以实现无人化地、自助地向游客进行当前的景点、展品、游乐设施的介绍。

然而，上述通过指示牌来指明游览项目和方向的方式，其作用较为有限，无法对游览项目进行生动形象的说明，例如在游乐场的地图和指示牌上只显示有“飞天魔轮”的游玩项目，但游客并不了解该游玩项目的具体形式，也就无法得知对该项目的兴趣度，导致游客只能无序地去随机体验不同项目，而无法有针对性地、经过比较地去游玩兴趣度较高的项目。另外，游客在前往某一景点时，只能依靠指示牌上粗略的一个方向和路程距离的指示作为导引，但指示牌通常只设置在部分的道路交叉口处，游客在跟随指示牌导引的过程中可能会由于疏忽而漏掉其中一个指示牌从而走入错误的道路。

并且，上述通过解说牌和导游器进行景点和展品说明的方式不够直观和形象，在游客较多的时候，景点和展品处需要排队进行游览和观赏，而解说牌处也可能需要排队进行浏览，而语音介绍则较为麻烦，不利于游客体验。尤其是对于文物类展品来说，书画文物及建筑等展品可能处于破损、脆化、脱色、剥落等情况，游客只凭解说牌的文字和图片无法直观欣赏到展品在全盛时期的样貌和魅力。对于保存条件特殊的珍贵展品以及体积较小的展品，游客只能在隔离箱外观赏，无法近距离地观赏，这对于游客来说同样降低了观赏体验。

发明内容

(一)申请目的

基于此，为了使游客在确定游览游玩目标时能够对指示牌上的陌生景点进行较为详细且形象的了解，并且防止用户在去往游览游玩目标途中走错道路，本实施例通过建立增强现实画面并显示虚拟模型以使游客能够对指示牌上的陌生景点有所直观了解，提升游客游玩体验；并且为了使游客在景点游玩时对景物有更好的游玩体验，本实施例通过建立增强现实画面并显示虚拟模型以使游客体验到景点景物的特色；另外为了使游客在博物馆内欣赏展品时能够观赏到破碎展品的完好模样，并能够详细观赏无法近距离观看的展品以及较小的展品，本实施例通过建立增强现实画面并显示虚拟模型以使游客能够观看到动态的完好展品以及拉近放大后的展品，本申请公开了以下技术方案。

(二)技术方案

作为本申请的第一方面，本申请公开了一种基于增强现实显示的游客导览系统，包括：

现场图像获取模块，用于获取现实场景图像；

自然标记识别模块，用于从所述现实场景图像中识别出自然标记，所述自然标记包括指示牌；

三维模型获取模块，用于获取与所述自然标记对应的虚拟三维静态模型和/或虚拟三维动态模型，并将所述模型放置于虚拟场景中；

增强现实显示模块，用于将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面，以对指示牌指示地点进行内容介绍和/或动态路线导引；其中，

所述模型包括指示牌指示地点所包含的游览景点模型和/或游玩项目的模型，和/或从当前位置到达指示牌指示地点的路线方向指示模型。

在一种可能的实施方式中，所述自然标记还包括景物和/或展品，所述模型还包括展品全览模型和/或展品介绍标注，以对景物和/或展品的特色进行展示。

在一种可能的实施方式中，所述自然标记识别模块包括：

网格划分单元，用于将所述现实场景图像划分为多个网格图像块；

第二特征提取单元，用于对每个所述图像块提取ORB特征点，并计算BRIEF描述子；

词频向量计算单元，用于通过视觉词汇树对每个所述图像块进行检索，并算出相应的加权词频向量；

相似性计算单元，用于基于所述加权词频向量算出每个所述图像块与标记库中所有自然标记图像的相似性数值，进而得到每个所述图像块的标记类别和相似性得分；

错误剔除单元，用于分别计算各所述图像块的相似性得分占所有图像块的相似性得分之和的比重，并剔除比重低于第一阈值的图像块；

标记识别单元，用于计算所述现实场景图像相对于标记库中各个自然标记的相似性得分，从而识别出所述现实场景图像包含的自然标记。

在一种可能的实施方式中，所述自然标记识别模块还包括：

第一特征提取单元，用于对标记库中每个的自然标记提取ORB特征点，并计算BRIEF描述子；

特征聚类单元，用于对所有提取的描述子进行聚类；

权重计算单元，用于对聚类之后的特征建立视觉词汇树，并进行权重的计算。

在一种可能的实施方式中，所述自然标记识别模块包括：

单应矩阵计算单元，用于算出关键帧到当前帧的单应矩阵，并基于标记库中标记图像到关键帧的单应矩阵算出标记库中标记图像到当前帧的单应矩阵；

相机姿态估计单元，用于基于四组位于标记平面的从世界坐标系到当前帧图像坐标系的点对进行相机姿态估计，并对相机姿态进行优化；

单应矩阵更新单元，用于将标记库中标记图像到当前帧的单应矩阵更新为优化后的相机姿态所对应的单应矩阵；

关键帧更新单元，用于判断所述标记在关键帧与在当前帧的位置差距是否超出第二阈值，并在判定超出所述位置差距超出第二阈值时将当前帧设为新的关键帧；

更新控制单元，用于在关键帧和当前帧之间的帧数超过帧数阈值时触发强制更新关键帧；

其中，所述关键帧为在识别到自然标记并算出单应矩阵与相机姿态的相应图像帧。

在一种可能的实施方式中，所述增强现实显示模块包括：

显著图生成单元，用于生成所述现实场景图像的显著图S(i,j)；

语义图生成单元，用于生成所述现实场景图像的语义分割图H(i,j)；

标注设置单元，用于预先设置兴趣点位置和标注大小；

引导图像生成单元，用于依据所述显著图S(i,j)、所述语义分割图H(i,j)以及经训练得到的人工标注语义倾向参数得到能够衡量用户视野中各像素点不同重要程度的引导图像G(i,j)，所述引导图像G(i,j)的计算模型为：

(i,j)为像素点，c为对应的语义权重因子。

在一种可能的实施方式中，所述增强现实显示模块还包括：

边缘图生成单元，用于生成所述现实场景图像的边缘图；

最小能量计算单元，用于将所述引导图像、所述边缘图、所述兴趣点位置和标注大小输入能量函数E(P)＝E_lb(P)+E_ln(P)，算出能量函数E(P)最小值，其中标注能量函数E_lb(P)为：

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)，

其中，E_lb-g(P,G)为标注区域对用户视野中重要区域的遮挡能量，E_lb-d(P,D)为标注区域对用户视野中物体边缘的遮挡能量，E_lb-int(P)为标注之间的相互遮挡能量，α_i(i＝1,…,3)是不同能量的权重系数，

引线能量函数E_ln(P)为：

E_ln(P)＝β₁E_ln-g(P,G)+β₂E_ln-int(P)+β₃E_ln-len(P)+β₄E_ln-ori(P)，

其中，E_ln-g(P,G)为引导线对用户视野中重要区域的遮挡能量，E_ln-int(P)为引导线间交叉的能量，E_ln-len(P)为引导线的长度能量，E_ln-ori(P)为引导线的方向能量，β_i(＝1,…,4)是不同能量的权重系数；

标注位置优化单元，用于通过梯度下降法进行权值训练来确定所述权重系数α_i和β_i，并通过贪心算法对每个标注的能量函数进行评估，将所述能量函数E(P)最小值对应的位置确定为标注显示位置。

作为本申请的第二方面，本申请还公开了一种基于增强现实显示的游客导览方法，包括：

获取现实场景图像；

从所述现实场景图像中识别出自然标记，所述自然标记包括指示牌；

获取与所述自然标记对应的虚拟三维静态模型和/或虚拟三维动态模型，并将所述模型放置于虚拟场景中；

将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面，以对指示牌指示地点进行内容介绍和/或动态路线导引；其中，

在一种可能的实施方式中，所述从所述现实场景图像中识别出自然标记包括：

将所述现实场景图像划分为多个网格图像块；

对每个所述图像块提取ORB特征点，并计算BRIEF描述子；

通过视觉词汇树对每个所述图像块进行检索，并算出相应的加权词频向量；

基于所述加权词频向量算出每个所述图像块与标记库中所有自然标记图像的相似性数值，进而得到每个所述图像块的标记类别和相似性得分；

分别计算各所述图像块的相似性得分占所有图像块的相似性得分之和的比重，并剔除比重低于第一阈值的图像块；

计算所述现实场景图像相对于标记库中各个自然标记的相似性得分，从而识别出所述现实场景图像包含的自然标记。

在一种可能的实施方式中，在所述从所述现实场景图像中识别出自然标记之前，该方法包括：

对标记库中每个的自然标记提取ORB特征点，并计算BRIEF描述子；

对所有提取的描述子进行聚类；

对聚类之后的特征建立视觉词汇树，并进行权重的计算。

算出关键帧到当前帧的单应矩阵，并基于标记库中标记图像到关键帧的单应矩阵算出标记库中标记图像到当前帧的单应矩阵；

基于四组位于标记平面的从世界坐标系到当前帧图像坐标系的点对进行相机姿态估计，并对相机姿态进行优化；

将标记库中标记图像到当前帧的单应矩阵更新为优化后的相机姿态所对应的单应矩阵；

判断所述标记在关键帧与在当前帧的位置差距是否超出第二阈值，并在判定超出所述位置差距超出第二阈值时将当前帧设为新的关键帧；

在关键帧和当前帧之间的帧数超过帧数阈值时触发强制更新关键帧；

在一种可能的实施方式中，所述将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面包括：

生成所述现实场景图像的显著图S(i,j)；

生成所述现实场景图像的语义分割图H(i,j)；

预先设置兴趣点位置和标注大小；

依据所述显著图S(i,j)、所述语义分割图H(i,j)以及经训练得到的人工标注语义倾向参数得到能够衡量用户视野中各像素点不同重要程度的引导图像G(i,j)，所述引导图像G(i,j)的计算模型为：

(i,j)为像素点，c为对应的语义权重因子。

在一种可能的实施方式中，所述将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面还包括：

生成所述现实场景图像的边缘图；

将所述引导图像、所述边缘图、所述兴趣点位置和标注大小输入能量函数E(P)＝E_lb(P)+E_ln(P)，算出能量函数E(P)最小值，其中标注能量函数E_lb(P)为：

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)，

引线能量函数E_ln(P)为：

其中，E_ln-g(P,G)为引导线对用户视野中重要区域的遮挡能量，E_ln-int(P)为引导线间交叉的能量，E_ln-len(P)为引导线的长度能量，E_ln-ori(P)为引导线的方向能量，β_i(i＝1,…,4)是不同能量的权重系数；

通过梯度下降法进行权值训练来确定所述权重系数α_i和β_i，并通过贪心算法对每个标注的能量函数进行评估，将所述能量函数E(P)最小值对应的位置确定为标注显示位置。

(三)有益效果

本申请公开的系统及方法，能够通过识别指示牌来对图像进行增强现实处理，使得游客能够生动形象地了解目标景物、目标设施的景色、游玩内容，提升了游玩体验，同时能够为游客指明行进方向，起到路线指引作用；通过识别景物来对景物本身进行增强现实显示，更好地体现景物特色；通过识别展品并利用模型进行介绍，节省了游客时间，并能够使游客欣赏对破损展品进行虚拟还原后的展品，以及欣赏不易近距离观察的展品的细节。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的游客导览系统实施例的结构框图。

图2是本申请公开的游客导览方法实施例的流程示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1详细描述本申请公开的游客导览系统实施例。如图1所示，本实施例主要包括有现场图像获取模块、自然标记识别模块、三维模型获取模块和增强现实显示模块。

现场图像获取模块用于获取现实场景图像。

游客在景区游览时，可以佩戴景区配发的增强现实设备，增强现实设备内配置有本实施例公开的游客导览系统，并通过现场图像获取模块(例如摄像头)实时获取游览过程中的外界图像。

自然标记识别模块用于从现实场景图像中识别出自然标记。

自然标记区别于人工标记，并非为实现设计好的图案。例如景区道路上的指示牌，景区内的景物，博物馆内的展品，以及游乐园内的娱乐设施等等。可以采用自然特征检测、边缘检测、平面检测等方式来识别出自然标记。

识别出自然标记的目的是为了获取对应的虚拟模型。当游客在游乐园内游览到某个路口时，视野内看到了道路一侧的指示牌显示“飞天魔轮500m”并显示有箭头指示该设施所在方向时，自然标记识别模块会从视野图像(现实场景图像)中识别出该指示牌，例如通过从图像中提取特征点并与后台数据库进行比对，判断出图像中存在有指示牌并识别出“玻璃栈道500m”的文字信息。

三维模型获取模块用于获取与自然标记对应的虚拟三维静态模型和/或虚拟三维动态模型，并将模型放置于虚拟场景中。增强现实显示模块用于将虚拟场景与现实场景图像相融合得到增强现实的导览画面，以对指示牌指示地点进行内容介绍和/或动态路线导引。

自然标记识别模块识别出自然标记后，三维模型获取模块从模型库中调出相应的虚拟模型，并放置于建立的虚拟场景中。虚拟模型可以是静态模型，文字标注、图片、三维模型等，虚拟模型也可以是动态的、有动画效果的模型，以更加生动的方式展示模型向表达的内容。

模型包括指示牌指示地点所包含的游览景点模型和/或游玩项目的模型，和/或从当前位置到达指示牌指示地点的路线方向指示模型。

对于依据指示牌来预先了解游览景点概况：当游客在某路口处看到指示牌时，自然标记识别模块识别出的自然标记为写有“玻璃栈道”的指示牌，为了使不了解玻璃栈道游览内容的游客预先了解玻璃栈道，便于决定是否要去玻璃栈道进行游览，三维模型获取模块会调用玻璃栈道的三维虚拟模型，显示出陡峭山体以及在陡峭山坡旁人工建立的能够透视脚下山坡的较窄露天通道的游览景点模型，模型完全模仿真实景点进行建模，以给游客提供更为直观的了解，还可以通过景点设施介绍标注显示出该景点的类型标签，例如“刺激”、“恐高勿入”等，还可以通过箭头模型等方向指示符号显示去往该景点的路线方向，以及显示路程距离等。

显示的路线方向可以是当前需要行进的单步方向，也可以显示出整体路线图方向。可以通过GPS定位系统来确定游客当前位置，以实现相应路线方向的指示以及路程距离的计算。

当视野图像中存在有多个指示牌时，则增强现实显示模块可以将该多个相应的模型均显示出来，也可以通过与游客进行交互，接受游客的输入从而进行选择性显示。游客还可以通过与增强现实设备进行交互来保持选中的游览景点的路线方向的显示，避免指示该景点的指示牌从视野中消失后增强现实显示模块停止显示该路线方向，以使游客能够时刻知晓自身的行进路线是否正确。

对于依据指示牌来预先了解游乐设施概况：其与上述游览景点的情况类似，其中游乐设施通常采用动态模型，以使游客能够更好的了解游乐设施的游乐过程和类型等。

对于依据实际景物来展现景物特色：当游客到达并开始体验玻璃栈道后，自然标记识别模块识别出玻璃栈道景观时，为了更好地展示该景点的特色，可以在增强现实显示模块上显示栈道的详细信息标注，例如最大载重量、海拔高度、栈道总长，还可以显示栈道在不同季节的处的景观，例如加上动态的落叶效果、雪花效果等。

对于依据展品实体来对展品进行内容介绍以及展现展品特色：当游客在馆内观赏展品时，自然标记识别模块识别出视野内的展品之后，会通过展品介绍标注显示出展品的相关信息，例如名称、朝代、历史作用等，还可以显示360度转动显示的动态展品概览模型。对于由于历史原因导致残缺的展品，可以显示出通过计算机技术还原之后的虚拟模型，还原的模型可以单独显示在一旁，也可以直接补全在现场图像中的实物区域，展示出展品在全盛时期的样貌和魅力。而对于一些体积较小不易仔细观赏的展品，显示模块可以在识别出该展品后显示出放大的展品全览动态模型，便于用户观赏细节。

另外，对于一些组合件的展品，例如一套具有历史意义的人偶，则可以通过显示多个展品介绍标注分别对各人偶进行介绍。当屋内展示有较多的展品时，视野内同时出现多个不同远近的展品，则可以通过图像识别进行展品的确认，并调用相应的标注模型对视野内的各展品进行标注和/或显示概览模型，以便于用户快速确定想要寻找并观赏的展品的位置。

本实施例公开的系统，能够通过识别指示牌来对图像进行增强现实处理，使得游客能够生动形象地了解目标景物、目标设施的景色、游玩内容，提升了游玩体验，同时能够为游客指明行进方向，起到路线指引作用；通过识别景物来对景物本身进行增强现实显示，更好地体现景物特色；通过识别展品并利用模型进行介绍，节省了游客时间，并能够使游客欣赏对破损展品进行虚拟还原后的展品，以及欣赏不易近距离观察的展品的细节。

在自然标记的识别过程中，自然标记在现实场景图像中所占的比例是不确定的。当该比例较小时，自然标记的识别过程很容易受到特征丰富的背景的影响，从而导致识别错误或者识别失败。另外，当现实场景图像中不含标记时，也容易出现错误识别的情况。因此在一种实施方式中，自然标记识别模块包括网格划分单元、第二特征提取单元、词频向量计算单元、相似性计算单元、错误剔除单元和标记识别单元。

网格划分单元用于将现场图像获取模块获取的现实场景图像划分为m×n个网格图像块，例如划分为4×4的网格。

第二特征提取单元用于对每个网格划分单元划分出的图像块提取ORB特征点。ORB(Oriented FAST and Rotated BRIEF)是一种快速特征点(也称关键点)提取和描述的算法，能够用来识别两张图像中是否包含同一人或物体。ORB算法分为两部分，分别是特征点提取和特征点描述，分别由第二特征提取单元的特征点提取子单元和特征点描述子单元实现。

特征点提取子单元的特征点提取过程如下：

首先特征点提取子单元对网格内的图像块进行粗提取。具体的，特征点提取子单元从图像块中选取一点P，以P为圆心画一个半径为3的圆。若圆周上有连续n(通常设置n＝12)个像素点的灰度值与P点的灰度值之差的绝对值超出第一阈值，则认为P为特征点。在进行灰度值比较时，可以首先检测圆周上按照顺时针排序后的第1、5、9、13(分别位于第12、3、6、9点钟方向)位置上的灰度值，若这四个位置上有3个及以上的像素点的灰度值都大于或者小于P点的灰度值且差值的绝对值超出了第一阈值，则P为特征点，否则直接判断P点为非特征点，以此加快特征点的提取，快速排除非特征点。

然后特征点提取子单元使用了Harris角点对粗提取出的特征点进行正确度排序，选择前N个特征点作为结果集合。

之后特征点提取子单元使用灰度质心法计算特征点的朝向，利用特征点的灰度质心与中心的偏移向量来作为特征点的朝向，也就是说通过矩来计算特征点以r为半径范围内的质心，特征点坐标到质心形成一个向量作为该特征点的方向。其中，图像块的质量定义为：

其中，I(x,y)为点(x,y)处的灰度值。

利用该式得到图像块质心的坐标：

则特征点O到图像块质心M的夹角即为该特征点的方向，特征点的方向为：

θ＝arctan(m₀₁/m₁₀)

其中，图像块被约束为圆心为O、半径为r的区域。

描述子是对特征点进行一个描述，BRIEF描述子类似于字符串描述，是由图像块的灰度二值检验结果组成的二值串。

特征点描述子单元的特征点描述过程如下：

先对图像进行高斯滤波，然后以特征点为中心，取S×S的邻域大窗口(通常设置S＝31)，在大窗口中随机选取一对5×5的子窗口，基于积分图像比较子窗口内的像素和，进行二进制赋值。对于一个平滑的图像块p，将二值检验定义为：

其中，p(x)是图像块p在点x处的灰度值。

然后在大窗口中随机选取n(通常设置n＝256)对子窗口，重复上述二进制赋值，形成特征描述子：

对于任意n个点对(x_i,y_i)的二值检验，定义如下的2×n维的点对矩阵：

利用朝向特征点方向θ所对应的旋转矩阵R_θ，将上述点对矩阵映射到一个新的点对矩阵：

S_θ＝R_θS

因此改进后的描述子可以定义为：

f′_n(p,θ)＝f_n(p)|(x_i,y_i)∈S_θ

也就是计算旋转之后的坐标中取出点来计算BRIEF描述子。为了方便计算，将朝向分成30个方向(每个朝向12°)，并对每个朝向预先计算好旋转矩阵。由于特征点的朝向在不同视角是一致的，因此改进后的描述子具有旋转不变性。

词频向量计算单元用于加权词频向量通过视觉词汇树对每个网格图像块p_ij进行检索，并算出相应的加权词频向量。

对于文本检索，其通过以下方法进行预处理：首先将文档文本分解为词，每个词用它的词源来表示：然后剔除在过滤词表中的词，比如助词量词等缺乏区分不同文本的能力；之后为过滤之后的词赋予唯一的标识，并把文档表示为一个词典的词频向量，同时用加权方法(如倒排文件词频加权法)为不同的词赋予不同的权值；最后将所有文档的加权词频向量组织成倒排索引文件，便于高效的检索。在进行文本检索时，与上述预处理过程中对每个文档的操作相同，并将加权词频向量与库中文档逐一计算相似性并进行排序，从而得到匹配程度降序的检索结果。

视觉词汇树一种将上述文本检索方法应用于图像而形成的目标检测方法，该方法将图像类比为文本，将图像特征类比为词汇，实现图像检索和目标识别。通过tf-idf加权算法，得到加权词频向量：

其中n_id是词i在文档d中出现的词频，n_d是文档的总词数，N_i是包含词i的文档数目，N是数据库中总的文档数目。n_id/n_d是词频，log(N/N_i)是倒排文档频率。某个词在一个特定的文档中出现的次数越多，则该词对该文档的描述能力越强；同时倒排文档频率则降低了经常出现在数据库中的词的权重，因为这些词往往不具备很强的区分文档的能力。

相似性计算单元用于基于词频向量计算单元算出的加权词频向量，算出每个图像块与标记库中所有自然标记图像的相似性数值，进而得到每个图像块的标记类别和相似性得分。

相似性数值的计算公式为：

由该公式可知，查询文本与数据库中文档的相似性定义为向量夹角的余弦，夹角的余弦值越大则相似性越高。式中，‖·‖₂是向量的二范数，标记库中k个标记的加权词频向量v_d,l是预先算出的：

v_d,l＝(t₁,…,t_V)^T,1≤l≤k

每个网格图像块最相似的标记类别以及相应的相似性得分为：

错误剔除单元用于分别计算相似性计算单元算出的各图像块的相似性得分占所有图像块的相似性得分之和的比重，并剔除比重低于设定阈值的图像块。

通过以下公式来计算各图像块的显著性：

当图像块的最大得分占所有得分之和的比重越高，则显著性越大，识别的结果越可靠；当显著性低于设定阈值时，则认为识别错误。

标记识别单元用于在剔除识别错误的图像块之后，计算现实场景图像相对于标记库中各个自然标记的相似性得分，从而识别出现实场景图像包含的自然标记。

总图像的相对于各个标记的相似性得分为：

总图像最相似的标记类别以及相应的相似性得分即为：

L_q＝argmax(S_q,l)

S_q＝max(S_q,l)

通过以下公式来计算总图像的显著性：

当D_q小于一定阈值时，则认为图像不含标记。

本实施例基于ORB特征提取以及词汇树方法，对待识别图像进行网格化分割，对每块网格图像提取ORB特征，并进行词汇树的搜索，分别得到与库中标记图像的相似度，并定义了双重阈值来判断该图像块是否包含标记图像区域，随后对每个网格图像的结果进行筛选和统计，剔除了大部分与标记不相关的背景区域，最后再次使用双阈值法来判断图像是否包含标记，并得到标记的大致区域。结合标记的大致区域，将图像与对应的标记图像进行配准，计算得到单应矩阵。再结合人为假设的世界坐标系，可以求得多个从世界坐标系到图像坐标系的点对，从而根据相机姿态求解算法得到相机的姿态。

在增加较少计算量的情况下，达到了更准确的识别效果，并且能有效地确定标记在图像中的大致位置和范围，为后续自然标记的单应矩阵求解以及相机姿态估计提供了良好的先验信息。此外，该系统能够可以在标记占图比例较小时进行准确的识别，改进了图像相似性度量，并定义显著性程度来有效地排除图像中不含标记的情况。

在一种实施方式中，该系统还包括：第一特征提取单元、特征聚类单元和权重计算单元。

第一特征提取单元用于对标记库中每个的自然标记提取ORB特征点，并计算BRIEF描述子。

特征聚类单元用于对所有提取的描述子进行聚类。将所有提取的描述子进行K—means聚类，K个聚类中心的描述子即可作为视觉词汇树的词汇。为了聚类的可靠性，可以多次随机选择不同的初始聚类中心进行聚类，并选择距离总和最小的结果。值得注意的是，由于描述子空间的各个维度之间的相关性一股都很小，因此可以采用简单的欧氏距离。需要说明的是，在总特征数量不大时可以不进行聚类。

词汇树通过分层K-means聚类的方法得到。其中的K不是最终聚类的数目，而是每个结点的子节点个数。在最开始，所有的词汇被聚类为K个子类，随后每个子类又被分成K个子类，直到达到树的层数限制L。

权重计算单元用于对聚类之后的描述子建立视觉词汇树，并进行权重的计算。

第一特征提取单元、特征聚类单元和权重计算单元用于为后续的标记识别做准备。

由于在逐帧进行标记跟踪的过程中，误差会不断累积，极大地影响了相机姿态估计的精度。因此在一种实施方式中，自然标记识别模块包括：

单应矩阵计算单元，用于算出关键帧到当前帧的单应矩阵，并基于标记库中标记图像到关键帧的单应矩阵算出标记库中标记图像到当前帧的单应矩阵。其中，关键帧为在识别到自然标记并算出单应矩阵与相机姿态的相应图像帧。

相机姿态估计单元，用于基于四组位于标记平面的从世界坐标系到当前帧图像坐标系的点对进行相机姿态估计，并对相机姿态进行优化。

单应矩阵更新单元，用于将标记库中标记图像到当前帧的单应矩阵更新为优化后的相机姿态所对应的单应矩阵。

关键帧更新单元，用于判断标记在关键帧与在当前帧的位置差距是否超出第二阈值，并在判定超出位置差距超出第二阈值时将当前帧设为新的关键帧，并更新相应信息。

更新控制单元，用于在关键帧和当前帧之间的帧数超过帧数阈值时触发强制更新关键帧。

基于以上两个约束，可以保证关键帧与当前帧的连续性，从而大大减少了由大幅度视角改变和光照变化等因素造成的跟踪失败的情况。标记在关键帧与当前帧的位置偏移定义如下：

其中，x_c,i为当前帧中标记轮廓上的采样点，x_k,i为关键帧中标记轮廓上对应的点。在当前帧相对于关键帧的旋转、平移、缩放较大时，

的值就会超过阈值，因此可以进行关键帧的选择。

在基于关键帧的跟踪仍然存在失败的情况下，可以相对前一帧进行跟踪，如果此时跟踪成功则将当前帧作为新的关键帧，从而进一步减少了跟踪失败的情况，提高了稳定性。

本实施例提出了一种基于关键帧的跟踪策略，在一定的相机姿态变化范围以及时间间隔内，将跟踪到的最为可靠的帧选为关键帧，对于之后的帧计算相对于该关键帧的相机姿态进而得到当前帧的相机姿态，并判断是否选为新的关键帧。该方法可以大大地降低累积误差的影响，从而为更好的增强现实体验奠定基础。

现有AR应用中的标注放置方法大多基于几何位置，缺乏对真实场景的理解，限制了其效果及使用场景，例如游客在展览馆浏览展品时，显示模块显示出的某展品的各拼接部位的介绍标注直接将展品本身遮挡住，妨碍用户进行观赏。因此为了使得标注不遮挡视野中主要物体、标注间不互相遮挡、引导线互相不交叉、引导线长度适当短、引导线尽量不遮挡视野中主要物体，同时还为了避免标注与图像的显著性区域重叠、避免标注与图像的边缘等几何结构重叠、使得标注背景颜色和图像的对比度尽量大以保证用户对标注的可读性，在一种实施方式中，增强现实显示模块包括：

显著图生成单元，用于生成现实场景图像的显著图S(i,j)。由于需要避免标注对重要区域发生遮挡，因此通过显著图来确定出重要区域，并将标注放置于显著性值较低的区域(非重要区域)。显著区域是图像中能够快速吸引观察者注意的区域，而显著性检测算法模拟人的视觉注意力机制自动筛选图像信息，从而得到显著图。显著性检测分类算法可以采用ITTI算法，先在多尺度上进行特征提取，再通过计算显著值来计算各特征的显著图，最后融合多尺度特征图并进行加权得到显著图。

语义图生成单元，用于生成现实场景图像的语义分割图H(i,j)。图像语义分割旨在对图像的每个像素分类，从而将图像划分具有不同视觉意义的区域，例如将其他游客、背景墙壁、展品等各个目标进行分割，并将其标记为不同颜色。图像语义分割算法可以采用FCN(Fully Convolutional Network)全卷积网络，该网络没有全连接层，将图像语义分割转化为像素点的分类问题。训练模型时将FCN-32s与高维特征相结合，优化得到FCN-16s，再与上层特征相结合，优化得到FCN-8s。

标注设置单元，用于预先设置兴趣点位置和标注大小。

兴趣点(Point of interest，POI)就是需要标注的物体，虚拟标注可以是文字、图像、视频等，虚拟标注和兴趣点间通过引导线连接。虚拟标注的大小也会影响用户的可视空间大小，因此尺寸选择要适中。当用户视野中的标注个数过少时，标注只要不覆盖用户视野的重要区域即可，此时标注位置的选择非常多，任意放置即可。

引导图像生成单元，用于依据显著图S(i,j)、语义分割图H(i,j)以及经训练得到的标注语义倾向参数得到能够衡量用户视野中各像素点不同重要程度的引导图像。由于单独使用ITTI算法或基于深度学习的显著性算法，均无法满足实际要求。因此需要通过训练集对可能用到的不同场景(馆内、室外等)进行训练，并统计出人工标注的语义倾向，例如在馆内，展品的介绍标注通常被放置于墙壁区域或地面区域，在室外，各游乐设施的介绍标注通常被放置于天空区域或树木区域。

引导图像G(i,j)的计算模型为：

(i,j)为像素点，c为对应的语义权重因子，N_actual为训练集中某语义类别的实际标注个数，例如训练集中每个标注覆盖区域的所有像素点进行其对应的语义信息的统计，得出各种语义对应的像素点个数，再除以标注的尺寸，得到对应标注的数量。N_protential为该语义类别的潜在标注个数，例如训练集中有9张图像包含水池，将9张图像中所有标注均放置到水池上，得到的水池中的标注数量为潜在标注个数。

综上所述，对于训练过程，需首先建立MLP(Manual Label Placement)数据库，根据训练集图片和人工标注信息，学习用户标注放置的语义倾向。对于测试过程，当在AR系统中检测到新物体，需要生成标注时，则标注放置算法开始。首先对图像数据和标注信息进行预处理，对于图像数据，需得到其显著性图像、语义分割图像；对于预设标注，需要其预设兴趣点位置和标注大小。根据显著性图像、语义分割图像以及训练过程得到的标注语义倾向参数，得到原图的引导图像。

本实施例通过在场景下将图像显著性信息与语义信息结合，更准确地描述了用户视野中不同区域的重要程度，从而得出更合理的标注放置策略。

在一种实施方式中，增强现实显示模块还包括：边缘图生成单元、最小能量计算单元和标注位置优化单元。

边缘图生成单元用于生成现实场景图像的边缘图。可以通过Canny算法获取到边缘图像。

最小能量计算单元将标注放置问题转化为最小化能量函数的问题，对于当前第t帧的所有标注集合P＝{P₁,…,P_k,…,P_K}，定义能量函数E(P)＝E_lb(P)+E_ln(P)，其中E_lb(P)为标注能量函数，E_ln(P)为引线能量函数。将引导图像、边缘图、兴趣点位置和标注大小输入能量函数E(P)＝E_lb(P)+E_ln(P)，算出能量函数E(P)最小值。

标注能量函数主要考虑标注本身对用户造成的影响，包括标注区域引起的与用户视野中重要区域、边缘及标注间的遮挡问题，例如介绍展品历史的标注遮挡住了展品本身。标注能量函数为：

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)

其中，E_lb-g(P,G)为标注区域对用户视野中重要区域的遮挡能量，E_lb-d(P,D)为标注区域对用户视野中物体边缘的遮挡能量，E_lb-int(P)为标注之间的相互遮挡能量，α_i(i＝1,…,3)是不同能量的权重系数。

1、能量项E_lb-g(P,G)为标注集合P对用户视野的引导图像G的遮挡：

其中，

为P_K对应的用户视野全图，标注覆盖区域的像素点值为1，其余像素点值为0，G(i,j)为引导图像，μ_L和v_L分别为标注图像的宽和高。若能量越小，则表明标注区域遮挡用户视野的重要区域越少；若能量越大，则表明标注所覆盖区域对用户来说越为重要，即此时标注遮挡住了用户视野中的重要区域。

2、能量项E_lb-d(P,D)为标注集合P对用户视野的边缘图像D的遮挡：

其中，D(i,j)为当前帧图像的边缘图像。若能量越小，则表明标注区域遮挡物体边缘越少；若能量越大，则表明标注的区域遮挡用户视野中的边缘过多，可能引起用户的不良体验。

3、能量项E_lb-int(P)为标注间互相遮挡：

其中，P_k和P_k′为集合P中不同的两个标注，若能量越小，则表明标注间互相遮挡的情况越少；若能量越大，则表明标注间互相遮挡的情况越多，影响用户对标注的可读性。

引导线能量函数主要考虑引导线对用户造成的影响，包括引导线引起的与用户视野中重要区域、引导线间交叉、长度、方向等方面。引导线能量函数为：

其中，E_ln-g(P,G)为引导线对用户视野中重要区域的遮挡能量，E_ln-int(P)为引导线间交叉的能量，E_ln-len(P)为引导线的长度能量，E_ln-ori(P)为引导线的方向能量，β_i(＝1,…,4)是不同能量的权重系数。

1、能量项E_ln-g(P,G)为标注P的引导线对用户视野的引导图像G的遮挡：

其中，

为连接标注P_k的引导线对应的用户视野全图，引导线覆盖区域的像素点值为1，其余像素点值为0。若能量越小，则表明引导线遮挡用户视野的重要区域越少；若能量越大，则表明引导线遮挡了用户视野中的重要区域，影响了用户的体验。

2、能量项E_ln-int(P)表示标注P_k的引导线与标注P_k′的引导线的交叉情况：

如果

并且

则Int(P_k,P_k′)＝1，否则Int(P_k,P_k′)＝0。其中，

为当前帧图像中的第k个需标注物体的图像O_k对应的兴趣点，

为标注P_k的中心点。若能量越小，则表明引导线交叉的情况越少；若能量越大，则表明引导线交叉过多，影响用户对标注的可读性和无歧义性，产生不良用户体验。

3、能量项E_ln-len(P)为通过考虑标注中心位置

和物体中心位置

之间距离的远近，从而决定物体图像O_k的标注中心位置

引导线长度越小，相对距离越小，则用户更容易将标注与物体对应。此外，标注本身不应遮挡物体图像O_k。物体与标注间的引导线为

则标注中心位置

和物体中心位置之间的绝对距离为

引导线长度能量为：

若能量越小，则表明引导线长度越小，则用户更容易将标注与物体对应；能量越大，则表明引导线长度越长，用户则较难将标注与物体对应。

4、能量项E_ln-ori(P)通过考虑引导线的方向。用户倾向于方向竖直向上的引导线，便于用户沿着引导线将标注与物体对应。引导线方向能量为：

其中，

为y轴方向向量与引导线向量间的夹角

若能量越小，则表明引导线越竖直向上，则用户更容易将标注与物体对应；能量越大，则表明引导线越斜，用户则较难将标注与物体对应。

增强现实标注放置问题转化为求能量函数最小值的优化问题，具体为：

min：E(P)＝E_lb(P)+E_ln(P)

标注位置优化单元用于通过梯度下降法进行权值训练来确定权重系数α_i和β_i，损失函数为：

其中

P^t为第t帧图像的标注，

为第t帧图像对应MLP数据库训练集中标注

的能量，通过训练集上的实验训练，确定权重系数α_i和β_i。并通过贪心算法依次优化每个标注，对每个标注的能量函数进行评估，将能量函数E(P)最小值对应的位置确定为标注显示位置。

下面参考图2详细描述本申请公开的基于增强现实显示的游客导览方法实施例。本实施例用于实施前述的游客导览系统实施例。如图2所示，本实施例公开的方法包括步骤100至步骤400。

步骤100，获取现实场景图像；

步骤200，从现实场景图像中识别出自然标记，自然标记包括指示牌；

步骤300，获取与自然标记对应的虚拟三维静态模型和/或虚拟三维动态模型，并将模型放置于虚拟场景中；

步骤400，将虚拟场景与现实场景图像相融合得到增强现实的导览画面，以对指示牌指示地点进行内容介绍和/或动态路线导引；其中，

在一种实施方式中，自然标记还包括景物和/或展品，模型还包括展品全览模型和/或展品介绍标注，以对景物和/或展品的特色进行展示。

在一种实施方式中，从现实场景图像中识别出自然标记包括：

将现实场景图像划分为多个网格图像块；

对每个图像块提取ORB特征点，并计算BRIEF描述子；

通过视觉词汇树对每个图像块进行检索，并算出相应的加权词频向量；

基于加权词频向量算出每个图像块与标记库中所有自然标记图像的相似性数值，进而得到每个图像块的标记类别和相似性得分；

分别计算各图像块的相似性得分占所有图像块的相似性得分之和的比重，并剔除比重低于第一阈值的图像块；

计算现实场景图像相对于标记库中各个自然标记的相似性得分，从而识别出现实场景图像包含的自然标记。

在一种实施方式中，在从现实场景图像中识别出自然标记之前，该方法包括：

对所有提取的描述子进行聚类；

对聚类之后的特征建立视觉词汇树，并进行权重的计算。

判断标记在关键帧与在当前帧的位置差距是否超出第二阈值，并在判定超出位置差距超出第二阈值时将当前帧设为新的关键帧；

其中，关键帧为在识别到自然标记并算出单应矩阵与相机姿态的相应图像帧。

在一种实施方式中，将虚拟场景与现实场景图像相融合得到增强现实的导览画面包括：

生成现实场景图像的显著图S(i,j)；

生成现实场景图像的语义分割图H(i,j)；

预先设置兴趣点位置和标注大小；

依据显著图S(i,j)、语义分割图H(i,j)以及经训练得到的人工标注语义倾向参数得到能够衡量用户视野中各像素点不同重要程度的引导图像G(i,j)，引导图像G(i,j)的计算模型为：

(i,j)为像素点，c为对应的语义权重因子。

在一种实施方式中，将虚拟场景与现实场景图像相融合得到增强现实的导览画面还包括：

生成现实场景图像的边缘图；

将引导图像、边缘图、兴趣点位置和标注大小输入能量函数E(P)＝E_lb(P)+E_ln(P)，算出能量函数E(P)最小值，其中标注能量函数E_lb(P)为：

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)，

引线能量函数E_ln(P)为：

通过梯度下降法进行权值训练来确定权重系数α_i和β_i，并通过贪心算法对每个标注的能量函数进行评估，将能量函数E(P)最小值对应的位置确定为标注显示位置。

在本文中，“第一”、“第二”等仅用于彼此的区分，而非表示它们的重要程度及顺序等。

本文中的模块、单元的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块和/或单元可以结合或集成于另一个系统中。作为分离部件说明的模块、单元在物理上可以是分开的，也可以是不分开的。作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个具体地方，也可以分布到网格单元中。因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于增强现实显示的游客导览系统，其特征在于，包括：

现场图像获取模块，用于获取现实场景图像；

2.如权利要求1所述的系统，其特征在于，所述自然标记识别模块包括：

3.如权利要求1所述的系统，其特征在于，所述自然标记识别模块包括：

4.如权利要求1所述的系统，其特征在于，所述增强现实显示模块包括：

标注设置单元，用于预先设置兴趣点位置和标注大小；

(i,j)为像素点，c为对应的语义权重因子。

5.如权利要求4所述的系统，其特征在于，所述增强现实显示模块还包括：

边缘图生成单元，用于生成所述现实场景图像的边缘图；

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)，

引线能量函数E_ln(P)为：

6.一种基于增强现实显示的游客导览方法，其特征在于，包括：

获取现实场景图像；

7.如权利要求6所述的方法，其特征在于，所述从所述现实场景图像中识别出自然标记包括：

将所述现实场景图像划分为多个网格图像块；

对每个所述图像块提取ORB特征点，并计算BRIEF描述子；

8.如权利要求6所述的方法，其特征在于，所述从所述现实场景图像中识别出自然标记包括：

9.如权利要求6所述的方法，其特征在于，所述将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面包括：

生成所述现实场景图像的显著图S(i,j)；

生成所述现实场景图像的语义分割图H(i,j)；

预先设置兴趣点位置和标注大小；

(i,j)为像素点，c为对应的语义权重因子。

10.如权利要求9所述的方法，其特征在于，所述将所述虚拟场景与现实场景图像相融合得到增强现实的导览画面还包括：

生成所述现实场景图像的边缘图；

E_lb(P)＝α₁E_lb-g(P,G)+α₂E_lb-d(P,D)+α₃E_lb-int(P)，

引线能量函数E_ln(P)为：