CN107451276A

CN107451276A - 一种基于深度学习的智能自助导游系统及其方法

Info

Publication number: CN107451276A
Application number: CN201710663252.6A
Authority: CN
Inventors: 龙飞; 王永兴; 刘肖萌
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-08-05
Filing date: 2017-08-05
Publication date: 2017-12-08

Abstract

一种基于深度学习的智能自助导游系统及其方法。通过智能导游、智能问答、语音拍摄和对讲四个子系统。1.自动识别景区的景物，如牌匾、石碑或展品自动进行讲解，向用户精准地推送景物解说词；2.以语音的方式同游客进行交流，回答游客提出的关于景区的问题；不但能够回答景区知识问题，而且能够回答专业的、知识型的广泛问题；3.帮助游客进行自助组团游，同一团队成员可通过本导游系统实现对讲；4.用户可通过语音指令的方式，指示导游器进行拍照或摄像；拍摄完毕后，照片或者视频通过蓝牙模块传递给手机app。

Description

一种基于深度学习的智能自助导游系统及其方法

技术领域

涉及一种基于深度学习的智能自助导游系统及方法，属于人工智能技术领域和电子导游设备领域。

背景技术

随着人民生活水平的提高，人们对旅游的需求不断加强，正逐步进入体验消费时代。导游服务是各景区所必须提供的一项重要服务，导游服务质量的高低会直接影响游客的旅游体验。根据调研，国内大部分景区的导游服务还停留在人工导游阶段。少数景点如某些展览馆或博物院会采用手持、耳挂或颈挂等便携式导览设备，利用RFID感应或者游客手动输入景点号的模式提供语音解说。人工导游的方式有如下缺点：

1. 游客必须紧跟导游，否则会听不清导游的解说。

2. 导游的扩音喇叭会造成噪音污染，影响非本团游客的体验。

3. 跟随导游的旅游团会造成拥堵，影响景区正常通行。

4. 导游数量有限，导致游客在高峰时段请不到导游。

5. 游客必须跟随导游行动，游客不能自行把握景点的停留时间和参观路线，限制了游客的自由。

而现有便携式导览设备又存在RFID感应不灵敏，感应区域有限；手动输入景点号的方式操作繁琐等缺点，这些都会极大地降低游客的旅游体验。近年来，人工智能、深度学习技术得到了长足发展，在许多领域都得到了成功的应用，给人们的生活带来极大的便利。本发明将深度学习技术应用于导游系统，具体包括智能问答技术，图像识别技术，语音识别技术等，为游客提供智能的、自助的、人性化的导游服务，使游客自助组团游玩变得更加便利，以提升游客的旅游体验。

发明内容

为了解决人工导游和便携式导游设备存在的缺点，提出了一种基于深度学习的智能自助导游系统及方法。

该系统包括服务器端和用户端两部分。如图1所示，整个系统分为智能导游、智能问答、语音拍摄和对讲四个子系统。四个子系统分别部署在服务器端和用户端，用户端的具体载体为图2所示的一个耳机式导游器或其他便携式导游设备。

一、智能导游子系统主要负责向用户精准地推送解说词。

智能导游子系统包括解说词数据库、GPS定位模块、解说词缓存、深度学习图像识别模块、摄像头和耳机部分。

解说词数据库部署在服务器端，存放景点的解说词，由于解说词与景点存在一一对应的关系，用关系型数据库存储。解说词数据库根据景点的不同，存入或调取不同的解说词，并配以音频以确保解说内容的生动和趣味性。当有新的解说词时，解说词数据库都会将最新的解说词同步至导游器的解说词缓存中。

GPS定位模块用于定位用户所在的位置。

解说词缓存用于临时存放当前景点的解说词。在一种基于深度学习的智能自助导游系统进入景点前，由工作人员从服务器端将解说词及其音频调入导游器的解说词缓存。

摄像头拍摄景点的图片并传给深度学习图像识别模块进行图像识别。当GPS定位系统定位到某景物点时，根据不同的角度会有不同的景物，哪个是需要解说的景物呢，通过摄像头拍摄景点的图片并传给深度学习图像识别模块进行图像识别，这样通过深度学习图像识别模块与GPS定位系统相结合的方法，精准定位出需要解说的景物，调用解说该景物的解说词，并推送至用户耳机中。

二、智能问答子系统主要负责自动解答用户关于景区的问题，与用户进行互动。包括问题处理模块、语音转文字模块、文字合成语音模块、麦克和耳机。

问题处理模块采用人工智能的方法为用户的问题寻找并组织答案，然后将答案推送给文字合成语音模块。

所述智能导游器的智能问答子系统通过语音转文字模块将游客的问题转化为文字；然后利用文字合成语音模块将问题的答案转化为语音，推送至游客导游器的耳机中。分别设计基于知识图谱的问答子模块和基于FAQ(Frequently Asked Questions)的问答子模块。两个子模块分别回答不同类型的问题，基于知识图谱的子模块主要回答结构化的、知识型问题，基于FAQ的问答子模块主要回答游客常见的问题。

1）基于知识图谱的问答子模块

以RDF(Resource Description framework)的三元组架构构建景区知识库，RDF三元组即资源-属性-值三元组，RDF最初被用来描述web上的各种资源，目前许多著名的开放知识库如Wikidata和DBpedia等都是采用RDF方式架构的。

通过切词工具（如jieba、ansj等）得到该问句的实体词，从而回答具有一阶逻辑的知识型问句。基于知识图谱问答子系统的通用框架为解析问句语义，形式化表示问句，将自然语言问句变成形式化查询。基本过程包括短语检测、资源映射、语义组合。采用组合范畴语法理论、lambda演算、深度学习等方法解决复杂的多阶逻辑问句。

定制化设计知识图谱，定义知识图谱的“骨架”，通过对互联网上新闻、论坛、官网、微信公众号、微博等资源进行爬取、解析和清洗，格式化为RDF三元组模式，填充知识库内容。

2）基于FAQ的问答子模块

基于知识图谱的问答子系统能够回答专业的、知识型的问题，虽然也可以映射为知识图谱中的RDF三元组。

首先建立一个FAQ库，库中存放问题-答案对，建立问题的倒排索引，提高系统的检索效率。具体方法为利用切词工具将游客的问句进行切词并去除停顿词，剩余的词汇使用Word2Vec映射为若干词向量，并使用EMD(Earth mover’s distance)或其简化距离作为计算两个问题相似度的度量。

语音转文字模块负责将用户的语音问题识别出，并转化为文字，然后推送给问题处理模块。

文字合成语音模块将文字答案转化为语音形式，并推送至用户的耳机。

麦克主要负责接收用户以语音形式提出的问题，并推送给语音转文字模块。

三、语音拍摄子系统负责根据用户的语音指令为其拍照。包括语音识别模块、蓝牙模块、手机app、麦克和摄像头。

语音通过麦克传递到语音识别模块识别出用户的指令，并指示摄像头进行拍照／拍摄或者停止拍摄。该子系统内置语音指令为拍摄和停止指令。以“拍照”、“照相”或其他预设的语音指令为拍照指令；以“拍摄”、“摄像”或其他预设的语音指令为拍摄指令；以“停”或“停止” 或其他预设的语音指令为拍摄停止指令。用户通过麦克向语音识别模块发送语音指令。

拍摄完毕后，照片或者视频通过蓝牙模块传递给手机app。手机app是本系统的一个可选附件，安装于用户的手机端。主要作用为接收用户拍摄的图片，为用户展示关于景区的可视化信息。

四、对讲子系统负责实现旅游团队之间的对讲功能。包括3G通信模块、语音分发模块、麦克和耳机。

用户通过实体键或者语音指令启动对讲功能。对讲内容将通过3G通信模块传送给服务器端的语音分发模块。语音分发模块将根据团队的ID名单，将用户的对讲内容推送至团队内所有成员的耳机。

用户通过摄像头、耳机和麦克与系统进行交互，如图1所示。这些设备可视为用户UI，为四个子系统所共用。

自助导游系统涉及的方法如下：

一、导游方式：

步骤1: 工作人员将智能导游器定时更换新的解说词，对导游器进行准备时将最新的解说词同步至导游器的解说词缓存。

步骤2: 当用户佩戴智能导游器开始进入景区游览，GPS定位模块自动跟踪用户位置。

步骤3: 当GPS定位模块监测到用户进入某个需要解说的景物区域时，会从解说缓存中调取相应的解说词组，如果此时一个景点有多个景物需要讲解时，游客通过摄像头对准需要观看的景物，摄像头拍摄到景物后，拍摄景物图片并传给深度学习图像识别模块进行图像识别。

步骤4:当GPS定位系统定位到某景物点时，该景物点可能有多个景物可以讲解，通过摄像头拍摄景物的图片并传给深度学习图像识别模块进行图像识别，这样通过深度学习图像识别模块与GPS定位系统相结合的方法，精准定位出需要解说的景物，调用解说该景物的解说词，并推送至用户耳机中。

二、智能问答方式：当进入语音问答方式时。

步骤1：用户通过麦克以语音的方式向导游系统发问，问题为景区相关的人、事、物。

步骤2: 当麦克将语音传递到语音转文字模块时，语音问题被转换为文字问题，并将文字问题传送给服务器端的问题处理模块。

步骤3: 问题处理模块接到文字问题后，通过切词和语义理解对其进行分析，在基于常用问答库（FAQ）的子模块和基于知识图谱的子模块中并行地寻找答案。如果两个模块中都包含相应的答案，按照响应时间的先后，将最先响应的答案推送给文字合成语音模块。

步骤4: 文字合成语音模块将问题处理模块给出的文字答案合成为语音答案，并将其推送至用户的耳机。

三、语音拍摄方式：

步骤1: 当游客通过麦克发出拍照／拍摄或者停止拍摄的指令。

步骤2: 语音识别模块识别用户的指令，并将指令信息传递给摄像头，摄像头启动自动拍摄功能，对景物进行拍摄／拍照或者停止拍摄。

步骤3: 拍好的照片／视频通过蓝牙模块传送至用户的手机app，并在其中进行滤镜、对比度等美化或者裁剪、添加各种艺术效果等定制化处理。

四、团队对讲方式：

步骤1: 用户在拿到导游器的时候可以设定团队成员。

步骤2: 用户在旅游途中需要对讲时，通过语音指令的方式指示导游器进入对讲模式。

步骤3: 用户开始讲话，讲话的内容通过3G通信模块传送给服务器端的语音分发模块。

步骤4: 语音分发模块会按照用户事先设定好的团队成员名单将用户讲话的内容推送至每位成员的耳机。

归纳起来，自助导游系统实现了以下功能：

1. 自动识别景区的景物，如牌匾、石碑或展品等，并自动进行讲解；

2. 以语音的方式同游客进行交流，回答游客提出的关于景区的各种问题；

3. 帮助游客进行自助组团游，同一团队成员可通过本导游系统实现对讲；

4. 用户可通过语音指令的方式，指示导游器进行拍照或摄像。

附图说明

图1. 智能自助导游系统总体架构图；

图2. 智能导游器外观示意图；

图3. 景区解说区划分示意图；

图4. 解说区的深度神经网络分类器示意图。

具体实施方式

如图2所示，一种基于深度学习的智能自助导游系统包括导游器和服务器。智能导游器的软硬件模块包括摄像头模块、3G通信模块、耳机模块、麦克模块、电池模块、处理与存储模块、GPS模块和蓝牙通信模块；软件模块包括基于深度学习的图像识别模块、语音识别模块、IM实时通话模块、智能问答模块、语音拍摄模块。除此之外还包括一款配合智能导游器使用的手机app。共分为智能导游、智能问答、语音拍摄和团队对讲四个子系统。四个子系统的具体实施方式如下。

智能导游子系统的实现，

游客佩戴所述的智能导游器后，导游器中的GPS模块会定位游客所在的位置。一个景区通常有很多需要解说的地点和物件，我们统称为解说物，这些解说物所对应的地域范围统称为解说点。某些解说点的范围较大，如广场、山谷等，而某些解说点指代的范围较小，如某个特定的建筑、某件文物等。这样就存在大的解说点中包含若干小的解说点的问题。当用户进入大解说点所在范围时，所述的智能导游器就会自动播放相应的解说词，同时提示该解说点范围内包含哪些小解说点和其相应的位置。当用户来到某个小的解说点之前时，所述的智能导游器中的前置摄像头会拍摄到相应的解说物，然后所述智能导游器中基于深度学习的图像识别模块会识别出解说物，并推送对应的解说词。对于小的解说物所对应解说词的推送可以由游客语音发送指令触发，也可以由游客按键（所述智能导游器上的实体键）触发。

所述智能导游器采用GPS+图像识别的方法实现了解说词的精准推送，解决了GPS定位不够精确和RFID感应区重叠的问题。对于某些小景物需要解说，或者景物密集的景点，如博物馆和展览馆。游客对于不感兴趣的解说物可以自行略过，提升了旅游体验。

所述的智能导游子系统采用GPS+图像识别的方式向游客精准推送解说词。游客只要佩戴上所述的智能导游器，其中的GPS模块就会自动地随时跟踪用户的GPS坐标，GPS坐标的形式为（经度，纬度）的二元组。如前所述，对于某些大的解说点，只要用户进入解说点所在的区域，导游器就会自动向游客推送相应的解说词，并告知用户该解说点内所有小的解说点的大概位置。大的解说点的GPS坐标区域用西北、西南、东北、东南四个角所在的矩形区域标识，坐标分别为(x₁ y₁), (x₁ y₂), (x₂ y₁), (x₂ y₂)。当用户GPS坐标(x y) 首次进入矩形区域，也即x₁<x< x₂且y₁<y< y₂时，触发解说点的解说词。由于GPS的定位精度在3米左右，对于一些解说物密集的地方，如碑林或展厅中存放文物的若干个展柜等，GPS无法准确地定位解说物，就需要依靠所述智能导游器的图像识别模块。

所述智能导游器中的图像识别模块采用了深度神经网络分类器，以TensorFlow等深度学习工具实现并移植到导游器上。将大的解说点视为解说区。将整个景区划分为若干解说区，如图3所示。所有解说区的并集覆盖所有的解说点（解说区本身也是解说点）。这样的话如果某个解说区内包含n个解说点（不包括解说区本身），该解说区内的深度神经网络分类器即为n分类器。假设A₁, A₂, …, A_n为某解说区A内的n个解说物，对于每个解说物A_i，拍摄m张不同角度不同远近的图片标记为{a _i1, a _i2, …, a _im}。该m张图片就是解说物A_i的训练数据。因此，{{a ₁₁, a ₁₂, …, a _1m},…,{a _i1, a _i2, …, a _im},…,{a _n1, a _n2, …, a _nm}}就是该解说区内所有解说物的训练图片集合。当然，对于每个解说物A_i，拍摄训练集照片张数m可以不相同，视解说物的具体情况而定。采用迁移学习的方法，利用已经训练好的深度神经网络模型如InceptionV3等，替换掉输出层进行重新训练。若解说区内有n个解说物，则将模型的输出层替换为含有n个节点的输出层，如图4所示。将训练数据进行一定的预处理后输入深度神经网络进行训练。对训练好的模型进行实测，实测准确度度大于某一阈值（如80%）则视为合格，并将训练好的模型存储于导游器中。若模型准确度不合格，则针对不合格的解说物加大采样，直至所有的解说物准确度都大于阈值。

当游客走入某解说区X，来到某解说物X_i面前时，所述智能导游器的摄像头以某个角度对准解说物。然后用户以语音指令或者按键的形式下令智能导游器对该解说物进行拍照，拍摄好的照片会自动传入解说区X所对应的深度神经网络分类器中，识别出解说物X_i。然后智能导游器就会推送解说物X_i所对应的语音解说词至导游器的耳机中。

智能问答子系统的实现，

所述智能导游器的智能问答子系统可以回答游客关于该景区的大部分问题，实现与游客的互动。如图2所示，所述导游器的智能问答系统通过语音转文字模块将游客的问题转化为文字；然后利用文字合成语音模块将问题的答案转化为语音，推送至游客导游器的耳机中。

因此语音／文字转化模块相当于系统的输入／输出接口。由于这两个模块市场上已有非常成熟的产品，如科大讯飞的中文自然语言处理云平台，故可集成这些现有的模块。智能问答系统的核心在于以两种方式实现的问题处理模块，分别为基于知识图谱的问答子模块和基于FAQ的问答子模块。两个子模块分别回答不同类型的问题，基于知识图谱的子模块主要回答结构化的、知识型问题，基于FAQ的问答子模块主要回答游客常见的一些问题。

）基于知识图谱的问答子模块，

该系统首先以RDF(Resource Description Framework)的三元组架构构建景区知识库，RDF三元组即资源-属性-值三元组，RDF最初被用来描述web上的各种资源，目前许多著名的开放知识库如Wikidata和DBpedia等都是采用RDF方式架构的。RDF的资源-属性-值三元组架构与知识型问句具有内在的对应关系。如大多数简单知识型问句中都会包含两个实体词，则这两个实体词极有可能对应RDF三元组中的资源和属性，则该资源-属性对所对应的值就是问句的答案。

以故宫为例，如果游客问：“太和殿的建筑特色是什么”，通过切词工具（如jieba、ansj等）得到该问句的两个实体词“太和殿”和“建筑特色”，其中“太和殿”正是我们构建的故宫旅游知识图谱中的资源，而“建筑特色”则是“太和殿”的属性之一，这样<故宫，太和殿>这一资源-属性对所对应的值就是问题的答案。该值为“太和殿是紫禁城内体量最大、等级最高的建筑物。它面阔十一间，进深五间，建筑面积2377.00平方米，高26.92米，连同台基通高35.05米，为紫禁城内规模最庞大也是最。其建筑规制之高，装饰手法之精，堪列中国古代建筑之首…”以上方法可以回答大部分具有一阶逻辑的知识型问句，对于具有更为复杂逻辑关系的问句，基于知识图谱问答子系统的通用框架为解析问句语义，形式化表示问句，将自然语言问句变成形式化查询。基本过程包括短语检测、资源映射、语义组合。采用组合范畴语法理论、lambda演算、深度学习等方法可解决更为复杂的多阶逻辑问句。

对于景点旅游知识图谱的构建，定制化设计知识图谱本体，定义了知识图谱的“骨架”，并考虑与其它大型开源知识库的互联问题，方便扩展和使用现有的开源知识库。通过对互联网上新闻、论坛、官网、微信公众号、微博等资源进行爬取、解析和清洗，格式化为RDF三元组模式，填充知识库内容。

）基于FAQ的问答子模块，

基于知识图谱的问答子系统能够较准确地回答某些专业的、知识型的问题，但是普通游客往往更关注一些实际性的简单问题，如“景区附近有什么特色美食”“景区附近哪家旅店便宜又干净”“景区的最佳游览路线是什么”“逛某个景点需要多长时间”等等。这些问题虽然也可以映射为知识图谱中的RDF三元组，但是由于这些问题的相似问法有很多，比如“景区附近有什么特色美食”这个问题就有“景区附近有什么好吃的”“这儿有啥好吃的”“这里有什么特色餐馆”甚至是“有啥好吃的吗”等等一系列类似的问法。虽然这些问句都对应着景区知识图谱中的<景区，特色美食>这个资源-属性对，但是要使用语义分析的方法得到这个映射就会非常困难，而“景区有什么特色美食”这种问法又非常的书面化，游客很少以这种语言风格来问类似的常见问题。

有鉴于此，智能导游器中的智能问答系统采用基于FAQ(Frequently AskedQuestion)的问答子系统来回答游客的常见问题。具体方法为首先建立一个FAQ库，库中存放问题-答，建立问题的倒排索引，提高系统的检索效率。如问题：“景区附近的特色美食有什么”，及其对应的答案：“张三家的灶台鱼，李四家的叫花鸡和王五家的口水鸭”。常用问答库中的问题都是该景区游客经常问到的问题，具有很多相似的、口语化的问法，但答案是唯一的。基于FAQ的问答子系统的工作原理就是为游客的问句找到FAQ库中的相似问题（如果有的话），并将该问题对应的答案返还。具体方法为利用上文提到的切词工具将游客的问句进行切词并去除停顿词，剩余的词汇使用Word2Vec映射为若干词向量，并使用EMD(Earthmover’s distance)或其简化距离作为计算两个问题相似度的度量。设定一个阈值，两个问题相似度大于这个阈值，则可返回FAQ库中相应问题的答案。由Word2Vec转化而成的词向量包含了语义信息，故能够较为准确地找到语义相同而形式不同的问句，能较好地将游客口语化的问题映射至FAQ库中相应的问题。从FAQ库中找到相似问题。还可使用不同的深度学习方法对问题相似度计算模型进行改进，如采用LSTM、CNN等深度神经网络。

团队对讲子系统的实现，

所述的智能导游器中的语音对讲功能采用了群内广播的方式。每个智能导游设备安插一张SIM卡，每个智能导游设备通过SIM卡和3G通信模块与服务器通信。每个智能导游器都有一个唯一的ID，同一组群内的导游器在同一个广播名单中，每当一个智能导游器接到对讲内容后，就将对讲内容发送至服务器，服务器则按照广播名单分别发送至每个导游器上。建群的方式有两种：

1）在团队成员领取导游器的时候，由工作人员创建一个广播群，并直接将每位成员的导游器ID加入广播名单。

2）当每位团队成员都领到导游器后，由团队中某位成员利用智能旅游app的建群功能逐一扫描每位成员的智能导游器二维码，将需要加入对讲群的所有成员添加进来。

语音拍摄子系统的实现，

所述的智能导游器具有语音拍照功能。在游玩过程中，如果遇到游客心仪的美景，利用所述的智能导游器的语音拍照功能就可直接拍照，而不需要停下来掏手机或者相机。用户发出语音指令如“拍照”或者“咔嚓”，智能导游器的语音识别模块会自动识别该指令，并指示摄像头进行拍照或者录像。拍好的照片会以蓝牙的方式传输至游客的智能旅游app中。需要说明的是，智能旅游app并不是每位游客所必需安装的，它只是智能导游器的辅助手段，主要功能是

1）接收游客通过语音指令所拍摄的照片或视频。

2）在地图上描出游客的旅行轨迹。

3）展现景区的3D地图并指示旅行路线

4）其他可视化的功能。

需要说明的是，本方法可以由带摄像头、麦克、耳机、3G通信模块、GPS模块的便携式设备实现，也可以全部功能由手机app直接实现。但是便携式可以解放游客的双手，更能体现语音拍照等功能的优势，具有更好的用户体验。

Claims

1.一种基于深度学习的智能自助导游系统，该系统有服务器端和用户端两部分，其特征在于包含智能导游、智能问答、语音拍摄和对讲四个子系统；

智能导游子系统具有解说词数据库、GPS定位模块、解说词缓存、深度学习图像识别模块、摄像头和耳机部分；

解说词数据库部署在服务器端，通过信号线与解说词缓存连接；

GPS定位模块部署在用户端，通过信号与手机app连接；

摄像头通过信号线路与深度学习图像识别模块连接，GPS定位系统定位到某景物点时，摄像头拍摄景物点图片并传给深度学习图像识别模块进行图像识别，定位需要解说的景物；通过信号线路将解说词缓存中解说该景物的解说词调出，并推送至用户耳机中。

2.根据权利要求1所述的一种基于深度学习的智能自助导游系统，其特征在于还包含一个智能问答子系统；具有问题处理模块、语音转文字模块、文字合成语音模块、麦克和耳机；

问题处理模块连接并将问题回答文字推送给文字合成语音模块；然后利用文字合成语音模块将问题的答案转化为语音，推送至游客导游器的耳机中。

3.根据权利要求2所述的一种基于深度学习的智能自助导游系统，其特征在于问题处理模块分别设计了基于知识图谱的问答子模块和基于FAQ的问答子模块。

4.根据权利要求2所述的一种基于深度学习的智能自助导游系统，其特征在于语音拍摄子系统有语音识别模块、蓝牙模块、手机app、麦克和摄像头；

用户通过麦克向语音识别模块发送语音指令，语音识别模块识别出用户的指令后，指示摄像头进行拍照／拍摄或者停止拍摄，照片或者视频通过蓝牙模块传递给手机app。

5.根据权利要求2所述的一种基于深度学习的智能自助导游系统，其特征在于对讲子系统有3G通信模块、语音分发模块、麦克和耳机；

麦克将对讲内容通过3G通信模块传送给服务器端的语音分发模块，语音分发模块根据团队的ID名单，将用户的对讲内容推送至团队内所有成员的耳机。

6.根据权利要求1所述的系统的实现方法，其特征在于

步骤1: 工作人员将智能导游器定时更换新的解说词，对导游器进行准备时将最新的解说词同步至导游器的解说词缓存；

步骤2: 当用户佩戴智能导游器开始进入景区游览，GPS定位模块自动跟踪用户位置；

步骤3: 当GPS定位模块监测到用户进入某个需要解说的景物区域时，会从解说缓存中调取相应的解说词组，游客通过摄像头对准需要观看的景物，摄像头拍摄到景物后，拍摄的景物图片传给深度学习图像识别模块进行图像识别；

步骤4:通过深度学习图像识别模块进行图像识别，与GPS定位系统相结合的方法，定位出需要解说的景物，调用解说该景物的解说词，并推送至用户耳机中。

7.根据权利要求1所述的系统的实现方法，其特征在于

步骤1：用户通过麦克以语音的方式向导游系统发问，问题为景区相关的人、事、物；

步骤2: 当麦克通过语音传递到语音转文字模块时，将语音问题转换为文字问题，并将文字问题传送给服务器端的问题处理模块；

步骤3: 问题处理模块接到文字问题后，通过切词和语义理解技术对其进行分析，在常用问答库FAQ的子模块和基于知识图谱的子模块中寻找答案，推送给文字合成语音模块；

8.根据权利要求1所述的系统的实现方法，其特征在于

步骤1: 当游客通过麦克发出拍照／拍摄或者停止拍摄的指令；

步骤2: 语音识别模块识别用户的指令，并将指令信息传递给摄像头，摄像头启动自动拍摄功能，对景物进行拍摄／拍照或者停止拍摄；

步骤3: 拍好的照片／视频通过蓝牙模块传送至用户的手机app。

9.根据权利要求7所述的系统的实现方法，其特征在于基于知识图谱的问答子模块通过短语检测、资源映射、语义组合，以RDF(Resource Description framework)的三元组架构构建景区知识库，通过切词工具得到该问句的实体词，回答具有一阶逻辑的知识型问句，基于知识图谱问答子系统的通用框架为解析问句语义，形式化表示问句，将自然语言问句变成形式化查询。

10.根据权利要求7所述的系统的实现方法，其特征在于基于FAQ的问答子模块建立了一个FAQ库，库中存放问题-答案对，建立问题的倒排索引，利用切词工具将游客的问句进行切词并去除停顿词，剩余的词汇使用Word2Vec映射为若干词向量，并使用EMD(Earthmover’s distance)简化距离作为计算两个问题相似度的度量。