CN106776849B

CN106776849B - 一种以图快速检索景点的方法及导游系统

Info

Publication number: CN106776849B
Application number: CN201611066278.4A
Authority: CN
Inventors: 钱学明; 周澎
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2016-11-28
Filing date: 2016-11-28
Publication date: 2020-01-10
Anticipated expiration: 2036-11-28
Also published as: CN106776849A

Abstract

本发明公开了一种以图快速检索景点的方法及导游系统，其通过在离线系统中对大规模带有地理标签的图像数据库进行处理，从图像数据集中提取出主题相册，并通过对主题相册内容的进一步去噪，筛选，并添加文字信息最终生成离线景点数据集。并通过生成快速索引结构以提高景点检索的速度。在在线系统中，通过构建查询图与景点数据之间的映射关系以及引入查询图相对于景点的相似度得分算法，并通过最终的打分排序获得检索结果。本发明构建了一个可以通过图像信息快速检索景点的方法，同时通过移动终端对景点信息的多角度展示(景点文字信息，景点相册，景点在地图上的位置标注，以及通过语音合成播报导游词等)为游客提供了完善的自助导游服务。

Description

一种以图快速检索景点的方法及导游系统

技术领域

本发明属于图像检索技术领域，涉及图像检索景点的方法，尤其是一种以图快速检索景点的方法，以及基于该方法的自助导游系统。

背景技术

随着生活水平的提高，旅游成为了人们在闲暇时间放松自己的不二选择。在2015年，我国共接待游客超过40亿人次。手机的快速发展使得游客在旅游过程中可以拍摄大量的图片并上传到图片分享网站与社交网络。知名的图片分享网站如Flickr，上传的图片总数达50亿张。社交网络中的图片上传量更为惊人，光Facebook一家就达到了600亿。在我国，微博，微信，以及各种旅游应用都是游客上传旅游图片与分享旅游经历的主要途径。但是，虽然我们已经拥有如此数量巨大的带标签以及GPS位置信息的图像数据库，目前的大部分旅游应用仅仅是对这些图像进行了存储，而没有有效的挖掘其中蕴含的大量信息。因此，对于如此大规模的图像多媒体数据，如何有效地挖掘这些丰富的多媒体数据信息，并利用这些信息以帮助游客在旅游过程中获取更加便捷的旅游体验是很有必要的。

在景点检索方面，目前主流的旅游应用仍然采用传统的利用文字标签进行检索的方式。使用文本进行景点检索时，会有一些不可避免的缺陷存在。文本检索是一种利用关键词检索的形式，这就要求用户对于检索的目标要有一定的基本知识，若用户对于要检索的目标一无所知，则用户无法选取合适的关键词来检索信息。文本检索的另一个缺陷就是关键词的重复使用率很高。对于很多单词，也许很多景点都会使用到，利用这种关键词进行检索往往会得到大量的检索结果，用户不得不从这些结果中手工挑选自己想要检索的目标，这种方式往往会费时费力，用户体验较差。同时由于图像附带的标签与描述是由用户添加上去的，人类思想的差异性难免使得这些标签带有很大的主观因素，为我们提取景点的客观属性引入噪声。另外，很多景点为了让搜索引擎更多的搜索到自己，会为自身添加很多不相关的关键词，使得用户获得的检索准确率降低。而使用图像信息来进行检索可以有效的避免这些问题。所以，利用图像进行景点检索是非常有必要的，另一方面，网络上的大规模图像多媒体资源，也为自动的通过图像内容进行景点检索提供了有利的条件。

随着科技的进步，人们智能手机和部分数码相机拍照时带有时间和GPS记录功能，因此，我们可以通过网络多媒体手段获取大量的带有地理位置标签的景点图像的。这就对使用图像进行景点检索提供了有利条件。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种以图快速检索景点的方法及导游系统。

本发明的目的是通过以下技术方案来实现的：

这种以图快速检索景点的方法，包括以下步骤：

1)建立景点图像数据集

2)图像库预处理

计算数据集图像的平均亮度，分别去除亮度最高的1-3％的图片以及亮度最低的1-3％的图片；

去除不包含明确目标的图像；

3)图像视觉特征提取

对步骤2)处理后的景点图像数据集中每张图片采用SIFT特征描述子进行描述；所述SIFT特征是基于物体上的局部外观的兴趣点，与影像的大小和旋转无关；

4)生成主题相册

对步骤3)处理后的景点图像数据集进行POI的提取：通过图像库中的图像所带有的GPS信息，先按照地理位置对图像进行一次粗聚类，将粗聚类结果作为生成景点信息的第一步结果；同时在粗聚类结果中去除GPS信息错误的图像，得到计算粗聚类结果图像；

使用计算粗聚类结果图像的视觉相似度，找出在此类中出现频率最高的若干个视觉词汇，若此类中某张图片不包含这若干个视觉词汇或者仅包含一个，则将此图片从此类中去除；若此类中去除了超过v％的图片，则计算被去除的图片的视觉相似度，根据视觉相似度生成新的类，最后将所有被剔除并且没有分入新类的图片与所有景点再次进行相似度比对，小于阈值的则归入此类，最终仍未归类的图片剔除出数据集，不再参与景点信息的生成；处理后得到主题相册；

5)添加文本信息，确定地理位置信息

将步骤4)得到的主题相册进行地理位置的确定：

采用先对主题相册的图片位置进行K-means聚类，得到景点可能的潜在位置，得到潜在位置后，先假设包含图片最多的位置为景点位置，若此位置位于其他位置所围成的多边形的内部时，则认定此位置即为景点的位置；若此位置在多边形外侧，但此位置所包含的的图片数远多于其他位置时，也认定此位置为景点位置；若各个位置的图片数量均衡，则取这些位置的中心作为景点位置；

位置信息确定后，各个主题相册即升级成为POI，通过对这些POI添加标题，文字描述，历史信息的文本描述，最终生成检索用的景点信息，至此建立了用于检索的景点信息数据库；

6)相似度贡献检索结构的建立

采用分级K-means聚类的方法来对景点信息数据库的特征进行量化，生成视觉词汇，根据视觉词汇与景点的对应关系建立相似度贡献快速索引结构；

7)检索

对用户提供的查询图提取视觉特征，并采用分级量化将视觉特征量化至相应的视觉词汇，根据相似度贡献快速索引结构获得最终的检索结果。

进一步的，以上步骤5)中，采用m层，每层分k类的树形结构进行分级K-means聚类。所述m为5，k为10。

本发明还提出一种基于以上以图快速检索景点的方法的导游系统，包括客户端和服务端：所述客户端协助用户拍摄景点照片，并对图片进行预处理，压缩，提取图像特征操作；对提取出的视觉特征进行筛选，压缩操作，后将经过预处理的图像特征信息发送至服务端；所述服务端为一个常驻的检索程序，检索程序启动时将所有景点信息以及景点与图像集中图像的映射关系预先加载至缓存中，后挂起等待用户输入；当用户输入进入后即激活程序，进行检索算法，完成后将检索结果返回客户端。

进一步，上述客户端安装在具有相机、显示屏以及网络传输功能的移动设备上，用于用户在游览景点时拍摄具体的景点图像并进行预处理，将所需信息上传至服务器用于检索。

进一步，上述服务器端采用多线程架构，服务器端的检索流程如下：

1)获取用户输入

用户输入有两种情况，当用户网络条件较好时，客户端上传压缩后的图像文件，服务器端程序提取图片的SIFT特征；当用户网络条件较差时，客户端会先行提取图像的SIFT特征并进行传输；当服务器端检索程序获取到SIFT特征后进行存储，为下一步操作做准备；

2)量化图片并计算相似度

采用之前生成的相似度贡献快速索引结构计算查询图与数据中图片相似度，由于离线系统已经进行了分级聚类量化操作，并记录了每一层各个节点的信息，因此对图片进行快速量化；同时，相似度贡献索引在图片量化的同时进行图片的相似度计算工作，将相似度计算的时间复杂度从O(n²)降低至O(n)；

3)对景点进行打分并排序

当获取到查询图对数据集中所有图片的相似度后，通过图片与景点的映射关系获取查询图拍摄的是哪个景点的可能性得分，打分公式如下：

其中ss_i为第i个景点相对于查询图的得分，p_i为TopN结果中属于第i个景点的图片数，q为视觉词汇数，a_k为第j张图片中量化至第k个视觉词汇的特征个数，s_kj为第k个视觉词汇对第j张图片的相似度贡献。

与现有技术相比，本发明优点在于：

1)相比较于传统旅游应用的以文字标签检索景点的方式，引入了一种新型的以图像检索景点方法。

2)提出了一种单张图像与景点之间的相似度映射关系，可以快速的从大规模景点数据集中检索出景点

3)构建了一个从文本，图像，语音，地图等全方位向游客展现景点信息的移动端自助导游系统，为游客提供了更加方便快捷的旅游服务。

附图说明

图1为本发明景点检索方法的总体步骤示意框图；

图2为本发明中手机应用的整体系统框架图；

图3为用户通过拍照获取景点信息的一次操作流程示意图。

具体实施方式

本发明提供一种以图快速检索景点的方法，包括以下步骤：

1)建立景点图像数据集；

2)图像库预处理：

计算数据集图像的平均亮度，分别去除亮度最高的1-3％的图片以及亮度最低的1-3％的图片；去除不包含明确目标的图像；

3)图像视觉特征提取

4)生成主题相册

对步骤3)处理后的景点图像数据集进行POI的提取：通过图像库中的图像所带有的GPS信息，先按照地理位置对图像进行一次粗聚类，将粗聚类结果作为生成景点信息的第一步结果；同时在粗聚类结果中去除GPS信息错误的图像，得到计算粗聚类结果图像；使用计算粗聚类结果图像的视觉相似度，找出在此类中出现频率最高的若干个视觉词汇，若此类中某张图片不包含这若干个视觉词汇或者仅包含一个，则将此图片从此类中去除；若此类中去除了超过v％的图片，则计算被去除的图片的视觉相似度，根据视觉相似度生成新的类，最后将所有被剔除并且没有分入新类的图片与所有景点再次进行相似度比对，小于阈值的则归入此类，最终仍未归类的图片剔除出数据集，不再参与景点信息的生成；处理后得到主题相册；

5)添加文本信息，确定地理位置信息

将步骤4)得到的主题相册进行地理位置的确定：

采用先对主题相册的图片位置进行K-means聚类，得到景点可能的潜在位置，得到潜在位置后，先假设包含图片最多的位置为景点位置，若此位置位于其他位置所围成的多边形的内部时，则认定此位置即为景点的位置；若此位置在多边形外侧，但此位置所包含的的图片数远多于其他位置时，也认定此位置为景点位置；若各个位置的图片数量均衡，则取这些位置的中心作为景点位置；位置信息确定后，各个主题相册即升级成为POI，通过对这些POI添加标题，文字描述，历史信息的文本描述，最终生成检索用的景点信息，至此建立了用于检索的景点信息数据库；在本发明的最佳实施例中，采用m层，每层分k类的树形结构进行分级K-means聚类，其中所述m为5，k为10。

6)相似度贡献检索结构的建立：

7)检索：

下面结合附图对本发明做进一步详细描述：

参见图1：

离线图像库的处理

离线子系统的目的主要是对大规模带地理标签的图像库进行离线处理，使其能够更好的应用于景点检索，并最终生成包含在线检索系统所需要的景点信息。离线子系统主要包括以下六个方面：1)图像库的预处理，2)对图像库内图像的视觉特征进行描述，3)使用视觉特征对图像库图像进行分类，生成主题相册；4)添加文本信息以及地理位置信息形成景点，5)利用中心信息与景点的映射建立视觉词汇对于各个景点相似度贡献的快速索引结构。下面分别对这五个部分进行介绍。

图像库预处理

图像库预处理的目的在于去除一些图像库中的噪声。因为在图像库构建的过程中，是根据关键词在图像库中检索然后进行下载的。因为图像来自大量不同的用户，用户上传图像的质量往往很不均衡，可能会有很多图像亮度过高或过低，图像内容本身包含特别多的噪声，或者图像内容不明确。这些图像对于生成景点信息是没有作用的，甚至有时会起到反作用，于是本发明中就先进行了初步的预处理，旨在去除那些质量较差的图像。本发明中主要按照以下几种原则去除图像库中的噪声图像：亮度过于极端的图像，亮度对于视觉特征的提取有较大的影响，因此我们计算了数据集图像的平均亮度，分别去除了亮度最高的1％及最低的1％的图片。另外，对于不包含明确目标的图像也进行了去除，例如单纯拍照天空，大海的图片，因为此类图片几乎无法提取出有意义的视觉特征，会对生成景点数据造成影响。

图像视觉特征提取

本发明中对于图像视觉特征采用SIFT特征描述子进行描述。SIFT特征是基于物体上的一些局部外观的兴趣点，而与影像的大小和旋转无关。对于光线、噪声、微视角改变的也具有较强的鲁棒性。这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子

生成主题相册

因为本发明最终要从图像数据中提取出景点，故需要先进行POI的提取。通过图像库中的图像所带有的GPS信息，可以先按照地理位置对图像进行一次粗聚类。粗聚类结果作为我们生成景点信息的第一步结果。考虑到图像集中部分图像的位置信息并非拍照时生成，而是用户手工标注的，这种手工标注有错误的可能，故需在粗聚类结果中去除GPS信息错误的图像。本发明使用计算粗聚类结果图像的视觉相似度，找出在此类中出现频率最高的若干个视觉词汇，若此类中某张图片不包含这若干个视觉词汇或者仅包含一个，则将此图片从此类中去除。若此类中去除了超过一定比例的图片，则计算被去除的图片的视觉相似度，根据视觉相似度生成新的类。最后将所有被剔除并且没有分入新类的图片与所有景点再次进行相似度比对，小于阈值的则归入此类，最终仍未归类的图片将被剔除出数据集，不再参与景点信息的生成。

添加文本信息，确定地理位置信息

本步骤中，将上一步得到的主题相册进行地理位置的确定。我们发现，单纯的计算主题相册中所有图片位置的平均中心作为景点中心是有问题的。因为图片中会有用户在较远的位置对景点进行拍摄，若其他图片的拍摄位置较为集中，则这一个单一特例会使得估算出的景点位置与实际位置有较大的偏差。因此我们采用先对主题相册的图片位置进行K-means聚类，得到景点的几个可能的具体位置。得到潜在位置后，先假设包含图片最多的位置为景点位置，若此位置位于其他位置所围成的多边形的内部时，则认定此位置即为景点的位置。若此位置在多边形外侧，但此位置所包含的的图片数远多于其他位置时，也认定此位置为景点位置，因为通过对数据集图片的观察，出现此种情况通常是因为此景点往往某个角度较为有特色，绝大多数用户均倾向于在这个角度对此景点进行拍摄，造成此类情况。若各个位置的图片数相差不多，则取这些位置的中心作为景点位置。

位置信息确定后，各个主题相册即升级成为POI，通过对这些POI添加标题，文字描述，历史信息等各方面的文本描述，最终生成我们检索用的景点信息。

相似度贡献检索结构的建立

作为实验室技术转向产业化的应用，在检索系统进行检索时，除了考虑检索的准确性之外，检索的效率与时间复杂度也是需要重点考虑与优化的部分。

传统的检索方式是进行图片之间相似度的比较，而相似度比较通常使用图像视觉特征间的距离来衡量。众所周知，即使是一个低分辨率的图片，至少也包含几百个视觉关键点，若是高清图片，甚至会包含几万个关键点。传统的量化方法，是对图像集中所有的特征进行聚类，聚类中心作为最终的视觉词汇，而关键点的特征通过量化至视觉词汇最终生成BOW直方图用于图像相似度比较。而对于一个大的图像集，中心数肯能在几万甚至几十万，这使得每个特征点的量化都需要进行大量的比对，同时每张图片的BOW直方图也拥有极高的维数，这些计算是极其消耗计算资源，同时也要消耗大量的时间。为解决时间复杂度的问题，本发明采用分级K-means聚类的方法来对特征进行量化。本发明采用m层，每层分k类的树形结构进行分级K-means聚类，经过实验，确定m为5，k为10时在准确性及时间复杂度中取得了较好的平衡。通过这个树形的聚类中心结构，使得特征点量化的计算减少了数个数量级，同时随着特征点数的增加，此方法的量化效率仅受层数以及每层分支数的影响，而这两个数据相较于总的中心个数是非常小的数字，使得量化效率非常高。

本发明作为一个快速通过图像进行景点检索的应用，为了提高在线系统进行相似度计算时的速度，引入了视觉词汇相对于图片的相似度贡献这个概念。相似度贡献是一个向量，每一维是指当查询图中拥有此视觉词汇时，这个视觉词汇对两张图完全相似所作出的贡献，其定义式为:

其中n为数据集中所有图片数，k_ij为第i个视觉词汇中属于第j幅图的特征点数，q_j为第j个图片的总特征点数。

计算出各个视觉词汇相对于图像的相似度贡献向量之后需要对其进行存储，因为数据集中图像数量巨大，但出现在一张图像中的视觉词汇仅为所有视觉词汇的极少部分，向量中绝大多数值为0，若以矩阵的方式存储会占用大量的存储空间，因此采用可变长向量存储每个视觉词汇的相似度贡献向量，向量中没一维数据为记录着得分以及图片编号的结构体。

在线景点检索系统

本发明的景点检索功能是在在线子系统中完成的。在线子系统分为两个部分，分别为客户端与服务器端。客户端安装在具有相机，显示屏以及网络传输功能的移动设备上，用于用户在游览景点时拍摄具体的景点图像并进行预处理，将所需信息上传至服务器用于检索。服务器端则有常驻的检索程序用于快速响应用户请求并将检索结果返回给客户端。

客户端：

客户端主要协助用户拍摄景点照片。随着移动设备硬件技术的发展，现在移动设备已经具有了不错的计算能力，可以快速的做到对图片进行预处理，压缩，提取图像特征等操作。由于提取出的图像特征往往会有大量重复或者冗余的特征，客户端可以对提取出的视觉特征进行筛选，压缩等操作，后将经过预处理的图像特征信息发送至服务端。通过传输压缩后的特征，可以有效减少信息传输时的流量消耗，并减少服务器的计算压力，提高响应速度。

服务器端：

服务器端为一个常驻的检索程序。检索程序启动时将所有景点信息以及景点与图像集中图像的映射关系预先加载至缓存中，后挂起等待用户输入。当用户输入进入后即激活程序，进行检索算法，完成后返回客户端。为保证及时响应多个用户请求，服务器端采用多线程架构。检索流程如下：

1)获取用户输入

用户输入会根据用户当前的网络状况进行调整。输入有两种情况，当用户网络条件较好时，将上传压缩后的图像文件，服务器端程序将提取图片的SIFT特征；当用户网络条件较差时，客户端会先行提取图像的SIFT特征并进行传输。当检索程序获取到SIFT特征后将进行存储，为下一步操作做准备。

2)量化图片并计算相似度

采用之前生成的相似度贡献快速索引结构计算查询图与数据中图片相似度。因为在离线系统我们已经进行了分级聚类量化操作，并记录了每一层各个节点的信息。因此，我们可以对图片进行快速量化。同时，相似度贡献索引可以帮助我们在图片量化的同时即可进行图片的相似度计算工作，避免了传统检索方法中的冗余操作。将相似度计算的时间复杂度从O(n²)降低至O(n)；

3)对景点进行打分并排序

当获取到查询图对数据集中所有图片的相似度后，我们即可通过图片与景点的映射关系获取查询图拍摄的是哪个景点的可能性得分，打分公式如下：

经过测试，选择相似度排名前100的图片用于景点得分的计算取的了较好的检索结果。

参见图2：本发明的实际演示系统:

为了验证提出系统的可行性，本发明在安卓系统上开发了用户端界面，并搭建服务器以提供景点检索的功能。演示系统的整体架构如图2所示。整个演示系统分为在线系统与离线系统两个部分。而每个子系统均为三层架构，分别为用户界面层，中间服务层，数据服务层。每层架构的具体实现功能如下：

1)用户界面层：

用户界面层主要针对系统的操作人员。对于离线系统，即为后台的数据维护人员。当有新的图像数据进入时，维护人员负责将其导入离线处理系统，由系统自动对其进行特征提取，归类之响应景点。同时也要处理用户反馈的错误分类信息，通过不断给系统反馈信息以提高检索准确性；在线部分的用户界面层主要针对旅游用户，为其提供景点检索功能的入口，规划路线，以及展示景点检索结果。此部分功能可以通过配合公开的地图API实现。

2)中间服务层

这一层次架构为整个系统核心层架构。对于离线系统，其负责维护数据库图片相关信息，图片库处理，景点生成，快速索引结构生成等一系列操作；对于在线系统，本层结构是用户与静态数据之间的桥梁。其负责在线获取用户输入，完成景点快速检索，检索结果录入数据库以及将最终结果返回给用户界面层等一系列操作。快速景点检索方法的主要操作均在此层结构中完成。

3)数据服务层

此层架构主要使用数据库及文件系统完成。主要以文件形式记录离线系统生成的用于景点检索的各项静态数据；以数据库的形式记录景点信息，图片与景点的映射关系，以及用户信息等数据。

图3显示用户通过拍照获取景点信息的一次操作流程。

为充分利用多核CPU的性能，检索程序编写为多线程形式。此应用服务部署在一个双核3.3GHz CPU，8G内存的普通PC上。经过测试，即使不使用高性能服务器，检索程序的单用户访问响应时间也小于0.5秒(不包括网络传输的时间)，多用户并发访问时平均响应时间也在5秒之内，基本符合应用需求。证明此发明可以做到针对大规模景点数据集的快速景点检索。在检索到景点之后，系统会同时返回景点名称，景点描述信息，景点相册等数据。并且可以通过开源的语音合成技术为用户语音播报导游词，完成自助导游的各项功能。

Claims

1.一种以图快速检索景点的方法，其特征在于，包括以下步骤：

1)建立景点图像数据集；

2)图像库预处理：

去除不包含明确目标的图像；

3)图像视觉特征提取

4)生成主题相册

使用计算粗聚类结果图像的视觉相似度，找出在此粗聚类中出现频率最高的若干个视觉词汇，若此粗聚类中某张图片不包含这若干个视觉词汇或者仅包含一个，则将此图片从此粗聚类中去除；若此粗聚类中去除了超过一定比例的图片，则计算被去除的图片的视觉相似度，根据视觉相似度生成新的类，最后将所有被剔除并且没有分入新类的图片与所有景点再次进行相似度比对，小于阈值的则归入景点类，最终仍未归类的图片剔除出数据集，不再参与景点信息的生成；处理后得到主题相册；

5)添加文本信息，确定地理位置信息

将步骤4)得到的主题相册进行地理位置的确定：

6)相似度贡献检索结构的建立

7)检索

2.根据权利要求1所述的以图快速检索景点的方法，其特征在于，步骤5)中，采用m层，每层分k类的树形结构进行分级K-means聚类。

3.根据权利要求2所述的以图快速检索景点的方法，其特征在于，所述m为5，k为10。

4.一种基于权利要求3以图快速检索景点的方法的导游系统，其特征在于，包括客户端和服务端：

所述客户端协助用户拍摄景点照片，并对图片进行预处理，压缩，提取图像特征操作；对提取出的视觉特征进行筛选，压缩操作，后将经过预处理的图像特征信息发送至服务端；

所述服务端为一个常驻的检索程序，检索程序启动时将所有景点信息以及景点与图像集中图像的映射关系预先加载至缓存中，后挂起等待用户输入；当用户输入进入后即激活程序，进行检索算法，完成后将检索结果返回客户端。

5.根据权利要求4所述的导游系统，其特征在于，所述客户端安装在具有相机、显示屏以及网络传输功能的移动设备上，用于用户在游览景点时拍摄具体的景点图像并进行预处理，将所需信息上传至服务器用于检索。

6.根据权利要求4所述的导游系统，其特征在于，所述服务器端采用多线程架构，服务器端的检索流程如下：

1)获取用户输入

2)量化图片并计算相似度

3)对景点进行打分并排序