CN108427743A - 一种基于地理位置的景点检索与重排序方法 - Google Patents
一种基于地理位置的景点检索与重排序方法 Download PDFInfo
- Publication number
- CN108427743A CN108427743A CN201810185971.6A CN201810185971A CN108427743A CN 108427743 A CN108427743 A CN 108427743A CN 201810185971 A CN201810185971 A CN 201810185971A CN 108427743 A CN108427743 A CN 108427743A
- Authority
- CN
- China
- Prior art keywords
- image
- sight spot
- feature
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- DDVBPZROPPMBLW-UHFFFAOYSA-N latrunculin-A Natural products O1C(=O)C=C(C)CCC=CC=CC(C)CCC(O2)CC1CC2(O)C1CSC(=O)N1 DDVBPZROPPMBLW-UHFFFAOYSA-N 0.000 claims description 9
- DDVBPZROPPMBLW-IZGXTMSKSA-N latrunculin A Chemical compound C([C@H]1[C@@]2(O)C[C@H]3C[C@H](O2)CC[C@@H](\C=C/C=C/CC\C(C)=C/C(=O)O3)C)SC(=O)N1 DDVBPZROPPMBLW-IZGXTMSKSA-N 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 7
- 230000000875 corresponding effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- NSHPHXHGRHSMIK-IWQSFCKSSA-N latrunculin B Natural products C[C@H]1CC[C@@H]2C[C@@H](C[C@@](O)(O2)[C@@H]3CSC(=O)N3)OC(=O)C=C(C)/CCC=C/1 NSHPHXHGRHSMIK-IWQSFCKSSA-N 0.000 claims description 5
- 230000008707 rearrangement Effects 0.000 claims description 4
- 230000001276 controlling effect Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 244000144992 flock Species 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/54—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于地理位置的景点检索与重排序方法,其实现过程为,首先根据省份名称检索查询该省份旅游景点的包括名称、地址的信息;然后通过图像检索技术检索出名称对应的图像;对图像进行排序,并将排序后的图像展示出来。本发明的一种基于地理位置的景点检索与重排序方法与现有技术相比,为了提高景点图像显示的准确性,我们利用图像的重排序,对查询到的图像进行重新排序,选取最佳图像进行展示,实用性强,适用范围广泛,具有很好的推广应用价值。
Description
技术领域
本发明涉及计算机软件应用技术领域,具体地说是一种基于地理位置的景点检索与重排 序方法。
背景技术
随着科学技术与信息技术的不断发展与进步,越来越多的数据存在网络之中,越来越多 的人们依赖网络。当人们想去一个省或市旅游的时候,大部分人会选择先通过网络查询该省 或者该市的著名的旅游景点有哪些,通过查询的结果进行判断,并安排自己的行程。但是现 在网上的信息越来越多,比如,据统计截止到目前Flickr网站上拥有的图像数量达到了40亿 张,当人们面对着这么多的景点图像的时候往往会不知道如何的抉择。人们迫切需要能够从 这些海量数据中快速、有效地发现资源和知识的工具,提高数据检索、信息利用的效率,该 类技术的研究也成为当前的研究热点。为
由于基于数据库构建的系统需要大量的人力来设置省份的景点信息,这样就会显得不可 靠,并且景点的信息不能够及时的更新。并且为了使得景点更加的真实,使得用户对于景点 更加的了解,该设计不仅仅会显示该省市的著名的景点的名称还会显示该景点的图像,这些 图像是来源于大数据检索。由于图像相关的文本中有着大量的噪音,因此在基于文本的图像 检索系统中进行文本匹配的时候,这些噪音文本会降低相关度高的图像的排名。“一幅图像胜 过千言万语”,有限的视觉信息不足以充分地描述图像本身所表达出的丰富的视觉内容。这就 使得,图像检索系统最终返回的结果中一些不相关或相关度低的图像排在了相关性高的图像 前边,使得图像检索的最终结果不尽如人意。由于底层的文本以及视觉特征与高层的语义特 征(图像本身所表达的含义)之间存在着语义鸿沟:对于同一副图像,不同的人的理解是不 同的,图像所包含的语义仅仅利用底层的视觉特征是不能够完全表达的,因此基于文本的图 像检索系统和基于内容的图像检索技术的性能无法令人满意。为了解决这个问题,本发明提 出了图像检索的重排序的技术。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于地理位置的景点检索与重排序方 法。
一种基于地理位置的景点检索与重排序方法,其实现过程为,
一、首先根据省份名称检索查询该省份旅游景点的包括名称、地址的信息;
二、然后通过图像检索技术检索出名称对应的图像;
三、对图像进行排序,并将排序后的图像展示出来。
所述步骤一的实现过程为:
首先用户输入信息:用户根据自己的需要,输入想要查询景点的城市,然后开始查询;
进行省份地址解析,并将解析结果返回给用户;
根据解析的省份地址,进行该省份的景点搜索;
对景点地址解析,并将解析结果返回给用户。
在步骤一中,进行省份地址解析时,用户输入省市名称,根据用户的输入向包括Google Map API的地图服务模块发出地址解析的请求,地图服务模块根据该名称进行解析,并把解 析后的GPS信息按照用户请求的格式返回给用户;当进行景点搜索时,根据返回的GPS信息, 向包括Google Places API的位置服务模块发出进行景点搜索的请求,位置服务模块向用户 返回指定范围内的景点的名称信息;当进行景点地址解析时,根据位置服务模块返回的信息, 取出所需的景点的名称信息,进行解析,并把解析后的信息按照用户请求的格式返回给用户。
所述省份地址解析、景点地址解析均包括地址解析与反地址解析两种,其中:
地址解析是指将地址名称转化成为地理坐标的过程,然后根据坐标信息进行标记或者定 位地图;该解析是由地图服务模块提供的接口,通过http请求直接的访问地址解析器,进行 地址的解析;
反地址解析是指将坐标信息转化为地址的名称,由地图服务模块提供的接口通过http请 求直接的访问反地址解析器,进行反地址的解析。
所述步骤二中图像检索过程为:
首先根据检索到的旅游景点的名称、地址信息,搜索景点图像的信息,该图像信息包括 图像的标识符id、图像所在的服务器id、图像是否为公开:首先根据位置服务模块返回的信 息,取出所需的景点的名称信息,根据该名称向包括Flickr search API的爬取模块发出图 像搜索的请求,爬取模块根据用户请求的信息进行搜索,并根据用户请求的格式返回搜索到 的图像的详细信息;
然后根据搜索的图像信息,查找其GPS信息:根据爬取模块返回的信息解析出图像的标 识符id,根据该id信息向包括Flickr geo API的定位模块发送查找其GPS信息的请求,定 位模块根据用户的请求数据,返回图像的GPS信息,这里的GPS信息包括精度和纬度信息;
获取景点显示图像,排序后显示:将检索到的景点的每一副提取相关特征进行排序,并 取排序第一的作为景点的最终的显示图像,这里的相关特征包括HSV颜色直方图、边缘方向 直方图、颜色相关图、基于分块的颜色矩、RGB颜色直方图、基于小波变换的纹理特征、地 理距离特征。
所述步骤二中获取的景点显示图像重排序具体过程为:
首先,通过一个训练模型来学习到每一个独立于查询的特征的权重,在训练模型中,将 获得的训练数据提交到特征生成器,训练数据中的图像形成图像集合D,图像集合D中的每 一幅图像提取六种视觉特征,即HSV颜色直方图、边缘方向直方图、颜色相关图、基于分块 的颜色矩、RGB颜色直方图、基于小波变换的纹理特征,并且在每一种视觉特征上利用不同 的相似度计算方法,为每一对图像求得一个相似度;在每一种视觉特征上建立一个相似图, 其中图像集合D中的每一幅图像作为相似图的一个顶点,图像之间的相似度作为相似图中边 上的权重;
在相似图建成之后,在每一个相似图上学习三个独立于查询的特征:伪相关反馈特征、 密度特征以及地理距离特征;
通过初始化列表,我们为每一幅图像学习一个初始化得分特征;
根据已经学习到的独立于查询的特征以及数据集中已知的图像的相关性,利用监督学习 方法,即RankSVM进行训练得到每一种特征的权重;
当用户向搜索引擎提交查询词后,搜索引擎返回一个初始化列表L和一个图像集合d;
特征生成模型根据训练模型中提到的学习方法为图像集合d中的每一幅图像学习一个独 立于查询的特征向量,并根据训练模型得到的每一种特征的权重,具体通过下列公式得到最 终的重排序列表:
其中ψ是用来控制特征提取过程的函数,即特征函数,wj是指第j个特征函数的权重,q 是指用户输入的查询问题。
所述在每一个相似图上学习三个独立于查询的特征中,伪相关反馈特征是指基于PageRank的伪相关反馈特征,PageRank被用来对网页的重要性进行评价,通过伪相关反馈特 征对图像进行评价的过程为:
建立相似图,其中相似图的顶点为初始化列表中的每一幅图像,图像之间的相关性作为 相应的顶点之间边的权重;
利用PageRank算法来学习建立的相似图中每一个顶点的权威性;
根据图像的PageRank值对初始化列表中的每一幅图像进行重新的排序,得到PageRank 列表;
假设PageRank列表中排在前边的图像与查询更加相关,排在后边的图像不相关,取 PageRank列表中的前k个图像作为查询相关图像,这里的k≥10;
最后,利用相关性反馈,根据图像之间的加权相关性来计算初始化列表中每一幅图像的 得分。
在每一个相似图上学习三个独立于查询的特征中,密度特征是根据密度假设建立的,密 度假设是指相似图像应该比不相似的图像有着更高的密度,即相似图像会聚集在一起而不相 似图像会十分的分散,所述密度特征通过核密度估计来计算图像的密度,即图像xi的核密度 估计为:
Ν(xi)是指图像xi的邻居集合,K(·)是一个核函数,这里的核函数包括多项式核函数、 高斯核函数、字符串核函数。
在每一个相似图上学习三个独立于查询的特征中,地理距离特征是根据查询到的景点的 GPS信息和图像自带的GPS进行求解,取任意两点A、B,点A的经纬度为(LonA,LatA),点 B的经纬度为(LonB,LatB),在经线的标注中,东经的经度值要取正自身的经度值LonA,而西 经的经度值要取负自身的经度值-LonA,北纬的纬度值要取90-自身的纬度值,即90-LatA, 南纬的纬度值要取90+自身的纬度值,即90+LatA,因此根据以上标准进行处理后的两点坐 标分别为(MLonA,MLatA)和(MLonB,MLatB);
由三角推导,用下述公式计算出AB两点距离:
C=sin(MLatA)×sin(MLatB)×cos(MLonA-MLonB)+cos(MLatA×cos(MLatB);
Distance=R×Arccos(C)×Pi/180。
所述初始化得分特征是指在初始化列表中每一幅图像的排名得分,通过把图像的初始化 排名ri转化成初始化得分si实现:
其中i=1,2……N;是指所用数据集中所有的查询集合;是查询集上的期望; rel(q,ri)是指在查询q的初始化列表中第i幅图像的相关性;求解的方法是求在查询集中所有查询q的初始化列表中位于第i个位置的图像的相关性的平均值。
本发明的一种基于地理位置的景点检索与重排序方法和现有技术相比,具有以下有益效 果:
本发明的一种基于地理位置的景点检索与重排序方法,为用户提供了一个能够查询各个 省份的著名旅游景点的平台,使用了实时的景点查询。这样景点的信息能够随时的更新,而 且不需要后台服务器的支持,因此需要的人力不是很多,而不像利用数据库来进行的景点查 询系统那样,需要大量的人力去进行省份景点的设置,而且不能够及时的进行更新;通过该 设计可以查询出省份的景点信息,最终的显示结果不仅仅有景点的名称,还有景点的图像, 这样能够更加直接的显示该景点的信息,以便于用户决定是否要去该景点;为了提高景点图 像显示的准确性,我们利用图像的重排序,对查询到的图像进行重新排序,选取最佳图像进 行展示,实用性强,适用范围广泛,具有很好的推广应用价值。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描 述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附 图获得其他的附图。
附图1为本发明的实现示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发 明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的 实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。
当人们想去一个省或市旅游的时候,大部分人会选择先通过网络查询该省或者该市的著 名的旅游景点有哪些,通过查询的结果进行判断,并安排自己的行程。但是当用户面对着浏 览器返回的众多的图片时往往会不知道该相信哪一个,面对着众多的图像不知道怎么处理。 本设计根据省份名称利用大数据检索查询出该省份著名的旅游景点名称,利用图像检索技术 检索出名称对应的图像,最后利用基于多模态监督学习的图像重排序方法对检索到图像进行 重新排序。实现景点检索的多样性和准确性,帮助人们尽快找到某省、市的著名景点。
如附图1所示,一种基于地理位置的景点检索与重排序方法,其实现过程为,
一、首先根据省份名称检索查询该省份旅游景点的包括名称、地址的信息;
二、然后通过图像检索技术检索出名称对应的图像;
三、对图像进行排序,并将排序后的图像展示出来。
所述步骤一的实现过程为:
首先用户输入信息:用户根据自己的需要,输入想要查询景点的城市,然后开始查询;
进行省份地址解析,并将解析结果返回给用户;
根据解析的省份地址,进行该省份的景点搜索;
对景点地址解析,并将解析结果返回给用户。
在步骤一中,进行省份地址解析时,用户输入省市名称,根据用户的输入向包括Google Map API的地图服务模块发出地址解析的请求,地图服务模块根据该名称进行解析,并把解 析后的GPS信息按照用户请求的格式返回给用户;当进行景点搜索时,根据返回的GPS信息, 向包括Google Places API的位置服务模块发出进行景点搜索的请求,位置服务模块向用户 返回指定范围内的景点的名称信息;当进行景点地址解析时,根据位置服务模块返回的信息, 取出所需的景点的名称信息,进行解析,并把解析后的信息按照用户请求的格式返回给用户。
所述省份地址解析、景点地址解析均包括地址解析与反地址解析两种,其中:
地址解析是指将地址名称转化成为地理坐标的过程,例如可以将北京转化为地理坐标: (纬度:39.9040300,经度:116.4075260)。可以根据坐标信息进行标记或者定位地图,也 可以应用的其他的应用程序,例如:应用到景点检测中。我们可以通过Google MapsAPI提 供的接口通过http请求直接的访问地址解析器,进行地址的解析。
反地址解析是指将坐标信息转化为地址的名称,同样的可以通过Google MapsAPI提供 的接口通过http请求直接的访问反地址解析器,进行反地址的解析。例如Google可以将(纬 度:39.9040300,经度:116.4075260)解析为:XX市XX区XX政府。
所述步骤二中图像检索过程为:
首先根据检索到的旅游景点的名称、地址信息,搜索景点图像的信息,该图像信息包括 图像的标识符id、图像所在的服务器id、图像是否为公开:首先根据位置服务模块返回的信 息,取出所需的景点的名称信息,根据该名称向包括Flickr search API的爬取模块发出图 像搜索的请求,爬取模块根据用户请求的信息进行搜索,并根据用户请求的格式返回搜索到 的图像的详细信息;
然后根据搜索的图像信息,查找其GPS信息:根据爬取模块返回的信息解析出图像的标 识符id,根据该id信息向包括Flickr geo API的定位模块发送查找其GPS信息的请求,定 位模块根据用户的请求数据,返回图像的GPS信息,这里的GPS信息包括精度和纬度信息;
获取景点显示图像,排序后显示:将检索到的景点的每一副提取相关特征进行排序,并 取排序第一的作为景点的最终的显示图像,这里的相关特征包括HSV颜色直方图、边缘方向 直方图、颜色相关图、基于分块的颜色矩、RGB颜色直方图、基于小波变换的纹理特征、地 理距离特征。
所述步骤二中获取的景点显示图像重排序具体过程为:
首先,通过一个训练模型来学习到每一个独立于查询的特征的权重,在训练模型中,将 获得的训练数据提交到特征生成器,训练数据中的图像形成图像集合D,图像集合D中的每 一幅图像提取六种视觉特征,即HSV颜色直方图、边缘方向直方图、颜色相关图、基于分块 的颜色矩、RGB颜色直方图、基于小波变换的纹理特征,并且在每一种视觉特征上利用不同 的相似度计算方法,为每一对图像求得一个相似度;在每一种视觉特征上建立一个相似图, 其中图像集合D中的每一幅图像作为相似图的一个顶点,图像之间的相似度作为相似图中边 上的权重;
在相似图建成之后,在每一个相似图上学习三个独立于查询的特征:伪相关反馈特征、 密度特征以及地理距离特征;
通过初始化列表,我们为每一幅图像学习一个初始化得分特征;
根据已经学习到的独立于查询的特征以及数据集中已知的图像的相关性,利用监督学习 方法,即RankSVM进行训练得到每一种特征的权重;
当用户向搜索引擎提交查询词后,搜索引擎返回一个初始化列表L和一个图像集合d;
特征生成模型根据训练模型中提到的学习方法为图像集合d中的每一幅图像学习一个独 立于查询的特征向量(包括基于PageRank的伪相关反馈特征、密度特征、地理距离特征以及 初始化得分特征),并根据训练模型得到的每一种特征的权重,具体通过下列公式得到最终的 重排序列表:
其中ψ是用来控制特征提取过程的函数,即特征函数,wj是指第j个特征函数的权重,q 是指用户输入的查询问题。
在提取到的视觉特征的基础上,我们学习基于PageRank的伪相关反馈和密度特征两种类 型的生成特征。PPRF假设在PageRank列表中前m幅图像是相关的并且排名最低的图像不相 关,PPRF得分就是根据这些图像的相关性反馈和不相关性反馈得到的。密度特征利用核密度 估计来检测初始化列表中图像的密度特征。利用图像的GPS信息与已经得到的景点的GPS信 息,求得图像的地理距离特征。最后,我们利用初始化列表,将图像的初始化排名转化成初 始化得分特征。
1)基于PageRank的伪相关反馈。
PageRank是Google对查询到的网页进行排序的关键技术,主要被用来对网页的重要性 进行评价。其基本思想是:网络上的每一个网页的重要性是取决于指向它的那些网页的数量 及其重要性。
伪相关反馈是基于一个这样的假设:在初始化列表中排在前边的图像比排在后边的图像 与查询词之间具有更高的相关性。
由于传统的搜索引擎是根据图像周围的文本进行图像检索,返回初始化列表,这就使得 在初始化列表中排在前边的图像并不能总是能够满足用户的需求。因此设计了基于PageRank 的伪相关反馈(PPRF)来将图像的重排序问题转化成在相似图中寻找权威顶点的问题。相似 图是指初始化列表中的图像作为顶点,边的权重是图像之间的相似性。主要的过程步骤为:
首先,建立相似图。其中相似图的顶点为初始化列表中的每一幅图像,图像之间的相关 性作为相应的顶点之间边的权重。
其次,利用PageRank算法来学习建立的相似图中每一个顶点的权威性。
之后,根据图像的PageRank值对初始化列表中的每一幅图像进行重新的排序,得到 PageRank列表。
再次,我们根据假设PageRank列表中排在前边的图像与查询更加相关,排在后边的图像 不相关,取PageRank列表中的前k(本文中k=10)个图像作为查询相关图像。
最后,利用相关性反馈,根据图像之间的加权相关性来计算初始化列表中每一幅图像的 得分。进行相关性反馈的方法有许多,本文中我们利用重复投票用来进行相关性反馈。
2)密度特征。
密度特征是根据密度假设建立的。密度假设是指相似图像应该比不相似的图像有着更高 的密度,即相似图像会聚集在一起而不相似图像会十分的分散。我们利用核密度估计来计算 图像的密度。图像xi的核密度估计为:
Ν(xi)是指图像xi的邻居集合。K(·)是一个核函数。常见的核函数有多项式核函数、高 斯核函数、字符串核函数等,本文中用到的为高斯核函数。
3)地理距离特征。
图像的地理距离特征是根据查询到的景点的GPS信息和图像自带的GPS进行求解。
因为地球是一个近乎标准的球体,它的赤道半径为6378km,地球的极半径为6356km, 平均半径6371km。因此我们假设地球是一个球体,取它的半径为地球的平均半径,记为R。 以0度经线为基准,那么根据地球表面任意两点的经纬度就可以计算出这两点间的地表距离 (这里仅仅是理论上的数值,忽略了地球表面地形的变化使的计算产生的误差)。
现在假设地球上的任意两点A,B,点A的经纬度为(LonA,LatA),点B的经纬度为(LonB,LatB),在经线的标注中,东经的经度值要取正自身的经度值(LonA),而西经的经度值 要取负自身的经度值(-LonA),北纬的纬度值要取90-自身的纬度值(90-LatA),南纬的纬度 值要取90+自身的纬度值(90+LatA),因此根据以上标准进行处理后的两点坐标分别为 (MLonA,MLatA)和(MLonB,MLatB)。
由三角推导,可以用公式(3)与公式(4)计算AB两点距离的:
C=sin(MLatA)×sin(MLatB)×cos(MLonA-MLonB)+cos(MLatA×cos(MLatB);
Distance=R×Arccos(C)×Pi/180。
其中有一个计算C的公式的标准形式,可以应用于任何的地方,因为这里使用的经纬度 为度数,有的地方需要进行换算,例如:在excel中用三角函数的时候都是用的弧度,这就 需要进行转换。最后的一个式子在使用的时候就是先进行转化再乘以半径的。因此在excel 中应用的话,因为三角函数的输入与输出都是采用的弧度值,因此公式还可以写为:
C=sin(LatA×Pi/180)×sin(LatB×Pi/180)+cos(LatA×Pi/180×cos(LatB×Pi/180)× cos((MLonA-MLonB)×Pi/180;
Distance=R×Arccos(C)。
该公式中C计算的时候直接用到了弧度值,因此这个公式可以直接在excel中应用。在 最后一个式子中就不再需要进行弧度的转化了。
4)初始化得分特征。
初始化得分是指在初始化列表中每一幅图像的排名得分。得到该分数最直接的方法就是 利用搜索引擎返回的初始化得分,然而大多数的搜索引擎仅仅返回图像的初始化排名,我们 很难得到搜索引擎返回图像时的初始化得分,因此我们需要把图像的初始化排名转化成初始 化得分。我们用以下方法进行转化:
初始化的相关性评估是利用了在所有查询上初始化排名ri和初始化得分si之间的关系进 行求解的。
其中是指所用数据集中所有的查询集合。是查询集上的期望。rel(q,ri)是指 在查询q的初始化列表中第i幅图像的相关性(相关性一般用0、1、2来进行标注)。常用的求解的方法是求在查询集中所有查询q的初始化列表中位于第i个位置的图像的相关性的平均值。
为了更加全面的了解初始化排名的信息,使得将初始化排名转化成初始化得分的时候能 够更加全面的反应整个数据集上的初始化列表的好坏,我们采用以上方式将我们的初始化列 表中图像的排名转换成最终的得分。
下面给出一具体实例来说明本发明的具体实现过程:
(1)用户输入阶段:用户根据自己的需要,输入想要查询景点的城市,之后点击“查询”, 后台系统就开始查询。
(2)省份地址解析阶段:当用户输入省市名称之后,系统会根据用户的输入向Google Map API发出地址解析的请求,Google Map API根据该名称进行解析,并把解析后的GPS信息按 照用户请求的格式返回给用户。
(3)景点搜索阶段:根据Google Map API返回的GPS信息,系统会向Google PlacesAPI 发出进行景点搜索的请求,Google Places API会向用户返回指定范围内的景点的名称等信 息。
(4)景点地址解析阶段:系统根据Google Places API返回的信息,取出所需的景点的 名称信息,进行解析。具体的同(2)。
(5)景点图像搜索阶段:系统根据Google Places API返回的信息,取出所需的景点的 名称信息,根据该名称向Flickr search API发出图像搜索的请求,Flickr searchAPI根 据用户请求的信息进行搜索,并根据用户请求的格式返回搜索到的图像的详细信息(包括图 像的标识符id、图像所在的服务器id、图像是否为公开的等等)。
(6)景点GPS搜索阶段::系统根据Flickr search API返回的信息解析出图像的标识 符id,根据该id信息向Flickr geo API发送查找其GPS信息的请求。Flickr geo API根据 用户的请求数据,返回图像的GPS信息(包括精度和纬度信息)。
(7)获取景点显示图像阶段:将检索到的景点的每一副提取相关特征(HSV颜色直方图、 边缘方向直方图、颜色相关图、基于分块的颜色矩、RGB颜色直方图、基于小波变换的纹理 特征、地理距离特征),根据这些特征对检索到景点的所有图像进行重新的排序,取排序第一 的作为景点的最终的显示图像。
(8)景点的名称及图像的显示阶段:根据Flickr search API返回的景点的信息,读取 出景点的名称对应于取得的景点的最终的显示图像,进行显示。
以上对本发明所提供的一种基于地理位置的景点检索与重排序方法进行了详细介绍。本 文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮 助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不 脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本 发明权利要求的保护范围内。
Claims (10)
1.一种基于地理位置的景点检索与重排序方法,其特征在于,其实现过程为,
一、首先根据省份名称检索查询该省份旅游景点的包括名称、地址的信息;
二、然后通过图像检索技术检索出名称对应的图像;
三、对图像进行排序,并将排序后的图像展示出来。
2.根据权利要求1所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述步骤一的实现过程为:
首先用户输入信息:用户根据自己的需要,输入想要查询景点的城市,然后开始查询;
进行省份地址解析,并将解析结果返回给用户;
根据解析的省份地址,进行该省份的景点搜索;
对景点地址解析,并将解析结果返回给用户。
3.根据权利要求2所述的一种基于地理位置的景点检索与重排序方法,其特征在于,在步骤一中,进行省份地址解析时,用户输入省市名称,根据用户的输入向包括Google MapAPI的地图服务模块发出地址解析的请求,地图服务模块根据该名称进行解析,并把解析后的GPS信息按照用户请求的格式返回给用户;当进行景点搜索时,根据返回的GPS信息,向包括Google Places API的位置服务模块发出进行景点搜索的请求,位置服务模块向用户返回指定范围内的景点的名称信息;当进行景点地址解析时,根据位置服务模块返回的信息,取出所需的景点的名称信息,进行解析,并把解析后的信息按照用户请求的格式返回给用户。
4.根据权利要求2或3所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述省份地址解析、景点地址解析均包括地址解析与反地址解析两种,其中:
地址解析是指将地址名称转化成为地理坐标的过程,然后根据坐标信息进行标记或者定位地图;该解析是由地图服务模块提供的接口,通过http请求直接的访问地址解析器,进行地址的解析;
反地址解析是指将坐标信息转化为地址的名称,由地图服务模块提供的接口通过http请求直接的访问反地址解析器,进行反地址的解析。
5.根据权利要求1所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述步骤二中图像检索过程为:
首先根据检索到的旅游景点的名称、地址信息,搜索景点图像的信息,该图像信息包括图像的标识符id、图像所在的服务器id、图像是否为公开:首先根据位置服务模块返回的信息,取出所需的景点的名称信息,根据该名称向包括Flickr search API的爬取模块发出图像搜索的请求,爬取模块根据用户请求的信息进行搜索,并根据用户请求的格式返回搜索到的图像的详细信息;
然后根据搜索的图像信息,查找其GPS信息:根据爬取模块返回的信息解析出图像的标识符id,根据该id信息向包括Flickr geo API的定位模块发送查找其GPS信息的请求,定位模块根据用户的请求数据,返回图像的GPS信息,这里的GPS信息包括精度和纬度信息;
获取景点显示图像,排序后显示:将检索到的景点的每一副提取相关特征进行排序,并取排序第一的作为景点的最终的显示图像,这里的相关特征包括HSV颜色直方图、边缘方向直方图、颜色相关图、基于分块的颜色矩、RGB颜色直方图、基于小波变换的纹理特征、地理距离特征。
6.根据权利要求5所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述步骤二中获取的景点显示图像重排序具体过程为:
首先,通过一个训练模型来学习到每一个独立于查询的特征的权重,在训练模型中,将获得的训练数据提交到特征生成器,训练数据中的图像形成图像集合D,图像集合D中的每一幅图像提取六种视觉特征,即HSV颜色直方图、边缘方向直方图、颜色相关图、基于分块的颜色矩、RGB颜色直方图、基于小波变换的纹理特征,并且在每一种视觉特征上利用不同的相似度计算方法,为每一对图像求得一个相似度;在每一种视觉特征上建立一个相似图,其中图像集合D中的每一幅图像作为相似图的一个顶点,图像之间的相似度作为相似图中边上的权重;
在相似图建成之后,在每一个相似图上学习三个独立于查询的特征:伪相关反馈特征、密度特征以及地理距离特征;
通过初始化列表,我们为每一幅图像学习一个初始化得分特征;
根据已经学习到的独立于查询的特征以及数据集中已知的图像的相关性,利用监督学习方法,即RankSVM进行训练得到每一种特征的权重;
当用户向搜索引擎提交查询词后,搜索引擎返回一个初始化列表L和一个图像集合d;
特征生成模型根据训练模型中提到的学习方法为图像集合d中的每一幅图像学习一个独立于查询的特征向量,并根据训练模型得到的每一种特征的权重,具体通过下列公式得到最终的重排序列表:
其中ψ是用来控制特征提取过程的函数,即特征函数,wj是指第j个特征函数的权重,q是指用户输入的查询问题。
7.根据权利要求6所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述在每一个相似图上学习三个独立于查询的特征中,伪相关反馈特征是指基于PageRank的伪相关反馈特征,PageRank被用来对网页的重要性进行评价,通过伪相关反馈特征对图像进行评价的过程为:
建立相似图,其中相似图的顶点为初始化列表中的每一幅图像,图像之间的相关性作为相应的顶点之间边的权重;
利用PageRank算法来学习建立的相似图中每一个顶点的权威性;
根据图像的PageRank值对初始化列表中的每一幅图像进行重新的排序,得到PageRank列表;
假设PageRank列表中排在前边的图像与查询更加相关,排在后边的图像不相关,取PageRank列表中的前k个图像作为查询相关图像,这里的k≥10;
最后,利用相关性反馈,根据图像之间的加权相关性来计算初始化列表中每一幅图像的得分。
8.根据权利要求6所述的一种基于地理位置的景点检索与重排序方法,其特征在于,在每一个相似图上学习三个独立于查询的特征中,密度特征是根据密度假设建立的,密度假设是指相似图像应该比不相似的图像有着更高的密度,即相似图像会聚集在一起而不相似图像会十分的分散,所述密度特征通过核密度估计来计算图像的密度,即图像xi的核密度估计为:
Ν(xi)是指图像xi的邻居集合,K(·)是一个核函数,这里的核函数包括多项式核函数、高斯核函数、字符串核函数。
9.根据权利要求6所述的一种基于地理位置的景点检索与重排序方法,其特征在于,在每一个相似图上学习三个独立于查询的特征中,地理距离特征是根据查询到的景点的GPS信息和图像自带的GPS进行求解,取任意两点A、B,点A的经纬度为(LonA,LatA),点B的经纬度为(LonB,LatB),在经线的标注中,东经的经度值要取正自身的经度值LonA,而西经的经度值要取负自身的经度值-LonA,北纬的纬度值要取90-自身的纬度值,即90-LatA,南纬的纬度值要取90+自身的纬度值,即90+LatA,因此根据以上标准进行处理后的两点坐标分别为(MLonA,MLatA)和(MLonB,MLatB);
由三角推导,用下述公式计算出AB两点距离:
C=sin(MLatA)×sin(MLatB)×cos(MLonA-MLonB)+cos(MLatA×cos(MLatB);
Distance=R×Arccos(C)×Pi/180。
10.根据权利要求6所述的一种基于地理位置的景点检索与重排序方法,其特征在于,所述初始化得分特征是指在初始化列表中每一幅图像的排名得分,通过把图像的初始化排名ri转化成初始化得分si实现:
其中i=1,2……N;是指所用数据集中所有的查询集合;是查询集上的期望;rel(q,ri)是指在查询q的初始化列表中第i幅图像的相关性;求解的方法是求在查询集中所有查询q的初始化列表中位于第i个位置的图像的相关性的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185971.6A CN108427743A (zh) | 2018-03-07 | 2018-03-07 | 一种基于地理位置的景点检索与重排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810185971.6A CN108427743A (zh) | 2018-03-07 | 2018-03-07 | 一种基于地理位置的景点检索与重排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108427743A true CN108427743A (zh) | 2018-08-21 |
Family
ID=63157480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810185971.6A Pending CN108427743A (zh) | 2018-03-07 | 2018-03-07 | 一种基于地理位置的景点检索与重排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108427743A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695920A (zh) * | 2019-03-11 | 2020-09-22 | 新疆丝路大道信息科技有限责任公司 | 汽车租赁平台的旅游景区推荐系统、方法及电子设备 |
CN112765492A (zh) * | 2020-12-31 | 2021-05-07 | 浙江省方大标准信息有限公司 | 一种检验检测机构排序方法 |
CN115022277A (zh) * | 2022-06-22 | 2022-09-06 | 支付宝(杭州)信息技术有限公司 | 一种双栈网络下的业务处理方法、装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101523432A (zh) * | 2006-10-10 | 2009-09-02 | 微软公司 | 标识地点的景点 |
CN106528834A (zh) * | 2016-11-17 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 基于人工智能的图片资源推送方法及装置 |
CN106777212A (zh) * | 2016-12-23 | 2017-05-31 | 北京奇虎科技有限公司 | 基于景点名称搜索的搜索结果展现方法及装置 |
-
2018
- 2018-03-07 CN CN201810185971.6A patent/CN108427743A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101523432A (zh) * | 2006-10-10 | 2009-09-02 | 微软公司 | 标识地点的景点 |
CN106528834A (zh) * | 2016-11-17 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 基于人工智能的图片资源推送方法及装置 |
CN106777212A (zh) * | 2016-12-23 | 2017-05-31 | 北京奇虎科技有限公司 | 基于景点名称搜索的搜索结果展现方法及装置 |
Non-Patent Citations (1)
Title |
---|
赵胜男: ""基于多模态监督学习的图像重排序算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695920A (zh) * | 2019-03-11 | 2020-09-22 | 新疆丝路大道信息科技有限责任公司 | 汽车租赁平台的旅游景区推荐系统、方法及电子设备 |
CN111695920B (zh) * | 2019-03-11 | 2023-06-13 | 新疆丝路大道信息科技有限责任公司 | 汽车租赁平台的旅游景区推荐系统、方法及电子设备 |
CN112765492A (zh) * | 2020-12-31 | 2021-05-07 | 浙江省方大标准信息有限公司 | 一种检验检测机构排序方法 |
CN115022277A (zh) * | 2022-06-22 | 2022-09-06 | 支付宝(杭州)信息技术有限公司 | 一种双栈网络下的业务处理方法、装置以及设备 |
CN115022277B (zh) * | 2022-06-22 | 2024-05-14 | 支付宝(杭州)信息技术有限公司 | 一种双栈网络下的业务处理方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9721157B2 (en) | Systems and methods for obtaining and using information from map images | |
US8421872B2 (en) | Image base inquiry system for search engines for mobile telephones with integrated camera | |
Jiang et al. | Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions | |
US20050162523A1 (en) | Photo-based mobile deixis system and related techniques | |
US20080056538A1 (en) | Systems and methods for obtaining and using information from map images | |
US9489402B2 (en) | Method and system for generating a pictorial reference database using geographical information | |
Luo et al. | Geotagging in multimedia and computer vision—a survey | |
US8015183B2 (en) | System and methods for providing statstically interesting geographical information based on queries to a geographic search engine | |
Goodchild | Spatial accuracy 2.0 | |
US20070198495A1 (en) | Geographic coding for location search queries | |
US20070237426A1 (en) | Generating search results based on duplicate image detection | |
Keßler et al. | Bottom-up gazetteers: Learning from the implicit semantics of geotags | |
EP2538356A1 (en) | Geographic coding for location search queries | |
CN101458695A (zh) | 基于关键词和内容特征的混合图片索引构建和查询方法及其应用 | |
KR20060095979A (ko) | 검색 결과를 클러스터화하기 위한 시스템 및 방법 | |
CN108427743A (zh) | 一种基于地理位置的景点检索与重排序方法 | |
WO2008129383A1 (en) | Method, apparatus and computer program product for determining relevance and/or ambiguity in a search system | |
CN114241464A (zh) | 基于深度学习的跨视角影像实时匹配地理定位方法及系统 | |
US11423078B2 (en) | Map search recommendation system based on image content analysis driven geo-semantic index | |
JP7298090B2 (ja) | 地理位置点の空間関係を抽出する方法及び装置 | |
Kim et al. | Towards a fairer landmark recognition dataset | |
Li et al. | Global-scale location prediction for social images using geo-visual ranking | |
GENTILE | Using Flickr geotags to find similar tourism destinations | |
CN108520029A (zh) | 一种基于图片和定位信息进行搜索的方法、服务器及系统 | |
CN116992167B (zh) | 地址搜索方法、系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180821 |