CN102193996B - 基于移动设备的可视Web对象搜索引擎方法 - Google Patents

基于移动设备的可视Web对象搜索引擎方法 Download PDF

Info

Publication number
CN102193996B
CN102193996B CN201110113856A CN201110113856A CN102193996B CN 102193996 B CN102193996 B CN 102193996B CN 201110113856 A CN201110113856 A CN 201110113856A CN 201110113856 A CN201110113856 A CN 201110113856A CN 102193996 B CN102193996 B CN 102193996B
Authority
CN
China
Prior art keywords
web object
visual
information
user
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110113856A
Other languages
English (en)
Other versions
CN102193996A (zh
Inventor
寿黎但
陈珂
陈刚
胡天磊
张超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201110113856A priority Critical patent/CN102193996B/zh
Publication of CN102193996A publication Critical patent/CN102193996A/zh
Application granted granted Critical
Publication of CN102193996B publication Critical patent/CN102193996B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于移动设备的可视Web对象搜索引擎方法。该方法的步骤如下:利用爬虫对Web对象进行抓取,针对Web对象的空间属性与语义属性设计数据模型并建立Web对象数据库,并在此基础上建立IR树索引。在处理用户的可视Web对象检索请求时,加入物理因素(如位置、朝向、视角等)的影响,融合Web对象的可视信息与语义信息,以一种“所见即所得”的方式返回搜索结果。本发明并能够随着用户位置或朝向的变化动态更新搜索结果,让用户产生身临其境的体验,从而将物理世界与数字信息世界紧密地结合起来。

Description

基于移动设备的可视Web对象搜索引擎方法
技术领域
本发明涉及可视Web对象搜索引擎,尤其是涉及一种基于移动设备的可视Web对象搜索引擎方法。
背景技术
目前,信息物理系统(Cyber Physical System, 简称CPS)正受到国内外计算机领域工作者们的广泛关注。CPS是在环境感知的基础上,深入融合计算、通信和控制能力的可控可信可扩展的网络化物理设备系统,通过计算进程和物理进程相互影响的反馈循环实现深入融合和实时交互来增加或扩展新的功能,以安全、高效和实时的方式监测或者控制一个物理实体。
本发明就是一个以移动设备(比如手机、GPS导航仪等)为载体的CPS搜索引擎,通过融合Web对象的物理可视性与语义相关性,搜索引擎返回用户视野范围内与查询关键词密切相关的Web对象,并能够根据用户位置的变化动态更新搜索结果。在传统信息检索技术和空间数据库查询技术的基础上,针对海量Web对象设计高效的索引、检索、排序机制是构建本系统的关键。
在信息检索领域,常见的全文搜索引擎采用倒排文件对Web对象进行索引。搜索引擎通过爬虫从互联网提取各个网站的信息(以网页文字为主),建立网页数据库以及关键词与网页之间的对应关系,用户输入关键词进行检索时,搜索引擎从索引数据库中找到匹配该关键词的网页,并按一定的排列顺序返回结果。
在空间数据库领域,常见的索引方法包括网格、四叉树和R树等,这些空间索引通常以层次型的结构组织空间对象,从而支持高效的空间查询。以被业界广泛采用的R树为例,空间上位置相近的数据点被聚类到最小包围盒里,这些最小包围盒又根据空间局部性递归的进行聚类,直到到达根节点。在空间索引结构的基础上,研究者们提出了多种多样的空间查询方法,比如范围查询、最近邻查询、反向最近邻查询、可视查询等。目前的主流数据库管理系统都已经能够高效支持空间索引的建立以及空间查询的处理,比如Maplnfo的SpatialWare、Oracle的Spatial、IBM DB2的Spatial Extender,以及MySQL的Spatial Extensions等,这些空间查询引擎被广泛应用于地理信息系统、计算机辅助设计、多媒体信息系统以及数据仓库等。
上述空间数据库引擎和信息检索平台只能片面地处理空间查询或语义查询,为了处理空间-关键词搜索,必须综合利用空间索引与文本索引,一种方法是先通过空间索引得到满足空间查询条件的候选对象,然后通过文本索引过滤不满足关键词查询条件的对象,最后得到同时满足空间和文本条件的结果集。另一种方法则与之相反,即先通过关键词的筛选,再利用空间信息进一步提炼,以得到最终结果。但是,无论是先空间再文本,还是先文本再空间的过滤方式,在中间过程中都会产生大量的候选对象,这是影响查询性能的主要瓶颈。针对此缺陷,近年来研究者们提出了若干种混合索引机制,比如在R-Tree的节点中附加上签名的IR2树索引,以及在R树的节点中附加倒排文件索引指针的IR树索引等等,在这些混合型索引的基础上,结合最好优先策略,可以高效地获取离用户欧氏距离较近且文本内容较匹配的Web对象。
混合索引的提出较好地解决了空间位置与文本属性融合的问题,但是研究者们所提出的查询处理方法只是简单地以绝对欧式距离作为空间匹配程度的标准,而在CPS框架下,用户感兴趣的通常只是其视野范围内的对象,相对于欧氏距离,可视程度是一种更合适的物理匹配程度衡量标准,如何以移动设备为载体,融合Web对象的可视性与语义信息从而支持海量Web对象的可视检索是一个新的课题。
发明内容
本发明的目的在于提供一种基于移动设备的可视Web对象搜索引擎方法。
本发明解决其技术问题采用的技术方案的步骤如下:
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型;
2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库;
3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的IR树索引;
4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的IR树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端;
5)客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户;
6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。
步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了Web对象的空间属性与语义属性。
步骤2)中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为:提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用DBMS构建海量Web对象数据库。
步骤3)中所述的IR树索引结构结合了主流空间索引结构R树和主流文本索引倒排文件结构,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。
步骤4)中所述的Web对象检索机制以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对IR树索引进行查询,得到前K个信息物理排序值最大的Web对象。
步骤5)中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能在三种模式间自由切换。
步骤6)中所述的实时响应用户位置与朝向变化的方式如下:服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历IR树索引。
本发明具有的有益效果是:
本发明利用空间数据库技术和信息检索技术,无缝融合Web对象的可视信息与语义信息,提供一个基于移动设备的可视Web对象搜索引擎,以一种“所见即所得”的方式呈现给与用户查询条件匹配度较高的Web对象。且通过服务器端的预计算与缓存,系统保障了良好的实时性和交互性,可提供良好的用户体验。
附图说明
图1是本发明实施步骤的流程框图。
图2是基于移动平台的可视Web对象搜索引擎工作的原理框图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图1所示,本发明工作流程如下:
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型。针对Web对象的复杂性与异构性,此数据模型合理融合Web对象的空间位置、文本和图片等多重属性。
2)根据所建立的数据模型,对所抓取的空间Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库。在选择DBMS平台时,如果对可视Web对象查询性能要求较高,可选用Oracle;如果对可视Web对象查询要求较低,可选用Mysql。
3)在海量Web对象数据库的基础上,建立无缝融合空间信息与语义信息的IR树索引。IR树索引是一种混合型索引,在R树的基础上融合了倒排文件,支持基于位置的Web对象查询。
4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的IR树索引,结合用户的当前位置和查询关键词集合,获取前K个最匹配用户查询条件的可视Web对象,排序后发送给客户端。排序机制融合了Web对象的可视性和语义相关性。
5)客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户。二维视图以平面地图为载体,呈现K个Web对象;三维视图以用户移动设备所拍摄的实体街景为载体,呈现K个Web对象;列表视图以有序列表的方式呈现K个Web对象。
6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。服务器预先缓存可视Web对象查询结果,提高了对位置或朝向变化响应的实时性,保证良好的用户体验。
图2是基于移动平台的可视Web对象搜索引擎工作的原理框图,描述了本搜索引擎的架构,现结合图2对上述工作流程进一步阐述。
步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了Web对象的空间属性与语义属性,可以满足后续索引建立和查询处理的要求。
步骤2)中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为:提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用DBMS构建海量Web对象数据库。在图2所示的系统整体架构中,Web对象数据库位于最底层,为上层索引建立、查询处理和排序模块提供支持。在选择DBMS时,可以根据实际应用需求而定,如果对可视Web对象查询性能要求较高,可选用Oracle;如果对可视Web对象查询要求较低,可选用Mysql。
步骤3)中所述的IR树索引结构结合了主流空间索引结构R树和主流文本索引倒排文件结构,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。在图2所示的系统架构中,IR树索引结构建立在最底层的Web对象数据库之上。
步骤4)中所述的Web对象检索机制以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对IR树索引进行查询,得到前K个信息物理排序值最大的Web对象。图2所示的系统架构中,Web对象检索与排序模块负责根据线性加权排序函数对Web对象检索与排序。
步骤5)中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能可以在三种模式间自由切换。图2所示的系统架构中,查询交互模块提供了三种模式的接口。
步骤6)中所述的实时响应用户位置与朝向变化的方式如下:服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历IR树索引。在图2所示的系统架构中,Web对象检索与排序模块在处理可视Web对象检索的同时,预先缓存潜在的可视Web对象,提高了对位置或朝向变化响应的实时性,保证良好的用户体验。

Claims (7)

1.一种基于移动设备的可视Web对象搜索引擎方法,其特征在于该方法的步骤如下:
1)使用爬虫对互联网Web对象进行抓取,并针对移动用户对地理位置和语义信息的检索需求,对信息空间中的海量Web对象,包括网页、多媒体、移动用户、实时微博和虚拟社区建立数据模型;
2)根据所建立的数据模型,对所抓取的互联网Web对象的地理位置信息以及语义信息进行特征识别和智能提取,并在服务器端构建地理词典和海量Web对象数据库;
3)在海量Web对象数据库的基础上,建立融合空间信息与语义信息的IR树索引;IR树索引是一种混合型索引,在R树的基础上融合了倒排文件,支持基于位置的Web对象查询;
4)接收移动用户的可视Web对象查询请求,在服务器端利用已有的IR树索引,结合用户的当前位置和查询关键词集合,对可视Web对象排序,获取前K个最匹配用户查询条件的可视Web对象后发送给客户端;
5)客户端接收服务器所返回的K个可视Web对象,并以三种模式即二维视图、三维视图和列表视图在终端移动设备呈现给用户;
6)当用户所处位置或朝向发生变化时,服务器实时响应这些变化并更新结果列表。
2.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤1)中所述的建立数据模型针对可视Web对象查询需求,融合了Web对象的空间属性与语义属性。
3.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤2)中所述的Web对象地理位置信息提取与海量Web对象数据库建立方式为:提取网页文本中的地理引用,将地址、电话号码和邮政编码转化成相应的空间坐标,在此基础上使用地理编码映射技术对每一个Web对象进行位置编码和数据清洗,并在服务器端选用DBMS构建海量Web对象数据库。
4.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤3)中所述的IR树索引结构结合了空间索引结构R树和文本索引结构倒排文件,融合每一个Web对象的空间信息和语义信息,支持Web对象高效的插入、删除和更新操作。
5.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤4)中所述的可视Web对象排序以线性加权方式融合Web对象的可视性大小和语义相关程度,以此作为信息物理排序值,采用最好优先方法对IR树索引进行查询,得到前K个信息物理排序值最大的Web对象。
6.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤5)中所述的对返回的K个可视Web对象查询结果呈现包括二维视图、三维视图和列表视图三种模式,用户能在三种模式间自由切换。
7.根据权利要求1所述的一种基于移动设备的可视Web对象搜索引擎方法,其特征在于:步骤6)中所述的实时响应用户位置与朝向变化的方式如下:服务器处理用户在起始位置的可视查询时,预测在下一时间段内可能的目标结果,并作为候选Web对象结果集缓存在服务器端,当用户的移动终端设备组件的GPS模块和传感器感应到用户位置与朝向的变化时,发送给服务器,服务器直接从预先计算好的候选Web对象集中获取更新后的结果呈现给用户,以“所见即所得”的方式返回搜索结果,此过程无须重新遍历IR树索引。
CN201110113856A 2011-05-04 2011-05-04 基于移动设备的可视Web对象搜索引擎方法 Expired - Fee Related CN102193996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110113856A CN102193996B (zh) 2011-05-04 2011-05-04 基于移动设备的可视Web对象搜索引擎方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110113856A CN102193996B (zh) 2011-05-04 2011-05-04 基于移动设备的可视Web对象搜索引擎方法

Publications (2)

Publication Number Publication Date
CN102193996A CN102193996A (zh) 2011-09-21
CN102193996B true CN102193996B (zh) 2012-10-10

Family

ID=44602065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110113856A Expired - Fee Related CN102193996B (zh) 2011-05-04 2011-05-04 基于移动设备的可视Web对象搜索引擎方法

Country Status (1)

Country Link
CN (1) CN102193996B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102752401B (zh) * 2012-07-19 2015-10-28 腾讯科技(深圳)有限公司 内容获取方法和装置
CN103559307A (zh) * 2013-11-18 2014-02-05 中国农业银行股份有限公司 一种查询的缓存方法及装置
CN103699611B (zh) * 2013-12-16 2017-01-11 浙江大学 一种基于动态摘要技术的微博流信息提取方法
WO2016070964A1 (en) * 2014-11-03 2016-05-12 Amadeus S.A.S. Managing pre-computed search results
CN104504069A (zh) * 2014-12-22 2015-04-08 北京奇虎科技有限公司 一种文档索引的建立方法和装置
CN104750872A (zh) * 2015-04-22 2015-07-01 海南易建科技股份有限公司 一种业务对象的查询方法及装置
CN107180042B (zh) * 2016-03-09 2020-12-15 创新先进技术有限公司 搜索引擎的流量统计方法、装置及系统
CN109165096B (zh) * 2018-08-20 2021-10-15 四川长虹电器股份有限公司 web集群的缓存利用系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1691011A (zh) * 2004-04-22 2005-11-02 北京中遥地网信息技术有限公司 一种搜索空间信息系统的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
叶常春.基于Web的无线导航服务技术及其空间数据组织方法研究.《中国博士学位论文全文数据库》.2005,全文. *
周脚根,边馥苓.一种基于位置的移动服务系统的设计与实现.《武汉大学学报(信息科学版)》.2006,第31卷(第4期),352-355. *

Also Published As

Publication number Publication date
CN102193996A (zh) 2011-09-21

Similar Documents

Publication Publication Date Title
CN102193996B (zh) 基于移动设备的可视Web对象搜索引擎方法
CN112115198B (zh) 一种城市遥感智能服务平台
KR20210038860A (ko) 의도 추천 방법, 장치, 기기 및 저장매체
US8326823B2 (en) Navigation for large scale graphs
CN104281701B (zh) 分布式多尺度空间数据查询方法及系统
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
US20080027985A1 (en) Generating spatial multimedia indices for multimedia corpuses
CN101196930B (zh) 三维模型检索系统
CN101350013A (zh) 一种地理信息的搜索方法和系统
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
CN108804516A (zh) 相似用户查找装置、方法及计算机可读存储介质
CN104063376A (zh) 多维度分组运算方法及系统
CN103714092A (zh) 一种地理位置的搜索方法和装置
CN102164186A (zh) 一种实现云搜索服务的方法及系统
US20150371430A1 (en) Identifying Imagery Views Using Geolocated Text
CN103257962A (zh) 信息提供方法以及装置
CN109614507A (zh) 一种基于频繁项挖掘的遥感图像推荐装置
CN105787066A (zh) 基于全量分析的数字内容分发系统
CN104408144B (zh) 网络搜索关键词的检测方法及装置
WO2020114273A1 (zh) 商户查找方法、装置、电子设备和存储介质
CN113987024A (zh) 一种基于遥感空间大数据的无感化智能检索方法
TW201445341A (zh) 基於範圍選取的搜索系統及方法
CN109739885A (zh) 基于本地缓存的数据查询方法、装置、设备及存储介质
CN104156364B (zh) 地图搜索结果的展现方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121010

Termination date: 20210504

CF01 Termination of patent right due to non-payment of annual fee