CN103678629A - 一种地理位置敏感的搜索引擎方法和系统 - Google Patents

一种地理位置敏感的搜索引擎方法和系统 Download PDF

Info

Publication number
CN103678629A
CN103678629A CN201310704016.6A CN201310704016A CN103678629A CN 103678629 A CN103678629 A CN 103678629A CN 201310704016 A CN201310704016 A CN 201310704016A CN 103678629 A CN103678629 A CN 103678629A
Authority
CN
China
Prior art keywords
webpage
geographical
focus
relevance
geo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310704016.6A
Other languages
English (en)
Other versions
CN103678629B (zh
Inventor
姜丹
高勇
李浩然
刘家骏
郭潇
程静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201310704016.6A priority Critical patent/CN103678629B/zh
Publication of CN103678629A publication Critical patent/CN103678629A/zh
Application granted granted Critical
Publication of CN103678629B publication Critical patent/CN103678629B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种地理位置敏感的网页检索方法、搜索引擎方法和搜索引擎系统。首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。

Description

一种地理位置敏感的搜索引擎方法和系统
技术领域
本发明提供一种搜索引擎方法和系统,具体涉及一种考虑网页地理位置信息及链接关系的网页检索方法,并提供了相应的搜索引擎系统,属于地理信息检索领域。 
背景技术
随着信息技术的发展,互联网已经成为重要的数据来源,近年来云技术的普及在解决数据共享问题的同时,也给信息挖掘和知识发现带来严峻的考验。在大数据时代如何有效挖掘出高相关性、高可靠性的数据显得尤为重要。根据Mark Sanderson等人的研究(Sanderson M,Kohler J.Analyzing geographic queries[C]//SIGIR Workshop on Geographic Information Retrieval.2004,2),15%-19%的网页搜索查询都是地理相关的,基于地理信息的网页检索具有很大的研究价值和实际意义。 
传统的网页排序方法主要采用PageRank算法(Page L,Brin S,Motwani R,et al.The PageRank citation ranking:bringing order to the web[J].1999),该算法基于网页链接关系计算每个网页的排序得分,同时根据主题进行加权,对于一般主题相关的查询能够返回满意的结果,但却无法根据检索词与网页间地理相关性进行排序;Bruno Martins等人对地理信息检索的研究(Martins B,Calado P.Learning to rank for geographic information retrieval[C]//Proceedings of the6th Workshop on Geographic Information Retrieval.ACM,2010:21)则是针对文档的,最终结果以地理相关性和文本相关性进行排序,该方法缺少对网络结构的考虑,无法过滤掉垃圾网页;Saeid Asadi等人的工作(Asadi S,Zhou X,Yang G.Using local popularity of web resources for geo-ranking of search engine results[J].World Wide Web,2009,12(2):149-170)将不属于查询范围的网页从网络结构图中直接删除,对地理相关性的判定不精确,同时对网络结构图的修改也使垃圾网页不能很好地剔除。目前还没有一种方法能够很好地兼顾地理相关性和网页链接关系。 
发明内容
术语定义:“地理热点”也称为POI(Point of Interest,兴趣点),是空间位置已知、在现实世界中具有明确标识的地点,例如一栋房子、一个商铺、一个邮筒、一个公交站等。“网页的地理范围”指网页包含的地理名词所对应空间坐标的点集;“关键词的地理范围”指查询语 句对应的空间点集;“基于地理信息的搜索”指用户输入地理关键词,希望返回的网页地理范围与关键词的地理范围最邻近,并且返回的网页能包含可靠的信息(非垃圾网页)。 
本发明的目的是提供一种新的网页重要性评价方法和搜索引擎方法及系统,综合考虑网页包含的地理位置信息和网页的链接关系对网页进行评分,在用户进行地理信息检索时能实时提供与查询语句地理范围最邻近、最权威的网页。 
本发明提供的技术方案如下: 
本发明首先提供一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。 
本发明同时提供一种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤: 
S1、离线计算各网页关于地理热点的得分,执行如下操作: 
S101:选取POI库中的地理热点作为参考点; 
S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围; 
S103:对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正比,与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性; 
S104:利用网络爬虫获取网页间的链接关系;根据网页间的链接关系,构建网络结构图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系; 
S105:对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,基于网页包含的地理范围对网页进行加权,计算各网页关于地 理热点的得分; 
S2、在线计算查询语句与地理热点的地理相关性,执行如下操作: 
S201:利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围; 
S202:对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和; 
S3、结合离线计算和在线计算,得出各网页关于检索词的得分并排序输出。 
其中,步骤S3包括: 
S301:调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于查询语句的最终得分; 
S302:根据网页的最终得分进行降序排列,并返回结果列表。 
步骤S103具体包括: 
在网页i中,包含M个地理位置{fp1,fp2,fp3,…fpM},任意点位m在网页中出现的频率为tm为m点对应的地理名词在网页中出现的次数,Ti为网页中总词数;m点与地理热点j的距离为dmj;r为经验值;m点关于地理热点j的相关性权重wm|j如下计算: 
w m | j = t m T i 1 1 + d mj r
整个网页i关于地理热点j的相关性权重wi|j为网页i所包含的所有点相关性权重之和,为使权重计算具有概率意义,进行归一化处理,如下式 
w i | j = Σ m = 1 M t m T i 1 1 + d mj r Σ i = 1 N Σ m = 1 M t m T i 1 1 + d mj r
其中N为网页总数。 
步骤S105具体包括: 
对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,通过对网页地理位置进行加权,计算各网页关于地理热点的得分,计算公式如下: 
v i | j = β Σ k = 1 N a ik v k | j + ( 1 - β ) w i | j
其中β表示浏览者遵循网页链接关系进行浏览的概率,取值0.7~0.85;(1-β)表示随机加入浏览者的概率;vi|j为网页i关于地理热点j的得分,vk|j为网页k关于地理热点j的得分,aik表示网页链接关系图的邻接矩阵A中的第i行第k列元素值,N为网页总数。 
步骤S202具体包括: 
对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;对于查询语句地理范围点集Q中第t个点qt,其关于地理热点j的地理相关性计算公式如下: 
p ( j | q t ) = 1 1 + d tj r
其中,dtj为qt与地理热点j的距离;对整个查询语句Query来说,其关于地理热点j的地理相关性p(j|Query)为所有点的相关性之和,如下: 
p ( j | Query ) = Σ t = 1 Nq 1 1 + d tj r
其中Nq为查询语句点集中地理点的数量,r为经验值。 
步骤S3中,调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地 理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于检索词的最终得分;网页i关于查询语句Query的相关性得分GPRi计算公式如下: 
GP R i = Σ j = 1 N ip p ( j | Qury ) v i | j
其中Nip为地理热点总数。 
本发明还提供一种地理位置敏感的搜索引擎系统(参见图1),其特征是,包括云端服务器;搜索器、索引器、检索器、用户接口和分布式空间数据库;其中, 
所述的云端服务器,为位于云端的一台或多台计算机设备,提供数据检索所需的计算和存储平台; 
所述的搜索器,主要负责从一个起始URL集合开始,顺着URL中的超链接以宽度优先、深度优先或启发式方式循环地在互联网中发现信息,抓取网页的链接关系以及网页的地理范围; 
所述的索引器,主要负责理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,根据网页链接关系及网页涉及的地理位置,计算各网页对于指定地理热点的得分; 
所述的检索器,对用户查询语句进行解析,根据其的地理范围,计算出查询语句与地理热点的地理相关度,并调用索引器的计算结果,最终进行网页与查询的地理位置敏感的相关度评价,对将要输出的结果进行排序,并实现用户相关性反馈机制; 
所述的用户接口,接受用户查询输入、显示查询结果,提供基本的人机交互操作界面; 
所述的分布式空间数据库,用于存储系统日志、地理热点的空间及属性信息、各网页关于地理热点的得分。 
所述的搜索器,负责网页链接信息和地理位置信息的爬取,并将这些信息传入到所述的索引器进行离线处理,计算每个网页关于地理热点的得分并将其记录在所述的分布式空间数据库中。 
所述的搜索引擎系统,当浏览者从所述的用户接口输入查询语句时,所述的检索器对查询语句进行解析,获取其所包含的地理位置信息,并根据所述的分布式空间数据库中的地理 热点计算查询语句与地理热点的地理相关性,之后结合各网页的离线得分情况,计算出网页对于查询语句的最终得分,将结果降序排列返回到用户接口进行显示。 
本发明提供的网页检索方法能很好地兼顾地理信息和链接信息,提高了查询精度,同时采用地理热点机制,减少了在线计算的工作量,缩短了查询时间,带来更高效、准确的网页地理信息检索体验。 
附图说明
图1是搜索引擎系统的软件模块组成及关系图,箭头表示数据流向。 
图2是算法总体流程。 
图3是离线计算各网页关于地理热点的得分的流程。 
图4是在线计算查询语句与地理热点的地理相关性的流程。 
图5是实例中网络结构图。 
图6是各网页地理范围与地理热点点位关系图。 
图7是查询语句地理范围与地理热点点位关系图。 
具体实施方式
本发明的具体实施方式如下(如图2所示): 
1.离线计算各网页关于地理热点的得分,执行如下操作(如图3所示): 
1.1选取地理热点作为参考点。地理热点选取的越多、越密集,最终得出的结果就越精确,但是相应的计算量就越大。根据需要的精度选择一定数目的地理热点,这些地理热点的选取可以参考各国的POI(Point of Interest,信息点)数据库。对地理热点进行编号{ip1,ip2,ip3…},并在空间数据库中记录坐标值; 
1.2利用云端服务器对网络中各网页进行信息爬取,获得每个网页的地理范围,可以使用Yahoo!Placemaker服务对文本进行地理标注,从而获取每个网页的地理范围,也可以采用自然语言处理方法,根据语料库和字典,提取文本中的地名及其对应的坐标。每个网页对应的地理点集可表示为{fp1,fp2,fp3,…},将其存储在服务器的空间数据库中。 
1.3对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正比, 与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性。传统基于拓扑关系的二值相关性判别主要考察两空间实体最小外包矩形,相交为1,否则为0。由于这种算法是二值的,不能准确反应地理相关性,另外最小外包矩形容易受奇异点影响,从而使网页地理范围产生严重偏差。本发明采用一种基于点集的相关性算法,相关度随距离增加而降低,同时结合每个地点在网页中出现的频率,使高频地点在计算中占有更高的权重,具体算法如下: 
在网页i中,包含M个地理位置{fp1,fp2,fp3,…fpM},任意点位m在网页中出现的频率为
Figure BDA0000441354320000071
(tm为m点对应的地理名词在网页中出现的次数,Ti为网页中总词数);m点与地理热点j的距离为dmj;r为经验值,其取值越大,距离对相关性权重的影响越大,词频的影响越小,这里一般取2。m点关于地理热点j的相关性权重wm|j可用公式1计算: 
w m | j = t m T i 1 1 + d mj r - - - ( 1 )
整个网页i关于地理热点j的相关性权重wi|j为网页i所包含的所有点相关性权重之和,另外为使权重计算具有概率意义,需要进行归一化处理,如公式2,其中N为网页总数。 
w i | j = Σ m = 1 M t m T i 1 1 + d mj r Σ i = 1 N Σ m = 1 M t m T i 1 1 + d mj r - - - ( 2 )
1.4利用网络爬虫工具获取网页间的链接关系;根据网页间的链接关系,构建网页链接关系图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系。为使算法具有概率意义,对矩阵中每一列进行归一化处理。 设A矩阵中第i行第k列的元素为aik,则: 
Figure BDA0000441354320000081
其中,|ak|为网页k链出网页的总数。 
1.5对于每个热点,根据各网页的链接关系以及关于该热点的地理相关性,基于PageRank算法进行改进,通过对网页地理位置进行加权,计算各网页关于热点的得分,计算公式如下: 
v i | j = β Σ k = 1 N a ik v k | j + ( 1 - β ) w i | j - - - ( 4 )
其中β表示浏览者遵循网页链接关系进行浏览的概率,一般取0.7~0.85;(1-β)则表示随机加入浏览者的概率;vi|j为网页i关于地理热点j的得分,vk|j为网页k关于地理热点j的得分,aik表示网页链接关系图的邻接矩阵A中的第i行第k列元素值,N为网页总数。上式需要迭代求解,首先将每个网页的初始得分设为
Figure BDA0000441354320000083
代入公式求得每个网页新的得分值,考察网页新旧得分值之差,若小于阈值(与精度要求有关,一般取0.00001)则停止计算,新得分值即为网页关于地理热点的最终得分;否则,将计算结果作为修改后的初始值带入公式再次计算网页得分并考察两次得分差值,重复上述过程直至两次得分差值小于阈值为止,输出最新的计算结果作为网页关于地理热点的最终得分。 
2.在线计算查询语句与热点的地理相关性(如图4所示): 
2.1利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围;利用自然语言处理的方法,可抽取查询中的地名及其对应的坐标信息,表示为点集形式{q1,q2,q3,…}。 
2.2对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和。对于查询语句地理范围点集Q中第 t个点qt,其关于地理热点j的地理相关性计算公式如下,dtj为qt与地理热点j的距离。 
p ( j | q t ) = 1 1 + d tj r - - - ( 5 )
则对整个查询语句Query来说,其关于地理热点j的地理相关性p(j|Query)为所有点的相关性之和,如公式6,其中Nq为查询语句点集中地理点的数量。 
p ( j | Query ) = Σ t = 1 Nq 1 1 + d tj r - - - ( 6 )
3.结合离线计算和在线计算,得出各网页关于检索词的得分并排序 
3.1调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于检索词的最终得分;网页i关于查询语句Query的相关性得分GPRi计算公式如下,其中Nip为地理热点总数。 
GP R i = Σ j = 1 N ip p ( j | Qury ) v i | j - - - ( 7 )
3.2利用排序算法,根据网页的最终得分进行降序排列,并返回结果列表。可采用的排序算法包括快速排序、冒泡排序等,依据各网页的GPR值将网页降序排列,返回搜索结果。 
下面通过实例对本发明做进一步说明。 
实施例1 
假定一个网络中有四个网页A,B,C,D,它们彼此间连接关系如图5所示,箭头方向表示网页的链出方向。每个网页均包含不同数量的地理信息。用户查询语句为“X大学附近”,通过本算法对四个网页进行检索和排序,返回最符合用户查询要求的网页。 
在进行在线查询前,先对四个网页进行处理,计算它们关于地理热点的相关性,步骤如下: 
1.选定一些地理热点,由于实验网页数量较少,所以选取两个地理热点ip1(134,229),ip2(818,551); 
2.设定四个网页的地理范围,各网页点集及点位出现的频率为: 
A点集:{(448,117),(645,242),(586,386),(394,431),(790,507),(711,567),(772,650)}, 
频率:{0.04,0.11,0.02,0.07,0.2,0.02,0.05}; 
B点集:{(62,127),(194,176),(94,214),(253,240),(170,315),(51,363),(354,450)}, 
频率:{0.1,0.27,0.17,0.05,0.19,0.01,0.05}; 
C点集:{(562,155),(401,318),(216,381),(591,374),(742,459),(824,313)}, 
频率:{0.06,0.15,0.1,0.05,0.09,0.01}; 
D点集:{(240,222),(518,399)}, 
频率:{0.1,0.3}; 
各网页包含点集与两个地理热点的位置关系如图6(a)-(d)所示。 
3.根据公式2,分别计算出各个网页关于ip1、ip2的地理相关性权重,其结果如下: 
关于ip1 w A | i 1 = 0.011130 ; w B | ip 1 = 0.900015 ; w C | ip 1 = 0 . 032243 ; w D | ip 1 = 0.056611 ;
关于ip2 w A | ip 2 = 0.863423 ; w B | ip 2 = 0.017744 ; w C | ip 2 = 0.088185 ;
w D | ip 2 = 0.030648 ;
4.根据图5,构建出该网页链接关系图的邻接矩阵A如下: 
0 1 2 1 0 1 3 0 0 1 2 1 3 0 0 1 2 1 3 1 2 0 0
5.根据公式4分别计算各网页关于地理热点ip1、ip2的得分,这里设定β=0.8。结果如下: 
关于 i p 1 : v A | ip 1 = 0.272095 ; v B | ip 1 = 0.340650 ; v C | ip 1 = 0.167096 ; v D | ip 1 = 0.220159 ;
关于 i p 2 : v A | ip 2 = 0.412541 ; v B | ip 2 = 0 . 190509 ; v C | ip 2 = 0 . 204597 ; v D | i p 2 = 0 . 192352 ;
当用户键入搜索语句“X大学附近”进行在线查询时,遵循以下计算步骤: 
1.抽取出搜索语句的地名“X大学”,并获取其坐标,这里设为q(306,218),与两个地理热点的位置关系如图7所示; 
2.根据公式5、公式6,计算出q点与ip1、ip2的地理相关性,p(ip1|Query)=3.336*10-5;p(ip2|Query)=2.681*10-6。 
根据线上、线下两部分计算结果,套用公式7,计算出各个网页关于查询语句的得分为:GPRA=1.0183*10-5;GPRB=1.1187*10-5;GPRC=0.6122*10-5;GPRD=0.786*10-5;最终输出的网页排序为B-A-D-C。 
通过该算法,可以综合考虑网页的可靠性和地理相关性,最终返回较为准确的结果。 
参考文献 
以下皆为中国授权专利: 
1.基于快速相似度的PageRank方法-201110158710.3 
2.基于链接分析的个性化搜索引擎方法-200510050198.5 
3.一种网页重要性评价方法及系统-200710075174.4 
4.一种网页排序方法及装置-200710076164.2 
5.一种跨语言搜索中的网页排序方法和系统-201110049883.1 
6.搜索方法及搜索引擎-201110038433.2 。

Claims (10)

1.一种地理位置敏感的网页检索方法,其特征是,首先云端服务器在离线状态下计算各网页关于选定地理热点的地理相关性,并结合网络爬取单元获取的网络链接结构,计算各网页针对每个地理热点的重要性得分,将所述得分作为一个字段记录在每个网页的元数据中,将各网页的元数据存储在服务器的空间数据库中;用户在线查询时,服务器通过自然语言处理解析出查询语句的地理范围,并根据与地理热点之间的距离计算查询语句关于地理热点的地理相关性,同时从空间数据库中调取各网页关于相应地理热点的得分值,在线计算各网页针对特定查询的得分值并将结果降序排列,在用户端输出检索结果。
2.一种地理位置敏感的搜索引擎方法,其特征是,包括如下步骤:
S1、离线计算各网页关于地理热点的得分,执行如下操作:
S101:选取POI库中的地理热点作为参考点;
S102:利用云端服务器对网络中各网页进行信息爬取,对爬取获得的网页内容进行地理标注,获得每个网页的地理范围;或者采用自然语言处理方法提取出网页包含的地名,并与地名库进行匹配,获得每个网页的地理范围;
S103:对于每个地理热点,网页的地理相关性与网页地理范围中各点出现的频率成正比,与各点和地理热点之间的空间距离的幂成反比,由此在服务器端计算各网页针对地理热点的地理相关性;
S104:利用网络爬虫获取网页间的链接关系;根据网页间的链接关系,构建网页链接关系图的邻接矩阵A,其中A的行、列分别对应相应编号的网页,A中元素的值表示网页间的链接关系;
S105:对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,基于网页包含的地理范围对网页进行加权,计算各网页关于地理热点的得分;
S2、在线计算查询语句与地理热点的地理相关性,执行如下操作:
S201:利用云端服务器对查询语句进行自然语言处理,获取查询语句的地理范围;
S202:对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;
S3、结合离线计算和在线计算,得出各网页关于检索词的得分并排序输出。
3.如权利要求2所述的搜索引擎方法,其特征是,步骤S3包括:
S301:调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于查询语句的最终得分;
S302:根据网页的最终得分进行降序排列,并返回结果列表。
4.如权利要求2所述的搜索引擎方法,其特征是,步骤S103具体包括:
在网页i中,包含M个地理位置,设为{fp1,fp2,fp3,…fpM},任意点位m在网页中出现的频率为
Figure FDA0000441354310000024
tm为m点对应的地理名词在网页中出现的次数,Ti为网页中总词数;m点与地理热点j的距离为dmj;r为经验值;m点关于地理热点j的相关性权重wm|j如下计算:
w m | j = t m T i 1 1 + d mj r
整个网页i关于地理热点j的相关性权重wi|j为网页i所包含的所有点相关性权重之和,为使权重计算具有概率意义,进行归一化处理,如下式
w i | j = Σ m = 1 M t m T i 1 1 + d mj r Σ i = 1 N Σ m = 1 M t m T i 1 1 + d mj r
其中N为网页总数。
5.如权利要求4所述的搜索引擎方法,其特征是,步骤S105具体包括:
对于每个地理热点,根据各网页的链接关系以及关于该地理热点的地理相关性,基于PageRank算法进行改进,通过对网页地理位置进行加权,计算各网页关于地理热点的得分,计算公式如下:
v i | j = β Σ k = 1 N a ik v k | j + ( 1 - β ) w i | j
其中β表示浏览者遵循网页链接关系进行浏览的概率,取值0.7~0.85;(1-β)表示随机加入浏览者的概率;vi|j为网页i关于地理热点j的得分,vk|j为网页k关于地理热点j的得分,aik表示网页链接关系图的邻接矩阵A中的第i行第k列元素值,N为网页总数。
6.如权利要求5所述的搜索引擎方法,其特征是,步骤S202具体包括:
对于每个地理热点,在线计算查询语句的地理相关性,其中,查询语句地理范围中各点的地理相关性与其相对于地理热点的空间距离的幂成反比,整个查询语句的地理相关性为其地理范围中各点地理相关性之和;对于查询语句地理范围点集Q中第t个点qt,其关于地理热点j的地理相关性计算公式如下:
p ( j | q t ) = 1 1 + d tj r
其中,dtj为qt与地理热点j的距离;对整个查询语句Query来说,其关于地理热点j的地理相关性p(j|Query)为所有点的相关性之和,如下:
p ( j | Query ) = Σ t = 1 Nq 1 1 + d tj r
其中Nq为查询语句点集中地理点的数量,r为经验值。
7.如权利要求6所述的搜索引擎方法,其特征是,步骤S3中,调用数据库中存储的各网页对每个地理热点的得分,乘以查询语句对相应地理热点的地理相关性,并对各个地理热点的得分结果进行累和,得出各网页关于检索词的最终得分;网页i关于查询语句Query的相关性得分GPRi计算公式如下:
GP R i = Σ j = 1 N ip p ( j | Qury ) v i | j
其中Nip为地理热点总数。
8.一种地理位置敏感的搜索引擎系统,其特征是,包括云端服务器;搜索器、索引器、检索器、用户接口和分布式空间数据库;其中,
所述的云端服务器,为位于云端的一台或多台计算机设备,提供数据检索所需的计算和存储平台;
所述的搜索器,主要负责从一个起始URL集合开始,顺着URL中的超链接以宽度优先、深度优先或启发式方式循环地在互联网中发现信息,抓取网页的链接关系以及网页的地理范围;
所述的索引器,主要负责理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,根据网页链接关系及网页涉及的地理位置,计算各网页对于指定地理热点的得分;
所述的检索器,对用户查询语句进行解析,根据其的地理范围,计算出查询语句与地理热点的地理相关度,并调用索引器的计算结果,最终进行网页与查询的地理位置敏感的相关度评价,对将要输出的结果进行排序,并实现用户相关性反馈机制;
所述的用户接口,接受用户查询输入、显示查询结果,提供基本的人机交互操作界面;
所述的分布式空间数据库,用于存储系统日志、地理热点的空间及属性信息、各网页关于地理热点的得分。
9.如权利要求8所述的搜索引擎系统,其特征是,所述的搜索器,负责网页链接信息和地理位置信息的爬取,并将这些信息传入到所述的索引器进行离线处理,计算每个网页关于地理热点的得分并将其记录在所述的分布式空间数据库中。
10.如权利要求8所述的搜索引擎系统,其特征是,当浏览者从所述的用户接口输入查询语句时,所述的检索器对查询语句进行解析,获取其所包含的地理位置信息,并根据所述的分布式空间数据库中的地理热点计算查询语句与地理热点的地理相关性,之后结合各网页的离线得分情况,计算出网页对于查询语句的最终得分,将结果降序排列返回到用户接口进行显示。
CN201310704016.6A 2013-12-19 2013-12-19 一种地理位置敏感的搜索引擎方法和系统 Expired - Fee Related CN103678629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310704016.6A CN103678629B (zh) 2013-12-19 2013-12-19 一种地理位置敏感的搜索引擎方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310704016.6A CN103678629B (zh) 2013-12-19 2013-12-19 一种地理位置敏感的搜索引擎方法和系统

Publications (2)

Publication Number Publication Date
CN103678629A true CN103678629A (zh) 2014-03-26
CN103678629B CN103678629B (zh) 2016-09-28

Family

ID=50316174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310704016.6A Expired - Fee Related CN103678629B (zh) 2013-12-19 2013-12-19 一种地理位置敏感的搜索引擎方法和系统

Country Status (1)

Country Link
CN (1) CN103678629B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318413A (zh) * 2014-10-22 2015-01-28 长沙路联信息科技有限公司 物流信息匹配方法和系统
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN105550330A (zh) * 2015-12-21 2016-05-04 北京奇虎科技有限公司 兴趣点poi信息排序的方法和系统
CN107315823A (zh) * 2017-07-04 2017-11-03 北京京东尚科信息技术有限公司 基于电子商务的数据处理方法与装置
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法
CN109271581A (zh) * 2018-08-02 2019-01-25 北京天元创新科技有限公司 一种基于Dashboard的大数据快速呈现方法
CN110737820A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN111368170A (zh) * 2020-02-11 2020-07-03 口碑(上海)信息技术有限公司 页面数据的巡检方法、装置及设备
CN112085236A (zh) * 2020-09-04 2020-12-15 武汉大学 基于网约车订单数据的城市热点poi探测方法及装置
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备
US20210350439A1 (en) * 2017-06-15 2021-11-11 Todd Fiore System and method for trusted contact, business selection with automated menuing using trusted friends' and family's recommendations

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879124A (zh) * 2003-11-20 2006-12-13 方国俊 接听方自定资费流向与费率于互联网上进行多媒体通讯且与搜索引擎结合并集成广告发布的会员系统与方法
CN101128821A (zh) * 2004-12-30 2008-02-20 谷歌公司 不明确地理引用的分类
US20080208847A1 (en) * 2007-02-26 2008-08-28 Fabian Moerchen Relevance ranking for document retrieval
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法
US8463774B1 (en) * 2008-07-15 2013-06-11 Google Inc. Universal scores for location search queries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1879124A (zh) * 2003-11-20 2006-12-13 方国俊 接听方自定资费流向与费率于互联网上进行多媒体通讯且与搜索引擎结合并集成广告发布的会员系统与方法
CN101128821A (zh) * 2004-12-30 2008-02-20 谷歌公司 不明确地理引用的分类
US20080208847A1 (en) * 2007-02-26 2008-08-28 Fabian Moerchen Relevance ranking for document retrieval
US8463774B1 (en) * 2008-07-15 2013-06-11 Google Inc. Universal scores for location search queries
CN102253972A (zh) * 2011-06-14 2011-11-23 南京师范大学 基于网络爬虫的地名数据库维护方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318413A (zh) * 2014-10-22 2015-01-28 长沙路联信息科技有限公司 物流信息匹配方法和系统
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN105550330B (zh) * 2015-12-21 2020-09-11 北京奇虎科技有限公司 兴趣点poi信息排序的方法和系统
CN105550330A (zh) * 2015-12-21 2016-05-04 北京奇虎科技有限公司 兴趣点poi信息排序的方法和系统
US20210350439A1 (en) * 2017-06-15 2021-11-11 Todd Fiore System and method for trusted contact, business selection with automated menuing using trusted friends' and family's recommendations
CN107315823A (zh) * 2017-07-04 2017-11-03 北京京东尚科信息技术有限公司 基于电子商务的数据处理方法与装置
WO2019007352A1 (zh) * 2017-07-04 2019-01-10 北京京东尚科信息技术有限公司 基于电子商务的数据处理方法与装置
CN107315823B (zh) * 2017-07-04 2020-11-03 北京京东尚科信息技术有限公司 基于电子商务的数据处理方法与装置
CN108256112B (zh) * 2018-02-09 2021-01-01 浙江省测绘科学技术研究院 基于地理语义的地名地址检索质量评价方法
CN108256112A (zh) * 2018-02-09 2018-07-06 浙江省地理信息中心 基于地理语义的地名地址检索质量评价方法
CN110737820A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN110737820B (zh) * 2018-07-03 2022-05-31 百度在线网络技术(北京)有限公司 用于生成事件信息的方法和装置
CN109271581A (zh) * 2018-08-02 2019-01-25 北京天元创新科技有限公司 一种基于Dashboard的大数据快速呈现方法
CN111368170A (zh) * 2020-02-11 2020-07-03 口碑(上海)信息技术有限公司 页面数据的巡检方法、装置及设备
CN111368170B (zh) * 2020-02-11 2023-03-31 口碑(上海)信息技术有限公司 页面数据的巡检方法、装置及设备
CN112085236A (zh) * 2020-09-04 2020-12-15 武汉大学 基于网约车订单数据的城市热点poi探测方法及装置
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备

Also Published As

Publication number Publication date
CN103678629B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
CN103678629B (zh) 一种地理位置敏感的搜索引擎方法和系统
Sharma et al. A comparative analysis of web page ranking algorithms
Wang et al. Ranking user's relevance to a topic through link analysis on web logs
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN102081668B (zh) 基于领域本体的信息检索优化方法
US20080033932A1 (en) Concept-aware ranking of electronic documents within a computer network
WO2006133538A1 (en) System and method for ranking web content
CN102648466A (zh) 用于取回视图中的数据项批注的方法
CN103838824A (zh) 一种用于空间信息分析的云计算中间件技术
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
Zhao et al. Exploiting location information for web search
Murugudu et al. Efficiently harvesting deep web interfaces based on adaptive learning using two-phase data crawler framework
CN102915312B (zh) 网站中的信息发布方法和系统
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
Bharamagoudar et al. Literature survey on web mining
KR101120040B1 (ko) 연관 질의어 추천 장치 및 방법
CN111782958A (zh) 推荐词确定方法、装置、电子装置及存储介质
Khurana et al. Survey of techniques for deep web source selection and surfacing the hidden web content
Mohan et al. A survey on web structure mining
Laclavik et al. Ontea: Semi-automatic pattern based text annotation empowered with information retrieval methods
Joshi et al. An overview study of personalized web search
Navaneethakrishnan et al. An approach to page ranking based on discourse structures
AnigboguKenechukwu et al. A Cohesive Page Ranking and Depth-First Crawling Scheme For Improved Search Results
Telang et al. Information integration across heterogeneous sources: Where do we stand and how to proceed?
Agarwal et al. An Improvement on page ranking based on visits of links

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160928

Termination date: 20181219

CF01 Termination of patent right due to non-payment of annual fee