CN101110080A - 一种网络地图服务中未登录地名的定位方法 - Google Patents

一种网络地图服务中未登录地名的定位方法 Download PDF

Info

Publication number
CN101110080A
CN101110080A CNA2007101205475A CN200710120547A CN101110080A CN 101110080 A CN101110080 A CN 101110080A CN A2007101205475 A CNA2007101205475 A CN A2007101205475A CN 200710120547 A CN200710120547 A CN 200710120547A CN 101110080 A CN101110080 A CN 101110080A
Authority
CN
China
Prior art keywords
place name
keyword
address
webpage
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101205475A
Other languages
English (en)
Other versions
CN100478960C (zh
Inventor
罗英伟
汪小林
周晓鲁
许卓群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CNB2007101205475A priority Critical patent/CN100478960C/zh
Publication of CN101110080A publication Critical patent/CN101110080A/zh
Application granted granted Critical
Publication of CN100478960C publication Critical patent/CN100478960C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络地图服务中未登录地名的定位方法,其首先收集所有包含用户输入的未登录地名关键词的网页,从中提取出空间数据库中登录的地址信息,根据地名关键词与登录的地址信息之间的距离计算得到空间相关度,并根据空间聚类计算对空间相关度进行修正,取空间相关度排名在前的几个地址作为定位结果在地图上标识返回给用户。本发明的方法可以在不扩展、更新地址数据的情况下,迅速有效的提供未登录地名的地址信息,并根据文字的地址信息在地图上进行定位,可以在一定程度上提高地图搜索定位服务的质量。

Description

一种网络地图服务中未登录地名的定位方法
技术领域
本发明涉及网络信息挖掘和地图检索服务领域,尤其是网络地图服务中未登录地名关联定位技术。
背景技术
2004年底,Google推出网络地图服务,在Google Maps让网络地图服务真正进入广大网民的生活中的同时,也带动了国内网络地图服务的发展步伐。网络地图服务产业呈现出爆炸式的发展,各式各样的地图服务网站如雨后春笋般涌现出来。地图服务最吸引人也是最重要的功能就是地名搜索定位功能,即用户输入目的地名的关键词,然后由地图服务网站在地图上标识出目的地的位置并显示相关信息。但是现有的网络地图服务中地名搜索服务还不能完全满足人们的需求,主要体现在:如果地图服务的相关空间数据库中没有目的地名的相关信息,则无法对目的地名进行定位。
地名搜索定位服务的基本过程都是用户输入感兴趣的地方的地名关键词并提交给地图服务网站,然后就可以从地图服务网站得到一张标有目的地名的地图。目前知名的地图服务网站几乎都是根据地名关键词(字)匹配来进行定位的,关键词匹配的对象就是空间数据库--一个包含大量地名及其位置信息和其他属性信息的数据库。在地图服务的服务器端,定位的过程主要经历以下几个步骤:首先在服务器端的空间数据库中查找与关键词匹配的地名或属性信息中包含关键词的地址,然后在通过该地址的坐标在地图上标识出这个地址并显示给用户。但是通常一个城市就包含着上万甚至几十万的地址信息,想要采集出全部的地址及其坐标是件非常繁琐复杂的工作,并且经常会有新的地址产生或老的地址消失。因此由于空间数据库数据不全、更新不及时等原因,许多用户在使用地图搜索时都会遇到查不到地名的情况。
以“钻石大厦”为例,服务器端的查询定位服务会在空间数据库中查找有没有“钻石大厦”这个地址;如果没有,则会查找地址的其他相关描述信息中包含“钻石大厦”的结果,比如某个公司的描述信息中包含“位于钻石大厦A座2层”,并且这个公司位于空间数据库中,那么就会将这个公司的位置作为结果返回给用户。如果以上两种地址都没有找到,有的网站会直接提示用户没有找到这个地名,如百度地图会显示“抱歉,没有找到与‘钻石大厦’相关的地点”。也有些地图服务网站会对关键词作一些处理后进行再次查询,比如Google地图会将“钻石大厦”进行切分,然后将切分结果“钻石”和“大厦”作为新的关键词再到空间数据库中进行查询,将地名描述中包含“钻石”和“大厦”的结果返回给用户,即使这两个词在地名描述中不是连在一起出现。后者的做法相当于一种分析关键词与空间数据库内容相关性的方法,在无法找到完全匹配的内容的情况下,将“最相近”的地址返回给用户。对于多个地名组合而成的地址信息这样做会有一定的效果,比如用“中关村软件园钻石大厦”查不到的结果,分别用“中关村软件园”和“钻石大厦”就可能会查到相关信息。但是对于非组合式的地名来说,如“钻石大厦”,分词后仍然很难查到与关键词相关的结果。
这时,通常用户会转而采用其他方式来获得地理实体的位置信息,如使用搜索引擎查找该地理实体的位置。但目前的搜索引擎并没有针对地理位置的搜索采取专门的检索策略,比如在搜索引擎输入一个公司名称并点击搜索,那么搜索引擎会把所有包含该公司名称的网页返回给用户。但是关于这个公司更详细具体的信息比如地址、电话等,则要用户自己打开一个个的网页来判断与查找这些信息,大大降低了地理实体的搜索和定位的效率,增加了用户定位所需的时间。
发明目的
从上面的分析可以看出,要对网络地图服务的空间数据库中没有的地名——未登录地名进行定位,目前还没有很好的方法。最根本的解决办法当然是扩充并更新空间数据库中的数据。不过目前空间数据更新主要由人工来完成,具有固有的复杂性和滞后性。本发明要解决的问题就是在不对空间数据库中的已有数据进行更新的情况下,只在已有空间数据库的支持下,利用搜索引擎搜索得到包含未登录地名的网页,对搜索得到的网页进行分析和挖掘,得到能够描述未登录地名位置的、并且存在于已有空间数据库中的地址信息,实现未登录地名的定位,从而改善地名搜索定位服务的质量。
为了解决目前各地图服务网站对空间数据库中不存在的未登录地名无法处理的情况,本发明提出通过对互联网上包含的大量地址信息进行分析,找出其中既在已有空间数据库中,又能描述未登录地名的地址信息,并通过这些地址信息对空间数据库中没有的未登录地名进行定位的方法。
本发明方法包括以下步骤(如图1所示):
(1)首先收集所有包含用户输入的未登录地名关键词的网页。网页的获取方式可以从本地已有的网页库中检索出包含关键词的网页,也可以通过搜索引擎检索到包含关键词的网页链接,再下载到本地。然后从网页中提取出包含关键词的上下文信息,上下文为纯文本信息,大小在200字以内为宜(关键词前后各100字)。我们通过人工调查,对一个给定的未登录地名,在包含这个未登录地名的网页文本集合中,能够描述这个未登录地名位置的地址信息(或称空间相关地址)在文本中绝大部分都出现在距该未登录地名100个字以内的上下文中,而其他不能描述该未登录地名位置的地址信息(或称空间不相关地址)则大部分出现在距离这个实体名称100个字以外的上下文中。所以上下文范围取100个字时可以在几乎不影响空间相关地址提取效果的情况下,较好地排除空间不相关的地址信息,降低识别出的空间不相关信息带来的不良影响。
(2)根据地图服务网站所拥有的空间数据库,构建相应的地名词典。该地名词典中的地名词汇,都来源于空间数据库中的地址信息,相应地,每个地名词汇都会有具体的坐标位置。采用基于地名词典的匹配方法(昝红英,《基于实体属性的中文网页检索研究》,北京大学博士论文,2004),从所有网页的未登录地名关键词上下文中提取出所有可以通过空间数据库直接定位的地址信息(或者说在空间数据库中出现的地址信息)。
(3)定量计算出这些地址信息与用户输入的未登录地名关键词的空间相关度。空间相关度是指地址与未登录地名关键词的空间相关性,即识别出的地址的地理位置与用户输入未登录地名关键词的地理位置的相邻程度。空间相关度计算主要依据文本中地址与未登录地名关键词之间的文字距离来计算(罗英伟等,《一种文本上下文中实体地址信息的提取方法》,专利申请)。
(4)根据对地址信息的空间聚类分析对空间相关度进行修正。因为与未登录地名关键词空间相关的地址在地理位置上具有聚集性,即与同一地点相关的地址,彼此之间也是空间邻近的,而空间不相关的地址之间则没有这种特点。因此根据空间数据库把识别出的地址转换成具体的地理位置,通过地图服务的空间聚类计算(Alan T.Murray and Vladimir Estivill-Castro,Cluster discovery techniques for exploratory spatial data analysis,International Journal ofGeographical Information Science,1998,12(5):431-443.),可以从中找出地址分布密集、初始相关度又高的区域,并认为这个区域内的地址最有可能是空间相关地址,大幅提升它们的相关度。一个简单的空间相关度值的修正方法就是:将该区域的每一个地址的空间相关度累加起来,记做∑R,该区域的每一个地址修正后的空间相关度值为其原来的空间相关度值加∑R。
(5)根据地址空间相关度的排名,取排名前几个地址作为定位结果返回给用户,并在地图上标识出所有返回结果供用户选择。因为识别出的地址都是空间数据库中的已知地址,因此可以直接在地图上进行定位并标识出来。
为实现上述目的,本发明采用如下技术方案。
一种网络地图服务中未登录地名的定位方法,其步骤为:
1)收集所有包含用户输入的未登录地名关键词的网页;
2)从网页中提取出包含地名关键词的上下文信息;
3)从所有网页的地名关键词上下文中提取出所有地名词典中包含的地址信息;
4)计算出上述地址信息与用户输入的未登录地名关键词的空间相关度;
5)对空间相关度进行排名,取排名前几个地址作为定位结果在地图上标识返回给用户。
所述的方法中网页的收集方式为从本地已有的网页库中检索出包含关键词的网页或通过搜索引擎检索到包含关键词的网页链接,再下载到本地。
所述网页的地名关键词上下文为纯文本信息,关键词前后各100字以内。
所述的地名词典为根据网络地图服务网站的空间数据库而建立,每个地名词汇都有具体的坐标位置。
所述的方法中采用基于地名词典的匹配方法提取出所有地名词典中包含的地址信息。
所述的方法中从网页文本中所提取的所有地址信息根据坐标位置能够在网络地图服务中进行定位。
所述的方法中采用空间聚类计算对空间相关度进行修正。
发明的优点与积极效果
与现有网络地图服务中的地名搜索定位服务相比,本发明提出的定位方法可以很好的处理网络地图服务中空间数据库内没有的未登录地名的定位问题,能够很好地给出未登录地名的真实地址或相邻地址。为了测试本发明方法的效果,我们以北京市为例,采用基于地名词典匹配的地址识别方法,对174个空间数据库中没有的地名和机构名称进行定位,并将部分结果列在表1中。可以看出查“众成信达贸易有限公司”时,我们查出的最相关的地址是“朝阳区松榆北路7号院”,并且它的空间相关度经过修正后远远高于其他地址。而对“京圃园生物工程有限公司”的识别结果中,虽然前两名地址的相关度相差不大,但是因为第一名“海淀区中国农业科学院”和第三名“海淀区中关村南大街12号”表示的是同一个地址,而用户会倾向于相信聚集性比较强的地址,所以仍然可以达到准确定位的目的。查“旧宫志新伟业家具厂”,虽然第一个结果的地理范围比较大,但是第二个结果可以辅助用户进行精确的定位。而查“话匣子咖啡厅”也是前两个结果不但可信度高,而且空间聚集性强,可以起到正确定位的作用。
表1对空间数据库中没有的地名进行定位的部分测试结果
地名 真实地址   识别结果
  排名 识别地址     相关度
众成信达贸易有限公司 朝阳区松榆北路7号院建业写字楼505室   1 朝阳区松榆北路7号院     1
  2 北京朝阳医院     0.05
  3 海淀区     0.04
京圃园生物工程有限公司 中关村南大街12号   1 海淀区中国农业科学院(其地址为中关村南大街12号)     1
  2 北京科委     0.87
  3 海淀区中关村南大街12号     0.16
旧宫志新伟业家具厂 大兴区旧宫三村旧头路29号   1 北京大兴区旧宫     1
  2 旧头路29号     0.07
  3 -     -
话匣子咖啡厅 东城区前门东大街3号首都大酒店大堂   1 首都大酒店     1
  2 东城区前门东大街3号     0.86
  3 东城区新中街7号     0.78
附图说明
图1示意了一个针对不存在于空间数据库中的未登录地名的定位流程图。
图2未登录地名的地图定位效果
具体实施方式:
下面通过一个具体的例子来说明如何实施本专利所描述的方法来对一个空间数据库中没有的未登录地名进行定位。假设用户查询“朋克美容美发”这个地点,首先通过网页收集模块(图1中的第1个模块)获取到所有包含“朋克美容美发”的网页,并保存到图1中的第(2)个模块中。由网页预处理及上下文截取模块(图1中的第3个模块)将网页中的标签信息去掉后,截取出网页中所有“朋克美容美发”的前后100个字的上下文信息并交给地址信息提取模块处理。地址信息提取模块采用基于地名词典的匹配方法从上下文中提取出所有空间数据库中已有的地址信息,比如“清华东门”、“海淀区五道口华清嘉园”、“海淀区北三环西路48号”、“北京海淀五道口”等等,然后由地址的相关度计算模块(图1中的第5个模块)根据这些地址距“朋克美容美发”的距离计算其空间相关度。比如对于“朋克美容美发海淀 区五道口华清嘉园8号楼北一层,清华东门南300米”这段上下文来说,标下划线的部分是识别出的地址,“海淀区五道口华清嘉园”因为距离关键词“朋克美容美发”比较近,所以相关度就高一些。而“清华东门”因为距离比较远,则相关度会低一些。有些空间不相关的地址因为出现次数多,或距离关键词较近,因而会获得较高的空间相关度。但是经过基于空间聚集性的地址相关度修正模块(图1中的第6个模块)进行空间聚集性分析后,我们可以发现“清华东门”、“海淀区五道口华清嘉园”和“北京海淀五道口”这几个地址距离很近,具有明显的空间聚集性(通过空间聚类计算可以得到彼此之间的距离只有几百米),而“海淀区北三环西路48号”则距这几个地址几公里,我们就会认为彼此相邻的这些地址更可能是地名关键词的空间相关地址从而提升它们的空间相关度(具体提升方法是:每个地址的空间相关度值都加上这些空间聚集地址的相关度的累加值)。最后由图1中的第7个模块结果展示接口将排名最靠前的几个地址以及它们的空间相关度以文字和地图的方式展现给用户,帮助用户决定选择哪个地址作为目标地址(如图2所示)。

Claims (7)

1.一种网络地图服务中未登录地名的定位方法,其步骤为:
1)收集所有包含用户输入的未登录地名关键词的网页;
2)从网页中提取出包含地名关键词的上下文信息;
3)从所有网页的地名关键词上下文中提取出所有地名词典中包含的地址信息;
4)计算出上述地址信息与用户输入的未登录地名关键词的空间相关度;
5)对空间相关度进行排名,取排名前几个地址作为定位结果在地图上标识返回给用户。
2.如权利要求1所述的定位方法,其特征在于网页的收集方式为从本地已有的网页库中检索出包含关键词的网页或通过搜索引擎检索到包含关键词的网页链接,再下载到本地。
3.如权利要求1所述的定位方法,其特征在于所述网页的地名关键词上下文为纯文本信息,关键词前后各100字以内。
4.如权利要求1所述的定位方法,其特征在于所述的地名词典为根据网络地图服务网站的空间数据库而建立,每个地名词汇都有具体的坐标位置。
5.如权利要求1所述的定位方法,其特征在于采用基于地名词典的匹配方法提取出所有地名词典中包含的地址信息。
6.如权利要求1或5所述的定位方法,其特征在于从网页文本中所提取的所有地址信息根据坐标位置能够在网络地图服务中进行定位。
7.如权利要求1所述的定位方法,其特征在于采用空间聚类计算对空间相关度进行修正。
CNB2007101205475A 2007-08-21 2007-08-21 一种网络地图服务中未登录地名的定位方法 Expired - Fee Related CN100478960C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101205475A CN100478960C (zh) 2007-08-21 2007-08-21 一种网络地图服务中未登录地名的定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101205475A CN100478960C (zh) 2007-08-21 2007-08-21 一种网络地图服务中未登录地名的定位方法

Publications (2)

Publication Number Publication Date
CN101110080A true CN101110080A (zh) 2008-01-23
CN100478960C CN100478960C (zh) 2009-04-15

Family

ID=39042153

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101205475A Expired - Fee Related CN100478960C (zh) 2007-08-21 2007-08-21 一种网络地图服务中未登录地名的定位方法

Country Status (1)

Country Link
CN (1) CN100478960C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100573506C (zh) * 2008-06-25 2009-12-23 中国科学院地理科学与资源研究所 一种自然语言表达动态交通信息的时空融合方法
CN101777082A (zh) * 2010-03-01 2010-07-14 苏州数字地图网络科技有限公司 一种文字信息与地理信息的关联方法及系统
CN102314508A (zh) * 2010-09-01 2012-01-11 微软公司 网络订阅源内容
CN103150313A (zh) * 2012-03-05 2013-06-12 苏州盛景数字技术服务有限公司 基于空间插值的地址定位方法
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN101840406B (zh) * 2009-03-20 2015-10-14 富士通株式会社 地名搜索装置和系统
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105335468A (zh) * 2015-09-28 2016-02-17 北京信息科技大学 一种基于百度地图api的地理位置实体规范化方法
CN109827590A (zh) * 2019-01-11 2019-05-31 北京猎户星空科技有限公司 一种机器人的控制方法、装置、设备和介质
CN111859849A (zh) * 2020-07-01 2020-10-30 邦道科技有限公司 一种用电地址的管理方法和装置
CN112836146A (zh) * 2021-03-09 2021-05-25 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69939281D1 (de) * 1999-03-23 2008-09-18 Sony Deutschland Gmbh System und Verfahren zum automatischen Verwalten von Geolokalisationsinformation
CN1770155A (zh) * 2005-09-23 2006-05-10 赵忠华 一种电子地图的制作及使用方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100573506C (zh) * 2008-06-25 2009-12-23 中国科学院地理科学与资源研究所 一种自然语言表达动态交通信息的时空融合方法
CN101840406B (zh) * 2009-03-20 2015-10-14 富士通株式会社 地名搜索装置和系统
CN101777082A (zh) * 2010-03-01 2010-07-14 苏州数字地图网络科技有限公司 一种文字信息与地理信息的关联方法及系统
CN102314508A (zh) * 2010-09-01 2012-01-11 微软公司 网络订阅源内容
CN102314508B (zh) * 2010-09-01 2013-12-25 微软公司 网络订阅源内容
US8812734B2 (en) 2010-09-01 2014-08-19 Microsoft Corporation Network feed content
CN103150313A (zh) * 2012-03-05 2013-06-12 苏州盛景数字技术服务有限公司 基于空间插值的地址定位方法
CN103955505B (zh) * 2014-04-24 2017-09-26 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105335468A (zh) * 2015-09-28 2016-02-17 北京信息科技大学 一种基于百度地图api的地理位置实体规范化方法
CN105335468B (zh) * 2015-09-28 2019-09-13 北京信息科技大学 一种基于百度地图api的地理位置实体规范化方法
CN109827590A (zh) * 2019-01-11 2019-05-31 北京猎户星空科技有限公司 一种机器人的控制方法、装置、设备和介质
CN111859849A (zh) * 2020-07-01 2020-10-30 邦道科技有限公司 一种用电地址的管理方法和装置
CN111859849B (zh) * 2020-07-01 2023-11-24 邦道科技有限公司 一种用电地址的管理方法和装置
CN112836146A (zh) * 2021-03-09 2021-05-25 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置
CN112836146B (zh) * 2021-03-09 2024-05-14 威创集团股份有限公司 一种基于网络消息的地理空间坐标信息获取方法及装置

Also Published As

Publication number Publication date
CN100478960C (zh) 2009-04-15

Similar Documents

Publication Publication Date Title
CN100478960C (zh) 一种网络地图服务中未登录地名的定位方法
CN101918945B (zh) 用于执行自动扩展的语言搜索的方法和系统
CN101647020B (zh) 搜索结构化地理数据
CN101136028B (zh) 基于自然语言的位置查询系统以及基于关键词的位置查询系统
CN101364239B (zh) 一种分类目录自动构建方法及相关系统
CN102395965B (zh) 用于在数据库中搜索对象的方法
US8682882B2 (en) System and method for automatically identifying classified websites
US20140236954A1 (en) System and method for automating categorization and aggregation of content from network sites
WO2006133538A1 (en) System and method for ranking web content
CN101777082A (zh) 一种文字信息与地理信息的关联方法及系统
CN100507918C (zh) 一种网络关键资源页面的自动定位方法
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN102722558A (zh) 一种为用户推荐提问的方法和装置
CN101916288B (zh) 一种移动通信用户搜索请求响应系统及其处理方法
CN101794277B (zh) 一种网络文字信息中嵌入地理标签的方法及系统
US7668859B2 (en) Method and system for enhanced web searching
KR101818717B1 (ko) 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
CN102722499A (zh) 搜索引擎及其实现方法
CN107908627A (zh) 一种多语言的地图poi 搜索系统
Ahlers et al. Location-based Web search
CN100470549C (zh) 一种表格定位的数据挖掘方法
CN101836209B (zh) 管理信息地图的系统和方法
CN101676901A (zh) 搜索调度方法及搜索服务器
CN105095383A (zh) 信息发布方法、搜索方法及相应装置
JP5639549B2 (ja) 情報検索装置及び方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090415

Termination date: 20130821