CN104537105B - 一种基于Web地图的网络实体地标自动挖掘方法 - Google Patents
一种基于Web地图的网络实体地标自动挖掘方法 Download PDFInfo
- Publication number
- CN104537105B CN104537105B CN201510018744.0A CN201510018744A CN104537105B CN 104537105 B CN104537105 B CN 104537105B CN 201510018744 A CN201510018744 A CN 201510018744A CN 104537105 B CN104537105 B CN 104537105B
- Authority
- CN
- China
- Prior art keywords
- terrestrial reference
- candidate
- web
- domain name
- maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于Web地图的网络实体地标自动挖掘方法,属于网络应用技术领域。本发明首先采用不同的Web地图获取各地区的特定类型机构的信息作为候选地标,接着利用搜索引擎或Google地图,进一步获取机构的Web服务主页域名;然后利用域名解析技术,获取机构Web服务器的IP地址;对机构Web服务器的IP地址和WWW域名的映射关系、承载Web服务的主机为共享主机的可能性进行评估,得到候选地标的可信度,最后输出可信度高于设定值的地标作为挖掘出的有效网络实体地标。通过上述过程,本发明可以获得数量充足、精度较高的地标信息,有效地弥补了传统人工标注或获取地标信息方法带来的地标密度不高、地理位置精度不够等不足。
Description
技术领域
本发明涉及一种基于Web地图的网络实体地标自动挖掘方法,属于网络应用技术领域。
背景技术
网络实体地标采集是一种重要的网络应用新技术,能够给出具有一定密度的地理位置较为稳定的网络节点以某种粒度表示的地理位置信息。在面向位置服务的诸多应用中,如根据用户的地理位置提供针对所在区域人群的定向广告、基于访问者的地理位置自适应调整网站显示语言等,都必须已知具有一定密度的网络实体参考地标,才能进一步对位置未知的网络实体实施定位。因此,开展网络实体地标采集技术具有重要的研究意义。
现有网络实体地标的研究可分为两类:一类是主动地标,一类是被动地标。早期主要是主动部署地标的方法,即通过人为部署机器,或在全球范围基于相关协作机构的服务器系统,得到位置分布较为均匀的、地理位置精确的地标,如PlanetLab,此类方法获得的地标位置准确、但数量有限,就全球的网络实体定位问题而言,由于这些地标的密度过低,用作网络实体定位的参考地标,得到的定位结果精度差。被动地标,即将互联网中的基础设施,如路由器、Web服务器或Email服务器等作为地标,获得的地标,数量大、分布广,在具有较好验证手段的情况下,得到的地标位置准确,可以大大提高网络实体定位结果的精度。而目前被动地标采集方法首先是获取到候选地标的域名,并对采集到的候选地标进行有效性验证,以排除非托管主机和IP承载多域名等情况;在域名获取方面,主要依赖Web地图提供的信息提取候选地标域名,在候选地标验证方面,采用网页重定向或根据相同域名排除无效地标,该方法不能很好地评估不支持IP访问网站以及IP承载多域名的候选地标的有效性,导致获取的网络实体地标位置不够准确。
发明内容
本发明的目的是提供一种基于Web地图的网络实体地标自动挖掘方法,以解决传统人工标注或获取地标信息方法带来的地标密度不高、地理位置精度不够的问题。
本发明为解决上述技术问题而提供一种基于Web地图的网络实体地标自动挖掘方法,该采集方法包括以下步骤:
1)依据不同的Web地图获取各地区的特定类型机构的信息作为候选地标,并获取候选地标机构的主页域名;
2)根据候选地标机构主页域名中的一级域名采用域名解析得到机构Web服务器的IP地址;
3)根据候选地标Web服务器的域名及其IP地址分别进行网页访问,判断上述两种方式下的网页访问是否一致、是否有重定向,若一致、无重定向,则将该候选地标作为有效地标;
4)否则,利用Web中提供的IP地址进行反向查询,根据候选地标IP地址反向查询结果计算候选地标的可信度;
5)选取可信度大于设定值的候选地标作为有效地标,该有效地标即是要挖掘的网络实体地标。
所述步骤4)中候选地标可信度所采用的计算公式为:
其中R为所求可信度,R0为采用最可信的网站进行IP地址反向查询得到基本可信度,Ri(i≥1)为采用其它网站进行IP地址反向查询得到基本可信度,K为可信度评估时所使用的除最可信的网站以外的其他IP反向查询网站的个数,α为权重因子。
所述步骤4)中候选地标的基本可信度由IP地址反向查询得到的域名个数来确定,候选地标的基本可信度与IP地址反向查询得到的域名个数成反比。
所述可信度计算公式中α取值范围为0.7~0.9。
所述步骤1)中特定类型机构指的是Web地图中作为地标可能性高的类型。
所述候选地标机构的主页域名根据候选地所在地采用不同方式获取,非中国大陆地区的机构主页域名是利用Google地图返回的连接码和Google地图中的Place API获取的,大陆地区的机构主页域名是利用搜索引擎获取的。
所述利用搜索引擎获取机构域名的过程如下:
a.将机构名作为搜索关键词,向搜索引擎提交查询请求;
b.解析搜索引擎返回的查询结果,提取前M个查询结果URL(M通常设置为10);
c.利用URL黑名单过滤掉这M个URL中的非机构主页URL;
d.获取剩余URL对应的网页Title,通过比对Title与机构名的匹配程度来筛选出排序靠前、匹配度高的URL作为机构的主页;
e.若剩余URL的匹配度均较低,则机构主页获取失败;
f.对于分析出机构WWW主页的情况,利用URL中的一级域名提取出机构Web服务的域名。
所述步骤5)中的设定值为0.8。
所述步骤2)在进行域名解析时,须过滤掉域名与IP地址映射关系为一对多的候选地标。
本发明的有益效果是:本发明首先采用不同的Web地图获取各地区的特定类型机构的信息作为候选地标,接着利用搜索引擎或Google地图,进一步获取机构的Web服务主页域名;然后利用域名解析技术,获取机构Web服务器的IP地址;对机构Web服务器的IP地址和WWW域名的映射关系、承载Web服务的主机为共享主机的可能性进行评估,得到候选地标的可信度,最后输出可信度高于设定值的地标作为挖掘出的有效网络实体地标。本发明利用Web搜索引擎自动挖掘机构主页域名,克服了从Web地图中无法得到丰富的机构WWW主页域名的问题;综合网页重定向、DNS域名解析、基于Web服务的IP地址反向查询等多策略评估候选地标的可信度,从一定程度上解决了部分候选地标的共享主机识别问题。该方法具有较好的有效性和扩展性,能够利用Web信息获得数量可观、精度较高的网络实体定位参考地标。
附图说明
图1是基于Web地图的网络实体地标获取方法的原理示意图;
图2是本发明实施例中所采用的上海市宝山区的小学类型的部分地标截图;
图3是本发明实施例中所采用的台湾地区多种类型的地标挖掘实验部分截图;
图4是本发明实施例中所筛选出的郑州可信度较高的部分地标截图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的说明。
考虑到Web服务器数量庞大、很多机构都在本地设立自己的Web服务器,且互联网上的Web地图服务提供指定地区的各类机构信息的查询,包括机构的名称、地理位置等,本发明提出了一种基于Web地图的网络实体地标挖掘方法。其基本思想是:依据不同的Web地图获取各地区的特定类型机构的信息,包括机构名、其位置经纬度和WWW域名等,作为候选地标,对于未提取出WWW域名的候选地标,基于Web搜索引擎获取机构主页的WWW域名信息;通过进一步的验证方法,对候选地标的可信度进行评估,得到的可信度高的候选地标就是挖掘出的有效网络实体地标,可用作网络实体定位的参考地标,该方法的具体过程如下。
1.利用Web信息抽取技术,结合百度文库、购物网站和政府人口普查网等多种渠道,从网页中自动获取指定国家或地区的行政区划信息,包括:国家下属的一级、二级和/或三级行政区划(如国内的三级行政区划为省、市和区,其他国家如美国仅包含两级行政区划,为州和市)。
2.分析Web地图中可查询的机构类型中作为地标可能性高的类型,选定17种作为待查询的机构类型,包括大学、学校、图书馆、医院等。
3.对指定地区,利用Web地图获取其地区内的机构信息,包括:机构名、经纬度、通信地址等。对于大陆地区,用百度地图获取;对于非大陆地区,利用Google等国外地图服务来获取。
4.域名获取:对于非大陆地区的机构,利用Google地图返回的链接码,进一步利用Google地图的Place API获取机构的WWW主页域名;对于大陆地区的机构,百度地图中的机构域名信息很少,故借助Web搜索引擎自动挖掘机构的WWW主页域名。其中借助搜索引擎获取机构主页域名的过程如下:
1)将机构名作为搜索关键词,向百度、Google等搜索引擎提交查询请求;
2)解析搜索引擎返回的查询结果,提取前M个查询结果URL(M通常设置为10);
3)利用URL黑名单过滤掉这M个URL中的非机构主页URL;
4)获取剩余URL对应的网页Title,通过比对Title与机构名的匹配程度来筛选出排序靠前、匹配度高的URL作为机构的主页;
5)若剩余URL的匹配度均较低,则机构主页获取失败;
6)对于分析出机构WWW主页的情况,利用URL中的一级域名提取出机构Web服务的域名。
5.IP地址映射:利用域名解析,根据机构主页域名中的一级域名,得到机构Web服务器的IP地址;过滤掉域名与IP地址映射关系为一对多的情况,其余的Web服务器作为候选地标。
6.网页重定向:根据候选地标Web服务器的域名及其IP地址,进行网页访问,判断两种方式下得到的网页是否一致、是否有重定向;若无重定向、网页一致,则将该候选地标的可信度设置为0.95;否则,进行下一步。
7.IP地址反向查询:利用Web中提供的IP地址反向查询服务,如IP Reverse、爱站、114Best等,根据候选地标的IP地址其查询反馈的该主机承载的域名数,计算该候选地标的可信度。
可信度的具体设置方法是:1)如果域名和IP地址重定向一致,则可信度值设置为0.95;2)否则,根据IP地址反向域名查询服务网站返回的域名个数来设置,以多数情况下查询结果更为可靠的114Best网站上返回的不同机构域名个数为主要决定因素(设置基本可信度),其他网站如爱站等返回的不同机构域名个数为次要决定因素(设置基本可信度),具体公式为:
其中R为所求可信度,R0为采用最可信的网站进行IP地址反向查询得到基本可信度,本实施例中给出的是114Best网站,Ri(i≥1)为采用其它网站进行IP地址反向查询得到基本可信度,K为可信度评估时所使用的除最可信的网站以外的其他IP反向查询网站的个数,α为权重因子,根据多次实验该值在[0.7,0.9]范围取值为宜,本实施例选取α=0.75。
基本可信度和的具体方法如下:通过对114Best等多个此类网站的反复测试结果可知,114Best返回的结果中同一机构的重复域名很少,而其他网站同一机构往往与有大量重复域名,因此114Best的结果更可信;此外,随着返回的域名个数的增加,其作为地标的可信度急剧下降,根据测试经验对基本可信度的具体设置如表1所示。
表1
8.当所有候选地标评估结束,输出可信度高于设定值的候选地标,作为有效地标。
为了验证本发明的有效性,针对国内部分城市进行了利用Web地图挖掘网络实体地标实验。
实验选取的地区:河南、上海和台湾,大陆地区采用百度地图进行机构信息查询,而非大陆和国外城市选择的是Google地图。在对Web地图进行机构信息查询时,从两类地图共同具有的三十多种机构类型中筛选出17种作为最终查询Web地图服务的机构类型,包括大学、中学、小学、医院、酒店、行政机构等。
挖掘出的地标密度情况:对成功抽取并写入数据库中的河南、上海以及台湾的地标信息的条目数进行了统计,总信息条目数为52500条以上(数据库中上海、台湾的部分地标信息截图见图2和图3);根据上海部分有可信度评估结果的地标的统计结果可知,可信度高于0.85的地标(可作为定位参考地标)占评估出可信度的地标的43.3%。
挖掘出的地标准确率情况:选择河南省郑州市地标为验证对象,筛选出郑州可信度较高的地标(即可信度达到0.95的地标)257条,且给出地标对应的机构名、机构类型、WWW主页域名、IP地址、机构的通信地址、经纬度等信息,如图4所示。
通过手工验证,其中准确地标的条目为234条,得到地标的准确率为0.91。
因此通过上述实验验证,本发明可以获得数量充足、精度较高的地标信息,有效地弥补了传统人工标注或获取地标信息方法带来的地标密度不高、地理位置精度不够等不足。
Claims (8)
1.一种基于Web地图的网络实体地标自动挖掘方法,其特征在于,该采集方法包括以下步骤:
1)依据不同的Web地图获取各地区的特定类型机构的信息作为候选地标,并获取候选地标机构的主页域名;
2)根据候选地标机构主页域名中的一级域名采用域名解析得到机构Web服务器的IP地址;
3)根据候选地标Web服务器的域名及其IP地址分别进行网页访问,判断上述两种方式下的网页访问是否一致、是否有重定向,若一致、无重定向,则将该候选地标作为有效地标;
4)否则,利用Web中提供的IP地址进行反向查询,根据候选地标IP地址反向查询结果计算候选地标的可信度;
5)选取可信度大于设定值的候选地标作为有效地标,该有效地标即是要挖掘的网络实体地标;
所述步骤4)中候选地标可信度所采用的计算公式为:
<mrow>
<mi>R</mi>
<mo>=</mo>
<mi>&alpha;</mi>
<mo>*</mo>
<msub>
<mi>R</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>&alpha;</mi>
<mo>)</mo>
</mrow>
<mo>*</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mn>1</mn>
<mi>K</mi>
</mfrac>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>K</mi>
</munderover>
<msub>
<mi>R</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中R为所求可信度,R0为采用最可信的网站进行IP地址反向查询得到基本可信度,Ri(i≥1)为采用其它网站进行IP地址反向查询得到基本可信度,K为可信度评估时所使用的除最可信的网站以外的其他IP反向查询网站的个数,α为权重因子。
2.根据权利要求1所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述步骤4)中候选地标的基本可信度由IP地址反向查询得到的域名个数来确定,候选地标的基本可信度与IP地址反向查询得到的域名个数成反比。
3.根据权利要求1所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述候选地标可信度所采用的计算公式中的α取值范围为0.7~0.9。
4.根据权利要求2所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述步骤1)中特定类型机构指的是Web地图中作为地标可能性高的类型。
5.根据权利要求2所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述候选地标机构的主页域名根据候选地所在地采用不同方式获取,非中国大陆地区的机构主页域名是利用Google地图返回的连接码和Google地图中的Place API获取的,大陆地区的机构主页域名是利用搜索引擎获取的。
6.根据权利要求5所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述利用搜索引擎获取机构域名的过程如下:
a.将机构名作为搜索关键词,向搜索引擎提交查询请求;
b.解析搜索引擎返回的查询结果,提取前M个查询结果URL(M通常设置为10);
c.利用URL黑名单过滤掉这M个URL中的非机构主页URL;
d.获取剩余URL对应的网页Title,通过比对Title与机构名的匹配程度来筛选出排序靠前、匹配度高的URL作为机构的主页;
e.若剩余URL的匹配度均较低,则机构主页获取失败;
f.对于分析出机构WWW主页的情况,利用URL中的一级域名提取出机构Web服务的域名。
7.根据权利要求2所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述步骤5)中的设定值为0.8。
8.根据权利要求2所述的基于Web地图的网络实体地标自动挖掘方法,其特征在于,所述步骤2)在进行域名解析时,须过滤掉域名与IP地址映射关系为一对多的候选地标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018744.0A CN104537105B (zh) | 2015-01-14 | 2015-01-14 | 一种基于Web地图的网络实体地标自动挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018744.0A CN104537105B (zh) | 2015-01-14 | 2015-01-14 | 一种基于Web地图的网络实体地标自动挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104537105A CN104537105A (zh) | 2015-04-22 |
CN104537105B true CN104537105B (zh) | 2017-09-26 |
Family
ID=52852633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510018744.0A Active CN104537105B (zh) | 2015-01-14 | 2015-01-14 | 一种基于Web地图的网络实体地标自动挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104537105B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105897944B (zh) * | 2016-03-25 | 2020-08-04 | 胡津瑞 | 一种基于trace的IP地址地理位置库的推断和填充方法 |
DE102016205868A1 (de) * | 2016-04-08 | 2017-10-12 | Robert Bosch Gmbh | Verfahren zur Bestimmung einer Pose eines wenigstens teilautomatisiert fahrenden Fahrzeugs mittels speziell ausgewählter und von einem Backend-Server übertragener Landmarken |
CN106897432B (zh) * | 2017-02-27 | 2020-07-24 | 广州视源电子科技股份有限公司 | 一种在电子地图中爬取地标信息的系统和方法 |
US20210385286A1 (en) * | 2018-01-24 | 2021-12-09 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for improving service discovery |
CN109543118B (zh) * | 2018-11-12 | 2020-06-12 | 中国人民解放军战略支援部队信息工程大学 | 基于多层决策的Web地标可靠性评估方法及装置 |
CN110311991B (zh) * | 2019-02-20 | 2022-04-22 | 中国人民解放军战略支援部队信息工程大学 | 基于svm分类模型的街道级地标获取方法 |
CN110188954A (zh) * | 2019-05-31 | 2019-08-30 | 中国人民解放军战略支援部队信息工程大学 | 基于pop网络的地标可靠性评估方法及装置 |
CN111026829B (zh) * | 2019-12-11 | 2022-10-04 | 中国人民解放军战略支援部队信息工程大学 | 一种基于服务识别和域名关联的街道级地标获取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1623311A (zh) * | 2001-11-19 | 2005-06-01 | 艾利森电话股份有限公司 | 利用数据通信的节点的地理位置标识该节点的方法和设备 |
CN1934845A (zh) * | 2004-01-30 | 2007-03-21 | 惠普开发有限公司 | 使用至少一个局部界标节点来确定网络中节点的位置信息 |
CN103004102A (zh) * | 2010-05-13 | 2013-03-27 | 西北大学 | 地理定位系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7107619B2 (en) * | 2001-08-31 | 2006-09-12 | International Business Machines Corporation | System and method for the detection of and reaction to denial of service attacks |
-
2015
- 2015-01-14 CN CN201510018744.0A patent/CN104537105B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1623311A (zh) * | 2001-11-19 | 2005-06-01 | 艾利森电话股份有限公司 | 利用数据通信的节点的地理位置标识该节点的方法和设备 |
CN1934845A (zh) * | 2004-01-30 | 2007-03-21 | 惠普开发有限公司 | 使用至少一个局部界标节点来确定网络中节点的位置信息 |
CN103004102A (zh) * | 2010-05-13 | 2013-03-27 | 西北大学 | 地理定位系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104537105A (zh) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104537105B (zh) | 一种基于Web地图的网络实体地标自动挖掘方法 | |
Barron et al. | A comprehensive framework for intrinsic OpenStreetMap quality analysis | |
Orduña-Malea et al. | The dark side of Open Access in Google and Google Scholar: the case of Latin-American repositories | |
EP2569871B1 (en) | Geographic location system and method | |
CN104572956B (zh) | 确定poi信息有效性的系统及方法 | |
Mashhadi et al. | Putting ubiquitous crowd-sourcing into context | |
CN104199891B (zh) | 用于热力图的数据处理方法及装置 | |
JP2012500427A (ja) | 地理的特性の一致による地域的コンテンツの提供 | |
CN104699835A (zh) | 用于确定网页页面中包括兴趣点poi数据的方法及装置 | |
CN109241292A (zh) | 一种基于主被动数据建立域名服务器体系知识图谱的方法 | |
CN109543118B (zh) | 基于多层决策的Web地标可靠性评估方法及装置 | |
CN106096040A (zh) | 基于搜索引擎的机构网站归属地判别方法及其装置 | |
Rogers et al. | National Web studies: The case of Iran online | |
Li et al. | Street‐Level Landmark Evaluation Based on Nearest Routers | |
CN104715012B (zh) | 基于Internet论坛的网络实体城市级地标挖掘算法 | |
Moradi et al. | Exploring five indicators for the quality of OpenStreetMap road networks: A case study of Québec, Canada | |
CN108345662A (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN105245628B (zh) | 一种适用于弱连接网络的网络实体地理位置定位方法 | |
KR101773910B1 (ko) | 위치 기반 빅데이터 시스템 | |
Orduña‐Malea et al. | Hyperlinks embedded in twitter as a proxy for total external in‐links to international university websites | |
CN111026829A (zh) | 一种基于服务识别和域名关联的街道级地标获取方法 | |
Liu et al. | IPv6 landmark mining based on domain name screening and IPv4-IPv6 connection | |
Van Zijl et al. | In pursuit of a South African national soil database: potential and pitfalls of combining different soil data sets | |
Ontalba-Ruipérez et al. | Identifying institutional relationships in a geographically distributed public health system using interlinking and co-authorship methods | |
Bacci et al. | A proposal for introducing the ECLI standard in the Italian judicial documentary system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |