CN106302737B - 一种ip定位技术中基准点数据的清洗方法 - Google Patents

一种ip定位技术中基准点数据的清洗方法 Download PDF

Info

Publication number
CN106302737B
CN106302737B CN201610676621.0A CN201610676621A CN106302737B CN 106302737 B CN106302737 B CN 106302737B CN 201610676621 A CN201610676621 A CN 201610676621A CN 106302737 B CN106302737 B CN 106302737B
Authority
CN
China
Prior art keywords
mark data
bench mark
bench
cleaning
datum mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610676621.0A
Other languages
English (en)
Other versions
CN106302737A (zh
Inventor
王永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Evan Technology Co.,Ltd.
Original Assignee
Zhengzhou Evan Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Evan Computer Technology Co Ltd filed Critical Zhengzhou Evan Computer Technology Co Ltd
Priority to CN201610676621.0A priority Critical patent/CN106302737B/zh
Publication of CN106302737A publication Critical patent/CN106302737A/zh
Application granted granted Critical
Publication of CN106302737B publication Critical patent/CN106302737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种IP定位技术中基准点数据的清洗方法,主要包括:根据可靠度删除或保留基准点;根据IP特性,对基准点数据进行验证清洗;判断地理位置与IP地址所属的国家是否一致,判断是否保留基准点;利用时延对基准点数据进行粗颗粒度清洗;结合网络路径和UNDNS对基准点进行细颗粒度的清洗;从而完善验证基准点数据正确性方法,提高基准点数据的正确性。

Description

一种IP定位技术中基准点数据的清洗方法
技术领域
本发明涉及超高精度的IP定位技术中基准点的正确性判断技术领域,具体地,涉及一种IP定位技术中基准点数据的清洗方法。
背景技术
IP定位技术,是通过设备的IP地址来确定其地理位置。在IP定位领域,超高精度的IP定位技术将数据挖掘(收集基准点)和网络测量相结合的方法,能够实现超高精度的IP定位。基准点由IP和地理位置组成。超高精度的IP定位技术应用领域非常广泛,政府部门,通过该服务可以对人民的网络行为进行社区粒度的舆情分析,从而充分地了解民意,做出更加利国利民的政策;安全部门,通过该服务能够获取网络攻击的源目标位置,提升网络安全防御能力;商业端的在线支付,通过该服务可以实现用户异地登录预警,提升交易的安全性;商业端的在线广告,通过该服务可以实现基于用户实时位置的广告推送,提升广告的投放精确度,获取最大的商业盈利。
然而,作为超高精度IP定位技术最重要的数据支撑的基准点,一套完整的确保其正确性的方法并不存在。基准点由IP和地理位置组成,其正确性由IP特性和地理位置的正确性共同确定。目前,研究者多关注从IP特性入手对基准点进行验证,如共享主机与CDN验证和多个分公司的验证;而往往忽略了地理位置正确性的验证。因此,有必要提出一套完整的基准点清洗方法。
发明内容
本发明的目的在于,针对上述问题,提出一种IP定位技术中基准点数据的清洗方法,以完善验证基准点数据正确性方法,提高基准点数据的正确性。
为实现上述目的,本发明采用的技术方案是:一种IP定位技术中基准点数据的清洗方法,主要包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B.根据IP特性,对基准点数据进行验证清洗;
判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D.获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
进一步地,所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
进一步地,所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
进一步地,所述述步骤D中,所述网络距离为基准点到路由器的相对时延和4/9倍光速的乘积。
本发明各实施例的一种IP定位技术中基准点数据的清洗方法,由于主要包括:根据可靠度删除或保留基准点;根据IP特性,对基准点数据进行验证清洗;判断地理位置与IP地址所属的国家是否一致,判断是否保留基准点;对基准点数据进行粗颗粒度清洗;对基准点进行细颗粒度的清洗;从而完善验证基准点数据正确性方法,提高基准点数据的正确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一种IP定位技术中基准点数据的清洗方法实施例中的Hosting验证原理图;
图2为本发明一种IP定位技术中基准点数据的清洗方法实施例中粗颗粒度清洗示意图;
图3为本发明一种IP定位技术中基准点数据的清洗方法实施例中细颗粒度清洗示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
具体地,一种IP定位技术中基准点数据的清洗方法,主要包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B.根据IP特性,对基准点数据进行验证清洗;
C.判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D.获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
所述步骤D中,所述网络距离为基准点到路由器的相对时延和4/ 9倍光速的乘积。
本发明针对目前基准点正确性验证不完善的问题,提供一套完整的基准点清洗方法,从IP特性和地理位置验证两个方面对基准点数据进行过滤清洗,从而确保基准点的正确性。
为解决上述问题,本发明是通过以下技术方案实现的:
一套完整的基准点清洗方法,包含以下步骤:
步骤1、根据基准点来源的可靠度,清除基准点数据的“脏”数据;
该步骤的目的是确保IP与地理位置一一对应;在出现一对多时,可靠度一致,则删除这些基准点;可靠度不一致时,保留可靠度高的基准点,可靠度由数据来源决定,如人工收集大于数据挖掘,EMAIL收集大于WEB收集;。
步骤2、根据IP特性,对数据进行验证清洗;该步骤包含共享主机验证和Hosting公司验证。
步骤3、首先,由地理位置与IP所属国家是否一致,从国家级别对IP的地理位置进行验证清洗;其次,通过比较网络距离(由时延转换得到)与物理距离,由于时延转换的网络距离是理论上网络包传输的最大距离,因此比较探测到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而对基准点进行粗颗粒度的清洗。
研究表明,在真空中,网络包在光纤中传输的的速度是光速(用C表示)的2/ 3倍。然而,其他研究学者也已经表明,由于传输时延,排队时延等原因,在实际应用中,2 / 3 C是一个很松散的上限值。因此,我们采用的经验值4 / 9 C 作为转换网络时延和地理距离的参数。基于网络距离=网络时延*4 / 9 C,可以比较网络距离与物理距离。
步骤4、基于UNDNS和相对时延,对基准点进行细颗粒度的清洗。
UNDNS是一种路由器域名到物理地址的解析工具。首先,获取基准点本身和倒数后两跳路由器的UNDNS地址;其次,比较基准点到路由器的网络距离和物理距离,对基准点进行细颗粒度的清洗。
在图1中,VP1代表探测机,能够对基准点(L)进行发包。H1表示对基准点本身进行Hosting判断;H2表示对倒数第一跳路由器(R3)进行Hosting判断,同理H3表示对倒数第二跳路由器(R2)进行Hosting判断。
在图2中,DEL表示探测机(VP1)到基准点(L)之间的绝对时延,由此可以转换得到网络距离,而DIS表示两者之间的物理距离。
在图3中,UNDNS1表示对基准点本身进行UNDNS解析,UNDNS2表示对倒数第一跳路由器进行UNDNS解析,UNDNS3表示对倒数第二跳路由器进行UNDNS解析;DIS1表示倒数第一跳路由器的UNDNS地址与基准点之间的物理距离,DIS2表示倒数第二跳路由器的UNDNS地址与基准点之间的物理距离;XDEL1表示倒数第一跳路由器与基准点之间的相对时延,XDEL2表示倒数第二跳路由器与基准点之间的相对时延。
结合真实数据集,对本发明进行进一步说明。数据集中包含不同来源收集到的基准点,数据集如表1。
步骤1、对多种来源的基准点进行合并和整理,清除基准点数据的“脏”数据。在表1中,由于 1.1.1.1这个IP出现在两个地方,并且它们可信度一致,删除该IP对应的两条记录。
步骤2、根据IP特性,对基准点数据进行清洗。由于2.2.2.2对应的域名web2.hosting.com,该域名是一个Hosting公司的域名,删除该条记录。
步骤3、地理位置的粗颗粒度验证。3.3.3.3的域名中的顶级域名的后缀为.cn,说明该IP属于中国;然而其地址为芝加哥,属于美国,删除该条记录。
步骤4、根据UNDNS和时延,对基准点进行细颗粒度验证。对于4.4.4.4的域名web3.zz.cn,UNDNS解析为郑州,但其地址为北京,删除该条记录。
表1 不同来源数据集
经过上面4个步骤,最终,我们进保留了5.5.5.5这条记录。该发明,从IP特性和地址位置验证两个方面,对基准点数据进行过滤清洗,从而确保基准点的正确性。
至少可以达到以下有益效果:解决目前基准点正确性验证不完善的问题,提供一套完整的基准点清洗方法,从IP特性和地理位置验证两个方面对基准点数据进行过滤清洗,从而确保基准点的正确性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.IP定位技术中基准点数据的清洗方法,其特征在于,包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B. 根据IP特性,对基准点数据进行验证清洗;
C.判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D. 获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
2.根据权利要求1所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
3.根据权利要求1所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
4.根据权利要求3所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤D中,所述网络距离为基准点到路由器的相对时延和4/ 9倍光速的乘积。
CN201610676621.0A 2016-08-17 2016-08-17 一种ip定位技术中基准点数据的清洗方法 Active CN106302737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610676621.0A CN106302737B (zh) 2016-08-17 2016-08-17 一种ip定位技术中基准点数据的清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610676621.0A CN106302737B (zh) 2016-08-17 2016-08-17 一种ip定位技术中基准点数据的清洗方法

Publications (2)

Publication Number Publication Date
CN106302737A CN106302737A (zh) 2017-01-04
CN106302737B true CN106302737B (zh) 2019-09-03

Family

ID=57679355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610676621.0A Active CN106302737B (zh) 2016-08-17 2016-08-17 一种ip定位技术中基准点数据的清洗方法

Country Status (1)

Country Link
CN (1) CN106302737B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108112027B (zh) * 2017-12-13 2021-08-06 Oppo广东移动通信有限公司 定位信息的处理方法、装置、存储介质及终端
CN110474843B (zh) * 2019-07-03 2021-07-06 上海交通大学 基于路由跳数的ip定位方法
CN113411415A (zh) * 2021-05-13 2021-09-17 郑州埃文计算机科技有限公司 一种基于ip网络特征和地理特征的基准点清洗方法
CN113242332B (zh) * 2021-05-19 2022-10-04 郑州埃文计算机科技有限公司 一种形成街道级定位库的改进方法
CN115665237B (zh) * 2022-12-28 2023-03-14 中国电子信息产业集团有限公司第六研究所 一种ip地址实时定位方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615605B2 (en) * 2010-10-22 2013-12-24 Microsoft Corporation Automatic identification of travel and non-travel network addresses
CN103973837A (zh) * 2014-05-27 2014-08-06 北京瑞汛世纪科技有限公司 一种确定物理位置信息的方法和装置
CN104506591A (zh) * 2014-12-11 2015-04-08 罗向阳 一种基于最近共同路由器的目标ip地理位置定位方法
CN105245628A (zh) * 2015-08-31 2016-01-13 罗向阳 一种适用于弱连接网络的网络实体地理位置定位方法
CN105245627A (zh) * 2015-08-31 2016-01-13 罗向阳 一种基于网络坐标系统的ip定位方法
CN105262849A (zh) * 2015-08-31 2016-01-20 罗向阳 基于可容忍误差的ip定位方法
CN105577477A (zh) * 2015-12-28 2016-05-11 哈尔滨工业大学 使用概率模型的基于测量的ip地址地理定位系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8024454B2 (en) * 2007-03-28 2011-09-20 Yahoo! Inc. System and method for associating a geographic location with an internet protocol address

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615605B2 (en) * 2010-10-22 2013-12-24 Microsoft Corporation Automatic identification of travel and non-travel network addresses
CN103973837A (zh) * 2014-05-27 2014-08-06 北京瑞汛世纪科技有限公司 一种确定物理位置信息的方法和装置
CN104506591A (zh) * 2014-12-11 2015-04-08 罗向阳 一种基于最近共同路由器的目标ip地理位置定位方法
CN105245628A (zh) * 2015-08-31 2016-01-13 罗向阳 一种适用于弱连接网络的网络实体地理位置定位方法
CN105245627A (zh) * 2015-08-31 2016-01-13 罗向阳 一种基于网络坐标系统的ip定位方法
CN105262849A (zh) * 2015-08-31 2016-01-20 罗向阳 基于可容忍误差的ip定位方法
CN105577477A (zh) * 2015-12-28 2016-05-11 哈尔滨工业大学 使用概率模型的基于测量的ip地址地理定位系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于路由追踪的IP定位优化;贾伟伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20131115;正文4-35页

Also Published As

Publication number Publication date
CN106302737A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106302737B (zh) 一种ip定位技术中基准点数据的清洗方法
CN104065532B (zh) 一种基于多路数据接入方式的未备案网站探寻方法及系统
He et al. Lord of the links: a framework for discovering missing links in the internet topology
CN108027800A (zh) 使用跟踪路由进行地理定位的方法、系统和装置
CN104699835A (zh) 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN105227688B (zh) 一种基于路径特征的区域级目标ip定位方法
CN102479229A (zh) 一种兴趣点poi数据产生方法和系统
CN106254123B (zh) 一种面向城域网级别as域内网络拓扑的测绘方法
JP2013514582A (ja) 取引情報に基づいたipアドレスデータベースの更新
CN110012120A (zh) 一种基于PoP网络拓扑的IP城市级定位算法
CN103530347A (zh) 一种基于大数据挖掘的互联网资源质量评估方法及系统
CN107958031A (zh) 基于融合数据的居民出行od分布提取方法
CN106095979A (zh) Url合并处理方法和装置
CN103716282A (zh) 一种修正ip库的方法和系统
CN105069113A (zh) 一种数据流量实时可视化的方法及系统
CN106301825A (zh) Dpi规则的生成方法及装置
CN109002961A (zh) 一种基于网络数据的跨区域文化景观间功能结构规划方法
CN108900581A (zh) 一种大型网站的关键特征知识库的建立方法
JP2021103561A (ja) アイデンティティ情報処理方法、装置、電子機器及び記憶媒体
CN109978547A (zh) 风险行为控制方法及系统、设备和存储介质
CN102868601B (zh) 一种有关基于图形配置数据库业务网络拓扑的路由系统
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
Zhu et al. An algorithm of city-level landmark mining based on internet forum
CN110188954A (zh) 基于pop网络的地标可靠性评估方法及装置
CN111104519A (zh) 一种构建全量行政区域知识库的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No. 608, 6th Floor, Building 2, South Xinghua Science and Technology Industrial Park, West 2nd Street, Jingnan 1st Road, Zhengzhou Economic and Technological Development Zone, Zhengzhou City, Henan Province, 450000

Patentee after: Zhengzhou Evan Technology Co.,Ltd.

Address before: No. 301, 3rd Floor, Incubation Base, Entrepreneurship Park, Intersection of Eighth Street and Jingnan Second Road, Zhengzhou Economic and Technological Development Zone, Henan Province, 450016

Patentee before: ZHENGZHOU AIWEN COMPUTER TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address