CN106302737B - 一种ip定位技术中基准点数据的清洗方法 - Google Patents
一种ip定位技术中基准点数据的清洗方法 Download PDFInfo
- Publication number
- CN106302737B CN106302737B CN201610676621.0A CN201610676621A CN106302737B CN 106302737 B CN106302737 B CN 106302737B CN 201610676621 A CN201610676621 A CN 201610676621A CN 106302737 B CN106302737 B CN 106302737B
- Authority
- CN
- China
- Prior art keywords
- mark data
- bench mark
- bench
- cleaning
- datum mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 238000012795 verification Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 abstract description 2
- 238000007418 data mining Methods 0.000 description 2
- 101100109978 Arabidopsis thaliana ARP3 gene Proteins 0.000 description 1
- 101100163122 Arabidopsis thaliana ARPC2A gene Proteins 0.000 description 1
- 101100191082 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) GLC7 gene Proteins 0.000 description 1
- 101100427547 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ULS1 gene Proteins 0.000 description 1
- 101100030351 Schizosaccharomyces pombe (strain 972 / ATCC 24843) dis2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 101150117607 dis1 gene Proteins 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种IP定位技术中基准点数据的清洗方法,主要包括:根据可靠度删除或保留基准点;根据IP特性,对基准点数据进行验证清洗;判断地理位置与IP地址所属的国家是否一致,判断是否保留基准点;利用时延对基准点数据进行粗颗粒度清洗;结合网络路径和UNDNS对基准点进行细颗粒度的清洗;从而完善验证基准点数据正确性方法,提高基准点数据的正确性。
Description
技术领域
本发明涉及超高精度的IP定位技术中基准点的正确性判断技术领域,具体地,涉及一种IP定位技术中基准点数据的清洗方法。
背景技术
IP定位技术,是通过设备的IP地址来确定其地理位置。在IP定位领域,超高精度的IP定位技术将数据挖掘(收集基准点)和网络测量相结合的方法,能够实现超高精度的IP定位。基准点由IP和地理位置组成。超高精度的IP定位技术应用领域非常广泛,政府部门,通过该服务可以对人民的网络行为进行社区粒度的舆情分析,从而充分地了解民意,做出更加利国利民的政策;安全部门,通过该服务能够获取网络攻击的源目标位置,提升网络安全防御能力;商业端的在线支付,通过该服务可以实现用户异地登录预警,提升交易的安全性;商业端的在线广告,通过该服务可以实现基于用户实时位置的广告推送,提升广告的投放精确度,获取最大的商业盈利。
然而,作为超高精度IP定位技术最重要的数据支撑的基准点,一套完整的确保其正确性的方法并不存在。基准点由IP和地理位置组成,其正确性由IP特性和地理位置的正确性共同确定。目前,研究者多关注从IP特性入手对基准点进行验证,如共享主机与CDN验证和多个分公司的验证;而往往忽略了地理位置正确性的验证。因此,有必要提出一套完整的基准点清洗方法。
发明内容
本发明的目的在于,针对上述问题,提出一种IP定位技术中基准点数据的清洗方法,以完善验证基准点数据正确性方法,提高基准点数据的正确性。
为实现上述目的,本发明采用的技术方案是:一种IP定位技术中基准点数据的清洗方法,主要包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B.根据IP特性,对基准点数据进行验证清洗;
判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D.获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
进一步地,所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
进一步地,所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
进一步地,所述述步骤D中,所述网络距离为基准点到路由器的相对时延和4/9倍光速的乘积。
本发明各实施例的一种IP定位技术中基准点数据的清洗方法,由于主要包括:根据可靠度删除或保留基准点;根据IP特性,对基准点数据进行验证清洗;判断地理位置与IP地址所属的国家是否一致,判断是否保留基准点;对基准点数据进行粗颗粒度清洗;对基准点进行细颗粒度的清洗;从而完善验证基准点数据正确性方法,提高基准点数据的正确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一种IP定位技术中基准点数据的清洗方法实施例中的Hosting验证原理图;
图2为本发明一种IP定位技术中基准点数据的清洗方法实施例中粗颗粒度清洗示意图;
图3为本发明一种IP定位技术中基准点数据的清洗方法实施例中细颗粒度清洗示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
具体地,一种IP定位技术中基准点数据的清洗方法,主要包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B.根据IP特性,对基准点数据进行验证清洗;
C.判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D.获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
所述步骤D中,所述网络距离为基准点到路由器的相对时延和4/ 9倍光速的乘积。
本发明针对目前基准点正确性验证不完善的问题,提供一套完整的基准点清洗方法,从IP特性和地理位置验证两个方面对基准点数据进行过滤清洗,从而确保基准点的正确性。
为解决上述问题,本发明是通过以下技术方案实现的:
一套完整的基准点清洗方法,包含以下步骤:
步骤1、根据基准点来源的可靠度,清除基准点数据的“脏”数据;
该步骤的目的是确保IP与地理位置一一对应;在出现一对多时,可靠度一致,则删除这些基准点;可靠度不一致时,保留可靠度高的基准点,可靠度由数据来源决定,如人工收集大于数据挖掘,EMAIL收集大于WEB收集;。
步骤2、根据IP特性,对数据进行验证清洗;该步骤包含共享主机验证和Hosting公司验证。
步骤3、首先,由地理位置与IP所属国家是否一致,从国家级别对IP的地理位置进行验证清洗;其次,通过比较网络距离(由时延转换得到)与物理距离,由于时延转换的网络距离是理论上网络包传输的最大距离,因此比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而对基准点进行粗颗粒度的清洗。
研究表明,在真空中,网络包在光纤中传输的的速度是光速(用C表示)的2/ 3倍。然而,其他研究学者也已经表明,由于传输时延,排队时延等原因,在实际应用中,2 / 3 C是一个很松散的上限值。因此,我们采用的经验值4 / 9 C 作为转换网络时延和地理距离的参数。基于网络距离=网络时延*4 / 9 C,可以比较网络距离与物理距离。
步骤4、基于UNDNS和相对时延,对基准点进行细颗粒度的清洗。
UNDNS是一种路由器域名到物理地址的解析工具。首先,获取基准点本身和倒数后两跳路由器的UNDNS地址;其次,比较基准点到路由器的网络距离和物理距离,对基准点进行细颗粒度的清洗。
在图1中,VP1代表探测机,能够对基准点(L)进行发包。H1表示对基准点本身进行Hosting判断;H2表示对倒数第一跳路由器(R3)进行Hosting判断,同理H3表示对倒数第二跳路由器(R2)进行Hosting判断。
在图2中,DEL表示探测机(VP1)到基准点(L)之间的绝对时延,由此可以转换得到网络距离,而DIS表示两者之间的物理距离。
在图3中,UNDNS1表示对基准点本身进行UNDNS解析,UNDNS2表示对倒数第一跳路由器进行UNDNS解析,UNDNS3表示对倒数第二跳路由器进行UNDNS解析;DIS1表示倒数第一跳路由器的UNDNS地址与基准点之间的物理距离,DIS2表示倒数第二跳路由器的UNDNS地址与基准点之间的物理距离;XDEL1表示倒数第一跳路由器与基准点之间的相对时延,XDEL2表示倒数第二跳路由器与基准点之间的相对时延。
结合真实数据集,对本发明进行进一步说明。数据集中包含不同来源收集到的基准点,数据集如表1。
步骤1、对多种来源的基准点进行合并和整理,清除基准点数据的“脏”数据。在表1中,由于 1.1.1.1这个IP出现在两个地方,并且它们可信度一致,删除该IP对应的两条记录。
步骤2、根据IP特性,对基准点数据进行清洗。由于2.2.2.2对应的域名web2.hosting.com,该域名是一个Hosting公司的域名,删除该条记录。
步骤3、地理位置的粗颗粒度验证。3.3.3.3的域名中的顶级域名的后缀为.cn,说明该IP属于中国;然而其地址为芝加哥,属于美国,删除该条记录。
步骤4、根据UNDNS和时延,对基准点进行细颗粒度验证。对于4.4.4.4的域名web3.zz.cn,UNDNS解析为郑州,但其地址为北京,删除该条记录。
表1 不同来源数据集
经过上面4个步骤,最终,我们进保留了5.5.5.5这条记录。该发明,从IP特性和地址位置验证两个方面,对基准点数据进行过滤清洗,从而确保基准点的正确性。
至少可以达到以下有益效果:解决目前基准点正确性验证不完善的问题,提供一套完整的基准点清洗方法,从IP特性和地理位置验证两个方面对基准点数据进行过滤清洗,从而确保基准点的正确性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.IP定位技术中基准点数据的清洗方法,其特征在于,包括以下步骤:
A.对多种来源的基准点数据进行合并和整理,判断IP地址与地理位置是否一一对应;出现一个IP地址对应多个地理位置,若可靠度一致,删除这些基准点数据;若可靠度不一致,保留可靠度高的基准点数据;
B. 根据IP特性,对基准点数据进行验证清洗;
C.判断地理位置与IP地址所属的国家是否一致,若一致则保留基准点数据,否则删除该基准点数据;比较探测机到基准点的网络距离与物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确,从而完成对基准点数据进行粗颗粒度清洗;
D. 获取基准点本身和倒数后两跳路由器的UNDNS地址;比较基准点到倒数后两跳路由器的网络距离和到其UNDNS的物理距离,若物理距离大于或等于网络距离,则删除基准点;否则,认为基准点位置正确;从而完成对基准点进行细颗粒度的清洗。
2.根据权利要求1所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤B中,对基准点数据的进行验证包括共享主机验证和Hosting公司验证。
3.根据权利要求1所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤C中,所述网络距离为网络绝对时延和4/ 9倍光速的乘积。
4.根据权利要求3所述的IP定位技术中基准点数据的清洗方法,其特征在于,所述步骤D中,所述网络距离为基准点到路由器的相对时延和4/ 9倍光速的乘积。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610676621.0A CN106302737B (zh) | 2016-08-17 | 2016-08-17 | 一种ip定位技术中基准点数据的清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610676621.0A CN106302737B (zh) | 2016-08-17 | 2016-08-17 | 一种ip定位技术中基准点数据的清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106302737A CN106302737A (zh) | 2017-01-04 |
CN106302737B true CN106302737B (zh) | 2019-09-03 |
Family
ID=57679355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610676621.0A Active CN106302737B (zh) | 2016-08-17 | 2016-08-17 | 一种ip定位技术中基准点数据的清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106302737B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108112027B (zh) * | 2017-12-13 | 2021-08-06 | Oppo广东移动通信有限公司 | 定位信息的处理方法、装置、存储介质及终端 |
CN110474843B (zh) * | 2019-07-03 | 2021-07-06 | 上海交通大学 | 基于路由跳数的ip定位方法 |
CN113411415A (zh) * | 2021-05-13 | 2021-09-17 | 郑州埃文计算机科技有限公司 | 一种基于ip网络特征和地理特征的基准点清洗方法 |
CN113242332B (zh) * | 2021-05-19 | 2022-10-04 | 郑州埃文计算机科技有限公司 | 一种形成街道级定位库的改进方法 |
CN115665237B (zh) * | 2022-12-28 | 2023-03-14 | 中国电子信息产业集团有限公司第六研究所 | 一种ip地址实时定位方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8615605B2 (en) * | 2010-10-22 | 2013-12-24 | Microsoft Corporation | Automatic identification of travel and non-travel network addresses |
CN103973837A (zh) * | 2014-05-27 | 2014-08-06 | 北京瑞汛世纪科技有限公司 | 一种确定物理位置信息的方法和装置 |
CN104506591A (zh) * | 2014-12-11 | 2015-04-08 | 罗向阳 | 一种基于最近共同路由器的目标ip地理位置定位方法 |
CN105245628A (zh) * | 2015-08-31 | 2016-01-13 | 罗向阳 | 一种适用于弱连接网络的网络实体地理位置定位方法 |
CN105245627A (zh) * | 2015-08-31 | 2016-01-13 | 罗向阳 | 一种基于网络坐标系统的ip定位方法 |
CN105262849A (zh) * | 2015-08-31 | 2016-01-20 | 罗向阳 | 基于可容忍误差的ip定位方法 |
CN105577477A (zh) * | 2015-12-28 | 2016-05-11 | 哈尔滨工业大学 | 使用概率模型的基于测量的ip地址地理定位系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024454B2 (en) * | 2007-03-28 | 2011-09-20 | Yahoo! Inc. | System and method for associating a geographic location with an internet protocol address |
-
2016
- 2016-08-17 CN CN201610676621.0A patent/CN106302737B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8615605B2 (en) * | 2010-10-22 | 2013-12-24 | Microsoft Corporation | Automatic identification of travel and non-travel network addresses |
CN103973837A (zh) * | 2014-05-27 | 2014-08-06 | 北京瑞汛世纪科技有限公司 | 一种确定物理位置信息的方法和装置 |
CN104506591A (zh) * | 2014-12-11 | 2015-04-08 | 罗向阳 | 一种基于最近共同路由器的目标ip地理位置定位方法 |
CN105245628A (zh) * | 2015-08-31 | 2016-01-13 | 罗向阳 | 一种适用于弱连接网络的网络实体地理位置定位方法 |
CN105245627A (zh) * | 2015-08-31 | 2016-01-13 | 罗向阳 | 一种基于网络坐标系统的ip定位方法 |
CN105262849A (zh) * | 2015-08-31 | 2016-01-20 | 罗向阳 | 基于可容忍误差的ip定位方法 |
CN105577477A (zh) * | 2015-12-28 | 2016-05-11 | 哈尔滨工业大学 | 使用概率模型的基于测量的ip地址地理定位系统 |
Non-Patent Citations (1)
Title |
---|
基于路由追踪的IP定位优化;贾伟伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20131115;正文4-35页 |
Also Published As
Publication number | Publication date |
---|---|
CN106302737A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106302737B (zh) | 一种ip定位技术中基准点数据的清洗方法 | |
CN104065532B (zh) | 一种基于多路数据接入方式的未备案网站探寻方法及系统 | |
He et al. | Lord of the links: a framework for discovering missing links in the internet topology | |
CN108027800A (zh) | 使用跟踪路由进行地理定位的方法、系统和装置 | |
CN104699835A (zh) | 用于确定网页页面中包括兴趣点poi数据的方法及装置 | |
CN105227688B (zh) | 一种基于路径特征的区域级目标ip定位方法 | |
CN102479229A (zh) | 一种兴趣点poi数据产生方法和系统 | |
CN106254123B (zh) | 一种面向城域网级别as域内网络拓扑的测绘方法 | |
JP2013514582A (ja) | 取引情報に基づいたipアドレスデータベースの更新 | |
CN110012120A (zh) | 一种基于PoP网络拓扑的IP城市级定位算法 | |
CN103530347A (zh) | 一种基于大数据挖掘的互联网资源质量评估方法及系统 | |
CN107958031A (zh) | 基于融合数据的居民出行od分布提取方法 | |
CN106095979A (zh) | Url合并处理方法和装置 | |
CN103716282A (zh) | 一种修正ip库的方法和系统 | |
CN105069113A (zh) | 一种数据流量实时可视化的方法及系统 | |
CN106301825A (zh) | Dpi规则的生成方法及装置 | |
CN109002961A (zh) | 一种基于网络数据的跨区域文化景观间功能结构规划方法 | |
CN108900581A (zh) | 一种大型网站的关键特征知识库的建立方法 | |
JP2021103561A (ja) | アイデンティティ情報処理方法、装置、電子機器及び記憶媒体 | |
CN109978547A (zh) | 风险行为控制方法及系统、设备和存储介质 | |
CN102868601B (zh) | 一种有关基于图形配置数据库业务网络拓扑的路由系统 | |
CN103605670B (zh) | 一种用于确定网络资源点的抓取频率的方法和装置 | |
Zhu et al. | An algorithm of city-level landmark mining based on internet forum | |
CN110188954A (zh) | 基于pop网络的地标可靠性评估方法及装置 | |
CN111104519A (zh) | 一种构建全量行政区域知识库的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: No. 608, 6th Floor, Building 2, South Xinghua Science and Technology Industrial Park, West 2nd Street, Jingnan 1st Road, Zhengzhou Economic and Technological Development Zone, Zhengzhou City, Henan Province, 450000 Patentee after: Zhengzhou Evan Technology Co.,Ltd. Address before: No. 301, 3rd Floor, Incubation Base, Entrepreneurship Park, Intersection of Eighth Street and Jingnan Second Road, Zhengzhou Economic and Technological Development Zone, Henan Province, 450016 Patentee before: ZHENGZHOU AIWEN COMPUTER TECHNOLOGY CO.,LTD. |
|
CP03 | Change of name, title or address |