CN111064817A

CN111064817A - 一种基于节点排序的城市级ip定位方法

Info

Publication number: CN111064817A
Application number: CN201911279995.9A
Authority: CN
Inventors: 罗向阳; 刘翀; 祖铄迪; 徐锐; 袁福祥; 时文旗; 朱玛
Original assignee: Individual
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24
Anticipated expiration: 2039-12-13
Also published as: CN111064817B

Abstract

本发明公开了一种基于节点排序的城市级IP定位方法，包括如下步骤，通过通用的均匀地标选择算法在给定地标集中选取均匀分布的地标；构建网络拓扑图；基于遍历节点的度中心性和路径数，寻找较小的稳定节点；对重要节点根据一跳延迟和延迟矢量约束将节点分为两类；根据较小的稳定节点来对目标IP进行定位。本发明通过结合地图服务设计了一种通用的均匀地标选择算法（EDLS），EDLS减小了地标的使用数量从而降低网络负载，在一定程度上缓解了网络测量过程中由负载均衡引起的测量异常。进一步的通过使用节点的度中心性和穿过节点的路径数量对节点排序以找出重要节点，然后通过具有复杂度低可靠性高等优点的排序算法，选出的节点有很多利于定位的特性。

Description

一种基于节点排序的城市级IP定位方法

技术领域

本发明涉及IP定位技术领域，尤其涉及一种基于节点排序的城市级IP定位方法。

背景技术

目前，IP定位技术将IP地址映射为现实中的地理位置，包括国家、城市和经纬度。它在网络广告精确投放(online targeted advertising)、隐私保护、追踪溯源、信息推送、账号保护等领域中具有广泛的应用。例如，账号在异地登录后会进入异常状态，账号的敏感操作会被限制。此举往往是在账号密码泄露后保护账号内资产的最后一根稻草，为用户减小损失争取了宝贵的时间。因此，开展IP定位技术的研究具有重要的现实意义。

现有的IP定位方法主要可以分成三类：基于数据库的、基于数据挖掘的和基于网络测量的。基于数据库的定位方法因其方便快速的优点而被广泛使用。但是数据库的数据来源无法验证，其定位准确率往往无法保证，尤其是城市级定位误差较大。ManafGharaibeh et al.对4个广泛使用的公开和商业数据库包括IP2Location-Lite、NetAcuity、MaxMind-GeoLite、MaxMind-Paid进行了评估，结果表明它们在城市级的定位结果是不可靠的，并且不同的数据库在不同的地区准确性不同。Ovidiu Dan1etal.对主流IP数据库进行了评估(major commercial)，结果表明它们在城市级的定位准确率不超过70％。

基于数据挖掘的方法从大量数据中挖掘和IP关联的位置信息。典型的方法有Structon，Checkin-Geo和DRoP等.Structon是一套从web页面挖掘和IP相关的位置信息并进行评估筛选的自动化方法，其城市级定位准确率超过87％。Checkin-Geo使用用户在位置分享服务中的签到数据(location-sharing services，chechkins)和登录日志(loginlogs)建立IP和位置的映射关系。DRoP根据设定的规则自动从DNS主机名中提取位置相关的信息，而对于规则外的字符串则不能处理。此外，有些国家或地区很少有主机名，例如中国。

基于网络测量的定位方法利用traceroute和ping等工具测量目标IP的时延和路径等拓扑信息推测IP的地理位置，它克服了其它方法定位结果的不确定性。基于时延的典型定位方法有。GeoPing利用多个探测源到目标IP的时延相似性对目标进行定位。

CBG(Constrained-Based Geolocation),Octanc，Spotter等方法在建立时延距-离模型后通过三边定位来推测IP的地理位置。CRLB(Cramér–Rao Lower Bound)从理论上分析了利用时延进行三边定位的最小误差，研究了地标的位置和分布对定位的影响。

基于拓扑的典型定位方法有TBG(Topology-based Geolocation)利用了网络拓扑，在对中间路由器使用时延进行三边定位的基础上对目标进行定位。LBG(Learning-Based Geolocation)将IP定位转化为机器学习的分类问题，使用时延和跳数训练模型推测IP的地理位置。SLG在CBG的基础上使用了目标和地标到共同路由器的相对时延推测IP的地理位置。Geo-PoP在利用”bifan”结构划分PoP的基础上首先确定PoP的位置，然后通过IP经过的PoP(Point of Presence)的位置确定IP的地理位置。

尽管这些方法均有一定的定位能力，但是他们在城市级定位准确率上都不够高。众所周知，网络是动态变化的，基于网络测量的定位方法的准确率易受测量时的网络状况影响，时延膨胀、迂回路由、匿名路由器等因素均可能降低定位准确性，尤其是在连通性较差的网络。例如，通过时延距离模型进行三边定位的方法需要时延-距离具有相关性，而在弱连接网络中，时延-距离相关性往往较低。另外，由于需要大量的分布式探测源和网络测量时产生的大量负载，基于网络测量的定位方法并没有在现实中广泛部署。

IP定位技术在商业，网络安全，隐私保护等领域均有广泛应用。然而，现有的IP定位方法易受延迟膨胀，匿名路由器等网络环境因素的影响，存在可靠性差、不适用于弱连接网络等问题。

发明内容

本发明的目的是提供一种基于节点排序的城市级IP定位方法，能够在尽量减少测量负载的情况下提高目标IP的城市级定位准确率。

本发明采用的技术方案为：

一种基于节点排序的城市级IP定位方法，包括如下步骤，

步骤1：结合在线地图服务和搜索引擎，在给定地标集中选取均匀分布的地标：首先利用在线地图服务将目标城市划分成若干个区域；接着利用搜索引擎查询每个区域的人口数量，按照人口比例确定在每个区域选择的地标数量；然后将每个区域划分为若干矩形；最后在每个区域中选取属于不同IP段的地标；

步骤2：构建网络拓扑图：利用分布式探测源对选取的地标进行探测，融合路径信息，构建拓扑图；

步骤3：节点排序与选择：分别根据节点的度中心性和穿过节点的路径数量对节点排序，根据情况选择排序靠前的节点的并集作为重要节点；

步骤4：节点分类：根据路径的单跳时延分布和时延向量约束将重要节点分为城市节点和城市外节点；

步骤5：IP定位：利用分布式探测源对目标IP进行多协议报文探测，通过查询路径中的重要节点确定目标IP的位置。

所述的步骤1中对地标集的指标数以及阶段数的选择均为多个。

所述的步骤3具体包括如下步骤：

3.1计算每个路由节点在拓扑图中的度中心性；

3.2计算通过每个节点的路径数量；

3.3按照度中心性对节点降序排序，选取度中心性大于阈值的节点；

3.4按照路径数量对节点降序排序，选取路径数量大于阈值的节点；

3.5取步骤3.3和步骤3.4排序得到的节点的并集作为第一重要节点。

所述的步骤4具体包括如下步骤：

4.1计算每条路径的单跳时延并在单跳时延最大值处将路径分成两部分；

4.2在步骤3得到的重要节点中删除前半路径中所包含的节点；

4.3使用分布式探测源对步骤1中选取的地标和步骤4.2中得到的重要节点构建时延向量；4.4计算地标的时延向量之间的最大距离D_th；

4.5删除重要节点中与地标的时延向量的距离大于阈值D_th的节点；

4.6计算重要节点之间的时延向量距离大于D_th的节点，删除与地标的时延向量距离更大的节点，直至满足所有重要节点之间的时延向量距离均小于D_th；

4.7最终剩余的节点为目标城市内的第二重要节点，步骤3中的第一重要节点与这部分的第二节点的差集为目标城市外的节点。

本发明通过结合地图服务设计了一种通用的均匀地标选择算法(EDLS)，EDLS减小了地标的使用数量从而降低网络负载，在一定程度上缓解了网络测量过程中由负载均衡引起的测量异常。进一步的通过使用节点的度中心性和穿过节点的路径数量对节点排序以找出重要节点，然后通过具有复杂度低可靠性高等优点的排序算法，选出的节点有很多利于定位的特性。本发明提高了定位结果的可靠性，最后通过使用往返时延的测量值更加准确，并且发包量更少。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的原理框图；

图3为本发明所述节点的度分布图；

图4为本发明所述网络连通性随移除节点比例变化的曲线图；

图5为本发明所述在不同地标选择策略下探测所得到的网络中节点数量随地标数量的变化的曲线图；

图6为本发明所述穿过节点的路径数量的分布图；

图7为本发明所述中一跳延时在美国和中国的分布示意图；

图8为本发明中不同VPS下的精度对比图；

图9为本发明中不同地标下的精确度对比图；

图10为本发明中不同方法下定位精确度对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，对于方位词，如有术语“中心”，“横向”、“纵向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示方位和位置关系为基于附图所示的方位或位置关系，仅是为了便于叙述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定方位构造和操作，不能理解为限制本发明的具体保护范围。

需要说明的是，本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，提出了一种通用算法，用于在先前构建的地标数据集中选择均匀分布的地标。然后，通过世界各地的分布式有利位置探测地标，以获得丰富的网络拓扑。接下来，基于遍历节点的度中心性和路径数，提出了一种排序节点算法来寻找较小的稳定节点。之后，根据一跳延迟和延迟矢量约束将节点分为两类。最后，可以通过较小的稳定节点来估计大目标IP的位置。原理分析表明，RNBG可以减少延迟扩展和匿名路由器的影响。中国和美国40个代表性城市的655万目标IP的实验结果表明，即使在弱连接的网络区域，RNBG也可以实现大约1万个节点的高精度。与现有典型方法相比，地理定位精度提高了2.73％-16.36％。

如图1和2所示，本文方法分为5个部分，每一部分使用蓝色有标号的箭头连接。在现有地标库中选择均匀分布的地标的基础上，使用地理位置不同的分布式探测源对这些地标进行探测得到网络拓扑图。然后对拓扑图中的全部路由节点进行排序得出重要路由节点。接着根据单跳时延和时延向量将重要节点分成属于目标城市内外的两类。最后利用这些重要节点对目标城市的IP进行定位。框架图中的五部分分别对应下面步骤中的五步。具体为：

步骤1：通过通用的均匀地标选择算法在给定地标集中选取均匀分布的地标：结合Web服务包括地图服务和搜索引擎将目标城市划分成若干个区域，接着确定在每个矩形中选择的地标数量，最后在每个区域中最大限度的选取属于不同IP段的地标；所述的步骤1中对地标集的指标数以及阶段数的选择均为多个。为了在给定地标集中选取均匀分布的地标，本文结合Web服务设计了一种通用的地标选择算法。首先根据某一标准将目标城市划分成几个部分，例如根据行政区划分。为了方便，将每个部分视作一个矩形。接着确定在每个矩形中选择的地标数量，例如可以根据每个行政区的人口比例确定地标数量。然后在这个矩形中选取若干地标，要求这些地标尽量属于不同的IP段。

算法1说明了上述主要过程根据从地图服务查询的结果将目标城市分成几个行政区，并根据每个行政区的人口比例确定每个行政区需要选择的地标数量。将每个行政区分成若干个矩形，并在每个矩形内选择属于不同IP段的若干地标。

这是一个通用的均匀地标选择算法，适用但不限于选择城市地标。本文选取了两个指标对地标集进行了两阶段的选择，当然也可以选择不同的指标进行更细粒度的多段选择。

步骤2：构建网络拓扑图：利用分布式探测源对选取的地标进行探测，融合路径信息，构建拓扑图；将网络拓扑视为无向图G＝(V，E),V是节点的集合，E是边的集合。一般来说，一个节点的度越高这个节点就越重要，一个节点v的度等于与它直接相连的邻居的数量，它反映了节点的直接影响力。一个节点v的度中心性C_D(v)定义如下：

a_ij为图G的邻接矩阵第i行第j列元素，n为图G中节点总数。计算G中每个节点的度并按照度递减顺序排序，选取C_D大于阈值Th_D的节点，即N_D＝{d|d＞＞Th_D}。

计算包含每个节点的路径数量，并按递减顺序排序。选取路径数量P大于阈值Th_P的节点，即N_P＝{p|p＞＞Th_P}。最终选取的重要节点为

N_I＝N_P∪N_D (2)

步骤3：节点排序：使用度中心性对节点的重要性排序，从而在众多节点中找出少量可以用于定位的节点；所述的步骤3具体包括如下步骤：

3.1计算每个路由节点在拓扑图中的度中心性；

3.2计算通过每个节点的路径数量；

为了达到使用重要节点对目标IP定位的目的，需要确定哪些节点属于目标城市，因此需要将节点分成属于目标城市内外的两类。本文对节点进行两阶段的分类，在第一阶段利用在步骤1中得到的路径信息中的单跳时延对节点进行粗粒度的分类，在第二阶段对节点进行额外的探测构建时延向量，然后使用时延向量约束进行细粒度的分类。

粗粒度分类：当使用目标城市外的探测源对目标城市的IP进行traceroute探测时，探测路径会经过不同的城市。一般来说，城市内的路由器之间距离较短，不同城市之间的路由器距离较远，因此探测路径上同一城市内相邻路由器之间的时延较小，不同城市之间的时延较大。所以理论上可根据单跳时延的变化规律粗略的将一条路径上的IP分割成地理位位置不同的部分。因为单程时延无法测量，通常取往返时延的一半作为单程时延。设一条路径的往返时延序列为RTT＝(RTT₁，…，RTT_n)，任意相邻两节点i和j之间的单跳时延

i-j≡1。计算路径中任意相邻两节点之间的往返时延，为了保证准确性在ΔRTT最大值处将路径分成两部分，将距离探测源近的一侧的路径中所包含的节点集合记做N_Probe。在重要节点集合N_I中删除N_Probe，剩余节点记做N_L，即N_L＝N_I-N_Probe。这一阶段保证了N_L包含了目标城市的全部路由节点，且减小了下一阶段处理的网络负载。

细粒度分类：使用分布式探测源构建时延向量。n个分布式探测源的序列Ps＝(P¹，…，Pⁿ)，使用其中每个探测源对N_L中的节点和地标各ping10次，取10次中的往返时延最小值。任意节点N_i对应的时延向量是

表示探测源Pⁿ到节点N_i的往返时延。任意地标L_k对应的时延向量是

对于目标城市内的节点来说，地标和重要节点的距离D_LN、重要节点之间的距离D_NN应满足约束条件

其中

D_LN数值为

同理可得D_NN。当D_NN不满足约束条件时，从两个节点中删除与地标最大距离更大的节点，直至所有重要节点都满足约束条件。不满足约束条件的节点集合记为N_E，从N_L中删除N_E，剩余节点为目标城市内的核心节点，记做Ψ，即Ψ＝N_I-N_Probe-N_E，则目标城市外的重要节点集合Θ＝N_I-Ψ。

步骤4：对重要节点进行分类，获取城市节点和城市外节点：

所述的步骤4具体包括如下步骤：

4.2在步骤3得到的重要节点中删除前半路径中所包含的节点；

步骤5：根据节点对目标IP进行定位：利用分布式探测源对目标IP进行多协议报文探测，通过查询路径中的重要节点确定目标IP的位置。

大多数情况下，根据目标城市的核心路由节点可以估计出IP的地理位置。城市的核心路由器为整个城市的网络联通提供保障，所以当数据包到达目标IP前会经过一个或多个核心路由器的转发。定位过程如图所示。使用分布式探测源对目标IP进行探测，数据包会经过城市核心路由器R₁至R_m中的一个或多个的转发然后到达目标IP，将核心路由器R的位置作为目标IP的位置。

另外一种情况是路径没有通过目标城市的核心路由节点。在这种情况下对于不属于目标城市的重要节点Θ，构建其到目标城市的六元组<IP,IP sequence,city,ASN,minhop,max hop>，IP是核心节点的IP地址，IP sequence是到达目标城市的路径中出现在该核心节点后的核心节点的IP地址序列，city为目标城市名，ASN为目标城市的地标所属的AS号，min hop和max hop分别为该节点到目标城市同一AS的地标的最小跳数和最大跳数。ASN主要用于区分不同的AS，出现在IP sequence中的重要节点与该重要节点有松散连接的关系。

这种情况的主要原因之一是路径到达了目标城市，但是路径在目标城市中的部分有较多的匿名路由节点。另一个原因是现有地标集中的地标分布不够均匀，导致构建的网络拓扑图不够全面。在这种情况下，探测源到目标IP的路径的总跳数δ和核心节点Θ的跳数γ是已知的。m为路径中重要节点Θ的个数，依次计算Θ_i，i∈[1，m-到目标IP的跳数τ_i＝δ-γ_i，考察所有IP为Θ_i的六元组，其中满足minhop≤τ_i≤max hop的六元组的城市集合Ω_i＝{ω_i1，…，ω_in}，n为集合中城市的个数，则目标IP的城市位置

若Ω中仅有一个元素，则目标IP的位置确定。否则考察IP为Θ₁且city∈Ω的六元组，把IP Sequence包含Θ_i，i∈[2，m]的六元组的城市作为目标IP的城市。

为了更进一步的说明本发明的原理过程，在这部分我们对本文的原理进行简单分析然后详细分析和讨论本文方法的各个步骤。

网络中的节点重要性并不相同，有些节点要更加重要。本申请认为在Internet中度高的节点更加重要，因为Internet是一种典型的无标度网络。分别对中美部分IP探测得到拓扑图中的节点的度分布如图3所示，网络中少数的节点拥有极多的连接，而大多数节点只有很少量的连接。如图4所示当随机移除拓扑图中的节点时，网络的连通性(拓扑图中边的数量)几乎没有受到影响。但当以度递减顺序移除节点时，网络的连通性急剧下降，当移除连接最高的5％的节点时，网络连通性几乎为零。少数节点对无标度网络的运行起着主导的作用，所以可以利用这些少量的但是更加重要的节点对大量的目标进行定位。

探测给定地标集中的所有地标并不是一个明智的做法，尤其是在地标数量很大的情况下。为了测量的准确性往往需要对目标反复测量，但是大量的探测报文会被认为是从探测源发起的网络攻击从而导致探测源被封禁或受到限制，也会导致网络设备行为的变化，如匿名路由器的增多，路由器丢包率的增加，负载均衡导致的路径变化等，最终可能会影响定位结果。因此有必要从地标集中选取有效的地标。例如，使用100个地标和使用10个地标达到的效果是相似的，那么就需要在这100个地标中把这10个地标提取出来。我们从地标的地理分布和IP段分布两个方面来考虑这个问题。

路由器的设置往往与地理位置有关，一个地区有提供该地区网络服务的一组路由器。因此同一个探测源到不同地理位置的IP经过的路由器一般不同。为了获得更多的拓扑信息应该选择在地理上均匀分布的地标。结合地图服务可以高效选取地理上均匀的地标。首先可以根据行政划分将目标区域(region)分成不同的区(district)，然后根据每个区的人口比例确定每个区域要选择的地标的数量。每个区域的人口可以通过搜索引擎很容易得到。一般来说ISP会根据人口分配IP的数量，根据人口比例选择地标数量比根据面积比例的效果更好。为了方便处理，将每个区近似的看作矩形，然后将每个区划分成若干小矩形，最后在小矩形中选取地标。这样就能尽量选取在地理上均匀分布的地标。另外，在探测过程中我们发现，同一探测源到不同IP段中的IP的路径差异较大，而到属于相同IP段中的IP的路径相似度较高。通常来说，IP段越小，相似度越高，所以应该尽量选取不属于相同IP段的地标。

以拓扑图中节点的数量和连接的数量这两个简单指标衡量拓扑信息，不同的地标选择策略下用单一探测源获得的拓扑信息随地标数量的变化曲线如图5所示。四种地标选择策略从上至下依次分别为本文提出的均匀地标选择算法和尽量选取不同的IP段、地理位置、以及随机选择的策略。因为拓扑图中连接的数量与节点的数量变化趋势一致，为了清晰展示，图中只绘制了节点的变化曲线。为了结果的可靠性，本文对地标进行了多轮选择。总体来讲，EDLS获得的拓扑信息要多于其它四种策略，远远好于随机选择地标，其它两种策略在地标数量小于500时差距不大。从现有数据集的结果来看，似乎IP所属的IP段差异越大，路径的差异越大，因此，在不知道地标经纬度的情况下应优先选择属于不同IP段的地标。有些时候ULS可能与尽量选取不同的IP段的地标的效果类似甚至相同，但是我们仍然这么做的原因是使步骤3中的时延向量约束更加可信。

复杂网络的重要节点是指相比网络其他节点而言,能够在更大程度上影响网络的结构与功能的一些特殊节点。通过节点排序找到这些节点是本文的重要步骤。这些节点包括了目标城市的核心路由节点。有许多种对节点排序的方法，本文选择度中心性对节点排序的主要原因是度中心性有许多利于定位的特性。

度中心性高的节点更有可能是核心路由节点。路由节点一般可分为接入路由和核心路由。接入路由的功能是通信量的汇聚，不同终端的通信量通过接入路由节点汇聚到核心路由节点。核心路由节点的功能是通信量的交换和转发，它们是网络连通的核心。理论上讲，大量的节点必须通过少量路由节点与网络连接，少量的重要节点对网络起主导作用，这符合核心路由节点的特性。在现实中，核心路由器有很多接口，与大量路由器相连，负责整个网络的流量转发。因此可以利用少量的核心节点定位大量的节点。另外，度中心性高的节点更加稳定。在长期观测中我们发现，总会在路径中发现这些节点。

计算复杂度低。以介数中心性和接近中心性为代表的方法虽然能更细粒度的刻画节点的重要性但是时间复杂度较高。对于网络G＝(V，E)，其中n＝|V|，m＝|E|，节点v的介数中心性(Betweenness)接近中心性(Closeness)，由C_B(v)和C_C(v)表示为：

σ_st是节点s和t之间的最短路径的数量，σ_st(v)表示s和t之间经过节点v的最短路径的数量。接近中心性定义为一个节点v到图中其它节点的测地距离(geodesicdistances，最短路径)的总和的倒数。这两种方法都需要计算图中任意两节点之间的最短路径。当计算多源最短路径时，Floyd算法的时间复杂度是O(n³)，在稀疏图中，Johnson算法更加高效，时间复杂度是O(n²logn+nm)。在稠密图中，计算度中心性的时间复杂度为O(n²)，而在稀疏图中的复杂度为O(m)。而探测得到的拓扑图是稀疏图，所以度中心性的复杂度远远小于其他算法。在本文中节点排序的最终目的是在众多节点中找出少量可以用于定位的节点，而不需要对这些节点的重要性进行更细粒度的刻画，所以使用度中心性对节点的重要性排序就足够了。

容错性高。度中心性是一个局部性的算法，一个节点的度只与和它直接相连的节点有关，图中其它边的增减与它无关。而其他节点排序算法对拓扑图的完整性要求较高，任何边的增减都会对排序的结果影响巨大。事实上我们不可能通过探测获得一个完整的网络拓扑，所以其他的排序方法在不完整的网络拓扑上进行的排序往往是不准确的。另外，在不进行匿名路由解析的情况下图中会有部分边的丢失，一个连通图可能会分成几个图。这种情况对一个节点的度中心性的影响很小，所以使用度中心性排序不需要对探测得到的IP接口拓扑图进行匿名路由解析。

另外，由于同一探测源到目标城市的IP会共享部分路径，从探测结果来看这些路径上的节点并不会展现出度中心性高的特性，但是它们同样重要。当探测源和目标IP处于不同的AS时，这些节点是流量转发的必经之路，包括AS边界路由器，ISP骨干网，IXP等。所以本文使用穿过节点的路径数量来度量这些节点。图6展示了这些节点的分布，和度中心性的分布类似，只有少部分节点的路径数量很高，这也符合现实情况，证明了排序的合理性。

为了判断目标IP的一条路径是否达到了目标城市，首先需要判断哪些核心节点位于目标城市。首先根据单跳时延的分布规律粗略地将探测路径分成两部分，考虑到往返时延的测量值比单跳时延更准确，使用时延向量约束对核心节点进行精细的划分。

当探测源和目标IP处于同一AS的不同的城市时，探测路径会经过不同的城市。通常来说，一个城市内的路由器之间距离较短，城市间的路由器之间距离较长，因此当报文在一个城市内的网络中转发时，相邻路由器之间的时延很低，当报文通过城市间的路由器时单跳时延会增加。现有工作利用单跳时延“低-高-低”的分布特性和探测路径比对得出属于目标城市的节点。本文的探测源属于不同的AS，单跳时延的情况要更加复杂，如果只从单跳时延分析属于目标城市的节点可能会导致结果不准确。

图4展示了中国和美国网络的单跳时延分布。图中每一跳的左边是盒图(盒图从上到下的5个数值分别为最大值，下四分位数，中位数，上四分位数，最大值)，右边是单跳时延的样本点，时延的平均值被用线连起来展示单跳时延的变化规律，为了清晰展现，过大的数值被删除(例如大于50ms)。可以看出美国和中国的单跳时延分布有明显的不同，对于每一跳而言中国的单跳时延样本点更加离散，而美国的更加集中，这点在盒图的高度上有直观的体现。时延的离散程度反映了时延抖动的大小，美国的时延抖动更小，测量得到的时延更可靠。从变化规律上来看，美国的单跳时延有几个高点而中国的时延变化较为平缓。

实际上，单跳时延的不同表明(suggests)了两国网络拓扑(underlying networktopology)的不同。中国的ISP拥有一个覆盖全国的巨大AS，当探测源和目标IP处于不同的城市时，报文会从探测源所在城市出发经由骨干网转发到达目标城市，而分层网络架构容易发生网络拥塞导致时延波动较大，拥塞有较大概率发生在流量较大的骨干网节点之间。美国的网络由很多的AS组成，当探测源和目标IP位于不同的AS时，报文往往要经过多个AS的转发，网络拥塞容易发生在AS的边界路由器之间。

综上所述，单跳时延增加的原因主要是属于不同城市的相邻路由器之间距离较远导致的传播时延较长和网络发生了拥塞导致排队时延增加或是两者共同作用。网络拥塞是普遍存在的，尤其是在网络连通性较差地区。另外由于traceroute的机制，路径中每跳的RTT很难准确获得，所以仅凭单跳时延的变化很难判断节点是否属于目标城市。因此，路径在单跳时延的峰值被分成两个部分。不管峰值产生的原因是什么，可以确定的是靠近探测源一侧的路径一定不属于目标城市。此举保证了剩余节点包含了目标城市的全部节点并且有效降低了下一阶段处理的探测负载。

同一AS内地理位置相近的IP其时延向量相似，时延向量相似的IP其地理位置往往也相近。利用这一特点可以有效排除非目标城市内的路由节点。使用n个分布式探测源测量其到目标IP的往返时延，往返时延可以组成一个n维向量。在对随机挑选的1000个IP的100次测试中，我们发现最小时延出现在前10次的概率为90.12％，所以构建时延向量时对每个IP测10次取其中的最小值。为了方法的简洁高效，本文用欧式距离度量时延向量之间的相似性，其它的方法也可以。为了保证核心路由器在城市内，它们与目标城市的任意地标之间的距离应小于某个阈值D_th，即‖DV_Ni-DV_LMj‖≤D_th，同时城市内任意核心路由器之间的距离也应该小于这个阈值，即‖DV_Ni-DV_Nj‖≤D_th。D_th是地标之间的最大距离，即D_th＝max‖DV_LMi-DV_LMj‖。本文在第一步已经选择了地理上分布均匀的地标，所以该阈值是有效的。使用时延向量避免了将时延转换成地理距离带来的误差，在网络连通性较差的区域也可以使用。

当使用城市外的探测源对目标IP进行探测时，数据包要经过目标城市的核心路由器转发。因此可以通过分析探测路径上的核心路由器的位置确定目标的地理位置，这种方法对于含有匿名路由器的路径同样可用。使用分布式探测源对目标进行定位，只要有一条路径到达了目标城市就可以对目标进行定位，增加了定位成功的概率。对于不含核心路由节点的目标路径，利用其它的特殊节点仍可以给出目标的估计位置，例如AS边界路由器，ISP骨干网等。这些节点在路径中的位置相对固定，在地理上的位置也是稳定的，所以他们到目标城市的地标的跳数基本是不变的。利用这些广泛分布的重要节点到目标城市跳数阈值的差异，可以实现对目标IP的定位。

和在定位过程中使用时延的方法相比，本方法的准确性不会受到时延膨胀的影响，所以在网络连通性较差的地区也同样适用。和在定位时使用地标比对的方法相比，本方法不需要用地标的位置估计目标的位置，所以可以在地标数量较少或地标与目标距离较远的情况下实现较好的定位效果。因此，本方法的定位更加灵活。

为了证明本发明方法的技术效果，以下以具体实例进行举例说明。

本文在真实网络中设计了多个实验用来检验本文提出方法的定位效果，并与典型的和新的定位方法进行了对比。中国和美国的IPv4网络是两种典型的网络，无论是网络环境还是网络架构都不同。美国的网络是富连接的而中国的网络的连通性较差。美国以网状网络为主，而中国以分层网络为主。特别是中国网络的时延难以准确测量，不同时间测得的时延差距巨大。本文的实验是在这两种网络下进行的。为了使定位结果更可靠，在对目标城市的路由节点进行分析时所构建的拓扑要远远大于城市的范围。为了减少探测异常，本文使用Paris Traceroute进行探测。

Target selection.7个分布式探测源被分别部署在中美不同的城市用来检验本文方法在不同网络中的定位效果。为了使定位结果不失普遍性，我们选择了中国河南省的全部城市和在全国分布均匀的12个省会城市。在美国选取了佛罗里达州和纽约州的共10个大都市，共计40个城市。ISP同样作为变量用来验证定位结果在不同的ISP网络下是否存在巨大的差异，它们分别是中国的两个主要运营商中国电信，中国联通和美国的两个主要运营商AT&T，Level 3。

数据收集。我们从多个数据源(包括Wi-Fi、GPS、基于数据挖掘的方法、基于DNS的方法和来自服务提供的协作数据)构建我们的地面真相。我们评估数据并排除不一致的数据。最终，我们获得655万IP，已知城市位置分别为中美40个城市.平均每个城市的IP大于16万。为了往返时延测量值更准确，时延分别在在中美的夜间测得，这样可以尽量减少排队时延的影响。另外，为了提高目标IP的探通率，在定位阶段本文使用多协议报文对目标进行探测。

我们主要从定位准确率，使用探测源和地标的数量来度量方法的效果。我们设计了4个实验。我们首先在不同的国家，ISP，地区验证了方法的定位准确率。然后探究了探测源和地标对定位准确率的影响。最后我们将本文方法和经典的定位方法LBG，TBG和新的定位方法PBG进行了对比。为了使其可以在本文的实验设置下良好运行，我们在不改变基本原理的情况下对其复现时进行了适当的修改。例如SLG中使用的CBG在连通性较差的网络中误差巨大，本文仅使用了SLG的后半部分，地标也是人为提供的。基于同样的原因我们并未将CBG等一类方法加入对比。

表1 Experimental Settings

为了检验本文方法在不同网络环境中的定位效果，我们对方法的定位准确率进行了测试。国家，ISP，地区均作为变量参与实验，用来检验本文方法在不同网络中的适用性。分别将中国和美国的数据集根据地区各分成两类，分别是河南省的全部城市，12个省会城市和纽约州的5个城市，加利福尼亚州的5个城市。本文方法在中国和美国数据集上的定位准确率没有明显差别，尽管两国的网络环境不同。本方法在不同的ISP中的定位准确率最大差值的实验结果表明本文方法具有广泛的适用性，在不同的网络环境中效果没有明显的差别。

探测源是影响本文方法的主要因素之一。不同的探测源到相同的目标的路径不同，探通率也不同。本文在节点选取和节点分类时都直接或间接使用了不同的探测源到目标的路径具有差异这一网络特性。我们测试了使用不同数量的探测源时，定位准确率的数值。当探测源的数量较少时，仅使用单跳时延对节点进行分类，在单跳时延的最后一个峰值将路径分割。结果如图8所示，柱形图表示了随着探测源的增加，定位准确率的增量，散点图表示在当前数量的探测源下定位准确率的数值。当探测源的数量为7时可以实现较高的定位准确率，当数量为8时准确率的增量很小，综合考虑，本文使用7个探测源。另外，探测源的分布也十分重要，其地理位置和所处AS应该尽量不同才能保证路径的多样性。由于资源所限，对探测源分布的研究将在未来的工作中进行。

地标是另一个影响定位准确率的重要因素。在这部分，我们分别探究了定位准确率与地标数量和地标选择策略的关系。图9展示了本文方法分别使用两种地标选择策略在中美数据集上定位准确率随地标数量的变化曲线，两种地标选择策略分别是本文设计的EDLS和在其他定位方法中常用的RLS。上面的两条曲线是EDLS。在中国数据集上，当地标数量为800左右时定位准确率达到一个高点，大约为97％，然后随地标的增加定位准确率增长缓慢。而在美国数据集上这一数值为1000左右，当地标数量大于1000时，美国数据集上的定位准确率略大于中国数据集上的准确率。这可能由于两国的网络不同，或是地标的影响。下面的两条曲线是RLS，在达到相同定位准确率时，RLS所需地标要远远大于EDLS。因为本文使用数据库中的大量IP对定位准确率进行验证，而RLS对地标的抽样不够均匀。相比之下，EDLS尽量选取的均匀分布的地标，实际上为了定位如此多的IP，EDLS所用的地标数量其实很少。

为了验证本文方法的定位效果，典型的定位方法LBG，SLG和新的定位方法PBG被用来与本文方法进行比较。四种方法在美国两个洲的10个城市，中国12个省会城市，中国河南省的城市的定位准确率如图10所示。为了清晰展示，图中只展示了河南省18个城市中人口排序靠前的12个城市。

四种方法均实现了较高的定位准确率。LBG和SLG在中美数据集上的定位结果有较大的差距。出现这种现象的主要原因是它们在定位过程中使用了时延，而中国的网络连通性较差，很容易发生拥塞，不同时间段的时延差距十分大，最终导致两者在中国数据集上的误差较大。具体来说，LBG在定位时测量的时延与建立模型时的时延不匹配，另外，仅使用探测源到地标的跳数有时候不能很好的区分不同的城市，最终导致定位误差较大。SLG的相对时延虽然具有一定的鲁棒性，但是在时延抖动较大的情况下不能保证一定找到距离目标最近的地标，最后形成误差。PBG和本文方法在定位过程中均未使用时延，所以定位效果要好于LBG和SLG。其中PBG要在网络中寻找”bifan”结构，因此对网络连通性要求较高，在节点间没有形成”bifan”结构时无法对一些IP进行定位。而本方法没有这种限制，在路径中没有目标城市的核心节点时仍可以通过目标城市外的重要节点进行定位。另外，本文在单跳时延的基础上使用时延向量对节点进行分类，结果要更加准确。

为了解决现有方法在网络连通性较差的地区定位误差较大的问题，我们设计了基于节点重要性排序的IP城市级定位方法。首先我们结合Web服务设计了一种通用的均匀分布地标选择算法，该算法通过选取有效地标降低了网络负载，效果远远好于随机选取地标。然后考虑到网络拓扑的特殊性，我们使用度中心性和穿过节点的路径数量找出重要节点。最后通过单跳时延的变化规律和时延向量阈值，我们将节点分成城市内外两类，并使用这两类节点实现了对目标IP的定位。另外(Moreover)我们的方法在现有地标集分布不均匀或是路径中匿名路由器较多的情况下也能实现较好的定位效果。为了证明本算法的有效性，我们在中美两种典型的网络环境中进行了实验，通过4个ISP的超过655万个IP验证了方法的有效性。实验结果证本文方法的定位准确率高于现有定位方法。在未来我们会在全球范围内进行方法的测试并解决新出现的问题。

受上述原因驱使，本文设计了一种基于节点重要性排序的IP定位方法。我们的目标是在尽量减少测量负载的情况下提高目标IP的城市级定位准确率。为了达到目标，我们需要克服的困难之一是网络动态变化过程中测量值的不确定性。我们通过节点排序在网络中选择稳定可靠的重要节点，在确定它们的位置后，通过它们估计目标IP的位置。另一个困难是如何减小网络负载。实际上，选取重要节点本身减小了后续探测时的大量负载。另外，均匀地标选取和两阶段节点分类的第一阶段都减小了探测时的网络负载。不同于以往的工作，当目标IP的路径中有较多匿名路由器时，利用这些重要节点到地标的跳数差异和到目标IP的跳数约束，我们仍可以对目标IP进行有效定位。最终，我们在中国和美国分别仅使用了7个探测源构造网络拓扑，并从中选取了大约1万个重要节点。我们借助这些重要节点完成了对中美40个具有代表性城市的655万个IP的城市级定位，定位准确率大于97％。我们在本文中的主要贡献如下：

我们结合地图服务设计了一种通用的均匀地标选择算法(EDLS)。EDLS减小了地标的使用数量从而降低网络负载，在一定程度上缓解了网络测量过程中由负载均衡引起的测量异常。原理分析和实验结果显示：使用EDLS和随机选择策略在选取相同数量的地标进行探测后，EDLS可以获得更多的拓扑信息。而在达到同样的定位效果时，EDLS使用的地标数量更少。

我们设计了一种新的节点排序算法，使用节点的度中心性和穿过节点的路径数量对节点排序以找出重要节点。一般而言这些重要节点是城市核心路由器、ISP骨干网、AS边界路由器、IXP(Internet Exchange Point)等稳定可靠的节点。考虑到探测得到的网络拓扑的特性和traceroute使用过程中的探测异常，使用其他节点排序算法会出现较大误差。而本文使用的排序算法具有复杂度低可靠性高等优点，选出的节点有很多利于定位的特性。和使用普通节点进行定位相比，它们提高了定位结果的可靠性。原理分析表明，通过这些少量的重要节点可对大量的目标进行定位。

我们使用相邻路由器之间的时延分布规律和时延向量阈值将重要节点分为属于目标城市内外两类。现有工作仅使用单跳时延将路径分割后得到目标城市内的路由器，而单跳时延难以准确测量并且很难区分时延的变化究竟是因为传播时延增加还是排队时延增加导致的，最终形成误差。而往返时延的测量值更加准确，并且发包量更少。我们首先使用单跳时延进行粗略的分类，以较小下一阶段处理的网络负载。然后使用时延向量约束进行精细的分类，提高了定位的准确性。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于节点排序的城市级IP定位方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的基于节点排序的城市级IP定位方法，其特征在于：所述的步骤1中对地标集的指标数以及阶段数的选择均为多个。

3.根据权利要求2所述的基于节点排序的城市级IP定位方法，其特征在于：所述的步骤3具体包括如下步骤：

3.1计算每个路由节点在拓扑图中的度中心性；

3.2计算通过每个节点的路径数量；

4.根据权利要求3所述的基于节点排序的城市级IP定位方法，其特征在于：所述的步骤4具体包括如下步骤：

4.2在步骤3得到的重要节点中删除前半路径中所包含的节点；