CN112235134B

CN112235134B - 基于ip连接概率分类的路由器所有权探测方法及系统

Info

Publication number: CN112235134B
Application number: CN202011046355.6A
Authority: CN
Inventors: 刘琰; 赵艺; 隋中航; 魏亮
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-08-09
Anticipated expiration: 2040-09-29
Also published as: CN112235134A

Abstract

本发明属于网络拓扑建模技术领域，特别涉及一种基于IP连接概率分类的路由器所有权探测方法及系统，将IP连接分为域内连接和域间连接，以IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；利用期望最大化估计概率模型参数，在每次迭代中利用朴素贝叶斯分类将概率较大的连接类型作为连接特征向量对应特征的连接类型，直至达到模型收敛条件；通过投票机制确定与traceroute探测目标IP处于同一AS的路由器所属AS。本发明可以更好地应用数据本身的特性，而不是仅仅依靠主观经验判断，能够提高路由器所有权探测的准确有效性，具有较好的应用价值。

Description

基于IP连接概率分类的路由器所有权探测方法及系统

技术领域

本发明属于网络拓扑建模技术领域，特别涉及一种基于IP连接概率分类的路由器所有权探测方法及系统。

背景技术

自治系统(Autonomous System,AS)是由一个或多个网络运营商运营和管理的一组路由器，具有单一且明确定义的路由策略。路由器所有权推断是互联网拓扑研究中的一个重要挑战，它可以将路由器级和AS级的互联网拓扑合并起来。路由器所有权推断依赖于IP级网络拓扑测量(如traceroute)、路由器接口别名解析技术和IP-to-AS映射技术，旨在将路由器分配到其所属的AS中。推断路由器的所有权有利于准确建模AS级拓扑，分析网络弹性和健壮性，检测域间拥塞等。在具有IP-to-AS映射关系的路由器级拓扑图中，一个路由器可能有多个接口，这些接口可能被映射到相同或不同的AS。当前研究通常以互联网实践中的领域知识和拓扑约束为基础，设计或简单或复杂的启发式算法来推断路由器所属的AS。例如，通过bdrmap，首先从目标AS内部的各个探测源(Vantage Point,VP)执行有针对性的traceroute，然后利用traceroute特性和拓扑约束在路由器级别正确识别域间连接。但它只能推断连接到托管VPs的网络且能被VPs观测到的域间连接。目前最好的算法bdrmapIT在两个互联网范围内的traceroute数据集中映射AS边界时，达到了91.8％-98.8％的精度。事实上，拓扑测量的不完全性、别名解析的不精确性以及IP-to-AS映射结果中的缺失值或错误值显然会限制路由器所有权推断的效果。此外，推理过程中的具体方法也会影响结果。对于因经验知识失效而误判的路由器，以及处于traceroute路径末端、由于采样偏差导致缺乏可用于所有权推断的拓扑约束的路由器，其结果的准确性仍有提高空间。有很多因素会影响和限制路由器的所有权推断。例如，当响应traceroute探测时，路由器可能会使用不同的接口地址，包括第三方地址，为确定路由器的所属AS带来了干扰因素。另外，两个AS之间的IP连接的子网地址空间通常来自其中一个AS。因此，如何准确识别域间连接是一个具有挑战性的问题。考虑到安全和竞争因素，运营商倾向于隐藏自身的网络拓扑结构，导致难以获得真实的验证数据对结果进行验证。

发明内容

为此，本发明提供一种基于IP连接概率分类的路由器所有权探测方法及系统，将IP连接划分为域内连接和域间连接两类，以更好地应用数据本身的特性，而不是仅仅依靠主观经验判断，能够提高路由器所有权探测的准确有效性。

按照本发明所提供的设计方案，一种基于IP连接概率分类的路由器所有权探测方法，包含如下内容：

收集数据，对涉及路由服务器的路径进行预处理，将IP级追踪路由路径转换为AS路径，从追踪路由路径中删除AS号属于路由服务器AS号列表的IP地址，并提取连接特征向量；

将IP连接分为域内连接和域间连接，将IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；

针对连接特征向量，利用期望最大化估计概率模型参数，在每次迭代中利用朴素贝叶斯分类将概率较大的连接类型作为连接特征向量对应特征的连接类型，直至达到模型收敛条件；

利用路由器域内路由器集和追踪路由目标地址共同构建候选AS列表，通过投票机制确定与追踪路由探测目标IP处于同一AS的路由器所属AS。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，连接特征向量包含：扇形特征、AS商业关系特征和IP距离特征，其中，扇形特征用于表示前向连接和后向连接发生AS切换的可能性；AS商业关系特征用于表示相邻连接AS商业的关系；IP距离特征用于表示两个IP节点之间的欧氏距离。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，使用REL(<IP_i，IP_i+1>)来表示IAS(IP_i)和IAS(IP_i+1)之间的AS关系，IAS(IP_i)表示IPi被映射到的AS号，<IP_i，IP_i+1>表示IP_i节点和IP_i+1节点之间的连接；如果IAS(IP_i)＝IAS(IP_i+1)，用标签same来标注IP连接<IP_i，IP_i+1>。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，对于IP连接<IP_i，IP_i+1>，AS商业关系特征包含IP连接的前向AS关系特征和后向AS关系特征，其中，前向AS关系特征为{(REL(<IP_i-1，IP_i>)，REL(<IP_i，IP_i+1>))}，IP连接<IP_i，IP_i+1>的后向AS关系特征为{(REL(<IP_i，IP_i+1>)，REL(<IP_i+1，IP_i+2>))}。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，对于一个IP连接<IP_i，IP_i+1>，如果(same，p2c)包含在其前向AS关系特征中，则增加对应域间连接的IP连接概率；如果(same，same)在一个连接的前向和后向AS关系特征中都存在，则增加对应域内连接的IP连接概率。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，标记每个IP连接初始类型中，如果路由器级或IP连接两端的路由器或IP所属AS不同，则将该路由器级或IP连接标记为域间连接，否则，标记为域内连接。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，针对连接特征向量中每个特征，首先采用拉普拉斯平滑处理，然后计算域内连接和域间连接两种类型的条件概率。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，依据连接类型条件概率计算连接类型的先验概率，将先验概率乘以所有连接特征的条件概率，将连接类型更新为较大概率的连接类型，反复迭代，直至达到收敛条件。

作为本发明基于IP连接概率分类的路由器所有权探测方法，进一步地，所述收敛条件为当前迭代和前一轮迭代之间连接类型改变数量减小到设定阈值。

进一步地，基于上述的方法，本发明还提供一种基于IP连接概率分类的路由器所有权探测系统，包含：数据预处理模块、模型构建模块、模型收敛模块和所属确定模块，其中，

数据预处理模块，用于收集数据，对涉及路由服务器的路径进行预处理，将IP级追踪路由路径转换为AS路径，从追踪路由路径中删除AS号属于路由服务器AS号列表的IP地址，并提取连接特征向量；

模型构建模块，用于将IP连接分为域内连接和域间连接，将IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；

模型收敛模块，用于针对连接特征向量，利用期望最大化估计概率模型参数，在每次迭代中利用朴素贝叶斯分类将概率较大的连接类型作为连接特征向量对应特征的连接类型，直至达到模型收敛条件；

所属确定模块，用于利用路由器域内路由器集和追踪路由目标地址共同构建候选AS列表，通过投票机制确定与追踪路由探测目标IP处于同一AS的路由器所属AS。

本发明的有益效果：

本发明将所有的IP连接分为域间连接和域内连接两个类型，将IP连接分类问题建模为具有隐变量的概率模型，实现对IP连接的分类，通过投票机制确定last-AS路由器的所属AS；能够更好地应用数据本身的特性，而不是仅仅依靠主观经验判断，并进一步利用扇形特征、AS商业关系特征和IP距离特征作为IP连接分类的特征，提高路由器所有权探测的准确有效性。并通过实验数据验证，本案所属权探测可以达到96.4％的准确率，优于目前最佳算法bdrmapIT，具有较好的应用价值。

附图说明：

图1为实施例中IP连接概率分类算法流程示意；

图2为实施例中路由器所有权探测流程示意；

图3为实施例中善行特征示意；

图4为实施例中p2c连接实例示意；

图5为实施例中通过IXP的traceroute路径示意；

图6为实施例中带有连接类型标签的路由器级拓扑示意；

图7为实施例中实验结果准确率变化趋势示意。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

路由器所有权推断不仅对网络安全和故障诊断有重要意义，也有助于互联网研究人员准确地建模AS级拓扑。目前的研究依赖于领域知识，且对于远离探测源的路由器的拓扑约束相对较少。本发明实施例，参见图1和2所示，提供一种基于IP连接概率分类的路由器所有权探测方法，参见图1所示，基于量子计算模拟平台实现，包含如下内容：

S101、收集数据，对涉及路由服务器的路径进行预处理，将IP级追踪路由路径转换为AS路径，从追踪路由路径中删除AS号属于路由服务器AS号列表的IP地址，并提取连接特征向量；

S102、将IP连接分为域内连接和域间连接，将IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；

S103、针对连接特征向量，利用期望最大化估计概率模型参数，在每次迭代中利用朴素贝叶斯分类将概率较大的连接类型作为连接特征向量对应特征的连接类型，直至达到模型收敛条件；

S104、利用路由器域内路由器集和追踪路由目标地址共同构建候选AS列表，通过投票机制确定与追踪路由探测目标IP处于同一AS的路由器所属AS。

将IP连接分类问题建模为具有隐变量的概率模型，实现对IP连接的分类，通过投票机制确定last-AS路由器的所属AS；能够更好地应用数据本身的特性，而不是仅仅依靠主观经验判断，达到提高路由器所有权探测的准确有效性。

作为本发明实施例中的基于IP连接概率分类的路由器所有权探测方法，进一步地，连接特征向量包含：扇形特征、AS商业关系特征和IP距离特征，其中，扇形特征用于表示前向连接和后向连接发生AS切换的可能性；AS商业关系特征用于表示相邻连接AS商业之间的关系；IP距离特征用于表示两个IP节点之间的欧氏距离。

CAIDA的Macroscopic Internet Topology Data Kit(ITDK)包含从全球互联网收集到的大量有关连接和路由的数据。目前，该数据集中包括两个相关的IPv4路由器级拓扑、一个IPv6路由器级拓扑、路由器到AS的分配关系、每个路由器的地理位置以及所有观察到的IP地址的DNS查询结果。为了避免将主机误认为是路由器，本案实施例中，当从traceroute路径中提取IP地址进行别名解析时，只包括在一些traceroute路径中作为中间跳出现的地址，即忽略目标地址。CAIDA部署并维护一个服务于网络研究界的全球分布式测量平台Archipelago(Ark)。在团队探测中，一组Ark节点以团队的形式共同进行大规模的互联网拓扑测量，使用测量工具scamper来执行traceroutes。对于IP-to-AS映射，可使用CAIDA收集的从RouteViews数据导出的Prefix-to-AS映射数据集；使用Team Cymru的IP2AS映射工具来补充上述数据；对于仍未被映射的前缀，使用来自五个区域互联网注册机构(RIRs)的公开信息来匹配IP前缀和AS。IXP前缀需要特别考虑，CAIDA的IXP数据是结合PeeringDB、Hurricane Electric、Packet Clearing House(PCH)、Wikipedia、BGP LookingGlass和GeoNames的信息生成的，可使用该数据构建一个IXP前缀列表。为便于进行对等连接，IXP可以提供BGP路由服务器，在IXP的成员AS之间建立多边对等连接，路由服务器有自己的AS号(ASN)，可从PeeringDB中提取类型为‘路由服务器’的网络的ASN，收集路由服务器ASN列表；此外，可将Euro-IX中的路由服务器ASNs也添加到该列表中。可使用ProbLink推断的AS关系数据集，该数据集为每个AS连接标注了对等(p2p)、客户-提供商(c2p)或兄弟(s2s)关系标签；CAIDA的AS关系数据集被用于补充上述数据集。本案实施例中，利用扇形特征、AS商业关系特征和IP距离特征将所有的IP连接分为域间连接和域内连接两个类型。参见图1所示，IP连接概率分类算法将IP连接的类型视为概率模型中的隐变量，通过利用连接特征为推断连接类型提供有用的信息。概率模型中的参数为不同类型的连接具有特定特征的概率。接下来，可使用期望最大化(Expectation-Maximization)算法估计模型的参数。具体来说，先计算不同连接类型对每个特征的条件概率分布，然后利用朴素贝叶斯分类器更新每个连接的类型，并根据新的概率值重新计算特征分布。重复上述两个步骤直到收敛。

一般情况下，经过一个AS中不同路由器的多条探测路径将汇聚到边界路由器，并穿越域间连接进入邻居AS。同样，穿越域间连接到达一个AS的多个探测数据包将被分散转发到该AS内部的不同路由器。因此，对于域间连接来说，它可能会比域内连接具有更多的发生AS切换的前向或后向连接(如图3所示)。扇形特征旨在分析在给定连接类型的情况下，连接的前向连接(扇入特征)和后向连接(扇出特征)发生AS切换的可能性。例如，一条traceroute路径可表示为p＝IP₁，IP₂，...，IP_n，即一个IP地址序列，其中n≥2。P＝{p₁，p₂，...，p_n}表示所有路径集合。一条路径中包含若干IP连接<IP_i，IP_i+1>，其中1≤i≤n-1。对于一个IP连接<IP_i，IP_i+1>，发生AS切换表示IAS(IP_i)≠IAS(IP_i+1)，其中IAS(IP_i)表示IPi被映射到的AS号。对于每一个IP连接<IP_i，IP_i+1>，遍历所有路径，统计该连接出现的所有路径中其前向连接<IP_i-1，IP_i>(后向连接<IP_i+1，IP_i+2>)发生AS切换的数量，作为该连接的扇入特征(扇出特征)。

连接类型还与AS之间的商业关系有关。在不考虑复杂的混合关系的情况下，AS之间的关系可以分为客户-提供商关系(c2p)、对等关系(p2p)和兄弟关系(s2s)三种类型。进一步地，本发明实施例中，使用REL(<IP_i，IP_i+1>)来表示IAS(IP_i)和IAS(IP_i+1)之间的AS关系，<IP_i，IP_i+1>表示IP_i节点和IP_i+1节点之间的连接；如果IAS(IP_i)＝IAS(IP_i+1)，用标签same来标注IP连接<IP_i，IP_i+1>。局域网中使用的IP地址单独映射到ASN-1，IXP前缀映射到小于-1并与其PeeringDB的IXP ID相关联的ASN，以区别于映射到正常ASN的IP。还有一些IP地址没有AS映射结果。对于涉及到上述IP地址的AS关系也用相应的标签表示。进一步地，对于IP连接<IP_i，IP_i+1>，它的前向AS关系特征是集合{(REL(<IP_i-1，IP_i>)，REL(<IP_i，IP_i+1>))}。其中元组(REL(<IP_i-1，IP_i>)，REL(<IP_i，IP_i+1>))表示路径p中IP连接<IP_i，IP_i+1>与其前向连接<IP_i-1，IP_i>之间的AS关系。在遍历所有路径P后，得到前向AS关系集合。类似地，还可以得到IP连接<IP_i，IP_i+1>的后向AS关系特征{(REL(<IP_i，IP_i+1>)，REL(<IP_i+1，IP_i+2>))}。

在互联网实践中，当两个AS通过点对点链路相互连接时，连接的IP子网(在IPv4中通常为/30或/31)通常来自两个AS之一的地址空间。值得注意的是，在p2c关系中，一般由提供商提供连接所用的地址空间。此外，当在traceroute探测中经过p2c连接时，客户的路由器通常使用属于提供商的IP地址来响应探测。可用一条traceroute路径IPa(R1，AS1)→IPb(R2，AS1)→IPc(R3，AS2)为例，其中IPx(Ri，ASj)表示路由器Ri上的IPx被映射到ASj，如图4所示。在本例中，AS1是AS2的提供商，且为它们之间的IP连接提供了地址空间，即域间连接实际上是<IPa，IPb>，而不是发生了AS切换的<IPb，IPc>。因此，对于一个IP连接<IP_i，IP_i+1>，如果(same，p2c)包含在其前向AS关系特征中，它可能是一个域间连接。此外，如果(same，same)在一个连接的前向和后向AS关系特征中都存在，则该连接很可能是域内连接。

IP(v4)地址是一个32位的二进制数，通常被分割为4个字节。IP距离特征用于表示与域内连接相比，域间连接两端的两个IP之间通常具有更大的欧式距离。因此，对于每一个IP连接<IP_i，IP_i+1>，将IP_i和IP_i+1用向量表示，得到IP_i＝[x₁，x₂，x₃，x₄]和IP_i+1＝[y₁，y₂，y₃，y₄]，其中x_j和y_j分别表示IP_i和IP_i+1的第j个字节。计算IP_i和IP_i+1之间的欧氏距离作为IP连接<IP_i，IP_i+1>的IP距离特征，具体计算公式可表示如公式(1)所示：

本案发明实施例中对涉及路由服务器的路径进行预处理。如果一个IXP使用路由服务器与其每个客户交换可达性信息，在互联网的最佳实践中，路由服务器更新对于AS路径应该是透明的，因为路由服务器本身不转发流量，因此不是路由器。然而，出于调试的原因，一些IXP成员会在BGP路径中附加路由服务器的ASN。通过IP-to-AS映射将IP级的traceroute路径转换为AS级路径后，我们将ASN属于路由服务器ASN列表的IP地址从traceroute路径中删除。举例来说，对于traceroute路径IPa(AS1)→IPb(AS1)→IPc(AS2)→IPd(AS3)→IPe(AS3)，其中IPx(ASi)表示IPx被映射到了ASi，如果AS2出现在路由服务器ASN列表中，则从traceroute路径中删除IPc。

概率模型需要初始参数。在运行IP连接分类算法之前，先利用ITDK数据集中的路由器到AS映射的结果来标记每个IP连接的初始类型。具体来说，如果路由器级连接两端的路由器所属的AS不同，则该路由器级连接是域间连接；否则为域内连接。对于IP连接而言，其连接类型与其对应的路由器级连接相同。因此，每个连接都有一个初始的类型，继而每种类型都有一个确定的初始概率。将具有初始类型和特征向量的IP连接作为IP连接概率分类算法的输入。可利用下面伪代码来进一步介绍该算法的实现。

算法中，对于特征向量中的每个特征，分别计算两种连接类型的条件概率。为了解决零概率的问题，可采用拉普拉斯(Add-1)平滑。然后，通过计算初始时两种连接类型的比例，计算出连接类型的先验概率，再将每个连接类型的先验概率乘以所有特征的条件概率。最后，将连接类型更新为两种连接类型中概率较大的那个。反复进行连接类型推理和更新特征的条件概率分布这两个过程直到收敛，即当前迭代和前一轮迭代之间连接类型改变的数量减小到一个阈值。

进一步地，基于上述的方法，本发明实施例还提供一种基于IP连接概率分类的路由器所有权探测系统，包含：数据预处理模块、模型构建模块、模型收敛模块和所属确定模块，其中，

为验证本发明有效性，下面结合算法性能分析及实验数据做进一步解释说明：

1)算法可行性分析

IP连接可被分为域间连接和域内连接两种类型。每一类连接具有一些外在表现出来的特征可以被观察到，而不同类别的连接出现特定特征的概率是不一样的。在traceroute探测得到的IP级拓扑中，IP连接的类型无法得知，但可以根据领域知识设计合适的特征用于区分域间连接和域内连接。由于IP连接类型的未知性与特征所表现出的不同概率性，IP连接分类问题可以被建模为以IP连接类型为隐变量，以不同连接类型出现某种特征的概率为参数的概率模型。只有对模型的参数做出准确预测后，才能知道每个连接所属的类型。EM算法适用于具有隐变量的概率模型的参数估计。因此，在本案实施例中的算法，由于隐变量(IP连接的类型)的存在，可以使用EM算法对参数进行迭代的估计。在EM算法的每次迭代中，可使用朴素贝叶斯分类技术。EM可以收敛并给出一组稳定的参数供朴素贝叶斯使用。此外，朴素贝叶斯是一种参数技术，即使在用于预测的特征之间存在相关性的情况下也能很好地工作。因此，使用朴素贝叶斯作为分类技术是可行的。

2)IP连接分类结果的准确性分析

在traceroute路径中，如果路径中的IP地址IP_i属于一个路由服务器ASN，则认为IP连接<IP_i-1，IP_i+1>为域间连接。另外，在由第二层交换机设备组成的IXP中，IXP的成员AS在其连接到IXP交换机的路由器接口上使用IXP分配的IP地址，如图5所示。因此，如果在一条traceroute路径中存在一个属于IXP前缀的IP地址IP_i，那么这个IP与其前一跳IP之间的连接，即<IP_i-1，IP_i>，可以认为是域间连接。结合上述两类情况，可以生成一个包含一些域间连接的验证集。执行完IP连接概率分类算法后，在域间连接验证集上对IP连接分类的准确性进行验证。验证集中的IP连接数目和其分类准确率如表1所示。

表1：域间连接验证集中的IP连接数目和其分类准确率

可以发现，IP连接分类结果的准确性较高，在后续路由器到AS映射过程中，路由器之间的连接类型可以为路由器所有权的推断提供更多的拓扑约束，有助于准确推断路由器所有权。

一个路由器可能有很多接口，一个路由器级连接可能有很多对应的IP连接。对于一个路由器级连接，如果其对应的IP连接中有一个是域间连接，我们认为该路由器级连接是域间连接。对于上述域间连接验证集中的IP连接，如果分类算法将其分类为域内连接，我们将其修正为域间连接。为所有的路由器级连接分配一个类型标签后，在路由器级拓扑图中，路由器被域间连接划分到不同的AS，如图6所示。在路由器到AS的映射中，对于一个路由器，把与它以域内连接相连的邻居路由器称为域内邻居，而以域间连接相连的邻居路由器称为域间邻居。对于一个给定的路由器R，首先找到它的域内邻居。对于域内邻居，选择其中没有域间邻居的路由器，并继续查找它们的域内邻居。我们重复这个过程，直到没有符合上述要求的路由器。所有的域内邻居都会被添加到给定路由器R的域内路由器集S_R中。令IPS(R)表示R上的所有IP接口的集合。为R生成一个候选AS列表NCL(R)，包含S_R内所有路由器的全部IP所属的AS，即NCL(R)＝{IAS(IP_i)|IP_i∈IPS(R)，R∈S_R}，其中AS号可重复。令DSI(IP_i)表示包含IP_i的所有traceroute路径的目标IP的集合。DSR(R)＝{DSI(IP_i)∩...∩DSI(IP_i)∩...∩DSI(IP_n)}，其中IP_i∈IPS(R)，表示路由器R上所有IP的目标IP集合的交集。为R生成另一个候选AS列表DCL(R)，包含DSR(R)中所有IP的所属AS，即NCL(R)＝{IAS(IP_i)|IP_i∈DSR(R)}，其中AS号可重复。在列表NCL(R)和DCL(R)中分别进行投票，选出出现次数最多的AS(出现平局时随机选择一个AS)。当一个AS同时是两个列表中出现次数最多的AS，可将路由器R分配给该AS。

实验设置：

Traceroute数据集共包含295,408,669条路径。首先，删除只有一个IP地址的路径和有IP循环的路径。此外，为便于验证，只保留包含验证集中IP的路径。最终的数据集共包含83,535,312条traceroute路径，共有1,587,692个IP地址，其中1,442,049个IP可以映射到ITDK中对应的路由器节点。对于没有路由器节点的IP，该IP本身被视为一个路由器。

验证数据集：PeeringDB验证集，PeeringDB是一个公开的网络数据库，为全球互联互通提供了便利。在这个数据库中，可以找到IXP运营商分配的IP地址的真实成员ASN；PeeringDB验证数据集总共覆盖了traceroute数据中的16864个IP地址。TeliaSonera验证集，通过分析DNS主机名，可以获得接口信息，这些信息可以帮助确定接口及其对应的路由器的许多方面(类型、位置等)；因此，基于ITDK中的DNS主机名数据来生成验证集；具体来说，可选择与TeliaSonera(AS1299)相关联的路径中的接口来手动生成验证数据集，选择此AS的原因是其AS间连接的DNS主机名往往包含与其互连的AS的名称。一个例子是接口62.115.38.194，其主机名为voxility-ic-304818-ldn-b1.c.telia.net。在IP-to-AS映射中，它被映射到了AS1299，但实际上，它的路由器属于AS3223，其AS名是VOXILITY,GB。所以可以找到含有‘-ic’字符串的主机名，并将‘-ic’前的字符串与所有可能连接到TeliaSonera的AS的名称进行匹配，从而确定该接口的路由器所属的AS。另一方面，对于没有上述字符的主机名，比如snn-sec1-link.se.telia.net，可认为这些接口以及它们的路由器都在TeliaSonera内。无法对每个主机名进行解析，因为有些主机名没有提示信息或者包含有歧义的信息。最终，验证数据集共包含2767个IP地址，其中1153个在TeliaSonera内，1614个在与其连接的其他AS中；该数据集可以作为近似准确的验证集。

对比方法：选取当前最好的路由器所有权推断算法bdrmapIT作为对比方法。BdrmapIT可以在整个互联网范围内实现对路由器所有权的推断。它分为三个阶段：第一阶段在通过traceroute探测得到的IP级拓扑上进行别名解析，建立路由器级的有向拓扑图。第二阶段利用traceroute路径的目标IP的源AS推断仅在路径末尾出现的路由器的所有权。此阶段为第三阶段中其他路由器的映射提供拓扑约束。第三阶段将至少在一条路径中作为中间跳出现的路由器映射到其所属的AS。该阶段通过迭代进行不断的优化。

评价指标：对于一个路由器而言，正确的推断是将其映射到其所属的AS。相反，如果一个路由器被分配给一个与其所属AS不同的AS，则该推断结果是不正确的。本实验中的评价指标为准确率，即推断正确的路由器所占的比例，其计算公式如公式(2)所示。

在路由器到AS的映射中进行投票时，如果出现平局，可在票数最多的AS中随机选择了一个AS。因此，本实验旨在考虑随机选择策略对路由器所有权推断结果准确性的影响。通过重复运行十次程序，结果如表2和表3所示。图7表明，在两个验证集上，结果的准确率分别稳定在96.4％和97.8％左右。本实验表明，随机选择策略对路由器所有权推断结果集中包含的路由器数量略有影响，但对其准确性基本无影响。

表2：十次重复实验在PeeringDB验证集上的结果

表3：十次重复实验在TeliaSonera验证集上的结果

将本案中方案与bdrmapIT的准确率进行对比。CAIDA的ITDK数据集中的路由器到AS的分配结果是由bdrmapIT推断出的，可直接使用，其在两个验证数据集上的准确率分别如表4和表5所示。验证结果表明，对于本案方案推断的路由器，可以达到比bdrmapIT更高的准确率。

表4：PeeringDB验证结果

表5：TeliaSonera验证结果

并通过研究不同的别名解析方法对本案方案的准确性的影响。ITDK数据集包含两个路由器级拓扑，由同一个IP级拓扑使用不同的别名解析技术生成。第一个拓扑使用MIDAR和iffinder进行别名解析，第二个拓扑除了MIDAR和iffinder之外，还使用kapar。两种拓扑结构在准确性和完整性上有所不同。前者置信度高，解析别名中的假阳性少，后者丰富了别名，但存在更多的误报。

上述实验中的结果只使用了midar和iffinder技术来解决别名问题。为了确定精度较低但别名较丰富的别名对实验结果的影响，通过使用ITDK中的第二种拓扑进行实验，结果如表6和表7所示。在使用kapar进行别名解析后，bdrmapIT和本案方案得到的结果在两个验证集上的准确率都有所下降。但是，本案方案得到的准确率仍然高于bdrmapIT。

表6：使用kapar后的PeeringDB验证结果

表7：使用kapar后的TeliaSonera验证结果

对bdrmapIT错误结果的修正分析：在peeringDB验证结果中，本案方案可以正确推断294个被bdrmapIT推断错误的路由器，以及40个bdrmapIT无法推断的路由器。在294个被错误推断的路由器中，有4个是在bdrmapIT的第二阶段‘last_hop’中推断出来的，290个是在第三阶段‘refinement’中推断得到的。在TeliaSonera的验证结果中，本案方案可以修正39个被bdrmapIT分配到错误ASN的路由器，其中4个在‘last_hop’阶段被推断，35个在‘refinement’阶段被推断。

对于在‘last_hop’阶段被错误推断的路由器，由于它们只出现在traceroute路径的最后一跳，bdrmapIT除了目标AS集合外，没有其他可用于所有权推断的拓扑约束，可能导致对此类路由器的一些误判。本案方案利用路由器的域内路由器集和traceroute目标地址共同构建候选AS列表并进行投票，加入了额外的拓扑约束，可以更准确地推断出上述路由器的所属AS。

在阶段‘refinement’中，可能有以下几个原因导致推断出的路由器所属AS不正确。首先，bdrmapIT在对路由器的后继接口进行统计时，无法考虑连接的类型，导致域间邻居路由器可能成为推断中的干扰因素，即如果域间邻居的数量大于域内邻居的数量，可能会产生错误的推断。本案方案对IP连接进行了分类，减少了投票时的干扰因素。其次，经验的失效也可能会导致错误。例如，当路由器在traceroute路径中的后续接口是IXP公共对等地址时，bdrmapIT通常会根据传统的假设选择具有最大客户锥的候选AS，而忽略了违反valley-free特性的情况，从而导致错误推断的存在。本案方案可以利用数据本身的特征，而不是仅仅依靠主观的经验判断，在一定程度上改善了此类误判。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的系统，本发明实施例还提供一种服务器，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的系统。

基于上述的系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的系统。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述系统实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和系统，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于IP连接概率分类的路由器所有权探测方法，其特征在于，包含如下内容：

将IP连接分为域内连接和域间连接，以IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；

2.根据权利要求1所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，连接特征向量包含：扇形特征、AS商业关系特征和IP距离特征，其中，扇形特征用于表示前向连接和后向连接发生AS切换的可能性；AS商业关系特征用于表示相邻连接AS商业的关系；IP距离特征用于表示两个IP节点之间的欧氏距离。

3.根据权利要求2所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，使用REL(<IP_i，IP_i+1>)来表示IAS(IP_i)和IAS(IP_i+1)之间的AS关系，IAS(IP_i)表示IPi被映射到的AS号，<IP_i，IP_i+1>表示IP_i节点和IP_i+1节点之间的连接；如果IAS(IP_i)＝IAS(IP_i+1)，用标签same来标注IP连接<IP_i，IP_i+1>。

4.根据权利要求3所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，对于IP连接<IP_i，IP_i+1>，AS商业关系特征包含IP连接的前向AS关系特征和后向AS关系特征，其中，前向AS关系特征为{(REL(<IP_i-1，IP_i>)，REL(<IP_i，IP_i+1>))}，IP连接<IP_i，IP_i+1>的后向AS关系特征为{(REL(<IP_i，IP_i+1>)，REL(<IP_i+1，IP_i+2>))}。

5.根据权利要求4所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，对于一个IP连接<IP_i，IP_i+1>，如果(same，p2c)包含在其前向AS关系特征中，则增加对应域间连接的IP连接概率；如果(same，same)在一个连接的前向和后向AS关系特征中都存在，则增加对应域内连接的IP连接概率，其中，p2c表示AS关系特征中的提供商-客户关系。

6.根据权利要求1所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，标记每个IP连接初始类型中，如果路由器级或IP连接两端的路由器或IP所属AS不同，则将该路由器级或IP连接标记为域间连接，否则，标记为域内连接。

7.根据权利要求1所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，针对连接特征向量中每个特征，首先采用拉普拉斯平滑处理，然后计算域内连接和域间连接两种类型的条件概率。

8.根据权利要求7所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，依据连接类型条件概率计算连接类型的先验概率，将先验概率乘以所有连接特征的条件概率，将连接类型更新为较大概率的连接类型，反复迭代，直至达到收敛条件。

9.根据权利要求1或8所述的基于IP连接概率分类的路由器所有权探测方法，其特征在于，所述收敛条件为当前迭代和前一轮迭代之间连接类型改变数量减小到设定阈值。

10.一种基于IP连接概率分类的路由器所有权探测系统，其特征在于，包含：数据预处理模块、模型构建模块、模型收敛模块和所属确定模块，其中，

模型构建模块，用于将IP连接分为域内连接和域间连接，以IP连接类型作为概率模型隐变量，不同连接类型出现连接特征的概率作为概率模型参数；利用数据集中路由器到AS映射来标记在路由器级拓扑中每个IP连接初始类型；