CN110430133B

CN110430133B - 一种基于置信区间的域间路径标识前缀获取方法

Info

Publication number: CN110430133B
Application number: CN201910679128.8A
Authority: CN
Inventors: 罗洪斌; 张珊; 颜飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-05-23
Filing date: 2019-07-25
Publication date: 2020-06-26
Anticipated expiration: 2039-07-25
Also published as: CN110430133A

Abstract

本发明公开了一种基于置信区间的域间路径标识前缀获取方法，该方法能够利用请求包中所携带的域间路径标识信息，通过将任一域间路径标识与除自身之外的域间路径标识集进行两两比较得到最长公共前缀长度，并统计最长公共前缀频次，形成域间路径标识前缀频次统计表；然后，对最长公共前缀长度所对应的频次值进行置信区间检验，判断统计次数是否落在置信区间内，若落在置信区间内，则获取该频次所对应的域间路径标识前缀长度、域间路径标识前缀和相应的域间路径。通过本发明方法可快速分析域间路径标识，准确获得域间路径标识前缀，并获得网络拓扑结构中各个前缀分组的域间路径标识信息。

Description

一种基于置信区间的域间路径标识前缀获取方法

技术领域

本发明涉及计算机网络技术领域，更具体的是，本发明涉及一种基于置信区间的域间路径标识前缀获取方法。

背景技术

当前互联网的发展对政治、经济、文化的影响越来越深刻，网络传输信息的安全需求已成为当今网络技术发展的热点。由于传统的TCP/IP基于“开放”、“默认联通”、“尽力而为”的理念设计，在TCP/IP架构下主流流量溯源方案，如包标记算法等，存在着存储计算开销大、需要部署额外的基础设施、可溯源规模受限等问题，难以在当前的互联网中进行大规模部署。并且，由于伪造源地址的问题在TCP/IP架构下很难得到彻底的解决，借助伪造源地址发起的分布式拒绝服务攻击DDoS(distributed denial of service)，极其难以防范，且常常带来巨大的经济损失。因此，国内外学者于近年来提出了若干新型网络体系结构。

“CoLoR架构”是一种基于路径标识的新型路由体系结构，其核心思想是边界路由器为每条域间路径分配一个域间路径标识前缀(Path Identifier,PID)，域间按域间路径标识前缀进行路由。“CoLoR架构”出处请参考“IEEE Network”2014年第3期第28卷《CoLoR:an information-centric internet architecture for innovations》罗洪斌，陈哲等人。

在CoLoR架构中，自治域(AS：Autonomous System)、域间路径(Path)、域间路径标识(PID：Path Identifier)和域间路径标识前缀(PX：PID-Prefix)等定义如下：

自治域：指一组处于相同的管理与技术控制下的路由器集合所在的同一个区域。

域间路径：两个自治域之间进行数据传输的通道。

域间路径标识：是一串二进制数字，如011011001101010101。一个域间路径标识可由前缀部分和非前缀部分构成；在具体应用中，其长度通常是固定的。

CoLoR架构为自治域间的每条域间路径分配一个域间路径标识前缀。分配的原则是：给定一个自治域，为该自治域与其它自治域之间的所有域间路径分配的域间路径标识前缀不同，且这些域间路径标识前缀互不相交(即：任意两个域间路径标识前缀间，没有相同的域间路径标识)。在CoLoR架构中，内容请求者向内容提供者发送请求消息。请求消息从一个自治域向另一个自治域经域间路径转发前，需要在该请求消息的尾部添加一个域间路径标识(PID)。

在CoLoR架构中，可将传输路径的域间路径标识信息嵌入到请求包中，自治域的管理者可通过收集数据包的路径标识信息分析自治域间路径，实现网络拓扑推测、网络攻击溯源、网络路径流量感知。其中，网络拓扑结构的推测是以域间路径标识前缀(PX)为依据进行分析的。因而，对域间标识前缀长度进行分析，进而获得域间路径标识前缀，便成了网络拓扑分析的首要任务。

发明内容

本发明解决的技术问题是：给定一个域间路径标识集合，从中推测出该集合中域间路径标识的前缀和前缀长度。本发明方法能够利用CoLoR架构中的请求包中所携带的域间路径标识(PID)信息，通过将任一域间路径标识与除自身之外的域间路径标识集进行两两比较得到最长公共前缀长度(Path Prefix Length,LPX)，统计最长公共前缀频次，利用置信区间对所统计的频次进行验证，并记录下落入置信区间内的频次所对应的域间路径标识前缀和域间路径标识。通过本发明方法能够对域间路径标识前缀进行前缀分组，并准确获得网络拓扑结构中各个前缀分组的域间路径、域间路径标识前缀及前缀的长度。

本发明的一种基于置信区间的域间路径标识前缀获取方法，其包括有下列步骤：

步骤一，获取域间路径标识集合；

步骤101，在CoLoR架构中，从请求包中提取出域间路径标识信息中的域间路径标识，得到域间路径标识集合S_analysis＝{PID₁,PID₂，…,PID_a-1,PID_a,PID_a+1,…,PID_A}；

步骤102，然后对域间路径标识集合S_analysis进行最小样本量判断，若所述S_analysis的样本量小于最小样本量，则结束分析；若所述S_analysis的样本量大于等于最小样本量，则执行步骤二；

步骤二，从所述域间路径标识集合中取出首个域间路径标识，然后将首个域间路径标识与所述域间路径标识集合中的其它域间路径标识进行两两比较，得到一系列最长公共前缀及最长公共前缀长度，并统计基于首个域间路径标识的最长公共前缀长度出现的频次；

步骤201：从所述S_analysis中选取出首个域间路径标识PID₁，将所述PID₁与所述S_analysis中的其它域间路径标识进行两两前缀比较，得到一系列最长公共前缀长度；最长公共前缀长度LPX的位置位，记为M；

步骤202：统计步骤201所获得的最长公共前缀长度的出现频次，形成域间路径标识前缀频次表；

步骤三，对基于首个域间路径标识的最长公共前缀长度所对应的频次值进行置信区间检验；

步骤301：从最长公共前缀频次统计信息中选取首个非零的最长公共前缀长度，以及其对应的频次值counter[M]；

步骤302：从步骤301所在的位置位向后查找到特征位置，记为

所述特征位置

满足公式(1)条件：

步骤303：统计步骤302所得的自位置位M至统计表最后位置位所对应的频次值之和，记为

步骤304：对统计结果

进行最小样本量阈值

判断；

若统计结果

小于最小样本量阈值

(即

)，则不满足最小样本量阈值

执行步骤302；

若统计结果

大于等于最小样本量阈值

(即

)，则满足最小样本量阈值

进行步骤305置信区间检验；

所述最小样本量阈值

是由公式(2)估计所得，

步骤305：对满足步骤304最小样本量阈值

判断的位置位M所对应的频次值进行置信区间检验；

所述置信区间如公式(3)所示：

步骤306：从步骤305的特征位置开始继续向后重复步骤302至步骤305，获得满足公式(1)的位置位，从而得到最长公共前缀长度；

步骤307：保存下基于PID₁的满足置信区间检验的前缀分组；所述前缀分组中有最长公共前缀频次数、该频次所对应的域间路径标识前缀长度、域间路径标识前缀和域间路径标识；执行步骤四；

步骤四，去除基于首个域间路径标识的前缀分组中的域间路径标识，得到第一组剩余域间路径标识集；执行步骤五；

去除基于PID₁的前缀分组中的域间路径标识PID，得到第一组剩余域间路径标识集合SS_analysis＝{PID₈,PID₁₂，…,PID_a-1,PID_a+1,…,PID_A}；

步骤五，判断第一组剩余域间路径标识集是否只有一个元素或者为空；

然后判断SS_analysis中是否有元素；

若只有一个元素或为空，则结束域间路径标识前缀获取，输出结果；

若SS_analysis中存在有元素，执行步骤六；

步骤六，对第一组剩余域间路径标识集执行步骤201至步骤三，得到属于第一组剩余域间路径标识集中首个域间路径标识的满足置信区间检验的前缀分组；

从所述SS_analysis＝{PID₈,PID₁₂，…,PID_a-1,PID_a+1,…,PID_A}中选取首个域间路径标识PID₈，重复执行步骤201至步骤三，得到属于PID₈的满足置信区间检验的前缀分组；执行步骤七；

步骤七，去除属于第一组剩余域间路径标识集中首个域间路径标识的前缀分组中的域间路径标识，得到第二组剩余域间路径标识集；

去除属于PID₈的前缀分组中的域间路径标识PID，得到第二组剩余域间路径标识集合SSS_analysis；执行步骤八；

步骤八，判断第二组剩余域间路径标识集是否只有一个元素或者为空；

然后判断SSS_analysis中是否有元素：

若SSS_analysis中存在有元素，执行步骤六至步骤七，直至剩余域间路径标识集中只有一个元素或为空。

本发明基于边缘节点请求信息特征的域间聚合路径分析方法的优点在于：

①本发明域间路径标识前缀获取方法，可推导得出域间路径标识前缀分析所需的最小样本量。

②本发明域间路径标识前缀获取方法，可在最小样本量的条件下，分析获取到域间路径标识前缀的长度。

③本发明域间路径标识前缀获取方法，利用所获取到的域间路径标识前缀，可对域间路径标识前缀进行分组，并记录各分组的域间路径标识前缀长度、域间路径标识前缀和域间路径标识。

④由于自治域通常不愿意公开其域间路径标识前缀，因而经本发明方法得到的域间路径及其域间路径标识前缀及前缀长度，能够用于推测域间网络拓扑结构，同时也能用作域间流量监测、攻击溯源等。

附图说明

图1是本发明基于置信区间的域间路径标识前缀获取方法流程图。

图2是域间路径标识集截图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

域间路径标识长度(Length,L)：指构成域间路径标识的二进制数字的个数。域间路径标识长度可为32、48、64、128位等任意数字。为了便于表述，后面假定域间路径标识长度为32位，并采用类似IPv4地址的点分十进制记法，如1.0.0.0。所述域间路径标识的二进制数中有前缀和非前缀位，如：一个长度为32为的域间路径标识由21位前缀和11位非前缀位构成，其结构如表1所示:

表1域间路径标识结构

域间路径标识前缀(PX)

非前缀

注：非前缀是依据“计算HASH的方法”所得的二进制数字串。

域间路径标识前缀(Path Prefix，PX)：指给定域间路径标识长度时，一块连续的域间路径标识，并且这些域间路径标识最左边的若干二进制数相同。例如，假定域间路径标识的长度为8位，则域间路径标识00001000、00001001、00001010、00001011的前6位二进制数相同。因此，000010为这四个域间路径标识的前缀，其长度为6。类似的，可以定义两个域间路径标识的前缀为：两个域间路径标识最左边相同的二进制部分，如00001000和00001001的前缀可以是：0、00、000、0000、00001、000010、0000100。其中长度值最大的前缀，称为最长前缀。因此，00001000和00001001的最长前缀是0000100，且唯一。最长前缀的二进制位数，称为最长前缀的长度(LPX:length of PX)。将域间路径标识前缀记为：PID/LPX，表示域间路径标识PID的最左边LPX二进制数为相应的域间路径标识前缀。例如，1.0.0.0/8表示前缀长度为8个二进制位；该前缀为1.0.0.0的最左边8个二进制位，即00000001。

在本发明中，最长公共前缀是指从多个公共前缀中取最长的公共前缀，所取最长的公共前缀的长度称为最长公共前缀长度(LPX)。

请求包：将内容请求者所要获取的服务内容(Service Identifier，SID)和自身节点身份标识(Node Identifier，NID)封装成数据包，该数据包称为请求包。需要说明的是，在CoLoR架构中，每经过一条域间链路，边界路由器会计算一个域间路径标识(PID)，并添加到请求包中。

表2域间路径标识前缀频次统计表：

相同的最长公共前缀长度(LPX)的位数
	频次总个数

在本发明中，域间路径标识前缀频次统计表是一个两行多列的表格。第一行记录了相同的最长公共前缀长度(LPX)的位数，第二行记录了具有相同的最长公共前缀长度(LPX)的位数出现次数。如，域间路径标识(PID)信息是32位的，则“域间路径标识前缀频次统计表”有33列。如，域间路径标识(PID)信息是16位的，则“域间路径标识前缀频次统计表”有17列。“出现次数”是指任意一域间路径标识与除自身之外的所有域间路径集对比得到的公共前缀长度位置位出现的频次次数。

在本发明中，所有域间路径标识PID采用集合形式表达为域间路径标识集合S_analysis＝{PID₁,PID₂，…,PID_a-1,PID_a,PID_a+1,…,PID_A}，PID₁表示域间路径标识集中第一个域间路径标识，PID₂表示域间路径标识集中第二个域间路径标识，PID_a表示域间路径标识集中第a个域间路径标识，下角标a表示域间路径标识的序号，PID_A表示域间路径标识集中最后一个域间路径标识，下角标A表示域间路径标识的总数。将S_analysis＝{PID₁，PID₂，…，PID_A}简称为域间路径标识集。为了方便说明，所述PID_a也表示域间路径标识集中的任意一个域间路径标识，位于所述PID_a之前的域间路径标识，记为PID_a-1，位于所述PID_a之后的域间路径标识，记为PID_a+1。

在本发明中，任意一个域间路径标识PID_A是一个二进制的数，可以是16位、32位、48位、128位。所述PID_A的二进制数中必须有域间路径标识前缀(PX)。

参见图1所示，本发明的一种基于置信区间的域间路径标识前缀获取方法，包括有下列步骤：

步骤一，获取域间路径标识集合；

步骤101，在CoLoR架构中，从请求包中提取出域间路径标识(PID)信息中的域间路径标识，得到域间路径标识集合S_analysis＝{PID₁,PID₂，…,PID_a-1,PID_a,PID_a+1,…,PID_A}。

在本发明中，域间路径标识(PID)信息如图2所示，图中是一条一条的数字信息。

在本发明中，最长公共前缀长度LPX的位置位，记为M。

步骤201：从所述S_analysis中选取出首个域间路径标识PID₁，将所述PID₁与所述S_analysis中的其它域间路径标识进行两两前缀比较，得到一系列最长公共前缀长度(LPX)；

如图2所示，PID₁与PID₂进行域间路径标识比较，得到PID₁与PID₂之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₃进行域间路径标识比较，得到PID₁与PID₃之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₄进行域间路径标识比较，得到PID₁与PID₄之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₅进行域间路径标识比较，得到PID₁与PID₅之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₆进行域间路径标识比较，得到PID₁与PID₆之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₇进行域间路径标识比较，得到PID₁与PID₇之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

如图2所示，PID₁与PID₈进行域间路径标识比较，得到PID₁与PID₈之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

PID₁与PID_a-1进行域间路径标识比较，得到PID₁与PID_a-1之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

PID₁与PID_a进行域间路径标识比较，得到PID₁与PID_a之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

PID₁与PID_a+1进行域间路径标识比较，得到PID₁与PID_a+1之间的最长公共前缀长度，记为

所述

的最长公共前缀长度的位置位记为

如

所述

的最长公共前缀长度的位置位记为

如

步骤202：统计步骤201所获得的最长公共前缀长度的出现频次，形成域间路径标识前缀频次表；执行步骤三；

例如，统计基于PID₁的最长公共前缀长度(LPX)相同的总个数，从而得到基于PID₁的域间路径标识前缀频次统计表，该频次统计用表3列示；

如图2所示的域间路径标识信息是32位的，则有基于PID₁的域间路径标识前缀频次统计表33列，即表3。

表3域间路径标识前缀频次表

步骤301：从最长公共前缀频次统计信息中选取首个非零的最长公共前缀长度(LPX)，以及其对应的频次值counter[M]；

如表3所示，从表中取出首个非零的最长公共前缀长度(LPX)为5，5所对应的频次值counter[M]为579。

步骤302：从步骤301所在的位置位向后查找到特征位置，记为

所述特征位置

满足公式(1)条件：

M表示最长公共前缀长度LPX的位置位。

i表示域间路径标识前缀频次统计表中的第一个任意位置位。

j表示域间路径标识前缀频次统计表中的第二个任意位置位。

p表示位于位置位i与位置位j之间的一个位置位。

q表示位于位置位j与位置位M之间的一个位置位。

counter[M]表示最长公共前缀长度(LPX)的位置位M所对应的频次数，简称为频次值。counter[i]表示属于位置位i的频次值。counter[j]表示属于位置位j的频次值。counter[p]表示属于位置位p的频次值。counter[q]表示属于位置位q的频次值。

在本发明中，counter[i]≠0是指位置位i所对应的频次值不为零；counter[M]≠0是指位置位M所对应的频次值不为零；

是指存在位置位j的取值介于位置位i和位置位M之间，数学符号

表示存在，数学符号“∈”表示属于；

是指位置位p的取值介于位置位i和位置位j之间，位置位q的取值介于位置位j和位置位M之间，数学符号

表示任意；counter[p]≠0∧counter[q]＝0是指位置位p所对应的频次值不为零，并且位置位q所对应的频次值为零，数学符号“∧”表示并且。

在本发明中，当位置位i和位置位M之间的位置位对应的频次数全0时，则位置位j和位置位p与位置位i重合。

如表3所示，从步骤301所在位置位5开始向后查找特征位置，发现位置位9满足特征位置

性质，则取该位置所对应的频次值为518，即

在表3中，所述频次值之和是指自位置位9开始至位置位32所对应的频次进行累加统计，即

步骤304：对统计结果

进行最小样本量阈值

判断；

若统计结果

小于最小样本量阈值

(即

)，则不满足最小样本量阈值

执行步骤302；

若统计结果

大于等于最小样本量阈值

(即

)，则满足最小样本量阈值

进行步骤305置信区间检验；

所述最小样本量阈值

是由公式(2)估计所得，

表示所要求的最小样本量。

E为允许的相对采样误差，本发明中E的取值为0.05。

π表示0或1在样本中的比例，在此该比例取值为0.5；π(1-π)为方差，表示抽样个体与整体均值之间的偏离程度，方差越大，表明抽样数值分布越大，所需样本量就越大。

为正态分布的

分为点；α代表置信度；在本发明中，求最小样本量

的置信度α为95％的置信区间，经查“附表1正态分布数值表”，可得μ_0.025＝1.96，则所述

的取值为384。“附表1正态分布数值表”出处请参见2015年6月第四版《数理统计》第64、288页，师义民，徐伟，秦超英，许勇编著。

依据步骤303可得，频次值之和1018>384，则满足最小样本量要求。

步骤305：对满足步骤304最小样本量阈值

判断的位置位M所对应的频次值进行置信区间检验；

所述置信区间如公式(3)所示：

ψ表示频次累计系数。在本发明中，ψ取值为0.5。

ξ表示置信区间调节系数。在本发明中，ξ取值为0.5。

依据步骤303所得频次值之和

可得置信区间为：[0.5×1018-0.5×1.96×31.91，0.5×1018+0.5×1.96×31.91]＝[477.73，540.27]；

当位置位为9时，特征位置对应的频次值

落在置信区间[477.73，540.27]内，可得最长公共前缀长度为9。

步骤306：从步骤305的特征位置开始继续向后重复步骤302至步骤305，获得满足公式(1)的位置位，从而得到最长公共前缀长度(LPX)；

例如，依据表3和步骤302至步骤305可得，位置位为16时满足公式(1)，并取得该特征位置所对应的频次值为

依据步骤303所得频次值之和

依据公式(3)可得置信区间为：[228.57，272.43]，因此位置位16时，相应的频次值为

落在置信区间[228.57，272.43]内，可得最长公共前缀长度为16。

PID₈表示域间路径标识集中第八个域间路径标识。

PID₁₂表示域间路径标识集中第十二个域间路径标识。

然后判断SS_analysis中是否有元素；

若SS_analysis中存在有元素，执行步骤六。

然后判断SSS_analysis中是否有元素：

本发明是一种基于置信区间的域间路径标识前缀获取方法，利用CoLoR架构中的请求包中所携带的PID信息，通过将任一域间路径标识与除自身之外的域间路径标识集进行两两比较得到最长公共前缀长度，统计最长公共前缀频次，利用置信区间对所统计的频次进行验证，并记录下落入置信区间内的频次所对应的域间路径标识前缀和域间路径标识。通过本发明设计的域间路径标识前缀获取方法能够对域间路径标识前缀进行分组，并获得各分组的域间路径、域间路径标识前缀。

Claims

1.一种基于置信区间的域间路径标识前缀获取方法，其特征在于域间路径标识前缀获取有下列步骤：

步骤一，获取域间路径标识集合；

步骤101，在CoLoR架构中，从请求包中提取出域间路径标识信息中的域间路径标识，得到域间路径标识集合S_analysis＝{PID₁,PID₂，…,PID_a-1,PID_a,PID_a+1,…,PID_A}；PID₁表示域间路径标识集中第一个域间路径标识，PID₂表示域间路径标识集中第二个域间路径标识，PID_a表示域间路径标识集中第a个域间路径标识，下角标a表示域间路径标识的序号，PID_A表示域间路径标识集中最后一个域间路径标识，下角标A表示域间路径标识的总数；位于所述PID_a之前的域间路径标识，记为PID_a-1，位于所述PID_a之后的域间路径标识，记为PID_a+1；