CN102299897A

CN102299897A - 基于特征关联的对等网络特征分析方法

Info

Publication number: CN102299897A
Application number: CN2010102072010A
Authority: CN
Inventors: 秦志光; 张凤荔; 王勇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2010-06-23
Filing date: 2010-06-23
Publication date: 2011-12-28

Abstract

本发明公开了一种对等网络(Peer-to-Peer networking，P2P)特征分析方法。该方法从结构特征、流量特征、以及用户行为特征等多个层次对对等网络进行监测，通过在线实时数据流特征分析和离线信息内容深入挖掘等技术，实现对等网络特性指标的获取与网络态势的感知，从而为对等网络安全预警，事件应急响应等方面的研究提供基本的支撑平台和技术保障。

Description

基于特征关联的对等网络特征分析方法

技术领域

本发明涉及网络信息安全领域，具体涉及一种对等网络(Peer-to-Peer networking，P2P)特征分析方法。

背景技术

目前，对等网络应用在Internet网络上的广泛流行，已成为互联网主流应用技术。对对等网络特征的测量、提取与分析，能够有效指导新型P2P协议的设计与实现，并能够对于规模互联网络安全事件的检测与预警提供可靠的数据保障。对等网络系统具有大规模复杂性、强动态性、以及时空演进特性等特征。而从目前技术发展状况来看，绝大部分研究均局限于某个或某部分较为单一的网络特征的测量与分析，且测量与分析方法还存在较大的局限性。然而，大量研究表明，单纯将一部分特征割裂开来，进行单一角度、单一层次的检测分析，而不是从宏观上把握整个网络的特征，从中得到的结论往往不够全面准确，致使难以很好反映对等网络系统的真实状态，甚至出现特征偏差。此外，随着研究的不断深入，一些新的网络特征也不断被提出来。这要求我们必须从网络的时空静态、动态特征，宏观、微观行为特征，以及用户偏好特征等多个方面进行分析，通过关联各层次特征，找到这些特征的相互内在联系，发现对等网络系统的潜在隐藏特征。

发明内容

为了克服现有方式方法测量手段单一、测量数据片面的问题，在分析归类当前主流对等网络的基础上，研究具备人工智能与自主学习能力的对等网络特征挖掘技术，建立对等网络主被动测量相结合的监测体系，从对等网络结构、消息流量、用户行为等多个层次，综合发现对等网络的新特征、隐藏特征，通过对对等网络监测结果时间、空间特征的跟踪分析，建立对等网络在上述各个特征层面上的演进规律模型，并探索对等网络应用综合特征分析算法，实现了多层次、多特征的监测和分析。

本发明主要解决了两个问题：

(1)建立了对等网络环境下性能参数测量体系，准确提取对等网络的多个重要特性，从结构特征、流量特征、以及用户行为特征等多个层次对对等网络性能指标进行监测；

(2)通过数据挖掘、机器学习等技术，建立了对等网络质量评价分析模型，实现了对等网络特征与特性的准确把握，从而为对等网络大规模安全事件应急响应提供基本的数据保障。

本发明具有以下特点：

(1)测量算法具有高效性和实时性，能实时监测当前对等网络的性能指标；

(2)具有自主学习能力，减少了人工干预；

(3)弥补了传统的基于单一特征的测量分析方法缺点，使得测量分析结论更可靠；

(4)具备数据挖掘能力，能够发现对等网络隐藏特征。

附图说明

图1为整体框架流程图；

图2为基本网络特征示意图；

图3为网络重绘示意图；

图4为复杂网络特征示意图。

具体实施方式

本发明整体框架流程如下：

一、对网络特征参数进行测量与统计。

一般而言，对等网络抽象协议可描述如下：

1.加入对等网络。节点v连接D个缓存点，缓存节点的选择可以采用随机选择策略或其它更为复杂的选择策略。

2.邻居重连。当节点v的邻居离开网络后，节点v将选择新的缓存节点作为其邻居，缓存节点的选择策略可以是随机选择或更为复杂的策略。

3.缓存节点替换。当缓存节点v的邻居数超过C，或者离开对等网络，需要选择其它节点(非缓存节点)作为新的补充。设vk是缓存节点集合中第k个节点，则选择的基本策略是：

k＝0；

while(没有找到一个非缓存节点){

在节点v_k的邻居中寻找一个非缓存节点；

k++；}

4.邻居信息报告。当节点v收到邻居信息请求消息时，v将自己当时所有邻居的地址信息，以及自己的相关信息一同发送给请求者。

而对等网络主动测量过程可以描述为：

1.预先收集对等网络入口节点(缓存节点)的地址信息，将其保存到队列Q中。其中，队列Q中的元素是唯一的。

2.从队列Q中每次取出m个未访问的节点，获取这些节点的信息以及其k个邻居地址信息。

3.将k个邻居节点地址信息保存到队列尾部，保存m个节点的邻居关系。

4.重复第2步，直到访问完队列Q中的所有节点或访问了网络中ε比例的节点。采用多点并行分布式测量策略，以及，提高了测量速度，减少了测量误差。

由于对等网络大规模、强动态的特性，本方法采用多点并行分布式测量策略来增大测量系统的获取速度。同时，由于网络具有异构混合(disassortative mixing)特性——网络中大度节点偏好与低度节点建立邻居关系——本方法优先选择大度节点访问能获得更多的节点信息，以减小产生访问回路的概率。对于规则网络和正态简单随机网络，本策略不会影响测量速度；而且，对于幂律网络和具有混杂特征(mixing pattern)的随机网络，这一策略显然更具优势。

现有的研究结论表明，节点随机加入、离开网络。节点随机加入对等网络的统计行为服从参数为λ的泊松分布(Possion distribution)；而节点的在线时间服从参数为μ的指数分布(Exponential distribution)。

令G_t＝(V_t，E_t)是时刻t的网络拓扑，节点加入网络的泊松分布参数λ，节点在线时间的指数分布参数为μ；令N＝λ/μ。得到：

1.对于任意时刻t＝Ω(N)，|V_t|＝Θ(N)；当t/N→∞时，满足：

P(|V_t|＝N±o(N))＝1-N^-Ω(1)；

2.存在一个常数c，对于给定的任意时刻t＞clogN，对等网络图G_t满足概率关系：

Pr(G_t是连通的)≥1-O(log₂N/N)。

上述两个结论说明根据抽象协议描述的对等网络，经过一段时间后，该网络的节点数量是相对稳定的，同时网络是连通的。

定义完整性指数、形变指数和稳定性指数作为衡量系统框架和策略中测量结果数据的指标：

5.设N_max，E_max分别表示网络中节点和边的总数，n，e为测量系统当前获取节点、边的数量，定义拓扑数据完整性指数ε＝(n/N_max+e/E_max)/2，作为测量系统在某一时刻获取的拓扑数据占网络总体的比例。根据实验结果，我们选择测量系统运行30分钟时获取的节点和边的总数作为N_max和E_max。

6.同时做两次反向爬行(Back-to-Back Crawling)，获取拓扑图G₀＝{V₀，E₀}，G₁＝{V₁，E₁}。定义G₀，G₁的点差异集合V_d＝{v|v∈(V₀ xor V₁)}，边差异集合E_d＝{e|e∈(E₀ xor E₁)}。

设δ_e为集合E_d中元素个数，δ_v为V_d中元素个数，N，E分别为G₀，G₁节点数和边数的均值。定义拓扑数据形变指数δ＝(δ_e/E+δ_v/N)/2，以反映拓扑图微观结构变化情况。δ越小，说明测量系统越准确。δ值与每次访问的节点数m、这m个节点的平均度数d，以及运行时间T等密切相关，通过增加m和d可以在短时间内获得较小形变的网络拓扑图。

7.设x，y分别为G₀，G₁节点度排名前K的节点分布序列，则拓扑数据稳定性指数S定义为：

S = | \frac{KΣxy - ΣxΣy}{\sqrt{[KΣ x^{2} - {(Σx)}^{2}] [KΣ y^{2} - {(Σy)}^{2}]}} |

S衡量连续两次快照拓扑图G₀，G₁节点度分布序列的相似程度，从而比较拓扑图在宏观结构上的一致性。S越大，说明测量系统获取的拓扑图越稳定，数据越可靠。

二、建立拓扑特征选择模型。

它包含一个基本拓扑特征参数有限集、一个复杂拓扑特征集合、以及相应的分析方法。基本拓扑特征参数集合Φ中的元素

(d＝0，1，...D)描述了网络的特定拓扑特征，也代表了具有(d＝0，1，...D)特征的网络图集合，

(d＝0，1，...D)满足如下一些约束：

1.可生成性。通过构造特定的网络拓扑生成算法，能够生成具有相同(或相似)

(d＝0，1，...D)的“人造”网络图；

2.包容性。拓扑特征参数集合中，元素

包含元素

(d＝0，1，...d-1)所描述的所有拓扑特征。也就是说，具有

拓扑特征的网络图，必然同时具有

(d＝0，1，...d-1)的拓扑特征；

3.收敛性。模型中的拓扑特征参数集合是有限的，即：在集合中，存在正整数n，元素

描述的所有拓扑图是同构的。

集合Φ中，定义

是网络的平均度数<k>，它描述了每个节点的平均连接数。

是对网络图拓扑特征的描述相对粗糙，不能反映网络中节点度分布特征，于是定义

为网络图的度分布特征P(k)。类似的，

描述了度为k的节点在网络中的数量，但是没有反映节点间的相互连接特征，也就是说，

没有提供度为k和k’的节点之间连接关系这一信息，于是定文

为联合度分布特征P(k₁，k₂)。

和

满足可生成性约束条件。通过连边重画算法(link rewriting algorithm)可以容易地重现这些拓扑特征(<k>、P(k)和P(k₁，k₂))；此外，给定网络图的联合度分布特征P(k₁，k₂)，可以很容易得到相应的度分布特征，即P(k)＝<k>∑_k’P(k，k’)/k，同样，给定网络图的度分布特征P(k)，也能够得到平均度数<k>，即：<k>＝∑kP(k)。这说明，

和

也满足包容性约束条件：可以通过给定的

计算出相应的特征

进而得到特征它们是单向拓扑特征包含的关系。附图1显示了基本拓扑特征有限集Φ中元素的相互关系以及

和

代表的拓扑特征。附图2是节点数为4的网络图实例，其

(d＝0，1，2)描述的拓扑特征值。

进一步定义

为网络图中三角形和锲形子图分布密度，用网络的聚集系数C，C(k)等来表示；同理，可以做推广定义

为k个节点组成的不同子图在网络图中的分布特征。容易发现，由k+1个节点组成的子图必然包含k个节点组成的子图，也就是说，这个推广定义满足包容性约束条件；另一方面，当k＝n时，n个节点的子图其实就是整个网络图的拓扑，也就是满足收敛性的约束。

我们将富人俱乐部连接性作为基本拓扑特征参数集合Φ中元素

就网络拓扑的静态特征而言，

(d＝0，1，2，3)既能够很好的描述多数现实网络的拓扑特征。此外，为了描述对等网络的可生存性包含网络的整体性能、动态演化等特征，建立了复杂拓扑特征集合Φ’作为基本拓扑特征有限集Φ的补充。Φ’中的元素从宏观角度描述网络的性能、弹性、指纹等。通过集合Φ描述的特征再生成“实际”的网络拓扑，同时利用Φ’中元素描述的特征，进一步衡量、比较分析这些拓扑特征的影响。至此，建立的拓扑特征选择模型整体框架可以由附图3表示。我们提出的拓扑特征选择模型是动态的、可扩展的。也就是说，随着网络拓扑研究的深入和实际应用的需求，通过扩展Φ可以更细致的描述网络的拓扑特征；通过改变Φ’中的元素则可以实现不同角度的分析目的。

三、对等网络拓扑特征分析方法

在拓扑特征选择模型基础上，获取对等网络有效、稳定的大规模拓扑测量数据。并针对对等网络动态性、大规模的特点，建立了层次化的对等网络拓扑特征分析方法如下：

1.计算集合Φ，使用

(d＝0，1，2，3)描述现实对等网络的拓扑特征。

2.测量获取的拓扑实例进行重采样与“再生成”，重建可以代表实际对等网络的、规模相对较小的，并且能够计算其复杂拓扑特征的“再生”拓扑图，从而得到复杂网络拓扑特征集合Φ’中的元素，以代替目前由于计算复杂，而无法直接得到复杂拓扑特征参数。

3.根据集合Φ’中的元素，分析、动态模拟“再生”拓扑图的复杂拓扑特征；

4.根据网络拓扑“指纹”特征、对消息转发的影响，以及在面临节点失效或恶意攻击时的可生存性能等指标，得出对等网络特征分析的最终结论。

Claims

1.一种基于数据挖掘技术的拒绝服务攻击防御方法和系统，该系统需部署在被保护网络的网络入口，并为该系统配置数据库服务器以存储系统抽样的实时流量；其特征在于，所述系统包括有：

异常检测模块，负责检测当前网络流量的状态以判断当前系统是否异常，并根据当前系统的状态将当前网络流量随机抽样至数据库服务器的正常流量库和异常流量库；

数据挖掘引擎模块，负责利用数据库服务器中的正常流量库和异常流量库提取可信源IP列表和属性分值表，并将可信源IP列表和属性分值表分别传递给可信IP过滤器和流量控制模块；

可信IP过滤器模块，负责根据可信源IP列表对数据包的源IP进行匹配，如果匹配则放行流量，否则将流量交给流量控制模块处理；

流量控制模块，负责根据属性分值表对流经流量控制模块的网络数据包进行打分，并将分值映射成数据包危险等级，该模块根据危险度等级的高低进行选择性的丢包。

2.如权利要求1所述的异常检测模块，其特征在于，所述异常检测算法包括：

定时提取TCP包头的标志字段和IP包头的分片标志；

构造协方差矩阵，并计算协方差矩阵与协方差矩阵序列的均值的距离；

构造存储大量距离值的历史窗口，在假设距离值独立同分布的情况下，计算距离值的置信区间；

对判断结果进行二次评估，使检测算法的检测结果更准确。

3.如权利要求1所述的网络流量随机抽样，其特征在于，所述方法包括：

随机生成16比特匹配串，与IP数据包Identification字段16比特进行匹配，若匹配成功则抽样该数据包。

4.如权利要求1所述的提取可信源IP列表，其特征在于，所述方法包括：

对正常流量库中的源IP进行访问频度排序，得到集合S₁；

在正常流量库中，根据IP数据包TTL属性和IP包长度属性提取频繁项集，并得到频繁属性集对应的IP列表，得到集合S₂；

在异常流量库中，根据IP数据包TTL属性和IP包长度属性提取频繁项集，并得到频繁属性集对应的IP列表，得到集合S₃；

根据前三个集合得到可信IP列表。

5.如权利要求1所述的提取属性分值表方法，其特征在于，所述提取方法包括：

根据IP数据包的TTL属性和源IP前缀(16比特)两属性，对正常流量库和异常流量库中的数据包进行频率统计；

按照贝叶斯定理生成属性分值表；

根据属性分值表计算正常流量库和异常流量库中的数据包分值的平均值和标准差。

6.如权利要求1所述的将分值映射成数据包危险等级，其特征在于，所采用的映射方法充分考虑了贝叶斯分类误差，并减少映射关系对数据包危险度划分的影响。

7.如权利要求1所述的根据危险度等级的高低进行选择性的丢包，其特征在于：根据危险等级与丢包概率的对应关系，对高危险度的数据包进行高概率丢包，对于低危险度的数据包进行低概率丢包。

8.如权利要求7所述的危险等级与丢包概率的对应关系，其特征在于：当危险等级为0时，丢包概率为0％，当危险等级为9时，丢包概率为10％，其他危险等级可以按照线性或指数函数关系来设定丢包率。