CN111460026A

CN111460026A - 基于直觉模糊时间序列图挖掘的网络流量异常检测方法

Info

Publication number: CN111460026A
Application number: CN202010231462.XA
Authority: CN
Inventors: 王亚男; 宋亚飞; 王坚; 路艳丽; 权文
Original assignee: Air Force Engineering University of PLA
Current assignee: Air Force Engineering University of PLA
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2020-07-28
Anticipated expiration: 2040-03-27
Also published as: CN111460026B

Abstract

本发明公开了一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法，包括如下步骤：步骤一：IFTS图构建；步骤二：IFTS图挖掘；步骤三：确定异常判定准则。本发明的有益效果在于：通过构建直觉模糊时间序列图，实现了对图中顶点关系信息的全面挖掘和充分利用，可以对网络流量异常进行更加精确的检测。首先，结合信息熵和IFTS预测技术，将原本一维的网络流量预测转化为更加精确的五维预测；此外，启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能，还可以使预测结果更加贴合实际；利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化，进而通过频繁子图挖掘得到更准确的异常报告。

Description

基于直觉模糊时间序列图挖掘的网络流量异常检测方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种网络流量异常检测方法。

背景技术

网络流量异常是指网络中流量的行为偏离其正常行为的情形。为了保证网络的安全和稳定，维持其高效运行，网络管理者需要采取适当的技术对网络中可能出现的异常进行描述和分析，并作出预警，这就是网络流量异常检测。随着互联网技术的迅猛发展和广泛应用，各种网络攻击技术层出不穷，新的网络安全问题不断涌现，因此流量异常检测技术也成为一个始终被关注和研究的热点，各种信的技术和手段不断被应用到这个领域。

目前常用的方法主要有应用异常子结构的网络流量异常检测、基于异常子图的网络流量异常检测以及结合信息熵理论建立单汇接点的时间序列图的方法。前两种方法没有考虑到图中顶点之间的关系，第三种方法对图中顶点之间的关系考虑不够全面。综上所述，目前现有的方法大都是基于一维网络流量预测实施的，预测结果不够准确，与实际流量之间存在较大偏差，获得的网络理论检测报告精度不高。

发明内容

为有效解决现有技术中存在的上述问题，本发明提出一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法，该方法对图中顶点之间的关系予以充分的考虑，将一维流量预测拓展至五维预测，建立更加精确的完全图，得到更加准确的流量检测报告。

本发明的技术方案如下：基于直觉模糊时间序列图挖掘的网络流量异常检测方法，包括如下步骤：

步骤一：IFTS图构建；

步骤二：IFTS图挖掘；

步骤三：确定异常判定准则。

所述的步骤一包括如下步骤：

(1)计算历史数据信息熵值；

(2)利用IFTS预测模型进行预测；

(3)建立IFTS图。

所述的步骤一中的步骤(1)包括，

根据公式(1)进行信息熵H(X)的计算

其中，p(x_i)为随机事件x_i发生的概率；

计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值，分别为

{H₁(SIP),H₂(SIP),...,H_t(SIP)} (2)

{H₁(DIP),H₂(DIP),...,H_t(DIP)} (3)

{H₁(SPT),H₂(SPT),...,H_t(SPT)} (4)

{H₁(DPT),H₂(DPT),...,H_t(DPT)} (5)

{H₁(LEN),H₂(LEN),...,H_t(LEN)} (6)

其中，H_i(SIP)、H_i(DIP)、H_i(SPT)、H_i(DPT)和H_i(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵，时刻i＝1,2,…,t。

所述的步骤一中的步骤(2)包括，

对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型，采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测，分别得到t+1时刻的源IP预测值

目的IP预测值

源端口预测值

目的端口预测值

和数据包长度预测值

所述的步骤一中的步骤(3)包括，

建立历史数据各时刻上的五顶点完全图G_i(V_i,E_i)，V_i为顶点的集合，E_i为边的集合，i＝1,2,…,t，得到整个时间序列上的IFTS图，然后根据预测数据建立t+1时刻的预测图

所述的五顶点完全图的建立方法如下：

记t时刻得到的5顶点完全图为G_t(V_t,E_t)，其中顶点v_p∈V_t(p＝1,2,3,4,5)和边e_m∈E_t(m＝1,2,...,10)的表示方法分别为：

顶点的计算方法如下：

利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算，得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值，分别记为源IP地址信息熵H_t(SIP)、目的IP地址信息熵H_t(DIP)、源端口信息熵H_t(SPT)、目的端口信息熵H_t(DPT)和数据包长度信息熵H_t(LEN)，作为5个顶点v₁、v₂、v₃、v₄和v₅的值

计算上述5个属性的概率：

边的计算如下：

记e_m＝(v_p,v_q)为连接顶点v_p和v_q的边，s_m为边e_m的权值，表示顶点v_p和v_q所代表的熵值的变化相似度，即

其中

Δ_p表示t时刻顶点v_p所代表的熵值H_t(p)和H_t(q)较t-1时刻的变化率，Δ_q表示t时刻顶点v_q所代表的熵值H_t(p)和H_t(q)较t-1时刻的变化率，并且约定

H_t(p)为t时刻顶点v_p所代表的熵值，H_t-1(p)为t-1时刻顶点v_p所代表的熵值；H_t(q)为t时刻顶点v_q所代表的熵值，H_t-1(q)为t-1时刻顶点v_q所代表的熵值。

所述的步骤二包括如下：

(1)挖掘频繁子图

分别计算图G_i(i＝1,2,...,t)和

的所有子图的支持度sup(g)，确定支持度阈值sup_ε，进行频繁子图挖掘，得到图G_i和

的4类频繁子图的个数；

(2)建立异常向量

分别计算图G_i(i＝1,2,...,t)和

的4类子图中频繁子图所占的比例，得到异常向量

(i＝1,2,...,t)和t+1时刻异常向量的预测值

(3)建立距离序列

根据t+1时刻流量的实际观测值进行计算，建立5顶点完全图G_t+1(V_t+1,E_t+1)，并进行频繁子图挖掘，得到t+1时刻异常向量的实际观测值

根据式(18)分别计算异常向量

与a_i(i＝1,2,...,t+1)之间的距离，得到距离序列

所述的步骤三包括如下：

记t时刻图G_t(V_t,E_t)的异常向量为

其中，

和

分别表示图G_t的2顶点子图、3顶点子图、4顶点子图和5顶点子图中频繁子图所占的比例，

由历史数据可以得到t+1时刻之前t个时刻的异常向量{a₁,a₂,…,a_t}，其中

t+1时刻异常向量的预测值

由各属性信息熵值IFTS进行预测及相应计算得到，而异常向量的实际观测值

由实际流量数据进行计算得到，则预测向量

和实际观测向量a_t+1之间的标准化欧氏距离为

的大小反映了预测向量

与观测向量a_t+1之间的差异。

本发明的有益效果在于：通过构建直觉模糊时间序列图，实现了对图中顶点关系信息的全面挖掘和充分利用，可以对网络流量异常进行更加精确的检测。首先，结合信息熵和IFTS预测技术，将原本一维的网络流量预测转化为更加精确的五维预测；此外，启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能，还可以使预测结果更加贴合实际；利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化，进而通过频繁子图挖掘得到更准确的异常报告。

附图说明

图1为t时刻5顶点完全图；

图2为2顶点子图；

图3为3顶点子图；

图4为4顶点子图；

图5为数据集1各属性信息熵值；

图6为数据集1的ROC曲线；

图7为数据集2的ROC曲线。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

本发明利用直觉模糊时间序列(Intuitionistic Fuzzy Time Series，IFTS)预测来解决流量异常检测这一典型的模糊时间序列问题，综合利用信息熵理论和图挖掘技术提出一个基于IFTS图挖掘的网络流量异常检测方法。该方法引入频繁子图挖掘技术对每个时刻上的频繁子图进行挖掘，建立异常向量表征该时刻网络流量的异常情况，通过对异常向量间的距离进行拟合分析得到其动态阈值，从而进行网络异常的判定。

本发明首先用信息熵量化网络流量数据的五维属性，针对五维属性分别建立启发式变阶IFTS预测模型，进行时间维度上的纵向预测；然后，在横向上，即每一个时刻上，得到一个由五维属性熵值构成的五顶点完全图，采用图挖掘方法对这个五顶点完全图进行频繁子图挖掘，结合挖掘结果建立表征网络流量异常情况的异常向量；最后，通过对异常向量间的距离进行拟合计分析，进行网络流量异常判断。

一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法，从网络流量数据中提取源IP地址(Source IP Address,SIP)、目的IP地址(Destination IP Address,DIP)、源端口(Source Port,SPT)、目的端口(Destination Port,DPT)和数据包长度(PacketLength,LEN)，通过上述5个属性的信息熵值分别建立5个启发式变阶IFTS预测模型，在时间维度上得到5个并行的熵值直觉模糊时间序列。在任意时刻t，以5个IFTS的值为顶点，两个顶点所代表的IFTS值的变化相似度为顶点之间的边，得到一个空间维度上的5顶点完全图。在时间维度上就得到了一个IFTS图。在t+1时刻，通过5个IFTS模型的预测值可以建立一个预测完全图，通过实际测量数据建立一个实际完全图，结合历史时间序列图的特性对这两个完全图进行挖掘分析，利用异常向量表征图挖掘结果，通过对异常向量间的距离分析，判断t+1时刻网络流量是否异常。

其中，输入：t+1时刻之前的t个时刻的历史流量数据{x₁,x₂,...,x_t}；

输出：t+1时刻的流量异常判断结果。

具体的，包括如下步骤：

步骤一：IFTS图构建；

在本发明的一个实施例中，步骤一具体包括如下：

(1)计算历史数据信息熵值

根据如下所示的公式(1)进行信息熵H(X)的计算

其中，p(x_i)为随机事件x_i发生的概率，n为随机事件数量。

计算得到历史流量数据的源IP(SIP)、目的IP(DIP)、源端口(SPT)、目的端口(DPT)和数据包长度(LEN)5个属性的信息熵值，分别为

{H₁(SIP),H₂(SIP),...,H_t(SIP)} (2)

{H₁(DIP),H₂(DIP),...,H_t(DIP)} (3)

{H₁(SPT),H₂(SPT),...,H_t(SPT)} (4)

{H₁(DPT),H₂(DPT),...,H_t(DPT)} (5)

{H₁(LEN),H₂(LEN),...,H_t(LEN)} (6)

公式(2)-(6)中，H_i(SIP)、H_i(DIP)、H_i(SPT)、H_i(DPT)和H_i(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵，时刻i＝1,2,…,t。

(2)利用IFTS预测模型进行预测

分别对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型，采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测，分别得到t+1时刻的源IP预测值

目的IP预测值

源端口预测值

目的端口预测值

和数据包长度预测值

(3)建立IFTS图

建立历史数据各时刻上的五顶点完全图G_i(V_i,E_i)，V_i为顶点的集合，E_i为边的集合，i＝1,2,…,t。从而得到整个时间序列上的IFTS图，然后根据预测数据建立t+1时刻的预测图

五顶点图的建立方法如下：

记t时刻得到的5顶点完全图为G_t(V_t,E_t)，如图1所示。其中顶点v_p∈V_t(p＝1,2,3,4,5)和边e_m∈E_t(m＝1,2,...,10)的表示方法分别为：

顶点的计算方法如下：

利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算，得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值，分别记为源IP地址信息熵H_t(SIP)、目的IP地址信息熵H_t(DIP)、源端口信息熵H_t(SPT)、目的端口信息熵H_t(DPT)和数据包长度信息熵H_t(LEN)，作为5个顶点v₁、v₂、v₃、v₄和v₅的值。

计算上述5个属性的概率：

其中，p_SIP(x)为源IP地址的概率，p_DIP(x)为目的IP地址的概率、p_SPT(x)为源端口的概率、p_DPT(x)为目的端口的概率，p_L(x)为数据包长度的概率。

边的计算如下：

其中

边的权值反映了该边所连接的两个顶点的信息熵值变化的相似程度，权值越大表示两个信息熵值的变化越相似。需要说明的是，当异常发生时，两端点的信息熵值有可能同时增大，或者同时减小，也有可能一个增大一个减小，根据所发生异常的种类不同而不同。但是在异常的检测阶段，我们只关注是否出现异常，而对于异常的种类不加判断，因此我们只考虑熵值变化幅度的相似度，即在式(13)和(14)中使用了H_t(p)和H_t(q)差值的绝对值。

步骤二：IFTS图挖掘

在本发明的一个实施例中，步骤二具体包括如下：

(1)挖掘频繁子图

分别计算图G_i(i＝1,2,...,t)和

的4类频繁子图的个数。具体方法如下：

按所含顶点的个数，可以将图G_t(V_t,E_t)的子图分为4类：2顶点子图、3顶点子图、4顶点子图和5顶点子图。在本发明的异常检测算法中，子图的意义在于体现子图所包含的所有顶点之间熵值变化的相似度，因此只有完全图的子图对于我们的研究是有意义的。那么在图G_t(V_t,E_t)的4类子图中，完全图的个数分别为：2顶点子图10个，如图2所示；3顶点子图10个，如图2所示；4顶点子图5个，如图2所示；5顶点子图1个，即图1所示的图G_t(V_t,E_t)自身。为表述方便，在后续内容中所出现的图和子图，若无特殊说明均指完全图。

在本发明提出的异常检测算法中，对子图支持度的计算进行了重新定义。对于子图g_j(V_j,E_j)(j＝1,2,...,26)，其顶点和边分别为V_j和E_j，定义其支持度sup(g_j)为：

其中

表示子图g_j中各顶点信息熵值的变化率的均值，反映了各信息熵值变化的幅度。

表示子图g_j中各边权值的均值，反映了各信息熵值变化的相似度。

给定支持度阈值sup_ε，频繁子图挖掘的目标就是找出所有使得sup(g_j)≥sup_ε的子图g_j，称之为频繁子图。

(2)建立异常向量

分别计算图G_i(i＝1,2,...,t)和

的4类子图中频繁子图所占的比例，即频繁子图的个数除以总子图的个数，得到异常向量

(i＝1,2,...,t)和t+1时刻异常向量的预测值

(3)建立距离序列

首先，根据t+1时刻流量的实际观测值进行计算，建立5顶点完全图G_t+1(V_t+1,E_t+1)，并进行频繁子图挖掘，得到t+1时刻异常向量的实际观测值

然后，根据式(18)分别计算异常向量

与a_i(i＝1,2,...,t+1)之间的距离，得到距离序列

步骤三：确定异常判定准则

对流量数据的离线分析表明，正常情况下网络流量五个属性的信息熵值是相对平稳的，通过挖掘只能获得非常少的频繁子图，并且在这些有限的频繁子图中以2顶点子图居多，3顶点子图次之，4顶点和5顶点子图几乎没有。但是当网络流量出现异常时，频繁子图数目明显增多，其中以3顶点、4顶点和5顶点子图数目的变化最为明显。这是因为异常发生时，往往会导致多个属性的熵值同时出现明显的增加或减少，而上述的公式(15)定义的子图支持度即反映了各顶点熵值同时发生大幅度变化的相似度。

鉴于此，针对这4类子图建立一个4维的异常向量，用于表示各类子图中频繁子图的比例，这样就可以通过异常向量的变化来判断流量是否出现异常。

具体步骤如下：

记t时刻图G_t(V_t,E_t)的异常向量为

其中，

和

分别表示图G_t的2顶点子图、3顶点子图、4顶点子图和5顶点子图中频繁子图所占的比例，即各类频繁子图的个数除以各类子图总数。

因为在检测的过程中会将异常时刻的数据从历史数据中剔除，所以随着时间的推进，保留下来的历史数据均为正常数据，它们的异常向量也都是处于正常范围之内的。

t+1时刻异常向量的预测值

由实际流量数据进行计算得到，则预测向量

和实际观测向量a_t+1之间的标准化欧氏距离为

的大小反映了预测向量

与观测向量a_t+1之间的差异。

越大，表明两者间的差异越大，则t+1时刻网络流量出现异常的可能性就越大；反之，则出现异常的可能性就越小。

考虑到预测向量

与历史数据的异常向量a_i(i＝1,2,...,t)之间的距离

也是一个时间序列，并且该时间序列的数据形式简单、趋势平稳，那么就可以采用简单快捷的AR模型来拟合该序列，描述距离

的动态特征，从而得到距离

的取值范围，实现异常的自适应判定。

AR模型是p阶自回归模型，记为AR(p)，其中p是模型的阶数。其基本思想是：对于平稳、零均值的时间序列，当前观测值与其前面p个观测值有关，由前p个观测值通过线性计算得到。在实际应用中AR模型的阶数通常不超过2，并且AR(2)模型也是最常用的模型。此外，阶数越大，AR模型的参数估计的计算量也越大。因此，综合考虑，本发明选取AR(2)模型来计算网络流量异常检测的判定阈值，具体步骤如下：

(1)距离序列零均值化。AR模型只适用于零均值序列，因此需对历史数据的t个距离值进行零均值化。记距离序列

的均值为

则

{x₁,x₂,...,x_t}就是零均值距离序列。

(2)拟合模型。AR(2)模型是：

其中，i＝3,4,...,t；

和

为AR(2)的系数e_i为白噪声，是均值为零、方差为

的独立同分布高斯随机变量。

由x₁,x₂,...,x_t估计

和

的具体计算过程如下：

记

则

和

的估计式为

白噪声e_i的方差

的估计式为

(3)确定阈值。AR(2)模型可表示为

那么，由零均值化的距离序列{x₁,x₂,...,x_t}就可以得到一个残差序列{e₁,e₂,...,e_t}。

令

表示历史数据t个残差e_i的平方和的均值。

令

表示t+1时刻距离值的残差与σ的比值，作为检测x_t+1是否异常的统计量，其中

接下来，确定统计量λ_t+1的取值范围。由残差序列{e₁,e₂,...,e_t}计算得到一个相应的比值序列{λ₁,λ₂,...,λ_t}，令

和

分别表示{λ₁,λ₂,...,λ_t}中的正值和负值组成的序列，个数分别为t⁺和t^-，标准差为σ⁺和σ^-，即

那么统计量λ_t+1的取值范围为

就是说当λ_t+1的值落在这个范围内时，表示x_t+1正常。而根据前面的分析可知，判断距离值

正常与否只需一个最大值，因为

越小表示网络出现异常的可能性越小，因此阈值

判定准则如下：

若λ_t+1≤λ_ε，则表示

正常，即t+1时刻网络流量是正常的；

若λ_t+1＞λ_ε，则表示

正常，即t+1时刻网络流量出现异常。

若t+1时刻的网络流量未见异常，则引入t+1时刻的流量数据更新历史数据集，继续对t+2时刻的流量进行检测；若t+1时刻的网络流量出现异常，则不更新历史数据集，依然使用{x₁,x₂,...,x_t}作为历史数据继续对t+2时刻的流量进行检测。

此外，由于使用了AR模型拟合距离序列，为了确保拟合的准确性，AR模型的阶数p与距离序列的长度t必须满足以下条件：

0≤p≤0.1×t (36)

由于在本发明中p＝2，因此t≥20，即历史距离序列中最少应包含20个距离数据，则本发明的输入数据即历史数据至少应包含t+1时刻之前的21个时刻的流量数据。

下面通过实验对本发明的效果进行验证。

实验主要用到三个数据集，分别为：现有已公开的MAWI实验室发布的2007年8月4日太平洋骨干链路流量数据，CAIDA组织发布的DDoS 2007数据集和Witty Worm数据集。其中，MAWI实验室的流量数据是在Sample point-F采集点(一条带宽为150Mbps的穿越太平洋的骨干链路)上采集的14:00:00～14:15:01共15分钟的流量。

DDoS 2007数据集是CAIDA组织采集到的一次大规模ICMP类型的DDoS攻击，时间为2007年8月4日20:50:08～21:56:16，由几台固定主机向网络中的一台特定服务器发起攻击，以瘫痪其与网络的连接。数据集中只保留了攻击和攻击回应数据，已经尽量将正常数据剔除。Witty Worm数据集是在2004年3月19日20:01:40～3月24日23:01:40期间通过UCSDNetwork Telescope采集到的Witty Worm大规模爆发后的网络流量数据。同样，数据集中也只保留了攻击发生时的异常数据。

从MAWI数据集中随机抽样10％作为实验的背景流量，通过离线分析发现抽样流量较为平稳，满足作为背景流量的条件。由于背景流量持续时间只有15分钟，因此我们分别将DDoS 2007数据集和Witty Worm数据集中前5分钟的异常流量注入背景流量中，作为实验“数据集1”和“数据集2”。

分别在数据集1和数据集2上应用发明的方法进行检测。以数据集1为例，将采样间隔设置为20s，则数据集1共包含45个采样时刻，异常流量从第480s即第25个时刻开始注入，持续300s后在第39个时刻结束。通过计算可以得到流量数据五个属性的信息熵值，如图3所示。

根据公式(36)将历史数据集个数设定为21，则算法将从第22个时刻开始预测。令支持度阈值sup_ε分别取0.3、0.35、0.375和0.4，得到各时刻的异常向量的实际观测值和预测值，如表1所示。

表1中异常发生的时段为25～39时刻，下划线标注的异常向量为用本发明算法检测出的异常点。随着阈值的增大，算法出现误检的次数减少，但是异常点的正确检测次数也随之减少；如果为了追求准确的异常点检测数，而采用较小的阈值，那么误检次数又会随之增大，因此这是一个矛盾，在实际使用中必须根据情况在这两者间做出适当的权衡。

由表1的结果可以得到本发明的算法在数据集1上的检测率(Detection Rate,DR)和虚警率(False Alarm Rate,FAR)，如表2所示。

表1数据集1的异常向量观测值和预测值^a

表2算法在数据集1上检测性能

其中，DR和FAR的计算如式(37)和式(38)：

同样得到算法在数据集2上的检测率DR和虚警率FAR的值，如表3所示。

表3算法在数据集2上的检测性能

为了对本发明所提方法的检测精度进行对比验证，接下来选择在流量异常检测领域广泛使用的三个方法与本发明所提算法进行对比实验：残差比检测方法、基于熵的方法和基于图挖掘的方法。利用检测率随虚警率的变化曲线来评价各方法的检测性能，即接收器特性(Receiver Operating Characteristic,ROC)曲线。四个方法分别在数据集1和数据集2上的ROC曲线对比结果如图6和图7所示。

在ROC曲线上，纵坐标相同(即检测率相同)的点，越靠近纵轴表示检测效果越好；横坐标相同(即虚警率相同)的点，越靠上表示检测效果越好。其中，残差比检测方法的调节参数是异常判断的阈值，基于熵的方法的调节参数是不同窗口间的相对熵的阈值，基于图挖掘方法的调节参数是异常系数的阈值。

在图4中，因DDoS攻击流量较大，导致网络流量也有较大的变化，但是在攻击刚开始的几个时刻内网络中的攻击流量较少，导致流量幅值变化并不明显，因此残差比检测方法的检测效果并不理想，并且该攻击由多个主机发起也使得流量的特征分布在攻击前期不够明显，因此基于图挖掘的方法虽然累计多个维度上的结果，但是由于对多个维度间联系的描述不够全面导致检测效果也较差，基于熵的方法由于增加了检测精度优化算法，综合了多个时刻的结果而使得检测精度较高。

在图5中，因为Witty Worm刚刚爆发时扫描流量较少，同样导致残差比检测方法和基于图挖掘的方法的检测效果较差，并且当异常在多个时刻上的反映都不明显时，基于熵的方法的检测精度优化算法也没有起到很好的作用。

本发明所提算法不仅充分利用了多时刻历史数据中的信息，而且同时考虑了多属性熵值间的变化幅值和变化相似度，使得算法能够发现网络中多属性间的规律性变化，即使变化幅值较小也能有效的检测。

Claims

1.基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，包括如下步骤：

步骤一：IFTS图构建；

步骤二：IFTS图挖掘；

步骤三：确定异常判定准则。

2.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的步骤一包括如下步骤：

(1)计算历史数据信息熵值；

(2)利用IFTS预测模型进行预测；

(3)建立IFTS图。

3.如权利要求2所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的步骤一中的步骤(1)包括，

根据公式(1)进行信息熵H(X)的计算

其中，p(x_i)为随机事件x_i发生的概率；

计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值，分别为{H₁(SIP),H₂(SIP),...,H_t(SIP)} (2)

{H₁(DIP),H₂(DIP),...,H_t(DIP)} (3)

{H₁(SPT),H₂(SPT),...,H_t(SPT)} (4)

{H₁(DPT),H₂(DPT),...,H_t(DPT)} (5)

{H₁(LEN),H₂(LEN),...,H_t(LEN)} (6)

4.如权利要求3所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的步骤一中的步骤(2)包括，

目的IP预测值

源端口预测值

目的端口预测值

和数据包长度预测值

5.如权利要求2所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的步骤一中的步骤(3)包括，

6.如权利要求5所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的五顶点完全图的建立方法如下：

顶点的计算方法如下：

计算上述5个属性的概率：

边的计算如下：

记e_m＝(v_p,v_q)为连接顶点v_p和v_q的边，表示顶点v_p和v_q所代表的熵值的变化相似度，即

其中

Δ_p表示t时刻顶点v_p所代表的熵值H_t(p)和H_t(q)较t-1时刻的变化率，Δ_q表示t时刻顶点v_q所代表的熵值H_t(p)和H_t(q)较t-1时刻的变化率；H_t(p)为t时刻顶点v_p所代表的熵值，H_t-1(p)为t-1时刻顶点v_p所代表的熵值；H_t(q)为t时刻顶点v_q所代表的熵值，H_t-1(q)为t-1时刻顶点v_q所代表的熵值。

7.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法，其特征在于，所述的步骤二包括如下：

(1)挖掘频繁子图

分别计算图G_i(i＝1,2,...,t)和