CN111460026A - 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 - Google Patents
基于直觉模糊时间序列图挖掘的网络流量异常检测方法 Download PDFInfo
- Publication number
- CN111460026A CN111460026A CN202010231462.XA CN202010231462A CN111460026A CN 111460026 A CN111460026 A CN 111460026A CN 202010231462 A CN202010231462 A CN 202010231462A CN 111460026 A CN111460026 A CN 111460026A
- Authority
- CN
- China
- Prior art keywords
- vertex
- prediction
- time
- mining
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 238000005065 mining Methods 0.000 title claims abstract description 33
- 238000010586 diagram Methods 0.000 title claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000005856 abnormality Effects 0.000 claims description 10
- 238000009412 basement excavation Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,包括如下步骤:步骤一:IFTS图构建;步骤二:IFTS图挖掘;步骤三:确定异常判定准则。本发明的有益效果在于:通过构建直觉模糊时间序列图,实现了对图中顶点关系信息的全面挖掘和充分利用,可以对网络流量异常进行更加精确的检测。首先,结合信息熵和IFTS预测技术,将原本一维的网络流量预测转化为更加精确的五维预测;此外,启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能,还可以使预测结果更加贴合实际;利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化,进而通过频繁子图挖掘得到更准确的异常报告。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种网络流量异常检测方法。
背景技术
网络流量异常是指网络中流量的行为偏离其正常行为的情形。为了保证网络的安全和稳定,维持其高效运行,网络管理者需要采取适当的技术对网络中可能出现的异常进行描述和分析,并作出预警,这就是网络流量异常检测。随着互联网技术的迅猛发展和广泛应用,各种网络攻击技术层出不穷,新的网络安全问题不断涌现,因此流量异常检测技术也成为一个始终被关注和研究的热点,各种信的技术和手段不断被应用到这个领域。
目前常用的方法主要有应用异常子结构的网络流量异常检测、基于异常子图的网络流量异常检测以及结合信息熵理论建立单汇接点的时间序列图的方法。前两种方法没有考虑到图中顶点之间的关系,第三种方法对图中顶点之间的关系考虑不够全面。综上所述,目前现有的方法大都是基于一维网络流量预测实施的,预测结果不够准确,与实际流量之间存在较大偏差,获得的网络理论检测报告精度不高。
发明内容
为有效解决现有技术中存在的上述问题,本发明提出一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,该方法对图中顶点之间的关系予以充分的考虑,将一维流量预测拓展至五维预测,建立更加精确的完全图,得到更加准确的流量检测报告。
本发明的技术方案如下:基于直觉模糊时间序列图挖掘的网络流量异常检测方法,包括如下步骤:
步骤一:IFTS图构建;
步骤二:IFTS图挖掘;
步骤三:确定异常判定准则。
所述的步骤一包括如下步骤:
(1)计算历史数据信息熵值;
(2)利用IFTS预测模型进行预测;
(3)建立IFTS图。
所述的步骤一中的步骤(1)包括,
根据公式(1)进行信息熵H(X)的计算
其中,p(xi)为随机事件xi发生的概率;
计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值,分别为
{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
其中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t。
所述的步骤一中的步骤(2)包括,
对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型,采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测,分别得到t+1时刻的源IP预测值目的IP预测值源端口预测值目的端口预测值和数据包长度预测值
所述的步骤一中的步骤(3)包括,
所述的五顶点完全图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值
计算上述5个属性的概率:
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,sm为边em的权值,表示顶点vp和vq所代表的熵值的变化相似度,即
其中
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,并且约定 Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
所述的步骤二包括如下:
(1)挖掘频繁子图
(2)建立异常向量
(3)建立距离序列
所述的步骤三包括如下:
记t时刻图Gt(Vt,Et)的异常向量为
本发明的有益效果在于:通过构建直觉模糊时间序列图,实现了对图中顶点关系信息的全面挖掘和充分利用,可以对网络流量异常进行更加精确的检测。首先,结合信息熵和IFTS预测技术,将原本一维的网络流量预测转化为更加精确的五维预测;此外,启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能,还可以使预测结果更加贴合实际;利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化,进而通过频繁子图挖掘得到更准确的异常报告。
附图说明
图1为t时刻5顶点完全图;
图2为2顶点子图;
图3为3顶点子图;
图4为4顶点子图;
图5为数据集1各属性信息熵值;
图6为数据集1的ROC曲线;
图7为数据集2的ROC曲线。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明利用直觉模糊时间序列(Intuitionistic Fuzzy Time Series,IFTS)预测来解决流量异常检测这一典型的模糊时间序列问题,综合利用信息熵理论和图挖掘技术提出一个基于IFTS图挖掘的网络流量异常检测方法。该方法引入频繁子图挖掘技术对每个时刻上的频繁子图进行挖掘,建立异常向量表征该时刻网络流量的异常情况,通过对异常向量间的距离进行拟合分析得到其动态阈值,从而进行网络异常的判定。
本发明首先用信息熵量化网络流量数据的五维属性,针对五维属性分别建立启发式变阶IFTS预测模型,进行时间维度上的纵向预测;然后,在横向上,即每一个时刻上,得到一个由五维属性熵值构成的五顶点完全图,采用图挖掘方法对这个五顶点完全图进行频繁子图挖掘,结合挖掘结果建立表征网络流量异常情况的异常向量;最后,通过对异常向量间的距离进行拟合计分析,进行网络流量异常判断。
一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,从网络流量数据中提取源IP地址(Source IP Address,SIP)、目的IP地址(Destination IP Address,DIP)、源端口(Source Port,SPT)、目的端口(Destination Port,DPT)和数据包长度(PacketLength,LEN),通过上述5个属性的信息熵值分别建立5个启发式变阶IFTS预测模型,在时间维度上得到5个并行的熵值直觉模糊时间序列。在任意时刻t,以5个IFTS的值为顶点,两个顶点所代表的IFTS值的变化相似度为顶点之间的边,得到一个空间维度上的5顶点完全图。在时间维度上就得到了一个IFTS图。在t+1时刻,通过5个IFTS模型的预测值可以建立一个预测完全图,通过实际测量数据建立一个实际完全图,结合历史时间序列图的特性对这两个完全图进行挖掘分析,利用异常向量表征图挖掘结果,通过对异常向量间的距离分析,判断t+1时刻网络流量是否异常。
其中,输入:t+1时刻之前的t个时刻的历史流量数据{x1,x2,...,xt};
输出:t+1时刻的流量异常判断结果。
具体的,包括如下步骤:
步骤一:IFTS图构建;
在本发明的一个实施例中,步骤一具体包括如下:
(1)计算历史数据信息熵值
根据如下所示的公式(1)进行信息熵H(X)的计算
其中,p(xi)为随机事件xi发生的概率,n为随机事件数量。
计算得到历史流量数据的源IP(SIP)、目的IP(DIP)、源端口(SPT)、目的端口(DPT)和数据包长度(LEN)5个属性的信息熵值,分别为
{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
公式(2)-(6)中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t。
(2)利用IFTS预测模型进行预测
分别对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型,采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测,分别得到t+1时刻的源IP预测值目的IP预测值源端口预测值目的端口预测值和数据包长度预测值
(3)建立IFTS图
五顶点图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),如图1所示。其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值。
计算上述5个属性的概率:
其中,pSIP(x)为源IP地址的概率,pDIP(x)为目的IP地址的概率、pSPT(x)为源端口的概率、pDPT(x)为目的端口的概率,pL(x)为数据包长度的概率。
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,sm为边em的权值,表示顶点vp和vq所代表的熵值的变化相似度,即
其中
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,并且约定 Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
边的权值反映了该边所连接的两个顶点的信息熵值变化的相似程度,权值越大表示两个信息熵值的变化越相似。需要说明的是,当异常发生时,两端点的信息熵值有可能同时增大,或者同时减小,也有可能一个增大一个减小,根据所发生异常的种类不同而不同。但是在异常的检测阶段,我们只关注是否出现异常,而对于异常的种类不加判断,因此我们只考虑熵值变化幅度的相似度,即在式(13)和(14)中使用了Ht(p)和Ht(q)差值的绝对值。
步骤二:IFTS图挖掘
在本发明的一个实施例中,步骤二具体包括如下:
(1)挖掘频繁子图
按所含顶点的个数,可以将图Gt(Vt,Et)的子图分为4类:2顶点子图、3顶点子图、4顶点子图和5顶点子图。在本发明的异常检测算法中,子图的意义在于体现子图所包含的所有顶点之间熵值变化的相似度,因此只有完全图的子图对于我们的研究是有意义的。那么在图Gt(Vt,Et)的4类子图中,完全图的个数分别为:2顶点子图10个,如图2所示;3顶点子图10个,如图2所示;4顶点子图5个,如图2所示;5顶点子图1个,即图1所示的图Gt(Vt,Et)自身。为表述方便,在后续内容中所出现的图和子图,若无特殊说明均指完全图。
在本发明提出的异常检测算法中,对子图支持度的计算进行了重新定义。对于子图gj(Vj,Ej)(j=1,2,...,26),其顶点和边分别为Vj和Ej,定义其支持度sup(gj)为:
其中
表示子图gj中各顶点信息熵值的变化率的均值,反映了各信息熵值变化的幅度。
表示子图gj中各边权值的均值,反映了各信息熵值变化的相似度。
给定支持度阈值supε,频繁子图挖掘的目标就是找出所有使得sup(gj)≥supε的子图gj,称之为频繁子图。
(2)建立异常向量
(3)建立距离序列
步骤三:确定异常判定准则
对流量数据的离线分析表明,正常情况下网络流量五个属性的信息熵值是相对平稳的,通过挖掘只能获得非常少的频繁子图,并且在这些有限的频繁子图中以2顶点子图居多,3顶点子图次之,4顶点和5顶点子图几乎没有。但是当网络流量出现异常时,频繁子图数目明显增多,其中以3顶点、4顶点和5顶点子图数目的变化最为明显。这是因为异常发生时,往往会导致多个属性的熵值同时出现明显的增加或减少,而上述的公式(15)定义的子图支持度即反映了各顶点熵值同时发生大幅度变化的相似度。
鉴于此,针对这4类子图建立一个4维的异常向量,用于表示各类子图中频繁子图的比例,这样就可以通过异常向量的变化来判断流量是否出现异常。
具体步骤如下:
记t时刻图Gt(Vt,Et)的异常向量为
由历史数据可以得到t+1时刻之前t个时刻的异常向量{a1,a2,…,at},其中因为在检测的过程中会将异常时刻的数据从历史数据中剔除,所以随着时间的推进,保留下来的历史数据均为正常数据,它们的异常向量也都是处于正常范围之内的。
考虑到预测向量与历史数据的异常向量ai(i=1,2,...,t)之间的距离也是一个时间序列,并且该时间序列的数据形式简单、趋势平稳,那么就可以采用简单快捷的AR模型来拟合该序列,描述距离的动态特征,从而得到距离的取值范围,实现异常的自适应判定。
AR模型是p阶自回归模型,记为AR(p),其中p是模型的阶数。其基本思想是:对于平稳、零均值的时间序列,当前观测值与其前面p个观测值有关,由前p个观测值通过线性计算得到。在实际应用中AR模型的阶数通常不超过2,并且AR(2)模型也是最常用的模型。此外,阶数越大,AR模型的参数估计的计算量也越大。因此,综合考虑,本发明选取AR(2)模型来计算网络流量异常检测的判定阈值,具体步骤如下:
{x1,x2,...,xt}就是零均值距离序列。
(2)拟合模型。AR(2)模型是:
记
则
(3)确定阈值。AR(2)模型可表示为
那么,由零均值化的距离序列{x1,x2,...,xt}就可以得到一个残差序列{e1,e2,...,et}。
接下来,确定统计量λt+1的取值范围。由残差序列{e1,e2,...,et}计算得到一个相应的比值序列{λ1,λ2,...,λt},令和分别表示{λ1,λ2,...,λt}中的正值和负值组成的序列,个数分别为t+和t-,标准差为σ+和σ-,即
那么统计量λt+1的取值范围为就是说当λt+1的值落在这个范围内时,表示xt+1正常。而根据前面的分析可知,判断距离值正常与否只需一个最大值,因为越小表示网络出现异常的可能性越小,因此阈值判定准则如下:
若t+1时刻的网络流量未见异常,则引入t+1时刻的流量数据更新历史数据集,继续对t+2时刻的流量进行检测;若t+1时刻的网络流量出现异常,则不更新历史数据集,依然使用{x1,x2,...,xt}作为历史数据继续对t+2时刻的流量进行检测。
此外,由于使用了AR模型拟合距离序列,为了确保拟合的准确性,AR模型的阶数p与距离序列的长度t必须满足以下条件:
0≤p≤0.1×t (36)
由于在本发明中p=2,因此t≥20,即历史距离序列中最少应包含20个距离数据,则本发明的输入数据即历史数据至少应包含t+1时刻之前的21个时刻的流量数据。
下面通过实验对本发明的效果进行验证。
实验主要用到三个数据集,分别为:现有已公开的MAWI实验室发布的2007年8月4日太平洋骨干链路流量数据,CAIDA组织发布的DDoS 2007数据集和Witty Worm数据集。其中,MAWI实验室的流量数据是在Sample point-F采集点(一条带宽为150Mbps的穿越太平洋的骨干链路)上采集的14:00:00~14:15:01共15分钟的流量。
DDoS 2007数据集是CAIDA组织采集到的一次大规模ICMP类型的DDoS攻击,时间为2007年8月4日20:50:08~21:56:16,由几台固定主机向网络中的一台特定服务器发起攻击,以瘫痪其与网络的连接。数据集中只保留了攻击和攻击回应数据,已经尽量将正常数据剔除。Witty Worm数据集是在2004年3月19日20:01:40~3月24日23:01:40期间通过UCSDNetwork Telescope采集到的Witty Worm大规模爆发后的网络流量数据。同样,数据集中也只保留了攻击发生时的异常数据。
从MAWI数据集中随机抽样10%作为实验的背景流量,通过离线分析发现抽样流量较为平稳,满足作为背景流量的条件。由于背景流量持续时间只有15分钟,因此我们分别将DDoS 2007数据集和Witty Worm数据集中前5分钟的异常流量注入背景流量中,作为实验“数据集1”和“数据集2”。
分别在数据集1和数据集2上应用发明的方法进行检测。以数据集1为例,将采样间隔设置为20s,则数据集1共包含45个采样时刻,异常流量从第480s即第25个时刻开始注入,持续300s后在第39个时刻结束。通过计算可以得到流量数据五个属性的信息熵值,如图3所示。
根据公式(36)将历史数据集个数设定为21,则算法将从第22个时刻开始预测。令支持度阈值supε分别取0.3、0.35、0.375和0.4,得到各时刻的异常向量的实际观测值和预测值,如表1所示。
表1中异常发生的时段为25~39时刻,下划线标注的异常向量为用本发明算法检测出的异常点。随着阈值的增大,算法出现误检的次数减少,但是异常点的正确检测次数也随之减少;如果为了追求准确的异常点检测数,而采用较小的阈值,那么误检次数又会随之增大,因此这是一个矛盾,在实际使用中必须根据情况在这两者间做出适当的权衡。
由表1的结果可以得到本发明的算法在数据集1上的检测率(Detection Rate,DR)和虚警率(False Alarm Rate,FAR),如表2所示。
表1数据集1的异常向量观测值和预测值a
表2算法在数据集1上检测性能
其中,DR和FAR的计算如式(37)和式(38):
同样得到算法在数据集2上的检测率DR和虚警率FAR的值,如表3所示。
表3算法在数据集2上的检测性能
为了对本发明所提方法的检测精度进行对比验证,接下来选择在流量异常检测领域广泛使用的三个方法与本发明所提算法进行对比实验:残差比检测方法、基于熵的方法和基于图挖掘的方法。利用检测率随虚警率的变化曲线来评价各方法的检测性能,即接收器特性(Receiver Operating Characteristic,ROC)曲线。四个方法分别在数据集1和数据集2上的ROC曲线对比结果如图6和图7所示。
在ROC曲线上,纵坐标相同(即检测率相同)的点,越靠近纵轴表示检测效果越好;横坐标相同(即虚警率相同)的点,越靠上表示检测效果越好。其中,残差比检测方法的调节参数是异常判断的阈值,基于熵的方法的调节参数是不同窗口间的相对熵的阈值,基于图挖掘方法的调节参数是异常系数的阈值。
在图4中,因DDoS攻击流量较大,导致网络流量也有较大的变化,但是在攻击刚开始的几个时刻内网络中的攻击流量较少,导致流量幅值变化并不明显,因此残差比检测方法的检测效果并不理想,并且该攻击由多个主机发起也使得流量的特征分布在攻击前期不够明显,因此基于图挖掘的方法虽然累计多个维度上的结果,但是由于对多个维度间联系的描述不够全面导致检测效果也较差,基于熵的方法由于增加了检测精度优化算法,综合了多个时刻的结果而使得检测精度较高。
在图5中,因为Witty Worm刚刚爆发时扫描流量较少,同样导致残差比检测方法和基于图挖掘的方法的检测效果较差,并且当异常在多个时刻上的反映都不明显时,基于熵的方法的检测精度优化算法也没有起到很好的作用。
本发明所提算法不仅充分利用了多时刻历史数据中的信息,而且同时考虑了多属性熵值间的变化幅值和变化相似度,使得算法能够发现网络中多属性间的规律性变化,即使变化幅值较小也能有效的检测。
Claims (8)
1.基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,包括如下步骤:
步骤一:IFTS图构建;
步骤二:IFTS图挖掘;
步骤三:确定异常判定准则。
2.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤一包括如下步骤:
(1)计算历史数据信息熵值;
(2)利用IFTS预测模型进行预测;
(3)建立IFTS图。
3.如权利要求2所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤一中的步骤(1)包括,
根据公式(1)进行信息熵H(X)的计算
其中,p(xi)为随机事件xi发生的概率;
计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值,分别为{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
其中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t。
6.如权利要求5所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的五顶点完全图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值
计算上述5个属性的概率:
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,表示顶点vp和vq所代表的熵值的变化相似度,即
其中
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率;Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
7.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤二包括如下:
(1)挖掘频繁子图
(2)建立异常向量
(3)建立距离序列
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231462.XA CN111460026B (zh) | 2020-03-27 | 2020-03-27 | 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231462.XA CN111460026B (zh) | 2020-03-27 | 2020-03-27 | 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460026A true CN111460026A (zh) | 2020-07-28 |
CN111460026B CN111460026B (zh) | 2023-06-02 |
Family
ID=71680112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010231462.XA Active CN111460026B (zh) | 2020-03-27 | 2020-03-27 | 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460026B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087450A (zh) * | 2020-09-09 | 2020-12-15 | 北京明略昭辉科技有限公司 | 一种异常ip识别方法、系统及计算机设备 |
CN112463848A (zh) * | 2020-11-05 | 2021-03-09 | 中国建设银行股份有限公司 | 检测用户异常行为的检测方法、系统、装置和存储介质 |
CN112788066A (zh) * | 2021-02-26 | 2021-05-11 | 中南大学 | 物联网设备的异常流量检测方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413038A (zh) * | 2013-08-01 | 2013-11-27 | 雷英杰 | 基于矢量量化的长期直觉模糊时间序列预测方法 |
WO2017064734A1 (en) * | 2015-10-16 | 2017-04-20 | Politecnico Di Bari | Method for determining the modal parameters of road or rail vehicles and for the indirect characterization of road or rail profiles |
CN110460622A (zh) * | 2019-09-12 | 2019-11-15 | 贵州电网有限责任公司 | 一种基于态势感知预测方法的网络异常检测方法 |
-
2020
- 2020-03-27 CN CN202010231462.XA patent/CN111460026B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413038A (zh) * | 2013-08-01 | 2013-11-27 | 雷英杰 | 基于矢量量化的长期直觉模糊时间序列预测方法 |
WO2017064734A1 (en) * | 2015-10-16 | 2017-04-20 | Politecnico Di Bari | Method for determining the modal parameters of road or rail vehicles and for the indirect characterization of road or rail profiles |
CN110460622A (zh) * | 2019-09-12 | 2019-11-15 | 贵州电网有限责任公司 | 一种基于态势感知预测方法的网络异常检测方法 |
Non-Patent Citations (3)
Title |
---|
任神河等: "基于IFTS的云计算网络动态负载均衡方法", 《系统工程理论与实践》 * |
邓小清: "基于信息熵技术的网络流量异常监测研究", 《信息与电脑(理论版)》 * |
颜若愚等: "使用交叉熵检测和分类网络异常流量", 《西安交通大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112087450A (zh) * | 2020-09-09 | 2020-12-15 | 北京明略昭辉科技有限公司 | 一种异常ip识别方法、系统及计算机设备 |
CN112463848A (zh) * | 2020-11-05 | 2021-03-09 | 中国建设银行股份有限公司 | 检测用户异常行为的检测方法、系统、装置和存储介质 |
CN112788066A (zh) * | 2021-02-26 | 2021-05-11 | 中南大学 | 物联网设备的异常流量检测方法、系统及存储介质 |
CN112788066B (zh) * | 2021-02-26 | 2022-01-14 | 中南大学 | 物联网设备的异常流量检测方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111460026B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Blazek et al. | A novel approach to detection of “denial–of–service” attacks via adaptive sequential and batch–sequential change–point detection methods | |
CN111163057B (zh) | 一种基于异构信息网络嵌入算法的用户识别系统及方法 | |
CN111460026A (zh) | 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 | |
Zhang et al. | A survey of anomaly detection methods in networks | |
Paschalidis et al. | Spatio-temporal network anomaly detection by assessing deviations of empirical measures | |
US11966319B2 (en) | Identifying anomalies in a data center using composite metrics and/or machine learning | |
CN111506478A (zh) | 基于人工智能实现告警管理控制的方法 | |
CN111107102A (zh) | 基于大数据实时网络流量异常检测方法 | |
CN114499979B (zh) | 一种基于联邦学习的sdn网络异常流量协同检测方法 | |
CN113821793B (zh) | 基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
Holsopple et al. | TANDI: Threat assessment of network data and information | |
Hostiadi et al. | Hybrid model for bot group activity detection using similarity and correlation approaches based on network traffic flows analysis | |
CN112104633A (zh) | 一种基于日志关联分析的攻击链构造方法 | |
CN110445726A (zh) | 一种基于信息熵的自适应网络流概念漂移检测方法 | |
Kavousi et al. | Automatic learning of attack behavior patterns using Bayesian networks | |
Shahraki et al. | An outlier detection method to improve gathered datasets for network behavior analysis in IoT | |
CN111600878A (zh) | 一种基于maf-adm的低速率拒绝服务攻击检测方法 | |
CN113542236A (zh) | 一种基于核密度估计和指数平滑算法的异常用户检测方法 | |
CN112364304A (zh) | 一种区块链的日蚀攻击检测方法及装置 | |
Cho et al. | Two sophisticated techniques to improve HMM-based intrusion detection systems | |
Sukhwani et al. | A survey of anomaly detection techniques and hidden markov model | |
Gao et al. | The prediction role of hidden markov model in intrusion detection | |
Qi et al. | Iterative anomaly detection algorithm based on time series analysis | |
Skaperas et al. | A Link-Quality Anomaly Detection Framework for Software-Defined Wireless Mesh Networks | |
Song et al. | Machine learning-based traffic classification of wireless traffic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |