CN111460026B - 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 - Google Patents

基于直觉模糊时间序列图挖掘的网络流量异常检测方法 Download PDF

Info

Publication number
CN111460026B
CN111460026B CN202010231462.XA CN202010231462A CN111460026B CN 111460026 B CN111460026 B CN 111460026B CN 202010231462 A CN202010231462 A CN 202010231462A CN 111460026 B CN111460026 B CN 111460026B
Authority
CN
China
Prior art keywords
time
vertex
prediction
information entropy
entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010231462.XA
Other languages
English (en)
Other versions
CN111460026A (zh
Inventor
王亚男
宋亚飞
王坚
路艳丽
权文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Engineering University of PLA
Original Assignee
Air Force Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Engineering University of PLA filed Critical Air Force Engineering University of PLA
Priority to CN202010231462.XA priority Critical patent/CN111460026B/zh
Publication of CN111460026A publication Critical patent/CN111460026A/zh
Application granted granted Critical
Publication of CN111460026B publication Critical patent/CN111460026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,包括如下步骤:步骤一:IFTS图构建;步骤二:IFTS图挖掘;步骤三:确定异常判定准则。本发明的有益效果在于:通过构建直觉模糊时间序列图,实现了对图中顶点关系信息的全面挖掘和充分利用,可以对网络流量异常进行更加精确的检测。首先,结合信息熵和IFTS预测技术,将原本一维的网络流量预测转化为更加精确的五维预测;此外,启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能,还可以使预测结果更加贴合实际;利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化,进而通过频繁子图挖掘得到更准确的异常报告。

Description

基于直觉模糊时间序列图挖掘的网络流量异常检测方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种网络流量异常检测方法。
背景技术
网络流量异常是指网络中流量的行为偏离其正常行为的情形。为了保证网络的安全和稳定,维持其高效运行,网络管理者需要采取适当的技术对网络中可能出现的异常进行描述和分析,并作出预警,这就是网络流量异常检测。随着互联网技术的迅猛发展和广泛应用,各种网络攻击技术层出不穷,新的网络安全问题不断涌现,因此流量异常检测技术也成为一个始终被关注和研究的热点,各种信的技术和手段不断被应用到这个领域。
目前常用的方法主要有应用异常子结构的网络流量异常检测、基于异常子图的网络流量异常检测以及结合信息熵理论建立单汇接点的时间序列图的方法。前两种方法没有考虑到图中顶点之间的关系,第三种方法对图中顶点之间的关系考虑不够全面。综上所述,目前现有的方法大都是基于一维网络流量预测实施的,预测结果不够准确,与实际流量之间存在较大偏差,获得的网络理论检测报告精度不高。
发明内容
为有效解决现有技术中存在的上述问题,本发明提出一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,该方法对图中顶点之间的关系予以充分的考虑,将一维流量预测拓展至五维预测,建立更加精确的完全图,得到更加准确的流量检测报告。
本发明的技术方案如下:基于直觉模糊时间序列图挖掘的网络流量异常检测方法,包括如下步骤:
步骤一:IFTS图构建;
步骤二:IFTS图挖掘;
步骤三:确定异常判定准则。
所述的步骤一包括如下步骤:
(1)计算历史数据信息熵值;
(2)利用IFTS预测模型进行预测;
(3)建立IFTS图。
所述的步骤一中的步骤(1)包括,
根据公式(1)进行信息熵H(X)的计算
Figure BDA0002429398210000021
其中,p(xi)为随机事件xi发生的概率;
计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值,分别为
{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
其中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t。
所述的步骤一中的步骤(2)包括,
对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型,采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测,分别得到t+1时刻的源IP预测值
Figure BDA0002429398210000031
目的IP预测值/>
Figure BDA0002429398210000032
源端口预测值/>
Figure BDA0002429398210000033
目的端口预测值/>
Figure BDA0002429398210000034
和数据包长度预测值/>
Figure BDA0002429398210000035
所述的步骤一中的步骤(3)包括,
建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei),Vi为顶点的集合,Ei为边的集合,i=1,2,…,t,得到整个时间序列上的IFTS图,然后根据预测数据建立t+1时刻的预测图
Figure BDA0002429398210000036
所述的五顶点完全图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值
计算上述5个属性的概率:
Figure BDA0002429398210000037
Figure BDA0002429398210000038
Figure BDA0002429398210000039
Figure BDA0002429398210000041
Figure BDA0002429398210000042
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,sm为边em的权值,表示顶点vp和vq所代表的熵值的变化相似度,即
Figure BDA0002429398210000043
其中
Figure BDA0002429398210000044
Figure BDA0002429398210000045
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,并且约定
Figure BDA0002429398210000046
Figure BDA0002429398210000047
Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
所述的步骤二包括如下:
(1)挖掘频繁子图
分别计算图Gi(i=1,2,...,t)和
Figure BDA0002429398210000048
的所有子图的支持度sup(g),确定支持度阈值supε,进行频繁子图挖掘,得到图Gi和/>
Figure BDA0002429398210000049
的4类频繁子图的个数;
(2)建立异常向量
分别计算图Gi(i=1,2,...,t)和
Figure BDA00024293982100000410
的4类子图中频繁子图所占的比例,得到异常向量/>
Figure BDA0002429398210000051
(i=1,2,...,t)和t+1时刻异常向量的预测值/>
Figure BDA0002429398210000052
(3)建立距离序列
根据t+1时刻流量的实际观测值进行计算,建立5顶点完全图Gt+1(Vt+1,Et+1),并进行频繁子图挖掘,得到t+1时刻异常向量的实际观测值
Figure BDA0002429398210000053
根据式(18)分别计算异常向量
Figure BDA0002429398210000054
与ai(i=1,2,...,t+1)之间的距离,得到距离序列/>
Figure BDA0002429398210000055
Figure BDA0002429398210000056
所述的步骤三包括如下:
记t时刻图Gt(Vt,Et)的异常向量为
Figure BDA0002429398210000057
其中,
Figure BDA0002429398210000058
和/>
Figure BDA0002429398210000059
分别表示图Gt的2顶点子图、3顶点子图、4顶点子图和5顶点子图中频繁子图所占的比例,
由历史数据可以得到t+1时刻之前t个时刻的异常向量{a1,a2,…,at},其中
Figure BDA00024293982100000510
/>
t+1时刻异常向量的预测值
Figure BDA00024293982100000511
由各属性信息熵值IFTS进行预测及相应计算得到,而异常向量的实际观测值/>
Figure BDA00024293982100000512
由实际流量数据进行计算得到,则预测向量/>
Figure BDA00024293982100000513
和实际观测向量at+1之间的标准化欧氏距离为
Figure BDA00024293982100000514
Figure BDA00024293982100000515
的大小反映了预测向量/>
Figure BDA00024293982100000516
与观测向量at+1之间的差异。
本发明的有益效果在于:通过构建直觉模糊时间序列图,实现了对图中顶点关系信息的全面挖掘和充分利用,可以对网络流量异常进行更加精确的检测。首先,结合信息熵和IFTS预测技术,将原本一维的网络流量预测转化为更加精确的五维预测;此外,启发式变阶IFTS预测不仅在不完备数据集上具有高效的预测性能,还可以使预测结果更加贴合实际;利用更加精确的预测结果建立的完全图可以更准确的反映流量属性的变化,进而通过频繁子图挖掘得到更准确的异常报告。
附图说明
图1为t时刻5顶点完全图;
图2为2顶点子图;
图3为3顶点子图;
图4为4顶点子图;
图5为数据集1各属性信息熵值;
图6为数据集1的ROC曲线;
图7为数据集2的ROC曲线。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明利用直觉模糊时间序列(Intuitionistic Fuzzy Time Series,IFTS)预测来解决流量异常检测这一典型的模糊时间序列问题,综合利用信息熵理论和图挖掘技术提出一个基于IFTS图挖掘的网络流量异常检测方法。该方法引入频繁子图挖掘技术对每个时刻上的频繁子图进行挖掘,建立异常向量表征该时刻网络流量的异常情况,通过对异常向量间的距离进行拟合分析得到其动态阈值,从而进行网络异常的判定。
本发明首先用信息熵量化网络流量数据的五维属性,针对五维属性分别建立启发式变阶IFTS预测模型,进行时间维度上的纵向预测;然后,在横向上,即每一个时刻上,得到一个由五维属性熵值构成的五顶点完全图,采用图挖掘方法对这个五顶点完全图进行频繁子图挖掘,结合挖掘结果建立表征网络流量异常情况的异常向量;最后,通过对异常向量间的距离进行拟合计分析,进行网络流量异常判断。
一种基于直觉模糊时间序列图挖掘的网络流量异常检测方法,从网络流量数据中提取源IP地址(Source IP Address,SIP)、目的IP地址(Destination IP Address,DIP)、源端口(Source Port,SPT)、目的端口(Destination Port,DPT)和数据包长度(PacketLength,LEN),通过上述5个属性的信息熵值分别建立5个启发式变阶IFTS预测模型,在时间维度上得到5个并行的熵值直觉模糊时间序列。在任意时刻t,以5个IFTS的值为顶点,两个顶点所代表的IFTS值的变化相似度为顶点之间的边,得到一个空间维度上的5顶点完全图。在时间维度上就得到了一个IFTS图。在t+1时刻,通过5个IFTS模型的预测值可以建立一个预测完全图,通过实际测量数据建立一个实际完全图,结合历史时间序列图的特性对这两个完全图进行挖掘分析,利用异常向量表征图挖掘结果,通过对异常向量间的距离分析,判断t+1时刻网络流量是否异常。
其中,输入:t+1时刻之前的t个时刻的历史流量数据{x1,x2,...,xt};
输出:t+1时刻的流量异常判断结果。
具体的,包括如下步骤:
步骤一:IFTS图构建;
在本发明的一个实施例中,步骤一具体包括如下:
(1)计算历史数据信息熵值
根据如下所示的公式(1)进行信息熵H(X)的计算
Figure BDA0002429398210000071
其中,p(xi)为随机事件xi发生的概率,n为随机事件数量。
计算得到历史流量数据的源IP(SIP)、目的IP(DIP)、源端口(SPT)、目的端口(DPT)和数据包长度(LEN)5个属性的信息熵值,分别为
{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
公式(2)-(6)中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t。
(2)利用IFTS预测模型进行预测
分别对步骤(1)中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型,采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测,分别得到t+1时刻的源IP预测值
Figure BDA0002429398210000081
目的IP预测值/>
Figure BDA0002429398210000082
源端口预测值/>
Figure BDA0002429398210000083
目的端口预测值/>
Figure BDA0002429398210000084
和数据包长度预测值/>
Figure BDA0002429398210000085
(3)建立IFTS图
建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei),Vi为顶点的集合,Ei为边的集合,i=1,2,…,t。从而得到整个时间序列上的IFTS图,然后根据预测数据建立t+1时刻的预测图
Figure BDA0002429398210000086
五顶点图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),如图1所示。其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值。
计算上述5个属性的概率:
Figure BDA0002429398210000091
Figure BDA0002429398210000092
Figure BDA0002429398210000093
Figure BDA0002429398210000094
Figure BDA0002429398210000095
其中,pSIP(x)为源IP地址的概率,pDIP(x)为目的IP地址的概率、pSPT(x)为源端口的概率、pDPT(x)为目的端口的概率,pL(x)为数据包长度的概率。
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,sm为边em的权值,表示顶点vp和vq所代表的熵值的变化相似度,即
Figure BDA0002429398210000096
其中
Figure BDA0002429398210000101
Figure BDA0002429398210000102
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,并且约定
Figure BDA0002429398210000103
Figure BDA0002429398210000104
Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
边的权值反映了该边所连接的两个顶点的信息熵值变化的相似程度,权值越大表示两个信息熵值的变化越相似。需要说明的是,当异常发生时,两端点的信息熵值有可能同时增大,或者同时减小,也有可能一个增大一个减小,根据所发生异常的种类不同而不同。但是在异常的检测阶段,我们只关注是否出现异常,而对于异常的种类不加判断,因此我们只考虑熵值变化幅度的相似度,即在式(13)和(14)中使用了Ht(p)和Ht(q)差值的绝对值。
步骤二:IFTS图挖掘
在本发明的一个实施例中,步骤二具体包括如下:
(1)挖掘频繁子图
分别计算图Gi(i=1,2,...,t)和
Figure BDA0002429398210000105
的所有子图的支持度sup(g),确定支持度阈值supε,进行频繁子图挖掘,得到图Gi和/>
Figure BDA0002429398210000106
的4类频繁子图的个数。具体方法如下:
按所含顶点的个数,可以将图Gt(Vt,Et)的子图分为4类:2顶点子图、3顶点子图、4顶点子图和5顶点子图。在本发明的异常检测算法中,子图的意义在于体现子图所包含的所有顶点之间熵值变化的相似度,因此只有完全图的子图对于我们的研究是有意义的。那么在图Gt(Vt,Et)的4类子图中,完全图的个数分别为:2顶点子图10个,如图2所示;3顶点子图10个,如图2所示;4顶点子图5个,如图2所示;5顶点子图1个,即图1所示的图Gt(Vt,Et)自身。为表述方便,在后续内容中所出现的图和子图,若无特殊说明均指完全图。
在本发明提出的异常检测算法中,对子图支持度的计算进行了重新定义。对于子图gj(Vj,Ej)(j=1,2,...,26),其顶点和边分别为Vj和Ej,定义其支持度sup(gj)为:
Figure BDA0002429398210000111
其中
Figure BDA0002429398210000112
表示子图gj中各顶点信息熵值的变化率的均值,反映了各信息熵值变化的幅度。
Figure BDA0002429398210000113
表示子图gj中各边权值的均值,反映了各信息熵值变化的相似度。
给定支持度阈值supε,频繁子图挖掘的目标就是找出所有使得sup(gj)≥supε的子图gj,称之为频繁子图。
(2)建立异常向量
分别计算图Gi(i=1,2,...,t)和
Figure BDA0002429398210000114
的4类子图中频繁子图所占的比例,即频繁子图的个数除以总子图的个数,得到异常向量/>
Figure BDA0002429398210000115
(i=1,2,...,t)和t+1时刻异常向量的预测值/>
Figure BDA0002429398210000116
(3)建立距离序列
首先,根据t+1时刻流量的实际观测值进行计算,建立5顶点完全图Gt+1(Vt+1,Et+1),并进行频繁子图挖掘,得到t+1时刻异常向量的实际观测值
Figure BDA0002429398210000121
然后,根据式(18)分别计算异常向量
Figure BDA0002429398210000122
与ai(i=1,2,...,t+1)之间的距离,得到距离序列/>
Figure BDA0002429398210000123
/>
Figure BDA0002429398210000124
步骤三:确定异常判定准则
对流量数据的离线分析表明,正常情况下网络流量五个属性的信息熵值是相对平稳的,通过挖掘只能获得非常少的频繁子图,并且在这些有限的频繁子图中以2顶点子图居多,3顶点子图次之,4顶点和5顶点子图几乎没有。但是当网络流量出现异常时,频繁子图数目明显增多,其中以3顶点、4顶点和5顶点子图数目的变化最为明显。这是因为异常发生时,往往会导致多个属性的熵值同时出现明显的增加或减少,而上述的公式(15)定义的子图支持度即反映了各顶点熵值同时发生大幅度变化的相似度。
鉴于此,针对这4类子图建立一个4维的异常向量,用于表示各类子图中频繁子图的比例,这样就可以通过异常向量的变化来判断流量是否出现异常。
具体步骤如下:
记t时刻图Gt(Vt,Et)的异常向量为
Figure BDA0002429398210000125
其中,
Figure BDA0002429398210000126
和/>
Figure BDA0002429398210000127
分别表示图Gt的2顶点子图、3顶点子图、4顶点子图和5顶点子图中频繁子图所占的比例,即各类频繁子图的个数除以各类子图总数。
由历史数据可以得到t+1时刻之前t个时刻的异常向量{a1,a2,…,at},其中
Figure BDA0002429398210000131
因为在检测的过程中会将异常时刻的数据从历史数据中剔除,所以随着时间的推进,保留下来的历史数据均为正常数据,它们的异常向量也都是处于正常范围之内的。
t+1时刻异常向量的预测值
Figure BDA0002429398210000132
由各属性信息熵值IFTS进行预测及相应计算得到,而异常向量的实际观测值/>
Figure BDA0002429398210000133
由实际流量数据进行计算得到,则预测向量/>
Figure BDA0002429398210000134
和实际观测向量at+1之间的标准化欧氏距离为
Figure BDA0002429398210000135
Figure BDA0002429398210000136
的大小反映了预测向量/>
Figure BDA0002429398210000137
与观测向量at+1之间的差异。/>
Figure BDA0002429398210000138
越大,表明两者间的差异越大,则t+1时刻网络流量出现异常的可能性就越大;反之,则出现异常的可能性就越小。
考虑到预测向量
Figure BDA0002429398210000139
与历史数据的异常向量ai(i=1,2,...,t)之间的距离/>
Figure BDA00024293982100001310
也是一个时间序列,并且该时间序列的数据形式简单、趋势平稳,那么就可以采用简单快捷的AR模型来拟合该序列,描述距离/>
Figure BDA00024293982100001311
的动态特征,从而得到距离/>
Figure BDA00024293982100001312
的取值范围,实现异常的自适应判定。
AR模型是p阶自回归模型,记为AR(p),其中p是模型的阶数。其基本思想是:对于平稳、零均值的时间序列,当前观测值与其前面p个观测值有关,由前p个观测值通过线性计算得到。在实际应用中AR模型的阶数通常不超过2,并且AR(2)模型也是最常用的模型。此外,阶数越大,AR模型的参数估计的计算量也越大。因此,综合考虑,本发明选取AR(2)模型来计算网络流量异常检测的判定阈值,具体步骤如下:
(1)距离序列零均值化。AR模型只适用于零均值序列,因此需对历史数据的t个距离值进行零均值化。记距离序列
Figure BDA00024293982100001313
的均值为/>
Figure BDA00024293982100001314
Figure BDA0002429398210000141
Figure BDA0002429398210000142
{x1,x2,...,xt}就是零均值距离序列。
(2)拟合模型。AR(2)模型是:
Figure BDA0002429398210000143
其中,i=3,4,...,t;
Figure BDA0002429398210000144
和/>
Figure BDA0002429398210000145
为AR(2)的系数ei为白噪声,是均值为零、方差为/>
Figure BDA0002429398210000146
的独立同分布高斯随机变量。
由x1,x2,...,xt估计
Figure BDA0002429398210000147
和/>
Figure BDA0002429398210000148
的具体计算过程如下:
Figure BDA0002429398210000149
Figure BDA00024293982100001410
Figure BDA00024293982100001411
Figure BDA00024293982100001412
Figure BDA00024293982100001413
Figure BDA00024293982100001414
和/>
Figure BDA00024293982100001415
的估计式为
Figure BDA0002429398210000151
白噪声ei的方差
Figure BDA0002429398210000152
的估计式为/>
Figure BDA0002429398210000153
(3)确定阈值。AR(2)模型可表示为
Figure BDA0002429398210000154
那么,由零均值化的距离序列{x1,x2,...,xt}就可以得到一个残差序列{e1,e2,...,et}。
Figure BDA0002429398210000155
表示历史数据t个残差ei的平方和的均值。
Figure BDA0002429398210000156
表示t+1时刻距离值的残差与σ的比值,作为检测xt+1是否异常的统计量,其中/>
Figure BDA0002429398210000157
接下来,确定统计量λt+1的取值范围。由残差序列{e1,e2,...,et}计算得到一个相应的比值序列{λ12,...,λt},令
Figure BDA0002429398210000158
和/>
Figure BDA0002429398210000159
分别表示{λ12,...,λt}中的正值和负值组成的序列,个数分别为t+和t-,标准差为σ+和σ-,即
Figure BDA00024293982100001510
Figure BDA00024293982100001511
Figure BDA00024293982100001512
Figure BDA00024293982100001513
那么统计量λt+1的取值范围为
Figure BDA00024293982100001514
就是说当λt+1的值落在这个范围内时,表示xt+1正常。而根据前面的分析可知,判断距离值/>
Figure BDA00024293982100001515
正常与否只需一个最大值,因为/>
Figure BDA00024293982100001516
越小表示网络出现异常的可能性越小,因此阈值/>
Figure BDA0002429398210000161
判定准则如下:
若λt+1≤λε,则表示
Figure BDA0002429398210000162
正常,即t+1时刻网络流量是正常的;
若λt+1>λε,则表示
Figure BDA0002429398210000163
正常,即t+1时刻网络流量出现异常。
若t+1时刻的网络流量未见异常,则引入t+1时刻的流量数据更新历史数据集,继续对t+2时刻的流量进行检测;若t+1时刻的网络流量出现异常,则不更新历史数据集,依然使用{x1,x2,...,xt}作为历史数据继续对t+2时刻的流量进行检测。
此外,由于使用了AR模型拟合距离序列,为了确保拟合的准确性,AR模型的阶数p与距离序列的长度t必须满足以下条件:
0≤p≤0.1×t (36)
由于在本发明中p=2,因此t≥20,即历史距离序列中最少应包含20个距离数据,则本发明的输入数据即历史数据至少应包含t+1时刻之前的21个时刻的流量数据。
下面通过实验对本发明的效果进行验证。
实验主要用到三个数据集,分别为:现有已公开的MAWI实验室发布的2007年8月4日太平洋骨干链路流量数据,CAIDA组织发布的DDoS 2007数据集和Witty Worm数据集。其中,MAWI实验室的流量数据是在Sample point-F采集点(一条带宽为150Mbps的穿越太平洋的骨干链路)上采集的14:00:00~14:15:01共15分钟的流量。
DDoS 2007数据集是CAIDA组织采集到的一次大规模ICMP类型的DDoS攻击,时间为2007年8月4日20:50:08~21:56:16,由几台固定主机向网络中的一台特定服务器发起攻击,以瘫痪其与网络的连接。数据集中只保留了攻击和攻击回应数据,已经尽量将正常数据剔除。Witty Worm数据集是在2004年3月19日20:01:40~3月24日23:01:40期间通过UCSDNetwork Telescope采集到的Witty Worm大规模爆发后的网络流量数据。同样,数据集中也只保留了攻击发生时的异常数据。
从MAWI数据集中随机抽样10%作为实验的背景流量,通过离线分析发现抽样流量较为平稳,满足作为背景流量的条件。由于背景流量持续时间只有15分钟,因此我们分别将DDoS 2007数据集和Witty Worm数据集中前5分钟的异常流量注入背景流量中,作为实验“数据集1”和“数据集2”。
分别在数据集1和数据集2上应用发明的方法进行检测。以数据集1为例,将采样间隔设置为20s,则数据集1共包含45个采样时刻,异常流量从第480s即第25个时刻开始注入,持续300s后在第39个时刻结束。通过计算可以得到流量数据五个属性的信息熵值,如图3所示。
根据公式(36)将历史数据集个数设定为21,则算法将从第22个时刻开始预测。令支持度阈值supε分别取0.3、0.35、0.375和0.4,得到各时刻的异常向量的实际观测值和预测值,如表1所示。
表1中异常发生的时段为25~39时刻,下划线标注的异常向量为用本发明算法检测出的异常点。随着阈值的增大,算法出现误检的次数减少,但是异常点的正确检测次数也随之减少;如果为了追求准确的异常点检测数,而采用较小的阈值,那么误检次数又会随之增大,因此这是一个矛盾,在实际使用中必须根据情况在这两者间做出适当的权衡。
由表1的结果可以得到本发明的算法在数据集1上的检测率(Detection Rate,DR)和虚警率(False Alarm Rate,FAR),如表2所示。
表1数据集1的异常向量观测值和预测值a
Figure BDA0002429398210000171
/>
Figure BDA0002429398210000181
表2算法在数据集1上检测性能
Figure BDA0002429398210000182
其中,DR和FAR的计算如式(37)和式(38):
Figure BDA0002429398210000183
Figure BDA0002429398210000184
同样得到算法在数据集2上的检测率DR和虚警率FAR的值,如表3所示。
表3算法在数据集2上的检测性能
Figure BDA0002429398210000191
为了对本发明所提方法的检测精度进行对比验证,接下来选择在流量异常检测领域广泛使用的三个方法与本发明所提算法进行对比实验:残差比检测方法、基于熵的方法和基于图挖掘的方法。利用检测率随虚警率的变化曲线来评价各方法的检测性能,即接收器特性(Receiver Operating Characteristic,ROC)曲线。四个方法分别在数据集1和数据集2上的ROC曲线对比结果如图6和图7所示。
在ROC曲线上,纵坐标相同(即检测率相同)的点,越靠近纵轴表示检测效果越好;横坐标相同(即虚警率相同)的点,越靠上表示检测效果越好。其中,残差比检测方法的调节参数是异常判断的阈值,基于熵的方法的调节参数是不同窗口间的相对熵的阈值,基于图挖掘方法的调节参数是异常系数的阈值。
在图4中,因DDoS攻击流量较大,导致网络流量也有较大的变化,但是在攻击刚开始的几个时刻内网络中的攻击流量较少,导致流量幅值变化并不明显,因此残差比检测方法的检测效果并不理想,并且该攻击由多个主机发起也使得流量的特征分布在攻击前期不够明显,因此基于图挖掘的方法虽然累计多个维度上的结果,但是由于对多个维度间联系的描述不够全面导致检测效果也较差,基于熵的方法由于增加了检测精度优化算法,综合了多个时刻的结果而使得检测精度较高。
在图5中,因为Witty Worm刚刚爆发时扫描流量较少,同样导致残差比检测方法和基于图挖掘的方法的检测效果较差,并且当异常在多个时刻上的反映都不明显时,基于熵的方法的检测精度优化算法也没有起到很好的作用。
本发明所提算法不仅充分利用了多时刻历史数据中的信息,而且同时考虑了多属性熵值间的变化幅值和变化相似度,使得算法能够发现网络中多属性间的规律性变化,即使变化幅值较小也能有效的检测。

Claims (5)

1.基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,包括如下步骤:
步骤一、IFTS图构建;包括:
步骤11、计算历史数据信息熵值;具体的:
根据公式(1)进行信息熵H(X)的计算;
Figure FDA0004201702970000011
其中,p(xi)为随机事件xi发生的概率;
计算得到历史流量数据的源IP、目的IP、源端口、目的端口和数据包长度5个属性的信息熵值,分别为:
{H1(SIP),H2(SIP),...,Ht(SIP)} (2)
{H1(DIP),H2(DIP),...,Ht(DIP)} (3)
{H1(SPT),H2(SPT),...,Ht(SPT)} (4)
{H1(DPT),H2(DPT),...,Ht(DPT)} (5)
{H1(LEN),H2(LEN),...,Ht(LEN)} (6)
其中,Hi(SIP)、Hi(DIP)、Hi(SPT)、Hi(DPT)和Hi(LEN)分别表示第i时刻源IP的信息熵、目的IP的信息熵、源端口的信息熵、目的端口的信息熵和数据包长度的信息熵,时刻i=1,2,…,t;
步骤12、利用IFTS预测模型进行预测;
步骤13、建立IFTS图;
步骤二、IFTS图挖掘;包括:
步骤21、挖掘频繁子图;
分别计算图Gi(i=1,2,...,t)和
Figure FDA0004201702970000012
的所有子图的支持度sup(g),确定支持度阈值supε,进行频繁子图挖掘,得到图Gi和/>
Figure FDA0004201702970000013
的4类频繁子图的个数;
步骤22、建立异常向量;
分别计算图Gi(i=1,2,...,t)和
Figure FDA0004201702970000021
的4类子图中频繁子图所占的比例,得到异常向量
Figure FDA0004201702970000022
(i=1,2,...,t)和t+1时刻异常向量的预测值/>
Figure FDA0004201702970000023
步骤23、建立距离序列;
根据t+1时刻流量的实际观测值进行计算,建立5顶点完全图Gt+1(Vt+1,Et+1),并进行频繁子图挖掘,得到t+1时刻异常向量的实际观测值
Figure FDA0004201702970000024
根据式(18)分别计算异常向量
Figure FDA0004201702970000025
与ai(i=1,2,...,t+1)之间的距离,得到距离序列
Figure FDA0004201702970000026
Figure FDA0004201702970000027
步骤三、确定异常判定准则。
2.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤一中的步骤12包括:
对步骤11中的5个属性的信息熵值建立各自的启发式变阶IFTS预测模型,采用阶数随序列实时变化的高阶预测规则对t+1时刻5个属性的信息熵值进行预测,分别得到t+1时刻的源IP预测值
Figure FDA0004201702970000028
目的IP预测值/>
Figure FDA0004201702970000029
源端口预测值/>
Figure FDA00042017029700000210
目的端口预测值/>
Figure FDA00042017029700000211
和数据包长度预测值/>
Figure FDA00042017029700000212
3.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤一中的步骤13包括:
建立历史数据各时刻上的五顶点完全图Gi(Vi,Ei),Vi为顶点的集合,Ei为边的集合,i=1,2,…,t,得到整个时间序列上的IFTS图,然后根据预测数据建立t+1时刻的预测图
Figure FDA0004201702970000031
4.如权利要求3所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的五顶点完全图的建立方法如下:
记t时刻得到的5顶点完全图为Gt(Vt,Et),其中顶点vp∈Vt(p=1,2,3,4,5)和边em∈Et(m=1,2,...,10)的表示方法分别为:
顶点的计算方法如下:
利用t-1时刻到t时刻之间从网络中获取的流量数据进行计算,得到t时刻的源IP地址、目的IP地址、源端口、目的端口和数据包长度5个属性的信息熵的值,分别记为源IP地址信息熵Ht(SIP)、目的IP地址信息熵Ht(DIP)、源端口信息熵Ht(SPT)、目的端口信息熵Ht(DPT)和数据包长度信息熵Ht(LEN),作为5个顶点v1、v2、v3、v4和v5的值;
计算上述5个属性的概率:
Figure FDA0004201702970000032
Figure FDA0004201702970000033
Figure FDA0004201702970000034
Figure FDA0004201702970000035
Figure FDA0004201702970000036
边的计算如下:
记em=(vp,vq)为连接顶点vp和vq的边,表示顶点vp和vq所代表的熵值的变化相似度,即:
Figure FDA0004201702970000037
其中,
Figure FDA0004201702970000041
/>
Figure FDA0004201702970000042
Δp表示t时刻顶点vp所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率,Δq表示t时刻顶点vq所代表的熵值Ht(p)和Ht(q)较t-1时刻的变化率;Ht(p)为t时刻顶点vp所代表的熵值,Ht-1(p)为t-1时刻顶点vp所代表的熵值;Ht(q)为t时刻顶点vq所代表的熵值,Ht-1(q)为t-1时刻顶点vq所代表的熵值。
5.如权利要求1所述的基于直觉模糊时间序列图挖掘的网络流量异常检测方法,其特征在于,所述的步骤三包括如下:
记t时刻图Gt(Vt,Et)的异常向量为:
Figure FDA0004201702970000043
其中,
Figure FDA0004201702970000044
和/>
Figure FDA0004201702970000045
分别表示图Gt的2顶点子图、3顶点子图、4顶点子图和5顶点子图中频繁子图所占的比例;
由历史数据可以得到t+1时刻之前t个时刻的异常向量{a1,a2,…,at},其中
Figure FDA0004201702970000046
t+1时刻异常向量的预测值
Figure FDA0004201702970000047
由各属性信息熵值IFTS进行预测及相应计算得到,而异常向量的实际观测值/>
Figure FDA0004201702970000048
由实际流量数据进行计算得到,则预测向量/>
Figure FDA0004201702970000049
和实际观测向量at+1之间的标准化欧氏距离为:
Figure FDA00042017029700000410
Figure FDA00042017029700000412
的大小反映了预测向量/>
Figure FDA00042017029700000411
与观测向量at+1之间的差异。/>
CN202010231462.XA 2020-03-27 2020-03-27 基于直觉模糊时间序列图挖掘的网络流量异常检测方法 Active CN111460026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010231462.XA CN111460026B (zh) 2020-03-27 2020-03-27 基于直觉模糊时间序列图挖掘的网络流量异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010231462.XA CN111460026B (zh) 2020-03-27 2020-03-27 基于直觉模糊时间序列图挖掘的网络流量异常检测方法

Publications (2)

Publication Number Publication Date
CN111460026A CN111460026A (zh) 2020-07-28
CN111460026B true CN111460026B (zh) 2023-06-02

Family

ID=71680112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010231462.XA Active CN111460026B (zh) 2020-03-27 2020-03-27 基于直觉模糊时间序列图挖掘的网络流量异常检测方法

Country Status (1)

Country Link
CN (1) CN111460026B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112087450B (zh) * 2020-09-09 2022-11-04 北京明略昭辉科技有限公司 一种异常ip识别方法、系统及计算机设备
CN112788066B (zh) * 2021-02-26 2022-01-14 中南大学 物联网设备的异常流量检测方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
WO2017064734A1 (en) * 2015-10-16 2017-04-20 Politecnico Di Bari Method for determining the modal parameters of road or rail vehicles and for the indirect characterization of road or rail profiles
CN110460622A (zh) * 2019-09-12 2019-11-15 贵州电网有限责任公司 一种基于态势感知预测方法的网络异常检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413038A (zh) * 2013-08-01 2013-11-27 雷英杰 基于矢量量化的长期直觉模糊时间序列预测方法
WO2017064734A1 (en) * 2015-10-16 2017-04-20 Politecnico Di Bari Method for determining the modal parameters of road or rail vehicles and for the indirect characterization of road or rail profiles
CN110460622A (zh) * 2019-09-12 2019-11-15 贵州电网有限责任公司 一种基于态势感知预测方法的网络异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
使用交叉熵检测和分类网络异常流量;颜若愚等;《西安交通大学学报》(第06期);全文 *
基于IFTS的云计算网络动态负载均衡方法;任神河等;《系统工程理论与实践》(第05期);全文 *
基于信息熵技术的网络流量异常监测研究;邓小清;《信息与电脑(理论版)》(第23期);全文 *

Also Published As

Publication number Publication date
CN111460026A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
Blazek et al. A novel approach to detection of “denial–of–service” attacks via adaptive sequential and batch–sequential change–point detection methods
Ramaki et al. RTECA: Real time episode correlation algorithm for multi-step attack scenarios detection
US20210124983A1 (en) Device and method for anomaly detection on an input stream of events
CN111107102A (zh) 基于大数据实时网络流量异常检测方法
CN103441982A (zh) 一种基于相对熵的入侵报警分析方法
CN111460026B (zh) 基于直觉模糊时间序列图挖掘的网络流量异常检测方法
CN113032238B (zh) 基于应用知识图谱的实时根因分析方法
Haider et al. Detecting anomalous behavior in cloud servers by nested-arc hidden semi-Markov model with state summarization
CN106411921A (zh) 基于因果贝叶斯网络的多步攻击预测方法
CN111709028A (zh) 一种网络安全状态评估和攻击预测方法
CN113821793B (zh) 基于图卷积神经网络的多阶段攻击场景构建方法及系统
CN112364304B (zh) 一种区块链的日蚀攻击检测方法及装置
CN112153221B (zh) 一种基于社交网络图计算的通信行为识别方法
CN113542236A (zh) 一种基于核密度估计和指数平滑算法的异常用户检测方法
CN113064932A (zh) 一种基于数据挖掘的网络态势评估方法
Ruiz et al. Storms prediction: Logistic regression vs random forest for unbalanced data
Kholidy et al. Attack prediction models for cloud intrusion detection systems
CN111782491A (zh) 一种磁盘故障预测方法、装置、设备及存储介质
CN114218998A (zh) 一种基于隐马尔可夫模型的电力系统异常行为分析方法
Muhati et al. Asynchronous advantage actor-critic (a3c) learning for cognitive network security
Gao et al. The prediction role of hidden markov model in intrusion detection
Lagzian et al. Frequent item set mining-based alert correlation for extracting multi-stage attack scenarios
Wang et al. Network traffic anomaly detection algorithm based on intuitionistic fuzzy time series graph mining
CN110662220B (zh) 基于时空相关性和信息熵的无线传感器网络异常检测方法
Qi et al. Iterative anomaly detection algorithm based on time series analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant