CN110460458A - 基于多阶马尔科夫链的流量异常检测方法 - Google Patents
基于多阶马尔科夫链的流量异常检测方法 Download PDFInfo
- Publication number
- CN110460458A CN110460458A CN201910301114.2A CN201910301114A CN110460458A CN 110460458 A CN110460458 A CN 110460458A CN 201910301114 A CN201910301114 A CN 201910301114A CN 110460458 A CN110460458 A CN 110460458A
- Authority
- CN
- China
- Prior art keywords
- time
- network flow
- flow
- network
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 40
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000012847 principal component analysis method Methods 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 22
- 238000005516 engineering process Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- KJSJBKBZMGSIPT-UHFFFAOYSA-N 4-oxo-3-phenylmethoxypyran-2-carboxylic acid Chemical compound O1C=CC(=O)C(OCC=2C=CC=CC=2)=C1C(=O)O KJSJBKBZMGSIPT-UHFFFAOYSA-N 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 241000700605 Viruses Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0876—Aspects of the degree of configuration automation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/30—Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Automation & Control Theory (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于多阶马尔科夫链的流量异常检测方法,包括:利用正常历史流量数据构建基于马尔科夫模型的流量正常行为轮廓,并训练得到马尔科夫模型的参数;基于EWMA和滑动窗口机制,利用t时刻的预测值和滑动窗口内网络流的出现概率的标准差,构建t时刻的判定阈值;对t时刻的网络流,判断其数据包的状态,以将t时刻的网络流转化为状态序列It;利用训练好的马尔科夫模型计算状态序列It的出现概率Pr(It),并将该出现概率Pr(It)与t时刻的判定阈值σt进行比较;若Pr(It)>σt,则判定t时刻的网络流为正常流量;否则,判定t时刻的网络流为异常流量。
Description
技术领域
本发明涉及计算机网络管理技术领域,具体涉及一种基于多阶马尔科夫链的流量异常检测方法。
背景技术
互联网和信息技术是当今世界科学技术研究中发展最为快速的技术之一,因其方便快捷、移动性好、价格低廉等特点,正在改变着人们的生活方式。小到聊天、购物、娱乐,大到航天航空、武器导弹都离不开互联网。互联网的飞速发展推动了全球化的生产和生活方式的深刻变革。随着网络理论技术的发展、网络硬件性能的不断增强,整个互联网的流量规模也在不断的增加。互联网时代中网络应用急速地扩张,虽有利于网络用户高效便捷地生活,利于网络资源的共享,但同时,在享受网络便利的过程中,网络流量异常却总是带给用户难以防备的危害。
网络流量异常检测是异常检测和网络流量分类的交叉领域,旨在发现网络中的异常流量,识别出各种攻击类型(例如DDoS攻击、蠕虫病毒等),发现网络的异常行为。互联网中无时无刻不发生着各种各样的网络流量异常,而这一系列的流量异常问题都需要网络流量异常检测技术参与解决。网络流量异常检测技术亦具有非常高的应用价值,主要体现在:
其一,网络流量异常检测技术可以帮助网络管理者及时发现网络中的流量异常问题,检查网络设备故障,合理分配网络资源,为用户提供更好的网络服务。比如当网络游戏出现大量卡顿,在线视频清晰度、流畅度不佳等网络流量异常现象时,流量异常检测技术就可以及时帮助技术人员发现这些异常背后的问题,从而带给用户更好的服务体验,为企业带来经济效益;
其二,网络空间安全离不开网络流量异常检测技术。互联网中存在着各式各样的流量异常,其中一些可能对企业服务、用户信息安全造成严重威胁。比如服务器收到海量的地址请求而最终宕机崩溃,商务交易类应用遭受不明攻击导致用户财产丢失等等。近几年内,全世界范围内的互联网大规模异常事件也频频发生,以DDoS攻击和蠕虫病毒为代表的网络攻击已经对全世界各种网络用户带来了不同程度的危害。网络流量异常检测技术就是要准确识别出这些网络攻击,为之后的解决方案提供支持,为网络用户的信息和财产安全保驾护航。
准确地说,网络流量异常指的是网络流量行为偏离其正常行为的情形。“正常”意味着符合某种常规或典型的模型,以一种自然的方式,常规的或预料中的状态、形式、数量或程度发生,也强调符合某种已经建立的水准或模式。在网络系统中,正常行为会由于网络的动态变化、噪声而发生改变,所以网络正常行为的确定还必须能够适应网络环境的变化。
公开号为CN106941490A的专利文献提供一种基于双向二维主成分分析的在线网络流量异常检测方法。该方法包括:新的流量在t+1时刻到来,对新流量和原始流量共同构成的矩阵序列做BPCA降维,得到两个降维矩阵Ut+1、Vt+1。然后,计算Ut+1、Vt+1和原始流量的降维矩阵Ut、Vt之间的余弦相似度,最后与阈值比较,识别异常流量。该方案使用了三种不同的BPCA方法,包括通过迭代进行计算的BPCA计算方法、近似的BPCA方法以及通过增量型方法加速的BPCA方法。该方案通过衡量流量数据在最关键的维度上的差异情况来判断流量是否异常。但是其判定阈值是固定的,缺乏动态自适应性,难以适应不断动态变化的网络环境,在面对复杂的网络情况时,实际使用效果可能不理想。
公开号为CN106411597A的专利文献提供一种基于神经网络模型的网络流量异常检测方法,该方法包括:对网络流量进行采样,采样获得由流量数据样本构成的时间序列;以预设尺度的时间窗口,从时间序列中提取样本子序列;将样本子序列作为输入样本输入到分类模型中进行模型训练,以确定分类模型的参数;根据参数确定后的分类模型,测试获得网络流量正常和异常的分类结果。该方法将提取的流量数据样本构成的时间序列作为样本进行模型训练及分类检测,考虑了网络流量的变化具有时间上的延续性和相关性,引入了时间信息到异常流量的检测和分类中,一定程度上提高了对网络流量异常行为检测的准确度和灵活度。但是该方法使用的神经网络模型较为简单,表达能力有限;另一方面,样本子序列的每一元素值也仅仅是简单地平均得到的,导致该方法的鲁棒性不够强,在面对复杂多变的网路环境时,可能难以有效使用。
公开号为CN108965055A的专利文献提供了一种基于历史时间取点法的网络流量异常检测方法,包括下述步骤:1.在网络流量采集点部署端口镜像路由,捕获全流量数据包,形成网络流时序数据源;2.利用固定时间窗口对网络流时序数据源进行网络流量的行为特征统计,形成网络行为时序特征向量;3.把每个网络行为时序特征向量的维特向量作为输入,用历史时间取点法选择历史数据,使用绝对变化、相对变化和趋势变化的量化方法分别累积计算出异常偏离度值;4.用证据累积方法将异常偏离度值进行累积,根据异常偏离度数据分布趋势设定阈值,对当前时间窗口网络行为的状态实现异常决策。该方法实现了持续监控网络的威胁事件和趋势,降低了计算成本。但是该方法中对于历史数据的选择,只是使用普通的历史时间取点法,并没有衡量历史流量和当前流量的相关性,使得该方法在历史流量数据存在正常网络波动等情况下的检测效果可能不理想。
公开号为CN107404471A的专利文献提供了一种基于ADMM算法的网络流量异常检测方法,该方法包括如下步骤:1.读取网络流量数据,将网络流量数据进行不同时间段集合划分;2.对所述网络流量数据进行预处理;3.从所述网络流量数据中提取网络行为特征值;4.对所述网络行为特征值进行数据标准化处理;5.以数据标准化处理后的网络行为特征值为基础,对不同时间段集合的网络流量数据进行异常行为检测分析。该方法虽然具有较强的鲁棒性,但是其运算开销较大,适用范围较为局限。
可见,如何全面地构建网络流量的正常行为轮廓对于网络流量异常检测系统的建立起着关键的基础性作用。
以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
马尔科夫系列概念是随机过程中的重要理论,其中马尔科夫性作为解释复杂时间进程的一个简单概念,反映了自然界中一种普遍动态规律,在语音识别、路径辨识等人工智能领域有着广泛应用。本发明的主要目的在于针对前述现有的流量异常检测方案所存在的缺陷,提出一种基于多阶马尔科夫链的流量异常检测方法,通过采用马尔科夫链模型对流量数据进行建模,结合聚类方法确定马尔科夫模型中的状态数量,全面地建立网络流量的正常行为轮廓,并使用基于指数加权移动平均值(EWMA)和滑动窗口机制构建动态自适应的判定阈值,以提升流量异常检测方法的准确性、鲁棒性和动态自适应性。
本发明为达上述目的提出以下技术方案:
一种基于多阶马尔科夫链的流量异常检测方法,包括以下步骤:
S1、利用正常历史流量数据,构建基于马尔科夫模型的流量正常行为轮廓,并训练得到马尔科夫模型的参数;其中,网络流代表马尔科夫模型的马尔科夫链,网络流中数据包的状态代表马尔科夫链的状态;
S2、基于指数加权移动平均值和滑动窗口机制,利用t时刻的预测值和滑动窗口内网络流的出现概率的标准差,构建t时刻的判定阈值σt;其中,t时刻的预测值是指t时刻之前的网络流的出现概率的加权平均值;
S3、对t时刻的网络流,判断其数据包的状态,以将t时刻的网络流转化为状态序列It;
S4、利用训练好的马尔科夫模型计算状态序列It的出现概率Pr(It),并将该出现概率Pr(It)与t时刻的判定阈值σt进行比较;若Pr(It)>σt,则判定t时刻的网络流为正常流量;否则,判定t时刻的网络流为异常流量。
马尔科夫性作为解释复杂时间进程的一个简单概念,反映了自然界中一种普遍动态规律。马尔科夫链在语音识别,路径辨识等人工智能领域有着广泛的应用。而本发明上述技术方案所提出的基于多阶马尔科夫链的流量异常检测方法,通过使用多阶马尔科夫链模型对网络流量的正常行为轮廓建模来进行网络流量异常检测,弥补了马尔科夫链模型在网络流量异常检测上的应用空白。同时,本发明也为其它一系列马尔科夫模型在网络流量异常检测上的更多有效应用提供了参考,开辟了道路。
网络的正常流量在一天或一段时间内通常会呈现一定的变化规律。同时,正常流量内数据包的分布也可能存在一定的动态规律可循。如果能够捕捉到正常流量每日的变化规律,对网络流量正常行为轮廓的构建将会大有裨益,比单纯地静态构建更鲁棒。鉴于此,本发明将网络数据包看作马尔科夫链的状态,将一条网络流看作一条马尔科夫链,利用聚类方法自动确定马尔科夫链的状态个数,对网络流量的正常行为轮廓进行建模,有效提升了检测的准确率和鲁棒性。同时,通过结合EWMA(指数加权移动平均值)和滑动窗口机制,使得本发明能够根据最新的网络流量状况自适应地确定判定阈值,大大增强了动态自适应性,而且减少了由人为设定参数带来的局限性和不确定性。
附图说明
图1是本发明的基于多阶马尔科夫链的流量异常检测方法流程图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步说明。
网络流是在一段时间内具有相同五元组的数据包序列。因此,网络流量的行为可以通过数据包来描述。本发明采用聚类的方法确定网络流中的每个数据包的状态并生成状态序列,以网络流代表马尔科夫模型的马尔科夫链,以网络流中数据包的状态代表马尔科夫链的状态,从而构建流量的正常行为轮廓,可以很好地识别网络流量异常。
为此,本发明的具体实施方式提出了一种基于多阶马尔科夫链的流量异常检测方法,参考图1,包括以下步骤S1~S4:
S1、利用正常历史流量数据,构建基于马尔科夫模型的流量正常行为轮廓,并训练得到马尔科夫模型的参数;其中,网络流代表马尔科夫模型的马尔科夫链,网络流中数据包的状态代表马尔科夫链的状态。
S2、基于指数加权移动平均值和滑动窗口机制,利用t时刻的预测值和滑动窗口内网络流的出现概率的标准差,构建t时刻的判定阈值σt;其中,t时刻的预测值是指t时刻之前的网络流的出现概率的加权平均值;
S3、对t时刻的网络流,判断其数据包的状态,以将t时刻的网络流转化为状态序列It;
S4、利用训练好的马尔科夫模型计算状态序列It的出现概率Pr(It),并将该出现概率Pr(It)与t时刻的判定阈值σt进行比较;若Pr(It)>σt,则判定t时刻的网络流为正常流量;否则,判定t时刻的网络流为异常流量。
在构建流量正常行为轮廓时,我们利用聚类的方法确定数据包的聚类类型,然后将数据包的状态定义为它的聚类类型。聚类方法具体包括:首先为数据包选取一初始特征空间,包括数据包的n-gram统计特征以及数据包的大小、到达时间间隔、时延、有效载荷比、载荷是否加密、包头协议类型和传输层协议。应当理解的是,该初始特征空间不限于上述给定,其维度和具体的特征可以有所不同。然后使用主成分分析法将所述初始特征空间的维数降到一预设维度(比如将上述初始特征空间降到五维),作为聚类特征空间。再在得到的聚类特征空间中,对前述给出的正常历史流量数据中所有网络流的数据包,使用基于密度的无需给定聚类个数的聚类算法(例如DBSCAN算法)进行聚类。这样一来,网络流中的所有数据包的状态按时间顺序组成该网络流的状态序列,记为I={i1,i2,...,iT},T为网络流中数据包总数。对于新来的网络流,利用最近邻法则确定其中每个数据包的状态,即数据包的状态定义为聚类特征空间上离它最近的聚类类别。这样就完成了所有网络流到马尔科夫链状态序列的转化。
数据包的n-gram统计特征构造方法如下:
以2-gram为例,我们称两个字节为一个元组,如(12c3)。则这样的元组共有65536种,我们根据统计结果取出现次数最多的500个元组,一个数据包负载中这500个元组各自出现的个数可以构成一个500维的向量。该即为该数据包的2-gram统计特征向量。例如,假设一个数据包的负载的字节内容为:03f5c203f5,则其2-gram元组即为{(03f5),(f5c2),(c203),(03f5)}。若四种元组都在出现次数最多的500个元组内,则其2-gram统计特征向量也就是(03f5)对应位置为2,(f5c2),(c203)对应位置为1、其余位置为0的向量。
另外,数据包的数值型特征包括数据包大小、数据包到达时间间隔、时延和有效载荷比。类别性特征包括载荷是否加密、包头协议类型、传输层协议。对于数值型特征,我们将根据每个特征的整体情况进行归一化处理,之后再对每个数据包的所有维度进行Z标准化处理以提升接下来的聚类算法的效果。对于类别性特征,我们将对每种类别型特征进行独热向量化处理,具有n个类别的类别型特征将被编码为n维的独热向量。
本发明将网络流看作马尔科夫链,则本发明对多阶马尔科夫链的定义如下:
定义马尔科夫链{Xt,t=1,2,3,...}有K个状态,其状态空间Ω={1,2,...,K};t表示时刻,Xt是一随机变量,该随机变量的具体取值为聚类类别it;当马尔科夫链{Xt,t=1,2,3,...}在t时刻所处的状态为it的概率只与前面n个状态有关时,即
则称马尔科夫链{Xt,t=1,2,3,...}为n阶马尔科夫链;若式(1)与t无关,则称该多阶马尔科夫链是齐次的。其中,i1,i2,...,it∈Ω,{it-n,it-(n-1),it-(n-2),...,it-1}为该n阶马尔科夫链的状态序列。
对于一条网络流,通过将其转化为马尔科夫链的状态序列,并求解状态序列的出现概率,来衡量该网络流为正常流量的可能性。而状态序列的出现概率的计算如下:
状态序列I={i1,i2,...,iT}的出现概率Pr(I)为:
其中,I1、I2、…、IT表示网络流的第1、2、…、T个数据包的状态,表示以状态序列{i1,i2,…,in}作为马尔科夫链的起始状态的概率,表示以状态序列{iT-(n-1),...,iT-1,iT}离开马尔科夫链的概率,表示在Xt-1=it-1、Xt-2=it-2、…、Xt-(n-1)=it-(n-1)以及Xt-n=it-n的条件下,Xt=it的概率。
式(2)中和即为所述马尔科夫模型的参数,训练时通过统计得到:统计以状态序列{i1,i2,...,in}开始的网络流占总网络流的比例得到统计以状态序列{iT-(n-1),...,iT-1,iT}结束的网络流占总网络流的比例得到统计状态序列{it-n,...,it-1,it}出现的比例得到
在利用马尔科夫模型构建了流量正常行为轮廓之后,对每一时刻需要检测的网络流,都计算动态的判定阈值,即本发明的判定阈值并非一成不变的,每一个判定时刻都需要进行计算。即每一时刻,都基于指数加权移动平均值和滑动窗口机制,利用该时刻的预测值和滑动窗口内网络流的出现概率的标准差,构建该时刻的判定阈值。比如,在t时刻,判定阈值σt通过下式构建:
其中,V为滑动窗口内网络流的出现概率的标准差,β为标准差系数,表示t时刻的预测值,且有:
其中,α为平滑系数,0<α<1,Pt-1为t-1时刻网络流的出现概率,为t-1时刻的预测值。
滑动窗口机制中,t时刻的滑动窗口为:t时刻之前最近的w个正常网络流的出现概率按出现时间先后顺序排列而得到。而滑动窗口的更新机制是:在完成t时刻的网络流量异常检测后,若检测结果显示为正常流量,则保持窗口大小w不变,将滑动窗口向前推移,以把t时刻网络流的出现概率纳入滑动窗口;否则,滑动窗口不变。
在计算出t时刻的判定阈值之后,只需计算出t时刻的网络流的出现概率(等同于t时刻网络流所转化成的状态序列的出现概率)即可进行是否异常的判断。对t时刻的网络流,可以利用最近邻法则确定其中每个数据包的状态,即数据包的状态定义为聚类特征空间上离它最近的聚类类别,从而将t时刻的网络流转化为状态序列It。需要说明的是,在实际检测过程中,每条网络流的数据包数量并不一定完全相同,因此实际应用时,我们不宜采用每条网络流的所有数据包来代替该网络流,而有研究发现网络流的前4或5个数据包就足以对网络流进行精确分类了。因此,对于每一条新来的网络流,我们可以仅对其前4个或5个数据包进行聚类,得到的状态序列可以作为该网络流所对应的马尔科夫链状态序列。
在将t时刻的网络流转化为状态序列It之后,即可利用前述公式(2)计算其出现概率Pr(It),根据该出现概率的大小来衡量该网络流为正常流量的可能性,即Pr(It)>σt,则判定t时刻的网络流为正常流量;否则,判定为异常流量。如此即可完成对网络流量的异常检测工作。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。
Claims (7)
1.一种基于多阶马尔科夫链的流量异常检测方法,其特征在于,包括以下步骤:
S1、利用正常历史流量数据,构建基于马尔科夫模型的流量正常行为轮廓,并训练得到马尔科夫模型的参数;其中,网络流代表马尔科夫模型的马尔科夫链,网络流中数据包的状态代表马尔科夫链的状态;
S2、基于指数加权移动平均值和滑动窗口机制,利用t时刻的预测值和滑动窗口内网络流的出现概率的标准差,构建t时刻的判定阈值σt;其中,t时刻的预测值是指t时刻之前的网络流的出现概率的加权平均值;
S3、对t时刻的网络流,判断其数据包的状态,以将t时刻的网络流转化为状态序列It;
S4、利用训练好的马尔科夫模型计算状态序列It的出现概率Pr(It),并将该出现概率Pr(It)与t时刻的判定阈值σt进行比较;若Pr(It)>σt,则判定t时刻的网络流为正常流量;否则,判定t时刻的网络流为异常流量。
2.如权利要求1所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,步骤S1中利用聚类的方法确定数据包的状态,具体包括:
为数据包选取一初始特征空间,包括数据包的n-gram统计特征以及数据包的大小、到达时间间隔、时延、有效载荷比、载荷是否加密、包头协议类型和传输层协议;
使用主成分分析法将所述初始特征空间的维数降到一预设维度,作为聚类特征空间;
在所述聚类特征空间中,对所述正常历史流量数据中所有网络流的数据包,使用基于密度的无需给定聚类个数的聚类算法进行聚类,每个数据包的状态定义为其所属的聚类类别;
从而,网络流中的所有数据包的状态按时间先后顺序构成该网络流的状态序列I={i1,i2,...,iT},T为网络流中数据包数量。
3.如权利要求2所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,步骤S1包括:
S11、多阶马尔科夫链的定义:定义马尔科夫链{Xt,t=1,2,3,...}有K个状态,其状态空间Ω={1,2,...,K};t表示时刻,Xt是一随机变量,该随机变量的具体取值为聚类类别it;当马尔科夫链{Xt,t=1,2,3,...}在t时刻所处的状态为it的概率只与前面n个状态有关,即
时,马尔科夫链{Xt,t=1,2,3,...}为n阶马尔科夫链;
其中,i1,i2,...,it∈Ω,{it-n,it-(n-1),it-(n-2),...,it-1}为该n阶马尔科夫链的状态序列;
S12、状态序列I={i1,i2,...,iT}的出现概率Pr(I)为:
其中,I1、I2、…、IT表示网络流的第1、2、…、T个数据包的状态,表示以状态序列{i1,i2,...,in}作为马尔科夫链的起始状态的概率,表示以状态序列{iT-(n-1),...,iT-1,iT}离开马尔科夫链的概率, 表示在Xt-1=it-1、Xt-2=it-2、…、Xt-(n-1)=it-(n-1)以及Xt-n=it-n的条件下,Xt=it的概率;
其中,和即为所述马尔科夫模型的参数,训练时通过统计得到,具体包括:统计以状态序列{i1,i2,...,in}开始的网络流占总网络流的比例得到统计以状态序列{iT-(n-1),…,iT-1,iT}结束的网络流占总网络流的比例得到统计状态序列{it-n,…,it-1,it}出现的比例得到
4.如权利要求1所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,步骤S2中,t时刻的判定阈值σt通过下式构建:
其中,V为滑动窗口内网络流的出现概率的标准差,β为标准差系数,表示t时刻的预测值,且有:
其中,α为平滑系数,0<α<1,Pt-1为t-1时刻网络流的出现概率,为t-1时刻的预测值。
5.如权利要求3所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,t时刻的滑动窗口是:t时刻之前最近的w个正常网络流的出现概率按出现时间先后顺序排列而得到;
并且,在完成t时刻的网络流量异常检测后,若检测结果显示为正常流量,则保持窗口大小w不变,将滑动窗口向前推移,以把t时刻网络流的出现概率纳入滑动窗口;否则,滑动窗口不变。
6.如权利要求3所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,步骤S3包括:对t时刻的网络流,利用最近邻法则确定其中每个数据包的状态,即数据包的状态定义为聚类特征空间上离它最近的聚类类别,从而将t时刻的网络流转化为状态序列It。
7.如权利要求6所述的基于多阶马尔科夫链的流量异常检测方法,其特征在于,利用训练好的马尔科夫模型计算t时刻状态序列It的出现概率Pr(It)包括:
利用步骤S12中得到的Pr(I)计算公式来计算t时刻状态序列It的出现概率Pr(It)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301114.2A CN110460458B (zh) | 2019-04-15 | 2019-04-15 | 基于多阶马尔科夫链的流量异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910301114.2A CN110460458B (zh) | 2019-04-15 | 2019-04-15 | 基于多阶马尔科夫链的流量异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110460458A true CN110460458A (zh) | 2019-11-15 |
CN110460458B CN110460458B (zh) | 2022-03-11 |
Family
ID=68480909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910301114.2A Active CN110460458B (zh) | 2019-04-15 | 2019-04-15 | 基于多阶马尔科夫链的流量异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110460458B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995714A (zh) * | 2019-12-06 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 一种检测对Web站点的团伙攻击的方法、装置及介质 |
CN111614578A (zh) * | 2020-05-09 | 2020-09-01 | 北京邮电大学 | 一种基于指数加权和拐点检测的网络资源分配方法及装置 |
CN111913850A (zh) * | 2020-07-31 | 2020-11-10 | 北京嘀嘀无限科技发展有限公司 | 数据异常检测方法、装置、设备和存储介质 |
CN114218051A (zh) * | 2021-09-22 | 2022-03-22 | 成都网丁科技有限公司 | 一种时延异常检测方法 |
CN115037634A (zh) * | 2022-05-30 | 2022-09-09 | 中电信数智科技有限公司 | 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法 |
CN115102781A (zh) * | 2022-07-14 | 2022-09-23 | 中国电信股份有限公司 | 网络攻击处理方法、装置、电子设备和介质 |
CN115296846A (zh) * | 2022-07-06 | 2022-11-04 | 中电信数智科技有限公司 | 一种基于马尔可夫链的异常网络流量回溯方法 |
CN115996133A (zh) * | 2022-06-27 | 2023-04-21 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN116016298A (zh) * | 2023-01-04 | 2023-04-25 | 重庆邮电大学 | 一种基于隐半马尔可夫模型的5g通信协议异常检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651568A (zh) * | 2009-07-01 | 2010-02-17 | 青岛农业大学 | 一种网络流量预测和异常检测方法 |
CN106330949A (zh) * | 2016-09-13 | 2017-01-11 | 哈尔滨工程大学 | 一种基于马尔科夫链的入侵检测方法 |
CN106411597A (zh) * | 2016-10-14 | 2017-02-15 | 广东工业大学 | 一种网络流量异常检测方法及系统 |
CN107438052A (zh) * | 2016-05-26 | 2017-12-05 | 中国科学院沈阳自动化研究所 | 一种面向未知工业通信协议规约的异常行为检测方法 |
WO2018177147A1 (en) * | 2017-03-31 | 2018-10-04 | Huawei Technologies Co., Ltd. | User-level kqi anomaly detection |
-
2019
- 2019-04-15 CN CN201910301114.2A patent/CN110460458B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101651568A (zh) * | 2009-07-01 | 2010-02-17 | 青岛农业大学 | 一种网络流量预测和异常检测方法 |
CN107438052A (zh) * | 2016-05-26 | 2017-12-05 | 中国科学院沈阳自动化研究所 | 一种面向未知工业通信协议规约的异常行为检测方法 |
CN106330949A (zh) * | 2016-09-13 | 2017-01-11 | 哈尔滨工程大学 | 一种基于马尔科夫链的入侵检测方法 |
CN106411597A (zh) * | 2016-10-14 | 2017-02-15 | 广东工业大学 | 一种网络流量异常检测方法及系统 |
WO2018177147A1 (en) * | 2017-03-31 | 2018-10-04 | Huawei Technologies Co., Ltd. | User-level kqi anomaly detection |
Non-Patent Citations (3)
Title |
---|
徐小梅: "基于马尔可夫链模型的异常入侵检测方法研究", 《万方数据》 * |
肖喜等: "基于Shell命令和多阶Markov链模型的用户伪装攻击检测", 《电子学报》 * |
蒋华等: "基于KL距离的自适应阈值网络流量异常检测", 《计算机工程》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110995714B (zh) * | 2019-12-06 | 2022-07-26 | 杭州安恒信息技术股份有限公司 | 一种检测对Web站点的团伙攻击的方法、装置及介质 |
CN110995714A (zh) * | 2019-12-06 | 2020-04-10 | 杭州安恒信息技术股份有限公司 | 一种检测对Web站点的团伙攻击的方法、装置及介质 |
CN111614578A (zh) * | 2020-05-09 | 2020-09-01 | 北京邮电大学 | 一种基于指数加权和拐点检测的网络资源分配方法及装置 |
CN111913850A (zh) * | 2020-07-31 | 2020-11-10 | 北京嘀嘀无限科技发展有限公司 | 数据异常检测方法、装置、设备和存储介质 |
CN114218051A (zh) * | 2021-09-22 | 2022-03-22 | 成都网丁科技有限公司 | 一种时延异常检测方法 |
CN114218051B (zh) * | 2021-09-22 | 2022-07-22 | 成都网丁科技有限公司 | 一种时延异常检测方法 |
CN115037634A (zh) * | 2022-05-30 | 2022-09-09 | 中电信数智科技有限公司 | 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法 |
CN115037634B (zh) * | 2022-05-30 | 2024-04-16 | 中电信数智科技有限公司 | 一种基于马氏链和贝叶斯网络的k8s网络故障预测方法 |
CN115996133B (zh) * | 2022-06-27 | 2024-04-09 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN115996133A (zh) * | 2022-06-27 | 2023-04-21 | 西安电子科技大学 | 一种工业控制网络行为检测方法以及相关装置 |
CN115296846A (zh) * | 2022-07-06 | 2022-11-04 | 中电信数智科技有限公司 | 一种基于马尔可夫链的异常网络流量回溯方法 |
CN115296846B (zh) * | 2022-07-06 | 2024-04-16 | 中电信数智科技有限公司 | 一种基于马尔可夫链的异常网络流量回溯方法 |
CN115102781B (zh) * | 2022-07-14 | 2024-01-09 | 中国电信股份有限公司 | 网络攻击处理方法、装置、电子设备和介质 |
CN115102781A (zh) * | 2022-07-14 | 2022-09-23 | 中国电信股份有限公司 | 网络攻击处理方法、装置、电子设备和介质 |
CN116016298B (zh) * | 2023-01-04 | 2024-04-09 | 重庆邮电大学 | 一种基于隐半马尔可夫模型的5g通信协议异常检测方法 |
CN116016298A (zh) * | 2023-01-04 | 2023-04-25 | 重庆邮电大学 | 一种基于隐半马尔可夫模型的5g通信协议异常检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110460458B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110460458B (zh) | 基于多阶马尔科夫链的流量异常检测方法 | |
CN112398779B (zh) | 一种网络流量数据分析方法及系统 | |
CN113259325B (zh) | 基于麻雀搜索算法优化Bi-LSTM的网络安全态势预测方法 | |
WO2017152734A1 (zh) | 一种数据处理方法及相关设备、系统 | |
CN117041017B (zh) | 数据中心的智能运维管理方法及系统 | |
CN109951462B (zh) | 一种基于全息建模的应用软件流量异常检测系统及方法 | |
CN110912908B (zh) | 网络协议异常检测方法、装置、计算机设备和存储介质 | |
CN111431819A (zh) | 一种基于序列化的协议流特征的网络流量分类方法和装置 | |
CN109951499B (zh) | 一种基于网络结构特征的异常检测方法 | |
CN117176482B (zh) | 一种大数据网络安全防护方法及系统 | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN113556319A (zh) | 物联网下基于长短期记忆自编码分类器的入侵检测方法 | |
CN114218998A (zh) | 一种基于隐马尔可夫模型的电力系统异常行为分析方法 | |
CN113254485A (zh) | 实时数据流异常检测方法及系统 | |
Lagzian et al. | Frequent item set mining-based alert correlation for extracting multi-stage attack scenarios | |
US20230409422A1 (en) | Systems and Methods for Anomaly Detection in Multi-Modal Data Streams | |
CN115085948A (zh) | 基于改进d-s证据理论的网络安全态势评估方法 | |
CN112422546A (zh) | 一种基于变邻域算法和模糊聚类的网络异常检测方法 | |
Qi et al. | Iterative anomaly detection algorithm based on time series analysis | |
CN112363891A (zh) | 一种基于细粒度事件和KPIs分析的异常原因获得方法 | |
Xin et al. | Research on feature selection of intrusion detection based on deep learning | |
CN102611714B (zh) | 基于联系发现技术的网络入侵预测方法 | |
Hsieh et al. | On the classification of mobile broadband applications | |
CN113328986A (zh) | 基于卷积神经网络与lstm结合的网络流量异常检测方法 | |
CN110689074A (zh) | 一种基于模糊集特征熵值计算的特征选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |