CN112839017B

CN112839017B - 一种网络攻击检测方法及其装置、设备和存储介质

Info

Publication number: CN112839017B
Application number: CN201911167335.1A
Authority: CN
Inventors: 张宇
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2022-06-03
Anticipated expiration: 2039-11-25
Also published as: CN112839017A

Abstract

本申请实施例提供了一种网络攻击检测方法及其装置、设备和存储介质，其中，所述方法包括确定待检测的网络数据流的传入包速率；如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流；如此，能够快速准确地区分突发数据流和攻击数据流，从而能够提高网络攻击检测的检测精度和检测效率。

Description

一种网络攻击检测方法及其装置、设备和存储介质

技术领域

本发明属于互联网技术领域，涉及但不限于一种网络攻击检测方法及其装置、设备和存储介质。

背景技术

随着网络技术和网络应用的发展，网络安全问题显得越来越重要。分布式拒绝服务(Distributed Denial of Service，DDos)攻击随着互联网的快速发展，也日益猖獗。DDoS攻击已经存在很多年，在DDoS攻击中，合法用户被剥夺使用基于Web的服务。通常情况下，DDoS攻击是通过在互联网上免费提供的数以百万计的计算机系统以协同的方式发起破坏，通过向受害者发送冗余数据包流导致其拒绝服务，从而使合法客户端不可用。目前高速率DDoS攻击(High Rate DDos，HR-DDoS)如今已经成为主流，流量超过600吉比特每秒(Gbite per second，Gbps)。及时发现此类攻击以确保基于互联网的服务和应用程序的可用性至关重要。

此外，还有一种网络流量也能够导致拒绝为Web服务的合法用户提供服务，称为突发流事件(Flash Event，FE)。FE类似于HR-DDoS攻击，其中成千上万的合法用户试图同时访问特定的计算机资源。这种合法流量的突然增长同样会，导致网络不能及时的响应服务。然而FE不是一种DDoS攻击。HR-DDoS攻击和FE都具有很多常见的特性，例如流量速率的变化、网络服务器响应的延迟等，但是它们之间的参数差异很小，区分HR-DDoS攻击和FE是检测应用层DDoS攻击的一个难点。

发明内容

本申请实施例提供一种网络攻击检测方法及其装置、设备和存储介质，能够快速准确地区分突发数据流和攻击数据流，从而能够提高网络攻击检测的检测精度和检测效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种网络攻击检测方法，所述方法包括：

确定待检测的网络数据流的传入包速率；

如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；

如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流。

本申请实施例提供一种网络攻击检测装置，所述系统至少包括：第一确定模块、第二确定模块和第三确定模块，其中：

所述第一确定模块，用于确定待检测的网络数据流的传入包速率；

所述第二确定模块，用于如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；

所述第三确定模块，用于如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流。

本申请实施例提供一种网络攻击检测设备，所述网络攻击检测设备至少包括：存储器、通信总线和处理器，其中：

所述存储器，用于存储网络攻击检测程序；

所述通信总线，用于实现处理器和存储器之间的连接通信；

所述处理器，用于执行存储器中存储的网络攻击检测程序，以实现其他实施例提供的网络攻击检测方法的步骤。

本申请实施例提供一种存储介质，所述存储介质上存储有网络攻击检测程序，所述网络攻击检测程序被处理器执行时实现其他实施例提供的网络攻击检测方法的步骤。

本申请实施例提供了一种网络攻击检测方法、装置、设备及存储介质，其中首先根据数据流的传入包速率，来确定网络数据流为正常数据流还是疑似攻击数据流，如果传入包速率大于速率阈值，则认为是疑似攻击数据流，再进一步确定网络数据流的网络数据流与参考数据流中源IP地址的分散程度差异量，如果所述分散程度差异量大于预设的差异阈值，说明网络数据流中有大量新的IP地址，此时可以确定该网络数据流为攻击数据流，能够快速准确地区分突发数据流和攻击数据流，从而能够提高网络攻击检测的检测精度和检测效率。

附图说明

图1为本申请实施例网络攻击检测方法的实现流程示意图；

图2为本申请实施例网络攻击检测方法的再一实现流程示意图；

图3为本申请实施例网络攻击检测方法又一的实现流程示意图；

图4A为本申请实施例GE在攻击流量和合法流量之间引起的信息差异示意图；

图4B本申请实施例

-熵在攻击流量和合法流量之间引起的信息差异示意图；

图5A为本申请实施例GE在合法流量和FE之间引起的信息差异示意图；

图5B为本申请实施例

-熵在合法流量和FE之间引起的信息差异示意图；

图5C为本申请实施例GE在HR-DDoS攻击流和FE之间引起的信息差异示意图；

图5D为本申请实施例

-熵在HR-DDoS攻击流和FE之间引起的信息差异示意图；

图6为本申请实施例网络攻击检测装置的组成结构示意图；

图7为本申请实施例网络攻击设备的组成结果示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的具体技术方案作进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，将相关技术中DDos攻击检测方法进行说明。

第一、基于流量特征的检测方法。

在正常网络和发生DDoS攻击的情况下，两者在流量特征上的差异性是比较大的，可以利用这一特性作为判定是否发生DDoS攻击的标准。这种方法最大的优点在于实时性较好且易于实现，但是由于网络流量的复杂性，容易漏查攻击流量或误查正常流量。最典型的例子就是超文本传输协议(HyperText Transfer Protocol，HTTP)Flood攻击与FlashEvent之间存在着很多相似性，极其容易将两者混淆。

第二，基于用户行为的检测方法。

与正常用户相比，攻击程序通常缺乏主观性，从而使得生成的HTTP请求序列具有很高的机械性，而正常用户的浏览行为具有高度的主观性，例如热度内容点击、页面浏览时间、页面浏览顺序等等都存在着一定的规律性。根据这些特征，研究方向便可以从用户行为入手。

第三，基于主机测试的检测方法。

该方法主要依据攻击程序不具有人类的主观性和智能性，当服务器性能下降时，就会生成一些问题发送给客户端，从而根据客户端所回应的答案来选择是维持相应用户的连接还是断开此连接。

第四，采用不同样本流之间信息差异的思想，根据源互联网协议地址(InternetProtocol，IP)和传入包速率计算广义熵(Generalized Entropy，GE)度量，以检测HR-DDoS攻击。但是该方案方法没有考虑将FE从HR-DDoS攻击中区分出来，因为这两种类型的流量都有许多类似的行为特征。

第五，通过计算熵率的变化以区分行为类似的FE和HR-DDoS攻击。他们提出的方法假定攻击流量中的数据包大小是统一的，但是复杂的攻击者可以通过智能地改变数据包大小来逃避所提出的检测方法。

第六，使用由同一恶意攻击软件生成的流之间的流动相似性，且可能相互关联的思想。并使用K最近邻算法来聚集从相同的恶意代码或机器生成的流量。该方案具有高分类率、低响应时间等特性。然而，如果攻击者定制配置参数来产生不相似的攻击流，那么该方案就可能会失败。

第七，一种基于隐半马尔科夫模型(Hid-den Sem-iMarkov Models，HSMM)的异常检测方案，先对正常用户的行为进行建模，随后再判断所提取的网络流量包特征是否与已建立的正常用户模型有较大的差异，若有，则判定存在攻击。类似的，还有一种模糊综合评判检测算法，也是利用了同样的原理，由于对实际情况中服务器是否受到了攻击做一个准确的判定比较困难，所以该方法就提取了网络流量中诸多描述异常的参数中的部分进行判定。这类方法的不足之处在于，算法复杂度很高，对用户行为特征进行统计建模所需的工作量特别大，对于大流量大型网络难以做到实时检测。

第八，计算源IP的熵值，新IP速率的变化，传入流量的源IP分布与中央处理器(Central Processing Unit，CPU)负载，CPU和内存使用等服务器级统计量的相关性，以检测HR-DDoS攻击和FE。并使用实际数据集验证了该方法。该方法所使用的CPU和内存等负载数据，需要在攻击发生一段时间之后才能产生明显偏差，虽然能准确检测攻击但是实时性较差。

针对上述所提出的网络攻击检测方法普遍存在的算法复杂度高、时空复杂度大、实时性较差且网络环境单一等缺点的技术问题，本申请实施例提出一种基于新型信息论的应用层DDoS攻击检测方法(Detection Ddos with Novel Information Theory，Dnit)。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

(1)熵

熵用于度量物理系统中的不确定性、无序性或随机性。熵还可以用来表示通过观察无序系统获得的信息量。

(2)香农熵

香农熵的定义如公式(1-1)所示：

其中，p_i是事件X的概率，即{x₁,x₂,....,x_n}，0≤p_i≤1。

(3)α-熵

α-熵又可以称为α阶GE或者Renyi的α熵，定义如下：

对于α≥0且α≠1，GE度量能够突出概率分布的主要部分；对于α≥0，GE度量对频繁发生的事件更为敏感；而对于α＜0，GE度量对频率较低的事件更为敏感。通过改变α阶的值，可以导出不同类型的熵。例如，当α＝0时，信息熵的最大值也被称为Hartley熵，即H₀(X)＝log₂n；当α→0时，达到最小信息熵H_∞＝(X)；当α→1时，得到香农熵。

(4)

-熵

-熵可以作为对α阶GE和广义信息距离(Generalized Information Distance，GID)指标的增强。

-熵定义如下：

其中，sin()为正弦函数。

当α→0时，H'_α＝H(X)，其中H(x)是香农熵。

-熵满足以下属性：

(a)对称性：H'_α(X)是p_i的置换对称函数；

(b)连续性：H'_α(p,1-p)是一个连续函数；

(c)正态性：H'_α(1/2，1/2)＝1；

(d)非相加性：H'_α(P,Q)≠H_α(P)+H_α(Q)；

(e)单调性：关于p_i单调递增；

(f)凹度：H'_α(X)是一个凹函数。

对于差异度量，可以用来量化一组概率分布之间的差异。对于

的任意两个离散概率分布P＝(p₁,p₂,...,p_n)和Q＝(q₁,q₂,…,q_n)，GID定义为：

当α→1时，可以推导出Kullbeck-Leibler。同样，本发明使用基于Csiszar的f-divergence和H'_α(X)熵的

-差异度量。

-差异度量定义如下：

-差异度量满足以下性质：

(a)D'_α(P,Q)≥0；

(b)D_jα(P,Q)＝0，if P＝Q；

(c)D_jα(P,Q)＝KL(P,Q)，α→0。

-差异度量的确定函数如下：

F(x)的值在不同α阶上的走势随着α的微小增加呈指数增长。

每个信息理论度量必须具有以下三个属性才能用作检测度量：

(a)身份属性：

D_α(P,Q)＝0,D₁(P,Q)＝0；whileP＝Q (1-7)；

(b)对称性：

D_α(P,Q)＝D_α(Q,P),D₁(P,Q)＝D₁(Q,P) (1-8)；

(c)三角不等式：

D_α(P,Q)≤D_α(P,L)+D_α(L,Q) (1-9)；

D₁(P,Q)≤D₁(P,L)+D₁(L,Q) (1-10)；

-熵和

-差异度量都遵循所有这些特性，因此可以用作检测度量。这两个指标对于特定问题的解决具有更高的收敛速度。因此，与现有的广泛使用的信息理论指标相比，使用

-熵和

-差异度量可以获得更好的结果。

本申请实施例提供一种网络攻击检测方法，图1为本申请实施例网络攻击检测方法的实现流程示意图，如图1所示，所述方法包括：

步骤S101，确定待检测的网络数据流的传入包速率。

这里，步骤S101可以是网络攻击检测设备实现的，该网络攻击检测设备可以是具有计算能力和通信能力的终端设备，例如台式计算机、笔记本电脑等；还可以是服务器。服务器可以是指一台服务器，也可以是由多台服务器构成的服务器集群、云计算中心等等，在此不加以限定。

传入包速率可以认为是单位时间内传入的数据包个数。传入包速率可以反映传入网络攻击检测设备的数据流量。

步骤S102，如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

这里，步骤S102可以是网络攻击检测设备实现的。

如果所述传入包速率大于速率阈值，可以认为此时当前数据流量很大，可能出现了网络攻击，此时需要通过确定网络数据流与参考数据流中源IP地址的分散程度差异量，以进一步确定该网络数据流为攻击数据流还是突发数据流。其中，参考数据流可以认为是合法数据流，在其他实施例中还可以称为正常数据流、基准数据流。

该速率阈值可以是根据参考数据流确定的参考速率与容差因子确定的。

需要说明的是网络数据流中的源IP地址与参考数据流中的源IP地址可以是不同的。源IP地址的分散程度越高说明源IP地址越分散，也就是说有很多不同的源IP地址。在一些实施例中，源IP地址的分散程度可以用信息熵来表征，进一步地，源IP地址的分散程度可以用

-熵来表示。

步骤S103，如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流。

这里，步骤S103可以是网络攻击检测设备实现的。

如果所述分散程度差异量大于预设的差异阈值，说明当前的网络数据流中的源IP地址的分散程度与参考数据流中的源IP地址的分散程度差别很大，由于参考数据流为合法数据流，那么此时可以认为当前的网络数据流为攻击数据流。

在一些实施例中，如果分散程度差异量小于或者等于该差异阈值，说明当前的网络数据流中的源IP地址的分散程度与参考数据流中源IP地址的分散程度差别不大，此时可以认为当前的网络数据流为突发数据流。其中突发数据流可以认为是由于大量正常用户访问而造成的。因为是正常用户因此并不会有大量新IP出现，且由于网络拥塞的影响，该时间段内会出现大量重复的IP，因此源IP地址的分散程度偏小。

在本申请实施例提供的网络攻击检测方法中，首先根据数据流的传入包速率，来确定网络数据流为正常数据流还是疑似攻击数据流，如果传入包速率大于速率阈值，则认为是疑似攻击数据流，再进一步确定网络数据流的网络数据流与参考数据流中源IP地址的分散程度差异量，如果所述分散程度差异量大于预设的差异阈值，说明网络数据流中有大量新的IP地址，此时可以确定该网络数据流为攻击数据流，因此能够快速准确地区分突发数据流和攻击数据流，从而能够提高网络攻击检测的检测精度和检测效率。

基于前述的实施例，本申请实施例再提供一种网络攻击检测方法，图2为本申请实施例网络攻击检测方法的再一实现流程示意图，如图2所示，所述方法包括：

步骤S201，网络攻击检测设备采集网络数据流和参考数据流。

这里，步骤S201在实现是，可以按照预设的时间窗口大小并以预设的采样周期采集网络数据流，该预设的时间窗口大小也即其他实施例中的第一窗口时长，例如可以是1秒(second，s)，采样周期例如可以是60s，此时也就是说每间隔60s，采集1s中的网络数据流。参考数据流可以是已经确定为是正常数据流的数据流，采集参考数据流时采用的时间窗口大小和采样周期可以是与采样网络数据流的时间窗口大小和采样周期相同的，还可以是不同的。在一些实施例中，采集参考数据流时采用的时间窗口大小也即其他实施例中的第二窗口时长，例如可以是2s，采样周期可以是60s。

步骤S202，网络攻击检测设备确定待检测的网络数据流的传入包速率。

这里，步骤S202在实现时，可以是首先获取所述网络数据流在所述第一窗口时长内传入的数据包数量；然后再基于所述第一窗口时长和所述数据包数量，确定所述网络数据流的传入包速率。传入包速率可以反映传入网络攻击检测设备的数据流量。

步骤S203，网络攻击检测设备判断网络数据流的传入包速率是否大于预设的速率阈值。

这里，如果网络数据流的传入包速率大于速率阈值，可以认为此时当前数据流量很大，可能出现了网络攻击，此时进入步骤S204进一步确定该网络数据流为攻击数据流还是突发数据流；如果网络数据流的传入包速率小于或者等于速率阈值，可以认为此时数据流量不大，此时进入步骤S210。

步骤S204，网络攻击检测设备确定所述网络数据流中源IP地址的分散参数。

这里，步骤S204可以通过以下步骤实现：

步骤S2041，确定所述网络数据流在预设的第一窗口时长内传入的各个数据包的源IP地址的第一出现概率。

这里，步骤S2041在实现时，可以首先统计第一窗口时长内各个源IP地址出现的次数，然后再根据各个源IP地址出现的次数确定各个源IP地址的第一出现概率。

步骤S2042，基于各个所述源IP地址的出现概率，确定所述网络数据流的

-熵。

这里，步骤S2042在实现时，可以通过公式(1-3)来确定网络数据流的

-熵。其中公式(1-3)中的p_i即为第i个源IP地址的第一出现概率，在本申请实施例中，广义参数α可以为0.5。

-熵对网络数据流中的微小变化都高度敏感，且具有更高的收敛速度。

步骤S2043，将所述网络数据流的

-熵确定为所述网络数据流中源IP地址的分散参数。

步骤S205，网络攻击检测设备确定所述参考数据流中IP地址的参考分散参数。

这里，步骤S205在实现时，可以是首先确定所述参考数据流在预设的第二窗口时长内传入的各个数据包的源IP地址的第二出现概率，然后基于各个所述源IP地址的第二出现概率，确定所述参考数据流的

-熵，并将所述参考数据流的

-熵确定为所述参考数据流中源IP地址的参考分散参数。

步骤S206，网络攻击检测设备基于所述分散参数和所述参考分散参数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

这里，假设网络数据流的分散参数用

表示，参考分散参数用

表示，那么步骤S206在实现时，可以通过公式(2-1)来确定网络数据流与参考数据流中源IP地址的分散程度差异量：

其中，

为分散程度差异量。

步骤S207，网络攻击检测设备判断所述分散程度差异量是否大于预设的差异阈值。

这里，如果所述分散程度差异量大于预设的差异阈值，说明当前的网络数量流中的源IP的分散程度与参考数据流中的源IP的分散程度差别很大，可以认为是出现了大量不同的源IP地址，此时进入步骤S208；如果所述分散程度差异量小于或者等于差异阈值，说明当前的网络数量流中的源IP的分散程度与参考数据流中的源IP的分散程度差别不大，此时进入步骤S209。

步骤S208，网络攻击检测设备确定所述网络数据流为攻击数据流。

步骤S209，网络攻击检测设备将所述网络数据流确定为突发数据流。

步骤S210，网络攻击检测设备将所述网络数据流确定为正常数据流。

在本申请实施例提供的网络攻击检测方法中，用网络数据流中源IP地址的

-熵来衡量源IP地址的分散程度，同样地用参考数据流中源IP地址的

-熵来衡量参考数据流中源IP地址的分散程度，进而再根据网络数据流中源IP地址的

-熵和参考数据流中源IP地址的

-熵来确定网络数据流与参考数据流中源IP地址的分散程度差异量，并通过分散程度差异量来确定是否受到网络攻击。由于

-熵对信息量的差异具有更大的放大能力且具有更高的收敛速度，也就是说

-熵即便是对微小的变化都具有高度的敏感性，因此利用本申请实施例提供的网络攻击检测方法对网络数据流进行网络攻击检测时，不仅检测精度高，并且能在短时间内达到收敛，从而提高检测效率。

在一些实施例中，还可以通过以下步骤确定网络数据流与参考数据流中源IP地址的分散程度差异量：

步骤204’，确定所述网络数据流在预设的第一窗口时长内各个数据包的源IP地址的第一出现次数。

这里，步骤S204’在实现时，可以统计第一窗口时长内各个源IP地址的标识以及第一出现次数。

步骤S205’，确定所述参考数据流在预设的第二窗口时长内各个数据包的源IP地址的第二出现次数。

步骤S206’，分别基于所述第一窗口时长和所述第二窗口时长对所述第一出现次数和第二出现次数进行归一化，得到归一化的第一出现次数和归一化的第二出现次数。

这里，步骤S206在实现时，可以是基于第一窗口时长对第一出现次数进行归一化得到归一化的第一出现次数，基于第二窗口时长对第二出现次数进行归一化得到归一化的第二出现次数。

在一些实施例中，如果第一窗口时长和第二窗口时长相同时，也可以不进行归一化。直接通过第一出现次数和第二出现次数确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

步骤S207’，基于所述归一化的第一出现次数和归一化的第二出现次数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

这样，通过步骤S204’至步骤S207’就完成了确定网络数据流与参考数据流中源IP地址的分散程度差异量的过程。也就是说，在一些实施例中，步骤S204至步骤S206可以用步骤S204’至步骤S207’代替，同样可以确定网络数据流与参考数据流中源IP地址的分散程度差异量。

在一些实施例中，步骤S207’可以通过一些步骤实现：

步骤S207’1，基于所述归一化的第一出现次数确定所述网络数据流中各个源IP地址的第三出现概率。

这里，步骤S207’1在实现时，可以是先计算源IP地址出现的总次数，再基于各个源IP地址的归一化的第一出现次数确定各个源IP地址的第三出现概率。

步骤S207’2，基于所述归一化的第二出现次数确定所述参考数据流中各个源IP地址的第四出现概率。

这里，步骤S207’2的实现过程与步骤S207’1的实现过程类型，此处不再赘述。

步骤S207’3，基于所述第三出现概率和所述第四出现概率，确定所述网络数据流与参考数据流的

-差异度量。

这里，步骤S207’3可以通过公式(2-2)实现：

其中，p_i为第i个源IP地址的第三出现概率，q_i为第i个源IP地址的第四出现概率。

步骤S207’4，将所述

-差异度量确定为所述网络数据流与参考数据流中源IP地址的分散程度差异量。

这里，由于

-差异度量同样对微小的变化具有高度敏感性，且具有较高的收敛速度，因此，通过步骤S207’1至步骤S207’4确定出网络数据流与参考数据流中源IP地址的分散程度差异量，进而再基于分散程度差异量确定是否存在网络攻击时，同样能够达到更高的准确率和检测效率。

基于前述的实施例，本申请实施例再提供一种网络攻击检测方法，图3为本申请实施例网络攻击检测方法又一的实现流程示意图，如图3所示，所述方法包括：

步骤S301，依次输入数据流的各个数据包。

步骤S302，提取所述数据包的特征。

步骤S303，分别获取各个数据包的源IP，并将n_c加1。

步骤S304，判断是否到达预设的时间窗口大小。

这里，如果到达预设的时间窗口大小，进入步骤S305；如果没有达到预设的时间窗口大小，进入步骤S301。

步骤S305，确定当前数据流在该时间窗口的数据包数量和源IP地址的

-熵。

这里，步骤S305在实现时可以通过公式(1-3)确定源IP地址的

-熵。

步骤S306，确定当前数据流和正常数据流之间的信息距离。

这里，步骤S306在实现时，可以首先确定出正常数据流中源IP地址的

-熵，再进一步根据当前数据流的源IP地址的

-熵和正常数据流中源IP地址的

-熵确定当前数据流和正常数据流之间的信息距离。

步骤S307，判断当前数据流的数据包数量是否大于预设的数量阈值。

这里，如果当前数据流的数据包数量大于数量阈值，则进入步骤S309；如果当前数据流的数据包数量小于或者等于数量阈值，则进入步骤S308。

步骤S308，确定当前数据流为正常数据流。

步骤S309，判断当前数据流和正常数据流之间的信息距离是否大于预设的距离阈值。

这里，如果当前数据流和正常数据流之间的信息距离大于距离阈值，进入步骤S311；如果当前数据流和正常数据流之间的信息距离小于或者等于距离阈值，进入步骤S310。

步骤S310，确定当前数据流为突发数据流。

步骤S311，确定当前数据流为DDos攻击数据流。

本申请实施例提供的网络攻击检测方法的工作原理是僵尸网络中的所有攻击节点都以协同的方式(预定义的共享相似逻辑程序)一起工作，以便向受害者发送攻击流量。其在攻击流量情况下导致流量相似性，而在合法网络流量下高度可变，且会引发来自合法流量中的攻击流量的数据包头部特征出现明显偏差。

在本申请实施例中，对网络攻击的检测过程从提取数据包的包头特征开始，对网络流量进行分类。在每个时间窗口T_w中分类网络流量，并计算这些网络流量上的基于源IP的

-熵H'_α(srcIP)和

-差异度量D'_α(P||Q)，如下所定义的：(3-1)

其中，srcIP_i为第i个源IP，

为第i个源IP出现的概率，其中，

X_i是事件X的概率。

在本申请实施例提供的网络攻击检测方法中，使用基于当前源IP的熵值与H'_α(srcIP)正常流量之间的熵值的差(称之为信息距离差异(Information Distance，ID))作为检测度量。ID的定义如公式(3-3)所示：

其中，

分别是基于正常和当前网络流量的源IP地址的

-熵。同样，ID可以使用

-差异度量来计算。需要注意的是，为了使用

-差异度量来计算ID，两个概率分布中的源IP数量需要在时间窗口中被归一化。根据ID的定义，以下定义了不同类型的网络流量。

合法流量：

给定的采样网络流量如果满足公式(3-4)则被称之为合法流量：

n_C≤n_N+a×d_n (3-4)；

HR-DDoS流：

给定的采样网络流量如果满足公式(3-5)则被称之为HR-DDoS流：

FE流：

给定的采样网络流量如果满足公式(3-6)则被称之为FE流：

其中，n_C为当前流量中每个T_w的数据包数量，n_N为当前流量中每个T_w的数据包数量，d_n是进入数据包的标准偏差，ID_C为当前流量和正常流量之间的信息差异，a和k为容差因子，且a，k∈I，I是整数集合。容差因子a和k是设计参数。

是在网络正常状态下计算的合法流量之间的ID值的标准差，即没有攻击和FE。因子n_N+a×d_n即为数量阈值σ₁，因子

即为距离阈值σ₂，两者都是通过分析网络中不受攻击的基准行为计算出来的。首先，检测过程通过将每个T_w中的当前进入数据包的数量(即n_C)与数量阈值σ₁进行比较来分离正常流量和可疑流量。然后，当ID_C与距离阈值σ₂有明显偏差时，则说明这个攻击被检测到。

其中，如果ID值大于阈值σ₁，则将其归为攻击流量；否则作为合法流量。所提出的检测系统部署在受害端，以分析目标受害者Web服务器的完整网络流量。

对于任何网络攻击检测系统的工作，时间窗口的大小非常关键，如果调整不当，检测系统可能会正常地发出事件信号，但可能无法准确检测事件发生的类型。在本申请实施例中，设定T_w＝1s，采样周期为120s。通过使用t＝0.1，0.5，1.5和10s的不同窗口大小来检测网络的基准行为(无攻击)，计算

-熵的标准偏差。正常数据流所采用的时间窗口大小选择在

-熵的标准差最小的地方(表示当前网络相对稳定)。

在本申请实施例中，使用了源IP地址，传入包速率的包头特征来计算所提出的检测度量。当发生针对应用层的HR-DDoS攻击和FE事件时都会引起网络流量的大幅增加，即单位时间窗口内的数据包数量会异常高。利用传入包速率这一特性来判定当前网络环境是否存在异常。

若判定为异常，则需要计算源IP地址熵值。由于HR-DDoS攻击和FE事件都是以高层协议流(HTTP流)，即以正常传输控制协议(Transmission Control Protocol，TCP)连接和IP分组为前提的，所以源IP地址分布是真实的。在正常情况下，不同的用户数量少且会访问不同的服务，熵值会维持在一个稳定的水平；当发生HR-DDoS攻击时，出现大量新的IP，会引起熵值变大，熵值越大表示源IP地址越分散；而当发生FE事件时，由于是大量正常用户访问，并不会有大量新IP出现，且由于网络拥塞的影响，该时间段内会出现大量重复的IP，熵值会偏小。所以根据这一特性来具体区分HR-DDoS攻击和FE事件。

由于网络流量的高度动态性，广义参数α的值影响任何广义熵检测系统的检测率。根据Berezinski等，α的值取决于网络流量的异常类型。他们使用相关的概念来设定广义α参数的最优范围，本发明选择适当的广义参数α值。对于GE度量，当α→1时公式(1-2)导出香农熵，选择α＝1时的信息差异作为比较误报率(False Positive Rate，FPR)的依据；当α→0时，公式(1-3)中的

-熵等于香农熵，选择α＝0.01时的信息差异作为比较FPR的依据。

其中，

sh_E是香农熵。同样，对于GID度量，当α→1时公式(1-5)推导出KL，选择α＝1时的信息差异作为比较FPR的依据；当α→0时公式(1-5)所示的

-差异度量等于KL，选择α＝0.01时的信息差异作为比较FPR的依据。

其中，

表1和表2分别显示了不同类型流量下降低FPR的结果。本发明计算递增的α阶的GE和

-熵，可以看到指标间的差异随着α阶数的增加而不断增加，但是与GE相比

熵的增长速度要快得多，同样，对

-差异度量也是如此。在α＝0.5的情况下，

-熵和

-差异度量都分别比α＝15时，GE和GID度量(最佳结果)结果的FPR低。因此，选择广义参数α＝0.5作为新的度量与现有的指标α＝15来比较结果。

表1、GE和

-熵对降低FPR的对比

表2、GID和

-差异度量对降低FPR的对比

为了更有力说明本申请实施例网络攻击检测方法的可行性，在本申请实施例中设计了一个基于仿真的分布式服务测试平台，其是一个真实系统和仿真系统的混合体，用于重放流量、跟踪并生成DDoS攻击和FE数据集。该测试平台由5个物理节点组成，每个节点运行Linux和Windows操作系统，并安装V-核心仿真器(用于增加虚拟节点的数量)，一个4核Linux服务器作为受害者Web服务器。为了生成合成流量，合法的客户端和攻击者随机分布在每个节点中。在本申请实施例中使用MITLincoln数据集的合法流量作为合法的基准流量行为；使用FIFA世界杯数据集作为FE流量；从CAIDA数据集中提取流量作为HR-DDoS攻击流量；使用D-ITG流量生成器来生成合法的HTTP流量。

检测HR-DDoS攻击的ID对比

对于在发生攻击时，GE和

-熵在攻击流量和合法流量之间引起的信息差异对比如图4A和图4B所示。通过对比图4A和图4B可以看出，与GE度量相比，即使在较小的α阶上，

-熵也能引出更大的信息差异。对于HR-DDoS攻击，

-熵显著放大了信息差异，因此比GE更有效。同样的，

-差异度量和GID相比也出现相似的结果。

检测FE事件的ID对比

此外，在本实施例中还验证了使用Dnit检测FE流量的可行性。由于DDoS攻击和FE都会导致网络流量突然增加，即单位时间窗口内的传入包速率极为相似，这就导致两者的共性很强，所以区分起来相对困难。在本申请实施例中根据每个源IP地址分布计算熵值，以突出不同类型网络流量的传入请求模式的差异。在这种情况下，GE和

-熵在合法流量和FE之间引起的信息差异对比如图5A和图5B所示。通过对比图5A和图5B可以看出，

-熵引起合法流量和FE之间的信息差异更大；GE和

-熵在HR-DDoS攻击流和FE之间引起的信息差异对比如图5C和图5D所示。通过对比图5C和图5D可以看出，

-熵仍然能够放大DDoS攻击和FE之间的ID，从而有效的检测出DDoS攻击。

此外，在本申请实施例中，使用几种检测系统评估参数来衡量所提出的指标的有效性。对于任何检测系统，攻击流量的检测被称之为正面事件，合法流量被称之为负面事件。基于这两个事件，在本申请实施例中提出四个变量组合，分别是真实正面事件(TruePositive，TP)、真实负面事件(True Negative，TN)、虚假正面事件(False Positive，FP)、虚假负面事件(False Negative，FN)。当检测系统正确分类攻击时，TP就会增加，而当正常事件被错误地分类时，FP会增加；同样，当正常数据被正确分类为合法时，TN增加，而当检测系统未检测到攻击时，FN增加。

本申请实施例所提出的检测系统目标是产生最大的TP和TN值，同时减少FP和FN的值。基于这些不同的决策变量，使用以下几个检测系统评估参数来验证所提出的

-熵和

-差异度量的有效性：精度(Precision，P)、检测率(Detection Rate，DR)、误报率(FalsePositive Rate，FPR)。表3为GE和

-熵在系统评估参数下的对比，表4为GID和

-差异度量在系统评估参数下的对比。通过对比表3和表4可以看出，与现有的GE和GID相比，本申请实施例所提出的方法能够实现比较高的精度和检测率。

表3、GE和

-熵在系统评估参数下的对比表

表4、GID和

-差异度量在系统评估参数下的对比表

通过表3和表4的对比可以得出，本申请实施例所提出的Dnit方法能够检测出HR-DDoS攻击和FE，且误报率低，计算开销小，进而实现了高检测精度，低误报率等目标。

针对现有的HTTP协议的DDoS攻击检测方法普遍存在精度低、复杂度高、难以区分Flash Event等不足之处，本申请实施例提出了基于新型信息论的应用层DDoS攻击检测方法，利用一套新的信息理论指标

-熵和

-差异度量来检测应用层DDoS攻击和突发流事件。在本申请实施例所提出的度量指标对于网络流量中的微小变化高度敏感，且与现有的主要使用的广义熵和广义信息差异度量相比，具有高度的敏感性和收敛性，能够高效的检测出DDoS攻击并区分突发流。

本申请实施例提供一种网络攻击装置，图6为本申请实施例网络攻击检测装置的组成结构示意图，如图6所示，所述网络攻击检测装置600包括：第一确定模块601、第二确定模块602和第三确定模块603，其中：

在其他实施例中，所述第二确定模块进一步包括：

第一确定单元，用于如果所述传入包速率大于预设的速率阈值，确定所述网络数据流中源IP地址的分散参数；

第二确定单元，用于确定所述参考数据流中IP地址的参考分散参数；

第三确定单元，用于基于所述分散参数和所述参考分散参数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

在其他实施例中，所述第二确定单元进一步包括：

第一确定子单元，用于确定所述网络数据流在预设的第一窗口时长内传入的各个数据包的源IP地址的出现概率；

第二确定子单元，用于基于各个所述源IP地址的出现概率，确定所述网络数据流的

-熵；

第三确定子单元，用于将所述网络数据流的

-熵确定为所述网络数据流中源IP地址的分散参数。

在其他实施例中，所述第二确定模块还进一步包括：

第四确定单元，用于确定所述网络数据流在预设的第一窗口时长内各个数据包的源IP地址的第一出现次数；

第五确定单元，用于确定所述参考数据流在预设的第二窗口时长内各个数据包的源IP地址的第二出现次数；

第六确定单元，用于分别基于所述第一窗口时长和所述第二窗口时长对所述第一出现次数和第二出现次数进行归一化，得到归一化的第一出现次数和归一化的第二出现次数；

第七确定单元，用于基于所述归一化的第一出现次数和归一化的第二出现次数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量。

在其他实施例中，第七确定单元进一步包括：

第四确定子单元，用于基于所述归一化的第一出现次数确定所述网络数据流中各个源IP地址的第三出现概率；

第五确定子单元，用于基于所述归一化的第二出现次数确定所述参考数据流中各个源IP地址的第四出现概率；

第六确定子单元，用于基于所述第三出现概率和所述第四出现概率，确定所述网络数据流与参考数据流的

-差异度量；

第七确定子单元，用于将所述

在其他实施例中，所述第一确定模块进一步包括：

获取单元，用于获取所述网络数据流在所述第一窗口时长内传入的数据包数量；

第八确定单元，用于基于所述第一窗口时长和所述数据包数量，确定所述网络数据流的传入包速率。

在其他实施例中，所述网络检测装置还包括：

第四确定模块，用于如果所述传入包速率小于或者等于所述速率阈值，将所述网络数据流确定为正常数据流；

第五确定模块，用于如果所述传入包速率大于所述速率阈值，且所述分散程度差异量不满足预设条件，将所述网络数据流确定为突发数据流。

需要说明的是，上述装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的网络攻击检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例再提供一种存储介质，所述存储介质上存储有网络攻击检测程序，所述网络攻击检测程序被处理器执行时实现其他实施例提供的网络攻击检测方法的步骤。

对应地，本申请实施例提供一种网络攻击检测设备，图7为本申请实施例网络攻击检测设备700的组成结构示意图，如图7所示，所述网络攻击检测设备700至少包括：存储器701、通信总线702和处理器703，其中：

所述存储器701，用于存储网络攻击检测程序；

所述通信总线702，用于实现处理器和存储器之间的连接通信；

所述处理器703，用于执行存储器中存储的网络攻击检测程序，以实现其他实施例提供的网络攻击检测方法的步骤。

存储器701可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、闪存(Flash Memory)等。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static RandomAccess Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random AccessMemory)。本申请实施例描述的存储器701旨在包括这些和任意其它适合类型的存储器。

作为本申请实施例提供的方法采用软硬件结合实施的示例，本申请实施例所提供的方法可以直接体现为由处理器703执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器701，处理器703读取存储器701中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器703以及连接到通信总线702的其他组件)以实现上述实施例中提供的网络攻击检测方法。

作为示例，处理器703可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

以上网络攻击检测设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请网络攻击检测设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本领域内的技术人员应明白，本申请的实施例可提供为方法或系统。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、系统的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种网络攻击检测方法，其特征在于，所述方法包括：

确定待检测的网络数据流的传入包速率；

如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源互联网协议IP地址的分散程度差异量；

如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流；

所述如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量，包括：

如果所述传入包速率大于预设的速率阈值，确定所述网络数据流中源IP地址的分散参数；

确定所述参考数据流中IP地址的参考分散参数；

基于所述分散参数和所述参考分散参数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；

其中，所述确定所述网络数据流中源IP地址的分散参数包括：

确定所述网络数据流在预设的第一窗口时长内传入的各个数据包的源IP地址的出现概率；

基于各个所述源IP地址的出现概率，确定所述网络数据流的

-熵；

将所述网络数据流的

-熵确定为所述网络数据流中源IP地址的分散参数；

所述如果所述传入包速率大于预设的速率阈值，确定所述网络数据流与参考数据流中源互联网协议IP地址的分散程度差异量，还包括：

确定所述网络数据流在预设的第一窗口时长内各个数据包的源IP地址的第一出现次数；

确定所述参考数据流在预设的第二窗口时长内各个数据包的源IP地址的第二出现次数；

分别基于所述第一窗口时长和所述第二窗口时长对所述第一出现次数和第二出现次数进行归一化，得到归一化的第一出现次数和归一化的第二出现次数；

基于所述归一化的第一出现次数和归一化的第二出现次数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；

其中，所述基于所述归一化的第一出现次数和归一化的第二出现次数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量，包括：

基于所述归一化的第一出现次数确定所述网络数据流中各个源IP地址的第三出现概率；

基于所述归一化的第二出现次数确定所述参考数据流中各个源IP地址的第四出现概率；

基于所述第三出现概率和所述第四出现概率，确定所述网络数据流与参考数据流的

-差异度量；

将所述

2.根据权利要求1中所述的方法，其特征在于，所述确定待检测的网络数据流的传入包速率，包括：

获取所述网络数据流在所述第一窗口时长内传入的数据包数量；

基于所述第一窗口时长和所述数据包数量，确定所述网络数据流的传入包速率。

3.根据权利要求1或2中任一项所述的方法，其特征在于，所述方法还包括：

如果所述传入包速率小于或者等于所述速率阈值，将所述网络数据流确定为正常数据流；

如果所述传入包速率大于所述速率阈值，且所述分散程度差异量不满足预设条件，将所述网络数据流确定为突发数据流。

4.一种网络攻击检测装置，其特征在于，所述装置至少包括：第一确定模块、第二确定模块和第三确定模块，其中：

所述第三确定模块，用于如果所述分散程度差异量大于预设的差异阈值，确定所述网络数据流为攻击数据流；

所述第二确定模块，包括：

第七确定单元，用于基于所述归一化的第一出现次数和归一化的第二出现次数，确定所述网络数据流与参考数据流中源IP地址的分散程度差异量；

所述第七确定单元，包括：

-差异度量；

第七确定子单元，用于将所述

5.一种网络攻击检测设备，其特征在于，所述网络攻击检测设备至少包括：存储器、通信总线和处理器，其中：

所述存储器，用于存储网络攻击检测程序；

所述通信总线，用于实现处理器和存储器之间的连接通信；

所述处理器，用于执行存储器中存储的网络攻击检测程序，以实现权利要求1至3中任一项所述的网络攻击检测方法的步骤。

6.一种存储介质，其特征在于，所述存储介质上存储有网络攻击检测程序，所述网络攻击检测程序被处理器执行时实现权利要求1至3中任一项中所述的网络攻击检测方法的步骤。