CN104660464B

CN104660464B - 一种基于非广延熵的网络异常检测方法

Info

Publication number: CN104660464B
Application number: CN201510032422.1A
Authority: CN
Inventors: 任阳阳; 张焕娜; 周令辉; 吴忠; 陈利民; 陆飙; 王玮; 熊诚; 李由; 龙诺亚; 胡航宇; 于富财; 张晓�; 杨耀; 张猛; 撒兴杰; 张菡; 郑元伟; 刘毅
Original assignee: Information & Communication Branch Of Guizhou Grid Co; University of Electronic Science and Technology of China
Current assignee: Information & Communication Branch Of Guizhou Grid Co; University of Electronic Science and Technology of China
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2016-01-27
Anticipated expiration: 2035-01-22
Also published as: CN104660464A

Abstract

本发明公开了一种基于非广延熵的网络异常检测方法，通过存储9属性网络数据信息，对其中的源IP地址、目的IP地址、源端口号和目的端口号，这4个属性以及数据包的字节数进行非广延熵的计算及归一化处理，得到非广延熵值；然后搭建非广延熵值图谱；进行非广延熵符号化处理；通过非广延熵模式匹配；输出异常检测结果。本发明基于非广延熵的网络异常检测算法通过非广延熵的引入，能够直接地表示网络流量的变化，能够明显地得到疑似异常产生的时刻和程度，能够较为准确地得到异常攻击的数量。

Description

一种基于非广延熵的网络异常检测方法

技术领域

本发明涉及一种网络异常检测方法，特别是一种基于非广延熵的网络异常检测方法。

背景技术

随着互联网的普及和业务量的不断增长，大规模通信网络正在向高速化，多样化，复杂化方向发展，网络中交换的数据量越来越大，网络异常流量的危害也越来越大。

网络流量异常的特点是发作突然，先兆特征未知，大量消耗网络资源，导致网络拥塞、网络链路利用率下降、显著降低网络服务质量，有可能在短时间内给网络运营商和客户都产生极大的危害，因此实时检测和响应流量异常是防范攻击、制定网络配置策略以实现合理利用网络资源的重要手段。

网络流量异常检测根据使用者行为或资源使用情况的正常程度来判断是否网络流量异常，而不依赖于具体行为，有助于网络管理人员及时发现问题，采取相应措施，减轻异常流量的危害。然而，在大型网络中，要进行实时统计的数据量是巨大的，由于测量、分析和存储等计算机资源的限制，无法实现全部网络流量的分析。异常检测算法的最终目标是要从巨大且处于不断变化的正常流量中，检测到相对娇小的异常流量，而且要满足实时性的要求，因而系统设计和实现的难度很大。

网络流量异常检测技术自提出以来，经过了几十年的不断发展，从最初的简单方法迅速发展成种类繁多的各种算法，成为保证网络安全不可或缺的方法。近年来，常用的异常检测方法主要有统计分析、神经网络、机器学习、数据挖掘等多种方法。

(1)基于统计学方法异常检测

统计分析方法：按一定的时间间隔对系统或用户的行为进行采样，对每次采集到的样本得出的参数变量来对这些行为进行描述，产生行为轮廓，将每次采样后得到的行为轮廓与已有轮廓进行合并，最终得到正常的行为轮廓。异常检测系统通过将当前采集到的行为轮廓与正常行为轮廓相比较，来监测是否存在异常行为。

该方法的优势在于所应用的技术方法在统计学中已经比较成熟且维护方便，其不足在于门限值的确定是统计分析所面临的棘手问题，以及事件发生的顺序通常不能作为分析引擎所考察的系统属性。

(2)机器学习异常检测

该方法通过机器学习实现异常检测，将异常检测归结为对离散数据临时序列进行学习来获得个体、系统和网络的行为特征。主要学习方法包括原样记录、监督学习、归纳学习、类比学习等。机器学习异常检测方法的检测速度快，且误报率低。然而，此方法对于用户动态行为变化以及单独异常检测还有待改善。

(3)神经网络异常检测

神经网络的处理包括两个阶段。第一阶段的目的是构造异常分析模型的检测器，使用代表用户行为的历史数据进行训练，完成网络的构建和组装。第二阶段则是入侵分析模型的实际运作阶段，网络接收输入的事件数据，与参考的历史行为相比较，判断出两者的相似度或偏离度。神经网络方法的优点在于神经网络对所选择的系统度量不要求满足某种统计分布条件，但用于异常检测中也存在一些问题，在很多情况下，系统趋向于形成某种不稳定的网络结构，不能从训练数据中学习到特定的知识，另外神经网络对判断为异常的事件不会提供任何解释或说明信息，这导致了用户无法确定入侵的责任人，也无法判定究竟是系统哪方面存在的问题导致了攻击者得以成功的入侵。

(4)数据挖掘异常检测

数据发掘异常检测技术从各种审计数据或网络数据流中提取相关的知识信息，这些知识信息是蕴涵在数据之中的，对它们进行归纳总结成规则、模式等。该检测方法的优点在于只需收集相关的数据集合，处理数据能力很强，缺点是系统整体运行效率较低、误警率较高。

上述方法有的可直接适用于网络流量异常检测，有的并非是针对网络流量异常，但是对于研究网络流量异常检测同样具有指导意义。

熵是热力学中微观状态多样性或均匀性的一种度量，反映了系统微观状态的分布几率。从通信角度来看，出于随机性的干扰是无法避免的，因此，通信系统具有统计的特征，信息源可视为一组随机事件的集合，该集合所具有的随机性不确定度与热力学中微观态的混乱度是类同的。将热力学几率扩展到系统各个信息源信号出现的几率就形成了信息熵。信息熵标志着所含信息量的多少，是对系统不确定性程度的描述。因此信息的分散与集中程度可以通过熵的变化趋势来反映。相比于传统使用幅值的流量异常检测方法，使用熵来进行流量异常检测可以提高异常检测的实时性，精确性，使得报警意义更加明确。所以可以采用熵值作为网络流量异常检测的量度。

大规模网络流量异常会对源/目的IP、源/目的端口号这4个属性产生较为明显的影响，所以把测量数据当作离散信息源，把测量数据中的各个属性看作是一组随机事件，就可以对它的信息熵进行分析，X＝{n_i，i＝1,…,N}，表示在测量数据中属性i发生了n_i次。那么，香农熵公式如1-1,2,3所示。

H (x) = - Σ_{x_{i}}^{N} P (x_{i}) \log_{2} [P (x_{i})] - - - (1 - 1)

P (x_{i}) = \frac{n_{i}}{S} - - - (1 - 2)

S = Σ_{i = 1}^{N} n_{i} - - - (1 - 3)

p(x_i)是测量数据中某种属性x_i发生的概率，表示某种属性发生的总次数。通过计算源/目的IP、源/目的端口号的熵值来将网络流量异常表征出来，与直接的数据数量统计的方法相比，信息熵能够更有效地表现出同一属性上对应数据的集中和分散情况。信息熵的变化表征了信息的分散和集中程度，某属性信息熵增加，表征了该属性的数据包的分布比较分散；某属性信息熵减少，表征了该属性的数据包的分布比较集中。表1-1列出了常见网络异常事件对这几种流量特征参数的影响情况。

表1-1常见网络异常事件对流量特征参数的影响

从表1-1看出，通过源IP熵值、目的IP熵值，源端口熵值和目的端口熵值这四个参数，可以对那些通过网络宏观统计量无法区分的网络异常事件进行有效的划分，如分布式拒绝服务攻击(DDoS)和端口扫描攻击都会引起网络流量顺势振幅的突然增大，但是它们对目的端口熵值的影响有差异，DDoS攻击引起目的端口熵值减小，端口扫描攻击引起目的端口熵值增大。

用香农熵检测网络流量存在的异常具有一些限制，存在的问题如下：

(1)香农熵实现了对蠕虫和其它一些异常的检测。但是香农熵对分布变化的检测存在一些限制，即低维的流量熵值对少量异常具有现行不可分性。

(2)用香农熵对骨干网流量异常进行检测，需要异常流量在总流量中的比例不低于4％。

(3)香农熵适合度量符合高斯分布的信息，而骨干链路的流量，IP和端口的观测值存在较强的重尾分布特征。

发明内容

本发明的目的在于，提供一种基于非广延熵的网络异常检测方法。引入的非广延熵计算方法和归一化处理，在一定程度上能够直观、准确、高效地表征网络流量的变化趋势，方便了网络异常攻击的分析和形象化表示，提高了系统检测异常的效率，降低了误检率。

本发明的技术方案：一种基于非广延熵的网络异常检测方法，包括以下步骤：

a、存储9属性网络数据信息：将骨干网节点的Netflow数据转换为9个属性网络数据信息；

b、对其中的源IP地址、目的IP地址、源端口号和目的端口号，这4个属性以及数据包的字节数进行非广延熵的计算及归一化处理，得到非广延熵值；

c、搭建非广延熵值图谱；对骨干网节点的流量进行采样，纵坐标为经过归一化处理之后的非广延熵值，得到流量非广延熵值随时间变化的折线图；

d、非广延熵符号化处理：从第一个采样点开始，依次对前后两个采样点进行非广延熵值大小的对比，判断采样点非广延熵值是发生了增加还是减小，直到最后一个采样点为止，将采样点非广延熵值变化进行符号化的处理：符号1代表非广延熵值增加，符号0代表非广延熵值减少，得到非广延熵符号表；

e、非广延熵模式匹配：根据4个属性的非广延熵符号表的数据变化，对各种网络异常进行匹配；

f、输出异常检测结果：根据匹配结果得到疑似异常攻击。

前述的基于非广延熵的网络异常检测方法，步骤b中的非广延熵的计算公式为：

S_{q} (X) = \frac{1}{q - 1} (1 - Σ_{i = 1}^{n} p {(x_{i})}^{q});

p (x_{i}) = \frac{a_{i}}{Σ_{j = 1}^{n} a_{j}};

其中，p(x_i)为测量数据中某种属性发生的概率，公式中q是非广延熵参数；

归一化处理公式为：

x_{i^{'}} = \frac{x_{i} - x_{\min}}{x_{\max} - x_{\min}};

通过归一化处理，将所有q值情况下的所有测量数据的非广延熵转换为0到1之间的值。

前述的基于非广延熵的网络异常检测方法，非广延熵模式匹配中，常见网络异常事件对非广延熵符号表熵值的影响：

分布式拒绝服务攻击：源IP地址为1、熵值增大，目的IP地址为0、熵值减小，目的端口号为0、熵值减小；

端口扫描：源IP地址为0、熵值减小，目的IP地址为0、熵值减小，目的端口号为1、熵值增大；

网络扫描：目的IP地址为1、熵值增大，目的端口号为0、熵值减小；

蠕虫病毒：目的IP地址为1、熵值增大，目的端口号为0、熵值减小。

前述的基于非广延熵的网络异常检测方法，归一化处理包括以下步骤：b1、对骨干网节点的Netflow数据文件的读取与存储：以升序形式读取文件中的数据，并将九个属性网络数据信息依次存放于arr[0]-arr[8]数组中；

b2、如果包数量＝＝0，跳到下一组数据，否则求每个包的字节数；

b3、针对字节数、源IP地址、目的IP地址、源端口号和目的端口号，执行hash运算，将拥有相同关键字的包数量记录下来，然后计算字节数、源IP地址、目的IP地址、源端口号和目的端口号的熵值，并记录下来；

b4、用归一化公式处理熵值，将归一化后的非广延熵值进行保存，建立一个文本文件，将得到的字节数、源IP地址、目的IP地址、源端口号和目的端口号，五组非广延熵存储下来。

本发明基于非广延熵的网络异常检测算法，实现了网络异常的检测，具有如下优点：

(1)通过非广延熵的引入，能够直接地表示网络流量的变化，明显的表征网络数据流量的聚合离散趋势。

(2)通过搭建非广延熵值图谱，能够直观地得到不同q值时网络流量熵值的变化趋势，能够明显地得到疑似异常产生的时刻和程度。

(3)通过非广延熵的符号化处理以及模式匹配，得到了疑似异常符号表，且通过匹配，能够较为准确地得到异常攻击的数量。

附图说明

图1是本发明的流程图；

图2是本发明q＝0.30的非广延熵值流量图谱；

图3是本发明q＝0.50的非广延熵值流量图谱；

图4是本发明q＝0.75的非广延熵值流量图谱；

图5是本发明q＝1.25的非广延熵值流量图谱；

图6为本发明多q值网络异常流量数目图；

图7为本发明多q值的模式匹配图。

具体实施方式

实施例1。一种基于非广延熵的网络异常检测方法，包括以下步骤：

f、输出异常检测结果：根据匹配结果得到疑似异常攻击。

其中，步骤b中的非广延熵的计算公式为：

S_{q} (X) = \frac{1}{q - 1} (1 - Σ_{i = 1}^{n} p {(x_{i})}^{q});

p (x_{i}) = \frac{a_{i}}{Σ_{j = 1}^{n} a_{j}};

归一化处理公式为：

x_{i^{'}} = \frac{x_{i} - x_{\min}}{x_{\max} - x_{\min}};

归一化处理包括以下步骤：b1、对骨干网节点的Netflow数据文件的读取与存储：以升序形式读取文件中的数据，并将九个属性网络数据信息依次存放于arr[0]-arr[8]数组中；

非广延熵模式匹配中，常见网络异常事件对非广延熵符号表熵值的影响如下：

具体见下表：

表1-1：常见网络异常事件对非广延熵符号表熵值的影响

通过对非广延熵符号表熵值符号表的对比，可以得到符号化的疑似异常表，因此可以极大地缩小研究范围，尽快检测出网络流量异常。

实施例2。下面结合具体实例来进一步阐述本发明的技术方案。

目前大多数针对网络流量的检测算法都是基于流进行的，而流是在对网络数据包进行统计、合成基础上得到的一种网络数据形式，在骨干链路上直接对包实施检测可以减少由包到流、再由流提取特征的中间处理环境，因此本发明选择基于包进行骨干网络的异常检测。

在骨干网每个节点的交换机上安装Netflow协议，直接获得的Netflow数据是以二进制的形式存储的，所以，在分析之前要把这些原始数据转换成为可读的文本文档。在Netflow截获的数据中，并不是每一项都是我们关心的，所以，转换的过程中，本发明有选择的输出了数据流中的九个属性，这九个属性分别是：dpkts(该信息流中的数据包)、doctets(在信息流的数据包中，第3层字节的总个数)、srcaddr(源IP地址)、dstaddr(目的IP地址)、nexthop(下一跳IP地址)、srcport(TCP/UDP源端口号)、dstport(TCP/UDP目的端口号)、prot(IP协议类型)、tcp_flags(tcp标志位)。

大规模网络流量异常会对源IP地址、目的IP地址、源端口号、目的端口号这4个属性产生较为明显的影响，所以本发明计算九属性文件中的四个属性源/目的IP地址、源/目的端口号的非广延熵。非广延熵具体公式如下所示。

S_{q} (X) = \frac{1}{q - 1} (1 - Σ_{i = 1}^{n} p {(x_{i})}^{q})

p (x_{i}) = \frac{a_{i}}{Σ_{j = 1}^{n} a_{j}}

p(x_i)测量数据中某种属性发生的概率。非广延熵公式中q是非广延熵参数，它的选取是可以变化的。当q>1时，熵值中概率较大的元素贡献较大，相当于把高概率区间的特征进行了放大；当q<-1时，熵值中概率较小的元素贡献较大，相当于把低概率区间的特征进行了放大；特别地，当q→1时，非广延熵收敛于香农熵。

非广延熵的程序计算流程如下：

(1)文件读取与存储：以升序形式读取文件中的数据，并将九属性依次存放于arr[0]-arr[8]数组中

(2)if包数量＝＝0，跳到下一组数据，elseif求每个包的字节数

(3)for字节数、源IP地址、目的IP地址、源端口号、目的端口号，执行hash运算，将拥有相同关键字的包数量记录下来，然后计算字节数、源IP地址、目的IP地址、源端口号、目的端口号的熵值，并记录下来。

(4)建立一个文本文件，将得到的字节数、源IP地址、目的IP地址、源端口号、目的端口号，五组非广延熵存储下来。

在本发明中，我们需要变换不同的q值，提取出流量属性观测值分布在不同概率区间的特征，使得网络流量异常在某些q值范围内明显突出，不同的异常行为在不同q值范围内特征不同，这样，无论攻击或异常所占比例多少，都会得到相应的特征。所以，有些在传统香农熵下不容易看出来的异常，在非广延熵的q值处在特定范围时，可以很明显的被分辨出来。

归一化处理

因为非广延熵是一个随q值变化自身变化幅度非常大的一个量度(随着q值的变化，非广延熵的度量单位可以从10⁰以下变化到10⁹以上)，那么在搭建流量熵值图谱的时候，因为各自的度量单位不同，是很难在不同的q值之间进行比较的。因此，本发明考虑对所得到的非广延熵进行一个归一化的过程，公式如下：

x_{i^{'}} = \frac{x_{i} - x_{\min}}{x_{\max} - x_{\min}}

通过归一化处理，可以将所有q值情况下的所有测量数据的非广延熵转换为0到1之间的值，这样在搭建非广延熵值图谱以后，就可以直观的进行横向比较。

搭建非广延熵值图谱

因为Netflow是每隔5分钟对骨干通信网络中的流量进行采样，所以一天的数据是288个。纵坐标为经过归一化处理之后的骨干通信网络的非广延熵，取值范围为0到1，这样就可以得到一个流量非广延熵值随时间变化的折线图。因为大规模网络流量异常会对源IP地址、目的IP地址、源端口号、目的端口号这4个属性产生较为明显的影响，所以我们所需要得到的就是以上四个属性非广延熵值随时间变化的一组折线图。

变化公式中的非广延参数q值，使其以0.1的间距从-2变换到2，从而得到41组非广延熵值随时间变化的折线图，如其中部分如图2-5所示。

从绘制出的流量熵值图谱中可以看出，q值的变化会对非广延熵产生很大的影响，从而形成不同的非广延熵值图谱。

q＝0.30，q＝0.50两幅流量熵值图谱，它们所表现出的网络流量异常状况大致相同。我们可以看出在有些时间点处，非广延熵的变化趋势异于非广延熵值图谱的大部分时间点(也就是网络异常检测中的正常使用模式)，同时偏离度非常大(满足网络异常检测中与正常模式偏离程度明显的条件)。这些时间点，我们可以认为存在网络流量异常。这里我们以q＝0.30为例，能明显分辨出的网络流量异常如下：

采样时间点0对应凌晨00：00，在采样时间点50处，即为凌晨四点十分，源IP地址熵值明显下降，目的IP地址熵值明显下降，源端口号熵值明显上升，目的端口号熵值明显上升，我们可以判断这是一个端口扫描或是点对点开放式端口大规模文件传输。

在采样时间点175处，即为十四点三十五分处，源IP地址熵值明显下降，目的IP地址熵值明显下降，源端口号熵值明显下降，目的端口号熵值明显上升，我们可以判断这是一个端口扫描的过程。

在q＝0.75时，聚焦到上述时间点处，这些时间点处非广延熵偏离正常模式的程度已经不是很明显了，通过直观地观察偏离正常模式的程度来找出网络流量异常已经比较困难。

在q＝1.25时，我们已经看不出这种情况下非广延熵值图谱里明显的异常变化点，通过直观地观察我们已经找不出明显偏离正常模式的时间点。

非广延熵符号化处理

要判断骨干通信网络中是否发生网络流量异常，是通过非广延熵的变化情况来分析的，那么本发明就非广延熵的变化进行进一步的研究。

从第一个采样点开始，依次对前后两个采样点进行非广延熵大小的对比，判断非广延熵是发生了增加还是减小，直到最后一个采样点为止。本发明所采用的数据是每隔五分钟进行一次采样的，一天有288个采样点，这样我们可以得到287个变化。

为了清楚且形象化地表示变化，且易于在程序里面使用，本发明将变化进行符号化的处理：符号1代表非广延熵增加，符号0代表非广延熵减少。这样，就可以得到非广延熵符号表。表2-1为q＝1.5时的非广延熵符号表：

表2-1q＝1.5时的非广延熵符号表

采样编号	字节数	源IP地址	目的IP地址	源端口号	目的端口号
						1	1	0	0	0	0
2	0	1	1	1	1
						3	1	1	1	1	1
4	0	1	1	1	1
						5	1	0	0	0	0
…	…	…	…	…	…
						285	0	1	1	1	1
286	1	0	0	0	0
						287	1	1	1	1	1

正常的网络流量变化即网络流量的正常模式情况具有一定的规律。我们可以知道正常的网络流量变化在非广延熵符号表中体现出来应该是x1111或者是x0000.第一个值是字节数，也就是包中字节数的非广延熵变化情况。它的离散聚合情况是可以反映大规模骨干通信网络中的流量异常情况，但是反映的效果是不显著的。我们可以用实例来简单地说明这个问题，当模式为010x0时，与x10x0相比，能极大提升此异常为分布式拒绝服务攻击(DDoS)的概率。从模式来看，包中字节数熵值减少、源IP地址熵值增加、目的IP地址熵值减少、目的端口号熵值减少表征出的网络情况为：多个服务器对一个或几个服务器的一个或者几个端口号持续不断地发送含有相同内容的包，完全符合分布式拒绝服务攻击(DDoS)的情况，所以我们可以认为此异常极可能为DDoS。但是当模式为110x0时，并不能排除DDoS出现的情况，因为此DDoS攻击很有可能是多个服务器对一个或几个服务器的一个或几个端口号发送内容不同的包。虽然与发送内容相同的包的情况相比少，但是却不能排除存在这种可能。因此，在进行模式识别的时候，我们暂不考虑平均每个包字节数的熵值变化情况，所以定为x。

那么本发明所定义的正常模式即为源IP地址、目的IP地址、源端口号、目的端口号熵值同时增加或者同时减小，即第二位到第四位为1111或者是0000。例如随日常作息时间变化所造成的骨干通信网络中流量变化都是满足上述变化趋势的。

定义正常情况为x1111或者x0000，因此无论是q>0还是q<0，此方法都是适用的。在q>0时，x1111为源IP地址、目的IP地址、源端口号、目的端口号同时发散，x0000为源IP地址、目的IP地址、源端口号、目的端口号同时聚合；在q<0时，x1111为源IP地址、目的IP地址、源端口号、目的端口号同时聚合，x0000为源IP地址、目的IP地址、源端口号、目的端口号同时发散，因此所起到的作用是一样的。

将非广延熵符号表中的正常模式剔除以后，我们可以得到符号化的疑似异常表，选取其中一个符号化疑似异常表(q＝1.5)作为代表来进行说明，如表2-2。

表2-2q＝1.5符号化疑似异常表

从表中我们可以看出，非广延熵参数q＝1.5时，发生了18次疑似网络流量异常，通过这一系列处理，我们可以极大地缩小研究范围，基本检测出了网络流量异常。

非广延熵模式匹配

当非广延熵参数q>0时，表1-1是适用的。表1-1中DDos攻击，它的熵变化的情况所表示的信息离散聚合程度如下：

表2-3DDoS攻击的熵变化与信息离散聚合程度对照表

DDoS的模式匹配为x10x0，我们在表2-1非广延熵符号表中(q＝1.5)识别DDoS攻击，即满足匹配模式为x10x0的点：

表2-4q＝1.5时DDoS异常表

采样编号	字节数	源IP地址	目的IP地址	源端口号	目的端口号
						227	1	1	0	0	0

从表2-4可以看出，当采样编号为227时，即18时55分的时候，发生了攻击主机发送多种数据包的DDoS攻击。

当q<0时，信息熵的增加变为表征数据的离散程度，信息熵的减少变为表征数据的聚合程度。因此DDoS的匹配模式x10x0会发生变更，成为x01x1。当非广延熵参数q<0时，选取q＝-1.5作为本文关注的重点，找出一天中的DDoS。

表2-5q＝-1.5时DDoS异常表

采样编号	字节数	源IP地址	目的IP地址	源端口号	目的端口号
						53	0	0	1	1	1
86	1	0	1	1	1

从表2-5中可以看出，当采样编号为53，即4时25分时，发生了主机发送同种或几种数据包的DDoS攻击；当采样编号为86，即7时10分时，发生了主机发送多种数据包的DDoS攻击。

本发明对已经计算出的41组非广延熵进行统一的符号化处理和模式化处理，可以得到41组结果。

对每一个q值的异常流量数量进行统计，可以得到如图6所示多q值网络异常流量数目图。

从图6可以看出，随着q值选取的变化，检测出的网络流量异常数目也会发生变化，因此我们可以选取合适的q值来进行网络流量异常检测。从图6中可以知道，香农熵即非广延熵参数q＝1的时候用于此次数据，并不是检测效果最佳的q值。

对每一个q值进行模式匹配，可以得到图7，多q值的模式匹配图。

从图7可以看出，不同的q值进行模式匹配，检测DDoS攻击的能力是不同的，我们在进行DDoS攻击异常检测的时候，选取适当的q值可以提高对DDoS攻击的检测能力。从图7中我们可以看出，采用香农熵(即q＝1时)进行DDoS攻击模式匹配并不是最佳的一种情况。

(1)通过非广延熵的引入，能够直接地表示网络流量的变化，明显得表征网络数据流量的聚合离散趋势。

Claims

1.一种基于非广延熵的网络异常检测方法，其特征在于：包括以下步骤：

在非广延熵模式匹配中，当非广延熵参数q>0时，常见网络异常事件对非广延熵符号表熵值的影响为：分布式拒绝服务DDos攻击：源IP地址为1、目的IP地址为0、目的端口号为0；端口扫描：源IP地址为0、目的IP地址为0、目的端口号为1；网络扫描：目的IP地址为1、目的端口号为0；蠕虫病毒：目的IP地址为1、目的端口号为0；当q<0时，常见网络异常事件对非广延熵符号表熵值的影响为：分布式拒绝服务DDos攻击：源IP地址为0、目的IP地址为1、目的端口号为1；端口扫描：源IP地址为1、目的IP地址为1、目的端口号为0；网络扫描：目的IP地址为0、目的端口号为1；蠕虫病毒：目的IP地址为0、目的端口号为1；

f、输出异常检测结果：根据匹配结果得到疑似异常攻击。

2.根据权利要求1所述的基于非广延熵的网络异常检测方法，其特征在于：步骤b中的非广延熵的计算公式为:

S_{q} (X) = \frac{1}{q - 1} (1 - Σ_{i = 1}^{n} p {(x_{i})}^{q});

p (x_{i}) = \frac{a_{i}}{Σ_{j = 1}^{n} a_{j}};

归一化处理公式为：

x_{i^{'}} = \frac{x_{i} - x_{m i n}}{x_{\max} - x_{m i n}};

3.根据权利要求1所述的基于非广延熵的网络异常检测方法，其特征在于：归一化处理包括以下步骤：b1、对骨干网节点的Netflow数据文件的读取与存储：以升序形式读取文件中的数据，并将九个属性网络数据信息依次存放于arr[0]-arr[8]数组中；

b2、如果包数量＝0，跳到下一组数据，否则求每个包的字节数；

b4、用归一化公式处理熵值，将归一化后的非广延熵值进行保存，建立一个文本文件，将得到的字节数、源IP地址、目的IP地址、源端口号和目的端口号对应的五组非广延熵存储下来。