CN101645884A

CN101645884A - 基于相对熵理论的多测度网络异常检测方法

Info

Publication number: CN101645884A
Application number: CN200910023700A
Authority: CN
Inventors: 张亚玲; 韩照国
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2009-08-26
Filing date: 2009-08-26
Publication date: 2010-02-10
Anticipated expiration: 2029-08-26
Also published as: CN101645884B

Abstract

本发明公开了一种基于相对熵理论的多测度网络异常检测方法，本检测方法是通过对多个测度的相对熵加权得到综合相对熵进行网络异常判断，从而避免了单个测度检测在某种特定攻击下的单点失效问题，同时，基于相对熵的异常检测不同于流量异常检测，能够精确地反映测度的异常。该方法按照以下步骤具体实施：步骤1.异常检测测度的选择和量化；步骤2.数据预处理；步骤3.样本训练；步骤4.单测度相对熵检测；步骤5.多测度加权相对熵计算；步骤6.报警机制和检测结果显示。本发明方法提出的技术方案，有助于解决现有网络异常检测技术存在的检测攻击范围不够全面和检测率和降低误报率之间矛盾的问题，可提供主机、局域网、广域网等各种网络环境进行网路异常检测。

Description

基于相对熵理论的多测度网络异常检测方法

技术领域

本发明属于信息安全技术领域，涉及一种网络异常检测的方法，具体涉及一种基于相对熵理论的多测度网络异常检测方法。

背景技术

计算机网络在给人们带来方便的同时，也常常面临着多种安全威胁，比如计算机病毒、木马、网络监听、黑客攻击以及包括诸如流氓软件在内的恶意软件等等，这些对于网络的恶意攻击的一个直接后果就是造成网络使用的各种异常。网络异常检测可以使人们及早发现网络攻击，并采取相应防范对策来遏制网络异常的进一步发展。

对网络异常检测方法的研究从1990年的第1个网络入侵检测系统NSM问世至今，提出的方法有概率统计分析方法、数据挖掘方法、神经网络方法、模糊数学理论、人工免疫方法、支持向量机方法等。网络异常通常表现为流量异常，近年来，网络流量的异常检测得到了较多的研究和应用，提出了多种检测方法，归结起来有四类：(1)阈值检测方法；(2)统计检测方法；(3)基于小波的检测方法；(4)面向网络安全的检测方法。在阈值检测方法中，通过对历史数据分析建立正常的参考基线范围，一旦超出此范围就判断为异常。该方法简单、计算复杂度小，适用于实时检测，然而它作为一种实用检测手段时，需要结合网络流量的特点不断进行阈值的修正。统计检测方法有多种算法，最常见的是GLR(Generalized Likelihood Ratio)检测方法，例如DM.Hawkins的方法。该方法考虑两个相邻的时间窗口以及由这两个窗口构成的合并窗口，每个窗口都用自回归模型拟合，并计算各窗口序列残差的联合似然比，然后与某个预先设定的阈值T比较，当超过阈值T时，则窗口边界被认定为异常点。这种检测方法对于流量的突变检测比较有效，但是当异常持续长度超过窗口长度时，该方法将出现部分失效。P.Barford等人将小波分析理论运用于流量异常检测，并给出了基于小波分析理论的四类异常结果，但该方法的计算过于复杂，不适于进行网络实时检测。面向网络安全的检测方法是通过学习得到流量属性之间的正常关联规则，然后建立正常规则集，在实际检测中对流量进行规则匹配，对违反规则的流量进行告警。这种方法能够对发生异常的地址进行定位，并对异常程度进行量化，但学习需要大量正常模式下的纯净数据，这在实际网络中并不容易实现。

通过对国内外大量现有技术和理论的分析，到目前为止网络异常检测面临的两个问题还没有得到很好解决：(1)检测攻击范围不够全面；(2)提高检测率和降低误报率之间的矛盾。所以，如何挖掘新的检测算法或者改进现有算法以提高检测率同时降低误报率已经成为当前异常检测领域亟待解决的问题。

发明内容

本发明的目的是提供一种基于相对熵理论的多测度网络异常检测方法，有助于解决现有网络异常检测中一直面临的两个棘手的问题：一是检测攻击范围不够全面；二是提高检测率和降低误报率之间的矛盾。

本发明所采用的技术方案是，一种基于相对熵理论的多测度网络异常检测方法，该方法按以下步骤具体实施：

步骤1、异常检测测度的选择和量化

异常检测测度选取的标准为：选择的测度对正常和异常区分度较高，且从网络流量中量化该特征值的计算量小；

步骤2、数据预处理

多测度数据预处理是由多个单测度数据预处理来实现的，单测度统计分析的过程是，首先确定所测测度概率分布的项数为m，然后对捕获到的网络流量数据按照该测度进行统计分析，设m项对应数据包的个数分别为x₁，x₂，…，x_m，总的数据包个数为

则每一项对应数据包占总数据包数的比率分别为p₁，p₂，…，p_m，其中

p_{i} = x_{i} / Σ_{i = 1}^{m} x_{i} (i = 1,2, . . ., m) - - - (2)

最后将p₁，p₂，…，p_m组成该测度的测度统计值库；

步骤3、样本训练

多测度的样本训练是由多个单测度的样本训练来实现的，单测度的样本训练过程包括数据预处理和数据均值化处理过程，样本训练数据一般都是由多个时间段的网络流量数据组成，这里时间段个数设为N，对每一份进行数据预处理，就得到N个测度统计值库，然后对N个测度统计值库进行均值化处理，得到一个正常测度统计值库作为检测的标准，具体过程如下：

P₁＝{p₁₁，p₁₂，…，p_1m}；

P₂＝{p₂₁，p₂₂，…，p_2m}；

……

P_N＝{p_N1，p_N2，…，p_Nm}，

P = {Σ_{i = 1}^{N} p_{i 1} / N, Σ_{i = 1}^{N} p_{i 2} / N, . . ., Σ_{i = 1}^{N} p_{im} / N,} - - - (3)

其中N表示捕获正常网络流量数据的时间段数，m表示测度概率分布中的项数，P₁，P₂，…，P_N表示每个时间段内正常网络流量数据的测度概率分布，该概率分布P就认为是通过样本训练得到的正常测度统计值库；

步骤4、单测度相对熵检测

设在训练阶段取得的正常测度统计值库中的概率分布为P＝{p₁，p₂，…，p_n}的概率值；在检测过程中，对采集的网络流量原始数据进行数据预处理，产生待检测测度统计值库的概率分布为Q＝{q₁，q₂，…，q_n}，则计算两个概率分布的相对熵距离为：

L (p, Q) = Σ_{i = 1}^{n} p_{i} \ln \frac{p_{i}}{q_{i}};

步骤5、多测度加权相对熵计算

设存在k个测度的相对熵值λ₁，λ₂，…，λ_k，其中λ_i＝L(P_i，Q_i)为第i个测度的概率分布相对熵，则加权相对熵为α₁λ₁+α₂λ₂+…+α_kλ_k，其中α₁，α₂，…，α_k为加权系数；

步骤6、报警机制和检测结果显示

在预先定义好的偏移量阈值H的基础上，再引进两个值a和b(a＝H，b＝3H)，相对熵用λ来表示，

当H＜λ≤H+a时，发出轻量级的轻度异常报警，

当H+a＜λ≤H+b时，发出一般异常报警，

当H+b＜λ时，发出严重异常报警。

本发明的有益效果是，解决了现有网络异常检测技术存在的检测攻击范围不够全面和检测率和降低误报率之间矛盾的问题，可提供主机、局域网、广域网等各种网络环境进行网路异常检测。

附图说明

图1是本发明的检测方法原理框图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，为本发明基于相对熵理论的多测度网络异常检测方法实施例的框图，具体按照以下步骤实施：

步骤1、异常检测测度的选择和量化

异常检测测度选取的标准为：选择的测度对正常和异常区分度较高，且从网络流量中量化该特征值的计算量小，可选的网络流量的基本特征如表1所示。

表1网络流量的基本特征

类别	提取内容
类别	提取内容	时间信息	年、月、日、时、分、秒、毫秒
数据流信息	Packets、平均包长、Bytes/s、包长分布标准差	时间信息	年、月、日、时、分、秒、毫秒
数据流信息	Packets、平均包长、Bytes/s、包长分布标准差	协议信息	TCP，UDP，ICMP包数率和各个协议的平均包长
TCP标志位	各个标志位的包数率	协议信息	TCP，UDP，ICMP包数率和各个协议的平均包长
TCP标志位	各个标志位的包数率	主机信息	IP地址总数、所含C，B类地址数以及各类所占有的带宽等
FLOW信息	Flow地址总数、原地址和目的地址数以及所属的C，B类地址数、以及各类所占有的带宽等	主机信息	IP地址总数、所含C，B类地址数以及各类所占有的带宽等
FLOW信息	Flow地址总数、原地址和目的地址数以及所属的C，B类地址数、以及各类所占有的带宽等	包长信息	按包长的大小分为7类，每类包长的包数率
TCP端口信息	各个常用TCP端口的包数率以及各个常用TCP端口的包长分布、以及按TCP端口号分成7类的各类包数率	包长信息	按包长的大小分为7类，每类包长的包数率
TCP端口信息	各个常用TCP端口的包数率以及各个常用TCP端口的包长分布、以及按TCP端口号分成7类的各类包数率	UDP端口信息	各个常用UDP端口的包数率以及各个常用UDP端口的包长分布、以及按UDP端口号分成7类的各类包数率

步骤2、数据预处理

数据预处理是根据检测测度对采集的网络流量原始数据进行统计分析，达到异常检测方法的要求。多测度数据预处理是由多个单测度数据预处理来实现的，单测度统计分析的过程：首先确定所测测度概率分布的项数为m，然后对捕获到的网络流量数据按照该测度进行统计分析，设m项对应数据包的个数分别为：x₁，x₂，…，x_m，总的数据包个数为：

p_{i} = x_{i} / Σ_{i = 1}^{m} x_{i} (i = 1,2, . . ., m) - - - (2)

最后将p₁，p₂，…，p_m组成该测度的测度统计值库。

步骤3、样本训练

样本数据是在正常网络中长时间使用嗅探器捕获的网络数据，这些正常的网络流量数据被用于样本训练。多测度的样本训练是由多个单测度的样本训练来实现的，单测度的样本训练过程包括数据预处理和数据均值化处理过程。样本训练数据一般都是由多个时间段的网络流量数据组成，这里时间段个数设为N(N的大小视情况而定)，对每一份进行数据预处理，就得到N个测度统计值库，然后对N个测度统计值库进行均值化处理，得到一个正常测度统计值库作为检测的标准，具体过程如下：

P₁＝{p₁₁，p₁₂，…，p_1m}；

P₂＝{p₂₁，p₂₂，…，p_2m}；

……

P_N＝{p_N1，p_N2，…，p_Nm}，

P = {Σ_{i = 1}^{N} p_{i 1} / N, Σ_{i = 1}^{N} p_{i 2} / N, . . ., Σ_{i = 1}^{N} p_{im} / N,} - - - (3)

其中N表示捕获正常网络流量数据的时间段数，m表示测度概率分布中的项数，P₁，P₂，…，P_N表示每个时间段内正常网络流量数据的测度概率分布，该概率分布P就认为是通过样本训练得到的正常测度统计值库。

步骤4、单测度相对熵检测

L (p, Q) = Σ_{i = 1}^{n} p_{i} \ln \frac{p_{i}}{q_{i}} .

使用相对熵计算公式时，可能出现三种特殊情况使运算失去意义：(1)

失去数学意义；(2)

使对数失去意义；(3)

失去了与阈值的可比性。结合网络异常检测中数据的实际意义，给出了下面3个约定：

约定1、当

0 \ln \frac{0}{0} = 0

时，此约定等式左边说明正常测度统计值库和待测测度统计值库中对应的概率值都为0，也就是说某一包长段内的数据包在训练阶段和检测阶段都没有被捕获，从相似度的角度来说是完全相似的，他们之间认为没有差距，所以约定其值为0。

约定2、当

0 \ln \frac{0}{q_{i}} = e

时，该约定等式表示的情况是某一包长段数据包在长时间训练阶段没有被捕获，而在短时间内的检测阶段被捕获。这种情况被认为是异常，选择e为表达式的结果，此处e为自然对数的底数，e≈2.718282。

约定3、当

p_{i} \ln \frac{p_{i}}{0} = 1

时，本约定表示某一包长段的数据包在训练的网络数据里存在，而在检测的网络数据里没有，此情况也被认为是一种异常，只是异常的程度没有约定2的情况大，最后把该表达式的结果用数值1来表示。

步骤5、多测度加权相对熵计算

计算多测度加权相对熵：设存在k个测度的相对熵值λ₁，λ₂，…，λ_k，其中λ_i＝L(P_i，Q_i)为第i个测度的概率分布相对熵，则加权相对熵为α₁λ₁+α₂λ₂+…+α_kλ_k，其中α₁，α₂，…，α_k为加权系数。

因为不同的网络异常，选用不同的测度，都会造成加权系数的不同，需根据实际网络的正常情况进行训练确定加权系数α₁，α₂，…，α_k的值，达到理想的检测效果。可以选用公认的正常网络流量数据(DARPA 1999年IDS评测数据集)训练确定加权系数α₁，α₂，…，α_k的值，然后根据实际网络的正常情况训练来调整加权系数的值，达到理想的检查效果。

步骤6、报警机制和检测结果显示

在预先定义好的偏移量阈值H的基础上，再引进两个值a和b(推荐设定a＝H，b＝3H)，相对熵用λ来表示，当H＜λ≤H+a时，发出轻量级的轻度异常报警，当H+a＜λ≤H+b时，发出一般异常报警，当H+b＜λ时，发出严重异常报警。检测结果显示为四种情况(正常、轻度异常、异常和严重异常)中的一种。

多测度加权相对熵的网络异常检测方法是通过对可能表征网络异常的多个测度进行分析，确定最可能反映网络异常的k个测度，通过样本训练过程，对收集的正常网络流量数据进行训练，建立每个测度的正常测度统计值库；在检测阶段包括通过数据收集、数据预处理、取得待检测网络流量数据的每个测度的统计值库，并通过与相应正常测度库进行相对熵计算，取得λ_i＝L(P_i，Q_i)。在取得多个测度相对熵的基础上，通过分析确定不同测度造成网络异常的影响权重，求k个测度的加权相对熵，进而给出网络是否异常的判断结果。

本发明提出的检测方法是通过对多个测度的相对熵加权得到综合相对熵进行网络异常判断，从而避免了单个测度检测在某种特定攻击下的单点失效问题，同时，基于相对熵的异常检测不同于流量异常检测，能够精确地反映测度的异常。

本发明的理论基础是相对熵理论，相对熵理论在图像分割、生物进化等领域得到很好的应用，由于相对熵中的概率分布是一个全概率事件的概率分布，使得相对熵可以更实际地反映事件的概率分布变化。本发明是在网络流量异常检测中引入相对熵理论，探索解决检测攻击范围不够全面的问题，同时，相对熵数值是一个比较精确而又敏感的数据，可以有效地反映出测度概率分布的细微差距，有助于缓解提高检测率和降低误报率之间的矛盾。

本发明提出的检测方法是通过对多个测度的相对熵加权得到综合相对熵进行网络异常判断，从而避免了单个测度检测在某种特定攻击下的单点失效问题，同时，基于相对熵的异常检测不同于流量异常检测，能够精确地反映测度的异常。采用的相对熵理论在图像分割、生物进化等领域得到很好的应用，由于相对熵中的概率分布是一个全概率事件的概率分布，使得相对熵可以更实际地反映事件的概率分布变化。本发明的思想是在网络流量异常检测中引入相对熵理论，探索解决检测攻击范围不够全面的问题，同时，相对熵数值是一个比较精确而又敏感的数据，可以有效地反映出测度概率分布的细微差距，有助于缓解提高检测率和降低误报率之间的矛盾。因此，从理论上看，本发明是可行的。

为了验证本发明的检测方法的可行，使用C++语言在VC2005平台上实现了基于相对熵理论的双侧度网络异常检测模型(使用包长分布和协议分布作为异常检测测度)，并通过MIT Lincoln实验室的DARPA 1999年IDS评测数据集对检测效果进行了实验测试。

1)测试结果及分析

在双侧度检测实例系统的第一次运行中，首先使用第1周和第3周共10天的内部网监听数据作为训练数据，得到正常包长测度统计值库数据和正常协议测度统计值库数据；然后对第4周和第5周共10天的内部网监听数据和外部网监听数据进行检测。两周共有201次攻击，由于其中12次攻击方式(inside or outside)和14次攻击所在的流量数据官方网站没有提供，所以仅对115次攻击进行检测，得到的检测结果见表2和表3。

表2双侧度检测实例系统的测试结果

表3双侧度检测实例系统的测试结果(续)

表2和表3中α₁和α₂表示加权表达式α₁λ₁+α₂λ₂中的加权系数；DR(Detection rate)为检测率，检测率定义为攻击类型被检测到的概率；OAR(Omitted alarm rate)为漏报率，漏报率定义为攻击类型被漏报的概率；FAR(False alarm rate)为误报率，误报率定义为正常数据误判为异常信息的概率。根据表2和表3可以看出RETDMAD在低误报率的情况下，对各类攻击都能达到较高的检测率。通过DARPA 1999测评数据集的大量实验，当使用该双测度异常检测方法进行异常检测时，α₁和α₂的最佳值分别为1和1.5。

2)与相关算法比较

与本发明同样关注网络异常检测的研究工作有很多，其中EMERALD系统在DARPA 1999评测中获得优胜奖，PHAD，ALAD和NETAD是文献中提出的异常检测方法，FAD是现有文献中的一种异常检测方法。取α₁＝1，α₂＝1.5时双侧度检测实例系统的测试结果与其它检测方案的测试效果比较，结果如表3所示，其中已有方法的检测率数据引自相关参考文献。

表4双侧度检测实例系统与相关工作试验结果比较

系统名称	采用的检测方法	Detection rate
系统名称	采用的检测方法	Detection rate	EMERALD	专家系统与检测方法相结合	85/201(42％)
PHAD	使用包头区域资源进行异常检测	54/201(27％)	EMERALD	专家系统与检测方法相结合	85/201(42％)
PHAD	使用包头区域资源进行异常检测	54/201(27％)	ALAD	使用应用负载进行异常检测	60/201(30％)
NETAD	将包头区域资源与应用负载相结合进行异常检测	132/201(66％)	ALAD	使用应用负载进行异常检测	60/201(30％)
NETAD	将包头区域资源与应用负载相结合进行异常检测	132/201(66％)	FAD	基于D-S理论的网络异常检测方法	119/201(59％)
RETDMAD	基于相对熵理论的双侧度网络异常检测方法	99/115(86.09％)	FAD	基于D-S理论的网络异常检测方法	119/201(59％)

测试结果表明，双侧度检测实例系统达到了较高的检测率，高于EMERALD、PHAD、ALAD、NETAD和FAD异常检测方法，说明双侧度检测实例系统对于一般网络异常的检测还是比较理想的。

实施例1

作为一个具体应用，本发明建立了基于相对熵理论的双测度网络异常检测(RETDMAD)模型，采用的测度是包长分布和协议分布，并通过系统实现和测试验证了RETDMAD方法的可行性。以下给出包长分布和协议分布作为异常检测测度的双侧度网络异常检测模型，该模型按照以下步骤实现：

步骤1)双测度的选择和量化

把采集的所有数据包按照包的长度分成7类(＜＝64、65-127、128-254、255-511、512-1023、1024-1517、＞＝1518)，第一测度是每个包长段内的数据包占总流量的比率(包长分布)。把采集的所有数据包按照传输层协议分成4类(TCP、UDP、ICMP和OTHER)，第二测度是每个协议对应数据包占总流量的比率(协议分布)。

步骤2)双测度数据预处理

在(2)式取m＝7，得到各个包长段的数据包个数分别为：x₁，x₂，…，x₇，总的数据包个数为：

则每一包长段内的数据包率为p₁，p₂，…，p₇，其中

p_{i} = x_{i} / Σ_{i = 1}^{7} x_{i} (i = 1,2, . . ., 7);

然后m＝4，得到各种协议的数据包个数分别为：x₁，x₂，x₃，x₄，总的数据包个数为：每一包长段内的数据包率为p₁，p₂，p₃，p₄，其中

p_{i} = x_{i} / Σ_{i = 1}^{4} x_{i} (i = 1,2,3,4) .

步骤3)双测度样本训练

双测度样本训练是通过两次单测度样本训练实现。包长测度的样本训练：首先对N个时间段的正常网络流量数据进行数据预处理得到N个包长测度统计值库；然后对N个包长测度统计值库进行均值化处理，利用(3)式取m＝7实现测度统计值库均值化处理，得到一个正常的包长测度统计值库，作为检测的标准。协议测度的样本训练：首先对N个时间段的正常网络流量数据进行数据预处理得到N个协议测度统计值库；然后对N个协议测度统计值库进行均值化处理，利用(3)式取m＝3实现协议测度统计值库均值化处理，得到一个正常的协议测度统计值库，作为检测的标准。

步骤4)双测度加权相对熵检测

通过计算相对熵得到两个相对熵值λ₁和λ₂，其中λ₁＝L(P₁，Q₁)为包长概率分布相对熵，λ₂＝L(P₂，Q₂)为协议概率分布相对熵。其次采用加权表达式α₁λ₁+α₂λ₂计算两个测度的加权相对熵，其中α₁和α₂为加权系数。α₁和α₂需根据实际的网络对加权系数进行确定和调整，达到理想的检测效果。

判断分析处理过程：设置一个变量λ用来表示加权相对熵数值，即：λ＝α₁λ₁+α₂λ₂，然后用λ和预先定义的偏移量H进行比较，根据比较结果判断网络流量数据是正常还是异常。

步骤5)报警机制和检测结果显示

检测结果显示为四种情况(正常、轻度异常、异常和严重异常)中的一种。在预先定义好的偏移量阈值H的基础上，再引进两个值a和b，相对熵用λ来表示，当H＜λ≤H+a时，发出轻量级的轻度异常报警，当H+a＜λ≤H+b时，发出一般异常报警，当H+b＜λ时，发出严重异常报警。

实施例2

选择包长分布、协议分布、TCP端口流量分布三个特征进行基于相对熵的网络异常检测。

在上网者使用下载工具进行大量下载的时候，或者在不同的主机之间进行复制文件的时候，或者大量发送邮件的时候等等，当这些事情发生的时候，仅使用包长分布和协议分布作为异常检测的测度，就很难达到异常检测的理想效果，存在较高的误报率。当上述情况发生的时候，为了能准确地实现异常检测，可以将TCP端口流量分布作为第三个检测测度，把常用的TCP端口分为九类(21号、23号、25号、53号、80号、4000号、8000号、6200号和其他号)，每一类端口流量占总流量的比率就是端口流量分布。使用三个异常检测测度的操作步骤和实施例1中步骤2～5类似。

综上所述，本发明的方法首先根据选择的测度对正常网络历史数据进行训练，得到每个测度对应的正常测度统计值库；然后对待检测的网络数据统计分析，得到每个测度对应的待测测度统计值库；最后通过不同测度的相对熵加权综合判断网络处于正常还是异常状态。

本发明方法提出的技术方案，有助于解决现有网络异常检测技术存在的检测攻击范围不够全面和检测率和降低误报率之间矛盾的问题，可提供主机、局域网、广域网等各种网络环境进行网路异常检测。

Claims

1、一种基于相对熵理论的多测度网络异常检测方法，其特征在于，该方法按以下步骤具体实施：

步骤1、异常检测测度的选择和量化

步骤2、数据预处理

p_{i} = x_{i} / Σ_{i = 1}^{m} x_{i} (i = 1,2, . . ., m) - - - (2)

最后将p₁，p₂，…，p_m组成该测度的测度统计值库；

步骤3、样本训练

P₁＝{p₁₁，p₁₂，…，p_1m}；

P₂＝{p₂₁，p₂₂，…，p_2m}；

......

P_N＝{p_N1，p_N2，…，p_Nm}，

P = {Σ_{i = 1}^{N} p_{i 1} / N, Σ_{i = 1}^{N} p_{i 2} / N, . . ., Σ_{i = 1}^{N} p_{im} / N,} - - - (3)

步骤4、单测度相对熵检测

L (P, Q) = Σ_{i = 1}^{n} p_{i} \ln \frac{p_{i}}{q_{i}};

步骤5、多测度加权相对熵计算

步骤6、报警机制和检测结果显示

当H＜λ≤H+a时，发出轻量级的轻度异常报警，

当H+a＜λ≤H+b时，发出一般异常报警，

当H+b＜λ时，发出严重异常报警。

2、根据权利要求1所述的方法，所述步骤4中有以下约定：

约定1、当

0 \ln \frac{0}{0} = 0

时，此约定等式左边说明正常测度统计值库和待测测度统计值库中对应的概率值都为0，也就是说某一包长段内的数据包在训练阶段和检测阶段都没有被捕获，从相似度的角度来说是完全相似的，他们之间认为没有差距，所以约定其值为0；

约定2、当

0 \ln \frac{0}{q_{i}} = e

时，该约定等式表示的情况是某一包长段数据包在长时间训练阶段没有被捕获，而在短时间内的检测阶段被捕获，这种情况被认为是异常，选择e为表达式的结果，此处e为自然对数的底数，e≈2.718282；

约定3、当

p_{i} \ln \frac{p_{i}}{0} = 1

时，本约定表示某一包长段的数据包在训练的网络数据里存在，而在检测的网络数据里没有，此情况也被认为是一种异常，将该表达式的结果用数值1来表示。

3、根据权利要求1所述的方法，其特征在于：所述步骤5中选用公认的正常网络流量数据，即DARPA 1999年IDS评测数据集来训练确定加权系数α₁，α₂，…，α_k的值，然后根据实际网络的正常情况训练来调整加权系数的值。