CN106060043A

CN106060043A - 一种异常流量的检测方法及装置

Info

Publication number: CN106060043A
Application number: CN201610373443.4A
Authority: CN
Inventors: 姚海鹏; 刘逸卿
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-05-31
Filing date: 2016-05-31
Publication date: 2016-10-26
Anticipated expiration: 2036-05-31
Also published as: CN106060043B

Abstract

本发明实施例公开了一种异常流量的检测方法及装置，涉及网络技术领域，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；所述方法包括：获得待检测流量对应的目标数据；利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；判断所述第一分类结果是否为异常；如果是，利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；根据所述第二分类结果，确定所述待检测流量对应的具体攻击。应用本发明实施例，提高了异常流量的检测精度。

Description

一种异常流量的检测方法及装置

技术领域

本发明涉及网络技术领域，特别涉及一种异常流量的检测方法及装置。

背景技术

随着计算机网络的高速发展，攻击计算机网络的威胁性行为也越来越多，而这些行为所造成的危害通常是不可预计的。因此，需要及时发现计算机网络的入侵攻击行为。

网络流量为连接网络的设备在网络上所产生的数据流量。网络入侵攻击行为常伴随着网络流量的改变，网络安全问题最直接的表现常常都在网络流量的变化上。将入侵攻击行为所产生的非正常变化的网络流量称为异常流量，那么，对异常流量的检测对于及时发现网络入侵攻击行为有着重要意义。

目前，对异常流量的检测方法主要是：预先将流量对应的训练数据标记为正常流量数据和各种异常流量数据，利用数据挖掘算法对标记后的训练数据进行训练，得到用于区分正常流量数据和各种异常流量数据的一个分类器，利用得到的分类器对测试数据进行分类，分类结果即为异常流量的检测结果。

但是，上述训练数据通常使用某一特定数据库中的流量数据。随着网络流量的大量产生，该数据库中流量数据也会随之变化，进而造成训练数据中的正常流量数据和各种异常流量数据之间的数量差越来越大，因此利用上述的异常流量的检测方法进行检测的精度较低。

发明内容

本发明实施例的目的在于提供一种异常流量的检测方法及装置，以提高异常流量的检测精度。

为达到上述目的，本发明实施例公开了一种异常流量的检测方法，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；所述方法包括：

获得待检测流量对应的目标数据；

利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；

判断所述第一分类结果是否为异常；

如果是，利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；

根据所述第二分类结果，确定所述待检测流量对应的具体攻击。

较佳的，所述方法还包括：

在所述第一分类结果为正常的情况下，将所述待检测流量确定为正常流量。

较佳的，所述具体攻击为：拒绝服务攻击、或监视和其他探测活动攻击、或来自远程机器的非法访问攻击、或普通用户对本地超级用户特权的非法访问攻击。

较佳的，所述得到用于区分正常流量数据和异常流量数据的第一分类器所采用的数据挖掘算法为K-means聚类算法、或决策树分类算法、或随机森林分类算法。

较佳的，所述得到用于区分各种具体攻击的第二分类器所采用的数据挖掘算法为随机森林分类算法、或决策树分类算法。

为达到上述目的，本发明实施例还公开了一种异常流量的检测装置，包括：

第一获得模块，用于预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；

第二获得模块，用于获得待检测流量对应的目标数据；

第一分类模块，用于利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；

判断模块，用于判断所述第一分类结果是否为异常；

第二分类模块，用于在所述判断模块判断结果为是的情况下，利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；

第一确定模块，用于根据所述第二分类结果，确定所述待检测流量对应的具体攻击。

较佳的，所述装置还包括：

第二确定模块，用于在所述判断模块判断结果为否的情况下，将所述待检测流量确定为正常流量。

较佳的，所述第一获得模块，具体用于：

预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为拒绝服务攻击、或监视和其他探测活动攻击、或来自远程机器的非法访问攻击、或普通用户对本地超级用户特权的非法访问攻击的数据进行训练，得到用于区分拒绝服务攻击、监视和其他探测活动攻击、来自远程机器的非法访问攻击和普通用户对本地超级用户特权的非法访问攻击的第二分类器；

所述第一确定模块，具体用于：

根据所述第二分类结果，确定所述待检测流量对应的具体攻击为：拒绝服务攻击、或监视和其他探测活动攻击、或来自远程机器的非法访问攻击、或普通用户对本地超级用户特权的非法访问攻击。

较佳的，所述第一获得模块，具体用于：

预先采用K-means聚类算法、或决策树分类算法、或随机森林分类算法，利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器。

较佳的，所述第一获得模块，具体用于：

预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；采用随机森林分类算法、或决策树分类算法，利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器。

由以上可见，本发明实施例提供一种异常流量的检测方法及装置，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；具体包括：获得待检测流量对应的目标数据；利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；判断所述第一分类结果是否为异常；如果是，利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；根据所述第二分类结果，确定所述待检测流量对应的具体攻击。

可见，本发明实施例中，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器，因为相比于正常流量数据和各种异常流量数据之间的数量差，正常流量数据和所有的异常流量数据总和之间的数量差相对较小，各种异常流量数据之间的数量差也相对较小，所以结合第一分类器和第二分类器对待检测流量对应的目标数据进行检测时，检测精度相对较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种异常流量的检测方法的流程示意图；

图2为本发明实施例提供的另一种异常流量的检测方法的流程示意图；

图3为本发明实施例提供的一种异常流量的检测装置的结构示意图；

图4为本发明实施例提供的另一种异常流量的检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种异常流量的检测方法及装置，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；具体的：

获得待检测流量对应的目标数据；

判断所述第一分类结果是否为异常；

下面通过具体实施例，对本发明进行详细说明。

需要说明的是，在检测前，需要预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器。本领域技术人员可以理解的是，在检测异常流量之前需要先建立判断模型。本发明实施例中预先需要建立两个判断模型，分别为第一分类器和第二分类器。第一分类器是利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练得到的，第一分类器具有判断标准，可以区分正常流量数据和异常流量数据。第二分类器是利用训练数据中被标记为具体攻击的数据进行训练得到的，第二分类器同样具有判断标准，可以区分各种具体攻击。

在实际应用中，上述具体攻击可以为：拒绝服务攻击(Denial Of Service，DOS)、或监视和其他探测活动攻击(Surveillance And Probing，PROBING)、或来自远程机器的非法访问攻击(Unauthorized Access From A Remote Machine To A Local Machine，R2L)、或普通用户对本地超级用户特权的非法访问攻击(Unauthorized Access To LocalSuperuser Privileges By A Local Unpivileged User，U2R)。

在得到第一分类器和第二分类器时，可以采用数据挖掘算法。数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。数据挖掘可以自动从大量的数据中发现数据中所无法直接识别得到的特殊关系信息。利用数据挖掘的方法来得到第一分类器和第二分类器，可以减少人为和临时因素的影响。数据挖掘算法包括聚类算法、分类算法等。在本发明的一个较佳实施例中，得到第一分类器所采用的数据挖掘算法为K-means聚类算法、或决策树分类算法、或随机森林分类算法。在本发明的另一个较佳实施例中，得到第二分类器所采用的数据挖掘算法为随机森林分类算法、或决策树分类算法。其中，K-means聚类算法、决策树分类算法和随机森林分类算法的具体内容对于本领域技术人员来说是公知的，本发明在此不进行赘述。利用应用上述数据挖据算法得到的第一分类器和第二分类器对目标数据进行分类时，具有更高的检测精度。

图1为本发明实施例提供的一种异常流量的检测方法的流程示意图，可以包括：

S101：获得待检测流量对应的目标数据；

本领域技术人员可以理解的是，对流量进行检测实质上是对流量对应的数据进行检测，因此，我们需要获得待检测流量对应的目标数据。

S102：利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；

可以理解的是，所述第一分类器为预先得到的第一分类器，该第一分类器可以区分正常流量数据和异常流量数据。因此，利用该第一分类器对目标数据进行分类后，目标数据将被标记为正常流量数据或异常流量数据，也就是说第一分类结果为正常或异常。

S103：判断所述第一分类结果是否为异常，如果是，执行S104；

S104：利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；

不难理解的是，所述第二分类器为预先得到的第二分类器，该第二分类器可以区分各种具体攻击。因此，利用该第二分类器对目标数据进行分类后，目标数据将被标记为各种具体攻击，也就是说第二分类结果为：目标数据对应某种具体攻击。

在实际应用中，上述具体攻击可以为：拒绝服务攻击(Denial Of Service，DOS)、或监视和其他探测活动攻击(Surveillance And Probing，PROBING)、或来自远程机器的非法访问攻击(Unauthorized Access From A Remote Machine To A Local Machine，R2L)、或普通用户对本地超级用户特权的非法访问攻击(Unauthorized Access To LocalSuperuser Privileges By ALocal Unpivileged User，U2R)。

S105：根据所述第二分类结果，确定所述待检测流量对应的具体攻击；

可以理解的是，第二分类结果为：目标数据对应某种具体攻击，而目标数据又与待检测流量相对应，因此，根据第二分类结果，可以确定待检测流量对应的具体攻击类型。例如：第二分类结果为目标数据对应拒绝服务攻击，则可以确定待检测流量对应拒绝服务攻击。

由以上可见，应用本发明图1所示实施例，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器，因为相比于正常流量数据和各种异常流量数据之间的数量差，正常流量数据和所有的异常流量数据总和之间的数量差相对较小，各种异常流量数据之间的数量差也相对较小，所以结合第一分类器和第二分类器对待检测流量对应的目标数据进行检测时，检测精度相对较高。

在前述实施例中，S103还存在判断结果为否的情况。基于上述描述，在本发明的一种具体实现方式中，参见图2，提供了另一种异常流量的检测方法的流程示意图，与前述实施例相比，本实施例中，还可以包括：

S106：将所述待检测流量确定为正常流量；

不难理解的是，目标数据与待检测流量相对应，因此，当判断第一分类结果为正常时，可以确定目标数据所对应的待检测流量为正常流量。

由以上可见，应用本发明图2所示实施例，不仅可以提高异常流量的检测精度，还可以提高正常流量的检测精度。

在实际应用中，本发明实施例具体的还可以为：

获得待检测流量对应的目标数据；

利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；

判断所述第一分类结果是否为异常；

如果是，根据所述第二分类结果，确定所述待检测流量对应的具体攻击；

如果否，将所述待检测流量确定为正常流量。

下面具体的，以K-means聚类算法、决策树分类算法和随机森林分类算法这三种数据挖掘算法为例，对本发明实施例提供的一种异常流量的检测方法进行详细介绍。

首先，预设一组训练数据和一组待检测流量对应的目标数据；将训练数据分别标记为正常流量数据或异常流量数据；其中，异常流量数据又分别被标记为具体攻击数据，分别为：DOS攻击数据、或PROBING攻击数据、或R2L攻击数据、或U2R攻击数据。

然后，先采用本发明实施例提供的一种异常流量的检测方法进行六组实验，如表1所示，预先采用第一数据挖掘算法，利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；采用第二数据挖掘算法，利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；其中，第一数据挖掘算法为K-means聚类算法、或决策树分类算法、或随机森林分类算法，第二数据挖掘算法为决策树分类算法、或随机森林分类算法。

表1

编号	第一数据挖掘算法	第二数据挖掘算法
			1	K-means聚类算法	随机森林分类算法
2	K-means聚类算法	决策树分类算法
			3	决策树分类算法	决策树分类算法
4	决策树分类算法	随机森林分类算法
			5	随机森林分类算法	决策树分类算法
6	随机森林分类算法	随机森林分类算法

然后，利用第一分类器对目标数据进行分类，得到第一分类结果；

判断第一分类结果是否为异常；

如果是，再利用第二分类器对该目标数据进行分类，得到第二分类结果；根据第二分类结果，确定该待检测流量对应的具体攻击；

如果否，将该待检测流量确定为正常流量。

接下来，为了与本发明实施例提供的检测方法相对比，采用目前的异常流量的检测方法做了三组对比实验，如表2所示，预先采用第三数据挖掘算法，对训练数据中被标记为正常的数据和被标记为具体攻击的数据进行训练，得到用于区分正常流量数据和各种具体攻击数据的一个分类器，利用得到的分类器对目标数据进行分类，分类结果即为异常流量的检测结果；其中，第三数据挖掘算法为K-means聚类算法、或决策树分类算法、或随机森林分类算法。

表2

编号	第三数据挖掘算法
		1	K-means聚类算法
2	决策树分类算法
		3	随机森林分类算法

最后，将上述9组检测结果与待检测流量对应的目标数据的实际情况进行比较，得到检测精度，例如，检测结果中DOS攻击数据有4个，而实际情况是DOS攻击数据有5个，则检测精度为0.8；其中，1至6组为采用本发明实施例提供的检测方法得到的检测结果，7至9组为采用目前的检测方法得到的检测结果。检测精度的具体结果如表3所示；其中，表3中的数值越高，表明检测精度越高。

表3

编号	正常	DOS	PROBING	U2R	R2L
						1	0.945	0.983	0.939	0.561	0.679
2	0.946	0.979	0.910	0.522	0.772
						3	0.951	0.984	0.829	0.511	0.512
4	0.951	0.986	0.831	0.550	0.517
						5	0.954	0.980	0.861	0.547	0.521
6	0.952	0.985	0.872	0.520	0.528
						7	0.938	0.968	0.785	0.500	0.510
8	0.927	0.950	0.793	0.500	0.500
						9	0.929	0.955	0.776	0.503	0.507

由表3可以发现，本发明提供的一种异常流量的检测方法与目前的检测方法相比，检测精度相对较高。

与上述的方法实施例相对应，本发明实施例还提供了一种异常流量的检测装置。

图3为本发明实施例提供的一种异常流量的检测装置的结构示意图；可以包括：第一获得模块300、第二获得模块301、第一分类模块302、判断模块303、第二分类模块304、第一确定模块305。

其中，第一获得模块300，用于预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；

第二获得模块301，用于获得待检测流量对应的目标数据；

第一分类模块302，用于利用所述第一分类器对所述目标数据进行分类，得到第一分类结果；

判断模块303，用于判断所述第一分类结果是否为异常；

第二分类模块304，用于在所述判断模块判断结果为是的情况下，利用所述第二分类器对所述目标数据进行分类，得到第二分类结果；

第一确定模块305，用于根据所述第二分类结果，确定所述待检测流量对应的具体攻击。

本发明实施例中的第一获得模块300，具体可以用于：

本发明实施例中的第一确定模块305，具体可以用于：

本发明实施例中的第一获得模块300，具体可以用于：

由以上可见，应用本发明图3所示实施例，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器，因为相比于正常流量数据和各种异常流量数据之间的数量差，正常流量数据和所有的异常流量数据总和之间的数量差相对较小，各种异常流量数据之间的数量差也相对较小，所以结合第一分类器和第二分类器对待检测流量对应的目标数据进行检测时，检测精度相对较高。

图4为本发明实施例提供的另一种异常流量的检测装置的结构示意图；本发明图4所示实施例在图3所示实施例的基础上，增加第二确定模块306。

其中，第二确定模块306，用于在所述判断模块判断结果为否的情况下，将所述待检测流量确定为正常流量。

由以上可见，应用本发明图4所示实施例，不仅可以提高异常流量的检测精度，还可以提高正常流量的检测精度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常流量的检测方法，其特征在于，预先利用训练数据中被标记为正常的数据和被标记为异常的数据进行训练，得到用于区分正常流量数据和异常流量数据的第一分类器；利用训练数据中被标记为具体攻击的数据进行训练，得到用于区分各种具体攻击的第二分类器；所述方法包括：

获得待检测流量对应的目标数据；

判断所述第一分类结果是否为异常；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述具体攻击为：拒绝服务攻击、或监视和其他探测活动攻击、或来自远程机器的非法访问攻击、或普通用户对本地超级用户特权的非法访问攻击。

4.根据权利要求1所述的方法，其特征在于，所述得到用于区分正常流量数据和异常流量数据的第一分类器所采用的数据挖掘算法为K-means聚类算法、或决策树分类算法、或随机森林分类算法。

5.根据权利要求1所述的方法，其特征在于，所述得到用于区分各种具体攻击的第二分类器所采用的数据挖掘算法为随机森林分类算法、或决策树分类算法。

6.一种异常流量的检测装置，其特征在于，所述装置包括：

第二获得模块，用于获得待检测流量对应的目标数据；

判断模块，用于判断所述第一分类结果是否为异常；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的装置，其特征在于，所述第一获得模块，具体用于：

所述第一确定模块，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述第一获得模块，具体用于：

10.根据权利要求6所述的装置，其特征在于，所述第一获得模块，具体用于：