CN106713324A

CN106713324A - 一种流量检测方法及装置

Info

Publication number: CN106713324A
Application number: CN201611236423.9A
Authority: CN
Inventors: 陈永环; 张迪; 张晓明; 赵冲翔
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-12-28
Filing date: 2016-12-28
Publication date: 2017-05-24
Anticipated expiration: 2036-12-28
Also published as: CN106713324B

Abstract

本发明实施例公开了一种流量检测方法及装置，所述方法包括：针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征；根据所述特征，确定每一条待检测流量的特征向量；利用预设聚类算法，对所述特征向量进行聚类；分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类；根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。应用本发明实施例，提高了异常流量检测的准确率。

Description

一种流量检测方法及装置

技术领域

本发明涉及异常流量检测领域，特别涉及一种流量检测方法及装置。

背景技术

随着互联网技术的发展，网络应用得到了极大的普及，不明计算机的接入可能会造成网络异常流量的发生。异常流量是造成网络安全的问题之一，它是指对正常网络使用造成不良影响，对目标主机进行控制与破坏的流量模式，常见的形式有木马病毒、网络蠕虫和分布式拒绝服务攻击等。因此，快速从网络中检测出异常流量对于保护网络安全是非常重要的。

现有的异常流量检测是通过基于监督学习的机器学习算法进行检测的，具体过程是：采用预先收集的训练数据集(黑名单的流量和白名单的流量)和分类算法对待检测流量进行训练，得到待检测流量的分类结果，再通过分类算法获得待检测流量属于异常流量的概率，根据预测概率检测待检测流量是否为异常流量。基于监督学习主要是通过广泛的学习，因此训练数据集种类的完备直接影响到训练的结果。当未知流量数据出现的时候，因为没有相应的训练数据集进行学习，因而不能准确的将未知流量进行分类，导致异常流量检测准确率较低。

发明内容

本发明实施例的目的在于提供一种流量检测方法及装置，以提高异常流量检测的准确率。

为达到上述目的，本发明实施例公开了一种流量检测方法，所述方法包括：

针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征；

根据所述特征，确定每一条待检测流量的特征向量；

利用预设聚类算法，对所述特征向量进行聚类；

分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类；

根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。

可选的，所述预设聚类算法为：K-means算法。

可选的，所述预设分类算法，包括以下算法中一种或几种：

逻辑回归算法、支持向量机算法、随机森林算法。

可选的，所述预设决策树算法为：梯度迭代决策树算法。

可选的，在所述根据所述特征，确定每一条待检测流量的特征向量之前，所述方法还包括：

对获得每一条待检测流量的特征进行预设处理，所述预设处理包括：预处理、离散化处理、归一化处理和插值处理中的一种或几种；

所述根据所述特征，确定每一条待检测流量的特征向量，包括：

根据预设处理后的特征，确定每一条待检测流量的特征向量。

可选的，所述方法还包括：

根据检测结果对所述每一个分类算法的分类结果进行验证；

如果验证错误，更改该分类算法对聚类结果进行分类时所使用的训练数据集。

为达到上述目的，本发明实施例公开了一种流量检测装置，所述装置包括：

获得模块，用于针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征；

确定模块，用于根据所述特征，确定每一条待检测流量的特征向量；

聚类模块，用于利用预设聚类算法，对所述特征向量进行聚类；

分类模块，用于分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类；

检测模块，用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。

可选的，所述预设聚类算法为：K-means算法。

所述预设分类算法，包括以下算法中一种或几种：

逻辑回归算法、支持向量机算法、随机森林算法。

所述预设决策树算法为：梯度迭代决策树算法。

可选的，所述装置还包括：

预处理模块，用于对获得每一条待检测流量的特征进行预设处理，所述预设处理包括：预处理、离散化处理、归一化处理和插值处理中的一种或几种；

所述确定模块，具体用于：

可选的，所述装置还包括：

验证模块，用于根据检测结果对所述每一个分类算法的分类结果进行验证；

更改模块，用于在所述验证模块的验证结果为错误的情况下，更改该分类算法对聚类结果进行分类时所使用的训练数据集。

由上述的技术方案可见，本发明实施例提供的一种流量检测方法及装置，针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征；根据所述特征，确定每一条待检测流量的特征向量；利用预设聚类算法，对所述特征向量进行聚类；分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类；根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。

应用本发明实施例，通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后，再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类，对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量，解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时，因为没有相关的训练数据集而不能准确的将其进行分类，从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法，即使存在未知流量也可以通过聚类算法自动将其分类，不需要依赖训练数据集进行学习。因此，提高了异常流量检测的准确率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的流量检测方法的一种流程示意图；

图2为本发明实施例提供的流量检测方法的另一种流程示意图；

图3为本发明实施例提供的流量检测方法的再一种流程示意图；

图4为本发明实施例提供的流量检测装置的一种结构示意图；

图5为本发明实施例提供的流量检测装置的另一种结构示意图；

图6为本发明实施例提供的流量检测装置的再一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为解决现有技术问题，本发明实施例提供了一种流量检测方法及装置，以下分别进行详细说明。

需要说明的是，机器学习分为有监督的学习和无监督的学习，有监督的学习采用预先标记好的样本对待检测的样本进行训练，对应的分类算法有逻辑回归算法、支持向量机算法、随机森林算法。基于无监督的机器学习，是根据一组数据的相似度而生成的一组数据的集合，不需要预先标记好的样本，例如聚类算法。

本领域技术人员可以理解的是，服务器时刻在接收来自终端的访问，每一次访问就会生成一条流量记录，从而生成包含大量流量记录的日志。针对网站的管理者来说，为了维护网站的正常使用，需要进行检测是否有异常流量的产生，会从日志包含的流量进行分析，这些流量即是待检测的流量。

参见图1，图1为本发明实施例提供的流量检测方法的一种流程示意图，所述方法包括步骤：

S101，针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征。

S102，根据所述特征，确定每一条待检测流量的特征向量。

S103，利用预设聚类算法，对所述特征向量进行聚类。

具体的，实际应用中，所述预设聚类算法可以为K-means算法。

S104，分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类。

具体的，实际应用中，所述预设分类算法，可以包括以下算法中一种或几种：逻辑回归算法、支持向量机算法、随机森林算法。

S105，根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。

具体的，实际应用中，所述预设决策树算法可以为梯度迭代决策树算法。

本领域技术人员可以理解的是，日志中包含大量的流量，每一条的流量经过特征处理之后可以获得很多个该条流量的特征，示例性的，特征可以是上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间、平均空闲时间等等，每条网络流量的特征可以多达两百多个。从每条流量的特征中选择一些特征，根据其对应的特征值确定该条待检测流量的特征向量。

示例性的，假设总共n条流量，对于n条流量中的任意一条流量i均有个5个特征，分别为上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间。假设每个特征用2维的向量表示，则对于n条流量中的任意一条流量i的上行总包数对应的向量可以表示为：a_i0a_i1，上行总字节数对应的向量可以表示为：a_i2a_i3，下行总包数对应的向量可以表示为：a_i4a_i5，下行总字节数对应的向量可以表示为：a_i6a_i7，平均活动状态时间对应的向量可以表示为：a_i8a_i9，则对于n条流量中的任意一条流量i对应的特征向量a_i可以用这5个特征的向量进行表示，比如：a_i＝a_i0a_i1a_i2a_i3a_i4a_i5a_i6a_i7a_i8a_i9，假设这n条流量对应的n个特征向量分别是a₁至a_n。

采用预设的聚类算法对特征向量进行聚类，聚类是根据特征向量内部的相似度进行类别的划分，在没有训练数据集的情况下可以把n个特征向量a₁至a_n划分成k类。具体的，可以采用K-means算法进行聚类，其中，K-means算法接收输入量k，然后将输入的n个数据对象划分为k个类，以使所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个中心对象来进行计算的，输出满足方差最小标准的k个聚类。采用K-means算法具有分类速度快的优点，可以提高流量的分类速度。聚类算法为现有技术，本发明实施例在此不对其进行赘述。

聚类算法是根据向量内部的相似度进行聚类，但是聚类的结果并无法直接得知哪些流量是异常的，所以在S104中采用基于监督学习的分类算法和预设的训练数据集对聚类的结果再次进行分类。预设训练数据集是预先收集的黑名单和白名单流量的集合，用以对未知的、已分类的流量进行训练，并结合分类算法对其进行分类，假设，对聚类结果的k个类别分类成m类。本发明实施例在聚类算法所得到的分类结果的基础上进一步采用基于监督学习的分类算法进行分类，所以融合了基于非监督学习的聚类算法和基于监督学习的分类算法，能够进一步提高流量检测的准确性。

进一步的，预设的分类算法可以是逻辑回归(Logistic Regression，简称为LR)算法、支持向量机(Support Vector Machine，简称SVM)算法、随机森林算法(Random Forest，简称为RF)中的一种或者几种。逻辑回归算法的核心思想是利用训练数据集对分类边界建立回归方程，以此进行分类，是一种选择最优分类的算法，整个算法可以看做是一个预测类别的函数将输入的待分类数据进行分类并采用检测函数(又叫损失函数或错误函数)进行检测分类的好坏，以达到正确分类的目的。支持向量机算法通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化。随机森林算法是用随机的方式建立一个森林，森林里面有很多的决策树组成，每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的待检测样本(本发明实施例中指待检测流量对应的特征向量)输入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为那一类。当采用多种分类算法时，相比较现有技术中只采用一种分类方法进行分类，进一步提高了流量检测的鲁棒性。

根据分类算法得到的m类结果，还无法得知每一类中的特征向量对应的流量是不是异常流量，因此，再次采用具有分类和预测功能的决策树算法进行检测。决策树算法多棵决策树组成，所有树的结论累加起来做最终答案。示例性的，流量A包含的5个特征，假设5个特征分别为：上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间，分别进行决策树训练，共计采用5棵决策树，根据已有的训练数据集每棵树分别判断当前特征的值为异常流量的概率，进而得到该条流量为异常流量的预测概率。还可以采用与预设的概率阈值进行比较，如果大于预设阈值，则检测该特征向量对应的待检测流量为异常流量；不然，则为正常流量。示例性的，特征向量a的预测概率为0.6，预设阈值为0.55，因为0.6>0.55，所以检测到特征向量a对应的流量A是异常流量。具体的，决策树算法可以是梯度迭代决策树(Gradient BoostingDecision Tree，简称为GBDT)算法，梯度迭代决策树算法的核心就在于，每一棵树学的是之前所有树结论和的残差，这个残差就是一个加预测值后能得真实值的累加量。逻辑回归算法、支持向量机算法、随机森林算法和梯度迭代决策树算法为现有技术，本发明实施例在此不对其进行赘述。

可见，应用本发明图1所示的实施例，通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后，再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类，对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量，解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时，因为没有相关的训练数据集而不能准确的将其进行分类，从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法，即使存在未知流量也可以通过聚类算法自动将其分类，不需要依赖训练数据集进行学习。因此，提高了异常流量检测的准确率。

参见图2，图2为本发明实施例提供的流量检测方法的另一种流程示意图，本发明图2所示实施例在图1所示实施例的基础上，在S102之前增加S106。

S106，对获得每一条待检测流量的特征进行预设处理，所述预设处理包括：预处理、离散化处理、归一化处理和插值处理中的一种或几种。

具体的，实际应用中，S102可以为S102A：根据预设处理后的特征，确定每一条待检测流量的特征向量。

本领域技术人员可以理解的是，在获取每条流量的特征以后通常要进行数据的过滤等预处理操作；另外得到的特征是连续的，为了防止在分类的时候产生过拟合的风险需要将特征进行离散化处理，具体的可以采用基于信息熵的离散化方法；为了方便获得流量对应的特征向量，将流量对应的特征进行归一化处理，得到的特征值均在0-1之间；还可以采用插值法对流量的特征进行插值处理。

实际应用中，可以采用预处理、离散化处理、归一化处理和插值处理中的一种或几种处理方式对每一条待检测流量的特征进行处理。根据处理的结果确定该条流量对应的特征向量。以归一化为例，流量A的5个特征上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间的值分别为：3、5、2、5、8，经过归一化处理后上行总包数、上行总字节数、下行总包数、下行总字节数、平均活动状态时间值分别为0.1、0.3、0.2、0.5、0.6，每个特征的值再按照固定维度的向量进行表示，进而得到由这5个特征组成的特征向量。

应用本发明图2所示的实施例，对待检测流量进行处理，方便了待检测流量的特征向量的确定，使得确定出的待检测流量的特征向量更加准确，进一步提高了异常流量检测的准确率。

图3为本发明实施例提供的流量检测方法的再一种流程示意图，本发明图3所示实施例在图1所示实施例的基础上，增加S107和S108。

S107，根据检测结果对所述每一个分类算法的分类结果进行验证，如果验证错误，执行S108。

S108，更改该分类算法对聚类结果进行分类时所使用的训练数据集。

本领域技术人员可以理解的是，为了进一步确保分类算法的分类的准确性，需要根据分类算法的分类结果进行验证，具体的可以采用误差率进行验证，误差率即分类算法将流量对应的特征向量分类错误的比例。示例性的，支持向量机算法对100条流量对应的特征向量的聚类结果进行分类，其中分错了类别的特征向量数量为2，那么支持向量机算法的误差率为2％，误差率与分类算法本身和所采用的训练数据集相关。实际使用中，可以预设误差率，分类算法对应的误差率和预设误差率进行对比验证，如果大于预设误差率则更换分类算法使用的训练数据集。由于每天都在进行异常流量的检测，相应的训练数据集也在不停的更新，具体的，可以根据不同时间的分类算法对应的误差率进行比较。示例性的，今天与昨天采用的训练数据集不同，将今天的分类算法的误差率与昨天的误差率进行比较，若大于昨天的误差率，则采用昨天的训练数据集，否则，继续采用今天采用的训练数据集。

可见，应用本发明图3所示的实施例，通过不断的验证算法的分类结果，根据验证的结果确定是否更换训练数据集，进一步避免了由于训练数据集的因素影响分类结果，提高了流量分类的准确率。

图4为本发明实施例提供的流量检测装置的一种结构示意图，所述装置可以包括：获得模块201、确定模块202、聚类模块203、分类模块204、检测模块205。

获得模201，用于针对包含待检测流量的日志进行特征处理，获得每一条待检测流量的特征；

确定模块202，用于根据所述特征，确定每一条待检测流量的特征向量；

聚类模块203，用于利用预设聚类算法，对所述特征向量进行聚类；

分类模块204，用于分别利用预设分类算法中的每一个分类算法和预设训练数据集，对聚类结果进行分类；

检测模块205，用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法，检测每一个特征向量对应的待检测流量是否为异常流量。

具体的，实际应用中，所述预设聚类算法可以为：K-means算法。

所述预设分类算法，可以包括以下算法中一种或几种：逻辑回归算法、支持向量机算法、随机森林算法。

所述预设决策树算法可以为：梯度迭代决策树算法。

可见，应用本发明图4所示的实施例，通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后，再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类，对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量，解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时，因为没有相关的训练数据集而不能准确的将其进行分类，从而无法得知该未知流量是否为异常流量的问题。本发明实施例采用的聚类算法，即使存在未知流量也可以通过聚类算法自动将其分类，不需要依赖训练数据集进行学习。因此，提高了异常流量检测的准确率。

图5为本发明实施例提供的流量检测装置的另一种结构示意图，本发明图5所示实施例在图4所示实施例的基础上，增加预处理模块206。

预处理模块206，用于对获得每一条待检测流量的特征进行预设处理，所述预设处理包括：预处理、离散化处理、归一化处理和插值处理中的一种或几种；

具体的，实际应用中，所述确定模块202，可以用于：根据预设处理后的特征，确定每一条待检测流量的特征向量。

应用本发明图5所示的实施例，对待检测流量进行处理，方便了待检测流量的特征向量的确定，使得确定出的待检测流量的特征向量更加准确，进一步提高了异常流量检测的准确率。

图6为本发明实施例提供的流量检测装置的再一种结构示意图，本发明图6所示实施例在图4所示实施例的基础上，增加验证模块207、更改模块208。

验证模块207，用于根据检测结果对所述每一个分类算法的分类结果进行验证；

更改模块208，用于在所述验证模块的验证结果为错误的情况下，更改该分类算法对聚类结果进行分类时所使用的训练数据集。

可见，应用本发明图6所示的实施例，通过不断的验证算法的分类结果，根据验证的结果确定是否更换训练数据集，进一步避免了由于训练数据集的因素影响分类结果，提高了流量分类的准确率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种流量检测方法，其特征在于，所述方法包括：

根据所述特征，确定每一条待检测流量的特征向量；

利用预设聚类算法，对所述特征向量进行聚类；

2.根据权利要求1所述的方法，其特征在于，所述预设聚类算法为：K-means算法。

3.根据权利要求1所述的方法，其特征在于，所述预设分类算法，包括以下算法中一种或几种：

逻辑回归算法、支持向量机算法、随机森林算法。

4.根据权利要求1所述的方法，其特征在于，所述预设决策树算法为：梯度迭代决策树算法。

5.根据权利要求1所述的方法，其特征在于，在所述根据所述特征，确定每一条待检测流量的特征向量之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据检测结果对所述每一个分类算法的分类结果进行验证；

7.一种流量检测装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述预设聚类算法为：K-means算法。

所述预设分类算法，包括以下算法中一种或几种：

逻辑回归算法、支持向量机算法、随机森林算法。

所述预设决策树算法为：梯度迭代决策树算法。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括：

所述确定模块，具体用于：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：