CN106982230B

CN106982230B - 一种流量检测方法及系统

Info

Publication number: CN106982230B
Application number: CN201710325643.7A
Authority: CN
Inventors: 吕品树; 唐杰
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2017-05-10
Filing date: 2017-05-10
Publication date: 2020-11-13
Anticipated expiration: 2037-05-10
Also published as: CN106982230A

Abstract

本申请公开了一种检测流量方法，包括：将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵；利用所述正常流量数据矩阵和所述异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型；利用所述逻辑回归模型检测流量数据，以将所述流量数据分类为正常流量数据和异常流量数据。本申请方案解决了现有的流量检测方法中时延长，模型复杂，鲁棒性不够等缺陷问题，使检测识别过程准确度高，且识别效率增加。本申请还公开了一种检测流量系统，具有上述有益效果。

Description

一种流量检测方法及系统

技术领域

本申请涉及流量检测领域，特别涉及一种部署在云平台的流量监测方法及系统。

背景技术

云平台提供云计算，是近年来最为热门的话题，被认为是继互联网之后的又一次信息技术变革。开发者开发互联网应用从以前需要自己租用服务器以及配置维护服务器，到云平台时代，只需要将业务或者应用迁移到云平台，即可使用。开发者无需关心服务器的一系列问题，只关注开发业务本身，提高开发速度，提升开发质量。同时也是互联网时代信息基础设施与应用服务模式的重要形态，也是新一代信息技术运用集约化发展的必然趋势。

在云平台运行的程序，或者是使用云平台提供服务都会对云平台带来不同方向的流量，有的是数据中心的外部用户和内部服务器之间交互的流量，被称之为南北向流量；有的是数据中心的内部服务器之间交互的流量，被称之为东西向流量，也叫做横向流量。互联网普及的同时，云平台接收的东西向、南北向流量越来越多，随之而来的东西向、南北向的异常流量的攻击也越来越多，给云平台带来了严重的潜在威胁，影响到云平台的正常服务的运行。

其中，异常流量对云平台的危害主要体现在以下几个方面：第一，占用大量的网络资源，导致租户的正常业务无资源可用；第二，到时云平台的网络拥堵，从而使数据包的时延增大，甚至导致云平台的服务不可用。而且，随着攻击者的技术越来越纯熟，异常流量数据的模式越复杂，更难以识别。

因此，如何分类识别异常数据，对云平台流量检测显得尤为重要，是本领域技术人员的重要研究课题。

发明内容

本申请的目的是提供一种可以解决异常流量分类识别问题，以面对模式复杂，多变的异常流量数据。

为解决上述技术问题，本发明提供一种流量检测方法，所述方法包括：

将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵；

利用所述正常流量数据矩阵和所述异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型；

利用所述逻辑回归模型检测流量数据，以将所述流量数据分类为正常流量数据和异常流量数据。

可选的，所述将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵，包括：

在云平台中，抓取预定数量的数据包；

根据k-均值聚类方法分类所述数据包，得到正常流量数据包和异常流量数据包；

对所述正常流量数据包和所述异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵。

可选的，根据k-均值聚类方法分类所述数据包，得到正常流量数据包和异常流量数据包，包括：

选择所述数据包内的任意的两个向量分别作为第一组聚类中心；

计算所述数据包内其他的每个向量到所述第一组聚类中心的每个的聚类中心的距离之和，把每个向量归类到所述距离之和最小的那个聚类中心对应的类别中，得到第一分类结果；

选择所述数据包内其他的任意的两个向量分别作为第二组聚类中心，并计算得到第二分类结果；

判断所述第一分类结果与第二分类结果是否一致，如果是，输出所述第一分类结果或第二分类结果；如果否，将第二分类结果作为第一分类结果，并重新选择其他的向量作为第二组聚类中心，计算第二分类结果，直到所述第一分类结果与第二分类结果一致，输出第一分类结果或者第二分类结果。

可选的，利用所述正常流量数据矩阵和所述异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型，包括：

选取第一预定比例的所述正常流量数据矩阵和第二预定比例的所述异常流量数据矩阵，对所述初始逻辑回归模型进行训练，获得基本逻辑回归模型；

选取第三预定比例的所述正常流量数据矩阵和第四预定比例的所述异常流量数据矩阵，对所述基本逻辑回归模型进行校验，获得所述逻辑回归模型。

可选的，本技术方案还包括当所述分类出现所述异常流量数据时报警。

可选的，本技术方案还包括当所述分类出现所述异常流量数据时，使用所述异常流量数据对所述逻辑回归模型进行更新。

本申请还提供一种流量检测的系统，所述系统包括：

分类处理单元，用于将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵；

训练单元，用于所述正常流量数据矩阵和所述异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型；

检测单元，用于所述逻辑回归模型检测流量数据，以将所述流量数据分类为正常流量数据和异常流量数据。

可选的，所述分类处理单元包括：

数据包抓取子单元，用于在云平台中，抓取预定数量的数据包；

分类子单元，用于根据k-均值聚类方法分类所述数据包，得到正常流量数据包和异常流量数据包；

属性分解子单元，用于对所述正常流量数据包和所述异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵。

可选的，所述训练单元包括：

初始训练子单元，选取第一预定比例的所述正常流量数据矩阵和第二预定比例的所述异常流量数据矩阵，对所述初始逻辑回归模型进行训练，获得基本逻辑回归模型；

校验子单元，用于选取第三预定比例的所述正常流量数据矩阵和第四预定比例的所述异常流量数据矩阵，对所述基本逻辑回归模型进行校验，获得所述逻辑回归模型。

可选的，本技术方案还包括：

自学习单元，用于当所述分类出现异常流量数据时，使用所述异常流量数据对所述逻辑回归模型进行更新。

本申请所提供的流量检测方法，通过抓取预定数量的数据包，分类处理后的正常数据矩阵和异常数据矩阵，以训练初始逻辑回归模型，再使用训练后的逻辑回归模型检测流量数据。从分类后的数据入手，本申请使用部分分类数据对初始的逻辑回归模型进行训练，对后续的用逻辑回归模型检测识别的过程中提高了识别效率和准确度。

此外，当检测识别出现异常流量数据时，本申请方案的技术对所述异常流量数据进行处理后，根据所述的异常流量数据对所述逻辑回归模型进行更新。本申请技术方案确保了模型识别对实时变化的流量模型的检测识别，具有自我学习能力，面对更复杂的流量环境可以做到自我更新模型数据以适应环境。

本申请还提供了一种检测流量系统，并且该系统的有益效果与所述方法的有益效果相同，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的流量检测方法的流程图；

图2为本申请实施例所提供的分类处理的流程图；

图3为本申请实施例所提供的k-均值聚类方法分类的流程图；

图4为本申请实施例所提供的训练过程的流程图；

图5为本申请实施例所提供的流量检测系统框图；

图6为本申请实施例所提供的分类处理单元的框图；

图7为本申请实施例所提供的训练单元的框图。

具体实施方式

本申请的核心是提供一种流量检测方法及系统，具体解决流量检测问题。本申请技术方案通过抓取预定数量的数据包，分类处理后的正常数据矩阵和异常数据矩阵，以训练初始逻辑回归模型，再使用训练后的逻辑回归模型检测流量数据。具有较好的识别效率和准确度。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本申请实施例所提供的流量检测方法的流程图。

S100，分类处理抓取到的预定数量的数据包，得到正常流量数据矩阵和异常流量数据矩阵。

其中，本实施例对于预定数量不做限定，可以根据所训练的模型的使用环境和其预定准确度而做不同的修改，而且逻辑回归模型的识别准确度随着训练用的数据量的增加而增加，但当到了一定数据量后逻辑回归模型的识别准确度的增加没有那么显著的变化。因此，所抓取的数据包的数量应根据预期确定的预定准确度设置所抓取的数据包的数量。数据包处理后变为数据矩阵，是将数据包按属性进行分解归类，变成计算机可读的形式，以方便后续的初始模型对原始数据进行读取。

S200，利用正常流量数据矩阵和异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型。

其中，对于训练过程具有一个训练目标，一般来说是以训练后的准确度作为目标的判定，因此，在训练前设定一个预定准确度。训练的预定准确度不做限定，可以根据检测识别的准确度的要求做适应性的修改。在此实施例中，考虑到检测时对识别度的要求初始逻辑回归模型的预定准确度被设置在90％，当训练的准确度达90％时确定该逻辑回归模型达到要求，可以被加载到相应位置检测流量，但此时的逻辑回归模型并非是封装不可更改状态，为了面对复杂多变的环境此模型还可以根据实时的识别的流量进行学习，当然，也可以将此模型分装起来使其不可改变。

S300，利用逻辑回归模型检测流量数据，以将流量数据分类为正常流量数据和异常流量数据。

需要强调的是，利用逻辑回归模型进行检测的过程本质上是对实时的流量进行识别分类的过程，但此识别分类过程区别于上述分类处理过程。上述分类处理过程利用的是封闭的数据，此时数据量是固定不变的，其数据的特征属性也是不变的，而此识别分类的过程是面对不断变化的数据，其数量变化特征属性也变化。因此，这两个分类过程面对的对象不同，其分类方式也不同。

此外，为了提示该检测结果，方便操作人员实时观察流量数据，当该检测过程中分类识别出异常流量数据时，系统给出相应的提示，可以是报警，也可以是亮灯或者提示信息，在此不做限定。

基于上述技术方案，本申请实施例提供的流量检测方法，通过抓取预定数量的数据包，分类处理后的正常数据矩阵和异常数据矩阵，以训练初始逻辑回归模型，再使用训练后的逻辑回归模型检测流量数据。其中的逻辑回归模型可以更准确的反映该流量数据的特征，在检测识别时可以更准确的识别出正常流量数据和异常流量数据。

请参考图2，图2为本申请实施例所提供的分类处理的流程图。基于上述实施例，其具体步骤如下：

S101，在云平台中，抓取预定数量的数据包。

S102，根据k-均值聚类方法分类数据包，得到正常流量数据包和异常流量数据包。

其中，在数据包分类处理的流程中，可以根据对准确率，速度和负载的不同要求选择其他的聚类方法，在此实施例中，优选的是k-均值聚类方法分类数据包。该方法在所需的准确度下可以以更快的速度和更小的负载完成要求。

S103，对正常流量数据包和异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵。

需要说明的是，数据包的属性分解，是指通过抓取网络数据包的形式，记载其抓取过程中产生TCP/IP连接的属性记录。这些记录的格式如下：

R(T Src.IP Src.Port Dst.IP Dst.Port FLAG)

其中，T代表数据包连接时间，Src.IP代表源IP，Src.Port代表源端口，Dst.IP代表目的IP，Dst.Port代表目的端口，FLAG标识TCP/IP的连接状态。

将以上每组属性，写到一个向量R中，因此，一个向量R即可代表一个TCP/IP连接。

上述异常流量数据包和正常流量数据包进行属性分解的向量以矩阵的形式组合，以形成正常流量数据矩阵和异常流量数据矩阵。

请参考图3，图3为本申请实施例所提供的k-均值聚类方法分类的流程图。基于上述实施例，其分类处理步骤中k-均值聚类方法如下：

S1021，选择数据包内的任意的两个向量分别作为第一组聚类中心。

S1022，计算数据包内的其他的每个向量到第一组聚类中心的每个聚类中心的距离之和，把每个向量归类到距离之和最小的那个类中，得到第一分类结果。

特别强调的是，上述距离计算使用的公式是欧几里得距离计算公式：

计算后得到每个向量对应两个聚类中心的两个距离数据，根据距离数据的大小划分其每个向量的归类，将距离数据较小的聚类中心的类别作为其归类。

S1023，选择数据包内的任意的其他的两个向量分别作为第二组聚类中心，并计算得到第二分类结果。

S1024，判断第一分类结果与第二分类结果是否一致，如果是，输出第一分类结果或第二分类结果；如果否，将第二分类结果作为第一分类结果，并重新选择其他的向量作为第二组聚类中心，计算第二分类结果，直到第一分类结果与第二分类结果一致，输出第一分类结果或者第二分类结果。

也就是说，分类开始时，选择两个向量作为第一组聚类中心的两个聚类中心，计算每个向量分别到两个聚类中心的距离，并把该向量归类到距离最近的那个聚类中心对应的那个类中，得到上述第一聚类结果。然后从已选作为聚类中心的向量外再选择新的向量作为第二组聚类中心，其选择的也是两个向量，并计算得到第二分类结果。判断分类结果是否一致，如果一致，则是分类结果不再发生变化，可以输出分类结果。如果不一致，则是所计算的两个分类结果没有反应最终的分类结果，还需再次分类，因此，重新选择聚类中心，判断是否一致，直到分类结果不再发生变化时输出分类结果。

其中，对于判断过程，对比的对象是第一分类结果和第二分类结果，该两个分类结果都为两个关于所有向量的集合，因此，其对比过程是比较两个集合中的元素是否一一对应。且上述第一分类结果和第二分类结果其结果都是包含分类后的异常流量数据包和正常流量数据包。

在选择聚类中心时，确定第二组聚类中心的向量选择不包含在已被当作聚类中心的向量中。也就是说优选的每个向量至多被选作一次聚类中心。

值得一提的是，上述方法他的目标是寻找使得下式满足的聚类S_i

请参考图4，图4为本申请实施例所提供的训练过程的流程图。基于上述实施例，在对初始逻辑回归模型进行训练时，主要分为训练和校验两个步骤：

S201，选取第一预定比例的正常流量数据矩阵和第二预定比例的异常流量数据矩阵，对初始逻辑回归模型进行训练，获得基本逻辑回归模型；

S203，选取第三预定比例的正常流量数据矩阵和第四预定比例的异常流量数据矩阵，对基本逻辑回归模型进行校验，获得逻辑回归模型。

需要强调的是，训练过程的原理是，首先寻找一个合适的预测函数，用h表示，他就是逻辑回归模型的分类函数，输入关于流量数据的向量R得到一个输出结果，根据结果就可以判断此流量数据的向量 R的归类。

预测函数h为：

然后需要根据已知的第一预定比例的正常流量数据矩阵和第二预定比例的异常流量数据矩阵，计算出预测函数的相关参数值。因此，构造损失函数，该函数表示预测的输出与训练函数的偏差，将损失求和或者求平均，用J(θ)表示。

损失函数J(θ)为：

最后，寻找损失函数J(θ)的最小值，利用梯度下降法，迭代求解θ的值：

至此，得到其预测函数的相关参数，带入到预测函数，再输入第三预定比例的正常流量数据矩阵和第四预定比例的异常流量数据矩阵到预测函数，根据已知的分类结果和预测函数得到的预测结果，校验其参数。并实时计算其正确率，当正确率达到预定准确度时，可以认定此训练过程结束。在此实施例中，设置预定准确度为90％，可以根据不同的要求和使用环境做修改。

需要注意的是其中第一预定比例、第二预定比例、第三预定比例和第四预定比例设置方法，可以根据不同的要求设置不同的比例，例如依次设置为70％、70％、30％和30％，也可以依次设置为70％、70％、 20％和20％。需要注意的是为了提高数据使用率，优选的设置方法可以遵守以下原则，第一预定比例和第三预定比例相加为100％，同样的，第二预定比例和第四预定相加也为100％。因此，在此实施例中，将上述预定比例依次设置为80％、80％、20％和20％，可以使训练更有效率的达到模型的预定准确度。

此外，基于上述任意技术方案，为了面对特征不断变化的异常流量数据，同时减少技术人员对该系统的维护和更新频率，且提高逻辑回归模型的识别能力以及识别可靠性和准确性，进一步设置自学习功能。即优选的，当检测出现异常流量数据时，逻辑回归模型根据异常流量数据的特征，对自身的检测函数更新。

基于上述技术方案，本申请实施例提供的流量检测方法，通过使用k-均值聚类方法，使分类过程快捷高效。在训练后使用剩余的分类好的数据包校验逻辑回归模型，使其准确度达到预定标准，从而具有更高的准确度。

下面对本申请实施例提供的系统进行介绍，下文描述的流量检测系统与上文描述的流量检测方法可相互对应参照。

请参考图5，图5为本申请实施例所提供的系统框图。该系统可以包括：

分类处理单元100，用于将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵；

训练单元200，用于正常流量数据矩阵和异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型；

检测单元300，用于逻辑回归模型检测流量数据，以将流量数据分类为正常流量数据和异常流量数据。

请参考图6，图6为本申请实施例所提供的分类处理单元的框图。

基于上述系统实施例，该分类处理单元100可以包括：

数据包抓取子单元101，用于在云平台中，抓取预定数量的数据包；

分类子单元102，用于根据k-均值聚类方法分类数据包，得到正常流量数据包和异常流量数据包；

属性分解子单元103，用于对正常流量数据包和异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵。

请参考图7，图7为本申请实施例所提供的训练单元的框图。

基于上述系统实施例，该训练单元200可以包括：

初始训练子单元201，选取第一预定比例的正常流量数据矩阵和第二预定比例的异常流量数据矩阵，对初始逻辑回归模型进行训练，获得基本逻辑回归模型；

校验子单元202，用于选取第三预定比例的正常流量数据矩阵和第四预定比例的异常流量数据矩阵，对基本逻辑回归模型进行校验，获得逻辑回归模型。

基于上述任一系统实施例，还可以包括：

自学习单元，用于当分类出现异常流量数据时，使用异常流量数据对逻辑回归模型进行更新。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的流量检测方法及系统进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种流量检测方法，其特征在于，所述方法包括：

利用所述逻辑回归模型检测流量数据，以将所述流量数据分类为正常流量数据和异常流量数据；

其中，将抓取预定数量的数据包进行分类处理，得到正常流量数据矩阵和异常流量数据矩阵，包括：

在云平台中，抓取预定数量的数据包；根据k-均值聚类方法分类所述数据包，得到正常流量数据包和异常流量数据包；对所述正常流量数据包和所述异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵；

其中，根据k-均值聚类方法分类所述数据包，得到正常流量数据包和异常流量数据包，包括：

选择所述数据包内的任意的两个向量分别作为第一组聚类中心；计算所述数据包内其他的每个向量到所述第一组聚类中心的每个的聚类中心的距离之和，把每个向量归类到所述距离之和最小的那个聚类中心对应的类别中，得到第一分类结果；选择所述数据包内其他的任意的两个向量分别作为第二组聚类中心，并计算得到第二分类结果；判断所述第一分类结果与第二分类结果是否一致，如果是，输出所述第一分类结果或第二分类结果；如果否，将第二分类结果作为第一分类结果，并重新选择其他的向量作为第二组聚类中心，计算第二分类结果，直到所述第一分类结果与第二分类结果一致，输出第一分类结果或者第二分类结果。

2.根据权利要求1所述的方法，其特征在于，利用所述正常流量数据矩阵和所述异常流量数据矩阵对初始逻辑回归模型进行训练，获得逻辑回归模型，包括：

3.根据权利要求2所述方法，其特征在于，还包括当所述分类出现所述异常流量数据时报警。

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括当所述分类出现所述异常流量数据时，使用所述异常流量数据对所述逻辑回归模型进行更新。

5.一种流量检测系统，其特征在于，所述系统包括：

检测单元，用于所述逻辑回归模型检测流量数据，以将所述流量数据分类为正常流量数据和异常流量数据；

其中，所述分类处理单元，包括：

属性分解子单元，用于对所述正常流量数据包和所述异常流量数据包进行属性分解，得到正常流量数据矩阵和异常流量数据矩阵；

其中，所述分类子单元，具体用于选择所述数据包内的任意的两个向量分别作为第一组聚类中心；计算所述数据包内其他的每个向量到所述第一组聚类中心的每个的聚类中心的距离之和，把每个向量归类到所述距离之和最小的那个聚类中心对应的类别中，得到第一分类结果；选择所述数据包内其他的任意的两个向量分别作为第二组聚类中心，并计算得到第二分类结果；判断所述第一分类结果与第二分类结果是否一致，如果是，输出所述第一分类结果或第二分类结果；如果否，将第二分类结果作为第一分类结果，并重新选择其他的向量作为第二组聚类中心，计算第二分类结果，直到所述第一分类结果与第二分类结果一致，输出第一分类结果或者第二分类结果。

6.根据权利要求5所述的系统，其特征在于，所述训练单元包括：

7.根据权利要求5至6任一项所述的系统，其特征在于，还包括：