CN114726653B

CN114726653B - 基于分布式随机森林的异常流量检测方法和系统

Info

Publication number: CN114726653B
Application number: CN202210569377.3A
Authority: CN
Inventors: 戚建淮; 崔宸; 唐娟; 刘航
Original assignee: Shenzhen Y&D Electronics Information Co Ltd
Current assignee: Shenzhen Y&D Electronics Information Co Ltd
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-11-15
Anticipated expiration: 2042-05-24
Also published as: CN114726653A

Abstract

本发明公开了一种基于分布式随机森林的异常流量检测方法，包括将流量中包含的多个应用的流量信息划分为每个应用的流量；提取每个应用的流量的流特征；基于提取的流特征和该应用的流量检测模型，得到应用的流量状态；根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常。本发明将流数据分为各个应用的流量，对每个应用的流量提取对应的流特征；应用流量检测模型，根据流特征输出应用的流量状态；然后根据事先预存的各流量正常状态列表，通过对比判断该应用流量状态是否出现异常；由此，即使在使用加密流量或者用户私有协议时，只需比较流特征与预先建立的流量检测模型，而无需应用层解包，依然可以进行分析。

Description

基于分布式随机森林的异常流量检测方法和系统

技术领域

本发明涉及网络安全技术领域，尤其涉及一种基于分布式随机森林的异常流量检测方法和系统。

背景技术

随着网络规模的不断扩大以及各类网络应用的持续深化，互联网已经成为人们生活中不可或缺的基础设施。但与此同时，各类网络攻击日益猖獗，严重威胁着互联网的安全，因此，网络安全要求越来越高。

在现有技术中，可以通过监测网络流量来判断网络环境是否安全。但是这种传统的通过静态规划匹配的网络异常检测方法在动态、复杂的网络环境中难以检测出未知异常和攻击类型，不能满足网络安全检测的要求。且网络中业务繁多，依靠主动检测方式，会给业务服务器带来新的负载压力，通过应用层分析，需要在应用层解码，而应用层加密或私有协议，不能解码。

发明内容

本发明提供一种基于分布式随机森林的异常流量检测方法，包括以下步骤：

将流量中包含的多个应用的流量信息划分为每个应用的流量；

提取每个应用的流量的流特征；

基于提取的流特征和该应用的流量检测模型，得到应用的流量状态；以及

根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常。

在本发明提供的基于分布式随机森林的异常流量检测方法中，在将流量中包含的多个应用的流量信息划分为每个应用的流量的步骤之前，还包括：建立每个应用对应的流量检测模型。

在本发明提供的基于分布式随机森林的异常流量检测方法中，建立每个应用对应的流量检测模型的步骤包括：

分别采集多个状态下应用的流量统计特征，生成多个会话统计特征文件；

根据需求对多个会话统计特征文件中的一个或多个进行信息融合，生成分类特征文件；

对所述分类特征文件，根据需求利用PCA识别主要特征；以及

对识别到的主要特征进行随机森林训练，生成流量检测模型。

在本发明提供的基于分布式随机森林的异常流量检测方法中，在对所述分类特征文件，利用PCA进行主要特征识别的步骤之前，还包括：排除所述分类特征文件中的冗余特征分类信息。

在本发明提供的基于分布式随机森林的异常流量检测方法中，采用移动窗口加权平均法排除特征分类信息

此外，为实现上述目的，本发明还提供一种基于分布式随机森林的异常流量检测系统，包括：

流分片模块，用于流量中包含的多个应用的流量信息划分为每个应用的流量；

流特征提取模块，用于提取每个应用的流量的流特征；

流量状态获取模块，用于基于提取的流特征和该应用的流量检测模型，得到应用的流量状态；以及

异常检测模块，用于根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常。

在本发明提供的基于分布式随机森林的异常流量检测系统中，还包括流量检测模型建立模块，用于建立每个应用对应的流量检测模型。

在本发明提供的基于分布式随机森林的异常流量检测系统中，流量检测模型建立模块包括：

采集单元，用于分别采集多个状态下应用的流量统计特征，生成多个会话统计特征文件；

分类特征文件生成单元，用于根据需求对多个会话统计特征文件中的一个或多个进行信息融合，生成分类特征文件；

识别单元，用于对所述分类特征文件，根据需求利用PCA识别主要特征；以及

生成单元，用于对识别到的主要特征进行随机森林训练，生成流量检测模型。

在本发明提供的基于分布式随机森林的异常流量检测系统中，还包括冗余特征排除单元，用于采用移动窗口加权平均法排除冗余特征分类信息。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上的基于分布式随机森林的异常流量检测方法的步骤。

本发明提供的基于分布式随机森林的异常流量检测方法具有以下有益效果：本发明提供的基于分布式随机森林的异常流量检测方法和系统，首先通过流分片器将其流数据分为各个应用的流量，对每个应用的流量，提取对应的流特征；应用通过随机森林训练生成的流量检测模型，根据流特征输出应用的流量状态；然后根据事先预存的各流量正常状态列表，通过对比判断该应用流量状态是否出现异常；由此，即使在使用加密流量或者用户私有协议时，只需比较流特征与预先建立的流量检测模型，而无需应用层解包，依然可以进行分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1所示为本发明一实施例提供的基于分布式随机森林的异常流量检测方法的流程示意图；

图2是建立每个应用对应的流量检测模型的流程示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明总的思路是：针对现有技术中的网络异常检测方法采用主动检测方式，通过应用层分析，需要在应用层解码，而对于应用层加密或私有协议，不能解码的问题，首先通过流分片器将其流数据分为各个应用的流量，对每个应用的流量，提取对应的流特征；应用通过随机森林训练生成的流量检测模型，根据流特征输出应用的流量状态；然后根据事先预存的各流量正常状态列表，通过对比判断该应用流量状态是否出现异常。由此，即使在使用加密流量或者用户私有协议时，只需比较流特征与预先建立的流量检测模型，而无需应用层解包，依然可以进行分析。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

参照图1，图1所示为本发明一实施例提供的基于分布式随机森林的异常流量检测方法的流程示意图，在本实施例中，基于分布式随机森林的异常流量检测方法，包括：

步骤S10，将流量中包含的多个应用的流量信息划分为每个应用的流量；

步骤S20，提取每个应用的流量的流特征；

步骤S30，基于提取的流特征和该应用的流量检测模型，得到应用的流量状态。

步骤S40，根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常。

具体地，在本发明一实施例中，如果流量X中包含多个应用的流量信息，则首先通过流分片器将其分为各个应用的流量，例如每个应用的流量信息中包含特殊的校验位，根据校验信息将流量X分片为不同应用的流量信息；然后将其分为各个应用的流量，对每个应用的流量，抽取主要特征，将其输入预先建立的基于随机森林训练得到的各应用的流量检测模型；各模型输出应用的流量状态，此时可根据事先预存的各流量正常状态列表，通过对比判断该应用流量状态是否出现异常。

因此，在步骤S10之前，还包括：建立每个应用对应的流量检测模型。

随机森林算法由于其强抗噪力、可调参数少、适应力强等优点广泛应用于密码学、生物信息学、生态学等领域。但随机森林中的传统决策树算法在连续特征属性值数目过大时，算法复杂度高、运算效率低下、易过拟合；且其集成投票方法未考虑强分类器和弱分类器间差异，集成后会降低随机森林算法准确率、提高算法漏报率。

因此，为了为避免普通随机森林算法因特征选取过度严格产生的过拟合现象（过拟合是指为了得到理想分类而使分类标准/特征变得过度严格，从而导致最终分类效果较差），本申请采用扩大测试的样本集的方法，通过模拟多个应用场景，根据各种场景中不同特征的表现，生成多个会话统计特征文件，并对部分或全部的特征文件内容进行信息融合，融合后得到新的分类特征文件，并对分类特征文件中特征进行重新分组，排除可能存在的冗余分组，以方便后续PCA主要特征识别及随机森林训练。因此，如图2所示，建立每个应用对应的流量检测模型的步骤包括：

步骤S100，分别采集多个状态下应用的流量统计特征，生成多个会话统计特征文件；

具体地，在本发明一实施例中，针对某个应用在多种状态下进行流量采集，并统计其流量特征，生成多个会话统计特征文件。其中，应用的流量统计特征包括并不限于如下内容：（1）该流量数据包中某个或某些特殊字符，在该流量不同数据包中是否出现、出现的时间点、出现频率等；（2）该流量中详细的TCP标志分析；（3）每个方向（例如服务器到客户端（或反方向））数据包大小（字节数）；（4）每个方向所有数据包内数据字节大小的方差；（5）每个方向数据包平均分组大小；（6）每个方向数据包最小分组大小；（7）每个方向数据包最大分组大小；（8）每个方向某段时间内实际包含数据的数据包个数；（9）该流量所有数据包到达的最小时间间隔；（10）该流量所有数据包到达的最大时间间隔；（11）该流量所有数据包到达的平均时间间隔；（12）该流量所有数据包到达的时间间隔标准偏差；（13）从服务器到客户端（或反方向）发送的带有某种标志的数据包个数；（14）从客户端到服务器端（或反方向）的初始窗口大小。

进一步地，采集应用在不同状态下的流量情况包括并不限于：版本更新（版本升级）、信息查询（如查询自身地理位置）、状态发布（如对外更新自身位置、工作状态等使用信息）、被病毒攻击状态(如自身处于木马控制而对外发送信息、受到外界节点攻击、被口令入侵并进行非法操作（进行超出其权限的录入、查询、删除等）等)。

通过采集不同状态下的流量统计特征，可以扩大测试样本集，从而使生成的流量检测模型具有更好的适用性。

步骤S200，根据需求对多个会话统计特征文件中的一个或多个进行信息融合，生成分类特征文件；

具体地，在本发明一实施例中，对于生成的多个会话统计特征文件需要进行信息融合，应根据需求进行部分或全部融合，例如需要对该应用在正常情况下的特征进行分析，则无需融合其被病毒入侵后产生的会话统计特征文件。

进一步地，进行特征文件信息融合的方式：包括且不限于采用线性加权平均法、贝叶斯估计法等。例如进行加权平均法时，设置加权系数α（一般有α>1），设需要对1~m个会话统计特征文件中某个特殊字符出现的频率进行线性加权平均信息融合，设该1~m的文件中前k个为在正常状态下的所有会话统计特征文件，从k+1到m为该应用遭受攻击时产生的会话统计特征文件。设

为各文件中该特殊字符出现的频率，则最终融合后该特殊字符出现频率的线性加权平均信息融合结果如下，其中，f是信息融合后得到新的分类特征文件中的一个分类特征：

步骤S300，排除所述分类特征文件中的冗余特征分类信息；

具体地，在本发明一实施例中，需要对分类特征文件中特征进行重新分组，排除可能存在的冗余分组。在融合后得到的新的分类特征文件中，如果出现同一类型或不同类型连续的多个分类特征（例如多个连续的关于特殊字符出现频率的特征值或分组），在其中存在冗余分类特征值或分组（例如多个连续的特征值重要性差别较小），冗余分类特征值或分组的存在可能造成分类效率低或分类特征过拟合的问题，因此，需要对上述得到的特征文件中的分类特征进行重新分组，排除可能存在的冗余分组（冗余的其中一种表现形式：某些分类组间的重要性差别较小）。

在随机森林算法中，最重要的两个步骤为决策树构造和集成投票。

决策树是一种基于实例的归纳学习方法，从给定无序训练样本中提炼出树形分类模型，包括决策结点、分支和叶节点3 部分。其中决策结点表示对待分类样本进行类别判断的特征，分支表示决策结点的不同取值，叶节点则代表最后诊断的类别。目前常用的决策树构造算法有C4.5、分类回归树(classification and regression tree，CART)等。

CART算法采用二叉划分法，递归地二分每个特征，从而将特征空间划分为有限个单元，在这些单元上确定预测的概率分布；CART算法用基尼系数来选择特征。假设给定数据集D有K个类别，第k个类别数量为Ck，则该应用产生的流量数据样本集D的基尼系数为：

若根据分类特征文件中某特征值A，数据样本集D被分割为D1、D2两部分，则在特征A条件下D的基尼系数为：

相比于信息增益，信息增益比等作为特征选择方法，基尼指数省略了对数计算，运算量比较小，也比较容易理解。

设数据集D的分类特征文件中有n个不同特征，传统的CART算法在对连续特征离散化处理时，要将这些值从小到大排序，得到特征值集合{A₁, A₂, A₃,..., A_n}，取区间[A_i,A_i+1]的中点作为候选划分点，得到含n-1个元素的划分点集合P_A：

计算各候选划分点信息增益率或基尼系数，选取最优值点作为最佳划分点。

但以上划分点确定方法不能确保排除冗余特征信息，从决策树构建方式出发，针对流数据特征信息种类繁多，行为数据流繁多等特点，本申请采用移动窗口加权平均方法进一步排除冗余分类信息，在D集合中，连续特征值的取值A可按照特征值大小及重要程度进行划分，将数据集D中特征A取值小于等于候选划分点取值的数据划分为左子集，将数据集D中特征A取值大于等于候选划分点取值的数据划分为右子集。为保证诊断准确率且减少冗余特征属性点，设定窗口滑动步长为1~4，且步长应小于滑动窗口长度；滑动窗从步长1开始滑动，每次滑动均计算相邻两滑动窗平均值a_i，a_i+1的步长b_j，

，

为特征值重要度权重。当增长率b_j小于设定阀值下限时，认为增长过小，滑动窗步长加1；当增长率b_j大于设定阀值上限时，认为增长过大，滑动窗步长减1；若增长率b_j处于阈值内时，则保持目前步长。

经上述划分方法，得到最终的分类特征值集合

，其中

均为分类特征值集合。

步骤S400，对所述分类特征文件，根据需求利用PCA识别主要特征；

步骤S500，对识别到的主要特征进行随机森林训练，生成流量检测模型。

具体地，在本发明一实施例中，PCA一般从特征对需求的重要性角度进行特征筛选，例如针对某数据流，我们需要了解其数据包中是否有某特殊字符，并确定其发送频率，发送时间，对数据包中其他字符是否存在不感兴趣，因此体现该特殊字符的是否存在、发送频率、发送时间等信息的分类特征列为重要特征，并以此进行后续的随机森林训练，生成应用X流量检测的模型。

以某应用流量中的某个特殊字符举例，即使在使用加密流量或者用户私有协议时，该特殊字符依然有着对应的区别于其他字符的特殊编码形式，其是否出现、出现时间点、出现频率均不受加密/使用私有协议影响，只要识别出该字符的特殊编码形式，我们就无需知道该特殊字符具体含义，无需应用层解包，依然可以采用该方法进行分析。

相应地，本发明还提供一种基于分布式随机森林的异常流量检测系统，包括：

流量检测模型建立模块，用于建立每个应用对应的流量检测模型；

流特征提取模块，用于提取每个应用的流量的流特征；

进一步地，在本发明一实施例中，流量检测模型建立模块包括：

冗余特征排除单元，用于采用移动窗口加权平均法排除冗余特征分类信息；

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时可实现如下步骤；

将流量中包含的多个应用的流量信息划分为每个应用的流量；提取每个应用的流量的流特征；基于提取的流特征和该应用的流量检测模型，得到应用的流量状态；以及根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM) ＞随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于分布式随机森林的异常流量检测方法，其特征在于，包括以下步骤：

提取每个应用的流量的流特征；

根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常；

在将流量中包含的多个应用的流量信息划分为每个应用的流量的步骤之前，还包括：建立每个应用对应的流量检测模型；

建立每个应用对应的流量检测模型的步骤包括：

采用移动窗口加权平均法排除所述分类特征文件中的冗余特征分类信息；

对排除冗余特征分类信息后的分类特征文件，根据需求利用PCA识别主要特征；以及

2.一种基于分布式随机森林的异常流量检测系统，其特征在于，包括：

流特征提取模块，用于提取每个应用的流量的流特征；

异常检测模块，用于根据预存的正常流量状态列表，对比判断该应用的流量状态是否出现异常；

还包括流量检测模型建立模块，用于建立每个应用对应的流量检测模型；

流量检测模型建立模块包括：

识别单元，用于对排除冗余特征分类信息后的分类特征文件，根据需求利用PCA识别主要特征；以及

3.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如权利要求1的基于分布式随机森林的异常流量检测方法的步骤。