CN114362972B

CN114362972B - 一种基于流量摘要和图采样的僵尸网络混合检测方法及系统

Info

Publication number: CN114362972B
Application number: CN202011030840.4A
Authority: CN
Inventors: 龙春; 肖喜生; 杜冠瑶; 赵静; 万巍; 杨帆
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-07-21
Anticipated expiration: 2040-09-27
Also published as: CN114362972A

Abstract

本发明提供一种基于流量摘要和图采样的僵尸网络混合检测方法及系统，包括将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合成一条新的流量摘要记录；将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型；预测待检测流量摘要的预测值；利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图；构建异常值检测模型,预测待检测流量的主机为僵尸主机的概率值；将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和，并与阈值进行比较，将超过阈值对应的主机判断为僵尸主机；该方法及系统提高了识别的准确度和检测效率。

Description

一种基于流量摘要和图采样的僵尸网络混合检测方法及系统

技术领域

本发明属于僵尸网络检测技术领域，特别涉及一种基于流量摘要和图采样的僵尸网络混合检测方法及系统。

背景技术

随着计算机网络在各个领域飞速发展，各类网络安全事件层出不穷。僵尸网络采用某种传播手段，使得大量主机感染僵尸程序病毒，从而在控制者和被感染主机之间形成一个可一对多控制的网络。传统的僵尸网络可以通过流量特征匹配达到检测的目的，主要分为两大类方法：一类是基于网络流量的方法，利用僵尸程序之间以及僵尸程序与控制服务器之间通信的时空相似性和正常用户通信模式的差异，通过对流量特征进行提取与特定特征匹配规则进行对比，对比正常流量和僵尸网络流量的相似性，这样的方法需要考虑更细的流量粒度，但僵尸网络的进化使得流量特征分布更加随机，如果僵尸程序消除了其通信的时空相似性便可绕过这种检测方法，使得针对原始网络流单条流级别的检测误报率过大；另一类是基于图的方法通过构造主机通信图，对僵尸程序之间的网络通信用图的形式进行建模分析，可以挖掘僵尸主机之间的通信模式，对每个节点的图特征进行提取训练异常节点检测模型以发现僵尸主机，但构造整个网络图计算成本较高。现如今僵尸网络技术更加智能与隐蔽，破坏性更强，通信机制更加复杂，使得僵尸网络难以判别和检测。

发明内容

本发明的实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法及系统，能够解决僵尸网络难以判别和检测的问题。

本发明其中一个技术方案提供一种基于流量摘要和图采样的僵尸网络混合检测方法，所述检测方法包括：

S10、将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合成一条新的流量摘要记录；

S20、将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型；

S30、将待检测流量按照同样时间窗口大小进行摘要，然后输入到僵尸主机检测模型中，输出待检测流量摘要的预测值；

S40、利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图；

S50、基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值；

S60、将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和，并与阈值进行比较，将超过阈值对应的主机判断为僵尸主机。

进一步改进的方案中，所述原始流量的字段包括时间戳、通信协议、主机地址和标签。

进一步改进的方案中，步骤S20中所述将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型，包括：

S201：将新的流量摘要记录形成数据集，将数据集分成第一训练集、第二训练集和测试集；

S202：从第一训练集内随机采样选出n个样本，每一样本都具有M个特征；其中n和M均大于1；

S203：从M个特征中随机选择k个特征，对选出的n个样本利用选择的k个特征建立决策树；其中k＞1；

S204：将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，其中，1＜a＜n；从第二训练集内随机采样选出m个样本，每一样本都具有M个特征；

S205：从M个特征中随机选择k个特征，对选出的m个样本利用选择的k个特征建立决策树；

S206：将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，1＜a＜m，重复进行步骤S202至S205，直至生成d棵决策树；

S207：将测试集输入到d棵决策树中，计算误差值，当误差值小于阈值时，进行步骤S208，当误差值不小于阈值时，重复步骤S202至S206，直至误差值小于阈值；

S208：从第一训练集内随机采样选出n个样本；

S209：从M个特征中随机选择k+c个特征，对选出的n个样本利用选择的k+c个特征建立决策树,其中c≥1；

S210：将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，从第二训练集中内随机采样选出m个样本；

S211：从M个特征中随机选择k+c个特征，对选出的m个样本利用选择的k+c个特征建立决策树；

S212：将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，重复进行步骤S208至S211，直至形成g棵决策树；

S213：形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型。

进一步改进的方案中，步骤S40中所述利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图包括：

根据源IP和目的IP构造网络通信图，使用随机游走算法，给定当前起始节点，从其相连的邻居中随机选择一个节点作为下一个访问节点，重复此过程，直到采样的图满足预设条件，形成网络主机通信图。

进一步改进的方案中，所述预设条件是规定采样图的节点不超过指定的个数。

进一步改进的方案中，步骤S50中所述基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值，包括：

利用网络主机通信图节点结构计算待检测流量节点各类特征值；

加权组合节点各类特征值生成待检测流量的主机为僵尸主机的概率值。

进一步改进的方案中，所述节点各类特征包括：节点度、节点中心性、PageRank、聚类系数。

本发明另一个技术方案提供一种基于流量摘要和图采样的僵尸网络混合检测系统，其特征在于，所述检测系统包括：

聚合模块，所述聚合模块被配置为用于将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合成一条新的流量摘要记录；

僵尸主机检测模型构建模块，所述僵尸主机检测模型构建模块被配置为将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型；

预测值预测模块，所述预测值预测模块被配置为将待检测流量按照同样时间窗口大小进行摘要，然后输入到僵尸主机检测模型中，输出待检测流量摘要的预测值；

网络主机通信图构建模块，所述网络主机通信图构建模块被配置为利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图；

概率值预测模块，所述概率值预测模块被配置为基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值；

判断模块，所述判断模块被配置为将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和，并与阈值进行比较，将超过阈值对应的主机判断为僵尸主机。

进一步改进的方案中，所述僵尸主机检测模型构建模块包括：

数据集形成单元，所述数据集形成单元被配置为将新的流量摘要记录形成数据集，将数据集分成第一训练集、第二训练集和测试集；

第一样本选择单元，所述第一样本选择单元被配置为从第一训练集内随机采样选出n个样本，每一样本都具有M个特征；其中n和M均大于1；

第一构建单元，所述第一构建单元被配置为从M个特征中随机选择k个特征，对选出的n个样本利用选择的k个特征建立决策树；其中k＞1；

第二样本选择单元，所述第二样本选择单元被配置为将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，其中，1＜a＜n；从第二训练集内随机采样选出m个样本，每一样本都具有M个特征；

第二构建单元，所述第二构建单元被配置为从M个特征中随机选择k个特征，对选出的m个样本利用选择的k个特征建立决策树；

第一决策树形成单元，所述第一决策树形成单元被配置为将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，1＜a＜m，向第一样本选择单元2至第二构建单元发送指令，直至生成d棵决策树；

拟合判断单元，所述拟合判断单元被配置为将测试集输入到d棵决策树中，计算误差值，当误差值小于阈值时，向第三样本选择单元发送指令，当误差值不小于阈值时，向第一样本选择单元至第一决策树形成单元发送指令，直至误差值小于阈值；

第三样本选择单元，所述第三样本选择单元被配置为从第一训练集内随机采样选出n个样本；

第三构建单元，所述第三构建单元被配置为从M个特征中随机选择k+c个特征，对选出的n个样本利用选择的k+c个特征建立决策树,其中c≥1；

第四样本选择单元，所述第四样本选择单元被配置为将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，从第二训练集中内随机采样选出m个样本；

第四构建单元，所述第四构建单元被配置为从M个特征中随机选择k+c个特征，对选出的m个样本利用选择的k+c个特征建立决策树；

第二决策树形成单元，所述第二决策树形成单元被配置为将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，向第三样本选择单元至第四构建单元，直至形成g棵决策树；

检测判断单元，所述检测判断单元被配置为将形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型。

本发明另一个技术方案提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现本发明提供的一种基于流量摘要和图采样的僵尸网络混合检测方法的步骤。

与现有技术相比，本发明提供的一种基于流量摘要和图采样的僵尸网络混合检测方法和系统通过将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合后，形成包括新特征的流量摘要记录，流量摘要记录的粒度相比原始流量更大，计算更方便；将流量摘要记录组合形成数据集，利用随机森林算法进行训练获得僵尸主机检测模型，输出待检测流量摘要的预测值；再利用基于随机游走的通信图节点对采样算法对原始流量数据进行采样，解决图模型的计算复杂度问题；利用流量摘要的预测值和主机为僵尸主机的概率值两者之间的加权和判断待测主机是否为僵尸主机，提高了识别的准确度和检测效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是一些实施例中提供的一种基于流量摘要和图采样的僵尸网络混合检测方法；

图2是另一些实施例中提供的一种基于流量摘要和图采样的僵尸网络混合检测方法；

图3是一些实施例中提供的一种基于流量摘要和图采样的僵尸网络混合检测系统；

图4是另一些实施例中提供的一种基于流量摘要和图采样的僵尸网络混合检测系统。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法，如图1所示，所述方法包括：

收集原始流量，利用NetFlow数据分析工具提取原始流量的特征，形成如下记录；

根据主机地址115.115.115.115，共收集以上4条原始流量，所述原始流量的字段包括时间戳(Timestamp)、通信协议(Protocol)、主机地址(SrcAddr)、标签(Label)等。

以主机地址为115.115.115.115，以预设时间窗口大小为5秒为例，将原始流量按照时间戳在2020-01-01 00:00:00到2020-01-01 00:00:05内的记录，针对不同通信协议比如tcp和udp聚合，形成新的流量摘要记录，新的流量摘要记录特征包括：

TcpSumTotPkts:6(4+2)该时间窗口tcp协议TotPkts字段的总和；

TcpSumTotBytes:400(200+200)该时间窗口tcp协议TotBytes字段的总和；

TcpSumSrcBytes:300(150+150)该时间窗口tcp协议SrcBytes字段的总和；

···

UdpSumTotPkts:7(4+3)该时间窗口udp协议TotPkts字段的总和；

UdpSumTotBytes:250(100+150)该时间窗口udp协议TotBytes字段的总和；

UdpSumSrcBytes:1081(80+1001)该时间窗口udp协议SrcBytes字段的总和

···

Label：botnet该时间窗口标签为僵尸网络。

以上，新的流量摘要记录特征还包括对该时间窗口内不同协议字段求均值Avg及标准差Sd，针对tcp协议TotPkts字段的标准差表示为TcpSdTotPkts，依次类推。

由于聚合后形成的新的流量摘要记录是对主机进行聚合，因此新的流量摘要记录的标签就是主机的标签，其中所述标签为主机是不是僵尸网络；

与现有技术相比，本发明实施例通过将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合后，形成包括新特征的流量摘要记录，流量摘要记录的粒度相比原始流量更大，计算更方便；将流量摘要记录组合形成数据集，利用随机森林算法进行训练获得僵尸主机检测模型，输出待检测流量摘要的预测值；再利用基于随机游走的通信图节点对采样算法对原始流量数据进行采样，解决图模型的计算复杂度问题；利用流量摘要的预测值和主机为僵尸主机的概率值两者之间的加权和判断待测主机是否为僵尸主机，提高了识别的准确度和检测效率。

本发明又一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法，如图2所示，步骤S20中所述将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型，包括：

其中，第一训练集、第二训练集合测试集可根据实际情况分配，例如第一训练集、第二训练集和测试集可按照50％:30％:20％的比例分配；

S208：从第一训练集内随机采样选出n个样本；

随机森林算法使用默认参数会影响最终的预测准确性，为了提高预测的准确性，本申请将数据集分成两个训练集和一个测试集，然后分别从两个训练集中选择样本，将选择的样本放回到放入到另一个训练集中，两个训练集分别采样和交叉放回，提高了模型的拟合能力，然后利用测试集对获得的决策树进行检测，当获得的模型的拟合能力达到阈值时，进一步增大了构建决策树最优模型时选取的特征数，进而提高每个子模型的拟合能力；最终提高了形成的僵尸主机检测模型的预测准确性。

本发明再一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法，步骤S40中所述利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图包括：

其中，预设条件是规定采样图的节点不超过指定的个数。

将随机游走方法与流量摘要使用的随机森林算法结合，进行混合检测提高了预测准确性。

本发明又一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测方法，步骤S50中所述基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值，包括：

其中所述节点各类特征包括：节点度、节点中心性、PageRank、聚类系数等。

基于网络主机通信图构建的异常值检测模型可提高僵尸主机概率值的预测的准确性。

本发明另一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测系统，如图3所示，所述检测系统包括：

聚合模块10，所述聚合模块被配置为用于将原始流量按照一定的时间窗口大小和主机地址，针对不同通信协议聚合成一条新的流量摘要记录；

TcpSumTotPkts:6(4+2)该时间窗口tcp协议TotPkts字段的总和；

TcpSumTotBytes:400(200+200)该时间窗口tcp协议TotBytes字段的总和；

TcpSumSrcBytes:300(150+150)该时间窗口tcp协议SrcBytes字段的总和；

···

UdpSumTotPkts:7(4+3)该时间窗口udp协议TotPkts字段的总和；

UdpSumTotBytes:250(100+150)该时间窗口udp协议TotBytes字段的总和；

UdpSumSrcBytes:1081(80+1001)该时间窗口udp协议SrcBytes字段的总和

···

Label：botnet该时间窗口标签为僵尸网络。

僵尸主机检测模型构建模块20，所述僵尸主机检测模型构建模块被配置为将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型；

预测值预测模块30，所述预测值预测模块被配置为将待检测流量按照同样时间窗口大小进行摘要，然后输入到僵尸主机检测模型中，输出待检测流量摘要的预测值；

网络主机通信图构建模块40，所述网络主机通信图构建模块被配置为利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图；

具体包括：根据源IP和目的IP构造网络通信图，使用随机游走算法，给定当前起始节点，从其相连的邻居中随机选择一个节点作为下一个访问节点，重复此过程，直到采样的图满足预设条件，形成网络主机通信图；

概率值预测模块50，所述概率值预测模块被配置为基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值；

具体包括：

判断模块60，所述判断模块被配置为将待检测流量摘要的预测值和主机为僵尸主机的概率值加权求和，并与阈值进行比较，将超过阈值对应的主机判断为僵尸主机。

本发明又一实施例提供一种基于流量摘要和图采样的僵尸网络混合检测系统，如图4所示，所述僵尸主机检测模型构建模块20包括：

数据集形成单元201，所述数据集形成单元被配置为将新的流量摘要记录形成数据集，将数据集分成第一训练集、第二训练集和测试集；

第一样本选择单元202，所述第一样本选择单元被配置为从第一训练集内随机采样选出n个样本，每一样本都具有M个特征；其中n和M均大于1；

第一构建单元203，所述第一构建单元被配置为从M个特征中随机选择k个特征，对选出的n个样本利用选择的k个特征建立决策树；其中k＞1；

第二样本选择单元204，所述第二样本选择单元被配置为将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，其中，1＜a＜n；从第二训练集内随机采样选出m个样本，每一样本都具有M个特征；

第二构建单元205，所述第二构建单元被配置为从M个特征中随机选择k个特征，对选出的m个样本利用选择的k个特征建立决策树；

第一决策树形成单元206，所述第一决策树形成单元被配置为将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，1＜a＜m，向第一样本选择单元202至第二构建单元205发送指令，直至生成d棵决策树；

拟合判断单元207，所述拟合判断单元被配置为将测试集输入到d棵决策树中，计算误差值，当误差值小于阈值时，向第三样本选择单元208发送指令，当误差值不小于阈值时，向第一样本选择单元202至第一决策树形成单元206发送指令，直至误差值小于阈值；

第三样本选择单元208，所述第三样本选择单元被配置为从第一训练集内随机采样选出n个样本；

第三构建单元209，所述第三构建单元被配置为从M个特征中随机选择k+c个特征，对选出的n个样本利用选择的k+c个特征建立决策树,其中c≥1；

第四样本选择单元210，所述第四样本选择单元被配置为将从第一训练集中选出的n个样本中的a个样本放入第二训练集中，从第二训练集中内随机采样选出m个样本；

第四构建单元211，所述第四构建单元被配置为从M个特征中随机选择k+c个特征，对选出的m个样本利用选择的k+c个特征建立决策树；

第二决策树形成单元212，所述第二决策树形成单元被配置为将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，向第三样本选择单元208至第四构建单元211，直至形成g棵决策树；

检测判断单元213，所述检测判断单元被配置为将形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型。

本发明实施例提供的基于流量摘要和图采样的僵尸网络混合检测装置可以实现上述提供的方法实施例，具体功能实现请参见方法实施例中的说明，在此不再赘述。本发明实施例提供的安全漏洞的处理方法、装置及存储介质可以适用于针对漏洞扫描时准确、完整且能够实时查询的漏洞扫描处理，但不仅限于此。

本发明实施例还提供另一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序被一个或者一个以上的处理器用来执行图1、图2所示实施例提供的一种基于流量摘要和图采样的僵尸网络混合检测方法。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，所述检测方法包括：

S20、将新的流量摘要记录形成数据集，利用随机森林算法对数据集进行训练，获得僵尸主机检测模型；具体包括：

S208：从第一训练集内随机采样选出n个样本；

S213：形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型；

2.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，所述原始流量的字段包括时间戳、通信协议、主机地址和标签。

3.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，步骤S40中所述利用基于随机游走的通信图节点对采样算法对原始流量进行采样，形成网络主机通信图包括：

4.根据权利要求3所述的基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，所述预设条件是规定采样图的节点不超过指定的个数。

5.根据权利要求1所述的基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，步骤S50中所述基于形成的网络主机通信图构建异常值检测模型,利用异常值检测模型预测待检测流量的主机为僵尸主机的概率值，包括：

6.根据权利要求5所述的基于流量摘要和图采样的僵尸网络混合检测方法，其特征在于，所述节点各类特征包括：节点度、节点中心性、PageRank、聚类系数。

7.一种基于流量摘要和图采样的僵尸网络混合检测系统，其特征在于，所述检测系统包括：

所述僵尸主机检测模型构建模块包括：

第一决策树形成单元，所述第一决策树形成单元被配置为将从第二训练集中选出的m个样本中的a个样本放入第一训练集中，1＜a＜m，向第一样本选择单元至第二构建单元发送指令，直至生成d棵决策树；

检测判断单元，所述检测判断单元被配置为将形成的g棵决策树和误差值小于阈值时对应的决策树的棵树构成僵尸主机检测模型；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6所述检测方法的步骤。