CN112800424A

CN112800424A - 一种基于随机森林的僵尸网络恶意流量监测方法

Info

Publication number: CN112800424A
Application number: CN202110142127.7A
Authority: CN
Inventors: 张笑然; 闫连山; 李赛飞; 李洪赭
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-05-14

Abstract

本发明公开了一种基于随机森林的僵尸网络恶意流量监测方法，具体为：数据收集过程用于收集包含网络流量的PCAP文件，经过数据预处理过程分类成数据流类型并且提取其包含的流统计特征，使用基于随机森林的Wrapper方法进行特征筛选，再利用筛选得到特征子集作为机器学习模型输入得到检测结果，最终实现恶意流量判断。本发明有利于快速、准确地检测识别加密流量中是否包含恶意流量类别。

Description

一种基于随机森林的僵尸网络恶意流量监测方法

技术领域

本发明属于计算机网络安全领域，尤其涉及一种基于随机森林的僵尸网络恶意流量监测方法。

背景技术

随着互联网技术的迅速发展，互联网在生活中愈加重要，为人们带来了前所未有的便利。然而，互联网技术的发展在一定程度上也促进了恶意代码的发展和传播。网络中各种恶意代码的产生和传播已经完全超出了人们的想象。这些恶意代码的攻击手段层出不穷，攻击特点多种多样，已经呈现出全球性的威胁。

在各类各样的恶意代码中，僵尸网络是一种综合性强，集成度高的恶意代码，囊括多种恶意代码的特性。攻击者一般通过远程控制僵尸网络所感染的计算机来进行各种攻击行为，包括窥察身份信息，窃取用户信息，发送大量无效邮件等。由于被感染的僵尸主机产生的流量与正常主机相互通信产生的流量特征具有较大差异，通过网络流量对僵尸网络恶意流量的分类识别是检测僵尸网络的主要手段之一。因此对僵尸网络恶意流量分类检测技术进行研究具有重要的意义。

目前已经有多种网络流量分类和识别技术被提出。按照使用的技术不同，目前常见的网络流量分类方法可分为：基于端口号的流量识别技术，基于深度包检测的流量识别技术，基于传输层的流量识别技术等。以上方法随着动态随机端口策略以及隐私数据加密等技术的出现，已经呈现出越来越多的局限性。

基于端口号的流量识别技术：在互联网早期阶段，传统网络应用都遵从一套固定规则，按照特定的端口发送数据。接收方通过预先设定好的规则即可识别对应网络协议。例如：HTTP协议使用80端口进行通信，Telnet远程终端使用23端口通信，SSL协议则使用443端口。在早起流量识别研究中，基于端口号的方法识别效率和准确率很高。但是随着动态端口策略的应用，此类方法的识别效率有所下降。

基于深度包检测的流量识别技术：首先对流量片段进行特征提取，分析其中所包含的数据包荷载中的有效特征码。检测系统需要对流量片段进行解包操作，检查数据包中携带的有效特征码。但是此方法对于高速网络环境下检测装置的运算速度和内存要求很高，并且无法应对加密流量数据，在当下的互联网环境下发挥的作用愈发有限。

基于传输层的流量识别技术是利用主机主要基于传输层的行为模式来进行分类识别。该方法不存在对于流量数据包的信息提取和分析操作，并且不会受到网络拥塞和网络延迟等问题的影响。其主要分类依据是基于经验的启发式分类识别，因而在目前互联网可能会出现新的协议的情况下，其准确率存在不稳定的问题。

发明内容

基于上述问题，为解决快速识别，检测加密流量中可能包含的恶意流量类别。本发明提供一种基于随机森林的僵尸网络恶意流量监测方法。

本发明的一种基于随机森林的僵尸网络恶意流量监测方法，包括以下步骤：

步骤A：数据收集：用收集流量收集软件提取到的PCAP文件，收集恶意流量数据并标注类别。

步骤B：数据预处理：对数据收集模块提取到的PCAP文件进行数据预处理，将流量按照五元组类型划分为数据流并提取其中的流统计特征。

步骤C：核心分析：对数据预处理模块得到的流统计特征进行基于随机森林的Wrapper方法进行特征筛选，选取特征子集。

步骤D：恶意流量种类检测：用于利用核心分析模块筛选出的特征子集作为模型输入，检测其是否属于恶意流量数据，并输出其所属类别。

步骤E：反馈显示：收到恶意流量种类检测模块产生的最终检测结果，判断是否检测到恶意流量；如果检测为恶意流量数据，则将此条流量的具体信息反馈给用户；若检测结果不包含恶意流量，则告知用户该段捕获流量不存在恶意流量。

进一步的，步骤B中数据预处理的具体为：

B1、判断原始数据是否包含相同五元组，是则继续，否则丢弃；

B2、判断数据流是否携带一定信息，是则继续，否则丢弃；

B3、判断数据流是否是一个完整的双向流，是则保留，否则丢弃。

进一步的，步骤B中采用的数据流类型要求正常流量与恶意流量比例为6:1。

进一步的，步骤B中提取到流统计特征包含26种，具体为：前向数据包个数、后向数据包个数、前向最大包长度、前向最小包长度、前向平均包长度、前向包长标准差、后向最大包长度、后向最小包长度、后向平均包长度、后向包长标准差、前向包平均时间间隔、前向包最大时间间隔、前向包最小时间间隔、前向包时间间隔标准差、后向包平均时间间隔、后向包最大时间间隔、后向包最小时间间隔、后向包时间间隔标准差、流平均时间间隔、流最大时间间隔、流最小时间间隔、流时间间隔标准差、前向包PSH标记数目、后向包PSH标记数目、前向包URG标记数目和后向包URG标记数目。

进一步的，步骤C具体为：

C1、按照随机森林算法对特征重要性排序；

C2、使用序列后向搜索方法进行特征迭代得到特征选择结果；

C3、采用10折交叉验证方法进行验证；

C4、输出全局最高分类准确率对应的特征集合。

进一步的，步骤D中建模分析方法包括有监督学习方法GBDT，XGBoost算法或KNN算法。

进一步的，步骤E中最终信息包括IP地址，MAC地址以及域名。

本发明和现有技术相比的有益技术效果为：

本发明使用DFI技术将所捕获的加密流量数据根据五元组信息划分为数据流，并提取其中的流统计特征，解决了现实中僵尸网络恶意流量大多属于加密流量无法解析其信息的问题；使用基于随机森林的Wrapper方法进行特征筛选，此方法可帮助后续检测模块在更少的特征数目条件下获得更高的分类精度，在识别精度和流量分类速度之间达到较好的平衡。因此，本发明可进一步提升恶意流量识别性能，具有良好的实用性和广阔的应用前景。

附图说明

图1是本发明实施例的方法实现流程示意图；

图2是本发明数据预处理的工作过程示意图；

图3是本发明所需要的筛选流统计特征列举；

图4是本发明核心分析过程的特征筛选过程示意图；

图5是本发明恶意流量监测过程的工作流程示意图；

图6是本发明反馈显示过程的工作流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步说明。

本发明的一种基于随机森林的僵尸网络恶意流量监测方法流程如图1所示，包括以下步骤：

进一步的，步骤B中数据预处理如图2所示，由于数据样本的质量对于最终检测效果的影响非常大，因此在提取流统计特征之前，需要对数据样本进行一系列筛选，剔除掉低质量或者对于分类结果影响不大的数据，选择其中对于分类结果有较强关联性的数据作为训练样本。具体为：

B2、判断数据流是否携带一定信息，是则继续，否则丢弃；

数据流中携带信息可以剔除掉一些握手挥手协议，此类数据包对于检测恶意流量影响很小；保证双向流可以确保数据流的完整性，确保源IP和目的IP之间存在交互性。

在恶意流量种类检测模块中，参与建模的正常流量数目和恶意流量数目会影响错报概率和遗漏概率。错报概率是指将正常流量判断为恶意流量的概率，遗漏概率是指将恶意流量判断为正常流量的概率。因此综合实际情况考虑，本发明采用恶意流与正常流比例为1:6。

样本数据准备完毕后，进行数据流统计特征的提取。

进一步的，步骤B中提取到流统计特征包含26种，如图3所示，具体为：前向数据包个数、后向数据包个数、前向最大包长度、前向最小包长度、前向平均包长度、前向包长标准差、后向最大包长度、后向最小包长度、后向平均包长度、后向包长标准差、前向包平均时间间隔、前向包最大时间间隔、前向包最小时间间隔、前向包时间间隔标准差、后向包平均时间间隔、后向包最大时间间隔、后向包最小时间间隔、后向包时间间隔标准差、流平均时间间隔、流最大时间间隔、流最小时间间隔、流时间间隔标准差、前向包PSH标记数目、后向包PSH标记数目、前向包URG标记数目和后向包URG标记数目。

以上流统计特征均为传输层统计特征，主要包括了数据包数量、长度以及时间等相关信息。

如图4所示，核心分析过程对采集得到的流统计特征基于随机森林的Wrapper方法进行特征筛选，按照随机森林算法对特征重要性排序，使用序列后向搜索方法进行特征迭代得到特征选择结果。为保证结果稳定性，采用10折交叉验证方法进行验证，得到全局最高分类准确率对应的特征集合。包括以下步骤：

(1)读入原始特征数据集S，并设置全局最高分类准确率GMAC为0。

(2)对全局变量按照10折交叉验证方法进行初始化，i＝(1,2,3……10)。

(2-1)将数据特征集S随机划分为10等分。

(2-2)设置局部最大分类准确率LMaxAC为0。

(2-3)设置局部平均分类准确率LMeanAC为0。

(2-4)初始化10折交叉验证中每次迭代的分类准确率。

(2-5)使用随机森林算法进行分类。

(2-5-1)在原始数据特征集上创建随机森林分类器。

(2-5-2)在测试集上执行预测并分类。

(2-5-3)比较分类结果与预测值，计算局部分类准确率LAC。

(2-5-4)计算局部平均分类准确率LMeanAC＝LMeanAC+LAC[i]/10。

(2-5-5)计算局部最大分类准确率LMaxAC＝Max(LAC[i])。

(2-5-6)对特征变量按照重要性排序并存为Sort。

(2-6)计算全局最高分类准确率GMAC＝Max(LMeanAC)。

(2-7)从Sort中剔除掉一个重要性最低的特征，得到新数据特征集S。

(3)输出结果。

(3-1)输出全局最高分类准确率GMAC。

(3-2)输出全局最高分类准确率GMAC对应的特征集合Sort。

如图5所示，恶意流量种类检测过程将数据流样本数据以筛选得到的特征集合作为分类特征进行机器学习建模，按照有监督学习方法GBDT(Gradient Boosting DecisionTree，梯度提升决策树)，XGBoost算法，KNN算法等进行数据分类。

如图6所示，反馈显示过程在收到恶意流量种类检测模块输出的最终分类结果后判断是否检测到恶意流量，如果检测到恶意流量，则告知用户所包含恶意流量的具体信息，包括其IP地址，MAC地址以及域名等；如果没有检测到恶意流量，则告知用户该段捕获流量中不包含恶意流量。

本发明使用流量分析软件对PCAP(Process Characterization AnalysisPackage，过程特性分析数据包)进行分析得到日志文件，然后对日志文件进行按照五元组聚合成数据流。基于深度流检测的流量识别技术结合基于随机森林的Wrapper特征选择方法进行流量特征筛选。最后使用机器学习方法进行恶意流量识别，对于最终结果将反馈包含恶意流量的IP地址以及其域名。

深度流检测技术(Deep Flow Inspection，DFI)解决了在数据加密传输的情况下对流量进行识别的问题。DFI技术根据流传输过程中的流统计特征来识别数据流，如平均包达到的时间间隔，平均上行字节数，平均下行字节数，最大分片长度等特征。

特征选择算法Wrapper类在筛选特征的过程中直接用所选特征子集来训练分类器，根据分类器在测试集的性能表现来评价该特征子集的优劣，其所选用的优化特征子集规模要相对小一点。

随机森林(Random Forest)是一种有监督机器学习方法，主要采用随机重采样技术bootstrap和节点随机分裂技术构建多颗决策树，通过投票得到最终分类结果。RF具有良好的分析相互之间关联度高的特征的能力，对于噪声数据和存在缺失值的数据具有一定的鲁棒性能。

如上所述，本发明相比传统的恶意流量检测识别方法具有以下优势：

(1)在不解密加密流量的情况下可实现恶意流量识别。

(2)随着样本数据集的增大，模型的精准度和可行度会越来越好。

(3)训练模型可反复使用，降低后续检测时间成本。

Claims

1.一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，包括以下步骤：

步骤A：数据收集：用收集流量收集软件提取到的PCAP文件，收集恶意流量数据并标注类别；

步骤B：数据预处理：对数据收集模块提取到的PCAP文件进行数据预处理，将流量按照五元组类型划分为数据流并提取其中的流统计特征；

步骤C：核心分析：对数据预处理模块得到的流统计特征进行基于随机森林的Wrapper方法进行特征筛选，选取特征子集；

步骤D：恶意流量种类检测：用于利用核心分析模块筛选出的特征子集作为模型输入，检测其是否属于恶意流量数据，并输出其所属类别；

2.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤B中数据预处理的具体为：

B2、判断数据流是否携带一定信息，是则继续，否则丢弃；

3.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤B中采用的数据流类型要求正常流量与恶意流量比例为6:1。

4.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤B中提取到流统计特征包含26种，具体为：前向数据包个数、后向数据包个数、前向最大包长度、前向最小包长度、前向平均包长度、前向包长标准差、后向最大包长度、后向最小包长度、后向平均包长度、后向包长标准差、前向包平均时间间隔、前向包最大时间间隔、前向包最小时间间隔、前向包时间间隔标准差、后向包平均时间间隔、后向包最大时间间隔、后向包最小时间间隔、后向包时间间隔标准差、流平均时间间隔、流最大时间间隔、流最小时间间隔、流时间间隔标准差、前向包PSH标记数目、后向包PSH标记数目、前向包URG标记数目和后向包URG标记数目。

5.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤C具体为：

C1、按照随机森林算法对特征重要性排序；

C3、采用10折交叉验证方法进行验证；

C4、输出全局最高分类准确率对应的特征集合。

6.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤D中建模分析方法包括有监督学习方法GBDT，XGBoost算法或KNN算法。

7.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法，其特征在于，所述步骤E中最终信息包括IP地址，MAC地址以及域名。