CN115174160B

CN115174160B - 基于流级和主机级的恶意加密流量分类方法及装置

Info

Publication number: CN115174160B
Application number: CN202210677928.8A
Authority: CN
Inventors: 李树栋; 赵传彧; 吴晓波; 韩伟红; 方滨兴; 田志宏; 殷丽华; 顾钊铨; 唐可可; 李默涵
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2023-10-20
Anticipated expiration: 2042-06-16
Also published as: CN115174160A

Abstract

本发明公开了一种基于流级和主机级的恶意加密流量分类方法及装置，方法包括下述步骤：获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述流级特征包括统计特征和序列特征；将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率；将多个不同类型的流级特征以流的序号为主键拼接后使用XGBoost算法进行处理，输出流级特征的分类概率；基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果。本发明不需要对加密数据包进行解密，只需根据数据包的可观察特征就能适用于恶意加密流量的分类。

Description

基于流级和主机级的恶意加密流量分类方法及装置

技术领域

本发明涉及恶意加密流量分类技术领域，具体涉及一种基于流级和主机级的恶意加密流量分类方法及装置。

背景技术

随着公众网络安全意识的逐步提高，对数据保护的需求越来越强烈，越来越多的网络流量将被加密。虽然加密技术对重视隐私的用户来说是个好消息，但它也带来了安全风险：加密可以像隐藏其他信息一样隐藏恶意流量。使用加密通信的恶意软件几乎覆盖了所有常见类型，如特洛伊木马，勒索软件和蠕虫病毒等。除此之外，一些APT组织早在十年前就已经全面使用加密通信了。面对这一严峻形势，针对加密流量的检测是必要的。

传统的流量检测方法大多都是基于规则，或者对流量中提取的文件进行审计。早期互联网非加密流量检测技术主要有两种:基于端口的技术和基于有效负载的技术。基于端口匹配分类方法通过获取端口信息并将端口号映射对不同应用分类。基于有效负载的技术主要通过比较数据包和特征字符串，检测应用层有效负载内容来对流量进行分类，这种分类方式基于正则表达式匹配的方式。但这些技术主要针对非加密流量识别研究。实际流量识别过程中，加密流量识别与非加密流量识别存在不少差异，主要表现为：1)由于加密后流量特征发生了较大变化，部分非加密流量识别方法很难适用于加密流量，如DPI(深度包检测)方法；2)加密协议常伴随着流量伪装技术(如协议混淆和协议变种)，把流量特征伪装成常见应用的流量特征；3)由于加密协议的加密处理方式和封装格式也存在较大的差异，识别特定的加密协议需要采用针对性的识别方法，或采用多种识别策略集成的方法。如何在不解密的情况下发现恶意加密流量则成为了我们必须要面对的问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于流级和主机级的恶意加密流量分类方法及装置，不需要对加密数据包进行解密，只需根据数据包的可观察特征就能适用于恶意加密流量的分类。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了一种基于流级和主机级的恶意加密流量分类方法，包括下述步骤：

获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述主机级特征包括多个流级特征；所述流级特征包括统计特征和序列特征；

将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率；

将多个不同类型的流级特征以流的序号为主键拼接后使用XGBoost算法进行处理，输出流级特征的分类概率；

基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果。

作为优选的技术方案，所述主机级特征具体描述为：针对每台主机，提取各个长度和方向的报文的数量，将提取的报文数量除以报文总数得到概率分布，该概率分布即为包长直方图。

作为优选的技术方案，所述统计特征具体描述为：

首先定义统计值代指最大值/最小值/平均值/总和/方差，然后对流级提取如下统计特征：流持续时间，前向包数量，后向包数量，前向有负载包数量，后向有负载包数量，前向包速率，后向包速率，前后向包速，下行上行包比例，前向包头长度的统计值，后向包头长度的统计值，前向包负载长度的统计值，后向包负载长度的统计值，前后向包负载长度的统计值，FIN/SYN/RST/ACK/CWR/ECE标志的数量，前向PSH/URG标志数量，后向PSH/URG标志数量，前向包之间时间间隔的统计值，后向包之间时间间隔的统计值，前后向包之间时间间隔的统计值，第一个前向包的窗口长度，第一个后向包的窗口长度，最后一个前向包的窗口长度，最后一个后向包的窗口长度。

作为优选的技术方案，所述序列特征具体描述为：记录流级的包长度序列，将每个包长度作为一个单词，使用word2vec算法得到每个包长度的向量表示，然后取同一流级中所有向量的平均值作为包长度序列的表征。

作为优选的技术方案，所述将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率，具体为：

在训练集中，随机森林分类器通过随机抽取样本来并行构建多个CART决策树，这些CART决策树的集合就是随机森林分类器；在测试集中，使用上述多个CART决策树并行对样本进行预测，对每个样本输出其类别概率，最后再取平均值。

作为优选的技术方案，所述将多个不同类型的流级特征接后使用XGBoost算法进行处理，输出流级特征的分类概率，具体为：

在训练集中，XGBoost通过前向分步方法串行构建多个决策树，决策树的节点分裂增益和叶子节点权重由目标函数计算得出。在测试集中，使用上述多个决策树并行对样本进行预测，最后再相加。

作为优选的技术方案，所述基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果，具体为：

对属于同一主机级的多个流级分类概率进行平均，然后将其再与主机级分类概率取平均，最后取分类概率最大的类别作为分类结果。

本发明另一方面提供了一种基于流级和主机级的恶意加密流量分类系统，包括数据获取模块、主机级特征处理模块、流级特征处理模块以及流量分类模块；

所述数据获取模块，用于获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述主机级特征包括多个流级特征；所述流级特征包括统计特征和序列特征；

所述主机级特征处理模块，用于将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率；

所述流级特征处理模块，用于将多个不同类型的流级特征以流的序号为主键拼接后使用XGBoost算法进行处理，输出流级特征的分类概率；

所述流量分类模块，用于基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果。

本发明又一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于流级和主机级的恶意加密流量分类方法。

本发明再一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于流级和主机级的恶意加密流量分类方法。

本发明与现有技术相比，具有如下优点和有益效果：

本发明使用从流级与主机级角度进行分类，两个分类器之间相互弥补，具有较高的鲁棒性，可解决现有恶意加密流量分类系统准确率低的问题；相对于DPI(深度报文检测)技术，本发明不需要对加密数据包进行解密，只需根据数据包的可观察特征就能适用于恶意加密流量分类，并且具有准确率高，鲁棒性高的特点。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于流级和主机级的恶意加密流量分类方法的流程图；

图2为本发明实施例分类方法结构示意图；

图3为本发明实施例基于流级和主机级的恶意加密流量分类系统的结构方框图；

图4为本发明实施例电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

请参阅图1、图2，本实施例为一种基于流级和主机级的恶意加密流量分类方法，该方法包括以下步骤：

收集加密流量样本集，提取包长直方图(主机级)，统计特征(流级)和序列特征(流级)，主机级指代主机产生的所有流量包，流级指的是三次握手和四次挥手之间的所有数据包，主机级包含多个流级；其中包长直方图(主机级)使用RandomForest算法进行处理，输出主机级分类概率；统计特征(流级)和序列特征(流级)拼接后使用XGBoost算法进行处理，输出流级分类概率；根据主机级分类概率和流级分类概率确定最终分类结果。

优选的，所述包长直方图(主机级)的具体描述为：针对每台主机，提取各个长度和方向的报文的数量，将提取的报文数量除以报文总数得到概率分布，该概率分布即为包长直方图；

优选的，所述统计特征(流级)的具体描述为：首先定义统计值代指最大值/最小值/平均值/总和/方差，然后对流级提取如下统计特征：流持续时间，前向包数量，后向包数量，前向有负载包数量，后向有负载包数量，前向包速率，后向包速率，前后向包速，下行上行包比例，前向包头长度的统计值，后向包头长度的统计值，前向包负载长度的统计值，后向包负载长度的统计值，前后向包负载长度的统计值，FIN/SYN/RST/ACK/CWR/ECE标志的数量，前向PSH/URG标志数量，后向PSH/URG标志数量，前向包之间时间间隔的统计值，后向包之间时间间隔的统计值，前后向包之间时间间隔的统计值，第一个前向包的窗口长度，第一个后向包的窗口长度，最后一个前向包的窗口长度，最后一个后向包的窗口长度；

优选的，所述序列特征(流级)的具体描述为：记录流级的包长度序列，将每个包长度作为一个单词，使用word2vec算法得到每个包长度的向量表示，然后取同一流级中所有向量的平均值作为包长度序列的表征；

优选的，根据主机级分类概率和流级分类概率确定最终分类结果，具体为：对属于同一主机级的多个流级分类概率进行平均，然后将其再与主机级分类概率取平均，最后取分类概率最大的类别作为分类结果。

所述将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率，具体为：

所述将多个不同类型的流级特征接后使用XGBoost算法进行处理，输出流级特征的分类概率，具体为：

为了进一步验证本发明的准确率，做了相应的实验来验证，训练集和测试集如表1所示，测试集的验证结果如表2所示。

定义如下指标：

准确率＝分类正确的主机数量/主机总数量

表1：训练集和测试集一览

表2：测试集验证结果

	主机级分类	流级分类	融合
				准确率	0.93	0.88	0.96

综上所述，本发明是一种基于流级和主机级的恶意加密流量分类方法，通过提取包长直方图(主机级)，统计特征(流级)和序列特征(流级)，以最大程度挖掘恶意加密流量家族的特征，实现了在不对流量数据进行解密的前提下，分类恶意加密流量的目的。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于流级和主机级的恶意加密流量分类方法相同的思想，本发明还提供了基于流级和主机级的恶意加密流量分类系统，该系统可用于执行上述基于流级和主机级的恶意加密流量分类方法。为了便于说明，基于流级和主机级的恶意加密流量分类系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图3，在本申请的另一个实施例中，提供了一种基于流级和主机级的恶意加密流量分类系统100，该系统包括数据获取模块、主机级特征处理模块、流级特征处理模块以及流量分类模块；

所述数据获取模块101，用于获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述主机级特征包括多个流级特征；所述流级特征包括统计特征和序列特征；

所述主机级特征处理模块102，用于将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率；

所述流级特征处理模块103，用于将多个不同类型的流级特征以流的序号为主键拼接后使用XGBoost算法进行处理，输出流级特征的分类概率；

所述流量分类模块104，用于基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果。

需要说明的是，本发明的基于流级和主机级的恶意加密流量分类系统与本发明的基于流级和主机级的恶意加密流量分类方法一一对应，在上述基于流级和主机级的恶意加密流量分类方法的实施例阐述的技术特征及其有益效果均适用于基于流级和主机级的恶意加密流量分类的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于流级和主机级的恶意加密流量分类系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于流级和主机级的恶意加密流量分类系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图4，在一个实施例中，提供了一种基于流级和主机级的恶意加密流量分类方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如基基于流级和主机级的恶意加密流量分类程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如基基于流级和主机级的恶意加密流量分类程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的基基于流级和主机级的恶意加密流量分类程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于流级和主机级的恶意加密流量分类方法，其特征在于，包括下述步骤：

获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述主机级特征包括多个流级特征；所述流级特征包括统计特征和序列特征；所述序列特征具体描述为：记录流级的包长度序列，将每个包长度作为一个单词，使用word2vec算法得到每个包长度的向量表示，然后取同一流级中所有向量的平均值作为包长度序列的表征；

基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果，具体为：

2.根据权利要求1所述基于流级和主机级的恶意加密流量分类方法，其特征在于，所述主机级特征具体描述为：针对每台主机，提取各个长度和方向的报文的数量，将提取的报文数量除以报文总数得到概率分布，该概率分布即为包长直方图。

3.根据权利要求1所述基于流级和主机级的恶意加密流量分类方法，其特征在于，所述统计特征具体描述为：

4.根据权利要求1所述基于流级和主机级的恶意加密流量分类方法，其特征在于，所述将主机级特征使用RandomForest算法进行处理，输出主机级特征的分类概率，具体为：

5.根据权利要求1所述基于流级和主机级的恶意加密流量分类方法，其特征在于，所述将多个不同类型的流级特征以流的序号为主键拼接后使用XGBoost算法进行处理，输出流级特征的分类概率，具体为：

在训练集中，XGBoost通过前向分步方法串行构建多个决策树，决策树的节点分裂增益和叶子节点权重由目标函数计算得出；在测试集中，使用上述多个决策树并行对样本进行预测，最后再相加。

6.基于流级和主机级的恶意加密流量分类系统，其特征在于，包括数据获取模块、主机级特征处理模块、流级特征处理模块以及流量分类模块；

所述数据获取模块，用于获取加密流量样本集，提取主机级特征和多个不同类型的流级特征；所述主机级特征提取自主机产生的所有流量包；所述流级特征提取自三次握手和四次挥手之间的所有数据包；所述主机级特征包括多个流级特征；所述流级特征包括统计特征和序列特征；所述序列特征具体描述为：记录流级的包长度序列，将每个包长度作为一个单词，使用word2vec算法得到每个包长度的向量表示，然后取同一流级中所有向量的平均值作为包长度序列的表征；

所述流量分类模块，用于基于主机级特征的分类概率和流级特征的分类概率确定最终的恶意加密流量分类结果，具体为：

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5中任意一项所述的基于流级和主机级的恶意加密流量分类方法。

8.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-5任一项所述的基于流级和主机级的恶意加密流量分类方法。