CN113329023A

CN113329023A - 一种加密流量恶意性检测模型建立、检测方法及系统

Info

Publication number: CN113329023A
Application number: CN202110602661.1A
Authority: CN
Inventors: 李苗钰; 刘雨彤; 杜忠昊; 董悦
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-31

Abstract

本发明公开了一种加密流量恶意性检测模型建立、检测方法及系统。建模方法包括如下步骤：步骤1：采集加密流量原始数据集，对加密流量原始数据集进行清洗和分流，获得加密流量数据集，将每个加密流量数据包标记为恶意或良性获得标签集；步骤2：提取加密流量数据集中每个加密流量数据包的TLS特征和统计特征并进行筛选，将加密流量数据集的全部优选特征作为优选特征向量集；步骤3：建立随机森林模型，将优选特征集作为训练集结合标签集对随机森林模型采用GridSearchCV网格搜索方法进行训练，将训练好的随机森林模型作为加密流量恶意性检测模型。本发明不需要对加密的恶意流量进行解密，就能检测到采用TLS连接的恶意程序。

Description

一种加密流量恶意性检测模型建立、检测方法及系统

技术领域

本发明属于网络安全技术领域，具体涉及一种加密流量恶意性检测模型建立、检测方法及系统。

背景技术

国内外关于恶意加密流量检测的研究可以追溯到2014年，当时恶意加密流量检测技术的思想是通过对数据包的解密，采用的方法是深度包检测技术与内容识别技术。采用这种方法是因为当时环境下流量加密比例低，这就使对少数加密流量采用DPI和内容识别的方法成为可能。

但随着加密流量比例增高，DPI和内容识别的方式越来越行不通。使用机器学习、深度学习技术检测异常加密流量逐渐成为国内外学者对恶意加密流量检测的一个新方向。可以在检测异常加密流量的同时，满足不解密数据包的需求，保护用户隐私安全。

由于恶意样本家族更新迭代迅速，使得具有上述属性的特征难以寻找，如果无法抓住本质核心特征属性，训练模型的通用性和实效性会大大降低。另外，也由于硬件和软件各方面的差异，如pc系统版本、手机系统版本、应用版本、不同的硬件设备，也会对表现出的特征造成部分影响，这进一步增加提取健壮可靠特征的难度。鉴于实现高精确度与健壮性的特征提取仍需面临以上困难，因此面临以下挑战：首先，需要寻求一套信息丰富且表征能力强的特征提取技术，来扩充目前匮乏的特征范围；其次，这组特征能够实现对不同硬件环境、软件环境和网络环境下的同种流量实现较高的兼容性；另外，过多特征维度会造成模型的过拟合现象，同时也会增加计算复杂度；故需要设计特征优选算法，提升特征刻画准确程度和算法准确率。

发明内容

本发明的目的在于提供一种加密流量恶意性检测模型建立、检测方法及系统，用以解决现有技术中的加密的恶意流量需要解密后才能识别，检测成本高的问题。

为了实现上述任务，本发明采用以下技术方案：

一种加密流量恶意性检测模型建立方法，包括如下步骤：

步骤1：采集加密流量原始数据集，对加密流量原始数据集进行清洗和分流，获得加密流量数据集，所述的加密流量数据集包括多个加密流量数据包，将每个加密流量数据包标记为恶意或良性获得标签集；

步骤2：提取加密流量数据集中每个加密流量数据包的TLS特征和统计特征，对每个加密流量数据包的TLS特征和统计特征采用启发式算法进行筛选获得每个加密流量数据包的优选特征向量，将加密流量数据集的全部优选特征作为优选特征向量集；

步骤3：建立随机森林模型，所述的随机森林模型包括多棵CART分类树，将优选特征集作为训练集结合步骤1获得的标签集对随机森林模型采用GridSearchCV网格搜索方法进行训练，训练过程中每轮迭代结束后更新决策树的棵数、决策树的最大深度和决策树的最大特征数，将训练好的随机森林模型作为加密流量恶意性检测模型。

进一步的，所述的TLS特征包括TLS版本、TLS密码套件、TLS扩展、TLS扩展中的SAN数量和TLS公钥长度，所述的统计特征包括负载长度状态转移矩阵和字节分布特征。

一种加密流量恶意性检测方法，包括如下步骤：

步骤一：获取待检测加密流量数据包；

步骤二：提取待检测加密流量数据包的TLS特征和统计特征；

步骤三：将待检测加密流量数据包的TLS特征和统计特征输入加密流量恶意性检测模型中，获得待检测加密流量数据包的恶意性检测结果。

一种加密流量恶意性检测系统，包括：加密流量恶意性检测模型和检测模块；

所述的加密流量恶意性检测模型为加密流量恶意性检测模型建立方法构建得到的；

所述的检测模块用于获取待检测加密流量数据包；提取待检测加密流量数据包的TLS特征和统计特征；将待检测加密流量数据包的TLS特征和统计特征输入加密流量恶意性检测模型中，获得待检测加密流量数据包的恶意性检测结果。

本发明与现有技术相比具有以下技术特点：

(1)本发明不需要对加密的恶意流量进行解密，就能检测到采用TLS连接的恶意程序。首先，分析正常流量和恶意流量中TLS流、DNS流和HTTP流的不同之处，具体包括未加密的TLS握手信息、TLS流中与目的IP地址相关的DNS响应信息、相同源IP地址5min窗口内HTTP流的头部信息；然后，选取具有明显区分度的特征集作为分类器的输入来训练检测模型，从而识别加密的恶意流量。

(2)本方法区别于已有研究方法，利用TLS流相关背景流量信息(包括DNS响应、HTTP头部等)辅助加密恶意流量检测。

(3)本发明根据数据包长度和报文的时间间隔和顺序，以及被分析的数据流中数据包的有效载荷上的字节分布，对tls报头信息、流相关dns、http报头信息中的内容进行分析。利用加密数据的重要流量特征，进一步处理后用于机器学习算法训练以及深度学习。实现在不解密用户加密数据的前提下，检测异常加密流量。

(4)本发明中提出了基于机器学习的恶意加密流量检测方法，解决了动态调整加密数据自动收集策略的难题。本发明能够进行信息丰富且表征能力强的恶意加密流量特征提取，能够实现分类泛化机制，对不同环境下的加密进行检测，并搭建测试原型系统。

附图说明

图1图1是系统功能模块图；

图2是ROC曲线和Precison-Recall曲线图；

图3是训练集F-score训练结果折线图；

图4为随机森林模型结构图；

图5为启发式搜索原理图；

图6为实施例中的马尔科夫状态转移矩阵示意图。

具体实施方式

首先对本发明中出现的技术词语进行解释说明：

session：一次完整的TCP/UDP连接的双向数据包流。

flow：一次完整的TCP/UDP连接的单向数据包流。

TLS(Transport Layer Security)：安全传输层。

全局最优搜索算法：一种通过把需要解决问题的所有可能情况逐一试验来找出符合条件的解的方法。它可以搜索到每个特征子集。缺点是它会带来巨大的计算开销，尤其当特征数较大时，计算时间很长。分支定界法(Branch and Bound，BB)通过剪枝处理缩短搜索时间。

随机搜索方法：是一组不需要优化问题梯度的数值优化方法。这种优化方法也被称为直接搜索、无派生或黑盒方法。该方法在使用时由随机产生的某个候选特征子集开始，依照一定的启发式信息和规则逐步逼近全局最优解。在计算过程中把特征选择问题与遗传算法(Genetic Algorithm，GA)、模拟退火算法(SimulatedAnnealing，SA)、粒子群算法(Particl Swarm Optimization，PSO)和免疫算法(Immune Algorithm，IA)等，或者仅仅是一个随机重采样过程结合起来，以概率推理和采样过程作为算法的基础，基于对分类估计的有效性，在算法运行中对每个特征赋予一定的权重；然后根据用户所定义的或自适应的阈值来对特征重要性进行评价。当特征所对应的权重超出了这个阈值，它便被选中作为重要的特征来训练分类器。

启发式搜索(Heuristically Search)又称为有信息搜索(Informed Search)：是一种利用问题拥有的启发信息来引导搜索的方法，达到减少搜索范围、降低问题复杂度的目的，这种利用启发信息的搜索过程称为启发式搜索。启发式策略可以通过指导搜索向最有希望的方向前进，降低了复杂性。通过删除某些状态及其延伸，启发式算法可以消除组合爆炸，并得到令人能接受的解。

特征选择算法：特征选择方法依据是否独立于后续的学习算法，可分为过滤式(Filter)和封装式(Wrapper)两种。Filter与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大。Filter特征选择方法一般使用评价准则来增强特征与类的相关性,削减特征之间的相关性.可将评价函数分成4类：距离度量、信息度量、依赖性度量以及一致性度量。Wrapper利用后续学习算法的训练准确率评估特征子集,偏差小，计算量大，不适合大数据集。作为学习算法的一个组成部分，并且直接使用分类性能作为特征重要性程度的评价标准。它的依据是选择子集最终被用于构造分类模型。因此，若在构造分类模型时，直接采用那些能取得较高分类性能的特征即可，从而获得一个分类性能较高的分类模型。该方法在速度上要比Filter方法慢，但是它所选择的优化特征子集的规模相对要小得多，非常有利于关键特征的辨识；同时它的准确率比较高，但泛化能力比较差，时间复杂度较高。

特征子集：是指从已有的M个特征(Feature)中选择的使得系统的特定指标最优化的N个特征，是为了降低数据集维度从原始特征中选择出一些最有效特征。

GridSearchCV网格搜索方法：一种调参方法，其主要思想是坐标下降。它其实是一种贪心算法，拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。

在本实施例中公开了一种加密流量恶意性检测模型建立方法，包括如下步骤：

具体的，所述的TLS特征包括TLS版本、TLS密码套件、TLS扩展、TLS扩展中的SAN数量和TLS公钥长度，所述的统计特征包括负载长度状态转移矩阵和字节分布特征。

具体的，所述的负载长度状态转移矩阵为由数据包长度与到达时间序列构成的马尔科夫状态转移矩阵。

具体的，所述的字节分布特征包括载荷字节分布概率、传入数据包字节数、传出数据包字节数、数据包长度的最大值、数据包长度的最小值、数据包长度的平均值和数据包长度的方差。

具体的，恶意流量和良性流量在TLS特征上具有非常明显的差异，表现在TLS握手过程中客户端用于协商的密码套件、TLS扩展和客户端公钥长度、服务器选定的密码套件以及相应的TLS扩展，在具体收集过程中，发现可从客户端发送的请求包中获得TLS版本，提供的密码套件列表以及支持的TLS扩展列表。对于客户端提供的密码套件列表，可观察到176个独特的十六进制代码，可创建长度为176的二进制向量，向量的每个位置都对应一组代码，对选定的密码套件和TLS扩展标0，其他标1。同理，用长度为21的二进制向量表示TLS扩展列表，每个位置对应一个具体的TLS扩展。

从服务器发送的确认包中得到选定的密码套件和选定的TLS扩展。与客户端提供的密码套件列表与TLS扩展列表相同，创建长度为176的二进制向量以及长度为21的二进制向量表示TLS扩展列表，选定的密码套件和TLS扩展标0，其他标1。

由客户端发起的请求包中可以解析出TLS版本，通过统计得到常用TLS版本列表字典，将解析出版本的对应位置在列表中置1，其他为置0。从密钥交换过程中的数据包中解析出协商的密钥长度，使用整数值表达公钥长度；从TLS扩展中解析出SAN数量值，并采用整数形式记录为一个值存于样本列表中，以上总共844个特征。

表1为TLS特征的具体定义，表中每个特征后括号内的数字的含义为该特征长度以及该特征组数：

表1本发明选取的TLS特征

具体的，良性流量与恶意流量在数据包大小、到达时间序列以及字节分布上也有不同的表现，其中，数据包长度取决于UDP、TCP或ICMP数据包中有效载荷的大小，若数据包不属于上述三种类型，则数据包长度被设置为IP数据包的大小。到达时间以毫秒为分隔，对于数据包长度与到达时间序列，将其模拟为马尔科夫链，构成马尔科夫状态转移矩阵；另外，一个字节分布特征被表示为长度为256的数组，数组的每一元素代表流的有效载荷中不同字节的出现次数，并依据此计算流的不同字节出现概率。算法使用的特征是256字节的分布概率、数据流的端口特征、数据包最大值、最小值、平均值、方差，共364个特征维度。表2为统计特征的具体定义：

表2本发明选取的统计特征

经过验证的有效特征如上表1表2所示，但这些特征总共加起来有近1948个维度，显然过多特征维度会造成模型的过拟合现象，同时也会增加计算复杂度；因此我们需要设计特征优选算法。特征选取采用的是启发式搜索算法，从所有特征中选出表现一个优选特征，再将其他特征同第一个特征进行组合，再次评估，这样依次迭代，最终得到选择的优选特征子集，如图5所示。

具体的，本实施例中为解决恶意流量与良性流量检测这个二分类问题，步骤2获得的优选特征向量集的形式为以优选特征向量为行向量，以不同的flow/session作为列向量的矩阵。

具体的，本实施例对于随机森林模型采用GridSearchCV网格搜索选取最合适的树值以及每棵树要学习的特征个数，更新后更新决策树的棵数、决策树的最大深度和决策树的最大特征数。

具体的，所述的分流方法包括将加密流量原始数据分为session形式或者flow形式。分流前数据包组中存在不同的IP和端口的数据包，分流后一个流(单位)中相同的IP和端口，后续操作建立在处理成的流(单位)上，以流作为单位进行特征提取。

具体的，恶意加密流量数据的采集包括：

自动化依次运行单个恶意样本5min。运行每个恶意样本结束后恢复沙箱环境到初始状态，再开始运行下一个恶意样本。避免多个恶意样本活动产生的流量混杂导致偏差。同时，在沙箱网络流量出口处，运行流量自动收集脚本，保证与每个恶意样本活动时间同步，每5min收集一次流量并单独存为一个恶意样本对应的恶意流量。

具体的，良性加密流量数据的采集包括：

实验室环境下收集过滤固定网卡的正常上网流量或是校园网环境下的流量。采用以5min为单位，编写自动化脚本自动收集通过相应网卡上的流量。并将每一个5min的流量包单独保存，便于后续处理。

具体的，CART分类树用于预测分类离散型数据，CART分类树是二叉树，通过计算基尼系数获得训练后的特征，同时决定该特征的最优二值切分点。对于优选特征向量集中的特征向量A，分别计算任意属性值将数据集划分为两部分之后的基尼指数，选取其中的最小值，作为特征向量A得到的最优二分方案。然后对于训练集，计算所有特征的最优二分方案，选取其中的最小值，作为最优二分方案。

在本实施例中还公开了一种加密流量恶意性检测方法，包括如下步骤：

步骤一：获取待检测加密流量数据包；

步骤二：提取待检测加密流量数据包的TLS特征和统计特征；

具体的，所述的恶意性检测结果为良性或恶意。

在本实施例中还公开了一种加密流量恶意性检测系统，包括：加密流量恶意性检测模型和检测模块；

所述的加密流量恶意性检测模型为上述实施例中方法构建得到的；

实施例1

在本实施例中，公开了一种加密流量恶意性检测模型建立方法及检测方法，在上述实施例的基础上，公开了如下技术特征：

为了防止偶然性，在方法的训练中均采用十倍交叉验证。训练结果的评价标准大致分为如下几类，首先列出基本指标：

表3：本实施例中选用的机器学习基本指标

1.查准率(precision)：指的是模型判为正的所有样本中有多少是真正的正样本；

2.查全率(Recall)：指的是所有正样本有多少被模型判为正样本；

3.F1-score:它是精确率与召回率间进行权衡

上面字母表示的含义是：FN：False Negative,被判定为负样本，但事实上是正样本；FP：False Positive,被判定为正样本，但事实上是负样本；TN：True Negative,被判定为负样本，事实上也是负样本；TP：True Positive,被判定为正样本，事实上也是正样本。

本发明在保障高精度查准率的同时，更倾向于关注Recall和F1-score，因为在保障精确度的同时，要求恶意流量尽量不要被错误分类为良性流量，即对recall要求很高，对F1-score要求高则是要求precision与recall整体数值高。

本实施例采集的加密流量原始数据集如下：在2019年4月，收集到的测试数据中，经处理和分流后，得到收集的良性流量(flow)有25,256条，收集的恶意流量(flow)有20,962条，与良性对应的session有18,764条,与恶意对应的session有13,792条。

本实施例主要的检验指标包括：precision、Recall与F1-score。

本实施例中，提取统计特征中的传入数据包大小，传出数据包大小，数据包最大值，数据包最小值，平均数据包长度。之后构建一个10x10的数据包大小转移矩阵，矩阵中的每个位置代表一个150字节长度的数据包，如流中数据包长度依次为：[88,42,192,88,1380,1380,1380]，则其对应的矩阵有A(0,0)＝1A(0,1)＝1,A(1,0)＝1,A(0,9)＝1,A(9,9)＝2，归一化之后可得如图6所示的马尔科夫状态转移矩阵，再构建一个256字节的一维向量，该一维向量为被分析的流有效载荷中遇到的每个字节值保持计数，之后将字节分布计数除以在分组有效载荷中找到的字节总数的字节分布，可以容易地计算流的字节值概率，机器学习算法使用的特征是256字节的分布概率。

解析建立TLS连接时客户端与服务器的握手包。握手包的头部字段是未加密的，包括TLS版本，TLS密码套件，TLS扩展,TLS扩展中的SAN数量，TLS公钥长度。

得到特征向量后，进一步进行归一化等处理，使用机器学习算法，对训练样本进行训练，得到分类良性加密流量与恶意加密流量的模型，使用该模型预测测试样本是良性加密流量还是恶意加密流量。并根据评价指标，评价该预测模型的检测异常流量的准确率等指标。最终得Precision、recall、F-score的值分别为：

表4随机森林模型下各个特征的查准率、查全率以及F-score

特征	查准率	查全率	F-score
				统计特征	0.956	0.966	0.898
TLS特征	0.995	0.986	0.975
				统计+TLS特征	0.992	0.992	0.992

通过对比使用不同种类特征对于恶意加密流量检测的评价指标结果可以得出：将统计特征、TLS特征结合起来得到的查准率、查全率，以及F1-score都优于单个类别的指标，以及按照其他方式结合的指标，使用统计特征、TLS特征结合作为特征用于机器学习训练产生检测异常加密流量的模型，对于恶意加密流量检测有更好的表现。

如图2(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线，二者比较接近。而(c)(d)的正负样本比例为1:1，这时ROC曲线效果依然很好，但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。

Claims

1.一种加密流量恶意性检测模型建立方法，其特征在于，包括如下步骤：

2.如权利要求1所述的加密流量恶意性检测模型建立方法，其特征在于，所述的TLS特征包括TLS版本、TLS密码套件、TLS扩展、TLS扩展中的SAN数量和TLS公钥长度，所述的统计特征包括负载长度状态转移矩阵和字节分布特征。

3.一种加密流量恶意性检测方法，其特征在于，包括如下步骤：

步骤一：获取待检测加密流量数据包；

步骤二：提取待检测加密流量数据包的TLS特征和统计特征；

步骤三：将待检测加密流量数据包的TLS特征和统计特征输入权利要求1或2中加密流量恶意性检测模型建立方法得到的加密流量恶意性检测模型中，获得待检测加密流量数据包的恶意性检测结果。

4.一种加密流量恶意性检测系统，其特征在于，包括：加密流量恶意性检测模型和检测模块；

所述的加密流量恶意性检测模型为权利要求1或2中加密流量恶意性检测模型建立方法构建得到的；