CN111030941A

CN111030941A - 一种基于决策树的https加密流量分类方法

Info

Publication number: CN111030941A
Application number: CN201911034290.0A
Authority: CN
Inventors: 朱国胜; 邹洁; 刘飞鸿; 祁小云; 曹扬晨
Original assignee: Wuhan Hongming Technology Co Ltd; Wuhan Ruiyingtong Network Technology Co ltd; Hubei University; CERNET Corp
Current assignee: Wuhan Hongming Technology Co Ltd; Wuhan Ruiyingtong Network Technology Co ltd; Hubei University; CERNET Corp
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-04-17

Abstract

本发明涉及一种基于决策树的HTTPS加密流量分类方法。首先在局域网环境中进行旁路镜像端口配置，在监控设备上通过网络封包分析软件对HTTPS加密流量进行抓取，将采集的数据包解析成json数组并存入表格文件中来获得原始数据，同时利用已经确定的标签数据，提取出决策树样本全集，通过特征工程，对原始数据进行预处理，筛选出15个较为显著的特征，生成相应的训练集和测试集，通过训练集构建决策树分类模型后用测试集对该模型进行评估，实现目标网站模块内容的精确分类。具体实例表明，本方法可有效实现目标网站模块内容的精确分类，实现对HTTPS加密流量的有效管理。

Description

一种基于决策树的HTTPS加密流量分类方法

技术领域

本发明涉及网络安全和技术领域，具体涉及一种基于决策树的HTTPS加密流量分类方法。

背景技术

随着互联网被广泛用于网上购物、网上银行、电子交易等商业活动上，数据的价值不言而喻。人们期望网络协议和应用程序通过提供加密、数据完整性来保护关键数据。SSL/TLS协议套件通常建立在易于理解和彻底分析的加密算法之上，为许多应用程序和协议提供了一定程度的安全性。

HTTPS协议结合对称加密和非对称加密两种加密方式实现数据的安全传输，在保护隐私的同时也为恶意流量提供了隐蔽之所，由于传统破解并解密网络流量的方法需要部署额外设备，成本和部署难度较高，直接获取加密的秘钥对流量进行解密的难度较高。传统的基于有效载荷的方法已无法处理加密流量，基于流量特征和机器学习的加密流量分类和分析成为目前的主流方法。

随着HTTPS的使用量超过HTTP，对网络流量进行加密传输已成为保护关键数据的常用方法，这种方法虽然极大程度的保护了用户隐私，但识别加密流量中的潜在威胁却为网络安全带来了一系列挑战，通过加密网络通道传递的恶意软件将变得越来越多，因此加密流量分类对于有效的网络分析和管理至关重要。

发明内容

本发明的目的是：本发明通过监督学习的方法对采集的HTTPS加密网络流中的特征属性进行分析，提出一种基于决策树的HTTPS加密流量分类方法。根据HTTPS加密流量分类的实际问题，对可以获取到的原始数据进行采集，同时利用已经确定的标签数据，提取出决策树样本全集，通过特征工程，对原始数据进行预处理，筛选出较为显著的特征。将样本全集根据合适比例划分为训练集和测试集后，对模型进行训练，通过测试集，验证模型的有效性，得到决策树分类模型，实现目标网站模块内容的精确分类。

一般来说，一棵决策树由一个根节点，若干个内部节点和若干个叶节点组成。其中，根节点包含了样本全集，叶节点对应于决策的结果，其他节点对应于一个属性测试，每个节点包含的样本集合根据属性测试的结果被划分到子节点中，从根节点到每个叶节点的路径对应着一个判定测试序列。

为了达到上述目的，本发明所采用的技术方案是：一种基于决策树的HTTPS加密流量分类方法，其特征在于，所述方法包括如下步骤：

(1)通过网络封包分析软件对HTTPS加密流量进行抓取，获取SSL/TLS握手成功后加密传输的HTTPS应用数据包，即待分类数据包；

(2)对待分类数据包进行数据包标记，同时，通过特征工程对待分类数据包进行预处理，筛选出本方法数据集包含的15项网络流属性，同时利用已经确定的标签数据，提取出决策树样本全集；

(2.1)将Wireshark对网站进行分模块采集的数据包加上标签字段作为该样例的真实标记即该样例已经确定的标签数据；

(2.2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中，通过数据预处理将属性值进行规范化，去掉网络流数据中属性值相同的特征，对缺失值进行均值处理；

(2.3)将用十六进制表示的tcp有效荷载及应用数据转换成相应的字符串长度；

(2.4)对网络数据流中的每个属性进行具体含义的分析，选取网络数据流中的时间相关特征、网络数据包中与字节长度相关的分组长度特征及端口特征得到了本方法数据集包含的15项网络流属性；

(3)将样本全集根据合适比例划分为训练集和测试集，基于决策树算法，将该方法选取的15项网络流属性作为输入向量并通过训练集建立决策树分类模型，实现目标网站模块内容分类；

(3.1)HTTPS加密网络数据流的样本全集为：S＝{(x₁,y₁),(x₂,y₂₎,…(x_n,y_n)}，其中x_i指样本属性，y_i指对应的标签数据，i表示对应的样本序号；

(3.2)引入C4.5决策树算法模型，通过计算每个属性的信息增益率，从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的属性；

(3.3)使用训练集训练得到HTTPS加密流量分类模型；

(4)通过测试集对决策树分类模型进行有效评估，从而完善决策树分类模型，实现目标网站模块内容的精确分类；

(4.1)样本全集S＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}，其中y_i表示x_i的实际标记，定义决策树分类模型预测的结果是p_i；

(4.2)定义分类正确的样本数占样本总数的比例精度：

(4.3)令TP_i表示实际类型为i的样本中被分类模型预测正确的样本数，FP_i表示实际类型为非i的样本中被分类模型误判为类型i的样本数量，FN_i表示实际类型为i的样本中被分类模型误判为其他类型的样本数，则类型i的查准率P和查全率R分别定义为:

和

(4.4)通过上述定义的模型性能评估指标，使用测试集对决策树分类模型进行评估。

进一步的，所述方法包括：对采集的数据包进行分析，选取15项网络流属性，将选取的字符型的属性转换为数字型属性进行数据预处理，最后将数据作为决策树的输入向量；选取的15项网络流属性如下表所示：

表1：网络流属性说明

。

本发明的有益效果是：具体实例表明，本方法可有效实现目标网站模块内容的精确分类，实现对HTTPS加密流量的有效管理。

附图说明

图1为一种基于决策树的HTTPS加密流量分类方法的流程图。

具体实施方式

下面结合附图和实例对本发明做进一步阐述，但不是对本发明的限定。

如图1所示，一种基于决策树的HTTPS加密流量分类方法具体实施方式如下：

(1)通过网络封包分析软件对HTTPS加密流量进行采集，得到原始数据。

(2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中。

(3)对采集的数据进行分析，选取15个网络流特征属性，通过数据预处理将属性值进行规范化，对缺失值进行处理，将选取的字符型的属性转换为数字型属性。

(4)将样本全集选取合适比例划分为训练集和测试集。

(5)通过训练集构建决策树分类模型，实现目标网站的模块内容分类。

(6)通过测试集对决策树分类模型进行验证，评估决策树分类模型的有效性。

(7)将得到的决策树分类模型进行部署验证，实施运行。

具体实施例：

以腾讯网(https://www.qq.com)为目标网站进行数据采集，对该网站的娱乐、时尚、财经、军事、体育及科技模块内容进行访问，采集了3835条网络流样本作为实验的数据集，该数据集被分为六个类型，每类网络流的数目和所占比例见下表：

表2：网站模块类型网络流数目及比例

当测试集样本数目为767时，通过决策树监督学习算法，基于网络流量的特征，对加密流量进行所属网站模块分类，准确率达到了88.3％，网站各类型模块的查准率和查全率见下表：

表3：网站各类型模块的查准率和查全率

从表中可以看到，类型为Fashion的样本集召回率达到了数值1，说明该类型样本集全部被正确预测，而其他类型被错误预测为该类型的样本数目仅为19。

此实例可以表明，本方法可有效实现对目标网站模块内容的精确分类，实现对HTTPS加密流量的有效管理。

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种基于决策树的HTTPS加密流量分类方法，其特征在于，所述方法包括如下步骤：

(3.1)HTTPS加密网络数据流的样本全集为：S＝{(x₁,y₁),(x₂,y₂),…(x_n,y_n)}，其中x_i指样本属性，y_i指对应的标签数据，i表示对应的样本序号；

(3.3)使用训练集训练得到HTTPS加密流量分类模型；

(4.2)定义分类正确的样本数占样本总数的比例精度：

和

2.如权利要求1所述的基于决策树的HTTPS加密流量分类方法，其特征在于：所述方法包括：对采集的数据包进行分析，选取15项网络流属性，将选取的字符型的属性转换为数字型属性进行数据预处理，最后将数据作为决策树的输入向量；选取的15项网络流属性如下表所示：

表1：网络流属性说明