CN111030941A - 一种基于决策树的https加密流量分类方法 - Google Patents

一种基于决策树的https加密流量分类方法 Download PDF

Info

Publication number
CN111030941A
CN111030941A CN201911034290.0A CN201911034290A CN111030941A CN 111030941 A CN111030941 A CN 111030941A CN 201911034290 A CN201911034290 A CN 201911034290A CN 111030941 A CN111030941 A CN 111030941A
Authority
CN
China
Prior art keywords
decision tree
data
network
attributes
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911034290.0A
Other languages
English (en)
Inventor
朱国胜
邹洁
刘飞鸿
祁小云
曹扬晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Hongming Technology Co Ltd
Wuhan Ruiyingtong Network Technology Co ltd
Hubei University
CERNET Corp
Original Assignee
Wuhan Hongming Technology Co Ltd
Wuhan Ruiyingtong Network Technology Co ltd
Hubei University
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Hongming Technology Co Ltd, Wuhan Ruiyingtong Network Technology Co ltd, Hubei University, CERNET Corp filed Critical Wuhan Hongming Technology Co Ltd
Priority to CN201911034290.0A priority Critical patent/CN111030941A/zh
Publication of CN111030941A publication Critical patent/CN111030941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于决策树的HTTPS加密流量分类方法。首先在局域网环境中进行旁路镜像端口配置,在监控设备上通过网络封包分析软件对HTTPS加密流量进行抓取,将采集的数据包解析成json数组并存入表格文件中来获得原始数据,同时利用已经确定的标签数据,提取出决策树样本全集,通过特征工程,对原始数据进行预处理,筛选出15个较为显著的特征,生成相应的训练集和测试集,通过训练集构建决策树分类模型后用测试集对该模型进行评估,实现目标网站模块内容的精确分类。具体实例表明,本方法可有效实现目标网站模块内容的精确分类,实现对HTTPS加密流量的有效管理。

Description

一种基于决策树的HTTPS加密流量分类方法
技术领域
本发明涉及网络安全和技术领域,具体涉及一种基于决策树的HTTPS加密流量分类方法。
背景技术
随着互联网被广泛用于网上购物、网上银行、电子交易等商业活动上,数据的价值不言而喻。人们期望网络协议和应用程序通过提供加密、数据完整性来保护关键数据。SSL/TLS协议套件通常建立在易于理解和彻底分析的加密算法之上,为许多应用程序和协议提供了一定程度的安全性。
HTTPS协议结合对称加密和非对称加密两种加密方式实现数据的安全传输,在保护隐私的同时也为恶意流量提供了隐蔽之所,由于传统破解并解密网络流量的方法需要部署额外设备,成本和部署难度较高,直接获取加密的秘钥对流量进行解密的难度较高。传统的基于有效载荷的方法已无法处理加密流量,基于流量特征和机器学习的加密流量分类和分析成为目前的主流方法。
随着HTTPS的使用量超过HTTP,对网络流量进行加密传输已成为保护关键数据的常用方法,这种方法虽然极大程度的保护了用户隐私,但识别加密流量中的潜在威胁却为网络安全带来了一系列挑战,通过加密网络通道传递的恶意软件将变得越来越多,因此加密流量分类对于有效的网络分析和管理至关重要。
发明内容
本发明的目的是:本发明通过监督学习的方法对采集的HTTPS加密网络流中的特征属性进行分析,提出一种基于决策树的HTTPS加密流量分类方法。根据HTTPS加密流量分类的实际问题,对可以获取到的原始数据进行采集,同时利用已经确定的标签数据,提取出决策树样本全集,通过特征工程,对原始数据进行预处理,筛选出较为显著的特征。将样本全集根据合适比例划分为训练集和测试集后,对模型进行训练,通过测试集,验证模型的有效性,得到决策树分类模型,实现目标网站模块内容的精确分类。
一般来说,一棵决策树由一个根节点,若干个内部节点和若干个叶节点组成。其中,根节点包含了样本全集,叶节点对应于决策的结果,其他节点对应于一个属性测试,每个节点包含的样本集合根据属性测试的结果被划分到子节点中,从根节点到每个叶节点的路径对应着一个判定测试序列。
为了达到上述目的,本发明所采用的技术方案是:一种基于决策树的HTTPS加密流量分类方法,其特征在于,所述方法包括如下步骤:
(1)通过网络封包分析软件对HTTPS加密流量进行抓取,获取SSL/TLS握手成功后加密传输的HTTPS应用数据包,即待分类数据包;
(2)对待分类数据包进行数据包标记,同时,通过特征工程对待分类数据包进行预处理,筛选出本方法数据集包含的15项网络流属性,同时利用已经确定的标签数据,提取出决策树样本全集;
(2.1)将Wireshark对网站进行分模块采集的数据包加上标签字段作为该样例的真实标记即该样例已经确定的标签数据;
(2.2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中,通过数据预处理将属性值进行规范化,去掉网络流数据中属性值相同的特征,对缺失值进行均值处理;
(2.3)将用十六进制表示的tcp有效荷载及应用数据转换成相应的字符串长度;
(2.4)对网络数据流中的每个属性进行具体含义的分析,选取网络数据流中的时间相关特征、网络数据包中与字节长度相关的分组长度特征及端口特征得到了本方法数据集包含的15项网络流属性;
(3)将样本全集根据合适比例划分为训练集和测试集,基于决策树算法,将该方法选取的15项网络流属性作为输入向量并通过训练集建立决策树分类模型,实现目标网站模块内容分类;
(3.1)HTTPS加密网络数据流的样本全集为:S={(x1,y1),(x2,y2),…(xn,yn)},其中xi指样本属性,yi指对应的标签数据,i表示对应的样本序号;
(3.2)引入C4.5决策树算法模型,通过计算每个属性的信息增益率,从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性;
(3.3)使用训练集训练得到HTTPS加密流量分类模型;
(4)通过测试集对决策树分类模型进行有效评估,从而完善决策树分类模型,实现目标网站模块内容的精确分类;
(4.1)样本全集S={(x1,y1),(x2,y2),…(xn,yn)},其中yi表示xi的实际标记,定义决策树分类模型预测的结果是pi
(4.2)定义分类正确的样本数占样本总数的比例精度:
Figure BDA0002251020240000031
(4.3)令TPi表示实际类型为i的样本中被分类模型预测正确的样本数,FPi表示实际类型为非i的样本中被分类模型误判为类型i的样本数量,FNi表示实际类型为i的样本中被分类模型误判为其他类型的样本数,则类型i的查准率P和查全率R分别定义为:
Figure BDA0002251020240000032
Figure BDA0002251020240000033
(4.4)通过上述定义的模型性能评估指标,使用测试集对决策树分类模型进行评估。
进一步的,所述方法包括:对采集的数据包进行分析,选取15项网络流属性,将选取的字符型的属性转换为数字型属性进行数据预处理,最后将数据作为决策树的输入向量;选取的15项网络流属性如下表所示:
表1:网络流属性说明
Figure BDA0002251020240000034
本发明的有益效果是:具体实例表明,本方法可有效实现目标网站模块内容的精确分类,实现对HTTPS加密流量的有效管理。
附图说明
图1为一种基于决策树的HTTPS加密流量分类方法的流程图。
具体实施方式
下面结合附图和实例对本发明做进一步阐述,但不是对本发明的限定。
如图1所示,一种基于决策树的HTTPS加密流量分类方法具体实施方式如下:
(1)通过网络封包分析软件对HTTPS加密流量进行采集,得到原始数据。
(2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中。
(3)对采集的数据进行分析,选取15个网络流特征属性,通过数据预处理将属性值进行规范化,对缺失值进行处理,将选取的字符型的属性转换为数字型属性。
(4)将样本全集选取合适比例划分为训练集和测试集。
(5)通过训练集构建决策树分类模型,实现目标网站的模块内容分类。
(6)通过测试集对决策树分类模型进行验证,评估决策树分类模型的有效性。
(7)将得到的决策树分类模型进行部署验证,实施运行。
具体实施例:
以腾讯网(https://www.qq.com)为目标网站进行数据采集,对该网站的娱乐、时尚、财经、军事、体育及科技模块内容进行访问,采集了3835条网络流样本作为实验的数据集,该数据集被分为六个类型,每类网络流的数目和所占比例见下表:
表2:网站模块类型网络流数目及比例
Figure BDA0002251020240000051
当测试集样本数目为767时,通过决策树监督学习算法,基于网络流量的特征,对加密流量进行所属网站模块分类,准确率达到了88.3%,网站各类型模块的查准率和查全率见下表:
表3:网站各类型模块的查准率和查全率
Figure BDA0002251020240000052
从表中可以看到,类型为Fashion的样本集召回率达到了数值1,说明该类型样本集全部被正确预测,而其他类型被错误预测为该类型的样本数目仅为19。
此实例可以表明,本方法可有效实现对目标网站模块内容的精确分类,实现对HTTPS加密流量的有效管理。
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。

Claims (2)

1.一种基于决策树的HTTPS加密流量分类方法,其特征在于,所述方法包括如下步骤:
(1)通过网络封包分析软件对HTTPS加密流量进行抓取,获取SSL/TLS握手成功后加密传输的HTTPS应用数据包,即待分类数据包;
(2)对待分类数据包进行数据包标记,同时,通过特征工程对待分类数据包进行预处理,筛选出本方法数据集包含的15项网络流属性,同时利用已经确定的标签数据,提取出决策树样本全集;
(2.1)将Wireshark对网站进行分模块采集的数据包加上标签字段作为该样例的真实标记即该样例已经确定的标签数据;
(2.2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中,通过数据预处理将属性值进行规范化,去掉网络流数据中属性值相同的特征,对缺失值进行均值处理;
(2.3)将用十六进制表示的tcp有效荷载及应用数据转换成相应的字符串长度;
(2.4)对网络数据流中的每个属性进行具体含义的分析,选取网络数据流中的时间相关特征、网络数据包中与字节长度相关的分组长度特征及端口特征得到了本方法数据集包含的15项网络流属性;
(3)将样本全集根据合适比例划分为训练集和测试集,基于决策树算法,将该方法选取的15项网络流属性作为输入向量并通过训练集建立决策树分类模型,实现目标网站模块内容分类;
(3.1)HTTPS加密网络数据流的样本全集为:S={(x1,y1),(x2,y2),…(xn,yn)},其中xi指样本属性,yi指对应的标签数据,i表示对应的样本序号;
(3.2)引入C4.5决策树算法模型,通过计算每个属性的信息增益率,从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性;
(3.3)使用训练集训练得到HTTPS加密流量分类模型;
(4)通过测试集对决策树分类模型进行有效评估,从而完善决策树分类模型,实现目标网站模块内容的精确分类;
(4.1)样本全集S={(x1,y1),(x2,y2),…(xn,yn)},其中yi表示xi的实际标记,定义决策树分类模型预测的结果是pi
(4.2)定义分类正确的样本数占样本总数的比例精度:
Figure FDA0002251020230000021
(4.3)令TPi表示实际类型为i的样本中被分类模型预测正确的样本数,FPi表示实际类型为非i的样本中被分类模型误判为类型i的样本数量,FNi表示实际类型为i的样本中被分类模型误判为其他类型的样本数,则类型i的查准率P和查全率R分别定义为:
Figure FDA0002251020230000022
Figure FDA0002251020230000023
(4.4)通过上述定义的模型性能评估指标,使用测试集对决策树分类模型进行评估。
2.如权利要求1所述的基于决策树的HTTPS加密流量分类方法,其特征在于:所述方法包括:对采集的数据包进行分析,选取15项网络流属性,将选取的字符型的属性转换为数字型属性进行数据预处理,最后将数据作为决策树的输入向量;选取的15项网络流属性如下表所示:
表1:网络流属性说明
Figure FDA0002251020230000024
CN201911034290.0A 2019-10-29 2019-10-29 一种基于决策树的https加密流量分类方法 Pending CN111030941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911034290.0A CN111030941A (zh) 2019-10-29 2019-10-29 一种基于决策树的https加密流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911034290.0A CN111030941A (zh) 2019-10-29 2019-10-29 一种基于决策树的https加密流量分类方法

Publications (1)

Publication Number Publication Date
CN111030941A true CN111030941A (zh) 2020-04-17

Family

ID=70200605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911034290.0A Pending CN111030941A (zh) 2019-10-29 2019-10-29 一种基于决策树的https加密流量分类方法

Country Status (1)

Country Link
CN (1) CN111030941A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070107A (zh) * 2020-07-15 2020-12-11 上海大学 一种电子口岸船舶进港控制方法
CN112306778A (zh) * 2020-11-20 2021-02-02 浙江大学 一种基于旁路的资源受限型终端设备安全监测方法
CN112769619A (zh) * 2021-01-08 2021-05-07 南京信息工程大学 一种基于决策树的多分类网络故障预测方法
CN112995209A (zh) * 2021-04-20 2021-06-18 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN113095426A (zh) * 2021-04-22 2021-07-09 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113141364A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113328985A (zh) * 2021-04-07 2021-08-31 西安交通大学 一种被动物联网设备识别方法、系统、介质及设备
CN113746707A (zh) * 2021-11-08 2021-12-03 南京信息工程大学 一种基于分类器及网络结构的加密流量分类方法
CN113824644A (zh) * 2020-06-18 2021-12-21 中国移动通信集团陕西有限公司 Https业务内容识别方法、装置和设备
CN114401112A (zh) * 2021-12-16 2022-04-26 内蒙古农业大学 旁路部署针对tls加密的恶意流量实时深度包检测方法
CN117093260A (zh) * 2023-10-16 2023-11-21 戎行技术有限公司 一种基于决策树分类算法的融合模型网站结构解析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN109936512A (zh) * 2017-12-15 2019-06-25 华为技术有限公司 流量分析方法、公共服务流量归属方法及相应的计算机系统
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035698A (zh) * 2011-01-06 2011-04-27 西北工业大学 基于决策树分类算法的http隧道检测方法
US20190102337A1 (en) * 2017-10-02 2019-04-04 Cisco Technology, Inc. Scalable training of random forests for high precise malware detection
CN109936512A (zh) * 2017-12-15 2019-06-25 华为技术有限公司 流量分析方法、公共服务流量归属方法及相应的计算机系统
CN110138849A (zh) * 2019-05-05 2019-08-16 哈尔滨英赛克信息技术有限公司 基于随机森林的协议加密算法类型识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐鹏 等: "基于C4.5决策树的流量分类方法", 《软件学报》, 15 October 2009 (2009-10-15) *
王海忠: "基于决策树的网络流量分类系统的设计与实现", 《中国优秀硕士学位论文全文数据库(信息科技辑)》, 15 March 2015 (2015-03-15) *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113824644A (zh) * 2020-06-18 2021-12-21 中国移动通信集团陕西有限公司 Https业务内容识别方法、装置和设备
CN112070107A (zh) * 2020-07-15 2020-12-11 上海大学 一种电子口岸船舶进港控制方法
CN112306778A (zh) * 2020-11-20 2021-02-02 浙江大学 一种基于旁路的资源受限型终端设备安全监测方法
CN112306778B (zh) * 2020-11-20 2022-05-10 浙江大学 一种基于旁路的资源受限型终端设备安全监测方法
CN112769619A (zh) * 2021-01-08 2021-05-07 南京信息工程大学 一种基于决策树的多分类网络故障预测方法
CN113328985B (zh) * 2021-04-07 2022-12-09 西安交通大学 一种被动物联网设备识别方法、系统、介质及设备
CN113328985A (zh) * 2021-04-07 2021-08-31 西安交通大学 一种被动物联网设备识别方法、系统、介质及设备
CN112995209A (zh) * 2021-04-20 2021-06-18 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN112995209B (zh) * 2021-04-20 2021-08-17 北京智源人工智能研究院 一种流量监测方法、装置、设备及介质
CN113095426A (zh) * 2021-04-22 2021-07-09 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113141364A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113095426B (zh) * 2021-04-22 2023-03-31 西安交通大学 一种加密流量分类方法、系统、设备及可读存储介质
CN113746707B (zh) * 2021-11-08 2022-02-15 南京信息工程大学 一种基于分类器及网络结构的加密流量分类方法
CN113746707A (zh) * 2021-11-08 2021-12-03 南京信息工程大学 一种基于分类器及网络结构的加密流量分类方法
CN114401112A (zh) * 2021-12-16 2022-04-26 内蒙古农业大学 旁路部署针对tls加密的恶意流量实时深度包检测方法
CN114401112B (zh) * 2021-12-16 2023-11-03 内蒙古农业大学 旁路部署针对tls加密的恶意流量实时深度包检测方法
CN117093260A (zh) * 2023-10-16 2023-11-21 戎行技术有限公司 一种基于决策树分类算法的融合模型网站结构解析方法
CN117093260B (zh) * 2023-10-16 2024-01-12 戎行技术有限公司 一种基于决策树分类算法的融合模型网站结构解析方法

Similar Documents

Publication Publication Date Title
CN111030941A (zh) 一种基于决策树的https加密流量分类方法
Hwang et al. An unsupervised deep learning model for early network traffic anomaly detection
Jansen et al. Inside Job: Applying Traffic Analysis to Measure Tor from Within.
Abe et al. Fingerprinting attack on Tor anonymity using deep learning
Wu et al. Bot detection using unsupervised machine learning
CN113259313A (zh) 一种基于在线训练算法的恶意https流量智能分析方法
US10187412B2 (en) Robust representation of network traffic for detecting malware variations
Joshi et al. Fundamentals of Network Forensics
Bazuhair et al. Detecting malign encrypted network traffic using perlin noise and convolutional neural network
CN110611640A (zh) 一种基于随机森林的dns协议隐蔽通道检测方法
CN111224946A (zh) 一种基于监督式学习的tls加密恶意流量检测方法及装置
Almubayed et al. A model for detecting tor encrypted traffic using supervised machine learning
Sheikh et al. Procedures, criteria, and machine learning techniques for network traffic classification: a survey
CN112800424A (zh) 一种基于随机森林的僵尸网络恶意流量监测方法
Riadi et al. Internet forensics framework based-on clustering
Ghabban et al. Comparative analysis of network forensic tools and network forensics processes
Hynek et al. Refined detection of SSH brute-force attackers using machine learning
CN113923026A (zh) 一种基于TextCNN的加密恶意流量检测模型及其构建方法
Barik et al. Research perspective on digital forensic tools and investigation process
Rustam et al. A novel approach for real-time server-based attack detection using meta-learning
CN113141349B (zh) 一种多分类器自适应融合的https加密流量分类方法
Alshammari et al. Classifying ssh encrypted traffic with minimum packet header features using genetic programming
Komisarek et al. A novel, refined dataset for real-time Network Intrusion Detection
Cermak et al. Real-time pattern detection in IP flow data using Apache spark
Ahmed et al. Network-based intrusion detection datasets: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417

RJ01 Rejection of invention patent application after publication