CN112217834B - 一种基于图结构的互联网加密流量交互特征提取方法 - Google Patents

一种基于图结构的互联网加密流量交互特征提取方法 Download PDF

Info

Publication number
CN112217834B
CN112217834B CN202011134566.5A CN202011134566A CN112217834B CN 112217834 B CN112217834 B CN 112217834B CN 202011134566 A CN202011134566 A CN 202011134566A CN 112217834 B CN112217834 B CN 112217834B
Authority
CN
China
Prior art keywords
burst
flow
packet
traffic
encryption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011134566.5A
Other languages
English (en)
Other versions
CN112217834A (zh
Inventor
沈蒙
高振波
祝烈煌
孙天艺
刘星彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202011134566.5A priority Critical patent/CN112217834B/zh
Publication of CN112217834A publication Critical patent/CN112217834A/zh
Application granted granted Critical
Publication of CN112217834B publication Critical patent/CN112217834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于图结构的互联网加密流量交互特征提取方法,属于加密网络流量分类技术领域,应用于TLS加密过后的网络流量进行细粒度的分类。本发明从原始的包序列中提取基于图结构的加密流量交互特征,图结构特征中包含了数据包的顺序信息、包方向信息、包长度信息和突发流量信息等。通过定量计算,相对于包长度序列,使用图结构特征后,类内距离明显变小、类间距离变大。本方法能够获取维度更丰富、区分度更高的加密流量特征,进而与图神经网络等深度神经网络结合,开展加密流量的精细化分类与识别。通过大量实验数据实验证明,采用图结构特征结合图神经网络,与现有方法相比,具有更高的准确性、更低的误报率。

Description

一种基于图结构的互联网加密流量交互特征提取方法
技术领域
本发明涉及一种互联网加密流量交互特征提取方法,尤其涉及基于图结构的互联网加密流量交互特征提取方法,为图神经网络等深度神经网络提供一种维度更丰富、区分度更高的特征,属于加密网络流量分类技术领域。
背景技术
流量分类可以辅助网络运营商进行负载均衡、路由规划,给用户带来更好的用户体验。但是,随着加密协议(如SSL/TLS)使用量的急剧增长,传统的分类方法,如深度包检测,由于有效载荷信息被加密后而失效。为了能够对加密网络流量进行分类,相关研究开始从加密网络数据包中提取可用的信息作为特征,如包方向、包长度、时间戳等,进而采用机器学习等技术对流量进行分类。基于有效特征的网络加密流量识别方法的难点在于:如何从加密流量中寻找到有效且区分性较强的特征。
目前,针对网络加密流量分类方面,可检索到的文献中,提出的特征可以分为两类:一类是利用统计特征,另一类是利用序列特征。在统计特征相关工作中,有文献对上行、下行、双向数据包长度计算了54种统计特征,如上行数据包平均长度,但是,此类特征计算方法需要包的数量多、特征计算时间复杂度高,而且还需要复杂的特征选择过程。在序列特征的相关工作中,有文献利用包长度序列作为卷积神经网络等深度学习方法的特征输入,但是,网络中大部分数据包都是以固定的最大长度传输的,使得包长度序列中的时序信息区分性减少。
综上所述,目前适用于网络加密流量分类所用的特征存在计算复杂度高或者区分性小等问题。
发明内容
本发明的目的是为了克服现有技术的缺陷,创造性地提出一种基于图结构的互联网加密流量交互特征提取方法,应用于TLS加密过后的网络流量分类。本方法从原始包序列开始构建图结构流量特征,能够获取维度更丰富、区分度更高的加密流量特征,进而与图神经网络等深度神经网络结合,开展加密流量的精细化分类与识别。
本发明采用的技术方案如下:
一种基于图结构的互联网加密流量交互特征提取方法,包括以下步骤:
步骤1:获取网络加密流P。
一条网络加密流被五元组唯一确定:源/目的IP地址、源/目的端口和传输层协议。
给定一条网络加密流P,流P中包含N个数据包:P=(p1,p2,…,pi,…,pN),其中pi为第i个有符号非零整数,pi的绝对值代表第i个数据包的长度,如果pi是负数,则代表第i个包是从客户端到服务端的上行包,如果pi是正数,则代表第i个包是从服务端到客户端的下行包。
流P的N个数据包中不包含ACK数据包。因为其TCP有效载荷为0,不携带数据,可视为噪音而去掉。
步骤2:初始化顶点集V和边集E为空。
步骤3:添加顶点到顶点集V中。根据P中元素的顺序依次将pi与顶点vi相关联并加入到顶点集V中。
步骤4:按照数据包的方向,将顶点集V划分突发流量集B。突发流量定义为一系列沿着同一方向传输的连续包,即使只有一个包也是一个突发流量。顶点集划分完后,得到K个突发流量,突发流量集B表示为(b1,b2,…,bi,…,bK)。bi代表第i个突发流量,其中包含的顶点符号是相同的,同为正或同为负。
步骤5:添加突发流量内部的边。
突发流量内部边用于连接在同一突发流量bi中的顶点。遍历突发流量集B中的每一个突发流量bi,如果突发流量bi中顶点的个数大于1,则继续遍历突发流量bi中的顶点,然后,不断添加条边e用于连接vj和vj+1,之后将其添加到边集E中。最终,每个突发流量bi中添加的突发流量内部边的数量等于突发流量bi中顶点数量减1。
步骤6:添加突发流量间的边。
突发流量间的边用于连接当前突发流量bi与其前一突发流量bi-1。如果突发流量bi与突发流量bi-1中顶点个数都为1,此时仅添加一条边到边集E中,用于关联突发流量bi与突发流量bi-1;否则,添加两条边到边集E中,用于突发流量bi中的第一个和最后一个顶点连接到突发流量bi-1中对应的第一个和最后一个顶点。
步骤7:计算图结构特征G=(V,E),完成网络加密流量交互特征提取。
提取出的网络加密流量交互特征,可以与图神经网络相结合,能够更加准确地进行加密流量的细粒度识别。
有益效果
本发明方法,对比现有技术,具有以下优点:
(1)本发明适用于对TLS加密过后的流量进行细粒度的分类;
(2)本发明从原始的包序列中提取了一种基于图结构的加密流量交互特征。图结构特征中包含了丰富的信息:包的顺序信息、包方向信息、包长度信息和突发流量信息;通过定量的计算,相对于包长度序列,使用图结构特征后,类内距离明显变小,类间距离变大;
(3)本发明为图神经网络提供了一种高效可用的特征,通过大量实验数据实验证明,图结构特征结合图神经网络与现有的利用包长度序列或包长度统计特征的加密流量分类和识别方法相比具有更高的准确性,更低的误报率。
附图说明
图1为客户端和服务端的数据包交互过程示意图;
图2为图结构特征;
图3为欧氏距离下的包长度序列的距离度量;
图4为图编辑距离下的图结构特征的距离度量。
具体实施方式
下面结合附图和实施例对本发明方法做进一步详细说明。
实施例
本实施例是基于步骤1到步骤7进行的图结构加密流量特征提取。图1是客户端和服务端的数据包交互过程,上行数据包的长度设置为负,将下行数据包的长度设置为正,灰色和白色块分别表示SSL/TLS协议中的握手协议和记录协议。
步骤1:根据网络加密流P=(-571,1514,1142,-118,-140,-330,618,85,-85,-361,279,93,-93,55)。
步骤2:初始化顶点集V和边集E为空。
步骤3:添加顶点到顶点集中。根据P中元素的顺序依次将pi与顶点vi相关联并加入到顶点集V中,得到顶点集V=[-571,1514,1142,-118,-140,-330,618,85,-85,-361,279,93,-93,55]。
步骤4:按照包的方向将顶点集V划分为突发流量集B=[[-571],[1514,1142],[-118,-140,-330],[618,85],[-85,-361],[279,93],[-93],[55]]。
步骤5:添加突发流量内部边。如对于突发流量b=[-118,-140,-330],两条边用于连接b中的三个顶点。
步骤6:添加突发流量间的边。例如,在突发流量bi-1=[618,85]和突发流量bi=[-85,-361]添加两条边连接两个突发流量,即在顶点618和顶点-85间添加边和在顶点85和顶点-361间添加边。
步骤7:得到图结构特征G=(V,E)。如图2所示。
采用定量计算的方式来证明TIG比其他表示方法更具信息量。一个理想的特征表示方式应该使一个流与来自同一个网站的流相似,而与来自不同网站的流不相似。选择包长度序列作为比较的基线,分别使用图编辑距离和欧式距离作为图结构特征和包长度序列的距离度量方式。流之间的距离越小则表示相似性越大。
从40个网站产生的流中,每个网站随机选择100个网络加密流,计算流之间的成对距离。图3表示欧氏距离下的包长度序列的距离度量,图4表示图编辑距离下的图结构特征的距离度量。蓝色×号表示同一个网站中流之间的平均距离(即类内距离),每个箱线图表示与其他网站的流距离(即类间距离)的最大值、第75个百分位、第50个百分位、第25个百分位和最小值。
比较图3和图4,可以得到以下观察结果:
在包长序列中,只有4个网站的类内距离小于其类间距离的最小值,而图结构特征则使21个网站具有这种特性。
对于包长度序列,有15个网站的类内距离大于类间距离的中值(即第50个百分位),而图结构特征只有一个这样的情况。
因此,可以得出结论:相对于包长度序列,使用图结构特征后,类内距离明显变小,类间距离变大。
将本发明提取出的图结构特征与图神经网络相结合(记为GNN+Graph),开展加密流量的细粒度网站识别,并与基于包长度序列结合卷积神经网络的网站识别方法(记为CNN+Length)对比,以验证本发明的优势及有效性。
实验采用的数据集中包含了40个网站,共有155500条流。采用10折交叉验证用来评估每种方法的性能,以10次测试准确率的平均值作为最终结果,同时计算10次测试准确率的标准差。表1展示了GNN+Graph和CNN+Length的预测结果。
表1 GNN+Graph和CNN+Length的预测准确率和标准差
方法 GNN+Graph CNN+Length
准确率 0.8922±0.0011 0.7938±0.0033
表1结果展示了GNN+Graph在准确率上比CNN+Length高出约10%,同时标准差比CNN+Length低,说明GNN+Graph比CNN+Length稳定性高。

Claims (1)

1.一种基于图结构的互联网加密流量交互特征提取方法,其特征在于,包括以下步骤:
步骤1:获取网络加密流P;
一条网络加密流被五元组唯一确定:源/目的IP地址、源/目的端口和传输层协议;
给定一条网络加密流P,流P中包含N个数据包:P=(p1,p2,…,pi,…,pN),其中pi为第i个有符号非零整数,pi的绝对值代表第i个数据包的长度,如果pi是负数,则代表第i个包是从客户端到服务端的上行包,如果pi是正数,则代表第i个包是从服务端到客户端的下行包;流P的N个数据包中不包含ACK数据包;
步骤2:初始化顶点集V和边集E为空;
步骤3:添加顶点到顶点集V中;根据P中元素的顺序依次将pi与顶点vi相关联并加入到顶点集V中;
步骤4:按照数据包的方向,将顶点集V划分突发流量集B;突发流量定义为一系列沿着同一方向传输的连续包,即使只有一个包也是一个突发流量;顶点集划分完后,得到K个突发流量,突发流量集B表示为(b1,b2,…,bi,…,bK);bi代表第i个突发流量,其中包含的顶点符号是相同的,同为正或同为负;
步骤5:添加突发流量内部的边;
突发流量内部边用于连接在同一突发流量bi中的顶点;遍历突发流量集B中的每一个突发流量bi,如果突发流量bi中顶点的个数大于1,则继续遍历突发流量bi中的顶点,然后,不断添加条边e用于连接vj和vj+1,之后将其添加到边集E中;最终,每个突发流量bi中添加的突发流量内部边的数量等于突发流量bi中顶点数量减1;
步骤6:添加突发流量间的边;
突发流量间的边用于连接当前突发流量bi与其前一突发流量bi-1;如果突发流量bi与突发流量bi-1中顶点个数都为1,此时仅添加一条边到边集E中,用于关联突发流量bi与突发流量bi-1;否则,添加两条边到边集E中,用于突发流量bi中的第一个和最后一个顶点连接到突发流量bi-1中对应的第一个和最后一个顶点;
步骤7:计算图结构特征G=(V,E),完成网络加密流量交互特征提取;
将提取出的网络加密流量交互特征与图神经网络相结合,能够更加准确地进行加密流量的细粒度识别。
CN202011134566.5A 2020-10-21 2020-10-21 一种基于图结构的互联网加密流量交互特征提取方法 Active CN112217834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011134566.5A CN112217834B (zh) 2020-10-21 2020-10-21 一种基于图结构的互联网加密流量交互特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011134566.5A CN112217834B (zh) 2020-10-21 2020-10-21 一种基于图结构的互联网加密流量交互特征提取方法

Publications (2)

Publication Number Publication Date
CN112217834A CN112217834A (zh) 2021-01-12
CN112217834B true CN112217834B (zh) 2021-06-18

Family

ID=74056423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011134566.5A Active CN112217834B (zh) 2020-10-21 2020-10-21 一种基于图结构的互联网加密流量交互特征提取方法

Country Status (1)

Country Link
CN (1) CN112217834B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553788A (zh) * 2022-02-18 2022-05-27 成都市联洲国际技术有限公司 流量分类的方法、装置、计算机可读存储介质和处理器
CN114710322B (zh) * 2022-03-15 2023-06-20 清华大学 基于流量交互图的隐蔽恶意流量检测方法和装置
CN115225584A (zh) * 2022-07-25 2022-10-21 南京邮电大学 一种基于图神经网络的加密流量分类方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878241A (zh) * 2015-12-18 2017-06-20 北京奇虎科技有限公司 恶意热点检测方法和系统
CN107370676A (zh) * 2017-08-03 2017-11-21 中山大学 一种融合QoS及负载均衡需求的路由选择方法
WO2018034681A1 (en) * 2016-08-13 2018-02-22 Intel Corporation Apparatuses, methods, and systems for access synchronization in a shared memory
CN108108844A (zh) * 2017-12-25 2018-06-01 儒安科技有限公司 一种城市人流量预测方法及系统
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器
CN110912933A (zh) * 2019-12-17 2020-03-24 中国科学院信息工程研究所 一种基于被动测量的设备识别方法
CN111526099A (zh) * 2020-03-25 2020-08-11 华东师范大学 基于深度学习的物联网应用流量检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3272096B1 (en) * 2015-03-17 2020-09-30 British Telecommunications public limited company Learned profiles for malicious encrypted network traffic identification
CN110197234B (zh) * 2019-06-13 2020-05-19 四川大学 一种基于双通道卷积神经网络的加密流量分类方法
CN110460502B (zh) * 2019-09-10 2022-03-04 西安电子科技大学 基于分布特征随机森林的vpn下应用程序流量识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878241A (zh) * 2015-12-18 2017-06-20 北京奇虎科技有限公司 恶意热点检测方法和系统
WO2018034681A1 (en) * 2016-08-13 2018-02-22 Intel Corporation Apparatuses, methods, and systems for access synchronization in a shared memory
CN107370676A (zh) * 2017-08-03 2017-11-21 中山大学 一种融合QoS及负载均衡需求的路由选择方法
CN108108844A (zh) * 2017-12-25 2018-06-01 儒安科技有限公司 一种城市人流量预测方法及系统
CN109450740A (zh) * 2018-12-21 2019-03-08 青岛理工大学 一种基于dpi和机器学习算法进行流量分类的sdn控制器
CN110912933A (zh) * 2019-12-17 2020-03-24 中国科学院信息工程研究所 一种基于被动测量的设备识别方法
CN111526099A (zh) * 2020-03-25 2020-08-11 华东师范大学 基于深度学习的物联网应用流量检测方法

Also Published As

Publication number Publication date
CN112217834A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN112217834B (zh) 一种基于图结构的互联网加密流量交互特征提取方法
CN109740541B (zh) 一种行人重识别系统与方法
CN104244035B (zh) 基于多层聚类的网络视频流分类方法
CN108595655B (zh) 一种基于会话特征相似性模糊聚类的异常用户检测方法
CN108920678A (zh) 一种基于谱聚类与模糊集的重叠社区发现方法
CN109951444A (zh) 一种加密匿名网络流量识别方法
US20140136538A1 (en) Method and Apparatus for Communications Analysis
CN103793476A (zh) 基于网络社区的协同过滤推荐方法
Jang et al. Top-$ k $ ranking from pairwise comparisons: When spectral ranking is optimal
CN110034966B (zh) 一种基于机器学习的数据流分类方法及系统
US20160170993A1 (en) System and method for ranking news feeds
CN104935570A (zh) 基于网络流连接图的网络流连接行为特征分析方法
CN110442618B (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
CN108540338A (zh) 基于深度循环神经网络的应用层通信协议识别的方法
CN108304476A (zh) 一种基于不确定数据表的用户画像数据整合方法及系统
CN101854330A (zh) 互联网的网络应用采集与分析方法及系统
CN110796182A (zh) 一种少量样本的票据分类方法及系统
CN112383488B (zh) 一种适用于加密与非加密数据流的内容识别方法
Esfandiari et al. Applications of uniform sampling: Densest subgraph and beyond
CN101540061A (zh) 基于模拟退火的无序图像拓扑有序化匹配方法
CN115348198B (zh) 基于特征检索的未知加密协议识别分类方法、设备及介质
CN112134847A (zh) 基于用户流量行为基线的攻击检测方法
Xu et al. Trafficgcn: Mobile application encrypted traffic classification based on gcn
CN114978593B (zh) 基于图匹配的不同网络环境的加密流量分类方法及系统
CN111310849A (zh) 一种基于knn的有效链路预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant