CN106533784A - 一种提高应用层流量分类准确率的方法 - Google Patents

一种提高应用层流量分类准确率的方法 Download PDF

Info

Publication number
CN106533784A
CN106533784A CN201611094416.XA CN201611094416A CN106533784A CN 106533784 A CN106533784 A CN 106533784A CN 201611094416 A CN201611094416 A CN 201611094416A CN 106533784 A CN106533784 A CN 106533784A
Authority
CN
China
Prior art keywords
application layer
traffic
roughness
layer traffic
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611094416.XA
Other languages
English (en)
Inventor
罗建桢
蔡君
戴青云
徐小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201611094416.XA priority Critical patent/CN106533784A/zh
Publication of CN106533784A publication Critical patent/CN106533784A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种提高应用层流量分类准确率的方法,其特征在于,主要包括以下步骤:第一步、将未知应用的应用层流量进行预处理,以作为基于粗糙集的流量特征建模的基础;第二步、基于粗糙集的流量特征进行建模;第三步、选取指导分类的属性;第四步、计算属性的总粗糙度;第五步、按照属性粗糙度对各类进行排序;第六步、根据粗糙度实施类进行分割;第七步、根据最小描述长度准则,确定最佳聚类簇数。该方法大大减少不相关流量造成的噪声影响,提高协议关键词提取的准确率,进而可为应用层流量识别、异常检测提供可靠而准确的流量特征。

Description

一种提高应用层流量分类准确率的方法
技术领域
本发明涉及一种提高应用层流量分类准确率的方法。
背景技术
协议逆向工程可自动化地为协议流量识别、入侵检测、协议规范重构等应用提供丰富而准确的协议基本组成要素和流量特征。提取协议关键词是协议逆向工程中最为关键的一项任务,是影响后续工作准确率和可靠程序的重要环节。协议关键词是协议中的常量字符串或协议的命令符等,例如,HTTP协议使用的请求方法“GET”、FTP的退出命令符“QUIT”等。在处理多种不同协议的混杂流量时,不同协议的关键出现的频率互相干扰,而现有的协议逆向工程技术大都基于词频挖掘协议关键词,因此,直接对混杂流量进行协议关键词提取的效果不理想。
现有未知流量的聚类都采用基于数值型特征的聚类算法。Erman等人采用基于K-means和DBSCAN的流量聚类方法,分析网络应用的通信特征。Erman等人还提出基于EM算法的无监督流量分类方法,用于对无标记的网络流量进行聚类分析,以根据相似性将网络流量分为不同的类别。这些工作都通过将流量特征转化为数值型特征,再定义流之间的相似度或距离,然后在k-means、EM等聚类算法的协助下进行流量聚类或分类的。流量特征在量化的过程中会出现信息损失或失真,影响聚类分析的准确性。为此,Mahmood等人提出一个用于处理混合类型特征(包括数值型特征、非数据值特征、层次化特征等)的流量聚类分析框架,然后他们只关注于分析流的网络层、传输层等简单的特征,例如采用的传输协议(UDP、TCP等),导致方法对应用层数据的分析准确性不高。Parmar等人提出一种最小化最小粗糙度(MMR)的非数值型数值处理方法,有效地展示和证明了粗糙集在处理非数值型特征的优势。
以上方法局限于处理网络流量的数值型特征,也没有考虑应用层网络流量中的非数值型特征具有大量的不确定性,因此不适用于分析未知应用流量的聚类分析。
发明内容
本发明针对现有技术的不足,提供一种提高应用层流量分类准确率的方法。本发明采用基于应用层网络流量聚类预处理的协议逆向分析的处理方法,针对应用层流量特征,采用适宜处理非数值型特征的聚类算法对流量进行预处理,得到由单一协议流量组成的子类,然后对各子类应用协议逆向分析技术进行处理。该方法针对应用层流量存在大量非数据型的特征的问题,引入粗糙集的理论和方法,充分利用粗糙集处理非数据值以及流量中的不确定信息,实现准确而有效的流量聚类分析。
为了达到上述目的,本发明一种提高应用层流量分类准确率的方法,主要包括以下步骤:
第一步、将未知应用的应用层流量进行预处理,以作为基于粗糙集的流量特征建模的基础;
第二步、基于粗糙集的流量特征进行建模;
第三步、选取指导分类的属性;
第四步、计算属性的总粗糙度;
第五步、按照属性粗糙度对各类进行排序;
第六步、根据粗糙度实施类进行分割;
第七步、根据最小描述长度准则,确定最佳聚类簇数。
本发明中,基于粗糙集的,适用于处理非数值型特征的未知流量聚类方法,模型的构建方法如下。
定义信息系统S,表示聚类分析对象,即未知应用的流量,则:
S=(X,Q,V,ρ),X={x1,x2,...,xn},q∈Q,
ρ:X×Q→V,ρ(x,q)∈Vq
其中x1,x2,...,xn表示网络流,X表示所示流的集合,q表示流的一个属性,Vq表示属性q的取值空间。
定义S上的等价关系(~):
定义下约集Δ Α(X)和上约集
定义评判X的准确性的参数:
其中,card(Δ Α(X))和分别表示Δ Α(X)和所包含的对象数量,0≤μΑ(X)≤1。
定义X的粗糙度为:
定义信息系统X的分类问题:
设F={C1,C2,…,Cn},
其中,Ci∩Cj=φ,且
那么有Δ(F)={Δ Α(C1),Δ Α(C2),…,Δ(Cn)};
定义分类的质量:
分类的准确度:
定义与属性ai∈Α相关的基集为:
定义粗糙度:
其中ai,aj∈Α且
ai相对于aj的平均粗糙度定义为:
ai的平均粗糙度定义为:
对于第三步中,选取用于指导分类的属性,选取的标准为:
对于第四步,计算a*的总粗糙度
对于第五步,对排序,得到
对于第六步,类划分,
给定定义
根据将类C分为两类,即划分的方法为:
对于第七步,根据最小描述长度原则确定聚类的最佳簇数。
其中,
于是有:
因此最佳的聚类簇数为:
优选地,所述第六步中,在未能确定最佳聚类簇数之前,则选取最大簇粗糙子类,然后返回第三步中,以再次对子类进行分类,簇粗糙度定义为:而后再次进行第四步、第五步、第六步和第七步。
优选地,所述聚类的过程一直进行到所设定的最大迭代数或是最大簇总数。
本发明基于粗糙集的未知应用层流量分析处理方法,提出一种提高应用层流量分类准确率的方法。应用层网络流量具有大量非数值型的特征,传统方法一般将这些非数值的特征量化,然后在数值空间进行聚类等分析工作。由于在量化过程中,非数值型特征会损失信息量或降低数据精度等,对后续的分析准确率会造成较大影响。本发明提出基于粗糙集理论分析未知网络应用的应用层网络载荷的多类别属性特征,采用粗糙集描述网络数据报文特征的多维度不确定信息,并使用最小描述长度原则确定流量聚类的最佳簇数,在此基础上,对每一类流量提取协议关键词,大大减少不相关流量造成的噪声影响,提高协议关键词提取的准确率,进而可为应用层流量识别、异常检测提供可靠而准确的流量特征。
附图说明
图1为本发明方法实施的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
参照图1,本发明实施例一种提高应用层流量分类准确率的方法,主要包括以下步骤:
第一步、将未知应用的应用层流量进行预处理,以作为基于粗糙集的流量特征建模的基础;
第二步、基于粗糙集的流量特征进行建模;
第三步、选取指导分类的属性;
第四步、计算属性的总粗糙度;
第五步、按照属性粗糙度对各类进行排序;
第六步、根据粗糙度实施类进行分割;
第七步、根据最小描述长度准则,确定最佳聚类簇数。
本发明中,基于粗糙集的,适用于处理非数值型特征的未知流量聚类方法,模型的构建方法如下。
定义信息系统S,表示聚类分析对象,即未知应用的流量,则:
S=(X,Q,V,ρ),X={x1,x2,…,xn},q∈Q,
ρ:X×Q→V,ρ(x,q)∈Vq
其中x1,x2,...,xn表示网络流,X表示所示流的集合,q表示流的一个属性,Vq表示属性q的取值空间。
定义S上的等价关系(~):
定义下约集Δ Α(X)和上约集
定义评判X的准确性的参数:
其中,card(Δ Α(X))和分别表示Δ Α(X)和所包含的对象数量,0≤μΑ(X)≤1。
定义X的粗糙度为:
定义信息系统X的分类问题:
设F={C1,C2,…,Cn},
其中,Ci∩Cj=φ,且
那么有Δ(F)={Δ Α(C1),Δ Α(C2),...,Δ(Cn)};
定义分类的质量:
分类的准确度:
定义与属性ai∈Α相关的基集为:
定义粗糙度:
其中ai,aj∈Α且
ai相对于aj的平均粗糙度定义为:
ai的平均粗糙度定义为:
对于第三步中,选取用于指导分类的属性,选取的标准为:
对于第四步,计算a*的总粗糙度
对于第五步,对排序,得到
对于第六步,类划分,
给定定义
根据将类C分为两类,即划分的方法为:
对于第七步,根据最小描述长度原则确定聚类的最佳簇数。
其中,
于是有:
因此最佳的聚类簇数为:
所述第六步中,在未能确定最佳聚类簇数之前,则选取最大簇粗糙子类,然后返回第三步中,以再次对子类进行分类,簇粗糙度定义为:而后再次进行第四步、第五步、第六步和第七步。所述聚类的过程一直进行到所设定的最大迭代数或是最大簇总数。
本发明基于粗糙集的未知应用层流量分析处理方法,提出一种提高应用层流量分类准确率的方法。应用层网络流量具有大量非数值型的特征,传统方法一般将这些非数值的特征量化,然后在数值空间进行聚类等分析工作。由于在量化过程中,非数值型特征会损失信息量或降低数据精度等,对后续的分析准确率会造成较大影响。本发明提出基于粗糙集理论分析未知网络应用的应用层网络载荷的多类别属性特征,采用粗糙集描述网络数据报文特征的多维度不确定信息,并使用最小描述长度原则确定流量聚类的最佳簇数,在此基础上,对每一类流量提取协议关键词,大大减少不相关流量造成的噪声影响,提高协议关键词提取的准确率,进而可为应用层流量识别、异常检测提供可靠而准确的流量特征。
以上已将本发明做一详细说明,但显而易见,本领域的技术人员可以进行各种改变和改进,而不背离所附权利要求书所限定的本发明的范围。

Claims (3)

1.一种提高应用层流量分类准确率的方法,其特征在于,主要包括以下步骤:
第一步、将未知应用的应用层流量进行预处理,以作为基于粗糙集的流量特征建模的基础;
第二步、基于粗糙集的流量特征进行建模;
第三步、选取指导分类的属性;
第四步、计算属性的总粗糙度;
第五步、按照属性粗糙度对各类进行排序;
第六步、根据粗糙度实施类进行分割;
第七步、根据最小描述长度准则,确定最佳聚类簇数。
2.根据权利要求1所述的一种提高应用层流量分类准确率的方法,其特征在于,所述第六步中,在未能确定最佳聚类簇数之前,则选取最大簇粗糙子类,然后返回第三步中,以再次对子类进行分类,而后再次进行第四步、第五步、第六步和第七步。
3.根据权利要求1所述的一种提高应用层流量分类准确率的方法,其特征在于,所述聚类的过程一直进行到所设定的最大迭代数或是最大簇总数。
CN201611094416.XA 2016-12-01 2016-12-01 一种提高应用层流量分类准确率的方法 Pending CN106533784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611094416.XA CN106533784A (zh) 2016-12-01 2016-12-01 一种提高应用层流量分类准确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611094416.XA CN106533784A (zh) 2016-12-01 2016-12-01 一种提高应用层流量分类准确率的方法

Publications (1)

Publication Number Publication Date
CN106533784A true CN106533784A (zh) 2017-03-22

Family

ID=58354765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611094416.XA Pending CN106533784A (zh) 2016-12-01 2016-12-01 一种提高应用层流量分类准确率的方法

Country Status (1)

Country Link
CN (1) CN106533784A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN113382039A (zh) * 2021-05-07 2021-09-10 中国科学院信息工程研究所 一种基于5g移动网络流量分析的应用识别方法和系统
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101707532A (zh) * 2009-10-30 2010-05-12 中山大学 一种未知应用层协议自动分析方法
CN102523167A (zh) * 2011-12-23 2012-06-27 中山大学 一种未知应用层协议报文格式的最佳分段方法
CN103870751A (zh) * 2012-12-18 2014-06-18 中国移动通信集团山东有限公司 入侵检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101707532A (zh) * 2009-10-30 2010-05-12 中山大学 一种未知应用层协议自动分析方法
CN102523167A (zh) * 2011-12-23 2012-06-27 中山大学 一种未知应用层协议报文格式的最佳分段方法
CN103870751A (zh) * 2012-12-18 2014-06-18 中国移动通信集团山东有限公司 入侵检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吕宗磊: "基于模态代表点的聚类评价方法", 《系统工程与电子技术》 *
张义荣: "一种基于粗糙集属性约简的支持向量异常入侵检测方法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110071845A (zh) * 2018-01-24 2019-07-30 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN110071845B (zh) * 2018-01-24 2021-09-10 中国移动通信有限公司研究院 一种对未知应用进行分类的方法及装置
CN113382039A (zh) * 2021-05-07 2021-09-10 中国科学院信息工程研究所 一种基于5g移动网络流量分析的应用识别方法和系统
CN113382039B (zh) * 2021-05-07 2023-01-13 中国科学院信息工程研究所 一种基于5g移动网络流量分析的应用识别方法和系统
CN113378557A (zh) * 2021-05-08 2021-09-10 重庆邮电大学 一种基于容错粗糙集的自动关键字提取方法、介质及系统

Similar Documents

Publication Publication Date Title
CN104778481B (zh) 一种大规模人脸模式分析样本库的构建方法和装置
CN110348441B (zh) 增值税发票识别方法、装置、计算机设备及存储介质
CN108171184A (zh) 基于Siamese网络的用于行人重识别的方法
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN113435546B (zh) 基于区分置信度水平的可迁移图像识别方法及系统
CN109981625B (zh) 一种基于在线层次聚类的日志模板抽取方法
CN104991968A (zh) 基于文本挖掘的互联网媒体用户属性分析方法
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN107145778B (zh) 一种入侵检测方法及装置
CN107465643A (zh) 一种深度学习的网络流量分类方法
CN106533784A (zh) 一种提高应用层流量分类准确率的方法
CN110472652A (zh) 基于语义引导的少量样本分类方法
CN111866196A (zh) 一种域名流量特征提取方法、装置、设备及可读存储介质
CN106878242B (zh) 一种确定用户身份类别的方法及装置
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN110780965A (zh) 基于视觉的流程自动化方法、设备及可读存储介质
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
CN106446124A (zh) 一种基于网络关系图的网站分类方法
WO2024031930A1 (zh) 一种异常日志检测方法、装置、电子设备及存储介质
JPWO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
CN110942063B (zh) 证件文字信息获取方法、装置以及电子设备
CN112347254A (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
TW202111569A (zh) 高擴展性、多標籤的文本分類方法和裝置
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322

RJ01 Rejection of invention patent application after publication