CN103067300A - 网络流量自动化特征挖掘方法 - Google Patents

网络流量自动化特征挖掘方法 Download PDF

Info

Publication number
CN103067300A
CN103067300A CN2013100080270A CN201310008027A CN103067300A CN 103067300 A CN103067300 A CN 103067300A CN 2013100080270 A CN2013100080270 A CN 2013100080270A CN 201310008027 A CN201310008027 A CN 201310008027A CN 103067300 A CN103067300 A CN 103067300A
Authority
CN
China
Prior art keywords
feature
frequent
class
network flow
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100080270A
Other languages
English (en)
Other versions
CN103067300B (zh
Inventor
薛一波
袁振龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201310008027.0A priority Critical patent/CN103067300B/zh
Publication of CN103067300A publication Critical patent/CN103067300A/zh
Application granted granted Critical
Publication of CN103067300B publication Critical patent/CN103067300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对网络流量的自动化特征挖掘方法,包括步骤:S1:网络流量数据的预处理;S2:最高支持度频繁项挖掘;S3:依据频繁项层次化迭代聚类;S4:按层次分级输出有效特征组合。本发明的方法可以应用于自动化网络流量特征挖掘,不仅可以自动挖掘出网络流量中数据包载荷里所存在的强特征,而且还可以挖掘出网络流量中所存在的流特征;该发明解决了传统流量特征挖掘耗时耗力问题,大幅减少了人工参与的程度,同时在性能上能够很好地应用到实际的网络流量特征挖掘中去。

Description

网络流量自动化特征挖掘方法
技术领域
本发明涉及网络流量技术领域,特别涉及一种网络流量自动化特征挖掘方法。
背景技术
自动化特征挖掘是网络流量分类技术领域中存在的基本问题之一。其需要解决的问题就是快速而准确地自动化式挖掘出不同应用产生的网络流量所存在的特征,以便于更好地管理和监控互联网网络。
在计算机科学以及数据挖掘领域中,Apriori是关联式规则中的经典算法之一。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。
随着计算机网络的普及,网络应用的数量日益增长,新的版本、新的应用给网络流量的管理和监控带来了愈来愈多的困难,也给强特征识别这种当前在互联网流量管理中起主要作用的流量识别手段带来很大的挑战。而这其中,最关键的问题是依赖传统的人工搜寻众多应用强特征的方法十分耗时、耗力,因此人们开始急需一种自动化的特征挖掘方法,以跟上众多应用不同版本下流量特征快速变化的特点。
因此,如何设计一种自动化特征挖掘的方法成为了当前网络流量管理和监控的核心问题。尽管Apriori算法作为挖掘大量数据下频繁项的有力方法符合我们在解决自动化特征挖掘难题中的部分需求。但是产生大量的候选集以及需要重复扫描数据库一直是Apriori算法的两大缺点,这两点缺点严重影响了在网络流量特征自动化挖掘中的效能。
因此,我们迫切需要引入新的思路和方法,来解决自动化特征挖掘算法中存在的效果和性能双重问题,使之更适用于帮助我们对网络流量的自动化分析和管控。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是,针对现有技术不足,提供一种网络流量自动化特征挖掘方法,可有效地自动化挖掘网络流量中所存在的特征(包括载荷特征和统计特征),减少人工参与的程度。
(二)技术方案
本发明提供一种网络流量自动化特征挖掘方法,包括步骤:S1:网络流量数据的预处理;S2:最高支持度频繁项挖掘;S3:依据频繁项层次化迭代聚类;S4:按层次分级输出有效特征组合。
其中,S1包括:S1.1:捕获网络流量信息;S1.2:预处理捕获流量,提取其流量载荷特征和流特征;S1.3:格式化打印输出已提取的载荷特征和流特征。
其中,S1.1包括:S1.1.1:利用Wireshark或者Tcpdump抓包软件或工具在本机或出口网关上捕获网络流量;S1.1.2:根据流量过滤规则过滤出指定应用的网络流量。
其中,S1.2包括:S1.2.1:将已得到的网络流量输入libnids流量处理系统中;载荷特征为数据包载荷部分的字节值,流特征为网络流的统计特征,如数据包包长。
其中,S1.3包括:S1.3.1:将提取到的网络流中每个数据包的载荷的每个字节转换为两位16进制表示,并分别添加三位16进制数表示每个字节在所属数据包中全部载荷内的序号位置,注意将同属一个数据包载荷部分的数据排列成一行,这样对于N个数据包则存在N行数据,其中每行数据中每一列均为5位16进制数;S1.3.2:将提取到的网络流中的流特征,如数据包包长大小,也转换为三位16进制数表示,并分别添加四位16进制数表示每个数据包在五元组网络流中的序号位置,注意将同属一个网络流的数据排列成一行,这样对于N条网络流则存在N行数据,其中每行数据中每一列均为7位16进制数。
其中,S2包括:S2.1:利用Apriori算法计算针对载荷特征的N行数据或者针对流特征的N行数据的最高支持度的频繁项;S2.2:根据S2.1计算得到的最高支持度的频繁项,将所有包含此频繁项的行聚为一类,并将其设为A类,将其余不包含此最高支持度频繁项的行聚为另一类,并将其设为B类;S2.3:将S2.2中得到的B类再次利用Apriori算法计算其最高支持度的频繁项,并将包含此频繁项的行聚为一类,将其设为C类,将所述B类中不包含此最高支持度频繁项的行聚为另一类,并将其设为D类;S2.4:每次将不包含最高支持度频繁项的类重复执行S2.3,直到全部行聚类完成,且每类中高支持度频繁项的支持度均为1。
其中,在S3中:S3.1:设在S2中所有行共聚为M类,对于M类中的每一类再继续重复执行S2,此时再计算最高支持度时仍须排除前面已被找到并据此聚类的频繁项;S3.2:第一次执行S2得到的为自动化特征挖掘的第一层特征数据,第二次对于M类中每一类执行S2的得到的为自动化特征挖掘的第二层特征数据,以此类推,直到迭代完成至无法继续聚类。
其中,S4包括:S4.1:保存S2和S3执行过程中每一类的最高支持度频繁项及其所存在于的特征行数目大小;S4.2:展示步骤S4.1得到的各项层级数据,同时可根据阈值智能提取能覆盖所有N行数据比例超过阈值的所有有效特征组合并输出。
(三)有益效果
本发明的方法可以应用于网络流量分析中的自动化特征挖掘,该方法可以自动挖掘出网络流量里所存在的载荷特征和统计特征,其中包括带有间隔的强特征序列。此发明在减少人工参与、解决传统特征挖掘耗时耗力问题的同时,还从效果和速度两方面性能上相对原始的Apriori算法有了很大提升,不仅能够合理地展示网络流量中所存在的各项特征,而且处理数据的时间复杂度远小于Apriori算法,能够很好地应用到实际的网络流量特征挖掘中去。
附图说明
图1为本发明网络流量自动化特征挖掘方法步骤流程图;
图2为本发明网络流量自动化特征挖掘方法中格式化输入数据示意图;
图3为本发明网络流量自动化特征挖掘结果简化示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明提供的网络流量自动化特征挖掘方法,包括步骤:
S1:网络流量数据的预处理,其结果如图2所示;
S2:最高支持度频繁项挖掘;
S3:依据频繁项层次化迭代聚类;
S4:按层次分级输出有效特征组合,其可视化结果如图3所示。
其中,S1包括:
S1.1:捕获网络流量信息;
S1.2:预处理捕获流量,提取其流量载荷特征和流特征;
S1.3:格式化打印输出已提取的载荷特征和流特征。
其中,S1.1包括:
S1.1.1:利用Wireshark或者Tcpdump抓包软件或工具在本机或出口网关上捕获网络流量;(Wireshark是一个网络封包分析软件。网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析;它支持针对网络层、协议、主机、网络或端口的过滤,并提供and、or、not等逻辑语句来帮助你去掉无用的信息。)
S1.1.2:根据流量过滤规则过滤出指定应用的网络流量。
其中,S1.2包括:
S1.2.1:将已得到的网络流量输入libnids流量处理系统中;
S1.2.2:提取特定五元组网络流的特征,特征分为载荷特征和流特征,载荷特征为数据包载荷部分的字节值,流特征为网络流的统计特征,如数据包包长;
其中,S1.3包括:
S1.3.1:将提取到的网络流中每个数据包的载荷的每个字节转换为两位16进制表示,例如0x31代表该字节值为数字“1”(根据ASCII码表),并分别添加三位16进制数表示每个字节在所属数据包中全部载荷内的序号位置,例如载荷部分第一个字节表示为0x000,注意将同属一个数据包载荷部分的数据排列成一行,这样对于N个数据包则存在N行数据,其中每行数据中每一列均为5位16进制数,即00031(代表一个字节的载荷特征);
S1.3.2:将提取到的网络流中的流特征,如数据包包长大小,也转换为三位16进制数表示,例如0x010,并分别添加四位16进制数表示每个数据包在五元组网络流中的序号位置,例如第5个数据包表示为0x0004,注意将同属一个网络流的数据排列成一行,这样对于N条网络流则存在N行数据,其中每行数据中每一列均为7位16进制数,即0004010(代表一个数据包的统计特征)。
其中,S2包括:
S2.1:利用Apriori算法计算针对载荷特征的N行数据或者针对流特征的N行数据的最高支持度的频繁项(S2.1步骤后载荷特征和流特征统称为特征);
S2.2:根据S2.1计算得到的最高支持度的频繁项,将所有包含此频繁项的行聚为一类,并将其设为A类,将其余不包含此最高支持度频繁项的行聚为另一类,并将其设为B类;
S2.3:将S2.2中得到的B类再次利用Apriori算法计算其最高支持度的频繁项(注意此次计算最高支持度时须排除前面操作已被找到并据此聚类的频繁项),并将包含此频繁项的行聚为一类,将其设为C类,将B类中不包含此最高支持度频繁项的行聚为另一类,并将其设为D类;
S2.4:每次将不包含最高支持度频繁项的类重复执行S2.3,直到全部行聚类完成,且每类中高支持度频繁项的支持度均为1。
其中,S3中:
S3.1:设在S2中所有行共聚为M类,那么对于M类中的每一类再继续重复执行S2,注意此时再计算最高支持度时仍须排除前面已被找到并据此聚类的频繁项;
S3.2:第一次执行S2得到的为自动化特征挖掘的第一层特征数据,第二次对于M类中每一类执行S2的得到的为自动化特征挖掘的第二层特征数据,以此类推,直到迭代完成至无法继续聚类。
其中,S4包括:
S4.1:保存S2和S3执行过程中每一类的最高支持度频繁项及其所存在于的特征行数目大小;
S4.2:可视化展示步骤S4.1得到的各项层级数据,同时可根据阈值(覆盖N行特征的比例大小,例如0.98)智能提取能覆盖所有N行数据比例超过阈值的所有有效特征组合并输出,例如载荷特征00202和载荷特征00203覆盖了超过98%的数据包,那么我们便可以将00202和00203作为网络流量中识别此应用的特征。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (8)

1.一种网络流量自动化特征挖掘方法,其特征在于,包括步骤:
S1:网络流量数据的预处理;
S2:最高支持度频繁项挖掘;
S3:依据频繁项层次化迭代聚类;
S4:按层次分级输出有效特征组合。
2.如权利要求1所述的方法,其特征在于,S1包括:
S1.1:捕获网络流量信息;
S1.2:预处理捕获流量,提取其流量载荷特征和流特征;
S1.3:格式化打印输出已提取的载荷特征和流特征。
3.如权利要求2所述的方法,其特征在于,S1.1包括:
S1.1.1:利用Wireshark或者Tcpdump抓包软件或工具在本机或出口网关上捕获网络流量;
S1.1.2:根据流量过滤规则过滤出指定应用的网络流量。
4.如权利要求2所述的方法,其特征在于,S1.2包括:
S1.2.1:将已得到的网络流量输入libnids流量处理系统中;
S1.2.2:提取特定五元组网络流的特征,特征分为载荷特征和流特征,载荷特征为数据包载荷部分的字节值,流特征为网络流的统计特征,如数据包包长;
5.如权利要求2所述的方法,其特征在于,S1.3包括:
S1.3.1:将提取到的网络流中每个数据包的载荷的每个字节转换为两位16进制表示,并分别添加三位16进制数表示每个字节在所属数据包中全部载荷内的序号位置,注意将同属一个数据包载荷部分的数据排列成一行,这样对于N个数据包则存在N行数据,其中每行数据中每一列均为5位16进制数。
S1.3.2:将提取到的网络流中的流特征,如数据包包长大小,也转换为三位16进制数表示,并分别添加四位16进制数表示每个数据包在五元组网络流中的序号位置,注意将同属一个网络流的数据排列成一行,这样对于N条网络流则存在N行数据,其中每行数据中每一列均为7位16进制数。
6.如权利要求1所述的方法,其特征在于,S2包括:
S2.1:利用Apriori算法计算针对载荷特征的N行数据或者针对流特征的N行数据的最高支持度的频繁项;
S2.2:根据S2.1计算得到的最高支持度的频繁项,将所有包含此频繁项的行聚为一类,并将其设为A类,将其余不包含此最高支持度频繁项的行聚为另一类,并将其设为B类;
S2.3:将S2.2中得到的B类再次利用Apriori算法计算其最高支持度的频繁项,并将包含此频繁项的行聚为一类,将其设为C类,将所述B类中不包含此最高支持度频繁项的行聚为另一类,并将其设为D类;
S2.4:每次将不包含最高支持度频繁项的类重复执行S2.3,直到全部行聚类完成,且每类中高支持度频繁项的支持度均为1。
7.如权利要求1所述的方法,其特征在于,在S3中:
S3.1:设在S2中所有行共聚为M类,对于M类中的每一类再继续重复执行S2,此时再计算最高支持度时仍须排除前面已被找到并据此聚类的频繁项;
S3.2:第一次执行S2得到的为自动化特征挖掘的第一层特征数据,第二次对于M类中每一类执行S2的得到的为自动化特征挖掘的第二层特征数据,以此类推,直到迭代完成至无法继续聚类。
8.如权利要求1所述的方法,其特征在于,S4包括:
S4.1:保存S2和S3执行过程中每一类的最高支持度频繁项及其所存在于的特征行数目大小;
S4.2:展示步骤S4.1得到的各项层级数据,同时可根据阈值智能提取能覆盖所有N行数据比例超过阈值的所有有效特征组合并输出。
CN201310008027.0A 2013-01-09 2013-01-09 网络流量自动化特征挖掘方法 Active CN103067300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310008027.0A CN103067300B (zh) 2013-01-09 2013-01-09 网络流量自动化特征挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310008027.0A CN103067300B (zh) 2013-01-09 2013-01-09 网络流量自动化特征挖掘方法

Publications (2)

Publication Number Publication Date
CN103067300A true CN103067300A (zh) 2013-04-24
CN103067300B CN103067300B (zh) 2016-04-20

Family

ID=48109768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310008027.0A Active CN103067300B (zh) 2013-01-09 2013-01-09 网络流量自动化特征挖掘方法

Country Status (1)

Country Link
CN (1) CN103067300B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492655A (zh) * 2017-09-11 2019-03-19 中国移动通信有限公司研究院 一种特征提取方法、装置及终端
CN110138638A (zh) * 2019-05-16 2019-08-16 恒安嘉新(北京)科技股份公司 一种网络流量的处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640666A (zh) * 2008-08-01 2010-02-03 北京启明星辰信息技术股份有限公司 一种面向目标网络的流量控制装置及方法
US20120041979A1 (en) * 2010-08-12 2012-02-16 Industry-Academic Cooperation Foundation, Yonsei University Method for generating context hierarchy and system for generating context hierarchy
CN102420723A (zh) * 2011-12-14 2012-04-18 南京邮电大学 一种面向多类入侵的异常检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101640666A (zh) * 2008-08-01 2010-02-03 北京启明星辰信息技术股份有限公司 一种面向目标网络的流量控制装置及方法
US20120041979A1 (en) * 2010-08-12 2012-02-16 Industry-Academic Cooperation Foundation, Yonsei University Method for generating context hierarchy and system for generating context hierarchy
CN102420723A (zh) * 2011-12-14 2012-04-18 南京邮电大学 一种面向多类入侵的异常检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张健: "关联分类算法研究及其系统实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *
赵龙: "基于负关联规则分类技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492655A (zh) * 2017-09-11 2019-03-19 中国移动通信有限公司研究院 一种特征提取方法、装置及终端
CN110138638A (zh) * 2019-05-16 2019-08-16 恒安嘉新(北京)科技股份公司 一种网络流量的处理方法及装置
CN110138638B (zh) * 2019-05-16 2021-07-27 恒安嘉新(北京)科技股份公司 一种网络流量的处理方法及装置

Also Published As

Publication number Publication date
CN103067300B (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN102938708B (zh) 基于告警传播模式的告警相关性分析系统及其分析方法
CN107229751A (zh) 一种面向流式数据的并行增量式关联规则挖掘方法
CN107577771A (zh) 一种大数据挖掘系统
CN108768986A (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN106709035A (zh) 一种电力多维全景数据的预处理系统
CN107944705B (zh) 一种基于模块度划分通信社团的全端可靠性计算方法
CN107611962B (zh) 电网系统支路搜索方法、系统及电子设备
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN103902591A (zh) 构建决策树分类器的方法及装置
CN108664635B (zh) 数据库统计信息的获取方法、装置、设备和存储介质
CN112487033A (zh) 一种面向数据流及构建网络拓扑的业务可视化方法及系统
CN111711677A (zh) 智能变电站过程层交换机虚实回路可视化方法、系统及介质
CN109325062A (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
CN108427753A (zh) 一种新的数据挖掘方法
CN113409555A (zh) 一种基于物联网的实时报警联动方法及系统
CN102609501A (zh) 一种基于实时历史数据库的数据清洗方法
CN102663083A (zh) 基于分布式计算的大规模社交网络信息抽取方法
CN110287237B (zh) 一种基于社会网络结构分析社团数据挖掘方法
CN103067300A (zh) 网络流量自动化特征挖掘方法
CN112765313B (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
CN110046265B (zh) 一种基于双层索引的子图查询方法
Xing et al. Discovering traffic outlier causal relationship based on anomalous DAG
CN108243058A (zh) 一种基于告警定位故障的方法和装置
CN113706459B (zh) 一种自闭症患者异常脑区的检测及模拟修复装置
CN106550387B (zh) 一种无线传感器网络路由层服务质量评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant