CN106060039B - 一种面向网络异常数据流的分类检测方法 - Google Patents
一种面向网络异常数据流的分类检测方法 Download PDFInfo
- Publication number
- CN106060039B CN106060039B CN201610370689.6A CN201610370689A CN106060039B CN 106060039 B CN106060039 B CN 106060039B CN 201610370689 A CN201610370689 A CN 201610370689A CN 106060039 B CN106060039 B CN 106060039B
- Authority
- CN
- China
- Prior art keywords
- classification
- data stream
- network
- data
- constraint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1458—Denial of Service
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
在面向大规模数据流的监控应用中,为了使管理更加高效,必须针对异常数据流的特征进行准确的在线识别。由于网络数据流在大规模网络实时环境中具有多维异构的特点,对异常数据流的挖掘必须使用较高的计算性能和较小的计算开销来满足所有符合匹配规则的异常数据流。本发明提出了一种面向异常数据流层次聚类挖掘算法,这种算法能够很好的适应多源异构环境下的异常流。挖掘算法主要包括两个部分,约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并,约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作,防止类别间的过早聚类所产生分析误差。实验表明,该算法在挖掘异常数据流中相比其他分类检测算法具有较高的精确度。
Description
技术领域
本发明涉及网络安全研究领域,具体涉及通过一种异常数据流分类方法对网络数据流进行检测并对异常流量进行稳定的分类。
背景技术
随着大数据技术的逐渐发展,企业大数据处理水平不断提高,面向企业的大规模数据流逐渐出现多源异构等特点.一些大型企业集团开始重视面向在线数据流的监控和挖掘以及相关技术的实现。因此,数据流挖掘技术在大数据环境下针对不同属性维度的数据流具有广泛的应用前景;通过数据流挖掘能够客观的评估数据流状态并预测数据流趋势。需要训练的数据流持续不断的经过在线检测系统,系统需要将原来的学习结果和实时的训练结果进行有效的综合,并能够保证系统的计算能力和知识发现的准确度。最后,在原有的异常判断规则中添加新的异常检测规则。
近年来,国内外针对异常流检测和分析的相关研究工作不断增多。根据不同的类型的数据源,检测范围和不同层面的流量异常检测内容,研究人员使用多种研究方法从数据流量属性特征出发,对异常数据流进行多维多层次的分析。
数据包和网络流量是异常数据流挖掘技术主要研究的基本单位,数据流挖掘技术的主要研究方法包括近似技术、滑动窗口技术、衰减因子以及自适应技术。其中,自适应技术是目前流挖掘技术的主要研究方向。从数据流的多维特征中提取出某种异常流量形式的特征流,结合其他大规模数据流的正常行为模式,从而确定网络流量的异常行为。例如,一些畸形的大规模流量从固定的几个源端口发送出去,这种流量异常所体现的网络行为代表的某种蠕虫特征,常见于flash堵塞和DDos中。
本文发明一种面向网络异常数据流的分类检测方法,这种方法能够很好的适应多源异构网络环境下的异常数据流。挖掘检测方法主要包括两个部分,约束归并和层次聚类。算法将数据流进行嵌套层次聚类的同时进行约束归并,约束归并主要将聚类的数据流进行必连和不连约束并将约束进行闭包操作,防止类别间的过早聚类所产生分析误差。实验表明,该方法在挖掘异常数据流中相比其他流挖掘算法具有较高的精确度。发明中所使用的一些技术原理如下。
1、约束传递原理
在数据挖掘思想中,半监督学习要求不仅使用标记数据集进行分析,而且通过标记数据集产生的分类模式能够合理的引导未经标识的数据集进行数据挖掘。
半监督层次聚类算法使用了必连和不连两种约束。算法的主要思想是:首先对符合必连约束的数据集划分为数据类别M1,…Mr,对于不涉及必连约束的数据样本集合划分类别为C1,…Cr。之后通过输入初始化类别和相似度测量来运行层次化聚类算法。与标准的层次聚类算法不同的是,如果Ca与Cb之间的所有样本点不存在满足不连约束的点,则与Cb可以进行合并,否则寻找次小的两个类别。如果不存在两个类别,则算法终止。
由于半监督层次聚类算法对类别进行初始化约束判断,对于层次聚类的效果具有一定的影响,具有必连约束的类别不一定是最近,有可能最远,对于新产生类别的中心点有可能与其他类别重合,降低挖掘精度。因此,引入约束的思想动态变换类间的约束。
由同类传递和异类传递的原理可知,对于必连约束集合μ和不连约束集合有其中约束集合μ和是一个闭包是指μ是一个同类闭包同时是一个异类闭包。
同类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在必连约束集合中。
异类闭包是指所有可以通过传递规则推断的集合可以最终推断并包含在不连约束集合中。
2、约束归并方法
给定需要合并的类别C1和C2,合并结果C∪,必连约束集合μ和不连约束集合
步骤1.对满足(C1,Ck)∈μ或(C2,Ck)∈μ,则将(C∪,Ck)加入μ,即μ=μ∪(C∪,Ck);
步骤2.对满足或则将(C∪,Ck)加入即
步骤3.分别计算与C1和C2满足必连约束的集合μ1和μ2,以及满足不连约束的集合和并进行如下操作:
将(Ck,Cs)加入即
将(Ck,Cs)加入即
将(Ck,Cs)加入μ,即μ=μ∪(Ck,Cs)。
步骤4.从μ和中将所有关于C1或C2的约束去除;
步骤5.返回归并后的必连和不连约束集合μ和
半监督层次聚类要求数据源同时包含标记数据的训练集和未标记数据的测试集,由于网络异常通常表现为极大的多样性:在种类上包括扫描、DDos、蠕虫以及网络堵塞等。系统可以通过训练数据流进行初始化分类为这些异常,并通过测试数据流更加精确的对数据流进行分类处理。
发明内容
本发明使用的网络数据流检测分类方法包含三个主要步骤:将约束数据流关联,数据流特征属性聚类,约束归并。首先将所有的必连约束数据流集和不连约束数据流集进行闭包关联,对数据流聚类需要计算训练数据集的相似度,同时在构建聚类树时完成约束规则的动态更新。
一种面向网络异常数据流的分类检测方法,该方法包括:
步骤一:对网络异常数据流开始分类检测,判断是否符合数据流约简要求,如果是,则执行步骤二;如果否,则返回;
步骤二:使用自定义向量因子约简数据流集,
步骤三:关联数据流集合约束控制矩阵;
步骤四:计算类间相似度并选出相似度最小的一对数据集,将该数据集合并为新的集合,更新数据流集,并更新约束控制矩阵;
步骤五:判断是否满足聚类停止条件,如果是,则输出异常流聚类树状图,结束算法分类检测过程,如果否,则返回步骤三。
附图说明
图1分类检测方法流程;
图2针对不同异常数据流的检测效果;
图3不同算法对数据流的分类性能。
具体实施方式
在多源异构的网络环境中,对于异常流量的准确分析和判断有助于网络管理人员及时做出应急响应措施。本文通过从网络原始流量中收集的流量数据和具有标识的网络流数据,从训练数据集和测试数据集两个角度进行半监督聚类分析,将相似的数据流归为一类。为了提高聚类结果的精确性,通过类间约束更新能够较为有效的提高层次聚类合并的准确度,并防止聚类之间的过早合并所产生的分类误差。图1为分类检测方法的流程。
表1描述了实验过程所使用的数据集信息。训练数据流使用的是在某商业网链路上搜集一个月的流量记录。恶意异常流量数据采用CAIDA组织收集到的Witty蠕虫数据、DDOS数据以及Conficker蠕虫数据。
表1数据集统计信息表
其中,Witty和Conficker蠕虫数据流量使用工具Telescope采集,DDOS数据是针对某主干链路采集到的一次ICMP DDOS攻击。原始背景训练数据流是通过流量收集的方式进行数据收集,在商业网中异常流量相对于背景流量总体较少,不利于流量挖掘算法对其进行分析。因此,实验使用异常数据流注入的方式改善原始数据的总体特征效果。由于原始数据集过于庞大,为了对系统进行验证,从各数据代表集中选取具有代表性的15%数据集作为测试。
表2给出了在评价指标下算法的分类效果,其中可以看出DDos与蠕虫的分类误判率较低,精确度较高。说明算法可以有效的对这两种攻击特征属性进行聚类划分。针对链路失效的分类效果同时可以达到85.5%,说明针对特征向量以及分析视角的选择对分类结果的精确度有一定的影响力。
表2算法分类效果表
图2为算法在针对不同异常数据流中识别效果,通过注入异常数据流来确定算法的识别精度。从图中可以看出,当异常数据流注入比例达到%6时对异常的识别效果达到最优,接近%100。当异常数据流小于%6时,算法识别效果较低,误判率较高,检测准确率在%40-%80。因此,算法检测精度可以定义为%6。
图3选取人工注入的背景数据流集进行算法分类性能比较。并使用COP-KMEANS和C-DBSCAN算法。由于数据集数据规模以及不同分析视图下数据特征属性存在一定的差别,CM-HC算法在异常环境下的分类表现存在一定的差异。从图中可以看出CM-HC算法分类精度相对而言较高,从而避免了类间过早合并,在大数据流环境下可以稳定的进行分类操作。
通过与其他相似聚类算法的类比表明,当约束数量达到一定数值时,算法可以达到比较理想的效果。基于约束归并的层次聚类算法在分类精度上相比其他算法具有较高的准确性和较强的稳定性。
1、可以将网络数据流定义为多元组表示,并将重要的数据流特征定义为元组属性,本文使用元组形式为I=(sIP,dIP,sPort,dPort,Protocol)其中,sIP和dIP为数据流源IP地址和目的IP地址,sPort和dPort为数据流源端口和目的端口,Protocol为数据流所使用的协议类型。
2、使用基于向量因子对属性元组进行约简,令向量因子为X=(x1,x2,x3,x4,x5),更新后得到数据流元组表示为I1=I·X,得到数据流属性元组的通俗表示形式。
3、定义算法过程使用的约束控制矩阵Conj(i,j),Conj(i,j)的表示形式如下:
其中dij为类间相似度测距,δ为约束控制标准。Conj(i,j)为1时xi与xj一定同一个簇,此时类间关系为必连。当Conj(i,j)为-1时一定属于不同的簇,此时类间关系为不必连。δ的计算方法可以根据不同的需求自行进行设定,本发明使用计算方法如下:
其中k为更新后需要进行约束判断的类别,n为数据流样本点个数。
4、层次聚类停止条件为S,S计算方式如下:
S=||Cm|-|Cn||
其中|Cm|和|Cn|分别为必连约束集Cm和不必连约束集Cn中的势。
具体算法过程如下所示:
将经过约简的数据流样本集元组X和向量因子矩阵Conj(i,j)以及需要聚类的个数作为输入参数,定义ConstrainedMergeFlow函数作为异常流量分类检测的核心过程。具体实现算法的部分伪代码如下:
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种面向网络异常数据流的分类检测方法,该方法包括:
步骤一:对网络异常数据流开始分类检测,判断是否符合数据流约简要求,如果是,则执行步骤二;如果否,则返回;
步骤二:使用自定义向量因子约简数据流集;
步骤三:关联数据流集和约束控制矩阵,其关联关系为:C1=X·Conj;然后通过定义的δ更新C1中的必连元组;
步骤四:计算类间相似度并选出相似度最小的一对数据集,将该数据集合并为新的集合,移除原始数据流集,更新数据流集,并更新约束控制矩阵;
步骤五:判断是否满足聚类停止条件,如果是,则输出异常流聚类树状图,结束算法分类检测过程,如果否,则返回步骤三;
所述约束控制矩阵Conj(i,j),Conj(i,j)的表示形式如下:
其中dij为类间相似度测距,δ为约束控制标准;Conj(i,j)为1时xi与xj一定同一个簇,此时类间关系为必连;当Conj(i,j)为-1时一定属于不同的簇,此时类间关系为不必连;其中,xi和xj表示不同的数据流簇集合。
2.根据权利要求1所述的一种面向网络异常数据流的分类检测方法,其特征在于:该网络异常数据流定义为多元组表示,使用元组形式为:
I=(sIP,dIP,sPort,dPort,Protocol),
其中,sIP和dIP为数据流源IP地址和目的IP地址,sPort和dPort为数据流源端口和目的端口,Protocol为数据流所使用的协议类型。
3.根据权利要求2所述的一种面向网络异常数据流的分类检测方法,其特征在于:该网络数据流重要特征定义为元组属性。
4.根据权利要求1所述的一种面向网络异常数据流的分类检测方法,其特征在于:所述δ为:
其中n为数据流样本点个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610370689.6A CN106060039B (zh) | 2016-05-27 | 2016-05-27 | 一种面向网络异常数据流的分类检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610370689.6A CN106060039B (zh) | 2016-05-27 | 2016-05-27 | 一种面向网络异常数据流的分类检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106060039A CN106060039A (zh) | 2016-10-26 |
CN106060039B true CN106060039B (zh) | 2019-08-23 |
Family
ID=57173141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610370689.6A Expired - Fee Related CN106060039B (zh) | 2016-05-27 | 2016-05-27 | 一种面向网络异常数据流的分类检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106060039B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106850336B (zh) * | 2016-12-28 | 2019-12-03 | 中国科学院信息工程研究所 | 一种监控系统的数据流合并方法及服务端 |
CN107483455B (zh) * | 2017-08-25 | 2020-07-14 | 国家计算机网络与信息安全管理中心 | 一种基于流的网络节点异常检测方法和系统 |
CN107846326B (zh) * | 2017-11-10 | 2020-11-10 | 北京邮电大学 | 一种自适应的半监督网络流量分类方法、系统及设备 |
CN109274673B (zh) * | 2018-09-26 | 2021-02-12 | 广东工业大学 | 一种网络流量异常检测和防御方法 |
CN112511322B (zh) * | 2019-09-16 | 2023-06-02 | 北京车和家信息技术有限公司 | 一种通信异常诊断方法、装置及车辆 |
CN111191742B (zh) * | 2020-02-11 | 2024-05-31 | 天津师范大学 | 一种用于多源异构数据流的滑动窗口长度自适应调整方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400152A (zh) * | 2013-08-20 | 2013-11-20 | 哈尔滨工业大学 | 基于分层聚类的滑动窗口多数据流异常检测方法 |
CN103886007A (zh) * | 2013-12-20 | 2014-06-25 | 广西大学 | 一种基于相互约束的模糊数据分类方法 |
CN105049286A (zh) * | 2015-07-21 | 2015-11-11 | 国家计算机网络与信息安全管理中心 | 基于层次聚类的云平台测速数据判定方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101761737B1 (ko) * | 2014-05-20 | 2017-07-26 | 한국전자통신연구원 | 제어 시스템의 이상행위 탐지 시스템 및 방법 |
-
2016
- 2016-05-27 CN CN201610370689.6A patent/CN106060039B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103400152A (zh) * | 2013-08-20 | 2013-11-20 | 哈尔滨工业大学 | 基于分层聚类的滑动窗口多数据流异常检测方法 |
CN103886007A (zh) * | 2013-12-20 | 2014-06-25 | 广西大学 | 一种基于相互约束的模糊数据分类方法 |
CN105049286A (zh) * | 2015-07-21 | 2015-11-11 | 国家计算机网络与信息安全管理中心 | 基于层次聚类的云平台测速数据判定方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106060039A (zh) | 2016-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106060039B (zh) | 一种面向网络异常数据流的分类检测方法 | |
CN109768985B (zh) | 一种基于流量可视化与机器学习算法的入侵检测方法 | |
Alghanam et al. | An improved PIO feature selection algorithm for IoT network intrusion detection system based on ensemble learning | |
Karami et al. | A fuzzy anomaly detection system based on hybrid PSO-Kmeans algorithm in content-centric networks | |
CN105577679B (zh) | 一种基于特征选择与密度峰值聚类的异常流量检测方法 | |
CN103870751B (zh) | 入侵检测方法及系统 | |
CN112738015A (zh) | 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法 | |
CN102420723A (zh) | 一种面向多类入侵的异常检测方法 | |
CN106254321A (zh) | 一种全网络异常数据流分类方法 | |
CN107579846B (zh) | 一种云计算故障数据检测方法及系统 | |
CN110533116A (zh) | 基于欧式距离的自适应集成的不平衡数据分类方法 | |
CN104316861B (zh) | 集成电路硬件木马检测方法及系统 | |
CN104484602A (zh) | 一种入侵检测方法、装置 | |
CN109670306A (zh) | 基于人工智能的电力恶意代码检测方法、服务器及系统 | |
CN113516228B (zh) | 一种基于深度神经网络的网络异常检测方法 | |
CN103973589B (zh) | 网络流量分类方法及装置 | |
CN108494594A (zh) | 一种eigrp路由网络故障的分析方法和系统 | |
JP2021002354A (ja) | 表示制御装置、表示制御方法及び表示制御プログラム | |
CN109886284A (zh) | 基于层次化聚类的欺诈检测方法及系统 | |
CN107145778A (zh) | 一种入侵检测方法及装置 | |
CN107483451A (zh) | 基于串并行结构网络安全数据处理方法及系统、社交网络 | |
CN106096413A (zh) | 一种基于多特征融合的恶意代码检测方法及系统 | |
Akhtar et al. | Rethinking interpretation: Input-agnostic saliency mapping of deep visual classifiers | |
He et al. | Semi-supervised internet water army detection based on graph embedding | |
CN117014193A (zh) | 一种基于行为基线的未知Web攻击检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190823 Termination date: 20200527 |