CN109587000B - 基于群智网络测量数据的高延迟异常检测方法及系统 - Google Patents

基于群智网络测量数据的高延迟异常检测方法及系统 Download PDF

Info

Publication number
CN109587000B
CN109587000B CN201811354840.2A CN201811354840A CN109587000B CN 109587000 B CN109587000 B CN 109587000B CN 201811354840 A CN201811354840 A CN 201811354840A CN 109587000 B CN109587000 B CN 109587000B
Authority
CN
China
Prior art keywords
network
tree
abnormal
rule
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811354840.2A
Other languages
English (en)
Other versions
CN109587000A (zh
Inventor
李扬
孙嘉辰
黄闻光
田晓华
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201811354840.2A priority Critical patent/CN109587000B/zh
Publication of CN109587000A publication Critical patent/CN109587000A/zh
Application granted granted Critical
Publication of CN109587000B publication Critical patent/CN109587000B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于群智网络测量数据的高延迟异常检测方法及系统,包括:对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART决策树建模得到子树;基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。本发明提高了算法泛化性和鲁棒性,从而有效检测出高延迟网络异常。

Description

基于群智网络测量数据的高延迟异常检测方法及系统
技术领域
本发明涉及通信技术领域,具体地,涉及基于群智网络测量数据的高延迟异常检测方法及系统。
背景技术
如今,由于移动互联网的广泛覆盖,Over The Top(OTT)服务发展迅速。在OTT中,用户可以通过传统的网络操作系统提供各种各样的服务,比如视频流和文本传输。与传统的通信服务不同,OTT只利用运营商的网络,而服务是由互联网公司提供的。例如,在从网络运营商租借的宽带网络服务的帮助下,Skype可以以较低的成本提供全球范围的IP(VOIP)服务。为了使OTT服务在全球范围内可用,底层网络的覆盖率必须足够大,才能覆盖尽可能多的用户。因此,许多网络服务提供者(ISP)的集成网络被作为每个OTT服务的主干网络。不幸的是,主干网络的不稳定性,例如频繁的网络故障异常,对服务质量(QoS)造成了严重的负面影响,导致了OTT公司的巨大损失。
OTT服务质量下降背后的根本原因是传统网络体系结构下缺乏有效的管理和维护机制。随着网络规模的扩大,如即将到来的物联网(IOT)时代,网络的复杂性也将急剧增加。然而,传统的网络管理和维护方法在支持可持续运行方面成本很高。图1演示了网络管理和维护的控制循环,整个过程被分为三个阶段:监测、决策和执行。本发明重点研究如何提高监测阶段的性能,该阶段负责测量网络性能和检测网络异常。
传统的网络测量方法可以分为两类:(1)主动测量,通过发送数据包探针到目标网络位置,从而测量网络性能参数,如RTT和包损率;(2)被动测量,通过在网络链路或节点上部署特定的设备来抓取流量信息。但是这两种方法的成本太高,无法大规模应用。一方面,主动测量不能同时获得所有网络链路的信息,结果的优劣在很大程度上取决于网络链路的选择。另一方面,被动测量不能获得端到端(E2E)的网络性能,并且需要定制设备的支持。
由于传统的网络测量方法不能满足OTT的要求,一些工作采用了从大量用户收集网络测量数据的群智策略。例如Mopeye,cniCloud可以提供基于端到端的群智大规模网络性能数据,再利用传统的数学统计方法对群智数据进行分析。然而,对于这种包含大量噪声的大规模群智数据,传统的数学统计方法缺乏鲁棒性,并且难以发现数据间的关联性。为了解决这个问题,目前迫切需要开发一种基于群智网络测量数据的网络异常分析的有效新方法。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于群智网络测量数据的高延迟异常检测方法及系统。
根据本发明提供的一种基于群智网络测量数据的高延迟异常检测方法,包括:
数据预处理步骤,包括:
步骤11:对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
步骤12:将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘步骤,包括:
步骤21:将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树;
步骤22:基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
步骤23:基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
步骤24:将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。
较佳的,步骤12中,实例的权重计算取决于原始数据子空间中网络延迟的标准差,标准差越大表示实例的可靠度越低,因此将标准差的倒数作为实例的权重。
较佳的,步骤21包括:
使用可放回采样随机生成子数据集,在CART决策树的生成过程中,输入为与网络延迟信息打包上传的其他信息,输出为网络延迟状态是否正常;树节点分裂随机挑选部分特征搜寻最佳分裂点,并将CART决策树生成至最大深度(即叶节点样本数为1个);CART决策树的节点分裂过程为二分,针对离散特征和连续特征进行分别处理:对连续特征寻找最佳分裂阈值,将大于阈值的样本和小于阈值的样本分开;对离散特征寻找最佳分裂特征数值,将等于特征数值的样本和不等于特征数值的样本分开。
较佳的,步骤22包括:
基于CART决策树的树状结构,从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则,利用路径中每个树节点的分裂特征描述异常规则,整个过程遍历所有除根节点之外的树节点进行规则挖掘,如果树节点的样本子空间为正常,则跳过,若样本子空间为异常,则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则。
较佳的,步骤23包括:
根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度,置信度越高代表此条网络异常规则所代表的异常可信度越高。
较佳的,步骤24包括:
遍历所有子树,将相同网络异常规则进行归并,计算平均置信度作为最终结果。
根据本发明提供的一种基于群智网络测量数据的高延迟异常检测系统,包括:
数据预处理模块,包括:
对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘模块,包括:
将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树;
基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。
较佳的,实例的权重计算取决于原始数据子空间中网络延迟的标准差,标准差越大表示实例的可靠度越低,因此将标准差的倒数作为实例的权重。
较佳的,所述异常挖掘模块:
使用可放回采样随机生成子数据集,在CART决策树的生成过程中,输入为与网络延迟信息打包上传的其他信息,输出为网络延迟状态是否正常;树节点分裂随机挑选部分特征搜寻最佳分裂点,并将CART决策树生成至最大深度(即叶节点样本数为1个);CART决策树的节点分裂过程为二分,针对离散特征和连续特征进行分别处理:对连续特征寻找最佳分裂阈值,将大于阈值的样本和小于阈值的样本分开;对离散特征寻找最佳分裂特征数值,将等于特征数值的样本和不等于特征数值的样本分开。
较佳的,所述异常挖掘模块:
基于CART决策树的树状结构,从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则,利用路径中每个树节点的分裂特征描述异常规则,整个过程遍历所有除根节点之外的树节点进行规则挖掘,如果树节点的样本子空间为正常,则跳过,若样本子空间为异常,则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则。
与现有技术相比,本发明具有如下的有益效果:
1.本发明利用决策树模型的可解释性,能够从群智大规模数据集中准确有效的挖掘出网络高延迟异常。
2.本发明结合决策树的拓扑结构信息与节点信息,从而客观地衡量每个网络异常的优先级与严重性。
3.本发明在决策树模型的基础上引入集成学习的思想,从而提高整个模型的泛化性和鲁棒性,更好地抵抗噪声干扰。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为网络管理与维护的控制循环示意图;
图2为本发明基于群智网络测量数据的高延迟异常检测方法的流程图;
图3为本发明提供的示例数据集;
图4为本发明基于示例数据集生成的CART决策树示意图;
图5为本发明基于CART决策树的网络异常挖掘结果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
如图2所示,本发明提供的一种基于群智网络测量数据的高延迟异常检测方法,包括:
数据预处理步骤,包括:
步骤11:对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
步骤12:将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘步骤,包括:
步骤21:将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树;
步骤22:基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
步骤23:基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
步骤24:将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。
步骤12中,实例的权重计算取决于原始数据子空间中网络延迟的标准差,标准差越大表示实例的可靠度越低,因此将标准差的倒数作为实例的权重。
步骤21包括:使用可放回采样随机生成子数据集,在CART决策树的生成过程中,输入为与网络延迟信息打包上传的其他信息,输出为网络延迟状态是否正常;树节点分裂随机挑选部分特征搜寻最佳分裂点,并将CART决策树生成至最大深度(即叶节点样本数为1个);CART决策树的节点分裂过程为二分,针对离散特征和连续特征进行分别处理:对连续特征寻找最佳分裂阈值,将大于阈值的样本和小于阈值的样本分开;对离散特征寻找最佳分裂特征数值,将等于特征数值的样本和不等于特征数值的样本分开。
步骤22包括:基于CART决策树的树状结构,从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则,利用路径中每个树节点的分裂特征描述异常规则,整个过程遍历所有除根节点之外的树节点进行规则挖掘,如果树节点的样本子空间为正常,则跳过,若样本子空间为异常,则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则。
步骤23包括:根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度,置信度越高代表此条网络异常规则所代表的异常可信度越高。
步骤24包括:遍历所有子树,将相同网络异常规则进行归并,计算平均置信度作为最终结果。
在上述一种基于群智网络测量数据的高延迟异常检测方法的基础上,本发明还提供一种基于群智网络测量数据的高延迟异常检测系统,包括:
数据预处理模块,包括:
对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘模块,包括:
将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树;
基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。
实施例一:
本专利实验所用的群智网络测量数据集来自MopEye项目。MopEye是基于Android4.0+的VpnService API实现的Android开源程序,并无需root权限即可在手机上部署。MopEye可以自动地在每个用户终端的应用尺度上收集Round Trip Time(RTT)数据,从而表征网络延迟情况。整个数据集收集过程从2016年5月23日至2017年1月3,收集超过500万条RTT测量数据。数据集覆盖了6000多种APP,超过5000名用户参与此次群智数据收集。除开RTT数据,MopEye会将其他信息如用户位置,信号强度,应用名称等信息打包上传至服务器。决策树模型建立使用基于Python的机器学习工具Scikit-Learn 0.19。所有实验在拥有32核,128GB内存的Ubuntu 16.04服务器上运行。
本实例具体步骤包括数据预处理阶段及异常挖掘阶段,数据预处理阶段过程如下:
数据预处理阶段
1)对原始数据集进行特征工程
首先对每个特征设置阈值去除异常值,并使用特征平均值填补缺失值。例如,将信号强度的正常区间设置在-100至0之间。再将所有特征进行数值化和离散化,统一转化为顺序型向量如{1,2,3,…,n},n代表所有可能的情况。
2)将包含相同的样本聚类为实例
遍历整个数据集,将特征相同的样本聚类为一个实例,并计算实例样本空间中的RTT平均值及标准差,若RTT小于160,标准差小于100,则将此实例标定为正常,否则标定为异常。对于每个实例,将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1。
数据预处理完成后,进入异常挖掘阶段,异常挖掘阶段步骤如下:
步骤1:将预处理后的实例数据集随机采样生成多个子数据集,并对每个子数据集进行CART决策树建模
在原数据集的基础上,使用Bootstrapping Sampling随机生成多个子数据集。具体步骤为,假设原数据集D包含N个实例,随机选出一个实例并放入子数据集D_。重复N次此操作,D_中将包含D中约63%的实例。
然后分别对每个子数据集进行CART决策树建模,此处使用小型示例来进行决策树生成过程和后续异常挖掘算法的说明。假设子数据集如图3所示,特征为网络类型和速度,标签为表现,网络类型有0和1两种情况,速度有0,1,2三种情况,表现有正常和异常两种情况。利用Scikit-learn的决策树模块生成决策树:假设特征数有M个,设置决策树节点分裂时特征的搜寻空间为
Figure BDA0001865818640000073
决策树不设置最大深度,即每个叶子节点完全纯净。
最终生成的决策树如图4所示,异常节点代表此节点的样本空间中异常样本权重更大,正常节点代表正常样本权重更大。第一行表示该节点是否为叶节点,如果不是,则表示特征分裂点。基尼值表示样本空间的纯净程度,其计算公式如下:
Figure BDA0001865818640000071
式中,K代表标签的类别数,在本发明中即为正常和异常两种;x表示决策树中的节点;
Figure BDA0001865818640000072
表示k类别的样本在x节点中所占的比例。
对于CART树中节点的分裂,对于某一种分裂选择θ,其表现可用如下公式衡量:
Figure BDA0001865818640000081
式中,Sl和Sr代表被θ分出的左子节点和右子节点,W(x)代表节点x的样本空间的权重和。则最优分裂为:
θ*=argmin(G(Sx,θ))
步骤2:基于决策树的拓扑信息与节点信息进行异常规则挖掘。
如图4所示,为了从决策树中分析出异常规则,我们遍历除开根节点的每个树节点。对于节点1的样本子空间,全部满足其父节点的分裂点,即网络类型=0,因此发现第一条异常规则{网络类型=0}。对于节点2,其基尼值大于父节点,说明分裂后节点纯度降低,因此直接跳过。对于节点3,在其与根节点连成的路径上包含特征要求:网络类型≠0,速度≤0.5,因此可以发现异常规则{网络类型=1,速度=0}。对于节点4,有两条潜在规则{网络类型=1,速度=1}和{网络类型=1,速度=2}符合路径上的特征要求,但是后者的样本子空间为空,因此只保留前者。至此,从图4的决策树中一共挖掘出三条规则。
步骤3:基于树节点的样本子空间的网络延迟属性,对每条规则进行标定及置信度评分。
首先针对每条规则的样本子空间的正负样本权重来决定其为异常规则还是正常规则,例如{网络类型=0}和{网络类型=1,速度=0}的异常实例权重较大,因而为异常规则,{网络类型=1,速度=1}则为正常规则。
接下来按如下公式计算每条规则的置信度:
C(x)=std(x)*W(x)*I(x)
式中,表示,std(x)表示节点x中标签类别所占比例的标准差:
Figure BDA0001865818640000082
W(x)表示节点x样本子空间的权重和,I(x)表示根节点与节点x的基尼差值:
I(x)=G(rppt)-G(x)
最终挖掘出的异常规则结果如图5所示,{网络类型=0}置信度最高因其样本子空间为三个异常实例,{网络类型=1,速度=0}置信度较低因其样本子空间仅有一个异常实例。
步骤4:将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果。
针对每个子数据集,异常规则挖掘算法都会生成如图4的异常规则表,遍历所有异常表,将相同的规则取出并计算平均置信度:
Figure BDA0001865818640000091
式中,M表示结果中包含规则x的子树的个数。
将所有异常规则按平均置信度降序排列,即为算法最终结果。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (2)

1.一种基于群智网络测量数据的高延迟异常检测方法,其特征在于,包括:
数据预处理步骤,包括:
步骤11:对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
步骤12:将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘步骤,包括:
步骤21:将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART决策树建模得到子树;
步骤22:基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
步骤23:基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
步骤24:将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果;
步骤12中,实例的权重计算取决于原始数据子空间中网络延迟的标准差,标准差越大表示实例的可靠度越低,因此将标准差的倒数作为实例的权重;遍历整个数据集,将特征相同的样本聚类为一个实例,并计算实例样本空间中的RTT平均值及标准差,若RTT小于160,标准差小于100,则将此实例标定为正常,否则标定为异常,对于每个实例,将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1;
步骤21包括:
使用可放回采样随机生成子数据集,在CART决策树的生成过程中,输入为与网络延迟信息打包上传的其他信息,输出为网络延迟状态是否正常;树节点分裂随机挑选部分特征搜寻最佳分裂点,并将CART决策树生成至最大深度;CART决策树的节点分裂过程为二分,针对离散特征和连续特征进行分别处理:对连续特征寻找最佳分裂阈值,将大于阈值的样本和小于阈值的样本分开;对离散特征寻找最佳分裂特征数值,将等于特征数值的样本和不等于特征数值的样本分开;
步骤22包括:
基于CART决策树的树状结构,从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则,利用路径中每个树节点的分裂特征描述异常规则,整个过程遍历所有除根节点之外的树节点进行规则挖掘,如果树节点的样本子空间为正常,则跳过,若样本子空间为异常,则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则;
步骤23包括:
根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度,置信度越高代表此条网络异常规则所代表的异常可信度越高;
步骤24包括:
遍历所有子树,将相同网络异常规则进行归并,计算平均置信度作为最终结果;将所有异常规则按平均置信度降序排列,即为算法最终结果。
2.一种基于群智网络测量数据的高延迟异常检测系统,其特征在于,包括:
数据预处理模块,包括:
对原始数据集进行特征工程,去除异常值与缺失值,并将原始数据统一进行数值化与离散化;
将包含相同特征的原始数据聚类为一个实例,计算对应权重并打上标签,作为输入决策树模型的基本单位;
异常挖掘模块,包括:
将预处理后的原始数据集随机采样生成多个子数据集,并对每个子数据集进行CART决策树建模得到子树;
基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘;
基于树节点的样本子空间的网络延迟状况,对每条规则进行标定及置信度评分;
将所有子树的规则挖掘结果进行合并,生成最终的网络高延迟异常检测结果;
实例的权重计算取决于原始数据子空间中网络延迟的标准差,标准差越大表示实例的可靠度越低,因此将标准差的倒数作为实例的权重;遍历整个数据集,将特征相同的样本聚类为一个实例,并计算实例样本空间中的RTT平均值及标准差,若RTT小于160,标准差小于100,则将此实例标定为正常,否则标定为异常,对于每个实例,将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1;
所述异常挖掘模块:
使用可放回采样随机生成子数据集,在CART决策树的生成过程中,输入为与网络延迟信息打包上传的其他信息,输出为网络延迟状态是否正常;树节点分裂随机挑选部分特征搜寻最佳分裂点,并将CART决策树生成至最大深度;CART决策树的节点分裂过程为二分,针对离散特征和连续特征进行分别处理:对连续特征寻找最佳分裂阈值,将大于阈值的样本和小于阈值的样本分开;对离散特征寻找最佳分裂特征数值,将等于特征数值的样本和不等于特征数值的样本分开;
所述异常挖掘模块:
基于CART决策树的树状结构,从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则,利用路径中每个树节点的分裂特征描述异常规则,整个过程遍历所有除根节点之外的树节点进行规则挖掘,如果树节点的样本子空间为正常,则跳过,若样本子空间为异常,则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则;
根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度,置信度越高代表此条网络异常规则所代表的异常可信度越高;
遍历所有子树,将相同网络异常规则进行归并,计算平均置信度作为最终结果;将所有异常规则按平均置信度降序排列,即为算法最终结果。
CN201811354840.2A 2018-11-14 2018-11-14 基于群智网络测量数据的高延迟异常检测方法及系统 Active CN109587000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811354840.2A CN109587000B (zh) 2018-11-14 2018-11-14 基于群智网络测量数据的高延迟异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811354840.2A CN109587000B (zh) 2018-11-14 2018-11-14 基于群智网络测量数据的高延迟异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN109587000A CN109587000A (zh) 2019-04-05
CN109587000B true CN109587000B (zh) 2020-09-15

Family

ID=65922461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811354840.2A Active CN109587000B (zh) 2018-11-14 2018-11-14 基于群智网络测量数据的高延迟异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN109587000B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782900B (zh) * 2020-08-06 2024-03-19 平安银行股份有限公司 异常业务检测方法、装置、电子设备及存储介质
CN112785415B (zh) * 2021-01-20 2024-01-12 深圳前海微众银行股份有限公司 评分卡模型构建方法、装置、设备及计算机可读存储介质
CN112954765B (zh) * 2021-02-24 2022-12-09 四川速宝网络科技有限公司 一种基于网络状态监控的动态算子选路方法
CN113656535B (zh) * 2021-08-31 2023-11-14 上海观安信息技术股份有限公司 一种异常会话检测方法、装置及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测系统
CN105205111A (zh) * 2015-09-01 2015-12-30 西安交通大学 一种挖掘时序数据故障模式的系统及方法
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN107516104A (zh) * 2017-07-11 2017-12-26 合肥工业大学 一种基于二分法的优化cart决策树生成方法及其装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7007035B2 (en) * 2001-06-08 2006-02-28 The Regents Of The University Of California Parallel object-oriented decision tree system
US7783114B2 (en) * 2006-08-22 2010-08-24 Intel Corporation Training and using classification components on multiple processing units

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024877A (zh) * 2015-06-01 2015-11-04 北京理工大学 一种基于网络行为分析的Hadoop恶意节点检测系统
CN105205111A (zh) * 2015-09-01 2015-12-30 西安交通大学 一种挖掘时序数据故障模式的系统及方法
CN107292186A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 一种基于随机森林的模型训练方法和装置
CN106096748A (zh) * 2016-04-28 2016-11-09 武汉宝钢华中贸易有限公司 基于聚类分析和决策树算法的装车工时预测模型
CN107516104A (zh) * 2017-07-11 2017-12-26 合肥工业大学 一种基于二分法的优化cart决策树生成方法及其装置

Also Published As

Publication number Publication date
CN109587000A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109587000B (zh) 基于群智网络测量数据的高延迟异常检测方法及系统
US11301778B2 (en) Method and system for training and validating machine learning in network environments
CN107370732B (zh) 基于神经网络和最优推荐的工控系统异常行为发现系统
CN113225359A (zh) 一种基于类脑计算的安全流量分析系统
US20150207696A1 (en) Predictive Anomaly Detection of Service Level Agreement in Multi-Subscriber IT Infrastructure
KR20080066653A (ko) 완전한 네트워크 변칙 진단을 위한 방법 및 장치와 트래픽피쳐 분포를 사용하여 네트워크 변칙들을 검출하고분류하기 위한 방법
Kalegele et al. Four decades of data mining in network and systems management
Krishnaswamy et al. Data-driven learning to predict wan network traffic
Kozik et al. Pattern extraction algorithm for NetFlow‐based botnet activities detection
Jiao et al. Graph perturbations and corresponding spectral changes in Internet topologies
Preamthaisong et al. Enhanced DDoS detection using hybrid genetic algorithm and decision tree for SDN
Min et al. Online Internet traffic identification algorithm based on multistage classifier
Yang et al. Achieving robust performance for traffic classification using ensemble learning in sdn networks
Muthukumar et al. Denoising internet delay measurements using weak supervision
Kalliola et al. Learning flow characteristics distributions with elm for distributed denial of service detection and mitigation
CN109361658A (zh) 基于工控行业的异常流量信息存储方法、装置及电子设备
Ghoshal et al. Analysis and prediction of data transfer throughput for data-intensive workloads
Liu et al. Complexity measures for IoT network traffic
Legrand et al. An application-level network mapper
Purnama et al. Preprocessing and framework for unsupervised anomaly detection in IoT: work on progress
CN116781546B (zh) 基于深度合成数据的异常检测方法和系统
JP6467365B2 (ja) 故障解析装置、故障解析プログラムおよび故障解析方法
Kamamura et al. Network Anomaly Detection Through IP Traffic Analysis With Variable Granularity
Isravel et al. Enhanced multivariate singular spectrum analysis‐based network traffic forecasting for real time industrial IoT applications
US10031788B2 (en) Request profile in multi-threaded service systems with kernel events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant