CN109587000B

CN109587000B - 基于群智网络测量数据的高延迟异常检测方法及系统

Info

Publication number: CN109587000B
Application number: CN201811354840.2A
Authority: CN
Inventors: 李扬; 孙嘉辰; 黄闻光; 田晓华; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-09-15
Anticipated expiration: 2038-11-14
Also published as: CN109587000A

Abstract

本发明提供了一种基于群智网络测量数据的高延迟异常检测方法及系统，包括：对原始数据集进行特征工程，去除异常值与缺失值，并将原始数据统一进行数值化与离散化；将包含相同特征的原始数据聚类为一个实例，计算对应权重并打上标签，作为输入决策树模型的基本单位；将预处理后的原始数据集随机采样生成多个子数据集，并对每个子数据集进行CART决策树建模得到子树；基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘；基于树节点的样本子空间的网络延迟状况，对每条规则进行标定及置信度评分；将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果。本发明提高了算法泛化性和鲁棒性，从而有效检测出高延迟网络异常。

Description

基于群智网络测量数据的高延迟异常检测方法及系统

技术领域

本发明涉及通信技术领域，具体地，涉及基于群智网络测量数据的高延迟异常检测方法及系统。

背景技术

如今，由于移动互联网的广泛覆盖，Over The Top(OTT)服务发展迅速。在OTT中，用户可以通过传统的网络操作系统提供各种各样的服务，比如视频流和文本传输。与传统的通信服务不同，OTT只利用运营商的网络，而服务是由互联网公司提供的。例如，在从网络运营商租借的宽带网络服务的帮助下，Skype可以以较低的成本提供全球范围的IP(VOIP)服务。为了使OTT服务在全球范围内可用，底层网络的覆盖率必须足够大，才能覆盖尽可能多的用户。因此，许多网络服务提供者(ISP)的集成网络被作为每个OTT服务的主干网络。不幸的是，主干网络的不稳定性，例如频繁的网络故障异常，对服务质量(QoS)造成了严重的负面影响，导致了OTT公司的巨大损失。

OTT服务质量下降背后的根本原因是传统网络体系结构下缺乏有效的管理和维护机制。随着网络规模的扩大，如即将到来的物联网(IOT)时代，网络的复杂性也将急剧增加。然而，传统的网络管理和维护方法在支持可持续运行方面成本很高。图1演示了网络管理和维护的控制循环，整个过程被分为三个阶段：监测、决策和执行。本发明重点研究如何提高监测阶段的性能，该阶段负责测量网络性能和检测网络异常。

传统的网络测量方法可以分为两类：(1)主动测量，通过发送数据包探针到目标网络位置，从而测量网络性能参数，如RTT和包损率；(2)被动测量，通过在网络链路或节点上部署特定的设备来抓取流量信息。但是这两种方法的成本太高，无法大规模应用。一方面，主动测量不能同时获得所有网络链路的信息，结果的优劣在很大程度上取决于网络链路的选择。另一方面，被动测量不能获得端到端(E2E)的网络性能，并且需要定制设备的支持。

由于传统的网络测量方法不能满足OTT的要求，一些工作采用了从大量用户收集网络测量数据的群智策略。例如Mopeye，cniCloud可以提供基于端到端的群智大规模网络性能数据，再利用传统的数学统计方法对群智数据进行分析。然而，对于这种包含大量噪声的大规模群智数据，传统的数学统计方法缺乏鲁棒性，并且难以发现数据间的关联性。为了解决这个问题，目前迫切需要开发一种基于群智网络测量数据的网络异常分析的有效新方法。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于群智网络测量数据的高延迟异常检测方法及系统。

根据本发明提供的一种基于群智网络测量数据的高延迟异常检测方法，包括：

数据预处理步骤，包括：

步骤11：对原始数据集进行特征工程，去除异常值与缺失值，并将原始数据统一进行数值化与离散化；

步骤12：将包含相同特征的原始数据聚类为一个实例，计算对应权重并打上标签，作为输入决策树模型的基本单位；

异常挖掘步骤，包括：

步骤21：将预处理后的原始数据集随机采样生成多个子数据集，并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树；

步骤22：基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘；

步骤23：基于树节点的样本子空间的网络延迟状况，对每条规则进行标定及置信度评分；

步骤24：将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果。

较佳的，步骤12中，实例的权重计算取决于原始数据子空间中网络延迟的标准差，标准差越大表示实例的可靠度越低，因此将标准差的倒数作为实例的权重。

较佳的，步骤21包括：

使用可放回采样随机生成子数据集，在CART决策树的生成过程中，输入为与网络延迟信息打包上传的其他信息，输出为网络延迟状态是否正常；树节点分裂随机挑选部分特征搜寻最佳分裂点，并将CART决策树生成至最大深度(即叶节点样本数为1个)；CART决策树的节点分裂过程为二分，针对离散特征和连续特征进行分别处理：对连续特征寻找最佳分裂阈值，将大于阈值的样本和小于阈值的样本分开；对离散特征寻找最佳分裂特征数值，将等于特征数值的样本和不等于特征数值的样本分开。

较佳的，步骤22包括：

基于CART决策树的树状结构，从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则，利用路径中每个树节点的分裂特征描述异常规则，整个过程遍历所有除根节点之外的树节点进行规则挖掘，如果树节点的样本子空间为正常，则跳过，若样本子空间为异常，则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则。

较佳的，步骤23包括：

根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度，置信度越高代表此条网络异常规则所代表的异常可信度越高。

较佳的，步骤24包括：

遍历所有子树，将相同网络异常规则进行归并，计算平均置信度作为最终结果。

根据本发明提供的一种基于群智网络测量数据的高延迟异常检测系统，包括：

数据预处理模块，包括：

对原始数据集进行特征工程，去除异常值与缺失值，并将原始数据统一进行数值化与离散化；

将包含相同特征的原始数据聚类为一个实例，计算对应权重并打上标签，作为输入决策树模型的基本单位；

异常挖掘模块，包括：

将预处理后的原始数据集随机采样生成多个子数据集，并对每个子数据集进行CART(Classification And Regression Tree)决策树建模得到子树；

基于每个子树的拓扑信息与节点信息进行高延迟异常规则挖掘；

基于树节点的样本子空间的网络延迟状况，对每条规则进行标定及置信度评分；

将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果。

较佳的，实例的权重计算取决于原始数据子空间中网络延迟的标准差，标准差越大表示实例的可靠度越低，因此将标准差的倒数作为实例的权重。

较佳的，所述异常挖掘模块：

与现有技术相比，本发明具有如下的有益效果：

1.本发明利用决策树模型的可解释性，能够从群智大规模数据集中准确有效的挖掘出网络高延迟异常。

2.本发明结合决策树的拓扑结构信息与节点信息，从而客观地衡量每个网络异常的优先级与严重性。

3.本发明在决策树模型的基础上引入集成学习的思想，从而提高整个模型的泛化性和鲁棒性，更好地抵抗噪声干扰。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为网络管理与维护的控制循环示意图；

图2为本发明基于群智网络测量数据的高延迟异常检测方法的流程图；

图3为本发明提供的示例数据集；

图4为本发明基于示例数据集生成的CART决策树示意图；

图5为本发明基于CART决策树的网络异常挖掘结果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

如图2所示，本发明提供的一种基于群智网络测量数据的高延迟异常检测方法，包括：

数据预处理步骤，包括：

异常挖掘步骤，包括：

步骤12中，实例的权重计算取决于原始数据子空间中网络延迟的标准差，标准差越大表示实例的可靠度越低，因此将标准差的倒数作为实例的权重。

步骤21包括：使用可放回采样随机生成子数据集，在CART决策树的生成过程中，输入为与网络延迟信息打包上传的其他信息，输出为网络延迟状态是否正常；树节点分裂随机挑选部分特征搜寻最佳分裂点，并将CART决策树生成至最大深度(即叶节点样本数为1个)；CART决策树的节点分裂过程为二分，针对离散特征和连续特征进行分别处理：对连续特征寻找最佳分裂阈值，将大于阈值的样本和小于阈值的样本分开；对离散特征寻找最佳分裂特征数值，将等于特征数值的样本和不等于特征数值的样本分开。

步骤22包括：基于CART决策树的树状结构，从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则，利用路径中每个树节点的分裂特征描述异常规则，整个过程遍历所有除根节点之外的树节点进行规则挖掘，如果树节点的样本子空间为正常，则跳过，若样本子空间为异常，则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则。

步骤23包括：根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度，置信度越高代表此条网络异常规则所代表的异常可信度越高。

步骤24包括：遍历所有子树，将相同网络异常规则进行归并，计算平均置信度作为最终结果。

在上述一种基于群智网络测量数据的高延迟异常检测方法的基础上，本发明还提供一种基于群智网络测量数据的高延迟异常检测系统，包括：

数据预处理模块，包括：

异常挖掘模块，包括：

实施例一：

本专利实验所用的群智网络测量数据集来自MopEye项目。MopEye是基于Android4.0+的VpnService API实现的Android开源程序，并无需root权限即可在手机上部署。MopEye可以自动地在每个用户终端的应用尺度上收集Round Trip Time(RTT)数据，从而表征网络延迟情况。整个数据集收集过程从2016年5月23日至2017年1月3，收集超过500万条RTT测量数据。数据集覆盖了6000多种APP，超过5000名用户参与此次群智数据收集。除开RTT数据，MopEye会将其他信息如用户位置，信号强度，应用名称等信息打包上传至服务器。决策树模型建立使用基于Python的机器学习工具Scikit-Learn 0.19。所有实验在拥有32核，128GB内存的Ubuntu 16.04服务器上运行。

本实例具体步骤包括数据预处理阶段及异常挖掘阶段，数据预处理阶段过程如下：

数据预处理阶段

1)对原始数据集进行特征工程

首先对每个特征设置阈值去除异常值，并使用特征平均值填补缺失值。例如，将信号强度的正常区间设置在-100至0之间。再将所有特征进行数值化和离散化，统一转化为顺序型向量如{1,2,3,…,n}，n代表所有可能的情况。

2)将包含相同的样本聚类为实例

遍历整个数据集，将特征相同的样本聚类为一个实例，并计算实例样本空间中的RTT平均值及标准差，若RTT小于160，标准差小于100，则将此实例标定为正常，否则标定为异常。对于每个实例，将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1。

数据预处理完成后，进入异常挖掘阶段，异常挖掘阶段步骤如下：

步骤1：将预处理后的实例数据集随机采样生成多个子数据集，并对每个子数据集进行CART决策树建模

在原数据集的基础上，使用Bootstrapping Sampling随机生成多个子数据集。具体步骤为，假设原数据集D包含N个实例，随机选出一个实例并放入子数据集D_。重复N次此操作，D_中将包含D中约63％的实例。

然后分别对每个子数据集进行CART决策树建模，此处使用小型示例来进行决策树生成过程和后续异常挖掘算法的说明。假设子数据集如图3所示，特征为网络类型和速度，标签为表现，网络类型有0和1两种情况，速度有0,1,2三种情况，表现有正常和异常两种情况。利用Scikit-learn的决策树模块生成决策树：假设特征数有M个，设置决策树节点分裂时特征的搜寻空间为

决策树不设置最大深度，即每个叶子节点完全纯净。

最终生成的决策树如图4所示，异常节点代表此节点的样本空间中异常样本权重更大，正常节点代表正常样本权重更大。第一行表示该节点是否为叶节点，如果不是，则表示特征分裂点。基尼值表示样本空间的纯净程度，其计算公式如下：

式中，K代表标签的类别数，在本发明中即为正常和异常两种；x表示决策树中的节点；

表示k类别的样本在x节点中所占的比例。

对于CART树中节点的分裂，对于某一种分裂选择θ，其表现可用如下公式衡量：

式中，S_l和S_r代表被θ分出的左子节点和右子节点，W(x)代表节点x的样本空间的权重和。则最优分裂为：

θ^*＝argmin(G(S_x,θ))

步骤2：基于决策树的拓扑信息与节点信息进行异常规则挖掘。

如图4所示，为了从决策树中分析出异常规则，我们遍历除开根节点的每个树节点。对于节点1的样本子空间，全部满足其父节点的分裂点，即网络类型＝0，因此发现第一条异常规则{网络类型＝0}。对于节点2，其基尼值大于父节点，说明分裂后节点纯度降低，因此直接跳过。对于节点3，在其与根节点连成的路径上包含特征要求：网络类型≠0,速度≤0.5,因此可以发现异常规则{网络类型＝1,速度＝0}。对于节点4，有两条潜在规则{网络类型＝1,速度＝1}和{网络类型＝1,速度＝2}符合路径上的特征要求，但是后者的样本子空间为空，因此只保留前者。至此，从图4的决策树中一共挖掘出三条规则。

步骤3：基于树节点的样本子空间的网络延迟属性，对每条规则进行标定及置信度评分。

首先针对每条规则的样本子空间的正负样本权重来决定其为异常规则还是正常规则，例如{网络类型＝0}和{网络类型＝1,速度＝0}的异常实例权重较大，因而为异常规则，{网络类型＝1,速度＝1}则为正常规则。

接下来按如下公式计算每条规则的置信度：

C(x)＝std(x)*W(x)*I(x)

式中，表示，std(x)表示节点x中标签类别所占比例的标准差：

W(x)表示节点x样本子空间的权重和，I(x)表示根节点与节点x的基尼差值：

I(x)＝G(rppt)-G(x)

最终挖掘出的异常规则结果如图5所示，{网络类型＝0}置信度最高因其样本子空间为三个异常实例，{网络类型＝1,速度＝0}置信度较低因其样本子空间仅有一个异常实例。

步骤4：将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果。

针对每个子数据集，异常规则挖掘算法都会生成如图4的异常规则表，遍历所有异常表，将相同的规则取出并计算平均置信度：

式中，M表示结果中包含规则x的子树的个数。

将所有异常规则按平均置信度降序排列，即为算法最终结果。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于群智网络测量数据的高延迟异常检测方法，其特征在于，包括：

数据预处理步骤，包括：

异常挖掘步骤，包括：

步骤21：将预处理后的原始数据集随机采样生成多个子数据集，并对每个子数据集进行CART决策树建模得到子树；

步骤24：将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果；

步骤12中，实例的权重计算取决于原始数据子空间中网络延迟的标准差，标准差越大表示实例的可靠度越低，因此将标准差的倒数作为实例的权重；遍历整个数据集，将特征相同的样本聚类为一个实例，并计算实例样本空间中的RTT平均值及标准差，若RTT小于160，标准差小于100，则将此实例标定为正常，否则标定为异常，对于每个实例，将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1；

步骤21包括：

使用可放回采样随机生成子数据集，在CART决策树的生成过程中，输入为与网络延迟信息打包上传的其他信息，输出为网络延迟状态是否正常；树节点分裂随机挑选部分特征搜寻最佳分裂点，并将CART决策树生成至最大深度；CART决策树的节点分裂过程为二分，针对离散特征和连续特征进行分别处理：对连续特征寻找最佳分裂阈值，将大于阈值的样本和小于阈值的样本分开；对离散特征寻找最佳分裂特征数值，将等于特征数值的样本和不等于特征数值的样本分开；

步骤22包括：

基于CART决策树的树状结构，从根节点出发到达异常节点的每一条路径即代表一条潜在网络异常规则，利用路径中每个树节点的分裂特征描述异常规则，整个过程遍历所有除根节点之外的树节点进行规则挖掘，如果树节点的样本子空间为正常，则跳过，若样本子空间为异常，则回溯树节点的所有父节点并将其包含的分裂特征作为网络异常规则；

步骤23包括：

根据网络异常规则中根节点与终节点的基尼差值以及终节点所包含样本子空间的权重标准差计算该条网络异常规则的置信度，置信度越高代表此条网络异常规则所代表的异常可信度越高；

步骤24包括：

遍历所有子树，将相同网络异常规则进行归并，计算平均置信度作为最终结果；将所有异常规则按平均置信度降序排列，即为算法最终结果。

2.一种基于群智网络测量数据的高延迟异常检测系统，其特征在于，包括：

数据预处理模块，包括：

异常挖掘模块，包括：

将预处理后的原始数据集随机采样生成多个子数据集，并对每个子数据集进行CART决策树建模得到子树；

将所有子树的规则挖掘结果进行合并，生成最终的网络高延迟异常检测结果；

实例的权重计算取决于原始数据子空间中网络延迟的标准差，标准差越大表示实例的可靠度越低，因此将标准差的倒数作为实例的权重；遍历整个数据集，将特征相同的样本聚类为一个实例，并计算实例样本空间中的RTT平均值及标准差，若RTT小于160，标准差小于100，则将此实例标定为正常，否则标定为异常，对于每个实例，将其样本空间的RTT标准差的倒数作为权重并设置权重上限为1；

所述异常挖掘模块：