CN108475250A - 用于异常根本原因分析的系统和方法 - Google Patents

用于异常根本原因分析的系统和方法 Download PDF

Info

Publication number
CN108475250A
CN108475250A CN201680059140.3A CN201680059140A CN108475250A CN 108475250 A CN108475250 A CN 108475250A CN 201680059140 A CN201680059140 A CN 201680059140A CN 108475250 A CN108475250 A CN 108475250A
Authority
CN
China
Prior art keywords
data point
exceptional
variable
size
pca
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680059140.3A
Other languages
English (en)
Other versions
CN108475250B (zh
Inventor
南渡·戈帕拉克里希南
胡瑞
胡一瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN108475250A publication Critical patent/CN108475250A/zh
Application granted granted Critical
Publication of CN108475250B publication Critical patent/CN108475250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种方法,包括:接收异常数据点并将所述异常数据点与大小边界框进行比较,以产生第一比较。该方法还包括:将异常数据点与主分量分析(PCA)边界框进行比较,以产生第二比较,并根据第一比较和第二比较将异常数据点分类,以产生分类。

Description

用于异常根本原因分析的系统和方法
相关申请的交叉引用
本申请要求2015年10月9日提交的题为“用于异常根本原因分析的系统和方法”的申请号为14/879,778的美国非临时专利申请的优先权,其全部内容通过引用被并入本文。
技术领域
本发明涉及一种用于异常分析的系统和方法,且特别涉及一种用于异常根本原因分析的系统和方法。
背景技术
在异常分析中,期望解释检测到的异常。在异常检测中,数据集合中的不符合预期的模式或者其他项目的项目,事件,或者观察结果被检测为异常。异常数据点经常会转化为问题。根本原因分析(RCA)是一种解决问题的方法,其尝试识别错误或问题的根本原因。异常的解释可以被用于改正或解决问题或者计划对问题的作出解释。异常检测可以被用于识别无线网络中的潜在问题。
发明内容
实施例方法包括接收异常数据点,以及将异常数据点与大小边界框进行比较以产生第一比较。所述方法还包括将异常数据点与主分量分析(PCA)边界框进行比较,以产生第二比较,以及根据所述第一比较和所述第二比较将异常数据点分类,以产生分类。
实施例方法包括:接收数据集合,其中数据集合包括多个正常数据点和多个异常数据点,以及根据数据集合构造大小边界框。所述方法还包括:根据数据集合构造主分量分析(PCA)边界框。
实施例计算机包括:处理器和非暂时性计算机可读存储介质,其存储用于由所述处理器执行的程序。所述程序包括指令,其用于接收异常数据点以及将异常数据点与大小边界框进行比较,以产生第一比较。所述程序还包括指令,以将异常数据点与主分量分析(PCA)边界框进行比较,以产生第二比较,以及根据所述第一比较和所述第二比较,将异常数据点分类,以产生分类。
上文中已经相当广泛地概述了本发明的实施例的特征,以便可以更好地理解下文中对本发明的详细描述。下面将描述本发明的实施例的附加特征及优点,其构成本发明的权利要求的主题。本领域技术人员应当理解,所公开的概念和具体实施例可以容易地用作修改或设计用于实现本发明的相同目的的其他结构或过程的基础。本领域技术人员还应该认识到,这样的等效结构不脱离如所附权利要求中所阐述的本发明的精神和范围。
附图说明
为了更完整地理解本发明及其优点,现在参考结合了附图的以下描述,其中:
图1示出了用于传送数据的无线网络的图;
图2示出了示例性的二维数据点分布;
图3示出了具有异常数据点的示例性二维数据点分布;
图4示出了具有测试数据的示例性二维数据点分布;
图5a-h示出了示例性二维数据点聚类的大小边界框;
图6a-b示出了二维数据点聚类的二维主分量分析(PCA)边界框的构造;
图7a-g示出了二维数据点聚类的大小边界框和PCA边界框;
图8示出了PCA根本原因分析的一种实施例方法的流程图;
图9示出了PCA根本原因分析的另一种实施例方法的流程图;
图10示出了实施例处理系统的框图;以及
图11示出了实施例收发器的框图。
除非另有说明,否则不同图中的对应的数字和符号通常指相应的部分。绘制附图是为了清楚地说明实施例的相关方面,并不一定按比例绘制。
具体实施方式
首先应该理解,尽管下面提供了一个或多个实施例的说明性实现,但是可以使用任何数量的技术来实现所公开的系统和/或方法,无论当前是否已知。本公开不应限于下面下文示出的说明性的实施方案,附图和技术,包括本文所示和描述的示例性设计和实施方式,但是可以在所附权利要求书的范围以及其等同物的全部范围内进行修改。
图1示出了用于传送数据的网络100。网络100包括通信控制器102,其具有覆盖区域106,多个用户设备(UE),包括UE 104和UE 105,以及回程网络108。描绘了两个UE,但是可能存在更多的UE。通信控制器102可以为能够通过与UE 104和UE 105建立上行链路(短划线)连接和/或下行链路(点线)连接来提供无线接入的任意组件,例如基站,NodeB,增强型nodeB(eNB),接入点,微微小区,毫微微小区,中继节点以及其他的无线启用设备。UE 104和UE 105可以是能够建立与通信控制器102无线连接的任意组件,例如移动电话,智能手机,平板电脑,传感器等。回程网络108可以是允许在通信控制器102和远程端之间交换数据的任意组件或者组件的集合。在一些实施例中,网络100可以包括多种其他的无线设备,例如继电器等。在一个示例中,网络100是自组织网络(SON)。
蜂窝网络,例如网络100,可能经历各种各样的异常。期望确定关于蜂窝网络中的异常的原因的信息,以处理该异常。异常可以发生于数据的多维集合或指标中,例如关键绩效指标(KPI),业务和资源计数器,以及测量报告。此外,可能由于多种行为,性能,或者节点故障原因而发生异常。异常可能由非常规的业务增加或减少导致,例如短期爆发或者中长期周期性拥塞。此外,配置较差或者优化较差的参数可能导致由偶尔的网络性能低下引起的异常。此外,添加具有不同的消耗特性的新终端可能导致异常。在另一示例中,网络运行中断(例如睡眠小区,其中小区接通但没有正常运行)可能导致异常。灾害事件,例如飓风或地震,也可能导致网络中的异常。此外,网络节点中的硬件或软件故障(例如由于升级而产生)可能导致异常。另外,网络入侵或者对抗性攻击(例如病毒或者恶意软件)可能导致网络中的异常。
在一实施例中,确定异常的类别,而不必确定异常的特定原因。异常可以基于个体变量的大小或者变量的联合子集。例如,可以基于参数之间关系的微小变化来检测异常,其中存在非常规的变量的组合,而没有任何具有极端的大小的单个变量。一实施例确定哪个(些)变量与异常有关。
一种机器学习模型可以被用于检测异常,所述异常可以为表现为非常规的或者不太可能的数据点或者模式。异常检测的示例包括基于密度的技术,针对高维度数据的基于子空间和相关性的孤立点检测,单类支持向量机,复制器神经网络,基于聚类分析的孤立点检测,与关联规则和频繁项集的偏差,基于模糊逻辑的孤立点检测,使用特征包装(featurebagging),评分归一化以及不同多样性来源的集合技术(ensemble techniques)。
一实施例基于检测到的异常来确定一类异常。例如,异常可以是极端大小的变量或者是针对联合异常的变量子集内的关系的微小改变。此外,一实施例确定被检测到的异常中涉及多维变量集合中的哪个变量或者变量组合。基于给定异常数据点相对于正常数据点和异常数据点的位置,可以确定很可能与异常相关联的数据的聚类或隐藏模式。数据集合可能包括多个聚类,其中可能每个聚类都是正常的。例如,不同的聚类可以代表不同的时期,一天中的不同时间,一周中的不同日子。为了将异常数据点放置在聚类中,可以确定似然评分,其中当异常数据点远离聚类时,似然评分低,而当异常数据点接近聚类时,似然评分高。异常可以被检测为分量变量中的一个的极端的非典型大小,一些分量变量之间的关系破裂,或者非典型大小和关系破裂的组合。很多变量,例如300个或者更多,可以被用于实施例联合检测方法。
图2示出了数据分布190,其为示例性二维数据分布,包括八个聚类:聚类192,194,196,198,200,202,204和206。数据分布190描绘了无线电网络控制器(RNC)的数据,数据分布190中的数据是从RNC读取的。数据分布190描绘了语音业务量的电路交换(CS)值,以及网络中分组数量的分组交换(PS)值。下面的表1示出了对于数据的群组概率潜在语义分析(GPLSA),其中K是聚类的数量。数据分布被划分为8个聚类,其中,将每个数据点放置到聚类中的一个。
K 训练GPLSA 测试GPLSA 95%GPLSA
2 -13.44 -13.0 -21.48
4 -12.57 -12.46 -18.71
6 -11.95 -11.81 -19.36
7 -11.83 -11.66 -18.71
8 -11.65 -11.48 -18.77
9 -11.49 -11.30 -18.97
表1
图3示出了数据分布210,其具有8个聚类,包括测试和异常检测。数据点214是测试点,数据点212检测到的异常(AD)。x轴示出了RNC的CS厄兰,y轴示出了RNC的PS吞吐量。
图4示出了用于监测异常的图220。图220示出了测试数据的GPLSA的对数似然值。线226上方的点222不太可能是异常,线226和线228之间的点224有可能是异常,线228下方的点229很可能是异常。
图5a-h示出了对个体变量使用大小界限的异常检测示例。图5a示出了图110,其具有正常数据点112,异常数据点114,CS界限116以及PS界限118。此外,图5b示出了图120,其具有正常数据点122,异常数据点124,CS界限126,以及PS界限128。类似地,图5c示出了图130,其具有正常数据点132,异常数据点134,CS界限136,以及PS界限138。另外,图5d示出了图140,其具有正常数据点142,异常数据点144,CS界限146,以及PS界限148。类似地,图5e示出了图150,其具有正常数据点152,异常数据点154,CS界限156,以及PS界限158。此外,图5f示出了图160,其具有正常数据点162,异常数据点164,CS界限166,以及PS界限168。图5g还示出了图170,其具有正常数据点172,异常数据点174,CS界限176,以及PS界限178。另外,图5h示出了图180,其具有正常数据点182,异常数据点184,CS界限186,以及PS界限188。如图5a-h中示出的,许多的异常数据点位于个体变量正常大小界限中。基于通过特征值分析得到的指标,例如评分和残差,可以估计异常的类型。然而,关于多维集合中的哪些变量涉及异常行为的信息是有限的。位于边界框之外的异常是类型0异常,或者个体大小异常。当N个投影中的任一个很大,即|Pi(A’)|>Si,i=1...,N时,该异常是个体大小异常。很多异常位于边界框内,是不明原因的异常。
图6a示出了用于异常根本原因分析的两个不同的边界框的构造。构造了大小边界框和主分量分析(PCA)边界框。图6a示出了图230,其具有正常数据点232和异常数据点234。在N维空间中(图6a-b中为二维),投影P1(A’),...,PN(A’)被定义为N个正交轴的每个上的投影或坐标。对于每个原始轴,与该轴正交并包围所有正常数据的最小边界被确定为边界框的界限。个体大小使用CS界限236和PS界限238构造边界框。所有的正常数据点都位于大小边界框内。然而,一些异常数据点s位于大小边界框内,且一些异常数据点位于大小边界框外。
基于PCA或者基于联合大小的边界框创建第二边界框。所有的异常数据点位于PCA边界框外。一些正常数据点位于PCA边界框内,且一些正常数据点位于PCA数据点外。在N维主分量(PC)空间中,PC1(A’),...,PCN(A’)被定义为原始变量的新的线性组合。PC空间包括特征向量,所述特征向量为原始变量的线性组合。在图6a中,线242和线240是特征向量。对应于大特征向量(图6a中的线242)的特征向量是主要特征向量,而对应于较小的特征值(图6a中的线240)的特征向量是次要特征向量。为了清晰起见示出了两个变量,然而更多的变量可以被用于PC分析,例如300个或者更多。
在图6b中,构造了PCA边界框,其具有主要界限254和次要界限252。点256描述了PCA边界框的界限,构成该界限使得所有的异常数据点部位于PCA边界框外。位于大小边界框内且位于PCA边界框外的异常数据点是类型1,或者称为关系类型异常,其中任意的单个变量的个体大小都是正常的,但是不同变量的值之间的关系是异常的。位于两个边界框外但在主要界限之间的异常数据点,例如线252,是类型II,或者是联合大小异常,其中至少一个变量的值位于正常界限外,但变量间的关系是正常的。位于两个边界框外且不在界限线之间的异常数据点既是类型I异常又是类型II异常,其中至少一个变量具有正常范围外的值且变量之间的关系是非典型的。
当检测到异常时,该异常与特定聚类相关联。可以使用硬聚类技术找到最可能的聚类索引或者隐藏模式。在硬聚类中,数据被分为不同的聚类,其中每个数据元素恰好属于一个聚类。基于数据点与哪个聚类最近或者基于附加信息,可以将数据点分配给聚类,所述附加信息为例如指示数据点应属聚类的元数据。在一示例中,对应于给定异常数据点(A)的最可能的聚类由下式得出:
H=arg max{P(cluster id|A)},
其考虑特定于小区或者时间的聚类的先验概率。在另一示例中,例如通过使用:
H=arg max{p(A|cluster id)}
来选择聚类,以最大化异常属于该聚类的似然。
该聚类中的数据点是标准化的。根据ClusterH,对于给定的异常数据点A,标准化的数据点由下式得出:
其中ClusterH是聚类的中心。调整标度以消除单位的影响,且使轴均等。
构成个体大小边界框,其是包括每个聚类的所有正常数据点的标准化数据向量空间中的最小超矩形。
确定基于PCA,关系,或者联合大小的边界框,其是排除每个数据聚类的所有历史的和当前的异常的最大超矩形。PCA边界框沿着主分量或者特征向量方向定向。PCA边界框可以被基于大小的边框包围。完成用于特征值分解的标准协方差矩阵的特征值分解以构造PCA边界框。确定主要特征向量PC(1),...,PC(N),其中PC(1)是对应于最大特征值的特征向量,PC(N)是对应于最小特征值的特征向量。PC变量可以以原始变量的线性组合表示。
基于异常相对于边界框所处的位置将异常分类。将异常数据点确定为个体大小异常和/或联合大小异常。标准化异常数据点A’的PC变量值被确定以构造PCA边界框。
确定来自每个N维标准化中PCA的第一阶的N个特征值,其中特征值从最小到最大排列:
λ1≤…≤λn≤Th≤…≤λN.
Th是阈值,其可以为1或者另一个适当的值。
空间被分解为两个相互正交的超子空间。一个空间被特征值小于1的聚类的次主导PC变量{PC(1),...,PC(n)},以及其他的特征值大于1的主导PC变量{PC(n+1),..,PC(N)}跨越。
当异常数据点A的次主导PCA分量的位置远离被{PC(1),..,PC(n)}跨越的空间中的原点时,原始变量间的一些关系已经破裂。这被称为类型I异常或者联合异常,且其是最常见的异常类型。PC1(A’),..,PCn(A’)是A的次主导PC值,即标准化的A’到次主导PC维度PC(1,..,PC(n)的投影。当投影很大时,例如对于i属于{1,...,n},|PCi(A’)|>εi,A’的原始变量间的关系破裂。当到次主导PC维度的所有投影都满足时,即对于所有的i属于{1,...,n},|PCi(A’)|≤εi,不存在关系破裂。由构造PCA边界框获得εi。大多数关系异常沿着短轴发生。
当异常数据点A’的主导PCA分量的位置显著远离被{PC(n+1),...,PC(N)}跨越的空间的原点时,异常是类型II异常或者PCA联合大小异常,且出现原始变量间的极端联合大小。PCn+1(A’),...,PCN(A’)是A’的主导PC值,即标准化的A到主导PC维度PC(n+1),...,PC(N)上的投影。当任一投影很大时,例如对于i属于{n+1,...,N},|PCi(A’)|>εi,在A’的原始变量间出现极端联合大小。当到主导PC维度上的所有投影都被满足时,即对于所有i属于{n+1,...,N),|PCi(A’)|≤εi,A’原始变量间不出现极端联合大小。εi由基于PCA的边界框获得。异常可以为类型I,类型II,或者既是类型I又是类型II。
可以基于边界框或者最接近异常的超平面表面确定涉及异常的变量的子集。PCi(A’)是从PCA获得的原始变量(X1,..,Xm)的线性组合。如果异常是PCA类型异常,基于落在边界框外并违反了对应的不平衡性的A’的PC维度的标识i,针对PCA关系破裂或者极端联合大小,评估原始变量,以在RCA中进行辅助。
图7a-g示出了几个示例性聚类的大小和PCA边界框。图7a示出了具有正常数据点262和异常数据点264的聚类的图260。线266和268构成大小边界框。线272示出了主要特征向量,线270示出了次要特征向量。PCA边界框由线278和线276构成。
图7b示出了图280,其具有正常数据点282和异常数据点284。大小边界框由线288和线286构成。线290示出了主要特征向量,而线292表示次要特征向量,PCA边界框由线294和线296构成。
图7c示出了图300,其具有正常数据点302和异常数据点304。大小边界框由线308和线306构成。线312示出了主要特征向量,线310示出了次要特征向量,PCA边界框由线314和线316构成。
图7d示出了图320,其具有正常数据点322和异常数据点324。大小边界框由线328和线326构成。线332示出了主要特征向量,线330示出了次要特征向量,PCA边界框由线334和线336构成。
图7e示出了图340,其具有正常数据点342和异常数据点344。大小边界框由线346和线348构成。线352示出了主要特征向量,线350示出了次要特征向量,PCA边界框由线356和线354构成。
图7f示出了图360,其具有正常数据点362和异常数据点364。正常边界框由线366和线368构成。线372示出了主要特征向量,线370示出了次要特征向量,PCA边界框由线374和线376构成。
图7g示出了图380,其具有正常数据点382和异常数据点384。大小边界框由线388和线386构成。线390示出了主要特征向量,线392示出了次要特征向量。此外,PCA边界框由线396和线394构成。
图8示出了基于PCA的根本原因分析的实施例方法的流程图400。首先,在步骤402中,系统接收训练数据。可以RNC接收训练数据,用于随时间推移的业务。在一示例中,训练数据是用于来自一个或多个RNC的网络中的数据的训练数据。该数据可以具有许多变量,例如300个或更多的变量,其影响数据集合。
接下来,在步骤404中,一种机器学习模型可以被用于从训练收据中分类异常,示例技术包括基于密度的技术,针对高维度数据的基于子空间和相关性的孤立点检测,单类支持向量机,复制器申请网络,基于聚类分析的孤立点检测,与关联规则和频繁项集的偏差,基于模糊逻辑的孤立点检测,使用特征包装(feature bagging),评分归一化,以及不同多样性来源的集合技术(ensemble techniques)。此外,可以基于训练数据执行聚类的硬检测。数据集可以被划分成多个正常的聚类。
然后,在步骤406中,基于步骤404中的机器学习模型确定异常检测算法。例如,可以将测试数据的GPLSA对数似然用于检测异常。
在步骤408中,使用PCA根本原因分析将异常分类。在聚类周围构造大小边界框和PCA边界框。基于异常所处的相对于边界框的位置将异常分类。大小边界框被构造为包括所有的正常数据点。为了确定PCA边界框,确定数据集合的特征向量,其为原始变量的线性组合。沿着特征向量轴,通过与特征向量平行的界限构造PCA边界框,其中所有的异常数据点位于PCA边界框外。当异常数据点位于大小边界框外但在PCA边界框界限内时,将其分类为大小类型异常。另一方面,当异常数据点位于大小边界框内且位于主要PCA界限外时,将其分类为联合异常。当异常位于大小边界框外且位于主要PCA边界框线外时,其被归类为大小异常和联合异常。此外,可以检测到相关变量。
图9示出了PCA异常根本原因分析实施例方法的流程图410。首先,在步骤426中,系统获得异常数据点和数据点分布。可以从例如RNC等网络接收所述数据。所述数据点分布可以包括正常数据的多个聚类,以及异常数据点。数据集合中可以存在许多变量,例如300个或更多的变量。所述异常数据点可以是已经例如使用机器学习模型检测出的异常。
然后,在步骤412中,系统将聚类分配给异常数据点。这可以使用硬聚类分析完成,其中每个异常被放置在一个聚类中。在一示例中,异常数据点被放置在最接近的聚类中。在另一示例中,为每个聚类计算似然评分,其中该似然评分表示异常数据点属于特定聚类的似然。附加信息,例如元数据,可以被用于给聚类分配异常数据点。例如,时期或者一天的时间可以被用于将异常数据点放置在聚类中。在一个示例中,对应于给定异常数据点(A)的最可能聚类或硬聚类由下式给出:
H=arg max{P(cluster id|A)},
其考虑特定于小区或时间的聚类的先验概率。在另一示例中,选择聚类以最大化异常的似然,例如使用:
H=arg max{p(A|cluster id)}。
接下来,在步骤414中,聚类中的数据点是标准化的。这是为了消除变量的标度的影响。对于给定的异常数据点A,根据ClusterH,标准化的数据点由下式得到:
在步骤416中,对聚类中的异常数据点执行PCA。确定特征向量和特征值,其中特征值对应每个特征向量。特征向量是原始变量的线性组合。
在步骤420中,使用原始轴为聚类构造大小边界框,使得所有的正常数据点位于大小边界框内。在N维空间中,投影被定义为N个正交轴中的每一个的坐标。使用与轴正交并包围所有正常数据的最小超矩形作为边界框。大小边界框可以在二维中可视化,但是可以使用更多维度。
在步骤422中,构造PCA边界框,使得所有的异常数据点位于PCA边界框外。N维PC空间被定义为原始变量的线性组合,其作为特征向量。对应于该特征向量的特征值按照从最小到最大的顺序放置。设置阈值(例如,1),其中在该阈值之下的对应于特征值的PC变量被分类为次主导PC变量,而大于或者等于该阈值的变量是主导PC变量。
接下来,在步骤424中,执行异常分类。根据异常相对于大小边界框和PCA边界框的方向,将异常分类。位于大小边界框内且位于PCA界限外的异常数据点被分类为关系类型异常。位于大小边界框外但位于主要PCA界限内的异常数据点是联合大小异常。位于大小边界框外且位于主要PCA界限外的异常数据点既是大小类型异常又是关系类型异常。当异常数据点的次主导PCA分量位于远离原点的位置时,存在关系类型异常。当异常数据点的主导PC分量位于显著地远离原点的位置时,该异常是大小类型异常。
最后,在步骤428中,确定与异常相关的变量,其可以是全部变量的子集。确定的变量可用于处理异常。
在一基于边界框的根本原因分析的实施例中,PCA被应用于异常的根本原因分析,其中基于关系和/或联合大小标度解释异常。异常可以被标记为由于关系破裂和/或一些或所有的原始变量的极端联合大小而引起的。还确定异常是否是由于一些或所有的原始变量的极端个体大小引起的。对于PCA类型异常,原始变量的特定的线性组合可以被用于确定异常的根本原因。确定涉及异常的多维集合中的原始变量,其可以导致校正措施或者补偿。
图10示出了用于执行本文描述的方法的实施例处理系统600的框图,其可以安装在主机设备上。如图所示,处理系统600包括:处理器604,存储器606,以及接口610-614,其可以(或可以不)被布置为图10中示出的那样。处理器604可以为任意适于执行运算和/或其他的处理相关任务的组件或者组件的集合,存储器606可以为任意适于存储被处理器604执行的程序和/或指令的组件或组件的集合。在一实施例中,存储器606包括非暂时性计算机可读介质。接口610,612,614可以为任意允许处理系统600与其他的设备/组件和/或用户通信的组件或组件的集合。例如,接口610,612,614中的一个或多个可以适于将来自处理器604的数据,控制,或者管理消息传送到安装在主机设备和/或远程设备上的应用。作为另一示例,接口610,612,614中的一个或多个可以适于允许用户或用户设备(例如,个人电脑(PC)等)与处理系统600交互/通信。处理系统600可以包括未在图10中示出的额外的组件,例如长期存储(例如,非易失性存储器等)。
在一些实施例中,处理系统600被包括在接入电信网络或者电信网络的一部分的网络设备中。在一示例中,处理系统600位于无线或有线电信网络中的网络侧设备中,例如基站,中继站,调度器,控制器,网关,路由器,应用服务器,或者电信网络中的任何其他设备。在其他实施例中,处理系统600位于接入无线或有线电信网络的用户侧设备中,例如移动站,用户设备(UE),个人电脑(PC),平板电脑,可穿戴通信设备(例如,智能手表等),或者其他的适于接入电信网络的设备。
在一些实施例中,接口610,612,614中的一个或多个将处理系统600与收发器连接,该收发器适于在电信网络上发送和接收信令。图11示出了收发器700的框图,其适于在电信网络上发送和接收信令。收发器700可以安装在主机设备上。如图所示,收发器700包括网络侧接口702,耦合器704,发送器706,接收器708,信号处理器710,以及设备侧接口712。网络侧接口702可以包括任意适于在无线或有线电信网络上发送或接收信令的组件或者组件的集合。耦合器704可以包括任意适于促进网络侧接口702上的双向通信的组件或组件的集合。发送器706可以包括任意适于将基带信号转换成适合于在网络侧接口702上传送的调制载波信号的组件或组件的集合(例如,上变频器,功率放大器等)。接收器708可以包括任意适于将网络侧接口702上接收的载波信号转换为基带信号的组件或组件的集合(例如,下变频器,低噪音放大器等)。信号处理器710可以包括任意适于将基带信号转换为适于在设备侧接口712上传送的数据信号(或反之亦然)的组件或组件的集合。设备侧接口712可以包括任意适于在信号处理器710和主机设备中的组件(例如,处理系统600,局域网(LAN)端口等)之间传送数据信号的组件或组件的集合。
收发器700可以在任意类型的通信介质上发送和接收信令。在一些实施例中,收发器700通过无线介质发送和接收信令。例如,收发器700可以是无线收发器,其适于根据无线电信协议(例如蜂窝协议(例如,长期演进(LTE)等),无线局域网(WLAN)协议(例如,Wi-Fi等),或者任意其他类型的无线协议(例如,蓝牙,近场通信(NFC)等))进行通信。在这样的实施例中,网络侧接口702包括一个或多个天线/辐射单元。例如,网络侧接口702可以包括单个天线,多个单独的天线,或者配置为用于多层通信的多天线阵列,例如,单输入多输出(SIMO),多输入单输出(MISO),多输入多输出(MIMO)等。在其他的实施例中,收发器700通过有线介质(例如,双绞线,同轴电缆,光纤等)发送和接收信令。特定的处理系统和/或收发器可以使用所有示出的所有组件,或者仅使用组件的一个子集,组件的集成度可以因设备而异。
在一实施例中,收发器包括用于接收异常数据点的装置,用于将异常数据点与大小边界框进行比较以产生第一比较的装置,以及用于将异常数据点与主分量分析(PCA)边界框进行比较以产生第二比较的装置。收发器还包括用于根据所述第一比较和所述第二比较将异常数据点分类以产生分类的装置。分类装置还包括用于确定所述异常数据点是大小异常,联合变量异常,或者既是大小异常又是联合变量异常的装置。在至少一个实施例中,分类装置被配置为处理具有多个变量的异常数据点,还包括用于识别异常数据点的变量的子集的装置,其中变量的子集中的变量与异常数据点相关。变量的子集中的变量可以包括大小类型变量,联合类型变量,或者既是大小类型变量又是联合类型变量的变量。分类装置还被配置为用于当异常数据点位于大小边界框外且位于PCA边界框的主要界限外时,确定异常数据点是大小类型数据点。
虽然在本公开中已经提供了几个实施例,但是应当理解,在不脱离本公开的精神或范围的情况下,所公开的系统和方法可以以很多其它具体形式来体现。本示例被认为是说明性的而不是限制性的,且其意图不限于本文给出的细节。例如,各种元件或组件可以组合或集成在另一系统中,或者某些特征可以被省略或不被实现。
此外,在不脱离本公开的范围的情况下,在各种实施例中描述和示出为分离的或独立的技术,系统,子系统,和方法可以与其他的系统,模块,技术,或者方法组合或集成。其他示出或讨论为彼此之间耦合或直接耦合或通信的项目可以为通过一些接口,设备,或者中间组件(无论是电气地,机械地,或者其他方面)间接耦合或通信。其他的改变,替代,变更的示例可由本领域的技术人员确定,并在不脱离本文公开的精神和范围的情况下完成。

Claims (21)

1.一种方法,包括:
接收异常数据点;
将所述异常数据点与大小边界框进行比较,以产生第一比较;
将所述异常数据点与主分量分析PCA边界框进行比较,以产生第二比较;以及
根据所述第一比较和所述第二比较,将所述异常数据点分类,以产生分类。
2.根据权利要求1所述的方法,其中分类所述异常数据点包括:确定所述异常数据点是大小异常,联合变量异常,或者既是大小异常又是联合变量异常。
3.根据权利要求1-2中任一项所述的方法,其中所述异常数据点具有多个变量,所述方法还包括:识别所述异常数据点的变量的子集,其中所述变量子集中的变量与所述异常数据点相关。
4.根据权利要求1-3中任一项所述的方法,其中所述变量子集中的变量可以包括:大小类型变量,联合类型变量,或者既是大小类型变量又是联合类型变量的变量。
5.根据权利要求1-4中任一项所述的方法,其中将所述异常数据点分类包括:当所述异常数据点位于所述大小边界框外且位于所述PCA边界框的主要界限外时,确定所述异常数据点是大小类型数据点。
6.根据权利要求1-5中任一项所述的方法,其中将所述异常数据点分类包括:当所述异常数据点位于所述大小边界框内时,确定所述异常数据点是联合变量异常。
7.根据权利要求1-6中任一项所述的方法,其中将所述异常数据点分类包括:当所述异常数据点位于所述大小边界框外且位于所述PCA边界框的主要界限外时,确定所述异常数据点既是大小异常又是联合变量异常。
8.根据权利要求1-7中任一项所述的方法,其中数据集合包括:多个正常数据点和多个异常数据点,其中所述大小边界框包括所有的所述多个正常数据点,且其中所述大小边界框的界限垂直于数据集合中的变量的轴。
9.根据权利要求1-8中任一项所述的方法,其中所述PCA边界框排除数据集合中的所有多个异常数据点,且所述PCA边界框的界限正交于所述数据集合的特征向量。
10.根据权利要求1-9中任一项所述的方法,其中获得所述异常数据点包括:从无线电网络控制器RNC获得所述异常数据点。
11.根据权利要求1-10中任一项所述的方法,还包括:将所述异常数据点与数据集合中的多个聚类中的聚类相关联。
12.根据权利要求1-11中任一项所述的方法,其中获得所述异常数据点包括:检测所述异常数据点。
13.根据权利要求1-12中任一项所述的方法,还包括:根据所述分类调整网络。
14.一种方法,包括:
接收数据集合,其中所述数据集合包括:多个正常数据点和多个异常数据点;
根据所述数据集合,构造大小边界框;以及
根据所述数据集合,构造主分量分析PCA边界框。
15.根据权利要求14所述的方法,其中构造所述大小边界框包括:构造多个正交边界,其中所述正交边界正交于所述数据集合中的变量,且其中所述大小边界框包围全部所述多个正常数据点。
16.根据权利要求14-15中任一项所述的方法,其中构造所述PCA边界框包括:
确定所述数据集合中的多个特征向量;
确定对应于所述多个特征向量的所述数据集合中多个特征值;以及
确定多对界限,其中界限对正交于特征向量。
17.根据权利要求14-16中任一项所述的方法,还包括:
将所述多个特征值排序;
将所述多个特征值中的特征值与阈值进行比较;
当所述特征值小于所述阈值时,确定对应于所述特征值的所述多个特征向量中的特征向量是次主导变量;以及
当所述特征值大于或等于所述阈值时,确定所述特征向量是主导特征向量。
18.根据权利要求14-17中任一项所述的方法,其中所述PCA边界框排除所有的所述多个异常数据点。
19.根据权利要求14-18中任一项所述的方法,还包括将所述数据集合划分为多个聚类。
20.根据权利要求14-19中任一项所述的方法,还包括将所述多个聚类中的聚类的数据点标准化。
21.一种计算机,包括:
处理器;以及
非临时性性计算机可读存储介质,存储由所述处理器执行的程序,所述程序包括指令以接收异常数据点,
将所述异常数据点与大小边界框进行比较,以产生第一比较,
将所述异常数据点与主分量分析PCA边界框进行比较,以产生第二比较,以及
根据所述第一比较和所述第二比较将所述异常数据点进行分类,以产生分类。
CN201680059140.3A 2015-10-09 2016-10-08 用于异常根本原因分析的系统和方法 Active CN108475250B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/879,778 US10193780B2 (en) 2015-10-09 2015-10-09 System and method for anomaly root cause analysis
US14/879,778 2015-10-09
PCT/CN2016/101506 WO2017059807A1 (en) 2015-10-09 2016-10-08 System and method for anomaly root cause analysis

Publications (2)

Publication Number Publication Date
CN108475250A true CN108475250A (zh) 2018-08-31
CN108475250B CN108475250B (zh) 2021-09-07

Family

ID=58488303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680059140.3A Active CN108475250B (zh) 2015-10-09 2016-10-08 用于异常根本原因分析的系统和方法

Country Status (4)

Country Link
US (1) US10193780B2 (zh)
CN (1) CN108475250B (zh)
HK (1) HK1253361A1 (zh)
WO (1) WO2017059807A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155755A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN112511372A (zh) * 2020-11-06 2021-03-16 新华三技术有限公司 一种异常检测方法、装置及设备
CN113705981A (zh) * 2021-08-03 2021-11-26 彭亮 一种基于大数据的异常监测的方法及装置
CN115114139A (zh) * 2021-03-17 2022-09-27 华为技术有限公司 异常检测方法及装置

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11105948B2 (en) * 2015-09-30 2021-08-31 Schlumberger Technology Corporation Downhole tool analysis using anomaly detection of measurement data
US10223191B2 (en) * 2016-07-20 2019-03-05 International Business Machines Corporation Anomaly detection in performance management
JP6919186B2 (ja) 2016-12-14 2021-08-18 オムロン株式会社 制御システム、制御プログラムおよび制御方法
EP3557354B1 (en) * 2016-12-14 2023-03-01 Omron Corporation Control device, control program, and control method
WO2018118314A1 (en) * 2016-12-22 2018-06-28 Acxiom Corporation Mixed data fingerprinting with principal components analysis
US10733294B2 (en) * 2017-09-11 2020-08-04 Intel Corporation Adversarial attack prevention and malware detection system
US10884805B2 (en) * 2018-02-15 2021-01-05 Amazon Technologies, Inc. Dynamically configurable operation information collection
CN110609759B (zh) * 2018-06-15 2021-09-14 华为技术有限公司 一种故障根因分析的方法及装置
US11374950B2 (en) 2018-06-29 2022-06-28 The Mitre Corporation Anomaly detection in complex systems
US11188865B2 (en) * 2018-07-13 2021-11-30 Dimensional Insight Incorporated Assisted analytics
US10769006B2 (en) * 2018-07-31 2020-09-08 Cisco Technology, Inc. Ensemble risk assessment method for networked devices
US10574512B1 (en) 2018-09-04 2020-02-25 Cisco Technology, Inc. Deep learning architecture for collaborative anomaly detection and explanation
CN113475157B (zh) 2018-12-22 2024-05-14 诺基亚通信公司 用于无线网络的连接行为标识
CN114629802B (zh) * 2021-11-04 2023-12-08 国网浙江省电力有限公司湖州供电公司 一种基于业务感知的电力通信骨干网络质量评估方法
CN117596126B (zh) * 2024-01-19 2024-03-26 合肥先进计算中心运营管理有限公司 一种针对高性能集群中高速网络异常的监控方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108042A1 (en) * 2000-07-14 2003-06-12 David Skillicorn Characterizing network traffic from packet parameters
CN102282516A (zh) * 2009-02-17 2011-12-14 株式会社日立制作所 异常检测方法及异常检测系统
US20130198565A1 (en) * 2010-01-28 2013-08-01 Drexel University Detection, diagnosis, and mitigation of software faults
CN103345593A (zh) * 2013-07-31 2013-10-09 哈尔滨工业大学 面向传感器单数据流的聚集异常检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070028219A1 (en) 2004-10-15 2007-02-01 Miller William L Method and system for anomaly detection
KR20080066653A (ko) 2005-06-29 2008-07-16 트러스티스 오브 보스턴 유니버시티 완전한 네트워크 변칙 진단을 위한 방법 및 장치와 트래픽피쳐 분포를 사용하여 네트워크 변칙들을 검출하고분류하기 위한 방법
JP5301717B1 (ja) 2012-08-01 2013-09-25 株式会社日立パワーソリューションズ 設備状態監視方法およびその装置
EP3058679B1 (en) * 2013-10-18 2018-10-03 Telefonaktiebolaget LM Ericsson (publ) Alarm prediction in a telecommunication network
CN107079315B (zh) * 2014-09-08 2020-11-24 诺基亚通信公司 用于配置动作的鲁棒验证的评分方法和系统
CN107211310B (zh) * 2014-12-15 2020-08-18 诺基亚通信公司 用于通信中的测量协调的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108042A1 (en) * 2000-07-14 2003-06-12 David Skillicorn Characterizing network traffic from packet parameters
CN102282516A (zh) * 2009-02-17 2011-12-14 株式会社日立制作所 异常检测方法及异常检测系统
US20130198565A1 (en) * 2010-01-28 2013-08-01 Drexel University Detection, diagnosis, and mitigation of software faults
CN103345593A (zh) * 2013-07-31 2013-10-09 哈尔滨工业大学 面向传感器单数据流的聚集异常检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155755A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 基于谱聚类的异常点比例优化方法、装置及计算机设备
CN112511372A (zh) * 2020-11-06 2021-03-16 新华三技术有限公司 一种异常检测方法、装置及设备
CN115114139A (zh) * 2021-03-17 2022-09-27 华为技术有限公司 异常检测方法及装置
CN113705981A (zh) * 2021-08-03 2021-11-26 彭亮 一种基于大数据的异常监测的方法及装置
CN113705981B (zh) * 2021-08-03 2022-08-30 北京鼎信泰德科技有限公司 一种基于大数据的异常监测的方法及装置

Also Published As

Publication number Publication date
US20170104657A1 (en) 2017-04-13
WO2017059807A1 (en) 2017-04-13
US10193780B2 (en) 2019-01-29
HK1253361A1 (zh) 2019-06-14
CN108475250B (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN108475250A (zh) 用于异常根本原因分析的系统和方法
US10541903B2 (en) Methodology to improve the anomaly detection rate
CN106464526B (zh) 检测异常的系统与方法
US10594379B2 (en) Facilitating an enhanced resource indicator for channel state reporting in a wireless communication system
US11057080B2 (en) Software-defined massive multi-input multi-output (MIMO)
CN116137947A (zh) 在无线通信系统中使用分层波束操作时缓解码本不准确的方法和设备
US20200067686A1 (en) Facilitating a mobile device specific physical downlink shared channel resource element mapping indicator
EP4443939A1 (en) Communication method and device
CN107615677A (zh) 天线阵列的信道信息反馈方法与装置
US11411600B2 (en) Processing of uplink data streams
Chatterjee et al. On optimal threshold selection in cooperative spectrum sensing for cognitive radio networks: an energy detection approach using fuzzy entropy maximization
CN117693021A (zh) 一种波束管理方法
Zhu et al. Channel sensing algorithm based on neural networks for cognitive wireless mesh networks
Asghar et al. Entropy field decomposition based outage detection for ultra-dense networks
US20190089426A1 (en) Communication device and method
Ojaghi et al. A supervised active learning method for identifying critical nodes in IoT networks
WO2024027424A1 (zh) 一种数据质量度量方法及装置
Vuppala et al. On the security region of best source indices in random wireless networks
US20230164039A1 (en) User Feedback for Learning of Network-Incident Severity
EP4407914A1 (en) Communication method and apparatus
US20240056865A1 (en) User equipment, base station and method performed by the same in wireless communication system
Khan Resource scheduling and cell association in 5G-V2X
US20240354591A1 (en) Communication method and apparatus
CN109547078B (zh) 通讯传输装置及方法
WO2024152600A1 (zh) 信息发送方法、接收方法、通信设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1253361

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant