CN111444247B - 一种基于kpi指标的根因定位方法、装置及存储介质 - Google Patents

一种基于kpi指标的根因定位方法、装置及存储介质 Download PDF

Info

Publication number
CN111444247B
CN111444247B CN202010551260.3A CN202010551260A CN111444247B CN 111444247 B CN111444247 B CN 111444247B CN 202010551260 A CN202010551260 A CN 202010551260A CN 111444247 B CN111444247 B CN 111444247B
Authority
CN
China
Prior art keywords
root cause
dimension
pruning
module
kpi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010551260.3A
Other languages
English (en)
Other versions
CN111444247A (zh
Inventor
程博
成逸然
张文池
李则言
隋楷心
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202010551260.3A priority Critical patent/CN111444247B/zh
Publication of CN111444247A publication Critical patent/CN111444247A/zh
Application granted granted Critical
Publication of CN111444247B publication Critical patent/CN111444247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本发明涉及计算机技术领域,公开了一种基于KPI指标的根因定位方法、装置及存储介质,其中方法包括如下步骤:通过异常检测得到所有维度组合的异常贡献;将所述异常贡献聚类确定搜索的排序;结合初剪枝,信息熵搜索规则和后剪枝找出根因候选集;在根因候选集中进行相似性组合得到最终结果。由于异常贡献数可加和的特性,使得我们的算法可以在先聚合后搜索和边聚合边搜索之间灵活的适配,针对不同大小的数据集可以在时间和空间之间找到最佳的均衡。

Description

一种基于KPI指标的根因定位方法、装置及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种基于KPI指标的根因定位方法、装置及存储介质。
背景技术
KPI指标(交易量,交易成功率,网页访问量等)与多维属性(如源系统、交易类型、交易渠道等),是金融行业常见而重要的业务监测指标。当一个指标的总体值发生异常时,运维人员希望在一个巨大的多维搜索空间内快速准确地定位出根因的属性组合,这对于传统的运维来说是一个极大的挑战。虽然目前也有一些通过机器学习来定位的算法和系统,但是这些方法往往并不通用和可靠。因为它们都受到不实际的根因假设的影响、进行了过于暴力的剪枝;或者只处理基础类型的指标(交易量等),而不处理派生的测量值(成功率等);另外现有的方法大部分都需要手动微调参数,或者速度太慢。
目前针对业务指标多维分析的算法(系统)主要有Adtributor、IDcie、Hotspot、Squeeze等。大多方法主要为理论推导,离实际落地还有一定的距离。
HotSpot和Squeeze都假设预测值准确,再进行后续的搜索步骤,这在现实中是难以达到的,预测/异常检测的准确性会直接决定了后续根因分析的结果。
Adtributor则是只假设根因是一维,而这样的假设是不适合于当前复杂的微服务系统的。Adtributor对于结果仅仅是简单依据奥多姆剃刀原则保留最简洁的那一个。
IDice则针对的是一段时间序列的根因定位,事先并不清楚异常的时间点,和我们的场景不同。这样会带来额外的时间开销。同时IDice采用了极其暴力的剪枝策略去减小搜索空间,用GLR (Generalized Like-lihood Ratio)进行异常检测,例如直接去掉小于某个阈值的节点(支持度),这样的剪枝会影响上层节点的根因判断。本质上更像是在对时间序列进行多维洞察,而不是准确的根因定位。
Adtributor和Squeeze虽然可以对派生指标进行根因定位,但是并不能做到跨指标的根因排序。
在实际的应用场景中,维度变化、取值数量变化以及数据组成变化都会影响资源的使用,之前的算法都没有针对不同数量级的数据做针对性处理,在数据量过大的时候容易导致内存溢出等问题。
发明内容
本发明的目的是解决上述提出的问题,提供一种“异常检测+搜索+聚类”的自动检测方法,本发明提供的技术方案为一种基于KPI指标的根因定位方法,包括:通过异常检测得到所有维度组合的异常贡献;将所述异常贡献聚类确定搜索的排序;结合初剪枝,信息熵搜索规则和后剪枝找出根因候选集;在根因候选集中进行相似性组合得到最终结果。
优选的,所述异常检测包括部分异常检测和全局异常检测,其中所述部分异常检测仅对叶子节点进行异常贡献检测,上层结点的异常贡献通过下层节点的异常贡献加和得到;所述全局异常检测对所有维度组合的异常贡献进行检测。
优选的,所述聚类确定搜索排序的具体方式为:根据聚类中心的大小划定簇,将不同异常贡献的维度组合聚到不同的簇中,优先在最大聚类中心所在的簇中进行搜素。
优选的,所述初剪枝包括预剪枝和聚类剪枝。
优选的,所述预剪枝对异常贡献为0的维度组合进行剪除。
优选的,所述聚类剪枝根据簇的数目及每个簇内的根因上限进行簇的剪除。
优选的,所述信息熵搜索的规则为:
当一个维度组合是候选根因,其信息熵显著大于其同层的其他维度组合的信息熵,并且大于直接相连的上一层节点和所有子节点。当找到一个维度组合满足上述条件时,算法将不会将其所有子节点作为候选根因;
当一个维度组合是候选根因,其解释性和惊奇性高于其他维度组合。
优选的,所述后剪枝包括MCTS(Monte Carlo Tree Search,蒙特卡洛树搜索)剪枝和终剪枝。
优选的,所述MCTS剪枝方式为
为每一个节点定义N和Q两个参数,前者代表每一个节点vi被模拟访问的次数,后者代表每一个节点vi的模拟收益之和,用计算出的异常贡献来表示模拟收益;
选择模拟收益最大的节点继续按所述信息熵规则搜索找到候选根因;
计算每个即将访问的节点的UCT(UCB for Tree,上限信心界树搜索)值,下式中v代表所有节点:
选择UCT值作为下一步搜索的路径,剪除其他节点。
优选的,所述终剪枝方式为:
在搜索出一个候选根因之后,剪除其子节点;
当前节点取值为空则会继续向下搜索;
当前节点只有一个直接点,继续向下搜索,找到所有候选根因集。
优选的,所述相似性组合方式为:
可加和KPI指标使用JS(Jensen-Shannon)散度对不同的维度组合之间做分布相似性度量;
不可加和KPI使用Wasserstein距离衡量相似性;
将相似性的维度组合进行合并得到最终结果。
基于同样的发明构思,本发明另提供一种基于KPI指标的根因定位装置,包括:
异常检测模块,以获取所有维度组合的异常贡献;
聚类排序模块,将所述异常贡献按聚类中心的大小进行搜索的排序;
初剪枝模块、信息熵搜索规则定义模块和后剪枝模块,结合所述初剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集;
相似性组合模块,在所述根因候选集中进行相似性组合得到最终结果。
本发明另提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述任一项所述的基于KPI指标的多维异常检测方法。
本发明的有益效果是:
(1)本发明支持的维度在10维以上,典型分析的结果超过3维,是一套完全可实践、在生产上得到验证的方法。
(2)本发明是一种与指标含义无关的异常检测方法,可以在多个指标同时异常时给出统一的异常得分,例如,交易量、成功率、响应时间等。由于异常贡献可加和的特性,使得我们的算法可以在先聚合后搜索和边聚合边搜索之间灵活的适配,针对不同大小的数据集可以在时间和空间之间找到最佳的均衡。
(3)本发明充分考虑了派生测量值如成功率的影响,结果更精确,本发明对这类数据做了应对化的处理,可以准确找到外部根因并给出对应的提示。
(4)对于最终的结果,不仅按照分数大小进行排序,还会根据他们之间数据的相似性和结点关系做出智能的结果合并,以求给出更准确、精细的利于排障的信息。
附图说明
图1为本发明提供的根因定位方法流程图;
图2为本发明提供的根因定位方法聚类图;
图3为本发明提供的信息熵搜索规则中的解释性示意图;
图4为本发明提供的信息熵搜素规则中的惊奇性示意图;
图5为本发明提供的MCTS剪枝示意图;
图6为本发明提供的根因定位方法流程图;
图7为本发明提供的根因定位方法MCTS剪枝步骤流程图;
图8为本发明提供的根因定位方法终剪枝步骤流程图。
具体实施方式
下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明提供一种基于KPI的根因定位方法,如图6所示包括:
S1. 通过异常检测得到所有维度组合的异常贡献;异常检测包括部分异常检测和全局异常检测,部分异常检测仅对叶子节点进行异常贡献检测,上层结点的异常贡献通过下层节点的异常贡献加和得到;全局异常检测对所有维度组合的异常贡献进行检测。
S2. 将所述异常贡献聚类确定搜索的排序,聚类确定搜索排序的具体方式为:根据聚类中心的大小划定簇,将不同异常贡献的维度组合聚到不同的簇中,优先在最大聚类中心所在的簇中进行搜素。
S3. 结合初剪枝,信息熵搜索规则和后剪枝找出根因候选集;
初剪枝包括预剪枝和聚类剪枝;预剪枝对异常贡献为0的维度组合进行剪除。聚类剪枝根据簇的数目及每个簇内的根因上限进行簇的剪除;
一些可选实施例中,信息熵搜索的规则为:
当一个维度组合是候选根因,其信息熵显著大于其同层的其他维度组合的信息熵,并且大于直接相连的上一层节点和所有子节点。当找到一个维度组合满足上述条件时,算法将不会将其所有子节点作为候选根因;
当一个维度组合是候选根因,其解释性和惊奇性高于其他维度组合。
后剪枝包括MCTS剪枝和终剪枝,如图7所示,MCTS剪枝方式为:
S301. 为每一个节点定义N和Q两个参数,前者代表每一个节点被模拟访问的次数,后者代表每一个节点的模拟收益之和,用计算出的异常贡献来表示模拟收益;
S302. 选择模拟收益最大的节点继续按所述信息熵规则搜索找到候选根因;
S303. 计算每个即将访问的节点的UCT值,下式中v代表所有节点:
S304. 选择UCT值作为下一步搜索的路径,剪除其他节点。
如图8所示,终剪枝方式为:
S311. 在搜索出一个候选根因之后,剪除其子节点;
S312. 当前节点取值为空则会继续向下搜索;
S313. 当前节点只有一个直接点,继续向下搜索,找到所有候选根因集。
S4. 在根因候选集中进行相似性组合得到最终结果,相似性组合方式为:
可加和KPI指标使用JS散度对不同的维度组合之间做分布相似性度量;
不可加和KPI使用Wasserstein距离衡量相似性;
将相似性的维度组合进行合并得到最终结果。
基于同样的发明构思,本发明另提供一种基于KPI指标的根因定位装置,包括:
异常检测模块,以获取所有维度组合的异常贡献;
聚类排序模块,将所述异常贡献按聚类中心的大小进行搜索的排序;
初剪枝模块、信息熵搜索规则定义模块和后剪枝模块,结合所述初剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集;
相似性组合模块,在所述根因候选集中进行相似性组合得到最终结果。
本发明另提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述任一项所述的基于KPI指标的多维异常检测方法。
实施例1 本实施例提供一种基于KPI指标的根因定位方法
如图1所示,本实施例提出名为Volcano的根因定位方法,区别于现有的大部分算法和系统,采用“异常检测+搜索+聚合”的策略。
当金融系统发生了一个告警,先读取告警前后P+Q分钟的交易明细数据作为输入数据,这里的数据输入源可能是elasticsearch,也可以是kafka或者是指定格式的csv文件。然后会根据告警发生时刻的维度组合对其他时间的数据进行缺失值填充,接着对当前数据规模进行评估。
对于多指标的数据,随着维度及维度取值的增加,叶子结点的数据较少,极端情况下只会有0或者1,这种情况下做异常检测会极为不准确。因此采用需要采用基于“影响力”的自研算法。在不同的KPI间可环比参考。下面详细介绍全局异常检测算法:
首先根据单指标数据历史情况提取出以下特征,以下只列出部分公共特征,针对不同单指标的KPI公共特征,还会添加部分特征进来,例如趋势性、周期性、杂乱性等。
表1 KPI公共特征
利用滑动窗口,提取某一指标当前全部明细数据,即所有维度组合时间序列(P+Q)上每一个点的特征值,记为。对给定训练集X,随机抽取k个样本点构成X的子集Xk,每次随机从Xk中指定一个特征值q,并随机产生一个切割点p。此切割点p生成了一个超平面,将当前数据空间划分为两个子空间:指定维度小于p的样本点放入左子节点,大于或等于p的放入右子节点。直到所有叶子结点只有一个样本点或者到达指定层数后停止分裂,生成了t棵二叉树,记录为T1
然后提取除当前维度组合Y之外的其他明细数据的特征集合X-Y,重复上述训练步骤,得到T2。对于需要进行异常检测的维度组合,将该维度组合的子节点的xi特征向量分别带入T1和T2,计算该子节点xi在T1和T2中的平均高度h1和h2,即树的度数,也可称为最短路径。所有子节点在T1和T2中的平均高度记为c1和c2,c1和c2通过每个子节点或叶子节点在T1和T2中的平均高度加权平均得到。
定义任一维度组合在指标a下的异常对指标a的全局影响或异常贡献分数Ia为:
当异常事故发生,往往多个关联指标异常时,最终得到每个维度组合的异常贡献分数为多个关联指标的影响的平均值。
如图2所示,将异常分数的PDF图进行聚类,确定后续搜索的顺序及根因的选择,不同异常贡献的维度组合会被聚到不同的簇中,每一条实线代表一个聚类中心,这里的聚类方法是先找到异常得分PDF图中的所有极大值和极小值。每一个极大值相邻的两个极小值决定的范围被聚为一个簇。
算法会先在聚类中心最大的簇中搜索根因,模拟信息熵的计算来定义候选根因。当一个维度组合是根因会有如下表现:其信息熵显著大于其同层的其他维度组合的信息商,并且大于其上一层节点和所有子节点。同时,这也是我们剪枝的一部分,当找到一个维度组合满足上述条件时,算法将不会将其所有子节点作为根因候选集。同时算法会综合考虑解释性和惊奇性,即该维度组合能否解释当前整体KPI的变化情况,以及这个变化是否“惊奇”,如图3所示,组合1的解释性高于组合2,因此组合1更有可能是根因,如图4所示,组合2的惊奇性高于组合1,因此组合2更有可能是根因。重复上述过程,找到所有的候选根因集。
Volcano的剪枝是以改良MCTS为主要框架,多种剪枝并行的剪枝策略。
预剪枝:由于Volcano内置的异常检测算法计算的异常得分都是可向上加和的,所以如果一个结点异常得分等于0,则一定不是根因。利用这种方式对搜索树进行预剪枝,一般来说,可以减掉50%以上的结点。
聚类剪枝:在上述聚类算法中提到会根据结点的异常得分的PDF进行极大极小值巨聚类,在每个簇内部单独进行搜索。Volcano可以根据用户需求配置搜索的簇的数目以及每个簇内部的根因数目上限来达到剪枝的目的。
MCTS剪枝:利用采样的思想模拟搜索,然后反向传播更新每个结点的“收益”,选择“收益”最大的结点继续搜索,直到找到根因为止。如图5所示,深色的点代表已经被搜索过的点,浅色的点是下一步搜索的备选结点。
为每一个结点定义N和Q两个参数。前者代表该节点Vi被模拟访问的次数,后者代表该节点Vi的模拟收益之和,这里用计算出的异常检测得分来表示模拟收益。最后,计算每个备选结点的UCT值,选择UCT值作为下一步搜索的路径,其他的节点会被剪枝掉。
后剪枝:在搜索出一个候选根因之后,其子节点将被剪枝掉而不再被作为根因。为了应对实际情况,后剪枝还做了一些特殊优化,例如如果当前节点取值为空则会继续向下搜索、如果当前节点只有一个直接点(1对1),则继续向下搜索等。
在找到了所有的候选根因集之后,我们会对不同的维度组合之间做分布相似性度量,根据KPI指标的不同,可加和KPI(交易量,失败量,响应时间等)主要使用JS散度。不可加和KPI(成功率,响应率等)使用Wasserstein距离衡量相似性。目的是将相似的维度组合进行合并,精简结果。
在优选的实施例中,提供一种基于KPI指标的根因定位装置,包括:
异常检测模块,以获取所有维度组合的异常贡献;
聚类排序模块,将所述异常贡献按聚类中心的大小进行搜索的排序;
初剪枝模块、信息熵搜索规则定义模块和后剪枝模块,结合所述初剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集;
相似性组合模块,在所述根因候选集中进行相似性组合得到最终结果。
其中,
异常检测模块包括部分异常检测模块和全局异常检测模块,异常检测模块仅对叶子节点进行异常贡献检测,上层结点的异常贡献通过下层节点的异常贡献加和得到;全局异常检测模块对所有维度组合的异常贡献进行检测。
聚类排序模块包括簇子模块,根据聚类中心的大小划定簇,将不同异常贡献的维度组合聚到不同的簇中,优先在最大聚类中心所在的簇中进行搜素。
初剪枝模块包括预剪枝模块和聚类剪枝模块,预剪枝模块对异常贡献为0的维度组合进行剪除;聚类剪枝模块根据簇的数目及每个簇内的根因上限进行簇的剪除。
信息熵搜索规则定义模块的规则定义为:
当一个维度组合是候选根因,其信息熵显著大于其同层的其他维度组合的信息熵,并且大于直接相连的上一层节点和所有子节点。当找到一个维度组合满足上述条件时,算法将不会将其所有子节点作为候选根因;
当一个维度组合是候选根因,其解释性和惊奇性高于其他维度组合。
后剪枝模块包括MCTS剪枝模块和终剪枝模块,
MCTS剪枝模块为每一个节点定义N和Q两个参数,前者代表每一个节点被模拟访问的次数,后者代表每一个节点的模拟收益之和,用计算出的异常贡献来表示模拟收益;
选择模拟收益最大的节点继续按所述信息熵规则搜索找到候选根因;
计算每个即将访问的节点的UCT值:
选择UCT值作为下一步搜索的路径,剪除其他节点。
终剪枝模块在搜索出一个候选根因之后,剪除其子节点;
当前节点取值为空则会继续向下搜索;
当前节点只有一个直接点,继续向下搜索,找到所有候选根因集。
相似性组合模块将可加和KPI指标使用JS散度对不同的维度组合之间做分布相似性度量,不可加和KPI使用Wasserstein距离衡量相似性,将相似性的维度组合进行合并得到最终结果。
在更优选的实施例中,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,计算机程序用于执行上述任一项异常检测方法。
通过对大量金融数据的分析,区别于现有的大部分算法和装置,采用“全局异常检测”的策略。由于金融行业大部分数据都是多指标同时异常的情况,因此本实施例是一种与指标含义无关的异常检测方法。在搜索方面,使用了一套可伸缩的搜索方案,在时间效率和空间效率上灵活切换,以适应不同规模大小的数据,并且引入MCTS来剪枝加快搜索。和之前的“自上而下”的搜索模式不同,Volcano在搜索之前会先进行“自下而上”的聚类,一方面可以更有效的进行根因的搜索,另一方面可以作为剪枝手段来减小搜索空间。最后Volcano还会对结果进行相似性检验,既能够在指标内部对结果进行合并,而且还可以解决多指标相互包含的问题。
以上所述的具体实施例,对本发明的目的,技术方案和有益效果进行了进一步详细说明,此外,应当理解,虽然本说明书按照实施方式加以描述,但上述实施例是示例性的,并不用于限定本发明的保护范围,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下对上述实施例进行的任何变化、修改、替换和变型,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于KPI指标的根因定位装置,包括:
异常检测模块,包括部分异常检测模块和全局异常检测模块,部分异常检测模块仅对叶子节点进行异常贡献检测,上层结点的异常贡献通过下层节点的异常贡献加和得到;全局异常检测模块对所有维度组合的异常贡献进行检测;
其中,全局异常检测模块用于,当金融系统发生了一个告警,先读取告警前后P+Q分钟的交易明细数据作为输入数据,这里的数据输入源为elasticsearch、kafka或者指定格式的csv文件,根据告警发生时刻的维度组合对其他时间的数据进行缺失值填充,接着对当前数据规模进行评估;对于多指标的数据,随着维度及维度取值的增加,叶子结点的数据较少,此时,根据单指标数据历史情况提取出公共特征,所述公共特征包括均值mean、标准差std、极限值max/min、当前维度出现频率tf、当前维度逆文本频率指数idf、线性强度linearity、曲率强度curvature、光谱熵,针对不同单指标的KPI公共特征,还添加趋势性、周期性、杂乱性;利用滑动窗口,提取某一指标当前全部明细数据,即所有维度组合时间序列P+Q分钟上每一个点的特征值,记为X={x1,x2......xn},对给定训练集X,随机抽取k个样本点构成X的子集Xk,每次随机从Xk中指定一个特征值q,并随机产生一个切割点p,此切割点p生成了一个超平面,将当前数据空间划分为两个子空间,指定维度小于p的样本点放入左子节点,大于或等于p的放入右子节点,直到所有叶子结点只有一个样本点或者到达指定层数后停止分裂,生成了t棵二叉树,记录为T1;然后提取除当前维度组合Y之外的其他明细数据的特征集合X-Y,重复上述训练步骤,得到T2,对于需要进行异常检测的维度组合,将该维度组合的子节点的xi特征向量分别带入T1和T2,计算该子节点xi在T1和T2中的平均高度h1和h2,即树的度数,也可称为最短路径,所有子节点在T1和T2中的平均高度记为c1和c2,c1和c2通过每个子节点或叶子节点在T1和T2中的平均高度加权平均得到;定义任一维度组合在指标a下的异常对指标a的全局影响或异常贡献分数Ia为:
当异常事故发生,往往多个关联指标异常时,最终得到每个维度组合的异常贡献分数为多个关联指标的影响的平均值;
通过上述异常检测以得到所有维度组合的可加和的异常贡献分数;
聚类排序模块,将所述异常贡献分数的PDF图进行聚类,按聚类中心的大小进行搜索的排序,按照聚类中心的大小划定簇,将不同异常贡献分数的维度组合聚到不同的簇中;所述聚类先找到异常贡献分数PDF图中的所有极大值和极小值,每一个极大值相邻的两个极小值决定的范围被聚为一个簇,先在聚类中心最大的簇中搜索根因;
预剪枝模块,用于将贡献为0的子节点进行剪除;
聚类剪枝模块,根据所述簇的数目及每个簇内的根因上限进行簇的剪除;
信息熵搜索规则定义模块,用于定义:当一个维度组合是候选根因,其信息熵显著大于其同层的其他维度组合的信息熵,并且大于直接相连的上一层节点和所有子节点,当找到一个维度组合满足上述条件时,将不会将其所有子节点作为候选根因;
当一个维度组合是候选根因,其解释性和惊奇性高于其他维度组合;
所述基于KPI指标的根因定位装置还包括:
后剪枝模块,结合所述预剪枝模块、聚类剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集;
相似性组合模块,在根因候选集中,对于可加和KPI指标采用JS散度对不同的维度组合之间做分布相似性度量,对于不可加和KPI指标采用Wasserstein距离衡量相似性以进行相似性组合得到最终结果;
所述KPI指标为交易量,交易成功率和网页访问量指标,所述KPI指标使用告警前后P+Q分钟的交易明细数据作为输入数据;
所述KPI指标的公共特征包括均值、标准差、极限值、当前维度出现频率、当前维度逆文本频率指数、一阶自相关系数、线性强度、曲率强度、与前面点的差值、残差变化标准差、交叉点个数和光谱熵。
CN202010551260.3A 2020-06-17 2020-06-17 一种基于kpi指标的根因定位方法、装置及存储介质 Active CN111444247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010551260.3A CN111444247B (zh) 2020-06-17 2020-06-17 一种基于kpi指标的根因定位方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010551260.3A CN111444247B (zh) 2020-06-17 2020-06-17 一种基于kpi指标的根因定位方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111444247A CN111444247A (zh) 2020-07-24
CN111444247B true CN111444247B (zh) 2023-10-17

Family

ID=71655387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010551260.3A Active CN111444247B (zh) 2020-06-17 2020-06-17 一种基于kpi指标的根因定位方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111444247B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897673B (zh) * 2020-07-31 2022-10-21 平安科技(深圳)有限公司 运维故障根因识别方法、装置、计算机设备和存储介质
CN112702198B (zh) * 2020-12-18 2023-03-14 北京达佳互联信息技术有限公司 异常根因定位方法、装置、电子设备及存储介质
CN112949983A (zh) * 2021-01-29 2021-06-11 北京达佳互联信息技术有限公司 一种根因确定方法及装置
CN112929363B (zh) * 2021-02-04 2022-05-17 北京字跳网络技术有限公司 视频领域性能参数异常的根因分析方法及设备
CN113824583A (zh) * 2021-02-22 2021-12-21 京东科技控股股份有限公司 根因元素的定位方法、装置、计算机设备及存储介质
CN113157473A (zh) * 2021-03-25 2021-07-23 清华大学 一种对多维日志的故障根因定位方法和装置
CN113179179B (zh) * 2021-04-22 2023-01-06 南京大学 一种用于定位服务调用成功率指标异常线索的方法
CN113128875B (zh) * 2021-04-22 2024-02-27 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113032238B (zh) * 2021-05-25 2021-08-17 南昌惠联网络技术有限公司 基于应用知识图谱的实时根因分析方法
CN113448761A (zh) * 2021-06-17 2021-09-28 新浪网技术(中国)有限公司 一种根因定位方法及装置
CN113420804A (zh) * 2021-06-18 2021-09-21 工业互联网创新中心(上海)有限公司 数据处理方法、装置、网络设备及存储介质
CN113516518B (zh) * 2021-07-28 2024-04-05 阳光保险集团股份有限公司 参数异常原因的确定方法、装置、电子设备及存储介质
CN115277245A (zh) * 2022-08-10 2022-11-01 清华大学 基于属性的多维异常根因定位方法、系统及存储介质
CN115756919B (zh) * 2022-11-10 2023-10-31 上海鼎茂信息技术有限公司 一种面向多维数据的根因定位方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN111064614A (zh) * 2019-12-17 2020-04-24 腾讯科技(深圳)有限公司 一种故障根因定位方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Generic and Robust Localization of Multi-dimensional Root Causes;Zeyan Li 等;《2019 IEEE 30th International Symposium on Software Reliability Engineering》;20191031;第47-56页 *
HotSpot: Anomaly Localization for Additive KPIs With Multi-Dimensional Attributes;Yongqian Sun 等;《IEEE Access》;20180315;第10909-10923页 *

Also Published As

Publication number Publication date
CN111444247A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN111444247B (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
Nagy et al. Predicting dropout in higher education based on secondary school performance
CN111506637B (zh) 一种基于kpi指标的多维异常检测方法、装置及存储介质
Trstenjak et al. KNN with TF-IDF based framework for text categorization
US10068176B2 (en) Defect prediction method and apparatus
CN110928764B (zh) 移动应用众包测试报告自动化评估方法及计算机存储介质
US8682813B2 (en) Sample class prediction method, prediction program, and prediction apparatus
CN109800288B (zh) 一种基于知识图谱的科学研究热点分析与预测方法
JP2005122533A (ja) 質問応答システムおよび質問応答処理方法
Ismi et al. K-means clustering based filter feature selection on high dimensional data
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN110457595A (zh) 突发事件报警方法、装置、系统、电子设备及存储介质
CN104615621B (zh) 搜索中的相关性处理方法和系统
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN109978023A (zh) 面向高维大数据分析的特征选择方法及计算机存储介质
JP2006318013A (ja) 評価装置及びそのコンピュータプログラム
CN113192629B (zh) 用于自动胎心判读的方法和装置
CN109300030A (zh) 实现股票投资推荐的方法和装置
CN109300031A (zh) 基于股票评论数据的数据挖掘方法和装置
CN109145554A (zh) 一种基于支持向量机的击键特征异常用户识别方法及系统
CN111108516B (zh) 使用深度学习算法来评价输入数据
CN113435655B (zh) 扇区动态管理决策方法、服务器及系统
Wang et al. Analysis of the K12 education of United States using machine learning and data mining techniques
Syafei et al. Machine Learning Model Using Extreme Gradient Boosting (XGBoost) Feature Importance and Light Gradient Boosting Machine (LightGBM) to Improve Accurate Prediction of Bankruptcy
CN116228484B (zh) 基于量子聚类算法的课程组合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant