CN111444247B

CN111444247B - 一种基于kpi指标的根因定位方法、装置及存储介质

Info

Publication number: CN111444247B
Application number: CN202010551260.3A
Authority: CN
Inventors: 程博; 成逸然; 张文池; 李则言; 隋楷心; 刘大鹏
Original assignee: Beijing Bishi Technology Co ltd
Current assignee: Beijing Bishi Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-10-17
Anticipated expiration: 2040-06-17
Also published as: CN111444247A

Abstract

本发明涉及计算机技术领域，公开了一种基于KPI指标的根因定位方法、装置及存储介质，其中方法包括如下步骤：通过异常检测得到所有维度组合的异常贡献；将所述异常贡献聚类确定搜索的排序；结合初剪枝，信息熵搜索规则和后剪枝找出根因候选集；在根因候选集中进行相似性组合得到最终结果。由于异常贡献数可加和的特性，使得我们的算法可以在先聚合后搜索和边聚合边搜索之间灵活的适配，针对不同大小的数据集可以在时间和空间之间找到最佳的均衡。

Description

一种基于KPI指标的根因定位方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种基于KPI指标的根因定位方法、装置及存储介质。

背景技术

KPI指标（交易量，交易成功率，网页访问量等）与多维属性（如源系统、交易类型、交易渠道等），是金融行业常见而重要的业务监测指标。当一个指标的总体值发生异常时，运维人员希望在一个巨大的多维搜索空间内快速准确地定位出根因的属性组合，这对于传统的运维来说是一个极大的挑战。虽然目前也有一些通过机器学习来定位的算法和系统，但是这些方法往往并不通用和可靠。因为它们都受到不实际的根因假设的影响、进行了过于暴力的剪枝；或者只处理基础类型的指标（交易量等），而不处理派生的测量值（成功率等）；另外现有的方法大部分都需要手动微调参数，或者速度太慢。

目前针对业务指标多维分析的算法（系统）主要有Adtributor、IDcie、Hotspot、Squeeze等。大多方法主要为理论推导，离实际落地还有一定的距离。

HotSpot和Squeeze都假设预测值准确，再进行后续的搜索步骤，这在现实中是难以达到的，预测/异常检测的准确性会直接决定了后续根因分析的结果。

Adtributor则是只假设根因是一维，而这样的假设是不适合于当前复杂的微服务系统的。Adtributor对于结果仅仅是简单依据奥多姆剃刀原则保留最简洁的那一个。

IDice则针对的是一段时间序列的根因定位，事先并不清楚异常的时间点，和我们的场景不同。这样会带来额外的时间开销。同时IDice采用了极其暴力的剪枝策略去减小搜索空间，用GLR (Generalized Like-lihood Ratio)进行异常检测，例如直接去掉小于某个阈值的节点（支持度），这样的剪枝会影响上层节点的根因判断。本质上更像是在对时间序列进行多维洞察，而不是准确的根因定位。

Adtributor和Squeeze虽然可以对派生指标进行根因定位，但是并不能做到跨指标的根因排序。

在实际的应用场景中，维度变化、取值数量变化以及数据组成变化都会影响资源的使用，之前的算法都没有针对不同数量级的数据做针对性处理，在数据量过大的时候容易导致内存溢出等问题。

发明内容

本发明的目的是解决上述提出的问题，提供一种“异常检测+搜索+聚类”的自动检测方法，本发明提供的技术方案为一种基于KPI指标的根因定位方法，包括：通过异常检测得到所有维度组合的异常贡献；将所述异常贡献聚类确定搜索的排序；结合初剪枝，信息熵搜索规则和后剪枝找出根因候选集；在根因候选集中进行相似性组合得到最终结果。

优选的，所述异常检测包括部分异常检测和全局异常检测，其中所述部分异常检测仅对叶子节点进行异常贡献检测，上层结点的异常贡献通过下层节点的异常贡献加和得到；所述全局异常检测对所有维度组合的异常贡献进行检测。

优选的，所述聚类确定搜索排序的具体方式为：根据聚类中心的大小划定簇，将不同异常贡献的维度组合聚到不同的簇中，优先在最大聚类中心所在的簇中进行搜素。

优选的，所述初剪枝包括预剪枝和聚类剪枝。

优选的，所述预剪枝对异常贡献为0的维度组合进行剪除。

优选的，所述聚类剪枝根据簇的数目及每个簇内的根因上限进行簇的剪除。

优选的，所述信息熵搜索的规则为：

当一个维度组合是候选根因，其信息熵显著大于其同层的其他维度组合的信息熵，并且大于直接相连的上一层节点和所有子节点。当找到一个维度组合满足上述条件时，算法将不会将其所有子节点作为候选根因；

当一个维度组合是候选根因，其解释性和惊奇性高于其他维度组合。

优选的，所述后剪枝包括MCTS（Monte Carlo Tree Search，蒙特卡洛树搜索）剪枝和终剪枝。

优选的，所述MCTS剪枝方式为

为每一个节点定义N和Q两个参数，前者代表每一个节点v_i被模拟访问的次数，后者代表每一个节点v_i的模拟收益之和，用计算出的异常贡献来表示模拟收益；

选择模拟收益最大的节点继续按所述信息熵规则搜索找到候选根因；

计算每个即将访问的节点的UCT（UCB for Tree，上限信心界树搜索）值，下式中v代表所有节点：

；

选择UCT值作为下一步搜索的路径，剪除其他节点。

优选的，所述终剪枝方式为：

在搜索出一个候选根因之后，剪除其子节点；

当前节点取值为空则会继续向下搜索；

当前节点只有一个直接点，继续向下搜索，找到所有候选根因集。

优选的，所述相似性组合方式为：

可加和KPI指标使用JS（Jensen-Shannon）散度对不同的维度组合之间做分布相似性度量；

不可加和KPI使用Wasserstein距离衡量相似性；

将相似性的维度组合进行合并得到最终结果。

基于同样的发明构思，本发明另提供一种基于KPI指标的根因定位装置，包括：

异常检测模块，以获取所有维度组合的异常贡献；

聚类排序模块，将所述异常贡献按聚类中心的大小进行搜索的排序；

初剪枝模块、信息熵搜索规则定义模块和后剪枝模块，结合所述初剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集；

相似性组合模块，在所述根因候选集中进行相似性组合得到最终结果。

本发明另提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述任一项所述的基于KPI指标的多维异常检测方法。

本发明的有益效果是：

（1）本发明支持的维度在10维以上，典型分析的结果超过3维，是一套完全可实践、在生产上得到验证的方法。

（2）本发明是一种与指标含义无关的异常检测方法，可以在多个指标同时异常时给出统一的异常得分，例如，交易量、成功率、响应时间等。由于异常贡献可加和的特性，使得我们的算法可以在先聚合后搜索和边聚合边搜索之间灵活的适配，针对不同大小的数据集可以在时间和空间之间找到最佳的均衡。

（3）本发明充分考虑了派生测量值如成功率的影响，结果更精确，本发明对这类数据做了应对化的处理，可以准确找到外部根因并给出对应的提示。

（4）对于最终的结果，不仅按照分数大小进行排序，还会根据他们之间数据的相似性和结点关系做出智能的结果合并，以求给出更准确、精细的利于排障的信息。

附图说明

图1为本发明提供的根因定位方法流程图；

图2为本发明提供的根因定位方法聚类图；

图3为本发明提供的信息熵搜索规则中的解释性示意图；

图4为本发明提供的信息熵搜素规则中的惊奇性示意图；

图5为本发明提供的MCTS剪枝示意图；

图6为本发明提供的根因定位方法流程图；

图7为本发明提供的根因定位方法MCTS剪枝步骤流程图；

图8为本发明提供的根因定位方法终剪枝步骤流程图。

具体实施方式

下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明提供一种基于KPI的根因定位方法，如图6所示包括：

S1. 通过异常检测得到所有维度组合的异常贡献；异常检测包括部分异常检测和全局异常检测，部分异常检测仅对叶子节点进行异常贡献检测，上层结点的异常贡献通过下层节点的异常贡献加和得到；全局异常检测对所有维度组合的异常贡献进行检测。

S2. 将所述异常贡献聚类确定搜索的排序，聚类确定搜索排序的具体方式为：根据聚类中心的大小划定簇，将不同异常贡献的维度组合聚到不同的簇中，优先在最大聚类中心所在的簇中进行搜素。

S3. 结合初剪枝，信息熵搜索规则和后剪枝找出根因候选集；

初剪枝包括预剪枝和聚类剪枝；预剪枝对异常贡献为0的维度组合进行剪除。聚类剪枝根据簇的数目及每个簇内的根因上限进行簇的剪除；

一些可选实施例中，信息熵搜索的规则为：

后剪枝包括MCTS剪枝和终剪枝，如图7所示，MCTS剪枝方式为：

S301. 为每一个节点定义N和Q两个参数，前者代表每一个节点被模拟访问的次数，后者代表每一个节点的模拟收益之和，用计算出的异常贡献来表示模拟收益；

S302. 选择模拟收益最大的节点继续按所述信息熵规则搜索找到候选根因；

S303. 计算每个即将访问的节点的UCT值，下式中v代表所有节点：

；

S304. 选择UCT值作为下一步搜索的路径，剪除其他节点。

如图8所示，终剪枝方式为：

S311. 在搜索出一个候选根因之后，剪除其子节点；

S312. 当前节点取值为空则会继续向下搜索；

S313. 当前节点只有一个直接点，继续向下搜索，找到所有候选根因集。

S4. 在根因候选集中进行相似性组合得到最终结果，相似性组合方式为：

可加和KPI指标使用JS散度对不同的维度组合之间做分布相似性度量；

不可加和KPI使用Wasserstein距离衡量相似性；

将相似性的维度组合进行合并得到最终结果。

异常检测模块，以获取所有维度组合的异常贡献；

实施例1 本实施例提供一种基于KPI指标的根因定位方法

如图1所示，本实施例提出名为Volcano的根因定位方法，区别于现有的大部分算法和系统，采用“异常检测+搜索+聚合”的策略。

当金融系统发生了一个告警，先读取告警前后P+Q分钟的交易明细数据作为输入数据，这里的数据输入源可能是elasticsearch，也可以是kafka或者是指定格式的csv文件。然后会根据告警发生时刻的维度组合对其他时间的数据进行缺失值填充，接着对当前数据规模进行评估。

对于多指标的数据，随着维度及维度取值的增加，叶子结点的数据较少，极端情况下只会有0或者1，这种情况下做异常检测会极为不准确。因此采用需要采用基于“影响力”的自研算法。在不同的KPI间可环比参考。下面详细介绍全局异常检测算法：

首先根据单指标数据历史情况提取出以下特征，以下只列出部分公共特征，针对不同单指标的KPI公共特征，还会添加部分特征进来，例如趋势性、周期性、杂乱性等。

表1 KPI公共特征

利用滑动窗口，提取某一指标当前全部明细数据，即所有维度组合时间序列（P+Q）上每一个点的特征值，记为。对给定训练集X，随机抽取k个样本点构成X的子集Xk，每次随机从Xk中指定一个特征值q，并随机产生一个切割点p。此切割点p生成了一个超平面，将当前数据空间划分为两个子空间：指定维度小于p的样本点放入左子节点，大于或等于p的放入右子节点。直到所有叶子结点只有一个样本点或者到达指定层数后停止分裂，生成了t棵二叉树，记录为T₁。

然后提取除当前维度组合Y之外的其他明细数据的特征集合X-Y，重复上述训练步骤，得到T_2。对于需要进行异常检测的维度组合，将该维度组合的子节点的x_i特征向量分别带入T₁和T₂，计算该子节点x_i在T₁和T₂中的平均高度h₁和h₂，即树的度数，也可称为最短路径。所有子节点在T₁和T₂中的平均高度记为c₁和c₂，c₁和c₂通过每个子节点或叶子节点在T₁和T₂中的平均高度加权平均得到。

定义任一维度组合在指标a下的异常对指标a的全局影响或异常贡献分数Ia为：

当异常事故发生，往往多个关联指标异常时，最终得到每个维度组合的异常贡献分数为多个关联指标的影响的平均值。

如图2所示，将异常分数的PDF图进行聚类，确定后续搜索的顺序及根因的选择，不同异常贡献的维度组合会被聚到不同的簇中，每一条实线代表一个聚类中心，这里的聚类方法是先找到异常得分PDF图中的所有极大值和极小值。每一个极大值相邻的两个极小值决定的范围被聚为一个簇。

算法会先在聚类中心最大的簇中搜索根因，模拟信息熵的计算来定义候选根因。当一个维度组合是根因会有如下表现：其信息熵显著大于其同层的其他维度组合的信息商，并且大于其上一层节点和所有子节点。同时，这也是我们剪枝的一部分，当找到一个维度组合满足上述条件时，算法将不会将其所有子节点作为根因候选集。同时算法会综合考虑解释性和惊奇性，即该维度组合能否解释当前整体KPI的变化情况，以及这个变化是否“惊奇”，如图3所示，组合1的解释性高于组合2，因此组合1更有可能是根因，如图4所示，组合2的惊奇性高于组合1，因此组合2更有可能是根因。重复上述过程，找到所有的候选根因集。

Volcano的剪枝是以改良MCTS为主要框架，多种剪枝并行的剪枝策略。

预剪枝：由于Volcano内置的异常检测算法计算的异常得分都是可向上加和的，所以如果一个结点异常得分等于0，则一定不是根因。利用这种方式对搜索树进行预剪枝，一般来说，可以减掉50%以上的结点。

聚类剪枝：在上述聚类算法中提到会根据结点的异常得分的PDF进行极大极小值巨聚类，在每个簇内部单独进行搜索。Volcano可以根据用户需求配置搜索的簇的数目以及每个簇内部的根因数目上限来达到剪枝的目的。

MCTS剪枝：利用采样的思想模拟搜索，然后反向传播更新每个结点的“收益”，选择“收益”最大的结点继续搜索，直到找到根因为止。如图5所示，深色的点代表已经被搜索过的点，浅色的点是下一步搜索的备选结点。

为每一个结点定义N和Q两个参数。前者代表该节点V_i被模拟访问的次数，后者代表该节点V_i的模拟收益之和，这里用计算出的异常检测得分来表示模拟收益。最后，计算每个备选结点的UCT值，选择UCT值作为下一步搜索的路径，其他的节点会被剪枝掉。

。

后剪枝：在搜索出一个候选根因之后，其子节点将被剪枝掉而不再被作为根因。为了应对实际情况，后剪枝还做了一些特殊优化，例如如果当前节点取值为空则会继续向下搜索、如果当前节点只有一个直接点（1对1），则继续向下搜索等。

在找到了所有的候选根因集之后，我们会对不同的维度组合之间做分布相似性度量，根据KPI指标的不同，可加和KPI（交易量，失败量，响应时间等）主要使用JS散度。不可加和KPI（成功率，响应率等）使用Wasserstein距离衡量相似性。目的是将相似的维度组合进行合并，精简结果。

在优选的实施例中，提供一种基于KPI指标的根因定位装置，包括：

异常检测模块，以获取所有维度组合的异常贡献；

其中，

异常检测模块包括部分异常检测模块和全局异常检测模块，异常检测模块仅对叶子节点进行异常贡献检测，上层结点的异常贡献通过下层节点的异常贡献加和得到；全局异常检测模块对所有维度组合的异常贡献进行检测。

聚类排序模块包括簇子模块，根据聚类中心的大小划定簇，将不同异常贡献的维度组合聚到不同的簇中，优先在最大聚类中心所在的簇中进行搜素。

初剪枝模块包括预剪枝模块和聚类剪枝模块，预剪枝模块对异常贡献为0的维度组合进行剪除；聚类剪枝模块根据簇的数目及每个簇内的根因上限进行簇的剪除。

信息熵搜索规则定义模块的规则定义为：

后剪枝模块包括MCTS剪枝模块和终剪枝模块，

MCTS剪枝模块为每一个节点定义N和Q两个参数，前者代表每一个节点被模拟访问的次数，后者代表每一个节点的模拟收益之和，用计算出的异常贡献来表示模拟收益；

计算每个即将访问的节点的UCT值：

；

选择UCT值作为下一步搜索的路径，剪除其他节点。

终剪枝模块在搜索出一个候选根因之后，剪除其子节点；

当前节点取值为空则会继续向下搜索；

相似性组合模块将可加和KPI指标使用JS散度对不同的维度组合之间做分布相似性度量，不可加和KPI使用Wasserstein距离衡量相似性，将相似性的维度组合进行合并得到最终结果。

在更优选的实施例中，提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，计算机程序用于执行上述任一项异常检测方法。

通过对大量金融数据的分析，区别于现有的大部分算法和装置，采用“全局异常检测”的策略。由于金融行业大部分数据都是多指标同时异常的情况，因此本实施例是一种与指标含义无关的异常检测方法。在搜索方面，使用了一套可伸缩的搜索方案，在时间效率和空间效率上灵活切换，以适应不同规模大小的数据，并且引入MCTS来剪枝加快搜索。和之前的“自上而下”的搜索模式不同，Volcano在搜索之前会先进行“自下而上”的聚类，一方面可以更有效的进行根因的搜索，另一方面可以作为剪枝手段来减小搜索空间。最后Volcano还会对结果进行相似性检验，既能够在指标内部对结果进行合并，而且还可以解决多指标相互包含的问题。

以上所述的具体实施例，对本发明的目的，技术方案和有益效果进行了进一步详细说明，此外，应当理解，虽然本说明书按照实施方式加以描述，但上述实施例是示例性的，并不用于限定本发明的保护范围，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下对上述实施例进行的任何变化、修改、替换和变型，均应包含在本发明的保护范围之内。

Claims

1.一种基于KPI指标的根因定位装置，包括：

异常检测模块，包括部分异常检测模块和全局异常检测模块，部分异常检测模块仅对叶子节点进行异常贡献检测，上层结点的异常贡献通过下层节点的异常贡献加和得到；全局异常检测模块对所有维度组合的异常贡献进行检测；

其中，全局异常检测模块用于，当金融系统发生了一个告警，先读取告警前后P+Q分钟的交易明细数据作为输入数据，这里的数据输入源为elasticsearch、kafka或者指定格式的csv文件，根据告警发生时刻的维度组合对其他时间的数据进行缺失值填充，接着对当前数据规模进行评估；对于多指标的数据，随着维度及维度取值的增加，叶子结点的数据较少，此时，根据单指标数据历史情况提取出公共特征，所述公共特征包括均值mean、标准差std、极限值max/min、当前维度出现频率tf、当前维度逆文本频率指数idf、线性强度linearity、曲率强度curvature、光谱熵，针对不同单指标的KPI公共特征，还添加趋势性、周期性、杂乱性；利用滑动窗口，提取某一指标当前全部明细数据，即所有维度组合时间序列P+Q分钟上每一个点的特征值，记为X＝{x₁，x₂......x_n}，对给定训练集X，随机抽取k个样本点构成X的子集Xk，每次随机从Xk中指定一个特征值q，并随机产生一个切割点p，此切割点p生成了一个超平面，将当前数据空间划分为两个子空间，指定维度小于p的样本点放入左子节点，大于或等于p的放入右子节点，直到所有叶子结点只有一个样本点或者到达指定层数后停止分裂，生成了t棵二叉树，记录为T₁；然后提取除当前维度组合Y之外的其他明细数据的特征集合X-Y，重复上述训练步骤，得到T₂，对于需要进行异常检测的维度组合，将该维度组合的子节点的x_i特征向量分别带入T₁和T₂，计算该子节点x_i在T₁和T₂中的平均高度h₁和h₂，即树的度数，也可称为最短路径，所有子节点在T₁和T₂中的平均高度记为c₁和c₂，c₁和c₂通过每个子节点或叶子节点在T₁和T₂中的平均高度加权平均得到；定义任一维度组合在指标a下的异常对指标a的全局影响或异常贡献分数I_a为：

当异常事故发生，往往多个关联指标异常时，最终得到每个维度组合的异常贡献分数为多个关联指标的影响的平均值；

通过上述异常检测以得到所有维度组合的可加和的异常贡献分数；

聚类排序模块，将所述异常贡献分数的PDF图进行聚类，按聚类中心的大小进行搜索的排序，按照聚类中心的大小划定簇，将不同异常贡献分数的维度组合聚到不同的簇中；所述聚类先找到异常贡献分数PDF图中的所有极大值和极小值，每一个极大值相邻的两个极小值决定的范围被聚为一个簇，先在聚类中心最大的簇中搜索根因；

预剪枝模块，用于将贡献为0的子节点进行剪除；

聚类剪枝模块，根据所述簇的数目及每个簇内的根因上限进行簇的剪除；

信息熵搜索规则定义模块，用于定义：当一个维度组合是候选根因，其信息熵显著大于其同层的其他维度组合的信息熵，并且大于直接相连的上一层节点和所有子节点，当找到一个维度组合满足上述条件时，将不会将其所有子节点作为候选根因；

当一个维度组合是候选根因，其解释性和惊奇性高于其他维度组合；

所述基于KPI指标的根因定位装置还包括：

后剪枝模块，结合所述预剪枝模块、聚类剪枝模块、信息熵搜索规则定义模块和后剪枝模块找出根因候选集；

相似性组合模块，在根因候选集中，对于可加和KPI指标采用JS散度对不同的维度组合之间做分布相似性度量，对于不可加和KPI指标采用Wasserstein距离衡量相似性以进行相似性组合得到最终结果；

所述KPI指标为交易量，交易成功率和网页访问量指标，所述KPI指标使用告警前后P+Q分钟的交易明细数据作为输入数据；

所述KPI指标的公共特征包括均值、标准差、极限值、当前维度出现频率、当前维度逆文本频率指数、一阶自相关系数、线性强度、曲率强度、与前面点的差值、残差变化标准差、交叉点个数和光谱熵。