CN116089142A

CN116089142A - 一种新型的服务故障根因分析方法

Info

Publication number: CN116089142A
Application number: CN202211681251.1A
Authority: CN
Inventors: 莫华森; 段云涌; 邓锦烨; 谢绍航; 熊武
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-05-09

Abstract

本发明公开了一种新型的服务故障根因分析方法，涉及云计算中监控指标的故障分析领域。本发明利用相似度分析将相近属性向量进行快速删减，对删减后的属性根据USE原则进行快速聚类，划分成3类属性，再对每一类属性进行随机抽取，合并成子属性集，利用多个不同子属性集对应的样本训练得到多个不同的基分类器，最后对基分类器进行加权集成得到最终的集成分类器，该集成分类器的输出结果即为根因分析结果。本发明实现了删减冗余属性、减少属性集的维度的效果，采用的聚类方法，不需要多次迭代聚类中心，提高了聚类的速度，适用于复杂服务的故障根因分析这种属性过多，即属性集过大的场景。

Description

一种新型的服务故障根因分析方法

技术领域

本发明涉及云计算中监控指标的故障分析领域，尤其涉及一种新型的服务故障根因分析方法。

背景技术

故障根因分析又称为故障原因追溯，是指服务在运行过程中出现故障时，对造成异常的原因进行快速分析和定位，良好的故障根因分析效率可以提高系统的鲁棒性、可靠性和可用性。为了提高故障根因分析效率，研究人员将机器学习算法引入故障分析领域，利用算法代替人工，即提高了效率又减少了人为带来的误差。当前广泛应用的做法是：当服务出现故障时，采集与该服务相关的所有关键指标，即KPI指标；对于每种KPI指标，提取其时间特性包括同比、环比、均值、方差等等；全部KPI指标的所有时间特性作为样本的属性，样本的标签为故障的根因；将样本集输入分类器，分类结果即为该故障的根因。

但当前的做法存在一定缺陷，当面对一个复杂的服务，该服务关联的关键指标通常是非常多的，假设为m个；每个关键指标又需要提取多个时间特性，假设为n个；则最终组成的样本的属性有m×n个，这个数值是相当大的。而属性过多，会造成后续分类算法计算量陡增，严重影响算法的效率和精度。针对该不足，本发明进行了改进和提升。

发明内容

针对服务故障分析中，样本的属性集非常大，影响后续算法的效率和精度，甚至会导致过拟合和维数灾难的问题，本发明利用相似度分析将相近的属性向量进行快速删减，达到初步删减冗余属性的效果，然后对删减后的属性，根据USE原则，进行快速聚类，划分成3类属性。再对每一类属性进行随机抽取，合并成新的子属性集，进一步减少了属性集的维度，并且多次重复抽取合并的过程后可以得到多个不同的子属性集，利用多个不同子属性集对应的样本训练得到多个不同的基分类器，最后对基分类器进行加权集成得到最终的集成分类器，该集成分类器的输出结果即为根因分析结果。

本发明提出一种新型的服务故障根因分析方法，包括如下步骤：

步骤S0：删除冗余属性：利用相似性分析对相近的冗余属性向量进行快速删减，得到属性集；

步骤S1：划分子属性集：选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心进行快速聚类，将步骤S0得到的属性集划分为3个子属性集；

步骤S2：制作训练样本：对步骤S1得到的3个子属性集分别随机抽取一定数量的属性，组成一个训练样本，重复多次随机抽取，得到多个训练样本；

步骤S3：训练基分类器：用步骤S2得到的每个训练样本训练基分类器，训练完成后得到与训练样本数量相同数量的基分类器；

步骤S4：获取集成分类器：对步骤S3得到的所有基分类器进行加权集成，得到集成分类器；

步骤S5：将待分析的故障样本输入所述集成分类器中，其输出结果即为该故障样本的根因分析结果。

进一步的，所述步骤S0

具体包括如下步骤：

S01：将所有属性向量组成属性集；

S02：选择属性集中的第一个属性向量，依次计算其余每个属性向量与第一个属性向量的余弦相似度；

S03：当余弦相似度大于0.7时，删掉该属性向量，当余弦相似度小于0.7时，则保留该属性向量；

S04：将第一个属性向量筛选出来，剩下的属性向量作为新的属性集，将新的属性集覆盖原属性集；

S05：重复S02-S04，直至属性集中只包含一个属性向量，将该属性向量筛选出来；

S06：将所有筛选出来的属性向量组合成一个属性集。

进一步的，所述步骤S1具体包括如下步骤：

S11：选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心；

S12：分别计算步骤S06得到的属性集中每个属性到三个聚类中心的欧式距离；

S13：将每个属性划分到离该属性的欧氏距离最近的聚类中心所属的集合，使得所述属性集划分为3个子属性集。

进一步的，所述步骤S2具体包括如下步骤：

S21：从步骤S1得到的3个子属性集中分别随机抽取一定数量的属性，组成随机属性集；

S22：重复S21，直至得到与训练样本数量相同数量的随机属性集，将其作为分类器的训练样本。

进一步的，所述余弦相似度计算方法如下：

假设当前样本集X的原始属性有T个，样本个数为n个，则属性集S中的所有属性向量可表示为S_t＝{x_t1,x_t2,…,x_tn}，1≤t≤T；

选择属性集S中的第一个属性向量S₁＝{x₁₁,x₁₂,…,x_1n}，依次计算属性向量S_t(2≤t≤T)，与S₁的余弦相似度，公式如下：

进一步的，所述欧式距离计算方法如下：

假设当前样本集X的原始属性有T个，样本个数为n个，设聚类中心的属性为S_center＝{o₁,o₂,…,o_n}，则第t个属性S_t＝{x_t1,x_t2,…,x_tn}，1≤t≤T到该聚类中心的欧氏距离计算公式如下：

与现有技术相比较，本发明的有益效果在于：

一是本发明利用了相似度分析对属性集进行了快速的约简：通过两两计算属性间的余弦相似度，将相似度大的属性直接删减，这样既快速解决了复杂服务的故障根因分析场景下属性集过大的问题，也保证了被删减掉的属性均是相似度高的冗余属性。

二是本发明对于初步约简后的属性集，先进行快速聚类，再分别进行随机抽取、合并成子属性集，这种方式的效果在于：1)进一步减少了训练算法时的属性个数，子属性集的属性个数仅为初步约简后的属性集的属性个数的1/2。2)保证了每个子属性集都包含了每一类属性的信息，减少训练算法时可能产生的偏差。

三是在聚类过程中，本发明引入了传统运维故障分析中的USE方法，直接选取出3个分别代表使用量、饱和度和错误率的属性作为聚类中心，相比常用的k-means聚类方法，本发明不需要多次迭代聚类中心，提高了聚类的速度。

四是本发明针对属性进行随机抽取合并形成子属性集，适用于复杂服务的故障根因分析这种属性过多，即属性集过大的场景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明系统流程图；

图2为本发明具体实施方式一技术方案执行流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域技术人员应当知晓，下述具体实施例或具体实施方式，是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式，而该些设置方式之间均是可以相互结合或者相互关联使用的，除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时，下述的具体实施例或实施方式仅作为最优化的设置方式，而不作为限定本发明的保护范围的理解。

一个复杂服务往往会关联了非常多的关键指标，每个关键指标有包含多个时间特性，这样就造成了样本的属性集非常大，影响后续算法的效率和精度，甚至会导致过拟合和维数灾难的问题，本发明提出一种新型的服务故障根因分析方法，实现了删减冗余属性、减少属性集的维度的效果，采用的聚类方法，不需要多次迭代聚类中心，提高了聚类的速度，适用于复杂服务的故障根因分析这种属性过多，即属性集过大的场景。

本发明的转换方式，是从模型的原始几何点，逐步到完整工程坐标点，因此可以解决任意BIM软件生成的模型转换到任意渲染引擎中，普适性效果良好。

下面结合附图(表)对本发明的具体实施方式做出说明。

具体实施方式一

本发明提出了一种新型的服务故障根因分析方法，其特征在于包括步骤：

步骤S0：删除冗余属性：利用相似性分析对相近的冗余属性向量进行快速删减，得到属性集。

考虑到很多关键指标之间是有相关性的，它们的时间特性也有相似的特点，即该时间特性对应的属性向量是相似的，因此本发明先利用相似度分析将相近的属性向量进行快速删减，达到初步删减冗余属性的效果。

步骤S0具体通过以下步骤实现：

S01：将所有属性向量组成属性集；

S04：将第一个属性向量筛选出来，剩下的属性向量作为新的属性集，令新的属性集覆盖原属性集；

S06：将所有筛选出来的属性向量组合成一个新属性集。

具体的，假设当前样本集X的原始属性有T个，样本个数为n个，则属性集S中的所有属性向量可表示为S_t＝{x_t1,x_t2,…,x_tn}，1≤t≤T；

设定阈值为0.7，当余弦相似度cos(θ)_t大于0.7时，认为该属性向量S_t与S₁相似度高，属于冗余属性，需要删减掉；当余弦相似度cos(θ)_t小于0.7时，则S_t保留。即：

重复步骤S02-S04直至t＝T，此时属性集S中的所有与S₁相似的属性向量均已被删减掉，再将S₁筛选出来，剩下的属性向量作为新的属性集S′，令新属性集覆盖原属性集，即S＝S′。

将所有筛选出来的属性向量组合成一个新属性集S_new，与原始的属性集相比，该属性集将相似度高的冗余属性都删减掉了，所包含的属性的个数明显降低。

本发明利用了相似度分析对属性集进行了快速的约简：通过两两计算属性间的余弦相似度，将相似度大的属性直接删减，这样既快速降低了属性的个数，也保证了被删减掉的属性均是相似度高的冗余属性。

步骤S1：划分子属性集：选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心进行快速聚类，将步骤S0得到的属性集划分为3个子属性集。

根据USE方法，传统运维人员在进行故障分析时会根据经验将关键指标KPI划分为3类，即使用量U、饱和度S和错误率E。依照该思想，本发明从步骤S0得到的属性集S_new中，直接选取了分别能代表使用量U、饱和度S和错误率E的3个属性作为聚类中心，对整个S_new进行快速聚类，具体步骤如下:

S13：将每个属性划分到离该点欧氏距离最近的聚类中心所属的集合，使得所述属性集划分为3个子属性集。

具体的，设聚类中心的属性为S_center＝{o₁,o₂,…,o_n}，则第t个属性S_t＝{x_t1,x_t2,…,x_tn}，1≤t≤T到该聚类中心的欧氏距离计算公式如下：

将每个属性划分到离该点欧氏距离最近的聚类中心所属的集合，最终将新属性集S_new划分为3个子属性集，即S₁′、S₂′、S₃′。

相比常用的k-means聚类算法随机选取初始聚类中心，并需要多次迭代运算才能得到最终的聚类中心，本发明引入了传统运维故障分析中的USE方法，直接选取出3个分别代表使用量、饱和度和错误率的属性作为聚类中心，不再需要迭代运算，这样就大大提高了聚类的快速性。

通过对于初步删减后的属性集，先进行快速聚类，再分类别进行随机抽取、合并成子属性集，这种方式的效果在于：1)再进一步地减少了属性个数，子属性集的属性个数仅为初步约简后的属性集的属性个数的1/2。2)保证了每个子属性集都包含了每一类属性的信息，减少训练算法时可能产生的偏差。本发明专门针对属性进行聚类、分层抽取、合并成子属性集，相比常用的集成算法，更适用于复杂服务的故障根因分析这种属性过多，即属性集过大的场景。

步骤S2：制作训练样本：对步骤S1得到的3个子属性集分别随机抽取一定数量的属性，组成一个训练样本，重复多次随机抽取，得到多个训练样本。

通过先进行属性聚类、再分类别随机抽取、合并成子属性集的方法，既进一步减少了训练算法时样本的属性的个数，又保证了每个子属性集都包含了每一类属性的信息。具体步骤如下：

具体的，对步骤S1中聚类得到的3个子属性集，即S₁′、S₂′、S₃′进行分层随机抽取，即对3个子属性集分别抽取1/2的属性，组合成子属性集S_new′，可知S_new′＝S_new′/2，即属性个数进一步减少了一半，将S_new′作为训练样本。

重复T次随机抽取，得到T个训练样本。

步骤S3：训练基分类器：用步骤S2得到的每个训练样本训练基分类器，训练完成后得到与训练样本数量相同数量的基分类器。

具体的，分别使用步骤S2得到的每个训练样本训练基分类器，训练完成后得到T个基分类器。

步骤S4：获取集成分类器：对步骤S3得到的所有基分类器进行加权集成，得到集成分类器。

下面提供本发明的一个具体实施例。

本发明采集了生产环境中日志系统rsyslog服务故障数据，即故障时刻的14个关键指标数据作为仿真实验数据，14个关键指标包括：日志传入数量、日志传入速率、kafka日志写入速率、磁盘空余空间、磁盘读速率、磁盘写速率、磁盘使用率、网络接受丢包率、网络发送丢包率、网络出流量、网络入流量、平均抖动、平均时延和写入kafka失败次数。每个关键指标提取5种时间特性，分别为环比特性、环差特性、同比特性、同差特性、时刻特性。此时，整个数据集的属性有70个，部分原始故障数据(已做归一化处理)如下表：

表1.部分原始故障数据(1-11列)

1.00E+00

9.45E-01

0.00E+00

-1.19E+03

3.64E-01

1.02E+00

-3.54E+04

4.94E+02

0.00E+00

2.25E+04

1.00E+00

9.39E-01

0.00E+00

2.64E+01

-1.32E+03

3.65E-01

1.03E+00

-3.53E+04

5.06E+02

9.58E-01

2.25E+04

1.00E+00

9.33E-01

0.00E+00

9.46E+01

-1.45E+03

3.66E-01

1.03E+00

-3.52E+04

5.44E+02

9.58E-01

2.26E+04

1.01E+00

9.28E-01

0.00E+00

1.63E+02

-1.58E+03

3.67E-01

1.03E+00

-3.50E+04

5.68E+02

9.58E-01

2.26E+04

1.01E+00

9.22E-01

6.60E+01

2.19E+02

-1.71E+03

3.68E-01

1.03E+00

-3.49E+04

5.93E+02

9.58E-01

2.27E+04

1.01E+00

9.12E-01

1.05E+02

1.43E+02

-1.96E+03

3.66E-01

1.02E+00

-3.50E+04

4.80E+02

9.58E-01

2.27E+04

9.98E-01

8.97E-01

0.00E+00

-3.66E+01

-2.29E+03

3.63E-01

1.01E+00

-3.51E+04

2.91E+02

9.58E-01

2.28E+04

9.98E-01

8.91E-01

-3.05E+01

-4.88E+01

-2.43E+03

3.63E-01

1.01E+00

-3.50E+04

2.91E+02

9.58E-01

2.28E+04

1.00E+00

8.89E-01

0.00E+00

-2.50E+03

3.63E-01

1.02E+00

-3.51E+04

3.51E+02

9.58E-01

2.29E+04

1.00E+00

8.84E-01

0.00E+00

-2.64E+03

3.62E-01

1.01E+00

-3.53E+04

2.22E+02

9.58E-01

2.29E+04

1.00E+00

8.79E-01

0.00E+00

3.32E+01

-2.77E+03

3.61E-01

1.00E+00

-3.55E+04

8.33E+01

9.58E-01

2.30E+04

1.00E+00

8.73E-01

0.00E+00

6.64E+01

-2.90E+03

3.57E-01

9.97E-01

-3.60E+04

-5.52E+01

9.58E-01

2.30E+04

1.00E+00

8.69E-01

0.00E+00

8.90E+01

-3.03E+03

3.55E-01

9.85E-01

-3.64E+04

-3.00E+02

9.58E-01

2.30E+04

1.01E+00

8.64E-01

8.30E+01

1.12E+02

-3.14E+03

3.51E-01

9.74E-01

-3.70E+04

-5.39E+02

9.58E-01

2.31E+04

9.80E-01

8.53E-01

0.00E+00

-3.96E+02

-3.42E+03

3.45E-01

9.55E-01

-3.78E+04

-9.44E+02

9.58E-01

2.31E+04

9.63E-01

8.49E-01

-2.65E+01

-7.71E+02

-3.54E+03

3.41E-01

9.44E-01

-3.83E+04

-1.18E+03

9.58E-01

2.32E+04

9.48E-01

8.47E-01

0.00E+00

-1.09E+03

-3.60E+03

3.39E-01

9.35E-01

-3.89E+04

-1.38E+03

9.58E-01

2.32E+04

9.13E-01

8.43E-01

-9.11E+02

-1.89E+03

-3.70E+03

3.35E-01

9.25E-01

-3.94E+04

-1.62E+03

9.58E-01

2.33E+04

9.61E-01

9.16E-01

0.00E+00

-8.76E+02

-1.98E+03

3.63E-01

9.98E-01

-3.82E+04

-4.82E+01

9.58E-01

2.33E+04

9.43E-01

9.15E-01

0.00E+00

-1.31E+03

-2.02E+03

3.60E-01

9.87E-01

-3.87E+04

-2.95E+02

9.58E-01

2.33E+04

表2.部分原始故障数据(68-71列)

如表所示，前70列即为70个属性向量，第71列为根因标签列，其中0为日志写入异常，1为磁盘故障，2为网络异常，3为Kafka自身错误，4为其他原因。

一种新型的服务故障根因分析方法在本实施例的具体实施过程，如图2所示，包括以下步骤：

(1)对70个原始属性向量进行相似性分析，两两计算属性间的余弦相似度，阈值设置为0.7，经过快速删减后，属性个数由原来的70个，减少至46个，即23个冗余属性被删减掉了

(2)根据USE方法，日志传入数量、磁盘空余空间、写入kafka失败次数这三个KPI指标分别是使用量、饱和度和错误率的代表性指标，因此可以选择它们的时刻属性作为聚类中心，对步骤(1)种删减后的46个属性做快速聚类。

(3)对步骤(2)聚类后的3类属性向量分别进行随机抽取，合并成子属性集，子属性集只包含23个属性向量，相比原始属性集的70个属性向量，已经大大减少了。

(4)利用步骤(3)种得到的多个不同子属性集对应的样本训练得到多个不同的基分类器，最后对基分类器进行加权集成得到最终的集成分类器。

(5)将待分析的故障样本传入训练好的集成分类器中，模型的输出即为该故障样本的根因分析结果。

根据以上步骤进行仿真实验，实验环境为Intel Core i7处理器、16GB内存、Windows 10平台下的pycharm软件。进行两组实验，第一组采用本发明技术方案；第二组采用bagging集成算法；两组实验的基分类器都选用支持向量机(SVM)，其中SVM的参数均采用Scikit-learn推荐的默认参数。实验结果如下表所示：

表5.仿真实验结果

由实验结果可知，由于常用的bagging集成算法是对样本做随机采样，形成子样本集，因此子样本集均含有70个属性向量，训练样本的属性个数过多导致了算法的运算量陡增，训练时间非常长，而且因为过拟合的问题，也影响了分类的精度。而本发明的技术方案通过相似性分析和针对属性的聚类、分层抽取、合并成子属性集的方法，大大降低了属性集的属性的个数，缩短了算法训练的时间并提高了分类精度。

Claims

1.一种新型的服务故障根因分析方法，其特征在于包括如下步骤：

2.根据权利要求1所述的一种新型的服务故障根因分析方法，其特征在于：所述步骤S0具体包括如下步骤：

S01：将所有属性向量组成属性集；

S06：将所有筛选出来的属性向量组合成一个属性集。

3.根据权利要求2所述的一种新型的服务故障根因分析方法，其特征在于：所述步骤S1具体包括如下步骤：

4.根据权利要求3所述的一种新型的服务故障根因分析方法，其特征在于：所述步骤S2具体包括如下步骤：

5.根据权利要求2所述的一种新型的服务故障根因分析方法，其特征在于：所述余弦相似度计算方法如下：

6.根据权利要求3所述的一种新型的服务故障根因分析方法，其特征在于：所述欧式距离计算方法如下：