CN116089142A - 一种新型的服务故障根因分析方法 - Google Patents

一种新型的服务故障根因分析方法 Download PDF

Info

Publication number
CN116089142A
CN116089142A CN202211681251.1A CN202211681251A CN116089142A CN 116089142 A CN116089142 A CN 116089142A CN 202211681251 A CN202211681251 A CN 202211681251A CN 116089142 A CN116089142 A CN 116089142A
Authority
CN
China
Prior art keywords
attribute
attributes
sets
root cause
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211681251.1A
Other languages
English (en)
Inventor
莫华森
段云涌
邓锦烨
谢绍航
熊武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Tianyi Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Cloud Technology Co Ltd filed Critical Tianyi Cloud Technology Co Ltd
Priority to CN202211681251.1A priority Critical patent/CN116089142A/zh
Publication of CN116089142A publication Critical patent/CN116089142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种新型的服务故障根因分析方法,涉及云计算中监控指标的故障分析领域。本发明利用相似度分析将相近属性向量进行快速删减,对删减后的属性根据USE原则进行快速聚类,划分成3类属性,再对每一类属性进行随机抽取,合并成子属性集,利用多个不同子属性集对应的样本训练得到多个不同的基分类器,最后对基分类器进行加权集成得到最终的集成分类器,该集成分类器的输出结果即为根因分析结果。本发明实现了删减冗余属性、减少属性集的维度的效果,采用的聚类方法,不需要多次迭代聚类中心,提高了聚类的速度,适用于复杂服务的故障根因分析这种属性过多,即属性集过大的场景。

Description

一种新型的服务故障根因分析方法
技术领域
本发明涉及云计算中监控指标的故障分析领域,尤其涉及一种新型的服务故障根因分析方法。
背景技术
故障根因分析又称为故障原因追溯,是指服务在运行过程中出现故障时,对造成异常的原因进行快速分析和定位,良好的故障根因分析效率可以提高系统的鲁棒性、可靠性和可用性。为了提高故障根因分析效率,研究人员将机器学习算法引入故障分析领域,利用算法代替人工,即提高了效率又减少了人为带来的误差。当前广泛应用的做法是:当服务出现故障时,采集与该服务相关的所有关键指标,即KPI指标;对于每种KPI指标,提取其时间特性包括同比、环比、均值、方差等等;全部KPI指标的所有时间特性作为样本的属性,样本的标签为故障的根因;将样本集输入分类器,分类结果即为该故障的根因。
但当前的做法存在一定缺陷,当面对一个复杂的服务,该服务关联的关键指标通常是非常多的,假设为m个;每个关键指标又需要提取多个时间特性,假设为n个;则最终组成的样本的属性有m×n个,这个数值是相当大的。而属性过多,会造成后续分类算法计算量陡增,严重影响算法的效率和精度。针对该不足,本发明进行了改进和提升。
发明内容
针对服务故障分析中,样本的属性集非常大,影响后续算法的效率和精度,甚至会导致过拟合和维数灾难的问题,本发明利用相似度分析将相近的属性向量进行快速删减,达到初步删减冗余属性的效果,然后对删减后的属性,根据USE原则,进行快速聚类,划分成3类属性。再对每一类属性进行随机抽取,合并成新的子属性集,进一步减少了属性集的维度,并且多次重复抽取合并的过程后可以得到多个不同的子属性集,利用多个不同子属性集对应的样本训练得到多个不同的基分类器,最后对基分类器进行加权集成得到最终的集成分类器,该集成分类器的输出结果即为根因分析结果。
本发明提出一种新型的服务故障根因分析方法,包括如下步骤:
步骤S0:删除冗余属性:利用相似性分析对相近的冗余属性向量进行快速删减,得到属性集;
步骤S1:划分子属性集:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心进行快速聚类,将步骤S0得到的属性集划分为3个子属性集;
步骤S2:制作训练样本:对步骤S1得到的3个子属性集分别随机抽取一定数量的属性,组成一个训练样本,重复多次随机抽取,得到多个训练样本;
步骤S3:训练基分类器:用步骤S2得到的每个训练样本训练基分类器,训练完成后得到与训练样本数量相同数量的基分类器;
步骤S4:获取集成分类器:对步骤S3得到的所有基分类器进行加权集成,得到集成分类器;
步骤S5:将待分析的故障样本输入所述集成分类器中,其输出结果即为该故障样本的根因分析结果。
进一步的,所述步骤S0
具体包括如下步骤:
S01:将所有属性向量组成属性集;
S02:选择属性集中的第一个属性向量,依次计算其余每个属性向量与第一个属性向量的余弦相似度;
S03:当余弦相似度大于0.7时,删掉该属性向量,当余弦相似度小于0.7时,则保留该属性向量;
S04:将第一个属性向量筛选出来,剩下的属性向量作为新的属性集,将新的属性集覆盖原属性集;
S05:重复S02-S04,直至属性集中只包含一个属性向量,将该属性向量筛选出来;
S06:将所有筛选出来的属性向量组合成一个属性集。
进一步的,所述步骤S1具体包括如下步骤:
S11:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心;
S12:分别计算步骤S06得到的属性集中每个属性到三个聚类中心的欧式距离;
S13:将每个属性划分到离该属性的欧氏距离最近的聚类中心所属的集合,使得所述属性集划分为3个子属性集。
进一步的,所述步骤S2具体包括如下步骤:
S21:从步骤S1得到的3个子属性集中分别随机抽取一定数量的属性,组成随机属性集;
S22:重复S21,直至得到与训练样本数量相同数量的随机属性集,将其作为分类器的训练样本。
进一步的,所述余弦相似度计算方法如下:
假设当前样本集X的原始属性有T个,样本个数为n个,则属性集S中的所有属性向量可表示为St={xt1,xt2,…,xtn},1≤t≤T;
选择属性集S中的第一个属性向量S1={x11,x12,…,x1n},依次计算属性向量St(2≤t≤T),与S1的余弦相似度,公式如下:
进一步的,所述欧式距离计算方法如下:
假设当前样本集X的原始属性有T个,样本个数为n个,设聚类中心的属性为Scenter={o1,o2,…,on},则第t个属性St={xt1,xt2,…,xtn},1≤t≤T到该聚类中心的欧氏距离计算公式如下:
与现有技术相比较,本发明的有益效果在于:
一是本发明利用了相似度分析对属性集进行了快速的约简:通过两两计算属性间的余弦相似度,将相似度大的属性直接删减,这样既快速解决了复杂服务的故障根因分析场景下属性集过大的问题,也保证了被删减掉的属性均是相似度高的冗余属性。
二是本发明对于初步约简后的属性集,先进行快速聚类,再分别进行随机抽取、合并成子属性集,这种方式的效果在于:1)进一步减少了训练算法时的属性个数,子属性集的属性个数仅为初步约简后的属性集的属性个数的1/2。2)保证了每个子属性集都包含了每一类属性的信息,减少训练算法时可能产生的偏差。
三是在聚类过程中,本发明引入了传统运维故障分析中的USE方法,直接选取出3个分别代表使用量、饱和度和错误率的属性作为聚类中心,相比常用的k-means聚类方法,本发明不需要多次迭代聚类中心,提高了聚类的速度。
四是本发明针对属性进行随机抽取合并形成子属性集,适用于复杂服务的故障根因分析这种属性过多,即属性集过大的场景。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统流程图;
图2为本发明具体实施方式一技术方案执行流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本领域技术人员应当知晓,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而该些设置方式之间均是可以相互结合或者相互关联使用的,除非在本发明明确提出了其中某些或某一具体实施例或实施方式无法与其他的实施例或实施方式进行关联设置或共同使用。同时,下述的具体实施例或实施方式仅作为最优化的设置方式,而不作为限定本发明的保护范围的理解。
一个复杂服务往往会关联了非常多的关键指标,每个关键指标有包含多个时间特性,这样就造成了样本的属性集非常大,影响后续算法的效率和精度,甚至会导致过拟合和维数灾难的问题,本发明提出一种新型的服务故障根因分析方法,实现了删减冗余属性、减少属性集的维度的效果,采用的聚类方法,不需要多次迭代聚类中心,提高了聚类的速度,适用于复杂服务的故障根因分析这种属性过多,即属性集过大的场景。
本发明的转换方式,是从模型的原始几何点,逐步到完整工程坐标点,因此可以解决任意BIM软件生成的模型转换到任意渲染引擎中,普适性效果良好。
下面结合附图(表)对本发明的具体实施方式做出说明。
具体实施方式一
本发明提出了一种新型的服务故障根因分析方法,其特征在于包括步骤:
步骤S0:删除冗余属性:利用相似性分析对相近的冗余属性向量进行快速删减,得到属性集。
考虑到很多关键指标之间是有相关性的,它们的时间特性也有相似的特点,即该时间特性对应的属性向量是相似的,因此本发明先利用相似度分析将相近的属性向量进行快速删减,达到初步删减冗余属性的效果。
步骤S0具体通过以下步骤实现:
S01:将所有属性向量组成属性集;
S02:选择属性集中的第一个属性向量,依次计算其余每个属性向量与第一个属性向量的余弦相似度;
S03:当余弦相似度大于0.7时,删掉该属性向量,当余弦相似度小于0.7时,则保留该属性向量;
S04:将第一个属性向量筛选出来,剩下的属性向量作为新的属性集,令新的属性集覆盖原属性集;
S05:重复S02-S04,直至属性集中只包含一个属性向量,将该属性向量筛选出来;
S06:将所有筛选出来的属性向量组合成一个新属性集。
具体的,假设当前样本集X的原始属性有T个,样本个数为n个,则属性集S中的所有属性向量可表示为St={xt1,xt2,…,xtn},1≤t≤T;
选择属性集S中的第一个属性向量S1={x11,x12,…,x1n},依次计算属性向量St(2≤t≤T),与S1的余弦相似度,公式如下:
设定阈值为0.7,当余弦相似度cos(θ)t大于0.7时,认为该属性向量St与S1相似度高,属于冗余属性,需要删减掉;当余弦相似度cos(θ)t小于0.7时,则St保留。即:
重复步骤S02-S04直至t=T,此时属性集S中的所有与S1相似的属性向量均已被删减掉,再将S1筛选出来,剩下的属性向量作为新的属性集S′,令新属性集覆盖原属性集,即S=S′。
将所有筛选出来的属性向量组合成一个新属性集Snew,与原始的属性集相比,该属性集将相似度高的冗余属性都删减掉了,所包含的属性的个数明显降低。
本发明利用了相似度分析对属性集进行了快速的约简:通过两两计算属性间的余弦相似度,将相似度大的属性直接删减,这样既快速降低了属性的个数,也保证了被删减掉的属性均是相似度高的冗余属性。
步骤S1:划分子属性集:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心进行快速聚类,将步骤S0得到的属性集划分为3个子属性集。
根据USE方法,传统运维人员在进行故障分析时会根据经验将关键指标KPI划分为3类,即使用量U、饱和度S和错误率E。依照该思想,本发明从步骤S0得到的属性集Snew中,直接选取了分别能代表使用量U、饱和度S和错误率E的3个属性作为聚类中心,对整个Snew进行快速聚类,具体步骤如下:
S11:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心;
S12:分别计算步骤S06得到的属性集中每个属性到三个聚类中心的欧式距离;
S13:将每个属性划分到离该点欧氏距离最近的聚类中心所属的集合,使得所述属性集划分为3个子属性集。
具体的,设聚类中心的属性为Scenter={o1,o2,…,on},则第t个属性St={xt1,xt2,…,xtn},1≤t≤T到该聚类中心的欧氏距离计算公式如下:
将每个属性划分到离该点欧氏距离最近的聚类中心所属的集合,最终将新属性集Snew划分为3个子属性集,即S1′、S2′、S3′。
相比常用的k-means聚类算法随机选取初始聚类中心,并需要多次迭代运算才能得到最终的聚类中心,本发明引入了传统运维故障分析中的USE方法,直接选取出3个分别代表使用量、饱和度和错误率的属性作为聚类中心,不再需要迭代运算,这样就大大提高了聚类的快速性。
通过对于初步删减后的属性集,先进行快速聚类,再分类别进行随机抽取、合并成子属性集,这种方式的效果在于:1)再进一步地减少了属性个数,子属性集的属性个数仅为初步约简后的属性集的属性个数的1/2。2)保证了每个子属性集都包含了每一类属性的信息,减少训练算法时可能产生的偏差。本发明专门针对属性进行聚类、分层抽取、合并成子属性集,相比常用的集成算法,更适用于复杂服务的故障根因分析这种属性过多,即属性集过大的场景。
步骤S2:制作训练样本:对步骤S1得到的3个子属性集分别随机抽取一定数量的属性,组成一个训练样本,重复多次随机抽取,得到多个训练样本。
通过先进行属性聚类、再分类别随机抽取、合并成子属性集的方法,既进一步减少了训练算法时样本的属性的个数,又保证了每个子属性集都包含了每一类属性的信息。具体步骤如下:
S21:从步骤S1得到的3个子属性集中分别随机抽取一定数量的属性,组成随机属性集;
S22:重复S21,直至得到与训练样本数量相同数量的随机属性集,将其作为分类器的训练样本。
具体的,对步骤S1中聚类得到的3个子属性集,即S1′、S2′、S3′进行分层随机抽取,即对3个子属性集分别抽取1/2的属性,组合成子属性集Snew′,可知Snew′=Snew′/2,即属性个数进一步减少了一半,将Snew′作为训练样本。
重复T次随机抽取,得到T个训练样本。
步骤S3:训练基分类器:用步骤S2得到的每个训练样本训练基分类器,训练完成后得到与训练样本数量相同数量的基分类器。
具体的,分别使用步骤S2得到的每个训练样本训练基分类器,训练完成后得到T个基分类器。
步骤S4:获取集成分类器:对步骤S3得到的所有基分类器进行加权集成,得到集成分类器。
步骤S5:将待分析的故障样本输入所述集成分类器中,其输出结果即为该故障样本的根因分析结果。
下面提供本发明的一个具体实施例。
本发明采集了生产环境中日志系统rsyslog服务故障数据,即故障时刻的14个关键指标数据作为仿真实验数据,14个关键指标包括:日志传入数量、日志传入速率、kafka日志写入速率、磁盘空余空间、磁盘读速率、磁盘写速率、磁盘使用率、网络接受丢包率、网络发送丢包率、网络出流量、网络入流量、平均抖动、平均时延和写入kafka失败次数。每个关键指标提取5种时间特性,分别为环比特性、环差特性、同比特性、同差特性、时刻特性。此时,整个数据集的属性有70个,部分原始故障数据(已做归一化处理)如下表:
表1.部分原始故障数据(1-11列)
1.00E+00 9.45E-01 0.00E+00 0.00E+00 -1.19E+03 3.64E-01 1.02E+00 -3.54E+04 4.94E+02 0.00E+00 2.25E+04
1.00E+00 9.39E-01 0.00E+00 2.64E+01 -1.32E+03 3.65E-01 1.03E+00 -3.53E+04 5.06E+02 9.58E-01 2.25E+04
1.00E+00 9.33E-01 0.00E+00 9.46E+01 -1.45E+03 3.66E-01 1.03E+00 -3.52E+04 5.44E+02 9.58E-01 2.26E+04
1.01E+00 9.28E-01 0.00E+00 1.63E+02 -1.58E+03 3.67E-01 1.03E+00 -3.50E+04 5.68E+02 9.58E-01 2.26E+04
1.01E+00 9.22E-01 6.60E+01 2.19E+02 -1.71E+03 3.68E-01 1.03E+00 -3.49E+04 5.93E+02 9.58E-01 2.27E+04
1.01E+00 9.12E-01 1.05E+02 1.43E+02 -1.96E+03 3.66E-01 1.02E+00 -3.50E+04 4.80E+02 9.58E-01 2.27E+04
9.98E-01 8.97E-01 0.00E+00 -3.66E+01 -2.29E+03 3.63E-01 1.01E+00 -3.51E+04 2.91E+02 9.58E-01 2.28E+04
9.98E-01 8.91E-01 -3.05E+01 -4.88E+01 -2.43E+03 3.63E-01 1.01E+00 -3.50E+04 2.91E+02 9.58E-01 2.28E+04
1.00E+00 8.89E-01 0.00E+00 0.00E+00 -2.50E+03 3.63E-01 1.02E+00 -3.51E+04 3.51E+02 9.58E-01 2.29E+04
1.00E+00 8.84E-01 0.00E+00 0.00E+00 -2.64E+03 3.62E-01 1.01E+00 -3.53E+04 2.22E+02 9.58E-01 2.29E+04
1.00E+00 8.79E-01 0.00E+00 3.32E+01 -2.77E+03 3.61E-01 1.00E+00 -3.55E+04 8.33E+01 9.58E-01 2.30E+04
1.00E+00 8.73E-01 0.00E+00 6.64E+01 -2.90E+03 3.57E-01 9.97E-01 -3.60E+04 -5.52E+01 9.58E-01 2.30E+04
1.00E+00 8.69E-01 0.00E+00 8.90E+01 -3.03E+03 3.55E-01 9.85E-01 -3.64E+04 -3.00E+02 9.58E-01 2.30E+04
1.01E+00 8.64E-01 8.30E+01 1.12E+02 -3.14E+03 3.51E-01 9.74E-01 -3.70E+04 -5.39E+02 9.58E-01 2.31E+04
9.80E-01 8.53E-01 0.00E+00 -3.96E+02 -3.42E+03 3.45E-01 9.55E-01 -3.78E+04 -9.44E+02 9.58E-01 2.31E+04
9.63E-01 8.49E-01 -2.65E+01 -7.71E+02 -3.54E+03 3.41E-01 9.44E-01 -3.83E+04 -1.18E+03 9.58E-01 2.32E+04
9.48E-01 8.47E-01 0.00E+00 -1.09E+03 -3.60E+03 3.39E-01 9.35E-01 -3.89E+04 -1.38E+03 9.58E-01 2.32E+04
9.13E-01 8.43E-01 -9.11E+02 -1.89E+03 -3.70E+03 3.35E-01 9.25E-01 -3.94E+04 -1.62E+03 9.58E-01 2.33E+04
9.61E-01 9.16E-01 0.00E+00 -8.76E+02 -1.98E+03 3.63E-01 9.98E-01 -3.82E+04 -4.82E+01 9.58E-01 2.33E+04
9.43E-01 9.15E-01 0.00E+00 -1.31E+03 -2.02E+03 3.60E-01 9.87E-01 -3.87E+04 -2.95E+02 9.58E-01 2.33E+04
表2.部分原始故障数据(68-71列)
如表所示,前70列即为70个属性向量,第71列为根因标签列,其中0为日志写入异常,1为磁盘故障,2为网络异常,3为Kafka自身错误,4为其他原因。
一种新型的服务故障根因分析方法在本实施例的具体实施过程,如图2所示,包括以下步骤:
(1)对70个原始属性向量进行相似性分析,两两计算属性间的余弦相似度,阈值设置为0.7,经过快速删减后,属性个数由原来的70个,减少至46个,即23个冗余属性被删减掉了
(2)根据USE方法,日志传入数量、磁盘空余空间、写入kafka失败次数这三个KPI指标分别是使用量、饱和度和错误率的代表性指标,因此可以选择它们的时刻属性作为聚类中心,对步骤(1)种删减后的46个属性做快速聚类。
(3)对步骤(2)聚类后的3类属性向量分别进行随机抽取,合并成子属性集,子属性集只包含23个属性向量,相比原始属性集的70个属性向量,已经大大减少了。
(4)利用步骤(3)种得到的多个不同子属性集对应的样本训练得到多个不同的基分类器,最后对基分类器进行加权集成得到最终的集成分类器。
(5)将待分析的故障样本传入训练好的集成分类器中,模型的输出即为该故障样本的根因分析结果。
根据以上步骤进行仿真实验,实验环境为Intel Core i7处理器、16GB内存、Windows 10平台下的pycharm软件。进行两组实验,第一组采用本发明技术方案;第二组采用bagging集成算法;两组实验的基分类器都选用支持向量机(SVM),其中SVM的参数均采用Scikit-learn推荐的默认参数。实验结果如下表所示:
表5.仿真实验结果
由实验结果可知,由于常用的bagging集成算法是对样本做随机采样,形成子样本集,因此子样本集均含有70个属性向量,训练样本的属性个数过多导致了算法的运算量陡增,训练时间非常长,而且因为过拟合的问题,也影响了分类的精度。而本发明的技术方案通过相似性分析和针对属性的聚类、分层抽取、合并成子属性集的方法,大大降低了属性集的属性的个数,缩短了算法训练的时间并提高了分类精度。

Claims (6)

1.一种新型的服务故障根因分析方法,其特征在于包括如下步骤:
步骤S0:删除冗余属性:利用相似性分析对相近的冗余属性向量进行快速删减,得到属性集;
步骤S1:划分子属性集:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心进行快速聚类,将步骤S0得到的属性集划分为3个子属性集;
步骤S2:制作训练样本:对步骤S1得到的3个子属性集分别随机抽取一定数量的属性,组成一个训练样本,重复多次随机抽取,得到多个训练样本;
步骤S3:训练基分类器:用步骤S2得到的每个训练样本训练基分类器,训练完成后得到与训练样本数量相同数量的基分类器;
步骤S4:获取集成分类器:对步骤S3得到的所有基分类器进行加权集成,得到集成分类器;
步骤S5:将待分析的故障样本输入所述集成分类器中,其输出结果即为该故障样本的根因分析结果。
2.根据权利要求1所述的一种新型的服务故障根因分析方法,其特征在于:所述步骤S0具体包括如下步骤:
S01:将所有属性向量组成属性集;
S02:选择属性集中的第一个属性向量,依次计算其余每个属性向量与第一个属性向量的余弦相似度;
S03:当余弦相似度大于0.7时,删掉该属性向量,当余弦相似度小于0.7时,则保留该属性向量;
S04:将第一个属性向量筛选出来,剩下的属性向量作为新的属性集,将新的属性集覆盖原属性集;
S05:重复S02-S04,直至属性集中只包含一个属性向量,将该属性向量筛选出来;
S06:将所有筛选出来的属性向量组合成一个属性集。
3.根据权利要求2所述的一种新型的服务故障根因分析方法,其特征在于:所述步骤S1具体包括如下步骤:
S11:选取分别能代表使用量、饱和度和错误率的3个属性作为聚类中心;
S12:分别计算步骤S06得到的属性集中每个属性到三个聚类中心的欧式距离;
S13:将每个属性划分到离该点欧氏距离最近的聚类中心所属的集合,使得所述属性集划分为3个子属性集。
4.根据权利要求3所述的一种新型的服务故障根因分析方法,其特征在于:所述步骤S2具体包括如下步骤:
S21:从步骤S1得到的3个子属性集中分别随机抽取一定数量的属性,组成随机属性集;
S22:重复S21,直至得到与训练样本数量相同数量的随机属性集,将其作为分类器的训练样本。
5.根据权利要求2所述的一种新型的服务故障根因分析方法,其特征在于:所述余弦相似度计算方法如下:
假设当前样本集X的原始属性有T个,样本个数为n个,则属性集S中的所有属性向量可表示为St={xt1,xt2,…,xtn},1≤t≤T;
选择属性集S中的第一个属性向量S1={x11,x12,…,x1n},依次计算属性向量St(2≤t≤T),与S1的余弦相似度,公式如下:
Figure FDA0004019489160000021
6.根据权利要求3所述的一种新型的服务故障根因分析方法,其特征在于:所述欧式距离计算方法如下:
假设当前样本集X的原始属性有T个,样本个数为n个,设聚类中心的属性为Scenter={o1,o2,…,on},则第t个属性St={xt1,xt2,…,xtn},1≤t≤T到该聚类中心的欧氏距离计算公式如下:
Figure FDA0004019489160000022
CN202211681251.1A 2022-12-27 2022-12-27 一种新型的服务故障根因分析方法 Pending CN116089142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211681251.1A CN116089142A (zh) 2022-12-27 2022-12-27 一种新型的服务故障根因分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211681251.1A CN116089142A (zh) 2022-12-27 2022-12-27 一种新型的服务故障根因分析方法

Publications (1)

Publication Number Publication Date
CN116089142A true CN116089142A (zh) 2023-05-09

Family

ID=86186155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211681251.1A Pending CN116089142A (zh) 2022-12-27 2022-12-27 一种新型的服务故障根因分析方法

Country Status (1)

Country Link
CN (1) CN116089142A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130819A (zh) * 2023-10-27 2023-11-28 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117130819A (zh) * 2023-10-27 2023-11-28 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法
CN117130819B (zh) * 2023-10-27 2024-01-30 江西师范大学 一种基于时延方差和相关系数值的微服务故障诊断方法

Similar Documents

Publication Publication Date Title
CN110084239B (zh) 降低离线手写数学公式识别时网络训练过拟合的方法
CN110175158B (zh) 一种基于向量化的日志模板提取方法和系统
JP2019520615A (ja) 損害賠償請求書類の文字認識方法、装置、サーバ及び記憶媒体
CN110046634B (zh) 聚类结果的解释方法和装置
US8266078B2 (en) Platform for learning based recognition research
CN110399800B (zh) 基于深度学习vgg16框架的车牌检测方法及系统、存储介质
CN101968852A (zh) 基于熵排序的半监督谱聚类确定聚类数的方法
CN112329857A (zh) 一种基于改进残差网络的图像分类方法
CN116089142A (zh) 一种新型的服务故障根因分析方法
CN113723330A (zh) 一种图表文档信息理解的方法及系统
US20220215679A1 (en) Method of determining a density of cells in a cell image, electronic device, and storage medium
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
CN116432125A (zh) 基于哈希算法的代码分类方法
CN111126501A (zh) 一种图像识别方法、终端设备及存储介质
CN112784818B (zh) 基于分组式主动学习在光学遥感图像上的识别方法
CN115587231A (zh) 基于云计算平台的数据组合处理及快速存储调取方法
CN111402205B (zh) 一种基于多层感知机的乳腺肿瘤数据清洗方法
CN112231473A (zh) 一种基于多模态深度神经网络模型的商品分类方法
CN113704474A (zh) 银行网点设备操作指引生成方法、装置、设备及存储介质
CN112445939A (zh) 一种社交网络群体发现系统、方法及存储介质
CN117132218B (zh) 工作流管理系统
CN116451771B (zh) 图像分类卷积神经网络压缩方法及芯粒器件数据分配方法
CN114863542B (zh) 基于多模态的未成年人识别方法及系统
Bernstein et al. Unsupervised Data Extraction from Computer-generated Documents with Single Line Formatting
CN116091199A (zh) 一种风险建模中混合参考样本的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination