CN116149899A - 获取平台故障成因的方法及平台故障自动检查处置方法 - Google Patents

获取平台故障成因的方法及平台故障自动检查处置方法 Download PDF

Info

Publication number
CN116149899A
CN116149899A CN202310428844.5A CN202310428844A CN116149899A CN 116149899 A CN116149899 A CN 116149899A CN 202310428844 A CN202310428844 A CN 202310428844A CN 116149899 A CN116149899 A CN 116149899A
Authority
CN
China
Prior art keywords
fault
information
input information
cause
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310428844.5A
Other languages
English (en)
Inventor
李子星
赵涛
聂少龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linji Zhiyun Technology Suzhou Co ltd
Original Assignee
Linji Zhiyun Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linji Zhiyun Technology Suzhou Co ltd filed Critical Linji Zhiyun Technology Suzhou Co ltd
Priority to CN202310428844.5A priority Critical patent/CN116149899A/zh
Publication of CN116149899A publication Critical patent/CN116149899A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种获取平台故障成因的方法及平台故障自动检查处置方法,包括以下步骤:(a)输入:预先制造各种故障,通过系统监控和日志分析的方式获得故障成因分析的输入信息;(b)中心化处理:对于每个所述输入信息,减去其均值,使其变成零均值信息;(c)白化处理:利用加权相关系数的PCA算法对所述实际故障信息向量X进行线性变换以得到白化矩阵V;(d)故障成因分析:利用改进的牛顿迭代法,从输入信息中分离出故障成因关键指标和其线性组合系数,从而计算出故障DNA;(e)输出:根据故障成因分析模型,输出故障关键指标和指标之间的线性组合。能够从多个混合故障信息中分离出故障成因中的关键指标和指标之间的关联关系。

Description

获取平台故障成因的方法及平台故障自动检查处置方法
技术领域
本发明属于分布式系统中平台故障检测技术领域,涉及一种获取平台故障成因的方法及平台故障自动检查处置方法。
背景技术
现有的平台故障检测方法主要是基于人工检测方法,需要有硬件技术员、软件程序员等专业技能人才参与:需要专业人员来判断故障类型(例如网络故障、服务器故障),然后根据收集到的信息对可能的故障原因进行排查和诊断,确认故障源头;需要人工收集和分析平台的日志和报告,以确定故障原因和影响范围;根据诊断结果,采取相应措施解决故障,例如修复程序、替换硬件等等;在解决问题后,需要手动验证平台是否已经恢复正常运行,需要人工模拟用户使用平台或者进行系统测试来验证;同时对解决问题的过程进行手动记录和分析,总结经验教训以便今后遇到类似问题时能够更快速、更有效地解决。
现有检测方法中包括一些辅助人工故障诊断的监控工具,可以记录故障时的硬件、平台组件状态,收集OS组件与故障日志,同时报告各种系统指标、警告和错误,以保证系统的可用性、可靠性和安全性。现有常用的监控工具有Nagios,可以监控各种系统指标,如CPU使用率、内存使用率、网络流量等;Zabbix,可以监控各种系统指标、网络设备和应用程序,支持分布式监控、自动发现和数据可视化等功能;Prometheus,可以监控各种指标并支持数据可视化和告警功能,常用于云原生应用的监控。
现有的平台故障人工检测方法虽然可以帮助解决平台故障,但也存在一些问题:(1)时间成本高:人工检测需要花费大量时间来分析和诊断问题,导致平台停机时间变长,影响用户体验;(2)精度受限:人工检测的精度取决于技术人员的经验和技能水平,如果技术人员缺乏经验或错误地判断问题,会导致解决问题的延误和用户的不满;(3)人力资源有限:平台故障需要专业的技术人员来处理,而这些人力资源通常是有限的,可能会影响平台故障处理的速度和效率;(4)无法覆盖所有情况:由于平台故障种类繁多,人工检测不可能覆盖所有情况,有些问题可能需要其他技术手段来解决;(5)需要持续更新和维护:平台技术不断更新和升级,需要对平台故障人工检测方法进行持续更新和维护,以适应新的技术环境。
发明内容
基于上述缺陷,本发明提供一种获取平台故障成因的方法,以从多个混合故障信息中自动分离获得输出故障关键指标和指标之间的的关联关系。
为了达成上述目的,本发明提供一种获取平台故障成因的方法,包括以下步骤:
(a)输入:预先制造各种故障,通过系统监控和日志分析的方式获得故障成因分析的输入信息;所述故障成因分析的输入信息为混合故障信息矩阵,其包括CPU占用率、内存占用率、网络流量统计和错误代码;
(b)中心化处理:对于每个所述输入信息,减去其均值,使其变成零均值信息;所述输入信息为实际故障信息向量X;
(c)白化处理:利用加权相关系数的PCA算法对所述实际故障信息向量X进行线性变换以得到白化矩阵V;
(d)故障成因分析:利用改进的牛顿迭代法,从输入信息中分离出故障成因关键指标和其线性组合系数,从而计算出故障DNA;
(e)输出:根据故障成因分析模型,输出故障关键指标和指标之间的线性组合。
优化地,步骤(a)中,各种所述故障通过故障注入进行预先制造;所述故障注入包括以下步骤:
(a1)制定故障注入计划:确定需要注入的故障类型和注入时间,并记录下来;
(a2)进行故障注入:根据所述故障注入计划,人为地关闭一个服务、随机地杀死某个进程或/和故意制造网络延迟,记录日志以进行后续分析。
优化地,步骤(c)中,所述加权相关系数按以下公式计算:
Figure SMS_1
进一步地,步骤(c)中,还计算每两个故障输入信息之间的相关系数以得到相关系数矩阵P,再计算相关系数矩阵P的特征向量矩阵U和特征值矩阵∧以得到白化矩阵V;
Figure SMS_2
Figure SMS_3
优化地,步骤(c)中,所述相关系数定义如下:
Figure SMS_4
式中,cov(x,y)是故障输入信息x和故障输入信息y的协方差,Dx、Dy分别是故障输入信息x和故障输入信息y的方差。
优化地,步骤(d)中,所述改进的牛顿迭代法按以下迭代公式进行:
Figure SMS_5
进一步地,步骤(d)中,所述故障成因分析模型中设有N个相互独立的故障初始预设信息和M个实际故障检测信息,所述故障初始预设信息表示为
Figure SMS_6
,所述M个实际故障检测信息表示为/>
Figure SMS_7
,则对每个t都有如下关系成立:
Figure SMS_8
(a);
则M个实际检测故障信息由N个初始故障预设信息按以下线性组合公式而成:
Figure SMS_9
(b);/>
式中,A为混合矩阵,由式(a)中的系数aij组成;xt是已知的,s(t)和A都是未知的。
更进一步地,步骤(d)中,所述故障成因分析的目标为求得一个分离矩阵W,并通过W从x(t)中分离出独立的故障信息;
定义分离出的故障信息为
Figure SMS_10
,则/>
Figure SMS_11
本发明的又一目的在于提供一种上述平台故障自动检查处置方法,它基于上述获取平台故障成因的方法。
优化地,还包括以下步骤:(f)利用基于模拟退火算法的隐马尔可夫模型对分离出的故障信息进行自动化诊察检测。
本发明获取平台故障成因的方法,通过依次进行输入、中心化处理、白化处理、故障成因分析和输出等步骤,能够从多个混合故障信息中分离出故障成因中的关键指标和指标之间的关联关系,不仅可以去除属性间的相关关系,还可以降低故障数据向量的维度,减小噪声。
附图说明
图1为本发明获取平台故障成因的方法的流程图;
图2为本发明获取平台故障成因的方法中改进的牛顿迭代法算法流程图;
图3为本发明获取平台故障成因分析模型的示意图;
图4为模拟退火算法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明,下面将结合实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所做的等效变化与修饰前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1
本实施例提供获取平台故障成因的方法,如图1所示,包括以下步骤:
(a)输入:预先制造各种故障,通过系统监控和日志分析的方式获得故障成因分析的输入信息(输入信息为混合故障信息矩阵,其包括CPU占用率、内存占用率、网络流量统计和错误代码等大量的采集数据);
为了获取故障的特征值,减少故障的诊察时间,可以预先制造各种故障并进行监控和日志分析,称为故障注入(Fault Injection)。故障注入包括以下步骤:
(a1)制定故障注入计划:确定需要注入的故障类型和注入时间,并记录下来;
(a2)进行故障注入:根据所述故障注入计划,人为地关闭一个服务、随机地杀死某个进程或/和故意制造网络延迟,记录日志以进行后续分析。
(b)中心化处理:对于每个所述输入信息(如实际故障信息向量X),减去其均值,使其变成零均值信息;中心化处理是对故障信息预处理最基本的过程,从实际故障信息向量X中减去它的均值向量即可。中心化处理只是用来简化算法的,后续算出混合矩阵A后,需要把减掉的均值向量再加回去(与中心化无关)。
(c)白化处理:利用加权相关系数的PCA算法对所述实际故障信息向量X进行线性变换以得到白化矩阵V;
白化就是对故障信息向量X进行线性变换得到一个新的向量V(多个向量V组成白化矩阵V),且V的各成分互不相关、方差等于1,即
Figure SMS_12
。这种变化通常使用协方差矩阵/>
Figure SMS_13
的特征值分解的方法,其中E是/>
Figure SMS_14
的特征向量组成的正交矩阵,D是特征值组成的对角矩阵;则白化矩阵为V表示如下:/>
Figure SMS_15
,结合/>
Figure SMS_16
,则有:
Figure SMS_17
Figure SMS_18
本申请已将初始的输入故障信息矩阵(即预先制造的故障信息矩阵,通过系统监控的方式采集得出)转换成正交矩阵B,从而可以减少需要估计的故障信息参数个数;同时,可以观察
Figure SMS_19
的特征值并去除那些特征值小的维度,这样可以减少故障数据采集中出现的噪声,而且维度的减少也有利于防止后续故障成因分析(Hitch Cause Analysis,HCA)过程中出现“过学习”(“过学习”是指在机器学习中,模型过度拟合了训练数据,导致在测试数据上的表现下降;这通常是由于模型的复杂度过高,训练数据量过小或者训练过程中的噪声和异常数据引起的。过度学习可能导致模型在训练数据上表现非常好,但在测试数据上表现很差。这是因为模型太过于适应训练数据中的噪声和细节,而不是真正地学习到一般性的规律。因此,过度学习可能会导致模型的泛化能力变差,即在新的数据上的表现也会很差)。
在进行故障成因提取前要对故障信息进行中心化和白化处理,这样不仅可以去除属性间的相关关系,还可以降低故障数据向量的维度,减小噪声。传统的白化处理利用了基于协方差的PCA算法,协方差是有量纲的统计量,它受两个相关变量量纲的影响。而本申请收集的各项故障数据量纲不同,所以传统方法并不可行。此外,白化处理过程会降低数据维度,带来一定的信息损失。要保证故障检测的正确率,信息损失一定要尽可能少。基于上两点,本发明提出基于加权相关系数的PCA算法进行白化处理。
在本实施例中,步骤(c)中,所述加权相关系数按以下公式计算:
Figure SMS_20
。系数不同于协方差,它是无量纲的统计量,不受故障信息量纲的影响;系数的相关系数定义如下:/>
Figure SMS_21
;其中,cov(x,y)是故障信息x(即故障输入信息x,下同)和故障信息y的协方差,Dx、Dy分别是故障信息x和故障信息y的方差;故障信息x和故障信息y的线性相关程度越高,/>
Figure SMS_22
越接近1,线形相关程度越低,/>
Figure SMS_23
越接近0。
另外,不同故障信息在故障检测处于不同地位,不同故障信息对最后结果的贡献率是不同的,所以需要区别对待,因此,可以引入权值。根据方差的含义,定义权值如下:
Figure SMS_24
;其中,n为故障信息的数量。由此,可得到故障信息之间的加权相关系数:/>
Figure SMS_25
。/>
得到加权相关系数后,就可进行以下处理:计算每两个故障输入信息之间的相关系数以得到相关系数矩阵P,再计算相关系数矩阵P的特征向量矩阵U和特征值矩阵∧以得到白化矩阵V;
Figure SMS_26
Figure SMS_27
故障成因分析(HCA,利用故障成因分析模型):利用改进的牛顿迭代法,从输入信息中分离出故障成因关键指标和其线性组合系数,从而计算出故障DNA;
传统的FastHCA算法在求解目标函数时采用了牛顿迭代法,而牛顿迭代法在单根情况下仅能达到2阶收敛,导致迭代次数多,收敛速度慢。对此,本申请提出一种改进的牛顿迭代法,可以实现3阶收敛,减少迭代次数,加快收敛速度。
利用以下公式:
Figure SMS_28
可以推出/>
Figure SMS_29
;同理可得,/>
Figure SMS_30
;可以得到W的迭代公式如下:
Figure SMS_31
(其算法流程图如图2所示)。
在本实施例中,故障成因分析模型中:设有N个相互独立的故障初始预设信息(表示为
Figure SMS_32
)和M个实际故障检测信息(表示为/>
Figure SMS_33
),则对每个t都有如下关系成立:/>
Figure SMS_34
(a);
则M个实际检测故障信息由N个初始故障预设信息按以下线性组合公式而成:
Figure SMS_35
(b);
式中,A为混合矩阵,由式(a)中的系数aij组成;xt是已知的,s(t)和A都是未知的。故障成因分析的目标为求得一个分离矩阵W,并通过W从x(t)中分离出独立的故障信息;定义分离出的故障信息为
Figure SMS_36
,则/>
Figure SMS_37
其中y(t)是s(t)的一个混合估计,它的各个成分应尽可能满足统计独立的条件,在故障检测平台中,大量的初始复杂的故障信息就转换成复杂度较小的y(t),从而寻找到故障DNA(平台故障DNA指的是故障的本质特征和根本原因,类似于生物体的DNA序列。平台故障DNA的本质特征包括故障发生的时机、故障的类型、故障对平台的影响等;平台故障的根本原因包括硬件故障、软件缺陷、配置错误、资源瓶颈等。通过分析平台故障的DNA,可以更好地理解和预测故障的发生和演化,从而更好地实施故障诊断和排除。例如,如果某个平台在高峰期间频繁出现资源瓶颈导致服务中断,那么可以通过升级硬件设施或优化软件算法来解决问题。如果某个平台经常出现由于网络问题引起的服务不稳定,那么可以通过加强网络设备的管理和优化网络拓扑结构来解决问题。对于任何自动化平台,了解其故障的DNA是非常重要的,这可以帮助我们更好地了解平台的弱点和缺陷,以及如何有效地对其进行维护和优化)(如图3所示)。
(e)输出:根据故障成因分析模型,输出故障关键指标和指标之间的线性组合。
实施例2
本实施例提供一种平台故障自动检查处置方法,它包含实施例1中获取平台故障成因的方法的步骤,还包括以下步骤:
(f)利用基于模拟退火算法的隐马尔可夫模型对分离出的故障信息进行自动化诊察检测。针对HMM(隐马尔可夫模型)存在的不足(HMM训练过程简单,而且算法成熟、效率较高,因此它在用于故障检测时不仅误报率较低而且检查率较高(得到的结果不一定是全局最优,可能是局部最优))。本实施例引入模拟退火算法,并提出基于模拟退火算法的隐马尔科夫模型,利用模拟退火算法全局寻优的优点,得到全局最优的初始故障信息参数,进而得到全局最优的HMM。这样能够实现自动化平台故障诊察,诊察出故障成因后,就可以根据故障成因通过预先设定好的解决方案进行处置。
计算出故障关键指标关联关系之间最优的线性关系。根据模拟退火的思想,首先预设一组线性关系(也就是预估解),然后动态地调整组合系数,在解空间中随机寻找故障关键指标关联关系的全局最优解,即在局部最优解能概率性地跳出并最终趋于全局最优。模拟退火算法是通过赋予搜索过程一种时变且最终趋于零的概率突跳性,从而可有效避免陷入局部极小并最终趋于全局最优的串行结构的优化算法。模拟退火算法的基本流程如下:(1)初始化初始预估解和初始故障信息。(2)对于每个初始故障预设信息,进行若干次随机扰动操作,以获得新的解,并计算目标函数值。(3)根据目标函数值和当前故障检测信息,以一定概率接受新解或保留当前解。(4)降低故障信息参数并重复步骤2-3,直到满足终止条件。本申请的关键是如何设置初始故障信息和退火速度。通常情况下,初始故障信息应该足够高,以便允许接受劣解,并逐渐降低参数以达到全局最优解。退火速度可以通过不同的调度策略进行控制,例如指数调度、线性调度等(如图4所示)。
模拟退火算法会以一定的概率接受比当前解差的解,有可能跳出局部最优,寻到全局最优解。它可以随机选取初始解,然后扰动产生新解,并以一定概率接受比当前解差的解,以便跳出局部最优,得到全局最优的初始故障信息。
在平台故障信息检测分析当中,对于数值类的信息计算,如前文所述,通过故障成因分析和加强的隐马尔可夫模型就可以进行故障的学习和预测。但是对于自动化平台故障信息的处理中,有一类日志信息是以文本字符串的形式记录下来的,对于这类信息,传统的数学公式计算显然不适用,对于这类情况本发明提出通过自然语言处理来对日志文本信息进行数据分析的方法。本发明将日志信息转换为行为+实体模型的方式来对文本信息进行处理。将日志文本转化为实体,本发明提出故障命名实体识别(Hitch Named EntityRecognition,简称HNER)技术,在日志文本中识别和提取具有特定类别的实体信息,例如(方法名,错误编码,时间,异常信息)等,从而对日志文本信息进行提取,常用的特征包括词性、词频、词形、句法分析。本发明对日志文本信息中提取出关键词,将关键词进行统一编码。
在将关键词信息进行统一编码后,通过HNER生成一系列的数据标注,然后将标注好的信息引入前文所述的加强马尔可夫模型进行分析和预测,从而实现对文本信息的数据分析。在本发明中采用精确率(Precision,P)、召回率(Recall,R)和 F1值作为评价指标来评估一个模型的优劣。精确率等于预测正确的样本数和预测出来的样本数之间的比值,召回率等于预测正确的样本数和总样本数之间的比值,F1值作为综合指标,可以同时考虑准确率和召回率。精确率、召回率和F1值的计算公式如下:
Figure SMS_38
其中,
Figure SMS_39
表示预测结果和实际结果均为正例的样例个数;/>
Figure SMS_40
表示实际结果为反例且预测结果为正例的样例个数;NF表示实际结果为正例,预测结果为负例的样例个数。
以上所述仅为本发明较佳的实施方式,并非用以限定本发明的保护范围;同时以上的描述,对于相关技术领域中具有通常知识者应可明了并据以实施,因此其他未脱离本发明所揭露概念下所完成之等效改变或修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种获取平台故障成因的方法,其特征在于,包括以下步骤:
(a)输入:预先制造各种故障,通过系统监控和日志分析的方式获得故障成因分析的输入信息;所述故障成因分析的输入信息为混合故障信息矩阵,其包括CPU占用率、内存占用率、网络流量统计和错误代码;
(b)中心化处理:对于每个所述输入信息,减去其均值,使其变成零均值信息;所述输入信息为实际故障信息向量X;
(c)白化处理:利用加权相关系数的PCA算法对所述实际故障信息向量X进行线性变换以得到白化矩阵V;
(d)故障成因分析:利用改进的牛顿迭代法,从输入信息中分离出故障成因关键指标和其线性组合系数,从而计算出故障DNA;
(e)输出:根据故障成因分析模型,输出故障关键指标和指标之间的线性组合。
2.根据权利要求1所述获取平台故障成因的方法,其特征在于:步骤(a)中,各种所述故障通过故障注入进行预先制造;所述故障注入包括以下步骤:
(a1)制定故障注入计划:确定需要注入的故障类型和注入时间,并记录下来;
(a2)进行故障注入:根据所述故障注入计划,人为地关闭一个服务、随机地杀死某个进程或/和故意制造网络延迟,记录日志以进行后续分析。
3.根据权利要求1所述获取平台故障成因的方法,其特征在于,步骤(c)中,所述加权相关系数按以下公式计算:
Figure QLYQS_1
4.根据权利要求3所述获取平台故障成因的方法,其特征在于,步骤(c)中,还计算每两个故障输入信息之间的相关系数以得到相关系数矩阵P,再计算相关系数矩阵P的特征向量矩阵U和特征值矩阵∧以得到白化矩阵V;
Figure QLYQS_2
Figure QLYQS_3
5.根据权利要求1所述获取平台故障成因的方法,其特征在于,步骤(c)中,所述相关系数定义如下:
Figure QLYQS_4
式中,cov(x,y)是故障输入信息x和故障输入信息y的协方差,Dx、Dy分别是故障输入信息x和故障输入信息y的方差。
6.根据权利要求1所述获取平台故障成因的方法,其特征在于,步骤(d)中,所述改进的牛顿迭代法按以下迭代公式进行:
Figure QLYQS_5
7.根据权利要求6所述获取平台故障成因的方法,其特征在于,步骤(d)中,所述故障成因分析模型中设有N个相互独立的故障初始预设信息和M个实际故障检测信息,所述故障初始预设信息表示为
Figure QLYQS_6
,所述M个实际故障检测信息表示为
Figure QLYQS_7
,则对每个t都有如下关系成立:
Figure QLYQS_8
(a);
则M个实际检测故障信息由N个初始故障预设信息按以下线性组合公式而成:
Figure QLYQS_9
(b);
式中,A为混合矩阵,由式(a)中的系数aij组成;xt是已知的,s(t)和A都是未知的。
8.根据权利要求7所述获取平台故障成因的方法,其特征在于,步骤(d)中,所述故障成因分析的目标为求得一个分离矩阵W,并通过W从x(t)中分离出独立的故障信息;
定义分离出的故障信息为
Figure QLYQS_10
,则/>
Figure QLYQS_11
9.一种平台故障自动检查处置方法,其特征在于,它基于权利要求1至8中任一所述获取平台故障成因的方法。
10.根据权利要求9所述平台故障自动检查处置方法,其特征在于,还包括以下步骤:
(f)利用基于模拟退火算法的隐马尔可夫模型对分离出的故障信息进行自动化诊察检测。
CN202310428844.5A 2023-04-20 2023-04-20 获取平台故障成因的方法及平台故障自动检查处置方法 Pending CN116149899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310428844.5A CN116149899A (zh) 2023-04-20 2023-04-20 获取平台故障成因的方法及平台故障自动检查处置方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310428844.5A CN116149899A (zh) 2023-04-20 2023-04-20 获取平台故障成因的方法及平台故障自动检查处置方法

Publications (1)

Publication Number Publication Date
CN116149899A true CN116149899A (zh) 2023-05-23

Family

ID=86352826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310428844.5A Pending CN116149899A (zh) 2023-04-20 2023-04-20 获取平台故障成因的方法及平台故障自动检查处置方法

Country Status (1)

Country Link
CN (1) CN116149899A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105067252A (zh) * 2015-08-23 2015-11-18 北京工业大学 一种基于改进的FastICA的冷水机组故障检测方法
CN105932774A (zh) * 2016-05-11 2016-09-07 国网冀北电力有限公司张家口供电公司 基于ica算法的智能变电站设备状态预警方法
CN107024352A (zh) * 2017-05-03 2017-08-08 哈尔滨理工大学 一种基于滑动熵‑ica算法的滚动轴承故障特征提取方法
CN107065842A (zh) * 2017-05-26 2017-08-18 宁波大学 一种基于粒子群优化核独立元分析模型的故障检测方法
CN109188244A (zh) * 2018-09-03 2019-01-11 长沙学院 基于改进FastICA的开关电流电路故障诊断方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105067252A (zh) * 2015-08-23 2015-11-18 北京工业大学 一种基于改进的FastICA的冷水机组故障检测方法
CN105932774A (zh) * 2016-05-11 2016-09-07 国网冀北电力有限公司张家口供电公司 基于ica算法的智能变电站设备状态预警方法
CN107024352A (zh) * 2017-05-03 2017-08-08 哈尔滨理工大学 一种基于滑动熵‑ica算法的滚动轴承故障特征提取方法
CN107065842A (zh) * 2017-05-26 2017-08-18 宁波大学 一种基于粒子群优化核独立元分析模型的故障检测方法
CN109188244A (zh) * 2018-09-03 2019-01-11 长沙学院 基于改进FastICA的开关电流电路故障诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王亚丹: "云计算平台故障检测关键技术研究", 中国优秀硕士学位论文全文数据库(电子期刊(信息科技辑), pages 139 - 132 *

Similar Documents

Publication Publication Date Title
CN109146246B (zh) 一种基于自动编码器和贝叶斯网络的故障检测方法
CN114579380B (zh) 一种计算机系统故障的人工智能检测系统及方法
CN113642754B (zh) 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法
CN116559598B (zh) 一种智慧配电网故障定位方法及系统
CN111190804A (zh) 一种云原生系统的多层次的深度学习日志故障检测方法
CN112906764B (zh) 基于改进bp神经网络的通信安全设备智能诊断方法及系统
CN111290922B (zh) 服务运行健康度监测方法及装置
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN112818008A (zh) 核电调试故障智能诊断的方法、系统、介质及电子设备
CN108959498A (zh) 一种用于健康监测的大数据处理平台及其设计方法
CN111045902A (zh) 服务器的压力测试方法及装置
CN116304909A (zh) 一种异常检测模型训练方法、故障场景定位方法及装置
CN114962390A (zh) 液压系统故障诊断方法、系统及作业机械
CN111666978A (zh) 一种it系统运维大数据的智能故障预警系统
CN110244690B (zh) 一种多变量工业过程故障辨识方法及系统
CN116361191A (zh) 一种基于人工智能的软件兼容性处理方法
CN116149899A (zh) 获取平台故障成因的方法及平台故障自动检查处置方法
CN115564247A (zh) 一种核电厂事故智能识别及决策的方法及系统
CN112395280B (zh) 一种数据质量检测方法及其系统
CN114003466A (zh) 一种用于微服务应用程序的故障根因定位方法
CN112327096B (zh) 一种基于自适应策略的故障诊断信息融合方法及装置
CN115184734A (zh) 一种电网线路故障检测方法和系统
CN112579429A (zh) 一种问题定位方法和装置
CN117149500B (zh) 基于指标数据和日志数据的异常根因获得方法及系统
CN113742216B (zh) 一种检测机器学习引擎的效率的方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20230523