CN118035884A - 一种故障的识别方法、装置、电子设备和存储介质 - Google Patents

一种故障的识别方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN118035884A
CN118035884A CN202410115505.6A CN202410115505A CN118035884A CN 118035884 A CN118035884 A CN 118035884A CN 202410115505 A CN202410115505 A CN 202410115505A CN 118035884 A CN118035884 A CN 118035884A
Authority
CN
China
Prior art keywords
fault
target
cloud computer
determining
health
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410115505.6A
Other languages
English (en)
Inventor
钟健
邵壮丰
冉崇书
邱贤奕
曾绍汉
沈倍乐
刘诚
杨瑞荣
宋振鹏
龚华杰
朱文德
何世豪
章良昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202410115505.6A priority Critical patent/CN118035884A/zh
Publication of CN118035884A publication Critical patent/CN118035884A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23211Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明提供了一种故障的识别方法、装置、电子设备和存储介质,该方法包括:针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练;当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。

Description

一种故障的识别方法、装置、电子设备和存储介质
技术领域
本发明涉及故障识别的技术领域,特别是涉及一种故障的识别方法、一种故障的识别装置、一种电子设备和一种计算机可读存储介质。
背景技术
随着云计算和虚拟化技术的发展,以及用户对高效、安全、可靠的云服务的不断需求,云电脑故障排查和快速处理成为亟待解决的问题。
在云计算环境下,故障经常会涉及不同的层级,包括网络层、硬件层、虚拟化层和应用层等。针对不同层级的故障以及多层级故障,亟需建立一套完善的故障排查机制。
发明内容
鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种故障的识别方法、一种故障的识别装置、一种电子设备和一种计算机可读存储介质,包括:
一种故障的识别方法,所述方法包括:
针对云电脑采集健康检测数据,以及针对所述云电脑所在硬件采集状态信息;
将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,并接收所述云电脑故障检测模型输出的检测结果;所述检测结果用于表征所述云电脑是否存在故障;所述云电脑故障检测模型根据所述健康检测数据和所述健康状态信息进行再训练;
当所述检测结果表征所述云电脑存在故障时,确定所述云电脑所存在的故障的目标故障类型,并确定所述目标故障类型出现的次数;
确定故障层级间的相关系数,并根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级。
可选地,所述健康检测数据包括以下至少一种:
中央处理器利用率、内存利用率、磁盘读写速率、网卡流量速率、图形处理器资源利用率;
所述健康状态信息包括以下至少一种对象的健康状态信息:
端口、中央处理器、内存、电源、风扇、磁盘、边界网关协议。
可选地,所述方法还包括:
针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;所述目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施;
在确定所述云电脑存在故障后,根据所述目标故障类型对应的代码和故障所属的目标层级查询所述目标表格,以确定目标处理措施;
实施所述目标处理措施。
可选地,所述方法还包括:
将所述健康检测数据和所述健康状态信息转换成数值形式的数据;
所述将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,包括:
将转换成数值形式的数据输入预设的云电脑故障检测模型。
可选地,所述确定所述云电脑所存在的故障的目标故障类型,包括:
确定所述云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型;
根据与各个聚类中心的距离,确定所述云电脑所存在的故障的目标故障类型。
可选地,所述根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级,包括:
确定所述目标故障类型出现的次数是否等于云电脑总数;
确定所述故障层级间的相关系数是否大于预设的故障层级快速判断阈值;
当所述目标故障类型出现的次数等于云电脑总数,或者当所述故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间;
根据所述目标故障类型,确定故障所属的目标层级。
可选地,所述目标故障类型包括以下一种:
网络故障、硬件故障、软件故障。
本发明实施例还提供了一种故障的识别装置,所述装置包括:
采集模块,用于针对云电脑采集健康检测数据,以及针对所述云电脑所在硬件采集状态信息;
预测模块,用于将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,并接收所述云电脑故障检测模型输出的检测结果;所述检测结果用于表征所述云电脑是否存在故障;所述云电脑故障检测模型根据所述健康检测数据和所述健康状态信息进行再训练;
确定模块,用于当所述检测结果表征所述云电脑存在故障时,确定所述云电脑所存在的故障的目标故障类型,并确定所述目标故障类型出现的次数;
识别模块,用于确定故障层级间的相关系数,并根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级。
可选地,所述健康检测数据包括以下至少一种:
中央处理器利用率、内存利用率、磁盘读写速率、网卡流量速率、图形处理器资源利用率;
所述健康状态信息包括以下至少一种对象的健康状态信息:
端口、中央处理器、内存、电源、风扇、磁盘、边界网关协议。
可选地,所述装置还包括:
建表模块,用于针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;所述目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施;在确定所述云电脑存在故障后,根据所述目标故障类型对应的代码和故障所属的目标层级查询所述目标表格,以确定目标处理措施;实施所述目标处理措施。
可选地,所述装置还包括:
转换模块,用于将所述健康检测数据和所述健康状态信息转换成数值形式的数据;
所述预测模块,用于将转换成数值形式的数据输入预设的云电脑故障检测模型。
可选地,所述确定模块,用于确定所述云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型;根据与各个聚类中心的距离,确定所述云电脑所存在的故障的目标故障类型。
可选地,所述识别模块,用于确定所述目标故障类型出现的次数是否等于云电脑总数;确定所述故障层级间的相关系数是否大于预设的故障层级快速判断阈值;当所述目标故障类型出现的次数等于云电脑总数,或者当所述故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间;根据所述目标故障类型,确定故障所属的目标层级。
可选地,所述目标故障类型包括以下一种:
网络故障、硬件故障、软件故障。
本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上的故障的识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上的故障的识别方法。
本发明实施例具有以下优点:
本发明实施例中,针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练;当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。通过本发明实施例,可以在线更新训练用的数据集合,使得故障的识别不再依赖于故障的先验信息,且可以使得识别适应于动态的云计算环境。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种故障的识别方法的步骤流程图;
图2是本发明实施例的另一种故障的识别方法的步骤流程图;
图3是本发明实施例的识别故障的步骤流程图;
图4是本发明实施例的一种故障的识别装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
业界通常有如下方法对云电脑的故障进行识别:
将Naive-Bayes分类器(NBC)与MDD(Multi-value Decision Diagram,多值决策图)和ID(Impact Diagram,影响图)相结合。
在此方案中,将NBC与MDD相结合,并结合ID来组织和管理云异常检测上的故障排除。目的是在给定故障症状的情况下,计算故障发生的最终可能原因。具体步骤如下:
1.在宿主机上安装异常检测设备,收集宿主机和云电脑的CPU(CentralProcessing Unit,中央处理器)利用率(CPU利用率故障)、内存(内存泄漏故障)、I/O(Input/Output,输入/输出)存储(吞吐量故障)、网络(带宽故障),以及其他因素(如电源/冷却故障)等数据,并定义为网络参数,用于表示所有节点之间的概率依赖关系;
2.建立Naive-Bayes概率模型,评估各组件的故障概率。
3.MDD和ID将四个度量(如优先级、故障概率、风险和维修时长)结合起来,计算效用值与每个操作的故障排除步骤的优先级,确定故障排除决策。
该方法可以在每个故障排除步骤中选择相应的操作,从而实现快速、高效和低风险的故障排除。但缺点是Bayes模型依赖于先验故障数据,仅考虑了云电脑和宿主机两个层级,没有考虑云电脑的弹性伸缩策略,所提算法遇到大量动态变化的实时数据集时难以收敛。
上述已有的方案中,通常存在如下问题:
1.没有考虑动态的云计算环境:大规模的动态云计算环境对云电脑故障诊断提出了很大的挑战,波动的工作负载会导致云电脑所分配到的计算资源随时间而变化,因此故障诊断应该适应动态环境。
2.依赖于故障先验信息:在建立故障检测模型时,对复杂应用程序的行为建模往往需要先验信息,很难获得较全面的故障先验信息。
针对如上的问题,本发明实施例提供了一种故障的识别方法,该方法可以先针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;然后将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;接下来,可以确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。
其中,检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练。实施本发明,可以在线更新训练用的数据集合,使得故障的识别不再依赖于故障的先验信息,且可以使得识别适应于动态的云计算环境。具体的,参照图1,图1示出了本发明实施例的一种故障的识别方法的步骤流程图,可以包括如下步骤:
步骤101、针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息。
在一些可行的实施例中,可以预先在每个云电脑上部署一个采集agent;采集agent是一种用于数据采集的软件代理程序,它可以安装在各种不同的数据源上,并通过实时或定时地获取各种类型的数据,实现数据的有效收集和传输。采集agent通常具有以下功能:
数据采集:采集agent能够从各种数据源中实时或定时地获取数据,并将其存储在本地存储设备或传输到中心化存储单元中。
数据处理:采集agent可以对采集到的数据进行清洗、过滤、格式化等处理,以便于后续的数据分析和挖掘。
数据传输:采集agent可以将采集到的数据传输到中心化存储单元中,以便于对数据进行集中管理和分析。
配置管理:采集agent可以配置和管理各种数据源、数据格式、采集频率等参数,以便于更好地满足不同场景下的数据采集需求。
日志记录:采集agent能够记录各种日志信息,如数据采集的开始和结束时间、数据传输的状态等,以便于对数据进行审计和故障排查。
在实际应用中,可以通过在每个云电脑上部署的采集agent来采集该云电脑上的健康检测数据,以及该云电脑所在硬件的状态信息。
作为一示例,健康检测数据可以包括以下至少一种:
中央处理器利用率、内存利用率、磁盘读写速率、网卡流量速率、图形处理器资源利用率。
其中,中央处理器(CPU)利用率是指计算机的中央处理单元的工作负载与其可用处理能力之间的比例。它反映了计算机系统的工作负载和效率。CPU利用率的高低可以反映系统的工作负载和效率。当CPU利用率接近100%时,表示CPU正在全力工作,系统可能会感觉缓慢或不响应;而当CPU利用率较低时,可能表示系统负载较轻或CPU资源未充分利用。
内存利用率是指计算机内存的使用情况,它反映了计算机的内存是否足够或是否被有效利用。内存利用率可以用以下公式计算:
内存利用率=(已使用内存/总内存)×100%。其中,已使用内存是指计算机当前正在使用的内存量,总内存是指计算机中可用的总内存量。
磁盘读写速率是指磁盘在读写操作时的数据传输速率,通常以MB/s或Mbps为单位。
网卡的流量速率通常是指网络接口卡的数据传输速率,它表示每秒钟传输的比特数(bps)。网卡流量速率通常以Mbps(兆比特每秒)或Gbps(吉比特每秒)来表示。
图形处理器(GPU,Graphics Processing Unit)资源利用率是指GPU的工作负载与其可用处理能力之间的比例。它反映了GPU在处理图形任务时的性能表现和负载情况。GPU资源利用率的计算方法与CPU相似,可以通过已使用的GPU资源与总可用的GPU资源之间的比例来计算。例如,如果GPU的时钟频率为1GHz,而实际使用时的频率为800MHz,那么GPU的利用率就是80%。
作为一示例,状态信息可以包括以下至少一种对象的健康状态信息:
端口、中央处理器、内存、电源、风扇、磁盘、边界网关协议。
示例性的,状态信息还可以包括有BGP(Border Gateway Protocol,边界网关协议)的状态信息。
在一些可行的实施例中,采集agent可以根据预设规则进行健康检测数据和状态信息的采集;示例性的,可以根据预设时间间隔进行数据的采集,也可以在预设事件触发时进行数据的采集。本发明实施例对此不作限制。
步骤102、将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练。
在采集到健康检测数据和健康状态信息后,可以将所采集到的健康检测数据和健康状态信息输入至预设的云电脑故障检测模型中;该云电脑故障检测模型可以是基于少量的数据进行训练后得到的、用于检测云电脑是否发生故障的模型,以减少对先验信息的依赖。
在减少对先验信息的依赖的同时,可能导致云电脑故障检测模型的预测准确性不高;基于此,本发明实施例可以将当前所采集到的健康检测数据和健康状态信息用于云电脑故障检测模型的再训练;从而使得云电脑故障检测模型可以不断更新进步,从而摆脱先验信息的依赖。另外,基于新的数据进行训练,可以使得云电脑故障检测模型的预测更适应于动态环境,避免基于固化的模型参数进行预测,提高了预测结果的准确性。
在将健康检测数据和健康状态信息输入预设的云电脑故障检测模型后,云电脑故障检测模型可以基于健康检测数据和健康状态信息预测云电脑是否存在故障;云电脑故障检测模型还可以基于预测的结果,输出一检测结果,该检测结果可以用于表征云电脑是否存在故障。
步骤103、当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数。
在一些可行的实施例中,当检测结果表征云电脑存在故障的时候,可以先确定云电脑所存在的故障的目标故障类型;示例性的,可以基于故障现象来确定故障的目标故障类型。当然,还可以结合健康检测数据和健康状态信息来确定故障的目标故障类型。
例如:某个应用打不开或者某个网站上传不了图片,可以归于软件故障,云电脑无法访问某个网页可以归于网络故障,云电脑登录异常可以归于硬件故障。
作为一示例,目标故障类型可以包括以下一种:
网络故障、硬件故障、软件故障。
其中,网络故障通常涉及网络设备(如路由器、交换机、调制解调器等)的问题,或者是网络连接的故障,如断网、连接不稳定等。这类问题通常表现为无法访问网络资源、网页无法加载、数据传输速率降低等。
硬件故障则通常是指计算机系统中的物理硬件设备出现问题,如主板、硬盘、内存、显卡等。这类故障可能出现的症状包括系统崩溃、频繁的蓝屏死机、硬件设备发热过高、设备无法识别等。
软件故障则通常是指由于软件系统或应用程序的问题导致的故障,如操作系统崩溃或损坏、应用程序无法正常运行、数据损坏或丢失等。这类故障可能出现的症状包括程序崩溃、系统运行缓慢、功能受限等。
在确定目标故障类型后,可以确定有多少台云电脑存在该目标故障类型,并确定该目标故障类型出现的次数。
步骤104、确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。
在一些可行的实施例中,还可以确定故障层级间的相关系数,该故障层级间的相关系数是指不同故障层级之间相互关联的程度。这个系数的值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有相关性。
在故障诊断和管理中,了解不同故障层级之间的相关系数是非常重要的。这有助于确定哪些层级可能相互影响或相互作用,从而更好地理解故障的根本原因和影响范围。
例如,在计算机网络中,网络故障可能与硬件故障或软件故障相关联。如果一个网络节点出现故障,它可能与该节点上的硬件设备(如路由器或交换机)的故障相关,或者与网络软件(如操作系统或网络协议)的问题相关。了解这些相关系数可以帮助网络管理员更好地定位和解决问题。
在计算故障层级间的相关系数时,可以使用各种统计方法,如皮尔逊相关系数、斯皮尔曼秩相关系数或肯德尔秩相关系数等。
示例性的,故障层级间的相关系数可以为Ri=R(xi,yi)若是P1层和P2层的故障层级间的相关系数,那这里的xi与yi分别是P1层的y和P2层的y;x为健康检测数据和健康状态信息,y为类别标签(+1表示正常,-1表示故障)。
在确定故障层级间的相关系数,以及目标故障类型出现的次数和目标故障类型后,可以基于该故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型来确定故障所属的目标层级。其中,目标层级可以为网络层、物理硬件层、虚拟平台层、中间件层,或者应用层中的一个或多个,本发明实施例对此不作限制。
本发明实施例中,针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练;当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。通过本发明实施例,可以在线更新训练用的数据集合,使得故障的识别不再依赖于故障的先验信息,且可以使得识别适应于动态的云计算环境。
参照图2,示出了本发明实施例的另一种故障的识别方法的步骤流程图,可以包括如下步骤:
步骤201、针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息。
在实际应用中,可以通过在每个云电脑上部署的采集agent来采集该云电脑上的健康检测数据,以及该云电脑所在硬件的状态信息。
其中,健康检测数据可以整合有云电脑控制台监控数据和普罗网络监控数据;健康状态信息可以是云调(后端运维的一个平台,上面监控着物理服务器、存储设备,网络设备,安全设备以及虚机的性能状态)上的硬件监控数据。
步骤202、将健康检测数据和健康状态信息转换成数值形式的数据。
在得到健康检测数据和健康状态信息后,可以将健康检测数据和健康状态信息转换成数值形式的数据;数值型的数据可以记为Ti=(xi,yi),i=1,2,...,n,x的取值范围为Rd,y的取值范围为{+1,-1}。其中,n为训练样本个数,d为每个训练样本向量的维度,y为样本标签(+1表示正常,-1表示故障),
步骤203、将转换成数值形式的数据输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果。
在一些可行的实施例中,在得到数值形式的数据后,可以将转换成数值形式的数据输入至预设的云电脑故障检测模型中;云电脑故障检测模型可以基于所输入的数据进行预测,并输出检测结果。
步骤204、当检测结果表征云电脑存在故障时,确定云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型。
在一些可行的实施例中,当检测结果表征云电脑存在故障的时候,可以确定云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;其中,一个聚类中心可以对应一种故障类型。
步骤205、根据与各个聚类中心的距离,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数。
在确定健康检测数据和状态信息与各个聚类中心的距离后,可以根据健康检测数据和状态信息与各个聚类中心的距离,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数。
步骤206、确定故障层级间的相关系数,并确定目标故障类型出现的次数是否等于云电脑总数。
在一些可行的实施例中,还可以确定故障层级间的相关系数,并确定目标故障类型出现的次数是否等于云电脑总数,该云电脑总数可以指节点下所有的云电脑的总数。
步骤207、确定故障层级间的相关系数是否大于预设的故障层级快速判断阈值。
在一些可行的实施例中,在确定故障层级间的相关系数后,可以确定该故障层级间的相关系数是否大于预设的故障层级快速判断阈值。
示例性的,故障层级快速判断阈值可以通过如下方式来设定:
在云电脑的健康检测数据T筛选出故障数据T`,将故障数据分为网络故障F1、硬件故障F2、软件故障F3三种类型。根据具体故障类型,对故障类型相同的健康检测数据指标进行聚类分析,将健康检测数据聚类结果的数值范围作为故障层级快速判断阈值集D。
在故障定位方法模型的实际检测过程中,将新一轮的故障数据信息加入原有故障数据T`中,完成迭代聚类,实现对故障层级快速判断阈值集D的实时更新。故障层级快速判断阈值可以从故障层级快速判断阈值集D中获取。
步骤208、当目标故障类型出现的次数等于云电脑总数,或者当故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间。
在一些可行的实施例中,如果目标故障类型出现的次数等于云电脑总数,或者当故障层级间的相关系数大于预设的故障层级快速判断阈值的话,则可以先大概确定故障所属的层级区间。
示例性的,如果目标故障类型出现的次数等于云电脑总数,或者当故障层级间的相关系数大于预设的故障层级快速判断阈值的话,则可以定位为云电脑所在层级以下存在故障,即可能是物理硬件层或者网络层存在故障。
反之,则可以定位为云电脑所在层级以上存在故障,即可能是虚拟机层、中间件层或者应用层存在异常。
步骤209、根据目标故障类型,确定故障所属的目标层级。
再去目标故障类型后,可以基于目标故障类型,来进一步确定故障所属的具体的目标层级;示例性的,可以在确定故障所属的层级区间,可以进一步基于目标故障类型的故障信息(例如:健康检测数据、健康状态信息、故障的现象等)来逐层排查故障,从而确定故障所处的具体的目标层级。
例如:
1、当错误代码或错误消息涉及到数据库连接、数据访问或数据处理等,这可能是中间件问题。
2、当故障信息中描述了虚拟机的状态异常、资源不足或网络连接问题等,这可能是虚拟平台问题。
3、当故障信息中提到应用程序崩溃、界面异常或特定功能无法使用等,这可能是应用层问题。
最后,还可以使用排除法来逐一排除各个层面的可能性。如果怀疑是中间件问题,可以重启中间件服务或更换中间件配置。如果问题依然存在,再检查虚拟平台和应用层的相关设置和配置。
步骤210、针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施。
在一些可行的实施例中,可以预先针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;该目标表格中可以包括有故障所属层级、云电脑故障类型的代码,以及对应的处理措施;基于该目标表格,可以在确定故障后,确定相应的处理措施。
步骤211、在确定云电脑存在故障后,根据目标故障类型对应的代码和故障所属的目标层级查询目标表格,以确定目标处理措施。
在确定云电脑存在故障后,可以根据目标故障类型对应的代码和故障所属的目标层级查询目标表格,并通过查表确定对应的目标处理措施,以针对该故障进行处理。
步骤212、实施目标处理措施。
在确定目标处理措施后,可以实施该目标处理措施。示例性的,如为物理层故障,则检查服务器、存储、网络设备状态,更换故障硬件;
若为网络层故障,则进一步排查是本地网络还是云电脑网络,对比相同运行环境下正常云电脑的配置,确定带宽问题还是专线问题;tracert云内云外地址,找出网络断点,调整网络设置。
若为软件故障,则检查应用层的进程情况或中间件的日志信息,设法修复软件错误或重启云电脑。
示例性的,如图3所示:
S1:获取健康状态信息和健康检测数据。当agent采集到健康检测数据和健康状态信息后,首先对其进行数据预处理,将文本数据转换为数值型数据。
S2:建立基于SVM(Support Vector Machine,支持向量机)的云电脑故障检测模型。以各个维度下样本(比如:CPU利用率,内存利用率,磁盘读写速率,网卡流量速率,GPU资源利用率等)的变异系数、偏度、峰度、方根均值4个无量纲作为特征值,选用70%的数据集作为训练集,30%的数据集作为测试集,对二分类支持向量机模型进行训练,根据预测值和真实值,计算准确率。然后,触发以下逻辑判断:
云电脑是否存在故障,若故障则执行下一步,否则更新健康状态信息和健康检测数据。
S3:确定故障类型。根据更新后的y值,在云电脑的健康检测数据T筛选出故障数据T`,利用K均值聚类算法,将故障数据聚类为网络故障F1、硬件故障F2、软件故障F3三种类型。
首先,随机选取K个样本作为初始质心,根据数据样本与质心之间的距离,就近分配到质心所代表的簇。然后计算簇中所有样本的均值,并将均值赋值给质心,不断迭代更新样本的分类和质心的位置,直到质心变化很小,如小于0.001。然后,将故障类型聚类结果的数值范围的上限作为故障层级快速判断阈值集D。
S4:确定故障层级。根据agent里计数字典C,对比同类型故障云电脑的数量c和各个层级下的云电脑总数N,并计算云电脑层故障特征的相关系数Ri=R(xi,yi),当c(Ti)=N,或云电脑层故障特征的相关系数Ri=R(xi,yi)超过故障层级快速判断阈值Di,则认定该批云电脑所在层级以下有故障,进一步检查是否有硬件告警或网络ping不通情况,从而确定是硬件层P2还是网络层故障P1。否则认定为云电脑所在层级P3以上的故障。
当c(Ti)<N,且云电脑层故障特征的相关系数Ri=R(xi,yi)小于故障层级快速判断阈值Di,则下一步检查进程和日志情况,确认是中间件故障P4还是应用层故障P5。
S5:采取故障措施。依据故障类型和故障层级查找相应的故障处理措施。
如为物理层故障,则检查服务器、存储、网络设备状态,更换故障硬件;
若为网络层故障,则进一步排查是本地网络还是云电脑网络,对比相同运行环境下正常云电脑的配置,确定带宽问题还是专线问题;tracert云内云外地址,找出网络断点,调整网络设置。
若为软件故障,则检查应用层的进程情况或中间件的日志信息,设法修复软件错误或重启云电脑。
本发明实施例中,针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;将健康检测数据和健康状态信息转换成数值形式的数据;将转换成数值形式的数据输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;当检测结果表征云电脑存在故障时,确定云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型;根据与各个聚类中心的距离,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;确定故障层级间的相关系数,并确定目标故障类型出现的次数是否等于云电脑总数;确定故障层级间的相关系数是否大于预设的故障层级快速判断阈值;当目标故障类型出现的次数等于云电脑总数,或者当故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间;根据目标故障类型,确定故障所属的目标层级;针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施;在确定云电脑存在故障后,根据目标故障类型对应的代码和故障所属的目标层级查询目标表格,以确定目标处理措施;实施目标处理措施。通过本发明实施例,可以在线更新训练用的数据集合,使得故障的识别不再依赖于故障的先验信息,且可以使得识别适应于动态的云计算环境。
另外,利用故障类型和故障层级间的相关系数来确定故障层级,进一步缩小排查范围,选择相对应的处理措施,该方法具有无需人工干预即可自动定位故障原因的能力。
进一步的,基于agent采集的云电脑健康检测数据包括网络、硬件、虚拟平台、中间件以及应用层多层环境数据。可以准确识别故障类型和故障层级,有效缩小故障排查范围,帮助运维人员快速定位故障原因、缩减故障时间、同时减少计算开支。
且本发明技术方案较之现有方案,所用算法不受样本维度和样本量大小约束,适用范围更广。
实施本发明实施例,在溯源云电脑故障层级的基础上,可直接定位同一个故障现象在虚拟网络中客户端和服务端批量出现的原因,相比单独监测云电脑、宿主机、服务器等不同层级的健康状态更为高效。与此同时,
本发明对云电脑进行有效地监控、分析和管理,减少了人工运维成本,解决在多层级故障问题下快速定位故障原因的难题,从而提高云电脑性能监控和安全管理的准确性与可靠性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明实施例的一种故障的识别装置的结构示意图,可以包括如下模块:
采集模块401,用于针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;
预测模块402,用于将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练;
确定模块403,用于当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;
识别模块404,用于确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。
本发明的一个可选实施例中,健康检测数据包括以下至少一种:
中央处理器利用率、内存利用率、磁盘读写速率、网卡流量速率、图形处理器资源利用率;
健康状态信息包括以下至少一种对象的健康状态信息:
端口、中央处理器、内存、电源、风扇、磁盘、边界网关协议。
本发明的一个可选实施例中,装置还包括:
建表模块,用于针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施;在确定云电脑存在故障后,根据目标故障类型对应的代码和故障所属的目标层级查询目标表格,以确定目标处理措施;实施目标处理措施。
本发明的一个可选实施例中,装置还包括:
转换模块,用于将健康检测数据和健康状态信息转换成数值形式的数据;
预测模块402,用于将转换成数值形式的数据输入预设的云电脑故障检测模型。
本发明的一个可选实施例中,确定模块403,用于确定云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型;根据与各个聚类中心的距离,确定云电脑所存在的故障的目标故障类型。
本发明的一个可选实施例中,识别模块404,用于确定目标故障类型出现的次数是否等于云电脑总数;确定故障层级间的相关系数是否大于预设的故障层级快速判断阈值;当目标故障类型出现的次数等于云电脑总数,或者当故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间;根据目标故障类型,确定故障所属的目标层级。
本发明的一个可选实施例中,目标故障类型包括以下一种:
网络故障、硬件故障、软件故障。
本发明实施例中,针对云电脑采集健康检测数据,以及针对云电脑所在硬件采集状态信息;将健康检测数据和健康状态信息输入预设的云电脑故障检测模型,并接收云电脑故障检测模型输出的检测结果;检测结果用于表征云电脑是否存在故障;云电脑故障检测模型根据健康检测数据和健康状态信息进行再训练;当检测结果表征云电脑存在故障时,确定云电脑所存在的故障的目标故障类型,并确定目标故障类型出现的次数;确定故障层级间的相关系数,并根据故障层级间的相关系数、目标故障类型出现的次数,以及目标故障类型,确定故障所属的目标层级。通过本发明实施例,可以在线更新训练用的数据集合,使得故障的识别不再依赖于故障的先验信息,且可以使得识别适应于动态的云计算环境。
本发明实施例还提供了一种电子设备,包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上的故障的识别方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如上的故障的识别方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对所提供的一种故障的识别方法、一种故障的识别装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种故障的识别方法,其特征在于,所述方法包括:
针对云电脑采集健康检测数据,以及针对所述云电脑所在硬件采集状态信息;
将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,并接收所述云电脑故障检测模型输出的检测结果;所述检测结果用于表征所述云电脑是否存在故障;所述云电脑故障检测模型根据所述健康检测数据和所述健康状态信息进行再训练;
当所述检测结果表征所述云电脑存在故障时,确定所述云电脑所存在的故障的目标故障类型,并确定所述目标故障类型出现的次数;
确定故障层级间的相关系数,并根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级。
2.根据权利要求1所述的方法,其特征在于,所述健康检测数据包括以下至少一种:
中央处理器利用率、内存利用率、磁盘读写速率、网卡流量速率、图形处理器资源利用率;
所述健康状态信息包括以下至少一种对象的健康状态信息:
端口、中央处理器、内存、电源、风扇、磁盘、边界网关协议。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对宿主机上的所有云电脑的故障类型,以及各故障类型相应的处理措施生成一目标表格;所述目标表格包括故障所属层级、云电脑故障类型的代码,以及对应的处理措施;
在确定所述云电脑存在故障后,根据所述目标故障类型对应的代码和故障所属的目标层级查询所述目标表格,以确定目标处理措施;
实施所述目标处理措施。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述健康检测数据和所述健康状态信息转换成数值形式的数据;
所述将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,包括:
将转换成数值形式的数据输入预设的云电脑故障检测模型。
5.根据权利要求1所述的方法,其特征在于,所述确定所述云电脑所存在的故障的目标故障类型,包括:
确定所述云电脑对应的健康检测数据和状态信息与各个聚类中心的距离;一个聚类中心对应一种故障类型;
根据与各个聚类中心的距离,确定所述云电脑所存在的故障的目标故障类型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级,包括:
确定所述目标故障类型出现的次数是否等于云电脑总数;
确定所述故障层级间的相关系数是否大于预设的故障层级快速判断阈值;
当所述目标故障类型出现的次数等于云电脑总数,或者当所述故障层级间的相关系数大于预设的故障层级快速判断阈值时,确定故障所属的层级区间;
根据所述目标故障类型,确定故障所属的目标层级。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述目标故障类型包括以下一种:
网络故障、硬件故障、软件故障。
8.一种故障的识别装置,其特征在于,所述装置包括:
采集模块,用于针对云电脑采集健康检测数据,以及针对所述云电脑所在硬件采集状态信息;
预测模块,用于将所述健康检测数据和所述健康状态信息输入预设的云电脑故障检测模型,并接收所述云电脑故障检测模型输出的检测结果;所述检测结果用于表征所述云电脑是否存在故障;所述云电脑故障检测模型根据所述健康检测数据和所述健康状态信息进行再训练;
确定模块,用于当所述检测结果表征所述云电脑存在故障时,确定所述云电脑所存在的故障的目标故障类型,并确定所述目标故障类型出现的次数;
识别模块,用于确定故障层级间的相关系数,并根据所述故障层级间的相关系数、所述目标故障类型出现的次数,以及所述目标故障类型,确定故障所属的目标层级。
9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述故障的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述故障的识别方法。
CN202410115505.6A 2024-01-26 2024-01-26 一种故障的识别方法、装置、电子设备和存储介质 Pending CN118035884A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410115505.6A CN118035884A (zh) 2024-01-26 2024-01-26 一种故障的识别方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410115505.6A CN118035884A (zh) 2024-01-26 2024-01-26 一种故障的识别方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN118035884A true CN118035884A (zh) 2024-05-14

Family

ID=91001412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410115505.6A Pending CN118035884A (zh) 2024-01-26 2024-01-26 一种故障的识别方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN118035884A (zh)

Similar Documents

Publication Publication Date Title
EP3557819B1 (en) Server failure detection method and system
US10983856B2 (en) Identifying root causes of performance issues
US9672085B2 (en) Adaptive fault diagnosis
CN113328872B (zh) 故障修复方法、装置和存储介质
Zheng et al. Co-analysis of RAS log and job log on Blue Gene/P
US12040935B2 (en) Root cause detection of anomalous behavior using network relationships and event correlation
US10909018B2 (en) System and method for end-to-end application root cause recommendation
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
EP2286337A2 (en) Ranking the importance of alerts for problem determination in large systems
US8918345B2 (en) Network analysis system
CN109144813B (zh) 一种云计算系统服务器节点故障监控系统及方法
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
CN112367191B (zh) 一种5g网络切片下服务故障定位方法
US20160191359A1 (en) Reactive diagnostics in storage area networks
CN114138617B (zh) 自学习的变频监控方法、系统、电子设备和存储介质
KR20220166760A (ko) 5g 분산 클라우드 시스템의 빅 데이터를 이용하여 장애를 관리하는 장치 및 방법
CN108989083B (zh) 云环境下基于混合策略的故障检测性能优化方法
KR20200126766A (ko) Ict 인프라의 운용 관리 장치 및 방법
CN117194154A (zh) 一种基于微服务的apm全链路监控系统及方法
Zou et al. Improving log-based fault diagnosis by log classification
CN116541728A (zh) 一种基于密度聚类的故障诊断方法及装置
CN118035884A (zh) 一种故障的识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination