CN115858324A - 基于ai的it设备故障处理方法、装置、设备和介质 - Google Patents

基于ai的it设备故障处理方法、装置、设备和介质 Download PDF

Info

Publication number
CN115858324A
CN115858324A CN202310052322.XA CN202310052322A CN115858324A CN 115858324 A CN115858324 A CN 115858324A CN 202310052322 A CN202310052322 A CN 202310052322A CN 115858324 A CN115858324 A CN 115858324A
Authority
CN
China
Prior art keywords
fault
equipment
data
maintenance
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310052322.XA
Other languages
English (en)
Other versions
CN115858324B (zh
Inventor
周峰
李晓龙
沈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhou Everbright Technology Co ltd
Original Assignee
Beijing Shenzhou Everbright Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Everbright Technology Co ltd filed Critical Beijing Shenzhou Everbright Technology Co ltd
Priority to CN202310052322.XA priority Critical patent/CN115858324B/zh
Publication of CN115858324A publication Critical patent/CN115858324A/zh
Application granted granted Critical
Publication of CN115858324B publication Critical patent/CN115858324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及运维管理的技术领域,尤其是涉及基于AI的IT设备故障处理方法、装置、设备和介质,其方法包括:基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取;然后,基于AI算法对故障数据进行解析分析,并基于故障特征和运维处理的关系,确定故障处理方案;最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。

Description

基于AI的IT设备故障处理方法、装置、设备和介质
技术领域
本申请涉及运维管理的技术领域,尤其是涉及基于AI的IT设备故障处理方法、装置、设备和介质。
背景技术
随着云计算技术的飞速发展,数据中心不断被建造以满足计算需求,同时,IT(Information Technology,信息技术)设备集群也越来越庞大,伴随着IT设备的数量增多,IT设备种类也越来越多样,这就导致数据中心和IT设备集群的管理难度越来越大,此时,保障IT服务能灵活便捷、安全稳定工作的IT运维显得异常重要。
目前的运维方式是运维人员基于IT设备的运行异常情况和资源消耗情况,人工进行分析和处理,并需要运维人员赶赴现场,通过专业操作排除设备故障。在运维管理中,IT设备常常会出现许多重复的故障,然而,这些重复的故障可以基于固定的处理方案进行处理,每次都基于人工处理重复故障大大浪费了运维人员的时间,且处理效率低。
因而,如何提供一种高效的IT设备故障处理方法是本领域人员亟待解决的问题。
发明内容
本申请的目的是提供一种基于AI的IT设备故障处理方法、装置、设备和介质,用于解决以上至少一项技术问题。
本申请的上述发明目的是通过以下技术方案得以实现的:
第一方面,本申请提供一种基于AI的IT设备故障处理方法,采用如下的技术方案:
一种基于AI的IT设备故障处理方法,包括:
获取IT设备的运行日志和性能负载数据,并基于所述运行日志和所述性能负载数据进行故障分析,得到故障分析结果,其中,所述故障分析结果包括:设备故障和设备正常;
当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据;
基于AI算法对所述故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案;
基于所述故障处理方案自动对IT设备执行运维流程,并生成运维报告。
通过采用上述技术方案,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
本申请在一较佳示例中可以进一步配置为:基于所述故障处理方案自动对IT设备执行运维流程,包括:
基于所述故障处理方案初次对IT设备执行运维流程;
当完成初次运维流程时,则重新获取IT设备的运行日志和性能负载数,并基于重新获取的运行日志和性能负载数据进行故障分析,得到故障分析结果;
若所述故障分析结果为设备故障时,则重复执行当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据的步骤,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至所述故障分析结果为设备正常;
若所述故障分析结果为设备正常时,则判断是否存在循环故障处理方案;
若存在循环故障处理方案,则从所有所述循环故障处理方案中确定若干有效故障处理方案,并基于所述若干有效故障处理方案更新故障特征和运维处理的关系。
通过采用上述技术方案,基于故障处理方案初次对IT设备执行运维流程,当完成初次运维流程时,则基于重新获取的运行日志和性能负载数据进行故障分析,若故障分析结果为设备故障时,则重复确定故障处理方案,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常;若故障分析结果为设备正常,且存在循环故障处理方案时,则从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系。通过这种方式,不仅能够保证IT设备的故障完全排除,且更新故障特征和运维处理的关系的操作能够不断丰富故障处理方案。
本申请在一较佳示例中可以进一步配置为:基于所述故障处理方案初次对IT设备执行运维流程,包括:
向IT设备发送故障处理请求指令,其中,所述故障处理请求指令用于通知IT设备要执行运维流程,使得IT设备正常结束运行的进程,并进行数据备份操作;
当接收到IT设备发送的允许请求指令,则基于所述故障处理方案初次对IT设备执行运维流程。
通过采用上述技术方案,在基于故障处理方案初次对IT设备执行运维流程前,首先向IT设备发送故障处理请求指令,当接收到IT设备发送的允许请求指令,则基于所述故障处理方案初次对IT设备执行运维流程。通过这种方式,能够避免执行运维流程而造成IT设备数据的丢失。
本申请在一较佳示例中可以进一步配置为:基于AI算法对所述故障数据进行解析分析,得到故障特征,包括:
利用故障知识体系对所述故障数据进行解析分析,得到故障特征,其中,所述故障知识体系是基于大量的预设故障数据形成的故障语料库。
通过采用上述技术方案,利用故障知识体系进行解析时,能够使得分散的故障数据之间建立起紧密的联系,因而,能够更加精准的确定高匹配度的故障特征。
本申请在一较佳示例中可以进一步配置为:基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案,包括:
向IT设备发送通信测试指令,得到通信测试的测试结果,并基于所述测试结果分析IT设备的故障原因;
基于故障特征和运维处理的关系,确定所述故障特征对应的第一故障处理方案;
基于故障原因和运维处理的关系,确定所述故障原因对应的第二故障处理方案;
综合所述第一故障处理方案和所述第二故障处理方案,得到最终的故障处理方案。
通过采用上述技术方案,向IT设备发送通信测试指令,基于测试结果分析IT设备的故障原因,然后,基于故障特征和运维处理的关系确定第一故障处理方案,基于故障原因和运维处理的关系确定第二故障处理方案,最后,综合第一故障处理方案和第二故障处理方案,得到最终的故障处理方案。综合第一故障处理方案和第二故障处理方案,在解决IT设备的当前故障时,深入到了引发故障产生原因的层面上,能够从根源上排除IT设备的故障。
本申请在一较佳示例中可以进一步配置为:基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据,包括:
基于所述运行日志进行日志信息提取,得到所有目标日志信息,并从所述所有目标日志信息中确定异常执行特征;
基于所述性能负载数据进行负载数据分析,确定异常负载特征;
基于所述异常执行特征和所述异常负载特征进行整合,得到故障数据。
通过采用上述技术方案,基于运行日志进行日志信息提取,并从所有目标日志信息中确定异常执行特征,然后,基于性能负载数据进行负载数据分析,确定异常负载特征,最后,整合的异常执行特征和所述异常负载特征,得到故障数据。在确定故障数据时,综合考虑了IT设备的运行状态和负载情况,使得故障数据能够较为全面的表征IT设备的故障情况。
本申请在一较佳示例中可以进一步配置为:基于所述性能负载数据进行负载数据分析,确定异常负载特征,包括:
基于所述性能负载数据和负载数据阈值,确定若干第一异常因子;
基于所述性能负载数据和历史性能负载数据,确定所述性能负载数据的数据变化情况,并基于所述数据变化情况确定若干第二异常因子;
基于所述若干第一异常因子和所述若干第二异常因子进行特征整合,得到异常负载特征。
通过采用上述技术方案,基于性能负载数据和负载数据阈值,确定若干第一异常因子,并基于性能负载数据和历史性能负载数据,确定所述性能负载数据的数据变化情况,然后,基于所述数据变化情况确定若干第二异常因子,最终,基于若干第一异常因子和所述若干第二异常因子进行特征整合,得到异常负载特征。从负载数据阈值和数据变化情况两方面综合进行分析,提高了异常负载特征与IT设备的故障情况的匹配度。
第二方面,本申请提供一种基于AI的IT设备故障处理装置,采用如下的技术方案:
一种基于AI的IT设备故障处理装置,包括:
故障分析模块,用于获取IT设备的运行日志和性能负载数据,并基于所述运行日志和所述性能负载数据进行故障分析,得到故障分析结果,其中,所述故障分析结果包括:设备故障和设备正常;
故障数据提取模块,用于当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据;
故障处理方案确定模块,用于基于AI算法对所述故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案;
故障处理方案执行模块,用于基于所述故障处理方案自动对IT设备执行运维流程,并生成运维报告。
通过采用上述技术方案,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
第三方面,本申请提供一种电子设备,采用如下的技术方案:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行上述的基于AI的IT设备故障处理方法。
第四方面,本申请提供一种计算机可读存储介质,采用如下的技术方案:
一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行上所述的基于AI的IT设备故障处理方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
2.基于故障处理方案初次对IT设备执行运维流程,当完成初次运维流程时,则基于重新获取的运行日志和性能负载数据进行故障分析,若故障分析结果为设备故障时,则重复确定故障处理方案,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常;若故障分析结果为设备正常,且存在循环故障处理方案时,则从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系。通过这种方式,不仅能够保证IT设备的故障完全排除,且更新故障特征和运维处理的关系的操作能够不断丰富故障处理方案。
附图说明
图1是本申请其中一实施例的一种基于AI的IT设备故障处理方法的流程示意图;
图2是本申请其中一实施例的一种基于AI的IT设备故障处理装置的结构示意图;
图3是本申请其中一实施例的一种电子设备的结构示意图。
具体实施方式
以下结合图1至图3对本申请作进一步详细说明。
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
IT运维能够保障IT服务能灵活便捷、安全稳定工作,目前的运维方式是运维人员基于IT设备的运行异常情况和资源消耗情况,人工进行分析和处理,并需要运维人员赶赴现场,通过专业操作排除设备故障。在运维管理中,IT设备常常会出现许多重复的故障,然而,这些重复的故障可以基于固定的处理方案进行处理,每次都基于人工处理重复故障大大浪费了运维人员的时间,且处理效率低。
为了解决上述技术问题,本申请实施例提供了一种基于AI的IT设备故障处理方法,首先,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据;然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案;最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,节省了运维人员的时间且提升了IT设备故障处理的效率。
本申请实施例提供了一种基于AI的IT设备故障处理方法,由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,如图1所示,该方法包括步骤S101、步骤S102、步骤S103以及步骤S104,其中:
步骤S101:获取IT设备的运行日志和性能负载数据,并基于运行日志和性能负载数据进行故障分析,得到故障分析结果,其中,故障分析结果包括:设备故障和设备正常。
对于本申请实施例,IT设备包括但不限于:在公有云、私有云、局域网下的各类服务器、主机、网路、交换机、存储设备和虚拟设备,运行日志用于记录IT设备运行的状态,记载着日期、时间、使用者及动作等相关操作的描述,性能负载数据包括但不限于:CPU使用率、内存使用率、系统负载、文件系统使用率等。基于运行日志和性能负载数据进行故障分析时,基于运行日志判断IT设备是否存在运行故障的情况,同时,基于性能负载数据判断IT设备是否存在负载过大的情况,然后,综合IT设备的运行情况和负载情况得到故障分析结果。
步骤S102:当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。
对于本申请实施例,当故障分析结果为设备故障时,则表明IT设备存在异常故障的情况,需要确定与IT设备当前故障情况对应的故障处理方案并执行,以使得IT设备恢复正常状态。因而,基于运行日志和性能负载数据进行故障数据提取,具体的,运行日志中所有log事件能够确定IT设备的运行状态,当基于运行日志进行故障数据提取时,将IT设备对应的异常执行信息提取出来,作为异常执行特征,其中,运行状态为异常时存在多种情况,例如,IT设备无法连接网络、IT设备无法接入系统等;性能负载数据包括但不限于:CPU使用率、内存使用率、系统负载、文件系统使用率等,用于表征IT设备的负载情况,若IT设备存在负载过大的情况,则表征IT设备存在故障,因而,在性能负载数据包括的多项数据中确定存在异常的数据项,作为异常负载特征;最终,基于运行日志对应的异常执行特征和性能负载数据对应的异常负载特征进行整合,得到故障数据。
当故障分析结果为设备正常时,则表明IT设备运行正常,因而,不再执行后续的故障处理流程,实时监测IT设备的运行日志和性能负载数据。
步骤S103:基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。
对于本申请实施例,由于故障数据是基于运行日志和性能负载数据进行提取出来的,即,故障数据为存在故障的分散的若干数据项,因而,基于AI算法对故障数据进行解析分析时,优选的,将故障数据进行数据关联操作,得到故障关联数据,其中,故障关联数据为包括设备实体、故障属性和设备实体关系的知识图谱,因而,基于数据关联操作,能够使得分散的故障数据之间建立起紧密的联系,与此同时,AI算法为故障知识体系,故障知识体系是基于大量的预设故障数据形成的故障语料库,且,针对每一预设故障关联数据均存在与之对应的故障特征。得到的故障特征至少包括:故障类型、故障等级,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案,其中,故障处理方案包括但不限于:关机、重启、备份、调节参数和更改配置等。
步骤S104:基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。
对于本申请实施例,在确定了IT设备对应的故障处理方案后,电子设备会基于故障处理方案自动对IT设备执行运维流程,优选的,在完成运维流程后,会进行IT设备状态的刷新,以确定IT设备是否恢复正常。然后,基于IT设备的详细信息、故障信息、故障处理方案、IT设备状态综合生成运维报告,运维报告用于准确记录IT设备故障处理的内容。
可见,在本申请实施例中,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
进一步的,为了能够保证IT设备的故障完全排除,且不断丰富故障处理方案,在本申请实施例中,基于故障处理方案自动对IT设备执行运维流程,包括:
基于故障处理方案初次对IT设备执行运维流程;
当完成初次运维流程时,则重新获取IT设备的运行日志和性能负载数,并基于重新获取的运行日志和性能负载数据进行故障分析,得到故障分析结果;
若故障分析结果为设备故障时,则重复执行当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据的步骤,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常;
若故障分析结果为设备正常时,则判断是否存在循环故障处理方案;
若存在循环故障处理方案,则从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系。
对于本申请实施例,在实际IT设备的故障处理过程中,存在基于故障处理方案初次对IT设备执行运维流程后,未能解决IT设备存在的故障,并未达到故障处理的最终目的,则再次进行故障处理显得尤为重要。因而,在基于故障处理方案完成运维流程时,重新获取IT设备的运行日志和性能负载数,并基于重新获取的运行日志和性能负载数据进行故障分析,以判断初次运维流程后IT设备是否恢复正常。若故障分析结果仍然为设备故障,则表明初次运维流程并未达到故障处理的最终目的,因而,重复执行“当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据”以及之后的步骤,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常,需要明确的是,每一次基于故障处理方案执行运维流程后,均可能会影响IT设备的运行日志和性能负载数据,因而,在重复执行循环步骤时,进行故障数据提取的运行日志和性能负载数据相较于上一次执行可能会发生变化。
进一步的,故障分析结果为设备正常存在两种情况,在一种情况下,在完成初次运维流程后,重新基于运行日志和性能负载数进行故障分析时,故障分析结果就为设备正常,此种情况表明基于故障处理方案初次对IT设备执行运维流程就已经将IT设备的故障排除;在另一种情况下,在完成初次运维流程后,故障分析结果仍为设备故障,在重复执行了多次循环步骤,基于若干循环故障处理方案对IT设备执行运维流程,以使得故障分析结果为设备正常。因而,当故障分析结果为设备正常时,首先,判断是否存在循环故障处理方案,若不存在循环故障处理方案,则表明基于故障处理方案初次对IT设备执行运维流程就已经将IT设备的故障排除,因而,不再执行其余步骤;若存在循环故障处理方案,则表明该设备正常是基于若干循环故障处理方案对IT设备执行运维流程实现的故障排除,但是,并非每一循环故障处理方案均对IT设备的故障排除产生正向的效果,因而,从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系,其中,有效故障处理方案指的是对故障排除产生有益效果的故障处理方案,且,更新后的故障特征和运维处理的关系中一个故障特征所对应的故障处理方案会包括若干循环故障处理方案。
可见,在本申请实施例中,基于故障处理方案初次对IT设备执行运维流程,当完成初次运维流程时,则基于重新获取的运行日志和性能负载数据进行故障分析,若故障分析结果为设备故障时,则重复确定故障处理方案,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常;若故障分析结果为设备正常,且存在循环故障处理方案时,则从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系。通过这种方式,不仅能够保证IT设备的故障完全排除,且更新故障特征和运维处理的关系的操作能够不断丰富故障处理方案。
进一步的,为了能够避免执行运维流程而造成IT设备数据的丢失,在本申请实施例中,基于故障处理方案初次对IT设备执行运维流程,包括:
向IT设备发送故障处理请求指令,其中,故障处理请求指令用于通知IT设备要执行运维流程,使得IT设备正常结束运行的进程,并进行数据备份操作;
当接收到IT设备发送的允许请求指令,则基于故障处理方案初次对IT设备执行运维流程。
对于本申请实施例,当监测到IT设备存在故障后,基于故障处理方案对IT设备执行运维流程,其中,故障处理方案包括关机、重启等操作,然而,在IT设备处于工作的情况下直接执行这一系列的操作容易造成IT设备数据的丢失。因而,在基于故障处理方案初次对IT设备执行运维流程前,向IT设备发送故障处理请求指令,当IT设备正常结束运行的进程,并完成数据备份操作后,IT设备会返回一个允许请求指令,允许请求指令用于表明IT设备已经准备好执行故障处理方案,故,电子设备接收到IT设备发送的允许请求指令后,则基于故障处理方案初次对IT设备执行运维流程,通过这种方式,能够避免执行运维流程而造成IT设备数据的丢失。
可见,在本申请实施例中,在基于故障处理方案初次对IT设备执行运维流程前,首先向IT设备发送故障处理请求指令,当接收到IT设备发送的允许请求指令,则基于故障处理方案初次对IT设备执行运维流程。通过这种方式,能够避免执行运维流程而造成IT设备数据的丢失。
进一步的,为了能够更加精准的确定高匹配度的故障特征,在本申请实施例中,基于AI算法对故障数据进行解析分析,得到故障特征,包括:
利用故障知识体系对故障数据进行解析分析,得到故障特征,其中,故障知识体系是基于大量的预设故障数据形成的故障语料库。
对于本申请实施例,故障数据是基于IT设备的运行日志和性能负载数据提取得到的,且,在实际工作中,每一IT设备会与若干IT设备存在复杂的连接关系,因而,基于提取完成的分散的故障数据进行关联操作,能够使得分散的故障数据之间建立起紧密的联系,在进行解析分析时,能够更加精准的确定高匹配度的故障特征。故,利用故障知识体系对故障数据进行解析分析时,会将故障数据进行关联操作。
具体的,利用故障知识体系对故障数据进行解析分析,得到故障特征,故障知识体系是基于大量的预设故障数据形成的故障语料库,即,预先对故障数据的结构化信息基于语义的信息提取,得到有价值的实体、关系以及属性的知识图谱,并形成一套提取知识图谱的IT设备故障语料库,在IT设备故障语料库基础上采用自然语言技术对非结构化知识图谱进行自动识别,将IT设备故障数据的相关实体及其相互之间的关系关联起来,生成多语义知识融合的知识图谱。因而,故障数据首先通过处理转化为标准数据供图谱使用,然后,通过知识图谱的形式将“状态—现象—设备—故障特征”的故障数据及图谱的相关实体及其相互之间的关系关联起来,最终得到故障特征,其中,故障特征至少包括:故障类型、故障等级,当然,基于故障知识体系得到的故障特征还可以包括部分故障处理建议。
对非结构化知识图谱进行自动识别,将IT设备故障数据的相关实体及其相互之间的关系关联起来,生成多语义知识融合的知识图谱的具体过程为:基于非结构化的故障数据进行信息抽取,信息抽取包括:实体抽取、关系抽取、属性抽取,然后,基于抽取出的实体信息、关系信息、属性信息进行知识融合,知识融合包括:指代消除和实体消歧,再基于知识融合后的信息进行本体抽取和质量评估,在满足质量评估要求后,将处理完成的信息记为故障关联数据,其中,故障关联数据为包括设备实体、故障属性和设备实体关系的知识图谱。
可见,在本申请实施例中,利用故障知识体系进行解析时,能够使得分散的故障数据之间建立起紧密的联系,因而,能够更加精准的确定高匹配度的故障特征。
进一步的,为了从根源上排除IT设备的故障,在本申请实施例中,基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案,包括:
向IT设备发送通信测试指令,得到通信测试的测试结果,并基于测试结果分析IT设备的故障原因;
基于故障特征和运维处理的关系,确定故障特征对应的第一故障处理方案;
基于故障原因和运维处理的关系,确定故障原因对应的第二故障处理方案;
综合第一故障处理方案和第二故障处理方案,得到最终的故障处理方案。
对于本申请实施例,在确定故障特征对应的故障处理方案,常常会仅依照IT设备的当前故障情况确定故障处理方案,然而,针对引发故障的根本原因并未进行及时的维护,因而,IT设备的故障并未从根本上排除故障。因而,在确定故障特征对应的故障处理方案时,电子设备会向IT设备发送一个通信测试指令,通信测试指令用于请求对IT设备执行通信测试,并在IT设备完成通信测试后,将通信测试的测试结果返回给电子设备,然后,基于通信测试的测试结果分析IT设备的故障原因,优选的,利用故障原因分析模型进行故障原因分析,其中,故障原因分析模型是一个基于大量训练样本训练完成的神经网络模型。
进一步的,基于故障特征和运维处理的关系,确定故障特征对应的第一故障处理方案,然后,再基于故障原因和运维处理的关系,确定故障原因对应的第二故障处理方案,其中,故障特征和运维处理的关系、故障原因和运维处理的关系预先存储在电子设备内,两个关系是技术人员基于大量的实验确定的,当然,用户也可以基于需求自行进行设定,本申请实施例不再进行限定。例如,故障特征中故障类型为连接异常、故障等级为一般等级,则基于故障特征和运维处理的关系确定的第一故障处理方案为关机并重启。
最终,综合第一故障处理方案和第二故障处理方案,得到最终的故障处理方案,然而,综合故障处理方案的方式有多种,在一种可实现的方式中,拆解第一故障处理方案和第二故障处理方案,得到多个故障处理步骤,然后,综合每一故障处理步骤的处理优先级对所有故障处理步骤进行重新排布,进而,得到最终的故障处理方案。在另一种可实现的方式中,从故障处理难度、故障处理时间等多方面综合评估第一故障处理方案和第二故障处理方案,然后,基于评估结果确定第一故障处理方案和第二故障处理方案的执行顺序并依照顺序排列方案,得到最终的故障处理方案。对于综合故障处理方案的方式,本申请实施例不再进行限定。
可见,在本申请实施例中,向IT设备发送通信测试指令,基于测试结果分析IT设备的故障原因,然后,基于故障特征和运维处理的关系确定第一故障处理方案,基于故障原因和运维处理的关系确定第二故障处理方案,最后,综合第一故障处理方案和第二故障处理方案,得到最终的故障处理方案。综合第一故障处理方案和第二故障处理方案,在解决IT设备的当前故障时,深入到了引发故障产生原因的层面上,能够从根源上排除IT设备的故障。
进一步的,为了使得故障数据能够较为全面的表征IT设备的故障情况,在本申请实施例中,基于运行日志和性能负载数据进行故障数据提取,得到故障数据,包括:
基于运行日志进行日志信息提取,得到所有目标日志信息,并从所有目标日志信息中确定异常执行特征;
基于性能负载数据进行负载数据分析,确定异常负载特征;
基于异常执行特征和异常负载特征进行整合,得到故障数据。
对于本申请实施例,当进行故障数据提取时,会分别基于运行日志和性能负载数据两方面进行,即,从IT设备的运行情况和负载情况进行故障数据提取。具体的,基于运行日志进行日志信息提取,得到所有目标日志信息,其中,目标日志信息是基于对运行日志中的无实际含义的部分内容进行剔除得到的,然后,基于所有目标日志信息和日志标准信息进行比对,以确定存在异常的目标日志信息,并将存在异常的目标日志信息进行语义转化得到异常执行特征,语义转化用于将编码形式的目标日志信息转化为文字形式的异常执行特征。
进一步的,在进行负载数据分析时可以从性能负载数据的多方面进行分析,在一种可实现的方式中,在电子设备内预先存储负载数据阈值,将性能负载数据中每一项数据与对应的负载数据阈值进行比较,然后,基于比较结果确定异常负载特征;在另一种可实现的方式中,基于当前获取到的性能负载数据和历史性能负载数据确定性能负载数据的数据变化情况,并基于数据变化情况确定异常负载特征。当然,也可以基于上述两种可实现方式的结合确定性能负载数据对应的异常负载特征,对于负载数据分析的方式,本申请实施例不再进行限定。最终,基于异常执行特征和异常负载特征进行整合,优选的,在进行整合时针对异常执行特征和异常负载特征进行语义相似度匹配,然后,将语义相似度高于相似度阈值的异常执行特征和异常负载特征进行语义综合,合成一个特征词,整合完成后得到IT设备的故障数据。
可见,在本申请实施例中,基于运行日志进行日志信息提取,并从所有目标日志信息中确定异常执行特征,然后,基于性能负载数据进行负载数据分析,确定异常负载特征,最后,整合的异常执行特征和异常负载特征,得到故障数据。在确定故障数据时,综合考虑了IT设备的运行状态和负载情况,使得故障数据能够较为全面的表征IT设备的故障情况。
进一步的,为了提高异常负载特征与IT设备的故障情况的匹配度,在本申请实施例中,基于性能负载数据进行负载数据分析,确定异常负载特征,包括:
基于性能负载数据和负载数据阈值,确定若干第一异常因子;
基于性能负载数据和历史性能负载数据,确定性能负载数据的数据变化情况,并基于数据变化情况确定若干第二异常因子;
基于若干第一异常因子和若干第二异常因子进行特征整合,得到异常负载特征。
对于本申请实施例,在基于性能负载数据进行负载数据分析时,从负载数据阈值和数据变化情况两方面综合进行分析,得到IT设备的异常负载特征。具体的,基于性能负载数据和负载数据阈值进行比较,得到比较结果,并基于比较结果确定若干第一异常因子,由于性能负载数据包括但不限于:CPU使用率、内存使用率、系统负载、文件系统使用率等,且针对性能负载数据中的各项信息负载数据阈值均有与之对应的信息项阈值数据,其中,信息项阈值数据包括:最低阈值和最高阈值,因而,能够基于性能负载数据中每一项信息和对应的信息项阈值数据进行匹配,将低于最低阈值和高于最高阈值的信息项确定为若干第一异常因子。
基于性能负载数据和历史性能负载数据,确定性能负载数据的数据变化情况,同样的,针对性能负载数据中的每一信息项和历史性能负载数据中与之对应的历史信息项数据进行整合计算,得到每一信息项对应的数据变化情况,优选的,基于计算方差的方式进行计算,并基于得到的方差确定信息项的数据变化情况。且,针对每一信息项均对应一个数据变化阈值,故,将每一信息项的方差和对应的数据变化阈值进行比较,得到存在异常的若干第二异常因子。
最终,由于若干第一异常因子和若干第二异常因子会存在相同的信息项和各自独有的信息项,因而,在基于若干第一异常因子和若干第二异常因子进行特征整合时,针对第一异常因子和第二异常因子中均存在的信息项进行去重处理,针对各自独有的信息项进行保留,最终得到IT设备的异常负载特征。
可见,在本申请实施例中,基于性能负载数据和负载数据阈值,确定若干第一异常因子,并基于性能负载数据和历史性能负载数据,确定性能负载数据的数据变化情况,然后,基于数据变化情况确定若干第二异常因子,最终,基于若干第一异常因子和若干第二异常因子进行特征整合,得到异常负载特征。从负载数据阈值和数据变化情况两方面综合进行分析,提高了异常负载特征与IT设备的故障情况的匹配度。
上述实施例从方法流程的角度介绍一种基于AI的IT设备故障处理方法,下述实施例从虚拟模块或者虚拟单元的角度介绍了一种基于AI的IT设备故障处理装置,具体详见下述实施例。
本申请实施例提供一种基于AI的IT设备故障处理装置200,如图2所示,该基于AI的IT设备故障处理装置200,具体可以包括:
故障分析模块210,用于获取IT设备的运行日志和性能负载数据,并基于运行日志和性能负载数据进行故障分析,得到故障分析结果,其中,故障分析结果包括:设备故障和设备正常;
故障数据提取模块220,用于当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据;
故障处理方案确定模块230,用于基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案;
故障处理方案执行模块240,用于基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。
对于本申请实施例,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
本申请实施例的一种可能的实现方式,故障处理方案执行模块240在执行基于故障处理方案自动对IT设备执行运维流程时,用于:
基于故障处理方案初次对IT设备执行运维流程;
当完成初次运维流程时,则重新获取IT设备的运行日志和性能负载数,并基于重新获取的运行日志和性能负载数据进行故障分析,得到故障分析结果;
若故障分析结果为设备故障时,则重复执行当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据的步骤,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至故障分析结果为设备正常;
若故障分析结果为设备正常时,则判断是否存在循环故障处理方案;
若存在循环故障处理方案,则从所有循环故障处理方案中确定若干有效故障处理方案,并基于若干有效故障处理方案更新故障特征和运维处理的关系。
本申请实施例的一种可能的实现方式,故障处理方案执行模块240在执行基于故障处理方案初次对IT设备执行运维流程时,用于:
向IT设备发送故障处理请求指令,其中,故障处理请求指令用于通知IT设备要执行运维流程,使得IT设备正常结束运行的进程,并进行数据备份操作;
当接收到IT设备发送的允许请求指令,则基于故障处理方案初次对IT设备执行运维流程。
本申请实施例的一种可能的实现方式,故障处理方案确定模块230在执行基于AI算法对故障数据进行解析分析,得到故障特征时,用于:
利用故障知识体系对故障数据进行解析分析,得到故障特征,其中,故障知识体系是基于大量的预设故障数据形成的故障语料库。
本申请实施例的一种可能的实现方式,故障处理方案确定模块230在执行基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案时,用于:
向IT设备发送通信测试指令,得到通信测试的测试结果,并基于测试结果分析IT设备的故障原因;
基于故障特征和运维处理的关系,确定故障特征对应的第一故障处理方案;
基于故障原因和运维处理的关系,确定故障原因对应的第二故障处理方案;
综合第一故障处理方案和第二故障处理方案,得到最终的故障处理方案。
本申请实施例的一种可能的实现方式,故障数据提取模块220在执行基于运行日志和性能负载数据进行故障数据提取,得到故障数据时,用于:
基于运行日志进行日志信息提取,得到所有目标日志信息,并从所有目标日志信息中确定异常执行特征;
基于性能负载数据进行负载数据分析,确定异常负载特征;
基于异常执行特征和异常负载特征进行整合,得到故障数据。
本申请实施例的一种可能的实现方式,故障数据提取模块220在执行基于性能负载数据进行负载数据分析,确定异常负载特征时,用于:
基于性能负载数据和负载数据阈值,确定若干第一异常因子;
基于性能负载数据和历史性能负载数据,确定性能负载数据的数据变化情况,并基于数据变化情况确定若干第二异常因子;
基于若干第一异常因子和若干第二异常因子进行特征整合,得到异常负载特征。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的一种基于AI的IT设备故障处理装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例中提供了一种电子设备,如图3所示,图3所示的电子设备300包括:处理器301和存储器303。其中,处理器301和存储器303相连,如通过总线302相连。可选地,电子设备300还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该电子设备300的结构并不构成对本申请实施例的限定。
处理器301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线302可包括一通路,在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一型的总线。
存储器303可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器303用于存储执行本申请方案的应用程序代码,并由处理器301来控制执行。处理器301用于执行存储器303中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图3示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与相关技术相比,本申请实施例,基于IT设备的运行日志和性能负载数据进行故障分析,当故障分析结果为设备故障时,则基于运行日志和性能负载数据进行故障数据提取,得到故障数据。然后,基于AI算法对故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定故障特征对应的故障处理方案。最终,基于故障处理方案自动对IT设备执行运维流程,并生成运维报告。通过这种方式,基于IT设备的运行日志和性能负载数据确定故障处理方案并自动执行,解决了现有技术中需要繁琐手工操作的难题,摆脱对运维人员能力和数量的高度依赖,极大程度上节省了运维人员的时间且提升了IT设备故障处理的效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种基于AI的IT设备故障处理方法,其特征在于,包括:
获取IT设备的运行日志和性能负载数据,并基于所述运行日志和所述性能负载数据进行故障分析,得到故障分析结果,其中,所述故障分析结果包括:设备故障和设备正常;
当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据;
基于AI算法对所述故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案;
基于所述故障处理方案自动对IT设备执行运维流程,并生成运维报告。
2.根据权利要求1所述的基于AI的IT设备故障处理方法,其特征在于,所述基于所述故障处理方案自动对IT设备执行运维流程,包括:
基于所述故障处理方案初次对IT设备执行运维流程;
当完成初次运维流程时,则重新获取IT设备的运行日志和性能负载数,并基于重新获取的运行日志和性能负载数据进行故障分析,得到故障分析结果;
若所述故障分析结果为设备故障时,则重复执行当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据的步骤,并将每一次循环执行得到的故障处理方案保存为循环故障处理方案,直至所述故障分析结果为设备正常;
若所述故障分析结果为设备正常时,则判断是否存在循环故障处理方案;
若存在循环故障处理方案,则从所有所述循环故障处理方案中确定若干有效故障处理方案,并基于所述若干有效故障处理方案更新故障特征和运维处理的关系。
3.根据权利要求2所述的基于AI的IT设备故障处理方法,其特征在于,所述基于所述故障处理方案初次对IT设备执行运维流程,包括:
向IT设备发送故障处理请求指令,其中,所述故障处理请求指令用于通知IT设备要执行运维流程,使得IT设备正常结束运行的进程,并进行数据备份操作;
当接收到IT设备发送的允许请求指令,则基于所述故障处理方案初次对IT设备执行运维流程。
4.根据权利要求1所述的基于AI的IT设备故障处理方法,其特征在于,所述基于AI算法对所述故障数据进行解析分析,得到故障特征,包括:
利用故障知识体系对所述故障数据进行解析分析,得到故障特征,其中,所述故障知识体系是基于大量的预设故障数据形成的故障语料库。
5.根据权利要求1所述的基于AI的IT设备故障处理方法,其特征在于,所述基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案,包括:
向IT设备发送通信测试指令,得到通信测试的测试结果,并基于所述测试结果分析IT设备的故障原因;
基于故障特征和运维处理的关系,确定所述故障特征对应的第一故障处理方案;
基于故障原因和运维处理的关系,确定所述故障原因对应的第二故障处理方案;
综合所述第一故障处理方案和所述第二故障处理方案,得到最终的故障处理方案。
6.根据权利要求1至5任意一项所述的基于AI的IT设备故障处理方法,其特征在于,所述基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据,包括:
基于所述运行日志进行日志信息提取,得到所有目标日志信息,并从所述所有目标日志信息中确定异常执行特征;
基于所述性能负载数据进行负载数据分析,确定异常负载特征;
基于所述异常执行特征和所述异常负载特征进行整合,得到故障数据。
7.根据权利要求6所述的基于AI的IT设备故障处理方法,其特征在于,所述基于所述性能负载数据进行负载数据分析,确定异常负载特征,包括:
基于所述性能负载数据和负载数据阈值,确定若干第一异常因子;
基于所述性能负载数据和历史性能负载数据,确定所述性能负载数据的数据变化情况,并基于所述数据变化情况确定若干第二异常因子;
基于所述若干第一异常因子和所述若干第二异常因子进行特征整合,得到异常负载特征。
8.一种基于AI的IT设备故障处理装置,其特征在于,包括:
故障分析模块,用于获取IT设备的运行日志和性能负载数据,并基于所述运行日志和所述性能负载数据进行故障分析,得到故障分析结果,其中,所述故障分析结果包括:设备故障和设备正常;
故障数据提取模块,用于当所述故障分析结果为设备故障时,则基于所述运行日志和所述性能负载数据进行故障数据提取,得到故障数据;
故障处理方案确定模块,用于基于AI算法对所述故障数据进行解析分析,得到故障特征,并基于故障特征和运维处理的关系,确定所述故障特征对应的故障处理方案;
故障处理方案执行模块,用于基于所述故障处理方案自动对IT设备执行运维流程,并生成运维报告。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
存储器;
至少一个应用程序,其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行,所述至少一个应用程序配置用于:执行权利要求1~7任一项所述的基于AI的IT设备故障处理方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1~7任一项所述的基于AI的IT设备故障处理方法。
CN202310052322.XA 2023-02-02 2023-02-02 基于ai的it设备故障处理方法、装置、设备和介质 Active CN115858324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310052322.XA CN115858324B (zh) 2023-02-02 2023-02-02 基于ai的it设备故障处理方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310052322.XA CN115858324B (zh) 2023-02-02 2023-02-02 基于ai的it设备故障处理方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115858324A true CN115858324A (zh) 2023-03-28
CN115858324B CN115858324B (zh) 2023-05-12

Family

ID=85657468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310052322.XA Active CN115858324B (zh) 2023-02-02 2023-02-02 基于ai的it设备故障处理方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115858324B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、系统、终端及介质
CN111597204A (zh) * 2020-05-20 2020-08-28 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN111985561A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种智能电表的故障诊断方法、系统及电子装置
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN112836972A (zh) * 2021-02-05 2021-05-25 南方电网调峰调频发电有限公司信息通信分公司 一种it设备故障缺陷处理系统及故障缺陷处理方法
US20210248024A1 (en) * 2020-02-07 2021-08-12 Bank Of America Corporation System for resolving heterogenous database-level application failures
CN114756686A (zh) * 2022-03-30 2022-07-15 同济大学 一种基于知识图谱的知识推理和故障诊断方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112152830A (zh) * 2019-06-28 2020-12-29 中国电力科学研究院有限公司 一种智能的故障根因分析方法及系统
CN110708204A (zh) * 2019-11-18 2020-01-17 上海维谛信息科技有限公司 一种基于运维知识库的异常处理方法、系统、终端及介质
US20210248024A1 (en) * 2020-02-07 2021-08-12 Bank Of America Corporation System for resolving heterogenous database-level application failures
CN111597204A (zh) * 2020-05-20 2020-08-28 江苏南工科技集团有限公司 一种基于ai技术的智慧运维知识分析方法
CN111865695A (zh) * 2020-07-28 2020-10-30 浪潮云信息技术股份公司 一种云环境下自动故障处理的方法及系统
CN111985561A (zh) * 2020-08-19 2020-11-24 安徽蓝杰鑫信息科技有限公司 一种智能电表的故障诊断方法、系统及电子装置
CN112836972A (zh) * 2021-02-05 2021-05-25 南方电网调峰调频发电有限公司信息通信分公司 一种it设备故障缺陷处理系统及故障缺陷处理方法
CN114756686A (zh) * 2022-03-30 2022-07-15 同济大学 一种基于知识图谱的知识推理和故障诊断方法

Also Published As

Publication number Publication date
CN115858324B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
WO2019062001A1 (zh) 智能机器人客服方法、电子装置及计算机可读存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN112800197A (zh) 一种目标故障信息的确定方法和装置
CN111475494A (zh) 一种海量数据处理方法、系统、终端及存储介质
CN113609008A (zh) 测试结果分析方法、装置和电子设备
CN116579671B (zh) 一种自动匹配指标的绩效考核方法、系统、终端及存储介质
CN116340831B (zh) 一种信息分类方法、装置、电子设备及存储介质
CN113010542A (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN117312825A (zh) 一种目标行为检测方法、装置、电子设备及存储介质
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN111783843A (zh) 一种特征选择方法、装置及计算机系统
CN110795308A (zh) 一种服务器检验方法、装置、设备及存储介质
CN116225848A (zh) 日志监测方法、装置、设备和介质
CN115858324B (zh) 基于ai的it设备故障处理方法、装置、设备和介质
CN115878400A (zh) 测试方法、装置、计算机设备、存储介质和程序产品
CN113590447B (zh) 埋点处理方法和装置
CN115794473A (zh) 一种根因告警的定位方法、装置、设备及介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN110674839B (zh) 异常用户识别方法、装置、存储介质及电子设备
CN114896418A (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN113220551A (zh) 指标趋势预测及预警方法、装置、电子设备及存储介质
CN113010339A (zh) 联机交易测试中故障自动处理方法及装置
CN112328960B (zh) 数据运算的优化方法、装置、电子设备及存储介质
CN114841267B (zh) 实时预测方法、装置、电子设备及计算机程序产品
CN113722292B (zh) 分布式数据系统的应灾处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant