CN115622866A - 故障处理方法、装置、设备及存储介质 - Google Patents

故障处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115622866A
CN115622866A CN202211213301.3A CN202211213301A CN115622866A CN 115622866 A CN115622866 A CN 115622866A CN 202211213301 A CN202211213301 A CN 202211213301A CN 115622866 A CN115622866 A CN 115622866A
Authority
CN
China
Prior art keywords
historical
fault data
data
historical fault
alarm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211213301.3A
Other languages
English (en)
Inventor
王伟力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202211213301.3A priority Critical patent/CN115622866A/zh
Publication of CN115622866A publication Critical patent/CN115622866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开提供了一种故障处理方法、装置、设备及存储介质,可以应用于计算机技术领域或金融科技领域。该方法包括:响应于故障处理请求,获取告警数据集;根据预设匹配条件,确定与告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;根据第一历史故障数据集中每条第一历史故障数据与第二历史故障数据集中每条第二历史故障数据的相似关系,从第二历史故障数据集中确定目标历史故障数据,其中,相似关系是根据第一历史故障数据、第二历史故障数据以及与第一历史故障数据和第二历史故障数据均相关联的历史告警数据确定的;根据目标历史故障数据,确定与故障处理请求相关联的目标处理方案。

Description

故障处理方法、装置、设备及存储介质
技术领域
本公开涉及计算机技术领域或金融科技领域,尤其涉及一种故障处理方法、装置、设备、存储介质和程序产品。
背景技术
随着虚拟化、云计算等计算机技术的快速发展,各类使用虚拟化、云计算等技术的设备、软件或系统越来越多。由于在使用这类设备、软件或系统办理业务的过程中,设备、软件或系统会不可避免地发生故障,进而影响了业务的处理效率。为了提高业务处理效率,就需要提高对故障进行检测、诊断的效率,以及时恢复业务处理。
在实现本公开发明构思的过程中,发明人发现相关技术中至少存在如下技术问题:相关技术在检测、诊断故障的过程中,一般会提前编辑好预设处理脚本,根据预设处理脚本进行检测、诊断故障。但该方式的处理场景较为单一,若出现未知故障,则由于没有对应的预设处理脚本而不能实现检测、诊断故障,降低了故障处理的灵活性和处理效率。
发明内容
鉴于上述问题,本公开提供了一种提高故障处理的灵活性和处理效率的故障处理方法、装置、设备、介质和程序产品。
本公开的一个方面,提供了一种故障处理方法,包括:响应于故障处理请求,获取告警数据集,其中,上述告警数据集中包括至少一条告警数据;根据预设匹配条件,确定与上述告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;根据上述第一历史故障数据集中每条上述第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从上述第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,上述相似关系是根据上述第一历史故障数据、上述第二历史故障数据以及与上述第一历史故障数据和上述第二历史故障数据均相关联的历史告警数据确定的;根据上述目标历史故障数据集中的上述目标历史故障数据,确定与上述故障处理请求相关联的至少一个目标处理方案。
根据本公开的实施例,上述相似关系是根据上述第一历史故障数据、上述第二历史故障数据以及与上述第一历史故障数据和上述第二历史故障数据均相关联的历史告警数据确定的包括:针对上述第一历史故障数据集中的每条第一历史故障数据,针对上述第二历史故障数据集中的每条第二历史故障数据,根据第一历史告警集合和第二历史告警集合的交集,确定目标告警集合,其中,上述第一历史告警集合与上述第一历史故障数据相关联,上述第二历史告警集合与上述第二历史故障数据相关联;从上述目标告警集合中选取第一历史告警数据和第二历史告警数据;根据第三历史故障数据集合和第四历史故障数据集合的交集,确定目标历史故障数据集合,其中,上述第三历史故障数据集合与所第一历史告警数据相关联,上述第四历史故障数据集合与上述第二历史告警数据相关联;根据上述目标历史告警集合和上述目标历史故障数据集合,确定上述第一历史故障数据与上述第二历史故障数据的相似关系。
根据本公开的实施例,上述上述相似关系是根据上述第一历史故障数据、上述第二历史故障数据以及与上述第一历史故障数据和上述第二历史故障数据均相关联的历史告警数据确定的还包括:根据上述第一故障数据集中的每条第一历史故障数据、上述第二故障数据集中的每条第二历史故障数据、上述第一历史告警数据、上述第二历史告警数据,构建至少一个关系图谱结构,其中,每个上述关系图谱结构包括四个节点,每个节点分别是上述第一历史故障数据、上述第二历史故障数据、上述第一历史告警数据、上述第二历史告警数据,上述第一历史告警数据分别与上述第一历史故障数据和上述第二历史故障数据线连接,上述第二历史告警数据分别与上述第一历史故障数据和上述第二历史故障数据线连接;根据上述关系图谱结构的权重,确定上述第一历史故障数据与上述第二历史故障数据的相似关系。
根据本公开的实施例,上述根据上述关系图谱结构的权重,确定上述第一历史故障数据与上述第二历史故障数据的相似关系包括:根据上述第三历史故障数据集合和上述第四历史故障数据集合的交集,确定上述关系图谱结构的权重;统计上述关系图谱结构的个数,并基于上述关系图谱结构的个数对上述关系图谱结构的权重进行求和,确定上述第一历史故障数据与上述第二历史故障数据的相似关系。
根据本公开的实施例,上述根据上述目标历史故障数据集中的上述目标历史故障数据,确定与上述故障处理请求相关联的至少一个目标处理方案包括:根据上述目标历史故障数据集中的上述目标历史故障数据,确定目标故障标识;根据上述目标故障标识,从数据库中提取至少一个初始处理方案;将上述至少一个初始处理方案作为与上述故障处理请求相关联的至少一个目标处理方案。
根据本公开的实施例,上述方法还包括:对上述告警数据集中的每条告警数据进行预处理,得到每条目标告警数据;根据上述预设匹配条件,确定与上述每条目标告警数据相匹配的上述第一历史故障数据,得到上述第一历史故障数据集。
本公开的另一方面还提供了一种故障处理装置,包括:获取模块,用于响应于故障处理请求,获取告警数据集,其中,上述告警数据集中包括至少一条告警数据;第一确定模块,用于根据预设匹配条件,确定与上述告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;以及第二确定模块,用于根据上述第一历史故障数据集中每条上述第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从上述第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,上述相似关系是根据上述第一历史故障数据、上述第二历史故障数据以及与上述第一历史故障数据和上述第二历史故障数据均相关联的历史告警数据确定的;第三确定模块,用于根据上述目标历史故障数据集中的上述目标历史故障数据,确定与上述故障处理请求相关联的至少一个目标处理方案。
本公开的另一方面还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器执行上述的故障处理方法。
本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述的故障处理方法。
本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现上述的故障处理方法。
根据本公开实施例提供的故障处理方法、装置、设备、介质和程序产品,通过响应故障处理请求,获取告警数据;根据告警数据得到第一历史故障数据;根据第一历史故障数据、第二历史故障数据、以及与第一历史故障数据、第二历史故障数据均关联的历史告警数据确定第一历史故障数据与第二历史故障数据之间的相似关系,并根据相似关系从第二历史故障数据集中确定目标历史故障数据,再基于目标历史故障数据确定处理方案。由于根据第一历史故障数据、第二历史故障数据、以及历史告警数据确定故障间的相似关系,在遇到未知故障时,能够根据故障间的相似性推荐更多的故障,因此至少部分的解决了相关技术中对未知故障不能检测、诊断的技术问题,进而实现了提高故障处理的灵活性和处理效率的技术效果。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的故障处理方法、装置、设备、介质和程序产品的系统架构图;
图2示意性示出了根据本公开实施例的故障处理方法的流程图;
图3示意性示出了根据本公开实施例的数据运维场景图;
图4示意性示出了根据本公开实施例的获取告警数据的架构图;
图5示意性示出了根据本公开实施例的关系图谱结构;
图6示意性示出了根据本公开另一实施例的关系图谱结构图;
图7示意性示出了根据本公开实施例的故障处理装置的结构框图;以及
图8示意性示出了根据本公开实施例的适于实现故障处理方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的数据(如包括但不限于用户个人信息)的收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
随着虚拟化、云计算等新技术的广泛应用,在大型企业,服务器的规模都也逐渐变大,再加之业务模式的多样性和IT(Information Technology,信息技术)架构的云化迁移,IT运维也正面临着与日俱增的挑战,常规的运维系统和运维经验都需要不断迭代更新。
现有的检测、诊断故障的过程中,主要依赖于告警日志及指标,同时还依赖于运维人员的运维经验来定义故障,从而进一步给出相对应的处置方法。由于故障数据不一定分布在同一服务器及文件,需要通过各种渠道获取,耗时较长,运维成本高,同时运维人员会存在误判及误操作的概率。此外,对于同一类型的故障不同经验的运维人员给出的处置方法也各不相同。
基于此,现有技术中还可以根据预设的处理脚本,对故障进行提前定义,在命中故障后,会运行相应的处理脚本检测、诊断故障。但该方法的处理场景较为单一,对故障场景覆盖面低,存在对故障识别不准确等问题,而且配置也较为繁琐,对于未知故障或没有预设处理脚本的故障无法检测、诊断,适用性低,而且预设处理脚本有时还需要人工维护,降低了故障处理的灵活性和处理效率。此外,使用预设的处理脚本还存在如下问题:日志等数据使用的应用程序更多的偏向于低代码,无法纳入整体的故障场景;用户的权限管理不严谨,存在故障处置不严格的风险;无法利用变更数据,造成了数据资源的浪费,以及无法识别由变更引起的故障场景;支持故障数据接入格式的系统不丰富,故障数据接入不方便;采用接口查询故障数据,实时性不高,无法对故障场景进行及时处理;对各类其他故障数据数据使用度低,无法使全部故障数据产生业务价值等。
有鉴于此,本公开的实施例提供了一种故障处理方法、装置、设备、介质和程序产品,以期至少部分的解决上述问题,并提高故障处理的灵活性和处理效率。具体地,该方法可以包括:响应于故障处理请求,获取告警数据集,其中,告警数据集中包括至少一条告警数据;根据预设匹配条件,确定与告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;根据第一历史故障数据集中每条第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,相似关系是根据第一历史故障数据、第二历史故障数据以及与第一历史故障数据和第二历史故障数据均相关联的历史告警数据确定的;根据目标历史故障数据集中的目标历史故障数据,确定与故障处理请求相关联的至少一个目标处理方案。
图1示意性示出了根据本公开实施例的故障处理方法、装置、设备、介质和程序产品的系统架构图。
如图1所示,根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104、服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。在一实施例中,这些应用还可以配置能够向服务器发送故障处理请求的组件,以便当客户端应用发生故障时,可以生成并发送故障处理请求。
第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如响应于用户利用第一终端设备101、第二终端设备102、第三终端设备103所发送的故障处理请求,获取告警数据集;根据预设匹配条件,确定与告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;根据第一历史故障数据集中每条第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从第二历史故障数据集中确定目标历史故障数据;根据目标历史故障数据集中的目标历史故障数据,确定与故障处理请求相关联的至少一个目标处理方案。
需要说明的是,本公开实施例所提供的故障处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的故障处理装置一般可以设置于服务器105中。本公开实施例所提供的故障处理方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的故障处理装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2~图6对公开实施例的故障处理方法进行详细描述。
图2示意性示出了根据本公开实施例的故障处理方法的流程图。
如图2所示,该实施例的故障处理方法包括操作S201~操作S204。
在操作S201,响应于故障处理请求,获取告警数据集,其中,告警数据集中包括至少一条告警数据。
在操作S202,根据预设匹配条件,确定与告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集。
在操作S203,根据第一历史故障数据集中每条第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,相似关系是根据第一历史故障数据、第二历史故障数据以及与第一历史故障数据和第二历史故障数据均相关联的历史告警数据确定的。
在操作S204,根据目标历史故障数据集中的目标历史故障数据,确定与故障处理请求相关联的至少一个目标处理方案。
根据本公开的实施例,故障处理请求可以根据各种软件设备、软件或系统在使用过程中发生的故障生成的。
图3示意性示出了根据本公开实施例的数据运维场景图。
如图3所示,数据运维场景可以包括前端系统、数据类型、接入方式、后端数据库这四个层级。前端系统可以包括应用监控、告警系统、配置系统、变更系统、事件系统、权限系统。应用监控可以通过API(Application Program Interface,应用程序接口)接口监控一些目标对象的指标、属性、性能参数,例如计算机的网络是否通产畅、CPU使用率、内存使用率等,其中,目标对象可以是设备、软件或系统等。在这些参数超过提前设置的好的告警条件时,告警系统会发生告警,并产生告警数据,告警数据可已通过实时接口存入到告警数据库中。配置系统可以用于配置模板对象的各种属性、性能参数、告警条件,还可以配置些流程模型、处理实例、流程关系等。这些数据可以通过运维管理平台定时接入任务接入到分布式文件存储数据库中。变更系统可以产生变更单,例如故障变更单,以便故障发生后进行故障溯源。变更单也可以通过变更单定时接入任务接入分布式文件存储数据库中。事件系统可以生成事件单,例如故障事件单,用于对故障进行记录。事件单可以通过事件单定时接入任务接入事件单管理库。权限系统可以包括用户拥有的基本权限、操作权限等。该权限的数据可以通过用户定时接入任务的方式接入用户中心数据库。
根据本公开的实施例,告警数据可以是服务器在响应到故障处理请求中,根据故障处理请求中携带的目标对象标识,在多个对象中找到目标对象,并从目标对象中提取到与故障请求相关联的性能参数。可以理解的是,当监测到的性能参数大于或小于或不满足提前规定的告警条件时,可以认为该目标对象发生了故障,将发生故障时的性能参数作为告警数据。可选地,导致一条故障发生的告警数据可以是一条,也可以是多条,例如,当多条性能参数同时不满足提前规定的条件时,才认为发生了故障。因此,在告警数据集中可以有一条或多条告警数据。
根据本公开的实施例,预设匹配条件例如是预设的字段、预设的数据等。操作S202还可以理解为服务器根据告警数据,即性能参数中带有的性能字段、具体参数数值等从历史故障数据库中匹配查找到与性能字段、具体参数数值相符合的历史故障及与该历史故障对应的历史故障数据,并将该历史故障数据作为第一历史故障数据,第一历史故障数据可以包括故障标识、性能参数等。其中,历史故障数据库中可以存储有目标对象发生过的故障及对应的故障数据,还可以存储有性能参数、变更数据、告警数据、配置数据等。可以理解的是,在获取到告警数据集后,告警数据集中的至少一条告警数据会命中至少一条历史故障数据,所以第一历史故障数据可以是被命中的历史故障数据,或已知的历史故障数据,第一历史故障数据集可以是被命中的历史故障数据集,或已知的历史故障数据集。
根据本公开的实施例,第二历史故障数据集可以是历史故障数据库中除第一历史故障数据集之外的其他历史故障数据集。第二历史故障数据可以是第二历史故障数据集中的任一条故障数据。目标历史故障数据可以是在第二历史故障数据集中与第一历史故障数据相似的历史故障数据。该相似的历史故障数据可以是一条也可以是多条,所以目标历史故障数据集中可以有一条或多条目标历史故障数据。
根据本公开的实施例,可以理解的是告警数据集中可以有多条告警数据,导致告警数据或告警数据集出现的原因可能不仅仅是第一历史故障数据或第一历史故障数据集,还有可能是与第一历史故障数据或第一历史故障数据集相似的历史故障数据。该相似的历史故障数据是可以从第二历史故障数据集中得到的。
根据本公开的实施例,因为是历史发生过的故障,所以会存在相应的处理方案。在找到目标历史故障数据后,根据故障标识匹配到相应的处理方案。可以理解的是,在至少一个目标处理方案中,包括至少一个针对第一历史故障数据的处理方案。
根据本公开的实施例,根据本公开实施例提供的故障处理方法、装置、设备、介质和程序产品,通过响应故障处理请求,获取告警数据;根据告警数据得到第一历史故障数据;根据第一历史故障数据、第二历史故障数据、以及与第一历史故障数据、第二历史故障数据均关联的历史告警数据确定第一历史故障数据与第二历史故障数据之间的相似关系,并根据相似关系从第二历史故障数据集中确定目标历史故障数据,再基于目标历史故障数据确定处理方案。由于根据第一历史故障数据、第二历史故障数据、以及历史告警数据确定故障间的相似关系,在遇到未知故障时,能够根据故障间的相似性推荐更多的故障,因此至少部分的解决了相关技术中对未知故障不能检测、诊断的技术问题,进而实现了提高故障处理的灵活性和处理效率的技术效果。
图4示意性示出了根据本公开实施例的获取告警数据的架构图。
如图4所示,操作S201还可以包括如下操作:通过分布式消息系统获取告警数据。具体地,由各种设备、软件、系统等产生的告警数据可以通过多个接口或多个通道接入到服务器中。该分布式消息系统是一个支持分区、多副本的、基于布式应用程序协调服务软件的分布式消息系统。通过使用该分布式消息系统接入告警数据,可以实时处理大量告警数据,以满足各种故障处理场景。
根据本公开的实施例,在执行操作S202之前或执行操作S201之后,还可以进行如下操作:对告警数据集中的每条告警数据进行预处理,得到每条目标告警数据;根据预设匹配条件,确定与每条目标告警数据相匹配的第一历史故障数据,得到第一历史故障数据集。
根据本公开的实施例,预处理可以包括对每条告警数据进行转化聚合,将告警数据中重复的部分删去、统一告警数据的格式等,将告警数据规范化。目标告警数据可以是规范化后的告警数据。对告警数据集进行预处理便于利用目标告警数据匹配得到第一历史故障数据集,提高匹配得到第一历史故障数据集的效率。
根据本公开的实施例,可以采用分布式处理引擎对告警数据进行预处理。该分布式处理引擎可以是流式处理,通过采用流式处理模拟批量处理,减少对告警数据预处理的响应时间,提高预处理效率,提供亚秒级的语义实时处理方案。
根据本公开的实施例,操作S203的确定相似关系的过程可以包括如下操作:针对第一历史故障数据集中的每条第一历史故障数据,针对第二历史故障数据集中的每条第二历史故障数据,根据第一历史告警集合和第二历史告警集合的交集,确定目标告警集合,其中,第一历史告警集合与第一历史故障数据相关联,第二历史告警集合与第二历史故障数据相关联;从目标告警集合中选取第一历史告警数据和第二历史告警数据;根据第三历史故障数据集合和第四历史故障数据集合的交集,确定目标历史故障数据集合,其中,第三历史故障数据集合与所第一历史告警数据相关联,第四历史故障数据集合与第二历史告警数据相关联;根据目标历史告警集合和目标历史故障数据集合,确定第一历史故障数据与第二历史故障数据的相似关系。
根据本公开的实施例,以一条第一历史故障数据(以下简称故障i)和一条第二故障数据(以下简称故障j)为例,为了衡量故障i和故障j的相似性,考察均命中了故障i和故障j的第一历史告警数据(以下简称告警u)和第二历史告警数据(以下简称告警v),若这两个告警所命中的故障越少,则故障i和故障j的相似性越高。例如,若告警u和告警v都命中了故障i,则可以理解为告警u和告警v是存在相似性的,若告警u和告警v在命中故障i的同时又都命中了故障j,由于同时命中故障i表明了告警u和告警v存在相似性,相似的告警同时又命中故障j,所以可以直接或间接地理解为故障i和故障j具有相似性。
根据本公开的实施例,在极端情况下,两个告警都命中了一些故障,且两个告警所能命中的所有故障中,只有故障i和故障j是告警u和告警v均共同命中的,则可以说明此时的告警u和告警v的差异较大,然而却同时命中了故障i和故障j,说明故障i和故障j的相似性较高。具体地,确定相似性的过程可以如公式(1)所示。
Figure BDA0003872551640000121
其中,Ui可以表示第一历史告警集合,Uj可以表示第二历史告警集合,Ui∩Uj可以表示目标告警集合。Iu可以表示第三历史故障数据集合,Iv可以表示第四历史故障数据集合,α可以表示平滑因子。
根据本公开的实施例,第一历史告警集合可以是能够命中故障i的所有告警数据。第二历史告警集合可以是能够命中故障j的所有告警数据。目标告警集合可以表示同时能够命中故障i和故障j的告警数据。第三历史故障数据集可以是告警u所命中过的历史故障数据的集合。第四历史故障数据可以是告警v所命中过的历史故障数据的集合,目标历史故障数据集可以是被告警u和告警v均命中过的故障数据的集合。可以理解的是,第三历史故障数据集合和第四历史故障数据集合均不同于第一历史故障数据集、第二历史故障数据集,第二历史故障数据集的范围或包括的历史故障数据分别多于第三历史故障数据集合或第四历史故障数据集合包括的历史故障数据。
根据本公开的实施例,在计算故障之间的相似度时还考虑到了历史告警数据,根据第一历史故障数据、第二历史故障数据、以及历史告警数据确定故障间的相似关系,可以提高确定故障间的相似关系的准确率。
根据本公开的实施例,还可以根据告警数据之间的相似度推荐相似的故障数据。公式(1)也可以用与确定告警数据之间的相似度。在计算告警数据之间的相似度时,i、j分别可以表示第一历史告警数据、第二历史告警数据,u、v可以分别表示第一历史故障数据、第二历史故障数据。Ui可以表示与告警i相关的故障集合、Uj可以表示与告警j相关的故障集合,Iu可以表示与故障u相关的告警集合,Iv可以表示与故障v相关的告警集合。
根据本公开的实施例,确定相似关系的过程还可以包括如下操作:根据第一故障数据集中的每条第一历史故障数据、第二故障数据集中的每条第二历史故障数据、第一历史告警数据、第二历史告警数据,构建至少一个关系图谱结构,其中,每个关系图谱结构包括四个节点,每个节点分别是第一历史故障数据、第二历史故障数据、第一历史告警数据、第二历史告警数据,第一历史告警数据分别与第一历史故障数据和第二历史故障数据线连接,第二历史告警数据分别与第一历史故障数据和第二历史故障数据线连接;根据关系图谱结构的权重,确定第一历史故障数据与第二历史故障数据的相似关系。
图5示意性示出了根据本公开实施例的关系图谱结构。
如图5所示,故障i、故障j、告警u、告警v可以连接在一起构成一个关系图谱结构。在该关系图谱结构中,与告警u相邻的两个节点可以是故障i和故障j,与告警v相邻的两个节点可以是故障i和故障j,在告警u与故障i和故障j之间分别用连接线,在告警v与故障i和故障j之间分别用连接线,在故障i和故障j之间、告警u与告警v之间分别没有连接线。连接线可以用于表示告警和故障之间是存在关系的。
根据本公开的实施例,根据关系图谱结构的权重可以确定第一历史故障数据与第二历史故障数据的相似关系,即确定故障i与故障j之间的相似关系。具体地,根据第三历史故障数据集合和第四历史故障数据集合的交集,确定关系图谱结构的权重;统计关系图谱结构的个数,并基于关系图谱结构的个数对关系图谱结构的权重进行求和,确定第一历史故障数据与第二历史故障数据的相似关系。
根据本公开的实施例,确定关系图谱结构的个数的过程可以如公式(2)所示。
Figure BDA0003872551640000141
其中,N可以表示关系图谱结构的个数。m可以表示告警的条数,例如是故障i和故障j都被m个告警命中过。
根据本公开的实施例,确定关系图谱结构的权重的过程可以如公式(3)所示。
Figure BDA0003872551640000142
其中,ωi表示关系图谱结构的权重,Iu∩Iv表示第三历史故障数据集合和第四历史故障数据集合的交集交集。
根据本公开的实施例,基于关系图谱结构的个数对关系图谱结构的权重进行求和,确定第一历史故障数据与第二历史故障数据的相似关系,该确定过程可以如公式(4)所示。
sim(i,j)=∑Nωi (4)
其中,sim(i,j)用于表示故障i和故障j的相似关系,N可以表示关系图谱结构的个数,ωi表示关系图谱结构的权重。
根据本公开的实施例,若上述的数据是以矩阵M的形式表示,同时告警u(alarm_u)和告警v(alarm_v)同时命中过故障i(fault_i)和故障j(fault_j),则计算关系图谱结构的个数的过程可以如公式(5)所示,计算关系图谱结构的权重的过程可以如公式(6)所示。
M.group_by(alarm_u,alarm_v).count() (5)
M.group_by(fault_i,fault_j).count() (6)
其中,矩阵M可以如表1所示。
表1表示为矩阵M形式的告警数据
fault_i fault_j alarm_u alarm_v
1 2 A B
…… …… …… ……
100 1 X A
其中,表格中的序号可以表示告警数据的条数。
图6示意性示出了根据本公开另一实施例的关系图谱结构图。
如图6所示,在另一实施例中,还可以有告警u、告警v、告警w、告警x以及故障i和故障j,其中,告警u和告警v同时命中了故障i和故障j,告警w和告警x也同时命中过故障i和故障j。在这种情况下,会出现两个关系图谱结构,每个关系图谱结构的权重是不同的。在每个关系图谱结构里两个故障共同拥有的告警数量越多,则该关系图谱结构的权重会越小。
根据本公开的实施例,操作S204还可以包括如下操作:根据目标历史故障数据集中的目标历史故障数据,确定目标故障标识;根据目标故障标识,从数据库中提取至少一个初始处理方案;将至少一个初始处理方案作为与故障处理请求相关联的至少一个目标处理方案。
根据本公开的实施例,目标故障表示可以是目标历史故障数据中携待的与设备、软件、系统等相关的设备标识(例如设备序列号等)、软件标识(例如软件序列号等)、系统标识(例如系统序列号)等,也可以是故障数据的编号。数据库可以用于存储处理方案。初始处理方案是能够处理目标历史故障数据的处理方案,因为目标历史故障数据集与第一历史故障数据集较为相似,所以可以将至少一个初始处理方案作为第一历史故障数据集的处理方案,为检测、诊断故障提供更多的处理方案。
根据本公开的实施例提供的故障处理方法,可以节省大量人力成本;对告警数据进行秒级发现,秒级诊断,防止造成损失;灵活快捷,对未知告警数据也可进行诊断及处置;有效利用历史告警及故障数据,发掘更多故障数据价值。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
基于上述故障处理方法,本公开还提供了一种故障处理装置。以下将结合图7对该装置进行详细描述。
图7示意性示出了根据本公开实施例的故障处理装置的结构框图。
如图7所示,该实施例的故障处理装置700包括获取模块710、第一确定模块720、第二确定模块730以及第三确定模块740。
获取模块710,用于响应于故障处理请求,获取告警数据集,其中,所述告警数据集中包括至少一条告警数据。
第一确定模块720,用于根据预设匹配条件,确定与所述告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集。
第二确定模块730,用于根据所述第一历史故障数据集中每条所述第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从所述第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,所述相似关系是根据所述第一历史故障数据、所述第二历史故障数据以及与所述第一历史故障数据和所述第二历史故障数据均相关联的历史告警数据确定的。
第三确定模块740,用于根据所述目标历史故障数据集中的所述目标历史故障数据,确定与所述故障处理请求相关联的至少一个目标处理方案。
根据本公开实施例提供的故障处理方法、装置、设备、介质和程序产品,通过响应故障处理请求,获取告警数据;根据告警数据得到第一历史故障数据;根据第一历史故障数据、第二历史故障数据、以及与第一历史故障数据、第二历史故障数据均关联的历史告警数据确定第一历史故障数据与第二历史故障数据之间的相似关系,并根据相似关系从第二历史故障数据集中确定目标历史故障数据,再基于目标历史故障数据确定处理方案。由于根据第一历史故障数据、第二历史故障数据、以及历史告警数据确定故障间的相似关系,在遇到未知故障时,能够根据故障间的相似性推荐更多的故障,因此至少部分的解决了相关技术中对未知故障不能检测、诊断的技术问题,进而实现了提高故障处理的灵活性和处理效率的技术效果。
根据本公开的实施例,第二确定模块还包括第一确定单元、选取单元、第二确定单元、第三确定单元。
第一确定单元,用于根据第一历史告警集合和第二历史告警集合的交集,确定目标告警集合,其中,所述第一历史告警集合与所述第一历史故障数据相关联,所述第二历史告警集合与所述第二历史故障数据相关联。
选取单元,用于从所述目标告警集合中选取第一历史告警数据和第二历史告警数据。
第二确定单元,用于根据第三历史故障数据集合和第四历史故障数据集合的交集,确定目标历史故障数据集合,其中,所述第三历史故障数据集合与所第一历史告警数据相关联,所述第四历史故障数据集合与所述第二历史告警数据相关联。
第三确定单元,用于根据所述目标历史告警集合和所述目标历史故障数据集合,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
根据本公开的实施例,第二确定模块还包括构建单元、第四确定单元。
构建单元,用于根据所述第一故障数据集中的每条第一历史故障数据、所述第二故障数据集中的每条第二历史故障数据、所述第一历史告警数据、所述第二历史告警数据,构建至少一个关系图谱结构,其中,每个所述关系图谱结构包括四个节点,每个节点分别是所述第一历史故障数据、所述第二历史故障数据、所述第一历史告警数据、所述第二历史告警数据,所述第一历史告警数据分别与所述第一历史故障数据和所述第二历史故障数据线连接,所述第二历史告警数据分别与所述第一历史故障数据和所述第二历史故障数据线连接。
第四确定单元,用于根据所述关系图谱结构的权重,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
根据本公开的实施例,第四确定单元还可以包括第一确定子单元、统计子单元。
第一确定子单元,用于根据所述第三历史故障数据集合和所述第四历史故障数据集合的交集,确定所述关系图谱结构的权重;
统计子单元,用于统计所述关系图谱结构的个数,并基于所述关系图谱结构的个数对所述关系图谱结构的权重进行求和,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
根据本公开的实施例,第三确定模块还可以包括第五确定单元、提取单元、第六确定单元。
第五确定单元,用于根据所述目标历史故障数据集中的所述目标历史故障数据,确定目标故障标识。
提取单元,用于根据所述目标故障标识,从数据库中提取至少一个初始处理方案。
第六确定单元,用于将所述至少一个初始处理方案作为与所述故障处理请求相关联的至少一个目标处理方案。
根据本公开的实施例,故障处理装置还可以包括处理模块、第四确定模块。
处理模块,用于对所述告警数据集中的每条告警数据进行预处理,得到每条目标告警数据。
第四确定模块,用于根据所述预设匹配条件,确定与所述每条目标告警数据相匹配的所述第一历史故障数据,得到所述第一历史故障数据集。
根据本公开的实施例,获取模块710、第一确定模块720、第二确定模块730以及第三确定模块740中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块710、第一确定模块720、第二确定模块730以及第三确定模块740中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块710、第一确定模块720、第二确定模块730以及第三确定模块740中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中故障处理装置部分与本公开的实施例中故障处理方法部分是相对应的,故障处理装置部分的描述具体参考故障处理方法部分,在此不再赘述。
图8示意性示出了根据本公开实施例的适于实现故障处理方法的电子设备的方框图。
如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的故障处理方法。
在该计算机程序被处理器801执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分809被下载和安装,和/或从可拆卸介质811被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (10)

1.一种故障处理方法,包括:
响应于故障处理请求,获取告警数据集,其中,所述告警数据集中包括至少一条告警数据;
根据预设匹配条件,确定与所述告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;
根据所述第一历史故障数据集中每条所述第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从所述第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,所述相似关系是根据所述第一历史故障数据、所述第二历史故障数据以及与所述第一历史故障数据和所述第二历史故障数据均相关联的历史告警数据确定的;
根据所述目标历史故障数据集中的所述目标历史故障数据,确定与所述故障处理请求相关联的至少一个目标处理方案。
2.根据权利要求1所述的方法,其中,所述相似关系是根据所述第一历史故障数据、所述第二历史故障数据以及与所述第一历史故障数据和所述第二历史故障数据均相关联的历史告警数据确定的包括:
针对所述第一历史故障数据集中的每条第一历史故障数据,
针对所述第二历史故障数据集中的每条第二历史故障数据,
根据第一历史告警集合和第二历史告警集合的交集,确定目标告警集合,其中,所述第一历史告警集合与所述第一历史故障数据相关联,所述第二历史告警集合与所述第二历史故障数据相关联;
从所述目标告警集合中选取第一历史告警数据和第二历史告警数据;
根据第三历史故障数据集合和第四历史故障数据集合的交集,确定目标历史故障数据集合,其中,所述第三历史故障数据集合与所第一历史告警数据相关联,所述第四历史故障数据集合与所述第二历史告警数据相关联;
根据所述目标历史告警集合和所述目标历史故障数据集合,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
3.根据权利要求2所述的方法,其中,所述所述相似关系是根据所述第一历史故障数据、所述第二历史故障数据以及与所述第一历史故障数据和所述第二历史故障数据均相关联的历史告警数据确定的还包括:
根据所述第一故障数据集中的每条第一历史故障数据、所述第二故障数据集中的每条第二历史故障数据、所述第一历史告警数据、所述第二历史告警数据,构建至少一个关系图谱结构,其中,每个所述关系图谱结构包括四个节点,每个节点分别是所述第一历史故障数据、所述第二历史故障数据、所述第一历史告警数据、所述第二历史告警数据,所述第一历史告警数据分别与所述第一历史故障数据和所述第二历史故障数据线连接,所述第二历史告警数据分别与所述第一历史故障数据和所述第二历史故障数据线连接;
根据所述关系图谱结构的权重,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
4.根据权利要求3所述的方法,其中,所述根据所述关系图谱结构的权重,确定所述第一历史故障数据与所述第二历史故障数据的相似关系包括:
根据所述第三历史故障数据集合和所述第四历史故障数据集合的交集,确定所述关系图谱结构的权重;
统计所述关系图谱结构的个数,并基于所述关系图谱结构的个数对所述关系图谱结构的权重进行求和,确定所述第一历史故障数据与所述第二历史故障数据的相似关系。
5.根据权利要求1所述的方法,其中,所述根据所述目标历史故障数据集中的所述目标历史故障数据,确定与所述故障处理请求相关联的至少一个目标处理方案包括:
根据所述目标历史故障数据集中的所述目标历史故障数据,确定目标故障标识;
根据所述目标故障标识,从数据库中提取至少一个初始处理方案;
将所述至少一个初始处理方案作为与所述故障处理请求相关联的至少一个目标处理方案。
6.根据权利要求1所述的方法,还包括:
对所述告警数据集中的每条告警数据进行预处理,得到每条目标告警数据;
根据所述预设匹配条件,确定与所述每条目标告警数据相匹配的所述第一历史故障数据,得到所述第一历史故障数据集。
7.一种故障处理装置,包括:
获取模块,用于响应于故障处理请求,获取告警数据集,其中,所述告警数据集中包括至少一条告警数据;
第一确定模块,用于根据预设匹配条件,确定与所述告警数据集中每条告警数据相匹配的第一历史故障数据,得到第一历史故障数据集;以及
第二确定模块,用于根据所述第一历史故障数据集中每条所述第一历史故障数据与第二历史故障数据集中的每条第二历史故障数据的相似关系,从所述第二历史故障数据集中确定目标历史故障数据,得到目标历史故障数据集,其中,所述相似关系是根据所述第一历史故障数据、所述第二历史故障数据以及与所述第一历史故障数据和所述第二历史故障数据均相关联的历史告警数据确定的;
第三确定模块,用于根据所述目标历史故障数据集中的所述目标历史故障数据,确定与所述故障处理请求相关联的至少一个目标处理方案。
8.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现根据权利要求1~6中任一项所述的方法。
CN202211213301.3A 2022-09-29 2022-09-29 故障处理方法、装置、设备及存储介质 Pending CN115622866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211213301.3A CN115622866A (zh) 2022-09-29 2022-09-29 故障处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211213301.3A CN115622866A (zh) 2022-09-29 2022-09-29 故障处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115622866A true CN115622866A (zh) 2023-01-17

Family

ID=84860408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211213301.3A Pending CN115622866A (zh) 2022-09-29 2022-09-29 故障处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115622866A (zh)

Similar Documents

Publication Publication Date Title
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
USRE47933E1 (en) Reliability estimator for ad hoc applications
US20220100632A1 (en) Detecting performance degradation in remotely deployed applications
CN114205216B (zh) 微服务故障的根因定位方法、装置、电子设备和介质
CN113535773B (zh) 数据库优化方法、数据库优化装置、电子设备和存储介质
KR20220143766A (ko) 데이터 품질 문제들의 동적 발견 및 수정
CN115061874A (zh) 日志信息验证方法、装置、设备及介质
CN114648323A (zh) 面向业务场景的调用链处理方法、装置及介质
CN117931589A (zh) 运维故障的识别方法及装置
US20220179764A1 (en) Multi-source data correlation extraction for anomaly detection
CN116071152A (zh) 一种数据处理方法、装置、电子设备及存储介质
WO2023138923A1 (en) Failure prediction using informational logs and golden signals
CN113052509B (zh) 模型评估方法、模型评估装置、电子设备和存储介质
CN115760013A (zh) 运维模型的构建方法、装置、电子设备及存储介质
CN115622866A (zh) 故障处理方法、装置、设备及存储介质
CN114281586A (zh) 故障确定方法及装置、电子设备和计算机可读存储介质
CN115203178A (zh) 数据质检方法、装置、电子设备及存储介质
CN113961441A (zh) 告警事件处理方法、审计方法、装置、设备、介质和产品
CN113656314A (zh) 压力测试处理方法及装置
CN115190008B (zh) 故障处理方法、故障处理装置、电子设备及存储介质
US20230412452A1 (en) Detecting network anomalies by correlating multiple information sources
CN115168089A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
US20240118965A1 (en) Identifying root cause anomalies in time series
CN114266547A (zh) 业务处理策略的识别方法、装置、设备、介质及程序产品
CN115687076A (zh) 测试方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination