CN111611097A - 故障检测方法、装置、设备及存储介质 - Google Patents

故障检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111611097A
CN111611097A CN202010402369.0A CN202010402369A CN111611097A CN 111611097 A CN111611097 A CN 111611097A CN 202010402369 A CN202010402369 A CN 202010402369A CN 111611097 A CN111611097 A CN 111611097A
Authority
CN
China
Prior art keywords
service
service instance
determining
instance
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010402369.0A
Other languages
English (en)
Other versions
CN111611097B (zh
Inventor
张延盛
孙怀阔
吴翔
刘斌斌
王承斌
施维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Jiangsu Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010402369.0A priority Critical patent/CN111611097B/zh
Publication of CN111611097A publication Critical patent/CN111611097A/zh
Application granted granted Critical
Publication of CN111611097B publication Critical patent/CN111611097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障检测方法、装置、设备及存储介质。该方法包括:根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;根据业务节点的身份标识,确定服务实例的第一响应时长;根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点,能够提前预知微服务架构的故障,进而保障用户的业务服务。

Description

故障检测方法、装置、设备及存储介质
技术领域
本发明属于软件技术领域,尤其涉及一种故障检测方法、装置、设备及存储介质。
背景技术
微服务架构是一项在云中部署应用和服务的新技术。
微服务架构中各个服务之间的依赖关系错综复杂,增加了故障发生的几率和故障带来的损失。目前,对微服务架构的故障监测均需要通过现象看问题,也就是只有在故障已经发生后,才能触发告警,无法对故障进行提前预知。
发明内容
本发明实施例提供一种故障检测方法、装置、设备及存储介质,能够提前预知微服务架构的故障,进而保障用户的业务服务。
第一方面,提供了一种故障检测方法,该方法包括:
根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;
当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;
根据业务节点的身份标识,确定服务实例的第一响应时长;
根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点。
在一种可能的实现方式中,根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值,包括:
获取服务实例的第二响应时长;
根据服务实例的系统运行参数,确定系统的第二性能瞬时值;
当第二响应时长大于第二性能瞬时值的方差值时,确定服务实例的第三响应时长;
当第三响应时长与第二响应时长之间的差值大于预设时间阈值时,确定第二性能瞬时值为第一性能瞬时值。
在一种可能的实现方式中,该方法还包括:
获取服务实例的业务报文;业务报文包括服务实例的业务类型信息、服务实例的身份标识;
根据服务实例的身份标识生成服务实例的序列信息;
根据序列信息确定服务实例的多个业务路径;
根据多个业务路径确定服务实例的业务节点网络图;
其中,业务节点网络图中的每个业务节点均包括服务实例的身份标识、服务实例的名称,服务实例的身份标识包括服务实例中每个业务节点的身份标识。
在一种可能的实现方式中,该方法还包括:
检测与服务实例的业务类型相同的替代实例;
当不存在与服务实例类型相同的替代实例时,停止接收服务实例的业务请求。
在一种可能的实现方式中,该方法还包括:
将服务实例中出现故障的业务节点的身份标识替换为未出现故障的业务节点的身份标识。
在一种可能的实现方式中,该方法还包括:
按照预设的时间周期向服务实例发送虚拟探测报文;
当服务实例的第一响应时长超过预设的响应时间阈值的次数大于预设的次数阈值时,确定服务实例出现故障。
在一种可能的实现方式中,服务实例的系统运行参数包括:中央处理器使用率、内存使用率、磁盘使用率、虚拟机参数、网络使用率。
第二方面,提供了一种故障检测装置,该装置包括:
瞬时值确定模块,用于根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;
标识确定模块,用于当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;
时长确定模块,用于根据业务节点的身份标识,确定服务实例的第一响应时长;
故障确定模块,用于根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点。
第三方面,提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面或者第一方面的任一可能实现方式中的方法。
第四方面,提供了一种计算机存储介质,该计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
基于提供的故障检测方法、装置、设备及存储介质,通过根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;根据业务节点的身份标识,确定服务实例的第一响应时长;根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点,能够提前预知微服务架构的故障,进而保障用户的业务服务。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种故障监测方法的流程示意图;
图2是本发明实施例提供的一种业务节点网络图的结构示意图;
图3是本发明实施例提供的一种故障检测装置的结构示意图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
目前,微服务架构中各个服务之间的依赖关系错综复杂,增加了故障发生的几率和故障带来的损失。目前,对微服务架构的故障监测均需要通过现象看问题,也就是只有在故障已经发生后,才能触发告警,无法对故障进行提前预知。而这时系统已经出现了故障,不能进行提前预知,在系统告警阈值配置时、系统监控告警阈值过小,任何系统异常波动则会触发告警,导致告警有效性降低,维护人员淹没在海量的告警中,无法区分出那些是急需处理的告警通知。而告警阈值过高、则无法在第一时间感知系统问题,大大的降低系统有效性,无法保证用户的业务服务。
因此,本发明实施例提供了一种故障检测方法、装置、设备及存储介质,能够提前预知微服务架构的故障,进而保障用户的业务服务。
为了方便理解本发明实施例,首先对本发明实施例提供的故障检测方法进行详细阐述。
本发明实施例提供的故障检测方法的执行主体可以为故障检测装置,还可以是故障检测装置中的用于执行加载故障检测方法的控制模块。本发明实施例中以故障检测装置执行加载故障检测方法为例,说明本发明实施例提供的故障检测方法。
图1是本发明实施例提供的一种故障检测方法的流程示意图。
如图1所示,本发明实施例提供的故障检测方法可以包括:
S101:根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值。
系统运行参数是指运行该服务实例的系统的运行参数。系统运行参数可以包括:中央处理器(Central Processing Unit,CPU),内存使用率,磁盘使用率,Java虚拟机参数,网络状态等。系统运行参数能够反映系统当前的性能。第一性能瞬时值为当前系统的性能的评估值。
可选的,在本发明的一个实施例中,该方法还可以包括:
获取服务实例的第二响应时长。
根据服务实例的系统运行参数,确定系统的第二性能瞬时值。
当第二响应时长大于第二性能瞬时值的方差值时,确定服务实例的第三响应时长。
当第三响应时长与第二响应时长之间的差值大于预设时间阈值时,确定第二性能瞬时值为第一性能瞬时值。
其中,第二响应时长是指系统对服务实例的响应时间长度。第二性能瞬时值可以是对系统的性能的评估值。
作为一个示例,可以收集主机的CPU、输入/输出(Input/Output,I/O)、内存信息,计算3个10分钟的波动,第二性能瞬时值可以为CPU(百分比)、内存(百分比)和IO速度瞬间(K)之间的乘积。
比较第二响应时长和第二性能瞬时值的方差值,当第二响应时长大于第二性能瞬时值的方差值时,向系统发送探测报文,确定服务实例对该探测报文的第三响应时长。比较第二响应时长和第三响应时长,当两者之间的差值大于预设时间阈值时,第二性能瞬时值即为第一性能瞬时值。
可选的,在本发明的一个实施例中,该方法还可以包括下述步骤:
按照预设的时间周期向服务实例发送虚拟探测报文。
当服务实例的第一响应时长超过预设的响应时间阈值的次数大于预设的次数阈值时,确定服务实例出现故障。
任何一个服务实例收到虚拟探测报文后,仅仅进行系统流转,但是不进行数据实例化操作,不会更改数据库值。虚拟探测报文仅仅用于探测,可以随时投送,不会对系统的数据造成更改,避免后续数据修复操作所带来的风险。
S102:当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识。
预设的性能阈值是指对系统性能瞬时值进行学习得到的性能阈值。
作为一个示例,预设的性能阈值可以通过下述方法得到:
对系统性能瞬时值方差进行比较,从0.1开始设置,采用滑动方差计算方式,方法如下:
保留当前系统对探测报文的服务响应时间,采集当前性能瞬时值,超过方差值,投送探测报文,如果响应时间偏移值在10%之内,则方差扩大一倍,当下次瞬时值超过时,再次投送探测报文,确定服务响应时间、并比较服务响应时间和翻倍后的方差值。当差值大于方差值的10%以后,认为此时的瞬时值对系统有扰动,从而找到最适合的方差值,即系统的性能阈值。
业务节点网络图是指能够表征服务实例所有的服务路径以及每个服务路径对应的业务节点的图。如图2所示,业务节点网络图包括接口层、业务处理层和对外接口层。其中,接口是指对系统内部的接口,用于与系统内部的其他模块进行交互的接口。业务处理层包括服务实例的业务节点。对外接口层包括多个与外部系统进行交互的接口。
具体的,业务节点网络图可以通过下述步骤构建得到:
获取服务实例的业务报文;业务报文包括服务实例的业务类型信息、服务实例的身份标识;
根据服务实例的身份标识生成服务实例的序列信息;
根据序列信息确定服务实例的多个业务路径;
根据多个业务路径确定服务实例的业务节点网络图;
其中,业务节点网络图中的每个业务节点均包括服务实例的身份标识、服务实例的名称,服务实例的身份标识包括服务实例中每个业务节点的身份标识。
当业务工单到达服务实例的接口后,服务实例对应的微服务系统会上报该服务实例的业务报文。其中,业务报文包括:服务实例的业务类型信息、服务实例的身份标识。服务实例包括多个业务节点,当业务工单达到服务实例接口后,服务实例对业务工单进行处理。服务实例中的每个业务节点接收到工单后,均需要根据服务实例的身份标识,在服务实例的身份标识的基础上注入自身的身份标识,进而得到服务实例的序列信息。
作为一个示例,微服务系统外网接口服务均在外侧加入一个256位的服务标识序列标签,业务工单进入微服务系统后的服务实例的身份标识为服务标识序列标签为前8位,后续为空。而后续的服务加入,则修改这256位信息,加入另外的8位在第9-15位上,最终形成总共256位的信息,例如,Sid Sid Sid Sid Sid000000。
当系统进入业务工单后,第一个收到业务请求的服务对业务报文进行自身的Sid注入并上报,上报信息如下:业务类型、进入服务的时间、服务序列号、业务类型的报文。
收到请求后对于此种业务类型进行查找,如果已经存在此业务类型,则告知请求方,无需处理。服务在内部正常的业务处理后,不再加载服务序列号,所有置为空,后续进行正常的处理。
如果不存在此种业务,则告知服务端继续追踪,服务端收到请求后进行后续处理。并加载服务序列后向后传输。
非接口服务接收到请求后,如果检测到前8位为0,则正常进行业务处理,同时不进行服务ID注入操作。此步骤的是为了采用抽样的方式进行学习,而不是每次都学习,从而降低系统负载。
非接口服务接收到请求后,如果检测到前8位为不0,则正常进行业务处理,同时进行服务ID注入操作,并上报业务类型、进入服务的时间、服务序列号、业务类型的报文。所有操作如重复如上,直至业务结束。
收到请求后计算出相应的服务处理响应时长,并根据序列号规则计算出业务流向路径最终构建如下单源路径P(S0,S0-S1,S1-S2,Sn…)。再次根据上报的服务身份标识以及服务名称对应关系计算出对应的网状结构。
具体计算业务流向路径过程如下:
业务工单进入接口后,微服务系统上报服务实例的身份标识Sid以及服务类型St。根据Sid和St,确定处理该业务工单的第一个业务节点对应的微服务矩阵Stype,第一个业务节点对应的微服务矩阵Stype满足下述公式(1):
Figure BDA0002489987050000081
其中,i=1,2,3……n。
然后继续进行拓展,确定处理该业务工单的所有业务节点对应的微服务矩阵,最终的微服务矩阵Stype满足下述公式(2):
Figure BDA0002489987050000082
其中,E为空,即没有服务,m=1,2,3……。
一个服务实例可以处理一个工单可能走过的路径数Np满足下述公式(3):
Figure BDA0002489987050000083
其中a、b、c是微服务系统对应服务实例中存活数,E是服务为空,不具有提供服务能力。
S103:根据业务节点的身份标识,确定服务实例的第一响应时长。
业务工单进入微服务系统后,服务实例对该业务工单响应,对该业务工单对应的业务进行处理。处理该业务的响应时长即为第一响应时长,而处理该业务的响应时长决定与服务实例中的业务节点。因此,根据业务节点的身份标识,确定处理该业务的第一响应时长。
S104:根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点。
对第一响应时长进行比对,查找偏移值较大的业务节点的身份标识、向与此身份标识的同服务名称的服务投送虚拟探测报文,从而进一步验证是否是此服务出现问题,根据虚拟探测报文计算所有的响应时间。
对于响应时长均较大的情况,通过配置预案进行更多的服务拉起或者业务限流。操作即维护微服务矩阵网络,将E置为相应业务节点的身份标识,Epq=Snew或者将Snew增加到矩阵中。同时通知负载均衡设备不再向其转发业务。其中,Epq表示服务为空;Snew表示新增加的服务。
当第一响应时长方差值较大,对服务实例进行最小探针检测,查找第一响应时长方差值最大的业务节点的身份标识。
最小探针为针对业务系统的探测方法,最小的探针与普通探测不同,普通业务探测服务为完整的业务流转过程、而一个业务流转过程可能包含多个微服务的功能工作而成。例如,对一个用户进行信控开机业务流中,整个业务流至少包含后续操作、验证用户有效性、查找用户所在信控区域、发送用户信用指令、信用系统实施操作、信控系统响应、网元处理等等。
最小探针探测是采用上述业务流中最小的操作单元、具有响应快、故障定位准确度高的特点,另外设置微服务系统响应探针服务的优先级最低,从而真实获取其系统的负载能力。对第一响应时长比对,对其进行探针服务操作。连续探测,如果响应超时率较高,那么认为此服务故障,检测此服务的可替代服务,如果系统中存在较高效率的此类同类型服务,那么通过断路器进行服务短路,从而剥离故障服务。剥离服务对于矩阵的操作为Snew=Epq。
当第一响应时长正常时,说明系统已经消耗偶发负载,不属于故障处理范围。
当微服务系统启动后,系统有可能需要加载新服务,这时会接收到微服务系统上报新服务的服务名称,并通过模拟业务探测的方式,对服务进行探测,并将新的服务加入到业务节点网络图中。
当系统出现非正常或者正常离线,向该服务发送模拟业务探测,30秒后不响应,则对自身维护的业务节点网络图进行收敛处理,即进行剥离服务。剥离服务对于矩阵的操作为Snew=Epq保证业务节点网络图对应的微服务矩阵的有效性。
本发明实施例提供的故障检测方法,通过根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;根据业务节点的身份标识,确定服务实例的第一响应时长;根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点,能够提前预知微服务架构的故障,进而保障用户的业务服务。
图3是本发明实施例提供的一种故障检测装置的结构示意图。
如图3所示,本发明实施例提供的一种故障检测装置,可以包括:瞬时值确定模块301,标识确定模块302,时长确定模块303,故障确定模块304。
瞬时值确定模块301,用于根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;
标识确定模块302,用于当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;
时长确定模块303,用于根据业务节点的身份标识,确定服务实例的第一响应时长;
故障确定模块304,用于根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点。
可选的,在本发明的一些实施例中,瞬时值确定模块301,具体用于:
获取服务实例的第二响应时长;
根据服务实例的系统运行参数,确定系统的第二性能瞬时值;
当第二响应时长大于第二性能瞬时值的方差值时,确定服务实例的第三响应时长;
当第三响应时长与第二响应时长之间的差值大于预设时间阈值时,确定第二性能瞬时值为第一性能瞬时值。
可选的,该装置还包括获取模块,生成模块,路径确定模块,网络图确定模块。
获取模块,用于获取服务实例的业务报文;业务报文包括服务实例的业务类型信息、服务实例的身份标识;
生成模块,用于根据服务实例的身份标识生成服务实例的序列信息;
路径确定模块,用于根据序列信息确定服务实例的多个业务路径;
网络图确定模块,用于根据多个业务路径确定服务实例的业务节点网络图;
其中,业务节点网络图中的每个业务节点均包括服务实例的身份标识、服务实例的名称,服务实例的身份标识包括服务实例中每个业务节点的身份标识。
可选的,在本发明的一些实施例中,该装置还包括检测模块,停止模块。
检测模块,用于检测与服务实例的业务类型相同的替代实例;
停止模块,用于当不存在与服务实例类型相同的替代实例时,停止接收服务实例的业务请求。
可选的,在本发明的一些实施例中,该装置还包括替换模块。
替换模块,用于将服务实例中出现故障的业务节点的身份标识替换为未出现故障的业务节点的身份标识。
可选的,在本发明的一些实施例中,该装置还包括发送模块。
发送模块,用于按照预设的时间周期向服务实例发送虚拟探测报文;
故障确定模块304,还用于当服务实例的第一响应时长超过预设的响应时间阈值的次数大于预设的次数阈值时,确定服务实例出现故障。
可选的,在本发明的一些实施例中,服务实例的系统运行参数包括:中央处理器使用率、内存使用率、磁盘使用率、虚拟机参数、网络使用率。
本发明实施例提供的故障检测装置,通过根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;当第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定服务实例对应的业务节点和业务节点的身份标识;根据业务节点的身份标识,确定服务实例的第一响应时长;根据第一响应时长和预设的响应时间阈值,确定服务实例中出现故障的业务节点,能够提前预知微服务架构的故障,进而保障用户的业务服务。
本发明实施例提供的故障检测装置执行图1所示的方法中的各个步骤,并能够达到提前预知微服务架构的故障,进而保障用户的业务服务的技术效果,为简洁描述,再此不在详细赘述。
图4示出了本发明实施例提供的一种电子设备的硬件结构示意图。
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在综合网关容灾设备的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现图1所示实施例中的任意一种故障检测方法。
在一个示例中,电子设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该电子设备可以执行本发明实施例中的故障检测方法,从而实现结合图1描述的故障检测方法。
另外,结合上述实施例中的故障检测方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种故障检测方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种故障检测方法,其特征在于,所述方法包括:
根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;
当所述第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定所述服务实例对应的业务节点和所述业务节点的身份标识;
根据所述业务节点的身份标识,确定所述服务实例的第一响应时长;
根据所述第一响应时长和预设的响应时间阈值,确定所述服务实例中出现故障的业务节点。
2.根据权利要求1所述的方法,其特征在于,所述根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值,包括:
获取所述服务实例的第二响应时长;
根据所述服务实例的系统运行参数,确定系统的第二性能瞬时值;
当所述第二响应时长大于所述第二性能瞬时值的方差值时,确定服务实例的第三响应时长;
当所述第三响应时长与所述第二响应时长之间的差值大于预设时间阈值时,确定所述第二性能瞬时值为所述第一性能瞬时值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述服务实例的业务报文;所述业务报文包括所述服务实例的业务类型信息、所述服务实例的身份标识;
根据所述服务实例的身份标识生成服务实例的序列信息;
根据所述序列信息确定所述服务实例的多个业务路径;
根据所述多个业务路径确定所述服务实例的业务节点网络图;
其中,所述业务节点网络图中的每个业务节点均包括所述服务实例的身份标识、所述服务实例的名称,所述服务实例的身份标识包括所述服务实例中每个业务节点的身份标识。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
检测与所述服务实例的业务类型相同的替代实例;
当不存在与所述服务实例类型相同的替代实例时,停止接收所述服务实例的业务请求。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述服务实例中出现故障的业务节点的身份标识替换为未出现故障的业务节点的身份标识。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照预设的时间周期向所述服务实例发送虚拟探测报文;
当所述服务实例的第一响应时长超过所述预设的响应时间阈值的次数大于预设的次数阈值时,确定所述服务实例出现故障。
7.根据权利要求1所述的方法,其特征在于,所述服务实例的系统运行参数包括:中央处理器使用率、内存使用率、磁盘使用率、虚拟机参数、网络使用率。
8.一种故障检测装置,其特征在于,所述装置包括:
瞬时值确定模块,用于根据获取的服务实例的系统运行参数,确定系统的第一性能瞬时值;
标识确定模块,用于当所述第一性能瞬时值大于预设的性能阈值时,根据预先建立的业务节点网络图,确定所述服务实例对应的业务节点和所述业务节点的身份标识;
时长确定模块,用于根据所述业务节点的身份标识,确定所述服务实例的第一响应时长;
故障确定模块,用于根据所述第一响应时长和预设的响应时间阈值,确定所述服务实例中出现故障的业务节点。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的方法。
CN202010402369.0A 2020-05-13 2020-05-13 故障检测方法、装置、设备及存储介质 Active CN111611097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010402369.0A CN111611097B (zh) 2020-05-13 2020-05-13 故障检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010402369.0A CN111611097B (zh) 2020-05-13 2020-05-13 故障检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111611097A true CN111611097A (zh) 2020-09-01
CN111611097B CN111611097B (zh) 2023-09-05

Family

ID=72200144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010402369.0A Active CN111611097B (zh) 2020-05-13 2020-05-13 故障检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111611097B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239059A (zh) * 2021-05-28 2021-08-10 北京达佳互联信息技术有限公司 一种分布式锁的切换方法、装置、服务器和存储介质
CN114760188A (zh) * 2022-03-04 2022-07-15 青岛海尔科技有限公司 异常节点的确定方法及装置
CN115033477A (zh) * 2022-06-08 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102136967A (zh) * 2010-12-31 2011-07-27 华为软件技术有限公司 一种业务状态管理方法、装置和系统
US20120260133A1 (en) * 2011-04-08 2012-10-11 Computer Associates Think, Inc. Visualizing Transaction Traces As Flows Through A Map Of Logical Subsystems
CN104391932A (zh) * 2014-11-21 2015-03-04 北京京东尚科信息技术有限公司 处理业务数据的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102136967A (zh) * 2010-12-31 2011-07-27 华为软件技术有限公司 一种业务状态管理方法、装置和系统
US20120260133A1 (en) * 2011-04-08 2012-10-11 Computer Associates Think, Inc. Visualizing Transaction Traces As Flows Through A Map Of Logical Subsystems
CN104391932A (zh) * 2014-11-21 2015-03-04 北京京东尚科信息技术有限公司 处理业务数据的方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239059A (zh) * 2021-05-28 2021-08-10 北京达佳互联信息技术有限公司 一种分布式锁的切换方法、装置、服务器和存储介质
CN113239059B (zh) * 2021-05-28 2024-05-14 北京达佳互联信息技术有限公司 一种分布式锁的切换方法、装置、服务器和存储介质
CN114760188A (zh) * 2022-03-04 2022-07-15 青岛海尔科技有限公司 异常节点的确定方法及装置
CN114760188B (zh) * 2022-03-04 2024-01-23 青岛海尔科技有限公司 异常节点的确定方法及装置
CN115033477A (zh) * 2022-06-08 2022-09-09 山东省计算中心(国家超级计算济南中心) 一种面向大规模微服务的性能异常主动检测和处理方法及系统
CN115033477B (zh) * 2022-06-08 2023-06-27 山东省计算中心(国家超级计算济南中心) 一种面向大规模微服务的性能异常主动检测和处理方法及系统

Also Published As

Publication number Publication date
CN111611097B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US10579459B2 (en) Log events for root cause error diagnosis
CN111611097A (zh) 故障检测方法、装置、设备及存储介质
CN113778802B (zh) 异常预测方法及设备
CN113900844B (zh) 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN114514141A (zh) 充电站监测方法和设备
CN112148768A (zh) 一种指标时间序列异常检测方法、系统及存储介质
US10185614B2 (en) Generic alarm correlation by means of normalized alarm codes
US8332690B1 (en) Method and apparatus for managing failures in a datacenter
CN116502166B (zh) 一种对目标设备故障预测的方法、装置、设备和介质
WO2024148857A1 (zh) 服务器故障根因的过滤方法和装置、非易失性可读存储介质及电子装置
CN114844768A (zh) 信息分析方法、装置及电子设备
CN117891641A (zh) 故障对象的定位方法、装置、存储介质及电子装置
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
CN116820826B (zh) 一种基于调用链的根因定位方法、装置、设备及存储介质
CN117149486B (zh) 告警和根因定位方法、模型训练方法、装置、设备及介质
CN115686381B (zh) 存储集群运行状态的预测方法及装置
CN115242621B (zh) 网络专线监控方法、装置、设备及计算机可读存储介质
CN111813872A (zh) 一种故障排查模型的生成方法、装置、设备
CN116560882A (zh) 故障根因定位方法、装置、设备及计算机存储介质
CN110750418B (zh) 一种信息处理方法、电子设备和信息处理系统
CN116708135B (zh) 网络业务故障监测方法、装置、电子设备及存储介质
CN112530139B (zh) 一种监控系统、方法、装置、采集器及存储介质
US20240340217A1 (en) System and method for optimizing fault detection in internet of things network
CN114090367A (zh) 系统运维数据的处理方法、装置、设备、介质及程序产品
CN118626345A (zh) 业务异常告警和定位的方法、装置、存储介质与电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant