CN113485862B - 业务故障的管理方法、装置、电子设备及存储介质 - Google Patents
业务故障的管理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113485862B CN113485862B CN202110790254.8A CN202110790254A CN113485862B CN 113485862 B CN113485862 B CN 113485862B CN 202110790254 A CN202110790254 A CN 202110790254A CN 113485862 B CN113485862 B CN 113485862B
- Authority
- CN
- China
- Prior art keywords
- logic unit
- fault
- service
- failure
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种业务故障的管理方法、装置、电子设备及存储介质,属于互联网技术领域。所述方法包括:在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数;根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。本公开根据逻辑单元的故障类型和对应的故障权重值,计算出每个逻辑单元的故障分数,进而通过将每个逻辑单元的故障分数与预设分数阈值进行比较,快速、准确地定位出存在的逻辑单元。
Description
技术领域
本公开涉及互联网技术领域,特别涉及一种业务故障的管理方法、装置、电子设备及存储介质。
背景技术
因业务需求,某些应用程序向用户提供服务时需要与第三方金融机构进行交互。通常每种业务可能会涉及多个第三方金融机构,同一第三方金融机构能够提供多种服务,为了保证业务数据的安全性和稳定性,可在应用程序与第三方金融机构之间建立多条网络专线。
由于应用程序的机房设备、网络专线、第三方金融机构的系统存在大量不稳定、不可控的因素,在实际运维过程中,当某种业务无法正常使用时,需要对应用程序的机房设备、网络专线、第三方金融机构的系统进行逐一排查,以发现业务故障的原因,从而针对业务故障的原因进行维护。
然而,由于整条业务链路较长,涉及到应用程序的机房设备、网络专线、第三方金融机构等,导致进行业务故障排查较为困难,很难快速、准确地确定出故障原因。
发明内容
本公开实施例提供了一种业务故障的管理方法、装置、电子设备及存储介质,能够快速、准确地确定出故障原因。所述技术方案如下:
第一方面,提供了一种业务故障的管理方法,所述方法包括:
在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数,所述逻辑单元包括业务节点或业务节点之间的传输链路,所述报警信息包括发送所述报警信息的逻辑单元的故障类型;
根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;
计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;
根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。
在本公开的另一实施例中,所述根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元,包括:
对于任一逻辑单元,当所述逻辑单元的故障分数大于等于第一预设分数阈值,确定所述逻辑单元存在业务故障。
在本公开的另一个实施例中,所述根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元,包括:
计算与所述逻辑单元位于同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;
当所述故障总分数大于等于第二预设分数阈值,确定所述链路层级上的各个逻辑单元均存在业务故障。
在本公开的另一个实施例中,所述根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
将导致业务故障的逻辑单元的状态设置为维护状态,在维护状态下存在故障的逻辑单元停止使用。
在本公开的另一个实施例中,所述根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
记录导致业务故障的故障信息,所述故障信息用于对业务故障原因进行追溯。
在本公开的另一个实施例中,所述根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,所述故障通知消息用于触发所述上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,所述目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
在本公开的另一个实施例中,所述逻辑单元的故障类型包括业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障中至少一种。
第二方面,提供了一种业务故障的管理装置,所述装置包括:
发送模块,用于在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数,所述逻辑单元包括业务节点或业务节点之间的传输链路,所述报警信息包括发送所述报警信息的逻辑单元的故障类型;
获取模块,用于根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;
计算模块,用于计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;
确定模块,用于根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。
在本公开的另一实施例中,所述确定模块,用于对于任一逻辑单元,当所述逻辑单元的故障分数大于等于第一预设分数阈值,确定所述逻辑单元存在业务故障。
在本公开的另一个实施例中,所述确定模块,用于计算与所述逻辑单元位于同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;当所述故障总分数大于等于第二预设分数阈值,确定所述链路层级上的各个逻辑单元均存在业务故障。
在本公开的另一个实施例中,所述装置还包括:
设置模块,用于将导致业务故障的逻辑单元的状态设置为维护状态,在维护状态下存在故障的逻辑单元停止使用。
在本公开的另一个实施例中,所述装置还包括:
记录模块,用于记录导致业务故障的故障信息,所述故障信息用于对业务故障原因进行追溯。
在本公开的另一个实施例中,所述装置还包括:
发送模块,用于向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,所述故障通知消息用于触发所述上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,所述目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
在本公开的另一个实施例中,所述逻辑单元的故障类型包括业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障中至少一种。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如第一方面所述的业务故障的管理方法。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如第一方面所述的业务故障的管理方法。
本公开实施例提供的技术方案带来的有益效果是:
预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种业务故障的管理方法的流程图;
图2是本公开实施例提供的另一种业务故障的管理方法的流程图;
图3是本公开实施例提供的一种业务故障的管理流程图;
图4是本公开实施例提供的一种业务故障的管理装置结构示意图;
图5示出了本公开一个示例性实施例提供的一种电子设备的结构框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。
可以理解,本公开实施例所使用的术语“每个”、“多个”及“任一”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指对应的多个中的任意一个。举例来说,多个词语包括10个词语,而每个词语是指这10个词语中的每一个词语,任一词语是指10个词语中的任意一个词语。
本公开实施例提供了一种业务故障的管理方法,参见图1,本公开实施例提供的方法流程包括:
101.在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数。
其中,逻辑单元包括业务节点或业务节点之间的传输链路,报警信息包括发送报警信息的逻辑单元的故障类型。
102.根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值。
103.计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数。
104.根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。
本公开实施例提供的方法,预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
在本公开的另一实施例中,根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元,包括:
对于任一逻辑单元,当逻辑单元的故障分数大于等于第一预设分数阈值,确定逻辑单元存在业务故障。
在本公开的另一个实施例中,根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元,包括:
计算与逻辑单元位于同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;
当故障总分数大于等于第二预设分数阈值,确定链路层级上的各个逻辑单元均存在业务故障。
在本公开的另一个实施例中,根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
将导致业务故障的逻辑单元的状态设置为维护状态,在维护状态下存在故障的逻辑单元停止使用。
在本公开的另一个实施例中,根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
记录导致业务故障的故障信息,故障信息用于对业务故障原因进行追溯。
在本公开的另一个实施例中,根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元之后,还包括:
向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,故障通知消息用于触发上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
在本公开的另一个实施例中,逻辑单元的故障类型包括业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障中至少一种。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本公开实施例提供了一种业务故障的管理方法,以电子设备执行本公开实施例为例,该电子设备具有业务故障收集分析功能,可以为具有较强计算能力的终端,该终端安装有指定应用程序,可以为笔记本电脑、台式电脑等;该电子设备也可以为指定应用的后台服务器,该服务器为可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统等。其中,指定应用程序为通过与第三方金融机构进行交互能够向用户提供服务的应用程序,该指定应用程序可以为购物应用、支付应用等等。参见图2,本公开实施例提供的方法流程包括:
201.电子设备在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数。
其中,预设时间窗口为预先设置的用于对业务链路中的报警信息进行统计分析的时间窗口,该预设时间窗口的长度可根据对业务维护的敏感程度确定,如果对业务维护的敏感程度较高,需要对业务进行频繁维护,则预设时间窗口的长度可设置较小的值,例如10分钟、20分钟等;如果对业务维护的敏感程度较低,无需对业务进行频繁维护,则预设时间窗口的长度可设置较大的值,例如,10小时、20小时等。该业务维护的敏感程度可根据业务的重要性确定,如果某一业务较为重要,则确定该业务维护的敏感程度较高,进而为该业务设置较小的预设时间窗口,如果某一业务相对不够重要,则确定该业务的敏感程度较低,进而为该业务设置较大的预设时间窗口。当然,在确定业务维护的敏感程度时,还可以参考业务的报警次数,如果某一业务的报警次数较多,则可为该业务设置较小的预设时间窗口,如果某一业务的报警次数较少,则可为该业务设置较大的预设时间窗口。
业务链路包括指定应用程序提供的所有业务所涉及的链路,例如,指定应用程序能够提供N种业务,则业务链路包括每种业务从前端到机房设备、再到机房设备内每台设备、然后到第三方金融机构的系统以及连接这些设备或系统的物理链路及网络通信链路。
报警信息为业务链路内的逻辑单元发生故障时发送的警示信息,该报警信息包括发送该报警信息的逻辑单元的故障类型,还包括故障发生时间、发送报警信息的逻辑单元的逻辑单元标识等。考虑到在服务提供过程中,逻辑单元可能会偶发故障,偶发的故障并不会影响服务的提供,因而在接收到业务链路内的逻辑单元发送报警信息之后,电子设备并不会直接确定该逻辑单元为存在业务故障的逻辑单元,而是统计该逻辑单元在预设时间窗内发生业务故障的报警次数,从而基于统计的报警次数来分析该逻辑单元是否存在业务故障。
逻辑单元包括业务节点或业务节点之间的传输链路,该业务节点为能够执行业务的物理实体设备,该传输链路为两个业务节点之间的传输链路,该传输链路包括物理链路及网络通信链路。
根据整个业务链路所涉及的各逻辑单元的类型,将逻辑单元的故障类型分为业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障等中至少一种。其中,业务层面类故障是指指定应用程序的客户端存在的故障;机房类故障是指用于为指定应用程序提供计算支持的机房集群存在的故障;设备类故障是指机房集群所包括的设备存在的故障;网络通信类故障是网络应用层发生的故障,例如,在调用通信接口传输数据时因网络状况不佳发生拥塞等导致的故障;物理链路类故障是指网络专线的物理层发生故障,例如,网络专线被切断、网络专线两端的插拔未进行可靠连接等。
电子设备在每个预设时间窗口内均会接收业务链路上的每个逻辑单元发送的报警信息,基于接收到的报警信息,电子设备对发送报警信息的逻辑单元的报警次数进行统计,直至达到预设时间窗口的结束时间。
202.电子设备根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值。
在本公开的一个实施例中,电子设备可基于逻辑单元发生故障的故障类型,预先为不同故障类型的逻辑单元设置不同的故障权重值,此时同一类型的不同逻辑单元对应的故障权重值是相同的。例如,电子设备为业务层面类故障设置的故障权重值w1、为机房类故障设置的故障权重值为w2、为设备类故障设置的故障权重值为w3、为网络通信类故障设置的故障权重值为w4、为物理链路类故障设置的故障权重值为w5。电子设备为不同故障类型的逻辑单元设置故障权重值时,可基于故障类型的发生频率,为发生频率较高的故障类型设置较大的故障权重值,为发生频率较低的故障类型设置较小的故障权重值;电子设备还可基于故障类型发生时对整个业务链路的影响范围,为影响范围较大的故障类型设置较大的故障权重值,为影响范围较小的故障类型设置较小的故障权重值。
在本公开的另一个实施例中,电子设备还可基于逻辑单元发生故障的故障类型及每个逻辑单元的影响范围,预先为每个逻辑单元设置不同的故障权重值,此时同一类型的不同逻辑单元对应的故障权重值是不同的。例如,电子设备基于逻辑单元发生故障的故障类型为每种故障类型设置故障权重值范围,然后根据逻辑单元的影响范围,从该种故障类型对应的故障权重值范围内,为各个逻辑单元选取相应的故障权重值,例如,可为影响范围较大的逻辑单元选取较大的故障权重值,为影响范围较小的逻辑单元选取较小的故障权重值。
电子设备根据每个逻辑单元发送的报警信息,确定每个逻辑单元的故障类型,进而获取每个逻辑单元对应的故障权重值。
203.电子设备计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数。
当达到预设时间窗口的结束时间,电子设备基于预设时间窗口内统计的每个逻辑单元的报警次数,计算每个逻辑单元的报警次数与相应的故障权重值之积,得到每个逻辑单元的故障分数,进而根据每个逻辑单元的故障分数和预设分数阈值,确定出存在业务故障的逻辑单元。
需要说明的是,本公开实施例以预设时间窗口为单位对每个预设时间窗口内的接收到的报警信息进行统计,当在达到预设时间窗口之前,如果逻辑单元的报警次数与相应的故障权重值的乘积已经大于等于预设分数阈值,则电子设备可提前执行步骤204来确定存在业务故障的逻辑单元,而无需等到达到预设时间窗口的结束时间再执行,以缩短业务故障的确定时间。
204.电子设备根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。
其中,预设分数阈值可根据所关联的逻辑单元发生故障后对业务的影响范围确定,如果所关联的逻辑单元发生故障后对业务的影响范围较大,则将预设分数阈值设置较小的值,使得所关联的逻辑单元报警次数较少即可触发对该逻辑单元的维护,从而做到秒级、分钟级的监控和维护等,以降低业务上的损失;如果所关联的逻辑单元发生故障后对业务的影响范围较小,则将预设分数阈值设置较大的值,使得所关联的逻辑单元报警次数较多才可触发对该逻辑单元的维护。当然,在设置预设分数阈值时,还可以考虑历史预设时间窗口内所关联的逻辑单元的报警次数、所关联的逻辑单元的业务承载量、所关联的逻辑单元的业务类型等中至少一项,从而使得所设置的预设分数阈值能够符合业务要求。
在本公开实施例中,每种故障类型都对应两个预设分数阈值,该两个预设分数阈值包括第一预设分数阈值和第二预设分数阈值,该第一预设分数阈值针对的是单独的逻辑单元,第二预设分数阈值针对的是同一业务链路层上的各个逻辑单元,也即是,第一预设分数阈值用于确定每个逻辑单元是否存在业务故障,第二预设分数阈值用于确定同一业务链路层上的各个逻辑单元是否存在业务故障。
在本公开的一个实施例中,对于任一逻辑单元,电子设备获取该逻辑单元的故障分数以及该逻辑单元对应的第一预设分数阈值,并将该逻辑单元的故障分数和第一预设分数阈值进行比较,当该逻辑单元的故障分数大于等于第一预设分数阈值,则电子设备确定逻辑单元存在业务故障。
在本公开的另一个实施例中,当确定该逻辑单元存在业务故障,电子设备可将该逻辑单元的状态设置为维护状态,在维护状态下存在故障的该逻辑单元将停止使用。
在本公开的另一个实施例中,当确定该逻辑单元存在业务故障,电子设备将记录导致该逻辑单元发生业务故障的故障信息,以便于后续能够根据该故障信息对该逻辑单元的业务故障原因进行追溯。其中,故障信息包括故障时间、故障表现等等。
在本公开的另一个实施例中,当确定任一逻辑单元存在业务故障后,电子设备还将计算与该逻辑单元位于同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数,进而将该故障分数与该逻辑单元对应的第二预设分数阈值进行比较,当该故障总分数大于等于第二预设分数阈值,电子设备确定该链路层级上的各个逻辑单元均存在业务故障。
在本公开的另一个实施例中,当确定链路层级上的各个逻辑单元均存在业务故障之后,电子设备将该链路层级上导致业务故障的各个逻辑单元的状态设置为维护状态,在维护状态下存在故障的各个逻辑单元将停止使用。
在本公开的另一个实施例中,当确定链路层级上的各个逻辑单元存在业务故障,电子设备将记录导致该链路层级上各个逻辑单元发生业务故障的故障信息,以便于后续能够根据该故障信息对该层级链路上的各个逻辑单元的业务故障原因进行追溯。
在本公开的另一个实施例中,如果基于上一预设时间窗口内统计的每个逻辑单元的报警次数,计算出的同一链路层级上的各个逻辑单元的故障总分数小于第二预设分数阈值,电子设备将上一时间周期内统计的每个逻辑单元的报警次数重置为0,进而在下一时间窗口内重新统计每个逻辑单元的报警次数。
205.电子设备向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息。
当确定出存在业务故障的逻辑单元,为确保业务能够持续进行,电子设备还将向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,当接收到故障通知消息后,上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,进而基于目标逻辑单元继续提供服务。其中,目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
具体地,当存在业务故障的逻辑单元为某一逻辑单元,电子设备将向该逻辑单元的上一层级链路发送故障通知消息,使得该逻辑单元的上一层级链路的业务节点将该逻辑单元替换为其他能够提供服务且不存在业务故障的目标逻辑单元。例如,当确定出图3中A机房集群和机构1之间的专线L1存在业务故障,电子设备将向专线L1的上一层级链路A机房集群发送故障通知消息,使得A机房集群能够根据该故障通知消息,将A机房集群和机构1之间进行通信的专线L1切换为其他能够实现A机房集群和机构1通信且不存在业务故障的专线,从而确保A机房集群和机构1能够正常通信。
具体地,当存在业务故障的逻辑单元为某一链路层级上的各个逻辑单元,电子设备将向该层级链路的上一层级链路发送故障通知消息,使得上一层级链路的业务节点将该层级链路替换为其他层级链路。例如,当确定出图3中的A机房集群和机构1之间的专线L1存在业务故障、A机房集群和机构2之间的专线L2存在业务故障、A机房集群和机构3之间的专线L3存在业务故障,电子设备将向负载均衡服务发送故障通知消息,使得负载均衡服务将A机房集群切换为B机房集群,从而确保指定应用程序与机构1、机构2、机构3能够正常通信。
对于上述业务故障的管理方法,下面将结合图3进行详细说明。
参见图3,指定应用程序能够提供多种业务,包络前端业务B1、前端业务B2、前端业务B3、…、前端业务Bn,指定应用程序的机房包括A机房集群和B机房集群,涉及的外部机构包括机构1、机构2及机构3,其中,机构1提供的服务S11、机构2提供的服务S21、机构3提供的服务S32用于支持前端业务B1,机构1提供的服务S11和S12、机构3提供的服务S33用于支持前端业务B2,机构3提供的服务S31用于支持前端业务B3。在指定应用程序运行过程中,当前端业务存在异常,用户可进行异常报警、机房集群可进行机器故障报警、连接机房及机构的专线可进行物理链路报警和网络通信报警、机构可进行机构周知报警等,当接收到报警信息,电子设备进行报警分类收集,统计同一层级链路上每个逻辑单元的业务故障报警次数,在达到预设时间窗口的结束时间,获取每个逻辑单元的业务故障的故障权重值,进而计算同一层级链路的故障总分数,如果故障总分数小于预设分数阈值S,则在下一预设时间窗口内将所记录的报警次数重置为0,当故障总分数大于等于等于预设分数阈值S,则向上一层级链路发送故障通知消息,从而自动维护存在业务故障的各个业务。
本公开实施例提供的方法,预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
参见图4,本公开实施例提供了一种业务故障的管理装置,该装置包括:
发送模块401,用于在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数,该逻辑单元包括业务节点或业务节点之间的传输链路,该报警信息包括发送报警信息的逻辑单元的故障类型;
获取模块402,用于根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;
计算模块403,用于计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;
确定模块404,用于根据每个逻辑单元的故障分数和预设分数阈值,确定存在业务故障的逻辑单元。
在本公开的另一实施例中,确定模块404,用于对于任一逻辑单元,当逻辑单元的故障分数大于等于第一预设分数阈值,确定逻辑单元存在业务故障。
在本公开的另一个实施例中,确定模块404,用于计算与逻辑单元位于同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;当故障总分数大于等于第二预设分数阈值,确定链路层级上的各个逻辑单元均存在业务故障。
在本公开的另一个实施例中,该装置还包括:
设置模块,用于将导致业务故障的逻辑单元的状态设置为维护状态,在维护状态下存在故障的逻辑单元停止使用。
在本公开的另一个实施例中,该装置还包括:
记录模块,用于记录导致业务故障的故障信息,故障信息用于对业务故障原因进行追溯。
在本公开的另一个实施例中,该装置还包括:
发送模块,用于向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,故障通知消息用于触发上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
在本公开的另一个实施例中,逻辑单元的故障类型包括业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障中至少一种。
综上,本公开实施例提供的装置,预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
图5示出了本公开一个示例性实施例提供的一种电子设备500的结构框图。通常,设备500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本公开中方法实施例提供的业务故障的管理方法。
在一些实施例中,电子设备500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:电源504。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
电源504用于为电子设备500中的各个组件进行供电。电源504可以是交流电、直流电、一次性电池或可充电电池。当电源504包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图5中示出的结构并不构成对电子设备500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备500的处理器执行以完成上述视频处理方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例提供的电子设备,预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
本公开实施例提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现业务故障的管理方法。该计算机可读存储介质可以是非暂态的。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本公开实施例提供的计算机可读存储介质,预先将业务故障划分为不同的故障类型,并在预设时间窗口内接收业务链路上的每个逻辑单元发送报警信息,然后统计每个逻辑单元的报警次数,通过将每个逻辑单元的报警次数与相应的故障权重值相乘,得到每个逻辑单元的故障分数,然后将每个逻辑单元的故障分数与预设分数阈值进行比较,并在逻辑单元的故障分数大于等于预设分数阈值时,确定逻辑单元存在业务故障。采用分数比对的方式比较客观准确,相比于对业务链路进行逐一排查方式,能够直观、准确地确定任一逻辑单元是否存在业务故障,故障定位方式更简单,定位速度更快、准确性更高。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.一种业务故障的管理方法,其特征在于,所述方法包括:
在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数,所述逻辑单元包括业务节点或业务节点之间的传输链路,所述报警信息包括发送所述报警信息的逻辑单元的故障类型;
根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;
计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;
计算同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;
当所述故障总分数大于等于第二预设分数阈值,确定所述链路层级上的各个逻辑单元均存在业务故障。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于任一逻辑单元,当所述逻辑单元的故障分数大于等于第一预设分数阈值,确定所述逻辑单元存在业务故障。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将导致业务故障的逻辑单元的状态设置为维护状态,在维护状态下存在故障的逻辑单元停止使用。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
记录导致业务故障的故障信息,所述故障信息用于对业务故障原因进行追溯。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
向存在业务故障的逻辑单元的上一层级链路的业务节点发送故障通知消息,所述故障通知消息用于触发所述上一层级链路的业务节点将存在故障的逻辑单元切换为目标逻辑单元,所述目标逻辑单元为能够代替存在故障的逻辑单元提供服务且不存在业务故障的逻辑单元。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述逻辑单元的故障类型包括业务层面类故障、机房类故障、设备类故障、网络通信类故障、物理链路类故障中至少一种。
7.一种业务故障的管理装置,其特征在于,所述装置包括:
发送模块,用于在预设时间窗口内统计业务链路上发送报警信息的每个逻辑单元的报警次数,所述逻辑单元包括业务节点或业务节点之间的传输链路,所述报警信息包括发送所述报警信息的逻辑单元的故障类型;
获取模块,用于根据每个逻辑单元的故障类型,获取每个逻辑单元对应的故障权重值;
计算模块,用于计算每个逻辑单元的报警次数和相应的故障权重值之积,得到每个逻辑单元的故障分数;
确定模块,用于计算同一链路层级上的各个逻辑单元的故障分数之和,得到故障总分数;当所述故障总分数大于等于第二预设分数阈值,确定所述链路层级上的各个逻辑单元均存在业务故障。
8.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至6中任一项所述的业务故障的管理方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至6中任一项所述的业务故障的管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790254.8A CN113485862B (zh) | 2021-07-13 | 2021-07-13 | 业务故障的管理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110790254.8A CN113485862B (zh) | 2021-07-13 | 2021-07-13 | 业务故障的管理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113485862A CN113485862A (zh) | 2021-10-08 |
CN113485862B true CN113485862B (zh) | 2022-07-15 |
Family
ID=77938981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110790254.8A Active CN113485862B (zh) | 2021-07-13 | 2021-07-13 | 业务故障的管理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113485862B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115086143B (zh) * | 2022-04-28 | 2024-07-09 | 阿里巴巴(中国)有限公司 | 故障预警方法及装置 |
CN115001943B (zh) * | 2022-05-27 | 2024-03-22 | 深圳小湃科技有限公司 | 基于大数据的设备故障识别方法、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102045182A (zh) * | 2009-10-20 | 2011-05-04 | 华为技术有限公司 | 一种业务故障确定方法、装置和系统 |
US8195989B1 (en) * | 2010-08-20 | 2012-06-05 | Juniper Networks, Inc. | Detection of ethernet link failure |
CN107451402A (zh) * | 2017-07-13 | 2017-12-08 | 北京交通大学 | 一种基于告警数据分析的设备健康度评估方法及装置 |
WO2020021588A1 (ja) * | 2018-07-23 | 2020-01-30 | 三菱電機株式会社 | 点数化装置、点数化プログラム及び点数化方法 |
CN111431764A (zh) * | 2020-03-19 | 2020-07-17 | 深圳市网心科技有限公司 | 节点确定方法、设备、系统及介质 |
-
2021
- 2021-07-13 CN CN202110790254.8A patent/CN113485862B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102045182A (zh) * | 2009-10-20 | 2011-05-04 | 华为技术有限公司 | 一种业务故障确定方法、装置和系统 |
US8195989B1 (en) * | 2010-08-20 | 2012-06-05 | Juniper Networks, Inc. | Detection of ethernet link failure |
CN107451402A (zh) * | 2017-07-13 | 2017-12-08 | 北京交通大学 | 一种基于告警数据分析的设备健康度评估方法及装置 |
WO2020021588A1 (ja) * | 2018-07-23 | 2020-01-30 | 三菱電機株式会社 | 点数化装置、点数化プログラム及び点数化方法 |
CN111431764A (zh) * | 2020-03-19 | 2020-07-17 | 深圳市网心科技有限公司 | 节点确定方法、设备、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113485862A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9070121B2 (en) | Approach for prioritizing network alerts | |
CN113485862B (zh) | 业务故障的管理方法、装置、电子设备及存储介质 | |
US8819220B2 (en) | Management method of computer system and management system | |
WO2018125628A1 (en) | A network monitor and method for event based prediction of radio network outages and their root cause | |
US10185614B2 (en) | Generic alarm correlation by means of normalized alarm codes | |
CN114357495B (zh) | 基于区块链的预言机链下聚合方法、装置、设备和介质 | |
US11165665B2 (en) | Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services | |
CN113157536A (zh) | 一种告警分析方法、装置、设备和存储介质 | |
CN111857555A (zh) | 避免磁盘阵列的故障事件的方法、设备和程序产品 | |
CN114885014A (zh) | 一种外场设备状态的监测方法、装置、设备及介质 | |
CN111628903B (zh) | 交易系统运行状态的监控方法及监控系统 | |
CN117931589A (zh) | 运维故障的识别方法及装置 | |
CN117252640A (zh) | 熔断降级方法、规则引擎系统和电子设备 | |
CN115686381B (zh) | 存储集群运行状态的预测方法及装置 | |
CN117093627A (zh) | 信息挖掘的方法、装置、电子设备和存储介质 | |
CN114297034B (zh) | 云平台监控方法及云平台 | |
KR102464688B1 (ko) | 모니터링 결과의 이벤트 등급 결정 방법 및 장치 | |
CN114697247A (zh) | 流媒体系统的故障检测方法、装置、设备和存储介质 | |
CN114095394A (zh) | 网络节点故障检测方法、装置、电子设备及存储介质 | |
CN112054926A (zh) | 集群管理方法、装置、电子设备及存储介质 | |
CN117155755B (zh) | 一种告警信息处理方法、装置、电子设备和存储介质 | |
CN118331823B (zh) | 航天工程业务运行日志管理与监控告警方法及系统 | |
CN111130919B (zh) | 一种接口监控方法、装置、系统及存储介质 | |
US11941284B2 (en) | Management system, QoS violation detection method, and QoS violation detection program | |
CN115086147B (zh) | 一种业务数据监控预警方法、装置、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |