CN110851311A

CN110851311A - 服务故障的识别方法、装置、设备及存储介质

Info

Publication number: CN110851311A
Application number: CN201911104890.XA
Authority: CN
Inventors: 王新; 江旻; 罗强; 王杰
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-28

Abstract

本发明公开了一种服务故障的识别方法、装置、设备及存储介质，该方法通过预先将多种故障识别条件设置成对应服务的故障校验规则，然后根据具体调用的目标服务确定对应的故障校验规则。再根据对应的故障校验规则获取所述目标服务对应待校验的相关指标数据，对该相关指标数据进行对应校验，以确定所述目标服务是否发生故障，若目标服务发生了故障，则在预设服务请求访问列表中将该目标服务删除，以暂停该目标服务，本发明不需要接入第三方组件Nginx即可实现服务故障的检测，不仅便于扩展，而且增加了故障识别条件，从而使故障识别按业务场景更加精细化，提高故障识别的准确度。

Description

服务故障的识别方法、装置、设备及存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及服务故障的识别方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Finteh)转变，互联网技术也不例外，但由于金融行业的安全性、实时性要求，也对互联网技术提出的更高的要求。一般采用服务器Nginx来实现服务故障的识别，如通过Nginx中的相关配置可实现不同IDC(Internet Data Center，互联网数据中心)机房IP的多活访问，或通过Nginx检测到服务请求失败次数达到max_fails(最大失败次数)时，返回指定错误码，或通过故障后等待时间超过fail_timeout(故障等待时间)，则判定服务发生故障恢复。但是上述服务故障识别方法需要接入第三方组件，不仅不便于扩展，而且服务故障识别方式单一，不能满足复制业务场景需求。

发明内容

本发明的主要目的在于提出一种服务故障的识别方法、装置、设备及计算机可读存储介质，旨在解决现有服务故障识别方法不便于扩展以及故障识别方式单一的技术问题。

为实现上述目的，本发明提供一种服务故障的识别方法，所述服务故障的识别方法包括如下步骤：

在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则；

根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障；

若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记。

可选地，所述若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记，并在所述服务请问访问列表中删除所述目标服务的步骤之后，还包括：

在预设服务请求访问列表中删除所述目标服务，将携带故障标记的目标服务添加至预设故障列表，并根据预设检测周期，调用通用校验模块或者自定义校验模块对所述故障列表中的故障服务进行服务探测；

根据服务探测结果，判断所述故障列表中是否存在恢复的可用服务；

若所述故障列表中存在所述恢复的可用服务，则清除所述可用服务对应的故障标记，并将清除故障标记后的可用服务添加至所述服务请求访问列表。

可选地，所述在预设服务请求访问列表中删除所述目标服务，将携带故障标记的目标服务添加至预设故障列表，并根据预设检测周期，调用通用校验模块或者自定义校验模块对所述故障列表中的故障服务进行服务探测的步骤具体包括：

将携带故障标记的目标服务添加至所述故障列表，并判断校验库中是否存在所述自定义校验模块；

若存在所述自定义校验模块，则根据所述检测周期，调用所述自定义校验模块对所述故障列表中的故障服务进行服务探测；

若不存在所述自定义校验模块，则根据所述检测周期，调用所述通用校验模块对所述故障列表中的故障服务进行服务探测。

可选地，所述相关指标数据为服务请求时间以及请求失败次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

若所述故障校验规则为所述目标服务的请求失败次数是否在预设时间间隔内达到第一预设阈值，则获取所述目标服务对应待校验的服务请求时间以及请求失败次数；

根据所述服务请求时间以及所述请求失败次数，判断所述目标服务的请求失败次数是否在预设时间间隔内达到所述第一预设阈值，以判断所述目标服务是否发生服务故障。

可选地，所述相关指标数据为连续请求失败次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

若所述故障校验规则为所述目标服务的连续请求失败次数是否达到第二预设阈值，则对所述目标服务的连续请求失败次数进行计数，并在检测到所述目标服务请求成功时，将所述连续请求失败次数清零；

根据所述连续请求失败次数，判断所述目标服务的连续请求失败次数是否达到所述第二预设阈值，以判断所述目标服务是否发生服务故障。

可选地，所述相关指标数据为访问次数以及成功次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

若所述故障校验规则为所述目标服务在预设时间间隔内的访问成功率是否小于第三预设阈值，则获取所述目标服务在各个预设时间间隔内的访问次数以及成功次数；

根据所述访问次数以及成功次数，计算所述目标服务在所述各个预设时间间隔内的访问成功率，判断是否存在小于所述第三预设阈值的访问成功率，以判断所述目标服务是否发生服务故障。

可选地，所述相关指标数据为访问平均耗时，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

若所述故障校验规则为所述目标服务在预设时间间隔内的访问平均耗时是否大于第四预设阈值，则获取所述目标服务在各个预设时间间隔内的访问平均耗时；

判断是否存在达到所述第四预设阈值的访问平均耗时，以判断所述目标服务是否发生服务故障。

可选地，所述在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则的步骤之前，还包括：

在接收到所述服务调用请求时，根据各个服务对应的预设权重，在所述服务请求访问列表中确定所述目标服务；

基于所述目标服务对所述服务调用请求进行处理，并生成对应的服务上报结果指令。

可选地，所述在接收到所述服务调用请求时，根据各个服务对应的预设权重，在所述服务请求访问列表中确定所述目标服务的步骤具体包括：

将各个服务以及对应的服务IP进行分组，根据分组标识获取各组内的有效IDC，所述IDC包括服务IP以及预设访问权重；

若分组内各个服务的访问权重相等，则在所述分组内的有效IDC中随机确定目标服务；

若分组内各个服务的访问权重不相等，则计算分组的总访问权重，并根据有效IDC的数量定义访问数组，其中，所述访问数组用于存储分组内各有效IDC的访问权重；

基于小于所述总访问权重的整数值，遍历所述访问数组，并基于遍历产生的整数值与当前遍历的权重，在所述分组内的有效IDC中确定所述目标服务。

此外，为实现上述目的，本发明还提供一种服务故障的识别装置，所述服务故障的识别装置包括：

校验规则获取模块，用于在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则；

服务故障判断模块，用于根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障；

故障服务标记模块，用于若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记。

可选地，所述服务故障的识别装置还包括：

故障服务探测模块，用于在预设服务请求访问列表中删除所述目标服务，将携带故障标记的目标服务添加至预设故障列表，并根据预设检测周期，调用通用校验模块或者自定义校验模块对所述故障列表中的故障服务进行服务探测；

可用服务判断模块，用于根据服务探测结果，判断所述故障列表中是否存在恢复的可用服务；

故障服务恢复模块，用于若所述故障列表中存在所述恢复的可用服务，则清除所述可用服务对应的故障标记，并将清除故障标记后的可用服务添加至所述服务请求访问列表。

可选地，所述相关指标数据为服务请求时间以及请求失败次数，所述服务故障判断模块还用于：

可选地，所述相关指标数据为连续请求失败次数，所述服务故障判断模块还用于：

可选地，所述相关指标数据为访问次数以及成功次数，所述服务故障判断模块还用于：

可选地，所述相关指标数据为访问平均耗时，所述服务故障判断模块还用于：

此外，为实现上述目的，本发明还提供一种服务故障的识别设备，所述服务故障的识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务故障的识别程序，所述服务故障的识别程序被所述处理器执行时实现如上所述的服务故障的识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有服务故障的识别程序，所述服务故障的识别程序被处理器执行时实现如上所述的服务故障的识别方法的步骤。

本发明提供一种服务故障的识别方法，通过预先将多种故障识别条件设置成对应服务的故障校验规则，然后根据具体调用的目标服务确定对应的故障校验规则。再根据对应的故障校验规则获取所述目标服务对应待校验的相关指标数据，对该相关指标数据进行对应校验，以确定所述目标服务是否发生故障，若目标服务发生了故障，则在预设服务请求访问列表中将该目标服务删除，以暂停该目标服务，本发明不需要接入第三方组件Nginx即可实现服务故障的检测，不仅便于扩展，而且增加了故障识别条件，从而使故障识别按业务场景更加精细化，提高故障识别的准确度，解决了现有服务故障识别方法不便于扩展以及故障识别方式单一的技术问题。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明服务故障的识别方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例服务故障的识别设备可以是PC机或服务器设备，其上运行有Java虚拟机。

如图1所示，该服务故障的识别设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及服务故障的识别程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的服务故障的识别程序，并执行下述服务故障的识别方法中的操作。

基于上述硬件结构，提出本发明服务故障的识别方法实施例。

参照图2，图2为本发明服务故障的识别方法第一实施例的流程示意图，所述服务故障的识别方法包括：

步骤S10，在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则；

一般采用服务器Nginx来实现多活请求，其中，多活请求为：跟外部机构对接时对方应用可能部署在多个IDC机房，应用需根据各IDC机房的健康指标对其进行多活访问，例如：某公司A应用需要访问外部机构2个IDC机房的B应用分别对应外网两个IP地址IP1，IP2，为了分担外部机构系统压力，当2个IDC机房都健康的情况下进行权重随机访问；当某个机房出现故障时只请求健康IDC机房对应服务。然后通过Nginx中的相关配置可实现不同IDC(Internet Data Center，互联网数据中心)机房IP的多活访问，如通过Nginx检测到服务请求失败次数达到max_fails(最大失败次数)时，返回指定错误码，或通过故障后等待时间超过fail_timeout(故障等待时间)，则判定服务发生故障恢复。由此可见，在系统内部署集群Nginx，当系统内有多个IDC机房还需要分别进行对应IDC部署；当接入多合作方时需要每次调整各IDC机房Nginx配置，不方便扩展。另外，Nginx故障切换方式单一，不满足复杂业务场景需求。例如：故障判断方式需要应用平均耗时上升或者访问成功率低于容忍指标一段时间等指标时Nginx不支持。Nginx故障恢复判断方式简单，当max_fails过大时会产生大量失败请求造成流量损失。因此，现有服务故障识别方法需要接入第三方组件，不仅不便于扩展，而且服务故障识别方式单一，不能满足复制业务场景需求。

为了解决上述问题，本发明通过预先将多种故障识别条件设置成对应服务的故障校验规则，然后根据具体调用的目标服务确定对应的故障校验规则。再根据对应的故障校验规则获取所述目标服务对应待校验的相关指标数据，对该相关指标数据进行对应校验，以确定所述目标服务是否发生故障，若目标服务发生了故障，则在预设服务请求访问列表中将该目标服务删除，以暂停该目标服务。本发明在应用层面实现多活，不需要在应用层前面接入第三方组件实现多活，即不需要考虑第三方组件的单点问题。同时将基于多IDC多活方案封装成SDK，业务应用只需通过统一接口API获取可用多活IDCIP即可，不需要关注多活SDK内部的故障处理与恢复，对业务系统低侵入。另外，故障识别按业务场景更加精细化：可支持连续失败次数、一定时间间隔失败次数、指定最小样本容量平均耗时大于X毫秒持续多少分钟或者指定最小样本容量成功率低于百分之Y持续多少分钟，通过上述四种故障判别方式可按业务分组自由组合支持更多细分业务场景。具体地，在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的服务标识，如名称、编号或者类型等，将所述服务标识与故障库进行匹配，确定所述目标服务对应的故障校验规则，以通过所述故障校验规则对所述目标服务进行故障检测。

进一步地，所述步骤S10之前，还包括：

其中，所述在接收到所述服务调用请求时，根据各个服务对应的预设权重，在所述服务请求访问列表中确定所述目标服务的步骤具体包括：

本实施例中，根据IDCIP配置的权重，按权重随机算法分配IDCIP进行多活请求。其中，根据具体服务以及对应的IP进行分组，如借款服务IP1为分组一，借款服务IP2为分组2，还款服务IP1为分组3，还款服务IP2为分组4等。其中，多活(组内)权重随机算法具体步骤如下：

1、根据分组标识(groupkey)获取该分组内有效的IDC。每个IDC包含ip，访问权重(weight)等信息；

2、根据分组内有效的出口ip数量定义一个同大小的用于存储各IDC访问权重的数组并进行赋值，计算总访问权重，数组内权重值是否都相等；

3、各IDC访问权重相同，直接从有效IDC列表随机生成该次多活访问出口ip；

4、各IDC访问权重不全相同，随机产生出比总访问权重小的整数值，遍历存储权重的数组，每次遍历用产生的整数值减去该次遍历的权重，当整数值小于0时，该次遍历的下标即对应多活访问出口ip的有效多活列表的下标。

通过上述步骤确定服务调用请求对应分配的目标服务，通过所述目标服务进行处理，并将所述目标服务对应处理结果生成对应的服务上报结果指令。

步骤S20，根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障；

本实施例中，预先根据不同业务场景服务设置不同的故障校验规则，然后根据目标服务确定对应的故障校验规则。根据所述故障校验规则确定待校验的指标数据，并获取所述目标服务对应的相关指标数据。将所述相关指标数据与所述故障校验规则中的标准值进行比对，然后根据比对结果判断所述目标服务是否发生服务故障。服务故障校验规则包括：

1、根据在一定间隔时间内请求失败次数来判断整体服务是否故障；

2、根据连续失败次数来判断整体服务是否故障；

3、根据指定样本容量访问成功率小于百分之X持续Y分钟(X、Y可根据业务容忍度进行配置)；

4、根据指定样本容量访问平均耗时大于Z毫秒持续K分钟(Z、K可根据业务容忍度进行配置)。

具体实施例中，用户可根据实际服务校验需要将上述故障校验规则进行单独配置或者组合配置。

步骤S30，若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记。

本实施例中，在判定所述目标服务的相关指标数据未达到所述故障校验规则中的标准值时，即可能由于网络抖动或者合作方某模块出现异常等情况下，导致了服务请求耗时上升、服务请求成功率下降或者服务请求访问失败等，根据预设故障规则策略将所述目标服务标记某IDC故障，并暂时将所述目标服务从多活请求的服务请求访问列表中排除，以暂停所述目标服务的对外服务。其中，所述预设故障规则为将所述目标服务按照故障类型进行标记，或者将所述目标服务按照故障时间进行标记等。

本发明提供一种服务故障的识别方法，通过在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则；根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障；若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记。通过上述方式，本发明通过预先将多种故障识别条件设置成对应服务的故障校验规则，然后根据具体调用的目标服务确定对应的故障校验规则。再根据对应的故障校验规则获取所述目标服务对应待校验的相关指标数据，对该相关指标数据进行对应校验，以确定所述目标服务是否发生故障，若目标服务发生了故障，则在预设服务请求访问列表中将该目标服务删除，以暂停该目标服务，本发明不需要接入第三方组件Nginx即可实现服务故障的检测，不仅便于扩展，而且增加了故障识别条件，从而使故障识别按业务场景更加精细化，提高故障识别的准确度，解决了现有服务故障识别方法不便于扩展以及故障识别方式单一的技术问题。

进一步地，基于本发明服务故障的识别方法第一实施例，提出本发明服务故障的识别方法第二实施例。

在本实施例中，所述步骤S30之后，还包括：

其中，所述在预设服务请求访问列表中删除所述目标服务，将携带故障标记的目标服务添加至预设故障列表，并根据预设检测周期，调用通用校验模块或者自定义校验模块对所述故障列表中的故障服务进行服务探测的步骤具体包括：

目前nginx故障恢复判断方式简单，当max_fails过大时会产生大量失败请求导致恢复校验异常，造成流量损失。本实施例中，为了解决上述问题，在将所述目标服务标记为故障的IDC，通过固定的频次,以及自定义校验模块或者默认校验模块向发生故障的IDC发起交易请求，根据交易结果判别故障IDC服务是否恢复正常。将恢复正常的IDC重新放入多活服务请求列表，并将请求流量接入。例如：A IDC被故障识别服务标记为故障服务，故障恢复探测服务定时检测故障列表，若服务不具有自定义校验模块，即未实现自定义故障探测服务，默认采用telnetIP port方式，即通过目前Nginx的故障判断方法判断该故障服务是否恢复。若服务具有自定义校验模块，即服务实现了自定义探测服务，则根据自定义探测服务结果来判断故障IDC是否恢复。其中，所述自定义校验模块为用户根据实际交易需要自定义的故障校验模块。由此，本实施例中通过多样的故障恢复校验方式，即不仅支持默认telnet ip port检查服务端口是否正常，而且支持业务系统自定义故障恢复服务，从而能具体校验某业务接口数据是否正常，当业务接口由于下游异常导致数据不正常但本应用模块正常的情况下也可识别故障为未恢复。其中，具体服务恢复校验过程如下：

1、由多活SDK封装权重随机算法并提供统一多活访问出口接口(按服务组内加权随机)，业务方进行调用，api接口如下所示：

返回类型	接口名	接口说明
			String	getServer(String groupKey)	获取指定分组多活访问出口地址

2、业务方在调用完成之后进行结果上报，api接口如下所示：

返回类型	接口名	接口说明
			Void	notifyRequestResult(RequestResult result)	服务结果上报

3、业务调用失败由业务方决定是否重试，重试时重新获取服务出口地址时可根据业务场景决定是否需过滤上笔请求失败的服务出口地址，api接口如下所示：

其中，故障探测服务在故障机器达到等待时间后自动发起探测交易检测故障是否恢复，所述故障服务恢复探测提供统一抽象接口如下：

返回类型	方法名	方法说明
			Boolean	callDetectServer	故障恢复探测服务接口

若故障服务恢复探测请求由SDK组件发起，探测提供二种方式。

1、SDK组件提供默认telnet ip:port方式探测idc服务是否可用(sdk内部实现)

2、SDK组件定义故障恢复探测抽象接口，业务方负责具体实现

例如：业务方通过实现callDetectServer接口来定义一个专门用来故障恢复探测的服务，服务本身可以是旁路交易(查询类交易)/无业务逻辑空实现交易等。通过交易接口返回的布尔值(true-可用、false-不可用)判断当前idc是否可用。其中，故障服务在等待故障恢复重试时间窗口内不参与多活访问请求，故障服务恢复后，将故障服务对应的idc加入到多活访问请求列表中并将idc访问权重调整为初始权重。

进一步地，基于本发明服务故障的识别方法第二实施例，提出本发明服务故障的识别方法第三实施例。

在本实施例中，所述相关指标数据为服务请求时间以及请求失败次数，所述步骤S20具体包括：

本实施例中，为了校验所述目标服务的请求失败次数是否在预设时间间隔内达到第一预设阈值，采用双端队列的数据结构，队列长度取每个服务分组最大长度值max_fails，队列中存储失败的请求,记录每次请求的时间。采用首尾节点的时间间隔以及当前队列大小判断，当在配置时间间隔内即第一预设阈值，类似一个滑动窗口，当滑动窗口滑满，即队列满，则判定所述目标服务发生故障。

进一步地，所述相关指标数据为连续请求失败次数，所述步骤S20具体包括：

本实施例中，记录每台机器的失败调用情况，以对所述目标服务的连续请求失败次数进行计数，当请求失败，则累计值(series_fails)加1，请求成功累计值(series_fails)累计值清零，重新开始累计。在所述连续请求失败次数达到所述第二预设阈值时，即表示所述目标服务发生故障。

进一步地，所述相关指标数据为访问次数以及成功次数，所述步骤S20具体包括：

进一步地，所述相关指标数据为访问平均耗时，所述步骤S20具体包括：

本实施例中，预先根据预设时间间隔将时间片分片(如1分钟)，统计所述目标服务在各个1分钟内的相关指标数据，每分钟内依据统计指标计算统计值，其中，统计指标有访问次数、成功次数、总耗时，统计值有平均耗时和访问成功率。若存在小于所述第三预设阈值的访问成功率，即表示在某个时间间隔内，目标服务的访问成功率低于标准值，或者存在达到所述第四预设阈值的访问平均耗时，即表示在某个时间间隔内，目标服务的平均访问耗时超过了标准值，则判定所述目标服务发生故障。

本发明还提供一种服务故障的识别装置，所述服务故障的识别装置包括：

进一步地，所述服务故障的识别装置还包括：

进一步地，所述故障服务探测模块还用于：

进一步地，所述相关指标数据为服务请求时间以及请求失败次数，所述服务故障判断模块还用于：

进一步地，所述相关指标数据为连续请求失败次数，所述服务故障判断模块还用于：

进一步地，所述相关指标数据为访问次数以及成功次数，所述服务故障判断模块还用于：

进一步地，所述相关指标数据为访问平均耗时，所述服务故障判断模块还用于：

进一步地，所述服务故障的识别装置还包括服务调用处理模块，所述服务调用处理模块还用于：

上述各程序模块所执行的方法可参照本发明服务故障的识别方法各个实施例，此处不再赘述。

本发明还提供一种计算机可读存储介质。

本发明计算机可读存储介质上存储有服务故障的识别程序，所述服务故障的识别程序被处理器执行时实现如上所述的服务故障的识别方法的步骤。

其中，在所述处理器上运行的服务故障的识别程序被执行时所实现的方法可参照本发明服务故障的识别方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种服务故障的识别方法，其特征在于，所述服务故障的识别方法包括如下步骤：

2.如权利要求1所述的服务故障的识别方法，其特征在于，所述若所述目标服务发生服务故障，则根据预设故障规则策略将所述目标服务进行故障标记，并在所述服务请问访问列表中删除所述目标服务的步骤之后，还包括：

3.如权利要求2所述的服务故障的识别方法，其特征在于，所述在预设服务请求访问列表中删除所述目标服务，将携带故障标记的目标服务添加至预设故障列表，并根据预设检测周期，调用通用校验模块或者自定义校验模块对所述故障列表中的故障服务进行服务探测的步骤具体包括：

4.如权利要求1所述的服务故障的识别方法，其特征在于，所述相关指标数据为服务请求时间以及请求失败次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

5.如权利要求1所述的服务故障的识别方法，其特征在于，所述相关指标数据为连续请求失败次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

6.如权利要求1所述的服务故障的识别方法，其特征在于，所述相关指标数据为访问次数以及成功次数，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

7.如权利要求1所述的服务故障的识别方法，其特征在于，所述相关指标数据为访问平均耗时，所述根据所述故障校验规则，获取所述目标服务对应待校验的相关指标数据，将相关指标数据与所述故障校验规则中的校验标准进行比对，并根据比对结果判断所述目标服务是否发生服务故障的步骤具体包括：

8.如权利要1-7中任一项所述的服务故障的识别方法，其特征在于，所述在接收到基于服务调用请求触发的服务上报结果指令时，获取所述服务上报结果指令中的目标服务对应的故障校验规则的步骤之前，还包括：

9.如权利要求8所述的服务故障的识别方法，其特征在于，所述在接收到所述服务调用请求时，根据各个服务对应的预设权重，在所述服务请求访问列表中确定所述目标服务的步骤具体包括：

10.一种服务故障的识别装置，其特征在于，所述服务故障的识别装置包括：

11.如权利要求10所述的服务故障的识别装置，其特征在于，所述服务故障的识别装置还包括：

12.如权利要求10所述的服务故障的识别装置，其特征在于，所述相关指标数据为服务请求时间以及请求失败次数，所述服务故障判断模块还用于：

13.如权利要求10所述的服务故障的识别装置，其特征在于，所述相关指标数据为连续请求失败次数，所述服务故障判断模块还用于：

14.如权利要求10所述的服务故障的识别装置，其特征在于，所述相关指标数据为访问次数以及成功次数，所述服务故障判断模块还用于：

15.如权利要求10所述的服务故障的识别装置，其特征在于，所述相关指标数据为访问平均耗时，所述服务故障判断模块还用于：

16.一种服务故障的识别设备，其特征在于，所述服务故障的识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务故障的识别程序，所述服务故障的识别程序被所述处理器执行时实现如权利要求1至9中任一项所述的服务故障的识别方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有服务故障的识别程序，所述服务故障的识别程序被处理器执行时实现如权利要求1至9中任一项所述的服务故障的识别方法的步骤。