CN117331740A - 一种故障探测及故障修复方法和相关产品 - Google Patents

一种故障探测及故障修复方法和相关产品 Download PDF

Info

Publication number
CN117331740A
CN117331740A CN202311394168.0A CN202311394168A CN117331740A CN 117331740 A CN117331740 A CN 117331740A CN 202311394168 A CN202311394168 A CN 202311394168A CN 117331740 A CN117331740 A CN 117331740A
Authority
CN
China
Prior art keywords
fault
detected
distributed architecture
determining
response message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311394168.0A
Other languages
English (en)
Inventor
吴永飞
陈刚
卢科兵
呼跃豪
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hua Xia Bank Co Ltd
Original Assignee
Hua Xia Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hua Xia Bank Co Ltd filed Critical Hua Xia Bank Co Ltd
Priority to CN202311394168.0A priority Critical patent/CN117331740A/zh
Publication of CN117331740A publication Critical patent/CN117331740A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种故障探测及故障修复方法和相关产品,涉及人工智能领域。本申请向待探测对象发送请求报文;接收待探测对象反馈的与请求报文对应的响应报文;若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。本申请可以及时发现分布式架构系统中可能出现的故障,并对探测到的故障对象进行及时修复,提升了分布式架构系统的工作稳定性和工作效率。

Description

一种故障探测及故障修复方法和相关产品
技术领域
本申请涉及人工智能领域,特别是涉及一种故障探测及故障修复方法和相关产品。
背景技术
随着数字经济的发展,越来越多的企业应用系统采用分布式架构系统来提升系统性能和横向扩展能力。分布式架构系统相比传统架构系统具有服务器设备数量多且服务器设备管理复杂性高的特点。如何实现对海量服务器设备的性能监测,及时发现分布式架构系统中可能出现的故障,并对探测到的故障进行及时修复,成为亟待解决的问题。
发明内容
基于上述问题,本申请提供一种故障探测及故障修复方法和相关产品,用以实现对海量服务器设备的性能监测,及时发现分布式架构系统中可能出现的故障,并对探测到的故障进行及时修复,提升分布式架构系统的工作稳定性和工作效率。
本申请实施例第一方面提供了一种故障探测及故障修复方法,包括:
向待探测对象发送请求报文;所述待探测对象包括分布式架构系统或所述分布式架构系统中的各服务器设备;
接收所述待探测对象反馈的与所述请求报文对应的响应报文;
若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;
若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,将所述故障对象的信息发送给运维装置;
根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
在一种可选的实现方式中,所述根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案,包括:
若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作。
在一种可选的实现方式中,所述按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作,包括:
连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;
若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
在一种可选的实现方式中,所述对所述故障对象执行隔离和重启操作后,所述方法还包括:
连续向重启后的所述故障对象发送M次所述验证信息,若所述故障对象对所发送的M次所述验证信息有反馈,则确定所述重启后的所述故障设备恢复正常。
在一种可选的实现方式中,若所述待探测对象为所述分布式架构系统,所述将所述故障对象的信息发送给运维装置后,所述方法还包括:
确定所述响应报文中显示的导致所述分布式架构系统通信异常的服务器设备为第一疑似故障设备;
确定所述分布式架构系统的通信链路上处于所述第一疑似故障设备之后的服务器设备为第二疑似故障设备;
将所述第一疑似故障设备和所述第二疑似故障设备作为疑似故障服务器设备;从所述疑似故障服务器设备中确定故障服务器设备;
根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
本申请实施例第二方面提供了一种故障探测及故障修复装置,所述装置包括:
请求报文发送模块,用于向待探测对象发送请求报文;所述待探测对象包括分布式架构系统或所述分布式架构系统中的各服务器设备;
响应报文接收模块,用于接收所述待探测对象反馈的与所述请求报文对应的响应报文;
探测结果获取模块,用于若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;
故障修复模块,用于根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。在一种可选的实现方式中,所述故障修复模块包括:
第一故障修复单元,用于若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
第二故障修复单元,用于若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作。
在一种可选的实现方式中,第一故障修复单元包括:
信息发送子单元,用于连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;
故障修复子单元,用于若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
本申请实施例第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
本申请实施例第四方面提供了一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法的步骤。
相较于现有技术,本申请具有以下有益效果:
本申请实施例在向待探测对象发送请求报文后,接收待探测对象反馈的与请求报文对应的响应报文;若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。本申请中不限定待探测对象的数目,只需要向待探测对象发送请求报文,就可以获知待探测对象的探测结果,就可以确定待探测对象正常或异常;可以及时发现分布式架构系统中可能出现的故障,并对探测到的故障对象进行及时修复,提升分布式架构系统的工作稳定性和工作效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种故障探测及故障修复方法的流程图;
图2为本申请实施例提供的一种对分布式架构系统进行故障探测及故障修复的示意图;
图3为本申请实施例提供的一种对服务器设备的工作节点进行故障探测及故障修复的示意图;
图4为本申请实施例提供的一种故障探测及故障修复方法的示意图;
图5为本申请实施例提供的一种故障探测及故障修复装置的结构示意图。
具体实施方式
正如前文描述,随着数字经济的发展,越来越多的企业应用系统采用分布式架构系统来提升系统性能和横向扩展能力。分布式架构系统相比传统架构系统具有服务器设备数量多且服务器设备管理复杂性高的特点。如何实现对海量服务器设备的性能监测,及时发现分布式架构系统中可能出现的故障,并对探测到的故障进行及时修复,成为亟待解决的问题。
本申请实施例在向待探测对象发送请求报文后,接收待探测对象反馈的与请求报文对应的响应报文;若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。本申请中不限定待探测对象的数目,只需要向待探测对象发送请求报文,就可以获知待探测对象的探测结果,就可以确定待探测对象正常或异常;可以及时发现分布式架构系统中可能出现的故障,并对探测到的故障对象进行及时修复,提升分布式架构系统的工作稳定性和工作效率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使本技术领域的人员更好地理解本申请方案,下述实施例中以银行综合支付系统为例,介绍本申请方案中的故障探测方法。下面对银行综合支付系统进行介绍。
银行综合支付系统具有200多台服务器设备,每台服务器设备可以看作一个通信节点;每个通信节点相互独立,相互通过报文进行通信,构成了复杂的系统架构。银行综合支付系统单笔交易需要经过多个节点,例如,一笔微信二维码支付交易,要分别经过互联网网关、收单网关、收单应用、支付网关和支付应用多个节点。银行综合支付系统是一种典型的分布式架构系统。
图1为本申请实施例提供的一种故障探测及故障修复方法的流程图。
结合图1所示,本申请的故障探测及故障修复方法包括:
步骤101,向待探测对象发送请求报文。
本申请实施例中提到的待探测对象可以是分布式架构系统,如银行综合支付系统;可以是分布式架构系统中的各服务器设备,如银行综合支付系统中的互联网网关、收单网关、收单应用、支付网关和支付应用等服务器设备。
需要说明的是,由于银行服务器设备中有诸多工作节点,且同一个服务器设备中多个工作节点的功能相同。例如,收单网关中可以包括第一节点和第二节点,且收单网关中各节点的功能相同。本申请中的待探测对象还可以为银行服务器设备中的工作节点。本申请中公开的故障探测及故障修复方法同样适用于具体服务器设备中的工作节点的故障探测和故障修复。
请求报文是检测待探测对象是否正常工作的报文。不同的待探测对象有不同的请求报文。例如,银行综合支付系统的请求报文中包括检测银行综合支付系统是否可以进行正常链路通信的内容;数据库服务器设备的请求报文中包括检测数据库访问有效性和耗时时长的内容;应用服务器设备的报文中包括检测待处理业务能否被正常处理并返回数据的内容。
在获取待探测对象的请求报文后,向待探测对象发送请求报文。由于报文的发送是较为成熟的技术,本申请中不限定发送报文的具体实现方式。
步骤102,接收所述待探测对象反馈的与所述请求报文对应的响应报文。
待探测对象在收到响应报文后,针对请求报文中的探测内容,生成与请求报文对应的响应报文,并将响应报文反馈给发出请求报文的服务器。发出请求报文的服务器可以是系统服务器,也可以是其它可能的服务器设备。
响应报文的内容与请求报文的内容对应。例如,银行综合支付系统的响应报文中包括链路是否正常通信的内容;数据库服务器设备的响应报文中包括具体的访问时间和查询耗时等信息。
步骤103,若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置。
具体而言,如果银行支付系统的响应报文中显示链路处于正常通信状态,则确定银行支付系统处于正常工作状态;否则,则确定银行支付系统处于异常工作状态,银行支付系统是故障对象,将银行支付系统是故障对象的信息发送给运维装置。再例如,如果数据库服务器的响应报文中显示的访问时间和查询耗时与正常工作状态的服务器的访问时长和查询耗时匹配,则确定数据库服务器处于正常工作状态,否则确定数据库服务器为故障对象,将数据库服务器是故障对象的信息发送给运维装置。
步骤104,根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
在一种可选的实现方式中,若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作,可以在分布式架构系统的特定监控页面观察故障对象的状态,并由人工判断是否对故障对象执行隔离和重置服务操作。
需要说明的是,除了隔离和重启操作外,自动修复操作使用到的处置工具还包括一键式诊断服务可用性、网络通信可用性等多种处置工具。
在一种可选的实现方式中,所述按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作,包括:
连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
例如,当确定服务设备A的节点A1是故障对象时,可以向服务设备A中的故障节点A1连续5次发送验证信息,如果故障节点A1对上述验证信息均没有回复,且服务设备A中有其他节点如A2或A3可以代替故障节点A1实现故障节点A1的对应功能,则对故障节点A1执行启动服务隔离和重启操作。
在一种可选的实现方式中,所述对所述故障对象执行隔离和重启操作后,所述方法还包括:连续向重启后的所述故障对象发送M次所述验证信息,若所述故障对象对所发送的M次所述验证信息有反馈,则确定所述重启后的所述故障设备恢复正常。
具体而言,当对故障节点A1执行完启动服务隔离和重启操作后,连续4次向故障节点A1发送单点探测报文。如果A1对所发送的单点探测报文有响应,则认为故障节点A1恢复正常,可以取消对节点A1的隔离操作,恢复节点A1对外服务。
综上所述,本申请实施例在向待探测对象发送请求报文后,接收待探测对象反馈的与请求报文对应的响应报文;若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。本申请中不限定待探测对象的数目,只需要向待探测对象发送请求报文,就可以获知待探测对象的探测结果,就可以确定待探测对象正常或异常;可以及时发现分布式架构系统中可能出现的故障,并对探测到的故障对象进行及时修复,提升分布式架构系统的工作稳定性和工作效率。
在一种可选的实现方式中,若所述待探测对象为所述分布式架构系统,所述将所述故障对象的信息发送给运维装置后,所述方法还包括:
确定所述响应报文中显示的导致所述分布式架构系统通信异常的服务器设备为第一疑似故障设备;确定所述分布式架构系统的通信链路上处于所述第一疑似故障设备之后的服务器设备为第二疑似故障设备;将所述第一疑似故障设备和所述第二疑似故障设备作为疑似故障服务器设备;从所述疑似故障服务器设备中确定故障服务器设备;根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
具体地,因为分布式架构系统有多台服务器设备,每台服务器设备可以看作一个通信节点;每个通信节点相互独立,相互通过报文进行通信。所以,在对分布式架构系统进行检测时,可以检测分布式架构系统中的通信链路是否正常通信。如果响应报文中显示通信链路无法正常通信,即通信链路异常,则查看响应报文中具体哪个服务器设备导致了通信链路异常,此设备即为第一疑似故障设备;由于第一疑似故障设备导致分布式架构系统的通信链路无法正常通信,无法验证处于分布式架构系统的通信链路上在第一疑似故障设备后的诸多服务器设备(第二疑似故障设备)是否正常;所以,在获取第一疑似故障设备的同时,还要获取第二疑似故障设备,将第一疑似故障设备和第二疑似故障设备统称为疑似故障服务器设备。
在一种可选的实现方式中,所述从所述疑似故障服务器设备中确定故障服务器设备,包括:
向所述疑似故障服务器设备发送单点探测请求报文;接收所述疑似故障服务器设备反馈的与所述单点探测请求报文对应的单点探测响应报文;根据所述疑似故障服务器设备反馈的单点探测响应报文的报文内容,从所述疑似故障服务器设备中确定故障服务器设备。
具体而言,向疑似故障服务器设备中的每一个服务器设备发送单点探测请求报文,然后接收疑似故障服务器设备中每一个服务器设备反馈的与单点探测请求报文对应的单点探测响应报文;如果单点探测响应报文正常,则确认发出单元单点探测响应报文的服务器设备正常,不是故障服务器设备;如果单点探测响应报文异常,则确认发出单点探测响应报文的服务器设备异常,是故障服务器设备;由此,可以从疑似故障服务器设备中确定故障服务器设备。
综上所述,如果待检测对象是分布式架构系统,可以采用步骤101-步骤103中的方法对分布式架构系统是否能进行正常链路通信进行探测;如果发现分布式架构系统异常,即分布式架构系统不能进行正常链路通信;可以进一步地确定导致分布式架构系统异常的服务器设备(第一疑似故障设备)和第二疑似故障设备;进一步地从第一疑似故障设备和第二疑似故障设备组成的疑似服务器设备中筛选出故障服务器设备;进一步地按照步骤104中方案对故障服务器设备进行修复;最终实现了对分布式架构系统中海量服务器的主动监控、故障问题的快速定位以及故障服务器设备的快速修复,极大地提升了分布式架构系统的工作稳定性和工作效率。
为加深对本申请中公开的故障探测方法的理解,下面以银行综合支付系统为例,对本申请中公开的故障探测方法做进一步说明。
图2为本申请实施例提供的一种对分布式架构系统进行故障探测及故障修复的示意图。图2中的分布式架构系统为银行综合支付系统。需要说明的是,图2中没有给出银行综合支付系统中全部的服务器设备,只是示意性的展示了在手机二维码支付业务中使用到的数个服务器设备。
图2中展示了银行综合支付系统包括的收单网关模块、收单后台模块、支付网关模块、支付后台模块、推送模块和数据存储模块。其中,图2中在银行综合支付系统中增加了用于发送请求报文和接收响应报文的专用设备,该通信专用设备与银行综合支付系统中的各服务器设备间采用远程过程调用协议(RPC:Remote Procedure Call Protocol)的方式进行通信。
具体地,当专用设备(可以是外接的探测装置)向银行综合支付系统发送请求报文前,首先需要进行规则配置。需要配置的规则包括:探测方式、探测周期、是否检查数据库、探测时间等等信息。其中,探测方式包括全链路探测和单节点探测,对于图2中分布式架构系统进行探测选择全链路探测的探测方式。探测周期分为定时探测和周期性探测。将确定检查银行综合支付系统中的数据库时,会对数据库进行检测。探测时间可以设定首次进行探测的时间。
当采用步骤101的方法,向银行综合支付系统发送请求报文,其中请求报文中的内容可以是检测银行综合支付系统的链路通信是否正常或者本领域工作人员可以想到的其它检测内容。
当银行综合支付系统收到请求报文后,会反馈与请求报文对应的响应报文。在专用设备接收到响应报文中的内容后,可以查看报文内容指示银行综合支付系统是否正常进行链路通信。如果响应报文内容正常,则代表银行综合支付系统正常通信;如果异常,则代表银行综合支付系统异常。
当银行综合支付系统异常时,通过响应报文内容,查看具体导致银行综合支付系统无法进行链路通信的服务器设备是收单网关模块、收单后台模块、支付网关模块、支付后台模块、推送模块和数据存储模块中的哪个模块;如果确认支付后台模块异常。则需要进一步检测支付后台模块,以及在银行综合支付系统的通信链路上支付后台模块后的推送模块和数据存储模块是否存在异常。其中,支付后台模块、推送模块和数据存储模块是本实施例中的疑似故障服务器设备。
在确定疑似故障服务器设备后,可以向疑似故障服务器设备中的每个模块,如支付后台模块、推送模块和数据存储模块分别发送单点探测报文,然后接收疑似故障服务器设备中每一个服务器设备反馈的与单点探测请求报文对应的单点探测响应报文;如果单点探测响应报文正常,则确认发出单元单点探测响应报文的服务器设备正常,不是故障服务器设备;如果单点探测响应报文异常,则确认发出单点探测响应报文的服务器设备异常,是故障服务器设备;由此,可以从疑似故障服务器设备中确定故障服务器设备。假设图2中通过单点探测报文探测出的故障设备是支付后台模块,可以将支付后台模块是故障设备的信息传送给运维装置。可以按照步骤104中的记载,采取人工修复或自动修复的方式对支付后台模块进行修复,由于步骤104中详细记载了相关内容,此处不再赘述。
图3为本申请实施例提供的一种对服务器设备的工作节点进行故障探测及故障修复的示意图。在实际工作中,银行综合支付系统中的各服务器设备包括多个工作节点。例如,收单网关节点可能包括第一节点和第二节点,在图3中表示为收单网关节点1/2;收单后台节点可能包括第一节点、第二节点、第三节点和第四节点,在图3中表现为收单后台节点1/2/3/4;支付网关节点可能包括第一节点和第二节点,在图3中表示为支付网关节点1/2;支付后台节点可能包括第一节点、第二节点、第三节点和第四节点,在图3中表现为支付后台节点1/2/3/4。
一般服务器设备中的各工作节点是随机的对传输到该服务器设备的任务进行任务处理的。例如,当付款任务传输到收单后台模块后,收单后台模块中的多个工作节点如第一节点、第二节点、第三节点和第四节点中的一个工作节点会对付款任务进行处理,使得收单后台模块完成对服务任务的处理,并将处理后的付款业务传输到银行综合支付系统的下一个服务器设备。需要说明的是,收单后台模块中的多个工作节点对待处理任务的处理是随机的,如果多次向收单后台服务模块发送请求报文,但是收单后台模块中的某个工作节点,如第一节点一直没有对请求报文进行反馈,则说明收到收单后台模块中第一节点是故障节点。
同理,可以向收单网关模块、支付网管模块、支付后台模块中的节点发送报文,探测上述服务器设备中的工作节点是否正常工作。假设探测确定支付后台模块中第一节点是故障对象,则将故障对象的信息发送到运维装置。而后可以按照步骤104中记载的步骤,对支付后台模块中第一节点进行修复。由于步骤104中详细记载了相关内容,此处不再赘述。
图4为本申请实施例提供的一种故障探测及故障修复方法的示意图。图4简要地介绍了本申请中所提供的故障探测和故障修复方法的原理。结合图4所示,当探测装置(是本申请前述实施例中的专用设备)向待探测对象发送请求报文,而后接收到被探测对象回复的与请求报文对应的响应报文;如果响应报文显示被探测对象是故障对象,则将故障对象的信息发送到运维装置,根据运维装置中自动处置开关的状态,确定对所述故障对象的修复方案,即选择不同的处置工具,如隔离或重启。在本申请前述实施例提供的故障探测及故障修复方法的基础上,本申请实施例还提供了一种故障探测及故障修复装置500。图5为本申请实施例提供的一种故障探测及故障修复装置的结构示意图。结合图5所示,故障探测装置及故障修复500包括:
请求报文发送模块501,用于向待探测对象发送请求报文;所述待探测对象包括分布式架构系统或所述分布式架构系统中的各服务器设备;
响应报文接收模块502,用于接收所述待探测对象反馈的与所述请求报文对应的响应报文;
探测结果获取模块503,用于若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;
故障修复模块504,用于根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
在一种可选的实现方式中,故障修复模块504包括:
第一故障修复单元,用于若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
第二故障修复单元,用于若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作。
在一种可选的实现方式中,第一故障修复单元包括:
信息发送子单元,用于连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;
故障修复子单元,用于若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
在一种可选的实现方式中,第一故障修复单元还包括:
故障探测子单元,用于连续向重启后的所述故障对象发送M次所述验证信息,若所述故障对象对所发送的M次所述验证信息有反馈,则确定所述重启后的所述故障设备恢复正常。
进一步地,本申请实施例还提供了一种电子设备,包括存储器和处理器,其中,存储器用于存储计算机程序;处理器,用于执行所述计算机程序,以实现上述方法实施例中的故障探测及故障修复方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,以实现上述方法实施例中的故障探测及故障修复方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种故障探测及故障修复方法,其特征在于,所述方法包括:
向待探测对象发送请求报文;所述待探测对象包括分布式架构系统或所述分布式架构系统中的各服务器设备;
接收所述待探测对象反馈的与所述请求报文对应的响应报文;
若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;
若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;
根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
2.根据权利要求1所述的方法,其特征在于,所述根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案,包括:
若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作。
3.根据权利要求2所述的方法,其特征在于,所述按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作,包括::
连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;
若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
4.根据权利要求3所述的方法,其特征在于,所述对所述故障对象执行隔离和重启操作后,所述方法还包括:
连续向重启后的所述故障对象发送M次所述验证信息,若所述故障对象对所发送的M次所述验证信息有反馈,则确定所述重启后的所述故障设备恢复正常。
5.根据权利要求1所述的方法,其特征在于,若所述待探测对象为所述分布式架构系统,所述将所述故障对象的信息发送给运维装置后,所述方法还包括:
确定所述响应报文中显示的导致所述分布式架构系统通信异常的服务器设备为第一疑似故障设备;
确定所述分布式架构系统的通信链路上处于所述第一疑似故障设备之后的服务器设备为第二疑似故障设备;
将所述第一疑似故障设备和所述第二疑似故障设备作为疑似故障服务器设备;从所述疑似故障服务器设备中确定故障服务器设备;
根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
6.一种故障探测及故障修复装置,其特征在于,所述装置包括:
请求报文发送模块,用于向待探测对象发送请求报文;所述待探测对象包括分布式架构系统或所述分布式架构系统中的各服务器设备;
响应报文接收模块,用于接收所述待探测对象反馈的与所述请求报文对应的响应报文;
探测结果获取模块,用于若所述响应报文的报文内容正常,则确定所述待探测对象为正常对象;若所述响应报文的报文内容异常,则确定所述待探测对象为故障对象,并将所述故障对象的信息发送给运维装置;
故障修复模块,用于根据所述运维装置中自动处置开关的状态,确定对所述故障对象的修复方案。
7.根据权利要求6所述的装置,其特征在于,所述故障修复模块包括:
第一故障修复单元,用于若所述运维装置中所述自动处置开关开启,按照所述故障对象所在的所述分布式架构系统中预先设置的修复规则对所述故障对象执行自动修复操作;
第二故障修复单元,用于若所述运维装置中所述自动处置开关关闭,由人工对所述故障对象执行修复操作。
8.根据权利要求7所述的装置,其特征在于,所述第一故障修复单元包括:
信息发送子单元,用于连续向所述故障对象发送N次所述验证信息;所述N是大于或等于2的整数;所述验证信息用于验证所述响应报文的准确性;
故障修复子单元,用于若所述故障对象对所发送的N次所述验证信息无反馈,则对所述故障对象执行隔离和重启操作,并使用所述故障对象所在的所述分布式架构系统中具有相同功能的其他设备替代所述故障对象实现对应功能。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN202311394168.0A 2023-10-25 2023-10-25 一种故障探测及故障修复方法和相关产品 Pending CN117331740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311394168.0A CN117331740A (zh) 2023-10-25 2023-10-25 一种故障探测及故障修复方法和相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311394168.0A CN117331740A (zh) 2023-10-25 2023-10-25 一种故障探测及故障修复方法和相关产品

Publications (1)

Publication Number Publication Date
CN117331740A true CN117331740A (zh) 2024-01-02

Family

ID=89277156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311394168.0A Pending CN117331740A (zh) 2023-10-25 2023-10-25 一种故障探测及故障修复方法和相关产品

Country Status (1)

Country Link
CN (1) CN117331740A (zh)

Similar Documents

Publication Publication Date Title
EP3376389B1 (en) Data processing method and device
EP3386150B1 (en) Terminal failure processing method, device and system
US20180067795A1 (en) Systems and methods for automatic replacement and repair of communications network devices
CN103414916B (zh) 一种故障诊断系统及方法
CN110730246A (zh) 一种微服务架构下的分布式链路跟踪方法
CN104301136A (zh) 故障信息上报及处理的方法及设备
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN111897697B (zh) 服务器硬件故障修复方法和装置
US20160337210A1 (en) Method and system for trouble ticketing
JP2017536759A (ja) 基地局の断線後の自己回復の方法及び装置
CN114490565A (zh) 数据库故障处理方法和装置
CN104579717B (zh) Dcn的故障定位方法及装置
JP2003233512A (ja) 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法
CN107959595B (zh) 一种异常检测的方法、装置及系统
CN117331740A (zh) 一种故障探测及故障修复方法和相关产品
CN110521233B (zh) 标识中断的方法、接入点、远程配置的方法、系统和介质
CN105630637A (zh) 一种软件备份、还原方法及终端
CN105786645A (zh) 一种操作系统的备份、还原方法及装置
CN112787868A (zh) 一种信息同步的方法和装置
CN111064608A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
JP2003114812A (ja) Webページ運用監視方法、Webページ運用監視システム及びWebページ運用監視プログラム
CN110225543B (zh) 基于网络请求数据的移动端软件质量态势感知系统及方法
CN111917902B (zh) 检测磅室设备故障的方法、设备和计算机可读存储介质
JP2019193202A (ja) 片方向通信装置、片方向通信方法および片方向通信プログラム
CN116319676B (zh) 域名解析方法、设备、存储介质和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination