CN110119325A - 服务器故障处理方法、装置、设备及计算机可读存储介质 - Google Patents

服务器故障处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110119325A
CN110119325A CN201910391462.3A CN201910391462A CN110119325A CN 110119325 A CN110119325 A CN 110119325A CN 201910391462 A CN201910391462 A CN 201910391462A CN 110119325 A CN110119325 A CN 110119325A
Authority
CN
China
Prior art keywords
destination server
server
business process
failure processing
destination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910391462.3A
Other languages
English (en)
Inventor
李康华
朱国雄
李悦
曾可
卢道和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910391462.3A priority Critical patent/CN110119325A/zh
Publication of CN110119325A publication Critical patent/CN110119325A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种服务器故障处理方法、装置、设备及计算机可读存储介质,该方法包括:若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;发送针对所述目标服务器的维修需求至维修节点;在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。本发明服务器故障处理方法实现了服务器维修流程的全自动化,极大限度地提升了维修效率。

Description

服务器故障处理方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种服务器故障处理方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,其在金融领域的应用也越来越广泛,传统金融业正在逐步向金融科技(Fintech)转变,服务器被大量使用。目前,服务器发生故障时,需要运维人员人工定位故障并通知服务器负责人,待服务器负责人手工隔离业务应用后,运维人员开始预约厂商维修,关机维修完毕后,运维人员登录服务器确认服务是否恢复,若恢复再通知服务器负责人启动应用,存在的问题是:服务器的故障修复流程均需人工操作,无法满足企业级服务器集群对维修效率的要求,维修流程耗时久且人工操作容易出错。
发明内容
本发明的主要目的在于提供一种服务器故障处理方法、装置、设备及计算机可读存储介质,旨在解决人工运维服务器的故障修复流程耗时久、易出错、维修效率低的问题。
为实现上述目的,本发明提供一种服务器故障处理方法,所述服务器故障处理方法包括以下步骤:
若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
发送针对所述目标服务器的维修需求至维修节点;
在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
可选地,所述若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件的步骤包括:
若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
根据所述配置信息,判断所述目标服务器是否为正常运行状态;
所述若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离的步骤包括:
若所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离。
可选地,所述根据所述配置信息,判断所述目标服务器是否为正常运行状态的步骤之后还包括:
若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
若所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离,并进入步骤:发送针对所述目标服务器的维修需求至维修节点。
可选地,所述若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务的步骤之后还包括:
若所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离,并进入步骤:发送针对所述目标服务器的维修需求至维修节点。
可选地,所述发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
可选地,所述发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
在配置管理数据库中对所述目标服务器添加异常告警标签。
可选地,所述在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程的步骤包括:
在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
若检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
恢复所述目标服务器的所述业务进程。
可选地,所述恢复所述目标服务器的所述业务进程的步骤之后还包括:
检测所述目标服务器的业务进程是否部署至预留服务器;
若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
可选地,所述恢复所述目标服务器的所述业务进程的步骤之后还包括:
生成与所述目标服务器对应的维修操作日志;
基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
此外,为实现上述目的,本发明还提出一种服务器故障处理装置,所述服务器故障处理装置包括:
第一判断模块,用于若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
第一隔离模块,用于在所述第一判断模块判断出所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
发送模块,用于发送针对所述目标服务器的维修需求至维修节点;
恢复模块,用于在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
可选地,所述第一判断模块包括:
获取单元,用于若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
判断单元,用于根据所述配置信息,判断所述目标服务器是否为正常运行状态;
所述第一隔离模块包括:
隔离单元,用于在所述判断单元判断出所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离。
可选地,所述装置还包括:
第二判断模块,用于在所述判断单元判断出所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
第二隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离。
可选地,所述装置还包括:
第三隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离。
可选地,所述装置还包括:
复核模块,用于对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
可选地,所述装置还包括:
告警模块,用于在配置管理数据库中对所述目标服务器添加异常告警标签。
可选地,所述恢复模块包括:
修复检测单元,用于在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
告警撤销单元,用于在所述修复检测单元检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
恢复单元,用于恢复所述目标服务器的所述业务进程。
可选地,所述装置还包括:
部署检查模块,用于检测所述目标服务器的业务进程是否部署至预留服务器;
清除模块,用于若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
可选地,所述装置还包括:
记录模块,用于生成与所述目标服务器对应的维修操作日志;
分析模块,用于基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
此外,本发明还提供一种服务器故障处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务器故障处理程序,所述服务器故障处理程序被所述处理器执行时实现如上任一项所述的服务器故障处理方法的步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器故障处理程序,所述服务器故障处理程序被处理器执行时实现如上任一项所述的服务器故障处理方法的步骤。
本发明若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;发送针对所述目标服务器的维修需求至维修节点;在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程;由此,实现了在目标服务器故障且该目标服务器满足隔离条件时,自动将目标服务器的业务进程隔离,在维修完毕后自动恢复目标服务器被隔离的业务进程,无需服务器负责人手工隔离业务进程、手动恢复业务进程,减少了维修流程耗时,避免了人工操作带来的操作误差,提升了维修效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明服务器故障处理方法第一实施例的流程示意图;
图3为本发明服务器故障处理方法第二实施例的流程示意图;
图4为本发明服务器故障处理方法第三实施例的流程示意图;
图5为本发明服务器故障处理方法第四实施例的流程示意图;
图6为本发明服务器故障处理方法第五实施例的流程示意图;
图7为本发明服务器故障处理方法第六实施例的流程示意图;
图8为本发明服务器故障处理方法第七实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为服务器故障处理设备的硬件运行环境的结构示意图。本发明实施例服务器故障处理设备可以是PC,便携计算机等终端设备。
如图1所示,该服务器故障处理设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的服务器故障处理设备结构并不构成对服务器故障处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及服务器故障处理程序。其中,操作系统是管理和控制服务器故障处理设备硬件和软件资源的程序,支持服务器故障处理程序以及其它软件或程序的运行。
在图1所示的服务器故障处理设备中,用户接口1003主要用于与用户端进行数据通信;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的服务器故障处理程序,并执行以下服务器故障处理方法的操作。
基于上述的结构,提出本发明服务器故障处理方法的各个实施例。
参照图2,图2为本发明服务器故障处理方法第一实施例的流程示意图。
本发明实施例提供了服务器故障处理方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例服务器故障处理方法包括:
步骤S100,若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
目前,在金融科技(Fintech)领域,服务器发生故障时,往往需要运维人员人工定位故障并通知服务器负责人,待服务器负责人手工隔离业务应用后,运维人员开始预约厂商维修,关机维修完毕后,运维人员登录服务器确认服务是否恢复,若恢复再通知服务器负责人启动应用,存在的问题是:服务器的故障修复流程均需人工操作,无法满足企业级服务器集群对维修效率的要求,维修流程耗时久且人工操作容易出错。金融科技领域中的机构,如银行、保险或理财机构对服务器的要求更高,现有的服务器故障处理方式远不能满足需求。
本实施例中,若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;具体地,检测目标服务器的硬件是否存在故障,若检测出目标服务器具体的硬件故障,判断该目标服务器是否满足自动隔离条件,服务器的硬件故障可能会直接影响该服务器的正常运行,也可能是作为一种故障隐患存在,作为一种实施方式,本实施例预设的隔离条件可以是该目标服务器的硬件故障直接影响其正常运行,即该目标服务器处于非正常运行状态,此时目标服务器中没有正常运行的任务实例,对该目标服务器进行业务隔离操作不会对任务的执行造成影响。
步骤S200,若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
若判断出该目标服务器满足预设的隔离条件,例如,该目标服务器处于非正常运行状态,则对该目标服务器的业务进程进行自动隔离,其中,自动隔离具体是通过停止向外发布目标服务器的地址来实现该目标服务器的业务进程隔离的。
步骤S300,发送针对所述目标服务器的维修需求至维修节点;
在将目标服务器的业务进程全部隔离后,对目标服务器执行关机操作,并发送针对所述目标服务器的维修需求至维修节点,本实施例中,作为一种实施方式,发送针对所述目标服务器的维修需求至维修节点具体是发送该目标服务器的故障信息至服务器厂商,并生成机房进出审批信息至机房管理,用于允许厂商维修工程师的进入维修。
步骤S400,在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
服务器厂商在接收到针对目标服务器的维修需求后,即会安排维修工程师上门维修,在维修工程师对该目标服务器维修完成后,本实施例对该目标服务器的带内及带外系统进行检查,如检查系统时钟、硬盘、内存等状态是否正常,检查通过后,恢复所述目标服务器的所述业务进程,本实施例所述预设的恢复条件即为维修完成的目标服务器通过带内及带外系统的检查。
本实施例若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;发送针对所述目标服务器的维修需求至维修节点;在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程;由此,实现了在目标服务器故障且该目标服务器满足隔离条件时,自动将目标服务器的业务进程隔离,在维修完毕后自动恢复目标服务器被隔离的业务进程,无需服务器负责人手工隔离业务进程、手动恢复业务进程,减少了维修流程耗时,避免了人工操作带来的操作误差,提升了维修效率。
进一步地,提出本发明服务器故障处理方法第二实施例。
参照图3,图3为本发明服务器故障处理方法第二实施例的流程示意图,基于上述服务器故障处理方法第一实施例,本实施例中,步骤S100,若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件的步骤包括:
步骤S101,若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
步骤S102,根据所述配置信息,判断所述目标服务器是否为正常运行状态;
本实施例中,具体地,根据目标服务器带内系统上报的系统日志以及目标服务器带外系统中厂商上报的服务器参数来确定目标服务器是否存在故障,若系统日志或厂商上报的服务器参数存在异常,则确定该目标服务器存在故障;在检测到目标服务器的硬件存在故障后,从CMDB(Configuration Management Database,配置管理数据库)中获取该目标服务器的详细配置信息,如:服务器归属的业务运维、运行状态、归属机房、机架、厂商、服务器部署的系统等信息,根据获取到的配置信息,判断该目标服务器是否为正常运行状态。其中,所述根据所述配置信息,判断所述目标服务器是否为正常运行状态,是根据所述配置信息,利用探测模块判断所述目标服务器是否为正常运行状态,具体地:先对目标服务器进行ping包探测,如果无法ping通即目标服务器的运行状态不正常,正常ping通再利用事先写好的脚本检查业务进程存活及CPU、IO读写状态,若这些都正常即判断该目标服务器为正常运行状态,否则为非正常运行状态。
进一步地,步骤S200,若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离的步骤包括:
步骤S201,若所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离;
在本实施例中,若判断出该目标服务器不是正常运行状态,则基于消息队列停止向外发布该目标服务器的地址,由此将该目标服务器的业务进程自动隔离,自动隔离完成后再将该目标服务器关机,发送针对所述目标服务器的维修需求至维修节点,即进入本发明上述第一实施例的步骤。
现有技术中,当存在故障服务器时,需要运维人员人工定位故障服务器,再人工登录CMDB查找该故障服务器的相关详细信息用以联络服务器负责人,进行维修确认沟通,增加了运维工作的工作量及运维流程耗时。
本实施例根据目标服务器带内系统上报的系统日志以及目标服务器带外系统中厂商上报的服务器参数确定目标服务器故障后,从配置管理数据库中获取该目标服务器的配置信息,根据所述配置信息,判断出所述目标服务器不是正常运行状态,则自动将所述目标服务器的业务进程进行隔离及关机,进入下一步的自动报修;本实施例通过消息队列停止对外发布该目标服务器的地址用以隔离该目标服务器,避免了由于服务器故障无法登录造成的无法操作业务进程隔离的问题,也避免了人工隔离业务进程存在的操作不规范的问题,本实施例同时也减少了现有维修流程中工作人员的沟通耗时及运维工作量,提升了运维效率。
进一步地,提出本发明服务器故障处理方法第三实施例。
参照图4,图4为本发明服务器故障处理方法第三实施例的流程示意图,基于上述服务器故障处理方法第二实施例,本实施例中,步骤S102,根据所述配置信息,判断所述目标服务器是否为正常运行状态的步骤之后还包括:
步骤S202,若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
在本实施例中,若服务器的硬件故障是作为一种故障隐患存在,即该故障不会影响目标服务器当前的运行状态,目标服务器仍然是正常运行状态,则判断该目标服务器的业务进程对应的任务是否为多实例任务,在分布式架构中,同一个任务可能会生成多个任务实例,这些任务实例会被分配给若干个节点即服务器来执行,本实施例判断该目标服务器的业务进程对应的任务是否为多实例任务。
步骤S203,若所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离,并进入步骤S300,发送针对所述目标服务器的维修需求至维修节点。
若该目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离;例如,该目标服务器的业务进程对应的任务是由该目标服务器和其它服务器执行,本实施例基于预设条件对所述目标服务器的业务进程进行隔离,具体可以是判断该目标服务器当前是否存在业务推广,可以理解的是,若目标服务器当前存在业务推广,则目标服务器的业务数据流量会较大,若此时将目标服务器的业务进程隔离,则目标服务器的业务数据流量会全部转移至所述的其它服务器,有可能会造成其它服务器过载故障,因此,本实施例若检测到目标服务器当前存在业务推广,则根据实际的推广情况设置时间阈值,如等待推广结束或者等待由于业务推广带来的业务数据流量减少时,再将目标服务器的业务数据流量转移至其它服务器,并对目标服务器的业务进程进行隔离,可以理解的是,在本实施例中,预设条件即为目标服务器当前不存在业务推广,则对目标服务器的业务进程进行隔离,需要说明的是,在其它实施例中,预设条件也可根据实际的任务情况做具体设定,本实施例在此不做具体限制。
进一步地,步骤S202,若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务的步骤之后还包括:
步骤S204,若所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离,并进入步骤S300,发送针对所述目标服务器的维修需求至维修节点。
若所述目标服务器的业务进程对应的任务不是多实例任务,即为单实例任务,则将目标服务器当前运行的任务实例部署至预留服务器,不影响任务的执行,并在部署完成后,对目标服务器执行本实施例上述的预设条件判断,并在目标服务器当前不存在业务推广时,将目标服务器的业务进程进行隔离及关机操作,发送针对所述目标服务器的维修需求至维修节点,即进入本发明上述第二实施例的步骤。
本实施例实现了目标服务器的故障发现定位、业务隔离、关机待修、修后恢复,整个维修流程实现了全自动化,服务器负责人无感知,极大限度地提升了运维效率。
进一步地,提出本发明服务器故障处理方法第四实施例。
参照图5,图5为本发明服务器故障处理方法第四实施例的流程示意图,基于上述服务器故障处理方法第一实施例,本实施例中,步骤S300,发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
步骤S500,对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
在将目标服务器的业务进程隔离后,对隔离结果进行复核,以确认进程全部停止或确认目标服务器不在服务状态,再对目标服务器执行关机操作,避免了仅由服务器负责人单人进行业务隔离操作,若隔离不完全造成的损坏服务器的风险。
进一步地,提出本发明服务器故障处理方法第五实施例。
参照图6,图6为本发明服务器故障处理方法第五实施例的流程示意图,基于上述服务器故障处理方法第一实施例,本实施例中,步骤S300,发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
步骤S600,在配置管理数据库中对所述目标服务器添加异常告警标签。
修改CMDB中该目标服务器的状态用以异常告警,如对该目标服务器添加“维修中”的标签,由此,避免发布、服务器分配等操作时对该目标服务器的误操作造成的安全风险问题。
进一步地,本实施例中,步骤S400,在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程的步骤包括:
步骤S401,在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
步骤S402,若检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
步骤S403,恢复所述目标服务器的所述业务进程。
在服务器厂商维修工程师上门维修完成后,即进入修复检查流程,检测所述目标服务器的故障是否被修复;具体地,对目标服务器带内及带外系统进行检查,检查是否有报错日志、检查系统时钟、硬盘、内存等状态是否存在异常,若修复检查通过,将目标服务器在配置管理数据库中的告警标签撤销,恢复所述目标服务器的所述业务进程,由此,避免了内存、硬盘、处理器、系统时钟同步等由人工逐一检查造成的耗时过长且容易遗漏的问题,本实施例实现维修结果检查的自动化,避免了人工检查遗漏某个细节造成的风险隐患。
进一步地,提出本发明服务器故障处理方法第六实施例。
参照图7,图7为本发明服务器故障处理方法第六实施例的流程示意图,基于上述服务器故障处理方法第五实施例,本实施例中,步骤S403,恢复所述目标服务器的所述业务进程的步骤之后还包括:
步骤S404,检测所述目标服务器的业务进程是否部署至预留服务器;
步骤S405,若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
本实施例中,目标服务器的业务进程恢复后,探测业务是否恢复正常,正常即判断是否在预留服务器中部署有业务,若存在部署,则对预留服务器中的部署业务进行清理,完成对目标服务器的维修,确保业务的正常执行。
进一步地,提出本发明服务器故障处理方法第七实施例。
参照图8,图8为本发明服务器故障处理方法第七实施例的流程示意图,基于上述服务器故障处理方法第五实施例,本实施例中,步骤S403,恢复所述目标服务器的所述业务进程的步骤之后还包括:
步骤S406,生成与所述目标服务器对应的维修操作日志;
步骤S407,基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
本实施例中,在维修完成,恢复目标服务器的业务进程后,生成与所述目标服务器对应的维修操作日志,维修操作日志中记录了维修该目标服务器的详细过程以供调用,在企业级的服务器集群中,随着维修的服务器数量的增加,维修操作日志可以极大方便运维人员、服务器负责人随时跟进维修进展及查找维修记录。
基于修操作日志中的维修数据,运维人员、服务器负责人可以根据实际需求,调取数据进行定期的多维度的故障率分析,以便快速发现集中的故障现象、各型号服务器故障趋势变化等,从而可以规避风险,自动记录的维修数据还可用于后期故障率数据的统计分析,本实施例减少了维修流程耗时,避免了人工操作带来的操作误差,提升了维修效率。
此外,本发明实施例还提出一种服务器故障处理装置,所述服务器故障处理装置包括:
第一判断模块,用于若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
第一隔离模块,用于在所述第一判断模块判断出所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
发送模块,用于发送针对所述目标服务器的维修需求至维修节点;
恢复模块,用于在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
优选地,所述第一判断模块包括:
获取单元,用于若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
判断单元,用于根据所述配置信息,判断所述目标服务器是否为正常运行状态;
所述第一隔离模块包括:
隔离单元,用于在所述判断单元判断出所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离。
优选地,所述装置还包括:
第二判断模块,用于在所述判断单元判断出所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
第二隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离。
优选地,所述装置还包括:
第三隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离。
优选地,所述装置还包括:
复核模块,用于对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
优选地,所述装置还包括:
告警模块,用于在配置管理数据库中对所述目标服务器添加异常告警标签。
优选地,所述恢复模块包括:
修复检测单元,用于在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
告警撤销单元,用于在所述修复检测单元检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
恢复单元,用于恢复所述目标服务器的所述业务进程。
优选地,所述装置还包括:
部署检查模块,用于检测所述目标服务器的业务进程是否部署至预留服务器;
清除模块,用于若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
优选地,所述装置还包括:
记录模块,用于生成与所述目标服务器对应的维修操作日志;
分析模块,用于基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
本实施例提出的服务器故障处理装置各个模块运行时实现如上所述的服务器故障处理方法的步骤,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器故障处理程序,所述服务器故障处理程序被处理器执行时实现如上所述的服务器故障处理方法的步骤。
其中,在所述处理器上运行的服务器故障处理程序被执行时所实现的方法可参照本发明服务器故障处理方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (20)

1.一种服务器故障处理方法,其特征在于,所述服务器故障处理方法包括以下步骤:
若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
发送针对所述目标服务器的维修需求至维修节点;
在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
2.如权利要求1所述的服务器故障处理方法,其特征在于,所述若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件的步骤包括:
若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
根据所述配置信息,判断所述目标服务器是否为正常运行状态;
所述若所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离的步骤包括:
若所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离。
3.如权利要求2所述的服务器故障处理方法,其特征在于,所述根据所述配置信息,判断所述目标服务器是否为正常运行状态的步骤之后还包括:
若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
若所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离,并进入步骤:发送针对所述目标服务器的维修需求至维修节点。
4.如权利要求3所述的服务器故障处理方法,其特征在于,所述若所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务的步骤之后还包括:
若所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离,并进入步骤:发送针对所述目标服务器的维修需求至维修节点。
5.如权利要求1-4任一项所述的服务器故障处理方法,其特征在于,所述发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
6.如权利要求1-4任一项所述的服务器故障处理方法,其特征在于,所述发送针对所述目标服务器的维修需求至维修节点的步骤之前还包括:
在配置管理数据库中对所述目标服务器添加异常告警标签。
7.如权利要求6所述的服务器故障处理方法,其特征在于,所述在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程的步骤包括:
在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
若检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
恢复所述目标服务器的所述业务进程。
8.如权利要求7所述的服务器故障处理方法,其特征在于,所述恢复所述目标服务器的所述业务进程的步骤之后还包括:
检测所述目标服务器的业务进程是否部署至预留服务器;
若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
9.如权利要求7所述的服务器故障处理方法,其特征在于,所述恢复所述目标服务器的所述业务进程的步骤之后还包括:
生成与所述目标服务器对应的维修操作日志;
基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
10.一种服务器故障处理装置,其特征在于,所述服务器故障处理装置包括:
第一判断模块,用于若检测出目标服务器故障,判断所述目标服务器是否满足预设的隔离条件;
第一隔离模块,用于在所述第一判断模块判断出所述目标服务器满足所述隔离条件,则对所述目标服务器的业务进程进行隔离;
发送模块,用于发送针对所述目标服务器的维修需求至维修节点;
恢复模块,用于在所述维修节点对所述维修需求完成响应后,基于预设的恢复条件,恢复所述目标服务器的所述业务进程。
11.如权利要求10所述的服务器故障处理装置,其特征在于,所述第一判断模块包括:
获取单元,用于若检测出目标服务器故障,从配置管理数据库中获取所述目标服务器的配置信息;
判断单元,用于根据所述配置信息,判断所述目标服务器是否为正常运行状态;
所述第一隔离模块包括:
隔离单元,用于在所述判断单元判断出所述目标服务器不是正常运行状态,则对所述目标服务器的业务进程进行隔离。
12.如权利要求11所述的服务器故障处理装置,其特征在于,所述装置还包括:
第二判断模块,用于在所述判断单元判断出所述目标服务器是正常运行状态,则判断所述目标服务器的业务进程对应的任务是否为多实例任务;
第二隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务是多实例任务,则基于预设条件对所述目标服务器的业务进程进行隔离。
13.如权利要求12所述的服务器故障处理装置,其特征在于,所述装置还包括:
第三隔离模块,用于在所述第二判断模块判断出所述目标服务器的业务进程对应的任务不是多实例任务,则将所述业务进程部署至预留服务器,并在部署完成后,基于所述预设条件对所述目标服务器的业务进程进行隔离。
14.如权利要求10-13任一项所述的服务器故障处理装置,其特征在于,所述装置还包括:
复核模块,用于对所述业务进程的隔离结果进行复核,并在所述隔离结果复核通过后,将所述目标服务器关闭。
15.如权利要求10-13任一项所述的服务器故障处理装置,其特征在于,所述装置还包括:
告警模块,用于在配置管理数据库中对所述目标服务器添加异常告警标签。
16.如权利要求15所述的服务器故障处理装置,其特征在于,所述恢复模块包括:
修复检测单元,用于在所述维修节点对所述维修需求完成响应后,检测所述目标服务器的故障是否被修复;
告警撤销单元,用于在所述修复检测单元检测到所述目标服务器的故障被修复,将所述配置管理数据库中所述目标服务器的异常告警标签撤销;
恢复单元,用于恢复所述目标服务器的所述业务进程。
17.如权利要求16所述的服务器故障处理装置,其特征在于,所述装置还包括:
部署检查模块,用于检测所述目标服务器的业务进程是否部署至预留服务器;
清除模块,用于若所述目标服务器的业务进程已部署至所述预留服务器,则清除所述预留服务器中部署的与所述目标服务器对应的业务进程。
18.如权利要求16所述的服务器故障处理装置,其特征在于,所述装置还包括:
记录模块,用于生成与所述目标服务器对应的维修操作日志;
分析模块,用于基于所述维修操作日志,输出与所述目标服务器对应的故障分析结果。
19.一种服务器故障处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的服务器故障处理程序,所述服务器故障处理程序被所述处理器执行时实现如权利要求1至9中任一项所述的服务器故障处理方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有服务器故障处理程序,所述服务器故障处理程序被处理器执行时实现如权利要求1至9中任一项所述的服务器故障处理方法的步骤。
CN201910391462.3A 2019-05-10 2019-05-10 服务器故障处理方法、装置、设备及计算机可读存储介质 Pending CN110119325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910391462.3A CN110119325A (zh) 2019-05-10 2019-05-10 服务器故障处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910391462.3A CN110119325A (zh) 2019-05-10 2019-05-10 服务器故障处理方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110119325A true CN110119325A (zh) 2019-08-13

Family

ID=67522188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910391462.3A Pending CN110119325A (zh) 2019-05-10 2019-05-10 服务器故障处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110119325A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691234A (zh) * 2019-09-09 2020-01-14 北京达佳互联信息技术有限公司 故障处理方法、装置、服务器及存储介质
CN112445677A (zh) * 2019-09-04 2021-03-05 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN113726553A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种节点故障恢复方法、装置、电子设备及可读存储介质
CN113988789A (zh) * 2021-10-25 2022-01-28 重庆允成互联网科技有限公司 基于流程自动筛选数据的方法、系统、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354298A (zh) * 2011-07-27 2012-02-15 哈尔滨工业大学 基于staf的高端容错机故障注入自动化测试平台及方法
CN102404139A (zh) * 2011-10-21 2012-04-04 浪潮电子信息产业股份有限公司 一种提高容错服务器应用层级容错性能的方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
US20170116084A1 (en) * 2015-10-26 2017-04-27 Beijing Baidu Netcom Science And Technology, Ltd. Method and System for Monitoring Virtual Machine Cluster
CN107958347A (zh) * 2017-12-18 2018-04-24 金税信息技术服务股份有限公司 一种具有自动报障功能的智能运维管理方法及系统
CN108199901A (zh) * 2018-01-24 2018-06-22 郑州云海信息技术有限公司 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108989113A (zh) * 2018-07-24 2018-12-11 网宿科技股份有限公司 一种服务器的部署方法及管理服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354298A (zh) * 2011-07-27 2012-02-15 哈尔滨工业大学 基于staf的高端容错机故障注入自动化测试平台及方法
CN102404139A (zh) * 2011-10-21 2012-04-04 浪潮电子信息产业股份有限公司 一种提高容错服务器应用层级容错性能的方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和系统
US20170116084A1 (en) * 2015-10-26 2017-04-27 Beijing Baidu Netcom Science And Technology, Ltd. Method and System for Monitoring Virtual Machine Cluster
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
CN107958347A (zh) * 2017-12-18 2018-04-24 金税信息技术服务股份有限公司 一种具有自动报障功能的智能运维管理方法及系统
CN108199901A (zh) * 2018-01-24 2018-06-22 郑州云海信息技术有限公司 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN108989113A (zh) * 2018-07-24 2018-12-11 网宿科技股份有限公司 一种服务器的部署方法及管理服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘晓艳: "服务器的日常维护及紧急恢复方案", 南京广播电视大学学报, no. 04, 10 December 2004 (2004-12-10) *
陈智敏;: "列车自动监控系统服务器的维护", 城市轨道交通研究, no. 09, 15 September 2009 (2009-09-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445677A (zh) * 2019-09-04 2021-03-05 中国石油化工股份有限公司 一种计算机集群的健康状态检查和修复方法及存储介质
CN110691234A (zh) * 2019-09-09 2020-01-14 北京达佳互联信息技术有限公司 故障处理方法、装置、服务器及存储介质
CN110691234B (zh) * 2019-09-09 2021-09-10 北京达佳互联信息技术有限公司 故障处理方法、装置、服务器及存储介质
CN113726553A (zh) * 2021-07-29 2021-11-30 浪潮电子信息产业股份有限公司 一种节点故障恢复方法、装置、电子设备及可读存储介质
CN113988789A (zh) * 2021-10-25 2022-01-28 重庆允成互联网科技有限公司 基于流程自动筛选数据的方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110119325A (zh) 服务器故障处理方法、装置、设备及计算机可读存储介质
CN103607297B (zh) 一种计算机集群系统的故障处理方法
CN101689161B (zh) 自动管理计算机网络中的系统停机时间
JP6095140B2 (ja) 遠隔監視システム、遠隔監視方法、及びプログラム
JP4598065B2 (ja) 監視シミュレーション装置,方法およびそのプログラム
US9858162B2 (en) Creation of a provisioning environment based on probability of events
JP2002108728A (ja) 障害情報の掲載方法およびプロバイダ設備
CN109144789A (zh) 一种重启osd的方法、装置及系统
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
US7730029B2 (en) System and method of fault tolerant reconciliation for control card redundancy
US10540886B2 (en) Network diagnostic tool for testing and commissioning building systems
CN110134053B (zh) 一种配变故障停电快速响应的监控配置方法、装置及设备
JP5198154B2 (ja) 障害監視システム及びデバイスと監視装置並びに障害監視方法
CN110178121A (zh) 一种数据库的检测方法及其终端
CN110971464A (zh) 一种适合灾备中心的运维自动化系统
WO2021114971A1 (zh) 一种检测基于多层架构的应用系统是否正常运行的方法
CN113726553A (zh) 一种节点故障恢复方法、装置、电子设备及可读存储介质
CN113448947B (zh) 一种mongo数据库分布式部署运维的方法和装置
CN105681070A (zh) 一种自动收集计算机集群节点信息并分析的方法及系统
JP2001356929A (ja) 障害自動通報装置および保守拠点システム
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
CN111737130B (zh) 公有云多租户认证服务测试方法、装置、设备及储存介质
JP2010224829A (ja) 運用管理システム
JP2014078067A (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
CN105550094A (zh) 一种高可用系统状态自动监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination