CN109361542B - 客户端的故障处理方法、装置、系统、终端和服务器 - Google Patents

客户端的故障处理方法、装置、系统、终端和服务器 Download PDF

Info

Publication number
CN109361542B
CN109361542B CN201811271395.3A CN201811271395A CN109361542B CN 109361542 B CN109361542 B CN 109361542B CN 201811271395 A CN201811271395 A CN 201811271395A CN 109361542 B CN109361542 B CN 109361542B
Authority
CN
China
Prior art keywords
client
main
fault
heartbeat information
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811271395.3A
Other languages
English (en)
Other versions
CN109361542A (zh
Inventor
龚立航
刘天昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201811271395.3A priority Critical patent/CN109361542B/zh
Publication of CN109361542A publication Critical patent/CN109361542A/zh
Application granted granted Critical
Publication of CN109361542B publication Critical patent/CN109361542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5061Network service management, e.g. ensuring proper service fulfilment according to agreements characterised by the interaction between service providers and their network customers, e.g. customer relationship management
    • H04L41/5074Handling of user complaints or trouble tickets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种客户端的故障处理方法、装置、系统、终端、服务器和存储介质,该方法包括:客户端发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;所述服务器确定客户端的健康状态并在出现故障时确定对应的故障处理策略;所述客户端接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。本发明根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。

Description

客户端的故障处理方法、装置、系统、终端和服务器
技术领域
本发明涉及互联网技术领域,特别是涉及一种客户端的故障处理方法、装置、系统、终端、服务器和存储介质。
背景技术
随着互联网技术的快速发展,出现了基于计算机或者手机等终端的各种客户端,如播放视频的客户端、购物的客户端或者一些管理方面的客户端等等。
目前,客户端大多部署在业务私有的宿主机上,客户端的开发人员和运维人员大多没有访问的权限,所以如果客户端发生故障,需要业务人员参与排障。整个排障过程,需要开发人员、运维人员以及业务人员共同参与,这无疑是增加了业务的负担,浪费了人力成本。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种客户端的故障处理方法、装置、系统、终端、服务器和存储介质。
依据本发明的第一方面,提供了一种客户端的故障处理方法,包括:
客户端发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
所述服务器根据所述心跳信息,确定客户端的健康状态,并在出现故障时获取对应的故障处理策略;
所述客户端接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。
依据本发明的第二方面,提供了一种客户端的故障处理方法,包括:
发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
接收服务器发送的故障处理策略;
根据所述故障处理策略,对所述客户端进行故障处理。
可选的,所述客户端包括主进程和守护进程;所述心跳信息包括主心跳信息和定时心跳信息;所述发送心跳信息给服务器,包括:
所述主进程发送主心跳信息给服务器,以及,所述守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述接收服务器发送的故障处理策略,包括:
主进程和/或守护进程接收服务器发送的故障处理策略。
可选的,所述根据所述故障处理策略,对所述客户端进行故障处理,包括:
根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
可选的,所述对所述主进程和/或守护进程进行处理,包括:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
依据本发明的第三方面,提供了一种客户端的故障处理方法,包括:
接收客户端发送的心跳信息,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略;
将所述故障处理策略发送给所述客户端。
可选的,所述接收客户端发送的心跳信息,包括:
接收所述客户端通过主进程发送的主心跳信息,以及,接收所述客户端通过守护进程定时发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略,包括:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
可选的,将所述故障处理策略反馈给所述客户端,包括:
将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
依据本发明的第四方面,提供了一种客户端的故障处理系统,包括:
客户端,用于发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
服务器,用于根据所述心跳信息,确定客户端的健康状态,并在出现故障时获取对应的故障处理策略;
客户端,还用于接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。
依据本发明的第五方面,提供了一种客户端的故障处理装置,应用于客户端中,包括:
心跳信息发送模块,用于发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
故障处理策略接收模块,用于接收服务器发送的故障处理策略;
故障处理模块,用于根据所述故障处理策略,对所述客户端进行故障处理。
可选的,所述客户端包括主进程和守护进程;所述心跳信息包括主心跳信息和定时心跳信息;所述心跳信息发送模块具体用于:
通过所述主进程发送主心跳信息给服务器,以及,通过所述守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述故障处理策略接收模块具体用于:
通过主进程和/或守护进程接收服务器发送的故障处理策略。
可选的,所述故障处理模块包括:
故障处理单元,用于根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
可选的,所述故障处理单元具体用于:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
依据本发明的第六方面,提供了一种客户端的故障处理装置,应用于服务器中,包括:
心跳信息接收模块,用于接收客户端发送的心跳信息,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
健康状态确定模块,用于根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略;
故障处理策略反馈模块,用于将所述故障处理策略发送给所述客户端。
可选的,所述心跳信息接收模块具体用于:
接收所述客户端通过主进程发送的主心跳信息,以及,接收所述客户端通过守护进程定时发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述健康状态确定模块具体用于:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
可选的,所述故障处理策略反馈模块具体用于:
将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
依据本发明的第七方面,提供了一种终端,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第二方面中所述的客户端的故障处理方法。
依据本发明的第八方面,提供了一种服务器,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第三方面中所述的客户端的故障处理方法。
依据本发明的第九方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第二方面或第三方面中所述的客户端的故障处理方法。
针对在先技术,本发明具备如下优点:
本发明提供的客户端的故障处理方法、装置和系统,通过客户端发送心跳信息给服务器,心跳信息包括客户端状态、客户端版本号和心跳时间戳,服务器根据心跳信息确定客户端的健康状态并在出现故障时确定对应的故障处理策略,客户端接收服务器发送的故障处理策略,对客户端进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
图1是本发明实施例提供的一种客户端的故障处理方法的步骤流程图;
图2是本发明实施例提供的一种客户端的故障处理系统的结构框图;
图3是本发明实施例提供的一种客户端的故障处理方法的步骤流程图;
图4是本发明实施例提供的一种客户端的故障处理方法的步骤流程图;
图5是本发明实施例提供的一种客户端的故障处理方法的步骤流程图;
图6是本发明实施例提供的一种客户端的故障处理方法的步骤流程图;
图7是本发明实施例提供的一种客户端的故障处理装置的结构框图;
图8是本发明实施例提供的一种客户端的故障处理装置的结构框图;
图9是本发明实施例提供的一种终端的结构框图;
图10是本发明实施例提供的一种服务器的结构框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1是本发明实施例提供的一种客户端的故障处理方法的步骤流程图,如图1所示,该方法可以包括:
步骤101,客户端发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳。
步骤102,所述服务器根据所述心跳信息,确定客户端的健康状态,并在出现故障时获取对应的故障处理策略。
步骤103,所述客户端接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。
本实施例提供的客户端的故障处理方法,通过客户端发送心跳信息给服务器,心跳信息包括客户端状态、客户端版本号和心跳时间戳,服务器根据心跳信息确定客户端的健康状态并在出现故障时确定对应的故障处理策略,客户端接收服务器发送的故障处理策略,对客户端进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
图2是本发明实施例提供的一种客户端的故障处理系统的结构框图。如图2所示,该系统200包括客户端210和服务器220,客户端210发送心跳信息给服务器220,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;服务器220根据所述心跳信息,确定客户端210的健康状态,并在出现故障时获取对应的故障处理策略;客户端210接收服务器220发送的故障处理策略,并根据所述故障处理策略,对客户端210进行故障处理。
可选的,如图2所示,客户端210包括主进程211和守护进程212,主进程211发送主心跳信息给服务器220,服务器220反馈给主进程211相应的故障处理策略,故障处理策略包括主进程211的故障处理策略和/或守护进程212的故障处理策略,主进程211根据故障处理策略,对主进程211和/或守护进程212进行相应的操作。守护进程212定时发送定时心跳信息给服务器220,服务器220反馈给守护进程212相应的故障处理策略,故障处理策略包括主进程211的故障处理策略和/或守护进程212的故障处理策略,守护进程212根据故障处理策略,对主进程211和/或守护进程212进行相应的操作。
本实施例提供的客户端的故障处理系统,通过客户端和服务器的心跳交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
图3是本发明实施例提供的一种客户端的故障处理方法的步骤流程图,该方法可以应用于客户端,如图3所示,该方法可以包括:
步骤301,发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳。
其中,客户端可以是公司中的用于服务的客户端,例如日志采集客户端等等,当然,也可以是其他客户端,这里不做限定。客户端状态可以包括:正在加载客户端配置(LOADING)、正在运行(RUNNING)、正在重启(RESTARTING)、正在升级(UPGRADING)、正在降级(DOWNGRADING)或离线(STOPPED)状态。其中,离线状态是指正在停止运行的过程中。心跳信息是一种发送源发送到接收方的消息,这种消息可以让接收方确定发送源是否出现故障或终止,以及发送源何时出现故障或终止。心跳信息可以从发送源启动时开始发送,直到发送源关闭,期间发送源会不间断的发送周期性消息或重复消息。当接收方在某个消息接收周期内未收到消息,接收方可能会认为发送源已经关闭、出现故障、或者当前不可用。
客户端发送心跳信息给服务器,服务器根据接收到的心跳信息,判断客户端的健康状态,如判断客户端是否出现需要进行升级、降级或者重启等可以解决的故障,如果确定客户端出现故障,则确定对应的故障处理策略并反馈给客户端。示例性的,服务器判断客户端是否出现故障时,可以根据客户端版本号判断客户端是否需要进行升级或者降级,根据心跳时间戳判断客户端是否需要进行重启。
步骤302,接收服务器发送的故障处理策略。
客户端发送心跳信息给服务器后,服务器会反馈响应信息给客户端,在服务器判断客户端出现故障时,会在反馈给客户端的响应信息中包括故障处理策略。也有可能在服务器长时间没有接收到客户端发送的心跳信息时确定客户端出现故障,也可以主动反馈故障处理策略给客户端,这时的故障处理策略可以是进行重启。
步骤303,根据所述故障处理策略,对所述客户端进行故障处理。
其中,故障处理策略可以包括进行升级、进行降级或者进行重启等。
客户端接收到服务器反馈的故障处理策略后,根据故障处理策略,对客户端进行故障处理,如进行升级、降级或者重启等。
本实施例提供的客户端的故障处理方法,通过发送心跳信息给服务器,心跳信息包括客户端状态、客户端版本号和心跳时间戳,以请求服务器确定客户端的健康状态并在出现故障时确定对应的故障处理策略,接收服务器发送的故障处理策略,对客户端进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
图4是本发明实施例提供的一种客户端的故障处理方法的步骤流程图,本实施例在上述实施例的基础上,提供了一种可行的实施方案,所述客户端包括主进程和守护进程,所述心跳信息包括主心跳信息和定时心跳信息,通过主进程和守护进程共同来发送心跳信息给服务器,并可选通过主进程和/或守护进程接收服务器反馈的故障处理策略,如图4所示,该方法可以包括:
步骤401,主进程发送主心跳信息给服务器,以及,守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
其中,主进程是客户端的主进程,用于维护客户端的运行。守护进程用于执行定时任务,即定时发送定时心跳信息给服务器。主心跳信息是主进程发送的心跳信息,定时心跳信息是守护进程发送的心跳信息。主心跳信息的发送周期相对定时心跳信息的发送周期较短,如主心跳信息每隔30秒发送一次,定时心跳信息每隔一分钟发送一次。
主心跳信息中的客户端状态、客户端版本号和主心跳时间戳是指发送主心跳信息的当前时刻的客户端状态、客户端版本号和主心跳时间戳。定时心跳信息中的客户端状态、客户端版本号和定时心跳时间戳是指发送定时心跳信息的当前时刻的客户端状态、客户端版本号和定时心跳时间戳。
通过主进程按照主心跳信息的发送周期发送主心跳信息给服务器,除了主进程发送主心跳信息给服务器外,为了避免主进程故障时无法发送主心跳信息及接收对应的故障处理策略,在一种可行的实施方案中,还可以同时维护一个守护进程,通过守护进程定时发送定时心跳信息给服务器,便于服务器及时发现客户端的故障并反馈对应的故障处理策略。
步骤402,主进程和/或守护进程接收服务器发送的故障处理策略。
在主进程发送主心跳信息给服务器时,服务器根据主心跳信息确定客户端出现故障时,主进程接收服务器反馈的故障处理策略。在守护进程发送定时心跳信息给服务器时,服务器根据定时心跳信息确定客户端出现故障时,守护进程接收服务器反馈的故障处理策略。当主进程和守护进程同时分别发送主心跳信息和定时心跳信息给服务器时,服务器分别根据主心跳信息和定时心跳信息均确定客户端出现故障时,可以由主进程和守护进程同时接收服务器反馈的故障处理策略。
步骤403,根据所述故障处理策略,对所述客户端进行故障处理。
可选的,所述根据所述故障处理策略,对所述客户端进行故障处理,包括:
根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
其中,故障处理策略是针对主进程和/或守护进程的处理策略。
根据故障处理策略,对主进程和/或守护进程进行处理后,可以使得客户端达到自愈的效果。示例性的,故障处理策略可以是只针对主进程的故障处理策略,也可以是只针对守护进程的故障处理策略,在服务器确定主进程和守护进程均存在故障时,则故障处理策略包括对主进程的故障处理策略和对守护进程的故障处理策略。
可选的,所述对所述主进程和/或守护进程进行处理,包括:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
例如,当服务器接收到主进程发送的主心跳信息时,需要根据该主心跳信息及接收到该主心跳信息之前接收到的定时心跳信息,共同来确定客户端是否出现故障,并确定对应主进程和/或守护进程的故障处理策略,反馈给客户端的主进程。
或者,又例如,当服务器接收到守护进程发送的定时心跳信息时,需要根据该定时心跳信息及接收到该定时心跳信息之前接收到的主心跳信息,共同来确定客户端是否出现故障,并确定对应的主进程和/或守护进程的故障处理策略,反馈给客户端的守护进程。
或者,又例如,当服务器同时接收到主进程发送的主心跳信息和守护进程发送的定时心跳信息时,确定守护进程没有故障,可以分别根据主心跳信息和定时心跳信息中的客户端状态和客户端版本号确定主进程是否存在需要处理的故障。
当服务器接收到主进程发送的主心跳信息时,根据主心跳信息中的客户端版本号确定客户端版本号小于当前设定版本号时,确定主进程需要进行升级操作,反馈给主进程的故障处理策略为对主进程进行升级操作。
或者,当服务器根据主进程发送的主心跳信息确定客户端版本号大于当前设定版本号时,反馈给主进程的故障处理策略为对主进程进行升级操作;当服务器根据主进程发送的主心跳信息,确定客户端版本号等于当前设定版本号且客户端状态为正在运行状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第一预设时间时,确定主进程需要进行重启操作,反馈给主进程的故障处理策略为对主进程进行重启操作。
或者,当服务器根据主进程发送的主心跳信息,确定客户端版本号等于当前设定版本号且客户端状态为正在运行状态外的其他状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第二预设时间时,确定主进程需要进行重启操作,反馈给主进程的故障处理策略为对主进程进行重启操作。
或者,又例如,同时在前述根据主心跳信息确定对应的故障处理策略时,还需根据之前的定时心跳信息中的定时心跳时间戳确定是否需要对守护进程进行处理,如果确定当前时间与定时心跳时间戳之差大于第三预设时间时,确定守护进程需要进行重启操作,反馈给主进程的故障处理策略还包括对守护进程进行重启操作,反之,如果确定当前时间与定时心跳时间戳之差小于或等于第三预设时间,则确定守护进程无需进行操作。其中,第二预设时间大于第一预设时间,如第一预设时间可以为5分钟,第二预设时间可以为30分钟,第三预设时间可以与第一预设时间相等,也可以不相等,两者相差可以不超过一分钟。
当服务器接收到守护进程发送的定时心跳信息时,根据定时心跳信息中的客户端版本号确定客户端版本号小于当前设定版本号时,确定主进程需要进行升级操作,反馈给守护进程的故障处理策略为对主进程进行升级操作。
或者,当服务器根据守护进程发送的定时心跳信息确定客户端版本号大于当前设定版本号时,反馈给守护进程的故障处理策略为对主进程进行降级操作。
或者,当服务器接收到守护进程发送的定时心跳信息时,如果定时心跳信息中的客户端版本号等于当前设定版本号,还需获取之前接收到的主心跳信息,根据主心跳信息确定是否需要对主进程进行重启操作,当服务器根据该主心跳信息,确定客户端状态为正在运行状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第一预设时间时,确定主进程需要进行重启操作,反馈给守护进程的故障处理策略为对主进程进行重启操作。
或者,当服务器根据主心跳信息,确定客户端状态为正在运行状态外的其他状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第二预设时间时,确定主进程需要进行重启操作,反馈给守护进程的故障处理策略为对主进程进行重启操作;同时在前述确定对应的故障处理策略时,还需根据该定时心跳信息中的定时心跳时间戳确定是否需要对守护进程进行处理,如果确定当前时间与定时心跳时间戳之差大于第三预设时间,则确定守护进程需要进行重启操作,反馈给守护进程的故障处理策略还包括对守护进程进行重启操作,反之,如果确定当前时间与定时心跳时间戳之差小于或等于第三预设时间,则确定守护进程无需进行操作。
本实施例提供的客户端的故障处理方法,通过主进程和守护进程组成双保险机制,分别与服务器进行心跳通信,服务器通过心跳信息确定主进程和守护进程的健康状态,进行相应的操作反馈,使得主进程和守护进程可以从一些故障中恢复,达到自愈的效果,可以降低恢复发生故障客户端时所需的开发人员、运维人员以及业务人员的人力成本,提高了客户端的故障处理效率,节省了客户端的故障处理时间。
图5是本发明实施例提供的一种客户端的故障处理方法的步骤流程图,该方法可以应用于服务器,如图5所示,该方法可以包括:
步骤501,接收客户端发送的心跳信息,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳。
其中,客户端可以是公司中的用于服务的客户端,例如日志采集客户端等等,当然,也可以是其他客户端,这里不做限定。客户端状态可以包括:正在加载客户端配置(LOADING)、正在运行(RUNNING)、正在重启(RESTARTING)、正在升级(UPGRADING)、正在降级(DOWNGRADING)或离线(STOPPED)状态。其中,离线状态是指正在停止运行的过程中。心跳信息是一种发送源发送到接收方的消息,这种消息可以让接收方确定发送源是否以及何时出现故障或终止。心跳信息可以从发送源启动时开始发送,直到发送源关闭,期间发送源会不间断的发送周期性或重复消息。当接收方在某个消息接收周期内未收到消息,接收方可能会认为发送源已经关闭、出现故障、或者当前不可用。
步骤502,根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略。
服务器接收到客户端发送的心跳信息后,根据接收到的心跳信息,判断客户端的健康状态,如判断客户端是否出现需要进行升级、降级或者重启等可以解决的故障,如果确定客户端出现故障,则确定对应的故障处理策略并反馈给客户端。示例性的,服务器判断客户端是否出现故障时,可以根据客户端版本号判断客户端是否需要进行升级或者降级,根据心跳时间戳判断客户端是否需要进行重启等。
步骤503,将所述故障处理策略发送给所述客户端。
其中,故障处理策略可以包括进行升级、进行降级或者进行重启等。
在确定客户端出现故障时,反馈给客户端的故障处理策略可以作为心跳信息的响应信息,客户端接收到服务器反馈的故障处理策略后,根据故障处理策略,对客户端进行故障处理,如进行升级、降级或者重启等。在确定客户端处于健康状态时,可以只发送收到心跳信息的响应信息给客户端。
本实施例提供的客户端的故障处理方法,通过接收客户端发送的心跳信息,心跳信息包括客户端状态、客户端版本号和心跳时间戳,根据心跳信息确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略,并反馈给客户端,客户端可以根据故障处理策略进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
图6是本发明实施例提供的一种客户端的故障处理方法的步骤流程图,本实施例在上述实施例的基础上,可以接收客户端通过主进程发送的主心跳信息,及通过守护进程发送的定时心跳信息,并可选将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
如图2所示,客户端的故障处理系统包括服务器和客户端,客户端包括主进程和守护进程。主进程发送主心跳信息给服务器,服务器反馈给主进程相应的故障处理策略,故障处理策略包括主进程的故障处理策略和/或守护进程的故障处理策略,主进程根据故障处理策略,对主进程和/或守护进程进行相应的操作。守护进程定时发送定时心跳信息给服务器,服务器反馈给守护进程相应的故障处理策略,故障处理策略包括主进程的故障处理策略和/或守护进程的故障处理策略,守护进程根据故障处理策略,对主进程和/或守护进程进行相应的操作。
如图6所示,该客户端的故障处理方法可以包括:
步骤601,服务器接收客户端通过主进程发送的主心跳信息,及接收客户端通过守护进程定时发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
其中,主进程是客户端的主进程,用于维护客户端的运行。守护进程用于执行定时任务,即定时发送定时心跳信息给服务器。主心跳信息是主进程发送的心跳信息,定时心跳信息是守护进程发送的心跳信息。主心跳信息的发送周期相对定时心跳信息的发送周期较短,如主心跳信息每隔30秒发送一次,定时心跳信息每隔一分钟发送一次。
主心跳信息中的客户端状态、客户端版本号和主心跳时间戳是指客户端中的主进程发送主心跳信息的当前时刻的客户端状态、客户端版本号和主心跳时间戳。定时心跳信息中的客户端状态、客户端版本号和定时心跳时间戳是指客户端中的守护进程发送定时心跳信息的当前时刻的客户端状态、客户端版本号和定时心跳时间戳。
服务器可以接收客户端通过主进程按照主心跳信息的发送周期发送的主心跳信息,除了接收客户端的主进程发送的主心跳信息外,为了避免主进程故障时无法发送主心跳信息及接收对应的故障处理策略,客户端中还可以维护一个守护进程,通过守护进程定时发送定时心跳信息给服务器,服务器接收客户端通过守护进程定时发送的定时心跳信息,便于及时发现客户端的故障并反馈对应的故障处理策略。
步骤602,服务器根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略。
服务器在接收到客户端的主进程发送的主心跳信息后,根据主心跳信息确定主进程是否存在故障,并确定守护进程是否存在故障,在确定守护进程是否存在故障时,如果接收到主心跳信息时,没有接收到客户端的守护进程发送的定时心跳信息,可以根据接收到该主心跳信息之前接收到的定时心跳信息中的定时心跳时间戳与当前时间进行对比来确定。服务器在接收到客户端的守护进程发送的定时心跳信息后,根据定时心跳信息确定主进程和守护进程是否存在故障。
可选的,所述根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略,包括:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
当服务器接收到主进程发送的主心跳信息时,根据主心跳信息中的客户端版本号确定客户端版本号小于当前设定版本号时,确定主进程需要进行升级操作,反馈给主进程的故障处理策略为对主进程进行升级操作;当服务器根据主进程发送的主心跳信息确定客户端版本号大于当前设定版本号时,反馈给主进程的故障处理策略为对主进程进行升级操作;当服务器根据主进程发送的主心跳信息,确定客户端版本号等于当前设定版本号且客户端状态为正在运行状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第一预设时间时,确定主进程需要进行重启操作,反馈给主进程的故障处理策略为对主进程进行重启操作;当服务器根据主进程发送的主心跳信息,确定客户端版本号等于当前设定版本号且客户端状态为正在运行状态外的其他状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第二预设时间时,确定主进程需要进行重启操作,反馈给主进程的故障处理策略为对主进程进行重启操作;同时在前述根据主心跳信息确定对应的故障处理策略时,还需根据之前的定时心跳信息中的定时心跳时间戳确定是否需要对守护进程进行处理,如果确定当前时间与定时心跳时间戳之差大于第三预设时间时,确定守护进程需要进行重启操作,反馈给主进程的故障处理策略还包括对守护进程进行重启操作,反之,如果确定当前时间与定时心跳时间戳之差小于或等于第三预设时间,则确定守护进程无需进行操作。其中,第二预设时间大于第一预设时间,如第一预设时间可以为5分钟,第二预设时间可以为30分钟,第三预设时间可以与第一预设时间相等,也可以不相等,两者相差可以不超过一分钟。
当服务器接收到守护进程发送的定时心跳信息时,根据定时心跳信息中的客户端版本号确定客户端版本号小于当前设定版本号时,确定主进程需要进行升级操作,反馈给守护进程的故障处理策略为对主进程进行升级操作;当服务器根据守护进程发送的定时心跳信息确定客户端版本号大于当前设定版本号时,反馈给守护进程的故障处理策略为对主进程进行升级操作;当服务器接收到守护进程发送的定时心跳信息时,如果定时心跳信息中的客户端版本号等于当前设定版本号,还需获取之前接收到的主心跳信息,根据主心跳信息确定是否需要对主进程进行重启操作,当服务器根据该主心跳信息,确定客户端状态为正在运行状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第一预设时间时,确定主进程需要进行重启操作,反馈给守护进程的故障处理策略为对主进程进行重启操作;当服务器根据主心跳信息,确定客户端状态为正在运行状态外的其他状态,且当前时间与主心跳信息中的主心跳时间戳之差大于第二预设时间时,确定主进程需要进行重启操作,反馈给守护进程的故障处理策略为对主进程进行重启操作;同时在前述确定对应的故障处理策略时,还需根据该定时心跳信息中的定时心跳时间戳确定是否需要对守护进程进行处理,如果确定当前时间与定时心跳时间戳之差大于第三预设时间,则确定守护进程需要进行重启操作,反馈给守护进程的故障处理策略还包括对守护进程进行重启操作,反之,如果确定当前时间与定时心跳时间戳之差小于或等于第三预设时间,则确定守护进程无需进行操作。
步骤603,服务器将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
在接收到客户端的主进程发送的主心跳信息确定对应的故障处理策略时,将故障处理策略反馈给客户端的主进程。在接收到客户端的守护进程发送的定时心跳信息确定对应的故障处理策略时,将故障处理策略反馈给客户端的守护进程。当服务器同时接收到主进程和守护进程同时分别发送的主心跳信息和定时心跳信息时,服务器分别根据主心跳信息和定时心跳信息均确定客户端出现相同的故障时,可以同时将故障处理策略反馈给客户端的主进程和守护进程。
本实施例提供的客户端的故障处理方法,通过客户端主进程和守护进程组成双保险机制,分别与服务器进行心跳通信,服务器通过心跳信息确定主进程和守护进程的健康状态,进行相应的操作反馈,使得主进程和守护进程可以从一些故障中恢复,达到自愈的效果,可以降低恢复发生故障客户端时所需的开发人员、运维人员以及业务人员的人力成本,提高了客户端的故障处理效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图7是本发明实施例提供的一种客户端的故障处理装置的结构框图,该客户端的故障处理装置可以应用于客户端中,如图7所示,该客户端的故障处理装置700可以包括:
心跳信息发送模块701,用于发送心跳信息给服务器,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
故障处理策略接收模块702,用于接收服务器发送的故障处理策略;
故障处理模块703,用于根据所述故障处理策略,对所述客户端进行故障处理。
可选的,所述客户端包括主进程和守护进程;所述心跳信息包括主心跳信息和定时心跳信息;所述心跳信息发送模块具体用于:
通过所述主进程发送主心跳信息给服务器,以及,通过所述守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述故障处理策略接收模块具体用于:
通过主进程和/或守护进程接收服务器发送的故障处理策略。
可选的,所述故障处理模块包括:
故障处理单元,用于根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
可选的,所述故障处理单元具体用于:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
本实施例提供的客户端的故障处理装置,通过心跳信息发送模块发送心跳信息给服务器,心跳信息包括客户端状态、客户端版本号和心跳时间戳,以请求服务器确定客户端的健康状态并在出现故障时确定对应的故障处理策略,故障处理策略接收模块接收服务器反馈的故障处理策略,故障处理模块对客户端进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
图8是本发明实施例提供的一种客户端的故障处理装置的结构框图,该客户端的故障处理装置可以应用于服务器中,如图8所示,该客户端的故障处理装置800可以包括:
心跳信息接收模块801,用于接收客户端发送的心跳信息,所述心跳信息包括客户端状态、客户端版本号和心跳时间戳;
健康状态确定模块802,用于根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略;
故障处理策略反馈模块803,用于将所述故障处理策略发送给所述客户端。
可选的,所述心跳信息接收模块具体用于:
接收所述客户端通过主进程发送的主心跳信息,以及,接收所述客户端通过守护进程定时发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳。
可选的,所述健康状态确定模块具体用于:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
可选的,所述故障处理策略反馈模块具体用于:
将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
本实施例提供的客户端的故障处理装置,通过心跳信息接收模块接收客户端发送的心跳信息,心跳信息包括客户端状态、客户端版本号和心跳时间戳,健康状态确定模块根据心跳信息确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略,故障处理策略反馈模块将故障处理策略反馈给客户端,客户端可以根据故障处理策略进行故障处理,从而根据心跳信息的交互,服务器可以自动感知客户端的故障并给出对应的故障处理策略,客户端根据服务器的反馈进行相应的故障自愈处理,而且排障过程中不需要过多的人员,节省了人力成本,提高了客户端的故障处理效率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图9是本发明实施例提供的一种终端的结构框图,如图9所示,该终端900可以包括与一个或多个数据存储工具连接的处理器901,该数据存储工具可以包括内存单元902和存储介质903。终端900还可以包括输入接口904和输出接口905,用于与另一装置或系统进行通信。被处理器901的CPU执行的程序代码可存储在内存单元902或存储介质903中。
终端900中的处理器901调用存储在内存单元902或存储介质903的程序代码,以执行上述实施例中的客户端的故障处理方法。
图10为本发明实施例提供的一种服务器的结构框图。如图10所示,该服务器1000可以包括与一个或多个数据存储工具连接的处理器1001,该数据存储工具可以包括内存单元1002和存储介质1003。服务器1000还可以包括输入接口1004和输出接口1005,用于与另一装置或系统进行通信。被处理器1001的CPU执行的程序代码可存储在内存单元1002或存储介质1004中。
服务器1000中的处理器1001调用存储在内存单元1002或存储介质1003的程序代码,以执行上述实施例中的客户端的故障处理方法。
上述实施例中,存储介质可以是只读存储器(Read-Only Memory,ROM),或是可读写的,例如硬盘、闪存。内存单元可为随机存取存储器(Random Access Memory,RAM)。内存单元可与处理器物理集成或集成在存储器中或构建为单独的单元。
处理器为上述设备(该设备为上述终端或者上述服务器)的控制中心,并提供处理装置,用于执行指令,进行中断操作,提供计时功能以及多种其他功能。可选地,处理器包括一个或多个中央处理单元(CPU),例如图9或图10中示出的CPU 0和CPU 1。上述设备中包括一个或者多个的处理器。处理器可为单核(单CPU)处理器或多核(多CPU)处理器。除非另有声明,描述为用于执行任务的例如处理器或存储器的部件可实现为通用部件,其暂时用于在给定时间执行任务,或实现为专门制造用于执行该任务的特定部件。此处所用的术语“处理器”指一个或多个装置,电路和/或处理核,用于处理数据,例如计算机程序指令。
被处理器的CPU执行的程序代码可存储在内存单元或存储介质中。可选地,存储在存储介质中的程序代码可以被复制入内存单元以便处理器的CPU执行。处理器可执行至少一个内核(例如LINUXTM、UNIXTM、WINDOWSTM、ANDROIDTM、IOSTM),众所周知,该内核用于通过控制其他程序或过程的执行、控制与外围装置的通信以及控制计算机设备资源的使用来控制上述设备的操作。
上述设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
根据本发明的一个实施例,还提供了一种计算机可读存储介质,存储介质可以是只读存储器,或是可读写的,例如硬盘、闪存。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施例的客户端的故障处理方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种客户端的故障处理方法、装置、系统、终端、服务器和存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (19)

1.一种客户端的故障处理方法,其特征在于,包括:
客户端的主进程发送主心跳信息给服务器,客户端的守护进程发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
所述服务器根据所述主心跳信息和所述定时心跳信息,确定客户端的健康状态,并在出现故障时获取对应的故障处理策略;
所述客户端接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。
2.一种客户端的故障处理方法,其特征在于,包括:
通过主进程发送主心跳信息给服务器,通过守护进程发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
接收服务器发送的故障处理策略;
根据所述故障处理策略,对所述客户端进行故障处理。
3.根据权利要求2所述的方法,其特征在于,所述接收服务器发送的故障处理策略,包括:
主进程和/或守护进程接收服务器发送的故障处理策略。
4.根据权利要求2所述的方法,其特征在于,所述根据所述故障处理策略,对所述客户端进行故障处理,包括:
根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述主进程和/或守护进程进行处理,包括:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
6.一种客户端的故障处理方法,其特征在于,包括:
接收客户端通过主进程发送的主心跳信息,接收客户端通过守护进程发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
根据所述主心跳信息和所述定时心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略;
将所述故障处理策略发送给所述客户端。
7.根据权利要求6所述的方法,其特征在于,所述根据所述心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略,包括:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
8.根据权利要求6所述的方法,其特征在于,将所述故障处理策略发送给所述客户端,包括:
将所述故障处理策略发送给所述客户端的主进程和/或守护进程。
9.一种客户端的故障处理系统,其特征在于,包括:
客户端,用于通过主进程发送主心跳信息给服务器,通过守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
服务器,用于根据所述主心跳信息和所述定时心跳信息,确定客户端的健康状态,并在出现故障时获取对应的故障处理策略;
客户端,还用于接收服务器发送的故障处理策略,并根据所述故障处理策略,对所述客户端进行故障处理。
10.一种客户端的故障处理装置,其特征在于,应用于客户端中,包括:
心跳信息发送模块,用于通过主进程发送主心跳信息给服务器,通过守护进程定时发送定时心跳信息给服务器,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
故障处理策略接收模块,用于接收服务器发送的故障处理策略;
故障处理模块,用于根据所述故障处理策略,对所述客户端进行故障处理。
11.根据权利要求10所述的装置,其特征在于,所述故障处理策略接收模块具体用于:
通过主进程和/或守护进程接收服务器发送的故障处理策略。
12.根据权利要求10所述的装置,其特征在于,所述故障处理模块包括:
故障处理单元,用于根据所述故障处理策略,对所述主进程和/或守护进程进行处理。
13.根据权利要求12所述的装置,其特征在于,所述故障处理单元具体用于:
对所述主进程进行升级操作、降级操作或者重启操作;和/或
对所述守护进程进行重启操作。
14.一种客户端的故障处理装置,其特征在于,应用于服务器中,包括:
心跳信息接收模块,用于接收客户端通过主进程发送的主心跳信息,接收客户端通过守护进程发送的定时心跳信息,所述主心跳信息包括客户端状态、客户端版本号和主心跳时间戳,所述定时心跳信息包括客户端状态、客户端版本号和定时心跳时间戳;
健康状态确定模块,用于根据所述主心跳信息和所述定时心跳信息,确定客户端的健康状态并在客户端出现故障时确定对应的故障处理策略;
故障处理策略反馈模块,用于将所述故障处理策略发送给所述客户端。
15.根据权利要求14所述的装置,其特征在于,所述健康状态确定模块具体用于:
如果所述客户端版本号小于当前设定版本号,则确定故障处理策略为对主进程进行升级操作;
如果所述客户端版本号大于当前设定版本号,则确定故障处理策略为对主进程进行降级操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态,且当前时间与主心跳时间戳之差大于第一预设时间,则确定故障处理策略为对主进程进行重启操作;
如果所述客户端版本号等于当前设定版本号,所述客户端状态为正在运行状态外的其他状态,且当前时间与主心跳时间戳之差大于第二预设时间,则确定故障处理策略为对主进程进行重启操作,所述第二预设时间大于第一预设时间;
如果当前时间与定时心跳时间戳之差大于第三预设时间,则确定故障处理策略为对守护进程进行重启操作。
16.根据权利要求14所述的装置,其特征在于,所述故障处理策略反馈模块具体用于:
将所述故障处理策略反馈给所述客户端的主进程和/或守护进程。
17.一种终端,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求2-5任一项所述的客户端的故障处理方法。
18.一种服务器,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求6-8任一项所述的客户端的故障处理方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求2-5任一项或权利要求6-8任一项所述的客户端的故障处理方法。
CN201811271395.3A 2018-10-29 2018-10-29 客户端的故障处理方法、装置、系统、终端和服务器 Active CN109361542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811271395.3A CN109361542B (zh) 2018-10-29 2018-10-29 客户端的故障处理方法、装置、系统、终端和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811271395.3A CN109361542B (zh) 2018-10-29 2018-10-29 客户端的故障处理方法、装置、系统、终端和服务器

Publications (2)

Publication Number Publication Date
CN109361542A CN109361542A (zh) 2019-02-19
CN109361542B true CN109361542B (zh) 2021-10-15

Family

ID=65347225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811271395.3A Active CN109361542B (zh) 2018-10-29 2018-10-29 客户端的故障处理方法、装置、系统、终端和服务器

Country Status (1)

Country Link
CN (1) CN109361542B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222500A (zh) * 2019-06-14 2019-09-10 深圳前海微众银行股份有限公司 版本管理方法、装置、设备及计算机可读存储介质
CN112114988B (zh) * 2019-06-21 2023-03-31 顺丰科技有限公司 客户端启动方法、装置、终端及存储介质
CN110266549A (zh) * 2019-07-12 2019-09-20 上海纳宇电气有限公司 一种子系统故障监测装置及方法
CN111324482A (zh) * 2020-03-24 2020-06-23 李勉勉 一种计算机应用程序运行数据故障处理系统
CN112905230A (zh) * 2021-03-16 2021-06-04 深圳市麦谷科技有限公司 应用程序的管理方法、装置、终端设备和存储介质
CN113890819A (zh) * 2021-09-29 2022-01-04 杭州迪普科技股份有限公司 故障处理方法、装置及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101282328A (zh) * 2007-04-02 2008-10-08 北京下午茶科技有限公司 互联网内网Web服务的访问方法
CN106959866A (zh) * 2016-01-08 2017-07-18 阿里巴巴集团控股有限公司 一种日志收集客户端及其升级方法
CN107992375A (zh) * 2017-10-30 2018-05-04 努比亚技术有限公司 一种浏览器故障处理方法、终端及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256197A1 (en) * 2007-04-13 2008-10-16 Teamon Systems, Inc. Email system including email aggregation server providing security parameter determination features and related methods
US9742651B2 (en) * 2015-03-05 2017-08-22 International Business Machines Corporation Client-side fault tolerance in a publish-subscribe system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101282328A (zh) * 2007-04-02 2008-10-08 北京下午茶科技有限公司 互联网内网Web服务的访问方法
CN106959866A (zh) * 2016-01-08 2017-07-18 阿里巴巴集团控股有限公司 一种日志收集客户端及其升级方法
CN107992375A (zh) * 2017-10-30 2018-05-04 努比亚技术有限公司 一种浏览器故障处理方法、终端及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
晏东." 一种面向服务器集群的高可用中间框架研究与实现".《中国优秀硕士学位论文全文数据库 信息科技辑》.2014,I138-787. *

Also Published As

Publication number Publication date
CN109361542A (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN109361542B (zh) 客户端的故障处理方法、装置、系统、终端和服务器
US20220179682A1 (en) Task processing method, apparatus, and system based on distributed system
US10152382B2 (en) Method and system for monitoring virtual machine cluster
CN102708018B (zh) 一种异常处理方法及系统、代理设备与控制装置
EP3550436A1 (en) Method and apparatus for detecting and recovering fault of virtual machine
JP2003022258A (ja) サーバーのバックアップシステム
CN108121543B (zh) 一种软件代码编译处理方法及装置
US5905896A (en) Method of changing software version in a computer system comprising a plurality of stations, and a computer system for implementing the method
WO2017028375A1 (zh) 一种版本升级方法及系统
CN111800304A (zh) 进程运行的监测方法、存储介质和虚拟装置
US7434204B1 (en) Method and apparatus for managing software processes
CN104503861A (zh) 一种异常处理方法及系统、代理设备与控制装置
CN110995481A (zh) 配置方法、服务器及计算机可读存储介质
CN111538585A (zh) 一种基于node.js的服务器进程调度方法、系统和装置
CN114554593A (zh) 数据处理方法及装置
CN105824622B (zh) 数据处理方法及电子设备
CN115629785A (zh) 升级方法、电子设备及存储介质
CN114090055A (zh) 应用程序更新方法、装置、终端及存储介质
CN106776119A (zh) 服务实例的重启方法、装置及服务器
CN113515291A (zh) 设备在线升级方法和装置
CN109428936B (zh) App的升级方法、装置、系统、电子设备及存储介质
JP6023898B1 (ja) 情報処理装置及び情報処理方法及び情報処理プログラム
WO2018077088A1 (zh) 一种应用升级方法及装置
CN113504946A (zh) 一种软raid登入os时的镜像功能实现方法及系统
CN115576486A (zh) 虚拟机的扩容方法、装置、终端设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant