CN112367386B - 基于Ignite的自动化运维方法、装置及计算机设备 - Google Patents

基于Ignite的自动化运维方法、装置及计算机设备 Download PDF

Info

Publication number
CN112367386B
CN112367386B CN202011191736.3A CN202011191736A CN112367386B CN 112367386 B CN112367386 B CN 112367386B CN 202011191736 A CN202011191736 A CN 202011191736A CN 112367386 B CN112367386 B CN 112367386B
Authority
CN
China
Prior art keywords
ignite
application instance
heartbeat
node
calculation task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011191736.3A
Other languages
English (en)
Other versions
CN112367386A (zh
Inventor
周毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202011191736.3A priority Critical patent/CN112367386B/zh
Publication of CN112367386A publication Critical patent/CN112367386A/zh
Application granted granted Critical
Publication of CN112367386B publication Critical patent/CN112367386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了基于Ignite的自动化运维方法、装置、计算机设备及存储介质,涉及云部署的分布式部署技术,包括接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;若当前系统时间与上一心跳包发送时间的间隔等于心跳检测周期,接收其他Ignite节点发送的心跳包;将各心跳包与总计算任务清单相比对,得到未发送心跳包的目标应用实例名称清单以将其发送至负载均衡服务器;若未在自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答且当前网络延时值超出第一网络延时阈值,调用自动重启指令以进行重启。该方法实现了当有节点发生故障时处理任务及时转移,而且能作为其他故障节点的备用节点继续处理任务,实现了自动运维。

Description

基于Ignite的自动化运维方法、装置及计算机设备
技术领域
本发明涉及云部署的分布式部署技术领域,尤其涉及一种基于Ignite的自动化运维方法、装置、计算机设备及存储介质。
背景技术
目前,复杂的计算任务一般可以划分为多个子计算任务。在Ignite这一轻量级分布式数据库及计算平台中,负载均衡服务器可以将复杂的计算任务中多个子计算任务分发至多个Ignite节点中进行分布式运算以提高效率。为了保持多个Ignite节点组成的Ignite集群的系统稳定性,通常会用独立的监控服务器监控Ignite集群中每一Ignite节点中的进程是否宕机,由于是单独设置了监控服务器,导致增加了运维成本。而且Ignite集群中若有Ignite节点的进程发生宕机,也无法及时处理故障。
发明内容
本发明实施例提供了一种基于Ignite的自动化运维方法、装置、计算机设备及存储介质,旨在解决现有技术中为了保持多个Ignite节点组成的Ignite集群的系统稳定性,通常会用独立的监控服务器监控Ignite集群中每一Ignite节点中的进程是否宕机,不仅增加了运维成本,而且若有Ignite节点的进程发生宕机,也无法及时处理故障的问题。
第一方面,本发明实施例提供了一种基于Ignite的自动化运维方法,其包括:
若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例;
若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群;
获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单;
将所述目标应用实例名称清单发送至负载均衡服务器;
判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答;
若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值;以及
若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启。
第二方面,本发明实施例提供了一种基于Ignite的自动化运维装置,其包括:
任务接收单元,用于若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例;
心跳包接收单元,用于若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群;
目标清单获取单元,用于获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单;
目标清单发送单元,用于将所述目标应用实例名称清单发送至负载均衡服务器;
应答判断单元,用于判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答;
网络延时值判断单元,用于若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值;以及
重启控制单元,用于若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于Ignite的自动化运维方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于Ignite的自动化运维方法。
本发明实施例提供了一种基于Ignite的自动化运维方法、装置、计算机设备及存储介质,包括若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单;将所述目标应用实例名称清单发送至负载均衡服务器;若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值;若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启。当有节点发生故障时处理任务及时转移,而且能作为其他故障节点的备用节点继续处理计算任务,实现了自动运维。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于Ignite的自动化运维方法的应用场景示意图;
图2为本发明实施例提供的基于Ignite的自动化运维方法的流程示意图;
图3为本发明实施例提供的基于Ignite的自动化运维装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于Ignite的自动化运维方法的应用场景示意图;图2为本发明实施例提供的基于Ignite的自动化运维方法的流程示意图,该基于Ignite的自动化运维方法应用于Ignite节点设备(该Ignite节点设备可以理解为一个具有计算功能的服务器)中,该方法通过安装于Ignite节点设备中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S170。
S110、若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例。
在本实施例中,为了更清楚的理解本申请的技术方案,下面对所涉及的终端进行详细介绍。本申请是在Ignite集群包括的多个Ignite节点中的其中一个节点的角度描述技术方案。
第一是负载均衡服务器,用于向Ignite集群中各Ignite节点分发计算任务。
第二是Ignite集群,其中Ignite集群中包括若干个Ignite节点,每一Ignite节点均接收负载均衡服务器下发的计算任务后进行计算。由于在每一Ignite节点中均缓存了计算任务所需的全部数据,这样每一Ignite节点都可以快速的在本地进行计算后得到计算结果,从而实现并行计算。
在本实施例中,为了对Ignite节点中所用于执行计算任务的应用进程进行实时监控,可以在Ignite节点中嵌入Ignite程序JAR包,无需安装其他程序,即可做到应用进程的监控和重启。具体的,在该Ignite程序JAR包设置应用进程监控脚本和重启脚本,这样实现对应用进程进行实时监控,而且在满足重启条件的情况下还可控制Ignite节点自动重启(例如预设的重启条件是Ignite节点的网络延时值超出预设的网络延时阈值等)。
为了确保Ignite集群中各个Ignite节点都能作为其他Ignite节点的备用节点,也就是若某一Ignite节点发生故障暂时不能进行计算任务的处理时,可以由Ignite集群中的其他Ignite节点来帮助该发生故障的Ignite节点完成计算。
这样需要由负载均衡服务器将总计算任务清单及本地计算任务信息分发至Ignite集群中各个Ignite节点,所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个应用实例。这样,每一个计算任务信息是分发到Ignite集群中其中一个Ignite节点,而不会将同一个计算任务信息分发至多个Ignite节点。而且由于在每一个Ignite节点中均接收了负载均衡服务器下发的总计算任务清单,一旦有一个或多个Ignite节点发生故障无法完成计算任务时,其他的Ignite节点可以根据总计算任务清单获取故障Ignite节点的计算任务信息并接替其再次对本次计算任务进行计算处理。计算任务信息中限定了该计算任务需要调用哪些数据根据哪种具体计算规则进行运算从而得到计算结果。
例如,Ignite集群中包括3个Ignite节点,分别记为Ignite节点A、Ignite节点B、Ignite节点C,本申请在Ignite节点A的角度描述技术方案。也即先在Ignite节点A检测本地的应用实例中是否已嵌入Ignite程序JAR包,若Ignite节点A检测本地的应用实例中已嵌入Ignite程序JAR包,表示Ignite节点A已处于就绪状态,此时可以开始接收负载均衡服务器发送的总计算任务清单及本地计算任务信息,之后根据本地计算任务信息进行计算即可。
更具体的,例如所述总计算任务清单中包括10个计算任务信息,分别记为计算任务信息1至计算任务信息10,且计算任务信息1、计算任务信息2、计算任务信息3分别对应的计算任务是分配至Ignite节点A处理,计算任务信息4、计算任务信息5、计算任务信息6分别对应的计算任务是分配至Ignite节点B处理,计算任务信息7、计算任务信息8、计算任务信息9、计算任务信息10分别对应的计算任务是分配至Ignite节点C处理,则所述总计算任务清单如下表1:
Figure BDA0002752932820000061
表1
Ignite节点A接收到的本地计算任务信息则包括计算任务信息1、计算任务信息2、计算任务信息3。而且在Ignite节点A中是可以根据所述总计算任务清单获知每一Ignite节点的计算任务。这样Ignite节点A、Ignite节点B和Ignite节点C中即使有一个或多个发生故障无法处理计算任务时,未发生故障的Ignite节点可以继续帮助故障节点处理计算任务。
S120、若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群。
在本实施例中,为了确保ignite集群中各ignite节点之间相互保持通讯,ignite节点之间需要定期相互发送心跳包以通知本节点此时处于正常工作状态。而且每一ignite节点是定时发送心跳包至其他ignite节点。例如,在ignite节点A中若当前系统时间与上一心跳包发送时间之间的时间间隔等于所述心跳检测周期,接收其他应用实例发送的心跳包,而且需要在规定的时间内自动应答这些心跳包。
S130、获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单。
在本实施例中,例如当Ignite节点A接收到了其他Ignite节点发送的心跳包分别对应的应用实例名称,由于在Ignite节点A的本地也存储了总计算任务清单(可参考表1),其中总计算任务清单中的每一计算任务信息对应的Ignite节点也是已知的,那么可以实现目标应用实例名称清单的获取。
在一实施例中,步骤S130包括:
获取其他Ignite节点发送的心跳包分别对应的应用实例名称,并获取所述本地计算任务信息对应的应用实例名称,以组成当前有效应用实例名称清单;
获取所述总计算任务清单对应的总应用实例名称清单;
以所述总应用实例名称清单为全集,获取所述当前有效应用实例名称清单对应的补集,以作为未发送心跳包的目标应用实例名称清单。
在本实施例中,通过上述方式,能快速获取未发送心跳包的Ignite节点,这些Ignite节点则是疑似发生故障的Ignite节点,需要进行后续进一步判断。
例如,Ignite节点A接收到了Ignite节点C发送的心跳包,但未接收到Ignite节点B发送的心跳包,此时参考表1可知未发送心跳包的目标应用实例名称清单包括应用实例4、应用实例5和应用实例6。
S140、将所述目标应用实例名称清单发送至负载均衡服务器。
在本实施例中,当在Ignite节点A中获取了目标应用实例名称清单,此时可以将该目标应用实例名称清单发送至负载均衡服务器以通知哪些Ignite节点疑似存在故障。
S150、判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答。
在本实施例中,当在Ignite节点A接收到了其他Ignite节点发送的心跳包后,也需判断其本身是否存在故障,具体就是判断Ignite节点A是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答。
S160、若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值。
在本实施例中,当Ignite节点A未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,表示Ignite节点A本身可能存在故障,此时为了判断是否重启Ignite节点A,需要进一步获取Ignite节点A的当前网络延时值。
S170、若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启。
在本实施例中,若所述当前网络延时值超出所述第一网络延时阈值,表示ignite节点A本身存在网络故障,此时为了尽快的恢复其数据处理能力,需要调用本地已预先设置且存储的自动重启指令,重启后恢复正常后即可重新处理计算任务。
在一实施例中,步骤S150之后还包括:
若在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称;
在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果。
在本实施例中,当Ignite节点A在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,表示Ignite节点A本身是不存在故障的,可以作为帮助故障节点继续处理计算任务的备用节点,此时Ignite节点A接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称。例如,目标应用实例名称清单包括应用实例4、应用实例5和应用实例6;此时负载均衡服务器随机选择到应用实例5作为待处理应用实例名称并发送至Ignite节点A。
Ignite节点A接收到了待处理应用实例名称后,可以根据本地已存储的所述总计算任务清单获取到与待处理应用实例名称对应的计算任务信息,从而可以代替Ignite节点B进行计算任务信息5对应的计算,从而得到计算与所述待处理应用实例名称对应的当前计算结果。
在一实施例中,所述将所述在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果之后,还包括:
判断是否已得到本地计算任务信息的本地计算结果;
若已得到本地计算任务信息的本地计算结果,将节点状态设置为空闲状态;
将空闲状态对应的第一通知信息发送至负载均衡服务器。
在本实施例中,当在Ignite节点A中完成了对本地计算任务信息、及待处理应用实例名称对应的计算任务信息的计算任务并得到计算结果后,此时表示Ignite节点A已处理完当前的所有计算任务,Ignite节点A将节点状态设置为空闲状态并通知负载均衡服务器。这样,负载均衡服务器可以分发新的计算任务信息至Ignite节点A。
在一实施例中,步骤S170之后还包括:
将重启成功状态对应的第二通知信息发送至负载均衡服务器。
在本实施例中,当ignite节点A完成重启后,一般会恢复正常状态,此时为了及时通知负载均衡服务器其已恢复正常并可再次接收计算任务进行处理,可将重启成功状态对应的第二通知信息发送至负载均衡服务器。
在一实施例中,步骤S170之后还包括:
若所述当前网络延时值未超出所述第一网络延时阈值,将生成的当前心跳包发送至其他Ignite节点。
在本实施例中,若所述当前网络延时值未超出所述第一网络延时阈值,表示Ignite节点A只是网速慢,只是会影响心跳包的及时应答。此时在Ignite节点A本地生成的当前心跳包发送至其他Ignite节点,以确保Ignite节点A仍属于非故障节点,而不是作为故障节点处理。
该方法实现了当有节点发生故障时处理任务及时转移,而且能作为其他故障节点的备用节点继续处理计算任务,实现了自动运维。
本发明实施例还提供一种基于Ignite的自动化运维装置,该基于Ignite的自动化运维装置用于执行前述基于Ignite的自动化运维方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于Ignite的自动化运维装置的示意性框图。该基于Ignite的自动化运维装置100可以配置于服务器中。
如图3所示,基于Ignite的自动化运维装置100包括:任务接收单元110、心跳包接收单元120、目标清单获取单元130、目标清单发送单元140、应答判断单元150、网络延时值判断单元160、重启控制单元170。
任务接收单元110,用于若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例。
在本实施例中,为了对Ignite节点中所用于执行计算任务的应用进程进行实时监控,可以在Ignite节点中嵌入Ignite程序JAR包,无需安装其他程序,即可做到应用进程的监控和重启。具体的,在该Ignite程序JAR包设置应用进程监控脚本和重启脚本,这样实现对应用进程进行实时监控,而且在满足重启条件的情况下还可控制Ignite节点自动重启(例如预设的重启条件是Ignite节点的网络延时值超出预设的网络延时阈值等)。
为了确保Ignite集群中各个Ignite节点都能作为其他Ignite节点的备用节点,也就是若某一Ignite节点发生故障暂时不能进行计算任务的处理时,可以由Ignite集群中的其他Ignite节点来帮助该发生故障的Ignite节点完成计算。
这样需要由负载均衡服务器将总计算任务清单及本地计算任务信息分发至Ignite集群中各个Ignite节点,所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个应用实例。这样,每一个计算任务信息是分发到Ignite集群中其中一个Ignite节点,而不会将同一个计算任务信息分发至多个Ignite节点。而且由于在每一个Ignite节点中均接收了负载均衡服务器下发的总计算任务清单,一旦有一个或多个Ignite节点发生故障无法完成计算任务时,其他的Ignite节点可以根据总计算任务清单获取故障Ignite节点的计算任务信息并接替其再次对本次计算任务进行计算处理。计算任务信息中限定了该计算任务需要调用哪些数据根据哪种具体计算规则进行运算从而得到计算结果。
例如,Ignite集群中包括3个Ignite节点,分别记为Ignite节点A、Ignite节点B、Ignite节点C,本申请在Ignite节点A的角度描述技术方案。也即先在Ignite节点A检测本地的应用实例中是否已嵌入Ignite程序JAR包,若Ignite节点A检测本地的应用实例中已嵌入Ignite程序JAR包,表示Ignite节点A已处于就绪状态,此时可以开始接收负载均衡服务器发送的总计算任务清单及本地计算任务信息,之后根据本地计算任务信息进行计算即可。
更具体的,例如所述总计算任务清单中包括10个计算任务信息,分别记为计算任务信息1至计算任务信息10,且计算任务信息1、计算任务信息2、计算任务信息3分别对应的计算任务是分配至Ignite节点A处理,计算任务信息4、计算任务信息5、计算任务信息6分别对应的计算任务是分配至Ignite节点B处理,计算任务信息7、计算任务信息8、计算任务信息9、计算任务信息10分别对应的计算任务是分配至Ignite节点C处理,则所述总计算任务清单如上表1。
Ignite节点A接收到的本地计算任务信息则包括计算任务信息1、计算任务信息2、计算任务信息3。而且在Ignite节点A中是可以根据所述总计算任务清单获知每一Ignite节点的计算任务。这样Ignite节点A、Ignite节点B和Ignite节点C中即使有一个或多个发生故障无法处理计算任务时,未发生故障的Ignite节点可以继续帮助故障节点处理计算任务。
心跳包接收单元120,用于若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群。
在本实施例中,为了确保ignite集群中各ignite节点之间相互保持通讯,ignite节点之间需要定期相互发送心跳包以通知本节点此时处于正常工作状态。而且每一ignite节点是定时发送心跳包至其他ignite节点。例如,在ignite节点A中若当前系统时间与上一心跳包发送时间之间的时间间隔等于所述心跳检测周期,接收其他应用实例发送的心跳包,而且需要在规定的时间内自动应答这些心跳包。
目标清单获取单元130,用于获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单。
在本实施例中,例如当Ignite节点A接收到了其他Ignite节点发送的心跳包分别对应的应用实例名称,由于在Ignite节点A的本地也存储了总计算任务清单(可参考表1),其中总计算任务清单中的每一计算任务信息对应的Ignite节点也是已知的,那么可以实现目标应用实例名称清单的获取。
在一实施例中,目标清单获取单元130包括:
当前有效清单获取单元,用于获取其他Ignite节点发送的心跳包分别对应的应用实例名称,并获取所述本地计算任务信息对应的应用实例名称,以组成当前有效应用实例名称清单;
总清单获取单元,用于获取所述总计算任务清单对应的总应用实例名称清单;
补集获取单元,用于以所述总应用实例名称清单为全集,获取所述当前有效应用实例名称清单对应的补集,以作为未发送心跳包的目标应用实例名称清单。
在本实施例中,通过上述方式,能快速获取未发送心跳包的Ignite节点,这些Ignite节点则是疑似发生故障的Ignite节点,需要进行后续进一步判断。
例如,Ignite节点A接收到了Ignite节点C发送的心跳包,但未接收到Ignite节点B发送的心跳包,此时参考表1可知未发送心跳包的目标应用实例名称清单包括应用实例4、应用实例5和应用实例6。
目标清单发送单元140,用于将所述目标应用实例名称清单发送至负载均衡服务器。
在本实施例中,当在Ignite节点A中获取了目标应用实例名称清单,此时可以将该目标应用实例名称清单发送至负载均衡服务器以通知哪些Ignite节点疑似存在故障。
应答判断单元150,用于判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答。
在本实施例中,当在Ignite节点A接收到了其他Ignite节点发送的心跳包后,也需判断其本身是否存在故障,具体就是判断Ignite节点A是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答。
网络延时值判断单元160,用于若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值。
在本实施例中,当Ignite节点A未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,表示Ignite节点A本身可能存在故障,此时为了判断是否重启Ignite节点A,需要进一步获取Ignite节点A的当前网络延时值。
重启控制单元170,用于若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启。
在本实施例中,若所述当前网络延时值超出所述第一网络延时阈值,表示ignite节点A本身存在网络故障,此时为了尽快的恢复其数据处理能力,需要调用本地已预先设置且存储的自动重启指令,重启后恢复正常后即可重新处理计算任务。
在一实施例中,基于Ignite的自动化运维装置100还包括:
待处理应用实例名称接收单元,用于若在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称;
当前计算结果获取单元,用于在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果。
在本实施例中,当Ignite节点A在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,表示Ignite节点A本身是不存在故障的,可以作为帮助故障节点继续处理计算任务的备用节点,此时Ignite节点A接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称。例如,目标应用实例名称清单包括应用实例4、应用实例5和应用实例6;此时负载均衡服务器随机选择到应用实例5作为待处理应用实例名称并发送至Ignite节点A。
Ignite节点A接收到了待处理应用实例名称后,可以根据本地已存储的所述总计算任务清单获取到与待处理应用实例名称对应的计算任务信息,从而可以代替Ignite节点B进行计算任务信息5对应的计算,从而得到计算与所述待处理应用实例名称对应的当前计算结果。
在一实施例中,所述基于Ignite的自动化运维装置100还包括:
计算结果接收判断单元,用于判断是否已得到本地计算任务信息的本地计算结果;
空闲状态设置单元,用于若已得到本地计算任务信息的本地计算结果,将节点状态设置为空闲状态;
空闲状态通知单元,用于将空闲状态对应的第一通知信息发送至负载均衡服务器。
在本实施例中,当在Ignite节点A中完成了对本地计算任务信息、及待处理应用实例名称对应的计算任务信息的计算任务并得到计算结果后,此时表示Ignite节点A已处理完当前的所有计算任务,Ignite节点A将节点状态设置为空闲状态并通知负载均衡服务器。这样,负载均衡服务器可以分发新的计算任务信息至Ignite节点A。
在一实施例中,基于Ignite的自动化运维装置100还包括:
重启成功通知单元,用于将重启成功状态对应的第二通知信息发送至负载均衡服务器。
在本实施例中,当ignite节点A完成重启后,一般会恢复正常状态,此时为了及时通知负载均衡服务器其已恢复正常并可再次接收计算任务进行处理,可将重启成功状态对应的第二通知信息发送至负载均衡服务器。
在一实施例中,基于Ignite的自动化运维装置100还包括:
当前心跳包发送单元,用于若所述当前网络延时值未超出所述第一网络延时阈值,将生成的当前心跳包发送至其他Ignite节点。
在本实施例中,若所述当前网络延时值未超出所述第一网络延时阈值,表示Ignite节点A只是网速慢,只是会影响心跳包的及时应答。此时在Ignite节点A本地生成的当前心跳包发送至其他Ignite节点,以确保Ignite节点A仍属于非故障节点,而不是作为故障节点处理
该装置实现了当有节点发生故障时处理任务及时转移,而且能作为其他故障节点的备用节点继续处理计算任务,实现了自动运维。
上述基于Ignite的自动化运维装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于Ignite的自动化运维方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于Ignite的自动化运维方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于Ignite的自动化运维方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于Ignite的自动化运维方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于Ignite的自动化运维方法,其特征在于,包括:
若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例;
若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群;
获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单;
将所述目标应用实例名称清单发送至负载均衡服务器;
判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答;
若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值;以及
若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启;
其中,每一Ignite节点中均缓存了计算任务所需的全部数据;每一Ignite节点中根据所述总计算任务清单获知其他Ignite节点的计算任务;
每一ignite节点是定时发送心跳包至其他ignite节点,使得其他ignite节点接收到心跳包并在规定的时间内自动应答心跳包。
2.根据权利要求1所述的基于Ignite的自动化运维方法,其特征在于,所述判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答之后,还包括:
若在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称;
在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果。
3.根据权利要求1所述的基于Ignite的自动化运维方法,其特征在于,所述若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启之后,还包括:
将重启成功状态对应的第二通知信息发送至负载均衡服务器。
4.根据权利要求1所述的基于Ignite的自动化运维方法,其特征在于,所述若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值之后,还包括:
若所述当前网络延时值未超出所述第一网络延时阈值,将生成的当前心跳包发送至其他Ignite节点。
5.根据权利要求1所述的基于Ignite的自动化运维方法,其特征在于,所述获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单,包括:
获取其他Ignite节点发送的心跳包分别对应的应用实例名称,并获取所述本地计算任务信息对应的应用实例名称,以组成当前有效应用实例名称清单;
获取所述总计算任务清单对应的总应用实例名称清单;
以所述总应用实例名称清单为全集,获取所述当前有效应用实例名称清单对应的补集,以作为未发送心跳包的目标应用实例名称清单。
6.根据权利要求2所述的基于Ignite的自动化运维方法,其特征在于,所述在所述在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果之后,还包括:
判断是否已得到本地计算任务信息的本地计算结果;
若已得到本地计算任务信息的本地计算结果,将节点状态设置为空闲状态;
将空闲状态对应的第一通知信息发送至负载均衡服务器。
7.一种基于Ignite的自动化运维装置,其特征在于,包括:
任务接收单元,用于若本地的应用实例中已嵌入Ignite程序JAR包,接收负载均衡服务器发送的总计算任务清单及本地计算任务信息;其中,所述Ignite程序JAR包用于获取本地的应用进程的实时状态;所述总计算任务清单中包括若干个计算任务信息,每一计算任务信息对应一个Ignite节点中的一个应用实例;
心跳包接收单元,用于若当前系统时间与上一心跳包发送时间之间的时间间隔等于预设的心跳检测周期,接收其他Ignite节点发送的心跳包;其中,本地的应用实例对应的Ignite节点与其他Ignite节点组成Ignite集群;
目标清单获取单元,用于获取其他Ignite节点发送的心跳包分别对应的应用实例名称,以与所述总计算任务清单对应的应用实例名称相比对,得到未发送心跳包的目标应用实例名称清单;
目标清单发送单元,用于将所述目标应用实例名称清单发送至负载均衡服务器;
应答判断单元,用于判断是否在预设的自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答;
网络延时值判断单元,用于若未在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,判断当前网络延时值是否超出预设的第一网络延时阈值;以及
重启控制单元,用于若所述当前网络延时值超出所述第一网络延时阈值,调用自动重启指令以进行重启;
其中,每一Ignite节点中均缓存了计算任务所需的全部数据;每一Ignite节点中根据所述总计算任务清单获知其他Ignite节点的计算任务;
每一ignite节点是定时发送心跳包至其他ignite节点,使得其他ignite节点接收到心跳包并在规定的时间内自动应答心跳包。
8.根据权利要求7所述的基于Ignite的自动化运维装置,其特征在于,还包括:
待处理应用实例名称接收单元,用于若在所述自动答复周期内根据其他应用实例发送的心跳包对应进行自动应答,接收负载均衡服务器根据目标应用实例名称清单随机分发的待处理应用实例名称;
当前计算结果获取单元,用于在所述总计算任务清单中获取与所述待处理应用实例名称对应的计算任务信息以进行计算,得到与所述待处理应用实例名称对应的当前计算结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于Ignite的自动化运维方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于Ignite的自动化运维方法。
CN202011191736.3A 2020-10-30 2020-10-30 基于Ignite的自动化运维方法、装置及计算机设备 Active CN112367386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011191736.3A CN112367386B (zh) 2020-10-30 2020-10-30 基于Ignite的自动化运维方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011191736.3A CN112367386B (zh) 2020-10-30 2020-10-30 基于Ignite的自动化运维方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN112367386A CN112367386A (zh) 2021-02-12
CN112367386B true CN112367386B (zh) 2023-05-30

Family

ID=74512336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011191736.3A Active CN112367386B (zh) 2020-10-30 2020-10-30 基于Ignite的自动化运维方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN112367386B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665061B (zh) * 2022-10-23 2023-10-31 国网江苏省电力有限公司信息通信分公司 一种基于时延感知的心跳控制方法及分布式系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN108874541A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式运算方法、装置、计算机设备及存储介质
CN110134518A (zh) * 2019-05-21 2019-08-16 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6782489B2 (en) * 2001-04-13 2004-08-24 Hewlett-Packard Development Company, L.P. System and method for detecting process and network failures in a distributed system having multiple independent networks
US8676959B2 (en) * 2006-03-27 2014-03-18 Sap Ag Integrated heartbeat monitoring and failover handling for high availability

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103716182A (zh) * 2013-12-12 2014-04-09 中国科学院信息工程研究所 一种面向实时云平台的故障检测与容错方法及系统
CN108874541A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式运算方法、装置、计算机设备及存储介质
CN110134518A (zh) * 2019-05-21 2019-08-16 浪潮软件集团有限公司 一种提高大数据集群多节点应用高可用性的方法及系统

Also Published As

Publication number Publication date
CN112367386A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
US9239749B2 (en) Network fault detection and reconfiguration
US10095576B2 (en) Anomaly recovery method for virtual machine in distributed environment
CN106533805B (zh) 一种微服务请求处理方法、微服务控制器及微服务架构
TWI410084B (zh) 於負載平衡網路環境中之智慧型故障排除
WO2016095344A1 (zh) 链路切换方法、装置及线卡
CN112367386B (zh) 基于Ignite的自动化运维方法、装置及计算机设备
CN111142801B (zh) 分布式存储系统网络亚健康检测方法及装置
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN117370316A (zh) 数据库的高可用管理方法和装置、电子设备及存储介质
CN111135585B (zh) 游戏匹配系统
GB2499822A (en) Failover processing using different physical paths
US10645163B2 (en) Site-aware cluster management
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN110086660B (zh) 一种数据处理方法及装置
CN113157493A (zh) 基于检票系统的备份方法、装置、系统和计算机设备
CN111934909A (zh) 主备机ip资源切换方法、装置、计算机设备和存储介质
CN112019359B (zh) 基于ims网络的业务处理方法及系统
CN116827761B (zh) 双机热备的切换方法、系统、设备及介质
JP6368842B2 (ja) プロセス監視プログラム及びプロセス監視システム
CN118118468A (zh) 异常通信恢复方法、设备及存储介质
KR20170131001A (ko) 메시지분산 서비스 환경에서의 운영 서버 제어 시스템
US20200374366A1 (en) Method and system for communication between two devices
CN117560268A (zh) 集群管理方法及相关装置
JP6309711B2 (ja) プロセス監視プログラム及びプロセス監視システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant