CN115499299A - 一种集群设备监控方法及装置 - Google Patents

一种集群设备监控方法及装置 Download PDF

Info

Publication number
CN115499299A
CN115499299A CN202211107788.7A CN202211107788A CN115499299A CN 115499299 A CN115499299 A CN 115499299A CN 202211107788 A CN202211107788 A CN 202211107788A CN 115499299 A CN115499299 A CN 115499299A
Authority
CN
China
Prior art keywords
cluster
service
equipment
switching
cluster device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211107788.7A
Other languages
English (en)
Inventor
张天飒
赖新明
苏迪
张�浩
王杰斌
林文辉
马兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN202211107788.7A priority Critical patent/CN115499299A/zh
Publication of CN115499299A publication Critical patent/CN115499299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种集群设备监控方法及装置,该方法包括获取第一集群设备的运行参数,第一集群设备是为第一业务提供服务的集群设备;根据运行参数确定第一集群设备的运行状态为异常状态;向切换设备发送切换指令,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。该方法根据第一集群设备的运行参数判断将为第一业务提供服务的集群设备变更为第二集群设备,提高判断启用灾备系统的准确率。

Description

一种集群设备监控方法及装置
技术领域
本申请涉及灾备技术领域,尤其涉及一种集群设备监控方法及装置。
背景技术
随着计算机技术的快速发展,越来越多的企业单位使用计算机系统处理业务。这也使得企业单位的正常运行越来越依赖于计算机系统,为了防止出现计算机系统出现问题,导致整个企业的业务陷入瘫痪的情况,越来越多的企业开始使用容灾备份系统。
判断启用灾备系统的方式主要为使用心跳线来判断是否需要启动容灾备份系统,但是由于心跳线本身有故障隐患,可能会误操作引发灾备切换。因此,无法准确的判断启用灾备系统。
发明内容
本发明通过了一种集群设备监控方法及装置,用以提高判断启用灾备系统的准确率。
第一方面,本申请实施例提供了一种集群设备监控的方法,包括:获取第一集群设备的运行参数,第一集群设备是为第一业务提供服务的集群设备;根据运行参数确定第一集群设备的运行状态为异常状态;向切换设备发送切换指令,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。
根据该方法,根据获取的运行参数确定第一集群设备的运行状态为异常状态,其中,可以设定运行参数的类型以及数量,从而提高判断启用灾备系统的准确率。
可选的,监控装置向切换设备发送切换指令之前,还可以触发告警和/或提高第一集群设备的处理能力。
根据该设计,提高第一集群设备的处理能力,用于使第一集群设备的运行状态恢复为正常状态,这样就可以不向切换设备发送切换指令,避免不必要的灾备切换,提高集群设备资源的利用率。
可选的,发送第一指示,其中,第一指示用于增加第二集群设备运行的实例数量。其中可选的,切换为第一业务提供服务的集群设备前,第二集群设备运行的实例数量为1。
根据该设计,当第一集群设备运行状态为正常状态时,第二集群设备保持单实例运行;当第一集群设备运行状态为异常状态时,监控装置可通过第一指示增加第二集群设备运行的实例数量,为切换为第一业务提供服务的集群设备做准备,实现快速切换集群设备。这样,容灾备份系统可以根据第一集群设备的运行状态调整第二集群设备占用的资源,从而提高集群设备的利用率。
可选的,运行参数可包括第一集群设备的系统时间、对应于第一业务的设定值和第一集群设备的日志中的至少一项。
根据该设计,监控装置可以获取第一集群设备的多个运行参数,并根据多个运行参数确定第一集群设备的运行状态为异常状态,这样可以增加监控装置的监测范围,从而提高判断启用灾备系统的准确率。
第二方面,本申请实施例还提供了一种集群设备监控装置,包括处理模块和通信模块。其中:
处理模块,用于获取第一集群设备的运行参数,第一集群设备是为第一业务提供服务的集群设备;
处理模块,还用于根据运行参数确定第一集群设备的运行状态为异常状态;
通信模块,用于向切换设备发送切换指令,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。
可选的,通信模块向切换设备发送切换指令之前,处理模块,还可用于触发告警和/或提高第一集群设备的处理能力。
可选的,通信模块,还可用于发送第一指示,其中,第一指示用于增加第二集群设备运行的实例数量。
可选的,切换为第一业务提供服务的集群设备前,第二集群设备运行的实例数量为1。
可选的,运行参数可包括第一集群设备的系统时间、对应于第一业务的设定值和第一集群设备的日志中的至少一项。
第三方面,本申请实施例还提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现第一方面及其任意一种设计的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现第一方面及其任意一种设计的方法。
第二方面至第四方面及其任意一种设计所带来的技术效果可参见第一方面中对应的设计所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种集群设备监控方法的流程示意图。
图2为本申请实施例提供的一种集群设备监控装置的结构示意图。
图3为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作可选的详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
下面,结合现有技术对集群设备监控方法进行介绍。
集群设备监控方法包括建立两个服务集群,分别为主集群和备份集群,备份集群与主集群的数据库保持实时同步。其中,每个集群可包括至少一个设备,因此本申请中也可称集群为集群设备。当出现服务器宕机、断电或地震情况等使主集群无法工作时,立即切换至备份集群,其中,现有技术的启用灾备判断方式主要为心跳方式,其中,心跳方式是指多个节点直连,节点持续向外发送心跳数据包,证明自己存活,当某个节点停止发送心跳数据,则引发灾备切换。但此方式中心跳线本身有故障隐患,可能误操作引发灾备切换,导致无法准确的判断是否启用灾备系统。
为了解决上述缺陷,本申请提供一种集群设备监控方法及装置,用以提高判断是否启用灾备系统的准确率。
本申请中,采用的方法包括:监控装置获取第一集群设备的运行参数,第一集群设备是为第一业务提供服务的集群设备;监控装置根据运行参数确定第一集群设备的运行状态为异常状态;监控装置向切换设备发送切换指令,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。
可以理解,本申请中的监控装置可用于根据运行参数对主集群设备进行健康监控,根据健康监控结果对主/备份集群设备进行调度,从而保障业务正常运行。
本申请中,第一集群设备为主集群设备,第二集群设备为备份集群设备,其中,可以采用容器集群管理系统(kubernetes,k8s)的方式搭建主集群和备份集群。第一集群设备与第二集群设备的存储数据通过专线在两个集群的数据库中实时同步。示例性的,监控装置、第一集群设备、第二集群设备和切换设备中的至少一项包括在容灾备份系统中。
其中可选的,第一业务对应于一个服务实例。服务实例可以是可对外提供服务能力的程序集。因此,监控装置可根据服务实例粒度对服务于相同服务实例的集群设备进行健康监控。
图1为本发明实施例提供的一种集群设备监控方法的流程示意图。以监控装置为执行主体为例,该流程可以包括以下步骤:
S101,监控装置获取第一集群设备的运行参数。其中,第一集群设备是为第一业务提供服务的集群设备。
可选的,运行参数可包括第一集群设备的系统时间、对应于第一业务的设定值和第一集群设备的日志中的至少一项。
其中,系统时间是指设备上的当前时间,可以是人工设定,也可以是国家标准时间等。
设定值例如是监控装置与集群设备约定的数值,或者可以是设定值,或者监控装置与集群设备共同维护的数据库(或表)中的特定位置的数据。其中,设定值可以针对第一业务进行设置,因此针对不同的业务可以设定不同的设定值。该设定值可以体现集群设备的运行状态,例如,当运行状态为正常时,第一集群设备返回的设定值为正常值,当运行状态为异常时,第一集群设备无法获得正常的设定值,将返回异常值。
第一集群设备的日志可以是第一集群设备的全部日志,或者可以是第一集群设备的部分日志。第一集群设备的日志可以包括与第一业务有关的参数信息,如运行状态等,可用于判断是否存在异常。示例性的,监控装置可通过使用超文本传输协议(Hyper TextTransfer Protocol,HTTP)访问第一业务的服务接口,并通过服务接口获取运行参数设定值。
S102,监控装置根据运行参数确定第一集群设备的运行状态为异常状态。
示例性的,S102中使用的判断方法可以是通过判断S101获取的运行参数是否符合预先设定的规则,也可以通过查表等方法判断第一集群设备的运行状态为异常状态。
例如,S101获取的第一集群设备系统时间与实际的时间不符,则确定第一集群设备的运行状态为异常状态。又如,如果运行参数包括的设定值与表中第一业务的设定值不相符,则确定第一集群设备的运行状态为异常状态。又如,如果第一集群设备的日志存在异常参数,则确定第一集群设备的运行状态为异常状态。
可理解的,监控装置还可以获取第一集群设备的多个运行参数,并根据多个运行参数确定第一集群设备的运行状态为异常状态,这样可以增加监控装置的监测范围,从而提高判断启用灾备系统的准确率。
S103,监控装置向切换设备发送切换指令。
其中,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。
作为一种可能的示例,监控装置可以向云解析域名系统发送切换指令,云解析域名系统为第一业务提供至少两个不同的服务地址,分别对应于第一集群设备和第二集群设备,通过服务地址的切换实现为第一业务提供服务的集群设备的变更。例如,云解析域名系统为第一业务提供第一服务地址和第二服务地址两个不同的服务地址,通常情况下由第一服务地址为第一业务提供服务,当第一集群设备运行状态异常时,则由第二服务地址为第一业务提供服务。
例如,第一业务的访问域名为www.test.com,其中,云解析域名系统为第一业务提供的第一服务地址为1.1.1.1,第二服务地址为2.2.2.2,其中,第一服务地址对应于第一集群设备,第二服务地址对应于第二集群设备,通常情况下,由第一集群设备通过第一服务地址为第一业务提供服务,也就是说,云解析域名系统可将访问域名为www.test.com的请求发往第一服务地址1.1.1.1,因此由第一集群设备提供服务;当第一集群设备运行状态为异常状态时,则由第二集群设备通过第二服务地址为第一业务提供服务,也就是,也就是说,云解析域名系统可将访问域名为www.test.com的请求发往第二服务地址2.2.2.2,因此由第二集群设备提供服务。可选的,向切换设备发送切换指令之前,监控装置还可触发告警和/或提高第一集群设备的处理能力。
示例性的,当确定第一集群设备运行状态为异常状态时,监控装置可以通过邮件等方式发出告警信息。和/或,监控装置可以根据S101获取的运行参数,由人工或系统触发对第一集群设备进行重启或者调高第一集群设备的内存,以提高第一集群设备的处理能力,用于使第一集群设备的运行状态恢复为正常状态,这样就可以不向切换设备发送切换指令,避免不必要的灾备切换,提高集群设备资源的利用率。而如果提高第一集群设备的处理能力仍然无法令第一集群设备的运行状态恢复为正常状态,则监控装置可执行S103。
可选的,如果监控装置根据S101获取的运行参数确定第一集群设备的运行状态为异常状态,且运行参数中不包括报错的日志,则监控装置还可以向第一集群设备单独请求报错日志,其中,报错日志是指第一集群设备的运行状态为异常状态的日志。可选的,监控装置发送第一指示,其中,第一指示用于增加第二集群设备运行的实例数量。其中可选的,切换为第一业务提供服务的集群设备前,第二集群设备运行的实例数量为1。
可理解的,当第一集群设备运行状态为正常状态时,第二集群设备保持单实例运行;当第一集群设备运行状态为异常状态时,监控装置可通过第一指示增加第二集群设备运行的实例数量,为切换为第一业务提供服务的集群设备做准备,实现快速切换集群设备。这样,容灾备份系统可以根据第一集群设备的运行状态调整第二集群设备占用的资源,从而提高集群设备的利用率。
可选的,云解析域名系统可对应于第一业务。如果第一集群设备中存在多个业务,则可以存在与多个业务对应的多个云解析域名系统。例如,第一云解析域名系统为第一业务提供第一服务地址和第二服务地址两个不同的服务地址,其中,第一服务地址对应于第一集群设备,第二服务地址对应于第二集群设备,通常情况下由第一集群设备通过第一服务地址为第一业务提供服务,当第一集群设备运行状态异常时,则由第二集群设备通过第二服务地址为第一业务提供服务。此外,第二云解析域名系统为第二业务提供第三服务地址和第四服务地址,其中,第三服务地址对应于第一集群设备,第四服务地址对应于第二集群设备,通常情况下由第一集群设备通过第三服务地址为第二业务提供服务,当第一集群设备运行状态异常时,则由第二集群设备通过第四服务地址为第二业务提供服务。也就是说,业务与云解析域名系统一一对应,备份集群设备同时备份多个业务时,则需要使用与之对应的多个云解析域名系统,此处不再赘述。
基于上述内容和相同构思,本申请提供一种集群设备监控装置。如图2所示,该装置包括处理模块201和通信模块202。
其中,处理模块201,可用于获取第一集群设备的运行参数,第一集群设备是为第一业务提供服务的集群设备;
处理模块201,还可用于根据运行参数确定第一集群设备的运行状态为异常状态;
通信模块202,可用于向切换设备发送切换指令,切换指令用于指示切换设备将为第一业务提供服务的集群设备变更为第二集群设备。
可选的,通信模块202向切换设备发送切换指令之前,处理模块201,还可用于触发告警和/或提高第一集群设备的处理能力。
可选的,通信模块202,还可用于发送第一指示,其中,第一指示用于增加第二集群设备运行的实例数量。
可选的,切换为第一业务提供服务的集群设备前,第二集群设备运行的实例数量为1。
可选的,运行参数可包括第一集群设备的系统时间、对应于第一业务的设定值和第一集群设备的日志中的至少一项。
图3示出了本申请实施例提供的一种集群设备监控装置的结构示意图。
本申请实施例中的电子设备可包括处理器301。处理器301是该装置的控制中心,可以利用各种接口和线路连接该装置的各个部分,通过运行或执行存储在存储器303内的指令以及调用存储在存储器303内的数据。可选的,处理器301可包括一个或多个处理单元,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。在一些实施例中,处理器301和存储器303可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器301可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法步骤可以直接由硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本申请实施例中,存储器303存储有可被至少一个处理器301执行的指令,至少一个处理器301通过执行存储器303存储的指令,可以用于执行本申请实施例所公开的方法步骤。
存储器303作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器303可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等。存储器303是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器303还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本申请实施例中,该装置还可以包括通信接口302,电子设备可以通过该通信接口302传输数据。
可选的,可由图3所示处理器301(或处理器301和通信接口302)实现图2所示的处理模块201和/或通信模块202,也就是说,可以由处理器301(或处理器301和通信接口302)执行处理模块201和/或通信模块202的动作。
基于相同的发明构思,本申请实施例还提供一种计算机可读存储介质,其中可存储有指令,当该指令在计算机上运行时,使得计算机执行上述方法实施例提供的操作步骤。该计算机可读存储介质可以是图3所示的存储器303。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种集群设备监控方法,其特征在于,所述方法包括:
获取第一集群设备的运行参数,所述第一集群设备是为第一业务提供服务的集群设备;
根据所述运行参数确定所述第一集群设备的运行状态为异常状态;
向切换设备发送切换指令,所述切换指令用于指示所述切换设备将为所述第一业务提供服务的集群设备变更为第二集群设备。
2.如权利要求1所述的方法,其特征在于,所述向切换设备发送切换指令之前,所述方法还包括:
触发告警;
提高所述第一集群设备的处理能力。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
发送第一指示,所述第一指示用于增加所述第二集群设备运行的实例数量。
4.如权利要求3所述的方法,其特征在于,切换所述为所述第一业务提供服务的集群设备前,所述第二集群设备运行的实例数量为1。
5.如权利要求1-4中任一所述的方法,其特征在于,所述运行参数包括以下中的至少一项:
所述第一集群设备的系统时间;
对应于所述第一业务的设定值;
所述第一集群设备的日志。
6.一种集群设备监控装置,其特征在于,所述装置包括:
处理模块,用于获取第一集群设备的运行参数,所述第一集群设备是为第一业务提供服务的集群设备;
所述处理模块,还用于根据所述运行参数确定所述第一集群设备的运行状态为异常状态;
通信模块,用于向切换设备发送切换指令,所述切换指令用于指示所述切换设备将为所述第一业务提供服务的集群设备变更为第二集群设备。
7.如权利要求6所述的装置,其特征在于,所述向切换设备发送切换指令之前,所述处理模块还用于:
触发告警;
提高所述第一集群设备的处理能力。
8.如权利要求6所述的装置,其特征在于,所述通信模块还用于:
发送第一指示,所述第一指示用于增加所述第二集群设备运行的实例数量。
9.如权利要求8所述的装置,其特征在于,切换所述为所述第一业务提供服务的集群设备前,所述第二集群设备运行的实例数量为1。
10.如权利要求6-9中任一所述的装置,其特征在于,所述运行参数包括以下中的至少一项:
所述第一集群设备的系统时间;
对应于所述第一业务的设定值;
所述第一集群设备的日志。
11.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述方法的步骤。
CN202211107788.7A 2022-09-13 2022-09-13 一种集群设备监控方法及装置 Pending CN115499299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211107788.7A CN115499299A (zh) 2022-09-13 2022-09-13 一种集群设备监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211107788.7A CN115499299A (zh) 2022-09-13 2022-09-13 一种集群设备监控方法及装置

Publications (1)

Publication Number Publication Date
CN115499299A true CN115499299A (zh) 2022-12-20

Family

ID=84467664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211107788.7A Pending CN115499299A (zh) 2022-09-13 2022-09-13 一种集群设备监控方法及装置

Country Status (1)

Country Link
CN (1) CN115499299A (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017028697A1 (zh) * 2015-08-17 2017-02-23 阿里巴巴集团控股有限公司 计算机集群的扩容和缩容方法及设备
CN106941420A (zh) * 2017-03-16 2017-07-11 北京深思数盾科技股份有限公司 一种集群应用环境升级方法及装置
CN107995029A (zh) * 2017-11-28 2018-05-04 紫光华山信息技术有限公司 选举控制方法及装置、选举方法及装置
CN109617716A (zh) * 2018-11-30 2019-04-12 新华三技术有限公司合肥分公司 数据中心异常处理方法及装置
JP2019153055A (ja) * 2018-03-02 2019-09-12 富士通株式会社 クラスタシステム、情報処理装置、クラスタ監視方法及びクラスタ監視プログラム
CN110377459A (zh) * 2019-06-28 2019-10-25 苏州浪潮智能科技有限公司 一种容灾系统、容灾处理方法、监控节点和备份集群
CN111581284A (zh) * 2020-04-29 2020-08-25 上海中通吉网络技术有限公司 一种数据库高可用性方法、装置、系统和存储介质
CN111858044A (zh) * 2020-07-13 2020-10-30 苏州浪潮智能科技有限公司 一种单机器多实例部署和管理的方法、系统、设备及介质
CN111917846A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种Kafka集群切换方法、装置、系统、电子设备及可读存储介质
CN112291339A (zh) * 2020-10-28 2021-01-29 平安科技(深圳)有限公司 基于云解析的全局负载均衡方法及系统
CN112965879A (zh) * 2021-03-17 2021-06-15 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113051110A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 集群切换方法、装置及设备
WO2021184588A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 集群优化方法、装置、服务器及介质
CN113765690A (zh) * 2021-01-07 2021-12-07 北京沃东天骏信息技术有限公司 集群切换方法、系统、装置、终端、服务器及存储介质
CN113765710A (zh) * 2021-08-24 2021-12-07 中国人寿保险股份有限公司上海数据中心 一种基于多活混合云部署的请求处理系统及方法
CN114942875A (zh) * 2022-05-11 2022-08-26 浪潮云信息技术股份公司 容器云集群节点异常检测方法及系统
CN114996090A (zh) * 2022-05-31 2022-09-02 济南浪潮数据技术有限公司 一种服务器异常检测方法、装置、电子设备及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017028697A1 (zh) * 2015-08-17 2017-02-23 阿里巴巴集团控股有限公司 计算机集群的扩容和缩容方法及设备
CN106941420A (zh) * 2017-03-16 2017-07-11 北京深思数盾科技股份有限公司 一种集群应用环境升级方法及装置
CN107995029A (zh) * 2017-11-28 2018-05-04 紫光华山信息技术有限公司 选举控制方法及装置、选举方法及装置
JP2019153055A (ja) * 2018-03-02 2019-09-12 富士通株式会社 クラスタシステム、情報処理装置、クラスタ監視方法及びクラスタ監視プログラム
CN109617716A (zh) * 2018-11-30 2019-04-12 新华三技术有限公司合肥分公司 数据中心异常处理方法及装置
CN110377459A (zh) * 2019-06-28 2019-10-25 苏州浪潮智能科技有限公司 一种容灾系统、容灾处理方法、监控节点和备份集群
CN113051110A (zh) * 2019-12-27 2021-06-29 中国移动通信集团湖南有限公司 集群切换方法、装置及设备
WO2021184588A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 集群优化方法、装置、服务器及介质
CN111581284A (zh) * 2020-04-29 2020-08-25 上海中通吉网络技术有限公司 一种数据库高可用性方法、装置、系统和存储介质
CN111858044A (zh) * 2020-07-13 2020-10-30 苏州浪潮智能科技有限公司 一种单机器多实例部署和管理的方法、系统、设备及介质
CN111917846A (zh) * 2020-07-19 2020-11-10 中信银行股份有限公司 一种Kafka集群切换方法、装置、系统、电子设备及可读存储介质
CN112291339A (zh) * 2020-10-28 2021-01-29 平安科技(深圳)有限公司 基于云解析的全局负载均衡方法及系统
CN113765690A (zh) * 2021-01-07 2021-12-07 北京沃东天骏信息技术有限公司 集群切换方法、系统、装置、终端、服务器及存储介质
CN112965879A (zh) * 2021-03-17 2021-06-15 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及可读存储介质
CN113765710A (zh) * 2021-08-24 2021-12-07 中国人寿保险股份有限公司上海数据中心 一种基于多活混合云部署的请求处理系统及方法
CN114942875A (zh) * 2022-05-11 2022-08-26 浪潮云信息技术股份公司 容器云集群节点异常检测方法及系统
CN114996090A (zh) * 2022-05-31 2022-09-02 济南浪潮数据技术有限公司 一种服务器异常检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许豪: "《云计算导论(第二版)》", 31 December 2021, 西安电子科技大学出版社, pages: 197 *

Similar Documents

Publication Publication Date Title
US11397648B2 (en) Virtual machine recovery method and virtual machine management device
CN101510167B (zh) 一种插件运行的方法、装置及系统
CN112910945A (zh) 请求链路跟踪方法和业务请求处理方法
CN111209110B (zh) 一种实现负载均衡的任务调度管理方法、系统和存储介质
CN111538585B (zh) 一种基于node.js的服务器进程调度方法、系统和装置
CN107729213B (zh) 一种后台任务监控方法及装置
CN114285795B (zh) 一种虚拟设备的状态控制方法、装置、设备及存储介质
WO2022063032A1 (zh) 一种面向分布式系统的故障信息关联上报方法及相关设备
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN110647463B (zh) 一种恢复测试断点的方法、装置、电子设备
CN108376110A (zh) 一种自动检测方法、系统及终端设备
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN115757611A (zh) 大数据集群切换方法、装置、电子设备及存储介质
CN115373799A (zh) 一种集群管理的方法、装置及电子设备
CN112860720B (zh) 一种存储容量的更新方法以及装置
CN106815318B (zh) 一种时序数据库的集群化方法及系统
CN112559565A (zh) 一种异常检测方法、系统及装置
CN115952227A (zh) 数据采集系统及方法、电子设备和存储介质
CN108809763B (zh) 一种网络性能参数采集方法、终端装置及存储介质
CN115499299A (zh) 一种集群设备监控方法及装置
CN115291891A (zh) 一种集群管理的方法、装置及电子设备
CN114490003A (zh) 大规模数据的分布式作业调度方法及相关设备
CN112134951A (zh) 数据传输方法、装置、电子设备及存储介质
CN111813621A (zh) 基于Flume数据中台的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221220

RJ01 Rejection of invention patent application after publication