CN113542398A - 分布式集群系统的管控方法、装置、介质和设备 - Google Patents

分布式集群系统的管控方法、装置、介质和设备 Download PDF

Info

Publication number
CN113542398A
CN113542398A CN202110790200.1A CN202110790200A CN113542398A CN 113542398 A CN113542398 A CN 113542398A CN 202110790200 A CN202110790200 A CN 202110790200A CN 113542398 A CN113542398 A CN 113542398A
Authority
CN
China
Prior art keywords
service
node
time interval
service node
distributed cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110790200.1A
Other languages
English (en)
Other versions
CN113542398B (zh
Inventor
朱鼎
杨世成
张松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuncongkaifeng Technology Co Ltd
Original Assignee
Guangzhou Yuncongkaifeng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuncongkaifeng Technology Co Ltd filed Critical Guangzhou Yuncongkaifeng Technology Co Ltd
Priority to CN202110790200.1A priority Critical patent/CN113542398B/zh
Publication of CN113542398A publication Critical patent/CN113542398A/zh
Application granted granted Critical
Publication of CN113542398B publication Critical patent/CN113542398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • H04L67/1051Group master selection mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及分布式集群系统技术领域,具体提供一种分布式集群系统的管控方法、系统、介质和设备,旨在解决现有分布式集群系统频繁轮询节点并且需要手动指定主节点,影响系统的可用性和整体性能的问题。为此目的,本发明实施例根据每个服务节点执行完成服务处理任务的时间确定服务节点的检测时间间隔,针对服务处理频率高的服务节点,检测时间间隔短,可以较早地发现处于不可用状态的服务节点,针对服务处理频率低的服务节点,检测时间间隔长,可以不用频繁访问这些服务节点,能够提升系统性能;同时,当处于不可用状态的服务节点为主节点时,能够重新选择一个服务节点作为新的主节点,避免手动指定主节点,确保了系统的高可用性。

Description

分布式集群系统的管控方法、装置、介质和设备
技术领域
本发明涉及分布式集群系统技术领域,具体提供一种分布式集群系统的管控方法、系统、介质和设备。
背景技术
分布式集群系统是将一组相互独立的服务器或计算机集中起来,实现同一业务的系统,此系统能够为用户提供高可用性的服务。在分布式集群系统中,单个服务器或计算机称为集群的节点。一般而言,在分布式集群系统中,会有一个主(Master)节点用于处理事务型操作和非事务型操作,一个或一个以上从(Slave)节点处理非事务型操作,以提升整个分布式集群系统的性能。
但是现有技术中,分布式集群系统往往存在以下问题:如果主(Master)节点发生故障,则需要手动指定新的主(Master)节点,这会对分布式集群系统服务的高可用性产生影响;另外,为了保证节点的可用性,需要以一定频率对节点进行轮询以确定节点的状态,但是频繁的轮询过程会对分布式集群系统的整体性能造成一定程度的影响。
相应地,本领域需要一种新的分布式集群系统的管控方案来解决上述问题。
发明内容
本发明旨在解决上述技术问题,即,解决现有分布式集群系统频繁轮询节点并且需要手动指定主节点,影响系统的可用性和整体性能的问题,本发明提供了一种分布式集群系统的管控方法、装置、介质和设备。
在第一方面,本发明提供一种分布式集群系统的管控方法,所述分布式集群系统包括多个服务节点,所述管控方法包括:
根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔;
根据每个所述服务节点的检测时间间隔分别检测每个所述服务节点的节点状态,确定每个所述服务节点的节点状态信息;
根据所述节点状态信息,确定处于不可用状态的服务节点;
判断所述处于不可用状态的服务节点是否为主节点;若所述处于不可用状态的服务节点为主节点,则从其他所述服务节点中重新选择一个服务节点作为新的主节点。
在上述分布式集群系统的管控方法的一个技术方案中,“根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔”的步骤包括:
针对每个服务节点,根据所述服务节点执行完成每个服务处理任务的时间,获取所述服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔,根据所述时间间隔获取所述服务节点对应的已完成的服务处理任务的平均时间间隔;
根据所述平均时间间隔确定所述服务节点的检测时间间隔。
在上述分布式集群系统的管控方法的一个技术方案中,“根据所述平均时间间隔确定所述服务节点的检测时间间隔”步骤包括:
将所述平均时间间隔与预设的时间间隔阈值进行比较;
当所述平均时间间隔小于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为预设时间间隔,其中所述预设时间间隔大于所述平均时间间隔且小于等于所述时间间隔阈值;
当所述平均时间间隔大于等于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为所述平均时间间隔。
在上述分布式集群系统的管控方法的一个技术方案中,“从其他所述服务节点中重新选择一个服务节点作为新的主节点”的步骤包括:
根据每个其他所述服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将所述最后完成服务处理任务的服务节点设定为所述新的主节点;或者,
获取每个其他所述服务节点的节点地址,并将节点地址最小的服务节点设定为所述新的主节点;并且/或者,
所述管控方法还包括通过下列步骤对所述分布式集群系统中的服务节点进行初始化:
依次向每个所述服务节点发送服务请求,并接收每个所述服务节点根据所述服务请求各自反馈的服务返回信息;
依据接收到每个所述服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对所述分布式集群系统中服务节点的初始化;并且/或者,
所述管控方法还包括:
针对每个处于不可用状态的服务节点,定时重启所述处于不可用状态的服务节点;
若所述处于不可用状态的服务节点重启成功,将所述服务节点设置为从节点;
其中,定时重启所述处于不可用状态的服务节点的停止条件包括:所述处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
在第二方面,本发明提供一种分布式集群系统的管控装置,所述分布式集群系统包括多个服务节点,所述管控装置包括:
检测时间间隔确定模块,其被配置为根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔;
节点状态信息确定模块,其被配置为根据每个所述服务节点的检测时间间隔分别检测每个所述服务节点的节点状态,确定每个所述服务节点的节点状态信息;
不可用状态节点确定模块,其被配置为根据所述节点状态信息,确定处于不可用状态的服务节点;
新主节点选择模块,其被配置为判断所述处于不可用状态的服务节点是否为主节点;若所述处于不可用状态的服务节点为主节点,则从其他所述服务节点中重新选择一个服务节点作为新的主节点。
在上述分布式集群系统的管控装置的一个技术方案中,所述检测时间间隔确定模块包括:
平均时间间隔获取单元,其被配置为针对每个服务节点,根据所述服务节点执行完成每个服务处理任务的时间,获取所述服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔,根据所述时间间隔获取所述服务节点对应的已完成的服务处理任务的平均时间间隔;
检测时间间隔确定单元,其被配置为根据所述平均时间间隔确定所述服务节点的检测时间间隔。
在上述分布式集群系统的管控装置的一个技术方案中,所述检测时间间隔确定单元被进一步配置为按照以下步骤确定所述检测时间间隔:
将所述平均时间间隔与预设的时间间隔阈值进行比较;
当所述平均时间间隔小于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为预设时间间隔,其中所述预设时间间隔大于所述平均时间间隔且小于等于所述时间间隔阈值;
当所述平均时间间隔大于等于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为所述平均时间间隔。
在上述分布式集群系统的管控装置的一个技术方案中,所述新主节点选择模块被进一步配置为按照以下步骤设定所述新的主节点:
根据每个其他所述服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将所述最后完成服务处理任务的服务节点设定为所述新的主节点;或者,
获取每个其他所述服务节点的节点地址,并将节点地址最小的服务节点设定为所述新的主节点;并且/或者,
所述管控装置还包括返回信息获取模块和主从节点设置模块:
所述返回信息获取模块,其被配置为依次向每个所述服务节点发送服务请求,并接收每个所述服务节点根据所述服务请求各自反馈的服务返回信息;
所述主从节点设置模块,其被配置为依据接收到每个所述服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对所述分布式集群系统中服务节点的初始化;并且/或者,
所述管控装置还包括:
不可用节点重启模块,其被配置为针对每个处于不可用状态的服务节点,定时重启所述处于不可用状态的服务节点;
从节点设置模块,其被配置为若所述处于不可用状态的服务节点重启成功,将所述服务节点设置为从节点;
其中,定时重启所述处于不可用状态的服务节点的停止条件包括:所述处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述分布式集群系统的管控方法的技术方案中任一项技术方案所述的分布式集群系统的管控方法。
第四方面,提供一种计算机设备,包括处理器和存储器,所述存储器适用于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述分布式集群系统的管控方法的技术方案中任一项所述的分布式集群系统的管控方法。
在采用上述技术方案的情况下,本发明能够根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个服务节点的检测时间间隔,根据服务节点的检测时间间隔检测服务节点的节点状态,确定节点状态信息,并根据节点状态信息确定处于不可用状态的节点,当处于不可用状态的节点为主节点时,从其他服务节点中重新选择一个服务节点作为新的主节点。基于上述配置方式,能够根据每个服务节点执行完成服务处理任务的时间确定服务节点的检测时间间隔,针对执行服务处理频率高的服务节点,检测时间间隔短,可以较早地发现处于不可用状态的服务节点,针对执行服务处理频率低的服务节点,检测时间间隔长,可以不用频繁访问这些服务节点,能够提升分布式集群系统性能;同时,基于上述配置方式,当处于不可用状态的服务节点为主节点时,能够自动重新选择一个服务节点作为新的主节点,避免手动指定主节点,确保了分布式集群系统的高可用性。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
图1是根据本发明的一个实施例的分布式集群系统的管控方法的主要步骤流程示意图;
图2是根据本发明实施例的一个实施方式的分布式集群系统中服务节点初始化方法示意图;
图3是根据本发明实施例的一个实施方式的确定服务节点的检测时间间隔的方法示意图;
图4是根据本发明的另一个实施例的分布式集群系统的管控方法的主要步骤流程示意图;
图5是根据本发明的一个实施例的分布式集群系统的管控装置的主要结构框图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
分布式集群系统是将一组相互独立的服务器或计算机等集中在一起,实现服务处理任务的系统,该系统可以为用户提供高可用性的服务。其中,高可用性是分布式集群系统必须考虑的因素之一,具体是指,通过设计减少分布式集群系统不能提供服务的时间的特性;分布式是指服务器或计算机之间相互交互实现一个共同目标的过程。在分布式集群系统中,单个服务器或计算机称为分布式集群系统的节点。一般而言,在一个分布式集群系统中,会有一个主(Master)节点用于处理事务型服务和非事务型服务,一个或一个以上从(Slave)节点用于处理非事务型服务,以此来实现分布式集群系统的高可用性。其中,事务型服务是一系列服务处理的集合,这些服务处理要么都执行,要么都不执行,是一个不可分割的集合;非事务型服务是单个独立的服务处理。在分布式集群系统应用过程中,会存在一些问题,如当主节点发生故障时,需要手动指定新的主节点,这样会对分布式集群系统的高可用性造成影响;另外,为了保证各个服务节点的可用性,需要定时轮询各个服务节点以确定服务节点的节点状态信息,但是这些频繁轮询的过程会对分布式集群系统的整体性能产生影响。
在本发明实施例中,提供了一种分布式集群系统的管控方法、装置、介质和设备来解决上述问题。
参阅附图1,图1是根据本发明的一个实施例的分布式集群系统的管控方法的主要步骤流程示意图。如图1所示,分布式集群系统包括多个服务节点,本发明实施例中的分布式集群系统的管控方法可以包括以下步骤:
步骤S101:根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个服务节点的检测时间间隔。
在本实施例中,可以根据每个服务节点执行完成每个服务处理任务的时间来确定对每个服务节点进行检测的检测时间间隔。具体地,对于不同的服务节点,其检测时间间隔是不同的,每个服务节点的检测时间间隔是根据对应服务节点执行完成每个服务处理任务的时间(执行完成时间)来确定的。可以根据每个服务节点执行完成服务处理任务的时间动态地改变每个服务节点的检测时间间隔,即每执行完一个服务处理任务,可以根据该服务处理任务的执行完成时间重新确定检测时间间隔,从而动态地更新服务节点的检测时间间隔。在一个实施方式中,服务节点执行完成每个服务处理任务的时间可以是服务节点接收到下一个服务处理任务的时间点。在另一个实施方式中,服务节点执行完成每个服务处理任务的时间可以是服务节点完成每个服务处理任务的时间点。
步骤S102:根据每个服务节点的检测时间间隔分别检测每个服务节点的节点状态,确定每个服务节点的节点状态信息。
在本实施例中,可以根据步骤S101中获得的每个服务节点的检测时间间隔,分别对对应的每个服务节点进行检测,以确定每个服务节点的节点状态,并进一步确定每个服务节点的节点状态信息。
步骤S103:根据节点状态信息,确定处于不可用状态的服务节点。
在本实施例中,根据步骤S102中获得的每个服务节点的节点状态信息,确定处于不可用状态的服务节点。
步骤S104:判断处于不可用状态的服务节点是否为主节点。若是,则跳转至步骤S105;若否,则不更换主节点。
在本实施例中,判断步骤S103中确定为处于不可用状态的服务节点是否为主节点。
步骤S105:从其他服务节点中重新选择一个服务节点作为新的主节点。
在本实施例中,若处于不可用状态的服务节点为主节点,则自动从其他服务节点中重新选择一个服务节点作为新的主节点。
基于上述步骤S101-步骤S105,本发明实施例能够根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个服务节点的检测时间间隔,根据服务节点的检测时间间隔检测服务节点的节点状态,确定节点状态信息,并根据节点状态信息确定处于不可用状态的节点,当处于不可用状态的节点为主节点时,从其他服务节点中重新选择一个服务节点作为新的主节点。基于上述配置方式,本发明实施例能够根据每个服务节点执行完成服务处理任务的时间确定服务节点的检测时间间隔,针对执行服务处理频率高的服务节点,检测时间间隔短,可以较早地发现处于不可用状态的服务节点,针对执行服务处理频率低的服务节点,检测时间间隔长,可以不用频繁访问这些服务节点,能够提升分布式集群系统的性能;同时,基于上述配置方式,当处于不可用状态的服务节点为主节点时,能够自动重新选择一个服务节点作为新的主节点,避免手动指定主节点,确保了分布式集群系统的高可用性。
下面对步骤S101和步骤S105作进一步地说明。
在本发明实施例步骤S101的一个可选实施方式中,步骤S101可以包括:
步骤S1011:针对每个服务节点,根据服务节点执行完成每个服务处理任务的时间,获取服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔;
步骤S1012:根据时间间隔获取服务节点对应的已完成的服务处理任务的平均时间间隔;
步骤S1013:根据平均时间间隔确定服务节点的检测时间间隔。
在本实施方式中,针对每个服务节点,可以根据服务节点执行完成每个服务处理任务的时间点,分别获得每个服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间时间间隔,根据每两个相邻的服务处理任务的时间间隔获取服务节点对应的已完成的服务处理任务的平均时间间隔,并根据服务节点已完成的服务处理任务的平均时间间隔来确定服务节点的检测时间间隔。
具体地,参阅附图3,图3为是根据本发明实施例的一个实施方式的确定服务节点的检测时间间隔的方法示意图。如图3所示,分布式集群系统在接收到业务请求端的业务请求后,会向服务节点发送业务(服务处理任务)请求,并记录业务请求发出时间,服务节点在接收到业务请求后,会将业务请求的处理结果返回至分布式集群系统,分布式集群系统会记录分布式集群系统的业务请求的处理结果返回时间。分布式集群系统可以根据每两个相邻的业务请求的发出时间,确定这两个相邻业务请求的时间间隔(两个相邻的服务处理任务之间时间间隔),并根据获得多个相邻的业务请求的时间间隔,确定业务请求的平均时间间隔,并进一步根据平均时间间隔确定服务节点的检测时间间隔。如,设定服务节点的检测时间间隔为Loop,每间隔Loop检测对应服务节点是否存活(可用),并返回节点状态信息。其中,业务请求的平均时间间隔可以根据获得的多个相邻业务请求的时间间隔,求取获得的多个相邻业务请求的时间间隔的算术平均数的方式获得。节点状态信息可以包括正常返回信息和非常返回信息;正常返回信息是指服务节点状态正常情况下返回的节点状态信息;非正常返回信息是指服务节点状态非正常情况下返回的节点状态信息,该节点状态信息中包含节点状态错误或不可用信息,非正常返回信息也可以包括服务节点在预设的时间内未返回任何信息的提示信息。
进一步地,在步骤S1013的一个实施方式中,步骤S1013还可以包括:
步骤S10131:将平均时间间隔与预设的时间间隔阈值进行比较;
步骤S10132:平均时间间隔小于时间间隔阈值时,将服务节点的检测时间间隔设定为预设时间间隔,其中预设时间间隔大于平均时间间隔且小于等于时间间隔阈值;
步骤S10133:当平均时间间隔大于等于时间间隔阈值时,将服务节点的检测时间间隔设定为平均时间间隔。
具体地,在获得服务节点已完成的服务处理任务的平均时间间隔后,可以将平均时间间隔与预设的时间间隔阈值进行比较,当平均时间间隔大于时间间隔阈值时,将服务节点的检测时间间隔设定为平均时间间隔,当平均时间间隔小于时间间隔阈值时,将服务节点的检测时间间隔设定为预设时间间隔。一个例子,时间间隔阈值为0.1秒,预设时间间隔为1秒,即在服务节点已完成的服务处理任务的平均时间间隔小于0.1秒时,可以将服务节点的检测时间间隔设定为1秒,针对执行服务处理任务较多的服务节点,避免过多的无效查询。
在本发明实施例步骤S105的一个可选实施方式中,步骤S105还可以包括:根据每个其他服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将最后完成服务处理任务的服务节点设定为新的主节点。
在本实施方式中,当确定处于不可用状态的服务节点为主节点后,可以根据每个其他服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将最后完成服务处理任务的服务节点设定为新的主节点。
在本发明实施例步骤S105的另一个可选实施方式中,步骤S105还可以包括:获取每个其他服务节点的节点地址,并将节点地址最小的服务节点设定为新的主节点。
在本实施方式中,当确定处于不可用状态的服务节点为主节点后,可以获取每个其他服务节点的节点地址,并将节点地址最小的服务节点设定为新的主节点。一个例子,如果服务节点的节点地址是IP(Internet Protocol Address)地址,那么可以获取每个其他服务节点的节点地址对应的IP数值,并将每个节点地址对应的IP数值进行比较,获得IP数值最小的节点地址,并将该IP数值最小的节点地址对应的服务节点设定为新的主节点。
在本发明的一个实施例中,分布式集群系统的管控方法还可以根据以下步骤对分布式集群系统中的服务节点进行初始化:
步骤S106:依次向每个服务节点发送服务请求,并接收每个服务节点根据服务请求各自反馈的服务返回信息;
步骤S107:依据接收到每个服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对分布式集群系统中服务节点的初始化。
参阅附图2,在本实施例中,图2是根据本发明实施例的一个实施方式的分布式集群系统中服务节点初始化方法示意图。如图2所示,在本实施例中,分布式集群系统可以依次向每个服务节点发送请求服务信息(服务请求),并接收每个服务节点根据请求服务信息各自反馈的服务返回信息,并记录对应服务节点的地址信息,分布式集群系统可以依据接收到的每个服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为Master(主)节点,将其他服务节点设置为从节点,以完成对分布式集群系统中服务节点的初始化。
在本发明的一个实施例中,分布式集群系统的管控方法还可以包括:
步骤S108:针对每个处于不可用状态的服务节点,定时重启处于不可用状态的服务节点;
步骤S109:若处于不可用状态的服务节点重启成功,将服务节点设置为从节点;其中,定时重启处于不可用状态的服务节点的停止条件包括:处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
在本实施例中,针对处于不可用状态的服务节点,可以对处于不可用状态的服务节点进行定时重启,若重启成功,则将重启成功的服务节点设置为从节点,即为,不论处于不可用状态的节点之前是主节点还是从节点,在重启成功后,都将其设置为从节点。其中,定时重启处于不可用状态的服务节点的停止条件包括:处于不可用状态的服务节点重启成功或者重启次数超过预设的次数阈值。
参阅附图4,其中图4为根据本发明的另一个实施例的分布式集群系统的管控方法的主要步骤流程示意图。如图4所示,在本发明的另一个实施例中,分布式集群系统的管控方法可以包括以下步骤:
步骤S201:确定服务节点的节点状态信息。
在本实施例中,步骤S201的方法与前述实施例中的步骤S102的方法类似,为了描述简单,在此不再赘述。
步骤S202:判断服务节点是否可用。若否,则跳转至步骤S203;若是,则结束。
步骤S203:将服务节点标记为处于不可用状态的服务节点。
在本实施例中,步骤S202-S203的方法与前述实施例中的步骤S103的方法类似,为了描述简单,在此不再赘述。
步骤S204:判断处于不可用状态的服务节点是否为主节点。若是,则跳转至步骤S205;若否,则跳转至步骤S206。
在本实施例中,步骤S204的方法与前述实施例中的步骤S104的方法类似,为了描述简单,在此不再赘述。
步骤S205:从其他服务节点中重新选择一个服务节点作为新的主节点。
在本实施例中,步骤S205的方法与前述实施例中的步骤S105的方法类似,为了描述简单,在此不再赘述。
步骤S206:定时重启处于不可用状态的服务节点。
在本实施例中,步骤S206的方法与前述实施例中的步骤S108的方法类似,为了描述简单,在此不再赘述。
步骤S207:处于不可用状态的服务节点是否重启成功。若是,则跳转至步骤S208;若否,则跳转至步骤S206。
在本实施例中,如果处于不可用状态的服务节点重启成功则跳转至步骤S208,若处于不可用状态的服务节点未重启成功则跳转至步骤S206,继续定时重启处于不可用状态的服务节点,直至重启次数超过预设的次数阈值。
步骤S208:将重启成功的服务节点标记为从节点。
在本实施例中,步骤S208的方法与前述实施例中的步骤S109的方法类似,为了描述简单,在此不再赘述。
在一个实施方式中,可以在判断处于不可用状态的服务节点为主节点后,控制其他服务节点通过投票的方式或者竞争的方式决定哪一个其他服务节点成为新的主节点。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
进一步,本发明还提供了一种分布式集群系统的管控装置。
参阅附图5,图5是根据本发明的一个实施例的分布式集群系统的管控装置的主要结构框图。如图5所示,分布式集群系统包括多个服务节点,本发明实施例中的分布式集群系统的管控装置可以包括检测时间间隔确定模块、节点状态信息确定模块、不可用状态节点确定模块和新主节点选择模块。在本实施例中,检测时间间隔确定模块可以被配置为根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个服务节点的检测时间间隔。节点状态信息确定模块可以被配置为根据每个服务节点的检测时间间隔分别检测每个服务节点的节点状态,确定每个服务节点的节点状态信息。不可用状态节点确定模块可以被配置为根据节点状态信息,确定处于不可用状态的服务节点。新主节点选择模块可以被配置为判断处于不可用状态的服务节点是否为主节点;若处于不可用状态的服务节点为主节点,则从其他服务节点中重新选择一个服务节点作为新的主节点。
在一个实施方式中,检测时间间隔确定模块可以包括平均时间间隔获取单元和检测时间间隔确定单元。在本实施方式中,平均时间间隔获取单元可以被配置为针对每个服务节点,根据服务节点执行完成每个服务处理任务的时间,获取服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔,根据时间间隔获取服务节点对应的已完成的服务处理任务的平均时间间隔。检测时间间隔确定单元可以被配置为根据平均时间间隔确定服务节点的检测时间间隔。
在一个实施方式中,检测时间间隔确定单元可以被进一步配置为按照以下步骤确定检测时间间隔:将平均时间间隔与预设的时间间隔阈值进行比较;当平均时间间隔小于时间间隔阈值时,将服务节点的检测时间间隔设定为预设时间间隔,其中预设时间间隔大于平均时间间隔且小于等于时间间隔阈值;当平均时间间隔大于等于时间间隔阈值时,将服务节点的检测时间间隔设定为平均时间间隔。
在一个实施方式中,新主节点选择模块可以被进一步配置为按照以下步骤设定新的主节点:根据每个其他服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将最后完成服务处理任务的服务节点设定为新的主节点。
在另一个实施方式中,新主节点选择模块可以被进一步配置为按照以下步骤设定新的主节点:获取每个其他服务节点的节点地址,并将节点地址最小的服务节点设定为新的主节点。
在一个实施方式中,分布式集群系统的管控装置还可以包括返回信息获取模块和主从节点设置模块。在本实施方式中,返回信息获取模块可以被配置为依次向每个服务节点发送服务请求,并接收每个服务节点根据服务请求各自反馈的服务返回信息。主从节点设置模块可以被配置为依据接收到每个服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对分布式集群系统中服务节点的初始化。
在一个实施方式中,分布式集群系统的管控装置还可以包括不可用节点重启模块和从节点设置模块。在本实施方式中,不可用节点重启模块可以被配置为针对每个处于不可用状态的服务节点,定时重启处于不可用状态的服务节点。从节点设置模块可以被配置为若处于不可用状态的服务节点重启成功,将服务节点设置为从节点。其中,定时重启处于不可用状态的服务节点的停止条件包括:处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
上述分布式集群系统的管控装置以用于执行图1和图4所示的分布式集群系统的管控方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,分布式集群系统的管控装置的具体工作过程及有关说明,可以参考分布式集群系统的管控方法的实施例所描述的内容,此处不再赘述。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的分布式集群系统的管控方法的程序,该程序可以由处理器加载并运行以实现上述分布式集群系统的管控方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种计算机设备。在根据本发明的一个计算机设备实施例中,计算机设备包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的分布式集群系统的管控方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的分布式集群系统的管控方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以是包括各种电子设备形成的控制装置设备。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种分布式集群系统的管控方法,其特征在于,所述分布式集群系统包括多个服务节点,所述管控方法包括:
根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔;
根据每个所述服务节点的检测时间间隔分别检测每个所述服务节点的节点状态,确定每个所述服务节点的节点状态信息;
根据所述节点状态信息,确定处于不可用状态的服务节点;
判断所述处于不可用状态的服务节点是否为主节点;若所述处于不可用状态的服务节点为主节点,则从其他所述服务节点中重新选择一个服务节点作为新的主节点。
2.根据权利要求1所述的分布式集群系统的管控方法,其特征在于,“根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔”的步骤包括:
针对每个服务节点,根据所述服务节点执行完成每个服务处理任务的时间,获取所述服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔,根据所述时间间隔获取所述服务节点对应的已完成的服务处理任务的平均时间间隔;
根据所述平均时间间隔确定所述服务节点的检测时间间隔。
3.根据权利要求2所述的分布式集群系统的管控方法,其特征在于,“根据所述平均时间间隔确定所述服务节点的检测时间间隔”步骤包括:
将所述平均时间间隔与预设的时间间隔阈值进行比较;
当所述平均时间间隔小于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为预设时间间隔,其中所述预设时间间隔大于所述平均时间间隔且小于等于所述时间间隔阈值;
当所述平均时间间隔大于等于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为所述平均时间间隔。
4.根据权利要求1所述的分布式集群系统的管控方法,其特征在于,“从其他所述服务节点中重新选择一个服务节点作为新的主节点”的步骤包括:
根据每个其他所述服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将所述最后完成服务处理任务的服务节点设定为所述新的主节点;或者,
获取每个其他所述服务节点的节点地址,并将节点地址最小的服务节点设定为所述新的主节点;
并且/或者,所述管控方法还包括通过下列步骤对所述分布式集群系统中的服务节点进行初始化:
依次向每个所述服务节点发送服务请求,并接收每个所述服务节点根据所述服务请求各自反馈的服务返回信息;
依据接收到每个所述服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对所述分布式集群系统中服务节点的初始化;
并且/或者,所述管控方法还包括:
针对每个处于不可用状态的服务节点,定时重启所述处于不可用状态的服务节点;
若所述处于不可用状态的服务节点重启成功,将所述服务节点设置为从节点;
其中,定时重启所述处于不可用状态的服务节点的停止条件包括:所述处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
5.一种分布式集群系统的管控装置,其特征在于,所述分布式集群系统包括多个服务节点,所述管控装置包括:
检测时间间隔确定模块,其被配置为根据每个服务节点执行完成每个服务处理任务的时间,分别确定每个所述服务节点的检测时间间隔;
节点状态信息确定模块,其被配置为根据每个所述服务节点的检测时间间隔分别检测每个所述服务节点的节点状态,确定每个所述服务节点的节点状态信息;
不可用状态节点确定模块,其被配置为根据所述节点状态信息,确定处于不可用状态的服务节点;
新主节点选择模块,其被配置为判断所述处于不可用状态的服务节点是否为主节点;若所述处于不可用状态的服务节点为主节点,则从其他所述服务节点中重新选择一个服务节点作为新的主节点。
6.根据权利要求5所述的分布式集群系统的管控装置,其特征在于,所述检测时间间隔确定模块包括:
平均时间间隔获取单元,其被配置为针对每个服务节点,根据所述服务节点执行完成每个服务处理任务的时间,获取所述服务节点已完成的服务处理任务中每两个相邻的服务处理任务之间的时间间隔,根据所述时间间隔获取所述服务节点对应的已完成的服务处理任务的平均时间间隔;
检测时间间隔确定单元,其被配置为根据所述平均时间间隔确定所述服务节点的检测时间间隔。
7.根据权利要求6所述的分布式集群系统的管控装置,其特征在于,所述检测时间间隔确定单元被进一步配置为按照以下步骤确定所述检测时间间隔:
将所述平均时间间隔与预设的时间间隔阈值进行比较;
当所述平均时间间隔小于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为预设时间间隔,其中所述预设时间间隔大于所述平均时间间隔且小于等于所述时间间隔阈值;
当所述平均时间间隔大于等于所述时间间隔阈值时,将所述服务节点的检测时间间隔设定为所述平均时间间隔。
8.根据权利要求5所述的分布式集群系统的管控装置,其特征在于,所述新主节点选择模块被进一步配置为按照以下步骤设定所述新的主节点:
根据每个其他所述服务节点执行完成每个服务处理任务的时间,获取最后完成服务处理任务的服务节点,并将所述最后完成服务处理任务的服务节点设定为所述新的主节点;或者,
获取每个其他所述服务节点的节点地址,并将节点地址最小的服务节点设定为所述新的主节点;
并且/或者,
所述管控装置还包括返回信息获取模块和主从节点设置模块:
所述返回信息获取模块,其被配置为依次向每个所述服务节点发送服务请求,并接收每个所述服务节点根据所述服务请求各自反馈的服务返回信息;
所述主从节点设置模块,其被配置为依据接收到每个所述服务返回信息的时间,将最早接收到的服务返回信息对应的服务节点设置为主节点,并将其他服务节点设置为从节点,以完成对所述分布式集群系统中服务节点的初始化;
并且/或者,
所述管控装置还包括:
不可用节点重启模块,其被配置为针对每个处于不可用状态的服务节点,定时重启所述处于不可用状态的服务节点;
从节点设置模块,其被配置为若所述处于不可用状态的服务节点重启成功,将所述服务节点设置为从节点;
其中,定时重启所述处于不可用状态的服务节点的停止条件包括:所述处于不可用状态的服务节点重启成功或重启次数超过预设的次数阈值。
9.一种计算机可读存储介质,所述存储介质中存储有多条程序代码,其特征在于,所述程序代码适用于由处理器加载并运行以执行权利要求1-4中任一项所述的分布式集群系统的管控方法。
10.一种计算机设备,包括处理器和存储器,所述存储器适用于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1-4中任一项所述的分布式集群系统的管控方法。
CN202110790200.1A 2021-07-13 2021-07-13 分布式集群系统的管控方法、装置、介质和设备 Active CN113542398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110790200.1A CN113542398B (zh) 2021-07-13 2021-07-13 分布式集群系统的管控方法、装置、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110790200.1A CN113542398B (zh) 2021-07-13 2021-07-13 分布式集群系统的管控方法、装置、介质和设备

Publications (2)

Publication Number Publication Date
CN113542398A true CN113542398A (zh) 2021-10-22
CN113542398B CN113542398B (zh) 2023-09-19

Family

ID=78098892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110790200.1A Active CN113542398B (zh) 2021-07-13 2021-07-13 分布式集群系统的管控方法、装置、介质和设备

Country Status (1)

Country Link
CN (1) CN113542398B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115811525A (zh) * 2023-02-09 2023-03-17 杭州合众数据技术有限公司 基于分布式架构的数据交换与处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003073205A2 (en) * 2002-02-22 2003-09-04 Bea Systems, Inc. Ecs node manager for ensuring high availability server and application
US20170104663A1 (en) * 2015-10-13 2017-04-13 Netapp, Inc. Methods and systems for monitoring resources of a networked storage environment
US20170116084A1 (en) * 2015-10-26 2017-04-27 Beijing Baidu Netcom Science And Technology, Ltd. Method and System for Monitoring Virtual Machine Cluster
CN108234170A (zh) * 2016-12-15 2018-06-29 北京神州泰岳软件股份有限公司 一种服务器集群的监控方法和装置
CN109474465A (zh) * 2018-11-13 2019-03-15 上海英方软件股份有限公司 一种基于服务器集群的可动态流转的高可用性的实现方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003073205A2 (en) * 2002-02-22 2003-09-04 Bea Systems, Inc. Ecs node manager for ensuring high availability server and application
US20170104663A1 (en) * 2015-10-13 2017-04-13 Netapp, Inc. Methods and systems for monitoring resources of a networked storage environment
US20170116084A1 (en) * 2015-10-26 2017-04-27 Beijing Baidu Netcom Science And Technology, Ltd. Method and System for Monitoring Virtual Machine Cluster
CN108234170A (zh) * 2016-12-15 2018-06-29 北京神州泰岳软件股份有限公司 一种服务器集群的监控方法和装置
CN109474465A (zh) * 2018-11-13 2019-03-15 上海英方软件股份有限公司 一种基于服务器集群的可动态流转的高可用性的实现方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115811525A (zh) * 2023-02-09 2023-03-17 杭州合众数据技术有限公司 基于分布式架构的数据交换与处理方法

Also Published As

Publication number Publication date
CN113542398B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN111756574B (zh) 远程批量更新固件的方法、装置及计算机可读存储介质
CN110399267B (zh) 一种服务器pcie设备监控方法、系统、设备及可读存储介质
CN111737230B (zh) 数据校验方法、装置、电子设备以及可读存储介质
CN109173270B (zh) 一种游戏服务系统和实现方法
JP5821393B2 (ja) 情報処理装置、起動方法、プログラム
US11455117B2 (en) Data reading method, apparatus, and system, avoiding version rollback issues in distributed system
CN110618889A (zh) 服务可用性的探测方法、装置、计算机设备和存储介质
CN110753084A (zh) 上链数据读取方法、缓存服务器及计算机可读存储介质
CN113542398B (zh) 分布式集群系统的管控方法、装置、介质和设备
CN111541762A (zh) 数据处理的方法、管理服务器、设备及存储介质
CN111342986B (zh) 分布式节点管理方法及装置、分布式系统、存储介质
CN113342507B (zh) 一种分布式锁服务实现方法、装置及计算机设备
US11930292B2 (en) Device state monitoring method and apparatus
CN107623705B (zh) 基于视频云存储系统的存储模式升级方法、装置和系统
CN111092956A (zh) 资源同步方法、装置、存储介质及设备
US9552324B2 (en) Dynamic data collection communication between adapter functions
CN111371818B (zh) 一种数据请求的验证方法、装置及设备
CN113448971A (zh) 基于分布式系统的数据更新方法、计算节点和存储介质
CN112181669A (zh) 死锁检测控制方法、装置、通信设备及计算机存储介质
CN110837431A (zh) 服务控制方法、装置、计算机设备及计算机可读存储介质
CN107209882B (zh) 对于处在管理之下的设备的多阶段撤销注册
CN116881001B (zh) 多dpu宿主机的云平台的管控方法、装置、设备及介质
CN109521958B (zh) 一种数据分布的延时处理方法及装置
CN116166300B (zh) 知识产权系统的升级管理方法及装置
KR102460910B1 (ko) 데이터 중복 방지를 위한 데이터 저장 방법 및 이를 적용한 데이터 플랫폼

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant