CN111221700A

CN111221700A - 一种集群节点状态监控方法、装置、设备及可读存储介质

Info

Publication number: CN111221700A
Application number: CN201911053682.1A
Authority: CN
Inventors: 李兴华
Original assignee: Beijing Inspur Data Technology Co Ltd
Current assignee: Beijing Inspur Data Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-06-02
Anticipated expiration: 2039-10-31
Also published as: CN111221700B

Abstract

本发明公开了一种集群节点状态监控方法，包括：获取并存储本地节点组内各个节点的节点状态信息；获取并存储各个相邻监控节点发送的第一节点状态信息；将已存储的第二节点状态信息发送给相邻监控节点；其中，第二节点状态信息包括第一节点状态信息和本地节点组内各个节点的节点状态信息；当接收到查询请求时，利用第二节点状态信息响应查询请求；该方法利用多个监控节点来获取集群中的各个节点组中各个节点的节点状态信息，通过数据交换，掌控整个集群中所有节点的节点状态信息，并稳定向外提供服务；此外，本发明还提供了一种集群节点状态监控装置、设备及计算机可读存储介质，同样具有上述有益效果。

Description

一种集群节点状态监控方法、装置、设备及可读存储介质

技术领域

本发明涉及计算机集群技术领域，特别涉及一种集群节点状态监控方法、集群节点状态监控装置、集群节点状态监控设备及计算机可读存储介质。

背景技术

近年来，随着信息化时代的到来，数据呈现爆炸式的增长趋势，普通的大型计算机已经无法承担计算海量数据的任务，各大互联网公司纷纷采用大规模的集群来完成数据的存储和分析，确保大规模集群的稳定运行成为重点关注的问题。

为了实时了解集群的运行状况，即便及时处理故障，保证集群的稳定运行，传统集群节点监控方法利用一个运行有monitor进程的监控节点来获取集群所有节点的运行状态信息，并响应所有客户端的查询请求，即为客户端提供节点状态查询服务，为客户端提供本集群中任意节点的运行状态信息。但是随着集群的规模越来越大，采用一个监控节点来获取所有节点的运行状态信息，同时还需要相应客户端的查询请求，会使得该监控节点无法及时处理所有的信息从而导致信息积压，进而导致monitor进程崩溃或信息丢失等问题。因此，传统集群节点监控方法无法稳定地收集各个节点的状态信息，也无法稳定地向外提供节点状态查询服务。

因此，如何解决传统集群节点监控方法无法稳定地收集各个节点的状态信息，无法稳定地向外提供节点状态查询服务的问题，是本领域技术人员需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种集群节点状态监控方法、集群节点状态监控装置、集群节点状态监控设备及计算机可读存储介质，解决了现传统集群节点监控方法无法稳定地收集各个节点的状态信息，无法稳定地向外提供节点状态查询服务的问题。

为解决上述技术问题，本发明提供了一种集群节点状态监控方法，包括：

获取并存储本地节点组内各个节点的节点状态信息；

获取并存储各个相邻监控节点发送的第一节点状态信息；

将已存储的第二节点状态信息发送给所述相邻监控节点；其中，所述第二节点状态信息包括所述第一节点状态信息和所述本地节点组内各个所述节点的所述节点状态信息；

当接收到查询请求时，利用所述第二节点状态信息响应所述查询请求。

可选的，还包括：

判断第一时长是否大于预设时长；其中，所述第一时长为未接收到目标相邻监控节点发送的所述第一节点状态信息的时长；

若是，则确定所述目标相邻监控节点发生故障，并上报故障信息。

可选的，在所述上报故障信息之后，还包括：

与和所述目标相邻监控节点对应的备用监控节点建立连接；

向所述备用监控节点发送所述第二节点状态信息。

可选的，所述节点状态信息的构建方法，包括：

获取各个所述节点的CPU使用率、内存使用率、网卡速率和磁盘IO；

按照信息封装规则将所述CPU使用率、所述内存使用率、所述网卡速率和所述磁盘IO封装为所述节点状态信息。

本发明还提供了一种集群节点状态监控装置，包括：

第一获取模块，用于获取并存储本地节点组内各个节点的节点状态信息；

第二获取模块，用于获取并存储各个相邻监控节点发送的第一节点状态信息；

发送模块，用于将已存储的第二节点状态信息发送给所述相邻监控节点；其中，所述第二节点状态信息包括所述第一节点状态信息和所述本地节点组内各个所述节点的所述节点状态信息；

响应模块，用于当接收到查询请求时，利用所述第二节点状态信息响应所述查询请求。

可选的，还包括：

判断模块，用于判断第一时长是否大于预设时长；其中，所述第一时长为未接收到目标相邻监控节点发送的所述第一节点状态信息的时长；

故障上报模块，用于若所述第一时长大于所述预设时长，则确定所述目标相邻监控节点发生故障，并上报故障信息。

可选的，还包括：

连接模块，用于与和所述目标相邻监控节点对应的备用监控节点建立连接；

信息发送模块，用于向所述备用监控节点发送所述第二节点状态信息。

可选的，包括：

信息获取模块，用于获取各个所述节点的CPU使用率、内存使用率、网卡速率和磁盘IO；

信息封装模块，用于按照信息封装规则将所述CPU使用率、所述内存使用率、所述网卡速率和所述磁盘IO封装为所述节点状态信息。

本发明还提供了一种集群节点状态监控设备，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现上述的集群节点状态监控方法。

本发明还提供了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现上述的集群节点状态监控方法。

本发明提供的集群节点状态监控方法，获取并存储本地节点组内各个节点的节点状态信息。获取并存储相邻监控节点发送的第一节点状态信息；。将已存储的第二节点状态信息发送给相邻监控节点；其中，第二节点状态信息包括第一节点状态信息和本地节点组内各个节点的节点状态信息。当接收到查询请求时，利用第二节点状态信息响应查询请求。

可见，该方法获取本地节点组内的节点状态信息和相邻监控节点发送的第一节点状态信息，并将自身已存储的第二节点状态信息发送给相邻监控节点。利用多个监控节点来获取集群中的各个节点组中各个节点的节点状态信息，因此监控节点的负载压力较小，可以稳定地收集节点状态信息。获取相邻监控节点发送的第一节点状态信息并将第二节点状态信息发送给相邻监控节点以进行数据交换，进而各个监控节点均可以掌控整个集群中所有节点的节点状态信息，在接收到查询请求后利用第二节点状态信息响应查询请求，稳定地向外提供节点状态查询服务。解决了传统集群节点监控方法无法稳定地收集各个节点的状态信息，无法稳定地向外提供节点状态查询服务的问题。

此外，本发明还提供了一种集群节点状态监控装置、集群节点状态监控设备及计算机可读存储介质，同样具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种集群节点状态监控方法流程图；

图2为本发明实施例提供的一种相邻监控节点故障判断方法流程图；

图3为本发明实施例提供的一种集群节点状态监控装置的结构示意图；

图4为本发明实施例提供的一种集群节点状态监控设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例提供的一种集群节点状态监控方法流程图。该方法包括：

S101：获取并存储本地节点组内各个节点的节点状态信息。

为了防止监控节点因处理过多节点的信息导致计算资源不足，进而导致信息丢失和进程崩溃的问题，本发明实施例提供的集群节点状态监控方法对整个集群中的节点进行分组，并在每个分组中设置监控节点，由各个监控节点执行本集群节点状态监控方法。各个节点组内的节点数目可以相同，也可以不同，只要节点数量小于预设数量即可，预设数量即为监控节点能监控的节点数量最大值。

节点状态信息用于表示节点的运行状态和负载压力等节点情况，其具体内容本实施例不做限定。各个监控节点获取并存储本地节点组内各个节点的节点状态信息，本地节点组即监控节点所处的节点组。获取节点状态信息的过程可以有多种，例如可以从各个节点获取组成节点状态信息的数据，由监控节点利用这些数据组成节点状态信息；或者可以由各个节点获取自身的数据并组成节点状态信息，再将节点状态信息发送给监控节点。为了减轻监控节点的压力，本实施例优选的，利用各个节点构建自身的节点状态信息，并将节点状态信息发送给监控节点。获取本地节点组内各个节点的节点状态信息的操作可以按照预设周期执行，例如每隔两分钟执行一次；也可以实施执行。

S102：获取并存储各个相邻监控节点发送的第一节点状态信息。

第一节点状态信息包括相邻监控节点内存储的所有节点状态信息。各个节点组的监控节点按照预设结构相连，预设结构可以为环装，也可以为其他结构，与本监控节点相连的其它监控节点即为相邻监控节点，例如，当本监控节点为监控节点A时，监控节点B与监控节点C分别与监控节点A相连，则监控节点B和监控节点C即为监控节点A的相邻监控节点。当监控节点A获取到监控节点B发送的第一节点状态信息时，即接收到了监控节点B所存储的所有节点状态信息，或者说接收到了监控节点B的第二节点状态信息，第二节点状态信息即为本节点中存储的所有节点状态信息，包括相邻监控节点发送的第一节点状态信息和本地节点组内各个节点的节点状态信息。获取第一节点状态信息的操作可以实施执行；也可以按照上述预设周期执行，即每次新获取了本地节点组内各个节点的节点状态信息之后，执行获取第一节点状态信息的操作。为了及时更细本节点的第二节点状态信息，优选的，实时获取相邻监控节点发送的第一节点状态信息。

S103：将已存储的第二节点状态信息发送给相邻监控节点；其中，第二节点状态信息包括第一节点状态信息和本地节点组内各个节点的节点状态信息。

第二节点状态信息即为所有已存储的节点状态信息，将第二节点状态信息发送给相邻监控节点，以便相邻监控节点存储。本实施例并不限定第二节点状态信息的发送时机，例如可以实时发送第二节点状态信息；或者可以在获取本地节点组内各个节点的节点状态信息之后向相邻监控节点发送节点状态信息，一般的，第二节点状态信息的接收频率和第一节点状态信息的发送频率相同。需要说明的是，对于S102步骤和S103步骤的执行顺序，本实施例不做限定，例如可以先执行S102步骤，再执行S103步骤；或者可以先执行S103步骤，再执行S102步骤。S102步骤和S103步骤可以连续不断执行，也可以将S102步骤和S103步骤多次执行，当各个监控节点存储的第二节点状态信息都相同时停止执行。最终可以使集群中各个节点组内的监控节点均保存整个集群中所有节点的节点运行状态，以便在接受到客户端发送的查询请求时，利用本身存储的节点状态信息(即第二节点状态信息)响应查询请求。

S104：当接收到查询请求时，利用第二节点状态信息响应查询请求。

查询请求由客户端发送，用于查询集群中节点的状态。查询请求可以为查询一个节点状态的请求，也可以为查询多个节点状态的请求。在接收到查询请求时，可以将第二节点状态信息全部发送给客户端，由客户端从中获取被查询节点的节点状态信息；或者可以对查询请求进行解析，确定被查询的目标节点，并将第二节点状态信息中目标节点对应的目标节点状态信息发送给客户端。

进一步，由于整个集群中具有多个节点组，各个节点组内均由监控节点且各个监控节点均具有整个集群中各个节点的节点状态信息，因此客户端可以获取各个监控节点的地址信息，在发送查询请求时，可以按照随机选择规则或轮询选择规则选择目标监控节点，并向目标监控节点发送查询请求，当目标监控节点接收到查询请求时，利用目标监控节点存储的第二节点状态信息响应该查询请求，为客户端提供服务。

应用本发明实施例提供的集群节点状态监控方法，获取本地节点组内的节点状态信息和相邻监控节点发送的第一节点状态信息，并将自身已存储的第二节点状态信息发送给相邻监控节点。利用多个监控节点来获取集群中的各个节点组中各个节点的节点状态信息，因此监控节点的负载压力较小，可以稳定地收集节点状态信息。获取相邻监控节点发送的第一节点状态信息并将第二节点状态信息发送给相邻监控节点以进行数据交换，进而各个监控节点均可以掌控整个集群中所有节点的节点状态信息，在接收到查询请求后利用第二节点状态信息响应查询请求，稳定地向外提供节点状态查询服务。解决了传统集群节点监控方法无法稳定地收集各个节点的状态信息，无法稳定地向外提供节点状态查询服务的问题。

基于上述发明实施例，在实际应用中，监控节点可能会出现故障，本发明实施例将说明一种相邻监控节点故障判断方法，具体的，请参考图2，图2为本发明实施例提供的一种相邻监控节点故障判断方法流程图，包括：

S201：判断第一时长是否大于预设时长。

第一时长为未接收到目标相邻监控节点发送的第一节点状态信息的时长。目标相邻监控节点可以为任意一个相邻监控节点。需要说明的是，预设时长应该大于两次第一节点状态信息的之间的接收时长。在每次接收到相邻监控节点发送的第一节点状态信息之后，均重置相应的第一时长，例如当监控节点A接收到监控节点B发送的第一节点状态信息之后，则重置监控节点B的第一时长。当目标相邻监控节点对应的第一时长大于预设时长时，进入S202步骤；当第一时长不大于预设时长时，可以进入S205步骤，即不执行任何操作。

S202：确定目标相邻监控节点发生故障，并上报故障信息。

当目标相邻监控节点的第一时长大于预设时长时，认为目标相邻监控节点发生了故障，因此无法向外发送第一节点状态信息。因此可以上报故障信息，故障信息的具体内容和形式本实施例不做限定，具体的上报方法可以参考相关技术，在此不再赘述。

S203：与和目标相邻监控节点对应的备用监控节点建立连接。

为了不影响集群中各个节点的节点状态信息的收集，还可以与目标相邻监控节点对应的备用监控节点建立连接。备用监控节点和目标相邻监控节点处于同一个节点组，用于在目标相邻监控节点发生故障后接替目标相邻监控节点的工作。因此在确定目标相邻监控节点发生故障后，可以与备用监控节点建立连接。备用监控节点可以提前指定，也可以按照预设地址计算规则计算得到备用监控节点的地址，并利用该地址与备用监控节点相连。

需要说明的是，本发明实施例并不限定上报故障信息和与备用监控节点建立连接两个操作的顺序，例如可以先上报故障信息，再与备用监控节点建立连接；或者可以先与备用监控节点建立连接，再上报故障信息；或者可以同时执行两个操作，即同时执行上报故障信息和与备用监控节点建立连接的操作。

S204：向备用监控节点发送第二节点状态信息。

在与备用监控节点建立连接之后，向备用监控节点发送第二节点状态信息，以便备用监控节点接替目标相邻监控节点的工作。

应用本发明实施例提供的集群节点状态监控方法，可以在目标相邻监控节点发生故障之后及时上报故障信息，与备用监控节点建立连接并进行数据同步，以便备用监控节点接替目标相邻监控节点的工作。

基于上述发明实施例，本发明实施例将说明一种具体的节点状态信息的构建方法，包括：

步骤1：获取各个节点的CPU使用率、内存使用率、网卡速率和磁盘IO。

CPU使用率说明了节点中进程占用的CPU资源，使用率越高，说明节点当前运行的进程使用的CPU资源越多；内存使用率用于表示此节点中进程所占用的内存。获取CPU使用率、内存使用率、网卡速率和磁盘IO，即可比较全面地表示该节点的运行状态。

步骤2：按照信息封装规则将CPU使用率、内存使用率、网卡速率和磁盘IO封装为节点状态信息。

信息封装规则用于生成节点状态信息，其具体内容不做限定。将获取的CPU使用率等数据按照信息封装规则进行封装，即可得到节点状态信息。

下面对本发明实施例提供的集群节点状态监控装置进行介绍，下文描述的集群节点状态监控装置与上文描述的集群节点状态监控方法可相互对应参照。

请参考图3，图3为本发明实施例提供的一种集群节点状态监控装置的结构示意图，包括：

第一获取模块310，用于获取并存储本地节点组内各个节点的节点状态信息；

第二获取模块320，用于获取并存储各个相邻监控节点发送的第一节点状态信息；

发送模块330，用于将已存储的第二节点状态信息发送给相邻监控节点；其中，第二节点状态信息包括第一节点状态信息和本地节点组内各个节点的节点状态信息；

响应模块340，用于当接收到查询请求时，利用第二节点状态信息响应查询请求。

可选的，还包括：

判断模块，用于判断第一时长是否大于预设时长；其中，第一时长为未接收到目标相邻监控节点发送的第一节点状态信息的时长；

故障上报模块，用于确定目标相邻监控节点发生故障，并上报故障信息。

可选的，还包括：

连接模块，用于与和目标相邻监控节点对应的备用监控节点建立连接；

信息发送模块，用于向备用监控节点发送第二节点状态信息。

可选的，包括：

信息获取模块，用于获取各个节点的CPU使用率、内存使用率、网卡速率和磁盘IO；

信息封装模块，用于按照信息封装规则将CPU使用率、内存使用率、网卡速率和磁盘IO封装为节点状态信息。

下面对本发明实施例提供的集群节点状态监控设备进行介绍，下文描述的集群节点状态监控设备与上文描述的集群节点状态监控方法可相互对应参照。

请参考图4，图4为本发明实施例提供的一种集群节点状态监控设备的结构示意图，该集群节点状态监控设备包括存储器、处理器，其中：

存储器410，用于保存计算机程序；

处理器420，用于执行计算机程序，以实现上述的集群节点状态监控方法。

下面对本发明实施例提供的计算机可读存储介质进行介绍，下文描述的计算机可读存储介质与上文描述的集群节点状态监控方法可相互对应参照。

本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的集群节点状态监控方法的步骤。

该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上对本发明所提供的一种集群节点状态监控方法、集群节点状态监控装置、集群节点状态监控设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种集群节点状态监控方法，其特征在于，包括：

获取并存储本地节点组内各个节点的节点状态信息；

获取并存储各个相邻监控节点发送的第一节点状态信息；

2.根据权利要求1所述的集群节点状态监控方法，其特征在于，还包括：

3.根据权利要求2所述的集群节点状态监控方法，其特征在于，在所述上报故障信息之后，还包括：

与和所述目标相邻监控节点对应的备用监控节点建立连接；

向所述备用监控节点发送所述第二节点状态信息。

4.根据权利要求1所述的集群节点状态监控方法，其特征在于，所述节点状态信息的构建方法，包括：

5.一种集群节点状态监控装置，其特征在于，包括：

6.根据权利要求5所述的集群节点状态监控装置，其特征在于，还包括：

7.根据权利要求6所述的集群节点状态监控装置，其特征在于，还包括：

8.根据权利要求7所述的集群节点状态监控装置，其特征在于，包括：

9.一种集群节点状态监控设备，其特征在于，包括存储器和处理器，其中：

所述存储器，用于保存计算机程序；

所述处理器，用于执行所述计算机程序，以实现如权利要求1至4任一项所述的集群节点状态监控方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的集群节点状态监控方法。