CN110096472B

CN110096472B - 节点集群中管理节点的选择

Info

Publication number: CN110096472B
Application number: CN201910073036.5A
Authority: CN
Inventors: 塔拉尼森·莫汉塔; 阿布希提斯·U; 拉克什亚·加格; 尼莱什·A·萨维
Original assignee: Hewlett Packard Enterprise Development LP
Current assignee: Hewlett Packard Enterprise Development LP
Priority date: 2018-01-29
Filing date: 2019-01-25
Publication date: 2023-06-30
Anticipated expiration: 2039-01-25
Also published as: CN110096472A; US10498809B2; US20190238634A1

Abstract

本发明涉及节点集群中管理节点的选择。示例实施方式涉及节点集群。在示例中，方法包括计算包括多个节点的分布式存储系统中的第一节点的分数。分数是以下中的至少一个的函数：第一节点的位置、第一节点的健康状况和第一节点的资源利用率。然后，基于该分数以及与多个节点相关联的多个分数来确定多个节点中的第一节点的排名。当第一节点的排名至少等于预定义排名时，向第一节点发送指令以实例化用于对第一节点上的分布式存储系统进行管理的管理过程。

Description

节点集群中管理节点的选择

背景技术

计算机集群是连接的计算设备或节点的集合，其作为单个系统一起工作。计算机集群可以包括基本节点，并且可以通过添加一个或多个附加节点来容易地扩展以创建共享计算和存储资源的集群。节点集群可以提供改进的性能、容错和负载平衡。在这种情况下，每个节点可以执行集群的一个或多个主要功能(例如，存储和提供数据、产生和消费数据流等)。

附图说明

图1示出了本公开的示例分布式系统的框图；

图2示出了用于选择集群的管理节点的示例方法的流程图；

图3示出了用于选择集群的管理节点的另一示例方法的流程图；和

图4描绘了可以被转换成能够执行在此描述的功能的机器的示例计算机的高级框图。

具体实施方式

本公开描述了用于选择集群的管理节点的装置、方法和非暂时性计算机可读介质。如上所讨论的，将多个节点作为分布式系统或“集群”运行可以提供许多益处，包括可扩展性、改进的性能、容错和负载平衡。

然而，如果集群中的多个节点同时发生故障，则集群中存储的数据的可用性仍然会受到负面影响。因此，集群可以采用仲裁配置，其中只要运行集群管理过程的最小数目(即仲裁)的节点(在此称为“管理节点”)保持可操作，就可以确保数据可用性。传统上，仲裁中管理节点的选择已经被基于资历(即，在配置或启动之后加入集群的前x个节点被指定为管理节点)。然而，基于资历的选择过程不会考虑可能影响集群或仲裁性能的节点属性、性能或其他特征的差异。

本公开的示例基于节点属性提供对集群中的管理节点的智能选择。只要集群的管理节点的仲裁继续起作用，则集群将继续运行。换句话说，只要最小数目的管理节点保持起作用，则存储在集群中的数据在集群中仍然可用。

当发起新的节点集群时，可以通过任何过程(例如，任意地，在发起之后加入的前x个节点等)来选择新集群的管理节点。然后，每个管理节点将运行集群管理过程，该集群管理过程除了其他功能之外还选择集群的管理节点。在经过预定义的时间段之后，按需或响应于预定义事件(例如，重启集群、管理节点离开集群、向集群添加新节点、预测集群中的节点故障、创建新虚拟机(VM)等)，集群管理过程将重新评估管理节点的选择，并潜在地用新的管理节点替换一个或多个现有管理节点。一个或多个新管理节点的选择考虑诸如地理位置(例如，站点、数据中心区域、机架等)等节点属性、节点健康(例如，稳定性)、节点资源利用率(例如，存储器利用率、CPU利用率、磁盘利用率、带宽利用率等)等，以便识别最适合作为管理节点(即，增加维持仲裁的可能性，并因此增加维持数据可用性的可能性)的节点。换句话说，管理节点可以是基于节点属性的分析而被确定为最稳定(例如，最不可能发生故障)的节点。选择最稳定的节点作为管理节点还可以最小化所涉及的消息传递量并最小化与共识决策相关联的处理负载。

图1示出了本公开的示例分布式系统100的框图。系统100包括集群，即多个节点102₁-102_m(以下分别称为“节点102”或统称为“节点102”)。节点102可以驻留在单个站点处或者可以在地理上分布在多个站点上。每个站点可以包括一个或多个机架，该站点的节点分布该一个或多个机架中。在一个示例中，数据在节点102上被条带化，即，使得顺序数据(例如，文件)在逻辑上被分段，并且连续的数据段被存储在不同的节点上。在另一个不支持条带化的示例中，数据可以驻留在集群的单个节点102上(即，“副本”)。在一个示例中，节点102中的一个或多个可以包括超融合节点，即其中各种信息技术资源(例如，计算、存储、联网和虚拟化资源)紧密集成在单个软件驱动应用中的设备。

在一个示例中，对多个节点102进行排名。可以基于针对每个节点102计算的分数来确定节点的排名，该分数是节点的诸如位置、健康、资源利用率等属性的函数，如表106所示。这些属性中的每一个可以以某种方式来量化(例如，对于属性的“高”、“低”、“超过”、“未超过”等的指示可以以值的等级上的某个数值相对应)。另外，应注意的是图1中所示的表是简化的。例如，“健康状况”的属性可以被分成多个更具体的属性，例如“稳定性”、“重启次数”、“自我监视、分析、报告技术(SMART)状况”等。在本公开的上下文中，SMART状况是指由可以包括在计算设备中(例如，在硬盘驱动器和/或固态驱动器中)的监视系统指示的状况。该监视系统可以检测并报告驱动器可靠性的各种指示符，从而可以在硬件故障发生之前预测它们。类似地，“资源利用率”的属性可以被分成多个更具体的属性，例如“存储器利用率”、“CPU利用率”、“网络带宽”、“磁盘利用率”等。此外，可以在分数中考虑不属于“位置”、“健康状况”和“资源利用率”类别的其他属性。

在一个示例中，分数表示节点102与“理想”节点的欧几里德(Euclidean)距离。例如，每个节点的分数可以被计算为以下的平方根：

(SMART状况5)²+(网络带宽–2)²+(CPU利用率–2)²+(重启次数–2)²+(存储器利用率–2)²+(磁盘利用率–3)² (方程1)

一旦已经为系统100中的每个节点102计算了分数，就可以如上所讨论对节点102进行排名。取决于计算分数的方式，节点102可以以升序分数的顺序、以降序分数的顺序或以其他方式排名。例如，如果分数表示到理想节点的欧几里德距离，那么节点可以以升序分数的顺序排名，其中较低分数表示对应节点“更接近”理想节点(并且因此，较低分数排名高于较高分数)。图1中示出了基于表106中示出的示例分数的示例排名。例如，节点102₁的排名是3，节点102₂的排名是1，节点102₃的排名是m，并且节点102_m的排名是2。

一旦已经对节点102进行了排名，就可以将多个节点102分成两组：第一组管理节点(至少图1中的节点102₁、102₂和102_m)和第二组非管理节点(至少图1中的节点102₃)。落入第一组的那些节点(即，管理节点)将实例化或运行执行各种集群管理操作的集群管理过程104，集群管理操作包括投票以对存储在集群中的数据进行状态改变、参与共识决策、解决网络分割和数据所有权问题、以及选择集群的管理节点，如结合图2和3更详细地讨论的。落入第二组的那些节点(即，非管理节点)将参与集群而不实例化或运行集群管理过程。

在一个示例中，通过确定期望管理节点的数目n并且选择n个节点102以包括在第一组中，将多个节点102分成两个组。在一个示例中，n个所选节点102可以包括n个最高排名的节点。在另一示例中，首先选择副本节点以包括在第一组中。然后，如果第一组总计还没有n个节点，则可以选择附加数目的最高排名的节点102直到第一组总计n个节点。然而，为了投票以进行状态改变的目的，副本节点而不是非副本节点可以获得更多的投票数。在一个示例中，管理节点的期望数目n是奇数，以避免在系统100被分区或管理节点故障的情况下投票平局。在一个示例中，管理节点的期望数目n被计算为：

因此，在一个示例中，n至少为3。在另一个示例中，n至少为5。随着集群100的拓扑改变(例如，由于节点102离开和/或加入集群100，由于集群100被分区等)，集群100的管理节点的期望数目n可以随时间改变。

第二组，即非管理节点组，将包括多个节点102中的至少一个节点。第二组中的非管理节点可以不实例化集群管理过程104。因此，非管理节点可能无法投票以进行状态改变或者选择集群的管理节点。然而，随着系统100内条件改变，先前被指定为非管理节点的节点可以在之后重新计算分数时被选择作为管理节点。相反，先前被选择作为管理节点的节点可以在之后重新计算分数时被指定为非管理节点。

图2示出了用于选择集群的管理节点的示例方法200的流程图。例如，可以通过图1中所示的管理节点102₁、102₂或102_m中的任何一个或者通过图4中所示的计算机400来执行方法200。这样，可以在方法200的讨论中参考系统100的各种组件以便于理解。然而，这样的参考并不旨在将方法200限制为利用图1中所示的系统来实现。

方法200在框202中开始。在框204中，为多个节点中的布置在集群中的第一节点计算第一分数。在一个示例中，第一分数包括第一节点的多个属性的函数。在一个示例中，多个属性至少包括：第一节点的地理位置(例如，站点、数据中心区域、机架等)、第一节点的健康状况(例如，稳定性)和第一节点的资源利用率(例如，存储器利用率、CPU利用率、磁盘利用率、带宽利用率等)。在一个示例中，第一分数被计算为到理想节点的欧几里德距离。例如，第一分数可以被计算为方程1的平方根。可以以类似的方式计算多个节点中的其他节点的分数。在一个示例中，响应于预定时间段的通过(例如每y分钟计算分数)、按需或者响应于预定义事件(例如，重启集群、管理节点离开集群、向集群添加新节点、预测集群中的节点故障、创建新虚拟机(VM)等)的发生来计算第一分数。

在另一示例中，第一节点(以及集群中的所有其他节点)可以自主地计算其分数。在这种情况下，框204可以涉及检索由第一节点计算的第一分数，而不是实际计算第一分数。

在框206中，基于第一分数和多个节点中的其他节点的分数，确定多个节点中的第一节点的排名。例如，可以根据分数按顺序(例如，按照升序分数的顺序、降序分数的顺序或其他顺序)对多个节点进行分类。

在框208中，当在框206中确定的第一节点的排名至少等于预定义排名时，向第一节点发送指令以在第一节点处实例化集群管理过程。例如，预定义排名可以包括临界值(cutoff)，其中向排名高于临界值的节点发送指令以实例化集群管理过程，并且不向排名低于临界值的节点发送指令(或者如果指示在方法200的先前迭代时将节点实例化，则向节点发送指令以解除对集群管理过程的实例化)。在一个示例中，临界值导致向最高排名的n个节点发送指令以实例化集群管理过程。

因此，指令有效地选择第一节点作为集群的管理节点。响应于该指令，在第一节点上实例化的集群管理过程执行与集群管理相关的操作。例如，集群管理过程可以负责投票以对存储在集群中的数据进行状态改变。在一个示例中，集群管理过程还以与选择第一节点的方式类似的方式选择集群的管理节点。

方法200在框210中结束。

因此，当集群中的成员改变、集群中的条件改变、以及形成集群的节点的属性改变时，集群中的管理节点可以为集群选择一个或多个新的管理节点。反过来，任何新选择的管理节点负责在方法200的下一次迭代时选择一个或多个新的管理节点。通过在作为节点属性(例如位置、健康状况、资源利用率等)的函数的分数的基础上选择管理节点，可以以智能方式选择最适合于管理集群(例如，最有可能增加维持仲裁的可能性并因此增加维护数据可用性的可能性)的节点。

应注意，在选择一个或多个其他节点以用作管理节点时，进行选择的管理节点可以有效地取消选择自身。也就是说，即使管理节点的身份可能随时间改变，管理节点的数目也可以保持不变。因此，如果至少n个其他节点的排名比当前管理节点的排名更高，则一旦在其他节点上实例化集群管理过程，当前管理节点可以停止用作管理节点。

图3示出了用于选择集群的管理节点的另一示例方法300的流程图。例如，可以通过图1中所示的管理节点102₁、102₂或102_m中的任何一个或者通过图4中所示的计算机400来执行方法300。这样，可以在方法300的讨论中参考系统100的各种组件以便于理解。然而，这样的参考并不旨在将方法300限制为利用图1中所示的系统来实现。

方法300在框302中开始。在框304中，在包括多个节点的集群中的第一节点处实例化集群管理过程。如上所讨论的，集群管理过程可以负责执行与管理集群相关的各种操作，包括投票以对存储在集群中的数据进行状态改变、以及选择集群的管理节点(即，实例化集群管理过程的节点)。在第一节点上实例化集群管理过程使第一节点成为集群的管理节点。第一节点上的集群管理过程的实例化可以响应于集群的初始发起或者响应于现有管理节点在集群的初始发起之后的某个时间选择第一节点作为新的管理节点而发生。

在框306中，确定是否应重新选择集群的管理节点。在一个示例中，管理节点的重新选择可以周期性地、按需地发生，或者可以被触发一些预定义事件(例如，重启集群、现有管理节点离开集群、向集群添加新节点、预测集群中的节点故障、创建新虚拟机(VM)等)。如果在框306中确定不应重新选择管理节点，则方法300循环回到框304直到确定应重新选择管理节点。

一旦在框306中确定应重新选择管理节点，方法300就前进到框308。在框308中，识别集群中的所有节点。集群的节点可以驻留在单个站点上，或者可以在地理上分布在多个站点上。每个站点可以包括一个或多个机架，该站点的节点分布在该一个或多个机架上。因此，对于多站点集群，可以识别所有站点，可以识别每个站点的所有机架，并且可以识别每个机架的所有节点。对于单个站点集群，可以识别所有机架，并且可以识别每个机架的所有节点。

在框310中，为在框308中识别的所有节点计算分数。如上所讨论的，对于每个节点，分数可以是该节点的属性的函数，该节点的属性包括地理位置(例如，站点、数据中心区域、机架等)、健康状况(例如，稳定性)和资源利用率(例如，存储器利用率、中央处理单元(CPU)利用率、磁盘利用率、带宽利用率等)。可以使用这些属性将分数计算为到“理想”节点的欧几里德距离。例如，在一个示例中，分数被计算为方程1的平方根。在一些实施方式中，方法300的框308和框310可以共同用于执行方法200的框204的计算。

在另一个示例中，节点可以自主地计算他们的分数。在这种情况下，框310可以涉及检索由节点计算的分数，而不是实际计算分数。

在框312中，基于在框310中计算(或检索)的分数对集群的节点进行排名。例如，可以根据分数按顺序(例如，按照升序分数的顺序、降序分数的顺序或其他顺序)对节点进行分类。例如，如果分数表示到理想节点的欧几里德距离，那么节点可以以升序分数的顺序排序，其中较低分数表示对应节点“更接近”理想节点(并且因此，较低分数排名高于较高分数)。

在框314中，基于排名为集群选择期望数目n的管理节点。在一个示例中，管理节点的期望数目n是奇数，以便在集群被分区或管理节点故障的情况下避免投票平局。因此，在一个示例中，根据方程2确定n。随着集群拓扑的变化(例如，由于现有节点离开集群和/或新节点加入集群，由于集群被分区等)，集群的管理节点的期望数目n可能会随时间改变。

在一个示例中，n个所选节点可以包括n个最高排名的节点(例如，最接近理想节点的n个节点)。在另一示例中，首先选择副本节点以包括在管理节点集中。然后，如果管理节点集总计还没有n个节点，则可以选择附加数目的最高排名的节点直到管理节点集总计n个节点。然而，为了投票以进行状态改变的目的，副本节点而不是非副本节点可以获得更多的投票数。

在另一示例中，如果集群包括两个节点或更少的节点，则可以选择一个或多个仲裁器(arbiter)作为管理节点(除了一个或多个节点之外)。在这种情况下，仲裁器是“虚拟”节点，可以不运行其他功能而是运行集群管理过程(并且从而在集群上建立仲裁)。但是在某些情况下，仲裁器可提供附加功能。

在另一个示例中，在节点分布在多个站点上的情况下，可以在每个站点上选择相同数目的管理节点。另外，也可以选择一个或多个仲裁器作为管理节点。例如，如果节点分布在两个站点上，则可以创建具有仲裁器的第三站点以充当平局打破者(例如，因为分布有节点的两个站点将包含相同数目的管理节点)。在另一个示例中，在节点分布在多个机架上的情况下，选择来自每个机架的至少一个节点(例如，最高排名的节点)作为管理节点。

在一些实施方式中，方法300的框312和314可以共同用于执行方法200的框206的排名。

一旦选择了期望数目n的管理节点，方法300就前进到框316。在框316中，向框314中选择的每个管理节点发送指令以实例化集群管理过程。如上所讨论的，集群管理过程执行与管理集群相关的操作。例如，集群管理过程可以负责投票以对存储在集群中的数据进行状态改变。在一个示例中，集群管理过程还例如根据方法300选择集群的管理节点。应注意，如果运行方法300的第一节点是在框314中选择的节点之一，则第一节点可以简单地继续运行集群管理过程。然而，如果第一节点不是在框314中选择的节点之一，则第一节点可以在本地禁用或关闭集群管理过程。因此，方法300的框316可以类似于方法200的框208。

方法300在框318中结束。方法300的新迭代可以在方法300的刚刚结束的迭代中选择的作为管理节点的节点上重新开始。

应注意，尽管未明确指定，但上述方法200和方法300的框、功能或操作中的一些可包括存储、显示和/或输出特定应用程序。换句话说，取决于特定应用，可以将方法中讨论的任何数据、记录、字段和/或中间结果存储、显示和/或输出到另一个设备。此外，在图2和图3中列举确定操作或涉及决定的框、功能或操作不一定意味着实施确定操作的两个分支。此外，在不脱离本公开的示例的情况下，一种或多种上述方法的框、功能或操作可以以与上述不同的顺序组合、分离和/或执行。

图4描绘了可以被转换成能够执行在此描述的功能的机器的示例计算机400的高级框图。在一个示例中，计算机400可以是管理节点，例如图1中所示的管理节点102₁、102₂或102_m之一。在一个示例中，计算机400可以包括处理器402和非暂时性机器可读存储介质404。

处理器402可包括微控制器、微处理器、中央处理单元(CPU)核、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。

非暂时性机器可读存储介质404可以包括指令406、408和410，指令406、408和410在由处理器402执行时使处理器402执行各种功能。示例非暂时性机器可读介质包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存、硬盘驱动器等。术语“非暂时性”不包括暂时传播信号；也不旨在暗示不能变更或改变机器可读存储介质(例如，由于机器可读存储介质随时间的自然退化)。

指令406可以包括用于计算多个节点中的第一节点的第一分数的指令。如上所讨论的，第一分数可以包括第一节点的多个属性的函数。在一个示例中，多个属性至少包括：第一节点的地理位置(例如，站点、数据中心区域、机架等)、第一节点的健康状况(例如，稳定性)和第一节点的资源利用率(例如，存储器利用率、CPU利用率、磁盘利用率、带宽利用率等)。在一个示例中，第一分数被计算为到理想节点的欧几里德距离。例如，第一分数可以被计算为方程1的平方根。

指令408可以包括用于根据第一分数和多个节点中的其他节点的分数(假设已经以类似于第一分数的方式计算)来确定多个节点中的第一节点的排名的指令。

指令410可以包括用于当第一节点的排名至少等于预定义排名时向第一节点发送指令以实例化集群管理过程的指令。如上所述，预定义等级可以包括临界值，其中向排名高于临界值的节点发送指令以实例化集群管理过程，并且不向排名低于临界值的节点发送指令(或者向排名低于临界值的节点发送指令以解除对集群管理过程的实例化)。在一个示例中，临界值导致向最高排名的n个节点发送指令以实例化集群管理过程。

应理解，上述公开的变型和其他特征和功能或者他们的替代方案可以组合到许多其他不同的系统或应用中。随后可以进行各种目前无法预料或未预料到的替代、修改或变型，这些替换、修改或变型也旨在被所附权利要求涵盖。

Claims

1.一种用于管理集群的系统，包括：

包括所述集群的多个节点的第一组，其中所述第一组中的每个节点运行集群管理过程，所述集群管理过程投票以对存储在所述集群中的数据进行状态改变、并且基于分数为所述第一组中的成员选择节点，所述分数包括以下的函数：节点位置、节点健康状况和节点资源利用率；和

具有与所述第一组不重叠的成员并且包括所述集群的节点的第二组，其中所述第二组中的每个节点参与集群而不运行所述集群管理过程。

2.根据权利要求1所述的系统，其中所述第一组包括奇数个节点。

3.根据权利要求2所述的系统，其中所述多个节点的数目被计算为：

4.根据权利要求1所述的系统，其中所述分数包括距理想节点的欧几里德距离。

5.根据权利要求1所述的系统，其中所述第一组包括至少一个副本。

6.一种管理分布式存储系统的方法，包括：

通过处理器，为包括多个节点的所述分布式存储系统中的第一节点计算分数，其中所述分数包括以下中的至少一个的函数：所述第一节点的位置、所述第一节点的健康状况和所述第一节点的资源利用率；

通过所述处理器，基于所述分数以及与所述多个节点相关联的多个分数来确定所述多个节点中的所述第一节点的排名；和

当所述排名至少等于预定义排名时，通过所述处理器，向所述第一节点发送指令以实例化用于对所述第一节点上的所述分布式存储系统进行管理的管理过程。

7.根据权利要求6所述的方法，其中所述分数包括距理想节点的欧几里德距离。

8.根据权利要求6所述的方法，其中所述第一节点的所述位置标识所述第一节点所在的机架。

9.根据权利要求8所述的方法，其中所述第一节点的所述位置进一步标识所述第一节点所在的站点。

10.根据权利要求6所述的方法，其中所述第一节点的所述健康状况包括所述第一节点的稳定性。

11.根据权利要求6所述的方法，其中所述第一节点的所述健康状况包括所述第一节点的自我监视、分析和报告技术状态。

12.根据权利要求6所述的方法，其中所述第一节点的所述资源利用率包括存储器利用率。

13.根据权利要求6所述的方法，其中所述第一节点的所述资源利用率包括中央处理单元利用率。

14.根据权利要求6所述的方法，其中所述第一节点的所述资源利用率包括磁盘利用率。

15.根据权利要求6所述的方法，其中所述分数进一步包括所述第一节点的网络带宽的函数。

16.根据权利要求6所述的方法，进一步包括：

在发送所述指令之前，通过所述处理器，确定要向所述多个节点发送所述指令的所述多个节点的数目。

17.根据权利要求16所述的方法，其中所述数目包括奇数。

18.根据权利要求17所述的方法，其中所述数目被计算为：

19.一种编码有能由处理器执行的指令的非暂时性机器可读存储介质，所述机器可读存储介质包括：

用于为包括多个节点的分布式存储系统中的第一节点计算分数的指令，其中所述分数包括以下中的至少一个的函数：所述第一节点的位置、所述第一节点的健康状况和所述第一节点的资源利用率；

用于基于所述分数以及与所述多个节点相关联的多个分数来确定所述多个节点中的所述第一节点的排名的指令；和

用于当所述排名至少等于预定义排名时向所述第一节点发送指令以实例化用于对所述第一节点上的所述分布式存储系统进行管理的管理过程的指令。

20.根据权利要求19所述的非暂时性机器可读存储介质，其中所述分数包括距理想节点的欧几里德距离。