CN114764368A

CN114764368A - 基于容错代理的集群管理方法和装置

Info

Publication number: CN114764368A
Application number: CN202111416119.3A
Authority: CN
Inventors: 拉贾特·兰詹·维尔玛; 维沙尔·纳维尼特·潘迪亚
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2021-01-15
Filing date: 2021-11-25
Publication date: 2022-07-19

Abstract

本发明提供了一种由基于容错代理的集群中的管理节点管理数据收集的方法及其管理节点。所述方法包括：从至少一个代理节点接收一组预定义指标；检测每个指标的到达时间和相关指标值；确定所述到达时间和所述相关指标值指标是否满足所述管理节点处的容许到达时间限制。基于不满足所述容许时间限制的所述确定，所述方法包括对所述指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则。此外，基于所述已运用的一组调整规则，所述方法包括：执行涉及所述一组预定义指标中的所述指标的基于指标的计算。

Description

基于容错代理的集群管理方法和装置

技术领域

此处描述的本发明大体涉及大型分布式系统管理环境，更具体地，涉及基于代理的集群管理系统和方法。

背景技术

在被管元素的数据由安装在被管元素上的代理收集的大型分布式系统管理环境中，数据到达较晚或根本未到达是一种常见的场景。这导致数据变得陈旧、不准确或无效，无法进行进一步推导和计算。

在基于代理的现有集群管理系统中，代理部署在集群的节点上。代理收集一组预定义指标，并根据定义的时间间隔将所述一组预定义指标传送回管理系统。由于延迟或未到达所致的任何丢失指标均被忽略，且不考虑用于任何计算。这是理想化系统的配置，所述配置期望代理始终可用，数据发送及时，而不会丢失或延迟。然而，很可能丢失几个指标，或代理没有及时打开数据。如果发生任何数据丢失，本系统不会试图替换所述数据或使用任何解决方案进行优化。

因此，需要提供用于解决数据丢失问题且使管理系统的数据更加准确且容错性更强的系统和方法。

发明内容

本发明内容主要介绍与基于代理的集群管理系统和方法相关的概念。

本发明的主要目的是提供基于代理的集群管理系统中的数据丢失问题的解决方案，所述解决方案通过提供更全面的方法来配置和收集来自代理的数据，以便通过克服任何数据丢失来使收集更加可靠、系统更加稳健。

在第一种实现方式中，本发明提供了一种由基于容错代理的集群中的管理节点管理数据收集的方法，所述基于容错代理的集群包括所述管理节点和多个代理节点。所述方法包括：从至少一个代理节点接收一组预定义指标；检测所述已接收的一组预定义指标中的每个指标的到达时间和相关指标值；确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制。基于不满足所述容许时间限制的所述确定，所述方法包括对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则。此外，基于所述已运用的一组调整规则，所述方法包括：执行涉及所述一组预定义指标中的所述每个指标的基于指标的计算。

在第二种实现方式中，公开了一种用于在基于容错代理的集群中管理数据收集的管理节点。所述管理节点包括接收器，所述接收器用于从至少一个代理节点接收一组预定义指标。此外，所述管理节点包括处理器，所述处理器用于检测所述已接收的一组预定义指标中的每个指标的到达时间和相关指标值；确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制。基于不满足所述容许时间限制的所述确定，所述处理器用于对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则。此外，基于所述已运用的一组调整规则，所述处理器用于执行涉及所述一组预定义指标中的所述每个指标的基于指标的计算。

与本发明中公开的实施例相关联的一个或多个技术优势在于，通过实现包括用于任何进一步计算和推导的延迟到达指标和丢失指标的解决方案，使得所述指标收集系统更加稳健且容错性更强，从而提高所述基于指标的计算的准确性。

附图说明

该详细描述是参考附图进行描述的。在附图中附图标记最左边的数字表示该附图标记首次出现的附图。所有附图使用相同的数字来指代相同特征和组件。

图1示出了本发明一种实现方式提供的基于容错代理的集群的示意图；

图2示出了本发明另一种实现方式提供的基于容错代理的集群的示意图；

图3示出了本发明实施例提供的来自代理节点的时间与ping响应图表；

图4示出了本发明的一个实施例提供的管理节点执行的方法；

图5示出了本发明再一实施例提供的管理节点执行的方法；

图6示出了本发明另一实施例提供的管理节点执行的方法；

图7示出了本发明又一实施例提供的管理节点执行的方法；

图8示出了本发明又一实施例提供的管理节点执行的方法；

图9示出了本发明实现方式提供的管理节点的示意图示。

应理解，附图用于说明本发明的概念，而不应理解为对本发明进行限制。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术解决方案进行清楚的描述。显然，所描述的实施例仅仅是本发明的一部分实施例而不是全部实施例。

本发明可以通过多种方式实现为过程、装置、系统、物质组成、计算机可读介质(例如计算机可读存储介质)或计算机网络，其中，程序指令通过光学或电子通信链路发送。在本说明书中，这些实现方式或者本发明可以采取的任何其它形式可以称为技术。通常，所公开过程的步骤的顺序可以在本发明的范围内进行更改。

下面提供本发明的一个或多个实施例的详细描述以及示出本发明的原理的附图。虽然本发明是结合这些实施例进行描述的，但本发明不限于任何实施例。本发明的范围仅由权利要求书限制，并且本发明包括许多替代方案、修改和等同物。以下描述中阐述了许多具体细节，以便透彻地理解本发明。提供这些细节是为了举例的目的，并且本发明可以在没有部分或者所有这些具体细节的情况下根据权利要求书进行实践。为清楚起见，没有详细描述有关本发明的技术领域中已知的技术资料，以免对本发明产生不必要的混淆。

以下详细描述中阐述了许多具体细节，以便透彻地理解本发明。但是，本领域的技术人员应理解，在没有这些特定细节的情况下，依然可以实践本发明。在其它情况下，没有详细描述公知的方法、过程、组件、模块、单元和/或电路，以免混淆本发明。

尽管本发明实施例不限于此，但使用处理、计算、确定、建立、分析、检查等术语进行的讨论，可以指计算机、计算平台、计算系统或其它电子计算设备的操作和/或过程，该操作和/或过程将数据(该数据表示为计算机寄存器和/或存储器内的物理(例如，电子)量)操纵和/或转换成其它数据，该其它数据类似地表示为计算机寄存器和/或存储器或可以存储指令以执行操作和/或过程的其它信息非暂时性存储介质内的物理量。

尽管本发明实施例在这方面不受限制，但本文使用的术语“多个”可以包括“两个或更多个”。术语“多个”可以在整个说明书中用于描述两个或更多个组件、设备、元件、单元、参数等。除非明确说明，否则本文描述的方法实施例不限于特定的顺序。此外，所描述的方法实施例或其元素中的一些可以在同一时间点同时发生或执行。

本发明涉及用于由基于容错代理的集群中的管理节点管理数据收集的方法。集群通常是指一组计算机系统，也称为节点，这些计算机系统已链接或互连以紧密配合运行，使得在许多方面这些计算机系统形成一台计算机。与单台计算机相比，集群通常提供显著的性能和/或可用性提升。与速度和可用性相当的单台计算机相比，集群通常更具成本效益。在实施例中，所述集群是大规模通用并行计算系统，例如，分布式内存超级计算机集群或数据中心内的大规模服务器网络。应理解，集群的每个节点可以包括处理单元和本地存储器。

在大型分布式环境的集群中，为了管理所述节点(也称为被管元素)的数据，在所述被管节点上安装代理以收集数据并将所述数据传送回管理系统。因此，数据收集被管元素在下文中称为‘代理节点’。根据本发明实施例，所述集群的管理节点(也称为‘管理服务器’)可以用作所述管理系统的一部分，接收所述代理节点收集到的数据。所述代理节点收集的数据是一组预定义指标，所述管理节点可以使用所述一组预定义指标进行进一步推导和计算。用于推导和计算的所述一组预定义指标的这种用法是已知用法并且本发明中不做详细讨论。所述一组预定义指标中的每个指标可以具有所述管理节点处的到达时间，所述时间可以不同于所述一组预定义指标中的其它指标的相应到达时间。所述一组预定义指标中的每个指标具有相关指标值。此外，由于各种原因，并非所有代理节点都可以一直响应，因此可能无法发送指标或发送与其它节点相比具有延迟的指标。在这种情况下，由于本文中解释的一个或其它原因而发现指标不可用，在本发明的上下文中所述指标将被称为‘丢失指标’或‘丢失指标值’。

根据本发明的教示，基于代理的集群能够容错并避免数据丢失，因此被称为‘基于容错代理的集群’。以一种方式实现所述基于容错代理的集群，以便克服现有技术中基于代理的集群管理系统的以下缺点：

(i)丢失指标：并非所有代理收集到的所有指标都返回到目标存储库、所述管理节点或所述管理服务器，即，由于代理节点与所述管理节点/服务器之间的错误/时延，一些指标可能会丢失。

(ii)不规则指标到达速率：并非来自所有代理的所有指标都以相同的速率(或接近相同的估计到达时间(estimated time of arrival，ETA))到达，以包括在一次指标收集中。

根据本发明实施例，为了对缺点(i)和(ii)进行因素分析，所述基于容错代理的集群提供了一组调整规则，所述一组调整规则可应用于设计一种数据收集方法，所述数据收集方法将对任何计算和推导的指标的延迟到达和/或丢失指标进行因素分析，从而提高基于指标的计算的准确性。

根据本发明的一种具体实现方式，在从代理节点接收的特定指标的所述到达时间超出所述管理节点/服务器设置的容许到达时间限制的情况下，运用所述一组调整规则中的调整规则。在此类实现方式中，所述管理节点用于运用自学习机制，根据可能包括单个代理节点的时延、配置和状态等因素来配置所有代理节点的代理超时。根据实施例，如果与其它代理节点相比，由于安装代理的节点本地的各种原因，所述代理节点发送的指标具有延迟，则运用所述一组调整规则中的调整规则。在这种情况下，所述调整规则(也称为‘配置超时’、‘配置动态超时’，或简称‘第一个调整规则’)定义了所述管理节点动态调整所述延迟指标的所述容许到达时间限制，以便适应所述指标的所述到达时间。图1通过示例示出了实施第一个调整规则的可能场景。

如图1所示，集群100包括多个代理节点20，其中，每个代理节点向管理服务器10发送一组预定义指标，所述管理服务器10应理解为上文讨论的管理节点。为了清楚起见，仅示出了四个代理节点，然而，根据大型分布式管理系统，可能有多个代理节点。所述四个代理节点描述为节点1(标号20A)、节点2(标号20B)、节点3(标号20C)、节点4(标号20D)。在给定示例中，考虑所述管理服务器10进行的进一步推导或计算中涉及的所述一组预定义指标中的任何指标。从相应代理节点20发送的一个此类指标具有所述管理服务器10处的实际到达时间。所述管理服务器10具体用于为每个节点20收集所述指标的到达时间。所述管理服务器10收集的时间可以是指标收集的往返所用时间，即往返时间(round trip time，RTT)。应理解，不同指标具有不同的计算公式，因此所述管理服务器10将考虑每个指标的不同RTT。

此外，由于集群的性质日益分散，集群100的所有代理节点20驻留在同一机架/数据中心上的可能性更小。因此，并非所有代理节点20到所述管理服务器10的任何指标的RTT都是相似的。例如，考虑图1的4节点集群，其中，2个节点位于机架1上，其它2个节点位于机架2上。表1描述了所述集群100的所述代理节点20的放置示例。本例中考虑的指标是磁盘空间。节点1 20A和节点2 20B放置在所述数据中心的机架1上，节点3 20C和节点4 20D放置在所述数据中心的机架2上。所述管理服务器设置的指标“磁盘空间”的容许到达时间限制(表示为‘可接受超时’)为10秒。

表1

指标名称	放置	集群节点	可接受超时	实际到达时间
					磁盘空间	机架1	节点1	10秒	8秒
	机架1	节点2	10秒	12秒
						机架2	节点3	10秒	9秒
	机架2	节点4	10秒	18秒

在当前场景中，一些代理节点的指标到达延迟。在这种情况下，当针对一组定义的指标收集观察到延迟模式时，则所述管理服务器20将更改代理节点-指标组合的RTT，并使用新的时间间隔在将所述指标标记为故障或不可用之前等待这一较长的持续时间。从表1所示的已收集数据中可以观察到，所述节点2、4的响应时间比所述节点1和3的响应时间长。在先前的配置中，如果将超时严格设置为10秒，所述节点2、4将超时，这是因为所述指标的到达时间超过10秒。然而，所述节点2响应所用的时间并不比所述节点1和所述节点3的长很多，而是比较接近所述节点1和所述节点3的到达时间。因此，丢弃所述节点2的指标并不可取，因为这将使基于所述指标“磁盘空间”进行的任何进一步相关计算存在更多缺点。为了将所述节点2的所述指标纳入所述系统中并将所述指标用于进一步相关计算，根据本发明实施例运用所述第一个调整规则来动态调整所述指标的所述容许到达时间限制，即所述指标的超时值。这种具有用于所述指标收集的可配置动态超时值的方法通过避免在所述系统中引入故障以及在指标相关计算中引入错误，将使整个指标收集更加稳健且容错性更强。

在动态调整所述指标的所述容许到达时间限制(即所述指标的超时值)的此类实现方式中，将所述容许到达时间限制增加到先前容许到达时间限制的10-20％的阈值。举例来说，如果所述指标未在预定时间内出现，则所述管理服务器10将具有将所述超时值增加一定阈值(例如，20％)的设置。任何指标在超时间隔窗口(T+0.20T)内到达均被视为成功的指标收集。以图1的示例为例，在运用所述第一个调整规则时，不会丢弃从节点2收集的指标，因为来自节点2的所述指标的所述到达时间将处于所述超时间隔窗口(T+0.20T，T＝10秒)内，并且被纳入所述系统中以用于进一步相关计算。

根据本发明的一种具体实现方式，在所述管理节点/服务器设置的容许到达时间限制之外从代理节点接收特定指标的相关指标值的情况下，即，在本发明的上下文中，所述指标被检测为丢失指标，运用所述一组调整规则中的调整规则。在此类实现方式中，所述管理节点用于运用所述丢失指标的上下文外推。根据实施例，如果代理节点由于各种原因未能发送指标，则运用所述一组调整规则中的另一调整规则。在这种情况下，所述调整规则(也称为‘上下文线性外推’或简称‘第二个调整规则’)定义了对未能到达所述管理节点/服务器的丢失指标执行的上下文外推。图2通过示例示出了实施第二个调整规则的可能场景。

图2示出了图1所示的同一集群100，所述集群100包括多个代理节点20，其中，每个代理节点向管理服务器10发送一组预定义指标，所述管理服务器10应理解为上文讨论的管理节点。四个代理节点描述为节点1(标号20A)、节点2(标号20B)、节点3(标号20C)、节点4(标号20D)。图2示出了由于指标收集丢失所致的丢失指标收集的示例，所述指标收集丢失是由于较大到达延迟或由于所述集群100等大型分布式系统中的收集错误所致。这会导致下游计算错误，并导致系统故障。如图2中可以看出，节点4 20D没有响应发送到所述管理服务器10的任何指标。为了为所述丢失指标收集提供校正措施，可以使用上下文外推方法。

根据一种实现方式，执行上下文外推方法包括：自所述指标的最后一次失败(即，所述指标最后一次被检测为丢失指标)以来，基于所述相关指标值的上下文外推计算所述丢失指标的伪值。这将使指标收集系统比忽略所述丢失指标的情况或基于代理的集群管理系统具有更高的容错性和可靠性，其中，指标到达的超时是固定的，而不是随着被监控的这些系统的行为而调整。举例来说，丢失指标的CEV计算如下：

(1)检测到指标是丢失指标或指标的相关指标值丢失，下文称为丢失指标值。

(2)存储所述丢失指标的上下文，即，检测到所述当前丢失指标值的时间戳；

(3)将丢失的任何其它相关指标值替换为从先前丢失指标时间戳到当前丢失指标时间戳的平均指标值。这样，如果当前指标值不存在，则所述当前指标值将具有伪指标值。

通过简单的示例，图3示出了当第一次未找到相关指标值时或所述指标从图2所示的集群100中的节点4中丢失时，记录的第一时间戳(t1)。当第二次在所述管理服务器上的节点4中未找到所述指标或检测到所述指标丢失时，记录第二时间戳(t2)。将在两个所记录的时间戳(03:00时的t1和10:00时的t2)之间检测到的所述相关指标值的平均值视为伪指标值，并将在时间戳t2处接收的所述指标的所述相关指标值(即，丢失指标值)替换为该平均值。

根据本发明实施例，生成为所述集群中的代理节点的ping响应所用时间绘制的图表[时间与Ping响应图表]。所述图表指示先前接收的指标的相关指标值、所述指标的所述丢失指标值的相应时间戳和针对所述每个丢失指标值计算的伪CEV。图3通过本文所讨论的图表示例示出了时间与Ping响应图。图中突出显示了丢失指标和外推的伪指标值。在所示图表中，可以看出，很少有数据点(即，所述指标的相关值)在某些间隔中丢失。如果这些丢失指标点用于下游计算，则不会像所有指标点都存在时那样为用户提供所述指标的真实视角。如果将所述丢失指标点替换为上下文外推值(contextually extrapolated value，CEV)(在图表中告知用户这些值)，则这将使用户能够在收集指标时获得所述指标的真实视角。根据再一实施例，所述图表显示在与所述管理服务器通信的用户终端的屏幕上。通信容量可以有线，也可以无线。用户可以有两个图表视图，一个视图是所述丢失指标，另一个视图是所述丢失指标替换为CEV伪指标值。这将使用户对用于计算下游推导出的指标值的误差因素有一个公平的概念，从而使基于指标的计算更加稳健，并且更不容易因丢失指标而出错。

借助这些具有CEV和不具有CEV的视图，用户将更有能力对收集的数据做出更准确的判断，并且对基于指标收集的数据计算中使用的安全因素有一个新的视角。上述公开内容详细阐述了实现上述调整规则的方法和装置，所述方法和装置使基于代理的集群管理系统具有容错性，从而使基于指标的收集更不容易因丢失指标而出错。

图4示出了用于在基于容错代理的集群中管理数据收集的方法400。所述方法由管理节点执行，例如图1和图2所示的管理服务器10。此外，所述基于容错代理的集群是上文讨论的集群100，所述集群通过运用一组调整规则中的一个调整规则来实现容错。所述基于容错代理的集群包括所述管理节点和多个代理节点，例如图1和图2所示的代理节点20，其中，所述管理节点从每个代理节点接收一组预定义指标。如上所述，在任何基于代理的系统管理集群中，并非所有安装在集群的各节点上的代理都一直响应，与其它节点相比，一些代理可能无法或延迟发送指标。所公开的方法提供了适应延迟指标或丢失指标的校正解决方案，从而使整个指标收集更加稳健且容错性更强。应理解，对所述一组预定义指标中的每个指标执行所述方法400，从所述管理节点管理的每个代理节点收集每个指标。

如图4所示，在步骤402中，所述方法400从一个代理节点接收所述指标。对于已接收的每个指标，在步骤404中，所述管理节点检测到达时间和相关指标值。对由所述管理节点管理的每个代理节点执行此步骤，并且应将被监控指标的所述相关指标值发送到所述管理节点。在步骤406中，所述管理节点确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制。可以将所述到达时间(t)的示例视为表1中所示的实际到达时间。可以将所述容许到达时间限制(T)的示例视为表1中所示的可接受超时。所述相关指标值是在所述管理节点的计算或推导中使用的所述指标的值。例如，如果所考虑的指标是‘磁盘空间’，则所述指标的相关值将是相应代理节点的磁盘空间可用大小(以mb/gb为单位)。再次重申，当在所述容许时间限制内未接收到所述相关指标值时，在本发明的上下文中所述相关指标值将被视为丢失指标或丢失指标值。在步骤408中，基于不满足容许时间限制的确定，所述管理节点对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则中的至少一个调整规则。所述一组调整规则至少包括基于上述两种情况中的一种的第一个调整规则和第二个调整规则。基于所述已运用的调整规则，在步骤410中，所述管理节点执行涉及所述一组预定义指标中的所述指标的基于指标的计算。

根据本发明实施例，当由于所述每个指标的所述到达时间(t)超出所述容许到达时间限制(T)的情况而不满足所述容许时间限制时，执行图5中所示的方法500。本文中所考虑的到达时间(t)可以是往返时间(RTT)。在步骤502中，所述管理节点确定所述到达时间(t)不满足所述管理节点处的容许到达时间限制(T)。步骤502是图4所示步骤406的扩展。此外，该情况是指图1和表1所示的应用场景。从代理节点(例如，图1的代理节点2)接收的所述指标的所述到达时间(t)比所述容许时间限制(T)晚，但是没有完全错过，或者比所述管理节点设置的时间间隔窗口延迟太多。因此，在步骤504中，所述管理节点动态调整所述容许到达时间限制(T)以适应所述代理节点的所述到达时间(t)。根据上述一种实现方式，所述容许到达时间限制(T)增加到所述容许时间限制的10-20％的阈值。

根据本发明实施例，当由于在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值的情况而不满足所述容许时间限制时，执行图6中所示的方法600。在步骤602中，所述管理节点确定所述指标的所述相关值不满足所述管理节点处的容许到达时间限制(T)。这是丢失指标(也称为丢失指标值)的情况。因此，所述管理节点在所述容许时间限制(T)内未检测到所述相关指标值，这是因为所述相关指标值从未到达所述管理节点。步骤602是图4所示步骤406的扩展。此外，这种情况是指图2所示的应用场景，其中，来自代理节点4的所述指标从未在所述容许时间限制(T)内发送任何数据。因此，在步骤604中，所述管理节点对该丢失指标值执行上下文外推。

根据上述一种实现方式，执行所述上下文外推，如图7和图8所示。对于在所述容许时间限制(T)内未从所述相应代理节点到达所述管理节点或更确切地说是丢失的相关指标值，在步骤702中，所述管理节点检测当前丢失指标值。在步骤704中，所述管理节点基于针对前一丢失指标值记录的过去时间戳(t1)与针对所述当前丢失指标值记录的当前时间戳(t2)之间接收的所述每个指标的所述相关指标值的平均值，计算针对所述当前丢失指标值的伪上下文外推值(contextually extrapolated value，CEV)。图3可以是这种情况的实现方式的示例。根据本实施例，所述管理节点在每次检测到丢失指标时存储所述时间戳。图8示出了所述代理节点执行的相应方法800。在步骤802中，当在所述容许到达时间限制(T)内未接收到所述指标的所述相关指标值时，所述管理节点检测所述指标的丢失指标值。在步骤804中，所述管理节点在检测时存储所述丢失指标的所述时间戳。

根据上述本发明实现方式，方法700还包括：将所述指标的所述相关指标值设置为所述计算出的伪CEV。

根据本发明实现方式，所述方法700还可以包括：生成所述代理节点的时间与ping响应图表，所述代理节点对所述管理节点漏报所述指标的所述相关指标值。此类图表的示例是图3中所示并在上文讨论的图表。所述图表指示先前接收的所述指标的所述相关指标值、所述指标的所述丢失指标值的相应时间戳和针对所述指标的丢失指标值计算出的伪CEV。

根据本发明实现方式，所述生成的图表可以显示在通信耦合至所述管理节点的用户终端的屏幕上。

根据本发明再一实施例，图9示出了管理节点900的结构元素的示意性图示，所述管理节点900用于在基于容错代理的集群中管理数据收集，所述基于容错代理的集群包括所述管理节点和多个代理节点。可以将所述管理节点900视为等同于图1和图2中所示的管理服务器。所述管理节点900用于执行上述方法400至800。为了在本发明中描述的基于容错代理的集群中执行校正措施，所述管理节点包括接收器/收发器910、处理器920和存储器930。使用硬件或固件来实现所描述的组件。本发明的至少一些特征/方法是使用硬件、固件和/或安装在硬件上运行的软件来实现的。所述管理节点900可以是在交换机、路由器、桥接器、服务器等网络内通过集群(例如图1和2所示的集群100)传输数据包、帧、流和/或数据流等数据的任意设备。Tx/Rx 910可以是发射器、接收器或其组合。Tx/Rx 210耦合到多个下行端口(未示出)，用于从其它节点发送和/或接收一组预定义的指标帧，所述其它节点是图1和2中所示的代理节点。Tx/Rx 910可以耦合到多个上行端口(未示出)，用于分别从其它节点发送和/或接收帧。所述处理器920耦合到Tx/Rx 210，以处理从其它节点(为代理节点)接收的指标，从而在集群中出于管理目的执行进一步计算或推导。所述处理器920可以包括一个或多个多核处理器和/或存储器模块930，所述多核处理器和/或存储器模块930用作数据存储器、缓冲器等。所述处理器920作为通用处理器实现，或是作为一个或多个专用集成电路(application specific integrated circuit，ASIC)和/或数字信号处理器(digitalsignal processor，DSP)的一部分。根据特定实施例，所述处理器920根据存储器240中存储的指令执行基于容错代理的集群管理的校正措施，所述指令由所述处理器920执行。所述存储器930可以包括用于临时存储内容的缓存，例如随机存取存储器(random accessmemory，RAM)。此外，所述存储器模块920包括用于相对较长时间存储内容的长期存储器，例如只读存储器(read-only memory，ROM)。例如，所述缓存和所述长期存储器包括动态随机存取存储器(dynamic random access memory，DRAM)、固态硬盘(solid-state drive，SSD)、硬盘或其组合。

应理解，通过对可执行指令进行编程和/或将所述可执行指令加载到所述管理节点900上，改变所述处理器920、所述缓存和所述长期存储器中的至少一个，从而将所述管理节点900部分地变换为特定机器或装置，例如，运用校正措施以适应来自代理节点的延迟指标或丢失指标以便在基于容错代理的集群中提供更稳健的数据收集的管理节点。对于电气工程和软件工程领域来说，可通过将可执行软件加载到计算机中来实现的功能可以通过公认的设计规则转变为硬件实现方式，这一点至关重要。在软件还是硬件中实现某一概念通常取决于对待生成单元的设计稳定性和数量的考虑，而并非考虑任何涉及从软件域到硬件域的转换问题。通常，经常变化的设计优先在软件中实现，这是因为重编硬件实现要比重编软件设计更加昂贵。通常，稳定性好且大批量生产的设计更适合在ASIC等硬件中实现，因为对于大批量生产运行，硬件实现方式比软件实现方式更低廉。通常，一项设计以软件的形式进行开发和测试，之后根据公认的设计规则转化为ASIC中等效的硬件实现方式，所述硬件实现方式硬连线至所述软件的指令。按照相同的方式，新型ASIC控制的机器为一种特定机器或装置，同样地，已编程和/或加载可执行指令的计算机也被视为一种特定机器或装置。

如上文关于图1和2的讨论，所述管理节点用于分别根据延迟指标或丢失指标值中的一种或另一种情况，应用所述一组调整规则中的至少一个调整规则，例如本文中所描述的第一个调整规则和第二个调整规则。在运用上文所公开的方法400时，所述接收器910用于从至少一个代理节点接收一组预定义指标。对于已接收的每个指标，所述处理器920用于检测到达时间和相关指标值。此外，所述处理器920用于确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制。基于不满足容许时间限制的所述确定，所述处理器920用于对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则中的至少一个调整规则。基于所述已运用的调整规则，所述处理器920用于执行涉及所述一组预定义指标中的所述每个指标的基于指标的计算。

根据本发明再一实施例，在运用所述方法500时，所述处理器920用于：当所述每个指标的所述到达时间超出所述容许到达时间限制时，在运用所述一组调整规则时，动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间。根据一种实现方式，所述处理器920用于将所述容许到达时间限制增加到所述容许时间限制的10-20％的阈值，以动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间。

根据本发明再一实施例，在运用所述方法600时，所述处理器920用于：当在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值时，在运用所述一组调整规则时，执行上下文外推。

根据本发明再一实施例，在运用所述方法700至800时，所述处理器920用于：当在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值时，检测所述每个指标的当前丢失指标值。此外，所述处理器920用于基于针对前一丢失指标值记录的过去时间戳与针对所述当前丢失指标值记录的当前时间戳之间接收的所述每个指标的所述相关指标值的平均值，计算针对所述当前丢失指标值的伪上下文外推值(contextuallyextrapolated value，CEV)。在当前实现方式中，所述存储器930用于为所述每个指标的每个丢失指标值存储相应时间戳。

根据上述实施例的再一实现方式，所述处理器920用于将所述每个指标的所述相关指标值设置为所述计算出的伪CEV。

根据上述实施例的再一实现方式，所述处理器920用于生成所述至少一个代理节点的时间与ping响应时间的图表，所述图表指示先前接收的所述每个指标的相关指标值、所述每个指标的所述每个丢失指标值的所述相应时间戳和针对所述每个指标的所述每个丢失指标值计算出的伪CEV。

根据本发明再一实施例，图9示出了通信耦合至所述管理节点900的用户终端940。当所述用户终端为电子设备或计算设备等设备时，所述用户终端940可以包括显示屏。然而，在另一种实现方式中，所述用户终端940可以是显示屏。在一种实现方式中，所述管理节点900可以包括所述用户终端940作为显示屏组件。在另一种实现方式中，所述管理节点900可以通过有线或无线连接与所述用户终端940进行通信。

所述处理器920可用于在所述用户终端940的显示屏上显示生成的所述至少一个代理节点的时间与ping响应时间的图表。用户可以有两个图表视图，一个视图是所述丢失指标，另一个视图是所述丢失指标替换为CEV伪指标值。这将使用户对用于计算下游推导出的指标值的误差因素有一个公平的概念，从而使基于指标的计算更加稳健，并且更不容易因丢失指标而出错。

上述实施例提供的技术效果可大致进行如下分类：

·修复：当数据到达延迟时，所述管理节点考虑延迟的指标，从而修复由于到达延迟而形成的任何不规范数据。

·预防：当数据丢失时，所述管理节点使用适当的机器学习算法计算自前一丢失值以来的丢失指标数据，以防止计算中的任何错误，从而避免对指标值做出决策和采取行动。

本领域技术人员可以清楚地理解，为了描述的方便和简洁，上述系统、装置和单元的具体工作过程可以参考上述方法实施例中对应的过程，本文不再赘述。

虽然本发明提供了若干个实施例，但应当理解，在不脱离本发明的范围的情况下，所公开的系统和方法可能通过其它多种具体形式体现。本发明的示例将被认为是说明性的而非限制性的，并不旨在受限于本文中所描述的详细内容。例如，各种元件或组件可以组合或集成在另一个系统中，或者一些特征可以省略或不实施。

此外，在不脱离本发明范围的情况下，各种实施例中描述和说明为独立或分离的技术、系统、子系统和方法可以与其它系统、模块、技术或方法组合或集成。展示或描述为彼此耦合或直接耦合或者互相通信的其它项也可以采用电方式、机械方式或其它方式经由某一接口、设备或中间组件间接地耦合或通信。本领域技术人员在不脱离本文所公开的范围的情况下可以确定出其它变化、替换和更改的示例。

因此，本发明的保护范围不应限于以上描述，但应受以下权利要求限定，所述保护范围包括权利要求书中与专利主题等效的所有内容。说明书中进一步明确公开每一条权利要求，所述权利要求书则是本发明的具体实施例。本发明中对引用部分的讨论不应视为承认其为现有的技术，特别是公开日期晚于本申请优先权日期的任何引用。

最后，选择本说明书中使用的语言主要是出于可读性和指导性，而不是记述或限制发明主题。因此，本发明的范围不由该详细描述限制，而是由本申请提出的任何权利要求限制。因此，本发明实施例的公开内容旨在为说明性的，而不是为了限制本发明的范围，本发明的范围在权利要求中提出。

Claims

1.一种由基于容错代理的集群中的管理节点管理数据收集的方法，其特征在于，所述基于容错代理的集群包括所述管理节点和多个代理节点，所述方法包括：

-从至少一个代理节点接收一组预定义指标；

-检测所述已接收的一组预定义指标中的每个指标的到达时间和相关指标值；

-确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制；

-基于不满足所述容许时间限制的所述确定，对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则中的至少一个调整规则；

-基于所述已运用的调整规则，执行涉及所述一组预定义指标中的所述每个指标的基于指标的计算。

2.根据权利要求1所述的方法，其特征在于，不满足所述容许时间限制的所述确定包括以下条件中的至少一个：

a.所述每个指标的所述到达时间超出所述容许到达时间限制；

b.在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值。

3.根据权利要求2所述的方法，其特征在于，当所述每个指标的所述到达时间超出所述容许到达时间限制时，所述运用一组调整规则包括：

动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间。

4.根据权利要求3所述的方法，其特征在于，所述动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间包括：将所述容许到达时间限制增加到所述容许时间限制的10-20％的阈值。

5.根据权利要求1所述的方法，其特征在于，所述到达时间是在所述管理节点处从所述至少一个代理节点接收的所述每个指标的往返时间。

6.根据权利要求2所述的方法，其特征在于，当在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值时，所述运用一组调整规则包括执行上下文外推。

7.根据权利要求6所述的方法，其特征在于，所述执行上下文外推包括：

当在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值时，检测所述每个指标的当前丢失指标值；

基于针对前一丢失指标值记录的过去时间戳与针对所述当前丢失指标值记录的当前时间戳之间接收的所述每个指标的所述相关指标值的平均值，计算针对所述当前丢失指标值的伪上下文外推值(contextually extrapolated value，CEV)；

其中，所述方法包括：为所述每个指标的每个丢失指标值存储相应时间戳。

8.根据权利要求7所述的方法，其特征在于，包括将所述每个指标的所述相关指标值设置为所述计算出的伪CEV。

9.根据权利要求7所述的方法，其特征在于，包括生成所述至少一个代理节点的时间与ping响应时间的图表，所述图表指示先前接收的所述每个指标的相关指标值、所述每个指标的所述每个丢失指标值的所述相应时间戳和针对所述每个指标的所述每个丢失指标值计算出的伪CEV。

10.根据权利要求8所述的方法，其特征在于，包括在通信耦合至所述管理节点的用户终端的屏幕上显示所述生成的图表。

11.一种用于在基于容错代理的集群中管理数据收集的管理节点，其特征在于，所述基于容错代理的集群包括所述管理节点和多个代理节点，所述管理节点包括：

-接收器，用于从至少一个代理节点接收一组预定义指标；

-处理器，用于：

o检测所述已接收的一组预定义指标中的每个指标的到达时间和相关指标值；

o确定所述每个指标的所述到达时间和所述相关指标值是否满足所述管理节点处的容许到达时间限制；

o基于不满足所述容许时间限制的所述确定，对所述每个指标的所述容许到达时间限制和所述相关指标值中的至少一个运用一组调整规则中的至少一个调整规则；

o基于所述已运用的调整规则，执行涉及所述一组预定义指标中的所述每个指标的基于指标的计算。

12.根据权利要求11所述的管理节点，其特征在于，所述处理器用于基于以下条件中的至少一个确定不满足所述容许时间限制：

13.根据权利要求12所述的管理节点，其特征在于，所述处理器用于：当所述每个指标的所述到达时间超出所述容许到达时间限制时，在运用所述一组调整规则时，动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间。

14.根据权利要求13所述的管理节点，其特征在于，所述处理器用于将所述容许到达时间限制增加到所述容许时间限制的10-20％的阈值，以动态调整所述容许到达时间限制以适应所述每个指标的所述到达时间。

15.根据权利要求12所述的管理节点，其特征在于，所述到达时间是在所述管理节点处从所述至少一个代理节点接收的所述每个指标的往返时间。

16.根据权利要求13所述的管理节点，其特征在于，所述处理器用于：当在所述容许到达时间限制内未接收到所述每个指标的所述相关指标值时，在运用所述一组调整规则时，执行上下文外推。

17.根据权利要求16所述的管理节点，其特征在于，为了执行所述上下文外推，所述处理器用于：

其中，所述管理节点包括存储器，所述存储器用于为所述每个指标的每个丢失指标值存储相应时间戳。

18.根据权利要求17所述的管理节点，其特征在于，所述处理器用于将所述每个指标的所述相关指标值设置为所述计算出的伪CEV。

19.根据权利要求17所述的管理节点，其特征在于，所述处理器用于生成所述至少一个代理节点的时间与ping响应时间的图表，所述图表指示先前接收的所述每个指标的相关指标值、所述每个指标的所述每个丢失指标值的所述相应时间戳和针对所述每个指标的所述每个丢失指标值计算出的伪CEV。

20.根据权利要求19所述的管理节点，其特征在于，所述处理器用于在通信耦合至所述管理节点的用户终端的屏幕上显示所述生成的图表。