CN109690495B

CN109690495B - 大规模分布式系统汇总与监控的有效方法

Info

Publication number: CN109690495B
Application number: CN201680086979.6A
Authority: CN
Inventors: 夏伊.霍罗威茨; 亚伊·阿里安; 吴文良
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2020-08-25
Anticipated expiration: 2036-12-07
Also published as: CN109690495A; WO2018103839A1

Abstract

本发明第一方面提供一种用于通过动态控制求解模型来监控性能指标值的监控服务器，包括：存储代码的存储器；耦合到所述存储器的至少一个硬件处理器，用于执行所述代码，所述代码包括：用于汇总表示性能指标的测量值的数据点的指令，所述数据点根据求解模型划分数值区间，所述数据点从多个受监控节点接收到，多个受监控节点从监控服务器接收求解模型；用于通过计算所需百分位数位于哪个数值区间中来计算所需百分位数值区间的指令；用于基于所需百分位数值区间的所需求解值来确定修改的求解模型，并将修改的求解模型发送到多个受监控节点的指令。

Description

大规模分布式系统汇总与监控的有效方法

背景技术

本发明在其一些实施例中涉及用于监控分布式计算系统性能的监控服务器，更具体地但非排他地，通过动态地修改表示分布式计算机的测量性能的分布式模型的求解值来监控性能。

云计算和数据中心服务是大型组织常用的存储和计算解决方案。但是，监控多个受监控节点的性能指标会给运营商带来技术挑战。云计算服务中的应用程序可以运行在数千或数万个受监控节点上，例如VM、容器、计算机等。为了监控全系统性能，在此被称为受监控实体的每个相关联的受监控节点可以将性能数据报告给监控服务器，该监控服务器聚合该性能数据并计算系统性能。系统所需的性能通常在服务提供商和客户之间的服务级别协议(service level agreement，简称SLA)中规定。

客户端应用程序通常对资源具有动态需求，可由云和/或数据中心使用高级自动调整进行分配。但是，资源调整会使实时监控性能变得更加复杂。只有在分配给特定客户端以便计算自动调整操作对该客户的SLA的影响时，才需要来自受监控实体的反馈。

例如，SLA可以指定报告所有受监控实体的响应时间的第99百分位。为了确定在云和/或数据中心上执行的应用程序的第99百分位，每个监控实体必须将所有响应时间传输到监控服务器，该监控服务器聚合数据并计算第99百分位响应时间。

计算性能指标通常可能导致受监控实体传输一定数量的数据，这些数据会使本地网络过载，降低对客户的服务质量和/或降低云运营商网络的可用性。报告数据的数量可能会导致监控服务器上的处理负载，这可能会增加报告延迟。

用于收集性能数据的现有解决方案包括NewRelic、AppDynamics、Dynatrace和Sysdig，但是这些解决方案会生成大量的性能数据，这可能会降低对客户的服务质量。

用于减少性能数据量的现有解决方案包括Q-Digest算法。但Q-Digest算法不能处理受监控实体的动态分配，需要预先定义合适的压缩参数，并且根据所选择的压缩因子来限制精度。

发明内容

本发明的目的在于提供通过动态控制求解模型来监控性能指标值的系统和方法。前述和其它目的通过独立权利要求的特征来实现。其它实现在从属权利要求、说明书和附图中显而易见。

本发明第一方面提供一种用于通过动态控制求解模型来监控性能指标值的监控服务器，包括：存储代码的存储器；耦合到所述存储器的至少一个硬件处理器，用于执行所述代码，所述代码包括：用于汇总表示性能指标的测量值的数据点的指令，所述数据点根据求解模型划分数值区间，所述数据点从多个受监控节点接收到，多个受监控节点从监控服务器接收求解模型；用于通过计算所需百分位数位于哪个数值区间中来计算所需百分位数值区间的指令；用于基于所需百分位数值区间的所需求解值来确定修改的求解模型，并将修改的求解模型发送到多个受监控节点的指令。本发明第一方面提供了以下优点：减少需要发送的数据量，以便监控服务器监控多个受监控实体的性能指标。

本发明第二方面提供一种通过动态控制求解模型来监控性能指标值的方法，包括：汇总从接收求解模型的多个受监控实体接收的表示性能指标的测量值的数据点，所述数据点根据求解模型划分数值区间；计算所需百分位数位于哪个数值区间；基于所需百分位数值区间的所需求解值来确定修改的求解模型；将修改的求解模型发送到多个受监控节点。本发明第二方面提供了一种方法，用于减少需要发送的数据量，以便监控服务器监控多个受监控实体的性能指标。

结合第一和/或第二方面，在第一种可能的实现方式中，针对计算出的所需百分位数值区间修改求解模型，并响应于向所述受监控节点发送所述修改的求解模型，以接收和汇总表示所需的百分位数值区间内的测量值的数据点，并根据修改后的求解模型将所需的百分位数值区间内的测量值分类至数值子区间。该实现方式提供了以下优点：通过使受监控实体将基于修改的求解模型的分布式模型发送到监控服务器，使得监控服务器能够基于传输的修改的求解模型来计算新的分布式模型。

结合第一和/或第二方面或第一种可能的实现方式，在第二种可能的实现方式中，修改后的求解模型专门发送到具有在计算的所需百分位数值区间内的数据点的监控节点。该实现方式提供以下优点：通过消除来自受监控节点的空响应减少网络流量。

结合第一和/或第二方面或者第一种或第二种可能的实现方式，在第三种可能的实现方式中，发送修改的求解模型，并响应于仅在计算的所需百分位数值区间内发送修改的求解模型的数据点进行接收。该实现方式提供了以下优点：通过消除不在所需百分位数值区间内发送的数据点，来减少来自监控节点的网络流量。

结合第一和/或第二方面或者第一、第二或第三种可能的实现方式，在第四种可能的实现方式中，修改所述求解模型，以包括接近所需百分位数值区间而非其它数值区间的更高求解值。该实现方式提供了以下优点：提高数据点的准确性，可以减少实现所需求解值所需的迭代次数。

结合第一和/或第二方面或者第一、第二、第三或第四种可能的实现方式，在第五种可能的实现方式中，通过计算所需百分位数值区间的中间值周围的对数求解值来修改求解模型，而不改变数值区间的数量。该实现方式提供了以下优点：提高数据点准确性的优点，可以减少实现所需求解值所需的迭代次数。

结合第一和/或第二方面或第一、第二、第三、第四或第五种可能的实现方式，在第六种可能的实现方式中，所述汇总包括从所述多个受监控节点中的每一个接收位于每个所述数值区间中的数据点的数量的指示，并将每个所述数值区间中的数据点的数量相加。该实现方式提供了以下优点：允许汇总的数据点代表所有受监控节点的集体测量的性能指标。

结合第一方面和/或第二方面或第一、第二、第三、第四、第五或第六种可能的实现方式，在第七种可能的实现方式中，重复所述汇总、计算和确定直到所需百分位数值区间具有所需求解值。该实现方式提供了自动重复代码指令的优点，直到达到所需的求解值。

结合第一方面和/或第二方面或第一、第二、第三、第四、第五、第六或第七种可能的实现方式，在第八种可能的实现方式中，所需的求解值根据为监控量预定义的所需精度来确定。该实施方式提供了以下优点：默认要求精度，允许监控服务器独立于用户指令进行操作。

结合第一方面和/或第二方面或第一、第二、第三、第四、第五、第六、第七或第八种可能的实现方式，在第九种可能的实现方式中，在每个连续时间间隔中重复汇总所述数据点，计算所需百分位数值区间，并确定所述修改求解模型的指令，其中在每个连续时间间隔中，数据点是根据上一时间间隔确定的求解模型汇总的。该实现方式提供了以下优点：通过在接收数据点之前确定修改的求解模型来减少时延。

结合第一和/或第二方面和/或第九种可能的实现方式，在第十种可能的实现方式中，预定义每个时间间隔中修改的求解模型，每个时间间隔中修改的求解模型根据期望的重复次数确定，或者根据每次重复中增加的预定义的求解值确定。该实现方式提供了以下优点：允许用户控制重复次数或重复之间求解模型的改变速率。

结合第一方面和/或第二方面和/或第九种可能的实现方式，在第十一种可能的实现方式中，根据在连续时间间隔中计算的所需百分位数值区间计算所需百分位数值区间的变化率，基于计算的变化率预测下一时间间隔内估计的所需百分位数值区间，并修改求解模型以包括接近估计的所需百分位数值区间，而非其它数值区间内的更高求解值。该实现方式提供了以下优点：通过基于先前的迭代预测所需的百分位数值区间来减少实现期望求解值所需的迭代次数。

结合第一和/或第二方面和/或第十一种可能的实现方式，在第十二种可能的实现方式中，在每个时间间隔中根据先前时间间隔的数量通过自回归模型来预测估计的所需百分位数值区间。该实现方式提供了以下优点：通过基于自回归模型预测所需百分位数值区间，来减少实现期望求解值所需的迭代次数。

结合第一方面和/或第二方面和/或第十一种可能的实现方式，在第十三种可能的实现方式中，根据所需百分位数值区间的变化率确定所述时间间隔的长度，使得估计的所需百分位数值区间位于来源于先前时间间隔内计算的所需百分位数值预定区间内。该实现方式提供了以下优点：通过使时间间隔的变化率适应所需百分位数值区间的变化率，确定适合于当前时间间隔的求解模型。

结合第一和/或第二方面，或者第一、第二、第三、第四、第五、第六、第七、第八、第九、第十、第十一、第十二或第十三种可能的实现方式中，在第十四种可能的实现方式中，初始求解模型由用户配置确定。该实现方式提供了以下优点：允许用户控制初始求解模型。

结合第一和/或第二方面或第一、第二、第三、第四、第五、第六、第七、第八、第九、第十、第十一、第十二、第十三或第十四种可能的实现方式中，在第十五种可能的实现方式中，当所述数值区间中的指标值的数量小于预定阈值时，从所述受监控节点接收位于数值区间中的所述性能指标的测量值。该实现方式提供了以下优点：当分布式模型大于测量值的时减少网络流量。

结合第一和/或第二方面，或者第一、第二、第三、第四、第五、第六、第七、第八、第九、第十、第十一、第十二、第十三、第十四或第十五种可能的实现方式中，在第十六种可能的实现方式中，所述求解模型包括不同数值区域中的不同求解值。该实现方式提供了以下优点：在预测包含所需百分位的数值区间内允许更高的求解值。

通过查看以下附图和详细描述，本发明的其它系统、方法、特征和优点对于本领域技术人员而言将显而易见。旨在将所有这些附加系统、方法、特征和优点包括在本说明书内，在本发明的范围内，并且由所附权利要求保护。

除非另有定义，否则本文所使用的所有技术或科学术语的含义与本发明所属领域的普通技术人员所公知的含义相同。尽管与本文所描述的方法和材料类似或者相同的方法和材料可以用于本发明实施例的实践或测试，但下文只描述示例性的方法和/或材料。若存在冲突，则以包括定义在内的专利说明书为准。另外，材料、方法以及示例都只是用于说明，并非必要限定。

附图说明

此处仅作为示例，结合附图描述了本发明的一些实施例。现在具体结合附图，需要强调的是所示的项目作为示例，为了说明性地讨论本发明的实施例。这样，根据附图说明，如何实践本发明实施例对本领域技术人员而言是显而易见的。

在附图中：

图1为根据本发明一些实施例的示意地表示用于动态地修改表示性能测量结果的分布式模型的求解值来监控分布式计算系统性能的性能测量方法的流程图；

图2A为根据本发明一些实施例的用于动态修改表示性能测量结果的分布式模型的求解值来监控分布式计算系统性能的示例性性能监控服务器的示意图；

图2B为根据本发明一些实施例的用于向性能监控服务器报告所测量的性能值的示例性受监控实体的示意图；

图2C为包括监控服务器200和多个受监控实体250的示例性分布式计算机网络的示意图；

图3A为根据本发明一些实施例的主分布式模型的柱状图示；

图3B示出了根据本发明一些实施例的图3A中示出的柱状图的主分布式模型；

图4A为根据本发明一些实施例的响应于发送修改的求解模型而接收到的主分布式模型的柱状图示；

图4B示出了根据本发明一些实施例的图4A中示出的柱状图的主分布式模型。

具体实施方式

本发明在其一些实施例中涉及用于监控分布式计算系统性能的监控服务器，更具体地但非排他地，通过动态地修改表示测量性能的分布式模型的求解值来监控性能。

监控云计算服务和/或数据中心的分布式计算机的性能指标是许多SLA的要求。例如，SLA可能需要每分钟报告服务的指标，例如对服务请求的响应延迟、丢弃的数据包、服务质量(quality of service，简称QoS)和/或任何其它性能指标。

所需的监控可能会在分布式系统中生成一定量的网络流量，从而导致网络延迟增加。例如，可能需要数千或更多个受监控节点(此处称为受监控实体)来报告每分钟测得的数百万或更多的测量性能值。性能测量可能会导致服务降级，例如，增加网络延迟和/或监控流量堵塞云网络。此外，监控服务器必须收集和分析表示来自多个受监控实体中的每一个的性能指标的测量结果的数据，这可能增加监控服务器报告的等待时间。

监控服务器可以为用于监控从受监控实体接收的性能指标值的计算设备。受监控实体可以为计算设备，该计算设备通过例如计算机网络测量性能指标并将其传送到监控服务器。测量的性能指标的值可以为例如受监控实体响应服务请求的毫秒数(ms)，监控实体接收到的丢弃和/或乱序数据包的百分位，完成的请求数量等。

用于减少受监控实体传输到监控服务器的数据量的解决方案为：将统计频率分布替代性能测量值进行传输，在此称为分布式模型，表示性能测量值。分布式模型可以用图形表示，例如柱状图。

分布式模型可以为一组数字，在本文中称为数据点，每个数据点表示在特定时间间隔或数值区间内的性能测量值的频率或计数。根据本发明的实现方式，性能测量可以表示在时间间隔期间受监控实体的毫秒单位内的服务请求的响应时间。数值区间可以是测量性能值的范围，例如根据测量性能值的一组最大值和最小值定义，例如300ms至350ms，和/或350ms至400ms等。

分布式模型的数值区间可以由一组数字和/或数字对，例如列表和/或表格来表示，其中每个数字和/或数字对表示相应数值区间的范围，如上所述。分布式模型的这组值区间在此处称为求解模型。

例如，可以通过在监控服务器上以下述方式执行代码指令来计算具有由受监控实体测量的响应时间的10个相等值区间的求解模型：最低和最高测量响应时间的值可以预先确定，例如分别为800ms和1300ms。所有测量值的范围在最高测量值减去最低测量值的结果内。本例中，范围为500ms。每个数值区间的范围为将所有测量值的范围除以数值区间的数量而计算获得的商，其中在该示例中，500ms除以10的商得到50ms的数值区间。

10个数值区间中的每一个区间的范围都按以下方式定义：最小数值区间的50ms范围由最低测量响应时间800ms确定，结果为800ms至850ms的数值区间。其余的9个范围为50ms的数值区间的最低值等于上一个数值区间的最高值。上述计算的求解模型包含一组范围为50ms的10个数值区间，每个区间的组合范围为800ms到1300ms。

继续上述示例，代表受监控实体测量的响应时间的1000个数值的分布式模型可以通过以下面的方式在监控实体上执行代码指令来计算。监控实体从监控服务器接收如上计算的求解模型。监控实体通过识别数值落在10个值区间中的每一个区间内的测量响应时间的数量来计算10个数据点。所得到的数据点包括分布式模型，该分布式模型可以发送到监控服务器。

为了表示包括多个受监控实体的云计算系统和/或数据中心的性能，主分布式模型可以通过在监控服务器上执行代码指令来从多个分布式模型汇总。汇总包括对从多个受监控实体接收到的分布式模型的相应值区间的数据点求和。

监控受监控实体性能的一个重要方面是实现所需的求解值，例如SLA可能需要5ms内的报告精度，以满足所有受监控实体响应时间的百分位要求。在上面的例子中，分布式模型的每个数值区间都是50ms，因此性能测量的数值只能在50ms求解值内表示，这不能满足SLA规定的要求精度。

为实现性能测量的所需求解值，在监控服务器上执行代码指令，例如，可以根据SLA的要求修改求解模型，并将修改后的求解模型发送到受监控实体。通过迭代地修改分析模型并将求解模型传输到受监控实体，监控服务器可以随时间控制性能测量的求解值。

本发明在其一些实施例中呈现了用于一些方法和系统，用于从受监控实体接收表示性能测量值的多个分布式模型，将接收到的分布式模型汇总为主分布式模型，根据需求修改求解模型以满足所需等级的求解值，并将修改后的求解模型发送给受监控实体。

通过用分布式模型代替测量的性能值，本发明减少了从受监控实体传输到监控服务器的数据量。如上面的例子所示，1000个性能测量值可以由包括10个数据点的分布式模型来表示，由此传输的数据量可以减少两个数量级。

通过将修改的求解模型发送到受监控实体，本发明使得监控服务器能够实现分布式模型任何所需的求解值，并动态地修改由受监控实体传输的数据点的求解值。

在详细解释本发明的至少一个实施例之前，应当理解，本发明不必将其应用限于在下面的描述中阐述的和/或在附图和/或实施例中说明的部件和/或方法的结构和布置的细节。本发明可以有其它实施例或可以采用各种方式实践或执行。

本发明可以为系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质(或多个介质)，计算机可读存储介质具有用于使处理器执行本发明的各方面的上述计算机可读程序指令。

计算机可读存储介质可以为可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以为，例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何适当组合。

可以从计算机可读存储介质中将此处描述的计算机可读程序指令下载到各个计算/处理设备上，或通过网络下载到外部计算机或外部存储设备上，所述网络如因特网、局域网、广域网和/或无线网。

计算机可读程序指令可以完全在用户电脑上执行，或部分在用户电脑上执行，或作为独立的软件包，部分在用户电脑上执行，部分在如网络装置等远端电脑上执行，或完全在远端电脑或服务器上执行。在后面的场景中，远端电脑可以通过任何类型的网络与用户电脑连接，包括局域网(local area network，简称LAN)或广域网(wide area network，简称WAN)，或者，可以(例如，使用因特网服务提供商通过因特网)在外部电脑上建立该连接。在一些实施例中，包括可编程逻辑电路、现场可编程门阵列(field-programmable gatearray，简称FPGA)或可编程逻辑阵列(programmable logic array，简称PLA)等的电子电路可以利用计算机可读程序指令的状态信息执行所述计算机可读程序指令以个性化所述电子电路，以便执行本发明的各方面。

此处，结合本发明实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图描述本发明的各方面。应当理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。此时，流程图或框图中的每个框都可以代表一个模块、分段或指令的一部分，包括一个或多个用于实现特定逻辑功能的可执行指令。在一些替代实现方式中，框中提出的功能可不按图中提出的次序进行。例如，事实上，连续展示的两个框可以同时执行，或者有时框可以按照相反的顺序执行，这取决于所涉及的功能。还应注意的是，框图和/或流程图中每一个框以及框图和/或流程图中框的组合可以由基于专用硬件的系统执行，该系统执行指定的功能或动作，或者执行专用硬件和计算机指令的组合。

参见图1，图1为根据本发明一些实施例的示意地表示用于动态地修改表示分布式计算机的测量性能的分布式模型的求解值来监控分布式计算系统性能的性能测量方法100的流程图。

表示性能测量的分布式模型可以包括一组条目，例如条目的列表和/或表格。条目可以为数字、字符和/或实数的任何其它表示。每个条目对应于性能测量值的一个区间，并且每个条目的数值表示测量值落入该条目区间内的性能测量的数目。分布式模型和求解模型的条目的顺序可以对应于数值区间的顺序，例如从最低值区间到最高值区间。

当响应于发送求解模型接收表示性能测量的分布式模型时，性能测量方法100开始。例如，响应于从监控服务器接收到求解模型，多个受监控实体可以将性能监控数据发送到监控服务器。监控服务器可以为，例如以下在图2A中描述的性能监控服务器200。监控的条目可以为，例如以下在图2B中描述的受监控实体250。

当分布式模型的求解值低于所要求的求解值时，例如来自客户的针对报告性能值的特定精度的要求，监控服务器可以修改求解模型并将修改的求解模型发送到例如下面所述的多个受监控实体。

例如，性能测量方法100可以包括以5ms的求解值计算受监控实体的测量响应时间的第99百分位。接收多个分布式模型并将其汇总为主分布式模型中。确定包含第99个百分位测量响应时间的数值区间，比较数值区间与5ms所需求解值。当包含第99百分位数值的数值区间小于或等于5ms时，性能测量方法100完成。

当接收到的分布式模型数值区间大于5ms时，性能测量方法100通过生成并发送具有5ms或更小的数值区间的修改的求解模型来进入第二次迭代。

参见图2A，图2A为根据本发明一些实施例的用于动态修改表示性能测量结果的分布式模型的求解值来监控分布式计算系统性能的示例性性能监控服务器200的示意图。性能监控服务器200包括输入/输出(input/output，简称I/O)接口202、硬件(hardware，简称HW)处理器204和存储器208。

性能监控服务器200用于接收来自受监控实体250的分布式模型，如下图2B中所述，并向受监控实体250发送修改的求解模型，例如通过执行通信模块213中的代码以指示I/O 202进行接收和发送。

I/O 202、HW处理器204和存储器208可以包括，例如服务器、台式计算机、嵌入式计算系统、工业计算机、加固型计算机、笔记本电脑、云计算机、私有云、公共云、混合云和/或任何其它类型的计算系统。可选地，性能监控服务器200包括代替I/O 202、硬件处理器204和存储器208的虚拟机(virtual machine，简称VM)。

性能监控方法100可以由HW处理器204通过执行存储器208中的一个或多个软件模块，例如聚合器模块210、百分位计算器模块211、求解值修改模块212和通信模块213中的代码来执行。软件模块是指存储在如存储器208的非暂时性介质中并由如处理器204的处理器执行的多个程序指令。

存储器208可包括一个或多个非暂时性永久存储器，例如硬盘驱动器、闪存阵列等。存储器208可进一步包括一个或多个网络存储设备，例如存储服务器、网络可访问存储器(network accessible storage，简称NAS)、网络驱动器等。

I/O 202可包括一个或多个接口，例如用于连接到相应资源，即网络资源、存储器资源和/或存储资源的网络接口、存储器接口和/或存储接口。

可选地，I/O 202可包括一个或多个输入接口，例如键盘、软键盘、触摸屏、图形用户界面(graphical user interface，简称GUI)，语音到文本系统和/或任何其它数据输入接口。I/O 202可包括一个或多个输出接口，例如屏幕、触摸屏、视频显示器和/或任何其它视觉显示设备。

可选地，I/O 202可包括用于与网络230通信的网络接口卡(network interfacecard，简称NIC)，无线路由器和/或任何其它类型的网络接口。

网络230可以为任何类型的数据网络，例如局域网(local area network，简称LAN)、光纤网络、以太网LAN、光纤LAN、数字用户线(digital subscriber line，简称DSL)、无线LAN(wireless LAN，简称WLAN)、广域网(wide area network，简称WAN)、宽带连接，使用因特网服务提供商(Internet Service Provider，简称ISP)和/或任何其它类型的计算机网络的因特网连接。网络230可以采用任何类型的数据网络协议，包括传输控制协议和/或网际协议(transport control protocol，简称TCP/Internet Protocol，简称IP)、用户数据报协议(user datagram protocol，简称UDP)、蓝牙、蓝牙低功耗(Bluetooth lowenergy，简称BLE)、符合802.11的无线局域网(wireless local area network，简称WLAN)和/或任何其它有线或无线LAN或WAN协议。参见图2B，图2B为根据本发明一些实施例的用于向性能监控服务器200报告所测量的性能值的示例性受监控实体250的示意图。

可选地，受监控实体250包括输入/输出(input/output，简称I/O)接口202、硬件(hardware，简称HW)处理器204以及包括软件代码指令的存储器208，例如性能测量模块260、分布式模型模块261和通信模块262。

可选地，存储在存储器208中的软件代码指令在处理器204上执行时，指示从性能监控服务器200接收求解模型，收集表示受监控实体250的性能测量数据，根据求解模型计算收集的数据的分布式模型代表，将分布式模型传送到性能监控服务器200，从性能监控服务器200接收修改的求解模型，根据修改的求解模型重新计算分布式模型，并将重新计算的分布式模型传送到性能监控服务器200。

参见图2C，图2C为根据本发明一些实施例的包括监控服务器200和多个受监控实体250的示例性分布式计算机网络的示意图。

如图2C所示，多个受监控实体250经由网络230连接到性能监控服务器200。

再次参见图1，如101所示，当根据传输的求解模型接收分布式模型时，例如处理器204执行来自通信模块213的代码指令，以指示I/O 202时，性能监控方法100开始。

可选地，求解模型被传送到多个受监控实体250，且分布式模型从受监控实体250接收。例如，可以通过I/O 202从用户输入和/或网络资源，和/或从存储器208接收受监控实体的列表，作为汇总模块210的输入。当资源被分配和/或解除分配给性能正被监控的特定服务时，例如当云和/或数据中心使用高级自动调整来分配/解除分配资源时，列表可以更新。

每个接收的分布式模型可以为，例如包含在计算机文件中的数字数据和/或通过I/O 202从网络230接收的任何其它类型的计算机消息。

每个分布式模型可以代表受监控实体250测量的性能值，例如以毫秒为单位测量的对服务请求的响应时间。

如102所示，汇总接收的分布式模型，例如通过在处理器204上执行来自汇总模型210的代码指令。可选地，如上所述，将来自所有接收到的分布式模型的相应数值区间相加以计算主分布式模型。

例如，当求解模型包括三个数值区间并且三个分布式模型被接收时，其中每个分布式模型中的所有三个条目都为数字12，则主分布式模型包括三个条目，每个条目的值为36。

如103所示，计算所需的百分位数值区间，例如通过在处理器204上执行来自百分位计算器模块211中的代码指令。

所需的百分位数值区间包括得到的所需百分位所在的数值区间。所需的百分位数为需要计算的主分布式模型的数值的百分位。可选地，可通过I/O 202从用户输入和/或从网络资源，和/或从存储器208接收所需百分位，作为百分位计算器模块211的输入。

例如，SLA的性能测量要求可以为计算多个受监控实体250的服务请求的响应时间的第99百分位。在这种情况下，99％是所需的百分位数。所需的百分位数值区间是主分布式模型中的数值区间，其中包含大于主分布式模型中所有值的99％的最小值。

如104所示，比较所需百分位数值区间与所需求解值，例如通过在处理器204上执行来自求解值修改模块212中的代码指令。

所需的求解值包括接收到的要求。可选地，可以通过I/O 202从用户输入和/或从网络资源，和/或从存储器208接收所需的求解值，作为百分位计算器模块211的输入。

例如，SLA的性能测量要求可以是在5ms内计算对多个受监控实体250的服务请求的响应时间的第99百分位。在这种情况下，5ms是所需的求解值。

如106所示，当所需百分位数值区间小于所需求解值时，性能监控方法100就完成了。

如105所示，当所需的百分位数值区间大于所需的求解值时，计算修改的求解模型，例如通过在处理器204上执行来自求解值修改模块212中的代码指令。

可选地，使用等于所需求解值的数值区间来计算修改的求解模型。然后，性能测量方法100继续如上所述的步骤101，并发送修改的求解模型。

可选地，性能测量方法100从105继续到100，由此启动新的迭代性能测量方法100。性能测量方法100可以重复迭代，直到满足所需的求解模型数值区间。例如，如果在性能测量方法100期间所需的求解值值区间改变，如105所示，则可能需要在一系列迭代期间重复修改求解模型。

可选地，如上面在105中所描述的，性能测量方法100可以针对受监控实体250在单个时间间隔期间收集的性能测量结果进行重复。例如，性能测量方法100可以针对特定日期的12：00和12：01之间受监控实体收集的性能测量结果进行重复，直到所需的百分位数值区间具有所需的求解值。

可选地，给定时间间隔的传输求解模型在前一时间间隔中计算。

可选地，性能测量方法100中，接收在一个时间间隔期间收集的代表性能测量值的分布式模型，例如通过通信模块213中的代码指令，以指示受监控实体250在一个时间间隔内收集性能测量结果。

可选地，求解模型是针对时间间隔预先确定的。例如，可以通过I/O 202从用户输入，从网络资源输入和/或从存储器208接收所需的求解模型，作为百分位计算器模块211的输入。

可选地，性能测量方法100以恒定的时间间隔(例如每2分钟)迭代，例如通过在处理器204上执行来自汇总模块210的代码指令，以指示发送求解模型。可以通过I/O 202从用户输入和/或从网络资源接收时间间隔以及重复性能测量方法100的次数到存储器208。

可选地，当如上所述以恒定的时间间隔重复性能测量方法100时，用于每个时间间隔的修改的求解模型是预定义的，例如通过I/O 202从用户输入和/或从网络资源接收，并且用作在处理器204上执行的来自求解值修改模块212的代码指令的输入。预定义的求解模型可以依据所需的迭代次数。例如，当需要四次迭代时，可以预定义四种求解模型中的每一种。

如上所述，预定义的求解模型可以依据求解模型期望的变化率。例如，每个求解模型的求解值可能比上一个时间间隔的求解模型高20％。

可选地，可以根据性能测量方法100的先前迭代中的所需百分位数值区间的变化率来预测性地计算所需的百分位数值区间，例如通过在处理器204上执行来自百分位计算器模块211的代码指令。例如，当前三次迭代所需的百分位数值区间具有235ms至240ms、240ms至245ms和245ms至250ms的区间时，每个时间间隔内计算的变化率为5ms，且当前实际间隔内的求解模型可以包括250ms至255ms的所需百分位数值区间。

可选地，可以根据基于先前所需的百分位数值区间的自回归模型来预测地计算所需的百分位数值区间和/或数值区间的大小，例如通过在处理器204上执行来自百分位计算器模块211的代码指令。

可选地，可基于先前需要的百分位数值区间根据机器学习预测地计算所需的百分位数值区间和/或值区间的大小，例如通过在处理器204上执行来自百分位计算器模块211的代码指令。可选地，可以根据例性能测量方法100的先前迭代中的所需百分位数值区间的变化率来计算时间间隔，例如通过在处理器204上执行来自百分位计算器模块211的代码指令。例如，为了使主分布式模型具有预定区间内的所需百分位数值区间，根据所需百分位数值区间的变化率来计算时间间隔，使得所需百分位数值区间在计算的时间间隔期间的预定区间内。

可选地，求解模型和/或修改的求解模型的数值区间在大小上不统一时，例如通过在处理器204上执行来自求解值修改模块212中的代码指令。例如，接近所需百分位数值区间的数值区间可能小于不靠近所需百分位数值区间附近的数值区间。又例如，数值区间的大小是用对数计算的，其中数值区间的大小以对数方式增加，因为它们距所需百分位数值区间更远。

可选地，仅响应于接收的表示在所需的百分位数值区间内的至少一个测量的性能值的分布式模型来发送修改的求解模型，例如通过在处理器204上执行来自求解值修改模块212中的代码指令。

可选地，修改后的求解模型仅包括所需百分位数值区间内的数值区间。

可选地，当受监控实体需要报告的测量性能值的数量很小时，可以传输测量值而不是分布式模型，例如可以通过在处理器204上执行来自分布式模型模块261中的代码指令。

现在通过示例的方式来演示性能监控方法100。如下图3A、3B、4A和4B所示，对于表示多个受监控实体的测量响应时间的主分布式模型的第99个百分位，采用所需求解值为5ms来计算修改的求解模型。

现在参见图3A，图3A为根据本发明一些实施例的包括10个50ms数值区间的主分布式模型的柱状图示。现在再参见图3B，图3B为根据本发明一些实施例的图3A中表示的主分布式模型。主分布式模型具有50ms的求解值，且如301所示，条目总和为355。第99百分位按照355×0.99＝352计算。如302所示，第99百分位处于所需的百分位数值区间450ms至500ms内。

所需的求解值为5ms，因此如上所述105中计算和传输修改的求解模型，其中10个5ms数值区间中的每个都落入450ms至500ms的所需百分位数值区间内，如上文105所述。

现在参见图4A，图4A为根据本发明一些实施例的从响应于发送修改的求解模型而接收到的分布式模型汇总主分布式模型的柱状图示。现在再参见3B，图3B为根据本发明的一些实施例的图4A中的主分布式模型。

如401所示，接收的分布式模型包括从第350个值开始的表示5个测量性能值的数据点。包含第99百分位的数值区间按以下方式计算：第99百分位数的等级已被识别为第352个数值，修改的求解模型包括从第350个数值开始的代表5个测量性能值的数据点。如402所示，表示数值区间465ms至470ms的数据点包含第352个性能值。数值区间465ms至470ms满足以5ms的求解值报告第99百分位的要求。

对本发明各个实施例的描述只是为了说明的目的，而这些描述并不旨在穷举或限于所公开的实施例。在不脱离所描述的实施例的范围的情况下，本领域技术人员可以清楚理解许多修改和变化。相比于市场上可找到的技术，选择此处使用的术语可最好地解释本实施例的原理、实际应用或技术进步，或使本领域其他技术人员理解此处公开的实施例。

预计在本申请专利成熟的期间，将开发许多相关的监控服务器，术语监控服务器的范围旨在先验地包括所有这些新技术。

本文所使用的术语“约”是指±10％。

术语“包括”以及“有”表示“包括但不限于”。这个术语包括了术语“由……组成”以及“本质上由……组成”。

短语“主要由……组成”意指组成物或方法可以包含额外成分和/或步骤，但前提是所述额外成分和/或步骤不会实质上改变所要求的组成物或方法的基本和新颖特性。

除非上下文中另有明确说明，此处使用的单数形式“一个”和“所述”包括复数含义。例如，术语“一个复合物”或“至少一个复合物”可以包括多个复合物，包括其混合物。

此处使用的词“示例性的”表示“作为一个例子、示例或说明”。任何“示例性的”实施例并不一定理解为优先于或优越于其它实施例，和/或并不排除其它实施例特点的结合。

此处使用的词语“可选地”表示“在一些实施例中提供且在其它实施例中没有提供”。本发明的任意特定的实施例可以包含多个“可选的”特征，除非这些特征相互矛盾。

在整个本申请案中，本发明的各种实施例可以区间格式呈现。应理解，区间格式的描述仅为了方便和简洁起见，并且不应该被解释为对本发明范围的固定限制。因此，对区间的描述应被认为是已经具体地公开所有可能的子区间以及所述区间内的个别数值。例如，对例如从1到6的区间的描述应被认为是已经具体地公开子区间，例如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等，以及所述区间内的个别数字，例如1、2、3、4、5和6。不管区间的宽度如何，这都适用。

当此处指出一个数字区间时，表示包含了在指出的这个区间内的任意所列举的数字(分数或整数)。短语“在第一个所指示的数和第二个所指示的数区间内“以及”从第一个所指示的数到第二个所指示的数区间内”和在这里互换使用，表示包括第一个和第二个所指示的数以及二者之间所有的分数和整数。

应了解，为简洁起见在单独实施例的上下文中描述的本发明的某些特征还可以组合提供于单个实施例中。相反地，为简洁起见在单个实施例的上下文中描述的本发明的各个特征也可以单独地或以任何合适的子组合或作为本发明的任何合适的其它实施例提供。在各个实施例的上下文中描述的某些特征未视为那些实施例的基本特征，除非没有这些元素所述实施例无效。

此处，本说明书中提及的所有出版物、专利和专利说明书都通过引用本说明书结合在本说明书中，同样，每个单独的出版物、专利或专利说明书也具体且单独地结合在此。此外，对本申请的任何参考的引用或识别不可当做是允许这样的参考在现有技术中优先于本发明。就使用节标题而言，不应该将节标题理解成必要的限定。

Claims

1.一种用于通过动态控制求解模型来监控性能指标值的监控服务器，其特征在于，包括：存储代码的存储器；

耦合到所述存储器的至少一个硬件处理器，用于执行所述代码，所述代码包括：

用于汇总表示性能指标的测量值的数据点的指令，所述数据点根据求解模型划分数值区间，所述数据点从多个受监控节点接收到，多个受监控节点从监控服务器接收求解模型；

用于通过计算所需百分位数位于哪个数值区间中来计算所需百分位数值区间的指令；

用于基于所需百分位数值区间的所需求解值来确定修改的求解模型，并将修改的求解模型发送到多个受监控节点的指令；

其中，所述代码包括指令，用于根据在连续时间间隔中计算的所需百分位数值区间计算所需百分位数值区间的变化率，基于计算的变化率预测下一时间间隔内估计的所需百分位数值区间，并修改求解模型以包括接近估计的所需百分位数值区间，而非其它数值区间内的更高求解值。

2.根据权利要求1所述的监控服务器，其特征在于，所述代码包括指令，用于修改计算的所需百分位数值区间的求解模型，并响应于向所述受监控节点发送所述修改的求解模型，以接收和汇总表示所需的百分位数值区间内的指标值的数据点，并根据修改后的求解模型将所需的百分位数值区间内的测量值分类至数值子区间。

3.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于专门将修改后的求解模型发送到具有在计算的所需百分位数值区间内的数据点的监控节点的指令。

4.根据权利要求1所述的监控服务器，其特征在于，所述代码包括响应于仅在计算的所需百分位数值区间内发送修改的求解模型的数据点进行接收的指令。

5.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于修改所述求解模型的指令，以包括接近所需百分位数值区间而非其它数值区间的更高求解值。

6.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于通过计算所需百分位数值区间的中间值周围的对数求解值来修改求解模型的指令，而不改变数值区间的数量。

7.根据权利要求1所述的监控服务器，其特征在于，所述汇总包括从所述多个受监控节点中的每一个接收位于每个所述数值区间中的数据点的数量的指示，并将每个所述数值区间中的数据点的数量相加。

8.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于重复所述汇总、计算和确定直到所需百分位数值区间具有所需求解值的指令。

9.根据权利要求1所述的监控服务器，其特征在于，所需的求解值根据为监控量预定义的所需精度来确定。

10.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于在每个连续时间间隔中重复汇总所述数据点，计算所需百分位数值区间，并确定所述修改求解模型的指令，其中在每个时间间隔中的所述数据点根据在前一时间间隔中确定的求解模型进行汇总。

11.根据权利要求10所述的监控服务器，其特征在于，每个时间间隔中修改的求解模型是预定义的，根据期望的重复次数确定，或者根据每次重复中增加的预定义的求解值确定。

12.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于在每个时间间隔中根据先前时间间隔的数量通过自回归模型来预测估计的所需百分位数值区间的指令。

13.根据权利要求1所述的监控服务器，其特征在于，所述代码包括用于根据所需百分位数值区间的变化率确定所述时间间隔的长度的指令，使得估计的所需百分位数值区间位于来源于先前时间间隔内计算的所需百分位数值预定区间内。

14.根据权利要求1所述的监控服务器，其特征在于，初始求解模型由用户配置确定。

15.根据权利要求1所述的监控服务器，其特征在于，所述代码包括指令，用于在所述数值区间中的指标值的数量小于预定阈值的情况下，从所述受监控节点接收位于数值区间中的所述性能指标的测量值。

16.根据权利要求1所述的监控服务器，其特征在于，所述求解模型包括不同数值区域中的不同求解值。

17.一种动态通过控制求解模型来监控性能指标值的方法，其特征在于，包括：

汇总表示性能指标的测量值的数据点，所述数据点根据求解模型划分数值区间，所述数据点从接收求解模型的多个受监控节点接收到；

通过计算所需百分位数位于哪个数值区间中来计算所需百分位数值区间；

基于所需百分位数值区间的所需求解值来确定修改的求解模型；

将修改的求解模型发送到多个受监控节点；

其中，还包括：根据在连续时间间隔中计算的所需百分位数值区间计算所需百分位数值区间的变化率，基于计算的变化率预测下一时间间隔内估计的所需百分位数值区间，并修改求解模型以包括接近估计的所需百分位数值区间，而非其它数值区间内的更高求解值。

18.根据权利要求17所述的方法，其特征在于，还包括：修改计算的所需百分位数值区间的求解模型，并响应于向所述受监控节点发送所述修改的求解模型，以接收和汇总表示所需的百分位数值区间内的指标值的数据点，并根据修改后的求解模型将所需的百分位数值区间内的测量值分类至数值子区间。

19.根据权利要求17所述的方法，其特征在于，还包括：专门将修改后的求解模型发送到具有在计算的所需百分位数值区间内的数据点的监控节点。

20.根据权利要求17所述的方法，其特征在于，还包括：响应于仅在计算的所需百分位数值区间内发送修改的求解模型的数据点进行接收。

21.根据权利要求17所述的方法，其特征在于，还包括：修改所述求解模型，以包括接近所需百分位数值区间而非其它数值区间的更高求解值。

22.根据权利要求17所述的方法，其特征在于，还包括：通过计算所需百分位数值区间的中间值周围的对数求解值来修改求解模型，而不改变数值区间的数量。

23.根据权利要求17所述的方法，其特征在于，还包括：从所述多个受监控节点中的每一个接收位于每个所述数值区间中的数据点的数量的指示，并将每个所述数值区间中的数据点的数量相加。

24.根据权利要求17所述的方法，其特征在于，还包括：重复所述汇总、计算和确定直到所需百分位数值区间具有所需求解值。

25.根据权利要求17所述的方法，其特征在于，所需的求解值根据为监控量预定义的所需精度来确定。

26.根据权利要求17所述的方法，其特征在于，还包括：在每个连续时间间隔中重复汇总所述数据点，计算所需百分位数值区间，并确定所述修改求解模型，其中在每个时间间隔中的所述数据点根据在前一时间间隔中确定的求解模型进行汇总。

27.根据权利要求26所述的方法，其特征在于，还包括：预定义每个时间间隔中修改的求解模型，每个时间间隔中修改的求解模型根据期望的重复次数确定，或者根据每次重复中增加的预定义的求解值确定。

28.根据权利要求17所述的方法，其特征在于，还包括：在每个时间间隔中根据先前时间间隔的数量通过自回归模型来预测估计的所需百分位数值区间。

29.根据权利要求17所述的方法，其特征在于，还包括：根据所需百分位数值区间的变化率确定所述时间间隔的长度，使得估计的所需百分位数值区间位于来源于先前时间间隔内计算的所需百分位数值预定区间内。

30.根据权利要求17所述的方法，其特征在于，初始求解模型由用户配置确定。

31.根据权利要求17所述的方法，其特征在于，还包括：当所述数值区间中的指标值的数量小于预定阈值时，从所述受监控节点接收位于数值区间中的所述性能指标的测量值。

32.根据权利要求17所述的方法，其特征在于，所述求解模型包括不同数值区域中的不同求解值。

33.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可读程序指令，其中，所述计算机可读程序指令用于使处理器执行权利要求17至32任意一项所述的方法。