CN108241526A

CN108241526A - 基于模式预测的自适应控制策略

Info

Publication number: CN108241526A
Application number: CN201611213729.2A
Authority: CN
Inventors: R·W·马丁; 张宏斌; 曹健
Original assignee: Morgan Stanley Services Group Inc
Current assignee: Morgan Stanley Services Group Inc
Priority date: 2016-12-26
Filing date: 2016-12-26
Publication date: 2018-07-03
Anticipated expiration: 2036-12-26
Also published as: CN108241526B

Abstract

本公开涉及基于模式预测的自适应控制策略。为了能够在不同的负载状况下有效地调整服务集群，本发明提出了一个基于模式预测的控制算法。这一控制算法提高了系统对于不同负载的自适应能力。算法基于历史负载与当前负载来预测未来负载，并根据未来负载的状况对所需的计算资源进行动态调整，在保证系统性能不受负载动态变化影响的情况下减少资源的浪费。算法主要由预测模块、决策模块、学习模块和预估模块组成。

Description

基于模式预测的自适应控制策略

技术领域

本发明涉及一种基于模式预测的自适应调整策略。

背景技术

对于如何根据系统的负载变化状态，对系统所需的资源进行调整以提高系统的性能与请求处理的效率，目前有许多的算法与研究。调整资源的基本思想是，当系统处于高负载情况下，应增加服务器的数量，通过启动更多的服务器来应对高负载；当系统处于低负载的状况下，应关闭空闲的服务器，提高资源的利用率并降低成本。

现有的一些工作研究通过调整系统中多个服务器的负载分配进行性能优化。这些研究对系统内部控制进行了优化，但没有讨论到系统本身规模可扩展的情况。

对于自身规模可变的系统的自适应配置，目前也已经有了一些相关的研究工作。有一些研究对系统的负载与运行情况进行强化学习，并根据当前的系统状态和所学习的策略来决定是否需要对系统进行扩展。还有一些研究利用了自动控制的思想，实现整个系统在不同情况下的自适应控制。这些算法都能有效地应对负载动态变化地情况，根据不同的负载动态地调整系统的规模，来提高系统的处理能力并减少资源的浪费。

发明内容

本发明的技术解决问题：现有的算法大多数应用于服务器节点增减代价较小或是系统负载变动相对不大的环境下。而在实际的云计算环境下，依规格与服务的不同，申请并启动一台云计算主机可能需要花费数分钟甚至十数分钟的时间，这一滞后会给控制带来一定的负面影响。此外，如果所租用的服务器数量频繁波动，极易造成资源的浪费。而现有的自适应控制算法基本尚未将这些因素考虑进去，在实际应用的过程中可能难以适应云计算环境下系统变动延迟较大、计算资源变动成本较高的问题。

本发明的技术解决方案：现有的可扩展系统的控制算法在云计算环境下都难以达到较好的效果，我们针对云计算环境下的负载特点、启动延迟与收费策略等，设计与实现了一个基于模式预测的自适应算法。算法收集历史负载的时间序列数据，使用机器学习的方法对未来的负载进行预测，并根据当前的系统状态与预测出的未来负载对系统进行预先调整，并在不同的模式下使用不同的策略，尽可能地减少启动延迟的影响和负载波动造成的系统频繁调整。

本发明与现有技术相比的优点在于：基于模式预测的控制算法可以在PID算法的基础上进一步大幅降低处理请求等待时间，同时有效地降低服务器的变动次数，提高云计算环境中资源的使用率。并且在不同的模式下使用不同的策略对系统进行控制，在保证系统处理效率的同时减少启动延迟与负载波动的影响。

随着云计算的发展，越来越多企业使用云计算平台提供服务。对于云计算平台而言，其负载往往是动态变化的，例如，低谷期的负载可能不及高峰期的十分之一。如果一直开启相同数量的服务器，毫无疑问会导致资源的巨大浪费。对于这种情况，实现服务集群的动态拓展具有很大的优势。在面对高负载的情况下动态地扩展服务集群，使用更多的服务器来提供更加强大的处理能力，而在负载较低的情况下，则通过减少服务器的数量来降低消耗。

为了能够在不同的负载状况下有效地调整服务集群，本发明提出了一个基于模式预测的控制算法。这一控制算法提高了系统对于不同负载的自适应能力。算法基于历史负载与当前负载来预测未来负载，并根据未来负载的状况对所需的计算资源进行动态调整，在保证系统性能不受负载动态变化影响的情况下减少资源的浪费。

算法主要由预测模块、决策模块、学习模块和预估模块组成。预测模块对未来的负载进行预测，并根据预测结果判断接下来的负载将增长或是降低；预估模块则主要用于补偿由于服务器启动延迟对控制带来的负面影响；决策模块根据预测出的负载模式和由预估模块补偿后的系统状态进行决策，决定如何对服务器集群进行调整；学习模块在系统的运行过程中不断地接受反馈并调整决策模块中的参数，使其更符合当前的系统状态，从而使算法具有自适应的学习能力。

附图说明

图1为基于模式预测的控制算法结构。

图2为一天内请求数量与时间的关系。

图3为Smith预估控制系统示意图。

图4是按照本发明的各实施例的企业计算机系统的框图。

具体实施方式

基于模式预测的控制算法将预测当前应用下需要的服务器数量，企业可以据此进行调整虚拟机。当系统处于高负载情况下，增加服务器的数量，开启更多的虚拟服务器；当系统处于低负载的状况下，控制器将关闭部分虚拟服务器，回收资源以降低成本。

算法流程如图1所示。我们的算法分为4个模块：

●S1–预测模块

我们将预测单位时间内进入系统的请求数量问题转化为时间序列模型进行处理。请求的数量随时间周期性发生变化，通常白天的请求数量通常多于夜间的请求数量。在本方案实施中，控制器预测未来的请求数量，并且根据不同的策略进行调整。

本方案预测下一周期的请求的模式，而不是请求的具体数量。请求的模式分为3类，即增加模式、降低模式以及波动模式。

如果请求数量连续增加超过x1个周期(如x1＝3)或者连续z1个周期的请求数量增长超过y1％(如z1＝2，y1＝40％)，则将下一个周期的模式预测为增长模式。如果请求数量续减少超过x2个周期或者连续z2个下降超过y2％，则将下一个周期的行为模式预测为降低模式。其他的情况归为波动模式。

图2给出了一天内服务器集群负载的变化情况。在这个实例中，周期为15分钟。从早上7点至8点，请求数量处于增长模式，请求数量在几个下降周期后迅速上升。上午8点到9点，请求数量处于下降周期，在这一小时的大部分时间内请求数量是减少的。从上午10点到下午2点，请求数量处于波动的状态，这段时间的请求数量在一个相对稳定的水平上波动。其他的时间也可以按这样的方法进行分类。

在将请求模式分为3种之后，KNN预测器对下一个周期的模式进行预测。控制器记录每个周期的请求数量。预测器将连续多个周期的数据分为一组(例如5个周期)，并通过最近的一组当前数据进行预测。KNN算法从历史数据中搜索与该组当前数据类似的数据组。在本实施案例中，在历史数据中KNN搜索的相似数据的历史时间点，在周期内的时间间隔与当前相同。我们通过2组数据之间的距离衡量他们的相似程度。

KNN预测器选择K个最相似的数据组。在寻找到这些相似的数据组之后，KNN预测器得到这些数据组下一周期的模式，并计算这些模式出现的次数，将出现次数最多的模式作为预测的未来一个周期的请求模式。

KNN算法的伪代码如下：

●S2–决策模块

三种请求模式具有明显的特征，控制器可以根据这些模式制定不同的策略。对于增长模式，由于获取服务器资源以及准备新的虚拟服务器都需要一定的时间，因此我们需要提前增加服务器。下面的公式可以用于计算提前需要增加的服务器数量：

u(t)＝Ke(t)+AK(r′(t+T_c)-r′(t))

式中u(t)为t时刻的控制量，在系统中即是决定需要增加或减少的服务器数量。K为比例系数，决定由负载偏差计算所需控制量的比例，此项来自于传统的PID控制中的比例控制一项。r′(t)为预测的系统未来负载量。T_c代表控制周期。A为预测影响系数，0≤A≤1，决定预测的涨幅对系统控制的影响。A通过上次预测值与实际值的比值计算，两者越相近则A越接近于1，而当预测不准确的情况下，则通过减少A的值来降低预测量对控制的影响。e(t)为t时刻下的系统负载与理想系统负载的偏差，即理想负载下系统执行请求量与实际接受请求量的偏差。

式中右侧的第一项本质上是一个传统的PID控制，通过系统反馈的误差来进行比例控制。第二项引入了预测的请求量涨幅，并通过预测影响系数A来决定预测对控制的影响程度。

在降低模式下，由于关闭服务器不会发生延时，因此没有必要提前对服务器进行操作。因此系统也不存在需要提前关闭服务器的需求，在系统空闲时根据需要释放服务器即可。降低模式下控制量的计算方式如下式：

u(t)＝Ke(t)

与增长模式相比，由于降低模式不需要针对预测量进行提前处理，因此仅保留比例控制部分。

在请求数量反复振荡波动的模式下，系统需要谨慎处理服务器的变动，避免反复的启动与释放服务器。此时控制的主要目的是在保持服务质量的前提下，尽可能地稳定服务器的数量，减少系统的调整次数。

振荡模式下的控制量计算方式如下式：

当e(t)＞0时，系统过载，服务质量发生下降，此时直接使用比例控制进行计算并根据计算结果增加新的服务器，以维持服务质量。而在e(t)＜0时，算法观察当前周期和前2个周期中的负载状况，如果系统在这三个周期中都处于负载未满的状态，请求量可能已经发生比较稳定的滑落，此时取这三个周期中的负载最大值，使用比例控制来进行计算并根据计算结果释放服务器。如果这段时间中请求量发生回升，算法不会释放服务器。同时即使请求数量在一段时间中连续滑落，算法也能以延后2个周期的速度释放服务器。

●S3–预估模块

服务器的启动需要一定的时间，启动时间会造成控制服务器开启到实际服务器开启间有一定的延迟，对于控制量的影响延迟较大，过程滞后时间过长的系统，在控制理论中被称为纯滞后系统。目前应对纯滞后的主流方法是引入Smith预估器。由于增加服务器存在一定的延时，我们通过在采集到的系统负载之后增加一个Smith预估器来进行这一偏差的补偿。

简单来说，Smith预估控制通过在控制器之后并接一个补偿环节，来补偿系统延迟对控制器产生的负面效果，这一补偿环节即是Smith预估器。其作用原理主要是通过在系统的反馈回路中引入补偿部分，来将被延迟了的反馈量提前反馈到控制器中，从而减少超调量。

如图3所示，G_τ(s)为控制器的传递函数，G₀(s)e^-ts代表了系统中的滞后环节，Smith预估器的传递函数为G₀(s)(1-e^-ts)。该预估器反并联接在控制器G_τ(s)上，形成带纯时滞补偿的控制器。加入Smith预估器后，系统的闭环传递函数变为：

[01

其特征方程式为：

1+G_C(s)G₀(s)＝0

可以看出经过Smith预估器补偿后，特征方程式中的滞后项被消去，从而减少了滞后的控制量对系统的影响。

在基于模式预测的控制算法中，以系统当前处理中与等待中的请求作为负载量，通过预估器来预估那些已经开始开启但尚未开始工作的服务器对系统负载的影响，并补偿到观察到的系统负载中。

预估补偿算法伪代码如下：

●S4–学习模块

控制算法在决策模块的基础上引入学习模块，学习模块收集系统的负载状况。在系统运行中对比例系数K进行学习与调整，使算法在请求类型分布变化时具有自适应能力。K值越大，调整的程度也就越高。

在系统初始时，可以根据历史的请求执行时间数据预先设定一个近似的K值。系统开始运行后，在每次控制过程执行前，根据前一段时间中系统反馈结果对比例系数进行修正调整。主要计算公式为：

T是为采样过程的时间长度，s为采样过程中平均使用的服务器数。r为采样过程中执行完毕的请求数。sT/r即代表了采样过程中单位时间单位服务处理工作流请求的具体效率。L为修正系数，0≤L≤1。L决定了每次修正的幅度。L值越大，对K的修正越灵敏，但是也会使K得波动更剧烈。

以下提供本发明的实施例的实现方案的细节。图4中示出了一个示例性企业计算机系统10，其中可以使用本发明的方面。图4中所示的该企业计算机系统10包括与广域网(WAN)14互连的若干局域网(LAN)12。每一个LAN 12可包括若干客户端计算机16和若干网络服务器18。举例而言，取决于实现方案，网络服务器18可以为在其LAN 12中或来自其他LAN12的客户端计算机16托管(host)计算机资源，诸如计算机程序、数据、存储设备和打印机。

资源预测计算机系统20基于存储在数据库计算机系统22中的历史请求数据实现上述的控制器30。为了示意的目的，资源预测计算机系统20和MTS数据库系统22在图4中被示为连接到WAN 14，尽管它们中的一个或两个可被包括在所示的LAN 12中的一个内。它们也可以连接到该企业的网络中的不同的LAN 12和WAN 14。资源预测计算机系统20可以实现为一个或若干个互连的计算机设备，诸如服务器、大型机、工作站和/或任何其他合适的计算机设备。资源预测计算机系统20的每一个这样的计算机设备可以包括一个或多个处理器24和一个或多个存储器单元26。存储器单元26可以包括基础计算机存储装置(例如RAM和ROM)和第二计算机存储装置(例如HDD、SSD、闪存)。如图4中所示并在以下进一步描述的，处理器24可以包括微处理器，用于执行存储在存储器单元26中的计算机指令(例如软件)，诸如实现控制器30的软件。为了示意的目的，所示的资源预测计算机系统20包括仅一台计算机，并且仅一个处理器24和一个存储器单元26被示出，尽管应当认识到本发明不是如此受限的，并且资源预测计算机系统20可以根据需要进行缩放。

MTS数据库22存储企业系统10的网络服务器18的时间序列计算机用量和硬件统计数据。统计数据可以包括涉及每一个用户资源请求的若干变量的值，诸如：

-请求资源的用户的用户名

-请求的开始时间

-请求的结束时间

-请求的总共时间

-请求的活动时间

-所请求的处理或资源

-处理了请求的网络服务器的ID

-处理了请求的网络服务器的几何位置

-CPU使用量

-网络服务器的基础存储器(例如RAM)使用量

-网络服务器的盘IO(对盘存储器或其他次级计算机存储器的总的读和写操作)

MTS数据库22可以根据需要实现为具有一个或多个数据库服务器，该一个或多个数据库服务器运行数据库管理系统(DBMS)软件并包括合适的RAID盘阵列和/或任何其他合适的数据存储机制。可使用CSV文件和/或任何其他合适的数据格式将用量和硬件统计数据从网络服务器18发送至MTS数据库22。每一个网络服务器18可将其定期的统计数据发送至MTS数据库22，并且/或者LAN 12中的网络服务器18中的一个或多个能够收集LAN 12中的多个网络服务器18的统计数据并将所收集的统计数据发送至MTS数据库22。MTS数据库22可被实现为例如Oracle或SQL数据库或任何其他合适的数据库。

当执行控制器30的软件时，资源预测计算机系统20的处理器执行以上所述的控制器的功能。

如上所述，资源预测计算机系统20可以基于已预报的用户工作负载预报针对特定时间段的、用于企业的服务器18的适当数量。资源预测计算机系统20可以将这些服务器数量推荐传递至为网络服务器18充当代理的网络服务器40(见图4)。基于从资源预测计算机系统20传递的决定，所述代理服务器40可以确定在各个时刻处LAN 12中的多少台服务器18应当被打开(完全活动、工作模式)和/或应当被置入低功率模式(例如空闲或睡眠模式)并相应地指令这些服务器18。这样，当基于所预报的用量和/或负载模式网络服务器18中的一些未被预报为被需要时，它们可被置入低功率模式。例如，参考图4，资源预测计算机系统20可以确定针对特定时间段所需要的网络服务器18的预报的数量。此预报可以是针对一个LAN 12中的网络服务器18或者是针对跨多个LAN 12的网络服务器18。资源预测计算机系统20可将此数量发送至代理服务器40，代理服务器40可指令其LAN 12中和/或其他LAN 12中的各个服务器18在适当的时刻处于工作的、高功率模式中(能够处理用户资源需求)或者处于低功率模式中(不能处理用户资源需求)。网络服务器18可以相应地采取所指令的功率模式。这样，在预报的网络资源需求低的时刻，若干网络服务器18可被置入低功率模式以节约能量和相关成本。反之，在预报的网络资源需求高的时刻，足够数量的网络服务器18将准备好处理预期的用户请求负载。

应当注意，例如图4仅示出了足以理解本发明的方面的企业计算机系统10的部件。应当认识到，企业计算机系统10可以包括使用有线的(例如双绞线线缆上的以太网)或无线的(例如Wi-Fi)通信链路的若干网络互连的LAN、WAN、MAN等。网络服务器18可以处理企业所要求的、大量的和不同类型的资源，并且客户端计算机16可以是任何合适类型的启用网络的终端用户计算机设备，诸如笔记本电脑、个人计算机、平板计算机、智能电话等等。资源预测计算机系统20可以由一个或多个网络化的计算机设备实现。在资源预测计算机系统20包括多个计算机设备的情况下，它们可以被一个或多个LAN、WAN、MAN等网络互连。此外，企业计算机系统10可以包括额外的代理计算机40以供给服务器18。

控制器30可以实现在以任何合适的计算机语言(诸如Python)编写的一个或多个计算机程序中，从而当处理器24执行控制器的软件程序时，使处理器24执行本文所述的控制器的功能。举例而言，用于执行指令程序的合适的处理器24包括通用微处理器和专用微处理器两者。此外，本文所述的任何计算机部件可以包括单个处理器或多个处理器。处理器24接收来自只读存储器或随机存取存储器或它们两者的指令和数据。

Claims

1.一种为企业计算机系统预报网络资源需求的计算机实现的方法，其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器，所述方法包括：

通过已编程的计算机系统，基于所述企业计算机系统用户的用户请求数据，确定针对未来时间范围步长的预测的用户资源请求模式；

通过所述已编程的计算机系统，基于针对所述未来时间范围步长的所述预测的用户资源请求模式的分类，计算针对所述未来时间范围步长的所述企业需要的服务器的推荐数量，其中至少：

当针对所述未来时间范围步长的所述预测的用户资源请求模式被分类为增加时，第一控制策略被用来计算服务器的所述推荐数量；以及

当针对所述未来时间范围步长的所述预测的用户资源请求模式被分类为减少时，第二控制策略被用来计算服务器的所述推荐数量。

2.如权利要求1所述的方法，其中：

所述第一控制策略使用具有比例常数K的第一公式来计算服务器的所述推荐数量；

所述第二控制策略使用具有比例常数K的第二公式来计算服务器的所述推荐数量；以及

所述方法还包括以下步骤：通过所述已编程的计算机系统，基于单位时间段内单位网络服务器的效率，为第一控制策略和第二控制策略在线调整所述比例常数K。

3.如权利要求1所述的方法，其中当针对所述未来时间范围步长的所述预测的用户资源请求模式未被分类为增加或减少时，第三控制策略被用来计算服务器的所述推荐数量。

4.如权利要求3所述的方法，其中：

所述第二控制策略使用具有比例常数K的第二公式来计算服务器的所述推荐数量；

所述第三控制策略使用具有比例常数K的第三公式来计算服务器的所述推荐数量；以及

所述方法还包括以下步骤：通过所述已编程的计算机系统，基于单位时间段内单位网络服务器的效率，为第一控制策略、第二控制策略和第三控制策略在线调整所述比例常数K。

5.如权利要求1所述的方法，其中当一个或多个条件被满足时，针对所述未来时间范围步长的预测的用户资源请求模式被分类为增加，其中所述一个或多个条件包括预测的请求数量在第一阈值数量N1的连续时间范围步长内增加的第一条件。

6.如权利要求5所述的方法，其中针对增加分类的所述一个或多个条件包括预测的请求数量在第二阈值数量N2的连续时间范围步长内增加超过第一阈值百分比的第二条件。

7.如权利要求6所述的方法，其中针对增加分类的所述一个或多个条件包括(i)紧接在先的时间范围步长被分类为增加和(ii)所述未来时间范围步长未被分类为减少的第三条件。

8.如权利要求7所述的方法，其中当一个或多个条件被满足时，针对所述未来时间范围步长的预测的用户资源请求模式被分类为减少，其中所述一个或多个条件包括所述预测的请求数量在第三阈值数量N3的连续时间范围步长内减少的第一条件。

9.如权利要求8所述的方法，其中针对减少分类的所述一个或多个条件包括所述预测的请求数量在第四阈值数量N4的连续时间范围步长内减少超过第二阈值百分比的第二条件。

10.如权利要求9所述的方法，其中针对减少分类的所述一个或多个条件包括(i)紧接在先的时间范围步长被分类为减少和(ii)所述未来时间范围步长未被分类为增加的第三条件。

11.如权利要求1所述的方法，其中确定针对所述未来时间范围步长的所述预测的用户资源请求模式包括使用k-NN搜索。

12.如权利要求1所述的方法，其中计算针对增加的未来时间范围步长所述企业需要的服务器的推荐数量包括对当前未在使用中的可用网络服务器的容量进行补偿。

13.一种用于为企业计算机系统预报网络资源需求的系统，其中所述企业计算机系统包括为所述企业计算机系统的用户托管计算机资源的多个网络服务器，所述系统包括：

与所述多个网络服务器通信的计算机数据库系统，用于存储所述多个网络服务器的多元时间序列(MTS)性能数据；

与所述计算机数据库系统通信的已编程的计算机系统，其中所述已编程的计算机系统被编程以通过执行包括以下操作的步骤来预测所述企业计算机系统的所述网络服务器的未来工作负载：

14.如权利要求13所述的系统，其中：

所述系统还包括以下步骤：通过所述已编程的计算机系统，基于在单位时间段内单位网络服务器的效率，为第一控制策略和第二控制策略在线调整所述比例常数K。

15.如权利要求14所述的系统，其中当针对所述未来时间范围步长的所述预测的用户资源请求模式未被分类为增加或减少时，第三控制策略被用来计算服务器的所述推荐数量。

16.如权利要求15所述的系统，其中：

所述系统还包括：所述已编程的计算机系统基于在单位时间段内单位网络服务器的效率，为第一控制策略、第二控制策略和第三控制策略在线调整所述比例常数K。

17.如权利要求13所述的系统，其中当一个或多个条件被满足时，针对所述未来时间范围步长的预测的用户资源请求模式被分类为增加，其中所述一个或多个条件包括预测的请求数量在第一阈值数量N1的连续时间范围步长内增加的第一条件。

18.如权利要求17所述的系统，其中针对增加分类的所述一个或多个条件包括预测的请求数量在第二阈值数量N2的连续时间范围步长内增加超过第一阈值百分比的第二条件。

19.如权利要求18所述的系统，其中针对增加分类的所述一个或多个条件包括(i)紧接在先的时间范围步长被分类为增加和(ii)所述未来时间范围步长未被分类为减少的第三条件。

20.如权利要求19所述的系统，其中当一个或多个条件被满足时，针对所述未来时间范围步长的预测的用户资源请求模式被分类为减少，其中所述一个或多个条件包括所述预测的请求数量在第三阈值数量N3的连续时间范围步长内减少的第一条件。

21.如权利要求20所述的系统，其中针对减少分类的所述一个或多个条件包括所述预测的请求数量在第四阈值数量N4的连续时间范围步长内减少超过第二阈值百分比的第二条件。

22.如权利要求21所述的系统，其中针对减少分类的所述一个或多个条件包括(i)紧接在先的时间范围步长被分类为减少和(ii)所述未来时间范围步长未被分类为增加的第三条件。

23.如权利要求13所述的系统，其中所述已编程的计算机系统使用k-NN搜索确定针对所述未来时间范围步长的所述预测的用户资源请求模式。

24.如权利要求13所述的系统，其中所述已编程的计算机系统被编程为在计算针对增加的未来时间范围步长所述企业需要的服务器的推荐数量时，对当前未在使用中的可用网络服务器的容量进行补偿。