CN108632365B

CN108632365B - 服务资源调整方法、相关装置和设备

Info

Publication number: CN108632365B
Application number: CN201810340570.3A
Authority: CN
Inventors: 庞小健; 袁镱; 钟科; 邝细超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2020-11-27
Anticipated expiration: 2038-04-13
Also published as: CN108632365A

Abstract

本发明公开了一种服务资源调整方法，包括：通过预测模型对服务指标进行预测，生成预测数据；其中所述预测模型包括根据服务的历史负载数据建立的预测模型；根据所述预测数据定期对当前节点上的在线服务进行分析；在分析出从当前时刻开始的第一时间段内，所述当前节点以外的资源容量满足所述在线服务的需求的情况下，释放所述当前节点的在线资源。本发明还公开了一种服务资源调整装置和设备，解决了现有技术无法在保障业务稳定性的基础上，较快的对低资源使用率的服务进行降低资源使用配额的操作，以提升服务器的资源使用率的技术问题。

Description

服务资源调整方法、相关装置和设备

技术领域

本发明涉及计算机领域，尤其涉及服务资源调整方法、相关装置和设备。

背景技术

服务器集群就是指将很多服务器集中起来一起进行同一种服务，在客户端看来就像是只有一个服务器。集群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，从而使得任何一个机器坏了整个系统还是能正常运行。服务器集群或云平台中的服务资源(即服务器资源)往往包括内存，硬盘，中央处理器(CentralProcessing Unit，CPU)，网络等。很多公司或企业在大规模集群管理中容易出现服务资源使用率较低、资源得不到充分的利用的问题，在运行服务器集群或云平台的过程中，如何合理高效地分配服务资源显得尤为重要。

运维人员在为服务分配的资源时，往往依据服务最大的资源需求量进行分配。而绝大多数业务流量存在着明显的周期性，并且服务消耗的资源存在着明显的波峰和波谷，且波峰期和波谷期资源的实际利用率存在着较大的差距。现有技术中，对运行在服务器集群或者云平台的服务，在线服务资源动态调整方面一般有如下几种途径：

1.人工手动调整服务所占用的资源大小；该方式存在人工成本高且动态调整不够及时的问题；

2.预先配置资源调整策略。例如：用户知道他的服务高峰期和低峰期会发生在哪个时间点，分别在这些时间点配置资源使用策略，对资源动态的增加或者释放；该方式虽然避免了人工多次手动调整服务资源的问题，但存在资源调整不灵活的问题，一旦预先配置的资源调整策略不合适不匹配，需要重新配置策略；

3.在服务资源使用率持续上升，且将要超过服务当前申请的资源总量时，自动增加服务的资源配额。相反，服务的资源使用率如果长期处理较低的状态，自动降低服务的资源配额。当在线服务资源使用率处于低峰期时，将机器的一部分资源拿出来给低优先级的离线的服务使用。该方式只有发现服务资源使用率在一定时长内处于较低水平时，才会降低服务的资源使用配额。虽然这个时长可以设置，但是如果设置的太小，可能会导致业务资源配额调整的抖动现象；即在一个较高的频率内，反复的对服务进行增加资源配额、减小资源配置的操作，会对服务的质量有较大的影响。

因此，现有技术中无法在保障业务稳定性的基础上，较快的对低资源使用率的服务进行降低资源使用配额的操作，以提升服务器的资源使用率。

发明内容

本发明实施例所要解决的技术问题在于，提供一种服务资源调整方法、一种服务资源调整装置、一种服务资源调整设备、以及一种计算机可读存储介质，解决现有技术无法在保障业务稳定性的基础上，较快的对低资源使用率的服务进行降低资源使用配额的操作，以提升服务器的资源使用率的技术问题。

为了解决上述技术问题，本发明实施例第一方面公开了一种服务资源调整方法，包括：

通过预测模型对服务指标进行预测，生成预测数据；其中所述预测模型包括根据服务的历史负载数据建立的预测模型；

根据所述预测数据定期对当前节点上的在线服务进行分析；

在分析出从当前时刻开始的第一时间段内，所述当前节点以外的资源容量满足所述在线服务的需求的情况下，释放所述当前节点的在线资源。

结合第一方面，在第一种可能的实现方式中，所述通过预测模型对服务指标进行预测之前，还包括：

采集服务的历史负载数据；

分析所述历史负载数据中第二时间段内的实际负载分别与多个预测负载的差异值；其中，一个预测负载对应一个预测模型；

根据所述差异值选取用于预测服务指标的预测模型。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述差异值包括实际负载与预测负载的均方根误差与标准差的比例，以及实际负载与预测负载的均方根误差与均值的比例；

所述根据所述差异值选取用于预测服务指标的预测模型包括：

选取均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型，选取的预测模型为用于预测服务指标的预测模型。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，当均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型为多个的情况下，选取均方根误差与标准差的比例最小，和/或均方根误差与均值的比例最小的预测负载对应的预测模型。

结合第一方面的第二种可能的实现方式，在第四种可能的实现方式中，所述预测数据包括预测值以及所述预测值的波动范围；所述预测值的波动范围的最大值为所述预测值加上2倍所述标准差，所述预测值的波动范围的最小值为所述预测值减去2倍所述标准差。

结合第一方面，在第五种可能的实现方式中，所述根据所述预测数据定期对当前节点上的在线服务进行分析，包括：

根据所述预测数据定期分析从当前时刻开始的第一时间段内当前节点的在线服务所需的资源容量；

判断y*θ≥x是否成立；其中，所述y为所述当前节点以外的资源容量，所述θ为系数，所述x为所述在线服务所需的资源容量；

若判断成立，则分析出从当前时刻开始的第一时间段内，所述当前节点以外的资源容量满足所述在线服务的需求。

结合第一方面，在第六种可能的实现方式中，所述释放所述当前节点的在线资源，包括：

在所述当前节点的机器停流量流程全部执行成功的情况下，在所述机器上创建离线容器；

其中，所述停流量流程用于对所述机器的在线容器的流量切换到其他节点，所述离线容器供离线服务使用。

结合第一方面的第六种可能的实现方式，在第七种可能的实现方式中，所述在所述机器上创建离线容器之后，还包括：

在判断出需要缩容所述机器上的离线容器的情况下，对所述离线容器进行缩容；

在所述离线容器缩容成功后，恢复所述机器的在线容器的流量。

结合第一方面的第七种可能的实现方式，在第八种可能的实现方式中，执行停流量流程的机器多个；所述在所述当前节点的机器停流量流程全部执行成功的情况下，在所述机器上创建离线容器，包括：

从待停服列表中逐个获取要执行停流量流程的机器，并执行所述停流量流程；所述待停服列表包括多个需要执行停流量流程的机器信息；

实时获取所述待停服列表中的机器的停流量流程状态，遍历判断所述待停服列表中的机器的停流量流程是否执行成功；

对停流量流程执行成功的服务创建离线容器，直到对所述待停服列表中的所有机器都创建离线容器。

结合第一方面的第八种可能的实现方式，在第九种可能的实现方式中，所述在判断出需要缩容所述机器上的离线容器的情况下，对所述离线容器进行缩容，包括：

定时轮询停服列表中机器的停流量结束时间；

在离所述停流量结束时间达到第三阈值的情况下，判断所述离所述停流量结束时间达到第三阈值的机器是否需要缩容所述机器上的离线容器；

若是，则对所述离线容器进行缩容。

结合第一方面的第九种可能的实现方式，在第十种可能的实现方式中，所述对所述离线容器进行缩容之后，所述恢复所述机器的在线容器的流量之前，还包括：

判断离线容器是否缩容成功；

若缩容成功，则执行所述恢复所述机器的在线容器的流量的步骤；若缩容失败，则停止所述离线容器。

本发明实施例第二方面公开了一种服务资源调整装置，包括执行如上述第一方面及各个可能的实现方式中的方法的单元。

本发明实施例第三方面公开了一种图像识别设备，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储应用程序代码，所述处理器被配置用于调用所述程序代码，执行如上述第一方面及各个可能的实现方式中的方法。

本发明实施例第四方面公开了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如上述第一方面及各个可能的实现方式中的方法。

实施本发明实施例，通过数学建模，使用服务的历史负载数据建立的预测模型对服务未来一段时间的服务指标(即服务负载)进行预测，并定期对当前节点的在线服务进行分析，在分析出从当前时刻开始的第一时间段内，该当前节点以外的资源容量满足该在线服务的需求的情况下，释放该当前节点的在线资源，从而既保障了业务稳定性，又能较快的对低资源使用率的服务进行降低资源使用配额的操作，大幅度提升服务器的资源使用率，有效节省了公司或企业的运营成本；而且在当前节点的机器停流量流程全部执行成功的情况下，在机器上创建离线容器；在判断出需要缩容机器上的离线容器的情况下，对离线容器进行缩容；在离线容器缩容成功后，恢复机器的在线容器的流量，解决了现有技术中在线、离线容器混布易造成的磁盘IO和网络IO争抢的问题，进一步保证了在线服务的稳定性。

附图说明

为了说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的服务器集群的系统架构示意图；

图2是本发明实施例提供的服务资源调整方法的流程示意图；

图3是本发明提供的服务资源调整方法的另一实施例的流程示意图；

图4是本发明实施例提供的时序数据生成的流程示意图；

图5是本发明实施例提供的机器停服的流程示意图；

图6是本发明实施例提供的流程状态检查及离线容器创建的流程示意图；

图7是本发明实施例提供的离线容器缩容及在线容器流量恢复的流程示意图；

图8是本发明实施例提供的服务资源调整装置的结构示意图；

图9是本发明提供的服务资源调整装置的另一实施例的结构示意图；

图10是本发明实施例提供的定期分析单元的结构示意图；

图11是本发明实施例提供的释放单元的结构示意图；

图12是本发明提供的释放单元的另一实施例的结构示意图；

图13是本发明实施例提供的服务资源调整设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

具体实现中，本发明实施例中描述的终端或设备包括但不限于诸如台式计算机、膝上型计算机、平板计算机、智能终端等。

为了更好的理解本发明实施例提供的一种服务资源调整方法、服务资源调整装置和服务资源调整设备，下面先对本发明实施例的服务资源调整的系统架构进行描述。以服务器集群系统架构为例，如图1示出的本发明实施例提供的服务器集群的系统架构示意图，图1中的服务器集群组层是由一些互相连接在一起的计算机构成的一个并行或分布式系统。这些计算机一起工作并运行一系列共同的应用程序，同时，为用户和应用程序提供单一的系统映射。服务器集群系统通俗地讲就是把多台服务器通过快速通信链路连接起来，从外部看来，这些服务器就像一台服务器在工作，对外提供统一的服务；而对内来说，外面来的负载通过一定的机制动态地分配到这些节点机器中去，从而达到超级服务器才有的高性能、高可用。

本发明实施例的服务资源调整方法可以用于如何动态调整大规模的计算机集群中各个节点(机器)上的服务的资源，例如可以作为运营管理平台后台服务的插件运行，只要用户或运维人员在配置文件中配置开启本发明实施例的服务资源调整功能，该功能即可在后台自动化运行，以既保障业务稳定性，又能较快的对低资源使用率的服务进行降低资源使用配额的操作，大幅度提升服务器的资源使用率。

下面结合图2示出的本发明实施例提供的服务资源调整方法的流程示意图，具体说明本发明实施例如何动态调整服务资源，可以包括以下步骤：

步骤S200：通过预测模型对服务指标进行预测，生成预测数据；

具体地，其中本发明实施例中的预测模型包括根据服务的历史负载数据建立的预测模型，正因为本发明实施例是使用服务的历史负载数据建立的预测模型对服务未来一段时间的服务指标(即服务负载)进行预测，因此后续利用该生成的预测数据进行分析，可以保障业务的稳定性。

在其中一个实施例中，服务指标可以包括CPU、内存、网络、磁盘(或硬盘)等服务负载。

步骤S202：根据所述预测数据定期对当前节点上的在线服务进行分析；

具体地，本发明实施例中的定期可以是用户或运维人员根据自身情况来进行设定，分析的周期越短，分析结果越精确，但同时需要耗费更多分析所需的资源。本发明实施例可以以小时为分析的周期或频率，也就是说本发明的主动调度服务可以以小时为频率，定期根据该对当前节点上的在线服务进行分析，以分析在未来一段时间内当前节点以外的资源容量是否满足该当前节点上的在线服务的需求。

本发明实施例中的服务器集群包括多节点服务，每个节点可以对应一个服务器(即机器)，一个机器上可以同时提供多个在线服务。本发明实施例中的未来一段时间即从当前时刻开始的第一时间段，该第一时间段同样可以是用户或运维人员根据自身情况来进行设定，例如为2个小时，2.5个小时，3个小时等等。

步骤S204：在分析出从当前时刻开始的第一时间段内，所述当前节点以外的资源容量满足所述在线服务的需求的情况下，释放所述当前节点的在线资源。

具体地，释放出来的当前节点的在线资源可以用于供离线服务使用，即供低优先级或优先级不高的离线计算任务，或对实时性要求不高的服务使用，还可以供其他节点(即集群中的其他机器)使用。

实施本发明实施例，通过数学建模，使用服务的历史负载数据建立的预测模型对服务未来一段时间的服务指标(即服务负载)进行预测，并定期对当前节点的在线服务进行分析，在分析出从当前时刻开始的第一时间段内，该当前节点以外的资源容量满足该在线服务的需求的情况下，释放该当前节点的在线资源，从而既保障了业务稳定性，又能较快的对低资源使用率的服务进行降低资源使用配额的操作，大幅度提升服务器的资源使用率，有效节省了公司或企业的运营成本。

下面进一步结合图3示出的本发明提供的服务资源调整方法的另一实施例的流程示意图，再进行详细说明，包括以下步骤：

步骤S300：生成时序数据；

具体地，本发明实施例可以引入服务画像服务模块，具体参考图4示出的本发明实施例提供的时序数据生成的流程示意图，以小时级调度为例，本发明实施例的服务画像服务在小时级调度功能中，承担着S400采集服务的历史负载数据，S402时序模型选择，S404时序数据计算、S406时序数据可靠性分析等功能。本发明实施例中的服务画像服务可以以模块单元(module unit)为单位，来对模块单元的服务指标或负载指标，包括CPU、内存、网络、磁盘等，进行预测。

本发明实施例中的小时级调度可以指以小时为调度的时间粒度，根据服务的负载趋势，对服务容量进行调度。本发明实施例中的模块单元可以指某个服务的管理单位，具体就是本发明将部署在同一个城市的同一个逻辑管理域里的服务作为一个模块单位。

如图4，首先服务画像服务可以从监控平台提取容器的历史负载数据，以采集服务的历史负载数据，然后将其按指定的格式进行整理、入库。这一步可以称为历史数据的预处理阶段。预处理阶段完成后，选出相对最优的时序模型(即预测模型)，用于本次时序数据的运算。

具体地，在预处理阶段完成后，可以分析该历史负载数据中第二时间段内的实际负载分别与多个预测负载的差异值；其中，一个预测负载对应一个预测模型；然后根据该差异值选取用于预测服务指标的时序模型(即预测模型)。

作为其中一个实施方式，本发明实施例的差异值可以包括实际负载与预测负载的均方根误差与标准差的比例，以及实际负载与预测负载的均方根误差与均值的比例；那么根据该差异值选取用于预测服务指标的预测模型可以具体包括：选取均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型，选取的预测模型为用于预测服务指标的预测模型。例如，该第二时间段为1天，那么可以通过判断前一天实际负载和预测负载的均方根误差与标准差的比例是否小于第一阈值，以及均方根误差与均值的比例是否小于第二阈值，来评估最优模型是否适用于预测任务。

当均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型为多个的情况下，选取均方根误差与标准差的比例最小，和/或均方根误差与均值的比例最小的预测负载对应的预测模型。例如第一阈值为0.1，第二阈值为0.15，有两个预测负载对应的预测模型都小于该第一阈值和第二阈值，其中一个预测模型的均方根误差与标准差的比例为0.08，均方根误差与均值的比例为0.11，另一个预测模型的均方根误差与标准差的比例为0.06，均方根误差与均值的比例为0.09，那么可以选取均方根误差与标准差的比例和均方根误差与均值的比例最小的预测模型作为最优模型，用于预测任务。

在本发明的其中一个实施方式中，在使用选定的相对最优的模型对预测指标进行预测，生成预测数据(即时序数据)后，还可以对预测数据的可靠性进行分析。也就是说，本发明实施例的预测数据可以包括预测值(即点预测)以及该预测值的波动范围(即区间估计)；该预测值的波动范围由两个值给出，这两个值分别给出了波动范围的最大值和最小值。该预测值的波动范围的最大值可以为该预测值加上2倍所述标准差，该预测值的波动范围的最小值可以为该预测值减去2倍所述标准差。上述波动范围的取值相当于有95％的可能性落在其服从的正态分布的均值上。

步骤S302：机器可停服性评估；

具体地，该机器可停服性评估相当于上述根据该预测数据定期对当前节点上的在线服务进行分析。该机器可停服性评估可以由主动调度服务实现，该主动调度服务可以以小时为频率，定期对线上的机器做可停服性评估。评估的依据可以是如果该机器上所有的在线服务全部停止服务，从现在开始到未来的一段时间内，剩余节点的资源容量能否满足在线的需求。

在其中一个实施方式中，步骤S302可以具体包括：根据该预测数据定期分析从当前时刻开始的第一时间段内当前节点的在线服务所需的资源容量；判断y*θ≥x是否成立；其中，该y为所述当前节点以外的资源容量，该θ为系数，以保障即使预测值有一定能够误差，在线服务仍然是安全的；该x为该在线服务所需的资源容量；若判断成立，则分析出从当前时刻开始的第一时间段内，该当前节点以外的资源容量满足该在线服务的需求。资源容量以CPU资源为例，假设当前时刻为14点，该第一时间段为2.5个小时，θ为0.7，根据预测数据分析出未来2.5个小时(即14点至16点30分)某模块单元最高负载为x个CPU，该x即可以为预测值在波动范围的最大值，该机器停服后，该模块单元其他节点剩余的总CPU为y，要保证y*0.7≥x成立，主动调度服务才认为满足容量需求。如果该机器上的在线服务停止服务后，仍然能够满足业务资源容量的需求，记录下该机器可停服的起始和结束时间。

本发明实施例中的在线服务是指优先级较高的服务，对服务运行的可靠性和稳定性有较高的要求。本发明实施例中的离线服务是指优先级不高的离线计算任务，对实时性要求不高的服务。

步骤S304：机器停服；

具体地，本发明实施例中的机器停服是指停止某台机器上所有的在线服务；该机器停服可以为由主动调度流程发起的停流量流程，将拟停服机器上的在线服务流量切到其他的机器上去，即对拟停服机器的在线容器的流量切换到其他节点。

步骤S306：流程状态检查及离线容器创建；

具体地，在该当前节点的机器停流量流程全部执行成功的情况下，在该机器上创建离线容器；其中，该停流量流程用于对该机器的在线容器的流量切换到其他节点，该离线容器供离线服务使用。执行停流量流程的机器可以有多个，那么可以定期同步或实时同步待停服列表中的机器的停流量流程状态，对停流量流程全部执行成功的机器创建离线容器。该待停服列表包括多个需要执行停流量流程的机器信息。

需要说明的是，docker虽然提供了容器间资源隔离的机制，但是在磁盘IO和网络IO方面，目前仍然没有办法做到很好的隔离。在线服务和离线服务混布的情况下，容易造成磁盘I/O或者网络IO争抢的情况，对在线服务的稳定行造成较大的影响。本发明实施例中的docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上，也可以实现虚拟化。

本发明针对在线、离线容器混布易造成的磁盘IO和网络IO争抢的问题，提出了上述机器停服的概念。经过一定的机器可停服性评估或分析后，将某个时间片内，某台机器上所有的在线容器全部停止后，再部署离线容器，避免在线容器和离线容器的混布。后续在这段时间片结束前，缩容离线容器，重新启动在线容器。

步骤S308：轮询机器停服状态；

具体地，可以定时轮询停服列表中机器的停流量结束时间，该停服列表包括多个已经执行完毕停流量流程的机器信息。在判断出需要缩容某个机器上的离线容器的情况下，执行步骤S310。

步骤S310：缩容离线容器；

具体地，本发明实施例中的缩容离线容器具体可以为删除容器节点，在判断出需要缩容某个机器上的离线容器的情况下，对该机器上的离线容器进行缩容，以后续恢复机器的在线容器的流量。

步骤S312：恢复在线容器流量；

具体地，对离线容器缩容成功的机器，恢复其此前切换到其他节点上的在线容器的流量。

在其中的一个实施方式中，执行停流量流程的机器有多个，步骤S312之后，继续执行步骤S308的轮询步骤，直至将所有机器的在线容器流量都进行了恢复。执行步骤S304可以具体参考如图5示出的本发明实施例提供的机器停服的流程示意图，可以包括以下步骤：

步骤S500：获取机器列表中的机器信息；

步骤S502：判断机器是否满足停服条件；具体地，通过步骤S302来进行分析判断；当判断满足停服条件，则执行步骤S504，当判断不满足停服条件，则执行继续执行步骤S500获取下一个机器信息。

步骤S504：将机器加入待停服列表；

步骤S506：检测所有机器是否判断完毕；若没有判断完毕，则继续执行步骤S500获取下一个机器信息，若判断完毕，则执行步骤S508；

步骤S508：逐个获取待停服列表中的机器信息；

步骤S510：发起停流量流程；

步骤S512：检测待停服列表中所有机器是否停服完毕；若没有停服完毕，则继续执行步骤S508获取下一个机器信息，若停服完毕，则机器停服流程结束。即从待停服列表中逐个获取要执行停流量流程的机器，并执行停流量流程，直到该待停服列表中的所有机器的停流量流程都执行成功。

在其中的一个实施方式中，执行停流量流程的机器有多个，执行步骤S306可以具体参考如图6示出的本发明实施例提供的流程状态检查及离线容器创建的流程示意图，可以包括以下步骤：

步骤S600：同步在线服务停流量流程的状态；

具体地，定期或实时获取所述停服列表中的机器的停流量流程状态，即定期或实时同步步骤S304执行停流量流程的状态；

步骤S602：从停服列表中遍历获取一台机器信息；

步骤S604：判断获取的机器的停流量流程是否执行成功；当判断执行成功，则执行步骤S606，当判断没有执行成功，则继续执行步骤S602；即遍历判断该停服列表中的机器的停流量流程是否执行成功；

步骤S606：创建离线容器；

具体地，对停流量流程执行成功的服务创建离线容器；

步骤S608：判断是否所有机器都遍历完成；当判断遍历没有完成时，也就是说还没有对该停服列表中的所有机器都创建离线容器，则继续执行步骤S602；当判断遍历完成后，也就是说对该停服列表中的所有机器都创建离线容器，则流程状态检查及离线容器创建流程结束。

在其中的一个实施方式中，执行停流量流程的机器有多个，执行步骤S308至S312可以具体参考如图7示出的本发明实施例提供的离线容器缩容及在线容器流量恢复的流程示意图，可以包括以下步骤：

步骤S700：轮询机器停服状态，判断是否到了指定时间；

具体地，定时轮询停服列表中机器的停流量结束时间，该指定时间可以为离所述停流量结束时间达到第三阈值的时间，该第三阈值可以为2分钟，也就是说该指定时间可以为某停服机器的停服时间即将到达；本发明的其中一个实施方式通过设定停服时间即将到达，那么在即将到达至到达结束时间的过程中，正好完成对下面缩容离线容器的判断，然后无缝进行离线容器的缩容，并恢复在线容器的流量，提高了流程的执行效率。

步骤S702：更新流程执行状态；

具体地，可以更新上述停流量流程的执行状态，以备后续判断是否需要缩容离线容器。

步骤S704：从停服列表中遍历获取一台机器信息；

步骤S706：判断获取的机器是否需要缩容离线容器；

具体地，也就是说在离该停流量结束时间达到第三阈值的情况下，判断该离该停流量结束时间达到第三阈值的机器是否需要缩容该机器上的离线容器；若判断该机器的离线容器还存在，则判断出需要缩容离线容器，执行步骤S708；若判断该机器的离线容器已经不存在了，比如此前没有创建成功离线容器，或者提前删除了离线容器，那么判断出不需要缩容离线容器，执行步骤S710；

步骤S708：对离线容器进行缩容；

步骤S710：判断离线容器是否缩容成功；

具体地，若缩容不成功，则执行步骤S712，若缩容成功，则直接执行步骤S714；

步骤S712：停止离线容器；

步骤S714：判断是否需要恢复在线容器流量；

具体地，若此前该机器的在线容器流量实际上没有切换，或者切换失败，那么即判断出不需要恢复该机器的在线容器流量，执行步骤S718；否则，在判断出需要恢复该机器的在线容器流量时，执行步骤S716；

步骤S716：恢复机器的在线容器的流量；

步骤S718：判断是否所有机器遍历完成；

具体地，若判断遍历没有完成，则继续执行步骤S704；若判断遍历完成，则离线容器缩容及在线容器流量恢复的流程结束。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种服务资源调整装置，下面结合附图来进行详细说明：

如图8示出的本发明实施例提供的服务资源调整装置的结构示意图，服务资源调整装置80可以包括：生成单元800、分析单元802和释放单元804，其中，

生成单元800用于通过预测模型对服务指标进行预测，生成预测数据；其中该预测模型包括根据服务的历史负载数据建立的预测模型；

定期分析单元802用于根据该预测数据定期对当前节点上的在线服务进行分析；

释放单元804用于在分析出从当前时刻开始的第一时间段内，该当前节点以外的资源容量满足该在线服务的需求的情况下，释放该当前节点的在线资源。

在其中一个实施例中，如图9示出的本发明提供的服务资源调整装置的另一实施例的结构示意图，服务资源调整装置80包括生成单元800、定期分析单元802和释放单元804外，还可以包括：采集单元806、差异值分析单元808和选取单元8010，其中，

采集单元806用于采集服务的历史负载数据；

差异值分析单元808用于分析该历史负载数据中第二时间段内的实际负载分别与多个预测负载的差异值；其中，一个预测负载对应一个预测模型；

选取单元8010用于根据该差异值选取用于预测服务指标的预测模型。

具体地，该差异值包括实际负载与预测负载的均方根误差与标准差的比例，以及实际负载与预测负载的均方根误差与均值的比例；

该选取单元8010可以具体用于选取均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型，选取的预测模型为用于预测服务指标的预测模型。

当均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型为多个的情况下，该选取单元8010选取均方根误差与标准差的比例最小，和/或均方根误差与均值的比例最小的预测负载对应的预测模型。

本发明实施例中的预测数据包括预测值以及预测值的波动范围；预测值的波动范围的最大值为预测值加上2倍该标准差，预测值的波动范围的最小值为预测值减去2倍该标准差。

在其中的一个实施例中，如图10示出的本发明实施例提供的定期分析单元的结构示意图，定期分析单元802可以包括容量分析单元8020和第一判断单元8022，其中，

容量分析单元8020用于根据该预测数据定期分析从当前时刻开始的第一时间段内当前节点的在线服务所需的资源容量；

第一判断单元8022用于判断y*θ≥x是否成立；其中，该y为该当前节点以外的资源容量，该θ为系数，该x为该在线服务所需的资源容量；

若判断成立，则分析出从当前时刻开始的第一时间段内，该当前节点以外的资源容量满足该在线服务的需求。

进一步地，本发明实施例中的释放单元804可以具体用于在该当前节点的机器停流量流程全部执行成功的情况下，在该机器上创建离线容器；

其中，该停流量流程用于对该机器的在线容器的流量切换到其他节点，该离线容器供离线服务使用。

具体地，释放单元804在机器上创建离线容器之后，还可以在判断出需要缩容该机器上的离线容器的情况下，对该离线容器进行缩容；在该离线容器缩容成功后，恢复该机器的在线容器的流量。

在其中的一个实施例中，执行停流量流程的机器多个；如图11示出的本发明实施例提供的释放单元的结构示意图，释放单元804可以包括获取执行单元8040、状态获取单元8042、遍历判断单元8044和创建单元8046，其中，

获取执行单元8040用于从待停服列表中逐个获取要执行停流量流程的机器，并执行该停流量流程；该待停服列表包括多个需要执行停流量流程的机器信息；

状态获取单元8042用于实时获取该待停服列表中的机器的停流量流程状态；

遍历判断单元8044用于遍历判断该待停服列表中的机器的停流量流程是否执行成功；

创建单元8046用于对停流量流程执行成功的服务创建离线容器，直到对该待停服列表中的所有机器都创建离线容器。

在其中的一个实施例中，如图12示出的本发明提供的释放单元的另一实施例的结构示意图，释放单元804包括获取执行单元8040、状态获取单元8042、遍历判断单元8044和创建单元8046外，还可以包括轮询单元8048、第二判断单元80410、缩容单元80412、第三判断单元80414和停止单元80416，其中，

轮询单元8048用于在创建单元8046对停流量流程执行成功的服务创建离线容器之后，定时轮询停服列表中机器的停流量结束时间；

第二判断单元80410用于在离该停流量结束时间达到第三阈值的情况下，判断该离该停流量结束时间达到第三阈值的机器是否需要缩容该机器上的离线容器；

缩容单元80412用于在第二判断单元80410判断为是，对该离线容器进行缩容；

第三判断单元80414用于判断离线容器是否缩容成功；若缩容成功，则恢复该机器的在线容器的流量；

停止单元80416用于若第三判断单元80414判断缩容失败，则停止该离线容器。

需要说明的是，本发明实施例中的服务资源调整装置80可以为动态调整大规模的计算机集群中各个节点(机器)上的服务的资源的装置，例如运营管理平台装置，该服务资源调整装置80中各模块的功能可对应参考上述各方法实施例中图2至图7实施例的具体实现方式，这里不再赘述。

为了便于更好地实施本发明实施例的上述方案，本发明还对应提供了一种服务资源调整设备，下面结合附图来进行详细说明：

如图13示出的本发明实施例提供的服务资源调整设备的结构示意图，服务资源调整设备13可以包括处理器131、输入单元132、输出单元133、存储器134和通信单元135，处理器131、输入单元132、输出单元133、存储器134和通信单元135可以通过总线136相互连接。存储器134可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器，存储器704包括本发明实施例中的flash。存储器134可选的还可以是至少一个位于远离前述处理器131的存储系统。存储器134用于存储应用程序代码，可以包括操作系统、网络通信模块、用户接口模块以及服务资源调整程序，通信单元135用于与外部单元进行信息交互；处理器131被配置用于调用该程序代码，执行以下步骤：

根据所述预测数据定期对当前节点上的在线服务进行分析；

其中，处理器131通过预测模型对服务指标进行预测之前，还可以执行：

采集服务的历史负载数据；

根据所述差异值选取用于预测服务指标的预测模型。

其中，所述差异值包括实际负载与预测负载的均方根误差与标准差的比例，以及实际负载与预测负载的均方根误差与均值的比例；处理器131根据所述差异值选取用于预测服务指标的预测模型可以包括：

其中，当均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型为多个的情况下，选取均方根误差与标准差的比例最小，和/或均方根误差与均值的比例最小的预测负载对应的预测模型。

其中，预测数据包括预测值以及所述预测值的波动范围；所述预测值的波动范围的最大值为所述预测值加上2倍所述标准差，所述预测值的波动范围的最小值为所述预测值减去2倍所述标准差。

其中，处理器131根据所述预测数据定期对当前节点上的在线服务进行分析，可以包括：

其中，处理器131释放所述当前节点的在线资源，可以包括：

其中，处理器131在所述机器上创建离线容器之后，还可以执行：在判断出需要缩容所述机器上的离线容器的情况下，对所述离线容器进行缩容；

其中，执行停流量流程的机器多个；处理器131在所述当前节点的机器停流量流程全部执行成功的情况下，在所述机器上创建离线容器，包括：

其中，处理器131在判断出需要缩容所述机器上的离线容器的情况下，对所述离线容器进行缩容，包括：

定时轮询停服列表中机器的停流量结束时间；

若是，则对所述离线容器进行缩容。

其中，处理器131对所述离线容器进行缩容之后，所述恢复所述机器的在线容器的流量之前，还可以执行：

判断离线容器是否缩容成功；

需要说明的是，本发明实施例中的服务资源调整设备13可以为动态调整大规模的计算机集群中各个节点(机器)上的服务的资源的设备，例如运营管理平台设备，该服务资源调整设备13中各处理器的执行步骤可对应参考上述各方法实施例中图2至图7实施例的具体实现方式，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种服务资源调整方法，其特征在于，包括：

根据所述预测数据定期对当前节点上的在线服务进行分析；

在分析出从当前时刻开始的第一时间段内，所述当前节点以外的资源容量满足所述在线服务的需求的情况下，释放所述当前节点的在线资源；

所述释放所述当前节点的在线资源包括：

在所述当前节点的机器停流量流程全部执行成功的情况下，在所述机器上创建离线容器；其中，所述停流量流程用于对所述机器的在线容器的流量切换到其他节点，所述离线容器供离线服务使用。

2.如权利要求1所述的方法，其特征在于，所述通过预测模型对服务指标进行预测之前，还包括：

采集服务的历史负载数据；

根据所述差异值选取用于预测服务指标的预测模型。

3.如权利要求2所述的方法，其特征在于，所述差异值包括实际负载与预测负载的均方根误差与标准差的比例，以及实际负载与预测负载的均方根误差与均值的比例；

4.如权利要求3所述的方法，其特征在于，当均方根误差与标准差的比例小于第一阈值，和/或均方根误差与均值的比例小于第二阈值的预测负载对应的预测模型为多个的情况下，选取均方根误差与标准差的比例最小，和/或均方根误差与均值的比例最小的预测负载对应的预测模型。

5.如权利要求3所述的方法，其特征在于，所述预测数据包括预测值以及所述预测值的波动范围；所述预测值的波动范围的最大值为所述预测值加上2倍所述标准差，所述预测值的波动范围的最小值为所述预测值减去2倍所述标准差。

6.如权利要求1所述的方法，其特征在于，所述根据所述预测数据定期对当前节点上的在线服务进行分析，包括：

7.如权利要求1所述的方法，其特征在于，所述在所述机器上创建离线容器之后，还包括：

8.如权利要求7所述的方法，其特征在于，执行停流量流程的机器多个；所述在所述当前节点的机器停流量流程全部执行成功的情况下，在所述机器上创建离线容器，包括：

9.如权利要求8所述的方法，其特征在于，所述在判断出需要缩容所述机器上的离线容器的情况下，对所述离线容器进行缩容，包括：

定时轮询停服列表中机器的停流量结束时间；

若是，则对所述离线容器进行缩容。

10.如权利要求9所述的方法，其特征在于，所述对所述离线容器进行缩容之后，所述恢复所述机器的在线容器的流量之前，还包括：

判断离线容器是否缩容成功；

11.一种服务资源调整装置，其特征在于，包括用于执行如权利要求1-10任一项所述的方法的单元。

12.一种服务资源调整设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储应用程序代码，所述处理器被配置用于调用所述程序代码，执行如权利要求1-10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-10中任意一项所述的方法。