CN115834388B

CN115834388B - 系统控制方法及装置

Info

Publication number: CN115834388B
Application number: CN202211297224.4A
Authority: CN
Inventors: 朱诗逸; 蒋炜; 李建国
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-11-14
Anticipated expiration: 2042-10-21
Also published as: CN115834388A

Abstract

本说明书实施例提供了系统控制方法及装置，其中，一种系统控制方法包括：获取对目标系统进行监测所得到的当前时间段的系统状态信息；目标系统包括服务器集群；将系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到目标系统的容量配置方案集合；在容量配置方案集合中确定目标容量配置方案；目标容量配置方案用于对目标系统执行容量配置操作；根据目标容量配置方案，执行对目标系统的服务器集群的容量配置操作。

Description

系统控制方法及装置

技术领域

本文件涉及数据处理领域，尤其涉及一种系统控制方法及装置。

背景技术

随着互联网技术的发展，云业务呈现蓬勃的发展趋势，用于实现云业务的云服务系统的规模也越来越大。在云服务系统执行资源调配的过程中，若增加云服务系统的系统容量，可能会造成资源浪费；若减少云服务系统的系统容量，虽然能够节省资源，但可能会导致云服务系统的工作负载过高，业务执行出错。

发明内容

本说明书一个或多个实施例提供了一种系统控制方法。所述系统控制方法，包括：获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群。将所述系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到所述目标系统的容量配置方案集合。在所述容量配置方案集合中确定目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作。根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

本说明书一个或多个实施例提供了一种系统控制装置，包括：信息获取模块，被配置为获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群。操作预估模块，被配置为将所述系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到所述目标系统的容量配置方案集合。方案确定模块，被配置为在所述容量配置方案集合中确定目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作。操作执行模块，被配置为根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

本说明书一个或多个实施例提供了一种系统控制设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群。将所述系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到所述目标系统的容量配置方案集合。在所述容量配置方案集合中确定目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作。根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

本说明书一个或多个实施例提供了一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群。将所述系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到所述目标系统的容量配置方案集合。在所述容量配置方案集合中确定目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作。根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本说明书一个或多个实施例提供的一种系统控制方法处理流程图；

图2为本说明书一个或多个实施例提供的一种系统控制方法中强化学习原理示意图；

图3为本说明书一个或多个实施例提供的一种系统控制方法的算法流程图；

图4为本说明书一个或多个实施例提供的一种系统控制装置示意图；

图5为本说明书一个或多个实施例提供的一种系统控制设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。

本说明书提供的一种系统控制方法实施例：

通过本实施例提供的系统控制方法，可以获取当前时间段的实时的系统状态信息，并生成该当前时间段对应的容量配置操作集合，一方面能够保证服务器集群的容量配置符合最新的工作需求，另一方面，能够避免服务器集群的容量配置过于频繁。

参照图1，本实施例提供的系统控制方法，具体包括步骤S102至步骤S108。

步骤S102，获取对目标系统进行监测所得到的当前时间段的系统状态信息；目标系统包括服务器集群。

目标系统可以是一个包括服务器集群的系统。服务器集群可以是将很多服务器集中起来一起进行同一种服务，从客户端的角度可以将服务器集群视为一个服务器。服务器集群可以利用多个计算机设备进行并行计算从而获得很高的计算速度，也可以用多个计算机设备做备份，从而使得在任何一个计算机设备损坏的情况下服务器集群所处的系统还是能正常运行。

目标系统的系统容量可以是目标系统包括的服务器集群中部署的服务器数量。

在服务器集群作为一个整体共同执行任务的情况下，且每个服务器所运行的代码相同的情况下，服务器集群所包括的每个服务器可以视为一个集群副本。增加集群副本的数量，可能导致服务器集群中每个服务器的工作负担降低，即服务器集群的CPU利用率下降；减少集群副本的数量，可能导致服务器集群中每个服务器的工作负担增加，即服务器集群的CPU利用率上升。

服务器集群的CPU利用率，可以是服务器集群包括的多个服务器中每个服务器的CPU利用率的平均值。

当前时间段的长度可以预先设置，例如，24小时。

在获取当前时间段的系统状态信息之前，可以通过监控模块，按照预设采集频率对目标系统进行监测，得到各个时间点的系统状态信息并存储于数据库中，获取当前时间段的系统状态信息，可以是在预设时间点从数据库中读取当前时间段的系统状态信息，当前时间段可以包括多个时间点，当前时间段所包括的多个时间点由预设时间点和预先设置的当前时间段的长度确定。

例如，预设采集频率为每分钟采集1次，则各个时间点的系统状态信息可以是每分钟的系统状态信息。当前时间段的长度为24小时，预设时间点为本日上午9点，则当前时间段可以是昨日上午9点至本日上午9点，当前时间段所包括的多个时间点，可以是当前时间段内每分钟对应的各个时间点。

系统状态信息可以是可反映目标系统的系统状态的参数信息。

在本实施例提供的一种可选实施方式中，系统状态信息包括服务器集群的流量指标、性能指标以及业务指标中的至少一者。

流量指标可以是用于表征服务器集群工作时各个服务器的流量数值的指标，例如，最大流量值，平均流量值，等等。

性能指标可以是用于表征服务器集群的服务器性能的指标，例如，CPU利用率，等等。

业务指标可以是用于表征服务器集群业务处理情况的指标，例如，线上服务的响应时间RT(Reaction Time)，线上服务的出错次数error，等等。

当前时间段的系统状态信息可以反映目标系统的最新的系统状态信息，以便于后续步骤中基于最新的系统状态信息确定目标系统的容量配置操作，使得目标系统更新及时。

步骤S104，将系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到目标系统的容量配置方案集合。

当前时间段可以包括多个时间点。当前时间段的系统状态信息可以是当前时间段内多个时间点的系统状态子信息。该多个时间点中，每个时间点可以对应于一个系统状态子信息，每个系统状态子信息可以对应于一个容量配置方案。基于各个时间点的容量配置方案可以构建目标系统的容量配置方案集合。

在本实施例提供的一种可选实施方式中，容量配置操作包括用于表征增加服务器集群中的服务器数量的扩容配置操作或用于表征减少服务器集群中的服务器数量的缩容配置操作。

容量配置操作可以包括增加服务器集群中部署的服务器数量的扩容配置操作，还可以包括减少服务器集群中部署的服务器数量的缩容配置操作。

具体实施时，通过对容量配置操作进行的预估处理，可以得到容量配置操作的操作类型和容量变化值，进而基于操作类型和容量变化值生成目标系统的一个容量配置方案。该情况下容量变化值均为非负值。

容量配置操作的容量变化值可以是扩容容量配置操作所对应的服务器的增加数量，或者，缩容配置操作所对应的服务器的减少数量。

例如，容量配置操作的操作类型为扩容配置操作，容量变化值为3，则基于操作类型和容量变化值生成目标系统的一个容量配置方案，该容量配置方案可以用于表征增加三个服务器集群中部署的服务器数量。容量配置操作的操作类型为缩容配置操作，容量变化值为2，则基于操作类型和容量变化值生成目标系统的一个容量配置方案，该容量配置方案可以用于表征减少两个服务器集群中部署的服务器数量。

另外，通过对容量配置操作进行的预估处理，也可以仅得到容量变化值。该情况下容量变化值可以是正值，可以是零，可以是负值。在容量变化值为正值的情况下，容量配置操作的操作类型为扩容配置操作，在容量变化值为负值的情况下，容量配置操作的操作类型为缩容配置操作。

将当前时间段的系统状态信息输入当前时间段的系统控制模型，可以是，在当前时间段内，将每个时间点的系统状态信息输入每个时间点的系统控制模型，即在当前时间段内交替执行获取当前时间点的系统状态子信息和将系统状态子信息输入当前时间点的系统状态模型。

具体实施时，可以在当前时间段内，按照当前时间段所包括的各个时间点的时间顺序，交替执行步骤“获取对目标系统进行监测所得到的当前时间点的系统状态信息”以及步骤“将系统状态信息输入当前时间点的系统控制模型进行容量配置操作的预估处理，得到目标系统在当前时间点的容量配置方案”，进而，在当前时间段的结束时间点，或者，在当前时间段的结束时间点之后，根据各个当前时间点的容量配置方案，构建目标系统的容量配置方案集合。

例如，当前时间段包括按照从前到后的时间顺序依次排列的5个时间点：时间点1、时间点2、时间点3、时间点4以及时间点5。

在时间点1，获取对目标系统进行监测所得到的时间点1的系统状态信息，将系统状态信息输入时间点1的系统控制模型进行容量配置操作的预估处理，得到目标系统在时间点1的容量配置方案，即方案1。

在时间点2，获取对目标系统进行监测所得到的时间点2的系统状态信息，将系统状态信息输入时间点2的系统控制模型进行容量配置操作的预估处理，得到目标系统在时间点2的容量配置方案，即方案2。

在时间点3，获取对目标系统进行监测所得到的时间点3的系统状态信息，将系统状态信息输入时间点3的系统控制模型进行容量配置操作的预估处理，得到目标系统在时间点3的容量配置方案，即方案3。

在时间点4，获取对目标系统进行监测所得到的时间点4的系统状态信息，将系统状态信息输入时间点4的系统控制模型进行容量配置操作的预估处理，得到目标系统在时间点4的容量配置方案，即方案4。

在时间点5，获取对目标系统进行监测所得到的时间点5的系统状态信息，将系统状态信息输入时间点5的系统控制模型进行容量配置操作的预估处理，得到目标系统在时间点5的容量配置方案，即方案5。

在时间点5之后，基于方案1、方案2、方案3、方案4以及方案5构建目标系统的容量配置方案集合。

在本实施例提供的一种可选实施方式中，系统状态信息包括当前时间段内多个时间点的系统状态子信息；将系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到目标系统的容量配置方案集合，包括：将各个系统状态子信息输入系统控制模型进行容量配置操作的预估处理，得到各个系统状态子信息对应的预估阈值区间，预估阈值区间用于表征容量配置操作的容量变化值的预估取值范围；基于预估阈值区间，生成对应的容量配置方案；基于各个系统状态子信息对应的容量配置方案，构建当前时间段内目标系统的容量配置方案集合。

当前时间段包括多个时间点，当前时间段的系统状态信息包括当前时间段内各个时间点的系统状态子信息。

具体实施时，可以按照各个时间点从前到后的时间顺序，将各个系统状态子信息输入系统控制模型进行容量配置操作的预估处理，得到各个系统状态子信息对应的预估阈值区间，即，针对每个时间点，将该时间点的系统状态子信息输入该时间点的系统控制模型进行容量配置操作的预估处理，得到该时间点的系统状态子信息对应的预估阈值区间。

例如，当前时间段包括按照从前到后的时间顺序依次排列的时间点1、时间点2、时间点3、时间点4以及时间点5。

将时间点1的系统状态子信息输入时间点1的系统控制模型进行容量配置操作的预估处理，可以得到时间点1的系统状态自信息对应的预估阈值区间，基于该预估阈值区间生成时间点1的容量配置方案。其中，当前时间段的系统控制模型中存储有时间点1之前的上一个时间点的历史执行动作向量。该历史执行动作向量反映了该上一个时间点的系统控制模型在进行容量配置操作的预估处理时所执行的动作参数。

将时间点2的系统状态子信息输入时间点2的系统控制模型进行容量配置操作的预估处理，可以得到时间点2的系统状态自信息对应的预估阈值区间，基于该预估阈值区间生成时间点2的容量配置方案。其中，当前时间段的系统控制模型中存储有时间点1的历史执行动作向量。该历史执行动作向量反映了时间点1的系统控制模型在进行容量配置操作的预估处理时所执行的动作参数。

将时间点3的系统状态子信息输入时间点3的系统控制模型进行容量配置操作的预估处理，可以得到时间点3的系统状态自信息对应的预估阈值区间，基于该预估阈值区间生成时间点3的容量配置方案。其中，当前时间段的系统控制模型中存储有时间点2的历史执行动作向量。该历史执行动作向量反映了时间点2的系统控制模型在进行容量配置操作的预估处理时所执行的动作参数。

将时间点4的系统状态子信息输入时间点4的系统控制模型进行容量配置操作的预估处理，可以得到时间点4的系统状态自信息对应的预估阈值区间，基于该预估阈值区间生成时间点4的容量配置方案。其中，当前时间段的系统控制模型中存储有时间点3的历史执行动作向量。该历史执行动作向量反映了时间点3的系统控制模型在进行容量配置操作的预估处理时所执行的动作参数。

将时间点5的系统状态子信息输入时间点5的系统控制模型进行容量配置操作的预估处理，可以得到时间点5的系统状态自信息对应的预估阈值区间，基于该预估阈值区间生成时间点5的容量配置方案。其中，当前时间段的系统控制模型中存储有时间点4的历史执行动作向量。该历史执行动作向量反映了时间点4的系统控制模型在进行容量配置操作的预估处理时所执行的动作参数。

预估阈值区间用于表征容量配置操作的容量变化值的预估取值范围。

考虑到服务器集群包括多个服务器，各个服务器的性能可能是不一样的，通过系统控制模型计算得到的容量变化值可以不是一个固定的数值，而是一个数值区间。

将每个时间点的系统状态子信息输入系统控制模型后，可以得到该时间点的系统状态子信息对应的预估阈值区间。

基于预估阈值区间，生成对应的容量配置方案，可以是计算预估阈值区间的平均值、中值以及其他参数中的一者，得到目标容量变化值，若目标容量变化值为正值，则确定容量配置操作的操作类型为扩容配置操作，若目标容量变化值为负值，则确定容量配置操作的操作类型为缩容配置操作，进而，基于目标容量变化值可以生成容量配置方案。

在另一种实施方式中，基于预估阈值区间，生成对应的容量配置方案，也可以是根据预估阈值区间，确定与该预估阈值区间对应的容量配置操作的操作类型以及容量变化值，进而，基于该预估阈值区间对应的容量配置操作的操作类型以及容量变化值可以生成容量配置方案。例如，

例如，预估阈值区间可以是[2,4]，由于该预估阈值区间的最大值和最小值均为正值，可以确定该预估阈值区间对应的容量配置操作的操作类型为扩容配置操作，另外，基于该预估阈值区间的最大值和最小值，可以确定容量变化值的取值范围为[2,4]，进而，可以生成容量配置方案，该容量配置方案用于表征增加目标系统所包括的服务器集群中部署的服务器数量最少2个，最多4个。

基于各个系统状态子信息对应的容量配置方案，构建当前时间段内目标系统的容量配置方案集合，该容量配置方案集合中包括各个系统状态子信息对应的容量配置方案。

另外，在系统控制模型投入使用之前，可以对系统控制模型先进行强化学习训练。

在本实施例提供的一种可选实施方式中，系统控制方法，还包括：获取连续的多个时间段的目标系统的样本系统状态信息，及多个时间段的容量配置方案，以及获取容量配置方案所对应的样本执行动作向量；样本执行动作向量，由系统控制模型在生成容量配置方案时所执行的决策动作的动作参数所构成；将根据样本系统状态信息计算得到的系统奖励评分作为反馈，将样本系统状态信息和样本执行动作向量作为训练样本，对系统控制模型进行强化学习训练，得到训练后的系统控制模型；其中，系统奖励评分与目标系统的CPU利用率正相关，与目标系统的预设负向指标负相关。

在连续的多个时间段中，每个时间段的时间长度可以预设设置，例如，1分钟。

样本系统状态信息可以包括目标系统所包括的服务器集群的流量指标、性能指标以及业务指标中的至少一者。

获取连续的多个时间段的目标系统的样本系统状态信息，及多个时间段的容量配置方案，以及获取容量配置方案所对应的样本执行动作向量，将根据样本系统状态信息计算得到的系统奖励评分作为反馈，将样本系统状态信息和样本执行动作向量作为训练样本，对系统控制模型进行强化学习训练，得到训练后的系统控制模型。

需要注意的是，本实施例中，并不是预先获取多个样本系统状态信息和多个样本执行动作向量，以构建多个训练样本，再基于该多个训练样本进行模型训练，而是，在第i次训练中，将获取的第i时间段的样本系统状态信息输入第i次训练的系统控制模型，该第i次训练的系统控制模型用于根据基于第i时间段的样本系统状态信息和第i-1次训练对应的样本执行动作向量生成第i次训练对应的样本执行动作向量，根据第第i次训练对应的样本执行动作向量生成第i时间段对应的目标系统的容量配置方案，进而，通过资源管理器控制目标系统执行该第i时间段对应的目标系统的容量配置方案，该情况下目标系统的系统状态信息发生改变。

例如，多个时间段包括时间段1、时间段2、时间段3……时间段N。则模型训练流程具体如下：

(a1)获取时间段1的目标系统的样本系统状态信息，将时间段1的目标系统的样本系统状态信息输入第1次训练中的系统控制模型进行容量配置操作的预估处理，该预估处理的具体实施过程中，根据预设的初始样本执行动作向量和时间段1的目标系统的样本系统状态信息，生成第1次训练对应的样本执行动作向量，基于该第1次训练对应的样本执行动作向量，生成时间段1的目标系统的容量配置方案。通过资源管理器控制目标系统执行该时间段1的目标系统的容量配置方案，该情况下目标系统的系统状态信息发生改变。

(a2)获取时间段2的目标系统的样本系统状态信息。该时间段2的目标系统的样本系统状态信息为步骤(a1)中发生改变后的目标系统的系统状态信息。将时间段2的目标系统的样本系统状态信息输入第2次训练中的系统控制模型进行容量配置操作的预估处理，该预估处理的具体实施过程中，根据第1次训练对应的样本执行动作向量和时间段2的目标系统的样本系统状态信息，生成第2次训练对应的样本执行动作向量，基于该第2次训练对应的样本执行动作向量，生成时间段2的目标系统的容量配置方案。通过资源管理器控制目标系统执行该时间段2的目标系统的容量配置方案，该情况下目标系统的系统状态信息发生改变。

(a3)获取时间段3的目标系统的样本系统状态信息。该时间段3的目标系统的样本系统状态信息为步骤(a2)中发生改变后的目标系统的系统状态信息。将时间段3的目标系统的样本系统状态信息输入第3次训练中的系统控制模型进行容量配置操作的预估处理，该预估处理的具体实施过程中，根据第2次训练对应的样本执行动作向量和时间段3的目标系统的样本系统状态信息，生成第3次训练对应的样本执行动作向量，基于该第3次训练对应的样本执行动作向量，生成时间段3的目标系统的容量配置方案。通过资源管理器控制目标系统执行该时间段3的目标系统的容量配置方案，该情况下目标系统的系统状态信息发生改变。

……

(aN)获取时间段N的目标系统的样本系统状态信息。该时间段N的目标系统的样本系统状态信息为步骤(aN)的上一个步骤，即步骤(a(N-1))中发生改变后的目标系统的系统状态信息。将时间段N的目标系统的样本系统状态信息输入第N次训练中的系统控制模型进行容量配置操作的预估处理，该预估处理的具体实施过程中，根据第N-1次训练对应的样本执行动作向量和时间段N的目标系统的样本系统状态信息，生成第N次训练对应的样本执行动作向量，基于该第N次训练对应的样本执行动作向量，生成时间段N的目标系统的容量配置方案。通过资源管理器控制目标系统执行该时间段N的目标系统的容量配置方案，该情况下目标系统的系统状态信息发生改变。

样本执行动作向量，由系统控制模型在生成容量配置方案时所执行的决策动作的动作参数所构成。具体地，系统控制模型可以包括多个决策子模块，在系统控制模型在生成容量配置方案的过程中，每个决策子模块可以分别执行一个决策动作，样本执行动作向量可以由各个决策子模块执行的决策动作的动作参数构成。

将根据样本系统状态信息计算得到的系统奖励评分作为反馈；其中，系统奖励评分与目标系统的CPU利用率正相关，与目标系统的预设负向指标负相关。

在对系统控制模型进行强化学习训练时，系统奖励可以是模型优化的驱动力。

系统奖励可以用于在对系统控制模型进行强化学习训练的过程中驱动系统控制模型中模型参数的改变。

图2为本说明书一个或多个实施例提供的一种系统控制方法中强化学习原理示意图。

如图2所示，s_t可以用于表示时间段t对应的一次模型训练中所生成的样本执行动作向量。s_t+1可以用于表示时间段t的下一个时间段，即时间段t+1，所对应的一次模型训练中基于时间段t+1的样本系统状态信息和s_t所生成的样本执行动作向量。

a_t可以用于表示该时间段t对应的一次模型训练中系统控制模型输出的容量配置方案。

r_t可以用于表示该时间段t对应的一次模型训练之后目标系统执行容量配置方案之后目标系统的系统状态信息发生改变，基于发生改变后的系统状态信息所生成的系统奖励。

模型训练的目的是得到一个训练好的系统控制模型，该训练好的系统控制模型可以根据当前的系统状态信息判断最佳的服务器数量，使得在目标系统所包括的服务器集群中基于该最佳的服务器数量部署服务器的情况下，目标系统的系统奖励尽可能高。系统奖励尽可能高，可以是在保证RT、error稳定的情况下，目标系统的CPU利用率达到最大值。

具体实施时，为了达到上述模型训练的目的，系统控制模型的训练过程可以通过如下方式：

在第i次训练中，系统控制模型接收第i时间段的样本系统状态信息，根据该样本系统状态信息生成一个用于表示扩缩容动作的向量，该扩缩容动作可以反映一个容量配置方案，该扩缩容动作的向量可以由资源管理器接收，资源管理器根据接收到的扩缩容动作的向量生成一个对应的用于控制目标系统执行扩容配置操作或缩容配置操作的控制指令并发送至目标系统，目标系统根据该控制指令执行扩容配置操作或缩容配置操作，目标系统执行控制指令之后，目标系统的系统状态信息发生改变，由监控系统采集发生改变后的目标系统的系统状态信息作为第i+1时间段的样本系统状态信息，并存储至数据库中，系统控制模型接收该第i+1时间段的样本系统状态信息，根据该第i+1时间段的样本系统状态信息计算第i次训练的系统奖励，并将该第i+1时间段的样本系统状态信息作为第i+1次训练的输入数据。

在模型训练过程中，若RT、error未上涨，则可以通过容量配置操作减少目标系统所包括的服务器集群中部署的服务器数量，以提高目标系统的CPU利用率，取得尽可能高的正向的系统奖励；若RT、error出现上涨，负向的奖励可以使系统控制模型明确RT、error等业务指标的边界，使得系统控制模型自身决策出的服务器数量始终能够保证业务指标的稳定，并在此前提执行不断提升目标系统的CPU利用率。

在本实施例提供的一种可选实施方式中，将根据样本系统状态信息计算得到的系统奖励评分作为反馈，包括：从样本系统状态信息中，获取目标系统的CPU利用率和目标系统的预设负向指标；预设负向指标包括：与系统稳定性相关的多个系统负向指标中的一个或多个；若预设负向指标满足当前系统容量配置下的系统稳定条件，则将系统奖励评分确定为第一设定值；第一设定值与CPU利用率成正比且小于1；若预设负向指标不满足当前系统容量配置下的系统稳定条件，则根据不满足系统稳定条件的系统负向指标，将系统奖励评分确定为第二设定值，第二设定值为负数，且与不满足系统稳定条件的系统负向指标负相关；将确定的第一预设值或第二预设值作为系统奖励评分。

若预设负向指标满足当前系统容量配置下的系统稳定条件，说明目标系统处于正常工作常态，可以继续减少服务器数量，提高目标系统的CPU利用率并节省服务器资源，因此，可以对系统控制模型生成正向的系统奖励，故可以将系统奖励评分确定为第一设定值；该第一设定值与CPU利用率成正比且小于1。

若预设负向指标不满足当前系统容量配置下的系统稳定条件，说明目标系统处于异常状态，该情况下CPU利用率过高，目标系统的运行处于风险中，有必要增加服务器数量，以降低目标系统的CPU利用率，保证目标系统的安全，因此，可以对系统控制模型生成负向的系统奖励，具体地，可以根据不满足系统稳定条件的系统负向指标，将系统奖励评分确定为第二设定值，第二设定值为负数，且与不满足系统稳定条件的系统负向指标负相关。

目标系统的预设负向指标可以是与系统稳定性相关的多个系统负向指标中的一个或多个。示例性地，与系统稳定性相关的多个系统负向指标可以包括负向指标1、负向指标2以及负向指标3。各个不同的系统负向指标发生异常时对系统稳定性所产生的影响程度可能不一样，例如，负向指标1对系统稳定性的负面影响远大于负向指标2，负向指标2对系统稳定性的影响略微大于负向指标3，则可以为不同的负向指标分别配置对应的系统奖励评分。例如，若负向指标1出现异常，则将系统奖励评分设置为-1，若负向指标2出现异常，则将系统奖励评分设置为-0.2，若负向指标3出现异常，则将系统奖励评分设置为-0.1。各个系统负向指标对应的系统奖励评分可以基于各个系统负向指标发生异常时对系统稳定性所产生的影响程度确定。

在本实施例提供的一种可选实施方式中，获取连续的多个时间段的目标系统的样本系统状态信息，包括：针对多个时间段中的任一第i时间段，获取在第i时间段监测目标系统的实时系统状态信息，得到第i时间段的样本系统状态信息；或者，在历史系统状态信息中，查询与第i-1时间段之后完成容量配置操作后的目标系统的系统容量相匹配的系统状态信息，得到第i时间段的样本系统状态信息。

样本系统状态信息可以是实时数据，也可以是离线数据。

在样本系统状态信息为实时数据的情况下，可以针对多个时间段中的任一第i时间段，获取在第i时间段监测目标系统的实时系统状态信息，得到第i时间段的样本系统状态信息。

在样本系统状态信息为离线数据的情况下，在历史系统状态信息中，查询与第i-1时间段之后完成容量配置操作后的目标系统的系统容量相匹配的系统状态信息，得到第i时间段的样本系统状态信息。

在本实施例提供的一种可选实施方式中，系统控制模型包括依次连接的多个决策子模块；获取容量配置方案所对应的样本执行动作向量，包括：针对多个时间段中的任一第i时间段，基于各个决策子模块的排列序号，确定各个决策子模块在第i-1时间段所执行的决策动作的动作参数，得到历史动作参数；针对各个决策子模块中的首个决策子模块，将样本系统状态信息确定为最新系统状态信息；针对各个决策子模块中的非首个决策子模块，对样本系统状态信息进行更新处理，得到最新系统状态信息；通过各个决策子模块，基于历史动作参数和最新系统状态信息进行参数预估处理，得到用于表征第i时间段中各个决策子模块所执行的决策动作的动作参数；根据各个决策子模块所执行的决策动作的动作参数，确定第i时间段的样本执行动作向量。

通过系统控制模型实现容量配置方案的生成，主要依赖于状态空间、动作空间以及奖励三部分。

状态空间S可以是系统控制模型的输入。

S：＝(N,G_s,B)，系统控制模型所执行的所有动作都依赖于对环境的观测，即依赖于获取的系统状态信息。

N：可以用于表示当前所处的决策阶段，也可以用于表示正在进行计算工作的决策子模块的排列序号。每个决策阶段对应于一个决策子模块。若系统控制模型包括m个决策子模块，则当N＝m时，暂停本次训练，计算系统奖励。

G_s：可以用于表示各个决策子模块在上一次训练时所采取的动作，可以用一个1*m的向量表示，用于记录整个系统控制模型的决策序列。

B：背景环境，即获取的样本系统状态信息，例如，服务器集群的流量指标、RT、error等参数。

需要注意的是，尽管状态空间S是系统控制模型的输入，只有B是从系统控制模型的外部环境中获取的。具体实施时，G_s可以预先存储于系统控制模型对应的存储区域，以及，在决策阶段的数量为m的情况下，N的数值在首个决策阶段可以是预设初始值1，在第二个决策阶段可以是2……在第m个决策阶段可以是m。

动作空间A:＝G_a是系统控制模型的输出，即系统控制模型通过当前系统状态和模型参数计算出的最优的容量变化值对应的动作。例如，增加2个服务器，减少5个服务器，等等。

G_a可以用于表示各个决策子模块所选择的动作，例如，模型超参数的选择，容量配置操作的数量配置，等等。

状态转移方程：s_t+1＝(N_t+1,G_st+1,B_t+1)＝(N_t+1,G_st+G_at,σ(B_t))(1)

上述公式(1)中，N_t用于表示当前所处的决策阶段，N_t+1用于表示当前所处的决策阶段的下一个决策阶段。对于排列序号相邻的两个决策子模块，N_t也可以用于表示前一个决策子模块的排列序号，即当前正在运行的决策子模块的排列序号，N_t+1也可以用于表示后一个决策子模块的排列序号，即当前正在运行的决策子模块的下一个决策子模块的排列序号。对于相邻的两个决策阶段的状态转移过程，可以是，在前一个决策阶段所对应的决策子模块执行计算完毕之后，由后一个决策阶段所对应的决策子模块执行计算。对于相邻的两个决策阶段，N_t+1＝N_t+1。

G_st用于表示当前所处的决策阶段对应的历史决策动作，G_at用于表示在当前所处的决策阶段对应的决策子模块所执行的决策动作。基于当前所处的决策阶段对应的历史决策动作和当前执行的决策动作，可以对该历史决策动作进行更新，得到当前所处的决策阶段的下一个决策阶段对应的历史决策动作G_st+1。G_st也可以用于表示当前正在运行的决策子模块对应的历史决策动作，G_at可以用于表示当前正在运行的决策子模块所执行的决策动作。基于当前正在运行的决策子模块对应的历史决策动作和当前正在运行的决策子模块所执行的决策动作，可以对该历史决策动作进行更新，得到当前正在运行的决策子模块的下一个决策子模块对应的历史决策动作G_st+1。

B_t用于表示在当前所处的决策阶段对应的样本系统状态信息，σ(B_t)用于表示对样本系统状态信息进行更新操作。B_t+1用于表示对B_t执行更新操作之后所得到的最新的样本系统状态信息，该最新的样本系统状态信息对应于当前所处的决策阶段的下一个决策阶段，且该最新的样本系统状态信息对应于当前所处的决策阶段所对应的决策子模块的下一个决策子模块。

下面可以通过一个具体的示例来说明历史决策动作的更新过程：

例如，在第i时间段对应的一次模型训练中，对于决策阶段1，该决策阶段1对应的历史决策动作可以用1*m的向量K1表示，该1*m的向量包括m个元素，其中，首个元素x1用于表示决策阶段1在第i-1时间段对应的一次模型训练中所执行的决策动作。决策阶段1对应的决策子模块1所执行的决策动作可以用y1表示，则基于决策阶段1对应的历史决策动作K和当前执行的决策动作y1，可以对历史决策动作K1中的首个元素x1进行更新，得到决策阶段2对应的历史决策动作，该决策阶段2对应的历史决策动作可以用1*m的向量K2表示，K1与K2中只有首个元素的取值不同，首个元素之外的其他(m-1)个元素的取值均相同。K2中的首个元素的取值基于x1与y1确定。

针对多个时间段中的任一第i时间段，基于各个决策子模块的排列序号，确定各个决策子模块在第i-1时间段所执行的决策动作的动作参数，得到历史动作参数，可以是基于各个决策子模块的排列序号，从第i-1时间段对应的样本执行动作向量中读取各个决策子模块对应的历史动作参数。

实际上每个决策子模块在进行参数预估处理时，都需要最新的系统状态信息，为此，对于首个决策子模块，可以直接将样本系统状态信息确定为最新系统状态信息，针对各个决策子模块中的非首个决策子模块，需要对样本系统状态信息进行更新处理，得到最新系统状态信息。

对于每个决策子模块，都可以基于上一个时间段，即第i-1时间段各个子模块所执行的决策动作的历史动作参数和最新系统状态信息进行参数预估处理，得到各个决策子模块在第i时间段所执行的决策动作的动作参数。

第i时间段的样本执行动作向量，例如，系统控制模型共涉及3个决策阶段，系统控制模型包括3个决策子模块，将第i时间段的样本系统状态信息输入系统控制模型，该系统控制模型输出了一个1x3的样本执行动作向量，该样本执行动作向量包括3个动作参数，每个动作参数对应于一个决策子模块，可反映该决策子模块执行的动作种类和具体数值，决策子模块1所执行的动作为将参数A的取值从a1变更为a2，决策子模块2执行预设动作B，决策子模块3所执行的动作为确定容量配置操作为增加部署5个服务器，即生成一个用于表征增加部署5个服务器的动作参数。

在本实施例提供的一种可选实施方式中，多个决策子模块中的最后一个决策子模块用于确定容量配置操作的动作参数；通过各个决策子模块，基于历史动作参数和最新系统状态信息进行参数预估处理，得到用于表征第i时间段中各个决策子模块所执行的决策动作的动作参数，包括：针对最后一个决策子模块，基于其他决策子模块对应的动作参数，对最后一个决策子模块进行参数配置，得到参数配置后的决策子模块；其他决策子模块为多个决策子模块中除最后一个决策子模块外的各个决策子模块；通过参数配置后的决策子模块，基于历史动作参数和最新系统状态信息进行参数预估处理，得到用于表征第i时间段中容量配置操作的动作参数。

最后一个决策子模块，可以用于计算用于表征第i时间段中容量配置操作的动作参数。

具体实施时，可以基于最后一个决策子模块之前的各个决策子模块所对应的动作参数，对最后一个决策子模块进行参数配置，通过参数配置后的决策子模块，基于历史动作参数和最新系统状态信息进行参数预估处理，得到用于表征第i时间段中容量配置操作的动作参数。

在本实施例提供的一种可选实施方式中，最新系统状态信息包括目标系统的CPU利用率；基于历史动作参数和最新系统状态信息进行参数预估处理，得到用于表征第i时间段中容量配置操作的动作参数，包括：若最新系统状态信息满足预设系统奖励条件，则将目标系统的CPU利用率确定为系统奖励评分；若最新系统状态信息不满足预设系统奖励条件，则将预设数值确定为系统奖励评分；预设数值为负值；基于历史动作参数和系统奖励评分进行参数预估处理，得到用于表征第i时间段中容量配置操作的动作参数。

预设系统奖励条件可以是业务指标未发生异常波动。

示例性地，系统奖励可以参照如下公式：

R_t用于表示系统奖励。cpu_util用于表示目标系统当前的CPU利用率。

在通过资源管理器控制目标系统执行系统控制模型所生成的容量配置方案之后，若RT/error上涨，可以将目标系统当前的CPU利用率作为系统奖励；在通过资源管理器控制目标系统执行系统控制模型所生成的容量配置方案之后，若RT(Reaction Time，响应时间)或者/error(出错参数)未上涨，可以将-1作为系统奖励。

通过上述的系统奖励评分的设定规则可以看出，系统控制模型在强化学习训练过程中，以系统的稳定性作为模型训练的奖励和反馈。即当系统处于稳定状态时，如系统中的与稳定性相关的负向指标符合稳定条件，如系统的响应时间参数和出错参数在阈值以下，则可以将CPU的利用率作为系统奖励分，此时CPU利用率为大于0小于1的数值，通过该系统奖励评分，能够引导模型的容量配置的决策倾向于继续提高CPU利用率，如减少服务器集群中的服务器的数量以提高CPU利用率。相应的，当系统处于不稳定状态时，如系统中的与稳定性相关的负向指标不符合稳定条件，如响应时间参数或者出错参数在阈值以上，则可以设置-1作为系统奖励分，能够引导模型的决策倾向于降低CPU利用率以提高系统的稳定性，如增加服务器集群的服务器数量以提高服务器集群整体的稳定性。

以上是一种系统奖励评分的设定规则，本实施例提供的另一种实施方式中，还可以对奖励评分的设定规则进一步的细化，如进一步考虑与系统稳定性相关的多个系统负向指标，分别对容量配置的决策的具体影响。与系统稳定性相关的系统负向指标，可以不限于上述的响应时间、出错参数等，还可以进一步包括如压力参数等负向指标，于此不作具体限定。

若系统中的预设负向指标满足当前系统容量配置下的系统稳定条件，则将所述系统奖励评分确定为第一预设值，该第一预设值与CPU利用率成正比且小于1；即第一预设值为n*CPU利用率，通过该奖励分，能够引导模型的容量配置的决策倾向于继续提高CPU利用率。其中，n的取值，可以与当前系统的稳定情况相关，如在系统的各项负向指标均较小，远小于阈值时，则可以将n的值设置的偏大，以较大程度的引导容量配置的决策倾向于继续提高CPU利用率。如在系统的各项负向指标均偏大，虽小于阈值但已较接近阈值时，则可以将n的值设置的偏小，以较小程度的引导容量配置的决策倾向于继续提高CPU利用率。

若上述预设负向指标不满足当前系统容量配置下的系统稳定条件，则根据不满足系统稳定条件的系统负向指标，将系统奖励评分确定为第二设定值，该第二设定值为负数，且与不满足系统稳定条件的系统负向指标负相关。

例如，在系统处于不稳定状态时，如系统中的与稳定性相关的负向指标不符合稳定条件，如响应时间参数或者出错参数在阈值以上，则可以根据不满足系统稳定条件的系统负向指标，确定系统奖励评分，不同的系统负向指标，可以设置不同的权重，比如对于响应时间这类用户容忍度相对较高的指标，可以设置权重相对偏低，对于出错参数这种用户容忍度相对偏低的指标，可以设置权重相对偏高。由此，在不同的系统不稳定的情况下，系统奖励评分引导模型做出的决策能进一步形成差别。

在上述的奖励评分设定规则下，如果是因为出错参数过高导致系统不稳定，则相应的系统奖励评分为负值且相对较高，例如为-0.5，则会较大程度的引导容量配置的决策倾向于降低CPU利用率以提高系统稳定性。如果是因为响应时间过高导致系统不稳定，则相应的系统奖励评分为负值且相对较低，例如为-0.2，则会较小程度的引导容量配置的决策倾向于降低CPU利用率以提高系统稳定性。如果是因为多个负向指标均过高导致系统不稳定，则各项指标乘以权重并相加之后，则相应的系统奖励评分为负值且更高，例如为-0.95，则会极大程度的引导容量配置的决策倾向于降低CPU利用率以提高系统稳定性。

通过上述的系统奖励评分的设定规则，使得计算得到的系统奖励评分能更准确灵活的引导容量配置的决策，以此训练模型和做出的容量配置的决策，使得系统基于该决策能达到兼顾稳定性和CPU利用率。且由于对系统奖励评分的设定规则进一步细分，使得模型训练和做的决策能更符合当前系统的具体状态，进一步提高系统容量配置的灵活性和准确性，提高系统效率和系统稳定性。

在通过资源管理器控制目标系统执行系统控制模型所生成的容量配置方案之后，若RT/error上涨，可以将目标系统当前的CPU利用率作为系统奖励；在通过资源管理器控制目标系统执行系统控制模型所生成的容量配置方案之后，若RT/error未上涨，可以将-1作为系统奖励。

步骤S106，在容量配置方案集合中确定目标容量配置方案；目标容量配置方案用于对目标系统执行容量配置操作。

容量配置方案集合可以包括多个时间点中每个时间点对应的容量配置方案。

示例性地，在模型投入使用之后，可以设置一天调整一次服务器集群的数量，即当前时间段的时间长度为一天，假设一天包括1440个时间点，每个时间点系统控制模型输出一个容量配置方案，则一天生成一个包括1440个容量配置方案的容量配置方案集合，进而，可以从该包括1440个容量配置方案的容量配置方案集合包括1440个容量配置方案的容量配置方案集合，进而，可以从该包括1440个容量配置方案的容量配置方案集合中确定目标容量配置方案，以基于该目标容量配置方案执行对目标系统的服务器集群的容量配置操作。通过一天更新一次目标系统的服务器数量，可以使得目标系统的CPU利用率比较符合当前工作需求，且服务器集群的配置调整也不会过于频繁。

在本实施例提供的一种可选实施方式中，在容量配置方案集合中确定目标容量配置方案，包括：获取目标系统在当前时间段的系统容量与目标系统在各个时间点的CPU利用率；根据系统容量和各个时间点的CPU利用率，生成目标系统在当前时间段的负载曲线；基于负载曲线对预置的自适应滤波器进行参数配置；自适应滤波器用于计算与负载曲线对应的决策曲线，根据决策曲线，从容量配置方案集合中选择目标容量配置方案；将当前时间段内目标系统的容量配置方案集合输入参数配置后的自适应滤波器进行方案选择处理，得到目标容量配置方案。

目标系统在当前时间段的系统容量可以是在当前时间段内，目标系统包括的服务器集群中部署的服务器数量。该服务器数量在当前时间段内保持不变。获取目标系统在当前时间段的系统容量，可以是获取服务器数量，该服务器数量在当前时间段内数值保持固定不变。

从目标系统在当前时间段内各个时间点的系统状态信息中可以获取目标系统在各个时间段的CPU利用率。

具体实施时，根据系统容量和各个时间点的CPU利用率，生成目标系统在当前时间段的负载曲线，可以是针对当前时间段内的每个时间点，将服务器数量与该时间点的乘积确定为该时间点对应的一个负载点的数值，进而可以基于每个时间点对应的负载点，构建目标系统在当前时间段的负载曲线，该负载曲线所包括的多个负载点与当前时间段所包括的多个时间点一一对应。

基于负载曲线对预置的自适应滤波器进行参数配置，使得参数配置后的自适应滤波器中存储有负载曲线中各个负载点的数值。自适应滤波器可以用于计算与负载曲线对应的决策曲线，根据决策曲线，从容量配置方案集合中选择目标容量配置方案。与负载曲线对应的决策曲线，可以是，曲线形态与负载曲线相似的决策曲线。需要注意的是，若负载曲线基于N个负载点构成，则决策曲线所包括的决策点的数量与负载曲线所包括的负载点的数量相同，即决策曲线包括N个决策点。

通过将当前时间段内目标系统的容量配置方案集合输入参数配置后的自适应滤波器进行方案选择处理，可以得到目标容量配置方案。

在本实施例提供的一种可选实施方式中，参数配置后的自适应滤波器通过如下方式从当前时间段内目标系统的容量配置方案集合中选择目标容量配置方案：根据当前时间段内每个时间点对应的容量配置方案，生成当前时间段对应的决策曲面；每个时间点对应的容量配置方案携带有每个时间点对应的容量配置操作的容量变化值的预估取值范围；采用预设度量方式，在决策曲面中确定与负载曲线的曲线形态的相似性最大的决策曲线；预设度量方式包括欧式度量方式、余弦度量方式中的一者；确定决策曲线中的目标决策点；将目标决策点对应的容量配置方案确定为目标容量配置方案。

参数配置后的自适应滤波器中可以存储有负载曲线中各个负载点的数值。每个负载点的数值根据当前时间段内该负载点对应的时间点的CPU利用率和当前时间段目标系统的系统容量生成。

示例性地，负载曲线可以用X’＝(x_t0’，……x_tn’)表示。

参数配置后的自适应滤波器的输入数据为当前时间段内目标系统的容量配置方案集合，该容量配置方案集合可以包括当前时间段内每个时间点对应的容量配置方案。每个时间点对应的容量配置方案携带有每个时间点对应的容量配置操作的容量变化值的预估取值范围。

例如，当前时间段的时间长度为一天，当前时间段包括1440个时间点，则tn＝1440。对于t1时间点，该时间点对应的容量配置操作的容量变化值的预估取值范围可以是[5,10]，即容量变化值的最小值为5，最大值为10，容量变化值可以是大于等于5且小于等于10的一个自然数。

根据当前时间段内每个时间点对应的容量配置方案，可以生成当前时间段对应的决策曲面。示例性地，决策曲面可以用S＝(I_t0，……，I_tn)表示，其中，其中，I_ti用于表示在当前时间段所包括的n个时间点中，第i个时间点的系统状态子信息对应的预估阈值区间所对应的容量配置方案，/>用于表示预估阈值区间的最小值，/>用于表示预估阈值区间的最大值。i可以是大于等于0，小于等于n的任意自然数。

进而，可以通过自适应滤波器计算决策曲线X＝(x_t0，……，x_tn)，使其与负载曲线X’的趋势尽可能相近。

具体实施时，可以采用预设度量方式，在决策曲面中确定与负载曲线的曲线形态的相似性最大的决策曲线。预设度量方式可以是欧式度量方式，也可以是余弦度量方式。

采用余弦度量方式在决策曲面中确定与负载曲线的曲线形态的相似性最大的决策曲线，可以是通过度量负载曲线与决策曲线之间的余弦相似度，或者，余弦距离，并基于决策曲面S对决策曲线中各个决策点的数值的取值范围进行限制，使得计算得到的决策曲线中的各个决策点处于决策曲面上。

决策曲线中每个决策点对应于目标时间段内的一个时间点，决策曲线中每个决策点对应于负载曲线中的一个负载点。

确定决策曲线中的目标决策点，可以是，在各个决策点中，确定数值最小的一个决策点，将该决策点确定为目标决策点。确定决策曲线中的目标决策点，还可以是，对各个决策点的数值进行排序，进而基于排序结果找出各个决策点的数值的中值/平均值中的一者，进而确定目标决策点。

采用预设度量方式，在决策曲面中确定与负载曲线的曲线形态的相似性最大的决策曲线，确定决策曲线中的目标决策点，可以参照如下公式：

min measure(X,X’)(3)

s.t.是subject to的缩写，表示约束条件。即公式(3)中x_ti满足上述约束条件。

min是一个求最小值的函数。measure(X,X’)是一个以X和X’为自变量的用于度量两个曲线的曲线形态的函数。

由于负载曲线中各个负载点的数值实质为服务器数量与CPU利用率的乘积，而决策曲线中各个决策点的数值实质为服务器数量，则负载点与决策点的数值单位其实是不同的，即二者的量纲不同，但在本实施例中，为了确定目标容量配置方案，并不需要同一时间点的负载点的数值与决策点的数值相同，而是希望决策曲线的曲线形态与负载曲线的曲线形态尽可能相似，该情况下，通过余弦度量方式或其他预设度量方式度量两个曲线的曲线形态的相似性，可以不用关注决策曲线中各个决策点的具体数值，在负载点与决策点的具体数值的量纲不同的情况下，排除掉量纲对确定决策曲线的影响。

在确定目标决策点之后，可以基于目标决策点对应的服务器数量，生成目标容量配置方案，该目标容量配置方案可以是在系统状态信息并未发生负面波动的情况下使CPU利用率尽可能高的最优配置方案。

通过自适应滤波器在容量配置方案集合中选择目标容量配置方案，可以在避免目标系统的运行风险的情况下将服务器资源最小化。

步骤S108，根据目标容量配置方案，执行对目标系统的服务器集群的容量配置操作。

通过资源管理器，可以根据用于表征目标容量配置方案的动作参数生成对应的控制指令，并将该控制指令发送至目标系统，该控制指令用于控制目标系统按照该目标容量配置方案执行对目标系统的服务器集群的容量配置操作。

出于相同的技术构思，本说明书还提供另一种系统控制方法的实施例，图3为本说明书一个或多个实施例提供的一种系统控制方法的算法流程图。

如图3所示，在模型训练阶段，从数据库304中获取系统状态信息，输入系统控制模型301，系统控制模型301下发用于表征容量配置操作的动作向量至资源管理器302，资源管理器302向服务器集群303发送控制指令，以控制服务器集群303基于容量配置操作扩容或缩容，在服务器集群303扩容或缩容之后，系统状态信息发生改变，监控系统采集改变后的系统状态信息并存储于数据库。

在强化学习推理阶段，从数据库304中获取系统状态信息，输入系统控制模型301，系统控制模型301下发多个用于表征容量配置操作的动作向量对应的容量配置决策至自适应滤波器305，自适应滤波器从容量配置方案集合中选择目标容量配置方案306，并发送至资源管理器302，资源管理器302向服务器集群303发送控制指令，以控制服务器集群303基于容量配置操作扩容或缩容，在服务器集群303扩容或缩容之后，系统状态信息发生改变，监控系统采集改变后的系统状态信息并存储于数据库。

本实施例提供的系统控制方法与上述实施例提供的系统控制方法在执行过程中类似，阅读本实施例请参照上述实施例的相关内容。

本说明书提供的一种系统控制装置实施例如下：

在上述的实施例中，提供了一种系统控制方法，与之相对应的，还提供了一种系统控制装置，下面结合附图进行说明。

参照图4，其示出了本实施例提供的一种系统控制装置示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种系统控制装置，包括：

信息获取模块402，被配置为获取对目标系统进行监测所得到的当前时间段的系统状态信息；目标系统包括服务器集群；

操作预估模块404，被配置为将系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到目标系统的容量配置方案集合；

方案确定模块406，被配置为在容量配置方案集合中确定目标容量配置方案；目标容量配置方案用于对目标系统执行容量配置操作；

操作执行模块408，被配置为根据目标容量配置方案，执行对目标系统的服务器集群的容量配置操作。

本说明书提供的一种系统控制设备实施例如下：

对应上述描述的一种系统控制方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种系统控制设备，该系统控制设备用于执行上述提供的系统控制方法，图5为本说明书一个或多个实施例提供的一种系统控制设备的结构示意图。

本实施例提供的一种系统控制设备，包括：

如图5所示，系统控制设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器501和存储器502，存储器502中可以存储有一个或一个以上存储应用程序或数据。其中，存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括系统控制设备中的一系列计算机可执行指令。更进一步地，处理器501可以设置为与存储器502通信，在系统控制设备上执行存储器502中的一系列计算机可执行指令。系统控制设备还可以包括一个或一个以上电源503，一个或一个以上有线或无线网络接口504，一个或一个以上输入/输出接口505，一个或一个以上键盘506等。

在一个具体的实施例中，系统控制设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对系统控制设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取对目标系统进行监测所得到的当前时间段的系统状态信息；目标系统包括服务器集群；

将系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到目标系统的容量配置方案集合；

在容量配置方案集合中确定目标容量配置方案；目标容量配置方案用于对目标系统执行容量配置操作；

根据目标容量配置方案，执行对目标系统的服务器集群的容量配置操作。

本说明书提供的一种存储介质实施例如下：

对应上述描述的一种系统控制方法，基于相同的技术构思，本说明书一个或多个实施例还提供一种存储介质。

本实施例提供的存储介质，用于存储计算机可执行指令，计算机可执行指令在被处理器执行时实现以下流程：

需要说明的是，本说明书中关于存储介质的实施例与本说明书中关于系统控制方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应方法的实施，重复之处不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪30年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种系统控制方法，包括：

获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群；

将所述当前时间段内各个时间点的所述系统状态信息输入系统控制模型进行容量配置操作的预估处理，得到所述目标系统在各个时间点的容量配置方案；

根据所述各个时间点的容量配置方案，构建所述目标系统的容量配置方案集合；

将所述容量配置方案集合输入参数配置后的自适应滤波器进行方案选择处理，得到目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作；所述参数配置后的自适应滤波器是基于所述目标系统在所述当前时间段的负载曲线对预置的自适应滤波器进行参数配置所得到的；所述负载曲线是根据所述目标系统的系统容量和所述目标系统在各个时间点的CPU利用率所生成的；

根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

2.根据权利要求1所述的方法，所述系统状态信息包括当前时间段内多个时间点的系统状态子信息；所述将所述系统状态信息输入当前时间段的系统控制模型进行容量配置操作的预估处理，得到所述目标系统的容量配置方案集合，包括：

将各个系统状态子信息输入所述系统控制模型进行容量配置操作的预估处理，得到所述各个系统状态子信息对应的预估阈值区间，所述预估阈值区间用于表征所述容量配置操作的容量变化值的预估取值范围；

基于所述预估阈值区间，生成对应的容量配置方案；

基于所述各个系统状态子信息对应的容量配置方案，构建所述当前时间段内所述目标系统的容量配置方案集合。

3.根据权利要求2所述的方法，所述在所述容量配置方案集合中确定目标容量配置方案，包括：

获取所述目标系统在所述当前时间段的系统容量与所述目标系统在所述各个时间点的CPU利用率；

根据所述系统容量和所述各个时间点的CPU利用率，生成所述目标系统在所述当前时间段的负载曲线；

基于所述负载曲线对预置的自适应滤波器进行参数配置；所述自适应滤波器用于计算与所述负载曲线对应的决策曲线，根据所述决策曲线，从所述容量配置方案集合中选择所述目标容量配置方案；

将所述当前时间段内所述目标系统的容量配置方案集合输入参数配置后的自适应滤波器进行方案选择处理，得到所述目标容量配置方案。

4.根据权利要求3所述的方法，所述参数配置后的自适应滤波器通过如下方式从所述当前时间段内所述目标系统的容量配置方案集合中选择所述目标容量配置方案：

根据所述当前时间段内每个时间点对应的容量配置方案，生成所述当前时间段对应的决策曲面；所述每个时间点对应的容量配置方案携带有所述每个时间点对应的所述容量配置操作的容量变化值的预估取值范围；

采用预设度量方式，在所述决策曲面中确定与所述负载曲线的曲线形态的相似性最大的决策曲线；所述预设度量方式包括欧式度量方式、余弦度量方式中的一者；

确定所述决策曲线中的目标决策点；

将所述目标决策点对应的容量配置方案确定为所述目标容量配置方案。

5.根据权利要求1所述的方法，所述系统控制方法，还包括：

获取连续的多个时间段的所述目标系统的样本系统状态信息，及所述多个时间段的容量配置方案，以及获取所述容量配置方案所对应的样本执行动作向量；所述样本执行动作向量，由所述系统控制模型在生成容量配置方案时所执行的决策动作的动作参数所构成；

将根据所述样本系统状态信息计算得到的系统奖励评分作为反馈，将所述样本系统状态信息和所述样本执行动作向量作为训练样本，对所述系统控制模型进行强化学习训练，得到训练后的所述系统控制模型；其中，所述系统奖励评分与所述目标系统的CPU利用率正相关，与所述目标系统的预设负向指标负相关。

6.根据权利要求5所述的方法，所述将根据所述样本系统状态信息计算得到的系统奖励评分作为反馈，包括：

从所述样本系统状态信息中，获取所述目标系统的CPU利用率和所述目标系统的预设负向指标；所述预设负向指标包括：与系统稳定性相关的多个系统负向指标中的一个或多个；

若所述预设负向指标满足当前系统容量配置下的系统稳定条件，则将所述系统奖励评分确定为第一设定值；所述第一设定值与所述CPU利用率成正比且小于1；

若所述预设负向指标不满足当前系统容量配置下的系统稳定条件，则根据不满足系统稳定条件的系统负向指标，将所述系统奖励评分确定为第二设定值，所述第二设定值为负数，且与所述不满足系统稳定条件的系统负向指标负相关；

将所述确定的第一预设值或第二预设值作为所述系统奖励评分。

7.根据权利要求5所述的方法，所述系统控制模型包括依次连接的多个决策子模块；所述获取所述容量配置方案所对应的样本执行动作向量，包括：

针对所述多个时间段中的任一第i时间段，基于所述各个决策子模块的排列序号，确定所述各个决策子模块在第i-1时间段所执行的决策动作的动作参数，得到历史动作参数；

针对所述各个决策子模块中的首个决策子模块，将所述样本系统状态信息确定为最新系统状态信息；针对所述各个决策子模块中的非首个决策子模块，对所述样本系统状态信息进行更新处理，得到最新系统状态信息；

通过所述各个决策子模块，基于所述历史动作参数和所述最新系统状态信息进行参数预估处理，得到用于表征第i时间段中所述各个决策子模块所执行的决策动作的动作参数；

根据所述各个决策子模块所执行的决策动作的动作参数，确定第i时间段的所述样本执行动作向量。

8.根据权利要求7所述的方法，所述多个决策子模块中的最后一个决策子模块用于确定所述容量配置操作的动作参数；所述通过所述各个决策子模块，基于所述历史动作参数和所述最新系统状态信息进行参数预估处理，得到用于表征第i时间段中所述各个决策子模块所执行的决策动作的动作参数，包括：

针对所述最后一个决策子模块，基于其他决策子模块对应的动作参数，对所述最后一个决策子模块进行参数配置，得到参数配置后的决策子模块；所述其他决策子模块为所述多个决策子模块中除最后一个决策子模块外的各个决策子模块；

通过所述参数配置后的决策子模块，基于所述历史动作参数和所述最新系统状态信息进行参数预估处理，得到用于表征第i时间段中所述容量配置操作的动作参数。

9.根据权利要求8所述的方法，所述最新系统状态信息包括所述目标系统的CPU利用率；所述基于所述历史动作参数和所述最新系统状态信息进行参数预估处理，得到用于表征第i时间段中所述容量配置操作的动作参数，包括：

若所述最新系统状态信息满足预设系统奖励条件，则将所述目标系统的CPU利用率确定为系统奖励评分；

若所述最新系统状态信息不满足所述预设系统奖励条件，则将预设数值确定为所述系统奖励评分；所述预设数值为负值；

基于所述历史动作参数和所述系统奖励评分进行参数预估处理，得到所述用于表征第i时间段中所述容量配置操作的动作参数。

10.根据权利要求1-9任一项所述的方法，所述容量配置操作包括用于表征增加所述服务器集群中的服务器数量的扩容配置操作或用于表征减少所述服务器集群中的服务器数量的缩容配置操作。

11.根据权利要求10所述的方法，所述系统状态信息包括所述服务器集群的流量指标、性能指标以及业务指标中的至少一者。

12.根据权利要求7所述的方法，获取连续的多个时间段的所述目标系统的样本系统状态信息，包括：

针对所述多个时间段中的任一第i时间段，获取在第i时间段监测所述目标系统的实时系统状态信息，得到所述第i时间段的样本系统状态信息；或者，在历史系统状态信息中，查询与第i-1时间段之后完成所述容量配置操作后的目标系统的系统容量相匹配的系统状态信息，得到所述第i时间段的样本系统状态信息。

13.一种系统控制装置，包括：

信息获取模块，被配置为获取对目标系统进行监测所得到的当前时间段的系统状态信息；所述目标系统包括服务器集群；

操作预估模块，被配置为将所述当前时间段内各个时间点的所述系统状态信息输入系统控制模型进行容量配置操作的预估处理，得到所述目标系统在各个时间点的容量配置方案；

集合构建模块，被配置为根据所述各个时间点的容量配置方案，构建所述目标系统的容量配置方案集合；

方案确定模块，被配置为将所述容量配置方案集合输入参数配置后的自适应滤波器进行方案选择处理，得到目标容量配置方案；所述目标容量配置方案用于对所述目标系统执行容量配置操作；所述参数配置后的自适应滤波器是基于所述目标系统在所述当前时间段的负载曲线对预置的自适应滤波器进行参数配置所得到的；所述负载曲线是根据所述目标系统的系统容量和所述目标系统在各个时间点的CPU利用率所生成的；

操作执行模块，被配置为根据所述目标容量配置方案，执行对所述目标系统的服务器集群的容量配置操作。

14.一种系统控制设备，包括：

处理器；以及，

被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器：

15.一种存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：