CN116257363B

CN116257363B - 资源调度方法、装置、设备及存储介质

Info

Publication number: CN116257363B
Application number: CN202310532434.5A
Authority: CN
Inventors: 郑烇; 李峥; 李江明; 杨坚; 陈双武
Original assignee: Institute of Advanced Technology University of Science and Technology of China
Current assignee: Institute of Advanced Technology University of Science and Technology of China
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-07-25
Anticipated expiration: 2043-05-12
Also published as: CN116257363A

Abstract

本发明涉及资源管理技术领域，公开了一种资源调度方法、装置、设备及存储介质，包括：基于微服务框架中各微服务的工作负载数据预测各微服务对应的目标工作负载；基于目标工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；通过水平伸缩策略和工作副本控制器对各微服务的工作副本进行调整。本发明通过微服务框架中各微服务的工作负载和预设策略梯度模型确定各微服务的水平伸缩策略，以通过水平伸缩策略对各微服务的工作副本进行调整，从而可以在提高微服务的服务质量的同时，提高计算资源的利用率以降低云计算中心的运行成本。

Description

资源调度方法、装置、设备及存储介质

技术领域

本发明涉及资源管理技术领域，尤其涉及一种资源调度方法、装置、设备及存储介质。

背景技术

随着网络服务的快速发展，网络应用服务商所提供的服务越来越复杂，功能也越来越多，同时业务在快速扩展迭代。在这种趋势下，微服务架构应运而生，相比于传统网络应用，微服务架构实现了应用模块化，具有更高的可扩展性、容错性和可维护性。

现有的方案中，为了使微服务在工作时提供更好的服务质量，通常为其分配较丰富的计算资源。但在微服务相对空闲时，分配过多的计算资源会导致资源利用率过低，从而产生资源浪费。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种资源调度方法、装置、设备及存储介质，旨在解决现有技术中无法在提高微服务的服务质量的同时，提高计算资源的利用率以降低云计算中心的运行成本的技术问题。

为实现上述目的，本发明提供了一种资源调度方法，所述方法包括以下步骤：

基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载；

基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略，所述预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；

通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整。

可选地，所述基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载的步骤之前，还包括：

对微服务框架进行建模处理，所述微服务框架中包括若干个微服务；

在建模完成时，通过建模后的微服务框架确定各微服务之间的调用关系；

相应的，所述基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载的步骤，包括：

基于微服务框架中各微服务的工作负载数据、所述调用关系和预设工作负载预测网络预测所述各微服务对应的目标工作负载。

可选地，所述基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略的步骤，包括：

基于所述目标工作负载和预设策略梯度模型确定所述各微服务的目标动作值；

根据所述目标动作值确定所述各微服务对应的水平伸缩策略。

可选地，所述基于所述目标工作负载和预设策略梯度模型确定所述各微服务的目标动作值的步骤，包括：

基于所述目标工作负载对应的目标工作负载数据确定所述各微服务的当前状态；

获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励和局部状态；

通过所述各现实Actor网络将所述局部状态输入至所述Global网络，以使所述Global网络输出全局状态；

根据所述当前状态、所述输出动作、所述奖励和所述局部状态确定当前四元组，并将所述当前四元组存储至预设存储区域；

从所述预设存储区域中获取若干个四元组，并确定各四元组中各微服务对应的目标局部状态；

基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值。

可选地，所述获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励的步骤，包括：

获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定服务响应时间、资源改变量和惩罚值；

基于标准服务响应时间、所述服务响应时间、所述资源改变量和所述惩罚值，通过预设奖励计算公式确定所述各微服务对应的奖励；

其中，所述预设奖励计算公式为：

式中，r为所述奖励，为所述标准服务响应时间，为所述服务响应时间，为所述资源改变量，为所述资源改变量的权值，为所述惩罚值。

可选地，所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤，包括：

对所述目标局部状态、所述全局状态和所述输出动作进行拼接，获得拼接后的目标拼接向量；

将所述目标拼接向量输入至所述Critic网络中的目标Critic网络，以确定所述各微服务的目标动作值。

可选地，所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤之后，还包括：

通过最小化误差方式对所述Critic网络中的现实Critic网络进行更新；

在更新完成时，通过策略梯度更新方式对所述各现实Actor网络进行更新。

此外，为实现上述目的，本发明还提出一种资源调度装置，所述装置包括：

工作负载预测模块，用于基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载；

策略确定模块，用于基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略，所述预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；

工作副本调整模块，用于通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整。

此外，为实现上述目的，本发明还提出一种资源调度设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源调度程序，所述资源调度程序配置为实现如上文所述的资源调度方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有资源调度程序，所述资源调度程序被处理器执行时实现如上文所述的资源调度方法的步骤。

在本发明中，公开了基于微服务框架中各微服务的工作负载数据预测各微服务对应的目标工作负载；基于目标工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；通过水平伸缩策略和工作副本控制器对各微服务的工作副本进行调整；相较于现有技术在微服务工作时提供丰富的计算资源，容易导致计算资源的浪费，由于本发明通过对微服务框架中各微服务的工作负载进行预测，并基于各微服务的工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，以通过水平伸缩策略对各微服务的工作副本进行调整，从而解决了现有技术中无法在提高微服务的服务质量的同时，提高计算资源的利用率以降低云计算中心的运行成本的技术问题。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的资源调度设备的结构示意图；

图2为本发明资源调度方法第一实施例的流程示意图；

图3为本发明资源调度方法第一实施例中预设策略梯度模型的结构示意图；

图4为本发明资源调度方法第一实施例中微服务资源调整的流程示意图；

图5为本发明资源调度方法第二实施例的流程示意图；

图6为本发明资源调度装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的资源调度设备结构示意图。

如图1所示，该资源调度设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对资源调度设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及资源调度程序。

在图1所示的资源调度设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明资源调度设备中的处理器1001、存储器1005可以设置在资源调度设备中，所述资源调度设备通过处理器1001调用存储器1005中存储的资源调度程序，并执行本发明实施例提供的资源调度方法。

本发明实施例提供了一种资源调度方法，参照图2，图2为本发明资源调度方法第一实施例的流程示意图。

本实施例中，所述资源调度方法包括以下步骤：

步骤S10：基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载。

需要说明的是，本实施例的方法的执行主体可以为对微服务在工作时进行计算资源分配的资源调度设备，或者是其他能够实现相同或相似功能的、包含了该资源调度设备的资源调度系统。此处以资源调度系统（以下简称系统）对本实施例和下述各实施例提供的资源调度方法进行具体说明。

应当理解的是，上述微服务框架可以为由若干个微服务组成的框架。其中，本实施例对微服务框架中微服务的数量不做限制。

可以理解的是，上述工作负载数据可以为微服务在进行工作时对应的资源使用数据，例如：CPU总占用率，内存总占用率、工作负载数量和访问数等，本实施例对此不加以限制。

需要说明的是，上述目标工作负载可以为各微服务在下一时刻的资源占用情况。其中，本实施例对下一时刻的具体时间点不做限制，可以根据实际需求进行设置。

在具体实现中，系统可以基于过去一段时间微服务框架中全部微服务的资源占用数据（即上述工作负载数据），通过神经网络模型对下一时刻全部微服务的资源占用情况进行预测，其中，本实施例对神经网络模型的具体类型不做限制。此外，还可以根据下一时刻获取的微服务的实际工作负载数据对模型继续进行训练，从而不断完善提高模型的预测能力。

步骤S20：基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略，所述预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络。

需要说明的是，上述预设策略梯度模型可以为决定对各微服务进行缩容或扩容的模型。预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络，其中，Actor网络即学习策略网络，用于接收状态的描述并输出一个action值；Critic网络即学习动作价值网络，可以接收来自Actor网络的一个action值和当前的状态，并输出当前状态下采用action动作后得到的期望；Global网络用于提供Actor网络决策智能体之间的通信，使得Actor网络智能体考虑资源限制进行决策，从而获取的水平伸缩策略更加准确。实际应用中，可以通过对DDPG（Deep Deterministic Policy Gradiant，深度确定性策略梯度算法）进行改进后获得预设策略梯度模型，其中，DDPG是一种用于进行微服务的伸缩决策的强化学习算法。

应当理解的是，上述水平伸缩策略可以为各微服务对应的伸缩方案。实际应用中，在微服务工作负载较大的时候，可以为微服务分配更多的计算资源以保证其服务质量；在微服务相对空闲的时候，回收一定的计算资源以防止微服务资源利用率过低导致的计算资源浪费。本实施例中可以通过预设策略梯度模型判断是需要为微服务分配更多的计算资源还是需要回收微服务的计算资源，以根据判断结果生成水平伸缩策略。

在具体实现中，系统通过神经网络模型预测获得微服务框架中各微服务在下一时刻的工作负载后，可以将下一时刻的工作负载对应的工作负载数据和微服务系统的状态输入至预设策略梯度模型，以确定各微服务对应的水平伸缩策略。

需要说明的是，上述步骤S20具体可以包括：基于所述目标工作负载和预设策略梯度模型确定所述各微服务的目标动作值；根据所述目标动作值确定所述各微服务对应的水平伸缩策略。

应当理解的是，上述目标动作值可以为表示对各微服务进行缩容、维持和扩容操作对应的数值。实际应用中，可以对不同动作值对应的操作进行设定，例如：当动作值大于1时，可以对微服务进行扩容操作，数量为动作值向下取整；当动作值小于-1时，可以对微服务进行缩容操作，数量为动作值向上取整；当动作值处于-1和1之间时，可以维持微服务的工作副本数量不变。

进一步地，为了确定各微服务对应的目标动作值，上述步骤基于所述目标工作负载和预设策略梯度模型确定所述各微服务的目标动作值可以包括：

基于所述目标工作负载对应的目标工作负载数据确定所述各微服务的当前状态；获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励和局部状态；通过所述各现实Actor网络将所述局部状态输入至所述Global网络，以使所述Global网络输出全局状态；根据所述当前状态、所述输出动作、所述奖励和所述局部状态确定当前四元组，并将所述当前四元组存储至预设存储区域；从所述预设存储区域中获取若干个四元组，并确定各四元组中各微服务对应的目标局部状态；基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值。

需要说明的是，上述当前状态可以为各微服务的CPU占用率和访问率等数据信息。实际应用中，可以通过各微服务对应的工作负载数据确定各微服务对应的当前状态。

应当理解的是，上述全局状态可以为Global网络对各微服务的局部状态进行汇总后输出的所有微服务的局部状态的状态集合。

可以理解的是，上述当前四元组可以为由当前状态、输出动作、奖励和局部状态组成的向量。实际应用中，若微服务的当前状态为、输出动作为、奖励为、局部状态为，则当前四元组为。相应的，上述目标局部状态可以为从预设存储区域中随机选取的若干个四元组对应的局部状态。

需要说明的是，DDPG模型包含4个网络，分别是、、和网络。其中网络用于将输入的环境状态转换为动作值，网络用于在对应环境状态下对网络提供的动作值打分。而和网络分别用于防止和在一次训练中发生过大的波动，其主要工作流程如下：随机初始化和网络的参数和；初始化和网络的参数和，使它们分别与和相同；初始化记忆缓存R；对于每一个回合：初始化一个均值为0正态分布的随机变量；从环境获取初始状态；对于每一个时间步：选取动作并加上随机变量；对环境执行动作并观测奖励与新状态；将存入R；从R中选取K个记录；对每个记录分别计算：

；

通过最小化loss来更新Q网络：

更新网络：

结束一个时间步，若状态不是终态或时间没有超出范围，则继续执行下一个时间步；结束一个回合，则执行下一个回合。其中，L为均方损失，基于均方损失可以更新网络的参数。

相应的，参照图3，图3为本发明资源调度方法第一实施例中预设策略梯度模型的结构示意图。如图3所示，在一个微服务框架中，预设策略梯度模型中设置有一个Critic网络、一个Global网络和N个Actor网络（Actor-1、Actor-2等），其中，Critic网络中包括：现实Critic网络（记作Q）和目标Critic网络（记作），各Actor网络中包括：现实Actor网络（记作）和目标Actor网络（记作）。在预设策略梯度模型的学习过程的每一个时间步中，其操作可以为：获取各现实Actor网络输出的动作（即上述输出动作）后应用到目标环境（Environment）中；为各现实Actor网络获取对应微服务当前的状态；汇总各微服务的局部状态（即各微服务当前的状态）并输入至Global网络中进行运算；将Global网络输出的全局状态加入当前状态集合中；将当前的四元组存入经验回放池（即上述预设存储区域）中，并从池中随机取出K个四元组进行学习；汇总取出的四元组中所有微服务对应的局部状态（即上述目标局部状态），以将局部状态、全局状态、输出动作输入至目标Critic网络确定各微服务的目标动作值：

。

进一步地，上述获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励的步骤可以包括：获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定服务响应时间、资源改变量和惩罚值；基于标准服务响应时间、所述服务响应时间、所述资源改变量和所述惩罚值，通过预设奖励计算公式确定所述各微服务对应的奖励；

其中，所述预设奖励计算公式为：

需要说明的是，上述标准服务响应时间可以为服务质量协议规定的服务响应时间；上述服务响应时间可以为每次对环境执行动作后从环境中观察到的响应时间；上述资源改变量可以为本次微服务进行伸缩的计算资源的改变量；上述惩罚值可以为由服务质量不达标、伸缩资源超出限制和伸缩数量的绝对值组成的值。实际应用中，将各现实Actor网络的输出动作应用至环境中后，可以确定对应的服务响应时间、资源改变量和惩罚值，在确定这些值后，可以通过预设奖励计算公式计算获得个微服务对应的奖励。

应当理解的是，当微服务的计算资源整体收缩时，奖励为正值，带来收益；当微服务的计算资源整体扩张时，奖励为负，带来惩罚。

进一步地，为了减少预设策略梯度模型的运算量，所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤，包括：对所述目标局部状态、所述全局状态和所述输出动作进行拼接，获得拼接后的目标拼接向量；将所述目标拼接向量输入至所述Critic网络中的目标Critic网络，以确定所述各微服务的目标动作值。

需要说明的是，上述目标拼接向量可以为对目标局部状态、全局状态和输出动作进行向量拼接后获得的向量。实际应用中，可以先对各四元组中所有微服务对应的目标局部状态、Global网络输出的全局状态和各现实Actor网络输出的动作进行拼接获得目标拼接向量，并将目标拼接向量输入至目标Critic网络以获取各微服务的动作评价的估计值，以减少预设策略梯度模型的运算量。

进一步地，为了提高预设策略梯度模型的稳定性，所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤之后，还包括：通过最小化误差方式对所述Critic网络中的现实Critic网络进行更新；在更新完成时，通过策略梯度更新方式对所述各现实Actor网络进行更新。

应当理解的是，上述最小误差方式即最小化loss，通过最小化误差更新优化现实Critic网络即：

实际应用中，把loss函数投入优化器中，就可以自动最小化loss，也就是最大化现实Critic网络Q。

可以理解的是，上述策略梯度更新方式可以为对现实Actor网络进行更新的方式，通过策略梯度更新优化各个现实Actor网络：

此外，还可以按照比例软更新目标Critic网络和各个目标Actor网络：

通过对预设策略梯度模型中各网络进行训练，可以使预设策略梯度模型达到较稳定的状态，从而提供较好的伸缩决策。其中，为了预设策略梯度模型中和网络更稳定，可以引入系数，以基于系数更新目标Critic网络和各个目标Actor网络。

在具体实现中，可以基于预测的各微服务下一时刻的目标工作负载对应的目标工作负载数据确定各微服务的当前状态，并将获取的各现实Actor网络的输出动作应用至环境中，从而确定各微服务对应的奖励和局部状态，再通过各现实Actor网络将各微服务的局部状态输入至Global网络，使得Global网络对所有微服务的局部状态进行运算后输出全局状态，并将全局状态加入至当前状态集合，再将由当前状态为、输出动作为、奖励为、局部状态为组成的当前四元组存入经验回放池中，并从池中随机抽取K个四元组进行学习，然后对取出的四元组中所有微服务对应的局部状态、Global网络输出的全局状态和各现实Actor网络输出的动作进行向量拼接，并将拼接后的目标拼接向量输入至目标Critic网络以获取各微服务的目标动作值，从而可以通过各微服务的目标动作值确定各微服务对应的水平伸缩策略。

步骤S30：通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整。

需要说明的是，上述工作副本控制器可以为可以对微服务的工作副本的数量进行控制的控制设备。实际应用中，工作副本控制器可以根据水平伸缩策略控制微服务中的工作副本进行创建和销毁等操作。

在具体实现中，可以根据水平伸缩策略中各微服务对应的动作值，以及创建/销毁工作副本的数量对各微服务的工作副本进行调整，若微服务的动作值大于1则可以进行扩容，即创建新的工作副本并进行初始化；若微服务的动作值小于-1则可以进行缩容，即将指定数量的工作副本进行销毁；若微服务的动作值处于-1和1之间则可以维持微服务工作副本数量不变。参照图4，图4为本发明资源调度方法第一实施例中微服务资源调整的流程示意图。如图4所示，首先可以对微服务框架中各微服务的资源使用数据进行监控，并通过资源使用数据和神经网络模型对各微服务下一时刻的工作负载进行预测，再基于各微服务下一时刻的工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略，以通过工作副本控制器将水平伸缩策略应用到微服务系统中进行工作副本控制。图4中的圆圈代表微服务的工作副本，处于一个方框内的圆代表同一微服务的工作副本，其中，分别有A、B、C三类工作副本，A类工作副本表示工作副本为正常工作状态，B类工作副本表示工作副本为初始化状态，C类工作副本表示工作副本为销毁状态，通过工作副本控制器将水平伸缩策略应用到微服务系统后可以完成微服务资源的调度。

本实施例公开了基于微服务框架中各微服务的工作负载数据预测各微服务对应的目标工作负载；基于目标工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；通过水平伸缩策略和工作副本控制器对各微服务的工作副本进行调整；相较于现有技术在微服务工作时提供丰富的计算资源，容易导致计算资源的浪费，由于本实施例通过对微服务框架中各微服务的工作负载进行预测，并基于各微服务的工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，以通过水平伸缩策略对各微服务的工作副本进行调整，从而解决了现有技术中无法在提高微服务的服务质量的同时，提高计算资源的利用率以降低云计算中心的运行成本的技术问题。

参考图5，图5为本发明资源调度方法第二实施例的流程示意图。

基于上述第一实施例，为了基于微服务时间联系和空间联系进行微服务工作负载的预测，本实施例中，所述步骤S10之前，所述方法还包括：

步骤S01：对微服务框架进行建模处理，所述微服务框架中包括若干个微服务。

步骤S02：在建模完成时，通过建模后的微服务框架确定各微服务之间的调用关系。

需要说明的是，在对微服务框架进行建模处理时，可以假设微服务框架中共包含N个微服务，并用M表示微服务，则，对于第i个微服务，则用表示其属性。其中，表示微服务的标识；表示微服务的工作负载；表示微服务的计算资源；表示微服务的服务质量。此外，微服务之间存在的固定调用关系可以在微服务设计时确定（微服务之间的调用关系可以提现各微服务工作负载的空间联系），本实施例可以将各微服务之间的调用关系表示为，，其中，表示由微服务对于微服务的调用关系。

相应的，所述步骤S10包括：

步骤S10'：基于微服务框架中各微服务的工作负载数据、所述调用关系和预设工作负载预测网络预测所述各微服务对应的目标工作负载。

应当理解的是，上述预设工作负载预测网络可以为注意力循环神经网络GAT-GRU模型，或者其他与该模型具有相同或相似功能的神经网络模型，本实施例对此不加以限制。

可以理解的是，预设工作负载预测网络的输入可以为和E，其中，T表示输入的时间序列长度，N表示微服务的个数，P表示微服务工作负载的特征个数；E表示整个微服务架构的调用关系集合。本实施例中可以考虑微服务的单位访问数量，故可以设定P=1，预设工作负载预测网络输出所需预测数据为，其中，表示要预测的时序长度。

在具体实现中，在对微服务未来一段时间的工作负载进行预测前，可以对微服务框架进行建模处理，在建模完成时，可以通过建模后的微服务框架确定各微服务之间的调用关系，再将和调用关系输入至预设工作负载预测网络中，此时预设工作负载预测网络可以输出预测数据，从而可以通过预设工作负载预测网络对各微服务在需要预测的时序长度对应的工作负载。同时，通过预设工作负载预测网络可以同时体现微服务工作负载的时间联系和空间联系。

本实施例对微服务框架进行建模处理，微服务框架中包括若干个微服务；在建模完成时，通过建模后的微服务框架确定各微服务之间的调用关系；基于微服务框架中各微服务的工作负载数据、调用关系和预设工作负载预测网络预测各微服务对应的目标工作负载。由于本实施例通过建模后的微服务框架确定各微服务之间的调用关系，并基于各微服务的工作负载数据、调用关系和预设工作负载预测网络预测各微服务的工作负载，从而可以同时体现微服务工作负载的时间联系和空间联系。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有资源调度程序，所述资源调度程序被处理器执行时实现如上文所述的资源调度方法的步骤。

参照图6，图6为本发明资源调度装置第一实施例的结构框图。

如图6所示，本发明实施例提出的资源调度装置包括：

工作负载预测模块601，用于基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载；

策略确定模块602，用于基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略，所述预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；

工作副本调整模块603，用于通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整。

进一步地，所述策略确定模块602，还用于基于所述目标工作负载和预设策略梯度模型确定所述各微服务的目标动作值；根据所述目标动作值确定所述各微服务对应的水平伸缩策略。

进一步地，所述策略确定模块602，还用于基于所述目标工作负载对应的目标工作负载数据确定所述各微服务的当前状态；获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励和局部状态；通过所述各现实Actor网络将所述局部状态输入至所述Global网络，以使所述Global网络输出全局状态；根据所述当前状态、所述输出动作、所述奖励和所述局部状态确定当前四元组，并将所述当前四元组存储至预设存储区域；从所述预设存储区域中获取若干个四元组，并确定各四元组中各微服务对应的目标局部状态；基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值。

进一步地，所述策略确定模块602，还用于获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定服务响应时间、资源改变量和惩罚值；基于标准服务响应时间、所述服务响应时间、所述资源改变量和所述惩罚值，通过预设奖励计算公式确定所述各微服务对应的奖励；

其中，所述预设奖励计算公式为：

进一步地，所述策略确定模块602，还用于对所述目标局部状态、所述全局状态和所述输出动作进行拼接，获得拼接后的目标拼接向量；将所述目标拼接向量输入至所述Critic网络中的目标Critic网络，以确定所述各微服务的目标动作值。

进一步地，所述策略确定模块602，还用于通过最小化误差方式对所述Critic网络中的现实Critic网络进行更新；在更新完成时，通过策略梯度更新方式对所述各现实Actor网络进行更新。

本实施例的资源调度装置公开了基于微服务框架中各微服务的工作负载数据预测各微服务对应的目标工作负载；基于目标工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，预设策略梯度模型中设置有Critic网络、若干个Actor网络和Global网络；通过水平伸缩策略和工作副本控制器对各微服务的工作副本进行调整；相较于现有技术在微服务工作时提供丰富的计算资源，容易导致计算资源的浪费，由于本实施例通过对微服务框架中各微服务的工作负载进行预测，并基于各微服务的工作负载和预设策略梯度模型确定各微服务对应的水平伸缩策略，以通过水平伸缩策略对各微服务的工作副本进行调整，从而解决了现有技术中无法在提高微服务的服务质量的同时，提高计算资源的利用率以降低云计算中心的运行成本的技术问题。

基于本发明上述资源调度装置第一实施例，提出本发明资源调度装置的第二实施例。

在本实施例中，所述工作负载预测模块601，还用于对微服务框架进行建模处理，所述微服务框架中包括若干个微服务；在建模完成时，通过建模后的微服务框架确定各微服务之间的调用关系；基于微服务框架中各微服务的工作负载数据、所述调用关系和预设工作负载预测网络预测所述各微服务对应的目标工作负载。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种资源调度方法，其特征在于，所述资源调度方法包括：

通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整；

所述基于所述目标工作负载和预设策略梯度模型确定所述各微服务对应的水平伸缩策略的步骤，包括：

通过所述各现实Actor网络将所述局部状态输入至所述Global网络，以使所述Global网络输出全局状态，所述Global网络用于提供Actor网络决策智能体之间的通信，以使Actor网络决策智能体根据资源限制进行决策，所述全局状态为所述Global网络对所述局部状态进行汇总后输出的局部状态集合；

基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值；

根据所述目标动作值确定所述各微服务对应的水平伸缩策略；

所述获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励的步骤，包括：

其中，所述预设奖励计算公式为：

式中，r为所述奖励，为所述标准服务响应时间，为所述服务响应时间，为所述资源改变量，为所述资源改变量的权值，为所述惩罚值；

所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤，包括：

2.如权利要求1所述的资源调度方法，其特征在于，所述基于微服务框架中各微服务的工作负载数据预测所述各微服务对应的目标工作负载的步骤之前，还包括：

3.如权利要求1所述的资源调度方法，其特征在于，所述基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值的步骤之后，还包括：

4.一种资源调度装置，其特征在于，所述装置包括：

工作副本调整模块，用于通过所述水平伸缩策略和工作副本控制器对所述各微服务的工作副本进行调整；

所述策略确定模块，还用于基于所述目标工作负载对应的目标工作负载数据确定所述各微服务的当前状态；获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定所述各微服务对应的奖励和局部状态；通过所述各现实Actor网络将所述局部状态输入至所述Global网络，以使所述Global网络输出全局状态，所述Global网络用于提供Actor网络决策智能体之间的通信，以使Actor网络决策智能体根据资源限制进行决策，所述全局状态为所述Global网络对所述局部状态进行汇总后输出的局部状态集合；根据所述当前状态、所述输出动作、所述奖励和所述局部状态确定当前四元组，并将所述当前四元组存储至预设存储区域；从所述预设存储区域中获取若干个四元组，并确定各四元组中各微服务对应的目标局部状态；基于所述目标局部状态、所述全局状态、所述输出动作和所述Critic网络中的目标Critic网络确定所述各微服务的目标动作值；根据所述目标动作值确定所述各微服务对应的水平伸缩策略；

所述策略确定模块，还用于获取所述Actor网络中各现实Actor网络的输出动作，并将所述输出动作应用至目标环境，以确定服务响应时间、资源改变量和惩罚值；基于标准服务响应时间、所述服务响应时间、所述资源改变量和所述惩罚值，通过预设奖励计算公式确定所述各微服务对应的奖励；

其中，所述预设奖励计算公式为：

所述策略确定模块，还用于对所述目标局部状态、所述全局状态和所述输出动作进行拼接，获得拼接后的目标拼接向量；将所述目标拼接向量输入至所述Critic网络中的目标Critic网络，以确定所述各微服务的目标动作值。

5.一种资源调度设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源调度程序，所述资源调度配置为实现如权利要求1至3中任一项所述的资源调度方法的步骤。

6.一种存储介质，其特征在于，所述存储介质上存储有资源调度程序，所述资源调度程序被处理器执行时实现如权利要求1至3任一项所述的资源调度方法的步骤。