CN116737370A

CN116737370A - 一种多资源调度方法、系统、存储介质及终端

Info

Publication number: CN116737370A
Application number: CN202310666420.2A
Authority: CN
Inventors: 尹光荣; 谢晓宾; 郑小华; 陈友; 徐凯; 黄志明
Original assignee: Shenzhen Tydic Information Technology Co ltd
Current assignee: Shenzhen Tydic Information Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-09-12

Abstract

本发明实施例公开了一种多资源调度方法、系统、存储介质及终端，方法包括：获取多资源训练数据；配置价值网络和策略网络的多资源调度模型训练条件；根据多资源调度模型训练条件使价值网络和策略网络与环境进行交互，获取优化序列；根据优化序列分别获取价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从优化序列中分别获取价值网络和策略网络的优化函数；根据损失函数确定模型误差并根据优化函数使模型误差最小化，获得最优多资源调度模型；通过最优多资源调度模型从多资源训练数据中选择最优的节点，并向节点分配任务。通过结合价值网络的决策能力和策略网络的感知能力，提高多资源调度方法的收敛性。

Description

一种多资源调度方法、系统、存储介质及终端

技术领域

本发明涉及资源调度技术领域，尤其涉及一种多资源调度方法、系统、存储介质及终端。

背景技术

随着互联网技术的快速发展，云计算技术也正在成为信息技术产业发展的战略重点，逐步走入人们的生活。云计算技术通过互联网将遍布世界各地数据中心的各种IT(Internet Technology，互联网技术)资源(计算、存储等)提供给用户使用，较大规模的数据中心目前已有数十万台服务器，而对如此大规模数据中心的资源进行有效管理就需要采用云计算技术中的资源调度技术。资源调度技术是云计算技术中最关键的一部分，它能够帮助云计算解决资源和信息的大规模处理，从而实现更好的资源分配。

现有的资源调度算法采用启发式算法或遗传算法，其存在固有缺陷：一是收敛性慢、实时性较差；二是不能保证调度分配的整体最优解，表现不稳定，计算精度差。

发明内容

基于此，有必要针对上述问题，提出了一种多资源调度方法、系统、存储介质及终端。

一种多资源调度方法，所述方法包括：

获取多资源训练数据，所述多资源训练数据包括节点集群信息和任务信息。

配置价值网络和策略网络的多资源调度模型训练条件。

根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互，获取优化序列，所述优化序列包括状态、动作、回报。

根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数。

根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型。

通过所述最优多资源调度模型从所述多资源训练数据中选择最优的节点，并向所述节点分配任务。

其中，所述配置价值网络和策略网络的多资源调度模型训练条件，具体包括：

对所述价值网络和所述策略网络进行初始化，设置选代最大回合和最大样本数，重置环境并设置回报等于零。

其中，所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数，具体包括：

根据所述优化序列中的状态和回报获取价值网络的损失函数并进行价值网络参数更新。

通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数，优化所述价值网络的损失函数。

根据所述优化序列中的状态和回报获取策略网络的损失函数并进行策略网络参数更新。

通过随机选择策略从所述优化序列中获取策略网络的优化函数，优化所述策略网络的损失函数。

重复上述步骤，直到达到所述最大样本数，继续下一个回合选代。

所述随机选择策略由G_t＝R_t+1+γR_t+2+...+γ^n-1R_t+n+γⁿQ(S_t+n,a_t+n)确定，其中，R_t+n表示t时刻下第n步的回报，S_t+n表示t时刻下第n步的状态，a_t+n表示t时刻下第n步的动作。

其中，所述通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数，优化所述价值网络的损失函数，具体包括：

当环境输入到价值网络的是状态时，价值网络的优化函数由确定，其中，L_critic为价值网络的优化函数，N为轨迹长度，V_St为t时刻状态的价值网络输出的当前状态价值。

当环境输入到价值网络的是状态和动作时，所述价值网络的优化函数由确定，其中，Q(s_t,a_t)为t时刻状态的价值网络输出的当前状态下采取动作的价值。

其中，所述通过随机选择策略从所述优化序列中获取策略网络的优化函数，优化所述策略网络的损失函数，具体包括：

策略网络的优化函数由确定，其中，π*为最优策略。

其中，所述根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型，具体包括：

根据所述优化函数进行至少一次回合迭代使所述损失函数最小化，所述损失函数包括模型误差，直到回合迭代至所述迭代最大回合数，获得最优多资源调度模型。

一种资源调度系统，所述系统包括：

多资源训练数据获取模块，用于获取多资源训练数据，所述多资源训练数据包括节点集群信息和任务信息。

配置模块，用于配置价值网络和策略网络的多资源调度模型训练条件。

优化序列获取模块，用于根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互，获取优化序列，所述优化序列包括状态、动作、回报。

更新模块，用于根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数。

最优多资源调度模型获取模块，用于根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型。

任务分配模块，用于通过所述最优多资源调度模型从多资源训练数据中选择最优的节点，并向所述节点分配任务。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述方法的步骤。

一种终端，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述方法的步骤。

采用本发明实施例，具有如下有益效果：

本发明基于深度强化学习中的价值网络和策略网络提供了一种多资源调度方法，通过结合价值网络的决策能力和策略网络的感知能力，提高多资源调度方法的收敛性，能应对准实时场景，只需要通过对模型训练就可以获得最优多资源调度模型，进而得到多资源调度分配的整体最优解，计算精度高，并且采用随机选择策略，增强了最优多资源调度模型的泛化能力和鲁棒性，确保其表现稳定。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本发明提供的一种多资源调度方法一实施例的流程示意图；

图2是本发明提供的一种多资源调度方法另一实施例的流程示意图；

图3是本发明提供的一种多资源调度系统一实施例的流程示意图；

图4是本发明提供的一种多资源调度系统另一实施例的流程示意图；

图5是本发明提供的终端的一实施例的结构示意图；

图6是本发明提供的存储介质的一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

信息技术的发展促进了电子商务、社交网络等一系列的互联网应用的迅速发展，这些新兴的应用具有硬件服务资源多，数据存储量大，业务增长快等特点。传统的计算机计算模式不能解决这些复杂的问题，必须利用云计算中调度技术对这些信息、资源等进行有效的管理。资源调度技术是云计算技术中最关键的一部分，它能够帮助云计算解决资源和信息的大规模处理，从而实现更好的资源分配，传统的分配调度算法如启发式算法因为其自身的局限不能很好的解决大型的，复杂的，动态的，实时的资源分配问题。因此非常有必要设计一种多资源调度方法来优化和解决上述问题。

如图1所示，图1是本发明提供的一种多资源调度方法一实施例的流程示意图。本发明提供的一种多资源调度方法，包括如下步骤：

S101：获取多资源训练数据，所述多资源训练数据包括节点集群信息和任务信息。

在一个实施场景中，获取的多资源训练数据包括节点集群信息和任务信息。具体地，节点集群信息包括：节点总处理器数，节点总内存、节点剩余处理器数量，节点剩余内存，节点集群信息由如下所示：

Mcluster＝{[node1_totoalcpu,node2_totoalcpu...noden_totoalcpu][node1_totalme m,node2_totalmem...noden_totalmem][node1_restcpu,node2_restcpu...noden_restcpu][node1_restmem,node2_restmem...noden_restmem]}；

其中，nodel_totoalcpu表示节点总的处理器数，nodel totalmem表示节点总内存，nodel restcpu表示节点剩余处理器，nodel restmen表示节点剩余内存

任务信息包括处理器资源，内存资源的需求情况，任务信息由如下所示：

Mjob＝{[job1_cpu,job2_cpu...jobn_cpu][job1_mem,job2_mem...jobn_mem]}。

S102：配置价值网络和策略网络的多资源调度模型训练条件。

在一个实施场景中，配置价值网络和策略网络的多资源调度模型训练条件时首先对价值网络和策略网络进行初始化，设置迭代最大回合数和最大样本数，重置环境并设置回报等于零。具体地，初始化价值网络学习率和策略网络学习率；设置迭代最大回合数，记为episode；设置最大样本数，记为batch_size；初始化评价网络参数和策略网络参数，其中，评价网络参数记为Qq，策略网络参数记为Qπ。

S103：根据多资源调度模型训练条件使价值网络和策略网络与环境进行交互，获取优化序列，优化序列包括状态、动作、回报。

在一个具体的实施场景中，配置好价值网络和策略网络的多资源调度模型训练条件后，将价值网络和策略网络与环境之间进行交互获取优化序列，交互过程中，价值网络和策略网络都会获取自己对所处环境的观察获得的状态值，根据多资源数据输入生成价值网络和策略网络的动作，价值网络和策略网络只能决定自己做出的动作，将价值网络和策略网络的动作合并，生成联合动作，环境根据价值网络和策略网络选择的动作进行状态转移，同时根据状态的变化反馈给价值网络和策略网络对应的回报。优化序列包括状态、动作、回报，将优化序列定义为{s₀,a₀,r₁,s₁,a₁,r₂....}，s为状态，a为联合动作，r为回报。

需要说明的是，环境用gym库实现，输入的是多资源训练数据和运行状态信息。当环境输入到价值网络的是环境状态信息时，价值网络评估当前的状态价值并输出；当环境输入到价值网络的是环境状态和采取的动作时，价值网络评估当前状态下采取该动作的价值并输出。环境输入到策略网络的是当前的状态，价值网络的输出为当前动作的概率分布，再由价值网络评估该动作的好坏并进行相应的调整策略。

S104：根据优化序列分别获取价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从优化序列中分别获取价值网络和策略网络的优化函数。

在一个实施场景中，首先根据优化序列中的状态和回报获取价值网络的损失函数，其中价值网络的损失函数由确定；根据优化序列中的状态和回报获取策略网络的损失函数，其中策略网络的损失函数由/> 确定，并进行价值网络参数更新和策略网络参数更新。

具体地，进行价值网络参数更新和策略网络参数更新时，通过价值网络的损失函数根据一迭代函数进行价值网络参数更新，把上一步的价值网络参数Q_q的值赋给当前这一步的Q_q，不停循环更新；通过策略网络的损失函数根据一迭代函数进行策略网络参数更新，把上一步的策略网络参数Qπ的值赋给当前这一步的Qπ，不停循环更新。其中，A1为价值网络学习率，A2为策略网络学习率。

其次，通过价值网络和策略网络的优化函数优化由价值网络和策略网络的损失函数获得的误差值，环境输入至价值网络的信息包括状态以及状态和动作。当环境输入到价值网络的是状态时，价值网络的优化函数由下式确定：

其中，N为轨迹长度，V_St为t时刻状态的价值网络输出的当前状态价值；

当环境输入到价值网络的是状态和动作时，价值网络的优化函数由下式确定：

其中，Q(s_t,a_t)为t时刻状态的价值网络输出的当前状态下采取动作的价值。

需要说明的是，随机选择策略根据下式确定：

G_t＝R_t+1+γR_t+2+...+γ^n-1R_t+n+γⁿQ(S_t+n,a_t+n)；

其中，R_t+n表示t时刻下第n步的回报，S_t+n表示t时刻下第n步的状态，a_t+n表示t时刻下第n步的动作，γ为折扣因子。

价值网络和策略网络进行至少一次的参数更新和价值网络和策略网络的损失函数的优化，直到达到预设的最大样本数batch_size，进行下一个回合迭代。

S105：根据损失函数确定模型误差并根据优化函数使模型误差最小化，获得最优多资源调度模型。

在一个具体的实施场景中，再次将经过一次回合迭代后的价值网络和策略网络与环境进行交互，获得优化序列，通过优化序列以及随机选择策略获取价值网络和策略网络的损失函数和优化函数，并进行价值网络参数更新和策略网络参数更新，价值网络的优化函数和策略网络的优化函数通过回合迭代不断地优化由价值网络的损失函数和策略网络的损失函数获得的模型误差，直到达到预设的迭代最大回合数episode，优化结束。本方法的目的就是不停地与环境进行交互，使价值网络和策略网络不断地调整其策略，从而获得最优多资源调度模型。

S106：通过最优多资源调度模型从多资源训练数据中选择最优的节点，并向节点分配任务。

在一个具体的实施场景中，将多资源数据输入到最优多资源调度模型生成价值网络和策略网络的动作，并按照价值网络和策略网络的动作进行资源分配，使动作生效，通过最优多资源调度模型从节点集群信息和任务信息中选择出最优的节点，并向该节点分配任务。

通过上述描述可知，本发明基于深度强化学习中的价值网络和策略网络提供了一种多资源调度方法，通过结合价值网络的决策能力和策略网络的感知能力，提高多资源调度方法的收敛性，能应对准实时场景，只需要通过对模型训练就可以获得最优多资源调度模型，进而得到多资源调度分配的整体最优解，计算精度高，并且采用随机选择策略，增强了最优多资源调度模型的泛化能力和鲁棒性，确保其表现稳定。

如图2和图3所示，图2是本发明提供的一种多资源调度方法另一实施例的流程示意图，图3是本发明提供的一种多资源调度系统一实施例的流程示意图。本发明提供的一种多资源调度方法，包括如下步骤：

S201：对价值网络和策略网络进行初始化。

S202：设置迭代最大回合数和最大样本数。

S203：重置环境并设置回报等于零。

S204：将价值网络和策略网络与环境进行交互，获取优化序列,优化序列包括状态、动作、回报。

S205：根据优化序列中的状态和回报获取价值网络的损失函数并根据优化序列和价值网络的损失函数获取价值网络在不同输入下的优化函数。

S206：根据优化序列中的状态和回报获取策略网络的损失函数并根据优化序列和策略网络的损失函数获取策略网络的优化函数。

S207：进行价值网络参数更新和策略网络参数更新。

S208：重复步骤S204-S207，直到达到预设的最大样本数，继续下一个回合迭代。

S209：重复步骤S203-S208，直到达到预设的迭代最大回合数，训练完成，模型训练结束。

在一个实施场景中，多资源调度系包括环境模块11，价值网络模块12，策略网络模块13，更新模块14。环境模块11的输入包括环境的状态和采取的动作，价值网络模块12用于评估动作的价值，策略网络模块13输出动作和当前动作的概率分布。环境模块11与价值网络模块12与策略网络模块13进行交互，在更新模块14中进行价值网络参数和策略网络参数更新。

具体地，当环境输入到价值网络的是环境状态信息时，价值网络评估当前的状态价值并输出到更新模块14；当环境输入到价值网络的是环境状态和采取的动作时，价值网络评估当前状态下采取该动作的价值并输出到更新模块14。环境输入到策略网络的是当前的状态，策略网络的输出为当前动作的概率分布，再由价值网络评估该动作的好坏并进行相应的调整策略，由策略网络输出的动作又输出至环境模块11，由环境模块11反馈的回报直接输出至更新模块14，在更新模块14中进行价值网络参数和策略网络参数更新。

需要说明的是，多资源调度系统通过步骤S201-S209进行多资源调度的具体方法已在图1所示的实施场景中详细论述，在此不做赘述。

如图4所示，图4是本发明提供的一种多资源调度系统另一实施例的流程示意图。请参阅图4，一种多资源调度系统20包括：

多资源训练数据获取模块21，用于获取多资源训练数据，多资源训练数据包括节点集群信息和任务信息。

配置模块22，用于配置价值网络和策略网络的多资源调度模型训练条件。

优化序列获取模块23，用于根据多资源调度模型训练条件使价值网络和策略网络与环境进行交互，获取优化序列，优化序列包括状态、动作、回报；

更新模块24，用于根据优化序列分别获取价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从优化序列中分别获取价值网络和策略网络的优化函数。

最优多资源调度模型获取模块25，用于根据损失函数确定模型误差并根据优化函数使模型误差最小化，获得最优多资源调度模型。

任务分配模块26，用于通过最优多资源调度模型从多资源训练数据中选择最优的节点，并向节点分配任务。

在一个具体的实施场景中，多资源训练数据获取模块21包括数据集、任务生成器、任务队列以及机器资源表，多资源调度系统还包括节点集群。多资源训练数据获取模块21中的数据集存储调度任务请求信息，调度任务请求信息包括RDMS(Relational DataManagement System，关系型数据管理系统)或者消息中间件。信息的类型有三种类型：单次任务调度结束，新任务到达以及任务运行完成；任务生成器从数据集读取数据，按照规生成相应的任务，并最终提交到节点集群中进行调度和执行；任务队列用来存取任务生成器提交的任务信息，采取FIFO(First Input First Output，先进先出)的方式；机器资源表用来存储节点集群的各个节点信息，包括总的处理器，总的内存以及剩余的处理器，剩余内存等信息。通过多资源训练数据获取模块获取节点集群信息和任务信息；再通过配置模块22配置价值网络和策略网络的多资源调度模型训练条件，通过配置好的价值网络和策略网络与环境进行交互，获取优化序列；通过更新模块24根据优化序列以及随机选择策略获取价值网络和策略网络的损失函数和优化函数并进行价值网络参数更新以及策略网络参数更新；通过最优多资源调度模型获取模块25价值网络的优化函数和策略网络的优化函数并进行回合迭代不断地优化由价值网络的损失函数和策略网络的损失函数获得的模型误差，直到优化结束，获得最优多资源调度模型；最终通过任务分配模块26将多资源数据输入到最优多资源调度模型生成价值网络和策略网络的动作，并按照价值网络和策略网络的动作进行资源分配，使动作生效，通过最优多资源调度模型从节点集群信息和任务信息中选择出最优的节点，并向该节点分配任务。

需要说明的是，节点集群由若干个独立的主机(节点)组成，其中每个独立的主机资源配置可能是异构的，对于每个主机的资源考虑总体处理器,内存，以及剩余的处理器，处理器包括图形处理器和中央处理器。在调度的过程中，每个待调度任务包括处理器资源，内存资源的需求情况，在调度过程中，每个主机作为任务调度的选择目标，当调度的任务资源需求可以被所调度的主机满足时，调度有效。同时采用kubernetes里打标签的方式来支持任务偏好，比如是否有图形处理器，SSD磁盘等。

如图5所示，图5是本发明提供的终端的一实施例的结构示意图。终端30包括存储器31和处理器32。存储器31存储有计算机程序，处理器32在工作时执行该计算机程序以实现如图1和图2所示的方法。

关于上述终端30执行计算机程序时实现的一种多资源调度方法的具体技术细节已在上述方法步骤中详细论述，故此不做赘述。

如图6所示，图6是本发明提供的存储介质的一实施例的结构示意图。存储介质40中存储至少由一个计算机程序41，计算机程序41被处理器32执行以实现如图1和图2所示的方法，详细的方法可参见上述，在此不再赘述。在一个实施例中，存储介质40可以是存储芯片、硬盘或者移动硬盘或者优盘、光盘等其他可读写存储的工具，还可以是服务器等等。

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白，本说明书实施例可提供为方法、系统、或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多资源调度方法，其特征在于，所述方法包括：

获取多资源训练数据，所述多资源训练数据包括节点集群信息和任务信息；

配置价值网络和策略网络的多资源调度模型训练条件；

根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互，获取优化序列，所述优化序列包括状态、动作、回报；

根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数；

根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型；

2.根据权利要求1所述的一种多资源调度方法，其特征在于，所述配置价值网络和策略网络的多资源调度模型训练条件，具体包括：

对所述价值网络和所述策略网络进行初始化，设置选代最大回合数和最大样本数，重置环境并设置回报等于零。

3.根据权利要求2所述的一种多资源调度方法，其特征在于，所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数，具体包括：

根据所述优化序列中的状态和回报获取价值网络的损失函数并进行价值网络参数更新；

通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数，优化所述价值网络的损失函数；

根据所述优化序列中的状态和回报获取策略网络的损失函数并进行策略网络参数更新；

通过随机选择策略从所述优化序列中获取策略网络的优化函数，优化所述策略网络的损失函数；

4.根据权利要求3所述的一种多资源调度方法，其特征在于，所述根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数，具体包括：

5.根据权利要求4所述的一种多资源调度方法，其特征在于，所述通过随机选择策略从所述优化序列中获取价值网络在不同输入下的优化函数，优化所述价值网络的损失函数，具体包括：

当环境输入到价值网络的是状态时，价值网络的优化函数由确定，其中，L_critic为价值网络的优化函数，N为轨迹长度，V_St为t时刻状态的价值网络输出的当前状态价值；

6.根据权利要求5所述的一种多资源调度方法，其特征在于，所述通过随机选择策略从所述优化序列中获取策略网络的优化函数，优化所述策略网络的损失函数，具体包括：

策略网络的优化函数由确定，其中，π*为最优策略。

7.根据权利要求3所述的一种多资源调度方法，其特征在于，所述根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型，具体包括：

8.一种资源调度系统，其特征在于，所述系统包括：

多资源训练数据获取模块，用于获取多资源训练数据，所述多资源训练数据包括节点集群信息和任务信息；

配置模块，用于配置价值网络和策略网络的多资源调度模型训练条件；

优化序列获取模块，用于根据所述多资源调度模型训练条件使所述价值网络和策略网络与环境进行交互，获取优化序列，所述优化序列包括状态、动作、回报；

更新模块，用于根据所述优化序列分别获取所述价值网络和策略网络的损失函数，进行价值网络参数和策略网络参数更新，并通过随机选择策略从所述优化序列中分别获取所述价值网络和策略网络的优化函数；

最优多资源调度模型获取模块，用于根据所述损失函数确定模型误差并根据优化函数使所述模型误差最小化，获得最优多资源调度模型；

9.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。

10.一种终端，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。