CN114745317A

CN114745317A - 面向算力网络的计算任务调度方法及相关设备

Info

Publication number: CN114745317A
Application number: CN202210122425.4A
Authority: CN
Inventors: 谢坤; 黄小红; 李丹丹; 孙慧悦
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-07-12
Anticipated expiration: 2042-02-09
Also published as: CN114745317B

Abstract

本申请提供一种面向算力网络的计算任务调度方法及相关设备，在算力网络场景下，提出一种基于多智能体近端策略优化MAPPO算法(Multi‑agent Proximal Proxy Optimization)的任务调度方法，网络计算模型包括计算资源智能体和网络资源智能体，两个智能体共用Critic网络，通过对网络计算模型的迭代优化最后输出计算任务的目的计算节点和转发路径。本申请提供的计算任务调度方法基于实时网络和算力资源状况生成计算任务调度策略，以实现将计算任务通过最优路径转发到最优节点的效果。

Description

面向算力网络的计算任务调度方法及相关设备

技术领域

本申请涉及通信技术领域，尤其涉及一种面向算力网络的计算任务调度方法及相关设备。

背景技术

随着物联网、大数据、大视频的蓬勃发展，海量数据的传输、分析和存储对传统网络和云计算提出了巨大挑战，驱动计算从云端下移到接近数据源的边缘侧，形成网络中分散的算力资源。在这样的趋势下，单个分散的站点资源有限，难以保证服务质量。因此，网络在实现分散节点互联的同时，还需要具备网络和算力资源协同调度的能力，通过最优路径将任务动态地调度到最优的算力节点进行处理。这样的未来网络架构被命名为“算力网络”。

非算力网络场景下的路由决策和任务调度领域各自存在一些研究成果，但已有的相关技术中不考虑计算资源和网络资源的负载均衡问题，目前比较缺乏在算力网络场景下综合考虑计算资源和网络资源的相关计算工作。

发明内容

有鉴于此，本申请的目的在于提出一种面向算力网络的计算任务调度方法及相关设备。

基于上述目的，本申请提供了一种面向算力网络的计算任务调度方法，包括：

获取计算任务；

将所述计算任务输入到经过预训练的网络计算模型中，采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，

所述网络计算模型包括计算资源智能体和网络资源智能体，所述计算资源智能体包括第一Actor网络，所述网络资源智能体包括第二Actor网络，所述计算资源智能体和所述网络资源智能体共享Critic网络。

基于同一发明构思，本申请还提供了一种面向算力网络的计算任务调度装置，包括：

获取模块，被配置为获取计算任务；

计算模块，被配置为将所述计算任务输入到经过预训练的网络计算模型中，采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，

所述网络计算模型包括计算资源智能体和网络资源智能体，所述计算资源智能体对应第一Actor网络，所述网络资源智能体对应第二Actor网络，所述计算资源智能体和所述网络资源智能体共享Critic网络。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的方法。

基于同一发明构思，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上所述的方法。

从上面所述可以看出，本申请提供的一种面向算力网络的计算任务调度方法及相关设备，在算力网络场景下，提出一种基于多智能体近端策略优化MAPPO算法(Multi-agentProximal Proxy Optimization)的任务调度方法，网络计算模型包括计算资源智能体和网络资源智能体，两个智能体共用Critic网络，通过对网络计算模型的迭代优化最后输出计算任务的目的计算节点和转发路径。本申请提供的计算任务调度方法基于实时网络和算力资源状况生成计算任务调度策略，以实现将计算任务通过最优路径转发到最优节点的效果。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的面向算力网络的计算任务调度方法的流程示意图；

图2为本申请实施例的计算任务调度方法结构图；

图3为本申请实施例的智能体反向更新方法结构图；

图4为本申请实施例的面向算力网络的计算任务调度系统示意图；

图5为本申请实施例的面向算力网络的计算任务调度装置结构图；

图6为本申请实施例的电子设备硬件结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了更好的理解本申请提供的实施例，下面对本申请中涉及的专业名词进行解释。

1、算力网络

在算力和网络融合共生、一体服务的趋势下，响应国家的国家算力网络体系构建需求，各大运营商积极展开研究实践，提出“算力网络”的全新理念。算力网络是以算为中心、网为根基，网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施。算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”，逐步推动算力成为与水电一样，可“一点接入、即取即用”的社会级服务，达成“网络无所不达、算力无所不在、智能无所不及”的愿景。算力网络面向计算与网络融合的新架构、新协议、新技术探索：网络将计算任务报文路由到相应的计算节点，实现用户体验最优、计算资源利用率最优、网络效率最优。通过算力网络内建计算任务动态路由的能力，根据任务需求，基于实时的计算资源性能、网络性能、成本等多维因素，动态、灵活地调度计算任务，从而提高资源利用率，网络利用效率，提高任务用户体验。因此，如何综合考虑计算资源和网络资源，进行计算任务的调度，以达到最优调度，成为了当前亟需解决的问题。

2、软件定义网络

软件定义网络SDN(Software Defined Network)是一种新型的网络架构，它将网络的控制平面与数据平面分离，网络的控制功能不再由交换设备分别计算，而是集中在一台控制器上统一计算，并由控制器集中下发控制策略。当终端设备发出服务请求时，SDN控制平台根据实时的算力状态分布以及网络状况，将算力服务请求调度至最匹配的计算节点。结合SDN技术，算力网络在计算任务调度方面会变得更加灵活敏捷。

3、深度强化学习

深度强化学习DRL(Deep Reinforcement Learning)是机器学习的一个子领域，结合了强化学习RL(Reinforcement Learning)和深度神经网络DNN(Deep Neural Network)。强化学习通过智能体不断与环境进行交互，能够自动学习不同状态下应该采取的最优动作(即策略)，以最大化所获奖励。深度强化学习将深度神经网络纳入解决方案，DNN强大的表示能力可以充分拟合最优策略，能很好的适应复杂环境。

4、PPO

PPO(Proximal Proxy Optimization)算法是一种新型的策略梯度(PolicyGradient)算法，Policy Gradient算法对步长十分敏感，但是又难以选择合适的步长，在训练过程中新旧策略的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新，解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个问题但是相比于TRPO算法PPO算法更容易求解。

5、多智能体深度强化学习

多智能体深度强化学习MADRL(Multi-Agent Deep Reinforcement Learning)将深度强化学习的思想和算法用于多智能体系统的学习和控制中。多智能体系统中每个智能体的策略不只取决于自身的策略和环境的反馈,同时还受到其他智能体行为和合作关系的影响。

6、MAPPO

PPO(Proximal Policy Optimization)是一个目前非常流行的单智能体强化学习算法，也是OpenAI在进行实验时首选的算法，可见其适用性之广。PPO采用的是经典的actor-critic架构。其中，actor网络，也称之为policy网络，接收局部观测(obs)并输出动作(action)；critic网络，也称之为value网络，接收状态(state)输出动作价值(value)，用于评估actor网络输出动作的好坏。可以直观理解为评委(critic)在给演员(actor)的表演(action)打分(value)。MAPPO(Multi-agent PPO)是PPO算法应用于多智能体任务的变种，同样采用actor-critic架构，不同之处在于此时critic学习的是一个中心价值函数(centralized value function)，简而言之，此时critic能够观测到全局信息(globalstate)，包括其他agent的信息和环境的信息。

如背景技术所述，计算节点的计算资源往往是有限的，而且计算能力通常各不相同。同时，计算节点的计算负载状况是动态变化的。因此，一方面，当多个计算节点可以完成某项计算任务时，涉及选择哪一个计算节点来处理该计算任务的问题。另一方面，当网络拥堵或计算任务数据量较大时，将计算任务分发至具体计算任务处理节点的传输时间可能较长，同样会影响任务完成的时间，进而影响用户体验。所以，算力网络场景下调度计算任务时需要综合考虑计算资源和网络资源，不仅要选好具体计算任务处理节点，也要选好任务分发过程中的传输路径。现有的云计算或边缘计算技术大都将计算资源和网络资源分开看待，只考虑计算资源，不考虑任务传输路径的选择问题，不能满足算力网络场景下计算效率和网络效率整体最优化的要求。例如当只考虑计算资源时，将计算任务路由到计算节点，可能导致过多计算任务在传输的过程中经过同一链路造成网络拥堵；只考虑网络资源时，选择网络时延最小的计算节点，会导致该计算节点负载过大。少量面向算网融合场景下的计算任务调度方法，简单地使用队列算法，没有考虑到资源的负载均衡性，不利于动态环境下的任务调度最优。因此面向算力网络场景，设计一种基于实时网络和算力资源状况生成计算任务调度策略的方法，以实现将计算任务通过最优路径转发到最优节点，显得尤为重要。

本申请面向算力网络场景，采用多智能体深度强化学习模型，智能体之间共享评价网络，以全局状态作为评价网络的输入，以状态价值作为评价网络的输出，算法以最大化期望奖励为优化目标，不断更新网络。为了利用多智能体深度强化学习对计算任务进行调度，通过最优的路由将计算任务调度到最优的计算节点。算法创建两个智能体，一个智能体代理网络资源，一个智能体代理计算资源，按照已完成的多智能体深度强化学习框架，智能体共享奖励，将奖励值设置为资源利用率方差和任务平均运算完成时间的综合指数，智能体的动作分别设置为计算任务和计算节点的映射、为任务分配的带宽和网络拓扑中各个链路的权重。当调度一个计算任务时，任务调度系统的策略下发模块就可以按照映射结果和链路权重根据迪杰斯特拉算法生成数据流的转发路径。

以下结合附图来详细说明本申请的实施例。

本申请将网络抽象为一个无向图

其中，

与ε为该网络的点集与边集，点集合

代表计算节点，ε为设备间的通信链路。

本申请提供了一种面向算力网络的计算任务调度方法，参考图1，包括以下几个步骤：

步骤S101、获取计算任务。从用户处获取计算任务，计算任务包括该任务发出的源节点、任务运算数

任务数据传输量DA和任务需要占用节点的算理利用率TU。

步骤S102、将所述计算任务输入到经过预训练的网络计算模型中，采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，

具体的，计算资源智能体的动作设置为计算任务和计算节点的映射，网络资源智能体的动作设置为计算任务分配的带宽和网络拓扑中各个链路的权重，当生成一个计算任务后，通过网络计算模型就可以按照映射结果和链路权重根据迪杰斯特拉算法生成所述计算任务对应的数据流的转发路径。

对于算法中的智能体来说，在某一环境状态下，发出某一动作，得到环境的反馈即奖励，在新的状态下，智能体继续发出动作、获得反馈，持续与环境交互。以A表示智能体的集合，以A_c表示计算资源智能体，以A_n表示网络资源智能体。

对于计算资源智能体A_c：

状态：

动作：

对于网络资源智能体A_n：

状态：

动作：

智能体共享奖励：

其中，

表示计算节点，

表示计算任务的集合，

表示网络无向图，

表示网络链路状态

D表示边的端对端时延，λ_k表示任务k被分配的计算节点编号，

表示集合

中元素的数量，也即计算任务的总数。b_k表示对任务k数据流分配的带宽，w_e表示网络资源智能体为边e赋予的链路权重，1≤e≤|ε|，|ε|表示边集ε中元素的个数，也即通信链路的总数。

TCT_i表示将任务i调度到计算节点j上执行的任务平均运算完成时间

delay_i,j代表任务被调度到计算节点的传输时延，waT_i,j代表任务在计算节点的等待时间，等于在当前任务前被分配到同一个计算节点的任务执行时间之和，exT_i,j代表任务执行时间，等于任务运算数

/(任务需要占用节点的算力利用率TU*计算节点算力)。std(LU)表示链路利用率标准差，LU表示链路利用率，std(CU)表示机器算力利用率标准差，CU表示机器算力利用率，α,β,γ为权重参数。

在一些实施例中，所述采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，包括：

基于所述网络计算模型和所述计算任务确定所述网络计算模型的当前状态；将所述当前状态分别输入至所述计算资源智能体和所述网络资源智能体中，经由所述计算资源智能体和所述网络资源智能体分别生成计算动作a_c和网络动作

基于所述计算动作确定所述计算任务对应的目的计算节点，基于所述网络动作确定所述计算任务对应的转发路径。

基于预先构建的网络计算模型和计算任务确定当前状态

代表计算节点，

表示计算任务的集合，

表示网络拓扑，

表示网络链路状态。将State分别输入至所述计算资源智能体和所述网络资源智能体中，分别生成计算动作和网络动作，计算动作a_c中的每一个元素代表该任务对应的计算节点。取网络动作

中后|ε|个数字，采用如softmax等算法归一化后，再通过图论算法，如迪杰斯特拉算法可以计算出最短路径，也即最终的转发路径。

如图2所示的计算任务调度方法结构图，将网络环境中的全局状态State输入至计算资源智能体和网络资源智能体中，由第一Actor网络Actor_C和第二Actor网络Actor_N产生相应计算动作a_c和网络动作

得到网络环境的反馈即奖励，网络环境状态转换为State'，由共享的Critic网络对动作a_c和

生成价值Value，评价动作a_c和

的好坏。最后，将这两个动作a_c和

网络环境状态State和State'、奖励存放至经验回放池中。

在一些实施例中，所述第一Actor网络、所述第二Actor网络和所述Critic网络均为包括三层全连接层的神经网络，也即所述第一Actor网络、所述第二Actor网络和所述Critic网络的网络结果是相同的。

在一些实施例中，所述网络计算模型的预训练过程包括：

构建网络拓扑模型；

对所述网络拓扑模型进行初始化，并设置经验回放池，所述经验回放池初始状态为空；

在所述网络拓扑模型中创建所述计算资源智能体和所述网络资源智能体，对所述网络拓扑模型执行如下迭代训练：

步骤S201、创建计算任务列表；

步骤S202、基于所述计算任务列表，采用MAPPO算法通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互，生成一组经验集并将其放置在所述经验回放池中；

步骤S203、响应于确定所述经验回放池中的所述经验集的数量未达到预设数值，返回步骤S201，

响应于确定所述经验回放池中的所述经验集的数量达到所述预设数值，所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略；

步骤S204、响应于确定当前迭代次数达未达到第一预设阈值，返回步骤S201，

响应于确定当前迭代次数达到所述第一预设阈值，迭代训练结束，得到所述网络计算模型。

在本实施例中，构建网络拓扑模型并设置计算节点信息，拓扑中存在m个节点，m≥30，其中包括计算节点n个，n≥8，计算节点的计算能力从2-20不等，计算能力的单位是每秒百万次运算100MOPS(100Million Operation Per Second)。计算节点的初始计算能力利用率设为10％，拓扑中链路带宽设置为统一值x MB/s，x≥15。对网络拓扑模型变量进行初始化，设置初始迭代次数i＝0，最大迭代次数为i_max，i_max≥1000000，i_max基于实际需求进行设定。设置经验回放池，经验回放池长度为s，s＞0，经验回放池初始为空。创建两个智能体，一个为计算资源智能体A_c，另一个为网络资源智能体A_n。在网络拓扑模型中，每个智能体对应这一个Actor网络，两个智能体共享一个Critic网络，均采用三层全连接的神经网络，并随机初始化网络参数。

经过上述设置，开始对网络拓扑模型进行迭代训练。随机产生计算任务列表，任务列表长度为k，本实施例中设置k＝m-n，k的数值可根据具体情况进行调节。规定第i个任务以第i个节点为源节点，每个任务信息包括：任务运算数

一定概率为0，表示这次的任务列表中没有从第i个节点发出的任务请求，其余情况

服从最小值20最大值400的正态分布。将任务数据传输量和任务运算数

设置成正相关，比率设置为固定值，任务数据传输量/任务运算数

通常为0.01-0.09，任务需要占用节点的算力利用率TU设置为0-0.5之间。

基于创建的计算任务列表，采用MAPPO算法通过网络拓扑模型中的计算资源智能体和网络资源智能体的与网络拓扑模型环境的交互，生成第一动作数组a_c′和第二动作数组a_n′、环境的奖励Reward，并将初始状态State、当前状态State'、第一动作数组a_c′和第二动作数组a_n′、奖励Reward作为一组经验集存入经验回放池中。当经验回放池中的经验集的数量未达到经验回放池长度s时，重复生成经验集并存入经验回放池直至经验回放池长度达到s为止。之后，利用存满的经验回放池对计算资源智能体和网络资源智能体进行更新。

如果此时的迭代次数达到第一预设阈值，则停止迭代训练，得到网络计算模型，如果此时的迭代次数未达到第一预设阈值，则重新创建计算任务列表，重复上述迭代过程。

在一些实施例中，所述基于所述计算任务列表，通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互，生成一组经验集并将其放置在所述经验回放池中，包括：

基于所述网络拓扑模型和所述计算任务列表确定所述网络拓扑模型的初始状态，并将所述初始状态分别输入至所述计算资源智能体和所述网络资源智能体中，经由所述计算资源智能体和所述网络资源智能体分别生成第一动作数组和第二动作数组；

基于所述第一动作数组和所述第二动作数组在所述网络拓扑模型中产生的数据流，计算所述计算资源智能体和所述网络资源智能体的共享奖励；

将所述初始状态、所述第一动作数组、所述第二动作数组、所述共享奖励和所述网络拓扑模型的当前状态作为一组所述经验集存入所述经验回放池中。

具体的，基于网络拓扑模型和计算任务列表确定当前状态

代表计算节点，

表示计算任务的集合，

表示网络拓扑，

表示网络链路状态。将当前状态State分别输入至所述计算资源智能体和所述网络资源智能体中，分别生成第一动作数组a_c′和第二动作数组a_n′，第一动作数组

中的每一个元素代表该任务对应的计算节点。取第二动作数组

中后|ε|个数字，采用如softmax等算法归一化后再通过图论算法，如迪杰斯特拉算法可以计算出最短路径，也即最终的转发路径p_f。

将当前状态State输入至计算资源智能体和网络资源智能体中，由第一Actor网络Actor_C和第二Actor网络Actor_N产生相应第一动作数组a_c′和第二动作数组a_n′，得到网络环境的反馈即奖励

网络环境状态更换为State'，由共享的Critic网络对第一动作数组a_c′和第二动作数组a_n′生成价值Value，评价第一动作数组a_c′和第二动作数组a_n′的好坏。最后，将这两个动作数组a_c′和a_n′、网络环境状态State和State'、奖励存放至经验回放池中。

在一些实施例中，所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略，包括：

将所述网络拓扑模型的当前状态输入至所述Critic网络中，计算得到折扣奖励；

将所述经验回放池中的全部所述经验集输入至所述Critic网络中，得到每个所述经验集对应的Value值，基于所述折扣奖励和所述Value值计算得到优势函数；

基于所述优势函数计算所述Critic网络的第一损失函数以更新所述Critic网络；

将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中，计算所述第一Actor网络的第二损失函数以更所述第一Actor网络，计算所述第二Actor网络的第三损失函数，以更新所述第二Actor网络。

具体的，将上述得到的网络拓扑模型中的最新状态State'输入至Critic网络中，得到该状态的Value值，计算折扣奖励

R[t]＝r[t]+δ₁*r[t+1]+…+δ_T-t*r[t_]，

t表示时间步，取t＝0，得到R＝[R[0],R[1],…,R[t],…R[t_]]，其中t_是最后一个时间步，δ_g是折扣因子，1≤g≤T-t。将经验回放池中的所有经验集中的状态输入至Critic网络中，得到每一个状态对应的V_值，计算优势函数

计算Critic网络的loss函数，反向传播更新Critic网络，其中Critic网络的loss函数为

之后再将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中，通过计算两个Actor网络的损失函数以更新这两个Actor网络。

在一些实施例中，将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中，计算所述第一Actor网络的第二损失函数以更所述第一Actor网络，计算所述第二Actor网络的第三损失函数，以更新所述第二Actor网络，包括：

对所述第一Actor网络执行如下迭代操作：

步骤S301、将所述经验回放池中的全部所述经验集分别输入至第一Actor-new网络和第一Actor-old网络，计算得到第一正态分布和第二正态分布，将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第一正态分布和所述第二正态分布中，得到第一参数和第二参数，对所述第一参数和所述第二参数进行除运算得到第一重要性权重，

其中，所述第一Actor-new网络和第一Actor-old网络与所述第一Actor网络相同；

步骤S302、基于所述第一重要性权重、所述优势函数、预设学习率计算所述第一Actor-new网络的所述第二损失函数以更新所述第一Actor-new网络；

步骤S303、响应于确定当前迭代次数未达到第二预设阈值，返回步骤S301，响应于确定当前迭代次数达到所述第二预设阈值，将所述第一Actor网络的参数替换为所述第一Actor-new网络的参数；

对所述第二Actor网络执行如下迭代操作：

步骤S401、将所述经验回放池中的全部所述经验集分别输入至第二Actor-new网络和第二Actor-old网络，计算得到第三正态分布和第四正态分布，将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第三正态分布和所述第四正态分布中，得到第三参数和第四参数，对所述第三参数和所述第四参数进行除运算得到第二重要性权重，

其中，所述第二Actor-new网络和第二Actor-old网络与所述第二Actor网络相同；

步骤S302、基于所述第二重要性权重、所述优势函数、所述预设学习率计算所述第二Actor-new网络的所述第三损失函数以更新所述第二Actor-new网络；

步骤S303、响应于确定当前迭代次数未达到所述第二预设阈值，返回步骤S401，响应于确定当前迭代次数达到所述第二预设阈值，将所述第二Actor网络的参数替换为所述第二Actor-new网络的参数。

参考图3，本实施例中，对第一Actor网络和第二Actor网络更新迭代方法是相同的。首先设置第一Actor-new网络和第一Actor-old网络，初始的第一Actor-new网络和第一Actor-old网络与第一Actor网络相同。将所述经验回放池中的全部所述经验集分别输入至第一Actor-new网络和第一Actor-old网络，分别得到第一正态分布Normal1和第二正态分布Normal2，将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合Actions分别输入至第一正态分布Normal1和第二正态分布Normal2中，得到每个Actions对应的第一参数prob1和第二参数prob2，然后用prob2除以prob1得到第一重要性权重ratio1。计算第一Actor-new网络的loss函数，反向传播更新第一Actor-new网络，第一Actor-new网络的loss函数的损失函数为

其中，

为优势函数，∈表示预设学习率，clip(ratio1,1-∈,1+∈)表示将超出(1-∈,1+∈)范围的ratio1裁减掉。利用经验回放池重复对第一Actor网络执行上述迭代操作，直至迭代次数达到第二预设阈值为止，将所述第一Actor网络的参数替换为所述第一Actor-new网络的参数，本实施例中第二预设阈值设置为10。

同上述迭代方法相同，对第二Actor网络进行迭代更新。首先设置第二Actor-new网络和第二Actor-old网络，初始的第二Actor-new网络和第二Actor-old网络与第二Actor网络相同。将所述经验回放池中的全部所述经验集分别输入至第二Actor-new网络和第二Actor-old网络，得到第三正态分布Normal3和第四正态分布Normal4，将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合Actions分别输入至第三正态分布Normal3和第四正态分布Normal4中，得到每个Actions对应的第三参数prob3和第四参数prob4，然后用prob4除以prob3得到第二重要性权重ratio2。计算第二Actor-new网络的loss函数，反向传播更新第二Actor-new网络，第二Actor-new网络的loss函数的损失函数为

其中，

为优势函数，∈表示预设学习率，clip(ratio2,1-∈,1+∈)表示将超出(1-∈,1+∈)范围的ratio2裁减掉。利用经验回放池重复对第二Actor网络执行上述迭代操作，直至迭代次数达到第二预设阈值为止，将所述第二Actor网络的参数替换为所述第二Actor-new网络的参数，本实施例中第二预设阈值设置为10。

参考图4，本申请还提供了一种面向算理网络的计算任务调度系统，从上至下包括SDN应用层、SDN控制层和SDN转发层。经由步骤①从用户处获取计算任务后，将该计算任务发送至位于所述SDN应用层的基于MAPPO的业务调度模块，步骤②表示经由业务调度模块给出调度策略下发至SDN控制层。经由步骤③，SDN控制层经路径规划下发至SDN转发层，使转发路径生效。SDN转发层中包括多个边缘算力和云算力。经由步骤④，SDN控制层获取路径生效后的资源状态返回给SDN应用层，位于业务调度模块经由步骤⑤获得反馈，得以不断优化调度策略。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种面向算力网络的计算任务调度装置。

参考图5，所述面向算力网络的计算任务调度装置，包括：

获取模块501，被配置为获取计算任务；

计算模块502，被配置为将所述计算任务输入到经过预训练的网络计算模型中，采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的面向算力网络的计算任务调度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的面向算力网络的计算任务调度方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的面向算力网络的计算任务调度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的面向算力网络的计算任务调度方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面向算力网络的计算任务调度方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种面向算力网络的计算任务调度方法，其特征在于，包括：

获取计算任务；

2.根据权利要求1所述的方法，其特征在于，所述采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径，包括：

基于所述网络计算模型和所述计算任务确定所述网络计算模型的当前状态；

将所述当前状态分别输入至所述计算资源智能体和所述网络资源智能体中，经由所述计算资源智能体和所述网络资源智能体分别生成计算动作和网络动作；

3.根据权利要求1所述的方法，其特征在于，所述第一Actor网络、所述第二Actor网络和所述Critic网络均为包括三层全连接层的神经网络。

4.根据权利要求1所述的方法，其特征在于，所述网络计算模型的预训练过程包括：

构建网络拓扑模型；

步骤S201、创建计算任务列表；

5.根据权利要求4所述的方法，其特征在于，所述基于所述计算任务列表，通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互，生成一组经验集并将其放置在所述经验回放池中，包括：

6.根据权利要求4所述的方法，其特征在于，所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略，包括：

7.根据权利要求6所述的方法，其特征在于，将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中，计算所述第一Actor网络的第二损失函数以更所述第一Actor网络，计算所述第二Actor网络的第三损失函数，以更新所述第二Actor网络，包括：

对所述第一Actor网络执行如下迭代操作：

对所述第二Actor网络执行如下迭代操作：

其中，所述第二Actor-new网络和第二Actor-old网络态与所述第二Actor网络相同；

8.一种面向算力网络的计算任务调度装置，其特征在于，包括：

获取模块，被配置为获取计算任务；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。