CN114745317A - 面向算力网络的计算任务调度方法及相关设备 - Google Patents

面向算力网络的计算任务调度方法及相关设备 Download PDF

Info

Publication number
CN114745317A
CN114745317A CN202210122425.4A CN202210122425A CN114745317A CN 114745317 A CN114745317 A CN 114745317A CN 202210122425 A CN202210122425 A CN 202210122425A CN 114745317 A CN114745317 A CN 114745317A
Authority
CN
China
Prior art keywords
network
actor
computing
experience
resource agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210122425.4A
Other languages
English (en)
Other versions
CN114745317B (zh
Inventor
谢坤
黄小红
李丹丹
孙慧悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210122425.4A priority Critical patent/CN114745317B/zh
Publication of CN114745317A publication Critical patent/CN114745317A/zh
Application granted granted Critical
Publication of CN114745317B publication Critical patent/CN114745317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种面向算力网络的计算任务调度方法及相关设备,在算力网络场景下,提出一种基于多智能体近端策略优化MAPPO算法(Multi‑agent Proximal Proxy Optimization)的任务调度方法,网络计算模型包括计算资源智能体和网络资源智能体,两个智能体共用Critic网络,通过对网络计算模型的迭代优化最后输出计算任务的目的计算节点和转发路径。本申请提供的计算任务调度方法基于实时网络和算力资源状况生成计算任务调度策略,以实现将计算任务通过最优路径转发到最优节点的效果。

Description

面向算力网络的计算任务调度方法及相关设备
技术领域
本申请涉及通信技术领域,尤其涉及一种面向算力网络的计算任务调度方法及相关设备。
背景技术
随着物联网、大数据、大视频的蓬勃发展,海量数据的传输、分析和存储对传统网络和云计算提出了巨大挑战,驱动计算从云端下移到接近数据源的边缘侧,形成网络中分散的算力资源。在这样的趋势下,单个分散的站点资源有限,难以保证服务质量。因此,网络在实现分散节点互联的同时,还需要具备网络和算力资源协同调度的能力,通过最优路径将任务动态地调度到最优的算力节点进行处理。这样的未来网络架构被命名为“算力网络”。
非算力网络场景下的路由决策和任务调度领域各自存在一些研究成果,但已有的相关技术中不考虑计算资源和网络资源的负载均衡问题,目前比较缺乏在算力网络场景下综合考虑计算资源和网络资源的相关计算工作。
发明内容
有鉴于此,本申请的目的在于提出一种面向算力网络的计算任务调度方法及相关设备。
基于上述目的,本申请提供了一种面向算力网络的计算任务调度方法,包括:
获取计算任务;
将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体包括第一Actor网络,所述网络资源智能体包括第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
基于同一发明构思,本申请还提供了一种面向算力网络的计算任务调度装置,包括:
获取模块,被配置为获取计算任务;
计算模块,被配置为将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体对应第一Actor网络,所述网络资源智能体对应第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
从上面所述可以看出,本申请提供的一种面向算力网络的计算任务调度方法及相关设备,在算力网络场景下,提出一种基于多智能体近端策略优化MAPPO算法(Multi-agentProximal Proxy Optimization)的任务调度方法,网络计算模型包括计算资源智能体和网络资源智能体,两个智能体共用Critic网络,通过对网络计算模型的迭代优化最后输出计算任务的目的计算节点和转发路径。本申请提供的计算任务调度方法基于实时网络和算力资源状况生成计算任务调度策略,以实现将计算任务通过最优路径转发到最优节点的效果。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的面向算力网络的计算任务调度方法的流程示意图;
图2为本申请实施例的计算任务调度方法结构图;
图3为本申请实施例的智能体反向更新方法结构图;
图4为本申请实施例的面向算力网络的计算任务调度系统示意图;
图5为本申请实施例的面向算力网络的计算任务调度装置结构图;
图6为本申请实施例的电子设备硬件结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了更好的理解本申请提供的实施例,下面对本申请中涉及的专业名词进行解释。
1、算力网络
在算力和网络融合共生、一体服务的趋势下,响应国家的国家算力网络体系构建需求,各大运营商积极展开研究实践,提出“算力网络”的全新理念。算力网络是以算为中心、网为根基,网、云、数、智、安、边、端、链等深度融合、提供一体化服务的新型信息基础设施。算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”,逐步推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,达成“网络无所不达、算力无所不在、智能无所不及”的愿景。算力网络面向计算与网络融合的新架构、新协议、新技术探索:网络将计算任务报文路由到相应的计算节点,实现用户体验最优、计算资源利用率最优、网络效率最优。通过算力网络内建计算任务动态路由的能力,根据任务需求,基于实时的计算资源性能、网络性能、成本等多维因素,动态、灵活地调度计算任务,从而提高资源利用率,网络利用效率,提高任务用户体验。因此,如何综合考虑计算资源和网络资源,进行计算任务的调度,以达到最优调度,成为了当前亟需解决的问题。
2、软件定义网络
软件定义网络SDN(Software Defined Network)是一种新型的网络架构,它将网络的控制平面与数据平面分离,网络的控制功能不再由交换设备分别计算,而是集中在一台控制器上统一计算,并由控制器集中下发控制策略。当终端设备发出服务请求时,SDN控制平台根据实时的算力状态分布以及网络状况,将算力服务请求调度至最匹配的计算节点。结合SDN技术,算力网络在计算任务调度方面会变得更加灵活敏捷。
3、深度强化学习
深度强化学习DRL(Deep Reinforcement Learning)是机器学习的一个子领域,结合了强化学习RL(Reinforcement Learning)和深度神经网络DNN(Deep Neural Network)。强化学习通过智能体不断与环境进行交互,能够自动学习不同状态下应该采取的最优动作(即策略),以最大化所获奖励。深度强化学习将深度神经网络纳入解决方案,DNN强大的表示能力可以充分拟合最优策略,能很好的适应复杂环境。
4、PPO
PPO(Proximal Proxy Optimization)算法是一种新型的策略梯度(PolicyGradient)算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题。其实TRPO也是为了解决这个问题但是相比于TRPO算法PPO算法更容易求解。
5、多智能体深度强化学习
多智能体深度强化学习MADRL(Multi-Agent Deep Reinforcement Learning)将深度强化学习的思想和算法用于多智能体系统的学习和控制中。多智能体系统中每个智能体的策略不只取决于自身的策略和环境的反馈,同时还受到其他智能体行为和合作关系的影响。
6、MAPPO
PPO(Proximal Policy Optimization)是一个目前非常流行的单智能体强化学习算法,也是OpenAI在进行实验时首选的算法,可见其适用性之广。PPO采用的是经典的actor-critic架构。其中,actor网络,也称之为policy网络,接收局部观测(obs)并输出动作(action);critic网络,也称之为value网络,接收状态(state)输出动作价值(value),用于评估actor网络输出动作的好坏。可以直观理解为评委(critic)在给演员(actor)的表演(action)打分(value)。MAPPO(Multi-agent PPO)是PPO算法应用于多智能体任务的变种,同样采用actor-critic架构,不同之处在于此时critic学习的是一个中心价值函数(centralized value function),简而言之,此时critic能够观测到全局信息(globalstate),包括其他agent的信息和环境的信息。
如背景技术所述,计算节点的计算资源往往是有限的,而且计算能力通常各不相同。同时,计算节点的计算负载状况是动态变化的。因此,一方面,当多个计算节点可以完成某项计算任务时,涉及选择哪一个计算节点来处理该计算任务的问题。另一方面,当网络拥堵或计算任务数据量较大时,将计算任务分发至具体计算任务处理节点的传输时间可能较长,同样会影响任务完成的时间,进而影响用户体验。所以,算力网络场景下调度计算任务时需要综合考虑计算资源和网络资源,不仅要选好具体计算任务处理节点,也要选好任务分发过程中的传输路径。现有的云计算或边缘计算技术大都将计算资源和网络资源分开看待,只考虑计算资源,不考虑任务传输路径的选择问题,不能满足算力网络场景下计算效率和网络效率整体最优化的要求。例如当只考虑计算资源时,将计算任务路由到计算节点,可能导致过多计算任务在传输的过程中经过同一链路造成网络拥堵;只考虑网络资源时,选择网络时延最小的计算节点,会导致该计算节点负载过大。少量面向算网融合场景下的计算任务调度方法,简单地使用队列算法,没有考虑到资源的负载均衡性,不利于动态环境下的任务调度最优。因此面向算力网络场景,设计一种基于实时网络和算力资源状况生成计算任务调度策略的方法,以实现将计算任务通过最优路径转发到最优节点,显得尤为重要。
本申请面向算力网络场景,采用多智能体深度强化学习模型,智能体之间共享评价网络,以全局状态作为评价网络的输入,以状态价值作为评价网络的输出,算法以最大化期望奖励为优化目标,不断更新网络。为了利用多智能体深度强化学习对计算任务进行调度,通过最优的路由将计算任务调度到最优的计算节点。算法创建两个智能体,一个智能体代理网络资源,一个智能体代理计算资源,按照已完成的多智能体深度强化学习框架,智能体共享奖励,将奖励值设置为资源利用率方差和任务平均运算完成时间的综合指数,智能体的动作分别设置为计算任务和计算节点的映射、为任务分配的带宽和网络拓扑中各个链路的权重。当调度一个计算任务时,任务调度系统的策略下发模块就可以按照映射结果和链路权重根据迪杰斯特拉算法生成数据流的转发路径。
以下结合附图来详细说明本申请的实施例。
本申请将网络抽象为一个无向图
Figure BDA0003498961240000061
其中,
Figure BDA0003498961240000062
与ε为该网络的点集与边集,点集合
Figure BDA0003498961240000063
代表计算节点,ε为设备间的通信链路。
本申请提供了一种面向算力网络的计算任务调度方法,参考图1,包括以下几个步骤:
步骤S101、获取计算任务。从用户处获取计算任务,计算任务包括该任务发出的源节点、任务运算数
Figure BDA0003498961240000064
任务数据传输量DA和任务需要占用节点的算理利用率TU。
步骤S102、将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体包括第一Actor网络,所述网络资源智能体包括第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
具体的,计算资源智能体的动作设置为计算任务和计算节点的映射,网络资源智能体的动作设置为计算任务分配的带宽和网络拓扑中各个链路的权重,当生成一个计算任务后,通过网络计算模型就可以按照映射结果和链路权重根据迪杰斯特拉算法生成所述计算任务对应的数据流的转发路径。
对于算法中的智能体来说,在某一环境状态下,发出某一动作,得到环境的反馈即奖励,在新的状态下,智能体继续发出动作、获得反馈,持续与环境交互。以A表示智能体的集合,以Ac表示计算资源智能体,以An表示网络资源智能体。
对于计算资源智能体Ac
状态:
Figure BDA0003498961240000065
动作:
Figure BDA0003498961240000066
对于网络资源智能体An
状态:
Figure BDA0003498961240000067
动作:
Figure BDA0003498961240000068
智能体共享奖励:
Figure BDA0003498961240000071
其中,
Figure BDA0003498961240000072
表示计算节点,
Figure BDA0003498961240000073
表示计算任务的集合,
Figure BDA0003498961240000074
表示网络无向图,
Figure BDA0003498961240000075
表示网络链路状态
Figure BDA0003498961240000076
D表示边的端对端时延,λk表示任务k被分配的计算节点编号,
Figure BDA0003498961240000077
Figure BDA0003498961240000078
表示集合
Figure BDA0003498961240000079
中元素的数量,也即计算任务的总数。bk表示对任务k数据流分配的带宽,we表示网络资源智能体为边e赋予的链路权重,1≤e≤|ε|,|ε|表示边集ε中元素的个数,也即通信链路的总数。
TCTi表示将任务i调度到计算节点j上执行的任务平均运算完成时间
Figure BDA00034989612400000710
delayi,j代表任务被调度到计算节点的传输时延,waTi,j代表任务在计算节点的等待时间,等于在当前任务前被分配到同一个计算节点的任务执行时间之和,exTi,j代表任务执行时间,等于任务运算数
Figure BDA00034989612400000711
/(任务需要占用节点的算力利用率TU*计算节点算力)。std(LU)表示链路利用率标准差,LU表示链路利用率,std(CU)表示机器算力利用率标准差,CU表示机器算力利用率,α,β,γ为权重参数。
在一些实施例中,所述采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,包括:
基于所述网络计算模型和所述计算任务确定所述网络计算模型的当前状态;将所述当前状态分别输入至所述计算资源智能体和所述网络资源智能体中,经由所述计算资源智能体和所述网络资源智能体分别生成计算动作ac和网络动作
Figure BDA00034989612400000722
基于所述计算动作确定所述计算任务对应的目的计算节点,基于所述网络动作确定所述计算任务对应的转发路径。
基于预先构建的网络计算模型和计算任务确定当前状态
Figure BDA00034989612400000712
Figure BDA00034989612400000713
代表计算节点,
Figure BDA00034989612400000714
表示计算任务的集合,
Figure BDA00034989612400000715
表示网络拓扑,
Figure BDA00034989612400000716
表示网络链路状态。将State分别输入至所述计算资源智能体和所述网络资源智能体中,分别生成计算动作和网络动作,计算动作ac中的每一个元素代表该任务对应的计算节点。取网络动作
Figure BDA00034989612400000717
中后|ε|个数字,采用如softmax等算法归一化后,再通过图论算法,如迪杰斯特拉算法可以计算出最短路径,也即最终的转发路径。
如图2所示的计算任务调度方法结构图,将网络环境中的全局状态State输入至计算资源智能体和网络资源智能体中,由第一Actor网络Actor_C和第二Actor网络Actor_N产生相应计算动作ac和网络动作
Figure BDA00034989612400000718
得到网络环境的反馈即奖励,网络环境状态转换为State',由共享的Critic网络对动作ac
Figure BDA00034989612400000719
生成价值Value,评价动作ac
Figure BDA00034989612400000721
的好坏。最后,将这两个动作ac
Figure BDA00034989612400000720
网络环境状态State和State'、奖励存放至经验回放池中。
在一些实施例中,所述第一Actor网络、所述第二Actor网络和所述Critic网络均为包括三层全连接层的神经网络,也即所述第一Actor网络、所述第二Actor网络和所述Critic网络的网络结果是相同的。
在一些实施例中,所述网络计算模型的预训练过程包括:
构建网络拓扑模型;
对所述网络拓扑模型进行初始化,并设置经验回放池,所述经验回放池初始状态为空;
在所述网络拓扑模型中创建所述计算资源智能体和所述网络资源智能体,对所述网络拓扑模型执行如下迭代训练:
步骤S201、创建计算任务列表;
步骤S202、基于所述计算任务列表,采用MAPPO算法通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互,生成一组经验集并将其放置在所述经验回放池中;
步骤S203、响应于确定所述经验回放池中的所述经验集的数量未达到预设数值,返回步骤S201,
响应于确定所述经验回放池中的所述经验集的数量达到所述预设数值,所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略;
步骤S204、响应于确定当前迭代次数达未达到第一预设阈值,返回步骤S201,
响应于确定当前迭代次数达到所述第一预设阈值,迭代训练结束,得到所述网络计算模型。
在本实施例中,构建网络拓扑模型并设置计算节点信息,拓扑中存在m个节点,m≥30,其中包括计算节点n个,n≥8,计算节点的计算能力从2-20不等,计算能力的单位是每秒百万次运算100MOPS(100Million Operation Per Second)。计算节点的初始计算能力利用率设为10%,拓扑中链路带宽设置为统一值x MB/s,x≥15。对网络拓扑模型变量进行初始化,设置初始迭代次数i=0,最大迭代次数为imax,imax≥1000000,imax基于实际需求进行设定。设置经验回放池,经验回放池长度为s,s>0,经验回放池初始为空。创建两个智能体,一个为计算资源智能体Ac,另一个为网络资源智能体An。在网络拓扑模型中,每个智能体对应这一个Actor网络,两个智能体共享一个Critic网络,均采用三层全连接的神经网络,并随机初始化网络参数。
经过上述设置,开始对网络拓扑模型进行迭代训练。随机产生计算任务列表,任务列表长度为k,本实施例中设置k=m-n,k的数值可根据具体情况进行调节。规定第i个任务以第i个节点为源节点,每个任务信息包括:任务运算数
Figure BDA0003498961240000096
Figure BDA0003498961240000097
一定概率为0,表示这次的任务列表中没有从第i个节点发出的任务请求,其余情况
Figure BDA00034989612400000910
服从最小值20最大值400的正态分布。将任务数据传输量和任务运算数
Figure BDA0003498961240000099
设置成正相关,比率设置为固定值,任务数据传输量/任务运算数
Figure BDA0003498961240000098
通常为0.01-0.09,任务需要占用节点的算力利用率TU设置为0-0.5之间。
基于创建的计算任务列表,采用MAPPO算法通过网络拓扑模型中的计算资源智能体和网络资源智能体的与网络拓扑模型环境的交互,生成第一动作数组ac′和第二动作数组an′、环境的奖励Reward,并将初始状态State、当前状态State'、第一动作数组ac′和第二动作数组an′、奖励Reward作为一组经验集存入经验回放池中。当经验回放池中的经验集的数量未达到经验回放池长度s时,重复生成经验集并存入经验回放池直至经验回放池长度达到s为止。之后,利用存满的经验回放池对计算资源智能体和网络资源智能体进行更新。
如果此时的迭代次数达到第一预设阈值,则停止迭代训练,得到网络计算模型,如果此时的迭代次数未达到第一预设阈值,则重新创建计算任务列表,重复上述迭代过程。
在一些实施例中,所述基于所述计算任务列表,通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互,生成一组经验集并将其放置在所述经验回放池中,包括:
基于所述网络拓扑模型和所述计算任务列表确定所述网络拓扑模型的初始状态,并将所述初始状态分别输入至所述计算资源智能体和所述网络资源智能体中,经由所述计算资源智能体和所述网络资源智能体分别生成第一动作数组和第二动作数组;
基于所述第一动作数组和所述第二动作数组在所述网络拓扑模型中产生的数据流,计算所述计算资源智能体和所述网络资源智能体的共享奖励;
将所述初始状态、所述第一动作数组、所述第二动作数组、所述共享奖励和所述网络拓扑模型的当前状态作为一组所述经验集存入所述经验回放池中。
具体的,基于网络拓扑模型和计算任务列表确定当前状态
Figure BDA0003498961240000091
Figure BDA0003498961240000092
代表计算节点,
Figure BDA0003498961240000093
表示计算任务的集合,
Figure BDA0003498961240000094
表示网络拓扑,
Figure BDA0003498961240000095
表示网络链路状态。将当前状态State分别输入至所述计算资源智能体和所述网络资源智能体中,分别生成第一动作数组ac′和第二动作数组an′,第一动作数组
Figure BDA0003498961240000101
Figure BDA0003498961240000102
中的每一个元素代表该任务对应的计算节点。取第二动作数组
Figure BDA0003498961240000103
中后|ε|个数字,采用如softmax等算法归一化后再通过图论算法,如迪杰斯特拉算法可以计算出最短路径,也即最终的转发路径pf
将当前状态State输入至计算资源智能体和网络资源智能体中,由第一Actor网络Actor_C和第二Actor网络Actor_N产生相应第一动作数组ac′和第二动作数组an′,得到网络环境的反馈即奖励
Figure BDA0003498961240000104
网络环境状态更换为State',由共享的Critic网络对第一动作数组ac′和第二动作数组an′生成价值Value,评价第一动作数组ac′和第二动作数组an′的好坏。最后,将这两个动作数组ac′和an′、网络环境状态State和State'、奖励存放至经验回放池中。
在一些实施例中,所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略,包括:
将所述网络拓扑模型的当前状态输入至所述Critic网络中,计算得到折扣奖励;
将所述经验回放池中的全部所述经验集输入至所述Critic网络中,得到每个所述经验集对应的Value值,基于所述折扣奖励和所述Value值计算得到优势函数;
基于所述优势函数计算所述Critic网络的第一损失函数以更新所述Critic网络;
将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中,计算所述第一Actor网络的第二损失函数以更所述第一Actor网络,计算所述第二Actor网络的第三损失函数,以更新所述第二Actor网络。
具体的,将上述得到的网络拓扑模型中的最新状态State'输入至Critic网络中,得到该状态的Value值,计算折扣奖励
R[t]=r[t]+δ1*r[t+1]+…+δT-t*r[t_],
t表示时间步,取t=0,得到R=[R[0],R[1],…,R[t],…R[t_]],其中t_是最后一个时间步,δg是折扣因子,1≤g≤T-t。将经验回放池中的所有经验集中的状态输入至Critic网络中,得到每一个状态对应的V_值,计算优势函数
Figure BDA0003498961240000111
计算Critic网络的loss函数,反向传播更新Critic网络,其中Critic网络的loss函数为
Figure BDA0003498961240000112
之后再将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中,通过计算两个Actor网络的损失函数以更新这两个Actor网络。
在一些实施例中,将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中,计算所述第一Actor网络的第二损失函数以更所述第一Actor网络,计算所述第二Actor网络的第三损失函数,以更新所述第二Actor网络,包括:
对所述第一Actor网络执行如下迭代操作:
步骤S301、将所述经验回放池中的全部所述经验集分别输入至第一Actor-new网络和第一Actor-old网络,计算得到第一正态分布和第二正态分布,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第一正态分布和所述第二正态分布中,得到第一参数和第二参数,对所述第一参数和所述第二参数进行除运算得到第一重要性权重,
其中,所述第一Actor-new网络和第一Actor-old网络与所述第一Actor网络相同;
步骤S302、基于所述第一重要性权重、所述优势函数、预设学习率计算所述第一Actor-new网络的所述第二损失函数以更新所述第一Actor-new网络;
步骤S303、响应于确定当前迭代次数未达到第二预设阈值,返回步骤S301,响应于确定当前迭代次数达到所述第二预设阈值,将所述第一Actor网络的参数替换为所述第一Actor-new网络的参数;
对所述第二Actor网络执行如下迭代操作:
步骤S401、将所述经验回放池中的全部所述经验集分别输入至第二Actor-new网络和第二Actor-old网络,计算得到第三正态分布和第四正态分布,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第三正态分布和所述第四正态分布中,得到第三参数和第四参数,对所述第三参数和所述第四参数进行除运算得到第二重要性权重,
其中,所述第二Actor-new网络和第二Actor-old网络与所述第二Actor网络相同;
步骤S302、基于所述第二重要性权重、所述优势函数、所述预设学习率计算所述第二Actor-new网络的所述第三损失函数以更新所述第二Actor-new网络;
步骤S303、响应于确定当前迭代次数未达到所述第二预设阈值,返回步骤S401,响应于确定当前迭代次数达到所述第二预设阈值,将所述第二Actor网络的参数替换为所述第二Actor-new网络的参数。
参考图3,本实施例中,对第一Actor网络和第二Actor网络更新迭代方法是相同的。首先设置第一Actor-new网络和第一Actor-old网络,初始的第一Actor-new网络和第一Actor-old网络与第一Actor网络相同。将所述经验回放池中的全部所述经验集分别输入至第一Actor-new网络和第一Actor-old网络,分别得到第一正态分布Normal1和第二正态分布Normal2,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合Actions分别输入至第一正态分布Normal1和第二正态分布Normal2中,得到每个Actions对应的第一参数prob1和第二参数prob2,然后用prob2除以prob1得到第一重要性权重ratio1。计算第一Actor-new网络的loss函数,反向传播更新第一Actor-new网络,第一Actor-new网络的loss函数的损失函数为
Figure BDA0003498961240000121
其中,
Figure BDA0003498961240000122
为优势函数,∈表示预设学习率,clip(ratio1,1-∈,1+∈)表示将超出(1-∈,1+∈)范围的ratio1裁减掉。利用经验回放池重复对第一Actor网络执行上述迭代操作,直至迭代次数达到第二预设阈值为止,将所述第一Actor网络的参数替换为所述第一Actor-new网络的参数,本实施例中第二预设阈值设置为10。
同上述迭代方法相同,对第二Actor网络进行迭代更新。首先设置第二Actor-new网络和第二Actor-old网络,初始的第二Actor-new网络和第二Actor-old网络与第二Actor网络相同。将所述经验回放池中的全部所述经验集分别输入至第二Actor-new网络和第二Actor-old网络,得到第三正态分布Normal3和第四正态分布Normal4,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合Actions分别输入至第三正态分布Normal3和第四正态分布Normal4中,得到每个Actions对应的第三参数prob3和第四参数prob4,然后用prob4除以prob3得到第二重要性权重ratio2。计算第二Actor-new网络的loss函数,反向传播更新第二Actor-new网络,第二Actor-new网络的loss函数的损失函数为
Figure BDA0003498961240000131
其中,
Figure BDA0003498961240000132
为优势函数,∈表示预设学习率,clip(ratio2,1-∈,1+∈)表示将超出(1-∈,1+∈)范围的ratio2裁减掉。利用经验回放池重复对第二Actor网络执行上述迭代操作,直至迭代次数达到第二预设阈值为止,将所述第二Actor网络的参数替换为所述第二Actor-new网络的参数,本实施例中第二预设阈值设置为10。
参考图4,本申请还提供了一种面向算理网络的计算任务调度系统,从上至下包括SDN应用层、SDN控制层和SDN转发层。经由步骤①从用户处获取计算任务后,将该计算任务发送至位于所述SDN应用层的基于MAPPO的业务调度模块,步骤②表示经由业务调度模块给出调度策略下发至SDN控制层。经由步骤③,SDN控制层经路径规划下发至SDN转发层,使转发路径生效。SDN转发层中包括多个边缘算力和云算力。经由步骤④,SDN控制层获取路径生效后的资源状态返回给SDN应用层,位于业务调度模块经由步骤⑤获得反馈,得以不断优化调度策略。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种面向算力网络的计算任务调度装置。
参考图5,所述面向算力网络的计算任务调度装置,包括:
获取模块501,被配置为获取计算任务;
计算模块502,被配置为将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体对应第一Actor网络,所述网络资源智能体对应第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的面向算力网络的计算任务调度方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的面向算力网络的计算任务调度方法。
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的面向算力网络的计算任务调度方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的面向算力网络的计算任务调度方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的面向算力网络的计算任务调度方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种面向算力网络的计算任务调度方法,其特征在于,包括:
获取计算任务;
将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体包括第一Actor网络,所述网络资源智能体包括第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
2.根据权利要求1所述的方法,其特征在于,所述采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,包括:
基于所述网络计算模型和所述计算任务确定所述网络计算模型的当前状态;
将所述当前状态分别输入至所述计算资源智能体和所述网络资源智能体中,经由所述计算资源智能体和所述网络资源智能体分别生成计算动作和网络动作;
基于所述计算动作确定所述计算任务对应的目的计算节点,基于所述网络动作确定所述计算任务对应的转发路径。
3.根据权利要求1所述的方法,其特征在于,所述第一Actor网络、所述第二Actor网络和所述Critic网络均为包括三层全连接层的神经网络。
4.根据权利要求1所述的方法,其特征在于,所述网络计算模型的预训练过程包括:
构建网络拓扑模型;
对所述网络拓扑模型进行初始化,并设置经验回放池,所述经验回放池初始状态为空;
在所述网络拓扑模型中创建所述计算资源智能体和所述网络资源智能体,对所述网络拓扑模型执行如下迭代训练:
步骤S201、创建计算任务列表;
步骤S202、基于所述计算任务列表,采用MAPPO算法通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互,生成一组经验集并将其放置在所述经验回放池中;
步骤S203、响应于确定所述经验回放池中的所述经验集的数量未达到预设数值,返回步骤S201,
响应于确定所述经验回放池中的所述经验集的数量达到所述预设数值,所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略;
步骤S204、响应于确定当前迭代次数达未达到第一预设阈值,返回步骤S201,
响应于确定当前迭代次数达到所述第一预设阈值,迭代训练结束,得到所述网络计算模型。
5.根据权利要求4所述的方法,其特征在于,所述基于所述计算任务列表,通过所述网络拓扑模型与所述计算资源智能体和所述网络资源智能体的交互,生成一组经验集并将其放置在所述经验回放池中,包括:
基于所述网络拓扑模型和所述计算任务列表确定所述网络拓扑模型的初始状态,并将所述初始状态分别输入至所述计算资源智能体和所述网络资源智能体中,经由所述计算资源智能体和所述网络资源智能体分别生成第一动作数组和第二动作数组;
基于所述第一动作数组和所述第二动作数组在所述网络拓扑模型中产生的数据流,计算所述计算资源智能体和所述网络资源智能体的共享奖励;
将所述初始状态、所述第一动作数组、所述第二动作数组、所述共享奖励和所述网络拓扑模型的当前状态作为一组所述经验集存入所述经验回放池中。
6.根据权利要求4所述的方法,其特征在于,所述计算资源智能体和所述网络资源智能体基于所述经验回放池更新策略,包括:
将所述网络拓扑模型的当前状态输入至所述Critic网络中,计算得到折扣奖励;
将所述经验回放池中的全部所述经验集输入至所述Critic网络中,得到每个所述经验集对应的Value值,基于所述折扣奖励和所述Value值计算得到优势函数;
基于所述优势函数计算所述Critic网络的第一损失函数以更新所述Critic网络;
将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中,计算所述第一Actor网络的第二损失函数以更所述第一Actor网络,计算所述第二Actor网络的第三损失函数,以更新所述第二Actor网络。
7.根据权利要求6所述的方法,其特征在于,将所述经验回放池中的全部所述经验集分别输入至所述第一Actor网络和所述第二Actor网络中,计算所述第一Actor网络的第二损失函数以更所述第一Actor网络,计算所述第二Actor网络的第三损失函数,以更新所述第二Actor网络,包括:
对所述第一Actor网络执行如下迭代操作:
步骤S301、将所述经验回放池中的全部所述经验集分别输入至第一Actor-new网络和第一Actor-old网络,计算得到第一正态分布和第二正态分布,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第一正态分布和所述第二正态分布中,得到第一参数和第二参数,对所述第一参数和所述第二参数进行除运算得到第一重要性权重,
其中,所述第一Actor-new网络和第一Actor-old网络与所述第一Actor网络相同;
步骤S302、基于所述第一重要性权重、所述优势函数、预设学习率计算所述第一Actor-new网络的所述第二损失函数以更新所述第一Actor-new网络;
步骤S303、响应于确定当前迭代次数未达到第二预设阈值,返回步骤S301,响应于确定当前迭代次数达到所述第二预设阈值,将所述第一Actor网络的参数替换为所述第一Actor-new网络的参数;
对所述第二Actor网络执行如下迭代操作:
步骤S401、将所述经验回放池中的全部所述经验集分别输入至第二Actor-new网络和第二Actor-old网络,计算得到第三正态分布和第四正态分布,将每个所述经验集中的所述第一动作数组和所述第二动作数组作为组合分别输入至所述第三正态分布和所述第四正态分布中,得到第三参数和第四参数,对所述第三参数和所述第四参数进行除运算得到第二重要性权重,
其中,所述第二Actor-new网络和第二Actor-old网络态与所述第二Actor网络相同;
步骤S302、基于所述第二重要性权重、所述优势函数、所述预设学习率计算所述第二Actor-new网络的所述第三损失函数以更新所述第二Actor-new网络;
步骤S303、响应于确定当前迭代次数未达到所述第二预设阈值,返回步骤S401,响应于确定当前迭代次数达到所述第二预设阈值,将所述第二Actor网络的参数替换为所述第二Actor-new网络的参数。
8.一种面向算力网络的计算任务调度装置,其特征在于,包括:
获取模块,被配置为获取计算任务;
计算模块,被配置为将所述计算任务输入到经过预训练的网络计算模型中,采用MAPPO算法经由所述网络计算模型输出所述计算任务对应的目的计算节点和转发路径,
所述网络计算模型包括计算资源智能体和网络资源智能体,所述计算资源智能体对应第一Actor网络,所述网络资源智能体对应第二Actor网络,所述计算资源智能体和所述网络资源智能体共享Critic网络。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
CN202210122425.4A 2022-02-09 2022-02-09 面向算力网络的计算任务调度方法及相关设备 Active CN114745317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210122425.4A CN114745317B (zh) 2022-02-09 2022-02-09 面向算力网络的计算任务调度方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210122425.4A CN114745317B (zh) 2022-02-09 2022-02-09 面向算力网络的计算任务调度方法及相关设备

Publications (2)

Publication Number Publication Date
CN114745317A true CN114745317A (zh) 2022-07-12
CN114745317B CN114745317B (zh) 2023-02-07

Family

ID=82275401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210122425.4A Active CN114745317B (zh) 2022-02-09 2022-02-09 面向算力网络的计算任务调度方法及相关设备

Country Status (1)

Country Link
CN (1) CN114745317B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115622932A (zh) * 2022-08-31 2023-01-17 北京邮电大学 算力调度方法、装置、电子设备及存储介质
CN115809147A (zh) * 2023-01-16 2023-03-17 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN115834466A (zh) * 2022-12-01 2023-03-21 中国联合网络通信集团有限公司 算力网络路径分析方法、装置、设备、系统及存储介质
CN116302449A (zh) * 2023-05-17 2023-06-23 鹏城实验室 跨智能体的算法资源调度方法、装置、设备和介质
CN116302448A (zh) * 2023-05-12 2023-06-23 中国科学技术大学先进技术研究院 任务调度方法和系统
CN117880206A (zh) * 2024-03-12 2024-04-12 深圳市艾奥科技有限公司 一种物联网管理设备的负载平衡方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
EP3593294A1 (en) * 2017-06-28 2020-01-15 Deepmind Technologies Limited Training action selection neural networks using apprenticeship
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN113079218A (zh) * 2021-04-09 2021-07-06 网络通信与安全紫金山实验室 一种面向服务的算力网络系统、工作方法及存储介质
GB202108215D0 (en) * 2020-06-29 2021-07-21 Ebos Tech Ltd Continuos network slicing in a 5G celluar communications network via a delayed deep deterministic policy gradient
CN113238847A (zh) * 2021-05-20 2021-08-10 西安电子科技大学 基于分散式网络环境下可分任务的分发和调度方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
WO2021190482A1 (zh) * 2020-03-27 2021-09-30 中国移动通信有限公司研究院 算力处理的网络系统及算力处理方法
WO2021247448A1 (en) * 2020-06-01 2021-12-09 Intel Corporation Federated learning optimizations

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
EP3593294A1 (en) * 2017-06-28 2020-01-15 Deepmind Technologies Limited Training action selection neural networks using apprenticeship
WO2020062911A1 (en) * 2018-09-26 2020-04-02 Huawei Technologies Co., Ltd. Actor ensemble for continuous control
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
WO2021190482A1 (zh) * 2020-03-27 2021-09-30 中国移动通信有限公司研究院 算力处理的网络系统及算力处理方法
WO2021247448A1 (en) * 2020-06-01 2021-12-09 Intel Corporation Federated learning optimizations
GB202108215D0 (en) * 2020-06-29 2021-07-21 Ebos Tech Ltd Continuos network slicing in a 5G celluar communications network via a delayed deep deterministic policy gradient
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法
CN113079218A (zh) * 2021-04-09 2021-07-06 网络通信与安全紫金山实验室 一种面向服务的算力网络系统、工作方法及存储介质
CN113238847A (zh) * 2021-05-20 2021-08-10 西安电子科技大学 基于分散式网络环境下可分任务的分发和调度方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MENGYING SHANG;: "Edge Computing Based Coordinated Energy-saving Train Regulation with Multi-agent Learning", 《ISCTT 2021; 6TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE, COMPUTER TECHNOLOGY AND TRANSPORTATION》 *
XUEYING HAN;: "Utility-Optimized Resource Allocation in Computing-Aware Networks", 《2021 13TH INTERNATIONAL CONFERENCE ON COMMUNICATION SOFTWARE AND NETWORKS (ICCSN)》 *
ZHAO QI;FENG MINGJIE;LI LI;LI YI;LIU HANG: "Deep Reinforcement Learning based Task Scheduling Scheme in Mobile Edge Computing Network", 《SENSORS AND SYSTEMS FOR SPACE APPLICATIONS XIV 》 *
宋娜等: "通信受限的网络化多智能体系统编队控制", 《动力学与控制学报》 *
李伟等: "智能移动系统中大规模分布式车辆路径规划问题研究", 《汽车安全与节能学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115622932A (zh) * 2022-08-31 2023-01-17 北京邮电大学 算力调度方法、装置、电子设备及存储介质
CN115834466A (zh) * 2022-12-01 2023-03-21 中国联合网络通信集团有限公司 算力网络路径分析方法、装置、设备、系统及存储介质
CN115834466B (zh) * 2022-12-01 2024-04-16 中国联合网络通信集团有限公司 算力网络路径分析方法、装置、设备、系统及存储介质
CN115809147A (zh) * 2023-01-16 2023-03-17 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN115809147B (zh) * 2023-01-16 2023-04-25 合肥工业大学智能制造技术研究院 多边缘协作缓存调度优化方法、系统及模型训练方法
CN116302448A (zh) * 2023-05-12 2023-06-23 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116302448B (zh) * 2023-05-12 2023-08-11 中国科学技术大学先进技术研究院 任务调度方法和系统
CN116302449A (zh) * 2023-05-17 2023-06-23 鹏城实验室 跨智能体的算法资源调度方法、装置、设备和介质
CN116302449B (zh) * 2023-05-17 2023-08-22 鹏城实验室 跨智能体的算法资源调度方法、装置、设备和介质
CN117880206A (zh) * 2024-03-12 2024-04-12 深圳市艾奥科技有限公司 一种物联网管理设备的负载平衡方法及系统

Also Published As

Publication number Publication date
CN114745317B (zh) 2023-02-07

Similar Documents

Publication Publication Date Title
CN114745317B (zh) 面向算力网络的计算任务调度方法及相关设备
CN104981782B (zh) 用于控制资源的系统、控制模式生成装置
Kim et al. Multi-agent reinforcement learning-based resource management for end-to-end network slicing
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
Faraji Mehmandar et al. A dynamic fog service provisioning approach for IoT applications
Jain et al. Qos-aware task offloading in fog environment using multi-agent deep reinforcement learning
Heger et al. Dispatching rule selection with Gaussian processes
Ateya et al. Energy efficient offloading scheme for MEC-based augmented reality system
Tekiyehband et al. An efficient dynamic service provisioning mechanism in fog computing environment: A learning automata approach
CN111340192A (zh) 网络路径分配模型训练方法、路径分配方法、以及装置
AlOrbani et al. Load balancing and resource allocation in smart cities using reinforcement learning
Zheng et al. Stochastic resource scheduling via bilayer dynamic Markov decision process in mobile cloud networks
Violos et al. Intelligent horizontal autoscaling in edge computing using a double tower neural network
Gupta et al. Toward intelligent resource management in dynamic Fog Computing‐based Internet of Things environment with Deep Reinforcement Learning: A survey
Asghari et al. Bi-objective cloud resource management for dependent tasks using Q-learning and NSGA-3
Ebrahim et al. Privacy-aware load balancing in fog networks: A reinforcement learning approach
CN104823418A (zh) 用于防止需求死锁并实现均衡链路利用的流量工程系统
Hashemifar et al. Optimal service provisioning in IoT fog-based environment for QoS-aware delay-sensitive application
CN110233763B (zh) 一种基于时序差分学习的虚拟网络嵌入算法
Afrasiabi et al. Reinforcement learning-based optimization framework for application component migration in nfv cloud-fog environments
CN115484205B (zh) 确定性网络路由与队列调度方法及装置
Xia et al. Learn to optimize: Adaptive VNF provisioning in mobile edge clouds
Chauhan Decentralized scheduling algorithm for DAG based tasks on P2P grid
Li et al. Efficient data offloading using markovian decision on state reward action in edge computing
Bensalem et al. Towards optimal serverless function scaling in edge computing network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant