CN116306324A - 一种基于多智能体的分布式资源调度方法 - Google Patents

一种基于多智能体的分布式资源调度方法 Download PDF

Info

Publication number
CN116306324A
CN116306324A CN202310593655.3A CN202310593655A CN116306324A CN 116306324 A CN116306324 A CN 116306324A CN 202310593655 A CN202310593655 A CN 202310593655A CN 116306324 A CN116306324 A CN 116306324A
Authority
CN
China
Prior art keywords
service area
resource scheduling
private
resource
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310593655.3A
Other languages
English (en)
Other versions
CN116306324B (zh
Inventor
杨以杰
杨振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pera Corp Ltd
Original Assignee
Pera Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pera Corp Ltd filed Critical Pera Corp Ltd
Priority to CN202310593655.3A priority Critical patent/CN116306324B/zh
Publication of CN116306324A publication Critical patent/CN116306324A/zh
Application granted granted Critical
Publication of CN116306324B publication Critical patent/CN116306324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及资源调度领域,尤其涉及一种基于多智能体的分布式资源调度方法,解决了现有分布式资源调度方法存在的服务区域之间干扰严重、系统容量下降的问题。该方法包括:将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的可用资源、服务区域及其用户;为数字孪生体中的每一服务区域分配一个智能体,将所有智能体对相应服务区域的外环用户的私有资源调度过程进行分布式建模及训练,得到训练后的分布式资源调度模型;当接收到用户的可用资源请求时,基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。

Description

一种基于多智能体的分布式资源调度方法
技术领域
本发明涉及资源调度技术领域,尤其涉及一种基于多智能体的分布式资源调度方法。
背景技术
继移动互联网之后,面向未来元宇宙的虚拟世界将再一次拉近人类之间的距离,用数字化的形式消除地理与空间的隔阂。元宇宙社会中,物理世界的自然人、机器人和虚拟世界中的虚拟人三者共融共生。元宇宙的发展将会在数字孪生体的基础上,实现虚拟原生、虚实共生、虚实联动等越来越深入的虚拟世界和物理世界的交互。随着发展阶段的演进,虚拟世界和物理世界之间的连接和联动将会越来越智能化。
因此,随着虚拟世界中的数字孪生体智能化程度越来越高,将会在当前人工智能技术发展引领下,将“智能体”这一概念演进地越来越丰富,最终发展实现元宇宙的“虚拟人”及其相关的虚拟属性。同时,元宇宙中物理世界和虚拟世界之间越来越深入和频繁的交互,将会为虚拟世界的“智能体”更多地从物理世界的“环境”中进行学习,自动形成其与物理世界相一致的数字孪生体形态和功能特征。
元宇宙所包含的物理世界及虚拟世界中的系统运行过程中,可用的资源是有限的,即使使用了先进的技术,如果不进行合理的资源调度,也很大可能无法发挥先进技术的优势。资源调度是通过在有限的资源池内调度资源,为日益增长的系统应用业务服务。作为物理世界模拟的虚拟世界中的数字孪生体,需要通过对资源调度的真实物理系统进行真实复现,并优化调度方法,仿真形成可用于物理实体中的策略,是合理使用物理世界资源、提高系统性能和改善应用体验的关键。
资源调度方式需要实现在什么时刻、在哪些可用资源上、采用怎样的技术、为哪些应用分配资源。理想的资源调度希望在追求系统容量最大化的基础上保证应用用户的公平性,同时还能够满足不同用户的服务质量要求。
调度功能需要及时根据物理世界中实际环境的变化、不同的应用业务类型服务质量保障等需求对参数和策略作出调整。由于很难通过统一模型对物理世界的资源需求情况进行建模,这就需要基于智能化思想对调度方法进行动态调整。
随着近年来人工智能的快速发展,机器学习成为业界关注的热点。强化学习是机器学习中的一种,在强化学习中,智能体可以通过与环境之间的交互寻找到累积奖励最大的动作策略。而数字孪生体所在模拟物理世界实体网络时,具有实时的感知能力,为强化学习提供了实时的环境交互,在此基础上可以通过强化学习实现对资源的动态管理与调度。
在每个决策周期,资源调度算法通常根据用户的资源质量状态、可用的资源以及业务间的优先级等信息,将资源在多个用户间进行调度。虽然在不同场景下,由于资源调度的优化目标不同,采用的调度策略并不固定,但是资源调度算法设计考虑的因素大多是一致的。在实际系统中,应用最为广泛的资源调度方案主要有三类:第一类以获得系统容量为首要任务,不考虑边缘用户的业务服务质量;第二类以用户间的公平性为目标,没有从整个系统的角度来考虑系统容量性能;第三类是对于系统容量与公平性的折中,在保证一定用户公平性的基础上对系统容量性能进行优化。
三种方案对应的具体调度算法分别是轮询算法、最大容量算法和比例公平算法。以下简要介绍这三种常用的资源调度算法,为本发明设计的基于多智能体的分布式资源调度方案提供对比参考。
(1)轮询算法
轮询算法只追求系统的公平性,不考虑调度优先级,也不考虑用户间需求量的差异。在每个调度时刻,轮询算法按照用户的请求顺序将可用资源均等地分配给各个用户,如果可用资源的数量多于请求用户的数量,则可以在同一调度时刻中满足各个用户;如果可用资源的数量少于用户的数量,则并非所有的用户都能够在当前调度时刻得到可用资源,那么,在下一调度时刻,可用资源的分配将从上一时刻第一个未分配的用户开始。
轮询算法可以保证每个用户的最小传输量,实现资源调度公平性的上界。但其缺点在于没有对业务等级、资源质量等因素进行分析,实际情况中可能会出现两方面问题:一方面,由于所有用户的优先级没有区别,实时业务无法获得更优先的服务,业务质量无法保证;另一方面,由于传输条件较差的用户也能获得资源,在动态变化的物理世界实体环境中资源利用效率会降低,系统容量也会有不同程度的损失。
(2)最大容量算法
最大容量算法将系统的传输量作为优化目标,依据用户的传输条件质量状况对每个请求用户进行排序,优先给传输条件质量好的用户分配资源。假设在
Figure SMS_1
时刻,有/>
Figure SMS_2
个用户需要进行通信,对于可用资源/>
Figure SMS_3
来说,用户/>
Figure SMS_4
测量到的容量为/>
Figure SMS_5
,那么可用资源/>
Figure SMS_6
的调度用户优先级计算如下式,如果有不同的用户具有相同的容量时,可用资源会分配给先请求的用户。
Figure SMS_7
实际场景中,每个用户的分布具有随机性,接收到的信号强度会有所差异。在任意时刻,最大容量算法只倾向于传输条件质量好的用户,而边缘用户由于传输条件较差,接受服务的概率会相对变小。在面向所有应用终端高可靠性的需求下,这种贪婪式的算法是不合理的,实际中只能用作获得系统容量的最大值。
以上两种算法体现了资源调度算法在追求公平性与最大化系统容量的两个极端,可基于此对其他调度算法进行评估。
(3)比例公平算法
比例公平算法兼顾了系统容量与用户公平性,在调度优先级规则中利用传输条件质量的当前状况和过去一段时间内的系统容量性能作为参考因素,在公平性和系统容量之间取得了一定程度的折中。
假设在时刻
Figure SMS_10
,有/>
Figure SMS_11
个用户发起业务请求,对于可用资源/>
Figure SMS_13
来说,用户/>
Figure SMS_9
的瞬时传输量为/>
Figure SMS_12
,用户/>
Figure SMS_14
在过去一段时间内的平均传输量为/>
Figure SMS_15
,那么可用资源/>
Figure SMS_8
的用户优先级计算如下式:
Figure SMS_16
其中,
Figure SMS_17
的更新公式为:
Figure SMS_18
在上式中,
Figure SMS_19
为滑动时间窗,可用来调节比例公平算法对于系统容量与公平性的侧重,/>
Figure SMS_20
的值越大越注重公平性,值越小越注重系统容量。可以看出,如果某用户长期处于传输条件质量差的环境,则/>
Figure SMS_21
的值会变小,使得调度的优先级变高;如果某用户连续获得资源,则/>
Figure SMS_22
会逐渐变大,优先级则相应变低。
比例公平算法满足了传输条件质量较好的用户对于大容量业务的需求,同时还考虑了传输条件质量较差的用户的传输容量,是许多资源调度算法设计的基础。
此外,针对数字孪生体所模拟的物理世界中服务区域间用户非均匀分布以及用户业务请求的动态变化,导致数字孪生体系统模拟的资源使用效率有限的问题,需要以动态调整资源复用的方式来提高系统资源使用效率。
常用的动态调整资源复用方法可分为集中式资源调度方法和分布式资源调度方法。
对于集中式资源调度,需要在数字孪生体中建模模拟一个更高层次的中心节点收集各个服务区域的信息,然后由中心节点根据全局信息统一的对资源进行分配,以协调各个服务区域对系统资源的使用,降低服务区域之间的干扰。在这种方式下,由于各服务区域不具备自主决策的能力,对中心节点的资源调度能力提出了更高的要求,若中心节点的资源调度能力较差,容易使得服务区域的资源调度结果与其资源使用需求匹配度差。
分布式资源调度不同于集中式资源调度,不再需要更高层次的中心节点来进行集中优化决策,而是各个服务区域根据自身的局部观测空间自适应调整各服务区域的边缘资源,降低服务区域间干扰,实现服务区域边缘用户性能的提升。但是,由于没有中心节点统一的对资源进行分配,所以每一个服务区域为了最大化本服务区域的系统容量,都会贪婪的使用系统的全部可用资源,这样就会增加服务区域之间的干扰,反而使得系统容量下降。所以对于分布式资源调度,每个服务区域如何根据自身的局部观测状态,自主、合理的选择可用资源,是亟需解决的技术问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于多智能体的分布式资源调度方法,用以解决现有分布式资源调度方法存在的服务区域之间干扰严重、系统容量下降的问题。
本发明公开了一种基于多智能体的分布式资源调度方法,包括:
将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有可用资源、服务区域及服务区域内的用户;所述服务区域内的用户分为外环用户和内圆用户;所述可用资源分为私有资源和公共资源;
为数字孪生体中的每一服务区域分配一个智能体,将所有智能体对相应服务区域的外环用户的私有资源调度过程进行分布式建模,得到建模后的分布式资源调度模型;
对建模后的分布式资源调度模型进行训练,得到训练后的分布式资源调度模型;
当接收到用户的可用资源请求时,基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。
在上述方案的基础上,本发明还做出了如下改进:
进一步,建模后的分布式资源调度模型包括:每一服务区域的局部观测状态,每一服务区域的动作,所有服务区域的全局奖励函数;其中,
服务区域的局部观测状态,包括私有资源需求矩阵和私有资源占用矩阵;
服务区域的动作,指该服务区域的外环用户的私有资源的分配策略;
所有服务区域的全局奖励函数
Figure SMS_23
表示为:
Figure SMS_24
(1)
其中,
Figure SMS_25
表示服务区域/>
Figure SMS_26
的外环用户的资源请求满意度,/>
Figure SMS_27
表示所有服务区域的总数。
进一步,服务区域
Figure SMS_28
的外环用户的资源请求满意度/>
Figure SMS_29
为:
Figure SMS_30
(2)
其中,
Figure SMS_31
表示服务区域/>
Figure SMS_32
自主选择的私有资源的总数,/>
Figure SMS_33
表示服务区域/>
Figure SMS_34
的外环用户/>
Figure SMS_35
请求的私有资源的总数,/>
Figure SMS_36
表示服务区域/>
Figure SMS_37
的外环用户集合。
进一步,服务区域
Figure SMS_38
的局部观测状态/>
Figure SMS_39
表示为:
Figure SMS_40
(3)
服务区域
Figure SMS_41
的私有资源需求矩阵/>
Figure SMS_42
表示为:
Figure SMS_43
(4)
其中,
Figure SMS_45
表示服务区域/>
Figure SMS_47
的所有外环用户请求的私有资源的总数,/>
Figure SMS_50
表示服务区域/>
Figure SMS_46
的相邻服务区域/>
Figure SMS_48
的所有外环用户请求的私有资源的总数,/>
Figure SMS_51
的取值为1到/>
Figure SMS_52
,/>
Figure SMS_44
表示服务区域/>
Figure SMS_49
的相邻服务区域的总数;
服务区域
Figure SMS_53
的私有资源占用矩阵/>
Figure SMS_54
表示为:
Figure SMS_55
(5)
其中,
Figure SMS_57
;/>
Figure SMS_59
表示私有资源集合中的第/>
Figure SMS_61
个私有资源被服务区域/>
Figure SMS_58
或服务区域/>
Figure SMS_60
的相邻服务区域占用,/>
Figure SMS_62
表示私有资源集合中的第/>
Figure SMS_63
个私有资源空闲;
Figure SMS_56
表示私有资源集合中的私有资源的总数。
进一步,对建模后的分布式资源调度模型进行如下训练:
初始化环境参数和PPO算法参数;其中,初始化PPO算法参数包括:初始化回合总数epochs和每回合轨迹总数episode,初始化全局奖励函数;初始化每一智能体的经验池及其最大容量,以及,每一智能体的Actor网络的网络参数及Critic网络的网络参数;
在每一次回合,清空所有智能体的经验池,并重置经验池的容量为0;然后,执行episode次轨迹更新,将每一智能体获得的episode条轨迹信息存入各自的经验池;
每一智能体分别根据自身的经验池中存储的所有轨迹信息计算优势函数及Critic网络的损失函数,更新Critic网络的网络参数;还根据经验池中存储的所有轨迹信息计算Actor网络的损失函数,更新Actor网络的网络参数;
重复执行多个回合的轨迹更新,直至所有智能体的Actor网络和Critic网络的状态均收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的分布式资源调度模型。
进一步,在执行每次轨迹更新过程中,执行:
各智能体分别从环境中获取相应服务区域的局部观测状态,各智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作;将所有智能体的联合动作
Figure SMS_64
作用于环境,更新各服务区域的局部观测状态;
由全局奖励函数计算多智能体的全局奖励
Figure SMS_65
,将每个智能体得到的轨迹信息
Figure SMS_66
存入各自智能体的经验池中;其中,/>
Figure SMS_67
、/>
Figure SMS_68
分别表示服务区域/>
Figure SMS_69
在/>
Figure SMS_70
时刻的局部观测状态、动作;
基于更新后的各服务区域的局部观测状态,执行下一次轨迹更新过程,获取并储存下一次轨迹更新的轨迹信息。
进一步,根据各服务区域彼此之间的相邻关系,对所有服务区域的动作顺序进行分类;其中,同一类别的服务区域之间彼此不相邻;此时,在对建模后的分布式资源调度模型进行训练的每个资源调度周期,各类服务区域的智能体按照动作时间先后顺序有序动作;
每类服务区域的智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作,执行:
智能体根据接收到的其他类别的服务区域的局部观测状态,构造相应服务区域的局部观测状态;
智能体的Actor网络对相应服务区域的局部观测状态做出动作,将动作映射形成相应服务区域的更新后的私有资源占用矩阵;
智能体组合相应服务区域的私有资源需求矩阵和更新后的私有资源占用矩阵,得到相应服务区域更新后的局部观测状态,并通过接口传递给其他类别的服务区域。
进一步,智能体根据接收到的其他类别的服务区域的局部观测状态,构造对应服务区域的局部观测状态,执行:
智能体根据接收到的相邻的其他类别的服务区域的所有外环用户请求的私有资源的总数,确定智能体对应的服务区域在本次资源调度周期的私有资源需求矩阵;
智能体根据接收到的相邻的其他类别的服务区域的私有资源占用矩阵,以及自身上次资源调度周期的私有资源占用矩阵,确定智能体对应的服务区域在本次资源调度周期的私有资源占用矩阵;
智能体组合对应的服务区域在本次资源调度周期的私有资源需求矩阵和私有资源占用矩阵,构造对应服务区域的局部观测状态。
进一步,在对建模后的分布式资源调度模型进行训练的第一个资源调度周期,规定第一类服务区域的私有资源占用矩阵为全零矩阵;第一类服务区域的智能体的动作时间顺序排第一。
进一步,所述用户的可用资源请求分为外环用户的私有资源请求和内圆用户的公共资源请求;
所述基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,包括:
智能体基于相应服务区域的外环用户的私有资源请求,生成相应服务区域的局部观测状态;智能体的Actor网络处理相应服务区域的局部观测状态,生成相应的动作;智能体根据生成的动作,实现空间飞行信息系统中相应服务区域的外环用户的私有资源调度。
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明提供的基于多智能体的分布式资源调度方法,通过将服务区域中的用户划分为内圆用户和外环用户,并对内圆用户和外环用户采用不同的资源调度方式,有效优化了资源调度过程。
同时,为克服相邻服务区域的外环用户之间的相互干扰,本发明创造性地提出了多智能体集中训练、分布式实施调度的分布式资源调度模型,从而优化了外环用户之间的资源调度过程,有效提升了整个系统的系统容量,为实际实施资源调度提供了很好的技术指导。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例1提供的基于多智能体的分布式资源调度方法的流程图;
图2为本发明实施例1提供的分布式资源调度模型的整体框架;
图3为本发明实施例1提供的服务区域的分类示意图;
图4为本发明实施例2提供的每回合累计奖励收敛性能图;
图5为本发明实施例2提供的系统资源使用效率随着业务强度的增大而变化的曲线。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明的一个具体实施例,公开了一种基于多智能体的分布式资源调度方法,流程图如图1所示,包括如下步骤:
步骤S1:将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有可用资源、服务区域及服务区域内的用户;所述服务区域内的用户分为外环用户和内圆用户。
空间飞行信息系统是由分布在空间中的多个飞行器作为资源提供方、以分布在多个服务区域内的地面用户作为资源使用方的信息系统。具体地,资源提供方用于提供可用资源。服务区域为面向用户实现某类业务功能的一个或多个、使用不同可用资源的区域。用户为随机接入服务区域、并使用资源提供方提供的可用资源的业务请求方。
将空间飞行信息系统映射成数字孪生体系统过程中,将空间飞行信息系统中的可用资源映射成数字孪生体系统中的可用资源;将空间飞行信息系统中的服务区域映射成数字孪生体系统中的服务区域;将空间飞行信息系统中的用户映射成数字孪生体系统中的用户,从而形成数字孪生体系统。
在本实施例中,每个服务区域均被划分为服务区域内圆和服务区域外环。其中,服务区域内圆是指服务区域中不与其他服务区域交叠的区域,服务区域外环是指服务区域中与其他服务区域交叠的区域。根据用户在各服务区域内所处位置的不同,可以将服务区域中的用户划分为内圆用户和外环用户。即,将处于服务区域内圆的用户划分为内圆用户,将处于服务区域外环的用户划分为外环用户。
步骤S2:为数字孪生体中的每一服务区域分配一个智能体,将所有智能体对相应服务区域的外环用户的资源调度过程进行分布式建模,得到建模后的分布式资源调度模型。
在数字孪生体系统中,服务区域集合
Figure SMS_71
,其中,/>
Figure SMS_72
表示服务区域的总数。可用资源集合/>
Figure SMS_73
,其中,/>
Figure SMS_74
表示可用资源的总数。
在本实施例的资源复用设计方案中,将可用资源集合
Figure SMS_75
划分为公共资源集合
Figure SMS_76
和私有资源集合/>
Figure SMS_77
。其中,/>
Figure SMS_78
且/>
Figure SMS_79
。将公共资源集合中的可用资源定义为公共资源,公共资源用作服务区域中内圆用户的资源调度,传输功率较低。将私有资源集合中的可用资源定义为私有资源,私有资源用作服务区域中外环用户的资源调度,并与其它服务区域的私有资源共用,若干个不同的私有资源在多个服务区域的外环之间进行复用,传输功率较高。
需要说明的是,在本实施例的数字孪生体系统中,所有服务区域的内圆用户共享公共资源集合,所有服务区域的外环用户共享私有资源集合。服务区域
Figure SMS_80
占用的公共资源子集/>
Figure SMS_81
表示为:
Figure SMS_82
(1)
服务区域
Figure SMS_83
占用的私有资源子集/>
Figure SMS_84
分别表示为:
Figure SMS_85
(2)
其中,
Figure SMS_87
表示/>
Figure SMS_90
中的第/>
Figure SMS_94
个公共资源,/>
Figure SMS_89
表示/>
Figure SMS_93
中的公共资源的总数;
Figure SMS_96
表示/>
Figure SMS_98
中的第/>
Figure SMS_86
个私有资源,/>
Figure SMS_91
表示/>
Figure SMS_95
中的私有资源的总数。其中,
Figure SMS_97
,/>
Figure SMS_88
。即,服务区域/>
Figure SMS_92
只能占用全部可用资源中的一部分,其公共资源和私有资源之间不相互干扰。
基于上述可用资源的划分可知,服务区域
Figure SMS_99
的资源调度方案/>
Figure SMS_100
表示为:
Figure SMS_101
(3)
其中,
Figure SMS_113
,/>
Figure SMS_104
表示可用资源/>
Figure SMS_109
对于服务区域/>
Figure SMS_105
不可用,/>
Figure SMS_106
表示可用资源/>
Figure SMS_110
被划分为服务区域/>
Figure SMS_114
的私有资源使用,/>
Figure SMS_112
表示可用资源/>
Figure SMS_116
被划分为服务区域/>
Figure SMS_102
的公共资源使用。/>
Figure SMS_108
中所有取值为1的元素对应的可用资源汇总得到服务区域/>
Figure SMS_115
占用的私有资源子集/>
Figure SMS_118
,即服务区域/>
Figure SMS_117
的外环用户的资源调度方案;/>
Figure SMS_119
中所有取值为2的元素对应的可用资源汇总得到服务区域/>
Figure SMS_103
占用的公共资源子集/>
Figure SMS_107
,即服务区域/>
Figure SMS_111
的内圆用户的资源调度方案。
数字孪生体系统中所有服务区域的资源调度方案构成了整个数字孪生体系统的资源调度方案
Figure SMS_120
,/>
Figure SMS_121
表示为:
Figure SMS_122
(4)
需要说明的是,在本实施例中,由于各个服务区域中的内圆用户之间不存在任何干扰,因此,多个服务区域可以同时使用相同的公共资源。同时,由于预留了公共资源集合,每一智能体利用公共资源集合,对相应服务区域的内圆用户的资源请求进行按需分配。也就是说,智能体的资源调度过程中,对于公共资源不再进行分配,仅对私有资源集合进行分配,这可以减小智能体的动作空间。
在本实施例提出的分布式动态资源调度中,在每一个资源调度周期,各个智能体根据自身的局部观测状态自主、动态地给出相应服务区域的外环用户的资源调度方案,并对内圆用户的资源请求进行按需分配后得到相应服务区域的内圆用户的资源调度方案。汇总服务区域的内圆用户、外环用户的资源划分方案,即可得到相应服务区域的资源调度方案。汇总所有服务区域的资源调度方案,即可得到如公式(4)所示的整个数字孪生体系统的资源调度方案。
需要强调的是,本实施例所提的分布式动态资源调度方式,其主旨是针对服务区域间用户非均匀分布,以及业务请求的动态变化的特性,以增大系统容量,提升服务区域外环用户满意度为目标,完成数字孪生体系统的资源划分。对于这种分布式资源调度模型,由于没有中心节点对资源进行统一分配,所以每一个服务区域为了最大化本服务区域的系统容量,都会贪婪的使用数字孪生体系统中的全部可用资源,这样就会增加服务区域之间的干扰,反而使得系统容量下降。所以对于分布式资源调度,每个服务区域如何根据自身的局部观测状态,自主、合理的选择可用资源,是本实施例所要解决的问题。
上述问题可以转换为:一个服务区域在提升本服务区域外环用户的满意度的同时,不恶化其他服务区域的外环用户的性能。即,可将该问题表述为各个服务区域使用系统资源的公平性问题,即最大化满足各个服务区域的外环用户的资源请求满意度。在此,定义服务区域
Figure SMS_123
的外环用户的资源请求满意度/>
Figure SMS_124
为:
Figure SMS_125
(5)
其中,
Figure SMS_126
表示服务区域/>
Figure SMS_127
自主选择的私有资源的总数,/>
Figure SMS_128
表示服务区域/>
Figure SMS_129
的外环用户/>
Figure SMS_130
请求的私有资源的总数,/>
Figure SMS_131
表示服务区域/>
Figure SMS_132
的外环用户集合。
数字孪生体系统中所有服务区域的外环用户的资源请求满意度的公平性
Figure SMS_133
表示为:
Figure SMS_134
(6)
其中,
Figure SMS_135
。/>
Figure SMS_136
越大,表明数字孪生体系统的资源分配算法的公平性能越好。
基于上述说明可知,本实施例中的优化问题可以建模如公式(7)所示的公平性问题,公式(8)以及公式(9)为约束条件。
Figure SMS_137
(7)
Figure SMS_138
,服务区域/>
Figure SMS_139
,/>
Figure SMS_140
相邻 (8)
Figure SMS_141
(9)
其中,公式(7)表示分布式资源调度的目标是最大化数字孪生体系统中所有服务区域的外环用户的资源请求满意度的公平性;约束条件式(8)表示相邻服务区域间的私有资源之间不相互干扰,即,相邻服务区域之间不得占用相同的私有资源;约束条件式(9)表示可用资源是有限的,各个服务区域占用的公共资源子集、私有资源子集的并集不超过数字孪生体系统的可用资源集合,且各个服务区域内的公共资源子集和私有资源子集之间没有交集,不产生干扰。
本实施例设计的分布式资源调度模型的整体框架如图2所示。其中,不同于集中式的资源调度方式,本实施例对数字孪生体系统进行分布式建模,每一个智能体不能获得全局状态
Figure SMS_143
,而是只能获得自身的局部观测状态。即,智能体/>
Figure SMS_146
只能获得自身的局部观测状态
Figure SMS_148
,然后,智能体/>
Figure SMS_144
利用自身的神经网络,依据局部观测状态/>
Figure SMS_145
生成动作/>
Figure SMS_147
。所有智能体的动作组成联合动作/>
Figure SMS_149
作用于环境,随后环境反馈一个奖励/>
Figure SMS_142
,各个智能体根据反馈的奖励完成神经网络参数的优化。
各个智能体在生成资源复用方案时,本质上是对数字孪生体系统中的可用资源的占用,这对于每一个智能体而言都是贪婪的,从而形成智能体之间的竞争博弈。但本实施例从系统整体角度出发,将资源复用方案生成问题转化为多智能体的完全合作任务,通过多智能体在学习过程中共享同一重奖励方案,实现系统资源请求满意度公平性的最大化,但是对于某一个智能体而言可能不是最优。
在分布式资源调度模型中,一个智能体对其他智能体的资源占用情况无从所知,因而,智能体并不知道自己的动作是否影响了其他智能体的资源请求满意度。所以,在分布式资源调度模型的训练阶段,采用多智能体集中式训练方式,训练各个智能体的神经网络参数,得到训练好的神经网络;而在分布式资源调度模型的实施阶段,各个智能体根据各自已经训练好的神经网络,分布式实施各自服务区域的资源调度。也就是说,对于需要密集型计算的训练阶段采用集中式,此时,所有的智能体共享同一个奖励,以最大化共同奖励为目标,每个智能体根据自己的局部观测状态采取动作,多个智能体的动作组成联合动作之后作用于环境,然后,智能体根据环境反馈的奖励调节自身的神经网络参数。当智能体的神经网络参数收敛到最优时,即可得到训练好的神经网络。随后即可以采取分布式的实施,此时各个智能体的神经网络参数不再更新,每个智能体感知自身的局部观测状态,根据训练好的神经网络生成相应动作,进而映射为资源复用方案,完成服务区域之间的资源调度。
不同于单智能体的资源调度方式,在多智能体的资源调度方式中,每个智能体不同的决策会影响整个数字孪生体系统的状态,即,对每个智能体而言,环境不仅取决于自身的动作,也取决于其他智能体的动作,这将会导致环境的不稳定。此外,将竞争博弈转换为合作博弈,关键在于多智能体奖励的设计以及局部观测状态的设计。所以,本实施例的分布式资源调度模型能否收敛以及达到效果,关键在于分布式资源调度模型中的局部观测状态、多智能体动作以及多智能体全局奖励函数的设计。下面具体介绍这三个要素的设计。
(1)状态
在本实施例提供的分布式资源调度模型中,每个智能体根据自身的局部观测状态,自主、智能的选择资源复用方案。在本实施例的具体实施过程中,智能体之间可以进行信息交互,所以对于每个智能体,其局部观测状态不仅包含本服务区域的局部观测状态,还包含数字孪生体系统中其他智能体通过接口分享的局部观测状态。
在本实施例中,定义服务区域
Figure SMS_150
的局部观测状态/>
Figure SMS_151
表示为:
Figure SMS_152
(10)
其中,服务区域
Figure SMS_153
的私有资源需求矩阵/>
Figure SMS_154
表示为:
Figure SMS_155
(11)
其中,
Figure SMS_157
表示服务区域/>
Figure SMS_161
的所有外环用户请求的私有资源的总数,/>
Figure SMS_164
表示服务区域/>
Figure SMS_158
的相邻服务区域/>
Figure SMS_159
的所有外环用户请求的私有资源的总数,/>
Figure SMS_162
的取值为1到/>
Figure SMS_165
,/>
Figure SMS_156
表示服务区域/>
Figure SMS_160
的相邻服务区域的总数。服务区域/>
Figure SMS_163
的相邻服务区域/>
Figure SMS_166
的所有外环用户请求的私有资源的总数通过智能体之间的接口交互获得。
服务区域
Figure SMS_167
的私有资源占用矩阵/>
Figure SMS_168
表示为:
Figure SMS_169
(12)
其中,
Figure SMS_170
;/>
Figure SMS_177
表示私有资源集合/>
Figure SMS_181
中的第/>
Figure SMS_171
个私有资源被服务区域/>
Figure SMS_175
或服务区域/>
Figure SMS_179
的相邻服务区域占用,/>
Figure SMS_183
表示私有资源集合/>
Figure SMS_172
中的第/>
Figure SMS_174
个私有资源空闲。/>
Figure SMS_178
表示私有资源集合/>
Figure SMS_182
中的私有资源的总数。/>
Figure SMS_173
的提取,主要是为了获取私有资源的占用情况,从而避免已经被服务区域/>
Figure SMS_176
或其相邻服务区域占用的私有资源再次被智能体/>
Figure SMS_180
选为私有资源,可以保证相邻服务区域之间私有资源不相互干扰。
对于服务区域
Figure SMS_184
的私有资源占用矩阵/>
Figure SMS_185
,需要获取各个相邻服务区域智能体的动作,从而构造/>
Figure SMS_186
。而相邻服务区域的智能体的动作又依赖于服务区域/>
Figure SMS_187
的动作,这会造成智能体间的相互等待,使得整个数字孪生体系统陷入死锁。为了解决该问题,可以将数字孪生体系统中的所有服务区域的动作顺序进行分类,形成若干类服务区域,并规定各类服务区域的智能体按照时间先后顺序有序地动作。
优选地,在本实施例中,根据各服务区域彼此之间的相邻关系,对所有服务区域的动作顺序进行分类。其中,同一类别的服务区域之间彼此不相邻。此外,由于各服务区域的优先级可能不同,因此,具体实施过程中,将服务区域彼此不相邻、且优先级较高的若干服务区域划分为动作时间顺序靠前的服务区域的类别。将服务区域彼此不相邻、且优先级较低的若干服务区域划分为动作时间顺序靠后的服务区域的类别。
在对建模后的分布式资源调度模型进行训练的每个资源调度周期,各类服务区域的智能体按照动作时间先后顺序有序动作,每类服务区域的智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作,执行:
1)智能体根据接收到的其他类别的服务区域的局部观测状态,构造相应服务区域的局部观测状态;
智能体根据接收到的相邻的其他类别的服务区域的所有外环用户请求的私有资源的总数,确定智能体对应的服务区域在本次资源调度周期的私有资源需求矩阵。需要说明的是,由于在训练阶段的第一个资源调度周期,各类服务区域均不存在私有资源占用矩阵,无法动作。因此,在对建模后的分布式资源调度模型进行训练的第一个资源调度周期,规定第一类服务区域的私有资源占用矩阵为全零矩阵,即,私有资源集合
Figure SMS_188
中所有的私有资源全部可用,以启动第一类服务区域的动作过程。
智能体根据接收到的相邻的其他类别的服务区域的私有资源占用矩阵,以及自身上次资源调度周期的私有资源占用矩阵,确定智能体对应的服务区域在本次资源调度周期的私有资源占用矩阵。
智能体组合对应的服务区域在本次资源调度周期的私有资源需求矩阵和私有资源占用矩阵,构造对应服务区域的局部观测状态。
2)智能体的Actor网络对相应服务区域的局部观测状态做出动作,将动作映射形成相应服务区域的更新后的私有资源占用矩阵;
3)智能体组合相应服务区域的私有资源需求矩阵和更新后的私有资源占用矩阵,得到相应服务区域更新后的局部观测状态,并通过接口传递给其他类别的服务区域。
示例性地,服务区域的分类示意图如3所示,在图3中,将服务区域分为三类,其中,同一类别的服务区域之间彼此不相邻。此时,三类服务区域在训练阶段的第一个资源调度周期的动作过程描述如下:
规定系统中第一类服务区域的私有资源占用矩阵为全零矩阵(第一类服务区域的智能体的动作时间顺序排第一),即对于第一类服务区域,所有的资源全部可用。当第一类服务区域根据局部观测状态做出动作后,得到相应服务区域更新后的局部观测状态,并通过接口传递给其他类服务区域。
当第二类服务区域中智能体收到了来自第一类别的服务区域的局部观测状态后,将其构造为局部观测状态,然后根据局部观测状态做出动作,最后通过接口传递给其他类服务区域。
第三类服务区域根据前两类服务区域的资源复用方案构造资源占用矩阵,进而得到局部观测状态,完成自身资源复用方案的更新。自此,系统中所有服务区域完成资源复用方案的更新。
(2)动作设计
在本实施例中,服务区域的动作,指该服务区域的外环用户的私有资源的分配策略。每个智能体的任务就是根据自身的局部观测状态,对服务区域的部分资源复用方案进行合理动态地调整,所以智能体的动作要能映射为资源复用方案。在本实施例中,智能体的动作仅对私有资源集合进行分配,这可以减小智能体的动作空间。智能体
Figure SMS_189
的动作概率分布矩阵/>
Figure SMS_190
可以表示为:
Figure SMS_191
(13)
其中,
Figure SMS_193
表示私有资源集合/>
Figure SMS_196
中的第/>
Figure SMS_198
个私有资源对于智能体/>
Figure SMS_194
不可用的概率,/>
Figure SMS_195
表示私有资源集合/>
Figure SMS_197
中的第/>
Figure SMS_199
个私有资源被智能体/>
Figure SMS_192
选为私有资源的概率。在本实施例中,由于智能体按照服务区域类别按顺序执行相应动作,可以对智能体的非法动作进行屏蔽。因此,即使智能体基于给出的动作概率矩阵直接进行随机性的采样,仍然可以保证所得动作满足相邻服务区域间的私有资源不产生干扰的约束。
(3)全局奖励函数设计
多智能体强化学习中,每个智能体本身的奖励与所有智能体的全局奖励最优不相关,由于多个智能体之间存在竞争关系,奖励的设计影响到学习的结果。本实施例采用了一个全局奖励来代替每个智能体本身的奖励,所有智能体整体优化的目标不是自身的资源使用效率,而是数字孪生体中所有服务区域的外环用户的资源请求满意度的公平性
Figure SMS_200
,全局奖励函数/>
Figure SMS_201
如下所示:
Figure SMS_202
(14)
从公式(14)中可以看出,本实施例设计的全局奖励函数,能够根据每个智能体的私有资源请求状况,合理地分配给其一定的私有资源,最大限度地提升每个智能体对应的服务区域的外环用户的资源请求满意度,即,获得的奖励也越多,也即系统公平性越好。
步骤S3:对建模后的分布式资源调度模型进行训练,得到训练后的分布式资源调度模型。
本实施例中的分布式资源调度模型基于PPO算法实现。依据分布式资源调度模型中对局部观测状态、多智能体动作以及多智能体奖赏收益的设计,并结合分布式资源调度模型的整体框架,设计了本实施例中的分布式资源调度模型的训练方式。在本实施例中,训练流程主要分为四个部分:参数初始化部分、多智能体与环境交互部分、多智能体更新部分以及最后的算法性能评估部分。其中,参数初始化部分主要是对环境的初始化设置以及多智能体神经网络参数的初始化设置。对于多智能体与环境交互部分,主要是每个智能体根据获得的局部观测状态
Figure SMS_203
生成动作/>
Figure SMS_204
,然后所有智能体的动作组成联合动作
Figure SMS_205
作用于环境,完成与环境的互动,并将互动过程中将每个智能体产生的状态、动作和奖励值存入经验池Buffer中。多智能体更新部分,则是利用经验池中存储的数据计算每个智能体的Actor网络和Critic网络的损失函数,然后更新神经网络参数。算法性能评估部分则是根据智能体学习出的最优策略进行相关的性能评估。对建模后的分布式资源调度模型进行如下训练:
步骤S31:初始化环境参数和PPO算法参数;其中,
初始化环境参数,包括设置用户分布情况(以确定用户在各服务区域内的分布情况)以及用户的资源请求模型(以确定每一个资源调度周期的用户的资源请求);
初始化PPO算法参数包括:初始化回合总数epochs和每回合轨迹总数episode,初始化全局奖励函数;初始化每一智能体的经验池及其最大容量
Figure SMS_206
(所有智能体的经验池的最大容量相同),以及,每一智能体的Actor网络的网络参数和Critic网络的网络参数;其中,Actor网络对应私有资源分配策略,Critic网络对应值函数;
步骤S32:在每一次回合,清空所有智能体的经验池,并重置经验池的容量
Figure SMS_207
;然后,执行episode次轨迹更新,将每一智能体获得的episode条轨迹信息存入各自的经验池;
在执行每次轨迹更新过程中,执行:
各智能体分别从环境中获取相应服务区域的局部观测状态,各智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作;将所有智能体的联合动作
Figure SMS_208
作用于环境,更新各服务区域的局部观测状态;
由全局奖励函数计算多智能体的全局奖励
Figure SMS_209
,将每个智能体得到的轨迹信息
Figure SMS_210
存入各自智能体的经验池PPO Buffer中;其中,/>
Figure SMS_211
、/>
Figure SMS_212
分别表示服务区域/>
Figure SMS_213
在/>
Figure SMS_214
时刻的局部观测状态、动作;
基于更新后的各服务区域的局部观测状态,执行下一次轨迹更新过程,获取并储存下一次轨迹更新的轨迹信息;
因此,执行完episode次轨迹更新后,每个智能体可获得episode条轨迹信息。
当存储的经验数据(即轨迹信息的条数)达到经验池的最大容量时,则停止与环境互动,利用经验池中存储的经验数据计算Actor网络和Critic网络的损失函数,更新网络参数。
步骤S33:每一智能体分别根据经验池中存储的所有轨迹信息计算优势函数及Critic网络的损失函数,并更新Critic网络的网络参数;还分别根据经验池中存储的所有轨迹信息计算Actor网络的损失函数,更新Actor网络的网络参数;
步骤S34:重复执行多个回合的轨迹更新(即重复执行步骤S32和步骤S34),直至所有智能体的Actor网络和Critic网络的状态均收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的分布式资源调度模型。
步骤S4:当接收到用户的可用资源请求时,基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。
基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,执行:
智能体基于相应服务区域的外环用户的私有资源请求,生成相应服务区域的局部观测状态;具体地,智能体基于相应服务区域及其相邻服务区域的外环用户的私有资源请求(即外环用户请求的私有资源的总数)生成相应服务区域的私有资源需求矩阵,组合相应服务区域的私有资源需求矩阵和私有资源占用矩阵,生成相应服务区域的局部观测状态。
生成相应服务区域的局部观测状态;智能体的Actor网络处理相应服务区域的局部观测状态,生成相应的动作;智能体根据生成的动作,实现空间飞行信息系统中相应服务区域的外环用户的私有资源调度。
在该过程中,各个智能体分布式实施相应服务区域的外环用户的私有资源调度。
智能体对各服务区域的内圆用户的公共资源请求进行按需分配,实现空间飞行信息系统中相应服务区域的内圆用户的公共资源调度。
由于数字孪生体系统和相应的空间飞行信息系统存在映射关系,因此,响应用户的资源请求的资源调度,可以直接作用到数字孪生体系统所映射的空间飞行信息系统中,以实现空间飞行信息系统的资源调度。
实施例2
为了进一步说明实施例1中技术方案的有益效果,以下进一步对本实施例所提出的方法进行仿真分析验证。仿真参数设置如表1所示。
表1 仿真参数设置
Figure SMS_215
(1)算法收敛性分析
本实施例首先对所提方法收敛性进行分析。环境一共包括三个服务区域,智能体为3个。为了实现多智能间的完全合作,算法在训练阶段所有智能体共享同一个奖励函数。仿真中总共对多智能体进行1000个回合的训练,其中每个回合由5条轨迹组成,每一条轨迹包含400个step。图4所示为每回合累计奖励收敛性能图。
从图4可以看出,随着训练回合数的增加,智能体每回合累计奖励值逐渐上升,最后趋于稳定。根据全局奖励函数的设计可知,多智能的奖励值代表了系统的资源请求满意度公平性,所以随着训练回合数的增加,系统的资源请求满意度公平性也在不断上升,最终趋于稳定。进一步分析可知,大约在500回合以后,每回合累计奖励值稳定在1750左右,而每回合由2000个step组成,所以每个step的平均奖励值约为0.875,即每个step的平均资源请求满意度公平性为0.85。这说明随着智能体不断地学习,系统的公平性逐渐上升且稳定在一个较高的值,可认定多智能体已逐渐学得最优策略,即算法逐渐稳定收敛。
(2)性能仿真分析
仿真中选取的性能对比算法为传统的“内圆外环分区资源调度算法”。为了充分验证本发明所提出的算法性能,在不同的用户分布情况以及不同的业务强度下对上述算法的系统资源使用效率进行仿真分析。
性能仿真过程中,PPO算法的各个智能体神经网络不再更新,而是加载已经收敛到最优策略的神经网络参数。资源使用效率为10s内的数据做平均,即统计多智能体与环境交互10000个step的数据。仿真中设置每个服务区域内16个用户,为了使仿真更符合实际情况,设置了在服务区域用户非均匀分布情况下,对算法进行仿真验证分析。
用户在服务区域间非均匀分布,仿真得到的系统资源使用效率随着业务强度的增大而变化的曲线如图5所示。
从图5中可以看出,对于服务区域间用户非均匀分布的情形,本实施例所提的方法在系统资源效率上优于传统的“内圆、外环分区资源调度算法”。具体来说,当业务强度大于0.93时,所提方法的用户资源使用效率稳定在1.3 bit/s/单位资源左右,而传统的“内圆外环分区资源调度算法”的用户资源使用效率维持在1.1bit/s/单位资源左右,性能提升约为18.8%。
当业务强度较小时,各类算法的资源使用性能相差不大。当业务强度较大时,对于用户非均匀分布的情况,算法提升用户的资源使用效率性能更加明显,由此可见,本实施例所提方法具有较好的用户资源使用效率性能。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于多智能体的分布式资源调度方法,其特征在于,包括:
将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有可用资源、服务区域及服务区域内的用户;所述服务区域内的用户分为外环用户和内圆用户;所述可用资源分为私有资源和公共资源;
为数字孪生体中的每一服务区域分配一个智能体,将所有智能体对相应服务区域的外环用户的私有资源调度过程进行分布式建模,得到建模后的分布式资源调度模型;
对建模后的分布式资源调度模型进行训练,得到训练后的分布式资源调度模型;
当接收到用户的可用资源请求时,基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。
2.根据权利要求1所述的基于多智能体的分布式资源调度方法,其特征在于,建模后的分布式资源调度模型包括:每一服务区域的局部观测状态,每一服务区域的动作,所有服务区域的全局奖励函数;其中,
服务区域的局部观测状态,包括私有资源需求矩阵和私有资源占用矩阵;
服务区域的动作,指该服务区域的外环用户的私有资源的分配策略;
所有服务区域的全局奖励函数
Figure QLYQS_1
表示为:
Figure QLYQS_2
(1)
其中,
Figure QLYQS_3
表示服务区域/>
Figure QLYQS_4
的外环用户的资源请求满意度,/>
Figure QLYQS_5
表示所有服务区域的总数。
3.根据权利要求2所述的基于多智能体的分布式资源调度方法,其特征在于,服务区域
Figure QLYQS_6
的外环用户的资源请求满意度/>
Figure QLYQS_7
为:
Figure QLYQS_8
(2)
其中,
Figure QLYQS_9
表示服务区域/>
Figure QLYQS_10
自主选择的私有资源的总数,/>
Figure QLYQS_11
表示服务区域/>
Figure QLYQS_12
的外环用户
Figure QLYQS_13
请求的私有资源的总数,/>
Figure QLYQS_14
表示服务区域/>
Figure QLYQS_15
的外环用户集合。
4.根据权利要求2所述的基于多智能体的分布式资源调度方法,其特征在于,服务区域
Figure QLYQS_16
的局部观测状态/>
Figure QLYQS_17
表示为:
Figure QLYQS_18
(3)
服务区域
Figure QLYQS_19
的私有资源需求矩阵/>
Figure QLYQS_20
表示为:
Figure QLYQS_21
(4)
其中,
Figure QLYQS_23
表示服务区域/>
Figure QLYQS_26
的所有外环用户请求的私有资源的总数,/>
Figure QLYQS_28
表示服务区域/>
Figure QLYQS_24
的相邻服务区域/>
Figure QLYQS_27
的所有外环用户请求的私有资源的总数,/>
Figure QLYQS_29
的取值为1到/>
Figure QLYQS_30
,/>
Figure QLYQS_22
表示服务区域/>
Figure QLYQS_25
的相邻服务区域的总数;
服务区域
Figure QLYQS_31
的私有资源占用矩阵/>
Figure QLYQS_32
表示为:
Figure QLYQS_33
(5)
其中,
Figure QLYQS_35
;/>
Figure QLYQS_38
表示私有资源集合中的第/>
Figure QLYQS_40
个私有资源被服务区域/>
Figure QLYQS_36
或服务区域/>
Figure QLYQS_37
的相邻服务区域占用,/>
Figure QLYQS_39
表示私有资源集合中的第/>
Figure QLYQS_41
个私有资源空闲;/>
Figure QLYQS_34
表示私有资源集合中的私有资源的总数。
5.根据权利要求4所述的基于多智能体的分布式资源调度方法,其特征在于,对建模后的分布式资源调度模型进行如下训练:
初始化环境参数和PPO算法参数;其中,初始化PPO算法参数包括:初始化回合总数epochs和每回合轨迹总数episode,初始化全局奖励函数;初始化每一智能体的经验池及其最大容量,以及,每一智能体的Actor网络的网络参数及Critic网络的网络参数;
在每一次回合,清空所有智能体的经验池,并重置经验池的容量为0;然后,执行episode次轨迹更新,将每一智能体获得的episode条轨迹信息存入各自的经验池;
每一智能体分别根据自身的经验池中存储的所有轨迹信息计算优势函数及Critic网络的损失函数,更新Critic网络的网络参数;还根据经验池中存储的所有轨迹信息计算Actor网络的损失函数,更新Actor网络的网络参数;
重复执行多个回合的轨迹更新,直至所有智能体的Actor网络和Critic网络的状态均收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的分布式资源调度模型。
6.根据权利要求5所述的基于多智能体的分布式资源调度方法,其特征在于,在执行每次轨迹更新过程中,执行:
各智能体分别从环境中获取相应服务区域的局部观测状态,各智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作;将所有智能体的联合动作
Figure QLYQS_42
作用于环境,更新各服务区域的局部观测状态;
由全局奖励函数计算多智能体的全局奖励
Figure QLYQS_43
,将每个智能体得到的轨迹信息/>
Figure QLYQS_44
存入各自智能体的经验池中;其中,/>
Figure QLYQS_45
、/>
Figure QLYQS_46
分别表示服务区域/>
Figure QLYQS_47
在/>
Figure QLYQS_48
时刻的局部观测状态、动作;
基于更新后的各服务区域的局部观测状态,执行下一次轨迹更新过程,获取并储存下一次轨迹更新的轨迹信息。
7.根据权利要求6所述的基于多智能体的分布式资源调度方法,其特征在于,根据各服务区域彼此之间的相邻关系,对所有服务区域的动作顺序进行分类;其中,同一类别的服务区域之间彼此不相邻;此时,在对建模后的分布式资源调度模型进行训练的每个资源调度周期,各类服务区域的智能体按照动作时间先后顺序有序动作;
每类服务区域的智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作,执行:
智能体根据接收到的其他类别的服务区域的局部观测状态,构造相应服务区域的局部观测状态;
智能体的Actor网络对相应服务区域的局部观测状态做出动作,将动作映射形成相应服务区域的更新后的私有资源占用矩阵;
智能体组合相应服务区域的私有资源需求矩阵和更新后的私有资源占用矩阵,得到相应服务区域更新后的局部观测状态,并通过接口传递给其他类别的服务区域。
8.根据权利要求7所述的基于多智能体的分布式资源调度方法,其特征在于,智能体根据接收到的其他类别的服务区域的局部观测状态,构造对应服务区域的局部观测状态,执行:
智能体根据接收到的相邻的其他类别的服务区域的所有外环用户请求的私有资源的总数,确定智能体对应的服务区域在本次资源调度周期的私有资源需求矩阵;
智能体根据接收到的相邻的其他类别的服务区域的私有资源占用矩阵,以及自身上次资源调度周期的私有资源占用矩阵,确定智能体对应的服务区域在本次资源调度周期的私有资源占用矩阵;
智能体组合对应的服务区域在本次资源调度周期的私有资源需求矩阵和私有资源占用矩阵,构造对应服务区域的局部观测状态。
9.根据权利要求8所述的基于多智能体的分布式资源调度方法,其特征在于,在对建模后的分布式资源调度模型进行训练的第一个资源调度周期,规定第一类服务区域的私有资源占用矩阵为全零矩阵;第一类服务区域的智能体的动作时间顺序排第一。
10.根据权利要求9所述的基于多智能体的分布式资源调度方法,其特征在于,所述用户的可用资源请求分为外环用户的私有资源请求和内圆用户的公共资源请求;
所述基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度,包括:
智能体基于相应服务区域的外环用户的私有资源请求,生成相应服务区域的局部观测状态;智能体的Actor网络处理相应服务区域的局部观测状态,生成相应的动作;智能体根据生成的动作,实现空间飞行信息系统中相应服务区域的外环用户的私有资源调度。
CN202310593655.3A 2023-05-25 2023-05-25 一种基于多智能体的分布式资源调度方法 Active CN116306324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310593655.3A CN116306324B (zh) 2023-05-25 2023-05-25 一种基于多智能体的分布式资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310593655.3A CN116306324B (zh) 2023-05-25 2023-05-25 一种基于多智能体的分布式资源调度方法

Publications (2)

Publication Number Publication Date
CN116306324A true CN116306324A (zh) 2023-06-23
CN116306324B CN116306324B (zh) 2023-07-25

Family

ID=86818952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310593655.3A Active CN116306324B (zh) 2023-05-25 2023-05-25 一种基于多智能体的分布式资源调度方法

Country Status (1)

Country Link
CN (1) CN116306324B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331706A (zh) * 2023-12-01 2024-01-02 国网江苏省电力有限公司南通供电分公司 一种电力数据维护中的算力优化方法及系统
CN117648123A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 一种微服务快速集成方法、系统、设备及存储介质
CN117724858A (zh) * 2024-02-18 2024-03-19 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质
CN117648123B (zh) * 2024-01-30 2024-06-11 中国人民解放军国防科技大学 一种微服务快速集成方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021108680A1 (en) * 2019-11-25 2021-06-03 Strong Force Iot Portfolio 2016, Llc Intelligent vibration digital twin systems and methods for industrial environments
CN114897447A (zh) * 2022-07-12 2022-08-12 北京智芯微电子科技有限公司 综合能源协同控制方法及系统
CN114970080A (zh) * 2022-03-24 2022-08-30 郑州英集动力科技有限公司 基于多智能体调节成本一致性的多区域协同供热调度方法
CN116156563A (zh) * 2023-01-31 2023-05-23 中国科学院沈阳自动化研究所 基于数字孪生的异构任务与资源端边协同调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021108680A1 (en) * 2019-11-25 2021-06-03 Strong Force Iot Portfolio 2016, Llc Intelligent vibration digital twin systems and methods for industrial environments
CN114970080A (zh) * 2022-03-24 2022-08-30 郑州英集动力科技有限公司 基于多智能体调节成本一致性的多区域协同供热调度方法
CN114897447A (zh) * 2022-07-12 2022-08-12 北京智芯微电子科技有限公司 综合能源协同控制方法及系统
CN116156563A (zh) * 2023-01-31 2023-05-23 中国科学院沈阳自动化研究所 基于数字孪生的异构任务与资源端边协同调度方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331706A (zh) * 2023-12-01 2024-01-02 国网江苏省电力有限公司南通供电分公司 一种电力数据维护中的算力优化方法及系统
CN117331706B (zh) * 2023-12-01 2024-02-13 国网江苏省电力有限公司南通供电分公司 一种电力数据维护中的算力优化方法及系统
CN117648123A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 一种微服务快速集成方法、系统、设备及存储介质
CN117648123B (zh) * 2024-01-30 2024-06-11 中国人民解放军国防科技大学 一种微服务快速集成方法、系统、设备及存储介质
CN117724858A (zh) * 2024-02-18 2024-03-19 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质
CN117724858B (zh) * 2024-02-18 2024-05-28 天津先进技术研究院 地理空间分析模型调度方法、装置、设备及介质

Also Published As

Publication number Publication date
CN116306324B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN116306324B (zh) 一种基于多智能体的分布式资源调度方法
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
Wang et al. Dependent task offloading for edge computing based on deep reinforcement learning
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
Van Der Schaar et al. Spectrum access games and strategic learning in cognitive radio networks for delay-critical applications
Qi et al. Scalable parallel task scheduling for autonomous driving using multi-task deep reinforcement learning
CN111770454A (zh) 移动群智感知中位置隐私保护与平台任务分配的博弈方法
CN113407249B (zh) 一种面向位置隐私保护的任务卸载方法
CN111813539A (zh) 一种基于优先级与协作的边缘计算资源分配方法
CN116302569B (zh) 一种基于用户请求信息的资源分区智能化调度方法
CN113037876A (zh) 基于合作博弈的云下行任务边缘节点资源分配方法
Qi et al. Vehicular edge computing via deep reinforcement learning
Zamzam et al. Game theory for computation offloading and resource allocation in edge computing: A survey
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
Fu et al. Toward energy-efficient UAV-assisted wireless networks using an artificial intelligence approach
Wang et al. Joint service caching, resource allocation and computation offloading in three-tier cooperative mobile edge computing system
CN114375058A (zh) 任务队列感知的边缘计算实时信道分配和任务卸载方法
CN113032149B (zh) 基于演化博弈的边缘计算服务放置和请求分配方法及系统
CN112312299A (zh) 服务卸载方法、装置及系统
CN116467069A (zh) 基于ppo算法的空间飞行信息系统资源调度方法及系统
CN115361453B (zh) 一种面向边缘服务网络的负载公平卸载与迁移方法
Xin et al. Spectrum allocation of cognitive radio network based on improved cuckoo search algorithm
CN116321189A (zh) 一种面向边缘计算中基于深度强化学习的服务器部署方法
Bao et al. QoS Preferences Edge User Allocation Using Reinforcement Learning
CN113242556B (zh) 一种基于差异化服务的无人机资源动态部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant