CN116306324A

CN116306324A - 一种基于多智能体的分布式资源调度方法

Info

Publication number: CN116306324A
Application number: CN202310593655.3A
Authority: CN
Inventors: 杨以杰; 杨振亚
Original assignee: Pera Corp Ltd
Current assignee: Pera Corp Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-23
Anticipated expiration: 2043-05-25
Also published as: CN116306324B

Abstract

本发明涉及资源调度领域，尤其涉及一种基于多智能体的分布式资源调度方法，解决了现有分布式资源调度方法存在的服务区域之间干扰严重、系统容量下降的问题。该方法包括：将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的可用资源、服务区域及其用户；为数字孪生体中的每一服务区域分配一个智能体，将所有智能体对相应服务区域的外环用户的私有资源调度过程进行分布式建模及训练，得到训练后的分布式资源调度模型；当接收到用户的可用资源请求时，基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度，基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。

Description

一种基于多智能体的分布式资源调度方法

技术领域

本发明涉及资源调度技术领域，尤其涉及一种基于多智能体的分布式资源调度方法。

背景技术

继移动互联网之后，面向未来元宇宙的虚拟世界将再一次拉近人类之间的距离，用数字化的形式消除地理与空间的隔阂。元宇宙社会中，物理世界的自然人、机器人和虚拟世界中的虚拟人三者共融共生。元宇宙的发展将会在数字孪生体的基础上，实现虚拟原生、虚实共生、虚实联动等越来越深入的虚拟世界和物理世界的交互。随着发展阶段的演进，虚拟世界和物理世界之间的连接和联动将会越来越智能化。

因此，随着虚拟世界中的数字孪生体智能化程度越来越高，将会在当前人工智能技术发展引领下，将“智能体”这一概念演进地越来越丰富，最终发展实现元宇宙的“虚拟人”及其相关的虚拟属性。同时，元宇宙中物理世界和虚拟世界之间越来越深入和频繁的交互，将会为虚拟世界的“智能体”更多地从物理世界的“环境”中进行学习，自动形成其与物理世界相一致的数字孪生体形态和功能特征。

元宇宙所包含的物理世界及虚拟世界中的系统运行过程中，可用的资源是有限的，即使使用了先进的技术，如果不进行合理的资源调度，也很大可能无法发挥先进技术的优势。资源调度是通过在有限的资源池内调度资源，为日益增长的系统应用业务服务。作为物理世界模拟的虚拟世界中的数字孪生体，需要通过对资源调度的真实物理系统进行真实复现，并优化调度方法，仿真形成可用于物理实体中的策略，是合理使用物理世界资源、提高系统性能和改善应用体验的关键。

资源调度方式需要实现在什么时刻、在哪些可用资源上、采用怎样的技术、为哪些应用分配资源。理想的资源调度希望在追求系统容量最大化的基础上保证应用用户的公平性，同时还能够满足不同用户的服务质量要求。

调度功能需要及时根据物理世界中实际环境的变化、不同的应用业务类型服务质量保障等需求对参数和策略作出调整。由于很难通过统一模型对物理世界的资源需求情况进行建模，这就需要基于智能化思想对调度方法进行动态调整。

随着近年来人工智能的快速发展，机器学习成为业界关注的热点。强化学习是机器学习中的一种，在强化学习中，智能体可以通过与环境之间的交互寻找到累积奖励最大的动作策略。而数字孪生体所在模拟物理世界实体网络时，具有实时的感知能力，为强化学习提供了实时的环境交互，在此基础上可以通过强化学习实现对资源的动态管理与调度。

在每个决策周期，资源调度算法通常根据用户的资源质量状态、可用的资源以及业务间的优先级等信息，将资源在多个用户间进行调度。虽然在不同场景下，由于资源调度的优化目标不同，采用的调度策略并不固定，但是资源调度算法设计考虑的因素大多是一致的。在实际系统中，应用最为广泛的资源调度方案主要有三类：第一类以获得系统容量为首要任务，不考虑边缘用户的业务服务质量；第二类以用户间的公平性为目标，没有从整个系统的角度来考虑系统容量性能；第三类是对于系统容量与公平性的折中，在保证一定用户公平性的基础上对系统容量性能进行优化。

三种方案对应的具体调度算法分别是轮询算法、最大容量算法和比例公平算法。以下简要介绍这三种常用的资源调度算法，为本发明设计的基于多智能体的分布式资源调度方案提供对比参考。

（1）轮询算法

轮询算法只追求系统的公平性，不考虑调度优先级，也不考虑用户间需求量的差异。在每个调度时刻，轮询算法按照用户的请求顺序将可用资源均等地分配给各个用户，如果可用资源的数量多于请求用户的数量，则可以在同一调度时刻中满足各个用户；如果可用资源的数量少于用户的数量，则并非所有的用户都能够在当前调度时刻得到可用资源，那么，在下一调度时刻，可用资源的分配将从上一时刻第一个未分配的用户开始。

轮询算法可以保证每个用户的最小传输量，实现资源调度公平性的上界。但其缺点在于没有对业务等级、资源质量等因素进行分析，实际情况中可能会出现两方面问题：一方面，由于所有用户的优先级没有区别，实时业务无法获得更优先的服务，业务质量无法保证；另一方面，由于传输条件较差的用户也能获得资源，在动态变化的物理世界实体环境中资源利用效率会降低，系统容量也会有不同程度的损失。

（2）最大容量算法

最大容量算法将系统的传输量作为优化目标，依据用户的传输条件质量状况对每个请求用户进行排序，优先给传输条件质量好的用户分配资源。假设在

时刻，有/>

个用户需要进行通信，对于可用资源/>

来说，用户/>

测量到的容量为/>

，那么可用资源/>

的调度用户优先级计算如下式，如果有不同的用户具有相同的容量时，可用资源会分配给先请求的用户。

实际场景中，每个用户的分布具有随机性，接收到的信号强度会有所差异。在任意时刻，最大容量算法只倾向于传输条件质量好的用户，而边缘用户由于传输条件较差，接受服务的概率会相对变小。在面向所有应用终端高可靠性的需求下，这种贪婪式的算法是不合理的，实际中只能用作获得系统容量的最大值。

以上两种算法体现了资源调度算法在追求公平性与最大化系统容量的两个极端，可基于此对其他调度算法进行评估。

（3）比例公平算法

比例公平算法兼顾了系统容量与用户公平性，在调度优先级规则中利用传输条件质量的当前状况和过去一段时间内的系统容量性能作为参考因素，在公平性和系统容量之间取得了一定程度的折中。

假设在时刻

，有/>

个用户发起业务请求，对于可用资源/>

来说，用户/>

的瞬时传输量为/>

，用户/>

在过去一段时间内的平均传输量为/>

，那么可用资源/>

的用户优先级计算如下式：

，

其中，

的更新公式为：

，

在上式中，

为滑动时间窗，可用来调节比例公平算法对于系统容量与公平性的侧重，/>

的值越大越注重公平性，值越小越注重系统容量。可以看出，如果某用户长期处于传输条件质量差的环境，则/>

的值会变小，使得调度的优先级变高；如果某用户连续获得资源，则/>

会逐渐变大，优先级则相应变低。

比例公平算法满足了传输条件质量较好的用户对于大容量业务的需求，同时还考虑了传输条件质量较差的用户的传输容量，是许多资源调度算法设计的基础。

此外，针对数字孪生体所模拟的物理世界中服务区域间用户非均匀分布以及用户业务请求的动态变化，导致数字孪生体系统模拟的资源使用效率有限的问题，需要以动态调整资源复用的方式来提高系统资源使用效率。

常用的动态调整资源复用方法可分为集中式资源调度方法和分布式资源调度方法。

对于集中式资源调度，需要在数字孪生体中建模模拟一个更高层次的中心节点收集各个服务区域的信息，然后由中心节点根据全局信息统一的对资源进行分配，以协调各个服务区域对系统资源的使用，降低服务区域之间的干扰。在这种方式下，由于各服务区域不具备自主决策的能力，对中心节点的资源调度能力提出了更高的要求，若中心节点的资源调度能力较差，容易使得服务区域的资源调度结果与其资源使用需求匹配度差。

分布式资源调度不同于集中式资源调度，不再需要更高层次的中心节点来进行集中优化决策，而是各个服务区域根据自身的局部观测空间自适应调整各服务区域的边缘资源，降低服务区域间干扰，实现服务区域边缘用户性能的提升。但是，由于没有中心节点统一的对资源进行分配，所以每一个服务区域为了最大化本服务区域的系统容量，都会贪婪的使用系统的全部可用资源，这样就会增加服务区域之间的干扰，反而使得系统容量下降。所以对于分布式资源调度，每个服务区域如何根据自身的局部观测状态，自主、合理的选择可用资源，是亟需解决的技术问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于多智能体的分布式资源调度方法，用以解决现有分布式资源调度方法存在的服务区域之间干扰严重、系统容量下降的问题。

本发明公开了一种基于多智能体的分布式资源调度方法，包括：

将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的所有可用资源、服务区域及服务区域内的用户；所述服务区域内的用户分为外环用户和内圆用户；所述可用资源分为私有资源和公共资源；

为数字孪生体中的每一服务区域分配一个智能体，将所有智能体对相应服务区域的外环用户的私有资源调度过程进行分布式建模，得到建模后的分布式资源调度模型；

对建模后的分布式资源调度模型进行训练，得到训练后的分布式资源调度模型；

当接收到用户的可用资源请求时，基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度，基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。

在上述方案的基础上，本发明还做出了如下改进：

进一步，建模后的分布式资源调度模型包括：每一服务区域的局部观测状态，每一服务区域的动作，所有服务区域的全局奖励函数；其中，

服务区域的局部观测状态，包括私有资源需求矩阵和私有资源占用矩阵；

服务区域的动作，指该服务区域的外环用户的私有资源的分配策略；

所有服务区域的全局奖励函数

表示为：

（1）

其中，

表示服务区域/>

的外环用户的资源请求满意度，/>

表示所有服务区域的总数。

进一步，服务区域

的外环用户的资源请求满意度/>

为：

（2）

其中，

表示服务区域/>

自主选择的私有资源的总数，/>

表示服务区域/>

的外环用户/>

请求的私有资源的总数，/>

表示服务区域/>

的外环用户集合。

进一步，服务区域

的局部观测状态/>

表示为：

（3）

服务区域

的私有资源需求矩阵/>

表示为：

（4）

其中，

表示服务区域/>

的所有外环用户请求的私有资源的总数，/>

表示服务区域/>

的相邻服务区域/>

的所有外环用户请求的私有资源的总数，/>

的取值为1到/>

，/>

表示服务区域/>

的相邻服务区域的总数；

服务区域

的私有资源占用矩阵/>

表示为：

（5）

其中，

；/>

表示私有资源集合中的第/>

个私有资源被服务区域/>

或服务区域/>

的相邻服务区域占用，/>

表示私有资源集合中的第/>

个私有资源空闲；

表示私有资源集合中的私有资源的总数。

进一步，对建模后的分布式资源调度模型进行如下训练：

初始化环境参数和PPO算法参数；其中，初始化PPO算法参数包括：初始化回合总数epochs和每回合轨迹总数episode，初始化全局奖励函数；初始化每一智能体的经验池及其最大容量，以及，每一智能体的Actor网络的网络参数及Critic网络的网络参数；

在每一次回合，清空所有智能体的经验池，并重置经验池的容量为0；然后，执行episode次轨迹更新，将每一智能体获得的episode条轨迹信息存入各自的经验池；

每一智能体分别根据自身的经验池中存储的所有轨迹信息计算优势函数及Critic网络的损失函数，更新Critic网络的网络参数；还根据经验池中存储的所有轨迹信息计算Actor网络的损失函数，更新Actor网络的网络参数；

重复执行多个回合的轨迹更新，直至所有智能体的Actor网络和Critic网络的状态均收敛，或者，达到回合总数epoch，结束训练过程，最后得到训练后的分布式资源调度模型。

进一步，在执行每次轨迹更新过程中，执行：

各智能体分别从环境中获取相应服务区域的局部观测状态，各智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作；将所有智能体的联合动作

作用于环境，更新各服务区域的局部观测状态；

由全局奖励函数计算多智能体的全局奖励

，将每个智能体得到的轨迹信息

存入各自智能体的经验池中；其中，/>

、/>

分别表示服务区域/>

在/>

时刻的局部观测状态、动作；

基于更新后的各服务区域的局部观测状态，执行下一次轨迹更新过程，获取并储存下一次轨迹更新的轨迹信息。

进一步，根据各服务区域彼此之间的相邻关系，对所有服务区域的动作顺序进行分类；其中，同一类别的服务区域之间彼此不相邻；此时，在对建模后的分布式资源调度模型进行训练的每个资源调度周期，各类服务区域的智能体按照动作时间先后顺序有序动作；

每类服务区域的智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作，执行：

智能体根据接收到的其他类别的服务区域的局部观测状态，构造相应服务区域的局部观测状态；

智能体的Actor网络对相应服务区域的局部观测状态做出动作，将动作映射形成相应服务区域的更新后的私有资源占用矩阵；

智能体组合相应服务区域的私有资源需求矩阵和更新后的私有资源占用矩阵，得到相应服务区域更新后的局部观测状态，并通过接口传递给其他类别的服务区域。

进一步，智能体根据接收到的其他类别的服务区域的局部观测状态，构造对应服务区域的局部观测状态，执行：

智能体根据接收到的相邻的其他类别的服务区域的所有外环用户请求的私有资源的总数，确定智能体对应的服务区域在本次资源调度周期的私有资源需求矩阵；

智能体根据接收到的相邻的其他类别的服务区域的私有资源占用矩阵，以及自身上次资源调度周期的私有资源占用矩阵，确定智能体对应的服务区域在本次资源调度周期的私有资源占用矩阵；

智能体组合对应的服务区域在本次资源调度周期的私有资源需求矩阵和私有资源占用矩阵，构造对应服务区域的局部观测状态。

进一步，在对建模后的分布式资源调度模型进行训练的第一个资源调度周期，规定第一类服务区域的私有资源占用矩阵为全零矩阵；第一类服务区域的智能体的动作时间顺序排第一。

进一步，所述用户的可用资源请求分为外环用户的私有资源请求和内圆用户的公共资源请求；

所述基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度，包括：

智能体基于相应服务区域的外环用户的私有资源请求，生成相应服务区域的局部观测状态；智能体的Actor网络处理相应服务区域的局部观测状态，生成相应的动作；智能体根据生成的动作，实现空间飞行信息系统中相应服务区域的外环用户的私有资源调度。

与现有技术相比，本发明至少可实现如下有益效果之一：

本发明提供的基于多智能体的分布式资源调度方法，通过将服务区域中的用户划分为内圆用户和外环用户，并对内圆用户和外环用户采用不同的资源调度方式，有效优化了资源调度过程。

同时，为克服相邻服务区域的外环用户之间的相互干扰，本发明创造性地提出了多智能体集中训练、分布式实施调度的分布式资源调度模型，从而优化了外环用户之间的资源调度过程，有效提升了整个系统的系统容量，为实际实施资源调度提供了很好的技术指导。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例1提供的基于多智能体的分布式资源调度方法的流程图；

图2为本发明实施例1提供的分布式资源调度模型的整体框架；

图3为本发明实施例1提供的服务区域的分类示意图；

图4为本发明实施例2提供的每回合累计奖励收敛性能图；

图5为本发明实施例2提供的系统资源使用效率随着业务强度的增大而变化的曲线。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于多智能体的分布式资源调度方法，流程图如图1所示，包括如下步骤：

步骤S1：将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的所有可用资源、服务区域及服务区域内的用户；所述服务区域内的用户分为外环用户和内圆用户。

空间飞行信息系统是由分布在空间中的多个飞行器作为资源提供方、以分布在多个服务区域内的地面用户作为资源使用方的信息系统。具体地，资源提供方用于提供可用资源。服务区域为面向用户实现某类业务功能的一个或多个、使用不同可用资源的区域。用户为随机接入服务区域、并使用资源提供方提供的可用资源的业务请求方。

将空间飞行信息系统映射成数字孪生体系统过程中，将空间飞行信息系统中的可用资源映射成数字孪生体系统中的可用资源；将空间飞行信息系统中的服务区域映射成数字孪生体系统中的服务区域；将空间飞行信息系统中的用户映射成数字孪生体系统中的用户，从而形成数字孪生体系统。

在本实施例中，每个服务区域均被划分为服务区域内圆和服务区域外环。其中，服务区域内圆是指服务区域中不与其他服务区域交叠的区域，服务区域外环是指服务区域中与其他服务区域交叠的区域。根据用户在各服务区域内所处位置的不同，可以将服务区域中的用户划分为内圆用户和外环用户。即，将处于服务区域内圆的用户划分为内圆用户，将处于服务区域外环的用户划分为外环用户。

步骤S2：为数字孪生体中的每一服务区域分配一个智能体，将所有智能体对相应服务区域的外环用户的资源调度过程进行分布式建模，得到建模后的分布式资源调度模型。

在数字孪生体系统中，服务区域集合

，其中，/>

表示服务区域的总数。可用资源集合/>

，其中，/>

表示可用资源的总数。

在本实施例的资源复用设计方案中，将可用资源集合

划分为公共资源集合

和私有资源集合/>

。其中，/>

且/>

。将公共资源集合中的可用资源定义为公共资源，公共资源用作服务区域中内圆用户的资源调度，传输功率较低。将私有资源集合中的可用资源定义为私有资源，私有资源用作服务区域中外环用户的资源调度，并与其它服务区域的私有资源共用，若干个不同的私有资源在多个服务区域的外环之间进行复用，传输功率较高。

需要说明的是，在本实施例的数字孪生体系统中，所有服务区域的内圆用户共享公共资源集合，所有服务区域的外环用户共享私有资源集合。服务区域

占用的公共资源子集/>

表示为：

（1）

服务区域

占用的私有资源子集/>

分别表示为：

（2）

其中，

表示/>

中的第/>

个公共资源，/>

表示/>

中的公共资源的总数；

表示/>

中的第/>

个私有资源，/>

表示/>

中的私有资源的总数。其中，

，/>

。即，服务区域/>

只能占用全部可用资源中的一部分，其公共资源和私有资源之间不相互干扰。

基于上述可用资源的划分可知，服务区域

的资源调度方案/>

表示为：

（3）

其中，

，/>

表示可用资源/>

对于服务区域/>

不可用，/>

表示可用资源/>

被划分为服务区域/>

的私有资源使用，/>

表示可用资源/>

被划分为服务区域/>

的公共资源使用。/>

中所有取值为1的元素对应的可用资源汇总得到服务区域/>

占用的私有资源子集/>

，即服务区域/>

的外环用户的资源调度方案；/>

中所有取值为2的元素对应的可用资源汇总得到服务区域/>

占用的公共资源子集/>

，即服务区域/>

的内圆用户的资源调度方案。

数字孪生体系统中所有服务区域的资源调度方案构成了整个数字孪生体系统的资源调度方案

，/>

表示为：

（4）

需要说明的是，在本实施例中，由于各个服务区域中的内圆用户之间不存在任何干扰，因此，多个服务区域可以同时使用相同的公共资源。同时，由于预留了公共资源集合，每一智能体利用公共资源集合，对相应服务区域的内圆用户的资源请求进行按需分配。也就是说，智能体的资源调度过程中，对于公共资源不再进行分配，仅对私有资源集合进行分配，这可以减小智能体的动作空间。

在本实施例提出的分布式动态资源调度中，在每一个资源调度周期，各个智能体根据自身的局部观测状态自主、动态地给出相应服务区域的外环用户的资源调度方案，并对内圆用户的资源请求进行按需分配后得到相应服务区域的内圆用户的资源调度方案。汇总服务区域的内圆用户、外环用户的资源划分方案，即可得到相应服务区域的资源调度方案。汇总所有服务区域的资源调度方案，即可得到如公式（4）所示的整个数字孪生体系统的资源调度方案。

需要强调的是，本实施例所提的分布式动态资源调度方式，其主旨是针对服务区域间用户非均匀分布，以及业务请求的动态变化的特性，以增大系统容量，提升服务区域外环用户满意度为目标，完成数字孪生体系统的资源划分。对于这种分布式资源调度模型，由于没有中心节点对资源进行统一分配，所以每一个服务区域为了最大化本服务区域的系统容量，都会贪婪的使用数字孪生体系统中的全部可用资源，这样就会增加服务区域之间的干扰，反而使得系统容量下降。所以对于分布式资源调度，每个服务区域如何根据自身的局部观测状态，自主、合理的选择可用资源，是本实施例所要解决的问题。

上述问题可以转换为：一个服务区域在提升本服务区域外环用户的满意度的同时，不恶化其他服务区域的外环用户的性能。即，可将该问题表述为各个服务区域使用系统资源的公平性问题，即最大化满足各个服务区域的外环用户的资源请求满意度。在此，定义服务区域

的外环用户的资源请求满意度/>

为：

（5）

其中，

表示服务区域/>

自主选择的私有资源的总数，/>

表示服务区域/>

的外环用户/>

请求的私有资源的总数，/>

表示服务区域/>

的外环用户集合。

数字孪生体系统中所有服务区域的外环用户的资源请求满意度的公平性

表示为：

（6）

其中，

。/>

越大，表明数字孪生体系统的资源分配算法的公平性能越好。

基于上述说明可知，本实施例中的优化问题可以建模如公式（7）所示的公平性问题，公式（8）以及公式（9）为约束条件。

（7）

,服务区域/>

，/>

相邻（8）

（9）

其中，公式（7）表示分布式资源调度的目标是最大化数字孪生体系统中所有服务区域的外环用户的资源请求满意度的公平性；约束条件式（8）表示相邻服务区域间的私有资源之间不相互干扰，即，相邻服务区域之间不得占用相同的私有资源；约束条件式（9）表示可用资源是有限的，各个服务区域占用的公共资源子集、私有资源子集的并集不超过数字孪生体系统的可用资源集合，且各个服务区域内的公共资源子集和私有资源子集之间没有交集，不产生干扰。

本实施例设计的分布式资源调度模型的整体框架如图2所示。其中，不同于集中式的资源调度方式，本实施例对数字孪生体系统进行分布式建模，每一个智能体不能获得全局状态

，而是只能获得自身的局部观测状态。即，智能体/>

只能获得自身的局部观测状态

，然后，智能体/>

利用自身的神经网络，依据局部观测状态/>

生成动作/>

。所有智能体的动作组成联合动作/>

作用于环境，随后环境反馈一个奖励/>

，各个智能体根据反馈的奖励完成神经网络参数的优化。

各个智能体在生成资源复用方案时，本质上是对数字孪生体系统中的可用资源的占用，这对于每一个智能体而言都是贪婪的，从而形成智能体之间的竞争博弈。但本实施例从系统整体角度出发，将资源复用方案生成问题转化为多智能体的完全合作任务，通过多智能体在学习过程中共享同一重奖励方案，实现系统资源请求满意度公平性的最大化，但是对于某一个智能体而言可能不是最优。

在分布式资源调度模型中，一个智能体对其他智能体的资源占用情况无从所知，因而，智能体并不知道自己的动作是否影响了其他智能体的资源请求满意度。所以，在分布式资源调度模型的训练阶段，采用多智能体集中式训练方式，训练各个智能体的神经网络参数，得到训练好的神经网络；而在分布式资源调度模型的实施阶段，各个智能体根据各自已经训练好的神经网络，分布式实施各自服务区域的资源调度。也就是说，对于需要密集型计算的训练阶段采用集中式，此时，所有的智能体共享同一个奖励，以最大化共同奖励为目标，每个智能体根据自己的局部观测状态采取动作，多个智能体的动作组成联合动作之后作用于环境，然后，智能体根据环境反馈的奖励调节自身的神经网络参数。当智能体的神经网络参数收敛到最优时，即可得到训练好的神经网络。随后即可以采取分布式的实施，此时各个智能体的神经网络参数不再更新，每个智能体感知自身的局部观测状态，根据训练好的神经网络生成相应动作，进而映射为资源复用方案，完成服务区域之间的资源调度。

不同于单智能体的资源调度方式，在多智能体的资源调度方式中，每个智能体不同的决策会影响整个数字孪生体系统的状态，即，对每个智能体而言，环境不仅取决于自身的动作，也取决于其他智能体的动作，这将会导致环境的不稳定。此外，将竞争博弈转换为合作博弈，关键在于多智能体奖励的设计以及局部观测状态的设计。所以，本实施例的分布式资源调度模型能否收敛以及达到效果，关键在于分布式资源调度模型中的局部观测状态、多智能体动作以及多智能体全局奖励函数的设计。下面具体介绍这三个要素的设计。

（1）状态

在本实施例提供的分布式资源调度模型中，每个智能体根据自身的局部观测状态，自主、智能的选择资源复用方案。在本实施例的具体实施过程中，智能体之间可以进行信息交互，所以对于每个智能体，其局部观测状态不仅包含本服务区域的局部观测状态，还包含数字孪生体系统中其他智能体通过接口分享的局部观测状态。

在本实施例中，定义服务区域

的局部观测状态/>

表示为：

（10）

其中，服务区域

的私有资源需求矩阵/>

表示为：

（11）

其中，

表示服务区域/>

的所有外环用户请求的私有资源的总数，/>

表示服务区域/>

的相邻服务区域/>

的所有外环用户请求的私有资源的总数，/>

的取值为1到/>

，/>

表示服务区域/>

的相邻服务区域的总数。服务区域/>

的相邻服务区域/>

的所有外环用户请求的私有资源的总数通过智能体之间的接口交互获得。

服务区域

的私有资源占用矩阵/>

表示为：

（12）

其中，

；/>

表示私有资源集合/>

中的第/>

个私有资源被服务区域/>

或服务区域/>

的相邻服务区域占用，/>

表示私有资源集合/>

中的第/>

个私有资源空闲。/>

表示私有资源集合/>

中的私有资源的总数。/>

的提取，主要是为了获取私有资源的占用情况，从而避免已经被服务区域/>

或其相邻服务区域占用的私有资源再次被智能体/>

选为私有资源，可以保证相邻服务区域之间私有资源不相互干扰。

对于服务区域

的私有资源占用矩阵/>

，需要获取各个相邻服务区域智能体的动作，从而构造/>

。而相邻服务区域的智能体的动作又依赖于服务区域/>

的动作，这会造成智能体间的相互等待，使得整个数字孪生体系统陷入死锁。为了解决该问题，可以将数字孪生体系统中的所有服务区域的动作顺序进行分类，形成若干类服务区域，并规定各类服务区域的智能体按照时间先后顺序有序地动作。

优选地，在本实施例中，根据各服务区域彼此之间的相邻关系，对所有服务区域的动作顺序进行分类。其中，同一类别的服务区域之间彼此不相邻。此外，由于各服务区域的优先级可能不同，因此，具体实施过程中，将服务区域彼此不相邻、且优先级较高的若干服务区域划分为动作时间顺序靠前的服务区域的类别。将服务区域彼此不相邻、且优先级较低的若干服务区域划分为动作时间顺序靠后的服务区域的类别。

在对建模后的分布式资源调度模型进行训练的每个资源调度周期，各类服务区域的智能体按照动作时间先后顺序有序动作，每类服务区域的智能体的Actor网络根据相应服务区域的局部观测状态输出相应动作，执行：

1）智能体根据接收到的其他类别的服务区域的局部观测状态，构造相应服务区域的局部观测状态；

智能体根据接收到的相邻的其他类别的服务区域的所有外环用户请求的私有资源的总数，确定智能体对应的服务区域在本次资源调度周期的私有资源需求矩阵。需要说明的是，由于在训练阶段的第一个资源调度周期，各类服务区域均不存在私有资源占用矩阵，无法动作。因此，在对建模后的分布式资源调度模型进行训练的第一个资源调度周期，规定第一类服务区域的私有资源占用矩阵为全零矩阵，即，私有资源集合

中所有的私有资源全部可用，以启动第一类服务区域的动作过程。

智能体根据接收到的相邻的其他类别的服务区域的私有资源占用矩阵，以及自身上次资源调度周期的私有资源占用矩阵，确定智能体对应的服务区域在本次资源调度周期的私有资源占用矩阵。

2）智能体的Actor网络对相应服务区域的局部观测状态做出动作，将动作映射形成相应服务区域的更新后的私有资源占用矩阵；

3）智能体组合相应服务区域的私有资源需求矩阵和更新后的私有资源占用矩阵，得到相应服务区域更新后的局部观测状态，并通过接口传递给其他类别的服务区域。

示例性地，服务区域的分类示意图如3所示，在图3中，将服务区域分为三类，其中，同一类别的服务区域之间彼此不相邻。此时，三类服务区域在训练阶段的第一个资源调度周期的动作过程描述如下：

规定系统中第一类服务区域的私有资源占用矩阵为全零矩阵（第一类服务区域的智能体的动作时间顺序排第一），即对于第一类服务区域，所有的资源全部可用。当第一类服务区域根据局部观测状态做出动作后，得到相应服务区域更新后的局部观测状态，并通过接口传递给其他类服务区域。

当第二类服务区域中智能体收到了来自第一类别的服务区域的局部观测状态后，将其构造为局部观测状态，然后根据局部观测状态做出动作，最后通过接口传递给其他类服务区域。

第三类服务区域根据前两类服务区域的资源复用方案构造资源占用矩阵，进而得到局部观测状态，完成自身资源复用方案的更新。自此，系统中所有服务区域完成资源复用方案的更新。

（2）动作设计

在本实施例中，服务区域的动作，指该服务区域的外环用户的私有资源的分配策略。每个智能体的任务就是根据自身的局部观测状态，对服务区域的部分资源复用方案进行合理动态地调整，所以智能体的动作要能映射为资源复用方案。在本实施例中，智能体的动作仅对私有资源集合进行分配，这可以减小智能体的动作空间。智能体

的动作概率分布矩阵/>

可以表示为：

（13）

其中，

表示私有资源集合/>

中的第/>

个私有资源对于智能体/>

不可用的概率，/>

表示私有资源集合/>

中的第/>

个私有资源被智能体/>

选为私有资源的概率。在本实施例中，由于智能体按照服务区域类别按顺序执行相应动作，可以对智能体的非法动作进行屏蔽。因此，即使智能体基于给出的动作概率矩阵直接进行随机性的采样，仍然可以保证所得动作满足相邻服务区域间的私有资源不产生干扰的约束。

（3）全局奖励函数设计

多智能体强化学习中，每个智能体本身的奖励与所有智能体的全局奖励最优不相关，由于多个智能体之间存在竞争关系，奖励的设计影响到学习的结果。本实施例采用了一个全局奖励来代替每个智能体本身的奖励，所有智能体整体优化的目标不是自身的资源使用效率，而是数字孪生体中所有服务区域的外环用户的资源请求满意度的公平性

，全局奖励函数/>

如下所示：

（14）

从公式（14）中可以看出，本实施例设计的全局奖励函数，能够根据每个智能体的私有资源请求状况，合理地分配给其一定的私有资源，最大限度地提升每个智能体对应的服务区域的外环用户的资源请求满意度，即，获得的奖励也越多，也即系统公平性越好。

步骤S3：对建模后的分布式资源调度模型进行训练，得到训练后的分布式资源调度模型。

本实施例中的分布式资源调度模型基于PPO算法实现。依据分布式资源调度模型中对局部观测状态、多智能体动作以及多智能体奖赏收益的设计，并结合分布式资源调度模型的整体框架，设计了本实施例中的分布式资源调度模型的训练方式。在本实施例中，训练流程主要分为四个部分：参数初始化部分、多智能体与环境交互部分、多智能体更新部分以及最后的算法性能评估部分。其中，参数初始化部分主要是对环境的初始化设置以及多智能体神经网络参数的初始化设置。对于多智能体与环境交互部分，主要是每个智能体根据获得的局部观测状态

生成动作/>

，然后所有智能体的动作组成联合动作

作用于环境，完成与环境的互动，并将互动过程中将每个智能体产生的状态、动作和奖励值存入经验池Buffer中。多智能体更新部分，则是利用经验池中存储的数据计算每个智能体的Actor网络和Critic网络的损失函数，然后更新神经网络参数。算法性能评估部分则是根据智能体学习出的最优策略进行相关的性能评估。对建模后的分布式资源调度模型进行如下训练：

步骤S31：初始化环境参数和PPO算法参数；其中，

初始化环境参数，包括设置用户分布情况（以确定用户在各服务区域内的分布情况）以及用户的资源请求模型（以确定每一个资源调度周期的用户的资源请求）；

初始化PPO算法参数包括：初始化回合总数epochs和每回合轨迹总数episode，初始化全局奖励函数；初始化每一智能体的经验池及其最大容量

（所有智能体的经验池的最大容量相同），以及，每一智能体的Actor网络的网络参数和Critic网络的网络参数；其中，Actor网络对应私有资源分配策略，Critic网络对应值函数；

步骤S32：在每一次回合，清空所有智能体的经验池，并重置经验池的容量

；然后，执行episode次轨迹更新，将每一智能体获得的episode条轨迹信息存入各自的经验池；

在执行每次轨迹更新过程中，执行：

作用于环境，更新各服务区域的局部观测状态；

由全局奖励函数计算多智能体的全局奖励

，将每个智能体得到的轨迹信息

存入各自智能体的经验池PPO Buffer中；其中，/>

、/>

分别表示服务区域/>

在/>

时刻的局部观测状态、动作；

基于更新后的各服务区域的局部观测状态，执行下一次轨迹更新过程，获取并储存下一次轨迹更新的轨迹信息；

因此，执行完episode次轨迹更新后，每个智能体可获得episode条轨迹信息。

当存储的经验数据（即轨迹信息的条数）达到经验池的最大容量时，则停止与环境互动，利用经验池中存储的经验数据计算Actor网络和Critic网络的损失函数，更新网络参数。

步骤S33：每一智能体分别根据经验池中存储的所有轨迹信息计算优势函数及Critic网络的损失函数，并更新Critic网络的网络参数；还分别根据经验池中存储的所有轨迹信息计算Actor网络的损失函数，更新Actor网络的网络参数；

步骤S34：重复执行多个回合的轨迹更新（即重复执行步骤S32和步骤S34），直至所有智能体的Actor网络和Critic网络的状态均收敛，或者，达到回合总数epoch，结束训练过程，最后得到训练后的分布式资源调度模型。

步骤S4：当接收到用户的可用资源请求时，基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度，基于按需分配原则实现空间飞行信息系统中各服务区域的内圆用户的公共资源调度。

基于训练后的分布式资源调度模型实现空间飞行信息系统中各服务区域的外环用户的私有资源调度，执行：

智能体基于相应服务区域的外环用户的私有资源请求，生成相应服务区域的局部观测状态；具体地，智能体基于相应服务区域及其相邻服务区域的外环用户的私有资源请求（即外环用户请求的私有资源的总数）生成相应服务区域的私有资源需求矩阵，组合相应服务区域的私有资源需求矩阵和私有资源占用矩阵，生成相应服务区域的局部观测状态。

生成相应服务区域的局部观测状态；智能体的Actor网络处理相应服务区域的局部观测状态，生成相应的动作；智能体根据生成的动作，实现空间飞行信息系统中相应服务区域的外环用户的私有资源调度。

在该过程中，各个智能体分布式实施相应服务区域的外环用户的私有资源调度。

智能体对各服务区域的内圆用户的公共资源请求进行按需分配，实现空间飞行信息系统中相应服务区域的内圆用户的公共资源调度。

由于数字孪生体系统和相应的空间飞行信息系统存在映射关系，因此，响应用户的资源请求的资源调度，可以直接作用到数字孪生体系统所映射的空间飞行信息系统中，以实现空间飞行信息系统的资源调度。

实施例2

为了进一步说明实施例1中技术方案的有益效果，以下进一步对本实施例所提出的方法进行仿真分析验证。仿真参数设置如表1所示。

表1 仿真参数设置

（1）算法收敛性分析

本实施例首先对所提方法收敛性进行分析。环境一共包括三个服务区域，智能体为3个。为了实现多智能间的完全合作，算法在训练阶段所有智能体共享同一个奖励函数。仿真中总共对多智能体进行1000个回合的训练，其中每个回合由5条轨迹组成，每一条轨迹包含400个step。图4所示为每回合累计奖励收敛性能图。

从图4可以看出，随着训练回合数的增加，智能体每回合累计奖励值逐渐上升，最后趋于稳定。根据全局奖励函数的设计可知，多智能的奖励值代表了系统的资源请求满意度公平性，所以随着训练回合数的增加，系统的资源请求满意度公平性也在不断上升，最终趋于稳定。进一步分析可知，大约在500回合以后，每回合累计奖励值稳定在1750左右，而每回合由2000个step组成，所以每个step的平均奖励值约为0.875，即每个step的平均资源请求满意度公平性为0.85。这说明随着智能体不断地学习，系统的公平性逐渐上升且稳定在一个较高的值，可认定多智能体已逐渐学得最优策略，即算法逐渐稳定收敛。

（2）性能仿真分析

仿真中选取的性能对比算法为传统的“内圆外环分区资源调度算法”。为了充分验证本发明所提出的算法性能，在不同的用户分布情况以及不同的业务强度下对上述算法的系统资源使用效率进行仿真分析。

性能仿真过程中，PPO算法的各个智能体神经网络不再更新，而是加载已经收敛到最优策略的神经网络参数。资源使用效率为10s内的数据做平均，即统计多智能体与环境交互10000个step的数据。仿真中设置每个服务区域内16个用户，为了使仿真更符合实际情况，设置了在服务区域用户非均匀分布情况下，对算法进行仿真验证分析。

用户在服务区域间非均匀分布，仿真得到的系统资源使用效率随着业务强度的增大而变化的曲线如图5所示。

从图5中可以看出，对于服务区域间用户非均匀分布的情形，本实施例所提的方法在系统资源效率上优于传统的“内圆、外环分区资源调度算法”。具体来说，当业务强度大于0.93时，所提方法的用户资源使用效率稳定在1.3 bit/s/单位资源左右，而传统的“内圆外环分区资源调度算法”的用户资源使用效率维持在1.1bit/s/单位资源左右，性能提升约为18.8%。

当业务强度较小时，各类算法的资源使用性能相差不大。当业务强度较大时，对于用户非均匀分布的情况，算法提升用户的资源使用效率性能更加明显，由此可见，本实施例所提方法具有较好的用户资源使用效率性能。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。