CN116302569A

CN116302569A - 一种基于用户请求信息的资源分区智能化调度方法

Info

Publication number: CN116302569A
Application number: CN202310551708.5A
Authority: CN
Inventors: 杨以杰; 杨振亚
Original assignee: Pera Corp Ltd
Current assignee: Pera Corp Ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-06-23
Anticipated expiration: 2043-05-17
Also published as: CN116302569B

Abstract

本发明涉及一种基于用户请求信息的资源分区智能化调度方法，该方法包括：将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户；利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模，得到建模后的PPO代理模型；对建模后的PPO代理模型进行训练，得到训练后的PPO代理模型；由训练后的PPO代理模型处理用户的业务请求，得到数字孪生体中服务区域之间的资源调度结果；根据相邻服务区域组内各服务区域的外环用户的资源块请求数量，优化各服务区域的资源调度结果并进行资源分配，获取空间飞行系统在各服务区域内部的资源调度结果。

Description

一种基于用户请求信息的资源分区智能化调度方法

技术领域

本发明涉及资源调度技术领域，尤其涉及一种基于用户请求信息的资源分区智能化调度方法。

背景技术

继移动互联网之后，面向未来元宇宙的虚拟世界将再一次拉近人类之间的距离，用数字化的形式消除地理与空间的隔阂。元宇宙社会中，物理世界的自然人、机器人和虚拟世界中的虚拟人三者共融共生。元宇宙的发展将会在数字孪生体的基础上，实现虚拟原生、虚实共生、虚实联动等越来越深入的虚拟世界和物理世界的交互。随着发展阶段的演进，虚拟世界和物理世界之间的连接和联动将会越来越智能化。

因此，随着虚拟世界中的数字孪生体智能化程度越来越高，将会在当前人工智能技术发展引领下，将“智能体”这一概念演进越来越丰富，最终发展实现元宇宙的“虚拟人”及其相关的虚拟属性。同时，元宇宙中物理世界和虚拟世界之间越来越深入和频繁的交互，将会为虚拟世界的“智能体”更多地从物理世界的“环境”中进行学习，自动形成其与物理世界相一致的数字孪生体形态和功能特征。

元宇宙所包含的物理世界及虚拟世界中的系统在运行过程中，可用的资源是有限的，即使使用了先进的技术，如果不进行合理的资源调度，也很大可能无法发挥先进技术的优势。资源调度通过在有限的资源池内调度资源，为日益增长的系统应用业务服务。作为物理世界模拟的虚拟世界中的数字孪生体，需要通过对资源调度的真实物理系统进行真实复现，并优化调度方法，仿真形成可用于物理实体中的策略，是合理使用物理世界资源、提高系统性能和改善应用体验的关键。

资源调度方式需要实现在什么时刻、在哪些资源块上、采用怎样的技术、为哪些应用分配资源。理想的资源调度希望在追求系统容量最大化的基础上保证应用用户的公平性，同时还能够满足不同用户的服务质量要求。

资源调度功能需要及时根据物理世界中实际环境的变化、不同的应用业务类型服务质量保障等需求对参数和策略作出调整。由于很难通过统一模型对物理世界的资源需求情况进行建模，这就需要基于智能化思想对调度方法进行动态调整。

随着近年来人工智能的快速发展，机器学习成为业界关注的热点。强化学习是机器学习中的一种，在强化学习中，智能体可以通过与环境之间的交互寻找到累积奖励最大的动作策略。而数字孪生体在模拟物理世界实体网络过程中，具有实时的感知能力，为强化学习提供了实时的环境交互，在此基础上可以通过强化学习实现对资源的动态管理与调度。

在每个决策周期，资源调度算法通常根据用户的资源质量状态、可用的资源以及业务间的优先级等信息，将资源在多个用户间进行调度。虽然在不同场景下，由于资源调度的优化目标不同，采用的调度策略并不固定，但是资源调度算法设计考虑的因素大多是一致的。在实际系统中，应用最为广泛的资源调度方案主要有三类：第一类以获得系统容量为首要任务，不考虑边缘用户的业务服务质量；第二类以用户间的公平性为目标，没有从整个系统的角度来考虑系统容量性能；第三类是对于系统容量与公平性的折中，在保证一定用户公平性的基础上对系统容量性能进行优化。

三种方案对应的具体调度算法分别是轮询算法、最大容量算法和比例公平算法。以下简要介绍这三种常用的资源调度算法，为本发明设计的调度方法提供对比参考。

（1）轮询算法

轮询算法只追求系统的公平性，不考虑调度优先级，也不考虑用户间需求量的差异。在每个调度时刻，轮询算法按照用户的请求顺序将资源块均等地分配给各个用户，如果资源块的数量多于请求用户的数量，则可以在同一调度时刻中满足各个用户；如果资源块的数量少于用户的数量，则并非所有的用户都能够在当前调度时刻得到资源块，那么，在下一调度时刻，资源块的分配将从上一时刻第一个未分配的用户开始。

轮询算法可以保证每个用户的最小传输量，实现资源调度公平性的上界。但其缺点在于没有对业务等级、资源质量等因素进行分析，实际情况中可能会出现两方面问题：一方面，由于所有用户的优先级没有区别，实时业务无法获得更优先的服务，业务质量无法保证；另一方面，由于传输条件较差的用户也能获得资源，在动态变化的物理世界实体环境中资源利用效率会降低，系统容量也会有不同程度的损失。

（2）最大容量算法

最大容量算法将系统的传输量作为优化目标，依据用户的传输条件质量状况对每个请求用户进行排序，优先给传输条件质量好的用户分配资源。假设在

时刻，有/>

个用户需要进行通信，对于资源块/>

来说，用户/>

测量到的容量为/>

，那么资源块/>

的调度用户优先级计算如下式，如果有不同的用户具有相同的容量时，资源块会分配给先请求的用户。

实际场景中，每个用户的分布具有随机性，接收到的信号强度会有所差异。在任意时刻，最大容量算法只倾向于传输条件质量好的用户，而边缘用户由于传输条件较差，接受服务的概率会相对变小。在面向所有应用终端高可靠性的需求下，这种贪婪式的算法是不合理的，实际中只能用作获得系统容量的最大值。

以上两种算法体现了资源调度算法在追求公平性与最大化系统容量的两个极端，可基于此对其他调度算法进行评估。

（3）比例公平算法

比例公平算法兼顾了系统容量与用户公平性，在调度优先级规则中利用传输条件质量的当前状况和过去一段时间内的系统容量性能作为参考因素，在公平性和系统容量之间取得了一定程度的折中。

假设在时刻

，有/>

个用户发起业务请求，对于资源块/>

来说，用户/>

的瞬时传输量为/>

，用户/>

在过去一段时间内的平均传输量为/>

，那么资源块/>

的用户优先级计算如下式：

其中，

的更新公式为：

在上式中，

为滑动时间窗，可用来调节比例公平算法对于系统容量与公平性的侧重，/>

的值越大越注重公平性，值越小越注重系统容量。可以看出，如果某用户长期处于传输条件质量差的环境，则/>

的值会变小，使得调度的优先级变高；如果某用户连续获得资源，则/>

会逐渐变大，优先级则相应变低。

比例公平算法满足了传输条件质量较好的用户对于大容量业务的需求，同时还考虑了传输条件质量较差的用户的传输容量，是许多资源调度算法设计的基础。

通过数字孪生体对物理世界资源分配和调度进行模拟。在多个服务区域之间进行资源分配时，首先要结合系统的资源复用原则，确定单个服务区域内可用的资源，之后单个服务区域可根据轮询、最大信噪比、比例公平等算法对特定用户进行下行资源调度。资源复用方案确定后，智能体中面向各个服务区域的资源分配模块将可用的资源分配给用户，即基于资源复用方案执行资源调度。

数字孪生体模拟基本的资源分配方法是面向每个服务区域进行单一的资源划分，并在非相邻服务区域之间使用相同资源块，即资源复用。但是相邻服务区域边缘有重叠区域，用户需要基于信号强弱和资源可用情况等准则进行判断，并由智能体进行资源调度决策。

这种在一个服务区域中采用单一的资源划分方法的缺点是对不同位置的用户服务性能不稳定。在数字孪生体对真实物理世界的服务区域模拟时，定义服务区域内圆为以圆心为中心，半径到达不与其它服务区域相重叠的区域部分；定义服务区域外环为与其它服务区域相重叠的部分。在服务区域外环，容易产生与其它服务区域之间的干扰，因此应当采用较低功率传输；在服务区域内圆，需要满足大量本区域用户的服务需求，因此需要较高功率传输。这就使得难以选择合适的功率资源使用策略。

因此，一种有效的解决方法是：在数字孪生体中，将同一个服务区域划分为内圆和外环两部分，为内圆和外环分配不同的资源，并采用不同的功率进行信号传输。这种方式通过区分内圆大量用户和边缘易受干扰用户，一定程度上改善了服务性能。

但这种方式的缺点是，在一个服务区域内仍然只有两种可用的资源选择，在用户随机性较大，例如高速移动频繁变换位置的场景或用户请求资源量波动很大的情况下，仍然存在资源调度和利用效率较低的问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于用户请求信息的资源分区智能化调度方法，用以解决现有用户随机性较大导致的资源调度和利用效率较低的问题。

本发明公开了一种基于用户请求信息的资源分区智能化调度方法，包括：

将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户；所述用户分为外环用户和内圆用户；

利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模，得到建模后的PPO代理模型；对建模后的PPO代理模型进行训练，得到训练后的PPO代理模型；

由训练后的PPO代理模型处理用户的业务请求，得到数字孪生体中服务区域之间的资源调度结果；

将相邻的服务区域作为相邻服务区域组，根据相邻服务区域组内各服务区域的外环用户的资源块请求数量，优化各服务区域的资源调度结果；并根据优化后的各服务区域的资源调度结果进行各个服务区域的资源分配，获取空间飞行系统在各服务区域内部的资源调度结果。

在上述方案的基础上，本发明还做出了如下改进：

进一步，建模后的PPO代理模型包括状态、动作和奖励函数；其中，

状态包括用户业务请求信息和用户分布位置信息；

动作指各个服务区域的主、次资源的分配策略；其中，主资源指在服务区域的任何位置使用的资源块，次资源指仅在服务区域的内圆位置使用的资源块；

奖励函数

的设置如下：

（1）

其中，

表示资源调度周期/>

内服务区域/>

发送给外环用户正确传输的数据量，

表示服务区域/>

中的主资源在资源调度周期/>

内的传输能力。

进一步，服务区域

中的主资源在资源调度周期/>

内的传输能力/>

为：

（2）

其中，

为资源调度周期/>

内的外环用户等待传输数据量，/>

表示服务区域/>

在一个资源调度周期/>

内主资源所占资源块的总数，/>

表示每个资源块在资源调度周期

内最大可传输数据量。

进一步，对建模后的PPO代理模型进行如下训练：

初始化环境参数和PPO算法参数；其中，初始化PPO算法参数包括初始化回合总数epochs和每回合轨迹总数episode；

在每一次回合，清空经验池，重置经验池的容量为0；然后，执行episode次轨迹更新，获得episode条轨迹信息；

将经验池中存储的所有轨迹信息中的状态信息输入到Critic网络中，得到所有状态对应的

值，然后计算优势函数；

计算Critic网络的损失函数，并根据Critic网络的损失函数反向传播更新Critic网络的网络参数；

计算Actor网络的损失函数，并根据Actor网络的损失函数反向传播更新Actor网络的网络参数；

重复执行多个回合的轨迹更新，直至Actor网络和Critic网络的状态收敛，或者，达到回合总数epoch，结束训练过程，最后得到训练后的PPO代理模型。

进一步，在执行每次轨迹更新过程中，执行：

智能体感知环境状态

，然后依据资源复用策略生成动作/>

作用于环境，获得奖赏/>

和下一个状态/>

，将轨迹信息（/>

,/>

,/>

,/>

）存储于经验池中；

基于下一步的状态

，重复执行获取下一次轨迹更新过程，储存相应的轨迹信息；

执行完episode次轨迹更新后，获得episode条轨迹信息。

进一步，所述得到数字孪生体中服务区域之间的资源调度结果，执行：

获取当前用户业务请求信息和用户分布位置信息，生成当前时刻的状态；

将当前时刻的状态输入训练后的PPO代理模型，得到相应的动作；

基于得到的动作，得到数字孪生体中服务区域之间的资源调度结果；

其中，服务区域之间的资源调度结果为每一服务区域的主资源、次资源的划分结果。

进一步，所述优化各服务区域的资源调度结果，执行：

根据相邻服务区域组内各服务区域的外环用户的资源块请求数量，确定相应服务区域的外环资源资源量；

将各服务区域的外环资源量在相邻两个业务请求时刻的变化量作为相应服务区域的外环资源偏置量；根据外环资源偏置量，确定是否存在资源干扰区；

当不存在资源干扰区时，则维持相邻服务区域组内各服务区域的资源调度结果。

进一步，所述优化各服务区域的资源调度结果，还执行：

当存在资源干扰区时，获取资源干扰区中的各服务区域使用各资源块的干扰等级；

对于资源干扰区中的每一资源块，若使用该资源块的干扰等级最小的服务区域唯一，则将该资源块划分给使用该资源块的干扰等级最小的服务区域；

若使用该资源块的干扰等级最小的服务区域不唯一，则将该资源块划分给该资源块的传输环境质量最高的服务区域；从而优化相应相邻服务区域组内各服务区域的资源调度结果。

进一步，相邻服务区域组内第

个服务区域的外环资源量/>

的计算公式如下所示：

（3）

其中，

表示相邻服务区域组内的服务区域的总数，/>

表示相邻服务区域组内第/>

个服务区域的外环用户的资源块请求数量的总数，/>

表示相邻服务区域组内第/>

个服务区域的外环用户的资源块请求数量的总数，/>

表示资源块的总数。

进一步，资源干扰区中的服务区域

使用资源块/>

的干扰等级/>

表示为：

（4）

其中，

代表资源干扰区对应的服务区域的集合，/>

代表服务区域/>

使用资源块/>

对服务区域/>

使用资源块/>

的干扰权重；若服务区域/>

与服务区域/>

的信号接收功率之差大于阈值，/>

；否则，/>

；/>

表示资源干扰区中的服务区域/>

对资源块/>

的占用情况；若服务区域/>

占用资源块/>

，/>

；否则，/>

。

与现有技术相比，本发明至少可实现如下有益效果之一：

本发明提供的基于用户请求信息的资源分区智能化调度方法，考虑用户需求量的随机变化，在区分同一个服务区域中内圆和外环用户前提下，对外环资源进行扩张或收缩，根据最终划分结果进行资源调度。即智能体在多个服务区域之间的资源调度方案根据基于用户请求情况的实际反馈信息决定，以提高资源利用率，降低边缘用户受到的干扰，很好地解决了现有用户随机性较大导致的资源调度和利用效率较低的问题。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例1提供的基于用户请求信息的资源分区智能化调度方法的流程图；

图2为本发明实施例2提供的PPO算法每回合累计奖励收敛性能图；

图3为本发明实施例2提供的服务区域外环用户资源使用效率随业务强度变化曲线。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

实施例1

本发明的一个具体实施例，公开了一种基于用户请求信息的资源分区智能化调度方法，流程图如图1所示。该方法包括以下步骤：

步骤S1：将空间飞行信息系统映射成数字孪生体系统，获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户；所述用户分为外环用户和内圆用户；

空间飞行信息系统是由分布在空间中的多个飞行器作为资源提供方、以分布在多个服务区域内的地面用户作为资源使用方的信息系统。具体地，资源提供方用于提供资源块。服务区域为面向用户实现某类业务功能的一个或多个、使用不同资源块的区域。用户为随机接入服务区域、并使用资源提供方提供的资源块的业务请求方。

将空间飞行信息系统映射成数字孪生体系统过程中，将空间飞行信息系统中的资源块映射成数字孪生体系统中的资源块；将空间飞行信息系统中的服务区域映射成数字孪生体系统中的服务区域；将空间飞行信息系统中的用户映射成数字孪生体系统中的用户，从而形成数字孪生体系统。

此外，空间飞行信息系统中还可以包括中央控制器，在映射过程中，将空间飞行信息系统中的中央控制器映射成数字孪生体系统中的中央控制器。

步骤S2：利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模，得到建模后的PPO代理模型；对建模后的PPO代理模型进行训练，得到训练后的PPO代理模型；

在数字孪生体系统中，服务区域集合

，其中，/>

表示服务区域的总数；资源块集合/>

，其中，/>

表示资源块的总数。

在整个数字孪生体系统中，模拟用户分布在不同的服务区域内，当用户接入某服务区域后，在这个服务区域内拥有唯一的ID。因此，数字孪生体系统内的每个用户可以用一个二元组(

,/>

)进行唯一表示，其中，/>

代表用户接入的服务区域，/>

代表用户在服务区域/>

的ID。进而数字孪生体系统中的用户集合/>

，其中，/>

表示用户ID的取值集合。

在数字孪生体系统中，每个服务区域被划分为服务区域内圆和服务区域外环。根据用户在各服务区域内所处位置的不同，可以将用户划分为内圆用户集合

和外环用户集合/>

，其中，内圆用户集合/>

表示处于各服务区域内圆的用户的集合，外环用户集合

表示处于各服务区域外环的用户的集合。两类用户的集合满足/>

，

。

在服务区域内，用户的位置与其信号接收功率存在对应关系，因此，在本实施例中，基于用户的信号接收功率进行用户归属内圆/外环的划分，同时考虑初始随机接入的用户，由于此时用户的信号接收功率信息未上报，位置未知。所以，对于各服务区域内的用户，其位置信息可以表示为位置信息集合

，具体含义如下式：

（2）

其中，

表示信号接收功率的门限值。若用户的信号接收功率/>

大于或等于/>

，表示用户处于服务区域内圆，为内圆用户，此时，用户的位置信息/>

；若用户的信号接收功率/>

小于/>

，表示用户处于服务区域外环，为外环用户，此时，用户的位置信息/>

。在用户设备初始化阶段，若用户初始随机接入服务区域，其信号接收功率尚未上报给智能体，用户的位置信息/>

。建立连接后，才会把用户的信号接收功率/>

上报给智能体。

所有资源块在每个服务区域内均可划分为主资源和次资源。其中，对于任一服务区域，主资源可以在该服务区域的任何位置使用，为了避免相邻服务区域间的干扰，需要保证相邻服务区域的主资源正交，即，相邻服务区域之间的主资源在传输过程中互相之间不产生干扰。

当主资源用于内圆用户调度时，其发射功率较低；当主资源用于外环用户调度时，发射功率较高。次资源只能在该服务区域的内圆位置使用，用于内圆用户调度，且以较低的发射功率进行传输。因此，服务区域

的资源调度矩阵/>

可以表示为：

（3）

其中，

，/>

表示资源块/>

被划分为主资源提供给服务区域

使用，/>

表示资源块/>

被划分为次资源提供给服务区域/>

使用。根据式（3），可以得到服务区域/>

的主、次资源所占资源块的集合：

（4）

（5）

其中，

表示提供给服务区域/>

的所有主资源所占资源块的集合，/>

表示提供给服务区域/>

的第/>

个主资源，/>

表示提供给服务区域/>

的所有主资源所占资源块的总数；/>

表示提供给服务区域/>

的所有次资源所占资源块的集合，/>

表示提供给服务区域/>

的第/>

个次资源，/>

表示提供给服务区域/>

的所有次资源所占资源块的总数。服务区域/>

的主、次资源划分满足/>

和

，即，服务区域/>

可以使用整个数字孪生体系统的全部资源块，且主、次资源的划分互相之间并不产生干扰。

数字孪生体系统中所有服务区域的资源划分方案构成了整个数字孪生体系统的资源复用调度矩阵表示为：

（6）

在每一个资源调度周期，由中央控制器根据自身决策算法，给出如式（6）所示的资源复用调度矩阵，以完成服务区域之间的资源划分。

在本实施例中，中央控制器的决策算法采用强化学习PPO算法，通过对数字孪生体系统在服务区域之间的资源调度过程建模得到建模后的PPO代理模型。具体过程描述如下：

将资源复用调度问题建模为智能体与环境交互学习过程中达到奖赏收益最大化的问题。具体来说，在数字孪生体系统中，将中央控制器建模为智能体，将环境中用户分布、业务请求等建模为环境，通过智能体感知环境状态，依据自身行为策略生成数字孪生体系统的资源复用方案。

（1）状态

状态信息是智能体制定决策和评估长期收益的依据，而状态设计的好坏直接决定了强化学习算法能否收敛、收敛速度以及最终性能。本实施例中的状态为用户的业务请求，具体包括：用户业务请求信息和用户分布位置信息。其中，

1）用户业务请求信息

用户业务请求信息

反映了用户的资源需求情况，是由多个参数构成的一维向量，如表1所示：

表1 用户业务请求信息

即，

。

（2）用户分布位置信息

用户分布位置信息用于衡量用户在服务区域中的位置，包括：用户与资源提供方智能体的距离

、用户在服务区域中的位置信息/>

，这两项信息均可以通过用户测量获得。于是，用户分布位置信息/>

。

用户

的状态信息/>

。将系统中的所有用户的状态信息汇总，得到环境的状态定义为：

，

其中，

表示用户的总数。

（2）动作

动作是智能体的输出、环境的输入。在本实施例中，智能体根据所在环境的用户业务请求情况以及用户分布位置信息，动态、合理地给出各个服务区域的资源复用方案。具体而言，就是根据资源划分方案，每个服务区域的可用资源均为数字孪生体系统全部资源块，且主、次资源的划分互相不产生干扰，所以，给定一个服务区域的主资源的集合，即可确定次资源的集合，从而确定该服务区域的资源划分。为了减小动作空间，算法给出的动作是划分各个服务区域的主资源的集合。主资源的动作概率分布矩阵如公式（7）所示：

（7）

由公式（7）可知，对于每一个资源块

，均有一定概率/>

作为主资源分配给服务区域/>

，所以，动作空间大小为/>

维。当智能体给出动作概率分布矩阵后，进行带有随机性的采样，即可确定各个服务区域内主资源的划分情况。对于各个服务区域，当主资源划分完成后，该服务区域的次资源也就相应确定，进而可以得到每个服务区域的资源复用方案。

（3）奖赏收益

奖赏是智能体根据观测环境状态，并采取相应动作作用于环境后，环境给予的反馈，是对在确定状态下执行动作后的评价，该值设计是否合理与智能体所能获得的收益大小息息相关，也与资源调度算法性能的优劣有关。下面具体给出奖赏收益函数的设计。

在本实施例中，定义服务区域

中的主资源在资源调度周期

内的传输能力

为：

（8）

其中，

为资源调度周期/>

内的外环用户等待传输数据量，/>

表示服务区域/>

在一个资源调度周期/>

内主资源所占资源块的总数，/>

表示每个资源块在资源调度周期

内最大可传输数据量。

奖赏函数

定义为：

（9）

其中，

表示资源调度周期/>

内服务区域/>

发送给外环用户正确传输的数据量。

如式（9）所示，本实施例将数字孪生体系统中的所有外环用户在资源调度周期

内的正确传输数据量与最大可传输数据量之比作为奖励。该奖励函数的设计体现了数字孪生体系统的优化目标，即，在资源有限的情况下，正确传输的数据量越大，获得的奖赏收益也越多，也即，数字孪生体系统的外环用户资源的使用效率最大。

依据本实施例所提出的对状态、动作、奖赏函数的定义，以及神经网络结构的设计，并结合算法总体框架和问题模型，通过执行以下流程，训练得到训练后的PPO代理模型。

在建模后的PPO代理模型的训练过程中，PPO算法的流程可以分为三个阶段，依次为：参数初始化阶段、智能体与环境交互阶段、智能体更新阶段以及最后的算法性能评估阶段。其中，

整个算法的实施可以分为以下几个步骤：

步骤S21：初始化环境参数和PPO算法参数；其中，

初始化场景参数，包括设置用户分布情况以及用户业务请求模型；

初始化PPO算法参数，包括：初始化回合总数epochs和每回合轨迹总数episode；此外，初始化PPO算法参数还可以包括：初始化Actor网络的网络参数

及Critic网络的网络参数/>

；初始化奖励计算函数metric类；初始化经验池PPO Buffer，设定经验池的最大容量为/>

。

初始化阶段完成后，智能体即可以与环境互动，并将互动过程中产生的状态、动作和奖励值存入经验池中。值得注意的是，本实施例中设计的算法不是直接从环境中获取奖励值，而是将计算奖励所需要的信息以额外信息传递给智能体，然后由智能体中负责计算奖励的metric模块计算得到奖励值。对于PPO算法，每一个回合（epoch）由若干条轨迹（eposide）组成。当智能体与环境完成一条轨迹的交互，则需要刷新重置环境，重新开始新一轮交互。对于一个回合来说，其经验池中的数据由若干条轨迹信息组成。

步骤S22：在每一次回合，清空经验池，重置经验池的容量

；然后，执行episode次轨迹更新，获得episode条轨迹信息；

在执行每次轨迹更新过程中，执行：

智能体感知环境状态

，然后依据资源复用策略生成动作/>

作用于环境，获得奖赏/>

和下一个状态/>

，将轨迹信息(/>

,/>

,/>

,/>

)存储于经验池中；

基于下一步的状态

因此，执行完episode次轨迹更新后，即可获得episode条轨迹信息。

当存储的经验数据（即轨迹信息的条数）达到经验池的最大容量时，则停止与环境互动，利用经验池中存储的经验数据计算Actor网络和Critic网络的损失函数，更新网络参数。

步骤S23：将经验池中存储的所有轨迹信息中的状态信息输入到Critic网络中，得到所有状态对应的

值，然后计算优势函数；

优势函数

表示为：

（10）

其中，

表示/>

时刻的状态/>

对应的/>

值，/>

表示折扣因子；

步骤S24：计算Critic网络的损失函数，并根据Critic网络的损失函数反向传播更新Critic网络的网络参数

；

Critic网络的损失函数

表示为：

（11）

为资源调度周期，/>

为/>

时刻的折扣奖励，/>

的计算公式如下：

（12）

步骤S25：计算Actor网络的损失函数，并根据Actor网络的损失函数反向传播更新Actor网络的网络参数

；

具体地，将存储的所有状态-动作对(

,/>

)输入Actor-old和Actor-new网络，计算得到新、旧策略在状态/>

采取动作/>

的概率之比/>

，然后得到Actor-new网络的损失函数；并根据Actor-new网络的损失函数反向传播更新Actor-new网络的网络参数；同时，达到预定步数后，将Actor-new网络的网络参数传递给Actor-old网络。

步骤S26：重复执行多个回合的轨迹更新（即重复执行步骤S22和步骤S26），直至Actor网络和Critic网络的状态收敛，或者，达到回合总数epoch，结束训练过程，最后得到训练后的PPO代理模型。

智能体通过每一个回合地不断学习和优化网络参数，最终收敛得到最优策略网络，即训练后的PPO代理模型。然后，即可根据智能体学习出的最优策略（训练后的PPO代理模型）进行相关的性能评估。

步骤S3：由训练后的PPO代理模型处理用户的业务请求，得到数字孪生体中服务区域之间的资源调度结果；

步骤S31：获取当前用户业务请求信息和用户分布位置信息，生成当前时刻的状态；

步骤S32：将当前时刻的状态输入训练后的PPO代理模型，得到相应的动作；

步骤S33：基于得到的动作，得到数字孪生体中服务区域之间的资源调度结果。

步骤S4：将相邻的服务区域作为相邻服务区域组，根据相邻服务区域组内各服务区域的外环用户的资源块请求数量，优化各服务区域的资源调度结果；并根据优化后的各服务区域的资源调度结果进行各个服务区域的资源分配，获取空间飞行系统在各服务区域内部的资源调度结果。

需要说明的是，资源复用方案是本实施例中方法的研究基础，即，在服务区域之间的资源划分完成后，再以若干个相邻服务区域为一组形成相邻服务区域组，进行相邻服务区域组内各服务区域的资源划分。

当区分服务区域内圆和外环的资源复用时，外环用户不能使用全部资源。因此，当相邻服务区域组内各服务区域的外环用户的资源块请求数量不均衡时，可以根据各服务区域的外环用户的资源块请求数量进行外环资源（示例性地，通信传输过程中的频率、功率、计算、存储等资源）的扩张或收缩，以提升资源利用率，满足业务需求，但是这样会带来干扰问题，以下具体说明并提出解决方案。

步骤S41：根据相邻服务区域组内各服务区域的外环用户的资源块请求数量，确定相应服务区域的外环资源资源量；

具体地，分别汇总相邻服务区域组内各服务区域的所有外环用户的资源块请求数量，以按需等比例分配为原则，确定各个服务区域的外环资源量的大小。在本实施例中，相邻服务区域组内第

个服务区域的外环资源量/>

的计算公式如下所示：/>

（13）

其中，

表示相邻服务区域组内的服务区域的总数，/>

表示相邻服务区域组内第/>

个服务区域的外环用户的资源块请求数量的总数，/>

表示相邻服务区域组内第/>

个服务区域的外环用户的资源块请求数量的总数，/>

表示资源块的总数。

步骤S42：将各服务区域的外环资源量在相邻两个业务请求时刻的变化量作为相应服务区域的外环资源偏置量；根据外环资源偏置量，确定是否存在资源干扰区；

具体地，若相邻服务区域组内服务区域之间的外环资源量偏置量没有交叠，则不存在资源干扰区，无需进行优化处理；若出现交叠，表明此时出现资源的扩张或收缩，将交叠区域作为资源干扰区。

步骤S43：当不存在资源干扰区时，则维持相邻服务区域组内各服务区域的资源调度结果；

步骤S44：当存在资源干扰区时，获取资源干扰区中的各服务区域使用各资源块的干扰等级；对于资源干扰区中的每一资源块，若使用该资源块的干扰等级最小的服务区域唯一，则将该资源块划分给使用该资源块的干扰等级最小的服务区域；若使用该资源块的干扰等级最小的服务区域不唯一，则将该资源块划分给该资源块的传输环境质量最高的服务区域；从而优化相应相邻服务区域组内各服务区域的资源调度结果；

将资源干扰区对应的服务区域之间不正交的主资源作为相应资源干扰区的资源块。对于资源干扰区中的每个资源块，由于资源干扰区对应的不同服务区域使用该资源的情况不同，干扰大小也不同。资源干扰区中的服务区域

使用资源块/>

的干扰等级/>

表示为：

（14）

其中，

代表资源干扰区对应的服务区域的集合，/>

代表服务区域/>

使用资源块/>

对服务区域/>

使用资源块/>

的干扰权重；若服务区域/>

与服务区域/>

的信号接收功率之差大于阈值，/>

，代表干扰严重；否则，接收功率微弱，也不会造成干扰，

；/>

表示资源干扰区中的服务区域/>

对资源块/>

的占用情况；若服务区域/>

占用资源块/>

，/>

；否则，/>

。根据步骤S3中的服务区域之间的资源调度结果，获取服务区域/>

对资源块/>

的占用情况。

对于资源干扰区的各个资源块，对资源干扰区中的各服务区域使用该资源块的干扰等级按照从小到大的顺序排序，可得到使用该资源块后受干扰最小的服务区域，然后，将该资源块分配给使用该资源块的干扰等级的最小的服务区域。

以上考虑了资源块分配的干扰情况，对于干扰等级无法做出判断的情况，即使用该资源块的干扰等级最小的服务区域不唯一时，服务区域的资源块分配还需要考虑相应服务区域下用户的传输环境情况。此时，获取使用该资源块的干扰等级最小的多个服务区域对于当前资源块的传输环境质量，并将该资源块划分给该资源块的传输环境质量最高的服务区域。这里，将服务区域内所有外环用户上报的对于当前资源块的传输环境质量的累加和，作为相应服务区域对于当前资源块的传输环境质量。

至此，即可完成相应相邻服务区域组内各服务区域的资源调度结果的优化。之后，便开始针对每一服务区域内的所有用户进行资源分配。

步骤S45：根据优化后的各服务区域的资源调度结果，利用比例公平调度算法，进行各个服务区域的资源分配，获取空间飞行系统在各服务区域内部的资源调度结果。

轮询算法、最大信噪比算法和比例公平算法是常用的调度算法，可根据需要利用三种调度方法完成下行资源调度，完成资源分配的最后环节。在各个服务区域内部，对于用户的请求，如何将服务区域内拥有的资源块合理地分配给各个用户，完成资源的调度，常用的有最大信噪比调度算法、轮询调度算法和比例公平调度算法。其中，比例公平调度算法综合考虑了系统容量和用户间的公平性，因此，在本实施例中，选用比例公平调度算法作为资源调度算法的基线。

需要强调的是，由于数字孪生体系统和相应的空间飞行信息系统存在映射关系，因此，可以将数字孪生体在各服务区域内部的资源调度结果作为相应空间飞行系统在各服务区域内部的资源调度结果，以实现空间飞行信息系统的资源调度。

实施例2

为了进一步说明本发明的有益效果，以下进一步对本发明所提出的方法进行仿真分析验证。

表2 仿真参数设置

算法收敛性分析

本实施例对所提出算法收敛性能进行仿真验证分析。在本实施例的仿真过程中，每个服务区域内分布16个用户，3个服务区域总共48个用户。算法总共对智能体进行1000个回合（epoch）的训练，其中每个回合由5条轨迹组成，每一条轨迹包含400个step。在每一轨迹的开始，环境都会刷新重置，即生成不同的用户分布情况以及业务请求情况。所述PPO算法每回合累计奖励收敛性能如图2所示。

从图2中可以看出，智能体每回合所获得的累计奖励值随着训练回合数的增加而逐渐上升，大约在130个回合左右趋于稳定。这是因为智能体通过每回合的训练，不断更新优化自身网络参数，逐渐学得最优策略，使得智能体获得的累计奖励值趋于稳定。在130个回合以后，每回合所获得的累计奖励值稳定在720左右，且上下波动不超过稳定值的1.5%，所以算法具有很好的收敛性能。

性能仿真分析

性能仿真中，PPO网络参数不再更新，而是直接加载已经收敛到最优策略的网络参数。为了保证数据的准确性，仿真一共统计了10000个step的数据计算资源使用效率。仿真中资源调度周期设置为1ms，即智能体的一个step对应时间为1ms，所以资源使用效率为10s内数据的平均值。本次仿真中，每个服务区域内16个用户，为了使仿真更符合实际情况，设置了在服务区域用户非均匀分布情况下，对算法进行仿真验证分析。用户在服务区域间非均匀分布，仿真得到的系统资源使用效率随着业务强度的增大而变化曲线如图3所示。

从图3中可以看出，对于服务区域间用户非均匀分布的情形，本发明所提出的方法在系统资源效率上优于传统的“内圆外环分区资源调度算法”。具体来说，当业务强度大于0.93时，所述方法的用户资源使用效率大约维持在1.38bit/s/单位资源左右，而传统的“内圆外环分区资源调度算法”的用户资源使用效率维持在1.1bit/s/单位资源左右，性能提升约为25%。

在同样的业务强度下，所述方法在服务区域间用户非均匀分布情况下，对资源使用效率提升较为明显。这是因为非均匀分布情况下，用户数目不同，在每一个资源调度时刻，不同服务区域间用户所需资源差异更大，所以如果不能根据每个服务区域需求的资源动态的调整资源使用方案，则会造成一些服务区域资源利用不足而另一些服务区域过载。本发明提出的方法以最大化用户资源使用效率为优化目标，可以根据环境的变化，动态的调整资源复用方案，可以很好的适应这种用户非均匀分布的情况，因此可以提升服务区域用户的资源使用效率。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。