CN116302569A - 一种基于用户请求信息的资源分区智能化调度方法 - Google Patents

一种基于用户请求信息的资源分区智能化调度方法 Download PDF

Info

Publication number
CN116302569A
CN116302569A CN202310551708.5A CN202310551708A CN116302569A CN 116302569 A CN116302569 A CN 116302569A CN 202310551708 A CN202310551708 A CN 202310551708A CN 116302569 A CN116302569 A CN 116302569A
Authority
CN
China
Prior art keywords
resource
service area
service
user
ppo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310551708.5A
Other languages
English (en)
Other versions
CN116302569B (zh
Inventor
杨以杰
杨振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pera Corp Ltd
Original Assignee
Pera Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pera Corp Ltd filed Critical Pera Corp Ltd
Priority to CN202310551708.5A priority Critical patent/CN116302569B/zh
Publication of CN116302569A publication Critical patent/CN116302569A/zh
Application granted granted Critical
Publication of CN116302569B publication Critical patent/CN116302569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于用户请求信息的资源分区智能化调度方法,该方法包括:将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户;利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模,得到建模后的PPO代理模型;对建模后的PPO代理模型进行训练,得到训练后的PPO代理模型;由训练后的PPO代理模型处理用户的业务请求,得到数字孪生体中服务区域之间的资源调度结果;根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,优化各服务区域的资源调度结果并进行资源分配,获取空间飞行系统在各服务区域内部的资源调度结果。

Description

一种基于用户请求信息的资源分区智能化调度方法
技术领域
本发明涉及资源调度技术领域,尤其涉及一种基于用户请求信息的资源分区智能化调度方法。
背景技术
继移动互联网之后,面向未来元宇宙的虚拟世界将再一次拉近人类之间的距离,用数字化的形式消除地理与空间的隔阂。元宇宙社会中,物理世界的自然人、机器人和虚拟世界中的虚拟人三者共融共生。元宇宙的发展将会在数字孪生体的基础上,实现虚拟原生、虚实共生、虚实联动等越来越深入的虚拟世界和物理世界的交互。随着发展阶段的演进,虚拟世界和物理世界之间的连接和联动将会越来越智能化。
因此,随着虚拟世界中的数字孪生体智能化程度越来越高,将会在当前人工智能技术发展引领下,将“智能体”这一概念演进越来越丰富,最终发展实现元宇宙的“虚拟人”及其相关的虚拟属性。同时,元宇宙中物理世界和虚拟世界之间越来越深入和频繁的交互,将会为虚拟世界的“智能体”更多地从物理世界的“环境”中进行学习,自动形成其与物理世界相一致的数字孪生体形态和功能特征。
元宇宙所包含的物理世界及虚拟世界中的系统在运行过程中,可用的资源是有限的,即使使用了先进的技术,如果不进行合理的资源调度,也很大可能无法发挥先进技术的优势。资源调度通过在有限的资源池内调度资源,为日益增长的系统应用业务服务。作为物理世界模拟的虚拟世界中的数字孪生体,需要通过对资源调度的真实物理系统进行真实复现,并优化调度方法,仿真形成可用于物理实体中的策略,是合理使用物理世界资源、提高系统性能和改善应用体验的关键。
资源调度方式需要实现在什么时刻、在哪些资源块上、采用怎样的技术、为哪些应用分配资源。理想的资源调度希望在追求系统容量最大化的基础上保证应用用户的公平性,同时还能够满足不同用户的服务质量要求。
资源调度功能需要及时根据物理世界中实际环境的变化、不同的应用业务类型服务质量保障等需求对参数和策略作出调整。由于很难通过统一模型对物理世界的资源需求情况进行建模,这就需要基于智能化思想对调度方法进行动态调整。
随着近年来人工智能的快速发展,机器学习成为业界关注的热点。强化学习是机器学习中的一种,在强化学习中,智能体可以通过与环境之间的交互寻找到累积奖励最大的动作策略。而数字孪生体在模拟物理世界实体网络过程中,具有实时的感知能力,为强化学习提供了实时的环境交互,在此基础上可以通过强化学习实现对资源的动态管理与调度。
在每个决策周期,资源调度算法通常根据用户的资源质量状态、可用的资源以及业务间的优先级等信息,将资源在多个用户间进行调度。虽然在不同场景下,由于资源调度的优化目标不同,采用的调度策略并不固定,但是资源调度算法设计考虑的因素大多是一致的。在实际系统中,应用最为广泛的资源调度方案主要有三类:第一类以获得系统容量为首要任务,不考虑边缘用户的业务服务质量;第二类以用户间的公平性为目标,没有从整个系统的角度来考虑系统容量性能;第三类是对于系统容量与公平性的折中,在保证一定用户公平性的基础上对系统容量性能进行优化。
三种方案对应的具体调度算法分别是轮询算法、最大容量算法和比例公平算法。以下简要介绍这三种常用的资源调度算法,为本发明设计的调度方法提供对比参考。
(1)轮询算法
轮询算法只追求系统的公平性,不考虑调度优先级,也不考虑用户间需求量的差异。在每个调度时刻,轮询算法按照用户的请求顺序将资源块均等地分配给各个用户,如果资源块的数量多于请求用户的数量,则可以在同一调度时刻中满足各个用户;如果资源块的数量少于用户的数量,则并非所有的用户都能够在当前调度时刻得到资源块,那么,在下一调度时刻,资源块的分配将从上一时刻第一个未分配的用户开始。
轮询算法可以保证每个用户的最小传输量,实现资源调度公平性的上界。但其缺点在于没有对业务等级、资源质量等因素进行分析,实际情况中可能会出现两方面问题:一方面,由于所有用户的优先级没有区别,实时业务无法获得更优先的服务,业务质量无法保证;另一方面,由于传输条件较差的用户也能获得资源,在动态变化的物理世界实体环境中资源利用效率会降低,系统容量也会有不同程度的损失。
(2)最大容量算法
最大容量算法将系统的传输量作为优化目标,依据用户的传输条件质量状况对每个请求用户进行排序,优先给传输条件质量好的用户分配资源。假设在
Figure SMS_1
时刻,有/>
Figure SMS_2
个用户需要进行通信,对于资源块/>
Figure SMS_3
来说,用户/>
Figure SMS_4
测量到的容量为/>
Figure SMS_5
,那么资源块/>
Figure SMS_6
的调度用户优先级计算如下式,如果有不同的用户具有相同的容量时,资源块会分配给先请求的用户。
Figure SMS_7
实际场景中,每个用户的分布具有随机性,接收到的信号强度会有所差异。在任意时刻,最大容量算法只倾向于传输条件质量好的用户,而边缘用户由于传输条件较差,接受服务的概率会相对变小。在面向所有应用终端高可靠性的需求下,这种贪婪式的算法是不合理的,实际中只能用作获得系统容量的最大值。
以上两种算法体现了资源调度算法在追求公平性与最大化系统容量的两个极端,可基于此对其他调度算法进行评估。
(3)比例公平算法
比例公平算法兼顾了系统容量与用户公平性,在调度优先级规则中利用传输条件质量的当前状况和过去一段时间内的系统容量性能作为参考因素,在公平性和系统容量之间取得了一定程度的折中。
假设在时刻
Figure SMS_10
,有/>
Figure SMS_12
个用户发起业务请求,对于资源块/>
Figure SMS_14
来说,用户/>
Figure SMS_11
的瞬时传输量为/>
Figure SMS_13
,用户/>
Figure SMS_15
在过去一段时间内的平均传输量为/>
Figure SMS_16
,那么资源块/>
Figure SMS_9
的用户优先级计算如下式:
Figure SMS_17
其中,
Figure SMS_18
的更新公式为:
Figure SMS_19
在上式中,
Figure SMS_20
为滑动时间窗,可用来调节比例公平算法对于系统容量与公平性的侧重,/>
Figure SMS_21
的值越大越注重公平性,值越小越注重系统容量。可以看出,如果某用户长期处于传输条件质量差的环境,则/>
Figure SMS_22
的值会变小,使得调度的优先级变高;如果某用户连续获得资源,则/>
Figure SMS_23
会逐渐变大,优先级则相应变低。
比例公平算法满足了传输条件质量较好的用户对于大容量业务的需求,同时还考虑了传输条件质量较差的用户的传输容量,是许多资源调度算法设计的基础。
通过数字孪生体对物理世界资源分配和调度进行模拟。在多个服务区域之间进行资源分配时,首先要结合系统的资源复用原则,确定单个服务区域内可用的资源,之后单个服务区域可根据轮询、最大信噪比、比例公平等算法对特定用户进行下行资源调度。资源复用方案确定后,智能体中面向各个服务区域的资源分配模块将可用的资源分配给用户,即基于资源复用方案执行资源调度。
数字孪生体模拟基本的资源分配方法是面向每个服务区域进行单一的资源划分,并在非相邻服务区域之间使用相同资源块,即资源复用。但是相邻服务区域边缘有重叠区域,用户需要基于信号强弱和资源可用情况等准则进行判断,并由智能体进行资源调度决策。
这种在一个服务区域中采用单一的资源划分方法的缺点是对不同位置的用户服务性能不稳定。在数字孪生体对真实物理世界的服务区域模拟时,定义服务区域内圆为以圆心为中心,半径到达不与其它服务区域相重叠的区域部分;定义服务区域外环为与其它服务区域相重叠的部分。在服务区域外环,容易产生与其它服务区域之间的干扰,因此应当采用较低功率传输;在服务区域内圆,需要满足大量本区域用户的服务需求,因此需要较高功率传输。这就使得难以选择合适的功率资源使用策略。
因此,一种有效的解决方法是:在数字孪生体中,将同一个服务区域划分为内圆和外环两部分,为内圆和外环分配不同的资源,并采用不同的功率进行信号传输。这种方式通过区分内圆大量用户和边缘易受干扰用户,一定程度上改善了服务性能。
但这种方式的缺点是,在一个服务区域内仍然只有两种可用的资源选择,在用户随机性较大,例如高速移动频繁变换位置的场景或用户请求资源量波动很大的情况下,仍然存在资源调度和利用效率较低的问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于用户请求信息的资源分区智能化调度方法,用以解决现有用户随机性较大导致的资源调度和利用效率较低的问题。
本发明公开了一种基于用户请求信息的资源分区智能化调度方法,包括:
将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户;所述用户分为外环用户和内圆用户;
利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模,得到建模后的PPO代理模型;对建模后的PPO代理模型进行训练,得到训练后的PPO代理模型;
由训练后的PPO代理模型处理用户的业务请求,得到数字孪生体中服务区域之间的资源调度结果;
将相邻的服务区域作为相邻服务区域组,根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,优化各服务区域的资源调度结果;并根据优化后的各服务区域的资源调度结果进行各个服务区域的资源分配,获取空间飞行系统在各服务区域内部的资源调度结果。
在上述方案的基础上,本发明还做出了如下改进:
进一步,建模后的PPO代理模型包括状态、动作和奖励函数;其中,
状态包括用户业务请求信息和用户分布位置信息;
动作指各个服务区域的主、次资源的分配策略;其中,主资源指在服务区域的任何位置使用的资源块,次资源指仅在服务区域的内圆位置使用的资源块;
奖励函数
Figure SMS_24
的设置如下:
Figure SMS_25
(1)
其中,
Figure SMS_26
表示资源调度周期/>
Figure SMS_27
内服务区域/>
Figure SMS_28
发送给外环用户正确传输的数据量,
Figure SMS_29
表示服务区域/>
Figure SMS_30
中的主资源在资源调度周期/>
Figure SMS_31
内的传输能力。
进一步,服务区域
Figure SMS_32
中的主资源在资源调度周期/>
Figure SMS_33
内的传输能力/>
Figure SMS_34
为:
Figure SMS_35
(2)
其中,
Figure SMS_36
为资源调度周期/>
Figure SMS_37
内的外环用户等待传输数据量,/>
Figure SMS_38
表示服务区域/>
Figure SMS_39
在一个资源调度周期/>
Figure SMS_40
内主资源所占资源块的总数,/>
Figure SMS_41
表示每个资源块在资源调度周期
Figure SMS_42
内最大可传输数据量。
进一步,对建模后的PPO代理模型进行如下训练:
初始化环境参数和PPO算法参数;其中,初始化PPO算法参数包括初始化回合总数epochs和每回合轨迹总数episode;
在每一次回合,清空经验池,重置经验池的容量为0;然后,执行episode次轨迹更新,获得episode条轨迹信息;
将经验池中存储的所有轨迹信息中的状态信息输入到Critic网络中,得到所有状态对应的
Figure SMS_43
值,然后计算优势函数;
计算Critic网络的损失函数,并根据Critic网络的损失函数反向传播更新Critic网络的网络参数;
计算Actor网络的损失函数,并根据Actor网络的损失函数反向传播更新Actor网络的网络参数;
重复执行多个回合的轨迹更新,直至Actor网络和Critic网络的状态收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的PPO代理模型。
进一步,在执行每次轨迹更新过程中,执行:
智能体感知环境状态
Figure SMS_45
,然后依据资源复用策略生成动作/>
Figure SMS_48
作用于环境,获得奖赏/>
Figure SMS_50
和下一个状态/>
Figure SMS_46
,将轨迹信息(/>
Figure SMS_47
,/>
Figure SMS_49
,/>
Figure SMS_51
,/>
Figure SMS_44
)存储于经验池中;
基于下一步的状态
Figure SMS_52
,重复执行获取下一次轨迹更新过程,储存相应的轨迹信息;
执行完episode次轨迹更新后,获得episode条轨迹信息。
进一步,所述得到数字孪生体中服务区域之间的资源调度结果,执行:
获取当前用户业务请求信息和用户分布位置信息,生成当前时刻的状态;
将当前时刻的状态输入训练后的PPO代理模型,得到相应的动作;
基于得到的动作,得到数字孪生体中服务区域之间的资源调度结果;
其中,服务区域之间的资源调度结果为每一服务区域的主资源、次资源的划分结果。
进一步,所述优化各服务区域的资源调度结果,执行:
根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,确定相应服务区域的外环资源资源量;
将各服务区域的外环资源量在相邻两个业务请求时刻的变化量作为相应服务区域的外环资源偏置量;根据外环资源偏置量,确定是否存在资源干扰区;
当不存在资源干扰区时,则维持相邻服务区域组内各服务区域的资源调度结果。
进一步,所述优化各服务区域的资源调度结果,还执行:
当存在资源干扰区时,获取资源干扰区中的各服务区域使用各资源块的干扰等级;
对于资源干扰区中的每一资源块,若使用该资源块的干扰等级最小的服务区域唯一,则将该资源块划分给使用该资源块的干扰等级最小的服务区域;
若使用该资源块的干扰等级最小的服务区域不唯一,则将该资源块划分给该资源块的传输环境质量最高的服务区域;从而优化相应相邻服务区域组内各服务区域的资源调度结果。
进一步,相邻服务区域组内第
Figure SMS_53
个服务区域的外环资源量/>
Figure SMS_54
的计算公式如下所示:
Figure SMS_55
(3)
其中,
Figure SMS_56
表示相邻服务区域组内的服务区域的总数,/>
Figure SMS_57
表示相邻服务区域组内第/>
Figure SMS_58
个服务区域的外环用户的资源块请求数量的总数,/>
Figure SMS_59
表示相邻服务区域组内第/>
Figure SMS_60
个服务区域的外环用户的资源块请求数量的总数,/>
Figure SMS_61
表示资源块的总数。
进一步,资源干扰区中的服务区域
Figure SMS_62
使用资源块/>
Figure SMS_63
的干扰等级/>
Figure SMS_64
表示为:
Figure SMS_65
(4)
其中,
Figure SMS_74
代表资源干扰区对应的服务区域的集合,/>
Figure SMS_67
代表服务区域/>
Figure SMS_70
使用资源块/>
Figure SMS_69
对服务区域/>
Figure SMS_73
使用资源块/>
Figure SMS_77
的干扰权重;若服务区域/>
Figure SMS_81
与服务区域/>
Figure SMS_75
的信号接收功率之差大于阈值,/>
Figure SMS_79
;否则,/>
Figure SMS_66
;/>
Figure SMS_71
表示资源干扰区中的服务区域/>
Figure SMS_76
对资源块/>
Figure SMS_80
的占用情况;若服务区域/>
Figure SMS_78
占用资源块/>
Figure SMS_82
,/>
Figure SMS_68
;否则,/>
Figure SMS_72
与现有技术相比,本发明至少可实现如下有益效果之一:
本发明提供的基于用户请求信息的资源分区智能化调度方法,考虑用户需求量的随机变化,在区分同一个服务区域中内圆和外环用户前提下,对外环资源进行扩张或收缩,根据最终划分结果进行资源调度。即智能体在多个服务区域之间的资源调度方案根据基于用户请求情况的实际反馈信息决定,以提高资源利用率,降低边缘用户受到的干扰,很好地解决了现有用户随机性较大导致的资源调度和利用效率较低的问题。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例1提供的基于用户请求信息的资源分区智能化调度方法的流程图;
图2为本发明实施例2提供的PPO算法每回合累计奖励收敛性能图;
图3为本发明实施例2提供的服务区域外环用户资源使用效率随业务强度变化曲线。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明的一个具体实施例,公开了一种基于用户请求信息的资源分区智能化调度方法,流程图如图1所示。该方法包括以下步骤:
步骤S1:将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户;所述用户分为外环用户和内圆用户;
空间飞行信息系统是由分布在空间中的多个飞行器作为资源提供方、以分布在多个服务区域内的地面用户作为资源使用方的信息系统。具体地,资源提供方用于提供资源块。服务区域为面向用户实现某类业务功能的一个或多个、使用不同资源块的区域。用户为随机接入服务区域、并使用资源提供方提供的资源块的业务请求方。
将空间飞行信息系统映射成数字孪生体系统过程中,将空间飞行信息系统中的资源块映射成数字孪生体系统中的资源块;将空间飞行信息系统中的服务区域映射成数字孪生体系统中的服务区域;将空间飞行信息系统中的用户映射成数字孪生体系统中的用户,从而形成数字孪生体系统。
此外,空间飞行信息系统中还可以包括中央控制器,在映射过程中,将空间飞行信息系统中的中央控制器映射成数字孪生体系统中的中央控制器。
步骤S2:利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模,得到建模后的PPO代理模型;对建模后的PPO代理模型进行训练,得到训练后的PPO代理模型;
在数字孪生体系统中,服务区域集合
Figure SMS_83
,其中,/>
Figure SMS_84
表示服务区域的总数;资源块集合/>
Figure SMS_85
,其中,/>
Figure SMS_86
表示资源块的总数。
在整个数字孪生体系统中,模拟用户分布在不同的服务区域内,当用户接入某服务区域后,在这个服务区域内拥有唯一的ID。因此,数字孪生体系统内的每个用户可以用一个二元组(
Figure SMS_87
,/>
Figure SMS_88
)进行唯一表示,其中,/>
Figure SMS_89
代表用户接入的服务区域,/>
Figure SMS_90
代表用户在服务区域/>
Figure SMS_91
的ID。进而数字孪生体系统中的用户集合/>
Figure SMS_92
,其中,/>
Figure SMS_93
表示用户ID的取值集合。
在数字孪生体系统中,每个服务区域被划分为服务区域内圆和服务区域外环。根据用户在各服务区域内所处位置的不同,可以将用户划分为内圆用户集合
Figure SMS_94
和外环用户集合/>
Figure SMS_95
,其中,内圆用户集合/>
Figure SMS_96
表示处于各服务区域内圆的用户的集合,外环用户集合
Figure SMS_97
表示处于各服务区域外环的用户的集合。两类用户的集合满足/>
Figure SMS_98
Figure SMS_99
在服务区域内,用户的位置与其信号接收功率存在对应关系,因此,在本实施例中,基于用户的信号接收功率进行用户归属内圆/外环的划分,同时考虑初始随机接入的用户,由于此时用户的信号接收功率信息未上报,位置未知。所以,对于各服务区域内的用户,其位置信息可以表示为位置信息集合
Figure SMS_100
,具体含义如下式:
Figure SMS_101
(2)
其中,
Figure SMS_103
表示信号接收功率的门限值。若用户的信号接收功率/>
Figure SMS_107
大于或等于/>
Figure SMS_109
,表示用户处于服务区域内圆,为内圆用户,此时,用户的位置信息/>
Figure SMS_104
;若用户的信号接收功率/>
Figure SMS_106
小于/>
Figure SMS_108
,表示用户处于服务区域外环,为外环用户,此时,用户的位置信息/>
Figure SMS_110
。在用户设备初始化阶段,若用户初始随机接入服务区域,其信号接收功率尚未上报给智能体,用户的位置信息/>
Figure SMS_102
。建立连接后,才会把用户的信号接收功率/>
Figure SMS_105
上报给智能体。
所有资源块在每个服务区域内均可划分为主资源和次资源。其中,对于任一服务区域,主资源可以在该服务区域的任何位置使用,为了避免相邻服务区域间的干扰,需要保证相邻服务区域的主资源正交,即,相邻服务区域之间的主资源在传输过程中互相之间不产生干扰。
当主资源用于内圆用户调度时,其发射功率较低;当主资源用于外环用户调度时,发射功率较高。次资源只能在该服务区域的内圆位置使用,用于内圆用户调度,且以较低的发射功率进行传输。因此,服务区域
Figure SMS_111
的资源调度矩阵/>
Figure SMS_112
可以表示为:
Figure SMS_113
(3)
其中,
Figure SMS_115
,/>
Figure SMS_118
表示资源块/>
Figure SMS_120
被划分为主资源提供给服务区域
Figure SMS_116
使用,/>
Figure SMS_117
表示资源块/>
Figure SMS_119
被划分为次资源提供给服务区域/>
Figure SMS_121
使用。根据式(3),可以得到服务区域/>
Figure SMS_114
的主、次资源所占资源块的集合:
Figure SMS_122
(4)
Figure SMS_123
(5)
其中,
Figure SMS_133
表示提供给服务区域/>
Figure SMS_125
的所有主资源所占资源块的集合,/>
Figure SMS_129
表示提供给服务区域/>
Figure SMS_130
的第/>
Figure SMS_134
个主资源,/>
Figure SMS_137
表示提供给服务区域/>
Figure SMS_140
的所有主资源所占资源块的总数;/>
Figure SMS_132
表示提供给服务区域/>
Figure SMS_136
的所有次资源所占资源块的集合,/>
Figure SMS_124
表示提供给服务区域/>
Figure SMS_128
的第/>
Figure SMS_135
个次资源,/>
Figure SMS_139
表示提供给服务区域/>
Figure SMS_138
的所有次资源所占资源块的总数。服务区域/>
Figure SMS_141
的主、次资源划分满足/>
Figure SMS_126
Figure SMS_131
,即,服务区域/>
Figure SMS_127
可以使用整个数字孪生体系统的全部资源块,且主、次资源的划分互相之间并不产生干扰。
数字孪生体系统中所有服务区域的资源划分方案构成了整个数字孪生体系统的资源复用调度矩阵表示为:
Figure SMS_142
(6)
在每一个资源调度周期,由中央控制器根据自身决策算法,给出如式(6)所示的资源复用调度矩阵,以完成服务区域之间的资源划分。
在本实施例中,中央控制器的决策算法采用强化学习PPO算法,通过对数字孪生体系统在服务区域之间的资源调度过程建模得到建模后的PPO代理模型。具体过程描述如下:
将资源复用调度问题建模为智能体与环境交互学习过程中达到奖赏收益最大化的问题。具体来说,在数字孪生体系统中,将中央控制器建模为智能体,将环境中用户分布、业务请求等建模为环境,通过智能体感知环境状态,依据自身行为策略生成数字孪生体系统的资源复用方案。
(1)状态
状态信息是智能体制定决策和评估长期收益的依据,而状态设计的好坏直接决定了强化学习算法能否收敛、收敛速度以及最终性能。本实施例中的状态为用户的业务请求,具体包括:用户业务请求信息和用户分布位置信息。其中,
1)用户业务请求信息
Figure SMS_143
用户业务请求信息
Figure SMS_144
反映了用户的资源需求情况,是由多个参数构成的一维向量,如表1所示:
表1 用户业务请求信息
Figure SMS_145
即,
Figure SMS_146
(2)用户分布位置信息
Figure SMS_147
用户分布位置信息用于衡量用户在服务区域中的位置,包括:用户与资源提供方智能体的距离
Figure SMS_148
、用户在服务区域中的位置信息/>
Figure SMS_149
,这两项信息均可以通过用户测量获得。于是,用户分布位置信息/>
Figure SMS_150
用户
Figure SMS_151
的状态信息/>
Figure SMS_152
。将系统中的所有用户的状态信息汇总,得到环境的状态定义为:
Figure SMS_153
其中,
Figure SMS_154
表示用户的总数。
(2)动作
动作是智能体的输出、环境的输入。在本实施例中,智能体根据所在环境的用户业务请求情况以及用户分布位置信息,动态、合理地给出各个服务区域的资源复用方案。具体而言,就是根据资源划分方案,每个服务区域的可用资源均为数字孪生体系统全部资源块,且主、次资源的划分互相不产生干扰,所以,给定一个服务区域的主资源的集合,即可确定次资源的集合,从而确定该服务区域的资源划分。为了减小动作空间,算法给出的动作是划分各个服务区域的主资源的集合。主资源的动作概率分布矩阵如公式(7)所示:
Figure SMS_155
(7)
由公式(7)可知,对于每一个资源块
Figure SMS_156
,均有一定概率/>
Figure SMS_157
作为主资源分配给服务区域/>
Figure SMS_158
,所以,动作空间大小为/>
Figure SMS_159
维。当智能体给出动作概率分布矩阵后,进行带有随机性的采样,即可确定各个服务区域内主资源的划分情况。对于各个服务区域,当主资源划分完成后,该服务区域的次资源也就相应确定,进而可以得到每个服务区域的资源复用方案。
(3)奖赏收益
奖赏是智能体根据观测环境状态,并采取相应动作作用于环境后,环境给予的反馈,是对在确定状态下执行动作后的评价,该值设计是否合理与智能体所能获得的收益大小息息相关,也与资源调度算法性能的优劣有关。下面具体给出奖赏收益函数的设计。
在本实施例中,定义服务区域
Figure SMS_160
中的主资源在资源调度周期
Figure SMS_161
内的传输能力
Figure SMS_162
为:
Figure SMS_163
(8)
其中,
Figure SMS_164
为资源调度周期/>
Figure SMS_165
内的外环用户等待传输数据量,/>
Figure SMS_166
表示服务区域/>
Figure SMS_167
在一个资源调度周期/>
Figure SMS_168
内主资源所占资源块的总数,/>
Figure SMS_169
表示每个资源块在资源调度周期
Figure SMS_170
内最大可传输数据量。
奖赏函数
Figure SMS_171
定义为:
Figure SMS_172
(9)
其中,
Figure SMS_173
表示资源调度周期/>
Figure SMS_174
内服务区域/>
Figure SMS_175
发送给外环用户正确传输的数据量。
如式(9)所示,本实施例将数字孪生体系统中的所有外环用户在资源调度周期
Figure SMS_176
内的正确传输数据量与最大可传输数据量之比作为奖励。该奖励函数的设计体现了数字孪生体系统的优化目标,即,在资源有限的情况下,正确传输的数据量越大,获得的奖赏收益也越多,也即,数字孪生体系统的外环用户资源的使用效率最大。
依据本实施例所提出的对状态、动作、奖赏函数的定义,以及神经网络结构的设计,并结合算法总体框架和问题模型,通过执行以下流程,训练得到训练后的PPO代理模型。
在建模后的PPO代理模型的训练过程中,PPO算法的流程可以分为三个阶段,依次为:参数初始化阶段、智能体与环境交互阶段、智能体更新阶段以及最后的算法性能评估阶段。其中,
整个算法的实施可以分为以下几个步骤:
步骤S21:初始化环境参数和PPO算法参数;其中,
初始化场景参数,包括设置用户分布情况以及用户业务请求模型;
初始化PPO算法参数,包括:初始化回合总数epochs和每回合轨迹总数episode;此外,初始化PPO算法参数还可以包括:初始化Actor网络的网络参数
Figure SMS_177
及Critic网络的网络参数/>
Figure SMS_178
;初始化奖励计算函数metric类;初始化经验池PPO Buffer,设定经验池的最大容量为/>
Figure SMS_179
初始化阶段完成后,智能体即可以与环境互动,并将互动过程中产生的状态、动作和奖励值存入经验池中。值得注意的是,本实施例中设计的算法不是直接从环境中获取奖励值,而是将计算奖励所需要的信息以额外信息传递给智能体,然后由智能体中负责计算奖励的metric模块计算得到奖励值。对于PPO算法,每一个回合(epoch)由若干条轨迹(eposide)组成。当智能体与环境完成一条轨迹的交互,则需要刷新重置环境,重新开始新一轮交互。对于一个回合来说,其经验池中的数据由若干条轨迹信息组成。
步骤S22:在每一次回合,清空经验池,重置经验池的容量
Figure SMS_180
;然后,执行episode次轨迹更新,获得episode条轨迹信息;
在执行每次轨迹更新过程中,执行:
智能体感知环境状态
Figure SMS_183
,然后依据资源复用策略生成动作/>
Figure SMS_185
作用于环境,获得奖赏/>
Figure SMS_187
和下一个状态/>
Figure SMS_182
,将轨迹信息(/>
Figure SMS_184
,/>
Figure SMS_186
,/>
Figure SMS_188
,/>
Figure SMS_181
)存储于经验池中;
基于下一步的状态
Figure SMS_189
,重复执行获取下一次轨迹更新过程,储存相应的轨迹信息;
因此,执行完episode次轨迹更新后,即可获得episode条轨迹信息。
当存储的经验数据(即轨迹信息的条数)达到经验池的最大容量时,则停止与环境互动,利用经验池中存储的经验数据计算Actor网络和Critic网络的损失函数,更新网络参数。
步骤S23:将经验池中存储的所有轨迹信息中的状态信息输入到Critic网络中,得到所有状态对应的
Figure SMS_190
值,然后计算优势函数;
优势函数
Figure SMS_191
表示为:
Figure SMS_192
(10)
其中,
Figure SMS_193
表示/>
Figure SMS_194
时刻的状态/>
Figure SMS_195
对应的/>
Figure SMS_196
值,/>
Figure SMS_197
表示折扣因子;
步骤S24:计算Critic网络的损失函数,并根据Critic网络的损失函数反向传播更新Critic网络的网络参数
Figure SMS_198
Critic网络的损失函数
Figure SMS_199
表示为:
Figure SMS_200
(11)
Figure SMS_201
为资源调度周期,/>
Figure SMS_202
为/>
Figure SMS_203
时刻的折扣奖励,/>
Figure SMS_204
的计算公式如下:
Figure SMS_205
(12)
步骤S25:计算Actor网络的损失函数,并根据Actor网络的损失函数反向传播更新Actor网络的网络参数
Figure SMS_206
具体地,将存储的所有状态-动作对(
Figure SMS_207
,/>
Figure SMS_208
)输入Actor-old和Actor-new网络,计算得到新、旧策略在状态/>
Figure SMS_209
采取动作/>
Figure SMS_210
的概率之比/>
Figure SMS_211
,然后得到Actor-new网络的损失函数;并根据Actor-new网络的损失函数反向传播更新Actor-new网络的网络参数;同时,达到预定步数后,将Actor-new网络的网络参数传递给Actor-old网络。
步骤S26:重复执行多个回合的轨迹更新(即重复执行步骤S22和步骤S26),直至Actor网络和Critic网络的状态收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的PPO代理模型。
智能体通过每一个回合地不断学习和优化网络参数,最终收敛得到最优策略网络,即训练后的PPO代理模型。然后,即可根据智能体学习出的最优策略(训练后的PPO代理模型)进行相关的性能评估。
步骤S3:由训练后的PPO代理模型处理用户的业务请求,得到数字孪生体中服务区域之间的资源调度结果;
步骤S31:获取当前用户业务请求信息和用户分布位置信息,生成当前时刻的状态;
步骤S32:将当前时刻的状态输入训练后的PPO代理模型,得到相应的动作;
步骤S33:基于得到的动作,得到数字孪生体中服务区域之间的资源调度结果。
其中,服务区域之间的资源调度结果为每一服务区域的主资源、次资源的划分结果。
步骤S4:将相邻的服务区域作为相邻服务区域组,根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,优化各服务区域的资源调度结果;并根据优化后的各服务区域的资源调度结果进行各个服务区域的资源分配,获取空间飞行系统在各服务区域内部的资源调度结果。
需要说明的是,资源复用方案是本实施例中方法的研究基础,即,在服务区域之间的资源划分完成后,再以若干个相邻服务区域为一组形成相邻服务区域组,进行相邻服务区域组内各服务区域的资源划分。
当区分服务区域内圆和外环的资源复用时,外环用户不能使用全部资源。因此,当相邻服务区域组内各服务区域的外环用户的资源块请求数量不均衡时,可以根据各服务区域的外环用户的资源块请求数量进行外环资源(示例性地,通信传输过程中的频率、功率、计算、存储等资源)的扩张或收缩,以提升资源利用率,满足业务需求,但是这样会带来干扰问题,以下具体说明并提出解决方案。
步骤S41:根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,确定相应服务区域的外环资源资源量;
具体地,分别汇总相邻服务区域组内各服务区域的所有外环用户的资源块请求数量,以按需等比例分配为原则,确定各个服务区域的外环资源量的大小。在本实施例中,相邻服务区域组内第
Figure SMS_212
个服务区域的外环资源量/>
Figure SMS_213
的计算公式如下所示:/>
Figure SMS_214
(13)
其中,
Figure SMS_215
表示相邻服务区域组内的服务区域的总数,/>
Figure SMS_216
表示相邻服务区域组内第/>
Figure SMS_217
个服务区域的外环用户的资源块请求数量的总数,/>
Figure SMS_218
表示相邻服务区域组内第/>
Figure SMS_219
个服务区域的外环用户的资源块请求数量的总数,/>
Figure SMS_220
表示资源块的总数。
步骤S42:将各服务区域的外环资源量在相邻两个业务请求时刻的变化量作为相应服务区域的外环资源偏置量;根据外环资源偏置量,确定是否存在资源干扰区;
具体地,若相邻服务区域组内服务区域之间的外环资源量偏置量没有交叠,则不存在资源干扰区,无需进行优化处理;若出现交叠,表明此时出现资源的扩张或收缩,将交叠区域作为资源干扰区。
步骤S43:当不存在资源干扰区时,则维持相邻服务区域组内各服务区域的资源调度结果;
步骤S44:当存在资源干扰区时,获取资源干扰区中的各服务区域使用各资源块的干扰等级;对于资源干扰区中的每一资源块,若使用该资源块的干扰等级最小的服务区域唯一,则将该资源块划分给使用该资源块的干扰等级最小的服务区域;若使用该资源块的干扰等级最小的服务区域不唯一,则将该资源块划分给该资源块的传输环境质量最高的服务区域;从而优化相应相邻服务区域组内各服务区域的资源调度结果;
将资源干扰区对应的服务区域之间不正交的主资源作为相应资源干扰区的资源块。对于资源干扰区中的每个资源块,由于资源干扰区对应的不同服务区域使用该资源的情况不同,干扰大小也不同。资源干扰区中的服务区域
Figure SMS_221
使用资源块/>
Figure SMS_222
的干扰等级/>
Figure SMS_223
表示为:
Figure SMS_224
(14)
其中,
Figure SMS_235
代表资源干扰区对应的服务区域的集合,/>
Figure SMS_227
代表服务区域/>
Figure SMS_231
使用资源块/>
Figure SMS_228
对服务区域/>
Figure SMS_232
使用资源块/>
Figure SMS_236
的干扰权重;若服务区域/>
Figure SMS_240
与服务区域/>
Figure SMS_234
的信号接收功率之差大于阈值,/>
Figure SMS_238
,代表干扰严重;否则,接收功率微弱,也不会造成干扰,
Figure SMS_225
;/>
Figure SMS_230
表示资源干扰区中的服务区域/>
Figure SMS_239
对资源块/>
Figure SMS_242
的占用情况;若服务区域/>
Figure SMS_241
占用资源块/>
Figure SMS_243
,/>
Figure SMS_226
;否则,/>
Figure SMS_229
。根据步骤S3中的服务区域之间的资源调度结果,获取服务区域/>
Figure SMS_233
对资源块/>
Figure SMS_237
的占用情况。
对于资源干扰区的各个资源块,对资源干扰区中的各服务区域使用该资源块的干扰等级按照从小到大的顺序排序,可得到使用该资源块后受干扰最小的服务区域,然后,将该资源块分配给使用该资源块的干扰等级的最小的服务区域。
以上考虑了资源块分配的干扰情况,对于干扰等级无法做出判断的情况,即使用该资源块的干扰等级最小的服务区域不唯一时,服务区域的资源块分配还需要考虑相应服务区域下用户的传输环境情况。此时,获取使用该资源块的干扰等级最小的多个服务区域对于当前资源块的传输环境质量,并将该资源块划分给该资源块的传输环境质量最高的服务区域。这里,将服务区域内所有外环用户上报的对于当前资源块的传输环境质量的累加和,作为相应服务区域对于当前资源块的传输环境质量。
至此,即可完成相应相邻服务区域组内各服务区域的资源调度结果的优化。之后,便开始针对每一服务区域内的所有用户进行资源分配。
步骤S45:根据优化后的各服务区域的资源调度结果,利用比例公平调度算法,进行各个服务区域的资源分配,获取空间飞行系统在各服务区域内部的资源调度结果。
轮询算法、最大信噪比算法和比例公平算法是常用的调度算法,可根据需要利用三种调度方法完成下行资源调度,完成资源分配的最后环节。在各个服务区域内部,对于用户的请求,如何将服务区域内拥有的资源块合理地分配给各个用户,完成资源的调度,常用的有最大信噪比调度算法、轮询调度算法和比例公平调度算法。其中,比例公平调度算法综合考虑了系统容量和用户间的公平性,因此,在本实施例中,选用比例公平调度算法作为资源调度算法的基线。
需要强调的是,由于数字孪生体系统和相应的空间飞行信息系统存在映射关系,因此,可以将数字孪生体在各服务区域内部的资源调度结果作为相应空间飞行系统在各服务区域内部的资源调度结果,以实现空间飞行信息系统的资源调度。
实施例2
为了进一步说明本发明的有益效果,以下进一步对本发明所提出的方法进行仿真分析验证。
表2 仿真参数设置
Figure SMS_244
算法收敛性分析
本实施例对所提出算法收敛性能进行仿真验证分析。在本实施例的仿真过程中,每个服务区域内分布16个用户,3个服务区域总共48个用户。算法总共对智能体进行1000个回合(epoch)的训练,其中每个回合由5条轨迹组成,每一条轨迹包含400个step。在每一轨迹的开始,环境都会刷新重置,即生成不同的用户分布情况以及业务请求情况。所述PPO算法每回合累计奖励收敛性能如图2所示。
从图2中可以看出,智能体每回合所获得的累计奖励值随着训练回合数的增加而逐渐上升,大约在130个回合左右趋于稳定。这是因为智能体通过每回合的训练,不断更新优化自身网络参数,逐渐学得最优策略,使得智能体获得的累计奖励值趋于稳定。在130个回合以后,每回合所获得的累计奖励值稳定在720左右,且上下波动不超过稳定值的1.5%,所以算法具有很好的收敛性能。
性能仿真分析
性能仿真中,PPO网络参数不再更新,而是直接加载已经收敛到最优策略的网络参数。为了保证数据的准确性,仿真一共统计了10000个step的数据计算资源使用效率。仿真中资源调度周期设置为1ms,即智能体的一个step对应时间为1ms,所以资源使用效率为10s内数据的平均值。本次仿真中,每个服务区域内16个用户,为了使仿真更符合实际情况,设置了在服务区域用户非均匀分布情况下,对算法进行仿真验证分析。用户在服务区域间非均匀分布,仿真得到的系统资源使用效率随着业务强度的增大而变化曲线如图3所示。
从图3中可以看出,对于服务区域间用户非均匀分布的情形,本发明所提出的方法在系统资源效率上优于传统的“内圆外环分区资源调度算法”。具体来说,当业务强度大于0.93时,所述方法的用户资源使用效率大约维持在1.38bit/s/单位资源左右,而传统的“内圆外环分区资源调度算法”的用户资源使用效率维持在1.1bit/s/单位资源左右,性能提升约为25%。
在同样的业务强度下,所述方法在服务区域间用户非均匀分布情况下,对资源使用效率提升较为明显。这是因为非均匀分布情况下,用户数目不同,在每一个资源调度时刻,不同服务区域间用户所需资源差异更大,所以如果不能根据每个服务区域需求的资源动态的调整资源使用方案,则会造成一些服务区域资源利用不足而另一些服务区域过载。本发明提出的方法以最大化用户资源使用效率为优化目标,可以根据环境的变化,动态的调整资源复用方案,可以很好的适应这种用户非均匀分布的情况,因此可以提升服务区域用户的资源使用效率。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于用户请求信息的资源分区智能化调度方法,其特征在于,包括:
将空间飞行信息系统映射成数字孪生体系统,获取数字孪生体系统中的所有资源块、服务区域及服务区域内的用户;所述用户分为外环用户和内圆用户;
利用强化学习PPO算法对数字孪生体系统在服务区域之间的资源调度过程进行建模,得到建模后的PPO代理模型;对建模后的PPO代理模型进行训练,得到训练后的PPO代理模型;
由训练后的PPO代理模型处理用户的业务请求,得到数字孪生体中服务区域之间的资源调度结果;
将相邻的服务区域作为相邻服务区域组,根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,优化各服务区域的资源调度结果;并根据优化后的各服务区域的资源调度结果进行各个服务区域的资源分配,获取空间飞行系统在各服务区域内部的资源调度结果。
2.根据权利要求1所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,建模后的PPO代理模型包括状态、动作和奖励函数;其中,
状态包括用户业务请求信息和用户分布位置信息;
动作指各个服务区域的主、次资源的分配策略;其中,主资源指在服务区域的任何位置使用的资源块,次资源指仅在服务区域的内圆位置使用的资源块;
奖励函数
Figure QLYQS_1
的设置如下:
Figure QLYQS_2
(1)
其中,
Figure QLYQS_3
表示资源调度周期/>
Figure QLYQS_4
内服务区域/>
Figure QLYQS_5
发送给外环用户正确传输的数据量,/>
Figure QLYQS_6
表示服务区域/>
Figure QLYQS_7
中的主资源在资源调度周期/>
Figure QLYQS_8
内的传输能力。
3.根据权利要求2所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,服务区域
Figure QLYQS_9
中的主资源在资源调度周期/>
Figure QLYQS_10
内的传输能力/>
Figure QLYQS_11
为:
Figure QLYQS_12
(2)
其中,
Figure QLYQS_13
为资源调度周期/>
Figure QLYQS_14
内的外环用户等待传输数据量,/>
Figure QLYQS_15
表示服务区域/>
Figure QLYQS_16
在一个资源调度周期/>
Figure QLYQS_17
内主资源所占资源块的总数,/>
Figure QLYQS_18
表示每个资源块在资源调度周期/>
Figure QLYQS_19
内最大可传输数据量。
4.根据权利要求2所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,对建模后的PPO代理模型进行如下训练:
初始化环境参数和PPO算法参数;其中,初始化PPO算法参数包括初始化回合总数epochs和每回合轨迹总数episode;
在每一次回合,清空经验池,重置经验池的容量为0;然后,执行episode次轨迹更新,获得episode条轨迹信息;
将经验池中存储的所有轨迹信息中的状态信息输入到Critic网络中,得到所有状态对应的
Figure QLYQS_20
值,然后计算优势函数;
计算Critic网络的损失函数,并根据Critic网络的损失函数反向传播更新Critic网络的网络参数;
计算Actor网络的损失函数,并根据Actor网络的损失函数反向传播更新Actor网络的网络参数;
重复执行多个回合的轨迹更新,直至Actor网络和Critic网络的状态收敛,或者,达到回合总数epoch,结束训练过程,最后得到训练后的PPO代理模型。
5.根据权利要求4所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,在执行每次轨迹更新过程中,执行:
智能体感知环境状态
Figure QLYQS_22
,然后依据资源复用策略生成动作/>
Figure QLYQS_25
作用于环境,获得奖赏/>
Figure QLYQS_27
和下一个状态/>
Figure QLYQS_23
,将轨迹信息(/>
Figure QLYQS_24
,/>
Figure QLYQS_26
,/>
Figure QLYQS_28
,/>
Figure QLYQS_21
)存储于经验池中;
基于下一步的状态
Figure QLYQS_29
,重复执行获取下一次轨迹更新过程,储存相应的轨迹信息;
执行完episode次轨迹更新后,获得episode条轨迹信息。
6.根据权利要求2-5中任一项所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,所述得到数字孪生体中服务区域之间的资源调度结果,执行:
获取当前用户业务请求信息和用户分布位置信息,生成当前时刻的状态;
将当前时刻的状态输入训练后的PPO代理模型,得到相应的动作;
基于得到的动作,得到数字孪生体中服务区域之间的资源调度结果;
其中,服务区域之间的资源调度结果为每一服务区域的主资源、次资源的划分结果。
7.根据权利要求6所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,所述优化各服务区域的资源调度结果,执行:
根据相邻服务区域组内各服务区域的外环用户的资源块请求数量,确定相应服务区域的外环资源资源量;
将各服务区域的外环资源量在相邻两个业务请求时刻的变化量作为相应服务区域的外环资源偏置量;根据外环资源偏置量,确定是否存在资源干扰区;
当不存在资源干扰区时,则维持相邻服务区域组内各服务区域的资源调度结果。
8.根据权利要求7所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,所述优化各服务区域的资源调度结果,还执行:
当存在资源干扰区时,获取资源干扰区中的各服务区域使用各资源块的干扰等级;
对于资源干扰区中的每一资源块,若使用该资源块的干扰等级最小的服务区域唯一,则将该资源块划分给使用该资源块的干扰等级最小的服务区域;
若使用该资源块的干扰等级最小的服务区域不唯一,则将该资源块划分给该资源块的传输环境质量最高的服务区域;从而优化相应相邻服务区域组内各服务区域的资源调度结果。
9.根据权利要求7所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,相邻服务区域组内第
Figure QLYQS_30
个服务区域的外环资源量/>
Figure QLYQS_31
的计算公式如下所示:
Figure QLYQS_32
(3)
其中,
Figure QLYQS_33
表示相邻服务区域组内的服务区域的总数,/>
Figure QLYQS_34
表示相邻服务区域组内第/>
Figure QLYQS_35
个服务区域的外环用户的资源块请求数量的总数,/>
Figure QLYQS_36
表示相邻服务区域组内第/>
Figure QLYQS_37
个服务区域的外环用户的资源块请求数量的总数,/>
Figure QLYQS_38
表示资源块的总数。
10.根据权利要求8所述的基于用户请求信息的资源分区智能化调度方法,其特征在于,资源干扰区中的服务区域
Figure QLYQS_39
使用资源块/>
Figure QLYQS_40
的干扰等级/>
Figure QLYQS_41
表示为:
Figure QLYQS_42
(4)
其中,
Figure QLYQS_53
代表资源干扰区对应的服务区域的集合,/>
Figure QLYQS_45
代表服务区域/>
Figure QLYQS_49
使用资源块/>
Figure QLYQS_54
对服务区域/>
Figure QLYQS_58
使用资源块/>
Figure QLYQS_57
的干扰权重;若服务区域/>
Figure QLYQS_59
与服务区域/>
Figure QLYQS_51
的信号接收功率之差大于阈值,/>
Figure QLYQS_55
;否则,/>
Figure QLYQS_43
;/>
Figure QLYQS_47
表示资源干扰区中的服务区域/>
Figure QLYQS_46
对资源块/>
Figure QLYQS_50
的占用情况;若服务区域/>
Figure QLYQS_52
占用资源块/>
Figure QLYQS_56
,/>
Figure QLYQS_44
;否则,/>
Figure QLYQS_48
CN202310551708.5A 2023-05-17 2023-05-17 一种基于用户请求信息的资源分区智能化调度方法 Active CN116302569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310551708.5A CN116302569B (zh) 2023-05-17 2023-05-17 一种基于用户请求信息的资源分区智能化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310551708.5A CN116302569B (zh) 2023-05-17 2023-05-17 一种基于用户请求信息的资源分区智能化调度方法

Publications (2)

Publication Number Publication Date
CN116302569A true CN116302569A (zh) 2023-06-23
CN116302569B CN116302569B (zh) 2023-08-15

Family

ID=86796290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310551708.5A Active CN116302569B (zh) 2023-05-17 2023-05-17 一种基于用户请求信息的资源分区智能化调度方法

Country Status (1)

Country Link
CN (1) CN116302569B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116647462A (zh) * 2023-07-21 2023-08-25 安世亚太科技股份有限公司 一种针对用户不均匀分布的资源重复使用方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107666711A (zh) * 2016-07-27 2018-02-06 成都鼎桥通信技术有限公司 一种下行资源配置方法和装置
CN112437449A (zh) * 2020-09-30 2021-03-02 国网安徽省电力有限公司信息通信分公司 联合资源分配方法及区域编排器
CN113778677A (zh) * 2021-09-03 2021-12-10 天津大学 面向sla的云边协同资源编排与请求调度智能优化方法
CN114071528A (zh) * 2021-11-16 2022-02-18 北京邮电大学 基于业务需求预测的多波束卫星波束资源适配方法
CN114125708A (zh) * 2022-01-20 2022-03-01 南京信息工程大学 一种基于数字孪生的无人机集群轨迹优化和任务卸载方法
CN114785397A (zh) * 2022-03-11 2022-07-22 浙江以正通信技术有限公司 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
WO2022241808A1 (zh) * 2021-05-19 2022-11-24 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
CN115562832A (zh) * 2022-10-14 2023-01-03 天津大学 一种基于深度强化学习的多资源服务功能链调度方法
WO2023273298A1 (zh) * 2021-06-30 2023-01-05 平安科技(深圳)有限公司 用户轨迹识别方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107666711A (zh) * 2016-07-27 2018-02-06 成都鼎桥通信技术有限公司 一种下行资源配置方法和装置
CN112437449A (zh) * 2020-09-30 2021-03-02 国网安徽省电力有限公司信息通信分公司 联合资源分配方法及区域编排器
WO2022241808A1 (zh) * 2021-05-19 2022-11-24 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
WO2023273298A1 (zh) * 2021-06-30 2023-01-05 平安科技(深圳)有限公司 用户轨迹识别方法、装置、设备及存储介质
CN113778677A (zh) * 2021-09-03 2021-12-10 天津大学 面向sla的云边协同资源编排与请求调度智能优化方法
CN114071528A (zh) * 2021-11-16 2022-02-18 北京邮电大学 基于业务需求预测的多波束卫星波束资源适配方法
CN114125708A (zh) * 2022-01-20 2022-03-01 南京信息工程大学 一种基于数字孪生的无人机集群轨迹优化和任务卸载方法
CN114785397A (zh) * 2022-03-11 2022-07-22 浙江以正通信技术有限公司 无人机基站控制方法、飞行轨迹优化模型构建、训练方法
CN115562832A (zh) * 2022-10-14 2023-01-03 天津大学 一种基于深度强化学习的多资源服务功能链调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱妍等: "《基于PPO算法的无人机近距空战自主引导方法》", 《电光与控制》, vol. 30, no. 1, pages 8 - 14 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116647462A (zh) * 2023-07-21 2023-08-25 安世亚太科技股份有限公司 一种针对用户不均匀分布的资源重复使用方法
CN116647462B (zh) * 2023-07-21 2023-10-13 安世亚太科技股份有限公司 一种针对用户不均匀分布的资源重复使用方法

Also Published As

Publication number Publication date
CN116302569B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
Ning et al. Dynamic computation offloading and server deployment for UAV-enabled multi-access edge computing
Wang et al. Intelligent cognitive radio in 5G: AI-based hierarchical cognitive cellular networks
Wei et al. Joint optimization of caching, computing, and radio resources for fog-enabled IoT using natural actor–critic deep reinforcement learning
Wang et al. Delay-sensitive multi-period computation offloading with reliability guarantees in fog networks
Bloem et al. A stackelberg game for power control and channel allocation in cognitive radio networks
CN111182637B (zh) 一种基于生成对抗强化学习的无线网络资源分配方法
Zhu et al. BLOT: Bandit learning-based offloading of tasks in fog-enabled networks
CN116306324B (zh) 一种基于多智能体的分布式资源调度方法
CN116302569B (zh) 一种基于用户请求信息的资源分区智能化调度方法
CN114698128B (zh) 一种认知星地网络的抗干扰信道选择方法和系统
Ray et al. Proactive microservice placement and migration for mobile edge computing
CN113692021A (zh) 一种基于亲密度的5g网络切片智能资源分配方法
CN113407249B (zh) 一种面向位置隐私保护的任务卸载方法
CN111813539A (zh) 一种基于优先级与协作的边缘计算资源分配方法
AlQerm et al. Enhanced online Q-learning scheme for resource allocation with maximum utility and fairness in edge-IoT networks
CN115580882A (zh) 动态网络切片资源分配方法及装置、存储介质及电子设备
Robles-Enciso et al. A multi-layer guided reinforcement learning-based tasks offloading in edge computing
Ghafouri et al. Mobile-kube: Mobility-aware and energy-efficient service orchestration on kubernetes edge servers
CN113032149B (zh) 基于演化博弈的边缘计算服务放置和请求分配方法及系统
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN112312299A (zh) 服务卸载方法、装置及系统
CN117202265A (zh) 边缘环境下基于dqn的服务迁移方法
CN116467069A (zh) 基于ppo算法的空间飞行信息系统资源调度方法及系统
Zhang et al. TAME: An efficient task allocation algorithm for integrated mobile gaming
CN110392377A (zh) 一种5g超密集组网资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant