CN113115451A - 基于多智能体深度强化学习的干扰管理和资源分配方案 - Google Patents
基于多智能体深度强化学习的干扰管理和资源分配方案 Download PDFInfo
- Publication number
- CN113115451A CN113115451A CN202110202985.6A CN202110202985A CN113115451A CN 113115451 A CN113115451 A CN 113115451A CN 202110202985 A CN202110202985 A CN 202110202985A CN 113115451 A CN113115451 A CN 113115451A
- Authority
- CN
- China
- Prior art keywords
- agent
- allocation scheme
- resource allocation
- interference management
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 22
- 238000007726 management method Methods 0.000 title claims abstract description 21
- 230000002787 reinforcement Effects 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000000737 periodic effect Effects 0.000 claims abstract description 8
- 238000010187 selection method Methods 0.000 claims abstract description 3
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 29
- 238000010586 diagram Methods 0.000 description 5
- 238000005265 energy consumption Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 208000002193 Pain Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/541—Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种基于多智能体深度强化学习的干扰管理和资源分配方案,包括:最优的智能体CPU周期频率分配方案和一种新型的C‑MADDPG优化算法,最优智能体CPU周期频率分配方案可以根据优化理论生成,新型的C‑MADDPG优化算法,包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法,与现有技术相比,本发明通过提出的CPU周期频率优化方法来选取最优的CPU周期频率;当每个智能体接收到多变的、动态的和复杂的信道状态信息时,每个智能体将输出卸载决策、信道分配和发射功率选择;根据获得的奖励函数,来进行actor‑critic网络参数的调整,将得到的结果对神经网络进行间断性的训练,以使其更加稳定且快速的收敛到最优解。
Description
技术领域
本发明涉及边缘节点和网络模型技术领域,尤其涉及一种基于多智能体深度 强化学习的干扰管理和资源分配方案。
背景技术
近年来,边缘节点指在靠近用户的网络边缘侧构建的业务平台,提供存储、 计算、网络等资源,将部分关键业务应用下沉到接入网络边缘,以减少网络传输 和多级转发带来的宽度和时延损耗。
当前的深度边缘节点和网络模型:由于下一代移动通信网络主要布局在垂直 工业场景,因此本地范围的通信技术革新变得非常重要,深度边缘节点的首要优 势是将通信和智能服务推向网络边缘以实现普适智能的愿景。这不仅可以把网络 性能推向上界,而且可以探索工业级的隔离-以成本有益的方式推动许多工业场 景。然而,一种单的深度边缘节点网络不能穷尽大规模系统的力量,大量的相对 独立的和隔离的边缘网络不能利用数字转换系统的能量,这会成为未来工业创新 的障碍。因此,深度边缘节点和网络中有多个无线装置,我们把这多个无线装置 当成多个智能体,深度边缘节点和网络的目标是基于协作、可控制的方法来推动 大规模网络架构的设计。然而,在深度边缘节点的复杂多变的网络环境中,信道 状态是可变的,同时多个边缘节点中的智能体会存在相互干扰,这会带来大量的 能耗和开销,使得系统的总部署成本变高,这会为智能体的卸载决策、资源分配 和干扰性管理带来新的挑战。
因此我们提出一种C-MADDPG算法,该算法的目标是为边缘节点提供一种 计算和智能能力,而且可以凭借实时地自适应协作方法推动深度边缘网络中无线 通信和计算资源的深度收敛,以对抗无线系统中的干扰管理和复杂多变的信道状 态矢量。
现有的传统的求解方法为:
(1)Random-Strategy:随机策略。该方法解释为在面对高动态的网络环境(信 道状态信息)时,针对应用程序任务,随机选择卸载决策,从而计算网络开销。 但是该随机策略方法会难以适应信道的选择,这将带来大量的网络开销和时延, 难以保证服务质量。
(2)Equal Power Transmission:等功率发射。等功率发射的方法尽管可以使 得每个智能体的发射功率相同,但是难以找到一种最优的卸载决策和资源分配方 法来保证用户服务质量,降低系统能耗和部署成本。
发明内容
为此,本发明提供一种基于多智能体深度强化学习的干扰管理和资源分配方 案,用以可以凭借实时地自适应协作方法推动深度边缘网络中无线通信和计算资 源的深度收敛,以对抗无线系统中的干扰管理和复杂多变的信道状态矢量的问题。
本发明提供一种,包括:最优的智能体CPU周期频率分配方案和一种新型 的C-MADDPG优化算法。
进一步地,所述最优智能体CPU周期频率分配方案可以根据优化理论生成。
进一步地,所述一种新型的C-MADDPG优化算法,包括每个智能体的CPU 周期频率分配方法、卸载决策、发射功率分配和信道选择方法。
进一步地,所述一种新型的C-MADDPG优化算法,可以根据将可变的信道 状态抽象为智能体状态,生成动作。
进一步地,所述动作包括卸载决策、信道选择、和发射功率分配,用以根据 收到的奖励调整调整网络参数,以使得其更快的收敛到最佳状态。
进一步地,所述方法在经过卸载决策和资源分配后,通过critic网络进行参 数的调整,收敛到最优解。
进一步地,所述基于多智能体深度强化学习的干扰管理和资源分配方案,采 用一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边缘 云服务器组成。
与现有技术相比,本发明通过提出的CPU周期频率优化方法来选取最优的 CPU周期频率;当每个智能体接收到多变的、动态的和复杂的信道状态信息时, 每个智能体将输出卸载决策、信道分配和发射功率选择;根据获得的奖励函数, 来进行actor-critic网络参数的调整,将得到的结果对神经网络进行间断性的训练, 以使其更加稳定且快速的收敛到最优解。
附图说明
图1为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的边缘节点装置图;
图2为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的C-MADDPG算法框架图;
图3为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的仿真算法图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一 步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限 定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是, 这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、 “外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅 仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以 特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定, 术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以 是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接 相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域 技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明的技术方案进行详细说明:
实施例一:
一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边 缘云服务器组成,根据图1所示,物联网装置包括汽车、平板电脑、控制器、检 测器及传感器等,这些装置将收集到应用程序任务,并确定执行模式;宏基站中 搭载了边缘云(Mobile EdgeComputing,MEC)服务器,以进行数据任务的卸载、 处理及资源分配,并将处理的结果返回给物联网装置。图1中有1个AP,每个 节点中有N个智能体,每个智能体n接收到一个计算密集型任务,其中表示 任务大小,表示执行计算密集型任务所需要的总的CPU周期数,表示处理每 个任务的最大可容忍时延。
优化问题可以被表示为:
实施例二:
针对背景求解方法中存在的问题,提出了一种带CPU周期频率辅助的多智 能体深度确定型策略梯度方案(C-MADDPG),根据图2所示,来探索卸载决策、 资源分配(智能体发射功率)和信道之间的干扰管理方法。
该算法包含三个主要部分,其一是首先通过提出的CPU周期频率优化方法 来选取最优的CPU周期频率;其二是当每个智能体接收到多变的、动态的和复 杂的信道状态信息时,每个智能体将输出卸载决策、信道分配和发射功率选择; 其三是根据获得的奖励函数,来进行actor-critic网络参数的调整,将得到的结果 对神经网络进行间断性的训练,以使其更加稳定且快速的收敛到最优解。
具体步骤如下:
总的优化问题表示如下:
(1)CPU cycle allocation:推导过程如下
(2)转化为问题P2.1之后,根据图2提出的C-MADDPG算法框架图,首 先将可变的、复杂的网络环境下的信道增益视为每个智能体的状态,然后通过 Actor Current Network生成卸载决策、发射功率分配以及每个智能体的信道选择, 然后把P2.1中的优化函数视为奖励函数,后通过Critic Current Network和Critic Target网络来生成评价函数,利用Actor Target网络生成目标动作,通过上述神 经网络之间的合作,通过调整参数,该智能体可以收敛到最佳状态,即找到最优 的成本函数。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是, 本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方 式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出 等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围 之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,包括:最优的智能体CPU周期频率分配方案和一种新型的C-MADDPG优化算法。
2.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述最优智能体CPU周期频率分配方案可以根据优化理论生成。
3.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述一种新型的C-MADDPG优化算法,包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法。
4.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述一种新型的C-MADDPG优化算法,可以根据将可变的信道状态抽象为智能体状态,生成动作。
5.根据权利要求1-4所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述动作包括卸载决策、信道选择、和发射功率分配,用以根据收到的奖励调整调整网络参数,以使得其更快的收敛到最佳状态。
6.根据权利要求1-3所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述方法在经过卸载决策和资源分配后,通过critic网络进行参数的调整,收敛到最优解。
7.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述基于多智能体深度强化学习的干扰管理和资源分配方案,采用一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边缘云服务器组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110202985.6A CN113115451A (zh) | 2021-02-23 | 2021-02-23 | 基于多智能体深度强化学习的干扰管理和资源分配方案 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110202985.6A CN113115451A (zh) | 2021-02-23 | 2021-02-23 | 基于多智能体深度强化学习的干扰管理和资源分配方案 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113115451A true CN113115451A (zh) | 2021-07-13 |
Family
ID=76709326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110202985.6A Pending CN113115451A (zh) | 2021-02-23 | 2021-02-23 | 基于多智能体深度强化学习的干扰管理和资源分配方案 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113115451A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890653A (zh) * | 2021-08-30 | 2022-01-04 | 广东工业大学 | 面向多用户利益的多智能体强化学习功率分配方法 |
CN114585004A (zh) * | 2022-03-03 | 2022-06-03 | 南京信息工程大学 | 一种基于Actor-Critic算法的多智能体异构网络资源优化方法 |
CN117130769A (zh) * | 2023-02-25 | 2023-11-28 | 荣耀终端有限公司 | 一种调频方法、频率调节神经网络的训练方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190124667A1 (en) * | 2017-10-23 | 2019-04-25 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Method for allocating transmission resources using reinforcement learning |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN111666149A (zh) * | 2020-05-06 | 2020-09-15 | 西北工业大学 | 基于深度强化学习的超密边缘计算网络移动性管理方法 |
CN111918339A (zh) * | 2020-07-17 | 2020-11-10 | 西安交通大学 | 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 |
-
2021
- 2021-02-23 CN CN202110202985.6A patent/CN113115451A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190124667A1 (en) * | 2017-10-23 | 2019-04-25 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Method for allocating transmission resources using reinforcement learning |
CN109729528A (zh) * | 2018-12-21 | 2019-05-07 | 北京邮电大学 | 一种基于多智能体深度强化学习的d2d资源分配方法 |
CN109947567A (zh) * | 2019-03-14 | 2019-06-28 | 深圳先进技术研究院 | 一种多智能体强化学习调度方法、系统及电子设备 |
CN111666149A (zh) * | 2020-05-06 | 2020-09-15 | 西北工业大学 | 基于深度强化学习的超密边缘计算网络移动性管理方法 |
CN111918339A (zh) * | 2020-07-17 | 2020-11-10 | 西安交通大学 | 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113890653A (zh) * | 2021-08-30 | 2022-01-04 | 广东工业大学 | 面向多用户利益的多智能体强化学习功率分配方法 |
CN113890653B (zh) * | 2021-08-30 | 2023-06-09 | 广东工业大学 | 面向多用户利益的多智能体强化学习功率分配方法 |
CN114585004A (zh) * | 2022-03-03 | 2022-06-03 | 南京信息工程大学 | 一种基于Actor-Critic算法的多智能体异构网络资源优化方法 |
CN114585004B (zh) * | 2022-03-03 | 2023-04-25 | 南京信息工程大学 | 一种基于Actor-Critic算法的多智能体异构网络资源优化方法 |
CN117130769A (zh) * | 2023-02-25 | 2023-11-28 | 荣耀终端有限公司 | 一种调频方法、频率调节神经网络的训练方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seid et al. | Multi-agent DRL for task offloading and resource allocation in multi-UAV enabled IoT edge network | |
Dai et al. | Joint load balancing and offloading in vehicular edge computing and networks | |
Do-Duy et al. | Digital twin-aided intelligent offloading with edge selection in mobile edge computing | |
Zhu et al. | Pushing AI to wireless network edge: An overview on integrated sensing, communication, and computation towards 6G | |
Maksymyuk et al. | Deep learning based massive MIMO beamforming for 5G mobile network | |
Liao et al. | Learning-based queue-aware task offloading and resource allocation for space–air–ground-integrated power IoT | |
Yang et al. | Deep reinforcement learning based massive access management for ultra-reliable low-latency communications | |
CN113115451A (zh) | 基于多智能体深度强化学习的干扰管理和资源分配方案 | |
Hou et al. | Joint allocation of wireless resource and computing capability in MEC-enabled vehicular network | |
Luo et al. | Online power control for 5G wireless communications: A deep Q-network approach | |
Masdari et al. | Fuzzy logic-based sink selection and load balancing in multi-sink wireless sensor networks | |
Wu et al. | Apprenticeship learning based spectrum decision in multi-channel wireless mesh networks with multi-beam antennas | |
Wei et al. | Optimal offloading in fog computing systems with non-orthogonal multiple access | |
Chu et al. | Utility maximization for IRS assisted wireless powered mobile edge computing and caching (WP-MECC) networks | |
Luo et al. | Federated deep reinforcement learning for RIS-assisted indoor multi-robot communication systems | |
Azizi et al. | MIX-MAB: Reinforcement learning-based resource allocation algorithm for LoRaWAN | |
Venkateswararao et al. | Binary-PSO-based energy-efficient small cell deployment in 5G ultra-dense network | |
Zheng et al. | Open-loop communications for up-link URLLC under clustered user distribution | |
NaderiAlizadeh et al. | State-augmented learnable algorithms for resource management in wireless networks | |
Singh et al. | User association in dense mmwave networks as restless bandits | |
Khuntia et al. | An efficient Deep reinforcement learning with extended Kalman filter for device‐to‐device communication underlaying cellular network | |
Zhu et al. | Learning-based load-aware heterogeneous vehicular edge computing | |
CN115802370A (zh) | 一种通信方法及装置 | |
Sana et al. | Transferable and Distributed User Association Policies for 5G and Beyond Networks | |
Zeng et al. | Energy-stabilized computing offloading algorithm for uavs with energy harvesting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210713 |