CN113115451A - 基于多智能体深度强化学习的干扰管理和资源分配方案 - Google Patents

基于多智能体深度强化学习的干扰管理和资源分配方案 Download PDF

Info

Publication number
CN113115451A
CN113115451A CN202110202985.6A CN202110202985A CN113115451A CN 113115451 A CN113115451 A CN 113115451A CN 202110202985 A CN202110202985 A CN 202110202985A CN 113115451 A CN113115451 A CN 113115451A
Authority
CN
China
Prior art keywords
agent
allocation scheme
resource allocation
interference management
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110202985.6A
Other languages
English (en)
Inventor
姚海鹏
宫永康
忻向军
张尼
吴云峰
童炉
李韵聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tibet Gaochi Science And Technology Information Industry Group Co ltd
Beijing University of Posts and Telecommunications
Original Assignee
Tibet Gaochi Science And Technology Information Industry Group Co ltd
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tibet Gaochi Science And Technology Information Industry Group Co ltd, Beijing University of Posts and Telecommunications filed Critical Tibet Gaochi Science And Technology Information Industry Group Co ltd
Priority to CN202110202985.6A priority Critical patent/CN113115451A/zh
Publication of CN113115451A publication Critical patent/CN113115451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于多智能体深度强化学习的干扰管理和资源分配方案,包括:最优的智能体CPU周期频率分配方案和一种新型的C‑MADDPG优化算法,最优智能体CPU周期频率分配方案可以根据优化理论生成,新型的C‑MADDPG优化算法,包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法,与现有技术相比,本发明通过提出的CPU周期频率优化方法来选取最优的CPU周期频率;当每个智能体接收到多变的、动态的和复杂的信道状态信息时,每个智能体将输出卸载决策、信道分配和发射功率选择;根据获得的奖励函数,来进行actor‑critic网络参数的调整,将得到的结果对神经网络进行间断性的训练,以使其更加稳定且快速的收敛到最优解。

Description

基于多智能体深度强化学习的干扰管理和资源分配方案
技术领域
本发明涉及边缘节点和网络模型技术领域,尤其涉及一种基于多智能体深度 强化学习的干扰管理和资源分配方案。
背景技术
近年来,边缘节点指在靠近用户的网络边缘侧构建的业务平台,提供存储、 计算、网络等资源,将部分关键业务应用下沉到接入网络边缘,以减少网络传输 和多级转发带来的宽度和时延损耗。
当前的深度边缘节点和网络模型:由于下一代移动通信网络主要布局在垂直 工业场景,因此本地范围的通信技术革新变得非常重要,深度边缘节点的首要优 势是将通信和智能服务推向网络边缘以实现普适智能的愿景。这不仅可以把网络 性能推向上界,而且可以探索工业级的隔离-以成本有益的方式推动许多工业场 景。然而,一种单的深度边缘节点网络不能穷尽大规模系统的力量,大量的相对 独立的和隔离的边缘网络不能利用数字转换系统的能量,这会成为未来工业创新 的障碍。因此,深度边缘节点和网络中有多个无线装置,我们把这多个无线装置 当成多个智能体,深度边缘节点和网络的目标是基于协作、可控制的方法来推动 大规模网络架构的设计。然而,在深度边缘节点的复杂多变的网络环境中,信道 状态是可变的,同时多个边缘节点中的智能体会存在相互干扰,这会带来大量的 能耗和开销,使得系统的总部署成本变高,这会为智能体的卸载决策、资源分配 和干扰性管理带来新的挑战。
因此我们提出一种C-MADDPG算法,该算法的目标是为边缘节点提供一种 计算和智能能力,而且可以凭借实时地自适应协作方法推动深度边缘网络中无线 通信和计算资源的深度收敛,以对抗无线系统中的干扰管理和复杂多变的信道状 态矢量。
现有的传统的求解方法为:
(1)Random-Strategy:随机策略。该方法解释为在面对高动态的网络环境(信 道状态信息)时,针对应用程序任务,随机选择卸载决策,从而计算网络开销。 但是该随机策略方法会难以适应信道的选择,这将带来大量的网络开销和时延, 难以保证服务质量。
(2)Equal Power Transmission:等功率发射。等功率发射的方法尽管可以使 得每个智能体的发射功率相同,但是难以找到一种最优的卸载决策和资源分配方 法来保证用户服务质量,降低系统能耗和部署成本。
发明内容
为此,本发明提供一种基于多智能体深度强化学习的干扰管理和资源分配方 案,用以可以凭借实时地自适应协作方法推动深度边缘网络中无线通信和计算资 源的深度收敛,以对抗无线系统中的干扰管理和复杂多变的信道状态矢量的问题。
本发明提供一种,包括:最优的智能体CPU周期频率分配方案和一种新型 的C-MADDPG优化算法。
进一步地,所述最优智能体CPU周期频率分配方案可以根据优化理论生成。
进一步地,所述一种新型的C-MADDPG优化算法,包括每个智能体的CPU 周期频率分配方法、卸载决策、发射功率分配和信道选择方法。
进一步地,所述一种新型的C-MADDPG优化算法,可以根据将可变的信道 状态抽象为智能体状态,生成动作。
进一步地,所述动作包括卸载决策、信道选择、和发射功率分配,用以根据 收到的奖励调整调整网络参数,以使得其更快的收敛到最佳状态。
进一步地,所述方法在经过卸载决策和资源分配后,通过critic网络进行参 数的调整,收敛到最优解。
进一步地,所述基于多智能体深度强化学习的干扰管理和资源分配方案,采 用一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边缘 云服务器组成。
与现有技术相比,本发明通过提出的CPU周期频率优化方法来选取最优的 CPU周期频率;当每个智能体接收到多变的、动态的和复杂的信道状态信息时, 每个智能体将输出卸载决策、信道分配和发射功率选择;根据获得的奖励函数, 来进行actor-critic网络参数的调整,将得到的结果对神经网络进行间断性的训练, 以使其更加稳定且快速的收敛到最优解。
附图说明
图1为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的边缘节点装置图;
图2为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的C-MADDPG算法框架图;
图3为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方 案的仿真算法图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一 步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限 定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是, 这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、 “外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅 仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以 特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定, 术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以 是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接 相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域 技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
以下结合附图对本发明的技术方案进行详细说明:
实施例一:
一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边 缘云服务器组成,根据图1所示,物联网装置包括汽车、平板电脑、控制器、检 测器及传感器等,这些装置将收集到应用程序任务,并确定执行模式;宏基站中 搭载了边缘云(Mobile EdgeComputing,MEC)服务器,以进行数据任务的卸载、 处理及资源分配,并将处理的结果返回给物联网装置。图1中有1个AP,每个 节点中有N个智能体,每个智能体n接收到一个计算密集型任务,其中表示 任务大小,表示执行计算密集型任务所需要的总的CPU周期数,表示处理每 个任务的最大可容忍时延。
(1)智能体的本地处理时延为:
Figure RE-GDA0003046366830000011
(2)智能体的本地处理能耗可以表示为:
Figure RE-GDA0003046366830000012
(3)上行传输速率可以被表示为:
Figure RE-GDA0003046366830000013
其中,
Figure RE-GDA0003046366830000014
表示智能体遭受的来自其他节点的 干扰。
选择某一条无线信道后上行传输速率可以被表示为:
Figure RE-GDA0003046366830000015
(4)边缘云的传输时廷可以被表示为:
Figure RE-GDA0003046366830000016
(5)边缘云的执行时延可以被表示为:
Figure RE-GDA0003046366830000017
(6)边缘云的总时延可以被表示为:
Figure RE-GDA0003046366830000018
(7)边缘云的传输能耗可以被表示为:
Figure RE-GDA0003046366830000019
(7)边缘云的传输能耗可以被表示为:
Figure RE-GDA00030463668300000110
优化问题可以被表示为:
Figure BDA0002948580350000061
实施例二:
针对背景求解方法中存在的问题,提出了一种带CPU周期频率辅助的多智 能体深度确定型策略梯度方案(C-MADDPG),根据图2所示,来探索卸载决策、 资源分配(智能体发射功率)和信道之间的干扰管理方法。
该算法包含三个主要部分,其一是首先通过提出的CPU周期频率优化方法 来选取最优的CPU周期频率;其二是当每个智能体接收到多变的、动态的和复 杂的信道状态信息时,每个智能体将输出卸载决策、信道分配和发射功率选择; 其三是根据获得的奖励函数,来进行actor-critic网络参数的调整,将得到的结果 对神经网络进行间断性的训练,以使其更加稳定且快速的收敛到最优解。
具体步骤如下:
总的优化问题表示如下:
Figure BDA0002948580350000071
(1)CPU cycle allocation:推导过程如下
Figure BDA0002948580350000072
Figure BDA0002948580350000081
Figure BDA0002948580350000082
Figure BDA0002948580350000083
Figure BDA0002948580350000084
Figure BDA0002948580350000085
(2)转化为问题P2.1之后,根据图2提出的C-MADDPG算法框架图,首 先将可变的、复杂的网络环境下的信道增益视为每个智能体的状态,然后通过 Actor Current Network生成卸载决策、发射功率分配以及每个智能体的信道选择, 然后把P2.1中的优化函数视为奖励函数,后通过Critic Current Network和Critic Target网络来生成评价函数,利用Actor Target网络生成目标动作,通过上述神 经网络之间的合作,通过调整参数,该智能体可以收敛到最佳状态,即找到最优 的成本函数。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是, 本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方 式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出 等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围 之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,包括:最优的智能体CPU周期频率分配方案和一种新型的C-MADDPG优化算法。
2.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述最优智能体CPU周期频率分配方案可以根据优化理论生成。
3.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述一种新型的C-MADDPG优化算法,包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法。
4.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述一种新型的C-MADDPG优化算法,可以根据将可变的信道状态抽象为智能体状态,生成动作。
5.根据权利要求1-4所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述动作包括卸载决策、信道选择、和发射功率分配,用以根据收到的奖励调整调整网络参数,以使得其更快的收敛到最佳状态。
6.根据权利要求1-3所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述方法在经过卸载决策和资源分配后,通过critic网络进行参数的调整,收敛到最优解。
7.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案,其特征在于,所述基于多智能体深度强化学习的干扰管理和资源分配方案,采用一个深度边缘节点和网络模型,主要有多个智能体、宏基站、接入节点、边缘云服务器组成。
CN202110202985.6A 2021-02-23 2021-02-23 基于多智能体深度强化学习的干扰管理和资源分配方案 Pending CN113115451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110202985.6A CN113115451A (zh) 2021-02-23 2021-02-23 基于多智能体深度强化学习的干扰管理和资源分配方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110202985.6A CN113115451A (zh) 2021-02-23 2021-02-23 基于多智能体深度强化学习的干扰管理和资源分配方案

Publications (1)

Publication Number Publication Date
CN113115451A true CN113115451A (zh) 2021-07-13

Family

ID=76709326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110202985.6A Pending CN113115451A (zh) 2021-02-23 2021-02-23 基于多智能体深度强化学习的干扰管理和资源分配方案

Country Status (1)

Country Link
CN (1) CN113115451A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890653A (zh) * 2021-08-30 2022-01-04 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN114585004A (zh) * 2022-03-03 2022-06-03 南京信息工程大学 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN117130769A (zh) * 2023-02-25 2023-11-28 荣耀终端有限公司 一种调频方法、频率调节神经网络的训练方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190124667A1 (en) * 2017-10-23 2019-04-25 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for allocating transmission resources using reinforcement learning
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190124667A1 (en) * 2017-10-23 2019-04-25 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method for allocating transmission resources using reinforcement learning
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN111666149A (zh) * 2020-05-06 2020-09-15 西北工业大学 基于深度强化学习的超密边缘计算网络移动性管理方法
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113890653A (zh) * 2021-08-30 2022-01-04 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN113890653B (zh) * 2021-08-30 2023-06-09 广东工业大学 面向多用户利益的多智能体强化学习功率分配方法
CN114585004A (zh) * 2022-03-03 2022-06-03 南京信息工程大学 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN114585004B (zh) * 2022-03-03 2023-04-25 南京信息工程大学 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN117130769A (zh) * 2023-02-25 2023-11-28 荣耀终端有限公司 一种调频方法、频率调节神经网络的训练方法及电子设备

Similar Documents

Publication Publication Date Title
Yang et al. Learning-based energy-efficient resource management by heterogeneous RF/VLC for ultra-reliable low-latency industrial IoT networks
Dai et al. Joint load balancing and offloading in vehicular edge computing and networks
Maksymyuk et al. Deep learning based massive MIMO beamforming for 5G mobile network
Yang et al. Deep reinforcement learning based massive access management for ultra-reliable low-latency communications
Zhu et al. Pushing AI to wireless network edge: An overview on integrated sensing, communication, and computation towards 6G
Xu et al. Deep reinforcement learning based joint edge resource management in maritime network
CN113115451A (zh) 基于多智能体深度强化学习的干扰管理和资源分配方案
Hou et al. Joint allocation of wireless resource and computing capability in MEC-enabled vehicular network
Luo et al. Online power control for 5G wireless communications: A deep Q-network approach
Masdari et al. Fuzzy logic-based sink selection and load balancing in multi-sink wireless sensor networks
Wu et al. Apprenticeship learning based spectrum decision in multi-channel wireless mesh networks with multi-beam antennas
Han et al. Secrecy capacity maximization for a UAV-assisted MEC system
Wei et al. Optimal offloading in fog computing systems with non-orthogonal multiple access
Amin et al. A robust resource allocation scheme for device-to-device communications based on Q-learning
Chu et al. Utility maximization for IRS assisted wireless powered mobile edge computing and caching (WP-MECC) networks
Azizi et al. MIX-MAB: Reinforcement learning-based resource allocation algorithm for LoRaWAN
Venkateswararao et al. Binary-PSO-based energy-efficient small cell deployment in 5G ultra-dense network
Luo et al. Federated deep reinforcement learning for RIS-assisted indoor multi-robot communication systems
Khuntia et al. An efficient Deep reinforcement learning with extended Kalman filter for device‐to‐device communication underlaying cellular network
Singh et al. User association in dense mmwave networks as restless bandits
CN115802370A (zh) 一种通信方法及装置
Sana et al. Transferable and Distributed User Association Policies for 5G and Beyond Networks
Jothi et al. Nelder mead-based spider monkey optimization for optimal power and channel allocation in MANET
Kuang et al. Utility-Aware UAV Deployment and Task Offloading in Multi-UAV Edge Computing Networks
Shang et al. Computation offloading management in vehicular edge network under imperfect CSI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210713

RJ01 Rejection of invention patent application after publication