CN113115451A

CN113115451A - 基于多智能体深度强化学习的干扰管理和资源分配方案

Info

Publication number: CN113115451A
Application number: CN202110202985.6A
Authority: CN
Inventors: 姚海鹏; 宫永康; 忻向军; 张尼; 吴云峰; 童炉; 李韵聪
Original assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-07-13

Abstract

本发明涉及一种基于多智能体深度强化学习的干扰管理和资源分配方案，包括：最优的智能体CPU周期频率分配方案和一种新型的C‑MADDPG优化算法，最优智能体CPU周期频率分配方案可以根据优化理论生成，新型的C‑MADDPG优化算法，包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法，与现有技术相比，本发明通过提出的CPU周期频率优化方法来选取最优的CPU周期频率；当每个智能体接收到多变的、动态的和复杂的信道状态信息时，每个智能体将输出卸载决策、信道分配和发射功率选择；根据获得的奖励函数，来进行actor‑critic网络参数的调整，将得到的结果对神经网络进行间断性的训练，以使其更加稳定且快速的收敛到最优解。

Description

基于多智能体深度强化学习的干扰管理和资源分配方案

技术领域

本发明涉及边缘节点和网络模型技术领域，尤其涉及一种基于多智能体深度强化学习的干扰管理和资源分配方案。

背景技术

近年来，边缘节点指在靠近用户的网络边缘侧构建的业务平台，提供存储、计算、网络等资源，将部分关键业务应用下沉到接入网络边缘，以减少网络传输和多级转发带来的宽度和时延损耗。

当前的深度边缘节点和网络模型：由于下一代移动通信网络主要布局在垂直工业场景，因此本地范围的通信技术革新变得非常重要，深度边缘节点的首要优势是将通信和智能服务推向网络边缘以实现普适智能的愿景。这不仅可以把网络性能推向上界，而且可以探索工业级的隔离-以成本有益的方式推动许多工业场景。然而，一种单的深度边缘节点网络不能穷尽大规模系统的力量，大量的相对独立的和隔离的边缘网络不能利用数字转换系统的能量，这会成为未来工业创新的障碍。因此，深度边缘节点和网络中有多个无线装置，我们把这多个无线装置当成多个智能体，深度边缘节点和网络的目标是基于协作、可控制的方法来推动大规模网络架构的设计。然而，在深度边缘节点的复杂多变的网络环境中，信道状态是可变的，同时多个边缘节点中的智能体会存在相互干扰，这会带来大量的能耗和开销，使得系统的总部署成本变高，这会为智能体的卸载决策、资源分配和干扰性管理带来新的挑战。

因此我们提出一种C-MADDPG算法，该算法的目标是为边缘节点提供一种计算和智能能力，而且可以凭借实时地自适应协作方法推动深度边缘网络中无线通信和计算资源的深度收敛，以对抗无线系统中的干扰管理和复杂多变的信道状态矢量。

现有的传统的求解方法为：

(1)Random-Strategy:随机策略。该方法解释为在面对高动态的网络环境(信道状态信息)时，针对应用程序任务，随机选择卸载决策，从而计算网络开销。但是该随机策略方法会难以适应信道的选择，这将带来大量的网络开销和时延，难以保证服务质量。

(2)Equal Power Transmission:等功率发射。等功率发射的方法尽管可以使得每个智能体的发射功率相同,但是难以找到一种最优的卸载决策和资源分配方法来保证用户服务质量，降低系统能耗和部署成本。

发明内容

为此，本发明提供一种基于多智能体深度强化学习的干扰管理和资源分配方案，用以可以凭借实时地自适应协作方法推动深度边缘网络中无线通信和计算资源的深度收敛，以对抗无线系统中的干扰管理和复杂多变的信道状态矢量的问题。

本发明提供一种，包括：最优的智能体CPU周期频率分配方案和一种新型的C-MADDPG优化算法。

进一步地，所述最优智能体CPU周期频率分配方案可以根据优化理论生成。

进一步地，所述一种新型的C-MADDPG优化算法，包括每个智能体的CPU 周期频率分配方法、卸载决策、发射功率分配和信道选择方法。

进一步地，所述一种新型的C-MADDPG优化算法，可以根据将可变的信道状态抽象为智能体状态，生成动作。

进一步地，所述动作包括卸载决策、信道选择、和发射功率分配，用以根据收到的奖励调整调整网络参数，以使得其更快的收敛到最佳状态。

进一步地，所述方法在经过卸载决策和资源分配后，通过critic网络进行参数的调整，收敛到最优解。

进一步地，所述基于多智能体深度强化学习的干扰管理和资源分配方案，采用一个深度边缘节点和网络模型，主要有多个智能体、宏基站、接入节点、边缘云服务器组成。

与现有技术相比，本发明通过提出的CPU周期频率优化方法来选取最优的 CPU周期频率；当每个智能体接收到多变的、动态的和复杂的信道状态信息时，每个智能体将输出卸载决策、信道分配和发射功率选择；根据获得的奖励函数，来进行actor-critic网络参数的调整，将得到的结果对神经网络进行间断性的训练，以使其更加稳定且快速的收敛到最优解。

附图说明

图1为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方案的边缘节点装置图；

图2为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方案的C-MADDPG算法框架图；

图3为本发明所述的基于多智能体深度强化学习的干扰管理和资源分配方案的仿真算法图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、 “外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图对本发明的技术方案进行详细说明：

实施例一：

一个深度边缘节点和网络模型，主要有多个智能体、宏基站、接入节点、边缘云服务器组成，根据图1所示，物联网装置包括汽车、平板电脑、控制器、检测器及传感器等，这些装置将收集到应用程序任务，并确定执行模式；宏基站中搭载了边缘云(Mobile EdgeComputing,MEC)服务器，以进行数据任务的卸载、处理及资源分配，并将处理的结果返回给物联网装置。图1中有1个AP，每个节点中有N个智能体，每个智能体n接收到一个计算密集型任务，其中表示任务大小，表示执行计算密集型任务所需要的总的CPU周期数，表示处理每个任务的最大可容忍时延。

(1)智能体的本地处理时延为：

(2)智能体的本地处理能耗可以表示为：

(3)上行传输速率可以被表示为：

其中，

表示智能体遭受的来自其他节点的干扰。

选择某一条无线信道后上行传输速率可以被表示为：

(4)边缘云的传输时廷可以被表示为：

(5)边缘云的执行时延可以被表示为：

(6)边缘云的总时延可以被表示为：

(7)边缘云的传输能耗可以被表示为：

(7)边缘云的传输能耗可以被表示为：

优化问题可以被表示为：

实施例二：

针对背景求解方法中存在的问题，提出了一种带CPU周期频率辅助的多智能体深度确定型策略梯度方案(C-MADDPG)，根据图2所示，来探索卸载决策、资源分配(智能体发射功率)和信道之间的干扰管理方法。

该算法包含三个主要部分，其一是首先通过提出的CPU周期频率优化方法来选取最优的CPU周期频率；其二是当每个智能体接收到多变的、动态的和复杂的信道状态信息时，每个智能体将输出卸载决策、信道分配和发射功率选择；其三是根据获得的奖励函数，来进行actor-critic网络参数的调整，将得到的结果对神经网络进行间断性的训练，以使其更加稳定且快速的收敛到最优解。

具体步骤如下：

总的优化问题表示如下：

(1)CPU cycle allocation:推导过程如下

(2)转化为问题P2.1之后，根据图2提出的C-MADDPG算法框架图，首先将可变的、复杂的网络环境下的信道增益视为每个智能体的状态，然后通过 Actor Current Network生成卸载决策、发射功率分配以及每个智能体的信道选择，然后把P2.1中的优化函数视为奖励函数，后通过Critic Current Network和Critic Target网络来生成评价函数，利用Actor Target网络生成目标动作，通过上述神经网络之间的合作，通过调整参数，该智能体可以收敛到最佳状态，即找到最优的成本函数。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，包括：最优的智能体CPU周期频率分配方案和一种新型的C-MADDPG优化算法。

2.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述最优智能体CPU周期频率分配方案可以根据优化理论生成。

3.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述一种新型的C-MADDPG优化算法，包括每个智能体的CPU周期频率分配方法、卸载决策、发射功率分配和信道选择方法。

4.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述一种新型的C-MADDPG优化算法，可以根据将可变的信道状态抽象为智能体状态，生成动作。

5.根据权利要求1-4所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述动作包括卸载决策、信道选择、和发射功率分配，用以根据收到的奖励调整调整网络参数，以使得其更快的收敛到最佳状态。

6.根据权利要求1-3所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述方法在经过卸载决策和资源分配后，通过critic网络进行参数的调整，收敛到最优解。

7.根据权利要求1所述的一种基于多智能体深度强化学习的干扰管理和资源分配方案，其特征在于，所述基于多智能体深度强化学习的干扰管理和资源分配方案，采用一个深度边缘节点和网络模型，主要有多个智能体、宏基站、接入节点、边缘云服务器组成。