CN112601284B

CN112601284B - 基于多智能体深度强化学习的下行多小区ofdma资源分配方法

Info

Publication number: CN112601284B
Application number: CN202011416092.3A
Authority: CN
Inventors: 王小明; 胡静; 徐友云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2023-02-28
Anticipated expiration: 2040-12-07
Also published as: CN112601284A

Abstract

本发明公开了一种基于多智能体深度强化学习的下行多小区OFDMA资源分配方法。属于无线通信领域；具体步骤如下：1、构建多智能体网络；2、建立每个接收用户的信噪比及每个小区获得数据速率；3、状态获取；4、子信道分配；5、功率分配；6、反馈获取和参数更新。本发明是一种基于多智能体深度强化学习的方法，设计了多个DDQN网络和多个DDPG网络来联合解决子信道分配和功率分配问题，并采用集中训练、分散执行的模式，此方法降低了网络的输入输出维度、信令开销以及计算复杂度，可以有效地得到最优资源分配方案，与传统强化学习方法相比，提高了下行OFDMA系统中各小区的传输速率，进而提高了整个网络的性能。

Description

基于多智能体深度强化学习的下行多小区OFDMA资源分配方法

技术领域

本发明涉及无线通信领域，具体涉及一种基于多智能体深度强化学习的方法来获取下行多小区正交频分多址(OFDMA)系统最优子信道和功率分配方案，以最大化每个小区的传输速率。

背景技术

随着移动设备的迅速增长，使得利用有限的系统资源来保证用户高速率服务质量成为无线通信网络的关键问题。作为无线通信标准的OFDMA技术，通过子载波之间的正交性，有效避免了小区内用户间的干扰。然而，在多小区OFDMA系统中，各个基站都占用相同的频谱资源，相邻小区的同频子载波之间就会互相产生干扰，这对多小区OFDMA系统资源的合理利用和分配提出了巨大挑战。

在专利“基于QoE的OFDMA网络下行链路资源分配方法”(公开号：CN104869651B)中；该发明先后建立了单小区多用户ODFMA网络下行链路模型和流媒体业务QoE评估模型，获得各用户的传输速率约束；然后利用次梯度迭代法对该系统资源分配问题进行求解，获得系统子载波和子载波功率分配的最优值；其缺点在于：该发明仅考虑了单小区OFDMA系统中的资源分配方案；而在实际应用场景中，由于各小区占用了相同频谱资源，小区内的用户必然会受到其邻近小区的干扰，因此通过对多小区OFDMA系统的子信道和功率的合理分配来提高系统性能已成为当下的一个研究热点。

另外，在《IEEE Transactions on Vehicular Technology,pp.1395-1408,March2016.(电气和电子工程师协会车辆技术期刊，2016年3月，第1395-1408页)》上发表了题为“Energy-Efficient Resource Allocation in Coordinated Downlink MulticellOFDMA Systems(协同下行多小区OFDMA系统的能效资源分配)”一文，该文提出了一种迭代算法来最大化多小区OFDMA系统的能效；迭代是通过重复反馈过程来逼近所需的目标，在应对一些大规模系统资源分配问题时，往往周期性长、计算复杂度高，于是研究者们考虑将具有较强计算能力和学习速率的强化学习方法应用到无线通信网络资源分配问题上；在《2019 11th International Conference on Wireless Communications and SignalProcessing(WCSP),pp.1-6.(2019年第十一届无线通信与信号处理国际会议，第1-6页)》上发表了题为“Energy-efficient resource allocation in uplink NOMA systems withdeep reinforcement learning(基于深度强化学习的上行NOMA系统的能效资源分配)”一文，该文很好地将单智能体深度强化学习方法运用在了无线通信领域，有效解决了单小区NOMA系统的资源分配问题；但是其缺点在于，该文将该深度强化学习方法直接运用在多小区OFDMA系统中时，会由于优化器过度优化而会导致系统性能相对较差；为解决该问题，本专利提出了基于多智能体深度强化学习方法来解决多小区OFDMA系统资源分配的方案，利用多个智能体进行全局控制以降低复杂任务的维度。具体地，先用多个竞争深度Q网络来解决子信道分配问题，再用多个深度确定性策略梯度网络解决功率分配问题，最后联合子信道和功率分配方案来最大化每个小区的传输速率。

发明内容

针对上述问题，本发明提供了一种基于多智能体深度强化学习的下行多小区OFDMA资源分配方法，本发明提出了联合子信道分配和功率分配的多智能体网络来提高下行多小区OFDMA系统性能，在考虑小区间同频干扰的情况下，实现了每个小区数据速率最大化。

本发明的技术方案是：基于多智能体深度强化学习的下行多小区OFDMA资源分配方法，具体步骤包括如下：

步骤(1.1)、构建用于解决下行多小区OFDMA系统资源分配的多智能体网络；

步骤(1.2)、基于OFDMA系统中小区间的干扰，建立每个接收用户的信噪比及每个小区获得数据速率；

步骤(1.3)、状态获取：包括训练阶段及测试阶段；

步骤(1.4)、子信道分配：所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C；所述C＝{C₁,C₂,……,C_N}，式中，C中的元素表示各个小区的子信道分配情况；

步骤(1.5)、功率分配：在得到子信道分配方案C后，再联合MADDPG网络来选择最优的功率分配方案P；所述P＝{P₁,P₂,……,P_N}，P中的元素表示各个小区的功率分配情况；

步骤(1.6)、反馈获取和参数更新：联合MADDQN算法和MADDPG两个网络输出的资源分配方案及目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率；然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络，更新网络的参数。

进一步的，在所述步骤(1.1)中，构建多智能体网络的具体操作方法如下：首先，设定OFDMA系统中有N个基站，每个基站有M个用户随机分布在小区内，每个用户被分配一根天线用于接收和发送数据，且每个基站内有L个子信道；然后，构建一个多智能体竞争深度Q网络和一个多智能体深度确定性策略梯度网络，分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题。

进一步的，在步骤(1.2)中，建立每个接收用户的信噪比及每个小区获得数据速率的具体操作步骤如下：

首先，用户m接收到来自基站n的第l个子信道的信噪比为：

式中，

表示用户m接收到来自基站n的第l个子信道的信噪比，

表示在t时刻用户m收到来自基站n的第l个子信道的信道增益，

表示在t时刻基站n的第l个子信道的发送功率，

表示在t时刻用户m收到来自基站k的第l个子信道的信道增益，

表示在t时刻基站k的第l个子信道的发送功率，N₀表示噪声功率。

然后，得到用户m在基站n的第l个子信道实现的发送速率为：

式中，

表示用户m在基站n的第l个子信道实现的发送速率；w表示每个子信道的带宽，

表示子信道的分配索引；

最后，每个小区实现的传输速率可表示为：

式中，X_n(c_t,p_t)表示每个小区实现的传输速率。

进一步的，在步骤(1.3)中，所述状态获取的具体操作步骤如下：

在训练阶段，获取t时刻各小区内所有用户在不同子信道上的信道增益信息，作为当前状态s_t，表示如下：

在测试阶段，则将本小区内用户的信道增益S_i作为输入即可。

进一步的，在步骤(1.4)中，所述子信道分配的具体操作步骤如下所述：

首先，采用多个竞争深度Q网络对下行多小区OFDMA系统进行子信道分配，其中，每个竞争深度Q网络架构均由两个流组成，分别用于估计当前信道增益信息的价值V(s_i,β)和子信道分配动作的优势A(s_i,c_i,α)；式中，β,α分别为上述两个流对应网络的参数；

其次，通过聚合层将两个流组合并产生状态—动作值函数Q(s_i,c_i；α,β)，该Q值用来衡量在当前信道增益信息S_i下选取子信道分配动作C_i的价值。

进一步的，在步骤(1.5)中，在所述功率分配的过程中，采用多个深度确定性策略梯度网络来分配功率，其中，每个深度确定性策略梯度网络由一个Actor网络和一个Critic网络构成，网络参数设置为θ；其具体操作步骤如下所述：

首先，在集中训练阶段，每个智能体的Actor网络根据本小区信道增益信息S_i选择一个功率分配动作P_i；

其次，Critic网络收集所有小区的信道增益信息S和功率分配动作P计算一个Q值，用作对Actor网络所选动作P_i的反馈；

最后，Critic网络根据估计的Q值和实际的Q值来进行训练，即最小化以下损失函数：

式中，y_i表示由该Critic网络内的目标Q网络

产生的目标Q值。

进一步的，在步骤(1.6)中，所述反馈获取和参数更新的具体操作方法如下所述：首先，联合MADDQN算法和MADDPG两个网络输出的资源分配方案a_t＝{C,P}，再根据目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率，即奖励r_t：

r_t＝X_n(c_t,p_t)，

然后，再基于多智能体深度强化学习算法最大化长期的累计折扣奖励R_t，

式中，γ表示折扣因子；最后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络，更新网络的参数。

本发明的有益效果是：本发明是一种基于多智能体深度强化学习的方法，设计了多个DDQN网络和多个DDPG网络来联合解决子信道分配和功率分配问题，并采用集中训练、分散执行的模式，此方法降低了网络的输入输出维度、信令开销以及计算复杂度，可以有效地得到最优资源分配方案，与传统优化方法和普通强化学习方法相比，提高了下行OFDMA系统中各小区的传输速率，进而提高了整个网络的性能。

附图说明

图1是本发明的结构流程图；

图2是本发明中下行多小区OFDMA系统示意图；

图3是本发明中基于多智能体深度强化学习的多小区OFDMA系统资源分配框图；

图4是本发明中选取的第i个小区的子信道分配和功率分配框图；

图5是本发明中基于多智能体深度强化学习的联合子信道和功率分配方法与其他方法的每个小区内所有用户平均传输速率对比示意图。

具体实施方式

为了更清楚地说明本发明的技术方案，下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所述；基于多智能体深度强化学习的下行多小区OFDMA资源分配方法，具体步骤包括如下：

步骤(1.3)、状态获取：包括训练阶段及测试阶段；

本发明是基于多智能体深度强化学习的多小区OFDMA系统的联合子信道分配和功率分配方案；

如图2-4所述，设定OFDMA系统中有N个基站，且每个基站有M个用户随机分布在各小区的中央，每个小区有M个用户随机分布在小区内，每个用户被分配一根天线用于接收和发送数据，且每个基站内有L个子信道；系统的总带宽为B，每个子信道拥有相同的带宽为w，且设定多小区OFDMA频分复用因子为1；用

和

分别表示t时刻下用户m在基站n的子信道l上的子信道分配标记和分配的功率；其中，

表示t时刻用户m被分配到基站n的第l个子信道上，否则

具体的，1、构建一个多智能体竞争深度Q网络(MADDQN)和一个多智能体深度确定性策略梯度网络(MADDPG)，分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题。

2、基于OFDMA系统中小区间的干扰，建立每个接收用户的信噪比(SINR)及每个小区获得数据速率；其具体操作步骤如下：

首先，用户m接收到来自基站n的第l个子信道的信噪比(SINR)为：

式中，

表示用户m接收到来自基站n的第l个子信道的信噪比，

表示在t时刻用户m收到来自基站n的第l个子信道的信道增益，

表示在t时刻基站n的第l个子信道的发送功率，

表示在t时刻用户m收到来自基站k的第l个子信道的信道增益，

然后，得到用户m在基站n的第l个子信道实现的发送速率为：

式中，

表示子信道的分配索引；

最后，每个小区实现的传输速率可表示为：

式中，X_n(c_t,p_t)表示每个小区实现的传输速率。

即本发明需要优化的目标函数。

步骤(1.3)、状态获取：包括训练阶段及测试阶段；其具体操作步骤如下：

在训练阶段，需要获取t时刻各小区内所有用户在不同子信道上的信道增益信息，作为当前状态s_t，其表示如下：

在测试阶段，则只需要本小区内用户的信道增益S_i作为输入即可。

4、子信道分配：本发明所述的子信道分配是基于MADDQN算法选择最优子信道分配方案C；所述C＝{C₁,C₂,……,C_N}，式中，C中的元素表示各个小区的子信道分配情况；其具体操作步骤如下所述：

首先，本发明采用多个竞争深度Q网络对下行多小区OFDMA系统进行子信道分配，其中，每个竞争深度Q网络架构均由两个流组成，分别用于估计当前信道增益信息的价值V(s_i,β)和子信道分配动作的优势A(s_i,c_i,α)；式中，β,α分别为上述两个流对应网络的参数；

其次，通过聚合层将两个流组合并产生状态—动作值函数Q(s_i,c_i；α,β)，该Q值用来衡量在当前信道增益信息S_i下选取子信道分配动作C_i的价值；

具体的；在集中训练阶段，将所有智能体的经验(当前时刻各小区的信道增益信息、子信道分配动作、各小区所有用户传输速率和下一时刻各小区的信道增益信息)通过一个中心控制器汇聚在一起，训练一个竞争深度Q网络，之后每个智能体的竞争深度Q网络都共享该网络的参数；然后到测试阶段，在时刻t，以本小区的信道增益信息

作为输入，基于所有智能体过去的经验，第i个智能体根据输入的信道增益信息并遵循ε-greedy策略从所有子信道分配方案中选择一个作为当前的最佳分配方案，即选择：

然后通过随机梯度下降的方法最小化损失函数来更新每个竞争深度Q网络的参数α,β；其中的损失函数表示如下：

式中，y_i表示由该竞争深度Q网络内的目标Q网络

产生的目标Q值。

5、功率分配：在得到子信道分配方案C后，再联合MADDPG网络来选择最优的功率分配方案P；所述P＝{P₁,P₂,……,P_N}，P中的元素表示各个小区的功率分配情况；在所述功率分配的过程中，采用多个深度确定性策略梯度网络来分配功率，其中，每个深度确定性策略梯度网络由一个Actor网络和一个Critic网络构成，网络参数设置为θ；其具体操作步骤如下所述：

式中，y_i表示由该Critic网络内的目标Q网络

产生的目标Q值；

Actor网络则根据Critic网络的反馈来更新策略。在测试阶段，Actor网络只需根据Critic网络提供的本小区信道增益信息S_i选择功率分配动作P_i，此时不需要Critic网络的反馈。

6、反馈获取和参数更新：联合MADDQN算法和MADDPG两个网络输出的资源分配方案a_t＝{C,P}，再根据目标函数得到下行OFDMA系统中每个小区内所有用户的传输速率，即奖励r_t：

r_t＝X_n(c_t,p_t)，

本发明的目的是最大化长期的累计折扣奖励(各小区内所有用户的传输速率)R_t，

式中，γ表示折扣因子；然后基于经验重放和固定Q值两个策略训练子信道分配网络和功率分配网络，更新网络的参数。

本实例考虑多小区多用户下行OFDMA场景，联合优化每个用户的子信道和功率分配方案，本实例仿真场景的主要参数如表1所示；

表1仿真场景主要参数

用户速度v	1m/s
		路径损耗模型d(km)	128+37.6log(d)
基站覆盖直径d<sub>s</sub>	500m
		总系统带宽	1MHz
每个小区最大传输功率P<sub>max</sub>	10W
		噪声功率谱密度	-174dBm/Hz
总回合数	200
		每回合包含的时隙数	100
学习速率α	0.001
		折扣因子γ	0.9
ε-greedy因子ε	0.9

图5是本发明所述的基于多智能体深度强化学习的联合子信道和功率分配方法与其他方法的一个小区内所有用户传输速率对比示意图；将本发明提出的多智能体深度强化学习算法(MADDQN&MADDPG)与单智能体深度强化学习算法(DQN&DDPG和DDQN&DDPG)的目标函数(每个小区所有用户获得的传输速率)进行了对比。从图中可以看出，由于多智能体深度强化学习算法的参数共享理念和并行计算能力，以及单智能体算法的不稳定性，本发明的算法实现了一个更高的速率。

最后，应当理解的是，本发明中所述实施例仅用以说明本发明实施例的原则；其他的变形也可能属于本发明的范围；因此，作为示例而非限制，本发明实施例的替代配置可视为与本发明的教导一致；相应地，本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims

1.基于多智能体深度强化学习的下行多小区OFDMA资源分配方法，其特征在于，具体步骤包括如下：

构建多智能体网络的具体操作方法如下：首先，设定OFDMA系统中有N个基站，每个基站有M个用户随机分布在小区内，每个用户被分配一根天线用于接收和发送数据，且每个基站内有L个子信道；然后，构建一个多智能体竞争深度Q网络和一个多智能体深度确定性策略梯度网络，分别用来解决下行多小区OFDMA系统中的子信道分配和功率分配问题；

步骤(1.3)、状态获取：包括训练阶段及测试阶段；

所述子信道分配的具体操作步骤如下所述：