CN116095690A

CN116095690A - 一种异构网络中基于强化学习的动态资源分配优化方法

Info

Publication number: CN116095690A
Application number: CN202310065762.9A
Authority: CN
Inventors: 李君�; 刘子怡; 刘兴鑫; 李晨
Original assignee: Wuxi University
Current assignee: Wuxi University
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-09

Abstract

本发明公开了一种异构网络中基于强化学习的动态资源分配优化方法，步骤1：建立异构网络模型，明确以能量效率为最大的优化目标；将宏基站看作智能体，建立马尔可夫决策过程，确定状态空间、动作空间和奖励函数；划分宏基站覆盖区域和异构网络带宽；通过D3QN网络训练异构网络模型，设定宏基站和小基站的最大发射功率，计算宏基站到用户的信干噪比，最小化损失函数；在dueling DQN网络中引入double DQN网络以获得值函数和优势函数，确定最优的异构网络超参数K和β，最大化异构网络的能量效率，实现动态资源分配优化。本发明提出集中强化学习框架的异构网络模型，以实现动态资源分配的全局最优，提出用D3QN网络来优化负载均衡和干扰协调，最大化异构网络的能量效率，实现动态资源分配优化。

Description

一种异构网络中基于强化学习的动态资源分配优化方法

技术领域

本发明涉及通信系统技术领域，特别是涉及一种异构网络中基于强化学习的动态资源分配优化方法。

背景技术

终端数量的不断增加和数据业务需求的快速增长，传统的单层网络已经不能满足当前科技的快速发展的需求，无线通信网络也面临着巨大的挑战。为了缓解通信网络的巨大压力，研究人员提出了异构网络。因此现在的无线接入网络发展成为了由满足广域接入需求的宏基站与满足小区域高密度接入需求的小基站共同组成的异构网络。为了支持高速移动数据服务并提供更好的覆盖，下一代蜂窝网络预计将广泛部署微蜂窝基站或小蜂窝基站，这些基站可以从传统的宏基站卸载一些用户和流量。虽然网络容量提升，网络覆盖有所增强，但异构网络面临负载均衡和干扰协调的挑战，需要通过有效的用户关联和资源分配方法来解决。

发明内容

本发明提供一种异构网络中基于强化学习的动态资源分配优化方法，以实现动态资源分配的全局最优。

为实现上述效果，本发明的技术方案如下：

一种异构网络中基于强化学习的动态资源分配优化方法，包括以下步骤：

步骤1：建立异构网络模型，明确以能量效率为最大的优化目标；将宏基站看作智能体，建立马尔可夫决策过程，确定状态空间、动作空间和奖励函数；

步骤2：划分宏基站覆盖区域和异构网络带宽；通过D3QN网络训练异构网络模型，所述D3QN网络包括double DQN网络和dueling DQN网络；

步骤3：计算宏基站到用户的信干噪比，设定宏基站和小基站的最大发射功率，最小化损失函数；

步骤4：在dueling DQN网络中引入double DQN网络以获得值函数和优势函数，确定最优的异构网络超参数K和β，最大化异构网络的能量效率，实现动态资源分配优化。

进一步的，步骤1中异构网络模型设有L个基站和多个用户n；基站包括L1个宏基站，L2个小基站，且满足L1+L2＝L。

进一步的，步骤1之后还包括，每个宏基站与小基站的功率平均分配给子信道；信干噪比大于预设阈值β，预设阈值β为异构网络的超参数；动作空间的降维通过动作空间被设置为超参数的一系列离散值；资源分配采用部分共享部署的信道分配方案，K个子信道由宏基站和小基站共享，宏基站子信道数为M-K个，异构网络超参数K的范围为0＜K＜M。

进一步的，步骤2中划分宏基站覆盖区域具体为；根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置；将宏基站覆盖区域作为宏小区，分为三个扇形，每个扇形区域部署相同数量的小基站，将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。

进一步的，步骤2中划分异构网络带宽具体为，异构网络具有M个子信道，每个子信道的带宽为W；异构网络整个带宽被分为c、e两大部分，带宽e包括e1,e2,e3；将主子载波发射功率P₁分为三部分，三部分带宽标记为e1,e2,e3；使用软频率复用技术为宏基站用户分配频域资源，使用全部带宽为小基站的小区用户进行资源分配；每个小区使用的子载波分为主子载波、次子载波；主子载波的发射功率大于次子载波，主子载波供小区边缘用户使用，次子载波供小区中心用户使用，克服正交频分多址系统中共信道干扰问题。

进一步的，步骤2中通过D3QN网络训练异构网络模型具体为，

步骤2.1：根据状态s_t、动作a_t和奖励r_t，将产生的(s_t，a_t，r_t，s_t+1)存储在异构网络回放池存储器D中；

步骤2.2：判断回放池存储器D中的数据是否达到一定数量，若达到一定数量，开始训练异构网络直到收敛；若没有达到一定数量，继续步骤2.1；

步骤2.3：智能体为宏基站，采用D3QN网络作为策略，智能体的状态输入为整个异构网络的测量值，动作空间输出为异构网络超参数K和β的值；

步骤2.4：智能体不断与异构网络交互，并根据反馈更新D3QN网络的权重；设定强化学习框架，状态设为所有用户和每个基站之间的信道增益，即s_t＝G_ln，{G_ln},l＝0,...,L，n＝1,...,N；

步骤2.5：动作空间设为智能体需要选择的异构网络超参数K和β的值，作为联合UARA问题的解决方案，即动作空间为a_t＝{K₁,...,K_p,β₁,...,β_Q}，p为PSD共享信道数的可能值，Q为信干噪比阈值的可能值；输入状态，智能体计算每个超参数K值的概率和每个超参数β值的概率；动作空间为p*Q；

步骤2.6：奖励设为

为能量效率函数；w_n为用户权重，异构网络中所有用户具有相同的优先级，w_n＝1/N,n＝1,2,...,N；

步骤2.7：按照迭代次数对异构网络模型进行训练，得到训练好的异构网络模型。

进一步的，步骤3中计算宏基站到用户的信干噪比具体为：所有基站的集合表示为

其中宏基站的索引为0，其余L个为小基站；宏基站＝0的独占占用子信道m上宏基站用户处的信干噪比

为：

其中，

G_on表示宏基站0到用户n的信道增益，N₀表示带宽为W的子信道上的噪声功率；

宏基站＝0的共享子信道上宏基站用户处的信干噪比

为：

其中，

小基站＝1,...,L的共享子信道上小基站用户处的信干噪比

为：

其中，P_pc＝P_pico/K；G_ln表示小基站到用户n的信道增益，包括天线增益、路径损耗和阴影衰落，假设所有子信道从基站到用户获得相同的信道增益。

进一步的，步骤3中宏基站和小基站的最大发射功率分别表示为P_macro和P_pico；P_macro和P_pico分别为：

任何用户的数据速率为：

其中，

表示基站；R_macro表示宏基站用户的数据速率；R_pico表示小基站用户的数据速率；如果用户n与基站

相关联，则

否则

为用户调度因子，即基站分配给其连接用户的时间比例；

在不丧失通用性的情况下，使用局部比例公平准则进行用户调度，即每个基站向其所有连接用户分配相同比例的时间；每个用户在任何时候都应该连接到一个且只有一个基站。

进一步的，步骤3中最小化损失函数具体为，状态映射到动作空间的Q表表示为Q_t(s_t,a_t)，用权重为θ的异构网络逼近器

表示在线网络；Q学习方法更新其权重以最小化损失函数

其中，

为Double DQN网络中的目标值；s_t、s_t+1分别为t、t+1时刻智能体的状态，a_t、a_t+1分别为t、t+1时刻能体的动作空间；θ^-是目标网络的权重；θ、γ分别为表示在线网络的网络参数、衰减因子；R_t、Q_t分别为Double DQN网络的奖励、输出；在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(s_t,a_t)＝Q_t(s_t,a_t)-V(s)；

将(s_t,a_t,r_t,s_t+1)存储在回放池存储器D中，在训练过程中，异构网络从回放池存储器D中均匀随机的采样小批量数据来训练，减少训练实例之间的相关性，避免得到局部最优解。

步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为，在dueling DQN网络中，Double DQN网络的最后一层被分为两个子网络，分别估计dueling DQN网络的值函数V(s)和优势函数A(s_t,a_t)，使用Double DQN网络对其连接层输出V(s_t；θ,μ)和A(s_t,a_t；θ,α)，其中，α和μ均表示全连接层的权重；组合V(s_t；θ,μ)和A(s_t,a_t；θ,α)，得到dueling DQN网络的输出Q_t(s_t,a_t；θ,α,μ)为：

Q_t(s_t,a_t；θ,α,μ)＝V(s_t；θ,μ)+A(s_t,a_t；θ,α)

为提高D3QN网络的稳定性，在dueling DQN网络的输出Q_t(s_t,a_t；θ,α,μ)减去一个常数，保证状态下动作空间的优势函数相对序列不变，缩小Q值的范围，即：

针对K个共享子信道，为达到最大的资源利用，选择的频率复用因子为1；当相邻小区的不同用户使用相同子载波时，会产生共信道干扰问题，小区边缘用户会收到更大影响。

上述方案中，本发明在异构网络中有效利用时间、空间、频率资源，D3QN网络结合了Double DQN网络和dueling DQN网络的思想。小基站的部署可以消除覆盖漏洞并创建热点，从而完善异构网络覆盖.

与现有技术相比，本发明技术方案的有益效果是：

本发明提出集中强化学习框架的异构网络模型，提出用D3QN网络来优化负载均衡和干扰协调，通过D3QN网络训练异构网络模型，计算宏基站到用户的信干噪比，设定宏基站和小基站的最大发射功率，最小化损失函数，最大化异构网络的能量效率，实现动态资源分配优化。

附图说明

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1为本发明实施例提供的优化方法流程示意图；

图2a是本发明实施例提供的宏基站带宽示意图；

图2b是本发明实施例提供的宏基站功率分配示意图；

图3是本发明实施例提供的异构网络具体实施流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都是本发明保护的范围。

在介绍本申请实施例之前首先对本申请实施例中涉及到的相关名词作如下释义：

D3QN：dueling double DQN，网络；

宏小区：又叫宏蜂窝，在蜂窝式移动电话的建网初期，采用蜂窝技术的小区被称为“宏蜂窝”小区；宏小区是面积很大的区域，基站发射天线通常架设在周围建筑物上方；通常，在收发之间没有直达路径。

软频率复用：蜂窝通信系统中解决频谱资源地区性分配的技术；频率复用是蜂窝通信系统中解决频谱资源地区性分配的重要技术。

实施例1

为了便于理解，请参阅图1，本发明提供的一种异构网络中基于强化学习的动态资源分配优化方法的一个实施例，包括以下步骤：

步骤1：建立异构网络模型，明确以能量效率为最大的优化目标；将宏基站看作智能体，建立马尔可夫决策过程，确定状态空间、动作空间和奖励函数；异构网络模型设有L个基站和多个用户n；基站包括L1个宏基站，L2个小基站，且满足L1+L2＝L；

步骤2：划分宏基站覆盖区域和异构网络带宽；通过D3QN网络训练异构网络模型，在一段时间内优化长期网络效率；所述D3QN网络包括double DQN网络和dueling DQN网络；

步骤4：在dueling DQN网络中引入double DQN网络以获得值函数和优势函数，确定最优的异构网络超参数K和β，计算一段时间内异构网络的能量效率，实现动态资源分配优化，以实现动态资源分配的全局最优。

在本实施例中，所有基站的集合表示为

其中宏基站的索引为0，其余L个为小基站；小基站的最大发射功率、天线增益和路径损耗是相同的；N个用户均匀的分布在宏小区中。

实施例2

具体地，在实施例1的基础上，结合具体的实施例子对方案进行说明，进一步体现本方案的技术效果。具体为：

具体的，步骤1之后还包括，每个宏基站与小基站的功率平均分配给子信道；信干噪比大于预设阈值β，预设阈值β为异构网络的超参数；将用户关联与资源分配的连接问题简化为异构网络超参数K和β的选择。

采用集中式深度强化学习来解决用户关联和资源分配的连接问题，限制动作空间以确保其可行性；动作空间的降维通过动作空间被设置为超参数的一系列离散值；资源分配采用部分共享部署的信道分配方案，K个子信道由宏基站和小基站共享，宏基站子信道数为M-K个，异构网络超参数K的范围为0＜K＜M。解决用户关联问题，即每个用户有限连接到具有最大信干噪比的小基站。

具体的，步骤2中划分宏基站覆盖区域具体为；根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置；异构网络为由一个宏基站和几个小基站组成的双层异构网络；

如图2b所示；将宏基站覆盖区域作为宏小区，分为三个扇形，每个扇形区域部署相同数量的小基站，将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3，中心区域为整个宏小区面积的2/3，中心区域辅子载波频率的复用因子为1，边缘主子载波频率的复用因子为3。

具体的，如图2a所示；步骤2中划分异构网络带宽具体为，异构网络具有M个子信道，每个子信道的带宽为W；异构网络整个带宽被分为c、e两大部分，带宽e包括e1,e2,e3；将主子载波发射功率P₁分为三部分，三部分带宽标记为e1,e2,e3；使用软频率复用技术为宏基站用户分配频域资源，使用全部带宽为小基站的小区用户进行资源分配；每个小区使用的子载波分为主子载波、次子载波；主子载波的发射功率大于次子载波，主子载波供小区边缘用户使用，次子载波供小区中心用户使用，克服正交频分多址系统中共信道干扰问题。

具体的，步骤2中通过D3QN网络训练异构网络模型具体为，

步骤2.4：智能体不断与异构网络交互，并根据反馈更新D3QN网络的权重；状态设为所有用户和每个基站之间的信道增益，即s_t＝G_ln，{G_ln},l＝0,...,L，n＝1,...,N；

步骤2.6：奖励设为

步骤2.7：训练10000个回合，每个回合循环100次，得到训练好的异构网络模型。

假设异构网络由一个宏基站和六个小基站组成，宏基站的扇区半径为500m，N个用户均匀分布在整个宏小区内，每个用户的移动速度为0

1m/s，移动方向为0

2π，宏基站的发射功率P_macro＝46dB，带宽为180kHz，阴影衰落为8dB，路径损耗为128.1+37.6lg(d/1000)dB,d≥35m；小基站的发射功率P_pico＝30dB，带宽为100kHz，阴影衰落为8dB，路径损耗为140.7+36.7lg(d/1000)dB,d≥10m；

异构网络的一维卷积层神经元为128个，全连接层为256个；动作空间由10个K值和10个β值组成；γ＝0.99，异构网络的优化器为RMSProp，actor的学习率为0.00001，critic的学习率为0.0001；。

具体的，步骤3中宏基站和小基站的最大发射功率分别表示为P_macro和P_pico；P_macro和P_pico分别为：

任何用户的数据速率为：

其中，

Claims

1.一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，包括以下步骤：

步骤1：建立异构网络模型，明确以能量效率为最大的优化目标，异构网络模型由宏基站、小基站以及用户组成；将宏基站看作智能体，建立马尔可夫决策过程，确定状态空间、动作空间和奖励函数；

2.根据权利要求1所述的一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，步骤1中异构网络模型设有L个基站和多个用户n；基站包括L1个宏基站，L2个小基站，且满足L1+L2＝L；用户n包括宏基站用户和小基站用户。

3.根据权利要求2所述的一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，步骤1之后还包括，每个宏基站与小基站的功率平均分配给子信道；信干噪比大于预设阈值β，预设阈值β为异构网络的超参数；动作空间的降维通过动作空间被设置为超参数的一系列离散值；资源分配采用部分共享部署的信道分配方案，K个子信道由宏基站和小基站共享，宏基站子信道数为M-K个，异构网络超参数K的范围为0＜K＜M。

4.根据权利要求3所述的一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，步骤2中划分宏基站覆盖区域具体为；根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置；将宏基站覆盖区域作为宏小区，分为三个扇形，每个扇形区域部署相同数量的小基站，将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。

5.根据权利要求4所述的一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，步骤2中划分异构网络带宽具体为，异构网络具有M个子信道，每个子信道的带宽为W；异构网络整个带宽被分为c、e两大部分，带宽e包括e1,e2,e3；将主子载波发射功率P₁分为三部分，三部分带宽标记为e1,e2,e3；使用软频率复用技术为宏基站用户分配频域资源，使用全部带宽为小基站的小区用户进行资源分配；每个小区使用的子载波分为主子载波、次子载波；主子载波的发射功率大于次子载波，主子载波供小区边缘用户使用，次子载波供小区中心用户使用，克服正交频分多址系统中共信道干扰问题。

6.根据权利要求5所述的一种异构网络中基于强化学习的动态资源分配优化方法，其特征在于，步骤2中通过D3QN网络训练异构网络模型具体为，

步骤2.5：动作空间设为智能体需要选择的异构网络超参数K和β的值，作为联合UARA问题的解决方案，即动作空间为a_t＝{K₁,...,K_p,β₁,...,,β_Q}，p为PSD共享信道数的可能值，Q为信干噪比阈值的可能值；输入状态，智能体计算每个超参数K值的概率和每个超参数β值的概率；动作空间为p*Q；

步骤2.6：奖励设为