CN109639377A

CN109639377A - 基于深度强化学习的频谱资源管理方法

Info

Publication number: CN109639377A
Application number: CN201811525017.3A
Authority: CN
Inventors: 李赞; 廖晓闽; 石嘉; 司江勃; 林初善; 齐佩汉; 赵钟灵; 王丹阳
Original assignee: Xidian University; Xian Cetc Xidian University Radar Technology Collaborative Innovation Research Institute Co Ltd
Current assignee: Xidian University; Xian Cetc Xidian University Radar Technology Collaborative Innovation Research Institute Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-16
Anticipated expiration: 2038-12-13
Also published as: CN109639377B

Abstract

本发明公开一种基于深度强化学习的频谱资源管理方法。主要解决现有技术不能有效利用不完全信道状态信息进行频谱和功率分配以及频谱资源管理多目标优化的问题。其实现方案是，以频谱效率最大化为优化目标，构造以信道增益和噪声功率为权值参数的自适应深度神经网络；初始化权值参数，观测用户接入信息和干扰信息，根据通信网络能量效率和公平性计算损失函数，沿着损失函数梯度下降方向逐层更新信道增益和噪声功率，反复训练自适应深度神经网络，当满足训练结束条件，输出最优频谱资源管理策略。本发明能基于不完全信道状态信息得到最优频谱资源管理策略，有效提升了通信网络的频谱效率、能量效率和公平性，可用于无线通信中的频谱和功率分配。

Description

基于深度强化学习的频谱资源管理方法

技术领域

本发明属于通信技术领域，特别涉及一种资源管理方法，可用于无线通信中的频谱和功率分配。

背景技术

随着无线网络中通信设备数量的急剧增加和业务需求的愈加多样，无线通信领域面临着智能化、宽带化、多元化、综合化等诸多技术挑战，导致频谱资源的稀缺程度日益加剧。此外，无线网络环境的复杂性、多样性和动态性，使信道状态信息的获取变得愈加困难，绿色网络和智慧网络等新概念的提出，使频谱资源管理的优化目标日趋多样化。因此，如何优化频谱利用，最大限度地实现频谱资源的高效管理是当前急需解决的重点问题。

现阶段，频谱资源管理的研究已经有一定的进展，T.Yang等人采用图论着色理论对全双工设备到设备D2D蜂窝网进行频谱和功率分配，构造干扰感知图，提出了一种全新的基于图论着色理论的资源共享方案，该方案以网络吞吐量为优化目标，需要定时获取信道状态信息CSI，算法收敛速度快，时间复杂度低，但是不适用于动态变化的蜂窝网络，而且存在不公平缺陷。

J.Huang等人将博弈理论应用于小区间蜂窝网中的频谱分配，假设基站预先获得且共享CSI，将两个通信设备放置于相邻小区的重叠区域，采用静态重复的古诺博弈模型来求解纳什均衡解，获得最优的频谱效率，仿真模拟了三种典型场景，通过求解一系列优化方程式来获得最优分配策略，计算复杂且难以应用于实践。

K.Zhou等人采用凸优化方法对卫星通信中的频谱资源进行分配，综合考虑应用层、数据链路层和物理层参数，构建一个全新的优化方程式，将频谱分配问题转换为凸优化问题，该方法降低了计算复杂度，分配公平性和频谱效率得到有效提升，但是难以解决多目标优化问题。

L.H.Takshi等人基于遗传算法实现D2D蜂窝网中的频谱和功率分配，通过同时搜索不同区间，获得全局最优的频谱效率和干扰性能，而且蜂窝网用户的信干噪比保持最低，对D2D用户数量没有限制，并且采用信道预测方法来减少CSI信息过载，算法具有较强的搜索性能，但是收敛速度较慢。

U.Challita等人提出采用深度学习方法对LTE中未授权频谱进行预分配，利用长短期记忆LSTM神经网络来学习历史经验信息，并利用学习训练好的LSTM网络对未来某一窗口的频谱状态进行预测，该方法可以获得较优的频谱分配方案，但是将神经网络看作黑匣子，而且依赖于大量的标签数据来训练神经网络。

可以发现，目前已有的频谱资源管理方法，大都需要基于完整信道状态信息来获取最优频谱资源管理策略，而且优化目标单一，难以有效解决多目标优化问题，并将多目标优化问题视为NP完全问题。

发明内容

本发明的目的在于提出一种基于深度强化学习的频谱资源管理方法，以在获得不完全信道状态信息条件下，能够快速制定频谱资源管理策略，有效提升无线通信网络频谱效率、能量效率和公平性。

为实现上述目的，本发明的技术方案包括如下：

(1)构造自适应深度神经网络：

以频谱效率最大化为优化目标，在子载波发送功率满足总功率约束条件下，对频谱效率进行优化，构建增广拉格朗日函数，形成频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n的迭代更新数据流，构造以信道增益h_n,m和噪声功率为权值参数的自适应深度神经网络，该自适应深度神经网络包括数据输入层、多层频谱更新层、多层功率更新层和多层乘子更新层以及策略输出层；

(2)训练自适应深度神经网络：

2a)初始化自适应深度神经网络权值参数，即将信道增益h_n,m初始化为瑞利分布，将噪声功率初始化为高斯白噪声；

2b)在时刻t,将观测到的通信网络用户接入信息和干扰信息输入到自适应深度神经网络的状态输入层，经过自适应深度神经网络前向传输后，在策略生成层输出一组数值，每一个数值对应一种频谱分配策略和功率分配策略，从策略生成层输出的数值中寻找出最大数值并将最大数值所对应的频谱分配策略和功率分配策略作为时刻t的频谱资源管理策略；

2c)计算通信网络的能量效率和公平性，观测通信网络用户接入信息和干扰信息将通信网络的能量效率和公平性作为自适应深度神经网络的回报值r_t+1，将观测到的用户接入信息和干扰信息重新输入到自适应深度神经网络的状态输入层，经过自适应深度神经网络前向传输后，从策略生成层输出的数值中寻找最大数值并将最大数值所对应频谱分配策略和功率分配策略作为时刻t+1的频谱资源管理策略；

2d)设定折扣因子γ，计算损失函数值Q：

2e)设定阈值μ，将损失函数值Q与阈值μ比较：若损失函数值Q≥μ，则执行2f)，否则，将2b)选定的频谱分配策略和功率分配策略作为最优频谱资源管理策略，完成频谱资源管理；

2f)采用反向传播算法，使损失函数值Q趋于最小化，沿着损失函数梯度下降方向逐层更新自适应深度神经网络的权值参数，即更新信道增益h_n,m和噪声功率当权值参数更新次数达到限定的最大次数A时，将2b)选定的频谱分配策略和功率分配策略作为最优频谱资源管理策略，完成频谱资源管理，否则，返回2b)。

本发明与现有技术相比，具有以下优点：

1.本发明基于无线通信网络频谱资源管理特性来构建深度神经网络层数、权值和非线性转换函数，使构造的神经网络具有理论基础。

2.本发明在基于不完全信道状态信息条件下，能够得到最优的频谱资源管理策略。

3.本发明优化无线通信网络的频谱效率、能量效率和公平性，可以自主调整频谱资源管理策略优化目标，有效解决多目标优化问题。

附图说明

图1为本发明的实现流程图；

图2为本发明中设计的自适应深度神经网络结构图；

图3为本发明在不同正交子载波数目下，对蜂窝网的性能仿真图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图对本发明进一步详细说明。

本发明的使用场景是无线通信网络，下面以蜂窝网为例，该网络包括N个微基站，M个授权用户和W个正交子载波。主要考虑下行链路，设定频率复用因子为1，授权用户随机分布在微基站内，假设在资源管理策略形成过程中，用户位置信息是固定不变的，基站内一个子载波只能分配给一个授权用户，因此基站内不存在干扰，若授权用户在相邻基站的重叠区域，并且相邻两个基站同时将相同的子载波分配给该授权用户，则会产生干扰。

参照图1，本发明在上述场景下的实现步骤如下：

步骤1，构造自适应深度神经网络。

1.1)考虑到每个微基站在所有信道上的发射功率之和不能超过其最大发射功率P_max，将系统频谱效率最优化问题表示为：

其中，h_n,m和分别表示第n个基站和第m个用户之间信道增益和噪声功率，P_n,m表示第n个基站到第m个用户的发送功率，L_n,m表示第n个基站与第m个用户的接入关系，表示第n个基站是否将第w个子载波分配给第m个用户，P_i,m表示第i个基站到第m个用户的发送功率i≠n，L_i,m表示第i个基站与第m个用户的接入关系i≠n，表示第i个基站是否将第w个子载波分配给第m个用户i≠n，表示第n个基站的最大发送功率；

1.2)引入增广拉格朗日乘子法，构造增广拉格朗日函数φ：

其中，λ_n为第n个基站拉格朗日乘子，ρ为罚因子；

1.3)求解无约束优化问题即在采集到第n个基站与第m个用户的接入关系L_n,m以及第m个用户干扰信息I_m后，依次求解出频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n：

其中，和分别表示第l+1次和第l次迭代产生的频谱分配策略，即第n个基站是否将第w个子载波分配给第m个用户，和分别表示第l+1次和第l次迭代产生的功率分配策略，即第n个基站到第m个用户的发送功率，和表示第l+1次和第l次迭代产生的第n个基站拉格朗日乘子；

1.4)对频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n进行迭代循环，形成如下迭代更新数据流：

其中，和分别表示第1次、第2次、第l次迭代和迭代结束产生的频谱分配策略，和分别表示第1次、第2次、第l次迭代和迭代结束产生的功率分配策略，和分别表示第1次、第2次、第l次迭代和迭代结束产生的第n个基站拉格朗日乘子；

1.5)根据迭代更新数据流来构造自适应深度神经网络的层数、权值参数和非线性转换函数：

自适应深度神经网络的深度是变化的，其层数取决于频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n的迭代更新次数，本实例构造的自适应深度神经网络，包括数据输入层、多层频谱更新层、多层功率更新层和多层乘子更新层以及策略输出层，如图2所示；

自适应深度神经网络中频谱更新层和功率更新层的权值参数为信道增益h_n,m和噪声功率

自适应深度神经网络中频谱更新层、功率更新层和乘子更新层的非线性转换函数分别为频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n的迭代更新方程式。

步骤2，对自适应深度神经网络进行训练。

2.1)初始化自适应深度神经网络权值参数，即将信道增益h_n,m初始化为瑞利分布，将噪声功率初始化为高斯白噪声；

2.2)在时刻t,将观测到的蜂窝网用户接入信息和干扰信息作为自适应深度神经网络的输入值，经过自适应深度神经网络前向传输后，在策略生成层输出一组数值，每一个数值对应一种频谱分配策略和功率分配策略，从策略生成层输出的数值中寻找出最大数值并将最大数值所对应的频谱分配策略和功率分配策略作为时刻t的频谱资源管理策略；

2.3)计算蜂窝网的能量效率EE和公平性F：

其中，表示第n个基站使用第w个子载波与第m个用户通信时所占用的信号带宽，表示第n个基站使用第w个子载波与第q个用户通信时所占用的信号带宽q∈{1,2,…,M}；

2.4)在执行频谱分配策略和功率分配策略后，对用户接入信息和干扰信息进行观测,并将观测到的用户接入信息和干扰信息重新输入到自适应深度神经网络中，经过自适应深度神经网络前向传输后，从策略生成层输出的数值中寻找最大数值并将最大数值所对应频谱分配策略和功率分配策略作为t+1时刻的频谱资源管理策略，需要注意的是，在频谱资源管理策略形成过程中用户接入信息被认为是固定不变的信息，即本次观测到的用户接入信息与在2.2)中观测到的用户接入信息相同；

2.5)设定折扣因子γ：

当频谱资源管理策略偏重于优化能量效率和公平性时，则设γ→0；

当频谱资源管理策略偏重于优化频谱效率时，则设γ→1；

2.6)将2.3)得到的能量效率EE和公平性F作为回报值r_t+1，计算损失函数Q：

2.7)设定阈值μ＝0.01，将损失函数值Q与阈值μ比较：若损失函数值Q≥μ，则执行2.8)，否则，将2.2)选定的频谱分配策略和功率分配策略作为最优频谱资源管理策略，完成蜂窝网频谱资源管理；

2.8)采用反向传播算法，使损失函数值Q趋于最小化，沿着损失函数梯度下降方向逐层修正信道增益h_n,m和噪声功率若自适应深度神经网络的权值参数更新次数达到限定的最大次数A，则将2.2)获得的频谱分配策略和功率分配策略作为最优频谱资源管理策略，完成蜂窝网频谱资源管理，否则，返回2.2)。

本发明的效果可以通过仿真进一步说明：

1.仿真条件：设蜂窝网中，包括9个微基站，每个微基站内随机散播10个授权用户，每个微基站的发送功率为38dBm，覆盖范围为0.2公里。频率复用因子为1，可用正交子载波数在2到16范围内变化。

2.仿真内容：采用本发明频谱资源管理方法和已知信道信息的贪婪算法对蜂窝网性能进行仿真比较，结果如图3。其中：

图3(a)是采用本发明频谱资源管理方法和贪婪算法对蜂窝网频谱效率的仿真结果；

图3(b)是采用本发明频谱资源管理方法和贪婪算法对蜂窝网能量效率的仿真结果；

图3(c)是采用本发明频谱资源管理方法和贪婪算法对蜂窝网公平性的仿真结果。

由仿真结果可知，当将折扣因子γ设为1时，频谱资源管理策略偏重优化频谱效率，本发明获得的频谱效率近似于贪婪算法，但是本发明获得的能量效率和公平性优于贪婪算法；当将折扣因子γ设为0时，频谱资源管理策略偏重优化能量效率和公平性，虽然本发明获得的频谱效率低于贪婪算法，但是本发明获得的能量效率和公平性远远优于贪婪算法。

Claims

1.一种基于深度强化学习的频谱资源管理方法，其特征在于，包括：

(1)构造自适应深度神经网络：

(2)训练自适应深度神经网络：

2d)设定折扣因子γ，计算损失函数值Q：

2.根据权利要求1所述的方法，其中(1)中的自适应深度神经网络，是指神经网络的深度是变化的，且深度取决于频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n的迭代更新次数。

3.根据权利要求1所述的方法，其中(2)中的用户接入信息，是指用户与站点的接入关系，在频谱资源管理策略形成过程中被认为是固定不变的信息，即在2b)中观测到的用户接入信息与在2c)中观测到的用户接入信息相同。

4.根据权利要求1所述的方法，其中(1)中对频谱效率进行优化，通过如下公式优化：

其中，N表示接入站点数目，M表示授权用户数目，W表示可用正交子载波数目，h_n,m和分别表示第n个接入站点和第m个用户之间信道增益和噪声功率，P_n,m表示第n个基站到第m个用户的发送功率，L_n,m表示第n个基站与第m个用户的接入关系，表示第n个基站是否将第w个子载波分配给第m个用户，P_i,m表示第i个基站到第m个用户的发送功率i≠n，L_i,m表示第i个基站与第m个用户的接入关系i≠n，表示第i个基站是否将第w个子载波分配给第m个用户i≠n，表示第n个接入站点的最大发送功率。

5.根据权利要求1所述的方法，其中(1)中构建的增广拉格朗日函数，表示如下：

其中，λ表示拉格朗日乘子，ρ表示罚因子，N表示接入站点数目，M表示授权用户数目，W表示可用正交子载波数目，h_n,m和分别表示第n个接入站点和第m个用户之间信道增益和噪声功率，P_n,m表示第n个基站到第m个用户的发送功率，L_n,m表示第n个基站与第m个用户的接入关系，表示第n个基站是否将第w个子载波分配给第m个用户，P_i,m表示第i个基站到第m个用户的发送功率i≠n，L_i,m表示第i个基站与第m个用户的接入关系i≠n，表示第i个基站是否将第w个子载波分配给第m个用户i≠n，表示第n个接入站点的最大发送功率。

6.根据权利要求1所述的方法，其中(1)中形成迭代更新数据流，其实现如下：

1a)在采集到第n个接入站点与第m个用户的接入关系L_n,m以及第m个用户干扰信息I_m后，依次产生频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n：

其中，M表示授权用户数目，W表示可用正交子载波数目，h_n,m和分别表示第n个接入站点和第m个用户之间信道增益和噪声功率，和分别表示第l+1次和第l次迭代产生的频谱分配策略，即第n个接入站点是否将第w个子载波分配给第m个用户，和分别表示第l+1次和第l次迭代产生的功率分配策略，即第n个接入站点到第m个用户的发送功率，和表示第l+1次和第l次迭代产生的第n个接入站点拉格朗日乘子，表示第n个接入站点的最大发送功率，ρ表示罚因子；

1b)对频谱分配策略功率分配策略P_n,m和拉格朗日乘子λ_n进行迭代循环，形成如下迭代更新数据流：

其中，和分别表示第1次、第2次、第l次迭代和迭代结束产生的频谱分配策略，和分别表示第1次、第2次、第l次迭代和迭代结束产生的功率分配策略，和分别表示第1次、第2次、第l次迭代和迭代结束产生的第n个接入站点拉格朗日乘子。

7.根据权利要求1所述的方法，其中2c)中的能量效率，采用如下公式计算：

其中，EE表示能量效率，N表示接入站点数目，M表示授权用户数目，W表示可用正交子载波数目，表示第n个接入站点使用第w个子载波与第m个用户通信时所占用的信号带宽，h_n,m和分别表示第n个接入站点和第m个用户之间信道增益和噪声功率，P_n,m表示第n个基站到第m个用户的发送功率，L_n,m表示第n个基站与第m个用户的接入关系，表示第n个基站是否将第w个子载波分配给第m个用户，P_i,m表示第i个基站到第m个用户的发送功率i≠n，L_i,m表示第i个基站与第m个用户的接入关系i≠n，表示第i个基站是否将第w个子载波分配给第m个用户i≠n。

8.根据权利要求1所述的方法，其中2c)中的公平性，是指通信网络用户之间的吞吐量方差，方差值越大，公平性越差，反之，公平性越好，公平性采用如下公式计算：

其中，F表示公平性，N表示接入站点数目，M表示授权用户数目，W表示正交子载波数目，表示第n个接入站点使用第w个子载波与第q个用户通信时所占用的信号带宽，h_n,m和分别表示第n个接入站点和第m个用户之间信道增益和噪声功率，P_n,m表示第n个基站到第m个用户的发送功率，L_n,m表示第n个基站与第m个用户的接入关系，表示第n个基站是否将第w个子载波分配给第m个用户，P_i,m表示第i个基站到第m个用户的发送功率i≠n，L_i,m表示第i个基站与第m个用户的接入关系i≠n，表示第i个基站是否将第w个子载波分配给第m个用户i≠n。

9.根据权利要求1所述的方法，其中2d)中的折扣因子γ，是指根据频谱资源管理策略优化目标来设定的，即当γ→0，频谱资源管理策略偏重优化能量效率和公平性，当γ→1，频谱资源管理策略偏重优化频谱效率。