CN114938543A

CN114938543A - 一种基于深度强化学习的蜂窝异构网络资源分配方法

Info

Publication number: CN114938543A
Application number: CN202210753100.6A
Authority: CN
Inventors: 刘洋; 赵鑫; 连尹博; 宋海鹏; 龙旭东; 罗易
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-08-23

Abstract

本申请公开了一种基于深度强化学习的蜂窝异构网络资源分配方法，包括如下步骤：S1：构建三层异构网络模型，获得三层异构网络模型的参数信息，其中，参数信息至少包括：可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量；S2：完成构建后，通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。本申请的能够在没有CSI的情况下进行优化，同时也能在大量用户和基站的情况下完成策略收敛。

Description

一种基于深度强化学习的蜂窝异构网络资源分配方法

技术领域

本申请涉及无线网络通信技术领域，尤其涉及一种基于深度强化学习的蜂窝异构网络资源分配方法。

背景技术

异构网络技术作为未来6G的热门研究问题，可以通过宏基站与微基站共享频谱解决频谱短缺，并通过增加微基站提升系统容量。但是在大量基站与海量用户设备共存的异构网络中，由于共用信道和设备密集的原因存在着严重的干扰。对每个用户来说，选择合适的基站和信道可以极大程度的减少干扰。所以解决用户关联和信道分配的联合优化问题意义重大。但是传统算法无法在没有CSI(信道状态信息)的情况下进行优化，同时也无法在大量用户和基站的情况下完成策略收敛。

发明内容

本申请的目的在于提供一种基于深度强化学习的蜂窝异构网络资源分配方法，能够在没有CSI的情况下进行优化，同时也能在大量用户和基站的情况下完成策略收敛。

为达到上述目的，本申请提供一种基于深度强化学习的蜂窝异构网络资源分配方法，包括如下步骤：S1：构建三层异构网络模型，获得三层异构网络模型的参数信息，其中，参数信息至少包括：可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量；S2：完成构建后，通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。

如上的，其中，MAPD3QN算法的具体步骤如下：S201：输入三层异构网络模型中的可选行动列表，其中，可选行动列表包括：各个用户设备关联的基站的列表和信道的列表；S202：假设智能体后，对状态、动作、Sum Tree记忆存储器

权值更新间隔N进行初始化；S203：通过在线网络的权值θ对在线网络Q_u(s,a_u；θ)和Double Q网络Q_Double _Q _Net(s′,a_u；θ)进行初始化；S204：通过在线网络的权值θ更新目标网络的权值θ^-，根据目标网络的权值θ^-初始化目标网络Q_u(s′,a′_u；θ^-)；S205：通过将消息传递至连接的基站初始化状态；S206：智能体在状态s下通过ε-greedy算法从在线网络Q_u(s,a_u；θ)中以概率ε随机选择一个动作a_u；S207：智能体向选定的基站发送请求，以访问选定的信道；如果基站向用户设备发送可用信道频率的反馈信号，用户设备将获得即时奖励μ_u(s,a_u)；否则，基站将不回复任何内容，用户设备将获得负奖励；S208：智能体通过将消息传递至连接的基站获取状态s′；S209：智能体将数据(s,a_u,μ_u(s,a_u),s′)以概率p_u的最大优先级顺序存储在编号为H的SumTree记忆存储器中；S210：智能体将SumTree记忆存储器H中的数据(s,a_u,μ_u(s,a_u),s′)按最小批次的大小分成B个部分，根据概率p_u从B个部分中进行采样，获得多个样本；S211：计算所有样本的TD偏差η，更新SumTree记忆存储器H中所有节点的优先级；S212：通过目标网络Q_u(s′,a′_u；θ^-)获取最大Q值的动作a_u；S213：根据最大Q值的动作a_u进行学习，获得更新的目标网络

S214：对损失函数进行更新，获得最小化损失函数；S215：每学习N次，智能体替换目标网络参数θ^-＝θ；S216：当完成N次学习后，获得学习N次的状态集合s＝{1,...,1}，完成一轮学习，若当前不是最后一轮学习，则重新执行S201进行新一轮的学习，直到所有轮的学习均完成，则输出最优行动序列。

如上的，其中，三层异构网络模型至少包括：B_m个宏基站、B_p个微型基站、B_f个毫微微基站和U个随机定位的用户设备。

如上的，其中，利用用户设备的最终的奖励R_u(t)来表示即时奖励μ_u(s,a_u)，用户设备最终的奖励R_u(t)的表达式如下：R_u(t)＝w_u(t)-ψ_u；其中，R_u(t)为最终的奖励；w_u(t)为用户的收益；

为与B_l相关联的总传输成本，B_l表示索引集合B中的第l个基站；ψ_u为行动选择的成本，ψ_u＞0。

如上的，其中，通过绝对偏差|η|表示TD偏差η的大小，绝对偏差|η|的表达式为：|η_u|＝|μ_u(s,a_u)+γQ_u(s′,a′_u；θ^-)-Q_u(s,a_u；θ)|；其中，|η_u|为第u个用户设备的绝对偏差；μ_u(s,a_u)为为即时奖励；μ_u为第u个用户设备的奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；γ为折扣因子，γ∈[0,1]；Q_u(s,a_u；θ)为在线网络；Q_u(s,a_u；θ^-)为目标网络，Q_u(s′,a′_u；θ^-)为Q_u(s,a_u；θ^-)之后的一个目标网络构架；θ^-代表目标网络的权重；θ表示在线网络的权值。

如上的，其中，目标网络

的表达式如下：

其中，μ为奖励；a_u为最大Q值的动作；γ为折扣因子；s′∈S，s∈S，S为状态；θ为在线网络中的权值；θ^-为目标网络的参数；μ_u(s,a_u)为即时奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；otherwise表示此时的状态s不是最后一个状态；if s′is terminal表示如果状态s′是最后一个状态。

如上的，其中，最小化损失函数的表达式如下：

其中，

其中，Q_u(s,a_u；θ)为在线网络；Q_u(s,a_u；θ^-)为目标网络；s′∈S，s∈S，S为状态；θ为在线网络中的权值；θ^-为目标网络的参数；μ_u(s,a_u)为即时奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；a′∈A，动作a′为动作a之后的一个动作，A为动作；γ为折扣因子；

表示深度神经网络的目标网络；

表示期望。

如上的，其中，每一次学习完成后，对用户设备是否满足最小服务质量门限进行判断，若满足，则在状态集合中的取值为1；若不满足，则在状态集合中的取值为0；若N次学习的用户设备均满足最小服务质量门限，则获得的状态集合为s＝{1,...,1}。

如上的，其中，MAPD3QN算法的用户设备的数量U＝500，学习的轮数E＝500，学习的次数N＝50。

如上的，其中，学习率δ为0.005；折扣率为0.9；智能体的数量和信道的数量的比例为5:3。

本申请能够在没有CSI的情况下进行优化，同时也能在大量用户和基站的情况下完成策略收敛。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为三层异构网络模型的示意图；

图2为智能体的强化学习流程；

图3为Double Q网络的Double DQN策略的迭代过程图；

图4为多种基站和用户的示意图；

图5a为不同梯度优化算法对比图；

图5b为不同梯度优化算法对比细节图；

图6a为不同隐藏层数量训练平稳步数对比图；

图6b为不同隐藏层数量训练平稳步数对比细节图；

图7a为不同数量神经元训练平稳步数对比图；

图7b为不同数量神经元训练平稳步数对比细节图；

图8a为不同学习率下训练平稳步数对比图；

图8b为不同学习率下训练平稳步数对比细节图；

图8c为不同学习率下训练平稳步数对比细节图；

图8d为MAPD3QN算法在不同学习率时的和速率对比图；

图9a为不同折扣率下训练平稳步数对比图；

图9b为不同学习率下训练平稳步数对比细节图；

图9c为MAPD3QN算法在不同门限时的和速率对比图；

图10为不同收敛门限值对训练平稳步数的影响对比图；

图11a为不同信道数量训练平稳步数对比图；

图11b为不同信道数量训练平稳步数对比细节图；

图12为不同用户和信道数量训练平稳步数对比图；

图13为不同用户和信道数量和速率对比图；

图14a为不同算法训练平稳步数对比图；

图14b为不同算法和速率对比图；

图15为不同算法在不同信道数量时的和速率对比图；

图16为不同算法在不同用户数量时的和速率对比图；

图17为Qos门限为-5dB时，不同算法在不同信道数量时的和速率对比图；

图18为Qos门限为-5dB时，不同算法在不同用户数量时的和速率对比图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供一种基于深度强化学习的蜂窝异构网络资源分配方法，包括如下步骤：

S1：构建三层异构网络模型，获得三层异构网络模型的参数信息，其中，参数信息至少包括：可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量。

进一步的，如图1所示，三层异构网络模型至少包括：B_m个宏基站(Macro BaseStations，MBSs)、B_p个微型基站(Pico Base Stations，PBSs)、B_f个毫微微基站(Femto BaseStations，FBSs)和U个随机定位的用户设备(User Equipments，UEs)，其中，脚标s表示复数。

具体的，三层异构网络模型中的所有的基站的表达式为：

其中，

表示1～B_m个宏基站(MBS)；

表示1～B_p个微型基站(PBS)；

表示1～B_f个毫微微基站。

其中，基站(Base Stations,BSs)的索引集合B为：

B＝{0,1,...L-1}；

其中，L为基站的总数，L＝B_m+B_p+B_f；B_m为宏基站的个数，B_p为微型基站的个数，B_f为毫微微基站的格式。

假设基站在K个共享正交信道上工作。假设每个用户设备(UE)在任何时候最多只能选择一个基站，表达式如下：

其中，

表示第u个用户设备的关联向量，

U＝[1,U]，U为用户设备的个数；

表示第u个用户设备与第0个基站的用户关联向量；

表示第u个用户设备与第L-1个基站的用户关联向量。

假设每个用户设备在任何时候最多只能选择一个信道，表达式如下：

其中，

表示第t时刻第u个用户设备在信道k上的的信道分配向量，

U＝[1,U]，K＝[1,K]，K为共享正交的信道的个数；

表示表示第u个用户设备与第0个信道的信道分配向量；

表示表示第u个用户设备与第K个信道的信道分配向量。

定义发射功率的集合P_l,u(t)为：

u∈U,U＝[1,U]，l∈B，k∈K,K＝[1,K]；

表示第u个用户设备与第l个基站相关联时使用第1个信道时的功率；

表示表示第u个用户设备与第l个基站相关联时使用第K个信道时的功率。第u个用户设备通过信道C_k(C_k表示第k个信道)与其相关联的基站B_l(B_l表示B集合中的第l个基站)这一链路的信干噪比(signal to interference plus noise ratio，SINR)

的定义如下：

其中，

是t时刻B集合中的第l个基站与第u个用户设备之间在信道k上的信道增益；

是t时刻B集合中的第m个基站与第u个用户设备之间在信道k上的信道增益；

为t时刻第m个BS和第u个用户设备的关联向量；

为t时刻第l个BS和第u个用户设备的关联向量；

表示第t时刻第u个用户设备在信道k上的的信道分配向量；

表示t时刻第m个基站与第u个用户设备之间在信道k上的发射功率向量；

表示第l个基站与第u个用户设备之间在信道k上的发射功率向量；W表示信道带宽，N₀表示噪声功率谱密度。BS属于BSs。

t时刻B集合中的第l个基站与第u个用户设备之间在信道k上的的下行链路容量

表示为：

因此，t时刻第u个用户设备的总传输容量r_u(t)表示为：

S2：完成构建后，通过MAPD3QN算法(多智能体优先经验回放决斗网络和深度双Q网络算法)完成三层异构网络模型中的用户关联和信道分配的联合优化。

进一步的，如表1所示，MAPD3QN算法的具体步骤如下：

S201：输入三层异构网络模型中的可选行动列表，其中，可选行动列表包括：各个用户设备关联的基站的列表和信道的列表。

S202：假设智能体后，对状态、动作、Sum Tree记忆存储器

权值更新间隔N进行初始化。

具体的，如图2所示，假设环境中存在一个可以做出行为的智能体(Agent)，用S代表Agent在一个时刻有特定的状态(State)；用A代表Agent在环境中做出动作(Action)；R表示这些动作有时会带来奖励(Reward)；P代表在不断的学习过程中(初始状态S₀采取动作A₀后，改变了环境，根据状态S₀或动作A₀获得了奖励R₀，并使Agent进入了新的状态S₁，在新一轮的学习中Agent又采取新的动作A₁，如此不断循环学习下去)，形成了最终的策略(Policy)。在MAPD3QN算法中的强化学习的最终目的是通过Agent与环境的交互，学习到一个从环境状态到动作的映射，即策略π，因此，强化学习通过引入状态价值函数来确定策略π的效果，从而实现策略的最大化长期效益。每一轮学习完成后，均需要对状态和动作进行初始化，即：在程序中对状态和动作的初始状态进行定义，在程序的执行过程中对状态和动作进行赋值。

进一步的，考虑策略π的状态转移概率为p(s′|s,a)，s′∈S，s∈S，a∈A，则状态价值函数V_π(s)的表达式如下：

其中，π(s)表示状态s的策略；p(s′|s,π(s))表示转移概率；V_π(s′)为状态s之后的一个状态s′的状态价值函数；r∈R；γ为折扣因子，γ∈[0,1]。

进一步的，状态值函数V_π(s)在遵循策略π时描述的是一个状态的值，而描述策略π在给定状态(State)下的动作(Action)的值则需要定义为行动值函数Q_π(s,a)。在策略π的状态转移概率为p(s′|s,a)时，可得行动值函数Q_π(s,a)的表达式如下：

其中，r(s′|s,a)为与上一个状态和动作有关的奖励R的表达式；a′∈A，动作a′为动作a之后的一个动作；Q_π(s′,a′)为下一个状态和动作的行动值函数。

进一步的，每一轮学习完成后，均需要对Sum Tree(求和树)记忆存储器

(其中，H为求和树的编号)进行初始化。

进一步的，每一轮学习完成后，均需要对权值更新间隔N进行初始化，目标网络的权值更新间隔N越大，算法就会越稳定，目标网络更新频率越慢，算法收敛速度会越慢。

S203：通过在线网络的权值θ对在线网络Q_u(s,a_u；θ)和Double Q网络Q_Double _Q _Net(s′,a_u；θ)进行初始化。

具体的，通过ε-greedy算法从在线网络Q_u(s,a_u；θ)中选择出动作a_u，同时不断更新在线网络中的权值θ；即以概率ε随机选择一个动作a_u；而每一轮学习完成后，均需要通过更新的在线网络的权值θ对当前的在线网络Q_u(s,a_u；θ)进行初始化。

如图3所示，DoubleQ网络(DoubleDeepQNetwork，双重深度Q网络)在DQN(DeepQNetwork，一种融合了神经网络和Qlearning的强化学习方法)目标网络的目标网络Q_u(s',a'；θ^-)中新增加了一个Q网络，将DQN目标网络中直接选取最大Q_u(s',a'；θ^-)的方式转变为DoubleDQN先通过新增加的Q网络找到最优动作a_u后，再将a_u代入得到Q_u(s',a'；θ^-)。DoubleDQN通过与在线网络的权值θ相同的Double Q网络

找到能够获得最大Q值的动作a_u；再计算这个动作a_u在权值为θ^-的目标Q网络Q_Double _Q _Net,u(s,a_u；θ^-)中的Q值，利用Double Q网络监督目标Q网络。

其中，DQN目标网络

的表达式为：

S204：通过在线网络的权值θ更新目标网络的权值θ^-，根据目标网络的权值θ^-初始化目标网络Q_u(s′,a′_u；θ^-)。

具体的，θ^-为目标网络的参数，在N次学习后，由权值θ更新权值θ^-。

进一步的，目标网络Q_u(s′,a′_u；θ^-)的表达式为：

其中，Q_TargetQ _Net,u()表示增加的Q网络；

表示最大化目标网络的动作a_u。

具体的，目标网络Q_u(s′,a′_u；θ^-)表示QDN的目标网络；增加的Q网络Q_TargetQ _Net,u()表示doubleDQN在DQN中的目标网络中增加的Q网络。

S205：通过将消息传递至连接的基站初始化状态。

具体的，将消息传递至连接的基站，通过连接的基站散发至每个基站，从而实现所有基站的更新。

S206：智能体在状态s下通过ε-greedy算法从在线网络Q_u(s,a_u；θ)中以概率ε随机选择一个动作a_u。

S207：智能体向选定的基站发送请求，以访问选定的信道；如果基站向用户设备发送可用信道频率的反馈信号，用户设备将获得即时奖励μ_u(s,a_u)；否则，基站将不回复任何内容，用户设备将获得负奖励。

具体的，如果基站向用户设备发送可用信道频率的反馈信号，则表示该基站可以连接，且连接成功，只有连接成功才能获得即时奖励；如果基站不向用户设备发送可用信道频率的反馈信号，则表示该基站不可以连接，连接失败，不能获得即时奖励。

进一步的，利用用户设备的最终的奖励R_u(t)来表示即时奖励μ_u(s,a_u)，用户设备最终的奖励R_u(t)的表达式如下：

R_u(t)＝w_u(t)-ψ_u；

其中，

其中，

其中，R_u(t)为最终的奖励；w_u(t)为用户的收益，即获得的收益和传输成本之间的差额；

为与B_l相关联的总传输成本，B_l表示索引集合B中的第l个基站；-ψ_u为负奖励；ψ_u为行动选择的成本，ψ_u＞0；λ_l表示BS的B_l的发射功率的成本；ρ_u是传输速率的收益率；r_u为第u个用户设备的传容量输。

S208：智能体通过将消息传递至连接的基站获取状态s′。

具体的，通过将消息传递至连接的基站获取状态s′，设置s←s′，即：状态s′为状态s之后的一个状态。

S209：智能体将数据(s,a_u,μ_u(s,a_u),s′)以概率p_u的最大优先级顺序存储在编号为H的Sum Tree记忆存储器中。

具体的，Sum Tree是一种树状数据结构，运用求和树的技术，将(s,a_u,μ_u(s,a_u),s′)以数据的形式和绝对偏差|η|一同存储于编号为H的Sum Tree记忆存储器。其中，定义求和树以子节点数字大小的方式存入数据相应的优先级，父节点根据子节点的大小生成，即父节点是所有子节点大小之和，根节点则是所有优先级数字的总和。

S210：智能体将Sum Tree记忆存储器H中的数据(s,a_u,μ_u(s,a_u),s′)按最小批次的大小分成B个部分，根据概率p_u从B个部分中进行采样，获得多个样本。

S211：计算所有样本的TD偏差η，更新Sum Tree记忆存储器H中所有节点的优先级。

引入优先级经验回放技术，通过对数据赋予优先级的方式，对强化学习效率高的数据经验给予更高的采样概率。TD(时间差分法)偏差η的大小决定了经验的重要性，TD偏差越大，强化学习时的更新量和对反向传播时的作用就越大，则该次学习效率越高。

进一步的，通过绝对偏差|η|表示TD偏差η的大小，绝对偏差|η|的表达式为：

|η_u|＝|μ_u(s,a_u)+γQ_u(s′,a′_u；θ^-)-Q_u(s,a_u；θ)|；

其中，|η_u|为第u个用户设备的绝对偏差；μ_u(s,a_u)为即时奖励；μ_u为第u个用户设备的奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；γ为折扣因子，γ∈[0,1]；Q_u(s,a_u；θ)为在线网络；Q_u(s,a_u；θ^-)为目标网络，Q_u(s′,a′_u；θ^-)为Q_u(s,a_u；θ^-)之后的一个目标网络构架；θ^-代表目标网络的权重；θ表示在线网络的权值。

S212：通过目标网络Q_u(s′,a′_u；θ^-)获取最大Q值的动作a_u。

具体的，定义

计算动作a_u在参数为θ^-的目标网络Q_Double _Q _Net,u(s,a_u；θ^-)中的Q值，获取最大Q值的动作a_u为步骤S213做准备。

S213：根据最大Q值的动作a_u进行学习，获得更新的目标网络

进一步的，目标网络

的表达式如下：

S214：对损失函数进行更新，获得最小化损失函数。

具体的，用梯度下降法更新损失函数。

进一步的，最小化损失函数的表达式如下：

其中，

表示深度神经网络(DNN)的目标网络；

表示期望。

S215：每学习N次，智能体替换目标网络参数θ^-＝θ。

具体的，在N次学习后，由权值θ更新权值θ^-，即更新动作-价值的评价标准，动作-价值的评价标准为算法中的评价标准，算法根据动作-价值的评价标准进行学习。

S216：当完成N次学习后，获得学习N次的状态集合s＝{1,...,1}，完成一轮学习，若当前不是最后一轮学习，则重新执行S201进行新一轮的学习，直到所有轮的学习均完成，则输出最优行动序列。

进一步的，每一次学习完成后，对用户设备是否满足最小服务质量(Qos)门限进行判断，若满足，则在状态集合中的取值为1；若不满足，则在状态集合中的取值为0。若N次学习的用户设备均满足最小服务质量门限，则获得的状态集合为s＝{1,...,1}，完成一轮学习，若当前不是最后一轮学习，则重新执行S201进行新一轮的学习，直到所有轮的学习均完成，则输出最优行动序列。

其中，自行学习包括U个用户设备，每个用户设备需要进行E轮学习，每轮学习包括N次学习。E的具体数量根据实际情况而定，本申请优选为E＝500；N的具体数量根据实际情况而定，本申请优选为N＝50。

其中，最优行动序列包括：满足最小服务质量(Qos)门限的用户设备关联的基站的列表和信道的列表。

进一步的，第u个用户设备的信干噪比SINR_u不小于最小服务质量(Qos)门限Ω_u，表达式如下：

其中，

为第u个用户设备通过信道C_k(C_k表示第k个信道)与其相关联的基站B_l(B_l表示B集合中的第l个基站)这一链路的信干噪比。

表1

进一步的，基于深度强化学习的蜂窝异构网络资源分配方法还包括：通过计算机进行仿真，根据仿真来观测MAPD3QN算法的学习情况，获得仿真结果，根据仿真结果确定学习完成后MAPD3QN算法的实际效果。

具体的，作为一个实施例，在仿真过程中，仿真实验平台选择十代i7 CPU的计算机作为硬件平台，深度神经网络使用Python 3.7版本下的Pytorch作为软件平台。在进行仿真之前，需先对仿真环境的参数进行设置，如表2所示：

表2

如图4所示，仿真中，网络由2个宏基站(Macro Base Stations，MBSs)、8个微型基站(Pico Base Stations，PBSs)、16个毫微微基站(Femto Base Stations，FBSs)和50-500个UE组成，BS半径分别为500m、100m和30m，每次仿真UE都是随机变化的，蒙特卡洛实验数设为20。

采用仿真分析方式获取不同学习超参数下的训练效率的实验如下：

实验一：不同优化算法的迭代次数

如图5a和图5b所示，从各种优化策略下的训练情况可以看出，训练步数较少时，适应性矩估计梯度(adaptive moment estimation,Adam)和均方差传播梯度(RMSProp)的收敛速度基本相同，但是通过细节图可以看出RMSprop的优势所在，而自适应梯度优化算法(AdaGrad)收敛速度较慢，总体来说RMSprop有收敛速度快和收敛后较为稳定的优点。

进一步的，本申请选择RMSProp优化策略。

实验二：不同优化算法的迭代次数

1、不同隐藏层

如图6a和6b所示，从各DNN结构层的训练步骤可以看出效果最好的是layer＝4时；同时，当隐藏层数过大时，优化问题趋于局部最优，而隐藏层过少又不易提取出关键信息，因此需要在一个特定的问题中选择一个合适的隐藏层。

进一步的，在联合优化问题中，layer＝4收敛速度较快且较为稳定，因此四层网络是最佳参数。

2、不同神经网络

如图7a和7b所示，从总体上看64-32-32-32收敛速度最快，且收敛后较为平稳。同时，当神经元数量过大时，优化问题可能会导致过拟合，增加训练时间，神经元过小又不容易提取到关键信息。因此，选择64、32、32和32个神经元的4层网络结构。

实验三：不同学习率下的收敛效果

从图8a、图8b、图8c和图8d可以看出，考虑到MAPD3QN算法的实时性和收敛的平稳性，选择学习率δ为0.005，收敛效果较好、较为稳定。

进一步的，针对用户关联和信道选择联合优化问题所选取的学习率为0.005。

实验四：不同学习率下的收敛效果

如图9(a)、9(b)和9(c)所示，当折扣率为0.9时，能达到了最优的和速率。

实验五：不同Qos门限对系统的影响

实验五讨论不同收敛Qos门限对收敛平稳后和速率的影响。从图10可以看出在SINR为-5dB和10dB时，效果不太稳定，在不断学习的过程中出现了大幅度的波动。选择Ω＝5作为后面实验的参数，不只因为此时的系统容量最大，还因为SINR＝5dB在通信中是一个衡量通信质量好坏较为合理的阈值。

实验六：不同信道数对算法收敛及和速率的影响

如图11(a)所示，信道数量为20时，无法找到满足Qos的策略，原因是信道数量小共用信道的UE过多，难以满足SINR的Qos门限。如图11(b)所示，信道数量为30的时可以满足UEs的QoS要求的最低信道数量，因此，在Agent＝50的情况下信道数量选择30，在其他数量的Agent情况下，保持Agent和信道数量5:3的比例。

实验七：用户和信道数据不同时的收敛效果

经过上述实验对算法超参数的设定，实验七测试超参数的性能。如图12所示，随着Agents数量增加，收敛的迭代次数有相应的增加，但是均可以在很快的时间内收敛，同时收敛后较为平稳，没有过大的波动。

实验八：不同用户数量时的和速率

如图13所示，Agent为500的情况下，在算法进行学习后，和速率有一个明显的上升，说明算法对系统和速率的增长十分有效，在算法收敛后，这种和速率上的增长停止；同时在不断迭代中，保持较为平稳的和速率，这种稳定性在Agent数量小于500更加明显，这证明算法对用户关联和信道分配做出的决策给通信系统带来了稳定的系统性能。

通过仿真实验对所提出的MAPD3QN算法的性能进行评估。本文选择DQN算法、MADDQN算法、随机分配方法、Double DQN算法和贪婪分配算法进行对比。MAPD3QN的超参数如表3所示。

表3

实验八：用户数量为500时，不同算法收敛情况对比

仿真用户数量为500，属于用户数量极高的情况，如14(a)所示，DQN、Double DQN、Random算法以及Greedy算法均无法使所有UE满足Qos门限，无法完成最终的收敛，而MADDQN无法完成最终的平稳收敛，主要是因为Dueling DQN将Q函数分为了A和V两部分，相比于DQN和Double DQN可以快速提取出关键信息；但是在用户数量极高的情况下，也不足以学习到平稳收敛的策略。相比之下，本申请的MAPD3QN算法在优先级经验回放技术的加持下，仅仅20次迭代就完成了满足Qos门限的策略，并且在后面的步骤中，保持平稳。如图14(b)所示，本申请的MAPD3QN和速率(系统容量)保持平稳且高于其他几种算法。

实验九：Qos＝5时，不同信道数量时，不同算法和速率(系统容量)对比

本仿真主要为了对比不同信道数量时，不同算法的增长情况。如图15所示，随着信道数量的增长，系统容量的增长速度在不断减缓，是因为信道增加后，共用信道的情况会减少，因此系统中的干扰也会减小；但是当信道数量趋近于用户数量时，共用信道的情况将趋于消失，即增加信道带来的系统容量收益会越来越小。

实验十：Qos＝5时，不同用户数量时，不同算法和速率对比

如图16所示，在固定的信道数量下，随着用户数量的增加，系统容量的增长速度在不断减缓，主要是因为随着用户数量的增加，共用信道的情况会不断增加，从而会造成巨大的干扰，虽然增加新用户会使整体系统容量增加，但是由于共用信道的干扰也随之增加，因此增加用户带来的系统容量收益会越来越小。本申请的MAD3QN算法随着用户的增加趋于平稳，但是在不同用户情况下均高于其他算法。

实验十一：Qos门限为-5dB时，不同信道数量时，不同算法和速率(系统容量)对比

如图17所示，随着信道数量的增加，和速率也在增加，但是增速不断减缓，原因是信道内干扰随着信道数量的增加也会不断减少，这与Qos＝5dB时的趋势基本相同。同时可以看出在信道数量非常少的时候，几种算法所取得的和速率非常相近，而随着信道数量的增加，其他算法的与MAPD3QN算法差距越来越来，因为信道数量极少的情况选择的种类也较少，而在动作空间和状态空间增加时，MAPD3QN算法的优势就逐渐体现出来了。

实验十二：Qos门限为-5dB时，不同用户数量时，不同算法和速率(系统容量)对比

如图18所示，不同算法在用户数量由10增加到50的和速率对比，在信道资源充足的时候，随着用户数量的增加，和速率得到了接近于线性的增加，而到信道资源紧缺时，用户增加带来的系统和速率增长变得极其有限，但是MAPD3QN算法仍获得了相当不错的系统和速率。

实验十三：不同Qos门限(Qos＝5，-5)时算法运行时间(表)

表4 不同Qos门限时不同算法运行时间

如表4所示，以明显看出当Qos标准降低后，算法运行时间减少很多。同时因为MAPD3QN收敛速度快，在两种Qos门限时运行速度均为最快。MADDQN因为使用了Dueling架构，可以快速提取出信息完成收敛，所以运行时间比DQN、Double DQN短很多。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，包括如下步骤：

S1：构建三层异构网络模型，获得三层异构网络模型的参数信息，其中，参数信息至少包括：可选行动列表、索引集合、信干噪比、下行链路容量和总传输容量；

S2：完成构建后，通过MAPD3QN算法完成三层异构网络模型中的用户关联和信道分配的联合优化。

2.根据权利要求1所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，MAPD3QN算法的具体步骤如下：

S201：输入三层异构网络模型中的可选行动列表，其中，可选行动列表包括：各个用户设备关联的基站的列表和信道的列表；

S202：假设智能体后，对状态、动作、Sum Tree记忆存储器

权值更新间隔N进行初始化；

S203：通过在线网络的权值θ对在线网络Q_u(s,a_u；θ)和Double Q网络Q_{DoubleQ Net}(s′,a_u；θ)进行初始化；

S204：通过在线网络的权值θ更新目标网络的权值θ-，根据目标网络的权值θ-初始化目标网络Q_u(s′,a′_u；θ^-)；

S205：通过将消息传递至连接的基站初始化状态；

S206：智能体在状态s下通过ε-greedy算法从在线网络Q_u(s,a_u；θ)中以概率ε随机选择一个动作a_u；

S207：智能体向选定的基站发送请求，以访问选定的信道；如果基站向用户设备发送可用信道频率的反馈信号，用户设备将获得即时奖励μ_u(s,a_u)；否则，基站将不回复任何内容，用户设备将获得负奖励；

S208：智能体通过将消息传递至连接的基站获取状态s′；

S209：智能体将数据(s,a_u,μ_u(s,a_u),s′)以概率p_u的最大优先级顺序存储在编号为H的SumTree记忆存储器中；

S210：智能体将SumTree记忆存储器H中的数据(s,a_u,μ_u(s,a_u),s′)按最小批次的大小分成B个部分，根据概率p_u从B个部分中进行采样，获得多个样本；

S211：计算所有样本的TD偏差η，更新SumTree记忆存储器H中所有节点的优先级；

S212：通过目标网络Q_u(s′,a′_u；θ^-)获取最大Q值的动作a_u；

S213：根据最大Q值的动作a_u进行学习，获得更新的目标网络

S214：对损失函数进行更新，获得最小化损失函数；

S215：每学习N次，智能体替换目标网络参数θ^-＝θ；

3.根据权利要求2所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，三层异构网络模型至少包括：B_m个宏基站、B_p个微型基站、B_f个毫微微基站和U个随机定位的用户设备。

4.根据权利要求3所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，利用用户设备的最终的奖励R_u(t)来表示即时奖励μ_u(s,a_u)，用户设备最终的奖励R_u(t)的表达式如下：

R_u(t)＝w_u(t)-ψ_u；

其中，R_u(t)为最终的奖励；w_u(t)为用户的收益；

5.根据权利要求4所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，通过绝对偏差|η|表示TD偏差η的大小，绝对偏差|η|的表达式为：

|η_u|＝|μ_u(s,a_u)+γQ_u(s′,a′_u；θ^-)-Q_u(s,a_u；θ)|；

其中，|η_u|为第u个用户设备的绝对偏差；μ_u(s,a_u)为为即时奖励；μ_u为第u个用户设备的奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；γ为折扣因子，γ∈[0,1]；Q_u(s,a_u；θ)为在线网络；Q_u(s,a_u；θ^-)为目标网络，Q_u(s′,a′_u；θ^-)为Q_u(s,a_u；θ^-)之后的一个目标网络构架；θ^-代表目标网络的权重；θ表示在线网络的权值。

6.根据权利要求5所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，目标网络

的表达式如下：

其中，μ为奖励；a_u为最大Q值的动作；γ为折扣因子；s′∈S，s∈S，S为状态；θ为在线网络中的权值；θ^-为目标网络的参数；μ_u(s,a_u)为即时奖励；a_u为第u个用户设备的动作，a_u∈A_u，A_u为每个用户设备的动作向量；otherwise表示此时的状态s不是最后一个状态；if s′ isterminal表示如果状态s′是最后一个状态。

7.根据权利要求6所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，最小化损失函数的表达式如下：

其中，

表示深度神经网络的目标网络；

表示期望。

8.根据权利要求7所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，每一次学习完成后，对用户设备是否满足最小服务质量门限进行判断，若满足，则在状态集合中的取值为1；若不满足，则在状态集合中的取值为0；若N次学习的用户设备均满足最小服务质量门限，则获得的状态集合为s＝{1,...,1}。

9.根据权利要求8所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，MAPD3QN算法的用户设备的数量U＝500，学习的轮数E＝500，学习的次数N＝50。

10.根据权利要求9所述的基于深度强化学习的蜂窝异构网络资源分配方法，其特征在于，学习率δ为0.005；折扣率为0.9；智能体的数量和信道的数量的比例为5:3。