CN110798842B

CN110798842B - 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法

Info

Publication number: CN110798842B
Application number: CN201911005686.2A
Authority: CN
Inventors: 赵楠; 刘泽华; 刘畅; 裴一扬; 刘聪; 曾春艳; 谭惠文; 贺潇
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-01-31
Filing date: 2019-10-22
Publication date: 2022-06-28
Anticipated expiration: 2039-10-22
Also published as: CN110798842A

Abstract

本发明属于无线通信技术领域，具体涉及一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下，在建立异构蜂窝网络系统模型基础上，通过提出基于多智能体深度强化学习的网络流量卸载方法，采用分布执行与集中训练相结合的深度强化学习框架，通过小型基站相互之间消息传递以获得全局状态空间，结合宏蜂窝满意度和运营商追求利益的条件，以获得小型基站最优的服务热点区域和部署位置。

Description

一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。

背景技术

为了满足大规模的无线覆盖、多样化的终端接入、多种业务承载的差异化容量需求，无线蜂窝网络架构呈现出异构、融合、多样化的趋势。无人机基站因其灵活的部署能力、较低的架设成本、高度的自主配置等优势，在消除现有蜂窝系统的覆盖盲区、应对热点区域通信的需求激增、提升灾害应急通信的保障能力等方面发挥着重要作用。在众多的技术方案中，流量卸载技术可充分利用现有网络，通过跨网协作实现对蜂窝网络容量的极大提升，成为未来无线通信技术研究热点之一。其基本原理是在异构网络中，将负载比较重的网络流量卸载到负载较轻的网络中，实现用户业务吞吐量和网络容量的提升，保证对用户业务的服务质量。

为了满足热点区域的按需流量卸载需求，小型蜂窝需要提前优化通信参数以便满足即时通信请求，无人机基站更要通过调整位置提前部署到热点区域。每个小型基站选择服务的热点区域不同，无人机基站在所选热点区域的部署位置不同，其获得的收益亦有所不同。现有工作大多采用集中式、迭代的优化方法，以获得小型基站最优的服务热点区域和部署位置。然而，宏基站和小型基站通常属于多个运营商，且上述方法大多需要相对完全的网络信息。强化学习通过反复与控制环境进行交互，利用回报值来评价其性能，从而达到一个最优决策。强化学习无输入输出数据，只有某种规则，相当于试错学习，其目的是在大量可能路径中寻找最佳决策或者路径，因其自适应性被广泛应用于机器人和自动化控制领域。

发明内容

本发明的目的是：本发明将深度强化学习的思想引入异构蜂窝网络流量卸载算法中，提出了一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。该流量卸载算法是把流量卸载问题映射为一个强化学习问题，在满足合宏蜂窝满意度和运营商追求利益的前提下，采用分布执行与集中训练相结合的深度强化学习框架，以获得小型基站最优的服务热点区域和部署位置。

为了达到上述目的，本发明所采用的技术方案是：一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法，其特征在于，所述方法包括如下步骤：

步骤1，针对下行链路异构蜂窝网络中的流量卸载优化问题，在考虑到优化问题的非凸性和组合特性的前提下，建立异构蜂窝网络系统模型；

步骤2，在此基础上，结合宏蜂窝满意度和运营商追求利益的条件，建立基于多智能体深度强化学习的网络流量卸载模型；

步骤3，在步骤2的基础上，建立分布执行与集中训练相结合的深度强化学习框架，以获得小型基站最优的服务热点区域和部署位置。

进一步地，步骤1中，建立异构蜂窝网络系统模型的实现过程包括：

考虑由宏基站(Marco Base Station，MBS)、小型基站(Small Base Stations，SBSs)和若干个随机分布的移动用户组成的两层异构蜂窝网络。假设某一个MBS信号覆盖范围内存在N个SBSs，即SBS₁,...,SBS_N，其中有N₁个地面小基站和N₂个无人机小基站组成，N₁+N₂＝N。

进一步地，步骤2中，建立基于多智能体深度强化学习的网络流量卸载模型的过程包括：

由于SBSs的自私性，每个SBS选择各自的流量卸载策略以获得长期奖励的最大化。考虑到每个SBS在每期仅服务一个热点区域，SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响，SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作，因此，将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,A_i,R_i,P_ss′)，其中，N为SBS的数量，S为状态空间，A_i为动作空间，R_i为奖励函数，P_ss′为状态转移概率。

在本发明中，每个SBS作为参与者，也就是一个智体。

状态空间：状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)＝{s₁(t),s₂(t),...,s_N(t)}，当SBS_i满足MBS提出的流量卸载需求时，s_i(t)＝1，否则s_i(t)＝0。

动作空间：不同类型的SBSs，其动作空间A_i存在差异。地面小基站选择服务的热点区域，其动作空间为{hotReg₁,hotReg₂,...,hotReg_K}。无人机小基站选择服务的热点区域以及部署的位置，其动作空间为{hotReg₁,...,hotReg_K}*{pos}。

奖励函数：SBS_i的奖励函数R_i为SBSs选择流量卸载策略时获得的奖励，即

当SBS_i满足MBS提出的流量卸载需求时，则SBS_i的奖励就是其效用w_i(t)，否则，SBS_i的奖励就是其动作的选择成本ψ_i。

考虑到网络信息不完全等因素，本项目提出分布式多智能体深度强化学习方法，SBSs通过消息传递告知其他SBSs其当前状态，来获得全局状态空间，并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略。

第i个SBS的累计奖励定义为：

其中，E表示学习期望，它与时间t无关；γ是折扣因子，且γ∈[0,1)，表示更重视长期收益。

由于马尔可夫性质，随后的状态只由当前状态决定，与之前的状态无关，于是，值函数可简化为：

其中，u_i(s,a_i)是R_i(s,a_i)的数学期望，P_ss'(a_i)表示在状态s采取动作a_i到状态s'的转移概率；

于是，基于贝尔曼准则，最优策略

为：

于是，得到最优Q值函数

基于上述最优Q值函数

最优策略

可得：

一般来说，很难获得准确的转移概率P_ss'(a_i)；然而，基于可用信息(s,a_i,s',u_i(s,π_i(s)))，利用多智能体深度强化学习，可以以递归方式获得最优策略；同时，在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下，将深度神经网络引入到多智能体深度强化学习的框架中。在这里，我们提出MADDPG算法，MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型，其中，Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成，Critic由1个采用DQN算法的两结构相同的神经网络构成，通过Q值函数和策略梯度不断更新Actor网络及Critic网络，该算法能够学习到每个智体应采取的最优策略。在每次更新网络参数时，通过使用Adam算法使损失函数以最快的速度收敛到最小。

进一步地，步骤3中，建立分布执行与集中训练相结合的深度强化学习框架的方法包括：

搭建一个具有2个相同神经网络结构的宏基站作为Critic，其网络结构分别命名为OnlineNet及TargetNet；搭建若干具有2个相同神经网络结构的小型基站作为Actor，其网络结构分别命名为OnlineNet及TargetNet，如图1所示。其中，Actor网络中的OnlineNet的输入为实时状态，输出为供Actor执行的实时动作。Critic网络中的OnlineNet将Actor-OnlineNet输出的动作作为输入，通过输出的策略梯度调整Actor的动作。此外，在集中式训练和分布式执行策略下，在训练Critic网络的OnlineNet时，附上一些额外的信息(如其他智体的状态、动作及位置等)，以使得每个智体在决策时不仅仅依据自己所处的情况，也将其他智体的情况考虑进来，进一步地，在经过足够地训练后，每个Actor就能够在不需要知道其他智体的情况下根据自己的状态做出合适的动作。Critic和Actor网络的TargetNet主要用于产生训练数据，Critic网络的OnlineNet及TargetNet输出的Q值将作为损失函数的输入以更新OnlineNet的参数。特别地，每隔一段时间，Critic及Actor的OnlineNet都会将自身的参数赋值给其对应的TargetNet，更新其参数。

与现有技术相比，本发明的有益效果是：在考虑到了多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下，建立异构蜂窝网络系统模型，通过多智能体深度强化学习优化策略，结合用户满意度和运营商追求利益的条件，利用分布式深度强化学习方法，达到了获得小型基站最优的服务热点区域和部署位置的目的。

附图说明

图1是本发明的建立分布执行与集中训练相结合的深度强化学习框架的方法示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明通过研究多个小基站联合流量卸载优化问题的非凸性和组合特性，在建立异构蜂窝网络系统模型基础上，通过提出基于多用户深度强化学习的异构蜂窝网络流量卸载方法，结合宏蜂窝满意度和运营商追求利益的条件，采用分布执行与集中训练相结合的深度强化学习框架，以达到获得小型基站最优的服务热点区域和部署位置的目的。

A.异构蜂窝网络系统模型

B.多智能体深度强化学习优化策略

在本发明中，每个SBS作为参与者，也就是一个智体。

第i个SBS的累计奖励定义为：

于是，基于贝尔曼准则，最优策略

为：

于是，得到最优Q值函数

基于上述最优Q值函数

最优策略

可得：

一般来说，很难获得准确的转移概率P_ss'(a_i)；然而，基于可用信息(s,a_i,s',u_i(s,π_i(s)))，利用多智体深度强化学习，可以以递归方式获得最优策略；同时，在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下，将深度神经网络引入到多智体深度强化学习的框架中。DDPG是一种非常有效的方法，MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型，其中，Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成，Critic由1个采用DQN算法的两结构相同的神经网络构成，通过Q值函数和策略梯度不断更新Actor网络及Critic网络，该算法能够学习到每个智体应采取的最优策略。在每次更新网络参数时，通过使用Adam算法使损失函数以最快的速度收敛到最小。

C.集中训练、分布执行的深度强化学习框架

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法，其特征在于，所述方法包括如下步骤：

步骤1，针对下行链路异构蜂窝网络流量卸载优化问题，在考虑到优化问题的非凸性和组合特性的前提下，建立异构蜂窝网络系统模型；

步骤3，在步骤2的基础上，建立分布执行与集中训练相结合的深度强化学习框架，以获得小型基站最优的服务热点区域和部署位置；

步骤1中，建立异构蜂窝网络系统模型的实现过程包括：

考虑由宏基站MBSs、小型基站SBSs和若干个随机分布的移动用户组成的两层异构蜂窝网络，假设某一个MBS信号覆盖范围内存在N个SBSs，即SBS₁,...,SBS_N，其中有N₁个地面小基站和N₂个无人机小基站组成，N₁+N₂＝N；

步骤2中，建立基于多智能体深度强化学习的网络流量卸载模型的过程包括：

由于SBSs的自私性，每个SBS选择各自的流量卸载策略以获得长期奖励的最大化，考虑到每个SBS在每期仅服务一个热点区域，SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响，SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作，因此，将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,A_i,R_i,P_ss′)，其中，N为SBS的数量，S为状态空间，A_i为动作空间，R_i为奖励函数，P_ss′为状态转移概率；

在本方法中，每个SBS作为参与者，也就是一个智体；

状态空间：状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)＝{s₁(t),s₂(t),...,s_N(t)}，当SBS_i满足MBS提出的流量卸载需求时，s_i(t)＝1，否则s_i(t)＝0；

动作空间：不同类型的SBSs，其动作空间A_i存在差异，地面小基站选择服务的热点区域，其动作空间为{hotReg₁,hotReg₂,...,hotReg_K}，无人机小基站选择服务的热点区域以及部署的位置，其动作空间为{hotReg₁,...,hotReg_K}*{pos}；

当SBS_i满足MBS提出的流量卸载需求时，则SBS_i的奖励就是其效用w_i(t)，否则，SBS_i的奖励就是其动作的选择成本ψ_i；

考虑到网络信息不完全因素，提出分布式多智能体深度强化学习方法，SBSs通过消息传递告知其他SBSs其当前状态，来获得全局状态空间，并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略；

第i个SBS的累计奖励定义为：

其中，E表示学习期望，它与时间t无关；γ是折扣因子，且γ∈[0,1)，表示更重视长期收益；

由于马尔可夫性质，随后的状态只由当前状态决定，与之前的状态无关，于是，值函数简化为：

于是，基于贝尔曼准则，最优策略

为：

于是，得到最优Q值函数

基于上述最优Q值函数

最优策略

可得：

基于可用信息(s,a_i,s',u_i(s,π_i(s)))，利用多智能体深度强化学习，以递归方式获得最优策略；同时，在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下，将深度神经网络引入到多智能体深度强化学习的框架中；在这里，提出MADDPG算法，MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型，其中，Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成，Critic由1个采用DQN算法的两结构相同的神经网络构成，通过Q值函数和策略梯度不断更新Actor网络及Critic网络，该算法能够学习到每个智体应采取的最优策略，在每次更新网络参数时，通过Adam算法使损失函数以最快的速度收敛到最小；

步骤3中，建立分布执行与集中训练相结合的深度强化学习框架的方法包括：

搭建一个具有2个相同神经网络结构的宏基站作为Critic，其网络结构分别命名为OnlineNet及TargetNet；搭建若干具有2个相同神经网络结构的小型基站作为Actor，其网络结构分别命名为OnlineNet及TargetNet，其中，Actor网络中的OnlineNet的输入为实时状态，输出为供Actor执行的实时动作；Critic网络中的OnlineNet将Actor-OnlineNet输出的动作作为输入，通过输出的策略梯度调整Actor的动作；此外，在集中式训练和分布式执行策略下，在训练Critic网络的OnlineNet时，附上额外的信息，包括其他智体的状态、动作及位置，以使得每个智体在决策时不仅仅依据自己所处的情况，也将其他智体的情况考虑进来，进一步地，在经过足够地训练后，每个Actor就能够在不需要知道其他智体的情况下根据自己的状态做出合适的动作；Critic和Actor网络的TargetNet主要用于产生训练数据，Critic网络的OnlineNet及TargetNet输出的Q值将作为损失函数的输入以更新OnlineNet的参数；特别地，每隔一段时间，Critic及Actor的OnlineNet都会将自身的参数赋值给其对应的TargetNet，以更新其参数。