CN110798842B - 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 - Google Patents

一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 Download PDF

Info

Publication number
CN110798842B
CN110798842B CN201911005686.2A CN201911005686A CN110798842B CN 110798842 B CN110798842 B CN 110798842B CN 201911005686 A CN201911005686 A CN 201911005686A CN 110798842 B CN110798842 B CN 110798842B
Authority
CN
China
Prior art keywords
sbs
network
reinforcement learning
sbss
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911005686.2A
Other languages
English (en)
Other versions
CN110798842A (zh
Inventor
赵楠
刘泽华
刘畅
裴一扬
刘聪
曾春艳
谭惠文
贺潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Publication of CN110798842A publication Critical patent/CN110798842A/zh
Application granted granted Critical
Publication of CN110798842B publication Critical patent/CN110798842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/32Hierarchical cell structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/042Public Land Mobile systems, e.g. cellular systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,具体涉及一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出基于多智能体深度强化学习的网络流量卸载方法,采用分布执行与集中训练相结合的深度强化学习框架,通过小型基站相互之间消息传递以获得全局状态空间,结合宏蜂窝满意度和运营商追求利益的条件,以获得小型基站最优的服务热点区域和部署位置。

Description

一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
技术领域
本发明属于无线通信技术领域,具体涉及一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。
背景技术
为了满足大规模的无线覆盖、多样化的终端接入、多种业务承载的差异化容量需求,无线蜂窝网络架构呈现出异构、融合、多样化的趋势。无人机基站因其灵活的部署能力、较低的架设成本、高度的自主配置等优势,在消除现有蜂窝系统的覆盖盲区、应对热点区域通信的需求激增、提升灾害应急通信的保障能力等方面发挥着重要作用。在众多的技术方案中,流量卸载技术可充分利用现有网络,通过跨网协作实现对蜂窝网络容量的极大提升,成为未来无线通信技术研究热点之一。其基本原理是在异构网络中,将负载比较重的网络流量卸载到负载较轻的网络中,实现用户业务吞吐量和网络容量的提升,保证对用户业务的服务质量。
为了满足热点区域的按需流量卸载需求,小型蜂窝需要提前优化通信参数以便满足即时通信请求,无人机基站更要通过调整位置提前部署到热点区域。每个小型基站选择服务的热点区域不同,无人机基站在所选热点区域的部署位置不同,其获得的收益亦有所不同。现有工作大多采用集中式、迭代的优化方法,以获得小型基站最优的服务热点区域和部署位置。然而,宏基站和小型基站通常属于多个运营商,且上述方法大多需要相对完全的网络信息。强化学习通过反复与控制环境进行交互,利用回报值来评价其性能,从而达到一个最优决策。强化学习无输入输出数据,只有某种规则,相当于试错学习,其目的是在大量可能路径中寻找最佳决策或者路径,因其自适应性被广泛应用于机器人和自动化控制领域。
发明内容
本发明的目的是:本发明将深度强化学习的思想引入异构蜂窝网络流量卸载算法中,提出了一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法。该流量卸载算法是把流量卸载问题映射为一个强化学习问题,在满足合宏蜂窝满意度和运营商追求利益的前提下,采用分布执行与集中训练相结合的深度强化学习框架,以获得小型基站最优的服务热点区域和部署位置。
为了达到上述目的,本发明所采用的技术方案是:一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法,其特征在于,所述方法包括如下步骤:
步骤1,针对下行链路异构蜂窝网络中的流量卸载优化问题,在考虑到优化问题的非凸性和组合特性的前提下,建立异构蜂窝网络系统模型;
步骤2,在此基础上,结合宏蜂窝满意度和运营商追求利益的条件,建立基于多智能体深度强化学习的网络流量卸载模型;
步骤3,在步骤2的基础上,建立分布执行与集中训练相结合的深度强化学习框架,以获得小型基站最优的服务热点区域和部署位置。
进一步地,步骤1中,建立异构蜂窝网络系统模型的实现过程包括:
考虑由宏基站(Marco Base Station,MBS)、小型基站(Small Base Stations,SBSs)和若干个随机分布的移动用户组成的两层异构蜂窝网络。假设某一个MBS信号覆盖范围内存在N个SBSs,即SBS1,...,SBSN,其中有N1个地面小基站和N2个无人机小基站组成,N1+N2=N。
进一步地,步骤2中,建立基于多智能体深度强化学习的网络流量卸载模型的过程包括:
由于SBSs的自私性,每个SBS选择各自的流量卸载策略以获得长期奖励的最大化。考虑到每个SBS在每期仅服务一个热点区域,SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响,SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作,因此,将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,Ai,Ri,Pss′),其中,N为SBS的数量,S为状态空间,Ai为动作空间,Ri为奖励函数,Pss′为状态转移概率。
在本发明中,每个SBS作为参与者,也就是一个智体。
状态空间:状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)={s1(t),s2(t),...,sN(t)},当SBSi满足MBS提出的流量卸载需求时,si(t)=1,否则si(t)=0。
动作空间:不同类型的SBSs,其动作空间Ai存在差异。地面小基站选择服务的热点区域,其动作空间为{hotReg1,hotReg2,...,hotRegK}。无人机小基站选择服务的热点区域以及部署的位置,其动作空间为{hotReg1,...,hotRegK}*{pos}。
奖励函数:SBSi的奖励函数Ri为SBSs选择流量卸载策略时获得的奖励,即
Figure BDA0002242691660000031
当SBSi满足MBS提出的流量卸载需求时,则SBSi的奖励就是其效用wi(t),否则,SBSi的奖励就是其动作的选择成本ψi
考虑到网络信息不完全等因素,本项目提出分布式多智能体深度强化学习方法,SBSs通过消息传递告知其他SBSs其当前状态,来获得全局状态空间,并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略。
第i个SBS的累计奖励定义为:
Figure BDA0002242691660000032
其中,E表示学习期望,它与时间t无关;γ是折扣因子,且γ∈[0,1),表示更重视长期收益。
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关,于是,值函数可简化为:
Figure BDA0002242691660000033
其中,ui(s,ai)是Ri(s,ai)的数学期望,Pss'(ai)表示在状态s采取动作ai到状态s'的转移概率;
于是,基于贝尔曼准则,最优策略
Figure BDA0002242691660000034
为:
Figure BDA0002242691660000041
于是,得到最优Q值函数
Figure BDA0002242691660000044
Figure BDA0002242691660000042
基于上述最优Q值函数
Figure BDA0002242691660000045
最优策略
Figure BDA0002242691660000046
可得:
Figure BDA0002242691660000043
一般来说,很难获得准确的转移概率Pss'(ai);然而,基于可用信息(s,ai,s',ui(s,πi(s))),利用多智能体深度强化学习,可以以递归方式获得最优策略;同时,在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,将深度神经网络引入到多智能体深度强化学习的框架中。在这里,我们提出MADDPG算法,MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型,其中,Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成,Critic由1个采用DQN算法的两结构相同的神经网络构成,通过Q值函数和策略梯度不断更新Actor网络及Critic网络,该算法能够学习到每个智体应采取的最优策略。在每次更新网络参数时,通过使用Adam算法使损失函数以最快的速度收敛到最小。
进一步地,步骤3中,建立分布执行与集中训练相结合的深度强化学习框架的方法包括:
搭建一个具有2个相同神经网络结构的宏基站作为Critic,其网络结构分别命名为OnlineNet及TargetNet;搭建若干具有2个相同神经网络结构的小型基站作为Actor,其网络结构分别命名为OnlineNet及TargetNet,如图1所示。其中,Actor网络中的OnlineNet的输入为实时状态,输出为供Actor执行的实时动作。Critic网络中的OnlineNet将Actor-OnlineNet输出的动作作为输入,通过输出的策略梯度调整Actor的动作。此外,在集中式训练和分布式执行策略下,在训练Critic网络的OnlineNet时,附上一些额外的信息(如其他智体的状态、动作及位置等),以使得每个智体在决策时不仅仅依据自己所处的情况,也将其他智体的情况考虑进来,进一步地,在经过足够地训练后,每个Actor就能够在不需要知道其他智体的情况下根据自己的状态做出合适的动作。Critic和Actor网络的TargetNet主要用于产生训练数据,Critic网络的OnlineNet及TargetNet输出的Q值将作为损失函数的输入以更新OnlineNet的参数。特别地,每隔一段时间,Critic及Actor的OnlineNet都会将自身的参数赋值给其对应的TargetNet,更新其参数。
与现有技术相比,本发明的有益效果是:在考虑到了多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,建立异构蜂窝网络系统模型,通过多智能体深度强化学习优化策略,结合用户满意度和运营商追求利益的条件,利用分布式深度强化学习方法,达到了获得小型基站最优的服务热点区域和部署位置的目的。
附图说明
图1是本发明的建立分布执行与集中训练相结合的深度强化学习框架的方法示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明通过研究多个小基站联合流量卸载优化问题的非凸性和组合特性,在建立异构蜂窝网络系统模型基础上,通过提出基于多用户深度强化学习的异构蜂窝网络流量卸载方法,结合宏蜂窝满意度和运营商追求利益的条件,采用分布执行与集中训练相结合的深度强化学习框架,以达到获得小型基站最优的服务热点区域和部署位置的目的。
A.异构蜂窝网络系统模型
考虑由宏基站(Marco Base Station,MBS)、小型基站(Small Base Stations,SBSs)和若干个随机分布的移动用户组成的两层异构蜂窝网络。假设某一个MBS信号覆盖范围内存在N个SBSs,即SBS1,...,SBSN,其中有N1个地面小基站和N2个无人机小基站组成,N1+N2=N。
B.多智能体深度强化学习优化策略
由于SBSs的自私性,每个SBS选择各自的流量卸载策略以获得长期奖励的最大化。考虑到每个SBS在每期仅服务一个热点区域,SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响,SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作,因此,将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,Ai,Ri,Pss′),其中,N为SBS的数量,S为状态空间,Ai为动作空间,Ri为奖励函数,Pss′为状态转移概率。
在本发明中,每个SBS作为参与者,也就是一个智体。
状态空间:状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)={s1(t),s2(t),...,sN(t)},当SBSi满足MBS提出的流量卸载需求时,si(t)=1,否则si(t)=0。
动作空间:不同类型的SBSs,其动作空间Ai存在差异。地面小基站选择服务的热点区域,其动作空间为{hotReg1,hotReg2,...,hotRegK}。无人机小基站选择服务的热点区域以及部署的位置,其动作空间为{hotReg1,...,hotRegK}*{pos}。
奖励函数:SBSi的奖励函数Ri为SBSs选择流量卸载策略时获得的奖励,即
Figure BDA0002242691660000061
当SBSi满足MBS提出的流量卸载需求时,则SBSi的奖励就是其效用wi(t),否则,SBSi的奖励就是其动作的选择成本ψi
考虑到网络信息不完全等因素,本项目提出分布式多智能体深度强化学习方法,SBSs通过消息传递告知其他SBSs其当前状态,来获得全局状态空间,并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略。
第i个SBS的累计奖励定义为:
Figure BDA0002242691660000071
其中,E表示学习期望,它与时间t无关;γ是折扣因子,且γ∈[0,1),表示更重视长期收益。
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关,于是,值函数可简化为:
Figure BDA0002242691660000072
其中,ui(s,ai)是Ri(s,ai)的数学期望,Pss'(ai)表示在状态s采取动作ai到状态s'的转移概率;
于是,基于贝尔曼准则,最优策略
Figure BDA0002242691660000076
为:
Figure BDA0002242691660000073
于是,得到最优Q值函数
Figure BDA0002242691660000077
Figure BDA0002242691660000074
基于上述最优Q值函数
Figure BDA0002242691660000078
最优策略
Figure BDA0002242691660000079
可得:
Figure BDA0002242691660000075
一般来说,很难获得准确的转移概率Pss'(ai);然而,基于可用信息(s,ai,s',ui(s,πi(s))),利用多智体深度强化学习,可以以递归方式获得最优策略;同时,在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,将深度神经网络引入到多智体深度强化学习的框架中。DDPG是一种非常有效的方法,MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型,其中,Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成,Critic由1个采用DQN算法的两结构相同的神经网络构成,通过Q值函数和策略梯度不断更新Actor网络及Critic网络,该算法能够学习到每个智体应采取的最优策略。在每次更新网络参数时,通过使用Adam算法使损失函数以最快的速度收敛到最小。
C.集中训练、分布执行的深度强化学习框架
搭建一个具有2个相同神经网络结构的宏基站作为Critic,其网络结构分别命名为OnlineNet及TargetNet;搭建若干具有2个相同神经网络结构的小型基站作为Actor,其网络结构分别命名为OnlineNet及TargetNet,如图1所示。其中,Actor网络中的OnlineNet的输入为实时状态,输出为供Actor执行的实时动作。Critic网络中的OnlineNet将Actor-OnlineNet输出的动作作为输入,通过输出的策略梯度调整Actor的动作。此外,在集中式训练和分布式执行策略下,在训练Critic网络的OnlineNet时,附上一些额外的信息(如其他智体的状态、动作及位置等),以使得每个智体在决策时不仅仅依据自己所处的情况,也将其他智体的情况考虑进来,进一步地,在经过足够地训练后,每个Actor就能够在不需要知道其他智体的情况下根据自己的状态做出合适的动作。Critic和Actor网络的TargetNet主要用于产生训练数据,Critic网络的OnlineNet及TargetNet输出的Q值将作为损失函数的输入以更新OnlineNet的参数。特别地,每隔一段时间,Critic及Actor的OnlineNet都会将自身的参数赋值给其对应的TargetNet,更新其参数。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (1)

1.一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法,其特征在于,所述方法包括如下步骤:
步骤1,针对下行链路异构蜂窝网络流量卸载优化问题,在考虑到优化问题的非凸性和组合特性的前提下,建立异构蜂窝网络系统模型;
步骤2,在此基础上,结合宏蜂窝满意度和运营商追求利益的条件,建立基于多智能体深度强化学习的网络流量卸载模型;
步骤3,在步骤2的基础上,建立分布执行与集中训练相结合的深度强化学习框架,以获得小型基站最优的服务热点区域和部署位置;
步骤1中,建立异构蜂窝网络系统模型的实现过程包括:
考虑由宏基站MBSs、小型基站SBSs和若干个随机分布的移动用户组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在N个SBSs,即SBS1,...,SBSN,其中有N1个地面小基站和N2个无人机小基站组成,N1+N2=N;
步骤2中,建立基于多智能体深度强化学习的网络流量卸载模型的过程包括:
由于SBSs的自私性,每个SBS选择各自的流量卸载策略以获得长期奖励的最大化,考虑到每个SBS在每期仅服务一个热点区域,SBS的流量卸载策略不可避免会受到其他SBSs流量卸载策略的影响,SBS的奖励依赖于网络环境的当前状态和其他SBSs的动作,因此,将多SBSs联合流量卸载优化问题建模为随机博弈(N,S,Ai,Ri,Pss′),其中,N为SBS的数量,S为状态空间,Ai为动作空间,Ri为奖励函数,Pss′为状态转移概率;
在本方法中,每个SBS作为参与者,也就是一个智体;
状态空间:状态空间S由N个SBSs的流量卸载服务质量综合确定s(t)={s1(t),s2(t),...,sN(t)},当SBSi满足MBS提出的流量卸载需求时,si(t)=1,否则si(t)=0;
动作空间:不同类型的SBSs,其动作空间Ai存在差异,地面小基站选择服务的热点区域,其动作空间为{hotReg1,hotReg2,...,hotRegK},无人机小基站选择服务的热点区域以及部署的位置,其动作空间为{hotReg1,...,hotRegK}*{pos};
奖励函数:SBSi的奖励函数Ri为SBSs选择流量卸载策略时获得的奖励,即
Figure FDA0003619434610000021
当SBSi满足MBS提出的流量卸载需求时,则SBSi的奖励就是其效用wi(t),否则,SBSi的奖励就是其动作的选择成本ψi
考虑到网络信息不完全因素,提出分布式多智能体深度强化学习方法,SBSs通过消息传递告知其他SBSs其当前状态,来获得全局状态空间,并基于全局状态空间以获得满足累计奖励最大化的流量卸载策略;
第i个SBS的累计奖励定义为:
Figure FDA0003619434610000022
其中,E表示学习期望,它与时间t无关;γ是折扣因子,且γ∈[0,1),表示更重视长期收益;
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关,于是,值函数简化为:
Figure FDA0003619434610000023
其中,ui(s,ai)是Ri(s,ai)的数学期望,Pss'(ai)表示在状态s采取动作ai到状态s'的转移概率;
于是,基于贝尔曼准则,最优策略
Figure FDA0003619434610000024
为:
Figure FDA0003619434610000025
于是,得到最优Q值函数
Figure FDA0003619434610000026
Figure FDA0003619434610000027
基于上述最优Q值函数
Figure FDA0003619434610000028
最优策略
Figure FDA0003619434610000029
可得:
Figure FDA00036194346100000210
基于可用信息(s,ai,s',ui(s,πi(s))),利用多智能体深度强化学习,以递归方式获得最优策略;同时,在考虑到多个小基站联合流量卸载优化问题的非凸性和组合特性的前提下,将深度神经网络引入到多智能体深度强化学习的框架中;在这里,提出MADDPG算法,MADDPG是建立在强化学习中Actor-Critic算法之上的一种算法模型,其中,Actor部分由N个采用Policy Gradient算法的两结构相同的神经网络组成,Critic由1个采用DQN算法的两结构相同的神经网络构成,通过Q值函数和策略梯度不断更新Actor网络及Critic网络,该算法能够学习到每个智体应采取的最优策略,在每次更新网络参数时,通过Adam算法使损失函数以最快的速度收敛到最小;
步骤3中,建立分布执行与集中训练相结合的深度强化学习框架的方法包括:
搭建一个具有2个相同神经网络结构的宏基站作为Critic,其网络结构分别命名为OnlineNet及TargetNet;搭建若干具有2个相同神经网络结构的小型基站作为Actor,其网络结构分别命名为OnlineNet及TargetNet,其中,Actor网络中的OnlineNet的输入为实时状态,输出为供Actor执行的实时动作;Critic网络中的OnlineNet将Actor-OnlineNet输出的动作作为输入,通过输出的策略梯度调整Actor的动作;此外,在集中式训练和分布式执行策略下,在训练Critic网络的OnlineNet时,附上额外的信息,包括其他智体的状态、动作及位置,以使得每个智体在决策时不仅仅依据自己所处的情况,也将其他智体的情况考虑进来,进一步地,在经过足够地训练后,每个Actor就能够在不需要知道其他智体的情况下根据自己的状态做出合适的动作;Critic和Actor网络的TargetNet主要用于产生训练数据,Critic网络的OnlineNet及TargetNet输出的Q值将作为损失函数的输入以更新OnlineNet的参数;特别地,每隔一段时间,Critic及Actor的OnlineNet都会将自身的参数赋值给其对应的TargetNet,以更新其参数。
CN201911005686.2A 2019-01-31 2019-10-22 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法 Active CN110798842B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100984906 2019-01-31
CN201910098490 2019-01-31

Publications (2)

Publication Number Publication Date
CN110798842A CN110798842A (zh) 2020-02-14
CN110798842B true CN110798842B (zh) 2022-06-28

Family

ID=69440561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911005686.2A Active CN110798842B (zh) 2019-01-31 2019-10-22 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法

Country Status (1)

Country Link
CN (1) CN110798842B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111669775B (zh) * 2020-05-18 2022-07-29 南京邮电大学 一种异构网络下基于支持向量机的资源分配方法
CN111866807B (zh) * 2020-06-22 2022-10-28 江苏大学 一种基于深度强化学习的软件定义车载任务细粒度卸载方法
CN111915142B (zh) * 2020-07-07 2024-04-12 广东工业大学 一种基于深度强化学习的无人机辅助资源分配方法
CN111782301B (zh) * 2020-07-08 2020-12-22 北京邮电大学 卸载动作集合获取方法及装置
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112511197B (zh) * 2020-12-01 2022-12-23 南京工业大学 基于深度强化学习的无人机辅助弹性视频多播方法
CN113301656B (zh) * 2021-05-20 2022-10-04 清华大学 一种基于multi-agent强化学习的宽带自组织网资源决策方法
CN113364630A (zh) * 2021-06-15 2021-09-07 广东技术师范大学 一种服务质量QoS差异化优化方法、装置
CN114585004B (zh) * 2022-03-03 2023-04-25 南京信息工程大学 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN115086993A (zh) * 2022-05-27 2022-09-20 西北工业大学 一种基于异构智能体强化学习的认知缓存优化方法
CN115278738A (zh) * 2022-08-02 2022-11-01 华北电力大学 一种融合直流电力线载波的多模态通信网络组网方法
CN115412134A (zh) * 2022-08-31 2022-11-29 东南大学 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
CN108494632A (zh) * 2018-04-04 2018-09-04 武汉大学 一种基于强化学习的移动数据流量卸载方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN108718463A (zh) * 2018-05-09 2018-10-30 南京邮电大学 一种h-cran下基于多时间尺度协同优化的资源分配方法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017019555A1 (en) * 2015-07-24 2017-02-02 Google Inc. Continuous control with deep reinforcement learning
CN108494632A (zh) * 2018-04-04 2018-09-04 武汉大学 一种基于强化学习的移动数据流量卸载方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108718463A (zh) * 2018-05-09 2018-10-30 南京邮电大学 一种h-cran下基于多时间尺度协同优化的资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于强化学习的无线网络自组织性研究;王超等;《中国科学技术大学学报》;20181215(第12期);全文 *
密集异构网络中基于强化学习的流量卸载算法;王倩等;《计算机研究与发展》;20180815(第08期);全文 *

Also Published As

Publication number Publication date
CN110798842A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110798842B (zh) 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
Razavi et al. A fuzzy reinforcement learning approach for self‐optimization of coverage in LTE networks
CN110730131B (zh) 基于改进蚁群的SDN卫星网络多QoS约束路由方法
CN110392350B (zh) 一种基于Backhaul容量感知的用户为中心无人机群组构建方法
Razavi et al. Self-optimization of capacity and coverage in LTE networks using a fuzzy reinforcement learning approach
CN109729528A (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN106054875B (zh) 一种分布式多机器人动态网络连通性控制方法
CN108848561A (zh) 一种基于深度强化学习的异构蜂窝网络联合优化方法
US20070299946A1 (en) Neural network-based mobility management for mobile ad hoc radio networks
Wu et al. 3D aerial base station position planning based on deep Q-network for capacity enhancement
CN109089307B (zh) 一种基于异步优势行动者评论家算法的集能型无线中继网络吞吐量最大化方法
Bayerlein et al. Learning to rest: A Q-learning approach to flying base station trajectory design with landing spots
CN113922865A (zh) 一种多波束低轨卫星在高纬度场景下的能量优化方法
Madelkhanova et al. Optimization of cell individual offset for handover of flying base stations and users
CN114980126A (zh) 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法
CN116017783A (zh) 一种无人机辅助公共安全网络连通性保持方法
Venkateswararao et al. Traffic aware sleeping strategies for small-cell base station in the ultra dense 5G small cell networks
Wada et al. Dynamic antenna control for HAPS using fuzzy Q-learning in multi-cell configuration
CN111160513B (zh) 一种电力配电网的能量优化方法
De Domenico et al. Backhaul-aware small cell DTX based on fuzzy Q-Learning in heterogeneous cellular networks
CN107872809B (zh) 一种基于移动节点辅助的软件定义传感网络拓扑控制方法
CN116456419A (zh) 面向能量均衡高可靠传输的多无人机数据回传路由方法
El-Halaby et al. A game theoretic scenario for LTE load balancing
CN116074974A (zh) 一种分层架构下的多无人机群通道接入控制方法
CN114879726A (zh) 一种基于多无人机辅助数据收集的路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant