CN113207127B - 一种noma系统中基于分层深度强化学习的动态频谱接入方法 - Google Patents

一种noma系统中基于分层深度强化学习的动态频谱接入方法 Download PDF

Info

Publication number
CN113207127B
CN113207127B CN202110464824.4A CN202110464824A CN113207127B CN 113207127 B CN113207127 B CN 113207127B CN 202110464824 A CN202110464824 A CN 202110464824A CN 113207127 B CN113207127 B CN 113207127B
Authority
CN
China
Prior art keywords
user
base station
network
channel
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110464824.4A
Other languages
English (en)
Other versions
CN113207127A (zh
Inventor
谢显中
陈希平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110464824.4A priority Critical patent/CN113207127B/zh
Publication of CN113207127A publication Critical patent/CN113207127A/zh
Application granted granted Critical
Publication of CN113207127B publication Critical patent/CN113207127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种非正交多址(Non‑Orthogonal Multiple Access,NOMA)系统中基于分层深度强化学习的动态频谱接入方法,属于深度强化学习、NOMA、动态频谱接入、功率控制技术领域,包括以下步骤:S1:构造上行多用户多信道的通信场景;S2:建立信道干扰模型;S3:将通信优先级高的用户优先获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;S4:构建多智能体模型,对S3中优化问题基于马尔可夫决策过程进行建模;S5:采用集中训练分布执行的方式完成策略的更新和执行。本发明提出的方法相较于其它基于AI方法的DSA方案能够获得更快的收敛速度和更低的丢包数,而且连续的发送功率能够获得比离散的发送功率更好的系统性能。

Description

一种NOMA系统中基于分层深度强化学习的动态频谱接入方法
技术领域
本发明属于深度强化学习(Deep Reinforcement Learning,DRL)、NOMA、动态频谱接入、功率控制等领域,涉及一种NOMA系统中基于分层深度强化学习的动态频谱(DynamicSpectrum Access,DSA)接入方法。
背景技术
现有的基于深度强化学习的动态频谱接入方案主要包括:基于集中式深度强化学习的动态频谱接入方案和基于分布式深度强化学习的动态频谱接入方案。其中基于集中式深度强化学习的动态频谱接入方案通过单一的控制中心集中处理全局的环境信息然后做出决策;而基于分布式强化学习的动态频谱接入方案通过用户独自处理局部环境信息然后做出决策或通过用户间相互协作然后做出决策。然而,基于这两种结构的动态频谱接入方案都存在着一定的缺陷,例如:基于分布式深度强化学习的动态频谱接入方案都没有考虑用户的自身特性,例如:用户的通信优先级、数据优先级和用户能量等情况。这是因为在不考虑用户协作的条件下基于分布式深度强化学习的动态频谱接入方案无法做出有效地接入决策,而当考虑用户协作时,由于用户的相互独立,用户间的信息交换需要大量的信令开销。而基于集中式深度强化学习的动态频谱接入方案值考虑了用户的接入控制而没有考虑用户的发送功率控制。这是因为联合考虑发送功率和动态频谱接入控制时,会导致集中控制中心需要处理的数据量爆炸式增长,进而导致算法需要算法更长的时间进更新,且需要更好的硬件设备。
发明内容
有鉴于此,本发明的目的在于降低对于硬件的要求并提高算法收敛速率以及丢包率、收敛速度等方面的性能,提供一种NOMA系统中基于分层深度强化学习的动态频谱接入方法。
为达到上述目的,本发明提供如下技术方案:
一种NOMA系统中基于分层深度强化学习的动态频谱接入方法,包括以下步骤:
S1:构造上行多用户多信道的通信场景;
S2:建立信道干扰模型;
S3:将通信优先级高的用户获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;
S4:构建多智能体模型,对S3中优化问题基于马尔可夫决策过程进行建模;
S5:采用集中训练分布执行的方式完成策略的更新和执行。
进一步,步骤S1中具体包括:基于单个网络单元,构造上行多用户多信道的通信场景,其结构如图2所示;该网络由一个基站和多个用户组成,基站位于网络单元的中心,N个单天线用户随机分布在基站的覆盖范围之内;在该网络中,用户通过NOMA技术实现在与基站的通信;假设该环境存在M个可供用户接入的独立信道,信道宽度为W=5MHz,本发明将信道定义为分配给用户的最小资源单位;为了防止过多的用户间干扰,并确保低硬件复杂度和低处理延迟,本发明假定每个时隙内每一个信道最多可以接入4个用户;在该通信环境中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应;
所有用户都具有一个容量为L的缓存器用于缓存数据;在每个时隙t的初始阶段,用户n的缓存器状态被定义为Bn(t)∈{bn,0,...,bn,l,bn,L},Bn(t)=bn,l表示用户n缓存的数据包数量为l;每个时隙t内,用户传输的数据包个数表示为:
Figure GDA0003529528620000021
其中Tt表示传输时间;Rn(t)表示用户n能够达到的传输速率;D表示数据包大小;R0=4Mbps表示用户需要达到的传输速率阈值;采用round(·)函数的作用是使每个时隙内用户传输的数据包数量始终为一个整数,以降低系统中的状态空间大小;
假设每个时隙t,用户n生成的所有数据包dn(t)为一个整体;当用户n的缓存空间不足以缓存dn(t)时,dn(t)被全部丢弃;因此,在时隙t用户n的丢包数表示为:
Figure GDA0003529528620000022
因此,在时隙t+1的初始阶段,用户n的缓存器状态表示为:
Figure GDA0003529528620000023
进一步,步骤S2中具体包括:在NOMA系统中,使用同一个信道的用户之间存在严重的干扰;因此,为了使接入同一信道的用户能够更加充分地利用信道资源,本发明假设在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
Figure GDA0003529528620000031
S21:使用
Figure GDA0003529528620000032
表示信道m中用户n与基站之间的链路增益,其中
Figure GDA0003529528620000033
表示服从瑞利分布的瑞利衰落信道,βn表示用户n与基站之间的大尺度衰落,定义为:
Figure GDA0003529528620000034
其中λ表示信号的波长;
Figure GDA0003529528620000035
表示用户n与基站之间的距离,基站在时隙t内从信道m接收到的来自用户n的信号表示为:
Figure GDA0003529528620000036
其中pn(t)∈Pn表示用户n选择的发送功率;
Figure GDA0003529528620000037
表示用户n通过信道m发送给基站的信号;
S22:基于信号强度从强到弱的顺序利用连续干扰消除(successiveinterference cancellation,SIC)技术完成信号解码;当基站解码用户n的信号时,基站接收到的干扰表示为:
Figure GDA0003529528620000038
其中,
Figure GDA0003529528620000039
为:
Figure GDA00035295286200000310
用βj,n(t)表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
Figure GDA00035295286200000311
ηj(t)表示用户j的信号是否已经被解码及解码是否成功,定义为:
Figure GDA00035295286200000312
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功;
S23:在每个时隙t,基站从信道m接收到的来自用户n的信干燥比(Signal toInterference plus Noise Ratio,SINR)表示为SINRn(t),即:
Figure GDA0003529528620000041
其中σ2表示噪声,用户n的传输速率为:
Rn(t)=Wlog2(1+SINRn(t)) (11)。
进一步,步骤S3中,将通信优先级高的用户(用户的优先级取决于用户的缓存数据量)优先获得信道使用权,并在确保接入的用户都解码成功的基础上最小化系统的丢包数目标表示为一个优化问题,表示为:
Figure GDA0003529528620000042
其中,C1表示用户n的传输速率需要大于规定的阈值,C2表示用户的发送功率限制,C3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
Figure GDA0003529528620000043
否则
Figure GDA0003529528620000044
C4确保每一个用户最多接入一个信道。
进一步,步骤S4中具体包括:智能体表示基站与所有的用户,智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
S41:对于基站而言,其状态空间为SBS;每个时隙t,基站获得的状态为sBS(t)=(Bl,1(t-1),...,Bl,n(t-1),...Bl,N(t-1)),其中Bl,n(t-1)=Bn(t-1)-Cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量;对于每个用户,其状态空间为Sn;每个时隙t,用户n获得的状态为
Figure GDA0003529528620000045
其中n表示智能体的编号,Bn(t)表示用户的缓存数据量,hn,m(t)表示用户n接入信道m后获得的链路增益,
Figure GDA0003529528620000046
表示基站反馈给用户n的信息,通过公式(6)计算,Rn(t)表示用户接入信道后的传输速率;
S42:动作空间:基站的动作空间为ABS;在每个时隙t,基站选择动作aBS(t);此时,接入方案为ABS(aBS(t))=(a1(t),...,an(t),...,aN(t)),其中an(t)∈{0,1,...,M},an(t)=m表示用户n当前时隙被允许接入信道m,an(t)=0表示不被允许进行通信;每个用户n的动作空间为用户发送功率集,即Pn
S42:奖励函数:基站考虑的主要目标为:减少系统中用户的丢包数量;用户是否产生丢包主要取决于缓存的数据包数量:用户缓存的数据包数量越多,发生丢包的概率越大,反之,丢包的概率越小;将用户的缓存数据量用来构成奖励函数,该奖励函数表示为:
Figure GDA0003529528620000051
其中PRIn(t)表示时隙t的用户n的通信优先级,定义为:
Figure GDA0003529528620000052
S43:如果只依靠基于缓存数据量的奖励函数训练神经网络,当出现多个用户缓存的数据量相近时,神经网络就无法做出有效决策;因此,在保证选择优先级高的用户的前提下,针对数据量相近的用户,智能体优先选择传输速率高的用户,另一个基于传输速率的奖励函数表示为:
Figure GDA0003529528620000053
S44:除此之外,当多个用户同时接入同一个信道时,存在个别用户无论如何调整功率都无法成功通信的情况;为了使基站能够选择合适的用户接入同一信道,当接入信道的用户在调整完发送功率后仍然无法传输数据会收到相应的惩罚,即:
Figure GDA0003529528620000054
其中,
Figure GDA0003529528620000055
表示当用户n完成功率调整后能否在信道m中进行数据传输,如果可以,
Figure GDA0003529528620000056
否则
Figure GDA0003529528620000057
基于上述的分析,驱动基站进行学习的总奖励函数表示为:
RBS(t)=λ0RB(t)+λ1Rrate(t)-λ2RInv(t) (17);
其中λ0、λ1和λ2分别表示每部分奖励的权重;
S45:由于不存在用户间的协作,用户只关注自身能够达到的传输速率;当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚Rneg<0;用户n能够获得的奖励函数表示为:
Figure GDA0003529528620000058
在基于马尔可夫过程所构建的深度学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励Rγ(t)最大,最佳策略π*表示为:
Figure GDA0003529528620000061
其中
Figure GDA0003529528620000062
进一步,步骤S5中具体包括:为了确保多智能体网络最终能够得到一个最佳策略,本发明采用集中训练分布执行的方式完成策略的更新和执行,多智能体网络的结构如图3所示:基站上构建了三个网络,分别为参数为θQ的深度Q网络(Deep Q Network,DQN)φQ,参数为θa的动作网络φa和参数为θc的批评网络φc;在执行过程中,基站利用基于DQN网络φQ的深度Q学习算法完成集中式动态频谱接入控制,用户利用基站广播的动作网络参数θa实现连续功率控制;所有的网络参数θQ、θa和θc都在基站处完成更新,为了确保训练的稳定性,所有参数的更新都采用了经验回放法;
S51:在训练的过程中,基站将获得的经验样本(sBS(t-1),aBS(t-1),RBS(t-1),sBS(t))存入记忆库Maccess中,当记忆库中的样本数量大于训练所需的样本数|ΩQ|=200时,基站从记忆库Maccess中取出包含|ΩQ|个数据样本的训练样本集ΩQ={sBS(i),aBS(i),RBS(i),sBS(i+1)}用于训练参数θQ;根据ΩQ计算得到DQN网络φQ的损失函数为:
Figure GDA0003529528620000063
其中Q(s(i),a(i);θQ)为网络φQ的输出值,记为动作值函数,
Figure GDA0003529528620000064
是参数为
Figure GDA0003529528620000065
的目标深度Q网络
Figure GDA0003529528620000066
的输出值,网络
Figure GDA0003529528620000067
与φQ具有相同的结构,构建目标网络的目的是为了进一步保证学习过程的稳定性,在本发明中每完成Qup=100次参数就将更新一次参数
Figure GDA0003529528620000068
更新过程为
Figure GDA0003529528620000069
S52:获得损失函数后,网络参数θQ的更新过程表示为:
Figure GDA00035295286200000610
其中αQ表示学习速率;
S53:接入信道的用户将经验样本(sn(t-1),pn(t-1),Rn(t-1),sn(t))存入位于基站的记忆库Mpower中;当记忆库中的样本数量大于训练所需的样本数|Ωn|=128时,基站从Mpower中取出|Ωn|个样本构成训练样本集Ωn={sn(i),pn(i),Rn(i),sn(i)}用于训练参数θa和θc;其中参数θc的更新方式与参数θQ的更新方式相似,首先计算Ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
Figure GDA0003529528620000071
其中
Figure GDA0003529528620000072
表示目标状态-行为值函数,
Figure GDA0003529528620000073
是目标批评网络
Figure GDA0003529528620000074
的网络参数,
Figure GDA0003529528620000075
表示参数为
Figure GDA0003529528620000076
的目标动作网络
Figure GDA0003529528620000077
的输出;
S53:动作网络φa与深度Q网络φQ和批评网络φc不同,它本质上是一种基于策略搜索的强化学习方法;参数θa基于梯度完成更新,由于深度确定性策略梯度算法中采用了确定性策略,网络φa中的策略梯度表示为:
Figure GDA0003529528620000078
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,表示为:
Figure GDA0003529528620000079
S54:与深度Q学习算法不同,为了进一步提高深度确定性策略的更新稳定性,本发明采用软更新的方式更新目标网络的参数
Figure GDA00035295286200000710
Figure GDA00035295286200000711
更新过程表示为:
Figure GDA00035295286200000712
Figure GDA00035295286200000713
本发明所采用的算法包含了深度Q学习(Deep Q-learning,DQL)算法和深度确定性策略(Deep Determinacy Policy Gradient,DDPG)算法,因此本发明所提算法简称为DQL-DDPG,本发明算法的总迭代回合数为Tstep,每回合完成Tenv次迭代,并且在每次迭代中,用户有Tp次调整发送功率的机会。
本发明的有益效果在于:相较于其它基于AI方法的DSA方案能够获得更快的收敛速度和更低的丢包数,而且连续的发送功率能够获得比离散的发送功率更好的系统性能。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为流程图;
图2为网络模型;
图3为智能体网络结构;
图4为不同λd下的算法稳定性
图5为不同(N,M)下的算法稳定性;
图6为不同网络结构下的算法稳定性;
图7为不同方案的系统平均丢包数;
图8为不同方案的系统传输速率。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
1.系统模型
1.1无线网络模型
本章基于单个网络单元,考虑了一个上行多用户多信道的通信场景,其结构如图2所示。该网络由一个基站和多个用户组成,假设基站位于网络单元的中心,而N个单天线用户则随机分布在基站的覆盖范围之内。在该网络中,用户通过NOMA技术实现在与基站的通信。假设该环境存在M个可供用户接入的独立信道,信道宽度为W=5MHz,且本章将信道定义为可以分配给用户的最小资源单位。为了防止过多的用户间干扰,并确保低硬件复杂度和低处理延迟,本发明假定每一个信道至多可以接入4个用户。在该通信环境中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应。
在本发明中,所有用户都具有一个容量为L的缓存器用于缓存数据。在每个时隙t的初始阶段,用户n的缓存器状态被定义为Bn(t)∈{bn,0,...,bn,l,bn,L},Bn(t)=bn,l表示用户n缓存的数据包数量为l。每个时隙t内,用户传输的数据包个数可以表示为:
Figure GDA0003529528620000091
其中Tt表示传输时间;Rn(t)表示用户n能够达到的传输速率;D表示数据包大小;R0=4Mbps表示用户需要达到的传输速率阈值。采用round(·)函数的作用是使每个时隙内用户传输的数据包数量始终为一个整数,以降低系统中的状态空间大小。
本章假设每个时隙t,用户n生成的所有数据包dn(t)为一个整体。当用户n的缓存空间不足以缓存dn(t)时,dn(t)将被全部丢弃。因此,在时隙t用户n的丢包数可以表示为:
Figure GDA0003529528620000092
因此,在时隙t+1的初始阶段,用户n的缓存器状态可以表示为:
Figure GDA0003529528620000093
在NOMA系统中,使用同一个信道的用户之间存在严重的干扰。因此,为了使接入同一信道的用户能够更加充分地利用信道资源,本章假设在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
Figure GDA0003529528620000094
1.2信道干扰模型
本章使用
Figure GDA0003529528620000095
表示信道m中用户n与基站之间的链路增益,其中
Figure GDA0003529528620000096
表示服从瑞利分布的瑞利衰落信道,βn表示用户n与基站之间的大尺度衰落,可以定义为:
Figure GDA0003529528620000101
其中λ表示信号的波长;
Figure GDA0003529528620000102
表示用户n与基站之间的距离。
在本章的通信场景中,在时隙t内,基站从信道m接收到的来自用户n的信号可以表示为:
Figure GDA0003529528620000103
其中pn(t)∈Pn表示用户n选择的发送功率;
Figure GDA0003529528620000104
表示用户n通过信道m发送给基站的信号。
在本章中,基站基于信号强度从强到弱的顺序利用SIC技术完成信号解码。因此,当基站解码用户n的信号时,基站接收到的干扰可以表示为:
Figure GDA0003529528620000105
其中,
Figure GDA0003529528620000106
为:
Figure GDA0003529528620000107
βj,n(t)用来表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
Figure GDA0003529528620000108
ηj(t)用来表示用户j的信号是否已经被解码及解码是否成功,定义为:
Figure GDA0003529528620000109
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功。
在每个时隙t,基站从信道m接收到的来自用户n的信干燥比(Signal toInterference plus Noise Ratio,SINR)可以表示为SINRn(t),即:
Figure GDA00035295286200001010
其中σ2表示噪声。
因此用户n能够达到的传输速率为:
Rn(t)=Wlog2(1+SINRn(t)) (11)
1.3问题描述
本发明所提方案的目标是使通信优先级高的用户(用户的优先级取决于用户的缓存数据量)优先获得信道使用权,并在确保接入的用户都能够解码成功的基础上,最小化系统的丢包数。该目标可以表示为一个优化问题,表示为:
Figure GDA0003529528620000111
其中,C1表示用户n的传输速率需要大于规定的阈值,C2表示用户的发送功率限制,C3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
Figure GDA0003529528620000112
否则
Figure GDA0003529528620000113
C4确保每一个用户最多接入一个信道。
2.基于多智能体的联合功率控制的动态频谱接入算法
2.1多智能体模型的构建
本节将公式(12)所提出的优化问题基于马尔可夫决策过程进行建模。在本章的通信系统中,智能体、智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
智能体:基站与所有的用户。
状态空间:对于基站而言,其状态空间为SBS。每个时隙t,基站获得的状态为sBS(t)=(Bl,1(t-1),...,Bl,n(t-1),...Bl,N(t-1)),其中Bl,n(t-1)=Bn(t-1)-Cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量。而对于每个用户而言,其状态空间为Sn。每个时隙t,用户n获得的状态为
Figure GDA0003529528620000114
其中n表示智能体的编号,Bn(t)表示用户的缓存数据量,hn,m(t)表示用户n接入信道m后获得的链路增益,
Figure GDA0003529528620000115
表示基站反馈给用户n的信息,可以通过公式(6)计算,Rn(t)表示用户接入信道后能够达到的传输速率。
动作空间:基站的动作空间为ABS。在每个时隙t,基站选择动作aBS(t)。此时,接入方案为ABS(aBS(t))=(a1(t),...,an(t),...,aN(t)),其中an(t)∈{0,1,...,M},an(t)=m表示用户n当前时隙被允许接入信道m,而an(t)=0表示不被允许进行通信。每个用户n的动作空间为用户可选的发送功率集,即Pn
奖励函数:基站需要考虑的主要目标为:减少系统中用户的丢包数量。用户是否产生丢包主要取决于缓存的数据包数量。用户缓存的数据包数量越多,发生丢包的概率越大。反之,丢包的概率越小。因此,用户的缓存数据量将被用来构成奖励函数,该奖励函数可以表示为:
Figure GDA0003529528620000121
其中PRIn(t)表示为时隙t的用户n的通信优先级,定义为:
Figure GDA0003529528620000122
如果只依靠基于缓存数据量的奖励函数训练神经网络,当出现多个用户缓存的数据量相近时,神经网络就无法做出有效决策。因此,在保证选择优先级高的用户的前提下,针对数据量相近的用户,智能体优先选择传输速率高的用户,因此另一个基于传输速率的奖励函数可以表示为:
Figure GDA0003529528620000123
除此之外,当多个用户同时接入同一个信道时,存在个别用户无论如何调整功率都无法成功通信的情况。本章所提方案为了使基站能够选择合适的用户接入同一信道,因此当接入信道的用户在调整完发送功率后仍然无法传输数据则会收到相应的惩罚,即:
Figure GDA0003529528620000124
其中,
Figure GDA0003529528620000125
表示当用户n完成功率调整后能否在信道m中进行数据传输,如果可以,则
Figure GDA0003529528620000126
否则
Figure GDA0003529528620000127
基于上述的分析,驱动基站进行学习的总奖励函数可以表示为:
RBS(t)=λ0RB(t)+λ1Rrate(t)-λ2RInv(t) (17)
其中λ0、λ1和λ2分别表示每部分奖励的权重。
由于不存在用户间的协作,因此用户只关注自身能够达到的传输速率。在本章的设置中,当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚Rneg<0。因此,用户n能够获得的奖励函数可以表示为:
Figure GDA0003529528620000131
在基于马尔可夫过程所构建的深度学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励Rγ(t)最大,最佳策略π*可以表示为:
Figure GDA0003529528620000132
其中
Figure GDA0003529528620000133
2.2网络结构及参数更新
为了确保多智能体网络最终能够得到一个最佳策略,本章采用集中训练分布执行的方式完成策略的更新和执行。多智能体网络的结构如图2所示。
通过图2可以发现,基站上构建了三个网络,分别为参数为θQ的深度Q网络φQ,参数为θa的动作网络φa和参数为θc的批评网络φc。在执行过程中,基站利用基于DQN网络φQ的深度Q学习算法完成集中式动态频谱接入控制,而用户利用基站广播的动作网络参数θa实现连续功率控制。但是所有的网络参数θQ、θa和θc都在基站处完成更新,并且为了确保训练的稳定性,所有参数的更新采用了经验回放法。
在训练的过程中,基站会将获得的经验样本(sBS(t-1),aBS(t-1),RBS(t-1),sBS(t))存入记忆库Maccess中,当记忆库中的样本数量大于训练所需的样本数|ΩQ|=200时,基站就从记忆库Maccess中取出包含|ΩQ|个数据样本的训练样本集ΩQ={sBS(i),aBS(i),RBS(i),sBS(i+1)}用于训练参数θQ。根据ΩQ可以计算得到DQN网络φQ的损失函数为:
Figure GDA0003529528620000134
其中Q(s(i),a(i);θQ)为网络φQ的输出值,记为动作值函数,
Figure GDA0003529528620000135
是参数为
Figure GDA0003529528620000136
的目标深度Q网络
Figure GDA0003529528620000137
的输出值,网络
Figure GDA0003529528620000138
与φQ具有相同的结构,构建目标网络的目的是为了进一步保证学习过程的稳定性,在本发明中每完成Qup=100次参数就将更新一次参数
Figure GDA0003529528620000139
更新过程为
Figure GDA00035295286200001310
获得损失函数后,网络参数θQ的更新过程可以表示为:
Figure GDA00035295286200001311
其中αQ表示学习速率。
同样的,接入信道的用户会将经验样本(sn(t-1),pn(t-1),Rn(t-1),sn(t))存入位于基站的记忆库Mpower中。当记忆库中的样本数量大于训练所需的样本数|Ωn|=128时,基站就从Mpower中取出|Ωn|个样本构成训练样本集Ωn={sn(i),pn(i),Rn(i),sn(i)}用于训练参数θa和θc。其中参数θc的更新方式与参数θQ的更新方式相似,首先计算Ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
Figure GDA0003529528620000141
其中
Figure GDA0003529528620000142
表示目标状态-行为值函数,
Figure GDA0003529528620000143
是目标批评网络
Figure GDA0003529528620000144
的网络参数,
Figure GDA0003529528620000145
表示参数为
Figure GDA0003529528620000146
的目标动作网络
Figure GDA0003529528620000147
的输出。
动作网络φa与深度Q网络φQ和批评网络φc不同,它本质上是一种基于策略搜索的强化学习方法。所以,参数θa基于梯度完成更新,由于深度确定性策略梯度算法中采用了确定性策略,因此网络φa中的策略梯度可以表示为:
Figure GDA0003529528620000148
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,可以表示为:
Figure GDA0003529528620000149
与深度Q学习算法不同,为了进一步提高深度确定性策略的更新稳定性,本发明采用软更新的方式更新目标网络的参数
Figure GDA00035295286200001410
Figure GDA00035295286200001411
更新过程可以表示为:
Figure GDA00035295286200001412
Figure GDA00035295286200001413
由于本发明所采用的算法包含了深度Q学习算法和深度确定性策略算法,因此将本发明所提算法简称为DQL-DDPG。本发明将算法的总迭代回合数为Tstep,每回合完成Tenv次迭代,并且在每次迭代中,用户有Tp次调整发送功率的机会。本发明所提出的动态频谱接入方案可以总结为表1。
表1基于DQL-DDPG算法的DSA方案伪代码
Figure GDA00035295286200001414
Figure GDA0003529528620000151
3.仿真结果及分析
在本章节中,通过仿真结果验证了所提出的结合两种DRL方法的动态频谱接入方案(DQL-DDPG)的性能,包括算法稳定性、不同网络结构下的算法收敛效果以及不同DQL/DDPG方案的比较。所有的实验都基于NVIDIARTX 2080 8G GPU平台上的Tensorflow框架完成。
3.1仿真设置
本发明基于深度Q学习算法实现动态频谱接入控制,深度Q网络φQ具有3层隐藏层,且每层隐藏层分别具有256,512和256个神经元,每个神经元的激活函数都设置为ReLU函数。而基于深度确定性策略算法来实现功率控制,其中的动作网络φa和批评网络φc都具有3层隐藏层,每层拥有的神经元个数分别为200,100和50,并且每个激活函数都为ReLU函数,同时为了保证DDPG算法中动作网络的输出满足要求,因此在动作网络的输出层增加了一个Sigmod函数。
下列仿真利用(N,M)来表示网络中存在的用户和信道数量,并取1000次独立运行的平均值来绘制每个数据点。系统仿真参数如表2所示。
表2仿真参数设置
Figure GDA0003529528620000161
3.2算法稳定性
图4在(N,M)为(5,1)时验证了不同的λd对于算法稳定性的影响。通过图4可以发现,不论λd如何变化,系统都能够快速的达到收敛,并且达到收敛的时间基本一致。
图5验证了不同的(N,M)对于算法稳定性的影响。通过图4可以发现,不论用户及信道数量如何变化,系统都能够最终达到收敛。但不同的用户或信道数量会导致收敛时间不同,可以发现随着用户及信道数量的增加,系统需要花费更多的迭代回合来达到收敛,这是因为随着用户及信道数量的增加,系统需要探索的状态空间变大,因此系统需要更多的时间来探索每个状态下的最佳动作。
3.3不同网络结构下的算法收敛效果
本节分别在(N,M)为(4,1)和(5,1)的情况下对比了基于DQL-DDPG的分层控制网络和基于DQL的集中控制网络的收敛效果。在仿真基于DQL的集中控制网络时,将次用户可选的发送功率离散化为6个级别,即pn∈{0,0.2,0.4,0.6,0.8,1.0}。
通过图6可以发现DQL相较于DQL-DDPG能够在更少的迭代次数内达到收敛,并且收敛更加的稳定。这主要是因为:集中控制网络能够收集到全局的信息,并且不存在不同智能体之间的冲突,而DQL-DDPG中利用部分观察值进行功率控制,且存在多个智能体相互作用。但在实际的算法训练过程中,DQL需要692.30s的时间才能达到收敛,而DQL-DDPG只需要270.48s就能够达到收敛。这是因为DQL相对于DQL-DDPG需要处理更大的状态空间和动作空间。当用户数量增加到N=6时,DQL需要4153.85s的运行时间来达到收敛,而DQL-DDPG只需要388.63s。可以发现当增加了一个用户时,DQL-DDPG算法收敛达到所需的时间增长了43.7%,而DQL网络达到收敛所需的时间增长了500%。因此,可以发现分层控制网络可以通过减小系统的状态空间和动作空间以提高神经网络的运行效率,能够更好的应用于多变的无线通信网络。
此外,当算法收敛后,DQL的系统平均丢包数要略大于DQL-DDPG,这是因为DQL只适用于离散的发送功率集,且本章仅将发送功率区间离散化为6个等级,因此DQL无法充分地控制用户。充分地离散发送功率区间能够有效地提高系统性能,但也会因此增加时间成本。而DQL-DDPG网络可以直接控制连续的发送功率,这使得它更有效地控制用户来采取合适的发送功率进行信道复用。
4.3不同方案的比较
为了进一步说明本发明所提算法的性能优势,本小节对比了以下方案:(1)基站利用DQL完成动态接入控制但不进行功率控制,所有的用户都采用最大发送功率接入信道,将该方法记为“DQL-MAX”;(2)参考已有的分布式竞争接入机制,在该接入机制中数据缓存量大且信道质量好的用户能够优先得到通信机会,接入信道的用户都采用最大发送功率接入信道而不进行功率控制,该方法记为“Compete-MAX”;(3)采用与方案(2)一样的接入控制方法,但成功接入信道的用户基于DDPG进行功率控制,该方法记为“Compete-DDPG”;(4)基于DQL实现集中控制用户的接入信道及发送功率,该方法记为“DQL”;(5)一种已有的DQL-DDPG算法,在该算法中基站分别利用DQL和DDPG完成动态接入控制和功率控制,并利用同一个奖励值完成参数更新,该方法记为“DQL-DDPG-R”。在实验的过程中,由于数据的产生式随机的,为了保证实验的公平性,本章保证所有的可变参数在不同的方案中是相同的,例如设置不同方案下,每次迭代过程中数据到达量是相同的。
图7在(N,M)为(5,1)的条件下,仿真了在数据包到达速率λd变化的情况下不同方案的系统平均丢包数的变化情况。
通过图7可以发现,本章所提出的联合功率控制的动态频谱方案是有效的。除了Compete-DDPG方案,本章所提出的方案能够取得一个更低的系统平均丢包数。Compete-DDPG能够取得更好的效果是因为它能够获得实时的用户缓存量,而本章所定义的DQL-DDPG基于上一时刻的传输结束后用户的剩余数据量进行接入控制。通过对比Compete-DDPG与Compete-MAX以及DQL-DDPG与DQL-MAX可以发现本章采用的分布式功率控制方案是有效的,没有进行有效的功率控制会导致系统的平均丢包数增大。
图8在M=1,λd=0.8的条件下,仿真了在不同用户数量的情况下,不同方案能够达到的传输速率的变化情况。
通过图8可以发现,随着用户数量的增加所有方案的系统传输速率基本都呈现出下降的趋势,这是因为,随着用户数量的增加出现了更多的接入用户组合,并且存在某些组合数使得用户需要降低自身能够达到的传输速率来保证更多的用户能够完成通信以降低系统的平均丢包数。此外,结合图7和图8还可以发现DQL-MAX的达到的传输速率要大于DQL-DDPG但其丢包数却大于DQL-DDPG,这是因为DQL-MAX只能选择发送功率为1W时能够共存的用户接入信道,虽然其能够达到更高的传输速率但其丢包数也大于DQL-DDPG。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种NOMA系统中基于分层深度强化学习的动态频谱接入方法,其特征在于:包括以下步骤:
S1:构造上行多用户多信道的通信场景;基于单个网络单元,构造上行多用户多信道的通信场景,网络单元由一个基站和多个用户组成,基站位于网络单元的中心,N个单天线用户随机分布在基站的覆盖范围之内;在所述网络中,用户通过NOMA技术实现与基站的通信;所述通信场景内存在M个可供用户接入的独立信道,所述信道为分配给用户的最小资源单位;在所述通信场景中,所有的链路都受到多路径传播和路径损耗所引起的快慢速衰落效应;
所有用户都具有一个容量为L的缓存器用于缓存数据;在每个时隙t的初始阶段,用户n的缓存器状态被定义为Bn(t)∈{bn,0,...,bn,l,bn,L},Bn(t)=bn,l表示用户n缓存的数据包数量为l;每个时隙t内,用户传输的数据包个数表示为:
Figure FDA0003515046000000011
其中Tt表示传输时间;Rn(t)表示用户n能够达到的传输速率;D表示数据包大小;R0=4Mbps表示用户需要达到的传输速率阈值;
每个时隙t,用户n生成的所有数据包dn(t)为一个整体;当用户n的缓存空间不足以缓存dn(t)时,dn(t)被全部丢弃;在时隙t用户n的丢包数表示为:
Figure FDA0003515046000000012
在时隙t+1的初始阶段,用户n的缓存器状态表示为:
Figure FDA0003515046000000013
S2:建立信道干扰模型;在当前无线通信环境中的所有用户都能够进行功率调整,并且所有用户的发送功率为一个连续的区间,即
Figure FDA0003515046000000014
S21:使用
Figure FDA0003515046000000015
表示信道m中用户n与基站之间的链路增益,其中
Figure FDA0003515046000000016
表示服从瑞利分布的瑞利衰落信道,βn表示用户n与基站之间的大尺度衰落,定义为:
Figure FDA0003515046000000017
其中λ表示信号的波长;
Figure FDA0003515046000000018
表示用户n与基站之间的距离;
在时隙t内,基站从信道m中接收到的来自用户n的信号表示为:
Figure FDA0003515046000000021
其中pn(t)∈Pn表示用户n选择的发送功率;
Figure FDA0003515046000000022
表示用户n通过信道m发送给基站的信号;
S22:基站基于信号强度从强到弱的顺序利用连续干扰消除SIC技术完成信号解码;当基站解码用户n的信号时,基站接收到的干扰表示为:
Figure FDA0003515046000000023
其中,
Figure FDA0003515046000000024
表示基站在时隙t内通过信道m接收到的来自用户j的信号,
Figure FDA0003515046000000025
表示用户j是否接入信道m,定义为:
Figure FDA0003515046000000026
βj,n(t)表示基站接收到的用户j的信号强度是否大于用户n的信号强度,定义为:
Figure FDA0003515046000000027
ηj(t)表示用户j的信号是否已经被解码及解码是否成功,定义为:
Figure FDA0003515046000000028
公式(9)中ηj(t)=0表示解码失败或还未被解码,ηj(t)=1表示已被解码且解码成功;
S23:在每个时隙t,基站从信道m接收到的来自用户n的信干燥比SINR表示为SINRn(t),即:
Figure FDA0003515046000000029
其中σ2表示噪声。
因此,用户n的传输速率为:
Rn(t)=Wlog2(1+SINRn(t)) (11)
S3:将通信优先级高的用户优先获得信道使用权,确保接入用户解码成功以及最小化系统丢包数的目标表示为一个优化问题;将通信优先级高的用户优先获得信道使用权,并在确保接入的用户都解码成功的基础上最小化系统的丢包数目标表示为一个优化问题,表示为:
Figure FDA0003515046000000031
s.t.C1:Rn≥R0
C2:0≤pn≤Pmax
Figure FDA0003515046000000032
Figure FDA0003515046000000033
其中C1表示用户n的传输速率需要大于规定的阈值,C2表示用户的发送功率限制,C3表示用户n是否接入了信道m以及其信号是否被基站成功解码,当用户n接入信道m且其信号被基站成功解码时
Figure FDA0003515046000000034
否则
Figure FDA0003515046000000035
C4确保每一个用户最多接入一个信道;
S4:构建多智能体模型,对S3中优化问题基于马尔可夫决策过程进行建模;智能体表示基站与所有的用户,智能体的状态空间、智能体的动作空间和智能体获得的奖励函数,分别定义如下:
S41:对于基站而言,其状态空间为SBS;每个时隙t,基站获得的状态为sBS(t)=(Bl,1(t-1),...,Bl,n(t-1),...Bl,N(t-1)),其中Bl,n(t-1)=Bn(t-1)-Cn(t-1)表示上一时隙通信结束后,用户n的缓存的数据量;对于每个用户,其状态空间为Sn;每个时隙t,用户n获得的状态为
Figure FDA0003515046000000036
其中n表示智能体的编号,Bn(t)表示用户的缓存数据量,hn,m(t)表示用户n接入信道m后获得的链路增益,
Figure FDA0003515046000000037
表示基站反馈给用户n的信息,通过公式(6)计算,Rn(t)表示用户接入信道后的传输速率;
S42:动作空间:基站的动作空间为ABS;在每个时隙t,基站选择动作aBS(t);此时,接入方案为ABS(aBS(t))=(a1(t),...,an(t),...,aN(t)),其中an(t)∈{0,1,...,M},an(t)=m表示用户n当前时隙被允许接入信道m,an(t)=0表示不被允许进行通信;每个用户n的动作空间为用户发送功率集,即Pn
S42:奖励函数:将用户的缓存数据量用来构成奖励函数,该奖励函数表示为:
Figure FDA0003515046000000041
其中PRIn(t)表示时隙t的用户n的通信优先级,定义为:
Figure FDA0003515046000000042
S43:另一个基于传输速率的奖励函数表示为:
Figure FDA0003515046000000043
S44:当接入信道的用户在调整完发送功率后仍然无法传输数据收到相应的惩罚,即:
Figure FDA0003515046000000044
其中,
Figure FDA0003515046000000045
表示当用户n完成功率调整后能否在信道m中进行数据传输,如果可以,
Figure FDA0003515046000000046
否则
Figure FDA0003515046000000047
驱动基站进行学习的总奖励函数表示为:
RBS(t)=λ0RB(t)+λ1Rrate(t)-λ2RIn (17);
其中λ0、λ1和λ2分别表示每部分奖励的权重;
S45:当用户的传输速率满足速率阈值时,用户将获得一个积极的奖励,否则,用户将获得一个惩罚Rneg<0;用户n能够获得的奖励函数表示为:
Figure FDA0003515046000000048
在基于马尔可夫过程所构建的深度强化学习算法中,智能体的目标是学习到一个最佳策略π*,使得智能体获得的累积奖励Rγ(t)最大,最佳策略π*表示为:
Figure FDA0003515046000000049
其中
Figure FDA00035150460000000410
S5:采用集中训练分布执行的方式完成策略的更新和执行;多智能体网络的结构为:基站上构建三个网络,分别为参数为θQ的深度Q网络φQ,参数为θa的动作网络φa和参数为θc的批评网络φc;在执行过程中,基站利用基于DQN网络φQ的深度Q学习算法完成集中式动态频谱接入控制,用户利用基站广播的动作网络参数θa实现连续功率控制;所有的网络参数θQ、θa和θc都在基站处完成更新,且所有参数的更新都采用了经验回放法;
S51:在训练的过程中,基站将获得的经验样本(sBS(t-1),aBS(t-1),RBS(t-1),sBS(t))存入记忆库Maccess中,当记忆库中的样本数量大于训练所需的样本数|ΩQ|=200时,基站从记忆库Maccess中取出包含|ΩQ|个数据样本的训练样本集ΩQ={sBS(i),aBS(i),RBS(i),sBS(i+1)}用于训练参数θQ;根据ΩQ计算得到DQN网络φQ的损失函数为:
Figure FDA0003515046000000051
其中Q(s(i),a(i);θQ)为网络φQ的输出值,记为动作值函数,
Figure FDA0003515046000000052
是参数为
Figure FDA0003515046000000053
的目标深度Q网络
Figure FDA0003515046000000054
的输出值,网络
Figure FDA0003515046000000055
与φQ具有相同的结构,每完成Qup=100次参数就将更新一次参数
Figure FDA0003515046000000056
更新过程为
Figure FDA0003515046000000057
S52:获得损失函数后,网络参数θQ的更新过程表示为:
Figure FDA0003515046000000058
其中αQ表示学习速率;
S53:接入信道的用户将经验样本(sn(t-1),pn(t-1),Rn(t-1),sn(t))存入位于基站的记忆库Mpower中;当记忆库中的样本数量大于训练所需的样本数|Ωn|=128时,基站从Mpower中取出|Ωn|个样本构成训练样本集Ωn={sn(i),pn(i),Rn(i),sn(i)}用于训练参数θa和θc;其中参数θc的更新方式与参数θQ的更新方式相似,首先计算Ωn的损失函数,然后利用梯度下降法完成参数更新,更新过程为:
Figure FDA0003515046000000059
其中
Figure FDA00035150460000000510
表示目标状态-行为值函数,
Figure FDA00035150460000000511
是目标批评网络
Figure FDA00035150460000000512
的网络参数,
Figure FDA00035150460000000513
表示参数为
Figure FDA00035150460000000514
的目标动作网络
Figure FDA00035150460000000515
的输出;
S53:参数θa基于梯度完成更新,网络φa中的策略梯度表示为:
Figure FDA0003515046000000061
基于公式(22)所示的策略梯度,网络φa通过梯度上升法更新参数θa,表示为:
Figure FDA0003515046000000062
S54:采用软更新的方式更新目标网络的参数
Figure FDA0003515046000000063
Figure FDA0003515046000000064
更新过程表示为:
Figure FDA0003515046000000065
Figure FDA0003515046000000066
本方法的总迭代回合数为Tstep,每回合完成Tenv次迭代,并且在每次迭代中,用户有Tp次调整发送功率的机会。
CN202110464824.4A 2021-04-27 2021-04-27 一种noma系统中基于分层深度强化学习的动态频谱接入方法 Active CN113207127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110464824.4A CN113207127B (zh) 2021-04-27 2021-04-27 一种noma系统中基于分层深度强化学习的动态频谱接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110464824.4A CN113207127B (zh) 2021-04-27 2021-04-27 一种noma系统中基于分层深度强化学习的动态频谱接入方法

Publications (2)

Publication Number Publication Date
CN113207127A CN113207127A (zh) 2021-08-03
CN113207127B true CN113207127B (zh) 2022-04-12

Family

ID=77027014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110464824.4A Active CN113207127B (zh) 2021-04-27 2021-04-27 一种noma系统中基于分层深度强化学习的动态频谱接入方法

Country Status (1)

Country Link
CN (1) CN113207127B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113691334B (zh) * 2021-08-23 2022-11-15 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法
CN113923794A (zh) * 2021-11-12 2022-01-11 中国人民解放军国防科技大学 基于多智能体强化学习的分布式动态频谱接入方法
CN115190079B (zh) * 2022-07-05 2023-09-15 吉林大学 基于分层强化学习的高铁自供电感知通信一体化交互方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101711032A (zh) * 2009-11-23 2010-05-19 哈尔滨工业大学 对未知环境模型特性的认知无线电动态智能频谱接入方法
CN101754234A (zh) * 2009-12-16 2010-06-23 南京邮电大学 基于马尔科夫链和载波侦听多路访问的机会频谱接入方法
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
CN106548645A (zh) * 2016-11-03 2017-03-29 济南博图信息技术有限公司 基于深度学习的车辆路径寻优方法及系统
EP3276539A1 (en) * 2016-07-27 2018-01-31 Samsung Electronics Co., Ltd. Accelerator in convolutional neural network and method for operating the same
WO2018093202A1 (en) * 2016-11-17 2018-05-24 Samsung Electronics Co., Ltd. Method and apparatus for analysing communication channel in consideration of material and contours of objects

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2863365T3 (es) * 2018-05-11 2021-10-11 Lg Electronics Inc Método para realizar transmisión de enlace ascendente en un sistema de comunicación inalámbrica y aparato para el mismo

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101711032A (zh) * 2009-11-23 2010-05-19 哈尔滨工业大学 对未知环境模型特性的认知无线电动态智能频谱接入方法
CN101754234A (zh) * 2009-12-16 2010-06-23 南京邮电大学 基于马尔科夫链和载波侦听多路访问的机会频谱接入方法
CN102238555A (zh) * 2011-07-18 2011-11-09 南京邮电大学 认知无线电中基于协作学习的多用户动态频谱接入方法
EP3276539A1 (en) * 2016-07-27 2018-01-31 Samsung Electronics Co., Ltd. Accelerator in convolutional neural network and method for operating the same
CN106548645A (zh) * 2016-11-03 2017-03-29 济南博图信息技术有限公司 基于深度学习的车辆路径寻优方法及系统
WO2018093202A1 (en) * 2016-11-17 2018-05-24 Samsung Electronics Co., Ltd. Method and apparatus for analysing communication channel in consideration of material and contours of objects

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dynamic Spectrum Access Scheme of Joint Power Control in Underlay Mode Based on Deep Reinforcement Learning;Xiping Chen;《2020 IEEE/CIC International Conference on Communications》;20201231;正文第1-3节 *
基于深度强化学习的蜂窝网资源分配算法;廖晓闽;《通信学报》;20190228;全文 *

Also Published As

Publication number Publication date
CN113207127A (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN113207127B (zh) 一种noma系统中基于分层深度强化学习的动态频谱接入方法
CN113692021B (zh) 一种基于亲密度的5g网络切片智能资源分配方法
CN113709701B (zh) 毫米波车联网联合波束分配和中继选择方法、系统及设备
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
Zhao et al. Intelligent resource allocation for train-to-train communication: A multi-agent deep reinforcement learning approach
US20230104220A1 (en) Radio resource allocation
CN112929900B (zh) 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
Bi et al. Deep reinforcement learning based power allocation for D2D network
Tan et al. Energy-efficient collaborative multi-access edge computing via deep reinforcement learning
CN114375066A (zh) 一种基于多智能体强化学习的分布式信道竞争方法
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
Wang et al. Cooperative channel assignment for VANETs based on multiagent reinforcement learning
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN114885422A (zh) 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法
Gong et al. Hierarchical deep reinforcement learning for age-of-information minimization in irs-aided and wireless-powered wireless networks
Hazarika et al. Multi-agent DRL-based computation offloading in multiple RIS-aided IoV networks
CN111741520B (zh) 一种基于粒子群的认知水声通信系统功率分配方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN114827956A (zh) 一种面向用户隐私保护的高能效v2x资源分配方法
Alajmi et al. An efficient actor critic drl framework for resource allocation in multi-cell downlink noma
CN115278896A (zh) 一种基于智能天线的mimo全双工功率分配方法
CN115580900A (zh) 一种基于深度强化学习的无人机辅助协作式任务卸载方法
CN115665763A (zh) 一种无线传感网智能信息调度方法及系统
CN114727318A (zh) 一种基于maddpg的多ris通信网络速率提升方法
Zhang et al. Intelligent ultrareliable and low-latency communications: Flexibility and adaptation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant