CN112953601A - 优化驱动的分层深度强化学习在混合中继通信中的应用 - Google Patents

优化驱动的分层深度强化学习在混合中继通信中的应用 Download PDF

Info

Publication number
CN112953601A
CN112953601A CN201911257667.9A CN201911257667A CN112953601A CN 112953601 A CN112953601 A CN 112953601A CN 201911257667 A CN201911257667 A CN 201911257667A CN 112953601 A CN112953601 A CN 112953601A
Authority
CN
China
Prior art keywords
hap
relay
relay station
ddpg
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911257667.9A
Other languages
English (en)
Other versions
CN112953601B (zh
Inventor
谢雨彤
刘洋
龚世民
张灿晖
汪漪
刘毅
肖钟凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911257667.9A priority Critical patent/CN112953601B/zh
Publication of CN112953601A publication Critical patent/CN112953601A/zh
Application granted granted Critical
Publication of CN112953601B publication Critical patent/CN112953601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/022Site diversity; Macro-diversity
    • H04B7/026Co-operative diversity, e.g. using fixed or mobile stations as relays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明属于中继通信领域,涉及一种优化驱动的分层深度强化学习在混合中继通信中的应用。一种优化驱动的分层深度强化学习在混合中继通信中的应用,包括:1)建立混合中继通信模型;2)设计分层深度确定性策略梯度算法H‑DDPG,以优化混合中继通信模型。本发明提供了一种崭新的主动中继站与被动中继站协同工作的混合中继通信方案。更重要的是,本发明开发了一种新型的由优化问题驱动的分层深度确定性策略梯度算法(H‑DDPG),来协调,改良整个系统。

Description

优化驱动的分层深度强化学习在混合中继通信中的应用
技术领域
本发明属于中继通信领域,涉及一种优化驱动的分层深度强化学习在混合中继通信中的应用。
背景技术
近年来,无线电力传输(WPT)已经成为一种经济有效的方式来维持数以亿计的用户设备进行无线通信,从而构成未来的物联网(IoT)。通过密集部署的物联网设备,我们可以利用多个能量收集中继器的信号和能量协作来协助收发器之间的信息传输。通过协作传输,我们可以提高无线链路质量,扩展覆盖范围,提高频谱效率和能效。但是,中继器的RF通信所需的高功耗通常会阻止它们进行协作传输,特别是对于那些储备能源不足的中继器。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种优化驱动的分层深度强化学习在混合中继通信中的应用,结合反向散射技术和RF射频技术各自的优点,设计出满足中继节点可以在有源主动模式和无源被动模式间灵活切换的双模式混合中继通信模型,高效地利用了无线电在传输能力和功率需求方面的多样性。
本发明解决上述问题的技术方案是:一种优化驱动的分层深度强化学习在混合中继通信中的应用,其特殊之处在于,包括:
1)建立混合中继通信模型
所述混合中继通信模型包括一组由集合N={1,2,...,N}表示的单天线的用户设备,去从多天线的混合接入节点HAP收集能量,然后协助HAP与接收机的信息传输;给定HAP使用的波束成形向量,则每个中继器都可以通过功率分割PS协议控制其能量收集率;中继站协助的信息传输则遵循一个两跳半双工协议;每个无线电射频RF供能的中继都有一个双模式的无线电结构,该结构可以在被动反向散射通信和主动无线电射频RF通信中切换;用
Figure BDA0002310739630000025
Figure BDA0002310739630000026
分别表示从HAP到接收机和从HAP到第n个中继站的复信道向量,K表示天线根数;从中继站n到中继站m的复信道用znm表示,同时从中继站n到接收端的频段用gn表示;
2)设计分层深度确定性策略梯度算法H-DDPG,以优化混合中继通信模型。
进一步地,步骤1中)混合中继通信模型的信息传送被划分为两个阶段:主动中继站接收和发射阶段;HAP可以在两跳中传输相同的信息符号s,通过接收机中的最大比合并算法增强信号接收的可信度;用(w1,w2)表示HAP在两跳中的信号波束成形向量;
在第一跳中,波束成形信息
Figure BDA0002310739630000027
可以同时被主动中继relay-1和目标接收机直接接收,其中pt表示HAP的传输功率常量;同时,被动中继relay-n可以设置一个固定的反射系数Γn去增强直接信道f0;被动中继relay-n的背向散射也可以增强HAP和主动中继relay-1之间的信道f1
在第二跳中,主动中继relay-1增强并发射自身接收的信号到接收机;HAP也形成相同的波束信息符号
Figure BDA0002310739630000028
并发射到接收机;因此,接收机所收到的信号是主动中继站发射的信号、被动中继站的反向散射和来自HAP的直接波束成形三者的混合;
对于具N个中继站,用bk∈{0,1}表示一个指代中继relay-k中无线电模式的二元变量,bk=0和bk=1分别表示采用主动和被动模式的中继站;以此为依据,中继站的集合可以划分出两个子集,主动中继站集合
Figure BDA0002310739630000021
和被动中继站集合
Figure BDA0002310739630000022
分别用
Figure BDA0002310739630000029
Figure BDA00023107396300000210
表示从HAP到接收端和从HAP到主动中继站
Figure BDA0002310739630000023
的两个等价信道;由于被动中继站的反向散射,被增强后的信道可以被以下公式表示:
Figure BDA0002310739630000024
Figure BDA0002310739630000031
两个等价信道
Figure BDA0002310739630000038
Figure BDA0002310739630000039
不仅取决于二元指示符bn∈{0,1},也取决于集合
Figure BDA00023107396300000310
中每个被动中继站的复反射系数Γk
进一步地,两跳中的信号模型设置为:
在第一跳中,给定HAP的波束成形信息
Figure BDA0002310739630000032
则在接收端中每个采样点上的信噪比(SNR)可以表示如下式:
Figure BDA0002310739630000033
其中
Figure BDA00023107396300000311
是频段
Figure BDA00023107396300000312
的厄米特转置;假定噪声功率被标准化为1,在主动中继站-n
Figure BDA0002310739630000034
中,在第一跳中接收到的信号被
Figure BDA00023107396300000313
给出;用ρn表示能量收集中的功率分割比率;接收到的信号mn的无线电射频(RF)的一部分能量ρn可以被主动中继站-n作为能量收集;其余部分1-ρn则被送到信息接收机,于是,在中继站-n接收到的信号被下式给出:
Figure BDA0002310739630000035
其中σn是有着零均值和标准单元变化的复高斯噪声;
在第二跳中,所有的主动中继站都可以协同增强和发射信息到接收机;每个主动中继站-n都可以设置一个不同的能量放大系数xn∈(0,1),则接收机接收到的信号rd是由HAP的直接波束成形和中继站的协同传输的混合,如下式所示:
Figure BDA0002310739630000036
简化在第二跳中每个采样点上的信噪比(SNR)如下式:
Figure BDA0002310739630000037
其中定义
Figure BDA0002310739630000041
而且因此主动中继站-n接收到的信号可以被简化为rn=yns+σn;令pn表示主动中继站-n中的传输功率,随后能量放大系数则被式
Figure BDA0002310739630000049
给出。
进一步地,所述步骤2)中,为了最大化在HAP与接收机之间两跳中的总吞吐量γ=γ12,我们的目标是优化HAP的波束成形策略(w1,w2),中继站的无线电模式选择bn和下列操纵参数:
Figure BDA0002310739630000042
s.t.||w1||≤1 and||w2||≤1, (5b)
Figure BDA0002310739630000043
Figure BDA0002310739630000044
Figure BDA0002310739630000045
Figure BDA0002310739630000046
(5b)中的常量表示HAP的两跳中可用的波束成形向量;(5c)和(5d)中的常量用于确定主动中继站在第二跳中的传输功率,该功率由HAP在第一跳中的波束成形信号所收集的能量确定上限;常量参数η表示能量收集效率;二元变量bn用于分割处于两种无线电模式的中继站
Figure BDA0002310739630000047
(5f)中的常量确保了每个在集合
Figure BDA00023107396300000410
中的被动中继站的复反射系数
Figure BDA00023107396300000411
可由负载调制控制;
A.深度强化学习方法
对问题(5)最直接的深度强化学习(DRL)解决方法是设计一个在HAP中的单代理,它协同确定HAP的波束成形,并且中继策略同时地基于已观察到的状态
Figure BDA00023107396300000412
和从以往经验
Figure BDA00023107396300000413
中学习到的知识来确定;系统状态st是所有信道条件(f0,fn,gn,zn,m)和每个中继站能量状态en的组合;给定当前状态st,则动作at中需包含HAP的波束成形策略(w1,w2),中继站的模式选择bn和操纵参数(ρn,θn)。回报可以简单地定义为总的比率
Figure BDA0002310739630000048
如(5a)所示。给定信道条件动态和能量状态,智能体将会以最大化总回报
Figure BDA0002310739630000054
为原则来选择其动作,此回报值从初始状态s0开始积累,其中γ表示折损因数。
1)深度Q网络(DQN):当状态转移概率
Figure BDA0002310739630000055
未知时,强化学习提供了一种寻找最优策略
Figure BDA0002310739630000056
的方法,最优策略π*将每一个状态
Figure BDA0002310739630000057
映射到一个使状态价值函数V(s0)取最大值的动作
Figure BDA0002310739630000051
在小且有限的状态和动作空间中,最优策略可以利用Q值学习(Q-learning)算法获取,例如,在每个状态中的最优动作就是使得Q值函数
Figure BDA0002310739630000058
取最大值的动作,随后我们通过当前Q值和其目标Q值yt的差值来升级Q值,如下式所示:
Qt+1(st,at)=Qt(st,at)+τt[yt-Qt(st,at)],
其中τt可以被视为步长。目标值yt可以通过式
Figure BDA0002310739630000059
评估。
2)连续控制问题的DDPG算法:总的来说,DQN适用于离散动作空间的情况,而对于具有连续动作空间的问题,我们更倾向于使用基于策略的DDPG算法进行处理。受到DQN使用深度神经网络(DNN)去近似Q值函数的启发,DDPG算法使用了另外一个有权重参数
Figure BDA00023107396300000510
的深度神经网络(DNN)去逼近策略,并升级梯度方向的参数化策略
Figure BDA00023107396300000511
以提升对值函数的估计准确度,如下式所示:
Figure BDA0002310739630000052
其中d(s)表示有着被权重为ω的深度神经网络(DNN)参数化的策略
Figure BDA00023107396300000512
Figure BDA00023107396300000513
的固定分布;DDPG算法简化了对梯度的评估,如下式所示:
Figure BDA0002310739630000053
这可以通过对历史轨道取样而高效实现。在(6)中的策略梯度可以通过分别升级两个深度神经网络(DNN)参数集合
Figure BDA00023107396300000515
的方法激发行动者-批评框架。行动者网络升级梯度方向的策略参数
Figure BDA00023107396300000514
如下式所示:
Figure BDA0002310739630000061
批评网络升级Q网络的方式如下式所示:
Figure BDA0002310739630000062
其中δt=yt-Q(st,att)表示Q(st,att)和目标值yt之间的时序差异误差。两个常量
Figure BDA0002310739630000065
和αω可以被看作步长。
与DQN相似,DDPG算法也使用在线网络和目标网络确保学习的稳定性。对批评网络的训练通过从经验回放记忆中取一个小批量转移样本(st,at,vt,st+1)实现,为了最小化损失函数
Figure BDA0002310739630000063
其中目标值yt被下式给出:
Figure BDA0002310739630000066
这里目标网络的深度神经网络(DNN)参数
Figure BDA0002310739630000067
是一个来自在线网络的延迟备份
Figure BDA0002310739630000068
B.分层DDPG框架
如式(7)中所示,传统的DDPG方式通立即回报v(st,at)和具有参数ω′t的目标Q网络估计目标值yt用于深度神经网络(DNN)的训练,参数ω′t由公式ω′t+1=τωt+(1-τ)ω′t更新,其中ωt表示在线Q网络的深度神经网络(DNN)参数并且τ是一个很小的步长。这表明了在线和目标Q网络之间的强耦合,这种耦合可能会导致较慢的学习效率和收敛上的困难。
在发明的这一部分,我们选择此框架的目的,是为了使用更有根据和更独立的方式预估目标值yt,以稳定和加速学习进程。特别地,给定中继站工作模式
Figure BDA0002310739630000064
我们考虑一种通过优化HAP中的波束成形策略(w1,w2)和中继器操纵参数(ρn,θn)的方法,以解决效率最大化问题的方式去评估在(5a)中总比率的下界。因此,一部分行为at将由基于模型的比率最大化问题产生,以取代由有着不准确权重参数的深度神经网络(DNN)输出而产生。从这个角度看,我们预想基于模型的优化可以提供一个比(7)中更有根据的目标yt值。我们所提出的分层DDPG算法流图表如图2所示。此设计的新颖性可以从两方面阐明:
1)将DQN和DDPG结合在一个框架中。这个设计允许我们从对其他的连续变量优化中,分解组合且离散的中继无线电模式优化。外层循环的DQN算法首先确定了中继模式如何选择。然后固定的无线电模式可以被看作我们升级HAP波束成形策略和中继操纵参数的DDPG算法中系统状态的一部分。DDPG收敛的值函数可以被视为DQN的Q值。这样一个分层的结构可以减少问题的维度,使学习更有效率。
2)更有根据地估计目标值yt。在内层循环中的DDPG算法中,我们考虑以一个比率最大化问题的方法去评估目标值yt的下限。特别地,每个中继站无线电模式已经固定时,我们可以通过(1)(2)式评估等效信道。随后我们可以仅仅通过主动中继站来规范化吞吐量最大化问题。
本发明的优点:
现有技术的出发点是通过把中继通信转化为优化问题以提升性能,且往往在只使用单一的中继模式进行通信,这种思路由于中继通信中的非凸和耦合结构以及特定中继存在固有的短板,有其内在的缺点。而本发明从两种通信模式的优劣势互补出发,提供了一种崭新的主动中继站与被动中继站协同工作的混合中继通信方案。更重要的是,本发明开发了一种新型的由优化问题驱动的分层深度确定性策略梯度算法(H-DDPG),来协调,改良整个系统。
其中,H-DDPG算法通过外层的DQN算法确定了具体的无线电模式,同时通过基于模型的优化提供对网络性能的下限估计,以增强DDPG框架,从而提高了深度强化学习算法解决状态、动作空间较大问题的适应性=,同时借助基于模型优化方法对目标问题边界的划定,大大提升了算法的学习速度,使其更快收敛到最优策略。
附图说明
图1为反向散射辅助的两跳混合中继通信;
图2为用于混合中继通信的优化驱动的H-DDPG框架;
图3为不同算法的性能比较,实线是10次重复的中值,阴影区域覆盖了第10个百分位数和第90个百分位数;
图4为H-DDPG框架中的回报动态;
图5为不同中继器数量下的性能对比。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
本发明的主要内容包括系统模型和针对混合中继通信的分层深度确定性策略梯度算法(H-DDPG)方法。详细方案设计如下:
(1)系统模型
考虑到一个密集的物联网网络,我们设计一组由集合N={1,2,...,N}表示的单天线的用户设备,去从多天线的混合接入节点(HAP)收集能量,然后协助HAP与接收机的信息传输。我们假设HAP有着恒定的能量供应和固定的传输功率,然而传输所用的波束成形向量可以调节,以优化无线功率传输到不同的中继。给定HAP使用的波束成形向量,则每个中继器都可以通过功率分割(PS)协议控制其能量收集率。中继站协助的信息传输则遵循一个两跳半双工协议。每个无线电射频(RF)供能的中继都有一个双模式的无线电结构,该结构可以在被动反向散射通信和主动无线电射频(RF)通信中切换。图1所示是一个双中继站模型(其中一个中继站处于被动模式,另外一个处于主动模式)。我们用
Figure BDA0002310739630000081
Figure BDA0002310739630000082
分别表示从HAP(有K根天线)到接收机和从HAP到第n个中继站的复信道向量。从中继站n到中继站m的复信道用znm表示,同时从中继站n到接收端的频段用gn表示。
A.混合中继通信
信息传送被划分为两个阶段,例如,主动中继站接收和发射阶段。由于HAP和接收机间的直接连接链路f0存在于每跳中,并且对总吞吐量有着显著贡献。HAP可以在两跳中传输相同的信息符号s,通过接收机中的最大比合并算法增强信号接收的可信度。我们用(w1,w2)表示HAP在两跳中的信号波束成形向量。很明显,两个阶段中的波束成形策略w1和w2不一定相同。
在第一跳中,波束成形信息
Figure BDA0002310739630000096
可以同时被主动中继relay-1和目标接收机直接接收,其中pt表示HAP的传输功率常量。同时,被动中继relay-n可以设置一个固定的反射系数Гn去增强直接信道f0。被动中继relay-n的背向散射也可以增强HAP和主动中继relay-1之间的信道f1,如图片1所示。在第二跳中,主动中继relay-1增强并发射自身接收的信号到接收机。HAP也形成相同的波束信息符号
Figure BDA0002310739630000097
并发射到接收机。因此,接收机所收到的信号是主动中继站发射的信号、被动中继站的反向散射和来自HAP的直接波束成形三者的混合。此处需指出的是,被动中继relay-n也可以增强主动中继relay-1和接收机之间的发射信道g1
对于具N个中继站的一般情况,我们用bk∈{0,1}表示一个指代中继relay-k中无线电模式的二元变量,例如,bk=0和bk=1分别表示采用主动和被动模式的中继站。以此为依据,中继站的集合可以划分出两个子集,例如,主动中继站集合
Figure BDA0002310739630000091
和被动中继站集合
Figure BDA0002310739630000092
我们分别用
Figure BDA0002310739630000098
Figure BDA0002310739630000099
表示从HAP到接收端和从HAP到主动中继站
Figure BDA0002310739630000093
的两个等价信道。由于被动中继站的反向散射,被增强后的信道可以被以下公式表示:
Figure BDA0002310739630000094
Figure BDA0002310739630000095
不难看出,两个等价信道
Figure BDA0002310739630000106
Figure BDA0002310739630000107
不仅取决于二元指示符bn∈{0,1},也取决于集合
Figure BDA0002310739630000108
中每个被动中继站的复反射系数Гk
B.两跳中的信号模型
从上述关于(1)(2)的分析中,我们预期被动中继站可以等效地增强主动无线电射频(RF)通信的信道。给出固定的被动中继站集合及它们的反射系数,我们即可评估等价的直接信道
Figure BDA0002310739630000109
和所有主动中继站的中继信道
Figure BDA00023107396300001014
因此,我们可以把关注点放在仅有主动中继站的中继优化问题上。
在第一跳中,给定HAP的波束成形信息
Figure BDA0002310739630000101
则在接收端中每个采样点上的信噪比(SNR)可以表示如下式:
Figure BDA0002310739630000102
其中
Figure BDA00023107396300001011
是频段
Figure BDA00023107396300001012
的厄米特转置。我们假定噪声功率被标准化为1,在主动中继站-n
Figure BDA0002310739630000103
中,在第一跳中接收到的信号被
Figure BDA00023107396300001013
给出。我们用ρn表示能量收集中的功率分割比率。这是说,接收到的信号mn的无线电射频(RF)的一部分能量ρn可以被主动中继站-n作为能量收集。其余部分1-ρn则被送到信息接收机,于是,在中继站-n接收到的信号被下式给出:
Figure BDA0002310739630000104
其中σn是有着零均值和标准单元变化的复高斯噪声。
在第二跳中,所有的主动中继站都可以协同增强和发射信息到接收机。每个主动中继站-n都可以设置一个不同的能量放大系数xn∈(0,1)。则接收机接收到的信号rd是由HAP的直接波束成形和中继站的协同传输的混合,如下式所示:
Figure BDA0002310739630000105
我们可以简化在第二跳中每个采样点上的信噪比(SNR)如下式:
Figure BDA0002310739630000111
其中我们定义
Figure BDA0002310739630000112
而且因此主动中继站-n接收到的信号可以被简化为rn=tns+σn。我们令pn表示主动中继站-n中的传输功率,随后能量放大系数则被式
Figure BDA0002310739630000119
给出。
(2)针对混合中继通信的分层深度确定性策略梯度算法(H-DDPG)方法
为了最大化在HAP与接收机之间两跳中的总吞吐量γ=γ12,我们的目标是优化HAP的波束成形策略(w1,w2),中继站的无线电模式选择bn和下列操纵参数:
Figure BDA0002310739630000113
s.t.||wl||≤1 and||w2||≤1, (5b)
Figure BDA0002310739630000114
Figure BDA0002310739630000115
Figure BDA0002310739630000116
Figure BDA0002310739630000117
(5b)中的常量表示HAP的两跳中可用的波束成形向量。(5c)和(5d)中的常量用于确定主动中继站在第二跳中的传输功率,该功率由HAP在第一跳中的波束成形信号所收集的能量确定上限。常量参数η表示能量收集效率。二元变量bn用于分割处于两种无线电模式的中继站
Figure BDA0002310739630000118
(5f)中的常量确保了每个在集合
Figure BDA00023107396300001110
中的被动中继站的复反射系数
Figure BDA00023107396300001111
可由负载调制控制。从式(1)和(2)中,我们观察到阶段θn∈[0,2π]在信道增强方面是一个重要的设计变量,其中参数|Γn|可以被简单地设为其最大值Γmax,以增加被反射信号的能量。
不难看出,对中继设备无线电模式
Figure BDA00023107396300001112
的优化是组合的,因此以最佳方式解决问题会更加困难。即使固定无线电模式bn,由于目标函数(5a)中不同主动中继站之间的互相耦合,对波束成形策略(w1,w2)和主动中继站的操纵参数
Figure BDA0002310739630000122
进行协同优化仍是具有挑战性的。另外,在第一跳中的波束成形策略w1与中继器中的功率分割比率ρn经能量预算约束(5c),以一种非凸的形式耦合。
接下来,我们考虑使用深度强化学习(DRL)方法去优化混合中继通信,因为DRL在处理复杂结构和难以精准建模的实际问题上有着固有的适用性。
A.深度强化学习方法
DRL方法扩展了传统的针对于具有广阔的动作、状态空间的马尔科夫决策过程(MDP)的传统强化学习方法。马尔科夫过程(MDP)框架可以由一个元组
Figure BDA0002310739630000123
定义。
Figure BDA0002310739630000124
表示系统的状态,例如,表示对网络环境的观测集合。
Figure BDA0002310739630000125
表示决策者(例如,代理)可以在不同的系统状态
Figure BDA0002310739630000126
下可以采取的动作集合。状态转移概率
Figure BDA0002310739630000127
表示由下一状态
Figure BDA0002310739630000128
给出的当前的状态
Figure BDA0002310739630000129
和在第t个决策时段中采取的动作
Figure BDA00023107396300001210
的分布。状态转移对代理来说是不确定的,必须在决策过程中被代理学习。回报函数
Figure BDA00023107396300001211
对不同状态中的每个动作提供了一个质量评估v(st,at).
对问题(5)最直接的深度强化学习(DRL)解决方法是设计一个在HAP中的单代理,它协同确定HAP的波束成形,并且中继策略同时地基于已观察到的状态
Figure BDA00023107396300001212
和从以往经验
Figure BDA00023107396300001213
中学习到的知识来确定。系统状态st是所有信道条件(f0,fn,gn,zn,m)和每个中继站能量状态en的组合。给定当前状态st,则动作at中需包含HAP的波束成形策略(w1,w2),中继站的模式选择bn和操纵参数(ρn,θn)。回报可以简单地定义为总的比率
Figure BDA0002310739630000121
如(5a)所示。给定信道条件动态和能量状态,智能体将会以最大化总回报
Figure BDA00023107396300001214
为原则来选择其动作,此回报值从初始状态s0开始积累,其中γ表示折损因数。
1)深度Q网络(DQN):当状态转移概率
Figure BDA00023107396300001215
未知时,强化学习提供了一种寻找最优策略
Figure BDA00023107396300001216
的方法,最优策略π*将每一个状态
Figure BDA00023107396300001217
映射到一个使状态价值函数V(s0)取最大值的动作
Figure BDA0002310739630000136
在小且有限的状态和动作空间中,最优策略可以利用Q值学习(Q-learning)算法获取,例如,在每个状态中的最优动作就是使得Q值函数
Figure BDA0002310739630000134
取最大值的动作,随后我们通过当前Q值和其目标Q值yt的差值来升级Q值,如下式所示:
Qt+i(st,at)=Qt(st,at)+τt[yt-Qt(st,at)],
其中τt可以被视为步长。目标值yt可以通过式
Figure BDA0002310739630000135
评估。通过使用深度神经网络(DNN)作为Q值函数的逼近器,深度Q网络(DQN)算法变得更为稳定,特别是在状态和动作空间很大的时候。特别地,DQN算法维护了一个具权重参数ωt的深度神经网络(DNN)。DNN的输入是当前状态st,自DNN获得的输出则是期望选取的动作at。权重参数ωt必须通过一组过去的转换样本作规律性训练,例如,经验回放。
2)连续控制问题的DDPG算法:总的来说,DQN适用于离散动作空间的情况,而对于具有连续动作空间的问题,我们更倾向于使用基于策略的DDPG算法进行处理。受到DQN使用深度神经网络(DNN)去近似Q值函数的启发,DDPG算法使用了另外一个有权重参数
Figure BDA0002310739630000137
的深度神经网络(DNN)去逼近策略,并升级梯度方向的参数化策略
Figure BDA0002310739630000138
以提升对值函数的估计准确度,如下式所示:
Figure BDA0002310739630000131
其中d(s)表示有着被权重为ω的深度神经网络(DNN)参数化的策略
Figure BDA0002310739630000139
Figure BDA00023107396300001310
的固定分布。DDPG算法简化了对梯度的评估,如下式所示:
Figure BDA0002310739630000132
这可以通过对历史轨道取样而高效实现。在(6)中的策略梯度可以通过分别升级两个深度神经网络(DNN)参数集合
Figure BDA00023107396300001311
的方法激发行动者-批评框架。行动者网络升级梯度方向的策略参数
Figure BDA00023107396300001312
如下式所示:
Figure BDA0002310739630000141
批评网络升级Q网络的方式如下式所示:
Figure BDA0002310739630000142
其中δt=yt-Q(st,att)表示Q(st,att)和目标值yt之间的时序差异误差。两个常量αν和αω可以被看作步长。
与DQN相似,DDPG算法也使用在线网络和目标网络确保学习的稳定性。对批评网络的训练通过从经验回放记忆中取一个小批量转移样本(st,at,vt,st+1)实现,为了最小化损失函数
Figure BDA0002310739630000143
其中目标值yt被下式给出:
Figure BDA0002310739630000144
这里目标网络的深度神经网络(DNN)参数(ν′t,ω′t)是一个来自在线网络的延迟备份
Figure BDA0002310739630000145
B.分层DDPG框架
如式(7)中所示,传统的DDPG方式通立即回报v(st,at)和具有参数ω′t的目标Q网络估计目标值yt用于深度神经网络(DNN)的训练,参数ω′t由公式ω′t+1=τωt+(1-τ)ω′t更新,其中ωt表示在线Q网络的深度神经网络(DNN)参数并且τ是一个很小的步长。这表明了在线和目标Q网络之间的强耦合,这种耦合可能会导致较慢的学习效率和收敛上的困难。
传统DDPG算法的主要缺点可以从至少三个层面去理解,第一,在学习的初始阶段,当前Q网络和目标Q网络可能被设置得距离最优值很远,因此很可能会误导学习过程。因此传统DDPG网络在实践中需要很长一段时间的预热期去训练两个Q网络。第二,对收益的评估基于无优化参数的行动者网络输出,特别是在学习的早期阶段。这表明不精确的收益值也可能使网络远离最优状态。第三,选择参数τ去升级ωt的过程也可能存在问题。一个小的τ值可能是稳定的,但是也会使学习减慢,而大的τ值则表明当前Q网络和目标Q网络具有强相关性,这可能会导致学习表现的波动和不收敛。
在发明的这一部分,我们选择此框架的目的,是为了使用更有根据和更独立的方式预估目标值yt,以稳定和加速学习进程。特别地,给定中继站工作模式
Figure BDA0002310739630000151
我们考虑一种通过优化HAP中的波束成形策略(w1,w2)和中继器操纵参数(ρn,θn)的方法,以解决效率最大化问题的方式去评估在(5a)中总比率的下界。因此,一部分行为at将由基于模型的比率最大化问题产生,以取代由有着不准确权重参数的深度神经网络(DNN)输出而产生。从这个角度看,我们预想基于模型的优化可以提供一个比(7)中更有根据的目标yt值。我们所提出的分层DDPG算法流图表如图2所示。此设计的新颖性可以从两方面阐明:
1)将DQN和DDPG结合在一个框架中。这个设计允许我们从对其他的连续变量优化中,分解组合且离散的中继无线电模式优化。外层循环的DQN算法首先确定了中继模式如何选择。然后固定的无线电模式可以被看作我们升级HAP波束成形策略和中继操纵参数的DDPG算法中系统状态的一部分。DDPG收敛的值函数可以被视为DQN的Q值。这样一个分层的结构可以减少问题的维度,使学习更有效率。
2)更有根据地估计目标值yt。在内层循环中的DDPG算法中,我们考虑以一个比率最大化问题的方法去评估目标值yt的下限。特别地,每个中继站无线电模式已经固定时,我们可以通过(1)(2)式评估等效信道。随后我们可以仅仅通过主动中继站来规范化吞吐量最大化问题。
命题1:给定每个中继站
Figure BDA0002310739630000155
的无线电模式,式(5)中一个可能的下限可以通过凸重构所找到,推导如下:
Figure BDA0002310739630000152
Figure BDA0002310739630000153
Figure BDA0002310739630000154
Figure BDA0002310739630000161
其中
Figure BDA0002310739630000163
是一个常量。在优化中,功率分割比率被公式
Figure BDA0002310739630000164
给出,其中
Figure BDA0002310739630000162
一旦我们找到了优化矩阵的最优解W1,我们就可以通过特征分解或高斯随机化方法恢复HAP的波束成形向量w1
完整的算法流程如图2所示,包含信道和能量条件的全系统状态首先被注入DQN算法中,以选择每个中级站的二元无线电模式。确定无线电模式后,式(8)中基于模型的优化提供了对网络性能的下限估计。同时,DDPG算法中的行动者和批评网络也各自产生了对动作和价值的估计。图2中的目标价值估计模型随即将从优化问题和批评网络中产生的价值估计组合在一起。特别地,我们可以在目标价值估计模型中使用概率组合规则,例如,由优化问题(8)所提供的下限可能远大于在深度神经网络(DNN)早期训练阶段的随机猜测,因此该下限应被用作有着更高概率的目标价值yt。这有助于让DDPG算法在早期适应得更快。此外,对目标价值yt的优化驱动估计是独立于批评网络的。这表明,于在线Q网络训练中,其目标价值yt可能会比目标Q网络中的更稳定。如此一来,在线Q网络和其目标的解耦可以减少训练中的性能起伏,因此,它也被寄予了更短时间内稳定学习过程的期望。
本发明对提出的模型和算法进行了仿真实验评估。考虑一个有着三根天线的混合接入节点(HAP)和两个能量收集中继,即M=3和N=2,分别表示HAP的三根天线和两个中继站。HAP和接收机之间的距离用d0=4表示,单位为米,中继站随机地分布在HAP和接收机之间的圆形区域内。噪声功率密度是-90dBm,带宽为100kHz。HAP的传输功率pt设为10mW,能量收集效率为η=0.6。
实践中,反射系数的可调节范围受到天线设计中的缺陷和结构性散射的限制。因此,我们在仿真中将反射系数的最大值设为Γmax=0.5。为了简化问题,我们假定每个主动中继站间的反射系数都是确定的。因此,我们仅需关注HAP的波束成形策略(w1,w2),中继站的模式选择bn和主动中继站的功率分割比率参数ρn。给定无线电模式和波束成形策略,被动中继站的反射系数可以被启发式算法进一步优化。表1列出了深度确定性策略梯度(H-DDPG)算法中的参数设定。
Figure BDA0002310739630000171
表1 H-DDPG算法中的参数设置
图3展示了训练过程中的不同算法奖励性能的动态结果。
作为比较,我们实现了传统的DDPG算法(在图3中表示为Plain DDPG,即朴素DDPG),该算法在同一学习智能体中同时学习中继的无线电模式选择和HAP的波束成形策略。在H-DDPG框架中,我们使用深度Q网络(DQN)算法分解了位于外层循环中的二元模式选择bn的优化,然后使用内层循环中的传统DDPG算法优化连续的波束成形策略(w1,w2)和功率分割参数ρn,如图3中的Model-free H-DDPG(无模型H-DDPG)算法所示。Optimization-driven H-DDPG(即所提出的优化驱动的H-DDPG)算法可以被看做Model-free H-DDPG算法的增强版。它将基于模型的优化整合进H-DDPG框架中来提升对目标值的估计和加快学习速率。
图3的x轴代表了外层循环中DQN迭代轮数,y轴表示每个DQN时段中的DDPG算法通过训练得到的平均回报。PlainDDPG算法中的回报被合理地采样并取均值以确保和H-DDPG框架算法比较时的公平。设置折价因子γ=0.7和γ=0.1,以分别比较这些算法在目标价值估计取不同的超参数γ时对性能的影响,结果如图3.(a)和3.(b)所示。
正如我们在图3.(a)中看到的那样,优化驱动的H-DDPG算法取得了最高的回报值,有着最快的收敛速度。而无模型H-DDPG算法和朴素DDPG算法收敛速度较慢,回报值较低。γ较小时,如γ=0.1时,如图3.(b)所示,所有的算法几乎都收敛到一个相同的回报值。然而,我们考虑的优化驱动的H-DDPG算法仍然取得了最快的收敛速率,无模型H-DDPG算法和朴素DDPG算法则收敛较慢。在γ=0.7时,在更高的学习率方面,由于动作空间缩小,H-DDPG框架比传统DDPG算法表现得更优良。此外,从图3中我们可以看出,优化驱动的H-DDPG算法对不同的超参数值γ更具鲁棒性。与其他算法相比,它的回报表现不会有太大的改变,这也是优化驱动的H-DDPG算法与其他现存的深度强化学习方法(DRL)相比之下的显著优点。
为了验证H-DDPG算法是怎样运转的,我们记录了内层循环中DDPG算法的每一次策略更新,并展示出DQN算法取不同迭代轮数时的动态变化,如图4所示。每个DQN算法时段包含4000轮DDPG策略更新迭代周期。这一设置可以确保内层循环中DDPG算法的收敛。图4中可以通过回报值的锐减(即,悬崖)分割为三个部分。每个部分中,内层循环的DDPG算法可以收敛到到具有固定无线电模式选择的稳定回报值。可以观察到,在内层循环中,优化驱动的H-DDPG算法比无模型H-DDPG算法具有更快的学习速率。
此外,我们验证了优化驱动的H-DDPG算法在中继站数增加时的性能增益。如图5所示,在更多中继站协助信息传输时,收敛回报会增加。然而,中继站变多时,学习速率会略微下降。这个现象的产生是因为更多的中继站为HAP提供了更多的自由度,以使HAP可以利用更高的多样性进行信息传输,同时又由于动作空间的增加而降低了收敛速度。
以上所述仅为本发明的实施例,并非以此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的系统领域,均同理包括在本发明的保护范围内。

Claims (4)

1.一种优化驱动的分层深度强化学习在混合中继通信中的应用,其特征在于,包括以下步骤:
1)建立混合中继通信模型
所述混合中继通信模型包括一组由集合N={1,2,...,N}表示的单天线的用户设备,去从多天线的混合接入节点HAP收集能量,然后协助HAP与接收机的信息传输;给定HAP使用的波束成形向量,则每个中继器都可以通过功率分割PS协议控制其能量收集率;中继站协助的信息传输则遵循一个两跳半双工协议;每个无线电射频RF供能的中继都有一个双模式的无线电结构,该结构可以在被动反向散射通信和主动无线电射频RF通信中切换;用
Figure FDA0002310739620000011
Figure FDA0002310739620000012
分别表示从HAP到接收机和从HAP到第n个中继站的复信道向量,K表示天线根数;从中继站n到中继站m的复信道用znm表示,同时从中继站n到接收端的频段用gn表示;
2)设计分层深度确定性策略梯度算法H-DDPG,以优化混合中继通信模型。
2.根据权利要求1所述的一种优化驱动的分层深度强化学习在混合中继通信中的应用,其特征在于,
步骤1中)所述混合中继通信模型的信息传送被划分为两个阶段:主动中继站接收和发射阶段;HAP可以在两跳中传输相同的信息符号s,通过接收机中的最大比合并算法增强信号接收的可信度;用(w1,w2)表示HAP在两跳中的信号波束成形向量;
在第一跳中,波束成形信息
Figure FDA0002310739620000013
可以同时被主动中继relay-1和目标接收机直接接收,其中pt表示HAP的传输功率常量;同时,被动中继relay-n可以设置一个固定的反射系数Γn去增强直接信道f0;被动中继relay-n的背向散射也可以增强HAP和主动中继relay-1之间的信道f1
在第二跳中,主动中继relay-1增强并发射自身接收的信号到接收机;HAP也形成相同的波束信息符号
Figure FDA0002310739620000021
并发射到接收机;因此,接收机所收到的信号是主动中继站发射的信号、被动中继站的反向散射和来自HAP的直接波束成形三者的混合;
对于具N个中继站,用bk∈{0,1}表示一个指代中继relay-k中无线电模式的二元变量,bk=0和bk=1分别表示采用主动和被动模式的中继站;以此为依据,中继站的集合可以划分出两个子集,主动中继站集合
Figure FDA0002310739620000022
和被动中继站集合
Figure FDA0002310739620000023
分别用
Figure FDA0002310739620000024
Figure FDA0002310739620000025
表示从HAP到接收端和从HAP到主动中继站relay-n
Figure FDA0002310739620000026
的两个等价信道;由于被动中继站的反向散射,被增强后的信道可以被以下公式表示:
Figure FDA0002310739620000027
Figure FDA0002310739620000028
两个等价信道
Figure FDA0002310739620000029
Figure FDA00023107396200000210
不仅取决于二元指示符bn∈{0,1},也取决于集合
Figure FDA00023107396200000211
中每个被动中继站的复反射系数Γk
3.根据权利要求2所述的一种优化驱动的分层深度强化学习在混合中继通信中的应用,其特征在于:
所述步骤1)中,两跳中的信号模型设置为:
在第一跳中,给定HAP的波束成形信息
Figure FDA0002310739620000031
则在接收端中每个采样点上的信噪比(SNR)可以表示如下式:
Figure FDA0002310739620000032
其中
Figure FDA0002310739620000033
是频段
Figure FDA0002310739620000034
的厄米特转置;假定噪声功率被标准化为1,在主动中继站-n
Figure FDA0002310739620000035
中,在第一跳中接收到的信号被
Figure FDA0002310739620000036
给出;用ρn表示能量收集中的功率分割比率;接收到的信号mn的无线电射频(RF)的一部分能量ρn可以被主动中继站-n作为能量收集;其余部分1-ρn则被送到信息接收机,于是,在中继站-n接收到的信号被下式给出:
Figure FDA0002310739620000037
其中σn是有着零均值和标准单元变化的复高斯噪声;
在第二跳中,所有的主动中继站都可以协同增强和发射信息到接收机;每个主动中继站-n都可以设置一个不同的能量放大系数xn∈(0,1),则接收机接收到的信号rd是由HAP的直接波束成形和中继站的协同传输的混合,如下式所示:
Figure FDA0002310739620000038
简化在第二跳中每个采样点上的信噪比(SNR)如下式:
Figure FDA0002310739620000041
其中定义
Figure FDA0002310739620000042
而且因此主动中继站-n接收到的信号可以被简化为rn=yns+σn;令pn表示主动中继站-n中的传输功率,随后能量放大系数则被式
Figure FDA0002310739620000043
给出。
4.根据权利要求3所述的一种优化驱动的分层深度强化学习在混合中继通信中的应用,其特征在于,
所述步骤2)中,为了最大化在HAP与接收机之间两跳中的总吞吐量γ=γ12,需要优化HAP的波束成形策略(w1,w2),中继站的无线电模式选择bn和下列操纵参数:
Figure FDA0002310739620000044
s.t.||w1||≤1and||w2||≤1, (5b)
Figure FDA0002310739620000045
Figure FDA0002310739620000046
Figure FDA0002310739620000047
Figure FDA0002310739620000048
(5b)中的常量表示HAP的两跳中可用的波束成形向量;(5c)和(5d)中的常量用于确定主动中继站在第二跳中的传输功率,该功率由HAP在第一跳中的波束成形信号所收集的能量确定上限;常量参数η表示能量收集效率;二元变量bn用于分割处于两种无线电模式的中继站
Figure FDA0002310739620000049
(5f)中的常量确保了每个在集合
Figure FDA00023107396200000410
中的被动中继站的复反射系数
Figure FDA0002310739620000051
可由负载调制控制;
2.1)使用深度强化学习DRL方法去优化混合中继通信:
设计一个在HAP中的单代理,它协同确定HAP的波束成形,并且中继策略同时地基于已观察到的状态
Figure FDA0002310739620000052
和从以往经验
Figure FDA0002310739620000053
中学习到的知识来确定;系统状态st是所有信道条件(f0,fn,gn,zn,m)和每个中继站能量状态en的组合;给定当前状态st,则动作at中需包含HAP的波束成形策略(w1,w2),中继站的模式选择bn和操纵参数(ρn,θn);回报可以简单地定义为总的比率
Figure FDA0002310739620000054
如(5a)所示;给定信道条件动态和能量状态,智能体将会以最大化总回报
Figure FDA0002310739620000055
为原则来选择其动作,此回报值从初始状态s0开始积累,其中γ表示折损因数;
a.深度Q网络DQN:当状态转移概率
Figure FDA0002310739620000058
未知时,强化学习提供了一种寻找最优策略
Figure FDA0002310739620000059
的方法,最优策略π*将每一个状态
Figure FDA00023107396200000510
映射到一个使状态价值函数V(s0)取最大值的动作
Figure FDA00023107396200000511
在小且有限的状态和动作空间中,最优策略可以利用Q值学习(Q-learning)算法获取;在每个状态中的最优动作就是使得Q值函数
Figure FDA0002310739620000056
取最大值的动作,随后我们通过当前Q值和其目标Q值yt的差值来升级Q值,如下式所示:
Qt+1(st,at)=Qt(st,at)+τt[yt-Qt(st,at)],
其中τt可以被视为步长,目标值yt可以通过式
Figure FDA0002310739620000057
评估;
b.连续控制问题的DDPG算法:DDPG算法使用有权重参数
Figure FDA0002310739620000066
的深度神经网络DNN去逼近策略,并升级梯度方向的参数化策略
Figure FDA0002310739620000067
以提升对值函数的估计准确度,如下式所示:
Figure FDA0002310739620000061
其中d(s)表示有着被权重为ω的深度神经网络(DNN)参数化的策略
Figure FDA0002310739620000068
Figure FDA0002310739620000069
的固定分布;DDPG算法简化了对梯度的评估,如下式所示:
Figure FDA0002310739620000062
这可以通过对历史轨道取样而高效实现;在(6)中的策略梯度可以通过分别升级两个深度神经网络DNN参数集合
Figure FDA00023107396200000610
的方法激发行动者-批评框架;行动者网络升级梯度方向的策略参数
Figure FDA00023107396200000611
如下式所示:
Figure FDA0002310739620000063
批评网络升级Q网络的方式如下式所示:
Figure FDA0002310739620000064
其中δt=yt-Q(st,att)表示Q(st,att)和目标值yt之间的时序差异误差,两个常量
Figure FDA00023107396200000612
和αω可以被看作步长;
与DQN相似,DDPG算法也使用在线网络和目标网络确保学习的稳定性;对批评网络的训练通过从经验回放记忆中取一个小批量转移样本(st,at,vt,st+1)实现,为了最小化损失函数
Figure FDA0002310739620000065
其中目标值yt被下式给出:
Figure FDA0002310739620000071
这里目标网络的深度神经网络(DNN)参数
Figure FDA0002310739620000072
是一个来自在线网络的延迟备份
Figure FDA0002310739620000073
2.2)采用分层DDPG框架:
a.将DQN和DDPG结合在一个框架中;外层循环的DQN算法首先确定了中继模式如何选择,然后固定的无线电模式可以被看作升级HAP波束成形策略和中继操纵参数的DDPG算法中系统状态的一部分,DDPG收敛的值函数可以被视为DQN的Q值;
b.更有根据地估计目标值yt;在内层循环中的DDPG算法中,以一个比率最大化问题的方法去评估目标值yt的下限。
CN201911257667.9A 2019-12-10 2019-12-10 优化驱动的分层深度强化学习在混合中继通信中的应用 Active CN112953601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257667.9A CN112953601B (zh) 2019-12-10 2019-12-10 优化驱动的分层深度强化学习在混合中继通信中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257667.9A CN112953601B (zh) 2019-12-10 2019-12-10 优化驱动的分层深度强化学习在混合中继通信中的应用

Publications (2)

Publication Number Publication Date
CN112953601A true CN112953601A (zh) 2021-06-11
CN112953601B CN112953601B (zh) 2023-03-24

Family

ID=76225416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257667.9A Active CN112953601B (zh) 2019-12-10 2019-12-10 优化驱动的分层深度强化学习在混合中继通信中的应用

Country Status (1)

Country Link
CN (1) CN112953601B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3543918A1 (en) * 2018-03-20 2019-09-25 Flink AI GmbH Reinforcement learning method
US20190372644A1 (en) * 2018-06-01 2019-12-05 Samsung Electronics Co., Ltd. Method and apparatus for machine learning based wide beam optimization in cellular network
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALI A. NASIR, XIANGYUN ZHOU, SALMAN DURRANI,RODNEY A. KENNEDY: "Relaying Protocols for Wireless", 《IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS》 *
YUTONG XIE: "Backscatter-Assisted Computation Offloading for Energy Harvesting IoT Devices via Policy-based Deep Reinforcement Learning", 《2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS WORKSHOPS IN CHINA (ICCC WORKSHOPS)》 *
刘洋: "独立分量分析及其在脑电信号提取中的应用", 《中国优秀硕士学位论文》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置
CN114785693B (zh) * 2022-06-24 2022-09-30 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置

Also Published As

Publication number Publication date
CN112953601B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
Aykin et al. MAMBA: A multi-armed bandit framework for beam tracking in millimeter-wave systems
CN112422162A (zh) 智能反射面鲁棒波束成形方法及系统
Lin et al. Deep reinforcement learning for robust beamforming in IRS-assisted wireless communications
CN111385011A (zh) 一种基于全双工的无线供电中继网络系统及优化方法
CN111917508A (zh) 基于多天线抗干扰通信模型及动态空间谱抗干扰方法
Peng et al. Long-lasting UAV-aided RIS communications based on SWIPT
Zou et al. Optimization-driven hierarchical deep reinforcement learning for hybrid relaying communications
Gong et al. When optimization meets machine learning: The case of IRS-assisted wireless networks
Xie et al. Backscatter-assisted hybrid relaying strategy for wireless powered IoT communications
CN112953601B (zh) 优化驱动的分层深度强化学习在混合中继通信中的应用
Hou et al. Hardware impairment-aware data collection and wireless power transfer using a MIMO full-duplex UAV
CN116981091A (zh) 一种星地融合网络资源分配方法
CN115567148A (zh) 一种基于合作q学习的智能干扰方法
CN111385010B (zh) 多模混合物联网及其无源中继协作式无线数据传输控制方法
Anh et al. A deep reinforcement learning approach for backscatter-assisted relay communications
Cai et al. Age-oriented access control in GEO/LEO heterogeneous network for marine IoRT: A deep reinforcement learning approach
Jouhari et al. Deep reinforcement learning-based energy efficiency optimization for flying LoRa gateways
CN112738849B (zh) 应用于多跳环境反向散射无线网络的负载均衡调控方法
Koda et al. Cooperative sensing in deep RL-based image-to-decision proactive handover for mmWave networks
Huang et al. Fast spectrum sharing in vehicular networks: A meta reinforcement learning approach
CN116009590A (zh) 无人机网络分布式轨迹规划方法、系统、设备及介质
CN114599099A (zh) 一种基于强化学习的5g星地链路多波束动态功率分配方法
CN114745032A (zh) 一种无蜂窝大规模mimo智能分布式波束选择方法
Lin et al. Optimization-driven deep reinforcement learning for robust beamforming in IRS-assisted wireless communications
Gupta et al. Contextual-bandit based MIMO relay selection policy with channel uncertainty

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant