CN112260733A - 基于多智能体深度强化学习的mu-miso混合预编码设计方法 - Google Patents

基于多智能体深度强化学习的mu-miso混合预编码设计方法 Download PDF

Info

Publication number
CN112260733A
CN112260733A CN202011243937.3A CN202011243937A CN112260733A CN 112260733 A CN112260733 A CN 112260733A CN 202011243937 A CN202011243937 A CN 202011243937A CN 112260733 A CN112260733 A CN 112260733A
Authority
CN
China
Prior art keywords
network
agent
action
evaluation
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011243937.3A
Other languages
English (en)
Other versions
CN112260733B (zh
Inventor
李潇
王琪胜
金石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011243937.3A priority Critical patent/CN112260733B/zh
Publication of CN112260733A publication Critical patent/CN112260733A/zh
Application granted granted Critical
Publication of CN112260733B publication Critical patent/CN112260733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting

Abstract

本发明公开了一种基于多智能体深度强化学习的MU‑MISO混合预编码设计方法,适用于通信中下行系统使用。该方法中基站构建多个用于计算模拟预编码矩阵的深度强化学习智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,各智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络,协同探索模拟预编码策略。该方法中基站获取多个用户的信道状态信息,将用户信道信息输入所构建的智能体,输出相应的模拟预编码矩阵;进而通过迫零预编码和注水算法计算包含各用户数字预编码向量的数字预编码矩阵。其能有效解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题,且对信道环境具有较强的鲁棒性。

Description

基于多智能体深度强化学习的MU-MISO混合预编码设计方法
技术领域
本发明涉及一种MU-MISO混合预编码设计方法,尤其适用于通信中下行系统使用的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。
背景技术
大规模多输入多输出(MIMO)作为一种可以提高网络传输速率和能量效率的有效方法被视作新一代无线通信网络的关键技术之一。MIMO系统能充分利用空间资源,在不增加频谱资源和天线发射功率的情况下,成倍的提高系统容量。
然而,在实际应用中,大规模MIMO系统仍面临着诸多挑战。毫米波系统中波束成形矩阵的设计受到昂贵的射频硬件的约束。传统的全数字波束成形结构需要为每一根发射天线和接收天线配备一个射频链路用于模数转换和上下变频,天线数的增大使得基站侧所需射频链路数增大,带来系统成本的提高,尤其是射频硬件昂贵的毫米波混合预编码技术将全数字预编码拆分为高维的模拟预编码和低维的数字预编码,模拟预编码可由简单的相移器实现,数字预编码维数较低,仅使用很少的射频链路即可,可在一定程度上缓解这一问题。但现存混合预编码技术主要基于压缩感知技术和高发射信噪比的假设,将原始系统速率最大问题转化为矩阵间欧氏距离最小问题,导致局部最优解;且算法的时间复杂度较高,会引入较大的通信处理时延,因此需要有新的低复杂度和高性能混合波束成形算法来进一步解决这些问题。
现有针对低复杂度混合预编码算法的研究主要基于对矩阵求逆运算的简化、使用深度监督学习方法或使用单智能体深度强化学习方法。虽然应用这些方法之后时间复杂度有一定下降,但牺牲了一定的系统性能。深度监督学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感,对于穿透力弱,衰减快的毫米波信道来说,实际应用仍有困难。单智能体强化学习方法无需对环境建模,可自动追踪无线信道环境的变化,但单智能体强化学习处理复杂问题时存在探索效率低、浪费计算资源以及收敛性的问题。
发明内容
技术问题:针对上述技术的不足之处,提供一种解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题,并且对信道环境具有较强的鲁棒性的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。
技术方案:为实现上述技术目的,本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统;首先构建Y个用于计算模拟预编码矩阵FRF及数字预编码矩阵FD的深度强化学习的智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络;之后使用基站获取多个用户的信道状态信息,将基站获取的各个用户信道信息输入所构建的Y个智能体,各智能体i,i=1,…,Y分别学习其模拟预编码矩阵FRF,i并计算相应的数字预编码矩阵FD,i,利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为,利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索;各智能体学习收敛后,选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。
所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本,经验池的二叉树结构中的最底层叶节点存储六元组样本,每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态,其余各层节点只存储其子节点的优先级之和;各智能体的经验池根节点存储相应经验池中所有样本的优先级之和;
具体步骤如下:
步骤一、基站配置Nt根发射天线,服务K个单天线的用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y个由动作预测网络及容量为ND的带优先级的经验池构成的深度强化学习智能体用于分别学习模拟预编码矩阵及计算相应的数字预编码矩阵,一个评价网络用于协调多个智能体的行为,一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;令
Figure BDA0002769296280000021
表示智能体i在迭代时刻t所输出的模拟预编码矩阵,则将
Figure BDA0002769296280000022
随机正交初始化,即初始状态满足
Figure BDA0002769296280000023
上标(·)H表示共轭转置,令t=t+1。
所述评价网络包括评价现实网络
Figure BDA0002769296280000024
及评价目标网络
Figure BDA0002769296280000025
评价现实网络
Figure BDA0002769296280000026
输出当前的状态-动作对的评价值;
所述奖励值预测网络包括奖励值预测现实网络
Figure BDA0002769296280000027
及奖励值预测目标网络
Figure BDA0002769296280000028
奖励值预测现实网络
Figure BDA0002769296280000029
输出当前状态-动作对下奖励值的预测值;
所述第i个深度强化学习的智能体的动作预测网络包括动作预测现实网络
Figure BDA00027692962800000210
及动作预测目标网络
Figure BDA00027692962800000211
动作预测现实网络
Figure BDA00027692962800000212
根据当前迭代时刻的状态产生当前迭代时刻最优的动作;
所述评价目标网络
Figure BDA00027692962800000213
奖励值预测目标网络
Figure BDA00027692962800000214
以及动作预测目标网络
Figure BDA00027692962800000215
通过软更新让输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性;
所述带优先级的经验池的容量ND表示该经验池所能存储的最底层叶节点数量上限为ND
步骤二、在迭代时刻t,智能体i的当前时刻状态表达式为:
Figure BDA00027692962800000216
其中
Figure BDA00027692962800000217
为智能体i前一迭代时刻所输出的模拟预编码矩阵,Re(·)和Im(·)分别表示取实部和虚部;将状态
Figure BDA00027692962800000218
输入智能体i的动作预测现实网络
Figure BDA00027692962800000219
将其输出的各元素进行模值归一化得到智能体选择的动作,其表达式为:
Figure BDA00027692962800000220
并将之整合得到当前迭代时刻智能体i输出的模拟预编码矩阵
Figure BDA0002769296280000031
步骤三、智能体i用获得的
Figure BDA0002769296280000032
基于迫零预编码算法计算得到当前时刻的数字预编码矩阵
Figure BDA0002769296280000033
Figure BDA0002769296280000034
其中
Figure BDA0002769296280000035
Figure BDA0002769296280000036
为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H
Figure BDA0002769296280000037
为智能体i计算得到的用户k的接收信号功率,
Figure BDA0002769296280000038
表示取非负操作,
Figure BDA0002769296280000039
为用户k的噪声功率,
Figure BDA00027692962800000310
为辅助矩阵
Figure BDA00027692962800000311
Figure BDA00027692962800000312
的第k个对角元,
Figure BDA00027692962800000313
为用于满足功率约束
Figure BDA00027692962800000314
的辅助变量,Pt为发射端最大发射功率;
步骤四、智能体i基于获得的
Figure BDA00027692962800000315
Figure BDA00027692962800000316
计算出当前迭代时刻系统和速率
Figure BDA00027692962800000317
Figure BDA00027692962800000318
并得到下一迭代时刻的状态:
Figure BDA00027692962800000319
步骤五、智能体i将状态-动作对
Figure BDA00027692962800000320
分别输入评价现实网络
Figure BDA00027692962800000321
和奖励值预测现实网络
Figure BDA00027692962800000322
中,评价现实网络
Figure BDA00027692962800000323
和奖励值预测现实网络
Figure BDA00027692962800000324
分别输出对
Figure BDA00027692962800000325
的评价值
Figure BDA00027692962800000326
和该状态-动作对的奖励值预测值
Figure BDA00027692962800000327
基于
Figure BDA00027692962800000328
Figure BDA00027692962800000329
计算得到该状态-动作对的奖励值
Figure BDA00027692962800000330
其中η∈[0,1]为预测值的折扣因子,计算状态-动作对
Figure BDA00027692962800000331
的优先级
Figure BDA00027692962800000332
其中0<δ<<1,将六元组
Figure BDA00027692962800000333
作为一个样本存入智能体i的带优先级的经验池
Figure BDA00027692962800000334
中,当经验池
Figure BDA00027692962800000335
存满后,每次加入最新的六元组样本后排除最旧的六元组样本;
步骤六、对智能体i计算
Figure BDA00027692962800000336
并从带优先级的经验池
Figure BDA00027692962800000337
中基于样本优先级采样
Figure BDA00027692962800000338
个六元组样本来对各智能体的动作预测网络、评价网络和奖励值预测网络进行参数更新,其中
Figure BDA00027692962800000339
表示向下取整,M为总的采样数量;若
Figure BDA00027692962800000340
或t>10M,则停止智能体i的迭代并进入步骤七,否则令t=t+1并转到步骤二;
步骤七、对所有智能体i=1,…,Y,选择评价值
Figure BDA00027692962800000341
最高的智能体所输出的模拟预编码矩阵
Figure BDA00027692962800000342
及相应数字预编码矩阵
Figure BDA00027692962800000343
作为MU-MISO系统的混合预编码矩阵FRF及FD
所述带优先级的经验池
Figure BDA00027692962800000344
按二叉树存储六元组样本,经验池的二叉树结构中的最底层叶节点存储六元组样本
Figure BDA00027692962800000345
将最底层第n个叶节点记为
Figure BDA00027692962800000346
假设
Figure BDA00027692962800000347
即最底层第n个叶节点所存储的为智能体i在第tn个迭代时刻的六元组样本
Figure BDA00027692962800000348
其余各层节点只存储其子节点的优先级之和
Figure BDA0002769296280000041
a与b为某节点的子节点的序数;带优先级的经验池
Figure BDA0002769296280000042
的根节点存储经验池中所有六元组样本的优先级之和为
Figure BDA0002769296280000043
所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的带优先级的经验池
Figure BDA0002769296280000044
中第n个六元组样本被采样的概率
Figure BDA0002769296280000045
然后按概率
Figure BDA0002769296280000046
从带优先级的经验池
Figure BDA0002769296280000047
中采样Mi个六元组样本,假设为
Figure BDA0002769296280000048
即带优先级的经验池
Figure BDA0002769296280000049
中第nm,m=1,…,Mi个六元组样本,则所有智能体共采样得到M个六元组样本;
b2)记录带优先级的经验池
Figure BDA00027692962800000410
中第n个六元组样本被采样的次数
Figure BDA00027692962800000411
即当前迭代时刻若该六元组样本被采样到,则
Figure BDA00027692962800000412
否则
Figure BDA00027692962800000413
不变,t=0时所有
Figure BDA00027692962800000414
利用
Figure BDA00027692962800000415
将样本优先级更新为
Figure BDA00027692962800000416
Figure BDA00027692962800000417
b2)将M个六元组样本的状态-动作对分别输入评价目标网络
Figure BDA00027692962800000418
得到各六元组样本状态-动作对相应的评价值估计值
Figure BDA00027692962800000419
按照贝尔曼方程计算得到相应的评价值目标值
Figure BDA00027692962800000420
其中γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00027692962800000421
Figure BDA00027692962800000422
为由动作预测目标网络
Figure BDA00027692962800000423
Figure BDA00027692962800000424
状态下产生的动作;
b3)计算M个六元组样本的均方误差分别作为评价现实网络
Figure BDA00027692962800000425
和奖励值预测现实网络
Figure BDA00027692962800000426
的损失函数:
Figure BDA00027692962800000427
Figure BDA00027692962800000428
其中
Figure BDA00027692962800000429
Figure BDA00027692962800000430
分别为评价现实网络
Figure BDA00027692962800000431
和奖励值预测现实网络
Figure BDA00027692962800000432
的参数;
b4)损失函数中同时涉及到智能体i的动作现实网络
Figure BDA00027692962800000433
和评价现实网络
Figure BDA00027692962800000434
的更新,记网络
Figure BDA00027692962800000435
的参数为
Figure BDA00027692962800000436
更新的目标是使得对于状态-动作对(s,a)评价现实网络
Figure BDA00027692962800000437
的输出
Figure BDA00027692962800000438
与其目标值y尽可能接近,奖励值预测现实网络
Figure BDA00027692962800000439
的输出
Figure BDA00027692962800000440
Figure BDA00027692962800000441
尽可能接近,同时
Figure BDA00027692962800000442
输出的动作的评价值尽量大,利用随机梯度下降对网络进行更新:
Figure BDA00027692962800000443
Figure BDA00027692962800000444
Figure BDA00027692962800000445
其中
Figure BDA00027692962800000446
Figure BDA00027692962800000447
分别为用M个六元组样本表示的网络
Figure BDA00027692962800000448
和网络
Figure BDA00027692962800000449
的累计价值函数;
b5)每隔NT个迭代时隙,将各智能体的各现实网络的参数复制至相应的目标网络,即令
Figure BDA00027692962800000450
Figure BDA00027692962800000451
其中
Figure BDA00027692962800000452
Figure BDA00027692962800000453
分别表示智能体i的动作目标网络
Figure BDA00027692962800000454
评价目标网络
Figure BDA00027692962800000455
和奖励值预测目标网络
Figure BDA0002769296280000051
的参数;每两次参数复制之间的每个迭代时隙则对智能体i的动作预测目标网络
Figure BDA0002769296280000052
评价目标网络
Figure BDA0002769296280000053
和奖励值预测目标网络
Figure BDA0002769296280000054
的参数进行软更新,即以折扣因子1-τ部分保留目标网络中的参数,以折扣因子τ作为现实网络中参数的权重:
Figure BDA0002769296280000055
Figure BDA0002769296280000056
Figure BDA0002769296280000057
通过软更新,让各目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
所述Y个动作预测现实网络
Figure BDA0002769296280000058
动作预测目标网络
Figure BDA0002769296280000059
评价现实网络
Figure BDA00027692962800000510
评价目标网络
Figure BDA00027692962800000511
奖励值预测现实网络
Figure BDA00027692962800000512
以及奖励值预测目标网络
Figure BDA00027692962800000513
包含四个全连接层、三个ReLU激活层和一个tanh激活层,网络中的前三个全连接层采用ReLU激活函数,输出层采用tanh激活函数。
所述步骤六中的模型参数包括全连接层的权重、偏置。
有益效果:
1)本方法采用多智能体协同学习缩短了学习时间;增加了经验池中各经验值的优先级,同时增加了奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值,进一步加速了各智能体的探索;使得混合预编码矩阵的计算收敛速度快、易于实现,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;
2)本方法不针对具体信道模型,更具有一般性。
3)本方法采用系统可达速率作为奖励值,因此能使MU-MISO下行传输系统获得较高的系统和速率。
附图说明
图1是本发明方法利用多智能体深度强化学习为用户设计发射端混合预编码矩阵的流程图。
图2是本发明方法所涉及多智能体深度强化学习的改进的带优先级的经验池的示意图
具体实施方式
下面结合说明书附图对本发明作更进一步的说明:
如图1所示,本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法考虑一个MU-MISO下行链路,基站按如下步骤进行混合波束成形设计:
步骤一、基站配置Nt=64根发射天线,服务K=8个单天线用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y=2个由神经网络构成的深度强化学习智能体用于分别学习模拟预编码矩阵FRF,i及计算相应的数字预编码矩阵FD,i;一个评价网络用于协调各智能体的行为;一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;所有智能体的初始状态
Figure BDA00027692962800000514
随机正交初始化,即初始状态满足
Figure BDA00027692962800000515
令t=t+1。
所述评价网络包括状态动作评价现实网络
Figure BDA00027692962800000516
输出当前的状态动作的价值函数;状态动作评价目标网络
Figure BDA0002769296280000061
其参数复制自评价现实网络
Figure BDA0002769296280000062
每隔NT=50个迭代时隙更新一次。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含256个神经元节点,输出层包含1个神经元节点,2个隐藏层各包含300和400个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
所述奖励值预测网络包括奖励值预测现实网络
Figure BDA0002769296280000063
输出当前状态-动作对下奖励值的预测值;奖励值预测目标网络
Figure BDA0002769296280000064
其参数复制自预测现实网络
Figure BDA0002769296280000065
每隔NT=50个迭代时隙更新一次。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含128个神经元节点,输出层包含1个神经元节点,2个隐藏层各包含300和200个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
所述第i个深度强化学习智能体包括以下元素:动作输出现实网络
Figure BDA0002769296280000066
根据来自当前迭代时刻的状态产生当前当前迭代时刻最优的动作;动作输出目标网络
Figure BDA0002769296280000067
其参数复制自动作现实网络
Figure BDA0002769296280000068
每隔NT个迭代时隙更新一次;容量为ND=2000的带优先级的经验池
Figure BDA0002769296280000069
用于存储智能体学习过程中产生的样本。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含128个神经元节点,输出层包含128个神经元节点,2个隐藏层各包含300和150个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
步骤二、在迭代时刻t,智能体i的当前时刻状态
Figure BDA00027692962800000610
其中
Figure BDA00027692962800000611
为智能体i前一迭代时刻所输出的模拟波束成形矩阵,Re(·),Im(·)分别表示取实部和虚部;将状态
Figure BDA00027692962800000612
输入智能体i的动作现实网络
Figure BDA00027692962800000613
输出为智能体选择的动作
Figure BDA00027692962800000614
并将之整合得到当前迭代时刻智能体i的模拟预编码矩阵
Figure BDA00027692962800000615
步骤三、智能体i用获得的
Figure BDA00027692962800000616
基于迫零预编码算法计算得到当前时刻的数字预编码矩阵
Figure BDA00027692962800000617
Figure BDA00027692962800000618
其中
Figure BDA00027692962800000619
Figure BDA00027692962800000620
为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H
Figure BDA00027692962800000621
为智能体i计算得到的用户k的接收信号功率,
Figure BDA00027692962800000622
表示取非负操作,
Figure BDA00027692962800000623
为用户k的噪声功率,
Figure BDA00027692962800000624
为辅助矩阵
Figure BDA00027692962800000625
Figure BDA00027692962800000626
的第k个对角元,
Figure BDA00027692962800000627
为用于满足功率约束
Figure BDA00027692962800000628
的辅助变量,Pt为发射端最大发射功率;
步骤四、智能体i基于获得的
Figure BDA0002769296280000071
Figure BDA0002769296280000072
计算出当前迭代时刻系统和速率
Figure BDA0002769296280000073
Figure BDA0002769296280000074
并得到下一迭代时刻的状态
Figure BDA0002769296280000075
步骤五、智能体i将状态-动作对
Figure BDA0002769296280000076
分别输入评价现实网络
Figure BDA0002769296280000077
和预测现实网络
Figure BDA0002769296280000078
中,
Figure BDA0002769296280000079
Figure BDA00027692962800000710
分别输出对
Figure BDA00027692962800000711
的评价值
Figure BDA00027692962800000712
和当前迭代时刻奖励预测值
Figure BDA00027692962800000713
基于
Figure BDA00027692962800000714
Figure BDA00027692962800000715
计算得到当前时刻的奖励值
Figure BDA00027692962800000716
其中η∈[0,1]为预测值的折扣因子,计算当前时刻状态动作对
Figure BDA00027692962800000717
的优先级
Figure BDA00027692962800000718
其中0<δ<<1,将六元组
Figure BDA00027692962800000719
作为第n个样本存入带优先级的经验池
Figure BDA00027692962800000720
中,当经验池存满后,每次加入最新的样本,去掉最旧的样本;
所述带优先级的经验池
Figure BDA00027692962800000721
按二叉树存储样本,如图2所示,经验池二叉树中的最底层叶节点存储六元组
Figure BDA00027692962800000722
其余各层节点只存储其子节点的优先级之和
Figure BDA00027692962800000723
a与b为某节点的子节点的下标;经验池
Figure BDA00027692962800000724
的根节点存储经验池中所有样本的优先级之和
Figure BDA00027692962800000725
步骤六、智能体i更新其优先级
Figure BDA00027692962800000726
并从经验池
Figure BDA00027692962800000727
中基于样本优先级采样批尺寸
Figure BDA00027692962800000728
来计算评价网络的目标值,
Figure BDA00027692962800000729
表示向下取整,M=64为总的采样数量;然后对动作网络、评价网络和奖励值预测网络进行梯度下降更新,并对动作目标网络、评价目标网络和预测目标网络进行软更新。令t=t+1,若
Figure BDA00027692962800000730
或t>10M,则停止智能体i的迭代,否则转到步骤二。
所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的经验池
Figure BDA00027692962800000731
中第n个样本的被采样概率
Figure BDA00027692962800000732
然后按概率
Figure BDA00027692962800000733
从经验池
Figure BDA00027692962800000734
中采样Mi个样本,则所有智能体共采样得到M个样本d={d1,d2,…,dM},其中第m个样本
Figure BDA00027692962800000735
Figure BDA00027692962800000736
为经验池中存储的样本六元组;
b2)记录经验池
Figure BDA00027692962800000737
中第n个样本被采样的次数
Figure BDA00027692962800000738
即当前迭代时刻若该样本被采到,则
Figure BDA00027692962800000739
否则
Figure BDA00027692962800000740
不变,t=0时所有
Figure BDA00027692962800000741
利用
Figure BDA00027692962800000742
将样本优先级更新为
Figure BDA00027692962800000743
b2)将d中所有样本的状态-动作对输入评价目标网络
Figure BDA00027692962800000744
得到该状态-动作对的价值函数估计值
Figure BDA00027692962800000745
按照贝尔曼方程计算得到价值函数目标值
Figure BDA00027692962800000746
其中γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00027692962800000747
为由动作目标网络
Figure BDA00027692962800000748
根据
Figure BDA00027692962800000749
产生的动作;
b3)计算d中M个样本的均方误差分别作为评价现实网络
Figure BDA00027692962800000750
和预测现实网络
Figure BDA00027692962800000751
的损失函数:
Figure BDA0002769296280000081
Figure BDA0002769296280000082
其中
Figure BDA0002769296280000083
Figure BDA0002769296280000084
分别为评价现实网络
Figure BDA0002769296280000085
和预测现实网络
Figure BDA0002769296280000086
的参数;
b4)损失函数中同时涉及到智能体i的动作现实网络
Figure BDA0002769296280000087
和中心化的评价现实网络
Figure BDA0002769296280000088
的更新,记网络
Figure BDA0002769296280000089
的参数为
Figure BDA00027692962800000810
更新的目标是使得评价现实网络
Figure BDA00027692962800000811
的输出
Figure BDA00027692962800000812
与目标值y尽可能接近,预测现实网络
Figure BDA00027692962800000813
的输出
Figure BDA00027692962800000814
Figure BDA00027692962800000815
尽可能接近,同时
Figure BDA00027692962800000816
输出的动作的Q值尽量大,利用随机梯度下降对网络进行更新:
Figure BDA00027692962800000817
Figure BDA00027692962800000818
Figure BDA00027692962800000819
其中
Figure BDA00027692962800000820
Figure BDA00027692962800000821
分别为用M个样本d表示的网络
Figure BDA00027692962800000822
和网络
Figure BDA00027692962800000823
的累计价值函数。
b5)每个时隙对智能体i的动作现实网络
Figure BDA00027692962800000824
评价现实网络
Figure BDA00027692962800000825
和预测现实网络
Figure BDA00027692962800000826
的参数
Figure BDA00027692962800000827
Figure BDA00027692962800000828
进行软更新,即以折扣因子τ=0.001部分保留目标网络中的参数,以折扣因子1-τ作为现实网络中参数的权重:
Figure BDA00027692962800000829
Figure BDA00027692962800000830
Figure BDA00027692962800000831
其中,
Figure BDA00027692962800000832
Figure BDA00027692962800000833
分别表示智能体i的动作目标网络
Figure BDA00027692962800000834
评价目标网络
Figure BDA00027692962800000835
和预测目标网络
Figure BDA00027692962800000836
的参数。通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
综上,本发明在运行时间复杂度和系统性能上均超过传统的MU-MISO系统混合预编码设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的混合预编码矩阵,特别对于快速时变信道有很强的鲁棒性,在有限的资源开销下,实现较高的系统和速率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统;首先构建Y个用于计算模拟预编码矩阵FRF及数字预编码矩阵FD的深度强化学习的智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络;之后使用基站获取多个用户的信道状态信息,将基站获取的各个用户信道信息输入所构建的Y个智能体,各智能体i,i=1,…,Y分别学习其模拟预编码矩阵FRF,i并计算相应的数字预编码矩阵FD,i,利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为,利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索;各智能体学习收敛后,选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。
2.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本,经验池的二叉树结构中的最底层叶节点存储六元组样本,每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态,其余各层节点只存储其子节点的优先级之和;各智能体的经验池根节点存储相应经验池中所有样本的优先级之和。
3.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于具体步骤如下:
步骤一、基站配置Nt根发射天线,服务K个单天线的用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y个由动作预测网络及容量为ND的带优先级的经验池构成的深度强化学习智能体用于分别学习模拟预编码矩阵及计算相应的数字预编码矩阵,一个评价网络用于协调多个智能体的行为,一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;令
Figure FDA0002769296270000011
表示智能体i在迭代时刻t所输出的模拟预编码矩阵,则将
Figure FDA0002769296270000012
随机正交初始化,即初始状态满足
Figure FDA0002769296270000013
上标(·)H表示共轭转置,令t=t+1。
所述评价网络包括评价现实网络
Figure FDA0002769296270000014
及评价目标网络
Figure FDA0002769296270000015
评价现实网络
Figure FDA0002769296270000016
输出当前的状态-动作对的评价值;
所述奖励值预测网络包括奖励值预测现实网络
Figure FDA0002769296270000017
及奖励值预测目标网络
Figure FDA0002769296270000018
奖励值预测现实网络
Figure FDA0002769296270000019
输出当前状态-动作对下奖励值的预测值;
所述第i个深度强化学习的智能体的动作预测网络包括动作预测现实网络
Figure FDA00027692962700000110
及动作预测目标网络
Figure FDA00027692962700000111
动作预测现实网络
Figure FDA00027692962700000112
根据当前迭代时刻的状态产生当前迭代时刻最优的动作;
所述评价目标网络
Figure FDA00027692962700000113
奖励值预测目标网络
Figure FDA00027692962700000114
以及动作预测目标网络
Figure FDA00027692962700000115
通过软更新让输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性;
所述带优先级的经验池的容量ND表示该经验池所能存储的最底层叶节点数量上限为ND
步骤二、在迭代时刻t,智能体i的当前时刻状态表达式为:
Figure FDA0002769296270000021
其中
Figure FDA0002769296270000022
为智能体i前一迭代时刻所输出的模拟预编码矩阵,Re(·)和Im(·)分别表示取实部和虚部;将状态
Figure FDA0002769296270000023
输入智能体i的动作预测现实网络
Figure FDA0002769296270000024
将其输出的各元素进行模值归一化得到智能体选择的动作,其表达式为:
Figure FDA0002769296270000025
并将之整合得到当前迭代时刻智能体i输出的模拟预编码矩阵
Figure FDA0002769296270000026
步骤三、智能体i用获得的
Figure FDA0002769296270000027
基于迫零预编码算法计算得到当前时刻的数字预编码矩阵
Figure FDA0002769296270000028
Figure FDA0002769296270000029
其中
Figure FDA00027692962700000210
Figure FDA00027692962700000211
为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H
Figure FDA00027692962700000212
为智能体i计算得到的用户k的接收信号功率,
Figure FDA00027692962700000213
表示取非负操作,
Figure FDA00027692962700000214
为用户k的噪声功率,
Figure FDA00027692962700000215
为辅助矩阵
Figure FDA00027692962700000216
Figure FDA00027692962700000217
的第k个对角元,
Figure FDA00027692962700000218
为用于满足功率约束
Figure FDA00027692962700000219
的辅助变量,Pt为发射端最大发射功率;
步骤四、智能体i基于获得的
Figure FDA00027692962700000220
Figure FDA00027692962700000221
计算出当前迭代时刻系统和速率
Figure FDA00027692962700000222
Figure FDA00027692962700000223
并得到下一迭代时刻的状态:
Figure FDA00027692962700000224
步骤五、智能体i将状态-动作对
Figure FDA00027692962700000225
分别输入评价现实网络
Figure FDA00027692962700000226
和奖励值预测现实网络
Figure FDA00027692962700000227
中,评价现实网络
Figure FDA00027692962700000228
和奖励值预测现实网络
Figure FDA00027692962700000229
分别输出对
Figure FDA00027692962700000230
的评价值
Figure FDA00027692962700000231
和该状态-动作对的奖励值预测值
Figure FDA00027692962700000232
基于
Figure FDA00027692962700000233
Figure FDA00027692962700000234
计算得到该状态-动作对的奖励值
Figure FDA00027692962700000235
其中η∈[0,1]为预测值的折扣因子,计算状态-动作对
Figure FDA00027692962700000236
的优先级
Figure FDA00027692962700000237
其中0<δ<<1,将六元组
Figure FDA00027692962700000238
作为一个样本存入智能体i的带优先级的经验池
Figure FDA00027692962700000239
中,当经验池
Figure FDA00027692962700000240
存满后,每次加入最新的六元组样本后排除最旧的六元组样本;
步骤六、对智能体i计算
Figure FDA00027692962700000241
并从带优先级的经验池
Figure FDA00027692962700000242
中基于样本优先级采样
Figure FDA00027692962700000243
个六元组样本来对各智能体的动作预测网络、评价网络和奖励值预测网络进行参数更新,其中
Figure FDA00027692962700000244
表示向下取整,M为总的采样数量;若
Figure FDA0002769296270000031
或t>10M,则停止智能体i的迭代并进入步骤七,否则令t=t+1并转到步骤二;
步骤七、对所有智能体i=1,…,Y,选择评价值
Figure FDA0002769296270000032
最高的智能体所输出的模拟预编码矩阵
Figure FDA0002769296270000033
及相应数字预编码矩阵
Figure FDA0002769296270000034
作为MU-MISO系统的混合预编码矩阵FRF及FD
4.根据权利要求3所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述带优先级的经验池
Figure FDA0002769296270000035
按二叉树存储六元组样本,经验池的二叉树结构中的最底层叶节点存储六元组样本
Figure FDA0002769296270000036
将最底层第n个叶节点记为
Figure FDA0002769296270000037
假设
Figure FDA0002769296270000038
即最底层第n个叶节点所存储的为智能体i在第tn个迭代时刻的六元组样本
Figure FDA0002769296270000039
其余各层节点只存储其子节点的优先级之和
Figure FDA00027692962700000310
a与b为某节点的子节点的序数;带优先级的经验池
Figure FDA00027692962700000311
的根节点存储经验池中所有六元组样本的优先级之和为
Figure FDA00027692962700000312
5.根据权利要求3所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的带优先级的经验池
Figure FDA00027692962700000313
中第n个六元组样本被采样的概率
Figure FDA00027692962700000314
然后按概率
Figure FDA00027692962700000315
从带优先级的经验池
Figure FDA00027692962700000316
中采样Mi个六元组样本,假设为
Figure FDA00027692962700000317
即带优先级的经验池
Figure FDA00027692962700000318
中第nm,m=1,…,Mi个六元组样本,则所有智能体共采样得到M个六元组样本;
b2)记录带优先级的经验池
Figure FDA00027692962700000319
中第n个六元组样本被采样的次数
Figure FDA00027692962700000320
即当前迭代时刻若该六元组样本被采样到,则
Figure FDA00027692962700000321
否则
Figure FDA00027692962700000322
不变,t=0时所有
Figure FDA00027692962700000323
利用
Figure FDA00027692962700000324
将样本优先级更新为
Figure FDA00027692962700000325
Figure FDA00027692962700000326
b2)将M个六元组样本的状态-动作对分别输入评价目标网络
Figure FDA00027692962700000327
得到各六元组样本状态-动作对相应的评价值估计值
Figure FDA00027692962700000328
按照贝尔曼方程计算得到相应的评价值目标值
Figure FDA00027692962700000329
其中γ∈(0,1)为奖励函数的折扣因子,
Figure FDA00027692962700000330
Figure FDA00027692962700000331
为由动作预测目标网络
Figure FDA00027692962700000332
Figure FDA00027692962700000333
状态下产生的动作;
b3)计算M个六元组样本的均方误差分别作为评价现实网络
Figure FDA00027692962700000334
和奖励值预测现实网络
Figure FDA00027692962700000335
的损失函数:
Figure FDA00027692962700000336
Figure FDA00027692962700000337
其中
Figure FDA0002769296270000041
Figure FDA0002769296270000042
分别为评价现实网络
Figure FDA0002769296270000043
和奖励值预测现实网络
Figure FDA0002769296270000044
的参数;
b4)损失函数中同时涉及到智能体i的动作现实网络
Figure FDA0002769296270000045
和评价现实网络
Figure FDA0002769296270000046
的更新,记网络
Figure FDA0002769296270000047
的参数为
Figure FDA0002769296270000048
更新的目标是使得对于状态-动作对(s,a)评价现实网络
Figure FDA0002769296270000049
的输出
Figure FDA00027692962700000410
与其目标值y尽可能接近,奖励值预测现实网络
Figure FDA00027692962700000411
的输出
Figure FDA00027692962700000412
Figure FDA00027692962700000413
尽可能接近,同时
Figure FDA00027692962700000414
输出的动作的评价值尽量大,利用随机梯度下降对网络进行更新:
Figure FDA00027692962700000415
Figure FDA00027692962700000416
Figure FDA00027692962700000417
其中
Figure FDA00027692962700000418
Figure FDA00027692962700000419
分别为用M个六元组样本表示的网络
Figure FDA00027692962700000420
和网络
Figure FDA00027692962700000421
的累计价值函数;
b5)每隔NT个迭代时隙,将各智能体的各现实网络的参数复制至相应的目标网络,即令
Figure FDA00027692962700000422
Figure FDA00027692962700000423
其中
Figure FDA00027692962700000424
Figure FDA00027692962700000425
分别表示智能体i的动作目标网络
Figure FDA00027692962700000426
评价目标网络
Figure FDA00027692962700000427
和奖励值预测目标网络
Figure FDA00027692962700000428
的参数;每两次参数复制之间的每个迭代时隙则对智能体i的动作预测目标网络
Figure FDA00027692962700000429
评价目标网络
Figure FDA00027692962700000430
和奖励值预测目标网络
Figure FDA00027692962700000431
的参数进行软更新,即以折扣因子1-τ部分保留目标网络中的参数,以折扣因子τ作为现实网络中参数的权重:
Figure FDA00027692962700000432
Figure FDA00027692962700000433
Figure FDA00027692962700000434
通过软更新,让各目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
6.根据权利要求3所述基于基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述Y个动作预测现实网络
Figure FDA00027692962700000435
动作预测目标网络
Figure FDA00027692962700000436
评价现实网络
Figure FDA00027692962700000437
评价目标网络
Figure FDA00027692962700000438
奖励值预测现实网络
Figure FDA00027692962700000439
以及奖励值预测目标网络
Figure FDA00027692962700000440
包含四个全连接层、三个ReLU激活层和一个tanh激活层,网络中的前三个全连接层采用ReLU激活函数,输出层采用tanh激活函数。
7.根据权利要求3所述基于基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述步骤六中的模型参数包括全连接层的权重、偏置。
CN202011243937.3A 2020-11-10 2020-11-10 基于多智能体深度强化学习的mu-miso混合预编码设计方法 Active CN112260733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011243937.3A CN112260733B (zh) 2020-11-10 2020-11-10 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011243937.3A CN112260733B (zh) 2020-11-10 2020-11-10 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Publications (2)

Publication Number Publication Date
CN112260733A true CN112260733A (zh) 2021-01-22
CN112260733B CN112260733B (zh) 2022-02-01

Family

ID=74266738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011243937.3A Active CN112260733B (zh) 2020-11-10 2020-11-10 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Country Status (1)

Country Link
CN (1) CN112260733B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162666A (zh) * 2021-04-19 2021-07-23 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN115314086A (zh) * 2022-06-23 2022-11-08 厦门大学 通信感知一体化系统的预编码方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
US20190116560A1 (en) * 2017-10-13 2019-04-18 Intel Corporation Interference mitigation in ultra-dense wireless networks
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190116560A1 (en) * 2017-10-13 2019-04-18 Intel Corporation Interference mitigation in ultra-dense wireless networks
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109496318A (zh) * 2018-07-30 2019-03-19 东莞理工学院 基于深度强化学习的自适应博弈算法
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YASAR SINAN NASIR 等: "Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113162666A (zh) * 2021-04-19 2021-07-23 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113162666B (zh) * 2021-04-19 2022-04-26 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113452642B (zh) * 2021-06-25 2022-04-29 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN115314086A (zh) * 2022-06-23 2022-11-08 厦门大学 通信感知一体化系统的预编码方法、装置、介质及设备
CN115314086B (zh) * 2022-06-23 2023-11-03 厦门大学 通信感知一体化系统的预编码方法、装置、介质及设备

Also Published As

Publication number Publication date
CN112260733B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN111181619B (zh) 基于深度强化学习的毫米波混合波束成形设计方法
CN112260733B (zh) 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN111800828A (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111182582A (zh) 面向移动边缘计算的多任务分布式卸载方法
CN113222179A (zh) 一种基于模型稀疏化与权重量化的联邦学习模型压缩方法
WO2021036414A1 (zh) 一种低轨移动卫星星座下星地下行链路同频干扰预测方法
CN113411110A (zh) 一种基于深度强化学习的毫米波通信波束训练方法
CN113452642B (zh) 一种可重构智能表面增强的siso-ofdm下行传输方法
CN111224905B (zh) 一种大规模物联网中基于卷积残差网络的多用户检测方法
CN113193893B (zh) 毫米波大规模mimo智能混合波束成形设计方法
Nguyen et al. Leveraging deep neural networks for massive MIMO data detection
CN112492691A (zh) 一种深度确定性策略梯度的下行noma功率分配方法
Singh et al. Ising machines’ dynamics and regularization for near-optimal mimo detection
Cheng et al. Deep neural network aided low-complexity MPA receivers for uplink SCMA systems
Li et al. Communication-efficient decentralized zeroth-order method on heterogeneous data
CN113795050B (zh) 一种基于Sum Tree采样的深度双Q网络动态功率控制方法
Rahman et al. Deep learning based improved cascaded channel estimation and signal detection for reconfigurable intelligent surfaces-assisted MU-MISO systems
CN114204971A (zh) 一种迭代的聚合波束成形设计和用户设备选择方法
Rahmani et al. Deep reinforcement learning-based sum rate fairness trade-off for cell-free mMIMO
CN110278570A (zh) 一种基于人工智能的无线通信系统
CN107346985B (zh) 一种结合发射天线选择技术的干扰对齐方法
CN115103372A (zh) 一种基于深度强化学习的多用户mimo系统用户调度方法
CN114364034A (zh) 基于drl的ris辅助用户中心化去蜂窝系统中资源管理半并行方法
CN111541472B (zh) 低复杂度机器学习辅助鲁棒预编码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant