CN112260733A - 基于多智能体深度强化学习的mu-miso混合预编码设计方法 - Google Patents
基于多智能体深度强化学习的mu-miso混合预编码设计方法 Download PDFInfo
- Publication number
- CN112260733A CN112260733A CN202011243937.3A CN202011243937A CN112260733A CN 112260733 A CN112260733 A CN 112260733A CN 202011243937 A CN202011243937 A CN 202011243937A CN 112260733 A CN112260733 A CN 112260733A
- Authority
- CN
- China
- Prior art keywords
- network
- agent
- action
- evaluation
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0456—Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
Abstract
本发明公开了一种基于多智能体深度强化学习的MU‑MISO混合预编码设计方法,适用于通信中下行系统使用。该方法中基站构建多个用于计算模拟预编码矩阵的深度强化学习智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,各智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络,协同探索模拟预编码策略。该方法中基站获取多个用户的信道状态信息,将用户信道信息输入所构建的智能体,输出相应的模拟预编码矩阵;进而通过迫零预编码和注水算法计算包含各用户数字预编码向量的数字预编码矩阵。其能有效解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题,且对信道环境具有较强的鲁棒性。
Description
技术领域
本发明涉及一种MU-MISO混合预编码设计方法,尤其适用于通信中下行系统使用的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。
背景技术
大规模多输入多输出(MIMO)作为一种可以提高网络传输速率和能量效率的有效方法被视作新一代无线通信网络的关键技术之一。MIMO系统能充分利用空间资源,在不增加频谱资源和天线发射功率的情况下,成倍的提高系统容量。
然而,在实际应用中,大规模MIMO系统仍面临着诸多挑战。毫米波系统中波束成形矩阵的设计受到昂贵的射频硬件的约束。传统的全数字波束成形结构需要为每一根发射天线和接收天线配备一个射频链路用于模数转换和上下变频,天线数的增大使得基站侧所需射频链路数增大,带来系统成本的提高,尤其是射频硬件昂贵的毫米波混合预编码技术将全数字预编码拆分为高维的模拟预编码和低维的数字预编码,模拟预编码可由简单的相移器实现,数字预编码维数较低,仅使用很少的射频链路即可,可在一定程度上缓解这一问题。但现存混合预编码技术主要基于压缩感知技术和高发射信噪比的假设,将原始系统速率最大问题转化为矩阵间欧氏距离最小问题,导致局部最优解;且算法的时间复杂度较高,会引入较大的通信处理时延,因此需要有新的低复杂度和高性能混合波束成形算法来进一步解决这些问题。
现有针对低复杂度混合预编码算法的研究主要基于对矩阵求逆运算的简化、使用深度监督学习方法或使用单智能体深度强化学习方法。虽然应用这些方法之后时间复杂度有一定下降,但牺牲了一定的系统性能。深度监督学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感,对于穿透力弱,衰减快的毫米波信道来说,实际应用仍有困难。单智能体强化学习方法无需对环境建模,可自动追踪无线信道环境的变化,但单智能体强化学习处理复杂问题时存在探索效率低、浪费计算资源以及收敛性的问题。
发明内容
技术问题:针对上述技术的不足之处,提供一种解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题,并且对信道环境具有较强的鲁棒性的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。
技术方案:为实现上述技术目的,本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统;首先构建Y个用于计算模拟预编码矩阵FRF及数字预编码矩阵FD的深度强化学习的智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络;之后使用基站获取多个用户的信道状态信息,将基站获取的各个用户信道信息输入所构建的Y个智能体,各智能体i,i=1,…,Y分别学习其模拟预编码矩阵FRF,i并计算相应的数字预编码矩阵FD,i,利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为,利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索;各智能体学习收敛后,选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。
所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本,经验池的二叉树结构中的最底层叶节点存储六元组样本,每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态,其余各层节点只存储其子节点的优先级之和;各智能体的经验池根节点存储相应经验池中所有样本的优先级之和;
具体步骤如下:
步骤一、基站配置Nt根发射天线,服务K个单天线的用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y个由动作预测网络及容量为ND的带优先级的经验池构成的深度强化学习智能体用于分别学习模拟预编码矩阵及计算相应的数字预编码矩阵,一个评价网络用于协调多个智能体的行为,一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;令表示智能体i在迭代时刻t所输出的模拟预编码矩阵,则将随机正交初始化,即初始状态满足上标(·)H表示共轭转置,令t=t+1。
所述带优先级的经验池的容量ND表示该经验池所能存储的最底层叶节点数量上限为ND;
步骤二、在迭代时刻t,智能体i的当前时刻状态表达式为:
步骤三、智能体i用获得的基于迫零预编码算法计算得到当前时刻的数字预编码矩阵 其中 为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H,为智能体i计算得到的用户k的接收信号功率,表示取非负操作,为用户k的噪声功率,为辅助矩阵 的第k个对角元,为用于满足功率约束的辅助变量,Pt为发射端最大发射功率;
步骤五、智能体i将状态-动作对分别输入评价现实网络和奖励值预测现实网络中,评价现实网络和奖励值预测现实网络分别输出对的评价值和该状态-动作对的奖励值预测值基于和计算得到该状态-动作对的奖励值其中η∈[0,1]为预测值的折扣因子,计算状态-动作对的优先级其中0<δ<<1,将六元组作为一个样本存入智能体i的带优先级的经验池中,当经验池存满后,每次加入最新的六元组样本后排除最旧的六元组样本;
步骤六、对智能体i计算并从带优先级的经验池中基于样本优先级采样个六元组样本来对各智能体的动作预测网络、评价网络和奖励值预测网络进行参数更新,其中表示向下取整,M为总的采样数量;若或t>10M,则停止智能体i的迭代并进入步骤七,否则令t=t+1并转到步骤二;
所述带优先级的经验池按二叉树存储六元组样本,经验池的二叉树结构中的最底层叶节点存储六元组样本将最底层第n个叶节点记为假设即最底层第n个叶节点所存储的为智能体i在第tn个迭代时刻的六元组样本其余各层节点只存储其子节点的优先级之和a与b为某节点的子节点的序数;带优先级的经验池的根节点存储经验池中所有六元组样本的优先级之和为
所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的带优先级的经验池中第n个六元组样本被采样的概率然后按概率从带优先级的经验池中采样Mi个六元组样本,假设为即带优先级的经验池中第nm,m=1,…,Mi个六元组样本,则所有智能体共采样得到M个六元组样本;
b2)将M个六元组样本的状态-动作对分别输入评价目标网络得到各六元组样本状态-动作对相应的评价值估计值按照贝尔曼方程计算得到相应的评价值目标值其中γ∈(0,1)为奖励函数的折扣因子, 为由动作预测目标网络在状态下产生的动作;
b4)损失函数中同时涉及到智能体i的动作现实网络和评价现实网络的更新,记网络的参数为更新的目标是使得对于状态-动作对(s,a)评价现实网络的输出与其目标值y尽可能接近,奖励值预测现实网络的输出与尽可能接近,同时输出的动作的评价值尽量大,利用随机梯度下降对网络进行更新:
b5)每隔NT个迭代时隙,将各智能体的各现实网络的参数复制至相应的目标网络,即令 其中和分别表示智能体i的动作目标网络评价目标网络和奖励值预测目标网络的参数;每两次参数复制之间的每个迭代时隙则对智能体i的动作预测目标网络评价目标网络和奖励值预测目标网络的参数进行软更新,即以折扣因子1-τ部分保留目标网络中的参数,以折扣因子τ作为现实网络中参数的权重:
通过软更新,让各目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
所述Y个动作预测现实网络动作预测目标网络评价现实网络评价目标网络奖励值预测现实网络以及奖励值预测目标网络包含四个全连接层、三个ReLU激活层和一个tanh激活层,网络中的前三个全连接层采用ReLU激活函数,输出层采用tanh激活函数。
所述步骤六中的模型参数包括全连接层的权重、偏置。
有益效果:
1)本方法采用多智能体协同学习缩短了学习时间;增加了经验池中各经验值的优先级,同时增加了奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值,进一步加速了各智能体的探索;使得混合预编码矩阵的计算收敛速度快、易于实现,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;
2)本方法不针对具体信道模型,更具有一般性。
3)本方法采用系统可达速率作为奖励值,因此能使MU-MISO下行传输系统获得较高的系统和速率。
附图说明
图1是本发明方法利用多智能体深度强化学习为用户设计发射端混合预编码矩阵的流程图。
图2是本发明方法所涉及多智能体深度强化学习的改进的带优先级的经验池的示意图
具体实施方式
下面结合说明书附图对本发明作更进一步的说明:
如图1所示,本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法考虑一个MU-MISO下行链路,基站按如下步骤进行混合波束成形设计:
步骤一、基站配置Nt=64根发射天线,服务K=8个单天线用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y=2个由神经网络构成的深度强化学习智能体用于分别学习模拟预编码矩阵FRF,i及计算相应的数字预编码矩阵FD,i;一个评价网络用于协调各智能体的行为;一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;所有智能体的初始状态随机正交初始化,即初始状态满足令t=t+1。
所述评价网络包括状态动作评价现实网络输出当前的状态动作的价值函数;状态动作评价目标网络其参数复制自评价现实网络每隔NT=50个迭代时隙更新一次。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含256个神经元节点,输出层包含1个神经元节点,2个隐藏层各包含300和400个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
所述奖励值预测网络包括奖励值预测现实网络输出当前状态-动作对下奖励值的预测值;奖励值预测目标网络其参数复制自预测现实网络每隔NT=50个迭代时隙更新一次。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含128个神经元节点,输出层包含1个神经元节点,2个隐藏层各包含300和200个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
所述第i个深度强化学习智能体包括以下元素:动作输出现实网络根据来自当前迭代时刻的状态产生当前当前迭代时刻最优的动作;动作输出目标网络其参数复制自动作现实网络每隔NT个迭代时隙更新一次;容量为ND=2000的带优先级的经验池用于存储智能体学习过程中产生的样本。该网络由4层神经网络构成,包括1个输入层,2个隐藏层和1个输出层,其中输入层包含128个神经元节点,输出层包含128个神经元节点,2个隐藏层各包含300和150个神经元节点,前3层网络使用非线性激活函数ReLU作为激活函数,输出层的激活层使用tanh函数。
步骤二、在迭代时刻t,智能体i的当前时刻状态
步骤三、智能体i用获得的基于迫零预编码算法计算得到当前时刻的数字预编码矩阵 其中 为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H,为智能体i计算得到的用户k的接收信号功率,表示取非负操作,为用户k的噪声功率,为辅助矩阵 的第k个对角元,为用于满足功率约束的辅助变量,Pt为发射端最大发射功率;
步骤五、智能体i将状态-动作对分别输入评价现实网络和预测现实网络中,和分别输出对的评价值和当前迭代时刻奖励预测值基于和计算得到当前时刻的奖励值其中η∈[0,1]为预测值的折扣因子,计算当前时刻状态动作对的优先级其中0<δ<<1,将六元组作为第n个样本存入带优先级的经验池中,当经验池存满后,每次加入最新的样本,去掉最旧的样本;
所述带优先级的经验池按二叉树存储样本,如图2所示,经验池二叉树中的最底层叶节点存储六元组其余各层节点只存储其子节点的优先级之和a与b为某节点的子节点的下标;经验池的根节点存储经验池中所有样本的优先级之和
步骤六、智能体i更新其优先级并从经验池中基于样本优先级采样批尺寸来计算评价网络的目标值,表示向下取整,M=64为总的采样数量;然后对动作网络、评价网络和奖励值预测网络进行梯度下降更新,并对动作目标网络、评价目标网络和预测目标网络进行软更新。令t=t+1,若或t>10M,则停止智能体i的迭代,否则转到步骤二。
所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的经验池中第n个样本的被采样概率然后按概率从经验池中采样Mi个样本,则所有智能体共采样得到M个样本d={d1,d2,…,dM},其中第m个样本 为经验池中存储的样本六元组;
b4)损失函数中同时涉及到智能体i的动作现实网络和中心化的评价现实网络的更新,记网络的参数为更新的目标是使得评价现实网络的输出与目标值y尽可能接近,预测现实网络的输出与尽可能接近,同时输出的动作的Q值尽量大,利用随机梯度下降对网络进行更新:
综上,本发明在运行时间复杂度和系统性能上均超过传统的MU-MISO系统混合预编码设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的混合预编码矩阵,特别对于快速时变信道有很强的鲁棒性,在有限的资源开销下,实现较高的系统和速率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统;首先构建Y个用于计算模拟预编码矩阵FRF及数字预编码矩阵FD的深度强化学习的智能体,每个智能体包含一个动作预测网络及一个带优先级的经验池,所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络;之后使用基站获取多个用户的信道状态信息,将基站获取的各个用户信道信息输入所构建的Y个智能体,各智能体i,i=1,…,Y分别学习其模拟预编码矩阵FRF,i并计算相应的数字预编码矩阵FD,i,利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为,利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索;各智能体学习收敛后,选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。
2.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本,经验池的二叉树结构中的最底层叶节点存储六元组样本,每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态,其余各层节点只存储其子节点的优先级之和;各智能体的经验池根节点存储相应经验池中所有样本的优先级之和。
3.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于具体步骤如下:
步骤一、基站配置Nt根发射天线,服务K个单天线的用户;基站已知其与各用户k间的信道矩阵hk;令t=0;初始化Y个由动作预测网络及容量为ND的带优先级的经验池构成的深度强化学习智能体用于分别学习模拟预编码矩阵及计算相应的数字预编码矩阵,一个评价网络用于协调多个智能体的行为,一个奖励值预测网络用于加速各智能体的探索;评价网络和奖励值预测网络由Y个智能体共享;令表示智能体i在迭代时刻t所输出的模拟预编码矩阵,则将随机正交初始化,即初始状态满足上标(·)H表示共轭转置,令t=t+1。
所述带优先级的经验池的容量ND表示该经验池所能存储的最底层叶节点数量上限为ND;
步骤二、在迭代时刻t,智能体i的当前时刻状态表达式为:
步骤三、智能体i用获得的基于迫零预编码算法计算得到当前时刻的数字预编码矩阵 其中 为智能体i于迭代时刻t计算出的用户k数字预编码矢量,H=[h1,…,hK]H,为智能体i计算得到的用户k的接收信号功率,表示取非负操作,为用户k的噪声功率,为辅助矩阵 的第k个对角元,为用于满足功率约束的辅助变量,Pt为发射端最大发射功率;
步骤五、智能体i将状态-动作对分别输入评价现实网络和奖励值预测现实网络中,评价现实网络和奖励值预测现实网络分别输出对的评价值和该状态-动作对的奖励值预测值基于和计算得到该状态-动作对的奖励值其中η∈[0,1]为预测值的折扣因子,计算状态-动作对的优先级其中0<δ<<1,将六元组作为一个样本存入智能体i的带优先级的经验池中,当经验池存满后,每次加入最新的六元组样本后排除最旧的六元组样本;
步骤六、对智能体i计算并从带优先级的经验池中基于样本优先级采样个六元组样本来对各智能体的动作预测网络、评价网络和奖励值预测网络进行参数更新,其中表示向下取整,M为总的采样数量;若或t>10M,则停止智能体i的迭代并进入步骤七,否则令t=t+1并转到步骤二;
5.根据权利要求3所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于所述基于样本优先级采样与网络更新方法按如下步骤进行:
b1)在迭代时刻t,计算智能体i的带优先级的经验池中第n个六元组样本被采样的概率然后按概率从带优先级的经验池中采样Mi个六元组样本,假设为即带优先级的经验池中第nm,m=1,…,Mi个六元组样本,则所有智能体共采样得到M个六元组样本;
b2)将M个六元组样本的状态-动作对分别输入评价目标网络得到各六元组样本状态-动作对相应的评价值估计值按照贝尔曼方程计算得到相应的评价值目标值其中γ∈(0,1)为奖励函数的折扣因子, 为由动作预测目标网络在状态下产生的动作;
b4)损失函数中同时涉及到智能体i的动作现实网络和评价现实网络的更新,记网络的参数为更新的目标是使得对于状态-动作对(s,a)评价现实网络的输出与其目标值y尽可能接近,奖励值预测现实网络的输出与尽可能接近,同时输出的动作的评价值尽量大,利用随机梯度下降对网络进行更新:
b5)每隔NT个迭代时隙,将各智能体的各现实网络的参数复制至相应的目标网络,即令 其中和分别表示智能体i的动作目标网络评价目标网络和奖励值预测目标网络的参数;每两次参数复制之间的每个迭代时隙则对智能体i的动作预测目标网络评价目标网络和奖励值预测目标网络的参数进行软更新,即以折扣因子1-τ部分保留目标网络中的参数,以折扣因子τ作为现实网络中参数的权重:
通过软更新,让各目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
7.根据权利要求3所述基于基于多智能体深度强化学习的MU-MISO混合预编码设计方法,其特征在于:所述步骤六中的模型参数包括全连接层的权重、偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011243937.3A CN112260733B (zh) | 2020-11-10 | 2020-11-10 | 基于多智能体深度强化学习的mu-miso混合预编码设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011243937.3A CN112260733B (zh) | 2020-11-10 | 2020-11-10 | 基于多智能体深度强化学习的mu-miso混合预编码设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112260733A true CN112260733A (zh) | 2021-01-22 |
CN112260733B CN112260733B (zh) | 2022-02-01 |
Family
ID=74266738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011243937.3A Active CN112260733B (zh) | 2020-11-10 | 2020-11-10 | 基于多智能体深度强化学习的mu-miso混合预编码设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112260733B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113162666A (zh) * | 2021-04-19 | 2021-07-23 | 北京科技大学 | 一种面向智慧钢铁的大规模mimo混合预编码方法及装置 |
CN113452642A (zh) * | 2021-06-25 | 2021-09-28 | 东南大学 | 一种可重构智能表面增强的siso-ofdm下行传输方法 |
CN115314086A (zh) * | 2022-06-23 | 2022-11-08 | 厦门大学 | 通信感知一体化系统的预编码方法、装置、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN109496318A (zh) * | 2018-07-30 | 2019-03-19 | 东莞理工学院 | 基于深度强化学习的自适应博弈算法 |
US20190116560A1 (en) * | 2017-10-13 | 2019-04-18 | Intel Corporation | Interference mitigation in ultra-dense wireless networks |
CN111181619A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 基于深度强化学习的毫米波混合波束成形设计方法 |
CN111181618A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 一种基于深度强化学习的智能反射表面相位优化方法 |
-
2020
- 2020-11-10 CN CN202011243937.3A patent/CN112260733B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190116560A1 (en) * | 2017-10-13 | 2019-04-18 | Intel Corporation | Interference mitigation in ultra-dense wireless networks |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN109496318A (zh) * | 2018-07-30 | 2019-03-19 | 东莞理工学院 | 基于深度强化学习的自适应博弈算法 |
CN111181619A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 基于深度强化学习的毫米波混合波束成形设计方法 |
CN111181618A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 一种基于深度强化学习的智能反射表面相位优化方法 |
Non-Patent Citations (1)
Title |
---|
YASAR SINAN NASIR 等: "Multi-Agent Deep Reinforcement Learning for Dynamic Power Allocation in Wireless Networks", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113162666A (zh) * | 2021-04-19 | 2021-07-23 | 北京科技大学 | 一种面向智慧钢铁的大规模mimo混合预编码方法及装置 |
CN113162666B (zh) * | 2021-04-19 | 2022-04-26 | 北京科技大学 | 一种面向智慧钢铁的大规模mimo混合预编码方法及装置 |
CN113452642A (zh) * | 2021-06-25 | 2021-09-28 | 东南大学 | 一种可重构智能表面增强的siso-ofdm下行传输方法 |
CN113452642B (zh) * | 2021-06-25 | 2022-04-29 | 东南大学 | 一种可重构智能表面增强的siso-ofdm下行传输方法 |
CN115314086A (zh) * | 2022-06-23 | 2022-11-08 | 厦门大学 | 通信感知一体化系统的预编码方法、装置、介质及设备 |
CN115314086B (zh) * | 2022-06-23 | 2023-11-03 | 厦门大学 | 通信感知一体化系统的预编码方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112260733B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111181619B (zh) | 基于深度强化学习的毫米波混合波束成形设计方法 | |
CN112260733B (zh) | 基于多智能体深度强化学习的mu-miso混合预编码设计方法 | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN111800828A (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111182582A (zh) | 面向移动边缘计算的多任务分布式卸载方法 | |
CN113222179A (zh) | 一种基于模型稀疏化与权重量化的联邦学习模型压缩方法 | |
WO2021036414A1 (zh) | 一种低轨移动卫星星座下星地下行链路同频干扰预测方法 | |
CN113411110A (zh) | 一种基于深度强化学习的毫米波通信波束训练方法 | |
CN113452642B (zh) | 一种可重构智能表面增强的siso-ofdm下行传输方法 | |
CN111224905B (zh) | 一种大规模物联网中基于卷积残差网络的多用户检测方法 | |
CN113193893B (zh) | 毫米波大规模mimo智能混合波束成形设计方法 | |
Nguyen et al. | Leveraging deep neural networks for massive MIMO data detection | |
CN112492691A (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
Singh et al. | Ising machines’ dynamics and regularization for near-optimal mimo detection | |
Cheng et al. | Deep neural network aided low-complexity MPA receivers for uplink SCMA systems | |
Li et al. | Communication-efficient decentralized zeroth-order method on heterogeneous data | |
CN113795050B (zh) | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 | |
Rahman et al. | Deep learning based improved cascaded channel estimation and signal detection for reconfigurable intelligent surfaces-assisted MU-MISO systems | |
CN114204971A (zh) | 一种迭代的聚合波束成形设计和用户设备选择方法 | |
Rahmani et al. | Deep reinforcement learning-based sum rate fairness trade-off for cell-free mMIMO | |
CN110278570A (zh) | 一种基于人工智能的无线通信系统 | |
CN107346985B (zh) | 一种结合发射天线选择技术的干扰对齐方法 | |
CN115103372A (zh) | 一种基于深度强化学习的多用户mimo系统用户调度方法 | |
CN114364034A (zh) | 基于drl的ris辅助用户中心化去蜂窝系统中资源管理半并行方法 | |
CN111541472B (zh) | 低复杂度机器学习辅助鲁棒预编码方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |