CN111181618A - 一种基于深度强化学习的智能反射表面相位优化方法 - Google Patents

一种基于深度强化学习的智能反射表面相位优化方法 Download PDF

Info

Publication number
CN111181618A
CN111181618A CN202010004455.6A CN202010004455A CN111181618A CN 111181618 A CN111181618 A CN 111181618A CN 202010004455 A CN202010004455 A CN 202010004455A CN 111181618 A CN111181618 A CN 111181618A
Authority
CN
China
Prior art keywords
network
action
intelligent
evaluation
reflection surface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010004455.6A
Other languages
English (en)
Other versions
CN111181618B (zh
Inventor
李潇
冯轲铭
金石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010004455.6A priority Critical patent/CN111181618B/zh
Publication of CN111181618A publication Critical patent/CN111181618A/zh
Application granted granted Critical
Publication of CN111181618B publication Critical patent/CN111181618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/04013Intelligent reflective surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的智能反射表面相位优化方法,包含如下步骤:初始化智能反射表面(智能体)中的动作网络、评价网络、智能反射表面相位偏置矩阵以及经验池;根据用户信道状态信息,获取智能体初始状态;通过智能反射表面与无线通信系统的交互存储经验池;从经验池中随机采样对动作网络、评价网络进行训练使得评价网络输出的评价值达到最大,进而获得收敛之后的网络模型参数;输出在该信道状态信息下使得用户接收信噪比最大化的智能反射表面最优相位偏置矩阵系数。本发明可以有效减少优化相位偏置矩阵所需时间、训练样本存储空间,具有较好的鲁棒性。

Description

一种基于深度强化学习的智能反射表面相位优化方法
技术领域
本发明涉及通信技术领域,特别是涉及一种基于深度强化学习的智能反射表面相位优化方法。
背景技术
近年来,多项5G关键技术的诞生,使得无线通信系统频谱效率及容量显著提升。但是,在实际部署过程中,仍面临过高的能耗,硬件实现复杂度及信号处理算法复杂度等实际问题。随着射频微机电系统及超材料的发展,使得低能耗且能适应时变无线通信系统的智能反射表面(Intelligent Reflecting Surface,IRS)的应用成为可能。IRS一般由大量无源的印刷偶极子天线单元构成,每一根无源天线可以对入射信号动态产生独立的相位偏置。与传统的前向中继放大技术(amplify-and-forward rely,AF)不同的是,智能反射表面在信号传输过程中仅仅反射信号而不产生新的信号,从而在不引入额外功率的前提下增大用户的接收信噪比。
为了解决相位优化问题,已经有学者提出使用半定松弛(semidefiniterelaxation,SDR)算法进行求解,但带来过高的计算复杂度,不适用于配置大规模阵列的IRS。还有学者提出使用深度学习进行相位偏置设计,但是前提为获取大量的训练样本及对应标签。然而在实际情况中,训练样本需大量的存储空间且标签的获取几乎是不可能的,因此也不实用。
强化学习,又名增强学习,主要基于两种策略优化思路:基于价值和基于策略。基于价值的算法多适用于处理离散的动作空间,基于策略的算法多用于处理连续的动作空间。二者均采用迭代的方式最终获取最大化长期奖励的最优策略;深度神经网络在通信领域已取得了显著的成就,通过神经网络可以处理高维状态空间避免维度爆炸。将神经网络与强化学习算法相结合的深度强化学习,具有高维拟合、在线学习的特性,无需大量训练样本以及标签,在大部分复杂控制系统中具有广泛的应用。
发明内容
本发明的目的是为了解决SDR算法的高计算复杂度以及深度学习的样本获取问题,本发明为基站使用大规模均匀线性天线阵的下行传输系统提供一种基于深度强化学习的智能反射表面优化方法,所提出的算法可以根据经验池中的样本在线训练网络模型,节省样本存储空间及相位优化时间。
为了达到上述目的,本发明采用的方法是:一种基于深度强化学习的智能反射表面相位优化方法,包括以下步骤:
步骤1、无线通信系统中基站配置均匀线性天线阵,该天线阵包括M个天线阵元,智能反射表面配置均匀平面反射单元,包括垂直方向Ny行反射单元,水平方向每行Nx个反射单元,用户配置单根接收天线;基站及反射单元已知用户信道状态信息;
所述信道状态信息包括:基站到用户信道矢量
Figure BDA0002354726410000021
基站到智能反射表面的信道矩阵
Figure BDA0002354726410000022
和智能反射表面到用户的信道矢量
Figure BDA0002354726410000023
hd中的第m个元素[hd]m为基站第m个天线单元与用户间的信道系数;hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数;G中的第m行第n列元素[G]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数。
步骤2、构建智能体的经验池及深度强化学习神经网络,包括:动作估计网络、动作现实网络、评价估计网络和评价现实网络;所述动作估计网络和动作现实网络构成智能反射表面的动作网络,所述评价估计网络和评价现实网络构成智能反射表面的评价网络;所述智能体以智能反射表面的相位偏置所构成的矢量为动作,以用户的接收信噪比为奖励,以动作和奖励构成的矢量为状态;上述各部分网络功能说明如下:
所述动作估计网络负责根据智能反射表面当前状态s选择当前动作a=μ(s;θμ)用于与无线通信系统交互生成下一状态s′以及奖励r,其中,μ(·)代表动作估计网络函数,θμ为其网络参数。
所述动作现实网络负责根据经验池中采样样本中的下一状态s′选择下一个动作a′=μ′(s′;θμ′),其中μ′(·)为动作现实网络函数,θμ′为其网络参数。
所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数Q′(s′,a′;θq′),其中θq′为其网络参数。
所述评价估计网络负责计算当前动作价值函数Q(s,a;θq)和目标Q值y=r+Q′(s′,a′;θq′),其中θq为评价估计网络参数。
步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq,并令动作现实网络及评价现实网络初始化参数满足θq′=θq、θμ′=θμ;设置经验池容量D,单次随机采样数量NB
步骤4、对步骤2中构建的深度强化学习神经网络进行训练,得到训练完毕的动作网络及评价网络参数用于最优智能反射表面相位偏置矩阵生成。具体包括以下子步骤:
a1)设置初始时刻t=1;随机生成包含N=NxNy个元素的时刻t-1智能反射表面相位偏置角矢量
Figure BDA0002354726410000031
其元素均从[0,2π]中随机选取,生成时刻t-1的角度偏置矩阵
Figure BDA0002354726410000032
其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和智能反射表面角度偏置矩阵Φ(t-1)计算时刻t-1用户的接收信噪比
Figure BDA0002354726410000033
其中
Figure BDA0002354726410000034
为时刻t-1基站的波束赋形矢量,Pmax为基站发射功率,(·)H代表共轭转置,|·|表示取绝对值,σ2为用户接收噪声功率。设置时刻t状态
Figure BDA0002354726410000035
a2)将时刻t的状态st作为动作网络输入得到时刻t的动作
Figure BDA0002354726410000036
其中
Figure BDA0002354726410000037
为探索噪声;之后将当前动作at中元素整合为时刻t智能反射表面相位偏置矩阵
Figure BDA0002354726410000038
并根据步骤a1)所述方法计算时刻t的用户接收信噪比γ(t)作为时刻t的奖励rt;得到时刻t+1的状态
Figure BDA0002354726410000039
将经验样本(st,at,rt,st+1)存入经验池中。
a3)若经验池中的记录数量小于取样数量NB,则令t=t+1进入步骤a2);若经验池中的样本数目大于等于取样数量NB则进入a4);若经验池中的样本数达到容量上限时,则新增加的经验样本覆盖经验池中最早的一条记录,然后进入a4);
a4)从经验池中随机采样NB个样本,将第j,j=1,…,NB个样本
Figure BDA0002354726410000041
中的下一个状态
Figure BDA0002354726410000042
输入动作目标网络得到对应于下一个状态的最优动作
Figure BDA0002354726410000043
Figure BDA0002354726410000044
Figure BDA0002354726410000045
构成新的矢量
Figure BDA0002354726410000046
作为评价现实网络的输入用于计算目标Q值,其中tj为第j个样本
Figure BDA0002354726410000047
中第一个元素所对应的时刻。将样本中的
Figure BDA0002354726410000048
Figure BDA0002354726410000049
构成新的矢量
Figure BDA00023547264100000410
作为评价估计网络的输入用于计算Q值。利用随机梯度下降更新动作估计网络参数,利用策略梯度更新评价估计网络参数,利用软更新更新动作、评价现实网络参数。若网络收敛则进入步骤5,否则进入步骤a2);
步骤5、得到收敛之后的网络模型参数,输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵Φopt
进一步地,作为本发明的一种优选技术方案:所述步骤2中构建的深度强化学习神经网络模型均包含一个输入层、两个隐藏层以及一个输出层。所述动作估计网络和动作现实网络使用同样的网络结构;所述评价估计网络和评价目标网络使用同样的网络结构。
进一步地,作为本发明的一种优选技术方案:所述步骤4中用于动作探索的噪声为服从均值为0方差为0.1的加性复高斯噪声;用于网络参数更新的目标Q值使用Bellman方程计算,其具体表达式为:
Figure BDA00023547264100000411
其中λ<1为折扣因子。
进一步地,作为本发明的一种优选技术方案:所述步骤4中动作估计网络采用随机梯度下降的方法更新网络参数,其具体的均方误差损失函数为:
Figure BDA00023547264100000412
则新的动作估计网络参数为:
Figure BDA00023547264100000413
其中α为学习率,▽x表示对变量x求偏导;所述步骤4中评价估计网络采用策略梯度的方法跟新网络参数,其具体的策略梯度增益为:
Figure BDA0002354726410000051
则新的评价估计网络参数为:
Figure BDA0002354726410000052
所述步骤4中动作、评价目标网络采用软更新的方法更新网络参数,其具体表达式为:
θμ′=τθμ+(1-τ)θμ′
θq′=τθq+(1-τ)θq′
其中τ<<1为软更新系数。
本发明涉及一种基于深度强化学习的智能反射表面相位优化方法,有益效果如下:
1、本发明无需大量训练样本,实现复杂度低,适用于各种典型的无线通信环境;
2、本发明融合了深度Q网络以及策略梯度的优势,能够有效地处理高维状态空间以及连续动作空间;
3、本发明训练过程更加稳定,收敛性更好。
附图说明
图1是本发明方法在线训练智能体的流程图。
图2是本发明智能体中动作网络和评价网络的网络结构图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
如图1所示,本发明公开了一种基于深度强化学习的智能反射表面相位优化方法,该方法具体包括以下步骤:
步骤1、无线通信系统中基站配置均匀线性天线阵,该天线阵包括M个天线阵元,智能反射表面配置均匀平面反射单元,包括垂直方向Ny行反射单元,水平方向每行Nx个反射单元,用户配置单根接收天线;基站及反射单元已知用户信道状态信息;
所述信道状态信息包括:基站到用户信道矢量
Figure BDA0002354726410000053
基站到智能反射表面的信道矩阵
Figure BDA0002354726410000054
和智能反射表面到用户的信道矢量
Figure BDA0002354726410000055
hd中的第m个元素[hd]m为基站第m个天线单元与用户间的信道系数;hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数;G中的第m行第n列元素[G]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数。
步骤2、构建智能体的经验池及深度强化学习神经网络,包括:动作估计网络、动作现实网络、评价估计网络和评价现实网络;所述动作估计网络和动作现实网络构成智能反射表面的动作网络,所述评价估计网络和评价现实网络构成智能反射表面的评价网络;如图2所示:网络包含一个输入层,两个隐藏层(全连接层)及一个输出层,前三层后接ReLU激活函数,输出层后接tanh激活函数;所述评价网络结构与动作网络相同,但输出层后不接tanh函数;所述智能体以智能反射表面引入的相位偏置所构成的矢量为动作,以用户的接收信噪比为奖励,以动作和奖励构成的矢量为状态,上述各部分网络功能说明如下:
所述动作估计网络负责根据智能反射表面当前状态s选择当前动作a=μ(s;θμ)用于与无线通信系统交互生成下一状态s′以及奖励r,其中,μ(·)代表动作估计网络函数,θμ为其网络参数。
所述动作现实网络负责根据经验池中采样样本中的下一状态s′选择下一个动作a′=μ′(s′;θμ′),其中μ′(·)为动作现实网络函数,θμ′为其网络参数。
所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数Q′(s′,a′;θq′),其中θq′为其网络参数。
所述评价估计网络负责计算当前动作价值函数Q(s,a;θq)和目标Q值y=r+Q′(s′,a′;θq′),其中θq为评价估计网络参数。
步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq,并令动作现实网络及评价现实网络初始化参数满足θq′=θq、θμ′=θμ;设置经验池容量D,单次随机采样数量NB
步骤4、对步骤2中构建的深度强化学习神经网络进行训练,得到训练完毕的动作网络及评价网络参数用于最优智能反射表面相位偏置矩阵生成。具体包括以下子步骤:
a1)设置初始时刻t=1;随机生成包含N=NxNy个元素的时刻t-1智能反射表面相位偏置角矢量
Figure BDA0002354726410000071
其元素均从[0,2π]中随机选取,生成时刻t-1的角度偏置矩阵
Figure BDA0002354726410000072
其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和的智能反射表面的角度偏置矩阵Φ(t-1)计算时刻t-1用户的接收信噪比
Figure BDA0002354726410000073
其中
Figure BDA0002354726410000074
为时刻t-1基站的波束赋形矢量,Pmax为基站发射功率,(·)H代表共轭转置,|·|表示取绝对值,σ2为用户接收噪声功率。设置时刻t状态
Figure BDA0002354726410000075
a2)将时刻t的状态st作为动作网络输入得到时刻t的动作
Figure BDA0002354726410000076
其中
Figure BDA0002354726410000077
为探索噪声;之后将当前动作at中元素整合为时刻t智能反射表面相位偏置矩阵
Figure BDA0002354726410000078
并根据步骤a1)所述方法计算时刻t的用户接收信噪比γ(t)作为时刻t的奖励rt;得到时刻t+1的状态
Figure BDA0002354726410000079
将经验样本(st,at,rt,st+1)存入经验池中。
a3)若经验池中的记录数量小于取样数量NB,则令t=t+1进入步骤a2);若经验池中的样本数目大于等于取样数量NB则进入a4),对当前神经网络进行训练;若经验池中的样本数达到容量上限时,则新增加的经验样本覆盖经验池中最早的一条记录,然后进入a4);
a4)从经验池中随机采样NB个样本,将第j,j=1,…,NB个样本
Figure BDA00023547264100000710
中的下一个状态
Figure BDA00023547264100000711
输入动作目标网络得到对应于下一个状态的最优动作
Figure BDA00023547264100000712
Figure BDA00023547264100000713
Figure BDA00023547264100000714
构成新的矢量
Figure BDA00023547264100000715
作为评价现实网络的输入用于计算目标Q值,其中tj为第j个样本
Figure BDA00023547264100000716
中第一个元素所对应的时刻。目标Q值使用Bellman方程计算,其具体表达式为:
Figure BDA0002354726410000081
其中λ<1为折扣因子。将样本中的
Figure BDA0002354726410000082
Figure BDA0002354726410000083
构成新的矢量
Figure BDA0002354726410000084
作为评价估计网络的输入用于计算Q值。利用随机梯度下降更新动作估计网络参数,其均方误差损失函数表达式为:
Figure BDA0002354726410000085
则新的动作估计网络参数为:θ′q=θq-α▽L(θq),其中α为学习率,▽x表示对变量x求偏导;利用策略梯度更新评价估计网络参数,其具体的策略上升增益为:
Figure BDA0002354726410000086
则新的评价估计网络参数为:
Figure BDA0002354726410000087
利用软更新更新动作、评价目标网络参数:
θμ′=τθμ+(1-τ)θμ′
θq′=τθq+(1-τ)θq′
其中τ<<1为软更新系数。当网络收敛则进入步骤5,否则进入步骤a2);
步骤5、得到收敛之后的网络模型参数,输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵Φopt
为了验证本发明方法可在不需要大量训练样本的前提下减少优化时间,提升用户接收信噪比,特列举一个验证例进行说明。
本验证例是一种基于深度强化学习的智能反射表面相位优化方法,解决深度学习需要提前获取并存储大量训练样本及传统SDR算法复杂度较高的问题,所提出的深度强化学习算法可以根据经验池中的样本在线学习,优化IRS的相位偏置矩阵,增大用户接收信噪比。具体包括如下步骤:
步骤1、考虑一个IRS辅助的单用户下行多输入单输出(multiple-input-single-output,MISO)无线通信系统。系统中基站配置均匀线性天线阵,该天线阵包括M=10个天线阵元,智能反射表面配置均匀平面反射单元,包括垂直方向Ny=5行反射单元,水平方向每行Nx=10个反射单元,相邻反射单元间距均为载波半波长,用户配置单根接收天线;基站及反射单元已知用户信道状态信息,基站总发射功率为Pmax=5dBm,用户接收噪声功率为σ2=-75dBm;
所述信道状态信息包括:基站到用户的信道矢量hd、基站到智能反射表面的信道矩阵G和智能反射表面到用户的信道矢量hr,列矢量hd中的第m个元素[hd]m为基站端第m个天线单元与用户间的信道系数;列矢量hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数;矩阵G中的第m行第n列元素[G]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数。
步骤2、构建智能体的经验池及深度强化学习神经网络,包括:动作估计网络、动作现实网络、评价估计网络和评价现实网络;所述动作估计网络和动作现实网络构成智能反射表面的动作网络,所述评价估计网络和评价现实网络构成智能反射表面的评价网络;所述动作网络的输入层包含51个神经元,两个隐藏层分别包含300、200个神经元,输出层包含50个神经元。所述评价网络输入层包含101个神经元,两个隐藏层的神经元数与动作网络一致,输出层包含1个神经元;所述智能体以智能反射表面引入的相位偏置所构成的矢量为动作,以用户的接收信噪比为奖励,以动作和奖励构成的矢量为状态,上述各部分网络功能说明如下:
所述动作估计网络负责根据智能反射表面当前状态s选择当前动作a=μ(s;θμ)用于与无线通信系统交互生成下一状态s′以及奖励r,其中,μ(·)代表动作估计网络函数,θμ为其网络参数。
所述动作现实网络负责根据经验池中采样样本中的下一状态s′选择下一个动作a′=μ′(s′;θμ′),其中μ′(·)为动作现实网络函数,θμ′为其网络参数。
所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数Q′(s′,a′;θq′),其中θq′为其网络参数。
所述评价估计网络负责计算当前动作价值函数Q(s,a;θq)和目标Q值y=r+Q′(s′,a′;θq′),其中θq为评价估计网络参数。
步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq,并令动作现实网络及评价现实网络初始化参数满足θq′=θq、θμ′=θμ;设置经验池容量D=50000,单次随机采样数量NB=16。
步骤4、对步骤2中构建的深度强化学习神经网络进行训练,得到训练完毕的动作网络及评价网络参数用于最优智能反射表面相位偏置矩阵生成。具体包括以下子步骤:
设置初始时刻t=1;随机生成包含N=NxNy=10×5=50个元素的时刻t-1智能反射表面相位偏置角矢量
Figure BDA0002354726410000101
其元素均从[0,2π]中随机选取,生成时刻0的角度偏置矩阵
Figure BDA0002354726410000102
其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和时刻0的智能反射表面角度偏置矩阵Φ(0)计算用户初始接收信噪比
Figure BDA0002354726410000103
其中
Figure BDA0002354726410000104
为时刻0基站的波束赋形矢量,其中(·)H代表共轭转置,|·|表示取绝对值。设置时刻0的状态
Figure BDA0002354726410000105
a2)将时刻t的状态st作为动作网络输入得到时刻t的动作
Figure BDA0002354726410000106
其中
Figure BDA0002354726410000107
为探索噪声;之后将当前动作at中元素整合为时刻t智能反射表面相位偏置矩阵
Figure BDA0002354726410000108
并根据步骤a1)所述方法计算时刻t的用户接收信噪比γ(t)作为时刻t的奖励rt;得到时刻t+1的状态
Figure BDA0002354726410000109
将经验样本(st,at,rt,st+1)存入经验池中。
a3)若经验池中的经验样本数量小于16,则令t=t+1进入步骤a2);若经验池中的经验样本数大于等于16则进入a4),对当前神经网络进行训练;若经验池中的样本数达到容量上限时,则新增加的经验样本覆盖经验池中最早的一条记录,然后进入a4);
a4)根据随机采样的16个样本,将第j,j=1,…,16个样本
Figure BDA00023547264100001010
中的下一个状态
Figure BDA00023547264100001011
输入动作目标网络得到对应于下一个状态的最优动作
Figure BDA00023547264100001012
Figure BDA0002354726410000111
Figure BDA0002354726410000112
构成新的矢量
Figure BDA0002354726410000113
作为评价现实网络的输入用于计算目标Q值。其中目标Q值使用Bellman方程计算,令折扣因子λ=0.95其具体表达式为:
Figure BDA0002354726410000114
将样本中的
Figure BDA0002354726410000115
Figure BDA0002354726410000116
构成新的矢量
Figure BDA0002354726410000117
作为评价估计网络的输入用于计算Q值。利用随机梯度下降更新动作估计网络参数,其均方误差损失函数表达式为:
Figure BDA0002354726410000118
令学习率α=0.001,则新的动作估计网络参数为:
Figure BDA0002354726410000119
x表示对变量x求偏导;利用策略梯度更新评价估计网络参数,其具体的策略上升增益为:
Figure BDA00023547264100001110
则新的评价估计网络参数为:
Figure BDA00023547264100001111
利用软更新更新动作、评价目标网络参数,令软更新系数τ=0.005:
θμ′=0.005θμ+(1-0.005)θμ′
θq′=0.005θq+(1-0.005)θq′
当网络收敛则进入步骤5,否则进入步骤a2);
步骤5、得到收敛之后的网络模型参数,输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵Φopt
综上,所提出的基于深度强化学习的智能反射表面方法可以通过对经验池中的样本随机采样训练网络模型,相比于深度学习不需要大量训练样本,相比传统的高复杂度SDR算法节省了大量计算时间,该方法能够适应于不同信道环境以及智能反射表面反射单元数的变化,具有推广性。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种基于深度强化学习的智能反射表面相位优化方法,其特征在于,包括以下步骤:
步骤1、基站配置均匀线性天线阵,该天线阵包括M个天线阵元,智能反射表面配置均匀平面反射单元,包括垂直方向Ny行反射单元,水平方向每行Nx个反射单元,用户配置单根接收天线;基站及反射单元已知用户的信道状态信息;
所述信道状态信息包括:基站到用户信道矢量
Figure FDA0002354726400000011
基站到智能反射表面的信道矩阵
Figure FDA0002354726400000012
和智能反射表面到用户的信道矢量
Figure FDA0002354726400000013
hd中的第m个元素[hd]m为基站端第m个天线单元与用户间的信道系数;hr中的第n个元素[hr]n为智能反射表面的第n个反射单元与用户间的信道系数;G中的第m行第n列元素[G]m,n为智能反射表面的第m个反射单元与基站第n个天线单元之间的信道系数;
步骤2、构建智能体的经验池及深度强化学习神经网络,包括:动作估计网络、动作现实网络、评价估计网络和评价现实网络;所述动作估计网络和动作现实网络构成智能反射表面的动作网络,所述评价估计网络和评价现实网络构成智能反射表面的评价网络;所述智能体以智能反射表面的相位偏置所构成的矢量为动作,以用户的接收信噪比为奖励,以动作和奖励构成的矢量为状态;上述各部分网络功能如下:
所述动作估计网络负责根据智能反射表面当前状态s选择当前动作a=μ(s;θμ)用于与无线通信系统交互生成下一状态s′以及奖励r,其中,μ(·)代表动作估计网络函数,θμ为其网络参数;
所述动作现实网络负责根据经验池中采样样本中的下一状态s′选择下一个动作a′=μ′(s′;θμ′),其中μ′(·)为动作现实网络函数,θμ′为其网络参数;
所述评价现实网络负责根据状态s′及动作a′计算下一状态的动作价值函数Q′(s′,a′;θq′),其中θq′为其网络参数;
所述评价估计网络负责计算当前动作价值函数Q(s,a;θq)和目标Q值y=r+Q′(s′,a′;θq′),其中θq为评价估计网络参数;
步骤3、随机初始化动作估计网络参数θμ及动作现实网络参数θq,并令动作现实网络及评价现实网络初始化参数满足θq′=θq、θμ′=θμ;设置经验池容量D,单次随机采样数量NB
步骤4、对步骤2中构建的深度强化学习神经网络进行训练,得到训练完毕的动作网络及评价网络参数用于最优智能反射表面相位偏置矩阵生成,具体包括以下子步骤:
a1)设置初始时刻t=1;随机生成包含N=NxNy个元素的时刻t-1智能反射表面相位偏置角矢量
Figure FDA0002354726400000021
其元素均从[0,2π]中随机选取,生成时刻t-1的角度偏置矩阵
Figure FDA0002354726400000022
其中diag(x)表示以矢量x中的元素为对角元的对角阵。根据用户信道状态信息和智能反射表面的角度偏置矩阵Φ(t-1)计算时刻t-1用户的接收信噪比
Figure FDA0002354726400000023
其中
Figure FDA0002354726400000024
为时刻t-1基站的波束赋形矢量,Pmax为基站发射功率,(·)H代表共轭转置,|·|表示取绝对值,σ2为用户接收噪声功率。设置时刻t的状态
Figure FDA0002354726400000025
a2)将时刻t的状态st作为动作网络输入得到时刻t的动作
Figure FDA0002354726400000026
其中
Figure FDA0002354726400000027
为探索噪声;之后将当前动作at中元素整合为时刻t智能反射表面相位偏置矩阵
Figure FDA0002354726400000028
并根据步骤a1)所述方法计算时刻t的用户接收信噪比γ(t)作为时刻t的奖励rt;得到时刻t+1的状态
Figure FDA0002354726400000029
将经验样本(st,at,rt,st+1)存入经验池中;
a3)若经验池中的记录数量小于取样数量NB,则令t=t+1进入步骤a2);若经验池中的样本数目大于等于取样数量NB则进入步骤a4);若经验池中的样本数达到容量上限,则新增加的经验样本覆盖经验池中最早的一条记录,然后进入a4);
a4)从经验池中随机采样NB个样本,将第j,j=1,…,NB个样本
Figure FDA00023547264000000210
中的下一个状态
Figure FDA00023547264000000211
输入动作目标网络得到对应于下一个状态的最优动作
Figure FDA0002354726400000031
Figure FDA0002354726400000032
Figure FDA0002354726400000033
构成新的矢量
Figure FDA0002354726400000034
作为评价现实网络的输入用于计算目标Q值,其中tj为第j个样本
Figure FDA0002354726400000035
中第一个元素所对应的时刻。将样本中的
Figure FDA0002354726400000036
Figure FDA0002354726400000037
构成新的矢量
Figure FDA0002354726400000038
作为评价估计网络的输入用于计算Q值;利用随机梯度下降更新动作估计网络参数,利用策略梯度更新评价估计网络参数,利用软更新更新动作、评价现实网络参数,若网络收敛则进入步骤5,否则进入步骤a2);
步骤5、得到收敛之后的网络模型参数,输出在当前信道状态信息下的最优智能反射表面相位偏置矩阵Φopt
2.根据权利要求1所述基于深度强化学习的智能反射表面相位优化方法,其特征在于:所述步骤2中构建的深度强化学习神经网络模型均包含一个输入层、两个隐藏层以及一个输出层,所述动作估计网络和动作现实网络使用同样的网络结构;所述评价估计网络和评价目标网络使用同样的网络结构。
3.根据权利要求1所述基于深度强化学习的智能反射表面相位优化方法,其特征在于:所述步骤4中用于动作探索的噪声为服从均值为0方差为0.1的加性复高斯噪声;用于网络参数更新的目标Q值使用Bellman方程计算,其具体表达式为:
Figure FDA0002354726400000039
其中λ<1为折扣因子。
4.根据权利要求1所述基于深度强化学习的智能反射表面相位优化方法,其特征在于:所述步骤4中动作估计网络采用随机梯度下降的方法更新网络参数,其具体的均方误差损失函数为:
Figure FDA00023547264000000310
则新的动作估计网络参数为:
Figure FDA00023547264000000311
其中α为学习率,▽x表示对变量x求偏导;所述步骤4中评价估计网络采用策略梯度的方法跟新网络参数,其具体的策略梯度增益为:
Figure FDA00023547264000000312
则新的评价估计网络参数为:
Figure FDA0002354726400000041
所述步骤4中动作、评价目标网络采用软更新的方法更新网络参数,其具体表达式为:
θμ′=τθμ+(1-τ)θμ′
θq′=τθq+(1-τ)θq′
其中τ<<1为软更新系数。
CN202010004455.6A 2020-01-03 2020-01-03 一种基于深度强化学习的智能反射表面相位优化方法 Active CN111181618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004455.6A CN111181618B (zh) 2020-01-03 2020-01-03 一种基于深度强化学习的智能反射表面相位优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004455.6A CN111181618B (zh) 2020-01-03 2020-01-03 一种基于深度强化学习的智能反射表面相位优化方法

Publications (2)

Publication Number Publication Date
CN111181618A true CN111181618A (zh) 2020-05-19
CN111181618B CN111181618B (zh) 2022-05-10

Family

ID=70654404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004455.6A Active CN111181618B (zh) 2020-01-03 2020-01-03 一种基于深度强化学习的智能反射表面相位优化方法

Country Status (1)

Country Link
CN (1) CN111181618B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111698046A (zh) * 2020-06-11 2020-09-22 电子科技大学 基于可重构智能反射面的绿色通信方法
CN111817768A (zh) * 2020-06-03 2020-10-23 北京交通大学 一种用于智能反射表面无线通信的信道估计方法
CN111901802A (zh) * 2020-07-31 2020-11-06 东南大学 一种借助智能反射表面的miso系统下行保密率优化方法
CN111935777A (zh) * 2020-06-03 2020-11-13 东南大学 基于深度强化学习的5g移动负载均衡方法
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112260975A (zh) * 2020-09-18 2021-01-22 华南理工大学 智能反射表面辅助无线通信系统的正交反射索引调制方法
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112468193A (zh) * 2020-11-26 2021-03-09 国网江苏省电力有限公司丹阳市供电分公司 基于智能反射表面的波束对准实现方法
CN112564752A (zh) * 2020-11-13 2021-03-26 西安电子科技大学 一种优化稀疏天线激活可重构智能表面辅助通信方法
CN112737655A (zh) * 2020-12-16 2021-04-30 北京邮电大学 一种基于智能反射面的通信方法、系统及装置
CN112769726A (zh) * 2020-12-01 2021-05-07 华南理工大学 基于智能反射表面辅助通信系统无源波束赋形优化方法
CN112769719A (zh) * 2020-12-01 2021-05-07 华南理工大学 基于智能反射表面辅助无线通信系统渐进式信道估计方法
CN113055065A (zh) * 2021-03-10 2021-06-29 中国矿业大学 一种基于智能反射面的物联网隐蔽波束成形设计方法
CN113098575A (zh) * 2021-03-29 2021-07-09 东南大学 一种提升边缘速率的智能反射表面辅助多小区下行传输设计方法
CN113365312A (zh) * 2021-06-22 2021-09-07 东南大学 强化学习和监督学习相结合的移动负载均衡方法
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113472419A (zh) * 2021-06-23 2021-10-01 西北工业大学 一种基于空基可重构智能表面的安全传输方法及系统
CN113489521A (zh) * 2021-05-26 2021-10-08 电子科技大学 反射面辅助无小区大规模mimo网络智能联合波束赋形方法
CN113543176A (zh) * 2021-07-08 2021-10-22 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113552799A (zh) * 2021-06-28 2021-10-26 北京航空航天大学 一种基于深度q学习的控制阀粘滞参数估计方法
CN113595606A (zh) * 2021-07-29 2021-11-02 东南大学 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法
CN113645163A (zh) * 2021-01-26 2021-11-12 之江实验室 一种基于神经网络的智能反射表面反射相位配置方法
WO2021237688A1 (en) * 2020-05-29 2021-12-02 British Telecommunications Public Limited Company Ris-assisted wireless communications
CN114142902A (zh) * 2021-12-09 2022-03-04 中央民族大学 多天线智能反射表面系统短数据包传输方法
CN114158113A (zh) * 2020-09-08 2022-03-08 维沃移动通信有限公司 工作状态的切换方法及装置、终端及可读存储介质
WO2022088182A1 (en) * 2020-11-02 2022-05-05 British Telecommunications Public Limited Company Wireless telecommunications network
CN114826349A (zh) * 2022-04-19 2022-07-29 东南大学 一种基于可重构智能表面的发射功率最小化传输方法
WO2022183310A1 (en) * 2021-03-01 2022-09-09 Qualcomm Incorporated Codebook generation for precoding reconfigurable intelligent surface (ris) elements
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN113645163B (zh) * 2021-01-26 2024-07-02 之江实验室 一种基于神经网络的智能反射表面反射相位配置方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109195135A (zh) * 2018-08-06 2019-01-11 同济大学 Lte-v中基于深度强化学习的基站选择方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法
CN109302262A (zh) * 2018-09-27 2019-02-01 电子科技大学 一种基于深度确定梯度强化学习的通信抗干扰方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN110267338A (zh) * 2019-07-08 2019-09-20 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021237688A1 (en) * 2020-05-29 2021-12-02 British Telecommunications Public Limited Company Ris-assisted wireless communications
CN111817768A (zh) * 2020-06-03 2020-10-23 北京交通大学 一种用于智能反射表面无线通信的信道估计方法
CN111935777B (zh) * 2020-06-03 2023-04-28 东南大学 基于深度强化学习的5g移动负载均衡方法
CN111935777A (zh) * 2020-06-03 2020-11-13 东南大学 基于深度强化学习的5g移动负载均衡方法
CN111698046A (zh) * 2020-06-11 2020-09-22 电子科技大学 基于可重构智能反射面的绿色通信方法
CN111901802B (zh) * 2020-07-31 2023-02-14 东南大学 一种借助智能反射表面的miso系统下行保密率优化方法
CN111901802A (zh) * 2020-07-31 2020-11-06 东南大学 一种借助智能反射表面的miso系统下行保密率优化方法
CN114158113A (zh) * 2020-09-08 2022-03-08 维沃移动通信有限公司 工作状态的切换方法及装置、终端及可读存储介质
WO2022052937A1 (zh) * 2020-09-08 2022-03-17 维沃移动通信有限公司 工作状态的切换方法及装置、终端及可读存储介质
CN114158113B (zh) * 2020-09-08 2023-11-21 维沃移动通信有限公司 工作状态的切换方法及装置、终端及可读存储介质
CN112260975A (zh) * 2020-09-18 2021-01-22 华南理工大学 智能反射表面辅助无线通信系统的正交反射索引调制方法
CN112260975B (zh) * 2020-09-18 2021-08-06 华南理工大学 智能反射表面辅助无线通信系统的正交反射索引调制方法
CN112019249B (zh) * 2020-10-22 2021-02-19 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
WO2022088182A1 (en) * 2020-11-02 2022-05-05 British Telecommunications Public Limited Company Wireless telecommunications network
US11962362B2 (en) 2020-11-02 2024-04-16 British Telecommunications Public Limited Company Wireless telecommunications network
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112564752A (zh) * 2020-11-13 2021-03-26 西安电子科技大学 一种优化稀疏天线激活可重构智能表面辅助通信方法
CN112468193A (zh) * 2020-11-26 2021-03-09 国网江苏省电力有限公司丹阳市供电分公司 基于智能反射表面的波束对准实现方法
CN112769719A (zh) * 2020-12-01 2021-05-07 华南理工大学 基于智能反射表面辅助无线通信系统渐进式信道估计方法
CN112769726A (zh) * 2020-12-01 2021-05-07 华南理工大学 基于智能反射表面辅助通信系统无源波束赋形优化方法
CN112737655B (zh) * 2020-12-16 2022-08-02 北京邮电大学 一种基于智能反射面的通信方法、系统及装置
CN112737655A (zh) * 2020-12-16 2021-04-30 北京邮电大学 一种基于智能反射面的通信方法、系统及装置
CN113645163B (zh) * 2021-01-26 2024-07-02 之江实验室 一种基于神经网络的智能反射表面反射相位配置方法
CN113645163A (zh) * 2021-01-26 2021-11-12 之江实验室 一种基于神经网络的智能反射表面反射相位配置方法
WO2022183310A1 (en) * 2021-03-01 2022-09-09 Qualcomm Incorporated Codebook generation for precoding reconfigurable intelligent surface (ris) elements
CN113055065B (zh) * 2021-03-10 2021-12-10 中国矿业大学 一种基于智能反射面的物联网隐蔽波束成形设计方法
CN113055065A (zh) * 2021-03-10 2021-06-29 中国矿业大学 一种基于智能反射面的物联网隐蔽波束成形设计方法
CN113098575A (zh) * 2021-03-29 2021-07-09 东南大学 一种提升边缘速率的智能反射表面辅助多小区下行传输设计方法
CN113489521B (zh) * 2021-05-26 2023-05-09 电子科技大学 反射面辅助无小区大规模mimo网络联合波束赋形方法
CN113489521A (zh) * 2021-05-26 2021-10-08 电子科技大学 反射面辅助无小区大规模mimo网络智能联合波束赋形方法
CN113365312A (zh) * 2021-06-22 2021-09-07 东南大学 强化学习和监督学习相结合的移动负载均衡方法
CN113472419A (zh) * 2021-06-23 2021-10-01 西北工业大学 一种基于空基可重构智能表面的安全传输方法及系统
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113452642B (zh) * 2021-06-25 2022-04-29 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113552799A (zh) * 2021-06-28 2021-10-26 北京航空航天大学 一种基于深度q学习的控制阀粘滞参数估计方法
CN113543176A (zh) * 2021-07-08 2021-10-22 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113543176B (zh) * 2021-07-08 2023-06-27 中国科学院深圳先进技术研究院 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113595606A (zh) * 2021-07-29 2021-11-02 东南大学 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法
CN114142902A (zh) * 2021-12-09 2022-03-04 中央民族大学 多天线智能反射表面系统短数据包传输方法
CN114142902B (zh) * 2021-12-09 2024-05-03 中央民族大学 多天线智能反射表面系统短数据包传输方法
CN114826349A (zh) * 2022-04-19 2022-07-29 东南大学 一种基于可重构智能表面的发射功率最小化传输方法
CN114826349B (zh) * 2022-04-19 2024-02-02 东南大学 一种基于可重构智能表面的发射功率最小化传输方法
CN116614826A (zh) * 2023-05-24 2023-08-18 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法
CN116614826B (zh) * 2023-05-24 2024-01-16 北京天坦智能科技有限责任公司 一种同时传输和反射表面网络的覆盖和容量优化方法

Also Published As

Publication number Publication date
CN111181618B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN111181618B (zh) 一种基于深度强化学习的智能反射表面相位优化方法
WO2020253690A1 (zh) 一种基于近似消息传递算法的深度学习波束域信道估计方法
CN109617584B (zh) 一种基于深度学习的mimo系统波束成形矩阵设计方法
CN105142177B (zh) 复数神经网络信道预测方法
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN113300746B (zh) 毫米波mimo天线与混合波束成形优化方法及系统
CN105790813B (zh) 一种大规模mimo下基于深度学习的码本选择方法
CN113452642B (zh) 一种可重构智能表面增强的siso-ofdm下行传输方法
WO2020253691A1 (zh) 一种基于共轭梯度下降法的深度学习信号检测方法
CN112564752A (zh) 一种优化稀疏天线激活可重构智能表面辅助通信方法
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN110300075A (zh) 一种无线信道估计方法
CN103023840B (zh) 多输入多输出泛函网络实现无线激光通信电域信号盲均衡方法
CN114745237B (zh) 一种智能超表面辅助多用户无线通信系统的信道估计方法
CN115271099A (zh) 一种支持异构模型的自适应个性化联邦学习方法
CN114039659B (zh) 一种光纤通信高阶色散预测算方法
Chen et al. Solving sparse linear inverse problems in communication systems: A deep learning approach with adaptive depth
CN101706888A (zh) 一种旅行时间预测的方法
CN113783593A (zh) 一种基于深度强化学习的波束选择方法和系统
Li et al. Communication-efficient decentralized zeroth-order method on heterogeneous data
CN106680779B (zh) 脉冲噪声下的波束成形方法及装置
CN112505628B (zh) 一种基于图卷积神经网络的自适应波束形成方法
CN111010222A (zh) 一种基于深度学习的大规模mimo下行用户调度方法
Fessant et al. On the prediction of solar activity using different neural network models
CN116367337A (zh) 一种基于约束强化学习的通信感知联合优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant