CN111181619A - 基于深度强化学习的毫米波混合波束成形设计方法 - Google Patents

基于深度强化学习的毫米波混合波束成形设计方法 Download PDF

Info

Publication number
CN111181619A
CN111181619A CN202010004664.0A CN202010004664A CN111181619A CN 111181619 A CN111181619 A CN 111181619A CN 202010004664 A CN202010004664 A CN 202010004664A CN 111181619 A CN111181619 A CN 111181619A
Authority
CN
China
Prior art keywords
network
matrix
action
evaluation
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010004664.0A
Other languages
English (en)
Other versions
CN111181619B (zh
Inventor
李潇
王琪胜
金石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010004664.0A priority Critical patent/CN111181619B/zh
Publication of CN111181619A publication Critical patent/CN111181619A/zh
Application granted granted Critical
Publication of CN111181619B publication Critical patent/CN111181619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的毫米波混合波束成形设计方法,该方法中基站利用获取的用户信道状态信息,通过计算互相关得到用户的模拟预编码矩阵;构建一个用于联合优化用户数字预编码矩阵和模拟合并矩阵的深度强化学习智能体,将用户信道信息及模拟预编码矩阵输入智能体,输出相应的数字预编码矩阵和模拟合并矩阵;基于最小均方误差准则计算用户的数字合并矩阵;本发明给出的基于深度强化学习的毫米波混合波束成形设计方法收敛速度快,具有较好的鲁棒性,能有效提高系统频谱效率。

Description

基于深度强化学习的毫米波混合波束成形设计方法
技术领域
本发明涉及一种基于深度强化学习的毫米波混合波束成形设计方法,属于基站配置均匀线性天线阵的点对点MIMO下行系统自适应传输技术领域。
背景技术
毫米波通信作为一种可以提高网络传输速率和缓解频谱资源短缺问题的有效方法被视作新一代无线通信网络的关键技术之一。结合大规模多输入多输出(MIMO)的毫米波通信系统能充分利用空间资源,通过多个天线实现多发多收,在不增加频谱资源和天线发射功率的情况下,成倍的提高系统信道容量,同时有效解决毫米波系穿透力弱,衰减快等问题。
然而,在实际应用中,大规模MIMO毫米波无线通信仍面临着诸多挑战。毫米波系统中波束成形矩阵的设计受到昂贵的射频硬件的约束。传统的全数字波束成形结构需要为每一根发射天线和接收天线配备一个射频链路用于模数转换和上下变频,结合大规模MIMO之后,所需射频链路数极大,导致系统复杂度不可接受。已有的混合预编码技术将全数字预编码拆分为高维的模拟预编码和低维的数字预编码,模拟预编码可由简单的相移器实现,数字预编码维数较低,仅使用很少的射频链路即可,可在一定程度上缓解这一问题。但现存混合预编码技术主要基于压缩感知技术和高发射信噪比的假设,将原始系统速率最大问题转化为矩阵间欧氏距离最小问题,导致局部最优解;且算法的时间复杂度较高,会引入较大的通信处理时延,因此需要有新的低复杂度和高性能混合波束成形算法来进一步解决这些问题。
现有针对低复杂度毫米波混合预编码算法的研究主要基于对矩阵求逆运算的简化或使用深度监督学习方法。虽然应用这些方法之后时间复杂度有一定下降,但牺牲了一定的系统性能。深度监督学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感,对于穿透力弱,衰减快的毫米波信道来说,实际应用仍有困难。
发明内容
本发明的目的是为了克服现有技术中存在的不足,本发明为基站配置均匀线性天线阵,利用深度强化学习进行毫米波混合波束成形矩阵的设计和自适应传输,基于深度强化学习智能体无需对环境建模的特性和深度神经网络强大的解决非线性优化问题的能力,能够有效抑制干扰,并能以较低的计算复杂度获取较高的系统频谱效率和较低的接收误比特率,且对信道衰落变化具有很好的鲁邦性。
为达到上述目的,本发明采用的方法是:一种基于深度强化学习的毫米波混合波束成形设计方法,包括以下步骤:
步骤一、t=0时刻,基站配置Nt个天线单元的均匀线性天线阵列,发送Ns路独立数据流,用户侧配备Nr个天线单元的均匀线性天线阵列;基站与用户侧分别配备
Figure BDA0002354779770000027
Figure BDA0002354779770000028
个射频链路;基站已知其与用户间的信道矩阵
Figure BDA0002354779770000021
其中Ncl为散射簇数目,Nray为每个散射簇的散射与反射径数,αij为第i簇中第j径的路径增益,归一化发射端信道响应向量
Figure BDA0002354779770000022
归一化接收端信道响应向量
Figure BDA0002354779770000023
Figure BDA0002354779770000024
d为天线阵元间距,λ为载波波长,
Figure BDA00023547797700000210
Figure BDA0002354779770000029
分别为第i簇中第j径信号的出发角和到达角;计算发射端信道响应矩阵
Figure BDA00023547797700000211
与信道右酉矩阵
Figure BDA00023547797700000212
的互相关矩阵T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩阵奇异值分解后的右酉矩阵,
Figure BDA00023547797700000213
并从互相关矩阵T的对角元T(i,i),i=1,2,…,NclNray,中选出最大的前Ns个对角元,选出的下标集合记作
Figure BDA00023547797700000214
选择
Figure BDA00023547797700000215
中索引属于τ的Ns个列向量组成发射端模拟预编码矩阵VRF;随机初始化由神经网络构成的深度强化学习智能体X,用于学习数字预编码矩阵VBB和模拟合并矩阵WRF;随机初始化数字预编码矩阵VBB、模拟合并矩阵WRF和数字合并矩阵WBB,令t=t+1。
所述深度强化学习智能体包括以下元素:动作输出现实网络A,根据来自环境的状态产生当前最优的动作;动作输出目标网络
Figure BDA00023547797700000216
其参数复制自动作现实网络A,每隔NT个时隙更新一次;状态动作评价现实网络C,输出对当前的状态动作的价值函数;状态动作评价目标网络
Figure BDA00023547797700000217
其参数复制自评价现实网络C,每隔NT个时隙更新一次;容量为ND的经验池D,用于存储智能体学习过程中产生的样本。
步骤二、在时刻t,智能体X执行如下操作:智能体X的状态
Figure BDA0002354779770000025
其中
Figure BDA00023547797700000218
为前一时刻的数字预编码矩阵,
Figure BDA00023547797700000219
为前一时刻的模拟合并矩阵,Re(·),Im(·)分别表示取实部和虚部,vec(·)表示将矩阵转换为列向量;将状态s(t)输入智能体X的动作现实网络A,输出为
Figure BDA00023547797700000220
其中
Figure BDA00023547797700000221
将A(s(t))与服从标准正态分布的噪声
Figure BDA00023547797700000222
相加得到智能体的动作a(t)=A(s(t))+n(t),将向量a(t)的前
Figure BDA00023547797700000223
个元素作为当前时刻数字预编码矩阵
Figure BDA00023547797700000224
的实部和虚部,将a(t)的后
Figure BDA00023547797700000225
个元素作为当前时刻模拟合并矩阵
Figure BDA00023547797700000226
的实部和虚部,并对
Figure BDA00023547797700000227
中所有元素做模归一化处理
Figure BDA0002354779770000026
其中
Figure BDA00023547797700000228
表示矩阵
Figure BDA00023547797700000229
中的第(i,j)个元素。
步骤三、基站利用最小均方误差准则更新数字合并矩阵
Figure BDA0002354779770000031
其中
Figure BDA0002354779770000032
Figure BDA0002354779770000033
Figure BDA0002354779770000038
为用户端噪声方差;然后按照下式计算此时的系统频谱效率
Figure BDA0002354779770000034
其中ρ为平均发射功率,
Figure BDA0002354779770000035
智能体X的奖励函数r(t)=R(t),并得到下一时刻状态
Figure BDA0002354779770000036
并将四元组<s(t),a(t),r(t),s(t+1)>作为一个样本元组存入经验池D中。
步骤四、智能体X将状态-动作对(s(t),a(t))输入其评价现实网络C中,输出对(s(t),a(t))的评价值QC(s(t),a(t)),随后从经验池中以批尺寸N进行随机采样来计算评价网络的目标值;然后对动作网络和评价网络进行梯度下降更新,并对动作目标网络和评价目标网络进行软更新,令t=t+1,若|R(t)-R(t-1)|≤0.0001或t>10N,则停止迭代,否则转到步骤二。
所述随机采样与网络更新方法按如下步骤进行:
a1)判断t,如果t≥N,从经验池D中随机采样N个样本d=[d1,d2,…,dN],其中每个样本
Figure BDA0002354779770000039
为经验池中存储的第ki个时刻的样本四元组,且当经验池存满后,每次加入最新的样本,去掉最旧的样本;否则不采样,转到步骤二继续产生并存储样本;
a2)将d中所有样本的状态-动作对输入评价目标网络
Figure BDA00023547797700000310
得到该状态-动作对的价值函数估计值
Figure BDA00023547797700000311
按照贝尔曼方程计算得到价值函数目标值
Figure BDA00023547797700000312
其中γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00023547797700000313
为由动作目标网络
Figure BDA00023547797700000314
根据
Figure BDA00023547797700000315
产生的动作;
a3)计算d中N个样本均方误差作为评价现实网络C的损失函数:
Figure BDA0002354779770000037
其中θC为评价现实网络C的参数;
a4)损失函数中同时涉及到动作现实网络A和评价现实网络C的更新,记网络A的参数为θA,更新的目标是让评价现实网络C的输出
Figure BDA00023547797700000316
与目标值
Figure BDA00023547797700000317
尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure BDA0002354779770000041
Figure BDA0002354779770000042
其中J(θC)为用N个样本d表示的网络C的累计价值函数。
a5)每个时隙对动作目标网络
Figure BDA0002354779770000045
和评价目标网络
Figure BDA0002354779770000046
的参数
Figure BDA0002354779770000047
Figure BDA0002354779770000048
进行软更新:
Figure BDA0002354779770000043
Figure BDA0002354779770000044
其中,
Figure BDA0002354779770000049
Figure BDA00023547797700000410
表示动作目标网络和评价目标网络的参数,θA和θC表示动作现实网络和目标现实网络的参数。通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。
作为本发明所述的基于深度强化学习的毫米波混合波束成形设计方法进一步优化方案,所述发射端数字波束成形强化学习智能体由动作现实网络A,动作目标网络
Figure BDA00023547797700000411
评价现实网络C,评价目标网络
Figure BDA00023547797700000412
构成。
作为本发明所述的基于深度强化学习的毫米波混合波束成形设计方法进一步优化方案,所述动作现实网络A,动作目标网络
Figure BDA00023547797700000413
评价现实网络C,评价目标网络
Figure BDA00023547797700000414
包含四个全连接层、三个ReLU激活层和一个tanh激活层,网络中的前三个全连接层采用ReLU激活函数,输出层采用tanh激活函数。
作为本发明所述的基于深度强化学习的毫米波混合波束成形设计方法进一步优化方案,所述步骤二和步骤三中获得的模型参数包括全连接层的权重、偏置。
有益效果:
(1)本方法对信道快衰落具有很好的鲁棒性,适用于各种典型的无线通信系统;
(2)本方法中的混合波束成形方法收敛速度快、易于实现,需要的计算资源少,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;
(3)本方法同时考虑毫米波信道衰减快和大规模MIMO天线相关性大的影响,信道更具一般性。
(4)本方法能获得较高的系统频谱效率和较低的误比特率。
附图说明
图1是本发明方法利用深度强化学习智能体为用户设计发射混合预编码矩阵和接收混合合并矩阵的流程图。
图2是本发明方法所涉及深度强化学习智能体为用户计算其数字预编码矩阵和模拟合并矩阵的示意图。
具体实施方式
下面结合说明书附图对本发明作更进一步的说明。
考虑一个毫米波大规模MIMO点对点下行链路,基站按如下步骤进行混合波束成形设计:
步骤一、步骤一、t=0时刻,基站配置Nt个天线单元的均匀线性天线阵列,发送Ns=6路独立数据流,用户侧配备Nr=32个天线单元的均匀线性天线阵列;基站与用户侧分别配备
Figure BDA0002354779770000057
Figure BDA0002354779770000058
个射频链路;基站已知其与用户间的信道矩阵
Figure BDA0002354779770000051
其中Ncl=10为散射簇数目,Nray=8为每个散射簇的散射与反射径数,αij为第i簇中第j径的路径增益,归一化发射端信道响应向量
Figure BDA0002354779770000052
归一化接收端信道响应向量
Figure BDA0002354779770000053
天线阵元间距
Figure BDA0002354779770000059
Figure BDA00023547797700000510
Figure BDA00023547797700000511
分别为第i簇中第j径信号的出发角和到达角;计算发射端信道响应矩阵
Figure BDA0002354779770000054
Figure BDA0002354779770000055
与信道右酉矩阵
Figure BDA00023547797700000512
的互相关矩阵T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩阵奇异值分解后的右酉矩阵,
Figure BDA00023547797700000513
并从互相关矩阵T的对角元T(i,i),i=1,2,…,NclNray,中选出最大的前Ns个对角元,选出的下标集合记作
Figure BDA00023547797700000514
选择
Figure BDA00023547797700000515
中索引属于τ的Ns个列向量组成发射端模拟预编码矩阵VRF;随机初始化由神经网络构成的深度强化学习智能体X,用于学习数字预编码矩阵VBB和模拟合并矩阵WRF;随机初始化数字预编码矩阵VBB、模拟合并矩阵WRF和数字合并矩阵WBB,令t=t+1。
所述深度强化学习智能体包括以下元素:动作输出现实网络A,根据来自环境的状态产生当前最优的动作,即数字波束成形矩阵;动作输出目标网络
Figure BDA00023547797700000516
其参数复制自动作现实网络A,每隔NT个时隙更新一次;状态动作评价现实网络C,输出对当前的状态动作的价值函数;状态动作评价目标网络
Figure BDA00023547797700000517
其参数复制自评价现实网络C,每隔NT个时隙更新一次;容量为ND的经验池D,用于存储智能体学习过程中产生的样本。
步骤二、在时刻t,智能体X执行如下操作:智能体X的状态
Figure BDA0002354779770000056
其中
Figure BDA00023547797700000518
为前一时刻的数字预编码矩阵,
Figure BDA00023547797700000519
为前一时刻的模拟合并矩阵,Re(·),Im(·)分别表示取实部和虚部,vec(·)表示将矩阵转换为列向量;将状态s(t)输入智能体X的动作现实网络A,输出为
Figure BDA0002354779770000068
其中
Figure BDA0002354779770000069
将A(s(t))与服从标准正态分布的噪声
Figure BDA00023547797700000610
相加得到智能体的动作a(t)=A(s(t))+n(t),将向量a(t)的前
Figure BDA00023547797700000611
个元素作为当前时刻数字预编码矩阵
Figure BDA00023547797700000612
的实部和虚部,将a(t)的后
Figure BDA00023547797700000613
个元素作为当前时刻模拟合并矩阵
Figure BDA00023547797700000614
的实部和虚部,并对
Figure BDA00023547797700000615
中所有元素做模归一化处理
Figure BDA0002354779770000061
其中
Figure BDA00023547797700000616
表示矩阵
Figure BDA00023547797700000617
中的第(i,j)个元素。
步骤三、基站利用最小均方误差准则更新数字合并矩阵
Figure BDA0002354779770000062
其中
Figure BDA0002354779770000063
Figure BDA0002354779770000064
Figure BDA00023547797700000618
为用户端噪声方差;然后按照下式计算此时的系统频谱效率
Figure BDA0002354779770000065
其中ρ为平均发射功率,
Figure BDA0002354779770000066
智能体X的奖励函数r(t)=R(t),并得到下一时刻状态
Figure BDA0002354779770000067
并将四元组<s(t),a(t),r(t),s(t+1)>作为一个样本元组存入经验池D中。
步骤四、智能体X将状态-动作对(s(t),a(t))输入其评价现实网络C中,输出对(s(t),a(t))的评价值QC(s(t),a(t)),随后从容量ND=2000经验池中以批尺寸N=64进行随机采样来计算评价网络的目标值;然后对动作网络和评价网络进行梯度下降更新,并对动作目标网络和评价目标网络进行软更新,令t=t+1,若|R(t)-R(t-1)|≤0.0001或t>10N,则停止迭代,否则转到步骤二。
所述随机采样与网络更新方法按如下步骤进行:
b1)判断t,如果t≥N,从经验池D中随机采样N=32个样本d=[d1,d2,…,dN],其中每个样本
Figure BDA00023547797700000619
为经验池中存储的第ki个时刻的样本四元组,且当经验池存满后,每次加入最新的样本,去掉最旧的样本;否则不采样,转到步骤二继续产生并存储样本;
b2)将d中所有样本的状态-动作对输入评价目标网络
Figure BDA00023547797700000620
得到该状态-动作对的价值函数估计值
Figure BDA00023547797700000621
按照贝尔曼方程计算得到价值函数目标值
Figure BDA00023547797700000622
其中γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00023547797700000623
为由动作目标网络
Figure BDA00023547797700000624
根据
Figure BDA00023547797700000625
产生的动作;
b3)计算d中N个样本均方误差作为评价现实网络C的损失函数:
Figure BDA0002354779770000071
其中θC为评价现实网络C的参数;
b4)损失函数中同时涉及到动作现实网络A和评价现实网络C的更新,记网络A的参数为θA,更新的目标是让评价现实网络C的输出
Figure BDA0002354779770000076
与目标值
Figure BDA0002354779770000077
尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure BDA0002354779770000072
Figure BDA0002354779770000073
其中J(θC)为用N个样本d表示的网络C的累计价值函数。
b5)每个时隙对动作目标网络
Figure BDA0002354779770000078
和评价目标网络
Figure BDA0002354779770000079
的参数
Figure BDA00023547797700000710
Figure BDA00023547797700000711
进行软更新:
Figure BDA0002354779770000074
Figure BDA0002354779770000075
其中,
Figure BDA00023547797700000712
Figure BDA00023547797700000713
表示动作目标网络和评价目标网络的参数,θA和θC表示动作现实网络和目标现实网络的参数。通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性
综上,本发明在运行时间复杂度和系统性能上均超过传统的毫米波混合波束成形设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的混合波束成形矩阵,特别对于快速时变信道有很强的鲁棒性,在有限的资源开销下,实现高效的系统频谱效率和很低的误比特率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于深度强化学习的毫米波混合波束成形设计方法,其特征在于,包括以下步骤:
步骤一、t=0时刻,基站配置Nt个天线单元的均匀线性天线阵列,发送Ns路独立数据流,用户侧配备Nr个天线单元的均匀线性天线阵列;基站与用户侧分别配备
Figure FDA0002354779760000011
Figure FDA0002354779760000012
个射频链路;基站已知其与用户间的信道矩阵
Figure FDA0002354779760000013
其中Ncl为散射簇数目,Nray为每个散射簇的散射与反射径数,αij为第i簇中第j径的路径增益,归一化发射端信道响应向量
Figure FDA0002354779760000014
归一化接收端信道响应向量
Figure FDA0002354779760000015
Figure FDA0002354779760000016
d为天线阵元间距,λ为载波波长,
Figure FDA0002354779760000017
Figure FDA0002354779760000018
分别为第i簇中第j径信号的出发角和到达角;计算发射端信道响应矩阵
Figure FDA0002354779760000019
与信道右酉矩阵
Figure FDA00023547797600000110
的互相关矩阵T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩阵奇异值分解后的右酉矩阵,
Figure FDA00023547797600000111
并从互相关矩阵T的对角元T(i,i),i=1,2,...,NclNray,中选出最大的前Ns个对角元,选出的下标集合记作
Figure FDA00023547797600000112
选择
Figure FDA00023547797600000113
中索引属于τ的Ns个列向量组成发射端模拟预编码矩阵VRF;随机初始化由神经网络构成的深度强化学习智能体X,用于学习数字预编码矩阵VBB和模拟合并矩阵WRF;随机初始化数字预编码矩阵VBB、模拟合并矩阵WRF和数字合并矩阵WBB,令t=t+1;
所述深度强化学习智能体包括以下元素:动作输出现实网络A,根据来自环境的状态产生当前最优的动作;动作输出目标网络
Figure FDA00023547797600000114
其参数复制自动作现实网络A,每隔NT个时隙更新一次;状态动作评价现实网络C,输出对当前的状态动作的价值函数;状态动作评价目标网络
Figure FDA00023547797600000115
其参数复制自评价现实网络C,每隔NT个时隙更新一次;容量为ND的经验池D,用于存储智能体学习过程中产生的样本;
步骤二、在时刻t,智能体X执行如下操作:智能体X的状态
Figure FDA00023547797600000116
其中
Figure FDA00023547797600000117
为前一时刻的数字预编码矩阵,
Figure FDA00023547797600000118
为前一时刻的模拟合并矩阵,Re(·),Im(·)分别表示取实部和虚部,vec(·)表示将矩阵转换为列向量;将状态s(t)输入智能体X的动作现实网络A,输出为
Figure FDA00023547797600000119
其中
Figure FDA00023547797600000120
将A(s(t))与服从标准正态分布的噪声
Figure FDA00023547797600000121
相加得到智能体的动作a(t)=A(s(t))+n(t),将向量a(t)的前
Figure FDA00023547797600000122
个元素作为当前时刻数字预编码矩阵
Figure FDA00023547797600000123
的实部和虚部,将a(t)的后
Figure FDA00023547797600000124
个元素作为当前时刻模拟合并矩阵
Figure FDA00023547797600000125
的实部和虚部,并将a(t)重排得到当前时刻的数字预编码矩阵
Figure FDA0002354779760000021
和模拟合并矩阵
Figure FDA0002354779760000022
Figure FDA0002354779760000023
中所有元素做模归一化处理
Figure FDA0002354779760000024
其中
Figure FDA0002354779760000025
表示矩阵
Figure FDA0002354779760000026
中的第(i,j)个元素;
步骤三、基站利用最小均方误差准则更新数字合并矩阵
Figure FDA0002354779760000027
其中
Figure FDA0002354779760000028
Figure FDA0002354779760000029
Figure FDA00023547797600000210
为用户端噪声方差;然后按照下式计算此时的系统频谱效率
Figure FDA00023547797600000211
其中ρ为平均发射功率,
Figure FDA00023547797600000212
智能体X的奖励函数r(t)=R(t),并得到下一时刻状态
Figure FDA00023547797600000213
并将四元组<s(t),a(t),r(t),s(t+1)>作为一个样本元组存入经验池D中;
步骤四、智能体X将状态-动作对(s(t),a(t))输入其评价现实网络C中,输出对(s(t),a(t))的评价值QC(s(t),a(t)),随后从经验池中以批尺寸N进行随机采样来计算评价网络的目标值;然后对动作网络和评价网络进行梯度下降更新,并对动作目标网络和评价目标网络进行软更新,令t=t+1,若|R(t)-R(t-1)|≤0.0001或t>10N,则停止迭代,否则转到步骤二;
所述随机采样与网络更新方法按如下步骤进行:
a1)判断t,如果t之N,从经验池D中随机采样N个样本d=[d1,d2,...,dN],其中每个样本
Figure FDA00023547797600000214
为经验池中存储的第ki个时刻的样本四元组,且当经验池存满后,每次加入最新的样本,去掉最旧的样本;否则不采样,转到步骤二继续产生并存储样本;
a2)将d中所有样本的状态-动作对输入评价目标网络
Figure FDA00023547797600000215
得到该状态-动作对的价值函数估计值
Figure FDA00023547797600000216
按照贝尔曼方程计算得到价值函数目标值
Figure FDA00023547797600000217
其中γ∈(0,1)为奖励函数的折扣因子,
Figure FDA00023547797600000218
为由动作目标网络
Figure FDA00023547797600000219
根据
Figure FDA00023547797600000220
产生的动作;
a3)计算d中N个样本均方误差作为评价现实网络C的损失函数:
Figure FDA00023547797600000221
其中θC为评价现实网络C的参数;
a4)损失函数中同时涉及到动作现实网络A和评价现实网络C的更新,记网络A的参数为θA,更新的目标是让评价现实网络C的输出
Figure FDA0002354779760000031
与目标值
Figure FDA0002354779760000032
尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure FDA0002354779760000033
Figure FDA0002354779760000034
其中J(θC)为用N个样本d表示的网络C的累计价值函数。
a5)每个时隙对动作目标网络
Figure FDA0002354779760000035
和评价目标网络
Figure FDA0002354779760000036
的参数
Figure FDA0002354779760000037
Figure FDA0002354779760000038
进行软更新:
Figure FDA0002354779760000039
Figure FDA00023547797600000310
其中,
Figure FDA00023547797600000311
Figure FDA00023547797600000312
表示动作目标网络和评价目标网络的参数,θA和θC表示动作现实网络和目标现实网络的参数。
2.根据权利要求1所述基于深度强化学习的毫米波混合波束成形设计方法,其特征在于:所述动作现实网络A,动作目标网络
Figure FDA00023547797600000313
评价现实网络C,评价目标网络
Figure FDA00023547797600000314
包含四个全连接层、三个ReLU激活层和一个tanh激活层,网络中的前三个全连接层采用ReLU激活函数,输出层采用tanh激活函数。
3.根据权利要求1所述基于深度强化学习的毫米波混合波束成形设计方法,其特征在于:所述步骤二和步骤三中获得的模型参数包括全连接层的权重、偏置。
CN202010004664.0A 2020-01-03 2020-01-03 基于深度强化学习的毫米波混合波束成形设计方法 Active CN111181619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004664.0A CN111181619B (zh) 2020-01-03 2020-01-03 基于深度强化学习的毫米波混合波束成形设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004664.0A CN111181619B (zh) 2020-01-03 2020-01-03 基于深度强化学习的毫米波混合波束成形设计方法

Publications (2)

Publication Number Publication Date
CN111181619A true CN111181619A (zh) 2020-05-19
CN111181619B CN111181619B (zh) 2022-05-13

Family

ID=70657784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004664.0A Active CN111181619B (zh) 2020-01-03 2020-01-03 基于深度强化学习的毫米波混合波束成形设计方法

Country Status (1)

Country Link
CN (1) CN111181619B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165344A (zh) * 2020-09-16 2021-01-01 杭州电子科技大学 一种基于梯度下降法的混合预编码算法
CN112260738A (zh) * 2020-10-20 2021-01-22 东南大学 基于yolo目标检测的fd-mimo下行多用户分组方法
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112505628A (zh) * 2020-10-29 2021-03-16 北京遥测技术研究所 一种基于图卷积神经网络的自适应波束形成方法
CN113162666A (zh) * 2021-04-19 2021-07-23 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113193893A (zh) * 2021-04-30 2021-07-30 东南大学 毫米波大规模mimo智能混合波束成形设计方法
CN113242068A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于深度强化学习的智能通信波束碰撞避免方法
CN113242072A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于卷积神经网络的混合波束形成方法
CN113422627A (zh) * 2021-05-31 2021-09-21 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113472472A (zh) * 2021-07-07 2021-10-01 湖南国天电子科技有限公司 基于分布式强化学习的多小区协同波束赋形方法
CN113783593A (zh) * 2021-07-30 2021-12-10 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113904704A (zh) * 2021-09-27 2022-01-07 西安邮电大学 一种基于多智能体深度强化学习的波束预测方法
CN114598368A (zh) * 2022-03-14 2022-06-07 重庆邮电大学 一种基于毫米波宽带通信的全双工鲁棒混合波束成形方法
CN116224379A (zh) * 2023-05-06 2023-06-06 中国科学院国家空间科学中心 一种nbrcs修正方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9967014B1 (en) * 2016-11-09 2018-05-08 Facebook, Inc. Beamforming in antenna systems
CN109617585A (zh) * 2019-01-18 2019-04-12 杭州电子科技大学 毫米波大规模mimo中基于部分连接的混合预编码方法
CN110048752A (zh) * 2018-12-11 2019-07-23 杭州电子科技大学 毫米波大规模mimo中的一种混合预编码方法
CN110557177A (zh) * 2019-09-05 2019-12-10 重庆邮电大学 毫米波大规模MIMO系统中基于DenseNet的混合预编码方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9967014B1 (en) * 2016-11-09 2018-05-08 Facebook, Inc. Beamforming in antenna systems
CN110048752A (zh) * 2018-12-11 2019-07-23 杭州电子科技大学 毫米波大规模mimo中的一种混合预编码方法
CN109617585A (zh) * 2019-01-18 2019-04-12 杭州电子科技大学 毫米波大规模mimo中基于部分连接的混合预编码方法
CN110557177A (zh) * 2019-09-05 2019-12-10 重庆邮电大学 毫米波大规模MIMO系统中基于DenseNet的混合预编码方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李元稳等: "多用户毫米波MIMO系统中基于信道互易性的混合模数预编码算法", 《信号处理》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165344A (zh) * 2020-09-16 2021-01-01 杭州电子科技大学 一种基于梯度下降法的混合预编码算法
CN112260738A (zh) * 2020-10-20 2021-01-22 东南大学 基于yolo目标检测的fd-mimo下行多用户分组方法
CN112260738B (zh) * 2020-10-20 2022-02-01 东南大学 基于yolo目标检测的fd-mimo下行多用户分簇方法
CN112505628A (zh) * 2020-10-29 2021-03-16 北京遥测技术研究所 一种基于图卷积神经网络的自适应波束形成方法
CN112505628B (zh) * 2020-10-29 2023-09-29 北京遥测技术研究所 一种基于图卷积神经网络的自适应波束形成方法
CN112260733B (zh) * 2020-11-10 2022-02-01 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN113162666A (zh) * 2021-04-19 2021-07-23 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113162666B (zh) * 2021-04-19 2022-04-26 北京科技大学 一种面向智慧钢铁的大规模mimo混合预编码方法及装置
CN113193893A (zh) * 2021-04-30 2021-07-30 东南大学 毫米波大规模mimo智能混合波束成形设计方法
CN113242068A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于深度强化学习的智能通信波束碰撞避免方法
CN113242072A (zh) * 2021-05-10 2021-08-10 东南大学 一种基于卷积神经网络的混合波束形成方法
CN113422627B (zh) * 2021-05-31 2022-07-12 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113422627A (zh) * 2021-05-31 2021-09-21 北京邮电大学 一种基于自适应梯度反向传播的混合预编码方法及装置
CN113452642B (zh) * 2021-06-25 2022-04-29 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113452642A (zh) * 2021-06-25 2021-09-28 东南大学 一种可重构智能表面增强的siso-ofdm下行传输方法
CN113472472A (zh) * 2021-07-07 2021-10-01 湖南国天电子科技有限公司 基于分布式强化学习的多小区协同波束赋形方法
CN113472472B (zh) * 2021-07-07 2023-06-27 湖南国天电子科技有限公司 基于分布式强化学习的多小区协同波束赋形方法
CN113783593A (zh) * 2021-07-30 2021-12-10 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113783593B (zh) * 2021-07-30 2024-05-31 中国信息通信研究院 一种基于深度强化学习的波束选择方法和系统
CN113904704A (zh) * 2021-09-27 2022-01-07 西安邮电大学 一种基于多智能体深度强化学习的波束预测方法
CN114598368A (zh) * 2022-03-14 2022-06-07 重庆邮电大学 一种基于毫米波宽带通信的全双工鲁棒混合波束成形方法
CN116224379A (zh) * 2023-05-06 2023-06-06 中国科学院国家空间科学中心 一种nbrcs修正方法、装置、电子设备及存储介质
CN116224379B (zh) * 2023-05-06 2023-09-12 中国科学院国家空间科学中心 一种nbrcs修正方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111181619B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111181619B (zh) 基于深度强化学习的毫米波混合波束成形设计方法
CN110099017B (zh) 基于深度神经网络的混合量化系统的信道估计方法
CN107332598B (zh) 一种基于深度学习的mimo系统联合预编码和天线选择方法
CN109302224B (zh) 用于大规模mimo的混合波束赋形算法
CN110557177A (zh) 毫米波大规模MIMO系统中基于DenseNet的混合预编码方法
CN109617584A (zh) 一种基于深度学习的mimo系统波束成形矩阵设计方法
CN109714091B (zh) 一种在毫米波mimo系统中基于分层设计的迭代混合预编码方法
CN109104225A (zh) 一种能效最优的大规模mimo波束域多播传输方法
CN112260733B (zh) 基于多智能体深度强化学习的mu-miso混合预编码设计方法
CN110661555B (zh) 用于大规模mimo的部分连接的移相器网络的混合预编码算法
CN110138427B (zh) 基于部分连接的大规模多输入多输出混合波束赋形算法
CN110365388B (zh) 一种低复杂度毫米波多播波束成形方法
CN112118033B (zh) 多用户大规模mimo系统的非线性混合预编码设计方法
CN114726687B (zh) 一种智能反射面辅助毫米波大规模mimo系统的信道估计方法
CN113193893B (zh) 毫米波大规模mimo智能混合波束成形设计方法
CN110855337B (zh) 混合预编码方法、基站、电子设备及存储介质
Peng et al. Performance analysis and optimization for RIS-assisted multi-user massive MIMO systems with imperfect hardware
Zhang et al. A deep learning-based framework for low complexity multiuser MIMO precoding design
CN113839695B (zh) Fdd大规模mimo和速率最优统计预编码方法及设备
CN114204971A (zh) 一种迭代的聚合波束成形设计和用户设备选择方法
CN116633397B (zh) 一种分布式mimo系统ap子阵的阵列拓扑结构优化方法及装置
CN110492912B (zh) 一种基于分组优化的混合波束成形方法
CN117240331A (zh) 一种基于图神经网络的无蜂窝网络下行预编码设计方法
CN105429687B (zh) 一种最小化干扰功率与维度的干扰对齐方法
Kumar et al. Deep learning based massive-MIMO decoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant