CN113595606A - 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 - Google Patents
一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 Download PDFInfo
- Publication number
- CN113595606A CN113595606A CN202110864699.6A CN202110864699A CN113595606A CN 113595606 A CN113595606 A CN 113595606A CN 202110864699 A CN202110864699 A CN 202110864699A CN 113595606 A CN113595606 A CN 113595606A
- Authority
- CN
- China
- Prior art keywords
- base station
- intelligent
- user
- matrix
- phase shift
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010363 phase shift Effects 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005457 optimization Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 102
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000005540 biological transmission Effects 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 241000209094 Oryza Species 0.000 claims description 7
- 235000007164 Oryza sativa Nutrition 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 235000009566 rice Nutrition 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 235000015429 Mirabilis expansa Nutrition 0.000 description 2
- 244000294411 Mirabilis expansa Species 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013536 miso Nutrition 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0456—Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/06—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
- H04B7/0613—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
- H04B7/0615—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
- H04B7/0619—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
- H04B7/0621—Feedback content
- H04B7/0626—Channel coefficients, e.g. channel state information [CSI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,包括:基站端发送导频给单天线用户,获取角度信息、位置信息和统计信道状态信息;基站基于获取的信息离线生成大量完整信道矩阵,作为深度强化学习算法参数训练的数据集;根据生成的数据集,基站对预先设定的深度强化学习算法中的神经网络参数进行迭代更新,并对基站预编码和智能反射表面相移矩阵进行联合优化配置,使得该场景下的最小用户遍历速率达到最大化;当下一次角度或位置信息发生变化,基站再次利用深度强化学习进行基站预编码与智能反射表面相移的联合优化配置。
Description
技术领域
本发明涉及无线通信的技术领域,特别是涉及一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法。
背景技术
对于传统的无线通信系统在进行传输性能的优化设计时,主要是对发射机和接收机进行设计与优化,由于发射机与接收机都无法控制信道中的无线传输环境,因而将收发机之间的传播环境作为传输系统的外部因素,只能被动适应而不能主动改造。最近,得益于新型人工电磁材料技术的突破性进展,提出的智能反射表面技术为无线通信系统主动调整传播环境,实现可编程无线环境提供了可行的技术手段。
为了获取智能反射表面下无线通信系统传输性能的最优化,需要对基站天线预编码矩阵和智能反射表面相移矩阵进行联合优化设计。目前大多数文献都是基于瞬时信道状态信息来进行智能反射表面辅助通信的传输方案设计,即假设在每一个瞬时信道状态信息的时间尺度内,均进行系统信道信息的重新估计,再基于精确的信道状态信息进行基站和智能反射表面的参数配置,进而实现每一个瞬时尺度下的最优性能传输。这种方法虽然能够获得很好的传输性能,但是存在三个缺点:(1)在每个很短的瞬时时间尺度内进行信道的重新估计,会造成很大的信道估计开销;(2)对每一次估计的瞬时先到信息进行基站与智能反射表面参数的计算配置,大大提高了系统实现的计算复杂度;(3)每一次智能反射表面参数更新后,基站都需要将配置参数反馈给智能反射表面的控制端,这导致了很高的相位反馈开销。
利用统计信道状态信息来进行智能反射表面传输方案的设计,只需要再每一个长时间尺度内进行一次统计信道状态信息的估计,并进行一次基站和只能反射表面参数的联合优化配置,这样就可以克服基于瞬时信道状态信息情况下的三个缺点。然而,基于统计信道状态信息进行传输方案设计仍然存在一个挑战,即在统计信道状态信息下求解优化问题需要对信道中的小尺度部分求期望,一般情况下无法得到系统传输速率的闭合表达式。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,利用深度强化学习算法来求解基于统计信道状态信息下的传输速率优化问题,避免了复杂的速率推导过程,利用深度强化学习算法来求解多用户场景下最小用户传输速率的最优化,实现了用户传输速率最优化设计,相比于基于瞬时信道状态信息下的情况,大大降低了系统的信道估计开销和计算复杂度。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,包括如下步骤:
步骤S1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息,其中,
所述位置信息为K个用户的三维坐标;
所述统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk;
步骤S2、基站离线计算生成多个完整的无线信道矩阵,并将该多个完整的无线信道矩阵作为深度强化学习算法进行离线训练的数据集,其中,所述基站离线计算生成多个完整的无线信道矩阵具体包括:
步骤S201、利用步骤S1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量基站与用户k间信道视距分量智能反射表面与用户k之间信道视距分量其中ax(θ)=[1,ejθ,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置;
步骤S203、通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk,并且基站到智能发射表面的距离保持为d0,因此,基站到智能反射表面之间的路径损耗基站到第k个用户之间的路径损耗智能反射表面到第k个用户之间的路径损耗其中,PL0是在dis0=1米时的路径损耗,k=1,2,...,K。
步骤S204、分别计算三组信道矩阵,具体包括:
步骤S3、基站利用步骤S2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ,其中,在进行所述离线训练时,每一个回合的训练过程均包括:
步骤S301、按次序提取一组在步骤S2中生成的完整的无线信道矩阵数据;
步骤S303、计算系统中各用户的初始传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中表示用户k初始瞬时信干噪比,其中和分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,表示用户k端的加性高斯白噪声方差。
步骤S304、将完整的信道矩阵G0,gk和hk,和智能反射表面相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
步骤S305、判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤S309:
步骤S306、基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中表示用户k的瞬时信干噪比,其中,和表示基站天线预编码矩阵W(i)的第k列和第j列向量;
步骤S307、更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1);
步骤S308、更新循环次数i←i+1并转到步骤S305;
步骤S309、对所有循环的奖励值求平均值,作为本回合训练的参考奖励值;
步骤S4、基站通过基站与智能反射表面控制端的直接链路,将步骤S3得到的智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤S5、当角度信息或位置信息发生改变时,系统重新执行步骤S1至步骤S5。
进一步的,在所述步骤S3中,通过深度强化学习算法不断更新的神经网络参数具体包括:状态参数、动作参数、奖励函数;其中,
动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
奖励函数为基于上一次神经网络输出的动作参数下,计算得出的最小用户瞬时传输速率。
进一步的,所述步骤S3中,智能反射表面相移矩阵的反射相位参数应满足0≤θn<2π,n=1,2,…,N;基站预编码矩阵应满足功率约束其中Pt表示基站最大传输功率值,表示求期望,tr{·}表示求矩阵的迹,[·]H表示求矩阵的共轭。
本发明的有益效果是:
1、本发明采用在较长时间内保持不变的统计信道状态信息、用户位置信息和角度信息进行基站预编码与智能反射相移配置的联合优化,相比于基于瞬时信道状态信息,降低了系统在传输过程中的导频开销、系统计算的复杂度、系统对智能反射表面控制器的相位反馈开销,能实现用户遍历速率的最优化。
2、本发明采用深度强化学习算法来求解统计信道状态信息下的速率优化问题,避免了复杂的数学推导和计算,能够快速的实现优化对基站预编码与智能反射相移的联合优化配置。
3、本发明中采用深度强化学习算法进行传输方案设计,巧妙地结合了统计信道状态信息长时间保持不变的特点,使得深度强化学习算法训练的时间开销能够与长时间尺度相兼容。
附图说明
图1为实施例1中提供的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法的流程图;
图2为实施例1中提供的优化方法与基于瞬时信道反馈信息的方法在时间尺度上的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,本实施例提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,该方法针对智能反射表面辅助的多用户MISO无线传输系统,基站配置有M根天线,智能发射表面配置有N可编程的发射元素,用户配置单根接收天线。基于系统中的统计信道状态信息、用户位置及角度信息,利用深度强化学习算法进行基站预编码矩阵和智能反射相移矩阵进行联合优化设计,在一个长时间尺度内只需进行一次基站预编码和智能反射表面相移的配置,在剩余的时间空隙只需要进行数据传输。
具体的说,包括如下步骤:
在一个智能反射表面辅助的多用户MISO无线传输系统中,对系统的信道采用莱斯信道模型进行建模,基站和智能发射表面的位置已知,并同时考虑基站到用户之间的直达路径和基站经过智能反射表面到达用户的级联路径。具体的实施过程如下:
步骤1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息;
位置信息为K个用户的三维坐标。基站与智能反射表面的位置信息保持不变。
统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk。
步骤2、基站离线计算生成大量的完整的无线信道矩阵,作为深度强化学习算法进行离线训练的数据集;
计算大量的完整无线信道矩阵的过程包括以下子步骤:
a1)利用步骤1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量基站与用户k间信道视距分量智能反射表面与用户k之间信道视距分量其中ax(θ)=[1,ejθ,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置。
a3)通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk。基站到智能发射表面的距离保持为d0。因此,
a4)分别计算三组信道矩阵:
步骤3、基站利用步骤2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值的最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ。
离线训练每一个回合的训练过程包括以下子步骤:
b1)按次序提取一组在步骤2中生成的完整的信道矩阵数据;
b3)计算系统中各用户的初始传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中表示用户k初始瞬时信干噪比,其中和分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,表示用户k端的加性高斯白噪声方差。
b4)将完整的信道矩阵G0,gk和hk,和智能反射表面相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
b5)判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤b9):
b6)基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中表示用户k的瞬时信干噪比,其中,和表示基站天线预编码矩阵W(i)的第k列和第j列向量;
b7)更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1);
b8)更新循环次数i←i+1并转到步骤b5);
b9)对所有循环的奖励值求平均值,作为本回合训练的参考奖励值。
步骤4、基站通过基站与智能反射表面控制端的直接链路,将步骤3得到的智能反射表面矩阵参数智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤5、当角度信息或位置信息发生改变时,系统重新步骤1至步骤5。
具体的说,在本实施例中,步骤3中深度强化学习算法在训练过程中的参数包括:状态参数、动作参数、奖励函数;其中,动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;奖励函数为上一次神经网络输出的动作参数下,按照公式计算得出的最小用户瞬时传输速率。
具体的说,在本实施例中,步骤3中智能反射表面相移矩阵的反射相位参数应满足0≤θn<2π,n=1,2,…,N;基站预编码矩阵应满足功率约束其中Pt表示基站最大传输功率值,表示求期望,tr{·}表示求矩阵的迹,[·]H表示求矩阵的共轭转置。
通过利用深度确定性策略梯度算法进行神经网络参数的迭代更新,可以实现在用户最小速率在统计意义上的最优化收敛,绘制出智能反射表面元素个数与用户最小传输速率之间的关系如图2所示。
综上,本发明的方法基于统计信道状态信息,可以显著的降低系统传输过程中的信道估计开销和实现的复杂度。并且,本方法使用深度强化学习算法进行基站预编码和智能反射表面相移的联合优化设计,能够与长时间信道状态信息更新的时间尺度相匹配,并保证多用户系统在长时间统计意义下的传输稳定最优。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (3)
1.一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,其特征在于,包括如下步骤:
步骤S1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息,其中,
所述位置信息为K个用户的三维坐标;
所述统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk;
步骤S2、基站离线计算生成多个完整的无线信道矩阵,并将该多个完整的无线信道矩阵作为深度强化学习算法进行离线训练的数据集,其中,所述基站离线计算生成多个完整的无线信道矩阵具体包括:
步骤S201、利用步骤S1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量基站与用户k间信道视距分量智能反射表面与用户k之间信道视距分量其中ax(θ)=[1,ejθ,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置;
步骤S203、通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk,并且基站到智能发射表面的距离保持为d0,因此,基站到智能反射表面之间的路径损耗基站到第k个用户之间的路径损耗智能反射表面到第k个用户之间的路径损耗其中,PL0是在参考距离dis0=1米时的路径损耗;
步骤S204、分别计算三组信道矩阵,具体包括:
步骤S3、基站利用步骤S2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ,其中,在进行所述离线训练时,每一个回合的训练过程均包括:
步骤S301、按次序提取一组在步骤S2中生成的完整的无线信道矩阵数据;
步骤S303、计算各用户的初始传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中表示用户k初始瞬时信干噪比,其中和分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,表示用户k端的加性高斯白噪声方差;
步骤S304、将完整的信道矩阵G0,gk和hk,和智能反射表面初始相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
步骤S305、判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤S309:
步骤S306、基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中表示用户k的瞬时信干噪比,其中,和表示基站天线预编码矩阵W(i)的第k列和第j列向量;
步骤S307、更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1);
步骤S308、更新循环次数i←i+1并转到步骤S305;
步骤S309、对所有循环的奖励值求平均值,作为本回合训练的参考奖励值;
步骤S4、基站通过基站与智能反射表面控制端的直接链路,将步骤S3得到的智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤S5、当角度信息或位置信息发生改变时,系统重新执行步骤S1至步骤S5。
2.根据权利要求1所述的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,其特征在于,在所述步骤S3中,通过深度强化学习算法不断更新的神经网络参数具体包括:状态参数、动作参数、奖励函数;其中,
动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
奖励函数为基于上一次神经网络输出的动作参数下,计算得出的最小用户瞬时传输速率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864699.6A CN113595606B (zh) | 2021-07-29 | 2021-07-29 | 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110864699.6A CN113595606B (zh) | 2021-07-29 | 2021-07-29 | 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113595606A true CN113595606A (zh) | 2021-11-02 |
CN113595606B CN113595606B (zh) | 2022-08-12 |
Family
ID=78251880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110864699.6A Active CN113595606B (zh) | 2021-07-29 | 2021-07-29 | 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113595606B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115085782A (zh) * | 2022-06-15 | 2022-09-20 | 南通大学 | 基于深度学习的智能反射面联合反馈和混合预编码方法 |
WO2024082194A1 (zh) * | 2022-10-19 | 2024-04-25 | 北京小米移动软件有限公司 | 预编码方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111181618A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 一种基于深度强化学习的智能反射表面相位优化方法 |
CN111917448A (zh) * | 2020-08-13 | 2020-11-10 | 深圳大学 | 一种毫米波通信的波束训练方法、装置、系统及存储介质 |
CN112019249A (zh) * | 2020-10-22 | 2020-12-01 | 中山大学 | 一种基于深度强化学习的智能反射面调控方法及装置 |
CN112134816A (zh) * | 2020-09-27 | 2020-12-25 | 杭州电子科技大学 | 一种基于智能反射表面的elm-ls联合信道估计方法 |
WO2021033797A1 (ko) * | 2019-08-20 | 2021-02-25 | 엘지전자 주식회사 | 낮은-비트 양자화 시스템에서의 신호 송수신 방법 및 이를 위한 장치 |
CN113162876A (zh) * | 2021-05-10 | 2021-07-23 | 东南大学 | 基于深度学习的irs反射图样和信道估计的联合设计方法 |
CN113179232A (zh) * | 2021-04-22 | 2021-07-27 | 南通大学 | 一种基于深度学习的无源智能反射表面的信道估计方法 |
-
2021
- 2021-07-29 CN CN202110864699.6A patent/CN113595606B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021033797A1 (ko) * | 2019-08-20 | 2021-02-25 | 엘지전자 주식회사 | 낮은-비트 양자화 시스템에서의 신호 송수신 방법 및 이를 위한 장치 |
CN111181618A (zh) * | 2020-01-03 | 2020-05-19 | 东南大学 | 一种基于深度强化学习的智能反射表面相位优化方法 |
CN111917448A (zh) * | 2020-08-13 | 2020-11-10 | 深圳大学 | 一种毫米波通信的波束训练方法、装置、系统及存储介质 |
CN112134816A (zh) * | 2020-09-27 | 2020-12-25 | 杭州电子科技大学 | 一种基于智能反射表面的elm-ls联合信道估计方法 |
CN112019249A (zh) * | 2020-10-22 | 2020-12-01 | 中山大学 | 一种基于深度强化学习的智能反射面调控方法及装置 |
CN113179232A (zh) * | 2021-04-22 | 2021-07-27 | 南通大学 | 一种基于深度学习的无源智能反射表面的信道估计方法 |
CN113162876A (zh) * | 2021-05-10 | 2021-07-23 | 东南大学 | 基于深度学习的irs反射图样和信道估计的联合设计方法 |
Non-Patent Citations (2)
Title |
---|
YIMENG GE: "Beamforming Optimization for Intelligent Reflecting Surface Assisted MISO: A Deep Transfer Learning Approach", 《 IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY 》 * |
李苗钰: "一种面向物联网的智能反射面通信系统优化方法", 《西北工业大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115085782A (zh) * | 2022-06-15 | 2022-09-20 | 南通大学 | 基于深度学习的智能反射面联合反馈和混合预编码方法 |
CN115085782B (zh) * | 2022-06-15 | 2023-06-16 | 南通大学 | 基于深度学习的智能反射面联合反馈和混合预编码方法 |
WO2024082194A1 (zh) * | 2022-10-19 | 2024-04-25 | 北京小米移动软件有限公司 | 预编码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113595606B (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111953391B (zh) | 智能反射面辅助的多用户mimo上行能效谱效联合优化方法 | |
Hu et al. | Reconfigurable intelligent surface aided mobile edge computing: From optimization-based to location-only learning-based solutions | |
CN111010219B (zh) | 可重构智能表面辅助的多用户mimo上行链路传输方法 | |
CN113595606B (zh) | 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 | |
US7573945B2 (en) | System and method for joint maximal ratio combining using time-domain based signal processing | |
CN110611526A (zh) | 基于改进黎曼流形优化的毫米波混合模/数波束成形方法 | |
CN114978262B (zh) | 一种基于低分辨率相移器的多波束卫星通信鲁棒混合预编码方法 | |
CN113644940B (zh) | 一种基于统计csi的智能反射面的相移设计方法 | |
CN113193893B (zh) | 毫米波大规模mimo智能混合波束成形设计方法 | |
CN111970033A (zh) | 能效谱效联合优化的大规模mimo多播功率分配方法 | |
CN109067446B (zh) | 一种多天线多用户大规模天线的混合预编码方法 | |
Saglam et al. | Deep reinforcement learning based joint downlink beamforming and RIS configuration in RIS-aided MU-MISO systems under hardware impairments and imperfect CSI | |
CN112235025B (zh) | Sar约束的能效最大化多用户mimo上行预编码方法 | |
Chen | Designing STAR-RIS-Assisted Wireless Systems With Coupled and Discrete Phase Shifts: A Computationally Efficient Algorithm | |
Chu et al. | Wireless channel prediction for multi-user physical layer with deep reinforcement learning | |
CN115549745B (zh) | Ris相移设计方法、装置、计算机设备及存储介质 | |
CN116321376A (zh) | 一种基于ris辅助通信系统能耗最小方法 | |
CN103825643B (zh) | 基于信道估计误差网络鲁棒性波束成形设计方法 | |
CN114844537B (zh) | 深度学习辅助鲁棒大规模mimo收发联合方法 | |
Souto | Joint active and passive beamforming for RIS-aided MIMO communications with low-resolution phase shifts | |
CN114006639B (zh) | 一种适用于上行多用户mimo系统的分布式预编码方法 | |
Li et al. | Deep Learning Based Adaptive Phase Shift Compression and Feedback in IRS-Assisted Communication Systems | |
CN113839696A (zh) | 一种在线鲁棒的分布式多小区大规模mimo预编码方法 | |
Lu et al. | On LSTM autoencoder-based hybrid precoding for reconfigurable intelligent surface-aided multiuser millimeter-wave massive MIMO 6G systems | |
CN107888537B (zh) | 一种在大规模天线系统中改善系统复杂度的信号检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |