CN113595606A - 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 - Google Patents

一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 Download PDF

Info

Publication number
CN113595606A
CN113595606A CN202110864699.6A CN202110864699A CN113595606A CN 113595606 A CN113595606 A CN 113595606A CN 202110864699 A CN202110864699 A CN 202110864699A CN 113595606 A CN113595606 A CN 113595606A
Authority
CN
China
Prior art keywords
base station
intelligent
user
matrix
phase shift
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110864699.6A
Other languages
English (en)
Other versions
CN113595606B (zh
Inventor
任红
潘存华
寇周斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110864699.6A priority Critical patent/CN113595606B/zh
Publication of CN113595606A publication Critical patent/CN113595606A/zh
Application granted granted Critical
Publication of CN113595606B publication Critical patent/CN113595606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0413MIMO systems
    • H04B7/0456Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0619Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal using feedback from receiving side
    • H04B7/0621Feedback content
    • H04B7/0626Channel coefficients, e.g. channel state information [CSI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,包括:基站端发送导频给单天线用户,获取角度信息、位置信息和统计信道状态信息;基站基于获取的信息离线生成大量完整信道矩阵,作为深度强化学习算法参数训练的数据集;根据生成的数据集,基站对预先设定的深度强化学习算法中的神经网络参数进行迭代更新,并对基站预编码和智能反射表面相移矩阵进行联合优化配置,使得该场景下的最小用户遍历速率达到最大化;当下一次角度或位置信息发生变化,基站再次利用深度强化学习进行基站预编码与智能反射表面相移的联合优化配置。

Description

一种基于深度强化学习的基站预编码与智能反射表面相移联 合优化方法
技术领域
本发明涉及无线通信的技术领域,特别是涉及一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法。
背景技术
对于传统的无线通信系统在进行传输性能的优化设计时,主要是对发射机和接收机进行设计与优化,由于发射机与接收机都无法控制信道中的无线传输环境,因而将收发机之间的传播环境作为传输系统的外部因素,只能被动适应而不能主动改造。最近,得益于新型人工电磁材料技术的突破性进展,提出的智能反射表面技术为无线通信系统主动调整传播环境,实现可编程无线环境提供了可行的技术手段。
为了获取智能反射表面下无线通信系统传输性能的最优化,需要对基站天线预编码矩阵和智能反射表面相移矩阵进行联合优化设计。目前大多数文献都是基于瞬时信道状态信息来进行智能反射表面辅助通信的传输方案设计,即假设在每一个瞬时信道状态信息的时间尺度内,均进行系统信道信息的重新估计,再基于精确的信道状态信息进行基站和智能反射表面的参数配置,进而实现每一个瞬时尺度下的最优性能传输。这种方法虽然能够获得很好的传输性能,但是存在三个缺点:(1)在每个很短的瞬时时间尺度内进行信道的重新估计,会造成很大的信道估计开销;(2)对每一次估计的瞬时先到信息进行基站与智能反射表面参数的计算配置,大大提高了系统实现的计算复杂度;(3)每一次智能反射表面参数更新后,基站都需要将配置参数反馈给智能反射表面的控制端,这导致了很高的相位反馈开销。
利用统计信道状态信息来进行智能反射表面传输方案的设计,只需要再每一个长时间尺度内进行一次统计信道状态信息的估计,并进行一次基站和只能反射表面参数的联合优化配置,这样就可以克服基于瞬时信道状态信息情况下的三个缺点。然而,基于统计信道状态信息进行传输方案设计仍然存在一个挑战,即在统计信道状态信息下求解优化问题需要对信道中的小尺度部分求期望,一般情况下无法得到系统传输速率的闭合表达式。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,利用深度强化学习算法来求解基于统计信道状态信息下的传输速率优化问题,避免了复杂的速率推导过程,利用深度强化学习算法来求解多用户场景下最小用户传输速率的最优化,实现了用户传输速率最优化设计,相比于基于瞬时信道状态信息下的情况,大大降低了系统的信道估计开销和计算复杂度。
为了达到上述目的,本发明采用如下技术方案:
一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,包括如下步骤:
步骤S1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息,其中,
所述角度信息包括:基站到智能发射表面信号的出发角
Figure BDA0003187191170000021
从基站到智能反射表面信号的到达角
Figure BDA0003187191170000022
智能反射表面到第k个用户信号的出发角
Figure BDA0003187191170000023
基站到第k个用户信号的出发角
Figure BDA0003187191170000024
所述位置信息为K个用户的三维坐标;
所述统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk
步骤S2、基站离线计算生成多个完整的无线信道矩阵,并将该多个完整的无线信道矩阵作为深度强化学习算法进行离线训练的数据集,其中,所述基站离线计算生成多个完整的无线信道矩阵具体包括:
步骤S201、利用步骤S1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量
Figure BDA0003187191170000025
基站与用户k间信道视距分量
Figure BDA0003187191170000026
智能反射表面与用户k之间信道视距分量
Figure BDA0003187191170000027
其中ax(θ)=[1,e,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置;
步骤S202、分别计算基站与智能反射表面间信道非视距分量
Figure BDA0003187191170000028
基站与用户k之间信道非视距分量
Figure BDA0003187191170000029
和智能反射表面与用户k之间信道非视距分量
Figure BDA00031871911700000210
其中,
Figure BDA00031871911700000211
Figure BDA00031871911700000212
中的元素为随机生成,且均服从零均值单位方差的复高斯分布;
步骤S203、通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk,并且基站到智能发射表面的距离保持为d0,因此,基站到智能反射表面之间的路径损耗
Figure BDA00031871911700000213
基站到第k个用户之间的路径损耗
Figure BDA00031871911700000214
智能反射表面到第k个用户之间的路径损耗
Figure BDA0003187191170000031
其中,PL0是在dis0=1米时的路径损耗,k=1,2,...,K。
步骤S204、分别计算三组信道矩阵,具体包括:
基站与智能反射表面间信道矩阵
Figure BDA0003187191170000032
基站与用户k间信道矩阵
Figure BDA0003187191170000033
智能反射表面与用户k之间的信道矩阵
Figure BDA0003187191170000034
步骤S3、基站利用步骤S2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ,其中,在进行所述离线训练时,每一个回合的训练过程均包括:
步骤S301、按次序提取一组在步骤S2中生成的完整的无线信道矩阵数据;
步骤S302、初始化循环次数i←0,初始化智能反射表面的反射相位
Figure BDA0003187191170000035
构造智能反射表面初始相移矩阵
Figure BDA0003187191170000036
初始化基站天线预编码矩阵W(0),设定单个回合循环的最大次数;
步骤S303、计算系统中各用户的初始传输速率
Figure BDA0003187191170000037
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中
Figure BDA0003187191170000038
表示用户k初始瞬时信干噪比,其中
Figure BDA0003187191170000039
Figure BDA00031871911700000310
分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,
Figure BDA00031871911700000311
表示用户k端的加性高斯白噪声方差。
步骤S304、将完整的信道矩阵G0,gk和hk,和智能反射表面相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
步骤S305、判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤S309:
步骤S306、基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率
Figure BDA0003187191170000041
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中
Figure BDA0003187191170000042
表示用户k的瞬时信干噪比,其中,
Figure BDA0003187191170000043
Figure BDA0003187191170000044
表示基站天线预编码矩阵W(i)的第k列和第j列向量;
步骤S307、更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1)
步骤S308、更新循环次数i←i+1并转到步骤S305;
步骤S309、对所有循环的奖励值求平均值,作为本回合训练的参考奖励值;
步骤S4、基站通过基站与智能反射表面控制端的直接链路,将步骤S3得到的智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤S5、当角度信息或位置信息发生改变时,系统重新执行步骤S1至步骤S5。
进一步的,在所述步骤S3中,通过深度强化学习算法不断更新的神经网络参数具体包括:状态参数、动作参数、奖励函数;其中,
动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
奖励函数为基于上一次神经网络输出的动作参数下,计算得出的最小用户瞬时传输速率。
进一步的,所述步骤S3中,智能反射表面相移矩阵的反射相位参数应满足0≤θn<2π,n=1,2,…,N;基站预编码矩阵应满足功率约束
Figure BDA0003187191170000045
其中Pt表示基站最大传输功率值,
Figure BDA0003187191170000046
表示求期望,tr{·}表示求矩阵的迹,[·]H表示求矩阵的共轭。
本发明的有益效果是:
1、本发明采用在较长时间内保持不变的统计信道状态信息、用户位置信息和角度信息进行基站预编码与智能反射相移配置的联合优化,相比于基于瞬时信道状态信息,降低了系统在传输过程中的导频开销、系统计算的复杂度、系统对智能反射表面控制器的相位反馈开销,能实现用户遍历速率的最优化。
2、本发明采用深度强化学习算法来求解统计信道状态信息下的速率优化问题,避免了复杂的数学推导和计算,能够快速的实现优化对基站预编码与智能反射相移的联合优化配置。
3、本发明中采用深度强化学习算法进行传输方案设计,巧妙地结合了统计信道状态信息长时间保持不变的特点,使得深度强化学习算法训练的时间开销能够与长时间尺度相兼容。
附图说明
图1为实施例1中提供的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法的流程图;
图2为实施例1中提供的优化方法与基于瞬时信道反馈信息的方法在时间尺度上的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,本实施例提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,该方法针对智能反射表面辅助的多用户MISO无线传输系统,基站配置有M根天线,智能发射表面配置有N可编程的发射元素,用户配置单根接收天线。基于系统中的统计信道状态信息、用户位置及角度信息,利用深度强化学习算法进行基站预编码矩阵和智能反射相移矩阵进行联合优化设计,在一个长时间尺度内只需进行一次基站预编码和智能反射表面相移的配置,在剩余的时间空隙只需要进行数据传输。
具体的说,包括如下步骤:
在一个智能反射表面辅助的多用户MISO无线传输系统中,对系统的信道采用莱斯信道模型进行建模,基站和智能发射表面的位置已知,并同时考虑基站到用户之间的直达路径和基站经过智能反射表面到达用户的级联路径。具体的实施过程如下:
步骤1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息;
位置信息为K个用户的三维坐标。基站与智能反射表面的位置信息保持不变。
角度信息包括:基站到智能发射表面信号的出发角
Figure BDA0003187191170000061
从基站到智能反射表面信号的到达角
Figure BDA0003187191170000062
智能反射表面到第k个用户信号的出发角
Figure BDA0003187191170000063
基站到第k个用户信号的出发角
Figure BDA0003187191170000064
统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk
步骤2、基站离线计算生成大量的完整的无线信道矩阵,作为深度强化学习算法进行离线训练的数据集;
计算大量的完整无线信道矩阵的过程包括以下子步骤:
a1)利用步骤1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量
Figure BDA0003187191170000065
基站与用户k间信道视距分量
Figure BDA0003187191170000066
智能反射表面与用户k之间信道视距分量
Figure BDA0003187191170000067
其中ax(θ)=[1,e,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置。
a2)分别计算基站与智能反射表面间信道非视距分量
Figure BDA0003187191170000068
基站与用户k之间信道非视距分量
Figure BDA0003187191170000069
和智能反射表面与用户k之间信道非视距分量
Figure BDA00031871911700000610
Figure BDA00031871911700000611
Figure BDA00031871911700000612
中的元素为随机生成,且均服从零均值单位方差的复高斯分布;
a3)通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk。基站到智能发射表面的距离保持为d0。因此,
基站到智能反射表面之间的路径损耗
Figure BDA00031871911700000613
基站到第k个用户之间的路径损耗
Figure BDA00031871911700000614
智能反射表面到第k个用户之间的路径损耗
Figure BDA00031871911700000615
其中PL0是在dis0=1米的路径损耗;
a4)分别计算三组信道矩阵:
基站与智能反射表面间信道矩阵
Figure BDA0003187191170000071
基站与用户k间信道矩阵
Figure BDA0003187191170000072
智能反射表面与用户k之间的信道矩阵
Figure BDA0003187191170000073
步骤3、基站利用步骤2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值的最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ。
离线训练每一个回合的训练过程包括以下子步骤:
b1)按次序提取一组在步骤2中生成的完整的信道矩阵数据;
b2)初始化循环次数i←0,初始化智能反射表面的反射相位
Figure BDA0003187191170000074
构造智能反射表面初始相移矩阵
Figure BDA0003187191170000075
初始化基站天线预编码矩阵W(0),设定单个回合循环的最大次数;
b3)计算系统中各用户的初始传输速率
Figure BDA0003187191170000076
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中
Figure BDA0003187191170000077
表示用户k初始瞬时信干噪比,其中
Figure BDA0003187191170000078
Figure BDA0003187191170000079
分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,
Figure BDA00031871911700000710
表示用户k端的加性高斯白噪声方差。
b4)将完整的信道矩阵G0,gk和hk,和智能反射表面相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
b5)判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤b9):
b6)基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率
Figure BDA0003187191170000081
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中
Figure BDA0003187191170000082
表示用户k的瞬时信干噪比,其中,
Figure BDA0003187191170000083
Figure BDA0003187191170000084
表示基站天线预编码矩阵W(i)的第k列和第j列向量;
b7)更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1)
b8)更新循环次数i←i+1并转到步骤b5);
b9)对所有循环的奖励值求平均值,作为本回合训练的参考奖励值。
步骤4、基站通过基站与智能反射表面控制端的直接链路,将步骤3得到的智能反射表面矩阵参数智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤5、当角度信息或位置信息发生改变时,系统重新步骤1至步骤5。
具体的说,在本实施例中,步骤3中深度强化学习算法在训练过程中的参数包括:状态参数、动作参数、奖励函数;其中,动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;奖励函数为上一次神经网络输出的动作参数下,按照公式计算得出的最小用户瞬时传输速率。
具体的说,在本实施例中,步骤3中智能反射表面相移矩阵的反射相位参数应满足0≤θn<2π,n=1,2,…,N;基站预编码矩阵应满足功率约束
Figure BDA0003187191170000085
其中Pt表示基站最大传输功率值,
Figure BDA0003187191170000086
表示求期望,tr{·}表示求矩阵的迹,[·]H表示求矩阵的共轭转置。
通过利用深度确定性策略梯度算法进行神经网络参数的迭代更新,可以实现在用户最小速率在统计意义上的最优化收敛,绘制出智能反射表面元素个数与用户最小传输速率之间的关系如图2所示。
综上,本发明的方法基于统计信道状态信息,可以显著的降低系统传输过程中的信道估计开销和实现的复杂度。并且,本方法使用深度强化学习算法进行基站预编码和智能反射表面相移的联合优化设计,能够与长时间信道状态信息更新的时间尺度相匹配,并保证多用户系统在长时间统计意义下的传输稳定最优。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,其特征在于,包括如下步骤:
步骤S1、基站配置有M根天线,智能发射表面配置有N个可编程的发射单元,用户配置单根接收天线;当用户的位置信息或者角度信息发生改变时,基站获取角度信息、位置信息和统计信道信息,其中,
所述角度信息包括:基站到智能发射表面信号的出发角
Figure FDA0003187191160000011
从基站到智能反射表面信号的到达角
Figure FDA0003187191160000012
智能反射表面到第k个用户信号的出发角
Figure FDA0003187191160000013
基站到第k个用户信号的出发角
Figure FDA0003187191160000014
所述位置信息为K个用户的三维坐标;
所述统计信道信息包括:基站与智能反射表面信道的莱斯因子α,基站与用户k间信道的莱斯因子βk,智能反射表面与用户k间信道的莱斯因子γk
步骤S2、基站离线计算生成多个完整的无线信道矩阵,并将该多个完整的无线信道矩阵作为深度强化学习算法进行离线训练的数据集,其中,所述基站离线计算生成多个完整的无线信道矩阵具体包括:
步骤S201、利用步骤S1获取到的角度信息,分别计算基站与智能反射表面间信道视距分量
Figure FDA0003187191160000015
基站与用户k间信道视距分量
Figure FDA0003187191160000016
智能反射表面与用户k之间信道视距分量
Figure FDA0003187191160000017
其中ax(θ)=[1,e,…,ej(x-1)θ]T,x=M,N,[·]T表示求矩阵的转置;
步骤S202、分别计算基站与智能反射表面间信道非视距分量
Figure FDA0003187191160000018
基站与用户k之间信道非视距分量
Figure FDA0003187191160000019
和智能反射表面与用户k之间信道非视距分量
Figure FDA00031871911600000110
其中,
Figure FDA00031871911600000111
Figure FDA00031871911600000112
中的元素为随机生成,且均服从零均值单位方差的复高斯分布;
步骤S203、通过K个用户的位置信息,分别计算基站和智能发射表面到用户k的距离dk和Dk,并且基站到智能发射表面的距离保持为d0,因此,基站到智能反射表面之间的路径损耗
Figure FDA00031871911600000113
基站到第k个用户之间的路径损耗
Figure FDA00031871911600000114
智能反射表面到第k个用户之间的路径损耗
Figure FDA0003187191160000021
其中,PL0是在参考距离dis0=1米时的路径损耗;
步骤S204、分别计算三组信道矩阵,具体包括:
基站与智能反射表面间信道矩阵
Figure FDA0003187191160000022
基站与用户k间信道矩阵
Figure FDA0003187191160000023
智能反射表面与用户k之间的信道矩阵
Figure FDA0003187191160000024
步骤S3、基站利用步骤S2得到的数据集进行离线训练,不断地更新深度强化学习算法的神经网络参数,使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值最优化收敛,保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ,其中,在进行所述离线训练时,每一个回合的训练过程均包括:
步骤S301、按次序提取一组在步骤S2中生成的完整的无线信道矩阵数据;
步骤S302、初始化循环次数i←0,初始化智能反射表面的反射相位
Figure FDA0003187191160000025
构造智能反射表面初始相移矩阵
Figure FDA0003187191160000026
初始化基站天线预编码矩阵W(0),设定单个回合循环的最大次数;
步骤S303、计算各用户的初始传输速率
Figure FDA0003187191160000027
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(0),其中
Figure FDA0003187191160000028
表示用户k初始瞬时信干噪比,其中
Figure FDA0003187191160000029
Figure FDA00031871911600000210
分别表示基站天线预编码矩阵W(0)的第k列和第j列向量,
Figure FDA00031871911600000211
表示用户k端的加性高斯白噪声方差;
步骤S304、将完整的信道矩阵G0,gk和hk,和智能反射表面初始相移矩阵Φ(0)、基站天线预编码矩阵W(0)作为神经网络的输入,下一次训练时的智能反射表面相移矩阵Φ(1)和基站天线预编码矩阵W(1)作为神经网络的输出;
步骤S305、判断循环终止条件,如果循环次数小于最大循环次数,则重复以下操作,否则转到步骤S309:
步骤S306、基于上一循环神经网络输出的智能反射表面相移矩阵Φ(i)和基站天线预编码矩阵W(i),重新计算系统中各用户的传输速率
Figure FDA0003187191160000031
提取所有用户传输速率中的最小值作为当前循环的奖励函数值r(i),其中
Figure FDA0003187191160000032
表示用户k的瞬时信干噪比,其中,
Figure FDA0003187191160000033
Figure FDA0003187191160000034
表示基站天线预编码矩阵W(i)的第k列和第j列向量;
步骤S307、更新神经网络输入的智能反射表面相移矩阵为Φ(i),基站天线预编码矩阵为W(i),得到下一个循环的输出参数为Φ(i+1)和W(i+1)
步骤S308、更新循环次数i←i+1并转到步骤S305;
步骤S309、对所有循环的奖励值求平均值,作为本回合训练的参考奖励值;
步骤S4、基站通过基站与智能反射表面控制端的直接链路,将步骤S3得到的智能反射表面相移矩阵Φ传输给智能反射表面的控制端,并进行相应的配置;
步骤S5、当角度信息或位置信息发生改变时,系统重新执行步骤S1至步骤S5。
2.根据权利要求1所述的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,其特征在于,在所述步骤S3中,通过深度强化学习算法不断更新的神经网络参数具体包括:状态参数、动作参数、奖励函数;其中,
动作参数为深度神经网络输出的参数,包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
状态参数包括每一各训练回合设定的完整信道矩阵G0,gk和hk的实部和虚部,以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部;
奖励函数为基于上一次神经网络输出的动作参数下,计算得出的最小用户瞬时传输速率。
3.根据权力要求1所述的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法,其特征在于,所述步骤S3中,智能反射表面相移矩阵的反射相位参数应满足0≤θn<2π,n=1,2,…,N;基站预编码矩阵应满足功率约束
Figure FDA0003187191160000035
其中Pt表示基站最大传输功率值,
Figure FDA0003187191160000036
表示求期望,tr{·}表示求矩阵的迹,[·]H表示求矩阵的共轭。
CN202110864699.6A 2021-07-29 2021-07-29 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法 Active CN113595606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110864699.6A CN113595606B (zh) 2021-07-29 2021-07-29 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110864699.6A CN113595606B (zh) 2021-07-29 2021-07-29 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法

Publications (2)

Publication Number Publication Date
CN113595606A true CN113595606A (zh) 2021-11-02
CN113595606B CN113595606B (zh) 2022-08-12

Family

ID=78251880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110864699.6A Active CN113595606B (zh) 2021-07-29 2021-07-29 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法

Country Status (1)

Country Link
CN (1) CN113595606B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085782A (zh) * 2022-06-15 2022-09-20 南通大学 基于深度学习的智能反射面联合反馈和混合预编码方法
WO2024082194A1 (zh) * 2022-10-19 2024-04-25 北京小米移动软件有限公司 预编码方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111917448A (zh) * 2020-08-13 2020-11-10 深圳大学 一种毫米波通信的波束训练方法、装置、系统及存储介质
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112134816A (zh) * 2020-09-27 2020-12-25 杭州电子科技大学 一种基于智能反射表面的elm-ls联合信道估计方法
WO2021033797A1 (ko) * 2019-08-20 2021-02-25 엘지전자 주식회사 낮은-비트 양자화 시스템에서의 신호 송수신 방법 및 이를 위한 장치
CN113162876A (zh) * 2021-05-10 2021-07-23 东南大学 基于深度学习的irs反射图样和信道估计的联合设计方法
CN113179232A (zh) * 2021-04-22 2021-07-27 南通大学 一种基于深度学习的无源智能反射表面的信道估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021033797A1 (ko) * 2019-08-20 2021-02-25 엘지전자 주식회사 낮은-비트 양자화 시스템에서의 신호 송수신 방법 및 이를 위한 장치
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111917448A (zh) * 2020-08-13 2020-11-10 深圳大学 一种毫米波通信的波束训练方法、装置、系统及存储介质
CN112134816A (zh) * 2020-09-27 2020-12-25 杭州电子科技大学 一种基于智能反射表面的elm-ls联合信道估计方法
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN113179232A (zh) * 2021-04-22 2021-07-27 南通大学 一种基于深度学习的无源智能反射表面的信道估计方法
CN113162876A (zh) * 2021-05-10 2021-07-23 东南大学 基于深度学习的irs反射图样和信道估计的联合设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIMENG GE: "Beamforming Optimization for Intelligent Reflecting Surface Assisted MISO: A Deep Transfer Learning Approach", 《 IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY 》 *
李苗钰: "一种面向物联网的智能反射面通信系统优化方法", 《西北工业大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115085782A (zh) * 2022-06-15 2022-09-20 南通大学 基于深度学习的智能反射面联合反馈和混合预编码方法
CN115085782B (zh) * 2022-06-15 2023-06-16 南通大学 基于深度学习的智能反射面联合反馈和混合预编码方法
WO2024082194A1 (zh) * 2022-10-19 2024-04-25 北京小米移动软件有限公司 预编码方法及装置

Also Published As

Publication number Publication date
CN113595606B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN111953391B (zh) 智能反射面辅助的多用户mimo上行能效谱效联合优化方法
Hu et al. Reconfigurable intelligent surface aided mobile edge computing: From optimization-based to location-only learning-based solutions
CN111010219B (zh) 可重构智能表面辅助的多用户mimo上行链路传输方法
CN113595606B (zh) 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法
US7573945B2 (en) System and method for joint maximal ratio combining using time-domain based signal processing
CN110611526A (zh) 基于改进黎曼流形优化的毫米波混合模/数波束成形方法
CN114978262B (zh) 一种基于低分辨率相移器的多波束卫星通信鲁棒混合预编码方法
CN113644940B (zh) 一种基于统计csi的智能反射面的相移设计方法
CN113193893B (zh) 毫米波大规模mimo智能混合波束成形设计方法
CN111970033A (zh) 能效谱效联合优化的大规模mimo多播功率分配方法
CN109067446B (zh) 一种多天线多用户大规模天线的混合预编码方法
Saglam et al. Deep reinforcement learning based joint downlink beamforming and RIS configuration in RIS-aided MU-MISO systems under hardware impairments and imperfect CSI
CN112235025B (zh) Sar约束的能效最大化多用户mimo上行预编码方法
Chen Designing STAR-RIS-Assisted Wireless Systems With Coupled and Discrete Phase Shifts: A Computationally Efficient Algorithm
Chu et al. Wireless channel prediction for multi-user physical layer with deep reinforcement learning
CN115549745B (zh) Ris相移设计方法、装置、计算机设备及存储介质
CN116321376A (zh) 一种基于ris辅助通信系统能耗最小方法
CN103825643B (zh) 基于信道估计误差网络鲁棒性波束成形设计方法
CN114844537B (zh) 深度学习辅助鲁棒大规模mimo收发联合方法
Souto Joint active and passive beamforming for RIS-aided MIMO communications with low-resolution phase shifts
CN114006639B (zh) 一种适用于上行多用户mimo系统的分布式预编码方法
Li et al. Deep Learning Based Adaptive Phase Shift Compression and Feedback in IRS-Assisted Communication Systems
CN113839696A (zh) 一种在线鲁棒的分布式多小区大规模mimo预编码方法
Lu et al. On LSTM autoencoder-based hybrid precoding for reconfigurable intelligent surface-aided multiuser millimeter-wave massive MIMO 6G systems
CN107888537B (zh) 一种在大规模天线系统中改善系统复杂度的信号检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant