CN113452642B - 一种可重构智能表面增强的siso-ofdm下行传输方法 - Google Patents

一种可重构智能表面增强的siso-ofdm下行传输方法 Download PDF

Info

Publication number
CN113452642B
CN113452642B CN202110708814.0A CN202110708814A CN113452642B CN 113452642 B CN113452642 B CN 113452642B CN 202110708814 A CN202110708814 A CN 202110708814A CN 113452642 B CN113452642 B CN 113452642B
Authority
CN
China
Prior art keywords
network
action
state
output
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110708814.0A
Other languages
English (en)
Other versions
CN113452642A (zh
Inventor
李潇
黄文婷
金石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202110708814.0A priority Critical patent/CN113452642B/zh
Publication of CN113452642A publication Critical patent/CN113452642A/zh
Application granted granted Critical
Publication of CN113452642B publication Critical patent/CN113452642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L27/00Modulated-carrier systems
    • H04L27/26Systems using multi-frequency codes
    • H04L27/2601Multicarrier modulation systems
    • H04L27/2602Signal structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L27/00Modulated-carrier systems
    • H04L27/26Systems using multi-frequency codes
    • H04L27/2601Multicarrier modulation systems
    • H04L27/2626Arrangements specific to the transmitter only

Abstract

本发明公开了一种可重构智能表面增强的SISO‑OFDM下行传输方法,该传输方法中基站发送的信号可经可重构智能表面反射到达用户端,可重构智能表面能改变入射到其上的信号的相位,从而达到在接收用户端增强其接收信号的效果。该方法中基站和可重构智能表面利用已知的信道状态信息,基于系统频谱效率最大化原则,通过注水功率分配算法和深度强化学习算法联合设计发射功率分配和可重构智能表面处反射相移矩阵。本发明收敛速度快,以相对传统数值方法较低的计算复杂度和时延获得较高的系统吞吐量。

Description

一种可重构智能表面增强的SISO-OFDM下行传输方法
技术领域
本发明涉及可重构智能表面辅助的SISO-OFDM下行系统自适应传输技术领域,特别是涉及一种可重构智能表面增强的SISO-OFDM下行传输方法。
背景技术
可重构智能表面(RIS,reconfigurable intelligent surface)作为一种可以经济高效地提高频谱效率和覆盖范围的有效方法被视为新一代无线通信中极具应用前景的技术之一。RIS是一种由大量无源反射元件组成的超表面,可以实时动态调整反射信号的幅度和/或相位,从而实现智能的无线电传播环境重配置。此外,RIS仅依赖于无源信号的反射,因此与传统的有源收发器/继电器相比,大大降低了硬件成本和能耗。同时,RIS在实际部署中也展现出极大的灵活性和兼容性。将具有适量反射元件的RIS部署到多输入多输出(MIMO,multiple input multiple output)系统中可以减少基站所需的天线数。除此以外,RIS可在毫米波(mmWave,millimeter wave)信号被障碍物阻塞时提供反射径以维持设备间的正常通信。综上可见,RIS的引入为实现通信服务质量提升以及部署开销缩减的双赢目标提供了可能性。
然而,实际部署的RIS反射元件数量一般是从几千个到几万个变化且RIS处存在恒模约束,因而如何在RIS辅助的无线通信系统中通过联合设计提高通信性能是一个多任务问题。传统设计方法有逐次凸逼近和半正定松弛算法等,这些传统算法在RIS反射元件数量较少时可以显示出较好的性能,但随着反射元件数目的增长,计算复杂度呈指数增长,会引入较大的通信处理时延而无法满足实时通信的需求。若将这些传统数值算法应用于宽带系统,则设计复杂度进一步提高,这主要归因于宽带系统中各子载波信道不一致,单个子载波信道的最优设计对于其他子载波将不再是最优,这就需要具有低时间成本和高性能的联合设计算法来进一步解决这些问题。
现有针对RIS处反射矩阵设计的低复杂度算法的研究主要是基于对RIS处反射模式的设计或使用深度学习方法,RIS处反射模式的设计需要基于多次信道试验才能获得最佳模式,深度学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感。这些方法是以牺牲一定的系统性能来换取时间复杂度的下降,无法实现双赢目标,实际应用困难。
发明内容
有鉴于此,本发明的目的在于提供一种可重构智能表面增强的SISO-OFDM下行传输方法,用以解决背景技术中提及的技术问题。本发明为基站配置单根天线,部署多个单天线用户并放置RIS提升通信服务质量,利用注水算法和深度强化学习算法联合设计发射功率矢量和RIS处相移偏置矩阵以最大化系统频谱效率;基于深度强化学习智能体无需对环境建模的特性和深度神经网络强大的解决非线性优化问题的能力,因而利用深度强化学习算法设计反射矩阵能够有效抑制干扰,降低所需时间成本且对信道衰落变化具有很好的鲁棒性。
为了达到上述目的,本发明采用如下技术方案:
一种可重构智能表面增强的SISO-OFDM下行传输方法,包括以下步骤:
步骤S1、基站配置单根天线,且服务K个单天线用户,所述可重构智能表面配置均匀平面反射阵,该均匀平面反射阵包括M=a×b个反射单元,其中,垂直方向a行反射单元,水平方向每行b个反射单元;系统整体带宽被划分为N个子载波,各用户使用不同的子载波,Sk,k=1,2,…,K,为用户k的子载波索引并满足
Figure BDA0003132434760000021
基站和可重构智能表面已知用户的信道状态信息;
所述信道状态信息包括:基站到用户k,k=1,2,…,K,的具有L0个抽头的直接路径时域基带等效多径信道向量
Figure BDA0003132434760000022
基站到可重构智能表面第m个反射元件的具有L1个抽头的时域等效多径信道向量
Figure BDA0003132434760000023
可重构智能表面第m个反射元件到用户k的具有L2个抽头的时域等效多径信道向量
Figure BDA0003132434760000024
其中,(·)T表示转置;
步骤S2、构建智能体X的经验池及深度强化学习神经网络,包括:动作输出现实网络A、动作输出目标网络
Figure BDA0003132434760000025
状态动作评价现实网络C和状态动作评价目标网络
Figure BDA0003132434760000026
所述动作输出现实网络A和动作输出目标网络
Figure BDA0003132434760000027
构成智能体X的动作网络;所述状态动作评价现实网络C和状态动作评价目标网络
Figure BDA0003132434760000028
构成智能体X的评价网络;经验池D用于存储智能体X学习过程中产生的样本;将可重构智能表面视为智能体X;将整个SISO-OFDM通信环境作为智能体X的外部环境;
所述智能体X在t时刻的环境状态的表达式为:
Figure BDA0003132434760000029
公式中,
Figure BDA0003132434760000031
m=1,2,…,M为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的系统频谱效率,E(t-1)是t-1时刻的反射路径能量,环境输出奖励值r(t)评价动作输出现实网络A在当前状态s(t)下输出的动作;
所述动作输出现实网络A,其网络参数为
Figure BDA0003132434760000032
动作输出现实网络函数用πA(·)表示,根据当前t时刻的环境状态
Figure BDA0003132434760000033
选择最优动作
Figure BDA0003132434760000034
将A(t)与服从标准正态分布的探索噪声
Figure BDA0003132434760000035
相加得到智能体X的动作:
Figure BDA0003132434760000036
将向量a(t)的M个元素作为当前t时刻可重构智能表面反射元件的相移参数;
所述动作输出目标网络
Figure BDA0003132434760000037
其网络结构与动作输出现实网络A一致,网络参数
Figure BDA0003132434760000038
每隔NT个时刻基于动作输出现实网络A的网络参数软更新一次;
所述状态动作评价现实网络C,其网络参数为
Figure BDA0003132434760000039
QC(·)表示状态动作评价现实网络函数,计算当前t时刻的状态动作对的价值函数
Figure BDA00031324347600000310
所述状态动作评价目标网络
Figure BDA00031324347600000311
其网络结构与状态动作评价现实网络C一致,网络参数
Figure BDA00031324347600000312
每隔NT个时刻基于状态动作评价现实网络C的网络参数软更新一次;
所述容量为ND的经验池D用于存放学习过程中每个时刻产生的经验四元组{s(t),a(t),r(t),s(t+1)};
步骤S3、随机初始化动作输出现实网络A的网络参数
Figure BDA00031324347600000313
及状态动作评价现实网络C的网络参数
Figure BDA00031324347600000314
并令动作输出目标网络
Figure BDA00031324347600000315
和状态动作评价目标网络
Figure BDA00031324347600000316
的网络参数分别满足
Figure BDA00031324347600000317
Figure BDA00031324347600000318
初始化单次随机采样数量NB;可重构智能表面在t=0时刻的相位矩阵
Figure BDA00031324347600000319
中的各个相位从[-π,π]中随机选取;计算t=0时刻可重构智能表面的相移偏置矩阵
Figure BDA00031324347600000320
根据信道状态信息和可重构智能表面的相移偏置矩阵,利用下式计算t=0时刻用户k,k=1,2,…,K,在其所使用的子载波n上的信噪比:
Figure BDA0003132434760000041
公式中,
Figure BDA0003132434760000042
为补零后的基站至用户k直接路径时域基带等效多径信道向量,
Figure BDA0003132434760000043
为补零后的基站经可重构智能表面反射至用户k的时域基带等效多径信道矩阵,
Figure BDA0003132434760000044
为补零后的基站经可重构智能表面第m个反射元件至用户k的时域基带等效多径信道向量且L3=L1+L2-1为其非零元素个数,fn表示N×N维DFT矩阵FN的第n列,Γ是实际编码调制方案对系统容量的影响因子,σ2为噪声功率,(·)H表示共轭转置,|·|表示取绝对值;t=0时刻子载波n上的发射功率
Figure BDA0003132434760000045
用下式计算:
Figure BDA0003132434760000046
公式中,(x)+=max(0,x),注水参数
Figure BDA0003132434760000047
满足
Figure BDA0003132434760000048
Pt为基站总发射功率;用下式计算用户k在t=0时刻的频谱效率:
Figure BDA0003132434760000049
公式中,NCP为循环前缀以避免OFDM符号间干扰;
利用下式计算t=0时刻的系统频谱效率:
Figure BDA00031324347600000410
利用下式计算t=0时刻的反射路径能量:
Figure BDA00031324347600000411
令t=t+1且
Figure BDA00031324347600000412
步骤S4、将t时刻的状态s(t)作为动作输出网络的输入,该网络输出t时刻的动作
Figure BDA0003132434760000051
将A(t)与服从标准正态分布的探索噪声
Figure BDA0003132434760000052
相加得到智能体X的动作:
Figure BDA0003132434760000053
基于动作a(t)计算可重构智能表面的相位偏置矩阵:
Figure BDA0003132434760000054
利用下式计算t时刻用户k,k=1,2,…,K,在子载波n上的信噪比:
Figure BDA0003132434760000055
用下式计算t时刻子载波n上的发射功率:
Figure BDA0003132434760000056
其中,λ满足
Figure BDA0003132434760000057
Pt为基站总发射功率;利用下式计算系统频谱效率C(t)并作为t时刻的奖励r(t)
Figure BDA0003132434760000058
利用下式计算t时刻的反射路径能量E(t)
Figure BDA0003132434760000059
则t+1时刻的状态
Figure BDA00031324347600000510
将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;
步骤S5、智能体X将状态动作对(s(t),a(t))输入状态动作评价现实网络C中,输出状态动作对(s(t),a(t))的评价值
Figure BDA0003132434760000061
随后从经验池随机采样NB个样本;
所述随机采样具体包括如下步骤:
若t≥NB,则从经验池D中随机选择NB个样本
Figure BDA0003132434760000062
其中每个样本均为学习过程中存入经验池中的四元组,进入步骤S6;
若t<NB,则不采样并令t=t+1,转到步骤S4;
步骤S6、利用采样结果对动作输出网络和评价网络进行梯度下降更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,直到|C(t)-C(t-1)|≤ε,
Figure BDA0003132434760000063
则停止迭代转到步骤S7,否则令t=t+1并转到步骤S4;
步骤S7、将当前时刻t所得的可重构智能表面的相位偏置矩阵
Figure BDA0003132434760000064
及各子载波n上分配的发射功率
Figure BDA0003132434760000065
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵
Figure BDA0003132434760000066
和相应的最佳基站功率分配方案。
进一步的,在所述步骤S6中,所述对动作输出网络和评价网络进行梯度下降更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括如下步骤:
步骤S601、将所采的NB个样本的状态动作对输入评价目标网络
Figure BDA0003132434760000067
得到相应的状态动作对的价值函数估计值
Figure BDA0003132434760000068
i=1,…,NB;按照Bellman方程计算得到价值函数目标值
Figure BDA0003132434760000069
γ∈(0,1)为奖励函数的折扣因子,
Figure BDA00031324347600000610
为动作输出目标网络
Figure BDA00031324347600000611
根据s(i+1)产生的动作;
步骤S602、计算所采NB个样本的均方误差作为评价现实网络C的损失函数:
Figure BDA00031324347600000612
损失函数中同时涉及到动作输出现实网络A和评价现实网络C的网络参数更新,更新的目标是让评价现实网络C的输出
Figure BDA00031324347600000613
与目标y(i)尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure BDA0003132434760000071
Figure BDA0003132434760000072
公式中,E[·]表示求期望,
Figure BDA0003132434760000073
为NB个样本的评价现实网络C的累计价值函数;
步骤S603、当t=lNT,
Figure BDA0003132434760000074
时对动作目标网络
Figure BDA0003132434760000075
和评价目标网络
Figure BDA0003132434760000076
的网络参数
Figure BDA0003132434760000077
Figure BDA0003132434760000078
进行软更新:
Figure BDA0003132434760000079
Figure BDA00031324347600000710
公式中,τ<<1为软更新参数。
进一步的,所述动作输出现实网络A、动作输出目标网络
Figure BDA00031324347600000711
状态动作评价现实网络C和状态动作评价目标网络
Figure BDA00031324347600000712
均包括四个全连接层:输入层、两个隐藏层和输出层,其中,隐藏层使用ReLU激活函数,动作网络输出层使用tanh激活函数。
进一步的,所述步骤S2以及步骤S6中的动作输出现实网络A、动作输出目标网络
Figure BDA00031324347600000713
状态动作评价现实网络C和状态动作评价目标网络
Figure BDA00031324347600000714
的网络参数包括全连接层的权重和偏置。
本发明的有益效果是:
1、本发明对信道快衰落具有很好的鲁棒性,适用于各种典型的无线通信环境;
2、本发明中的发射功率矢量和RIS处相移偏置矩阵联合设计方法收敛速度快、易于实现,特别是在用户数和天线数较大的时候,本方法的计算效率与传统的计算方法相比提高了数倍;3、本发明能以较低的时间成本获得较高的系统频谱效率。
附图说明
图1为实施例1中采用深度强化学习智能体优化RIS相移偏置矩阵的网络框架图;
图2为实施例1中采用的智能体中动作输出网络和状态动作评价网络的网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,本实施例提供一种可重构智能表面增强的SISO-OFDM下行传输方法,具体的说,考虑一个RIS辅助的SISO-OFDM系统中,基于频谱效率最大化准则,联合设计发射功率矢量以及RIS反射相移偏置矩阵:更具体的说,包括如下的步骤:
步骤一、基站处配置单根天线,服务K=2个单天线用户,可重构智能表面配置均匀平面反射阵,共M=a×b=100个反射单元,包括垂直方向a=10行反射单元,水平方向每行b=10个反射单元;系统整体带宽被划分为N=64个子载波,各用户使用不同的子载波,Sk为用户k,k=1,2,的子载波索引,考虑到公平性,每个用户分配32个子载波,S1={n|n=0,1,…,31},S2={n|n=32,33,…,63};基站和可重构智能表面已知用户的信道状态信息;
所述信道状态信息包括:
1、基站到用户k的具有L0=16个抽头的直接路径时域基带等效多径信道向量
Figure BDA0003132434760000081
2、基站到可重构智能表面第m个反射元件的具有L1=4个抽头的时域等效多径信道向量
Figure BDA0003132434760000082
3、可重构智能表面第m个反射元件到用户k的具有L2=13个抽头的时域等效多径信道向量
Figure BDA0003132434760000083
(·)T表示转置。
步骤二、如图1所示,构建智能体X的经验池及深度强化学习神经网络,包括:动作输出现实网络A、动作输出目标网络
Figure BDA0003132434760000084
状态动作评价现实网络C和状态动作评价目标网络
Figure BDA0003132434760000085
动作输出现实网络A和动作输出目标网络
Figure BDA0003132434760000086
构成智能体X的动作网络;状态动作评价现实网络C和状态动作评价目标网络
Figure BDA0003132434760000087
构成智能体X的评价网络;动作网络的输入层包含102神经元,两层隐藏层分别包含300、200个神经元,输出层包含100个神经元;评价网络输入层包含202个神经元,两个隐藏层的神经元个数与动作网络一致,输出层包含1个神经元;隐藏层使用ReLU激活函数,动作网络输出层使用tanh激活函数,如图2所示;经验池D用于存储智能体X学习过程中产生的样本;将可重构智能表面视为智能体X;将整个SISO-OFDM通信环境作为智能体X的外部环境;
所述智能体X在t时刻的环境状态为
Figure BDA0003132434760000091
其中
Figure BDA0003132434760000092
m=1,2,…,100,为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的系统频谱效率,E(t-1)是t-1时刻的反射路径能量,环境输出奖励值r(t)评价动作输出现实网络A在当前状态s(t)下输出的动作;
所述动作输出现实网络A,其网络参数为
Figure BDA0003132434760000093
动作输出现实网络函数用πA(·)表示,根据当前t时刻的环境状态
Figure BDA0003132434760000094
选择最优动作
Figure BDA0003132434760000095
将A(t)与服从标准正态分布的探索噪声
Figure BDA0003132434760000096
相加得到智能体X的动作,表达式为:
Figure BDA0003132434760000097
将向量a(t)的100个元素作为当前t时刻可重构智能表面反射元件的相移参数;
动作输出目标网络
Figure BDA0003132434760000098
其网络结构与动作输出现实网络A一致,网络参数
Figure BDA0003132434760000099
每隔NT=50个时刻基于动作输出现实网络A的网络参数软更新一次;
状态动作评价现实网络C,其网络参数为
Figure BDA00031324347600000910
QC(·)表示状态动作评价现实网络函数,计算当前t时刻的状态动作对的价值函数
Figure BDA00031324347600000911
所述状态动作评价目标网络
Figure BDA00031324347600000912
其网络结构与状态动作评价现实网络C一致,网络参数
Figure BDA00031324347600000913
每隔NT=50个时刻基于状态动作评价现实网络C的网络参数软更新一次;
所述容量ND=500的经验池D用于存放学习过程中每个时刻产生的经验四元组{s(t),a(t),r(t),s(t+1)}。
步骤三、随机初始化动作输出现实网络A的网络参数
Figure BDA00031324347600000914
及状态动作评价现实网络C的网络参数
Figure BDA00031324347600000915
并令动作输出目标网络
Figure BDA00031324347600000916
和状态动作评价目标网络
Figure BDA00031324347600000917
的网络参数分别满足
Figure BDA00031324347600000918
Figure BDA00031324347600000919
初始化单次随机采样数量NB=32;可重构智能表面在t=0时刻的相位矩阵
Figure BDA00031324347600000920
中的各个相位从[-π,π]中随机选取;计算t=0时刻可重构智能表面的相移偏置矩阵
Figure BDA00031324347600000921
补零后的基站至用户k直接路径时域基带等效多径信道向量
Figure BDA00031324347600000922
补零后的基站经可重构智能表面第m个反射元件至用户k的时域基带等效多径信道向量
Figure BDA0003132434760000101
补零后的基站经可重构智能表面反射至用户k的时域基带等效多径信道矩阵,表达式为:
Figure BDA0003132434760000102
公式中,fn表示64×64维DFT矩阵FN的第n列,实际编码调制方案对系统容量的影响因子Γ=8.8dB,噪声功率σ2=-75dBm,(·)H表示共轭转置,|·|表示取绝对值;
利用下式计算t=0时刻用户k,k=1,2,在其所使用的子载波n上的信噪比:
Figure BDA0003132434760000103
t=0时刻子载波n上的发射功率
Figure BDA0003132434760000104
用下式计算:
Figure BDA0003132434760000105
公式中,注水参数
Figure BDA0003132434760000106
满足
Figure BDA0003132434760000107
Pt=5dBm为基站总发射功率;循环前缀NCP=16,用下式计算用户k在t=0时刻的频谱效率:
Figure BDA0003132434760000108
利用下式计算t=0时刻的系统频谱效率:
Figure BDA0003132434760000109
利用下式计算t=0时刻的反射路径能量:
Figure BDA00031324347600001010
令t=t+1,则
Figure BDA00031324347600001011
步骤四、将t时刻的状态s(t)作为动作输出网络的输入,该网络输出t时刻的动作
Figure BDA00031324347600001012
将A(t)与服从标准正态分布的探索噪声
Figure BDA00031324347600001013
相加得到智能体X的动作
Figure BDA0003132434760000111
基于动作a(t)计算可重构智能表面的相位偏置矩阵
Figure BDA0003132434760000112
利用下式计算t时刻用户k,k=1,2,在子载波n上的信噪比:
Figure BDA0003132434760000113
t时刻子载波n上的发射功率用下式计算:
Figure BDA0003132434760000114
其中,
Figure BDA0003132434760000115
满足
Figure BDA0003132434760000116
Pt=5dBm为基站总发射功率;利用下式计算系统频谱效率C(t)作为t时刻的奖励r(t)
Figure BDA0003132434760000117
利用下式计算t时刻的反射路径能量E(t)
Figure BDA0003132434760000118
则t+1时刻的状态
Figure BDA0003132434760000119
将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本。
步骤五、智能体X将状态动作对(s(t),a(t))输入状态动作评价现实网络C中,输出状态动作对(s(t),a(t))的评价值
Figure BDA00031324347600001110
随后从经验池随机采样32个样本;
所述随机采样按如下步骤进行:
若t≥32,则从经验池D中随机选择32个样本d={d1,d2,…,d32},其中每个样本均为学习过程中存入经验池中的四元组,进入步骤六;若t<32,则不采样并令t=t+1,转到步骤四。
步骤六、利用采样结果对动作输出网络和评价网络进行梯度下降更新,并对动作输出目标网络和状态动作评价目标网络进行软更新;若|C(t)-C(t-1)|≤0.0001,则停止迭代转到步骤七,否则令t=t+1并转到步骤四;
所述对动作输出网络和评价网络的梯度下降更新以及对动作输出目标网络和状态动作评价目标网络的软更新按如下步骤进行:
a1)将所采的32个样本的状态动作对输入评价目标网络
Figure BDA0003132434760000121
得到相应的状态动作对的价值函数估计值
Figure BDA0003132434760000122
i=1,…,32;按照Bellman方程计算得到价值函数目标值
Figure BDA0003132434760000123
γ=0.99为奖励函数的折扣因子,
Figure BDA0003132434760000124
为动作输出目标网络
Figure BDA0003132434760000125
根据s(i+1)产生的动作;
a2)计算所采32个样本的均方误差作为评价现实网络C的损失函数:
Figure BDA0003132434760000126
损失函数中同时涉及到动作输出现实网络A和评价现实网络C的网络参数更新,更新的目标是让评价现实网络C的输出
Figure BDA0003132434760000127
与目标y(i)尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure BDA0003132434760000128
Figure BDA0003132434760000129
公式中,E[·]表示求期望,
Figure BDA00031324347600001210
为32个样本的评价现实网络C的累计价值函数;
a3)当t=50l,
Figure BDA00031324347600001211
时对动作目标网络
Figure BDA00031324347600001212
和评价目标网络
Figure BDA00031324347600001213
的网络参数
Figure BDA00031324347600001214
Figure BDA00031324347600001215
进行软更新,令软更新参数τ=0.005:
Figure BDA00031324347600001216
Figure BDA00031324347600001217
步骤七、将当前时刻t所得的可重构智能表面的相位偏置矩阵
Figure BDA00031324347600001218
及各子载波n上分配的发射功率
Figure BDA0003132434760000131
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵
Figure BDA0003132434760000132
和相应的最佳基站功率分配方案。
综上,本发明在运行时间复杂度和系统性能上均优于传统的数值迭代设计方法,利用深度神经网络强大的非线性建模能力,快速学习出最优的RIS反射矩阵,特别是对于快速时变信道有很强的鲁棒性,可以实现高效的系统频谱效率。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (4)

1.一种可重构智能表面增强的SISO-OFDM下行传输方法,其特征在于,包括以下步骤:
步骤S1、基站配置单根天线,且服务K个单天线用户,所述可重构智能表面配置均匀平面反射阵,该均匀平面反射阵包括M=a×b个反射单元,其中,垂直方向a行反射单元,水平方向每行b个反射单元;系统整体带宽被划分为N个子载波,各用户使用不同的子载波,Sk,k=1,2,…,K,为用户k的子载波索引并满足
Figure FDA0003132434750000011
基站和可重构智能表面已知用户的信道状态信息;
所述信道状态信息包括:基站到用户k,k=1,2,…,K,的具有L0个抽头的直接路径时域基带等效多径信道向量
Figure FDA0003132434750000012
基站到可重构智能表面第m个反射元件的具有L1个抽头的时域等效多径信道向量
Figure FDA0003132434750000013
可重构智能表面第m个反射元件到用户k的具有L2个抽头的时域等效多径信道向量
Figure FDA0003132434750000014
其中,(·)T表示转置;
步骤S2、构建智能体X的经验池及深度强化学习神经网络,包括:动作输出现实网络A、动作输出目标网络
Figure FDA0003132434750000015
状态动作评价现实网络C和状态动作评价目标网络
Figure FDA0003132434750000016
所述动作输出现实网络A和动作输出目标网络
Figure FDA0003132434750000017
构成智能体X的动作网络;所述状态动作评价现实网络C和状态动作评价目标网络
Figure FDA0003132434750000018
构成智能体X的评价网络;经验池D用于存储智能体X学习过程中产生的样本;将可重构智能表面视为智能体X;将整个SISO-OFDM通信环境作为智能体X的外部环境;
所述智能体X在t时刻的环境状态的表达式为:
Figure FDA0003132434750000019
公式中,
Figure FDA00031324347500000110
为智能体X在t-1时刻输出的可重构智能表面各个反射元件的相移参数,C(t-1)是t-1时刻的系统频谱效率,E(t-1)是t-1时刻的反射路径能量,环境输出奖励值r(t)评价动作输出现实网络A在当前状态s(t)下输出的动作;
所述动作输出现实网络A,其网络参数为
Figure FDA0003132434750000021
动作输出现实网络函数用πA(·)表示,根据当前t时刻的环境状态
Figure FDA0003132434750000022
选择最优动作
Figure FDA0003132434750000023
将A(t)与服从标准正态分布的探索噪声
Figure FDA0003132434750000024
相加得到智能体X的动作:
Figure FDA0003132434750000025
将向量a(t)的M个元素作为当前t时刻可重构智能表面反射元件的相移参数;
所述动作输出目标网络
Figure FDA0003132434750000026
其网络结构与动作输出现实网络A一致,网络参数
Figure FDA0003132434750000027
每隔NT个时刻基于动作输出现实网络A的网络参数软更新一次;
所述状态动作评价现实网络C,其网络参数为
Figure FDA0003132434750000028
QC(·)表示状态动作评价现实网络函数,计算当前t时刻的状态动作对的价值函数
Figure FDA0003132434750000029
所述状态动作评价目标网络
Figure FDA00031324347500000210
其网络结构与状态动作评价现实网络C一致,网络参数
Figure FDA00031324347500000211
每隔NT个时刻基于状态动作评价现实网络C的网络参数软更新一次;
容量为ND的经验池D用于存放学习过程中每个时刻产生的经验四元组{s(t),a(t),r(t),s(t+1)};
步骤S3、随机初始化动作输出现实网络A的网络参数
Figure FDA00031324347500000212
及状态动作评价现实网络C的网络参数
Figure FDA00031324347500000213
并令动作输出目标网络
Figure FDA00031324347500000214
和状态动作评价目标网络
Figure FDA00031324347500000215
的网络参数分别满足
Figure FDA00031324347500000216
Figure FDA00031324347500000217
初始化单次随机采样数量NB;可重构智能表面在t=0时刻的相位矩阵
Figure FDA00031324347500000218
中的各个相位从[-π,π]中随机选取;计算t=0时刻可重构智能表面的相移偏置矩阵
Figure FDA00031324347500000219
根据信道状态信息和可重构智能表面的相移偏置矩阵,利用下式计算t=0时刻用户k,k=1,2,…,K,在其所使用的子载波n上的信噪比:
Figure FDA00031324347500000220
公式中,
Figure FDA0003132434750000031
为补零后的基站至用户k直接路径时域基带等效多径信道向量,
Figure FDA0003132434750000032
为补零后的基站经可重构智能表面反射至用户k的时域基带等效多径信道矩阵,
Figure FDA0003132434750000033
为补零后的基站经可重构智能表面第m个反射元件至用户k的时域基带等效多径信道向量且L3=L1+L2-1为其非零元素个数,fn表示N×N维DFT矩阵FN的第n列,Γ是实际编码调制方案对系统容量的影响因子,σ2为噪声功率,(·)H表示共轭转置,|·|表示取绝对值;t=0时刻子载波n上的发射功率
Figure FDA0003132434750000034
用下式计算:
Figure FDA0003132434750000035
公式中,(x)+=max(0,x),注水参数
Figure FDA0003132434750000036
满足
Figure FDA0003132434750000037
Pt为基站总发射功率;用下式计算用户k在t=0时刻的频谱效率:
Figure FDA0003132434750000038
公式中,NCP为循环前缀以避免OFDM符号间干扰;
利用下式计算t=0时刻的系统频谱效率:
Figure FDA0003132434750000039
利用下式计算t=0时刻的反射路径能量:
Figure FDA00031324347500000310
令t=t+1且
Figure FDA00031324347500000311
步骤S4、将t时刻的状态s(t)作为动作输出网络的输入,该网络输出t时刻的动作
Figure FDA00031324347500000312
将A(t)与服从标准正态分布的探索噪声
Figure FDA00031324347500000313
相加得到智能体X的动作:
Figure FDA0003132434750000041
基于动作a(t)计算可重构智能表面的相位偏置矩阵:
Figure FDA0003132434750000042
利用下式计算t时刻用户k,k=1,2,…,K,在子载波n上的信噪比:
Figure FDA0003132434750000043
用下式计算t时刻子载波n上的发射功率:
Figure FDA0003132434750000044
其中,λ满足
Figure FDA0003132434750000045
Pt为基站总发射功率;利用下式计算系统频谱效率C(t)并作为t时刻的奖励r(t)
Figure FDA0003132434750000046
利用下式计算t时刻的反射路径能量E(t)
Figure FDA0003132434750000047
则t+1时刻的状态
Figure FDA0003132434750000048
将得到的四元组{s(t),a(t),r(t),s(t+1)}作为一个经验样本存入经验池中,若经验池已存满后,则用该经验样本覆盖经验池中最早的一个经验样本;
步骤S5、智能体X将状态动作对(s(t),a(t))输入状态动作评价现实网络C中,输出状态动作对(s(t),a(t))的评价值
Figure FDA0003132434750000049
随后从经验池随机采样NB个样本;
所述随机采样具体包括如下步骤:
若t≥NB,则从经验池D中随机选择NB个样本
Figure FDA0003132434750000051
其中每个样本均为学习过程中存入经验池中的四元组,进入步骤S6;
若t<NB,则不采样并令t=t+1,转到步骤S4;
步骤S6、利用采样结果对动作输出网络和评价网络进行梯度下降更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,直到
Figure FDA0003132434750000052
则停止迭代转到步骤S7,否则令t=t+1并转到步骤S4;
步骤S7、将当前时刻t所得的可重构智能表面的相位偏置矩阵
Figure FDA0003132434750000053
及各子载波n上分配的发射功率
Figure FDA0003132434750000054
作为当前信道状态信息下的可重构智能表面的最佳相移偏置矩阵
Figure FDA0003132434750000055
和相应的最佳基站功率分配方案。
2.根据权利要求1所述的一种可重构智能表面增强的SISO-OFDM下行传输方法,其特征在于,在所述步骤S6中,所述对动作输出网络和评价网络进行梯度下降更新,并对动作输出目标网络和状态动作评价目标网络进行软更新,具体包括如下步骤:
步骤S601、将所采的NB个样本的状态动作对输入评价目标网络
Figure FDA0003132434750000056
得到相应的状态动作对的价值函数估计值
Figure FDA0003132434750000057
按照Bellman方程计算得到价值函数目标值
Figure FDA0003132434750000058
为奖励函数的折扣因子,
Figure FDA0003132434750000059
为动作输出目标网络
Figure FDA00031324347500000510
根据s(i+1)产生的动作;
步骤S602、计算所采NB个样本的均方误差作为评价现实网络C的损失函数:
Figure FDA00031324347500000511
损失函数中同时涉及到动作输出现实网络A和评价现实网络C的网络参数更新,更新的目标是让评价现实网络C的输出
Figure FDA00031324347500000512
与目标y(i)尽可能接近,利用随机梯度下降对两个网络进行更新:
Figure FDA00031324347500000513
Figure FDA0003132434750000061
公式中,E[·]表示求期望,
Figure FDA0003132434750000062
为NB个样本的评价现实网络C的累计价值函数;
步骤S603、当
Figure FDA0003132434750000063
时对动作目标网络
Figure FDA0003132434750000064
和评价目标网络
Figure FDA0003132434750000065
的网络参数
Figure FDA0003132434750000066
Figure FDA0003132434750000067
进行软更新:
Figure FDA0003132434750000068
Figure FDA0003132434750000069
公式中,τ<<1为软更新参数。
3.根据权利要求1所述的一种可重构智能表面增强的SISO-OFDM下行传输方法,其特征在于,所述动作输出现实网络A、动作输出目标网络
Figure FDA00031324347500000610
状态动作评价现实网络C和状态动作评价目标网络
Figure FDA00031324347500000611
均包括四个全连接层:输入层、两个隐藏层和输出层,其中,隐藏层使用ReLU激活函数,动作网络输出层使用tanh激活函数。
4.根据权利要求1所述的一种可重构智能表面增强的SISO-OFDM下行传输方法,其特征在于,所述步骤S2以及步骤S6中的动作输出现实网络A、动作输出目标网络
Figure FDA00031324347500000612
状态动作评价现实网络C和状态动作评价目标网络
Figure FDA00031324347500000613
的网络参数包括全连接层的权重和偏置。
CN202110708814.0A 2021-06-25 2021-06-25 一种可重构智能表面增强的siso-ofdm下行传输方法 Active CN113452642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110708814.0A CN113452642B (zh) 2021-06-25 2021-06-25 一种可重构智能表面增强的siso-ofdm下行传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110708814.0A CN113452642B (zh) 2021-06-25 2021-06-25 一种可重构智能表面增强的siso-ofdm下行传输方法

Publications (2)

Publication Number Publication Date
CN113452642A CN113452642A (zh) 2021-09-28
CN113452642B true CN113452642B (zh) 2022-04-29

Family

ID=77812676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110708814.0A Active CN113452642B (zh) 2021-06-25 2021-06-25 一种可重构智能表面增强的siso-ofdm下行传输方法

Country Status (1)

Country Link
CN (1) CN113452642B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11848709B2 (en) * 2020-08-14 2023-12-19 Huawei Technologies Co., Ltd. Media-based reconfigurable intelligent surface-assisted modulation
WO2023070482A1 (en) * 2021-10-29 2023-05-04 Lenovo (Beijing) Limited Overhead reduction in ris-aided urllc systems
CN114172597B (zh) * 2021-12-10 2023-09-05 中国传媒大学 一种基于可重构智能表面的非迭代参数联合估计方法
CN116260501B (zh) * 2023-05-15 2023-07-14 清华大学 Ris及其辅助ofdm通信系统的预编码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599420B2 (en) * 2004-07-30 2009-10-06 Rearden, Llc System and method for distributed input distributed output wireless communications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181618A (zh) * 2020-01-03 2020-05-19 东南大学 一种基于深度强化学习的智能反射表面相位优化方法
CN111181619A (zh) * 2020-01-03 2020-05-19 东南大学 基于深度强化学习的毫米波混合波束成形设计方法
CN112260733A (zh) * 2020-11-10 2021-01-22 东南大学 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Joint Beamforming Optimization for Reconfigurable";Keming Feng等;《China Communications》;20210323;全文 *
"基于可重构智能表面的移动通信简要综述";周儒雅;《移动通信》;20200615;全文 *

Also Published As

Publication number Publication date
CN113452642A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN113452642B (zh) 一种可重构智能表面增强的siso-ofdm下行传输方法
Taha et al. Deep reinforcement learning for intelligent reflecting surfaces: Towards standalone operation
CN111181618B (zh) 一种基于深度强化学习的智能反射表面相位优化方法
CN111181619B (zh) 基于深度强化学习的毫米波混合波束成形设计方法
CN105142177B (zh) 复数神经网络信道预测方法
CN109104225B (zh) 一种能效最优的大规模mimo波束域多播传输方法
Jiang et al. Multi-antenna fading channel prediction empowered by artificial intelligence
CN115395993A (zh) 一种可重构智能表面增强的miso-ofdm传输方法
CN109714091B (zh) 一种在毫米波mimo系统中基于分层设计的迭代混合预编码方法
CN112260733B (zh) 基于多智能体深度强化学习的mu-miso混合预编码设计方法
He et al. GBLinks: GNN-based beam selection and link activation for ultra-dense D2D mmWave networks
Yu et al. Deep learning based user scheduling for massive MIMO downlink system
CN111010222A (zh) 一种基于深度学习的大规模mimo下行用户调度方法
Pereira-Ruisánchez et al. Joint optimization of IRS-assisted MU-MIMO communication systems through a DRL-based twin delayed DDPG approach
CN117240331A (zh) 一种基于图神经网络的无蜂窝网络下行预编码设计方法
CN107346985B (zh) 一种结合发射天线选择技术的干扰对齐方法
Ducoing et al. An Assessment of Deep Learning vs. Massively Parallel, Non-Linear Methods for Highly-Efficient MIMO Detection
CN114826349B (zh) 一种基于可重构智能表面的发射功率最小化传输方法
CN113783593A (zh) 一种基于深度强化学习的波束选择方法和系统
CN115347927A (zh) 一种智能超表面辅助ofdm系统1比特相移配置方法
CN113067652B (zh) 一种利用宽带大规模天线阵列空间特性的信道预测方法
Zia et al. Deep learning for Parametric Channel Estimation in massive MIMO systems
CN111541472A (zh) 低复杂度机器学习辅助鲁棒预编码方法及装置
Shi et al. Automatic High-Performance Neural Network Construction for Channel Estimation in IRS-Aided Communications
CN116112941B (zh) 一种多ris辅助的无线网络覆盖优化方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant