CN113595606A

CN113595606A - 一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法

Info

Publication number: CN113595606A
Application number: CN202110864699.6A
Authority: CN
Inventors: 任红; 潘存华; 寇周斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-11-02
Anticipated expiration: 2041-07-29
Also published as: CN113595606B

Abstract

本发明公开了一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法，包括：基站端发送导频给单天线用户，获取角度信息、位置信息和统计信道状态信息；基站基于获取的信息离线生成大量完整信道矩阵，作为深度强化学习算法参数训练的数据集；根据生成的数据集，基站对预先设定的深度强化学习算法中的神经网络参数进行迭代更新，并对基站预编码和智能反射表面相移矩阵进行联合优化配置，使得该场景下的最小用户遍历速率达到最大化；当下一次角度或位置信息发生变化，基站再次利用深度强化学习进行基站预编码与智能反射表面相移的联合优化配置。

Description

一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法

技术领域

本发明涉及无线通信的技术领域，特别是涉及一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法。

背景技术

对于传统的无线通信系统在进行传输性能的优化设计时，主要是对发射机和接收机进行设计与优化，由于发射机与接收机都无法控制信道中的无线传输环境，因而将收发机之间的传播环境作为传输系统的外部因素，只能被动适应而不能主动改造。最近，得益于新型人工电磁材料技术的突破性进展，提出的智能反射表面技术为无线通信系统主动调整传播环境，实现可编程无线环境提供了可行的技术手段。

为了获取智能反射表面下无线通信系统传输性能的最优化，需要对基站天线预编码矩阵和智能反射表面相移矩阵进行联合优化设计。目前大多数文献都是基于瞬时信道状态信息来进行智能反射表面辅助通信的传输方案设计，即假设在每一个瞬时信道状态信息的时间尺度内，均进行系统信道信息的重新估计，再基于精确的信道状态信息进行基站和智能反射表面的参数配置，进而实现每一个瞬时尺度下的最优性能传输。这种方法虽然能够获得很好的传输性能，但是存在三个缺点：(1)在每个很短的瞬时时间尺度内进行信道的重新估计，会造成很大的信道估计开销；(2)对每一次估计的瞬时先到信息进行基站与智能反射表面参数的计算配置，大大提高了系统实现的计算复杂度；(3)每一次智能反射表面参数更新后，基站都需要将配置参数反馈给智能反射表面的控制端，这导致了很高的相位反馈开销。

利用统计信道状态信息来进行智能反射表面传输方案的设计，只需要再每一个长时间尺度内进行一次统计信道状态信息的估计，并进行一次基站和只能反射表面参数的联合优化配置，这样就可以克服基于瞬时信道状态信息情况下的三个缺点。然而，基于统计信道状态信息进行传输方案设计仍然存在一个挑战，即在统计信道状态信息下求解优化问题需要对信道中的小尺度部分求期望，一般情况下无法得到系统传输速率的闭合表达式。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法，利用深度强化学习算法来求解基于统计信道状态信息下的传输速率优化问题，避免了复杂的速率推导过程，利用深度强化学习算法来求解多用户场景下最小用户传输速率的最优化，实现了用户传输速率最优化设计，相比于基于瞬时信道状态信息下的情况，大大降低了系统的信道估计开销和计算复杂度。

为了达到上述目的，本发明采用如下技术方案：

一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法，包括如下步骤：

步骤S1、基站配置有M根天线，智能发射表面配置有N个可编程的发射单元，用户配置单根接收天线；当用户的位置信息或者角度信息发生改变时，基站获取角度信息、位置信息和统计信道信息，其中，

所述角度信息包括：基站到智能发射表面信号的出发角

从基站到智能反射表面信号的到达角

智能反射表面到第k个用户信号的出发角

基站到第k个用户信号的出发角

所述位置信息为K个用户的三维坐标；

所述统计信道信息包括：基站与智能反射表面信道的莱斯因子α，基站与用户k间信道的莱斯因子β_k，智能反射表面与用户k间信道的莱斯因子γ_k；

步骤S2、基站离线计算生成多个完整的无线信道矩阵，并将该多个完整的无线信道矩阵作为深度强化学习算法进行离线训练的数据集，其中，所述基站离线计算生成多个完整的无线信道矩阵具体包括：

步骤S201、利用步骤S1获取到的角度信息，分别计算基站与智能反射表面间信道视距分量

基站与用户k间信道视距分量

智能反射表面与用户k之间信道视距分量

其中a_x(θ)＝[1,e^jθ,…,e^j(x-1)θ]^T，x＝M,N，[·]^T表示求矩阵的转置；

步骤S202、分别计算基站与智能反射表面间信道非视距分量

基站与用户k之间信道非视距分量

和智能反射表面与用户k之间信道非视距分量

其中，

和

中的元素为随机生成，且均服从零均值单位方差的复高斯分布；

步骤S203、通过K个用户的位置信息，分别计算基站和智能发射表面到用户k的距离d_k和D_k，并且基站到智能发射表面的距离保持为d₀，因此，基站到智能反射表面之间的路径损耗

基站到第k个用户之间的路径损耗

智能反射表面到第k个用户之间的路径损耗

其中，PL₀是在dis₀＝1米时的路径损耗，k＝1,2,...,K。

步骤S204、分别计算三组信道矩阵，具体包括：

基站与智能反射表面间信道矩阵

基站与用户k间信道矩阵

智能反射表面与用户k之间的信道矩阵

步骤S3、基站利用步骤S2得到的数据集进行离线训练，不断地更新深度强化学习算法的神经网络参数，使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值最优化收敛，保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ，其中，在进行所述离线训练时，每一个回合的训练过程均包括：

步骤S301、按次序提取一组在步骤S2中生成的完整的无线信道矩阵数据；

步骤S302、初始化循环次数i←0，初始化智能反射表面的反射相位

构造智能反射表面初始相移矩阵

初始化基站天线预编码矩阵W⁽⁰⁾，设定单个回合循环的最大次数；

步骤S303、计算系统中各用户的初始传输速率

提取所有用户传输速率中的最小值作为当前循环的奖励函数值r⁽⁰⁾，其中

表示用户k初始瞬时信干噪比，其中

和

分别表示基站天线预编码矩阵W⁽⁰⁾的第k列和第j列向量，

表示用户k端的加性高斯白噪声方差。

步骤S304、将完整的信道矩阵G₀，g_k和h_k，和智能反射表面相移矩阵Φ⁽⁰⁾、基站天线预编码矩阵W⁽⁰⁾作为神经网络的输入，下一次训练时的智能反射表面相移矩阵Φ⁽¹⁾和基站天线预编码矩阵W⁽¹⁾作为神经网络的输出；

步骤S305、判断循环终止条件，如果循环次数小于最大循环次数，则重复以下操作，否则转到步骤S309：

步骤S306、基于上一循环神经网络输出的智能反射表面相移矩阵Φ⁽ⁱ⁾和基站天线预编码矩阵W⁽ⁱ⁾，重新计算系统中各用户的传输速率

提取所有用户传输速率中的最小值作为当前循环的奖励函数值r⁽ⁱ⁾，其中

表示用户k的瞬时信干噪比，其中，

和

表示基站天线预编码矩阵W⁽ⁱ⁾的第k列和第j列向量；

步骤S307、更新神经网络输入的智能反射表面相移矩阵为Φ⁽ⁱ⁾，基站天线预编码矩阵为W⁽ⁱ⁾，得到下一个循环的输出参数为Φ⁽ⁱ⁺¹⁾和W⁽ⁱ⁺¹⁾；

步骤S308、更新循环次数i←i+1并转到步骤S305；

步骤S309、对所有循环的奖励值求平均值，作为本回合训练的参考奖励值；

步骤S4、基站通过基站与智能反射表面控制端的直接链路，将步骤S3得到的智能反射表面相移矩阵Φ传输给智能反射表面的控制端，并进行相应的配置；

步骤S5、当角度信息或位置信息发生改变时，系统重新执行步骤S1至步骤S5。

进一步的，在所述步骤S3中，通过深度强化学习算法不断更新的神经网络参数具体包括：状态参数、动作参数、奖励函数；其中，

动作参数为深度神经网络输出的参数，包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部；

状态参数包括每一各训练回合设定的完整信道矩阵G₀，g_k和h_k的实部和虚部，以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部；

奖励函数为基于上一次神经网络输出的动作参数下，计算得出的最小用户瞬时传输速率。

进一步的，所述步骤S3中，智能反射表面相移矩阵的反射相位参数应满足0≤θ_n＜2π，n＝1,2,…,N；基站预编码矩阵应满足功率约束

其中P_t表示基站最大传输功率值，

表示求期望，tr{·}表示求矩阵的迹，[·]^H表示求矩阵的共轭。

本发明的有益效果是：

1、本发明采用在较长时间内保持不变的统计信道状态信息、用户位置信息和角度信息进行基站预编码与智能反射相移配置的联合优化，相比于基于瞬时信道状态信息，降低了系统在传输过程中的导频开销、系统计算的复杂度、系统对智能反射表面控制器的相位反馈开销，能实现用户遍历速率的最优化。

2、本发明采用深度强化学习算法来求解统计信道状态信息下的速率优化问题，避免了复杂的数学推导和计算，能够快速的实现优化对基站预编码与智能反射相移的联合优化配置。

3、本发明中采用深度强化学习算法进行传输方案设计，巧妙地结合了统计信道状态信息长时间保持不变的特点，使得深度强化学习算法训练的时间开销能够与长时间尺度相兼容。

附图说明

图1为实施例1中提供的一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法的流程图；

图2为实施例1中提供的优化方法与基于瞬时信道反馈信息的方法在时间尺度上的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，本实施例提供一种基于深度强化学习的基站预编码与智能反射表面相移联合优化方法，该方法针对智能反射表面辅助的多用户MISO无线传输系统，基站配置有M根天线，智能发射表面配置有N可编程的发射元素，用户配置单根接收天线。基于系统中的统计信道状态信息、用户位置及角度信息，利用深度强化学习算法进行基站预编码矩阵和智能反射相移矩阵进行联合优化设计，在一个长时间尺度内只需进行一次基站预编码和智能反射表面相移的配置，在剩余的时间空隙只需要进行数据传输。

具体的说，包括如下步骤：

在一个智能反射表面辅助的多用户MISO无线传输系统中，对系统的信道采用莱斯信道模型进行建模，基站和智能发射表面的位置已知，并同时考虑基站到用户之间的直达路径和基站经过智能反射表面到达用户的级联路径。具体的实施过程如下：

步骤1、基站配置有M根天线，智能发射表面配置有N个可编程的发射单元，用户配置单根接收天线；当用户的位置信息或者角度信息发生改变时，基站获取角度信息、位置信息和统计信道信息；

位置信息为K个用户的三维坐标。基站与智能反射表面的位置信息保持不变。

角度信息包括：基站到智能发射表面信号的出发角

从基站到智能反射表面信号的到达角

智能反射表面到第k个用户信号的出发角

基站到第k个用户信号的出发角

统计信道信息包括：基站与智能反射表面信道的莱斯因子α，基站与用户k间信道的莱斯因子β_k，智能反射表面与用户k间信道的莱斯因子γ_k。

步骤2、基站离线计算生成大量的完整的无线信道矩阵，作为深度强化学习算法进行离线训练的数据集；

计算大量的完整无线信道矩阵的过程包括以下子步骤：

a1)利用步骤1获取到的角度信息，分别计算基站与智能反射表面间信道视距分量

基站与用户k间信道视距分量

智能反射表面与用户k之间信道视距分量

其中a_x(θ)＝[1,e^jθ,…,e^j(x-1)θ]^T，x＝M,N，[·]^T表示求矩阵的转置。

a2)分别计算基站与智能反射表面间信道非视距分量

基站与用户k之间信道非视距分量

和智能反射表面与用户k之间信道非视距分量

和

a3)通过K个用户的位置信息，分别计算基站和智能发射表面到用户k的距离d_k和D_k。基站到智能发射表面的距离保持为d₀。因此，

基站到智能反射表面之间的路径损耗

基站到第k个用户之间的路径损耗

智能反射表面到第k个用户之间的路径损耗

其中PL₀是在dis₀＝1米的路径损耗；

a4)分别计算三组信道矩阵：

基站与智能反射表面间信道矩阵

基站与用户k间信道矩阵

智能反射表面与用户k之间的信道矩阵

步骤3、基站利用步骤2得到的数据集进行离线训练，不断地更新深度强化学习算法的神经网络参数，使得深度强化学习算法输出的基站预编码矩阵和智能反射表面相移矩阵实现深度强化学习模型的参考奖励值的最优化收敛，保存最优化收敛下输出的基站预编码矩阵W和智能反射表面相移矩阵Φ。

离线训练每一个回合的训练过程包括以下子步骤：

b1)按次序提取一组在步骤2中生成的完整的信道矩阵数据；

b2)初始化循环次数i←0，初始化智能反射表面的反射相位

构造智能反射表面初始相移矩阵

b3)计算系统中各用户的初始传输速率

表示用户k初始瞬时信干噪比，其中

和

分别表示基站天线预编码矩阵W⁽⁰⁾的第k列和第j列向量，

表示用户k端的加性高斯白噪声方差。

b4)将完整的信道矩阵G₀，g_k和h_k，和智能反射表面相移矩阵Φ⁽⁰⁾、基站天线预编码矩阵W⁽⁰⁾作为神经网络的输入，下一次训练时的智能反射表面相移矩阵Φ⁽¹⁾和基站天线预编码矩阵W⁽¹⁾作为神经网络的输出；

b5)判断循环终止条件，如果循环次数小于最大循环次数，则重复以下操作，否则转到步骤b9)：

b6)基于上一循环神经网络输出的智能反射表面相移矩阵Φ⁽ⁱ⁾和基站天线预编码矩阵W⁽ⁱ⁾，重新计算系统中各用户的传输速率

表示用户k的瞬时信干噪比，其中，

和

表示基站天线预编码矩阵W⁽ⁱ⁾的第k列和第j列向量；

b7)更新神经网络输入的智能反射表面相移矩阵为Φ⁽ⁱ⁾，基站天线预编码矩阵为W⁽ⁱ⁾，得到下一个循环的输出参数为Φ⁽ⁱ⁺¹⁾和W⁽ⁱ⁺¹⁾；

b8)更新循环次数i←i+1并转到步骤b5)；

b9)对所有循环的奖励值求平均值，作为本回合训练的参考奖励值。

步骤4、基站通过基站与智能反射表面控制端的直接链路，将步骤3得到的智能反射表面矩阵参数智能反射表面相移矩阵Φ传输给智能反射表面的控制端，并进行相应的配置；

步骤5、当角度信息或位置信息发生改变时，系统重新步骤1至步骤5。

具体的说，在本实施例中，步骤3中深度强化学习算法在训练过程中的参数包括：状态参数、动作参数、奖励函数；其中，动作参数为深度神经网络输出的参数，包括基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部；状态参数包括每一各训练回合设定的完整信道矩阵G₀，g_k和h_k的实部和虚部，以及上一次神经网络输出的基站天线预编码矩阵W和智能反射表面相移矩阵Φ的实部和虚部；奖励函数为上一次神经网络输出的动作参数下，按照公式计算得出的最小用户瞬时传输速率。

具体的说，在本实施例中，步骤3中智能反射表面相移矩阵的反射相位参数应满足0≤θ_n＜2π，n＝1,2,…,N；基站预编码矩阵应满足功率约束

其中P_t表示基站最大传输功率值，

表示求期望，tr{·}表示求矩阵的迹，[·]^H表示求矩阵的共轭转置。

通过利用深度确定性策略梯度算法进行神经网络参数的迭代更新，可以实现在用户最小速率在统计意义上的最优化收敛，绘制出智能反射表面元素个数与用户最小传输速率之间的关系如图2所示。

综上，本发明的方法基于统计信道状态信息，可以显著的降低系统传输过程中的信道估计开销和实现的复杂度。并且，本方法使用深度强化学习算法进行基站预编码和智能反射表面相移的联合优化设计，能够与长时间信道状态信息更新的时间尺度相匹配，并保证多用户系统在长时间统计意义下的传输稳定最优。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。