CN112260733A

CN112260733A - 基于多智能体深度强化学习的mu-miso混合预编码设计方法

Info

Publication number: CN112260733A
Application number: CN202011243937.3A
Authority: CN
Inventors: 李潇; 王琪胜; 金石
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-01-22
Anticipated expiration: 2040-11-10
Also published as: CN112260733B

Abstract

本发明公开了一种基于多智能体深度强化学习的MU‑MISO混合预编码设计方法，适用于通信中下行系统使用。该方法中基站构建多个用于计算模拟预编码矩阵的深度强化学习智能体，每个智能体包含一个动作预测网络及一个带优先级的经验池，各智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络，协同探索模拟预编码策略。该方法中基站获取多个用户的信道状态信息，将用户信道信息输入所构建的智能体，输出相应的模拟预编码矩阵；进而通过迫零预编码和注水算法计算包含各用户数字预编码向量的数字预编码矩阵。其能有效解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题，且对信道环境具有较强的鲁棒性。

Description

基于多智能体深度强化学习的MU-MISO混合预编码设计方法

技术领域

本发明涉及一种MU-MISO混合预编码设计方法，尤其适用于通信中下行系统使用的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。

背景技术

大规模多输入多输出(MIMO)作为一种可以提高网络传输速率和能量效率的有效方法被视作新一代无线通信网络的关键技术之一。MIMO系统能充分利用空间资源，在不增加频谱资源和天线发射功率的情况下，成倍的提高系统容量。

然而，在实际应用中，大规模MIMO系统仍面临着诸多挑战。毫米波系统中波束成形矩阵的设计受到昂贵的射频硬件的约束。传统的全数字波束成形结构需要为每一根发射天线和接收天线配备一个射频链路用于模数转换和上下变频，天线数的增大使得基站侧所需射频链路数增大，带来系统成本的提高，尤其是射频硬件昂贵的毫米波混合预编码技术将全数字预编码拆分为高维的模拟预编码和低维的数字预编码，模拟预编码可由简单的相移器实现，数字预编码维数较低，仅使用很少的射频链路即可，可在一定程度上缓解这一问题。但现存混合预编码技术主要基于压缩感知技术和高发射信噪比的假设，将原始系统速率最大问题转化为矩阵间欧氏距离最小问题，导致局部最优解；且算法的时间复杂度较高，会引入较大的通信处理时延，因此需要有新的低复杂度和高性能混合波束成形算法来进一步解决这些问题。

现有针对低复杂度混合预编码算法的研究主要基于对矩阵求逆运算的简化、使用深度监督学习方法或使用单智能体深度强化学习方法。虽然应用这些方法之后时间复杂度有一定下降，但牺牲了一定的系统性能。深度监督学习方法对训练数据量有很高的要求，且对信道衰落变化很敏感，对于穿透力弱，衰减快的毫米波信道来说，实际应用仍有困难。单智能体强化学习方法无需对环境建模，可自动追踪无线信道环境的变化，但单智能体强化学习处理复杂问题时存在探索效率低、浪费计算资源以及收敛性的问题。

发明内容

技术问题：针对上述技术的不足之处，提供一种解决大规模MIMO系统中混合预编码设计复杂度高且可达速率性能不佳的问题，并且对信道环境具有较强的鲁棒性的基于多智能体深度强化学习的MU-MISO混合预编码设计方法。

技术方案：为实现上述技术目的，本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法，用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统；首先构建Y个用于计算模拟预编码矩阵F_RF及数字预编码矩阵F_D的深度强化学习的智能体，每个智能体包含一个动作预测网络及一个带优先级的经验池，所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络；之后使用基站获取多个用户的信道状态信息，将基站获取的各个用户信道信息输入所构建的Y个智能体，各智能体i,i＝1,…,Y分别学习其模拟预编码矩阵F_RF,i并计算相应的数字预编码矩阵F_D,i，利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为，利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索；各智能体学习收敛后，选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。

所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本，经验池的二叉树结构中的最底层叶节点存储六元组样本，每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态，其余各层节点只存储其子节点的优先级之和；各智能体的经验池根节点存储相应经验池中所有样本的优先级之和；

具体步骤如下：

步骤一、基站配置N_t根发射天线，服务K个单天线的用户；基站已知其与各用户k间的信道矩阵h_k；令t＝0；初始化Y个由动作预测网络及容量为N_D的带优先级的经验池构成的深度强化学习智能体用于分别学习模拟预编码矩阵及计算相应的数字预编码矩阵，一个评价网络用于协调多个智能体的行为，一个奖励值预测网络用于加速各智能体的探索；评价网络和奖励值预测网络由Y个智能体共享；令

表示智能体i在迭代时刻t所输出的模拟预编码矩阵，则将

随机正交初始化，即初始状态满足

上标(·)^H表示共轭转置，令t＝t+1。

所述评价网络包括评价现实网络

及评价目标网络

评价现实网络

输出当前的状态-动作对的评价值；

所述奖励值预测网络包括奖励值预测现实网络

及奖励值预测目标网络

奖励值预测现实网络

输出当前状态-动作对下奖励值的预测值；

所述第i个深度强化学习的智能体的动作预测网络包括动作预测现实网络

及动作预测目标网络

动作预测现实网络

根据当前迭代时刻的状态产生当前迭代时刻最优的动作；

所述评价目标网络

奖励值预测目标网络

以及动作预测目标网络

通过软更新让输出缓慢变化以缓解过拟合现象，提高智能体学习稳定性；

所述带优先级的经验池的容量N_D表示该经验池所能存储的最底层叶节点数量上限为N_D；

步骤二、在迭代时刻t，智能体i的当前时刻状态表达式为：

其中

为智能体i前一迭代时刻所输出的模拟预编码矩阵，Re(·)和Im(·)分别表示取实部和虚部；将状态

输入智能体i的动作预测现实网络

将其输出的各元素进行模值归一化得到智能体选择的动作，其表达式为：

并将之整合得到当前迭代时刻智能体i输出的模拟预编码矩阵

步骤三、智能体i用获得的

基于迫零预编码算法计算得到当前时刻的数字预编码矩阵

其中

为智能体i于迭代时刻t计算出的用户k数字预编码矢量，H＝[h₁,…,h_K]^H，

为智能体i计算得到的用户k的接收信号功率，

表示取非负操作，

为用户k的噪声功率，

为辅助矩阵

的第k个对角元，

为用于满足功率约束

的辅助变量，P_t为发射端最大发射功率；

步骤四、智能体i基于获得的

和

计算出当前迭代时刻系统和速率

并得到下一迭代时刻的状态：

步骤五、智能体i将状态-动作对

分别输入评价现实网络

和奖励值预测现实网络

中，评价现实网络

和奖励值预测现实网络

分别输出对

的评价值

和该状态-动作对的奖励值预测值

基于

和

计算得到该状态-动作对的奖励值

其中η∈[0,1]为预测值的折扣因子，计算状态-动作对

的优先级

其中0＜δ＜＜1，将六元组

作为一个样本存入智能体i的带优先级的经验池

中，当经验池

存满后，每次加入最新的六元组样本后排除最旧的六元组样本；

步骤六、对智能体i计算

并从带优先级的经验池

中基于样本优先级采样

个六元组样本来对各智能体的动作预测网络、评价网络和奖励值预测网络进行参数更新，其中

表示向下取整，M为总的采样数量；若

或t>10M，则停止智能体i的迭代并进入步骤七，否则令t＝t+1并转到步骤二；

步骤七、对所有智能体i＝1,…,Y，选择评价值

最高的智能体所输出的模拟预编码矩阵

及相应数字预编码矩阵

作为MU-MISO系统的混合预编码矩阵F_RF及F_D。

所述带优先级的经验池

按二叉树存储六元组样本，经验池的二叉树结构中的最底层叶节点存储六元组样本

将最底层第n个叶节点记为

假设

即最底层第n个叶节点所存储的为智能体i在第t_n个迭代时刻的六元组样本

其余各层节点只存储其子节点的优先级之和

a与b为某节点的子节点的序数；带优先级的经验池

的根节点存储经验池中所有六元组样本的优先级之和为

所述基于样本优先级采样与网络更新方法按如下步骤进行：

b1)在迭代时刻t，计算智能体i的带优先级的经验池

中第n个六元组样本被采样的概率

然后按概率

从带优先级的经验池

中采样M_i个六元组样本，假设为

即带优先级的经验池

中第n_m,m＝1,…,M_i个六元组样本，则所有智能体共采样得到M个六元组样本；

b2)记录带优先级的经验池

中第n个六元组样本被采样的次数

即当前迭代时刻若该六元组样本被采样到，则

否则

不变，t＝0时所有

利用

将样本优先级更新为

b2)将M个六元组样本的状态-动作对分别输入评价目标网络

得到各六元组样本状态-动作对相应的评价值估计值

按照贝尔曼方程计算得到相应的评价值目标值

其中γ∈(0,1)为奖励函数的折扣因子，

为由动作预测目标网络

在

状态下产生的动作；

b3)计算M个六元组样本的均方误差分别作为评价现实网络

和奖励值预测现实网络

的损失函数：

其中

和

分别为评价现实网络

和奖励值预测现实网络

的参数；

b4)损失函数中同时涉及到智能体i的动作现实网络

和评价现实网络

的更新，记网络

的参数为

更新的目标是使得对于状态-动作对(s,a)评价现实网络

的输出

与其目标值y尽可能接近，奖励值预测现实网络

的输出

与

尽可能接近，同时

输出的动作的评价值尽量大，利用随机梯度下降对网络进行更新：

其中

和

分别为用M个六元组样本表示的网络

和网络

的累计价值函数；

b5)每隔N_T个迭代时隙，将各智能体的各现实网络的参数复制至相应的目标网络，即令

其中

和

分别表示智能体i的动作目标网络

评价目标网络

和奖励值预测目标网络

的参数；每两次参数复制之间的每个迭代时隙则对智能体i的动作预测目标网络

评价目标网络

和奖励值预测目标网络

的参数进行软更新，即以折扣因子1-τ部分保留目标网络中的参数，以折扣因子τ作为现实网络中参数的权重：

通过软更新，让各目标网络的输出缓慢变化以缓解过拟合现象，提高智能体学习稳定性。

所述Y个动作预测现实网络

动作预测目标网络

评价现实网络

评价目标网络

奖励值预测现实网络

以及奖励值预测目标网络

包含四个全连接层、三个ReLU激活层和一个tanh激活层，网络中的前三个全连接层采用ReLU激活函数，输出层采用tanh激活函数。

所述步骤六中的模型参数包括全连接层的权重、偏置。

有益效果：

1)本方法采用多智能体协同学习缩短了学习时间；增加了经验池中各经验值的优先级，同时增加了奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值，进一步加速了各智能体的探索；使得混合预编码矩阵的计算收敛速度快、易于实现，特别是在用户数和天线数较大的时候，本方法的计算效率与传统的计算方法相比提高了数倍；

2)本方法不针对具体信道模型，更具有一般性。

3)本方法采用系统可达速率作为奖励值，因此能使MU-MISO下行传输系统获得较高的系统和速率。

附图说明

图1是本发明方法利用多智能体深度强化学习为用户设计发射端混合预编码矩阵的流程图。

图2是本发明方法所涉及多智能体深度强化学习的改进的带优先级的经验池的示意图

具体实施方式

下面结合说明书附图对本发明作更进一步的说明：

如图1所示，本发明的基于多智能体深度强化学习的MU-MISO混合预编码设计方法考虑一个MU-MISO下行链路，基站按如下步骤进行混合波束成形设计：

步骤一、基站配置N_t＝64根发射天线，服务K＝8个单天线用户；基站已知其与各用户k间的信道矩阵h_k；令t＝0；初始化Y＝2个由神经网络构成的深度强化学习智能体用于分别学习模拟预编码矩阵F_RF,i及计算相应的数字预编码矩阵F_D,i；一个评价网络用于协调各智能体的行为；一个奖励值预测网络用于加速各智能体的探索；评价网络和奖励值预测网络由Y个智能体共享；所有智能体的初始状态

随机正交初始化，即初始状态满足

令t＝t+1。

所述评价网络包括状态动作评价现实网络

输出当前的状态动作的价值函数；状态动作评价目标网络

其参数复制自评价现实网络

每隔N_T＝50个迭代时隙更新一次。该网络由4层神经网络构成，包括1个输入层，2个隐藏层和1个输出层，其中输入层包含256个神经元节点，输出层包含1个神经元节点，2个隐藏层各包含300和400个神经元节点，前3层网络使用非线性激活函数ReLU作为激活函数，输出层的激活层使用tanh函数。

所述奖励值预测网络包括奖励值预测现实网络

输出当前状态-动作对下奖励值的预测值；奖励值预测目标网络

其参数复制自预测现实网络

每隔N_T＝50个迭代时隙更新一次。该网络由4层神经网络构成，包括1个输入层，2个隐藏层和1个输出层，其中输入层包含128个神经元节点，输出层包含1个神经元节点，2个隐藏层各包含300和200个神经元节点，前3层网络使用非线性激活函数ReLU作为激活函数，输出层的激活层使用tanh函数。

所述第i个深度强化学习智能体包括以下元素：动作输出现实网络

根据来自当前迭代时刻的状态产生当前当前迭代时刻最优的动作；动作输出目标网络

其参数复制自动作现实网络

每隔N_T个迭代时隙更新一次；容量为N_D＝2000的带优先级的经验池

用于存储智能体学习过程中产生的样本。该网络由4层神经网络构成，包括1个输入层，2个隐藏层和1个输出层，其中输入层包含128个神经元节点，输出层包含128个神经元节点，2个隐藏层各包含300和150个神经元节点，前3层网络使用非线性激活函数ReLU作为激活函数，输出层的激活层使用tanh函数。

步骤二、在迭代时刻t，智能体i的当前时刻状态

其中

为智能体i前一迭代时刻所输出的模拟波束成形矩阵，Re(·)，Im(·)分别表示取实部和虚部；将状态

输入智能体i的动作现实网络

输出为智能体选择的动作

并将之整合得到当前迭代时刻智能体i的模拟预编码矩阵

步骤三、智能体i用获得的

基于迫零预编码算法计算得到当前时刻的数字预编码矩阵

其中

为智能体i计算得到的用户k的接收信号功率，

表示取非负操作，

为用户k的噪声功率，

为辅助矩阵

的第k个对角元，

为用于满足功率约束

的辅助变量，P_t为发射端最大发射功率；

步骤四、智能体i基于获得的

和

计算出当前迭代时刻系统和速率

并得到下一迭代时刻的状态

步骤五、智能体i将状态-动作对

分别输入评价现实网络

和预测现实网络

中，

和

分别输出对

的评价值

和当前迭代时刻奖励预测值

基于

和

计算得到当前时刻的奖励值

其中η∈[0,1]为预测值的折扣因子，计算当前时刻状态动作对

的优先级

其中0＜δ＜＜1，将六元组

作为第n个样本存入带优先级的经验池

中，当经验池存满后，每次加入最新的样本，去掉最旧的样本；

所述带优先级的经验池

按二叉树存储样本，如图2所示，经验池二叉树中的最底层叶节点存储六元组

其余各层节点只存储其子节点的优先级之和

a与b为某节点的子节点的下标；经验池

的根节点存储经验池中所有样本的优先级之和

步骤六、智能体i更新其优先级

并从经验池

中基于样本优先级采样批尺寸

来计算评价网络的目标值，

表示向下取整，M＝64为总的采样数量；然后对动作网络、评价网络和奖励值预测网络进行梯度下降更新，并对动作目标网络、评价目标网络和预测目标网络进行软更新。令t＝t+1，若

或t>10M，则停止智能体i的迭代，否则转到步骤二。

所述基于样本优先级采样与网络更新方法按如下步骤进行：

b1)在迭代时刻t，计算智能体i的经验池

中第n个样本的被采样概率

然后按概率

从经验池

中采样M_i个样本，则所有智能体共采样得到M个样本d＝{d₁,d₂,…,d_M}，其中第m个样本

为经验池中存储的样本六元组；

b2)记录经验池

中第n个样本被采样的次数

即当前迭代时刻若该样本被采到，则

否则

不变，t＝0时所有

利用

将样本优先级更新为

b2)将d中所有样本的状态-动作对输入评价目标网络

得到该状态-动作对的价值函数估计值

按照贝尔曼方程计算得到价值函数目标值

其中γ∈(0,1)为奖励函数的折扣因子，

为由动作目标网络

根据

产生的动作；

b3)计算d中M个样本的均方误差分别作为评价现实网络

和预测现实网络

的损失函数：

其中

和

分别为评价现实网络

和预测现实网络

的参数；

b4)损失函数中同时涉及到智能体i的动作现实网络

和中心化的评价现实网络

的更新，记网络

的参数为

更新的目标是使得评价现实网络

的输出

与目标值y尽可能接近，预测现实网络

的输出

与

尽可能接近，同时

输出的动作的Q值尽量大，利用随机梯度下降对网络进行更新：

其中

和

分别为用M个样本d表示的网络

和网络

的累计价值函数。

b5)每个时隙对智能体i的动作现实网络

评价现实网络

和预测现实网络

的参数

和

进行软更新，即以折扣因子τ＝0.001部分保留目标网络中的参数，以折扣因子1-τ作为现实网络中参数的权重：

其中，

和

分别表示智能体i的动作目标网络

评价目标网络

和预测目标网络

的参数。通过软更新，让目标网络的输出缓慢变化以缓解过拟合现象，提高智能体学习稳定性。

综上，本发明在运行时间复杂度和系统性能上均超过传统的MU-MISO系统混合预编码设计方法，利用深度神经网络强大的非线性建模能力，快速学习出最优的混合预编码矩阵，特别对于快速时变信道有很强的鲁棒性，在有限的资源开销下，实现较高的系统和速率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多智能体深度强化学习的MU-MISO混合预编码设计方法，其特征在于：用于配置有多根发射天线的基站与多个单天线的用户组网形成的自适应传输下行系统；首先构建Y个用于计算模拟预编码矩阵F_RF及数字预编码矩阵F_D的深度强化学习的智能体，每个智能体包含一个动作预测网络及一个带优先级的经验池，所有智能体共用一个中心化的奖励值预测网络和一个中心化的评价网络；之后使用基站获取多个用户的信道状态信息，将基站获取的各个用户信道信息输入所构建的Y个智能体，各智能体i,i＝1,…,Y分别学习其模拟预编码矩阵F_RF,i并计算相应的数字预编码矩阵F_D,i，利用评价网络给出各智能体输出的模拟预编码矩阵的评价值用于协调智能体的行为，利用奖励值预测网络修正对各智能体输出的模拟预编码矩阵的奖励值以加速各智能体的探索；各智能体学习收敛后，选择评价值最高的智能体所输出的模拟预编码矩阵及相应数字预编码矩阵作为多输入单输出系统的混合预编码矩阵。

2.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法，其特征在于：所述带优先级的经验池按二叉树存储智能体学习过程中产生的样本，经验池的二叉树结构中的最底层叶节点存储六元组样本，每个六元组样本包含相应智能体在某一迭代时刻的状态、该迭代时刻的动作、该状态-动作对的奖励值、该状态-动作对的优先级、该状态-动作对的奖励值预测值、以及下一迭代时刻的状态，其余各层节点只存储其子节点的优先级之和；各智能体的经验池根节点存储相应经验池中所有样本的优先级之和。

3.根据权利要求1所述的基于多智能体深度强化学习的MU-MISO混合预编码设计方法，其特征在于具体步骤如下：