CN113904704A

CN113904704A - 一种基于多智能体深度强化学习的波束预测方法

Info

Publication number: CN113904704A
Application number: CN202111132541.6A
Authority: CN
Inventors: 姜静; 岳志宇; 梁彦霞; 何华
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-07
Anticipated expiration: 2041-09-27
Also published as: CN113904704B

Abstract

本公开实施例是关于一种基于多智能体深度强化学习的波束预测方法。该基于多智能体深度强化学习的波束预测方法包括：深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性；Q网络利用所述深度神经网络输出估计动作‑值函数，计算网络参数梯度，并让每个智能体依次做出下一次波束预测；利用所述Q网络输出参数更新所述深度神经网络权值，实现对动态用户的精准波束预测。本公开实施例利用深度神经网络获取多个能反映信道特征的关键值，使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性，提高波束切换成功率，减小大规模多天线(MIMO)系统的反馈开销，从而提高和速率。

Description

一种基于多智能体深度强化学习的波束预测方法

技术领域

本公开实施例涉及无线通讯技术领域，尤其涉及一种基于多智能体深度强化学习的波束预测方法。

背景技术

大规模多天线(Massive Multi-Input Multi-Output，MIMO)系统作为 5G移动通信的关键技术之一，通过部署大规模天线阵列获得高信道增益，并结合精准波束成形等技术实现多用户空间复用以获得干扰抑制增益，使得小区总频谱效率和边缘用户的频谱效率得到了极大的提升。

5G将频谱扩展到毫米波波段，在带来了极宽的带宽同时波束在大气中的传播衰减十分严重；毫米波系统的用户高速移动时受多普勒效应影响波束切换更加频繁，切换失败率更高。传统的波束预测方法通常为求解一个基于模型的动态规划问题，这类问题通常为NP-hard (non-deterministic polynomial-time hard)，计算复杂度高且易陷入局部最优解。另外，用户在移动过程中，信道难以通过单一模型来建模，使用传统波束预测算法会导致预测误差较大，通信质量下降。

因此，有必要改善上述相关技术方案中存在的一个或者多个问题。

需要注意的是，本部分旨在为权利要求书中陈述的本公开的技术方案提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本公开实施例的目的在于提供一种基于多智能体深度强化学习的波束预测方法，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开实施例提供的一种基于多智能体深度强化学习的波束预测方法，该方法包括：

深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性；

Q网络利用所述深度神经网络输出估计动作-值函数，计算网络参数梯度，并让每个智能体依次做出下一次波束预测；

利用所述Q网络输出参数更新所述深度神经网络权值，实现对动态用户的精准波束预测。

本公开的一实施例中，所述瞬时信道状态信息获取为所述智能体根据数字基带参数获取角度信息，并构建信道样本；

所述智能体设置M根天线，同时与K个单天线用户进行通信，所述智能体与所述用户间的信道为：

H＝[h₁,h₂,...h_K] (1)

其中，h_k,k∈{1,2,…,K}为所述用户与所述智能体间的信道，所述用户与所述智能体间的信道公式为：

其中，

表示导向向量，g_k表示所述智能体与用户k之间的空间信道向量；

所述导向向量

公式为：

其中，i为波束索引，Γ表示波束索引集合，

为波束方向；

所述智能体与所述用户k之间的空间信道向量g_k公式为：

其中，ρ_LOS和

分别表示视线传输(LOS)和非视线传输(NLOS) 信道的增益系数；φ_LOS和

分别为视线传输(LOS)和非视线传输 (NLOS)的离去角。

本公开的一实施例中，将所述信道样本作为所述深度神经网络的输入，得到接收信号功率，所述接收信号功率归一化满足

其中E[·] 是期望运算符，I是单位矩阵；所述接收功率为||y||²，其中，y为用户接收信号；

用户接收信号公式为：

y＝HGPq+n (5)

其中，G为波束选择矩阵，所述波束选择矩阵G元素为0或1，

是具有独立同分布(i.i.d)的加性高斯白噪声，H为波束信道矩阵，P为预编码矩阵，且||P||²＝1，q为智能体向用户发送的下行信号。

本公开的一实施例中，将信道矩阵和波束索引矩阵设置为同等大小，同时设置适当的学习率，并用随机参数初始化动作-值函数和概率矩阵，每个所述智能体的初始化参数都是相互独立的。

本公开的一实施例中，根据目标函数寻得当前迭代的最优动作，以概率1-ε执行，随机选择一个动作a_t，并以概率ε执行，执行动作后得到奖励函数r_t，预测准确的波束会在每次迭代过程中强化动作；

所述奖励函数为最大化用户和速率，公式为：

其中，σ²表示噪声的功率；

所述智能体的转移概率ε公式为：

其中，1(·)为指示函数，

为波束i的估计值。

本公开的一实施例中，所述动作-值函数为所述智能体在状态s时采取动作a的奖励；

所述值函数公式为：

则所述动作-值函数公式为：

最优策略通过贝尔曼等式获得，所述最优策略公式为：

其中，π表示状态s_t映射到动作a_t的策略，s₀为初始状态，γ^t表示第t 步的折现系数，

表示累计折现奖励。

本公开的一实施例中，获得当前迭代的动作、状态和奖励函数后观察下一状态s_t+1，将所有智能体数据保存在经验缓存池中。

本公开的一实施例中，从所述经验缓存池中选取最小批尺寸的数据输入

计算损失函数，并更新训练参数，在所述Q网络训练中，采用所述Q网络估计动作-值函数；

所述损失函数公式为：

L(θ)＝E{(y_t-Q(s_t+1,a；θ))²} (11)

其中，θ表示所述深度神经网络的参数；

则第t次迭代的目标输出公式为：

其中，θ¹和θ²分别表示两层所述深度神经网络的不同参数。

本公开的一实施例中，基于所述损失函数，利用随机梯度下降法来更新权值θ，所述损失函数的梯度表示为：

其中，L(θ)为所述损失函数。

本公开的一实施例中，在下一迭代中选取动作a_t+1，并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数，同时依据式(10) 和功率约束条件

其中P_threshold表示智能体功率阈值，超过该值表明移动用户需要进行切换，得到最优策略(动作-值映射)和式 (13)后可得到权值并返回所述深度神经网络进行更新。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开的实施例中，通过上述方法，利用深度神经网络获取多个能反映信道特征的关键值，使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性，提高波束切换成功率，减小大规模多天线(MIMO) 系统的反馈开销，从而提高和速率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开示例性实施例中基于多智能体深度强化学习流程图；

图2示出本公开示例性实施例中动态用户波束预测示意图；

图3示出本公开示例性实施例中基于多智能体深度强化学习示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开实施例的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

本示例实施方式中首先提供了一种基于多智能体深度强化学习的波束预测方法，参考图1中所示，该方法可以包括：步骤S101～步骤S103。

步骤S101：深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性；

步骤S102：Q网络利用所述深度神经网络输出估计动作-值函数，计算网络参数梯度，并让每个智能体依次做出下一次波束预测；

步骤S103：利用所述Q网络输出参数更新所述深度神经网络权值，实现对动态用户的精准波束预测。

通过上述方法，利用深度神经网络获取多个能反映信道特征的关键值，使多天线(MIMO)系统的波束预测更符合动态用户信道的时变特性，提高波束切换成功率，减小大规模多天线(MIMO)系统的反馈开销，从而提高和速率。

下面，将参考图1至图3对本示例实施方式中的上述基于多智能体深度强化学习的波束预测方法的各个步骤进行更详细的说明。

在步骤S101中，深度神经网络利用瞬时信道状态信息学习无线信道的关键传播特性；

具体的，首先获取瞬时信道状态信息，每个基站根据各自的数字基带参数获取角度信息

并构建信道样本

将其作为DNN的输入，接收信号功率为||y||²。

考虑大规模MIMO系统的下行通信，配备M根天线的基站(BS)同时与K个单天线用户进行通信。在二维平面内，基站与用户间的信道可以表示为：

H＝[h₁,h₂,...h_K] (1)

其中，

所述导向向量

公式为：

其中，i为波束，j表示与第k个用户之外的其他用户索引，Γ表示波束索引集合，

为波束方向；

所述智能体与所述用户k之间的空间信道向量g_k公式为：

其中，ρ_LOS和

分别为视线传输(LOS)和非视线传输 (NLOS)的离去角。

假设信号功率归一化满足

其中E[·]是期望运算符，I是单位矩阵，则用户接收信号y表示为：

y＝HGPq+n (5)

其中，G为波束选择矩阵，所述波束选择矩阵G元素为0或1，

是具有独立同分布(i.i.d)的加性高斯白噪声，H为波束信道矩阵，P为预编码矩阵，且||P||²＝1，q为智能体向用户发送的下行信号，接收信号功率为||y||²。

步骤S102中，Q网络利用所述深度神经网络输出估计动作-值函数，计算网络参数梯度，并让每个智能体依次做出下一次波束预测；

具体的，将信道矩阵和波束索引矩阵设置为同等大小，同时设置适当的学习率，并用随机参数初始化动作-值函数Q^π(s,a)和概率矩阵，每个基站的初始化参数都是相互独立的；对于多智能体深度强化学习，本发明视基站为智能体，其状态用s_t表示，状态空间S可以表示为波束信道矩阵H和波束索引矩阵组成的张量并用1或0分别表示信道的好坏。智能体的动作a_t为选择波束的过程，动作空间A可以表示为在波束选择矩阵中选择具有最大接收功率的波束，并且每次迭代时最多只选择一个波束。

根据目标函数寻得当前迭代的最优工作，以概率a_t执行，随机选择一个动作a_t，并以概率ε执行。执行动作后得到奖励函数r_t，预测准确的波束会在每次迭代过程中强化动作。

奖励函数r_t为最大化用户和速率，公式为：

其中，j表示与第k个用户之外的其他用户索引，σ²表示噪声的功率；

所述智能体的转移概率ε公式为：

其中，1(·)为指示函数，

为波束i的估计值。

所述动作-值函数为所述智能体在状态s时采取动作a的奖励；

所述值函数公式为：

其中，π表示状态s_t到动作a_t的策略，s₀为初始状态，γ^t表示第t步的折现系数，

表示累计折现奖励；

则所述动作-值函数公式为：

最优策略通过贝尔曼等式获得，所述最优策略公式为：

具体的，先获得当前迭代的动作、状态和奖励函数后观察下一状态 s_t+1，将所有基站数据保存在经验缓存池(Experience Buffer Replay)中；

从经验缓存池中选取最小批尺寸的数据输入

计算损失函数，并更新训练参数θ。在线训练阶段中，采用深度Q网络估计动作-值函数；Q网络旨在最小化损失函数：

L(θ)＝E{(y_t-Q(s_t+1,a；θ))²} (11)

其中，θ表示所述深度神经网络的参数；

则第t次迭代的目标输出公式为：

基于所述损失函数L(θ)，利用随机梯度下降法来更新权值θ，所述损失函数的梯度可以表示为：

然后在下一迭代中选取动作a_t+1，并和状态、训练参数共同作为输入根据式(9)求解估计动作-值函数，同时依据式(10)和功率约束条件

其中P_threshold表示基站功率阈值，超过该值表明移动用户需要进行切换；得到最优策略(动作-值映射)和式(13)后可得到权值并返回DNN进行更新。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。