CN115103372A

CN115103372A - 一种基于深度强化学习的多用户mimo系统用户调度方法

Info

Publication number: CN115103372A
Application number: CN202210691649.7A
Authority: CN
Inventors: 许威; 张薇
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2022-09-23

Abstract

本发明公开了一种基于深度强化学习的多用户MIMO系统用户调度方法，包括：首先构建多用户MIMO系统模型，提出用户调度数学优化问题，以最大化系统和速率为目标，以基站总发射功率为限制条件；接着，将优化问题建模为马尔可夫决策过程，将基站视为智能体，将经过处理的基站到用户的信道矩阵以及一个指示矩阵拼接作为状态，将选择的用户索引作为动作，并设计合适的奖励函数；然后设计深度强化学习神经网络结构并初始化深度强化学习相关参数；随后，开始训练神经网络直至收敛；最后，保存网络参数，用训练好的神经网络来进行用户调度，验证本方法的性能。本发明能够在降低实现复杂度的情况下获得较高的系统性能。

Description

一种基于深度强化学习的多用户MIMO系统用户调度方法

技术领域

本发明涉及多用户MIMO系统的用户调度技术领域，特别是涉及一种基于深度强化学习的多用户MIMO系统用户调度方法。

背景技术

在多用户MIMO系统中，基站天线数是固定的，由于设备的限制，有时系统内用户数会多于基站天线数，这种情况下基站可能不能同时服务全部的用户，这时需要一定的用户调度方法，从多个用户中选择一部分信道条件比较好的用户服务，使系统可以获得最好的性能，例如获得最大的系统和速率；同时，小区间干扰是影响系统性能的另一重要因素，通过合适的预编码技术，可以消除小区用户间的干扰，提升系统的吞吐量。

随着人工智能的发展，机器学习技术不断发展。作为机器学习的一个分支，强化学习(RL)近年来不断被应用于无线通信系统中。与传统的深度学习不同，强化学习不需要事先收集大量的训练数据，它可以通过智能体与环境的交互过程不断收集经验数据，从而使得训练出的模型可以适应不断变化的无线环境。强化学习通常被用来解决顺序决策问题，智能体观察来自环境的状态，并根据这个状态做出相应的动作，获得相应的奖励，通过不断更新自己的参数最终获得最优策略，使得智能体从环境中获得最大的长期累计奖励。同时，与深度学习结合的深度强化学习(DRL)能够通过使用一个神经网络来求解这一最优策略，使得强化学习可以用来解决更为复杂的问题。

目前，最优的用户调度方法是通过穷举法来获得，通过将所有的调度可能都穷举出来，选择使得系统性能最优的用户组合，但是，这种方法在系统中用户数增多的情况下，实现复杂度急剧增长，在实际的通信系统中可行性不高。还有一些比如基于用户信道正交性的用户调度方法，在所有的用户信道中，选择正交性最强的一组作为调度用户，这种方法在降低了方法实现的复杂度的同时也降低了系统性能。所以，需要设计有效地折中方法复杂度和系统性能的用户调度方法。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的多用户MIMO系统用户调度方法，用以解决多用户MIMO系统中的用户调度问题。针对复杂度和系统性能的要求，本发明将基站视为智能体，将经过处理的基站到用户的信道矩阵与一个指示矩阵拼接作为状态，将所选用户索引作为动作，通过基站与整个无线环境的不断交互，选择最优的用户组合，同时，采用迫零(ZF)预编码方法计算预编码矩阵，最终获得一个复杂度和系统性能折中的用户调度方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度强化学习的多用户MIMO系统用户调度方法，所述方法包括：

步骤S1、构建多用户MIMO系统，该系统包括基站和多个单天线用户，其中，基站到用户的信道矩阵建模为瑞利衰落模型；

步骤S2、针对步骤S1中构建的多用户MIMO系统，进行用户调度优化的建模，以最大化系统和速率为目标，且以基站总发射功率为约束，构建优化问题；

步骤S3、根据步骤S2中构建的优化问题，建立马尔可夫决策过程，其包括：设计智能体、状态、动作空间、动作、奖励函数以及折扣因子；

步骤S4、基于深度Q学习方法，构建深度强化学习网络，该强化学习网络包括本地Q网络和目标Q网络，其中，该两个网络具有相同的结构，均包括两个卷积层，三个全连接层，网络的输出均为动作空间中每个动作对应的Q值，维度等于动作空间的维度；

步骤S5、初始化深度强化学习的参数，该参数包括：经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙；再随机初始化本地Q网络的网络参数和目标Q网络的网络参数，并获取初始状态；

步骤S6、对步骤S4中构建的深度强化学习网络进行训练，获得训练好的深度强化学习网络，再基于该训练好的深度强化学习网络直接选择最优的调度用户组合。

进一步的，所述的多用户MIMO系统包括一个配备有天线数为N_t的基站和K个单天线用户；所述的基站到用户的信道矩阵，其是维度为K×N_t的复数矩阵。

进一步的，在所述步骤S2中，所述优化问题具体表示为:

s.t.Tr(V^HV)≤P (1a)

在公式(1)和(1a)中，h_k为信道矩阵H的第k行，表示基站到用户k的信道，z_k∈{0,1}表示用户k是否被调度，V为相应的预编码矩阵，v_k为预编码矩阵V的第k列，σ²为噪声方差，公式(1a)为基站发射功率限制，P为基站最大发射功率，上标(·)^H为取共轭转置操作，Tr(·)为取迹操作，||·||为取模操作。

进一步的，所述步骤S3包括：

步骤S301、将基站作为马尔可夫决策过程中的智能体；

步骤S302、设计一三维矩阵作为马尔可夫决策过程中的状态，该三维矩阵的大小为(3,K,N_t)；其中，(2,K,N_t)包括基站到所有用户的信道矩阵H，并将其实部和虚部分别存储，另一部分为一个(1,K,N_t)的指示矩阵，这个矩阵初始化为全1矩阵，当某个用户被选择时，相应的行置0；

步骤S303、设计马尔可夫决策过程中的动作，其包括：将用户集合{1,2,…,K}作为动作空间，每次选择的动作为动作空间中的一个，即所选用户的索引；

步骤S304、设计马尔可夫决策过程中的奖励函数，其包括：R＝R₁+R₂+R₃，其中R₁表示系统和速率，R₂表示和速率的增长值，R₃表示智能体受到的惩罚，根据情况R₃取-50或0；

步骤S305、设计马尔可夫决策过程中的折扣因子γ。

进一步的，所述步骤S6具体包括：

步骤S601、在每个训练的回合中，任意一个时隙t，智能体从环境中获得状态s_t，其中，该状态s_t为步骤S302定义的形式；将该状态s_t输入本地Q网络，获得每个动作对应的Q值；

步骤S602、智能体根据公式(2)定义的∈贪婪策略选择一个动作a_t，这个动作对应所选用户的索引，其中p为一个(0,1)之间的实数，并将所选用户的信道存储在用户选择信道矩阵H_s中，相应地，智能体的状态转换到s_t+1；

步骤S603、计算系统和速率R₁，其包括：

首先，基于选择的用户信道矩阵采用迫零预编码计算预编码矩阵V＝(H_s ^HH_s)^-1H_s ^H，其中，该H_s表示基站到当前所有被选择用户的信道矩阵；

然后，采取等功率分配，得到功率控制之后的预编码矩阵V_ZF：

在公式(3)中，n为所选用户的数量；

最后，根据公式(4)计算R₁：

在公式(4)中，

为基站到选择用户k的信道，

为基站到选择用户k的迫零预编码；

步骤S604、计算和速率的增长值R₂，其包括：

R₂＝R_1,t-R_1,t-1 (5)

在公式(5)中，R_1,t为当前时隙系统和速率，R_1,t-1为上一时隙系统和速率；

步骤S605、计算智能体受到的惩罚R₃，其包括：

若步骤S602中当前动作a_t对应的用户被选择过，则在当前奖励的基础上给一个负的惩罚R₃＝-50；

如果没有被选择过，则R₃＝0；

步骤S606、计算此时的奖励函数r_t＝R₁+R₂+R₃；

步骤S607、将数组(s_t,a_t,r_t,s_t+1)存入经验池中；

步骤S608、当一个训练回合中执行的步骤，其包含的时隙小于步骤S5中定义的每个回合中包含的时隙时，继续执行步骤S601至步骤S607；

步骤S609、当经验池中数据未达到训练神经网络所需的数据量时，继续执行步骤S601至步骤S608；

步骤S610、从经验池中随机采样容量为B的一批样本，将采样的样本分别输入本地Q网络和目标Q网络计算选择不同用户对应的估计Q值和目标Q值，并根据公式(6)计算损失函数，随后根据随机梯度下降方法计算梯度更新本地Q网络的参数；

在公式(6)中，Q(s,a)为状态-动作值函数；Q(s_t,a_t；θ)表示使用本地Q网络，在状态s_t下执行动作a_t计算得到的估计Q值，θ为本地Q网络的网络参数，Q(s_t+1,a；θ′)表示使用目标Q网络在状态s_t+1下执行动作a计算得到的目标Q值，θ′为目标Q网络的网络参数；

步骤S611、将本地Q网络的参数赋值给目标Q网络完成目标Q网络参数的更新；

步骤S612、返回步骤S611，继续执行，直到网络收敛，并保存本地Q网络的参数。

本发明的有益效果是：

1、本发明采用深度强化学习方法，采用神经网络，用一个训练好的网络模型直接选择最优的调度用户组合，与穷举方法相比，大大降低了实现的复杂度，同时，在性能也可以达到穷举法性能的88％左右。

2、本发明通过设计合适的奖励函数，从智能体与环境的交互中学习用户调度的最优策略，与经典的基于用户信道正交性的方法相比，可以获得更好的性能，同时不需要计算不同用户信道之间的相关性，不仅提升了系统的性能，还降低了方法的复杂度。

附图说明

图1为实施例1中提供的一种基于深度强化学习的多用户MIMO系统用户调度方法的流程示意图；

图2为实施例1中提供的深度强化学习网络，其训练过程的示意图；

图3为对实施例1中提供的多用户MIMO系统用户调度方法进行性能验证的流程图；

图4为在不同信噪比情况下，本实施例方法与穷举方法、基于用户正交性(SUS)的方法以及随机选择方法的性能对比；

图5为本实施例方法与穷举方法、基于用户正交性的方法以及随机选择方法复杂度的对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1-图5，本实施例提供一种基于深度强化学习的多用户MIMO系统用户调度方法，该方法的具体流程如图1所示，该方法具体包括：

步骤S1、构建多用户MIMO系统，该系统包括：一个配备有天线数为N_t的基站和K个单天线用户；其中，基站到用户的信道矩阵H建模为瑞利衰落模型，其是维度为K×N_t的复数矩阵。

具体的说，在本实施例中，将多用户MIMO系统中的用户调度问题建模为如下数学优化问题：

s.t.Tr(V^HV)≤P (1a)

具体的说，在本实施例中，该步骤S3包括：

步骤S301、将基站作为马尔可夫决策过程中的智能体；

步骤S305、设计马尔可夫决策过程中的折扣因子γ。

步骤S4、基于深度Q学习方法，构建深度强化学习网络，该强化学习网络包括本地Q网络和目标Q网络，其中，该两个网络具有相同的结构，均包括两个卷积层，三个全连接层，网络的输出均为动作空间中每个动作对应的Q值，维度等于动作空间的维度。

步骤S5、初始化深度强化学习的参数，该参数包括：经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙；再随机初始化本地Q网络的网络参数和目标Q网络的网络参数，并获取初始状态。

具体的说，初始化一个容量为D的经验池，学习率η，网络更新时每次采样的样本数量B，折扣因子γ，强化学习网络总的训练回合，每个回合包含的时隙，随机初始化本地Q网络参数θ和目标Q网络参数θ′，并获取初始状态S₀。

步骤S6、对步骤S4中构建的深度强化学习网络进行训练；

具体的说，在本实施例中，该步骤S6包括：

步骤S603、计算系统和速率R₁，其包括：

在公式(3)中，n为所选用户的数量。

最后，根据公式(4)计算R₁：

在公式(4)中，

为基站到选择用户k的信道，

为基站到选择用户k的迫零预编码。步骤S604、计算和速率的增长值R₂，其包括：

R₂＝R_1,t-R_1,t-1 (5)

在公式(5)中，R_1,t为当前时隙系统和速率，R_1,t-1为上一时隙系统和速率。

步骤S605、计算智能体受到的惩罚R₃，其包括：

如果没有被选择过，则R₃＝0；

步骤S606、计算此时的奖励函数r_t＝R₁+R₂+R₃；

步骤S607、将数组(s_t,a_t,r_t,s_t+1)存入经验池中；

步骤S7、对本实施例方法验证其性能，随机生成若干组信道，经过深度强化学习网络得到选择的用户信道矩阵，根据公式(4)计算平均系统和速率。

具体的说，在本实施例中，通过图3所示的流程进行验证。

综上所述，本发明采用深度强化学习方法，采用神经网络，用一个训练好的网络模型直接选择最优的调度用户组合，与穷举方法相比，大大降低了实现的复杂度，同时，在性能也可以达到穷举法性能的88％左右。本发明通过设计合适的奖励函数，从智能体与环境的交互中学习用户调度的最优策略，与经典的基于用户信道正交性的方法相比，可以获得更好的性能，同时不需要计算不同用户信道之间的相关性，不仅提升了系统的性能，还降低了方法的复杂度。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。