CN115987340B

CN115987340B - 一种5g物联网信道相干且有限反馈条件下的用户调度方法

Info

Publication number: CN115987340B
Application number: CN202310273343.4A
Authority: CN
Inventors: 潘甦; 秦志强
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-07-04
Anticipated expiration: 2043-03-21
Also published as: CN115987340A

Abstract

本发明公开了一种5G物联网信道相干且有限反馈条件下基于强化学习的用户调度方法，该方法包括：将5G物联网信道相干环境下用户容量具有弹性这一结论应用于设计用户调度算法中，使得系统可以同时容纳更多的用户，节约了空间资源；根据残留干扰公式，推导相应的用户可达速率表达式，降低计算复杂度，设计以最大化用户可达速率为目标的码字挑选准则；定义用户终端的动作价值为其可实现用户速率的期望，通过Q‑learning方法来估计，将用户终端的Q值定义为其动作价值置信区间的上界，并以Q值的大小作为用户选择的基准。该方法不需要尝试不同的用户组合来计算“速率和”，计算复杂度大大降低且不影响系统吞吐量。

Description

一种5G物联网信道相干且有限反馈条件下的用户调度方法

技术领域

本发明涉及一种5G物联网信道相干且有限反馈条件下的用户调度方法，属于无线通信技术领域。

背景技术

多输入多输出(Multiple Input Multiple Output,MIMO)是移动与无线通信系统的关键技术之一，在对现有频谱资源充分利用的基础上可以成倍提高系统吞吐量。在多用户MIMO中如何高效地进行用户选择一直是研究的热点。

现有的用户选择算法大多以普通MIMO信道不相干为背景进行研究，而实际应用场景也可能处于信道相干的情况下，如果仍然按信道不相干进行用户选择，这会导致空间资源的浪费。同时在大量用户和大量收发天线的场景中，有限的上行链路频谱资源因反馈量庞大而负载沉重。

发明内容

针对上述问题，针对信道相干条件下的MU-MIMO有限反馈系统，本发明提出了一种基于强化学习的用户调度方法。定义用户终端的动作价值为其可实现用户速率的期望，通过Q-learning方法来估计。本发明将用户终端的Q值定义为其动作价值置信区间的上界，并以Q值的大小作为用户选择的基准。与传统的贪婪算法相比，该方法不需要尝试不同的用户组合来最大化吞吐量，也不需要重复计算用户可达到的速率，计算复杂度更低。

为达到上述目的，本发明所采用的技术方案是：

一种5G物联网信道相干且有限反馈条件下的用户调度方法，所述方法在信道相干且有限反馈条件下的MU-MIMO系统中基于Q-learning对用户进行迭代处理，迭代过程：

步骤1，根据前一迭代周期每个用户的可达速率，计算当前迭代周期每个用户的Q值；

步骤2，按Q值从大至小的顺序，依次将每个用户放入调度用户集中，并从第二顺位放入调度用户集的用户开始，对当前放入调度用户集的用户依次进行如下处理：

判断当前放入调度用户集的用户是否满足预设条件，若是将其保留在调度用户集中，否则将当前放入调度用户集的用户移出调度用户集；其中，所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数；

步骤3，重复步骤2，直至当前调度用户集中每个用户的动作价值估计值收敛于其动作价值真实值，输出收敛时的调度用户集作为最终用户调度结果。

进一步地，在初始迭代周期内，依次将用户放入调度用户集中，并从第二个放入调度用户集的用户开始，判断当前放入调度用户集的用户是否满足预设条件，若是则将其保留在调度用户集中，否则将当前放入调度用户集的用户移除调度用户集。

进一步地，用户m在迭代周期t的动作价值估计值和真实值q_m(t)分别为：

q_m(t)＝E[r_m(t)]

其中，

表示用户m在迭代周期t-1的动作价值估计值，/>

表示用户m在迭代周期t时已被放入调度用户集的次数；用户m的初始动作价值/>

β∈(0，1)表示折扣因子；a(t)表示迭代周期t内的调度用户集；r_m(t)表示用户m在迭代周期t的可达速率，E[.]表示求期望。

进一步地，用户m在迭代周期t+1的Q值为：

其中，

表示用户m在迭代周期t+1的动作价值估计值，/>

表示用户m在迭代周期t的动作价值估计值，/>

表示用户m在迭代周期t+1时已被放入调度用户集的次数；用户m的初始动作价值/>

β∈(0，1)表示折扣因子；k表示一个常数；a(t)表示迭代周期t内的调度用户集；r_m(t+1)表示用户m在迭代周期t+1的可达速率。

进一步地，

其中，/>

表示迭代周期t内除用户m以外其他用户的联合信道矩阵/>

的零空间矩阵，

表示迭代周期t内除用户i以外其他用户的联合信道矩阵/>

的零空间矩阵；V_m(t)表示对用户m在迭代周期t的信道状态矩阵进行SVD分解获得的右酉矩阵。

进一步地，以

作为用户m在迭代周期t的预编码矩阵。

进一步地，该方法中，用户选择最合适码字发送至基站，基站利用接收到的码字预编码。

进一步地，用户m的最合适码字H’_m以最小化干扰信号功率为目标进行选择，选择依据为：

其中codebook表示码本；

表示选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>

的零空间矩阵；V_m表示对用户m的信道状态矩阵进行SVD分解获得的右酉矩阵；S表示系统同时服务的用户集合。

进一步地，用户m选择最合适码字后在迭代周期t的可达速率为：

其中，

表示用户m在迭代周期t选择最合适码字后S中除用户m以外其他用户的联合信道矩阵/>

的零空间矩阵；/>

表示用户i在迭代周期t选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>

的零空间矩阵；V′_m(t)表示对用户m在迭代周期t选择最合适码字后的信道状态矩阵进行SVD分解获得的右酉矩阵；|S|表示系统同时服务的用户数量。

进一步地，所述信道相干且有限反馈条件下的MU-MIMO系统中，用户m的接收信号y_m表示为：

其中H_m为用户m的信道状态矩阵，s_m、s_i分别为基站端发送给用户m、用户i的发射信号，T_m、T_i分别为用户m、用户i的预编码矩阵，n_m为信道上的加性高斯白噪声，|S|为系统同时服务的用户数量。

与现有技术相比，本发明所达到的有益效果：

1、得到5G信道相干的情况下用户容量上限，推导了用户等效信道矩阵的秩在用户选择过程中的变化，揭示了5G物联网环境下用户容量具有弹性这一事实，并将其结论应用于设计用户选择算法中，使得系统可以同时容纳更多的用户，节约了空间资源；

2、在有限反馈的MIMO系统中，根据残留干扰公式，推导相应的用户可达速率表达式，设计以最大化用户可达速率为依据的码字挑选准则；

3、针对信道相干且有限反馈的MIMO系统，提出一种基于强化学习的用户调度方法，该算法使用Q-learning根据用户过往的速率样本估计用户的动作价值，并根据Q值(动作价值的上限)选择用户。该方法不需要尝试不同的用户组合来计算“速率和”，计算复杂度大大降低且不影响系统吞吐量。

附图说明

图1为一个实施例中多用户MIMO系统模型；

图2为一个实施例中有限反馈MU-MIMO系统模型。

具体实施方式

5G物联网要支持海量的节点，采用MIMO技术可以在不增加频率资源的前提下通过空分来显著提高系统。为了提高资源的使用效率，物联网系统中接入用户数一般要大于可同时服务的用户数，所以用户选择方法成为了研究热点。

调度的基本准则是使系统的“速率和”(吞吐量)最大，基于MIMO的5G物联网在调度时存在一个突出的问题是由于物联网节点量巨大，计算用户速率时用到的用户联合矩阵尺寸太大，其奇异值(SVD)分解会造成不可承受的计算量。目前降低调度算法的计算复杂度的方法有以下两种方式：1、简化用户速率的计算；2、优化用户选择方法。在简化用户速率计算方面，现有的选择算法主要通过选取用户速率的低复杂度表征来降低算法的计算复杂度。在用户选择方法上，由于一个用户速率和所有被服务用户的信道相关，所以最优用户组合必须穷举获得，为了减少计算量，现有文献大多利用了贪婪算法，即每次选取一位能够使得已选用户集“速率和”最大的用户加入已选用户集，直到已选用户集中的用户数量达到最大可调度用户数。因此基站每次选择用户时，仍会多次计算已选用户(包含新加入的用户)的速率和。由此可见，在物联网总用户数很多时，计算量仍旧巨大。

实际上，用户调度问题是一个策略决策问题，其目标是获得最优的调度用户集。强化学习(RL)方法通过对每个动作进行评价来寻找最优动作，在选择动作选用户)前不需要预知动作产生的实际收益(用户速率)，我们将用户可达速率的期望定义为该用户被调度的动作价值，该值可以从用户的速率样本中学习和估计。调度结束后，再根据用户集合的信道矩阵计算用户的实际可实现速率，并将其作为样本用于更新用户的动作价值，从而使得用户速率计算的次数大大降低。

5G物联网调度第二个问题是由于物联网节点多，分布密，所以节点间的无线信道的独立性不能保证，即MIMO空间信道之间相关，这将造成用户联合矩阵欠秩。我们将证明这种欠秩会导致调度的用户数量上限变大，而每个用户速率会变小，采用通常的(假定信道不相干的)调度方法会大大降低系统吞吐量。根据我们所知，目前还没有很多文献研究信道相干情况下5G物联网的调度问题。另外，在大量用户和大量收发天线的5G物联网场景中，有限的上行链路频谱资源因反馈量庞大而负载沉重。一般采用有限反馈方法，即基站只能通过码字索引知晓用户近似信道矩阵信息，由于信道信息不够准确，这会导致残留多用户干扰，影响用户速率，这也是调度算法应该考虑的。在信道相关和有限反馈的双重条件下，我们首先探索用户联合矩阵欠秩下用户数量和用户速率变化的规律，再推导得到用户速率的低复杂度表征，利用这个表征量作为强化学习的样本，在此基础上设计基于强化学习的调度方法，使系统容量最大。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，主要通过以下几个方面对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

(一)针对5G通信系统特性，建立基站到物联网在信道相干且有限反馈条件下用户调度的模型，根据用户的用户信道矩阵，对所述接收信号向量进行求解，通过BD预编码消除用户间干扰。

如图1所示MU-MIMO系统，基站发射天线数为T，用户m有效接受天线数为N_m，且N_m≤T，M₀表示系统中的用户数量，系统同时服务的用户集合用S表示，|S|表示同时服务的用户数量。

针对5G通信系统特性，如图2所示，建立基站到物联网在信道相干且有限反馈条件下用户调度的模型，根据用户的用户信道矩阵，对所述接收信号向量进行求解，通过BD预编码消除用户间干扰。

用户m的接收信号y_m可以表示为：

其中H_m为用户m的信道状态矩阵，s_m、s_i分别为基站端发送给用户m、用户i的发射信号，T_m、T_i分别为用户m、用户i的预编码矩阵，n_m为信道上的加性高斯白噪声。上述等式右边第一项是用户m在接收端所需信号，第二项是其他用户对用户m的干扰。

BD预编码的原理是将每个用户的预编码矩阵设置成联合信道矩阵(由除了该用户以外其他用户的信道矩阵拼接而成)的零空间矩阵，这个零空间矩阵与其他用户的信道矩阵相乘等于0，即保证

从而消除用户间干扰。

令

为除了用户m以外的其他用户信道矩阵的联合矩阵，并对其进行奇异值分解(SVD)：

其中

是由联合矩阵/>

零奇异值对应的左右奇异向量组成，/>

是由/>

非零奇异值对应的左右奇异向量组成，对角阵/>

的主对角线元素为/>

的非零奇异值。

由于

存在于联合矩阵/>

的零空间内，因此有：/>

故利用/>

对用户m的发送信号进行预编码处理，可以完全消除用户间干扰。

(二)确定5G物联网信道相干环境下用户容量限制条件，推导了用户等效信道矩阵的秩在用户选择过程中的变化，揭示了5G物联网环境下用户容量具有弹性这一事实，并将其结论应用于设计用户选择算法中，使得系统可以同时容纳更多的用户，节约了空间资源。

将

转为一组联立方程的解：

想让上式存在非零解，要求满足联立方程的个数小于变量个数。

当信道处于相干的情况下，用户m信道矩阵不满秩时，等效接收天线数小于实际天线数，此时

的秩与各用户等效接收天线数存在如下关系：/>

Ni为用户i的有效接受天线数。只有满足/>

(其他用户等效接收天线数之和小于等于发射天线总数)时，联立方程组才能存在非零解，就能存在预编码矩阵保证每个用户不受其他用户干扰。

在信道不相干时，由于

是满秩的，所以/>

系统用户容量上限为/>

即所有用户的天线数之和等于基站天线数，且该用户容量是一个定值；而在信道相干环境中/>

即：|S|_相干>|S|_不相干。因此若对5G物联网信道相干环境下按照普通MIMO信道不相干情况的调度，则缩小了用户容量上限。

(三)设计理想的预编码矩阵需要知道所有的信道矩阵H_m，然而反馈所有的H_m需要占用很大的上行资源，广泛采用的方法是在用户端和基站端预存相同的码本，码本中存放的是所有可能的信道矩阵H_m，即所有可能的H_m的取值，其中每种可能的信道矩阵称为码字，用户端获得下行信道矩阵，再根据一定准则从码本中选出一个与当前信道条件最为匹配的码字，并将码字索引反馈给基站端，基站端根据索引从码本中选取出对应码字H’_m，然后利用该码字设计预编码矩阵。根据残留干扰公式，推导有限反馈下的用户可达速率表达式。这里需要说明的是，如此处的“H_m”和“H’_m”，为区分理想状态和选取码字后两种情况，在选取码字后的信道矩阵等参数添加上标“’”，在后文中的类似之处也做相同区分。

本发明选择MMSE接收机接收信号：

其中D_m为用户m接收机的检测矩阵，等式右侧第一部分就是用户m的有用信号。MMSE接收机的原理是使估计信号与原始信号之间的误差平方根最小：

其中tr(.)表示求括号内矩阵的迹。对D_m求偏导并令其为零得

其中

为高斯白噪声的协方差矩阵，(.)^-1表示矩阵求逆。对H_m进行SVD分解可得/>

其中U_m和V_m分别是N_m*N_m阶酉矩阵和T*T酉矩阵，构成/>

的其他用户的码字为酉矩阵，因此/>

仍是酉矩阵。因此有：

又

得到

其中λ_m,n表示用户m信道矩阵的第n个奇异值。

MIMO信道可以分解为多个等效信道，用户m的等效信道矩阵为

其数量等于等效矩阵的秩，在第n个奇异值对应的等效信道上，有用信号功率为

其中(.)_n表示括号内矩阵第n列元素，P_m,n是用户m在等效信道n中的传输功率。干扰信号功率和噪声功率分别为/>

以及/>

在MIMO系统中，干扰功率远大于噪声功率。假设/>

用户m在第n个等效信道上的有用信号和干扰及噪声功率比值SINR为：

因此用户m的速率R_m为：

直接采用上式计算用户可达速率时计算复杂度较高，我们可以选择一个低复杂度表征量来替代可达速率用于用户选择。由于f(x)＝log₂(1+x)为凸函数，根据凸函数的Jensen不等式性质，有：

其中

其中，

表示矩阵对角线元素平方之和，由于f(x)＝log₂(1+x)为关于x的单调增函数，则有：

因此将R^L _m定义为用户速率的低复杂度表征量，最大化R^L _m就可以使得用户速率最大，降低了计算复杂度。

用户m的码字会影响除m以外的其他用户的预编码矩阵的设计，而不会影响自己的预编码矩阵的设计。根据这一特性以及有限反馈下的用户可达速率表达式，我们可知用户m的码字选取不会改变有用信号功率，仅会改变干扰信号功率。用户m的码字可以以最小化干扰信号功率为目标进行选择。用户m的码字选择依据为：

用户端根据上式从码本中选择码字，通过上行链路将码字索引发送到基站端，基站根据索引从码本中找到用户m的码字H’_m并为每个调度用户生成预编码矩阵。

(四)基于上述所得用户可达速率表达式建立强化学习模型并完成训练和测试。

用户端从码本中选择码字，通过上行链路将码字索引发送到基站端，基站根据索引从码本中找到用户m的码字H’_m并将进行SVD分解得到V’_m并生成预编码矩阵。由基站计算出的用户m在迭代周期t的速率为：

在每个迭代周期内，系统需要根据已选用户可达速率之和从M₀个用户中选择一定数量的用户。

基站选择用户终端以获得最大系统吞吐量，我们将用户调度问题描述为一个随机博弈

(1)

表示M₀个用户终端的集合，其中M₀代表系统内所有用户的数量。

(2)基站作为智能体，用

表示基站所有可能的状态的集合，状态/>

用于表示哪些用户终端在迭代周期t被放入调度用户集，即：

其中

s_m(t)＝1表示用户m在迭代周期t被放入调度用户集，s_m(t)＝0反之。

(3)

表示基站的可选动作集，包含了所有可选的调度用户集，/>

用于表示基站在迭代周期t选择的动作，也表示迭代周期t基站调度的用户集。每个用户m∈a(t)将在迭代周期t被基站调度。在5G物联网信道相干条件下a(t)中的用户个数是不确定的，我们需要预设条件来判断集合中用户的数量。其中，所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数；在任何迭代周期t都有

(4)

是状态转移概率。/>

是从状态s通过调度a(t)中的所有用户转移到状态s′的状态转移概率。

(5)

是基站在迭代周期t调度用户m时获得的收益，在本实施例中，收益被定义为用户m在迭代周期t的实际可达速率(选取码字后)，即

基站在迭代周期t获得的总收益

定义为系统吞吐量(所有调度用户实际可达速率之和)，即：

定义用户m的动作价值q_m为用户m实际可达速率的期望，即：

q_m(t)＝E[r_m(t)]。

我们将用户集a(t)中个用户终端动作价值之和∑_m∈a(t)q_m(t)定义为用户集a(t)的动作价值。将用户终端的Q值定义为其动作价值的上限来实现探索与利用之间的平衡。

(五)最优调度用户集应使系统吞吐量最大化。本发明使用Q-leaming根据用户过往的速率样本估计用户的动作价值，在每个迭代周期根据Q值(动作价值的上限)选择用户，多次迭代学习后完成5G物联网信道相干条件下最优调度用户集的选取。本发明算法不需要每次都尝试不同的用户组合，可以根据动作价值一次性选完本迭代周期的调度用户。迭代周期结束后，系统计算所选用户的可达速率，并将这些速率作为样本用于下一次迭代的动作价值计算。

本发明在每个迭代周期先通过Q-leaming方法计算每个用户终端的动作价值，然后进行用户选择。不需要每次都尝试不同的用户组合，可以根据动作价值一次性选完本迭代周期的调度用户。迭代周期结束后，系统计算所选用户的可达数据速率，并将这些数据作为样本用于下一轮的动作价值计算。

用户的动作价值表示为用户实际可达速率的期望。在Q-learning方法中，计算动作价值需要用到状态转移概率。然而，状态转移概率在实际中很难直接获得。在本文中我们利用用户以往可达速率的加权平均值作为用户动作价值的估计值。

用户m的动作价值估计值

为：

其中，t≥1表示迭代周期。

表示用户m被调度的次数，这可以表示为

I(.)为指标函数，括号内事件成立则函数值为1，否则为0。规定每个用户的初始动作价值/>

β∈(0,1)是折扣因子，可以降低更早获得的样本数据的权重，以保证数据的时效性。采用以往可达速率的加权平均值的好处在于可以不用存储动作产生的所有收益，利用上一周期的动作价值去更新下一周期的动作价值，提高计算效率。随着时间的推移，速率样本数量逐渐增加，动作价值的估计值/>

将收敛于用户可达速率的期望，即真实值q_m(t)。

选取动作价值估计值之和最大的用户进行调度，这一操作称之为“利用”。当速率样本数量较少或用户移动等导致其信道变化引起可达速率变化时，估计值的不精确性导致无法排除其他用户会比当前组合中的用户产生更高的速率。因此需要尝试被调度次数较少的用户，计算这些用户的速率，增加这些用户的样本空间，使得每个用户的动作价值估计都能够更加准确，这一操作称之为“探索”。当探索与利用达到平衡时，即对所有用户的动作价值进行准确估计后，基站就能找到能够获得最高总吞吐量的用户集。为了平衡探索和开发，我们采用了置信上限算法(UCB)，即将用户终端的Q值定义为其动作价值的上限。一个用户的动作价值的上限(即Q值)与用户被调度的次数负相关，与用户的动作值正相关。这样算法平衡了“探索”(选择调度次数较少的用户)和“利用”(选择动作价值较高的用户)。

定义用户m的Q值为：

其中k表示一个常数。

迭代周期t中的选择调度用户集可以表示为：

/>

当迭代周期结束时，计算调度用户集a(t)中每个用户的速率，并更新所有用户的动作价值及Q值，用于下一迭代周期用户选择。

基于Q-learning对用户进行迭代处理的流程如下：

1.在初始迭代周期内，依次将用户放入调度用户集中，并从第二个放入调度用户集的用户开始，判断当前放入调度用户集的用户是否满足预设条件，若是则将其保留在调度用户集中，否则将当前放入调度用户集的用户移除调度用户集。所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数。

2.从第二个周期开始对用户进行迭代：

步骤3，复步骤2，直至当前调度用户集中每个用户的动作价值估计值收敛于其动作价值真实值，输出收敛时的调度用户集作为最终用户调度结果。(这里需要说明的是，动作价值估计值收敛于其动作价值真实值，具体来说为估计值与真实值之差小于设定阈值即可)。

上述算法可以在初始阶段遍历所有用户，避免了一些用户从未被选中的情况。经过多轮用户迭代后，每个用户的选择次数不断增加，置信区间逐渐收敛，用户的Q值与动作价值相等。基站主要选择动作价值更高的用户，并使得系统吞吐量最高。

上述5G物联网在信道相干且有限反馈条件下调度的方法，分析了5G信道相干的情况下用户容量上限。推导了用户等效信道矩阵的秩在用户选择过程中的变化，揭示了5G物联网环境下用户容量具有弹性这一事实，并将其结论应用于设计用户选择算法中，使得系统可以同时容纳更多的用户，节约了空间资源。在有限反馈的MIMO系统中，根据残留干扰公式，推导相应的用户可达速率表达式，设计以最大化用户可达速率为依据的码字挑选准则。针对信道相干且物联网系统有限反馈的MIMO，提出一种基于强化学习的用户选择方法，该算法使用Q-learning根据用户过往的速率样本估计用户的动作价值，并根据Q值(动作价值的上限)选择用户。该方法不需要尝试不同的用户组合来计算“速率和”，计算复杂度大大降低且不影响系统吞吐量。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。