CN115987340B - 一种5g物联网信道相干且有限反馈条件下的用户调度方法 - Google Patents

一种5g物联网信道相干且有限反馈条件下的用户调度方法 Download PDF

Info

Publication number
CN115987340B
CN115987340B CN202310273343.4A CN202310273343A CN115987340B CN 115987340 B CN115987340 B CN 115987340B CN 202310273343 A CN202310273343 A CN 202310273343A CN 115987340 B CN115987340 B CN 115987340B
Authority
CN
China
Prior art keywords
user
users
matrix
iteration period
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310273343.4A
Other languages
English (en)
Other versions
CN115987340A (zh
Inventor
潘甦
秦志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310273343.4A priority Critical patent/CN115987340B/zh
Publication of CN115987340A publication Critical patent/CN115987340A/zh
Application granted granted Critical
Publication of CN115987340B publication Critical patent/CN115987340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种5G物联网信道相干且有限反馈条件下基于强化学习的用户调度方法,该方法包括:将5G物联网信道相干环境下用户容量具有弹性这一结论应用于设计用户调度算法中,使得系统可以同时容纳更多的用户,节约了空间资源;根据残留干扰公式,推导相应的用户可达速率表达式,降低计算复杂度,设计以最大化用户可达速率为目标的码字挑选准则;定义用户终端的动作价值为其可实现用户速率的期望,通过Q‑learning方法来估计,将用户终端的Q值定义为其动作价值置信区间的上界,并以Q值的大小作为用户选择的基准。该方法不需要尝试不同的用户组合来计算“速率和”,计算复杂度大大降低且不影响系统吞吐量。

Description

一种5G物联网信道相干且有限反馈条件下的用户调度方法
技术领域
本发明涉及一种5G物联网信道相干且有限反馈条件下的用户调度方法,属于无线通信技术领域。
背景技术
多输入多输出(Multiple Input Multiple Output,MIMO)是移动与无线通信系统的关键技术之一,在对现有频谱资源充分利用的基础上可以成倍提高系统吞吐量。在多用户MIMO中如何高效地进行用户选择一直是研究的热点。
现有的用户选择算法大多以普通MIMO信道不相干为背景进行研究,而实际应用场景也可能处于信道相干的情况下,如果仍然按信道不相干进行用户选择,这会导致空间资源的浪费。同时在大量用户和大量收发天线的场景中,有限的上行链路频谱资源因反馈量庞大而负载沉重。
发明内容
针对上述问题,针对信道相干条件下的MU-MIMO有限反馈系统,本发明提出了一种基于强化学习的用户调度方法。定义用户终端的动作价值为其可实现用户速率的期望,通过Q-learning方法来估计。本发明将用户终端的Q值定义为其动作价值置信区间的上界,并以Q值的大小作为用户选择的基准。与传统的贪婪算法相比,该方法不需要尝试不同的用户组合来最大化吞吐量,也不需要重复计算用户可达到的速率,计算复杂度更低。
为达到上述目的,本发明所采用的技术方案是:
一种5G物联网信道相干且有限反馈条件下的用户调度方法,所述方法在信道相干且有限反馈条件下的MU-MIMO系统中基于Q-learning对用户进行迭代处理,迭代过程:
步骤1,根据前一迭代周期每个用户的可达速率,计算当前迭代周期每个用户的Q值;
步骤2,按Q值从大至小的顺序,依次将每个用户放入调度用户集中,并从第二顺位放入调度用户集的用户开始,对当前放入调度用户集的用户依次进行如下处理:
判断当前放入调度用户集的用户是否满足预设条件,若是将其保留在调度用户集中,否则将当前放入调度用户集的用户移出调度用户集;其中,所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数;
步骤3,重复步骤2,直至当前调度用户集中每个用户的动作价值估计值收敛于其动作价值真实值,输出收敛时的调度用户集作为最终用户调度结果。
进一步地,在初始迭代周期内,依次将用户放入调度用户集中,并从第二个放入调度用户集的用户开始,判断当前放入调度用户集的用户是否满足预设条件,若是则将其保留在调度用户集中,否则将当前放入调度用户集的用户移除调度用户集。
进一步地,用户m在迭代周期t的动作价值估计值和真实值qm(t)分别为:
Figure GDA0004250277630000021
qm(t)=E[rm(t)]
其中,
Figure GDA0004250277630000022
表示用户m在迭代周期t-1的动作价值估计值,/>
Figure GDA0004250277630000023
表示用户m在迭代周期t时已被放入调度用户集的次数;用户m的初始动作价值/>
Figure GDA0004250277630000031
β∈(0,1)表示折扣因子;a(t)表示迭代周期t内的调度用户集;rm(t)表示用户m在迭代周期t的可达速率,E[.]表示求期望。
进一步地,用户m在迭代周期t+1的Q值为:
Figure GDA0004250277630000032
其中,
Figure GDA0004250277630000033
表示用户m在迭代周期t+1的动作价值估计值,/>
Figure GDA0004250277630000034
Figure GDA0004250277630000035
Figure GDA0004250277630000036
表示用户m在迭代周期t的动作价值估计值,/>
Figure GDA0004250277630000037
表示用户m在迭代周期t+1时已被放入调度用户集的次数;用户m的初始动作价值/>
Figure GDA0004250277630000038
β∈(0,1)表示折扣因子;k表示一个常数;a(t)表示迭代周期t内的调度用户集;rm(t+1)表示用户m在迭代周期t+1的可达速率。
进一步地,
Figure GDA0004250277630000039
其中,/>
Figure GDA00042502776300000310
表示迭代周期t内除用户m以外其他用户的联合信道矩阵/>
Figure GDA00042502776300000311
的零空间矩阵,
Figure GDA00042502776300000312
Figure GDA00042502776300000313
表示迭代周期t内除用户i以外其他用户的联合信道矩阵/>
Figure GDA00042502776300000314
的零空间矩阵;Vm(t)表示对用户m在迭代周期t的信道状态矩阵进行SVD分解获得的右酉矩阵。
进一步地,以
Figure GDA00042502776300000315
作为用户m在迭代周期t的预编码矩阵。
进一步地,该方法中,用户选择最合适码字发送至基站,基站利用接收到的码字预编码。
进一步地,用户m的最合适码字H’m以最小化干扰信号功率为目标进行选择,选择依据为:
Figure GDA00042502776300000316
其中codebook表示码本;
Figure GDA00042502776300000317
表示选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>
Figure GDA0004250277630000041
的零空间矩阵;Vm表示对用户m的信道状态矩阵进行SVD分解获得的右酉矩阵;S表示系统同时服务的用户集合。
进一步地,用户m选择最合适码字后在迭代周期t的可达速率为:
Figure GDA0004250277630000042
其中,
Figure GDA0004250277630000043
表示用户m在迭代周期t选择最合适码字后S中除用户m以外其他用户的联合信道矩阵/>
Figure GDA0004250277630000044
的零空间矩阵;/>
Figure GDA0004250277630000045
表示用户i在迭代周期t选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>
Figure GDA0004250277630000046
的零空间矩阵;V′m(t)表示对用户m在迭代周期t选择最合适码字后的信道状态矩阵进行SVD分解获得的右酉矩阵;|S|表示系统同时服务的用户数量。
进一步地,所述信道相干且有限反馈条件下的MU-MIMO系统中,用户m的接收信号ym表示为:
Figure GDA0004250277630000047
其中Hm为用户m的信道状态矩阵,sm、si分别为基站端发送给用户m、用户i的发射信号,Tm、Ti分别为用户m、用户i的预编码矩阵,nm为信道上的加性高斯白噪声,|S|为系统同时服务的用户数量。
与现有技术相比,本发明所达到的有益效果:
1、得到5G信道相干的情况下用户容量上限,推导了用户等效信道矩阵的秩在用户选择过程中的变化,揭示了5G物联网环境下用户容量具有弹性这一事实,并将其结论应用于设计用户选择算法中,使得系统可以同时容纳更多的用户,节约了空间资源;
2、在有限反馈的MIMO系统中,根据残留干扰公式,推导相应的用户可达速率表达式,设计以最大化用户可达速率为依据的码字挑选准则;
3、针对信道相干且有限反馈的MIMO系统,提出一种基于强化学习的用户调度方法,该算法使用Q-learning根据用户过往的速率样本估计用户的动作价值,并根据Q值(动作价值的上限)选择用户。该方法不需要尝试不同的用户组合来计算“速率和”,计算复杂度大大降低且不影响系统吞吐量。
附图说明
图1为一个实施例中多用户MIMO系统模型;
图2为一个实施例中有限反馈MU-MIMO系统模型。
具体实施方式
5G物联网要支持海量的节点,采用MIMO技术可以在不增加频率资源的前提下通过空分来显著提高系统。为了提高资源的使用效率,物联网系统中接入用户数一般要大于可同时服务的用户数,所以用户选择方法成为了研究热点。
调度的基本准则是使系统的“速率和”(吞吐量)最大,基于MIMO的5G物联网在调度时存在一个突出的问题是由于物联网节点量巨大,计算用户速率时用到的用户联合矩阵尺寸太大,其奇异值(SVD)分解会造成不可承受的计算量。目前降低调度算法的计算复杂度的方法有以下两种方式:1、简化用户速率的计算;2、优化用户选择方法。在简化用户速率计算方面,现有的选择算法主要通过选取用户速率的低复杂度表征来降低算法的计算复杂度。在用户选择方法上,由于一个用户速率和所有被服务用户的信道相关,所以最优用户组合必须穷举获得,为了减少计算量,现有文献大多利用了贪婪算法,即每次选取一位能够使得已选用户集“速率和”最大的用户加入已选用户集,直到已选用户集中的用户数量达到最大可调度用户数。因此基站每次选择用户时,仍会多次计算已选用户(包含新加入的用户)的速率和。由此可见,在物联网总用户数很多时,计算量仍旧巨大。
实际上,用户调度问题是一个策略决策问题,其目标是获得最优的调度用户集。强化学习(RL)方法通过对每个动作进行评价来寻找最优动作,在选择动作选用户)前不需要预知动作产生的实际收益(用户速率),我们将用户可达速率的期望定义为该用户被调度的动作价值,该值可以从用户的速率样本中学习和估计。调度结束后,再根据用户集合的信道矩阵计算用户的实际可实现速率,并将其作为样本用于更新用户的动作价值,从而使得用户速率计算的次数大大降低。
5G物联网调度第二个问题是由于物联网节点多,分布密,所以节点间的无线信道的独立性不能保证,即MIMO空间信道之间相关,这将造成用户联合矩阵欠秩。我们将证明这种欠秩会导致调度的用户数量上限变大,而每个用户速率会变小,采用通常的(假定信道不相干的)调度方法会大大降低系统吞吐量。根据我们所知,目前还没有很多文献研究信道相干情况下5G物联网的调度问题。另外,在大量用户和大量收发天线的5G物联网场景中,有限的上行链路频谱资源因反馈量庞大而负载沉重。一般采用有限反馈方法,即基站只能通过码字索引知晓用户近似信道矩阵信息,由于信道信息不够准确,这会导致残留多用户干扰,影响用户速率,这也是调度算法应该考虑的。在信道相关和有限反馈的双重条件下,我们首先探索用户联合矩阵欠秩下用户数量和用户速率变化的规律,再推导得到用户速率的低复杂度表征,利用这个表征量作为强化学习的样本,在此基础上设计基于强化学习的调度方法,使系统容量最大。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,主要通过以下几个方面对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
(一)针对5G通信系统特性,建立基站到物联网在信道相干且有限反馈条件下用户调度的模型,根据用户的用户信道矩阵,对所述接收信号向量进行求解,通过BD预编码消除用户间干扰。
如图1所示MU-MIMO系统,基站发射天线数为T,用户m有效接受天线数为Nm,且Nm≤T,M0表示系统中的用户数量,系统同时服务的用户集合用S表示,|S|表示同时服务的用户数量。
针对5G通信系统特性,如图2所示,建立基站到物联网在信道相干且有限反馈条件下用户调度的模型,根据用户的用户信道矩阵,对所述接收信号向量进行求解,通过BD预编码消除用户间干扰。
用户m的接收信号ym可以表示为:
Figure GDA0004250277630000071
其中Hm为用户m的信道状态矩阵,sm、si分别为基站端发送给用户m、用户i的发射信号,Tm、Ti分别为用户m、用户i的预编码矩阵,nm为信道上的加性高斯白噪声。上述等式右边第一项是用户m在接收端所需信号,第二项是其他用户对用户m的干扰。
BD预编码的原理是将每个用户的预编码矩阵设置成联合信道矩阵(由除了该用户以外其他用户的信道矩阵拼接而成)的零空间矩阵,这个零空间矩阵与其他用户的信道矩阵相乘等于0,即保证
Figure GDA0004250277630000072
从而消除用户间干扰。
Figure GDA0004250277630000073
为除了用户m以外的其他用户信道矩阵的联合矩阵,并对其进行奇异值分解(SVD):
Figure GDA0004250277630000081
其中
Figure GDA0004250277630000082
是由联合矩阵/>
Figure GDA0004250277630000083
零奇异值对应的左右奇异向量组成,/>
Figure GDA0004250277630000084
是由/>
Figure GDA0004250277630000085
非零奇异值对应的左右奇异向量组成,对角阵/>
Figure GDA0004250277630000086
的主对角线元素为/>
Figure GDA0004250277630000087
的非零奇异值。
由于
Figure GDA0004250277630000088
存在于联合矩阵/>
Figure GDA0004250277630000089
的零空间内,因此有:/>
Figure GDA00042502776300000810
故利用/>
Figure GDA00042502776300000811
对用户m的发送信号进行预编码处理,可以完全消除用户间干扰。
(二)确定5G物联网信道相干环境下用户容量限制条件,推导了用户等效信道矩阵的秩在用户选择过程中的变化,揭示了5G物联网环境下用户容量具有弹性这一事实,并将其结论应用于设计用户选择算法中,使得系统可以同时容纳更多的用户,节约了空间资源。
Figure GDA00042502776300000812
转为一组联立方程的解:
Figure GDA00042502776300000813
想让上式存在非零解,要求满足联立方程的个数小于变量个数。
当信道处于相干的情况下,用户m信道矩阵不满秩时,等效接收天线数小于实际天线数,此时
Figure GDA00042502776300000814
的秩与各用户等效接收天线数存在如下关系:/>
Figure GDA00042502776300000815
Ni为用户i的有效接受天线数。只有满足/>
Figure GDA00042502776300000816
(其他用户等效接收天线数之和小于等于发射天线总数)时,联立方程组才能存在非零解,就能存在预编码矩阵保证每个用户不受其他用户干扰。
在信道不相干时,由于
Figure GDA0004250277630000091
是满秩的,所以/>
Figure GDA0004250277630000092
系统用户容量上限为/>
Figure GDA0004250277630000093
即所有用户的天线数之和等于基站天线数,且该用户容量是一个定值;而在信道相干环境中/>
Figure GDA0004250277630000094
即:|S|相干>|S|不相干。因此若对5G物联网信道相干环境下按照普通MIMO信道不相干情况的调度,则缩小了用户容量上限。
(三)设计理想的预编码矩阵需要知道所有的信道矩阵Hm,然而反馈所有的Hm需要占用很大的上行资源,广泛采用的方法是在用户端和基站端预存相同的码本,码本中存放的是所有可能的信道矩阵Hm,即所有可能的Hm的取值,其中每种可能的信道矩阵称为码字,用户端获得下行信道矩阵,再根据一定准则从码本中选出一个与当前信道条件最为匹配的码字,并将码字索引反馈给基站端,基站端根据索引从码本中选取出对应码字H’m,然后利用该码字设计预编码矩阵。根据残留干扰公式,推导有限反馈下的用户可达速率表达式。这里需要说明的是,如此处的“Hm”和“H’m”,为区分理想状态和选取码字后两种情况,在选取码字后的信道矩阵等参数添加上标“’”,在后文中的类似之处也做相同区分。
本发明选择MMSE接收机接收信号:
Figure GDA0004250277630000095
其中Dm为用户m接收机的检测矩阵,等式右侧第一部分就是用户m的有用信号。MMSE接收机的原理是使估计信号与原始信号之间的误差平方根最小:
Figure GDA0004250277630000096
其中tr(.)表示求括号内矩阵的迹。对Dm求偏导并令其为零得
Figure GDA0004250277630000101
其中
Figure GDA0004250277630000102
为高斯白噪声的协方差矩阵,(.)-1表示矩阵求逆。对Hm进行SVD分解可得/>
Figure GDA0004250277630000103
其中Um和Vm分别是Nm*Nm阶酉矩阵和T*T酉矩阵,构成/>
Figure GDA0004250277630000104
的其他用户的码字为酉矩阵,因此/>
Figure GDA0004250277630000105
仍是酉矩阵。因此有:
Figure GDA0004250277630000106
Figure GDA0004250277630000107
得到
Figure GDA0004250277630000108
其中λm,n表示用户m信道矩阵的第n个奇异值。
MIMO信道可以分解为多个等效信道,用户m的等效信道矩阵为
Figure GDA0004250277630000109
其数量等于等效矩阵的秩,在第n个奇异值对应的等效信道上,有用信号功率为
Figure GDA00042502776300001010
其中(.)n表示括号内矩阵第n列元素,Pm,n是用户m在等效信道n中的传输功率。干扰信号功率和噪声功率分别为/>
Figure GDA00042502776300001011
以及/>
Figure GDA00042502776300001012
在MIMO系统中,干扰功率远大于噪声功率。假设/>
Figure GDA0004250277630000111
用户m在第n个等效信道上的有用信号和干扰及噪声功率比值SINR为:
Figure GDA0004250277630000112
因此用户m的速率Rm为:
Figure GDA0004250277630000113
直接采用上式计算用户可达速率时计算复杂度较高,我们可以选择一个低复杂度表征量来替代可达速率用于用户选择。由于f(x)=log2(1+x)为凸函数,根据凸函数的Jensen不等式性质,有:
Figure GDA0004250277630000114
其中
Figure GDA0004250277630000115
其中,
Figure GDA0004250277630000116
表示矩阵对角线元素平方之和,由于f(x)=log2(1+x)为关于x的单调增函数,则有:
Figure GDA0004250277630000117
因此将RL m定义为用户速率的低复杂度表征量,最大化RL m就可以使得用户速率最大,降低了计算复杂度。
用户m的码字会影响除m以外的其他用户的预编码矩阵的设计,而不会影响自己的预编码矩阵的设计。根据这一特性以及有限反馈下的用户可达速率表达式,我们可知用户m的码字选取不会改变有用信号功率,仅会改变干扰信号功率。用户m的码字可以以最小化干扰信号功率为目标进行选择。用户m的码字选择依据为:
Figure GDA0004250277630000121
用户端根据上式从码本中选择码字,通过上行链路将码字索引发送到基站端,基站根据索引从码本中找到用户m的码字H’m并为每个调度用户生成预编码矩阵。
(四)基于上述所得用户可达速率表达式建立强化学习模型并完成训练和测试。
用户端从码本中选择码字,通过上行链路将码字索引发送到基站端,基站根据索引从码本中找到用户m的码字H’m并将进行SVD分解得到V’m并生成预编码矩阵。由基站计算出的用户m在迭代周期t的速率为:
Figure GDA0004250277630000122
在每个迭代周期内,系统需要根据已选用户可达速率之和从M0个用户中选择一定数量的用户。
基站选择用户终端以获得最大系统吞吐量,我们将用户调度问题描述为一个随机博弈
Figure GDA0004250277630000123
(1)
Figure GDA0004250277630000124
表示M0个用户终端的集合,其中M0代表系统内所有用户的数量。
(2)基站作为智能体,用
Figure GDA0004250277630000131
表示基站所有可能的状态的集合,状态/>
Figure GDA0004250277630000132
用于表示哪些用户终端在迭代周期t被放入调度用户集,即:
Figure GDA0004250277630000133
其中
Figure GDA0004250277630000134
sm(t)=1表示用户m在迭代周期t被放入调度用户集,sm(t)=0反之。
(3)
Figure GDA0004250277630000135
表示基站的可选动作集,包含了所有可选的调度用户集,/>
Figure GDA0004250277630000136
用于表示基站在迭代周期t选择的动作,也表示迭代周期t基站调度的用户集。每个用户m∈a(t)将在迭代周期t被基站调度。在5G物联网信道相干条件下a(t)中的用户个数是不确定的,我们需要预设条件来判断集合中用户的数量。其中,所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数;在任何迭代周期t都有
Figure GDA0004250277630000137
(4)
Figure GDA0004250277630000138
是状态转移概率。/>
Figure GDA0004250277630000139
是从状态s通过调度a(t)中的所有用户转移到状态s′的状态转移概率。
(5)
Figure GDA00042502776300001310
是基站在迭代周期t调度用户m时获得的收益,在本实施例中,收益被定义为用户m在迭代周期t的实际可达速率(选取码字后),即
Figure GDA00042502776300001311
基站在迭代周期t获得的总收益
Figure GDA00042502776300001312
定义为系统吞吐量(所有调度用户实际可达速率之和),即:
Figure GDA00042502776300001313
定义用户m的动作价值qm为用户m实际可达速率的期望,即:
qm(t)=E[rm(t)]。
我们将用户集a(t)中个用户终端动作价值之和∑m∈a(t)qm(t)定义为用户集a(t)的动作价值。将用户终端的Q值定义为其动作价值的上限来实现探索与利用之间的平衡。
(五)最优调度用户集应使系统吞吐量最大化。本发明使用Q-leaming根据用户过往的速率样本估计用户的动作价值,在每个迭代周期根据Q值(动作价值的上限)选择用户,多次迭代学习后完成5G物联网信道相干条件下最优调度用户集的选取。本发明算法不需要每次都尝试不同的用户组合,可以根据动作价值一次性选完本迭代周期的调度用户。迭代周期结束后,系统计算所选用户的可达速率,并将这些速率作为样本用于下一次迭代的动作价值计算。
本发明在每个迭代周期先通过Q-leaming方法计算每个用户终端的动作价值,然后进行用户选择。不需要每次都尝试不同的用户组合,可以根据动作价值一次性选完本迭代周期的调度用户。迭代周期结束后,系统计算所选用户的可达数据速率,并将这些数据作为样本用于下一轮的动作价值计算。
用户的动作价值表示为用户实际可达速率的期望。在Q-learning方法中,计算动作价值需要用到状态转移概率。然而,状态转移概率在实际中很难直接获得。在本文中我们利用用户以往可达速率的加权平均值作为用户动作价值的估计值。
用户m的动作价值估计值
Figure GDA0004250277630000141
为:
Figure GDA0004250277630000142
其中,t≥1表示迭代周期。
Figure GDA0004250277630000143
表示用户m被调度的次数,这可以表示为
Figure GDA0004250277630000144
I(.)为指标函数,括号内事件成立则函数值为1,否则为0。规定每个用户的初始动作价值/>
Figure GDA0004250277630000151
β∈(0,1)是折扣因子,可以降低更早获得的样本数据的权重,以保证数据的时效性。采用以往可达速率的加权平均值的好处在于可以不用存储动作产生的所有收益,利用上一周期的动作价值去更新下一周期的动作价值,提高计算效率。随着时间的推移,速率样本数量逐渐增加,动作价值的估计值/>
Figure GDA0004250277630000152
将收敛于用户可达速率的期望,即真实值qm(t)。
选取动作价值估计值之和最大的用户进行调度,这一操作称之为“利用”。当速率样本数量较少或用户移动等导致其信道变化引起可达速率变化时,估计值的不精确性导致无法排除其他用户会比当前组合中的用户产生更高的速率。因此需要尝试被调度次数较少的用户,计算这些用户的速率,增加这些用户的样本空间,使得每个用户的动作价值估计都能够更加准确,这一操作称之为“探索”。当探索与利用达到平衡时,即对所有用户的动作价值进行准确估计后,基站就能找到能够获得最高总吞吐量的用户集。为了平衡探索和开发,我们采用了置信上限算法(UCB),即将用户终端的Q值定义为其动作价值的上限。一个用户的动作价值的上限(即Q值)与用户被调度的次数负相关,与用户的动作值正相关。这样算法平衡了“探索”(选择调度次数较少的用户)和“利用”(选择动作价值较高的用户)。
定义用户m的Q值为:
Figure GDA0004250277630000153
其中k表示一个常数。
迭代周期t中的选择调度用户集可以表示为:
Figure GDA0004250277630000154
Figure GDA0004250277630000161
/>
当迭代周期结束时,计算调度用户集a(t)中每个用户的速率,并更新所有用户的动作价值及Q值,用于下一迭代周期用户选择。
基于Q-learning对用户进行迭代处理的流程如下:
1.在初始迭代周期内,依次将用户放入调度用户集中,并从第二个放入调度用户集的用户开始,判断当前放入调度用户集的用户是否满足预设条件,若是则将其保留在调度用户集中,否则将当前放入调度用户集的用户移除调度用户集。所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数。
2.从第二个周期开始对用户进行迭代:
步骤1,根据前一迭代周期每个用户的可达速率,计算当前迭代周期每个用户的Q值;
步骤2,按Q值从大至小的顺序,依次将每个用户放入调度用户集中,并从第二顺位放入调度用户集的用户开始,对当前放入调度用户集的用户依次进行如下处理:
判断当前放入调度用户集的用户是否满足预设条件,若是将其保留在调度用户集中,否则将当前放入调度用户集的用户移出调度用户集;其中,所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数;
步骤3,复步骤2,直至当前调度用户集中每个用户的动作价值估计值收敛于其动作价值真实值,输出收敛时的调度用户集作为最终用户调度结果。(这里需要说明的是,动作价值估计值收敛于其动作价值真实值,具体来说为估计值与真实值之差小于设定阈值即可)。
上述算法可以在初始阶段遍历所有用户,避免了一些用户从未被选中的情况。经过多轮用户迭代后,每个用户的选择次数不断增加,置信区间逐渐收敛,用户的Q值与动作价值相等。基站主要选择动作价值更高的用户,并使得系统吞吐量最高。
上述5G物联网在信道相干且有限反馈条件下调度的方法,分析了5G信道相干的情况下用户容量上限。推导了用户等效信道矩阵的秩在用户选择过程中的变化,揭示了5G物联网环境下用户容量具有弹性这一事实,并将其结论应用于设计用户选择算法中,使得系统可以同时容纳更多的用户,节约了空间资源。在有限反馈的MIMO系统中,根据残留干扰公式,推导相应的用户可达速率表达式,设计以最大化用户可达速率为依据的码字挑选准则。针对信道相干且物联网系统有限反馈的MIMO,提出一种基于强化学习的用户选择方法,该算法使用Q-learning根据用户过往的速率样本估计用户的动作价值,并根据Q值(动作价值的上限)选择用户。该方法不需要尝试不同的用户组合来计算“速率和”,计算复杂度大大降低且不影响系统吞吐量。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,所述方法在信道相干且有限反馈条件下的MU-MIMO系统中基于Q-learning对用户进行迭代处理,迭代过程:
步骤1,根据前一迭代周期每个用户的可达速率,计算当前迭代周期每个用户的Q值;
步骤2,按Q值从大至小的顺序,依次将每个用户放入调度用户集中,并从第二顺位放入调度用户集的用户开始,对当前放入调度用户集的用户依次进行如下处理:
判断当前放入调度用户集的用户是否满足预设条件,若是将其保留在调度用户集中,否则将当前放入调度用户集的用户移出调度用户集;其中,所述预设条件为调度用户集中每个用户除自己以外其他用户的联合信道矩阵的秩小于基站天线数;
步骤3,重复步骤2,直至当前调度用户集中每个用户的动作价值估计值收敛于其动作价值真实值,输出收敛时的调度用户集作为最终用户调度结果;
所述方法中用户选择最合适码字发送至基站,基站利用接收到的码字预编码;其中最合适码字以最小化干扰信号功率为目标进行选择,选择依据为:
Figure FDA0004250277620000011
其中,H′m表示用户m的最合适码字,codebook表示码本;
Figure FDA0004250277620000012
表示选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>
Figure FDA0004250277620000013
的零空间矩阵;Vm表示对用户m的信道状态矩阵进行SVD分解获得的右酉矩阵;S表示系统同时服务的用户集合。
2.根据权利要求1所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,在初始迭代周期内,依次将用户放入调度用户集中,并从第二个放入调度用户集的用户开始,判断当前放入调度用户集的用户是否满足预设条件,若是则将其保留在调度用户集中,否则将当前放入调度用户集的用户移除调度用户集。
3.根据权利要求1所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,用户m在迭代周期t的动作价值估计值和真实值qm(t)分别为:
Figure FDA0004250277620000021
qm(t)=E[rm(t)]
其中,
Figure FDA0004250277620000022
表示用户m在迭代周期t-1的动作价值估计值,/>
Figure FDA0004250277620000023
表示用户m在迭代周期t时已被放入调度用户集的次数;用户m的初始动作价值/>
Figure FDA0004250277620000024
β∈(0,1)表示折扣因子;a(t)表示迭代周期t内的调度用户集;rm(t)表示用户m在迭代周期t的可达速率,E[.]表示求期望。
4.根据权利要求1所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,用户m在迭代周期t+1的Q值为:
Figure FDA0004250277620000025
其中,
Figure FDA00042502776200000211
表示用户m在迭代周期t+1的动作价值估计值,/>
Figure FDA0004250277620000026
Figure FDA0004250277620000027
Figure FDA0004250277620000028
表示用户m在迭代周期t的动作价值估计值,/>
Figure FDA0004250277620000029
表示用户m在迭代周期t+1时已被放入调度用户集的次数;用户m的初始动作价值/>
Figure FDA00042502776200000210
β∈(0,1)表示折扣因子;k表示一个常数;a(t)表示迭代周期t内的调度用户集;rm(t+1)表示用户m在迭代周期t+1的可达速率。
5.根据权利要求3所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,
Figure FDA0004250277620000031
其中,/>
Figure FDA0004250277620000032
表示迭代周期t内除用户m以外其他用户的联合信道矩阵/>
Figure FDA0004250277620000039
的零空间矩阵,/>
Figure FDA0004250277620000033
Figure FDA0004250277620000034
表示迭代周期t内除用户i以外其他用户的联合信道矩阵/>
Figure FDA00042502776200000310
的零空间矩阵;Vm(t)表示对用户m在迭代周期t的信道状态矩阵进行SVD分解获得的右酉矩阵。
6.根据权利要求5所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,以
Figure FDA00042502776200000311
作为用户m在迭代周期t的预编码矩阵。
7.根据权利要求1所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,用户m选择最合适码字后在迭代周期t的可达速率为:
Figure FDA0004250277620000035
其中,
Figure FDA0004250277620000036
表示用户m在迭代周期t选择最合适码字后S中除用户m以外其他用户的联合信道矩阵/>
Figure FDA0004250277620000037
的零空间矩阵;/>
Figure FDA0004250277620000038
表示用户i在迭代周期t选择最合适码字后S中除用户i以外其他用户的联合信道矩阵/>
Figure FDA00042502776200000312
的零空间矩阵;V′m(t)表示对用户m在迭代周期t选择最合适码字后的信道状态矩阵进行SVD分解获得的右酉矩阵;|S|表示系统同时服务的用户数量。
8.根据权利要求1所述的一种5G物联网信道相干且有限反馈条件下的用户调度方法,其特征在于,所述信道相干且有限反馈条件下的MU-MIMO系统中,用户m的接收信号ym表示为:
Figure FDA0004250277620000041
其中Hm为用户m的信道状态矩阵,sm、si分别为基站端发送给用户m、用户i的发射信号,Tm、Ti分别为用户m、用户i的预编码矩阵,nm为信道上的加性高斯白噪声,|S|为系统同时服务的用户数量。
CN202310273343.4A 2023-03-21 2023-03-21 一种5g物联网信道相干且有限反馈条件下的用户调度方法 Active CN115987340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310273343.4A CN115987340B (zh) 2023-03-21 2023-03-21 一种5g物联网信道相干且有限反馈条件下的用户调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310273343.4A CN115987340B (zh) 2023-03-21 2023-03-21 一种5g物联网信道相干且有限反馈条件下的用户调度方法

Publications (2)

Publication Number Publication Date
CN115987340A CN115987340A (zh) 2023-04-18
CN115987340B true CN115987340B (zh) 2023-07-04

Family

ID=85965257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310273343.4A Active CN115987340B (zh) 2023-03-21 2023-03-21 一种5g物联网信道相干且有限反馈条件下的用户调度方法

Country Status (1)

Country Link
CN (1) CN115987340B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209191A (zh) * 2016-07-20 2016-12-07 南京邮电大学 一种mu‑mimo系统真实环境低复杂度用户选择方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277307B (zh) * 2020-01-21 2022-04-08 南京邮电大学 一种有限反馈欠秩信道时mu-mimo系统的资源分配方法
CN114867123A (zh) * 2022-04-21 2022-08-05 国网江苏省电力有限公司南京供电分公司 一种基于强化学习的5g物联网系统多用户调度方法与系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209191A (zh) * 2016-07-20 2016-12-07 南京邮电大学 一种mu‑mimo系统真实环境低复杂度用户选择方法

Also Published As

Publication number Publication date
CN115987340A (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
Van Chien et al. Joint power allocation and load balancing optimization for energy-efficient cell-free massive MIMO networks
JP5295980B2 (ja) プリコーディングベクトルを選択する方法及び装置
RU2518177C2 (ru) Способ и устройство для определения вектора предкодирования
Fredj et al. Distributed beamforming techniques for cell-free wireless networks using deep reinforcement learning
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
Chu et al. Deep reinforcement learning based end-to-end multiuser channel prediction and beamforming
Huang et al. Stability and delay of zero-forcing SDMA with limited feedback
Fredj et al. Distributed uplink beamforming in cell-free networks using deep reinforcement learning
Li et al. Selective uplink training for massive MIMO systems
WO2009075456A1 (en) Method for transmission interference cancellation for mu-mimo
Chen et al. Deep reinforcement learning for resource allocation in massive MIMO
Li et al. Multiuser scheduling algorithm for 5G IoT systems based on reinforcement learning
US20230412430A1 (en) Inforamtion reporting method and apparatus, first device, and second device
CN115987340B (zh) 一种5g物联网信道相干且有限反馈条件下的用户调度方法
US20230345451A1 (en) Multi-user scheduling method and system based on reinforcement learning for 5g iot system
Huang et al. Event-driven optimal feedback control for multiantenna beamforming
Chu et al. Wireless channel prediction for multi-user physical layer with deep reinforcement learning
CN115568025A (zh) 一种面向边缘学习的多用户调度方法、系统及存储介质
CN108418615B (zh) 一种基于mu-mimo有限反馈系统的用户调度方法
Liu et al. DRL-based orchestration of multi-user MISO systems with stacked intelligent metasurfaces
Zhou et al. Continual learning-based fast beamforming adaptation in downlink MISO systems
CN115604824A (zh) 一种用户调度方法及系统
CN114268348A (zh) 一种基于深度强化学习的无蜂窝大规模mimo功率分配方法
Kumar et al. WSEE optimization of cell-free mmimo uplink using deep deterministic policy gradient
Saxena et al. A learning approach for optimal codebook selection in spatial modulation systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant