CN115103372A - 一种基于深度强化学习的多用户mimo系统用户调度方法 - Google Patents
一种基于深度强化学习的多用户mimo系统用户调度方法 Download PDFInfo
- Publication number
- CN115103372A CN115103372A CN202210691649.7A CN202210691649A CN115103372A CN 115103372 A CN115103372 A CN 115103372A CN 202210691649 A CN202210691649 A CN 202210691649A CN 115103372 A CN115103372 A CN 115103372A
- Authority
- CN
- China
- Prior art keywords
- network
- user
- base station
- action
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000002787 reinforcement Effects 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 47
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 18
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims abstract description 4
- 238000005562 fading Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000003993 interaction Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
- H04B17/3911—Fading models or fading generators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0452—Multi-user MIMO systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/12—Wireless traffic scheduling
- H04W72/1263—Mapping of traffic onto schedule, e.g. scheduled allocation or multiplexing of flows
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的多用户MIMO系统用户调度方法,包括:首先构建多用户MIMO系统模型,提出用户调度数学优化问题,以最大化系统和速率为目标,以基站总发射功率为限制条件;接着,将优化问题建模为马尔可夫决策过程,将基站视为智能体,将经过处理的基站到用户的信道矩阵以及一个指示矩阵拼接作为状态,将选择的用户索引作为动作,并设计合适的奖励函数;然后设计深度强化学习神经网络结构并初始化深度强化学习相关参数;随后,开始训练神经网络直至收敛;最后,保存网络参数,用训练好的神经网络来进行用户调度,验证本方法的性能。本发明能够在降低实现复杂度的情况下获得较高的系统性能。
Description
技术领域
本发明涉及多用户MIMO系统的用户调度技术领域,特别是涉及一种基于深度强化学习的多用户MIMO系统用户调度方法。
背景技术
在多用户MIMO系统中,基站天线数是固定的,由于设备的限制,有时系统内用户数会多于基站天线数,这种情况下基站可能不能同时服务全部的用户,这时需要一定的用户调度方法,从多个用户中选择一部分信道条件比较好的用户服务,使系统可以获得最好的性能,例如获得最大的系统和速率;同时,小区间干扰是影响系统性能的另一重要因素,通过合适的预编码技术,可以消除小区用户间的干扰,提升系统的吞吐量。
随着人工智能的发展,机器学习技术不断发展。作为机器学习的一个分支,强化学习(RL)近年来不断被应用于无线通信系统中。与传统的深度学习不同,强化学习不需要事先收集大量的训练数据,它可以通过智能体与环境的交互过程不断收集经验数据,从而使得训练出的模型可以适应不断变化的无线环境。强化学习通常被用来解决顺序决策问题,智能体观察来自环境的状态,并根据这个状态做出相应的动作,获得相应的奖励,通过不断更新自己的参数最终获得最优策略,使得智能体从环境中获得最大的长期累计奖励。同时,与深度学习结合的深度强化学习(DRL)能够通过使用一个神经网络来求解这一最优策略,使得强化学习可以用来解决更为复杂的问题。
目前,最优的用户调度方法是通过穷举法来获得,通过将所有的调度可能都穷举出来,选择使得系统性能最优的用户组合,但是,这种方法在系统中用户数增多的情况下,实现复杂度急剧增长,在实际的通信系统中可行性不高。还有一些比如基于用户信道正交性的用户调度方法,在所有的用户信道中,选择正交性最强的一组作为调度用户,这种方法在降低了方法实现的复杂度的同时也降低了系统性能。所以,需要设计有效地折中方法复杂度和系统性能的用户调度方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于深度强化学习的多用户MIMO系统用户调度方法,用以解决多用户MIMO系统中的用户调度问题。针对复杂度和系统性能的要求,本发明将基站视为智能体,将经过处理的基站到用户的信道矩阵与一个指示矩阵拼接作为状态,将所选用户索引作为动作,通过基站与整个无线环境的不断交互,选择最优的用户组合,同时,采用迫零(ZF)预编码方法计算预编码矩阵,最终获得一个复杂度和系统性能折中的用户调度方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于深度强化学习的多用户MIMO系统用户调度方法,所述方法包括:
步骤S1、构建多用户MIMO系统,该系统包括基站和多个单天线用户,其中,基站到用户的信道矩阵建模为瑞利衰落模型;
步骤S2、针对步骤S1中构建的多用户MIMO系统,进行用户调度优化的建模,以最大化系统和速率为目标,且以基站总发射功率为约束,构建优化问题;
步骤S3、根据步骤S2中构建的优化问题,建立马尔可夫决策过程,其包括:设计智能体、状态、动作空间、动作、奖励函数以及折扣因子;
步骤S4、基于深度Q学习方法,构建深度强化学习网络,该强化学习网络包括本地Q网络和目标Q网络,其中,该两个网络具有相同的结构,均包括两个卷积层,三个全连接层,网络的输出均为动作空间中每个动作对应的Q值,维度等于动作空间的维度;
步骤S5、初始化深度强化学习的参数,该参数包括:经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙;再随机初始化本地Q网络的网络参数和目标Q网络的网络参数,并获取初始状态;
步骤S6、对步骤S4中构建的深度强化学习网络进行训练,获得训练好的深度强化学习网络,再基于该训练好的深度强化学习网络直接选择最优的调度用户组合。
进一步的,所述的多用户MIMO系统包括一个配备有天线数为Nt的基站和K个单天线用户;所述的基站到用户的信道矩阵,其是维度为K×Nt的复数矩阵。
进一步的,在所述步骤S2中,所述优化问题具体表示为:
s.t.Tr(VHV)≤P (1a)
在公式(1)和(1a)中,hk为信道矩阵H的第k行,表示基站到用户k的信道,zk∈{0,1}表示用户k是否被调度,V为相应的预编码矩阵,vk为预编码矩阵V的第k列,σ2为噪声方差,公式(1a)为基站发射功率限制,P为基站最大发射功率,上标(·)H为取共轭转置操作,Tr(·)为取迹操作,||·||为取模操作。
进一步的,所述步骤S3包括:
步骤S301、将基站作为马尔可夫决策过程中的智能体;
步骤S302、设计一三维矩阵作为马尔可夫决策过程中的状态,该三维矩阵的大小为(3,K,Nt);其中,(2,K,Nt)包括基站到所有用户的信道矩阵H,并将其实部和虚部分别存储,另一部分为一个(1,K,Nt)的指示矩阵,这个矩阵初始化为全1矩阵,当某个用户被选择时,相应的行置0;
步骤S303、设计马尔可夫决策过程中的动作,其包括:将用户集合{1,2,…,K}作为动作空间,每次选择的动作为动作空间中的一个,即所选用户的索引;
步骤S304、设计马尔可夫决策过程中的奖励函数,其包括:R=R1+R2+R3,其中R1表示系统和速率,R2表示和速率的增长值,R3表示智能体受到的惩罚,根据情况R3取-50或0;
步骤S305、设计马尔可夫决策过程中的折扣因子γ。
进一步的,所述步骤S6具体包括:
步骤S601、在每个训练的回合中,任意一个时隙t,智能体从环境中获得状态st,其中,该状态st为步骤S302定义的形式;将该状态st输入本地Q网络,获得每个动作对应的Q值;
步骤S602、智能体根据公式(2)定义的∈贪婪策略选择一个动作at,这个动作对应所选用户的索引,其中p为一个(0,1)之间的实数,并将所选用户的信道存储在用户选择信道矩阵Hs中,相应地,智能体的状态转换到st+1;
步骤S603、计算系统和速率R1,其包括:
首先,基于选择的用户信道矩阵采用迫零预编码计算预编码矩阵V=(Hs HHs)-1Hs H,其中,该Hs表示基站到当前所有被选择用户的信道矩阵;
然后,采取等功率分配,得到功率控制之后的预编码矩阵VZF:
在公式(3)中,n为所选用户的数量;
最后,根据公式(4)计算R1:
步骤S604、计算和速率的增长值R2,其包括:
R2=R1,t-R1,t-1 (5)
在公式(5)中,R1,t为当前时隙系统和速率,R1,t-1为上一时隙系统和速率;
步骤S605、计算智能体受到的惩罚R3,其包括:
若步骤S602中当前动作at对应的用户被选择过,则在当前奖励的基础上给一个负的惩罚R3=-50;
如果没有被选择过,则R3=0;
步骤S606、计算此时的奖励函数rt=R1+R2+R3;
步骤S607、将数组(st,at,rt,st+1)存入经验池中;
步骤S608、当一个训练回合中执行的步骤,其包含的时隙小于步骤S5中定义的每个回合中包含的时隙时,继续执行步骤S601至步骤S607;
步骤S609、当经验池中数据未达到训练神经网络所需的数据量时,继续执行步骤S601至步骤S608;
步骤S610、从经验池中随机采样容量为B的一批样本,将采样的样本分别输入本地Q网络和目标Q网络计算选择不同用户对应的估计Q值和目标Q值,并根据公式(6)计算损失函数,随后根据随机梯度下降方法计算梯度更新本地Q网络的参数;
在公式(6)中,Q(s,a)为状态-动作值函数;Q(st,at;θ)表示使用本地Q网络,在状态st下执行动作at计算得到的估计Q值,θ为本地Q网络的网络参数,Q(st+1,a;θ′)表示使用目标Q网络在状态st+1下执行动作a计算得到的目标Q值,θ′为目标Q网络的网络参数;
步骤S611、将本地Q网络的参数赋值给目标Q网络完成目标Q网络参数的更新;
步骤S612、返回步骤S611,继续执行,直到网络收敛,并保存本地Q网络的参数。
本发明的有益效果是:
1、本发明采用深度强化学习方法,采用神经网络,用一个训练好的网络模型直接选择最优的调度用户组合,与穷举方法相比,大大降低了实现的复杂度,同时,在性能也可以达到穷举法性能的88%左右。
2、本发明通过设计合适的奖励函数,从智能体与环境的交互中学习用户调度的最优策略,与经典的基于用户信道正交性的方法相比,可以获得更好的性能,同时不需要计算不同用户信道之间的相关性,不仅提升了系统的性能,还降低了方法的复杂度。
附图说明
图1为实施例1中提供的一种基于深度强化学习的多用户MIMO系统用户调度方法的流程示意图;
图2为实施例1中提供的深度强化学习网络,其训练过程的示意图;
图3为对实施例1中提供的多用户MIMO系统用户调度方法进行性能验证的流程图;
图4为在不同信噪比情况下,本实施例方法与穷举方法、基于用户正交性(SUS)的方法以及随机选择方法的性能对比;
图5为本实施例方法与穷举方法、基于用户正交性的方法以及随机选择方法复杂度的对比。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1-图5,本实施例提供一种基于深度强化学习的多用户MIMO系统用户调度方法,该方法的具体流程如图1所示,该方法具体包括:
步骤S1、构建多用户MIMO系统,该系统包括:一个配备有天线数为Nt的基站和K个单天线用户;其中,基站到用户的信道矩阵H建模为瑞利衰落模型,其是维度为K×Nt的复数矩阵。
步骤S2、针对步骤S1中构建的多用户MIMO系统,进行用户调度优化的建模,以最大化系统和速率为目标,且以基站总发射功率为约束,构建优化问题;
具体的说,在本实施例中,将多用户MIMO系统中的用户调度问题建模为如下数学优化问题:
s.t.Tr(VHV)≤P (1a)
在公式(1)和(1a)中,hk为信道矩阵H的第k行,表示基站到用户k的信道,zk∈{0,1}表示用户k是否被调度,V为相应的预编码矩阵,vk为预编码矩阵V的第k列,σ2为噪声方差,公式(1a)为基站发射功率限制,P为基站最大发射功率,上标(·)H为取共轭转置操作,Tr(·)为取迹操作,||·||为取模操作。
步骤S3、根据步骤S2中构建的优化问题,建立马尔可夫决策过程,其包括:设计智能体、状态、动作空间、动作、奖励函数以及折扣因子;
具体的说,在本实施例中,该步骤S3包括:
步骤S301、将基站作为马尔可夫决策过程中的智能体;
步骤S302、设计一三维矩阵作为马尔可夫决策过程中的状态,该三维矩阵的大小为(3,K,Nt);其中,(2,K,Nt)包括基站到所有用户的信道矩阵H,并将其实部和虚部分别存储,另一部分为一个(1,K,Nt)的指示矩阵,这个矩阵初始化为全1矩阵,当某个用户被选择时,相应的行置0;
步骤S303、设计马尔可夫决策过程中的动作,其包括:将用户集合{1,2,…,K}作为动作空间,每次选择的动作为动作空间中的一个,即所选用户的索引;
步骤S304、设计马尔可夫决策过程中的奖励函数,其包括:R=R1+R2+R3,其中R1表示系统和速率,R2表示和速率的增长值,R3表示智能体受到的惩罚,根据情况R3取-50或0;
步骤S305、设计马尔可夫决策过程中的折扣因子γ。
步骤S4、基于深度Q学习方法,构建深度强化学习网络,该强化学习网络包括本地Q网络和目标Q网络,其中,该两个网络具有相同的结构,均包括两个卷积层,三个全连接层,网络的输出均为动作空间中每个动作对应的Q值,维度等于动作空间的维度。
步骤S5、初始化深度强化学习的参数,该参数包括:经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙;再随机初始化本地Q网络的网络参数和目标Q网络的网络参数,并获取初始状态。
具体的说,初始化一个容量为D的经验池,学习率η,网络更新时每次采样的样本数量B,折扣因子γ,强化学习网络总的训练回合,每个回合包含的时隙,随机初始化本地Q网络参数θ和目标Q网络参数θ′,并获取初始状态S0。
步骤S6、对步骤S4中构建的深度强化学习网络进行训练;
具体的说,在本实施例中,该步骤S6包括:
步骤S601、在每个训练的回合中,任意一个时隙t,智能体从环境中获得状态st,其中,该状态st为步骤S302定义的形式;将该状态st输入本地Q网络,获得每个动作对应的Q值;
步骤S602、智能体根据公式(2)定义的∈贪婪策略选择一个动作at,这个动作对应所选用户的索引,其中p为一个(0,1)之间的实数,并将所选用户的信道存储在用户选择信道矩阵Hs中,相应地,智能体的状态转换到st+1;
步骤S603、计算系统和速率R1,其包括:
首先,基于选择的用户信道矩阵采用迫零预编码计算预编码矩阵V=(Hs HHs)-1Hs H,其中,该Hs表示基站到当前所有被选择用户的信道矩阵;
然后,采取等功率分配,得到功率控制之后的预编码矩阵VZF:
在公式(3)中,n为所选用户的数量。
最后,根据公式(4)计算R1:
R2=R1,t-R1,t-1 (5)
在公式(5)中,R1,t为当前时隙系统和速率,R1,t-1为上一时隙系统和速率。
步骤S605、计算智能体受到的惩罚R3,其包括:
若步骤S602中当前动作at对应的用户被选择过,则在当前奖励的基础上给一个负的惩罚R3=-50;
如果没有被选择过,则R3=0;
步骤S606、计算此时的奖励函数rt=R1+R2+R3;
步骤S607、将数组(st,at,rt,st+1)存入经验池中;
步骤S608、当一个训练回合中执行的步骤,其包含的时隙小于步骤S5中定义的每个回合中包含的时隙时,继续执行步骤S601至步骤S607;
步骤S609、当经验池中数据未达到训练神经网络所需的数据量时,继续执行步骤S601至步骤S608;
步骤S610、从经验池中随机采样容量为B的一批样本,将采样的样本分别输入本地Q网络和目标Q网络计算选择不同用户对应的估计Q值和目标Q值,并根据公式(6)计算损失函数,随后根据随机梯度下降方法计算梯度更新本地Q网络的参数;
在公式(6)中,Q(s,a)为状态-动作值函数;Q(st,at;θ)表示使用本地Q网络,在状态st下执行动作at计算得到的估计Q值,θ为本地Q网络的网络参数,Q(st+1,a;θ′)表示使用目标Q网络在状态st+1下执行动作a计算得到的目标Q值,θ′为目标Q网络的网络参数;
步骤S611、将本地Q网络的参数赋值给目标Q网络完成目标Q网络参数的更新;
步骤S612、返回步骤S611,继续执行,直到网络收敛,并保存本地Q网络的参数。
步骤S7、对本实施例方法验证其性能,随机生成若干组信道,经过深度强化学习网络得到选择的用户信道矩阵,根据公式(4)计算平均系统和速率。
具体的说,在本实施例中,通过图3所示的流程进行验证。
综上所述,本发明采用深度强化学习方法,采用神经网络,用一个训练好的网络模型直接选择最优的调度用户组合,与穷举方法相比,大大降低了实现的复杂度,同时,在性能也可以达到穷举法性能的88%左右。本发明通过设计合适的奖励函数,从智能体与环境的交互中学习用户调度的最优策略,与经典的基于用户信道正交性的方法相比,可以获得更好的性能,同时不需要计算不同用户信道之间的相关性,不仅提升了系统的性能,还降低了方法的复杂度。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (5)
1.一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述方法包括:
步骤S1、构建多用户MIMO系统,该系统包括基站和多个单天线用户,其中,基站到用户的信道矩阵建模为瑞利衰落模型;
步骤S2、针对步骤S1中构建的多用户MIMO系统,进行用户调度优化的建模,以最大化系统和速率为目标,且以基站总发射功率为约束,构建优化问题;
步骤S3、根据步骤S2中构建的优化问题,建立马尔可夫决策过程,其包括:设计智能体、状态、动作空间、动作、奖励函数以及折扣因子;
步骤S4、基于深度Q学习方法,构建深度强化学习网络,该强化学习网络包括本地Q网络和目标Q网络,其中,该两个网络具有相同的结构,均包括两个卷积层,三个全连接层,网络的输出均为动作空间中每个动作对应的Q值,维度等于动作空间的维度;
步骤S5、初始化深度强化学习的参数,该参数包括:经验池、学习率、网络更新时每次采样的样本数量、折扣因子、强化学习网络总的训练回合、每个回合包含的时隙;再随机初始化本地Q网络的网络参数和目标Q网络的网络参数,并获取初始状态;
步骤S6、对步骤S4中构建的深度强化学习网络进行训练,获得训练好的深度强化学习网络,再基于该训练好的深度强化学习网络直接选择最优的调度用户组合。
2.根据权利要求1所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述的多用户MIMO系统包括一个配备有天线数为Nt的基站和K个单天线用户;所述的基站到用户的信道矩阵,其是维度为K×Nt的复数矩阵。
4.根据权利要求3所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述步骤S3包括:
步骤S301、将基站作为马尔可夫决策过程中的智能体;
步骤S302、设计一三维矩阵作为马尔可夫决策过程中的状态,该三维矩阵的大小为(3,K,Nt);其中,(2,K,Nt)包括基站到所有用户的信道矩阵H,并将其实部和虚部分别存储,另一部分为一个(1,K,Nt)的指示矩阵,这个矩阵初始化为全1矩阵,当某个用户被选择时,相应的行置0;
步骤S303、设计马尔可夫决策过程中的动作,其包括:将用户集合{1,2,…,K}作为动作空间,每次选择的动作为动作空间中的一个,即所选用户的索引;
步骤S304、设计马尔可夫决策过程中的奖励函数,其包括:R=R1+R2+R3,其中R1表示系统和速率,R2表示和速率的增长值,R3表示智能体受到的惩罚,根据情况R3取-50或0;
步骤S305、设计马尔可夫决策过程中的折扣因子γ。
5.根据权利要求4所述的一种基于深度强化学习的多用户MIMO系统用户调度方法,其特征在于,所述步骤S6具体包括:
步骤S601、在每个训练的回合中,任意一个时隙t,智能体从环境中获得状态st,其中,该状态st为步骤S302定义的形式;将该状态st输入本地Q网络,获得每个动作对应的Q值;
步骤S602、智能体根据公式(2)定义的∈贪婪策略选择一个动作at,这个动作对应所选用户的索引,其中p为一个(0,1)之间的实数,并将所选用户的信道存储在用户选择信道矩阵Hs中,相应地,智能体的状态转换到st+1;
步骤S603、计算系统和速率R1,其包括:
首先,基于选择的用户信道矩阵采用迫零预编码计算预编码矩阵V=(Hs HHs)-1Hs H,其中,该Hs表示基站到当前所有被选择用户的信道矩阵;
然后,采取等功率分配,得到功率控制之后的预编码矩阵VZF:
在公式(3)中,n为所选用户的数量;
最后,根据公式(4)计算R1:
步骤S604、计算和速率的增长值R2,其包括:
R2=R1,t-R1,t-1 (5)
在公式(5)中,R1,t为当前时隙系统和速率,R1,t-1为上一时隙系统和速率;
步骤S605、计算智能体受到的惩罚R3,其包括:
若步骤S602中当前动作at对应的用户被选择过,则在当前奖励的基础上给一个负的惩罚R3=-50;
如果没有被选择过,则R3=0;
步骤S606、计算此时的奖励函数rt=R1+R2+R3;
步骤S607、将数组(st,at,rt,st+1)存入经验池中;
步骤S608、当一个训练回合中执行的步骤,其包含的时隙小于步骤S5中定义的每个回合中包含的时隙时,继续执行步骤S601至步骤S607;
步骤S609、当经验池中数据未达到训练神经网络所需的数据量时,继续执行步骤S601至步骤S608;
步骤S610、从经验池中随机采样容量为B的一批样本,将采样的样本分别输入本地Q网络和目标Q网络计算选择不同用户对应的估计Q值和目标Q值,并根据公式(6)计算损失函数,随后根据随机梯度下降方法计算梯度更新本地Q网络的参数;
在公式(6)中,Q(s,a)为状态-动作值函数;Q(st,at;θ)表示使用本地Q网络,在状态st下执行动作at计算得到的估计Q值,θ为本地Q网络的网络参数,Q(st+1,a;θ′)表示使用目标Q网络在状态st+1下执行动作a计算得到的目标Q值,θ′为目标Q网络的网络参数;
步骤S611、将本地Q网络的参数赋值给目标Q网络完成目标Q网络参数的更新;
步骤S612、返回步骤S611,继续执行,直到网络收敛,并保存本地Q网络的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210691649.7A CN115103372A (zh) | 2022-06-17 | 2022-06-17 | 一种基于深度强化学习的多用户mimo系统用户调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210691649.7A CN115103372A (zh) | 2022-06-17 | 2022-06-17 | 一种基于深度强化学习的多用户mimo系统用户调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115103372A true CN115103372A (zh) | 2022-09-23 |
Family
ID=83290173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210691649.7A Pending CN115103372A (zh) | 2022-06-17 | 2022-06-17 | 一种基于深度强化学习的多用户mimo系统用户调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115103372A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499849A (zh) * | 2022-11-16 | 2022-12-20 | 国网湖北省电力有限公司信息通信公司 | 一种无线接入点与可重构智能表面协作方法 |
CN116208510A (zh) * | 2022-12-12 | 2023-06-02 | 重庆邮电大学 | 一种基于深度强化学习的智能反射面元素智能激活方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140204865A1 (en) * | 2013-01-18 | 2014-07-24 | NEC Laboratories America , Inc. | Exploiting Hybrid-Channel Information For Downlink Multi-User Scheduling |
CN110971279A (zh) * | 2019-12-30 | 2020-04-07 | 东南大学 | 一种毫米波通信系统中智能波束训练方法及预编码系统 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
US20210058114A1 (en) * | 2018-03-08 | 2021-02-25 | Cohere Technologies, Inc. | Scheduling multi-user mimo transmissions in fixed wireless access systems |
WO2021188022A1 (en) * | 2020-03-17 | 2021-09-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Radio resource allocation |
CN113965233A (zh) * | 2021-10-19 | 2022-01-21 | 东南大学 | 一种基于深度学习的多用户宽带毫米波通信资源分配方法及系统 |
CN114302497A (zh) * | 2022-01-24 | 2022-04-08 | 厦门大学 | 一种应用于非授权毫米波段异构网络共存的调度方法 |
-
2022
- 2022-06-17 CN CN202210691649.7A patent/CN115103372A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140204865A1 (en) * | 2013-01-18 | 2014-07-24 | NEC Laboratories America , Inc. | Exploiting Hybrid-Channel Information For Downlink Multi-User Scheduling |
US20210058114A1 (en) * | 2018-03-08 | 2021-02-25 | Cohere Technologies, Inc. | Scheduling multi-user mimo transmissions in fixed wireless access systems |
CN110971279A (zh) * | 2019-12-30 | 2020-04-07 | 东南大学 | 一种毫米波通信系统中智能波束训练方法及预编码系统 |
WO2021188022A1 (en) * | 2020-03-17 | 2021-09-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Radio resource allocation |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
CN112188503A (zh) * | 2020-09-30 | 2021-01-05 | 南京爱而赢科技有限公司 | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 |
CN113965233A (zh) * | 2021-10-19 | 2022-01-21 | 东南大学 | 一种基于深度学习的多用户宽带毫米波通信资源分配方法及系统 |
CN114302497A (zh) * | 2022-01-24 | 2022-04-08 | 厦门大学 | 一种应用于非授权毫米波段异构网络共存的调度方法 |
Non-Patent Citations (3)
Title |
---|
GAOJING BU, JING JIANG: "Reinforcement Learning-Based User Scheduling and Resource Allocation for Massive MU-MIMO System", 2019 IEEE/CIC INTERNATIONAL CONFERENCE ON COMMUNICATIONS IN CHINA (ICCC), 3 October 2019 (2019-10-03), pages 1 - 5 * |
刘晓伟: "绿色异构网络用户调度及功率控制研究", 中国优秀硕士学位论文全文数据库信息科技辑, 15 May 2021 (2021-05-15) * |
张少敏;李立欣;: "基于人工智能算法的功率域NOMA系统功率分配方法研究", 移动通信, no. 08, 15 August 2018 (2018-08-15) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499849A (zh) * | 2022-11-16 | 2022-12-20 | 国网湖北省电力有限公司信息通信公司 | 一种无线接入点与可重构智能表面协作方法 |
CN115499849B (zh) * | 2022-11-16 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种无线接入点与可重构智能表面协作方法 |
CN116208510A (zh) * | 2022-12-12 | 2023-06-02 | 重庆邮电大学 | 一种基于深度强化学习的智能反射面元素智能激活方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cui et al. | Spatial deep learning for wireless scheduling | |
Wang et al. | DRL-based energy-efficient resource allocation frameworks for uplink NOMA systems | |
CN115103372A (zh) | 一种基于深度强化学习的多用户mimo系统用户调度方法 | |
Kalathil et al. | Decentralized learning for multiplayer multiarmed bandits | |
CN111628855B (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN109274456B (zh) | 一种基于强化学习的不完全信息智能抗干扰方法 | |
Zaher et al. | Learning-based downlink power allocation in cell-free massive MIMO systems | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN113423110B (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN112492686B (zh) | 一种基于深度双q网络的蜂窝网络功率分配方法 | |
CN112492691A (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
CN112260733B (zh) | 基于多智能体深度强化学习的mu-miso混合预编码设计方法 | |
CN110300417B (zh) | 无人机通信网络的能量效率优化方法和装置 | |
Zhang et al. | Learning based user scheduling in reconfigurable intelligent surface assisted multiuser downlink | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
CN103873205B (zh) | 基于mmse预编码与模拟退火算法的mimo用户选择算法 | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
Chen et al. | Deep reinforcement learning for resource allocation in massive MIMO | |
CN113038583A (zh) | 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统 | |
CN110505681B (zh) | 基于遗传方法的非正交多址接入场景用户配对方法 | |
CN115811788B (zh) | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 | |
CN115765818A (zh) | 一种时延约束下多tti传输中的波束成形方法及相关装置 | |
Zappone et al. | Complexity-aware ANN-based energy efficiency maximization | |
CN105989407A (zh) | 一种基于神经网络的短波中值场强预测系统、方法及装置 | |
Ali et al. | Deep-Q reinforcement learning for fairness in multiple-access cognitive radio networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |