CN111431646B - 一种毫米波系统中的动态资源分配方法 - Google Patents

一种毫米波系统中的动态资源分配方法 Download PDF

Info

Publication number
CN111431646B
CN111431646B CN202010243886.8A CN202010243886A CN111431646B CN 111431646 B CN111431646 B CN 111431646B CN 202010243886 A CN202010243886 A CN 202010243886A CN 111431646 B CN111431646 B CN 111431646B
Authority
CN
China
Prior art keywords
user
representing
state
channel
millimeter wave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010243886.8A
Other languages
English (en)
Other versions
CN111431646A (zh
Inventor
张天魁
陈丹丹
张颖慧
郭彩丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Inner Mongolia University
Original Assignee
Beijing University of Posts and Telecommunications
Inner Mongolia University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Inner Mongolia University filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010243886.8A priority Critical patent/CN111431646B/zh
Publication of CN111431646A publication Critical patent/CN111431646A/zh
Application granted granted Critical
Publication of CN111431646B publication Critical patent/CN111431646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/0408Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas using two or more beams, i.e. beam diversity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出一种毫米波系统中的动态资源分配方法,该方法包括初始化动态场景相关的系统参数;观测动态环境中信道状态、基站波束与用户连接状态和功率分配状态构建的状态;判断当前状态下采取的动作是否满足优化问题中的各约束条件;根据是否满足约束条件,设定不同的收益值;将数据存入经验池;训练Eval‑Net Q网络;更新Target‑Net Q网络;随机产生数值与探索概率比较;进而更新基站波束与用户连接状态和用户功率分配状态以及探索概率;经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态和用户功率分配状态。该方法解决了现有技术中不能在动态信道环境中联合分配波束和功率实现动态资源分配和长期用户公平性的技术问题。

Description

一种毫米波系统中的动态资源分配方法
技术领域
本发明涉及移动通信技术的技术领域,尤其涉及一种毫米波系统中的动态资源分配方法。
背景技术
目前,移动通信系统工作频率主要集中在700MHz-2.6GHz的微波频段,频谱资源紧张现象日趋严重。而毫米波通信以工作在30GHz-300GHz频段极大地丰富了频谱资源。然而,由于毫米波信号穿透性差、易被吸收、衰减快等缺点,导致毫米波通信系统中信号路径损耗大、基站覆盖范围小等问题。大规模天线技术通过在基站侧配置大量的天线(十根以上甚至上百根天线)可提升系统容量、频谱效率、系统抗干扰能力等优势,且可使毫米波信号获得高波束增益来抵制严重的路径损失问题。非正交多址接入技术(Non-Orthogonal MultipleAccess,NOMA)通过引入功率域实现多址接入,使多个用户可以共享相同的时间、频率和扩频码等传统的正交资源。在毫米波系统中引入大规模天线和NOMA技术可提高系统增益、用户接入量和资源利用率,满足未来通信应用场景以及业务的需求。
在毫米波系统中引入大规模天线和NOMA技术能带来具有巨大的优势,同时也在无线资源分配方面面临挑战。在基于大规模天线和NOMA的毫米波系统中,基站侧配置的大量天线使信号获取了较高的波束赋形增益。然而,当发送波束无法对准用户时,用户只能接收到较低功率的信号,影响通信质量;当指向多个用户的发送波束相互冲突时,同样导致多用户间干扰极强,系统容量大幅度下降,那么研究波束分配具有重要意义。另外,合理的功率分配对于NOMA的解调、以及降低波束间和波束内用户干扰来说非常重要。因此,在基于大规模天线和NOMA的毫米波系统中如何使用户匹配到合适的波束且以高效的功率进行信号传输是需要解决的关键问题。
目前,在基于大规模天线和NOMA的毫米波系统中的无线资源分配问题研究,都是在静态信道环境中进行静态资源分配,仅能获得瞬时系统性能最优化。但动态资源分配的研究不仅考虑当前时刻的收益,还考虑未来一段时间内的收益,更加适合实际移动通信中多变信道环境。另外,系统用户间不公平将影响用户体验,尤其是对于蜂窝小区内的边缘用户。通常用户间不公平由不合理的资源分配引起,因此,本发明提出基于大规模天线和NOMA的毫米波系统中的波束和功率动态分配方法,保证动态信道环境的长期用户公平性。
发明内容
针对现有技术存在的缺陷,本发明提供一种毫米波系统中的动态资源分配方法。在该毫米波系统中,解决现有技术中不能在动态信道环境中联合分配波束和功率实现动态资源分配和长期用户公平性的技术问题。
为实现上述目的,本发明提供了一种毫米波系统中的动态资源分配方法,包括如下步骤:
初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H0、波束分配b0和功率分配p0;初始化经验池为空,容量Nmax;初始化网络参数θ=θ0,θ-=θ,智能体动作探索概率ε=ε0
观测动态环境中信道状态Ht、基站波束与用户连接状态bt和功率分配状态pt构建的状态st=(Ht,bt,pt);
判断当前状态st下采取的动作at是否满足优化问题
Figure GDA0002980523190000021
中的约束条件C1-C5,其中,优化问题
Figure GDA0002980523190000022
表示为:
Figure GDA0002980523190000031
Figure GDA0002980523190000032
Figure GDA0002980523190000033
Figure GDA0002980523190000034
Figure GDA0002980523190000035
Figure GDA0002980523190000036
其中,bt表示基站波束与用户连接状态,pt表示用户功率分配状态,其中FR.J表示Raj Jain系数,表征用户间传输速率的公平性,
Figure GDA0002980523190000037
表示t时刻用户k在波束m上的连接状态,
Figure GDA0002980523190000038
表示t时刻用户k在波束m上的传输功率,
Figure GDA0002980523190000039
表示t时刻的波速m调度的用户k的传输速率,约束条件C1表示为基站下行网络总传输功率的约束,Pmax表示基站最大传输功率;约束条件C2表示每个用户最小的传输速率是Rmin;约束条件C3保证每个用户的传输功率为正值;约束条件C4表示每个用户至多被一个波束调度;约束条件C5表示每个波束至多调度的用户数为Bmax(Bmax≥2);
如果不满足约束条件,则收益值设定为:rt=-1;
如果满足约束条件,则收益值设定为:rt=FR.J(bt,pt);
将数据存入经验池;
当经验池容量达到Ns,随机选取Nm个历史数据,进行误差计算,并反向传递训练Eval-Net Q网络;
更新Target-Net Q网络,每n步,把Eval-Net Q网络复制给Target-Net Q网络,即θ-=θ;
随机产生数值εr与探索概率ε比较;若εr<ε,从动作集合中随机选取动作at,否则at=argmaxaQ(s,a;θ),其中a表示动作,θ表示参数;
更新基站波束与用户连接状态bt和用户功率分配状态pt以及探索概率ε=max(ε-εie),其中εi表示探索概率衰减因子,εe表示最终探索概率的大小;
经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态b、用户功率分配状态p。
所述的毫米波系统中动态资源分配方法,在初始化动态场景相关的系统参数步骤之前,还包括:设计基于深度增强学习的联合波束和功率分配DQN-JBPA方法的模型的步骤。
所述的毫米波系统中动态资源分配方法,其中设计该模型的步骤包括:
设计Q网络的架构;其中Q网络即动作价值函数用于智能体执行动作之后输出相应的Q值,即
Figure GDA0002980523190000041
其中θ表示参数;
设计Q网络训练过程,在训练过程中通过Target-Net Q网络获得目标
Figure GDA0002980523190000042
值,之后根据当前Q值和目标
Figure GDA0002980523190000043
值进行误差计算:Terror(θ)=E[(yt-Q(st,at;θ))2],其中,E表示期望,yt为目标
Figure GDA0002980523190000044
值,
Figure GDA0002980523190000045
rt+1表示下一时刻的增益,γ表示折扣因子,a表示动作,A(st+1)表示下一状态下的动作集,θ-表示参数,st+1表示下一个状态。
所述的毫米波系统中动态资源分配方法,其中,在设计Q网络的架构步骤之前,还包括:
设计状态,其中状态st=(Ht,bt,pt),
Figure GDA0002980523190000046
Figure GDA0002980523190000047
表示用户k在时刻t的信道矩阵;
设计动作,其中动作
Figure GDA0002980523190000051
Figure GDA0002980523190000052
分别表示波束和功率选取空间;
设计收益rt
Figure GDA0002980523190000053
所述的毫米波系统中动态资源分配方法,其中,动作选取策略主要依据ε-greedy思想,以概率ε进行新动作探索,随机从动作集中选取新动作,以1-ε的概率在网络中选取最大Q值的动作。
所述的毫米波系统中动态资源分配方法,在设计DQN-JBPA方法的模型的步骤之前还进一步包括:定义用户传输速率的步骤,该步骤具体为:
假设用户k被波束m调度,那么用户k的信干比SINR定义为:
Figure GDA0002980523190000054
其中pm,i表示用户i在波束m上的传输功率,pm,k表示用户k在波束m上的传输功率,σk表示用户k的高斯白噪声,bm,k表示用户k在波束m上的连接状态;
其中用户i,k∈bm
Figure GDA0002980523190000055
表示用户k在波束m上的信道增益,其中
Figure GDA0002980523190000056
表示用户k的信道矩阵,wm表示波束m的波束成形向量,gn,k表示用户k在波束n上的信道增益,pn=∑i=1bn,ipn,i表示波束n的传输功率,其中bn,i表示用户i在波束n上的连接状态,pn,i表示用户i在波束n上的传输功率,bm,i表示用户i在波束m上的被调度的状态;
波束m调度的用户k的传输速率定义为:rm,k=log(1+γm,k)。
所述的毫米波系统中动态资源分配方法,定义用户传输速率的步骤的具体步骤为:在接收端,采用SIC技术进行多用户间检测进而解码出接收信号。
所述的毫米波系统中动态资源分配方法,在所述定义用户传输速率的步骤还进一步包括:定义有限状态马尔科夫信道FSMC毫米波时变信道模型的步骤,其具体步骤为:
定义一种马尔科夫链描述信道动态变化过程,假设信道状态集合为:
Figure GDA0002980523190000061
其中hi表示某时刻信道状态,共I种信道状态;
定义毫米波时变信道,m+1时刻的信道矩阵hi+1演变模型可以描述为:
Figure GDA0002980523190000062
其中hi为有限径几何信道模型,符号δ∈[0,1]为信道相关系数,δ=J0(2πfDT),其中J0(.)为零阶贝塞尔函数,符号T代表信道变化时间间隔,fD=vfc/c表示用户运动速度v,载波频率fc情况下最大多普勒频移,c为光速;
Figure GDA0002980523190000063
其中ni表示信道矩阵在每个时刻引入的新的信道信息,M表示天线数,θk,l表示第l个路径相对于离开角AoD的归一化方向,ρk表示基站和用户k之间的平均路径损失,a(θk,l)表示天线阵列响应向量,di为扰动矩阵,表示信道矩阵在每个时刻引入的新的信道信息,di中的元素服从
Figure GDA0002980523190000064
的独立同分布。
所述的毫米波系统中动态资源分配方法,在定义有限状态马尔科夫信道FSMC毫米波时变信道模型的步骤之前还包括:场景假设步骤,该步骤具体为:
在单小区多用户下行毫米波系统中,构建有限状态马尔科夫信道(FSMC)毫米波时变信道模型,定义集合
Figure GDA0002980523190000065
Figure GDA0002980523190000066
分别代表波束集和用户集;
基站利用模拟波束成形技术产生波束成形矩阵w={w1,w2,…,wm}w={w1,w2,...,wM},wm表示波束m的波束成形向量;
发送M个独立正交的叠加信息流给用户;
其中,还包括:在接收端,假设用户k被波束m调度,则在接收端,用户k的接收信号可以表示为:
Figure GDA0002980523190000071
其中,j,k,i表示用户
Figure GDA0002980523190000072
m,n表示波束
Figure GDA0002980523190000073
sk、sj和si分别表示用户k,j,i的发送信号,wm和wn分别表示波束m,n的波束成形向量,hm,k表示基站和用户k之间的信道传输向量,H表示矩阵转置,pm,k表示用户k在波束m上的传输功率、pm,j表示用户j在波束m上的传输功率和pn,i表示用户i在波束n上的传输功率,vk表示用户的加性高斯白噪声;另外记bm为波束m调度的用户集合,且每个用户最多能被一个波束调度,
Figure GDA0002980523190000074
bm,k表示用户k在波束m上的连接状态,bm,k∈{0,1},bm,k=1表示用户k被波束m调度,bm,k=0表示用户k未被波束m调度,另外bm,j表示用户j在波束m上的被调度的状态,bn,i表示用户i在波束n上的连接状态。
所述的毫米波系统中动态资源分配方法,其中采用经验回放和双Q网络来训练Q网络。
由上述技术方案可知,本发明提供一种毫米波系统中的动态资源分配方法,在毫米波系统中考虑波束和功率的联合动态资源分配问题,优化用户公平性,实现长期用户公平性;针对以上动态资源分配问题设计一种波束和功率的联合动态分配。
与现有技术相比,将本发明提供一种毫米波系统中的动态资源分配方法应用于蜂窝网络,本发明的优点在于:在动态场景中实现资源分配,动态资源分配不仅考虑当前时刻的收益,还考虑未来一段时间内的收益,更加适合实际通信中多变环境;通过波束和功率的联合动态分配使用户匹配到合适的波束和以高效的功率进行信号传输,降低了系统波束干扰,保证了系统中用户长期公平性;引入NOMA技术,使多个用户可在同一波束上进行复用,提高了资源利用率,且在大规模连接场景中可进一步保证边缘用户的服务质量,提高用户公平性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的毫米波系统中动态资源分配方法的流程示意图;
图2为本发明实施例提供的DQN-JBPA方法的模型示意图;
图3为本发明实施例提供的DQN-JBPA方法的模型设计的流程示意图;
图4为本发明实施例提供的DQN-JBPA方法的实现的流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,以下各实施例的说明是参考附加的图示,用以例示本发明可用以实施的特定实施例。本发明中所提到的方向用语,例如,“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”、“侧面”等,仅是参考附加图式的方向,因此,使用的方向用语是为了更好、更清楚地说明及理解本发明,而不是指示或暗指所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。若本说明书中出现“工序”的用语,其不仅是指独立的工序,在与其它工序无法明确区别时,只要能实现所述工序所预期的作用则也包括在本用语中。另外,本说明书中用“-”表示的数值范围是指将“-”前后记载的数值分别作为最小值及最大值包括在内的范围。在附图中,结构相似或相同的单元用相同的标号表示。
在本发明实施例的毫米波系统中,利用时变信道的短暂时间相关性,提出了一种保证用户长期公平的波束和功率联合动态分配方法。在蜂窝网络中,基站基于随机波束成形技术产生预先定义波束,利用NOMA技术调度小区中的用户;然后基于毫米波时变信道模型构建有限状态马尔科夫信道(Finite State Markov Channel,FSMC)用于信号传输;最后在接收端利用串行干扰消除(Successive Interference Cancellation,SIC)技术进行信号解调。本发明实施例构建一个用户服务质量(Quality of Service,QoS)约束、以提高用户公平为目标、联合波束和功率的动态资源分配问题,同时还提出一种基于深度增强学习的联合波束和功率分配的方法DQN-JBPA(Deep QNetwork-Joint Beam and PowerAllocation,DQN-JBPA)。通过该方法使每个用户以合适的波束和高效的功率进行数据传输,保证用户长期公平性。
图1为本发明实施例提供的毫米波系统中动态资源分配方法的流程示意图,如图所示,所述方法可以包括以下步骤:
步骤101:场景假设。在单小区多用户下行毫米波系统中,构建一种FSMC毫米波时变信道模型,定义集合
Figure GDA0002980523190000091
Figure GDA0002980523190000092
分别代表波束集和用户集。基站利用模拟波束成形技术产生波束成形矩阵w={w1,w2,…,wm}w={w1,w2,...,wM},wm表示波束m的波束成形向量,基站利用产生的M个正交的波束调度用户,根据NOMA原理,同一波束可调度多个用户;发送M个独立正交的叠加信息流给用户。假设用户k被波束m调度,则在接收端,用户k的接收信号可以表示为:
Figure GDA0002980523190000101
其中,j,k,i表示用户
Figure GDA0002980523190000102
m,n表示波束
Figure GDA0002980523190000103
sk、sj和si分别表示用户k,j,i的发送信号,wm和wn分别表示波束m,n的波束成形向量,hm,k表示基站和用户k之间的信道传输向量,H表示矩阵转置,pm,k表示用户k在波束m上的传输功率、pm,j表示用户j在波束m上的传输功率和pn,i表示用户i在波束n上的传输功率,vk表示用户的加性高斯白噪声。另外,记bm为波束m调度的用户集合,且每个用户最多能被一个波束调度,
Figure GDA0002980523190000104
表示用户k在波束m上的连接状态,bm,k∈{0,1},bm,k=1表示用户k被波束m调度,bm,k=0表示用户k未被波束m调度,另外bm,j表示用户j在波束m上的被调度的状态,bn,i表示用户i在波束n上的连接状态。
步骤102:定义FSMC毫米波时变信道模型。首先定义一种马尔科夫链描述信道动态变化过程,假设信道状态集合为:
Figure GDA0002980523190000105
其中hi表示某时刻信道状态,共I种信道状态。信道状态转移过程为:起始信道状态h0可向下一信道状态或者自身状态转移,终点信道状态hI-1可向前一信道状态或者自身状态转移,其他信道状态hi可向相邻状态(即hi-1和hi+1)或者自身状态转移。另外,定义毫米波时变信道,m+1时刻的信道矩阵hi+1演变模型可以描述为:
Figure GDA0002980523190000106
其中hi为有限径几何信道模型,其中符号δ∈[0,1]为信道相关系数,表述系统变化速度,由Jakes’模型生成,即δ=J0(2πfDT),其中J0(.)为零阶贝塞尔函数,符号T代表信道变化时间间隔,fD=vfc/c表示用户运动速度v,载波频率fc情况下最大多普勒频移,c为光速。
Figure GDA0002980523190000107
其中ni表示信道矩阵在每个时刻引入的新的信道信息,M表示天线数,θk,l表示第l个路径相对于离开角AoD的归一化方向,ρk表示基站和用户k之间的平均路径损失,a(θk,l)表示天线阵列响应向量,di为扰动矩阵,表示信道矩阵在每个时刻引入的新的信道信息,di中的元素服从
Figure GDA0002980523190000111
的独立同分布。
步骤103:定义用户传输速率。根据NOMA的工作原理,在传输过程中多个用户可以同时分配给相同的波束。在接收端,采用SIC技术进行多用户间检测进而解码出接收信号。具体来说,假设对于一个给定波束,信道质量更好的用户可以应用SIC技术成功进行解调并消除波束内干扰(信道质量较差的用户信号),而对于信道质量较差的用户而言,会把信道质量更好的用户信号作为波束间干扰进行处理。所以假设用户k被波束m调度,那么用户k的信干比SINR可以定义为:
Figure GDA0002980523190000112
其中pm,i表示用户i在波束m上的传输功率,pm,k表示用户k在波束m上的传输功率,σk表示用户k的高斯白噪声,bm,k表示用户k在波束m上的连接状态。
其中用户i,k∈bm
Figure GDA0002980523190000113
表示用户k在波束m上的信道增益,其中
Figure GDA0002980523190000114
表示用户k的信道矩阵,wm表示波束m的波束成形向量,gn,k表示用户k在波束n上的信道增益,pn=∑i=1bn,ipn,i表示波束n的传输功率,其中bn,i表示用户i在波束n上的连接状态,pn,i表示用户i在波束n上的传输功率,bm,i表示用户i在波束m上的被调度的状态。则波束m调度的用户k的传输速率可以定义为:rm,k=log(1+γm,k)。
步骤104:问题建模。利用Raj Jain系数FR.J来表征用户间传输速率的公平性,那么在某时刻t,本发明中的优化问题可以表示为:
Figure GDA0002980523190000121
Figure GDA0002980523190000122
Figure GDA0002980523190000123
Figure GDA0002980523190000124
Figure GDA0002980523190000125
Figure GDA0002980523190000126
其中,bt表示基站波束与用户连接状态,pt表示用户功率分配状态,其中FR.J表示Raj Jain系数,表征用户间传输速率的公平性,
Figure GDA0002980523190000127
表示t时刻用户k在波束m上的连接状态,
Figure GDA0002980523190000128
表示t时刻用户k在波束m上的传输功率,
Figure GDA0002980523190000129
表示t时刻的波速m调度的用户k的传输速率,约束条件C1表示为基站下行网络总传输功率的约束,Pmax表示基站最大传输功率;约束条件C2表示每个用户最小的传输速率是Rmin;约束条件C3保证每个用户的传输功率为正值;约束条件C4表示每个用户至多被一个波束调度;约束条件C5表示每个波束至多调度的用户数为Bmax(Bmax≥2)。
步骤105:设计DQN-JBPA方法的模型。
为了解决步骤104中的优化问题,本发明还提出一种基于深度增强学习的联合波束和功率分配的方法(即,DQN-JBPA方法)。首先需要设计DQN-JBPA方法的模型,图2示出了本发明实施例提供的DQN-JBPA方法的模型图,其中定义基站为智能体,定义用户与基站之间通信业务场景为环境。结合在动态环境中所建立的优化问题,将其建模为基站(智能体)与动态环境(用户与基站之间通信的动态环境)交互过程中的马尔科夫决策过程,使智能体不断与环境交互过程中从环境中获取最大化的收益。然后设计对状态进行估值的Q网络的架构及其训练过程。
图3示出了本发明实施例提供的DQN-JBPA方法的模型设计的流程示意图。下面参考图3,具体介绍步骤105,DQN-JBPA方法的模型设计的步骤如下:
步骤201:设计状态。状态st=(Ht,bt,pt),其中
Figure GDA0002980523190000131
Figure GDA0002980523190000132
表示用户k在时刻t的信道矩阵,bt表示基站波束与用户连接状态,pt表示用户功率分配状态。
步骤202:设计动作。动作
Figure GDA0002980523190000133
bt表示基站波束与用户连接状态,pt表示用户功率分配状态,由于功率选取空间是连续的,将其做离散化处理,
Figure GDA0002980523190000134
分别表示波束和功率选取空间。
步骤203:设计收益rt:
Figure GDA0002980523190000135
步骤204:设计Q网络的架构。Q网络即动作价值函数用于智能体执行动作之后输出相应的Q值,即
Figure GDA0002980523190000136
其中θ表示参数。Q值表示在当前状态st下,智能体执行动作at后可获得的累计收益值。本发明采用DNN(Deep Neural Networks,DNN)搭建Q网络。
步骤205:设计Q网络训练过程。本发明采用经验回放和双Q网络来训练Q网络,其中经验回放是通过经验池来实现的,经验池用来存储历史数据集。在每次智能体采取新的动作为用户分配波束和功率的决策过程中,都会产生一条经验数据(st,at,rt,st+1)存于经验池中,其中st+1表示下一时刻状态。当经验池中存储的历史数据容量超过Ns时,便会开始对网络进行训练,Ns表示经验池存储数据的最大容量。在每次训练的过程中,都会随机从经验池中选择Nm个历史数据用于Q网络训练,Nm表示每次网络训练从经验池选取的历史数据数。并且在训练过程中通过Target-Net Q网络获得目标
Figure GDA0002980523190000141
值,之后根据当前Q值和目标
Figure GDA0002980523190000142
值进行误差计算:Terror(θ)=E[(yt-Q(st,at;θ))2],其中,E表示期望,yt为目标
Figure GDA0002980523190000143
值,
Figure GDA0002980523190000144
rt+1表示下一时刻的增益,γ表示折扣因子,a表示动作,A(st+1)表示下一状态下的动作集,θ-表示参数,st+1表示下一个状态。本发明也可采用随机梯度下降法对网络进行训练,根据计算所得的误差Terror(θ)反向传递到Q网络更新Eval-Net的参数θ。且每n步更新Target-Net的参数θ-,即
Figure GDA0002980523190000145
步骤206:设计动作选取策略。动作选取策略主要依据ε-greedy思想,即以概率ε进行新动作探索,随机从动作集中选取新动作,以1-ε的概率在网络中选取最大Q值的动作。另外,本发明也可依据线性下降准则设计一种动作选取策略:在训练过程中探索概率依据ε=max(ε-εie)变化,其中εi表示探索概率衰减因子,εe表示最终探索概率的大小。
步骤106:设计DQN-JBPA方法的实现流程。
图4示出了本发明实施例提供的DQN-JBPA方法的实现的流程示意图,下面依据图4所示,具体介绍步骤106设计DQN-JBPA方法实现流程,其具体步骤如下:
步骤301:初始化。初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H0、波束分配b0和功率分配p0;初始化经验池为空,容量Nmax;初始化网络参数θ=θ0,θ-=θ,智能体动作探索概率ε=ε0
步骤302:观测状态。观测动态环境中信道状态Ht、基站波束与用户连接状态bt和用户功率分配状态pt构建的状态st=(Ht,bt,pt)。
步骤303:判断当前状态st下采取的动作at是否满足优化问题
Figure GDA0002980523190000151
中的约束条件C1-C5
步骤304:如果不满足约束条件,则收益值设定为:rt=-1。
步骤305:如果满足约束条件,则收益值设定为:rt=FR.J(bt,pt)。
步骤306:将数据存入经验池。
步骤307:训练Eval-Net Q网络。当经验池容量达到Ns,随机选取Nm个历史数据,进行误差计算,并反向传递训练Eval-Net Q网络。
步骤308:更新Target-Net Q网络。每n步,把Eval-Net Q网络复制给Target-Net Q网络,即θ-=θ。
步骤309:随机产生数值εr(0<εr<1)与探索概率ε比较;若εr<ε,从动作集合中随机选取动作at,否则at=argmaxaQ(s,a;θ),其中a表示动作,θ表示参数;
步骤310:更新基站波束与用户连接状态bt和用户功率分配状态pt状态以及探索概率ε=max(ε-εie),其中εi表示探索概率衰减因子,εe表示最终探索概率的大小;
步骤311:经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态b、用户功率分配状态p。
通过智能体与环境交互过程中不断进行波束和功率分配以及网络的训练学习,使系统收益值越来越大直至收敛。最后得到优化问题公式(2)的解:基站波束与用户连接状态b、用户功率分配状态p,实现动态资源分配,保证长期用户性。
本发明在毫米波系统中考虑波束和功率的联合动态资源分配问题,优化用户公平性,实现长期用户公平性;针对以上动态资源分配问题设计一种波束和功率的联合动态分配。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (10)

1.一种毫米波系统中动态资源分配方法,包括以下步骤:
初始化动态场景相关的系统参数;初始化系统状态:信道矩阵H0、波束分配b0和功率分配p0;初始化经验池为空,容量Nmax;初始化网络参数θ=θ0,θ-=θ,智能体动作探索概率ε=ε0
观测动态环境中信道状态Ht、基站波束与用户连接状态bt和功率分配状态pt构建的状态st=(Ht,bt,pt);
判断当前状态st下采取的动作at是否满足优化问题
Figure FDA0002980523180000011
中的约束条件C1-C5,其中,优化问题
Figure FDA0002980523180000012
表示为:
Figure FDA0002980523180000013
Figure FDA0002980523180000014
Figure FDA0002980523180000015
Figure FDA0002980523180000016
Figure FDA0002980523180000017
Figure FDA0002980523180000018
其中,bt表示基站波束与用户连接状态,pt表示用户功率分配状态,其中FR.J表示RajJain系数,表征用户间传输速率的公平性,
Figure FDA0002980523180000019
表示t时刻用户k在波束m上的连接状态,
Figure FDA00029805231800000110
表示t时刻用户k在波束m上的传输功率,
Figure FDA00029805231800000111
表示t时刻的波速m调度的用户k的传输速率,约束条件C1表示为基站下行网络总传输功率的约束,Pmax表示基站最大传输功率;约束条件C2表示每个用户最小的传输速率是Rmin;约束条件C3保证每个用户的传输功率为正值;约束条件C4表示每个用户至多被一个波束调度;约束条件C5表示每个波束至多调度的用户数为Bmax,Bmax≥2;
如果不满足约束条件,则收益值设定为:rt=-1;
如果满足约束条件,则收益值设定为:rt=FR.J(bt,pt);
将数据存入经验池;
当经验池容量达到Ns,随机选取Nm个历史数据,进行误差计算,并反向传递训练Eval-Net Q网络;
更新Target-Net Q网络,每n步,把Eval-NetQ网络复制给Target-Net Q网络,即θ-=θ;
随机产生数值εr与探索概率ε比较;若εr<ε,从动作集合中随机选取动作at,否则at=argmaxaQ(s,a;θ),其中a表示动作,θ表示参数;
更新基站波束与用户连接状态bt和用户功率分配状态pt以及探索概率ε=max(ε-εie),其中εi表示探索概率衰减因子,εe表示最终探索概率的大小;
经过一段时间训练学习直至收敛,输出最终基站波束与用户连接状态b、用户功率分配状态p。
2.根据权利要求1所述的毫米波系统中动态资源分配方法,在初始化动态场景相关的系统参数步骤之前,还包括:设计基于深度增强学习的联合波束和功率分配DQN-JBPA方法的模型的步骤。
3.根据权利要求2所述的毫米波系统中动态资源分配方法,其中设计该模型的步骤包括:
设计Q网络的架构;其中Q网络即动作价值函数用于智能体执行动作之后输出相应的Q值,即
Figure FDA0002980523180000021
其中θ表示参数;
设计Q网络训练过程,在训练过程中通过Target-Net Q网络获得目标
Figure FDA0002980523180000022
值,之后根据当前Q值和目标
Figure FDA0002980523180000023
值进行误差计算:Terror(θ)=E[(yt-Q(st,at;θ))2],其中,E表示期望,yt为目标
Figure FDA0002980523180000031
值,
Figure FDA0002980523180000032
rt+1表示下一时刻的增益,γ表示折扣因子,a表示动作,A(st+1)表示下一状态下的动作集,θ-表示参数,st+1表示下一个状态。
4.根据权利要求3所述的毫米波系统中动态资源分配方法,其中,在设计Q网络的架构步骤之前,还包括:
设计状态,其中状态st=(Ht,bt,pt),
Figure FDA0002980523180000033
Figure FDA0002980523180000034
表示用户k在时刻t的信道矩阵;
设计动作,其中动作
Figure FDA0002980523180000035
Figure FDA0002980523180000036
分别表示波束和功率选取空间;
设计收益
Figure FDA0002980523180000037
5.根据权利要求4所述的毫米波系统中动态资源分配方法,其中,动作选取策略主要依据ε-greedy思想,以概率ε进行新动作探索,随机从动作集中选取新动作,以1-ε的概率在网络中选取最大Q值的动作。
6.根据权利要求2所述的毫米波系统中动态资源分配方法,在设计DQN-JBPA方法的模型的步骤之前还进一步包括:定义用户传输速率的步骤,该步骤具体为:
假设用户k被波束m调度,那么用户k的信干比SINR定义为:
Figure FDA0002980523180000038
其中pm,i表示用户i在波束m上的传输功率,pm,k表示用户k在波束m上的传输功率,σk表示用户k的高斯白噪声,bm,k表示用户k在波束m上的连接状态;
其中用户i,k∈bm
Figure FDA0002980523180000041
表示用户k在波束m上的信道增益,其中
Figure FDA0002980523180000042
表示用户k的信道矩阵,wm表示波束m的波束成形向量,gn,k表示用户k在波束n上的信道增益,pn=∑i= 1bn,ipn,i表示波束n的传输功率,其中bn,i表示用户i在波束n上的连接状态,pn,i表示用户i在波束n上的传输功率,bm,i表示用户i在波束m上的被调度的状态;
波束m调度的用户k的传输速率定义为:rm,k=log(1+γm,k)。
7.根据权利要求6所述的毫米波系统中动态资源分配方法,定义用户传输速率的步骤的具体步骤为:在接收端,采用SIC技术进行多用户间检测进而解码出接收信号。
8.根据权利要求6所述的毫米波系统中动态资源分配方法,在所述定义用户传输速率的步骤还进一步包括:定义有限状态马尔科夫信道FSMC毫米波时变信道模型的步骤,其具体步骤为:
定义一种马尔科夫链描述信道动态变化过程,假设信道状态集合为:
Figure FDA0002980523180000043
其中hi表示某时刻信道状态,共I种信道状态;
定义毫米波时变信道,m+1时刻的信道矩阵hi+1演变模型可以描述为:
Figure FDA0002980523180000044
其中hi为有限径几何信道模型,符号δ∈[0,1]为信道相关系数,δ=J0(2πfDT),其中J0(.)为零阶贝塞尔函数,符号T代表信道变化时间间隔,fD=vfc/c表示用户运动速度v,载波频率fc情况下最大多普勒频移,c为光速;
Figure FDA0002980523180000045
其中ni表示信道矩阵在每个时刻引入的新的信道信息,M表示天线数,θk,l表示第l个路径相对于离开角AoD的归一化方向,ρk表示基站和用户k之间的平均路径损失,a(θk,l)表示天线阵列响应向量,di为扰动矩阵,表示信道矩阵在每个时刻引入的新的信道信息,di中的元素服从
Figure FDA0002980523180000051
的独立同分布。
9.根据权利要求8所述的毫米波系统中动态资源分配方法,在定义有限状态马尔科夫信道FSMC毫米波时变信道模型的步骤之前还包括:场景假设步骤,该步骤具体为:
在单小区多用户下行毫米波系统中,构建有限状态马尔科夫信道FSMC毫米波时变信道模型,定义集合
Figure FDA0002980523180000052
Figure FDA0002980523180000053
分别代表波束集和用户集;
基站利用模拟波束成形技术产生波束成形矩阵w={w1,w2,…,wm},wm表示波束m的波束成形向量;
发送M个独立正交的叠加信息流给用户;
还包括:在接收端,假设用户k被波束m调度,则在接收端,用户k的接收信号可以表示为:
Figure FDA0002980523180000054
其中,j,k,i表示用户
Figure FDA0002980523180000055
m,n表示波束
Figure FDA0002980523180000056
sk、sj和si分别表示用户k,j,i的发送信号,wm和wn分别表示波束m,n的波束成形向量,hm,k表示基站和用户k之间的信道传输向量,H表示矩阵转置,pm,k表示用户k在波束m上的传输功率、pm,j表示用户j在波束m上的传输功率和pn,i表示用户i在波束n上的传输功率,vk表示用户的加性高斯白噪声;另外记bm为波束m调度的用户集合,且每个用户最多能被一个波束调度,
Figure FDA0002980523180000057
bm,k表示用户k在波束m上的连接状态,bm,k∈{0,1},bm,k=1表示用户k被波束m调度,bm,k=0表示用户k未被波束m调度,另外bm,j表示用户j在波束m上的被调度的状态,bn,i表示用户i在波束n上的连接状态。
10.根据权利要求1-9中任一所述的毫米波系统中动态资源分配方法,其中采用经验回放和双Q网络来训练Q网络。
CN202010243886.8A 2020-03-31 2020-03-31 一种毫米波系统中的动态资源分配方法 Active CN111431646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010243886.8A CN111431646B (zh) 2020-03-31 2020-03-31 一种毫米波系统中的动态资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243886.8A CN111431646B (zh) 2020-03-31 2020-03-31 一种毫米波系统中的动态资源分配方法

Publications (2)

Publication Number Publication Date
CN111431646A CN111431646A (zh) 2020-07-17
CN111431646B true CN111431646B (zh) 2021-06-15

Family

ID=71550138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243886.8A Active CN111431646B (zh) 2020-03-31 2020-03-31 一种毫米波系统中的动态资源分配方法

Country Status (1)

Country Link
CN (1) CN111431646B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036994A (zh) * 2020-07-21 2022-02-11 中兴通讯股份有限公司 训练通信决策模型的方法、电子设备、计算机可读介质
CN112616189B (zh) * 2020-12-10 2022-09-09 北京邮电大学 一种静态和动态相结合的毫米波波束资源分配与优化方法
CN112702097A (zh) * 2020-12-24 2021-04-23 北京工业大学 一种用于uav辅助蜂窝网络的联合波束成形和功率控制方法
CN113709701B (zh) * 2021-08-27 2022-06-17 西安电子科技大学 毫米波车联网联合波束分配和中继选择方法、系统及设备
CN113965233B (zh) * 2021-10-19 2022-07-26 东南大学 一种基于深度学习的多用户宽带毫米波通信资源分配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102056241A (zh) * 2009-11-11 2011-05-11 上海摩波彼克半导体有限公司 无线感知网络中提高tcp传输性能的跨层信道获取的方法
CN108880709A (zh) * 2018-07-06 2018-11-23 西北工业大学 一种认知无线网络中分布式多用户动态频谱接入方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109922487A (zh) * 2019-03-28 2019-06-21 南京邮电大学 一种下行mimo-noma网络下的资源分配方法
CN110493804A (zh) * 2019-09-23 2019-11-22 北京邮电大学 一种毫米波系统的波束和功率分配方法
WO2020002127A1 (en) * 2018-06-28 2020-01-02 Nokia Technologies Oy Methods and apparatuses of multi-user multiple-input multiple-output beam selection and user pairing using deep learning

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102056241A (zh) * 2009-11-11 2011-05-11 上海摩波彼克半导体有限公司 无线感知网络中提高tcp传输性能的跨层信道获取的方法
WO2020002127A1 (en) * 2018-06-28 2020-01-02 Nokia Technologies Oy Methods and apparatuses of multi-user multiple-input multiple-output beam selection and user pairing using deep learning
CN108880709A (zh) * 2018-07-06 2018-11-23 西北工业大学 一种认知无线网络中分布式多用户动态频谱接入方法
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN109922487A (zh) * 2019-03-28 2019-06-21 南京邮电大学 一种下行mimo-noma网络下的资源分配方法
CN110493804A (zh) * 2019-09-23 2019-11-22 北京邮电大学 一种毫米波系统的波束和功率分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Power Allocation for Multi-Beam Max-Min Fairness in Millimeter-Wave Beamspace MIMO-NOMA;Ruicheng Jiao等;《2019 IEEE Global Communications Conference (GLOBECOM)》;20200227;全文 *
Resource Allocation in Energy-Cooperation Enabled Two-Tier NOMA HetNets Toward Green 5G;Bingyu Xu等;《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》;20171231;第35卷(第12期);全文 *
无线协同通信系统能效增强关键技术研究;王智;《中国博士学位论文全文数据库信息科技辑》;20190815(第8期);全文 *

Also Published As

Publication number Publication date
CN111431646A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111431646B (zh) 一种毫米波系统中的动态资源分配方法
CN108924935A (zh) 一种基于强化学习算法功率域的noma中的功率分配方法
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
Wang et al. Resource scheduling based on deep reinforcement learning in UAV assisted emergency communication networks
CN105050176A (zh) 认知无线电网络中基于中断概率约束的斯坦克尔伯格博弈功率控制方法
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
Li et al. Deep reinforcement learning for energy-efficient beamforming design in cell-free networks
Han et al. Two-timescale learning-based task offloading for remote IoT in integrated satellite-terrestrial networks
CN115412134A (zh) 基于离线强化学习的以用户为中心的无蜂窝大规模mimo功率分配方法
CN113490219B (zh) 一种面向超密集组网的动态资源分配方法
Gao et al. Resource allocation in IRSs aided MISO-NOMA networks: A machine learning approach
Xie et al. Joint power allocation and beamforming with users selection for cognitive radio networks via discrete stochastic optimization
Gao et al. Trajectory and passive beamforming design for IRS-aided multi-robot NOMA indoor networks
Chen et al. DRL-based energy efficient resource allocation for STAR-RIS assisted coordinated multi-cell networks
Qureshi et al. Multi-user small base station association via contextual combinatorial volatile bandits
Leng et al. User-level scheduling and resource allocation for multi-beam satellite systems with full frequency reuse
Alajmi et al. Intelligent resource allocation in backscatter-NOMA networks: a soft actor critic framework
Yang et al. A restless MAB-based index policy for UL pilot allocation in massive MIMO over Gauss–Markov fading channels
Wang et al. Three-dimensional trajectory design for multi-user MISO UAV communications: A deep reinforcement learning approach
Zhou et al. Improved artificial bee colony algorithm-based channel allocation scheme in low earth orbit satellite downlinks
Kim Reversed Stackelberg bandwidth-sharing game for cognitive multi-hop cellular networks
Luong et al. Resource allocation in UAV-Assisted wireless networks using reinforcement learning
Liao et al. QoE Maximization for Multi-Antenna UAV-Enabled Video Streaming
Wang et al. Deep reinforcement learning for dynamic clustering and resource allocation in smart-duplex networks
Lei et al. Double deep Q-learning network-based path planning in UAV-assisted wireless powered NOMA communication networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant