CN113242601A - 一种基于优化样本采样的noma系统资源分配方法及存储介质 - Google Patents

一种基于优化样本采样的noma系统资源分配方法及存储介质 Download PDF

Info

Publication number
CN113242601A
CN113242601A CN202110505390.8A CN202110505390A CN113242601A CN 113242601 A CN113242601 A CN 113242601A CN 202110505390 A CN202110505390 A CN 202110505390A CN 113242601 A CN113242601 A CN 113242601A
Authority
CN
China
Prior art keywords
network
user
priority
sample
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110505390.8A
Other languages
English (en)
Other versions
CN113242601B (zh
Inventor
李月
王晓飞
贺梦利
刘泽龙
魏唯
张玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang University
Original Assignee
Heilongjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang University filed Critical Heilongjiang University
Priority to CN202110505390.8A priority Critical patent/CN113242601B/zh
Publication of CN113242601A publication Critical patent/CN113242601A/zh
Application granted granted Critical
Publication of CN113242601B publication Critical patent/CN113242601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/51Allocation or scheduling criteria for wireless resources based on terminal or device properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/56Allocation or scheduling criteria for wireless resources based on priority criteria
    • H04W72/563Allocation or scheduling criteria for wireless resources based on priority criteria of the wireless resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于优化样本采样的NOMA系统资源分配方法及存储介质,属于移动通信与无线网络技术领域。为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题,以及导致的学习速率低的问题。本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标,以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络,并利用其输出最优的用户分组策略,同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率,可以提高深度强化学习网络的学习速率,加快收敛速度。主要用于NOMA系统的资源分配。

Description

一种基于优化样本采样的NOMA系统资源分配方法及存储介质
技术领域
本发明涉及NOMA系统资源分配方法,属于移动通信与无线网络技术领域。
背景技术
在NOMA(非正交多址技术)系统中,发送端先将所有用户分组,然后给用户分配不同的功率,最后将不同的用户叠加在同一时频资源块经过无线信道传输到接收端,在接收端使用串行干扰消除技术对信号解调重构恢复出原来的信号。由此可见,NOMA系统的用户分组和功率分配结果将直接影响系统的性能,所以这两个问题常常联合在一起进行优化,统称为NOMA系统资源分配。
近年来,深度强化学习网络被用于对NOMA系统的资源分配优化问题进行求解,其中最常用的是DQN网络。DQN网络中使用了经验回放算法,目的是减小样本之间的相关性,保证样本的独立同分布特性。但当前从样本池中采样都采用的是均匀采样,这忽略了样本的重要性,在采样过程中可能使一些有重要价值的样本没有被学习到,降低了学习速率。基于此,本发明提出一种基于优化样本采样的NOMA系统资源分配方法,通过给样本设置优先级,提高重要样本被采样的概率,让对学习过程有用的样本以更高的频率重放,可以提高学习速率,减少训练时间。
发明内容
本发明是为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题,以及导致的学习速率低的问题。
一种基于优化样本采样的NOMA系统资源分配方法,包括以下步骤:
S1、基站获取用户的信道状态信息;所述信道状态信息包括信道增益;
S2、在接收端使用串行干扰消除技术进行干扰消除;
S3、利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率;
进行用户分组的深度强化学习网络如下:
深度强化学习网络的Q网络产生选择当前动作的估计值,深度强化学习网络的目标Q网络产生用于训练网络的目标值;深度强化学习网络还设有一个用于采样的优化样本池,在优化样本池中利用TD_error给样本设置优先级,TD_error为当前价值函数输出的动作价值与对该动作价值的估计值之间的差异;使用Prio数组存储样本的优先级;将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,并使用data数组存储样本元组;
基站将获取的信道增益st输入到设有优化样本池的深度强化学习网络中,以用户总和速率为优化目标,网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合
Figure BDA0003058167480000021
将给用户分配功率的深度确定性策略梯度网称为功率分配网络,功率分配网络根据当前信道状态信息st确定输出每个用户的功率
Figure BDA0003058167480000022
在每个时隙TS中,根据优化样本采样的深度强化学习网络输出的用户分组
Figure BDA0003058167480000023
和功率分配网络得到的用户功率
Figure BDA0003058167480000024
最终得到
Figure BDA0003058167480000025
S4、将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择用户分组及功率时对应的系统总和速率rt和下一个时隙TS的信道状态信息st+1;并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中;
根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配。
进一步地,在优化样本池的深度强化学习网络中,使用优先经验回放存储样本和优先级,具体存储过程包括以下:
S101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为
Figure BDA0003058167480000026
其中j表示第j个簇;然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是
Figure BDA0003058167480000027
每个簇中有
Figure BDA0003058167480000028
个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
S102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置;将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置,依次类推;
S103、重复上述存储的过程,逐个添加优先级和样本元组。
进一步地,S103所述重复上述存储的过程,逐个添加优先级和样本元组的过程中,得到一个添加优先级之后的Prio和data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。
进一步地,利用深度强化学习网络进行用户分组过程包括进行采样的步骤,在采样时,按照簇的方式进行采样,具体包括以下步骤:
S201、先抽取每个簇中索引是
Figure BDA0003058167480000031
对应的优先级,其中j是第j个簇,返回优先级编号,根据优先级的编号抽取data中对应位置的样本元组;
S202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是
Figure BDA0003058167480000032
对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是
Figure BDA0003058167480000033
对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
S203、以此类推;返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算样本的归一化权重wi
进一步地,所述的样本的归一化权重wi如下:
首先,计算重要性采样权重
Figure BDA0003058167480000034
其中,N是样本数,β用于调节偏差程度,P(i)是样本被采样的概率;
然后,对重要性采样权重wi归一化,得到归一化权重wi
进一步地,利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤:
采样过程得到m个样本(si,ai,ri,si+1),si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值
Figure BDA0003058167480000035
其中ω'表示深度强化学习网络中的目标Q网络的网络权重;并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数
Figure BDA0003058167480000036
并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
Figure BDA0003058167480000037
根据计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据返回的优先级的编号,按照添加优先级的方法更新被采样的样本的优先级;通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度
Figure BDA0003058167480000041
更新功率分配网络中的Actor网络所有参数θ;通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
进一步地,所述的系统总和速率rt如下:
Figure BDA0003058167480000042
其中B是NOMA系统带宽,S是子信道数;SINR(t)为接收端使用串行干扰消除技术进行干扰消除的过程产生的信干噪比。
进一步地,所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤:
在同一信道上有lp个用户,每个用户分配的功率记为pl;在接收端先解码功率最大的用户,然后从总混合信号中减去功率最大用户的信号得到剩余用户的混合信号;
再对信道上次弱的用户信号进行串行干扰消除技术,从除功率最大用户以外的剩余用户的混合信号中减去信道上次弱的用户的信号;
按照用户功率从大到小的顺序依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,产生的信干噪比为SINR(t)。
进一步地,所述的信干噪比如下:
Figure BDA0003058167480000043
其中bs,u(t)=1表示在子信道s上分配了用户u,bs,u(t)=0表示子信道s上没有分配用户u,ps,u表示在子信道s上用户u分配的功率,bs,q(t)用来表明在子信道s上是否分配用户q,ps,q(t)和hs,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益,
Figure BDA0003058167480000044
是噪声功率密度。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
有益效果:
本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标,以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络,并利用其输出最优的用户分组策略,同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率,可以提高深度强化学习网络的学习速率,加快收敛速度,获得比传统的NOMA系统资源分配算法更好的总和速率性能。
附图说明
图1为资源分配方法对应的系统流程图;
图2为用于样本及其优先级存储的Prio和Data数组的结构示意图;
图3是基于深度强化学习网络及优化样本池的NOMA系统资源分配的结构图。
具体实施方式
具体实施方式一:结合图1和图3说明本实施方式,
本实施方式所述的一种基于优化样本采样的NOMA系统资源分配方法,包括以下步骤:
(1)基站获取用户的信道状态信息。本发明所使用的信道状态信息为信道增益。
(2)在接收端使用串行干扰消除技术进行干扰消除。例如,在同一信道上有3个用户,用户分配的功率分别是P1=1W和P2=2W和P3=3W。在接收端先解码功率最大的用户3,然后从总混合信号中减去用户3的信号得到用户1和用户2的混合信号。再对信道上次弱(P2=2W)的用户信号进行串行干扰消除技术,从用户1和2的混合信号中减去用户2的信号。按照用户功率大小依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,因此产生的信干噪比是:
Figure BDA0003058167480000051
其中bs,u(t)=1表示在子信道s上分配了用户u,bs,u(t)=0表示子信道s上没有分配用户u,ps,u表示在子信道s上用户u分配的功率,bs,q(t)用来表明在子信道s上是否分配用户q,ps,q(t)和hs,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益,
Figure BDA0003058167480000052
是噪声功率密度。
(3)设计优化样本采样的深度强化学习网络。深度强化学习网络主要包括Q网络和目标Q网络以及优化的样本池。Q网络产生选择当前动作的估计值,目标Q网络产生用于训练网络的目标值。本领域的技术人员都知晓:这里的Q网络即当前值网络,目标Q网络是目标值网络,即Q网络和目标Q网络是深度强化学习网络中的两个网络,所以本发明不再赘述。
在以往的深度强化学习网络中从经验池中随机采样样本,忽略了一些样本的重要性,可能无法学习到一些有价值的样本。在本发明的基于优化样本池的深度强化学习网络中设计一个优化样本池,根据不同样本的重要性程度使用时序差分误差(TD_error)给样本设置优先级,TD_error表示当前价值函数输出的动作价值与对该动作价值的估计值之间的差异,即TD_error=yi-Q(si,ai;ω)。TD_error越大,表明当前价值函数的输出越不准确,越需要被学习。与以往普通的经验回放不同,本发明将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序之后的优先级逐个添加在簇中对应的位置,同时将对应的样本元组添加在data库中。采样时从每个簇中分别抽取较大的优先级以及对应的样本元组训练神经网络。
(4)设置优先级后,为了能够抽取到较大TD误差的样本,将记忆库分成若干个簇,并将每次进入记忆库的样本的优先级和之前存储在记忆库中所有的优先级按照从大到小排序,在本发明中使用Prio数组和data数组存储样本的优先级和样本元组,将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,Prio的结构如图2中的状态(a)所示,图2中的状态(a)为添加优先级前的Prio;idx表示数组索引,D代表经验池容量,n表示将经验池分成n个簇,每个簇中可以存
Figure BDA0003058167480000061
个优先级,第j个簇的第一个优先级的索引可以表示为
Figure BDA0003058167480000062
区间可以表示为
Figure BDA0003058167480000063
本发明使用另一个data存储对应的样本元组。Prio和data的索引是一一对应的,一个样本的优先级对应一个样本元组。
(5)利用优先级进行经验回放改变了样本回放的频率,从而改变了原来的样本数据分布,导致Q网络输出的估计值有偏差,使用重要性采样权重
Figure BDA0003058167480000064
来修正偏差,其中,N是样本数,P(i)是样本被采样的概率,β用于调节偏差程度,当β=1时表示已经完全消除了偏差,为了保证学习的稳定性,需要对重要性采样权重wi归一化。
(6)基站将获取的信道增益st输入到优化样本池的深度强化学习网络中,以用户总和速率为优化目标,网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合
Figure BDA0003058167480000065
即以概率ζ在用户分组空间A1内选取用户组合,或者以(1-ζ)的概率选择使估计Q值最大的的用户组合,即
Figure BDA0003058167480000066
其中st表示当前的信道增益,
Figure BDA0003058167480000067
表示选择的用户组合,ω表示深度强化学习网络Q网络的网络权重,
Figure BDA0003058167480000071
表示这个用户组合
Figure BDA0003058167480000072
的估计Q值。
(7)设计可以给用户分配功率的深度确定性策略梯度网络DDPG,将其称为功率分配网络,输入当前信道状态信息st,输出每个用户的功率
Figure BDA0003058167480000073
然而,在功率分配网络中,因为在确定性策略下,输入相同的状态,输出的用户功率就一定相同,即
Figure BDA0003058167480000074
但是在策略上就失去了探索性,所以本发明就给策略网络添加随机噪声,这时就类似于ζ-greedy策略,最终在功率分配空间内选择出的用户功率
Figure BDA0003058167480000075
其中st表示信道增益,θ表示功率分配网络的Actor网络权重,noise表示随机噪声。
(8)在每个时隙TS中,根据优化样本采样的深度强化学习网络输出的用户分组
Figure BDA0003058167480000076
和功率分配网络得到的用户功率
Figure BDA0003058167480000077
最终得到
Figure BDA0003058167480000078
(9)将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择这个用户分组及功率时对应的系统总和速率
Figure BDA0003058167480000079
和下一个时隙TS的信道状态信息st+1,其中B是NOMA系统带宽,S是子信道数。并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中,其中t=1,2,...,m。
(10)每个时隙TS中,在优化样本池的深度强化学习网络中,使用一种优先经验回放存储样本和优先级。整个存储步骤如下:
101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为
Figure BDA00030581674800000710
其中j表示第j个簇。然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是
Figure BDA00030581674800000711
每个簇中有
Figure BDA00030581674800000712
个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置。将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置。依次类推。
103、重复上述存储的方法逐个添加优先级和样本元组。假设得到一个添加优先级之后的Prio和data,如图2中的状态(b)和状态(c)所示,图2中的状态(b)为添加优先级后的Prio,状态(c)为分簇的data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方法覆盖掉旧的经验重新开始添加。
(11)在每个时隙TS,从经验回放池中按照优先采样的方式采样样本训练神经网络。在采样时,本发明对之前添加过的优先级按照簇的方式进行采样。采样步骤如下:
201、先抽取每个簇中索引是
Figure BDA0003058167480000081
对应的优先级,其中j是第j个簇,返回优先级编号,根据优先级的编号抽取data中对应位置的样本元组;
202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是
Figure BDA0003058167480000082
对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是
Figure BDA0003058167480000083
对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
203、以此类推。返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算(5)中样本的归一化权重wi
(12)根据(11)最终将会得到m个样本(si,ai,ri,si+1),其中i=1,2,3,......,m,si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励(NOMA系统对应的系统总和速率)和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值
Figure BDA0003058167480000084
其中ω'表示深度强化学习网络中的目标Q网络的网络权重。并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数
Figure BDA0003058167480000085
并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
Figure BDA0003058167480000086
(13)根据(12)计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据(11)返回的优先级的编号,按照(10)添加优先级的方法更新被采样的样本的优先级。通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度
Figure BDA0003058167480000091
更新功率分配网络中的Actor网络所有参数θ。通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
具体实施方式二:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
本发明包括但不限于一种存储介质,还可以是一种设备,所述设备包括处理器和存储器,所述存储器即存储介质,其存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,包括以下步骤:
S1、基站获取用户的信道状态信息;所述信道状态信息包括信道增益;
S2、在接收端使用串行干扰消除技术进行干扰消除;
S3、利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率;
进行用户分组的深度强化学习网络如下:
深度强化学习网络的Q网络产生选择当前动作的估计值,深度强化学习网络的目标Q网络产生用于训练网络的目标值;深度强化学习网络还设有一个用于采样的优化样本池,在优化样本池中利用TD_error给样本设置优先级,TD_error为当前价值函数输出的动作价值与对该动作价值的估计值之间的差异;使用Prio数组存储样本的优先级;将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,并使用data数组存储样本元组;
基站将获取的信道增益st输入到设有优化样本池的深度强化学习网络中,以用户总和速率为优化目标,网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合
Figure FDA0003058167470000011
将给用户分配功率的深度确定性策略梯度网称为功率分配网络,功率分配网络根据当前信道状态信息st确定输出每个用户的功率
Figure FDA0003058167470000012
在每个时隙TS中,根据优化样本采样的深度强化学习网络输出的用户分组
Figure FDA0003058167470000013
和功率分配网络得到的用户功率
Figure FDA0003058167470000014
最终得到
Figure FDA0003058167470000015
S4、将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择用户分组及功率时对应的系统总和速率rt和下一个时隙TS的信道状态信息st+1;并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中;
根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配。
2.根据权利要求1所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,在优化样本池的深度强化学习网络中,使用优先经验回放存储样本和优先级,具体存储过程包括以下:
S101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为
Figure FDA0003058167470000021
其中j表示第j个簇;然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是
Figure FDA0003058167470000022
每个簇中有
Figure FDA0003058167470000023
个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
S102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置;将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置,依次类推;
S103、重复上述存储的过程,逐个添加优先级和样本元组。
3.根据权利要求2所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,S103所述重复上述存储的过程,逐个添加优先级和样本元组的过程中,得到一个添加优先级之后的Prio和data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。
4.根据权利要求2所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,利用深度强化学习网络进行用户分组过程包括进行采样的步骤,在采样时,按照簇的方式进行采样,具体包括以下步骤:
S201、先抽取每个簇中索引是
Figure FDA0003058167470000024
对应的优先级,其中j是第j个簇,返回优先级编号,根据优先级的编号抽取data中对应位置的样本元组;
S202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是
Figure FDA0003058167470000025
对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是
Figure FDA0003058167470000026
对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
S203、以此类推;返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算样本的归一化权重wi
5.根据权利要求4所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,所述的样本的归一化权重wi如下:
首先,计算重要性采样权重
Figure FDA0003058167470000031
其中,N是样本数,β用于调节偏差程度,P(i)是样本被采样的概率;
然后,对重要性采样权重wi归一化,得到归一化权重wi
6.根据权利要求4所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤:
采样过程得到m个样本(si,ai,ri,si+1),si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值
Figure FDA0003058167470000032
其中ω'表示深度强化学习网络中的目标Q网络的网络权重;并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数
Figure FDA0003058167470000033
并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
Figure FDA0003058167470000034
根据计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据返回的优先级的编号,按照添加优先级的方法更新被采样的样本的优先级;通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度
Figure FDA0003058167470000035
更新功率分配网络中的Actor网络所有参数θ;通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
7.根据权利要求6所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,所述的系统总和速率rt如下:
Figure FDA0003058167470000041
其中B是NOMA系统带宽,S是子信道数;SINR(t)为接收端使用串行干扰消除技术进行干扰消除的过程产生的信干噪比。
8.根据权利要求1至7之一所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤:
在同一信道上有lp个用户,每个用户分配的功率记为pl;在接收端先解码功率最大的用户,然后从总混合信号中减去功率最大用户的信号得到剩余用户的混合信号;
再对信道上次弱的用户信号进行串行干扰消除技术,从除功率最大用户以外的剩余用户的混合信号中减去信道上次弱的用户的信号;
按照用户功率从大到小的顺序依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,产生的信干噪比为SINR(t)。
9.根据权利要求8所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,所述的信干噪比如下:
Figure FDA0003058167470000042
其中bs,u(t)=1表示在子信道s上分配了用户u,bs,u(t)=0表示子信道s上没有分配用户u,ps,u表示在子信道s上用户u分配的功率,bs,q(t)用来表明在子信道s上是否分配用户q,ps,q(t)和hs,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益,
Figure FDA0003058167470000043
是噪声功率密度。
10.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至9之一所述的一种基于优化样本采样的NOMA系统资源分配方法。
CN202110505390.8A 2021-05-10 2021-05-10 一种基于优化样本采样的noma系统资源分配方法及存储介质 Active CN113242601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110505390.8A CN113242601B (zh) 2021-05-10 2021-05-10 一种基于优化样本采样的noma系统资源分配方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110505390.8A CN113242601B (zh) 2021-05-10 2021-05-10 一种基于优化样本采样的noma系统资源分配方法及存储介质

Publications (2)

Publication Number Publication Date
CN113242601A true CN113242601A (zh) 2021-08-10
CN113242601B CN113242601B (zh) 2022-04-08

Family

ID=77133123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110505390.8A Active CN113242601B (zh) 2021-05-10 2021-05-10 一种基于优化样本采样的noma系统资源分配方法及存储介质

Country Status (1)

Country Link
CN (1) CN113242601B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113795050A (zh) * 2021-08-20 2021-12-14 广东工业大学 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN113938183A (zh) * 2021-10-19 2022-01-14 重庆邮电大学 多波束卫星系统下基于非正交多址的通信资源分配方法
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN115002720A (zh) * 2022-06-02 2022-09-02 中山大学 基于深度强化学习的车联网信道资源优化方法及系统
CN117395626A (zh) * 2023-12-11 2024-01-12 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170012754A1 (en) * 2015-07-10 2017-01-12 Qualcomm Incorporated Reference signal and signalling design for non-orthogonal multiple access with legacy user equipment as a base layer
CN106658695A (zh) * 2017-03-07 2017-05-10 重庆邮电大学 一种应用于noma中的功率分配系统及功率分配方法
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
US20190140741A1 (en) * 2017-11-03 2019-05-09 Cable Television Laboratories, Inc System and methods for non-orthogonal multiple access
CN110139318A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种noma蜂窝异构网络资源分配方法及系统
WO2019219167A1 (en) * 2018-05-15 2019-11-21 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic user grouping in non-orthogonal multiple access (noma) –networks
US20200244501A1 (en) * 2019-01-25 2020-07-30 Genghiscomm Holdings, LLC Orthogonal Multiple Access and Non-Orthogonal Multiple Access
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170012754A1 (en) * 2015-07-10 2017-01-12 Qualcomm Incorporated Reference signal and signalling design for non-orthogonal multiple access with legacy user equipment as a base layer
CN106658695A (zh) * 2017-03-07 2017-05-10 重庆邮电大学 一种应用于noma中的功率分配系统及功率分配方法
US20190140741A1 (en) * 2017-11-03 2019-05-09 Cable Television Laboratories, Inc System and methods for non-orthogonal multiple access
WO2019219167A1 (en) * 2018-05-15 2019-11-21 Telefonaktiebolaget Lm Ericsson (Publ) Dynamic user grouping in non-orthogonal multiple access (noma) –networks
CN108924935A (zh) * 2018-07-06 2018-11-30 西北工业大学 一种基于强化学习算法功率域的noma中的功率分配方法
US20200244501A1 (en) * 2019-01-25 2020-07-30 Genghiscomm Holdings, LLC Orthogonal Multiple Access and Non-Orthogonal Multiple Access
CN110139318A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种noma蜂窝异构网络资源分配方法及系统
CN111901862A (zh) * 2020-07-07 2020-11-06 西安交通大学 一种基于深度q网络的用户分簇与功率分配方法、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N.GLEI: "Energy-Efficient Resource Allocation for NOMA Systems", 《 2019 16TH INTERNATIONAL MULTI-CONFERENCE ON SYSTEMS》 *
唐伦: "基于能效的NOMA蜂窝车联网动态资源分配算法", 《电子与信息学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113795050A (zh) * 2021-08-20 2021-12-14 广东工业大学 一种基于Sum tree采样的深度双Q网络动态功率控制方法
CN113938183A (zh) * 2021-10-19 2022-01-14 重庆邮电大学 多波束卫星系统下基于非正交多址的通信资源分配方法
CN113938183B (zh) * 2021-10-19 2024-03-15 深圳泓越信息科技有限公司 多波束卫星系统下基于非正交多址的通信资源分配方法
CN115002720A (zh) * 2022-06-02 2022-09-02 中山大学 基于深度强化学习的车联网信道资源优化方法及系统
CN114980178A (zh) * 2022-06-06 2022-08-30 厦门大学马来西亚分校 一种基于强化学习的分布式pd-noma水声网络通信方法及系统
CN117395626A (zh) * 2023-12-11 2024-01-12 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法
CN117395626B (zh) * 2023-12-11 2024-02-09 厦门大学 基于元学习及noma的水声网络水质监测数据搜集方法

Also Published As

Publication number Publication date
CN113242601B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN113242601B (zh) 一种基于优化样本采样的noma系统资源分配方法及存储介质
Xia et al. Federated-learning-based client scheduling for low-latency wireless communications
CN111132264B (zh) 多用户mimo-noma系统下行链路的用户分簇方法
CN104936186B (zh) 基于布谷鸟搜索算法的认知无线电网络频谱分配方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN113490219B (zh) 一种面向超密集组网的动态资源分配方法
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN109412661B (zh) 一种大规模mimo系统下的用户分簇方法
CN112153744B (zh) 一种icv网络中物理层安全资源分配方法
CN113795050B (zh) 一种基于Sum Tree采样的深度双Q网络动态功率控制方法
CN112887943B (zh) 一种基于中心度的缓存资源分配方法及系统
CN110505681B (zh) 基于遗传方法的非正交多址接入场景用户配对方法
CN112469113A (zh) 一种多载波noma系统的资源分配方法及装置
CN112996118B (zh) Noma下行链路用户配对方法和存储介质
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法
Tian et al. Hierarchical federated learning with adaptive clustering on non-IID data
EP4158545A2 (en) Apparatus, method and computer program for accelerating grid-of-beams optimization with transfer learning
WO2022002347A1 (en) Training in communication systems
CN113645700A (zh) 基于深度学习的提升scma系统性能的资源分配方法及装置
CN111770574A (zh) 一种基于贪婪算法的noma下行链路功率分配改进方法
CN114401491B (zh) 一种设备到设备通信中的资源分配方法及装置
CN115834580B (zh) 面向海洋大数据的分布式数据处理方法、装置和设备
CN109890040B (zh) 面向高可靠低时延无线传感器网络的优化方法
CN110213002B (zh) 一种面向noma与d2d融合通信的资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant