CN113242601B - 一种基于优化样本采样的noma系统资源分配方法及存储介质 - Google Patents
一种基于优化样本采样的noma系统资源分配方法及存储介质 Download PDFInfo
- Publication number
- CN113242601B CN113242601B CN202110505390.8A CN202110505390A CN113242601B CN 113242601 B CN113242601 B CN 113242601B CN 202110505390 A CN202110505390 A CN 202110505390A CN 113242601 B CN113242601 B CN 113242601B
- Authority
- CN
- China
- Prior art keywords
- network
- user
- priority
- sample
- power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/51—Allocation or scheduling criteria for wireless resources based on terminal or device properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/56—Allocation or scheduling criteria for wireless resources based on priority criteria
- H04W72/563—Allocation or scheduling criteria for wireless resources based on priority criteria of the wireless resources
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于优化样本采样的NOMA系统资源分配方法及存储介质,属于移动通信与无线网络技术领域。为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题,以及导致的学习速率低的问题。本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标,以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络,并利用其输出最优的用户分组策略,同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率,可以提高深度强化学习网络的学习速率,加快收敛速度。主要用于NOMA系统的资源分配。
Description
技术领域
本发明涉及NOMA系统资源分配方法,属于移动通信与无线网络技术领域。
背景技术
在NOMA(非正交多址技术)系统中,发送端先将所有用户分组,然后给用户分配不同的功率,最后将不同的用户叠加在同一时频资源块经过无线信道传输到接收端,在接收端使用串行干扰消除技术对信号解调重构恢复出原来的信号。由此可见,NOMA系统的用户分组和功率分配结果将直接影响系统的性能,所以这两个问题常常联合在一起进行优化,统称为NOMA系统资源分配。
近年来,深度强化学习网络被用于对NOMA系统的资源分配优化问题进行求解,其中最常用的是DQN网络。DQN网络中使用了经验回放算法,目的是减小样本之间的相关性,保证样本的独立同分布特性。但当前从样本池中采样都采用的是均匀采样,这忽略了样本的重要性,在采样过程中可能使一些有重要价值的样本没有被学习到,降低了学习速率。基于此,本发明提出一种基于优化样本采样的NOMA系统资源分配方法,通过给样本设置优先级,提高重要样本被采样的概率,让对学习过程有用的样本以更高的频率重放,可以提高学习速率,减少训练时间。
发明内容
本发明是为了解决利用现有的深度强化学习网络对NOMA系统的资源进行分配时可能存在重要价值的样本没有被学习到的问题,以及导致的学习速率低的问题。
一种基于优化样本采样的NOMA系统资源分配方法,包括以下步骤:
S1、基站获取用户的信道状态信息;所述信道状态信息包括信道增益;
S2、在接收端使用串行干扰消除技术进行干扰消除;
S3、利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率;
进行用户分组的深度强化学习网络如下:
深度强化学习网络的Q网络产生选择当前动作的估计值,深度强化学习网络的目标Q网络产生用于训练网络的目标值;深度强化学习网络还设有一个用于采样的优化样本池,在优化样本池中利用TD_error给样本设置优先级,TD_error为当前价值函数输出的动作价值与对该动作价值的估计值之间的差异;使用Prio数组存储样本的优先级;将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,并使用data数组存储样本元组;
S4、将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择用户分组及功率时对应的系统总和速率rt和下一个时隙TS的信道状态信息st+1;并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中;
根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配。
进一步地,在优化样本池的深度强化学习网络中,使用优先经验回放存储样本和优先级,具体存储过程包括以下:
S101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为其中j表示第j个簇;然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是每个簇中有个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
S102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置;将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置,依次类推;
S103、重复上述存储的过程,逐个添加优先级和样本元组。
进一步地,S103所述重复上述存储的过程,逐个添加优先级和样本元组的过程中,得到一个添加优先级之后的Prio和data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。
进一步地,利用深度强化学习网络进行用户分组过程包括进行采样的步骤,在采样时,按照簇的方式进行采样,具体包括以下步骤:
S202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
S203、以此类推;返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算样本的归一化权重wi。
进一步地,所述的样本的归一化权重wi如下:
然后,对重要性采样权重wi归一化,得到归一化权重wi。
进一步地,利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤:
采样过程得到m个样本(si,ai,ri,si+1),si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值其中ω'表示深度强化学习网络中的目标Q网络的网络权重;并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
根据计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据返回的优先级的编号,按照添加优先级的方法更新被采样的样本的优先级;通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度更新功率分配网络中的Actor网络所有参数θ;通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
进一步地,所述的系统总和速率rt如下:
其中B是NOMA系统带宽,S是子信道数;SINR(t)为接收端使用串行干扰消除技术进行干扰消除的过程产生的信干噪比。
进一步地,所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤:
在同一信道上有lp个用户,每个用户分配的功率记为pl;在接收端先解码功率最大的用户,然后从总混合信号中减去功率最大用户的信号得到剩余用户的混合信号;
再对信道上次弱的用户信号进行串行干扰消除技术,从除功率最大用户以外的剩余用户的混合信号中减去信道上次弱的用户的信号;
按照用户功率从大到小的顺序依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,产生的信干噪比为SINR(t)。
进一步地,所述的信干噪比如下:
其中bs,u(t)=1表示在子信道s上分配了用户u,bs,u(t)=0表示子信道s上没有分配用户u,ps,u表示在子信道s上用户u分配的功率,bs,q(t)用来表明在子信道s上是否分配用户q,ps,q(t)和hs,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益,是噪声功率密度。
一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
有益效果:
本发明设计了以当前信道状态信息为输入、以用户总和速率为优化目标,以每个样本TD误差为优先级的基于样本优化池的深度强化学习网络,并利用其输出最优的用户分组策略,同时利用深度确定性策略梯度网络输出每个用户的最优分配功率。本发明通过引入样本的优先级提高了有价值样本的出现概率,可以提高深度强化学习网络的学习速率,加快收敛速度,获得比传统的NOMA系统资源分配算法更好的总和速率性能。
附图说明
图1为资源分配方法对应的系统流程图;
图2为用于样本及其优先级存储的Prio和Data数组的结构示意图;
图3是基于深度强化学习网络及优化样本池的NOMA系统资源分配的结构图。
具体实施方式
具体实施方式一:结合图1和图3说明本实施方式,
本实施方式所述的一种基于优化样本采样的NOMA系统资源分配方法,包括以下步骤:
(1)基站获取用户的信道状态信息。本发明所使用的信道状态信息为信道增益。
(2)在接收端使用串行干扰消除技术进行干扰消除。例如,在同一信道上有3个用户,用户分配的功率分别是P1=1W和P2=2W和P3=3W。在接收端先解码功率最大的用户3,然后从总混合信号中减去用户3的信号得到用户1和用户2的混合信号。再对信道上次弱(P2=2W)的用户信号进行串行干扰消除技术,从用户1和2的混合信号中减去用户2的信号。按照用户功率大小依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,因此产生的信干噪比是:其中bs,u(t)=1表示在子信道s上分配了用户u,bs,u(t)=0表示子信道s上没有分配用户u,ps,u表示在子信道s上用户u分配的功率,bs,q(t)用来表明在子信道s上是否分配用户q,ps,q(t)和hs,q(t)分别表示在子信道s上的干扰信号q分配的功率和信道增益,是噪声功率密度。
(3)设计优化样本采样的深度强化学习网络。深度强化学习网络主要包括Q网络和目标Q网络以及优化的样本池。Q网络产生选择当前动作的估计值,目标Q网络产生用于训练网络的目标值。本领域的技术人员都知晓:这里的Q网络即当前值网络,目标Q网络是目标值网络,即Q网络和目标Q网络是深度强化学习网络中的两个网络,所以本发明不再赘述。
在以往的深度强化学习网络中从经验池中随机采样样本,忽略了一些样本的重要性,可能无法学习到一些有价值的样本。在本发明的基于优化样本池的深度强化学习网络中设计一个优化样本池,根据不同样本的重要性程度使用时序差分误差(TD_error)给样本设置优先级,TD_error表示当前价值函数输出的动作价值与对该动作价值的估计值之间的差异,即TD_error=yi-Q(si,ai;ω)。TD_error越大,表明当前价值函数的输出越不准确,越需要被学习。与以往普通的经验回放不同,本发明将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序之后的优先级逐个添加在簇中对应的位置,同时将对应的样本元组添加在data库中。采样时从每个簇中分别抽取较大的优先级以及对应的样本元组训练神经网络。
(4)设置优先级后,为了能够抽取到较大TD误差的样本,将记忆库分成若干个簇,并将每次进入记忆库的样本的优先级和之前存储在记忆库中所有的优先级按照从大到小排序,在本发明中使用Prio数组和data数组存储样本的优先级和样本元组,将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,Prio的结构如图2中的状态(a)所示,图2中的状态(a)为添加优先级前的Prio;idx表示数组索引,D代表经验池容量,n表示将经验池分成n个簇,每个簇中可以存个优先级,第j个簇的第一个优先级的索引可以表示为区间可以表示为本发明使用另一个data存储对应的样本元组。Prio和data的索引是一一对应的,一个样本的优先级对应一个样本元组。
(5)利用优先级进行经验回放改变了样本回放的频率,从而改变了原来的样本数据分布,导致Q网络输出的估计值有偏差,使用重要性采样权重来修正偏差,其中,N是样本数,P(i)是样本被采样的概率,β用于调节偏差程度,当β=1时表示已经完全消除了偏差,为了保证学习的稳定性,需要对重要性采样权重wi归一化。
(6)基站将获取的信道增益st输入到优化样本池的深度强化学习网络中,以用户总和速率为优化目标,网络根据当前信道增益使用ζ-greedy策略从用户分组空间A1内选择出用户组合即以概率ζ在用户分组空间A1内选取用户组合,或者以(1-ζ)的概率选择使估计Q值最大的的用户组合,即其中st表示当前的信道增益,表示选择的用户组合,ω表示深度强化学习网络Q网络的网络权重,表示这个用户组合的估计Q值。
(7)设计可以给用户分配功率的深度确定性策略梯度网络DDPG,将其称为功率分配网络,输入当前信道状态信息st,输出每个用户的功率然而,在功率分配网络中,因为在确定性策略下,输入相同的状态,输出的用户功率就一定相同,即但是在策略上就失去了探索性,所以本发明就给策略网络添加随机噪声,这时就类似于ζ-greedy策略,最终在功率分配空间内选择出的用户功率其中st表示信道增益,θ表示功率分配网络的Actor网络权重,noise表示随机噪声。
(9)将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择这个用户分组及功率时对应的系统总和速率和下一个时隙TS的信道状态信息st+1,其中B是NOMA系统带宽,S是子信道数。并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中,其中t=1,2,...,m。
(10)每个时隙TS中,在优化样本池的深度强化学习网络中,使用一种优先经验回放存储样本和优先级。整个存储步骤如下:
101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为其中j表示第j个簇。然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是每个簇中有个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置。将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置。依次类推。
103、重复上述存储的方法逐个添加优先级和样本元组。假设得到一个添加优先级之后的Prio和data,如图2中的状态(b)和状态(c)所示,图2中的状态(b)为添加优先级后的Prio,状态(c)为分簇的data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方法覆盖掉旧的经验重新开始添加。
(11)在每个时隙TS,从经验回放池中按照优先采样的方式采样样本训练神经网络。在采样时,本发明对之前添加过的优先级按照簇的方式进行采样。采样步骤如下:
202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
203、以此类推。返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算(5)中样本的归一化权重wi。
(12)根据(11)最终将会得到m个样本(si,ai,ri,si+1),其中i=1,2,3,......,m,si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励(NOMA系统对应的系统总和速率)和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值其中ω'表示深度强化学习网络中的目标Q网络的网络权重。并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
(13)根据(12)计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据(11)返回的优先级的编号,按照(10)添加优先级的方法更新被采样的样本的优先级。通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度更新功率分配网络中的Actor网络所有参数θ。通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
具体实施方式二:
本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
本发明包括但不限于一种存储介质,还可以是一种设备,所述设备包括处理器和存储器,所述存储器即存储介质,其存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现一种基于优化样本采样的NOMA系统资源分配方法。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (9)
1.一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,包括以下步骤:
S1、基站获取用户的信道状态信息;所述信道状态信息包括信道增益;
S2、在接收端使用串行干扰消除技术进行干扰消除;
S3、利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率;
进行用户分组的深度强化学习网络如下:
深度强化学习网络的Q网络产生选择当前动作的估计值,深度强化学习网络的目标Q网络产生用于训练网络的目标值;深度强化学习网络还设有一个用于采样的优化样本池,在优化样本池中利用TD_error给样本设置优先级,TD_error为当前价值函数输出的动作价值与对该动作价值的估计值之间的差异;使用Prio数组存储样本的优先级;将记忆库分成若干个簇,将每次进入经验池的最新优先级和之前所有的旧的优先级按照从大到小排序,然后将排序后的所有样本优先级逐个添加在Prio的簇的对应位置中,并使用data数组存储样本元组;
S4、将用户分组和用户功率at发送到NOMA系统中,NOMA系统产生在当前信道状态信息下选择用户分组及功率时对应的系统总和速率rt和下一个时隙TS的信道状态信息st+1;并将rt和st+1反馈到深度强化学习网络中,同时将元组(st,at,rt,st+1)存储经验回放池中;
根据深度强化学习网络和深度确定性策略梯度网络进行用户分组及用户功率分配实现NOMA系统资源分配;
在优化样本池的深度强化学习网络中,使用优先经验回放存储样本和优先级,具体存储过程包括以下:
S101、用经验池的容量D除以n,将经验池分成n个簇,每个簇的区间可以表示为其中j表示第j个簇;然后将Prio和data分别从0开始编号,第j个簇的第一个位置的索引是每个簇中有个元素存储优先级,一个元素存储一个样本的优先级,并初始化Prio的优先级为0;
S102、添加新进入的样本优先级之前,先将这个优先级与之前的所有的优先级按照从大到小排序,将排序后的最大的优先级存储在Prio索引是0的位置,同时将对应的样本元组存储在data索引是0的位置;将排序后仅次于最大优先级的第二个优先级添加在Prio索引是1的位置,同理,将对应的样本元组添加在data索引是1的位置,依次类推;
S103、重复上述存储的过程,逐个添加优先级和样本元组。
2.根据权利要求1所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,S103所述重复上述存储的过程,逐个添加优先级和样本元组的过程中,得到一个添加优先级之后的Prio和data;当Prio和data存满之后,后进入优化样本池的样本和优先级将会按照同样的存储方式覆盖掉旧的经验重新开始添加。
3.根据权利要求1所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,利用深度强化学习网络进行用户分组过程包括进行采样的步骤,在采样时,按照簇的方式进行采样,具体包括以下步骤:
S202、如果抽取的样本数m小于等于记忆库簇数n,则抽取每个簇中第一个位置索引是对应的优先级,若抽取的样本数m大于记忆库簇数n,将继续抽取每个簇中第二个位置索引是对应的优先级,根据返回的优先级编号抽取data中对应位置的样本元组;
S203、以此类推;返回所有抽样样本的优先级的编号、优先级以及对应的样本元组,并计算样本的归一化权重wi。
5.根据权利要求3所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,利用深度强化学习网络进行用户分组,并利用深度确定性策略梯度网络给用户分配功率的过程包括以下步骤:
采样过程得到m个样本(si,ai,ri,si+1),si,ai,ri,si+1分别表示当前信道状态信息、选择的用户组合、产生的即时奖励和下一个时隙的信道状态信息;计算得到深度强化学习网络中的目标Q网络的目标Q值其中ω'表示深度强化学习网络中的目标Q网络的网络权重;并重新计算所有样本的TD误差TD_error=yi-Q(si,ai;ω),计算得到损失函数并计算功率分配网络中的目标Critic网络的目标Q值yi=ri+γQ(si+1,π(si+1;μ');θ'),其中ri表示在当前信道状态信息下给用户分配的功率产生的NOMA系统对应的系统总和速率,γ是衰落因子,θ'和μ'分别是功率分配网络中的目标Actor和目标Critic网络的网络权重,得到损失函数
根据计算的TD误差更新被采样的样本的优先级pi,即pi=|TD_error|,根据返回的优先级的编号,按照添加优先级的方法更新被采样的样本的优先级;通过随机梯度下降最小化损失函数Loss1更新深度强化学习网络中的Q网络的网络权重ω,通过最小化损失函数Loss2更新功率分配网络中的Critic网络的所有参数μ,通过确定性策略梯度更新功率分配网络中的Actor网络所有参数θ;通过参数复制,更新深度强化学习网络中目标Q网络的网络权重,即ω'=ω,以及功率分配网络中的目标Critic和Actor网络的所有参数,即μ'=τμ+(1-τ)μ';θ'=τθ+(1-τ)θ',τ是深度确定性策略梯度网络更新过程的更新参数。
7.根据权利要求1至6之一所述的一种基于优化样本采样的NOMA系统资源分配方法,其特征在于,所述的接收端使用串行干扰消除技术进行干扰消除的过程包括以下步骤:
在同一信道上有lp个用户,每个用户分配的功率记为pl;在接收端先解码功率最大的用户,然后从总混合信号中减去功率最大用户的信号得到剩余用户的混合信号;
再对信道上次弱的用户信号进行串行干扰消除技术,从除功率最大用户以外的剩余用户的混合信号中减去信道上次弱的用户的信号;
按照用户功率从大到小的顺序依次重复相同的操作,直到所需的用户信号在叠加信号中功率最大为止,将其余功率小于所需用户功率的用户当作干扰用户的信号,产生的信干噪比为SINR(t)。
9.一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至8之一所述的一种基于优化样本采样的NOMA系统资源分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505390.8A CN113242601B (zh) | 2021-05-10 | 2021-05-10 | 一种基于优化样本采样的noma系统资源分配方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110505390.8A CN113242601B (zh) | 2021-05-10 | 2021-05-10 | 一种基于优化样本采样的noma系统资源分配方法及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113242601A CN113242601A (zh) | 2021-08-10 |
CN113242601B true CN113242601B (zh) | 2022-04-08 |
Family
ID=77133123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110505390.8A Active CN113242601B (zh) | 2021-05-10 | 2021-05-10 | 一种基于优化样本采样的noma系统资源分配方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113242601B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113795050B (zh) * | 2021-08-20 | 2022-11-11 | 广东工业大学 | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 |
CN113938183B (zh) * | 2021-10-19 | 2024-03-15 | 深圳泓越信息科技有限公司 | 多波束卫星系统下基于非正交多址的通信资源分配方法 |
CN115002720B (zh) * | 2022-06-02 | 2023-06-06 | 中山大学 | 基于深度强化学习的车联网信道资源优化方法及系统 |
CN114980178B (zh) * | 2022-06-06 | 2024-08-02 | 厦门大学马来西亚分校 | 一种基于强化学习的分布式pd-noma水声网络通信方法及系统 |
CN117395626B (zh) * | 2023-12-11 | 2024-02-09 | 厦门大学 | 基于元学习及noma的水声网络水质监测数据搜集方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924935A (zh) * | 2018-07-06 | 2018-11-30 | 西北工业大学 | 一种基于强化学习算法功率域的noma中的功率分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10090978B2 (en) * | 2015-07-10 | 2018-10-02 | Qualcomm Incorporated | Reference signal and signalling design for non-orthogonal multiple access with legacy user equipment as a base layer |
CN106658695B (zh) * | 2017-03-07 | 2019-09-24 | 重庆邮电大学 | 一种应用于noma中的功率分配系统及功率分配方法 |
US10523324B2 (en) * | 2017-11-03 | 2019-12-31 | Cable Television Laboratories, Inc | System and methods for non-orthogonal multiple access |
EP3794758A1 (en) * | 2018-05-15 | 2021-03-24 | Telefonaktiebolaget LM Ericsson (publ) | Dynamic user grouping in non-orthogonal multiple access (noma) -networks |
EP3915236A4 (en) * | 2019-01-25 | 2023-05-24 | Genghiscomm Holdings, LLC | ORTHOGONAL MULTI-ACCESS AND NON-ORTHOGONAL MULTI-ACCESS |
CN110139318B (zh) * | 2019-05-14 | 2020-07-24 | 北京科技大学 | 一种noma蜂窝异构网络资源分配方法及系统 |
-
2021
- 2021-05-10 CN CN202110505390.8A patent/CN113242601B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924935A (zh) * | 2018-07-06 | 2018-11-30 | 西北工业大学 | 一种基于强化学习算法功率域的noma中的功率分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
Non-Patent Citations (2)
Title |
---|
Energy-Efficient Resource Allocation for NOMA Systems;N.Glei;《 2019 16th International Multi-Conference on Systems》;20191111;全文 * |
基于能效的NOMA蜂窝车联网动态资源分配算法;唐伦;《电子与信息学报》;20200322;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113242601A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113242601B (zh) | 一种基于优化样本采样的noma系统资源分配方法及存储介质 | |
CN111132264B (zh) | 多用户mimo-noma系统下行链路的用户分簇方法 | |
CN105721123B (zh) | 一种用户配对及功率分配方法及装置 | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
CN113490219B (zh) | 一种面向超密集组网的动态资源分配方法 | |
CN116744311B (zh) | 基于per-ddqn的用户组频谱接入方法 | |
CN107454604B (zh) | 认知中继网络的量子化学反应优化多中继选择方法 | |
CN109412661B (zh) | 一种大规模mimo系统下的用户分簇方法 | |
CN112153744B (zh) | 一种icv网络中物理层安全资源分配方法 | |
CN113795050B (zh) | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 | |
Li et al. | Dynamic spectrum access for internet-of-things based on federated deep reinforcement learning | |
CN114423028B (zh) | 基于多智能体深度强化学习的CoMP-NOMA协作成簇与功率分配方法 | |
CN113472420A (zh) | 一种基于区域用户兴趣感知的卫星网络缓存放置方法 | |
Gao et al. | Reinforcement learning based resource allocation in cache-enabled small cell networks with mobile users | |
CN112887943B (zh) | 一种基于中心度的缓存资源分配方法及系统 | |
Tian et al. | Hierarchical federated learning with adaptive clustering on non-IID data | |
CN112469113B (zh) | 一种多载波noma系统的资源分配方法及装置 | |
CN110505681B (zh) | 基于遗传方法的非正交多址接入场景用户配对方法 | |
CN113890653B (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
CN112996118B (zh) | Noma下行链路用户配对方法和存储介质 | |
CN114531685A (zh) | 一种基于迁移强化学习的资源分配方法 | |
EP4158545A2 (en) | Apparatus, method and computer program for accelerating grid-of-beams optimization with transfer learning | |
WO2022002347A1 (en) | Training in communication systems | |
CN117811846B (zh) | 基于分布式系统的网络安全检测方法、系统、设备及介质 | |
CN114401491B (zh) | 一种设备到设备通信中的资源分配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |