CN112492691A - 一种深度确定性策略梯度的下行noma功率分配方法 - Google Patents
一种深度确定性策略梯度的下行noma功率分配方法 Download PDFInfo
- Publication number
- CN112492691A CN112492691A CN202011344394.4A CN202011344394A CN112492691A CN 112492691 A CN112492691 A CN 112492691A CN 202011344394 A CN202011344394 A CN 202011344394A CN 112492691 A CN112492691 A CN 112492691A
- Authority
- CN
- China
- Prior art keywords
- power distribution
- neural network
- users
- agent
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 206010042135 Stomatitis necrotising Diseases 0.000 title claims abstract 18
- 201000008585 noma Diseases 0.000 title claims abstract 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 238000004088 simulation Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 8
- 238000005562 fading Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002787 reinforcement Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E40/00—Technologies for an efficient electrical power generation, transmission or distribution
- Y02E40/70—Smart grids as climate change mitigation technology in the energy generation sector
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明公开了一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法,方法采用双神经网络结构及经验池回放机制,可以有效处理涉及大规模状态‑动作空间的问题,且降低训练样本之间的相关性,同时,采取确定性策略来选择动作,可以在连续的动作空间中选择动作。算法使用状态信息作为神经网络的输入,并对状态空间、动作空间及奖赏函数根据仿真下行NOMA系统情境进行了相应的设计,其中将上一时刻的信干噪比信息及速率信息作为当前时刻状态信息的组成部分,可以使得智能体更加有效的学习并利用所学习到信息来改进行为策略,经过多次迭代后,得到最优的功率分配策略。该方法可以有效解决下行NOMA系统中多用户的功率分配问题,且在不同的用户数量及基站的发射功率级别下均具备良好的泛化性能,可以有效提升功率分配的合理性,同时运算耗时少,有效提高功率分配的效率。
Description
技术领域
本发明涉及NOMA资源分配领域,特别是涉及一种深度确定性策略梯度算法的下行NOMA系统中功率分配方法。
背景技术
随着无线通信系统中移动终端设备的不断接入及用户密度的不断提高,通信系统中的数据量呈现指数型增长,正交多址接入技术已无法满足高系统容量的需求,为进一步满足用户的业务需求,第五代移动通信系统应运而生,5G技术的主要关注点是数据速率的提高和端到端延迟的减少,以适应无线业务数据量的指数型增长,非正交多址访问(NOMA)被认为是5G通信系统中有前途的技术,其允许多个用户在同一子信道上进行通信,即功率复用,从而提高频谱效率,解决频谱稀缺性问题,在NOMA系统中,如何进行多用户功率的分配与提高系统容量和频谱效率等问题有息息相关,因此,寻找到一种有效的功率分配方案是很有必要的。
目前关于NOMA系统中功率分配的问题已经有了一系列研究,已有的研究方法可以分为基于数值模拟方法、深度学习算法及强化学习算法;其中,基于数值模拟的方法属于传统的求解算法,大多是采用相关优化技术来求解,具有较好的性能;随着电脑硬件,如GRU,人工神经网络等相关技术的更新发展,深度学习技术已具备对大量数据的分析处理能力,已在功率分配领域得到了应用,效果有所提升;基于强化学习的方法是采取“试错”的思想,智能体不断与环境进行交互,学习知识同时更新自身的行为策略,最终获得最优的功率分配策略,深度强化学习引入深度学习技术,兼具分析感知与决策能力,对于复杂的系统具有良好的决策能力,已在功率分配领域得到有效应用。
功率分配问题大多是NP困难的(NP-hard),且具有非凸性,求最优解不是很容易,因此,有很多的研究方法是采用显式的,或者隐式的优化技术,通过迭代计算求得最优解,传统的方法可以有效提高系统性能,但数值模拟的方式没有精确的系统模型,多次迭代计算需要涉及大量的运算,且会消耗大量的时间,无法满足通信系统中对于数据的实时处理要求,而且基于传统的方法不具备自主学习能力,无法适应多变的复杂的通信系统,因此对于实际通信场景的处理不完善。
继传统的优化算法后,有学者提出了使用深度学习技术来解决NOMA系统中的功率分配问题,此类方法采用深度神经网络或其他的变体形式,采用的是监督学习的方式,通过多层神经网络来进行数据特征的提取,学习数据到标签的映射,相对于传统功率分配方法的多次迭代计算,神经网络的运算更为高效,复杂度较低,不过神经网络的训练需要大量的准备好的样本数据,而通信系统中很难获得完美的样本数据,且监督学习的方式需要基准算法来进行训练,其性能会受到基准算法的限制。
相较于深度学习中的监督学习方式,强化学习采取的一种自主学习的策略,智能体不断的学习观测到的环境信息,并不断更新自身的行为选择策略,最终学习到最优的到一个最优的行为控制策略,Q学习算法是最经典的强化学习算法,不过传统的Q学习算法存在“维度灾难”灾难,即无法处理高维度的状态-动作空间问题,且只能处理离散的动作空间,对于连续的动作空间无能为力,深度强化学习通过使用深度神经网络代替传统Q值函数,有效的解决了维度灾难问题,使用最为广泛的为深度Q网络(DQN)算法,但其也存在无法解决连续型动作空间等问题,存在一定的局限性。
发明内容
本文针对上述现有状况,提出了一种基于深度确定性策略梯度(DDPG)的下行NOMA功率分配方法,DDPG在演员-评论家算法基础上改进而来,且引入DQN中的优势,即经验池回放机制和双神经网络结构,且使用确定性策略;本文所提算法中共包含四个神经网络,演员模块和评论家模块分别使用双神经网络结构;使用经验池回放机制进行训练,解决样本存在的时间相关性问题;对算法中状态、动作及奖赏函数分别进行对应设计,使智能体可以更加有效的自主学习;采用集中式的训练方式,经过多次迭代,最终得到一个最优的功率分配策略,通过功率分配使NOMA系统中的多个用户处于不同的、恰当的功率级别,在最大功率的限制下,最大程度提升系统的中传输速率,从而提升NOMA系统的总体通信性能和用户的通信体验。
为实现上述目的,本文提出的方案是:基于深度确定性策略梯度的下行NOMA功率分配方法,具体步骤如下:
S1:初始化NOMA系统网络环境设置;
S2:初始化经验池;
S5:初始化DDPG训练相关参数;
S6:接收初始状态;
S7:智能体根据当前状态,通过当前演员神经网络选择动作;
S8:执行所选择的动作,改变子信道中的功率分配比例值,得到当前时隙的奖赏值;
S9:智能体到达下一个状态;
S10:存储经验到经验池;
S11:神经网络的训练;
S12:将下一个状态作为当前的状态;
进一步的,步骤S11中,训练过程中设置每一次迭代包含50个时隙,在迭代次数达到100次之后,每隔10个时隙进行神经网络的训练,包括从经验池中随机抽取批次量数据输入神经网络中,计算损失函数,DDPG中采用双神经网络结构,共包含四个神经网络,其中当前演员网络和当前评论家网络的参数是实时更新,而目标演员网络和目标评论家网络的参数是根据当前演员网络和当前评论家网络的参数变化而变化。
进一步的,当前评论家网络的损失函数为:
当前演员网络的损失函数为:
其中Q(st,at|θQ)表示当前评论家神经网络的输出值,θQ表示其参数,通过最小化损失函数来更新参数。
进一步的,步骤S1中NOMA系统网络环境的初始化中,设置小区中的用户数量,用户之间的最小距离,用户与基站的最小距离等相关参数。
进一步的,步骤S2中初始化经验池,使用双端队列(deque),在经验池中存储的样本数量达到经验池容量后,自动删除队列前端的元素,新生成的经验样本添加到队列的后端,从而保持经验池样本的新颖性。
进一步的,步骤S5中初始化DDPG相关训练参数,包括设置初始学习率、总的迭代次数、折扣因子等
进一步的,步骤S6中,初始状态包含四个组成部分,表示为:
SINR1,n和SINR2,n分别表示用户1与用户2的SINR。
进一步的,用户i的SINR的计算公式为:
进一步的,hi,n的计算公式为:
hi,n=gi,n·PL-1(d)
其中,gi,n为小尺度衰落,PL-1(d)表示基站与用户i之间的路径损耗函数。
进一步的,步骤S7中动作的选择,本文算法中动作即子信道上两个用户间的功率分配比例因子:
A=(0,...,βn,...,1)
其中,βn表示子信道上两个用户之间的功率分配比例因子。
进一步的,步骤S7中奖赏函数的设计,本文算法中设置当前时隙所有智能体所得速率加和奖赏函数,计算公式为:
本发明由于采用上述技术方法,能够取得如下技术效果:通过采用双神经网络结构及经验池回放机制,解决前后时刻生成的经验样本之间存在的时间相关性问题;同时通过对状态、动作及奖赏函数进行合理的设计,使智能体能够更加有效的自主学习;通过采用集中式训练方式,减少计算所需要的资源,多次训练后,最终得到最优的功率分配策略,可以有效提升NOMA系统中下行链路的平均传输速率,同时,多个用户在同一时间共享频带,可以有效解决频谱稀缺性问题,提高频谱的利用效率,提升NOMA系统的通信性能。
附图说明
图1下行NOMA系统功率分配方法结构图。
图2演员-评论家算法原理图。
图3深度确定性梯度算法原理图。
图4NOMA下行系统模型图。
图5两用户情况下接收端SIC处理流程图。
图6深度确定性梯度算法中神经网络结构图。
具体实施方式
为了使本发明的实施例的目的、技术方案和优点更加清楚,下面结合附图对本发明实施例中的技术方案进行清楚完整的描述。
实施例1:如图1所示为本发明一个实施例的蜂窝网络功率分配方法结构图,本实施例提供一种基于深度确定性策略梯度算法的下行NOMA系统功率分配方法,具体步骤如下:
1)初始化下行NOMA系统仿真环境,如图4所示为仿真通信系统图,包含基站及多个终端用户,考虑到接收端解码的复杂度,考虑一个子信道上包含两个用户的情况;
2)初始化演员网络模块及评论家网络模块中,各自包含的两个神经网络的权重参数;
3)采用相关算法完成用户与信道的匹配工作,采用子信道之间功率均等分配的方式;
4)获得初始化状态,首先计算小尺度衰落与大尺度衰落,进而得到智能体当前时隙的信道增益,初始设置功率分配比例因子为0.5,计算得到相应的信SINR信息及速率值,从而生成初始状态;
5)将初始状态信息输入到当前演员神经网络中,输出确定性的动作,智能体执行所选择的动作,得到相应的奖赏函数,智能体到达下一时隙的状态;如图6所示为神经网络的结构图,本算法中对于四个神经网络采用相似的网络结构,均包含输入层、隐藏层及输层,区别在于演员网络模块与评论家网络模块两者的隐藏层层数不同;
6)采用的是确定性行为策略,即动作是通过当前演员网络直接输出,为加强智能体对于未知环境的探索能力,人为给智能体所选择的动作添加一定量的噪声,从而使智能体可以更深的探索环境,利用信息进行自主学习,优化行为策略;
7)存储经验样本(st,at,st+1,rt)到经验池;
8)迭代次数达到一定次数后,在间隔一定时隙后,从经验池中随机抽取批次数据量输入到神经网络中进行训练,计算损失函数并最小化损失值,更新当前演员神经网络和当前评论家神经网络的参数;
9)采用软更新方式,更新目标演员神经网络与目标评论家神经网络的权重参数;
10)将下一时隙的状态值作为当前的状态值,重复步骤五
11)若时隙数达到设定值,重复步骤4,开始下一轮迭代,直到达到总迭代次数;
本发明提出基于深度确定性策略梯度算法的下行NOMA系统功率分配方法,对状态进行设计并作为神经网络的输入,功率分配比例因子作为可选取的动作,通过演员网络模块输出动作的价值,评论家网络模块对智能体采取的动作进行评价,进而促进智能体更加有效的自主学习,同时优化行为策略,达到提升功率分配合理性及系统性能的效果。
可帮助下行NOMA系统中基站实现合理有效的功率分配,实现对于不同的用户有针对性地分配不同的功率,实现合理的功率复用,对于提升NOMA系统中下行链路的数据传输速率具有重大研究意义,同时深度强化学习采用深度神经网络实现Q值的逼近,兼具数据分析能力及复杂系统中的决策能力,具备良好的自主学习能力,因此对于复杂多变的通信场景具备良好的泛化性能,可实现高效合理功率分配,在节省了运算耗时的同时,也提高了系统的通信性能。
实施例2:本实施例对实施例1中出现小尺度衰落,大尺度衰落、动作集合、神经网络结构及目标网络的参数更新方式进行具体的解释说明。
(2)大尺度衰落,公式为:PL-1(d)=-120.9-37.6log10(d)+10log10(z)
其中,z是一个服从对数正太分布的随机变量,标准差为8dB,d表示的是发射端到接受端的距离,单位为km。
(3)动作集合是一个连续值集合,取值范围从0到1,但不包含0和1,动作空间表示如下:
A=(0,...,βn,...,1)
其中,βn表示子信道上两个用户之间的功率分配比例因子,动作的选择使用确定性策略,即选择神经网络所输出的动作,而不是采用根据概率选择的方式。
(4)神经网络结构,演员网络模块与评论家网络模块中,各自包含的两个神经网络结构相同,初始化权重参数相同,网络结构均包含输入层、两层隐藏层及输出层,不过两个网络模块中神经网络包含的隐藏层层数可能会有所不同。
神经网络对于大量且高维度的数据具备良好的分析感知能力,使用神经网络来拟合Q值可以解决涉及高维度状态-空间的问题,且使用经验池回放机制,通过随机抽取批次数据输入神经网络中进行训练,可以有效解决前后时隙生成的经验样本之间存在的相关性问题。
当前演员网络和当前评论家网络的参数是通过最小化损失函数的值来实时更新,而目标演员网络和目标评论家网络的参数是随着对应的当前网络更新而更新,采用“软更新”的方式,而不是完全复制的方式,表示如下:
其中,τ表示参数更新幅度大小。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,在任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种深度确定性策略梯度的下行NOMA功率分配方法,其特征在于使用深度确定性策略梯度算法实现下行NOMA系统的功率分配,其包括如下:算法中共包含四个神经网络,演员模块和评论家模块分别使用双神经网络结构;使用经验池回放机制进行训练,解决训练样本间存在的时间相关性问题;对算法中状态、动作及奖赏函数分别进行对应设计,使智能体可以更加有效的自主学习;采用集中式的训练方式,经过多次迭代,最终得到最优的功率分配策略;通过功率分配使NOMA系统中的多个用户处于不同的、恰当的功率级别,在最大功率的限制下,最大程度提升系统的中传输速率,从而提升NOMA系统的总体通信性能和用户的通信体验。
2.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,初始化下行NOMA系统环境,包含基站及多个终端用户,考虑到接收端解码的复杂度,考虑一个子信道上包含两个用户的情况,初始化状态作为神经网络的输入。
4.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,动作集合是一个连续值集合,取值范围从0到1,但不包含0和1;集合表示为:
A=(0,...,βn,...,1)
其中,βn表示子信道上两个用户之间的功率分配比例因子。
7.根据权利要求1所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,采用双神经网络结构及经验回放机制,有效分析处理大量数据,并且避免训练样本之间存在的时间相关性,提升神经网络的性能;所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,对状态集合、动作集合及奖赏函数根据仿真NOMA系统环境进行对应设计,进行神经网络的训练;所述一种基于深度确定性策略梯度的下行NOMA功率分配方法,对两个目标神经网络的参数更新采取“软更新”的方式,每次更新一部分,而不是完全复制两个当前神经网络的参数;通过训练神经网络,最终得到最优的功率分配策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344394.4A CN112492691B (zh) | 2020-11-26 | 2020-11-26 | 一种深度确定性策略梯度的下行noma功率分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344394.4A CN112492691B (zh) | 2020-11-26 | 2020-11-26 | 一种深度确定性策略梯度的下行noma功率分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112492691A true CN112492691A (zh) | 2021-03-12 |
CN112492691B CN112492691B (zh) | 2024-03-26 |
Family
ID=74934960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011344394.4A Active CN112492691B (zh) | 2020-11-26 | 2020-11-26 | 一种深度确定性策略梯度的下行noma功率分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112492691B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113242066A (zh) * | 2021-05-10 | 2021-08-10 | 东南大学 | 一种多小区大规模mimo通信智能功率分配方法 |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
CN114051252A (zh) * | 2021-09-28 | 2022-02-15 | 嘉兴学院 | 无线接入网中多用户智能发射功率控制方法 |
CN114466386A (zh) * | 2022-01-13 | 2022-05-10 | 重庆邮电大学 | 一种d2d通信的直接接入方法 |
CN114980293A (zh) * | 2022-05-07 | 2022-08-30 | 电子科技大学长三角研究院(湖州) | 一种面向大规模ofdm系统的智能自适应功率控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109302262A (zh) * | 2018-09-27 | 2019-02-01 | 电子科技大学 | 一种基于深度确定梯度强化学习的通信抗干扰方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN111726845A (zh) * | 2020-07-01 | 2020-09-29 | 南京大学 | 多用户异构网络系统中的基站切换选择和功率分配方法 |
CN111800828A (zh) * | 2020-06-28 | 2020-10-20 | 西北工业大学 | 一种超密集网络的移动边缘计算资源分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
-
2020
- 2020-11-26 CN CN202011344394.4A patent/CN112492691B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109302262A (zh) * | 2018-09-27 | 2019-02-01 | 电子科技大学 | 一种基于深度确定梯度强化学习的通信抗干扰方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN111800828A (zh) * | 2020-06-28 | 2020-10-20 | 西北工业大学 | 一种超密集网络的移动边缘计算资源分配方法 |
CN111726845A (zh) * | 2020-07-01 | 2020-09-29 | 南京大学 | 多用户异构网络系统中的基站切换选择和功率分配方法 |
CN111901862A (zh) * | 2020-07-07 | 2020-11-06 | 西安交通大学 | 一种基于深度q网络的用户分簇与功率分配方法、设备和介质 |
Non-Patent Citations (1)
Title |
---|
王成亮等: "基于多智能体的配电台区智能决策系统研究", 《信息技术》, no. 10 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113242066A (zh) * | 2021-05-10 | 2021-08-10 | 东南大学 | 一种多小区大规模mimo通信智能功率分配方法 |
CN113795050A (zh) * | 2021-08-20 | 2021-12-14 | 广东工业大学 | 一种基于Sum tree采样的深度双Q网络动态功率控制方法 |
CN113795050B (zh) * | 2021-08-20 | 2022-11-11 | 广东工业大学 | 一种基于Sum Tree采样的深度双Q网络动态功率控制方法 |
CN114051252A (zh) * | 2021-09-28 | 2022-02-15 | 嘉兴学院 | 无线接入网中多用户智能发射功率控制方法 |
CN114051252B (zh) * | 2021-09-28 | 2023-05-26 | 嘉兴学院 | 无线接入网中多用户智能发射功率控制方法 |
CN114466386A (zh) * | 2022-01-13 | 2022-05-10 | 重庆邮电大学 | 一种d2d通信的直接接入方法 |
CN114466386B (zh) * | 2022-01-13 | 2023-09-29 | 深圳市晨讯达科技有限公司 | 一种d2d通信的直接接入方法 |
CN114980293A (zh) * | 2022-05-07 | 2022-08-30 | 电子科技大学长三角研究院(湖州) | 一种面向大规模ofdm系统的智能自适应功率控制方法 |
CN114980293B (zh) * | 2022-05-07 | 2023-08-11 | 电子科技大学长三角研究院(湖州) | 一种面向大规模ofdm系统的智能自适应功率控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112492691B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112492691A (zh) | 一种深度确定性策略梯度的下行noma功率分配方法 | |
Liu et al. | RIS enhanced massive non-orthogonal multiple access networks: Deployment and passive beamforming design | |
Ahsan et al. | Resource allocation in uplink NOMA-IoT networks: A reinforcement-learning approach | |
CN112492686B (zh) | 一种基于深度双q网络的蜂窝网络功率分配方法 | |
CN109474980A (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN111628855A (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN113596785B (zh) | 基于深度q网络的d2d-noma通信系统资源分配方法 | |
WO2023179010A1 (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
Meng et al. | Deep reinforcement learning-based topology optimization for self-organized wireless sensor networks | |
CN116456493A (zh) | 一种基于深度强化学习算法的d2d用户资源分配方法及存储介质 | |
Purushothaman et al. | Evolutionary multi-objective optimization algorithm for resource allocation using deep neural network in 5G multi-user massive MIMO | |
Saraiva et al. | Deep reinforcement learning for QoS-constrained resource allocation in multiservice networks | |
CN114885422A (zh) | 一种超密集网络中基于混合接入方式的动态边缘计算卸载方法 | |
CN117119486B (zh) | 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法 | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
CN116321431A (zh) | 基于元学习的超参数重加权水声网络介质访问控制方法 | |
CN114449536B (zh) | 一种基于深度强化学习的5g超密集网络多用户接入选择方法 | |
CN113543271B (zh) | 一种面向有效容量的资源分配方法及系统 | |
CN115103372A (zh) | 一种基于深度强化学习的多用户mimo系统用户调度方法 | |
Zappone et al. | Complexity-aware ANN-based energy efficiency maximization | |
Chen et al. | Adaptive multi-objective reinforcement learning for pareto frontier approximation: A case study of resource allocation network in massive mimo | |
CN114980156A (zh) | 一种无蜂窝毫米波大规模mimo系统的ap开关切换方法 | |
Ali et al. | Deep-Q Reinforcement Learning for Fairness in Multiple-Access Cognitive Radio Networks | |
Moneesh et al. | Cooperative Spectrum Sensing using DQN in CRN | |
CN113840306B (zh) | 基于网络局部信息交互的分布式无线网络接入决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |