CN114885420A - 一种noma-mec系统中的用户分组和资源分配方法及装置 - Google Patents
一种noma-mec系统中的用户分组和资源分配方法及装置 Download PDFInfo
- Publication number
- CN114885420A CN114885420A CN202210282489.0A CN202210282489A CN114885420A CN 114885420 A CN114885420 A CN 114885420A CN 202210282489 A CN202210282489 A CN 202210282489A CN 114885420 A CN114885420 A CN 114885420A
- Authority
- CN
- China
- Prior art keywords
- user
- reinforcement learning
- network
- deep reinforcement
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 206010042135 Stomatitis necrotising Diseases 0.000 title claims abstract description 32
- 201000008585 noma Diseases 0.000 title claims abstract description 32
- 238000013468 resource allocation Methods 0.000 title claims abstract description 12
- 230000002787 reinforcement Effects 0.000 claims abstract description 77
- 230000009471 action Effects 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/0001—Arrangements for dividing the transmission path
- H04L5/0003—Two-dimensional division
- H04L5/0005—Time-frequency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/53—Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L5/00—Arrangements affording multiple use of the transmission path
- H04L5/003—Arrangements for allocating sub-channels of the transmission path
- H04L5/0037—Inter-user or inter-terminal allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于混合深度强化学习的NOMA‑MEC系统中的用户分组和资源分配方法及装置。本发明提出的混合深度强化学习算法利用DDPG优化连续动作和DQN优化离散动作解决了深度强化学习难以处理同时具有离散和连续动作空间的混合问题。具体地,算法根据用户的信道状态确定用户设备的带宽分配、卸载决策、子信道分配(用户分组情况),以使系统的计算速率与所耗功率之比最大化。该算法可以良好地适应环境的动态特性,有效提升系统的能量效率和频谱资源利用率。
Description
技术领域
本发明属于移动通信与深度强化学习领域,具体涉及一种基于混合深度强化学习的 NOMA-MEC系统中的计算卸载方法及装置。
背景技术
随着智能设备数量的显著增加,大量的用户设备产生大量需要处理的数据。然而由于智能设备的尺寸限制,它的计算资源和能量资源都很贫乏,这使它面临着服务需求的巨大挑战。因此为了提高任务处理效率满足服务需求,移动边缘计算(Mobile EdgeComputing,MEC)技术应运而生。此外,数据流量的爆炸性增长引起了海量接入的迫切需求和频谱资源急剧短缺问题,第五代(t he fifth generation,5G)通信中的非正交多址接入(Non-Orthogonal Multiple Access,NOMA) 技术正是解决这些问题的有效方案。因此,NOMA-MEC的技术研究近年来引起了广泛关注。
目前针对NOMA-MEC系统中用户分组和资源分配策略的研究大部分都使用传统的优化方法进行求解,例如通过迭代算法收敛得到最优解,或者通过启发式算法得到次优解。但这些方法要么计算复杂度太高,要么只能得到次优解,更重要的是缺乏对动态系统的自适应能力。
发明内容
本发明目的在于提出了一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,该方法能够在动态NOMA-MEC系统中实时调度资源使系统能效最大化。
为达到上述目的,本发明采用下述技术方案实现:
本发明提供了一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,包括以下步骤:
步骤1、描述NOMA-MEC系统,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率;
步骤3、描述优化问题;
步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间;
步骤5、构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作;
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
进一步的,描述NOMA-MEC系统的方法包括:
所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
将整个过程划分为一个个时隙,Γ={1,2,...,T};信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设 hn1<hn2<....<hnK,n∈N;
限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号;mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k 发送信号。
进一步的,步骤2定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
其中,Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同;Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行;
步骤2.3)用户i和用户j的本地执行的计算速率分别为其中fi和 fj为用户的CPU处理能力,为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi 3、pj,local=νfj 3,其中ν为用户设备芯片架构的电容有效系数;。
进一步的,步骤3优化问题描述为:
进一步的,步骤4定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK};
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ1,τ2,...,τN}为连续动作表示系统带宽分配比例, a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案;
进一步的,步骤5构建混合深度强化学习网络的方法包括:
混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络;连续层深度强化学习网络为DDPG,离散层深度强化学习网络为DQN。
进一步的,步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
步骤6.1)将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c 带宽分配比例,由DQN网络生成a_d用户分组情况;
步骤6.2)在户分组情况、带宽分配比例确定后,将最大化系统能量效率分解为最大化每个信道的能量效率Yn;
问题转化为
其中矩阵X在每个时间步初始化为零矩阵;(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1, 0)、(0,1)、(1,1),其中,x的取值就是确定卸载决策,0表示不将用户设备的计算任务卸载到边缘服务器执行,1表示卸载到边缘服务器执行,将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
进一步的,步骤7训练混合深度强化学习网络方法包括:
将(s,a_c,r,s')存储到DDPG经验池,样本(s,a_d,r,s')存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值;
DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。
第二方面,本发明提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
第三方面,本发明提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括处理器及存储介质;所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
1.本发明基于NOMA-MEC系统,提出了一种新颖的混合深度强化学习算法,该算法能够解决同时具有离散动作空间和连续动作空间的问题,并动态实时地根据系统状态决定子信道分配、计算卸载决策、带宽分配方案,以最大限度地提高系统长期能量效率。解决的主要问题是算法根据时变的信道条件决定带宽分配比例、用户分组情况、任务卸载决策;
2.本发明在NOMA-MEC场景中,使用提出的方法确定用户分组情况、计算卸载决策、带宽分配比例来最大化系统的计算速率与所耗功率之比。
3.本发明的方法可动态环境下做出最优决策,并且提出的混合深度强化学习方法可克服单一深度强化学习方法不能处理同时具有连续动作空间和离散动作空间类任务缺点。
附图说明
图1为本发明的系统网络示意图;
图2为混合深度强化学习算法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
结合图1,本实施例基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法。该方法包括以下步骤:
步骤1、描述NOMA-MEC系统,系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率。
步骤3、描述优化问题。
步骤4、定义深度强化学习的状态空间、定义深度强化学习的动作空间。
步骤5、构建混合深度强化学习网络。
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作。
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T,算法终止运行,输出此时的动作,根据构建的算法模型输出动作,动作就是本发明要优化的决策——用户分组、计算卸载、带宽分配比例。
具体的,步骤1描述NOMA-MEC系统的方法包括:
步骤1.1)所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路。系统总带宽B被分为N个正交的子信道,子信道n的带宽占总带宽的比例为τn,定义K={1,2,...,K}和 N={1,2,...,N}分别表示用户集合、正交子信道集合,K≤2N。本发明将整个过程划分为一个个时隙,Γ={1,2,...,T}。信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设hn1<hn2<....<hnK,n∈N。功率域NOMA场景下,多个用户可同时在同一个子信道中传输信号,为了避免子信道中的用户干扰过大,本发明限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号,mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k发送信号。。
具体的,步骤2定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
其中为了便于公式表达本发明省略了时隙t的描述。Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同。Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行。
步骤2.3)用户i和用户j的本地执行的计算速率分别为其中fi和 fj为用户的CPU处理能力,为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi 3、pj,local=νfj 3,其中ν为用户设备芯片架构的电容有效系数;
具体的,步骤3优化问题描述为
具体的,步骤4定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK}。
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ1,τ2,...,τN}为连续动作表示系统带宽分配比例, a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案。
具体的,步骤5构建混合深度强化学习网络的方法包括:
步骤5.1)构建混合深度强化学习网络,混合深度强化网络由两层组成。连续层深度强化学习网络为DDPG。离散层深度强化学习网络为DQN。
步骤5.2)DDPG网络由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络组成,四个网络参数依次为θDDPG、θ'DDPG、ωDDPG和ω'DDPG。Actor网络的作用是依据输入的状态输出动作决策,Critic网络的作用是估计Actor网络在某一状态下采取某一动作的价值——Q值,并指导下一状态的动作选择。DQN网络由DQN当前网络和DQN目标网络组成,两个网络的参数分别为ωDQN、ω'DQN。构建神经网络,初始化DDPG网络参数,DQN网络参数,经验池容量EDQN、ETD3。
具体的,步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c带宽分配比例,由DQN网络生成a_d用户分组情况。此时根据信道分配方案即用户分组情况mnk、带宽分配比例τnk,将最大化系统计算效率分解为最大化每个信道的计算效率Yn:
问题转化为
矩阵X在每个时间步初始化为零矩阵。(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1, 0)、(0,1)、(1,1)。将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
具体的,步骤7训练混合深度强化学习网络方法包括:
基站在状态s下,执行动作a={a_c,a_d}后得到环境反馈的即时奖励并且获取下一时隙的状态s'。将(s,a_c,r,s')存储到DDPG经验池,样本(s,a_d,r,s')存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值。
在混合深度强化学习网络运行过程中,需要不断训练网络,调整网络参数提高函数拟合能力,以使算法在动态变化的状态环境下始终能够输出合理的动作决策。
通过最小化神经网络的代价函数调整DQN当前网络的参数,代价函数如下:
其中D为从经验池中采取的样本量大小。
在DQN当前网络更新一些次数后,将DQN当前网络的权重复制给DQN目标网络。
DDPG网络各个参数的更新方式如式所示。Critic当前网络参数更新公式如下:
Actor当前网络权重的更新依赖于Critic当前网络的Q值,Actor当前网络朝着可以获得更大累计奖励的方向更新其网络参数,Actor当前网络参数的更新公式如下:
与DQN算法直接将DQN当前网络参数复制给DQN目标网络参数不同,DDPG使用软更新方式更新目标网络参数,软更新公式如下:
其中τ一般取0.001。
步骤8、重复步骤6和步骤7直到重复次数为时隙总次数T,从而停止算法运行。
综上所述,本发明建立了NOMA-MEC系统,基于混合深度强化学习提出了一种新的子信道分配、计算卸载决策、带宽分配方案,以最大限度地提高系统长期能量效率。
需要说明的是,以上所述的实施例仅是本发明的具体实施方式,但本发明的保护范围并不仅限于此。凡是基于本发明的替换、改进等,均应包括在本发明的权利要求之内。
实施例二:
本实施例提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
本实施例的装置可用于实现实施例一所述的方法。
实施例三:
本实施例提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,其特征在于,包括以下步骤:
步骤1、描述NOMA-MEC系统,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率;
步骤3、描述优化问题;
步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间;
步骤5、构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作;
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
2.根据权利要求1所述的用户分组和资源分配方法,其特征在于,描述NOMA-MEC系统的方法包括:
所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路;所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
将整个过程划分为一个个时隙,Γ={1,2,...,T};信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设hn1<hn2<....<hnK,n∈[1,N];
限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号;mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k发送信号。
3.根据权利要求2所述的用户分组和资源分配方法,其特征在于,定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
其中,Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同;Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行;
5.根据权利要求4所述的用户分组和资源分配方法,其特征在于,定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK};
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ1,τ2,...,τN}为连续动作表示系统带宽分配比例,a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案;
6.根据权利要求1所述的用户分组和资源分配方法,其特征在于,构建混合深度强化学习网络的方法包括:
混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络;连续层深度强化学习网络为DDPG,离散层深度强化学习网络为DQN。
7.根据权利要求6所述的用户分组和资源分配方法,其特征在于,将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
步骤6.1)将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c带宽分配比例,由DQN网络生成a_d用户分组情况;
步骤6.2)在户分组情况mnk、带宽分配比例τn确定后,将最大化系统能量效率分解为最大化每个信道的能量效率Yn;
问题转化为
其中矩阵X在每个时间步初始化为零矩阵;(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1,0)、(0,1)、(1,1),其中,x的取值就是确定卸载决策,0表示不将用户设备的计算任务卸载到边缘服务器执行,1表示卸载到边缘服务器执行,将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
9.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,其特征在于,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
10.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1-8任一项所述方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282489.0A CN114885420A (zh) | 2022-03-22 | 2022-03-22 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
PCT/CN2022/127173 WO2023179010A1 (zh) | 2022-03-22 | 2022-10-25 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
US18/637,313 US20240296333A1 (en) | 2022-03-22 | 2024-04-16 | Method and device for user grouping and resource allocation in noma-mec system based |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282489.0A CN114885420A (zh) | 2022-03-22 | 2022-03-22 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114885420A true CN114885420A (zh) | 2022-08-09 |
Family
ID=82668092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210282489.0A Pending CN114885420A (zh) | 2022-03-22 | 2022-03-22 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240296333A1 (zh) |
CN (1) | CN114885420A (zh) |
WO (1) | WO2023179010A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023179010A1 (zh) * | 2022-03-22 | 2023-09-28 | 南京邮电大学 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
CN117833997A (zh) * | 2024-03-01 | 2024-04-05 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
CN118075877A (zh) * | 2024-04-24 | 2024-05-24 | 南京控维通信科技有限公司 | 基于深度强化学习的noma多波束卫星通信方法 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117177275B (zh) * | 2023-11-03 | 2024-01-30 | 中国人民解放军国防科技大学 | 基于scma-mec的物联网设备计算速率优化方法 |
CN117676896B (zh) * | 2023-12-05 | 2024-09-03 | 重庆理工大学 | 基于强化学习的6G支持mIoT资源分配方法及系统 |
CN117540938B (zh) * | 2024-01-10 | 2024-05-03 | 杭州经纬信息技术股份有限公司 | 基于td3强化学习优化的集成式建筑能耗预测方法及系统 |
CN118102344A (zh) * | 2024-02-26 | 2024-05-28 | 兰州理工大学 | 基于dqn算法的noma用户分组与功率分配策略 |
CN117956523B (zh) * | 2024-03-22 | 2024-06-14 | 北京新源恒远科技发展有限公司 | 一种面向车联网边缘计算的任务处理方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111045443B (zh) * | 2018-10-11 | 2021-07-02 | 北京航空航天大学 | 无人机通信网络移动控制方法、装置、设备及存储介质 |
KR102503794B1 (ko) * | 2020-11-17 | 2023-02-23 | 조선대학교산학협력단 | 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법 |
CN112601258B (zh) * | 2020-12-07 | 2022-01-25 | 中山大学 | 一种计算迁移方法和装置 |
CN113543342B (zh) * | 2021-07-05 | 2024-03-29 | 南京信息工程大学滨江学院 | 基于noma-mec强化学习资源分配与任务卸载方法 |
CN113778691B (zh) * | 2021-11-10 | 2022-03-25 | 清华大学 | 一种任务迁移决策的方法、装置及系统 |
CN114885420A (zh) * | 2022-03-22 | 2022-08-09 | 南京邮电大学 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
-
2022
- 2022-03-22 CN CN202210282489.0A patent/CN114885420A/zh active Pending
- 2022-10-25 WO PCT/CN2022/127173 patent/WO2023179010A1/zh unknown
-
2024
- 2024-04-16 US US18/637,313 patent/US20240296333A1/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023179010A1 (zh) * | 2022-03-22 | 2023-09-28 | 南京邮电大学 | 一种noma-mec系统中的用户分组和资源分配方法及装置 |
CN117833997A (zh) * | 2024-03-01 | 2024-04-05 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
CN117833997B (zh) * | 2024-03-01 | 2024-05-31 | 南京控维通信科技有限公司 | 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法 |
CN118075877A (zh) * | 2024-04-24 | 2024-05-24 | 南京控维通信科技有限公司 | 基于深度强化学习的noma多波束卫星通信方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023179010A1 (zh) | 2023-09-28 |
US20240296333A1 (en) | 2024-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114885420A (zh) | 一种noma-mec系统中的用户分组和资源分配方法及装置 | |
CN111245651B (zh) | 一种基于功率控制和资源分配的任务卸载方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
CN111586720B (zh) | 一种多小区场景下的任务卸载和资源分配的联合优化方法 | |
Guo et al. | Online learning based computation offloading in MEC systems with communication and computation dynamics | |
Nassar et al. | Reinforcement learning for adaptive resource allocation in fog RAN for IoT with heterogeneous latency requirements | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN111372314A (zh) | 基于移动边缘计算场景下的任务卸载方法及任务卸载装置 | |
CN110798849A (zh) | 一种超密网边缘计算的计算资源分配与任务卸载方法 | |
CN109413724A (zh) | 一种基于mec的任务卸载和资源分配方案 | |
US12035380B2 (en) | Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning | |
Zhang et al. | Team learning-based resource allocation for open radio access network (O-RAN) | |
CN110233755B (zh) | 一种物联网中雾计算的计算资源和频谱资源分配方法 | |
CN113163451A (zh) | 一种基于深度强化学习的d2d通信网络切片分配方法 | |
CN112566261A (zh) | 一种基于深度强化学习的上行noma资源分配方法 | |
CN113596785A (zh) | 基于深度q网络的d2d-noma通信系统资源分配方法 | |
CN114867030A (zh) | 双时间尺度智能无线接入网切片方法 | |
CN117412391A (zh) | 一种基于增强型双深度q网络的车联网无线资源分配方法 | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
CN115103326A (zh) | 基于联盟博弈的车联网任务卸载与资源管理方法及装置 | |
Li et al. | Joint access point selection and resource allocation in MEC-assisted network: A reinforcement learning based approach | |
CN115134364B (zh) | 基于o-ran物联网系统的节能计算卸载系统及方法 | |
CN114615705B (zh) | 一种基于5g网络下单用户资源分配策略方法 | |
CN115633402A (zh) | 一种面向混合业务吞吐量优化的资源调度方法 | |
CN115499876A (zh) | Msde场景下基于dqn算法的计算卸载策略 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |