CN114885420A - 一种noma-mec系统中的用户分组和资源分配方法及装置 - Google Patents

一种noma-mec系统中的用户分组和资源分配方法及装置 Download PDF

Info

Publication number
CN114885420A
CN114885420A CN202210282489.0A CN202210282489A CN114885420A CN 114885420 A CN114885420 A CN 114885420A CN 202210282489 A CN202210282489 A CN 202210282489A CN 114885420 A CN114885420 A CN 114885420A
Authority
CN
China
Prior art keywords
user
reinforcement learning
network
deep reinforcement
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210282489.0A
Other languages
English (en)
Inventor
赵莎莎
秦立丹
张登银
孙晨辉
文清
陈瑞杰
刘雨凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210282489.0A priority Critical patent/CN114885420A/zh
Publication of CN114885420A publication Critical patent/CN114885420A/zh
Priority to PCT/CN2022/127173 priority patent/WO2023179010A1/zh
Priority to US18/637,313 priority patent/US20240296333A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/0001Arrangements for dividing the transmission path
    • H04L5/0003Two-dimensional division
    • H04L5/0005Time-frequency
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L5/00Arrangements affording multiple use of the transmission path
    • H04L5/003Arrangements for allocating sub-channels of the transmission path
    • H04L5/0037Inter-user or inter-terminal allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于混合深度强化学习的NOMA‑MEC系统中的用户分组和资源分配方法及装置。本发明提出的混合深度强化学习算法利用DDPG优化连续动作和DQN优化离散动作解决了深度强化学习难以处理同时具有离散和连续动作空间的混合问题。具体地,算法根据用户的信道状态确定用户设备的带宽分配、卸载决策、子信道分配(用户分组情况),以使系统的计算速率与所耗功率之比最大化。该算法可以良好地适应环境的动态特性,有效提升系统的能量效率和频谱资源利用率。

Description

一种NOMA-MEC系统中的用户分组和资源分配方法及装置
技术领域
本发明属于移动通信与深度强化学习领域,具体涉及一种基于混合深度强化学习的 NOMA-MEC系统中的计算卸载方法及装置。
背景技术
随着智能设备数量的显著增加,大量的用户设备产生大量需要处理的数据。然而由于智能设备的尺寸限制,它的计算资源和能量资源都很贫乏,这使它面临着服务需求的巨大挑战。因此为了提高任务处理效率满足服务需求,移动边缘计算(Mobile EdgeComputing,MEC)技术应运而生。此外,数据流量的爆炸性增长引起了海量接入的迫切需求和频谱资源急剧短缺问题,第五代(t he fifth generation,5G)通信中的非正交多址接入(Non-Orthogonal Multiple Access,NOMA) 技术正是解决这些问题的有效方案。因此,NOMA-MEC的技术研究近年来引起了广泛关注。
目前针对NOMA-MEC系统中用户分组和资源分配策略的研究大部分都使用传统的优化方法进行求解,例如通过迭代算法收敛得到最优解,或者通过启发式算法得到次优解。但这些方法要么计算复杂度太高,要么只能得到次优解,更重要的是缺乏对动态系统的自适应能力。
发明内容
本发明目的在于提出了一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,该方法能够在动态NOMA-MEC系统中实时调度资源使系统能效最大化。
为达到上述目的,本发明采用下述技术方案实现:
本发明提供了一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,包括以下步骤:
步骤1、描述NOMA-MEC系统,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率;
步骤3、描述优化问题;
步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间;
步骤5、构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作;
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
进一步的,描述NOMA-MEC系统的方法包括:
所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
将系统总带宽B被分为N个正交的子信道,子信道n的带宽占总带宽的比例为τn
Figure RE-GDA0003689125270000021
定义K={1,2,...,K}和N={1,2,...,N}分别表示用户集合、正交子信道集合,K≤2N;
将整个过程划分为一个个时隙,Γ={1,2,...,T};信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设 hn1<hn2<....<hnK,n∈N;
限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号;mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k 发送信号。
进一步的,步骤2定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
Figure RE-GDA0003689125270000022
其中,Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同;Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行;
步骤2.2)因为信道n上用户i的信道增益hni大于用户j的信道增益hnj;根据串行干扰消除技术,基站按照用户的信道增益降序解码,则用户i的卸载速率
Figure RE-GDA0003689125270000023
用户j的卸载速率
Figure RE-GDA0003689125270000024
其中N0为噪声的功率谱密度,
步骤2.3)用户i和用户j的本地执行的计算速率分别为
Figure RE-GDA0003689125270000031
其中fi和 fj为用户的CPU处理能力,
Figure RE-GDA0003689125270000032
为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi 3、pj,local=νfj 3,其中ν为用户设备芯片架构的电容有效系数;。
进一步的,步骤3优化问题描述为:
Figure RE-GDA0003689125270000033
s.t.C1:xnk∈{0,1},mnk∈{0,1},
Figure RE-GDA0003689125270000034
C2:
Figure RE-GDA0003689125270000035
C3:
Figure RE-GDA0003689125270000036
C4:
Figure RE-GDA0003689125270000037
进一步的,步骤4定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK};
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ12,...,τN}为连续动作表示系统带宽分配比例, a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案;
进一步的,步骤5构建混合深度强化学习网络的方法包括:
混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络;连续层深度强化学习网络为DDPG,离散层深度强化学习网络为DQN。
进一步的,步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
步骤6.1)将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c 带宽分配比例,由DQN网络生成a_d用户分组情况;
步骤6.2)在户分组情况、带宽分配比例确定后,将最大化系统能量效率分解为最大化每个信道的能量效率Yn
问题转化为
Figure RE-GDA0003689125270000041
其中矩阵X在每个时间步初始化为零矩阵;(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1, 0)、(0,1)、(1,1),其中,x的取值就是确定卸载决策,0表示不将用户设备的计算任务卸载到边缘服务器执行,1表示卸载到边缘服务器执行,将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
进一步的,步骤7训练混合深度强化学习网络方法包括:
基站在状态s下,执行动作a=(a_c,a_d)后得到环境反馈的即时奖励
Figure RE-GDA0003689125270000042
并且获取下一时隙的状态s';
将(s,a_c,r,s')存储到DDPG经验池,样本(s,a_d,r,s')存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值;
DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。
第二方面,本发明提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
第三方面,本发明提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括处理器及存储介质;所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行第一方面所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
1.本发明基于NOMA-MEC系统,提出了一种新颖的混合深度强化学习算法,该算法能够解决同时具有离散动作空间和连续动作空间的问题,并动态实时地根据系统状态决定子信道分配、计算卸载决策、带宽分配方案,以最大限度地提高系统长期能量效率。解决的主要问题是算法根据时变的信道条件决定带宽分配比例、用户分组情况、任务卸载决策;
2.本发明在NOMA-MEC场景中,使用提出的方法确定用户分组情况、计算卸载决策、带宽分配比例来最大化系统的计算速率与所耗功率之比。
3.本发明的方法可动态环境下做出最优决策,并且提出的混合深度强化学习方法可克服单一深度强化学习方法不能处理同时具有连续动作空间和离散动作空间类任务缺点。
附图说明
图1为本发明的系统网络示意图;
图2为混合深度强化学习算法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
结合图1,本实施例基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法。该方法包括以下步骤:
步骤1、描述NOMA-MEC系统,系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率。
步骤3、描述优化问题。
步骤4、定义深度强化学习的状态空间、定义深度强化学习的动作空间。
步骤5、构建混合深度强化学习网络。
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作。
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T,算法终止运行,输出此时的动作,根据构建的算法模型输出动作,动作就是本发明要优化的决策——用户分组、计算卸载、带宽分配比例。
具体的,步骤1描述NOMA-MEC系统的方法包括:
步骤1.1)所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路。系统总带宽B被分为N个正交的子信道,子信道n的带宽占总带宽的比例为τn
Figure RE-GDA0003689125270000061
定义K={1,2,...,K}和 N={1,2,...,N}分别表示用户集合、正交子信道集合,K≤2N。本发明将整个过程划分为一个个时隙,Γ={1,2,...,T}。信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设hn1<hn2<....<hnK,n∈N。功率域NOMA场景下,多个用户可同时在同一个子信道中传输信号,为了避免子信道中的用户干扰过大,本发明限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号,mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k发送信号。。
具体的,步骤2定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
Figure RE-GDA0003689125270000062
其中为了便于公式表达本发明省略了时隙t的描述。Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同。Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行。
步骤2.2)因为信道n上用户i的信道增益hni大于用户j的信道增益hnj。根据串行干扰消除技术,基站按照用户的信道增益降序解码,则用户i的卸载速率
Figure RE-GDA0003689125270000063
用户j的卸载速率
Figure RE-GDA0003689125270000064
其中N0为噪声的功率谱密度。
步骤2.3)用户i和用户j的本地执行的计算速率分别为
Figure RE-GDA0003689125270000065
其中fi和 fj为用户的CPU处理能力,
Figure RE-GDA0003689125270000066
为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi 3、pj,local=νfj 3,其中ν为用户设备芯片架构的电容有效系数;
具体的,步骤3优化问题描述为
Figure RE-GDA0003689125270000071
s.t.C1:xnk∈{0,1},mnk∈{0,1},
Figure RE-GDA0003689125270000072
C2:
Figure RE-GDA0003689125270000073
C3:
Figure RE-GDA0003689125270000074
C4:
Figure RE-GDA0003689125270000075
具体的,步骤4定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK}。
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ12,...,τN}为连续动作表示系统带宽分配比例, a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案。
具体的,步骤5构建混合深度强化学习网络的方法包括:
步骤5.1)构建混合深度强化学习网络,混合深度强化网络由两层组成。连续层深度强化学习网络为DDPG。离散层深度强化学习网络为DQN。
步骤5.2)DDPG网络由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络组成,四个网络参数依次为θDDPG、θ'DDPG、ωDDPG和ω'DDPG。Actor网络的作用是依据输入的状态输出动作决策,Critic网络的作用是估计Actor网络在某一状态下采取某一动作的价值——Q值,并指导下一状态的动作选择。DQN网络由DQN当前网络和DQN目标网络组成,两个网络的参数分别为ωDQN、ω'DQN。构建神经网络,初始化DDPG网络参数,DQN网络参数,经验池容量EDQN、ETD3
具体的,步骤6将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c带宽分配比例,由DQN网络生成a_d用户分组情况。此时根据信道分配方案即用户分组情况mnk、带宽分配比例τnk,将最大化系统计算效率分解为最大化每个信道的计算效率Yn
问题转化为
Figure RE-GDA0003689125270000081
矩阵X在每个时间步初始化为零矩阵。(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1, 0)、(0,1)、(1,1)。将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
具体的,步骤7训练混合深度强化学习网络方法包括:
基站在状态s下,执行动作a={a_c,a_d}后得到环境反馈的即时奖励
Figure RE-GDA0003689125270000082
并且获取下一时隙的状态s'。将(s,a_c,r,s')存储到DDPG经验池,样本(s,a_d,r,s')存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值。
在混合深度强化学习网络运行过程中,需要不断训练网络,调整网络参数提高函数拟合能力,以使算法在动态变化的状态环境下始终能够输出合理的动作决策。
通过最小化神经网络的代价函数调整DQN当前网络的参数,代价函数如下:
Figure RE-GDA0003689125270000083
其中D为从经验池中采取的样本量大小。
在DQN当前网络更新一些次数后,将DQN当前网络的权重复制给DQN目标网络。
DDPG网络各个参数的更新方式如式所示。Critic当前网络参数更新公式如下:
Figure RE-GDA0003689125270000084
Figure RE-GDA0003689125270000085
Actor当前网络权重的更新依赖于Critic当前网络的Q值,Actor当前网络朝着可以获得更大累计奖励的方向更新其网络参数,Actor当前网络参数的更新公式如下:
Figure RE-GDA0003689125270000086
与DQN算法直接将DQN当前网络参数复制给DQN目标网络参数不同,DDPG使用软更新方式更新目标网络参数,软更新公式如下:
Figure RE-GDA0003689125270000091
其中τ一般取0.001。
步骤8、重复步骤6和步骤7直到重复次数为时隙总次数T,从而停止算法运行。
综上所述,本发明建立了NOMA-MEC系统,基于混合深度强化学习提出了一种新的子信道分配、计算卸载决策、带宽分配方案,以最大限度地提高系统长期能量效率。
需要说明的是,以上所述的实施例仅是本发明的具体实施方式,但本发明的保护范围并不仅限于此。凡是基于本发明的替换、改进等,均应包括在本发明的权利要求之内。
实施例二:
本实施例提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
本实施例的装置可用于实现实施例一所述的方法。
实施例三:
本实施例提供一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配方法,其特征在于,包括以下步骤:
步骤1、描述NOMA-MEC系统,所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
步骤2、定义该系统的能量效率;
步骤3、描述优化问题;
步骤4、定义深度强化学习的状态空间、深度强化学习的动作空间;
步骤5、构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
步骤6、将每一个时隙状态输入混合深度强化学习网络生成动作;
步骤7、训练混合深度强化学习网络;
步骤8、重复步骤6和步骤7直到重复次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
2.根据权利要求1所述的用户分组和资源分配方法,其特征在于,描述NOMA-MEC系统的方法包括:
所述NOMA-MEC系统由K个用户设备和一个与边缘服务器相连的单天线基站组成,并且所有用户都只有单个发射天线与基站建立通信链路;所述系统以时隙方式运行,时隙集合记为Γ={1,2,...,T};
将系统总带宽B被分为N个正交的子信道,子信道n的带宽占总带宽的比例为τn
Figure FDA0003558362380000011
定义K={1,2,...,K}和N={1,2,...,N}分别表示用户集合、正交子信道集合,K≤2N;
将整个过程划分为一个个时隙,Γ={1,2,...,T};信道增益在一个时隙的时间段内保持不变,在不同时隙间变化,hnk,n∈N,k∈K表示信道n上用户k到基站的信道增益,并且设hn1<hn2<....<hnK,n∈[1,N];
限制一个信道最多可供两个用户信号同时传输,并且用户在一个时隙内只在一条信道上发送信号;mnk=1表示信道n分配给用户k发送信号,mnk=0表示信道n并不分配给用户k发送信号。
3.根据权利要求2所述的用户分组和资源分配方法,其特征在于,定义该系统的能量效率的方法包括:
步骤2.1)该系统的能量效率Y定义为所有用户计算速率与计算功率比值的和,如以下公式:
Figure FDA0003558362380000021
其中,Ri,off表示用户i将计算任务卸载到边缘服务器执行的计算速率,pi为用户i的发送功率,其不随时间变化,并且所有用户的发射功率相同;Ri,local表示用户i本地执行任务的计算速率,pi,local表示用户i本地执行的功率,xni=1代表用户i通过信道n卸载任务到边缘服务器执行,xni=0代表用户i不通过信道卸载任务到边缘服务器执行;
步骤2.2)因为信道n上用户i的信道增益hni大于用户j的信道增益hnj;根据串行干扰消除技术,基站按照用户的信道增益降序解码,则用户i的卸载速率
Figure FDA0003558362380000022
用户j的卸载速率
Figure FDA0003558362380000023
其中N0为噪声的功率谱密度;
步骤2.3)用户i和用户j的本地执行的计算速率分别为
Figure FDA0003558362380000024
其中fi和fj为用户的CPU处理能力,
Figure FDA0003558362380000025
为处理1bit任务所需的周期数;用户i和用户j本地执行的计算功率分别为pi,local=νfi 3、pj,local=νfj 3,其中ν为用户设备芯片架构的电容有效系数;
4.根据权利要求1所述的用户分组和资源分配方法,其特征在于,优化问题描述为:(斌给把其中删了)
Figure FDA0003558362380000026
s.t.C1:
Figure FDA0003558362380000027
C2:
Figure FDA0003558362380000028
C3:
Figure FDA0003558362380000029
C4:
Figure FDA00035583623800000210
5.根据权利要求4所述的用户分组和资源分配方法,其特征在于,定义深度强化学习的状态空间、动作空间的方法包括:
步骤4.1)所述状态空间s,s={h11,h12,...h1K,h21,h22,...,h2K,hN1...hNK};
步骤4.2)所述动作空间a由两阶段组成,a={a_c,a_d},其中a_c={τ12,...,τN}为连续动作表示系统带宽分配比例,a_d={m11,m12,...,m1K,...,mN1,mN2,...,mNK,x11,x12,...,x1K,...,xN1,xN2,...,xNK}为离散动作表示子信道分配方案;
6.根据权利要求1所述的用户分组和资源分配方法,其特征在于,构建混合深度强化学习网络的方法包括:
混合深度强化网络包括连续层深度强化学习网络和离散层深度强化学习网络;连续层深度强化学习网络为DDPG,离散层深度强化学习网络为DQN。
7.根据权利要求6所述的用户分组和资源分配方法,其特征在于,将每一个时隙状态输入混合深度强化学习网络生成动作的方法包括:
步骤6.1)将系统状态输入到混合深度强化学习网络中,由DDPG的Actor网络生成a_c带宽分配比例,由DQN网络生成a_d用户分组情况;
步骤6.2)在户分组情况mnk、带宽分配比例τn确定后,将最大化系统能量效率分解为最大化每个信道的能量效率Yn
问题转化为
Figure FDA0003558362380000031
其中矩阵X在每个时间步初始化为零矩阵;(xn,i,xn,j)有4种取值可能,分别为(0,0)、(1,0)、(0,1)、(1,1),其中,x的取值就是确定卸载决策,0表示不将用户设备的计算任务卸载到边缘服务器执行,1表示卸载到边缘服务器执行,将4种组合分别代入上式,选择使Yn最大的组合,重置X对应位置的值。
8.根据权利要求7所述的用户分组和资源分配方法,其特征在于,训练混合深度强化学习网络方法包括:
基站在状态s下,执行动作a={a_c,a_d}后得到环境反馈的即时奖励
Figure FDA0003558362380000032
并且获取下一时隙的状态s';
将(s,a_c,r,s')存储到DDPG经验池,样本(s,a_d,r,s')存储到DQN经验池,DDPG网络和DQN网络共享状态和奖励值;
DDPG网络和DQN网络从经验池采样D个样本训练更新自身参数。
9.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,其特征在于,包括以下步骤:
系统描述模块:用于描述NOMA-MEC系统;
效率定义模块:用于定义该系统的能量效率;
问题描述模块:用于描述优化问题;
空间定义模块:用于定义深度强化学习的状态空间、深度强化学习的动作空间;
网络构建模块:用于构建混合深度强化学习网络;所述网络的输入是状态,输出是动作;
动作生成模块:用于将每一个时隙状态输入混合深度强化学习网络生成动作;
网络训练模块:用于训练混合深度强化学习网络;
输出模块:重复训练次数达到规定的时隙次数T后,输出此时生成的动作,即要优化的决策:用户分组、计算卸载、带宽分配比例。
10.一种基于混合深度强化学习的NOMA-MEC系统中的用户分组和资源分配装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1-8任一项所述方法的步骤。
CN202210282489.0A 2022-03-22 2022-03-22 一种noma-mec系统中的用户分组和资源分配方法及装置 Pending CN114885420A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210282489.0A CN114885420A (zh) 2022-03-22 2022-03-22 一种noma-mec系统中的用户分组和资源分配方法及装置
PCT/CN2022/127173 WO2023179010A1 (zh) 2022-03-22 2022-10-25 一种noma-mec系统中的用户分组和资源分配方法及装置
US18/637,313 US20240296333A1 (en) 2022-03-22 2024-04-16 Method and device for user grouping and resource allocation in noma-mec system based

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210282489.0A CN114885420A (zh) 2022-03-22 2022-03-22 一种noma-mec系统中的用户分组和资源分配方法及装置

Publications (1)

Publication Number Publication Date
CN114885420A true CN114885420A (zh) 2022-08-09

Family

ID=82668092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210282489.0A Pending CN114885420A (zh) 2022-03-22 2022-03-22 一种noma-mec系统中的用户分组和资源分配方法及装置

Country Status (3)

Country Link
US (1) US20240296333A1 (zh)
CN (1) CN114885420A (zh)
WO (1) WO2023179010A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec系统中的用户分组和资源分配方法及装置
CN117833997A (zh) * 2024-03-01 2024-04-05 南京控维通信科技有限公司 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法
CN118075877A (zh) * 2024-04-24 2024-05-24 南京控维通信科技有限公司 基于深度强化学习的noma多波束卫星通信方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117177275B (zh) * 2023-11-03 2024-01-30 中国人民解放军国防科技大学 基于scma-mec的物联网设备计算速率优化方法
CN117676896B (zh) * 2023-12-05 2024-09-03 重庆理工大学 基于强化学习的6G支持mIoT资源分配方法及系统
CN117540938B (zh) * 2024-01-10 2024-05-03 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统
CN118102344A (zh) * 2024-02-26 2024-05-28 兰州理工大学 基于dqn算法的noma用户分组与功率分配策略
CN117956523B (zh) * 2024-03-22 2024-06-14 北京新源恒远科技发展有限公司 一种面向车联网边缘计算的任务处理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111045443B (zh) * 2018-10-11 2021-07-02 北京航空航天大学 无人机通信网络移动控制方法、装置、设备及存储介质
KR102503794B1 (ko) * 2020-11-17 2023-02-23 조선대학교산학협력단 사용자 클러스터링 및 강화학습 기반 전송전력 할당 방법
CN112601258B (zh) * 2020-12-07 2022-01-25 中山大学 一种计算迁移方法和装置
CN113543342B (zh) * 2021-07-05 2024-03-29 南京信息工程大学滨江学院 基于noma-mec强化学习资源分配与任务卸载方法
CN113778691B (zh) * 2021-11-10 2022-03-25 清华大学 一种任务迁移决策的方法、装置及系统
CN114885420A (zh) * 2022-03-22 2022-08-09 南京邮电大学 一种noma-mec系统中的用户分组和资源分配方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec系统中的用户分组和资源分配方法及装置
CN117833997A (zh) * 2024-03-01 2024-04-05 南京控维通信科技有限公司 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法
CN117833997B (zh) * 2024-03-01 2024-05-31 南京控维通信科技有限公司 一种基于强化学习的noma多波束卫星通信系统多维资源分配方法
CN118075877A (zh) * 2024-04-24 2024-05-24 南京控维通信科技有限公司 基于深度强化学习的noma多波束卫星通信方法

Also Published As

Publication number Publication date
WO2023179010A1 (zh) 2023-09-28
US20240296333A1 (en) 2024-09-05

Similar Documents

Publication Publication Date Title
CN114885420A (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN111245651B (zh) 一种基于功率控制和资源分配的任务卸载方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
CN111586720B (zh) 一种多小区场景下的任务卸载和资源分配的联合优化方法
Guo et al. Online learning based computation offloading in MEC systems with communication and computation dynamics
Nassar et al. Reinforcement learning for adaptive resource allocation in fog RAN for IoT with heterogeneous latency requirements
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111372314A (zh) 基于移动边缘计算场景下的任务卸载方法及任务卸载装置
CN110798849A (zh) 一种超密网边缘计算的计算资源分配与任务卸载方法
CN109413724A (zh) 一种基于mec的任务卸载和资源分配方案
US12035380B2 (en) Industrial 5G dynamic multi-priority multi-access method based on deep reinforcement learning
Zhang et al. Team learning-based resource allocation for open radio access network (O-RAN)
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN113163451A (zh) 一种基于深度强化学习的d2d通信网络切片分配方法
CN112566261A (zh) 一种基于深度强化学习的上行noma资源分配方法
CN113596785A (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN114867030A (zh) 双时间尺度智能无线接入网切片方法
CN117412391A (zh) 一种基于增强型双深度q网络的车联网无线资源分配方法
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN115103326A (zh) 基于联盟博弈的车联网任务卸载与资源管理方法及装置
Li et al. Joint access point selection and resource allocation in MEC-assisted network: A reinforcement learning based approach
CN115134364B (zh) 基于o-ran物联网系统的节能计算卸载系统及方法
CN114615705B (zh) 一种基于5g网络下单用户资源分配策略方法
CN115633402A (zh) 一种面向混合业务吞吐量优化的资源调度方法
CN115499876A (zh) Msde场景下基于dqn算法的计算卸载策略

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination