CN117519995B - 一种星地网络移动边缘计算资源分配方法 - Google Patents

一种星地网络移动边缘计算资源分配方法 Download PDF

Info

Publication number
CN117519995B
CN117519995B CN202410017465.1A CN202410017465A CN117519995B CN 117519995 B CN117519995 B CN 117519995B CN 202410017465 A CN202410017465 A CN 202410017465A CN 117519995 B CN117519995 B CN 117519995B
Authority
CN
China
Prior art keywords
mec server
user
satellite
task
ground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410017465.1A
Other languages
English (en)
Other versions
CN117519995A (zh
Inventor
王鹤蒙
沈建华
王钦超
薛海鹏
叶玉丹
抗万生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ARMY COMMAND INST CPLA
Original Assignee
ARMY COMMAND INST CPLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARMY COMMAND INST CPLA filed Critical ARMY COMMAND INST CPLA
Priority to CN202410017465.1A priority Critical patent/CN117519995B/zh
Publication of CN117519995A publication Critical patent/CN117519995A/zh
Application granted granted Critical
Publication of CN117519995B publication Critical patent/CN117519995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0925Management thereof using policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • H04W28/09Management thereof
    • H04W28/0958Management thereof based on metrics or performance parameters
    • H04W28/0967Quality of Service [QoS] parameters
    • H04W28/0975Quality of Service [QoS] parameters for reducing delays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/06Airborne or Satellite Networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Radio Relay Systems (AREA)

Abstract

本发明公开了一种星地网络移动边缘计算资源分配方法,包括获取用户的计算任务,将计算任务按照预定分配比例发送给本地、地面MEC服务器和卫星MEC服务器,构建星地网络计算任务卸载的系统模型;基于系统模型,计算服务时延和系统开销;构建星地网络计算任务卸载的优化问题;基于优化问题,构建星地网络计算任务卸载的深度强化学习模型;采用QDQN算法,对深度强化学习模型进行训练,获取总回报值,重复该过程,直到收敛,执行训练好的深度强化学习模型,得出最终的计算任务分配策略。本发明有效地减少数据传输和任务计算所需的时间和资源,从而提高任务调度效率,同时降低了计算成本和通信开销。

Description

一种星地网络移动边缘计算资源分配方法
技术领域
本发明涉及星地网络资源分配技术,特别是星地网络移动边缘计算资源分配方法,比如采用基于四元深度Q网络(Quadruple DQN,QDQN)或D3QN的星地网络移动边缘计算资源分配方法。
背景技术
随着通信网络技术的不断发展,传统的地面通信已经无法满足无处不在的服务需求。卫星通信具有覆盖范围广、受自然灾害影响小等优势,因此,将卫星网络与地面通信网络相结合的星地网络已成为通信网络的发展趋势。
计算资源分配方法是星地网络中的一个重要环节。现有的星地网络移动边缘计算资源分配方法,缺少对数据传输和任务调度的联合优化,计算任务分配不均衡,资源浪费,使得数据传输的效率和计算效率都较低。
发明内容
发明目的,提供一种星地网络移动边缘计算资源分配方法,以解决现有技术存在的上述问题。
技术方案:一种星地网络移动边缘计算资源分配方法,包括以下步骤:
S1、获取用户的计算任务,将计算任务按照预定分配比例发送给本地、地面MEC服务器和卫星MEC服务器,构建星地网络计算任务卸载的系统模型;
S2、基于系统模型,计算本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销;
S3、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销,构建星地网络计算任务卸载的优化问题;
S4、基于优化问题,定义星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型;
S5、采用QDQN算法,对深度强化学习模型进行训练,获取总回报值,重复该过程,直到收敛,执行训练好的深度强化学习模型,得出最终的计算任务分配策略,其中QDQN算法为联合运用双深度Q网络、竞争网络、优先经验回放和多步学习机制的算法。
根据本申请的一个方面,步骤S1具体为:
S11、获取用户的计算任务,通过终端设备向星地网络发送计算任务请求;
S12、基于计算任务请求,获取星地网络的信道状态,确定本地、地面MEC服务器和卫星MEC服务器的分配比例;
S13、按照分配比例,将计算任务发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S14、基于分配比例和传输速率,构建星地网络计算任务卸载的系统模型。
根据本申请的一个方面,步骤S2具体为:
S21、基于系统模型,获取分配给本地的计算任务比例,计算本地的服务时延和系统开销;
S22、基于系统模型,获取分配给地面MEC服务器的计算任务比例和用户到地面MEC服务器的传输速率,计算地面MEC服务器的计算时延和传输时延,相加得到地面MEC服务器的服务时延,计算地面MEC服务器的传输开销和等待开销,相加得到地面MEC服务器的系统开销;
S23、基于系统模型,获取分配给卫星MEC服务器的计算任务比例和用户到卫星MEC服务器的传输速率,计算卫星MEC服务器的计算时延和传输时延,相加得到卫星MEC服务器的服务时延,计算卫星MEC服务器的传输开销和等待开销,相加得到卫星MEC服务器的系统开销;
根据本申请的一个方面,步骤S3具体为:
S31、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销;
S32、根据总服务时延和总系统开销,计算总服务时延和总系统开销的加权和,以最小化总服务时延和总系统开销的加权和为目标函数;
S33、基于总服务时延和总系统开销,设定最大时延门限值和最大开销门限值,将其作为约束条件;
S34、基于目标函数和约束条件,构建星地网络计算任务卸载的优化问题。
根据本申请的一个方面,步骤S4具体为:
S41、基于优化问题,获取计算任务的卸载情况,定义为星地网络计算任务卸载的状态;
S42、基于优化问题,获取计算任务的分配策略,定义为星地网络计算任务卸载的动作;
S43、基于优化问题,获取总服务时延和总系统开销的加权和,构建奖励收益函数,定义为星地网络计算任务卸载的奖励;
S44、根据星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型。
根据本申请的一个方面,步骤S5具体为:
S51、采用优先经验回放机制获取经验数据,基于经验数据,采用多步学习机制计算估计目标值;
S52、采用双深度Q网络机制,构建价值网络和目标网络,分别在价值网络和目标网络中,采用竞争网络机制,构建价值函数和优势函数,基于经验数据,计算输出Q值;
S53、基于估计目标值和输出Q值构建损失函数,采用随机梯度下降法最小化损失函数,计算QDQN算法的总回报值;
S54、判断总回报值是否达到预设的总回报阈值,若否,返回步骤S51,若是,结束训练,得到训练好的深度强化学习模型;
S55、执行训练好的深度强化学习模型,获取状态信息,计算得出最终的计算任务分配策略。
根据本申请的一个方面,步骤S2具体为:
本地处理的服务时延公式为:
tm 0=um 0xm/cm
其中tm 0表示用户m本地处理的服务时延,xm表示用户m的总计算任务量,cm表示用户m本地的计算资源量,um 0表示用户m本地处理的计算任务比例,um 0∈[0,1];
本地处理的系统开销公式为:
esm 0=δum 0xm(cm2
其中δ为一个常量,esm 0为用户m本地处理的用户开销;
当卸载到地面MEC服务器时,用户卸载计算任务到地面MEC服务器的服务延迟公式为:
tm n=um nxm/Cn m+ um ndm/Rn m
其中,um n表示用户m卸载到地面MEC服务器n的计算任务比例,um n∈[0,1],dm表示用户m的总计算任务传输数据量,Rn m表示用户m到地面MEC服务器n的传输速率,Cn m为地面MEC服务器n给用户m分配的计算资源量具体为:
Cn m=um nxm/(∑m=1 Mum nxm) ×Cn
其中,Cn为地面MEC服务器n的计算资源量,用户集合为M,M={1,2,3,…,M},
用户卸载至地面MEC服务器时的传输开销为:
esm n,tran=p(um ndm/ Rn m)
其中,p为用户传输功率;
用户卸载至地面MEC服务器时的等待开销为:
esm n,wait=pt(um nxm/ Cn m
其中,pt为用户待机功率;
因此用户卸载计算任务到地面MEC服务器的系统开销公式为:
esm n= esm n,tran+ esm n,wait
当卸载到卫星MEC服务器时,用户卸载计算任务到卫星MEC服务器的服务延迟公式为:
tm k=um kxm/Ck m+ um kxm/Rk m+(Sm k/c)×2
其中,um k表示用户m卸载到卫星MEC服务器k的计算任务比例,um k∈[0,1],Rk m表示用户m到卫星MEC服务器k的传输速率,Sm k表示卫星与用户之间的距离,c为光速,Sm k/c表示链路传播时延,Ck m表示卫星MEC服务器k给用户m分配的计算资源量,具体为:
Ck m= um kxm/(∑m=1 Mum kxm) ×Ck
其中,Ck为卫星MEC服务器k的计算资源量,
用户卸载至卫星MEC服务器时的传输开销为:
esm k,tran=p[(um kdm/ Rk m)+ (Sm k/c)]
用户卸载至卫星MEC服务器时的等待开销为:
esm k,wait=pt(um kxm/ Ck m
因此用户卸载计算任务到卫星MEC服务器的系统开销公式为:
esm k= esm k,tran+ esm k,wait
根据本申请的一个方面,步骤S3具体为:
用户m的总计算任务服务时延tm为本地服务时延、地面MEC服务器服务时延和卫星MEC服务器服务时延的最大值,具体表达式为:
tm=max{tm 0, tm n, tm k},n∈N,k∈K
其中地面MEC服务器的集合为N,N={1,2,3,…,N},卫星MEC服务器的集合为K,K={1,2,3,…,K},
总服务时延为所有用户的总计算任务服务时延之和,具体表示为:
T=∑m=1 Mtm
用户m的总计算任务系统开销esm为本地系统开销、卸载到地面MEC服务器的系统开销和卸载到卫星MEC服务器的系统开销之和,具体表达式为:
esm= esm 0+∑N esm n+∑Kesm k
总系统开销为所有用户的总计算任务系统开销之和,具体表示为:
ES=∑m=1 Mesm
提出优化问题如下:
目标函数:min(aT+bES)
约束条件:c1:∑i=0 N+Kum i=1,"m∈M
c2:tm≤tm threshold,"m∈M
c3:esm≤esm max
其中,a和b为加权系数,a为服务时延的加权系数,b为系统开销的加权系数;约束条件c1表示保证每个用户无论通过本地、地面MEC服务器或卫星MEC服务器卸载处理,均完成了所有的计算任务,约束条件c2表示每个用户的总计算任务服务时延均应小于预先设定的最大时延门限值tm threshold,约束条件c3表示每个用户的总计算任务系统开销均应小于预先设定的最大开销门限值esm max
根据本申请的一个方面,所述步骤S11中获取用户计算任务的过程还包括:
步骤S111、获取计算任务并划分为多个子计算任务,并根据子计算任务的任务特征,为每个子计算任务分配优先级;
步骤S112、将子计算任务的数据和代码进行压缩;
步骤S113、利用SSL卸载模块,对子计算任务的数据和代码进行加密;
步骤S114、根据子计算任务的目标执行方,选择预定的传输协议和格式,将子任务的数据和代码封装成数据包,添加相应的头部信息;通过终端设备向星地网络发送计算任务请求。
根据本申请的一个方面,所述步骤S14中构建星地网络计算任务卸载的系统模型,具体包括如下步骤:
步骤S141、获取至少一个周期内的各个子计算任务,并读取星地网络的节点信息和网络环境信息;所述节点信息包括位置、速度、方向、能量、计算能力和通信能力;所述网络环境信息包括信道状态、干扰和延迟;
步骤S142、将星地网络中的节点和边抽象为图的顶点和边,用邻接矩阵或邻接表表示图的结构,用顶点集和边集表示图的属性,构建星地网络计算任务的时空动态拓扑图;
步骤S143、查找时空动态拓扑图中的相似图,计算相似度大小,将相似度大于阈值的时空动态拓扑图聚为一类。
根据本申请的一个方面,步骤S1还可以为:
S1a、获取用户的计算任务,采用RSA算法对计算任务进行加密,得到密文;
S1b、获取本地、地面MEC服务器和卫星MEC服务器的计算资源量,根据计算资源量确定计算任务的分配比例;
S1c、将密文按照确定的分配比例发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S1d、基于分配比例和传输速率,构建星地网络计算任务卸载的系统模型。
根据本申请的一个方面,还包括:
S6、基于最终的计算任务分配策略,将计算任务分别分配给本地、地面MEC服务器和卫星MEC服务器,获取计算结果,对计算结果进行评估,展示最终的计算任务分配策略的合理性。
有益效果:本发明提出了一种星地网络移动边缘计算资源分配方法,通过最小化总服务时延和总系统开销的加权和,有效地减少数据传输和任务计算所需的时间和资源,从而提高任务调度效率,同时降低了计算成本和通信开销。
附图说明
图1为本发明的流程图。
图2为本发明步骤S1的流程图。
图3为本发明步骤S3的流程图。
图4为本发明步骤S4的流程图。
图5为本发明步骤S5的流程图。
图6为本发明实施例提供的星地网络移动边缘计算资源分配方法的流程图。
图7为本发明实施例提供的星地网络移动边缘计算资源分配方法的网络结构示意图。
具体实施方式
在一些场景中,由于计算任务的规模和复杂性急剧增加,而本地用户计算能力有限,已经无法满足大规模数据处理和分析的需求。因此,研究人员开始探索将计算任务卸载到位于网络边缘的计算节点上进行处理的多接入边缘计算(Multi-access EdgeComputing, MEC)。其主要目的是将分布在不同地理位置计算节点上的计算任务卸载到高性能计算中心进行处理,以有效提高计算效率和降低时延。这一过程涉及到大量的数据传输和任务调度,对计算资源和网络通信能力的要求都非常高。由于边缘计算节点相比于云计算节点更靠近用户端,其具有更低的服务时延。现有的研究主要集中于计算卸载策略和数据传输优化两个方面,仍然存在一些问题,例如如何进行数据传输和任务调度的联合优化。为此,提供如下技术方案:
如图1所示,本发明提出了一种星地网络移动边缘计算资源分配方法,具体包括:
S1、获取用户的计算任务,将计算任务按照预定分配比例发送给本地、地面MEC服务器和卫星MEC服务器,构建星地网络计算任务卸载的系统模型;
计算任务卸载是星地网络中的一个重要环节。由于计算任务的规模和复杂性急剧增加,而本地用户计算能力有限,无法满足大规模数据处理和分析的需求。因此,将计算任务分配给本地、地面MEC服务器和卫星MEC服务器,即将计算任务卸载到位于网络边缘的计算节点上进行处理的多接入边缘计算(Multi-access Edge Computing, MEC)。
将分布在不同地理位置计算节点上的计算任务卸载到高性能计算中心进行处理,以有效提高计算效率和降低时延。这一过程涉及到大量的数据传输和任务调度,对计算资源和网络通信能力的要求都非常高。由于边缘计算节点相比于云计算节点更靠近用户端,其具有更低的服务时延。因此,在星地网络中引入边缘计算可有效提升系统性能和用户满意度。
如图2所示,步骤S1具体包括:
S11、获取用户的计算任务,通过终端设备向星地网络发送计算任务请求;
S12、基于计算任务请求,获取星地网络的信道状态,确定本地、地面MEC服务器和卫星MEC服务器的分配比例;
S13、按照分配比例,将计算任务发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S14、基于分配比例和传输速率,构建星地网络计算任务卸载的系统模型。
在进一步的实施例中,系统中共有M个用户,用户集合可以用M={1,2,3,…,M}来表示,每个用户有计算任务需要计算,用xm表示用户m的总计算任务量,dm表示用户m的总计算任务传输数据量,用户本身具有计算能力,用cm表示用户m本地的计算能力,用户的计算任务可以卸载到地面MEC服务器和卫星MEC服务器中进行计算;
系统中共有N个地面MEC服务器,用集合N={1,2,3,…,N}来表示,地面MEC服务器承担着整个系统中绝大部分的任务卸载工作。用户m到地面MEC服务器n地面链路的传输速率Rn m为:
Rn m=Bnlog2(1+phn mn 2);
其中,Bn为地面链路信道带宽,p为用户传输功率,σn 2表示地面链路信道中的高斯白噪声,hn m为地面信道传输增益,通常与距离的幂次方成反比,具体可以表示为:
hn m=(disn m
其中disn m表示用户m与地面MEC服务器n之间的距离,λ表示路径损耗因子;
系统中有K个低轨卫星组成,表示为集合K={1,2,3,…,K},卫星MEC是对地面MEC的补充,可以为海上船只、沙漠、山区等人口密度较低地区的用户提供服务,用户m到卫星MEC服务器k星地链路的传输速率Rk m具体表示为:
Rk m= Bklog2(1+phk mk 2);
其中,Bk为卫星信道带宽,p为用户传输功率,σk 2表示卫星信道中的高斯白噪声,hk m为卫星信道总传输增益,具体可以表示为:
hk m=|Hk m2GkLk
其中,Hk m是用户m到卫星MEC服务器k之间的莱斯信道矩阵,Gk为天线增益,Lk是星地链路的传播损耗;
用户的任务拆分成多个子任务,子任务可以本地计算,卸载到地面MEC服务器或卫星MEC服务器计算,用户m分配到自身及每个MEC服务器的计算任务比例用Um表示:
Um={um 0,um 1,...,um N+K};
其中,um 0∈[0,1]表示用户m本地处理的任务比例,um N+K表示用户m卸载到地面MEC服务器和卫星MEC服务器的任务比例,用户总任务卸载比例之和为1,即:
i=0 N+Kum i=1,"m∈M;
在进一步的实施例中,用户1的计算任务被拆分成了1:1:2的三部分,其中25%在本地处理,25%在地面MEC服务器中处理,剩余50%在卫星MEC服务器中处理,用户2同理拆分成多个部分,在本地服务器、地面MEC服务器和卫星MEC服务器中并行处理。
为了保证计算任务的安全性和隐私性,防止计算任务在传输过程中被窃取或篡改,采用RSA算法对计算任务进行加密,具体步骤为:
S1a、获取用户的计算任务,采用RSA算法对计算任务进行加密,得到密文;
S1b、获取本地、地面MEC服务器和卫星MEC服务器的计算资源量,根据计算资源量确定计算任务的分配比例;
S1c、将密文按照确定的分配比例发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S1d、基于分配比例和传输速率,构建星地网络计算任务卸载的系统模型。
在进一步的实施例中,用户获取计算任务,选择一个公钥和一个私钥,将计算任务分割成若干个小块,然后对每个小块进行加密,得到密文,将密文发送给星地网络,用户获取本地的计算资源量,地面MEC服务器的计算资源量和卫星MEC服务器的计算资源量,根据计算资源量的大小,优先选择计算资源量较大的服务器,然后按照计算资源量的比例分配计算任务,用户将密文按照分配比例发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器的传输速率和用户到卫星MEC服务器的传输速率,其中传输速率与信道状态和传输功率有关,可以采用香农公式或其他模型进行计算。用户将分配后的密文作为系统模型的输入,本地、地面MEC服务器和卫星MEC服务器的计算资源量作为系统模型的参数,用户到地面MEC服务器的传输速率和用户到卫星MEC服务器的传输速率作为系统模型的变量,构建星地网络计算任务卸载的系统模型。
采用RSA算法对计算任务进行加密,不会影响计算任务的分配策略和优化问题的求解,因为加密后的计算任务仍然保持了原始计算任务的长度和比例,只是改变了计算任务的内容。由此可以在保证安全性和隐私性的同时,不影响计算任务卸载的效率和性能。
S2、基于系统模型,计算本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销;
步骤S2具体包括:
S21、基于系统模型,获取分配给本地的计算任务比例,计算本地的服务时延和系统开销;
S22、基于系统模型,获取分配给地面MEC服务器的计算任务比例和用户到地面MEC服务器的传输速率,计算地面MEC服务器的计算时延和传输时延,相加得到地面MEC服务器的服务时延,计算地面MEC服务器的传输开销和等待开销,相加得到地面MEC服务器的系统开销;
S23、基于系统模型,获取分配给卫星MEC服务器的计算任务比例和用户到卫星MEC服务器的传输速率,计算卫星MEC服务器的计算时延和传输时延,相加得到卫星MEC服务器的服务时延,计算卫星MEC服务器的传输开销和等待开销,相加得到卫星MEC服务器的系统开销;
在进一步的实施例中,本地处理的服务时延公式为:
tm 0=um 0xm/cm
其中tm 0表示用户m本地处理的服务时延,xm表示用户m的总计算任务量,cm表示用户m本地的计算资源量,um 0表示用户m本地处理的计算任务比例,um 0∈[0,1];
用户本地处理计算任务时的开销与其自身的计算能力以及处理的任务CPU周期总数的平方成正比,因此本地处理的系统开销公式为:
esm 0=δum 0xm(cm2
其中δ为一个常量,取10-27,esm 0为用户m本地处理的用户开销;
当卸载到地面MEC服务器时,对于卸载至地面网络中的子任务,服务时延包括计算及传输时延两部分,用户卸载计算任务到地面MEC服务器的服务延迟公式为:
tm n=um nxm/Cn m+ um ndm/Rn m
其中,um n表示用户m卸载到地面MEC服务器n的计算任务比例,um n∈[0,1],dm表示用户m的总计算任务传输数据量,Rn m表示用户m到地面MEC服务器n的传输速率,Cn m为地面MEC服务器n给用户m分配的计算资源量,MEC服务器按照计算量的比例为不同的子任务分配计算资源,具体表示为:
Cn m=um nxm/(∑m=1 Mum nxm) ×Cn
其中,Cn为地面MEC服务器n的计算资源量,由于计算返回结果的数据量远远小于任务本身的数据量,因此忽略下行传输带来的时延和开销。
用户需要以恒定的功率传输子任务,当用户卸载至地面MEC服务器时的传输开销为:
esm n,tran=p(um ndm/ Rn m);
其中,p为用户传输功率;
用户需要以pt的待机功率等待MEC任务处理结束,此时的用户开销即为等待开销,用户卸载至地面MEC服务器时的等待开销为:
esm n,wait=pt(um nxm/ Cn m);
其中,pt为用户待机功率;
因此用户卸载计算任务到地面MEC服务器的系统开销公式为:
esm n= esm n,tran+ esm n,wait
当卸载到卫星MEC服务器时,对于卸载至卫星网络中的子任务不考虑下行传输时延,用户m卸载计算任务到卫星MEC服务器k的服务延迟公式为:
tm k=um kxm/Ck m+ um kxm/Rk m+(Sm k/c)×2;
其中,um k表示用户m卸载到卫星MEC服务器k的计算任务比例,um k∈[0,1],Rk m表示用户m到卫星MEC服务器k的传输速率,Sm k表示卫星与用户之间的距离,c为光速,Sm k/c表示链路传播时延,Ck m表示卫星MEC服务器k给用户m分配的计算资源量,MEC服务器按照计算量的比例为不同的子任务分配计算资源,具体表示为:
Ck m= um kxm/(∑k=1 Kum kxm) ×Ck
其中,Ck为卫星MEC服务器k的计算资源量,
用户卸载至卫星MEC服务器时的传输开销为:
esm k,tran=p[(um kdm/ Rk m)+ (Sm k/c)];
用户卸载至卫星MEC服务器时的等待开销为:
esm k,wait=pt(um kxm/ Ck m);
因此用户卸载计算任务到卫星MEC服务器的系统开销公式为:
esm k= esm k,tran+ esm k,wait
S3、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销,构建星地网络计算任务卸载的优化问题;
如图3所示,步骤S3具体包括:
S31、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销;
S32、根据总服务时延和总系统开销,计算总服务时延和总系统开销的加权和,以最小化总服务时延和总系统开销的加权和为目标函数;
S33、根据总服务时延和总系统开销,设定最大时延门限值和最大开销门限值,将其作为约束条件;
S34、基于目标函数和约束条件,构建星地网络计算任务卸载的优化问题。
在进一步的实施例中,子任务可以并行计算,用户m的总计算任务服务时延tm为本地服务时延、地面MEC服务器服务时延和卫星MEC服务器服务时延的最大值,具体表达式为:
tm=max{tm 0, tm n, tm k},n∈N,k∈K
总服务时延为所有用户的总计算任务服务时延之和,具体表示为:
T=∑m=1 Mtm
用户m的总计算任务系统开销esm为本地系统开销、卸载到地面MEC服务器的系统开销和卸载到卫星MEC服务器的系统开销之和,具体表达式为:
esm= esm 0+∑N esm n+∑Kesm k
总系统开销为所有用户的总计算任务系统开销之和,具体表示为:
ES=∑m=1 Mesm
由于整个系统计算资源是共享的,因此用户任务分配决策之间会相互影响,对多接入边缘计算提出优化问题如下:
目标函数:min(aT+bES);
约束条件:c1:∑i=0 N+Kum i=1,"m∈M;
c2:tm≤tm threshold,"m∈M;
c3:esm≤esm max
其中,目标函数为最小化整个网络总服务时延和总开销加权和,a和b为加权系数,a为服务时延的加权系数,b为系统开销的加权系数;约束条件c1表示保证每个用户无论通过本地、地面MEC服务器或卫星MEC服务器卸载处理,均完成了所有的计算任务,约束条件c2表示每个用户的总计算任务服务时延均应小于预先设定的最大时延门限值tm threshold,约束条件c3表示每个用户的总计算任务系统开销均应小于预先设定的最大开销门限值esm max
S4、基于优化问题,定义星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型;
如图4所示,步骤S4具体包括:
S41、基于优化问题,获取计算任务的卸载情况,定义为星地网络计算任务卸载的状态;
S42、基于优化问题,获取计算任务的分配策略,定义为星地网络计算任务卸载的动作;
S43、基于优化问题,获取总服务时延和总系统开销的加权和,构建奖励收益函数,定义为星地网络计算任务卸载的奖励;
S44、根据星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型。
在进一步的实施例中,状态s表示整个系统当前时刻的情况,对于星地网络多接入边缘计算模型中的状态用当前系统中用户的计算任务卸载情况表示,具体为:
其中,u1 0表示用户本地处理的任务比例,uM N+K表示用户卸载到地面MEC服务器和卫星MEC服务器的任务比例,用户总任务卸载比例之和为1,即:
i=0 N+Kum i=1,"m∈M;
动作a为所有用户计算任务分配策略的集合,对动作a的定义如下所示:
a={U1,U2,…,Um};
其中Um表示用户m计算任务卸载分配集合,具体表示为:
Um={um 0,um 1,…,um N+K};
奖励收益作是评估动作好坏的指标,很大程度上影响模型训练网络的性能,对奖励r的定义如下所示:
r=∑m=1 Ma(tm threshold-tm)+b(esm max- esm);
其中,tm threshold为用户的计算任务服务时延预先设定的最大时延门限值,esm max为用户预先设定的最大开销门限值,tm threshold和esm max可视为常数,a和b为加权系数,a为服务时延的加权系数,b为系统开销的加权系数,当总服务时延和总系统开销的加权和低于最大时延门限值和最大开销门限值的加权和时,奖励收益为正奖励,且总服务时延和总系统开销的加权和越低,奖励越大;当总服务时延和总系统开销的加权和高于最大时延门限值和最大开销门限值的加权和时,奖励收益为负奖励,且总服务时延和总系统开销的加权和越大,惩罚越大,达到最小化总服务时延和总系统开销的加权和的目标。
S5、采用QDQN算法,对深度强化学习模型进行训练,获取总回报值,重复该过程,直到收敛,执行训练好的深度强化学习模型,得出最终的计算任务分配策略,其中QDQN算法为联合运用双深度Q网络、竞争网络、优先经验回放和多步学习机制的算法。
如图5所示,步骤S5具体包括:
S51、采用优先经验回放机制获取经验数据,基于经验数据,采用多步学习机制计算估计目标值;
S52、采用双深度Q网络机制,构建价值网络和目标网络,分别在价值网络和目标网络中,采用竞争网络机制,构建价值函数和优势函数,基于经验数据,计算输出Q值;
S53、基于估计目标值和输出Q值构建损失函数,采用随机梯度下降法最小化损失函数,计算QDQN算法的总回报值;
S54、判断总回报值是否达到预设的总回报阈值,若否,返回步骤S51,若是,结束训练,得到训练好的深度强化学习模型;
S55、执行训练好的深度强化学习模型,获取状态信息,计算得出最终的计算任务分配策略。
在进一步的实施例中,如图6和图7所示,基于QDQN算法,在网络结构方面,设置两个独立但初始参数完全相同的网络,即价值网络和目标网络。其中,价值网络用于找到当前状态下最大Q值的动作,而目标网络作为辅助性网络,得到该动作的实际Q值,而不是直接使用价值网络的Q值作为目标估计进行梯度下降。采用竞争深度Q网络对模型参数进行训练,竞争深度Q网络在神经网络的输出层之前加入了竞争层,以改变输出Q值的计算方式。具体来说,竞争层将前置网络分为了两个部分。第一部分为价值函数部分V(s),该值表示了当前状态的价值,只与状态有关而与动作无关,输出的是一个标量。第二部分为优势函数部分A(s,a),该值表示当前状态下某个动作相对于其他动作的优势值,输出的是一个与动作空间维度相同的矢量。因此,在神经网络中,输出Q值的计算方式可被表示为:
Q(s,a)= V(s)+(A(s,a)-(1/|A|)∑a'∈AA(s,a'))
其中,A为动作空间,|A|为动作空间维度,a'表示全部动作都遍历。通过引入竞争层,状态的价值不再完全依赖于动作,而可以被独立地考虑进来,特别是在动作不起决定性作用的情况下。
传统的Q学习利用单步奖励加下一状态的最大输出Q值作为当前目标值。QDQN采用多步回放机制,在多步学习中,为更准确地估计目标值,采用b步奖励加b步后状态的最大Q值作为目标值,估计目标值按照如下计算:
yj=Rj (b)+gbQ(sj+b,arg maxa'Q(sj+b,a';qj);qj')
其中,j为每次回合中的训练时间步数,g为折扣因子,qj和qj'分别为价值网络和目标网络的网络参数,Rj (b)为b步折合奖励,具体为:
Rj (b)=∑i=0 bgirj+i
其中,b是网络训练过程中一个很重要的超参数,取b为3。
在深度Q学习中,经验回放机制是训练网络模型的重要机制,但每个样本的优先级相同,被采样到的概率是相等的,这显然不利于加速学习进程。因此,优先经验回放池将每个样本都赋予优先级,在采样时根据优先级以不同的概率采样。将时间步j的四元组(sj,aj,Rj (b),sj+b)和时序差分误差的绝对值dj存入优先经验回放池,时序差分误差反应当前样本估计值与目标值间的差距,该值越大则说明该样本的估计可以提升的空间越大,被采样到的优先级应当设置得更高。将优先经验回放池中的样本按照时序差分误差的值排序,样本w被采样到的概率为:
Fw=fw V/∑Wfw V
其中fw为样本w的优先级,也就是该样本排序的倒数,V表示使用优先级的程度,V=0为均匀采样的情况,W为样本w的集合。
从优先经验回放池中抽出一个batch的数据D,依据多步学习机制计算估计目标值yj,使用随机梯度下降最小化损失函数以更新价值网络参数,损失函数定义为:
Lj(qj)=∑D(yj-Q(sj,aj;qj))2
当系统总服务时延稳定在最低点附近或者算法总回报值不再上升时,认为算法收敛,保存网络参数。具体包括:
步骤1、初始化网络系统的属性参数,包括计算资源、分配策略等,设置总回报阈值Rthreshold
步骤2、初始化优先经验回放池Buffer,设定软更新学习率t和折扣因子g;
步骤3、初始化价值网络Q(s,a;q)的参数q和目标网络Q'(s,a;q')的参数q',并将价值网络的参数赋值给目标网络;
步骤4、初始化训练回合次数z;
步骤5、初始化每次回合中的训练时间步数j;
步骤6、获取当前时间步j的状态sj,根据状态基于e-贪心策略选择行动值aj,依据aj 策略卸载子任务并分配计算资源,得到回报rj及下一步状态sj+1,根据多步回放机制计算b步奖励Rj (b),将四元组(sj,aj,Rj (b),sj+b)和时序差分误差的绝对值dj存入优先经验回放池Buffer中;
步骤7、从优先经验池中抽出一个batch的数据,依据多步学习机制,通过与环境交互准确得到即时奖励,计算估计目标值yj,使用随机梯度下降最小化损失函数以更新价值网络参数qj
步骤8、周期性更新目标网络参数为tq+(1-t)q';
步骤9、判断是否满足j<J,j为z回合中的总时间步,若是,则j=j+1,进入步骤6,否则,进入步骤10;
步骤10、判断总回报值是否大于总回报阈值Rthreshold,若否,则z=z+1,进入步骤5,若是,则优化结束,得到优化后的深度强化学习模型;
步骤11、加载优化后的深度强化学习模型,获取当前时刻的状态信息;
步骤12、输出最终子任务分配策略p。
其中,最终子任务分配策略p的计算公式为:
p(s)=arg maxa∈AQ(s,a,qQ);
进一步的,对计算任务的结果的有效性进行验证,还包括:
S6、基于最终的计算任务分配策略,将计算任务分别分配给本地、地面MEC服务器和卫星MEC服务器,获取计算结果,对计算结果进行评估,展示最终的计算任务分配策略的合理性。
在进一步的实施例中,用户根据训练好的深度强化学习模型,得出最终的计算任务分配策略,将计算任务按照分配比例分配给本地、地面MEC服务器和卫星MEC服务器,获取计算结果,计算结果为计算任务的输出数据,用户对计算结果进行评估,检查计算结果的正确性和完整性,评估计算结果的准确率和完整率,用户展示最终的计算任务分配策略的合理性,比较计算结果的准确率和完整率与目标函数的值,验证计算任务分配策略是否达到了最优化的目标,即最小化总服务时延和总系统开销的加权和。
这样可以实现计算任务的有效执行和结果的有效验证,提高了星地网络计算任务卸载的效果和性能。同时,对计算结果进行评估,展示最终的计算任务分配策略的合理性,可以反馈计算任务卸载的优化情况,为进一步优化计算任务卸载提供参考和依据,提高了星地网络计算任务卸载的可调节性和可优化性。因此,增加步骤S6,可以在保证计算任务的执行和结果的验证的同时,提升计算任务卸载的效果和性能,增强计算任务卸载的可调节性和可优化性。
在进一步实施例中,首先,针对星地网络中的用户、任务卸载节点以及用户与节点间的链路构建星地网络的系统模型,并给出计算不同任务卸载节点服务时延和系统开销的公式。接着,将优化目标定义为最小化系统中所有用户总服务时延与系统开销加权和问题。然后,针对上述的优化目标,基于QDQN算法,根据深度强化学习的要素,将星地网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,当前系统中用户的任务卸载情况定义为状态,依据用户总服务时延与系统开销加权和的大小设计奖励收益函数。最后,采用联合运用四种技巧的QDQN算法进行集中式训练,通过智能体不断地与环境交互,优化QDQN网络参数,直至收敛,最后利用训练好的网络,进行分布式执行,得到优化问题的最优解。具体为:
建立包括地面用户、地面MEC服务器和卫星的星地网络任务卸载的系统模型;
基于建立的系统模型,分别给出本地任务处理、地面MEC服务器处理、卫星MEC服务器处理的服务时延以及系统开销的计算公式;
基于得到的用户总服务时延和系统开销公式,建立以最小化系统中所有用户总服务时延与系统开销加权和为优化目标的优化问题;
考虑用户生成计算任务,选择子任务卸载位置及相应的子任务卸载比例,智能体为每个用户,动作空间为所有用户子任务分配策略的集合,状态空间为当前系统中用户的任务卸载情况矩阵,建立深度强化学习模型;
基于联合运用双深度Q网络(Double DQN, DDQN)、竞争网络(Dueling Network,DN)、优先经验回放(Prioritized Experience Replay, PER)和多步学习(Multi-stepLearning, ML)四种改进方法的QDQN算法,对深度强化学习模型进行训练,当总回报值高于定义的总回报值阈值时,则算法收敛,并保存网络参数;
执行训练好的深度强化学习模型,得出子任务分配策略。
根据对本发明的说明,本领域的技术人员应该不难看出,本发明采用的基于QDQN的可拆分任务卸载方法可以降低整个网络总服务时延与系统开销加权和。
本发明基于QDQN算法,将星地网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,每个MEC服务器中每个用户的计算资源分配矩阵定义为状态,依据系统总服务时延设计奖励收益函数,通过智能体不断地与环境交互,优化训练QDQN网络参数,执行训练好的网络,最终得到优化问题的最优解。通过这样的设置,最小化总服务时延和总系统开销的加权和,有效地减少数据传输和任务计算所需的时间和资源,从而提高任务调度效率,同时降低了计算成本和通信开销。
根据本申请的一个方面,所述步骤S11中获取用户计算任务的过程还包括:
步骤S111、获取计算任务并划分为多个子计算任务,并根据子计算任务的任务特征,为每个子计算任务分配优先级;
步骤S112、将子计算任务的数据和代码进行压缩;
步骤S113、利用SSL卸载模块,对子计算任务的数据和代码进行加密;
步骤S114、根据子计算任务的目标执行方,选择预定的传输协议和格式,将子任务的数据和代码封装成数据包,添加相应的头部信息;通过终端设备向星地网络发送计算任务请求。
根据本申请的一个方面,所述步骤S14中构建星地网络计算任务卸载的系统模型,具体包括如下步骤:
步骤S141、获取至少一个周期内的各个子计算任务,并读取星地网络的节点信息和网络环境信息;所述节点信息包括位置、速度、方向、能量、计算能力和通信能力;所述网络环境信息包括信道状态、干扰和延迟;
步骤S142、将星地网络中的节点和边抽象为图的顶点和边,用邻接矩阵或邻接表表示图的结构,用顶点集和边集表示图的属性,构建星地网络计算任务的时空动态拓扑图;
步骤S143、查找时空动态拓扑图中的相似图,计算相似度大小,将相似度大于阈值的时空动态拓扑图聚为一类。
在本申请的另一实施例中,采用如下技术方案:
一种基于D3QN的星地网络移动边缘计算资源分配方法,包括如下步骤:
S1、采集星地网络数据,星地网络数据包括用户数据、地面MEC服务器数据和卫星MEC服务器数据,构建星地网络任务卸载的系统模型;
S11、从不同的数据源获取用户、地面MEC服务器和卫星MEC服务器的数据;
S12、对获取的数据进行预处理,提高数据的质量和可用性;
S13、根据预处理后的数据,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S14、将预处理后的数据和计算得到的数据存储在矩阵或表格中,作为系统模型的输入,构建星地网络任务卸载的系统模型。
S2、基于建立的系统模型,给出本地任务处理、地面MEC服务器处理和卫星MEC服务器处理的服务时延公式和用户开销公式;
S21、根据系统模型中的数据,分别计算用户本地处理、地面MEC服务器处理和卫星MEC服务器处理的传输延迟和计算延迟,以及用户本地处理、卸载到地面MEC服务器和卸载到卫星MEC服务器的传输开销和等待开销;
S22、将计算得到的传输延迟和计算延迟以及传输开销和等待开销用数学公式表示出来,对所述数学公式进行优化,得到本地任务处理、地面MEC服务器处理、卫星MEC服务器处理的服务时延公式和用户开销公式;
本地任务处理的服务时延公式为:
tm 0=um 0xm/cm
其中tm 0表示用户m本地任务处理的服务时延,xm表示用户m的总计算任务量,cm表示用户m本地的计算能力,um 0表示用户m本地处理的任务比例,um 0∈[0,1];
本地任务处理的用户开销公式为:
esm 0=δum 0xm(cm2
其中δ为一个常量,esm 0为用户m本地任务处理的用户开销;
当卸载到地面MEC服务器时,用户卸载任务到地面MEC服务器的服务延迟公式为:
tm n=um nxm/Cn m+ um ndm/Rn m
其中,um n表示用户m卸载到地面MEC服务器n的任务比例,um n∈[0,1],Cn m为地面MEC服务器n给用户m分配的计算资源量,dm表示用户m的总计算任务传输数据量,Rn m表示用户m到地面MEC服务器n的传输速率;
用户卸载至地面MEC服务器时的传输开销为:
esm n,tran=p(um ndm/ Rn m);
其中,p为用户传输功率;
用户卸载至地面MEC服务器时的等待开销为:
esm n,wait=pt(um nxm/ Cn m);
其中,pt为用户待机功率;
因此用户卸载任务到地面MEC服务器的开销公式为:
esm n= esm n,tran+ esm n,wait
当卸载到卫星MEC服务器时,用户卸载任务到卫星MEC服务器的服务延迟公式为:
tm k=um kxm/Ck m+ um kxm/Rk m+(Sm k/c)×2;
其中,um k表示用户m卸载到卫星MEC服务器k的任务比例,um k∈[0,1],Ck m表示卫星MEC服务器k给用户m分配的计算资源量,Rk m表示用户m到卫星MEC服务器k的传输速率,Sm k表示卫星与用户之间的距离,c为光速;
用户卸载至卫星MEC服务器时的传输开销为:
esm k,tran=p[(um kdm/ Rk m)+ (Sm k/c)];
用户卸载至卫星MEC服务器时的等待开销为:
esm k,wait=pt(um kxm/ Ck m);
因此用户卸载任务到卫星MEC服务器的开销公式为:
esm k= esm k,tran+ esm k,wait
S3、基于给出的服务时延公式和用户开销公式,以最小化系统中所有用户服务时延和系统开销的加权和为优化目标,建立优化问题;
S31、根据本地任务处理、地面MEC服务器处理、卫星MEC服务器处理的服务时延公式和用户开销公式,分别计算用户和系统的总服务时延和总用户开销;
S32、将所述总服务时延和总用户开销分别乘以权重系数后相加得到加权和,将加权和作为优化目标函数;
S33、基于系统模型中的约束条件,通过最小化所述优化目标函数得到优化目标,建立优化问题;
S4、根据优化问题,建立深度强化学习模型,其中深度强化学习模型的要素包括智能体、动作空间、状态空间和奖励函数;
S41、基于优化问题,确定深度强化学习模型的要素;
S42、根据深度强化学习模型的结构,设计包含价值网络和优势网络的神经网络,根据深度强化学习模型的要素定义神经网络的输入层、隐藏层和输出层;
S5、基于D3QN算法,对所述深度强化学习模型的参数进行训练,当算法收敛时,保存网络参数,得到训练好的深度强化学习模型;
S51、初始化网络系统的属性参数,属性参数包括计算资源和分配策略;
S52、初始化回放经验池,设定软更新学习率和折扣因子;
S53、初始化价值网络和目标网络的参数,并将价值网络的参数赋值给目标网络;
S54、初始化训练回合次数和每次回合中的训练时间步数;
S55、获取当前时间步数的状态,基于贪心策略,根据所述状态选择行动值,根据所述行动值卸载子任务并分配计算资源,得到回报及下一步状态,存储到回放经验池中;
S56、从回放经验池中抽出批量数据,依据多步学习机制计算估计目标值,使用随机梯度下降最小化损失函数,更新价值网络参数;
S57、周期性更新目标网络参数,使其接近价值网络参数;
S58、判断是否满足训练结束的条件,若否,则继续训练,若是,则保存网络参数,得到训练好的深度强化学习模型;
S6、执行训练好的深度强化学习模型,得出子任务分配策略。
S61、加载训练好的深度强化学习模型,获取当前时刻的状态信息;
S62、将所述状态信息输入到神经网络中,得到智能体对应的最优行动值,根据最优行动值,输出最终子任务分配策略。
在本申请的另一实施例中,步骤S3至步骤S6进一步为:
S3a、考虑子任务可以并行计算,用户m的总任务处理时延Tm为本地计算时延、地面MEC服务器时延和卫星MEC服务器时延的最大值,具体表达式为:
tm=max{tm 0,tm n,tm k},n∈N,k∈K;
其中tm 0为用户m子任务本地处理的时延,tm n 为用户m卸载任务到地面MEC服务器n的服务延迟,tm k 为用户m卸载至卫星服务器k的服务延迟,K ={1,2,…K}为K个低轨卫星组成的集合,N={1,2,…N}为N个地面MEC服务器的集合;
整个系统的服务时延为所有用户服务时延之和,具体表示为:
T=∑m=1 Mtm
S3b、用户m的总开销esm为本地计算开销、子任务卸载到地面MEC服务器的开销和子任务卸载到卫星MEC服务器的开销之和,具体表达式为:
esm=esm 0+∑Nesm n+∑K esm k
其中esm n为用户m卸载任务到地面MEC服务器n的总开销,esm k为用户m卸载任务到卫星MEC服务器k的总开销,整个系统的总开销ES为所有用户开销之和,具体表示为:
ES=∑m=1 Mesm
S3c、由于整个系统计算资源是共享的,因此用户任务分配决策之间会相互影响。对移动边缘计算提出优化问题如下:
优化目标:min(aT+b ES);
约束条件:c1:∑i=0 N+Kum i=1,"m∈M
c2:tm≤Tm threshold,"m∈M
c3:esm≤esm max
其中优化目标为最小化整个网络总服务时延和总开销加权和,a和b为加权系数,a为系统时延的加权系数,b系统开销的加权系数;um 0∈[0,1]表示用户m本地处理的任务比例, um i∈[0,1],i∈{1, N}表示用户m卸载到地面MEC服务器的任务比例, um i∈[0,1],i∈{1+N, N+K}表示用户m卸载到卫星MEC服务器的任务比例,对于每个um i满足:
i=0 N+Kum i=1,"m∈M;
约束条件c1保证每个用户无论通过本地处理、地面MEC服务器或卫星MEC服务器卸载处理,均完成了所有的子任务,约束条件c2表示每个用户的任务服务时延均应小于预先设定的最大时延门限值Tm threshold ,约束条件c3表示每个用户的开销均应小于预先设定的最大开销门限值esm max
进一步的,所述步骤(4)包括如下具体步骤:
智能体为每个用户,动作空间为所有用户子任务分配策略的集合,状态空间为当前系统中用户的任务卸载情况矩阵,奖励函数为依据系统服务时延和系统开销加权和的大小确定;
S4a、状态s:状态s表征整个系统当前时刻的具体情况,对于星地网络移动边缘计算模型中的状态用当前系统中用户的任务卸载情况表示,具体为下式:
um 0表示用户m本地处理的任务比例, um i,i∈{1, N}表示用户m卸载到地面MEC服务器的任务比例,um i表示用户m卸载到卫星MEC服务器的任务比例,对于每个um i满足um i∈[0,1]。
S4b、动作a:动作a为所有用户子任务分配策略的集合。对动作a的定义如下所示:
a={U1,U2,…,Um}其中Um表示用户m任务卸载分配集合,具体表示为:
Um={um 0, um 1,…, um N+K};
S4c、奖励r:奖励收益作为评估动作好坏的指标,很大程度上影响模型训练网络的性能。对上述模型中的奖励定义如下:
r=∑m Ma(Tm threshold-tm)+b(esm max- esm);
其中Tm threshold为用户的任务服务时延预先设定的最大时延门限值,esm max为用户预先设定的最大开销门限值,Tm threshold和esm max可视为常数,a和b为加权系数,a为系统时延的加权系数,b系统开销的加权系数,当总时延和开销加权和低于时延阈值和开销门限值的加权和时,奖励收益为正奖励,且总时延和开销加权和越低,奖励越大;当总时延和开销加权和低于时延阈值和开销门限值的加权和时,奖励收益为负奖励,且总时延和开销加权和越大,惩罚越大,因此达到最小化总时延和开销加权和的目标。
进一步的,所述步骤S5包括如下具体步骤:
S5a,初始化网络系统的属性参数:计算资源、分配策略等;
S5b,初始化回放经验池Buffer,设定软更新学习率τ和折扣因子γ
S5c,初始化Q网络Q(s,a;q)的参数q和目标网络Q'(s,a;q')的参数q',并将Q网络的参数赋值给目标网络Q',q赋值给q';
S5d,初始化训练回合次数p
S5e,初始化每次回合中的训练时间步数k
S5f,获取当前时间步j的状态sj,根据状态基于e-贪心策略选择行动值aj ,依据aj策略卸载子任务并分配计算资源,得到回报rj及下一步状态sj+1,存储(sj-b,aj-b,Rj-b b,sj)到经验池Buffer中;
S5g,从经验池中抽出一个batch的数据,依据多步学习机制计算估计目标值yj
yj=Rj (b)+gbQ(sj+b,arg maxa'Q(sj+b,a';qj);qj');
使用随机梯度下降最小化损失函数以更新价值网络参数qj
S5h,周期性更新目标网络:tq+(1-t)q'赋值给q';
S5i,判断是否满足k<K,K为p回合中的总时间步,若是,k=k+1,进入步骤5f,否则,进入步骤5j;
S5j,判断算法总回报值不再上升,若否,p=p+1,进入步骤5e,若是,优化结束,得到优化后的深度强化学习模型;
进一步的,所述步骤S6包括如下具体步骤:
S6a,加载优化后的深度强化学习模型,获取当前时刻的状态信息s
S6b,输出最终子任务分配策略
p(s)=arg maxa∈AQ(s,a,qQ);
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。

Claims (2)

1.一种星地网络移动边缘计算资源分配方法,其特征在于,包括以下步骤:
S1、获取用户的计算任务,将计算任务按照预定分配比例发送给本地、地面MEC服务器和卫星MEC服务器,构建星地网络计算任务卸载的系统模型;
S2、基于系统模型,计算本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销;
S3、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销,构建星地网络计算任务卸载的优化问题;
S4、基于优化问题,定义星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型;
S5、采用QDQN算法,对深度强化学习模型进行训练,获取总回报值,重复采用QDQN算法对深度强化学习模型进行训练的过程,直到收敛,执行训练好的深度强化学习模型,得出最终的计算任务分配策略,其中QDQN算法为联合运用双深度Q网络、竞争网络、优先经验回放和多步学习机制的算法;
步骤S1具体为:
S11、获取用户的计算任务,通过终端设备向星地网络发送计算任务请求;
S12、基于计算任务请求,获取星地网络的信道状态,确定本地、地面MEC服务器和卫星MEC服务器的分配比例;
S13、按照分配比例,将计算任务发送给本地、地面MEC服务器和卫星MEC服务器,计算用户到地面MEC服务器和卫星MEC服务器的传输速率;
S14、基于分配比例和传输速率,构建星地网络计算任务卸载的系统模型;
步骤S2具体为:
S21、基于系统模型,获取分配给本地的计算任务比例,计算本地的服务时延和系统开销;
S22、基于系统模型,获取分配给地面MEC服务器的计算任务比例和用户到地面MEC服务器的传输速率,计算地面MEC服务器的计算时延和传输时延,相加得到地面MEC服务器的服务时延,计算地面MEC服务器的传输开销和等待开销,相加得到地面MEC服务器的系统开销;
S23、基于系统模型,获取分配给卫星MEC服务器的计算任务比例和用户到卫星MEC服务器的传输速率,计算卫星MEC服务器的计算时延和传输时延,相加得到卫星MEC服务器的服务时延,计算卫星MEC服务器的传输开销和等待开销,相加得到卫星MEC服务器的系统开销;
本地处理的服务时延公式为:
tm 0=um 0xm/cm
其中tm 0表示用户m本地处理的服务时延,xm表示用户m的总计算任务量,cm表示用户m本地的计算资源量,um 0表示用户m本地处理的计算任务比例,um 0∈[0,1];
本地处理的系统开销公式为:
esm 0=δum 0 xm(cm2
其中δ为一个常量,esm 0为用户m本地处理的用户开销;
当卸载到地面MEC服务器时,用户卸载计算任务到地面MEC服务器的服务延迟公式为:
tm n=um nxm/Cn m+ um ndm/Rn m
其中,um n表示用户m卸载到地面MEC服务器n的计算任务比例,um n∈[0,1],dm表示用户m的总计算任务传输数据量,Rn m表示用户m到地面MEC服务器n的传输速率,Cn m为地面MEC服务器n给用户m分配的计算资源量具体为:
Cn m=um nxm/(∑m=1 M um nxm ) ×Cn
其中,Cn为地面MEC服务器n的计算资源量,用户集合为M,M={1,2,3,…,M},
用户卸载至地面MEC服务器时的传输开销为:
esm n,tran=p(um ndm/ Rn m) ;
其中,p为用户传输功率;
用户卸载至地面MEC服务器时的等待开销为:
esm n,wait=pt(um n xm/ Cn m);
其中,pt为用户待机功率;
因此用户卸载计算任务到地面MEC服务器的系统开销公式为:
esm n= esm n,tran+ esm n,wait
当卸载到卫星MEC服务器时,用户卸载计算任务到卫星MEC服务器的服务延迟公式为:
tm k=um kxm/Ck m+ um kxm/Rk m+(Sm k/c)×2;
其中,um k表示用户m卸载到卫星MEC服务器k的计算任务比例,um k∈[0,1],Rk m表示用户m到卫星MEC服务器k的传输速率,Sm k表示卫星与用户之间的距离,c为光速,Sm k/c表示链路传播时延,Ck m表示卫星MEC服务器k给用户m分配的计算资源量,具体为:
Ck m= um kxm/(∑m=1 M um kxm ) ×Ck
其中,Ck为卫星MEC服务器k的计算资源量,
用户卸载至卫星MEC服务器时的传输开销为:
esm k,tran=p[(um kdm/ Rk m)+ (Sm k/c)];
用户卸载至卫星MEC服务器时的等待开销为:
esm k,wait=pt(um k xm/ Ck m);
因此用户卸载计算任务到卫星MEC服务器的系统开销公式为:
esm k= esm k,tran+ esm k,wait
步骤S3具体为:
S31、根据本地、地面MEC服务器和卫星MEC服务器的服务时延和系统开销,计算总服务时延和总系统开销;
S32、根据总服务时延和总系统开销,计算总服务时延和总系统开销的加权和,以最小化总服务时延和总系统开销的加权和为目标函数;
S33、基于总服务时延和总系统开销,设定最大时延门限值和最大开销门限值,将其作为约束条件;
S34、基于目标函数和约束条件,构建星地网络计算任务卸载的优化问题;
用户m的总计算任务服务时延tm为本地服务时延、地面MEC服务器服务时延和卫星MEC服务器服务时延的最大值,具体表达式为:
tm=max{tm 0, tm n, tm k},n∈N,k∈K;
其中地面MEC服务器的集合为N,N={1,2,3,…,N},卫星MEC服务器的集合为K,K={1,2,3,…,K},
总服务时延为所有用户的总计算任务服务时延之和,具体表示为:
T=∑m=1 M tm
用户m的总计算任务系统开销esm为本地系统开销、卸载到地面MEC服务器的系统开销和卸载到卫星MEC服务器的系统开销之和,具体表达式为:
esm= esm 0 +∑N esm n+∑K esm k
总系统开销为所有用户的总计算任务系统开销之和,具体表示为:
ES=∑m=1 M esm
提出优化问题如下:
目标函数:min(aT+bES);
约束条件:c1:∑i=0 N+Kum i=1,"m∈M;
c2:tm≤tm threshold,"m∈M;
c3:esm≤esm max
其中,a和b为加权系数,a为服务时延的加权系数,b为系统开销的加权系数;约束条件c1表示保证每个用户无论通过本地、地面MEC服务器或卫星MEC服务器卸载处理,均完成了所有的计算任务,约束条件c2表示每个用户的总计算任务服务时延均应小于预先设定的最大时延门限值tm threshold,约束条件c3表示每个用户的总计算任务系统开销均应小于预先设定的最大开销门限值esm max
步骤S4具体为:
S41、基于优化问题,获取计算任务的卸载情况,定义为星地网络计算任务卸载的状态;
S42、基于优化问题,获取计算任务的分配策略,定义为星地网络计算任务卸载的动作;
S43、基于优化问题,获取总服务时延和总系统开销的加权和,构建奖励收益函数,定义为星地网络计算任务卸载的奖励;
S44、根据星地网络计算任务卸载的状态、动作和奖励,构建星地网络计算任务卸载的深度强化学习模型;
步骤S5具体为:
S51、采用优先经验回放机制获取经验数据,基于经验数据,采用多步学习机制计算估计目标值;
S52、采用双深度Q网络机制,构建价值网络和目标网络,分别在价值网络和目标网络中,采用竞争网络机制,构建价值函数和优势函数,基于经验数据,计算输出Q值;
S53、基于估计目标值和输出Q值构建损失函数,采用随机梯度下降法最小化损失函数,计算QDQN算法的总回报值;
S54、判断总回报值是否达到预设的总回报阈值,若否,返回步骤S51,若是,结束训练,得到训练好的深度强化学习模型;
S55、执行训练好的深度强化学习模型,获取状态信息,计算得出最终的计算任务分配策略;
所述步骤S11中获取用户计算任务的过程还包括:
步骤S111、获取计算任务并划分为多个子计算任务,并根据子计算任务的任务特征,为每个子计算任务分配优先级;
步骤S112、将子计算任务的数据和代码进行压缩;
步骤S113、利用SSL卸载模块,对子计算任务的数据和代码进行加密;
步骤S114、根据子计算任务的目标执行方,选择预定的传输协议和格式,将子任务的数据和代码封装成数据包,添加相应的头部信息;通过终端设备向星地网络发送计算任务请求;
所述步骤S14中构建星地网络计算任务卸载的系统模型,具体包括如下步骤:
步骤S141、获取至少一个周期内的各个子计算任务,并读取星地网络的节点信息和网络环境信息;所述节点信息包括位置、速度、方向、能量、计算能力和通信能力;所述网络环境信息包括信道状态、干扰和延迟;
步骤S142、将星地网络中的节点和边抽象为图的顶点和边,用邻接矩阵或邻接表表示图的结构,用顶点集和边集表示图的属性,构建星地网络计算任务的时空动态拓扑图;
步骤S143、查找时空动态拓扑图中的相似图,计算相似度大小,将相似度大于阈值的时空动态拓扑图聚为一类。
2.根据权利要求1所述的星地网络移动边缘计算资源分配方法,其特征在于,还包括:
S6、基于最终的计算任务分配策略,将计算任务分别分配给本地、地面MEC服务器和卫星MEC服务器,获取计算结果,对计算结果进行评估,展示最终的计算任务分配策略的合理性。
CN202410017465.1A 2024-01-05 2024-01-05 一种星地网络移动边缘计算资源分配方法 Active CN117519995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410017465.1A CN117519995B (zh) 2024-01-05 2024-01-05 一种星地网络移动边缘计算资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410017465.1A CN117519995B (zh) 2024-01-05 2024-01-05 一种星地网络移动边缘计算资源分配方法

Publications (2)

Publication Number Publication Date
CN117519995A CN117519995A (zh) 2024-02-06
CN117519995B true CN117519995B (zh) 2024-03-22

Family

ID=89742378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410017465.1A Active CN117519995B (zh) 2024-01-05 2024-01-05 一种星地网络移动边缘计算资源分配方法

Country Status (1)

Country Link
CN (1) CN117519995B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118250750B (zh) * 2024-05-24 2024-09-24 南京理工大学 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法
CN118524069A (zh) * 2024-07-19 2024-08-20 西安电子科技大学 大规模卫星网络业务级通算协同资源分配装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116390125A (zh) * 2023-04-03 2023-07-04 南京邮电大学 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN116437341A (zh) * 2023-04-12 2023-07-14 西南交通大学 一种移动区块链网络的计算卸载与隐私保护联合优化方法
CN116684925A (zh) * 2023-07-24 2023-09-01 南京图策信息科技有限公司 一种无人机搭载智能反射面安全移动边缘计算方法
CN116886158A (zh) * 2023-07-13 2023-10-13 南京航空航天大学 一种基于ddpg的星地融合网络移动边缘计算资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3973397A1 (en) * 2019-05-22 2022-03-30 Microsoft Technology Licensing, LLC Systems and methods for distribution of application logic in digital networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116390125A (zh) * 2023-04-03 2023-07-04 南京邮电大学 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN116437341A (zh) * 2023-04-12 2023-07-14 西南交通大学 一种移动区块链网络的计算卸载与隐私保护联合优化方法
CN116886158A (zh) * 2023-07-13 2023-10-13 南京航空航天大学 一种基于ddpg的星地融合网络移动边缘计算资源分配方法
CN116684925A (zh) * 2023-07-24 2023-09-01 南京图策信息科技有限公司 一种无人机搭载智能反射面安全移动边缘计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SAGA:一种面向任务的卫星网络资源分配算法;杨力;杨恒;魏德宾;潘成胜;;小型微型计算机系统;20200115(第01期);全文 *

Also Published As

Publication number Publication date
CN117519995A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN117519995B (zh) 一种星地网络移动边缘计算资源分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Li et al. NOMA-enabled cooperative computation offloading for blockchain-empowered Internet of Things: A learning approach
Lakew et al. Intelligent offloading and resource allocation in heterogeneous aerial access IoT networks
US11265077B1 (en) Method for deploying task in satellite network
CN113296845A (zh) 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN113794494B (zh) 一种面向低轨卫星网络的边缘计算系统及计算卸载优化方法
CN107295109A (zh) 自组织网络云计算中的任务卸载与功率分配联合决策方法
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN113950081B (zh) 一种面向微服务的动态服务迁移和请求路由方法
CN114880046B (zh) 联合卸载决策和带宽分配的低轨卫星边缘计算卸载方法
WO2023245835A1 (zh) 一种基于栅格时延预测的卫星传输优化方法
CN114520990B (zh) 一种基于星地云协作的移动边缘计算任务卸载方法
CN113867843A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN118250750B (zh) 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法
CN115134242A (zh) 一种基于深度强化学习策略的车载计算任务卸载方法
CN114980039A (zh) D2d协作计算的mec系统中的随机任务调度和资源分配方法
Han et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN116886158A (zh) 一种基于ddpg的星地融合网络移动边缘计算资源分配方法
Dai et al. Priority-Aware Task Offloading and Resource Allocation in Satellite and HAP Assisted Edge-Cloud Collaborative Networks
CN114614878B (zh) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN116827515A (zh) 一种基于区块链和强化学习的雾计算系统性能优化算法
CN116566466A (zh) 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法
CN114598702A (zh) 一种基于深度学习的vr业务无人机边缘计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant