CN116886158A - 一种基于ddpg的星地融合网络移动边缘计算资源分配方法 - Google Patents

一种基于ddpg的星地融合网络移动边缘计算资源分配方法 Download PDF

Info

Publication number
CN116886158A
CN116886158A CN202310861667.XA CN202310861667A CN116886158A CN 116886158 A CN116886158 A CN 116886158A CN 202310861667 A CN202310861667 A CN 202310861667A CN 116886158 A CN116886158 A CN 116886158A
Authority
CN
China
Prior art keywords
network
user
task
ddpg
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310861667.XA
Other languages
English (en)
Inventor
宋晓勤
胡思颖
张莉涓
雷磊
吴志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310861667.XA priority Critical patent/CN116886158A/zh
Publication of CN116886158A publication Critical patent/CN116886158A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出了一种基于DDPG深度强化学习的可拆分任务卸载方法,命名为STO‑DDPG,用于星地融合网络移动边缘计算,首先针对星地融合网络中的用户、任务卸载节点以及用户与节点间的链路给出具体网络模型,给出了基于不同任务卸载节点的服务延迟计算公式;然后,将系统所有用户总服务时延的最小值定义为任务卸载的优化目标函数;针对上述的优化目标,基于DDPG算法,将星地融合网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,每个MEC服务器中每个用户的计算资源分配矩阵定义为状态,依据系统总服务时延设计奖励收益函数,通过智能体不断地与环境交互,优化训练DDPG网络参数,执行训练好的网络,最终得到优化问题的最优解。

Description

一种基于DDPG的星地融合网络移动边缘计算资源分配方法
技术领域
本发明涉及一种星地融合网络技术,尤其涉及一种星地融合网络的移动边缘计算(Mobile Edge Computing,MEC)资源分配方法,更具体地说,涉及一种基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的可拆分任务卸载算法(Split TaskOffloading based on DDPG,STO-DDPG)。
背景技术
信息技术的快速发展带来爆炸式的算力需求,人工智能、物联网等应用的加入,对整个通信网络带来更大的计算压力,算力网络对解决海量计算问题有着明显的优势。算力网络将网络转发、资源存储、计算处理等功能融合并协同工作,以算力形成网络,解决单一节点算力不足的问题,将算力赋能于更多终端应用领域。
移动边缘计算是整个算力网络中至关重要的一环,传统的地面边缘计算仅依赖于固定不动的地面MEC服务器,难以实现大范围灵活性的任务卸载,因此将卫星网络引入整个边缘计算系统中尤为重要。基于星地融合网络的移动边缘计算,可以将地面和卫星MEC服务器中的计算资源整合成网络集群,不仅可以实现大范围的卸载区域覆盖,还可以实现按需卸载任务,提高用户服务质量。网络切片技术基于软件定义网络(Software DefinedNetwork,SDN)和网络功能虚拟化(Network Functions Virtualization,NFV)技术,将整个网络系统资源分类池化,在网络中创建了多个切片分区,每个切片分区按需供给一定的资源用于特定的服务,允许在单个基础设施上运行具有不同需求的垂直市场和多个服务。网络切片技术充分利用网络基础设施,实现网络的高度灵活性。
发明内容
发明目的:相较于传统的云计算方式,移动边缘计算因为更靠近用户,其服务时延更低、灵活性更高。虽然卫星网络的发展已经可以保证星地链路传输延迟降低在一个可接受的范围,但相对于地面网络,其延迟依然是比较高的,因此在星地融合网络中应用移动边缘计算是一项值得研究的内容。发明中提出一种用户可拆分任务卸载算法,整个系统用户被分成了无地面网络覆盖的稀疏用户和有地面网络覆盖的密集用户,稀疏用户任务不能拆分到地面MEC服务器,但可选择拆分至卫星MEC服务器,密集用户任务可拆分至系统中的任何MEC服务器中。
技术方案:提出了一种基于DDPG深度强化学习的可拆分任务卸载算法:STO-DDPG算法。用于星地融合网络移动边缘计算,首先针对星地融合网络中的用户、任务卸载节点以及用户与节点间的链路给出具体网络模型,给出了基于不同任务卸载节点的服务延迟计算公式。然后,将系统所有用户总服务时延的最小值定义为任务卸载的优化目标函数。针对上述的优化目标,基于DDPG算法,将星地融合网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,每个MEC服务器中每个用户的计算资源分配矩阵定义为状态,依据系统总服务时延设计奖励收益函数,通过智能体不断地与环境交互,优化训练DDPG网络参数,执行训练好的网络,最终得到优化问题的最优解,包括步骤如下:
(1),建立系统网络模型,整个系统网络模型由卫星节点、地面基站节点、地面服务器节点和中枢控制平台四部分组成;
(2),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算服务延迟
(3),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算每个用户的开销;
(4),提出优化目标,建立基于DDPG的移动边缘计算策略模型优化方案,建立基于移动边缘计算的DDPG算法模型;
(5),用户生成计算任务,选择子任务卸载位置及相应的子任务卸载比例,每个用户的子任务卸载比例在满足总比例之和为1的前提下,由系统控制平台计算每个子任务的卸载服务时延,所有子任务时延均需要小于预设的时延门限值,计算本地处理、地面MEC卸载和卫星MEC卸载中所有子任务的服务时延,构建DDPG深度神经网络;
(6),网络训练:取深度神经网络经验池中的小批量数据训练网络,当系统总服务时延稳定在最低点附近或者算法总回报值不再上升时,整个网络的性能不会再继续优化提升,此时算法收敛,保存网络参数;
(7),网络执行:执行训练好的网络模型,由于该系统模型是高度动态的,因此采用一边执行一边训练的方式,即不断调整网络参数,得出最优的子任务分配策略。
进一步的,所述步骤(1)包括如下具体步骤:
(1a),卫星网络由运行在轨道上的多个低轨卫星组成,卫星数量共有M个,表示为集合卫星MEC服务器不仅可以服务于城市中的密集人群,也可以为海上船只、沙漠、山区等人口密度较低地区的用户提供服务,这些地区用户的地面网络建设相对匮乏,因此卫星MEC是对地面MEC的补充。卫星MEC服务器具体可以表示为:
m={Cm,Bm,Rm,Sm,Um}
其中Cm表示卫星MEC服务器m的总计算资源(以CPU周期为单位),Bm为卫星信道带宽,Rm为卫星与地面之间的链路传输速率,Sm表示卫星与用户之间的距离,这里用卫星的轨道高度来表示,Um表示卸载在m服务器上的用户任务量形成的集合;
(1b),星地链路的传输速率Rm具体表示为:
其中p为用户传输功率,表示卫星信道中的高斯白噪声,hm为卫星信道总传输增益,具体可以表示为:
hm=|Hm|2GmLm
其中Hm是卫星和用户之间的莱斯信道矩阵,Gm为天线增益,Lm是星地链路的传播损耗。
(1c),基站的数量共有N个,表示为集合地面MEC服务器与用户之间的距离更近,整个服务的通信时延更低,因此地面MEC服务器承担着整个系统中绝大部分的任务卸载工作。地面MEC服务器具体可以表示为:
n={Cn,Bn,Rn,Sn,Un}
其中地面链路的传输速率Rn具体表示为:
其中地面信道传输增益hn通常与距离的幂次方成反比,具体可以表示为:
hn=(dis)
其中dis表示用户与地面MEC服务器之间的距离,λ表示路径损耗因子;
(1d),用户集合可以用来表示,每个用户模型表示为:
i={Xi,Ci,Di,Zi}
其中,Xi表示用户i的总计算任务量,Ci表示用户i本地的计算资源量,Di表示用户i的总计算任务传输数据量,Zi表示用户i的子任务分配决策集,即用户i分配到自身及每个MEC服务器的计算任务比例,具体表示为:
其中表示用户i本地处理的任务比例,其他值为相应的卸载到MEC服务器的任务比例。对于每个Zi满足:
即用户总任务卸载比例之和为1;
(1e),系统控制平台用于整合系统的计算资源,依据用户的任务卸载比例分配计算资源,并返回卸载结果,优化卸载比例。
进一步的,所述步骤(2)包括如下具体步骤:
(2a),本地任务处理,对于卸载到用户本地处理的子任务,整个服务时延只包含子任务处理延迟,具体可以表示为:
(2b),地面MEC服务器卸载,对于卸载至地面网络中的子任务,整个服务延迟包括计算及传输延迟两部分。与大部分的研究所讨论的一样,由于计算返回结果的数据量远远小于任务本身的数据量,因此忽略下行传输带来的时延。此时用户i卸载至第n个地面服务器的服务延迟可以表示为:
其中为n服务器给i用户分配的计算资源量,为了避免任务拆分后卸载到MEC服务器的子任务计算量可能存在的较大差异,按照计算量的比例为不同的子任务分配计算资源,具体表示为:
(2c),卫星MEC服务器卸载
当地面用户向卫星MEC服务器卸载子任务时,星地链路之间的长传输时延是无法避免的,同时每个卫星中因为嵌入了一个MEC服务器,会相应的增加卫星的建设成本以及能量消耗,不过得益于卫星的大面积覆盖能力,此时所有地面用户都可以连接至卫星,从卫星MEC卸载服务中受益。对于卸载至卫星网络中的子任务,整个服务延迟包括计算、传输及传播延迟,且同样不考虑下行传输延迟。此时用户i卸载至第m个卫星服务器的服务延迟可以表示为:
其中表示链路传播延迟,c为光速。
进一步的,所述步骤(3)包括如下具体步骤:
(3a),用户开销即用户整个卸载任务周期内的能耗,基于上述的模型描述,本地计算开销为,对于在本地处理的子任务,用户处理计算任务时的开销与其自身的计算能力以及处理的任务CPU周期总数的平方成正比,因此,用户本地计算的开销可以表示为
其中,δ为一个常量,这里取10-27
(3b)子任务传输开销为,对于卸载到MEC的子任务来说,用户需要以恒定的功率传输子任务,直到任务传输结束,同样因计算结果数据量远小于任务本身数据量,因此下行传输开销可以忽略不计。
当i用户选择卸载至n地面MEC服务器时的子任务传输开销为:
i用户选择卸载至m卫星MEC服务器的子任务传输开销为:
(3c)子任务处理等待开销为,当卸载至MEC的子任务传输结束时,用户需要以pt的待机功率等待MEC任务处理结束,此时的用户开销即为等待开销。用户i的等待开销值为:
(3d),用户i的总开销spi为本地计算开销、子任务传输开销和子任务处理等待开销之和,具体表达式为:
整个系统的总开销SP为所有用户开销之和,具体表示为:
进一步的,所述步骤(4)包括如下具体步骤:
(4a),对于用户采用的可拆分的任务卸载模式,在上述条件下,由于整个系统计算资源是共享的,因此用户任务分配决策之间会相互影响。对移动边缘计算提出优化问题如下:
优化目标:
约束条件:
其中优化目标为最小化整个网络总服务时延,约束条件c1保证每个用户无论通过本地处理或MEC卸载处理,均完成了所有的子任务,约束条件c2表示所有用户的每个子任务服务时延均应小于预先设定的最大时延门限值,从而确保每个用户最终的服务时延满足要求。
(4b),状态s:状态s表征整个系统当前时刻的具体情况,对于星地融合网络移动边缘计算模型中的状态可以表示为下式:
以每个MEC服务器中每个用户的计算资源分配矩阵作为状态s,当用户i未向n服务器卸载子任务时,其计算资源分配量为0,即因此,该矩阵可以同时表征系统计算资源分配情况以及用户任务卸载情况;
(4c),动作a:动作a为所有用户子任务分配策略的集合。对动作a的定义如下所示:
a={ProI×(M+N+1)}
其中ProI×(M+N+1)表示所有用户任务卸载分配集合,具体表示为:
ProI×(M+N+1)={Z1,Z2,...,Zi,...,ZI}
为了能够尽可能地对环境探索,同时也要使得算法最后能够稳定地收敛,对动作a添加一个逐次递减的干扰噪声,噪声服从下式所示的正态分布。其中噪声的方差σ是一个随着迭代递减的值,递减值为σi
其中μ为正态分布的均值,取值为未加干扰噪声之前的动作a。对干扰之后的动作做归一化处理,得到最终的动作a:
(4d),奖励r:奖励收益作为评估动作好坏的指标,很大程度上影响模型训练网络的性能。对上述模型中的奖励定义如下:
其中,Tth表示模型训练设定的时延阈值,可以看出,当总时延低于时延阈值时,奖励收益为正奖励,且总时延越低,奖励越大;当总时延高于时延阈值时,奖励收益为负奖励,且总时延越大,惩罚越大,因此达到最小化总服务时延的目标。
进一步的,所述步骤(6)包括如下具体步骤:
(6a),初始化网络系统的属性参数:计算资源、分配策略等;
(6b),初始化回放经验池Buffer,设定软更新学习率τ和折扣因子γ;
(6c),随机初始化critic网络Q(s,a,θQ)和actor网络μ(s,θu),以critic网络和actor网络的参数初始化target网络Q′和μ′;
(6d),对于每次迭代,执行:选择行动值并添加随机噪声:a=f(a),依据a策略卸载子任务并分配计算资源,得到回报r及下一步状态s′,存储(s,a,r,s′)到经验池Buffer中,从经验池中抽出一个batch的数据,依据target网络计算y=r+γQ′(s′,μ′(s′,θμ′);θQ′),更新critic网络:Loss=∑i(yi-Q(si,ai,θQ))2/N,以采样策略梯度更新策略,更新目标网络:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
进一步的,所述步骤(7)包括如下具体步骤:
(7a),初始化网络系统的属性参数:计算资源、分配策略等;
(7b),初始化回放经验池Buffer,设定软更新学习率τ和折扣因子γ;
(7c),依据a策略卸载子任务并分配计算资源,得到回报r及下一步状态s′,存储(s,a,r,s′)到经验池Buffer中,从经验池中抽出一个batch的数据,依据target网络计算y=r+γQ′(s′,μ′(s′,θμ′);θQ′),以最小化loss值更新critic网络:Loss=Σi(yi-Q(si,ai,θQ))2/N,以采样策略梯度更新策略,更新目标网络:
θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
(7e),输出最终子任务分配策略π(s)=argmaxa∈AQ(s,a,θQ)。
有益效果:基于DDPG深度强化学习的可拆分任务卸载算法:STO-DDPG算法用于星地融合网络移动边缘计算,首先针对星地融合网络中的用户、任务卸载节点以及用户与节点间的链路给出具体网络模型,给出了基于不同任务卸载节点的服务延迟计算公式。然后,将系统所有用户总服务时延的最小值定义为任务卸载的优化目标函数。针对上述的优化目标,基于DDPG算法,将星地融合网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,每个MEC服务器中每个用户的计算资源分配矩阵定义为状态,依据系统总服务时延设计奖励收益函数,通过智能体不断地与环境交互,优化训练DDPG网络参数,执行训练好的网络,最终得到优化问题的最优解。最后,通过设计多组的仿真对比实验,不仅分析了STO-DDPG算法的收敛性能,也从多个角度对比了STO-DDPG算法与Full-Local算法、Full-Offload算法以及基于DQL的DQL-based算法的性能差异,从仿真结果中可以看出STO-DDPG算法性能表现更好。
附图说明
图1为本发明实施例提供的一种星地融合网络移动边缘计算结构图;
图2为本发明实施例提供的基于星地融合网络移动边缘计算的任务拆分示意图;
图3为本发明实施例提供的星地融合网络密集与稀疏用户任务卸载方式对比图;
图4为本发明实施例提供的DDPG移动边缘计算优化示意图。
具体实施方式
本发明的核心思想在于:基于DDPG算法,将星地融合网络中的用户设计为智能体,所有用户子任务分配策略的集合设计为动作,每个MEC服务器中每个用户的计算资源分配矩阵定义为状态,依据系统总服务时延设计奖励收益函数,通过智能体不断地与环境交互,优化训练DDPG网络参数,执行训练好的网络,最终得到优化问题的最优解。
下面对本发明做进一步详细描述。
步骤(1),建立系统网络模型,整个系统网络模型由卫星节点、地面基站节点、地面服务器节点和中枢控制平台四部分组成;包括如下具体步骤:
(1a),卫星MEC服务器不仅可以服务于城市中的密集人群,也可以为海上船只、沙漠、山区等人口密度较低地区的用户提供服务,这些地区用户的地面网络建设相对匮乏,因此卫星MEC是对地面MEC的补充。卫星MEC服务器具体可以表示为:
m={Cm,Bm,Rm,Sm,Um}
其中Cm表示卫星MEC服务器m的总计算资源(以CPU周期为单位),Bm为卫星信道带宽,Rm为卫星与地面之间的链路传输速率,Sm表示卫星与用户之间的距离,这里用卫星的轨道高度来表示,Um表示卸载在m服务器上的用户任务量形成的集合;
(1b),星地链路的传输速率Rm具体表示为:
其中p为用户传输功率,表示卫星信道中的高斯白噪声,hm为卫星信道总传输增益,具体可以表示为:
hm=|Hm|2GmLm
其中Hm是卫星和用户之间的莱斯信道矩阵,Gm为天线增益,Lm是星地链路的传播损耗。
(1c),地面MEC服务器与用户之间的距离更近,整个服务的通信时延更低,因此地面MEC服务器承担着整个系统中绝大部分的任务卸载工作。地面MEC服务器具体可以表示为:
n={Cn,Bn,Rn,Sn,Un}
其中地面链路的传输速率Rn具体表示为:
其中地面信道传输增益hn通常与距离的幂次方成反比,具体可以表示为:
hn=(dis)
其中dis表示用户与地面MEC服务器之间的距离,λ表示路径损耗因子;
(1d),用户集合可以用I={1,2,3,...,I}来表示,每个用户模型表示为:
i={Xi,Ci,Di,Zi}
其中,Xi表示用户i的总计算任务量,Ci表示用户i本地的计算资源量,Di表示用户i的总计算任务传输数据量,Zi表示用户i的子任务分配决策集,即用户i分配到自身及每个MEC服务器的计算任务比例,具体表示为:
其中表示用户i本地处理的任务比例,其他值为相应的卸载到MEC服务器的任务比例。对于每个Zi满足:
即用户总任务卸载比例之和为1;
(1e),系统控制平台用于整合系统的计算资源,依据用户的任务卸载比例分配计算资源,并返回卸载结果,优化卸载比例。
步骤(2),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算服务延迟,包括如下具体步骤:
(2a),本地任务处理,对于卸载到用户本地处理的子任务,整个服务时延只包含子任务处理延迟,具体可以表示为:
(2b),地面MEC服务器卸载,对于卸载至地面网络中的子任务,整个服务延迟包括计算及传输延迟两部分。与大部分的研究所讨论的一样,由于计算返回结果的数据量远远小于任务本身的数据量,因此忽略下行传输带来的时延。此时用户i卸载至第n个地面服务器的服务延迟可以表示为:
其中为n服务器给i用户分配的计算资源量,为了避免任务拆分后卸载到MEC服务器的子任务计算量可能存在的较大差异,按照计算量的比例为不同的子任务分配计算资源,具体表示为:
(2c),卫星MEC服务器卸载
当地面用户向卫星MEC服务器卸载子任务时,星地链路之间的长传输时延是无法避免的,同时每个卫星中因为嵌入了一个MEC服务器,会相应的增加卫星的建设成本以及能量消耗,不过得益于卫星的大面积覆盖能力,此时所有地面用户都可以连接至卫星,从卫星MEC卸载服务中受益。对于卸载至卫星网络中的子任务,整个服务延迟包括计算、传输及传播延迟,且同样不考虑下行传输延迟。此时用户i卸载至第m个卫星服务器的服务延迟可以表示为:
其中表示链路传播延迟,c为光速。
步骤(3),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算每个用户的开销;包括如下具体步骤:
(3a),用户开销即用户整个卸载任务周期内的能耗,基于上述的模型描述,本地计算开销为,对于在本地处理的子任务,用户处理计算任务时的开销与其自身的计算能力以及处理的任务CPU周期总数的平方成正比,因此,用户本地计算的开销可以表示为
其中,δ为一个常量,这里取10-27
(3b)子任务传输开销为,对于卸载到MEC的子任务来说,用户需要以恒定的功率传输子任务,直到任务传输结束,同样因计算结果数据量远小于任务本身数据量,因此下行传输开销可以忽略不计。
当i用户选择卸载至n地面MEC服务器时的子任务传输开销为:
i用户选择卸载至m卫星MEC服务器的子任务传输开销为:
(3c)子任务处理等待开销为,当卸载至MEC的子任务传输结束时,用户需要以pt的待机功率等待MEC任务处理结束,此时的用户开销即为等待开销。用户i的等待开销值为:
(3d),用户i的总开销spi为本地计算开销、子任务传输开销和子任务处理等待开销之和,具体表达式为:
整个系统的总开销SP为所有用户开销之和,具体表示为:
步骤(4),提出优化目标,建立基于DDPG的移动边缘计算策略模型优化方案,建立基于移动边缘计算的DDPG算法模型;包括如下具体步骤:
(4a),对于用户采用的可拆分的任务卸载模式,在上述条件下,由于整个系统计算资源是共享的,因此用户任务分配决策之间会相互影响。对移动边缘计算提出优化问题如下:
优化目标:
约束条件:
其中优化目标为最小化整个网络总服务时延,约束条件c1保证每个用户无论通过本地处理或MEC卸载处理,均完成了所有的子任务,约束条件c2表示所有用户的每个子任务服务时延均应小于预先设定的最大时延门限值,从而确保每个用户最终的服务时延满足要求。
(4b),状态s:状态s表征整个系统当前时刻的具体情况,对于星地融合网络移动边缘计算模型中的状态可以表示为下式:
以每个MEC服务器中每个用户的计算资源分配矩阵作为状态s,当用户i未向n服务器卸载子任务时,其计算资源分配量为0,即因此,该矩阵可以同时表征系统计算资源分配情况以及用户任务卸载情况:
(4c),动作a:动作a为所有用户子任务分配策略的集合。对动作a的定义如下所示:
a={ProI×(M+N+1)}
其中ProI×(M+N+1)表示所有用户任务卸载分配集合,具体表示为:
ProI×(M+N+1)={Z1,Z2,...,Zi,...,ZI}
为了能够尽可能地对环境探索,同时也要使得算法最后能够稳定地收敛,对动作a添加一个逐次递减的干扰噪声,噪声服从下式所示的正态分布。其中噪声的方差σ是一个随着迭代递减的值,递减值为σt
其中μ为正态分布的均值,取值为未加干扰噪声之前的动作a。对干扰之后的动作做归一化处理,得到最终的动作a:
(4d),奖励r:奖励收益作为评估动作好坏的指标,很大程度上影响模型训练网络的性能。对上述模型中的奖励定义如下:
其中,Tth表示模型训练设定的时延阈值,可以看出,当总时延低于时延阈值时,奖励收益为正奖励,且总时延越低,奖励越大;当总时延高于时延阈值时,奖励收益为负奖励,且总时延越大,惩罚越大,因此达到最小化总服务时延的目标。
步骤(5),用户生成计算任务,选择子任务卸载位置及相应的子任务卸载比例,每个用户的子任务卸载比例在满足总比例之和为1的前提下,由系统控制平台计算每个子任务的卸载服务时延,所有子任务时延均需要小于预设的时延门限值,计算本地处理、地面MEC卸载和卫星MEC卸载中所有子任务的服务时延,构建DDPG深度神经网络;
步骤(6),网络训练:取深度神经网络经验池中的小批量数据训练网络,当系统总服务时延稳定在最低点附近或者算法总回报值不再上升时,整个网络的性能不会再继续优化提升,此时算法收敛,保存网络参数;包括如下具体步骤:
(6a),初始化网络系统的属性参数:计算资源、分配策略等;
(6b),初始化回放经验池Buffer,设定软更新学习率τ和折扣因子γ;
(6c),随机初始化critic网络Q(s,a,θQ)和actor网络μ(s,θu),以critic网络和actor网络的参数初始化target网络Q′和μ′;
(6d),对于每次迭代,执行:选择行动值并添加随机噪声:a=f(a),依据a策略卸载子任务并分配计算资源,得到回报r及下一步状态s′,存储(s,a,r,s′)到经验池Buffer中,从经验池中抽出一个batch的数据,依据target网络计算y=r+γQ′(s′,μ′(s′,θμ′);θQ′),以最小化loss值更新critic网络:
Loss=∑i(yi-Q(si,ai,θQ))2/N
以采样策略梯度更新策略,更新目标网络:
θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
步骤(7),网络执行:执行训练好的网络模型,由于该系统模型是高度动态的,因此采用一边执行一边训练的方式,即不断调整网络参数,得出最优的子任务分配策略。包括如下具体步骤:
(7a),初始化网络系统的属性参数:计算资源、分配策略等;
(7b),初始化回放经验池Buffer,设定软更新学习率τ和折扣因子γ;
(7c),依据a策略卸载子任务并分配计算资源,得到回报r及下一步状态s′,存储(s,a,r,s′)到经验池Buffer中,从经验池中抽出一个batch的数据,依据target网络计算y=r+γQ′(s′,μ′(s′,θμ′);θQ′),以最小化loss值更新critic网络:Loss=∑i(yi-Q(si,ai,θQ))2/N,以采样策略梯度更新策略,更新目标网络:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′
(7e),输出最终子任务分配策略π(s)=argmaxa∈AQ(s,a,θQ)。
在图1中,描述了一种星地融合网络移动边缘计算结构图,整个星地融合网络移动边缘计算模型主要由卫星网络、地面网络、地面用户及系统控制平台组成。
在图2中,描述了基于星地融合网络移动边缘计算的任务拆分示意图。用户1的计算任务被拆分成了1∶1∶2的三部分,其中25%在本地处理,25%在服务器1中处理,剩余50%在服务器2中处理,用户2的任务同理,也可以拆分成多个部分,并选择在不同的MEC服务器中并行处理。
在图3中,描述了密集与稀疏用户任务卸载方式对比图。
在图4中,描述了DDPG移动边缘计算优化示意图。
根据对本发明的说明,本领域的技术人员应该不难看出,本发明采用的基于DDPG的可拆分任务卸载方法STO-DDPG可以提高系统能效并且能保证系统性能。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.一种基于DDPG的星地融合网络移动边缘计算资源分配方法,其特征在于,包括步骤如下:
(1),建立系统网络模型,整个系统网络模型由卫星节点、地面基站节点、地面服务器节点和中枢控制平台四部分组成;
(2),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算服务延迟
(3),基于上述的模型描述,依据两种用户环境下的任务卸载方式,计算每个用户的开销;
(4),提出优化目标,建立基于DDPG的移动边缘计算策略模型优化方案,建立基于移动边缘计算的DDPG算法模型;
(5),用户生成计算任务,选择子任务卸载位置及相应的子任务卸载比例,计算本地处理、地面MEC卸载和卫星MEC卸载中所有子任务的服务时延,构建DDPG深度神经网络;
(6),网络训练:取深度神经网络经验池中的小批量数据训练网络,当系统总服务时延稳定在最低点附近或者算法总回报值不再上升时,整个网络的性能不会再继续优化提升,此时算法收敛,保存网络参数;
(7),网络执行:执行训练好的网络模型,由于该系统模型是高度动态的,因此采用一边执行一边训练的方式,即不断调整网络参数,得出最优的子任务分配策略;
进一步的,所述步骤(4)包括如下具体步骤:
(4a),对于用户采用的可拆分的任务卸载模式,在上述条件下,由于整个系统计算资源是共享的,因此用户任务分配决策之间会相互影响,对移动边缘计算提出优化问题如下:
优化目标:
约束条件:
其中优化目标为最小化整个网络总服务时延,约束条件c1保证每个用户无论通过本地处理或MEC卸载处理,均完成了所有的子任务,约束条件c2表示所有用户的每个子任务服务时延均应小于预先设定的最大时延门限值,从而确保每个用户最终的服务时延满足要求;
(4b),状态s:状态s表征整个系统当前时刻的具体情况,对于星地融合网络移动边缘计算模型中的状态可以表示为下式:
以每个MEC服务器中每个用户的计算资源分配矩阵作为状态s,当用户i未向n服务器卸载子任务时,其计算资源分配量为0,即因此,该矩阵可以同时表征系统计算资源分配情况以及用户任务卸载情况;
(4c),动作a:动作a为所有用户子任务分配策略的集合,对动作a的定义如下所示:
a={ProI×(M+N+1)}
其中ProI×(M+N+1)表示所有用户任务卸载分配集合,具体表示为:
ProI×(M+N+1)={Z1,Z2,...,Zi,...,ZI}
为了能够尽可能地对环境探索,同时也要使得算法最后能够稳定地收敛,对动作a添加一个逐次递减的干扰噪声,噪声服从下式所示的正态分布,其中噪声的方差σ是一个随着迭代递减的值,递减值为σt
其中μ为正态分布的均值,取值为未加干扰噪声之前的动作a,对干扰之后的动作做归一化处理,得到最终的动作a:
(4d),奖励r:奖励收益作为评估动作好坏的指标,很大程度上影响模型训练网络的性能,对上述模型中的奖励定义如下:
其中,Tth表示模型训练设定的时延阈值,可以看出,当总时延低于时延阈值时,奖励收益为正奖励,且总时延越低,奖励越大;当总时延高于时延阈值时,奖励收益为负奖励,且总时延越大,惩罚越大,因此达到最小化总服务时延的目标。
CN202310861667.XA 2023-07-13 2023-07-13 一种基于ddpg的星地融合网络移动边缘计算资源分配方法 Pending CN116886158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310861667.XA CN116886158A (zh) 2023-07-13 2023-07-13 一种基于ddpg的星地融合网络移动边缘计算资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310861667.XA CN116886158A (zh) 2023-07-13 2023-07-13 一种基于ddpg的星地融合网络移动边缘计算资源分配方法

Publications (1)

Publication Number Publication Date
CN116886158A true CN116886158A (zh) 2023-10-13

Family

ID=88269363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310861667.XA Pending CN116886158A (zh) 2023-07-13 2023-07-13 一种基于ddpg的星地融合网络移动边缘计算资源分配方法

Country Status (1)

Country Link
CN (1) CN116886158A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519995A (zh) * 2024-01-05 2024-02-06 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519995A (zh) * 2024-01-05 2024-02-06 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法
CN117519995B (zh) * 2024-01-05 2024-03-22 中国人民解放军陆军指挥学院 一种星地网络移动边缘计算资源分配方法

Similar Documents

Publication Publication Date Title
CN114362810B (zh) 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN111930436A (zh) 一种基于边缘计算的随机型任务排队卸载优化方法
Cui et al. Latency optimization for hybrid GEO–LEO satellite-assisted IoT networks
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN110856259A (zh) 移动边缘计算环境中自适应数据块大小的资源分配和卸载方法
CN115659803A (zh) 一种无人机孪生网络映射误差情况下计算任务智能卸载方法
CN117519995B (zh) 一种星地网络移动边缘计算资源分配方法
CN114880046B (zh) 联合卸载决策和带宽分配的低轨卫星边缘计算卸载方法
CN114866133B (zh) 一种卫星云边协同计算的计算卸载方法
CN116886158A (zh) 一种基于ddpg的星地融合网络移动边缘计算资源分配方法
CN114884949B (zh) 基于maddpg算法的低轨卫星物联网任务卸载方法
CN115499875B (zh) 一种卫星互联网任务卸载方法、系统以及可读存储介质
CN118250750B (zh) 基于深度强化学习的卫星边缘计算任务卸载及资源分配方法
CN116723548A (zh) 一种基于深度强化学习的无人机辅助计算卸载方法
Chen et al. An intelligent task offloading algorithm (iTOA) for UAV network
Chen et al. Energy and Time-Aware Inference Offloading for DNN-based Applications in LEO Satellites
CN111611069B (zh) 多数据中心间多类型任务迁移方法
CN114614878B (zh) 星地网络中基于矩阵-向量乘法任务的编码计算分配方法
CN116566466A (zh) 一种面向低轨卫星星座的多目标动态偏好星地协同计算卸载方法
CN114745386B (zh) 一种多用户边缘智能场景下的神经网络分割及卸载方法
Shi et al. Joint Optimization of Task Offloading and Resource Allocation in Satellite-Assisted IoT Networks
CN114513814A (zh) 基于无人机辅助节点的边缘网络计算资源动态优化方法
Chen et al. Spaceedge: Optimizing service latency and sustainability for space-centric task offloading in leo satellite networks
Bi et al. Latency-minimized Computation Offloading in Fog Computing with Hybrid Whale optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination