CN114928394A - 一种能耗优化的低轨卫星边缘计算资源分配方法 - Google Patents

一种能耗优化的低轨卫星边缘计算资源分配方法 Download PDF

Info

Publication number
CN114928394A
CN114928394A CN202210356235.9A CN202210356235A CN114928394A CN 114928394 A CN114928394 A CN 114928394A CN 202210356235 A CN202210356235 A CN 202210356235A CN 114928394 A CN114928394 A CN 114928394A
Authority
CN
China
Prior art keywords
low
orbit satellite
task
mobile terminal
ground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210356235.9A
Other languages
English (en)
Inventor
吴昊南
杨秀梅
卜智勇
赵宇
唐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Institute of Microsystem and Information Technology of CAS
Original Assignee
Shanghai Institute of Microsystem and Information Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Institute of Microsystem and Information Technology of CAS filed Critical Shanghai Institute of Microsystem and Information Technology of CAS
Priority to CN202210356235.9A priority Critical patent/CN114928394A/zh
Publication of CN114928394A publication Critical patent/CN114928394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18519Operations control, administration or maintenance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/391Modelling the propagation channel
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法,包括:获取动态的低轨卫星边缘计算网络的环境状态信息;根据环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销为地面移动终端和低轨卫星的处理能耗的加权之和;基于优化问题模型,定义强化学习模型的核心要素,并设计状态评价函数来优化状态空间;利用基于优化DQN的深度强化学习算法求解深度强化学习模型;基于求解结果,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器。本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的计算资源分配问题,提高了计算效率,降低了系统能耗开销。

Description

一种能耗优化的低轨卫星边缘计算资源分配方法
技术领域
本发明属于无线通信技术领域,具体涉及一种能耗优化的低轨卫星边缘计算资源分配方法。
背景技术
在低轨卫星边缘计算网络中,面临的一大关键挑战是如何处理亟需能源的计算密集型任务和有限资源的计算服务提供设备之间的矛盾。然而,在目前的低轨卫星边缘计算网络研究中,通常设计仅针对地面移动终端或低轨卫星的任务处理能耗作为系统的优化目标,而忽略将其两者都纳入任务处理能耗开销。结合低轨卫星边缘计算网络场景,由于低轨卫星具有高速移动、电池容量和计算能力有限的特点,低轨卫星边缘计算网络中网络环境信息动态更新,导致环境状态信息具有较高的维度。并且,环境状态空间以及计算资源分配解空间维度随着任务、低轨卫星和地面云服务器数量增加而指数性增长,这要求计算资源分配求解方法具有一定的泛化能力和拓展性。
目前低轨卫星边缘计算网络的研究主要以最小化卫星能耗或地面移动终端能耗为单一优化目标,尚未将其两者同时纳入系统能耗开销进行联和优化,并缺乏在低轨卫星高速移动、资源受限的情况下对计算资源分配方法进一步的研究。
在文献[1]中,研究人员以最小化网络中的地面移动终端的能耗开销为优化目标,通过将资源分配优化问题拆分成多个凸优化问题来逐次利用基于传统优化理论的方法进行求解。在文献[2]中,研究人员在动态网络环境中以最小化地面移动终端能耗为优化目标,将非凸问题转换为线性规划问题,利用交替方向乘子法获取最优计算资源分配策略。然而,在实际低轨卫星边缘计算网络场景中,考虑到低轨卫星高速移动和有限资源的特点,上述方法难以根据动态网络环境状态进行定制化求解,易受到系统扰动影响,存在通用性和拓展性较差的问题,在计算效率上存在瓶颈。
因此,如何以最小化地面移动终端和低轨卫星的加权系统能耗开销为目标,在考虑低轨卫星的高移动性,受限资源的情况下优化动态低轨卫星边缘计算网络的系统的计算资源分配是低轨卫星边缘计算网络需要考虑的关键问题。
参考文献:
[1]Z.Song,Y.Hao,Y.Liu,and X.Sun,“Energy-efficient multiaccessedgecomputing for terrestrial-satellite internet of things,”IEEE InternetofThings Journal,vol.8,no.18,pp.14 202–14 218,2021.
[2]Q.Tang,Z.Fei,B.Li and Z.Han,"Computation Offloading in LEOSatellite Networks With Hybrid Cloud and Edge Computing,"in IEEE Internet ofThings Journal,vol.8,no.11,pp.9164-9176,1June1,2021.
发明内容
本发明的目的在于提供一种能耗优化的低轨卫星边缘计算资源分配方法,以在低轨卫星快速移动和资源有限的情况下,提高计算效率,降低系统能耗开销。
基于上述问题,本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法,包括:
S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和;
S3:基于优化问题模型,定义强化学习模型的状态空间、动作空间和收益函数,并设计状态评价函数来优化所述状态空间;
S4:利用基于优化DQN的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中;
S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
优选地,所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
优选地,所述步骤S1包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络;地面移动终端的集合、低轨卫星的集合和地面云服务器的集合分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星建立连接;
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000031
描述为
Figure BDA0003583002980000032
其中,
Figure BDA0003583002980000033
表示为任务载荷的数据大小,
Figure BDA0003583002980000034
表示为任务载荷所需的CPU处理周期数;将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为
Figure BDA0003583002980000035
M为地面移动终端的数量;
步骤S13:设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为
Figure BDA0003583002980000036
得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长;
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
优选地,低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长
Figure BDA0003583002980000041
为:
Figure BDA0003583002980000042
其中,TLEO为低轨卫星的运行周期,
Figure BDA0003583002980000043
为地面移动终端m和低轨卫星n之间的地心角;
地面移动终端m和低轨卫星n之间的地心角
Figure BDA0003583002980000044
为:
Figure BDA0003583002980000045
其中,R为地球半径,H为轨道高度,
Figure BDA0003583002980000046
为地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角;
低轨卫星的运行周期TLEO为:
Figure BDA0003583002980000047
其中,R为地球半径,H为轨道高度,μ表示开普勒常数。
优选地,所述步骤S2包括:
步骤S21:将地面移动终端生成的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为
Figure BDA0003583002980000048
Figure BDA0003583002980000049
为第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000410
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,
Figure BDA00035830029800000411
为将第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000412
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次的任务集合中的多个任务能够选择不同的任务调度方式;任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理;
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
优选地,第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000051
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量
Figure BDA0003583002980000052
为:
Figure BDA0003583002980000053
其中,
Figure BDA0003583002980000054
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000055
被调度至低轨卫星n执行;
Figure BDA0003583002980000056
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000057
未被调度至低轨卫星n执行;
第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000058
调度至低轨卫星边缘计算网络中的各低轨卫星的决策和
Figure BDA0003583002980000059
Figure BDA00035830029800000510
将第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000511
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量
Figure BDA00035830029800000512
为:
Figure BDA00035830029800000513
其中,
Figure BDA00035830029800000514
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000515
通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA00035830029800000516
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000517
未通过低轨卫星n被调度至地面云服务器j执行;
第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000518
通过低轨卫星被调度至各个地面云服务器的决策和为
Figure BDA00035830029800000519
Figure BDA00035830029800000520
优选地,所述优化问题模型为:
Figure BDA00035830029800000521
Figure BDA00035830029800000522
Figure BDA00035830029800000523
Figure BDA00035830029800000524
Figure BDA00035830029800000525
Figure BDA00035830029800000526
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;
Figure BDA0003583002980000061
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000062
被调度至低轨卫星n执行;
Figure BDA0003583002980000063
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000064
未被调度至低轨卫星n执行;
Figure BDA0003583002980000065
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000066
通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA0003583002980000067
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000068
未通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA0003583002980000069
分别是第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000610
在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;
Figure BDA00035830029800000611
为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;
Figure BDA00035830029800000612
为低轨卫星n为第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000613
分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;
Figure BDA00035830029800000614
是第k批次任务开始执行时低轨卫星n的电池使用状态。
优选地,所述强化学习模型的状态空间中的每个状态sk包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
状态评价函数gk为:
gk={gk,1,gk,2,gk,3},
其中,
Figure BDA00035830029800000615
表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000616
对应的第三约束条件C3
Figure BDA00035830029800000617
表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800000618
对应的第三约束条件C3
Figure BDA00035830029800000619
表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件,反之,
Figure BDA00035830029800000620
Figure BDA00035830029800000621
表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件,反之,
Figure BDA00035830029800000622
所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak包括:
ak={ck,fk,GMT,fk,LEO,fk,GCS},
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量;
所述强化学习模型的受益函数包括瞬时收益函数和累积收益函数;
所述强化学习模型的瞬时收益函数rk为:
Figure BDA0003583002980000071
其中,
Figure BDA0003583002980000072
为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000073
在地面移动终端的任务处理能耗,
Figure BDA0003583002980000074
为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000075
在低轨卫星的任务处理能耗;
所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于系统的计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数表示为:
Figure BDA0003583002980000076
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,k表示当前执行任务的批次。
在所述步骤S4中,在所述强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),此时深度强化学习模型求解完成。
在所述步骤S5中,智能体将第k批次获取收集环境状态信息作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk ,GMT,fk,LEO,fk,GCS},并分发至各地面移动终端、低轨卫星和地面云服务器。
本发明的方法构建以最小化地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权系统能耗开销为目标的优化问题模型,使得智能体在考虑低轨卫星高速移动,有限能源和计算资源的情况下分发系统最优计算资源分配策略,完成任务执行,实现了低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器的计算资源分配并降低了系统能耗开销;此外,以MDP为框架定义了优化问题在强化学习模型下的核心要素,并根据系统约束设计状态评价函数优化状态空间,来获取系统的计算资源分配策略,由此,实现了高效的计算资源分配策略,提高了计算效率。此外,本发明基于优化DQN的深度强化学习算法,进一步高效地计算资源分配策略,提高了计算效率。
综上,本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的低轨卫星边缘计算资源分配问题,提高了计算效率,降低了系统能耗开销。
附图说明
图1是本发明的能耗优化的低轨卫星边缘计算资源分配方法的流程图。
图2是本发明的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构示意图。
图3是本发明的能耗优化的低轨卫星边缘计算资源分配方法的实验场景示例图。
图4是低轨卫星的圆轨道模型图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明针对现有技术的不足,提出了一种能耗优化的低轨卫星边缘计算资源分配方法。本发明的能耗优化的低轨卫星边缘计算资源分配方法以最小化地面移动终端和低轨卫星能耗的加权系统能耗开销为优化目标,该方法利用动态低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器进行计算资源分配,设计合理的强化学习模型核心要素和状态评价函数简化状态空间,基于优化DQN的深度强化学习算法,获取优化的计算资源分配策略,并进行策略分发。
如图1所示,本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体步骤如下:
步骤S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
其中,智能体位于地面和卫星上均可,通常位于地面上。在本实施例中,智能体优选为地面云服务器。
本发明考虑的系统,即低轨卫星边缘计算网络由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成,地面移动终端的集合、低轨卫星的集合和地面云服务器的集合可以分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量。
所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk,其用于确定地面移动终端生成的任务的状态信息向量;第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk,其用于确定低轨卫星的覆盖情况;任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk,其用于反映地面云服务器对任务的可见性;和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk,其用于反映低轨卫星的电池使用状态。
这是由于,第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000091
的计算资源分配策略取决于地面移动终端生成的任务的状态信息向量(即地面移动终端生成的第k批次的任务集合的状态信息向量Wk)、低轨卫星的覆盖情况(即第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk)、地面云服务器对任务的可见性(即任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk)和低轨卫星的电池使用状态(即第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk)。
在所述步骤S1中,在获取所述低轨卫星边缘计算网络的环境状态信息,包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络,地面移动终端和低轨卫星均具有处理任务的移动边缘计算能力,地面云服务器具有计算能力;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星实现可见的星地传输链路中转,进而通过低轨卫星建立连接。
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000101
描述为
Figure BDA0003583002980000102
其中,
Figure BDA0003583002980000103
表示为任务载荷的数据大小,
Figure BDA0003583002980000104
表示为任务载荷所需的CPU处理周期数。随后,将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为
Figure BDA0003583002980000105
M为地面移动终端的数量。
步骤S13:考虑到低轨卫星在实际场景的高速移动性,设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为
Figure BDA0003583002980000106
得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及相应的整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长,从而确定低轨卫星的覆盖情况。
此时,地面移动终端m和低轨卫星n之间的地心角
Figure BDA0003583002980000107
可以表示为:
Figure BDA0003583002980000108
其中,R为地球半径,H为轨道高度,
Figure BDA0003583002980000109
为地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角,m、n分别为地面移动终端和低轨卫星的序数。
第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk可以表示为:
Figure BDA0003583002980000111
对于位于轨道高度H的低轨卫星,该低轨卫星的运行周期TLEO为:
Figure BDA0003583002980000112
其中,R为地球半径,H为轨道高度,μ表示开普勒常数。
因此,低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长
Figure BDA0003583002980000113
可以表示为:
Figure BDA0003583002980000114
其中,TLEO为低轨卫星的运行周期,
Figure BDA0003583002980000115
为地面移动终端m和低轨卫星n之间的地心角。
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001111
时的可见性可以表示为
Figure BDA0003583002980000116
其中,
Figure BDA0003583002980000117
表示地面云服务器j可用于处理第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000118
k表示任务批次,m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数。相应地,可以根据低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000119
时的可见性
Figure BDA00035830029800001110
以及第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk,来得到第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk。在低轨卫星和地面云服务器之间的可见性成立的前提下(低轨卫星和地面云服务器之间可见),第k批次任务开始执行时地面移动终端在低轨卫星在服务覆盖范围内,则确定第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为1,否则,第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为0。
第k批次任务开始执行时低轨卫星n的电池使用状态可以表示为
Figure BDA0003583002980000121
整个低轨卫星边缘计算网络中,第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk可以表示为
Figure BDA0003583002980000122
步骤S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。
所述步骤S2包括:
步骤S21:将所有地面移动终端的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为
Figure BDA0003583002980000123
Figure BDA0003583002980000124
为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000125
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,
Figure BDA0003583002980000126
为将第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000127
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次(例如第k批次)的任务集合中的多个任务能够选择不同的任务调度方式。
根据不同网络环境和任务需求,任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理。也就是说,第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000128
可以选择在本地进行处理、传输至低轨卫星进行处理或通过低轨卫星传输至地面云服务器进行处理。
对于低轨卫星边缘计算网络中的所有地面移动终端的第k批次的任务集合的状态信息向量Wk,描述对应的任务调度方式向量
Figure BDA0003583002980000129
可以表示为:
Figure BDA00035830029800001210
Figure BDA00035830029800001211
为第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001212
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量。
其中,将第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001213
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量
Figure BDA00035830029800001214
可以表示为:
Figure BDA00035830029800001215
其中,
Figure BDA00035830029800001216
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001217
被调度至低轨卫星n执行;
Figure BDA00035830029800001218
表示任务
Figure BDA00035830029800001219
未被调度至低轨卫星n执行。
因此,第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000131
调度至低轨卫星边缘计算网络中的各低轨卫星的决策和
Figure BDA0003583002980000132
可以表示为
Figure BDA0003583002980000133
其中,将第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000134
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量
Figure BDA0003583002980000135
可以表示为:
Figure BDA0003583002980000136
其中,
Figure BDA0003583002980000137
表示第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000138
通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA0003583002980000139
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001310
未通过低轨卫星n被调度至地面云服务器j执行。
因此,第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001311
通过低轨卫星被调度至各个地面云服务器的决策和
Figure BDA00035830029800001312
可以表示为
Figure BDA00035830029800001313
由于对于任何的m、k,第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001314
每次仅能选择一种任务调度方式,因此,可以得到:
Figure BDA00035830029800001315
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
下面以第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001316
为例,说明第k批次的任务集合中的每一个任务所对应的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗。
(a)具体地,当第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001317
选择在本地执行的策略时,可以得到
Figure BDA00035830029800001318
地面移动终端在执行本地任务分配的计算资源表示为
Figure BDA00035830029800001319
那么低轨卫星边缘计算网络中,地面移动终端对第k批次任务集合中各任务分配的计算资源向量可以表示为:
Figure BDA00035830029800001320
其中,
Figure BDA00035830029800001321
为第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001322
在执行本地任务分配的计算资源。
需要说明的是,若一部分任务采用了其他非本地执行的策略,这个采用了其他策略的任务的终端计算资源依然用此表示,只是对应的终端计算资源为0。
此时,第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000141
的处理时延
Figure BDA0003583002980000142
等于该任务
Figure BDA0003583002980000143
的计算时延
Figure BDA0003583002980000144
可以表示为
Figure BDA0003583002980000145
第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000146
的任务处理能耗
Figure BDA0003583002980000147
等于地面移动终端的任务处理能耗
Figure BDA0003583002980000148
也等于地面移动终端的任务计算能耗
Figure BDA0003583002980000149
Figure BDA00035830029800001410
其中ζ表示芯片能耗系数,芯片能耗系数ζ用于计算任务处理能耗。
(b)具体地,当第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001411
选择被调度至低轨卫星的策略时,可以得到第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001412
调度至低轨卫星边缘计算网络中的各低轨卫星的决策和
Figure BDA00035830029800001413
低轨卫星n为第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001414
分配的计算资源表示为
Figure BDA00035830029800001415
那么低轨卫星对第k批次任务集合中各任务分配的计算资源向量可以表示为
Figure BDA00035830029800001416
由于各低轨卫星的计算资源有限,分配给各任务的计算资源和不能超过低轨卫星拥有的计算资源
Figure BDA00035830029800001417
地面移动终端和执行任务的低轨卫星之间的传播时延
Figure BDA00035830029800001418
任务上传至低轨卫星的传输时延
Figure BDA00035830029800001419
以及执行任务的低轨卫星的任务计算时延
Figure BDA00035830029800001420
Figure BDA00035830029800001421
第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001422
的任务处理能耗
Figure BDA00035830029800001423
包括地面移动终端的任务处理能耗
Figure BDA00035830029800001424
和低轨卫星的任务处理能耗
Figure BDA00035830029800001425
Figure BDA00035830029800001426
其中,地面移动终端的任务处理能耗
Figure BDA00035830029800001427
等于任务上传至低轨卫星的传输能耗
Figure BDA00035830029800001428
Figure BDA00035830029800001429
低轨卫星的任务处理能耗
Figure BDA00035830029800001430
包括接收任务的传输能耗
Figure BDA00035830029800001431
和任务的计算能耗
Figure BDA00035830029800001432
Figure BDA00035830029800001433
(c)具体地,当第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001434
选择通过低轨卫星被调度至地面云服务器进行处理的策略时,可以得到第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000151
通过低轨卫星被调度至各个地面云服务器的决策和
Figure BDA0003583002980000152
第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000153
通过低轨卫星n被调度至地面云服务器j分配的计算资源表示为
Figure BDA0003583002980000154
那么地面云服务器对第k批次任务集合中各任务分配的计算资源向量可以表示为
Figure BDA0003583002980000155
此时,第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001539
的处理时延
Figure BDA0003583002980000156
包括地面移动终端通过低轨卫星中转至执行任务的地面云服务器之间的传播时延
Figure BDA0003583002980000157
任务上传至中转低轨卫星的传输时延
Figure BDA0003583002980000158
任务通过低轨卫星卸载至地面云服务器的传输时延
Figure BDA0003583002980000159
以及执行任务的地面云服务器的任务计算时延
Figure BDA00035830029800001510
Figure BDA00035830029800001511
第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001512
的任务处理能耗
Figure BDA00035830029800001513
包括地面移动终端的任务处理能耗
Figure BDA00035830029800001514
和低轨卫星的任务处理能耗
Figure BDA00035830029800001515
Figure BDA00035830029800001516
其中,地面移动终端的任务处理能耗等于任务上传至低轨卫星的传输能耗
Figure BDA00035830029800001517
Figure BDA00035830029800001518
低轨卫星的任务处理能耗
Figure BDA00035830029800001519
包括接收任务的传输能耗
Figure BDA00035830029800001520
和下载任务的传输能耗
Figure BDA00035830029800001521
Figure BDA00035830029800001522
(d)综合上述的第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001523
在不同调度方式下的描述,第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001524
的处理时延
Figure BDA00035830029800001525
可以表示为
Figure BDA00035830029800001526
分别是第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001527
在任务调度方式为在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延(
Figure BDA00035830029800001528
中的其中两个的值是0)。因此,对于由移动地面终端集合M组成的第k批次任务集,最大的处理时延可以表示为
Figure BDA00035830029800001529
每当集合M的第k批次任务集均完成处理,集合M开始进行处理第k+1批次任务。第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001530
在地面移动终端的任务处理能耗
Figure BDA00035830029800001531
可以表示为
Figure BDA00035830029800001532
其中,
Figure BDA00035830029800001533
分别是第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001534
在任务调度方式为在本地进行处理和传输至低轨卫星进行处理时在地面移动终端的任务处理能耗。第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001535
在低轨卫星的任务处理能耗
Figure BDA00035830029800001536
可以表示为
Figure BDA00035830029800001537
其中,
Figure BDA00035830029800001538
Figure BDA0003583002980000161
分别是第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000162
在任务调度方式为传输至低轨卫星进行处理和通过低轨卫星传输至地面云服务器进行处理时在低轨卫星的任务处理能耗。
此外,考虑到任务的调度方式受到低轨卫星有限的电池容量所影响,在第k批次任务开始时需满足
Figure BDA0003583002980000163
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
本发明定义的系统能耗开销为地面移动终端的任务处理能耗与低轨卫星的任务处理能耗的加权之和。权重反映了地面移动终端能耗与低轨卫星能耗在系统能耗开销中的相对重要性,其中α∈[0,1]表示移动地面终端能耗占系统能耗开销的权重,(1-α)表示低轨卫星能耗占系统能耗开销的权重。
因此,以最小化系统能耗开销为优化目标的优化问题模型(即联合能耗优化问题)的具体描述如下:
Figure BDA0003583002980000164
Figure BDA0003583002980000165
Figure BDA0003583002980000166
Figure BDA0003583002980000167
Figure BDA0003583002980000168
Figure BDA0003583002980000169
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;
Figure BDA00035830029800001610
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001611
被调度至低轨卫星n执行;
Figure BDA00035830029800001612
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001613
未被调度至低轨卫星n执行;
Figure BDA00035830029800001614
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001615
通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA00035830029800001616
表示第m个地面移动终端的第k批次生成的任务
Figure BDA00035830029800001617
未通过低轨卫星n被调度至地面云服务器j执行;
Figure BDA00035830029800001618
分别是第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000171
在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;
Figure BDA0003583002980000172
为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;
Figure BDA0003583002980000173
为低轨卫星n为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000174
分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;
Figure BDA0003583002980000175
是第k批次任务开始执行时低轨卫星n的电池使用状态。
也就是说,第一、第二约束条件C1和C2表示每个任务(即
Figure BDA0003583002980000176
)仅能选择一种调度方式;第三约束条件C3表示每个任务若选取包括低轨卫星参与的任务调度方式,任务执行时延不应超过相应低轨卫星对任务的有效覆盖时间;第四约束条件C4表示指每个低轨卫星为处理任务集中各个任务所分配的计算资源之和不能超过可用计算资源上限;第五约束条件C5表示每个低轨卫星应保持可用能源状态始终大于0。
步骤S3:基于优化问题模型,定义强化学习模型的核心要素(即状态空间、动作空间和瞬时收益函数),并设计状态评价函数来优化所述状态空间;
在所述步骤S3中,使用马尔科夫决策过程(MarkovDecisionProcess,MDP)的框架来建立强化学习模型的求解方法。强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法,通过使用状态、动作和收益3个核心要素来定义智能体与环境交互的过程。
基于步骤2中建立的优化问题,本发明构建的强化学习模型的状态空间、动作空间和收益函数的定义如下:
状态空间:强化学习模型的状态空间中的每个状态对应于所述低轨卫星边缘计算网络的环境状态信息,其包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk等。
因此,在第k批次任务开始执行时的状态sk∈S表示为:
sk={Wkk,bk,Uk},
其中,Wk表示地面移动终端生成的第k批次的任务集合的状态信息向量;βk表示第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量;bk表示第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量;Uk表示第k批次任务开始执行时各低轨卫星的电池使用状态信息向量。
然而,由于sk具有无限的状态取值,且空间维度随着任务数量增加而指数增长,这对于获取高效的计算资源分配策略提出了较大的挑战。因此,本发明在优化问题的约束条件下设计了状态评价函数来反映当前状态sk在动作ak下的质量,实现简化具有无限取值的状态空间sk的目的。该状态评价函数gk可以表示为由二元变量组成的向量组,状态评价函数gk表示为:
gk={gk,1,gk,2,gk,3},
其中,
Figure BDA0003583002980000181
表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000182
对应的第三约束条件C3(即覆盖时间约束),即
Figure BDA0003583002980000183
表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000184
对应的第三约束条件C3(即覆盖时间约束),即
Figure BDA0003583002980000185
Figure BDA0003583002980000186
Figure BDA0003583002980000187
表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件(即低轨卫星n分配的计算资源不应超过所拥有计算资源上限的约束),即
Figure BDA0003583002980000188
反之,
Figure BDA0003583002980000189
Figure BDA00035830029800001810
Figure BDA00035830029800001811
表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件(即低轨卫星n的电池状态始终保持大于0的约束);反之,
Figure BDA00035830029800001812
动作空间:所述强化学习模型的动作空间中的每个动作包括任务调度方式和地面移动终端、低轨卫星和地面云服务器分配给各任务的计算资源。具体的,所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak∈A表示为:
ak={ck,fk,GMT,fk,LEO,fk,GCS}
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量。
其中,分配的计算资源数值为人为规定,通过将可分配最大的计算资源进行离散化处理来确定数值。
收益函数:瞬时收益函数rk被认为是状态sk在动作ak下环境的反馈。在以最小化任务处理的地面移动终端能耗和低轨卫星能耗组成的加权系统能耗开销为优化目标的计算资源分配问题中,所述强化学习模型的瞬时收益函数rk可以表示为:
Figure BDA0003583002980000191
其中,
Figure BDA0003583002980000192
为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000193
的地面移动终端的任务处理能耗,
Figure BDA0003583002980000194
为第m个地面移动终端的第k批次生成的任务
Figure BDA0003583002980000195
的低轨卫星的任务处理能耗。
参数的含义是地面移动终端能耗占系统能耗开销的权重,取值范围为[0,1]。
此时,所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于系统的计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数可以表示为:
Figure BDA0003583002980000196
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,用于收益求和计算,k表示当前执行任务的批次。k’和k的区别为k’为公式计算中引入的局部变量,k表示任务的第k批次。
步骤S4:利用基于优化DQN(深度Q网络)的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述强化学习模型;
上文中的步骤S3所构建的强化学习模型通过利用状态评价函数来替代原有的动作空间,实现将可能存在无穷数量的系统状态映射到离散有限的状态评价函数上。然而,此强化学习模型依然存在离散高维的输入和动作空间。
因此,为了高效地求解高性能计算资源分配策略,本发明在步骤S4中,所述强化学习模型为基于优化DQN的强化学习模型,在传统的强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),即Q(sk,ak;θ)≈Q*(sk,ak),Q(sk,ak;θ)表示利用神经网络参数θ拟合得到的sk状态下采取ak动作的拟合Q函数。此时对应的神经网络就是求解得到的度强化学习模型,深度强化学习模型求解完成。
其中,状态-动作对(sk,ak)∈A×S的Q函数Q(sk,ak)用来表示选择的状态-动作对的质量。基于贝尔曼等式,最优策略评估函数Q*(sk,ak)的计算方式可以表示为
Figure BDA0003583002980000201
E表示在sk+1不确定性下的期望,γ表示未来收益的折扣率,Q*(sk+1,ak+1)∣sk,ak表示在sk,ak条件下状态sk+1下采取ak+1动作的最优策略评估函数Q*(sk,ak)。因此,本发明提出的方法通过适配基于优化DQN的深度强化学习算法,克服了传统强化学习方法遇到在存储空间和计算效率上的瓶颈,降低了系统能耗开销,提高了网络性能。
本发明设计的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构如图2所示。
在该低轨卫星边缘计算网络中,地面云服务器作为智能体通过执行本发明的能耗优化的低轨卫星边缘计算资源分配方法来获取优化后的计算资源分配策略,并分发优化后的策略至网络中的各地面移动终端、低轨卫星和地面云服务器。在步骤S1中,智能体收集环境状态信息(由前述定义可知,环境状态信息具体包括以下信息:低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)。其次,智能体将环境状态信息通过状态评价函数映射生成反映当前状态质量的离散状态作为输入信息,输入至基于优化DQN的深度强化学习算法的网络中。
该深度强化学习算法的网络由分别名为在线网络和目标网络两个部分组成,被用于稳定和优化网络性能,在线网络通过最小化损失函数梯度更新来进行对应策略更新,目标网络用于限制在线网络策略更新幅度,稳定网络性能。其中,在线网络和目标网络的神经网络参数分别定义为θ和θ-。在线网络和目标网络具有相同的网络结构。目标网络每隔一定迭代次数从在线网络中复制网络参数θ用以更新自身的网络参数θ-
在线网络的网络参数θ在每次迭代中通过最小化对应的损失函数进行梯度更新,该损失函数可以表示为:
Figure BDA0003583002980000211
其中,y表示目标网络的Q函数值,Q(sk,ak;θ)表示利用在线网络的网络参数θ拟合得到的sk状态下采取ak动作的拟合Q函数,E[]表示在经验(sk,ak,rk,sk+1)不确定性下的期望,Lπ(θ)表示在策略π下的损失函数。
目标网络的Q函数值y的计算方式可以表示为:
Figure BDA0003583002980000212
其中,Q(sk+1,ak+1;θ-)表示利用目标网络的网络参数θ-拟合得到的sk状态下采取ak动作的拟合Q函数,γ为收益折扣率,rk为强化学习模型的瞬时收益函数rk
此外,DQN作为一种离线策略方法,利用经验回放机制,在每次任务批次k执行时,DQN将智能体获取的经验(sk,ak,rk,sk+1)存入经验回放池中,然后在每次网络参数更新时从经验回放池中随机采样小批量样本进行更新。本发明利用状态评价函数gk来替代状态sk,将智能体的经验替换为(gk,ak,rk,gk+1),简化输入的状态空间,进行参数更新。
在该深度强化学习算法的网络收集足够反映训练环境与智能体交互的样本经验集,并通过采样小批量样本经验回放获取了稳定收敛的计算资源分配策略后,结束训练优化,停止迭代。网络是否收集足够反映训练环境与智能体交互的样本经验集可以通过观察获取的计算资源分配策略的收益情况是否收敛稳定,也可以通过在线网络的损失函数收敛逼近0来判定。
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至系统内各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
在所述步骤S5中,智能体将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的强化学习模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至系统内各对应设备。
由此,本发明的能耗优化的低轨卫星边缘计算资源分配方法,其优势在于:
1)在包含地面移动终端、低轨卫星和地面云服务器的低轨卫星边缘计算网络中,以地面云服务器为智能体,考虑了包括低轨卫星对任务的动态覆盖情况、低轨卫星可分配的最大计算资源以及低轨卫星上的电池使用状态在内的动态特征,以最小化地面移动终端和低轨卫星能耗组成的加权系统能耗开销为优化目标,实现将地面移动终端上的计算任务在系统内进行计算资源分配。利用智能体在动态低轨卫星边缘计算网络中进行计算资源分配,能够减少地面移动终端和卫星能耗开销,提升低轨卫星边缘计算网络的性能。
2)针对低轨卫星和地面移动终端的双重能耗优化目标,定义加权系统能耗开销作为优化目标。引入深度强化学习方法,解决动态低轨卫星边缘计算网络的计算资源分配问题。基于MDP框架定义强化学习模型的核心要素,并为优化状态空间定义了状态评价函数,提出了基于优化DQN的算法求解和生成策略分发的方式。考虑到低轨卫星高速移动和资源受限的特点,所提方法在动态低轨卫星边缘计算网络中的计算效率和系统能耗开销方面具有明显性能优势。
本发明的方法构建以最小化地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权系统能耗开销为目标的优化问题模型,使得智能体在考虑低轨卫星高速移动,有限能源和计算资源的情况下分发系统最优计算资源分配策略,完成任务执行,实现了低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器的计算资源分配并降低了系统能耗开销;此外,以MDP为框架定义了优化问题在强化学习模型下的核心要素,并根据系统约束设计状态评价函数优化状态空间,来获取系统的计算资源分配策略,由此,实现了高效的计算资源分配策略,提高了计算效率。此外,本发明基于优化DQN的深度强化学习算法,进一步高效地计算资源分配策略,提高了计算效率。
综上,本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的低轨卫星边缘计算资源分配问题,提高了计算效率,降低了系统能耗开销。
实验结果:
下面以5个地面移动终端,3颗低轨卫星和2个地面云服务器的一个场景为例,给出本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体示例。
根据步骤S1,利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息。
本实验示例中,低轨卫星边缘计算网络的计算资源分配场景如图3所示。该低轨卫星边缘计算网络以地面云服务器为智能体,包括M个地面移动终端,N颗低轨卫星和J个地面云服务器,具体M=5,N=3,J=2。假设假定低轨卫星均运行在圆轨道上,低轨卫星轨道模型如图4所示。其中,轨道高度表示为H=800km,地球半径表示为R=6370km。
根据步骤S2,根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。
为了解决最小化系统能耗开销为优化目标的计算资源分配问题,智能体(地面云服务器)利用获取的网络环境状态信息,在实际动态的低轨卫星边缘计算网络的约束条件下(低轨卫星对任务的覆盖时间约束,低轨卫星分配的计算资源约束和低轨卫星的电池使用状态约束),对优化问题进行数学建模。
具体地,当任务
Figure BDA0003583002980000241
选择本地执行策略时,任务处理时延和能耗分别通过以下计算方式得到,即
Figure BDA0003583002980000242
Figure BDA0003583002980000243
其中,ζ表示芯片的能耗系数。
当任务
Figure BDA0003583002980000244
选择被调度至低轨卫星的策略时,任务的处理时延可以通过以下计算方式得到,即
Figure BDA0003583002980000245
其中,
Figure BDA0003583002980000246
表示地面移动终端m到低轨卫星n的距离,c表示光的传播速度,
Figure BDA0003583002980000247
表示任务
Figure BDA0003583002980000248
被上传至低轨卫星n的上传速率。
Figure BDA0003583002980000249
可以表示为
Figure BDA00035830029800002410
任务处理的地面移动终端能耗可以表示为
Figure BDA00035830029800002411
其中,
Figure BDA00035830029800002412
表示地面移动终端m的上行传输功率。此外,低轨卫星能耗可以表示为
Figure BDA00035830029800002413
其中,
Figure BDA00035830029800002414
表示为低轨卫星获取每比特任务数据的能耗。
当任务
Figure BDA00035830029800002415
选择通过低轨卫星被调度至地面云服务器进行处理的策略时,任务处理时延可以通过以下计算方式得到,即
Figure BDA00035830029800002416
其中,
Figure BDA00035830029800002417
表示低轨卫星n到地面云服务器j的距离,
Figure BDA00035830029800002418
表示任务
Figure BDA00035830029800002419
通过低轨卫星n被卸载至地面云服务器j的下载速率。任务处理的地面移动终端能耗可以表示为
Figure BDA00035830029800002420
任务处理的低轨卫星能耗可以表示为
Figure BDA0003583002980000251
其中,
Figure BDA0003583002980000252
表示低轨卫星n的下行传输功率。
本发明以铱星系统为例,低轨卫星n的电池使用状态在第k+1批次任务开始时的约束条件可以表示为:
Figure BDA0003583002980000253
其中,Umax,
Figure BDA0003583002980000254
分别表示低轨卫星n上电池最大使用能源,低轨卫星n利用太阳能板获取的能源和低轨卫星n处理第k批次任务所消耗的能源。
Figure BDA0003583002980000255
可以通过以下计算方式得到。
Figure BDA0003583002980000256
表示低轨卫星n在执行第k批次中利用太阳能板获取的能源、
Figure BDA0003583002980000257
表示低轨卫星n在执行第k批次任务中所消耗的能源,
Figure BDA0003583002980000258
表示执行第k批次任务所需的最大时延,
Figure BDA0003583002980000259
表示太阳能每秒转换成能源的效率。
Figure BDA00035830029800002510
可以通过以下计算方式得到,
Figure BDA00035830029800002511
Pn表示日常的能源消耗。
根据步骤S3,基于优化问题,定义强化学习模型核心要素,并设计状态评价函数优化状态空间。
利用MDP建模的强化学习模型核心要素主要包括状态空间,动作空间以及收益函数。本发明为优化状态空间,设计了状态评价函数来替代状态空间。在基于动态低轨卫星边缘计算网络背景下,优化问题模型各核心要素的具体设计如下:
状态空间设计:以第k批次任务开始执行时的状态sk∈S为例,包括任务集合生成的状态信息向量;任务开始执行时各地面移动终端和低轨卫星之间的地心角向量,用于反映低轨卫星对任务的覆盖情况;任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量,用于反映地面云服务器对任务的可见性;任务开始执行时各低轨卫星的电池使用状态信息向量,用于反映低轨卫星此时的电池使用状态。
状态评价函数设计:包括3类二元变量组成的向量组,表示当前状态在动作下的质量,分别为低轨卫星对任务的覆盖时间约束,低轨卫星分配的计算资源上限约束和低轨卫星的电池使用状态约束。
动作空间设计:对第k批次任务集合执行的动作ak∈A为例,包括任务的调度方式,地面移动终端、低轨卫星和地面云服务器为各任务分配的计算资源。
收益函数设计:以状态sk在动作ak下的反馈rk为例,描述为由因任务处理造成的地面移动终端的能耗和低轨卫星的能耗下加权组成的系统能耗开销。系统优化目标为最大化累积收益函数。
根据步骤S4,利用基于优化DQN的深度强化学习算法求解深度强化学习模型。
具体地,本发明中所提供的基于DQN的计算资源分配算法流程包括以下步骤:
步骤S41:初始化经验回放池U,以及在线神经网络参数θ;
经验回放池初始化表示清空样本缓存,神经网络参数的初始值进行随机产生。
步骤S42:初始化目标神经网络参数θ-←θ;
步骤S43:初始化训练回合数v为1;
步骤S44:初始化环境和网络环境状态的评价函数g0
评价函数根据具体技术方案步骤S3进行二值化定义,初始值设置为由1组成的向量。
步骤S45:初始化当前训练回合数v中的任务批次k为1;
步骤S46:根据ε-greedy策略随机选取动作ak,否则ak=argmaxa∈A Q(gk,a;θ);其中,ε-greedy策略是指以e(0<e<1)的概率随机选取动作,否则采用动作价值最大的动作。
步骤S47:执行动作ak并获取下一网络环境状态的评价函数gk+1和收益函数rk
步骤S48:存储(gk,ak,rk,gk+1)经验数据到经验回放池U中;
步骤S49:从U中随机采样小批量样本(gi,ai,ri,gi+1);小批量样本用于更新在线网络和目标网络的网络参数θ和θ-
步骤S410:利用小批量样本计算在线网络和目标网络的Q函数值的损失函数L(θ),并利用该损失函数进行小批量梯度下降,以更新在线网络的网络参数θ;
步骤S411:每隔τ-批次,目标网络的网络参数进行更新θ-=θ;τ-的含义是对目标网络定期更新的步长,取值范围为大于0。
步骤S412:判断是否满足k<K,K为任务执行批次的设定阈值,若是,k=k+1,进入步骤S46,从而对在线网络和目标网络的网络参数θ和θ-进行迭代更新;否则进入步骤S413;
步骤S413:判断是否满足v<V,V为训练回合迭代此数设定阈值,若是,v=v+1,进入步骤S44,否则优化结束,得到训练完的深度强化学习模型。
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至系统内各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
利用基于DQN算法训练收敛求解得到的深度强化学习模型,可以得到动态低轨卫星边缘计算网络下的最优计算资源分配策略,将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态sk输入,进行计算得到状态评价函数gk。利用步骤S3建立的强化学习模型与步骤S4采用的基于DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至系统内各对应设备。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims (10)

1.一种能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,包括:
步骤S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
步骤S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和;
步骤S3:基于优化问题模型,定义强化学习模型的状态空间、动作空间和收益函数,并设计状态评价函数来优化所述状态空间;
步骤S4:利用基于优化DQN的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中;
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
2.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
3.根据权利要求2所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述步骤S1包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络;地面移动终端的集合、低轨卫星的集合和地面云服务器的集合分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星建立连接;
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000021
描述为
Figure FDA0003583002970000022
其中,
Figure FDA0003583002970000023
表示为任务载荷的数据大小,
Figure FDA0003583002970000024
表示为任务载荷所需的CPU处理周期数;将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为
Figure FDA0003583002970000025
M为地面移动终端的数量;
步骤S13:设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为
Figure FDA0003583002970000026
得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长;
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
4.根据权利要求3所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长
Figure FDA0003583002970000027
为:
Figure FDA0003583002970000028
其中,TLEO为低轨卫星的运行周期,
Figure FDA0003583002970000029
为地面移动终端m和低轨卫星n之间的地心角;
地面移动终端m和低轨卫星n之间的地心角
Figure FDA00035830029700000210
为:
Figure FDA00035830029700000211
其中,R为地球半径,H为轨道高度,
Figure FDA0003583002970000031
为地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角;
低轨卫星的运行周期TLEO为:
Figure FDA0003583002970000032
其中,R为地球半径,H为轨道高度,μ表示开普勒常数。
5.根据权利要求3所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述步骤S2包括:
步骤S21:将地面移动终端生成的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为
Figure FDA0003583002970000033
Figure FDA0003583002970000034
为第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000035
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,
Figure FDA0003583002970000036
为将第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000037
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次的任务集合中的多个任务能够选择不同的任务调度方式;任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理;
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
6.根据权利要求5所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000038
调度至低轨卫星边缘计算网络中各低轨卫星的决策向量
Figure FDA0003583002970000039
为:
Figure FDA00035830029700000310
其中,
Figure FDA00035830029700000311
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000312
被调度至低轨卫星n执行;
Figure FDA00035830029700000313
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000314
未被调度至低轨卫星n执行;
第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000041
调度至低轨卫星边缘计算网络中的各低轨卫星的决策和
Figure FDA0003583002970000042
Figure FDA0003583002970000043
将第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000044
调度至低轨卫星边缘计算网络中各地面云服务器的决策向量
Figure FDA0003583002970000045
为:
Figure FDA0003583002970000046
其中,
Figure FDA0003583002970000047
表示第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000048
通过低轨卫星n被调度至地面云服务器j执行;
Figure FDA0003583002970000049
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000410
未通过低轨卫星n被调度至地面云服务器j执行;
第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000411
通过低轨卫星被调度至各个地面云服务器的决策和为
Figure FDA00035830029700000412
Figure FDA00035830029700000413
7.根据权利要求6所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述优化问题模型为:
Figure FDA00035830029700000414
Figure FDA00035830029700000415
Figure FDA00035830029700000416
Figure FDA00035830029700000417
Figure FDA00035830029700000418
Figure FDA00035830029700000419
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;
Figure FDA00035830029700000420
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000421
被调度至低轨卫星n执行;
Figure FDA00035830029700000422
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000423
未被调度至低轨卫星n执行;
Figure FDA00035830029700000424
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000425
通过低轨卫星n被调度至地面云服务器j执行;
Figure FDA00035830029700000426
表示第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000427
未通过低轨卫星n被调度至地面云服务器j执行;
Figure FDA00035830029700000428
分别是第m个地面移动终端的第k批次生成的任务
Figure FDA00035830029700000429
在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;
Figure FDA00035830029700000430
为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;
Figure FDA0003583002970000051
为低轨卫星n为第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000052
分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;
Figure FDA0003583002970000053
是第k批次任务开始执行时低轨卫星n的电池使用状态。
8.根据权利要求7所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述强化学习模型的状态空间中的每个状态sk包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk
状态评价函数gk为:
gk={gk,1,gk,2,gk,3},
其中,
Figure FDA0003583002970000054
Figure FDA0003583002970000055
表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000056
对应的第三约束条件C3
Figure FDA0003583002970000057
表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000058
对应的第三约束条件C3
Figure FDA0003583002970000059
表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件,反之,
Figure FDA00035830029700000510
Figure FDA00035830029700000511
表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件,反之,
Figure FDA00035830029700000512
所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak包括:
ak={ck,fk,GMT,fk,LEO,fk,GCS},
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量;
所述强化学习模型的受益函数包括瞬时收益函数和累积收益函数;
所述强化学习模型的瞬时收益函数rk为:
Figure FDA00035830029700000513
其中,
Figure FDA0003583002970000061
为第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000062
在地面移动终端的任务处理能耗,
Figure FDA0003583002970000063
为第m个地面移动终端的第k批次生成的任务
Figure FDA0003583002970000064
在低轨卫星的任务处理能耗;
所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数表示为:
Figure FDA0003583002970000065
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,k表示当前执行任务的批次。
9.根据权利要求8所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,在所述步骤S4中,在所述强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),此时深度强化学习模型求解完成。
10.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,在所述步骤S5中,智能体将第k批次获取收集环境状态信息作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至各地面移动终端、低轨卫星和地面云服务器。
CN202210356235.9A 2022-04-06 2022-04-06 一种能耗优化的低轨卫星边缘计算资源分配方法 Pending CN114928394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210356235.9A CN114928394A (zh) 2022-04-06 2022-04-06 一种能耗优化的低轨卫星边缘计算资源分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210356235.9A CN114928394A (zh) 2022-04-06 2022-04-06 一种能耗优化的低轨卫星边缘计算资源分配方法

Publications (1)

Publication Number Publication Date
CN114928394A true CN114928394A (zh) 2022-08-19

Family

ID=82804649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210356235.9A Pending CN114928394A (zh) 2022-04-06 2022-04-06 一种能耗优化的低轨卫星边缘计算资源分配方法

Country Status (1)

Country Link
CN (1) CN114928394A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514769A (zh) * 2022-09-14 2022-12-23 中山大学 卫星弹性互联网资源调度方法、系统、计算机设备及介质
CN116760457A (zh) * 2023-08-17 2023-09-15 成都本原星通科技有限公司 一种基于卫星电池寿命的资源分配方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150358861A1 (en) * 2013-12-23 2015-12-10 Thales Satellite communication system for a continuous high-bitrate access service over a coverage area including at least one polar region
US20170261949A1 (en) * 2016-03-11 2017-09-14 University Of Chicago Apparatus and method for optimizing quantifiable behavior in configurable devices and systems
CN109933842A (zh) * 2019-01-23 2019-06-25 北京航空航天大学 一种基于约束满足遗传算法的移动目标单星任务规划方法
CN110647391A (zh) * 2019-09-27 2020-01-03 北京邮电大学 面向星地协同网络的边缘计算方法及系统
CN110868455A (zh) * 2019-10-29 2020-03-06 北京邮电大学 一种基于空天地远程物联网的计算卸载方法及系统
CN112052598A (zh) * 2020-09-14 2020-12-08 中国人民解放军国防科技大学 一种基于偏好moea的卫星地面站资源多目标优化方法
CN112653500A (zh) * 2020-12-16 2021-04-13 桂林电子科技大学 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN114051254A (zh) * 2021-11-08 2022-02-15 南京大学 一种基于星地融合网络的绿色云边协同计算卸载方法
CN114124195A (zh) * 2021-11-19 2022-03-01 桂林电子科技大学 一种面向leo卫星系统的多星mec计算卸载策略
CN114153572A (zh) * 2021-10-27 2022-03-08 中国电子科技集团公司第五十四研究所 一种星地协作网络中分布式深度学习的计算卸载方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150358861A1 (en) * 2013-12-23 2015-12-10 Thales Satellite communication system for a continuous high-bitrate access service over a coverage area including at least one polar region
US20170261949A1 (en) * 2016-03-11 2017-09-14 University Of Chicago Apparatus and method for optimizing quantifiable behavior in configurable devices and systems
CN109933842A (zh) * 2019-01-23 2019-06-25 北京航空航天大学 一种基于约束满足遗传算法的移动目标单星任务规划方法
CN110647391A (zh) * 2019-09-27 2020-01-03 北京邮电大学 面向星地协同网络的边缘计算方法及系统
CN110868455A (zh) * 2019-10-29 2020-03-06 北京邮电大学 一种基于空天地远程物联网的计算卸载方法及系统
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN112052598A (zh) * 2020-09-14 2020-12-08 中国人民解放军国防科技大学 一种基于偏好moea的卫星地面站资源多目标优化方法
CN112653500A (zh) * 2020-12-16 2021-04-13 桂林电子科技大学 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法
CN114153572A (zh) * 2021-10-27 2022-03-08 中国电子科技集团公司第五十四研究所 一种星地协作网络中分布式深度学习的计算卸载方法
CN114051254A (zh) * 2021-11-08 2022-02-15 南京大学 一种基于星地融合网络的绿色云边协同计算卸载方法
CN114124195A (zh) * 2021-11-19 2022-03-01 桂林电子科技大学 一种面向leo卫星系统的多星mec计算卸载策略

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIXIANG WEI: "Resource Scheduling and Offloading Strategy Based on LEO Satellite Edge Computing", 《VTC2021》, 31 December 2021 (2021-12-31), pages 1 - 6 *
宋政育: "低轨卫星协作边缘计算任务迁移和资源分配算法", 《电子学报》, 31 March 2022 (2022-03-31), pages 567 - 573 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514769A (zh) * 2022-09-14 2022-12-23 中山大学 卫星弹性互联网资源调度方法、系统、计算机设备及介质
CN115514769B (zh) * 2022-09-14 2023-06-06 中山大学 卫星弹性互联网资源调度方法、系统、计算机设备及介质
CN116760457A (zh) * 2023-08-17 2023-09-15 成都本原星通科技有限公司 一种基于卫星电池寿命的资源分配方法
CN116760457B (zh) * 2023-08-17 2023-10-31 成都本原星通科技有限公司 一种基于卫星电池寿命的资源分配方法

Similar Documents

Publication Publication Date Title
CN108880663B (zh) 基于改进遗传算法的天地一体化网络资源分配方法
CN114928394A (zh) 一种能耗优化的低轨卫星边缘计算资源分配方法
CN110928654B (zh) 一种边缘计算系统中分布式的在线任务卸载调度方法
WO2019127948A1 (zh) 一种智能遥感卫星层次化分布式自主协同任务规划系统
CN114362810A (zh) 一种基于迁移深度强化学习的低轨卫星跳波束优化方法
CN111556461A (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN114665952B (zh) 一种基于星地融合架构下低轨卫星网络跳波束优化方法
CN113905347B (zh) 一种空地一体化电力物联网云边端协同方法
Li et al. An integrated optimization-learning framework for online combinatorial computation offloading in MEC networks
Liu et al. Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach
Ke et al. Adaptive computation offloading policy for multi-access edge computing in heterogeneous wireless networks
CN112988285B (zh) 任务卸载方法和装置、电子设备及存储介质
CN112422171A (zh) 环境不确定遥感卫星网络下的智能资源联合调度方法
CN114884949A (zh) 基于maddpg算法的低轨卫星物联网任务卸载方法
CN113781002A (zh) 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN116600344A (zh) 一种具有电力成本差异的多层mec资源卸载方法
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法
CN115460710A (zh) 基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法
CN115914230A (zh) 一种自适应移动边缘计算卸载和资源分配方法
CN115276755A (zh) 卫星网络通信的星间链路与功率分配方法
Dong et al. Deep Progressive Reinforcement Learning-Based Flexible Resource Scheduling Framework for IRS and UAV-Assisted MEC System
Bao et al. Towards intelligent cross-domain resource coordinate scheduling for satellite networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination