CN114928394A - 一种能耗优化的低轨卫星边缘计算资源分配方法 - Google Patents
一种能耗优化的低轨卫星边缘计算资源分配方法 Download PDFInfo
- Publication number
- CN114928394A CN114928394A CN202210356235.9A CN202210356235A CN114928394A CN 114928394 A CN114928394 A CN 114928394A CN 202210356235 A CN202210356235 A CN 202210356235A CN 114928394 A CN114928394 A CN 114928394A
- Authority
- CN
- China
- Prior art keywords
- low
- orbit satellite
- task
- mobile terminal
- ground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005265 energy consumption Methods 0.000 title claims abstract description 157
- 238000013468 resource allocation Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 100
- 230000006870 function Effects 0.000 claims abstract description 82
- 230000002787 reinforcement Effects 0.000 claims abstract description 71
- 238000005457 optimization Methods 0.000 claims abstract description 57
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 93
- 230000009471 action Effects 0.000 claims description 39
- 238000004364 calculation method Methods 0.000 claims description 30
- 239000003795 chemical substances by application Substances 0.000 claims description 24
- 230000007613 environmental effect Effects 0.000 claims description 18
- 230000008901 benefit Effects 0.000 claims description 17
- 239000000126 substance Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 7
- 230000033001 locomotion Effects 0.000 description 10
- 230000005540 biological transmission Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 101150073669 NCAN gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 229910052741 iridium Inorganic materials 0.000 description 1
- GKOZUEZYRPOHIO-UHFFFAOYSA-N iridium atom Chemical compound [Ir] GKOZUEZYRPOHIO-UHFFFAOYSA-N 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012723 sample buffer Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/391—Modelling the propagation channel
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Electromagnetism (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法,包括:获取动态的低轨卫星边缘计算网络的环境状态信息;根据环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销为地面移动终端和低轨卫星的处理能耗的加权之和;基于优化问题模型,定义强化学习模型的核心要素,并设计状态评价函数来优化状态空间;利用基于优化DQN的深度强化学习算法求解深度强化学习模型;基于求解结果,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器。本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的计算资源分配问题,提高了计算效率,降低了系统能耗开销。
Description
技术领域
本发明属于无线通信技术领域,具体涉及一种能耗优化的低轨卫星边缘计算资源分配方法。
背景技术
在低轨卫星边缘计算网络中,面临的一大关键挑战是如何处理亟需能源的计算密集型任务和有限资源的计算服务提供设备之间的矛盾。然而,在目前的低轨卫星边缘计算网络研究中,通常设计仅针对地面移动终端或低轨卫星的任务处理能耗作为系统的优化目标,而忽略将其两者都纳入任务处理能耗开销。结合低轨卫星边缘计算网络场景,由于低轨卫星具有高速移动、电池容量和计算能力有限的特点,低轨卫星边缘计算网络中网络环境信息动态更新,导致环境状态信息具有较高的维度。并且,环境状态空间以及计算资源分配解空间维度随着任务、低轨卫星和地面云服务器数量增加而指数性增长,这要求计算资源分配求解方法具有一定的泛化能力和拓展性。
目前低轨卫星边缘计算网络的研究主要以最小化卫星能耗或地面移动终端能耗为单一优化目标,尚未将其两者同时纳入系统能耗开销进行联和优化,并缺乏在低轨卫星高速移动、资源受限的情况下对计算资源分配方法进一步的研究。
在文献[1]中,研究人员以最小化网络中的地面移动终端的能耗开销为优化目标,通过将资源分配优化问题拆分成多个凸优化问题来逐次利用基于传统优化理论的方法进行求解。在文献[2]中,研究人员在动态网络环境中以最小化地面移动终端能耗为优化目标,将非凸问题转换为线性规划问题,利用交替方向乘子法获取最优计算资源分配策略。然而,在实际低轨卫星边缘计算网络场景中,考虑到低轨卫星高速移动和有限资源的特点,上述方法难以根据动态网络环境状态进行定制化求解,易受到系统扰动影响,存在通用性和拓展性较差的问题,在计算效率上存在瓶颈。
因此,如何以最小化地面移动终端和低轨卫星的加权系统能耗开销为目标,在考虑低轨卫星的高移动性,受限资源的情况下优化动态低轨卫星边缘计算网络的系统的计算资源分配是低轨卫星边缘计算网络需要考虑的关键问题。
参考文献:
[1]Z.Song,Y.Hao,Y.Liu,and X.Sun,“Energy-efficient multiaccessedgecomputing for terrestrial-satellite internet of things,”IEEE InternetofThings Journal,vol.8,no.18,pp.14 202–14 218,2021.
[2]Q.Tang,Z.Fei,B.Li and Z.Han,"Computation Offloading in LEOSatellite Networks With Hybrid Cloud and Edge Computing,"in IEEE Internet ofThings Journal,vol.8,no.11,pp.9164-9176,1June1,2021.
发明内容
本发明的目的在于提供一种能耗优化的低轨卫星边缘计算资源分配方法,以在低轨卫星快速移动和资源有限的情况下,提高计算效率,降低系统能耗开销。
基于上述问题,本发明提供一种能耗优化的低轨卫星边缘计算资源分配方法,包括:
S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和;
S3:基于优化问题模型,定义强化学习模型的状态空间、动作空间和收益函数,并设计状态评价函数来优化所述状态空间;
S4:利用基于优化DQN的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中;
S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
优选地,所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk。
优选地,所述步骤S1包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络;地面移动终端的集合、低轨卫星的集合和地面云服务器的集合分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星建立连接;
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务描述为其中,表示为任务载荷的数据大小,表示为任务载荷所需的CPU处理周期数;将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为M为地面移动终端的数量;
步骤S13:设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长;
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk。
低轨卫星的运行周期TLEO为:
其中,R为地球半径,H为轨道高度,μ表示开普勒常数。
优选地,所述步骤S2包括:
步骤S21:将地面移动终端生成的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为 为第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,为将第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次的任务集合中的多个任务能够选择不同的任务调度方式;任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理;
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
优选地,所述优化问题模型为:
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;表示第m个地面移动终端的第k批次生成的任务被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务未被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务通过低轨卫星n被调度至地面云服务器j执行;表示第m个地面移动终端的第k批次生成的任务未通过低轨卫星n被调度至地面云服务器j执行;分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;为低轨卫星n为第m个地面移动终端的第k批次生成的任务分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;是第k批次任务开始执行时低轨卫星n的电池使用状态。
优选地,所述强化学习模型的状态空间中的每个状态sk包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk;
状态评价函数gk为:
gk={gk,1,gk,2,gk,3},
其中,表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3;表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3;表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件,反之, 表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件,反之,
所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak包括:
ak={ck,fk,GMT,fk,LEO,fk,GCS},
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量;
所述强化学习模型的受益函数包括瞬时收益函数和累积收益函数;
所述强化学习模型的瞬时收益函数rk为:
所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于系统的计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数表示为:
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,k表示当前执行任务的批次。
在所述步骤S4中,在所述强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),此时深度强化学习模型求解完成。
在所述步骤S5中,智能体将第k批次获取收集环境状态信息作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk ,GMT,fk,LEO,fk,GCS},并分发至各地面移动终端、低轨卫星和地面云服务器。
本发明的方法构建以最小化地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权系统能耗开销为目标的优化问题模型,使得智能体在考虑低轨卫星高速移动,有限能源和计算资源的情况下分发系统最优计算资源分配策略,完成任务执行,实现了低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器的计算资源分配并降低了系统能耗开销;此外,以MDP为框架定义了优化问题在强化学习模型下的核心要素,并根据系统约束设计状态评价函数优化状态空间,来获取系统的计算资源分配策略,由此,实现了高效的计算资源分配策略,提高了计算效率。此外,本发明基于优化DQN的深度强化学习算法,进一步高效地计算资源分配策略,提高了计算效率。
综上,本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的低轨卫星边缘计算资源分配问题,提高了计算效率,降低了系统能耗开销。
附图说明
图1是本发明的能耗优化的低轨卫星边缘计算资源分配方法的流程图。
图2是本发明的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构示意图。
图3是本发明的能耗优化的低轨卫星边缘计算资源分配方法的实验场景示例图。
图4是低轨卫星的圆轨道模型图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明针对现有技术的不足,提出了一种能耗优化的低轨卫星边缘计算资源分配方法。本发明的能耗优化的低轨卫星边缘计算资源分配方法以最小化地面移动终端和低轨卫星能耗的加权系统能耗开销为优化目标,该方法利用动态低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器进行计算资源分配,设计合理的强化学习模型核心要素和状态评价函数简化状态空间,基于优化DQN的深度强化学习算法,获取优化的计算资源分配策略,并进行策略分发。
如图1所示,本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体步骤如下:
步骤S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
其中,智能体位于地面和卫星上均可,通常位于地面上。在本实施例中,智能体优选为地面云服务器。
本发明考虑的系统,即低轨卫星边缘计算网络由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成,地面移动终端的集合、低轨卫星的集合和地面云服务器的集合可以分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量。
所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk,其用于确定地面移动终端生成的任务的状态信息向量;第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk,其用于确定低轨卫星的覆盖情况;任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk,其用于反映地面云服务器对任务的可见性;和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk,其用于反映低轨卫星的电池使用状态。
这是由于,第m个地面移动终端的第k批次生成的任务的计算资源分配策略取决于地面移动终端生成的任务的状态信息向量(即地面移动终端生成的第k批次的任务集合的状态信息向量Wk)、低轨卫星的覆盖情况(即第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk)、地面云服务器对任务的可见性(即任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk)和低轨卫星的电池使用状态(即第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk)。
在所述步骤S1中,在获取所述低轨卫星边缘计算网络的环境状态信息,包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络,地面移动终端和低轨卫星均具有处理任务的移动边缘计算能力,地面云服务器具有计算能力;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星实现可见的星地传输链路中转,进而通过低轨卫星建立连接。
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务描述为其中,表示为任务载荷的数据大小,表示为任务载荷所需的CPU处理周期数。随后,将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为M为地面移动终端的数量。
步骤S13:考虑到低轨卫星在实际场景的高速移动性,设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及相应的整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长,从而确定低轨卫星的覆盖情况。
第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk可以表示为:
对于位于轨道高度H的低轨卫星,该低轨卫星的运行周期TLEO为:
其中,R为地球半径,H为轨道高度,μ表示开普勒常数。
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk。
低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务时的可见性可以表示为其中,表示地面云服务器j可用于处理第m个地面移动终端的第k批次生成的任务k表示任务批次,m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数。相应地,可以根据低轨卫星n对于地面云服务器j开始执行第m个地面移动终端的第k批次生成的任务时的可见性以及第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk,来得到第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk。在低轨卫星和地面云服务器之间的可见性成立的前提下(低轨卫星和地面云服务器之间可见),第k批次任务开始执行时地面移动终端在低轨卫星在服务覆盖范围内,则确定第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为1,否则,第k批次任务开始执行时地面移动终端和地面云服务器之间的可见性为0。
步骤S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。
所述步骤S2包括:
步骤S21:将所有地面移动终端的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为 为第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,为将第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次(例如第k批次)的任务集合中的多个任务能够选择不同的任务调度方式。
根据不同网络环境和任务需求,任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理。也就是说,第m个地面移动终端的第k批次生成的任务可以选择在本地进行处理、传输至低轨卫星进行处理或通过低轨卫星传输至地面云服务器进行处理。
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
(a)具体地,当第m个地面移动终端的第k批次生成的任务选择在本地执行的策略时,可以得到地面移动终端在执行本地任务分配的计算资源表示为那么低轨卫星边缘计算网络中,地面移动终端对第k批次任务集合中各任务分配的计算资源向量可以表示为:
需要说明的是,若一部分任务采用了其他非本地执行的策略,这个采用了其他策略的任务的终端计算资源依然用此表示,只是对应的终端计算资源为0。
此时,第m个地面移动终端的第k批次生成的任务的处理时延等于该任务的计算时延可以表示为第m个地面移动终端的第k批次生成的任务的任务处理能耗等于地面移动终端的任务处理能耗也等于地面移动终端的任务计算能耗即其中ζ表示芯片能耗系数,芯片能耗系数ζ用于计算任务处理能耗。
(b)具体地,当第m个地面移动终端的第k批次生成的任务选择被调度至低轨卫星的策略时,可以得到第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中的各低轨卫星的决策和低轨卫星n为第m个地面移动终端的第k批次生成的任务分配的计算资源表示为那么低轨卫星对第k批次任务集合中各任务分配的计算资源向量可以表示为由于各低轨卫星的计算资源有限,分配给各任务的计算资源和不能超过低轨卫星拥有的计算资源地面移动终端和执行任务的低轨卫星之间的传播时延任务上传至低轨卫星的传输时延以及执行任务的低轨卫星的任务计算时延即第m个地面移动终端的第k批次生成的任务的任务处理能耗包括地面移动终端的任务处理能耗和低轨卫星的任务处理能耗即其中,地面移动终端的任务处理能耗等于任务上传至低轨卫星的传输能耗即低轨卫星的任务处理能耗包括接收任务的传输能耗和任务的计算能耗即
(c)具体地,当第m个地面移动终端的第k批次生成的任务选择通过低轨卫星被调度至地面云服务器进行处理的策略时,可以得到第m个地面移动终端的第k批次生成的任务通过低轨卫星被调度至各个地面云服务器的决策和第m个地面移动终端的第k批次生成的任务通过低轨卫星n被调度至地面云服务器j分配的计算资源表示为那么地面云服务器对第k批次任务集合中各任务分配的计算资源向量可以表示为此时,第m个地面移动终端的第k批次生成的任务的处理时延包括地面移动终端通过低轨卫星中转至执行任务的地面云服务器之间的传播时延任务上传至中转低轨卫星的传输时延任务通过低轨卫星卸载至地面云服务器的传输时延以及执行任务的地面云服务器的任务计算时延即第m个地面移动终端的第k批次生成的任务的任务处理能耗包括地面移动终端的任务处理能耗和低轨卫星的任务处理能耗即其中,地面移动终端的任务处理能耗等于任务上传至低轨卫星的传输能耗即低轨卫星的任务处理能耗包括接收任务的传输能耗和下载任务的传输能耗即
(d)综合上述的第m个地面移动终端的第k批次生成的任务在不同调度方式下的描述,第m个地面移动终端的第k批次生成的任务的处理时延可以表示为分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延(中的其中两个的值是0)。因此,对于由移动地面终端集合M组成的第k批次任务集,最大的处理时延可以表示为每当集合M的第k批次任务集均完成处理,集合M开始进行处理第k+1批次任务。第m个地面移动终端的第k批次生成的任务在地面移动终端的任务处理能耗可以表示为其中,分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为在本地进行处理和传输至低轨卫星进行处理时在地面移动终端的任务处理能耗。第m个地面移动终端的第k批次生成的任务在低轨卫星的任务处理能耗可以表示为其中, 分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为传输至低轨卫星进行处理和通过低轨卫星传输至地面云服务器进行处理时在低轨卫星的任务处理能耗。
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
本发明定义的系统能耗开销为地面移动终端的任务处理能耗与低轨卫星的任务处理能耗的加权之和。权重反映了地面移动终端能耗与低轨卫星能耗在系统能耗开销中的相对重要性,其中α∈[0,1]表示移动地面终端能耗占系统能耗开销的权重,(1-α)表示低轨卫星能耗占系统能耗开销的权重。
因此,以最小化系统能耗开销为优化目标的优化问题模型(即联合能耗优化问题)的具体描述如下:
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;表示第m个地面移动终端的第k批次生成的任务被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务未被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务通过低轨卫星n被调度至地面云服务器j执行;表示第m个地面移动终端的第k批次生成的任务未通过低轨卫星n被调度至地面云服务器j执行;分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;为低轨卫星n为第m个地面移动终端的第k批次生成的任务分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;是第k批次任务开始执行时低轨卫星n的电池使用状态。
也就是说,第一、第二约束条件C1和C2表示每个任务(即)仅能选择一种调度方式;第三约束条件C3表示每个任务若选取包括低轨卫星参与的任务调度方式,任务执行时延不应超过相应低轨卫星对任务的有效覆盖时间;第四约束条件C4表示指每个低轨卫星为处理任务集中各个任务所分配的计算资源之和不能超过可用计算资源上限;第五约束条件C5表示每个低轨卫星应保持可用能源状态始终大于0。
步骤S3:基于优化问题模型,定义强化学习模型的核心要素(即状态空间、动作空间和瞬时收益函数),并设计状态评价函数来优化所述状态空间;
在所述步骤S3中,使用马尔科夫决策过程(MarkovDecisionProcess,MDP)的框架来建立强化学习模型的求解方法。强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法,通过使用状态、动作和收益3个核心要素来定义智能体与环境交互的过程。
基于步骤2中建立的优化问题,本发明构建的强化学习模型的状态空间、动作空间和收益函数的定义如下:
状态空间:强化学习模型的状态空间中的每个状态对应于所述低轨卫星边缘计算网络的环境状态信息,其包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk等。
因此,在第k批次任务开始执行时的状态sk∈S表示为:
sk={Wk,βk,bk,Uk},
其中,Wk表示地面移动终端生成的第k批次的任务集合的状态信息向量;βk表示第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量;bk表示第k批次任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量;Uk表示第k批次任务开始执行时各低轨卫星的电池使用状态信息向量。
然而,由于sk具有无限的状态取值,且空间维度随着任务数量增加而指数增长,这对于获取高效的计算资源分配策略提出了较大的挑战。因此,本发明在优化问题的约束条件下设计了状态评价函数来反映当前状态sk在动作ak下的质量,实现简化具有无限取值的状态空间sk的目的。该状态评价函数gk可以表示为由二元变量组成的向量组,状态评价函数gk表示为:
gk={gk,1,gk,2,gk,3},
其中,表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3(即覆盖时间约束),即表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3(即覆盖时间约束),即 表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件(即低轨卫星n分配的计算资源不应超过所拥有计算资源上限的约束),即反之,即 表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件(即低轨卫星n的电池状态始终保持大于0的约束);反之,
动作空间:所述强化学习模型的动作空间中的每个动作包括任务调度方式和地面移动终端、低轨卫星和地面云服务器分配给各任务的计算资源。具体的,所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak∈A表示为:
ak={ck,fk,GMT,fk,LEO,fk,GCS}
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量。
其中,分配的计算资源数值为人为规定,通过将可分配最大的计算资源进行离散化处理来确定数值。
收益函数:瞬时收益函数rk被认为是状态sk在动作ak下环境的反馈。在以最小化任务处理的地面移动终端能耗和低轨卫星能耗组成的加权系统能耗开销为优化目标的计算资源分配问题中,所述强化学习模型的瞬时收益函数rk可以表示为:
参数的含义是地面移动终端能耗占系统能耗开销的权重,取值范围为[0,1]。
此时,所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于系统的计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数可以表示为:
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,用于收益求和计算,k表示当前执行任务的批次。k’和k的区别为k’为公式计算中引入的局部变量,k表示任务的第k批次。
步骤S4:利用基于优化DQN(深度Q网络)的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述强化学习模型;
上文中的步骤S3所构建的强化学习模型通过利用状态评价函数来替代原有的动作空间,实现将可能存在无穷数量的系统状态映射到离散有限的状态评价函数上。然而,此强化学习模型依然存在离散高维的输入和动作空间。
因此,为了高效地求解高性能计算资源分配策略,本发明在步骤S4中,所述强化学习模型为基于优化DQN的强化学习模型,在传统的强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),即Q(sk,ak;θ)≈Q*(sk,ak),Q(sk,ak;θ)表示利用神经网络参数θ拟合得到的sk状态下采取ak动作的拟合Q函数。此时对应的神经网络就是求解得到的度强化学习模型,深度强化学习模型求解完成。
其中,状态-动作对(sk,ak)∈A×S的Q函数Q(sk,ak)用来表示选择的状态-动作对的质量。基于贝尔曼等式,最优策略评估函数Q*(sk,ak)的计算方式可以表示为E表示在sk+1不确定性下的期望,γ表示未来收益的折扣率,Q*(sk+1,ak+1)∣sk,ak表示在sk,ak条件下状态sk+1下采取ak+1动作的最优策略评估函数Q*(sk,ak)。因此,本发明提出的方法通过适配基于优化DQN的深度强化学习算法,克服了传统强化学习方法遇到在存储空间和计算效率上的瓶颈,降低了系统能耗开销,提高了网络性能。
本发明设计的能耗优化的低轨卫星边缘计算资源分配方法的智能体的计算架构如图2所示。
在该低轨卫星边缘计算网络中,地面云服务器作为智能体通过执行本发明的能耗优化的低轨卫星边缘计算资源分配方法来获取优化后的计算资源分配策略,并分发优化后的策略至网络中的各地面移动终端、低轨卫星和地面云服务器。在步骤S1中,智能体收集环境状态信息(由前述定义可知,环境状态信息具体包括以下信息:低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)。其次,智能体将环境状态信息通过状态评价函数映射生成反映当前状态质量的离散状态作为输入信息,输入至基于优化DQN的深度强化学习算法的网络中。
该深度强化学习算法的网络由分别名为在线网络和目标网络两个部分组成,被用于稳定和优化网络性能,在线网络通过最小化损失函数梯度更新来进行对应策略更新,目标网络用于限制在线网络策略更新幅度,稳定网络性能。其中,在线网络和目标网络的神经网络参数分别定义为θ和θ-。在线网络和目标网络具有相同的网络结构。目标网络每隔一定迭代次数从在线网络中复制网络参数θ用以更新自身的网络参数θ-。
在线网络的网络参数θ在每次迭代中通过最小化对应的损失函数进行梯度更新,该损失函数可以表示为:
其中,y表示目标网络的Q函数值,Q(sk,ak;θ)表示利用在线网络的网络参数θ拟合得到的sk状态下采取ak动作的拟合Q函数,E[]表示在经验(sk,ak,rk,sk+1)不确定性下的期望,Lπ(θ)表示在策略π下的损失函数。
目标网络的Q函数值y的计算方式可以表示为:
其中,Q(sk+1,ak+1;θ-)表示利用目标网络的网络参数θ-拟合得到的sk状态下采取ak动作的拟合Q函数,γ为收益折扣率,rk为强化学习模型的瞬时收益函数rk。
此外,DQN作为一种离线策略方法,利用经验回放机制,在每次任务批次k执行时,DQN将智能体获取的经验(sk,ak,rk,sk+1)存入经验回放池中,然后在每次网络参数更新时从经验回放池中随机采样小批量样本进行更新。本发明利用状态评价函数gk来替代状态sk,将智能体的经验替换为(gk,ak,rk,gk+1),简化输入的状态空间,进行参数更新。
在该深度强化学习算法的网络收集足够反映训练环境与智能体交互的样本经验集,并通过采样小批量样本经验回放获取了稳定收敛的计算资源分配策略后,结束训练优化,停止迭代。网络是否收集足够反映训练环境与智能体交互的样本经验集可以通过观察获取的计算资源分配策略的收益情况是否收敛稳定,也可以通过在线网络的损失函数收敛逼近0来判定。
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至系统内各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
在所述步骤S5中,智能体将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的强化学习模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至系统内各对应设备。
由此,本发明的能耗优化的低轨卫星边缘计算资源分配方法,其优势在于:
1)在包含地面移动终端、低轨卫星和地面云服务器的低轨卫星边缘计算网络中,以地面云服务器为智能体,考虑了包括低轨卫星对任务的动态覆盖情况、低轨卫星可分配的最大计算资源以及低轨卫星上的电池使用状态在内的动态特征,以最小化地面移动终端和低轨卫星能耗组成的加权系统能耗开销为优化目标,实现将地面移动终端上的计算任务在系统内进行计算资源分配。利用智能体在动态低轨卫星边缘计算网络中进行计算资源分配,能够减少地面移动终端和卫星能耗开销,提升低轨卫星边缘计算网络的性能。
2)针对低轨卫星和地面移动终端的双重能耗优化目标,定义加权系统能耗开销作为优化目标。引入深度强化学习方法,解决动态低轨卫星边缘计算网络的计算资源分配问题。基于MDP框架定义强化学习模型的核心要素,并为优化状态空间定义了状态评价函数,提出了基于优化DQN的算法求解和生成策略分发的方式。考虑到低轨卫星高速移动和资源受限的特点,所提方法在动态低轨卫星边缘计算网络中的计算效率和系统能耗开销方面具有明显性能优势。
本发明的方法构建以最小化地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权系统能耗开销为目标的优化问题模型,使得智能体在考虑低轨卫星高速移动,有限能源和计算资源的情况下分发系统最优计算资源分配策略,完成任务执行,实现了低轨卫星边缘计算网络中的地面移动终端、低轨卫星和地面云服务器的计算资源分配并降低了系统能耗开销;此外,以MDP为框架定义了优化问题在强化学习模型下的核心要素,并根据系统约束设计状态评价函数优化状态空间,来获取系统的计算资源分配策略,由此,实现了高效的计算资源分配策略,提高了计算效率。此外,本发明基于优化DQN的深度强化学习算法,进一步高效地计算资源分配策略,提高了计算效率。
综上,本发明设计基于优化DQN的深度强化学习算法解决了低轨卫星边缘计算网络中能耗优化的低轨卫星边缘计算资源分配问题,提高了计算效率,降低了系统能耗开销。
实验结果:
下面以5个地面移动终端,3颗低轨卫星和2个地面云服务器的一个场景为例,给出本发明的能耗优化的低轨卫星边缘计算资源分配方法的具体示例。
根据步骤S1,利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息。
本实验示例中,低轨卫星边缘计算网络的计算资源分配场景如图3所示。该低轨卫星边缘计算网络以地面云服务器为智能体,包括M个地面移动终端,N颗低轨卫星和J个地面云服务器,具体M=5,N=3,J=2。假设假定低轨卫星均运行在圆轨道上,低轨卫星轨道模型如图4所示。其中,轨道高度表示为H=800km,地球半径表示为R=6370km。
根据步骤S2,根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和。
为了解决最小化系统能耗开销为优化目标的计算资源分配问题,智能体(地面云服务器)利用获取的网络环境状态信息,在实际动态的低轨卫星边缘计算网络的约束条件下(低轨卫星对任务的覆盖时间约束,低轨卫星分配的计算资源约束和低轨卫星的电池使用状态约束),对优化问题进行数学建模。
当任务选择被调度至低轨卫星的策略时,任务的处理时延可以通过以下计算方式得到,即其中,表示地面移动终端m到低轨卫星n的距离,c表示光的传播速度,表示任务被上传至低轨卫星n的上传速率。可以表示为任务处理的地面移动终端能耗可以表示为其中,表示地面移动终端m的上行传输功率。此外,低轨卫星能耗可以表示为其中,表示为低轨卫星获取每比特任务数据的能耗。
当任务选择通过低轨卫星被调度至地面云服务器进行处理的策略时,任务处理时延可以通过以下计算方式得到,即其中,表示低轨卫星n到地面云服务器j的距离,表示任务通过低轨卫星n被卸载至地面云服务器j的下载速率。任务处理的地面移动终端能耗可以表示为任务处理的低轨卫星能耗可以表示为其中,表示低轨卫星n的下行传输功率。
本发明以铱星系统为例,低轨卫星n的电池使用状态在第k+1批次任务开始时的约束条件可以表示为:其中,Umax,分别表示低轨卫星n上电池最大使用能源,低轨卫星n利用太阳能板获取的能源和低轨卫星n处理第k批次任务所消耗的能源。可以通过以下计算方式得到。表示低轨卫星n在执行第k批次中利用太阳能板获取的能源、表示低轨卫星n在执行第k批次任务中所消耗的能源,表示执行第k批次任务所需的最大时延,表示太阳能每秒转换成能源的效率。可以通过以下计算方式得到,Pn表示日常的能源消耗。
根据步骤S3,基于优化问题,定义强化学习模型核心要素,并设计状态评价函数优化状态空间。
利用MDP建模的强化学习模型核心要素主要包括状态空间,动作空间以及收益函数。本发明为优化状态空间,设计了状态评价函数来替代状态空间。在基于动态低轨卫星边缘计算网络背景下,优化问题模型各核心要素的具体设计如下:
状态空间设计:以第k批次任务开始执行时的状态sk∈S为例,包括任务集合生成的状态信息向量;任务开始执行时各地面移动终端和低轨卫星之间的地心角向量,用于反映低轨卫星对任务的覆盖情况;任务开始执行时各地面移动终端和地面云服务器之间的可见性信息向量,用于反映地面云服务器对任务的可见性;任务开始执行时各低轨卫星的电池使用状态信息向量,用于反映低轨卫星此时的电池使用状态。
状态评价函数设计:包括3类二元变量组成的向量组,表示当前状态在动作下的质量,分别为低轨卫星对任务的覆盖时间约束,低轨卫星分配的计算资源上限约束和低轨卫星的电池使用状态约束。
动作空间设计:对第k批次任务集合执行的动作ak∈A为例,包括任务的调度方式,地面移动终端、低轨卫星和地面云服务器为各任务分配的计算资源。
收益函数设计:以状态sk在动作ak下的反馈rk为例,描述为由因任务处理造成的地面移动终端的能耗和低轨卫星的能耗下加权组成的系统能耗开销。系统优化目标为最大化累积收益函数。
根据步骤S4,利用基于优化DQN的深度强化学习算法求解深度强化学习模型。
具体地,本发明中所提供的基于DQN的计算资源分配算法流程包括以下步骤:
步骤S41:初始化经验回放池U,以及在线神经网络参数θ;
经验回放池初始化表示清空样本缓存,神经网络参数的初始值进行随机产生。
步骤S42:初始化目标神经网络参数θ-←θ;
步骤S43:初始化训练回合数v为1;
步骤S44:初始化环境和网络环境状态的评价函数g0;
评价函数根据具体技术方案步骤S3进行二值化定义,初始值设置为由1组成的向量。
步骤S45:初始化当前训练回合数v中的任务批次k为1;
步骤S46:根据ε-greedy策略随机选取动作ak,否则ak=argmaxa∈A Q(gk,a;θ);其中,ε-greedy策略是指以e(0<e<1)的概率随机选取动作,否则采用动作价值最大的动作。
步骤S47:执行动作ak并获取下一网络环境状态的评价函数gk+1和收益函数rk;
步骤S48:存储(gk,ak,rk,gk+1)经验数据到经验回放池U中;
步骤S49:从U中随机采样小批量样本(gi,ai,ri,gi+1);小批量样本用于更新在线网络和目标网络的网络参数θ和θ-。
步骤S410:利用小批量样本计算在线网络和目标网络的Q函数值的损失函数L(θ),并利用该损失函数进行小批量梯度下降,以更新在线网络的网络参数θ;
步骤S411:每隔τ-批次,目标网络的网络参数进行更新θ-=θ;τ-的含义是对目标网络定期更新的步长,取值范围为大于0。
步骤S412:判断是否满足k<K,K为任务执行批次的设定阈值,若是,k=k+1,进入步骤S46,从而对在线网络和目标网络的网络参数θ和θ-进行迭代更新;否则进入步骤S413;
步骤S413:判断是否满足v<V,V为训练回合迭代此数设定阈值,若是,v=v+1,进入步骤S44,否则优化结束,得到训练完的深度强化学习模型。
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至系统内各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
利用基于DQN算法训练收敛求解得到的深度强化学习模型,可以得到动态低轨卫星边缘计算网络下的最优计算资源分配策略,将第k批次获取收集环境状态信息(具体包括低轨卫星边缘计算网络中各地面移动终端生成的任务状态信息、各地面移动终端和低轨卫星之间的地心角信息、各地面移动终端和地面云服务器之间的可见性信息以及各低轨卫星的电池使用状态信息)作为状态sk输入,进行计算得到状态评价函数gk。利用步骤S3建立的强化学习模型与步骤S4采用的基于DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和系统内各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至系统内各对应设备。
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。
Claims (10)
1.一种能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,包括:
步骤S1:利用智能体获取动态的低轨卫星边缘计算网络的环境状态信息;
步骤S2:根据获取的环境状态信息,构建以最小化系统能耗开销为优化目标的优化问题模型,系统能耗开销定义为地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和;
步骤S3:基于优化问题模型,定义强化学习模型的状态空间、动作空间和收益函数,并设计状态评价函数来优化所述状态空间;
步骤S4:利用基于优化DQN的深度强化学习算法求解深度强化学习模型,其中,环境状态信息经过状态评价函数映射生成的离散状态作为输入信息输入所述深度强化学习算法的网络中;
步骤S5:基于求解后的深度强化学习模型,获取能耗优化的计算资源分配策略,分发至各地面移动终端、低轨卫星和地面云服务器,实现计算资源分配。
2.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述低轨卫星边缘计算网络的环境状态信息包括:地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk。
3.根据权利要求2所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述步骤S1包括:
步骤S11:提供由位于地面上的M个地面移动终端和J台地面云服务器、以及位于太空中的N颗低轨卫星组成的低轨卫星边缘计算网络;地面移动终端的集合、低轨卫星的集合和地面云服务器的集合分别表示为M={1,…,m,…,M},N={1,…,n,…,N}和J={1,…,j,…,J},m、n、j分别表示地面移动终端的序数、低轨卫星的序数和地面云服务器的序数,M、N、K分别为地面移动终端的数量、低轨卫星的数量和地面云服务器的数量;设置每个地面移动终端每次至多能连接一颗低轨卫星;并且设置每个地面移动终端每次至多能和一台地面云服务器通过低轨卫星建立连接;
步骤S12:设置每个地面移动终端在每个批次仅生成一个不可分割的计算任务;随后,将整个低轨卫星边缘计算网络需执行的任务批次的集合K表示为:K={1,…,k,…,K},k表示第k个任务批次,K为任务批次的总数量;将第m个地面移动终端的第k批次生成的任务描述为其中,表示为任务载荷的数据大小,表示为任务载荷所需的CPU处理周期数;将地面移动终端生成的第k批次的任务集合的状态信息向量Wk定义为M为地面移动终端的数量;
步骤S13:设置低轨卫星均运行在圆轨道上,将轨道高度表示为H,地球半径表示为R,地面移动终端m和低轨卫星n之间在开始执行第k批次的任务时的仰角表示为得到第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk以及整个低轨卫星边缘计算网络的各个低轨卫星对于各个地面移动终端在执行第k批次任务的可见时长;
步骤S14:初始化任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk。
5.根据权利要求3所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述步骤S2包括:
步骤S21:将地面移动终端生成的第k批次的任务集合的状态信息向量Wk所对应的任务调度方式向量定义为 为第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各低轨卫星的决策向量,为将第m个地面移动终端的第k批次生成的任务调度至低轨卫星边缘计算网络中各地面云服务器的决策向量,所有地面移动终端的同一个批次的任务集合中的多个任务能够选择不同的任务调度方式;任务调度方式包括:在本地进行处理、传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理;
步骤S22:根据获取的第k批次的任务集合的环境状态信息和任务调度方式向量,确定任务集合中的每一个任务的处理时延、地面移动终端的任务处理能耗和低轨卫星的任务处理能耗;
步骤S23:将地面移动终端的任务处理能耗和低轨卫星的任务处理能耗的加权之和定义为系统能耗开销,构建出以最小化系统能耗开销为优化目标的优化问题模型。
7.根据权利要求6所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述优化问题模型为:
其中,C1、C2、C3、C4、C5分别表示第一、第二、第三、第四和第五约束条件;表示第m个地面移动终端的第k批次生成的任务被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务未被调度至低轨卫星n执行;表示第m个地面移动终端的第k批次生成的任务通过低轨卫星n被调度至地面云服务器j执行;表示第m个地面移动终端的第k批次生成的任务未通过低轨卫星n被调度至地面云服务器j执行;分别是第m个地面移动终端的第k批次生成的任务在任务调度方式为传输至低轨卫星进行处理、和通过低轨卫星传输至地面云服务器进行处理时的处理时延;为低轨卫星n对于地面移动终端m在执行第k批次任务的可见时长;为低轨卫星n为第m个地面移动终端的第k批次生成的任务分配的计算资源;zLEO是单个低轨卫星拥有的计算资源上限;是第k批次任务开始执行时低轨卫星n的电池使用状态。
8.根据权利要求7所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,所述强化学习模型的状态空间中的每个状态sk包括地面移动终端生成的第k批次的任务集合的状态信息向量Wk、第k批次任务开始执行时各地面移动终端和低轨卫星之间的地心角向量βk、任务开始执行时各地面移动终端和地面云服务器之间的可见性向量bk和第k批次任务开始执行时各低轨卫星的电池使用状态信息向量Uk;
状态评价函数gk为:
gk={gk,1,gk,2,gk,3},
其中, 表示状态sk在动作ak下不能满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3;表示状态sk在动作ak下能够满足低轨卫星对第m个地面移动终端的第k批次生成的任务对应的第三约束条件C3;表示状态sk在动作ak下不能满足低轨卫星n对应的第四约束条件,反之, 表示状态sk在动作ak下不能满足低轨卫星n对应的第五约束条件,反之,
所述强化学习模型的动作空间中的第k批次任务集合执行的动作ak包括:
ak={ck,fk,GMT,fk,LEO,fk,GCS},
其中,ck表示第k批次任务集合的任务调度方式向量,fk,GMT表示地面移动终端对第k批次任务集合中各任务分配的计算资源向量,fk,LEO表示低轨卫星对第k批次任务集合中各任务分配的计算资源向量,fk,GCS表示地面云服务器对第k批次任务集合中各任务分配的计算资源向量;
所述强化学习模型的受益函数包括瞬时收益函数和累积收益函数;
所述强化学习模型的瞬时收益函数rk为:
所述优化目标被描述成能够最大化累积收益函数的计算资源分配策略π*,对于计算资源分配策略π:S→A,执行至第k批次任务开始时的累积收益函数表示为:
其中,γ∈[0,1]作为收益折扣率来映射未来收益的重要性,Eπ[·]表示在可能的策略π下的期望,K表示所需处理的总任务批次数,k’表示计算过程中的任务批次,k表示当前执行任务的批次。
9.根据权利要求8所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,在所述步骤S4中,在所述强化学习模型上引入了DNN,将利用DNN的神经网络参数θ对实际Q函数Q(sk,ak)进行拟合得到的拟合Q函数来对神经网络参数θ迭代更新,最终获取的拟合Q函数的最优结果为最优策略评估函数Q*(sk,ak),此时深度强化学习模型求解完成。
10.根据权利要求1所述的能耗优化的低轨卫星边缘计算资源分配方法,其特征在于,在所述步骤S5中,智能体将第k批次获取收集环境状态信息作为状态sk输入,进行计算得到状态评价函数gk;随后利用步骤S3建立的优化问题模型与步骤S4采用的基于优化DQN的深度强化学习算法进行求解,输出计算资源分配策略ak={ck,fk,GMT,fk,LEO,fk,GCS},得到各任务调度方式和各地面移动终端、低轨卫星和地面云服务器的计算资源分配情况{fk,GMT,fk,LEO,fk,GCS},并分发至各地面移动终端、低轨卫星和地面云服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356235.9A CN114928394A (zh) | 2022-04-06 | 2022-04-06 | 一种能耗优化的低轨卫星边缘计算资源分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210356235.9A CN114928394A (zh) | 2022-04-06 | 2022-04-06 | 一种能耗优化的低轨卫星边缘计算资源分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114928394A true CN114928394A (zh) | 2022-08-19 |
Family
ID=82804649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210356235.9A Pending CN114928394A (zh) | 2022-04-06 | 2022-04-06 | 一种能耗优化的低轨卫星边缘计算资源分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114928394A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115514769A (zh) * | 2022-09-14 | 2022-12-23 | 中山大学 | 卫星弹性互联网资源调度方法、系统、计算机设备及介质 |
CN116760457A (zh) * | 2023-08-17 | 2023-09-15 | 成都本原星通科技有限公司 | 一种基于卫星电池寿命的资源分配方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150358861A1 (en) * | 2013-12-23 | 2015-12-10 | Thales | Satellite communication system for a continuous high-bitrate access service over a coverage area including at least one polar region |
US20170261949A1 (en) * | 2016-03-11 | 2017-09-14 | University Of Chicago | Apparatus and method for optimizing quantifiable behavior in configurable devices and systems |
CN109933842A (zh) * | 2019-01-23 | 2019-06-25 | 北京航空航天大学 | 一种基于约束满足遗传算法的移动目标单星任务规划方法 |
CN110647391A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 面向星地协同网络的边缘计算方法及系统 |
CN110868455A (zh) * | 2019-10-29 | 2020-03-06 | 北京邮电大学 | 一种基于空天地远程物联网的计算卸载方法及系统 |
CN112052598A (zh) * | 2020-09-14 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种基于偏好moea的卫星地面站资源多目标优化方法 |
CN112653500A (zh) * | 2020-12-16 | 2021-04-13 | 桂林电子科技大学 | 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法 |
WO2022027776A1 (zh) * | 2020-08-03 | 2022-02-10 | 威胜信息技术股份有限公司 | 边缘计算网络任务调度与资源分配方法和边缘计算系统 |
CN114051254A (zh) * | 2021-11-08 | 2022-02-15 | 南京大学 | 一种基于星地融合网络的绿色云边协同计算卸载方法 |
CN114124195A (zh) * | 2021-11-19 | 2022-03-01 | 桂林电子科技大学 | 一种面向leo卫星系统的多星mec计算卸载策略 |
CN114153572A (zh) * | 2021-10-27 | 2022-03-08 | 中国电子科技集团公司第五十四研究所 | 一种星地协作网络中分布式深度学习的计算卸载方法 |
-
2022
- 2022-04-06 CN CN202210356235.9A patent/CN114928394A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150358861A1 (en) * | 2013-12-23 | 2015-12-10 | Thales | Satellite communication system for a continuous high-bitrate access service over a coverage area including at least one polar region |
US20170261949A1 (en) * | 2016-03-11 | 2017-09-14 | University Of Chicago | Apparatus and method for optimizing quantifiable behavior in configurable devices and systems |
CN109933842A (zh) * | 2019-01-23 | 2019-06-25 | 北京航空航天大学 | 一种基于约束满足遗传算法的移动目标单星任务规划方法 |
CN110647391A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 面向星地协同网络的边缘计算方法及系统 |
CN110868455A (zh) * | 2019-10-29 | 2020-03-06 | 北京邮电大学 | 一种基于空天地远程物联网的计算卸载方法及系统 |
WO2022027776A1 (zh) * | 2020-08-03 | 2022-02-10 | 威胜信息技术股份有限公司 | 边缘计算网络任务调度与资源分配方法和边缘计算系统 |
CN112052598A (zh) * | 2020-09-14 | 2020-12-08 | 中国人民解放军国防科技大学 | 一种基于偏好moea的卫星地面站资源多目标优化方法 |
CN112653500A (zh) * | 2020-12-16 | 2021-04-13 | 桂林电子科技大学 | 基于蚁群算法的面向低轨道卫星边缘计算任务调度方法 |
CN114153572A (zh) * | 2021-10-27 | 2022-03-08 | 中国电子科技集团公司第五十四研究所 | 一种星地协作网络中分布式深度学习的计算卸载方法 |
CN114051254A (zh) * | 2021-11-08 | 2022-02-15 | 南京大学 | 一种基于星地融合网络的绿色云边协同计算卸载方法 |
CN114124195A (zh) * | 2021-11-19 | 2022-03-01 | 桂林电子科技大学 | 一种面向leo卫星系统的多星mec计算卸载策略 |
Non-Patent Citations (2)
Title |
---|
KAIXIANG WEI: "Resource Scheduling and Offloading Strategy Based on LEO Satellite Edge Computing", 《VTC2021》, 31 December 2021 (2021-12-31), pages 1 - 6 * |
宋政育: "低轨卫星协作边缘计算任务迁移和资源分配算法", 《电子学报》, 31 March 2022 (2022-03-31), pages 567 - 573 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115514769A (zh) * | 2022-09-14 | 2022-12-23 | 中山大学 | 卫星弹性互联网资源调度方法、系统、计算机设备及介质 |
CN115514769B (zh) * | 2022-09-14 | 2023-06-06 | 中山大学 | 卫星弹性互联网资源调度方法、系统、计算机设备及介质 |
CN116760457A (zh) * | 2023-08-17 | 2023-09-15 | 成都本原星通科技有限公司 | 一种基于卫星电池寿命的资源分配方法 |
CN116760457B (zh) * | 2023-08-17 | 2023-10-31 | 成都本原星通科技有限公司 | 一种基于卫星电池寿命的资源分配方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108880663B (zh) | 基于改进遗传算法的天地一体化网络资源分配方法 | |
CN114928394A (zh) | 一种能耗优化的低轨卫星边缘计算资源分配方法 | |
CN110928654B (zh) | 一种边缘计算系统中分布式的在线任务卸载调度方法 | |
WO2019127948A1 (zh) | 一种智能遥感卫星层次化分布式自主协同任务规划系统 | |
CN114362810A (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
CN111556461A (zh) | 一种基于深度q网络的车载边缘网络任务分发卸载方法 | |
CN114665952B (zh) | 一种基于星地融合架构下低轨卫星网络跳波束优化方法 | |
CN113905347B (zh) | 一种空地一体化电力物联网云边端协同方法 | |
Li et al. | An integrated optimization-learning framework for online combinatorial computation offloading in MEC networks | |
Liu et al. | Energy-efficient space–air–ground integrated edge computing for internet of remote things: A federated DRL approach | |
Ke et al. | Adaptive computation offloading policy for multi-access edge computing in heterogeneous wireless networks | |
CN112988285B (zh) | 任务卸载方法和装置、电子设备及存储介质 | |
CN112422171A (zh) | 环境不确定遥感卫星网络下的智能资源联合调度方法 | |
CN114884949A (zh) | 基于maddpg算法的低轨卫星物联网任务卸载方法 | |
CN113781002A (zh) | 云边协同网络中基于代理模型和多种群优化的低成本工作流应用迁移方法 | |
CN113821346B (zh) | 基于深度强化学习的边缘计算中计算卸载与资源管理方法 | |
CN116489708B (zh) | 面向元宇宙的云边端协同的移动边缘计算任务卸载方法 | |
CN116600344A (zh) | 一种具有电力成本差异的多层mec资源卸载方法 | |
Shaodong et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
CN116209084A (zh) | 一种能量收集mec系统中任务卸载和资源分配方法 | |
CN115460710A (zh) | 基于深度强化学习的车辆边缘计算场景中的智能计算卸载方法 | |
CN115914230A (zh) | 一种自适应移动边缘计算卸载和资源分配方法 | |
CN115276755A (zh) | 卫星网络通信的星间链路与功率分配方法 | |
Dong et al. | Deep Progressive Reinforcement Learning-Based Flexible Resource Scheduling Framework for IRS and UAV-Assisted MEC System | |
Bao et al. | Towards intelligent cross-domain resource coordinate scheduling for satellite networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |