CN114614878A - 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 - Google Patents
星地网络中基于矩阵-向量乘法任务的编码计算分配方法 Download PDFInfo
- Publication number
- CN114614878A CN114614878A CN202210133505.XA CN202210133505A CN114614878A CN 114614878 A CN114614878 A CN 114614878A CN 202210133505 A CN202210133505 A CN 202210133505A CN 114614878 A CN114614878 A CN 114614878A
- Authority
- CN
- China
- Prior art keywords
- satellite
- network
- task
- matrix
- ground
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 title claims abstract description 46
- 230000009471 action Effects 0.000 claims abstract description 38
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 26
- 238000005457 optimization Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 24
- 238000004088 simulation Methods 0.000 abstract description 9
- 230000002787 reinforcement Effects 0.000 abstract description 5
- 230000006854 communication Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 21
- 230000004927 fusion Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 241000726409 Satellites Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18513—Transmission in a satellite or space-based system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/1851—Systems using a satellite or space-based relay
- H04B7/18519—Operations control, administration or maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/16—Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
- H04W28/18—Negotiating wireless communication parameters
- H04W28/20—Negotiating bandwidth
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Radio Relay Systems (AREA)
Abstract
本发明公开了一种星地网络中基于矩阵‑向量乘法任务的编码计算分配方法,包括构建星地网络系统,根据资源调度参数与任务分配大小形成星地网络系统动作空间;根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法,获取编码计算分配的决策。本发明提出了新的系统时变性指标,结合任务执行容忍时延定义并推导了系统折衷开销的表达式,进而利用DDPG深度强化学习算法,对星地间计算卸载的经验样本进行训练,仿真结果得到了收敛后的回报函数值,得到最优的时延与能量开销,另外,LT编码方案在避免straggler现象的负面影响时具有明显的优势。
Description
技术领域
本发明涉及通信技术领域,特别涉及一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法。
背景技术
在星地融合网络中采用计算任务卸载策略是提升各种密集型计算业务服务质量的有效途径之一,现有的卫星-地面合作传输方案中,将低轨道卫星网络作为无线局域网的一部分,在卸载过程中考虑能量约束对传输功率分配的控制,以达到传输能量效率最优化。也有提出了低轨星地网络下联合边缘计算与缓存问题的机器学习算法,利用深度学习完成计算任务卸载至星上边缘服务器的系统工作流程。为了进一步利用星上处理的能力,应对海量计算与时延敏感服务,单颗卫星提供的计算和覆盖能力仍然有限。将计算任务分布式卸载至多颗卫星能够进一步整合可利用的计算资源,同时也增大了计算协同调度的复杂性。然后出现了将地面卸载至卫星的计算任务在低轨卫星网络中进行分配与传输,对具有多个卫星节点和卫星网关的任务卸载、计算与通信资源分配进行联合优化,并使用了马尔可夫决策过程以及深度强化学习将联合优化问题分为固定用户关联与动态用户关联两个子问题进行解决,利用学习算法有效减少时延和能量开销。
为了解决复杂机器学习算法和大数据分析等大规模计算任务,通常采用分布式系统代替集中式计算。在分布式计算中,任务被拆分成多个子任务并行处理。但在实际系统工作过程中,由于工作节点的计算资源被占用、数据包丢失和硬件故障等原因,导致该节点的计算时延过高,成为“慢节点”(straggler),对系统整体性能造成了极大影响。针对这个问题,有人提出了基于大规模机器学习的编码计算方案,通过在分布式计算系统中对矩阵相乘计算中的矩阵行进行编码,有效降低了计算时延开销。也有提出了一种基于无速率喷泉码的编码计算策略,在存在straggler的情况下加快分布式矩阵矢量乘法,实现了近乎完美的负载平衡,冗余计算开销渐近为零,解码复杂度低。通过理论分析和实验表明,与MDS编码方案、复制方案等固定码率编码方案相比,无速率码在计算延迟上具有更好的优化性能。目前,无速率码在编码计算解决大规模矩阵乘法问题上有着最优的性能,其主要原理为,为了使用多个工作节点完成矩阵向量相乘即Ax的运算,无速率编码算法对m行n列矩阵A中的m行进行线性编码组合,产生me=αm(α>1)个编码行,将这些编码行平均分配到p个工作节点中。每个节点需要接收me/p个编码行并分别与向量x相乘并发送回主节点。主节点接收到任意M=m(1+ε)个乘法结果即可通过解码算法得到总计算任务Ax的结果,ε是一个很小的量。
星地融合网络中,多波束卫星有一定的覆盖区域和服务对象。不同波束范围内的地面用户在不同时段产生的任务请求往往有较大差异,导致网络中各个卫星的计算与通信资源占用发生实时变化。这种“忙闲状态”的特性在未知状态下不利于卫星间进行计算卸载与资源分配,如在一个卫星节点处排队时间较长,或卫星计算能力出现不稳定下降(宕机),将大大增加整体的计算时延,进而导致系统计算卸载任务失败。并且由于低轨卫星网络拓扑随时间发生变化,星间通信链路的建立存在动态特性,这将对星上任务调度以及计算任务能否完成产生影响。
目前,编码计算依然处于理论研究阶段,大多研究者集中于讨论编码矩阵分解及异构系统的通信-计算折衷问题。而星地融合网络具有链路长延迟、拓扑非固定、网络层级切分零散、计算任务优先级差异显著等诸多复杂因素,straggler对地面和星载边缘服务器的计算资源使用效率影响更为突出。无速率码计算虽然具有自适应能力较强的优势,但其延迟性能恰好决定于边缘服务器straggler情况的发生频率。特殊网络场景中链路状态和拓扑构型对无速率编码计算最优化延迟性能的影响机理都需要进一步研究,从而明确其应用条件。
发明内容
本发明针对上述问题,提供了一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,针对星地融合网络中运行大规模矩阵向量乘法任务时执行效率不足的瓶颈约束,采用无速率码分布式编码计算,有效缓解星间/星地链路不稳定连接、卫星计算设备宕机(straggler)、及系统资源频繁占用等因素造成的计算延迟过高、能耗开销过大等典型问题。
本发明的技术方案是:构建星地网络系统,所述星地网络系统包括地面基站、接入卫星和多个工作卫星,所述接入卫星和工作卫星形成星间链路,所述接入卫星按照轨道周期实时与所述地面基站通信;
所述地面基站对接收到的矩阵-向量乘法任务,根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算,所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算;
其特征在于,所述资源调度策略包括:
将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1,优化问题P1的约束条件包括:系统多个开销折衷系数约束,接入卫星与工作卫星建立临时星间链路的概率约束,工作卫星总计算功率不能超过阈值;接入卫星总带宽不能超过阈值;卸载位置只在地面基站和工作卫星;
根据资源调度与任务分配大小形成星地网络系统动作空间;
根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法,通过任务调度方法求解优化问题P1,获取最优的任务分配量、分配的功率、传输带宽。
本发明的进一步技术方案是:所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算,具体步骤包括:对所述矩阵按照编码规则进行无速率编码,编码后所述矩阵行数由mt变为αmt的LT码,其中α为LT码的编码参数,根据所述编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。
本发明的进一步技术方案是:所述以最小化系统折中开销为目标的优化问题P1具体表达式为:
s.t.C1:ω1+ω2+ω3=1
0<ω1,ω2,ω3<1
C2:0<β1,...,βs<1
其中,为系统成本函数,ω1、ω2、ω3为系统开销折衷系数,Ti为系统在i时刻任务矩阵整体处理时延开销,Ei为系统处理总功耗,δ为任务失败开销系数,t0表示时延开销阈值,为指示函数,若A条件成立,则若{A}为空集合,则C1表示折衷系数和为1,C2表示接入卫星与工作卫星建立临时星间链路的概率β1,...,βs,C3表示工作卫星总计算功率不能超过阈值Ρcom,C4表示卫星总带宽不能超过阈值B0,C5表示卸载位置只有地面基站与工作卫星,ms,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数,s表示工作卫星个数,ni表示i时刻任务矩阵的列数,ρi-k,s表示工作卫星s处理第i-k个任务分配的功率。
本发明的进一步技术方案是:所述星地网络系统动作空间的具体表达式为:
其中,r表示地面基站、接入卫星和多个工作卫星三种工作节点各自并行处理任务的最大数量,m1,0~mr,0表示地面基地处理的任务1~r的子矩阵行数,ρ1,0~ρr,0表示地面基地处理任务1~r分配的功率,m1,s~mr,s表示工作卫星处理的任务1~r的子矩阵行数,ρ1,s~ρr,s表示工作卫星处理任务1~r分配的功率,B1,s~Br,s表示接入卫星分配任务1~r的传输带宽。
本发明的进一步技术方案是:所述根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络,所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic,其中一个演说家网络Actor和一个评论家网络Critic组成原始网络,另一个演说家网络Actor和另一个评论家网络Critic组成目标网络,所述原始网络通过与星地网络系统进行实时交互,实现所述原始网络参数训练,并在固定间隔时间内,通过软更新的方法将所述原始网络参数更新至所述目标网络中。
本发明的进一步技术方案是:所述基于DDPG算法的任务调度方法,具体实现步骤包括:
步骤1、初始化原始网络中的评论家网络critic输出qw(s,a)和演说家网络actor输出μθ(s);初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μθ’(s);初始化执行动作a,初始化经验回放缓存,初始化状态s0,设置经验回放池数据样本个数K;
步骤2、将时间分为T个间隙,在每个时间间隙内,执行:
步骤21、通过原始网络中的评论家网络Critic得到动作at=μθ(st)+Νt,其中,μθ表示编码计算分配的决策,st表示星地网络系统当前状态,Νt为高斯噪声,执行动作at=μθ(st)+Νt,获取动作奖励rt和下一时刻的状态st+1;
步骤22、将数据{at,st,rt,st+1}缓存至经验回放池;
步骤23、从经验回放池中提取K个经验数据{ai,si,ri,si+1};
步骤24、在目标网络中的评论家网络critic中计算yi=ri+γq'(si+1,μ'(si+1|θμ')|θq'),其中γ为折扣因子,q'(si+1,μ'(si+1|θμ')|θq')表示在状态si+1和动作ai+1=μ'(si+1|θμ')条件下的目标值网络输出的Q值,μ'(si+1|θμ')表示目标网络中的演说家网络actor输出结果,θμ'、θq'分别表示目标网络中演说家网络actor和评论家网络critic的参数;
步骤26、计算策略梯度
步骤27、根据θq和θμ定期更新目标网络中评论家网络critic参数和演说家网络actor参数θq'=ζθq+(1-ζ)θq',θμ'=ζθμ+(1-ζ)θμ',其中ζ表示更新率。
本发明提供的一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,其有益效果是:面向时变的星地融合网络系统,以任务执行的容忍时延、星地计算与通信资源最大值为约束条件,解决了如何选择编码方案、优化编码参数和系统参数,以及如何进行系统整体的资源分配与任务调度问题。提出了新的系统时变性指标,结合任务执行容忍时延定义并推导了系统折衷开销的表达式,进而利用DDPG深度强化学习算法,对星地间计算卸载的经验样本进行训练,仿真结果得到了收敛后的回报函数值,得到最优的时延与能量开销,另外,LT编码方案在避免straggler现象的负面影响时具有明显的优势。
附图说明
图1为本发明实施例中星地网络系统结构示意图;
图2为本发明实施例中时变资源状态下矩阵向量乘法任务计算卸载模型示意图;
图3为本发明实施例中基于DDPG算法的任务调度方法示意图;
图4为本发明实施例中η=2.0编码方案与未编码方案开销收敛曲线示意图;
图5为本发明实施例中η=2.0编码方案与未编码方案能量开销收敛曲线示意图;
图6为本发明实施例中η=0.2编码方案与未编码方案时延开销收敛曲线;
图7为本发明实施例中不同任务到达率下的任务成功率效果对比图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
基于本发明的实施例1
本实施例用于说明本发明解决技术问题的原理和步骤,建立星地融合网络系统和计算资源状态模型,刻画星地融合网络的计算特征及星地网络通信资源模型。如图1所示,构建星地网络系统,包括地面基站、接入卫星和多个工作卫星,所述接入卫星和工作卫星形成星间链路,所述接入卫星按照轨道周期实时与所述地面基站通信,地面基站、接入卫星和工作卫星节点三者协调资源调度来保障系统对实时到达的任务进行可靠性处理。其中,地面基站具备有限计算和通信能力,按照一定到达频率负责收集覆盖范围内的计算任务并根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算。LEO卫星按照轨道周期实时与地面基站通信,LEO星间链路拓扑内卫星节点周期运行变化呈不稳定连接,接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至工作卫星进行分布式计算。
基于本发明的实施例2
本实施例用于在实施例1的基础上建立一个时变资源状态下矩阵向量乘法任务计算卸载模型,如图2所示,Atxt代表不同时刻到达的计算任务,到达时刻按到达率为λ的泊松过程分布,任务量大小由矩阵行数m决定;Wt表示可计算卸载的卫星及地面设备,其中一个节点的资源存在被多个任务占用的情况。例如时刻t到达地面基站的任务会分解为矩阵与向量,对矩阵进行LT编码后根据资源调度策略并行分发至多节点。节点并行工作负载为r,t时刻仍在运行的计算任务至多在t-r时刻到达。
时变资源状态下矩阵向量乘法任务计算卸载模型具体实施过程中,地面基站接收计算任务不考虑多播并发,任务到达概率服从泊松过程,模型中计算任务过程主要通过计算大规模矩阵向量乘法完成。矩阵向量计算任务中,星地传输及星间传输向量的通信时延及功耗开销忽略不计,默认跟随大型矩阵一同传输至各个计算节点。由于计算结果也以向量形式传回,星地网络系统运行过程中的回程链路通信时延及能耗开销予以忽略。地面基站及卫星节点存在处理任务数量上限,达到上限会清理未完成的任务以接收下一任务的到来,模型中各工作节点最多并行计算r个矩阵向量乘法计算任务。所有的通信链路均为无差错传输,不受外界的干扰影响。只要满足编码计算理论所需的可恢复计算结果数目,就认为计算任务完成,如使用喷泉码进行编码计算时,忽略解码失败的小概率事件。星间链路稳定性连接随周期变化规律可建立为概率模型,模型参数由实际场景中星间链路数目与临时链路建立时间规律得出。
基于本发明的实施例3
本实施例用于解释优选方案:
地面基站按时序接收通信覆盖范围内用户发送来的任务,接收后将立即进行任务调度与资源分配。第i个时序接收的任务记为Γi,需要进行矩阵向量乘法计算ri=Aixi,其中
对于i=t时刻到达的矩阵与向量,可执行的计算位置分为地面和星上部分,其中地面节点表示为Node 0,星上节点表示为Node s,s=1,2,...,S,S为可与接入卫星建立星间链路(包括永久链路与临时链路)的卫星总数。在星上处理的矩阵向量在卫星拓扑间进行分布式计算,接入卫星将计算向量传输至各个工作卫星节点。
在星上分布式计算阶段,接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至工作卫星进行分布式计算,具体步骤包括:对矩阵按照编码规则进行无速率编码,编码后矩阵行数由mt变为αmt的LT码,其中α为LT码的编码参数,根据编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。各个工作卫星每完成一次乘法实时传输结果至接入卫星,接入卫星接收到mt(1+ε)个结果后解码出矩阵向量乘法的计算结果向量rt,其中ε理论状况下为无穷小量(α→∞,ε→0),并将状态信息传输至各个工作卫星节点,清空卫星节点中剩余的Γt相关的计算任务。当系统中计算任务完成时,处理时延存在已经超过该任务处理容忍时延的可能,为了保持系统在较高的可靠性,需要对超过任务处理容忍时延的任务给予较高的关注,保证尽量多的计算资源分给计算任务量较大的卫星工作节点。
对于时刻i到达的任务,端到端所需的整体处理时延开销表示为Ti,系统处理总功耗为Ei。通过对编码参数和系统参数与时延以及能量之间的定量关系分析,得出系统成本函数为:
其中ω为系统开销折衷系数且满足ω1+ω2+ω3=1,δ为任务失败开销系数,一般设定一个较大的值以保障系统可靠性,t0表示时延开销阈值,为指示函数,若A条件成立,则若{A}为空集合,则综合以上分析,星地融合网络资源调度与任务分配可形成最小开销的优化问题,将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1,优化问题P1的约束条件包括:系统多个开销折衷系数约束,接入卫星与工作卫星建立临时星间链路的概率约束,工作卫星总计算功率不能超过阈值;接入卫星总带宽不能超过阈值;卸载位置只在地面基站和工作卫星:所述以最小化系统折中开销为目标的优化问题P1具体表达式为:
s.t.C1:ω1+ω2+ω3=1
0<ω1,ω2,ω3<1
C2:0<β1,...,βs<1
其中,为系统成本函数,ω1、ω2、ω3为系统开销折衷系数,Ti为系统在i时刻任务矩阵整体处理时延开销,Ei为系统处理总功耗,δ为任务失败开销系数,为指示函数,若A条件成立,则若{A}为空集合,则C1表示折衷系数和为1,C2表示接入卫星与工作卫星建立临时星间链路的概率,C3表示工作卫星总计算功率不能超过阈值Ρcom,C4表示卫星总带宽不能超过阈值B0,C5表示卸载位置只有地面基站与工作卫星,ms,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数,s表示工作卫星个数,ni表示i时刻任务矩阵的列数,ρi-k,s表示工作卫星s处理第i-k个任务分配的功率。β1,...,βs表示接入卫星与工作卫星1,…,s建立临时星间链路的概率,Bi,s表示i时刻接入卫星分配任务的传输带宽。优化问题P1以最小化系统折中开销为目标,优化基数为r的连续动作空间,进行多时隙任务协同优化。主要约束条件包括折中参数大小、星间链路连接状态大小、卫星及地面基站总计算资源约束与接入卫星总带宽大小限制以及卸载位置只有地面基站与星上工作卫星限制。
由于各工作节点并行处理任务最大数量为r,资源调度参数与分配任务大小可形成基于r次任务调度的动作空间,包括任务计算矩阵分配至地面基站及工作卫星节点的子矩阵行数、接入卫星节点分配给子矩阵的传输带宽以及地面基站与工作卫星分配给各时隙任务的计算资源。根据资源调度参数与任务分配大小形成星地网络系统动作空间具体表达式如下:
其中,r表示地面基站、接入卫星和多个工作卫星三种工作节点各自并行处理任务的最大数量,m1,0~mr,0表示地面基地处理的任务1~r的子矩阵行数,ρ1,0~ρr,0表示地面基地处理任务1~r分配的功率,m1,s~mr,s表示工作卫星处理的任务1~r的子矩阵行数,ρ1,s~ρr,s表示工作卫星处理任务1~r分配的功率,B1,s~Br,s表示接入卫星分配任务1~r的传输带宽。
基于本发明的实施例4
为了保持系统的可靠性,每周期若有计算任务到达,需要大规模矩阵向量乘法运算及拆解矩阵行数形成子矩阵进行计算卸载及分布计算,本发明的目标是在容忍时延内完成计算任务,优化系统当前任务及长期整体的通信功耗开销。星地网络计算卸载场景中的输出动作无论是传输功率,卸载决策还是编码计算相关参数都是一个连续的动作空间,传统的DQN不能获取系统最优决策。本实施例在实施例1至实施例3的基础上提出了一种基于DDPG算法的任务调度方法来解决这个问题。基于DDPG算法的任务调度方法图示如图3所示,在t时刻的回报函数表示为:
如图3所示,根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络,所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic,其中一个演说家网络Actor和一个评论家网络Critic组成原始网络,另一个演说家网络Actor和另一个评论家网络Critic组成目标网络,原始网络通过与星地网络系统进行实时交互,实现原始网络参数训练,并在固定间隔时间内,通过软更新的方法将原始网络参数更新至目标网络中。
根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法,通过任务调度方法求解优化问题P1,获取最优的任务分配量、分配的功率、传输带宽,具体实现步骤包括:
步骤1、初始化原始网络中的评论家网络critic输出qw(s,a)和演说家网络actor输出μθ(s);初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μθ′(s);初始化执行动作a,动作包括地面基地处理任务的子矩阵行数,地面基地处理任务分配的功率、工作卫星处理任务的子矩阵行数、工作卫星处理任务分配的功率、接入卫星分配任务的传输带宽,初始化经验回放缓存,初始化状态s0,状态包括各节点功耗和计算时延等,设置经验回放池数据样本个数K;
步骤2、将时间分为T个间隙,在每个时间间隙内,执行:
步骤21、通过原始网络中的评论家网络Critic得到动作at=μθ(st)+Νt,其中,μθ表示编码计算分配的决策,衡量一个编码计算分配的决策μθ的表现:用一个准则函数J来衡量,可以表示为
其中,Qμ(st,μ(st))为每个网络的Q函数,即action-value函数,是在每个状态下,如果都按照μθ决策选择动作时,能够产生的Q值;因此,最优编码计算分配的决策μ可以认为是准则函数J(μ)的最大似然估计,可以表示为
st表示星地网络系统当前状态,这些状态是基于编码计算分配的决策μθ产生的,它们的分布函数为ρ(st),Νt为高斯噪声,执行动作at=μθ(st)+Νt,获取动作奖励rt和下一时刻的状态st+1,其中动作奖励为回报函数rt;
步骤22、将数据{at,st,rt,st+1}缓存至经验回放池;
步骤23、从经验回放池中提取K个经验数据{ai,si,ri,si+1};
步骤24、在目标网络中的评论家网络critic中计算yi=ri+γq'(si+1,μ'(si+1|θμ')|θq'),其中γ为折扣因子,q'(si+1,μ'(si+1|θμ')|θq')表示在状态si+1和动作ai+1=μ'(si+1|θμ')条件下的目标值网络输出的Q值,μ'(si+1|θμ')表示目标网络中的演说家网络actor输出结果,θμ'、θq'分别表示目标网络中演说家网络actor和评论家网络critic的参数;
步骤26、计算策略梯度
步骤27、根据θq和θμ定期更新目标网络中评论家网络critic参数和演说家网络actor参数θq'=ζθq+(1-ζ)θq',θμ'=ζθμ+(1-ζ)θμ',其中ζ表示更新率。
基于本发明的实施例5
本实施例基于实施例4获取编码计算分配的决策后对系统开销的推导,在当前时刻i,针对任务Γi的执行过程及执行开销,若当前时刻没有任务到达,则将行数置零,任务经过系统调度后,可以分为星上部分与地面部分针对第一个指标,系统时延开销主要包括星地上行传播及传输时延、星间上下行传播及传输时延、星地下行传输时延构成的通信时延以及地面处理任务部分的计算时延与星上处理任务部分的计算时延。首先对通信时延进行分析。由系统模型可知,本地基站进行任务调度后,仅卸载至星上的任务存在通信时延开销。由于任务在星上做分布式编码矩阵向量乘法计算,向量不进行分配且传输量小到可以忽略的程度,通信时延只考虑接入卫星并行传输编码后的子矩阵至工作卫星中,并对每个子矩阵进行时延分析。对于卸载位置位于工作卫星s的子矩阵Γi s需要的通信时延开销为:
其中,wi,s为编码子矩阵的行数,b为矩阵及向量元素包含的数据比特长度,每个矩阵的数据量为minib,mi、ni分别表示第i个任务矩阵的行数和列数,He为接入卫星轨道高度,为工作卫星s与接入卫星间的链路长度,c=3×108m/s为光速,为星地链路的信道容量,为工作卫星s与接入卫星间链路信道容量。信道容量可由香农公式得出:
其中, 分别为地面基站的发射带宽,传输过程的等效噪声带宽,EIRPi,G,Li,k,T分别为地面站天线的全向辐射功率,天线增益,发射机损失系数,玻尔兹曼常数,等效噪声温度。星间链路信道容量为:其中分别为接入卫星分配给子任务的传输带宽和发射功率,hi为信道系数,n0为通信噪声,βs为连接系数,表示星间拓扑中,接入卫星与工作卫星s建立临时星间链路的概率,因而0<βs≤1。由星间链路性质,与星间链路长度相关。
在LT码编码计算方案下,任务处理的计算时延主要与矩阵行数相关。地面基站处理的子矩阵为Γi 0,矩阵行数大小为mi,0,计算时延表示为τi,0,具体可得表达式为:τi,0=ξi, 0mi,0nib,其中,ξi,0表示地面站处理Γi 0分配的计算能力的大小,单位为s/bit。同样,星上计算时延也针对编码后的子矩阵进行分析。由于工作卫星节点存在straggler的问题,控制平台分配计算资源后,计算能力达到ξi,s时,计算编码子矩阵与向量相乘所需时间满足:
其中,ηs为工作卫星s的straggler参数。编码子矩阵行数wi,s=αmi,s。理想计算平均时延可作为策略梯度决策时的参考数值。已有通信时延与计算时延的情况下,可得端到端所需的整体时延开销为:
其中Pi e为地面基站发射功率,由地面基站参数设置决定,由星间链路长度决定。同样,计算功耗也与工作节点分配计算功率调度与计算时延决定。卫星工作节点计算功率表示为其中CPU运转频率ξi,s表示卫星工作节点计算处理能力大小,单位为cycle/s,ν,κ分别为计算功率系数及计算频率转换系数,地面工作节点计算功率表示为其中资源调度决定每个计算节点分配计算功率的大小,可得系统计算功耗以及系统总功耗为
本发明实施例的一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,对以上五个实施例进行仿真实验。仿真设置为每个时隙(回合)随机产生服从泊松到达的任务序列。设置随机产生的矩阵向量行数在[104,106]范围内,列数为500,实际应用中列数不足时补零。经过DDPG深度强化学习得到,图4及图5为straggler参数η=2.0时,系统的时延及能量收敛曲线。
如图4,DDPG算法中求解开销函数最大化,因此开销函数设置为负数,实际物理含义的开销取绝对值。图中可以得出LT编码计算方案使用DDPG算法优化后,开销稳定在5左右;未编码计算方案的优化开销在25左右浮动。
如图5,LT编码方案的能量开销收敛在0.6左右;未编码方案的能量开销收敛于1.8左右(能量开销为实际能量与负载平衡系数的结合)。可得相较于未编码方案,LT码方案的能量优化在3倍左右。调整神经网络的学习率为(0.005,0.0001),设置straggler参数η=0.2后,仿真得到图5。
如图6,LT编码方案的收敛时延明显小于未编码方案,同样因为慢节点现象减弱,收敛时延相差倍数仅在三倍左右,未编码方案的时延也更为稳定。调整学习率后,收敛速度相较于图4与图5有所提升,DDPG架构也展现了更好的收敛性。
如图7,系统在1000个时隙内进行编码方案与未编码方案的仿真。随着任务到达率的增大,系统成功完成任务的比率降低。未编码方案的任务成功率在任务到达率增大时下降更快。比较失败开销系数δ分别为8和2时任务成功率的大小。失败开销系数较小时,对任务在容忍时延内的约束更小,可见图中失败开销系数为2的任务成功率曲线下降速度更大。
基于本发明的实施例6
基于对实施例1-实施例5进行的仿真实验,本实施例给出了本发明具体实施例的优选方案,DDPG算法共由四个神经网络组成,其中包括两个原始网络以及对应的两个目标网络,目标网络对应的原始网络结构完全一致。神经网络设置为包含两个隐层网络的四层全连接神经网络。两隐层的神经元个数分别设置为400和300。所有隐层网络的激活函数选择常用的Relu函数,f(x)=max(0,x),考虑到归一化输出动作取值为[0,+1],actor网络的输出层选择sigmoid作为激励函数以限制输出范围。目标及原始actor、critic网络使用了Adam优化器更新神经网络参数,actor网络的学习率(α)设置为0.0001,critic网络的学习率设置为0.01。目标网络的更新率(γ)设置为0.001。回合数(episode)设置为M=2000,每回合内最大步数设置为T=200。在星地融合网络模型中,设置地面基站接收任务间隔,即任务调度判断周期为1ms,星间信道参数(路径损失常量)设置为固定值-30dB,地面基站发射功率为2w,星地间噪声功率为10-9w。计算功率系数与计算频率转换系数分别设置为10-23和500,工作卫星总的最大计算功率为5w~50w。仿真选取接入卫星659km范围内的可连接工作卫星,则可建立永久链路的工作卫星为两个,星间临时链路中相邻轨道的连接概率约为67.3%,数量为4条链路,交叉轨道的连接概率约为15%,数量为37条链路,同向不相邻轨道的连接概率为52%,数量为21条链路。由于接入卫星包容并行通信链路有限以及接近实际情况下接入卫星建立的星间链路,仿真选取其中两条永久链路,两条相邻轨道链路,一条同向不相邻轨道与一条交叉轨道。因此星间链路系数设置为β={1,1,0.67,0.67,0.53,0.15}。接入卫星的总带宽设置为2.5Gbit/s,总发射功率设置为50W。
综合上述各实施例提供的一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,面向时变的星地融合网络系统,以任务执行的容忍时延、星地计算与通信资源最大值为约束条件,解决了如何选择编码方案、优化编码参数和系统参数,以及如何进行系统整体的资源分配与任务调度问题。提出了新的系统时变性指标,结合任务执行容忍时延定义并推导了系统折衷开销的表达式,进而利用DDPG深度强化学习算法,对星地间计算卸载的经验样本进行训练,仿真结果得到了收敛后的回报函数值,得到最优的时延与能量开销,另外,LT编码方案在避免straggler现象的负面影响时具有明显的优势。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的步骤、方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种步骤、方法所固有的要素。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (6)
1.一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法,其特征在于,所述方法包括以下步骤:
构建星地网络系统,所述星地网络系统包括地面基站、接入卫星和多个工作卫星,所述地面基站对接收到的矩阵-向量乘法任务,根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算,所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算;
所述资源调度策略包括:
将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1,优化问题P1的约束条件包括:系统多个开销折衷系数约束,接入卫星与工作卫星建立临时星间链路的概率约束,工作卫星总计算功率不能超过阈值;接入卫星总带宽不能超过阈值;卸载位置只在地面基站和工作卫星;
根据资源调度与任务分配大小形成星地网络系统动作空间;
根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法,通过任务调度方法求解优化问题P1,获取最优的任务分配量、分配的功率、传输带宽。
2.根据权利要求1所述的编码计算分配方法,其特征在于,所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算,具体步骤包括:对所述矩阵按照编码规则进行无速率编码,编码后所述矩阵行数由mt变为αmt的LT码,其中α为LT码的编码参数,根据所述编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。
3.根据权利要求1所述的编码计算分配方法,其特征在于,所述以最小化系统折中开销为目标的优化问题P1具体表达式为:
s.t.C1:ω1+ω2+ω3=1
0<ω1,ω2,ω3<1
C2:0<β1,...,βs<1
5.根据权利要求1所述的编码计算分配方法,其特征在于,所述根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络,所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic,其中一个演说家网络Actor和一个评论家网络Critic组成原始网络,另一个演说家网络Actor和另一个评论家网络Critic组成目标网络,所述原始网络通过与星地网络系统进行实时交互,实现所述原始网络参数训练,并在固定间隔时间内,通过软更新的方法将所述原始网络参数更新至所述目标网络中。
6.根据权利要求4所述的编码计算分配方法,其特征在于,所述基于DDPG算法的任务调度方法,具体实现步骤包括:
步骤1、初始化原始网络中的评论家网络critic输出qw(s,a)和演说家网络actor输出μθ(s);初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μθ′(s);初始化执行动作a,初始化经验回放缓存,初始化状态s0,设置经验回放池数据样本个数K;
步骤2、将时间分为T个间隙,在每个时间间隙内,执行:
步骤21、通过原始网络中的评论家网络Critic得到动作at=μθ(st)+Νt,其中,μθ表示编码计算分配的决策,st表示星地网络系统当前状态,Νt为高斯噪声,执行动作at=μθ(st)+Νt,获取动作奖励rt和下一时刻的状态st+1;
步骤22、将数据{at,st,rt,st+1}缓存至经验回放池;
步骤23、从经验回放池中提取K个经验数据{ai,si,ri,si+1};
步骤24、在目标网络中的评论家网络critic中计算yi=ri+γq'(si+1,μ'(si+1|θμ')|θq'),其中γ为折扣因子,q'(si+1,μ'(si+1|θμ')|θq')表示在状态si+1和动作ai+1=μ'(si+1|θμ')条件下的目标值网络输出的Q值,μ'(si+1|θμ')表示目标网络中的演说家网络actor输出结果,θμ'、θq'分别表示目标网络中演说家网络actor和评论家网络critic的参数;
步骤26、计算策略梯度
步骤27、根据θq和θμ定期更新目标网络中评论家网络critic参数和演说家网络actor参数θq'=ζθq+(1-ζ)θq',θμ'=ζθμ+(1-ζ)θμ',其中ζ表示更新率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210133505.XA CN114614878B (zh) | 2022-02-14 | 2022-02-14 | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210133505.XA CN114614878B (zh) | 2022-02-14 | 2022-02-14 | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114614878A true CN114614878A (zh) | 2022-06-10 |
CN114614878B CN114614878B (zh) | 2023-08-29 |
Family
ID=81860098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210133505.XA Active CN114614878B (zh) | 2022-02-14 | 2022-02-14 | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114614878B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN113128828A (zh) * | 2021-03-05 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种基于多智能体强化学习的卫星观测分布式在线规划方法 |
CN113950066A (zh) * | 2021-09-10 | 2022-01-18 | 西安电子科技大学 | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 |
-
2022
- 2022-02-14 CN CN202210133505.XA patent/CN114614878B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112543049A (zh) * | 2020-11-16 | 2021-03-23 | 北京科技大学 | 一种集成地面卫星网络的能效优化方法及装置 |
CN113128828A (zh) * | 2021-03-05 | 2021-07-16 | 中国科学院国家空间科学中心 | 一种基于多智能体强化学习的卫星观测分布式在线规划方法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN113950066A (zh) * | 2021-09-10 | 2022-01-18 | 西安电子科技大学 | 移动边缘环境下单服务器部分计算卸载方法、系统、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114614878B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112351503B (zh) | 基于任务预测的多无人机辅助边缘计算资源分配方法 | |
CN114362810B (zh) | 一种基于迁移深度强化学习的低轨卫星跳波束优化方法 | |
CN108966352B (zh) | 基于深度增强学习的动态波束调度方法 | |
CN113939034A (zh) | 一种立体异构电力物联网云边端协同资源分配方法 | |
CN112788605B (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN115190033B (zh) | 一种基于强化学习的云边融合网络任务卸载方法 | |
EP4024212B1 (en) | Method for scheduling inference workloads on edge network resources | |
CN113873660A (zh) | 无人机辅助的服务缓存边缘计算最优计算卸载决策与资源分配方法 | |
CN113613301B (zh) | 一种基于dqn的空天地一体化网络智能切换方法 | |
CN114866133B (zh) | 一种卫星云边协同计算的计算卸载方法 | |
CN116634498A (zh) | 基于强化学习的低轨卫星星座网络边缘计算多级卸载方法 | |
CN111629443A (zh) | 用于超5g车联网中的动态频谱切片框架的优化方法及系统 | |
Nguyen et al. | Deep reinforcement learning-based partial task offloading in high altitude platform-aided vehicular networks | |
CN114554458A (zh) | 一种基于多智能体深度强化学习的矩阵-向量乘法编码计算分配方法 | |
CN115022322A (zh) | 一种车联网中基于群智进化的边云协作任务卸载方法 | |
CN117579126A (zh) | 基于深度强化学习的卫星移动边缘计算卸载决策方法 | |
CN114928394A (zh) | 一种能耗优化的低轨卫星边缘计算资源分配方法 | |
CN114521002A (zh) | 一种云边端合作的边缘计算方法 | |
CN114614878B (zh) | 星地网络中基于矩阵-向量乘法任务的编码计算分配方法 | |
CN117236561A (zh) | 一种基于sac的多无人机辅助移动边缘计算方法、装置及存储介质 | |
CN114880046B (zh) | 联合卸载决策和带宽分配的低轨卫星边缘计算卸载方法 | |
CN116233007A (zh) | 面向异构移动边缘计算负载均衡的分层分布式匹配方法 | |
CN115499875A (zh) | 一种卫星互联网任务卸载方法、系统以及可读存储介质 | |
CN115173926A (zh) | 基于拍卖机制的星地融合中继网络的通信方法和通信系统 | |
CN117519995B (zh) | 一种星地网络移动边缘计算资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |