CN114614878A

CN114614878A - 星地网络中基于矩阵-向量乘法任务的编码计算分配方法

Info

Publication number: CN114614878A
Application number: CN202210133505.XA
Authority: CN
Inventors: 顾术实; 逄博; 张智凯; 郭云开; 张钦宇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-06-10
Anticipated expiration: 2042-02-14
Also published as: CN114614878B

Abstract

本发明公开了一种星地网络中基于矩阵‑向量乘法任务的编码计算分配方法，包括构建星地网络系统，根据资源调度参数与任务分配大小形成星地网络系统动作空间；根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法，获取编码计算分配的决策。本发明提出了新的系统时变性指标，结合任务执行容忍时延定义并推导了系统折衷开销的表达式，进而利用DDPG深度强化学习算法，对星地间计算卸载的经验样本进行训练，仿真结果得到了收敛后的回报函数值，得到最优的时延与能量开销，另外，LT编码方案在避免straggler现象的负面影响时具有明显的优势。

Description

星地网络中基于矩阵-向量乘法任务的编码计算分配方法

技术领域

本发明涉及通信技术领域，特别涉及一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法。

背景技术

在星地融合网络中采用计算任务卸载策略是提升各种密集型计算业务服务质量的有效途径之一，现有的卫星-地面合作传输方案中，将低轨道卫星网络作为无线局域网的一部分，在卸载过程中考虑能量约束对传输功率分配的控制，以达到传输能量效率最优化。也有提出了低轨星地网络下联合边缘计算与缓存问题的机器学习算法，利用深度学习完成计算任务卸载至星上边缘服务器的系统工作流程。为了进一步利用星上处理的能力，应对海量计算与时延敏感服务，单颗卫星提供的计算和覆盖能力仍然有限。将计算任务分布式卸载至多颗卫星能够进一步整合可利用的计算资源，同时也增大了计算协同调度的复杂性。然后出现了将地面卸载至卫星的计算任务在低轨卫星网络中进行分配与传输，对具有多个卫星节点和卫星网关的任务卸载、计算与通信资源分配进行联合优化，并使用了马尔可夫决策过程以及深度强化学习将联合优化问题分为固定用户关联与动态用户关联两个子问题进行解决，利用学习算法有效减少时延和能量开销。

为了解决复杂机器学习算法和大数据分析等大规模计算任务，通常采用分布式系统代替集中式计算。在分布式计算中，任务被拆分成多个子任务并行处理。但在实际系统工作过程中，由于工作节点的计算资源被占用、数据包丢失和硬件故障等原因，导致该节点的计算时延过高，成为“慢节点”(straggler)，对系统整体性能造成了极大影响。针对这个问题，有人提出了基于大规模机器学习的编码计算方案，通过在分布式计算系统中对矩阵相乘计算中的矩阵行进行编码，有效降低了计算时延开销。也有提出了一种基于无速率喷泉码的编码计算策略，在存在straggler的情况下加快分布式矩阵矢量乘法，实现了近乎完美的负载平衡，冗余计算开销渐近为零，解码复杂度低。通过理论分析和实验表明，与MDS编码方案、复制方案等固定码率编码方案相比，无速率码在计算延迟上具有更好的优化性能。目前，无速率码在编码计算解决大规模矩阵乘法问题上有着最优的性能，其主要原理为，为了使用多个工作节点完成矩阵向量相乘即Ax的运算，无速率编码算法对m行n列矩阵A中的m行进行线性编码组合，产生m_e＝αm(α＞1)个编码行，将这些编码行平均分配到p个工作节点中。每个节点需要接收m_e/p个编码行并分别与向量x相乘并发送回主节点。主节点接收到任意M＝m(1+ε)个乘法结果即可通过解码算法得到总计算任务Ax的结果，ε是一个很小的量。

星地融合网络中，多波束卫星有一定的覆盖区域和服务对象。不同波束范围内的地面用户在不同时段产生的任务请求往往有较大差异，导致网络中各个卫星的计算与通信资源占用发生实时变化。这种“忙闲状态”的特性在未知状态下不利于卫星间进行计算卸载与资源分配，如在一个卫星节点处排队时间较长，或卫星计算能力出现不稳定下降(宕机)，将大大增加整体的计算时延，进而导致系统计算卸载任务失败。并且由于低轨卫星网络拓扑随时间发生变化，星间通信链路的建立存在动态特性，这将对星上任务调度以及计算任务能否完成产生影响。

目前，编码计算依然处于理论研究阶段，大多研究者集中于讨论编码矩阵分解及异构系统的通信-计算折衷问题。而星地融合网络具有链路长延迟、拓扑非固定、网络层级切分零散、计算任务优先级差异显著等诸多复杂因素，straggler对地面和星载边缘服务器的计算资源使用效率影响更为突出。无速率码计算虽然具有自适应能力较强的优势，但其延迟性能恰好决定于边缘服务器straggler情况的发生频率。特殊网络场景中链路状态和拓扑构型对无速率编码计算最优化延迟性能的影响机理都需要进一步研究，从而明确其应用条件。

发明内容

本发明针对上述问题，提供了一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法，针对星地融合网络中运行大规模矩阵向量乘法任务时执行效率不足的瓶颈约束，采用无速率码分布式编码计算，有效缓解星间/星地链路不稳定连接、卫星计算设备宕机(straggler)、及系统资源频繁占用等因素造成的计算延迟过高、能耗开销过大等典型问题。

本发明的技术方案是：构建星地网络系统，所述星地网络系统包括地面基站、接入卫星和多个工作卫星，所述接入卫星和工作卫星形成星间链路，所述接入卫星按照轨道周期实时与所述地面基站通信；

所述地面基站对接收到的矩阵-向量乘法任务，根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算，所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算；

其特征在于，所述资源调度策略包括：

将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1，优化问题P1的约束条件包括：系统多个开销折衷系数约束，接入卫星与工作卫星建立临时星间链路的概率约束，工作卫星总计算功率不能超过阈值；接入卫星总带宽不能超过阈值；卸载位置只在地面基站和工作卫星；

根据资源调度与任务分配大小形成星地网络系统动作空间；

根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法，通过任务调度方法求解优化问题P1，获取最优的任务分配量、分配的功率、传输带宽。

本发明的进一步技术方案是：所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算，具体步骤包括：对所述矩阵按照编码规则进行无速率编码，编码后所述矩阵行数由m_t变为αm_t的LT码，其中α为LT码的编码参数，根据所述编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。

本发明的进一步技术方案是：所述以最小化系统折中开销为目标的优化问题P1具体表达式为：

s.t.C1：ω₁+ω₂+ω₃＝1

0＜ω₁,ω₂,ω₃＜1

C2：0＜β₁,...,β_s＜1

其中，

为系统成本函数，ω₁、ω₂、ω₃为系统开销折衷系数，T_i为系统在i时刻任务矩阵整体处理时延开销，E_i为系统处理总功耗，δ为任务失败开销系数，t₀表示时延开销阈值，

为指示函数，若A条件成立，则

若{A}为空集合，则

C1表示折衷系数和为1，C2表示接入卫星与工作卫星建立临时星间链路的概率β₁,...,β_s，C3表示工作卫星总计算功率不能超过阈值Ρ^com，C4表示卫星总带宽不能超过阈值B₀，C5表示卸载位置只有地面基站与工作卫星，m_s,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数，s表示工作卫星个数，n_i表示i时刻任务矩阵的列数，ρ_i-k,s表示工作卫星s处理第i-k个任务分配的功率。

本发明的进一步技术方案是：所述星地网络系统动作空间的具体表达式为：

其中，r表示地面基站、接入卫星和多个工作卫星三种工作节点各自并行处理任务的最大数量，m_1,0～m_r,0表示地面基地处理的任务1～r的子矩阵行数，ρ_1,0～ρ_r,0表示地面基地处理任务1～r分配的功率，m_1,s～m_r,s表示工作卫星处理的任务1～r的子矩阵行数，ρ_1,s～ρ_r,s表示工作卫星处理任务1～r分配的功率，B_1,s～B_r,s表示接入卫星分配任务1～r的传输带宽。

本发明的进一步技术方案是：所述根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络，所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic，其中一个演说家网络Actor和一个评论家网络Critic组成原始网络，另一个演说家网络Actor和另一个评论家网络Critic组成目标网络，所述原始网络通过与星地网络系统进行实时交互，实现所述原始网络参数训练，并在固定间隔时间内，通过软更新的方法将所述原始网络参数更新至所述目标网络中。

本发明的进一步技术方案是：所述基于DDPG算法的任务调度方法，具体实现步骤包括：

步骤1、初始化原始网络中的评论家网络critic输出q^w(s,a)和演说家网络actor输出μ_θ(s)；初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μ_θ’(s)；初始化执行动作a，初始化经验回放缓存，初始化状态s₀，设置经验回放池数据样本个数K；

步骤2、将时间分为T个间隙，在每个时间间隙内，执行：

步骤21、通过原始网络中的评论家网络Critic得到动作a_t＝μ_θ(s_t)+Ν_t，其中，μ_θ表示编码计算分配的决策，s_t表示星地网络系统当前状态，Ν_t为高斯噪声，执行动作a_t＝μ_θ(s_t)+Ν_t，获取动作奖励r_t和下一时刻的状态s_t+1；

步骤22、将数据{a_t,s_t,r_t,s_t+1}缓存至经验回放池；

步骤23、从经验回放池中提取K个经验数据{a_i,s_i,r_i,s_i+1}；

步骤25、计算最小化Loss函数

其中q^w(s_i,a_i|θ^q)表示原始网络中的评论家网络critic的输出结果，根据最小化Loss函数更新原始网络中的评论家网络critic参数θ^q；

步骤26、计算策略梯度

μ(s|θ^μ)表示原始网络中的演说家网络actor输出结果，根据策略梯度更新原始网络中的演说家网络actor参数

步骤27、根据θ^q和θ^μ定期更新目标网络中评论家网络critic参数和演说家网络actor参数θ^q'＝ζθ^q+(1-ζ)θ^q'，θ^μ'＝ζθ^μ+(1-ζ)θ^μ'，其中ζ表示更新率。

本发明提供的一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法，其有益效果是：面向时变的星地融合网络系统，以任务执行的容忍时延、星地计算与通信资源最大值为约束条件，解决了如何选择编码方案、优化编码参数和系统参数，以及如何进行系统整体的资源分配与任务调度问题。提出了新的系统时变性指标，结合任务执行容忍时延定义并推导了系统折衷开销的表达式，进而利用DDPG深度强化学习算法，对星地间计算卸载的经验样本进行训练，仿真结果得到了收敛后的回报函数值，得到最优的时延与能量开销，另外，LT编码方案在避免straggler现象的负面影响时具有明显的优势。

附图说明

图1为本发明实施例中星地网络系统结构示意图；

图2为本发明实施例中时变资源状态下矩阵向量乘法任务计算卸载模型示意图；

图3为本发明实施例中基于DDPG算法的任务调度方法示意图；

图4为本发明实施例中η＝2.0编码方案与未编码方案开销收敛曲线示意图；

图5为本发明实施例中η＝2.0编码方案与未编码方案能量开销收敛曲线示意图；

图6为本发明实施例中η＝0.2编码方案与未编码方案时延开销收敛曲线；

图7为本发明实施例中不同任务到达率下的任务成功率效果对比图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

基于本发明的实施例1

本实施例用于说明本发明解决技术问题的原理和步骤，建立星地融合网络系统和计算资源状态模型，刻画星地融合网络的计算特征及星地网络通信资源模型。如图1所示，构建星地网络系统，包括地面基站、接入卫星和多个工作卫星，所述接入卫星和工作卫星形成星间链路，所述接入卫星按照轨道周期实时与所述地面基站通信，地面基站、接入卫星和工作卫星节点三者协调资源调度来保障系统对实时到达的任务进行可靠性处理。其中，地面基站具备有限计算和通信能力，按照一定到达频率负责收集覆盖范围内的计算任务并根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算。LEO卫星按照轨道周期实时与地面基站通信，LEO星间链路拓扑内卫星节点周期运行变化呈不稳定连接，接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至工作卫星进行分布式计算。

基于本发明的实施例2

本实施例用于在实施例1的基础上建立一个时变资源状态下矩阵向量乘法任务计算卸载模型，如图2所示，A_tx_t代表不同时刻到达的计算任务，到达时刻按到达率为λ的泊松过程分布，任务量大小由矩阵行数m决定；W_t表示可计算卸载的卫星及地面设备，其中一个节点的资源存在被多个任务占用的情况。例如时刻t到达地面基站的任务会分解为矩阵与向量，对矩阵进行LT编码后根据资源调度策略并行分发至多节点。节点并行工作负载为r，t时刻仍在运行的计算任务至多在t-r时刻到达。

时变资源状态下矩阵向量乘法任务计算卸载模型具体实施过程中，地面基站接收计算任务不考虑多播并发，任务到达概率服从泊松过程，模型中计算任务过程主要通过计算大规模矩阵向量乘法完成。矩阵向量计算任务中，星地传输及星间传输向量的通信时延及功耗开销忽略不计，默认跟随大型矩阵一同传输至各个计算节点。由于计算结果也以向量形式传回，星地网络系统运行过程中的回程链路通信时延及能耗开销予以忽略。地面基站及卫星节点存在处理任务数量上限，达到上限会清理未完成的任务以接收下一任务的到来，模型中各工作节点最多并行计算r个矩阵向量乘法计算任务。所有的通信链路均为无差错传输，不受外界的干扰影响。只要满足编码计算理论所需的可恢复计算结果数目，就认为计算任务完成，如使用喷泉码进行编码计算时，忽略解码失败的小概率事件。星间链路稳定性连接随周期变化规律可建立为概率模型，模型参数由实际场景中星间链路数目与临时链路建立时间规律得出。

基于本发明的实施例3

本实施例用于解释优选方案:

地面基站按时序接收通信覆盖范围内用户发送来的任务，接收后将立即进行任务调度与资源分配。第i个时序接收的任务记为Γ_i，需要进行矩阵向量乘法计算r_i＝A_ix_i，其中

b为矩阵及向量元素包含的数据比特长度，每个矩阵的数据量为m_in_ib，计算任务的处理容忍时延为t₀。

对于i＝t时刻到达的矩阵与向量，可执行的计算位置分为地面和星上部分，其中地面节点表示为Node 0，星上节点表示为Node s,s＝1,2,...,S，S为可与接入卫星建立星间链路(包括永久链路与临时链路)的卫星总数。在星上处理的矩阵向量在卫星拓扑间进行分布式计算，接入卫星将计算向量传输至各个工作卫星节点。

在星上分布式计算阶段，接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至工作卫星进行分布式计算，具体步骤包括：对矩阵按照编码规则进行无速率编码，编码后矩阵行数由m_t变为αm_t的LT码，其中α为LT码的编码参数，根据编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。各个工作卫星每完成一次乘法实时传输结果至接入卫星，接入卫星接收到m_t(1+ε)个结果后解码出矩阵向量乘法的计算结果向量r_t，其中ε理论状况下为无穷小量(α→∞，ε→0)，并将状态信息传输至各个工作卫星节点，清空卫星节点中剩余的Γ_t相关的计算任务。当系统中计算任务完成时，处理时延存在已经超过该任务处理容忍时延的可能，为了保持系统在较高的可靠性，需要对超过任务处理容忍时延的任务给予较高的关注，保证尽量多的计算资源分给计算任务量较大的卫星工作节点。

对于时刻i到达的任务，端到端所需的整体处理时延开销表示为T_i，系统处理总功耗为E_i。通过对编码参数和系统参数与时延以及能量之间的定量关系分析，得出系统成本函数为：

其中ω为系统开销折衷系数且满足ω₁+ω₂+ω₃＝1，δ为任务失败开销系数，一般设定一个较大的值以保障系统可靠性，t₀表示时延开销阈值，

为指示函数，若A条件成立，则

若{A}为空集合，则

综合以上分析，星地融合网络资源调度与任务分配可形成最小开销的优化问题，将资源调度策略建立成以最小化系统折中开销为目标的优化问题P1，优化问题P1的约束条件包括：系统多个开销折衷系数约束，接入卫星与工作卫星建立临时星间链路的概率约束，工作卫星总计算功率不能超过阈值；接入卫星总带宽不能超过阈值；卸载位置只在地面基站和工作卫星：所述以最小化系统折中开销为目标的优化问题P1具体表达式为：

s.t.C1：ω₁+ω₂+ω₃＝1

0＜ω₁,ω₂,ω₃＜1

C2：0＜β₁,...,β_s＜1

其中，

为系统成本函数，ω₁、ω₂、ω₃为系统开销折衷系数，T_i为系统在i时刻任务矩阵整体处理时延开销，E_i为系统处理总功耗，δ为任务失败开销系数，

为指示函数，若A条件成立，则

若{A}为空集合，则

C1表示折衷系数和为1，C2表示接入卫星与工作卫星建立临时星间链路的概率，C3表示工作卫星总计算功率不能超过阈值Ρ^com，C4表示卫星总带宽不能超过阈值B₀，C5表示卸载位置只有地面基站与工作卫星，m_s,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数，s表示工作卫星个数，n_i表示i时刻任务矩阵的列数，ρ_i-k,s表示工作卫星s处理第i-k个任务分配的功率。β₁,...,β_s表示接入卫星与工作卫星1,…,s建立临时星间链路的概率，B_i,s表示i时刻接入卫星分配任务的传输带宽。优化问题P1以最小化系统折中开销为目标，优化基数为r的连续动作空间，进行多时隙任务协同优化。主要约束条件包括折中参数大小、星间链路连接状态大小、卫星及地面基站总计算资源约束与接入卫星总带宽大小限制以及卸载位置只有地面基站与星上工作卫星限制。

由于各工作节点并行处理任务最大数量为r，资源调度参数与分配任务大小可形成基于r次任务调度的动作空间，包括任务计算矩阵分配至地面基站及工作卫星节点的子矩阵行数、接入卫星节点分配给子矩阵的传输带宽以及地面基站与工作卫星分配给各时隙任务的计算资源。根据资源调度参数与任务分配大小形成星地网络系统动作空间具体表达式如下：

基于本发明的实施例4

为了保持系统的可靠性，每周期若有计算任务到达，需要大规模矩阵向量乘法运算及拆解矩阵行数形成子矩阵进行计算卸载及分布计算，本发明的目标是在容忍时延内完成计算任务，优化系统当前任务及长期整体的通信功耗开销。星地网络计算卸载场景中的输出动作无论是传输功率，卸载决策还是编码计算相关参数都是一个连续的动作空间，传统的DQN不能获取系统最优决策。本实施例在实施例1至实施例3的基础上提出了一种基于DDPG算法的任务调度方法来解决这个问题。基于DDPG算法的任务调度方法图示如图3所示，在t时刻的回报函数表示为：

如图3所示，根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络，所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic，其中一个演说家网络Actor和一个评论家网络Critic组成原始网络，另一个演说家网络Actor和另一个评论家网络Critic组成目标网络，原始网络通过与星地网络系统进行实时交互，实现原始网络参数训练，并在固定间隔时间内，通过软更新的方法将原始网络参数更新至目标网络中。

根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法，通过任务调度方法求解优化问题P1，获取最优的任务分配量、分配的功率、传输带宽，具体实现步骤包括：

步骤1、初始化原始网络中的评论家网络critic输出q^w(s,a)和演说家网络actor输出μ_θ(s)；初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μ_θ′(s)；初始化执行动作a，动作包括地面基地处理任务的子矩阵行数，地面基地处理任务分配的功率、工作卫星处理任务的子矩阵行数、工作卫星处理任务分配的功率、接入卫星分配任务的传输带宽，初始化经验回放缓存，初始化状态s₀，状态包括各节点功耗和计算时延等，设置经验回放池数据样本个数K；

步骤2、将时间分为T个间隙，在每个时间间隙内，执行：

步骤21、通过原始网络中的评论家网络Critic得到动作a_t＝μ_θ(s_t)+Ν_t，其中，μ_θ表示编码计算分配的决策，衡量一个编码计算分配的决策μ_θ的表现：用一个准则函数J来衡量，可以表示为

其中，Q^μ(s_t,μ(s_t))为每个网络的Q函数，即action-value函数，是在每个状态下，如果都按照μ_θ决策选择动作时，能够产生的Q值；因此，最优编码计算分配的决策μ可以认为是准则函数J(μ)的最大似然估计，可以表示为

s_t表示星地网络系统当前状态，这些状态是基于编码计算分配的决策μ_θ产生的，它们的分布函数为ρ(s_t)，Ν_t为高斯噪声，执行动作a_t＝μ_θ(s_t)+Ν_t，获取动作奖励r_t和下一时刻的状态s_t+1，其中动作奖励为回报函数r_t；

步骤22、将数据{a_t,s_t,r_t,s_t+1}缓存至经验回放池；

步骤23、从经验回放池中提取K个经验数据{a_i,s_i,r_i,s_i+1}；

步骤25、计算最小化Loss函数

步骤26、计算策略梯度

基于本发明的实施例5

本实施例基于实施例4获取编码计算分配的决策后对系统开销的推导，在当前时刻i，针对任务Γ_i的执行过程及执行开销，若当前时刻没有任务到达，则将行数置零，任务经过系统调度后，可以分为星上部分与地面部分

针对第一个指标，系统时延开销主要包括星地上行传播及传输时延、星间上下行传播及传输时延、星地下行传输时延构成的通信时延以及地面处理任务部分的计算时延与星上处理任务部分的计算时延。首先对通信时延进行分析。由系统模型可知，本地基站进行任务调度后，仅卸载至星上的任务存在通信时延开销。由于任务在星上做分布式编码矩阵向量乘法计算，向量不进行分配且传输量小到可以忽略的程度，通信时延只考虑接入卫星并行传输编码后的子矩阵至工作卫星中，并对每个子矩阵进行时延分析。对于卸载位置位于工作卫星s的子矩阵Γ_i ^s需要的通信时延开销为：

其中，w_i,s为编码子矩阵的行数，b为矩阵及向量元素包含的数据比特长度，每个矩阵的数据量为m_in_ib，m_i、n_i分别表示第i个任务矩阵的行数和列数，He为接入卫星轨道高度，

为工作卫星s与接入卫星间的链路长度，c＝3×10⁸m/s为光速，

为星地链路的信道容量，

为工作卫星s与接入卫星间链路信道容量。信道容量

可由香农公式得出：

其中，

分别为地面基站的发射带宽，传输过程的等效噪声带宽，EIRP_i,G,L_i,k,T分别为地面站天线的全向辐射功率，天线增益，发射机损失系数，玻尔兹曼常数，等效噪声温度。星间链路信道容量

为：

其中

分别为接入卫星分配给子任务

的传输带宽和发射功率，h_i为信道系数，n₀为通信噪声，β_s为连接系数，表示星间拓扑中，接入卫星与工作卫星s建立临时星间链路的概率，因而0<β_s≤1。由星间链路性质，

与星间链路长度

Claims

1.一种星地网络中基于矩阵-向量乘法任务的编码计算分配方法，其特征在于，所述方法包括以下步骤：

构建星地网络系统，所述星地网络系统包括地面基站、接入卫星和多个工作卫星，所述地面基站对接收到的矩阵-向量乘法任务，根据资源调度策略选择在地面基站执行计算或卸载至卫星网络进行计算，所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算；

所述资源调度策略包括：

根据资源调度与任务分配大小形成星地网络系统动作空间；

2.根据权利要求1所述的编码计算分配方法，其特征在于，所述接入卫星将接收到的矩阵-向量乘法任务根据资源调度策略传输至所述工作卫星进行分布式计算，具体步骤包括：对所述矩阵按照编码规则进行无速率编码，编码后所述矩阵行数由m_t变为αm_t的LT码，其中α为LT码的编码参数，根据所述编码计算分配的决策将编码后的矩阵分为子矩阵传输至各工作卫星与向量进行乘法计算。

3.根据权利要求1所述的编码计算分配方法，其特征在于，所述以最小化系统折中开销为目标的优化问题P1具体表达式为：

s.t.C1：ω₁+ω₂+ω₃＝1

0＜ω₁,ω₂,ω₃＜1

C2：0＜β₁,...,β_s＜1

其中，

为指示函数，若A条件成立，则

若{A}为空集合，则

C1表示折衷系数和为1，C2表示接入卫星与工作卫星建立临时星间链路的概率，C3表示工作卫星总计算功率不能超过阈值Ρ^com，C4表示卫星总带宽不能超过阈值B₀，C5表示卸载位置只有地面基站与工作卫星，m_s,i表示地面基地和工作卫星在i时刻任务矩阵中处理的子矩阵行数，s表示工作卫星个数，n_i表示i时刻任务矩阵的列数，ρ_i-k,s表示工作卫星s处理第i-k个任务分配的功率。

4.根据权利要求1所述的编码计算分配方法，其特征在于，所述星地网络系统动作空间的具体表达式为：

5.根据权利要求1所述的编码计算分配方法，其特征在于，所述根据所述星地网络系统动作空间建立基于DDPG算法的任务调度方法包括建立DDPG决策网络，所述DDPG决策网络包括两个演说家网络Actor和两个评论家网络Critic，其中一个演说家网络Actor和一个评论家网络Critic组成原始网络，另一个演说家网络Actor和另一个评论家网络Critic组成目标网络，所述原始网络通过与星地网络系统进行实时交互，实现所述原始网络参数训练，并在固定间隔时间内，通过软更新的方法将所述原始网络参数更新至所述目标网络中。

6.根据权利要求4所述的编码计算分配方法，其特征在于，所述基于DDPG算法的任务调度方法，具体实现步骤包括：

步骤1、初始化原始网络中的评论家网络critic输出q^w(s,a)和演说家网络actor输出μ_θ(s)；初始化目标网络中评论家网络critic输出q′(s,a)和演说家网络actor输出μ_θ′(s)；初始化执行动作a，初始化经验回放缓存，初始化状态s₀，设置经验回放池数据样本个数K；

步骤2、将时间分为T个间隙，在每个时间间隙内，执行：

步骤22、将数据{a_t,s_t,r_t,s_t+1}缓存至经验回放池；

步骤23、从经验回放池中提取K个经验数据{a_i,s_i,r_i,s_i+1}；

步骤25、计算最小化Loss函数

步骤26、计算策略梯度