CN115483964B

CN115483964B - 一种空天地一体化物联网通信资源联合分配方法

Info

Publication number: CN115483964B
Application number: CN202211205614.4A
Authority: CN
Inventors: 潘志松; 唐斯琪; 陈军; 李云波; 刘鑫; 张瑶; 孙海讯
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2024-03-08
Anticipated expiration: 2042-09-30
Also published as: CN115483964A

Abstract

一种空天地一体化物联网上行链路资源联合分配方法，建立中继节点与卫星间链路的通信资源联合分配模型；通过交替最小二乘算法进行信道质量矩阵补全；将中继节点的动态信道选择与功率控制决策建模为Dec‑POMDP；各中继节点观察环境，并基于队列长度、信道质量、剩余能量、之前时刻动作与收益等信息进行决策；各中继节点将资源分配决策发送到卫星，卫星确认资源分配方案后向中继节点发送确认信息；接收到确认信息后，各中继节点按照所选方案对应的信道和发送功率进行数据传输，并通过DRL进行通信资源联合分配策略优化。本发明通过中继节点之间的协同，利用空分复用降低同频干扰，从而在满足流量需求的情况下提升系统资源利用率。

Description

一种空天地一体化物联网通信资源联合分配方法

技术领域

本发明属于卫星通信领域，涉及一种基于矩阵补全与多智能体强化学习的空天地一体化物联网中继节点通信资源联合分配方法。

背景技术

由于终端节点通常分布在偏远地区，地面基站部署困难，而且物联网的终端设备功耗有限，因此借助无人机部署方便灵活的优势，使无人机作为地面中继的补充，构成无人机与地面中继辅助的空天地一体化物联网，是一种十分可行的远程物联网架构。在已有技术充分优化终端与中继之间链路的接入选择与资源分配的基础上，本专利重点考虑无人机和地面中继的空天地一体化物联网场景下，中继节点与卫星间上行链路通信资源联合分配问题。

现有卫星网络动态资源分配方法对信道质量信息的处理主要有以下两种机制：一是依据固定的信道模型，二是定期收集信道质量信息，因此假设信道质量信息全局已知以辅助资源分配算法决策。但在实际的空天地一体化物联网系统中，一方面卫星频段对天气、干扰等因素较为敏感，信道质量波动幅度大，预先定义的信道模型往往存在误差；另一方面卫星链路不稳定，当发生链路中断时，信道质量缺失导致无法为资源分配决策提供依据。

现有的分配方法往往忽略了中继节点与卫星之间链路的资源优化配置问题，默认采用固定的资源分配方案，无法根据动态变化的中继节点流量需求和信道质量调整发射功率，无法充分利用空分复用提高频谱利用率。

现有空天地一体化物联网场景下的资源分配方法存在以下不足：

(1)现有分配方法大多集中于物联网终端的接入选择和资源分配以及无人机的轨迹规划等问题，而较少关注中继节点与卫星之间链路的资源分配，若各中继节点采用固定的发射功率和信道分配方案，则无法充分利用空分复用提高频谱资源利用率；且无法随动态变化的数据流量需求调整资源分配方案。上述问题制约了通信资源利用率的进一步提高。

(2)现有研究大多默认已知准确完整的信道状态，但在空天地一体化卫星网络中，由于LEO卫星与无人机节点的持续运动，以及受天气影响信道质量波动显著的卫星频段，CSI信息容易由于链路中断而缺失，导致资源分配算法缺失信道信息。

发明内容

本发明提供一种空天地一体化物联网通信资源联合分配方法，关注中继节点与卫星之间数据传输过程的通信资源动态分配问题，对于多波束卫星，优化各中继节点的资源动态协同分配策略，可以通过中继节点之间的协同，利用空分复用降低同频干扰，从而在满足流量需求的情况下提升系统资源利用率。

一种空天地一体化物联网通信资源联合分配方法，包括如下步骤：

步骤一：基于历史数据，构建空天地一体化物联网场景，建立中继节点与卫星间链路的通信资源联合分配模型；

步骤二：通过交替最小二乘算法进行信道质量矩阵补全；

步骤三：将中继节点的动态信道选择与功率控制决策建模为Dec-POMDP；

步骤四：各中继节点观察环境，并基于队列长度、信道质量、剩余能量、之前时刻动作与收益等信息进行决策；

步骤五：各中继节点将资源分配决策发送到卫星，卫星确认资源分配方案后向中继节点发送确认信息；

步骤六：接收到确认信息后，各中继节点按照所选方案对应的信道和发送功率进行数据传输，并通过深度强化学习进行通信资源联合分配策略优化。

本发明采用上述技术方案，与现有技术相比具有如下优点：

1、考虑到空天地一体化物联网中无人机节点和地面中继节点都需要太阳能电池供电，能量资源宝贵，将终端的能量收益率作为优化目标，有利于满足传输需求的同时，延长中继节点使用寿命，降低成本。

2、填补了已有方法关注空天地一体化物联网中终端与中继节点之间链路的资源优化，而忽略中继节点与卫星间链路资源分配问题导致的技术空白，通过基于多智能体强化学习的信道与功率资源联合动态分配，提高了此段链路的资源利用效率。

3、本发明考虑到空天地一体化物联网中由于链路不稳定导致的信道质量缺失问题，通过矩阵补全方法不以额外通信开销为代价对缺失数据进行估计，有助于解决资源联合分配问题中的信息不完备问题。其次针对星地链路时延较长导致的信道质量信息过时问题，通过挖掘时序信道质量信息规律从而对其进行预测。

4、本发明所提出的通信资源动态分配算法采用集中式训练分布式执行框架，各中继节点只需根据本地缓冲区队列长度和信道质量进行资源联合分配决策，不需要额外通信开销。

附图说明

图1是本发明的应用场景即空天地一体化物联网场景的示意图；

图2是信道质量矩阵构造方式的示意图图；

图3是本发明各中继节点资源分配动作的示意图；

图4是本发明中通过交替最小二乘算法补全信道质量矩阵中补全误差随信息缺失率变化图。

具体实施方式

一种空天地一体化物联网上行链路资源联合分配方法，包括如下步骤：

步骤一：基于历史数据为信道质量、终端数据传输等所需环境信息构建空天地一体化物联网场景，建立中继节点与卫星间链路的通信资源联合分配模型；具体过程为：

M个无人机中继和N个地面中继分别表示为和因此异构的中继节点集合为/>其中L＝M+N。由于偏远地区没有供电设施，因此地面中继采用太阳能电池供电。

LEO卫星具有多个天线，接收各波束范围内中继节点传输的上行数据。B个波束集合表示为第l个中继节点与波束之间的归属关系由地理位置确定，表示为x_l＝[x_l,1,x_l,2,…x_l,B]x_l,b∈{0,1}，x_l,b＝1表示第l个中继节点R_l位于第b个波束的覆盖范围中。在t时刻，中继节点R_l的缓冲区内数据包数量为/>

中继节点具有休眠功能。对于是否休眠决策，令代表R_l的决策结果，/>则代表决定休眠。而不需要再进行资源分配决策。

对于信道分配，系统中N_C个信道集合表示为且每一信道带宽为Bw。信道分配结果可表示为/>其中/>表示中继节点R_l选择的信道为/>即c_l＝n_c。系统中所有中继节点的信道分配结果可表示为

对于功率控制，令P_l表示中继R_l的最大发送功率，将其对卫星的发送功率量化为N_p个档位，其分配方案可表示为表示中继R_l的上行链路发送功率为：/>因此所有中继节点的功率控制结果可表示为

对于中继节点与卫星间链路，整体增益可以表示为其中，G_l表示中继节点发送天线增益。/>表示卫星接收天线增益，其中/>为中继节点R_l与所属卫星波束b_l之间在t时刻的夹角。g_l,S(t)为信道增益，可以表示为g_l,S(t)＝PL_l,S|h_l,S(t)|²，其中PL_l,S代表R_l与卫星之间的大尺度衰落，h_l,S(t)表示时变的小尺度衰落，包括多径衰落和云、雨等天气因素造成的大气衰减损失。根据上述定义，考虑到同信道干扰，中继节点R_l数据传输信噪比可表示为：

其中σ²表示噪声功率的方差，b_l为中继节点R_l所属波束，c_l为R_l选择的上行信道。为确保中继R_l的传输质量，其信噪比应超过最低阈值δ_th，即否则卫星不会为此次传输分配资源，此次中继的传输请求将被拒绝。

t时刻中继节点R_l的传输速率可表示为t到t+1时刻数据传输量为/>其中/>表示数据传输成功的收益，定义为/>缓冲区容量有限，若发送速率低于数据到达速率，会导致缓冲区溢出。若t时刻丢弃数据量为/>，其数据丢弃损失分量定义为/>

中继节点R_l需要付出的能量代价为t时刻系统整体能量收益率可以表示为：

综上所述，优化系统的长期能量收益的模型如下：

其中优化变量W^t和P^t代表t时刻各中继的信道与功率选择结果。其中表示中继节点信道选择结果，/>表示中继节点R_l在t时刻选择的信道为/> 表示中继节点功率选择结果，/>示中继节点R_l在t时刻选择的发射功率档位为/>如前文所述，/>表示中继节点R_l的休眠决策结果，/>则代表决定休眠，而不再进行资源分配决策。

前两项约束指每个时刻，若中继节点工作，则只能选择一个信道和一个功率水平，若中继节点不工作，则不选择任何一个信道和功率水平；第三项约束指所有中继的数据传输速率之和不高于卫星系统回程传输容量，为每个中继节点在t时刻的数据传输速率，为卫星系统回程传输容量。

步骤二：通过交替最小二乘算法进行信道质量矩阵补全，具体过程为：

步骤21、对各中继的链路，基于导频信号进行信道估计；

系统正常运行状态下，各中继节点将物联网终端的数据发送到卫星，卫星接收数据后可利用导频信号估计各中继上行链路信道质量。上行链路信道模型可表示为：Y＝XH+Z，其中X为已知的导频信号，Y为卫星处接收到的导频信号，H为信道响应，Z为高斯白噪声。最小二乘法核心在于求解H的估计值，使XH与Y之间的差值最小，即：

J(H)＝||Y-XH||²

＝(Y-XH)^H(Y-XH)

通过求解偏导数可以得到最小二乘信道估计的结果为

步骤22、构造信道质量矩阵；

信道质量具有时间-空间-频谱的连续性。由于卫星系统通常采用频点紧密排列的一系列信道，且带宽有限，考虑到信道质量在频谱上的连续性，可近似认为相同地理位置不同信道频点处的信道质量相同。信道质量矩阵CSI的第i行和第j列的元素CSI_i,j可定义为第i行第j列的方格地理范围内，中继节点的平均信道质量。通过对第i行、第j列的方格地理范围内所有中继节点信道质量求平均即可得到CSI_i,j的值。

步骤23.利用交替最小二乘算法补全信道质量矩阵；

矩阵补全方法核心在于利用矩阵低秩特性，根据矩阵中已知元素，通过最小化矩阵秩推断空缺的元素。本发明利用空间信道质量矩阵CSI的低秩特性，通过最小化信道质量矩阵的秩，对链路中断造成的信道质量进行估计，从而解决空天地一体化物联网资源分配方法面临的信道质量缺失问题，因此有：

min rank(C^t)

sub.C^t.*M^t＝CSI^t

其中，C^t表示补全后的信道质量矩阵，M^t矩阵表示卫星处是否能检测到地理位置对应中继节点的信道质量，表示第i行第j列的方格区域的发生信道质量缺失。

由于完整的CSI矩阵C^t具有低秩特性，引入矩阵L^t和R^t对矩阵C^t进行SVD分解，表示为C^t＝UΣV^H＝L^tR^tH，其中L^t＝UΣ^1/2,R^t＝VΣ^1/2。因此有：

min rank(L^tR^tH)

sub.L^tR^tH.*M^t＝CSI^t

秩极小化是一个NP难问题，可以通过求解核范数极小化问题来近似。在低秩、均匀随机抽样和抽样数受限的假设下，核范数极小化问题的解是秩极小化的近似最优结果，并能以接近1的概率恢复CSI^t矩阵，则有：

min||L^tR^tH||_*

sub.L^tR^tH.*M^t-CSI^t＝0

由于引入拉格朗日乘子λ，可将此矩阵补全问题可转化为：

令CSI^t*＝CSI^t+L^tR^tH.*(I-M^t)，其中I为单位矩阵，可进一步转化为：

此优化问题中，矩阵L^t和R^t可以使用ALS算法以迭代方式求解，如算法1所示。随机选择L^t和R^t，随后固定其中一个矩阵例如L^t，将其偏导数被设置为0，将R^t视为优化变量，用线性最小二乘法求解。然后，将L^t与R^t交换，并继续相同的过程求解出L^t。持续迭代，直至L^t和R^t收敛。

步骤三：将中继节点的动态信道选择与功率控制问题建模为Dec-POMDP，重点包括动作空间、观测空间和即时收益，具体过程为：

首先将各具有决策能力的中继节点建模为智能体。由于各中继节点仅了解自身所需传输的数据量与自身链路的信道质量，获知全局状态的代价过大不符合实际系统应用，因此其通信资源动态分配的决策过程应当建模为分布式局部可观测马尔可夫决策过程(Dec-POMDP)。所有智能中继节点为合作模式，此Dec-POMDP模型可以被定义为<L,S,A,P,R,O,Z,γ>,其中L为智能中继节点数量，S为状态空间，A＝[A₁,A₂,…,A_L]为各智能体联合动作a的空间，A_l为中继节点R_l所对应智能体的动作空间。P(s′∣s,a):S×A×S→[0,1]代表状态转移函数，用来描述在状态s下所有智能体联合动作为a时，状态转移为s′的概率。表示各智能体的即时收益，此中继节点资源分配问题中，所有智能体协作，因而需要考虑将系统整体收益作为即时收益的一部分。O＝[O₁,O₂,…,O_L]代表各智能体对环境的局部观测。Z:S×A→O代表智能体的观测函数。γ∈[0,1]代表强化学习中的折扣因子。

对于一个整体环境状态，中继节点R_l只能观察到局部环境，得到观察O_l，基于此观察，智能体选择动作a_l，所有智能体联合动作a使环境转移到新状态s′，且获得收益r_l。

观测空间

中继节点进行资源分配所需考虑的局部观测信息可归纳为以下几类：

(1)信道质量：通过的信道估计和矩阵补全，可以获知上一时刻中继R_l与卫星间信道质量与之前本地存储的ΔT-1个时间片的信道质量合并作为观测的一部分由于信道质量具有时间连续特性，因此采用之前时间片的信道质量信息有利于通过学习时序规律应对卫星链路长时延导致的信道质量过期问题；

(2)自身状态：包括此中继节点的缓冲区队列总长度中继节点剩余能量/>等自身信息，以及之前时刻动作历史数据/>对应的内部收益/>和整体收益/>

综上所述，中继节点的观测信息可以表示为其中都包含历史数据。现有的基于DRL的资源分配方法通常对环境或观测空间的定义只包括上一时刻信息，本专利充分利用时序信息将有助于学习智能体的行为动作规律和信道质量的时序变化规律。

动作空间

中继节点分布式地进行信道选择与功率控制联合决策，且由于中继节点R_l可以根据缓冲区内数据量决定是否休眠，因此表示为One-hot形式的动作空间为其中A_l包含三个决策分量，即/>其中，/>代表其处于运行或睡眠状态的决策，和/>分别代表其信道选择和资源控制结果。每个智能体，在每个资源动态调整时间片内，根据对环境的观测进行决策。若/>则其策略为此时间片休眠，仅接收终端上传的数据，而不与卫星发生通信，也不占用信道资源。若/>则a_i的值代表此终端在这一时刻的动态资源分配决策，上报卫星，卫星确认后即开始与卫星之间进行通信。

即时收益

各智能体协同完成传输任务，其整体收益为网络整体的能量收益率，因此，空天地一体化物联网的全局收益可以定义为其中EU^t为t时刻系统整体能量收益率，构成优化模型中每时间片的优化目标。

各智能体的局部收益可以定义为

其中为中继节点R_l的能量资源开销。

由于各智能体为合作模式，因此其动作的即时收益需考虑自身数据传输效果与对整体传输效果的影响，即当所需传输量不多时，让出通信资源给其他中继节点，从而优化整体收益，因此智能体的即时收益设定为整体收益与局部收益的加权和，其中α为加权参数，表征智能体在整体利益和自身利益之间的权衡。

步骤六：接收到确认信息后，各中继节点按照所选方案对应的信道和发送功率进行数据传输，并通过深度强化学习进行通信资源联合分配策略优化，具体过程为：

按照集中式训练分布式执行的MADDPG框架对通信资源联合分配算法进行训练，重点包括CriticNet模块和ActorNet模块。ActorNet模块负责根据中继节点的局部观测进行动作决策，而CriticNet模块负责评价各中继节点智能体状态-动作对的Q值。采用如下公式进行训练：

其中，Q(O,a∣θ^C)代表CriticNet模块对应的神经网络，输出为状态-动作对的值函数估计，利用前两个公式通过梯度下降训练此模块参数θ^C。ActorNet模块表示为用于进行联合资源分配动作决策，其参数/>通过第三个公式训练。

训练阶段结束后，各中继节点的智能体都充分收敛，每个ActorNet就可以自己根据状态采取合适的动作，此时不再需要CriticNet模块。因此虽然训练过程是集中式的，但决策过程是分布式的，不需要额外通信开销。此算法流程如下。

如图1所示，本发明所针对的空天地一体化物联网。本发明中的空天地一体化物联网由LEO卫星所支持的空间层、无人机中继支持的空中层和地面中继与物联网终端组成的地面层构成，如图1所示。卫星通信能力可为偏远区域物联网设备提供无缝覆盖，无人机和地面中继节点为低功耗的物联网终端提供传输中继服务。以虚拟节点策略屏蔽LEO卫星的拓扑动态性。系统运行过程可离散为包含相等时间片的时间序列

假设无人机中继节点的航迹已预先确定，不考虑对航迹的动态规划，而关注于中继节点的资源分配问题。并且中继节点只通过与卫星的信道传输数据，不考虑利用中继节点间的通信进行流量卸载，中继节点间通信仅用于彼此协作。无人机和地面中继节点都为存储转发机制，将各物联网终端发送的数据存储在中继的发送缓冲区队列中，依次发送给卫星进行数据回传。

M个空中无人机中继和N个地面中继节点可分别表示为和因此异构的中继节点集合为/>其中L＝M+N。由于偏远地区没有供电设施，因此地面中继采用太阳能电池供电。

LEO卫星具有多个天线，接收各波束范围内中继节点传输的上行数据。B个波束集合表示为第l个中继节点与波束之间的归属关系由地理位置确定，表示为x_l＝[x_l,1,x_l,2,…x_l,B]x_l,b∈{0,1}，x_l,b＝1表示第l个中继节点R_l位于第b个波束的覆盖范围中。

中继节点具有休眠功能。其原因在于以下两个方面：(1)无人机节点电池容量有限，而偏远地区的地面中继节点往往也面临供电问题，因此对于远程物联网的中继节点，能量资源十分宝贵；(2)物联网终端流量时空分布不均匀。因此允许各中继节点根据缓冲区队列长度决定是否休眠一定时间，一方面有助于优化中继节点的能量利用效率，符合节能环保要求；另一方面有助于让出信道资源给缓冲区队列更长的中继，通过协同提升整体传输效果。

对于是否休眠决策，令代表R_l的决策结果，/>则代表决定休眠。而不需要再进行资源分配决策。

对于功率控制，令P_l表示中继R_l的最大发送功率，将其对卫星的发送功率量化为N_p个档位，其分配方案可表示为表示中继R_l的上行链路发送功率为：

因此所有中继节点的功率控制结果可表示为

在每一时间片，空天地一体化物联网中的数据传输分为两个阶段，一是资源分配与连接建立阶段，二是数据传输阶段。在第一阶段，终端按照自身策略对中继节点进行选择，并与中继节点建立上行链路连接，而中继节点需与卫星建立上行链路连接。具体包括：根据自身缓冲区队列长度、信道质量和自身能量状态，决定是否休眠，如不休眠，则选择发送信道和功率，并将决策结果通过控制信道上报卫星。得到卫星的确认回复后，连接建立成功。在第二阶段，数据传输分为两个时隙，第1个时隙中地面物联网终端向所接入的转发节点R_l发送数据，数据放入缓冲区中；在第2个时隙中，中继节点R_l将缓冲区中数据包依次按照所选信道c_l和发送功率p_l,S发送给卫星。

对于中继节点与卫星间链路，整体的链路增益可以表示为：

其中，G_l表示中继节点发送天线增益。表示卫星接收天线增益，其中为中继节点R_l与所属卫星波束b_l之间在t时刻的夹角。g_l,S(t)为信道增益，可以表示为g_l,S(t)＝PL_l,S|h_l,S(t)|²，其中PL_l,S代表R_l与卫星之间的大尺度衰落，h_l,S(t)表示时变的小尺度衰落，包括多径衰落和云、雨等天气因素造成的大气衰减损失。

根据上述定义，考虑到同信道干扰，中继节点R_l数据传输信噪比可表示为

假设所有节点的缓冲区最多可放置K个数据包。在t时刻，中继节点R_l的缓冲区内数据包数量为。/>

如图2所示，本发明信道质量矩阵的构造方式，信道质量具有时间-空间-频谱的连续性。由于卫星系统通常采用频点紧密排列的一系列信道，且带宽有限，考虑到信道质量在频谱上的连续性，可近似认为相同地理位置不同信道频点处的信道质量相同。

由于信道质量具有空间连续性，因此将卫星覆盖范围内分布的中继节点按照地理位置进行排列，如图2所示，可直观地依据地理位置将各中继节点的信道质量组织为矩阵形式得到CSI。由于空间位置相近点的信道质量相似，CSI的第i行和第j列的元素CSI_i,j可定义为第i行第j列的方格地理范围内，中继节点的平均信道质量。在卫星处可以通过接收到的上行链路导频信号通过最小二乘估计得到各个中继节点对应链路的信道质量估计。通过对第i行、第j列的方格地理范围内所有中继节点信道质量求平均即可得到CSI_i,j的值。若卫星在方格地理范围没有收到任何中继节点的导频信号，则代表此位置信道质量缺失。

如图3所示，本发明的智能体动作空间，中继节点进行通信资源联合分配，但由于中继节点R_l可以根据缓冲区内数据量决定是否休眠，因此表示为One-hot形式的动作空间为其中A_l包含三个决策分量，即

其中，代表其处于运行或睡眠状态的决策，/>和/>分别代表其信道选择和资源控制结果。每个智能体，在每个资源动态调整时间片内，根据对环境的观察进行决策。各智能体的动作空间如图3所示。若/>则其策略为此时间片休眠，仅接收终端上传的数据，而不与卫星发生通信，也不占用信道资源。若/>则a_i的值代表此终端在这一时刻的动态资源分配决策，上报卫星，卫星确认后即开始与卫星之间进行通信。

如图4所示，本发明补全误差随CSI信息缺失率增加的变化过程，在CSI信息缺失率低于20％时，矩阵补全准确率最高，而缺失率小于40％时，估计误差依旧较为平稳，MRSE误差低于0.5，可为后续资源联合分配提供较为准确的CSI估计。但当CSI缺失率超过80％后，矩阵补全误差急剧增加。综上所述，本发明提出的基于ALS的CSI矩阵补全算法能解决卫星覆盖范围内40％以下区域的CSI缺失问题。

Claims

1.一种空天地一体化物联网通信资源联合分配方法，其特征在于包括如下步骤：

步骤一：基于历史数据，构建空天地一体化物联网场景，建立中继节点与卫星间链路的通信资源联合分配模型；具体过程为：

M个无人机中继和N个地面中继分别表示为和/>异构的中继节点集合为/>其中L＝M+N；地面中继采用太阳能电池供电；

LEO卫星具有多个天线，用于接收各波束范围内中继节点传输的上行数据；B个波束集合表示为第l个中继节点与波束之间的归属关系由地理位置确定，表示为x_l＝[x_l,1,x_l,2,…x_l,B]，x_l,b∈{0,1}，x_l,b＝1表示第l个中继节点R_l位于第b个波束的覆盖范围中；在t时刻，中继节点R_l的缓冲区内数据包数量为/>

中继节点具有休眠功能；对于是否休眠决策，令代表中继节点R_l的决策结果，/>则代表决定休眠，而不再进行资源分配决策；

对于信道分配，N_C个信道集合表示为且每一信道带宽为Bw；信道分配结果表示为/>其中/>表示中继节点R_l选择的信道为/>即c_l＝n_c；所有中继节点的信道分配结果表示为/>

对于功率控制，令P_l表示中继节点R_l的最大发送功率，将卫星的发送功率量化为N_p个档位，发送功率分配方案表示为表示中继节点R_l的上行链路发送功率为：/>所有中继节点的功率控制结果表示为

对于中继节点与卫星间链路，整体增益表示为其中，G_l表示中继节点发送天线增益，/>表示卫星接收天线增益；其中/>为中继节点R_l与所属卫星波束b_l之间在t时刻的夹角；g_l,S(t)为信道增益，表示为g_l,S(t)＝PL_l,S|h_l,S(t)|²，其中PL_l,S代表中继节点R_l与卫星之间的大尺度衰落，h_l,S(t)表示时变的小尺度衰落，包括多径衰落和天气因素造成的大气衰减损失；中继节点R_l数据传输信噪比表示为：

其中σ²表示噪声功率的方差，b_l为中继节点R_l所属波束，c_l为中继节点R_l选择的上行信道；为确保中继节点R_l的传输质量，中继节点R_l的信噪比应超过最低阈值δ_th，即否则卫星不会为此次传输分配资源，此次中继的传输请求将被拒绝；

t时刻中继节点R_l的传输速率表示为t到t+1时刻数据传输量为表示数据传输成功的收益，定义为/>缓冲区容量有限，若发送速率低于数据到达速率，会导致缓冲区溢出；若t时刻丢弃数据量为/>其数据丢弃损失分量定义为/>

中继节点R_l需要付出的能量代价为t时刻系统整体能量收益率表示为：

综上所述，优化系统的长期能量收益的模型如下：

其中优化变量W^t和P^t代表t时刻各中继节点的信道与功率选择结果，表示中继节点信道选择结果，/>表示中继节点R_l在t时刻选择的信道为/> 表示中继节点功率选择结果，/>示中继节点R_l在t时刻选择的发射功率档位为/>如前文所述，/>表示中继节点R_l的休眠决策结果，/>则代表决定休眠，而不再进行资源分配决策；

前两项约束指每个时刻，若中继节点工作，则只能选择一个信道和一个功率水平，若中继节点不工作，则不选择任何一个信道和功率水平；第三项约束指所有中继节点的数据传输速率之和不高于卫星系统回程传输容量，为每个中继节点在t时刻的数据传输速率，为卫星系统回程传输容量；

步骤二：通过交替最小二乘算法进行信道质量矩阵补全；具体过程为：

步骤21、对各中继的链路，基于导频信号进行信道估计；

正常运行状态下，各中继节点将物联网终端的数据发送到卫星，卫星接收数据后利用导频信号估计各中继上行链路信道质量；上行链路信道模型表示为：Y＝XH+Z，其中X为已知的导频信号，Y为卫星处接收到的导频信号，H为信道响应，Z为高斯白噪声；最小二乘法核心在于求解H的估计值，使XH与Y之间的差值最小，即：

J(H)＝||Y-XH||²

＝(Y-XH)^H(Y-XH)

通过求解偏导数得到最小二乘信道估计的结果为

步骤22、构造信道质量矩阵；

信道质量具有时间-空间-频谱的连续性，由于卫星系统通常采用频点紧密排列的一系列信道，且带宽有限，考虑到信道质量在频谱上的连续性，认为相同地理位置不同信道频点处的信道质量相同，信道质量矩阵CSI的第i行和第j列的元素CSI_i,j定义为第i行第j列的方格地理范围内中继节点的平均信道质量，通过对第i行、第j列的方格地理范围内所有中继节点信道质量求平均得到CSI_i,j的值；

步骤23.利用交替最小二乘算法补全信道质量矩阵；

矩阵补全方法为利用矩阵低秩特性，根据矩阵中已知元素，通过最小化矩阵秩推断空缺的元素；利用空间信道质量矩阵CSI的低秩特性，通过最小化信道质量矩阵的秩，对链路中断造成的信道质量进行估计，从而解决空天地一体化物联网资源分配方法面临的信道质量缺失问题，因此有：

min rank(C^t)

sub.C^t.*M^t＝CSI^t

其中，C^t表示补全后的信道质量矩阵，M^t矩阵表示卫星处是否能检测到地理位置对应中继节点的信道质量，表示第i行第j列的方格区域的发生信道质量缺失；

由于完整的CSI矩阵C^t具有低秩特性，引入矩阵L^t和R^t对矩阵C^t进行SVD分解，表示为C^t＝UΣV^H＝L^tR^tH，其中L^t＝UΣ^1/2,R^t＝VΣ^1/2；因此有：

min rank(L^tR^tH)

sub.L^tR^tH.*M^t＝CSI^t

在低秩、均匀随机抽样和抽样数受限的假设下，核范数极小化问题的解是秩极小化的近似最优结果，并能以接近1的概率恢复CSI^t矩阵，则有：

min||L^tR^tH||_*

sub.L^tR^tH.*M^t-CSI^t＝0

由于引入拉格朗日乘子λ，将此矩阵补全问题转化为：

令CSI^t*=CSI^t+L^tR^tH.*(I-M^t)，其中I为单位矩阵，进一步转化为：

此优化问题中，矩阵L^t和R^t使用ALS算法以迭代方式求解；

2.根据权利要求1所述的空天地一体化物联网通信资源联合分配方法，其特征在于上述步骤三将中继节点的动态信道选择与功率控制问题建模为Dec-POMDP，具体过程为：

首先将各具有决策能力的中继节点建模为智能体；由于各中继节点仅了解自身所需传输的数据量与自身链路的信道质量，获知全局状态的代价过大不符合实际应用，因此将通信资源动态分配的决策过程建模为分布式局部可观测马尔可夫决策过程(Dec-POMDP)，所有智能中继节点为合作模式，此Dec-POMDP模型被定义为<L,S,A,P,R,O,Z,γ>,其中L为智能中继节点数量，S为状态空间，A＝[A₁,A₂,…,A_L]为各智能体联合动作a的空间，A_l为中继节点R_l所对应智能体的动作空间；P(s′|s,a):S×A×S→[0,1]代表状态转移函数，用来描述在状态s下所有智能体联合动作为a时，状态转移为s′的概率；R:表示各智能体的即时收益，此中继节点资源分配问题中，所有智能体协作，考虑将整体收益作为即时收益的一部分；O＝[O₁,O₂,…,O_L]代表各智能体对环境的局部观测；Z:S×A→O代表智能体的观测函数；γ∈[0,1]代表强化学习中的折扣因子；

对于一个整体环境状态，中继节点R_l只能观察到局部环境，得到观察O_l，基于此观察，智能体选择动作a_l，所有智能体联合动作a使环境转移到新状态s′，且获得收益r_l；

中继节点进行资源分配所需考虑的局部观测信息归纳为：

(1)信道质量：通过的信道估计和矩阵补全，获知上一时刻中继节点R_l与卫星间信道质量与之前本地存储的ΔT-1个时间片的信道质量合并作为观测的一部分

(2)自身状态：包括此中继节点的缓冲区队列总长度中继节点剩余能量/>以及之前时刻动作历史数据/>对应的内部收益/>和整体收益/>

中继节点的观测信息表示为其中/>都包含历史数据；

中继节点分布式地进行信道选择与功率控制联合决策，且由于中继节点R_l根据缓冲区内数据量决定是否休眠，因此表示为独热形式的动作空间为其中A_l包含三个决策分量，即/>其中，/>代表处于运行或睡眠状态的决策，/>和分别代表其信道选择和资源控制结果；每个智能体，在每个资源动态调整时间片内，根据对环境的观测进行决策；若/>则决策为此时间片休眠，仅接收终端上传的数据，而不与卫星发生通信，也不占用信道资源；若/>则a_i的值代表此终端在这一时刻的动态资源分配决策，上报卫星，卫星确认后即开始与卫星之间进行通信；

各智能体协同完成传输任务，其整体收益为网络整体的能量收益率，因此，空天地一体化物联网的全局收益定义为其中EU^t为t时刻系统整体能量收益率；

各智能体的局部收益定义为

其中为中继节点R_l的能量资源开销；

3.根据权利要求2所述的空天地一体化物联网通信资源联合分配方法，其特征在于上述步骤六中通过深度强化学习进行通信资源联合分配策略优化，具体过程为：

按照集中式训练分布式执行的MADDPG框架对通信资源联合分配算法进行训练，包括CriticNet模块和ActorNet模块，ActorNet模块负责根据中继节点的局部观测进行动作决策，CriticNet模块负责评价各中继节点智能体状态-动作对的Q值；采用如下公式进行训练：

其中，γ为折扣因子，Q(O,a|θ^C)代表CriticNet模块对应的神经网络，输出为状态-动作对的值函数估计，利用公式(1)、(2)通过梯度下降训练收敛的CreticNet和ActorNet参数θ^C；ActorNet模块表示为用于进行联合资源分配动作决策，其参数/>通过第三个公式训练。