CN115589250A

CN115589250A - 一种星地中继物联网大规模中继选择与功率控制方法

Info

Publication number: CN115589250A
Application number: CN202211205619.7A
Authority: CN
Inventors: 唐斯琪; 潘志松; 胡谷雨; 张磊; 李云波; 王彩玲; 施蕾
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-10

Abstract

一种星地中继物联网大规模中继选择与功率控制方法，属于卫星通信领域。分析星地中继物联网场景，并定义大规模终端节点上行链路的中继选择与功率控制问题；将各个终端节点的决策过程建模为马尔可夫博弈；通过自编码器得到终端节点的深层特征，从而计算终端节点之间的相似度，并通过聚类得到终端节点分组结果；采用加权平均场深度强化学习方法，使各终端节点与环境交互，并在邻居节点间通信其动作，各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。本发明利用终端节点间相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互，大幅降低了联合动作维度，提高了多智能体强化学习的收敛效果与收敛效率。

Description

一种星地中继物联网大规模中继选择与功率控制方法

技术领域

本发明属于卫星通信领域，尤其涉及一种基于加权平均场强化学习的星地中继物联网大规模中继选择与功率控制方法。

背景技术

以小型化、低功耗、低成本为特点的物联网终端节点往往难以满足与卫星直接通信的要求，因此对于终端节点分布较为密集的地面区域，为降低物联网终端节点的发送功率门槛，降低终端节点能耗，可部署地面中继辅助物联网终端节点与卫星之间的数据传输。中继机制的优势在于降低了物联网终端节点制造成本与维护成本，一方面，考虑到在终端节点太阳能电池具有额定循环次数，中继机制能有效降低其功耗从而延长终端节点寿命；另一方面，终端节点不需要具备较强的太阳能电池，故障率低，运维人员只需要定期检查中继节点的太阳能供电装置是否正常工作，降低了维护工作量。现有的星地中继物联网场景下中继选择与资源分配方法存在以下不足：

(1)大多数研究基于全局的信道状态信息已知并且在较长一段时间稳定的假设。但在实际系统中，星地之间的通信信道受天气(降雨、降雪)、开放空间干扰等因素影响较大，呈现动态波动的特点；且由于卫星通信链路较长，反馈的CSI容易由于时延而过期。因此，在卫星物联网场景中已知全局实时准确的CSI这一前提难以满足。

(2)难以高效协调大规模终端节点的中继节点选择与资源分配决策。地面网络的覆盖范围往往是千米级别，但卫星网络覆盖范围达到数千千米级别。由于覆盖范围较广，物联网节点数量众多，且应用类型不同。现有基于优化或启发式方法的研究工作，其求解所需时间随终端节点规模成倍甚至指数倍增长。因此，连接节点的海量性，给现有的中继选择和资源分配的方法带来巨大挑战。

(3)卫星传播延迟较大，且终端节点数量庞大，不适合采用集中式控制机制。

多智能体强化学习将各终端节点视为智能体分布式决策，不依赖事先已知准确的信道质量信息或对信道模型的准确建模，而是通过环境反馈优化序列决策的策略，被认为是应对星地中继物联网中动态通信环境问题的有效途径。但现有基于多智能体强化学习的方法大多采用智能体独立优化策略的机制，忽略了智能体间相互影响。随着终端节点规模的增加，各智能体间互相影响显著增加，不考虑其他终端节点决策独立优化策略的智能体面临严重的环境不稳定问题，因而难以收敛。

发明内容

本发明提供了一种星地中继物联网大规模中继选择与功率控制方法，利用自编码器学习终端节点特征并计算终端节点间相似度，利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互，大幅降低了联合动作维度，提高了多智能体强化学习的收敛效果与收敛效率。

一种星地中继物联网大规模中继选择与功率控制方法，包括如下步骤：

步骤一：分析星地中继物联网场景，并定义大规模终端节点上行链路的中继选择与功率控制问题；

步骤二：将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈；

步骤三：通过自编码器得到终端节点的深层特征，从而计算终端节点之间的相似度，并通过聚类得到终端节点分组结果；

步骤四：采用加权平均场深度强化学习方法，使各终端节点与环境交互，并在邻居节点间通信其动作，各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。

本发明采用上述技术方案，与现有技术相比具有如下优点：

1、考虑到卫星物联网场景下终端节点规模庞大，利用自编码器学习终端节点特征并计算终端节点间相似度，利用相似度加权平均场机制将大规模终端节点之间的互相交互简化为每个终端节点与其同组终端节点加权平均作用的交互，大幅降低了联合动作维度，提高了多智能体强化学习的收敛效果与收敛效率。

2、对星地中继物联网中终端节点的上行链路接入过程进行建模，包括中继选择与功率控制。首先，考虑到偏远地区物联网终端节点通常采用电池或太阳能机制进行供电，能量有限，将终端节点能量利用率作为优化目标之一。其次，由于切换中继需付出协调信令开销，本发明考虑中继切换导致的切换代价。最后，由于不同物联网应用具有不同的QoS需求，中继选择与功率控制策略需要满足异构卫星物联网终端节点的QoS约束。此模型有助于在满足多样传输需求的基础上，延长野外物联网终端节点的寿命。

3、以较低通信量同步全局状态，提高各智能体协同效果。一方面，令各智能体仅汇报上一时刻即时收益，并借助卫星广播能力，以较低通信开销在智能体间同步全局状态，使智能体了解其他智能体信息；另一方面，在决策过程中，各智能体通过Transformer模块学习时序全局状态信息中蕴含的其他智能体决策规律，进一步提高了协同能力。利用这两种机制以较低额外通信代价，促进了智能体间的合作协同。

附图说明

图1是本发明的应用场景即星地中继物联网场景的示意图；

图2是本发明场景下星地中继传输流程示意图；

图3是本发明进行终端节点相似性计算的自编码器网络结构；

图4是Q值神经网络结构图。

具体实施方式

下面对本发明的技术方案进行详细说明：

步骤一中分析星地中继物联网场景，并定义大规模终端节点上行链路的中继选择与功率控制问题，具体过程为：

如图1所示，LEO星座提供物联网数据回传服务，N个物联网终端节点组成集合

M个中继节点组成中继集合

由于物联网应用主要利用上行链路进行数据传输，本发明重点关注上行链路。系统运行过程可离散为包含相等时间片的时间序列

中继节点对卫星的信号发送功率恒定不变，且不同类型的中继节点发送功率不同。各终端节点由于业务应用不同，对数据传输速率具有不同的QoS需求。令矩阵W＝[w_m,n]，

表示终端节点的中继选择矩阵，其中w_m,n∈{0,1}，w_m,n＝1表示终端节点U_n选择接入中继节点R_m。终端节点只能接入一个中继节点，而中继节点可以服务多个终端节点。

对于终端节点U_n的功率控制问题，本发明将连续的发送功率变量离散化处理为一系列功率水平。即终端节点可以在离散化的功率集合

中选择合适的发送功率，其中

为终端的U_n的最大发送功率，N_p为发送功率量化的档位数量。令矩阵P＝[p_k,n]，

表示终端节点的功率控制方案，其中p_k,n∈{0,1}，若p_k,n＝1则代表终端节点U_n选择第k个发送功率档位，终端的发送功率为

卫星信道也是无线信道的一种，因此需要考虑无线信道的大尺度衰落与小尺度衰落，其信道增益可以表示为：

其中

表示卫星与中继节点R_m链路上的小尺度衰落，服从阴影莱斯分布；GL_m,S包含卫星与中继节点R_m之间的自由空间损失、发送增益与接收增益，可表示为：

其中λ_c为载波波长，

表示t时刻中继节点R_m与卫星之间的距离，θ_m,S表示中继节点R_m与卫星之间的链路与卫星波束中心点间的夹角，G_S(θ_m,S)表示卫星接收天线增益，G_m表示中继节点R_m的发送天线增益。

终端节点U_n到中继节点R_m之间的地面无线信道增益可以表示为

其中GL_n,m包含自由空间损失、终端节点的发送天线增益和中继节点的接收天线增益；

代表小尺度衰落，其服从瑞丽分布。

地面物联网终端节点到卫星的通信过程如图2所示，可分为三个阶段。

第一阶段为决策阶段，通过中继选择与功率控制算法选择接入的中继节点和终端节点发送功率；第二阶段为接入中继阶段，若第一次进行接入或发生中继切换，则需要与中继通信建立数据传输，第三阶段则是数据传输阶段，分为两个时隙。

第一个时隙中，地面物联网终端节点U_n发送数据给选定的中继节点R_m。中继节点R_m接收到的终端节点节点U_n发送的信号为

其中P_n表示终端节点U_n的发射功率，n_m(t)表示中继节点R_m接收天线处的高斯白噪声，其均值为0，方差为

在数据传输的第二时隙，被选择的中继节点R_m直接对收到的信号进行放大并发送给卫星，其放大因子可以表示为

卫星处接收到的来自中继节点R_m的信号可以表示为

因此t时刻第二时隙，卫星处接收到的由R_m中继转发的U_n信号信噪比可表示为

其中

代表中继节点R_m处接收到的终端节点U_n信号的信噪比；

代表仅仅考虑从中继节点R_m发送信号给卫星时，卫星处接收信噪比。

终端节点U_n信号经过中继节点R_m的放大转发传输给卫星，可以实现的传输速率上限为：

其中

和

分别为终端节点与中继、中继与卫星之间的信噪比，

为t时刻中继节点R_m与终端节点U_n之间的信道带宽。每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点，即

其中D_n表示终端节点U_n对传输速率的QoS需求，D_i是所有D_n求和时候的索引，B_m代表中继节点R_m的下行链路具有的总带宽，

为t时刻各物联网终端节点U_i的中继选择结果。

在系统中的每一终端节点需要满足其物联网应用的最低QoS需求表示为

各终端节点能量利用率之和为

其中

为终端节点U_n在t时刻的发送功率。

同时，考虑到切换所选的中继节点需要的协议信令代价，会导致通信开销。切换发生的次数可表示为

假设一次切换中的通信开销为η，则t-1时刻到t时刻系统切换代价可以表示为

因此系统总体的长期收益可表示为

综上所述，本发明所研究的中继节点选择与功率控制问题可以建模为如下优化问题

其中优化变量W和P分别表示各终端节点中继选择和功率控制结果。第一项约束表示任何终端节点都只能接入一个中继节点；第二项约束表示用户的传输速率需要达到其最低QoS要求。第三项约束表示为确保终端节点U_n的传输质量，其信噪比应超过最低阈值δ_th，即SINR_n≥δ_th，否则不会为此次传输分配资源，此次终端节点请求将被拒绝。

步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈，包括状态特征、动作空间、即时收益和神经网络结构的设计，具体如下：

2.1状态特征

每个物联网终端节点的状态包含其观察到的与中继节点选择与功率控制决策相关的环境信息，在本发明中，各终端节点节点为合作模式，通过协作选择更适合自身的中继节点，而将不适合自己的中继节点让出给更需要的终端节点。为实现协作，终端节点间需要建立交互。本发明令各终端节点在每一时间片汇报自身收益给卫星进行汇总，卫星汇总后广播此收益信息构成下一时刻各终端节点共享的全局状态。此机制的优势在于以较小的额外通信开销实现了各智能体共享状态，这一信息的交互有利于提高智能体间协同效果。各终端节点根据全局状态信息s和自身特征信息

进行决策。

2.1.1共享状态信息s

共享状态信息s＝[R_t-T,…,R_t-1]包括之前T时刻各智能体即时收益构成的序列。其中R_t-1表示上一时刻各终端节点的即时收益，在t-1时刻由各终端节点智能体将其即时收益

通过上行链路汇总到卫星处，得到

并在下一时间片的开始由卫星广播给每个终端节点决策智能体。将各智能体收益的时序信息作为全局状态信息，有助于在不增加通信代价的前提下，学习其中蕴含的时序规律，潜在地挖掘各智能体决策规律，在一定程度上降低多智能体强化学习面临的环境不稳定难题。

2.1.2自身特征信息

各中继进行中继选择与功率控制还需考虑自身数据传输需求，因此智能体n的自身特征信息

需包含当前时刻终端节点的QoS需求

终端节点上一时刻动作

以及达到的即时收益

即

中包含此智能体t-1时刻的中继选择动作

有助于智能体了解上一时刻所选中继节点，从而保持上一时刻中继节点不变，降低切换中继节点所需付出的信令代价。

本发明所提出方法的状态空间并不包含信道质量，其主要原因在于：大规模终端节点的星地协作中继物联网场景中，存在终端节点-卫星、终端节点-中继、中继-卫星三类大量链路，通过信息交换或广播获取全局链路的CSI会导致较高的额外通信开销，降低了算法可行性。本发明所提算法并不依赖于CSI，而是通过上一时刻的即时收益这一环境反馈优化策略。每一时间片卫星只需广播各终端节点的即时收益向量R，相比于汇报并广播各链路的CSI，有效降低了所需通信量。

2.2动作空间

针对分布式物联网终端节点中继选择问题，令

表示覆盖终端节点U_n的中继节点集合，因此中继选择的动作空间(即可选的动作集合)为

对于功率控制问题，每个终端节点可以在自身最大功率的限制下决定发送功率，可选功率集合为

功率控制的动作空间为

因此，智能体n的动作空间为

为方便后续多智能体训练，将动作a表示为独热(One-Hot)编码形式，并通过补零的方式将各智能体动作维度统一，即将所有不可选的中继节点对应的动作位置补为零。补零操作后，所有智能体的动作aⁿ统一为M×N_p维的0,1元素组成的向量。

2.3即时收益

由于优化目标考虑了数据传输的能量利用率和中继切换代价，因此在终端节点U_n的即时收益设计时也需要考虑到这两个部分。终端节点U_n面对状态sⁿ选择动作aⁿ的收益可以表示为rⁿ＝EE(sⁿ,aⁿ)-price(sⁿ,aⁿ)，其中EE(sⁿ,aⁿ)代表终端节点U_n的能量利用率，price(sⁿ,aⁿ)代表终端节点Un改变中继节点所需的切换代价。

终端节点U_n的能量利用率可以表示为：

其中

为节点满足QoS需求的最低数据传输速率，如果QoS需求无法被满足，数据传输收益为0。

终端节点U_n切换中继节点的代价可表示为

其中

为节点动作

在中继选择问题上的动作分量。

步骤三：通过自编码器得到终端的深层特征，从而计算终端之间的相似度，并通过聚类得到终端分组结果，具体过程为：

接入同一个中继的节点需要按需分配中继节点所属的带宽，因此有一定竞争关系，相互之间影响较为显著，而接入不同中继节点的物联网终端节点之间的影响较小。考虑到所面临条件相似的智能体倾向于选择相同的中继节点，相互影响更大，因此将节点之间中继选择的相似相作为加权平均场的权重。

物联网终端节点的中继节点选择问题受到自身数据传输QoS需求D_n、其到各中继节点的距离d_n,m影响，且反映在历史决策

中，因此选择上述元素作为特征，并利用一段历史时间的决策结果，构成特征向量度量节点之间的相似度作为其接入相同中继节点的可能性依据，从而得到加权平均的权重。可表示为：

其中

表示之前T_sim时刻的中继节点选择的平均动作。

通过自编码器得到终端节点的深层语义特征h_n，并利用余弦相似度计算终端节点间相似度矩阵

进一步，通过对相似度矩阵Sim进行K-means聚类得到各物联网终端节点的邻居划分

整体流程如下所示：

图3为进行终端节点相似性计算的自编码器网络结构示意图，其中稀疏自编码器包含编码和解码两个模块，编码模块可以表示为h＝F(x)负责将特征x投影到低维空间得到深层特征h，

而解码模块则为o＝G(h)，将深层特征h重构为原始数据，即

其中

为自编码器的参数。为学习到终端节点的非线性语义特征，本发明采用多层神经网络构成的编码层与解码层，如图3所示。

网络训练的损失函数是输入特征与输出之间的重构损失，即

通过训练神经网络收敛后，将各终端节点的特征C_n输入神经网络的编码器，得到将深层特征h_n，并以此深层特征利用余弦相似度计算终端节点间的相似度矩阵Sim＝[sim_i,j]∈，

其中

利用Sim矩阵将平均场机制的平均动作计算公式改进为：

其中，各物联网终端节点的邻居划分

通过对相似度矩阵Sim进行K-means聚类得到。

步骤四：采用加权平均场深度强化学习方法，使各终端与环境交互，并在邻居节点间通信其动作，各智能体基于环境状态、同组智能体的加权平均动作与本地特征进行决策。具体过程为：

平均场机制的核心思想是将智能体与其他所有智能体之间的交互简化为其与周围邻居智能体的平均作用的交互，因而将N²次交互压缩为N次。其具体机制为将基于联合动作的Q值函数分解为智能体与其邻居平均场智能体双边交互的形式，即：

其中

为智能体n的邻居集合。分解后大幅降低了Q值函数的维度，并且保持了各智能体的交互作用。

由于在中继选择与功率控制的联合决策问题中，各终端节点是同构的，且动作a为one-hot编码，因此定义

为同群组中其他终端节点的平均动作，

各智能体两两相互作用的Q值函数Qⁿ(s,a)可以进一步简化如下：

即对于每个智能体n，其与其他每个智能体的相互作用可以近似化简为智能体n与一个虚拟智能体的相互作用，此虚拟智能体代表所有邻居智能体的平均作用。

在训练过程中，可以通过以下公式更新Q值网络

其中，γ为折扣因子，α为设定的学习率，rⁿ是第n个智能体的收益，s′为所有智能体选择动作后，产生的下一时刻状态。平均场V值函数

可以表示为

其中

分别是第n个智能体的策略和其他智能体的策略。

因此利用平均场近似，可将多智能体强化学习转化为求解中心智能体n的最佳策略πⁿ的问题。所有智能体n邻居的平均动作

代表智能体n的所有相邻智能体对其的影响。将各智能体的平均场V值函数表示为

因此各智能体的Q值函数可以实现更新，即

其中r(s,a)为状态s下各智能体动作集合为a时各智能体的收益集合，P是求平均

过程中的概率分布。

每个智能体的训练采用DQN算法，神经网络表征的状态值函数

的更新公式可以表示为

其中

是状态s′的平均场V值函数，yⁿ为状态值函数损失的计算过程。

在每次决策阶段，通过各动作的Q值可以得到各动作的选择概率，即策略

其中β为温度参数。通过迭代所有智能体的平均邻居动作

和本身的策略

交替优化。

通过上述公式可以迭代训练Q值网络直至收敛，使每个智能体学习到关于周围平均动作

的最优策略πⁿ。从而使多个智能体达到纳什均衡。即

其中

表示除了智能体n外所有智能体的联合决策

是第n个智能体的最优策略，π_*是所有智能体达到最优策略的集合。

与独立训练的MARL相比，平均场机制的核心优势在于其考虑了其他智能体动作对其的影响，因而保持了环境的平稳性，降低了智能体训练收敛的难度。

本发明所提出的MARL的中继选择算法，其Q值网络的整体结构如图4所示。其中时序历史信息状态作为Transformer模块的输入，而当前时刻的自身特征信息输入后通过全连接层抽取特征，并与时序信息特征进行拼接，从而使网络能同时感知时序全局状态信息和各智能体自身特征信息中蕴含的知识。Transformer模块结构如图4所示，借助与注意力机制，其可深入挖掘时序数据中的隐含信息。对比长短时记忆(Long Short-Term Memory,LSTM)等时序模型，更适合处理高维特征的时序数据。由于物联网终端节点规模庞大，因此即时收益向量构成的全局状态信息维度较高，采用Tranformer结构对其进行特征挖掘。例如当物联网终端节点数量N＝240时，全局状态向量是240维特征的时序序列，普通LSTM很难对如此高维的特征进行有效学习。

Claims

1.一种星地中继物联网大规模中继选择与功率控制方法，其特征在于包括如下步骤：

2.根据权利要求1所述的星地中继物联网大规模中继选择与功率控制方法，其特征在于上述步骤一中分析星地中继物联网场景，并定义大规模终端节点上行链路的中继选择与功率控制问题，具体过程为：

LEO星座提供数据回传服务，N个物联网终端节点组成集合

M个中继节点组成中继集合

令矩阵W＝[w_m,n]，

表示终端节点的中继选择矩阵，其中w_m,n∈{0,1}，w_m,n＝1表示终端节点U_n选择接入中继节点R_m；终端节点只能接入一个中继节点，而中继节点能够服务多个终端节点；

对于终端节点U_n的功率控制问题，将连续的发送功率变量离散化处理为一系列功率水平。即终端节点在离散化的功率集合

中选择合适的发送功率，其中

为终端的U_n的最大发送功率，N_p为发送功率量化的档位数量；令矩阵P＝[p_k,n]，

终端节点U_n信号经过中继节点R_m的放大转发传输给卫星，实现传输速率的上限为：

其中

为卫星处接收到的由R_m中继转发的U_n信号信噪比，

和

分别为终端节点与中继节点、中继节点与卫星之间的信噪比，

为t时刻中继节点R_m与终端节点U_n之间的信道带宽；每个中继节点按照接入的终端节点需求比例将其带宽分配给各终端节点，即

其中D_n表示终端节点U_n对传输速率的QoS需求，B_m代表中继节点R_m的下行链路具有的总带宽，

为t时刻各物联网终端节点U_i的中继选择结果；

各终端节点能量利用率之和为

其中

为终端节点U_n在t时刻的发送功率；同时，考虑到切换所选的中继节点需要的协议信令代价，会导致通信开销；切换发生的次数表示为

假设一次切换中的通信开销为η，则t-1时刻到t时刻通信切换代价表示为

因此t时刻通信总体的长期收益可表示为

3.根据权利要求2所述的星地中继物联网大规模中继选择与功率控制方法，其特征在于上述步骤二将各终端节点的中继选择与功率控制决策过程建模为马尔可夫博弈，将中继节点建模为智能体，包括状态特征、动作空间、即时收益和神经网络结构的设计，具体如下：

2.1状态特征

令各终端节点在每一时间片汇报自身收益给卫星进行汇总，卫星汇总后广播此收益信息构成下一时刻各终端节点共享的全局状态；各终端节点根据全局状态信息s和自身特征信息

进行决策；

2.1.1共享状态信息s

共享状态信息s＝[R_t-T,…,R_t-1]包括之前t时刻各终端节点即时收益构成的序列；其中R_t-1表示上一时刻各终端节点的即时收益；在t-1时刻由各终端节点将其即时收益

通过上行链路汇总到卫星处，得到

并在下一时间片的开始由卫星广播给每个终端节点决策智能体，将各智能体收益的时序信息作为全局状态信息；

2.1.2自身特征信息

各中继节点进行中继选择与功率控制还需考虑自身数据传输需求，因此智能体n的自身特征信息

需包含当前时刻终端节点的QoS需求

终端节点上一时刻动作

以及达到的即时收益

即

中包含此智能体t-1时刻的中继选择动作

有助于智能体了解上一时刻所选中继节点，从而保持上一时刻中继节点不变，降低切换中继节点所需付出的信令代价；

2.2动作空间

针对分布式物联网终端节点中继选择问题，令

表示覆盖终端节点U_n的中继节点集合，因此中继选择的动作空间为

对于功率控制问题，每个终端节点在自身最大功率的限制下决定发送功率，可选功率集合为

功率控制的动作空间为

因此，智能体n的动作空间为

将动作a表示为独热编码形式，并通过补零的方式将各智能体动作维度统一，即将所有不可选的中继节点对应的动作位置补为零；补零操作后，所有智能体的动作aⁿ统一为M×N_p维的0,1元素组成的向量；

2.3即时收益

由于优化目标考虑了数据传输的能量利用率和中继切换代价，因此在终端节点U_n的即时收益设计时也需要考虑到这两个部分；终端节点U_n面对状态sⁿ选择动作aⁿ的收益可以表示为rⁿ＝EE(sⁿ,aⁿ)-price(sⁿ,aⁿ)，其中EE(sⁿ,aⁿ)代表终端节点U_n的能量利用率，price(sⁿ,aⁿ)代表终端节点U_n改变中继节点所需的切换代价；

终端节点U_n的能量利用率表示为：