CN116634593A

CN116634593A - 基于深度强化学习的leo物联网随机接入方法

Info

Publication number: CN116634593A
Application number: CN202310552720.8A
Authority: CN
Inventors: 于含笑; 赵涵昱; 费泽松
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-22

Abstract

本发明提供基于深度强化学习的LEO物联网随机接入方法，包括如下步骤：步骤S1、设置LEO物联网中第k个波束的设备分布、功率等级、可选度集合；步骤S2、搭建深度确定性策略梯度网络；步骤S3、LEO卫星移动至第k个波束，被该波束覆盖的用户根据当前状态，通过在线Actor网络从可选度集合中选择度进行随机接入；步骤S4、在接收端设计二步迭代SIC接收机，该接收机包括时隙内SIC和时隙间SIC；步骤S5、从经验回放池中随机采样经验数据以训练更新深度确定性策略梯度网络。本发明能够帮助卫星根据瞬时过载情况调整其接入协议，以提高总体平均吞吐量。

Description

基于深度强化学习的LEO物联网随机接入方法

技术领域

本发明涉及基于深度强化学习的LEO物联网随机接入方法。

背景技术

随着大规模机器类型通信场景中设备规模的快速增长，支持各种物联网设备成为未来无线通信系统的主要任务之一。因此，对卫星-地面综合网络的需求越来越大，低地球轨道(Low Earth Orbit,LEO)卫星则被认为是地面网络的充分扩展，以实现更广泛的覆盖区域。然而，随着低轨卫星的移动和大规模地面设备在实际场景中的分布不均，低轨卫星覆盖的设备数量将发生巨大变化。另一方面，低轨卫星的轨道是不可逆的，这意味着如果一个设备无法接入低轨卫星，则该设备很难在短时间内获得与该卫星重新接触的机会。因此，设计一个有效的SA协议来根据瞬时过载调整接入策略对于确保成功接入概率至关重要。

发明内容

本发明提出基于深度强化学习的LEO物联网随机接入方法，能够帮助卫星根据瞬时过载情况调整其接入协议，以提高总体平均吞吐量。

本发明通过以下技术方案实现：

基于深度强化学习的LEO物联网随机接入方法，包括如下步骤：

步骤S1、设置LEO物联网中第k个波束的设备分布，并将第k个波束的设备分类为L个集合并配置不同的功率等级，并设置LEO卫星每个波束中设备的可选度集合第l个功率等级的设备为l类型设备；

步骤S2、搭建深度确定性策略梯度网络，该网络包括目标Actor网络、在线Actor网络、目标Critic网络和在线Critic网络；

步骤S3、LEO卫星移动至第k个波束，被该波束覆盖的用户根据当前状态，通过在线Actor网络从可选度集合中选择度进行随机接入；

步骤S4、在接收端设计二步迭代SIC接收机，该接收机包括时隙内SIC和时隙间SIC，译码步骤包括：

步骤S41、时隙内SIC利用功率分集在单个时隙中恢复碰撞的设备数据包；

步骤S42、对于在第k个波束中的l类型设备，若该设备未在第k-1个波束对应的子帧中传输，则该设备另外的个数据包副本，通过时隙间SIC从第k个波束对应的子帧中的相应时隙中消除，若该设备在第k-1个波束对应的子帧中传输了数据包且该数据包未被成功译码，则该设备在第k-2个波束对应的子帧中的数据包副本，也通过时隙间SIC消除，来自多个子帧的接收数据通过耦合方式实现联合译码；

步骤S43、将步骤S41和步骤S42进行多次迭代，直至在时隙内SIC阶段没有可成功译码的数据包，即完成数据译码，并将各类型设备接入成功的用户数进行加权后作为吞吐量；

步骤S44、将第k个波束当前状态、所选择的度、当前吞吐量、下一波束的状态作为经验数据存储于经验回放池中；

步骤S5、从经验回放池中随机采样经验数据以训练更新深度确定性策略梯度网络；

其中，L、l、k均为整数，l＝1,2,…,L。

进一步的，所述步骤S1中，所述设备分布为其中，/> 表示第k个波束中的第L个集合的设备，/>表示第k个波束中的第L个集合的设备的数量，/>表示第k个波束与第k-1个波束共享的第L个集合的设备，/>表示第k个波束与第k+1个波束共享的第L个集合的设备。

进一步的，所述步骤S1中，对第k个波束的L个设备集合分别设定对应的目标信号与干扰噪声比Γ₁,Γ₂,…,Γ_L，则l类型设备的功率等级为其中，N₀为基站端噪声功率。

进一步的，所述步骤S2的深度确定性策略梯度网络中，目标Actor网络与在线Actor网络为结构相同的三层全连接神经网络，目标Critic网络和在线Critic网络为结构相同的二层全连接神经网络。

进一步的，所述步骤S41具体为：如果l类型设备译码的信号与干扰噪声比大于目标信号与干扰噪声比Γ_l，则该时隙中的l类型设备的数据包能够被成功译码，依次检测数据包的功率等级，直到发现具有相同功率的多个数据包，并立即恢复未碰撞的数据包。

进一步的，所述步骤S2中，目标Actor网络表示为μ′(s|φ_μ′)，在线Actor网络表示为μ(s|φ_μ)，目标Critic网络表示为Q′(s,a′|φ_Q′)，在线Critic网络表示为Q(s,a|φ_Q)，φ_μ′、φ_μ、φ_Q′、φ_Q依次表示各网络的权重参数，目标Critic网络和在线Critic网络的输入状态定义为其中/>为前向V-1帧的残余矩阵，/>为当前波束的新传输矩阵，/>为当前波束的设备分布，动作空间定义为所述可选度集合，网络奖励设置为波束中平均每个时隙成功接入的各类型设备数量的加权值。

进一步的，所述步骤S5具体包括：

步骤S51、在线Critic网络中，通过输入当前状态s_i和当前动作a_i来获得动作值函数Q，利用动作值函数Q计算损失函数并基于标准的后向传播方法，求得/>针对φ_Q的梯度/>并对其进行优化更新，得到更新后的φ_Q，其中，/> 为求均方差，y_i为目标Critic网络的目标值；

步骤S52、在线Critic网络的策略根据确定性策略梯度更新，获得更新后的φ_μ；

步骤S53、获得φ_Q和φ_μ后，目标Actor网络的参数更新为φ_Q′←τφ_Q+(1-τ)φ_Q′，目标Critic网络的参数更新为φ_μ′←τφ_μ+(1-τ)φ_μ′，其中，τ为目标Actor网络和目标Critic网络的更新参数。

本发明具有如下有益效果：

1、本发明依托强化学习算法，在设备之间引入功率分集，并为不同的设备集合分配单独的发射功率等级，在传输端设计基于DDPG网络的随机接入优化策略，实时调整不同种类用户设备的度分布，在接收端设计二步迭代SIC接收机，将来自多个子帧的接收数据通过耦合方式实现联合译码，实现根据LEO卫星物联网接入过载情况，实时调整不同类型设备的度分布设置，以调整RA协议，从而快速适应接入用户数量的剧烈变化，使系统更加智能化，并有效利用异构设备的功率分集，优化了多功率级异构设备的度分布，实现更优的吞吐量性能。

附图说明

下面结合附图对本发明做进一步详细说明。

图1为本发明的流程图。

图2为本发明的二步迭代SIC接收机的示意图。

图3为本发明的深度确定性策略梯度网络的示意图。

图4为本发明的总体平均吞吐量的性能仿真示意图。

图5为本发明的各类型设备接入成功概率的性能仿真示意图。

图6为本发明与现有技术在不同设备密度下的平均吞吐量的对比仿真示意图。

具体实施方式

基于深度强化学习的LEO物联网接入方法依托于免授权LEO卫星物联网系统，其中LEO卫星充当基站，为大量设备提供服务，并且假设卫星和地面设备之间的同步是通过半球形信息辅助算法来保证的。LEO卫星以多个波束为设备提供服务，多个波束的服务顺序与卫星的运动轨迹有关。不同的波束采用时分服务，其中每个波束分配一个子帧用于设备传输数据包，具有相邻序列号的两个波束共享部分区域，并且它们分配的子帧是连续但不重叠的，将这两个波束称为相邻波束。在本实施例中，每个波束中有3中类型的设备，平均总数为70个，每个波束分配有50个时隙，假设发射功率最小的设备数量最多，与实际通信系统中常见的设备分布一致；相邻波束之间共享单个波束的大约30％的面积；为了优化每种类型设备的度分布，将最大可选度设置为8。

基于深度强化学习的LEO物联网接入方法包括如下步骤：

步骤S1、设置LEO物联网中LEO卫星的第k个波束的设备分布，并将第k个波束的设备分类为L个集合并配置不同的功率等级，并设置LEO卫星每个波束中设备的可选度集合第l个功率等级的设备为l类型设备；

具体地，设备分布为其中，表示第k个波束中的第L个集合的设备，/>表示第k个波束与第k-1个波束共享的第L个集合的设备，/>表示第k个波束与第k+1个波束共享的第L个集合的设备；/>表示第k个波束中的第L个集合的设备的数量，/>表示第k个波束与第k-1个波束共享的第L个集合的设备的数量，/>表示第k个波束与第k+1个波束共享的第L个集合的设备的数量；在本实施例中，L＝3，/>的均值为70；

第k个波束的L个集合分别设定对应的目标信号与干扰噪声比Γ₁,Γ₂,Γ₃，则l类型设备的功率等级为并按照功率等级从大到小分别设置为1类型设备、2类型设备和3类型设备，其中，N₀为基站端噪声功率；

步骤S2、搭建深度确定性策略梯度网络(DDPG网络)，如图3所示，该网络包括目标Actor网络μ′(s|φ_μ′)、在线Actor网络μ(s|φ_μ)、目标Critic网络Q′(s,a′|φ_Q′)和在线Critic网络Q(s,a|φ_Q)，目标Actor网络μ′(s|φ_μ′)与在线Actor网络μ(s|φ_μ)为结构相同的三层全连接神经网络，目标Critic网络Q′(s,a′|φ_Q′)和在线Critic网络Q(s,a|φ_Q)为结构相同的二层全连接神经网络，φ_μ′、φ_μ、φ_Q′、φ_Q依次表示各网络的权重参数；目标Critic网络和在线Critic网络的输入状态定义为其中为当前帧的前向V-1帧的残余矩阵，/>为当前波束的新传输矩阵，为当前波束的设备分布，a′为目标Actor网络μ′(s|φ_μ′)所选择的动作，a为在线Actor网络μ(s|φ_μ)所选择的动作，动作空间定义为所述可选度集合[1,2,8]，网络奖励设置为波束中平均每个时隙成功接入的各类型设备数量的加权值，该加权值根据经验设定，在本实施例中，1类型设备到3类型设备的加权值比值为[2.2:1.53:1]；

步骤S3、LEO卫星移动至第k个波束，被该波束覆盖的用户根据当前状态，通过在线Actor网络从可选度集合中选择度进行随机接入；其中，状态由三个部分组成，第一部分是存储在接收器中的前向v-1波束的残余矩阵，第二部分是当前波束的新传输矩阵，最后一部分是设备分布向量，当前状态为处于第k个波束时间内的状态；

步骤S4、在接收端设计二步迭代SIC接收机，如图2所示，该接收机包括时隙内SIC和时隙间SIC，译码步骤包括：

步骤S41、时隙内SIC利用功率分集在单个时隙中恢复碰撞的设备数据包；具体地，如果l类型设备译码的信号与干扰噪声比大于设定的目标信号与干扰噪声比Γ_l，则该时隙中的l类型设备的数据包能够被成功译码，依次检测数据包的功率等级，直到发现具有相同功率的多个数据包，并立即恢复未碰撞的数据包；

步骤S43、将步骤S41和步骤S42进行多次迭代，直至在时隙内SIC阶段没有可成功译码的数据包，即完成数据译码，并将各类型设备接入成功的用户数进行加权后作为吞吐量；其中，用户数据成功译码则定义为该用户接入成功；

步骤S5、从经验回放池中随机采样批大小为32的经验数据以训练更新深度确定性策略梯度网络，具体为：

步骤S51、在线Critic网络中，通过输入当前状态s_i和当前动作a_i来获得动作值函数Q，利用动作值函数Q计算损失函数并基于标准的后向传播方法，求得/>针对φ_Q的梯度并对其进行优化更新，得到更新后的φ_Q，其中，/> 为求均方差，y_i为目标Critic网络的目标值；

步骤S53、获得φ_Q和φ_μ后，目标Actor网络的参数更新为φ_Q′←τφ_Q+(1-τ)φ_Q′，目标Critic网络的参数更新为φ_μ′←τφ_μ+(1-τ)φ_μ′，其中，“←”表示更新，τ为目标Actor网络和目标Critic网络的更新参数，在本实施例中，τ＝0.001；其中，L、l、k均为整数，l＝1,2,…,L。

图4为总体平均吞吐量的性能仿真示意图，通过对200个波束的吞吐量进行计数和归一化来获得每个点的值。可以看到，在0到50回合的训练阶段，设备成功接入的概率缓慢增大，而在50到100回合阶段，系统平均吞吐量性能获得了显著的提高。图5为各类型设备接入成功概率的性能仿真示意图，可见，三种类型的设备在训练阶段之后获得了更高的接入成功概率，且此三种类型设备的成功接入概率在第600回合左右趋向稳定。图6为本发明(NOMA-IRSA)与现有技术(DRL-NSA、固定度为2方案、固定度为3方案、随机度方案)在不同设备密度下的平均吞吐量的对比仿真示意图，可见，在不同设备密度下具有显著的性能增益，且在设备密度大于95时，相对于其他方案的低效能，本发明能够继续保持较好的吞吐量性能，也能够更有效地应对高设备负载的场景。

以上所述，仅为本发明的较佳实施例而已，故不能以此限定本发明实施的范围，即依本发明申请专利范围及说明书内容所作的等效变化与修饰，皆应仍属本发明专利涵盖的范围内。

Claims

1.基于深度强化学习的LEO物联网随机接入方法，其特征在于：包括如下步骤：

其中，L、l、k均为整数，l＝1,2,…,L。

2.根据权利要求1所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S1中，所述设备分布为其中，表示第k个波束中的第L个集合的设备，/>表示第k个波束中的第L个集合的设备的数量，/>表示第k个波束与第k-1个波束共享的第L个集合的设备，/>表示第k个波束与第k+1个波束共享的第L个集合的设备。

3.根据权利要求1所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S1中，对第k个波束的L个设备集合分别设定对应的目标信号与干扰噪声比Γ₁,Γ₂,…,Γ_L，则l类型设备的功率等级为其中，N₀为基站端噪声功率。

4.根据权利要求1或2或3所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S2的深度确定性策略梯度网络中，目标Actor网络与在线Actor网络为结构相同的三层全连接神经网络，目标Critic网络和在线Critic网络为结构相同的二层全连接神经网络。

5.根据权利要求1或2或3所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S41具体为：如果l类型设备译码的信号与干扰噪声比大于目标信号与干扰噪声比Γ_l，则该时隙中的l类型设备的数据包能够被成功译码，依次检测数据包的功率等级，直到发现具有相同功率的多个数据包，并立即恢复未碰撞的数据包。

6.根据权利要求1或2或3所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S2中，目标Actor网络表示为μ′(s|φ_μ′)，在线Actor网络表示为μ(s|φ_μ)，目标Critic网络表示为Q′(s,a′|φ_Q′)，在线Critic网络表示为Q(s,a|φ_Q)，φ_μ′、φ_μ、φ_Q′、φ_Q依次表示各网络的权重参数，目标Critic网络和在线Critic网络的输入状态定义为其中/>为前向V-1帧的残余矩阵，/>为当前波束的新传输矩阵，/>为当前波束的设备分布，动作空间定义为所述可选度集合，网络奖励设置为波束中平均每个时隙成功接入的各类型设备数量的加权值。

7.根据权利要求6所述的基于深度强化学习的LEO物联网随机接入方法，其特征在于：所述步骤S5具体包括：