CN114599117B

CN114599117B - 低轨卫星网络随机接入中回退资源的动态配置方法

Info

Publication number: CN114599117B
Application number: CN202210223705.4A
Authority: CN
Inventors: 谢卓辰; 韩欣洋; 李宗旺
Original assignee: Shanghai Engineering Center for Microsatellites; Innovation Academy for Microsatellites of CAS
Current assignee: Shanghai Engineering Center for Microsatellites; Innovation Academy for Microsatellites of CAS
Priority date: 2022-03-07
Filing date: 2022-03-07
Publication date: 2023-01-10
Anticipated expiration: 2042-03-07
Also published as: CN114599117A

Abstract

本发明提供了一种低轨卫星网络随机接入中回退资源的动态配置方法、装置和计算机可读介质。该方法包括构建用户业务模型，用于提供用户终端的接入需求等；构建网络系统模型，包括在SSB广播周期内可被分配为回退资源的时隙等；构建深度强化学习模型，包括RO的对应波位在一个SSB广播周期的状态、动作和奖励，状态包括RO的对应波位在SSB广播周期的需要回退的用户终端数量等；奖励包括RO的对应波位的用户终端在SSB广播周期中被分配到回退资源并经历整个所述SSB广播周期后所获得的奖励；训练深度强化学习模型；将目标RO的对应波位的状态输入经训练的深度强化学习模型，输出目标动作；根据目标动作为每个目标RO的对应波位分配目标回退资源。

Description

低轨卫星网络随机接入中回退资源的动态配置方法

技术领域

本发明主要涉及低轨卫星通信领域，尤其涉及一种低轨卫星网络随机接入中回退资源的动态配置方法、装置和计算机可读介质。

背景技术

随着地面网络技术的不断发展，第五代蜂窝通信系统提出了全球无缝覆盖的目标，而低轨卫星由于其广覆盖、低延时等特性，与5G网络快速融合，为打造覆盖全球的立体、多层次、全方位和全天候的信息网络提供了有力支持。为了享受网络服务，用户终端需要在与网络连接前完成随机接入流程，实现与网络的同步，并获得网络的专属参考标识。

一个低轨卫星用少量相控阵跳波束进行小区覆盖并传输随机接入信令，在一段时间内卫星覆盖的小区范围视为静止，每个信令波束覆盖一个区域，由于低轨卫星波束覆盖面很大，一个区域内有数百个波位，每个信令波束以固定的SSB广播周期按需覆盖每个波位，实施每个波位的随机接入流程，广播同步信号、主信息块及相关的系统信息块。

为了满足5G网络中越来越多的低时延需求业务，进一步缩短网络的整体接入时延，3GPP R16在2019年提出了两步随机接入方法，将前导码和有效载荷一起传输，并将随机接入响应和冲突解决一起传输，这样只需要一次基站和终端间的交互就可以完成随机接入，相比之前的四步随机接入方式在时延性能上有了显著的提升，同时在信令开销和功耗方面也有一定的增益。这种随机接入增强技术显然在低轨卫星通信这种大时延场景下能得到很好的系统增益，相比四步随机接入中一个用户发起接入需要经历至少四次星地传播时延，采用两步随机接入最少只需要经历两次。

在两步随机接入中，MsgA中的前导码和有效载荷分别在PRACH和PUSCH的RO(PRACHOccasion)和PO(PUSCH Occasion)上传输，并且两者存在一对一或一对多的映射关系。

在一些情况下，用户终端由于在同一PO上发送有效载荷导致PUSCH信道碰撞而无法被成功监测，因此需要为其分配PUSCH回退资源再次发送有效载荷。由于低轨卫星的覆盖范围大，每个信令波束要遍历数百个波位，在两步接入流程中平均能分配给每个波位的用于回退的时间资源有限；不同波位接入需求差距大，因此每个波位因PUSCH信道碰撞而回退的终端数量也会有较大差距。每个波位中的接入需求具有时变性且覆盖用户多，低轨卫星相对地面快速移动，导致每个波位接入需求差距大，变化快，因此，需要灵活的PUSCH回退资源动态配置策略以适应上述问题。

另一方面，在通信网络，尤其是5G网络中，不同类型的接入终端有不同的时延要求，需要将终端分为不同的优先级，基于用户的优先级为用户分配PUSCH回退资源，以满足其QoS(Quality of Service，服务质量)需求，若将所有终端一视同仁，以相同的概率分配资源，将很难满足高优先级终端的时延需求。

发明内容

本发明要解决的技术问题是提供一种灵活、高效地回退资源的分配方式。

为解决上述技术问题，本发明提供了一种低轨卫星网络随机接入中回退资源的动态配置方法，所述低轨卫星网络包括多颗低轨卫星，其特征在于，包括：构建用户业务模型，所述用户业务模型用于提供基于地理位置和时间所生成的用户终端的接入需求，所述接入需求包括多个所述用户终端的优先级；构建网络系统模型，所述网络系统模型参数包括一个SSB广播周期的长度、在所述SSB广播周期内卫星的覆盖区域、在所述SSB广播周期内的RO及其对应波位、在所述SSB广播周期内可被分配为回退资源的时隙，其中，每个所述RO的对应波位具有相应的所述接入需求；构建深度强化学习模型，所述深度强化学习模型的模型参数包括：RO的对应波位在一个SSB广播周期的状态、动作和奖励，所述状态包括所述SSB广播周期、卫星的覆盖区域、所述RO的对应波位、所述RO的对应波位在所述SSB广播周期的需要回退的用户终端数量、在所述SSB广播周期接收到所述RO的MsgA后可分配为回退资源的空闲时隙的占用情况，其中，所述用户终端具有对应的优先级；所述动作包括根据所述状态为所述RO的对应波位分配的回退资源；所述奖励包括所述RO的对应波位的用户终端在所述SSB广播周期中被分配到所述回退资源并经历整个所述SSB广播周期后所获得的奖励；获取训练数据，所述训练数据包括每颗低轨卫星在每个SSB广播周期内的每个RO的所述状态、所述动作和所述奖励，根据所述训练数据训练所述深度强化学习模型，获得经训练的深度强化学习模型；获取当前SSB广播周期内每颗所述低轨卫星的每个目标RO的对应波位的当前状态，将所述当前状态输入所述经训练的深度强化学习模型，所述经训练的深度强化学习模型输出所述当前状态对应的目标动作；以及根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源。

在本发明的一实施例中，还包括：根据所述用户终端的优先级为与所述RO相关联的前导码分组。

在本发明的一实施例中，根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源的步骤包括：按照所述目标RO的对应波位内的需要回退的用户终端的优先级的高低，从高到低依次为多个所述用户终端分配所述目标回退资源。

在本发明的一实施例中，所述构建深度强化学习模型的步骤包括：初始化所述深度强化学习模型中的评估网络和目标网络，所述评估网络包括第一网络参数，所述目标网络包括第二网络参数，所述评估网络用于根据所述RO的对应波位在一个SSB广播周期的状态、动作和所述第一网络参数获得所述RO的对应波位在当前SSB广播周期的状态的动作的第一估值函数，所述目标网络用于根据所述RO的对应波位在下一个SSB广播周期中的状态、动作和所述第二网络参数选择所述RO的对应波位在下一个SSB广播周期的状态的最大动作的第二估值函数。

在本发明的一实施例中，根据所述训练数据训练所述深度强化学习模型的步骤包括：

步骤S51：将所述RO的对应波位在一个SSB广播周期的状态输入所述评估网络，从动作空间中为所述状态选择所述动作；

步骤S52：根据所述动作计算所述奖励；

步骤S53：根据在所述SSB广播周期内所述RO的对应波位的所述状态和所述动作，获得所述RO的对应波位在下一个SSB广播周期的状态，存储所述RO的对应波位在所述SSB广播周期的所述状态、所述动作、所述奖励和在下一个SSB广播周期所述RO的对应波位的状态作为经验池的一组历史数据；

步骤S54：从所述经验池中随机抽取L组历史数据，计算每组历史数据的第一估值函数和第二估值函数，L是大于1的正整数；

步骤S55：根据所述第一估值函数和第二估值函数更新所述第一网络参数；

步骤S56：重复迭代K次所述评估网络后，使所述第二网络参数等于所述第一网络参数，K是大于1的正整数；

步骤S57：重复上述步骤S51-S56，当所述第一网络参数的损失函数达到收敛时，将所述评估网络作为经训练的深度强化学习模型。

在本发明的一实施例中，在所述步骤S51中，所述动作空间包括可分配给一个波位的回退时间资源大小的集合，从动作空间中为所述状态选择所述动作的步骤包括：根据所述深度强化学习模型从所述集合中为所述状态选择一个回退时间资源大小。

在本发明的一实施例中，根据ε-greedy算法从所述集合中为所述状态选择一个回退时间资源大小。

在本发明的一实施例中，所述步骤S52包括：根据优化问题计算所述奖励，所述优化问题包括目标函数和约束条件，其中，采用下面的公式表示所述目标函数：

min:

采用下面的公式表示所述约束条件：

s.t.R_i∈R

其中，M_i,j表示第i个RO的对应波位中第j个优先级的需要回退的用户终端的数量，

表示第m_i,j个在第i个RO的对应波位中第j优先级的需要回退的用户终端从尝试发起接入起经历的时延，w_j表示第j优先级的优先级权重，R_i表示分配给第i个RO的对应波位的回退时间资源大小，R表示可分配给一个波位的回退时间资源大小的集合，R_idle表示当前SSB广播周期内可分配给所有RO的对应波位的用于回退的总PUSCH时间资源，N为一个SSB广播周期内的RO数量；根据所述优化问题计算所述奖励的步骤包括：当所述动作满足所述约束条件时，在该SSB广播周期内的所有用户终端的加权总接入时延越小，所述奖励越大。

在本发明的一实施例中，所述步骤S55包括：采用下面的公式更新所述第一网络参数：

其中，Q(s_n,a_n；θ)表示第一估值函数，s_n为RO_n(n∈N)的对应波位在当前SSB广播周期的当前状态，a_n为当前状态对应的动作，θ表示第一网络参数，α表示学习速率，r_n(t)表示奖励，γ表示折扣比例，第二估值函数的作用表示为

用于选出可选动作a′_n中使s′_n的目标估值函数Q最大的动作，s′_n表示下一个SSB广播周期中相应RO_n的对应波位的状态，θ^-表示所述第二网络参数。

在本发明的一实施例中，在获得经训练的深度强化学习模型的步骤之后，还包括：将所述经训练的深度强化学习模型发送至每颗所述低轨卫星。

本发明为解决上述技术问题还提出一种低轨卫星网络随机接入中回退资源的动态配置装置，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行所述指令以实现如上所述的方法。

本发明为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的方法。

本发明所提供的一种低轨卫星网络随机接入中回退资源的动态配置方法，提供了一种基于深度强化学习模型的PUSCH信道回退资源的预留算法，利用该算法可以使与每个RO对应的波位的回退资源大小适应该波位需要回退的不同优先级的终端数量，并在该回退资源内基于用户终端的优先级为每个用户终端分配用于回退的资源，在适应卫星通信场景的情况下有效提高了高优先级用户的接入成功率，降低了系统的总体接入时延，增加了资源利用率。

附图说明

包括附图是为提供对本申请进一步的理解，它们被收录并构成本申请的一部分，附图示出了本申请的实施例，并与本说明书一起起到解释本发明原理的作用。附图中：

图1是一种四步随机接入流程示意图；

图2是一种两步随机接入流程示意图；

图3是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的示例性流程图；

图4是本发明一实施例的动态配置方法中的深度强化学习模型训练流程图；

图5是本发明实施例一的低轨卫星网络随机接入中回退资源的动态配置方法中网络系统模型中的MsgA和MsgB的配置示意图；

图6是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的配置结果示意图；

图7是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的另一配置结果示意图；

图8是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置装置的系统框图。

具体实施方式

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本申请的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制；方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其他器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本申请保护范围的限制。此外，尽管本申请中所使用的术语是从公知公用的术语中选择的，但是本申请说明书中所提及的一些术语可能是申请人按他或她的判断来选择的，其详细含义在本文的描述的相关部分中说明。此外，要求不仅仅通过所使用的实际术语，而是还要通过每个术语所蕴含的意义来理解本申请。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本发明所涉及的低轨卫星网络包括多颗低轨卫星，该动态配置方法适于两步随机接入方法，基于用户终端的优先级动态地为各个用户终端分配PUSCH回退资源，可以为高优先级用户提供低时延、低功耗、低信令开销的随机接入服务。

图1是一种四步随机接入流程示意图。参考图1所示，低轨卫星网络在用户终端初始随机接入时采用四步随机接入的方法，用户终端01首先在物理随机接入信道(physicalrandom access channel，PRACH)上向基站02传输前导码作为Msg1，基站02在接收到前导码Msg1后向终端01发送随机接入响应(Random Access Response，RAR)作为Msg2，Msg2中包含为传输Msg3而分配的时频资源等信息。而后用户终端01在随机接入响应Msg2指示的物理上行共享信道(physical uplink shared channel，PUSCH)资源上发送有效载荷(即传输连接请求)作为Msg3，用户终端01在接收到来自基站02的冲突解决消息，即Msg4后，整个四步随机接入流程完成。

图2是一种两步随机接入流程示意图。参考图2所示，在四步随机接入法的基础上，两步随机接入法将前导码Msg1和有效载荷Msg3联合传输作为MsgA，将随机接入响应Msg2和冲突解决消息Msg4联合传输作为MsgB，这样只需要一次基站02和用户终端01间的交互就可以完成随机接入过程，相比四步随机接入在时延性能上有了显著的提升。其中，MsgA中的前导码Msg1和有效载荷Msg3分别在PRACH和PUSCH的RO(PRACH Occasion)和PO(PUSCHOccasion)上传输，并且两者存在一对一或一对多的映射关系。

基站在每个SSB(Synchronization Signal/PBCH Block，同步广播块)广播周期内广播一个SSB集合，其中每个SSB对应基站所覆盖小区的一个波位，同时波位和SSB也与该SSB周期内的RO相对应，在随机接入过程中的每条信息传输都与终端发起接入的RO，其相应的波位及其对应的波束相关。

需要说明，本说明书所述的用户终端、终端、用户都用于表示可以向5G低轨卫星或基站发起接入需求的终端，包括但不限于移动终端、手机、电脑等。

在3GPP协议中规定了一种两步随机接入的回退机制，当MsgA中的前导序列能够被正确检测，但是PUSCH消息解调失败时，基站会在MsgB中给用户终端反馈一个FallbackRAR，此消息类似Msg2，用来调度Msg3的发送，在当前SSB周期内尚未被MsgA、MsgB等信令占用的空闲资源内为相应用户终端分配发送Msg3的PUSCH信道资源，终端的接入流程从两步接入回退到四步接入，从而不需要终端重新发起接入，发起两步随机接入的终端在理论上有了不逊于四步接入的时延，有效减小了系统的总体接入时延。

目前协议中没有规定基站给用户分配用于回退的PUSCH资源的原则。对地面网络来说，利用MIMO技术可以使搭载MIMO天线的基站同时接收不止一个波位的信号，也可以同时向不只一个波位发送信息，因此在终端需要发起回退时可以给多个不同波位分配相同的时间资源，类似地面网络四步随机接入流程中传输Msg3的PUSCH信道资源分配，基站在配置PUSCH回退资源时可以直接随机分配，限制较小。

但对卫星网络来讲，由于星地信道特征简单，一般不能搭载MIMO天线，对一个信令波束覆盖的区域内，卫星在同一时间只能向一个波位发送信息，也只能接收一个波位发来的信息，因此在为需要回退到四步接入流程的终端分配资源有更多限制，即同一信令波束相同时间的资源只能分配给一个波位，若一颗卫星使用过多信令波束，则会大量增加天线规模，因此需要特定的PUSCH回退资源分配策略。

本发明的低轨卫星网络随机接入中回退资源的动态配置方法可以适应卫星通信不能搭载MIMO天线的硬件限制，在非常有限的信令波束数量限制的条件下降低用户终端随机接入过程的总体时延或最大时延。

图3是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的示例性流程图。该动态配置方法在两步随机接入技术的基础上实现了PUSCH信道回退资源的动态配置。参考图3所示，该实施例的动态配置方法包括以下步骤：

步骤S110：构建用户业务模型，用户业务模型用于提供基于地理位置和时间所生成的用户终端的接入需求，该接入需求包括多个用户终端的优先级；

步骤S120：构建网络系统模型，网络系统模型参数包括一个SSB广播周期的长度、在SSB广播周期内卫星的覆盖区域、在SSB广播周期内的RO及其对应波位、在SSB广播周期内可被分配为回退资源的时隙，其中，每个RO的对应波位具有相应的接入需求；

步骤S130：构建深度强化学习模型，深度强化学习模型的模型参数包括：RO的对应波位在一个SSB广播周期的状态、动作和奖励，状态包括SSB广播周期、卫星的覆盖区域、RO的对应波位、RO的对应波位在SSB广播周期的需要回退的用户终端数量、在SSB广播周期接收到RO的MsgA后可分配为回退资源的空闲时隙的占用情况，其中，用户终端具有对应的优先级；动作包括根据状态为RO的对应波位分配的回退资源；奖励包括RO的对应波位的用户终端在SSB广播周期中被分配到该回退资源并经历整个SSB广播周期流程后所获得的奖励；

步骤S140：获取训练数据，训练数据包括每颗低轨卫星在每个SSB广播周期内的每个RO的状态、动作和奖励，根据训练数据训练深度强化学习模型，获得经训练的深度强化学习模型；

步骤S150：获取当前SSB广播周期内每颗低轨卫星的每个目标RO的对应波位的当前状态，将当前状态输入经训练的深度强化学习模型，经训练的深度强化学习模型输出当前状态对应的目标动作；

步骤S160：根据目标动作为每个目标RO的对应波位分配目标回退资源。

需要说明，本发明的动态配置方法基于与地面5G网络相融合的低轨卫星通信系统，其中包括多个低轨卫星、一个或多个计算节点和若干用户终端。结合图1和图2所示，当用户终端01在卫星网络中发起接入时，卫星充当地面基站02的作用。

以下结合附图说明上述步骤S110-S160。

需要说明，在不同地理位置，用户终端的数量不同，在不同的时间和不同的地理位置，发起接入的用户终端的数量也是不同的。因此，在步骤S110，使用用户业务模型来表现用户终端的接入需求，可以生成某一颗低轨卫星在每一个SSB广播周期中RO对应波位的终端数量。

在步骤S110中，用户业务模型提供的接入需求中包括多个用户终端的优先级，可以根据实际情况为用户终端设置优先级。不同的用户终端可以具有相同或不同的优先级。

在一些实施例中，根据用户终端的优先级为与RO相关联的前导码进行分组，获得对应的前导码分组。例如设置m个前导码分组，每个前导码分组的编号分别是1到m，用户终端的优先级越高，其分组编号越小或者越靠前，用户终端的优先级越低，其分组编号越大。这样，基站可以根据所接收到的前导码获知该用户终端的优先级。

在步骤S120中构建的网络系统模型，该网络指包括多颗低轨卫星的低轨卫星网络。

基站在每个SSB(Synchronization Signal/PBCH Block，同步广播块)广播周期T内广播一个SSB集合，其中的一个SSB对应基站所覆盖区域的一个波位，即RO与相应SSB广播周期T内的SSB集合相关联，即RO和PO与SSB对应的波位存在对应关系。

本发明在步骤S120通过构建网络系统模型，可以提供的网络系统该模型参数包括：一个SSB广播周期的长度T、该低轨卫星网络中每个卫星在每个SSB广播周期T内的覆盖区域、在每个SSB广播周期T内的RO的数量以及每个RO的对应波位、在SSB广播周期内可被分配为回退资源的时隙，其中，每个RO的对应波位具有相应的接入需求，该接入需求可以从步骤S110中的用户业务模型中获取。

一个或多个计算节点可以作为步骤S130-S140的执行主体，用于构建、训练深度强化学习模型。计算节点可以是具体的计算机、移动终端等。每颗低轨卫星使用通信网络与计算节点相连接，从计算节点下载经训练的深度强化学习模型，并执行步骤S150-S160，为该低轨卫星的当前SSB广播周期内的每个目标RO的对应波位分配目标回退资源。

在步骤S130中，用状态向量s表示该状态，RO_n(n∈N)在SSB广播周期t(t∈T)的状态向量s_n(t)＝[H_n(t),A_n(t),t,P(t),Q_n(t)]，其中，t表示该SSB广播周期，T是SSB广播周期的时长，H_n(t)为该RO_n的对应波位在SSB广播周期t的各个优先级终端需要回退的终端数量，如下：

H_n(t)＝[h₁,h₂,…,h_J],

其中，h_j表示该RO_n的对应波位在SSB广播周期t的需要回退的优先级j的终端数量，优先级的总数量为J。

在状态向量s_n(t)中，A_n(t)表示在SSB广播周期t接收到RO_n相应的MsgA后可分配为回退资源的空闲时隙的占用情况，P(t)表示在SSB广播周期t卫星的覆盖区域，Q_n(t)表示在RO_n在SSB广播周期t对应的波位。

可以理解，对于每个SSB广播周期t的每个RO，都可以构建一个这样的状态向量s_n(t)，n∈N，N是在该SSB广播周期内的RO总数量。

RO_n(n∈N)在SSB广播周期t(t∈T)的动作a_n(t)＝R_n(t)即为RO_n的对应波位在SSB广播周期t分配到的用于回退的PUSCH信道时间资源。

RO_n(n∈N)的对应波位在SSB广播周期t(t∈T)的奖励r_n(t)为RO_n的对应波位的用户终端在SSB广播周期t被分配到回退资源并经历整个所述SSB广播周期流程后所获得的奖励。

在构建网络系统模型之后，可以首先设置初始化的系统状态，例如：需要回退的终端优先级矩阵H(0)，整个SSB周期内可被分配为回退资源的时隙A(0)，SSB广播周期T⁰，卫星的覆盖区域P(0)及RO对应的的波位Q(0)。可以根据实际情况为这些模型参数设置初始值。

在本发明的一实施例中，步骤S130中构建深度强化学习模型的步骤包括：初始化深度强化学习模型中的评估网络和目标网络，该评估网络包括第一网络参数θ，评估网络用于根据RO的对应波位在当前SSB广播周期的状态、动作和第一网络参数θ获得该RO的对应波位在当前SSB广播周期的状态的动作的第一估值函数；目标网络包括第二网络参数θ^-，目标网络用于根据该RO的对应波位在下一个SSB广播周期中的状态、动作和第二网络参数θ^-选择该RO的对应波位在下一个SSB广播周期的状态的最大动作的第二估值函数。

在一些实施例中，第一估值函数表示为：

Q(s_n,a_n；θ)

其中s_n为RO_n(n∈N)的对应波位在当前SSB广播周期的当前状态，a_n为当前状态对应的动作，N是当前SSB广播周期中RO的总数，RO_n表示第n个RO。

在一些实施例中，第二估值函数为目标估值函数，其作用具体表示为：

用于选出可选动作a′_n中使s′_n的目标估值函数Q最大的动作，其中s′_n表示下一个SSB广播周期中相应RO_n的对应波位的状态。

图4是本发明一实施例的动态配置方法中的深度强化学习模型训练流程图。参考图4所示，在步骤S140，根据训练数据训练由步骤S130所构建的深度强化学习模型，具体包括下面的步骤：

步骤S51：将RO的对应波位在一个SSB广播周期t的状态输入评估网络，从动作空间中为该状态选择动作。可以理解，这里的状态是步骤S140中所获取的训练数据中，每颗低轨卫星在每个SSB广播周期内的每个RO的对应波位的状态。

步骤S52：根据动作计算奖励。关于如何计算该奖励将在后文中说明。

步骤S53：根据在该SSB广播周期t内该RO的对应波位的状态和动作，获得该RO的对应波位在下一个SSB广播周期t+1的状态，存储该RO的对应波位在该SSB广播周期t的状态、动作、奖励和该RO的对应波位在下一个SSB广播周期t+1的状态作为经验池的一组历史数据；

步骤S54：从经验池中随机抽取L组历史数据，计算每组历史数据的第一估值函数和第二估值函数，L是大于1的正整数；

步骤S55：根据第一估值函数和第二估值函数更新第一网络参数；

步骤S56：重复迭代K次评估网络后，使第二网络参数等于第一网络参数，K是大于1的正整数；

步骤S57：重复上述步骤S51-S56，当第一网络参数的损失函数达到收敛时，将评估网络作为经训练的深度强化学习模型。本发明对所采用的损失函数不做限制，可以采用深度强化学习模型领域中的任意损失函数。

在一些实施例中，在步骤S51中，动作空间包括可分配给一个波位的回退时间资源大小的集合，从动作空间中为状态选择动作的步骤包括：根据深度强化学习模型从集合中为状态选择一个回退时间资源大小。

在一些实施例中，根据ε-greedy算法，从动作空间中随机选择回退时间资源大小。具体地，可以以概率ε随机选择动作，或者以概率1ε选择使估值函数最大的动作。

进一步地，在本发明的一实施例中，上述步骤S52中的根据动作计算奖励具体包括：根据优化问题计算奖励，优化问题包括目标函数和约束条件。其中，目标函数可以表示为：

min:

采用下面的公式表示约束条件：

s.t.R_i∈R

表示第m_i,j个在第i个RO的对应波位中第j优先级的需要回退的用户终端从尝试发起接入起经历的时延，w_j表示分配给第j优先级的优先级权重，R_i表示分配给第i个RO的对应波位的回退时间资源大小，R表示可分配给一个波位的回退时间资源大小的集合，R_idle表示当前SSB广播周期内可分配给所有RO的对应波位的用于回退的总PUSCH时间资源，N为一个SSB广播周期内的RO数量。

根据优化问题计算奖励的步骤包括：当动作满足约束条件时，在该SSB广播周期内的所有用户终端的加权总接入时延越小，所述奖励越大。

其中，min:

表示在该SSB广播周期内的所有用户终端的总体接入时延最小。

在上述的目标函数中，优先级权重w_j可以在构建用户业务模型时确定，针对每个用户终端的优先级设置不同的权重，对于J个优先级设置权重矩阵，表示为：W＝[w₁,w₂,…,w_J]。

将优化问题结合在对本发明的深度强化学习模型的训练中，在满足约束条件的情况下，如果总体接入时延最小，则奖励越大；相应地，如果总体接入时延较大，或者不满足约束条件，则奖励越小，可以通过引入惩罚使奖励变小。

上述实施例不用于限制本发明所要采用的优化目标只能是总体接入时延最小。在其他的实施例中，在计算奖励时，优化问题中的优化目标还可以是最大接入时延最小、用户终端的接入概率最大等。

在一实施例中，在步骤S53中，根据在SSB广播周期t(t∈T)内RO_n的对应波位的状态s_n(t)和动作a_n(t)，获得下一个SSB广播周期t+1内RO_n的对应波位的状态s′_n(t+1)，存储＜s_n(t),a_n(t),r_n(t),s′_n(t+1)＞作为经验池的一组历史数据，其中，r_n(t)是前文所述的奖励。

在一实施例中，在步骤S54中，从经验池中使用经验回放法随机抽取L组历史数据，并计算每组数据的第一估值函数Q值Q(s_n(t),a_n(t)；θ)与第二估值函数Q值，得到

在本发明的一实施例中，步骤S55包括：采用下面的公式更新第一网络参数θ：

其中，α表示学习速率，γ表示折扣比例，r_n(t)表示奖励。

在本发明的一实施例中，在步骤S55，根据均方误差损失函数L(θ)＝E[(Q_target-Q(s_n(t),a_n(t)；θ))²]和梯度下降法更新第一网络参数θ。

在一实施例中，在步骤S56重复迭代K次评估网络后，复制第一网络参数θ给第二网络参数θ^-，即θ^-＝θ。

在步骤S57，重复上述步骤S51-S56，直至均方误差损失函数收敛，将此时的评估网络作为经训练的深度强化学习模型。根据该评估网络为RO的对应波位分配的回退资源在总体上可以获得最大的奖励。在一些实施例中，最大的奖励表示在满足约束条件的前提下，使该SSB广播周期内的所有用户终端的加权总接入时延越小。

根据上述的步骤S51-S57，可以获得经训练的深度强化学习模型，根据该经训练的深度强化学习模型可以为输入的目标RO的对应波位分配最适合的目标回退资源，使总体接入时延最小，使资源利用得到优化。在本发明的一实施例中，在获得经训练的深度强化学习模型的步骤之后，还包括：将经训练的深度强化学习模型发送至每颗低轨卫星。本步骤也可以具体实施为由每颗低轨卫星从计算节点主动下载经训练的深度强化学习模型。可以理解，计算节点的深度强化学习模型可以采用实时数据进行训练，其中的网络参数具有实时更新的特点。因此，低轨卫星可以以固定的周期下载经训练的深度强化学习模型，也可以在网络参数有更新时触发下载，本发明对此不做限制。

本发明结合在动态环境中所建立的优化问题，将其建模为低轨卫星与动态环境交互过程中的马尔可夫过程，使卫星在不断与环境交互的过程中从环境中获取最大化的收益。

在一些实施例中，步骤S160中的根据目标动作为每个目标RO的对应波位分配目标回退资源的步骤包括：按照目标RO的对应波位内的需要回退的用户终端的优先级的高低，从高到低依次为多个用户终端分配目标回退资源。

如图3所示，根据步骤S110-S160，实现了一种基于用户终端的优先级的PUSCH信道回退资源的动态配置方案，低轨卫星应用该经训练的深度强化学习模型对目标RO实时分配目标回退资源，可以获得优化的分配结果，提高资源分配效率。

图5是本发明实施例一的低轨卫星网络随机接入中回退资源的动态配置方法中网络系统模型中的MsgA和MsgB的配置示意图。参考图5所示，其中包括上方的坐标轴和下方的坐标系，位于上方的坐标轴为时间轴，用于表示在一个较长的时间段内的MsgA和MsgB的配置。位于下方的坐标系的横轴为时间，纵轴为频率，用于表示上方时间轴上的一个PUSCH时隙540中的PO的分配情况，其中，每个PO在PUSCH时隙中占据一定的时频资源，在坐标系中用一个矩形块表示一个PO(PUSCH Occasion)，例如图5中的矩形块550。

在一些实施例中，若干个RO占用一个或两个PRACH时隙，构成一个PRACH组，每个PRACH组对应若干个连续的PUSCH时隙，每个PUSCH时隙内包含若干个PO，与PRACH组关联的若干个连续的PUSCH时隙称为PUSCH资源组。卫星在接收到MsgA后将向终端发送MsgB以解决冲突并指示回退资源等。

在图5所示的实施例中，参考图5中上方的时间轴，一个PRACH组包括一个PRACH时隙，其所对应的PUSCH资源组包括3个PUSCH时隙。例如，一个PRACH时隙511之后有3个与其关联的PUSCH时隙521、522、523和一个MsgB时隙530，其中，PRACH时隙511对应于若干个RO，是一个PRACH组；3个PUSCH时隙521、522、523是一个PUSCH资源组，PRACH组及其对应的PUSCH资源组都属于MsgA时隙。如图5所示，在PRACH时隙511和PUSCH资源组之间，PUSCH资源组与MsgB时隙530之间均存在相对偏移量，该相对偏移量会在一定程度上影响空闲时隙的位置。在整个SSB广播周期内，空闲的时隙可以分配给回退资源，空闲的时隙是未被MsgA、MsgB等信令占用的时隙。

如图5所示，在下方的坐标系中，时间轴被按照间距分成了14份，用符号#0、符号#1、…、符号#13等来表示时间刻度。

需要说明，图5所示仅为示例，不用于限制MsgA和MsgB的具体配置。

图6是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的配置结果示意图。与图5类似地，图6包括上方的坐标轴和下方的坐标系，位于上方的坐标轴为时间轴，用于表示在一个较长的时间段内的回退资源的配置。位于下方的坐标系的横轴为时间，纵轴为频率，用于表示上方时间轴上的一个回退时隙621中的PO(PUSCH Occasion)的分配情况。

如图6所示，回退时隙621位于两组非空闲时隙611、612之间，其中，回退时隙621被分配给RO_n的对应波位。采用本发明的动态配置方法可以为ROn的对应波位分配目标回退资源，即回退时隙621，并在该回退时隙621内，根据用户终端的优先级依次为各个用户终端分配目标回退资源。非空闲时隙611、612可以是任何其他信令占用的时隙，回退时隙621是PUSCH资源组之外的可用于终端回退的PUSCH时隙。

参考图6所示，将回退时隙621在时间轴上沿从左至右的顺序，在频率轴上按照从下至上的顺序依次进行分配，其中，为第一优先级终端分配了6个PO，为第二优先级终端分配了2个PO，为第三优先级终端分配的2个PO等等。根据图6所示，步骤S51中的动作空间中所包括的可分配给一个波位的回退时间资源大小的集合至少包括2、6。在为第一优先级终端选择动作时，选择结果为6，在为第二优先级终端选择动作时，选择结果为2。

需要说明，图6所示仅为示例，不用于限制实际的PO分配结果以及动作空间的具体内容。

在图6所示的实施例中，为J个优先级的终端全部分配了回退资源，分配结束之后，回退时隙621中还有富余的PO资源，如图6的PO资源右上角的两个矩形块621、622。

图7是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置方法的另一配置结果示意图。与图6类似地，图7包括上方的坐标轴和下方的坐标系，位于上方的坐标轴为时间轴，用于表示在一个较长的时间段内的回退资源的配置。位于下方的坐标系的横轴为时间，纵轴为频率，用于表示上方时间轴上的一个回退时隙721中的PO(PUSCHOccasion)的分配情况。图7所示与图6所示的不同之处在于，分配给RO_n的对应波位的回退时隙721小于其所需资源，在基于优先级为终端分配回退时隙时，优先级高的终端占用靠前的时隙以进一步减小高优先级终端的接入时延，依次分配，可能存在某些优先级低的终端不能被分配到发送Msg3的回退资源，如图7所示，其中右上角的PO资源分配给第j优先级终端，j≤J，J是所有优先级的个数。

本发明还提供了一种低轨卫星网络随机接入中回退资源的动态配置装置，包括：存储器，用于存储可由处理器执行的指令；处理器，用于执行指令以实现如前所述的动态配置方法。

本发明还提供了一种存储有计算机程序代码的计算机可读介质，计算机程序代码在由处理器执行时实现如前所述的动态配置方法。

图8是本发明一实施例的低轨卫星网络随机接入中回退资源的动态配置装置的系统框图。参考图8所示，该动态配置装置800可包括内部通信总线801、处理器802、只读存储器(ROM)803、随机存取存储器(RAM)804以及通信端口805。当应用在个人计算机上时，该动态配置装置800还可以包括硬盘806。内部通信总线801可以实现该动态配置装置800组件间的数据通信。处理器802可以进行判断和发出提示。在一些实施例中，处理器802可以由一个或多个处理器组成。通信端口805可以实现该动态配置装置800与外部的数据通信。在一些实施例中，该动态配置装置800可以通过通信端口805从网络发送和接受信息及数据。该动态配置装置800还可以包括不同形式的程序储存单元以及数据储存单元，例如硬盘806，只读存储器(ROM)803和随机存取存储器(RAM)804，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器802所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

上述的动态配置方法可以实施为计算机程序，保存在硬盘806中，并可加载到处理器802中执行，以实施本申请的动态配置方法。

本发明还包括一种存储有计算机程序代码的计算机可读介质，该计算机程序代码在由处理器执行时实现前文所述的动态配置方法。

低轨卫星网络随机接入中回退资源的动态配置方法实施为计算机程序时，也可以存储在计算机可读存储介质中作为制品。例如，计算机可读存储介质可以包括但不限于磁存储设备(例如，硬盘、软盘、磁条)、光盘(例如，压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如，电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外，本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。

应该理解，上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现，处理器可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述发明披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

Claims

1.一种低轨卫星网络随机接入中回退资源的动态配置方法，所述低轨卫星网络包括多颗低轨卫星，其特征在于，包括：

构建用户业务模型，所述用户业务模型用于提供基于地理位置和时间所生成的用户终端的接入需求，所述接入需求包括多个所述用户终端的优先级；

构建网络系统模型，所述网络系统模型参数包括一个SSB广播周期的长度、在所述SSB广播周期内卫星的覆盖区域、在所述SSB广播周期内的RO及其对应波位和在所述SSB广播周期内可被分配为回退资源的时隙，其中，每个所述RO的对应波位具有相应的所述接入需求；

构建深度强化学习模型，所述深度强化学习模型的模型参数包括：RO的对应波位在一个SSB广播周期的状态、动作和奖励，所述状态包括所述SSB广播周期、卫星的覆盖区域、所述RO的对应波位、所述RO的对应波位在所述SSB广播周期的需要回退的用户终端数量和在所述SSB广播周期接收到所述RO的MsgA后可分配为回退资源的空闲时隙的占用情况，其中，所述用户终端具有对应的优先级；所述动作包括根据所述状态为所述RO的对应波位分配的回退资源；所述奖励包括所述RO的对应波位的用户终端在所述SSB广播周期中被分配到所述回退资源并经历整个所述SSB广播周期后所获得的奖励；

获取训练数据，所述训练数据包括每颗低轨卫星在每个SSB广播周期内的每个RO的所述状态、所述动作和所述奖励，根据所述训练数据训练所述深度强化学习模型，获得经训练的深度强化学习模型；

获取当前SSB广播周期内每颗所述低轨卫星的每个目标RO的对应波位的当前状态，将所述当前状态输入所述经训练的深度强化学习模型，所述经训练的深度强化学习模型输出所述当前状态对应的目标动作；以及

根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源。

2.如权利要求1所述的动态配置方法，其特征在于，在构建用户业务模型的步骤中还包括：根据所述用户终端的优先级为与所述RO相关联的前导码进行分组，所述接入需求还包括前导码分组。

3.如权利要求1所述的动态配置方法，其特征在于，根据所述目标动作为所述每个目标RO的对应波位分配目标回退资源的步骤包括：按照所述目标RO的对应波位内的需要回退的用户终端的优先级的高低，从高到低依次为多个所述用户终端分配所述目标回退资源。

4.如权利要求1所述的动态配置方法，其特征在于，所述构建深度强化学习模型的步骤包括：

初始化所述深度强化学习模型中的评估网络和目标网络，所述评估网络包括第一网络参数，所述目标网络包括第二网络参数，所述评估网络用于根据所述RO的对应波位在一个SSB广播周期的状态、动作和所述第一网络参数获得所述RO的对应波位在当前SSB广播周期的状态的动作的第一估值函数，所述目标网络用于根据所述RO的对应波位在下一个SSB广播周期中的状态、动作和所述第二网络参数选择所述RO的对应波位在下一个SSB广播周期的状态的最大动作的第二估值函数。

5.如权利要求4所述的动态配置方法，其特征在于，根据所述训练数据训练所述深度强化学习模型的步骤包括：

步骤S52：根据所述动作计算所述奖励；

6.如权利要求5所述的动态配置方法，其特征在于，在所述步骤S51中，所述动作空间包括可分配给一个波位的回退时间资源大小的集合，从动作空间中为所述状态选择所述动作的步骤包括：根据所述深度强化学习模型从所述集合中为所述状态选择一个回退时间资源大小。

7.如权利要求6所述的动态配置方法，其特征在于，根据所述深度强化学习模型从所述集合中为所述状态选择一个回退时间资源大小的步骤包括：在所述深度强化学习模型中采用ε-greedy算法从所述集合中为所述状态选择一个回退时间资源大小。

8.如权利要求5所述的动态配置方法，其特征在于，所述步骤S52包括：根据优化问题计算所述奖励，所述优化问题包括目标函数和约束条件，其中，采用下面的公式表示所述目标函数：

采用下面的公式表示所述约束条件：

s.t.R_i∈R

表示第m_i,j个在第i个RO的对应波位中第j优先级的需要回退的用户终端从尝试发起接入起经历的时延，w_j表示第j优先级的优先级权重，R_i表示分配给第i个RO的对应波位的回退时间资源大小，R表示可分配给一个波位的回退时间资源大小的集合，R_idle表示当前SSB广播周期内可分配给所有RO的对应波位的用于回退的总PUSCH时间资源，N为一个SSB广播周期内的RO数量；

根据所述优化问题计算所述奖励的步骤包括：当所述动作满足所述约束条件时，在该SSB广播周期内的所有用户终端的加权总接入时延越小，所述奖励越大。

9.如权利要求5所述的动态配置方法，其特征在于，所述步骤S55包括：采用下面的公式更新所述第一网络参数：

10.如权利要求1所述的动态配置方法，其特征在于，在获得经训练的深度强化学习模型的步骤之后，还包括：将所述经训练的深度强化学习模型发送至每颗所述低轨卫星。

11.一种低轨卫星网络随机接入中回退资源的动态配置装置，包括：

存储器，用于存储可由处理器执行的指令；

处理器，用于执行所述指令以实现如权利要求1-10任一项所述的方法。

12.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1-10任一项所述的方法。