CN115549750A

CN115549750A - 卫星接入选择方法和装置、电子设备和存储介质

Info

Publication number: CN115549750A
Application number: CN202210906791.9A
Authority: CN
Inventors: 肖云杰; 陈晓露; 赵保珠; 郭苏; 张家慧; 张�浩; 王健
Original assignee: State Grid Smart Grid Research Institute Co ltd; Nanjing University; State Grid Corp of China SGCC; State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd; Nanjing University; State Grid Corp of China SGCC; State Grid Shanghai Electric Power Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-30

Abstract

本申请提供了一种卫星接入选择方法和装置、电子设备和存储介质，其中，该方法包括：获取低轨卫星网络中多个低轨卫星的的接入请求；根据接入请求得到当前时刻环境的第一状态参数，其中，第一状态参数用于体现当前时刻低轨卫星网络的状态；将第一状态参数输入目标网络，得到低轨卫星网络的最终接入方式，其中，目标网络用于从多个低轨卫星中选取出目标卫星作为接入卫星，目标网络是通过对训练网络的模型参数进行调整后得到的。通过本申请，解决了相关技术中存在策略灵活性差难以满足复杂的通信网络调用需求以及相关计算复杂度高、用时长的问题。

Description

卫星接入选择方法和装置、电子设备和存储介质

技术领域

本发明涉及卫星通信的技术领域，尤其涉及一种卫星接入选择方法和装置、电子设备和存储介质。

背景技术

低轨卫星具有低损耗、低时延、成本较低等优点，更适合承载实时业务。低轨卫星网络通过增加低轨通信卫星数量提高覆盖率，是构建第六代移动通信网络必不可少的部分。一个用户被两颗以上低轨卫星覆盖的概率超过80％，因此需要制定接入策略选择最优卫星接入。

目前广泛接受的接入策略大多为静态策略，然而，一方面，静态策略中状态参数的选择具有较强的主观性，且静态策略无法适应环境的高动态性；另一方面，业务的高并发性会导致接入过程计算复杂度过大及决策时间过长等一系列问题。

因此，相关技术中存在策略灵活性差难以满足复杂的通信网络调用需求以及相关计算复杂度高、用时长的问题。

发明内容

本申请提供了一种卫星接入选择方法和装置、电子设备和存储介质，以至少解决相关技术中存在策略灵活性差，无法适应越来越复杂的通信网络以及计算复杂度高、决策时间过长的问题。

根据本申请实施例的一个方面，提供了一种卫星接入选择方法，包括：

获取低轨卫星网络中多个低轨卫星的接入请求；

根据所述接入请求得到当前时刻环境的第一状态参数，其中，所述第一状态参数用于体现当前时刻所述低轨卫星网络的状态；

将所述第一状态参数输入目标网络，得到所述低轨卫星网络的最终接入方式，其中，所述目标网络用于从多个所述低轨卫星中选取出目标卫星作为接入卫星，所述目标网络是通过对训练网络的模型参数进行调整后得到的。

根据本申请实施例的另一个方面，还提供了一种卫星接入选择装置，包括：

获取单元，用于获取低轨卫星网络中多个低轨卫星的接入请求；

第一得到单元，用于根据所述接入请求得到当前时刻环境的第一状态参数，其中，所述第一状态参数用于体现当前时刻所述低轨卫星网络的状态；

第二得到单元，用于将所述第一状态参数输入目标网络，得到所述低轨卫星网络的最终接入方式，其中，所述目标网络用于从多个所述低轨卫星中选取出目标卫星作为接入卫星，所述目标网络是通过对训练网络的模型参数进行调整后得到的。

可选地，第一得到单元包括：

第一获取模块，用于获取所述当前时刻环境的业务优先级、信号强度、卫星覆盖时间和卫星信道利用率；

处理模块，用于对所述信号强度、所述卫星覆盖时间和所述卫星信道利用率进行离散化处理，并将离散化处理后的参数以及所述业务优先级作为所述第一状态参数。

初始化模块，用于初始化所述训练网络和所述训练样本；

设置模块，用于设置相关参数，其中，所述相关参数用于所述训练网络的模型训练过程。

可选地，第二得到单元包括：

确定模块，用于根据所述第一状态参数确定参考动作以及奖励函数，其中，所述参考动作用于初步指导低轨卫星的接入；

第二获取模块，用于将所述参考动作发送至所述低轨卫星网络，并获取下一时刻环境的第二状态参数；

存储模块，用于将所述第一状态参数、所述参考动作、所述奖励函数和第二状态参数作为一个训练样本进行存储；

训练模块，用于抽取预设数量的所述训练样本输入训练网络进行模型训练，生成目标值；

停止模块，用于根据所述目标值调整所述训练网络的模型参数，直到基于调整所述模型参数后的训练网络输出的概率值小于第一预设阈值，则停止所述模型参数的调整，得到目标网络，其中，所述目标网络用于确定卫星的最终接入方式。可选地，确定模块包括：

第一确定子单元，用于根据所述第一状态参数确定参考动作；

第二确定子单元，用于根据所述第一状态参数确定奖励函数；

可选地，第一确定子单元包括：

预设子模块，用于预设一个预设范围；

选取子模块，用于在预设范围中选定一个数设置为参考值；

第一生成子模块，用于在预设范围中生成一个随机数；

第一比较子模块，用于将所述随机数与所述参考值比较；

选择子模块，用于根据比较结果，用不同方式选择参考动作，其中，当所述随机数大于所述参考值时，选择与所述第一状态参数对应的动作作为所述参考动作，当所述随机数小于所述参考值时，随机选择一个动作作为所述参考动作。

可选地，第二确定子单元包括：

第二生成子模块，用于根据所述第一状态参数生成对应的效用函数，其中，所述效用函数用于表征所述第一状态参数的精确度；

设置子模块，用于根据所述效用函数的重要程度设置不同的权重参数；

得到子模块，用于根据所述效用函数和所述权重参数得到所述奖励函数。

可选地，停止模块包括：

第一停止子单元，用于根据所述训练网络输出的概率值决定是否停止更新训练网络参数；

第二停止子单元，用于根据所述调整所述训练网络的模型参数的次数决定是否停止更新训练网络参数；

可选地，第一停止子单元包括：

第一设定子模块，用于设定所述第一预设阈值；

第三生成子模块，用于根据所述训练网络的模型参数，生成对应的所述训练网络输出的概率值；

第二比较子模块，用于将所述概率值与所述第一预设阈值比较，其中，当所述概率值大于所述第一预设阈值时，更新所述训练网络参数并从上述根据所述训练网络的模型参数，生成对应的所述训练网络输出的概率值开始执行后续步骤，当所述概率值小于所述第一预设阈值，停止更新所述训练网络参数，并根据此时训练网络参数确定所述目标网络。

可选地，第二停止子单元包括：

第二设定子模块，用于设定第二预设阈值；

第三比较子模块，用于将所述调整所述训练网络的模型参数的次数与所述第二预设阈值比较，其中，当所述调整所述训练网络的模型参数的次数超过所述第二预设阈值时，停止所述模型参数的调整，从上述根据所述接入请求获取当前时刻环境的第一状态参数开始执行后续操作。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中，通过获取低轨卫星网络中多个低轨卫星的接入请求；根据接入请求得到当前时刻环境的第一状态参数，其中，第一状态参数用于体现当前时刻低轨卫星网络的状态；将第一状态参数输入目标网络，得到低轨卫星网络的最终接入方式，其中，目标网络用于从多个低轨卫星中选取出目标卫星作为接入卫星，目标网络是通过对训练网络的模型参数进行调整后得到的。由于本申请实施例利用训练网络与环境进行交互，使训练网络能够自我调整目标网络选择策略，提高了本方法的灵活性，另外本申请实施例考虑了多种影响决策的因素，并设计出效用函数以及奖励函数使目标网络的选择更精确、智能。通过目标网络选出的最终卫星接入方式既充分考虑了环境各种参数，提高了卫星通信网络资源的利用率又通过更新训练网络的算法降低了训练过程的计算复杂度进而缩短了决策时间，解决了相关技术中存在策略灵活性差难以满足复杂的通信网络调用需求以及相关计算复杂度高、用时长的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的多星接入选择场景示意图；

图2是根据本申请实施例的一种可选的卫星接入选择方法的流程示意图；

图3是根据本申请实施例的一种可选的训练网络训练方法的流程示意图；

图4是根据本申请实施例的一种可选的智能体与环境交互过程的示意图；

图5是根据本申请实施例的另一种可选的卫星接入选择方法的流程示意图；

图6是根据本申请实施例的一种可选的卫星接入选择装置的结构框图；

图7是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，现有针对多星覆盖接入选择问题采用最广泛的方法是综合加权算法和基于方案理论策略的方法。其中，综合加权算法通常考虑信道带宽、可服务时长、信号强度等多种因素,将各参数综合加权计算作为目标函数进行求解。基于方案理论策略的方法主要有博弈论策略、模糊逻辑策略、基于马尔科夫链模型的强化学习等。然而目前广泛接受的接入策略大多为静态策略，静态策略中状态参数的选择具有较强的主观性，且静态策略无法适应环境的高动态性；另外，随着业务种类和数量的上升，业务的高并发性会导致卫星接入过程计算的复杂度过大、决策时间过长等一系列问题。

因此，根据本申请实施例的一个方面，提供了一种卫星接入选择方法。可选地，在本实施例中，上述卫星接入选择方法可以应用于如图1所示的多星接入选择场景中。低轨卫星网络由多颗低轨卫星组成，终端用户在某一时刻发出接入请求，此时该终端用户可能处于多颗卫星覆盖范围的重叠区域内，因此会有多颗卫星接收到该终端用户的接入请求，如图1所示，其中黑色圆点表示低轨卫星垂直星下点，星形符号表示终端用户。在上述情况下，卫星会先将请求信息转发至地面控制中心，地面控制中心会使用本申请实施例提供的卫星接入选择方法决定卫星最终的接入方式，卫星再根据地面控制中心的指令决定是否接入该终端用户。

图2是根据本申请实施例的一种可选的卫星接入选择方法的流程示意图，此方法运行在上述地面控制中心，在该地面控制中心中可以包括一个或多个智能体，如图2所示，该方法的流程可以应用在该智能体上，可以包括以下步骤：

步骤S201，获取低轨卫星网络中多个低轨卫星的接入请求。

步骤S202，根据接入请求得到当前时刻环境的第一状态参数，其中，第一状态参数用于体现当前时刻低轨卫星网络的状态。

可选地，本申请实施例通过获取当前时刻环境的第一状态参数包括业务优先级、信号强度、卫星覆盖时间和卫星信道利用率了解可接入的低轨卫星的状态，训练网络基于上述状态参数进行模型训练。

步骤S203，将第一状态参数输入目标网络，得到低轨卫星网络的最终接入方式，其中，目标网络用于从多个低轨卫星中选取出目标卫星作为接入卫星，目标网络是通过对训练网络的模型参数进行调整后得到的。

图3是根据本申请实施例的一种可选的训练网络训练方法的流程示意图，可以包括以下步骤：

步骤S301，根据第一状态参数确定参考动作以及奖励函数，其中，参考动作用于初步指导卫星的接入。

可选地，在本申请实施例中，将参考动作、奖励函数与低轨卫星网络的第一状态参数关联，参考动作与奖励函数能够随着低轨卫星网络状态的改变而改变，实现了训练网络与环境的动态交互，使模型训练过程更加智能、准确。

步骤S302，将参考动作发送至低轨卫星网络，并获取下一时刻环境的第二状态参数。

步骤S303，将第一状态参数、参考动作、奖励函数和第二状态参数作为一个训练样本进行存储。

可选地，设置经验回放池用于存储训练样本，该训练样本包含过往经验，使用训练样本进行模型训练能够让训练网络利用过往经验，对训练网络进行训练选出最优的目标网络。

步骤S304，抽取预设数量的训练样本输入训练网络进行模型训练，生成目标值。

可选地，在抽取预设数量的训练样本时，对经验回放池中存储的训练样本进行均匀采样，采用经验回放策略，能够打破状态之间的相关性，使模型训练结果更加准确。

步骤S305，根据目标值调整训练网络的模型参数，直到基于调整模型参数后的训练网络输出的概率值小于第一预设阈值，则停止模型参数的调整，得到目标网络，其中，目标网络用于确定卫星的最终接入方式。

可选地，通过训练网络输出的概率值预测目标网络，通过目标网络确定卫星最终接入方式，降低了训练网络计算的复杂度，并通过不断调整模型参数选出目标网络，提高低轨卫星网络资源利用率。

作为一种可选实施例，根据接入请求获取当前时刻环境的第一状态参数，包括：

获取当前时刻环境的业务优先级、信号强度、卫星覆盖时间和卫星信道利用率；

对信号强度、卫星覆盖时间和卫星信道利用率进行离散化处理，并将离散化处理后的参数以及业务优先级作为第一状态参数。

可选地，业务优先级表示在真实通信场景下，不同的实时业务对卫星的通信时延、带宽等要求有不同的优先级，可以用P_i表示业务i的优先级，0≤P_i≤top，top表示业务最高优先级。

可选地，信号强度为终端用户收到的信号强度，信号传输过程中受传输环境影响会受到损耗，损耗越大终端用户收到的信号强度越小，用户的信号强度R可以表示为：

R＝P_T+G-L_F-L_P-P_N (1)

其中P_T是卫星的传输功率，G是发射机增益和接收机增益之和，L_F是自由空间传输损耗，L_P是由大气、降雨等引起的其他损耗，P_N是噪声功率，空间传输损耗可以表示为：

L_F＝(4πdf/c)² (2)

其中d为用户与卫星之间的传输距离，f为载波频率，c为光速。

可选地，卫星覆盖时间受到终端用户和低轨卫星相对外置以及低轨卫星运动情况的影响，在真实通信过程中，应偏向接入卫星覆盖时间更长的卫星以保证通信质量，卫星覆盖时间可以表示为：

其中

表示覆盖区域的地心角，T为卫星围绕地球做匀速圆周运动的运动周期。

可选地，卫星信道利用率在于平衡卫星网络的负载，避免出现卫星负载过重的情况，卫星信道利用率M可以表示为：

M＝(N_all-N)/N,N≤N_all (4)

其中N为卫星的空闲信道数，N_all为卫星的全部可用信道数。

可选地，对信号强度、卫星覆盖时间、卫星信道利用率进行离散化处理，并把上述状态信息存入一个状态合集S^t，其中状态合集S^t可以表示为：

S^t＝{P_i,{R₁,T_cover1,M₁},{R₂,T_cover2,M₂},…,{R_k,T_coverk,M_k}} (5)

其中P_i表示某业务的优先级，k表示可接入的服务卫星数量，t表示当前时刻。

作为一种可选实施例，根据第一状态参数确定参考动作以及奖励函数，包括确定参考动作以及生成奖励函数。

1)其中，确定参考动作的步骤如下：

在预设范围中选定一个数设置为参考值；

在预设范围中生成一个随机数，并将随机数与参考值比较；

根据比较结果，用不同方式选择参考动作，其中，当随机数大于参考值时，选择与第一状态参数对应的动作作为参考动作，当随机数小于参考值时，随机选择一个动作作为参考动作。

可选地，可以通过采用贪婪算法(ε-greedy算法)确定参考动作，具体来说，贪婪算法在进行参考动作选择时，首先生成一个[0,1]范围内的随机数，然后将该随机数与设定好的ε值进行比较。若随机数大于ε值则通过训练网络进行动作选择，随机数小于ε值则进行随机选择，从而平衡了利用和探索之间的关系。通过采用贪婪算法，可以同时兼顾利用和探索两种策略，让训练过程更准确。其中，利用策略是指是智能体根据过往经验，选择当前状态下能够获得最大回报的动作；探索策略是指智能体在进行动作选择时，尝试采用以前没有采取过的或者很少采取的动作，让没有被选为最优策略的动作也参与到与环境不断交互的过程中，从而考虑到更多的动作。

可选地，在多星覆盖的场景下，参考动作可以设计为将某终端用户接入候选卫星，动作空间可以表示为：

a^t＝{1,2,…,k} (6)

其中，k表示可接入的服务卫星数量，t表示当前时刻。

2)生成奖励函数的步骤如下：

根据第一状态参数生成对应的效用函数，其中，效用函数用于表征第一状态参数的精确度；

根据效用函数的重要程度设置不同的权重参数；

根据效用函数和权重参数得到奖励函数。

可选地，根据第一状态参数设计相应的效用函数能够使目标网络的选择更加精确。包括生成业务优先级效用函数、信号强度效用函数、卫星覆盖时间效用函数以及卫星信道利用率效用函数。

可选地，业务优先级效用函数可以采用反比例函数或者指数函数表示对业务优先级的划分，反比例函数适用于用户对高优先级敏感的情况；而指数函数适用于优先级划分较多，且对优先级的要求差距不大的情况。本申请实施例以指数函数来表示业务优先级的效用函数为：

其中P_top表示最高业务优先级，Pi是业务i的优先级。

可选地，信号强度效用函数可以表示为：

U_r＝R_i/R_max,R_i≤R_max (8)

其中，R_i表示某次接入时的信号接收强度，R_max为某次接入时服务卫星集合中信号强度的最大值。信号接收强度越强反映信道通信质量越强，因此终端用户会偏向接入信号强度效用函数大的卫星。

可选地，卫星覆盖时间效用函数可以表示为

其中μ₂为归一化参数，T_max为卫星的最长覆盖时间，T_a为某次接入时的卫星覆盖时间。通信过程中应尽量减少服务卫星的切换次数，避免因切换卫星导通信卡顿。

可选地，卫星信道利用率效用函数可表示为：

U_u＝1/M (10)

其中，M为卫星信道利用率。终端用户应避免接入信道利用率过高的卫星，避免因卫星负载严重影响通信质量。

可选地，奖励函数可以设计为上述单项效用函数按各自权重的加权和，奖励函数可表示为：

r(s,a)＝ω_p*U_p+ω_r*U_r+ω_t*U_t*ω_u*U_u (11)

其中，U_p、U_r、U_t和U_u分别为上述各效用函数，ω_p、ω_r、ω_t和ω_u分别对应各效用函数的权重。各参数对应的权重可以使用层次分析法计算出来。

作为一种可选实施例，根据目标值调整训练网络的模型参数，直到基于调整模型参数后的训练网络输出的概率值小于第一预设阈值，则停止模型参数的调整，得到目标网络，包括：

设定第一预设阈值；

根据训练网络的模型参数，生成对应的训练网络输出的概率值；

将概率值与第一预设阈值比较，其中，当概率值大于第一预设阈值时，更新训练网络参数并从根据训练网络的模型参数，生成对应的训练网络输出的概率值开始执行后续步骤，当概率值小于第一预设阈值，停止更新训练网络参数，并根据此时训练网络参数确定目标网络。

可选地，可以通过梯度下降算法更新训练网络参数，并结合模拟退火算法更好地逼近最优值。

作为一种可选实施例，根据目标值调整训练网络的模型参数，包括：

设定第二预设阈值；

将调整训练网络的模型参数的次数与第二预设阈值比较，其中，当调整训练网络的模型参数的次数超过第二预设阈值时，停止模型参数的调整，重新执行步骤S301至步骤S305。

通过本实施例提供的方法，能够避免训练网络在训练方向错误的情况下仍进行重复错误训练，进而提高算法的效率，减少模型训练的时间。

作为一种可选实施例，在步骤S202之前，包括：

初始化训练网络和训练样本；

设置相关参数，其中，相关参数用于训练网络的模型训练过程。

可选地，初始化训练网络包括初始化训练网络的参数以及经验回放池中的训练样品，设置相关参数例如学习速率α、折扣率γ、动作选择策略中的ε值等，并设置上述的第一预设阈值与第二预设阈值。

图4是根据本申请实施例的一种可选的智能体与环境交互过程的示意图，本实施例主要涉及一种卫星接入选择方法，该方法基于深度Q学习算法(DQN算法)，DQN算法结合了深度学习和传统Q学习方法，使用深度神经网络来逼近传统Q学习中的Q值函数，并通过最小化损失函数来训练神经网络。通过在地面控制中心设置DQN智能体执行训练操作。

传统Q学习方法中，用于传统Q学习的智能体无法提前获取系统状态变化的概率，因此该智能体需要通过与环境不断交互和探索来完成学习过程，在学习过程中通过不断优化Q值函数找出最优接入策略，其中传统Q学习中的值函数为：

Q^t+1(s,a)＝(1-α)Q^t(s,a)+α[R^t+γmax_b∈AQ^t(s′,a′)] (12)

其中Q(s,a)是关于状态-动作对的值函数，s表示当前状态，a是与当前状态对应的动作；s′表示下一状态，a′是与下一状态对应的动作，A是下一状态的所有动作集合，Q^t表示当前时刻的值函数，Q^t+1表示下一时刻更新后的值函数，R^t表示选择某动作后即时的奖励函数值，α代表学习速率，γ是折扣率。学习速率α可以有效地反映出前期训练结果对更新结果的影响，折扣率γ用于将未来回报折现到当前回报的计算中。γ越大，表示Q值表的更新更依赖于过往经验；γ越小，表示Q值表的更新更依赖于即时的奖励函数值R^t。

DQN算法在传统Q学习的基础上将深度神经网络参数θ引入Q值函数中，用Q(s,a；θ)表示当前训练神经网络给出的近似的Q值函数。引入神经网络参数θ后，DQN算法的损失函数可表示为：

其中k表示迭代次数，

表示深度Q学习网络的目标值，

表示目标网络的深度神经网络参数，θ_k表示训练网络的深度神经网络参数。公式中用(s,a,r,s′)～U(D)表示对经验回放池D中存储的所有训练样本U(D)随机均匀采样，在学习过程中，通过上述随机均匀采样的方法能够打破不同训练样本之间的相关性，对神经网络进行更准确地训练。

与传统的Q学习算法相比，DQN算法通过更新深度神经网络的参数θ更新值函数，而不是通过传统的Q值表。

可选地，可以釆用梯度下降算法来更新深度神经网络的参数θ，更新公式为：

其中

表示对θ梯度，θ_t表示当前时刻的深度神经网络参数，θ_t+1表示下一时刻更新后的深度神经网络参数，为了更好的逼近最优值还可以采用模拟退火算法不断逼近最优的θ值。

如图4所示，DQN智能体包括训练网络、目标网络、经验回放池，DQN通过损失函数进行训练操作，DQN智能体与环境的交互过程包括:

训练网络从环境中获取状态参数s，并向环境返回对应参考动作argmax_aQ(s,a；θ)，更新环境状态，并将上述状态参数s、参考动作a、奖励函数r以及下一时刻环境的状态参数s′作为一个训练样本存储在经验回放池。

DQN智能体从经验回放池随机均匀抽取训练样本(s,a,r,s′),其中训练网络通过(s,a)并结合深度神经网络的参数θ输出Q值函数Q(s,a；θ)，目标网络通过s′并结合深度神经网络的参数θ输出max_a′Q(s′,a′；θ^-)，通过上述的Q(s,a；θ)、max_a′Q(s′,a′；θ^-)和奖励函数r得出DQN损失函数。

通过梯度下降算法更新训练网络参数，进而更新最小化损失函数，结合模拟退火算法最小化损失函数选出最优的接入策略，完成DQN智能体与环境的交互。

本申请实施例采用深度Q学习算法(DQN算法)，使接入策略能够适应环境的动态变化，可以根据环境的变化进行自我调整，提高星上资源利用率，减少业务拥塞情况；另外本方法通过引入深度学习解决了传统Q学习方法中，当状态空间和动作集合变大情况下，Q值表维护和计算复杂的问题，降低了卫星接入选择方法的计算复杂度。

图5是根据本申请实施例的另一种可选的卫星接入选择方法的流程示意图，该卫星接入选择方法是基于图4所示的DQN智能体与环境交互过程设计的，该卫星接入选择方法的步骤包括：

步骤S1：初始化环境状态，以及DQN智能体中各训练参数。

可选地，初始化经验回放池D和目标网络的参数θ^-，并随机初始化训练网络的参数θ，使θ^-＝θ。设置目标网络参数的更新间隔为C、学习速率α、折扣率γ和动作选择策略中的ε值。

步骤S2：获取实时环境状态参数，并根据请求信息对各状态参数进行离散化处理。

步骤S3：根据贪婪策略选择动作。

可选地，DQN智能体使用贪婪策略(ε-greedy策略)为终端用户选择一个卫星接入，其中，DQN智能体对比生成的随机数和预先设定的ε值，若随机数大于ε值，则通过智能体执行动作选择；若随机数小于ε值，则进行随机选择。

步骤S4：执行动作、计算奖励函数值，更新环境状态，将数据同步至经验回放池。

可选地，上述数据包括s,a,r,s′。

步骤S5：从经验回放池中抽取样本，使用梯度下降法更新训练网络参数，定期更新目标网络参数。

可选地，当对训练网络的更新次数达到C时，令此时的目标网络参数θ^-等于此时的训练网络参数θ。

步骤S6：判断模型是否收敛，其中，若模型是收敛的，智能体执行步骤S7，若模型不是收敛的，则重复步骤S2至步骤S5，继续训练过程。

步骤S7：结束训练过程，对后续的接入请求直接使用训练完成的网络预测Q值，完成接入选择过程。

本发明提供的基于深度强化学习的低轨卫星智能接入选择方法，通过智能体与环境的动态交互，使接入决策过程更加智能、精确，通过上述方法选出的卫星接入策略能够降低通信业务阻塞发生的频率，避免服务卫星的频繁切换，进而提高星上资源的利用率。此外，DQN算法通过用神经网络直接预测Q值，降低了卫星接入选择方法的计算复杂度。

根据本申请实施例的另一个方面，还提供了一种用于实施上述卫星接入选择方法的卫星接入选择装置。图6是根据本申请实施例的一种可选的卫星接入选择装置的结构框图，如图6所示，该装置可以包括：

获取单元601，用于获取低轨卫星网络中多个低轨卫星的接入请求；

第一得到单元602，用于根据接入请求得到当前时刻环境的第一状态参数，其中，第一状态参数用于体现当前时刻低轨卫星网络的状态；

第二得到单元603，用于将第一状态参数输入目标网络，得到低轨卫星网络的最终接入方式，其中，目标网络用于从多个低轨卫星中选取出目标卫星作为接入卫星，目标网络是通过对训练网络的模型参数进行调整后得到的。

可选地，第一得到单元包括：

第一获取模块，用于获取当前时刻环境的业务优先级、信号强度、卫星覆盖时间和卫星信道利用率；

处理模块，用于对信号强度、卫星覆盖时间和卫星信道利用率进行离散化处理，并将离散化处理后的参数以及业务优先级作为第一状态参数。

初始化模块，用于初始化训练网络和训练样本；

设置模块，用于设置相关参数，其中，相关参数用于训练网络的模型训练过程。

可选地，第二得到单元包括：

确定模块，用于根据第一状态参数确定参考动作以及奖励函数，其中，参考动作用于初步指导低轨卫星的接入；

第二获取模块，用于将参考动作发送至低轨卫星网络，并获取下一时刻环境的第二状态参数；

存储模块，用于将第一状态参数、参考动作、奖励函数和第二状态参数作为一个训练样本进行存储；

训练模块，用于抽取预设数量的训练样本输入训练网络进行模型训练，生成目标值；

停止模块，用于根据目标值调整训练网络的模型参数，直到基于调整模型参数后的训练网络输出的概率值小于第一预设阈值，则停止模型参数的调整，得到目标网络，其中，目标网络用于确定卫星的最终接入方式。

可选地，确定模块包括：

第一确定子单元，用于根据第一状态参数确定参考动作；

第二确定子单元，用于根据第一状态参数确定奖励函数；

可选地，第一确定子单元包括：

预设子模块，用于预设一个预设范围；

选取子模块，用于在预设范围中选定一个数设置为参考值；

第一生成子模块，用于在预设范围中生成一个随机数；

第一比较子模块，用于将随机数与参考值比较；

选择子模块，用于根据比较结果，用不同方式选择参考动作，其中，当随机数大于参考值时，选择与第一状态参数对应的动作作为参考动作，当随机数小于参考值时，随机选择一个动作作为参考动作。

可选地，第二确定子单元包括：

第二生成子模块，用于根据第一状态参数生成对应的效用函数，其中，效用函数用于表征第一状态参数的精确度；

设置子模块，用于根据效用函数的重要程度设置不同的权重参数；

得到子模块，用于根据效用函数和权重参数得到奖励函数。

可选地，停止模块包括：

第一停止子单元，用于根据训练网络输出的概率值决定是否停止更新训练网络参数；

第二停止子单元，用于根据调整训练网络的模型参数的次数决定是否停止更新训练网络参数；

可选地，第一停止子单元包括：

第一设定子模块，用于设定第一预设阈值；

第三生成子模块，用于根据训练网络的模型参数，生成对应的训练网络输出的概率值；

第二比较子模块，用于将概率值与第一预设阈值比较，其中，当概率值大于第一预设阈值时，更新训练网络参数并从上述根据训练网络的模型参数，生成对应的训练网络输出的概率值开始执行后续步骤，当概率值小于第一预设阈值，停止更新训练网络参数，并根据此时训练网络参数确定目标网络。

可选地，第二停止子单元包括：

第二设定子模块，用于设定第二预设阈值；

第三比较子模块，用于将调整训练网络的模型参数的次数与第二预设阈值比较，其中，当调整训练网络的模型参数的次数超过第二预设阈值时，停止模型参数的调整，从上述根据接入请求获取当前时刻环境的第一状态参数开始执行后续操作。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

图7是根据本申请实施例的一种可选的电子设备的结构框图，如图7所示，包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信，其中，

存储器703，用于存储计算机程序；

处理器701，用于执行存储器703上所存放的计算机程序时，实现应卫星接入选择方法步骤。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，如图7所示，上述存储器703中可以但不限于包括上述卫星接入选择装置中的获取单元601、第一得到单元602、第二得到单元603。此外，还可以包括但不限于上述卫星接入选择装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图7所示的结构仅为示意，实施上述卫星接入选择方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子设备的结构造成限定。例如，终端设备还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于存储用于卫星接入选择的程序以及产生的数据。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。

Claims

1.一种卫星接入选择方法，其特征在于，所述方法包括：

获取低轨卫星网络中多个低轨卫星的接入请求；

2.根据权利要求1所述的卫星接入选择方法，其特征在于，在所述将所述第一状态参数输入目标网络，得到所述低轨卫星网络的最终接入方式之前，所述方法还包括：

根据所述第一状态参数确定参考动作以及奖励函数，其中，所述参考动作用于初步指导卫星的接入；

将所述参考动作发送至所述低轨卫星网络，并获取下一时刻环境的第二状态参数；

将所述第一状态参数、所述参考动作、所述奖励函数和所述第二状态参数作为一个训练样本进行存储；

抽取预设数量的所述训练样本输入训练网络进行模型训练，生成目标值；

根据所述目标值调整所述训练网络的模型参数，直到基于调整所述模型参数后的训练网络输出的概率值小于第一预设阈值，则停止所述模型参数的调整，得到所述目标网络。

3.根据权利要求1所述的卫星接入选择方法，其特征在于，所述根据所述接入请求获取当前时刻环境的第一状态参数，包括：

获取所述当前时刻环境的业务优先级、信号强度、卫星覆盖时间和卫星信道利用率；

对所述信号强度、所述卫星覆盖时间和所述卫星信道利用率进行离散化处理，并将离散化处理后的参数以及所述业务优先级作为所述第一状态参数。

4.根据权利要求2所述的卫星接入选择方法，其特征在于，所述根据所述第一状态参数确定参考动作以及奖励函数，包括：

在预设范围中选定一个数设置为参考值；

在预设范围中生成一个随机数，并将所述随机数与所述参考值比较；

根据比较结果，用不同方式选择参考动作，其中，当所述随机数大于所述参考值时，选择与所述第一状态参数对应的动作作为所述参考动作，当所述随机数小于所述参考值时，随机选择一个动作作为所述参考动作。

5.根据权利要求2所述的卫星接入选择方法，其特征在于，所述根据所述第一状态参数确定参考动作以及奖励函数，包括：

根据所述第一状态参数生成对应的效用函数，其中，所述效用函数用于表征所述第一状态参数的精确度；

根据所述效用函数的重要程度设置不同的权重参数；

根据所述效用函数和所述权重参数得到所述奖励函数。

6.根据权利要求2所述的卫星接入选择方法，其特征在于，所述根据所述目标值调整所述训练网络的模型参数，直到基于调整所述模型参数后的训练网络输出的概率值小于第一预设阈值，则停止所述模型参数的调整，得到目标网络，包括：

设定所述第一预设阈值；

根据所述训练网络的模型参数，生成对应的所述训练网络输出的概率值；

将所述概率值与所述第一预设阈值比较，其中，当所述概率值大于所述第一预设阈值时，更新所述训练网络参数并从根据所述训练网络的模型参数，生成对应的所述训练网络输出的概率值开始执行后续步骤，当所述概率值小于所述第一预设阈值，停止更新所述训练网络参数，并根据此时训练网络参数确定所述目标网络。

7.根据权利要求2所述的卫星接入选择方法，其特征在于，所述根据所述目标值调整所述训练网络的模型参数，包括：

设定第二预设阈值；

将所述调整所述训练网络的模型参数的次数与所述第二预设阈值比较，其中，当所述调整所述训练网络的模型参数的次数超过所述第二预设阈值时，停止所述模型参数的调整，执行根据所述接入请求获取当前时刻环境的第一状态参数。

8.根据权利要求1所述的卫星接入选择方法，其特征在于，在所述根据所述接入请求得到当前时刻环境的第一状态参数之前，所述方法还包括：

初始化所述训练网络和训练样本；

设置相关参数，其中，所述相关参数用于所述训练网络的模型训练过程。

9.一种卫星接入选择装置，其特征在于，包括：

10.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至8中任一项中所述的方法步骤。

11.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至8中任一项中所述的方法步骤。