CN111835407A

CN111835407A - 一种低轨卫星网络流量优化方法和装置

Info

Publication number: CN111835407A
Application number: CN202010659543.XA
Authority: CN
Inventors: 姚海鹏; 秦泽宇; 李韵聪
Original assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Tibet Gaochi Science And Technology Information Industry Group Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2020-10-27
Anticipated expiration: 2040-07-09
Also published as: CN111835407B

Abstract

本发明提供了一种低轨卫星网络流量优化方法和装置，涉及卫星通信的技术领域，包括：获取步骤，利用目标低轨卫星的确定性策略网络采集当前环境观察数据，并确定出确定性策略网络的奖励；确定步骤，基于当前环境观察数据，确定目标低轨卫星的执行动作，并获取目标低轨卫星在执行完成执行动作之后采集到的目标环境观察数据；构建步骤，利用当前环境观察数据、执行动作、目标环境观察数据和确定性策略网络的奖励，构建数据库；优化步骤，利用地面站的Q网络调用数据库中的目标数据，以使地面站的Q网络利用目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，解决了现有的低轨卫星网络流量优化方法存在优化能力较弱且适用性较差的技术问题。

Description

一种低轨卫星网络流量优化方法和装置

技术领域

本发明涉及卫星通信的技术领域，尤其是涉及一种低轨卫星网络流量优化方法和装置。

背景技术

现有技术中一般通过以下两种方法对低轨卫星网络流量进行优化。

弹性负载均衡(Elastic Load Balance，ELB)是将访问流量根据转发策略分发到后端多台弹性云服务器的流量分发控制服务，可以通过流量分发扩展应用系统对外的服务能力，提高应用程序的容错能力。弹性负载均衡器接受来自客户端的传入流量并将请求转发到一个或多个可用区中的后端服务器。

HGL(hybrid global-local load balancing routing)：HGL算法认为卫星网络的流量分为可预测的大尺度流量和不可预测的小尺度流量波动。HGL首先根据全网链路状态信息库，以最小化网络链路代价为目标初步规划负载均衡路由算法。之后，HGL算法根据全球试试流量进行局部路由调整。

但是，ELB的缺点为：只能在一跳范围内进行分流，并且只有在网络已经处于繁忙的时候才能进行通告，因此解决网络的拥塞能力有限。

HGL的缺点为：建立在全球流量基本静态这一假设前提下，HGL算法不适用于大尺度动态流量变化环境。

针对上述问题，还未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种低轨卫星网络流量优化方法和装置，以缓解了现有的低轨卫星网络流量优化方法存在优化能力较弱且适用性较差的技术问题。

第一方面，本发明实施例提供了一种低轨卫星网络流量优化方法，包括：获取步骤，利用确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；确定步骤，基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；构建步骤，利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；优化步骤，利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

进一步地，利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库，包括：判断所述目标低轨卫星在执行完成执行动作之后生成的episode的长度是否大于预设长度；若是，利用所述当前环境观察数据、所述目标环境观察数据、所述确定性策略网络的奖励、所述目标低轨卫星的执行动作，构建数据库。

进一步地，所述方法还包括：若否，则重复执行所述获取步骤和所述确定步骤，直至所述目标低轨卫星在执行完成执行动作之后生成的episode的长度大于预设长度。

进一步地，在利用确定性策略网络采集当前环境观察数据之前，所述方法还包括：对低轨卫星网络系统的参数进行初始化，其中，所述参数包括：低轨卫星网络系统中用于处理所述流量数据的低轨卫星数量，目标低轨卫星之间的链路连接关系，目标低轨卫星之间的链路带宽。

进一步地，利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，包括：利用所述目标数据对所述Q网络进行训练，并判断所述训练次数是否小于预设次数；若是，则重复执行步骤所述获取步骤，所述确定步骤，所述构建步骤和所述优化步骤，直至所述训练次数大于或等于所述预设次数。

进一步地，所述方法还包括：如所述训练次数大于或等于所述预设次数，则将训练次数大于或等于所述预设次数的Q网络确定为所述完成训练的Q网络。

进一步地，在利用完成训练的Q网络生成流量优化策略之后，所述方法还包括：将所述低轨卫星网络系统中负载最高的链路的链路剩余率确定为剩余低轨卫星的奖励，其中，所述剩余低轨卫星为所述低轨卫星网络系统中除所述目标低轨卫星以外的低轨卫星。

第二方面，本发明实施例还提供了一种低轨卫星网络流量优化装置，包括：获取单元，确定单元，构建单元和优化单元，其中，获取单元，用于利用确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；确定单元，用于基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；构建单元，用于利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；优化单元，用于利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

第三方面，本发明实施例提供了一种终端，包括存储器以及处理器，所述存储器用于存储支持处理器执行上述第一方面中所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述第一方面中所述方法的步骤。

在本发明实施例中，首先，利用确定性策略网络采集当前环境观察数据，并确定出确定性策略网络的奖励，其中，环境观察数据包括：目标低轨卫星相邻链路的预设数量个episode历史利用率，目标低轨卫星相邻链路的当前episode利用率，目标低轨卫星的流量数据队列，目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星，然后，基于当前环境观察数据，确定目标低轨卫星的执行动作，并获取目标低轨卫星在执行完成执行动作之后采集到的目标环境观察数据，接着，利用当前环境观察数据、执行动作、目标环境观察数据和确定性策略网络的奖励，构建数据库，最后，利用地面站的Q网络调用数据库中的目标数据，以使地面站的Q网络利用目标数据进行训练，并利用完成训练的Q网络生成流量优化策略。

在本发明实施例中，由于现有技术中，ELB只能在一跳范围内进行分流，并且只有在网络已经处于繁忙的时候才能进行通告，因此解决网络的拥塞能力有限，而HGL是建立在全球流量基本静态这一假设前提下，HGL算法不适用于大尺度动态流量变化环境，本申请，多智能体深度强化学习算法来搜索最佳策略。算法包含两个主要部分，其一是设置在低轨卫星中的确定性策略网络(actor)，其二是设置在地面站Q网络(critic)，采取分布执行，集中训练的框架，不同于单agent的DDPG算法(深度强化学习算法)，本申请中critic的输入包含了所有agent的动作信息，因此可以，达到了更加稳定更加快速的收敛到更佳状态的目的，进而解决了现有的低轨卫星网络流量优化方法存在优化能力较弱且适用性较差的技术问题，从而实现了提升网络流量的优化效果和适用性的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种低轨卫星网络流量优化方法的流程图；

图2为本发明实施例提供的一种低轨卫星网络流量优化装置的示意图；

图3为本发明实施例提供的一种服务器的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

根据本发明实施例，提供了一种低轨卫星网络流量优化方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种低轨卫星网络流量优化方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取步骤，利用目标低轨卫星的确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；

步骤S104，确定步骤，基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；

步骤S106，构建步骤，利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；

步骤S108，优化步骤，利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

需要说明的是，Q网络可以通过对目标数据进行评分，若该评分为小于预设阈值，则确定该目标数据中的执行动作为较差的动作，从而生成的流量优化策略将指示低轨卫星的确定性策略网络降低该执行动作的执行概率，若该评分为大于或等于预设阈值，则确定该目标数据中的执行动作为较好的动作，从而生成的流量优化策略将指示低轨卫星的确定性策略网络提高该执行动作的执行概率，从而使得卫星网络系统能够更好的对低轨卫星网络流量进行处理。

在本申请中，一个软件定义的低轨卫星网络系统，分为控制面和数据面，数据面由LEO(低轨道卫星)组成，LEO之间通过无线链路相互连接，并有数据在上面传输。控制面由地面控制站组成，构成一个逻辑上集中，物理上分布的集中控制系统。地面控制站通过无线链路与LEO进行通信以发送控制指令、接收LEO发来的信息并返回处理结果等。

本技术采用多智能体深度强化学习算法来搜索最佳策略。算法包含两个主要部分，其一是设置在每个低轨卫星中的确定性策略网络(actor)，其二是设置在地面站的Q网络(critic)。本算法采取分布执行，集中训练的框架，不同于单agent的DDPG算法(深度强化学习算法)，本算法中critic的输入包含了所有agent的动作信息，因此可以更加稳定更加快速的收敛到更佳状态。

其中，agent是根据某个策略执行一系列action到结束就是一个episode默认的“episode”是增强学习agent在环境里面执行某个策略从开始到结束这一过程。

在本发明实施例中，确定性策略网络用于采集来自环境的当前观察信息并确定出执行动作，即确定将到来的流量如何分配到与自己相邻的链路上，然后，Q网络根据目标数据对确定性策略网络的决策进行评价，指导确定性策略网络对策略进行更好的更新，从而使较好的动作的执行概率增加，较差的动作的执行概率降低。

另外，还需要说明的是，在执行步骤S102之前，还包括如下步骤：

步骤S101，对低轨卫星网络系统的参数进行初始化，其中，所述参数包括：低轨卫星网络系统中用于处理所述流量数据的低轨卫星数量，目标低轨卫星之间的链路连接关系，目标低轨卫星之间的链路带宽。

在本发明实施例中，步骤S106还包括如下步骤：

步骤S11，判断所述目标低轨卫星在执行完成执行动作之后生成的episode的长度是否大于预设长度；

步骤S12，若是，利用所述当前环境观察数据、所述目标环境观察数据、所述确定性策略网络的奖励、所述目标低轨卫星的执行动作，构建数据库；

步骤S13，若否，则重复执行所述获取步骤和所述确定步骤，直至所述目标低轨卫星在执行完成执行动作之后生成的episode的长度大于预设长度。

在本发明实施例中，为了提高低轨卫星网络流量策略的优化效率，因此，需要选择合适的数据对流量策略进行优化。

具体的，在获取到目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据之后，首先，判断目标低轨卫星在执行完成执行动作之后生成的episode的长度是否大于预设长度；

如果是，那么就利用当前环境观察数据、目标环境观察数据、确定性策略网络的奖励、目标低轨卫星的执行动作，构建数据库。

如果否，那么则重复执行获取步骤和确定步骤，直至目标低轨卫星在执行完成执行动作之后生成的episode的长度大于预设长度。

通过上述步骤，能够筛选出适合Q网络使用的数据，从而能够提高低轨卫星网络流量策略的优化效率。

在本发明实施例中，步骤S108还包括如下步骤：

步骤S21，利用所述目标数据对所述Q网络进行训练，并判断所述训练次数是否小于预设次数；

步骤S22，若是，则重复执行步骤所述获取步骤，所述确定步骤，所述构建步骤和所述优化步骤，直至所述训练次数大于或等于所述预设次数，得到完成训练的Q网络；

步骤S23，如所述训练次数大于或等于所述预设次数，则将训练次数大于或等于所述预设次数的Q网络确定为所述完成训练的Q网络。

在本发明实施例中，为了提高Q网络生成的流量优化策略的优化效果，需要对Q网络进行迭代训练。

具体的，首先，利用所述目标数据对所述Q网络进行训练，并判断所述训练次数是否小于预设次数；

如果是，则重复执行步骤所述获取步骤，所述确定步骤，所述构建步骤和所述优化步骤，直至所述训练次数大于或等于所述预设次数，得到完成训练的Q网络；

如果训练次数大于或等于所述预设次数，则将训练次数大于或等于所述预设次数的Q网络确定为所述完成训练的Q网络。

最后，通过完成训练的Q网络生成流量优化策略，需要说明的是，Q网络在每次训练之后均会生成一个流量优化策略，并将该流量优化策略发送给确定性策略网络，以使确定性策略网络根据流量优化策略进行优化。

因此，在训练过程中Q网络和确定性策略网络均是在进行更新的，从而使得卫星网络系统能够更加稳定更加快速的收敛到更佳状态。

另外，还需要说明的是，在生成流量优化策略之后，可以将低轨卫星网络系统中负载最高的链路的链路剩余率确定为剩余低轨卫星的奖励，其中，剩余低轨卫星为所述低轨卫星网络系统中除目标低轨卫星以外的低轨卫星。

实施例二：

本发明实施例还提供了一种低轨卫星网络流量优化装置，该轨卫星网络流量优化装置用于执行本发明实施例上述内容所提供的轨卫星网络流量优化方法，以下是本发明实施例提供的轨卫星网络流量优化装置的具体介绍。

如图2所示，图2为上述轨卫星网络流量优化装置的示意图，该轨卫星网络流量优化包括：获取单元10，确定单元20，构建单元30和优化单元40。

获取单元10，用于利用确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；

确定单元20，用于基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；

构建单元30，用于利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；

优化单元40，用于利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

优选地，构建单元用于，判断所述目标低轨卫星在执行完成执行动作之后生成的episode的长度是否大于预设长度；若是，利用所述当前环境观察数据、所述目标环境观察数据、所述确定性策略网络的奖励、所述目标低轨卫星的执行动作，构建数据库。

优选地，构建单元，还用于若否，则重复执行所述获取步骤和所述确定步骤，直至所述目标低轨卫星在执行完成执行动作之后生成的episode的长度大于预设长度。

优选地，所述装置还包括：初始化单元，用于对低轨卫星网络系统的参数进行初始化，其中，所述参数包括：低轨卫星网络系统中用于处理所述流量数据的低轨卫星数量，目标低轨卫星之间的链路连接关系，目标低轨卫星之间的链路带宽。

优选地，所述训练单元用于利用所述目标数据对所述Q网络进行训练，并判断所述训练次数是否小于预设次数；若是，则重复执行步骤所述获取步骤，所述确定步骤，所述构建步骤和所述优化步骤，直至所述训练次数大于或等于所述预设次数，得到完成训练的Q网络。

优选地，所述训练单元还用于如所述训练次数大于或等于所述预设次数，则将训练次数大于或等于所述预设次数的Q网络确定为所述完成训练的Q网络。

优选地，所述装置还包括：奖励确定单元，将所述低轨卫星网络系统中负载最高的链路的链路剩余率确定为剩余低轨卫星的奖励，其中，所述剩余低轨卫星为所述低轨卫星网络系统中除所述目标低轨卫星以外的低轨卫星。

实施例三：

本发明实施例提供的一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例一中的低轨卫星网络流量优化方法。

参见图3，本发明实施例还提供一种服务器100，包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

实施例四：

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例一中所述方法的步骤。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种低轨卫星网络流量优化方法，其特征在于，包括：

获取步骤，利用目标低轨卫星的确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；

确定步骤，基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；

构建步骤，利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；

优化步骤，利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

2.根据权利要求1所述的方法，其特征在于，利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库，包括：

判断所述目标低轨卫星在执行完成执行动作之后生成的episode的长度是否大于预设长度；

若是，利用所述当前环境观察数据、所述目标环境观察数据、所述确定性策略网络的奖励、所述目标低轨卫星的执行动作，构建数据库。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若否，则重复执行所述获取步骤和所述确定步骤，直至所述目标低轨卫星在执行完成执行动作之后生成的episode的长度大于预设长度。

4.根据权利要求3所述的方法，其特征在于，在利用目标低轨卫星的确定性策略网络采集当前环境观察数据之前，所述方法还包括：

对低轨卫星网络系统的参数进行初始化，其中，所述参数包括：低轨卫星网络系统中用于处理所述流量数据的低轨卫星数量，目标低轨卫星之间的链路连接关系，目标低轨卫星之间的链路带宽。

5.根据权利要求4所述的方法，其特征在于，利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，包括：

利用所述目标数据对所述Q网络进行训练，并判断训练次数是否小于预设次数；

若是，则重复执行步骤所述获取步骤，所述确定步骤，所述构建步骤和所述优化步骤，直至所述训练次数大于或等于所述预设次数，得到完成训练的Q网络。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

如所述训练次数大于或等于所述预设次数，则将训练次数大于或等于所述预设次数的Q网络确定为所述完成训练的Q网络。

7.根据权利要求1所述的方法，其特征在于，在利用完成训练的Q网络生成流量优化策略之后，所述方法还包括：

将所述低轨卫星网络系统中负载最高的链路的链路剩余率确定为剩余低轨卫星的奖励，其中，所述剩余低轨卫星为所述低轨卫星网络系统中除所述目标低轨卫星以外的低轨卫星。

8.一种低轨卫星网络流量优化装置，其特征在于，包括：获取单元，确定单元，构建单元和优化单元，其中，

获取单元，用于利用目标低轨卫星的确定性策略网络采集当前环境观察数据，并确定出所述确定性策略网络的奖励，其中，所述环境观察数据包括：所述目标低轨卫星相邻链路的预设数量个episode历史利用率，所述目标低轨卫星相邻链路的当前episode利用率，所述目标低轨卫星的流量数据队列，所述目标低轨卫星为低轨卫星网络系统用于处理流量数据的低轨卫星；

确定单元，用于基于所述当前环境观察数据，确定所述目标低轨卫星的执行动作，并获取所述目标低轨卫星在执行完成所述执行动作之后采集到的目标环境观察数据；

构建单元，用于利用所述当前环境观察数据、所述执行动作、所述目标环境观察数据和所述确定性策略网络的奖励，构建数据库；

优化单元，用于利用地面站的Q网络调用所述数据库中的目标数据，以使所述地面站的Q网络利用所述目标数据进行训练，并利用完成训练的Q网络生成流量优化策略，其中，所述目标数据为所述数据库中存储的任意一组数据，其中，一组数据中包括：所述当前环境观察数据、所述目标环境观察数据、确定性策略网络的奖励、所述目标低轨卫星的执行动作。

9.一种终端，其特征在于，包括存储器以及处理器，所述存储器用于存储支持处理器执行权利要求1至7任一项所述方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。