CN116827846A

CN116827846A - 路由、路由路径、多播路由路径决策方法及电子设备

Info

Publication number: CN116827846A
Application number: CN202310629706.3A
Authority: CN
Inventors: 王晓湘; 杨佳兴; 彭亮; 魏鹏; 王玉龙
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-09-29

Abstract

本申请提供一种路由、路由路径、多播路由路径决策方法及电子设备。路由决策方法包括获取路由路径决策任务中源节点卫星的第一信息及终点节点卫星的第二信息；确定待决策卫星，将所述待决策卫星的相邻节点卫星作为候选路由节点卫星；获取所述候选路由节点卫星的实时流量负载，以及在未来预设时间步长内的预测流量负载；基于所述实时流量负载、所述预测流量负载、所述第一信息及所述第二信息，利用预先基于马尔可夫决策过程构建的路由决策模型从所述候选路由节点卫星中确定下一路由节点卫星。本申请的路由、路由路径、多播路由路径决策方法及电子设备，能够决策实时性和准确度，从而有效提高数据传输效率。

Description

路由、路由路径、多播路由路径决策方法及电子设备

技术领域

本申请涉及卫星通信技术领域，尤其涉及一种路由、路由路径、多播路由路径决策方法及电子设备。

背景技术

现有卫星网络的路由路径决策通常是在得到卫星网络全局环境信息后，计算得到一条完整的最佳路径，然后再从源节点开始按照计算得到的最佳路径将数据传输到终点节点。这种决策方法在实际应用过程中具有一定的滞后性。卫星网络的各个链路的状态是实时变化的，数据传输时链路的状态与决策时可能已经产生了一定变化，路径上的某些链路可能发生了拥堵，或者某些未被选择的链路由拥堵变为了通畅，这些变化均导致数据传输时的路径已不再是最佳路径，从而影响卫星网络的数据传输效率。

发明内容

有鉴于此，本申请的目的在于提出一种路由、路由路径、多播路由路径决策方法及电子设备，用以提高卫星网络的数据传输效率。

基于上述目的，本申请提供了一种路由决策方法，包括：

获取路由路径决策任务中源节点卫星的第一信息及终点节点卫星的第二信息；

确定待决策卫星，将所述待决策卫星的相邻节点卫星作为候选路由节点卫星；

获取所述候选路由节点卫星的实时流量负载，以及在未来预设时间步长内的预测流量负载；

基于所述实时流量负载、所述预测流量负载、所述第一信息及所述第二信息，利用预先基于马尔可夫决策过程构建的路由决策模型从所述候选路由节点卫星中确定下一路由节点卫星。

进一步地，所述获取所述候选路由节点卫星在未来预设时间步长内的预测流量负载，包括：

获取卫星网络的网络拓扑信息及各节点卫星的链路状态信息；

基于各节点卫星的链路状态信息及所述网络拓扑信息，利用预先构建的流量预测模型进行流量预测，得到各节点卫星的预测流量负载。

进一步地，所述流量预测模型包括图卷积神经网络、门控递归循环神经网络和全连接层；所述基于各节点卫星的链路状态信息及所述网络拓扑信息，利用预先构建的流量预测模型进行流量预测，得到各节点卫星的预测流量负载，包括：

基于各节点卫星的链路状态信息及所述网络拓扑信息，采用所述图卷积神经网络提取得到空间特征；

基于所述空间特征，采用所述门控递归循环神经网络提取得到时间特征，并利用所述门控递归循环神经网络将所述空间特征和所述时间特征进行融合得到时空特征；

采用注意力机制计算所述时空特征的权重，并基于所述时空特征和其对应的权重通过所述全连接层输出各节点卫星的预测流量负载。

进一步地，所述路由决策模型通过以下步骤构建得到：

定义马尔可夫决策过程的智能体、状态空间、动作空间及奖励策略，得到初始路由决策模型；

基于双深度Q学习算法，构建强化学习网络；

利用所述强化学习网络训练所述初始路由决策模型，直至达到预设条件，得到所述路由决策模型；

其中，所述状态空间由所述实时流量负载、所述预测流量负载、所述第一信息和所述第二信息组成；

所述动作空间为所述智能体根据所述状态空间得到的所有可能动作的集合；

所述奖励策略由卫星网络的链路传输成本及链路状态确定。

进一步地，所述强化学习网络包括值函数网络及目标网络；

所述利用所述强化学习网络训练所述初始路由决策模型包括：

根据所述智能体的当前状态，在所述值函数网络中计算得到当前状态下所有可能执行的动作所对应的值函数Q值；

基于当前状态下所有可能执行的动作所对应的值函数Q值，采用贪婪策略确定当前状态下智能体计划执行的第一目标动作，记录所述第一目标动作对应的值函数Q值；

令所述智能体执行所述第一目标动作，得到下一时刻的状态；

根据所述下一时刻的状态，在所述值函数网络中计算得到所述下一时刻的状态下所有可能动作所对应的值函数Q值，将所述下一时刻的状态下所有可能动作中所对应的值函数Q值中的最大值所对应的动作作为第二目标动作；

基于所述下一时刻的状态及所述第二目标动作，在所述目标网络中计算得到第二目标动作对应的目标Q值；

基于所述目标Q值计算得到价值函数值；

将所述价值函数值作为实际值，所述第一目标动作所对应的值函数Q值作为预测值，进行误差反向传播，完成对所述值函数网络的网络参数的一次更新；

其中，每隔预定时间，将所述目标网络的网络参数调整为与所述值函数网络的网络参数相同。

进一步地，所述链路状态信息包括链路连通性、带宽容量、时延和丢包率；

所述待决策卫星的相邻节点卫星包括所述待决策卫星所处轨道平面内的相邻卫星及所述待决策卫星相邻轨道平面内的与所述待决策卫星的编号相同的卫星。

基于同一发明构思，本申请还提供了一种利用路由决策方法的路由路径决策方法，包括：

确定所述源节点卫星及所述终点节点卫星；

将所述源节点卫星作为所述待决策卫星，利用所述路由决策方法确定所述待决策卫星的下一路由节点卫星，并确定所述待决策卫星的下一路由节点卫星是否为所述终点节点卫星；

响应于确定所述待决策卫星的下一路由节点卫星不是所述终点节点卫星，将所述下一路由节点作为新的待决策卫星，直至利用所述路由决策方法确定的下一路由节点为所述终点节点卫星为止，得到包括所述源节点卫星、全部路由节点卫星和所述终点节点卫星的路由路径。

基于同一发明构思，本申请还提供了一种利用路由决策方法的多播路由路径决策方法，卫星网络包括多个卫星区域，每个卫星区域包括多个卫星，每个卫星区域包括一个主星节点，所述多播路由路径包括第一多播路由路径和第二多播路由路径，所述方法包括：

确定所述路由路径决策任务的源节点卫星及多个终点节点卫星，其中，多个终点节点卫星包括与所述源节点卫星属于同一卫星区域的第一终点节点卫星和/或与所述源节点卫星不属于同一卫星区域的第二终点节点卫星，所述源节点卫星所属卫星区域的主星节点为第一主星节点，所述第二终点节点卫星所属卫星区域的主星节点为第二主星节点；

响应于确定所述终点节点卫星为所述第一终点节点卫星时且所述源节点卫星不为所述第一主星节点，将所述源节点卫星作为所述待决策卫星，利用所述路由决策方法确定所述待决策卫星的下一路由节点卫星，并确定所述待决策卫星的下一路由节点卫星是否为所述第一主星节点；

响应于确定所述待决策卫星的下一路由节点卫星不是所述第一主星节点，将所述下一路由节点作为新的待决策卫星，直至利用所述路由决策方法确定的下一路由节点为所述第一主星节点为止，得到包括所述源节点卫星、全部路由节点卫星和所述第一主星节点的第一路由路径；

将所述第一主星节点作为所述待决策卫星，利用所述路由决策方法确定所述第一主星节点的下一路由节点卫星，并确定所述第一主星节点的下一路由节点卫星是否为所述第一终点节点卫星；

响应于确定所述第一主星节点的下一路由节点卫星不是所述第一终点节点卫星，将所述下一路由节点作为新的待决策卫星，直至利用所述路由决策方法确定的下一路由节点为所述第一终点节点卫星为止，得到包括所述第一主星节点、全部路由节点卫星和所述第一终点节点卫星的第二路由路径；

由所述第一路由路径和所述第二路由路径组成从所述源节点卫星至所述第一终点节点卫星的所述第一多播路由路径；和/或，

响应于确定所述终点节点卫星为所述第二终点节点卫星、所述源节点卫星不为所述第一主星节点以及所述第二终点节点卫星不为所述第二主星节点，将所述源节点卫星作为所述待决策卫星，得到所述第一路由路径；

将所述第一主星节点作为所述待决策卫星，利用所述路由决策方法确定所述第一主星节点的下一路由节点卫星，并确定所述第一主星节点的下一路由节点卫星是否为所述第二主星节点；

响应于确定所述第一主星节点的下一路由节点卫星不是所述第二主星节点，将所述下一路由节点作为新的待决策卫星，直至利用所述路由决策方法确定的下一路由节点为所述第二主星节点为止，得到包括所述第一主星节点、全部路由节点卫星和所述第二主星节点的第三路由路径；

将所述第二主星节点作为所述待决策卫星，利用所述路由决策方法确定所述第二主星节点的下一路由节点卫星，并确定所述第二主星节点的下一路由节点卫星是否为所述第二终点节点卫星；

响应于确定所述第二主星节点的下一路由节点卫星不是所述第二终点节点卫星，将所述下一路由节点作为新的待决策卫星，直至利用所述路由决策方法确定的下一路由节点为所述第二终点节点卫星为止，得到包括所述第二主星节点、全部路由节点卫星和所述第二终点节点卫星的第四路由路径；

由所述第一路由路径、所述第三路由路径、所述第四路由路径组成从所述源节点卫星至所述第二终点节点卫星的所述第二多播路由路径。

进一步地，还包括：

确定待传输数据，按照所述第一路由路径将所述待传输数据从所述源节点卫星传输至所述第一主星节点；

通过所述第一主星节点对所述待传输数据执行第一复制操作，并按照所述第二路由路径和所述第三路由路径将经过所述第一复制操作的待传输数据分发至各所述第一终点节点卫星和所述第二主星节点，其中，所述待传输数据经过所述第一复制操作后的数量等于所述第一终点节点卫星和所述第二主星节点的数量之和；

通过所述第二主星节点对所述待传输数据执行第二复制操作，并按照所述第四路由路径将经过所述第二复制操作的待传输数据分发至各所述第二终点节点卫星，其中，所述待传输数据经过第二复制操作后的数量等于所述第二终点节点卫星的数量。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现一种路由决策方法和/或一种路由路径决策方法和/或一种多播路由路径决策方法。

从上面所述可以看出，本申请提供的路由、路由路径、多播路由路径决策方法及电子设备，将路由路径决策任务中一次即决策出完整路径的过程，替代为路由节点卫星的单步决策，即由路由节点卫星进行决策，且仅决策下一路由节点卫星。在单步决策过程中，路由决策模型进行决策计算时需要实时流量负载，因此当卫星网络的流量负载发生变化时，路由决策模型可及时获取到该变化，并能基于新的信息做出决策确定下一路由节点卫星，使得每次决策出的路由节点卫星均是最优链路，有效改善一次性决策出完整路径的滞后性问题，时效性得到有效保证，从而有效提高数据传输效率；同时本申请的路由决策模型基于马尔可夫决策过程构建，在对路由决策过程进行求解计算时，可以通过与环境的交互来获得反馈回报，从而优化决策，不需要必须获取卫星网络的全局环境信息，可应用于卫星网络环境信息不完整或未知的场景下，应用范围更为广泛。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的路由决策方法示意图；

图2为本申请实施例的图卷积神经网络与门控递归循环神经网络的流程示意图；

图3为本申请实施例的多播路由路径决策方法的流程示意图；

图4为本申请实施例的路由决策装置的示意图；

图5为本申请实施例的电子设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

卫星网络是以人造地球通信卫星为中继站的微波通信系统，是地面微波中继通信的发展和向太空的延伸。天地一体化信息网络通过对空间网络的扩展，现已拥有大规模覆盖范围和丰富的频谱资源，能够准确获取、快速处理和高效传输海量业务信息，其结合了卫星与地面网络的优势，有望提供全球宽带接入，实现无处不在的网络服务。

现有的网络通信模式通常分为单播、多播及广播，单播指对特定的主机进行数据传送，信息的接收和传递只在两个节点之间进行；多播又称组播，指给一组特定的主机(多播组)发送数据，接收信息的节点有多个；广播可以看作是特殊的多播，指针对某一个网络上的所有主机发送数据。多方参与的应用业务都是由多播传输技术支持，数据分发业务可以以具有成本效益的方式交付完成，通过先进的多播路由技术能减少网络中存在的大量流量。卫星多播路由是卫星网络实现数据分发传输和信息互联传递的技术基础。

无论是多播、单播还是广播传输技术，现有卫星网络的路由路径决策通常都是在获取得到卫星网络全局环境信息后进行的，且是一次性计算得到一条完整的最佳路径，然后再从源节点按照计算得到的最佳路径将数据传输到终点节点。虽然传统的基于优化理论的卫星路由算法方法可以在进行大规模计算后获得相对较精确的解，但仍然存在以下问题：

(1)决策前提是必须了解卫星网络所有准确的环境信息，当环境信息获取错误、缺失等时，均会严重影响决策准确度；然而实际上获得真实准确的环境场景信息是非常困难的。

(2)在实际应用过程中具有一定的滞后性。具体而言，卫星网络的各个链路的状态是实时变化的，数据传输时链路的状态与决策时可能已经产生了一定变化，路径上的某些链路可能发生了拥堵，某些未被选择的链路可能由拥堵变化为通畅，导致数据传输时的路径已不再是最佳路径，从而影响卫星网络的数据传输效率。

因此，提高卫星网络中路由决策算法的时效性和准确度，是保证卫星数据传输效率的重要技术手段。

基于上述问题，本申请提供一种路由决策方法，如图1所示，用于卫星网络中的路由路径决策，能有效提高决策时效性和准确度，有效提高数据传输效率，方法具体包括：

S11：获取路由路径决策任务中源节点卫星的第一信息及终点节点卫星的第二信息；

S12：确定待决策卫星，将所述待决策卫星的相邻节点卫星作为候选路由节点卫星；

S13：获取所述候选路由节点卫星的实时流量负载，以及在未来预设时间步长内的预测流量负载；

S14：基于所述实时流量负载、所述预测流量负载、所述第一信息及所述第二信息，利用预先基于马尔可夫决策过程构建的路由决策模型从所述候选路由节点卫星中确定下一路由节点卫星。

在本申请中，将路由路径决策任务中一次性决策出完整路径的过程，替代为路由节点卫星的单步决策，即由路由节点卫星进行决策，且仅决策下一路由节点卫星。在单步决策过程中，路由决策模型进行决策计算时需要实时流量负责，因此当卫星网络的流量负载发生变化时，路由决策模型可及时获取到该变化，并基于实施流量负载做出决策确定下一路由节点卫星，使得每次决策出的路由节点卫星均是最优链路，有效改善一次性决策出完整路径的滞后性问题，时效性得到有效保证，从而有效提高数据传输效率；同时本申请的路由决策模型基于马尔可夫决策过程构建，在对路由决策进行求解计算时，通过与环境的交互来获得反馈回报，从而优化决策，不需要必须获取卫星网络的全局环境信息，可应用于卫星网络环境信息不完整或未知的场景下，应用范围更为广泛。

在一些实施例中，预设时间步长可以为30秒～15分钟，具体地，可以是30秒、1分钟、3分钟、5分钟、8分钟、10分钟、15分钟等；也可以根据实际情况将预设时间步长设置为更长，甚至超过15分钟，也可以设置为更短，甚至短于30秒，用户可以根据实际应用场景及需求进行调整，具体不做限制。

在一些实施例中，第一信息为标志所述源节点卫星所处位置的位置信息；第二信息为标志所述终点节点卫星所处位置的位置信息。具体地，可以是源节点卫星或终点节点卫星的卫星编号，也可以是其他可以表示其位置的信息，具体不做限制。

在一些实施例中，所述卫星网络包括铱星星座网络。本申请可应用于铱星星座网络中进行路由决策。铱星星座网络包含6个轨道平面，轨道倾角为固定的90°，每个轨道平面中等距离间隔部署11颗卫星，整个星座由66颗卫星组成，卫星的轨道高度约为780km。

在一些实施例中，所述获取所述候选路由节点卫星在未来预设时间步长内的预测流量负载，包括：

S131：获取卫星网络的网络拓扑信息及各节点卫星的链路状态信息；

S132：基于各节点卫星的链路状态信息及所述网络拓扑信息，利用预先构建的流量预测模型进行流量预测，得到各节点卫星的预测流量负载。

在卫星网络中，每个节点卫星与同一轨道平面内的相邻两个节点卫星连接构成轨内星间链路，与相邻轨道平面内同编号的两个节点卫星连接构成轨间星间链路。在节点卫星周期性运行过程中，节点卫星在进入到高纬度极地区域时，如南极区域、北极区域，轨间星间链路会发生短暂性的断链，在离开高纬度极地区域之后，又会恢复连接。现有的流量预测技术中，只有在节点卫星进入到高纬度极地区域中实际发生断链后才能捕捉到对应链路的断开，而无法提前预测即将进入高纬度极地区域的卫星或即将离开高纬度极地区域的卫星。

在本申请中，融合网络拓扑信息与各节点卫星的链路状态信息进行流量预测，通过网络拓扑信息来获取即将进入高纬度极地区域的节点卫星信息或即将离开高纬度极地区域的节点卫星信息，使得流量预测模型在进行流量预测时能够捕捉该信息，确保得到的各节点卫星在未来预设时间步长内的预测流量负载更贴近实际情况，从而在路由决策过程中，可以有效避开即将进入高纬度极地区域的节点卫星，以保证数据的正常传输。可选地，可以根据预设周期利用预先构建的流量预测模型进行流量预测，预设周期可以与预设时间步长保持一致。

在一些实施例中，所述流量预测模型包括图卷积神经网络、门控递归循环神经网络和全连接层；步骤S132包括：

S1321：基于各节点卫星的链路状态信息及所述网络拓扑信息，采用所述图卷积神经网络提取得到空间特征；

S1322：基于所述空间特征，采用所述门控递归循环神经网络提取得到时间特征，并利用所述门控递归循环神经网络将所述空间特征和所述时间特征进行融合得到时空特征；

S1323：采用注意力机制计算所述时空特征的权重，并基于所述时空特征和其对应的权重通过所述全连接层输出各节点卫星的预测流量负载。

本申请中，通过图卷积神经网络(GCN)充分提取节点卫星之间的空间特征，然后将空间特征输入门控递归循环神经网络(GRU)，通过门控递归循环神经网络中若干个隐藏层对输入的空间特征进行特征提取，得到时间特征，然后融合空间特征和时间特征得到时空特征。通过注意力机制，计算时空特征的权重，用以过滤无关信息，并强调历史信息的不同重要程度，使得最终经全连接层输出的预测流量负载更为精准。

在一些实施例中，所述流量预测模型为依次连接的多层结构，每一层均包括图卷积神经网络及门控递归循环神经网络，最后一层为全连接层。每一层的图卷积神经网络及门控递归循环神经网络表示为GCN-GRU，图卷积神经网络及门控递归循环神经网络的层级设置及工作流程，可以设置为如图2所示，也可以也可以根据实际情况及具体应用场景进行调整，具体不做限制。

需要说明的是，图2中，t表示时刻，Y_t-2、Y_t-1、Y_t表示对应时刻的时空特征；h_t-2、h_t-1、h_t表示对应时刻的时间特征；X_t-2、X_t-1、X_t表示对应时刻的空间特征，X′_t表示经图卷积神经网络(GCN)进行特征提取得到的新的空间特征，u_t、r_t、c_t为门控递归循环神经网络(GRU)的参数，将空间特征及时间特征输入到门控递归循环神经网络(GRU)中进行特征提取，得到新的时间特征h_t，并将时间特征与空间特征融合得到时空特征Y_t。

在一些实施例中，所述网络拓扑信息通过以下步骤得到：

获取卫星网络的空间拓扑结构；

将所述空间拓扑结构划分为多个预设时间间隔内的静态拓扑，所有静态拓扑组成得到所述网络拓扑信息。

卫星网络的空间拓扑结构实际是一种动态拓扑。为了提高计算效率，将卫星网络的空间拓扑结构转换为静态拓扑，再将静态拓扑输入到流量预测模型进行计算，计算更为简洁，效率更高。

在一些实施例中，所述路由决策模型通过以下步骤构建得到：

S21：定义马尔可夫决策过程的智能体、状态空间、动作空间及奖励策略，得到初始路由决策模型；

S22：基于双深度Q学习算法，构建强化学习网络；

S23：利用所述强化学习网络训练所述初始路由决策模型，直至达到预设条件，得到所述路由决策模型；

所述奖励策略由卫星网络的链路传输成本及链路状态确定。

通过强化学习网络对初始路由决策模型进行训练，利用智能体进行动态决策，并通过环境反馈的回报来评估决策的质量，在学习过程中能够渐进式地调整决策策略，直到达到最优表现。通过强化学习算法对路由规划问题进行求解，可以在未知环境信息的情况下仅通过与环境的交互来获得反馈回报，以优化决策并得到最佳路由方案。

在一些实施例中，奖励函数定义为：

r_d为到达终点节点卫星的正向奖励，P为链路传输成本，ω₁、ω₂为不同的权重系数。

在一些实施例中，所述强化学习网络包括值函数网络及目标网络；

基于所述目标Q值计算得到价值函数值；

在初始路由决策模型的训练过程中，在值函数网络中，利用贪婪策略(ε-greedy)进行动作选择，探索新的网络环境；在目标网络中基于历史经验给出Q值评估，即计算目标Q值；由此改善仅利用一个网络同时进行探索和评估带来的过渡依赖进而影响模型收敛的问题，有效提高训练效率及模型的精度。同时，每隔预定时间将目标网络的网络参数调整为与值函数网络的网络参数相同，改善目标网络过度评估的缺陷，进一步提高模型训练效率及模型精度。

在一些实施例中，所述价值函数值通过下式计算得到：

y＝r+γQ^′(s^′,argmaxQ(s^′,,),^′)

其中，r为奖励值，γ为衰减因子，ω为值函数网络的网络参数，ω^′为目标函数网络的网络参数，a为动作，Q为值函数Q值，Q^′为目标Q值，s^′为下一时刻的状态，argmaxQ(s^′,,)表示为下一时刻的状态s^′下所有可能动作a中所对应的值函数Q值中的最大值所对应的动作(即第二目标动作)。

在一些实施例中，通过价值函数值与值函数Q值计算损失函数，通过损失函数进行误差反向传播，完成对所述值函数网络的网络参数的一次更新；损失函数通过下式计算得到：

Loss＝E[y-Q(s,a,ω)²]

其中，s为当前状态。

在一些实施例中，所述链路状态信息包括链路连通性、带宽容量、时延和丢包率；

在一些实施例中，所述流量预测模型为经过预训练的模型。具体地，可以利用卫星网络中各节点卫星的不同历史时刻的历史流量数据对流量预测模型进行训练。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种利用路由决策方法的路由路径决策方法，包括：

确定所述源节点卫星及所述终点节点卫星；

在现有的路由路径决策过程中，通常是一次决策出一个完整的路由路径，然后再基于决策出的路由路径进行相应的数据传输。由于各个节点卫星的链路状态是实时变化的，现有的决策方式得到的路由路径通常具有滞后性，例如当沿着路由路径进行数据传输时，位于路径中较后位置的链路发生了拥堵，此时路由路径已无法再改变，只能沿着原有路径通过拥堵的链路进行传输，显然，这种数据的传输效率是较低的。

本申请中，将一次性决策出一个完整路径的过程，转换为由路由节点卫星的单步决策，即由源节点卫星开始利用路由决策方法确定出下一路由节点卫星，再由下一路由节点卫星利用路由决策方法确定出再下一路由节点卫星，直至到达到终点节点卫星。在这个过程中，每一次利用路由决策方法进行的决策，均是基于当前实时流量负载进行的，因此当链路状态发生变化时，路由决策模型可及时获取到该变化，使得每次决策出的路由节点卫星均是最优链路，使得由全部路由节点卫星组成的路由路径为最佳路由路径，有效改善一次性决策出完整路径的滞后性问题，时效性得到有效保证，从而有效提高数据传输效率；同时本申请的路由决策模型基于马尔可夫决策过程构建，在对路由决策过程进行求解计算时，可以通过与环境的交互来获得反馈回报，从而优化决策，不需要必须获取卫星网络的全局环境信息，可应用于卫星网络环境信息不完整或未知的场景下，应用范围更为广泛。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种利用路由决策方法的多播路由路径决策方法，卫星网络包括多个卫星区域，每个卫星区域包括多个卫星，每个卫星区域包括一个主星节点，所述多播路由路径包括第一多播路由路径和第二多播路由路径，所述方法包括：

在一些实施例中，还包括：

所述第二主星节点对所述待传输数据执行第二复制操作，并按照所述第四路由路径将经过所述第二复制操作的待传输数据分发至各所述第二终点节点卫星，其中，所述待传输数据经过第二复制操作后的数量等于所述第二终点节点卫星的数量。

在本申请中，预先将卫星网络划分为多个卫星区域。具体地，可以结合卫星网络的反向缝及极地区域进行划分，如依据反向缝将卫星网络做一次划分，然后在此基础上根据南、北极再做一次划分，得到多个卫星区域。每个卫星区域中包括多个卫星。各个卫星区域的卫星数量可以相等，也可以不等。然后在每个卫星区域中确定一个主星节点，具体地，可以确定位于卫星区域中心的节点卫星为主星节点。

在对卫星网络进行区域划分的基础上，根据终点节点卫星的位置，将多个终点节点卫星划分为第一终点节点卫星和第二终点节点卫星，并分别得到第一多播路由路径及第二多播路由路径。第二终点节点卫星与源节点卫星不为同一卫星区域，说明第二终点节点卫星距离源节点卫星较远。传统的路由路径通常是直接从源节点卫星到达终点节点卫星，然而这种方法在应对多播路由路径决策时，针对每一个终点节点卫星都要单独进行决策，就存在着繁琐、决策任务量大等问题。在本申请中，针对多个离源节点卫星较远的第二终点节点卫星，将数据统一传输到对应的第二主星节点，再由第二主星节点传输到该卫星区域内的多个第二终点节点卫星，可以有效减少远距离路径决策的任务数量，有效提高数据传输效率。

举例而言，假设源节点卫星为第4号卫星，第一主星节点为第6号卫星，第二终点节点卫星包括第43号卫星、第45号卫星、第55号卫星、第57号卫星，其中第43号卫星、第45号卫星位于同一卫星区域，对应的第二主星节点为第44号卫星；第55号卫星、第57号卫星位于同一卫星区域，其对应的第二主星节点为第56号卫星。在针对第二终点节点卫星的多播路由路径决策过程中，首先从第4号卫星开始利用路由决策方法到达第6号卫星(即第一主星节点，得到第一路由路径)，然后通过第6号卫星执行第一复制操作，将待传输数据复制为2份，并分别通过利用路由决策方法将待传输数据传输至第44号卫星及第56号卫星(即两个第二主星节点)，然后通过第44号卫星执行第二复制操作，将待传输数据传输复制为2份，并分别利用路由决策方法将待传输数据传输至第43号卫星及第45号卫星；通过第56号卫星执行第二复制操作，将待传输数据传输复制为2份，并分别利用路由决策方法将待传输数据传输至第55号卫星及第57号卫星。在这个过程中，传统路径决策，需要针对4颗第二终点节点卫星(即第43、44、55、57号卫星)分别进行决策，那么将存在4次决策任务，4次决策任务均是远距离决策任务，整个过程较为繁琐，且远距离决策的计算量较大。而本申请中，先到达第二主星节点(即第44号卫星及第56号卫星)，远距离决策任务由4次减少为2次，再由两个第二主星节点各自利用路由决策方法将待传输数据分发至各自卫星区域的第二终点节点卫星，而第二主星节点与其对应的第二终点节点卫星属于同一卫星区域，属于短距离决策。显然，本申请中减少了繁琐、计算量的远距离决策任务数量，能够有效降低多播路由决策过程中的计算量，计算更为高效，数据传输效率更高。

应用本申请的多播路由路径决策方法进行数据的多播传输的具体流程，可以为图3所示的流程，也可以根据实际应用场景及具体需求设计为其他流程，例如可以先行判断源节点卫星是否为第一主星节点，到达第一主星节点后再进一步区分第一终点节点卫星及第二终点节点卫星，再根据不同的终点节点卫星得到对应的第二路由路径、第三路由路径或第四路由路径，具体不做限制。

下面以图3所示的流程为例，具体说明应用本申请的多播路由路径决策方法进行数据的多播传输的具体过程。

如图3所示，首先确定路径决策任务的源节点卫星及多个终点节点卫星，然后判断各个终点节点卫星是否与源节点卫星属于同一卫星区域，若属于同一卫星区域，确定为第一终点节点卫星，若不属于同一卫星区域，确定为第二终点节点卫星。

针对第一终点节点卫星，进一步判断源节点卫星是否为第一主星节点，若是，第一主星节点对待传输数据执行第一复制操作，若不是，则先利用路由决策方法得到第一路由路径，待传输数据到达第一主星节点，再由第一主星节点对待传输数据执行第一复制操作。然后于第一主星节点处，利用路由决策方法得到第二路由路径，待传输数据到达第一终点节点卫星，第一终点节点卫星的数据传输完成。

针对第二终点节点卫星，首先也是判断源节点卫星是否为第一主星节点，若是，第一主星节点直接执行第一复制操作，若不是，则先经第一路由路径到达第一主星节点，再由第一主星节点行第一复制操作；然后利用路由决策方法得到第三路由路径，待传输数据到达第二主星节点，进一步判断第二终点节点卫星是否为第二主星节点，若是，数据传输完成，若不是，则由第二主星节点处进行第二复制操作，然后利用路由决策方法得到第四路由路径，到达第二终点节点卫星，完成第二终点节点卫星的数据传输。

完成所有终点节点卫星的数据传输后，数据的多播传输任务即完成。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种卫星网络控制系统实现，用以实现卫星网络的路由决策，具体包括：卫星控制站及地面控制站；

所述地面控制站包括流量预测服务器及与所述流量预测服务器连接的地面信息接收发送器；

所述卫星控制站包括多个链路状态检测器、多个卫星信息接收发送器及多个路由决策服务器；每个节点卫星均设置有一个所述链路状态检测器、一个所述卫星信息接收发送器及一个所述路由决策服务器，每个节点卫星的所述路由决策服务器均与所述链路状态检测器及所述卫星信息接收发送器连接；

所述流量预测服务器搭载并运行流量预测模型，所述流量预测服务器在得到节点卫星的预测流量负载后将所述节点卫星的预测流量负载传送至地面信息接收发送器，再由地面信息接收发送器将该信息传送至各节点卫星的卫星控制站的卫星信息接收发送器；

所述地面信息接收发送器还用以接收卫星信息接收发送器发送的卫星网络的网络拓扑信息及各节点卫星的链路状态信息，并将该信息发送至所述流量预测服务器，所述流量预测服务器利用该信息进行流量预测，得到各节点卫星的预测流量负载；

所述卫星控制站的卫星信息接收发送器在接收到预测流量负载后，将该信息传输至对应的路由决策服务器；

所述链路状态检测器用以获取实时流量负载，并将所述实时流量负载发送至对应的所述路由决策服务器；

当有用户发起路由路径决策任务时，所述路由决策服务器获取得到第一信息及第二信息，确定候选路由节点卫星，基于所述实时流量负载、所述预测流量负载、所述第一信息及所述第二信息运行所述路由决策模型，确定下一路由节点卫星。可选地，卫星控制站的多个链路状态检测器、多个卫星信息接收发送器及多个路由决策服务器可以设置在卫星上，也可以设置在地面，用户可以根据实际应用场景及需求进行设置，具体不做限制。

在此基础上，也可以利用卫星网络控制系统实现本申请的路由路径决策方法或多播路由路径决策方法。

此外，其他可以实现本申请路由决策方法或路由路径决策方法或多播路由路径决策方法的系统，也可应用于本申请中，具体不做限制。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种路由决策装置。

参考图4，所述路由决策装置，包括：

第一获取模块401，用以获取路由路径决策任务中源节点卫星的第一信息及终点节点卫星的第二信息；

第一确定模块402，用以确定待决策卫星，将所述待决策卫星的相邻节点卫星作为候选路由节点卫星；

第二获取模块403，用以获取所述候选路由节点卫星的实时流量负载，以及在未来预设时间步长内的预测流量负载；

路由决策模块404，用以基于所述实时流量负载、所述预测流量负载、所述第一信息及所述第二信息，利用预先基于马尔可夫决策过程构建的路由决策模型从所述候选路由节点卫星中确定下一路由节点卫星。

在一些实施例中，第二获取模块403还包括：

第一获取单元，用以获取卫星网络的网络拓扑信息及各节点卫星的链路状态信息；

流量预测单元，用以基于各节点卫星的链路状态信息及所述网络拓扑信息，利用预先构建的流量预测模型进行流量预测，得到各节点卫星的预测流量负载。

在一些实施例中，所述流量预测模型包括图卷积神经网络、门控递归循环神经网络和全连接层；所述流量预测单元还包括：

第一特征提取元件，用以基于各节点卫星的链路状态信息及所述网络拓扑信息，采用所述图卷积神经网络提取得到空间特征；

第二特征提取元件，用以基于所述空间特征，采用所述门控递归循环神经网络提取得到时间特征，并利用所述门控递归循环神经网络将所述空间特征和所述时间特征进行融合得到时空特征；

流量预测元件，用以采用注意力机制计算所述时空特征的权重，并基于所述时空特征和其对应的权重通过所述全连接层输出各节点卫星的预测流量负载。

基于双深度Q学习算法，构建强化学习网络；

所述奖励策略由卫星网络的链路传输成本及链路状态确定。

基于所述目标Q值计算得到价值函数值；

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的一种路由决策方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种路由路径决策装置，包括：

第二确定模块，用以确定所述源节点卫星及所述终点节点卫星；

路径决策模块，用以将所述源节点卫星作为所述待决策卫星，利用所述路由决策方法确定所述待决策卫星的下一路由节点卫星，并确定所述待决策卫星的下一路由节点卫星是否为所述终点节点卫星；

上述实施例的装置用于实现前述任一实施例中相应的一种路由路径决策方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种多播路由路径决策装置，卫星网络包括多个卫星区域，每个卫星区域包括多个卫星，每个卫星区域包括一个主星节点，所述多播路由路径包括第一多播路由路径和第二多播路由路径，所述装置包括：

第三确定模块，用以确定所述路由路径决策任务的源节点卫星及多个终点节点卫星，其中，多个终点节点卫星包括与所述源节点卫星属于同一卫星区域的第一终点节点卫星和/或与所述源节点卫星不属于同一卫星区域的第二终点节点卫星，所述源节点卫星所属卫星区域的主星节点为第一主星节点，所述第二终点节点卫星所属卫星区域的主星节点为第二主星节点；

第一多播路由路径决策模块，用以响应于确定所述终点节点卫星为所述第一终点节点卫星时且所述源节点卫星不为所述第一主星节点，将所述源节点卫星作为所述待决策卫星，利用所述路由决策方法确定所述待决策卫星的下一路由节点卫星，并确定所述待决策卫星的下一路由节点卫星是否为所述第一主星节点；

第二多播路由路径决策模块，用以响应于确定所述终点节点卫星为所述第二终点节点卫星、所述源节点卫星不为所述第一主星节点以及所述第二终点节点卫星不为所述第二主星节点，将所述源节点卫星作为所述待决策卫星，得到所述第一路由路径；

在一些实施例中，还包括：

第四确定模块，用以确定待传输数据，按照所述第一路由路径将所述待传输数据从所述源节点卫星传输至所述第一主星节点；

第一复制模块，用以通过所述第一主星节点对所述待传输数据执行第一复制操作，并按照所述第二路由路径和所述第三路由路径将经过所述第一复制操作的待传输数据分发至各所述第一终点节点卫星和所述第二主星节点，其中，所述待传输数据经过所述第一复制操作后的数量等于所述第一终点节点卫星和所述第二主星节点的数量之和；

第二复制模块，用以通过所述第二主星节点对所述待传输数据执行第二复制操作，并按照所述第四路由路径将经过所述第二复制操作的待传输数据分发至各所述第二终点节点卫星，其中，所述待传输数据经过第二复制操作后的数量等于所述第二终点节点卫星的数量。

上述实施例的装置用于实现前述任一实施例中相应的一种多播路由路径决策方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的一种路由决策方法和/或一种路由路径决策方法和/或一种多播路由路径决策方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的一种路由决策方法和/或一种路由路径决策方法和/或一种多播路由路径决策方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的一种路由决策方法和/或一种路由路径决策方法和/或一种多播路由路径决策方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的一种路由决策方法和/或一种路由路径决策方法和/或一种多播路由路径决策方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种路由决策方法，其特征在于，包括：

2.根据权利要求1所述的路由决策方法，其特征在于，所述获取所述候选路由节点卫星在未来预设时间步长内的预测流量负载，包括：

3.根据权利要求2所述的路由决策方法，其特征在于，所述流量预测模型包括图卷积神经网络、门控递归循环神经网络和全连接层；所述基于各节点卫星的链路状态信息及所述网络拓扑信息，利用预先构建的流量预测模型进行流量预测，得到各节点卫星的预测流量负载，包括：

4.根据权利要求1所述的路由决策方法，其特征在于，所述路由决策模型通过以下步骤构建得到：

基于双深度Q学习算法，构建强化学习网络；

所述奖励策略由卫星网络的链路传输成本及链路状态确定。

5.根据权利要求4所述的路由决策方法，其特征在于，所述强化学习网络包括值函数网络及目标网络；

基于所述目标Q值计算得到价值函数值；

6.根据权利要求1所述的路由决策方法，其特征在于，所述链路状态信息包括链路连通性、带宽容量、时延和丢包率；

7.一种利用权利要求1-6任一项所述的路由决策方法的路由路径决策方法，其特征在于，包括：

确定所述源节点卫星及所述终点节点卫星；

8.一种利用权利要求1-6任一项所述的路由决策方法的多播路由路径决策方法，其特征在于，卫星网络包括多个卫星区域，每个卫星区域包括多个卫星，每个卫星区域包括一个主星节点，所述多播路由路径包括第一多播路由路径和第二多播路由路径，所述方法包括：

9.根据权利要求8所述的一种多播路由路径决策方法，其特征在于，还包括：

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任意一项所述的一种路由决策方法和/或权利要求7所述的一种路由路径决策方法和/或权利要求8～9任一项所述的一种多播路由路径决策方法。