CN116248164A

CN116248164A - 基于深度强化学习的完全分布式路由方法和系统

Info

Publication number: CN116248164A
Application number: CN202211624634.5A
Authority: CN
Inventors: 许国良; 赵艳云; 冉永屹
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-06-09

Abstract

本发明涉及基于深度强化学习的完全分布式路由方法和系统，属于卫星网络动态技术领域。该方法以邻居节点的剩余能量、目的卫星坐标、邻居节点接收队列长度，邻居节点坐标以及当前节点发送队列长度作为状态输入智能决策下一跳，其主要步骤包括：首先，对每颗卫星建立了一个部分可观测的马尔可夫决策过程模型，其中只需要相邻卫星的空间位置、排队状态以及剩余能量。其次，提出了一种基于多智能体深度强化学习的完全分布动态路由方法，推导最优路由策略。

Description

基于深度强化学习的完全分布式路由方法和系统

技术领域

本发明属于卫星网络动态技术领域，涉及基于深度强化学习的完全分布式路由方法和系统。

背景技术

卫星互联网为信息的转发、处理以及融合提供了必要支持，是国家“新基建”重点建设项目，而路由是卫星互联网的核心。与地球静止轨道卫星和中地球轨道卫星相比，低轨卫星网络具有覆盖范围广、延迟低、发射成本低、传输功率低等优点，已然成为通信网络架构的重要组成部分。同时低轨卫星星座拓扑和状态具有高维高动态特性，导致传统的地面网络路由算法难以适应卫星的路由性能，以及卫星有限的体积限制了电池等设备的电量以及寿命等问题。因此，为低轨卫星星座设计高效的动态路由算法是低轨卫星星座目前面临的技术挑战之一。

发明内容

有鉴于此，本发明的目的在于提供基于深度强化学习的完全分布式路由方法和系统，建立依据完全分布式低轨卫星网络的状态的图注意力神经网络模型，并依据优化目标函数设置了奖励函数，依据将图注意力神经网络模型所得的低维特征输入到Dueling DQN网络中得到各个动作的Q值；结合∈-greedy算法选择一个动作作为路由决策，依据状态空间的状态信息选择行动空间的一个动作，环境执行动作后返还即时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中选择小批量样本进行训练，得到Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数，通过多次迭代，直至模型收敛后更新完成，利用更新后的深度强化学习模型来选择低轨卫星网络的最优路由路径，依据最优路由路径来进行数据的传输，可使得单位能量所能传输的平均数据量得到增加，从而提升低轨卫星网络的能量利用效率。

为达到上述目的，本发明提供如下技术方案：

基于深度强化学习的完全分布式路由方法，该方法包括以下步骤：

步骤1：建立LEO卫星网络中完全分布式路由的系统模型和通信模型；

步骤2：建立LEO卫星网络中完全分布式路由的能量消耗、传播时延和排队时延模型；

步骤3：构造LEO卫星网络的能量消耗、传播时延和排队时延最小化的目标函数；

步骤4：计算每个数据包的候选下一跳到目的卫星的预估剩余传播时延；

步骤5：根据用户业务需求构建以当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量为状态的状态空间；

步骤6：使用GAT架构合并每个agent之间的关系信息，从而获取到全局隐藏特征；

步骤7：对照所述目标函数构建行动空间中每个动作对应的奖励函数，其中所述行动空间表示当前卫星的下一跳候选卫星节点，即邻居卫星；

步骤8：在每个时刻，agent与环境交互会得到一个局部的观察，利用GAT通过合并agent信息将得到的局部观察转变为全局信息特征表示，将得到的特征表示驶入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值；基于预期回报来评价各个动作的价值函数，并通过∈-greedy贪婪策略进行智能决策，即以∈概率随机选择一个动作作为下一跳卫星节点，以1-∈概率选取Q值最大的动作作为下一跳卫星节点；

步骤9：环境对此动作做出反应，并得到一个即时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中随机选择小批量样本(batch)进行训练，得到估计Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并通过不断循环以上过程至深度强化学习模型收敛，利用收敛后的深度强化学习模型来智能决策LEO卫星网络的最优下一跳。

可选的，所述S3中，建立使LEO卫星网络的能量消耗、传播时延和排队时延最小化的目标函数的计算式为：

min cost＝(1-μ)·E_l(i，j)+μ·t_y

其中，μ表示加权因子，R_i表示卫星剩余能量；B表示卫星初始能量，即电池容量；E_l(i，j)表示链路ij的能量状态；t_y表示链路平均交付时延；n表示邻居节点卫星数量。

可选的，所述传播时延为当前卫星到下一跳传播所需要花费的时间；所述排队时延为数据包在卫星的输入队列和输出队列中排队等待的时间；所述能量消耗为卫星转发数据消耗的能量，包括数据发送能耗、数据接收能耗、以及卫星维持正常运行的能耗。

可选的，所述步骤6具体为：

获取所述低轨卫星网络的状态，其中状态包括当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量和邻居节点到目的节点的剩余预估传播时延，通过将这些状态与输入图的不同元素相关联，并考虑了这些元素在图中如何连接而将它们组合起来，通过迭代消息传递算法更新元素的状态，并使用结果状态产生输出；

为同一节点及其邻居计算的消息使用元素求和进行聚合，通过聚合信息更新隐藏状态，重复相同的过程对所有链接的邻居通过迭代得到全局隐藏信息。

可选的，所述奖励函数为：

/>

E_i(t)＝E_o+E_s+E_r＝(P_o+P_s+P_r)×τ

G_i(t)＝P_c(t)×max{0，(τ-T_i)}

其中，ω₁，ω₂，ω₃表示加权因子，τ_y表示总传输时延，

表示排队时延，/>

表示传播时延，E_l表示链路i，j的能量，R_i(t)表示卫星i的链路剩余能量，E_i(t)表示卫星i的能量消耗，G_i(t)表示卫星i获得的能量。

可选的，所述路由决策依据∈-greedy策略从行动空间中选择动作，包括：

计算行动空间中各个动作的概率，以∈概率从行动空间中随机选择一个动作作为路由决策，以1-∈从行动空间中选择Q值最大的动作作为路由决策。

可选的，所述步骤9中，每执行一个动作之后都获得状态、路由决策、奖励函数和下一时刻状态这样一个四元组，将每次获得的这个四元组存储到经验池中，从经验池中随机抽取四元组作为一个batch，具体为：

从经验池中随机选择一批batch样本进行训练，打破数据间的关联性，将当前时刻状态信息作为Q估计网络的输入，通过三层全连接层得到输出，为该状态下采取的路由决策的Q值，将下一时刻状态信息作为Q估计网络的输入，通过三层全连接层得到输出为Q估计网络的Q值达到最大时的动作，将该动作和下一时刻状态作为Q目标网络的输入，输出目标Q值；

固定目标网络，只更新与环境交互的预测网络；利用目标网络计算的TD-目标值与预测网络输出的差值优化和更新模型；在把预测网络更新几次之后，再用更新的网络替换目标网络；重复上述步骤，直至模型收敛，利用收敛之后的模型进行决策得到最优下一跳；具体为：

目标值与预测值之间的方差称为损失函数，通过更新权重尽量减少损失，然后根据损失函数来计算梯度；

每更新k步后，拷贝实际网络权重到目标网络权重中，重复上述步骤，直至模型收敛。

基于深度强化学习的完全分布式路由系统，该系统包括：

搭建系统模型模块，用于建立低轨卫星网络的通信模型，传播时延模型，排队时延模型和能耗模型；

目标函数建立模块，用于建立使低轨卫星网络的能量消耗、传播时延和排队时延最小化的目标函数；

剩余预估传播时延模块，用于计算当前数据包所在卫星的下一跳到目的节点的预估传播时延；

图注意力网络特征提取模块，使用GAT架构合并每个agent之间的关系信息，从而获取到全局隐藏特征；

状态空间模块，用于根据用户业务需求构建以当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量和邻居节点到目的节点的剩余预估传播时延为状态的状态空间；

动作空间模块，完全分布式路由问题的行动空间为邻居节点的数量，动作选择时依据∈-greedy策略从行动空间中选择一个动作作为路由决策；

奖励函数模块，对照目标函数构建奖励函数；

深度强化学习模块，用于将所述低维特征输入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值；并依据动作空间模块选择一个动作，环境对此动作做出反应，并得到一个即时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中随机选择小批量样本进行训练，得到估计Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并通过不断循环以上过程至深度强化学习模型收敛，利用收敛后的深度强化学习模型来智能决策LEO卫星网络的最优下一跳。

可选的，所述图注意力网络特征提取模块包括图模块、输入层，注意层和输出层；

图模块，用于将卫星节点和边连接起来，构成一个网络拓扑图；

输入层，由一组节点特征组成，并且产生一组新的节点特征作为输出，将输入节点特征转换为可学习的线性特征；

注意层，在转换特征之后，在网络中应用注意层，通过使用权重矩阵的输入层的输出进行参数化，通过将此权重矩阵应用于每个节点，将自注意力应用于节点；一个单层前馈神经网络作为注意力层，给出归一化的注意力系数；

输出层，在获得归一化的注意力系数后，计算与系数对应的特征集，并作为来自网络的最终特征；为稳定注意力的过程，使用多头注意力，应用各种独立的注意力来执行输出特征的转换和连接。

本发明的有益效果在于：

1、为了解决高维高动态、高开销以及局部观测引起的非平稳性问题，本发明提出了一种基于多智能体深度强化学习的空间定位辅助全分布路由算法，以实现大规模LEO卫星网络中的高效数据转发。为了降低计算复杂度和通信开销，对每颗卫星建立了部分可观测马尔可夫决策过程模型，其中只需要传输一跳相邻卫星的空间位置、排队状态和剩余预估传播延迟。为了很好地捕捉卫星网络的动态特性，然后通过分布式训练和分布式执行中使用多智能体深度强化学习来求解优化问题。为了避免局部观测引起的局部优化和非平稳问题，将剩余预估传播时延加入到奖励函数中指导路由选择。

2、本发明使用图神经玩过将卫星网络的拓扑建立为图结构信息，其中卫星网络的高动态性可以用图的变化来描述，且完美匹配了图神经网络强大的泛化能力。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明实施例一提供的低轨卫星网络泛在感知路由优化方法的流程示意图；

图2为本发明实施例提供的低轨卫星网络泛在感知路由优化方法的总体框架图；

图3为本发明实施例提供的剩余预估时延的示意图；

图4为本发明实施例二提供的低轨卫星网络泛在感知路由优化系统的结构框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一

现有算法中主要包括低轨卫星网络动态路由算法和低轨卫星网络高能效路由算法。对于如何设计低轨卫星网络动态路由算法，往往从四个方面进行考虑，首先，LEO卫星网络通常由数千颗卫星组成，而每颗卫星都有各种可能涉及路由选择的特征，这将导致计算复杂度高，甚至导致“维数诅咒”。其次，每颗卫星总是在高速移动，这将导致间歇性连结和网络拓扑结构的频繁变化。路由规划算法需要很好地捕捉这些动态状态。第三，特别是对于大规模的LEO卫星网络，如果经常收集全局链路状态来计算最优路由策略，将会导致较高的通信开销和较大的信息采集延迟。第四，由于星座卫星的重量和体积有限，电池容量受到了限制。由于有大量的数据包需要路由，这样的大规模星座的节能是一个迫切的问题。为了保证通信中卫星元件(如路由器)的供电，应设计好能源系统。更重要的是，一旦旧卫星耗尽能源，就需要发射新卫星，而卫星发射的成本却很高。因此，针对用户需求多样化且卫星电池容量有限的问题，本实施例一提供一种低轨卫星网络泛在感知路由优化方法，达到降低卫星通信时延和能耗的作用。

如图1所示，路由优化方法包括：

建立LEO卫星网络中完全分布式路由的系统模型和通信模型；

建立LEO卫星网络中完全分布式路由的能量消耗、传播时延和排队时延模型；

构造LEO卫星网络的能量消耗、传播时延和排队时延最小化的目标函数；

计算每个数据包的候选下一跳到目的卫星的预估剩余传播时延；

根据用户业务需求构建以当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量为状态的状态空间；

使用GAT架构合并每个agent之间的关系信息，从而获取到全局隐藏特征；

对照所述目标函数构建行动空间中每个动作对应的奖励函数，其中所述行动空间表示当前卫星的下一跳候选卫星节点，即邻居卫星；

在每个时刻，agent与环境交互会得到一个局部的观察，利用GAT可以通过合并agent信息将得到的局部观察转变为全局信息特征表示，将得到的特征表示驶入深度强化学习模型的Q估计网络中，计算所述行动空间中各个动作的Q值。基于预期回报来评价各个动作的价值函数，并通过∈-greedy贪婪策略进行智能决策，即以∈概率随机选择一个动作作为下一跳卫星节点，以1-∈概率选取Q值最大的动作作为下一跳卫星节点；

环境对此动作做出反应，并得到一个即时奖励和下一时刻状态，将状态、路由决策、奖励函数和下一时刻状态存储到经验池中，从经验池中随机选择小批量样本进行训练，得到估计Q值和目标Q值，依据损失函数和梯度下降更新深度强化学习模型的Q估计网络和Q目标网络的参数并通过不断循环以上过程至深度强化学习模型收敛，利用收敛后的深度强化学习模型来智能决策LEO卫星网络的最优下一跳。

在本实施例中，如图2所示，根据用户业务需求构建以当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量和邻居节点到目的节点的剩余预估传播时延为状态的状态空间；然后使用图注意力神经网络模型通过获得的局部LEO低轨卫星网络信息构建网络拓扑属性图，利用图注意力神经网络模型不断迭代提取所述属性图的低维全局隐藏特征，然后输入到全连接网络中以输出不同路由决策的Q值。依据∈-greedy策略从行动空间中选择一个动作作为路由决策。由于每次执行一个动作后都能转移到下一个状态，并获得一个奖励，因此每执行一个动作之后都可以获得状态、路由决策、奖励函数和下一时刻状态这样一个四元组，将每次获得的这个四元组存储到经验池中，从经验池中随机抽取少量四元组作为一个batch，这样既保证了训练样本是独立同分布的，也使得每个batch样本量不大，能加快训练速度。

固定目标网络，只更新与环境交互的预测网络。利用目标网络计算的TD-目标值与预测网络输出的差值优化和更新模型。在把预测网络更新几次之后，再用更新的网络替换目标网络。重复上述步骤，直至模型收敛，利用收敛之后的模型进行决策得到最优下一跳。

在一些可能实现的方案中，建立使低轨卫星网络的能量消耗、传播时延和排队时延最小化的目标函数的计算式为：

min cost＝(1-μ)·E_l(i，j)+μ·t_y

/>

其中，μ表示加权因子，R_i表示卫星剩余能量；B表示卫星初始能量，即电池容量；E_l(i，j)表示链路ij的能量状态；t_u表示链路平均交付时延；n表示邻居节点卫星数量。

本实施例中，由于LEO卫星网络的卫星间通信发生在自由空间环境中，主要受自由空间路径损耗(FSPL)和(热)噪声功率的影响。假设该噪声为加性高斯白噪声(AWGN)。v_i，t、v_j，t的空间坐标可以用(x_i，t，y_i，t，z_i，t)和(x_j，t，y_j，t，z_j，t)表示，因此它们的空间距离可以定义为：

||v_i，tv_j，t||＝|x_i，t-x_j，t|+|y_i，t-y_j，t|+|z_i，t-z_j，t|

FSPL可以表示如下：

式中，f为载波频率，c为光速，I^*(v_i，t，v_j，t)是最大视线线(LoS)距离。

请注意，如果所有卫星中的平面间ISL天线结合了足够窄的光束和精确的波束转向或天线指向能力，则可以避免干扰。因此，在无干扰的环境中，假设无线电信道对称，v_i，t可以选择与v_j，t通信的最大数据速率为

式中，P_tr和G_tr为发射功率和天线增益，Grc为接收天线增益，k_B为玻尔兹曼常数，B为信道带宽，T为热噪声.D表示天线的直径，η_a表示接收器的天线效率。

在一些可能实现的方案中，所述通信时延包括传播时延、排队时延；

本实施例中，考虑从低轨卫星src向低轨卫星dst发送数据，不考虑地面端。低轨卫星网络的通信时延模型将从以下两个方面进行介绍：传播时延和排队时延。

(1)传播时延

如图1所示，每颗卫星分别保留1个接收队列和4个定向发送队列。接收队列是为了临时存储己到达的数据包。四个定向发送队列，即n-链路发送队列、s-链路发送队列、w-链路发送队列和E-链路发送队列，分别与四个ISLs中的一个相关联。接收队列中的数据包将根据路由策略传输到四个发送队列中的一个，然后通过相应的天线传播到下一跳卫星。每个队列都遵循先入先出(FIFO)的原则。

从卫星v_i，t到v_j，t传输数据包的传播延迟由空间距离决定。在自由空间环境下，链路e_ij上的包k的传播延迟

可以定义为：

其中，c是光速。传播延迟可以有效地反映传输路径的空间长度。因此，基于传播延迟的路由算法在网络通信量较轻时表现良好。

(2)排队时延

随着流量负载的增加，由于传输速率有限，更多的数据包将在发送队列中排队。排队延迟对总体端到端延迟的影响比传播延迟更显著。因此，本文还考虑了排队延迟来实现负载平衡和拥塞控制。在这个字母中，假设有一个时隙系统，时隙由t索引。为简单起见，假设数据包在卫星v_i的N-link发送队列中，其排队时延服从M/M/1/m排队模型，到达节点的概率服从参数λ的泊松分布，节点处理服从参数μ的指数分布，队列的最大容量为m。那么排队延迟

可以表示为

q_i(t)＝min{q_i(t-1)+g_i(t-1)-u_i(t-1)，m}

其中θ是每个包的大小，Ψ是传递的时间间隔数，q_i(t)是卫星发送队列的时间长度，其中q_i(t-1)是卫星发送队列的长度，g_i(t-1)和u_i(t-1)分别表示在这一时刻期间接收和发送的包数。

综合上述2点，假设数据包k从源节点到目标节点的路径记为D_k＝(V′_k，E′_k)，其中V′_k和E′_k表示数据包k通过的节点和链路集。因此，数据包f从源低轨卫星节点src发出，到目的低轨卫星节点dst成功接收的总时延为：

卫星中有多个导致能源消耗的组件，包括路由器模块、控制模块、天线模块等。它们大致分为三个部分。第一部分是用于数据包传递的路由器模块。这部分的总功耗取决于节点上的流量负载。在时间间隔Δt内，穿越卫星节点v_i的总数据包为Pkt_i，计算方法为：

缓冲区排队和路由表查找的功耗由α_i·Pkt_i计算，其中α_i是一个关于v_i的系数。因此，可以通过处理这些数据包来获得所消耗的总能量：

其中P_s和P_r分别为发送包和接收包的传输功率。

是通过向卫星链路(i，j)发送数据包所消耗的功率；/>

是通过从卫星链路(j，i)接收数据包所消耗的功率。第二部分是正常操作的功率，它是一个常数的P_norm。第三部分是处理器消耗的功耗，可以用/>

计算，其中μ_i和σ_i是常数。它也与交通流量呈正相关。

把注意力集中在位于日食区的卫星上。为了保持卫星路由策略的稳定性，将连续时间划分为离散的插槽。在每个时间段中，保持每颗卫星的路由策略不变。从上式可以得到，表示卫星运行的能源消耗如下：

在一些可能实现的方案中，通过获得的局部LEO低轨卫星网络信息构建网络拓扑属性图，利用图注意力神经网络模型不断迭代提取所述属性图的低维全局隐藏特征，具体为：

为同一节点及其邻居计算的消息使用元素求和进行聚合，通过聚合信息更新隐藏状态，重复相同的过程对所有链接的邻居可以通过迭代得到全局隐藏信息。

首先根据特征数量F向特征数量F’的转换过程，则只是需要一个特征转换的矩阵W，完成这种特征的转换。所以，首先定义一个权重矩阵W∈R^F’*F用来完成所有节点的特征转换过程。变换公式为：

z_j＝Wh_j

其次，引入的是注意力机制，在GAT中，使用的是自注意力机制，使用一个共享的注意力计算函数α，其计算公式为：

e_ij＝α(W(h_i|h_j))

这表示节点j的特征对于节点i贡献度。在整个计算的过程中，需要计算节点i的每一个邻居节点k对i的贡献度。注意"||"表示向量的拼接。

然后，将这种权重转换成对应的权重，也就是对于各个邻接节点k的贡献度进行归一化。其计算公式为：

对于线性层的运算，一般情况下都要对其进行非线性函数的激活，在论文中采用的是LeakyRelu激活函数，斜率为0.2。则最终的注意力计算公式为

最终，在计算完i节点的每一个相邻节点的贡献度之后，根据权重，对i节点得所有相邻节点进行特征求和更新。作为i节点的最终输出，其计算公式为：

/>

在一些可能实现的方案中，所述奖励函数的计算式为：

E_i(t)＝E_o+E_s+E_r＝(P_o+P_s+P_r)×τ

G_i(t)＝P_c(t)×max{0，(τ-T_i)}

其中，ω₁，ω₂，ω₃表示加权因子，τ_y表示总传输时延，

表示排队时延，/>

具体的，本实施例中，参见上述实施例中目标函数的计算式，根据目标函数的优化问题，得到奖励函数。

5.在一些实施方案中，依据∈-greedy策略从行动空间中选择一个动作作为路由决策，包括：

在一些实施方案中，由于每次执行一个动作后都能转移到下一个状态，并获得一个奖励，因此每执行一个动作之后都可以获得状态、路由决策、奖励函数和下一时刻状态这样一个四元组，将每次获得的这个四元组存储到经验池中，从经验池中随机抽取少量四元组作为一个batch，这样既保证了训练样本是独立同分布的，也使得每个batch样本量不大，能加快训练速度。具体为：

从经验池中随机选择一批batch样本进行训练，打破数据间的关联性，将当前时刻状态信息作为Q估计网络的输入，通过三层全连接层得到输出，为该状态下采取的路由决策的Q值，将下一时刻状态信息作为Q估计网络的输入，通过三层全连接层得到输出为Q估计网络的Q值达到最大时的动作，将该动作和下一时刻状态作为Q目标网络的输入，输出目标Q值。

在一些实施方案中，固定目标网络，只更新与环境交互的预测网络。利用目标网络计算的TD-目标值与预测网络输出的差值优化和更新模型。在把预测网络更新几次之后，再用更新的网络替换目标网络。重复上述步骤，直至模型收敛，利用收敛之后的模型进行决策得到最优下一跳。具体为：

目标值与预测值之间的方差称为损失函数，通过更新权重尽量减少损失，然后根据损失函数来计算梯度。

具体的，在本实例中，代理i根据所选的动作将当前分组k转发给相应的邻居代理，并且计算奖励r_i，t。代理i的当前状态si，t将被转换为下一个状态s_i，t+1。从该信息中获得反馈后，agent i将这个转换(s_i，t，a_i，t，r_i，t，s_i，t+1)记录到重放内存R中，然后随机得到一批样本进行学习，从而打破训练数据的相关性。通过最小化目标Q值y_i，t与当前Q网络输出之间的均方误差来更新Q_i(θ_i，t)的参数。损失函数Li，t由

L_i，t＝(y_j，t-Q_i(_si，t，a_i，t；θ_i，t))²

其中y_i，t为目标值，γ是折扣因子，θ_i，t是Q估计网络的参数，

是Q目标网络的参数。目标网络参数/>

在每个k步中使用Q估计网络参数θ_i，t进行更新，并在每次更新之间保持不变。可以将Q估计网络的参数θ_i，t更新如下：

其中，α为学习率。

实施例二

如图4所示，本申请实施例二在实施例一的基础上提供了一种完全分布式的低轨卫星网络泛在感知路由优化系统，包括：

搭建系统模型模块，用于建立低轨卫星网络的通信模型，传播时延模型，排队时延模型和能耗模型。

剩余预估传播时延模块，用于计算当前数据包所在卫星的下一跳到目的节点的预估传播时延。

图注意力网络特征提取模块，用于通过获得的局部LEO低轨卫星网络信息构建网络拓扑属性图，利用图注意力神经网络模型不断迭代提取所述属性图的低维全局隐藏特征；

奖励函数模块，对照目标函数构建奖励函数；

在一些实施方案中，图注意力网络特征提取模块包括图模块、输入层，注意层和输出层；图模块，用于将卫星节点和边连接起来，构成一个网络拓扑图；

输入层，由一组节点特征组成，并且应该能够产生一组新的节点特征作为输出。这些层还能够将输入节点特征转换为可学习的线性特征。

注意层，在转换特征之后，可以在网络中应用注意层，可以通过使用权重矩阵的输入层的输出进行参数化，通过将此权重矩阵应用于每个节点，可以将自注意力应用于节点。机械地，可以暗示一个单层前馈神经网络作为的注意力层，它可以给一个归一化的注意力系数。

输出层，在获得归一化的注意力系数后，可以使用它们来计算与系数对应的特征集，并将它们作为来自网络的最终特征。为了稳定注意力的过程，可以使用多头注意力，以便可以应用各种独立的注意力来执行输出特征的转换和连接。

需要理解的的是，本实施例二提供的各个模块所实现的功能均已在实施例一各个方法步骤均中进行了说明，因此不再做多余的叙述。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于深度强化学习的完全分布式路由方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述S3中，建立使LEO卫星网络的能量消耗、传播时延和排队时延最小化的目标函数的计算式为：

min cost＝(1-μ)·E_l(i，j)+μ·t_y

3.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述传播时延为当前卫星到下一跳传播所需要花费的时间；所述排队时延为数据包在卫星的输入队列和输出队列中排队等待的时间；所述能量消耗为卫星转发数据消耗的能量，包括数据发送能耗、数据接收能耗、以及卫星维持正常运行的能耗。

4.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述步骤6具体为：

获取所述低轨卫星网络的状态，其中状态包括当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延和当前节点剩余能量以及邻居卫星节点剩余能量，通过将这些状态与输入图的不同元素相关联，并考虑了这些元素在图中如何连接而将它们组合起来，通过迭代消息传递算法更新元素的状态，并使用结果状态产生输出；

5.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述奖励函数为：

E_i(t)＝E_o+E_s+E_r＝(P_o+P_s+P)×τ

G_i(t)＝P_c(t)×max{0，(τ-T_i)}

其中，ω₁，ω₂，ω₃表示加权因子，τ_y表示总传输时延，

表示排队时延，/>

表示传播时延，E₁表示链路i,j的能量，R_i(t)表示卫星i的链路剩余能量，E_i(t)表示卫星i的能量消耗，G_i(t)表示卫星i获得的能量。

6.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述路由决策依据∈-greedy策略从行动空间中选择动作，包括：

7.根据权利要求1所述的基于深度强化学习的完全分布式路由方法，其特征在于：所述步骤9中，每执行一个动作之后都获得状态、路由决策、奖励函数和下一时刻状态这样一个四元组，将每次获得的这个四元组存储到经验池中，从经验池中随机抽取四元组作为一个batch，具体为：

8.基于深度强化学习的完全分布式路由系统，其特征在于：该系统包括：

状态空间模块，用于根据用户业务需求构建以当前卫星四个发送队列长度、邻居卫星节点接收队列长度、当前数据包的目的卫星坐标、邻居卫星节点距目的卫星节点的剩余预估时延、当前节点剩余能量以及邻居卫星节点剩余能量为状态的状态空间；

奖励函数模块，对照目标函数构建奖励函数；

9.根据权利要求8所述的基于深度强化学习的完全分布式路由系统，其特征在于：所述图注意力网络特征提取模块包括图模块、输入层，注意层和输出层；