CN116781139A

CN116781139A - 一种基于强化学习的流量预测卫星路径选择方法及系统

Info

Publication number: CN116781139A
Application number: CN202310690046.XA
Authority: CN
Inventors: 李沛; 陈丽萍; 苏义炯; 梁雪松; 许晓荣
Original assignee: Tangxia Vocational Secondary School Rui'an City Zhejiang Province; Hangzhou Dianzi University
Current assignee: Tangxia Vocational Secondary School Rui'an City Zhejiang Province; Hangzhou Dianzi University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-19

Abstract

本发明涉及一种基于强化学习的流量预测卫星路径选择方法及系统，方法包括：S1、根据卫星节点及星间链路的位置关系构建初始卫星网络图；S2、卫星流量监控设施获取信息数据；S3、构建基于时空切比雪夫图神经网络的流量预测模型；S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度算法学习问题，并进行马尔可夫决策过程问题的转化定义；S5、根据问题的转化定义和多智能体深度确定性策略梯度算法，进行算法的强化学习，依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径。本发明解决了低轨卫星网络星间链路业务流量拥堵问题，更加合理、灵活，且能有效得到最优传输路径，提升系统总体性能。

Description

一种基于强化学习的流量预测卫星路径选择方法及系统

技术领域

本发明属于卫星通信技术领域，具体涉及一种基于强化学习的流量预测卫星路径选择方法及系统。

背景技术

为了满足人们日益增长的通信需求，近年来卫星通信网络发展迅速。卫星通信网络是对地面通信系统的补充和延伸，其具有覆盖范围广，通信距离远，通信线路稳定可靠，不受地形、地物等自然条件影响等优势。

然而，由于用户在卫星覆盖区域中不均匀分布，导致一些卫星的星间链路(ISL)承载大量数据包，而其他ISL未得到充分利用，从而造成链路的拥塞。同时，由于星间距离大，路由路径多跳，数据包具有较大的通信时延。因此，在路由协议中，应选择较短的路径来路由数据包。因此，要求路由策略考虑流量覆盖特性，均衡星间链路间的流量具有重要意义。

现有的流量预测方法主要使用各种数学统计拟合模型、机器学习相关模型等。虽然基于统计模型的卫星流量预测方法具有较高的预测准确度和稳定性，但由于卫星通信具有时变性、异质性等特点，这种方法在某些情况下可能存在一定的误差。此外，大多数的机器学习算法虽然在时序预测上有较好的表现，但在经过多次训练后极其容易陷入过拟合的情况，从而容易陷入局部最优和训练速度缓慢的缺陷。因此，需要结合其他方法进行流量预测。在路径选择的过程中，从负载均衡的角度出发，为使星间链路得到更平均的利用，提出了单路径流量均衡算法的路由策略，但它们都有一个明显的缺点即只能在流量过大时将过多的流量分配到其他代价最低的路径上，并不能真正地消除拥塞。而部分多路径流量均衡路由算法由于其较随意分配流量，很难得到最理想的流量均衡效果，没有考虑多组被分割的流量叠加后仍然可能会导致链路拥塞的情况。并且，目前没有将流量预测和路由策略结合起来的方法。

发明内容

针对上述问题，本发明提出了一种基于强化学习的流量预测卫星路径选择方法和系统，目的在于解决现有技术存在的问题，以实现对现有的低轨卫星网络中流量的优化和路径选择的合理规划，以提升链路传输速率和低轨卫星网络资源利用率。

为了实现以上目的，本发明采用如下技术方案：

一种基于强化学习的流量预测卫星路径选择方法包括以下步骤：

S1、根据卫星节点及星间链路的位置关系构建初始卫星网络图；

S2、卫星流量监控设施获取信息数据；

优选的，信息数据包括：缓存队列的占用率、卫星速度以及业务流量；

S3、构建基于时空切比雪夫图神经网络(Spatial-Temporal Chebyshev GraphNeural Network,ST-ChebNet)的流量预测模型，将步骤S2中获取到的信息数据输入到模型中，得到预测结果，即对于卫星流量未来一段时间的预测结果；

S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度(MADDPG，Multi-Agent Deep Deterministic Policy Gradient)算法学习问题，并进行马尔可夫决策过程(POMDP)问题的转化定义；

S5、根据问题的转化定义和MADDPG算法，进行MADDPG算法的强化学习，依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径；

作为优选方案，所述步骤S1中，对于构建初始卫星网络图，包括：

将低轨卫星网络建模为一个图G＝(V,E,A),其中V表示卫星节点集合，E表示星间链路集合，A是邻接矩阵表示网络的连接状况，A＝(a_i,j)，a_i,j＝1即表示节点N_i和节点N_j之间存在星间链路，a_i,j＝0即表示节点N_i和节点N_j之间不存在星间链路；

作为优选方案，所述步骤S3中，构建基于时空切比雪夫图神经网络的流量预测模型，具体包括：

S31、对输入的数据进行数据处理，包括对于数据空缺值的填充，以及对于数据的归一化处理。归一化可以表示为：

S32、将步骤S31中划分后的卫星流量数据分别输入到ST-CHEBENT模型中，首先通过一个全连接层，将每个节点上的这三个特征融合成一个新特征，该新特征被表示为然后，为这三个特征分配不同的权重w，并通过下面的公式执行加权求和,生成矩阵V＝(n,N,X')，其中，n为观察样本数，N表示节点，X'表示新特征，

其中，和/>分别表示在时间t节点i上的第c个特征的权重及其值。此外，b_t表示时间t处的偏差；

S33、将节点特征融合步骤S32中所获得的矩阵V输入LSTM模型，该模型将输出矩阵为V'。LSTM模型包括四层，即一个输入层、两个隐藏层和一个输出层，两个隐藏层相互连接，用于捕捉时间序列的特征。LSTM模块可以表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (7)

h_t＝o_t·tanh(C_t) (8)

其中，f_t表示遗忘门，i_t表示输入门，表示单元状态更新值，C_t-1表示上一时刻的单元状态，C_t表示更新后的新的单元状态，o_t表示输出门，σ表示采用Sigmoid函数作为激活函数；W_f和b_f分别为遗忘门f_t对应的权值矩阵和偏置项，W_i和b_i分别为输入门i_t对应的权值矩阵和偏置项，W_C和b_C分别为神经元中记忆细胞C对应的权值矩阵和偏置项，W_o和b_o分别为输出门o_t对应的权值矩阵和偏置项，都是可学习的参数；x_t和h_t-1是每一层的输入以及上一层的输出；h_t表示隐节点的输出，由输出门和单元状态共同决定，用于计算预测值和下一层的特征提取；

S34、将步骤S33获得的矩阵V'输入到ChebNet图卷积模型中，以进一步提取用于交通流预测的空间特征。本发明利用k阶切比雪夫图卷积，k阶切比雪夫多项式函数形式为：

其中，公式(9)表示切比雪夫多项式的递归定义，T_k(·)表示k阶切比雪夫多项式；公式(10)表示切比雪夫卷积核，g_θ表示谱域中的卷积核，Λ∈R^n×n表示拉普拉斯矩阵L的特征值组成的对角矩阵，I_N表示单位矩阵，λ_max是L最大的特征值；公式(11)表示切比雪夫图卷积，x是信号，θ_k是训练的权重参数；

S35、将时间特征和空间特征相融合，得到表征卫星网络未来交通流的预测结果；

S36、计算预测结果与真实结果的误差情况，采用反向传播算法对模型中的参数进行更新；

S37、计算模型整体的平均绝对百分比误差作为模型的评价标准，当模型达到指定迭代次数时，完成训练；时空切比雪夫图神经网络的评价指标定义为：

其中，代表模型预测值，y_i代表节点i处的真实流量数据，m代表样本容量。

作为优选方案，所述步骤S4中，马尔可夫决策过程问题的转化定义，具体包括：

S41、将每个卫星节点及其星间链路作为智能体所处的状态；

State＝[l₁,l₂,...,l_n,s₁,s₂,...,s_i] (13)

其中l_n是卫星网络中第n条链路的链路负载，s_i为卫星网络中第i个节点；

S42、将S3中预测性的流量值作为观测值纳入POMDP，环境观察目标低轨卫星相邻链路的历史利用率，目标低轨卫星当前相邻链路的利用率以及目标低轨卫星的预测流量数据；

Observation＝[LHU,CQO,PTF] (14)

其中LHU是链路历史利用率，CQO是缓存队列占用率，PTF是预测的交通流量；

S43、定义动作空间为卫星向其发送数据包的邻近卫星的方向，

Action＝[direction] (15)

S44、依据缓存队列的占用率和预测流量的特征定义奖励函数，

Reward＝1-(CQO+PTF) (16)

即当某一下跳节点的缓存队列占用率最低且预测的交通流量最小时，奖励达到最大。

作为优选方案，所述步骤S4中，MADPPG算法包括：

S410、随机的初始化所有卫星的网络的演员网络和评论家网络，并设置经验回放缓冲区；

S420、利用确定性策略网络采集当前环境观察数据，环境观察数据包括：目标低轨卫星相邻链路的历史利用率，目标低轨卫星当前相邻链路的利用率以及目标低轨卫星的预测流量数据；

S430、基于S420中采集到的当前环境观察数据，确定目标低轨卫星的动作并执行；

S440、所述目标低轨卫星在执行完成所述执行动作之后后奖励以及采集到的下一个状态的目标环境观察值，并将S420中所述当前环境观察数据、S430中所述目标低轨卫星的执行动作、所述确定性策略网络的奖励和所述目标环境观察数据，存储在经验回放缓冲区中；

S450、每个卫星从经验回放缓冲区中随机采样一批经验进行训练，更新演员网络的参数和评论家网络的参数，以最大化其对应的Critic网络的Q值，最小化Q值的误差，并利用完成训练的Q网络生成最优路径策略；

S460、重复步骤S420-S450直到算法收敛，得到最优的路径。

本发明还公开了一种基于强化学习的流量预测卫星路径选择系统，其包括以下模块：

初始卫星网络图构建模块：根据卫星节点及星间链路的位置关系构建初始卫星网络图；

信息数据获取模块：卫星流量监控设施获取信息数据；

流量预测模型构建模块：构建基于时空切比雪夫图神经网络的流量预测模型，将信息数据输入流量预测模型中，得到预测结果；

转化模块：将卫星路径规划问题转化为多智能体深度确定性策略梯度算法学习问题，并进行马尔可夫决策过程问题的转化定义；

强化学习及最优路径选择模块：根据马尔可夫决策过程问题的转化定义和多智能体深度确定性策略梯度算法，进行多智能体深度确定性策略梯度算法的强化学习，依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径。

本发明相对于现有技术，具有如下技术效果：

(1)本发明选择采用强化学习的MADDPG算法，将预测性交通状态表示纳入POMDP公式，使强化学习路径算法能够提供全域路径的研究，使算法能够在不确定的卫星状况下提供最短行程路径。

(2)本发明优选方案采用了ST-Chebnet作为一个最有效的方法来预测每个卫星节点的业务流量。ST-ChebNet结合了长短期记忆(LSTM)和切比雪夫(Chebyshev)模型，它不仅可以捕获流量数据的时间依赖性和空间依赖性，也考虑间接的影响在当前节点的邻居节点，同时它优化节点之间的关系，能够实现准确的交通流量预测。

附图说明

图1为本发明一种基于强化学习的流量预测卫星路径选择方法的流程图；

图2为本发明涉及的一种基于时空切比雪夫流量预测的网络模型图；

图3为本发明涉及的一种基于多智能体深度确定性策略梯度算法的网络模型图。

图4为本发明一种基于强化学习的流量预测卫星路径选择系统框图。

具体实施方式

以下通过特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一：

如图1所示，本实施例一种基于强化学习的流量预测卫星路径选择方法，基于时空切比雪夫图神经网络(ST-ChebNet)模型和多智能体深度确定性策略梯度(MADDPG)算法。利用ST-ChebNet模型对卫星上的业务流量实现准确预测，将路径选择问题表示为POMDP，将预测性的流量值作为观测值输入到POMDP中，以确定最优策略，从而在不确定的卫星条件下提供从源卫星到目的卫星的最短时间路径。

本实施例一种基于强化学习的流量预测卫星路径选择方法，基于ST-ChebNet模型，该模型图参照图2所示，利用该模型对卫星上的业务流量实现准确预测，得出卫星流量未来一段时间的预测结果。

具体包括如下步骤：

S1.根据卫星节点及星间链路的位置关系构建初始卫星网络图；

进一步的，所述步骤S1构建初始卫星网络图，包括：将低轨卫星网络建模为一个图G＝(V,E,A)，其中V表示卫星节点集合，E表示星间链路集合，A是邻接矩阵表示网络的连接状况，A＝(a_i,j)，a_i,j＝1即表示节点N_i和节点N_j之间存在星间链路，a_i,j＝0即表示节点N_i和节点N_j之间不存在星间链路；

S2.卫星流量监控设施获取信息数据；

进一步的，所述步骤S2获取信息数据包括：缓存队列的占用率、卫星速度以及业务流量；

S3.构建基于时空切比雪夫图神经网络(ST-ChebNet)的流量预测模型，将S2.中获取到的信息数据输入到模型中，得到预测结果，即对于卫星流量未来一段时间的预测结果；

进一步的，所述步骤S3中，构建基于时空切比雪夫图神经网络的流量预测模型，具体包括步骤：

S3.1对输入的数据进行数据处理，包括对于数据空缺值的填充，以及对于数据的归一化处理。归一化可以表示为：

S3.2将S3.1中划分后的卫星流量数据分别输入到ST-CHEBENT模型中，首先通过一个全连接层，将每个节点上的这三个特征融合成一个新特征，该新特征被表示为然后，为这三个特征分配不同的权重w，并通过下面的公式执行加权求和,生成矩阵V＝(n,N,X')，其中，n为观察样本数，N表示节点；

S3.3将节点特征融合S3.2中所获得的矩阵V输入LSTM模型，该模型将输出矩阵为V'。LSTM模型包括四层，即一个输入层、两个隐藏层和一个输出层，两个隐藏层相互连接，用于捕捉时间序列的特征。LSTM模块可以表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (19)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (20)

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (23)

h_t＝o_t·tanh(C_t) (24)

S3.4将S3.3获得的矩阵V'输入到ChebNet图卷积模型中，以进一步提取用于交通流预测的空间特征。本发明利用k阶切比雪夫图卷积，k阶切比雪夫多项式函数形式为：

S3.5将时间特征和空间特征相融合，得到表征卫星网络未来交通流的预测结果；

S3.6计算预测结果与真实结果的误差情况，采用反向传播算法对模型中的参数进行更新；

S3.7计算模型整体的平均绝对百分比误差作为模型的评价标准，当模型达到指定迭代次数时，完成训练。时空切比雪夫图神经网络的评价指标定义为：

本实施例一种基于强化学习的流量预测卫星路径选择方法，基于MADDPG模型，该模型图参照图3所示，在该网络中，Q网络在训练阶段接收所有卫星的观测值所组成的环境信息以及所有智能体的动作作为输入，以此集中式地计算卫星的动作-价值函数，每个卫星都会单独学习一个Q值，作为对卫星动作的反馈。Q网络根据估计的Q值和实际的Q值来进行训练，卫星根据Q网络的反馈来更新策略。当每个卫星都训练充分之后，每个卫星就可以自己根据状态采取合适的动作，此时是不需要其他卫星的状态或者动作的。在执行阶段，则以卫星的局部观测为输入，输出其动作。

包括步骤：

S1.将每个卫星节点及其星间链路作为智能体所处的状态；

State＝[l₁,l₂,...,l_n,s₁,s₂,...,s_i] (29)

S2.将预测性的流量值作为观测值纳入POMDP，环境观察目标低轨卫星相邻链路的历史利用率，目标低轨卫星当前相邻链路的利用率以及目标低轨卫星的预测流量数据；

Observation＝[LHU,CQO,PTF] (30)

S3.定义动作空间为卫星向其发送数据包的邻近卫星的方向，

Action＝[direction] (31)

S4.依据缓存队列的占用率和预测流量的特征定义奖励函数，

Reward＝1-(CQO+PTF) (32)

即当某一下跳节点的缓存队列占用率最低且预测的交通流量最小时，奖励达到最大；

S5.随机的初始化所有卫星的网络的演员网络和评论家网络，并设置经验回放缓冲区；

S6.利用确定性策略网络采集当前环境观察数据，环境观察数据包括：目标低轨卫星相邻链路的历史利用率，目标低轨卫星当前相邻链路的利用率以及目标低轨卫星的预测流量数据；

S7.基于S6中采集到的当前环境观察数据，确定目标低轨卫星的动作并执行；

S8.所述目标低轨卫星在执行完成所述执行动作之后奖励以及采集到的下一个状态的目标环境观察值，并将S6中所述当前环境观察数据、S7中所述目标低轨卫星的执行动作、所述确定性策略网络的奖励和所述目标环境观察数据，存储在经验回放缓冲区中；

S9.每个卫星从经验回放缓冲区中随机采样一批经验进行训练，更新演员网络的参数和评论家网络的参数，以最大化其对应的Critic网络的Q值，最小化Q值的误差，并利用完成训练的Q网络生成最优路径策略；

S10.重复步骤S5-S9直到算法收敛，得到最优的路径。

实施例二

如图4所示，一种基于强化学习的流量预测卫星路径选择系统，基于实施例一，其包括以下模块：

信息数据获取模块：卫星流量监控设施获取信息数据；

本实施例其他内容可参考实施一。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.一种基于强化学习的流量预测卫星路径选择方法，其特征在于，包括以下步骤：

S2、卫星流量监控设施获取信息数据；

S3、构建基于时空切比雪夫图神经网络的流量预测模型，将步骤S2中获取的信息数据输入流量预测模型中，得到预测结果；

S4、将卫星路径规划问题转化为多智能体深度确定性策略梯度算法学习问题，并进行马尔可夫决策过程问题的转化定义；

S5、根据马尔可夫决策过程问题的转化定义和多智能体深度确定性策略梯度算法，进行多智能体深度确定性策略梯度算法的强化学习，依据多个卫星输出的最大概率动作值规划卫星数据包的最优路径。

2.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法，其特征在于，步骤S1中，构建初始卫星网络图，包括：

将低轨卫星网络建模为一个图G＝(V,E,A),其中V表示卫星节点集合，E表示星间链路集合，A是邻接矩阵表示网络的连接状况，A＝(a_i,j)，a_i,j＝1即表示节点N_i和节点N_j之间存在星间链路，a_i,j＝0即表示节点N_i和节点N_j之间不存在星间链路。

3.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法方法，其特征在于，步骤S2中，所述的信息数据包括：缓存队列的占用率、卫星速度以及业务流量。

4.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法方法，其特征在于，步骤S3中，构建基于时空切比雪夫图神经网络的流量预测模型，具体包括：

S31、对输入的数据进行数据处理，包括对于数据空缺值的填充，以及对于数据的归一化处理，归一化表示为：

S32、将步骤S31中划分后的卫星流量数据分别输入到ST-ChebNet模型中，首先通过一个全连接层，将每个节点上的这三个特征融合成一个新特征，该新特征被表示为然后为这三个特征分配不同的权重w，并通过公式(2)执行加权求和，生成矩阵V＝(n,N,X')，其中，n为观察样本数，N表示节点，X'表示新特征，

其中，和/>分别表示在时间t节点i上的第c个特征的权重及其值，b_t表示时间t处的偏差；

S33、将节点特征融合步骤S32中所获得的矩阵V输入长短期记忆网络LSTM模型，该模型将输出矩阵为V'；LSTM模型包括四层，即一个输入层、两个隐藏层和一个输出层，两个隐藏层相互连接，用于捕捉时间序列的特征；LSTM模型表示为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (3)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (4)

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (7)

h_t＝o_t·tanh(C_t) (8)

其中，f_t表示遗忘门，i_t表示输入门，表示单元状态更新值，C_t-1表示上一时刻的单元状态，C_t表示更新后的新的单元状态，o_t表示输出门，σ表示采用Sigmoid函数作为激活函数；W_f和b_f分别为遗忘门f_t对应的权值矩阵和偏置项，W_i和b_i分别为输入门i_t对应的权值矩阵和偏置项，W_C和b_C分别为神经元中记忆细胞C对应的权值矩阵和偏置项，W_o和b_o分别为输出门o_t对应的权值矩阵和偏置项，均为可学习的参数；x_t和h_t-1是每一层的输入以及上一层的输出；h_t表示隐节点的输出，由输出门和单元状态共同决定，用于计算预测值和下一层的特征提取；

S34、将步骤S33获得的矩阵V'输入到Chebyshev graph neural network(ChebNet)图卷积模型中，提取用于交通流预测的空间特征；利用k阶切比雪夫图卷积，k阶切比雪夫多项式函数形式为：

S37、计算模型整体的平均绝对百分比误差作为模型的评价标准，当模型达到指定迭代次数时，完成训练。时空切比雪夫图神经网络的评价指标定义为：

其中，代表模型预测值，y_i代表节点i处的真实流量数据，n代表样本容量。

5.根据权利要求1所述的一种基于强化学习的流量预测卫星路径选择方法，其特征在于，步骤S4中，马尔可夫决策过程问题的转化定义，具体包括：

S41、将每个卫星节点及其星间链路作为智能体所处的状态；

State＝[l₁,l₂,...,l_n,s₁,s₂,...,s_i] (13)

S42、将步骤S3中预测性的流量值作为观测值纳入马尔可夫决策过程，环境观察目标低轨卫星相邻链路的历史利用率，目标低轨卫星当前相邻链路的利用率以及目标低轨卫星的预测流量数据；

Observation＝[LHU,CQO,PTF] (14)

其中，LHU是链路历史利用率，CQO是缓存队列占用率，PTF是预测的交通流量；

Action＝[direction] (15)

Reward＝1-(CQO+PTF) (16)

当某一下跳节点的缓存队列占用率最低且预测的交通流量最小时，奖励达到最大。

6.根据权利要求1-5任一项所述的一种基于强化学习的流量预测卫星路径选择方法，其特征在于，步骤S4中，多智能体深度确定性策略梯度算法，具体包括：

S430、基于步骤S420中采集到的当前环境观察数据，确定目标低轨卫星的动作并执行；

S440、所述目标低轨卫星在执行完成所述执行动作之后奖励以及采集到的下一个状态的目标环境观察值，并将步骤S420中所述当前环境观察数据、步骤S430中所述目标低轨卫星的执行动作、所述确定性策略网络的奖励和所述目标环境观察数据，存储在经验回放缓冲区中；

S450、每个卫星从经验回放缓冲区中随机采样一批经验进行训练，更新演员网络的参数和评论家网络的参数，以最大化其对应的Q网络的Q值，最小化Q值的误差，并利用完成训练的Q网络生成最优路径策略；

S460、重复步骤-S420-步骤S450，直到算法收敛，得到最优路径。

7.一种基于强化学习的流量预测卫星路径选择系统，其特征在于，包括以下模块：

信息数据获取模块：卫星流量监控设施获取信息数据；