CN116192760B

CN116192760B - 一种空间太赫兹通信网络流量整形方法及装置

Info

Publication number: CN116192760B
Application number: CN202310065504.0A
Authority: CN
Inventors: 何元智; 盛彪
Original assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Current assignee: Institute of Systems Engineering of PLA Academy of Military Sciences
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-08-29
Anticipated expiration: 2043-01-12
Also published as: CN116192760A

Abstract

本发明公开了一种空间太赫兹通信网络流量整形方法及装置，该方法包括：获取空间太赫兹通信网络历史信息和当前链路数据信息；所述空间太赫兹通信网络历史信息和当前链路数据信息包括空间太赫兹网络的网络节点运行轨迹序列L₁、流量到达序列L₂、当前卫星节点位置P、实际吞吐量T_p、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁和上一时刻数据时延T₂；利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。本发明改善了传统流量整形算法无法感知和探测环境变化，不具有鲁棒性的缺点，提高了卫星太赫兹组网中源节点的网络传输性能。

Description

一种空间太赫兹通信网络流量整形方法及装置

技术领域

本发明涉及卫星通信技术领域，尤其涉及一种空间太赫兹通信网络流量整形方法及装置。

背景技术

在卫星网络中，每个卫星节点在任意时刻都可能是信源和信宿，由于局部流量激增易造成内部链路阻塞，导致全网的性能下降，在分布式星群场景中，由于链路速率高，这种问题尤为突出。

为支持基于空间太赫兹网络密集型流量传输，需应对突发流量请求，并在多个节点上进行数据转发与同步。通过流量整形技术，提高组网中源节点的抗毁性，主动调控每条链路的窗口大小、数据包处理时延以及发送速率，以免造成拥塞。考虑到太赫兹组网网络数据流量分布严重不均，且不同源节点处于不断运动中，网络条件如链路容量、链路可持续时间、分组丢失率、端到端延迟可能是高度动态的，并且随着时间推移产生剧烈变化。传统流量整形算法如令牌桶等无法感知和探测环境变化，因此难以适应可变网络条件，不具有鲁棒性。为此，将太赫兹组网中的流量整形制定为深度强化学习(DRL)中的决策问题，提高了卫星太赫兹组网中源节点的网络传输性能。

发明内容

本发明所要解决的技术问题在于，提供一种空间太赫兹通信网络流量整形方法及装置，能够针对卫星太赫兹链路由于局部流量激增易造成内部链路阻塞，导致全网的性能下降问题，本发明公开了一种空间太赫兹链路流量整形算法，从流量分布严重不均、不同源节点处于不断运动、网络条件高度动态变化的环境中实现空间太赫兹链路流量整形。

为了解决上述技术问题，本发明实施例第一方面公开了一种空间太赫兹通信网络流量整形方法，所述方法包括：

S1，获取空间太赫兹通信网络历史信息和当前链路数据信息；

所述空间太赫兹通信网络历史信息和当前链路数据信息包括空间太赫兹网络的网络节点运行轨迹序列L₁、流量到达序列L₂、当前卫星节点位置P、实际吞吐量T_p、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁和上一时刻数据时延T₂；

S2，利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。

作为一种可选的实施方式，本发明实施例第一方面中，所述空间太赫兹通信流量整形网络，包括基于门控循环单元的表示网络和近端策略梯度算法网络；

所述近端策略梯度算法网络包括行动者网络和评论家网络；

所述基于门控循环单元的表示网络，用于对空间太赫兹通信网络演化模式进行学习，得到所述空间太赫兹通信流量整形网络的状态信息；

所述行动者网络，用于对所述状态信息进行处理，得到所述空间太赫兹通信流量整形网络的动作信息；

所述评论家网络，用于对所述动作信息进行评估，得到所述空间太赫兹通信流量整形网络状态的价值。

作为一种可选的实施方式，本发明实施例第一方面中，所述利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果，包括：

S21，对所述空间太赫兹通信流量整形网络的参数进行初始化，得到初始化空间太赫兹通信流量整形网络；

所述初始化包括初始化基于门控循环单元的表示网络参数、行动者网络参数、评论家网络参数、奖励值函数、经验池大小和设定算法训练轮次上限；

S22，利用所述初始化空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的当前初始状态s₀；

S23，利用所述空间太赫兹通信网络的当前初始状态s₀，对所述初始化空间太赫兹流量整形网络进行训练，得到训练空间太赫兹通信流量整形网络；

S24，利用所述训练空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。

作为一种可选的实施方式，本发明实施例第一方面中，所述利用所述空间太赫兹通信网络的当前初始状态s₀，对所述初始化空间太赫兹流量整形网络进行训练，得到训练空间太赫兹通信流量整形网络，包括：

S231，所述空间太赫兹通信网络的初始状态记为s₀，空间太赫兹通信网络的当前状态记为s_i；

S232，利用所述行动者网络对所述空间太赫兹通信网络的当前状态s_i进行处理，得到最佳动作a_i；

S233，更新状态s_i为状态s_i+1，对所述状态s_i+1进行处理，得到回报值r_i+1，i和i+1表示状态的阶段；

S234，所述当前状态s_i、最佳动作a_i、回报值r_i+1、状态s_i+1构成经验数据；所述经验数据被存入经验池中；

S235，利用所述评论家网络，对所述前状态s_i进行评估，将状态s_i输入评论家网络，评论家网络输出得到价值V(s_i)；

S236，利用所述评论家网络，对所述价值V(s_i)进行处理，得到动态优势值A(s_i,a_i)；

S237，对所述动态优势值A(s_i,a_i)、经验池中数据进行处理，更新所述基于门控循环单元的表示网络、行动者网络和评论家网络；

S238，判断训练轮次是否达到预设的上限，如果是，则结束训练，得到训练空间太赫兹通信流量整形网络，否则，执行S231，开始新一轮训练。

作为一种可选的实施方式，本发明实施例第一方面中，所述利用所述初始化空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的当前初始状态s₀，包括：

S221，利用所述基于门控循环单元的表示网络，对所述网络运行序列L₁、流量到达序列L₂进行处理，得到表示网络输出信息；

S222，将所述表示网络输出信息、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁、上一时刻数据时延T₂进行整合，得到空间太赫兹通信网络的当前初始状态s₀。

作为一种可选的实施方式，本发明实施例第一方面中，所述更新状态s_i为状态s_i+1，对所述状态s_i+1进行处理，得到回报值r_i+1，包括：

更新状态s_i为状态s_i+1，利用预设的回报值计算模型，对所述状态s_i+1进行处理，得到回报值r_i+1；

所述回报值计算模型为：

其中，f₁,f₂,f₃是归一化加权稀疏，C为链路容量的倒数，C_min,C_max检测到的最小和最大链路容量倒数，T为数据时延，T_min,T_max分别为最小和最大数据时延，P为分组丢失率，P_min,P_max分别为最小和最大分组丢失率。

作为一种可选的实施方式，本发明实施例第一方面中，所述对所述动态优势值A(s_i,a_i)、经验池中数据进行处理，更新所述基于门控循环单元的表示网络、行动者网络和评论家网络，包括：

S2371，对所述动态优势值A(s_i,a_i)进行处理，得到最小化损失函数Loss₁；

所述最小化损失函数Loss₁为：

其中E表示求均值，ε为常数，clip(a,b,c)的含义是如果a＜b,输出b，如果a＞c,输出c，如果b≤a≤c，输出a；clip(a,b,c)是强化学习中约定好的函数，π_θ是指行动者网络的参数为θ时的策略，是一组概率，π_θ(a_i|s_i)指当前行动者网络的参数为θ，θ是一组向量或矩阵，在状态为s_i的条件下，行动者网络输出动作为a_i的概率；θold是行动者网络更新前的参数；

S2372，利用反向传播算法对所述最小化损失函数Loss₁进行处理，更新所述基于门控循环单元的表示网络和所述行动者网络；

S2373，对所述经验池中数据进行处理，得到均方误差损失函数Loss₂；

所述均方误差损失函数Loss₂为：

Loss₂＝MSE(G_i,V(s_i))

其中，G_i＝r_i+1+γV(s_i+1)，MSE是均方误差函数，用于求G_i和V_i的均方误差，是深度学习中常用的损失函数；γ是折扣系数，是强化学习中常用概念，0<γ<1,G_i用于衡量评论家网络对价值V(s_i)评估的准确性，二者应该接近相等；

S2374，利用反向传播算法对所述均方误差损失函数Loss₂进行处理，更新所述评论家网络。

本发明实施例第二方面公开了一种空间太赫兹通信网络流量整形装置，所述装置包括：

数据获取模块，用于获取空间太赫兹通信网络历史信息和当前链路数据信息；

流量整形模块，用于利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。

作为一种可选的实施方式，本发明实施例第二方面中，所述空间太赫兹通信流量整形网络，包括基于门控循环单元的表示网络和近端策略梯度算法网络；

所述近端策略梯度算法网络包括行动者网络和评论家网络；

作为一种可选的实施方式，本发明实施例第二方面中，所述利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果，包括：

作为一种可选的实施方式，本发明实施例第二方面中，所述利用所述空间太赫兹通信网络的当前初始状态s₀，对所述初始化空间太赫兹流量整形网络进行训练，得到训练空间太赫兹通信流量整形网络，包括：

作为一种可选的实施方式，本发明实施例第二方面中，所述利用所述初始化空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的当前初始状态s₀，包括：

S222，将所述表示网络输出信息、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁、上一时刻数据时延T₂进行整合，得到空间太赫兹通信网络的当前初始状态s0。

作为一种可选的实施方式，本发明实施例第二方面中，所述更新状态s_i为状态s_i+1，对所述状态s_i+1进行处理，得到回报值r_i+1，包括：

所述回报值计算模型为：

作为一种可选的实施方式，本发明实施例第二方面中，所述对所述动态优势值A(s_i,a_i)、经验池中数据进行处理，更新所述基于门控循环单元的表示网络、行动者网络和评论家网络，包括：

所述最小化损失函数Loss₁为：

所述均方误差损失函数Loss₂为：

Loss₂＝MSE(G_i,V(s_i))

本发明第三方面公开了另一种空间太赫兹通信网络流量整形装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的空间太赫兹通信网络流量整形方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明实施例第一方面公开的空间太赫兹通信网络流量整形方法中的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

(1)本发明实现了流量分布严重不均、不同源节点处于不断运动、网络条件链路容量、链路可持续时间、分组丢失率、端到端延迟高度动态变化环境下的空间太赫兹链路流量整形，改善了传统流量整形算法如令牌桶等无法感知和探测环境变化，不具有鲁棒性的缺点。

(2)本发明采用深度强化学习算法进行空间太赫兹链路流量整形，能够感知和探测环境变化，适应可变网络条件，解决局部流量激增造成的内部链路阻塞问题，提高全网的通信性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种空间太赫兹通信网络流量整形方法的流程示意图；

图2是本发明实施例公开的空间太赫兹通信流量整形网络结构示意图；

图3是本发明实施例公开的一种空间太赫兹通信网络流量整形装置的结构示意图；

图4是本发明实施例公开的另一种空间太赫兹通信网络流量整形装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种空间太赫兹通信网络流量整形方法及装置，能够获取空间太赫兹通信网络历史信息和当前链路数据信息；所述空间太赫兹通信网络历史信息和当前链路数据信息包括空间太赫兹网络的网络节点运行轨迹序列L₁、流量到达序列L₂、当前卫星节点位置P、实际吞吐量T_p、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁和上一时刻数据时延T₂；利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。本发明改善了传统流量整形算法无法感知和探测环境变化，不具有鲁棒性的缺点，提高了卫星太赫兹组网中源节点的网络传输性能。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种空间太赫兹通信网络流量整形方法的流程示意图。其中，图1所描述的空间太赫兹通信网络流量整形方法应用于卫星通信技术领域，如进行通信网络流量整形，本发明实施例不做限定。如图1所示，该空间太赫兹通信网络流量整形方法可以包括以下操作：

可选的，所述空间太赫兹通信流量整形网络，包括基于门控循环单元的表示网络和近端策略梯度算法网络；

所述近端策略梯度算法网络包括行动者网络和评论家网络；

图2是本发明实施例公开的空间太赫兹通信流量整形网络结构示意图。将基于门控循环单元GRU的表示网络集成到深度强化学习算法，对太赫兹网络演化模式进行学习，网络结构包含两个子网络，即，GRU与PPO网络，PPO即为近端策略梯度算法网络，在深度强化学习框架下，GRU网络作为表示网络，用于学习网络节点运行轨迹序列、流量到达序列的特征，从中获得多条链路数据流的状态表示，并将学习到的序列状态特征与当前卫星节点位置、实际吞吐量、数据同步与发送请求、链路可持续时间、链路可达速率、上一时刻数据时延等信息拼接为PPO网络的输入。

PPO网络中行动者(actor)网络基于深度神经网络来实现，是对最佳策略的近似，actor网络的参数为θ，用于拟合最佳策略函数π_θ(a_i|s_i)，它将不同状态s_i映射为动作a_i，π_θ(a_i|s_i)是actor网络描述的策略。输入状态s_i，actor网络输出最佳动作a_i，每个动作是对多个组网链路上数据流量速率与窗口大小的控制。

设定空间太赫兹网络的网络节点运行轨迹序列L₁、流量到达序列L₂、当前卫星节点位置Sat、实际吞吐量T_p、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁、上一时刻数据时延T₂为深度强化学习算法的状态；设定通信链路上流量速率与窗口大小的控制作为深度强化学习智能体的动作a；设定网络链路容量、数据时延、分组丢失率作为智能体的回报r；得到空间太赫兹通信流量整形网络结构。

可选的，所述利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果，包括：

可选的，可以根据新产生的太赫兹通信数据多次训练空间太赫兹通信流量整形网络。

可选的，所述利用所述空间太赫兹通信网络的当前初始状态s₀，对所述初始化空间太赫兹流量整形网络进行训练，得到训练空间太赫兹通信流量整形网络，包括：

A(s_i,a_i)＝δ_i+(λ)δ_i+1+…+(λ)^I-i+1δ_I-1

其中，δ_i＝r_i+γV(s_i+1)-V(s_i)，λ、γ为折扣系数，I为第I阶段，λ是0-1之间的小数，(λ)^I-i+1用于衡量第I阶段对第i阶段的影响，I越大影响越小，δ_i用于衡量评论家网络对价值V(s_i)评估的准确性，值越小越好；

可选的，所述利用所述初始化空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的当前初始状态s₀，包括：

所述更新状态s_i为状态s_i+1，对所述状态s_i+1进行处理，得到回报值r_i+1，包括：

所述回报值计算模型为：

可选的，所述对所述动态优势值A(s_i,a_i)、经验池中数据进行处理，更新所述基于门控循环单元的表示网络、行动者网络和评论家网络，包括：

所述最小化损失函数Loss₁为：

所述均方误差损失函数Loss₂为：

Loss₂＝MSE(G_i,V(s_i))

其中，G_i＝r_i+1+γV(s_i+1)，MSE是均方误差函数，用于求G_i和V_i的均方误差，是深度学习中常用的损失函数；γ是折扣系数，是强化学习中常用概念，0<γ<1,G_i用于衡量评论家网络对价值V(s_i)评估的准确性，G_i和V(s_i)二者应该接近相等；

实施例二

请参阅图3，图3是本发明实施例公开的一种空间太赫兹通信网络流量整形装置的流程示意图。其中，图3所描述的空间太赫兹通信网络流量整形装置应用于卫星通信技术领域，如进行通信网络流量整形，本发明实施例不做限定。如图3所示，该空间太赫兹通信网络流量整形装置可以包括以下操作：

S301，数据获取模块，用于获取空间太赫兹通信网络历史信息和当前链路数据信息；

S302，流量整形模块，用于利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络流量整形结果。

所述近端策略梯度算法网络包括行动者网络和评论家网络；

图2是本发明实施例公开的空间太赫兹通信流量整形网络结构示意图。

所述回报值计算模型为：

所述最小化损失函数Loss₁为：

其中E表示求均值，ε为常数；

利用反向传播算法对所述最小化损失函数Loss₁进行处理，更新所述基于门控循环单元的表示网络和所述行动者网络；

S2372，对所述经验池中数据进行处理，得到均方误差损失函数Loss₂；

所述均方误差损失函数Loss₂为：

Loss₂＝MSE(G_i,s_i)

其中，G_i＝r_i+1+γr_i+2+…+γ^I-ir_I+1；

利用反向传播算法对所述均方误差损失函数Loss₂进行处理，更新所述新评论家网络。

实施例三

请参阅图4，图4是本发明实施例公开的另一种空间太赫兹通信网络流量整形装置的流程示意图。其中，图4所描述的空间太赫兹通信网络流量整形装置应用于卫星通信技术领域，如进行通信网络流量整形，本发明实施例不做限定。如图4所示，该空间太赫兹通信网络流量整形装置可以包括以下操作：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，用于执行实施例一或所描述的空间太赫兹通信网络流量整形方法中的步骤。

实施例四

本发明实施例公开了一种计算机读存储介质，其存储用于电子数据交换的计算机程序，其中，该计算机程序使得计算机用于执行实施例一或所描述的空间太赫兹通信网络流量整形方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种空间太赫兹通信网络流量整形方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种空间太赫兹通信网络流量整形方法，其特征在于，所述方法包括：

S2，利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的流量整形结果；

所述空间太赫兹通信流量整形网络，包括基于门控循环单元的表示网络和近端策略梯度算法网络；

所述近端策略梯度算法网络包括行动者网络和评论家网络；

所述评论家网络，用于对所述动作信息进行评估，得到所述空间太赫兹通信流量整形网络状态的价值；

所述对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的流量整形结果，包括：

S22，利用所述初始化空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的当前初始状态s₀，包括：

S222，将所述表示网络输出信息、数据同步与转发请求Req、链路可持续时间T₁、链路可达速率C₁、上一时刻数据时延T₂进行整合，得到空间太赫兹通信网络的当前初始状态s₀；

2.根据权利要求1所述的空间太赫兹通信网络流量整形方法，其特征在于，所述利用所述空间太赫兹通信网络的当前初始状态s₀，对所述初始化空间太赫兹流量整形网络进行训练，得到训练空间太赫兹通信流量整形网络，包括：

3.根据权利要求2所述的空间太赫兹通信网络流量整形方法，其特征在于，所述更新状态s_i为状态s_i+1，对所述状态s_i+1进行处理，得到回报值r_i+1，包括：

所述回报值计算模型为：

4.根据权利要求2所述的空间太赫兹通信网络流量整形方法，其特征在于，所述对所述动态优势值A(s_i,a_i)、经验池中数据进行处理，更新所述基于门控循环单元的表示网络、行动者网络和评论家网络，包括：

所述最小化损失函数Loss₁为：

所述均方误差损失函数Loss₂为：

Loss2＝MSE(G_i,V(si))

5.一种空间太赫兹通信网络流量整形装置，其特征在于，所述装置包括：

流量整形模块，用于利用预设的空间太赫兹通信流量整形网络，对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，得到空间太赫兹通信网络的流量整形结果；

所述近端策略梯度算法网络包括行动者网络和评论家网络；

所述对所述空间太赫兹通信网络历史信息和当前链路数据信息进行处理，包括：

6.一种空间太赫兹通信网络流量整形装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-4任一项所述的空间太赫兹通信网络流量整形方法。

7.一种计算机可存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于如权利要求1-4任一项所述的空间太赫兹通信网络流量整形方法。