CN114500383B

CN114500383B - 天地一体化信息网络智能拥塞控制方法、系统及介质

Info

Publication number: CN114500383B
Application number: CN202210085957.5A
Authority: CN
Inventors: 唐飞龙
Original assignee: Suzhou All Time Information Technology Co ltd
Current assignee: Suzhou All Time Information Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2024-01-30
Anticipated expiration: 2042-01-25
Also published as: CN114500383A

Abstract

本发明提供一种天地一体化信息网络智能拥塞控制方法、系统及介质，包括：基于多目标强化学习的多目标策略模型训练方法，训练单个多目标策略模型，根据不同偏好设置，输出不同拥塞控制策略；基于有监督学习的偏好自适应模型训练方法，基于最优策略构建偏好自适应模型训练集，训练偏好自适应模型，根据环境状态序列识别网络环境，选择合适偏好；智能拥塞控制系统，发送端根据ACK统计网络状态和网络状态序列，先输入至偏好自适应模型，得到该环境适用的偏好，再将偏好和网络状态输入至多目标策略模型，调整发送端发送速率。本发明能够识别网络环境，自适应调整拥塞控制策略，应对异构、复杂的天地一体化网络环境，保障用户在异构网络中端到端的传输质量。

Description

天地一体化信息网络智能拥塞控制方法、系统及介质

技术领域

本发明涉及天地一体化信息管理技术领域，具体地，涉及一种天地一体化信息网络智能拥塞控制方法、系统及介质。

背景技术

在异构的天地一体化网络中，同一个节点将通过多样的网络环境与不同对端通信。这里，多样的网络环境包括了不同轨道的卫星网络、地面网络以及蜂窝网络等。这些网络环境的链路质量(即链路随机丢包率、端到端时延、可用带宽)均有较大差异。传输层自适应拥塞控制通过感知网络状态，动态调整每条数据流的发送速率，是保障用户在天地一体化网络不同环境下传输质量的关键技术。

现有拥塞控制方法可分为基于规则的方法和基于学习的方法。其中基于规则的方法将预定义事件或信号(例如，数据包丢失、延迟变化)与发送速率调整方式绑定，不能普适于所有类型的网络环境。例如，TCP Cubic等基于丢包的方法将数据包丢失视为拥塞的标志，这些策略不适用于链路质量较差、随即丢包率较高的网络环境。现有的基于学习的方法只能在特定的网络环境中达到较高的性能。其中一个最主要的原因是它们均采用固定的、经验性的偏好将优化目标构造成单个奖励函数(强化学习，如Aurora、MVFST-RL等)或效益函数(在线学习，如PCC、Vivace等)，然后在基于此调整发送速率。研究人员Arun等(VenkatArun,Hari Balakrishnan.Copa:Practical Delay-Based Congestion Control for theInternet.Proceedings of the Applied Networking Research Workshop)提出了一种基于队列时延的拥塞控制方法Copa，该方法首先探测当前队列时延d_q，然后将发送速率调整为1/(δd_q)，其中δ为系统参数。该方法不适用于队列较短的网络。Dong等(Mo Dong,QingxiLi,Doron Zarchy,P.Brighten Godfrey,Michael Schapira.PCC:Re-architectingCongestion Control for Consistent High Performance.in USENIX NSDI 2015)提出了一种基于在线学习的拥塞控制方法PCC，该方法采用固定的偏好设置对发送速率、时延进行加权计算效益，并根据效益变化对发送速率进行微调，这种采用固定偏好的方法无法普适于所有网络环境，不适用于异构的天地一体化网络。此外，Jay等(Nathan Jay,NogaH.Rotman,P.Brighten Godfrey,Michael Schapira,and Aviv Tamar.InternetCongestion Control via Deep Reinforcement Learning.In NIPS 2018)提出了一种基于强化学习的拥塞控制方法，该方法采用固定偏好设置，将吞吐、时延以及丢包率加权构造奖励函数，训练强化学习模型调整发送端发送窗口大小，与PCC方法类似，这种采用固定偏好的方法不适用于异构的天地一体化网络。

公开号为CN110620737A的发明专利，公开了一种基于延迟的自适应拥塞控制方法，根据排队延迟和窗口大小，在发送端判断网络是否拥塞，并根据拥塞情况调节拥塞窗口。拥塞窗口每一次的调节幅度为V*θ*δ，其中δ是常数，V用于加快拥塞控制算法的收敛速度，θ是根据排队延迟周期性抖动的过程中是否到达过0点的情况而调整的参数。该参数用于控制当前网络环境中的调窗幅度，以解决长期排队延迟为0的情况下链路利用率降低和排队延迟长期不为0又无法测量到最小往返延迟的问题。该专利只考虑了时延，不适用于缓冲区较小的网络环境。

公开号为CN102204182B的发明专利，公开了一种数据传输的拥塞控制方法及装置，在数据传输过程中统计丢包率及丢包率的变化；以所述丢包率及丢包率的变化作为调节因子进行拥塞控制。该专利在数据传输过程中根据丢包率调整发送速率，不适用于链路随机丢包率差异较大的异构天地一体化网络。

发明内容

针对现有技术中的缺陷，本发明提供一种天地一体化信息网络智能拥塞控制方法、系统及介质。

根据本发明提供的一种天地一体化信息网络智能拥塞控制方法、系统及介质，所述方案如下：

第一方面，提供了一种天地一体化信息网络智能拥塞控制方法，所述方法包括：

步骤S1：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程；

步骤S2：搭建并行多目标强化学习训练框架，创建全局演员-评论家深度神经网络和N个分布式训练代理，每个代理均采用与全局演员-评论家深度神经网络相同的神经网络，并在随机产生的网络环境中进行M轮训练，在每一轮训练后更新并同步全局神经网络，全局神经网络为最终多目标策略模型；

步骤S3：训练环境中在已知可用带宽的情况下构建最优拥塞控制策略，根据策略相似度模型，找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好，并将该偏好称为最优偏好，保存环境中采样的状态序列和偏好之间的对应关系，构建偏好自适应模型训练集；

步骤S4：以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该偏好自适应模型以网络状态序列作为输入，识别网络环境，自动选择该网络环境下的最优偏好；

步骤S5：将多目标策略模型和偏好自适应模型部署在设备协议栈传输层，设备根据ACK统计网络状态，将网络状态序列输入偏好自适应模型获取合适偏好，将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法，并调整发送端发送速率。

优选地，所述步骤S1具体包括：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω；

其中，为状态空间，包含发送端根据ACK统计的状态数据；/>为动作空间，包含对发送速率的调整方式；/>为马尔科夫转移模型，描述之前状态在特定动作后转移到下一状态的概率；/>为多维优化目标；Ω为偏好空间，包含优化目标的权重；

所述延迟动作在马尔科夫转移模型中，当前状态受到上一状态、上一发送速率以及再之前的状态和发送速率影响。

优选地，所述步骤S2包括：演员-评论家深度神经网络包含演员网络和评论家网络；

所述演员网络和评论家网络均以状态和偏好作为输入；其中，演员网络输出每个动作对应的概率分布，评论家网络输出每个动作的效用值；

所述演员网络和评论家网络各有独立的两个全连接层，同时共享三个全连接层，每个层都使用整流线性激活单元从原始输入中提取特征。

优选地，所述步骤S2中每个多目标强化学习代理在随机产生的网络环境中进行M轮训练包含以下步骤：

步骤S2.1：初始化当前迭代次数i＝0，定义网络环境带宽范围、时延范围、丢包率范围、队列长度范围以及偏好范围，预设总训练迭代次数M；

步骤S2.2：开始新一轮的训练迭代，将代理的神经网络与全局神经网络同步；

步骤S2.3：随机采样带宽、时延、丢包率、队列长度以及偏好ω，并使用网络模拟器创建对应网络环境；

步骤S2.4：采用提前终止策略确定当前环境交互次数，即根据训练迭代次数，逐渐增长与环境交互次数，定义γ_a为初始步长，γ_b为步长增长速度，则与环境的交互次数为N_step＝γ_a+(i./γ_b)；

步骤S2.5：代理与环境交互N_step次，在每一次交互过程中，发送端根据ACK统计状态，并将状态和偏好输入本地深度神经网络，生成预测值，并基于Bellman方程计算策略的目标值，然后计算目标值和神经网络预测值的均方误差，并基于同伦优化构建损失函数，计算梯度更新本地神经网络；

步骤S2.6：代理完成与环境交互N_step次后，代理更新全局神经网络，更新i＝i+1，当i＜M时回到步骤S2.2，否则输出全局神经网络为最终多目标策略模型。

优选地，所述步骤S2.5中基于Bellman方程计算策略的目标值包括：目标值

其中，r为奖励函数输出的奖励值；γ为人为设置的折扣系数；Q为多目标Q值函数；θ是神经网络的参数；ω是偏好，即优化目标的权重；表示偏好ω的转置；s是当前网络状态；a是动作空间的发送速率调整方法，Q(s′,a,ω′；θ)表示在神经网络参数为θ的情况下，输入当前网络状态的一阶导s′和偏好的一阶导ω′，在动作a情况下的Q值，E[·]表示期望。

优选地，所述步骤S2.5中基于同伦优化的损失函数构建包括：将目标值和神经网络预测值的均方误差作为原损失函数：

其中，表示二范数的平方；再构建平滑连续的辅助损失函：

训练时采用的损失函数为原损失函数和辅助损失函数的加权：

L(θ)＝(1-λ)·L^A(θ)+λ·L^B(θ)

其中，λ为权重，其数值随着训练的进行从0逐渐增长至1，从而整体损失函数随着训练的进行从辅助损失函数过渡到原损失函数。

优选地，所述步骤S3中最优拥塞控制策略包括：利用动作空间中的动作，将发送速率收敛至可用带宽；假设c为链路容量，则最优拥塞控制策略π^*表示为：

其中，sr_t是t时刻发送速率；a_t表示第t次迭代时的动作；表示从动作空间/>中采用动作a；apply(sr_t,a)为将应用动作a后的发送速率，/>是二进制函数，该函数等于1当且仅当apply(sr_t,a)＞c。

优选地，所述步骤S3中策略相似度包括：将两个策略的累积奖励函数拟合为两个多元高斯分布，计算两个多元高斯分布的相似度，所述相似度的计算方式包括高斯分布的Kullback-Leibler散度。

第二方面，提供了一种天地一体化信息网络智能拥塞控制系统，所述系统包括：

状态感知模块M1：根据接收端返回的ACK，统计网络状态，组装网络状态序列；

多目标强化学习模块M2：根据天地一体化信息网络智能拥塞控制方法中所述的步骤S1和步骤S2，生成随机网络环境，训练多目标策略模型；

有监督学习模块M3：根据天地一体化信息网络智能拥塞控制方法中所述的步骤S3和步骤S5，构建状态序列和最优偏好映射关系，训练偏好自适应模型；

偏好自适应模块M4：包括所述偏好自适应模型，根据输入的状态序列，识别网络环境，输出环境自适应偏好；

多目标策略模块M5：包括所述多目标策略模型，根据网络状态、随机网络环境以及环境自适应偏好，输出发送速率的调整方法，调整发送端的发送速率。

第三方面，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机可读存储介质存储有一个/多个程序，所述一个/多个程序可被一个或者多个处理器执行，以实现如上所述的天地一体化信息网络智能拥塞控制方法中的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明利用多目标强化学习方法，训练单个多目标策略模型可拟合完整的帕累托最优边界，在不同的偏好设置下可输出不同的拥塞控制策略，可应对不同的应用需求和网络环境；

2、本发明基于专家策略和有监督训练，得到偏好自适应模型，可以在不同网络下感知网络环境，自动为用户选择合适偏好，与多目标策略模型相结合，实现了自适应拥塞控制，可以在不同环境下达到一致的高性能；

3、本发明提出的拥塞控制方法可以由用户按照期望的方式为每条流设置独立偏好，调整流的竞争力，使有限的网络资源按照期望的方式进行分配。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明所提出的自适应拥塞控制方法流程示意；

图2为多目标强化学习模型中演员-评论家深度神经网络示意；

图3为并行多目标强化学习框架示意；

图4为偏好自适应模型中多层神经网络示意；

图5为本发明所设计的自适应拥塞控制系统模块图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

本发明实施例提供了一种天地一体化信息网络智能拥塞控制方法，参照图1所示，该方法具体包括：

步骤S1：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω。其中，/>为状态空间，包含发送端根据ACK统计的状态数据，包含但不限于发送比、丢包率、时延比等；/>为动作空间，包含对发送速率的调整方式，包含但不限于将保持发送速率不变、将发送速率提升10％、将发送速率提升20％、将发送速率降低10％、将发送速率降低20％、将发送速率提升100％、将发送速率降低100％等；/>为马尔科夫转移模型，描述之前状态在特定动作后转移到下一状态的概率；/>为多维优化目标，包含但不限于网络吞吐、端到端时延的相反数等；Ω为偏好空间，包含优化目标的权重。

其中，该步骤S1中延迟动作是指，由于状态是根据ACK统计具有滞后性，因此在马尔科夫转移模型中，当前“状态”不仅仅受到上一状态和上一发送速率影响，还受到再之前的状态和发送速率影响。

步骤S2：搭建并行多目标强化学习训练框架，创建全局演员-评论家深度神经网络和N个分布式训练代理，每个代理均采用与全局演员-评论家深度神经网络相同的神经网络，并在随机产生的网络环境中进行M轮训练,在每一轮训练后更新并同步全局神经网络，全局神经网络为最终多目标策略模型。

参照图2所示，该步骤S2中，演员-评论家网络包含两个组成部分，这两个部分均以状态和偏好作为输入，其中，第一部分是演员网络，它输出每个动作对应的概率分布，第二个是评论家网络，它输出每个动作的效用值，它们各有独立的两个全连接层，同时共享三个全连接层，每个层都使用整流线性激活单元从原始输入中提取特征。

参照图3所示，该步骤S2中每个多目标强化学习代理在随机产生的网络环境中进行M轮训练包含以下步骤：

步骤S2.4：采用“提前终止策略”确定当前环境交互次数，即根据训练迭代次数，逐渐增长与环境交互次数，定义γ_a为初始步长，γ_b为步长增长速度，则与环境的交互次数为N_step＝γ_a+(i/γ_b)；

步骤S2.5：代理与环境交互N_step次，在每一次交互过程中，发送端根据ACK统计状态，并将状态和偏好输入本地深度神经网络，生成预测值，并计算策略的目标值，然后计算目标值和神经网络预测值的均方误差，并基于同伦优化构建损失函数，计算梯度更新本地神经网络；

步骤S2.6：代理完成与环境交互N_step次后，代理更新全局神经网络，更新i.＝i+1，当i＜M时回到步骤S2.2，否则输出全局神经网络为最终多目标策略模型。

步骤S3：训练环境中在已知可用带宽的情况下构建最优拥塞控制策略π^*，根据策略相似度模型，找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好ω^*，并将该偏好称为最优偏好，保存环境中采样的状态序列和偏好之间的对应关系，构建偏好自适应模型训练集T。

该步骤中S3中最优拥塞控制策略是指：利用动作空间中的动作，可以最快将发送速率收敛至可用带宽的策略；假设c为链路容量，则最优拥塞控制策略π^*表示为：

其中，sr_t是t时刻发送速率；a_t表示第t次迭代时的动作；arg_a∈A表示从动作空间A中采用动作a；apply(sr_t,a)为将应用动作a后的发送速率，是二进制函数，该函数等于1当且仅当apply(sr_t,a)＞c。

步骤S3中策略相似度是指：将两个策略的累积奖励函数拟合为两个多元高斯分布，然后计算两个高斯分布的相似度，相似度的计算方式包括但不限于高斯分布的Kullback-Leibler散度。

两个高斯分布的相似度可以通过计算两个分布的Kullback-Leibler散度得到，定义专家策略和模型策略对应的高斯分布为G^*＝G(∈；Θ^*)和G_ω＝G(∈；Θ_ω),则它们之间的Kullback-Leibler散度为：

其中，D(G^*|G_ω)表示G^*和G_ω的Kullback-Leibler散度，该值越大代表相似度越低；Θ^*表示G^*的分布参数；Θ_ω表示G_ω的分布参数；

步骤S4：参照图4所示，该步骤S4中深度神经网路为如图4所示的三层神经网络，输入为网络状态序列，输出为最优偏好。

以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该模型以网络状态序列作为输入，可以识别网络环境，自动选择该环境下的最优偏好；

其中，根据ACK统计网络状态、以及获取网络状态序列的流程：将时间划分成连续的时间片，在每一个时间片结束时，状态监控器将根据该时间区间收到的ACK报文，更新网络状态，并将此状态追加到网络状态序列中。

实施例2：

本实施例2为实施例1的优选例。

具体地，在步骤S2.5中计算策略的目标值，本实施例采用Bellman方程计算为例，但计算方式不仅限于此方式。Bellman方程把动态最优化问题变成简单的子问题，可以快速将一种偏好收敛至其他偏好已探索的最佳奖励和一致轨迹上。

基于Bellman方程计算策略的目标值包括：目标值

在步骤S2.5中，基于同伦优化的损失函数构建是指：首先将目标值和神经网络预测值的均方误差作为原损失函数：

其中，表示二范数的平方；再构建平滑连续的辅助损失函：

L(θ)＝(1-λ)·L^A(θ)+λ·L^B(θ)

实施例3：

本发明还提供了一种天地一体化信息网络智能拥塞控制系统，参照图5所示，该系统包括：

具体地，将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程Ω。其中，/>为状态空间，包含发送端根据ACK统计的状态数据，包含但不限于发送比、丢包率、时延比等；/>为动作空间，包含对发送速率的调整方式，包含但不限于将保持发送速率不变、将发送速率提升10％、将发送速率提升20％、将发送速率降低10％、将发送速率降低20％、将发送速率提升100％、将发送速率降低100％等；/>为马尔科夫转移模型，描述之前状态在特定动作后转移到下一状态的概率；/>为多维优化目标，包含但不限于网络吞吐、端到端时延的相反数等；Ω为偏好空间，包含优化目标的权重。

搭建并行多目标强化学习训练框架，创建全局演员-评论家深度神经网络和N个分布式训练代理，每个代理均采用与全局演员-评论家深度神经网络相同的神经网络，并在随机产生的网络环境中进行M轮训练,在每一轮训练后更新并同步全局神经网络，全局神经网络为最终多目标策略模型。

有监督学习模块M3：根据天地一体化信息网络智能拥塞控制方法中所述的步骤S3和步骤S5，构建状态序列和最优偏好映射关系，训练偏好自适应模型。

具体地，训练环境中在已知可用带宽的情况下构建最优拥塞控制策略，根据策略相似度模型，找出各个训练环境中与最优拥塞控制策略相似度最高的策略所对应的偏好，并将该偏好称为最优偏好，保存环境中采样的状态序列和偏好之间的对应关系，构建偏好自适应模型训练集。

以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该模型以网络状态序列作为输入，识别网络环境，自动选择该环境下的最优偏好。

将多目标策略模型和偏好自适应模型部署在设备协议栈传输层，设备根据ACK统计网络状态，将网络状态序列输入偏好自适应模型获取合适偏好，将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法，并调整发送端发送速率。

偏好自适应模块M4：包括所述偏好自适应模型，根据输入的状态序列，识别网络环境，输出环境自适应偏好。

实施例4：

本发明还提供了一种存储有计算机程序的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例1的天地一体化信息网络智能拥塞控制方法。

本实施例提供的计算机可存储介质，用于实现上述天地一体化信息网络智能拥塞控制方法，计算机程序被处理器执行时，执行方法中如下步骤：

以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该模型以网络状态序列作为输入，可以识别网络环境，自动选择该环境下的最优偏好。

本实施例提供计算机可存储介质，实现上述天地一体化信息网络智能拥塞控制方法，因此，上述方法所具备的技术效果，计算机可存储介质同样具备，在此不再赘述。

本发明实施例提供了一种天地一体化信息网络智能拥塞控制方法、系统及介质，即基于多目标强化学习的拥塞控制方法，相比于现有方法，该方法能够在不同的网络环境中自适应调整拥塞控制策略，保障异构天地一体化网络端到端的传输质量。具体的，该方法基于多目标强化学习拟合完整的帕累托最优边界，能够在不同偏好设置下输出对应的最优拥塞控制策略，结合偏好自适应模型，该方法能够自动识别网络环境，自动选择合适偏好，智能调整拥塞控制策略。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种天地一体化信息网络智能拥塞控制方法，其特征在于，包括：

步骤S4：根据接收端返回的ACK，统计网络状态，组装网络状态序列；以偏好自适应模型训练集为输入，基于有监督机器学习方法，训练偏好自适应模型，该偏好自适应模型以网络状态序列作为输入，识别网络环境，自动选择该网络环境下的最优偏好；

步骤S5：将多目标策略模型和偏好自适应模型部署在设备协议栈传输层，设备根据ACK统计网络状态，将网络状态序列输入偏好自适应模型获取合适偏好，将网络状态和偏好同时输入多目标策略模型获取发送速率的调整方法，并调整发送端发送速率；

所述步骤S1具体包括：将拥塞控制建模为带延迟动作的多目标马尔可夫随机过程；

其中，为状态空间，包含发送端根据ACK统计的状态数据；/>为动作空间，包含对发送速率的调整方式；/>为马尔科夫转移模型，描述之前状态在特定动作后转移到下一状态的概率；/>为多维优化目标；/>为偏好空间，包含优化目标的权重；

所述延迟动作在马尔科夫转移模型中，当前状态受到上一状态、上一发送速率以及再之前的状态和发送速率影响；

所述步骤S3中最优拥塞控制策略包括：利用动作空间中的动作，将发送速率收敛至可用带宽；假设c为链路容量，则最优拥塞控制策略表示为：

其中，是t时刻发送速率；/>表示第/>次迭代时的动作；/>表示从动作空间/>中采用动作/>；/>为将应用动作/>后的发送速率，/>是二进制函数，该函数等于1当且仅当/>。

2.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2包括：演员-评论家深度神经网络包含演员网络和评论家网络；

3.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2中每个多目标强化学习代理在随机产生的网络环境中进行M轮训练包含以下步骤：

步骤S2.1：初始化当前迭代次数，定义网络环境带宽范围、时延范围、丢包率范围、队列长度范围以及偏好范围，预设总训练迭代次数M；

步骤S2.3：随机采样带宽、时延、丢包率、队列长度以及偏好，并使用网络模拟器创建对应网络环境；

步骤S2.4：采用提前终止策略确定当前环境交互次数，即根据训练迭代次数，逐渐增长与环境交互次数，定义为初始步长，/>为步长增长速度，则与环境的交互次数为；

步骤S2.5：代理与环境交互次，在每一次交互过程中，发送端根据ACK统计状态，并将状态和偏好输入本地深度神经网络，生成预测值，并基于Bellman方程计算策略的目标值，然后计算目标值和神经网络预测值的均方误差，并基于同伦优化构建损失函数，计算梯度更新本地神经网络；

步骤S2.6：代理完成与环境交互次后，代理更新全局神经网络，更新/>，当时回到步骤S2.2，否则输出全局神经网络为最终多目标策略模型。

4.根据权利要求3所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2.5中基于Bellman方程计算策略的目标值包括：目标值

其中，为奖励函数输出的奖励值；/>为人为设置的折扣系数；/>为多目标Q值函数；/>是神经网络的参数；/>是偏好，即优化目标的权重；/>表示偏好/>的转置；/>是当前网络状态；/>是动作空间的发送速率调整方法，/>表示在神经网络参数为/>的情况下，输入当前网络状态/>和当前偏好/>，在动作/>情况下的Q值，/>表示期望。

5.根据权利要求4所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S2.5中基于同伦优化的损失函数构建包括：将目标值和神经网络预测值的均方误差作为原损失函数：

其中，表示二范数的平方；再构建平滑连续的辅助损失函数：

其中，为权重，其数值随着训练的进行从0逐渐增长至1，从而整体损失函数随着训练的进行从辅助损失函数过渡到原损失函数。

6.根据权利要求1所述的天地一体化信息网络智能拥塞控制方法，其特征在于，所述步骤S3中策略相似度包括：将两个策略的累积奖励函数拟合为两个多元高斯分布，计算两个多元高斯分布的相似度，所述相似度的计算方式包括高斯分布的Kullback-Leibler 散度。

7.一种天地一体化信息网络智能拥塞控制系统，其特征在于，基于权利要求1-6任意一项所述的天地一体化信息网络智能拥塞控制方法，包括：

8.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。