CN116939761A

CN116939761A - 一种基于强化学习的空地协同路由方法

Info

Publication number: CN116939761A
Application number: CN202310922620.XA
Authority: CN
Inventors: 李婕; 刘安琪; 张钰涵; 王峰; 李自川; 王兴伟
Original assignee: 东北大学
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-24

Abstract

本发明提供一种基于强化学习的空地协同路由方法，为满足空地协同需求，根据无人机群以及地面无人车群，使用SDN设计了一个面向空地协同背景的网络拓扑模型，根据SDN构建空地协同网络拓扑模型的网络连接拓扑，构建强化学习模型，基于单域控制网络架构整合整个动态化网络拓扑信息并根据强化学习实时地进行路由决定策略，在控制器中结合网络拓扑状态感知机制得到拓扑的变化信息，域内域控制器使用强化智能体实现自学习路由路径控制。与传统的路由算法相比降低了路由的链路时延，提高了空地协同网络传输时效性，由于本发明具有很好的泛化能力，解决了空地协同网络的高动态性带来的不确定性问题。

Description

一种基于强化学习的空地协同路由方法

技术领域

本发明涉及资源分发技术领域，具体涉及一种基于强化学习的空地协同路由方法。

背景技术

传统应急救援网络主要由卫星网络和地面网络两层架构组成。无人机使得救援网络在原来的两层架构的基础上增加了天空网络层。天空网络是以无人机为载体的空中移动系统，在此系统中，无人机的任务是进行信息采集、传输和处理。与传统的地面网络中的基站模式相比，天空网络具有成本低、部署方便、覆盖范围大等特点。

论文《基于多路广播树的SDN多路径路由算法》中提出了一种基于多路广播树的SDN多路径路由方法。该文献使用多路广播树，通过增加空间的复杂度来减少时间的复杂度实现路径的快速查找。该文献利用路径的可用带宽以及链路时延进行概率计算，选择可用带宽大以及链路时延小的路径作为最优路径。该方法具有较好的性能，并且很好的降低了链路时延并且增加了网络的吞吐量。该文献的核心是构建广播树。由于广播树所需的空间会随着网络规模的增大而不断增大，当网络规模足够大时，会给内存带来巨大的负担。

论文《软件定义数据中心网络基于分支界限法的多路径路由算法》中提出一种基于分支界限法的多路径路由方法。该文献考虑数据中心网络中大、小数据流对网络性能具有不同要求的问题。该文献利用利用分支限界法获取链路带宽大、链路时延小的网络子集，依据大、小流各自性能要求在网络子集中选择不同的路由路径。该方法降低了分组端到端时延、增加了网络吞吐量以及平均链路利用率。该文献的核心是构建Fat-Tree(胖树)拓扑。同样，由于胖树拓扑要求根部交换机必须要有足够大的带宽来满足下层服务器之间的通信。当面对大规模的网络时会增加网络的能耗。

发明内容

针对现有技术的不足，本发明的目的是提供一种基于强化学习的空地协同路由方法，在可移动网络拓扑中进行路由决策，提高网络拓扑的高度动态化程度，基于单域控制网络架构整合整个动态化网络拓扑信息并根据强化学习实时地进行路由决定策略，在控制器中结合网络拓扑状态感知机制得到拓扑变化信息，域控制器使用强化智能体实现自学习路由路径控制，降低路由信息传输时延，提高空地协同网络传输时效性。

本发明提出的一种基于强化学习的空地协同路由方法，包括：

步骤1：根据无人机群以及地面无人车群构建空地协同网络拓扑模型；

步骤2：根据SDN构建空地协同网络拓扑模型的网络连接拓扑；

步骤3：构建强化学习模型，并不断调整强化学习模型中的期望奖励值得到训练后的强化学习模型；

步骤4：针对待预测的空地协同网络拓扑模型，利用训练后的强化学习模型输出链路时延最小的路由路径。

所述步骤1中所述空地协同网络拓扑模型包括卫星网络层、地面网络层、天空网络层；其中根据无人机群构建空网络层，根据地面无人车群构建地面网络层。

所述步骤2包括：

步骤2.1：将无人机群中功率大于设定阈值Wg，并且能源存储量大于设定阈值Gg的无人机作为域控制器，构成SDN的控制平面，剩余的其他无人机作为交换机构成SDN的数据平面；

步骤2.2：将控制平面以及数据平面的无人机节点以及无人车节点进行相互连接构成网络连接拓扑。

所述步骤3包括：

步骤3.1：利用域控制器初始化强化学习模型中的智能体，并获取网络状态信息；

步骤3.2：构建强化学习模块中的状态空间，所述状态空间为键值字典，将流作为键，每个流的所有路径作为每个键的值；

步骤3.3：构建强化学习模块中的动作空间，所述动作空间为包含根据当前流路径的动作集合。

步骤3.4：将链路时延的负值作为奖励值构建强化学习模块中的奖励；

步骤3.5：根据状态空间、动作空间以及奖励值构建Q表；

步骤3.6：设置最大迭代次数，智能体根据期望奖励值进行Q表参数的更新，当达到最大迭代次数后，得到最优的强化学习模型。

所述步骤3.1包括：

步骤3.1.1：分别确定无人机群、无人机群车中的源节点和目标节点；

步骤3.1.2：将源节点到目标节点之间的数据传输过程标记为流；

步骤3.1.3：根据深度优先搜索策略来确定所有流对应的路径；

步骤3.1.4：根据网络间相互通信获得每组路径相应的链路时延。

所述步骤3.5具体表述为：Q表的每一行代表每个状态，每一列代表每个动作，表中的数值q表示在各个状态下采取各个动作时能够获得的最大的未来期望奖励。

本发明的有益效果是：

本发明提出了一种基于强化学习的空地协同路由方法，使用软件定义网络(Software Defined Network，SDN)设计了一个面向空地协同背景的网络拓扑模型，基于单域控制网络架构整合整个动态化网络拓扑信息并根据强化学习实时地进行路由决定策略，在控制器中结合网络拓扑状态感知机制得到拓扑的变化信息，域内域控制器使用强化智能体实现自学习路由路径控制，降低了路由信息传输时延，提高了空地协同网络传输时效性。

附图说明

图1为本发明中基于强化学习的空地协同路由方法流程图；

图2为本发明空地协同网络架构图；

图3为本发明中控制器与网络拓扑关系图；

图4为本发明中智能体与环境状态之间的交互图；

图5为本发明中测试过程中链路时延数据图；

图6为本发明中模拟动作对应的奖励值图；

图7为本发明中与传统的最短路径相比的时延图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。本发明提出了一种基于强化学习的空地协同路由方法，根据需求设计网络拓扑模型，将具有相同源主机和目的主机的数据包作为键，当前路径作为每个键的值设置为状态空间，路径矩阵作为动作，链路时延的负值作为奖励值，设计强化学习模型；对空地协同系统引入SDN组网架构技术对本方法所需网络拓扑进行组网；针对动态化拓扑设计强化学习模型，用于域内路由决策，将强化学习模型应用到移动变化的拓扑；网络拓扑具有移动交换机节点，在网络拓扑中，可以添加或减少交换机，可以满足空地协同需求，高度提高网络拓扑的动态化程度。

如图1所示，一种基于强化学习的空地协同路由方法，包括：

步骤1：根据无人机群以及地面无人车群构建空地协同网络拓扑模型；所述空地协同网络拓扑模型包括卫星网络层、地面网络层、天空网络层；其中根据无人机群构建空网络层，根据地面无人车群构建地面网络层；

如图2所示，本发明在传统应急救援系统的卫星网络和地面网络两层外添加了天空网络层，并将无人机群作为应急救援网络的天空网络层，网络拓扑因此具有动态变化的特性。无人机的任务是进行信息采集、传输和处理。与传统的地面网络中的基站模式相比，天空网络具有成本低、部署方便、覆盖范围大等特点。同时无人机群具有机动性强、视野宽阔、不受地形限制等优点。在应急救援任务中，无人机群对灾后地区进行快速侦察，获取受损的建筑物信息，传递给地面系统。

步骤2：根据SDN构建空地协同网络拓扑模型的网络连接拓扑；包括：

步骤2.2：将控制平面以及数据平面的无人机节点以及无人车节点进行相互连接构成网络连接拓扑；实现以最小化链路时延为目的控制器部署模型，该模型能够同时确定最优控制器的数量、位置、类型以及网络元件之间的连接关系。旨在满足给定延迟的情况下，确保交换机和与控制器间必要连接，同时尽可能多的关闭链路以降低能耗，控制器与网络拓扑关系图如图3所示。

步骤3：构建强化学习模型，并不断调整强化学习模型中的期望奖励值得到训练后的强化学习模型；包括：

步骤3.1：利用域控制器初始化强化学习模型中的智能体，并获取网络状态信息；控制器的网络拓扑状态感知机制得到拓扑的变化信息，控制器收集链路时延的数据；

步骤3.1.3：根据深度优先搜索策略来确定所有流对应的所有可能路径；

步骤3.1.4：根据网络间相互通信获得每组路径相应的链路时延；

将所有可能的路径组合以及链路时延作为强化学习模型的输入；

步骤3.2：构建强化学习模块中的状态空间；

只考虑单播通信流，即将数据从给定主机发送到另一个独立主机的流。针对给定的应用程序或传输层上下文的数据传输，例如给定传输控制协议(TCP)流，从给定源主机sf到给定目标主机df的数据传输记作流f，把所有流的集合表示为F。假设流f将规定的流量速率Rf从源主机sf传输到网络中。路径P(sf，df)，P∈P(sf,df)＝{P(sf,df,1),P(sf,df,2),...}连接源主机sf和目标主机df的序列集。其中，该路径P(sf，df)可以由图形搜索算法如深度搜索策略(DFS)来确定。

通过测量t时刻(t＝0,1,2,....)所需的关键性能指标来观察链路时延从而训练强化学习的智能体，观测结果包括环境状态的S＝{S1,S2,...}和奖励Rt，状态St包含一个表，其中包含每个流f当前选择的路径P。

状态空间本质上是一个键值字典，流作为键，当前路径作为每个键的值，方便从编程实现的角度直接表示状态空间。这一组键值字典只是状态空间的一种可能的实现。这些状态也可以被表示为一个列表，它可以直接映射到用于深度强化学习的神经网络的输入中。本次状态动作空间设计直接代表了来自状态动作空间设计的流路线。

步骤3.3：构建强化学习模块中的动作空间；

根据状态St及奖励Rt，在动作集合A选择一个动作At(某一组动作A取决于当前状态St)。动作集合A＝{At1，At2，...}由一组可能的路径决定，包括当前流f的路径P(sf，df)。然后选择其中一个可能的路径来替换或保持当前路径。该操作本质上改变了表示状态空间的键值字典中的键和流的值，也就是改变了当前路径。马尔可夫决策过程的状态的变化是非确定性的，但是本次网络环境是一个基于SDN网络拓扑模型。也就是说，在进行一个新的路由选择动作后路由路径将如何变化是确定的。为SDN路由设计一个实际的状态-动作空间，本方法只考虑状态空间和动作空间中的路由。因此通过状态和动作空间设计，路由操作直接与状态相关，并可以直接在SDN中实现。

使用奖励Rt+1来体现某个动作解决了路由问题的优劣。出于复杂环境网络对路由低延迟的要求，本发明的评估考虑链路的时延。智能体与环境之间的交互作用如图4所示。

计算的公式如下所示：

Q(St,At)＝(1-α)Q(St,At)+α(Rt+1+γmaxa∈A Q(St+1,a))

学习速率α采用迭代学习的q值的速度。γ表示了如何考虑未来的预期回报。未来的预期回报由Q(St+1，a)表示，它基本上表达了如果采取了最高价值的行动a，我们可以得到多少奖励。每个状态动作对及其相应的Q值都需要保存在一个表格数据结构中。对于SDN路由问题，使用嵌套字典实现了Q-table字典表，其中不同的状态S是键，实际的q作为值。使用q＝-∞初始化该表，并采用随机路由动作。此外，在等式的初始迭代中，将q设置为0，令下一次学习可以进行q值迭代更新。

步骤3.5：根据状态空间、动作空间以及奖励值构建Q表；

步骤3.6：设置最大迭代次数，智能体根据期望奖励值进行Q表参数的更新，当达到最大迭代次数后，得到最优的强化学习模型。每条流根据强化学习模型得出的最优的Q表进行查询，选择奖励值最高的路径作为最终选择的最优路径。

通过在不同的网络上使用不同的路由路径来实现细粒度的网络性能优化。域控制器负责域内通信及路径计算，收集域内链路时延。在域控制器使用强化学习模型，以链路时延指标进行分析，计算出域内转发路径。

根据状态St及奖励Rt，在动作集合A选择一个动作At(某一组动作A取决于当前状态St)。动作集合A＝{At1，At2，...}由一组可能的路径决定，包括当前流f的路径。然后选择其中一个可能的路径来替换或保持当前路径。该操作本质上改变了表示状态空间Q表的值，也就是改变了当前路径。马尔可夫决策过程的状态的变化是非确定性的，但是本次网络环境是一个基于SDN网络拓扑模型。也就是说，在进行一个新的路由选择动作后路由路径将如何变化是确定的。

使用奖励Rt+1来体现某个动作的优劣。出于复杂环境网络对路由低延迟的要求，本发明中奖励为链路时延的负值。

为了验证本发明的有效性，仿真实验设计如下：

本方法开发环境为：

操作系统是Windows 10Version 1909，虚拟机环境为VMware Workstation15Pro，虚拟机系统为Ubuntu 20.04。

本方法测试环境的软件版本为：

Ryu控制器4.34，Open vSwitch2.3.0，mininet-wifi仿真平台v2.4.3，openflow协议v1.3；

本发明针对灾后应急救援场景，需要设计高度动态变化网络拓扑模型，在虚拟机环境中对网络拓扑进行测试，验证网络拓扑是否满足课题需求。使用python运行拓扑时可直接从mininet-wifi graph查看。

根据交换机在不同时刻的位置变化图可以看出交换机的移动性，以及可以通过已定义的位置参数模拟出作为交换机的无人机节点在移动过程中覆盖的范围(AP覆盖的范围默认为45个单位长度)。启动控制器，运行网络拓扑。此时控制器进行路由决策，算法使用深度优先搜索策略确定路径P(sf，df)。

通过多次对三组主机间传输数据，可以得到智能体运算奖励过程然后得到路由决策。在路由决策过程中可以得到每一步的链路时延。对每一步的链路时延数据进行可视化如图5所示。本发明方法在迭代时进行模拟动作时，得出每一动作所对应的奖励值。现将奖励值数据可视化后如图6所示。

根据图5与图6数据可视化后的图可知，对每步动作的奖励是依据延时这一指标来进行衡量的，这符合理论上对奖励机制的设计，验证了本发明方法对奖励机制设计的可行性。本发明方法与传统的最短路径方法相比，链路时延有着明显的减少，如图7所示。

结果表明：本发明设计的强化学习模型能够在短时间内达到收敛，且可以迁移到不同拓扑的网络，与链路状态路由协议OSPF等传统路由协议相比具有更好的性能。

Claims

1.一种基于强化学习的空地协同路由方法，其特征在于，包括：

步骤2：根据SDN构建空地协同网络拓扑模型的网络连接拓扑；

2.根据权利要求1所述的一种基于强化学习的空地协同路由方法，其特征在于，所述步骤1中所述空地协同网络拓扑模型包括卫星网络层、地面网络层、天空网络层；其中根据无人机群构建空网络层，根据地面无人车群构建地面网络层。

3.根据权利要求1所述的一种基于强化学习的空地协同路由方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述的一种基于强化学习的空地协同路由方法，其特征在于，所述步骤3包括：

步骤3.2：构建强化学习模块中的状态空间；

步骤3.3：构建强化学习模块中的动作空间；

步骤3.5：根据状态空间、动作空间以及奖励值构建Q表；

5.根据权利要求4所述的一种基于强化学习的空地协同路由方法，其特征在于，所述步骤3.1包括：

6.根据权利要求4所述的一种基于强化学习的空地协同路由方法，其特征在于，所述状态空间为键值字典，将流作为键，每个流的所有路径作为每个键的值；

所述动作空间为包含根据当前流路径的动作集合。

7.根据权利要求4所述的一种基于强化学习的空地协同路由方法，其特征在于，所述步骤3.5具体表述为：Q表的每一行代表每个状态，每一列代表每个动作，表中的数值q表示在各个状态下采取各个动作时能够获得的最大的未来期望奖励。