CN115941579B

CN115941579B - 一种基于深度强化学习的混合路由方法

Info

Publication number: CN115941579B
Application number: CN202211408095.1A
Authority: CN
Inventors: 霍如; 沙宗轩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2024-04-26
Anticipated expiration: 2042-11-10
Also published as: CN115941579A

Abstract

本发明提供了一种基于深度强化学习的混合路由方法。该算法利用任务信息和链路状态信息，筛选当前负载率较低的满足多路径传输的子链路，产生逐跳的混合路由。这种混合路由在路径选择上是单路径和多路径的融合。从网络整体看，具有更好的负载均衡性能。混合路由优化算法优化了传输路径，减少了参与数据传输的链路数量，缩短了由于多路径传输带来了传输效率的损失。这种方法在SDN场景中，还可以减少交换机与控制器通信的频率，对降低网络内部的通信成本起到了很好的作用。考虑到对数据流细粒度的流量分割，本发明设计了一种基于DRL的流量分割模型，该模型输出链路权重，并根据链路可用性以及softmax函数产生分流比，实现逐跳的流量分割，使网络负载更均衡。

Description

一种基于深度强化学习的混合路由方法

技术领域

本发明属于通信技术领域。

背景技术

通信技术的发展极大扩展了网络应用范围，衍生出了物联网(Internetof Thing，IoT)、无线传感器网络(Wireless Sensor Network，WSN)、移动边缘计算(Mobile EdgeComputing，MEC)以及其他网络场景。大量设备的部署导致了网络业务的快速增长。因此，今天的网络不再像传统的有线网络那样稳定。动态的网络状态为保证各种类型的流量任务的服务质量(Quality of Service,QoS)带来了挑战。然而网络硬件设备的升级，不仅成本很高，而且对性能的提高也有一定局限性。软件定义网络(Software-Defined Networking，SDN)是下一代网络的核心技术，是一种动态、可管理、低成本、适应性强的新兴体系结构。这些特征使其成为满足当今应用程序高带宽、动态特性的理想选择。SDN采用开放分层的架构，将网络控制和转发功能分离开来，使网络控制可以直接编程，底层转发设备可以抽象为应用程序和网络服务。SDN架构如图1所示。

路由规划是数据传输过程中的一个前置且重要的环节，合理高效的路由规划是保证网络性能稳定的基石。传统的启发式路由规划方法解决了基于简化或不准确的环境模型的网络优化问题，通过对环境和路由方案的建模，实现复杂条件下的流量调度。例如，在基于遗传算法的QoS路由算法中，用链路特性四元组描述网络结构，并构建延迟、带宽、抖动等约束求解路由问题。这种方式需要大量准确的前期建模工作，模型的精确度会直接影响输出的路由方案性能。但随着网络环境越来越复杂，一方面是网络拓扑的复杂化，另一方面是随着大量异构设备的部署以及网络业务种类的增加，使网络呈现动态变化的特点。在动态环境下，启发式方法无法保证QoS。因此，利用SDN架构对流量任务进行灵活的路由规划是一种更合理的实现方案。例如，在基于SDN和机器学习的多媒体业务流量加速系统中，利用控制器采集全局网络信息，通过流量分类模块对导入的流量任务进行分类，识别该任务对应的流量需求；再根据路径选择模块计算相应的路由策略，在路径可达的基础上，满足流量需求各参量的要求。

传统的启发式算法，需要对网络环境和算法模型的精确建模。这种方法对动态环境的适应性较差，越来越无法适应当前的网络环境。例如使用节点和链路之间的关系及特征构建网络结构，如果因新设备的部署或设备链路故障导致网络拓扑发生变化，则需要重新构建新模型求解路由问题。鉴于机器学习和SDN的快速发展，数据驱动的路由方法提供了通过流量分析和策略生成来提高网络性能的新机会。目前基于机器学习的SDN路由方法主要可以分成两类，分别是：单路径方法和多路径方法。在单路径方法中，通过采集全局信息，利用在控制器中部署的路由算法，计算出端到端的最优传输路径。与传统的启发式方法相比，基于机器学习的方法可以产生更灵活的路由策略，可根据链路状态和网络拓扑的变化及时调整输出路由。虽然基于机器学习的SDN单路径方法具有较强的动态环境适应能力，但由于输出单条传输路径，即将流量负载加载到一条传输链路上，容易产生网络链路负载不均衡的问题，特别是在网络拓扑中占具重要位置的链路，其负载程度可能常常保持在较高水平。在SDN架构中，过高的负载会使交换机的处理能力快速下降，进而影响数据传输时延。多路径路由具有更好的负载均衡性能。基于机器学习的多路径路由方法，采集全局网络状态信息，评估全部链路的状态，并由此计算得到k条不相交的子路径，并将流量负载按照比例分割，利用k条子路径同时传输。但更多的传输路径也意味着参与传输任务的交换机数量增加。此外，所有子路径的传输效率均会影响任务完成的最终时间。

发明内容

针对SDN架构下，单路径路由可能引起负载不均衡的问题，而多路径路由通常将流量负载按照算法分割到全部可用的子路径上，对网络负载均衡性能提升存在不足的问题。本发明设计了一种基于深度强化学习(Deep reinforcement learning，DRL)的面向任务混合路由方法。该方法通过输出融合了单路径和多路径的混合路由，将流量数据尽可能加载到负载率低的一条或多条路径上，并利用DRL模型得到细粒度的分流比，在优化链路负载的同时降低参与流量任务的转发设备和链路数量。该方法克服了启发式方法对动态环境适应性不足的问题，即使网络拓扑和状态发生变化，也可以根据环境状态及时调整传输路由和分流比。并且，与基于机器学习的SDN路由方法相比提升了网络负载均衡性能，以及缩短任务完成时间。

对于不同类型的网络服务，即使具有相同的源节点和目的节点，如果任务所需要的带宽资源不同，其路由策略也应根据任务需求进行调整。为了提升网络负载均衡性能，本发明在SDN架构下，针对不同流量任务的不同需求，设计了进行路由优化和细粒度流量分割的方法，包含以下功能：

1.在SDN架构下，设计了一种基于深度强化学习的面向任务混合路由方法，并部署在控制平面，方法架构图如图2所示。该方法包含了一个混合路由优化算法和流量分割模型，结合任务信息和网络状态信息，产生混合路由数据传输策略，能够有效融合单路径传输效率高和多路径负载均衡的优点，实现混合路由的优化，更优秀的负载均衡性能，提升网络整体稳定性；细粒度的流量分割；以及降低参与数据传输的链路数量。

2.本发明设计了一种混合路由优化方法。描述了结合流量任务信息和网络状态矩阵信息产生混合路由的过程。随着网络服务数量快速增加，不同流量任务对网络资源的需求不同。因此需要针对任务输出数据传输路由。考虑到单路径路由的负载均衡性能差；而多路径路由将流量分割到全部可用的子路径上，不仅数据传输效率低，且路由灵活性和负载均衡性能仍有提升的空间。本发明设计的混合路由优化算法结合网络状态矩阵和当前任务信息，产生融合了单路径和多路径的混合路由。如图3所示。图3(a)显示了在传统多路径路由方法中，当有任务从n₁发送数据到n₈，流量会被分割加载到全部的可用子路径上。这种方法生成的传输策略与任务本身无关。本发明设计的混合路由方法结合任务需求，在传统多路径方法的基础上进行简化。假设当前任务需求带宽为b_req，流量从n₁开始传输。从图3中可看出，n₁的下一跳有三个可用节点，分别是n₂，n₃和n₄，对应链路n₁→n₂，n₁→n₃，n₁→n₄。每条链路具有的可用带宽为b_1,2，b_1,3和b_1,4。假设存在b_1,3+b_req同时小于b_1,2和b_1,4，那么在第一跳，流量负载仅从n₁→n₃上传输，不进行数据分流，并将网络状态矩阵中对应的n₁→n₃链路可用性值置为1。在n₃节点处，同样利用b_req和邻接链路的可用带宽判断可用于传输当前任务流量的链路。如果b_3,6+b_req以及b_3,7+b_req均小于b_3,5，那么当前任务的流量在n₃处可分割到n₃→n₆和n₃→n₇两个子链路上。在后续的节点上重复利用任务需求和链路带宽进行可用性判断，以此输出针对任务的混合路由方案。

本发明设计的混合路由优化算法，通过比较当前任务所需的带宽以及链路可用带宽，产生针对特定任务的混合路由。该方法可简化传统多路径，减少参与任务的设备和链路数量；同时，还具有实现更好负载均衡的功能。混合路由优化算法流程如图4所示。

(1)系统初始化，包括网络状态矩阵、任务列表和路由表；

(2)从任务列表中，获取源节点、目的节点和任务所需带宽信息，同时将源节点设置为当前节点；

(3)遍历与当前节点连接的全部链路，并将带宽信息写入list_cur列表中；

(4)将进行list_cur按照从小到大的顺序排序；

(5)按照索引顺序分别根据list_cur[i+1]–list_cur[i]>b_req进行判断；如果不满足该条件，则令索引指针i加1，继续进行判断，如果满足该条件，则继续步骤(6)；

(6)截取list_cur列表中索引从0至i+1的元素。步骤(4)-(6)的目的是选择出i+1个低负载链路用于在该节点的数据分流。特别地，如果i＝0，那么在该节点即执行单路径传输；

(7)根据list_cur列表中的链路信息，更新路由表中与当前节点相关的下一跳信息，更新网络状态矩阵中与当前节点相关的链路可用性信息，即在list_cur列表中的链路可用性置为1，其他链路可用性置为0；

(8)将下一跳节点设置为当前节点；

(9)如果当前节点为目的节点，则退出循环，否则返回步骤(3)；

(10)结束，输出从源节点到目的节点的混合路由。

3.设计了一种基于DRL的流量分割模型，结构如图5所示。假设网络中节点数量为n，链路数量为k。n_cur和n_nexthop是标识当前节点和下一跳节点的表示向量，向量维度与网络中节点数量一致，为n维。b_i,j表示全部链路可用带宽，维度与网络中链路数量一致，为k维。b_req表示当前任务需求带宽的标量，为1维。因此，该模型的输入向量[n_cur,n_nexthop,b_i,j,b_req]为2n+k+1维。该输入向量也对应DRL模型在t时刻观察到的状态，即s_t＝[n_cur,n_nexthop,b_i,j,b_req]。该模型中间包含两个隐藏层，分别有128个神经元，激活函数为Relu。模型的输出为k维的链路权重向量。链路可用性向量也是k维的，该向量从网络状态矩阵中获取执行当前流量任务时该链路是否可用，每位元素用1和0表示。通过将链路权重向量与链路可用性向量逐位相乘，过滤出针对当前任务可用链路的权重，再经过softmax归一化指数函数，产生混合路由的逐跳分流比，即为DRL模型在t时刻执行的动作a_t＝softmax(链路权重向量×链路可用性向量)。在执行完该动作后，环境转移到t+1时刻的状态s_t+1。

该模型的输入向量的维度与网络拓扑和任务信息有关，输出向量的维度仅和网络状态有关，实现了针对流量任务的数据分流，以及输出向量维度与网络拓扑解耦的功能。即在网络拓扑已知的情况下，即使链路可用性发生变化，该模型输出向量的维度依然可以保持不变，增强模型应对动态网络环境的适应性。

4.设计了一种同时考虑优化网络负载均衡性能以及任务完成时间的奖励函数。奖励函数定义为Reward＝αV^uti-βV^FTT，表示该DRL模型在t时刻执行动作a_t后从环境反馈的奖励值，即r_t，在本发明中取α＝0.9，β＝0.2。式中表示链路可用性方差。其中usage_i,j＝thr_i,j/b_i,j表示链路n_i→n_j负载率，thr_i,j为链路n_i→n_j的吞吐量，m为链路数量，/>为负载率均值。V^FTT＝t_current-t_start表示流量传输时间，t_current和t_start分别表示当前时刻和任务开始时刻。本发明设计该奖励函数，以尽可能提升负载均衡性能和降低任务传输时间为目标，引导DRL模型训练。

该函数作用于模型在根据自身策略执行动作之后，环境根据奖励函数评价模型输出的动作，是模型的优化目标。通过迭代训练，使DRL模型在执行分流操作后，能够最大化从环境获得的累计奖励，实现更好的传输性能。同时，该奖励函数具有同时考虑负载均衡以及任务完成时间两方面目标的功能，避免了传统方法优化目标单一的问题。

5.本发明设计了一种SDN场景下的DRL模型训练流程。描述了数据平面异步更新网络状态信息，DRL模型在每一个时间步，根据任务信息和网络状态信息产生模型输入状态，并结合奖励与环境下一个状态共同产生训练样本。在控制平面部署用于保存训练样本的样本池。通过从样本池中抽样引导模型训练，实现了随着流量任务的执行，DRL模型与环境交互自主学习以优化路由策略的功能。模型训练流程如图6所示。

(1)根据任务信息，和经过混合路由优化后的链路信息状态，产生DRL模型的输入状态s_t＝[n_cur,n_nexthop,b_i,j,b_req]，其中和分表是当前节点和下一跳节点的表示向量，为n维。b_i,j表示链路带宽信息，为k维。b_req表示任务所需带宽，为1维。输入状态整体为2n+k+1维；

(2)模型在状态s_t下，基于自身策略产生动作a_t；

(3)模型执行动作a_t，环境反馈奖励r_t，并转移到下一个状态s_t+1；

(4)形成模型训练样本[s_t,a_t,r_t,s_t+1]放入样本池；

(5)将下一跳节点设置为当前节点；

(6)如果当前节点不是目的节点，返回步骤(2)，否则继续步骤(7)

(7)完成当前任务；

(8)从样本池中随机采样，通过最大化累计奖励的期望进行模型训练。

根据上面的描述，本发明设计的基于深度强化学习的面向任务混合路由方法，考虑了随着网络环境的愈发复杂，传统路由方法无法针对任务需求调整输出路由，且负载均衡性能有待提高的问题，首先设计了一种混合路由优化算法，该算法利用任务信息和链路状态信息，筛选当前负载率较低的满足多路径传输的子链路，产生逐跳的混合路由。这种混合路由在路径选择上是单路径和多路径的融合。从网络整体看，具有更好的负载均衡性能。此外，混合路由优化算法与传统多路径方法相比，优化了传输路径，减少了参与数据传输的链路数量，缩短了由于多路径传输带来了传输效率的损失。这种方法在SDN场景中，还可以减少交换机与控制器通信的频率，对降低网络内部的通信成本起到了很好的作用。考虑到对数据流细粒度的流量分割，本发明设计了一种基于DRL的流量分割模型，该模型输出链路权重，并根据链路可用性以及softmax函数产生分流比，实现逐跳的流量分割，使网络负载更均衡。

附图说明

图1SDN架构

图2基于深度强化学习的面向任务混合路由方法架构图

图3多路径路由和混合路由对比图

图4混合路由优化算法流程图

图5基于DRL的流量分割模型输出分流比

图6DRL模型训练流程图

具体实施方式

1.本发明提出了一种基于深度强化学习的面向任务混合路由方法。通过在SDN的控制层部署该方法，采集数据平面的状态数据，并利用任务信息产生混合路由。混合路由融合了单路径路由和多路径路由的有点，在保证负载均衡性能前提下，尽量减少参与数据传输的设备和链路数量，缩短任务完成时间。该方法在具有多种流量任务的SDN应用场景中，对于提升网络负载均衡性能起到了很好的支撑作用。

2.本发明提出了一种混合路由优化算法。通过流量任务所需带宽和链路带宽信息，选择负载率低且满足分流条件的链路，作为当前节点分流的可用路径。如果仅有一条链路满足条件，那么在当前节点执行单路径传输，如果有多条路径满足条件，则执行多路径传输。混合路由优化算法输出的传输路由与任务需求紧密相关，即使源节点和目的节点相同的任务，如果具有不同的带宽需求，其传输路径可能也不相同。对于包含多类型流量任务的动态网络中，具有更好的灵活性以及负载均衡性能。

3.本发明设计了一种基于DRL的流量分割模型。该模型利用RL算法自主学习机制，通过模型与环境的交互产生样本，并利用奖励函数引导模型向累计奖励更高的方向调整自身参数，不断优化输出的分流策略。该模型的输入向量与任务需求紧密相关，包括当前节点、下一跳节点的表示向量和任务需求带宽，并结合链路状态信息，产生链路权重。通过与链路可用性逐位相乘，再经过softmax函数产生分流比，实现了无需改变模型结构即可适应不同数量的分流链路，具有很好的鲁棒性。

4.本发明设计了一种综合考虑了流量任务完成时间和负载均衡状态的DRL奖励函数。该奖励函数提出了两方面的优化目标。在模型执行动作之后，通过该奖励函数评估执行动作的好坏。模型调整自身参数以提升模型输出累计奖励最大化的动作的可能性。由于该奖励函数同时考虑了流量任务完成时间和负载均衡状态，避免了传统算法优化目标单一的问题。

5.设计了一种适用本发明面向任务混合理由方法的DRL模型训练流程。该流程描述了基于DRL的流量分割模型的训练过程。包括从任务列表中获取当前任务信息，控制平面从数据平面获取链路状态信息，形成状态向量后，利用DRL产生相应动作。环境根据该动作反馈奖励并转移到下一个状态，完成一个时间步，同时产生一个训练样本。该样本被保存在样本池中，在完成一个任务后，模型从样本池中随机采样，进行参数训练，以优化输出策略。

本发明设计的一种基于深度强化学习的面向任务混合路由方法的具体实施过程如下：依托SDN数据平面和控制平面分离的开放分层架构，部署本发明方法在SDN架构的控制平面，包含了一个混合路由优化算法和流量分割模型。混合路由优化算法首先获取的网络状态数据，从任务源节点开始，将全部的下一跳可用链路按照剩余带宽从小到大的顺序排序，与流量任务数据比较，选择负载率低且满足传输条件的子路径。如果仅有一个子路径满足条件，则在该跳执行单路径传输，如果有多个子链路满足条件，则执行多路径传输，并在后续的节点上重复利用任务需求和链路带宽进行可用性判断，以此输出针对任务的混合路由方案。流量分割模型基于DRL实现，模型根据混合路由方案和任务需求形成输入向量，经过神经网络产生链路权重。将链路权重向量与从网络状态矩阵获取的链路可用性向量逐位相乘，再经过softmax函数后，产生混合路由分流比。SDN控制平面在执行分流操作后，网络进入下一个状态，并根据本发明设计的综合考虑了流量任务完成时间和负载均衡状态的DRL奖励函数，获得刚刚执行步骤的奖励值，即判断所执行的分流操作的好坏，同时，形成一个训练样本存入经验池中。流量分割模型通过不断执行流量任务，产生大量训练样本，并从经验池中随机抽取样本进行模型训练。由于奖励函数综合考虑了任务完成时间和负载均衡性能，因此，模型会朝着最大化奖励函数的方向调整参数，即尽可能缩短任务完成时间，同时保证网络负载均衡性能，最终实现本发明预期实现的效果。

Claims

1.一种基于深度强化学习的混合路由方法，其特征在于：在SDN架构下，设计了一种基于深度强化学习的面向任务混合路由方法，并部署在控制平面，该方法包含了一个混合路由优化算法和流量分割模型，结合任务信息和网络状态信息，产生混合路由数据传输策略；

1)设计的混合路由优化算法，如下：

(1)系统初始化，包括网络状态矩阵、任务列表和路由表；

(4)将list_cur按照从小到大的顺序排序；

(5)按照索引顺序分别根据list_cur[i+1]-list_cur[i]>b_req进行条件判断；如果不满足该条件，则令索引指针i加1，继续进行判断，如果满足该条件，则继续步骤(6)；

(6)截取list_cur列表中索引从0至i+1的元素；步骤(4)-(6)的目的是选择出i+1个低负载链路用于在该节点的数据分流；如果i＝0，那么在该节点即执行单路径传输；

(8)将下一跳节点设置为当前节点；

(10)结束，输出从源节点到目的节点的混合路由；

2)设计了一种基于DRL的流量分割模型：网络中节点数量为n，链路数量为k；n_cur和n_nexthop是标识当前节点和下一跳节点的表示向量，向量维度与网络中节点数量一致，为n维；b_i,j表示全部链路可用带宽，维度与网络中链路数量一致，为k维；b_req表示当前任务需求带宽的标量，为1维；因此，该模型的输入向量[n_cur,n_nexthop,b_i,j,b_req]为2n+k+1维；该输入向量也对应DRL模型在t时刻观察到的状态，即s_t＝[n_cur,n_nexthop,b_i,j,b_req]；该模型中间包含两个隐藏层，分别有128个神经元，激活函数为Relu；模型的输出为k维的链路权重向量；链路可用性向量也是k维的，该向量从网络状态矩阵中获取执行当前流量任务时该链路是否可用，每位元素用1和0表示；通过将链路权重向量与链路可用性向量逐位相乘，过滤出针对当前任务可用链路的权重，再经过softmax归一化指数函数，产生混合路由的逐跳分流比，即为DRL模型在t时刻执行的动作a_t＝softmax(链路权重向量×链路可用性向量)；在执行完该动作后，环境转移到t+1时刻的状态s_t+1；

3)设计了一种同时考虑优化网络负载均衡性能以及任务完成时间的奖励函数；奖励函数定义为Reward＝αV^uti-βV^FTT，表示该DRL模型在t时刻执行动作a_t后从环境反馈的奖励值，即r_t，α＝0.9，β＝0.2；式中表示链路可用性方差；其中usage_i,j＝thr_i,j/b_i,j表示链路n_i→n_j负载率，thr_i,j为链路n_i→n_j的吞吐量，m为链路数量，/>为负载率均值；V^FTT＝t_current-t_start表示流量传输时间，t_current和t_start分别表示当前时刻和任务开始时刻；

该函数作用于模型在根据自身策略执行动作之后，环境根据奖励函数评价模型输出的动作，是模型的优化目标；通过迭代训练，使DRL模型在执行分流操作后，从环境获得累计奖励。

2.根据权利要求1所述的方法，其特征在于：设计了一种SDN场景下的DRL模型训练流程：

(1)根据任务信息，和经过混合路由优化后的链路信息状态，产生DRL模型的输入状态s_t＝[n_cur,n_nexthop,b_i,j,b_req]；

(2)模型在状态s_t下，基于自身策略产生动作a_t；

(4)形成模型训练样本[s_t,a_t,r_t,s_t+1]放入样本池；

(5)将下一跳节点设置为当前节点；

(7)完成当前任务；