CN113347108A

CN113347108A - 一种基于q-学习的sdn负载均衡方法及系统

Info

Publication number: CN113347108A
Application number: CN202110552556.1A
Authority: CN
Inventors: 王炜发; 徐艳; 陈泽婵; 张大明
Original assignee: Seventh Research Institute Of China Electronics Technology Group Corp
Current assignee: Seventh Research Institute Of China Electronics Technology Group Corp
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-03
Anticipated expiration: 2041-05-20
Also published as: CN113347108B

Abstract

本发明提出一种基于Q‑学习的SDN负载均衡方法及系统，解决了传统数据转发链路选择方法容易造成网络拥塞、负载失衡的问题，充分利用SDN架构控制层和数据层解耦的特点，目标为降低最大链路的带宽利用率，开始时随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点，数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点，基于Q‑学习的学习能力，数据包的转发可根据网络环境自行做出决定，提高了网络的灵活性，而且提出的基于Q‑学习的SDN负载均衡系统将整个控制层模块化处理，提高了控制器管理网络的效率，控制器可根据学习结果减少链路的流量，实现数据包的合理分配，避免网络拥塞，实现负载均衡。

Description

一种基于Q-学习的SDN负载均衡方法及系统

技术领域

本发明涉及SDN负载均衡的技术领域，更具体地，涉及一种基于Q-学习的SDN负载均衡方法及系统。

背景技术

软件定义网络(SDN，Software Defined Network)是一种数据控制分离、软件可编程的新型网络体系架构，在SDN架构下，控制层和数据层实现了解耦，控制层的控制器对整个网络进行管理，提高了网络的灵活性。负载均衡是指将计算机网络中的负载进行分担，使得现有的链路以及网络中的计算资源得到充分利用；SDN控制器可以通过改变交换机的流表调整数据的传输，减少冗余路径的数据流量，避免网络资源被过分占用，实现负载均衡，并且增加网络的吞吐量，提高网络性能，而在此过程中，数据转发链路的选择至关重要。

近年来，在数据转发链路选择方面，有学者提出利用SDN转发平面的交换机通过预定规则匹配进行数据转发的方式，使用客户端的IP地址，将其地址前缀作为最小规则集，然后交换机可以根据制定好的规则进行数据转发，也有学者提出ECMP算法，根据SDN控制器的多个等价路径，选出合适的链路转发，但ECMP算法选择路径的依据是相同的成本，而带宽、时延不一定相等，所以这种算法容易导致高负载链路拥塞，造成负载失衡；Li Y提出采用贪心算法记录所有经过的链路利用率大小，再进行对比筛选出利用率最低的一条链路，AI-Fares M提出Hedera算法自适应调度多级交换结构，对比网络流的速率和网络的需求是否相匹配，对规模较大的流量进行调度，以有效利用网络资源。

除此之外，Li Y提出了一种将跳数和交换机收到的字节数、包数以及流速作为指标向量的算法FSEM，该算法将这些信息作为权重，但没有考虑到可达路径的平均情况和波动情况，所以可达路径之间的负载不够均衡，可能导致某些路径丢包。2021年3月12日，中国发明专利(公开号：CN112491619A)中公开了一种基于SDN的服务定制网络资源自适应分配技术，通过使用OpenFlow协议与OpenFlow交换机进行通信，控制器向交换机下发信息，交换机可以根据所接收数据流的特征进行路由转发，对最高优先级的业务使用QoS路由算法理由，对其他优先级的业务使用Dijkstra算法路由寻找最短路径，而且设计了自适应机制，根据监测到的网络资源状况进行自适应调整，以提高资源利用率，此专利中所述的Dijkstra的最短路径算法是一种经典且简单有效的数据包转发路径规划算法，但是该方法未考虑链路的时延和带宽等因素，容易造成局部链路拥塞及数据包丢失的后果，降低了网络服务的质量。

发明内容

为解决传统数据转发链路选择方法容易造成网络拥塞、负载失衡的问题，本发明提出一种基于Q-学习的SDN负载均衡方法及系统，利用Q-学习来实现SDN中链路的负载均衡，实现数据包的合理分配，避免网络拥塞，提升网络性能。

为了达到上述技术效果，本发明的技术方案如下：

一种基于Q-学习的SDN负载均衡方法，至少包括：

S1.获取网络拓扑及链路状态信息，根据网络拓扑及链路状态信息，建立以最小化最大链路的带宽利用率为目标的负载均衡模型F(l，sta)，其中l表示网络拓扑，sta表示链路状态；

S2.随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点，数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点；

S3.获取链路时延和链路带宽，根据链路时延和带宽数据，基于Q-学习迭代求解负载均衡模型F(l，sta)，得到数据包所选节点形成转发路径的Q值矩阵；

S4.判断迭代是否终止，若是，根据Q值选择出数据包所选节点形成的最优转发路径，确定交换机的转发端口，将最优转发路径的路径信息和路由信息封装，生成流表，下发至交换机进行数据转发；否则，返回步骤S2。

优选地，步骤S3所述的基于Q-学习迭代求解负载均衡模型F(l，sta)的过程为：

S31.初始化：给定Q-学习中折扣因子γ的值，生成一个奖励矩阵，计算奖励矩阵的奖励值，将Q矩阵初始化为全零矩阵；

S32.从交换机中随机选择一个作为初始状态的交换机源节点S和作为最终状态的交换机目的节点S_m；在当前状态下从所有可达的节点中选择一个交换机节点S′作为次态，并计算两个节点间的Q值；

S33.判断当前状态的交换机节点是否为交换机目的节点S_m，若是，执行步骤S4；否则，继续寻找下一个交换机节点。

优选地，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法，可将链路带宽和链路时延归一化，有利于数据的处理。

优选地，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法的计算表达式为：

其中，r表示奖励值，α为奖励系数，即链路l_j的带宽权重系数，β为链路l_j的时延权重系数，ξ为归一化后的放大倍数；

为链路lj的可用带宽，

为链路lj的时延。

优选地，在步骤S4中，Q-学习的Q矩阵在精度ε下保持不变时，则Q矩阵收敛，迭代是否终止。

优选地，步骤S32所述计算两个节点间的Q值的表达式为：

其中，S′表示下一状态的交换机节点，γ表示折扣因子，Q表示在数据包从交换机节点S到达交换机节点S′时，能够获得的最大期望收益；S(S,S′)表示立即获得的收益，

表示未来折扣收益。

本发明还提出一种基于Q-学习的SDN负载均衡系统，所述系统用于实现所述的SDN负载均衡方法，包括：

链路感知模块，用于获取网络拓扑及链路状态信息；

负载均衡模型构建模块，根据网络拓扑及链路状态信息，建立以最小化最大链路的带宽利用率为目标的负载均衡模型F(l，sta)，其中l表示网络拓扑，sta表示链路状态；

交换机，设有若干个端口，所述端口用于接收数据包以及根据流表转发数据包；

链路测量模块，用于获取链路时延和链路带宽，将链路时延和链路带宽信息传输至强化学习模块；

强化学习模块，根据链路时延和链路带宽信息，基于Q-学习迭代求解负载均衡模型F(l，sta)，得出数据包所选节点形成转发路径的Q值矩阵，根据Q值选择出数据包所选节点形成的最优转发路径；

流表下发模块，用于确定交换机的转发端口，将最优转发路径的路径信息和路由信息封装，生成流表，下发至交换机进行数据转发。

优选地，所述链路测量模块包括带宽测量模块及时延测量模块，所述带宽测量模块用于统计单位时间内交换机端口的流量以测量带宽；所述时延测量模块通过echo报文测量时延。

优选地，所述强化学习模块上设有源节点与目的节点获取单元，所述源节点与目的节点获取单元用于随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点；数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点，强化学习模块根据链路时延和链路带宽信息、作为初始状态的交换机源节点与作为最终状态的交换机目的节点信息，基于Q-学习迭代求解负载均衡模型F(l，sta)，其中，l表示网络拓扑，sta表示链路状态。

优选地，所述交换机上还设有流表判断模块，用于判断流表是否存在，若流表不存在，则源节点与目的节点获取单元获取交换机源节点与交换机目的节点信息，传输至强化学习模块进行计算，根据奖励值选择出数据包所选节点形成的最优转发路径，将其路径信息和路由信息封装成流表，下发至交换机进行数据转发；若流表存在，则交换机的转发端口根据流表进行数据转发。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于Q-学习的SDN负载均衡方法及系统，所述方法基于Q-学习来实现SDN负载均衡，充分利用了SDN架构控制层和数据层解耦的特点，开始时随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点，数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点，基于Q-学习的学习能力，数据包的转发可根据网络环境自行做出决定，提高了网络的灵活性，而且提出的基于Q-学习的SDN负载均衡系统将整个控制层模块化处理，提高了控制器管理网络的效率，而且控制器可根据学习结果减少链路的流量，实现数据包的合理分配，避免网络拥塞，实现负载均衡，提升网络性能。

附图说明

图1表示本发明实施例中提出的基于Q-学习的SDN负载均衡方法的流程图；

图2表示本发明实施例中提出的基于Q-学习的SDN负载均衡系统的结构图；

图3表示本发明实施例中提出的仿真实验拓扑图；

图4表示利用本发明所提方法与传统基于Dijkstra的最短路径算法、蚁群算法的最大链路带宽占用率随业务传输速率的变化对比图；

图5表示利用本发明所提方法和传统基于Dijkstra的最短路径算法、蚁群算法的最大链路带宽占用率随业务传输组数的变化对比图；

图6表示在指定速率为1000Mb/s，业务组数为6组的场景下，利用本发明所提方法和传统Dijkstra算法、蚁群算法的各链路带宽占用率对比图；

图7表示利用本发明所提方法和传统基于Dijkstra的最短路径算法、蚁群算法的负载均衡系数对比图；

图8表示利用本发明所提QLLB算法和基于Dijkstra的最短路径算法、蚁群算法的吞吐量随数据包长度的变化对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

如图1所示的基于Q-学习的SDN负载均衡方法的流程示意图，参见图1，所述方法包括以下步骤：

S3.获取链路时延和链路带宽，根据链路时延和带宽数据，基于Q-学习迭代求解负载均衡模型F(l，sta)，得出数据包所选节点形成转发路径的Q值矩阵；

在具体实施时，负载均衡模型F(l，sta)的建立根据实际的网络情况设定，模型参数包括各条链路的时延和可利用带宽，目标是降低最大链路的带宽利用率，考虑SDN网络拓扑及链路状态信息，为当前所有传输的数据包选择最优转发路径，从而将流量均匀地分配到各条链路上，实现负载均衡。

在本实施例中，步骤S3所述的基于Q-学习迭代求解负载均衡模型F(l，sta)的过程为：

在本实施例中，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法，可将链路带宽和链路时延归一化，有利于数据的处理。

在本实施例中，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法的表达式为：

为链路l_j的可用带宽，

为链路l_j的时延。

在本实施例中，Q-学习的Q矩阵在精度ε下保持不变时，则Q矩阵收敛，迭代是否终止。

在本实施例中，步骤S32所述计算两个节点间的Q值的表达式为：

其中，S′表示下一状态的交换机节点，γ表示折扣因子，Q表示在数据包从交换机节点S到达交换机节点S′时，能够获得的最大期望收益；R(S,S′)表示立即获得的收益，

表示未来折扣收益。

如图2所示，本发明还提出一种基于Q-学习的SDN负载均衡系统，所述系统用于实现所述的SDN负载均衡方法，包括：

链路感知模块，用于获取网络拓扑及链路状态信息；

在本实施例中，链路感知模块、负载均衡模型构建模块、链路测量模块、强化学习模块、流表下发模块均设置于控制器上，链路感知模块下发保温给交换机，交换机在接收到报文后，将信息回传给控制器，保证信息的实时性。

所述链路测量模块包括带宽测量模块及时延测量模块，所述带宽测量模块用于统计单位时间内交换机端口的流量以测量带宽；所述时延测量模块通过echo报文测量时延。

所述强化学习模块上设有源节点与目的节点获取单元，所述源节点与目的节点获取单元用于随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点；数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点，强化学习模块根据链路时延和链路带宽信息、作为初始状态的交换机源节点与作为最终状态的交换机目的节点信息，基于Q-学习迭代求解负载均衡模型F(l，sta)，其中，l表示网络拓扑，sta表示链路状态。

所述交换机上还设有流表判断模块，用于判断流表是否存在，若流表不存在，则源节点与目的节点获取单元获取交换机源节点与交换机目的节点信息，传输至强化学习模块进行计算，根据奖励值选择出数据包所选节点形成的最优转发路径，将其路径信息和路由信息封装成流表，下发至交换机进行数据转发；若流表存在，则交换机的转发端口根据流表进行数据转发。

为进一步对本发明提出的方法进行性能分析，验证本发明所提方法的有效性，所采用的仿真实验拓扑图如图3所示，该拓扑拥有9个内核模式交换机，每台交换机连接一台主机，除此之外，交换机之间一共建立了12条链路，使用Mininet的自定义拓扑功能实现。仿真实验中采用iperf工具，利用udp协议进行数据的传输，每次实验中随机指定多组主机之间以指定的传输速率，持续发送流量业务流，持续半小时。验证实验采取基于Dijkstra的最短路径算法和蚁群算法作为对比，所述的蚁群算法是一种启发式智能算法，该方法使用带宽和时延作为更新信息素的参数，能有效均衡负载，但其收敛速度慢，消耗计算资源较多，且依赖信息素的初始化，较易陷入局部最优。

图4表示利用本发明所提方法与传统基于Dijkstra的最短路径算法、蚁群算法的最大链路带宽占用率随业务传输速率的变化对比图；实验条件是通过进行十次实验，每次实验选取六组主机按照指定的传输速率，三线程发送数据，每次实验持续时间为半小时，最终的统计指标是十次实验的平均值。其中，业务传输速率指的是发送流量的传输速率即占用的带宽，最大链路带宽占用率指网络中带宽占用率最大的一条链路的带宽占用率。从负载均衡的角度出发，在网络的总负载一定的情况，最大链路带宽占有率越低则表明由于某条链路的拥塞导致网络性能提前出现瓶颈的可能性越低。由图4可知，相较于传统基于Dijkstra的最短路径算法、蚁群算法，本发明所提方法可以有效地降低最大链路带宽占用率，并且在高速传输的场景下具有更加明显的优越性，最大链路带宽占用率显著下降。

图5表示利用本发明所提方法和传统基于Dijkstra的最短路径算法、蚁群算法的最大链路带宽占用率随业务传输组数的变化对比图；由图5可知，相较于最短路径算法和蚁群算法，本发明所提方法可以有效地降低最大链路带宽占用率，并且在高速传输的场景下具有更加明显的优越性，最大链路带宽占用率显著下降。

图6表示在指定速率为1000Mb/s，业务组数为6组的场景下，利用本发明所提方法和传统Dijkstra算法、蚁群算法的各链路带宽占用率对比图；图6中仅显示了7条差距比较明显的链路，其余5条链路的链路带宽占用率相近，故不予显示。从图6中可见，Dijkstra算法的链路<s2,s8>带宽占用率远大于其他链路，链路<s3,s5>，<s5,s9>，<s4,s6>的带宽占用率几乎为0；蚁群算法虽然起到一定的负载均衡作用，但<s4,s6>的带宽利用率过低。这是因为基于Dijkstra的最短路径算法每次数据转发都选择跳数最短的路径，而不考虑该链路其他的因素；蚁群算法收敛速度慢，导致某几条最短路径中包含的链路流量压力过大，而其他链路几乎没有流量分配，制约了网络的整体性能，而本发明所提方法则将流量均匀地分配到各条链路上，实现了负载均衡，避免部分链路因流量过大导致拥塞，实现网络资源的合理分配。

图7表示利用本发明所提方法和传统基于Dijkstra的最短路径算法、蚁群算法的负载均衡系数对比图；负载均衡系数定义为所有网络中所有链路的带宽占用率的方差。负载均衡系数越大，则说明网络的链路流量分配越不均匀。由图7可知，利用本发明所提方法的负载均衡系数始终小于其他两种算法。相比基于Dijkstra的最短路径算法和蚁群算法，利用本发明所提方法的链路流量分配更平均，避免部分链路因流量过大而拥塞，负载均衡效果更好。

图8表示利用本发明所提Q-学习算法和基于Dijkstra的最短路径算法、蚁群算法的吞吐量随数据包长度的变化对比图；实验条件是随机选取三组主机对进行业务发送测试其端到端的吞吐量，取平均值作为统计指标，由图8可知，随着数据包长度的增加，吞吐量持续增加。其中，利用本发明所提方法的吞吐量比最短路径算法和蚁群算法的高，这也说明了本发明所提方法的有效性。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Q-学习的SDN负载均衡方法，其特征在于，至少包括：

S3.获取链路时延和链路带宽，根据链路时延和带宽数据构建奖励矩阵，基于Q-学习迭代求解负载均衡模型F(l，sta)，得到数据包所选节点形成转发路径的Q值矩阵；

2.根据权利要求1所述的基于Q-学习的SDN负载均衡方法，其特征在于，步骤S3所述的基于Q-学习迭代求解负载均衡模型F(l，sta)的过程为：

S31.初始化：给定Q-学习中折扣因子γ的值，生成一个奖励矩阵，计算奖励矩阵的奖励值，将Q值矩阵初始化为全零矩阵；

3.根据权利要求2所述的基于Q-学习的SDN负载均衡方法，其特征在于，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法。

4.根据权利要求3所述的基于Q-学习的SDN负载均衡方法，其特征在于，步骤S3所述的数据包所选节点形成转发路径的Q值矩阵中的奖励值的计算采用min-max法的表达式为：

为链路l_j的可用带宽，

为链路l_j的时延。

5.根据权利要求4所述的基于Q-学习的SDN负载均衡方法，其特征在于，在步骤S4中，Q-学习的Q矩阵在精度ε下保持不变时，则Q矩阵收敛，迭代是否终止。

6.根据权利要求5所述的基于Q-学习的SDN负载均衡方法，其特征在于，步骤S32所述计算两个节点间的Q值的表达式为：

表示未来折扣收益。

7.一种基于Q-学习的SDN负载均衡系统，其特征在于，所述系统用于实现权利要求1所述的SDN负载均衡方法，包括：

链路感知模块，用于获取网络拓扑及链路状态信息；

8.根据权利要求7所述的基于Q-学习的SDN负载均衡系统，其特征在于，所述链路测量模块包括带宽测量模块及时延测量模块，所述带宽测量模块用于统计单位时间内交换机端口的流量以测量带宽；所述时延测量模块通过echo报文测量时延。

9.根据权利要求8所述的基于Q-学习的SDN负载均衡系统，其特征在于，所述强化学习模块上设有源节点与目的节点获取单元，所述源节点与目的节点获取单元用于随机获取作为初始状态的交换机源节点与作为最终状态的交换机目的节点；数据包从交换机源节点开始随机选择下一节点直至到达交换机目的节点，强化学习模块根据链路时延和链路带宽信息、作为初始状态的交换机源节点与作为最终状态的交换机目的节点信息，基于Q-学习迭代求解负载均衡模型F(l，sta)，其中，l表示网络拓扑，sta表示链路状态。

10.根据权利要求9所述的基于Q-学习的SDN负载均衡系统，其特征在于，所述交换机上还设有流表判断模块，用于判断流表是否存在，若流表不存在，则源节点与目的节点获取单元获取交换机源节点与交换机目的节点信息，传输至强化学习模块进行计算，根据奖励值选择出数据包所选节点形成的最优转发路径，将其路径信息和路由信息封装成流表，下发至交换机进行数据转发；若流表存在，则交换机的转发端口根据流表进行数据转发。