CN102571570A

CN102571570A - 一种基于强化学习的网络流量负载均衡控制方法

Info

Publication number: CN102571570A
Application number: CN2011104475148A
Authority: CN
Inventors: 胡朝辉; 梁智强; 梁志宏; 周强峰; 江泽鑫; 石炜君; 梁毅成
Original assignee: Electric Power Research Institute of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2012-07-11

Abstract

本发明公开了一种基于强化学习的网络流量负载均衡控制方法，包括以下步骤：1)数据包处在路由器节点R^*时，根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作a_i；2)当前数据包被路由以后，根据该数据包的实际情况修改该数据包的状态量s；并更新当前数据包的下一跳的动作集合；3)根据当前网络流量均衡状态修改当前数据包的奖惩值r；4)根据奖惩值更新策略π；重复步骤1)到步骤4)，直到当前数据包达到最终目的地址。该方法通过智能体与网络环境不断的交互学习，实现网络流量负载均衡的最优或近似最优控制。

Description

一种基于强化学习的网络流量负载均衡控制方法

技术领域

本发明涉及一种网络流量负载均衡技术领域，具体是指提供一种基于强化学习的智能网络流量负载均衡控制方法。

背景技术

随着网络的快速发展，各种网络应用层出不穷，与此对应的网络上的流量也日益增多。根据权威调查，网络服务质量(Qos：Quality of Service)特别是网络的反应时间是影响用户体验的主要因素，因此对网络进行合理的设计、保证网络的服务质量是每位网络工程师需要考虑的问题。保证网络的服务质量有多种解决途径，本发明提出一种基于强化学习的网络流量负载均衡算法，数据包通过强化学习算法，能根据链路的网络流量状况选择合适的转发路径，避开业务繁忙的链路，实现网络的负载均衡。

传统的路由算法有RIP、OSPF和EIGRP等算法。RIP算法为距离矢量路由协议，它使用路由跳数来衡量网络距离，是最常用的内部网关协议之一。RIP算法过于简单、安全性差且带宽消耗大，所以不适合大型网络；OSPF算法为链路状态路由协议，相对于RIP算法，具有收敛快、协议开销小、安全性高和适应广等优点，但其配置复杂，路由负载均衡能力较弱；EIGRP算法为增强网关内部路由协议，拥有众多的优点，但其属于Cisco公司的私有协议。Cisco公司是该协议的发明者和唯一具备该协议解释和修改权的厂商，如果设备要支持EIGRP协议则需向Cisco公司购买相应版权。

发明内容

本发明的目的在于提供一种基于强化学习的网络流量负载均衡控制方法，该方法通过数据包(Agent)与网络环境不断的交互学习，实现网络流量负载均衡的最优或近似最优控制。数据包动态地根据链路的流量状况，避免将数据包发往负荷重的链路，尽量选择负载轻的链路，实现数据包的智能转发，最终达到网络流量负载均衡的目的。

本发明的目的可通过以下的技术措施来实现：

一种基于强化学习的网络流量负载均衡控制方法，包括以下步骤：

1)、数据包处在路由器节点R^*时，根据当前数据包的状态量s和策略π从下一跳的动作集合选择回报值最大的动作a_i，并将数据包发送到动作a_i对应的路由器；

2)、当前数据包被路由以后，根据该数据包的实际情况修改该数据包的状态量s；并更新当前数据包的下一跳的动作集合；所述状态量s包括路由距离x_i和流量均衡量y_i；所述路由距离x_i是指：选择链路i后，下一跳地址距离目的地址的最短矢量距离；流量均衡量y_i是指：链路i上的当前流量占链路饱和流量的比例；

3)、根据数据包的路由距离、流量均衡量给与数据包的奖惩值r；

4)、数据包根据奖惩值r更新自身的策略π；

5)、回到步骤1)，重复步骤1)到步骤4)，直到当前数据包达到最终目的地址。

所述步骤1)中的策略π为近贪婪(epsilon greedy)策略或百分比(softmax)策略。

所述近贪婪策略是指：以1-ε的概率选择最大回报值的链路arg max_aQ^π(s，a)，以ε的概率随机选择链路，公式为：

其中，a代表的是动作，Q^π(s，a)代表在数据包在状态s下，根据策略π，选择动作a的回报值。

百分比策略是指：将各链路的好坏映射成相应的跳转动作选择概率，公式为：

P_{a} = \frac{e^{Q (s, a) / τ}}{Σ_{b = 1}^{n} e^{Q (s, b) / τ}}

其中p_a代表选择动作a的概率，τ代表随机温度(数值自己定义)。

从上式可以看出，链路被使用得越合理(即，回报值Q(s，a)值越大)时，其被选中的概率越大。

所述步骤3)中奖惩值r计算公式为：

\{\begin{matrix} r = k_{1} (x_{i} - x_{j}) + k_{2} (σ_{i} - σ_{j}) \\ σ_{i} = Σ_{n = 1}^{m} {(y_{n} - \overset{&OverBar;}{y})}^{2} \\ \overset{&OverBar;}{y} = Σ_{n = 1}^{m} y_{n} / m \end{matrix}

式中，是指所有链路中流量均衡量的均值，σ_i是指流量均衡量的方差，k₁和k₂是系数。

所述步骤4)中更新策略π的公式为：

Q^{π} (s, a) = Q^{π} (s, a) + α [r + γ \max_{a^{'}} Q^{π} (s^{'}, a^{'}) - Q (s, a)]

其中Q^π(s，a)代表在状态量s下，根据策略π，选择动作a的回报值，0≤α≤1为迭代步长参数，0≤γ≤1为折扣系数。

本发明对比现有技术，有如下优点：

1、在现在互联网上的网络设备越来越多现状下，本方法能够保证大部分链路的负载均衡，对于某些重要的网络应用系统，为了保证网络的可靠性。

2、本方法实现数据包的智能转发，通过和网络环境进行交互，最终获得网络流量最优或近似最优的负载均衡控制。

附图说明

图1是本发明方法的强化学习逻辑实现图；

图2是本发明方法中数据包的状态量s的逻辑示意图；

图3是本发明方法中数据包的状态转移过程示意图；

图4是本发明方法的数据包学习过程示意图。

具体实施方式

图4示出了本发明基于强化学习的网络流量负载均衡控制方法的数据包学习过程的流程图。

基于强化学习的网络流量负载均衡算法框架如图1所示。大致过程为：数据包首先采用动作a_t，并作用与环境；由于数据包采取了动作，其状态肯定发生改变，即由s_t到s_t+1，(该状态的改变，可以认为是环境感知到这一变化，状态发生改变)；环境对数据包的动作进行反馈，给出奖惩(图中r_t+1)；数据包收到奖惩，就会对自己的行为进行反思，并更新自己的策略(这点图中未画出)；回到第一步，就是图中的虚线表示。具体来说，数据包(Agent)的学习过程主要分为如下的五步：

1)、时刻t，数据包(Agent，或者称为智能体)根据其当前的状态量s_t，同时根据相应的策略π，选择回报值最大的动作a_t，即路由选择，并作用于环境。

强化学习的网络流量负载均衡算法，其数据包的路由将基于如下规则：

a、数据包路由方向需要大致指向目的地址；

b、数据包路由需考虑网络链路的负载情况，避免繁忙链路，实现负载均衡。

即数据包在选择下一跳路由地址时，首先路由的方向要尽量朝向目的地址，其次需要考虑到网络的流量，尽量达到负载均衡；其次数据包的路由不能只考虑网络的流量的均衡，否则将有可能出现数据包送达不到目的地址的情况。

基于如上原则，数据包(Agent)的状态可以定义为“路由距离x_i”和“流量均衡量y_i”的组合(x_i，y_i)。其中路由距离x_i是指：选择链路i后，下一跳地址距离目的地址的最短矢量距离；流量均衡量y_i是指：链路i上的当前流量占链路饱和流量的比例(考虑到网络分为核心层、汇聚层和接入层及各层次的网络带宽的不同，本发明采用比例值作为数据包(Agent)的状态之一)，如图2所示。

策略π可采用近贪婪(epsilon greedy)策略或百分比(softmax)策略。其中epsilon greedy策略出自作者R.S.Sutton和A.G.Barto于1998年著的《Reinforcement Learning：An Introduction》；softmax策略出自作者R.S.Sutton，A.G.Barto于1998年著的《Reinforcement Learning：An Introduction》。

近贪婪策略是指：以1-ε的概率选择最大回报值的链路arg max_aQ^π(s，a)，以ε的概率随机选择链路，公式为：

P_{a} = \frac{e^{Q (s, a) / τ}}{Σ_{b = 1}^{n} e^{Q (s, b) / τ}} .

其中p_a代表选择动作a的概率，τ代表随机温度(数值自己定义)，Q(s，a)代表在数据包在状态s下，根据当前策略，选择动作a的回报值。

2)、由于数据包(Agent)采取的跳转动作，数据包的状态量发生了变化s_t →s_t+1，即数据包从某路由器达到下一路由器。

当状态集合选定以后，动作集合的选择相对简单，即为链路的选择，如图2所示，数据包的跳转动作集合为{链路a₁，链路a₂，…链路a_m}，若数据包选择路由器2作为下一条路由地址，那么链路2当前选定的动作。

在一般情况下，由于实际系统的马尔可夫性，强化学习的状态转移过程如图3所示，数据包(Agent)在采取动作a以后，可能导致多种后续状态：数据包(Agent)在状态s采取动作a以后，可能达到s₁′或者s₂′。

在本发明当中，由于网络流量确定性，当数据包选择确定的路径时，数据包(Agent)将从状态(x_i，y_i)转移到确定的状态(x_j，y_j)，因此其状态转移矩阵是确定的。

3)、环境对数据包(Agent)的动作做评价(奖惩r_t+1)，并将其反馈给数据包(Agent)，即整体网络根据网络负载均衡状态及数据包的路由方向对数据包(Agent)刚才的动作进行评价，并给与奖惩值。

在实际的应用当中，奖惩集合的选择至关重要，其奖惩的集合必须体现出用户的意图，否则实际的效果将会与用户的意图相悖。在本发明当中，数据包(Agent)的奖惩规则如下：

i)、路由的选择使得数据包离目的地址更近将得到奖励，否则将得到惩罚；

ii)、路由的选择使得网络的流量更加均衡将得到奖励，否则将得到惩罚；

iii)、其他路由选择的奖惩将视情况而定。

奖惩值r计算公式为：

\{\begin{matrix} r = k_{1} (x_{i} - x_{j}) + k_{2} (σ_{i} - σ_{j}) \\ σ_{i} = Σ_{n = 1}^{m} {(y_{n} - \overset{&OverBar;}{y})}^{2} \\ \overset{&OverBar;}{y} = Σ_{n = 1}^{m} y_{n} / m \end{matrix}

式中，

是指所有链路中流量均衡量的均值，σ_i是指流量均衡量的方差，k₁和k₂是系数。

4)、数据包(Agent)接受环境的奖惩，并根据该奖惩更新自己的知识库(Q表)，及根据奖惩学习经验，为自己的下一步决策做准备，即数据包根据环境的奖惩调整自身的策略π，以便于下次动作的选择。

更新策略π的公式为：

Q^{π} (s, a) = Q^{π} (s, a) + α [r + γ \max_{a^{'}} Q^{π} (s^{'}, a^{'}) - Q (s, a)]

5)、回到第一步，数据包(Agent)继续做出决策，直到其达到最终状态(实现目标)，即数据包继续路由，直到达到目的地址。

如上步骤的不断循环就构成了数据包(Agent)的训练过程，当数据包(Agent)的知识库收敛时，数据包(Agent)将学习到完成任务的最优策略π^*，在本发明中，数据包(Agent)将学习到实现负载均衡的最优或者近似最优控制。

强化学习是一种机器学习算法，具有无监督的自适应能力，它在人工智能、机器学习中有广泛的应用。强化学习在应用上有4大要素：数据包(Agent)的状态集合S，数据包(Agent)的动作集合A，状态转移矩阵(数据包在s状态下采取当作a后，可能得到的下一状态s’)和环境奖惩集合R。强化学习通过数据包(Agent)和环境的不断交互，最终学习到最优策略。

基于强化学习的网络流量负载均衡算法，通过在网络拓扑中引入智能体Agent的概念，根据网络链路的负载流量，不断地和网络环境进行交互，实现网络流量负载均衡的最优或近似最优控制，较好的解决了网络流量负载均衡的问题。

本发明的实施方式不限于此，在本发明上述基本技术思想前提下，按照本领域的普通技术知识和惯用手段对本发明内容所做出其它多种形式的修改、替换或变更，均落在本发明权利保护范围之内。

Claims

1.一种基于强化学习的网络流量负载均衡控制方法，其特征在于包括以下步骤：

4)、数据包根据奖惩值r更新自身的策略π；

2.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法，其特征在于：所述步骤1)中的策略π为近贪婪策略或百分比策略。

3.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法，其特征在于：所述近贪婪策略是指：以1-ε的概率选择最大回报值的链路arg max_aQ^π(s，a)，以ε的概率随机选择链路，公式为：

4.根据权利要求2所述的基于强化学习的网络流量负载均衡控制方法，其特征在于：百分比策略是指：将各链路的好坏映射成相应的跳转动作选择概率，公式为：

P_{a} = \frac{e^{Q (s, a) / τ}}{Σ_{b = 1}^{n} e^{Q (s, b) / τ}}

其中p_a代表选择动作a的概率，τ代表随机温度。

5.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法，其特征在于：所述步骤3)中奖惩值r计算公式为：

\{\begin{matrix} r = k_{1} (x_{i} - x_{j}) + k_{2} (σ_{i} - σ_{j}) \\ σ_{i} = Σ_{n = 1}^{m} {(y_{n} - \overset{&OverBar;}{y})}^{2} \\ \overset{&OverBar;}{y} = Σ_{n = 1}^{m} y_{n} / m \end{matrix}

式中，

6.根据权利要求1所述的基于强化学习的网络流量负载均衡控制方法，其特征在于：所述步骤4)中更新策略π的公式为：

Q^{π} (s, a) = Q^{π} (s, a) + α [r + γ \max_{a^{'}} Q^{π} (s^{'}, a^{'}) - Q (s, a)]