CN108667734B

CN108667734B - 一种基于q学习和lstm神经网络的快速路由决策方法

Info

Publication number: CN108667734B
Application number: CN201810480062.5A
Authority: CN
Inventors: 朱晓荣; 陈必康; 王树同; 韩嗣诚
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-05-18
Filing date: 2018-05-18
Publication date: 2020-12-08
Anticipated expiration: 2038-05-18
Also published as: CN108667734A

Abstract

本发明公开了一种基于Q学习和LSTM神经网络的快速路由决策算法，该算法主要分为模型训练和动态路由决策两个阶段；模型训练阶段主要是利用启发式算法根据不同的QoS请求计算出满足约束条件的最优或者较优路径。之后将该启发式算法的输入和其相应的输出联合构成机器学习模型的训练集，并以此作为不同路由的目标Q值来对决策模型进行训练。在此基础上，当控制器收到新的QoS请求时，相应的机器学习模型将会把当前的网络状态和请求中的约束条件一同作为模型的输入，通过LSTM和Q学习相结合的路由决策模型快速计算出相应的Q值，完成预测并输出最优路径。该过程所需的时间比起启发式算法的来说将大大缩短，而结果却十分相似。

Description

一种基于Q学习和LSTM神经网络的快速路由决策方法

技术领域

本发明涉及一种基于Q学习和LSTM神经网络的快速路由决策算法，属于无线通讯技术领域。

背景技术

传统IP网络将控制与转发集成在一个设备中，而软件定义网络(SoftwareDefined Networking，SDN)则是将控制与转发分离。该结构的优点是一方面，开发者可以通过开放的北向接口对控制器进行编程，能够快速实现对网络的个性化控制，满足业务对网络的不同需求；另一方面，控制器通过南向接口以及标准的OpenFlow协议与数据转发层的交换机通信，降低了对底层转发设备的依赖性，使得部署更加灵活。本发明主要利用网络控制平面和数据平面之间相互分离的特点，使用控制器通过软件编程的形式，按需定制路由策略。

路由决策的约束条件不仅会随着网络应用和服务的不同而随之改变，而且也会跟随网络管理者或者网络服务提供商自己所考量的优化目标而改变。为了能够灵活应对约束条件和优化目标的不断变化，保证满足网络管理者的控制需求，在动态路由决策算法中，设定多组约束变量和条件则是必不可少的。而对这些约束条件的处理，目前的路由决策算法无法做到。此外，虽然目前在路由决策方面提出了很多较为先进的启发式算法，但是在解决NP完全问题(多项式复杂程度的非确定性问题：算法的猜测阶段是非确定性的，算法的验证阶段是确定性的，它验证猜测阶段给出解的正确性)时，这些算法均会带来较高的计算时间花销，无法在真实网络所要求的时间内完成动态路由的选择。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于Q学习和LSTM 神经网络的快速路由决策算法，解决传统启发式算法收敛慢，训练过程较长的问题，可以节约大量的时间成本。

为了实现上述目标，本发明采用如下的技术方案：

一种基于Q学习和LSTM神经网络的快速路由决策算法，其特征是，包括如下步骤：

1)建立模型并进行训练：

在不同的网络状态下，利用启发式算法根据不同的QoS请求计算出满足约束条件的最优或者较优路径；

将该启发式算法的输入和其相应的输出联合构成机器学习模型的训练集，其中启发式算法输入的当前网络状态作为训练样本的特征，算法输出的最优路径相应的Q值作为训练样本的标签；

将其网络状态和业务需求作为输入，最优路由作为输出，存入网络路由知识库；

2)动态路由决策：

当控制器收到新的QoS请求时，相应的机器学习模型将会把当前的网络状态和请求中的约束条件一同输入LSTM神经网络中，并根据相应的决策流程得到该状态下不同动作a即转发路由所对应的Q值；选择Q值最大所对应的路由即最佳路由进行转发。

前述的一种基于Q学习和LSTM神经网络的快速路由决策算法，其特征是，所述步骤2)的具体步骤为：

21)初始化网络路由知识库，随机初始化LSTM神经网络参数；

22)将当前网络状态和业务需求作为状态s，输入LSTM神经网络，得到该状态下，不同动作a的Q值，选取Q值最大的动作a，此时的预估Q值为Q_est(s,a)；

23)神经网络将a反馈给网络状态，得到在经过a以后的网络状态S′；

24)网络状态将S′转发给知识库，知识库通过启发式算法，得到S′状态下的最优动作a′，并通过神经网络得到该动作相应的Q值即最大Q值maxQ(s′)，最大Q值与来自网络状态所反馈的现实奖励R(根据经验值事先人为设定)共同构成了目标Q值Q_targ(s,a)＝R+γ×maxQ(s′)，γ为折扣因子；

25)得到Q_targ(s,a)后，通过Q学习的算法更新公式 Q(s,a)_new＝Q_est(s,a)+α×[Q_targ(s,a)-Q_est(s,a)]得到最新的Q值，其中α是学习效率；

26)得到最新的Q值之后，拟利用新旧Q值之间的平方误差，并利用反向传播法对神经网络进行训练；

27)重复上述步骤至新旧Q值之间的平方误差小于预定阈值之后，神经网络也达到收敛，此时，将网络状态构成的向量作为输入，获得对应不同动作相应的Q值。

前述的一种基于Q学习和LSTM神经网络的快速路由决策算法，其特征是，所述步骤1)的具体内容为：

在满足路径延迟参数小于或者等于某个确定阈值D_max的条件下，计算并寻找能够使路径代价参数最小化的有效路径，目标函数为：

p*＝argmin{f_C(p)|p∈P_sd,f_D(p)≤D_max}，其中，P_sd表示从源节点s出发到目的节点d所有有效路径的集合，对于该集合中的任意一条路径P∈P_sd,其流量代价度量参数为f_C(P)，f_D(P)定义为网络有效路径的延迟；

Bt＝(s,d,b)表征一个带有服务质量要求的网络连接请求QoS，即有应用数据流需要从源节点s发往目的节点d，且其对传输的链路对网络带宽有一个最低需求b，可以将三元组Bt＝(s,d,b)视为输入；

在获取最优路由之后，便将其网络状态和业务需求作为输入，最优路由作为输出，存入网络路由知识库。

本发明所达到的有益效果：本算法将研究网络路由性能参数的特征提取和特征选择算法，然后拟研究把Q强化学习的自学习优势和LSTM神经网络挖掘时间序列的优势相结合建立快速路由决策模型，解决传统启发式算法收敛慢，训练过程较长的问题，可以节约大量的时间成本。

附图说明

图1是基于机器学习的快速路由决策流程示意图；

图2是基于Q学习和LSTM相结合的路由决策模型图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本方法通过强化学习通过在环境中不断地尝试，根据尝试获得的反馈信息调整策略，直至最终生成一个最优策略，根据这个最优策略机器能知道在什么状态下该执行什么动作。

首先选定状态变量和动作变量建立马尔科夫决策模型，然后用Q强化学习求解。为了建立最优的路由策略模型，需要考虑并设置更多的网络状态参数作为路由选择优化问题的变量和约束条件，例如，链路利用率，节点跳数，延迟、丢包率、缓存能力、计算能力、拓扑关系等等，由于状态变量个数的影响使得Q 学习收敛所需的样本数量太大，所以拟采用LSTM神经网络深度学习和Q学习结合来求解，与单纯Q学习相比能够加快算法收敛时间。

LSTM循环神经网络具有长时记忆的功能，能够从时间维度上分析过去的一段时间内网络的参数的变化趋势，更适用于复杂网络环境下最优路由网络参数特征的挖掘和分析。该方法建立最优路由和业务QoS、链路、节点等状态参数信息，利用深度学习自身的优势，在样本训练的过程中找到属性之间的关联性，降低建模过程中考虑各种约束关系的复杂性。

当模型完全收敛后，可以根据网络的状态很快地完成预测，直接给出一个最优路径的结果，该过程所需的时间比起启发式算法的来说将大大缩短，而结果却十分相似，因为在训练过程中，机器学习模型已经具备了启发式算法选择最优路径的能力。

具体地，如图1所示，本发明的快速路由决策流程，主要分为模型训练和路由决策两个阶段。

第一个是模型的训练阶段，首先在不同的网络状态下，利用启发式算法根据不同的QoS请求计算出满足约束条件的最优或者较优路径。之后将该启发式算法的输入和其相应的输出联合构成机器学习模型的训练集，其中启发式算法输入的当前网络状态作为训练样本的特征，算法输出的最优路径作为训练样本的标签。

以此为例，动态路由问题定义如下，即在满足路径延迟参数小于或者等于某个确定阀值D_max的条件下，计算并寻找能够使路径代价参数最小化的有效路径。据此，我们的目标函数可用以下数学表达式表示

p*＝argmin{f_C(p)|p∈P_sd,f_D(p)≤D_max}

其中，P_sd表示从源节点s出发到目的节点d所有有效路径的集合，对于该集合中的任意一条路径P∈P_sd,其流量代价度量参数为f_C(P)，f_D(P)定义为网络有效路径的延迟。Bt＝(s,d,b)表征一个带有服务质量要求的网络连接请求QoS，即有应用数据流需要从源节点s发往目的节点d，且其对传输的链路对网络带宽有一个最低需求b，将三元组Bt＝(s,d,b)视为输入。在获取最优路由之后，便将其网络状态和业务需求作为输入，最优路由作为输出，存入网络路由知识库。

如图2所示，本发明的路由决策模型，结合了Q学习和神经网络。

第二个阶段也就是动态路由决策。在此过程中，启发式算法将不再发挥作用。当控制器收到新的QoS请求时，相应的机器学习模型将会把当前的网络状态和请求中的约束条件一同输入决策模型中，由于该模型已经完全收敛，所以可以很快地完成预测，并给出相应的Q值，根据Q值，可以选择一条最佳路由。该过程所需的时间比起启发式算法的来说将大大缩短，而结果却十分相似，因为在训练过程中，机器学习模型已经具备了启发式算法选择最优路径的能力。

LSTM神经网络训练的具体步骤如下：

S1:初始化网络路由知识库，随机初始化LSTM神经网络参数；

S2:将当前网络状态和业务需求作为状态s，输入LSTM神经网络，得到该状态下，不同动作a的Q值，选取Q值最大的动作a，此时的预估Q值为Q_est(s,a)；

S3:神经网络将a₂反馈给网络状态，并由网络状态分析得出在经过a₂以后的网络状态S′；

S4:网络状态将S′转发给知识库，知识库通过启发式算法，得到S′状态下的最优动作a′，并通过神经网络得到该动作相应的Q值即最大Q值maxQ(s′)，最大 Q值与来自网络状态所反馈现实奖励R共同构成了目标Q值 Q_targ(s,a)＝R+γ×maxQ(s′)，γ为折扣因子；

S5:得到Q_targ(s′,a′)后，通过Q学习的算法更新公式 Q(s,a)_new＝Q_est(s,a)+α×[Q_targ(s,a)-Q_est(s,a)]得到最新的Q值，α为学习率；

S6:得到最新的Q值之后，拟利用新旧Q值之间的平方误差，并利用反向传播法对神经网络进行训练；

S7:重复上述步骤至新旧Q值之间的平方误差小于预定阈值之后，神经网络也达到收敛，此时，将网络状态构成的向量作为输入，便可获得对应不同动作相应的Q值。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Q学习和LSTM神经网络的快速路由决策方法，其特征是，包括如下步骤：

1)建立模型并进行训练：

2)动态路由决策：

当控制器收到新的QoS请求时，相应的机器学习模型将会把当前的网络状态和请求中的约束条件一同输入LSTM神经网络中，并根据相应的决策流程得到该状态下不同动作a即转发路由所对应的Q值；选择Q值最大所对应的路由即最佳路由进行转发；

所述步骤2)的具体步骤为：

21)初始化网络路由知识库，随机初始化LSTM神经网络参数；

23)神经网络将a反馈给网络状态，得到在经过a以后的网络状态S'；

24)网络状态将S'转发给知识库，知识库通过启发式算法，得到S'状态下的最优动作a'，并通过神经网络得到该动作相应的Q值即最大Q值max Q(s')，最大Q值与来自网络状态所反馈的现实奖励R共同构成了目标Q值Q_targ(s,a)＝R+γ×max Q(s')，γ为折扣因子；

25)得到Q_targ(s,a)后，通过Q学习的算法更新公式Q(s,a)_new＝Q_est(s,a)+α×[Q_targ(s,a)-Q_est(s,a)]得到最新的Q值，其中α是学习效率；

2.根据权利要求1所述的一种基于Q学习和LSTM神经网络的快速路由决策方法，其特征是，所述步骤1)的具体内容为：

p*＝arg min{f_C(p)|p∈P_sd,f_D(p)≤D_max}，其中，P_sd表示从源节点s出发到目的节点d所有有效路径的集合，对于该集合中的任意一条路径P∈P_sd,其流量代价度量参数为f_C(P)，f_D(P)定义为网络有效路径的延迟；