CN110601973A

CN110601973A - 一种路由规划方法、系统、服务器及存储介质

Info

Publication number: CN110601973A
Application number: CN201910790380.6A
Authority: CN
Inventors: 孙正君; 李磊; 喻涵; 夏俏兰; 陈斌斌
Original assignee: Zhongchang (hangzhou) Information Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Zhongchang (hangzhou) Information Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-20
Anticipated expiration: 2039-08-26
Also published as: CN110601973B

Abstract

本发明实施例涉及网络通信技术领域，公开了一种基于强化学习的路由规划方法。本发明中，一种基于强化学习的路由规划方法，包括：获取网络的链路状态信息，其中，链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS，采用基于同策略更新的Q‑learning算法构建路由规划学习模型，将链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表，根据路由关系映射表全局路由进行规划。本发明，通过充分考虑链路的服务质量(QoS)，采用同策略更新的强化学习方法应用于数据中心路由规划中，能够在未知的复杂链路状态下，自主选择出QoS较优的路径，相比于传统的路由规划方法更加保守，对机器的损耗更低，同时路径规划速度更快速，更具高效性。

Description

一种路由规划方法、系统、服务器及存储介质

技术领域

本发明实施例涉及网络通信技术领域，特别涉及一种基于强化学习的路由规划技术。

背景技术

随着社会的进步以及计算机技术的快速发展，网络深入到人们生活的各个方面。当下各行各业以及个体用户每天都会产生大量的网络信息流量，例如文件传输、语音通话、网络游戏等，互联网流量数据持续增长，造成网路传输的拥堵、传输效率不高、服务质量难以保证等问题，而传统的网络建设规划已无法应对当前的需求。

路由规划方法，又称选路算法，其目的是找到一条从源地址到目的地址的最优路径。衡量最优路径的标准不同，导致路由规划的结果不同，从而对最佳路径的选择产生一定的影响。目前，最常见的两种路由算法是链路状态路由算法和距离矢量路由算法。

发明人发现现有技术中至少存在如下问题：链路状态算法在应用的过程中可能出现震荡现象，当网络中链路状态更新的太快并且不断变化的时候，发出的数据包还没到达目的地时路由表就更新了，导致这个数据包就一直在路由间切换，最后可能直接丢弃，造成震荡现象；距离矢量路由算法把从对方获知的，但在对方已不再有效的信息当成有效信息再传送给对方，使对方当成有效信息使用，则存在无穷计数的问题；另外，链路状态算法要求比距离矢量路由算法有更强的CPU能力和更多的内存空间，在实现时显得更加昂贵一些。

且现有算法中，无论是采用链路状态路由算法还是距离矢量路由算法，每次都是查找数据包转发的起始节点到目的节点的一条最短路径，但若所有的数据包的转发都依赖于最短路径，则会导致数据流很容易选择同一条最短转发路径而聚集在一起，降低链路的利用率，同时也容易导致网络堵塞；此外也没有综合考虑网络中链路的实际状态，不能根据不同业务的特点合理规划网络最优传输路径。

发明内容

本发明实施方式的目的在于提供一种路由规划方法，通过将强化学习方法应用到数据中心路由规划中，并充分考虑链路的服务质量，使得能够在未知的复杂链路状态下，自主选择出链路服务质量QoS较优的路径，相比于传统的路由规划方法更加保守，对机器的损耗更低，同时路径规划速度更快速，更具高效性。

为解决上述技术问题，本发明的实施方式提供了一种路由规划方法，包括以下步骤：

获取网络的链路状态信息，其中，状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；采用基于同策略更新的Q-learning算法构建路由规划学习模型；将获取的链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表；根据路由关系映射表对全局路由进行规划。

本发明的实施方式还提供了一种路由规划系统，包括：链路状态检测模块、策略训练模块、路由规划模块；链路状态检测模块，用于获取数据中心网络的当前链路状态信息，其中链路状态信息，包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；策略训练模块，用于同链路状态检测模块进行交互，训练生成路由规划关系映射表；路由规划模块，用于根据路由映射表，对数据中心的网络进行全局的路由规划。

本发明的实施方式还提供了一种服务器，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，所述指令被至少一个处理器执行，以使至少一个处理器能够执行上述的路由规划方法。

本发明还提供了了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的路由规划方法。

本发明实施方式相对于现有技术而言，通过获取网络的链路状态信息，充分考虑链路的服务质量(QoS)，且采用基于同策略更新的Q-learning算法构建路由规划学习模型，迭代训练得到路由规划，能够在未知的复杂链路状态下，自主选择出QoS较优的路径，相比于传统的路由规划方法收敛速度更快，能够在全局的网络拓扑中快速发现路径，具有高效性。

另外，构建路由规划学习模型，还包括，设计路由规划学习模型中的奖励值R；其中，奖励值R根据链路等级进行划分，不同等级的链路状态对应不同的奖励值。使奖励值根据网络链路的状态等级进行划分确定，以保证迭代训练中得到的回报值更贴近链路实际状态，保证模型训练得到的结果更具实际意义。

另外，链路等级同链路服务质量QoS对应；其中，每条链路依照QoS的标准划分等级，QoS值越高对应的链路等级越高。充分考虑链路服务质量QoS，以保证自主选择的路径能满足QoS要求，为提升链路利用率和服务质量提供保障。

另外，将链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表，包括：确定当前链路状态S，设置初始位置为初始状态S0，目标位置为目标状态ST；其中，链路状态S为网络拓扑结构中不同节点相连的状态；初始化Q值矩阵；建立环境奖励值矩阵R；从当前状态的所有可能的动作中，选择一个动作a，执行动作a，到达下一个状态S’，同时更新动作a’；观察奖励值R和链路状态的变化，根据ε-贪婪策略迭代更新Q值矩阵；判断得到的下一个状态是否为目标状态，若是，判断Q值矩阵的收敛性，否则，继续选择动作a’执行，最终达到目标状态。根据收敛的Q值矩阵处理得到路由关系映射表。这里采用改进的Q-learning算法，在选择动作时遵循的策略和更新Q值时遵循的策略是相同的，即选择动作和更新Q值时都遵循ε-贪婪策略，经过不断地迭代更新状态值和动作值，直到Q矩阵收敛，生成路由规划表，相比于传统的方法更加保守，对机器的损耗更低，同时路径规划速度更快，具有高效性。

另外，继续选择动作a’执行，其中动作a’只能在剩下的交换机节点中选择一个节点进行连接。即在未到达目的位置，选择下一个动作时，需要从剩下的交换机节点所对应的所有状态中，再随机选择一个节点进行连接，通过上述设定来防止出现路由回路，避免数据包在网络上循环发送而导致网络资源浪费的现象。

另外，根据收敛的Q值矩阵处理得到路由关系映射表，具体包括：取链路实际状态值的均值作为所述交换机节点的最终状态值；用最终状态值对收敛的Q值矩阵进行降维，最终得到链路关系映射表。由于一台交换机根据链路QoS划分为两种状态，所以取一条链路实际状态的均值来对得到Q值矩阵降维，使得简化计算，得到简洁明了的链路关系映射表。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施方式中的路由规划方法流程图；

图2是根据本发明第一实施方式中的路由控制策略训练方法流程图；

图3是根据本发明第二实施方式中的路由规划方法流程图；

图4是根据本发明第二实施方式中的数据中心网络拓扑示意图；

图5是根据本发明第三实施方式中的路由规划系统框架图；

图6是根据本发明第四实施方式中的服务器装置示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种路由规划方法。本实施方式的核心在于获取网络的链路状态信息，其中，状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；采用基于同策略更新的Q-learning算法构建路由规划学习模型；将链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表；根据路由关系映射表对全局路由进行规划。本实施方式通过改进的Q-Learning算法的训练学习，在未知环境中，为数据包快速找到链路性能较优的转发路径，具有高效性；且在迭代训练过程中，选用同一策略选择和执行动作，比现有方法更保守，对机器损耗更低，更具有实际意义。下面对本实施方式的路由规划方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。本实施方式的具体流程如图1所示，包括：

步骤101，获取网络的链路状态信息。

具体地说，获取当前数据中线的网络拓扑结构、数据进行交互的起始点，以及网络中每条链路的服务质量QoS，其中每条链路依照所述QoS的标准划分等级，QoS值越高对应的链路等级越高。

步骤102，构建路由规划学习模型。

具体地说，根据链路服务质量QoS、路由节点连接状态S，以及到达下一个节点连接状态S'时执行的动作A构建Q值矩阵。也就是将数据中心路由规划问题描述成马尔科夫决策过程的四元组<S,R,A,Q>，包括：S表示链路状态集合，按节点连接方式确定不同的链路状态；A表示动作合集，表示根据链路状态所选择下一个交换机节点的行为a；R表示选择动作后获得的及时奖励值r；Q表示经过训练得到的Q矩阵，即每个状态下采取不同动作，所获取的最大长期奖励期望；其中，奖励值R根据链路等级进行划分，不同等级的链路状态对应不同的奖励值，并制定同一策略——ε-贪婪策略来选择动作A和迭代更新Q值矩阵。

步骤103，将链路状态信息输入到路由规划学习模型中，训练生成路由关系映射表，具体地说，其流程图如图2所示：

步骤1031：确定当前链路状态，设置数据交互的起始位置，将起点位置设为初始状态S₀，终点位置设置为目标状态S_T。

步骤1032：初始化参数。

具体地说，根据链路服务等级获取对应的r值，对R矩阵进行初始化，同时将Q矩阵初始化为零矩阵。

步骤1033：根据ε-贪婪策略选择动作。

具体地说，采用ε-贪婪策略选择下一连接节点，即说明有ε的概率会按照Q表的最大值选择连接的节点，有(1-ε)的概率随机选择连接的节点，在一个例子中，首次选择动作时，将ε赋值为0，也就是在选择第一个动作时进行随机选择的。

步骤1034：执行动作，达到下一状态。

具体地说，在当前状态S下执行动作a达到下一状态S’，更新动作a’，并观察奖励值R和新的链路状态的变化情况。

步骤1035：根据ε-贪婪策略更新Q值矩阵；具体地说，根据公式(1)对Q值进行迭代更新，同传统的Q学习算法相比，本发明在迭代更新Q值的过程中，同时更新了下一状态S’和下一步执行动作a’；

Q(S，a)←Q(S，a)+α[r+γ*Q(S′，a′)-Q(S，a)] (1)

其中，γ表示阻尼系数，取值范围区间为[0，1)，Q(S，a)表示在当前状态S下执行动作a后的Q值；Q(S′，a′)表示在下一状态S′下执行动作a′后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，γ*Q(S′，a′)是后续状态的折扣奖励，γ*Q(S′，a′)-Q(S，a)构成了后续状态奖励的改善估计。从公式(1)可以看出，学习速率α越大，保留之前的训练的效果就越少；折扣因子γ越大，在对链路连接状态更新时，就会越重视学习到的经验，反之，越小，则比较偏向于重视眼前利益R。

步骤1036：判断下一状态是否为目标状态。

具体地说：判断得到的所述下一个状态是否为目标状态，即判断是否到达交换机终点，若是，执行步骤1037；否则，回到步骤1033，继续选择动作a′执行，直到达到目标状态。

步骤1037：判断Q值矩阵的收敛性。

具体地说：若Q值矩阵收敛，则结束迭代训练，执行步骤1038；否则，回到步骤1031，重新确定链路的初始位置和终点位置，训练迭代至Q值矩阵收敛。

步骤104，根据路由关系映射表对全局路由进行规划。

具体地说：确定所述链路的初始位置和目标位置；根据所述路由关系映射表，选择表中Q值最大的节点作为每一步连接节点，得到完整的路由规划方案。

本实施方式中通过获取网络的链路状态信息，充分考虑链路的服务质量(QoS)，且采用基于同策略更新的Q-learning算法构建路由规划学习模型，迭代训练得到路由规划映射表，能够在未知的复杂链路状态下，自主选择出QoS较优的路径，相比于传统的路由规划方法收敛速度更快，能够在全局的网络拓扑中快速发现路径，具有高效性和实际性。

本发明的第二实施方式涉及一种路由规划方法。在本发明第二实施方式中，选择动作a’时，为了防止路由环路，设置了一种水平分割方法，即只能从剩余的交换机节点中选择一个节点进行连接；同时在得到路由关系映射表之前，对Q矩阵降维计算。改进部分的具体流程图如图3所示，以下针对具体改进部分做出说明，具体包括：

步骤201：获取网络的链路状态信息。

具体地说，获取当前网络拓扑结构、数据交互起始点和链路服务质量QoS。在一个例子中，数据中心网络拓扑示意图如图4所示，整个网络中有12条链路，每条链路的性能指标按照QoS标准分成了两个等级。当链路QoS性能属于0％-50％，对应链路等级为I级，当链路QoS性能属于51％-100％，对应链路等级为II级。

那么整个链路的状态S可以用长度为2¹²的矢量表示为：

S＝{s1_I，s1_II，s2_I，s2_II，…s12_I，s12_II}

其中s1_I表示经过交换机s1且链路等级为I的状态；s1_II表示经过交换机s1且链路等级为II的状态。

则相应的动作集A可以用长度2¹²的矢量表示为：

A＝{a1_I，a1_II，a2_I，a2_II，...a12_I，a12_II}

其中，a1_I表示到达状态s1_I所执行的动作；a1_II表示到达状态s1_II所执行的动作。

步骤202：构建路由规划学习模型。

具体地说，具体地说，根据链路服务质量QoS、路由节点连接状态S，以及到达下一个节点连接状态S′时执行的动作A构建Q值矩阵，并制定同一策略——ε-贪婪策略来选择动作A和迭代更新Q值矩阵。

步骤203：确定当前链路状态，设置初始状态和目标状态。

具体地说：确定当前链路状态S，设置初始位置为初始状态S0，目标位置为目标状态ST；其中，所述链路状态S为所述网络拓扑结构中不同节点相连的状态。

步骤204：初始化参数。

具体地说，Q矩阵为状态转移矩阵，对应是一个2¹²*2¹²的矩阵，可以表示为：

其中，q_i，j表示由状态s_i执行某个动作后，状态转移到s_j时智能体所学到的经验。这里将初始化Q值矩阵为一个2¹²*2¹²的零矩阵。

步骤205：考虑链路服务质量性能确定对应奖励值。

具体地说：R矩阵设为一个2¹²*2¹²的矩阵，可以表示为：

其中γ_i，j表示由状态s_i执行某个动作后，状态转移到s_j时所获得的奖励值。

初始化奖励值矩阵，根据链路等级划分奖励值，对应等级越高，奖励值越大。在一个例子中，链路等级为I级，对应奖励值r为50，链路等级为II级，对应奖励值r为200。

步骤206：根据ε-贪婪策略选择动作；具体地说，即当ε＝α时，则说明有α的概率会按照Q表的最优值选择动作，有(1-α)的概率随机选择动作。

步骤207：执行动作，达到下一状态；具体地说，在当前状态S下执行动作a达到下一状态S’，同时更新动作a’，并观察奖励值R和新的链路状态的变化情况。

步骤208：根据ε-贪婪策略更新Q值矩阵。

具体地说，不同于传统的Q学习算法中直接选择最大值进行更新，而是以ε-贪婪策略更新Q值函数，该过程同第一实施方式中步骤1035，这里不再赘述。

步骤209：判断下一状态是否为目标状态。

具体地说：若达到目标状态，即达到交换机终点位置，执行步骤211；若否，则执行步骤210。

步骤210：从剩余的交换机中选择连接节点。

具体地说，某个数据包信息一旦经过了某台交换机节点以后，该数据包下一跳的可选路径只能够从剩余的交换机节点里再去选择，而不能再次回到之间已经到达过的节点，从而防止路由回路。

步骤211：判断Q值矩阵的收敛性。

具体地说，若得到的Q值矩阵已经收敛，执行步骤212，若还未收敛，则执行步骤203，即重新确定一条数据交互的起始点，继续训练。

步骤212：对Q值矩阵降维。

具体地说，一台交换机根据链路QoS划分为两种状态。为了简化计算，取一台交换机两种实际链路状态的平均值作为该交换机节点的最终状态，对矩阵降维，使Q矩阵由维度2¹²*2¹²变为12*12。

步骤213：根据已降维Q值矩阵得到路由关系映射表。

具体地说：根据处理过的矩阵得到对应的路由关系映射表，如表1所示。

表1：路由关系映射表

步骤214：确定数据交互起始位置。

具体地说，在一个例子中，确定数据交互的起始位置，选定任意起点(S1-S11)、终点S12。

步骤215：基于链路关系映射表，确定符合服务质量的最短连接路径。

具体地说：可以从表中查到任意起点(S1-S11)到终点交换机S12的完整路径，如表2所示：

表2：路由规划表

起点	终点	路径
			S1	S12	S1-S4-S9-S12
S2	S12	S2-S4-S9-S12
			S3	S12	S3-S6-S7-S9-S12
S4	S12	S4-S9-S12
			S5	S12	S5-S9-S12
S6	S12	S6-S7-S9-S12
			S7	S12	S7-S9-S12
S8	S12	S8-S9-S12
			S9	S12	S9-S12
S10	S12	S10-S11-S12
			S11	S12	S11-S12

由表2可知，如果当前所在位置为交换机S3，终点位置为交换机S12,，根据上述路由规划表，得到链路QoS最高的转发路径为S3-S6-S7-S9-S12。

需要说明的是：在本发明第二实施方式中，步骤204和步骤205执行时不分先后。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及一种路由规划系统，如图5所示，包括：

301，链路状态检测模块：用于获取数据中心网络的当前链路状态信息，其中链路状态信息，包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS。

302，策略训练模块：用于同链路状态检测模块进行交互，训练生成路由规划关系映射表。

具体地说，包括：

3021，选择单元：用于执行单次链路选择前感知当前链路状态信息，并根据链路连接状态信息，以ε-贪婪策略选择下一个交换机节点的行为动作。

3022，更新单元：用于执行行为动作后，根据所述奖励值、更新的链路状态和交换机节点信息，采用ε-贪婪策略更新Q值矩阵。

3023，判断单元，用于判断更新后的链路状态是否为目标状态，若是，判断Q值矩阵的收敛性；否则，继续进行下一步交换机节点选择动作，直至Q值矩阵收敛。其中，判断Q值矩阵的收敛性，包括：若Q值矩阵收敛，则结束迭代训练；否则，重新进行数据交互起始位置的选择，迭代至目标状态。

303，路由规划模块：用于根据路由关系映射表，对数据中心的网络进行全局的路由规划。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第三实施方式涉及一种服务器，如图6所示，至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述路由规划方法的实施方式。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述路由规划方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种路由规划方法，其特征在于，包括：

获取网络的链路状态信息，其中，所述链路状态信息包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；

采用基于同策略更新的Q-learning算法构建路由规划学习模型；

将所述链路状态信息输入到所述路由规划学习模型中，训练生成路由关系映射表；

根据所述路由关系映射表对全局路由进行规划。

2.根据权利要求1所述的路由规划方法，其特征在于，所述构建路由规划学习模型，包括：

根据所述QoS、当前节点连接状态S，以及到达下一个节点连接状态S'时执行的动作a构建Q值矩阵，并采用同策略选择所述动作a和迭代更新所述Q值矩阵，其中所述同策略为ε-贪婪策略。

3.根据权利要求1所述的路由规划方法，其特征在于，所述构建路由规划学习模型，还包括，设计所述路由规划学习模型中的奖励值R；其中，所述奖励值R根据所述链路等级进行划分，不同等级的链路状态对应不同的奖励值。

4.根据权利要求2所述的路由规划方法，其特征在于，所述链路等级同链路服务质量QoS对应；其中，每条所述链路依照所述QoS的标准划分等级，所述QoS值越高对应的所述链路等级越高。

5.根据权利要求1所述的路由规划方法，其特征在于，所述将所述链路状态信息输入到所述路由规划学习模型中，训练生成路由关系映射表，包括：

确定当前链路状态S，设置初始位置为初始状态S₀，目标位置为目标状态S_T；其中，所述链路状态S为所述网络拓扑结构中不同节点相连的状态；

初始化Q值矩阵；

建立环境奖励值矩阵R；

从当前状态的所有可能的动作中，根据所述ε-贪婪策略选择一个动作a，执行所述动作a，到达下一个状态S’，同时更新动作a’；

观察所述奖励值R和所述链路状态的变化，根据所述ε-贪婪策略迭代更新所述Q值矩阵；

判断得到的所述下一个状态是否为目标状态，若是，判断Q值矩阵的收敛性，否则，继续选择动作a’执行，最终达到目标状态；

根据所述收敛的Q值矩阵处理得到所述路由关系映射表。

6.根据权利要求5所述的路由规划方法，其特征在于，所述判断Q值矩阵的收敛性，包括：

若所述Q值矩阵收敛，则结束训练；否则，重新确定所述链路的初始位置和终点位置，训练迭代至所述Q值矩阵收敛。

7.根据权利要求5所述的路由规划方法，其特征在于，所述继续选择动作a’执行，其中所述动作a’在剩下的交换机节点中选择一个节点进行连接。

8.根据权利要求5所述的路由规划方法，其特征在于，根据所述收敛的Q值矩阵处理得到所述路由关系映射表，具体包括：

取实际链路状态值的均值作为所述交换机节点的最终状态值；

用所述最终状态值对所述收敛的Q值矩阵进行降维，最终得到所述链路关系映射表。

9.根据权利要求1所述的路由规划方法，其特征在于，根据所述映射表，对所述数据中心的网络进行全局的路由规划，具体包括：

任意确定所述链路的初始位置和目标位置；

根据所述路由关系映射表，选择所述链路关系映射表中Q值最大的节点作为每一步连接节点，得到完整的路由规划方案。

10.一种路由规划系统，其特征在于，包括：链路状态检测模块、策略训练模块、路由规划模块；

链路状态检测模块，用于获取数据中心网络的当前链路状态信息，其中链路状态信息，包括当前网络拓扑结构、数据交互起始点和链路服务质量QoS；

策略训练模块，用于同所述链路状态检测模块进行交互，训练生成路由规划关系映射表；

路由规划模块，用于根据所述路由规划映射表，对所述数据中心的网络进行全局的路由规划。

11.根据权利要求10所述的一种路由规划系统，其特征在于，策略训练模块，包括：

选择单元，用于执行单次链路选择前感知当前链路状态信息，并根据所述状态信息，以所述ε-贪婪策略选择下一个交换机节点的行为动作；

更新单元，用于执行所述行为动作后，根据所述奖励值、更新的链路状态和交换机节点信息，采用所述ε-贪婪策略更新Q值矩阵；

判断单元，用于判断所述更新后的链路状态是否为目标状态，若是，判断Q值矩阵的收敛性；否则，继续进行下一步交换机节点选择动作，直至Q值矩阵收敛；其中，所述判断Q值矩阵的收敛性，包括：若所述Q值矩阵收敛，则结束迭代训练；否则，重新进行链路选择，直至到目标状态。

12.一种服务器，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至9中任一所述的路由规划方法。

13.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的路由规划方法。