CN115499365A

CN115499365A - 路由优化方法、装置、设备及介质

Info

Publication number: CN115499365A
Application number: CN202210911959.5A
Authority: CN
Inventors: 孟慧平; 金翼; 李文萃; 高峰; 谢波; 李东; 巩锐; 刘越; 熊翱; 郭少勇
Original assignee: Beijing University of Posts and Telecommunications; State Grid Henan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Current assignee: Beijing University of Posts and Telecommunications; State Grid Henan Electric Power Co Ltd; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-20

Abstract

本发明提供一种路由优化方法、装置、设备及介质，包括：从数据转发层中获取其网络拓扑的实时网络状态；将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。本发明有效提高网络传输效率，避免网络拥塞问题，提高网络吞吐量。

Description

路由优化方法、装置、设备及介质

技术领域

本发明涉及路由优化技术领域，尤其涉及一种路由优化方法、装置、设备及介质。

背景技术

随着互联网、社交网络以及物联网等领域快速发展，接着出现的问题就是层出不穷的新应用和爆发式增长的数据流量需求，用户的需求不再是简单的低时延的语音和短信业务，而是需要对网络的QoS(Quality of Service，服务质量)有更高的需求，即要需要对网络中的时延、吞吐量、抖动率、丢包率等方面要求满足对用户的需求。同时，网络面对更大规模的数据传输和流量，需要保障网络稳定得提供服务，避免拥塞导致网络导致瘫痪。而传统的网络路由方案一般采用最短路径算法进行计算，现在已经很难满足当前网络流量需求量大的资源，存在收敛速度慢，很容易存在网络拥塞问题。

SDN(Software Defined Network，软件定义网络)可以很好的解决当前网络存在的拥塞，效率低的问题。SDN的构建是将现在使用的网络设备的控制层和数据层进行分离。SDN的结构有应用层、控制层、数据转发层。SDN的转控层分离，集中控制的结构可以很好的为数据提供较大的灵活性，可以更有效的加快整体网络的传输效率，近年来有得到广泛应用。

在当今使用SDN使用路由算法主要是用Dijksra算法，仅考虑了路径最短的问题，而路径优化的影响因素还包括网络拓扑的网络状态，因此，现有技术存在网络传输效率低，导致容易发生网络拥塞的技术缺陷。

发明内容

本发明提供一种路由优化方法、装置、设备及介质，用以解决现有技术中网络传输效率低，导致容易发生网络拥塞的缺陷，实现有效的提高网络传输效率。

本发明提供一种路由优化方法，包括：

从数据转发层中获取其网络拓扑的实时网络状态；

将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；

将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；

将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；

将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

根据本发明提供的一种路由优化方法，确定所述实时网络状态，包括：

获取任一源节点至任一目的节点的数据的传输状态参数；

将所述传输状态参数归一化，得到所述源节点至所述目的节点的实时网络状态。

根据本发明提供的一种路由优化方法，所述奖励值是归一化所述数据转发层的网络拓扑的时延、带宽、抖动率和丢包率得到的。

根据本发明提供的一种路由优化方法，获取所述数据转发层的新网络状态和奖励值，将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

获取所述数据转发层每次执行动作得到新网络状态和奖励值；

将所述实时网络状态、每次执行动作对应的新网络状态和奖励至存储至缓存池中；

若所述缓存池的数据量达到设定值，则从所述缓存池随机抽取批量的数据量输入至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；

其中，所述新网络状态和所述奖励值是所述数据转发层基于所述路由转发路径执行动作得到的。

根据本发明提供的一种路由优化方法，从所述缓存池随机抽取批量的数据量输入至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

从所述缓存池中批量获取所述实时网络状态、所述新网络状态和所述奖励值；

将所述实时网络状态输入至所述智能体的actor网络中的在线策略网络，得到所述在线策略网络输出的中间动作状态；

将所述中间动作状态和所述新网络状态输入至所述智能体的critic网络中的在线价值网络，得到所述在线价值网络输出的价值网络梯度；

将所述价值网络梯度输入至所述在线策略网络，以基于所述价值网络梯度和所述在线策略网络对应的策略网络梯度更新所述在线策略网络。

根据本发明提供的一种路由优化方法，将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径，包括：

将所述实时网络状态输入至控制层的智能体中的actor网络，得到所述actor网络输出的路由转发路径。

本发明还提供一种路由优化装置，包括：

实时网络状态获取模块，用于从数据转发层中获取其网络拓扑的实时网络状态；

路由转发路径确定模块，用于将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；

反馈值获取模块，用于将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；

智能体更新模块，用于将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；

路径优化模块，用于将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述路由优化方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述路由优化方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述路由优化方法。

本发明提供的路由优化方法、装置、设备及介质，通过在SDN框架下，考虑其数据转发层的网络拓扑的实时网络状态、以及实时网络状态对应的新网络状态以及新网络状态对应的奖励值，进行训练智能体，得到目标智能体，最终，根据目标智能体获得数据转发层中最佳的目标路由转发路径，以供数据转发层基于目标路由转发路径进行路由转发，实现了基于强化学习的在SDN框架下进行转发数据网络，用网络状态作为性能指标度量，从而有效的提高网络传输效率，避免网络拥塞问题，提高网络吞吐量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的路由优化方法的流程示意图之一；

图2是本发明所应用的SDN的架构示意图；

图3是本发明所应用的强化学习模型的原理示意图；

图4是本发明提供的路由优化方法的实现架构；

图5是本发明提供的路由优化方法的流程示意图之二；

图6是本发明提供的路由优化方法的流程示意图之三；

图7是本发明提供的路由优化方法的流程示意图之四；

图8是本发明提供的路由优化方法的流程示意图之五；

图9是本发明提供的路由优化装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图8描述本发明的路由优化方法。

请参照图1，本发明提供的路由优化方法，包括：

步骤10，从数据转发层中获取其网络拓扑的实时网络状态；

需要说明的是，本发明提供的路由优化方法应用于SDN(Software DefinedNetwork，软件定义网络)架构，SDN的结构有应用层、控制层和数据转发层，SDN的结构请参照图2。

SDN由三层结构构成的，应用层是包含流量工程、基础实施、故障恢复、网络虚拟化等网络应用程序，是与网络工程师直接交互的层面；控制层是系统的控制中心，负责对数据平面的设备进行集中控制网络流量的分配，以及维护全网的转发路径等，完成对网络流量的分配；数据转发层是执行用户数据的转发，完成控制器下达的路由转发路。层级之间的信息传递控制层和应用层是通过北向接口进行传递，在控制层与数据层之间信息传递是南向接口。SDN架构的优点有：1)、网络结构分层明确，功能分布明确；2)、网络传输和配置是由控制器进行统一操作，即可编程化；3)控制层和数据转发是结构的耦合的关系，可以提高数据的传输的效率。SDN结构下的网络可以满足当今对网络大量的需求量的转发，使得QoS网络得到提升。

强化学习包括的元素有奖励、动作、环境、智能体、状态等，即标准的MDP模型，在智能体与环境的不断交互中进行动作的选择与状态的改变，最终目的使奖励值达到最大，强化学习模型的结构如图3所示。

状态：在强化学习过程中，状态反映了智能体所处当前环境的特征。在路由场景中，状态代表这网络中的数据包等的传输状况。从源节点d_i出发到最终的目的节点d_j。假设网络中的节点总数都为N，且每个节点都会被经过。对于每个QoS度量，定义一个N*N的二维矩阵，并且采用min-max把QoS里的相关参数归一化，使取值范围为[0,1],即公式(1)。即d_ij代表单位时间从源节点d_i到d_j的QoS的指定的度量,状态矩阵如(2)所示。

动作：动作是智能体根据当前状态和策略进行下一步动作。在路由当作是智能体对网络下发的具体路由规则。假网络设有E个边，则定义动作集合为A＝[a₁,a₂,...,a_|E|]。在该网络中每个通信链路(i,j)∈E。

奖励：根据当前网络状态和智能体做出的行为，转变到下一网络状态反馈到的奖励，奖励可根据不同的网络设置不同指标的奖励函数。

实时网络状态代表数据转发层中网络拓扑的节点数据的传输状况或网络质量。实时网络状态可以用于表示QoS，即表示网络传输的网络质量，实时网络状态可以包括QoS度量指标，具体可以包括带宽、时延、抖动和丢包率等。

步骤20，将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；

在本实施例中，获取到SDN的数据转发层的网络拓扑的实时网络状态后，将实时网络状态输入至控制层中的智能体，以供控制层中的智能体根据实时网络状态进行计算实时网络状态对应的路由转发路径。其中，智能体部署于SDN网络的控制层中，智能体属于人工智能中的一个概念，指具有智能的实体，以AI为核心构建的一个具有感知、协同、判断、进化以及开放等属性的智能系统。

步骤30，将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；

在本实施例中，智能体计算得到路由转发路径后，先将路由转发路径传递给SDN架构中的SDN控制器，即将路由转发路径向SDN架构中的SDN控制器进行传递，之后，再由SDN控制器集中转发至数据转发层。数据转发层接收到路由转发路径后，根据路由转发路径设置数据转发层中的数据传输参数，并执行数据传输操作。在数据转发层基于接收到的路由转发路径执行数据传输操作后，检测对应的网络状态，得到新网络状态以及基于新网络状态计算奖励值。

其中，新网络状态是数据转发层的网络拓扑执行路由转发路径得到的，奖励值是基于新网络状态计算得到的。

步骤40，将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；

步骤50，将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

在本实施例中，得到实时网络状态对应的新网络状态，将新网络状态和奖励值反馈至智能体，以供智能体根据反馈的实时网络状态、新网络状态和奖励值对其神经网络参数进行更新，直至智能体收敛获得目标智能体。其中，智能体的收敛条件可以包括智能体的训练次数达到最大次数、智能体的梯度值达到预设阈值等，目标智能体为收敛的智能体，需要说明的是，目标智能体属于训练完成的智能体，能够应用于路径的优化。

得到目标智能体后，将目标智能体应用于路径优化，具体地：获取数据转发层中的网络状态作为待识别网络状态，并将待识别网络状态输入至目标智能体中，以供目标智能体根据接收到的待识别网络状态以及目标智能体的目标神经网络参数，确定目标路由转发路径，最终得到待识别网络状态对应的目标路由转发路径。目标智能体输出目标路由转发路径至SDN控制器，SDN控制器将目标路由转发路径传递至数据转发层，数据转发层接收目标路由转发路径，并根据目标路由转发路径设置数据转发层中的数据传输参数，并执行数据传输操作。

请参照图4，本实施例通过使用SDN架构将对网络路由进行集中控制路径转发，采用深度强化学习与路由环境不断进行交互与尝试，对神经网络参数进行训练，最终达到收敛得到目标智能体。根据目标智能体获得数据转发层中最佳的目标路由转发路径，以供数据转发层基于目标路由转发路径进行路由转发，使网络QoS得到提高，网络减少传输时延、抖动率、丢包率和提高网络带宽，减少网络拥塞情况的发生。

在一种实施例中，请参照图5，步骤10、确定所述实时网络状态，包括：

步骤11，获取任一源节点至任一目的节点的数据的传输状态参数；

步骤12，将所述传输状态参数归一化，得到所述源节点至所述目的节点的实时网络状态。

在本实施例中，在强化学习过程中，状态反映了智能体所处当前环境的特征。在路由场景中，状态代表这网络中的数据包等的传输状况，即网络状态代表数据转发层中网络拓扑的节点数据的传输状况或网络质量，在本实施例中，传输状态参数为任一源节点至任一目的节点的QoS度量指标。

具体地，从源节点d_i出发到最终的目的节点d_j，假设网络中的节点总数都为N，且每个节点都会被经过。对于实时网络状态对应的每个QoS度量指标，定义一个N*N的二维矩阵，并且将每个QoS度量指标进行归一化，使取值范围为[0,1]，即下述的公式(1)。即d_ij代表单位时间从源节点d_i到d_j的传输状态的QoS度量，状态矩阵如(2)所示。

本实施例中，实时网络状态是任一源节点至任一目的节点的数据的传输状态参数进行归一化得到的，再通过归一化后的网络的传输状态参数即实时网络状态进行强化学习，实现提升强化学习的学习效率，并且达成了使用网络状态作为性能指标度量进行强化学习，从而进一步地提高网络传输效率。

在一种可能的实施例中，所述奖励值是归一化所述数据转发层的网络拓扑的时延、带宽、抖动率和丢包率得到的。

在本实施例中，根据QoS的指标网络延迟、带宽、抖动率、丢包率等实际的网络数据作为奖励值的参数传递给智能体，用于智能体的神经网络参数进行更新，进行不断的对智能体中的神经网络参数进行训练更新，达到收敛，得到最优路由转发策略，从而可以找到路由转发达到对QoS指标最优路径。其中，奖励设计参数为QoS的时延D_ji、带宽B_ij、抖动率P_ij、丢包率J_ij。把该奖励设计参数根据进行归一化，使取值范围为[0,1]。则奖励函数如公式(3)所示，其中w₁、w₂、w₃、w₄取值范围均为(0,1]。基于下述奖励函数计算新网络状态对应的奖励值。

R＝-d_ij*w₁+b_ij*w₂-p_ij*w₃-j_ij*w₄ (3)

本实施例中，使用归一化数据转发层的网络拓扑的时延、带宽、抖动率和丢包率得到的奖励值进行路径优化的强化学习，使网络QoS得到提高，网络减少传输时延、抖动率、丢包率和提高网络带宽，减少网络拥塞情况的发生。

在一种可能的实施例中，请参照图6，步骤40、获取所述数据转发层的新网络状态和奖励值，将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

步骤41，获取所述数据转发层每次执行动作得到新网络状态和奖励值；

步骤42，将所述实时网络状态、每次执行动作对应的新网络状态和奖励至存储至缓存池中；

步骤43，若所述缓存池的数据量达到设定值，则从所述缓存池随机抽取批量的数据量输入至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；

本实施例中，训练的数据集采用的是经验回放算法，设置存储样本数据的缓存池R，将与环境之间的交互相关数据即实时网络状态存储到R中，当缓存池R中的数据量到达设定值N之后，神经网络的学习将采用从R中进行随机抽样的方式进行对智能体的训练，采用随机抽样的方式可以消除数据之间的时间关联，具体过程如图7所示。

本实施例中，采用随机抽样的方式抽取数据样本进行训练智能体，可以消除数据之间的时间关联，提升路径优化的准确性，进一步提升SDN网络传输效率。

在一种可能的实施例中，请参照图8，步骤43、从所述缓存池随机抽取批量的数据量输入至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

步骤431，从所述缓存池中批量获取所述实时网络状态、所述新网络状态和所述奖励值；

步骤432，将所述实时网络状态输入至所述智能体的actor网络中的在线策略网络，得到所述在线策略网络输出的中间动作状态；

步骤433，将所述中间动作状态和所述新网络状态输入至所述智能体的critic网络中的在线价值网络，得到所述在线价值网络输出的价值网络梯度；

步骤434，将所述价值网络梯度输入至所述在线策略网络，以基于所述价值网络梯度和所述在线策略网络对应的策略网络梯度更新所述在线策略网络。

在本实施例中，提出的路径优化方法的训练算法应用的是DDPG算法，具体解释如下：在DDPG算法中使用了Actor-Critic算法，智能体包括Actor模块(也可称为行为模块)和Critic模块(也可称为评价模块)，其中每个模块都有两个神经网络中组成，一个是在线网络(online network)是用于训练和学习，一个目标网络(target network)，这两个网络结构是相同的，具体地，Actor模块包括在线策略网络和其对应的目标网络，Critic模块包括在线价值网络和对应的目标网络。

本发明路由优化算法的深度强化学习采用的是DDPG算法。在训练过程中，DDPG使用技术损失函数的梯度更新在线价值网络的critic网络参数，通过策略梯度更新在线策略网络的actor网络参数。之后根据actor网络参数来更新目标网络里的参数，直到参数收敛。

下面将详细介绍DDPG算法训练的步骤。

初始化在线策略网络的actor网络参数θ^u和在线价值网络的critic网络参数θ^Q。初始化actor目标网络参数和critic目标网络参数，分别为：(1)θ^u，←θ^u，以及(2)θ^Q，←θ^Q。初始化随机过程，在线策略网络获取到当前网络状态s_t,根据学习策略u进行选择a_t，即a_t＝u(s_t|θ^u)，数据转发层则根据a_t指定的路由方案进行决策，并根据链路的QoS奖励函数计算奖励值y_i，返回y_i和新网络状态s_t+1。将(s_t,a_t,y_i,s_t+1)放入缓存池中，用作训练神经网络参数的数据集。从缓存池中随机抽取M个数据(s_i,a_i,y_i,s_i+1)训练在线网络里神经网络的参数。

使用公式(5)计算损失函数，然后用梯度下降

更新在线网络critic里的参数θ^Q。利用公式(6)计算策略梯度

更新在线网络actor参数θ^u。利用公式(7)(8)更新目标网络actor参数和目标网络critic参数。

用TD算法计算得出的y_i之间进行TD-error计算损失函数如公式(5)，用来更新在线critic网络参数：

更新在线Actor网络里的参数使用在线critic网络的梯度与在线actor网络的梯度的乘积，具体公式如(6)所示：

更新目标网络的critic参数和actor参数的公式如(7)(8)所示：

θ^Q’←τθ^Q+(1-τ)θ^Q’ (7)

θ^μ’←τθ^μ+(1-τ)θ^μ’ (8)

在DDPG算法里的目标使每一步动作得到的奖励值获得最大，在本发明中设计的奖励函数是关于QoS的网络参数指标，即每次给环境路由转发路径动作为了获得较低的网络传输时延、抖动率、丢包率和提高网络带宽，从而达到减少网络拥塞、获得更高的传输效率和网络服务质量。

在一种可能的实施例中，将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径，包括：

本实施例中，路由优化算法的深度强化学习采用的是DDPG算法，通过控制层的智能体中的actor网络，计算得到路由转发路径，以用于后续的强化学习，提升强化学习的效果，进而提升了网络传输效率，从而达到减少网络拥塞、获得更高的传输效率和网络服务质量。

下面对本发明提供的路由优化装置进行描述，下文描述的路由优化装置与上文描述的路由优化方法可相互对应参照。

请参照图9，本发明提供一种路由优化装置，包括：

进一步地，所述路由优化装置还包括实时网络状态确定模块，用于：

获取任一源节点至任一目的节点的数据的传输状态参数；

进一步地，所述奖励值是归一化所述数据转发层的网络拓扑的时延、带宽、抖动率和丢包率得到的。

进一步地，所述智能体更新模块，还用于：

进一步地，所述路由转发路径确定模块，还用于：

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行路由优化方法，该方法包括：从数据转发层中获取其网络拓扑的实时网络状态；将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的路由优化方法，该方法包括：从数据转发层中获取其网络拓扑的实时网络状态；将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的路由优化方法，该方法包括：从数据转发层中获取其网络拓扑的实时网络状态；将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径；将所述路由转发路径传递至所述数据转发层，以获得所述数据转发层的新网络状态和奖励值；将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体；将待识别网络状态输入至所述目标智能体，得到所述目标智能体输出的目标路由转发路径。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种路由优化方法，其特征在于，包括：

从数据转发层中获取其网络拓扑的实时网络状态；

2.根据权利要求1所述的路由优化方法，其特征在于，确定所述实时网络状态，包括：

获取任一源节点至任一目的节点的数据的传输状态参数；

3.根据权利要求1所述的路由优化方法，其特征在于，所述奖励值是归一化所述数据转发层的网络拓扑的时延、带宽、抖动率和丢包率得到的。

4.根据权利要求1所述的路由优化方法，其特征在于，获取所述数据转发层的新网络状态和奖励值，将所述新网络状态和所述奖励值反馈至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

5.根据权利要求4所述的路由优化方法，其特征在于，从所述缓存池随机抽取批量的数据量输入至所述智能体的神经网络参数进行更新，直至所述智能体收敛获得目标智能体，包括：

6.根据权利要求1所述的路由优化方法，其特征在于，将所述实时网络状态输入至控制层中的智能体，得到所述智能体输出的路由转发路径，包括：

7.一种路由优化装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述路由优化方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述路由优化方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述路由优化方法。