CN110635973B

CN110635973B - 一种基于强化学习的骨干网络流量确定方法及系统

Info

Publication number: CN110635973B
Application number: CN201911086872.3A
Authority: CN
Inventors: 聂来森; 王蕙质; 尚润泽; 陶醉; 吴诒轩; 潜梦羽; 武子钰
Original assignee: Qingdao Research Institute Of Northwest Polytechnic University
Current assignee: Qingdao Research Institute Of Northwest Polytechnic University
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2022-07-12
Anticipated expiration: 2039-11-08
Also published as: CN110635973A

Abstract

本发明公开一种基于强化学习的骨干网络流量确定方法及系统，所述方法包括：根据获取的骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵；根据路由矩阵，确定即刻奖赏矩阵；根据即刻奖赏矩阵，确定累计奖赏矩阵；对累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵；根据最优累计奖赏矩阵，确定骨干网络中待测量的路由器；判断所述待测量的路由器是否小于端到端流量阈值；根据判断结果判断是否直接测量待测量的路由器的流量，进而确定骨干网络流量。本发明所提供的一种基于强化学习的骨干网络流量确定方法及系统，能够保证网络流量确定的准确性。

Description

一种基于强化学习的骨干网络流量确定方法及系统

技术领域

本发明涉及无线通信技术领域，特别是涉及一种基于强化学习的骨干网络流量确定方法及系统。

背景技术

互联网的应用大大改善了我们的生活。网络的规模正在迅速增长，这使得网络比以前复杂得多。随着网络流量的快速增长，网络管理问题日益突出。为了保证网络的安全和效率，网络管理对于运营商来说是必不可少的。并且，有效的网络管理可以为用户提供高质量的服务，使网络避免网络拥塞、分布式拒绝服务(DDoS)等网络攻击。流量矩阵(TM)作为一个重要的输入参数，描述了网络中源-目的(OD)流之间的网络流量动态轨迹。实现流量矩阵的分类法有很多。一般可分为直接测量法和网络流量估计法两大类。网络流量确定方法根据流量矩阵与链路负载之间的关系，推导出流量矩阵。然而，它的缺点是定位很差，因此很难获得一个准确的流量矩阵估计。另一方面，直接测量方法虽然可以得到精确的流量矩阵估计量，但增加了网络负载。此外，它还消耗路由器的许多资源(如CPU和内存)。

为了获得网络流量数据，在过去二十年中提出很多种方法。网络层析成像技术是一种传统的间接流量矩阵测量方法。网络层析成像技术的主要的缺点是网络高度病态特征引起的估计误差。虽然直接测量是有效的实现网络流量数据的方法，其造成的网络的高消耗使其备受诟病。

为了减少直接测量对网络的消耗，提出了一些优化直接测量的方法。Ghode等改进了ZRP协议，增加了能量限制使其在MANET网络中有效工作。Salsano等人分析了连接检查的机制性能(网络延迟和数据包丢失)监控并提出了一种基于内核的互联网协议地址(InternetProtocol,IP)接入网实现，其CPU使用率相对较低。还有学者提出了一种动态协同监测方法，基于社会网络分析的界面选择方案可以有效降低网络成本。Shin等提出了一种分布式在线优化嗅探器算法多通道被动监控的信道分配无线网络。

但是，对于网络环境的复杂性和时变性，上述直接测量的方法很难保证的流量确定的准确性。

发明内容

本发明的目的是提供一种基于强化学习的骨干网络流量确定方法及系统，能够保证网络流量确定的准确性。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的骨干网络流量确定方法，包括：

获取骨干网络中所有的链路、所有的路由器和所有的端口；

根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵；

根据所述路由矩阵，确定即刻奖赏矩阵；所述即刻奖赏矩阵为在某一链路时，一个动作作用于所述骨干网络，所述骨干网络返回的奖赏值；所述奖赏值为每个动作设置的权重值；

根据所述即刻奖赏矩阵，确定累计奖赏矩阵；所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值；

对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵；所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵；

根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器；

判断所述待测量的路由器是否小于端到端流量阈值，得到第一判断结果；所述端到端流量阈值为用户需要测量的路由器数目；

当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时，则返回所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器的步骤；

当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时，则直接测量所述待测量的路由器的流量，确定骨干网络流量。

可选的，所述根据所述路由矩阵，确定即刻奖赏矩阵，具体包括：

根据所述路由矩阵，确定链路奖赏矩阵；

根据所述链路奖赏矩阵，确定端口奖赏矩阵；

根据所述骨干网络，确定修正矩阵；

根据所述端口奖赏矩阵和所述修正矩阵，确定即刻奖赏矩阵。

可选的，所述根据所述路由矩阵，确定即刻奖赏矩阵，之前还包括：

计算骨干网络中每两条链路之间的相关因数；

根据相关因数，确定初始链路；所述初始链路为与其他链路的相关因数最大的链路。

可选的，所述对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵，之前还包括：

判断所述初始链路是否为目标链路，得到第二判断结果；所述目标链路为所述累计奖赏矩阵不会变化的链路；

当所述第二判断结果表示所述初始链路为目标链路时，则不进行强化学习，并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵；

当所述第二判断结果表示所述初始链路不为目标链路时，则进行强化学习。

可选的，所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器，之后还包括：

将所述待测量的路由器从所述骨干网络中删除，并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵的步骤。

一种基于强化学习的骨干网络流量确定系统，包括：

第一获取模块，用于获取骨干网络中所有的链路、所有的路由器和所有的端口；

路由矩阵确定模块，用于根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵；

即刻奖赏矩阵确定模块，用于根据所述路由矩阵，确定即刻奖赏矩阵；所述即刻奖赏矩阵为在某一链路时，一个动作作用于所述骨干网络，所述骨干网络返回的奖赏值；所述奖赏值为每个动作设置的权重值；

累计奖赏矩阵确定模块，用于根据所述即刻奖赏矩阵，确定累计奖赏矩阵；所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值；

最优累计奖赏矩阵确定模块，用于对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵；所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵；

待测量的路由器确定模块，用于根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器；

第一判断模块，用于判断所述待测量的路由器是否小于端到端流量阈值，得到第一判断结果；所述端到端流量阈值为用户需要测量的路由器数目；

待测量的路由器更新模块，用于当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时，则返回所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器的步骤；

骨干网络流量确定模块，用于当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时，则直接测量所述待测量的路由器的流量，确定骨干网络流量。

可选的，所述即刻奖赏矩阵确定模块具体包括：

链路奖赏矩阵确定单元，用于根据所述路由矩阵，确定链路奖赏矩阵；

端口奖赏矩阵确定单元，用于根据所述链路奖赏矩阵，确定端口奖赏矩阵；

修正矩阵确定单元，用于根据所述骨干网络，确定修正矩阵；

即刻奖赏矩阵确定单元，用于根据所述端口奖赏矩阵和所述修正矩阵，确定即刻奖赏矩阵。

可选的，还包括：

相关因数计算模块，用于计算骨干网络中每两条链路之间的相关因数；

初始链路确定模块，用于根据相关因数，确定初始链路；所述初始链路为与其他链路的相关因数最大的链路。

可选的，还包括：

第二判断模块，用于判断所述初始链路是否为目标链路，得到第二判断结果；所述目标链路为所述累计奖赏矩阵不会变化的链路；

第一确定模块，用于当所述第二判断结果表示所述初始链路为目标链路时，则不进行强化学习，并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵；

强化学习确定模块，用于当所述第二判断结果表示所述初始链路不为目标链路时，则进行强化学习。

可选的，还包括：

删除模块，用于将所述待测量的路由器从所述骨干网络中删除，并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵的步骤。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的一种基于强化学习的骨干网络流量确定方法及系统，所述方法通过骨干网络中所有的链路、所有的路由器和所有的端口确定路由矩阵，根据路由矩阵确定即刻奖赏矩阵，并根据即刻奖赏矩阵确定累计奖赏矩阵，进而再通过强化学习方法确定最优累计奖赏矩阵，根据最优累计奖赏矩阵确定出待测量的路由器，最后通过直接测量待测量的路由器的流量，确定骨干网络的流量。其中，根据最优累计奖赏矩阵确定出待测量的路由器，实现在较少的路由器端口上运行直接测量工具获得大部分流量信息，减少直接测量对网络的消耗。并且通过即刻奖赏矩阵和累计奖赏矩阵能够兼顾网络的复杂性以及多变性，进而保证网络流量确定的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于强化学习的骨干网络流量确定方法流程示意图；

图2为本发明所提供的一种基于强化学习的骨干网络流量确定方法的原理示意图；

图3为本发明所提供的路由矩阵示意图；

图4为本发明所提供的强化学习的原理示意图；

图5为本发明所提供的Abilene网络拓扑图；

图6为本发明所提供的Abilene网络时权重W与流量比例α的关系图；

图7为本发明所提供的Abilene网络时权重W与参数λ的关系图；

图8为本发明所提供的Abilene网络流量确定方法与现有技术网络流量确定对比图；

图9为本发明所提供的一种基于强化学习的骨干网络流量确定系统结构示意图。

标号说明：901-第一获取模块，902-路由矩阵确定模块，903-即刻奖赏矩阵确定模块，904-累计奖赏矩阵确定模块，905-最优累计奖赏矩阵确定模块，906-待测量的路由器确定模块，907-第一判断模块，908-待测量的路由器更新模块，909-骨干网络流量确定模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提出了一种基于强化学习的骨干网络流量确定方法，实现了获得大量的网络流量数据，同时在更少的路由器上激活NetFlow网络监测功能。由于IP骨干网的路由矩阵可以通过路由矩阵获得，我们计算出即刻奖赏矩阵和累计奖赏矩阵，然后获得一个需要激活NetFlow的端口子集，即待测量的路由器。通过在端口上启用NetFlow，即可确定网络中端到端的流量。

图1为本发明所提供的一种基于强化学习的骨干网络流量确定方法流程示意图，如图1所示，一种基于强化学习的骨干网络流量确定方法，包括：

S101，获取骨干网络中所有的链路、所有的路由器和所有的端口。

S102，根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵。

S103，根据所述路由矩阵，确定即刻奖赏矩阵；所述即刻奖赏矩阵为在某一链路时，一个动作作用于所述骨干网络，所述骨干网络返回的奖赏值；所述奖赏值为每个动作设置的权重值。

S104，根据所述即刻奖赏矩阵，确定累计奖赏矩阵；所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值。

S105，对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵；所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵。

S106，根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器。

S107，判断所述待测量的路由器是否小于端到端流量阈值，得到第一判断结果；所述端到端流量阈值为用户需要测量的路由器数目。

当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时，则返回所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器的步骤。

S109，当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时，则直接测量所述待测量的路由器的流量，确定骨干网络流量。

端到端的流量阈值T＝α·N²,其中，T为端到端的流量阈值，α为用户需要测量的流量占总流量的百分比，N为路由器数量。

网络中有很多的端到端流量(od流)，用户如果需要测量全部的流量，α就是1。图2为本发明所提供的一种基于强化学习的骨干网络流量确定方法的原理示意图，如图2可知，从骨干网络中获取路由矩阵信息，并反馈给网络管理者，网络管理者通过强化学习的方法选出需要运行直接测量工具的最佳端口集合，实现在最少的端口上进行直接测量同时获得全部或大部网络流量信息的目的。

其中，图3为本发明所提供的路由矩阵示意图，如图3可知，从骨干网络中获取路由矩阵信息。

奖赏矩阵为在某一链路i处，智能体Agent选择一个动作j作用于骨干网络，导致骨干网络发生变化并返回一个奖赏值R。其中R(i,j)是奖赏函数，即Agent按照策略选择动作j后环境给予的评价。Agent接收到奖赏值R后，做出下一步动作。由于每一步动作j不仅影响单次强化值而且影响多次学习后的累积强化值，因此每一步动作的选择原则是使得获得最大奖赏的可能性增大。

所述根据所述路由矩阵，确定即刻奖赏矩阵，具体包括：

根据所述路由矩阵，确定链路奖赏矩阵。

根据所述链路奖赏矩阵，确定端口奖赏矩阵。

根据所述骨干网络，确定修正矩阵。

在具体的实施例中，骨干网络中具有L条链路，N个路由器，P个端口。

其中，路由矩阵中的每一行为θ(l)，且l＝1,2,3,...,L。其中，链路奖赏矩阵R(l₁,l₂)的元素为：

其中l₁,l₂∈{1,2,...,L}。

根据相应的链路选择一个接口时，考虑一个内部链路对应两个接口。根据实际网络中链路与网络端口的关系，得到端口奖赏矩阵，即P*P的矩阵。并且P＝2L_internal+L_external，其中，P为端口个数，L_internal，L_external分别表示内部链路和外部链路。

用权重矩阵修正端口奖赏矩阵，计算公式如下：

其中i，j为不同的链路(i为状态，j为下一步动作)，P为端口数，N为路由器，P_n是n路由器的第P个端口，w_ij为不同端口赋予的权重，W为设定的权重值。最终R(i,j)元素的计算公式如下：

R(i，j)＝R′(i，j)+λw_ij。

R(i，j)为即刻奖赏矩阵，R′(i，j)为端口奖赏矩阵，λ为权重w_ij的影响程度。

为了实现在较少的路由器端口上运行直接测量工具，并获得大部分流量信息，所述根据所述路由矩阵，确定即刻奖赏矩阵，之前还包括：

计算骨干网络中每两条链路之间的相关因数。

所述对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵，之前还包括：

判断所述初始链路是否为目标链路，得到第二判断结果；所述目标链路为所述累计奖赏矩阵不会变化的链路。

当所述第二判断结果表示所述初始链路为目标链路时，则不进行强化学习，并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵。

具体的，设定希望智能体达到的目标链路(目标状态)，在每次迭代之前检验智能体所处状态是否等于目标链路，如果相等，则可认为智能体已经到达目标链路。每次尝试到达目的状态后，表示累计奖赏的值函数将会更新，如果累计奖赏矩阵已经被增强，智能体就会找到最快的路线到达目标链路。也就是说，在累计奖赏矩阵生成之后，给定一个链路，智能体只需要选取值函数最大的方向的一系列动作就可以获得全局最优解。

根据公式计算Q矩阵的元素，公式如下：

Q′(s_t，a_t)＝Q(s_t，a_t)+η(R(s_t，a_t)+γ·maxQ(s_t+1，a_t+1)-Q(s_t，a_t))。

其中，Q′(s_t，a_t)为迭代后的累计奖赏矩阵，s_t为当前智能体所处的链路，a_t为选择的某一动作，R(s_t,a_t)为即刻奖赏矩阵中对应的即刻奖赏值，η为学习参数，γ为折扣参数，maxQ(s_t+1,a_t+1)为所有可能的动作中累计奖赏矩阵的最大值。

为了防止路由器的重复选取，所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器，之后还包括：

在一个具体的实施例中，本发明所提供的一种基于强化学习的骨干网络流量确定方法应用于Abilene骨干网络，Abilene网络拓扑图如图5所示，Abilene骨干网络由12个路由器和54条链路，包括30个内部链接和24个外部链接，拓扑如图4所示。路由矩阵为54×144的包含元素1或0的矩阵。

Abilene骨干网络中具有54条链路，12个路由器，84个端口。

路由矩阵中的每一行为θ(l)，且l＝1,2,3,...,54。链路奖赏矩阵R(l₁,l₂)的元素为：

其中l₁,l₂∈{1,2,...,54}。

根据相应的链路选择一个接口时，考虑一个内部链路对应两个接口。由于Abilene网络中有30条内部链路以及24条外部链路，根据P＝2L_internal+L_external，端口奖赏矩阵为84×84矩阵。

权重矩阵修正端口奖赏矩阵，使得在进行下一步动作时，优先选择与当前状态处于同一路由器的最大的动作。权重矩阵也为84×84矩阵，按照如下公式计算其元素：

其中P_n是n路由器的第P个端口。最终R(i,j)元素的计算公式如下：

R(i，j)＝R′(i，j)+λw_ij。

设置学习参数γ＝0.8并且初始化Q矩阵为零矩阵。根据图5的链路，路由器以及端口编号。计算每两条链路之间的相关因数，并选择与其他链路相关因数最大的链路作为初始链路i，计算得i＝16，即选择初始链路i＝16并检验是否到达目标链路。

如果到达目标链路则结束。否则从链路i对应的所有可能动作中选择一个动作j。根据该动作到达下一链路，对于下一链路而言，需选取所有可能动作中累计奖赏值最大的动作。

根据公式计算累计奖赏矩阵的元素，公式如下：

Q(s_t,a_t)＝R(s_t,a_t)+0.8×maxQ(s_t+1,a_t+1)。

设置下一链路为当前链路，并返回设置学习参数γ＝0.8并且初始化Q矩阵为零矩阵的步骤。

获得的端到端流量比例α＝0.95，获取端到端的流量阈值；初始化参数t为0，其中t≥0为累计测量的流量和。

选择初始链路i对应的累计奖赏值最大的端口。

记录已经选择过的i＝16和j＝33以及他们所在路由器n，删去Q矩阵中第16和33列，防止重复选取。

计算已经累计的流量和t＝55，设置下一链路，即33号端口为当前链路，检验待测路由器是否达到端到端流量阈值。

权重W的变化以及参数λ的变化对于结果的影响，如图7和图8所示，分别为Abilene网络权重W的变化对于需要运行直接测量工具的路由器数量的影响，参数λ的变化对于需要运行直接测量工具的路由器数量的影响。可以看出，权重值增加时，需要运行直接测量工具的路由器数量将大大减少。因此在实施例中，设置W＝100。

将所提供的一种基于强化学习的骨干网络流量确定方法得出的结果与其比较，以检验本方法的优越性。图8将实施例所得结果与已有方法结果比较。相比之下，缩减了路由器的数目，大大增加网络运行维护成本以及网络存储容量，同时降低网络承载能力以及测量准确程度。本发明所提供的一种基于强化学习的骨干网络流量确定方法不仅能够快速准确的完成测量，同时对于较大尺度的骨干网络实现激活极少的路由器获得绝大部分的流量信息具有更为显著的优越性能。

图9为本发明所提供的一种基于强化学习的骨干网络流量确定系统结构示意图，如图9所示，一种基于强化学习的骨干网络流量确定系统，包括：第一获取模块901、路由矩阵确定模块902、即刻奖赏矩阵确定模块903、累计奖赏矩阵确定模904、最优累计奖赏矩阵确定模块905、待测量的路由器确定模块906、第一判断模块907、待测量的路由器更新模块908、骨干网络流量确定模909。

第一获取模块901用于获取骨干网络中所有的链路、所有的路由器和所有的端口。

路由矩阵确定模块902用于根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵。

即刻奖赏矩阵确定模块903用于根据所述路由矩阵，确定即刻奖赏矩阵；所述即刻奖赏矩阵为在某一链路时，一个动作作用于所述骨干网络，所述骨干网络返回的奖赏值；所述奖赏值为每个动作设置的权重值。

累计奖赏矩阵确定模块904用于根据所述即刻奖赏矩阵，确定累计奖赏矩阵；所述累计奖赏矩阵为所述即刻奖赏矩阵不断更新的累计奖赏值。

最优累计奖赏矩阵确定模块905用于对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵；所述最优累计奖赏矩阵为所述累计奖赏值最大的累计奖赏矩阵。

待测量的路由器确定模块906用于根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器。

第一判断模块907用于判断所述待测量的路由器是否小于端到端流量阈值，得到第一判断结果；所述端到端流量阈值为用户需要测量的路由器数目。

待测量的路由器更新模块908用于当所述第一判断结果表示所述待测量的路由器小于端到端流量阈值时，则返回所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器的步骤。

骨干网络流量确定模块909用于当所述第一判断结果表示所述骨干网络中待测量的路由器大于或等于端到端流量阈值时，则直接测量所述待测量的路由器的流量，确定骨干网络流量。

所述即刻奖赏矩阵确定模块903具体包括：链路奖赏矩阵确定单元、端口奖赏矩阵确定单元、修正矩阵确定单元和即刻奖赏矩阵确定单元。

链路奖赏矩阵确定单元用于根据所述路由矩阵，确定链路奖赏矩阵。

端口奖赏矩阵确定单元用于根据所述链路奖赏矩阵，确定端口奖赏矩阵。

修正矩阵确定单元用于根据所述骨干网络，确定修正矩阵。

即刻奖赏矩阵确定单元用于根据所述端口奖赏矩阵和所述修正矩阵，确定即刻奖赏矩阵。

本发明所提供的一种基于强化学习的骨干网络流量确定系统，还包括：相关因数计算模块、初始链路确定模块、第二判断模块、第一确定模块、强化学习确定模块和删除模块。

相关因数计算模块用于计算骨干网络中每两条链路之间的相关因数。

初始链路确定模块用于根据相关因数，确定初始链路；所述初始链路为与其他链路的相关因数最大的链路。

第二判断模块用于判断所述初始链路是否为目标链路，得到第二判断结果；所述目标链路为所述累计奖赏矩阵不会变化的链路。

第一确定模块用于当所述第二判断结果表示所述初始链路为目标链路时，则不进行强化学习，并直接确定所述累计奖赏矩阵为最优累计奖赏矩阵。

强化学习确定模块用于当所述第二判断结果表示所述初始链路不为目标链路时，则进行强化学习。

删除模块用于将所述待测量的路由器从所述骨干网络中删除，并返回所述根据所述骨干网络中所有的链路、所有的路由器和所有的端口，确定路由矩阵的步骤。

本发明所提供的一种基于强化学习的骨干网络流量确定的方法及系统，兼顾网络的复杂性以及多变性。网络系统本身存在的时变性和不确定性等因素导致网络是一个复杂的大系统，数学模型的复杂性和精确性往往难以满足网络的实时需求。强化学习方法不依赖于被控对象的数学模型和先验知识，而是通过试错和与环境的不断交互获得知识，从而改进行为策略，具有自学习的能力。对于网络这种复杂的时变系统。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的骨干网络流量确定方法，其特征在于，包括：

获取骨干网络中所有的链路、所有的路由器和所有的端口；

2.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法，其特征在于，所述根据所述路由矩阵，确定即刻奖赏矩阵，具体包括：

根据所述路由矩阵，确定链路奖赏矩阵；

根据所述链路奖赏矩阵，确定端口奖赏矩阵；

根据所述骨干网络，确定修正矩阵；

3.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法，其特征在于，所述根据所述路由矩阵，确定即刻奖赏矩阵，之前还包括：

计算骨干网络中每两条链路之间的相关因数；

4.根据权利要求3所述的一种基于强化学习的骨干网络流量确定方法，其特征在于，所述对所述累计奖赏矩阵进行强化学习，确定最优累计奖赏矩阵，之前还包括：

5.根据权利要求1所述的一种基于强化学习的骨干网络流量确定方法，其特征在于，所述根据所述最优累计奖赏矩阵，确定骨干网络中待测量的路由器，之后还包括：

6.一种基于强化学习的骨干网络流量确定系统，其特征在于，包括：

7.根据权利要求6所述的一种基于强化学习的骨干网络流量确定系统，其特征在于，所述即刻奖赏矩阵确定模块具体包括：

8.根据权利要求6所述的一种基于强化学习的骨干网络流量确定系统，其特征在于，还包括：

9.根据权利要求8所述的一种基于强化学习的骨干网络流量确定系统，其特征在于，还包括：

10.根据权利要求6所述的一种基于强化学习的骨干网络流量确定系统，其特征在于，还包括：