CN108401015A

CN108401015A - 一种基于深度强化学习的数据中心网络路由方法

Info

Publication number: CN108401015A
Application number: CN201810105232.1A
Authority: CN
Inventors: 刘外喜; 李进; 王宇; 杨钊; 唐冬; 彭凌西
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2018-02-02
Filing date: 2018-02-02
Publication date: 2018-08-14
Anticipated expiration: 2038-02-02
Also published as: CN108401015B

Abstract

本发明公开了一种基于深度强化学习的数据中心网络路由方法，包括下述步骤：S1、为网络划分区域，将全网划分为多个社团，一个社团作为一个区域，每个区域中节点介数最大的节点上部署一个SDN控制器，并在其上部署代理agent；S2、建立网络的全局视图，SDN控制器建立节点的邻接矩阵，节点之间链路的资源值为缓存与带宽的复合资源；S3、构建面向路由的深度强化学习框架；S4、确定路由的路径以及转发规则，SDN控制器根据agent的动作选择结果确定路径。本发明基于数据驱动的思想，将流对性能的要求转换为流对网络资源的要求；利用深度学习感知和表示高维度数据的能力发现资源的多维度特征表示，最终实现在SDN控制面为流优化地分配网络资源，实现自适应的智能路由。

Description

一种基于深度强化学习的数据中心网络路由方法

技术领域

本发明属于深度学习的技术领域，涉及一种基于深度强化学习的数据中心网络路由方法。

背景技术

数据中心网络(Data Center Network，DCN)在云计算基础设施中具有关键地位。研究表明，网络节点部署缓存可减少数据访问路径的平均长度并避免数据热点，提高网络吞吐率。缓存成为了一种新的网络资源后，DCN网络环境展现出链路、缓存和计算等多资源并存的新特征；另外，DCN中链路密集。然而，传统的传输与路由方法因为缺乏与新特征的深度耦合在DCN中性能低。

同时，面对多重性网络业务请求和差异化的网络资源优化目标及约束参数，动态路由决策已被证明是NP完全问题。所以，在较大网络规模中，网络状态、网络特征、度量参数海量，虽然启发式算法可获得近似优化路由，但不能满足网络的实时性要求。

深度强化学习(Deep reinforcement learning，DRL)是人工智能领域的一个新的研究热点，它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。深度强化学习有很多种，如基于值函数的DRL，基于策略梯度的DRL，基于搜索与监督的DRL。同时，基于SDN的数据中心网络的优点之一是控制面可全局视野集中地优化网络资源的部署。因此，如何在SDN控制面使用深度强化学习为流量优化地分配网络资源，最终实现自适应的智能路由，是本领域技术人员研究的方向之一。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于深度强化学习的数据中心网络路由方法，为流量优化地分配网络资源，实现自适应的智能路由。

为了达到上述目的，本发明采用以下技术方案：

本发明一种基于深度强化学习的数据中心网络路由方法，包括下述步骤：

S1、为网络划分区域，基于社团发现算法将全网划分为多个社团，一个社团作为一个区域，每个区域中节点介数最大的节点上部署一个SDN控制器负责管理该区域，各交换机节点与该SDN控制器相连，接受其下发的转发规则；

S2、建立网络的全局视图，SDN控制器根据网络拓扑，建立节点的邻接矩阵，节点之间链路的资源值为缓存与带宽的复合资源；

S3、构建面向路由的深度强化学习框架，深度强化学习框架包括强化学习和深度学习两部分；一方面，代理agent通过强化学习与网络进行交互，包括基于INT技术对网络进行状态的感知和奖赏的反馈，最后完成动作的下发；另一方面，agent用深度学习算法近似表示强化学习中的状态动作值函数，找到状态空间S到动作空间A的一个映射，即，agent与网络经过多次的交互后，找到实现路由优化目标的最优动作集；

S4、确定路由的路径以及转发规则，SDN控制器根据agent的动作选择结果确定路径，并基于数据面可编程方法P4制定数据报、流、组流各种粒度的转发规则，并下发到各个交换机去执行。

作为优选的技术方案，步骤S1中，所有与区域外的通信都通过固定的有限个边界节点进行转发，各个区域的控制器互相连接，组成扁平式的分布式控制器网络，负责区域间通信的控制。

作为优选的技术方案，步骤S1中，所述社团发现算法为最小割的谱聚类或FastGirvan Newman算法。

作为优选的技术方案，步骤S2中，每个SDN控制器上部署一个代理。

作为优选的技术方案，步骤S3中，强化学习包括下述三个要素：

(1)奖赏(reward，r)

路由优化目标设定为以下性能的要求：在端到端时延满足QoS下，网络的整体吞吐量最大，那么奖赏函数r如下：

其中，T_m(t)是节点m在t时刻的吞吐量，r_N是一个常数，r_N<0，d(t)是在t时刻网络中各流完成时间的平均值，D是一个常数，D>0；d(t)<D表示端到端时延满足QoS要求，由于流的报文转发要经过多跳，当前动作无法立刻获取其被实施后目标流的端到端时延，所以，观察当前其他已完成流的端到端时延d(t)是否满足QoS；

(2)动作(action，a)

动作a是节点选择以及转发规则，即，从节点邻接矩阵里面选择一个能够到达目的地的节点集；该节点集可以唯一地确定多条从源到达目的地的路径；

(3)状态(state，s)

状态s包括资源占用状态+资源需求状态：资源占用状态为网络中各节点的资源的已使用情况，资源需求状态为待转发的流对资源的需求情况，它们都用图形法来表达。

作为优选的技术方案，所述资源占用状态图包括节点、节点的复合资源以及时间三个维度。

作为优选的技术方案，所述资源需求状态图包括时间、资源2个维度，资源表示流从源到目的地所走路径要求的复合资源总和；只记录前M个流的详细的资源需求状态，而其他的流只记录数量。

作为优选的技术方案，步骤S3中，所述深度学习旨在发现状态与动作之间的映射，基于已有公开数据集，采用REINFORCE算法对深度学习模型进行训练。

作为优选的技术方案，步骤S4中，所述确定路由的路径是使用复合资源作为衡量路径质量的度量，所述流为五元组相同的一组数据报，所述组流为具有某个相同特性的多个流组成的一组数据报。

作为优选的技术方案，基于数据驱动的思想，将流对性能的要求转换表达为流对资源的需求，并且通过将资源的需求分解到多条路径上来实现多路径路由。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明路由方法的基础创新在于：多个网络资源度量各异，对它们统一表达、它们之间互换都很困难，所以，利用深度学习感知和表示高维度数据的能力，发现资源的多维度特征表示，进而发现多个资源影响性能的内在规则。这是一种发现性能、资源、路由、流量之间关系的新方法。

2、本发明借助SDN控制层全局视野和集中控制的优势，利用强化学习自适应地根据环境做出合理的路由选择，为流量优化地分配网络资源。路由选择从依赖单一链路状态转变到集成带宽与缓存的复合资源状态，是一种能够与网络资源高度耦合的路由新方法。

3、本发明的路由选择方法基于数据驱动而不是模型驱动思想，不需要预定义的规则，可实现真正的自适应与智能。

4、在获得模型训练所需要的标签数据方面，本发明不需要先验知识，利用深度强化学习动态地、实时地获取数据特征。

附图说明

图1是本发明为网络划分区域的示意图；

图2是本发明深度学习的示意图；

图3(a)是资源占用状态图；图3(b)是某节点的资源占用状态图；图3(c)是流1的资源需求状态；图3(d)为流2的资源需求状态；图3(e)为资源需求状态索引示意图。

图4是本发明路由方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本实施例基于深度强化学习的数据中心网络路由方法利用SDN控制面使用深度强化学习为流量优化地分配网络资源，最终实现自适应的智能路由，具体包括下述步骤：

(1)划分网络区域；

如图1所示，基于社团发现算法(如最小割的谱聚类的社团发现算法，Fast GirvanNewman算法等)将全网划分为多个社团(Community)，一个社团即为一个区域；每个区域中节点介数(Betweenness)最大的节点上部署一个SDN控制器负责管理该区域，各交换机节点与该控制器相连，接受其下发的流表；所有与区域外的通信都通过固定的有限个边界节点进行转发，如图1所示，社团1通过v4、v4与区域外通信。如图1虚线所示，各个区域的控制器互相连接，组成扁平式的分布式控制器网络，负责区域间的通信的控制。本实施例所提的路由方法针对的是区域内通信。

根据复杂网络社团理论，在社团内部，节点之间通信频繁。同时，各个节点在同一社团中的重要度(如，度(Degree)、介数(Betweenness)等)并不一样。社团重要度大的节点不仅更加容易被社团内的节点访问，而且也更加容易通过它访问社团外部的节点，它们实际上是进出社团的关键节点。例如，如图1所示，如果在不考虑权重的情况下，整个拓扑可看作为一个社团。但在考虑了网络流量行为后，由于边的权重不同，可划分多个社团，v1，v2分别是两个社团中的控制器所在的节点，粗线段是权重为3的连接，细线段为权重为1的连接。

(2)建立网络的全局视图；

SDN控制器根据网络拓扑，建立节点的邻接矩阵，节点之间链路的资源值为Cost(o)_i。同时，如图1中所示的v₁和v₂所示，每个控制器上部署一个代理(agent)。

(3)构建面向路由的深度强化学习框架；

深度强化学习包括深度学习和强化学习两部分，如图2所示，一方面，agent通过强化学习与网络进行交互，包括基于INT(In-band network telemetry)技术对网络进行状态的感知和奖赏的反馈，最后完成动作的下发。另一方面，agent用深度学习算法近似表示强化学习中的状态动作值函数，找到状态空间(S)到动作空间(A)的一个映射，即，agent与网络经过多次的交互后，找到实现路由优化目标的最优动作集，这也称为策略。本发明所用的深度强化学习方法为Deep Q Learning(DQN)，其中，深度学习算法是卷积神经网络CNN，强化学习算法为Q学习(Q-learning)。

所述强化学习包括三像素，具体如下：

(1)奖赏(reward，r)

路由优化目标设定为以下性能的要求：在端到端时延满足QoS要求下，网络的整体吞吐量最大，那么奖赏函数r如下：

其中，T_m(t)是节点m在t时刻的吞吐量，r_N是一个常数，r_N<0。d(t)是在t时刻网络中各流完成时间的平均值，D是一个常数，D>0。d(t)<D表示端到端时延满足QoS要求，由于流的报文转发要经过多跳，当前动作无法立刻获取其被实施后目标流的端到端时延，所以，观察当前其他已完成流的端到端时延d(t)是否满足QoS。

(2)动作(action，a)

动作a是节点选择以及转发规则，即，从节点邻接矩阵里面选择一个能够到达目的地的节点集。该节点集可以唯一地确定多条从源到达目的地的路径，本专利实现的是多路径路由，所以根据需要来确定多少条路径。邻接矩阵中为1的节点才会被选中作为下一跳。

(3)状态(state，s)

状态s包括资源占用状态+资源需求状态：资源占用状态为网络中各节点的资源的已使用情况，资源需求状态为待转发的流对资源的需求情况，它们都可用如图3所示的图形法来表示，不同的图例表示不同的流。

如图3(a)所示，资源占用状态图包括节点、节点的复合资源、时间三个维度，图3(b)是从三维图中抽出的节点i的资源占用状态，方格、菱形、左斜杠、竖杠4个图例分别代表4个流当前占用了节点i的资源，如方格所示的流占用了2个单元时间的1个单元资源；图3(c)和图3(d)分别为流1和流2的资源需求状态图，它包括时间、资源2个维度，这里的资源表示流从源到目的地所走路径要求的复合资源总和，如方格所示的流2(Flow 2)需求4个单元时间的2个单元资源。图3(e)为资源需求状态的索引，本发明中，由于状态是深度学习的输入，为了确保深度学习的输入层数目为常数，所以只记录前M个流的详细的资源需求，而其他的只记录流的数量。

所述深度学习的具体内容为：

深度学习旨在发现状态与动作之间的映射，在所提机制应用于实际路由之前(即，深度学习的推理)，需要对该深度学习模型进行训练。基于已有公开数据集，本发明采用常用的REINFORCE算法对CNN进行训练。

(4)确定路由的路径以及转发规则；

SDN控制器根据agent的动作选择结果确定路径，并基于数据面可编程方法P4(Programming Protocol-Independent Packet Processors)制定数据报/流/组流等各种粒度的转发规则，并下发到各个交换机去执行。所述流(Flow)为五元组相同的一组数据报，所述组流为具有某个相同特性的多个流组成的一组数据报，如目的地址、源地址相同的一组流。本实例选择常用的流作为转发粒度。

在本发明中，用复合资源作为衡量路由路径质量的度量。中国专利“一种数据中心网络中多资源复用与配置的方法(201711444909.6)”实现了多资源的多粒度复用，可以把一段链路(一个节点)上的复合资源作为资源的调度单位，节点i的缓存以及到其上游节点之间的一段链路的带宽的复合资源Cost(o)_i为节点i的复合资源。本发明把Cost(o)_i作为衡量节点i与邻接节点互联链路质量的资源值。对于流的报文转发来讲，各段链路的资源值之和越大的路径越好。

另外，基于数据驱动的思想，本发明将流的性能要求转换为流对网络资源的需求，从而可将路由问题转换为资源管理中的任务调度问题(job scheduling)。如中国专利“一种数据中心网络中多资源复用与配置的方法(201711444909.6)中记载，网络资源(节点的缓存、链路的带宽)对传输时延(性能要求)减少做出的贡献度可以量化，即，可建立性能与资源之间的映射关系。假设每条流对性能的要求已知，那么，每条流对资源的需求也已知，那么，我们可以将性能要求转换为资源的需求。因此，我们可以将一个流(Flow)对所走路径的传输时延的要求表达为对资源的需求：需要x个单元的Cost(o)_i。

数据中心网络中链路密集，在源和目的地之间存在多条路径，所以，我们将上述所需的x个单元的Cost(o)i分解为多条路径来承担，实现多路径路由。

综上所述，本发明的路由方法具有通用性，可通过改变奖赏函数来达到不同的路由优化目标，如吞吐量最大，端到端延迟最小，负载最均衡等。本发明以端到端时延满足QoS要求的情况下，网络的整体吞吐量最大作为路由优化目标。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的数据中心网络路由方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S1中，所有与区域外的通信都通过固定的有限个边界节点进行转发，各个区域的控制器互相连接，组成扁平式的分布式控制器网络，负责区域间通信的控制。

3.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S1中，所述社团发现算法为最小割的谱聚类或Fast Girvan Newman算法。

4.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S2中，每个SDN控制器上部署一个代理agent。

5.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S3中，强化学习包括下述三个要素：

(1)奖赏(reward，r)

路由优化目标设定为以下性能的要求：在端到端时延满足QoS下，网络的整体吞吐量最大；那么奖赏函数r如下：

其中，T_m(t)是节点m在t时刻的吞吐量，r_N是一个常数，r_N<0，d(t)是在t时刻网络中各流完成时间的平均值，D是一个常数，D>0；d(t)<D表示端到端时延满足QoS要求；由于流的报文转发要经过多跳，当前动作无法立刻获取其被实施后目标流的端到端时延，所以，观察当前其他已完成流的端到端时延d(t)是否满足QoS；

(2)动作(action，a)

(3)状态(state，s)

6.根据权利要求5所述基于深度强化学习的数据中心网络路由方法，其特征在于，所述资源占用状态图包括节点、节点的复合资源以及时间三个维度。

7.根据权利要求5所述基于深度强化学习的数据中心网络路由方法，其特征在于，所述资源需求状态图包括时间、资源2个维度，资源表示流从源到目的地所走路径要求的复合资源总和；只记录前M个流的详细的资源需求状态，而其他的流只记录数量。

8.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S3中，所述深度学习旨在发现状态与动作之间的映射，基于已有公开数据集，采用REINFORCE算法对深度学习模型进行训练。

9.根据权利要求1所述基于深度强化学习的数据中心网络路由方法，其特征在于，步骤S4中，所述确定路由的路径是使用复合资源作为衡量路径质量的度量，所述流为五元组相同的一组数据报，所述组流为具有某个相同特性的多个流组成的一组数据报。

10.根据权利要求5所述基于深度强化学习的数据中心网络路由方法，其特征在于，基于数据驱动的思想，将流对性能的要求转换表达为流对资源的需求，并且通过将资源的需求分解到多条路径上来实现多路径路由。