CN114710439A

CN114710439A - 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Info

Publication number: CN114710439A
Application number: CN202210437000.2A
Authority: CN
Inventors: 叶彬彬; 罗威; 李洋; 丁忠林; 吕超; 蔡万升
Original assignee: Nari Information and Communication Technology Co
Current assignee: Nari Information and Communication Technology Co
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-05
Anticipated expiration: 2042-04-22
Also published as: CN114710439B

Abstract

本发明公开了一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法，首先将数据中心网络的路由调度描述为具有两个目标的混合整数非线性规划问题，即最大化网络吞吐量和最小化能量消耗；其次为深度强化学习算法生成大量的训练数据，主要包括当前网络状态、决策行为、奖励和新网络状态；最后选择卷积神经网络和全连接神经网络作为智能体，并使用训练数据对智能体进行训练操作，其核心理论是选择贝尔曼方程来评估每个行为的结果、定义贝尔曼误差为损失函数，通过梯度下降法来对其进行优化，直至收敛。本发明提供的方法适用于大规模、高动态性的数据中心网络，相较于其他方案（如帕累托最优）具备效率高和成本低的优点。

Description

基于深度强化学习的网络能耗与吞吐量联合优化路由方法

技术领域

本发明涉及一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法，属于光网络通信技术领域。

背景技术

随着信息化社会的不断发展，人们对信息服务的需求量与日俱增，大量的高流量型应用应运而生且对流量需求呈指数级增长，同时由于新的网络应用不断涌现，网络能耗和吞吐量已经成为影响数据中心网络(DCN)网络性能的关键因素。特别是当大量差异化业务接入到数据中心网络时，高效的路由调度策略则是其必要手段。

为此，研究DCN中高效的路由调度策略具有非常实际的应用价值。DCN中的路由调度问题是指，对于到来的业务请求，为其在源节点和目的节点之间选择合适的转发路径，实现DCN中所有业务请求建立连接。然后，考虑到DCN中传输资源有限，同时网络能耗和吞吐量本身就是网络优化中的一对矛盾。因此，这些特征使得DCN中的高效路由调度问题更具挑战性。

传统的路由方案是建立一个路由表，然后运行路由协议，彼此交换路由信息以实现路由共享。当源节点和目的节点相同时，根据路由协议得到的路由结果将会选择同一条路径转发多个业务的流量需求，这将导致网络拥塞。为了减少网络拥塞，基于Dijkstra算法的QoS路由调度策略能够为流量选择满足带宽约束的路由，以保证网络的QoS。但是该方案需要计算从源节点到目标节点的最短路径，这不仅效率低下，而且不适合大规模网络环境，同时也难以满足未来DCN中对于高吞吐量和低能耗的需求。

与此同时，随着人工智能(AI)的迅速发展，强化学习(RL)取得了很大的进步，并且广泛应用于多个研究领域，受到学术界的广泛关注。此外，RL被认为是解决路由优化问题的一种很有前途的技术。一方面，RL可以通过与未来环境进行不断交互，以快速训练获得接近最优解的路由方案；另一方面，RL不需要底层网络的精确数学模型，只需要提前设计好对应的网络环境即可。然而，DCN是一个复杂的动态系统，基于RL的路由算法需要针对不同的网络场景不断学习和训练，这将大大增加网络开销。此外，现有的深度学习(DL)算法通过使用神经网络模型对输入特征进行深度提取，具备对DCN全面感知的能力，同时大量的研究工作表明DL算法具有很强的泛化能力，能够在网络环境状态发生变化时实现有效的泛化。

因此，如何综合DL与RL两者的优势，使用DL实现对DCN状态的实时感知和泛化，然后采用RL算法实现高效的路由调度，以此达到提升DCN网络吞吐量和减少能源消耗的目的是本领域技术人员急需要解决的技术问题。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法，用于解决数据中心网络中网络吞吐量和能源消耗的矛盾。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法，包括如下步骤：

将数据中心网络的路由调度描述为具有最大化网络吞吐量和最小化能量消耗两个目标的混合整数非线性规划问题P0。

采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化，最终获得优化后的数据中心网络的路由调度方案。

作为优选方案，所述混合整数非线性规划问题P0的表达公式如下：

P0:min W＝∑_e∈Eg(x_e)

其中，W为网络能耗，T为网络吞吐量，e为链路，E为数据链路的集合，g(x_e)为链路e上的能耗，x_e为链路e上的所有数据流量之和，s为源交换机，d为目的交换机，f_s,d为从源交换机s到目的交换机d的数据流，V为数据中心网络中的交换机节点，

为通过链路e的数据流，σ是链路空闲时的能耗，C_e是链路的带宽容量，β是链路冗余参数，α为指数，μ表示一个二进制变量，μ＝1表示链路e是活动链路，而μ＝0是非活动链路，u和v为链路e的两个端点，即u,v∈V，

表示源节点为s并且目的节点为d的业务经过链路(u,v)的业务量、

表示源节点为d并且目的节点为s的业务经过链路(u,v)的业务量，f^u,v表示链路(u,v)上业务量。

作为优选方案，采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化的方法，包括如下步骤：

网络状态s_t输入智能体，智能体依据当前策略_πt针对每个决策行为a_t计算得到

的值。

以概率ε选择随机行为a_t，以概率1-ε选择

最大值作为新的行为a_t ^*。

使用动作a_t ^*与环境交互并观察下一个状态s_t+1以及奖励值r_t。

将数据元组{s_t,a_t,r_t,s_t+1}作为新的训练数据，将上述过程不断重复迭代，直到生成一定数量的训练数据。

用一定数量的训练数据对智能体进行训练，当损失函数收敛到阈值时，输出智能体的参数。

利用智能体的参数更新智能体，更新后智能体获得的计算结果对问题P0进行优化，最终获得优化后的数据中心网络的路由调度方案。

作为优选方案，用一定数量的训练数据对智能体进行训练，当损失函数收敛到阈值时，输出智能体的参数包括：

将训练数据输入Bellman方程，获得

将

输入损失函数，并通过梯度下降法来优化损失函数，当损失函数收敛到阈值时，输出智能体的参数。

Bellman方程表达式如下：

其中，r(s_t,a_t)指的是在网络状态s_t下决策行为a_t的奖励，γ是综合当前和未来奖励的折扣因子，

是下一个网络状态s_t+1的值。

损失函数表达式如下：

其中，θ_t表示当前时刻下智能体的参数。

作为优选方案，所述网络状态s_t设置为业务流量需求f_s,d、业务接入位置s、DCN中使用的链路以及链路的负载

的综合表征。

作为优选方案，所述决策行为a_t设置为每个业务请求可选的路由方案。

作为优选方案，所述奖励函数设置为评价DRL给出的决策动作与当前网络环境之间的适应程度。

作为优选方案，所述智能体采用三层卷积神经网络模型和两层全连接神经网络模型按序组合而成。

作为优选方案，ε的数值将会随着DRL学习次数的增加而不断减少，直到最终ε为0结束。

有益效果：本发明提供的基于深度强化学习的网络能耗与吞吐量联合优化路由方法，与现有路由调度研究相比，首先，其描述为具有两个目标的混合整数非线性规划(MINLP)问题，即最大化网络吞吐量和最小化能量消耗，随后引入深度强化学习技术用于解决平衡相互冲突的目标问题，深度强化学习具有强泛化、高性能的特点，可以满足动态的DCN对频繁路由调度的需求。其次，本发明通过生成训练数据和使用训练数据对智能体进行训练两个阶段的不断交替运行，能够充分适用DCN网络状态的变化，不断完善和提升神经网络的稳定性、准确性等性能，使得网络不断地进行自优化。其优点如下：

本发明针对数据中心网络，通过基于深度强化学习的网络能耗和吞吐量联合优化路由调度方法，以保证一定的网络吞吐量的同时实现网络能耗的降低。强化学习技术在解决动态环境调度问题有着突表现，并在强化学习过程中引入神经网络模型从而将深度学习和强化学习结合实现智能路由调度。

同时神经网络具有强大的学习能力能够自主学习输入状态到输出动作之间的映射关系，并且执行效率很高。

因此，本发明针对该问题提出深度强化学习的网络能耗和吞吐量联合优化路由分配方法，可以在保证路由效率的同时实现网络能耗和吞吐量联合优化。

附图说明

图1为网络吞吐和能源消耗变化关系图。

图2为基于深度强化学习的路由调度模型结构图。

图3为智能体组成示意图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

将数据中心网络(DCN)视为一个无向图G＝(V,E)，其中V表示为网络中的交换机节点，E是数据链路的集合。

链路e(e∈E)上的所有数据流量之和x_e的表达式如下：

其中，从源交换机s到目的交换机d的数据流表示为f_s,d，通过链路e的数据流表示为

链路e上的能耗g(x_e)的表达式如下：

其中，σ是链路空闲时的能耗，C_e是链路的带宽容量，β是链路冗余参数，α为指数。μ表示一个二进制变量，暗示链路E被选择来传输业务，μ＝1表示链路e是活动链路，而μ＝0是非活动链路。σ、μ和α均为常数。

采用多路径路由将流量划分为多个子流，所以子流量的流量连续性的约束可以表述为：

其中、u和v为链路e的两个端点，即u,v∈V。假设交换机对f_s,d之间的流量需求表示为D^s,d，则满足

最小化能量消耗和最大化网络吞吐量之间存在权衡，即当能量消耗增加时，网络吞吐量增大。因此综合考虑网络吞吐量和能量消耗的路由调度问题，可以将其描述为具有两个目标的混合整数非线性规划(MINLP)问题，因此MINLP问题P0的表达公式如下：

P0:min W＝∑_e∈Eg(x_e)

其中：W网络能耗，T为网络吞吐量，s.t.约束于链路能耗和容量。

然后使用DRL算法生成大量的训练数据，整个DRL系统主要包括：网络环境定义、网络状态、决策行为、奖励机制和智能体设计等部分。其中网络环境用于描述数据中心网络场景并表征业务请求；网络状态是指流量需求、DCN中使用的链路以及链路的剩余带宽；决策行为是每个业务请求可选的路由方案的集合；奖励机制将评价在某个网络状态下采取特定决策行为得到的结果的好坏，这能够用于修正智能体内部的参数，即用于DRL的学习；智能体由卷积神经网络(CNN)和全连接神经网络(FC)按序组合而成，负责对网络状态的提取、感知，并给出决策行为。

智能体通过不断与网络环境进行交互的形式进行迭代，从而不断修正DRL系统，最终做出智能路由决策。主要的步骤包括：生成训练数据和使用训练数据对智能体进行训练两个阶段。上述两个阶段通过不断修正DRL的智能体，最终得到能够高效解决网络能耗与吞吐量联合优化的路由方法(即问题P0)。

阶段1-生成训练数据阶段：首先由流量需求f_s,d、链路能耗g(x_e)和链路负载

组成的网络状态s_t输入智能体中，然后智能体依据当前策略_πt计算每个行为a_t的

值，s_t为当前状态。随后，采用ε-贪婪策略决策行为，即以一定概率ε选择随机行为a_t，否则以概率1-ε选择

最大值作为新的行为a_t ^*。然后使用行为a_t ^*与环境交互并观察下一个状态s_t+1以及奖励值r_t。最后数据元组{s_t,a_t,r_t,s_t+1}将作为一条训练数据，并保存在记忆库中，完成训练数据的生成，为下一阶段做准备。

阶段2-使用训练数据对智能体进行训练阶段：使用Bellman方程来评估每个行为的结果从而不断更新智能体的所有模型参数，Bellman方程的表达式如下：

其中r(s_t,a_t)指的是在状态s_t下行为a_t的奖励，γ是综合当前和未来奖励的折扣因子，

是下一个状态s_t+ ¹的值。贝尔曼误差被定义为损失函数，表达式如下：

其中，θ_t表示当前时刻下的神经网络模型参数通过梯度下降法来进行优化贝尔曼误差，当损失函数收敛到某个较小数值时，第二阶段结束。

实施例：

本发明将数据中心网络的业务需求、物理链路及能量消耗进行建模生成训练数据，通过深度强化学习(DRL)算法对训练数据进行训练操作，从而为业务需求选择最佳路由，目的是在满足业务承载的前提下，以求实现最大化网络吞吐量并减少能源消耗。具体方法是首先将数据中心网络的路由调度描述为具有两个目标的混合整数非线性规划(MINLP)问题，即最大化网络吞吐量和最小化能量消耗；其次为深度强化学习算法生成大量的训练数据，主要包括当前网络状态、决策行为、奖励和新网络状态；最后选择卷积神经网络(CNN)和全连接神经网络(FC)作为智能体，并使用训练数据对智能体进行训练操作，其核心理论是选择贝尔曼方程(Bellman)来评估每个行为的结果、定义贝尔曼误差为损失函数，通过梯度下降法来对其进行优化，直至收敛。本发明提供的方法适用于大规模、高动态性的数据中心网络，相较于其他方案(如帕累托最优)具备效率高和成本低的优点。

本发明的主要研究内容着眼于路由过程的网络能耗和吞吐量的优化问题，考虑将深度强化学习技术应用到数据中心网络中，为求优化路由问题提供新思路。鉴于平衡网络吞吐量和能量消耗问题的复杂性，该问题被描述为具有两个目标的混合整数非线性规划(MINLP)问题求解。帕累托最优解被认为是解决两个相互冲突的目标问题的有效方法，但是基于帕累托最优理论的求解器需要较长时间和大量计算资源，不能满足数据中心网络的高效路由需求，特别是对于大规模网络。

基于深度强化学习的网络能耗与吞吐量联合优化路由方法，包括如下步骤：

路由问题的定义

将数据中心网络视为一个无向图G＝(V,E)，其中V表示为一组交换机节点，E是一组数据传输链路。链路e上的所有数据流量之和的表达式如下：

其中从源交换机s到目的交换机d的数据流表示为f_s,d，通过链路e的数据流表示为

链路e上的能耗则表达式如下：

其中σ是链路空闲时的能耗，C_e是链路的带宽容量，β是链路冗余参数。μ表示一个二进制变量，暗示链路E被选择来传输业务，μ＝1表示链路e是活动链路，而μ＝0是非活动链路。σ、μ和α均为常数。

其中u和v为链路e的两个端点，即u,v∈V。假设交换机对f_s,d之间的流量需求表示为D^s,d，则满足

如图1所示，最小化能量消耗和最大化网络吞吐量之间存在权衡，即当能量消耗增加时，网络吞吐量增大。因此综合考虑网络吞吐量和能量消耗的路由调度问题，可以将其描述为具有两个目标的混合整数非线性规划(MINLP)问题，因此MINLP问题P0的表达公式如下：

P0:min W＝∑_e∈Eg(x_e)

其中W网络能耗，T为网络吞吐量。从图1中可以看出，网络能耗W和网络吞吐量T最终将会在(Ts、Ws)坐标点时达到平衡状态(即Saturation point)。

如图2所示，在深度强化学习解决路由优化问题的过程，需要首先完成框架内每个部分的定义：

1)网络状态(state)是指业务流量需求f_s,d、业务接入位置s、DCN中使用的链路以及链路的负载

的综合表征。其中业务流量需求可以直接将数值作为网络状态的一部分，而无需额外转化；业务接入位置可以利用one-hot编码将元素值转化为只有一个元素是1而其余元素均为0的一维向量，以便强化学习能够实现更好的感知；与业务流量需求类似，DCN中链路的负载

也可以直接使用数值表征即可。在本文的设计中，网络链路的负载

可表征成20*20*1的三维张量，而业务流量需求和业务接入位置则可以表示为1*21的二维矩阵。

2)决策行为(action)是每个业务请求可选的路由方案，所有的决策行为构成了DRL动作空间。出于减小动作空间的目的，本文使用KSP算法寻找源节点和目的节点之间前K条最短路径，然后把所有的最短路径集合作为DRL的动作空间，在本文中，所有可能的路由方案总计为240个，即动作空间大小为240。

3)奖励函数(reward)用于评价DRL给出的决策动作与当前网络环境之间的适应程度。在具体实现时，本文主要将网络吞吐量和能源消耗之间的加权数值作为奖励函数数值。

4)智能体(agent)负责提取网络状态特征，并通过分析网络状态特征给出决策动作，同时通过与网络环境之间的交互实现自身的不断学习和演进。如图3所示，在本文的设计中，首先使用两层卷积神经网络模型(CNN)提取网络特征，然后经过展平操作(flatten)变成全连接神经网络模型(FC)能够提取的特征，最后经全连接网络模型实现对决策动作的分类，即给出决策动作。在本文的设计中，共计使用了三层卷积神经网络模型和两层全连接神经网络模型。

在深度强化学习解决路由优化问题的过程具体来说，可以分为以下几个步骤：

1.生成训练数据阶段

首先由业务流量需求、业务接入位置、DCN中使用的链路以及链路的负载

组成的网络状态s_t输入智能体，然后智能体依据当前策略_πt针对每个行为a_t计算得到

的值。随后，采用ε-贪婪策略选择决策行为，即以一定概率ε选择随机行为a_t，否则选择

最大值作为新的行为a_t ^*。在本文的设计中，ε是一个非常重要的超参数，它反映了DRL进行探索的幅度。由于在DRL训练前期应当进行大规模探索以获取大量知识，而在后期则需要不断减少探索以提升DRL模型决策性能，本文设计ε的数值将会随着DRL学习次数的增加而不断减少，直到最终ε为0结束，此时表明DRL不会再进行随机选择行为，即不再进行学习。然后使用动作a_t ^*与环境交互并观察下一个状态s_t+1以及奖励值r_t。最后数据元组{s_t,a_t,r_t,s_t+1}作为新的训练数据，并保存在内存中，为下一阶段做准备。上述过程将不断重复迭代直到生成一定数量的训练数据。

2.使用训练数据对智能体进行训练阶段：

步骤1将通过不断与环境进行交互迭代而生成大量的训练数据，因此本步骤将通过不断学习而提升智能体决策的性能。

使用Bellman方程来评估每个行为的结果从而不断更新智能体的所有因子，Bellman方程的表达式如下：

是下一个状态s_t+1的值。贝尔曼误差被定义为损失函数，表达式如下：

上述损失函数公式的数值能够通过梯度下降算法进行不断优化和调整(即深度强化学习的学习过程)。当损失函数收敛到某个很小数值时，则表明DRL已经学习完成，可以用于数据中心网络的高效路由调度，此时第二阶段结束。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的网络能耗与吞吐量联合优化路由方法，其特征在于：，包括如下步骤：

将数据中心网络的路由调度描述为具有最大化网络吞吐量和最小化能量消耗两个目标的混合整数非线性规划问题P0；

2.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：所述混合整数非线性规划问题P0的表达公式如下：

P0:min W＝∑_e∈Eg(x_e)

3.根据权利要求1所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：采用具有深度强化学习算法的智能体对混合整数非线性规划问题P0进行优化的方法，包括如下步骤：

的值；

以概率ε选择随机行为a_t，以概率1-ε选择

最大值作为新的行为a_t ^*；

使用动作a_t ^*与环境交互并观察下一个状态s_t+1以及奖励值r_t；

将数据元组{s_t,a_t,r_t,s_t+1}作为新的训练数据，将上述过程不断重复迭代，直到生成一定数量的训练数据；

用一定数量的训练数据对智能体进行训练，当损失函数收敛到阈值时，输出智能体的参数；

4.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：用一定数量的训练数据对智能体进行训练，当损失函数收敛到阈值时，输出智能体的参数包括：

将训练数据输入Bellman方程，获得

将

输入损失函数，并通过梯度下降法来优化损失函数，当损失函数收敛到阈值时，输出智能体的参数；

Bellman方程表达式如下：

是下一个网络状态s_t+1的值；

损失函数表达式如下：

其中，θ_t表示当前时刻下智能体的参数。

5.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：所述网络状态s_t设置为业务流量需求f_s,d、业务接入位置s、DCN中使用的链路以及链路的负载

的综合表征。

6.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：所述决策行为a_t设置为每个业务请求可选的路由方案。

7.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：所述奖励函数设置为评价DRL给出的决策动作与当前网络环境之间的适应程度。

8.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：所述智能体采用三层卷积神经网络模型和两层全连接神经网络模型按序组合而成。

9.根据权利要求3所述的基于深度强化学习的网络能耗与吞吐量联合优化路由方案，其特征在于：ε的数值将会随着DRL学习次数的增加而不断减少，直到最终ε为0结束。