CN112866015B

CN112866015B - 一种基于数据中心网络流量预测与学习的智能节能控制方法

Info

Publication number: CN112866015B
Application number: CN202110018143.5A
Authority: CN
Inventors: 汪洋; 王廷; 厉宇桐
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2021-10-12
Anticipated expiration: 2041-01-07
Also published as: CN112866015A

Abstract

本发明公开了一种基于数据中心网络流量预测与学习的智能节能控制方法，其特点是采用混合叠加的神经网络模型预测数据中心网络中的网络流量，使用DDPG算法的深度强化学习，以优化网络中的带宽分配和路由选择，实现数据中心网络的节能控制和未来网络流量的准确预测。本发明与现有技术相比具有预测结果精确和智能节能控制，大大优化了网络中的带宽分配和路由选择，实现对未来网络流量的有效准确预测，方法简便，优化的网络结构更加节能，较好的解决了数据中心网络的多物网络流问题。

Description

一种基于数据中心网络流量预测与学习的智能节能控制方法

技术领域

本发明涉及网络优化和流量预测技术领域，尤其是一种基于数据中心网络流量预测与学习的智能节能控制方法。

背景技术

随着云计算在搜索引擎、社交媒体、电子商务等方面的广泛应用，近年来数据中心网络(Data Center Networking，缩写为DCN)成为了一种重要的网络结构，其为大规模存储和高性能计算提供了仓库级的计算服务。云计算和数据中心网络的普遍使用，也相应地带来了能量消耗的同步增长，业界已经不能够再忽视其能量消耗问题，一些针对数据中心网络中节能的带宽分配和路由选择优化方法被相继提出。现有的带宽分配和路由选择优化方法大多为依据当前网络流情况的离线分析和优化算法，这些静态类型的方法显然具有诸多缺点。尤其是这些方法为了使得整个网络系统对将来的网络流保持较好的性能表现，导致了它们的带宽分配和路由选择结果往往是带有时间延迟的。因此为了实现对网络的无时延高效优化，需要对未来的网络流量进行准确的预测。

网络流量的预测可以被视为一个时间序列预测问题。该问题致力于分析在网络上已收集的时间序列数据，并以此来预测未来网络中的需求。在网络中使用深度神经网络进行学习和预测的动机是实现无监督训练，其可以在大量的数据中检测出隐藏的模式，这几乎不可能由人类手工制作出适合所有场景的特征。此外，许多新的研究表明，单一的模型不足以满足某些应用的需要，因此开发出一种具有不同模型优点和缺点的混合神经网络结构可以创造出一种新的高效的神经网络，从而提供更好的结果。传统方法如移动平均(MovingAverage)带有许多缺陷，适用性差。近些年来，循环神经网络(Recurrent Neural Network，缩写为RNN)被广泛应用于时间序列预测问题中并展现了其有效性。但是随着RNN中循环数目的增加，其导致的梯度消失问题(Vanishing Gradient)会造成网络参数的更新减慢。

基于对未来网络流量的预测结果，数据中心网络中的带宽分配和路由选择优化问题可以化归为多物网络流问题(Multi-Commodity Flow，缩写为MCF)。多物网络流问题是多个物品(或货物)在网络中从不同的源点流向不同的汇点的网络流问题。对于数据中心网络而言，不同的源点和目标点对可以通信不同数量的数据。如何找到一个可行的交换机和路由分配可以看作是一个具体的多物网络流问题。数据中心网络的MCF问题，可以通过添加一系列的约束：需求满足、容量约束以及流量守恒来表示为整数线性规划问题。针对该问题，已有的解决方法往往在路由选择过程中使用启发式策略尽可能地节约能量，但其效率和优化结果均不能得到有效保证。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于数据中心网络流量预测与学习的智能节能控制方法，采用混合叠加的神经网络模型预测数据中心网络中的网络流量，以及使用深度强化学习方法，优化网络中的带宽分配和路由选择，实现对未来网络流量的有效准确预测和数据中心网络的智能节能控制，方法简便，优化的网络结构更加节能，较好的解决了数据中心网络的多物网络流问题。

本发明的目的是这样实现的：一种基于数据中心网络流量预测与学习的智能节能控制方法，其特点是采用混合叠加的神经网络模型预测数据中心网络中的网络流量，使用DDPG算法的深度强化学习，以优化网络中的带宽分配和路由选择，实现数据中心网络的节能控制，所述DDPG算法的深度强化学习具体包括以下步骤：

a步骤：通过观察网络当前的拓扑结构以及流量需求得到环境的状态。

b步骤：根据当前状态和策略采取合适的动作，与环境进行交互，得到下一个状态和奖励，该动作将改变网络的拓扑和路由。

c步骤：对新的状态继续采取动作以改变环境，并根据得到的状态迁移和奖励，使用DDPG算法进行学习，以获得更多的奖励，使每一步所采取的动作不断优化。

d步骤：通过训练完成的模型对数据中心网络进行带宽分配和路由优化，以达到节能的目的。

所述混合叠加的神经网络模型基于已收集的网络信息，使用全连接层(FullConnection Layer)和长短期记忆网络(LSTM)模型混合叠加的神经网络架构，以预测未来的网络流量需求，所述长短期记忆网络(LSTM)模型的输入部分由两个叠加的LSTM层组成，模型的输出部分配置了一系列全连接层来调整模型输出的维度。LSTM模型通过在每个单元中引入单元状态和控制门来克服梯度消失问题。

所述状态为流量需求、候选路径分配、链路分配以及交换机节点状态组成的向量，记作

分别表示第i条需求完成的百分比、第i条需求的规模、第i条需求是否占用第j条路径、第i条需求占用第j条路径的容量百分比、第i条链路的剩余容量和第i个交换机节点是否工作。

所述动作为选择的链路及其提供的链路容量组成的向量，记作(sel_i,flow_i)，分别表示第i条链路及第i条链路提供的链路容量的百分比。

所述奖励为执行动作后按对流量需求分为未满足需求、满足一条需求和满足所有需求。

所述下一个状态是根据动作中涉及的链路和容量进行更新。

所述DDPG算法是针对多物网络流问题设计的一套基于深度确定性策略梯度(DeepDeterministic Policy Gradient)算法，使用神经网络来模拟DDPG中的策略函数μ和价值函数Q，进行深度学习的网络训练。

本发明与现有技术相比具有数据中心网络的智能节能控制，大大优化了网络中的带宽分配和路由选择，实现对未来网络流量的有效准确预测，方法简便，优化的网络结构更加节能，较好的解决了数据中心网络的多物网络流问题。

附图说明

图1为本发明架构的系统图；

图2为深度强化学习中的状态和动作示意图；

图3为DDPG算法示意图；

图4为本发明对网络流量预测的结果对比图；

图5为本发明的网络能量消耗与传统方法的对比图。

具体实施方式

本发明提出了一种用于需求预测的混合叠加LSTM模型，模型的输入部分由两个叠加的LSTM层组成。为了匹配标签的维度，在模型的输出部分配置了一系列全连接层来调整模型输出的维度。LSTM模型通过在每个单元中引入单元状态和控制门来克服梯度消失问题。

参阅附图1，本发明针对多物网络流问题设计了一套基于深度确定性策略梯度(Deep Deterministic Policy Gradient)算法的深度强化学习方法，包括由流量预测模块(RNN)和流量交通优化模块(RL)与当前网络、网络拓扑、拓扑和路由架构的数据中心网络流量预测与学习系统，其深度强化学习和网络优化具体包括以下步骤：

所述a步骤中的状态定义为流量需求、候选路径分配、链路分配以及交换机节点状态组成的向量，记作

分别表示第i条需求完成的百分比，第i条需求的规模，第i条需求是否占用第j条路径，第i条需求占用第j条路径的容量百分比，第i条链路的剩余容量，第i个交换机节点是否工作。

所述b步骤中的动作定义为选择的链路及其提供的链路容量组成的向量，记作(sel_i,flow_i)，分别表示第i条链路及第i条链路提供的链路容量的百分比。

所述b步骤中的下一个状态根据动作中涉及的链路和容量进行更新。

所述c步骤中使用神经网络来模拟DDPG中的策略函数μ和价值函数Q，然后使用深度学习方法训练以上网络。

所述a步骤的具体方法为：按照MCF的设定，网络状态应表示为环境的可观察状态。将四个主要因素编码到状态表示中，分别为流量需求、候选路径分配、链路分配以及交换机节点状态。

参阅附图2，本发明使用一个向量来表示所示的信息，每一条流量需求都包含三个要素，记作一个元组(souree,destination，scale)，分别表示源点、目标点(汇点)以及发送的数据包大小。假设共有M条流量需求，对于其中的第i条流量需求来说，需要考虑它两个方面的特征，分别为已完成的百分比和总规模，记作finished_i和scale_i。finished_i在[0,1]内取值，scale_i表示第i条流量需求需要的带宽。

对于每一条流量需求，有若干条可以支持其的候选路径。对于第i条流量需求和第j条候选路径，

和

表示路径是否被该流量需求占用以及所占用容量的比例。

对于链路分配和交换机节点状态而言，left_i用来表示第i条链路的剩余容量，而used_j用来表示第j个交换机节点是否在网络路由中工作。left_i在[0,1]内取值，其表示链路容量剩余的百分比，而used_j是一个二进制变量。

参阅附图2，展示了动作的向量表示，DRL的智能体的动作将选择一条链路i，记作sel_i，其对当前选择的贡献表示为链路容量的比例，记作flow_i，其与链路容量的剩余比例left_i相协调，因此对于第i条链路而言，flow_i+left_i＝1。

所述b步骤的具体方法为：通过向解决方案中不断添加链路及其支持集，根据反馈的结果分类定义奖励。

路径容量：路径p的容量定义为该路径中所有链路容量的最小值。Capacity(p)＝min_e∈pC(e)，其中，C(e)是链路e的容量。

支持集：对于一条链路i，其支持集定义为它所分配到的路径，即其所在路径p上的链路的集合。同时，要求有Capacity(p)>C(i)。的支持集记作SS(i)。

所述b步骤中的奖励根据执行动作后对流量需求的满足情况分类定义：未满足需求、满足一条需求、满足所有需求。

1)未满足需求：添加一条链路及其支持集，在这种情况下，智能体将一条链路添加到解决方案中。该链路的支持集不为空，则可以将支持集添加到解决方案中。若仍然没有满足流量需求，假设a_t采用了第i条链路，则奖励函数由下述表1定义：

表1 奖励函数定义

其中，fresh(SS(i))是Ss(i)中left_i为100％的链路的数目。

2)有一条需求被满足：如果支持集SS(i)帮助满足了需求j，则奖励函数定义为：Reward(s_t,a_t)＝scale_j。

3)所有需求均被满足：如果支持集SS(i)帮助满足了所有需求，也就意味着智能体找到了一个对MCF问题实例可行的解决方案。奖励函数定义为：

此外，为了达到节能的目的，在网络中应当尽量少地使用节点。为了体现出尽可能少地使用节点，奖励函数在计算得出后还需作如下变换：

其中N_nodes表示网络中节点的总个数。

所述b步骤的具体方法为：状态转变的具体规则如下述表2所示：

表2 状态转变规则

参阅附图3，所述c步骤的具体方法为：一个DDPG架构通常由四个部分组成，它们分别是环境(Environment)、执行者(Actor)、评论者(Critic)、经验回放记忆区(ExperienceReplay Memory)。其中，执行者由在线策略网络和目标策略网络组成，评论者由在线Q网络和目标Q网络组成。在线策略网络用于拟合策略函数μ(s_t)。它的参数记作θ^μ。在训练中，通过Ornstein-Uhlenbeck过程(OU过程)给动作引入随机噪声，将动作从确定性过程转变成随机过程，然后对动作进行采样并交给环境执行。

在线Q网络用来近似价值函数Q^μ(s_t,a_t)，其生成动作的梯度并将它传递给在线策略网络训练。Q网络自身的参数依据随机梯度下降(Stochastic Gradient Descent，缩写为SGD)进行训练。目标策略网络和目标Q网络分别是Online Policy Network和Online QNetwork的备份，其参数按下述5式更新：

经验回放记忆区记录了环境中状态转变的数据(s_i,a_i,r_i,s_i+1)，并为训练网络采样数据集。

所述c步骤中的DDPG算法运行如下：

①初始化在线网络的参数θ^Q和θ^μ；

②通过复制在线网络，创建目标网络；

③初始化回放记忆缓冲区；

④对每一个训练回合；

⑤初始化OU过程；

⑥初始化环境，生成新的需求；

⑦当t＝1t≤T时；

⑧生成动作a_t＝μ(s_t|θ^μ)+N

⑨对环境执行动作a_t，获得奖励r_t，更新状态获得新状态s_t+1；

⑩将(s_i,a_i,r_i,s_i+1)存入回放记忆缓冲区；

从回放记忆缓冲区中取出N个样本；

训练在线策略网络和在线Q网络；

计算梯度θ^Q；

使用优化器更新在线Q网络；

计算梯度θ^μ；

使用优化器更新在线策略网络；

软更新目标网络。

采用移动平均、RNN和LSTM等不同方法对网络需求进行预测，其中，对比的标准为预测的均方误差(Mean Squared Error，缩写为MSE)，可以看出相较于基线方法，神经网络具有更好的结果。此外，LSTM模型的性能优于RNN模型，本发明有益效果如下表3所示：

表3不同方法对网络需求预测的结果

参阅图4，LSTM模型预测值的趋势与真实值大致一致。

参阅图5，以网络的能量消耗为标准，DRL智能体的性能最高可超过启发式算法约7.8％，平均超过约4％。与Gurobi比较，Gurobi虽然能够在可接受的时间内为较小规模的问题提供更好的解决方案。然而，当网络中的节点数目超过70个时，Gurobi算法收敛所需的时间已经超出了可接受的范围，此时就能够凸显出本发明的优势。

在强化学习的每一步决策t中，智能体观察当前状态s_t，采取一个动作a_t，并收到相应的奖励r_t。目标是找到一个从状态映射到动作(确定的)或从状态映射到动作的概率分布(随机的)的策略π(s)，来最大化得到下述6式表示的折扣累计奖励R_0:：

式中：r(·)为奖励函数；a_t＝π(s_t)为智能体依据策略所采取的动作；γ∈[0,1]是折扣因子。

在DDPG中，状态-动作策略会根据评论者网络返回的价值函数进行迭代修改。使用链式规则，将神经网络目标函数的参数梯度传递到执行者策略网络中。Q价值函数表示当智能体在第t步观察到状态s_t并采取动作时对未来折扣累计奖励的期望。奖励R_t的定义类似于R₀。所述Q价值函数由下述1式表示：

Q(s_t,a_t)＝E[R_t|s_t,a_t] (1)；

对评论者的训练是最小化Q价值网络的损失函数由下述2式表示：

L(θ^Q)＝E[y_t-Q(s_t,a_t|θ^Q)] (2)；

式中：θ^Q为DQN的权重参数；y_t为目标价值，它可以通过另一个神经网络使用下述3式估算，这个神经网络即是目标网络。

y_t＝r(s_t,a_t)+γQ(s_t+1,π(s_t+1|θ^π)|θ^Q) (3)；

最终，在DDPG中通过对Q价值函数J使用下述4式表示的链式规则来训练执行者网络：

上述模型的输入是长度为20的随时间分布的需求数据片段，标签被设置为提前20个时间单位的值。通过这种方式，训练后的模型能够根据过去20个时间单位收集到的数据来预测接下来20个时间单位的网络需求。数据集的前70％用于训练，后30％用于测试和评估。为了便于LSTM模型的训练，输入数据采用z-score方法进行标准化。模型连续预测20个值，然后使用MSE评估其精确度。

参阅图4，LSTM模型预测值的趋势与真实值大致一致。本发明在网络流量需求预测方面，其预测结果相比传统方法移动平均(Moving Average)和循环神经网络(RNN)的预测结果更加精确。

参阅图5，以网络的能量消耗为标准，DRL智能体的性能最高可超过启发式算法约7.8％，平均超过约4％。与Gurobi比较，Gurobi虽然能够在可接受的时间内为较小规模的问题提供更好的解决方案。然而，当网络中的节点数目超过70个时，Gurobi算法收敛所需的时间已经超出了可接受的范围，此时就能够凸显出本发明的优势。本发明优化的网络结构相比传统的启发式方法(Heuristic)优化的网络结构更加节能，其实验结果可以看出网络能量消耗明显低于传统方法。本发明使用一个定制的问题生成器来生成一系列具有不同节点数目的问题，将每个问题的需求数保持在节点数的1/5左右，使用启发式算法、DRL方法以及Gurobi优化器求解了这些问题。

以上只是对本发明作进一步的说明，并非用以限制本专利，凡为本发明等效实施，均应包含于本专利的权利要求范围之内。

Claims

1.一种基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于采用混合叠加的神经网络模型预测数据中心网络中的网络流量，使用DDPG算法的深度强化学习，以优化网络中的带宽分配和路由选择，实现数据中心网络的节能控制，所述DDPG算法的深度强化学习具体包括以下步骤：

a步骤：通过观察网络当前的拓扑结构以及流量需求得到环境的状态；

b步骤：根据当前状态和策略采取动作与环境进行交互，改变网络的拓扑和路由，得到下一个状态和奖励；

c步骤：对新的状态继续采取动作以改变环境，并根据得到的状态迁移和奖励，使用DDPG算法进行学习，以获得更多的奖励，使每一步所采取的动作不断优化；

d步骤：通过训练完成的模型对数据中心网络进行带宽分配和路由优化，以达到节能的目的；

所述混合叠加的神经网络模型基于已收集的网络信息，使用全连接层(FullConnection Layer)和长短期记忆网络(LSTM)模型混合叠加的神经网络架构，以预测未来的网络流量需求，所述长短期记忆网络(LSTM)模型的输入部分由两个叠加的LSTM层组成，模型的输出部分配置了一系列全连接层来调整模型输出的维度。

2.根据权利要求1所述基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于所述状态为流量需求、候选路径分配、链路分配以及交换机节点状态组成的向量，记作

3.根据权利要求1所述基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于所述动作为选择的链路及其提供的链路容量组成的向量，记作(sel_i,flow_i)，分别表示第i条链路及第i条链路提供的链路容量的百分比。

4.根据权利要求1所述基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于所述奖励为执行动作后按对流量需求分为未满足需求、满足一条需求和满足所有需求。

5.根据权利要求1所述基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于所述下一个状态是根据动作中涉及的链路和容量进行更新。

6.根据权利要求1所述基于数据中心网络流量预测与学习的智能节能控制方法，其特征在于所述DDPG算法是针对多物网络流问题设计的一套基于深度确定性策略梯度算法，使用神经网络来模拟DDPG中的策略函数μ和价值函数Q，进行深度学习的网络训练。