CN115314399A

CN115314399A - 一种基于逆强化学习的数据中心流量调度方法

Info

Publication number: CN115314399A
Application number: CN202210936242.6A
Authority: CN
Inventors: 李云春; 裴俊鹏; 李巍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-08
Anticipated expiration: 2042-08-05
Also published as: CN115314399B

Abstract

本发明提出一种基于逆强化学习的数据中心流量调度方法，使用马尔可夫决策过程对网络环境进行建模，周期性地从网络环境中获取状态信息，基于策略选择动作设置多级反馈队列的阈值。针对人工设置奖励值函数难以直接优化目标的问题，采用逆强化学习的方法将人工设置奖励值函数改为奖励函数网络进行拟合，根据专家策略生成的专家样本训练奖励函数网络生成奖励值来指导策略网络，使得策略网络能够学习专家策略，最终训练策略网络实现动态调整多级反馈队列阈值，降低网络流的平均完成时间。

Description

一种基于逆强化学习的数据中心流量调度方法

技术领域

本发明涉及数据中心资源管理，更具体地，涉及一种基于逆强化学习的数据中心流量调度方法。

背景技术

近年来，随着数据的爆炸式增长，数据中心数据存储、计算分析成为当今的热点问题，各个应用之间的交互需要网络来传递信息，因此提高部署在数据中心的计算集群的网络通信性能具有重要意义。

在网络中一组具有相同移动方向的数据包被称作网络流(flow)，在数据中心网络中以flow为基本调度单元，可以针对应用的需求优化通信性能。目前网络流常用的调度算法是FIFO和优先级队列等，在优先级队列中有一种多级反馈队列(Multiple LevelFeedback Queue，MLFQ)的方法，使用多个优先级队列根据flow的已发送字节数分配不同的优先级，不同队列之间通过阈值进行划分，进而决定flow的调度顺序，然后根据网络拓扑计算出每条数据流的传输速率。

现有的flow调度大多是基于粗粒度网络模型的启发式调度方法，往往只能针对特定网络场景，无法适应复杂多变的网络环境。在CN111740925A《一种基于深度强化学习的Coflow调度方法》中采用深度强化学习的方法来针对复杂的网络环境进行建模，根据环境信息动态地设置多级反馈队列的阈值，以达到根据网络变化自动调整Coflow调度的目的。但是该方法中奖励函数是根据Coflow平均持续时间的变化定义的，在复杂多变的网络环境中，这种奖励函数的设计往往需要花费大量的时间和精力，并且从长远来看这种单步反馈的奖励函数不一定能很好地直接优化目标。

发明内容

本发明技术解决问题：克服现有技术的不足，提出一种基于逆强化学习的数据中心流量调度方法，使用马尔可夫决策过程对网络环境进行建模，周期性地从网络环境中获取状态信息，基于策略选择动作设置MLFQ的阈值。针对人工设置奖励值函数难以直接优化目标的问题，利用逆强化学习的方法，通过专家算法中潜在的专家策略π_E生成专家样本训练奖励函数网络D生成奖励值来指导策略网络π，使得策略网络能够模仿专家策略，最终训练策略网络实现根据网络变化动态调整MLFQ阈值，降低网络流的平均完成时间。

本发明技术解决方案：一种基于逆强化学习的数据中心流量调度方法，应用于数据中心资源管理，包括以下步骤：

步骤1、首先基于马尔可夫决策过程对数据中心网络中流调度环境进行建模，并初始化逆强化学习中策略网络和奖励函数网络，将网络中具有相同移动方向的一组数据包称为网络流flow，对发送的网络流进行状态设计，对分发网络流设备的多级反馈队列阈值进行动作设计，周期性地从网络环境中获取状态信息，基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值。

步骤2、收集网络环境中已经发送完成的网络流，利用专家算法生成专家样本，放入专家样本池中；

步骤3、对逆强化学习中策略网络和奖励函数网络进行对抗训练，使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略，实现根据网路环境的变化动态设置多级反馈队列阈值，达到降低平均完成时间的目的。

进一步地，所述步骤1，其中对数据中心网络中流调度环境的建模包括：

(11)状态设计利用已发送但未完成传输的flow信息表示，描述了当前的网络环境，每个flow使用{id，width，sent，duration}来描述，其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值，width是flow中包含数据包的数量，sent是flow已发送字节数，duration是flow的传输时间。所以t时刻网络环境状态矩阵为：

(12)动作设计为多级反馈队列的阈值，对于K个队列组成的多级反馈队列，在时刻t执行的动作a_t＝{th₁,th₂,···,th_K-1},动作是一个K-1维连续空间，th₁,th₂,···,th_K-1为每个队列的阈值。

进一步地，所述步骤2的具体过程为：

(21)在flow发送完成后，将flow标识、flow开始时间、flow的发送节点、接收节点以及流字节数大小等信息以Trace的形式收集起来，在后续生成专家样本时进行回放。

(22)本发明的专家算法采用有先验知识的多队列最小流优先算法。假设多级反馈队列的阈值已经设置，在有先验知识的场景下flow总字节数大小已知，根据flow总字节数大小sz_f，按照多级反馈队列阈值为flow分配优先级，当th_p≤sz_f<th_p+1时，为其分配优先级p。不同队列的优先级分配服从最小flow优先原则，同一个队列中的flow按照FIFO方法调度。

(23)利用模拟器对Trace数据进行回放，根据已发送flow的总字节数，找到最优调度性能下的阈值a_E作为动作，MLFQ阈值是采用全局优化得到的，因此采用的动作为固定大小的阈值，根据状态选取动作的映射作为专家策略。根据网络环境信息抽象出状态s_E，利用多队列最小流优先算法，将网络中活跃flow分配不同的优先级，当flow的已发送字节数大于等于th_p小于th_p+1时，为其分配队列优先级p，改变网络的状态，同时采用核密度估计方法将固定的阈值动作a_F转化为策略动作a_E。将专家算法生成的状态动作对(s_E,a_E)(s_E,a_E)作为专家样本存入专家样本池。

进一步地，所述步骤3的具体过程为：

策略网络根据t时刻网络环境s_t生成动作a_t来调节多级反馈队列阈值，生成策略网络样本数据(s_t,a_t)，影响flow的队列优先级，进而导致网络环境状态的变化；

奖励函数网络根据策略网络的状态s_t和动作a_t来生成奖励值r_t+1，同时利用多队列最小流优先算法的专家样本(s_E,a_E)，来判别策略网络的样本数据和专家样本的差异，通过该差异对奖励函数网络进行修正训练，使得奖励函数不断接近专家样本中潜在的奖励函数。

将策略网络π和奖励函数网络D的训练过程作为二者的博弈，其目标函数L_GAIL(π,D)可以表示为：

L_GAIL(π,D)＝E_π[logD(s,a)]+E_πE[log(1-D(s,a))]

其中，D(s,a)表示策略网络判别状态动作对(s,a)由专家策略π_E产生的概率，当逆强化学习收敛后，奖励函数网络D需要准确判断策略网络生成的样本是否服从专家样本分布，因此，D的训练目标为最大化博弈目标函数L_GAIL(π,D)。另一方面，策略网络π将奖励函数网络D(s,a)作为奖励函数，以指导模型训练，通过生成样本反馈调节奖励函数网络D，使得生成样本分布不断逼近专家策略π_E的样本分布。最后奖励函数网络能够拟合出专家样本中潜在的奖励函数，而策略网络通过学习专家策略面对不同的网络环境自动调整以达到降低平均flow完成时间的目的。

本发明的有益效果如下：

(1)本发明采用有先验知识的多队列最小流优先算法多级反馈队列专家算法，利用已发送数据的完整信息，生成具有很好调度性能的专家样本。

(2)本发明采用了逆强化学习，有效地解决了深度强化学习中奖励函数人工设计困难和周期长问题，并基于奖励函数考虑策略的长远影响，而不局限于单步的即时反馈，在数据中心网络流调度中重建奖励函数，指导深度强化学习进行更好的调度，降低网络流的平均完成时间。相较于最少获得服务Aalo降低了53％的网络流平均完成时间，相较于最少有效瓶颈优先SEBF降低了35％的网络流平均完成时间。

附图说明

图1为逆强化学习示意图；

图2为基于逆强化学习的数据中心流调度框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明一种基于逆强化学习的数据中心流量调度方法，使用奖励函数网络D的方法来学习专家策略π_E中潜在的奖励函数，指导策略网络π不断调节多级反馈队列的阈值，以改变网络流的传输状态，降低网络流的平均完成时间。如图1所示，基于逆强化学习方法通常包括生成器G、判别器D和专家样本数据，其中专家数据根据专家策略生成，以指导生成器学习，生成器G生成样本数据，判别器D判断生成数据和专家样本之间的区别，产生奖励值指导生成器G学习专家策略。

数据中心网络是指代通用的网络环境，本发明的目的是利用逆强化学习动态调整网络中交换机、路由器等分发网络流flow数据设备的多级反馈队列阈值，流调度环境为分发网络流设备的多级反馈队列。在多级反馈队列中，存在多个优先级不同的单级队列，不同的队列之间通过阈值进行划分。单级队列内部实现最大最小公平，而队列之间优先级越高，flow分配到的带宽也就越大。对于一个新的flow，首先将其放置于最高优先级队列中，而后随着flow的持续发送，当已发送数据量跨过某一阈值时，对flow进行降级，放置到更低优先级的队列中。多级反馈队列具有调度延迟小，能有效区分长流短流等优点，但是仍旧存在缺陷，即阈值往往需要事先人工设定，具有经验性，并且网络环境复杂且变化频繁，事先设定好的阈值往往不是最优的，这限制了调度的最终效果。为了完成最优的flow调度，需要依据环境信息对多级反馈队列阈值进行动态设定。

逆强化学习的主体包含三个部分，策略网络，奖励函数网络，专家算法，是强化学习的延伸。强化学习是智能体(调度器)不断根据环境(即状态设计)通过策略网络进行动作(即动作设计)，动作会造成环境的变化，由于无法判断这个动作在该环境状态下的好坏，需要自定义奖励函数来对这次的动作进行评判，以此不断调整策略网络，从而达到强化学习的目的。但是自定义奖励函数比较复杂和困难，逆强化学习就是自定义奖励函数将改为深度神经网络，让策略网络和奖励函数网络进行对抗学习，专家算法指导奖励函数网络学习专业算法中潜在的专家策略，从而达到两个深度神经网络训练，解决强化学习中人工设置奖励函数较为困难的问题。

在本实施例中，要使用逆强化学习来进行流量调度，首先需要对网络环境进行建模，具体包括：

(1)网络环境状态设计

将网络中具有相同移动方向的一组数据包称为flow，利用已发送但未完成传输的flow来进行状态设计，每个flow使用{id，width，sent，duration}来描述，其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值，width是flow中包含数据包的数量，sent是flow已发送字节数，duration是flow的传输时间。因为神经网络要求输入的维度固定，规定M为状态表示的最大flow数量，根据活跃的flow已发送字节数进行排序，截取前M个flow表示网络的状态，数量不足M时用零填充。所以，t时刻网络环境状态矩阵为：

在本实施例中，M的值为10。

(2)动作设计

根据网络中flow已发送字节数大小和多级反馈队列阈值的设置，会将flow动态地分配优先级，如当新的flow到达时，被分配到最高的优先级队列Q₁，此时即为flow开始时间；当flow的已发送字节数大于th_i，而小于th_i+1时，其优先级从队列Q_i降到队列Q_i+1；当flow发送完成时，从多级反馈队列中移除该flow，当前时间和开始时间之差即为flow完成时间。

多级反馈队列阈值的设置会影响flow所处的队列，进而影响传输的状态，因此将多级反馈队列的阈值视为控制动作。在时刻t执行的动作a_t＝{th₁,th₂,···,th_K-1},动作是一个K-1维连续空间。在本实施例中，K的值为8。

本发明的框架图如图2所示，其中调度器和策略网络组成生成器G，模拟环境利用专家算法生成专家样本，奖励函数网络为判别器D，接下来对各个部分进行进一步描述：

1)生成器G

生成器G分为离线训练模块和在线调度器，离线训练模块为策略网络，也就是深度强化学习部分。在策略网络训练过程中，从经验回放池中采样，采样使用随机批量采样的方式，经验回放池的大小为ND，批量采样的大小为m，在本实施例中分别为10000和32；这些经验样本来自收集器，收集器将flow调度器和网络环境的交互经验全部收集起来，并存储到经验回放池。

在线调度器选择执行动作来调节多级反馈队列阈值，从而进行flow调度，每隔一段时间，调度器从策略网络同步最新的调度策略。调度器观察系统状态，根据策略生成动作利用核密度估计方法转化为多级反馈队列阈值，作用到多级反馈队列上，之后随着网络传输过程的进行，系统转移到下一个状态，所有flow调度器的历史调度数据，都将被收集器收集，并转化成三元组(s_t,a_t,s_t+1)存储到经验回放池中。

在本实施例中采用核密度估计方法将策略网络动作和阈值动作进行转换，具体为利用n个flow已发送字节数的数据sz₁,sz₂,···,sz_n，其中sz_i为第i个flow已发送字节数样本，其核密度估计为：

其中K(sz)是核函数，h是窗宽参数，在本实施例中，h为

n的值为10000，K(sz)采用高斯核函数：

累计分布函数F是flow已发送字节数sz到该大小概率P的映射，定义为：

上述函数表达都使用了简写，f(X)是上述核密度估计函数f_h(sz)，其中X表示为已发送字节数sz的变量，h由于已经确定并且在此没有特殊意义，所以省略。

F为累计分布函数F_x(sz)，其中，sz变量表示已发送字节数，X为辅助变量，在已发送字节数sz已经确定的情况下，辅助求解该函数，同理下面的g也为g(p)，表示flow字节数大小出现的概率P到flow已发送字节数sz的映射，在g中的F^-1表示为累计分数函数F的反函数，具体为：

g(p)＝F^-1(p)＝sz

2)专家策略

根据能否提前获得flow的完整信息，分为有先验知识的调度算法和无先验知识。有先验知识的flow调度算法由于能根据flow的完整信息进行优先级分配，所以常常比无先验知识的调度性能更好，因此有先验知识flow调度方法很适合用来作为逆强化学习的专家策略。

本发明采用的专家算法是有先验知识的多队列最小流优先算法，根据已经完成的flow总字节数进行计算，得到全局最优的多级反馈队列阈值，并根据阈值和flow总字节数为flow队列优先级，不同队列的优先级分配服从最小flow优先原则，同一个队列中的flow按照FIFO方法调度。

根据已发送flow的总字节数，找到最优调度性能下的阈值a_E作为动作，MLFQ阈值是采用全局优化得到的，因此采用的动作为固定大小的阈值，根据状态选取动作的映射作为专家策略。根据网络环境信息抽象出状态s_t，利用多队列最小流优先算法，将网络中活跃flow分配不同的优先级，当flow的已发送字节数大于等于th_p小于th_p+1时，为其分配队列优先级p，改变网络的状态，同时采用核密度估计方法将固定的阈值动作a_F转化为策略动作a_E。将专家算法生成的状态动作对(s_E,a_E)作为专家样本存入专家样本池。

3)判别器D

判别器D在对flow调度进行逆强化学习建模时被用作奖励函数，用来学习专家策略中潜在的奖励函数，解决人工设计奖励函数困难和周期长的问题，同时学习专家策略能够更加直接的优化降低平均flow完成时间的目标。在flow调度过程的每个步长中，根据状态动作对样本(s_t,a_t)产生奖励值r_t+1，判别器D使用一个神经网络进行拟合，判断生成器产生的样本数据和专家算法生成的专家样本之间的差异，对奖励函数网络进行修正，生成更符合专家策略的奖励值来指导策略网络学习模仿。

L_GAIL(π,D)＝E_π[logD(s,a)]+E_πE[log(1-D(s,a))]

s表示网络环境的状态，a表示多级反馈队列阈值的动作，(s，a)为状态动作对。

其中，D(s,a)表示策略网络判别状态动作对(s,a)由专家策略π_E产生的概率，当模型收敛后，奖励函数网络D需要准确判断生成样本是否服从专家样本分布，因此，D的训练目标为最大化博弈目标函数L_GAIL(π,D)。另一方面，策略网络π将奖励函数网络D(s,a)作为奖励函数，以指导模型训练，通过生成样本反馈调节奖励函数网络D，使得生成样本分布不断逼近专家策略π_E的样本分布。为了降低算法的收敛难度，这里采用目标判别网络D′来解耦生成器G对判别器D的依赖，目标判别网络D′的参数w′采用软更新的方式通过判别器D的神经网络参数w进行更新：

w′←βw+(1-β)w′

在本实施例中，β为依赖参数，表示对判别器D的依赖程度，值为0.001。

总之，本发明使用马尔可夫决策过程对网络环境进行建模，周期性地从网络环境中获取状态信息，基于策略选择动作设置多级反馈队列的阈值。针对人工设置奖励值函数难以直接优化目标的问题，采用逆强化学习的方法将人工设置奖励值函数改为奖励函数网络进行拟合，根据专家策略生成的专家样本训练奖励函数网络生成奖励值来指导策略网络，使得策略网络能够学习专家策略，最终训练策略网络实现动态调整多级反馈队列阈值，降低网络流的平均完成时间。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节。在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种基于逆强化学习的数据中心流量调度方法，其特征在于，包括如下步骤：

(1)首先基于马尔可夫决策过程对数据中心网络中流环境进行建模，并初始化逆强化学习中策略网络和奖励函数网络，将数据中心网络中具有相同移动方向的一组数据包称为网络流flow，对发送的网络流进行状态设计，对分发网络流设备的多级反馈队列阈值进行动作设计，周期性地从数据中心网络中流环境中获取状态信息，基于策略网络选择动作设置分发网络流设备的多级反馈队列阈值；

所述状态设计实现为：利用已发送但未完成传输的网络流flow信息表示，描述当前的网络环境，每个网络流flow使用{id，width，sent，duration}来描述，其中id是源IP地址、源端口、目的IP地址、目的端口号的hash值，width是网络流flow中包含数据包的数量，sent是网络流flow已发送字节数，duration是网络流flow的传输时间，t时刻网络环境状态矩阵为：

所述动作设计实现为：动作设计为多级反馈队列的阈值，对于K个队列组成的多级反馈队列,在时刻t执行的动作a_t＝{th₁,th₂,…,th_K-1},动作是一个K-1维连续空间，th₁,th₂,…,th_K-1为每个队列的阈值；

(2)收集网络环境中已经发送完成的网络流flow，利用专家算法生成专家样本，放入专家样本池中；

(3)对逆强化学习中策略网络和奖励函数网络进行对抗训练，使得策略网络根据网络环境设置多级反馈队列阈值的动作不断学习模仿专家算法中隐含的专家策略，实现根据网路环境的变化动态设置多级反馈队列阈值，达到降低平均完成时间的目的。

2.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法，其特征在于，所述步骤(2)具体包括以下步骤：

(21)在网络流flow发送完成后，将网络流flow标识、网络流flow开始时间、网络流flow的发送节点、接收节点以及网络流字节数大小信息以Trace的形式收集起来，在后续生成专家样本时进行回放；

(22)采用有先验知识的多队列最小流优先算法，假设多级反馈队列的阈值已经设置，在有先验知识的场景下网络流flow总字节数大小已知，根据flow总字节数大小sz_f，按照多级反馈队列阈值为flow分配优先级，当th_p≤sz_f<th_p+1时，th_p为队列p的阈值，th_p+1为队列p+1的阈值，为其分配优先级p，不同队列的优先级分配服从最小flow优先原则，同一个队列中的网络流flow按照FIFO方法调度；

(23)利用模拟器对Trace数据进行回放，根据已发送flow的总字节数，找到最优调度性能下的阈值a_F作为动作，采用的动作为固定大小的阈值，根据状态选取动作的映射作为专家策略，根据网络环境信息抽象出状态s_E，利用多队列最小流优先算法，将网络中活跃网络流flow分配不同的优先级，当flow的已发送字节数大于等于th_p小于th_p+1时，为其分配队列优先级p，改变网络的状态，同时采用核密度估计方法将固定的阈值动作a_F转化为策略动作a_E，将采用有先验知识的多队列最小流优先算法生成的状态动作对(s_E,a_E)作为专家样本存入专家样本池。

3.根据权利要求1所述的基于逆强化学习的数据中心流量调度方法，其特征在于，所述步骤(3)具体包括以下步骤：

(31)策略网络根据t时刻网络环境s_t生成动作a_t来调节多级反馈队列阈值，生成策略网络样本数据(s_t,a_t)，影响flow的队列优先级，进而导致网络环境状态的变化；

(32)奖励函数网络根据策略网络的状态s_t和动作a_t生成奖励值r_t+1，同时利用多队列最小流优先算法专家样本数据为(s_E,a_E)，s_E为网络环境，a_E为阈值动作，判别策略网络样本数据(s_t,a_t)和专家样本的差异，通过该差异对奖励函数网络进行修正训练，使得奖励函数不断接近专家样本中潜在的奖励函数；

(33)将策略网络π和奖励函数网络D的训练过程作为二者的博弈，其目标函数L_GAIL(π,D)表示为：

其中，D(s,a)表示策略网络判别状态动作对(s,a)由专家策略π_E产生的概率，当逆强化学习收敛后，奖励函数网络D准确判断生成策略网络生成的样本是否服从专家样本分布，奖励函数网络D的训练目标为最大化博弈目标函数L_GAIL(π,D)；策略网络π将奖励函数网络D(s,a)作为奖励函数，以指导模型训练，通过生成样本反馈调节奖励函数网络D，使得生成样本分布不断逼近专家策略π_E的样本分布；最后奖励函数网络拟合出专家样本中潜在的奖励函数，策略网络通过学习专家策略面对不同的网络环境自动调节多级反馈队列的阈值，以达到降低平均网络流flow完成时间的目的。