CN115361301B

CN115361301B - 一种基于dqn的分布式计算网络协同流量调度系统与方法

Info

Publication number: CN115361301B
Application number: CN202211226856.1A
Authority: CN
Inventors: 冯前; 梁元; 肖戈扬; 衣晓玉; 邹涛; 张汝云; 蒋忞昊
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-10
Anticipated expiration: 2042-10-09
Also published as: CN115361301A; US20240129236A1

Abstract

本发明公开了一种基于DQN的分布式计算网络协同流量调度系统与方法。所述方法包括：基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据，基于DQN中的动作价值网络和目标网络构建并训练深度强化学习智能体，深度强化学习智能体输出抽象动作；通过策略映射器接收抽象动作，并将其映射成可执行协同流量调度策略；数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略，并更新端口队列的拥塞情况；通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励，根据前后两次分布式计算任务遵循可执行协同流量调度策略产生的耗时之差，对深度强化学习智能体进行迭代优化。

Description

一种基于DQN的分布式计算网络协同流量调度系统与方法

技术领域

本发明属于计算机网络流量仿真技术领域，尤其涉及一种基于DQN的分布式计算网络中协同流量调度系统与方法。

背景技术

分布式计算任务中，各个计算节点之间产生的大量通信数据流具有很高的并行性。因此，如何调度来自不同计算设备且在通信设备中交织的协同流量既能够有效节约时间和经济成本，也能够提升分布式计算任务的计算效率为后续基础性研究提供有力技术支持。

设计最优的协同流量调度方案是NP难问题。目前研究主要集中在两点，一方面只关注一个协同流量内部的数据流调度问题，然而一个分布式计算任务中不同的协同流量之间的依赖关系未得到充分考虑，因此仅在数据流层面对协同流量调度无法从整个计算任务层面优化完成时间，在实践中不具备很高的应用价值；另一方面从整个待调度任务层面进行优化，并将不同的协同流量之间的依赖关系纳入考虑范围，但大多为简化求解难度采用的是启发式算法，从而只能得到近似最优解，算法的性能有待提升。

发明内容

本发明的目的是针对现有技术不足，提出一种基于DQN的分布式计算网络中协同流量的调度方法。本发明在协同流量调度的场景下，设计了一种深度强化学习智能体所需的状态空间，并加入数据面可编程转发平台中端口队列的拥塞情况对环境特征进一步描述。同时，本发明将动作空间分成连续和离散讨论，并根据计算任务的邻接矩阵在动作向量（矩阵）中加入掩码。此外，本发明将计算任务完成时间作为单步奖励，并在计算任务执行结束最终时刻，设计了一种奖励增益函数对整个计算任务的激励放大，进一步引导DQN智能体实现计算任务整体耗时最小化的调度目标；

本发明是通过以下技术方案来实现的：本发明实施例的第一方面提供了一种基于DQN的分布式计算网络协同流量调度方法，所述方法包括以下步骤：

（1）基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据；所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值；

（2）基于DQN中的动作价值网络和目标网络构建深度强化学习智能体，其中动作价值网络接收步骤（1）构建的环境特征数据，并训练深度强化学习智能体，深度强化学习智能体输出抽象动作；

（3）通过策略映射器接收深度强化学习智能体输出的抽象动作，将抽象动作映射成可执行协同流量调度策略；

（4）数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略，并更新端口队列的拥塞情况；

（5）通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励，根据前后两次分布式计算任务遵循深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差，对深度强化学习智能体进行迭代优化。

本发明实施例的第二方面提供了一种基于DQN的分布式计算网络协同流量调度系统，用于实现上述的基于DQN的分布式计算网络协同流量调度方法，所述系统包括：

环境特征生成组件，基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据，同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略，并更新端口队列的拥塞情况；

数据面可编程转发平台，用于识别自定义报文协议，根据策略映射器生成的可执行的协同流量调度策略进行报文转发，并度量网络拥塞情况；

深度强化学习智能体，用于将所述环境特征生成组件产生的环境特征数据进行前馈计算，生成包括连续型抽象动作和离散型抽象动作在内的抽象动作；

策略映射器，用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略：

策略增益器，用于记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励，根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差，对深度强化学习智能体进行迭代优化。

本发明实施例的第三方面提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于DQN的分布式计算网络协同流量调度方法。

与现有技术相比，本发明的有益效果是：本方法采用深度强化学习算法，设置了一种基于DQN的深度强化学习智能体与数据中心中待调度的分布式计算任务进行交互，最终给出使得计算任务整体耗时最小化的调度策略。本发明构建了一种深度强化学习智能体所需的环境特征数据，其中所包括的分布式计算任务计算阶段的属性值、通信阶段的属性值和数据面可编程转发平台中端口队列的拥塞情况，能够为智能体提供更多的环境信息；同时将智能体输出的抽象动作分成离散和连续进行讨论，并提出了一种策略映射器可以分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略，以便数据面可编程转发平台能够根据抽象动作映射得到的可执行协同流量调度策略进行报文的转发；此外本发明提出的策略增益器能够对整个计算任务的激励放大，进一步引导智能体实现计算任务整体耗时最小化的调度目标。本发明方法与其他的协同流量调度方法相比，能够不依赖于人工先验知识实现参数的自动调整，并且训练过程不需要传统监督学习中带标签的训练数据集，同时采用的深度神经网络能够对分布式计算任务分析计算，实现在较高复杂度的任务中快速分析求解，避免启发式算法中求解难度大的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于DQN的分布式计算网络中协同流量调度的结构框图；

图2是策略映射器的工作流程框图；

图3是策略增益器的工作流程框图；

图4为本发明实施例提供的一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明提出了一种基于DQN的分布式计算网络协同流量调度系统，所述系统包括环境特征生成组件、数据面可编程转发平台、深度强化学习智能体、策略映射器以及策略增益器。

所述环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据，同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略，并更新端口队列的拥塞情况；所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值；所述数据面可编程转发平台度量信息包括端口队列的拥塞情况。

所述数据面可编程转发平台用于识别自定义报文协议并根据策略映射器生成的可执行的协同流量调度策略进行报文转发，还能度量网络拥塞情况。

所述深度强化学习智能体基于DQN中的动作价值网络和目标网络构建，用于将所述环境特征生成组件产生的环境特征数据进行前馈计算，并得到可执行的抽象动作，该可执行的抽象动作包括连续型抽象动作和离散型抽象动作。

所述策略映射器用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略。

所述策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励，根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差，对深度强化学习智能体进行迭代优化。

如图1所示，本发明提出了应用上述系统的基于DQN的分布式计算网络协同流量（Coflow, Coordinate Flow）调度方法，所述方法包括以下步骤：

（1）通过环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据；所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值。

具体包括以下子步骤：

（1.1）基于有向无环图（DAG，Directed Acyclic Graph）对具有依赖关系的分布式计算任务进行建模，通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系、通信阶段的属性值，具体为：

构建邻接矩阵

表示分布式计算任务中不同计算阶段之间的依赖关系，其中邻接矩阵

中的每个元素表示不同计算阶段之间的协同流量大小即通信阶段的属性值。

（1.2）计算每个计算阶段的耗时作为计算阶段的属性值，记为1个一维向量

。

（1.3）通过网路度量得到数据面可编程转发平台中端口队列的拥塞情况。将端口队列中仍未传输的流量大小抽象成1个一维向量

，若为初始状态则

为空。

（1.4）将步骤（1.1）得到的不同计算阶段之间的依赖关系、通信阶段的属性值，步骤（1.2）得到的计算阶段的属性值，步骤（1.3）中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据，包括：

将表示通信阶段的临界矩阵

做拉直运算

、表示计算阶段的一维向量

和表示数据面可编程转发平台中端口队列拥塞情况的一维向量

拼接作为当前所述环境特征数据的状态表征

。

（2）基于DQN（深度Q网络，Deep Q Networks）中的动作价值网络和目标网络构建并训练深度强化学习智能体，深度强化学习智能体输出抽象动作，包括：

所述动作价值网络接收步骤（1）构建的环境特征数据的状态表征S，前馈得到当前环境下所述深度强化学习智能体将执行的抽象动作；同时目标网络前馈计算出该抽象动作的真实价值，采用时序差分学习（TD learning，Temporal-Difference Learning）将前后两次动作价值的差异反向传播更新动作价值网络，并用软更新（soft target updatepolicy）的方式更新目标网络。此外，在训练阶段会在动作价值网络中加入白噪声，增强智能体的泛化能力，在测试阶段剔除白噪声，以便智能体做出无干扰的决策。

（3）通过策略映射器接收深度强化学习智能体输出的抽象动作，将抽象动作映射成具体的可执行协同流量调度策略。

如图2所示，所述抽象动作包括连续型抽象动作和离散型抽象动作，分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略。

其中，将离散型抽象动作映射成具体的可执行协同流量调度策略，包括：

设所述计算任务总计N个计算阶段，且所述数据面可编程转发平台的端口队列数量为M个。

（3.1.1）所述深度强化学习智能体根据所述环境数据的状态表征S产生的离散型抽象动作，经过降维，其动作空间大小从1个1行

列的一维动作向量

减少到1个M行

列的动作矩阵

，其中

表示两两节点间的协同流量的通信阶段在数据面可编程转发平台中选择第j序号端口队列，将选择的第j序号端口队列作为可执行协同流量调度策略。

进一步地，考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵，同时在较简单的计算任务中存在大量两两节点之间没有协同流量待传输的情况，因此在所述（3.1.1）得到的动作矩阵

中加入掩码，即若所述策略映射器检测到所述邻接矩阵中节点间无待传输的协同流量，则将所述动作矩阵

中对应的整行元素调整为0。

其中，将连续型抽象动作映射成具体的可执行协同流量调度策略，包括：

（3.2.1）所述深度强化学习智能体根据所述环境数据的状态表征S产生的连续型抽象动作，经过降维，其动作空间大小从1个1行

列的一维动作向量

减少到1个1行

列的动作向量

；

（3.2.2）对动作向量

做归一化处理：

，则

表示两两节点间的协同流量的通信阶段在数据面可编程转发平台中选择第

序号端口队列，即得可执行协同流量调度策略。其中，

为取余运算。

进一步地，考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵，同时在较简单的计算任务中存在大量的两两节点间没有协同流量待传输的情况，因此在所述步骤（3.2.1）得到的动作向量

中加入掩码，即若所述策略映射器检测到所述邻接矩阵中节点间无待传输的协同流量，则将所述动作向量

中对应位置调整为0。

（5）通过策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励，根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差，对深度强化学习智能体进行迭代优化。

如图3所示，所述实时奖励包括分布式计算任务进行阶段对应的奖励值和分布式计算任务完成阶段对应的奖励激励。

其中，所述实时奖励为分布式计算任务进行阶段对应的奖励值，基于奖励值对深度强化学习智能体进行迭代优化的过程包括：

所述数据面可编程转发平台执行所述策略映射器产生的协同流量调度策略后，将任务完成时间返回所述深度强化学习智能体，作为其产生的连续（离散）抽象动作对应的奖励值，根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差，对深度强化学习智能体进行迭代优化。

其中，所述实时奖励为分布式计算任务完成阶段对应的奖励激励，基于奖励激励对深度强化学习智能体进行迭代优化的过程包括：

在所述分布式计算任务执行结束的最终时刻，测量分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时

，对比前后两次整体耗时

的差异，若该整体耗时

的差异小于自定义的精度阈值ε，则深度强化学习智能体达到收敛；若该整体耗时

的差异大于自定义的精度阈值ε，则迭代更新深度强化学习智能体。

迭代更新深度强化学习智能体的过程包括：计算分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时

与遵循先进先出（FIFO，First in First out）调度策略的整体耗时

的差距

=

，将差距

作为对深度强化学习智能体的激励放大，优化所述深度强化学习智能体，进一步引导所述深度强化学习智能体实现计算任务整体耗时最小化的调度目标。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于DQN的分布式计算网络协同流量调度方法。如图4所示，为本发明实施例提供的基于DQN的分布式计算网络协同流量调度方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于DQN的分布式计算网络协同流量调度方法，其特征在于，所述方法包括以下步骤：

（2）基于DQN中的动作价值网络和目标网络构建深度强化学习智能体，其中动作价值网络接收步骤（1）构建的环境特征数据，并训练深度强化学习智能体，深度强化学习智能体输出连续型抽象动作和离散型抽象动作；

（3）通过策略映射器接收深度强化学习智能体输出的连续型抽象动作和离散型抽象动作，将连续型抽象动作和离散型抽象动作映射成可执行协同流量调度策略；

2.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法，其特征在于，所述步骤（1）包括以下子步骤：

（1.1）基于有向无环图对具有依赖关系的分布式计算任务进行建模，通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系，其中邻接矩阵中的每个元素表示通信阶段的属性值；

（1.2）计算每个计算阶段的耗时作为计算阶段的属性值；

（1.3）度量得到数据面可编程转发平台中端口队列的拥塞情况；

（1.4）将步骤（1.1）得到的不同计算阶段之间的依赖关系、通信阶段的属性值，步骤（1.2）得到的计算阶段的属性值，步骤（1.3）中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据。

3.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法，其特征在于，所述步骤（2）包括：动作价值网络接收步骤（1）构建的环境特征数据，前馈得到当前深度强化学习智能体将执行的抽象动作；同时目标网络前馈计算出抽象动作的真实价值，采用时序差分学习将前后两次动作价值的差异反向传播更新动作价值网络，并用软更新的方式更新目标网络。

4.根据权利要求1述的基于DQN的分布式计算网络协同流量调度方法，其特征在于，将离散型抽象动作映射成可执行协同流量调度策略的过程，包括：

设所述计算任务总计N个计算阶段，且所述数据面可编程转发平台的端口队列数量为M个；

深度强化学习智能体根据步骤（1）构建的环境特征数据产生离散型抽象动作，经过降维，其动作空间大小从1个1行