CN115361301B - 一种基于dqn的分布式计算网络协同流量调度系统与方法 - Google Patents
一种基于dqn的分布式计算网络协同流量调度系统与方法 Download PDFInfo
- Publication number
- CN115361301B CN115361301B CN202211226856.1A CN202211226856A CN115361301B CN 115361301 B CN115361301 B CN 115361301B CN 202211226856 A CN202211226856 A CN 202211226856A CN 115361301 B CN115361301 B CN 115361301B
- Authority
- CN
- China
- Prior art keywords
- distributed computing
- reinforcement learning
- deep reinforcement
- strategy
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 79
- 230000002787 reinforcement Effects 0.000 claims abstract description 71
- 238000005457 optimization Methods 0.000 claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 239000003795 chemical substances by application Substances 0.000 claims description 69
- 238000004364 calculation method Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 8
- 230000005284 excitation Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 230000001902 propagating effect Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 5
- 230000007613 environmental effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/046—Network management architectures or arrangements comprising network management agents or mobile agents therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0894—Policy-based network configuration management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
- H04L41/082—Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Multi Processors (AREA)
Abstract
本发明公开了一种基于DQN的分布式计算网络协同流量调度系统与方法。所述方法包括:基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据,基于DQN中的动作价值网络和目标网络构建并训练深度强化学习智能体,深度强化学习智能体输出抽象动作;通过策略映射器接收抽象动作,并将其映射成可执行协同流量调度策略;数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循可执行协同流量调度策略产生的耗时之差,对深度强化学习智能体进行迭代优化。
Description
技术领域
本发明属于计算机网络流量仿真技术领域,尤其涉及一种基于DQN的分布式计算网络中协同流量调度系统与方法。
背景技术
分布式计算任务中,各个计算节点之间产生的大量通信数据流具有很高的并行性。因此,如何调度来自不同计算设备且在通信设备中交织的协同流量既能够有效节约时间和经济成本,也能够提升分布式计算任务的计算效率为后续基础性研究提供有力技术支持。
设计最优的协同流量调度方案是NP难问题。目前研究主要集中在两点,一方面只关注一个协同流量内部的数据流调度问题,然而一个分布式计算任务中不同的协同流量之间的依赖关系未得到充分考虑,因此仅在数据流层面对协同流量调度无法从整个计算任务层面优化完成时间,在实践中不具备很高的应用价值;另一方面从整个待调度任务层面进行优化,并将不同的协同流量之间的依赖关系纳入考虑范围,但大多为简化求解难度采用的是启发式算法,从而只能得到近似最优解,算法的性能有待提升。
发明内容
本发明的目的是针对现有技术不足,提出一种基于DQN的分布式计算网络中协同流量的调度方法。本发明在协同流量调度的场景下,设计了一种深度强化学习智能体所需的状态空间,并加入数据面可编程转发平台中端口队列的拥塞情况对环境特征进一步描述。同时,本发明将动作空间分成连续和离散讨论,并根据计算任务的邻接矩阵在动作向量(矩阵)中加入掩码。此外,本发明将计算任务完成时间作为单步奖励,并在计算任务执行结束最终时刻,设计了一种奖励增益函数对整个计算任务的激励放大,进一步引导DQN智能体实现计算任务整体耗时最小化的调度目标;
本发明是通过以下技术方案来实现的:本发明实施例的第一方面提供了一种基于DQN的分布式计算网络协同流量调度方法,所述方法包括以下步骤:
(1)基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;
(2)基于DQN中的动作价值网络和目标网络构建深度强化学习智能体,其中动作价值网络接收步骤(1)构建的环境特征数据,并训练深度强化学习智能体,深度强化学习智能体输出抽象动作;
(3)通过策略映射器接收深度强化学习智能体输出的抽象动作,将抽象动作映射成可执行协同流量调度策略;
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
本发明实施例的第二方面提供了一种基于DQN的分布式计算网络协同流量调度系统,用于实现上述的基于DQN的分布式计算网络协同流量调度方法,所述系统包括:
环境特征生成组件,基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
数据面可编程转发平台,用于识别自定义报文协议,根据策略映射器生成的可执行的协同流量调度策略进行报文转发,并度量网络拥塞情况;
深度强化学习智能体,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,生成包括连续型抽象动作和离散型抽象动作在内的抽象动作;
策略映射器,用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略:
策略增益器,用于记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
本发明实施例的第三方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于DQN的分布式计算网络协同流量调度方法。
与现有技术相比,本发明的有益效果是:本方法采用深度强化学习算法,设置了一种基于DQN的深度强化学习智能体与数据中心中待调度的分布式计算任务进行交互,最终给出使得计算任务整体耗时最小化的调度策略。本发明构建了一种深度强化学习智能体所需的环境特征数据,其中所包括的分布式计算任务计算阶段的属性值、通信阶段的属性值和数据面可编程转发平台中端口队列的拥塞情况,能够为智能体提供更多的环境信息;同时将智能体输出的抽象动作分成离散和连续进行讨论,并提出了一种策略映射器可以分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略,以便数据面可编程转发平台能够根据抽象动作映射得到的可执行协同流量调度策略进行报文的转发;此外本发明提出的策略增益器能够对整个计算任务的激励放大,进一步引导智能体实现计算任务整体耗时最小化的调度目标。本发明方法与其他的协同流量调度方法相比,能够不依赖于人工先验知识实现参数的自动调整,并且训练过程不需要传统监督学习中带标签的训练数据集,同时采用的深度神经网络能够对分布式计算任务分析计算,实现在较高复杂度的任务中快速分析求解,避免启发式算法中求解难度大的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于DQN的分布式计算网络中协同流量调度的结构框图;
图2是策略映射器的工作流程框图;
图3是策略增益器的工作流程框图;
图4为本发明实施例提供的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明提出了一种基于DQN的分布式计算网络协同流量调度系统,所述系统包括环境特征生成组件、数据面可编程转发平台、深度强化学习智能体、策略映射器以及策略增益器。
所述环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;所述数据面可编程转发平台度量信息包括端口队列的拥塞情况。
所述数据面可编程转发平台用于识别自定义报文协议并根据策略映射器生成的可执行的协同流量调度策略进行报文转发,还能度量网络拥塞情况。
所述深度强化学习智能体基于DQN中的动作价值网络和目标网络构建,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,并得到可执行的抽象动作,该可执行的抽象动作包括连续型抽象动作和离散型抽象动作。
所述策略映射器用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略。
所述策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
如图1所示,本发明提出了应用上述系统的基于DQN的分布式计算网络协同流量(Coflow, Coordinate Flow)调度方法,所述方法包括以下步骤:
(1)通过环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值。
具体包括以下子步骤:
(1.1)基于有向无环图(DAG,Directed Acyclic Graph)对具有依赖关系的分布式计算任务进行建模,通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系、通信阶段的属性值,具体为:
(1.4)将步骤(1.1)得到的不同计算阶段之间的依赖关系、通信阶段的属性值,步骤(1.2)得到的计算阶段的属性值,步骤(1.3)中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据,包括:
(2)基于DQN(深度Q网络,Deep Q Networks)中的动作价值网络和目标网络构建并训练深度强化学习智能体,深度强化学习智能体输出抽象动作,包括:
所述动作价值网络接收步骤(1)构建的环境特征数据的状态表征S,前馈得到当前环境下所述深度强化学习智能体将执行的抽象动作;同时目标网络前馈计算出该抽象动作的真实价值,采用时序差分学习(TD learning,Temporal-Difference Learning)将前后两次动作价值的差异反向传播更新动作价值网络,并用软更新(soft target updatepolicy)的方式更新目标网络。此外,在训练阶段会在动作价值网络中加入白噪声,增强智能体的泛化能力,在测试阶段剔除白噪声,以便智能体做出无干扰的决策。
(3)通过策略映射器接收深度强化学习智能体输出的抽象动作,将抽象动作映射成具体的可执行协同流量调度策略。
如图2所示,所述抽象动作包括连续型抽象动作和离散型抽象动作,分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略。
其中,将离散型抽象动作映射成具体的可执行协同流量调度策略,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个。
(3.1.1)所述深度强化学习智能体根据所述环境数据的状态表征S产生的离散型
抽象动作,经过降维,其动作空间大小从1个1行列的一维动作向量减少到1个M行列的动作矩阵,其中表示两两节点间的协同
流量的通信阶段在数据面可编程转发平台中选择第j序号端口队列,将选择的第j序号端口
队列作为可执行协同流量调度策略。
进一步地,考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵,
同时在较简单的计算任务中存在大量两两节点之间没有协同流量待传输的情况,因此在所
述(3.1.1)得到的动作矩阵中加入掩码,即若所述策略映射器检测到所述邻接矩阵中节
点间无待传输的协同流量,则将所述动作矩阵中对应的整行元素调整为0。
其中,将连续型抽象动作映射成具体的可执行协同流量调度策略,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个。
进一步地,考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵,
同时在较简单的计算任务中存在大量的两两节点间没有协同流量待传输的情况,因此在所
述步骤(3.2.1)得到的动作向量中加入掩码,即若所述策略映射器检测到所述邻接矩阵
中节点间无待传输的协同流量,则将所述动作向量中对应位置调整为0。
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
如图3所示,所述实时奖励包括分布式计算任务进行阶段对应的奖励值和分布式计算任务完成阶段对应的奖励激励。
其中,所述实时奖励为分布式计算任务进行阶段对应的奖励值,基于奖励值对深度强化学习智能体进行迭代优化的过程包括:
所述数据面可编程转发平台执行所述策略映射器产生的协同流量调度策略后,将任务完成时间返回所述深度强化学习智能体,作为其产生的连续(离散)抽象动作对应的奖励值,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
其中,所述实时奖励为分布式计算任务完成阶段对应的奖励激励,基于奖励激励对深度强化学习智能体进行迭代优化的过程包括:
在所述分布式计算任务执行结束的最终时刻,测量分布式计算任务遵循所述深度
强化学习智能体产生的调度策略产生的整体耗时,对比前后两次整体耗时的差异,若该整体耗时的差异小于自定义的精度阈值ε,则深度强化学习
智能体达到收敛;若该整体耗时的差异大于自定义的精度阈值ε,则迭代更新深度
强化学习智能体。
迭代更新深度强化学习智能体的过程包括:计算分布式计算任务遵循所述深度强
化学习智能体产生的调度策略产生的整体耗时与遵循先进先出(FIFO,First in
First out)调度策略的整体耗时的差距=,将差距作为对
深度强化学习智能体的激励放大,优化所述深度强化学习智能体,进一步引导所述深度强
化学习智能体实现计算任务整体耗时最小化的调度目标。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于DQN的分布式计算网络协同流量调度方法。如图4所示,为本发明实施例提供的基于DQN的分布式计算网络协同流量调度方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (9)
1.一种基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述方法包括以下步骤:
(1)基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;
(2)基于DQN中的动作价值网络和目标网络构建深度强化学习智能体,其中动作价值网络接收步骤(1)构建的环境特征数据,并训练深度强化学习智能体,深度强化学习智能体输出连续型抽象动作和离散型抽象动作;
(3)通过策略映射器接收深度强化学习智能体输出的连续型抽象动作和离散型抽象动作,将连续型抽象动作和离散型抽象动作映射成可执行协同流量调度策略;
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
2.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述步骤(1)包括以下子步骤:
(1.1)基于有向无环图对具有依赖关系的分布式计算任务进行建模,通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系,其中邻接矩阵中的每个元素表示通信阶段的属性值;
(1.2)计算每个计算阶段的耗时作为计算阶段的属性值;
(1.3)度量得到数据面可编程转发平台中端口队列的拥塞情况;
(1.4)将步骤(1.1)得到的不同计算阶段之间的依赖关系、通信阶段的属性值,步骤(1.2)得到的计算阶段的属性值,步骤(1.3)中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据。
3.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述步骤(2)包括:动作价值网络接收步骤(1)构建的环境特征数据,前馈得到当前深度强化学习智能体将执行的抽象动作;同时目标网络前馈计算出抽象动作的真实价值,采用时序差分学习将前后两次动作价值的差异反向传播更新动作价值网络,并用软更新的方式更新目标网络。
7.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,实时奖励包括分布式计算任务进行阶段对应的奖励值和分布式计算任务完成阶段对应的奖励激励;
其中,分布式计算任务完成阶段对应的奖励激励,基于奖励激励对深度强化学习智能体进行迭代优化的过程包括:
在所述分布式计算任务执行结束的时刻,测量分布式计算任务遵循深度强化学习智能
体产生的调度策略产生的整体耗时,对比前后两次整体耗时的差异,若该
整体耗时的差异小于自定义的精度阈值ε,则深度强化学习智能体达到收敛;若该
整体耗时的差异大于自定义的精度阈值ε,则迭代更新智能体;
8.一种基于DQN的分布式计算网络协同流量调度系统,用于实现上述权利要求1~7任一项所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述系统包括:
环境特征生成组件,基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
数据面可编程转发平台,用于识别自定义报文协议,根据策略映射器生成的可执行的协同流量调度策略进行报文转发,并度量网络拥塞情况;
深度强化学习智能体,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,生成包括连续型抽象动作和离散型抽象动作在内的抽象动作;
策略映射器,用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略;
策略增益器,用于记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于DQN的分布式计算网络协同流量调度方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211226856.1A CN115361301B (zh) | 2022-10-09 | 2022-10-09 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
US18/454,782 US20240129236A1 (en) | 2022-10-09 | 2023-08-23 | Dqn-based distributed computing network coordinate flow scheduling system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211226856.1A CN115361301B (zh) | 2022-10-09 | 2022-10-09 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115361301A CN115361301A (zh) | 2022-11-18 |
CN115361301B true CN115361301B (zh) | 2023-01-10 |
Family
ID=84007697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211226856.1A Active CN115361301B (zh) | 2022-10-09 | 2022-10-09 | 一种基于dqn的分布式计算网络协同流量调度系统与方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240129236A1 (zh) |
CN (1) | CN115361301B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115951989B (zh) * | 2023-03-15 | 2023-06-20 | 之江实验室 | 一种基于严格优先级的协同流量调度数值模拟方法与系统 |
CN116996443B (zh) * | 2023-09-25 | 2024-01-23 | 之江实验室 | 一种结合gnn和sac模型的网络协同流量调度方法与系统 |
CN116994693B (zh) * | 2023-09-27 | 2024-03-01 | 之江实验室 | 一种基于稳定性控制的医保统筹智能体的建模方法与系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102267316B1 (ko) * | 2019-03-05 | 2021-06-21 | 네이버랩스 주식회사 | 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템 |
CN112734172B (zh) * | 2020-12-25 | 2022-04-01 | 南京理工大学 | 一种基于时序差分的混合流水车间调度方法 |
CN112862281A (zh) * | 2021-01-26 | 2021-05-28 | 中国电力科学研究院有限公司 | 综合能源系统调度模型构建方法、装置、介质及电子设备 |
CN113254197B (zh) * | 2021-04-30 | 2023-02-03 | 西安电子科技大学 | 一种基于深度强化学习的网络资源调度方法及系统 |
US20220124543A1 (en) * | 2021-06-30 | 2022-04-21 | Oner Orhan | Graph neural network and reinforcement learning techniques for connection management |
CN114443249A (zh) * | 2022-01-17 | 2022-05-06 | 中山大学 | 一种基于深度强化学习的容器集群资源调度方法及系统 |
CN114567895A (zh) * | 2022-02-23 | 2022-05-31 | 重庆邮电大学 | 一种mec服务器集群的智能协同策略的实现方法 |
CN114615744A (zh) * | 2022-02-28 | 2022-06-10 | 湖北工业大学 | 一种知识迁移强化学习网络切片通感算资源协同优化方法 |
CN114637262B (zh) * | 2022-03-10 | 2022-11-15 | 天津科技大学 | 基于5g驱动的智能工厂数字孪生信息的决策控制方法及系统 |
-
2022
- 2022-10-09 CN CN202211226856.1A patent/CN115361301B/zh active Active
-
2023
- 2023-08-23 US US18/454,782 patent/US20240129236A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113589842A (zh) * | 2021-07-26 | 2021-11-02 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115361301A (zh) | 2022-11-18 |
US20240129236A1 (en) | 2024-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115361301B (zh) | 一种基于dqn的分布式计算网络协同流量调度系统与方法 | |
Chen et al. | An adaptive archive-based evolutionary framework for many-task optimization | |
Han et al. | Discrete evolutionary multi-objective optimization for energy-efficient blocking flow shop scheduling with setup time | |
US7418434B2 (en) | Forward-chaining inferencing | |
CN114756358B (zh) | 一种dag任务调度方法、装置、设备及存储介质 | |
Zhang et al. | DeepMAG: Deep reinforcement learning with multi-agent graphs for flexible job shop scheduling | |
Fox et al. | Parametrized hierarchical procedures for neural programming | |
Feng et al. | Improved biogeography-based optimization with random ring topology and Powell's method | |
Jawarneh et al. | Sequential insertion heuristic with adaptive bee colony optimisation algorithm for vehicle routing problem with time windows | |
CN115951989B (zh) | 一种基于严格优先级的协同流量调度数值模拟方法与系统 | |
CN109657794B (zh) | 一种基于指令队列的分布式深度神经网络性能建模方法 | |
Sinclair et al. | Adaptive discretization in online reinforcement learning | |
CN114297934A (zh) | 一种基于代理模型的模型参数并行仿真优化方法及装置 | |
CN117193988A (zh) | 一种晶圆级架构ai加速芯片的任务调度方法及介质 | |
CN116009990B (zh) | 基于宽注意力机制的云边协同元强化学习计算卸载方法 | |
CN111401551A (zh) | 基于强化学习的弱监督自学习方法 | |
Hönig | A firefly algorithm-based approach for scheduling task graphs in homogeneous systems | |
EP4246375A1 (en) | Model processing method and related device | |
CN115022231A (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
CN116996443B (zh) | 一种结合gnn和sac模型的网络协同流量调度方法与系统 | |
US20230168873A1 (en) | Scheduling apparatus, training apparatus, scheduler and generation method | |
WO2024066808A1 (zh) | 量子线路生成方法、装置、存储介质及电子装置 | |
Rupprecht et al. | Collective motion of predictive swarms | |
US20240095640A1 (en) | Energy cost reduction of metaverse operations | |
Yu et al. | An improved platform for multi-agent based stock market simulation in distributed environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |