CN115361301B - 一种基于dqn的分布式计算网络协同流量调度系统与方法 - Google Patents

一种基于dqn的分布式计算网络协同流量调度系统与方法 Download PDF

Info

Publication number
CN115361301B
CN115361301B CN202211226856.1A CN202211226856A CN115361301B CN 115361301 B CN115361301 B CN 115361301B CN 202211226856 A CN202211226856 A CN 202211226856A CN 115361301 B CN115361301 B CN 115361301B
Authority
CN
China
Prior art keywords
distributed computing
reinforcement learning
deep reinforcement
strategy
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211226856.1A
Other languages
English (en)
Other versions
CN115361301A (zh
Inventor
冯前
梁元
肖戈扬
衣晓玉
邹涛
张汝云
蒋忞昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211226856.1A priority Critical patent/CN115361301B/zh
Publication of CN115361301A publication Critical patent/CN115361301A/zh
Application granted granted Critical
Publication of CN115361301B publication Critical patent/CN115361301B/zh
Priority to US18/454,782 priority patent/US20240129236A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0894Policy-based network configuration management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种基于DQN的分布式计算网络协同流量调度系统与方法。所述方法包括:基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据,基于DQN中的动作价值网络和目标网络构建并训练深度强化学习智能体,深度强化学习智能体输出抽象动作;通过策略映射器接收抽象动作,并将其映射成可执行协同流量调度策略;数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循可执行协同流量调度策略产生的耗时之差,对深度强化学习智能体进行迭代优化。

Description

一种基于DQN的分布式计算网络协同流量调度系统与方法
技术领域
本发明属于计算机网络流量仿真技术领域,尤其涉及一种基于DQN的分布式计算网络中协同流量调度系统与方法。
背景技术
分布式计算任务中,各个计算节点之间产生的大量通信数据流具有很高的并行性。因此,如何调度来自不同计算设备且在通信设备中交织的协同流量既能够有效节约时间和经济成本,也能够提升分布式计算任务的计算效率为后续基础性研究提供有力技术支持。
设计最优的协同流量调度方案是NP难问题。目前研究主要集中在两点,一方面只关注一个协同流量内部的数据流调度问题,然而一个分布式计算任务中不同的协同流量之间的依赖关系未得到充分考虑,因此仅在数据流层面对协同流量调度无法从整个计算任务层面优化完成时间,在实践中不具备很高的应用价值;另一方面从整个待调度任务层面进行优化,并将不同的协同流量之间的依赖关系纳入考虑范围,但大多为简化求解难度采用的是启发式算法,从而只能得到近似最优解,算法的性能有待提升。
发明内容
本发明的目的是针对现有技术不足,提出一种基于DQN的分布式计算网络中协同流量的调度方法。本发明在协同流量调度的场景下,设计了一种深度强化学习智能体所需的状态空间,并加入数据面可编程转发平台中端口队列的拥塞情况对环境特征进一步描述。同时,本发明将动作空间分成连续和离散讨论,并根据计算任务的邻接矩阵在动作向量(矩阵)中加入掩码。此外,本发明将计算任务完成时间作为单步奖励,并在计算任务执行结束最终时刻,设计了一种奖励增益函数对整个计算任务的激励放大,进一步引导DQN智能体实现计算任务整体耗时最小化的调度目标;
本发明是通过以下技术方案来实现的:本发明实施例的第一方面提供了一种基于DQN的分布式计算网络协同流量调度方法,所述方法包括以下步骤:
(1)基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;
(2)基于DQN中的动作价值网络和目标网络构建深度强化学习智能体,其中动作价值网络接收步骤(1)构建的环境特征数据,并训练深度强化学习智能体,深度强化学习智能体输出抽象动作;
(3)通过策略映射器接收深度强化学习智能体输出的抽象动作,将抽象动作映射成可执行协同流量调度策略;
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
本发明实施例的第二方面提供了一种基于DQN的分布式计算网络协同流量调度系统,用于实现上述的基于DQN的分布式计算网络协同流量调度方法,所述系统包括:
环境特征生成组件,基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
数据面可编程转发平台,用于识别自定义报文协议,根据策略映射器生成的可执行的协同流量调度策略进行报文转发,并度量网络拥塞情况;
深度强化学习智能体,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,生成包括连续型抽象动作和离散型抽象动作在内的抽象动作;
策略映射器,用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略:
策略增益器,用于记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
本发明实施例的第三方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于DQN的分布式计算网络协同流量调度方法。
与现有技术相比,本发明的有益效果是:本方法采用深度强化学习算法,设置了一种基于DQN的深度强化学习智能体与数据中心中待调度的分布式计算任务进行交互,最终给出使得计算任务整体耗时最小化的调度策略。本发明构建了一种深度强化学习智能体所需的环境特征数据,其中所包括的分布式计算任务计算阶段的属性值、通信阶段的属性值和数据面可编程转发平台中端口队列的拥塞情况,能够为智能体提供更多的环境信息;同时将智能体输出的抽象动作分成离散和连续进行讨论,并提出了一种策略映射器可以分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略,以便数据面可编程转发平台能够根据抽象动作映射得到的可执行协同流量调度策略进行报文的转发;此外本发明提出的策略增益器能够对整个计算任务的激励放大,进一步引导智能体实现计算任务整体耗时最小化的调度目标。本发明方法与其他的协同流量调度方法相比,能够不依赖于人工先验知识实现参数的自动调整,并且训练过程不需要传统监督学习中带标签的训练数据集,同时采用的深度神经网络能够对分布式计算任务分析计算,实现在较高复杂度的任务中快速分析求解,避免启发式算法中求解难度大的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的基于DQN的分布式计算网络中协同流量调度的结构框图;
图2是策略映射器的工作流程框图;
图3是策略增益器的工作流程框图;
图4为本发明实施例提供的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明提出了一种基于DQN的分布式计算网络协同流量调度系统,所述系统包括环境特征生成组件、数据面可编程转发平台、深度强化学习智能体、策略映射器以及策略增益器。
所述环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;所述数据面可编程转发平台度量信息包括端口队列的拥塞情况。
所述数据面可编程转发平台用于识别自定义报文协议并根据策略映射器生成的可执行的协同流量调度策略进行报文转发,还能度量网络拥塞情况。
所述深度强化学习智能体基于DQN中的动作价值网络和目标网络构建,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,并得到可执行的抽象动作,该可执行的抽象动作包括连续型抽象动作和离散型抽象动作。
所述策略映射器用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略。
所述策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
如图1所示,本发明提出了应用上述系统的基于DQN的分布式计算网络协同流量(Coflow, Coordinate Flow)调度方法,所述方法包括以下步骤:
(1)通过环境特征生成组件基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值。
具体包括以下子步骤:
(1.1)基于有向无环图(DAG,Directed Acyclic Graph)对具有依赖关系的分布式计算任务进行建模,通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系、通信阶段的属性值,具体为:
构建邻接矩阵
Figure 337045DEST_PATH_IMAGE001
表示分布式计算任务中不同计算阶段之间的依赖关系,其中邻接 矩阵
Figure 368455DEST_PATH_IMAGE002
中的每个元素表示不同计算阶段之间的协同流量大小即通信阶段的属性值。
(1.2)计算每个计算阶段的耗时作为计算阶段的属性值,记为1个一维向量
Figure 257913DEST_PATH_IMAGE003
(1.3)通过网路度量得到数据面可编程转发平台中端口队列的拥塞情况。将端口 队列中仍未传输的流量大小抽象成1个一维向量
Figure 71761DEST_PATH_IMAGE004
,若为初始状态则
Figure 654052DEST_PATH_IMAGE004
为空。
(1.4)将步骤(1.1)得到的不同计算阶段之间的依赖关系、通信阶段的属性值,步骤(1.2)得到的计算阶段的属性值,步骤(1.3)中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据,包括:
将表示通信阶段的临界矩阵
Figure 172758DEST_PATH_IMAGE005
做拉直运算
Figure 662645DEST_PATH_IMAGE006
、表示计算阶段的一维向量
Figure 192984DEST_PATH_IMAGE007
和表示数据面可编程转发平台中端口队列拥塞情况的一维向量
Figure 821542DEST_PATH_IMAGE004
拼接作为当前所 述环境特征数据的状态表征
Figure 702911DEST_PATH_IMAGE008
(2)基于DQN(深度Q网络,Deep Q Networks)中的动作价值网络和目标网络构建并训练深度强化学习智能体,深度强化学习智能体输出抽象动作,包括:
所述动作价值网络接收步骤(1)构建的环境特征数据的状态表征S,前馈得到当前环境下所述深度强化学习智能体将执行的抽象动作;同时目标网络前馈计算出该抽象动作的真实价值,采用时序差分学习(TD learning,Temporal-Difference Learning)将前后两次动作价值的差异反向传播更新动作价值网络,并用软更新(soft target updatepolicy)的方式更新目标网络。此外,在训练阶段会在动作价值网络中加入白噪声,增强智能体的泛化能力,在测试阶段剔除白噪声,以便智能体做出无干扰的决策。
(3)通过策略映射器接收深度强化学习智能体输出的抽象动作,将抽象动作映射成具体的可执行协同流量调度策略。
如图2所示,所述抽象动作包括连续型抽象动作和离散型抽象动作,分别将连续型抽象动作、离散型抽象动作映射成具体的可执行协同流量调度策略。
其中,将离散型抽象动作映射成具体的可执行协同流量调度策略,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个。
(3.1.1)所述深度强化学习智能体根据所述环境数据的状态表征S产生的离散型 抽象动作,经过降维,其动作空间大小从1个1行
Figure 58806DEST_PATH_IMAGE009
列的一维动作向量
Figure 709230DEST_PATH_IMAGE010
减少到1个M行
Figure 243111DEST_PATH_IMAGE011
列的动作矩阵
Figure 408513DEST_PATH_IMAGE012
,其中
Figure 443465DEST_PATH_IMAGE013
表示两两节点间的协同 流量的通信阶段在数据面可编程转发平台中选择第j序号端口队列,将选择的第j序号端口 队列作为可执行协同流量调度策略。
进一步地,考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵, 同时在较简单的计算任务中存在大量两两节点之间没有协同流量待传输的情况,因此在所 述(3.1.1)得到的动作矩阵
Figure 338608DEST_PATH_IMAGE012
中加入掩码,即若所述策略映射器检测到所述邻接矩阵中节 点间无待传输的协同流量,则将所述动作矩阵
Figure 168024DEST_PATH_IMAGE012
中对应的整行元素调整为0。
其中,将连续型抽象动作映射成具体的可执行协同流量调度策略,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个。
(3.2.1)所述深度强化学习智能体根据所述环境数据的状态表征S产生的连续型 抽象动作,经过降维,其动作空间大小从1个1行
Figure 899351DEST_PATH_IMAGE009
列的一维动作向量
Figure 737994DEST_PATH_IMAGE010
减少到1个1行
Figure 956486DEST_PATH_IMAGE014
列的动作向量
Figure 222382DEST_PATH_IMAGE012
(3.2.2)对动作向量
Figure 172496DEST_PATH_IMAGE012
做归一化处理:
Figure 814830DEST_PATH_IMAGE015
,则
Figure 418986DEST_PATH_IMAGE016
表示两两节点间的协同流量的通信阶段在数据面可编程转发平台中 选择第
Figure 652522DEST_PATH_IMAGE017
序号端口队列,即得可执行协同流量调度策略。其中,
Figure 217495DEST_PATH_IMAGE018
为取余运算。
进一步地,考虑到有向无环图构建的邻接矩阵只能是上三角矩阵或下三角矩阵, 同时在较简单的计算任务中存在大量的两两节点间没有协同流量待传输的情况,因此在所 述步骤(3.2.1)得到的动作向量
Figure 273307DEST_PATH_IMAGE012
中加入掩码,即若所述策略映射器检测到所述邻接矩阵 中节点间无待传输的协同流量,则将所述动作向量
Figure 341757DEST_PATH_IMAGE012
中对应位置调整为0。
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
如图3所示,所述实时奖励包括分布式计算任务进行阶段对应的奖励值和分布式计算任务完成阶段对应的奖励激励。
其中,所述实时奖励为分布式计算任务进行阶段对应的奖励值,基于奖励值对深度强化学习智能体进行迭代优化的过程包括:
所述数据面可编程转发平台执行所述策略映射器产生的协同流量调度策略后,将任务完成时间返回所述深度强化学习智能体,作为其产生的连续(离散)抽象动作对应的奖励值,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
其中,所述实时奖励为分布式计算任务完成阶段对应的奖励激励,基于奖励激励对深度强化学习智能体进行迭代优化的过程包括:
在所述分布式计算任务执行结束的最终时刻,测量分布式计算任务遵循所述深度 强化学习智能体产生的调度策略产生的整体耗时
Figure 74090DEST_PATH_IMAGE019
,对比前后两次整体耗时
Figure 126360DEST_PATH_IMAGE019
的差异,若该整体耗时
Figure 720283DEST_PATH_IMAGE019
的差异小于自定义的精度阈值ε,则深度强化学习 智能体达到收敛;若该整体耗时
Figure 174398DEST_PATH_IMAGE019
的差异大于自定义的精度阈值ε,则迭代更新深度 强化学习智能体。
迭代更新深度强化学习智能体的过程包括:计算分布式计算任务遵循所述深度强 化学习智能体产生的调度策略产生的整体耗时
Figure 749736DEST_PATH_IMAGE019
与遵循先进先出(FIFO,First in First out)调度策略的整体耗时
Figure 413935DEST_PATH_IMAGE020
的差距
Figure 936184DEST_PATH_IMAGE021
=
Figure 120171DEST_PATH_IMAGE022
,将差距
Figure 804094DEST_PATH_IMAGE021
作为对 深度强化学习智能体的激励放大,优化所述深度强化学习智能体,进一步引导所述深度强 化学习智能体实现计算任务整体耗时最小化的调度目标。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于DQN的分布式计算网络协同流量调度方法。如图4所示,为本发明实施例提供的基于DQN的分布式计算网络协同流量调度方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (9)

1.一种基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述方法包括以下步骤:
(1)基于分布式计算任务信息和数据面可编程转发平台中端口队列的拥塞情况构建环境特征数据;所述分布式计算任务信息包括不同计算阶段之间的依赖关系、通信阶段的属性值、计算阶段的属性值;
(2)基于DQN中的动作价值网络和目标网络构建深度强化学习智能体,其中动作价值网络接收步骤(1)构建的环境特征数据,并训练深度强化学习智能体,深度强化学习智能体输出连续型抽象动作和离散型抽象动作;
(3)通过策略映射器接收深度强化学习智能体输出的连续型抽象动作和离散型抽象动作,将连续型抽象动作和离散型抽象动作映射成可执行协同流量调度策略;
(4)数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
(5)通过策略增益器记录分布式计算任务完成时间作为深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循深度强化学习智能体产生的可执行协同流量调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
2.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述步骤(1)包括以下子步骤:
(1.1)基于有向无环图对具有依赖关系的分布式计算任务进行建模,通过构建邻接矩阵表示分布式计算任务中不同计算阶段之间的依赖关系,其中邻接矩阵中的每个元素表示通信阶段的属性值;
(1.2)计算每个计算阶段的耗时作为计算阶段的属性值;
(1.3)度量得到数据面可编程转发平台中端口队列的拥塞情况;
(1.4)将步骤(1.1)得到的不同计算阶段之间的依赖关系、通信阶段的属性值,步骤(1.2)得到的计算阶段的属性值,步骤(1.3)中数据面可编程转发平台中端口队列表示拥塞情况的向量拼接成环境特征数据。
3.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述步骤(2)包括:动作价值网络接收步骤(1)构建的环境特征数据,前馈得到当前深度强化学习智能体将执行的抽象动作;同时目标网络前馈计算出抽象动作的真实价值,采用时序差分学习将前后两次动作价值的差异反向传播更新动作价值网络,并用软更新的方式更新目标网络。
4.根据权利要求1述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,将离散型抽象动作映射成可执行协同流量调度策略的过程,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个;
深度强化学习智能体根据步骤(1)构建的环境特征数据产生离散型抽象动作,经过降 维,其动作空间大小从1个1行
Figure 9220DEST_PATH_IMAGE001
列的一维动作向量
Figure 437927DEST_PATH_IMAGE002
减少到1个M行
Figure 558330DEST_PATH_IMAGE003
列的动作矩阵
Figure 462701DEST_PATH_IMAGE004
,其中
Figure 592331DEST_PATH_IMAGE005
表示两两节点间的协同流量的通信阶段在 数据面可编程转发平台中选择第j序号端口队列,将选择的第j序号端口队列作为可执行协 同流量调度策略。
5.根据权利要求1述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,将连续型抽象动作映射成可执行协同流量调度策略的过程,包括:
设所述计算任务总计N个计算阶段,且所述数据面可编程转发平台的端口队列数量为M个;
深度强化学习智能体根据步骤(1)构建的环境特征数据产生连续型抽象动作,经过降 维,其动作空间大小从1个1行
Figure 609966DEST_PATH_IMAGE001
列的一维动作向量
Figure 557062DEST_PATH_IMAGE002
减少到1个1行
Figure 292937DEST_PATH_IMAGE003
列的动作向量
Figure 226258DEST_PATH_IMAGE004
对动作向量
Figure 990077DEST_PATH_IMAGE004
做归一化处理,则经过归一化处理后的动作向量
Figure 717861DEST_PATH_IMAGE004
中的每个元素
Figure 206611DEST_PATH_IMAGE006
表示两两节点间的协同流量的通信阶段在数据面可编程转发平台中 选择第
Figure 802678DEST_PATH_IMAGE007
序号端口队列,将选择的第
Figure 794905DEST_PATH_IMAGE007
序号端口队列作为可执行协同流量 调度策略。
6.据权利要求4或5所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于, 将离散型抽象动作映射成可执行协同流量调度策略的过程还包括:在动作矩阵
Figure 959170DEST_PATH_IMAGE004
中加入 掩码;
将连续型抽象动作映射成可执行协同流量调度策略的过程还包括:在动作向量
Figure 528691DEST_PATH_IMAGE004
中 加入掩码。
7.根据权利要求1所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,实时奖励包括分布式计算任务进行阶段对应的奖励值和分布式计算任务完成阶段对应的奖励激励;
其中,分布式计算任务完成阶段对应的奖励激励,基于奖励激励对深度强化学习智能体进行迭代优化的过程包括:
在所述分布式计算任务执行结束的时刻,测量分布式计算任务遵循深度强化学习智能 体产生的调度策略产生的整体耗时
Figure 803815DEST_PATH_IMAGE008
,对比前后两次整体耗时
Figure 181707DEST_PATH_IMAGE009
的差异,若该 整体耗时
Figure 375928DEST_PATH_IMAGE008
的差异小于自定义的精度阈值ε,则深度强化学习智能体达到收敛;若该 整体耗时
Figure 573691DEST_PATH_IMAGE008
的差异大于自定义的精度阈值ε,则迭代更新智能体;
迭代更新深度强化学习智能体的过程包括:计算分布式计算任务遵循所述深度强化学 习智能体产生的调度策略产生的整体耗时
Figure 386926DEST_PATH_IMAGE008
与遵循先进先出调度策略的整体耗时
Figure 976914DEST_PATH_IMAGE010
的差距
Figure 217402DEST_PATH_IMAGE011
=
Figure 27095DEST_PATH_IMAGE012
,将差距
Figure 644022DEST_PATH_IMAGE011
作为对深度强化学习智能体的激励放大, 优化深度强化学习智能体。
8.一种基于DQN的分布式计算网络协同流量调度系统,用于实现上述权利要求1~7任一项所述的基于DQN的分布式计算网络协同流量调度方法,其特征在于,所述系统包括:
环境特征生成组件,基于分布式计算任务信息和数据面可编程转发平台度量信息构建环境特征数据,同时数据面可编程转发平台执行策略映射器生成的可执行协同流量调度策略,并更新端口队列的拥塞情况;
数据面可编程转发平台,用于识别自定义报文协议,根据策略映射器生成的可执行的协同流量调度策略进行报文转发,并度量网络拥塞情况;
深度强化学习智能体,用于将所述环境特征生成组件产生的环境特征数据进行前馈计算,生成包括连续型抽象动作和离散型抽象动作在内的抽象动作;
策略映射器,用于将所述深度强化学习智能体生成的连续型抽象动作、离散型抽象动作映射为所述数据面可编程转发平台可执行的具体的协同流量调度策略;
策略增益器,用于记录分布式计算任务完成时间作为所述深度强化学习智能体的实时奖励,根据前后两次分布式计算任务遵循所述深度强化学习智能体产生的调度策略产生的整体耗时之差,对深度强化学习智能体进行迭代优化。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-7任一项所述的基于DQN的分布式计算网络协同流量调度方法。
CN202211226856.1A 2022-10-09 2022-10-09 一种基于dqn的分布式计算网络协同流量调度系统与方法 Active CN115361301B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211226856.1A CN115361301B (zh) 2022-10-09 2022-10-09 一种基于dqn的分布式计算网络协同流量调度系统与方法
US18/454,782 US20240129236A1 (en) 2022-10-09 2023-08-23 Dqn-based distributed computing network coordinate flow scheduling system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226856.1A CN115361301B (zh) 2022-10-09 2022-10-09 一种基于dqn的分布式计算网络协同流量调度系统与方法

Publications (2)

Publication Number Publication Date
CN115361301A CN115361301A (zh) 2022-11-18
CN115361301B true CN115361301B (zh) 2023-01-10

Family

ID=84007697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226856.1A Active CN115361301B (zh) 2022-10-09 2022-10-09 一种基于dqn的分布式计算网络协同流量调度系统与方法

Country Status (2)

Country Link
US (1) US20240129236A1 (zh)
CN (1) CN115361301B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951989B (zh) * 2023-03-15 2023-06-20 之江实验室 一种基于严格优先级的协同流量调度数值模拟方法与系统
CN116996443B (zh) * 2023-09-25 2024-01-23 之江实验室 一种结合gnn和sac模型的网络协同流量调度方法与系统
CN116994693B (zh) * 2023-09-27 2024-03-01 之江实验室 一种基于稳定性控制的医保统筹智能体的建模方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102267316B1 (ko) * 2019-03-05 2021-06-21 네이버랩스 주식회사 심층 강화 학습에 기반한 자율주행 에이전트의 학습 방법 및 시스템
CN112734172B (zh) * 2020-12-25 2022-04-01 南京理工大学 一种基于时序差分的混合流水车间调度方法
CN112862281A (zh) * 2021-01-26 2021-05-28 中国电力科学研究院有限公司 综合能源系统调度模型构建方法、装置、介质及电子设备
CN113254197B (zh) * 2021-04-30 2023-02-03 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
US20220124543A1 (en) * 2021-06-30 2022-04-21 Oner Orhan Graph neural network and reinforcement learning techniques for connection management
CN114443249A (zh) * 2022-01-17 2022-05-06 中山大学 一种基于深度强化学习的容器集群资源调度方法及系统
CN114567895A (zh) * 2022-02-23 2022-05-31 重庆邮电大学 一种mec服务器集群的智能协同策略的实现方法
CN114615744A (zh) * 2022-02-28 2022-06-10 湖北工业大学 一种知识迁移强化学习网络切片通感算资源协同优化方法
CN114637262B (zh) * 2022-03-10 2022-11-15 天津科技大学 基于5g驱动的智能工厂数字孪生信息的决策控制方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113589842A (zh) * 2021-07-26 2021-11-02 中国电子科技集团公司第五十四研究所 一种基于多智能体强化学习的无人集群任务协同方法

Also Published As

Publication number Publication date
CN115361301A (zh) 2022-11-18
US20240129236A1 (en) 2024-04-18

Similar Documents

Publication Publication Date Title
CN115361301B (zh) 一种基于dqn的分布式计算网络协同流量调度系统与方法
Chen et al. An adaptive archive-based evolutionary framework for many-task optimization
Han et al. Discrete evolutionary multi-objective optimization for energy-efficient blocking flow shop scheduling with setup time
US7418434B2 (en) Forward-chaining inferencing
CN114756358B (zh) 一种dag任务调度方法、装置、设备及存储介质
Zhang et al. DeepMAG: Deep reinforcement learning with multi-agent graphs for flexible job shop scheduling
Fox et al. Parametrized hierarchical procedures for neural programming
Feng et al. Improved biogeography-based optimization with random ring topology and Powell's method
Jawarneh et al. Sequential insertion heuristic with adaptive bee colony optimisation algorithm for vehicle routing problem with time windows
CN115951989B (zh) 一种基于严格优先级的协同流量调度数值模拟方法与系统
CN109657794B (zh) 一种基于指令队列的分布式深度神经网络性能建模方法
Sinclair et al. Adaptive discretization in online reinforcement learning
CN114297934A (zh) 一种基于代理模型的模型参数并行仿真优化方法及装置
CN117193988A (zh) 一种晶圆级架构ai加速芯片的任务调度方法及介质
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN111401551A (zh) 基于强化学习的弱监督自学习方法
Hönig A firefly algorithm-based approach for scheduling task graphs in homogeneous systems
EP4246375A1 (en) Model processing method and related device
CN115022231A (zh) 一种基于深度强化学习的最优路径规划的方法和系统
CN116996443B (zh) 一种结合gnn和sac模型的网络协同流量调度方法与系统
US20230168873A1 (en) Scheduling apparatus, training apparatus, scheduler and generation method
WO2024066808A1 (zh) 量子线路生成方法、装置、存储介质及电子装置
Rupprecht et al. Collective motion of predictive swarms
US20240095640A1 (en) Energy cost reduction of metaverse operations
Yu et al. An improved platform for multi-agent based stock market simulation in distributed environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant