CN116582502A - 一种基于TD3算法的Coflow调度系统 - Google Patents

一种基于TD3算法的Coflow调度系统 Download PDF

Info

Publication number
CN116582502A
CN116582502A CN202310536045.XA CN202310536045A CN116582502A CN 116582502 A CN116582502 A CN 116582502A CN 202310536045 A CN202310536045 A CN 202310536045A CN 116582502 A CN116582502 A CN 116582502A
Authority
CN
China
Prior art keywords
coflow
network
environment
action
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310536045.XA
Other languages
English (en)
Inventor
黄婵颖
王子超
李千目
颜克冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN202310536045.XA priority Critical patent/CN116582502A/zh
Publication of CN116582502A publication Critical patent/CN116582502A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/6295Queue scheduling characterised by scheduling criteria using multiple queues, one for each individual QoS, connection, flow or priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/52Queue scheduling by attributing bandwidth to queues
    • H04L47/522Dynamic queue service slot or variable bandwidth allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/622Queue service order
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/625Queue scheduling characterised by scheduling criteria for service slots or service orders
    • H04L47/6275Queue scheduling characterised by scheduling criteria for service slots or service orders based on priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/625Queue scheduling characterised by scheduling criteria for service slots or service orders
    • H04L47/628Queue scheduling characterised by scheduling criteria for service slots or service orders based on packet size, e.g. shortest packet first
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于TD3算法的Coflow调度系统,该系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块,其中:预处理模块用于在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;马尔可夫模型构建模块用于建立基于Coflow深度强化学习的马尔可夫模型,定义动作、环境状态、奖励函数;模型训练模块使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到最终的模型和策略函数;通信模块使用得到的模型和策略函数,对分布式机器学习中的Coflow进行通信。本发明能够自适应的调整多级反馈队列的阈值,更好的适应不同分布式应用场景,从而扩大适用范围、提高调度效率。

Description

一种基于TD3算法的Coflow调度系统
技术领域
本发明涉及Coflow队列调度技术,特别是一种基于TD3算法的Coflow调度系统。
背景技术
近年来,由于数据中心网络的数据量和机器学习的复杂程度呈指数级的增长,单台计算机已无法满足所需要的计算性能,所以分布式机器学习的运行越来越广泛,但是不同机器之间的信息交互存在着诸多问题,使用单一的Flow存在着描述复杂等缺陷。
为解决单一Flow的缺陷,研究人员提出Coflow的概念,这些应用程序通常会生成一组从mapper到reduce的被称为Coflow的并行流,集合中每条单独流量被称为这个Coflow的一条子流(Flow)。Coflow中的Flow与Flow之间存在语义相关,具有协作完成的共同目标,当属于Coflow的所有Flows传输完成,该Coflow即为完成传输。
调度优化Coflow的方法主要有Varys,Aalo,CODA等,所研究的重点主要分为集中式与分布式、有先验知识和无先验知识、效率优先和公平优先等几个方面。最早在2014年所提出的Varys是具有先验知识的,而后续所提出的Aalo、CODA等都是无先验知识的。
Aalo主要思想是使用多级反馈队列(Multi-Level Feedback Queuing,MLFQ)的方法进行分配Coflow的优先级从而实现调度。MLFQ使用固定的阈值将Coflow按照大小进行划分优先级,将Coflow分配到不同的优先级队列中,不同的队列之间使用对Coflow大小敏感的CLAS调度,同一队列中使用先来先服务(FIFO)的方法。
由于MLFQ通常使用的是固定阈值,导致它不适用于所有应用场景,尤其是对数据类型多变、系统灵活性要求很高的分布式机器学习场景,因此需要将固定阈值转化为可变阈值以提高MLFQ的鲁棒性。通过手动调整实现阈值动态变化虽然具有一定效果,但是其优化周期长,且面临工作量大的问题,实现起来比较困难。
发明内容
本发明的目的在于提供一种基于TD3算法的Coflow调度系统,对Coflow多级反馈队列的阈值进行自适应优化,可以根据使用场景不同实现阈值自动调整,以降低平均Coflow完成时间从而提升分布式机器学习之间的通信效率。
实现本发明目的的技术解决方案为:一种基于TD3算法的Coflow调度系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块,所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块,其中:
所述预处理模块,用于在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;
所述马尔可夫模型构建模块,用于建立基于Coflow深度强化学习的马尔可夫模型,定义动作、环境状态、奖励函数;
所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到最终的模型和策略函数;
所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信。
本发明与现有技术相比,其显著优点是:
(1)将固定阈值的多级反馈队列改进为自适应阈值的多级反馈队列,能够适用于更广泛的场景,提高系统的鲁棒性,能够有效的降低通信传输时间,降低传输开销;
(2)提出了基于Coflow的奖励函数,能够有效的对所采用的动作效果进行反馈,提高系统训练效率;
(3)对Coflow进行环境建模,并使用深度强化学习TD3算法,使用减枝的方法在单位时间内探索的动作范围更广泛,并且使用并行的批评家网络能避免过估计的问题;使用延迟更新能够稳定Coflow中的Q值从而减少错误更新。
附图说明
图1为Coflow多级反馈队列示意图。
图2为TD3算法网络架构图。
图3为基于TD3算法的Coflow调度流程图。
图4为Actor神经网络结构图。
图5为Critic神经网络结构图。
图6为Coflow平均完成时间效果对比图。
具体实施方式
容易理解,依据本发明的技术方案,在不变更本发明的实质精神的情况下,本领域的一般技术人员可以想象出本发明的多种实施方式。因此,以下具体实施方式和附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
本发明提供一种基于TD3算法的Coflow调度系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块,所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块,其中:
所述预处理模块,用于在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;
所述马尔可夫模型构建模块,用于建立基于Coflow深度强化学习的马尔可夫模型,定义动作、环境状态、奖励函数;
所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到最终的模型和策略函数;
所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信。
作为一种具体示例,预处理模块对信息进行预处理,包括:针对所得到的Coflow信息,提取Coflow信息的大小、包括的流个数、到达时间、持续时间。
作为一种具体示例,马尔可夫模型构建模块包括动作定义单元、环境状态定义单元、奖励函数定义单元,其中:
所述动作定义单元,用于定义基于Coflow深度强化学习中的动作,将多级反馈队列的每个阈值放在同一个集合中{TH1,TH2,…,THn},以直接调整多级反馈队列阈值作为动作;
所述环境状态定义单元,用于定义基于Coflow深度强化学习中的环境状态,将Coflow的大小、包括的流个数、到达时间、持续时间,按多维数组形式表示为环境的状态信息;
所述奖励函数定义单元,用于定义基于Coflow深度强化学习中的奖励函数,对当前环境所实施的动作进行评分。
作为一种具体示例,所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,具体包括:
策略函数初始化单元,用于将策略函数的参数首先设置为默认值;
环境状态初始化单元,用于从环境状态中选取初始时刻的信息,作为当前的环境状态信息;
环境状态更新单元,用于使用TD3算法,对当前环境状态信息使用深度神经网络处理,根据策略函数对当前的环境状态生成对应的动作,并产生新的环境状态;
动作评价单元,用于根据环境状态的改变,计算得到对应的奖励函数值,并对所实施的动作进行评价打分,以此评价动作的效果;
策略函数调整单元,用于根据动作的评价结果和环境状态的变化,对策略函数的参数进行调整;
迭代单元,重复执行环境状态初始化单元、环境状态更新单元、动作评价单元、策略函数调整单元,使Coflow平均完成时间到达设定值时结束。
作为一种具体示例,所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信,具体包括:
在分布式机器学习的环境中,运用模型训练模块得到的模型和策略函数对所传输的Coflow信息进行调度通信,通过对网络环境中的数据进行采样,实时调整多级反馈队列的优先级阈值。
作为一种具体示例,所述动作定义单元,用于定义基于Coflow深度强化学习中的动作,将多级反馈队列的每个阈值放在同一个集合中{TH1,TH2,…,THn},以直接调整多级反馈队列阈值作为动作,具体如下:
Coflow多级反馈队列中,由上到下依次是最低优先级QK到最高优先级Q1,使用动态改变阈值的方法,将每个优先级队列的阈值放在一个集合之中,即{TH1,TH2,…,THn},其中优先级Q1所对应的范围是从0到TH1,优先级Q2所对应的范围是从TH1到TH2,依次类推,直至最低优先级QK,所对应的取值范围是从THn到∞;通过对阈值{TH1,TH2,…,THn}进行调整,从而能够对整个多级反馈队列进行调整;
在多级反馈队列中,新到来的Coflow会优先进入最高的优先级队列中,之后随着发送数据的大小,根据每一优先级的阈值,即每一个队列都有一个最大阈值和最小阈值,进行降级操作,即当所发送的大小大于第一个阈值TH1时,会将Coflow降低到第二优先级队列中,当发送的数据大小大于第二个阈值TH2,则会将Coflow继续降低到第三优先级队列中,依次类推,直到Coflow的数据全部发送完毕;
每一个优先级在网络传输中的权重不同,权重越高的优先级,所分得的网络带宽越高;权重越低的优先级,所分得的网络带宽越低,多级反馈队列的阈值则能够动态的调整不同优先级的队列大小,从而控制数据的传输。
作为一种具体示例,所述环境状态定义单元,用于定义基于Coflow深度强化学习中的环境状态,将Coflow的大小、包括的流个数、到达时间、持续时间,按多维数组形式表示为环境的状态信息,具体如下:
{Size1,Number1,Arrival_Time1,Duration1,Size2,…}
其中,每四个元素代表一个Coflow的信息,再根据到达时间进行排序操作,到达时间由小到大进行排序;
在运行的时候,根据顺序决定进入多级反馈队列的次序,每次在下一时刻对Coflow所在队列进行调整;如果所传输的数据大于所在队列的最大阈值,则进行降低优先级的操作。
作为一种具体示例,所述奖励函数定义单元,用于定义基于Coflow深度强化学习中的奖励函数,对当前环境所实施的动作进行评分,具体如下:
设置奖励函数公式:
其中,为第n个Coflow在t、t+1时刻所持续传输的时间;对时刻t+1到时刻t的持续传输时间做差,并且对所有的N个Coflow求平均,能够反映Coflow平均的完成时间变化情况,最后再将所求得的平均值结果对时间差进行标准化操作,做到消除时间间隔对结果的影响;当某个Coflow已经完成传输的时候,后项结果即为0。
作为一种具体示例,所述策略函数基于演员-评论家模型即Actor-Critic模型,所采用的深度强化学习算法为双延迟深度确定性策略梯度算法即TD3算法,共包括六个神经网络,其中两个神经网络属于Actor神经网络,分别是Actor网络和Actor目标网络,四个神经网络属于Critic神经网络,分别是Critic网络1、Critic网络2、Critic目标网络1、Critic目标网络2
其中,Actor神经网络用来根据状态State生成对应的动作Action,Critic神经网络用来对所采取的动作Action进行评价。
作为一种具体示例,各个神经网络均有四层神经元,其分别为输入层、隐藏层和输出层;
(1)根据起始状态State,根据神经网络生成一个Action:{TH1,TH2,…,THn};
首先将所定义的起始状态作为Actor神经网络的输入,Actor神经网络会生成一个一位向量,即为当前状态所产生的动作Action,即一个多级反馈队列的阈值,按照所生成的Action,对环境网络中的多级反馈队列进行相对应的阈值设置,并等到下一阶段再次更新多级反馈队列的阈值;
其中Actor网络通过使策略梯度值上升进行更新φ,公式如下:
上式中,J(φ)是Actor的损失函数,等式右边代表对样本梯度进行平均,其中φ表示Actor网络的参数,θ1表示Critic网络的参数,s表示状态,a表示动作,Qθ1(s,a)表示Critic网络的输出结果,πφ(s)是Actor网络的输出结果;
Critic网络通过以下公式进行更新:
上式中,θi表示第i个Critic网络的参数,y表示目标Q值,表示第i个Critic网络的输出结果;
对于Actor网络的参数φ和Critic网络的参数θ1,根据以下两个公式进行软更新Actor目标网络和Critic目标网络的参数:
θ′i←τθi+(1τ)θ′i
φ′←τφ+(1-τ)φ′
其中τ所代表的是更新步长;
使用经验回放池记录决策信息,将最大容量设置为10000;
(2)使用Critic神经网络,对当前{State,Action}使用奖励函数进行打分操作;
Critic神经网络的功能是判断当前状态State下使用当前动作Action的效果;在TD3算法中,使用延迟更新的策略,即当Critic神经网络更新多次后,Actor网络才会进行一次更新操作,使Actor神经网络的训练更加稳定;
(3)重复步骤(1)~步骤(2),当达到固定循环次数,或者Coflow的平均完成时间小于规定的时间时,结束循环过程。
以下结合本发明实施例中的附图及具体实施例,对本发明进行清楚、完整的描述。
实施例1
本实施例中,分布式机器学习所使用的是Spark框架,其中包括150个计算节点。
本发明为了解决使用多级反馈队列进行调度Coflow时效率不高兼容性差的问题,本实施例提供一种基于TD3算法的Coflow调度方法,结合图1~图3,其主要步骤如下:
步骤1、在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;
步骤2、建立基于Coflow深度强化学习的马尔可夫模型,定义动作,环境状态,奖励函数;
步骤3、使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到理想的模型结果和策略函数;
步骤4、使用得到的模型和策略函数对分布式机器学习中的Coflow进行通信;
以下结合本发明中的说明书附图和实施例对本发明进行进一步的说明,但不仅限于此。
步骤2中所述的建立马尔可夫模型,具体包括:
(1)定义基于Coflow深度强化学习中的动作,将多级反馈队列的每个阈值放在同一个集合中{TH1,TH2,…,THn},以此直接调整多级反馈队列阈值作为动作;
在图1中,由上到下依次是最低优先级QK到最高优先级Q1,与以往的固定阈值多级反馈队列不同,本发明使用动态改变阈值的方法。将每个优先级队列的阈值放在一个集合之中,即{TH1,TH2,…,THn},其中,优先级Q1所对应的范围是从0到TH1,优先级Q2所对应的范围是从TH1到TH2,依次类推,直至最低优先级QK,其所对应的取值范围是从THn到∞。通过对阈值{TH1,TH2,…,THn}进行调整,从而能够对整个多级反馈队列进行调整。
在本实施例中,n设置为9,优先级队列阈值为{TH1,TH2,…,TH9},即有10个优先级队列,其分别为0~TH1、TH1~TH2、TH2~TH3、TH3~TH4、TH4~TH5、TH5~TH6、TH6~TH7、TH7~TH8、TH8~TH9、TH9~∞。
在多级反馈队列中,新到来的Coflow会优先进入最高的优先级队列中,之后随着其发送数据的大小,根据每一优先级的阈值,即每一个队列都有一个最大阈值和最小阈值,进行降级操作,即当其所发送的大小大于第一个阈值TH1时,会将该Coflow降低到第二优先级队列中,如其发送的数据大小大于第二个阈值TH2,则会将其继续降低到第三优先级队列中,依次类推,直到该Coflow的数据全部发送完毕。
每一个优先级在网络传输中的权重不同,权重越高的优先级,所分得的网络带宽越高;权重越低的优先级,其所分的网络带宽越低,多级反馈队列的阈值则能够动态的调整不同优先级的队列大小,从而控制数据的传输。
(2)定义基于Coflow深度强化学习中的环境状态,将Coflow的大小,包括的流个数、到达时间、持续时间等按多维数组形式表示为环境的状态信息,如下所示:
{Size1,Number1,Arrival_Time1,Duration1,Size2,…}
其中,每四个元素代表一个Coflow的信息,再根据其的到达时间进行排序操作,到达时间由小到大进行排序。在运行的时候,根据其顺序决定进入多级反馈队列的次序,每次在下一时刻进行对Coflow所在队列进行调整;如果所传输的数据大小大于其所在队列的最大阈值,则会对其进行降低优先级的操作。
在本实施例中将Coflow的环境状态设置为10组Coflow信息,每个Coflow包括
4个元素,所以环境状态总共包括40个元素,即:
{Size1,Number1,…,Size10,Number10,Arrival_Time10,Duration10}
(3)定义基于Coflow深度强化学习中的奖励函数,对当前环境所实施的动作进行评分;
设置奖励函数公式:
其中,为第n个Coflow在t时刻所持续传输的时间,对时刻t+1到时刻t的持续传输时间做差,并且对所有的N个Coflow求平均,可以反映Coflow平均的完成时间变化情况,最后再将其对时间差进行标准化操作,可以做到消除时间间隔对结果的影响。在当某个Coflow已经完成传输的时候,后项/>结果即为0。
在本实施例中已传输完成的Coflow中,其durationt+1=durationt,所以Reward的值即为0。
进一步的,步骤3中使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,使用建立好的马尔可夫模型,选取已有的Coflow相关数据进行训练,重复迭代,并最后保存训练好的模型、策略函数等,具体的如下所示:
在本实施例中,所使用的策略函数是基于“演员-评论家”(Actor-Critic)模型的,所采用的深度强化学习算法为TD3算法(Twin Delayed Deep Deterministic PolicyGradient,中文全称:双延迟深度确定性策略梯度),其中共包括六个神经网络,如图2所示,其中有两个网络属于Actor神经网络,分别是Actor网络和Actor目标网络,另外有四个网络属于Critic神经网络,分别是Critic网络1,Critic网络2,Critic目标网络1,Critic目标网络2
其中,Actor神经网络用来根据状态State生成对应的动作Action,如图4所示;Critic神经网络用来对所采取的动作Action进行评价,如图5所示。所有神经网络均有四层神经元,其分别为输入层、隐藏层和输出层。
(1)根据起始状态State,根据神经网络生成一个Action:{TH1,TH2,…,THn};
具体的,首先将所定义的起始状态作为Actor神经网络的输入,Actor神经网络
会生成一个一位向量,即为当前状态所产生的动作Action,即一个多级反馈队列的阈值,按照所生成的Action,对环境网络中的多级反馈队列进行相对应的阈值设置,并等到下一阶段再次更新多级反馈队列的阈值。在本实施例中,Actor网络的输入层神经元个数为40,隐藏层神经元个数为64,输出层神经元个数为9。
其中,Actor网络通过使策略梯度值上升,其公式如下:
在上述公式中,φ表示的是Actor网络的参数,θ1表示的是Critic网络的参数。
Critic网络通过以下公式进行更新:
由于会有2个相同的Critic网络更新相同的目标,但是由于网络参数的初始值不同,会导致最终计算出来的结果有所差异,所以可以选择较低的值去估计Q值,避免Q值被过高估计。
其中对于Actor网络的参数φ和Critic网络的参数θ1,根据以下两个公式进行软更新Actor目标网络和Critic目标网络的参数:
θ′i←τθi+(1-τ)θ′i
φ′←τφ+(1-τ)φ′
其中τ所代表的是更新步长,在本实施例当中的τ=0.01。并且使用经验回放池记录决策信息,在本实施例中将其最大容量设置为10000。
(2)使用Critic神经网络,对当前{State,Action}使用奖励函数进行打分操作;
其神经网络结构如图5所示,具体的,其功能主要是判断当前状态State下使用当前动作Action的效果。在本实施例中,所使用的Critic神经网络隐藏层神经元个数为64,输出层神经元个数为1。
在TD3算法中,使用的是延迟更新的策略,即当Critic神经网络更新多次后,Actor网络才会进行一次更新操作,使Actor神经网络的训练更加稳定。
(3)重复步骤(1)和步骤(2),当达到固定循环次数,或者Coflow的平均完成时间
小于规定的时间时,结束循环过程。
进一步的,步骤4中使用得到的模型和策略函数进行测试,对网络环境中所获取到的数据进行测试,评判标准为Coflow平均完成时间。
为对比本发明的效果,本实施例通过使用不同的Coflow调度算法在同一数据集进行对比平均Coflow完成时间。其中包括3个不同数据集,如图6所示,在三个不同的数据中,以本方法的平均Coflow完成时间作为基准,SCF和NCF的平均Coflow完成时间会高于基准线,而SEBF的平均Coflow完成时间会低于基准线。所以可以得到结论:本方法调度效果优于SCF和NCF,略差于全局已知的最优SEBF调度算法。
实施例2
本实施例提供一种基于TD3算法的Coflow调度系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块,所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块,其中:
所述预处理模块,用于在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;
所述马尔可夫模型构建模块,用于建立基于Coflow深度强化学习的马尔可夫模型,定义动作、环境状态、奖励函数;
所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到最终的模型和策略函数;
所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信。
本实施例所述处理器执行计算机程序模块时实现实施例1中的基于TD3算法的Coflow调度方法。
实施例3
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1中的基于TD3算法的Coflow调度方法中的步骤。
综上所述,本发明结合了TD3算法和多级反馈队列,自适应的调整多级反馈队列的阈值,相比传统固定阈值的多级反馈队列,能够更好的适应不同的应用场景,有效的提高了适用范围和调度效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
应当理解,为了精简本发明并帮助本领域的技术人员理解本发明的各个方面,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时在单个实施例中进行描述,或者参照单个图进行描述。但是,不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

Claims (10)

1.一种基于TD3算法的Coflow调度系统,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块,所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块,其中:
所述预处理模块,用于在分布式机器学习通信环境中提取Coflow信息,对信息进行预处理;
所述马尔可夫模型构建模块,用于建立基于Coflow深度强化学习的马尔可夫模型,定义动作、环境状态、奖励函数;
所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,得到最终的模型和策略函数;
所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信。
2.根据权利要求1所述的基于TD3算法的Coflow调度系统,其特征在于,预处理模块对信息进行预处理,包括:针对所得到的Coflow信息,提取Coflow信息的大小、包括的流个数、到达时间、持续时间。
3.根据权利要求1所述的基于TD3算法的Coflow调度系统,其特征在于,马尔可夫模型构建模块包括动作定义单元、环境状态定义单元、奖励函数定义单元,其中:
所述动作定义单元,用于定义基于Coflow深度强化学习中的动作,将多级反馈队列的每个阈值放在同一个集合中{TH1,TH2,…,THn},以直接调整多级反馈队列阈值作为动作;
所述环境状态定义单元,用于定义基于Coflow深度强化学习中的环境状态,将Coflow的大小、包括的流个数、到达时间、持续时间,按多维数组形式表示为环境的状态信息;
所述奖励函数定义单元,用于定义基于Coflow深度强化学习中的奖励函数,对当前环境所实施的动作进行评分。
4.根据权利要求1所述的基于TD3算法的Coflow调度系统,其特征在于,所述模型训练模块,用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练,具体包括:
策略函数初始化单元,用于将策略函数的参数首先设置为默认值;
环境状态初始化单元,用于从环境状态中选取初始时刻的信息,作为当前的环境状态信息;
环境状态更新单元,用于使用TD3算法,对当前环境状态信息使用深度神经网络处理,根据策略函数对当前的环境状态生成对应的动作,并产生新的环境状态;
动作评价单元,用于根据环境状态的改变,计算得到对应的奖励函数值,并对所实施的动作进行评价打分,以此评价动作的效果;
策略函数调整单元,用于根据动作的评价结果和环境状态的变化,对策略函数的参数进行调整;
迭代单元,重复执行环境状态初始化单元、环境状态更新单元、动作评价单元、策略函数调整单元,使Coflow平均完成时间到达设定值时结束。
5.根据权利要求1所述的基于TD3算法的Coflow调度系统,其特征在于,所述通信模块,用于使用模型训练模块得到的模型和策略函数,对分布式机器学习中的Coflow进行通信,具体包括:
在分布式机器学习的环境中,运用模型训练模块得到的模型和策略函数对所传输的Coflow信息进行调度通信,通过对网络环境中的数据进行采样,实时调整多级反馈队列的优先级阈值。
6.根据权利要求3所述的基于TD3算法的Coflow调度系统,其特征在于,所述动作定义单元,用于定义基于Coflow深度强化学习中的动作,将多级反馈队列的每个阈值放在同一个集合中{TH1,TH2,…,THn},以直接调整多级反馈队列阈值作为动作,具体如下:
Coflow多级反馈队列中,由上到下依次是最低优先级QK到最高优先级Q1,使用动态改变阈值的方法,将每个优先级队列的阈值放在一个集合之中,即{TH1,TH2,…,THn},其中优先级Q1所对应的范围是从0到TH1,优先级Q2所对应的范围是从TH1到TH2,依次类推,直至最低优先级QK,所对应的取值范围是从THn到∞;通过对阈值{TH1,TH2,…,THn}进行调整,从而能够对整个多级反馈队列进行调整;
在多级反馈队列中,新到来的Coflow会优先进入最高的优先级队列中,之后随着发送数据的大小,根据每一优先级的阈值,即每一个队列都有一个最大阈值和最小阈值,进行降级操作,即当所发送的大小大于第一个阈值TH1时,会将Coflow降低到第二优先级队列中,当发送的数据大小大于第二个阈值TH2,则会将Coflow继续降低到第三优先级队列中,依次类推,直到Coflow的数据全部发送完毕;
每一个优先级在网络传输中的权重不同,权重越高的优先级,所分得的网络带宽越高;权重越低的优先级,所分得的网络带宽越低,多级反馈队列的阈值则能够动态的调整不同优先级的队列大小,从而控制数据的传输。
7.根据权利要求3所述的基于TD3算法的Coflow调度系统,其特征在于,所述环境状态定义单元,用于定义基于Coflow深度强化学习中的环境状态,将Coflow的大小、包括的流个数、到达时间、持续时间,按多维数组形式表示为环境的状态信息,具体如下:
{Size1,Number1,Arrival_Time1,Duration1,Size2,…}
其中,每四个元素代表一个Coflow的信息,再根据到达时间进行排序操作,到达时间由小到大进行排序;
在运行的时候,根据顺序决定进入多级反馈队列的次序,每次在下一时刻对Coflow所在队列进行调整;如果所传输的数据大于所在队列的最大阈值,则进行降低优先级的操作。
8.根据权利要求3所述的基于TD3算法的Coflow调度系统,其特征在于,所述奖励函数定义单元,用于定义基于Coflow深度强化学习中的奖励函数,对当前环境所实施的动作进行评分,具体如下:
设置奖励函数公式:
其中,为第n个Coflow在t、t+1时刻所持续传输的时间;对时刻t+1到时刻t的持续传输时间做差,并且对所有的N个Coflow求平均,能够反映Coflow平均的完成时间变化情况,最后再将所求得的平均值结果对时间差进行标准化操作,做到消除时间间隔对结果的影响;当某个Coflow已经完成传输的时候,后项/>结果即为0。
9.根据权利要求4所述的基于TD3算法的Coflow调度系统,其特征在于,所述策略函数基于演员-评论家模型即Actor-Critic模型,所采用的深度强化学习算法为双延迟深度确定性策略梯度算法即TD3算法,共包括六个神经网络,其中两个神经网络属于Actor神经网络,分别是Actor网络和Actor目标网络,四个神经网络属于Critic神经网络,分别是Critic网络1、Critic网络2、Critic目标网络1、Critic目标网络2
其中,Actor神经网络用来根据状态State生成对应的动作Action,Critic神经网络用来对所采取的动作Action进行评价。
10.根据权利要求9所述的基于TD3算法的Coflow调度系统,其特征在于,各个神经网络均有四层神经元,其分别为输入层、隐藏层和输出层;
(1)根据起始状态State,根据神经网络生成一个Action:{TH1,TH2,…,THn};
首先将所定义的起始状态作为Actor神经网络的输入,Actor神经网络会生成一个一位向量,即为当前状态所产生的动作Action,即一个多级反馈队列的阈值,按照所生成的Action,对环境网络中的多级反馈队列进行相对应的阈值设置,并等到下一阶段再次更新多级反馈队列的阈值;
其中Actor网络通过使策略梯度值上升进行更新φ,公式如下:
上式中,J(φ)是Actor的损失函数,等式右边代表对样本梯度进行平均,其中φ表示Actor网络的参数,θ1表示Critic网络的参数,s表示状态,a表示动作,表示Critic网络的输出结果,πφ(s)是Actor网络的输出结果;
Critic网络通过以下公式进行更新:
上式中,θi表示第i个Critic网络的参数,y表示目标Q值,表示第i个Critic网络的输出结果;
对于Actor网络的参数φ和Critic网络的参数θ1,根据以下两个公式进行软更新Actor目标网络和Critic目标网络的参数:
θ′i←τθi+(1-τ)θ′i
φ′←τφ+(1-τ)φ′
其中τ所代表的是更新步长;
使用经验回放池记录决策信息,将最大容量设置为10000;
(2)使用Critic神经网络,对当前{State,Action}使用奖励函数进行打分操作;
Critic神经网络的功能是判断当前状态State下使用当前动作Action的效果;在TD3算法中,使用延迟更新的策略,即当Critic神经网络更新多次后,Actor网络才会进行一次更新操作,使Actor神经网络的训练更加稳定;
(3)重复步骤(1)~步骤(2),当达到固定循环次数,或者Coflow的平均完成时间小于规定的时间时,结束循环过程。
CN202310536045.XA 2023-05-12 2023-05-12 一种基于TD3算法的Coflow调度系统 Pending CN116582502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310536045.XA CN116582502A (zh) 2023-05-12 2023-05-12 一种基于TD3算法的Coflow调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310536045.XA CN116582502A (zh) 2023-05-12 2023-05-12 一种基于TD3算法的Coflow调度系统

Publications (1)

Publication Number Publication Date
CN116582502A true CN116582502A (zh) 2023-08-11

Family

ID=87535310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310536045.XA Pending CN116582502A (zh) 2023-05-12 2023-05-12 一种基于TD3算法的Coflow调度系统

Country Status (1)

Country Link
CN (1) CN116582502A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540938A (zh) * 2024-01-10 2024-02-09 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540938A (zh) * 2024-01-10 2024-02-09 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统
CN117540938B (zh) * 2024-01-10 2024-05-03 杭州经纬信息技术股份有限公司 基于td3强化学习优化的集成式建筑能耗预测方法及系统

Similar Documents

Publication Publication Date Title
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
Guo et al. Cloud resource scheduling with deep reinforcement learning and imitation learning
CN107888669B (zh) 一种基于深度学习神经网络的大规模资源调度系统及方法
CN111026549B (zh) 一种电力信息通信设备自动化测试资源调度方法
CN111740925B (zh) 一种基于深度强化学习的Coflow调度方法
CN104536828A (zh) 基于量子粒子群算法的云计算的任务调度方法和系统
CN116582502A (zh) 一种基于TD3算法的Coflow调度系统
CN109840154A (zh) 一种移动云环境下基于任务依赖的计算迁移方法
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
CN115437795B (zh) 一种异构gpu集群负载感知的显存重计算优化方法及系统
CN114638167B (zh) 基于多智能体强化学习的高性能集群资源公平分配方法
CN111258735A (zh) 一种支持用户QoS感知的深度学习任务调度方法
CN114285853A (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113537365A (zh) 一种基于信息熵动态赋权的多任务学习自适应平衡方法
CN111625998A (zh) 一种层叠太阳能电池结构优化方法
CN112990420A (zh) 一种用于卷积神经网络模型的剪枝方法
CN114661466A (zh) 用于边缘计算环境中面向智能工作流应用的任务卸载方法
CN113722980A (zh) 海洋浪高预测方法、系统、计算机设备、存储介质、终端
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN116151581A (zh) 一种柔性车间调度方法、系统及电子设备
CN112445617B (zh) 一种基于移动边缘计算的负载策略选择方法及系统
CN112395059A (zh) 一种改进萤火虫算法的cmp任务调度方法
Li et al. Online task offloading and resource allocation in two-tier mobile-edge computing network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination