CN116582502A

CN116582502A - 一种基于TD3算法的Coflow调度系统

Info

Publication number: CN116582502A
Application number: CN202310536045.XA
Authority: CN
Inventors: 黄婵颖; 王子超; 李千目; 颜克冬
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-05-12
Filing date: 2023-05-12
Publication date: 2023-08-11

Abstract

本发明公开了一种基于TD3算法的Coflow调度系统，该系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块，其中：预处理模块用于在分布式机器学习通信环境中提取Coflow信息，对信息进行预处理；马尔可夫模型构建模块用于建立基于Coflow深度强化学习的马尔可夫模型，定义动作、环境状态、奖励函数；模型训练模块使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，得到最终的模型和策略函数；通信模块使用得到的模型和策略函数，对分布式机器学习中的Coflow进行通信。本发明能够自适应的调整多级反馈队列的阈值，更好的适应不同分布式应用场景，从而扩大适用范围、提高调度效率。

Description

一种基于TD3算法的Coflow调度系统

技术领域

本发明涉及Coflow队列调度技术，特别是一种基于TD3算法的Coflow调度系统。

背景技术

近年来，由于数据中心网络的数据量和机器学习的复杂程度呈指数级的增长，单台计算机已无法满足所需要的计算性能，所以分布式机器学习的运行越来越广泛，但是不同机器之间的信息交互存在着诸多问题，使用单一的Flow存在着描述复杂等缺陷。

为解决单一Flow的缺陷，研究人员提出Coflow的概念，这些应用程序通常会生成一组从mapper到reduce的被称为Coflow的并行流，集合中每条单独流量被称为这个Coflow的一条子流(Flow)。Coflow中的Flow与Flow之间存在语义相关，具有协作完成的共同目标，当属于Coflow的所有Flows传输完成，该Coflow即为完成传输。

调度优化Coflow的方法主要有Varys，Aalo,CODA等，所研究的重点主要分为集中式与分布式、有先验知识和无先验知识、效率优先和公平优先等几个方面。最早在2014年所提出的Varys是具有先验知识的，而后续所提出的Aalo、CODA等都是无先验知识的。

Aalo主要思想是使用多级反馈队列(Multi-Level Feedback Queuing,MLFQ)的方法进行分配Coflow的优先级从而实现调度。MLFQ使用固定的阈值将Coflow按照大小进行划分优先级，将Coflow分配到不同的优先级队列中，不同的队列之间使用对Coflow大小敏感的CLAS调度，同一队列中使用先来先服务(FIFO)的方法。

由于MLFQ通常使用的是固定阈值，导致它不适用于所有应用场景，尤其是对数据类型多变、系统灵活性要求很高的分布式机器学习场景，因此需要将固定阈值转化为可变阈值以提高MLFQ的鲁棒性。通过手动调整实现阈值动态变化虽然具有一定效果，但是其优化周期长，且面临工作量大的问题，实现起来比较困难。

发明内容

本发明的目的在于提供一种基于TD3算法的Coflow调度系统，对Coflow多级反馈队列的阈值进行自适应优化，可以根据使用场景不同实现阈值自动调整，以降低平均Coflow完成时间从而提升分布式机器学习之间的通信效率。

实现本发明目的的技术解决方案为：一种基于TD3算法的Coflow调度系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块，所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块，其中：

所述预处理模块，用于在分布式机器学习通信环境中提取Coflow信息，对信息进行预处理；

所述马尔可夫模型构建模块，用于建立基于Coflow深度强化学习的马尔可夫模型，定义动作、环境状态、奖励函数；

所述模型训练模块，用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，得到最终的模型和策略函数；

所述通信模块，用于使用模型训练模块得到的模型和策略函数，对分布式机器学习中的Coflow进行通信。

本发明与现有技术相比，其显著优点是：

(1)将固定阈值的多级反馈队列改进为自适应阈值的多级反馈队列，能够适用于更广泛的场景，提高系统的鲁棒性，能够有效的降低通信传输时间，降低传输开销；

(2)提出了基于Coflow的奖励函数，能够有效的对所采用的动作效果进行反馈，提高系统训练效率；

(3)对Coflow进行环境建模，并使用深度强化学习TD3算法，使用减枝的方法在单位时间内探索的动作范围更广泛，并且使用并行的批评家网络能避免过估计的问题；使用延迟更新能够稳定Coflow中的Q值从而减少错误更新。

附图说明

图1为Coflow多级反馈队列示意图。

图2为TD3算法网络架构图。

图3为基于TD3算法的Coflow调度流程图。

图4为Actor神经网络结构图。

图5为Critic神经网络结构图。

图6为Coflow平均完成时间效果对比图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

本发明提供一种基于TD3算法的Coflow调度系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块，所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块，其中：

作为一种具体示例，预处理模块对信息进行预处理，包括：针对所得到的Coflow信息，提取Coflow信息的大小、包括的流个数、到达时间、持续时间。

作为一种具体示例，马尔可夫模型构建模块包括动作定义单元、环境状态定义单元、奖励函数定义单元，其中：

所述动作定义单元，用于定义基于Coflow深度强化学习中的动作，将多级反馈队列的每个阈值放在同一个集合中{TH₁,TH₂,…,TH_n}，以直接调整多级反馈队列阈值作为动作；

所述环境状态定义单元，用于定义基于Coflow深度强化学习中的环境状态，将Coflow的大小、包括的流个数、到达时间、持续时间，按多维数组形式表示为环境的状态信息；

所述奖励函数定义单元，用于定义基于Coflow深度强化学习中的奖励函数，对当前环境所实施的动作进行评分。

作为一种具体示例，所述模型训练模块，用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，具体包括：

策略函数初始化单元，用于将策略函数的参数首先设置为默认值；

环境状态初始化单元，用于从环境状态中选取初始时刻的信息，作为当前的环境状态信息；

环境状态更新单元，用于使用TD3算法，对当前环境状态信息使用深度神经网络处理，根据策略函数对当前的环境状态生成对应的动作，并产生新的环境状态；

动作评价单元，用于根据环境状态的改变，计算得到对应的奖励函数值，并对所实施的动作进行评价打分，以此评价动作的效果；

策略函数调整单元，用于根据动作的评价结果和环境状态的变化，对策略函数的参数进行调整；

迭代单元，重复执行环境状态初始化单元、环境状态更新单元、动作评价单元、策略函数调整单元，使Coflow平均完成时间到达设定值时结束。

作为一种具体示例，所述通信模块，用于使用模型训练模块得到的模型和策略函数，对分布式机器学习中的Coflow进行通信，具体包括：

在分布式机器学习的环境中，运用模型训练模块得到的模型和策略函数对所传输的Coflow信息进行调度通信，通过对网络环境中的数据进行采样，实时调整多级反馈队列的优先级阈值。

作为一种具体示例，所述动作定义单元，用于定义基于Coflow深度强化学习中的动作，将多级反馈队列的每个阈值放在同一个集合中{TH₁,TH₂,…,TH_n}，以直接调整多级反馈队列阈值作为动作，具体如下：

Coflow多级反馈队列中，由上到下依次是最低优先级Q_K到最高优先级Q₁，使用动态改变阈值的方法，将每个优先级队列的阈值放在一个集合之中，即{TH₁,TH₂,…,TH_n}，其中优先级Q₁所对应的范围是从0到TH₁，优先级Q₂所对应的范围是从TH₁到TH₂，依次类推，直至最低优先级Q_K，所对应的取值范围是从TH_n到∞；通过对阈值{TH₁,TH₂,…,TH_n}进行调整，从而能够对整个多级反馈队列进行调整；

在多级反馈队列中，新到来的Coflow会优先进入最高的优先级队列中，之后随着发送数据的大小，根据每一优先级的阈值，即每一个队列都有一个最大阈值和最小阈值，进行降级操作，即当所发送的大小大于第一个阈值TH₁时，会将Coflow降低到第二优先级队列中，当发送的数据大小大于第二个阈值TH₂，则会将Coflow继续降低到第三优先级队列中，依次类推，直到Coflow的数据全部发送完毕；

每一个优先级在网络传输中的权重不同，权重越高的优先级，所分得的网络带宽越高；权重越低的优先级，所分得的网络带宽越低，多级反馈队列的阈值则能够动态的调整不同优先级的队列大小，从而控制数据的传输。

作为一种具体示例，所述环境状态定义单元，用于定义基于Coflow深度强化学习中的环境状态，将Coflow的大小、包括的流个数、到达时间、持续时间，按多维数组形式表示为环境的状态信息，具体如下：

{Size₁,Number₁,Arrival_Time₁,Duration₁,Size₂,…}

其中，每四个元素代表一个Coflow的信息，再根据到达时间进行排序操作，到达时间由小到大进行排序；

在运行的时候，根据顺序决定进入多级反馈队列的次序，每次在下一时刻对Coflow所在队列进行调整；如果所传输的数据大于所在队列的最大阈值，则进行降低优先级的操作。

作为一种具体示例，所述奖励函数定义单元，用于定义基于Coflow深度强化学习中的奖励函数，对当前环境所实施的动作进行评分，具体如下：

设置奖励函数公式：

其中，为第n个Coflow在t、t+1时刻所持续传输的时间；对时刻t+1到时刻t的持续传输时间做差，并且对所有的N个Coflow求平均，能够反映Coflow平均的完成时间变化情况，最后再将所求得的平均值结果对时间差进行标准化操作，做到消除时间间隔对结果的影响；当某个Coflow已经完成传输的时候，后项结果即为0。

作为一种具体示例，所述策略函数基于演员-评论家模型即Actor-Critic模型，所采用的深度强化学习算法为双延迟深度确定性策略梯度算法即TD3算法，共包括六个神经网络，其中两个神经网络属于Actor神经网络，分别是Actor网络和Actor目标网络，四个神经网络属于Critic神经网络，分别是Critic网络₁、Critic网络₂、Critic目标网络₁、Critic目标网络₂；

其中，Actor神经网络用来根据状态State生成对应的动作Action，Critic神经网络用来对所采取的动作Action进行评价。

作为一种具体示例，各个神经网络均有四层神经元，其分别为输入层、隐藏层和输出层；

(1)根据起始状态State，根据神经网络生成一个Action：{TH₁,TH₂,…,TH_n}；

首先将所定义的起始状态作为Actor神经网络的输入，Actor神经网络会生成一个一位向量，即为当前状态所产生的动作Action，即一个多级反馈队列的阈值，按照所生成的Action，对环境网络中的多级反馈队列进行相对应的阈值设置，并等到下一阶段再次更新多级反馈队列的阈值；

其中Actor网络通过使策略梯度值上升进行更新φ，公式如下：

上式中，J(φ)是Actor的损失函数，等式右边代表对样本梯度进行平均，其中φ表示Actor网络的参数，θ₁表示Critic网络的参数，s表示状态，a表示动作，Q_θ1(s,a)表示Critic网络的输出结果，π_φ(s)是Actor网络的输出结果；

Critic网络通过以下公式进行更新：

上式中，θ_i表示第i个Critic网络的参数，y表示目标Q值，表示第i个Critic网络的输出结果；

对于Actor网络的参数φ和Critic网络的参数θ₁，根据以下两个公式进行软更新Actor目标网络和Critic目标网络的参数：

θ′_i←τθ_i+(1τ)θ′_i

φ′←τφ+(1-τ)φ′

其中τ所代表的是更新步长；

使用经验回放池记录决策信息，将最大容量设置为10000；

(2)使用Critic神经网络，对当前{State,Action}使用奖励函数进行打分操作；

Critic神经网络的功能是判断当前状态State下使用当前动作Action的效果；在TD3算法中，使用延迟更新的策略，即当Critic神经网络更新多次后，Actor网络才会进行一次更新操作，使Actor神经网络的训练更加稳定；

(3)重复步骤(1)～步骤(2)，当达到固定循环次数，或者Coflow的平均完成时间小于规定的时间时，结束循环过程。

以下结合本发明实施例中的附图及具体实施例，对本发明进行清楚、完整的描述。

实施例1

本实施例中，分布式机器学习所使用的是Spark框架，其中包括150个计算节点。

本发明为了解决使用多级反馈队列进行调度Coflow时效率不高兼容性差的问题，本实施例提供一种基于TD3算法的Coflow调度方法，结合图1～图3，其主要步骤如下：

步骤1、在分布式机器学习通信环境中提取Coflow信息，对信息进行预处理；

步骤2、建立基于Coflow深度强化学习的马尔可夫模型，定义动作，环境状态，奖励函数；

步骤3、使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，得到理想的模型结果和策略函数；

步骤4、使用得到的模型和策略函数对分布式机器学习中的Coflow进行通信；

以下结合本发明中的说明书附图和实施例对本发明进行进一步的说明，但不仅限于此。

步骤2中所述的建立马尔可夫模型，具体包括：

(1)定义基于Coflow深度强化学习中的动作，将多级反馈队列的每个阈值放在同一个集合中{TH₁,TH₂,…,TH_n}，以此直接调整多级反馈队列阈值作为动作；

在图1中，由上到下依次是最低优先级Q_K到最高优先级Q₁，与以往的固定阈值多级反馈队列不同，本发明使用动态改变阈值的方法。将每个优先级队列的阈值放在一个集合之中，即{TH₁,TH₂,…,TH_n}，其中，优先级Q₁所对应的范围是从0到TH₁，优先级Q₂所对应的范围是从TH₁到TH₂，依次类推，直至最低优先级Q_K，其所对应的取值范围是从TH_n到∞。通过对阈值{TH₁,TH₂,…,TH_n}进行调整，从而能够对整个多级反馈队列进行调整。

在本实施例中，n设置为9，优先级队列阈值为{TH₁,TH₂,…,TH₉}，即有10个优先级队列，其分别为0～TH₁、TH₁～TH₂、TH₂～TH₃、TH₃～TH₄、TH₄～TH₅、TH₅～TH₆、TH₆～TH₇、TH₇～TH₈、TH₈～TH₉、TH₉～∞。

在多级反馈队列中，新到来的Coflow会优先进入最高的优先级队列中，之后随着其发送数据的大小，根据每一优先级的阈值，即每一个队列都有一个最大阈值和最小阈值，进行降级操作，即当其所发送的大小大于第一个阈值TH₁时，会将该Coflow降低到第二优先级队列中，如其发送的数据大小大于第二个阈值TH₂，则会将其继续降低到第三优先级队列中，依次类推，直到该Coflow的数据全部发送完毕。

每一个优先级在网络传输中的权重不同，权重越高的优先级，所分得的网络带宽越高；权重越低的优先级，其所分的网络带宽越低，多级反馈队列的阈值则能够动态的调整不同优先级的队列大小，从而控制数据的传输。

(2)定义基于Coflow深度强化学习中的环境状态，将Coflow的大小，包括的流个数、到达时间、持续时间等按多维数组形式表示为环境的状态信息，如下所示：

{Size₁,Number₁,Arrival_Time₁,Duration₁,Size₂,…}

其中，每四个元素代表一个Coflow的信息，再根据其的到达时间进行排序操作，到达时间由小到大进行排序。在运行的时候，根据其顺序决定进入多级反馈队列的次序，每次在下一时刻进行对Coflow所在队列进行调整；如果所传输的数据大小大于其所在队列的最大阈值，则会对其进行降低优先级的操作。

在本实施例中将Coflow的环境状态设置为10组Coflow信息，每个Coflow包括

4个元素，所以环境状态总共包括40个元素，即：

{Size₁,Number₁,…,Size₁₀,Number₁₀,Arrival_Time₁₀,Duration₁₀}

(3)定义基于Coflow深度强化学习中的奖励函数，对当前环境所实施的动作进行评分；

设置奖励函数公式：

其中，为第n个Coflow在t时刻所持续传输的时间，对时刻t+1到时刻t的持续传输时间做差，并且对所有的N个Coflow求平均，可以反映Coflow平均的完成时间变化情况，最后再将其对时间差进行标准化操作，可以做到消除时间间隔对结果的影响。在当某个Coflow已经完成传输的时候，后项/>结果即为0。

在本实施例中已传输完成的Coflow中，其duration_t+1＝duration_t，所以Reward的值即为0。

进一步的，步骤3中使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，使用建立好的马尔可夫模型，选取已有的Coflow相关数据进行训练，重复迭代，并最后保存训练好的模型、策略函数等，具体的如下所示：

在本实施例中，所使用的策略函数是基于“演员-评论家”(Actor-Critic)模型的，所采用的深度强化学习算法为TD3算法(Twin Delayed Deep Deterministic PolicyGradient，中文全称：双延迟深度确定性策略梯度)，其中共包括六个神经网络，如图2所示，其中有两个网络属于Actor神经网络，分别是Actor网络和Actor目标网络，另外有四个网络属于Critic神经网络，分别是Critic网络₁，Critic网络₂，Critic目标网络₁，Critic目标网络₂。

其中，Actor神经网络用来根据状态State生成对应的动作Action，如图4所示；Critic神经网络用来对所采取的动作Action进行评价，如图5所示。所有神经网络均有四层神经元，其分别为输入层、隐藏层和输出层。

具体的，首先将所定义的起始状态作为Actor神经网络的输入，Actor神经网络

会生成一个一位向量，即为当前状态所产生的动作Action，即一个多级反馈队列的阈值，按照所生成的Action，对环境网络中的多级反馈队列进行相对应的阈值设置，并等到下一阶段再次更新多级反馈队列的阈值。在本实施例中，Actor网络的输入层神经元个数为40，隐藏层神经元个数为64，输出层神经元个数为9。

其中，Actor网络通过使策略梯度值上升，其公式如下：

在上述公式中，φ表示的是Actor网络的参数，θ₁表示的是Critic网络的参数。

Critic网络通过以下公式进行更新：

由于会有2个相同的Critic网络更新相同的目标，但是由于网络参数的初始值不同，会导致最终计算出来的结果有所差异，所以可以选择较低的值去估计Q值，避免Q值被过高估计。

其中对于Actor网络的参数φ和Critic网络的参数θ₁，根据以下两个公式进行软更新Actor目标网络和Critic目标网络的参数：

θ′_i←τθ_i+(1-τ)θ′_i

φ′←τφ+(1-τ)φ′

其中τ所代表的是更新步长，在本实施例当中的τ＝0.01。并且使用经验回放池记录决策信息，在本实施例中将其最大容量设置为10000。

其神经网络结构如图5所示，具体的，其功能主要是判断当前状态State下使用当前动作Action的效果。在本实施例中，所使用的Critic神经网络隐藏层神经元个数为64，输出层神经元个数为1。

在TD3算法中，使用的是延迟更新的策略，即当Critic神经网络更新多次后，Actor网络才会进行一次更新操作，使Actor神经网络的训练更加稳定。

(3)重复步骤(1)和步骤(2)，当达到固定循环次数，或者Coflow的平均完成时间

小于规定的时间时，结束循环过程。

进一步的，步骤4中使用得到的模型和策略函数进行测试，对网络环境中所获取到的数据进行测试，评判标准为Coflow平均完成时间。

为对比本发明的效果，本实施例通过使用不同的Coflow调度算法在同一数据集进行对比平均Coflow完成时间。其中包括3个不同数据集，如图6所示，在三个不同的数据中，以本方法的平均Coflow完成时间作为基准，SCF和NCF的平均Coflow完成时间会高于基准线，而SEBF的平均Coflow完成时间会低于基准线。所以可以得到结论：本方法调度效果优于SCF和NCF，略差于全局已知的最优SEBF调度算法。

实施例2

本实施例提供一种基于TD3算法的Coflow调度系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块，所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块，其中：

本实施例所述处理器执行计算机程序模块时实现实施例1中的基于TD3算法的Coflow调度方法。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1中的基于TD3算法的Coflow调度方法中的步骤。

综上所述，本发明结合了TD3算法和多级反馈队列，自适应的调整多级反馈队列的阈值，相比传统固定阈值的多级反馈队列，能够更好的适应不同的应用场景，有效的提高了适用范围和调度效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

Claims

1.一种基于TD3算法的Coflow调度系统，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序模块，所述计算机程序模块包括顺次设置的预处理模块、马尔可夫模型构建模块、模型训练模块、通信模块，其中：

2.根据权利要求1所述的基于TD3算法的Coflow调度系统，其特征在于，预处理模块对信息进行预处理，包括：针对所得到的Coflow信息，提取Coflow信息的大小、包括的流个数、到达时间、持续时间。

3.根据权利要求1所述的基于TD3算法的Coflow调度系统，其特征在于，马尔可夫模型构建模块包括动作定义单元、环境状态定义单元、奖励函数定义单元，其中：

所述动作定义单元，用于定义基于Coflow深度强化学习中的动作，将多级反馈队列的每个阈值放在同一个集合中{TH_1,TH₂,…,TH_n}，以直接调整多级反馈队列阈值作为动作；

4.根据权利要求1所述的基于TD3算法的Coflow调度系统，其特征在于，所述模型训练模块，用于使用深度强化学习TD3算法对Coflow环境进行重复迭代训练，具体包括：

5.根据权利要求1所述的基于TD3算法的Coflow调度系统，其特征在于，所述通信模块，用于使用模型训练模块得到的模型和策略函数，对分布式机器学习中的Coflow进行通信，具体包括：

6.根据权利要求3所述的基于TD3算法的Coflow调度系统，其特征在于，所述动作定义单元，用于定义基于Coflow深度强化学习中的动作，将多级反馈队列的每个阈值放在同一个集合中{TH_1,TH₂,…,TH_n}，以直接调整多级反馈队列阈值作为动作，具体如下：

Coflow多级反馈队列中，由上到下依次是最低优先级Q_K到最高优先级Q₁，使用动态改变阈值的方法，将每个优先级队列的阈值放在一个集合之中，即{TH_1,TH₂,…,TH_n}，其中优先级Q₁所对应的范围是从0到TH₁，优先级Q₂所对应的范围是从TH₁到TH₂，依次类推，直至最低优先级Q_K，所对应的取值范围是从TH_n到∞；通过对阈值{TH_1,TH₂,…,TH_n}进行调整，从而能够对整个多级反馈队列进行调整；

7.根据权利要求3所述的基于TD3算法的Coflow调度系统，其特征在于，所述环境状态定义单元，用于定义基于Coflow深度强化学习中的环境状态，将Coflow的大小、包括的流个数、到达时间、持续时间，按多维数组形式表示为环境的状态信息，具体如下：

{Size₁,Number₁,Arrival_Time₁,Duration₁,Size₂,…}

8.根据权利要求3所述的基于TD3算法的Coflow调度系统，其特征在于，所述奖励函数定义单元，用于定义基于Coflow深度强化学习中的奖励函数，对当前环境所实施的动作进行评分，具体如下：

设置奖励函数公式：

其中，为第n个Coflow在t、t+1时刻所持续传输的时间；对时刻t+1到时刻t的持续传输时间做差，并且对所有的N个Coflow求平均，能够反映Coflow平均的完成时间变化情况，最后再将所求得的平均值结果对时间差进行标准化操作，做到消除时间间隔对结果的影响；当某个Coflow已经完成传输的时候，后项/>结果即为0。

9.根据权利要求4所述的基于TD3算法的Coflow调度系统，其特征在于，所述策略函数基于演员-评论家模型即Actor-Critic模型，所采用的深度强化学习算法为双延迟深度确定性策略梯度算法即TD3算法，共包括六个神经网络，其中两个神经网络属于Actor神经网络，分别是Actor网络和Actor目标网络，四个神经网络属于Critic神经网络，分别是Critic网络₁、Critic网络₂、Critic目标网络₁、Critic目标网络₂；

10.根据权利要求9所述的基于TD3算法的Coflow调度系统，其特征在于，各个神经网络均有四层神经元，其分别为输入层、隐藏层和输出层；

(1)根据起始状态State，根据神经网络生成一个Action：{TH_1,TH₂,…,TH_n}；

其中Actor网络通过使策略梯度值上升进行更新φ，公式如下：

上式中，J(φ)是Actor的损失函数，等式右边代表对样本梯度进行平均，其中φ表示Actor网络的参数，θ₁表示Critic网络的参数，s表示状态，a表示动作，表示Critic网络的输出结果，π_φ(s)是Actor网络的输出结果；

Critic网络通过以下公式进行更新：

θ′_i←τθ_i+(1-τ)θ′_i

φ′←τφ+(1-τ)φ′

其中τ所代表的是更新步长；

使用经验回放池记录决策信息，将最大容量设置为10000；