CN115567466A

CN115567466A - 基于深度强化学习的时间敏感流量在线调度方法及装置

Info

Publication number: CN115567466A
Application number: CN202211204257.XA
Authority: CN
Inventors: 刘鹏; 洪心怡; 席宇浩
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-03

Abstract

本发明公开了基于深度强化学习的时间敏感流量在线调度方法，在流量调度平台上加载流量调度模型，并输入网络资源配置、网络拓扑结构以及预调度流量信息；然后建立系统模型；从调度管理中心获取在线流量信息对系统模型进行更新并选择流量调度模型的超参数；然后提取系统模型的特征和在线流量的特征来构建流量调度动作模型，并选取流量调度的最佳动作；判断系统模型中在线流量是否调度成功来构建流量调度奖励模型，然后更新系统模型中的队列资源信息及流量调度模型的网络参数；根据流量调度模型输出的在线流量调度规划结果下发至各交换机的门控列表。本发明提升时间敏感流量调度时交换机队列的资源利用率，同时增强网络的传输性。

Description

基于深度强化学习的时间敏感流量在线调度方法及装置

技术领域

本发明涉及交换网络技术领域，具体是基于深度强化学习的时间敏感流量在线调度方法及装置。

背景技术

在许多网络物理系统中，传统通信网络已经不能满足越来越多的数据和广泛分布的网络需求，例如航空电子领域的通信网络，当前传统的基于1553B、CAN总线协议的技术在不断增长的通信带宽需求方面已经达到极限。同时，为了满足高带宽、高可靠性、高实时性、高可扩展性的协议需求，以传统以太网为网络基础，时间敏感网络通过精准的时钟同步、高精度的数据调度和智能化网络配置等机制提供了技术保障。为了实现流量的精确转发控制，时间敏感网络使用时间感知机制，根据时间控制交换机出口端口队列上的门开关状态，但是这一机制需要通过复杂的计算为交换机每个出端口的每个队列配置门控列表。

作为时间感知机制的简化版本，循环队列转发机制为时间敏感数据提供确定性及易于计算的延迟，而无需复杂的交换机配置。例如，在不超过交换机队列总容量的前提下，可以将多个时间敏感数据聚合到同一个队列中，而无需考虑数据包的输入和输出时序。然而，网络交换机的队列长度有限，一旦某一队列溢出，相应的时间敏感数据将被丢弃，从而降低了网络传输性能，且造成了其他队列资源的浪费。同时，网络流量调度通常采用静态计算的方法，这需要提前花费几小时计算所有的时间敏感流，巨大的计算开销使静态流量调度方法不适用时间敏感网络所考虑的自动化、实时性场景。因此如何提高网络传输性能和资源利用率，同时兼顾数据传输的实时性，已成为时间敏感网络研究中亟待解决的问题。

发明内容

本发明要解决的技术问题是提供基于深度强化学习的时间敏感流量在线调度方法及装置，用以解决现有技术中存在的网络资源利用率低、流量传输性能差及调度实时性低的技术问题。

为了解决上述技术问题，本发明提供基于深度强化学习的时间敏感流量在线调度方法，包括过程如下：

S1、从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息；

S2、在流量调度平台上加载训练好的流量调度模型，并输入网络资源配置、网络拓扑结构以及预调度流量信息；然后测出流量调度模型在流量调度平台上的网络参数；

S3、根据循环队列转发机制对时间敏感网络的流量调度进行系统建模；

S4、从调度管理中心获取时间敏感网络需调度的在线流量信息对步骤S3建立的系统模型进行更新以及选择流量调度模型的超参数；

S5、根据步骤S4更新后的系统模型和在线流量的信息构建流量调度状态模型；

S6、采用全连接的卷积神经网络对步骤S5建立的流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型，对流量调度动作模型利用贪婪策略选取流量调度的最佳动作；

S7、判断系统模型中在线流量是否调度成功，根据判断结果构建流量调度奖励模型，根据流量调度奖励模型的结果更新系统模型中的队列资源信息及流量调度模型的网络参数；

S8：根据流量调度模型输出的在线流量调度规划结果，下发至流量调度平台中各交换机的门控列表，各交换机需要根据门控列表开启对应的时隙的对应队列，完成调度。

作为本发明的基于深度强化学习的时间敏感流量在线调度方法的改进：

步骤S3所述进行系统建模的过程为：

S3.1：根据流量调度平台上的时间敏感网络的网络资源配置和网络拓扑信息将网络构建为有向图G＝{V，L}，其中V代表网络交换机节点和端系统的集合，L代表各节点之间的物理链路连接；

S3.2：根据网络中的交换机资源配置，构建链路实例信息；

S3.3：根据预调度流量信息和链路实例信息，构建数据流实例信息，并获得数据流需经过的交换机节点集合；

S3.4：根据链路实例信息和数据流实例信息，构建数据帧实例信息，然后构建网络交换机的门控配置；

S3.5：结合循环队列转发机制的关键调度约束，计算数据帧满足约束可能的调度时隙范围，选择最佳调度时隙对时间敏感网络的流量调度进行系统建模，建立的系统模型存储在流量调度平台上。

作为本发明的基于深度强化学习的时间敏感流量在线调度方法的进一步改进：

步骤S5所述流量调度状态模型为：

从流量调度平台获取当前流量信息和队列资源分配情况并联合组成流量调度状态模型：

s＝<flow，C>

其中，flow为当前流量信息，C表示当前状态下的队列资源分配情况。

步骤S6中所述流量调度动作模型包含所有交换机各队列在各时隙下开启或关闭的状态集合；所述流量调度的最佳动作的动作信息可以表示为：a_t＝[a_t,1，...，a_t,n，...，a_t,M*N]，a_t,n∈{0，1}，其中，a_t,n表示在时间间隔t交换机队列n的动作，0和1分别表示关闭和开启。

步骤S7中所述流量调度奖励模型的构建过程为：

S7.1、根据流量调度平台上链路带宽、预留带宽和队列长度参数，计算流量调度平台的交换机队列带宽资源利用率及队列中的带宽剩余大小；

S7.2、根据步骤S6所述流量调度的最佳动作，执行对应在线流量的时隙及队列调度，对在线流量调度进行规划配置；

S7.3、判断在线流量是否满足所述系统模型的基于IEEE 802.1Qch标准的全部功能规范技术约束和系统参数约束，若满足，在线流量调度成功，若不满足，在线流量调度失败，将步骤7.2的执行结果清空；

S7.4、构建流量调度奖励模型：

其中，Fail为在线流量调度失败时的奖励值，cap和cap′分别表示当前系统链路中的最大占用带宽和采取动作后系统链路中的最大占用带宽，α是惩罚系数；

然后根据步骤7.3在线流量调度是否成功的判断结果，若调度失败按式(2)给出奖励值Fail，否则回到步骤7.1重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余，根据执行流量调度的最佳动作前后的带宽资源利用率变化，按式(2)给出调度成功的奖励值。

所述流量调度模型为双重深度Q网络；

所述流量调度模型在流量调度平台的网络参数包括经验回放缓存的最大容量、批次大小、目标网络参数更新次数；

所述网络资源配置包括链路带宽、预留带宽大小、交换机的队列长度参数。

本发明还同时提供基于深度强化学习的时间敏感流量在线调度方法所使用的在线调度装置：

包括依次信号连接的第一获取模块、生成模块、第二获取模块、计算模块、执行模块、判断模块和发送模块，设置模块与第二获取模块信号相连，第一获取模块与调度管理中心信号连接，发送模块与各个交换机信号相连。

作为本发明的在线调度装置的改进：

所述第一获取模块用于从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息；

所述生成模块用于根据循环队列转发机制对时间敏感网络的流量调度进行系统建模；

所述第二获取模块用于获取时间敏感网络需要调度的在线流量信息；

所述设置模块用于根据系统模型和在线流量的信息构建流量调度状态模型；

所述计算模块用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型；

所述执行模块用于对流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型，对流量调度动作模型选取流量调度的最佳动作；

所述判断模块用于判断系统模型中在线流量是否调度成功，根据判断结果构建流量调度奖励模型并更新系统模型及流量调度模型；

所述发送模块用于根据流量调度模型输出的在线流量调度规划结果，下发至流量调度平台中各交换机的门控列表。

本发明的有益效果主要体现在：

1、本发明选用双重深度Q网络作为流量调度模型，对流量调度平台的资源配置信息和网络拓扑信息进行动态调整，从而减少了在线流量调度时的规划配置时间开销；

2、本发明通过流量调度奖励模型目标值的设定以及系统模型的更新，提升时间敏感流量调度时交换机队列的资源利用率，同时增强网络的传输性；

3、本发明根据深度强化学习神经网络对流量调度状态模型进行特征提取并构建动作模型，神经网络输入向量的维度与实际系统模型中的网络交换机数量、系统模型的网络拓扑结构及交换机队列的数量等均无关，而只与系统模型中交换机队列的带宽资源利用率相关，网络拓扑发生变化时不需要再对神经网络进行调整，做到拓扑无关，提高算法的容错性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明的基于深度强化学习的时间敏感流量在线调度方法示意图；

图2为本发明根据循环队列转发机制对时间敏感网络的流量调度进行系统建模的流程图；

图3为本发明的根据判断系统模型中在线流量是否调度成功的结果构建流量调度奖励模型并更新系统模型的流程图；

图4为本发明的基于深度强化学习的时间敏感流量在线调度方法对应的在线调度装置的框图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1、基于深度强化学习的时间敏感流量在线调度方法，如图1所示，具体步骤如下：

1、离线训练适合不同网络资源和网络拓扑结构的时间敏感型的流量调度模型，并测量出流量调度模型在流量调度平台上的网络参数，并将模型及相关信息装载在流量调度平台上。

在离线计算机上对不同时间敏感网络资源配置和时间敏感网络拓扑结构的流量调度模型做训练，考虑到时间敏感流量信息的数量多且实时性要求较强，采用传统方法直接求解会产生较高的算法复杂度和时间成本，因此，流量调度模型采用网络问题中常用的双重深度Q网络算法框架，借助基于深度强化学习的方法，提高问题求解的高效性和最优分配。然后将训练好的流量调度模型再装载在流量调度平台内，并再输入对应网络资源配置、网络拓扑结构以及预调度流量信息，实验测量出流量调度模型在该流量调度平台的网络参数，网络参数主要包括经验回放缓存的最大容量、批次大小、目标网络参数更新次数。在具体实施中，流量调度平台指的是可运行深度神经网络模型的硬件设备，包含人工智能处理器、通用处理器、图形处理器、现场可编程逻辑门阵列等设备。

离线训练有利于在实际运行时动态且准确预算模型参数，使得在有限的计算资源下获得调度结果最佳的规划配置。流量调度平台上还设置预调度流量信息用于检测流量调度规划结果是否满足循环队列转发机制及流量调度模型的参数是否合理，根据实际的在线流量调度信息可以更加准确的配置交换机的门控列表，流量调度模型的参数设置可以进行在线流量调度的规划，避免连续时隙内交换机队列大量资源的浪费，他们的设置可以有效地避免浪费计算资源过度规划调度。此外，流量调度平台还包含网络资源配置，它包整个网络的配置信息，如链路带宽、预留带宽大小、交换机的队列长度参数等等。

2、从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息；

通过网络物理系统中感知层包括传感器、摄像头等识别物体并采集相应的工业数据，然后调度管理中心对工业数据进行接入和管理，读取到流量调度平台的存储空间内，即在流量调度平台的存储空间生成预调度流量信息。

3：根据循环队列转发机制对时间敏感网络的流量调度进行系统建模，如图2所示；

3.1：根据流量调度平台上的时间敏感网络的网络资源配置和网络拓扑信息将网络构建为有向图G＝{V，L}，其中V代表网络交换机节点和端系统的集合，端系统是时间敏感流的源节点和目标节点，数据只能在终端之间相互交换，而交换机只进行数据的转发，在一个时隙内，数据只完成一跳的传输。L代表各节点之间的物理链路连接，

表示节点之间的链路，其中所有物理链路都是基于以太网的全双工链路。

3.2：根据网络中的交换机资源配置，构建链路实例信息；

根据网络中的数据流通信路径即路由信息，将两个相连接节点之间的链路表示为[v_a，v_b]，第一个节点v_a为源节点，第二个节点v_b为目标节点，且为单个调度资源，即从调度的角度来看，[v_a，v_b]和[v_b，v_a]的调度方向不同，这两个链路是两种不同的资源。每个链路实例信息包含传输速度、传输延迟及出口端口可用队列信息，其中链路传输延迟是由介质上的传播延迟引起的。

3.3：根据预调度流量信息和链路实例信息，构建数据流实例信息；

将发送节点到接收节点周期性传输的数据称为数据流实例信息，每个数据流实例信息包含源节点、目标节点、数据包大小、发送周期、最大允许端到端延迟信息及路由信息，根据数据流实例信息的路由信息得到数据流需经过的交换机节点集合。

3.4：根据链路实例信息和数据流实例信息，构建数据帧实例信息，将数据流粒度进一步分割，进而优化流量调度规划的时隙选择范围；

根据网络中各链路上的数据流实例信息，可以进一步将数据流划分为数据帧实例信息，链路每个数据帧实例信息包括偏移量、持续传输时间、周期及存储队列信息，其中，数据帧实例信息的偏移量即数据帧从源节点发送时对应的时隙，根据数据帧实例信息的偏移量可构建网络交换机的门控配置；数据帧实例信息的持续传输时间

可由数据流实例信息的数据包大小信息(s_i.size)和链路实例信息的传输速度([v_a，vb].s)计算得出，即：

其中，slot是调度规划的时隙长度。

例如，根据IEEE 802.1Q标准，每个流不能传输超过最大传输单元的数据，即1542字节，那么计算可得一个最大传输单元的以太网帧在传输速度为1Gbit/sec的链路上的持续时间为12.336μsec。

3.5：结合循环队列转发机制的关键调度约束，计算数据帧满足约束可能的调度时隙范围，选择最佳调度时隙对时间敏感网络的流量调度进行系统建模，建立的系统模型存储在流量调度平台上；

根据IEEE 802.1Qch标准，循环队列转发机制应满足功能规范技术约束和系统参数约束，规划出合理的调度时隙范围，其中时隙的最大长度为所有数据流实例发送周期的最大公倍数。根据IEEE 802.1Qch标准进而计算得到数据帧实例信息的偏移信息及交换机存储队列信息，数据帧实例信息的偏移信息及交换机存储队列信息可结合数据流实例信息对网络交换机的进行流量调度规划，得到流量调度规划配置并存储至流量调度平台中。

4：获取时间敏感网络需调度的在线流量信息对步骤3.5建立的系统模型进行更新以及选择流量调度模型的超参数；

从调度管理中心获取在线流量信息并转化为数据流实例信息及数据帧实例信息，并更新步骤3.5建立的规定时隙的系统模型，根据系统模型及数据帧实例信息的周期信息从流量调度平台选择流量调度模型的超参数，包括折扣因子、学习率和批量大小等，可以避免因为网络拓扑或时间敏感流的信息变化对流量调度模型造成的不利影响。

5：根据步骤4更新后的系统模型和在线流量的信息构建流量调度状态模型；

从流量调度平台获取当前流量信息flow和队列资源分配情况C，将当前流量信息和队列资源联合组成流量调度状态模型，即s＝<flow，C>，随着网络中输入的流量数量不断增加，各个交换机的队列资源越来越少，C则表示当前状态下的队列资源分配情况。若系统模型中共有M个交换机，各个交换机有N个队列，所有数据流实例信息根据调度周期可以划分为k个时隙，则流量调度状态模型应该至少包含一个M*N行k列的矩阵。

6：根据步骤5建立的流量调度状态模型提取系统模型的特征和在线流量的特征构建流量调度动作模型，对流量调度动作模型执行动作选择策略，得到流量调度的最佳动作；

采用全连接的卷积神经网络对流量调度状态模型进行特征提取并构建流量调度动作模型，流量调度动作模型包含所有交换机各队列在各时隙下开启或关闭的状态集合，基于流量调度动作模型利用贪婪策略选取流量调度的最佳动作，动作信息可以表示为一个向量a_t＝[a_t,1，...，a_t,n，...，a_t,M*N]，a_t,n∈{0，1}，其中，a_t,n表示在时间间隔t交换机队列n的动作，0和1分别表示关闭和开启，流量调度动作模型中非零元素的个数就是系统中某一时隙交换机队列调度开启的个数。

这种数据处理方式的优点在于：神经网络输入向量的维度与实际系统模型中的网络交换机数量、系统模型的网络拓扑结构及交换机队列的数量等均无关，而只与系统模型中交换机队列的带宽资源利用率相关，网络拓扑发生变化时不需要再对神经网络进行调整，做到拓扑无关，提高算法的容错性。

7：判断系统模型中在线流量是否调度成功，根据判断结果构建流量调度奖励模型并更新系统模型；具体地，如图3所示，包括以下过程：

7.1：计算流量调度平台交换机队列带宽资源利用率及带宽剩余；

根据流量调度平台上链路带宽、预留带宽和队列长度参数，计算已调度流量的队列带宽资源占比及队列中的剩余带宽大小。

7.2：根据流量调度的最佳动作在流量调度平台上执行在线流量的时隙及队列规划；

根据步骤6得到的流量调度最佳动作，执行对应在线流量的时隙及队列调度，即对在线流量调度进行规划配置。

7.3：判断在线流量是否满足系统模型的基于IEEE 802.1Qch标准的全部功能规范技术约束和系统参数约束，若满足，在线流量调度成功；

否则，在线流量调度失败，将步骤7.2的执行结果清空；例如，根据所述在线流量调度规划结果，若存在流量调度规划不满足调度约束，如，时隙规划不合理导致端到端时延超出系统参数值，或队列规划不合理导致数据包丢失等情况，将被判为调度失败，将调度失败的在线流量规划结果清空。

7.4：构建流量调度奖励模型，然后根据步骤7.3在线流量调度是否成功的判断结果，重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余；

流量调度奖励模型的构建主要考虑两个方面，一是当前流的调度规划是否满足其带宽需求，二是选择的交换机的队列带宽剩余大小，因为对于同样的一条时间敏感流的调度规划，其交换机上队列带宽剩余越小则占用整个网络的资源越多，越不利于网络容纳更多的流。流量调度奖励模型如下公式所示：

其中，Fail为在线流量调度失败时的奖励值，cap和cap′分别表示当前系统链路中的最大占用带宽和采取动作后系统链路中的最大占用带宽，α是惩罚系数，该项属于惩罚项，故前面加负号。在具体实施中，若调度失败则给出奖励为Fail，否则回到步骤7.1重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余，根据执行流量调度的最佳动作前后的带宽资源利用率变化，按式(2)给出调度成功的奖励值。

7.5：根据流量调度奖励模型结果，即reward值，更新系统模型中的队列资源信息及流量调度平台上流量调度模型的网络参数，并输出在线流量调度规划结果；

将流量调度奖励模型及调度规划结果写入系统模型，对系统模型中的队列资源重新分配，流量调度平台根据由在线流量调度状态模型、流量调度动作模型、流量调度奖励模型及下一条流量调度的状态组成的一组数据，更新流量调度模型的网络参数，并输出在线流量调度规划结果。

8：根据流量调度模型输出的在线流量调度规划结果，下发至流量调度平台中各交换机的门控列表。

当前流量的调度规划已确定，也就是确定了在流量调度平台中，当前流量路径上到达各交换机进行调度的时隙和队列，各交换机需要根据门控列表开启对应的时隙的对应队列，进而完成调度。

由上述实施例可知，本申请可选不同的流量调度模型，对流量调度平台的资源配置信息和网络拓扑信息进行动态调整，从而减少了在线流量调度时的规划配置时间开销；根据流量调度平台信息，实现系统模型、流量调度状态模型、流量调度动作模型、流量调度奖励模型的构建；通过流量调度奖励模型目标值的设定以及系统模型的更新，从而提升时间敏感流量调度时交换机队列的资源利用率，同时增强网络的传输性能。

本发明还提供了与基于深度强化学习的时间敏感流量在线调度方法对应的在线调度装置，如图4所示，包括：依次信号连接的第一获取模块21、生成模块22、第二获取模块23、计算模块25、执行模块26、判断模块27和发送模块28，设置模块24与第二获取模块23信号相连，第一获取模块21与调度管理中心信号连接，发送模块与各个交换机信号相连，如图4所示。

第一获取模块21，用于从调度管理中心获取时间敏感网络的资源配置信息和网络拓扑信息；

生成模块22，用于根据循环队列转发机制，生成时间敏感网络流量调度的系统模型；

第二获取模块23，用于获取时间敏感网络需要调度的在线流量信息；

设置模块24，用于根据在线流量信息对系统模型进行更新以及根据资源配置信息和网络拓扑信息对系统模型的流量调度模型进行选择；

计算模块25，用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型；

执行模块26，用于根据所述流量调度状态模型提取系统模型的特征和在线流量的特征构建流量调度的动作模型，对所述动作模型执行动作选择策略，得到流量调度的最佳动作；

判断模块27，用于判断系统模型中在线流量是否调度成功，根据判断结果构建流量调度奖励模型并更新系统模型；

发送模块28，用于根据流量调度模型输出的在线流量调度规划结果，下发至流量调度平台中各交换机的门控列表。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经进行了详细描述，此处将不做重复阐述说明。

实验：

实验采用仿真环境，深度学习框架采用Pytorch，在一台配置Intel Core i7-10700 CPU(2.9GHz)和32GB的RAM的计算机上完成。设置流量调度平台中的网络资源配置为链路带宽1000Mb/s、预留带宽大小50Kbit，队列长度初始值为最大传输单位的10倍即15000B，以保证数据传输的完整性。实验参考国际电工委员会(IEC)/IEEE 60802中描述的工业自动化网络流量特征随机生成500条流量信息。根据实验过程中双重深度Q网络的训练和收敛经验，设置Fail为-20。本发明的实验与主流离线调度方法SMT算法进行对比，采用目前最流行的Z3求解器对SMT问题进行编码。

在两种不同的拓扑结构上，对本发明与主流离线调度方法SMT算法进行对比测试，验证本发明的性能，网络大小以及所选择的配置受到工业用例的启发，采用的拓扑为工业控制中采用的线性拓扑和环形拓扑，都包含8个交换机。线性拓扑的流量数据在交换机节点中可以双向传输，环形拓扑的流量数据在交换机节点之间只能沿着一个方面进行传输，基于线性拓扑的网络中的流可以双向传输。由于队列分析方法的应用不受网络规模限制，每个交换机的端口数量相同。

网络中链路的容量为B，预留带宽为Preserve，通过各个交换机的门控制列表(GCL)可以得到每个时隙每个队列的帧数量，用α_t来表示，数据帧实例的大小为f_i.szie，进而可以计算每个流在各时隙的负载占用大小，用C_i来表示，则：

因此带宽资源利用率即带宽满意度的公式为：

其中，sum_flow为流量信息的总数，预设为500条。

本发明在线性拓扑和环形拓扑下，带宽满意度分别为98.7％和85.2％，带宽满意度在环形拓扑下与在线性拓扑下相比略有下降，原因是环形拓扑中所有交换机之间只能够进行单向传输，而线性拓扑是双向传输的，因此环形拓扑上调度的流很容易聚集在相同的资源块上。而SMT算法的带宽满意度分别为52.1％和46.8％，本发明与SMT算法相比带宽满意度分别提升了1.89倍、1.82倍。在数据传输的实时性方面，本发明能够达到毫秒级，即170ms，而SMT需要耗时11.4s，本发明在实时性方面提升了两个数量级，因为深度强化学习中的神经网络能够有效提取流量特征，减少计算时间开销。

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.基于深度强化学习的时间敏感流量在线调度方法，其特征在于：包括过程如下：

2.根据权利要求1所述的基于深度强化学习的时间敏感流量在线调度方法，其特征在于：

步骤S3所述进行系统建模的过程为：

S3.2：根据网络中的交换机资源配置，构建链路实例信息；

3.根据权利要求2所述的基于深度强化学习的时间敏感流量在线调度方法，其特征在于：

步骤S5所述流量调度状态模型为：

s＝<flow，C>

4.根据权利要求3所述的基于深度强化学习的时间敏感流量在线调度方法，其特征在于：

5.根据权利要求4所述的基于深度强化学习的时间敏感流量在线调度方法，其特征在于：

步骤S7中所述流量调度奖励模型的构建过程为：

S7.4、构建流量调度奖励模型：

6.根据权利要求5所述的基于深度强化学习的时间敏感流量在线调度方法，其特征在于：

所述流量调度模型为双重深度Q网络；

7.如权利要求1～6任一所述的基于深度强化学习的时间敏感流量在线调度方法所使用的在线调度装置，其特征在于：

包括依次信号连接的第一获取模块(21)、生成模块(22)、第二获取模块(23)、计算模块(25)、执行模块(26)、判断模块(27)和发送模块(28)，设置模块(24)与第二获取模块(23)信号相连，第一获取模块(21)与调度管理中心信号连接，发送模块与各个交换机信号相连。

8.根据权利要求7所述的在线调度装置，其特征在于：

所述第一获取模块(21)用于从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息；

所述生成模块(22)用于根据循环队列转发机制对时间敏感网络的流量调度进行系统建模；

所述第二获取模块(23)用于获取时间敏感网络需要调度的在线流量信息；

所述设置模块(24)用于根据系统模型和在线流量的信息构建流量调度状态模型；

所述计算模块(25)用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型；

所述执行模块(26)用于对流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型，对流量调度动作模型选取流量调度的最佳动作；

所述判断模块(27)用于判断系统模型中在线流量是否调度成功，根据判断结果构建流量调度奖励模型并更新系统模型及流量调度模型；

所述发送模块(28)用于根据流量调度模型输出的在线流量调度规划结果，下发至流量调度平台中各交换机的门控列表。