CN115567466A - 基于深度强化学习的时间敏感流量在线调度方法及装置 - Google Patents

基于深度强化学习的时间敏感流量在线调度方法及装置 Download PDF

Info

Publication number
CN115567466A
CN115567466A CN202211204257.XA CN202211204257A CN115567466A CN 115567466 A CN115567466 A CN 115567466A CN 202211204257 A CN202211204257 A CN 202211204257A CN 115567466 A CN115567466 A CN 115567466A
Authority
CN
China
Prior art keywords
scheduling
flow
model
traffic
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211204257.XA
Other languages
English (en)
Inventor
刘鹏
洪心怡
席宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202211204257.XA priority Critical patent/CN115567466A/zh
Publication of CN115567466A publication Critical patent/CN115567466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/25Routing or path finding in a switch fabric
    • H04L49/253Routing or path finding in a switch fabric using establishment or release of connections between ports
    • H04L49/254Centralised controller, i.e. arbitration or scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/20Support for services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于深度强化学习的时间敏感流量在线调度方法,在流量调度平台上加载流量调度模型,并输入网络资源配置、网络拓扑结构以及预调度流量信息;然后建立系统模型;从调度管理中心获取在线流量信息对系统模型进行更新并选择流量调度模型的超参数;然后提取系统模型的特征和在线流量的特征来构建流量调度动作模型,并选取流量调度的最佳动作;判断系统模型中在线流量是否调度成功来构建流量调度奖励模型,然后更新系统模型中的队列资源信息及流量调度模型的网络参数;根据流量调度模型输出的在线流量调度规划结果下发至各交换机的门控列表。本发明提升时间敏感流量调度时交换机队列的资源利用率,同时增强网络的传输性。

Description

基于深度强化学习的时间敏感流量在线调度方法及装置
技术领域
本发明涉及交换网络技术领域,具体是基于深度强化学习的时间敏感流量在线调度方法及装置。
背景技术
在许多网络物理系统中,传统通信网络已经不能满足越来越多的数据和广泛分布的网络需求,例如航空电子领域的通信网络,当前传统的基于1553B、CAN总线协议的技术在不断增长的通信带宽需求方面已经达到极限。同时,为了满足高带宽、高可靠性、高实时性、高可扩展性的协议需求,以传统以太网为网络基础,时间敏感网络通过精准的时钟同步、高精度的数据调度和智能化网络配置等机制提供了技术保障。为了实现流量的精确转发控制,时间敏感网络使用时间感知机制,根据时间控制交换机出口端口队列上的门开关状态,但是这一机制需要通过复杂的计算为交换机每个出端口的每个队列配置门控列表。
作为时间感知机制的简化版本,循环队列转发机制为时间敏感数据提供确定性及易于计算的延迟,而无需复杂的交换机配置。例如,在不超过交换机队列总容量的前提下,可以将多个时间敏感数据聚合到同一个队列中,而无需考虑数据包的输入和输出时序。然而,网络交换机的队列长度有限,一旦某一队列溢出,相应的时间敏感数据将被丢弃,从而降低了网络传输性能,且造成了其他队列资源的浪费。同时,网络流量调度通常采用静态计算的方法,这需要提前花费几小时计算所有的时间敏感流,巨大的计算开销使静态流量调度方法不适用时间敏感网络所考虑的自动化、实时性场景。因此如何提高网络传输性能和资源利用率,同时兼顾数据传输的实时性,已成为时间敏感网络研究中亟待解决的问题。
发明内容
本发明要解决的技术问题是提供基于深度强化学习的时间敏感流量在线调度方法及装置,用以解决现有技术中存在的网络资源利用率低、流量传输性能差及调度实时性低的技术问题。
为了解决上述技术问题,本发明提供基于深度强化学习的时间敏感流量在线调度方法,包括过程如下:
S1、从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息;
S2、在流量调度平台上加载训练好的流量调度模型,并输入网络资源配置、网络拓扑结构以及预调度流量信息;然后测出流量调度模型在流量调度平台上的网络参数;
S3、根据循环队列转发机制对时间敏感网络的流量调度进行系统建模;
S4、从调度管理中心获取时间敏感网络需调度的在线流量信息对步骤S3建立的系统模型进行更新以及选择流量调度模型的超参数;
S5、根据步骤S4更新后的系统模型和在线流量的信息构建流量调度状态模型;
S6、采用全连接的卷积神经网络对步骤S5建立的流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型,对流量调度动作模型利用贪婪策略选取流量调度的最佳动作;
S7、判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型,根据流量调度奖励模型的结果更新系统模型中的队列资源信息及流量调度模型的网络参数;
S8:根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表,各交换机需要根据门控列表开启对应的时隙的对应队列,完成调度。
作为本发明的基于深度强化学习的时间敏感流量在线调度方法的改进:
步骤S3所述进行系统建模的过程为:
S3.1:根据流量调度平台上的时间敏感网络的网络资源配置和网络拓扑信息将网络构建为有向图G={V,L},其中V代表网络交换机节点和端系统的集合,L代表各节点之间的物理链路连接;
S3.2:根据网络中的交换机资源配置,构建链路实例信息;
S3.3:根据预调度流量信息和链路实例信息,构建数据流实例信息,并获得数据流需经过的交换机节点集合;
S3.4:根据链路实例信息和数据流实例信息,构建数据帧实例信息,然后构建网络交换机的门控配置;
S3.5:结合循环队列转发机制的关键调度约束,计算数据帧满足约束可能的调度时隙范围,选择最佳调度时隙对时间敏感网络的流量调度进行系统建模,建立的系统模型存储在流量调度平台上。
作为本发明的基于深度强化学习的时间敏感流量在线调度方法的进一步改进:
步骤S5所述流量调度状态模型为:
从流量调度平台获取当前流量信息和队列资源分配情况并联合组成流量调度状态模型:
s=<flow,C>
其中,flow为当前流量信息,C表示当前状态下的队列资源分配情况。
作为本发明的基于深度强化学习的时间敏感流量在线调度方法的进一步改进:
步骤S6中所述流量调度动作模型包含所有交换机各队列在各时隙下开启或关闭的状态集合;所述流量调度的最佳动作的动作信息可以表示为:at=[at,1,...,at,n,...,at,M*N],at,n∈{0,1},其中,at,n表示在时间间隔t交换机队列n的动作,0和1分别表示关闭和开启。
作为本发明的基于深度强化学习的时间敏感流量在线调度方法的进一步改进:
步骤S7中所述流量调度奖励模型的构建过程为:
S7.1、根据流量调度平台上链路带宽、预留带宽和队列长度参数,计算流量调度平台的交换机队列带宽资源利用率及队列中的带宽剩余大小;
S7.2、根据步骤S6所述流量调度的最佳动作,执行对应在线流量的时隙及队列调度,对在线流量调度进行规划配置;
S7.3、判断在线流量是否满足所述系统模型的基于IEEE 802.1Qch标准的全部功能规范技术约束和系统参数约束,若满足,在线流量调度成功,若不满足,在线流量调度失败,将步骤7.2的执行结果清空;
S7.4、构建流量调度奖励模型:
Figure BDA0003872952490000031
其中,Fail为在线流量调度失败时的奖励值,cap和cap′分别表示当前系统链路中的最大占用带宽和采取动作后系统链路中的最大占用带宽,α是惩罚系数;
然后根据步骤7.3在线流量调度是否成功的判断结果,若调度失败按式(2)给出奖励值Fail,否则回到步骤7.1重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余,根据执行流量调度的最佳动作前后的带宽资源利用率变化,按式(2)给出调度成功的奖励值。
作为本发明的基于深度强化学习的时间敏感流量在线调度方法的进一步改进:
所述流量调度模型为双重深度Q网络;
所述流量调度模型在流量调度平台的网络参数包括经验回放缓存的最大容量、批次大小、目标网络参数更新次数;
所述网络资源配置包括链路带宽、预留带宽大小、交换机的队列长度参数。
本发明还同时提供基于深度强化学习的时间敏感流量在线调度方法所使用的在线调度装置:
包括依次信号连接的第一获取模块、生成模块、第二获取模块、计算模块、执行模块、判断模块和发送模块,设置模块与第二获取模块信号相连,第一获取模块与调度管理中心信号连接,发送模块与各个交换机信号相连。
作为本发明的在线调度装置的改进:
所述第一获取模块用于从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息;
所述生成模块用于根据循环队列转发机制对时间敏感网络的流量调度进行系统建模;
所述第二获取模块用于获取时间敏感网络需要调度的在线流量信息;
所述设置模块用于根据系统模型和在线流量的信息构建流量调度状态模型;
所述计算模块用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型;
所述执行模块用于对流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型,对流量调度动作模型选取流量调度的最佳动作;
所述判断模块用于判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型并更新系统模型及流量调度模型;
所述发送模块用于根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表。
本发明的有益效果主要体现在:
1、本发明选用双重深度Q网络作为流量调度模型,对流量调度平台的资源配置信息和网络拓扑信息进行动态调整,从而减少了在线流量调度时的规划配置时间开销;
2、本发明通过流量调度奖励模型目标值的设定以及系统模型的更新,提升时间敏感流量调度时交换机队列的资源利用率,同时增强网络的传输性;
3、本发明根据深度强化学习神经网络对流量调度状态模型进行特征提取并构建动作模型,神经网络输入向量的维度与实际系统模型中的网络交换机数量、系统模型的网络拓扑结构及交换机队列的数量等均无关,而只与系统模型中交换机队列的带宽资源利用率相关,网络拓扑发生变化时不需要再对神经网络进行调整,做到拓扑无关,提高算法的容错性。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为本发明的基于深度强化学习的时间敏感流量在线调度方法示意图;
图2为本发明根据循环队列转发机制对时间敏感网络的流量调度进行系统建模的流程图;
图3为本发明的根据判断系统模型中在线流量是否调度成功的结果构建流量调度奖励模型并更新系统模型的流程图;
图4为本发明的基于深度强化学习的时间敏感流量在线调度方法对应的在线调度装置的框图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例1、基于深度强化学习的时间敏感流量在线调度方法,如图1所示,具体步骤如下:
1、离线训练适合不同网络资源和网络拓扑结构的时间敏感型的流量调度模型,并测量出流量调度模型在流量调度平台上的网络参数,并将模型及相关信息装载在流量调度平台上。
在离线计算机上对不同时间敏感网络资源配置和时间敏感网络拓扑结构的流量调度模型做训练,考虑到时间敏感流量信息的数量多且实时性要求较强,采用传统方法直接求解会产生较高的算法复杂度和时间成本,因此,流量调度模型采用网络问题中常用的双重深度Q网络算法框架,借助基于深度强化学习的方法,提高问题求解的高效性和最优分配。然后将训练好的流量调度模型再装载在流量调度平台内,并再输入对应网络资源配置、网络拓扑结构以及预调度流量信息,实验测量出流量调度模型在该流量调度平台的网络参数,网络参数主要包括经验回放缓存的最大容量、批次大小、目标网络参数更新次数。在具体实施中,流量调度平台指的是可运行深度神经网络模型的硬件设备,包含人工智能处理器、通用处理器、图形处理器、现场可编程逻辑门阵列等设备。
离线训练有利于在实际运行时动态且准确预算模型参数,使得在有限的计算资源下获得调度结果最佳的规划配置。流量调度平台上还设置预调度流量信息用于检测流量调度规划结果是否满足循环队列转发机制及流量调度模型的参数是否合理,根据实际的在线流量调度信息可以更加准确的配置交换机的门控列表,流量调度模型的参数设置可以进行在线流量调度的规划,避免连续时隙内交换机队列大量资源的浪费,他们的设置可以有效地避免浪费计算资源过度规划调度。此外,流量调度平台还包含网络资源配置,它包整个网络的配置信息,如链路带宽、预留带宽大小、交换机的队列长度参数等等。
2、从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息;
通过网络物理系统中感知层包括传感器、摄像头等识别物体并采集相应的工业数据,然后调度管理中心对工业数据进行接入和管理,读取到流量调度平台的存储空间内,即在流量调度平台的存储空间生成预调度流量信息。
3:根据循环队列转发机制对时间敏感网络的流量调度进行系统建模,如图2所示;
3.1:根据流量调度平台上的时间敏感网络的网络资源配置和网络拓扑信息将网络构建为有向图G={V,L},其中V代表网络交换机节点和端系统的集合,端系统是时间敏感流的源节点和目标节点,数据只能在终端之间相互交换,而交换机只进行数据的转发,在一个时隙内,数据只完成一跳的传输。L代表各节点之间的物理链路连接,
Figure BDA0003872952490000061
表示节点之间的链路,其中所有物理链路都是基于以太网的全双工链路。
3.2:根据网络中的交换机资源配置,构建链路实例信息;
根据网络中的数据流通信路径即路由信息,将两个相连接节点之间的链路表示为[va,vb],第一个节点va为源节点,第二个节点vb为目标节点,且为单个调度资源,即从调度的角度来看,[va,vb]和[vb,va]的调度方向不同,这两个链路是两种不同的资源。每个链路实例信息包含传输速度、传输延迟及出口端口可用队列信息,其中链路传输延迟是由介质上的传播延迟引起的。
3.3:根据预调度流量信息和链路实例信息,构建数据流实例信息;
将发送节点到接收节点周期性传输的数据称为数据流实例信息,每个数据流实例信息包含源节点、目标节点、数据包大小、发送周期、最大允许端到端延迟信息及路由信息,根据数据流实例信息的路由信息得到数据流需经过的交换机节点集合。
3.4:根据链路实例信息和数据流实例信息,构建数据帧实例信息,将数据流粒度进一步分割,进而优化流量调度规划的时隙选择范围;
根据网络中各链路上的数据流实例信息,可以进一步将数据流划分为数据帧实例信息,链路每个数据帧实例信息包括偏移量、持续传输时间、周期及存储队列信息,其中,数据帧实例信息的偏移量即数据帧从源节点发送时对应的时隙,根据数据帧实例信息的偏移量可构建网络交换机的门控配置;数据帧实例信息的持续传输时间
Figure BDA0003872952490000062
可由数据流实例信息的数据包大小信息(si.size)和链路实例信息的传输速度([va,vb].s)计算得出,即:
Figure BDA0003872952490000063
其中,slot是调度规划的时隙长度。
例如,根据IEEE 802.1Q标准,每个流不能传输超过最大传输单元的数据,即1542字节,那么计算可得一个最大传输单元的以太网帧在传输速度为1Gbit/sec的链路上的持续时间为12.336μsec。
3.5:结合循环队列转发机制的关键调度约束,计算数据帧满足约束可能的调度时隙范围,选择最佳调度时隙对时间敏感网络的流量调度进行系统建模,建立的系统模型存储在流量调度平台上;
根据IEEE 802.1Qch标准,循环队列转发机制应满足功能规范技术约束和系统参数约束,规划出合理的调度时隙范围,其中时隙的最大长度为所有数据流实例发送周期的最大公倍数。根据IEEE 802.1Qch标准进而计算得到数据帧实例信息的偏移信息及交换机存储队列信息,数据帧实例信息的偏移信息及交换机存储队列信息可结合数据流实例信息对网络交换机的进行流量调度规划,得到流量调度规划配置并存储至流量调度平台中。
4:获取时间敏感网络需调度的在线流量信息对步骤3.5建立的系统模型进行更新以及选择流量调度模型的超参数;
从调度管理中心获取在线流量信息并转化为数据流实例信息及数据帧实例信息,并更新步骤3.5建立的规定时隙的系统模型,根据系统模型及数据帧实例信息的周期信息从流量调度平台选择流量调度模型的超参数,包括折扣因子、学习率和批量大小等,可以避免因为网络拓扑或时间敏感流的信息变化对流量调度模型造成的不利影响。
5:根据步骤4更新后的系统模型和在线流量的信息构建流量调度状态模型;
从流量调度平台获取当前流量信息flow和队列资源分配情况C,将当前流量信息和队列资源联合组成流量调度状态模型,即s=<flow,C>,随着网络中输入的流量数量不断增加,各个交换机的队列资源越来越少,C则表示当前状态下的队列资源分配情况。若系统模型中共有M个交换机,各个交换机有N个队列,所有数据流实例信息根据调度周期可以划分为k个时隙,则流量调度状态模型应该至少包含一个M*N行k列的矩阵。
6:根据步骤5建立的流量调度状态模型提取系统模型的特征和在线流量的特征构建流量调度动作模型,对流量调度动作模型执行动作选择策略,得到流量调度的最佳动作;
采用全连接的卷积神经网络对流量调度状态模型进行特征提取并构建流量调度动作模型,流量调度动作模型包含所有交换机各队列在各时隙下开启或关闭的状态集合,基于流量调度动作模型利用贪婪策略选取流量调度的最佳动作,动作信息可以表示为一个向量at=[at,1,...,at,n,...,at,M*N],at,n∈{0,1},其中,at,n表示在时间间隔t交换机队列n的动作,0和1分别表示关闭和开启,流量调度动作模型中非零元素的个数就是系统中某一时隙交换机队列调度开启的个数。
这种数据处理方式的优点在于:神经网络输入向量的维度与实际系统模型中的网络交换机数量、系统模型的网络拓扑结构及交换机队列的数量等均无关,而只与系统模型中交换机队列的带宽资源利用率相关,网络拓扑发生变化时不需要再对神经网络进行调整,做到拓扑无关,提高算法的容错性。
7:判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型并更新系统模型;具体地,如图3所示,包括以下过程:
7.1:计算流量调度平台交换机队列带宽资源利用率及带宽剩余;
根据流量调度平台上链路带宽、预留带宽和队列长度参数,计算已调度流量的队列带宽资源占比及队列中的剩余带宽大小。
7.2:根据流量调度的最佳动作在流量调度平台上执行在线流量的时隙及队列规划;
根据步骤6得到的流量调度最佳动作,执行对应在线流量的时隙及队列调度,即对在线流量调度进行规划配置。
7.3:判断在线流量是否满足系统模型的基于IEEE 802.1Qch标准的全部功能规范技术约束和系统参数约束,若满足,在线流量调度成功;
否则,在线流量调度失败,将步骤7.2的执行结果清空;例如,根据所述在线流量调度规划结果,若存在流量调度规划不满足调度约束,如,时隙规划不合理导致端到端时延超出系统参数值,或队列规划不合理导致数据包丢失等情况,将被判为调度失败,将调度失败的在线流量规划结果清空。
7.4:构建流量调度奖励模型,然后根据步骤7.3在线流量调度是否成功的判断结果,重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余;
流量调度奖励模型的构建主要考虑两个方面,一是当前流的调度规划是否满足其带宽需求,二是选择的交换机的队列带宽剩余大小,因为对于同样的一条时间敏感流的调度规划,其交换机上队列带宽剩余越小则占用整个网络的资源越多,越不利于网络容纳更多的流。流量调度奖励模型如下公式所示:
Figure BDA0003872952490000081
其中,Fail为在线流量调度失败时的奖励值,cap和cap′分别表示当前系统链路中的最大占用带宽和采取动作后系统链路中的最大占用带宽,α是惩罚系数,该项属于惩罚项,故前面加负号。在具体实施中,若调度失败则给出奖励为Fail,否则回到步骤7.1重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余,根据执行流量调度的最佳动作前后的带宽资源利用率变化,按式(2)给出调度成功的奖励值。
7.5:根据流量调度奖励模型结果,即reward值,更新系统模型中的队列资源信息及流量调度平台上流量调度模型的网络参数,并输出在线流量调度规划结果;
将流量调度奖励模型及调度规划结果写入系统模型,对系统模型中的队列资源重新分配,流量调度平台根据由在线流量调度状态模型、流量调度动作模型、流量调度奖励模型及下一条流量调度的状态组成的一组数据,更新流量调度模型的网络参数,并输出在线流量调度规划结果。
8:根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表。
当前流量的调度规划已确定,也就是确定了在流量调度平台中,当前流量路径上到达各交换机进行调度的时隙和队列,各交换机需要根据门控列表开启对应的时隙的对应队列,进而完成调度。
由上述实施例可知,本申请可选不同的流量调度模型,对流量调度平台的资源配置信息和网络拓扑信息进行动态调整,从而减少了在线流量调度时的规划配置时间开销;根据流量调度平台信息,实现系统模型、流量调度状态模型、流量调度动作模型、流量调度奖励模型的构建;通过流量调度奖励模型目标值的设定以及系统模型的更新,从而提升时间敏感流量调度时交换机队列的资源利用率,同时增强网络的传输性能。
本发明还提供了与基于深度强化学习的时间敏感流量在线调度方法对应的在线调度装置,如图4所示,包括:依次信号连接的第一获取模块21、生成模块22、第二获取模块23、计算模块25、执行模块26、判断模块27和发送模块28,设置模块24与第二获取模块23信号相连,第一获取模块21与调度管理中心信号连接,发送模块与各个交换机信号相连,如图4所示。
第一获取模块21,用于从调度管理中心获取时间敏感网络的资源配置信息和网络拓扑信息;
生成模块22,用于根据循环队列转发机制,生成时间敏感网络流量调度的系统模型;
第二获取模块23,用于获取时间敏感网络需要调度的在线流量信息;
设置模块24,用于根据在线流量信息对系统模型进行更新以及根据资源配置信息和网络拓扑信息对系统模型的流量调度模型进行选择;
计算模块25,用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型;
执行模块26,用于根据所述流量调度状态模型提取系统模型的特征和在线流量的特征构建流量调度的动作模型,对所述动作模型执行动作选择策略,得到流量调度的最佳动作;
判断模块27,用于判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型并更新系统模型;
发送模块28,用于根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经进行了详细描述,此处将不做重复阐述说明。
实验:
实验采用仿真环境,深度学习框架采用Pytorch,在一台配置Intel Core i7-10700 CPU(2.9GHz)和32GB的RAM的计算机上完成。设置流量调度平台中的网络资源配置为链路带宽1000Mb/s、预留带宽大小50Kbit,队列长度初始值为最大传输单位的10倍即15000B,以保证数据传输的完整性。实验参考国际电工委员会(IEC)/IEEE 60802中描述的工业自动化网络流量特征随机生成500条流量信息。根据实验过程中双重深度Q网络的训练和收敛经验,设置Fail为-20。本发明的实验与主流离线调度方法SMT算法进行对比,采用目前最流行的Z3求解器对SMT问题进行编码。
在两种不同的拓扑结构上,对本发明与主流离线调度方法SMT算法进行对比测试,验证本发明的性能,网络大小以及所选择的配置受到工业用例的启发,采用的拓扑为工业控制中采用的线性拓扑和环形拓扑,都包含8个交换机。线性拓扑的流量数据在交换机节点中可以双向传输,环形拓扑的流量数据在交换机节点之间只能沿着一个方面进行传输,基于线性拓扑的网络中的流可以双向传输。由于队列分析方法的应用不受网络规模限制,每个交换机的端口数量相同。
网络中链路的容量为B,预留带宽为Preserve,通过各个交换机的门控制列表(GCL)可以得到每个时隙每个队列的帧数量,用αt来表示,数据帧实例的大小为fi.szie,进而可以计算每个流在各时隙的负载占用大小,用Ci来表示,则:
Figure BDA0003872952490000101
因此带宽资源利用率即带宽满意度的公式为:
Figure BDA0003872952490000102
其中,sum_flow为流量信息的总数,预设为500条。
本发明在线性拓扑和环形拓扑下,带宽满意度分别为98.7%和85.2%,带宽满意度在环形拓扑下与在线性拓扑下相比略有下降,原因是环形拓扑中所有交换机之间只能够进行单向传输,而线性拓扑是双向传输的,因此环形拓扑上调度的流很容易聚集在相同的资源块上。而SMT算法的带宽满意度分别为52.1%和46.8%,本发明与SMT算法相比带宽满意度分别提升了1.89倍、1.82倍。在数据传输的实时性方面,本发明能够达到毫秒级,即170ms,而SMT需要耗时11.4s,本发明在实时性方面提升了两个数量级,因为深度强化学习中的神经网络能够有效提取流量特征,减少计算时间开销。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (8)

1.基于深度强化学习的时间敏感流量在线调度方法,其特征在于:包括过程如下:
S1、从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息;
S2、在流量调度平台上加载训练好的流量调度模型,并输入网络资源配置、网络拓扑结构以及预调度流量信息;然后测出流量调度模型在流量调度平台上的网络参数;
S3、根据循环队列转发机制对时间敏感网络的流量调度进行系统建模;
S4、从调度管理中心获取时间敏感网络需调度的在线流量信息对步骤S3建立的系统模型进行更新以及选择流量调度模型的超参数;
S5、根据步骤S4更新后的系统模型和在线流量的信息构建流量调度状态模型;
S6、采用全连接的卷积神经网络对步骤S5建立的流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型,对流量调度动作模型利用贪婪策略选取流量调度的最佳动作;
S7、判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型,根据流量调度奖励模型的结果更新系统模型中的队列资源信息及流量调度模型的网络参数;
S8:根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表,各交换机需要根据门控列表开启对应的时隙的对应队列,完成调度。
2.根据权利要求1所述的基于深度强化学习的时间敏感流量在线调度方法,其特征在于:
步骤S3所述进行系统建模的过程为:
S3.1:根据流量调度平台上的时间敏感网络的网络资源配置和网络拓扑信息将网络构建为有向图G={V,L},其中V代表网络交换机节点和端系统的集合,L代表各节点之间的物理链路连接;
S3.2:根据网络中的交换机资源配置,构建链路实例信息;
S3.3:根据预调度流量信息和链路实例信息,构建数据流实例信息,并获得数据流需经过的交换机节点集合;
S3.4:根据链路实例信息和数据流实例信息,构建数据帧实例信息,然后构建网络交换机的门控配置;
S3.5:结合循环队列转发机制的关键调度约束,计算数据帧满足约束可能的调度时隙范围,选择最佳调度时隙对时间敏感网络的流量调度进行系统建模,建立的系统模型存储在流量调度平台上。
3.根据权利要求2所述的基于深度强化学习的时间敏感流量在线调度方法,其特征在于:
步骤S5所述流量调度状态模型为:
从流量调度平台获取当前流量信息和队列资源分配情况并联合组成流量调度状态模型:
s=<flow,C>
其中,flow为当前流量信息,C表示当前状态下的队列资源分配情况。
4.根据权利要求3所述的基于深度强化学习的时间敏感流量在线调度方法,其特征在于:
步骤S6中所述流量调度动作模型包含所有交换机各队列在各时隙下开启或关闭的状态集合;所述流量调度的最佳动作的动作信息可以表示为:at=[at,1,...,at,n,...,at,M*N],at,n∈{0,1},其中,at,n表示在时间间隔t交换机队列n的动作,0和1分别表示关闭和开启。
5.根据权利要求4所述的基于深度强化学习的时间敏感流量在线调度方法,其特征在于:
步骤S7中所述流量调度奖励模型的构建过程为:
S7.1、根据流量调度平台上链路带宽、预留带宽和队列长度参数,计算流量调度平台的交换机队列带宽资源利用率及队列中的带宽剩余大小;
S7.2、根据步骤S6所述流量调度的最佳动作,执行对应在线流量的时隙及队列调度,对在线流量调度进行规划配置;
S7.3、判断在线流量是否满足所述系统模型的基于IEEE 802.1Qch标准的全部功能规范技术约束和系统参数约束,若满足,在线流量调度成功,若不满足,在线流量调度失败,将步骤7.2的执行结果清空;
S7.4、构建流量调度奖励模型:
Figure FDA0003872952480000021
其中,Fail为在线流量调度失败时的奖励值,cap和cap′分别表示当前系统链路中的最大占用带宽和采取动作后系统链路中的最大占用带宽,α是惩罚系数;
然后根据步骤7.3在线流量调度是否成功的判断结果,若调度失败按式(2)给出奖励值Fail,否则回到步骤7.1重新计算流量调度平台的交换机队列带宽资源利用率及带宽剩余,根据执行流量调度的最佳动作前后的带宽资源利用率变化,按式(2)给出调度成功的奖励值。
6.根据权利要求5所述的基于深度强化学习的时间敏感流量在线调度方法,其特征在于:
所述流量调度模型为双重深度Q网络;
所述流量调度模型在流量调度平台的网络参数包括经验回放缓存的最大容量、批次大小、目标网络参数更新次数;
所述网络资源配置包括链路带宽、预留带宽大小、交换机的队列长度参数。
7.如权利要求1~6任一所述的基于深度强化学习的时间敏感流量在线调度方法所使用的在线调度装置,其特征在于:
包括依次信号连接的第一获取模块(21)、生成模块(22)、第二获取模块(23)、计算模块(25)、执行模块(26)、判断模块(27)和发送模块(28),设置模块(24)与第二获取模块(23)信号相连,第一获取模块(21)与调度管理中心信号连接,发送模块与各个交换机信号相连。
8.根据权利要求7所述的在线调度装置,其特征在于:
所述第一获取模块(21)用于从调度管理中心获取时间敏感网络的网络资源配置和网络拓扑信息;
所述生成模块(22)用于根据循环队列转发机制对时间敏感网络的流量调度进行系统建模;
所述第二获取模块(23)用于获取时间敏感网络需要调度的在线流量信息;
所述设置模块(24)用于根据系统模型和在线流量的信息构建流量调度状态模型;
所述计算模块(25)用于根据所述系统模型的信息和在线流量的信息构建并计算流量调度状态模型;
所述执行模块(26)用于对流量调度状态模型提取系统模型的特征和在线流量的特征并构建流量调度动作模型,对流量调度动作模型选取流量调度的最佳动作;
所述判断模块(27)用于判断系统模型中在线流量是否调度成功,根据判断结果构建流量调度奖励模型并更新系统模型及流量调度模型;
所述发送模块(28)用于根据流量调度模型输出的在线流量调度规划结果,下发至流量调度平台中各交换机的门控列表。
CN202211204257.XA 2022-09-29 2022-09-29 基于深度强化学习的时间敏感流量在线调度方法及装置 Pending CN115567466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211204257.XA CN115567466A (zh) 2022-09-29 2022-09-29 基于深度强化学习的时间敏感流量在线调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211204257.XA CN115567466A (zh) 2022-09-29 2022-09-29 基于深度强化学习的时间敏感流量在线调度方法及装置

Publications (1)

Publication Number Publication Date
CN115567466A true CN115567466A (zh) 2023-01-03

Family

ID=84742434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211204257.XA Pending CN115567466A (zh) 2022-09-29 2022-09-29 基于深度强化学习的时间敏感流量在线调度方法及装置

Country Status (1)

Country Link
CN (1) CN115567466A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819943A (zh) * 2023-08-30 2023-09-29 浙江大学 一种可实现任务迁移柔性功能重构的控制系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
US20210306910A1 (en) * 2020-03-27 2021-09-30 Mitsubishi Electric Research Laboratories, Inc. Scheduling Data Traffic in Wireless Time Sensitive Networks
CN114389944A (zh) * 2022-03-01 2022-04-22 重庆邮电大学 一种面向工业应用的时间敏感网络完全分布式配置方法
CN114422453A (zh) * 2021-11-30 2022-04-29 北京交通大学 一种在线规划时间敏感流的方法、装置及存储介质
CN114785738A (zh) * 2022-06-16 2022-07-22 北京邮电大学 时间敏感流的调度方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210306910A1 (en) * 2020-03-27 2021-09-30 Mitsubishi Electric Research Laboratories, Inc. Scheduling Data Traffic in Wireless Time Sensitive Networks
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN114422453A (zh) * 2021-11-30 2022-04-29 北京交通大学 一种在线规划时间敏感流的方法、装置及存储介质
CN114389944A (zh) * 2022-03-01 2022-04-22 重庆邮电大学 一种面向工业应用的时间敏感网络完全分布式配置方法
CN114785738A (zh) * 2022-06-16 2022-07-22 北京邮电大学 时间敏感流的调度方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116819943A (zh) * 2023-08-30 2023-09-29 浙江大学 一种可实现任务迁移柔性功能重构的控制系统及方法
CN116819943B (zh) * 2023-08-30 2023-11-14 浙江大学 一种可实现任务迁移柔性功能重构的控制系统及方法

Similar Documents

Publication Publication Date Title
Liu et al. Fluid Simulation of Large Scale Networks: Issues and Tradeoffs.
Yan et al. HANSEL: Adaptive horizontal scaling of microservices using Bi-LSTM
Wang et al. Deep reinforcement learning aided no-wait flow scheduling in time-sensitive networks
CN115314399B (zh) 一种基于逆强化学习的数据中心流量调度方法
CN116055406B (zh) 拥塞窗口预测模型的训练方法及装置
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和系统
CN115567466A (zh) 基于深度强化学习的时间敏感流量在线调度方法及装置
Guo et al. A delay-sensitive resource allocation algorithm for container cluster in edge computing environment
CN111740925A (zh) 一种基于深度强化学习的Coflow调度方法
CN115951989A (zh) 一种基于严格优先级的协同流量调度数值模拟方法与系统
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
Ren et al. End-to-end network SLA quality assurance for C-RAN: a closed-loop management method based on digital twin network
Sumaryo et al. Improved discrete event simulation model of traffic light control on a single intersection
CN115618532A (zh) 一种网络系统仿真方法及相关装置
Ashok et al. iBox: Internet in a Box
Di Stefano et al. Evaluating the field bus data link layer by a Petri net-based simulation
CN114205300B (zh) 一种能够在流量信息不完整情况下保证coflow传输截止期限的流量调度方法
CN118101493B (zh) 智算中心网络架构的仿真寻优方法、装置、设备及介质
Tao et al. Digital twin assisted deep reinforcement learning for online optimization of network slicing admission control
Liu A hybrid queueing model for fast broadband networking simulation
Feraud et al. Kalman and Neural Network Approaches for the Control of a VP Bandwidth in an ATM Network
CN115499343B (zh) 基于有效竞争流的时延分析方法、系统、设备和存储介质
CN118074841B (zh) 时间感知调度器中时间窗口的划分方法、设备及存储介质
Mai Machine Learning in the Design Space Exploration of TSN Networks
Yang et al. enDRTS: Deep Reinforcement Learning Based Deterministic Scheduling for Chain Flows in TSN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination