CN114189481A - 一种基于深度强化学习的tsn流调度方法 - Google Patents
一种基于深度强化学习的tsn流调度方法 Download PDFInfo
- Publication number
- CN114189481A CN114189481A CN202111409558.1A CN202111409558A CN114189481A CN 114189481 A CN114189481 A CN 114189481A CN 202111409558 A CN202111409558 A CN 202111409558A CN 114189481 A CN114189481 A CN 114189481A
- Authority
- CN
- China
- Prior art keywords
- time
- scheduling
- stream
- delay
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000002787 reinforcement Effects 0.000 title claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/56—Queue scheduling implementing delay-aware scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J3/00—Time-division multiplex systems
- H04J3/02—Details
- H04J3/06—Synchronising arrangements
- H04J3/0635—Clock or time synchronisation in a network
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种基于深度强化学习的TSN流调度方法,其特征在于,包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理,TSN能够提供确定性时延、带宽保证等能力,同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量,并且将时间敏感流的传输都压缩在调度表的开始,因此有更多的带宽资源可以用于尽力而为流的传输。
Description
技术领域
本发明涉及TSN网络调度的研究技术领域,尤其涉及一种基于深度强化学习的TSN流调度方法。
背景技术
在工业控制网络、车载网络、5G网络等实时应用对网络的传输要求更加严苛,对时延要求更加敏感。这些实时应用通常要求网络进行确定性传输数据,有有界低时延,零抖动等要求。因此,IEEE 802.1标准引入了基于以太网的时间敏感网络(TSN,Time Sensitive-Networks)来处理通用以太网的时延不确定性,TSN能够提供确定性时延、带宽保证等能力,同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。
时间感知整形(TAS,time-aware shaper)机制是对交换机出端口的流量调度进行整形的机制,采用门控列表(Gate Control List)的方式保证时间敏感流在传输中的确定性时延保证。门控列表部署在输出端口的每个优先级后面控制相应队列里的流是否可以进行传输,当队列的门是打开状态,相应队列的流可以进行传输,当队列的门是关闭状态,则不能传输相应队列的流。在输出端口同一队列里的流,采用FIFO先入先出模式进行传输,在队列前面的流先于其后的流传输。GCL是由流量调度算法进行计算的,在预定义的超周期内进行重复。流量调度是保证时间敏感流确定性传输的一个主要因素也是当前的研究热点。
A3C算法可以在单个机器的多核CPU同时运行多个agents,每个CPU核运行一个agent,同时包含一个环境的副本。换句话来讲,A3C将actor-critic放在了多个线程中进行同步训练,训练的时候,同时为多个线程分配任务,完成任务的线程将自己学习到的参数更新到全局网络上,下一次学习的时候同步全局参数到各个线程,然后继续学习。一个A3Cagent包含两个部分:一个策略函数,即actor,一个行为价值函数,即critic。Actor定义参数化策略并根据观察到的状态生成行动与环境交互,而critic网络通过处理从环境中获得的奖励来评估当前的策略。
现有主流的时间敏感网络流调度方法:
将无等待包调度问题(NW-PSP,No-wait Packet Scheduling Problem)引入TSN流调度中,并映射为无等待车间调度问题(No-wait Job-shop Scheduling Problem),使用整数线性规划或启发式算法解决NW-PSP问题,假设所有流有相同的周期来避免帧抖动,因此这个问题被局限于每流一帧。由于时间敏感流的调度是NP难问题,因此对于大规模场景不能找到精确的解,为了提高可扩展性,使用启发式算法解决这个问题。
NW-PSP分为时间表问题和排序问题。时间表问题处理属于一个整体有序流集合的所有流的开始时间的计算。另一方面,排序问题处理的是对要调度的一组流进行完全排序,以使给定的时间调度算法产生的调度具有最小的流完成时间,其中流完成时间是指从第一个流在源端开始传输到最后一个流在其接收端处理完成的时间。
目前的无等待TSN调度方案在很大程度上依赖于人工过程,需要精心设计启发式算法,具有较差的可扩展性和鲁棒性。
发明内容
本发明提出一种基于深度强化学习的TSN流调度方法用以解决上述背景中提到的问题,同时减少保护带的数量,并且将时间敏感流的传输都压缩在调度表的开始,因此有更多的带宽资源可以用于尽力而为流的传输。
一种基于深度强化学习的TSN流调度方法,包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理:
S表示时间敏感流的集合,si∈S流的特征用元组si=(Sri,Dti,Dli,Sii,Ti,Pi)表示,分别表示流的源地址,目的地址,端到端最大时延,数据大小,周期和路径。
进一步地,所述时间敏感流的调度能够被描述为一个三元组<At,St,R>,St是状态空间,At是动作空间,R为立即回报,之后智能体根据当前状态St和当前策略πi(at|st)执行一个动作at,然后底层网络环境产生一个立即回报R,状态St转移到下一个状态st+1;智能体的目标是学习到一个使其期望折扣回报为Ji(πi)=∑r(s,a1,a2,...,an)最大化的策略,其中,在此场景中包括对状态空间、动作空间以及回报函数。
进一步地,所述状态空间由被调度的流的状态信息和网络链路的状态组成的,即:S=sf×snet;
所述动作空间由被调度的时间敏感流的数量决定的,因为我们的每一个动作就是选择调度一个时间敏感流,因此表示为A={at},在每一轮,根据策略π从动作空间中选择一个ai动作,即意味着选择流si进行调度,执行完此动作后,则将其从动作空间中剔除,下一轮开始前恢复为初始动作空间;
所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间,因此回报函数描述为:
本发明提供的方法在引入了基于以太网的时间敏感网络(TSN,Time Sensitive-Networks)来处理通用以太网的时延不确定性,TSN能够提供确定性时延、带宽保证等能力,同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量,并且将时间敏感流的传输都压缩在调度表的开始,因此有更多的带宽资源可以用于尽力而为流的传输。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明。
图1为本发明涉及的技术流程示意图;
图2为本发明中涉及的拓扑在调度30流运行效果图;
图3为本发明中涉及的拓扑在调度60流运行效果图;
图4为本发明中涉及的拓扑在调度100流运行时间情况示意图;
图5为本发明中涉及的收敛性效果图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
请参阅图1所示,本发明涉及一种基于深度强化学习的TSN流调度方法,包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理:
S表示时间敏感流的集合,si∈S流的特征用元组si=(Sri,Dti,Dli,Sii,Ti,Pi)表示,分别表示流的源地址,目的地址,端到端最大时延,数据大小,周期和路径。
进一步地,所述时间敏感流的调度能够被描述为一个三元组<At,St,R>,St是状态空间,At是动作空间,R为立即回报,之后智能体根据当前状态St和当前策略πi(at|st)执行一个动作at,然后底层网络环境产生一个立即回报R,状态St转移到下一个状态st+1;智能体的目标是学习到一个使其期望折扣回报为Ji(πi)=∑r(s,a1,a2,...,an)最大化的策略,其中,在此场景中包括对状态空间、动作空间以及回报函数。
进一步地,所述状态空间由被调度的流的状态信息和网络链路的状态组成的,即:S=sf×snet;
所述动作空间由被调度的时间敏感流的数量决定的,因为我们的每一个动作就是选择调度一个时间敏感流,因此表示为A={at},在每一轮,根据策略π从动作空间中选择一个ai动作,即意味着选择流Si进行调度,执行完此动作后,则将其从动作空间中剔除,下一轮开始前恢复为初始动作空间;
所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间,因此回报函数描述为:
请参阅图2-4,调度方法的运行时间与网络的拓扑规模和调度的流的数量有密切的关系,我们在三种不同的复杂度的网络拓扑中训练5000步,简单拓扑(3个交换机,4个终端主机)、中等复杂度拓扑(6个交换机,6个终端主机)、复杂拓扑(9个交换机,10个终端主机)对比了在调度30、60、100个流的运行时间。
请参阅图5所示,证明了我们的调度算法是收敛的,三种不同的网络拓扑调度100个TSN流的收敛性,可以看到在大概训练2000步左右,我们的调度算法就能达到收敛。网络的复杂度越高我们的调度算法收敛速度越快,不过运行时间就相对比较长。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (3)
1.一种基于深度强化学习的TSN流调度方法,其特征在于,包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输,其中以对单播时间敏感流进行无等待调度的情况进行处理:
S表示时间敏感流的集合,si∈S流的特征用元组si=(Sri,Dti,Dli,Sii,Ti,Pi)表示,分别表示流的源地址,目的地址,端到端最大时延,数据大小,周期和路径。
2.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法,其特征在于,所述时间敏感流的调度能够被描述为一个三元组<At,St,R>,St是状态空间,At是动作空间,R为立即回报,之后智能体根据当前状态St和当前策略πi(at|st)执行一个动作at,然后底层网络环境产生一个立即回报R,状态St转移到下一个状态St+1;智能体的目标是学习到一个使其期望折扣回报为Ji(πi)=∑r(s,a1,a2,...,an)最大化的策略,其中,在此场景中包括对状态空间、动作空间以及回报函数。
3.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法,其特征在于,所述状态空间由被调度的流的状态信息和网络链路的状态组成的,即:S=sf×net;
所述动作空间由被调度的时间敏感流的数量决定的,因为我们的每一个动作就是选择调度一个时间敏感流,因此表示为A={at},在每一轮,根据策略π从动作空间中选择一个ai动作,即意味着选择流Si进行调度,执行完此动作后,则将其从动作空间中剔除,下一轮开始前恢复为初始动作空间;
所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间,因此回报函数描述为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409558.1A CN114189481A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度强化学习的tsn流调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409558.1A CN114189481A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度强化学习的tsn流调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114189481A true CN114189481A (zh) | 2022-03-15 |
Family
ID=80602538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111409558.1A Pending CN114189481A (zh) | 2021-11-25 | 2021-11-25 | 一种基于深度强化学习的tsn流调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114189481A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115811799A (zh) * | 2023-01-20 | 2023-03-17 | 北京科技大学 | 一种基于ddpg的5g-tsn联合资源调度装置及方法 |
-
2021
- 2021-11-25 CN CN202111409558.1A patent/CN114189481A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115811799A (zh) * | 2023-01-20 | 2023-03-17 | 北京科技大学 | 一种基于ddpg的5g-tsn联合资源调度装置及方法 |
CN115811799B (zh) * | 2023-01-20 | 2023-04-21 | 北京科技大学 | 一种基于ddpg的5g-tsn联合资源调度装置及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dürr et al. | No-wait packet scheduling for IEEE time-sensitive networks (TSN) | |
Gavriluţ et al. | AVB-aware routing and scheduling of time-triggered traffic for TSN | |
CN111030835B (zh) | 一种ttfc网络的任务调度模型及消息调度表生成方法 | |
CN114301851B (zh) | 一种面向工业现场的时间敏感网络流量分级调度方法 | |
CN114422448B (zh) | 一种时间敏感网络流量整形方法 | |
EP0793397A2 (en) | A real-time hardware method and apparatus for reducing queue processing | |
Wang et al. | Deep reinforcement learning aided no-wait flow scheduling in time-sensitive networks | |
CN112422443A (zh) | 一种拥塞算法的自适应控制方法、存储介质、设备及系统 | |
Li et al. | Efficient online scheduling for coflow-aware machine learning clusters | |
CN114189481A (zh) | 一种基于深度强化学习的tsn流调度方法 | |
CN115225587B (zh) | 基于约束规划的异步终端系统调度优化方法 | |
Deng et al. | A low-delay AVB flow scheduling method occupying the guard band in Time-Sensitive Networking | |
CN114205310B (zh) | 一种基于时间敏感网络的数据传输方法、装置和电子设备 | |
US20040004972A1 (en) | Method and apparatus for improving data transfer scheduling of a network processor | |
Duan et al. | Mercury: A simple transport layer scheduler to accelerate distributed DNN training | |
Xie et al. | Robust time-sensitive networking with delay bound analyses | |
CN116830554A (zh) | 一种任务调度方法、装置及系统 | |
CN117560106A (zh) | 一种时间敏感网络中时间触发流量的调度方法 | |
CN115834511B (zh) | 一种时间敏感网络中各优先级周期性消息的门控调度方法 | |
CN116233257A (zh) | 一种非时钟同步的流量调度方法和系统 | |
CN115567466A (zh) | 基于深度强化学习的时间敏感流量在线调度方法及装置 | |
CN114615205A (zh) | 基于时间效益函数的时间敏感网络下的混合流量调度方法 | |
Sun et al. | Joint Routing and Scheduling Optimization of in Vehicle Time Sensitive Networks based on Improved Grey Wolf Optimizer | |
Cuong et al. | Supporting hard real-time communication of periodic messages over switched ethernet | |
Ghotra et al. | TSN Qbv and Schedule Generation Approaches [J] |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |