CN114189481A

CN114189481A - 一种基于深度强化学习的tsn流调度方法

Info

Publication number: CN114189481A
Application number: CN202111409558.1A
Authority: CN
Inventors: 姚海鹏; 王小龙; 张尼; 忻向军; 吴云峰; 韩庆敏; 韩宝磊; 江亮
Original assignee: Beijing University of Posts and Telecommunications; 6th Research Institute of China Electronics Corp
Current assignee: Beijing University of Posts and Telecommunications; 6th Research Institute of China Electronics Corp
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-03-15

Abstract

本发明公开一种基于深度强化学习的TSN流调度方法，其特征在于，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理，TSN能够提供确定性时延、带宽保证等能力，同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量，并且将时间敏感流的传输都压缩在调度表的开始，因此有更多的带宽资源可以用于尽力而为流的传输。

Description

一种基于深度强化学习的TSN流调度方法

技术领域

本发明涉及TSN网络调度的研究技术领域，尤其涉及一种基于深度强化学习的TSN流调度方法。

背景技术

在工业控制网络、车载网络、5G网络等实时应用对网络的传输要求更加严苛，对时延要求更加敏感。这些实时应用通常要求网络进行确定性传输数据，有有界低时延，零抖动等要求。因此，IEEE 802.1标准引入了基于以太网的时间敏感网络(TSN,Time Sensitive-Networks)来处理通用以太网的时延不确定性，TSN能够提供确定性时延、带宽保证等能力，同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。

时间感知整形(TAS,time-aware shaper)机制是对交换机出端口的流量调度进行整形的机制，采用门控列表(Gate Control List)的方式保证时间敏感流在传输中的确定性时延保证。门控列表部署在输出端口的每个优先级后面控制相应队列里的流是否可以进行传输，当队列的门是打开状态，相应队列的流可以进行传输，当队列的门是关闭状态，则不能传输相应队列的流。在输出端口同一队列里的流，采用FIFO先入先出模式进行传输，在队列前面的流先于其后的流传输。GCL是由流量调度算法进行计算的，在预定义的超周期内进行重复。流量调度是保证时间敏感流确定性传输的一个主要因素也是当前的研究热点。

A3C算法可以在单个机器的多核CPU同时运行多个agents，每个CPU核运行一个agent，同时包含一个环境的副本。换句话来讲，A3C将actor-critic放在了多个线程中进行同步训练，训练的时候，同时为多个线程分配任务，完成任务的线程将自己学习到的参数更新到全局网络上，下一次学习的时候同步全局参数到各个线程，然后继续学习。一个A3Cagent包含两个部分：一个策略函数，即actor，一个行为价值函数，即critic。Actor定义参数化策略并根据观察到的状态生成行动与环境交互，而critic网络通过处理从环境中获得的奖励来评估当前的策略。

现有主流的时间敏感网络流调度方法：

将无等待包调度问题(NW-PSP,No-wait Packet Scheduling Problem)引入TSN流调度中，并映射为无等待车间调度问题(No-wait Job-shop Scheduling Problem)，使用整数线性规划或启发式算法解决NW-PSP问题，假设所有流有相同的周期来避免帧抖动，因此这个问题被局限于每流一帧。由于时间敏感流的调度是NP难问题，因此对于大规模场景不能找到精确的解，为了提高可扩展性，使用启发式算法解决这个问题。

NW-PSP分为时间表问题和排序问题。时间表问题处理属于一个整体有序流集合的所有流的开始时间的计算。另一方面，排序问题处理的是对要调度的一组流进行完全排序，以使给定的时间调度算法产生的调度具有最小的流完成时间，其中流完成时间是指从第一个流在源端开始传输到最后一个流在其接收端处理完成的时间。

目前的无等待TSN调度方案在很大程度上依赖于人工过程，需要精心设计启发式算法，具有较差的可扩展性和鲁棒性。

发明内容

本发明提出一种基于深度强化学习的TSN流调度方法用以解决上述背景中提到的问题，同时减少保护带的数量，并且将时间敏感流的传输都压缩在调度表的开始，因此有更多的带宽资源可以用于尽力而为流的传输。

一种基于深度强化学习的TSN流调度方法，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理：

S表示时间敏感流的集合，s_i∈S流的特征用元组s_i＝(Sr_i，Dt_i，Dl_i，Si_i，T_i，P_i)表示，分别表示流的源地址，目的地址，端到端最大时延，数据大小，周期和路径。

进一步地，所述时间敏感流的调度能够被描述为一个三元组<A_t，S_t，R>，S_t是状态空间，A_t是动作空间，R为立即回报，之后智能体根据当前状态S_t和当前策略π_i(a_t|s_t)执行一个动作a_t，然后底层网络环境产生一个立即回报R，状态S_t转移到下一个状态s_t+1；智能体的目标是学习到一个使其期望折扣回报为J_i(π_i)＝∑r(s，a₁，a₂，...，a_n)最大化的策略，其中，在此场景中包括对状态空间、动作空间以及回报函数。

进一步地，所述状态空间由被调度的流的状态信息和网络链路的状态组成的，即：S＝s_f×s_net；

所述动作空间由被调度的时间敏感流的数量决定的，因为我们的每一个动作就是选择调度一个时间敏感流，因此表示为A＝{a_t}，在每一轮，根据策略π从动作空间中选择一个a_i动作，即意味着选择流s_i进行调度，执行完此动作后，则将其从动作空间中剔除，下一轮开始前恢复为初始动作空间；

所述回报函数由最小化发送时间偏移量和时间敏感流的完成时间，因此回报函数描述为：

其中

是流s_j相对于流s_i在其发送端的发送时间偏移量，FlowSpan是是所有流都被调度的完成的时间间隔，schedule_size是调度表的长度，delay是每个时间敏感流的总时延。

本发明提供的方法在引入了基于以太网的时间敏感网络(TSN,Time Sensitive-Networks)来处理通用以太网的时延不确定性，TSN能够提供确定性时延、带宽保证等能力，同时降低了成本。时间敏感网络通过全网时钟同步、流量调度以及系统配置三种主要机制来实现确定性低时延保障。同时减少保护带的数量，并且将时间敏感流的传输都压缩在调度表的开始，因此有更多的带宽资源可以用于尽力而为流的传输。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1为本发明涉及的技术流程示意图；

图2为本发明中涉及的拓扑在调度30流运行效果图；

图3为本发明中涉及的拓扑在调度60流运行效果图；

图4为本发明中涉及的拓扑在调度100流运行时间情况示意图；

图5为本发明中涉及的收敛性效果图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

请参阅图1所示，本发明涉及一种基于深度强化学习的TSN流调度方法，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理：

其中

请参阅图2-4，调度方法的运行时间与网络的拓扑规模和调度的流的数量有密切的关系，我们在三种不同的复杂度的网络拓扑中训练5000步，简单拓扑(3个交换机，4个终端主机)、中等复杂度拓扑(6个交换机，6个终端主机)、复杂拓扑(9个交换机，10个终端主机)对比了在调度30、60、100个流的运行时间。

请参阅图5所示，证明了我们的调度算法是收敛的，三种不同的网络拓扑调度100个TSN流的收敛性，可以看到在大概训练2000步左右，我们的调度算法就能达到收敛。网络的复杂度越高我们的调度算法收敛速度越快，不过运行时间就相对比较长。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于深度强化学习的TSN流调度方法，其特征在于，包括消除在TSN交换机处的排队时延来用以完成时延敏感流的无等待传输，其中以对单播时间敏感流进行无等待调度的情况进行处理：

2.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法，其特征在于，所述时间敏感流的调度能够被描述为一个三元组<A_t，S_t，R>，S_t是状态空间，A_t是动作空间，R为立即回报，之后智能体根据当前状态S_t和当前策略π_i(a_t|s_t)执行一个动作a_t，然后底层网络环境产生一个立即回报R，状态S_t转移到下一个状态S_t+1；智能体的目标是学习到一个使其期望折扣回报为J_i(π_i)＝∑r(s，a₁，a₂，...，a_n)最大化的策略，其中，在此场景中包括对状态空间、动作空间以及回报函数。

3.根据权利要求1所述的一种基于深度强化学习的TSN流调度方法，其特征在于，所述状态空间由被调度的流的状态信息和网络链路的状态组成的，即：S＝s_f×_net；

其中