CN116527573A

CN116527573A - 一种时间敏感网络中的数据流调度方法、装置及介质

Info

Publication number: CN116527573A
Application number: CN202310236013.8A
Authority: CN
Inventors: 杨磊; 程昊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-08-01

Abstract

本发明公开了一种时间敏感网络中的数据流调度方法、装置及介质，其中方法包括：获取多条TSN数据流；对获得的TSN数据流进行序列化处理；为每条TSN数据流生成多条冗余路由；采用强化学习为每条TSN数据流做冗余路由决策；在获得TSN数据流的路由之后，通过早期调度方法获取调度表，并为每条TSN数据流分配时隙；判断当前TSN数据流是否为最后一条待处理的TSN数据流，若是，根据分配结果传输TSN数据流；反之，返回执行采用强化学习为每条TSN数据流做冗余路由决策这一步骤。本发明先确定冗余路径候选集，然后结合强化学习来从候选中学习多路由流的选择策略，该策略可以动态地了解网络状态，以减少网络瓶颈链路上的负载，可广泛应用于通信流调度技术领域。

Description

一种时间敏感网络中的数据流调度方法、装置及介质

技术领域

本发明涉及通信流调度技术领域，尤其涉及一种时间敏感网络中的数据流调度方法、装置及介质。

背景技术

传统以太网在最初的规范中没有考虑实时通信问题，仅成功地将端到端操作延迟减少到大约十毫秒。随着5G网络的兴起，越来越多的应用需要超可靠和低延迟(ULL)通信，例如自动驾驶、增强现实和工业系统自动化应用，这些应用要求端到端延迟约为几毫秒。尽管早期已经提出了一些实时以太网通信技术(如PROFINET、EtherCAT、SERCOS III等)，但大多数技术都专用于工业系统，在兼容性和可扩展性方面性能较差。因此，IEEE已经在IEEE802.1工作组(WG)中部署了时间敏感网络(TSN)。如今，TSN已成为实时通信的最先进以太网标准，旨在满足可靠性和实时通信的要求。

TSN中的路由和调度问题已在许多研究中得到广泛讨论，但由于时间敏感网络中的低延迟和高可靠性要求依旧具有挑战性。为了增强TSN流的可靠性，需要执行额外的流。因为一旦TSN流未能沿给定路径传输，它将对实时服务中大量连续的TSN流产生影响，进而重新传输并超过总延迟。冗余流占用了更多的网络资源，并增加了网络设备中的等待时间。因此，必须平衡路由和调度问题的延迟和可靠性要求。

现有工作大多根据数据帧、端到端需求和物理链路的特性建立数学模型。然后，他们通过优化方法来解决路由和调度问题，该方法只能满足在低延迟约束下成功到达的流，但不考虑可靠性。一些工作考虑使用启发式方法来解决可靠性问题。当网络结构发生变化时，启发式方法需要不可避免的重新搜索策略。此外，过大的方法空间将带来不可接受的运行时间。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种时间敏感网络中的数据流调度方法、装置及介质。

本发明所采用的技术方案是：

一种时间敏感网络中的数据流调度方法，包括以下步骤：

获取多条TSN数据流；

对获得的TSN数据流进行序列化处理；

采用冗余候选算法，为每条TSN数据流生成多条冗余路由；

将TSN网络中的路由和调度问题转换为NP难问题，采用强化学习为每条TSN数据流做冗余路由决策，以满足时间敏感网络的可靠性要求；

在获得TSN数据流的路由之后，通过早期调度方法获取调度表，并为每条TSN数据流分配时隙；

判断当前TSN数据流是否为最后一条待处理的TSN数据流，若是，根据分配结果传输TSN数据流；反之，返回执行采用强化学习为每条TSN数据流做冗余路由决策这一步骤。

进一步地，所述冗余候选方式算法的工作方式为：

确定源src_n、一个流f_n的目标dst_n和冗余路径参数M的数量，算法输出R_n的候选；

当TSN数据流到达时，TSN数据流的最短路径被计算为候选集的第一条路径；

将除起点和终点之外的其他节点视为偏离点，并通过Dijkstra算法获取从偏离点到终点的其他路径；

依次循环所有偏差点，直到满足冗余路径的数量。

进一步地，所述获取从偏离点到终点的其他路径，包括：

在寻找其他路径的过程中，对当前偏离点的下一跳有两个限制：

1)不选择初始最短路径的后继节点，否则将生成相同的路径；

2)不选择前置节点集合中的节点，否则将生成循环路径。

进一步地，所述强化学习的工作方式如下：

将TSN数据流和当前网络的状态作为强化学习模型的输入，强化学习模型的输出为路由组合动作；强化学习模型通过观察TSN数据流和动态网络资源，以确定在线网络环境下的路径组合，并基于奖励更新策略网络参数；

其中，TSN数据流以批处理模式输入强化学习模型，TSN数据流的行为包括：

1)确定TSN数据流的流数据大小、传输周期和延迟截止时间，根据流的数据大小进行排序，从大到小对TSN数据流进行路由和调度；

2)对于单播流的一个路径，选择路径并直接调度；

3)在路由和调度单播流之后，执行其他单播流，直到执行所有单播流。

进一步地，所述强化学习模型的状态定义如下：

状态作为强化学习模型的输入，被定义为：

s＝[F，N]

其中，流侧F包括流的源和目的地、循环频率、传输的数据量、达到的最大容许持续时间以及TSN流的路由候选集；网络侧N包括每个网络链路上的动态负载。

进一步地，所述强化学习模型的动作定义如下：

动作作为强化学习模型的输出，输出路由的路径候选集，径候选集包括具有节点和链路重合的最短路径、最长路径和其他路径。

进一步地，所述强化学习模型的奖励定义如下：

奖励为强化学习模型执行某个动作后从环境中获得的反馈，奖励包括两部分：

1)每轮训练中当前网络的平衡程度可以用r1＝-(Umax-Umin)表示；

2)奖励r2是每个步骤中失败流量比率的惩罚，用于指导模型在早期训练阶段快速探索更好的策略。

进一步地，所述为每条TSN数据流分配时隙，包括：

一个TSN数据流在每个步骤采用一组路由操作之后，直接分配时间片，而不是等待所有的流被路由后再分配。

本发明所采用的另一技术方案是：

一种时间敏感网络中的数据流调度装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明先确定冗余路径候选集，然后结合强化学习来从候选中学习多路由流的选择策略，该策略可以动态地了解网络状态，以减少网络瓶颈链路上的负载。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种时间敏感网络中的数据流调度方法的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

基于现有的技术问题，本发明提出了一种新的基于强化学习(RL)的冗余数据流路由和调度方法，旨在实现网络链路上的负载平衡，同时满足可靠性和延迟约束。该方法首先利用简单的启发式算法来确定冗余路径候选集，然后结合最先进的RL来从候选中学习多路由流的选择策略，该策略可以动态地了解网络状态，以减少网络瓶颈链路上的负载。仿真结果表明，对比基准算法，本实施例提出的解决方案可以将网络均衡程度平均提高23.1％。

如图1所示，本实施例提供一种时间敏感网络中的数据流调度方法，

包括以下步骤：

S1、获取多条TSN数据流。

其中，TSN数据流以批到达或流到达两种模式等待处理。

S2、对获得的TSN数据流进行序列化处理。

对于已到达的数据流，首先需要确定每个流的路由和调度顺序。结合流的特性，将根据流数据大小序列化到达的流。首先执行较大的流，然后执行较小的流。

S3、采用冗余候选算法，为每条TSN数据流生成多条冗余路由。将使用冗余候选生成为排序流生成相应的路由集，以确保可靠性。

S4、将TSN网络中的路由和调度问题转换为NP难问题，采用强化学习为每条TSN数据流做冗余路由决策，以满足时间敏感网络的可靠性要求。

TSN网络中的路由和调度问题是NP难问题，受到多重约束，因此本实施例的优化问题将路由和调度分开。在这种情况下，基于TSN流路由的强化学习可以获得最大化网络负载平衡的多路由策略。RL代理(即强化学习模型)从在先前步骤中生成的路径候选集合中选择适当的多个路径以进行传输。

S5、在获得TSN数据流的路由之后，通过早期调度方法获取调度表，并为每条TSN数据流分配时隙。

在获得流的路由之后，流通过早期调度获得准确的调度表。在这个过程中，早期调度方法将沿其所有路径为每个流分配时隙。

S6、判断当前TSN数据流是否为最后一条待处理的TSN数据流。

如果是循环执行上述路由和调度步骤，直到处理所有到达的流否则执行下一步。如果不是，返回执行步骤S4。

S7、数据流根据结果在网络中传输数据。

在本实施例中，由于路由和调度的单独确定减少了强化学习的学习空间，因此强化学习算法可以快速收敛。

以下对上述方法中的步骤细节进行详细解释说明。

(1)冗余候选生成

由于部署的路由路径越多，TSN数据流的可靠传输就越高；但是太多的路径会导致网络带宽的浪费。在为每个流选择合适的路由路径之前，首要任务是确定冗余路径的数量，并生成一组可以选择的候选路径。受Top-K-最短路径(KSP)算法的启发，我们提出了冗余候选算法。给定源src_n、一个流f_n的目标dst_n和冗余路径参数M的数量，算法输出R_n的候选。当流到达时，其最短路径被计算为候选集的第一条路径。然后将除起点和终点之外的其他节点视为偏离点，并通过Dijkstra实现从偏离到终点的其他路径。依次循环所有偏差点，直到满足冗余路径的数量。在寻找其他路径的过程中，对当前偏离点的下一跳有两个限制：1)不选择初始最短路径的后继节点，否则将生成相同的路径。2)不选择前置节点集合中的节点，否则将生成循环路径。

(2)TSN流路由决策

本实施例采用强化学习方法来优化流多路由。RL代理输入流和当前网络的状态，并输出路由组合动作。代理观察信息流和动态网络资源，以确定在线网络环境下的路径组合。执行该操作后，它将获得一定的奖励，然后不断更新策略网络参数。

2.1、流动行为

在介绍RL代理的状态、动作和奖励之前，我们通常说明流程的操作。我们假设数据流以批处理模式到达。流的行为如下：

a)考虑到路由和调度的顺序，需要确定衡量顺序的标准。在设计之初，我们参考了三个标准：流的流数据大小、传输周期和延迟截止时间。这三个方面都与TSN流的路由和调度结果有关。设计方法首先根据流的数据大小进行排序，然后从大到小对TSN流进行路由和调度。

b)对于单播流的一个路径，选择路径并直接调度。接下来，对其他冗余路径采取相同的操作。

c)在路由和调度单播流之后，执行其他单播流，直到执行所有单播流。

2.2、状态观察

状态是RL代理的输入。在本实施例中，状态被定义为s＝[F，N]，它由两部分组成。流侧F包括流的源和目的地、循环频率、传输的数据量、达到的最大容许持续时间以及TSN流的路由候选集。网络侧N包括每个网络链路上的动态负载。状态中的候选集合是算法1的结果。因此，状态由每个流的所有特定冗余路径信息组成。流侧的充分信息有助于RL代理做出决策。随着网络中流量的连续传输，代理还观察每个链路的当前负载，即时间片的使用，这有助于代理在每个步骤中调整决策。

2.3、动作

动作是RL代理的输出，它确定要路由的一组路径。路径候选集可以具有节点和链路重合的最短、最长和其他路径。在短期内，以较高的概率选择较少跳数的路径，以便能够尽快传输每个流。代理考虑在从长远角度对每个流执行操作之后，使整个网络资源负载平衡。在现有的技术中，动作空间是当前节点的邻居节点，并且动作是从合格的邻居中选择下一个。如果我们的工作也采取相同的操作，代理不仅决定哪组路径，还决定每条路径上的特定节点。伴随着流量的增加，行动空间呈指数增长。针对交通工程(TE)问题，该行动将被设计为将交通分流到不同的路径。因此，动作空间被重新定义为a＝Rn。该动作被重新设计以选择一些路径作为组合，并且TSN流在路径组合上同步传输。本实施例的动作设计使RL代理能够专注于路径选择。

2.3、奖励

奖励是RL代理执行某个动作后从环境中获得的反馈。本实施例设计了一个奖励来指导RL代理做出最佳决策。奖励由两部分组成：1)每集中当前网络的平衡程度可以用r1＝-(Umax-Umin)表示；2)奖励r2是每个步骤中失败流量比率的惩罚，它指导代理在早期训练阶段快速探索更好的策略。总体而言，奖励定义为r＝r1+r2，总奖励引导代理学习最优策略。

(3)尽早调度

一个流在每个步骤采用一组路由操作之后，我们的工作直接调度，即分配时间片，而不是等待所有的流被路由后再分配。在调度流的多条路径之前，应考虑路径调度的优先级。每条流路的长度不同。考虑到长路径和短路径效应，首先为每个流调度长路径，然后调度短路径，以尽可能重用路径上的时隙，减少网络资源的浪费。我们应用提前分配的政策，如果在当前可行的时间区域中存在足够的空闲时间片，则立即分配最早的时间片；否则，时间片的分配将在可行的时间区域中被推迟。需要注意的是，延迟时间片可能提示节省网络资源，因为不同路径的相同流传输相同的数据。这里我们使用IEEE 802.1CB FRER中的帧消除和帧复制。帧消除可以避免电路的副作用，防止数据帧陷入无休止的循环，提高路由的灵活性。因此，短路径上的时间片可以被延迟以等待长路径一起分配。这也是我们没有在冗余候选生成中部署完全不相交的多条路径以实现负载平衡的原因。

本实施例还提供一种时间敏感网络中的数据流调度装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种时间敏感网络中的数据流调度装置，可执行本发明方法实施例所提供的一种时间敏感网络中的数据流调度方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种时间敏感网络中的数据流调度方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种时间敏感网络中的数据流调度方法，其特征在于，包括以下步骤：

获取多条TSN数据流；

对获得的TSN数据流进行序列化处理；

采用冗余候选算法，为每条TSN数据流生成多条冗余路由；

2.根据权利要求1所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述冗余候选方式算法的工作方式为：

依次循环所有偏差点，直到满足冗余路径的数量。

3.根据权利要求2所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述获取从偏离点到终点的其他路径，包括：

2)不选择前置节点集合中的节点，否则将生成循环路径。

4.根据权利要求1所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述强化学习的工作方式如下：

2)对于单播流的一个路径，选择路径并直接调度；

5.根据权利要求4所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述强化学习模型的状态定义如下：

状态作为强化学习模型的输入，被定义为：

s＝[F，N]

6.根据权利要求4所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述强化学习模型的动作定义如下：

7.根据权利要求4所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述强化学习模型的奖励定义如下：

1)每轮训练中当前网络的平衡程度可以用r1＝-(Umax-Umin)表示；

2)奖励r2是每个步骤中失败流量比率的惩罚，用于指导模型在训练阶段快速探索更好的策略。

8.根据权利要求1所述的一种时间敏感网络中的数据流调度方法，其特征在于，所述为每条TSN数据流分配时隙，包括：

一个TSN数据流在每个步骤采用一组路由操作之后，直接分配时间片。

9.一种时间敏感网络中的数据流调度装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。