CN114006827B

CN114006827B - 时间触发调度模型的训练、时间触发调度方法及装置

Info

Publication number: CN114006827B
Application number: CN202111137291.5A
Authority: CN
Inventors: 万海; 贾宏宇; 赵曦滨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2023-01-24
Anticipated expiration: 2041-09-27
Also published as: CN114006827A

Abstract

本发明公开一种时间触发调度模型的训练、时间触发调度方法及装置，包括：将由链路的基础特征向量、嵌入向量和全局向量拼接获得的目标向量输入策略网络，确定待调度TT流的第一下一跳链路、第一转发相位及第一时隙；若当前调度所到达的网络设备不是终点，则更新目标向量以及时隙占用情况，并将更新后的目标向量输入策略网络确定待调度TT流的第二下一跳链路、第二转发相位及第二时隙，并利用第二时隙和第二下一跳链路对待调度TT流进行调度，直至达到终点；在到达预设调度终止条件时，利用策略梯度算法更新时间触发调度模型的参数，利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至目标函数取值最大时，获得目标时间触发调度模型。

Description

时间触发调度模型的训练、时间触发调度方法及装置

技术领域

本发明涉及互联网技术领域，具体而言，涉及一种时间触发调度模型的训练、时间触发调度方法及装置。

背景技术

实时数据的确定性传输在汽车、火车、航空航天等关键领域有着强烈的需求。基于以太网的实时网络，如时间敏感网络(Time-Sensitive Networking，TSN)和时间触发以太网(Time-Triggered Ethernet，TTE)提供了具有高带宽的实时数据传输能力。TSN和TTE是在传统以太网上做的改进，不仅可以提供传统的尽力而为(Best-Effort，BE)数据传输服务，还具有时间触发(Time-Triggered，TT)数据传输能力，通过时间触发的方式实现实时数据的确定性传输。TT帧的传输机制主要以两个方面为基础：基于调度表的帧传输和精确时间同步。每个TT帧的准确到达和转发时间都是提前计算出来的，并保存在调度表中。然后所有网络设备(包括终端节点和交换机等)根据一个全局时间周期性地发送TT帧，其中所有设备需要提前与全局时间进行同步，同步方案可以通过SAE AS6802、IEEE 802.1AS和IEEE1588协议来实现。

对于特定的网络配置，需要计算相应的调度表。随着网络服务的日益开放，网络配置的变化是不可避免的。节点/链路故障、新增节点和交换机的引入、上层应用数据传输需求的变化等情况都会导致网络配置的变化。因此需要及时重新计算进度表。

基于求解器的调度算法将调度需求、网络拓扑、设备状态等建模为一组线性约束，以确保TT帧在每个链路上的传输是互斥的。然后调度算法利用可满足模理论(satisfiability modulo theory，SMT)求解器或整数线性规划(integer linearprogramming，ILP)求解器在这些约束条件下寻找解。一旦找到了解决方案，就可以基于该解决方案构建TT调度表。但是上述基于求解器的方法比较耗时，不能用于TT调度表的快速计算。

与基于求解器的方法相比，基于启发式的方法可以有效地减少求解时间。例如，启发式列表调度器(heuristic list scheduler，HLS)通过两个启发式思想计算出一个有效的时间表：为每个TT流获取有效路由的启发式思想和另一个分配流转发时间的启发式思想。但是，设计良好的启发式策略需要领域知识和专家人员。启发式方法通常是针对特定场景手动定义的，不能直接迁移到其他应用场景。此外，当面对复杂和大规模的网络时，手工启发式算法的性能可能会急剧下降。

因此，如何提高TT流调度效率是亟待解决的。

发明内容

本发明提供了一种时间触发调度模型的训练、时间触发调度方法及装置，能够提高TT流的调度效率。具体的技术方案如下：

第一方面，本发明实施例提供了一种时间触发调度模型的训练方法，所述方法包括：

提取由网络设备构成的拓扑图中每条链路的基础特征向量；所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、所述待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期；

针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量；所述邻居向量为与所述链路相邻的其他链路的基础特征向量；

根据所有链路的嵌入向量的平均值获取全局向量；

将每条链路的所述基础特征向量、所述嵌入向量和所述全局向量进行拼接获得所述链路的目标向量；

将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙；

若利用所述第一时隙和所述第一下一跳链路对所述待调度TT流进行调度所到达的网络设备不是所述终点，则更新所述目标向量以及时隙占用情况，并将更新后的目标向量输入所述策略网络确定所述待调度TT流的第二下一跳链路、所述第二下一跳链路对应的第二转发相位以及所述第二转发相位中为所述待调度TT流分配的第二时隙，并利用所述第二时隙和所述第二下一跳链路对所述待调度TT流进行调度，直至达到所述终点；

在针对多条待调度TT流进行调度过程中到达预设调度终止条件时，利用策略梯度算法更新时间触发调度模型的参数，并利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至目标函数取值最大时，获得目标时间触发调度模型；所述目标函数是与所述拓扑图、待调度TT流的调度需求、确定下一跳链路、转发相位、时隙分配相关的函数。

可选的，提取由网络设备构成的拓扑图中每条链路的基础特征向量中的可用资源向量，包括：

将每个相位的可用时隙率作为输入神经元输入周期层，获得不同周期TT流的空余时隙信息；其中每2ⁱ个输出神经元表示一种周期的TT流的空余时隙信息，并且每2ⁱ个输出神经元分别与2^k-i个输入神经元相连；0≤i≤k-1，且i为整数，k为正整数；若输出神经元个数小于输入神经元个数，则增加虚拟输出神经元以使得输出神经元个数与输入神经元个数相同；

将所述不同周期TT流的空余时隙信息输入预设数量的全连接层进行降维处理，获得每条链路的所述可用资源向量。

可选的，针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量，包括：

通过图卷积网络GCN网络，将链路v的基础特征向量

和所述链路v的邻居向量

输入第一公式迭代k次，获得所述链路的嵌入向量

所述第一公式为：

其中，k为正整数，g和f表示激活函数，u表示链路v的邻居链路，ξ(v)表示邻居链路集合。

可选的，根据所有链路的嵌入向量的平均值获取全局向量，包括：

通过图摘要网络GSN，计算所有链路的嵌入向量的平均值；

通过全连接层和激活函数对所述平均值进行编码，获得所述全局向量。

可选的，将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙，包括：

将每条链路的所述目标向量输入所述策略网络中的第一多层感知器MLP，对每条链路进行评分，获得链路分数；

利用第一softmax函数将所述链路分数转化为对应链路为调度所述待调度TT流的下一跳链路的概率，并将概率最大的链路确定为所述第一下一跳链路；

将所述第一下一跳链路的目标向量输入第二MLP，对所述第一下一跳链路的所有合法相位进行评分，获得相位分数；

利用第二softmax函数将所述相位分数转化为对应相位为调度所述待调度TT流所使用的转发相位的概率，并将概率最大的转发相位确定为所述第一转发相位；

按照所述第一转发相位中时隙标识从小到大的顺序，对所述第一转发相位中的时隙进行遍历，并将首次遍历到的未被占用的时隙确定为所述第一时隙。

可选的，利用策略梯度算法更新时间触发调度模型的参数包括：

利用目标采样比率获取调度成功的样本和调度失败的样本；

利用所述策略梯度算法和获取的样本更新所述时间触发调度模型的参数；

所述目标采样比率的计算公式为：

其中，ratio_t表示第t时间步对应的调度成功与调度失败的比例，ratio_t-1表示第t-1时间步对应的调度成功与调度失败的比例，η表示预设采样参数，succ_cnt表示第t时间步对应的调度成功的TT流数量，fail_cnt表示第t时间步对应的调度失败的TT流数量。

可选的，所述预设调度终止条件包括所述多条待调度TT流均完成调度或者无法调度当前TT流。

第二方面，本发明实施例提供了一种时间触发调度方法，所述方法包括：

将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于第一方面所述的方法训练得到的神经网络模型；

利用所述目标路由和所述目标时隙对所述待调度TT流进行调度。

第三方面，本发明实施例提供了一种时间触发调度模型的训练装置，所述装置包括：

提取单元，用于提取由网络设备构成的拓扑图中每条链路的基础特征向量；所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、所述待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期；

第一计算单元，用于针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量；所述邻居向量为与所述链路相邻的其他链路的基础特征向量；

第二计算单元，用于根据所有链路的嵌入向量的平均值获取全局向量；

拼接单元，用于将每条链路的所述基础特征向量、所述嵌入向量和所述全局向量进行拼接获得所述链路的目标向量；

调度单元，用于将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙；若利用所述第一时隙和所述第一下一跳链路对所述待调度TT流进行调度所到达的网络设备不是所述终点，则更新所述目标向量以及时隙占用情况，并将更新后的目标向量输入所述策略网络确定所述待调度TT流的第二下一跳链路、所述第二下一跳链路对应的第二转发相位以及所述第二转发相位中为所述待调度TT流分配的第二时隙，并利用所述第二时隙和所述第二下一跳链路对所述待调度TT流进行调度，直至达到所述终点；

更新单元，用于在针对多条待调度TT流进行调度过程中到达预设调度终止条件时，利用策略梯度算法更新时间触发调度模型的参数；

所述调度单元，用于利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至目标函数取值最大时，获得目标时间触发调度模型；所述目标函数是与所述拓扑图、待调度TT流的调度需求、确定下一跳链路、转发相位、时隙分配相关的函数。

可选的，所述提取单元包括：

时隙信息获取模块，用于将每个相位的可用时隙率作为输入神经元输入周期层，获得不同周期TT流的空余时隙信息；其中每2ⁱ个输出神经元表示一种周期的TT流的空余时隙信息，并且每2ⁱ个输出神经元分别与2^k-i个输入神经元相连；0≤i≤k-1，且i为整数，k为正整数；若输出神经元个数小于输入神经元个数，则增加虚拟输出神经元以使得输出神经元个数与输入神经元个数相同；

降维模块，用于将所述不同周期TT流的空余时隙信息输入预设数量的全连接层进行降维处理，获得每条链路的所述可用资源向量。

可选的，第一计算单元，用于通过图卷积网络GCN网络，将链路v的基础特征向量

和所述链路v的邻居向量

输入第一公式迭代k次，获得所述链路的嵌入向量

所述第一公式为：

可选的，所述第二计算单元包括：

计算模块，用于通过图摘要网络GSN，计算所有链路的嵌入向量的平均值；

编码模块，用于通过全连接层和激活函数对所述平均值进行编码，获得所述全局向量。

可选的，所述调度单元包括：

第一评分模块，用于将每条链路的所述目标向量输入所述策略网络中的第一多层感知器MLP，对每条链路进行评分，获得链路分数；

链路确定模块，用于利用第一softmax函数将所述链路分数转化为对应链路为调度所述待调度TT流的下一跳链路的概率，并将概率最大的链路确定为所述第一下一跳链路；

第二评分模块，用于将所述第一下一跳链路的目标向量输入第二MLP，对所述第一下一跳链路的所有合法相位进行评分，获得相位分数；

相位评分模块，用于利用第二softmax函数将所述相位分数转化为对应相位为调度所述待调度TT流所使用的转发相位的概率，并将概率最大的转发相位确定为所述第一转发相位；

时隙确定模块，用于按照所述第一转发相位中时隙标识从小到大的顺序，对所述第一转发相位中的时隙进行遍历，并将首次遍历到的未被占用的时隙确定为所述第一时隙。

可选的，所述更新单元包括：

样本获取模块，用于利用目标采样比率获取调度成功的样本和调度失败的样本；

所述目标采样比率的计算公式为：

其中，ratio_t表示第t时间步对应的调度成功与调度失败的比例，ratio_t-1表示第t-1时间步对应的调度成功与调度失败的比例，η表示预设采样参数，succ_cnt表示第t时间步对应的调度成功的TT流数量，fail_cnt表示第t时间步对应的调度失败的TT流数量；

更新模块，用于利用所述策略梯度算法和获取的样本更新所述时间触发调度模型的参数。

第四方面，本发明实施例提供了一种时间触发调度装置，所述装置包括：

获取单元，用于将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于第一方面所述的方法训练得到的神经网络模型；

调度单元，用于利用所述目标路由和所述目标时隙对所述待调度TT流进行调度。

第五方面，本发明实施例提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面或第二方面所述的方法。

第六方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现第一方面或第二方面所述的方法。

由上述内容可知，本发明实施例提供的时间触发调度模型的训练、时间触发调度方法及装置，能够利用深度强化学习来训练时间触发调度模型，利用该时间触发调度模型可以自动确定待调度TT流进行调度所需的目标路由和目标时隙，整个过程无需人工参与，从而提高了TT流的调度效率。其中，时间触发调度模型的训练方法包括：首先获取拓扑图中每条链路的原始特征向量、可用资源向量、邻居向量以及全局向量，以获得每条链路各种维度的信息；然后将这些向量输入策略网络，获得待调度TT流的第一下一跳链路、第一下一跳链路对应的第一转发相位以及第一转发相位中为待调度TT流分配的第一时隙；若当前调度未到达终点，可以通过更新上述四种向量以及时隙占用情况，继续计算待调度TT流的第二下一跳链路、第二转发相位以及第二时隙，直至该待调度TT流调度至终点时，可以继续对下一个待调度TT流进行调度；在达预设调度终止条件时，可以利用策略梯度算法更新时间触发调度模型的参数，并利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至达到收敛条件时，获得最终需要的目标时间触发调度模型。通过上述模型训练过程可知，由于本发明实施例在进行模型训练时，结合了每条链路各种维度的信息，所以可以保证训练出的模型的调度准确性相对较高。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本发明实施例的创新点包括但不限于以下几点：

1、通过获取每条链路的原始特征向量、可用资源向量、邻居向量以及全局向量，将这些向量输入策略网络来确定待调度TT流需要的目标路由和目标时隙，并利用策略梯度算法更新时间触发调度模型的参数，从而可以训练得到一个准确性较高的时间触发调度模型。

2、当需要对某TT流进行调度时，可以直接将该TT流输入训练好的时间触发调度模型中，可以自动获得调度该TT流的所需的目标路由和目标时隙，整个过程无需人工参与，调度效率较高。

3、在获取每条链路的可用资源向量时，可以先将每个相位的可用时隙率作为输入神经元输入周期层，获得不同周期TT流的空余时隙信息周期层，再输入至少一个全连接层(Fully connected layer，FC)实现降维处理，获得最终需要的可用资源向量。其中，周期层的每2ⁱ个输出神经元只需与2^k-i个输入神经元相连，而无需像FC层一样，将每个输出神经元都分别与所有输入神经元相连，从而增加周期层可以减少所需运算的参数，进而可以在较短的时间内学习到足够的特征知识，加速模型的收敛。

4、在利用策略梯度算法更新时间触发调度模型的参数时，需要先采样一定比例调度成功的样本和一定比例调度失败的样本，若采用固定比例，则会降低参数更新准确率，从而降低模型收敛效率，本发明实施例通过根据调度成功的次数和调度失败的次数动态调整采样比例，从而可以提高参数更新的准确率，进而加速模型的收敛。

5、通过MLP和softmax函数来计算链路概率分布或者相位概率分布，以获得概率最大的链路或相位；通过遍历相位中的时隙是否被占用，来为待调度TT流分配时隙。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种时间触发调度模型的结构示意图；

图2为本发明实施例提供的一种时间触发调度模型的训练方法的流程示意图；

图3为本发明实施例提供的一种周期层的结构示意图；

图4为本发明实施例提供的一种时隙分配的示例图；

图5为本发明实施例提供的一种时间触发调度模型的训练装置的组成框图；

图6为本发明实施例提供的一种时间触发调度装置的组成框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明提供了一种时间触发调度模型的训练、时间触发调度方法及装置，能够提高TT流的调度效率。本发明实施例所提供的方法，可以应用于任一具有计算能力的电子设备，该电子设备可以为终端或者服务器。在一种实现中，实现该方法的功能软件可以以单独的客户端软件的形式存在，也可以以目前相关的客户端软件的插件的形式存在，这都是可以的。

下面对本发明实施例进行详细说明。

图1是本发明实施例提供的时间触发调度模型的结构示意图，该模型包括特征提取器、图神经网络(Graph Neural Network，GNN)和策略网络三部分。特征提取器用于提取由网络设备构成的拓扑图中每条链路的原始特征向量，并将各相位的可用时隙信息输入周期块获得可用资源向量；GNN网络用于结合拓扑图、原始特征向量、可用资源向量获得每条链路的邻居向量，并通过平均池化层和全连接层获得全局向量；策略网络将前述获得的向量作为输入，先通过多层感知器(Multiple Layer Perceptron，MLP)和softmax函数来计算链路概率分布p(link)，link表示链路，获得概率最大的链路作为下一跳链路，并将该下一跳链路对应的向量作为输入，通过MLP和softmax函数来计算相位概率分布p(phase|link)，phase表示相位，获得概率最大的相位，最后从该相位中确定可用的时隙(时隙在相位中的有效偏移量)分配给本次待调度TT流。

下面结合图1所示的模型对模型训练过程进行详细介绍。图2为本发明实施例提供的时间触发调度模型的训练方法的一种流程示意图。该方法可以包括如下步骤：

S100：提取由网络设备构成的拓扑图中每条链路的基础特征向量。

网络拓扑可以被公式化地定义为一个无向图G(V,E)，网络中的所有主机和交换机用顶点集合表示V；网络拓扑中的所有物理链路用边集合E表示。本发明实施例中将所有的物理链路表示成两条双向边，定义数据流链路集合L：

其中v_i和v_j分别为第i网络设备和第j个网络设备。

任意一条TT流f_i可以表示为f_i＝{f_i.id,f_i.src,f_i.dst,f_i.len,f_i.dly,f_i.prd}，其中，f_i.id为TT流的身份标识号(identity document，id)、f_i.str为TT流的起点、f_i.dst为TT流的终点、f_i.len为TT流的报文长度、f_i.dly为TT流最大端到端延迟(即从TT流起点到TT流终点所消耗的时间)，f_i.prd为TT流的周期。所有TT流用集合F表示。对于一个起点为v₁，终点为v_m的TT流需求来说，对应的路由可以表示为RT＝[[v₁,v₂]...[v_m-1,v_m]]。此外在进行所有TT流的调度时，由于所有TT流都是按周期传输，因此需要宏周期的概念，宏周期指所有TT流周期的最小公倍数，可以表示为lcm_prd＝LCM(f₁.prd,...,f_F.prd)。

在实际应用中，可以将连续的时间划分为离散的时隙，并使用N个时隙表示一个相位(通常采用64个时隙表示一个相位)。本发明实施例中，一个时隙可以为(1/64)ms＝15.625μs。当链路速率为1Gbit/s时，1个最大传输单元(maximum transmission unit,MTU)的帧可以在1个时隙内完成传输。此外，每个TT流的周期可以设置为2的幂次(例如1ms,2ms,4ms等)。因此，f_i在一个宏周期内需要传输lcm_prd/f_i.prd个帧。

所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、所述待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期。合法的相位比例＝未被占用的相位数/宏周期包含的相位数。

可用资源向量是指未被占用时隙的向量，在提取该向量时，可以将每个相位的可用时隙率作为输入神经元输入周期层，获得不同周期TT流的空余时隙信息；其中每2ⁱ个输出神经元表示一种周期的TT流的空余时隙信息，并且每2ⁱ个输出神经元分别与2^k-i个输入神经元相连；0≤i≤k-1，且i为整数，k为正整数；若输出神经元个数小于输入神经元个数，则增加虚拟输出神经元以使得输出神经元个数与输入神经元个数相同；将所述不同周期TT流的空余时隙信息输入预设数量的全连接层进行降维处理，获得每条链路的所述可用资源向量。例如，图1中，1024维的向量经过3个FC层后，获得256维向量。

传统的输入和输出神经元是完全连接的。但是，对于一个周期为的TT流，在一个宏周期中，它只会占据lcm_prd/f_i.prd个时隙，这意味着对于周期越长的TT流来说，其影响的时隙状态越少。因此，本发明实施例设计了一种特定的神经元连接模式，对于每个i∈{0,1,2,...k-1}，其中k＝log₂(n)，将每2ⁱ个输出神经元分为一组，然后将他们分别与2^k-i个输入神经元相连。其中，n是输入神经元的个数，k通过n计算得来，可以理解为划分的组数，i表示第i个分组。到目前为止，共有

个输出神经元连接到了输入层。为了保持输入和输出层的维数相等，在输出层的末端添加虚拟神经元。因此周期层的参数个数为

与参数个数O(n²)为的FC层相比，周期层可以节省大量的参数。

示例性的，如图3所示，周期层的输入为1024个神经元，输出为1023个神经元，为了保持输入输出维数相同，在输出层末端增加一个虚拟神经元。每2ⁱ个输出神经元分为一组，并将他们分别与2^k-i个输入神经元相连。例如，图中第一个输出神经元是一组，且该神经元与1024个输入神经元连接；第2个和第3个输出神经元是一组，且他们分别与512个输入神经元连接，例如第2个输出神经元与第1、3、5、7...1023个输入神经元连接，第3个输出神经元与第2、4、6、8...1024个神经元连接。

通过设置为不同的值，周期层可以适应不同大小的宏周期。例如，如果宏周期为512ms，则n可以设置为512。在周期层的基础上，还设置了至少一个FC层(例如可以设置3个FC层)，可以将周期层和至少一个FC层称为周期块。输入相位的可用时隙率可以通过周期块编码为可用的资源向量。与只应用FC层的周期块相比，使用周期层可以在较短的时间内学习到足够的特征知识，加速模型的收敛。

S110：针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量。

所述邻居向量为与所述链路相邻的其他链路的基础特征向量。可以通过图卷积网络(Graph Convolutional Network，GCN)，将链路v的基础特征向量

和所述链路v的邻居向量

输入第一公式迭代k次，获得所述链路的嵌入向量

所述第一公式为：

其中，k为正整数，g和f表示激活函数，u表示链路v的邻居链路，ξ(v)表示邻居链路集合。其中迭代次数k的取值可以根据实验情况而定。激活函数可以使用线性整流函数(Rectified Linear Unit，ReLu)、Sigmoid函数等。

S120：根据所有链路的嵌入向量的平均值获取全局向量。

具体的，可以通过图摘要网络(graph summarization network，GSN)，计算所有链路的嵌入向量的平均值；通过全连接层和激活函数对所述平均值进行编码，获得所述全局向量。

计算公式可以为：

其中，g和f表示激活函数，W_g表示GSN的参数，count表示链路的总数。

S130：将每条链路的所述基础特征向量、所述嵌入向量和所述全局向量进行拼接获得所述链路的目标向量。

在获得基础特征向量、嵌入向量和全局向量后，为了便于对这些向量进行计算，可以将这些向量进行拼接成一个向量。

具体可以通过公式

进行计算，其中r_v表示原始特征向量，t_v表示可用资源向量，

表示嵌入向量，e_global表示全局向量。

S140：将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙。

具体可以通过串行执行3步动作范式来实现，该动作范式为a_t＝(link,phase,offset)，第一部分link是链路选择子动作，表示路由信息，即TT流应该通过哪个链路到达下一个节点，第二部分phase是相位选择子动作，表示转发相位的索引，第三部分offset是偏移计算子动作，表示对应相位的时隙偏移值。下面分别对这三个子动作进行解释：

(一)链路选择子动作：将每条链路的所述目标向量输入所述策略网络中的第一MLP，对每条链路进行评分，获得链路分数；利用第一softmax函数将所述链路分数转化为对应链路为调度所述待调度TT流的下一跳链路的概率，并将概率最大的链路确定为所述第一下一跳链路。

具体的，策略网络的输入可以表示为一个矩阵

其中n是链路的数量，z_i∈R^m表示第i个链路的输入向量。然后策略网络利用第一MLP对每个链路向量进行评分，得到scr＝[s₁,s₂,...,s_n]。最后，通过第一softmax函数将scr转化为链路的概率分布:

根据这个概率分布对链路的选择进行采样，选择概率最大的链路为下一跳链路。

(二)相位选择子动作将所述第一下一跳链路的目标向量输入第二MLP，对所述第一下一跳链路的所有合法相位进行评分，获得相位分数；利用第二softmax函数将所述相位分数转化为对应相位为调度所述待调度TT流所使用的转发相位的概率，并将概率最大的转发相位确定为所述第一转发相位。

(三)偏移计算子动作：按照所述第一转发相位中时隙标识从小到大的顺序，对所述第一转发相位中的时隙进行遍历，并将首次遍历到的未被占用的时隙确定为所述第一时隙。

本发明实施例的TT调度算法以拓扑图和TT流需求为输入，然后对每个TT流输出一条从起点到终点的路由，并为该路由上的所有链路分配时隙。假设一个相位为1ms，每个相位包括64个时隙，TT流、和的周期分别为1ms、2ms和4ms。并且这三条流的路由都经过同一条链路，那么图4显示了链路上三个流可能的调度结果。本发明实施例将时隙分配过程划分为两个步骤:相位选择和偏移量计算。如图4所示，宏周期分为4个相位，每个相位又进一步划分为64个时隙。对于TT流调度过程，首先选择它应该处于哪个相位。然后我们决定该相位中的哪个时隙应该分配给TT流。例如，TT流f₃被设置为占用第三个相位的第63个时隙。将TT流的时隙分配问题简化为在宏周期中寻找第一相位索引，和在该相位内寻找偏移量的问题。如图4所示，流f₁，f₂，f₃的(第一相位，偏移)对分别是(0,2)，(0,23)，(2,62)。给定TT流f的第一相位first_phase_index和偏移offset，那么分配给f的时隙集是{first_phase_index×64+offset+f.prd×i|i∈{0，1，…，lcm_prd/f.prd-1}。当需要计算f占用的第一个时隙时。可定义函数first_slot：first_slot(f)＝first_phase_index(f)×64+offset(f)。

S150：若利用所述第一时隙和所述第一下一跳链路对所述待调度TT流进行调度所到达的网络设备不是所述终点，则更新所述目标向量以及时隙占用情况，并将更新后的目标向量输入所述策略网络确定所述待调度TT流的第二下一跳链路、所述第二下一跳链路对应的第二转发相位以及所述第二转发相位中为所述待调度TT流分配的第二时隙，并利用所述第二时隙和所述第二下一跳链路对所述待调度TT流进行调度，直至达到所述终点。

需要说明的是，第一下一跳链路、第一转发相位、第一时隙，第二下一跳链路、第二转发相位以及第二时隙中的“第一”或“第二”仅用于区分，而不表示顺序。

S160：在针对多条待调度TT流进行调度过程中到达预设调度终止条件时，利用策略梯度算法更新时间触发调度模型的参数，并利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至目标函数取值最大时，获得目标时间触发调度模型。

所述预设调度终止条件包括所述多条待调度TT流均完成调度或者无法调度当前TT流。所述目标函数是与所述拓扑图、待调度TT流的调度需求、确定下一跳链路、转发相位、时隙分配相关的函数。

策略梯度算法可以通过计算奖励值期望相对于参数的梯度来更新模型。调度过程中的状态s(包括网络拓扑信息、当前TT流的需求等)和动作序列可以认为是一条轨迹τ＝(s₀,a₀,...,s_n-1,a_n-1,s_n)。假设θ表示模型的所有参数，η，γ分别表示学习率和衰减系数，的目标是找到一个最优策略π:s×a→[0,1]，使得奖励值期望

最大化。从而可以获得梯度和相应的更新公式:

其中，t表示第t时间步，p_π表示在当前策略下状态的分布概率函数，π_θ表示对于给定的状态s，执行动作a后，转换到下一状态的概率分布。b是根据相同轨迹下所有奖励的均值来评估出来的值，在不引入偏差的前提下，利用b减少模型训练过程中的方差。

r(s_t,a_t)＝α×TT_finish+β×TT_delay

其中，T_delay表示当前TT流所对应的路由从起点到终点所对应的时长，T_finish表示当前TT流的传输延迟，可以设置超参数α＝1，β＝1×10^-7。

在利用策略梯度算法更新时间触发调度模型的参数时，需要先采样一定比例调度成功的样本和一定比例调度失败的样本，若采用固定比例，则会降低参数更新准确率，从而降低模型收敛效率，为了解决成功和失败转换之间极不平衡的情形，本发明实施例进一步提出了一种自适应双重经验重放机制(adaptive dual experience replay,ADER)，该机制将成功和失败转换置于两个独立的重放缓冲区中，并自适应地改变这两种转换的采样率。在完成当前轨迹的调度后，ADER利用公式

调整成功和失败转换的样本采样比率。具体可以先利用目标采样比率获取调度成功的样本和调度失败的样本，再利用所述策略梯度算法和获取的样本更新所述时间触发调度模型的参数。

其中，如果时间触发调度模型找到一个有效的路由并为分配了适当的时隙，则认为TT流f_i的转换是成功的。相比之下，如果调度失败(找到错误的路由或选择一个无效的时隙)，那么f_i的所有转换都将存储在失败重放缓冲区中。

在模型训练过程中，可以根据具体需求设置模型的超参数。例如，可以设置GCN的迭代次数设置为2。GCN和GSN嵌入向量的长度均设为32。在策略网络中，计算link分数的MLP包含四个FC层，维度分别为128、64、16、1。计算相位phase的MLP包含两个FC层，维度分别为512和1024。各层的激活函数统一使用Leaky_Relu，参数更新时采用学习率为1×10^-4的Adam优化器。奖励衰减系数设置为0.99，并且训练模型至少1000轮。

本发明实施例提供的时间触发调度模型的训练方法，能够利用深度强化学习来训练时间触发调度模型，利用该时间触发调度模型可以自动确定待调度TT流进行调度所需的目标路由和目标时隙，整个过程无需人工参与，从而提高了TT流的调度效率。其中，时间触发调度模型的训练方法包括：首先获取拓扑图中每条链路的原始特征向量、可用资源向量、邻居向量以及全局向量，以获得每条链路各种维度的信息；然后将这些向量输入策略网络，获得待调度TT流的第一下一跳链路、第一下一跳链路对应的第一转发相位以及第一转发相位中为待调度TT流分配的第一时隙；若当前调度未到达终点，可以通过更新上述四种向量以及时隙占用情况，继续计算待调度TT流的第二下一跳链路、第二转发相位以及第二时隙，直至该待调度TT流调度至终点时，可以继续对下一个待调度TT流进行调度；在达预设调度终止条件时，可以利用策略梯度算法更新时间触发调度模型的参数，并利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至达到收敛条件时，获得最终需要的目标时间触发调度模型。通过上述模型训练过程可知，由于本发明实施例在进行模型训练时，结合了每条链路各种维度的信息，所以可以保证训练出的模型的调度准确性相对较高。

基于上述方法实施例，本发明实施例提供了一种时间触发调度方法，该方法可以包括：将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于如上所述的时间触发调度模型训练方法训练得到的神经网络模型；利用所述目标路由和所述目标时隙对所述待调度TT流进行调度。

基于上述方法实施例，本发明实施例提供了一种时间触发调度模型的训练装置，如图5所示，所述装置可以包括：

提取单元50，用于提取由网络设备构成的拓扑图中每条链路的基础特征向量；所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、所述待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期；

第一计算单元52，用于针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量；所述邻居向量为与所述链路相邻的其他链路的基础特征向量；

第二计算单元54，用于根据所有链路的嵌入向量的平均值获取全局向量；

拼接单元56，用于将每条链路的所述基础特征向量、所述嵌入向量和所述全局向量进行拼接获得所述链路的目标向量；

调度单元58，用于将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙；若利用所述第一时隙和所述第一下一跳链路对所述待调度TT流进行调度所到达的网络设备不是所述终点，则更新所述目标向量以及时隙占用情况，并将更新后的目标向量输入所述策略网络确定所述待调度TT流的第二下一跳链路、所述第二下一跳链路对应的第二转发相位以及所述第二转发相位中为所述待调度TT流分配的第二时隙，并利用所述第二时隙和所述第二下一跳链路对所述待调度TT流进行调度，直至达到所述终点；

更新单元510，用于在针对多条待调度TT流进行调度过程中到达预设调度终止条件时，利用策略梯度算法更新时间触发调度模型的参数；

所述调度单元58，用于利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至目标函数取值最大时，获得目标时间触发调度模型；所述目标函数是与所述拓扑图、待调度TT流的调度需求、确定下一跳链路、转发相位、时隙分配相关的函数。

可选的，所述提取单元50包括：

可选的，第一计算单元52，用于通过图卷积网络GCN网络，将链路v的基础特征向量

和所述链路v的邻居向量

输入第一公式迭代k次，获得所述链路的嵌入向量

所述第一公式为：

可选的，所述第二计算单元54包括：

可选的，所述调度单元58包括：

可选的，所述更新单元510包括：

所述目标采样比率的计算公式为：

本发明实施例提供的时间触发调度模型的训练装置，能够利用深度强化学习来训练时间触发调度模型，利用该时间触发调度模型可以自动确定待调度TT流进行调度所需的目标路由和目标时隙，整个过程无需人工参与，从而提高了TT流的调度效率。其中，时间触发调度模型的训练方法包括：首先获取拓扑图中每条链路的原始特征向量、可用资源向量、邻居向量以及全局向量，以获得每条链路各种维度的信息；然后将这些向量输入策略网络，获得待调度TT流的第一下一跳链路、第一下一跳链路对应的第一转发相位以及第一转发相位中为待调度TT流分配的第一时隙；若当前调度未到达终点，可以通过更新上述四种向量以及时隙占用情况，继续计算待调度TT流的第二下一跳链路、第二转发相位以及第二时隙，直至该待调度TT流调度至终点时，可以继续对下一个待调度TT流进行调度；在达预设调度终止条件时，可以利用策略梯度算法更新时间触发调度模型的参数，并利用更新后的时间触发调度模型继续对待调度TT流进行调度，直至达到收敛条件时，获得最终需要的目标时间触发调度模型。通过上述模型训练过程可知，由于本发明实施例在进行模型训练时，结合了每条链路各种维度的信息，所以可以保证训练出的模型的调度准确性相对较高。

基于上述方法实施例，本发明实施例提供了一种时间触发调度装置，如图6所示，所述装置可以包括：

获取单元60，用于将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于上述时间触发调度模型训练方法训练得到的神经网络模型；

调度单元62，用于利用所述目标路由和所述目标时隙对所述待调度TT流进行调度。

基于上述方法实施例，本发明的另一个实施例还提供了一种存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的方法。

基于上述方法实施例，本发明的另一个实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

上述系统、装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种时间触发调度模型的训练方法，其特征在于，所述方法包括：

提取由网络设备构成的拓扑图中每条链路的基础特征向量；所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期；

根据所有链路的嵌入向量的平均值获取全局向量；

2.如权利要求1所述的方法，其特征在于，提取由网络设备构成的拓扑图中每条链路的基础特征向量中的可用资源向量，包括：

3.如权利要求1所述的方法，其特征在于，针对每条链路，根据所述链路的基础特征向量和所述链路的邻居向量，获得所述链路的嵌入向量，包括：

通过图卷积网络GCN网络，将链路v的基础特征向量

和所述链路v的邻居向量

输入第一公式迭代k次，获得所述链路的嵌入向量

所述第一公式为：

4.如权利要求1所述的方法，其特征在于，根据所有链路的嵌入向量的平均值获取全局向量，包括：

通过图摘要网络GSN，计算所有链路的嵌入向量的平均值；

5.如权利要求1所述的方法，其特征在于，将所述目标向量输入策略网络，确定所述待调度TT流的第一下一跳链路、所述第一下一跳链路对应的第一转发相位以及所述第一转发相位中为所述待调度TT流分配的第一时隙，包括：

6.如权利要求1所述的方法，其特征在于，利用策略梯度算法更新时间触发调度模型的参数包括：

利用目标采样比率获取调度成功的样本和调度失败的样本；

所述目标采样比率的计算公式为：

7.如权利要求1-6中任一项所述的方法，其特征在于，所述预设调度终止条件包括所述多条待调度TT流均完成调度或者无法调度当前TT流。

8.一种时间触发调度方法，其特征在于，所述方法包括：

将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于权利要求1-7中任一项所述的方法训练得到的神经网络模型；

9.一种时间触发调度模型的训练装置，其特征在于，所述装置包括：

提取单元，用于提取由网络设备构成的拓扑图中每条链路的基础特征向量；所述基础特征向量包括原始特征向量和可用资源向量，所述原始特征向量包括以下一项或多项的组合：待调度时间触发TT流的起点、待调度TT流的终点、当前链路是否被访问、合法的相位比例、带宽的利用率以及所述待调度TT流的周期；

10.一种时间触发调度装置，其特征在于，所述装置包括：

获取单元，用于将待调度TT流输入到时间触发调度模型中，获得调度所述待调度TT流所需的目标路由和目标时隙；所述目标路由包括至少一个目标链路；所述时间触发调度模型为基于权利要求1-7中任一项所述的方法训练得到的神经网络模型；