CN114422453B

CN114422453B - 一种在线规划时间敏感流的方法、装置及存储介质

Info

Publication number: CN114422453B
Application number: CN202111449096.6A
Authority: CN
Inventors: 杨冬; 程宗荣; 任杰; 王洪超; 高德云; 张宏科
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2023-10-24
Anticipated expiration: 2041-11-30
Also published as: CN114422453A

Abstract

本发明公开了一种在线规划时间敏感流的方法、装置及存储介质，该方法包括：根据Double DQN深度强化学习算法确定预设求解器；获取业务流信息、网络拓扑信息和网络状态信息；根据业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；根据时间敏感流的关键特征和网络的关键特征构建预设求解器求解所需的状态空间；根据循环队列转发机制所对应的调度和路由规则构建预设求解器求解所需要的动作空间；根据优化目标确定预设求解器求解所需的奖励机制；运行预设求解器求解，得到在线规划结果。通过实施本发明，解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题，提高了网络对动态业务流的适应能力。

Description

一种在线规划时间敏感流的方法、装置及存储介质

技术领域

本发明涉及工业网络技术领域，具体涉及一种在线规划时间敏感流的方法、装置及存储介质。

背景技术

时间敏感网络、无线确定性网络等具有时延确定性需求的网络是目前国际产业界正在积极推动的全新通信技术，确定性网络为时间敏感流的传输提供了有界端到端传输时延、低传输抖动和极低数据丢失率的可靠保证，且具有广泛的应用场景，例如工业自动化、移动网络、车联网等，在大部分应用场景下，具有硬实时性需求的时间敏感流都是静态的且提前定义好的，所以现有的规划算法普遍适用于离线的场景。

然而针对于在线规划动态时间敏感流的问题，传统的算法计算时间长且开销大，容易陷入局部最优，不适合实时调度业务流。

发明内容

有鉴于此，本发明实施例提供了涉及一种在线规划时间敏感流的方法、装置及存储介质，以解决现有技术中规划时间敏感流的算法不适合实时调度业务流的技术问题。

本发明提出的技术方案如下：

本发明实施例第一方面提供一种在线规划时间敏感流的方法，包括：根据DoubleDQN深度强化学习算法确定预设求解器；获取业务流信息、网络拓扑信息和网络状态信息；根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间；根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间；根据优化目标确定预设求解器求解所需的奖励机制；根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果。

可选地，所述时间敏感流的关键特征包括：当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小；所述网络的关键特征包括：网络中每个节点每个接口上的每个队列的空间占用率。

可选地，根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间，包括：将提取的网络的关键特征生成状态空间的二维矩阵；将所述二维矩阵拉伸成一维向量；将所述一维向量和所述时间敏感流的关键特征拼接，得到预设求解器求解所需的状态空间。

可选地，根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间，包括：将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。

可选地，优化目标为使网络容纳的动态时间敏感流的数量最多；根据优化目标确定预设求解器求解所需的奖励机制，包括：每步迭代求解时，如果在该步需要规划的时间敏感流被网络容纳，增加奖励值；每步迭代求解时，如果在该步需要规划的时间敏感流不能被网络容纳，增加惩罚值。

可选地，所述预设求解器包括神经网络结构和学习算法，所述神经网络结构包括估计神经网络和目标神经网络，所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数；所述学习算法机制为根据当前的状态特征，以基于Q值的ε贪婪策略映射出一组动作，并在执行该组动作的过程中与环境交互，得到奖励值并转移到下一个状态，同时采用神经网络的反向传播机制，不断更新和优化神经网络参数，映射出更优的动作，所述学习算法在求解过程中重复迭代上述状态转移过程，直到满足停机准则结束。

可选地，所述神经网络的反向传播机制中，Double DQN的损失函数通过以下公式表示：

其中，Q(·)是估计神经网络的动作价值函数，y_j是目标价值，s_j是第j个样本的状态，a_j是第j个样本的动作，D_b表示总样本数；

其中，Q′(·)是目标神经网络的动作价值函数，r_j是环境给予第j个样本的即时奖励，γ是折扣因子，ω和分别表示估计神经网络和目标神经网络的参数，每经过M步迭代，目标神经网络的参数会被估计神经网络的参数直接取代，则/>

本发明实施例第二方面提供一种在线规划时间敏感流的装置，包括：求解器确定模块，用于根据Double DQN深度强化学习算法确定预设求解器；信息获取模块，用于获取业务流信息、网络拓扑信息和网络状态信息；特征提取模块，用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；状态空间确定模块，用于根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间；动作空间确定模块，用于根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间；奖励机制确定模块，用于根据优化目标确定预设求解器求解所需的奖励机制；求解模块，用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果。

本发明实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。

本发明实施例第四方面提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如本发明实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。

本发明提供的技术方案，具有如下效果：

本发明实施例提供的在线规划时间敏感流的方法、装置及存储介质，根据深度强化学习算法模型设计预设求解器，通过提取时间敏感流和网络的关键特征信息，以及与环境和优化问题相适配的状态空间、动作空间和奖励机制，来求解网络中对动态时间敏感流和路由的联合调度规划问题，从而得到不同时间敏感流的规划结果。因此，本发明实施例提供的在线规划时间敏感流的方法、装置及存储介质，解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题，提高了网络对动态业务流的适应能力。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的在线规划时间敏感流的方法的应用场景示意图；

图2是根据本发明实施例的在线规划时间敏感流的方法的流程图；

图3是根据本发明实施例的在线规划时间敏感流的装置的结构框图；

图4是根据本发明实施例提供的计算机可读存储介质的结构示意图；

图5是根据本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1描述了本发明实施例在时间敏感网络中的一个应用场景。该应用场景采用了全集中式时间敏感网络(TSN)架构的部署方式，该架构包括控制平面和数据平面两部分，控制平面包含一个全局控制器，在控制器中部署了三个主要的组件，分别是集中式用户配置CUC、集中式网络配置CNC和数据库。CUC面向用户获取业务流信息，CNC负责集中管控数据平面、下发配置信息以及执行规划业务流所必需的计算。数据平面由终端和TSN交换机组成，每个节点的每个接口上均部署有8个队列，前两个优先级最高的队列用于存储时间敏感流，接下来两个优先级次高的队列用于存储音视频A类流和B类流，其他队列均用于存储尽力而为的流。本实施例对网络中所包括的节点的数量不作具体限定。

本发明实施例提供一种在线规划时间敏感流的方法，该方法可以用于具有确定性调度需求的网络，例如时间敏感网络、无线确定性网络等。如图2所示，该方法包括如下步骤：

步骤S101：根据Double DQN深度强化学习算法确定预设求解器。具体地，在进行时间敏感流的在线规划时，可以先确定预设求解器，采用该求解器进行规划求解。其中，该预设求解器为采用Double DQN(DDQN)深度强化学习算法的智能化求解器。同时，该预设求解器将基于循环队列转发机制的时间敏感流和路由的联合调度模型转化成马尔可夫决策过程。

在一实施方式中，该预设求解器包括神经网络结构、学习算法、状态空间、动作空间以及奖励机制。其中，神经网络结构包括估计神经网络和目标神经网络，估计神经网络和目标神经网络具有相同网络结构和相同初始参数。而学习算法机制为根据当前的状态特征，以基于Q值的ε贪婪策略映射出一组动作，并在执行该组动作的过程中与环境交互，得到奖励值并转移到下一个状态，同时采用神经网络的反向传播机制，不断更新和优化神经网络参数，映射出更优的动作，所述学习算法在求解过程中重复迭代上述状态转移过程，直到满足停机准则结束。

其中，在反向传播时，DDQN的损失函数可以用均方误差来表示：

其中，Q′(·)是目标神经网络的动作价值函数，r_j是环境给予第j个样本的即时奖励，γ是折扣因子，ω和分别表示估计神经网络和目标神经网络的参数；

每经过M步迭代，目标神经网络的参数会被估计神经网络的参数直接取代，有表达式

步骤S102：获取业务流信息、网络拓扑信息和网络状态信息。具体地，在获取业务流信息时，可以采用上述集中式用户配置CUC面向用户获取业务流信息。而网络状态信息和网络拓扑信息可以由集中式网络配置CNC实时探测和获取，实现网络的在线实时监测。

步骤S103：根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征。具体地，可以基于业务流信息提取时间敏感流的关键特征，基于网络拓扑信息和网络状态信息提取网络的关键特征。

步骤S104：根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间。具体地，在提取到时间敏感流的关键特征和网络的关键特征后，可以将两种特征进行拼接，从而构建预设求解器求解所需的状态空间。

步骤S105：根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间。具体地，将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成求解器的动作空间，集合表达如下：

a_t＝{T₁,T₂,...,T_N；P₁,P₂,...,P_v}

其中，在每步迭代求解时，会根据ε贪婪策略映射出具有最大Q值的一组动作{T_i,P_j}，由此，得到一组由时间槽分配策略和路径转发策略构成的解空间。

步骤S106：根据优化目标确定预设求解器求解所需的奖励机制。具体地，在确定奖励机制时，可以先确定此次规划的优化目标。然后根据该优化目标的实现与否确定求解器对应的奖励机制。

步骤S107：根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果。具体地，在确定智能求解器的状态空间、动作空间以及奖励机制后，将其输入到求解器中。求解器根据输入的参数，并基于其内部的Double DQN深度强化学习算法进行求解，得到在线规划结果。

本发明实施例提供的在线规划时间敏感流的方法，根据深度强化学习算法模型设计预设求解器，通过提取时间敏感流和网络的关键特征信息，以及与环境和优化问题相适配的状态空间、动作空间和奖励机制，来求解网络中对动态时间敏感流和路由的联合调度规划问题，从而得到不同时间敏感流的规划结果。因此，本发明实施例提供的在线规划时间敏感流的方法，解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题，提高了网络对动态业务流的适应能力。

在一实施方式中，所述时间敏感流的关键特征包括：当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小；所述网络的关键特征包括：网络中每个节点每个接口上的每个队列的空间占用率。

具体地，在提取时间敏感流的关键特征时，可以在每步DDQN算法迭代开始时均进行提取。其中，上述时间敏感流的关键特征可以表示为：

对于网络的关键特征，也可以在每步DDQN算法迭代开始时均进行提取。该网络的关键特征包括网络中每个节点每个接口上的每个队列的空间占用率，以便能实时监测队列资源，保证在一个时间槽发送的数据包不超过最大传输容量。由此，将每次提取的时间敏感流特征和网络的关键特征一起输入到求解器中进行每步DDQN算法的迭代求解。

在一实施方式中，根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间，包括：将提取的网络的关键特征生成状态空间的二维矩阵；将所述二维矩阵拉伸成一维向量；将所述一维向量和所述时间敏感流的关键特征拼接，得到预设求解器求解所需的状态空间。

具体地，对于提取的网络的关键特征，可以结合循环队列转发机制和调度周期，给出状态空间的二维矩阵表示：

其中，第i行表示第i个时间槽，第j列表示第j个接收队列，第(i,j)个元素则表示在第i个时间槽内第j个接收队列的空间占用率。

而预设求解器所需的状态空间由时间敏感流的关键特征和网络的关键特征拼接而成，由此，对于网络的关键特征生成状态空间的二维矩阵，可以将其进行拉伸生成一维向量，然后再将该一维向量和时间敏感流的关键特征进行拼接生成状态空间。该状态空间的集合由以下公式表示：

在一实施方式中，优化目标为使网络容纳的动态时间敏感流的数量最多；根据优化目标确定预设求解器求解所需的奖励机制，包括：每步迭代求解时，如果在该步需要规划的时间敏感流被网络容纳，增加奖励值；每步迭代求解时，如果在该步需要规划的时间敏感流不能被网络容纳，增加惩罚值。

在确定优化目标后，可以基于每步迭代求解时需要规划的时间敏感流是否能够被网络容纳，确定奖励机制。例如，若能被网络容纳，则证明调度成功，给予奖励值加1，若不能被网络容纳，则证明调度失败，给予惩罚值加1。

本发明实施例还提供一种在线规划时间敏感流的装置，如图3所示，该装置包括：

求解器确定模块，用于根据Double DQN深度强化学习算法确定预设求解器；具体内容参见上述方法实施例对应部分，在此不再赘述。

信息获取模块，用于获取业务流信息、网络拓扑信息和网络状态信息；具体内容参见上述方法实施例对应部分，在此不再赘述。

特征提取模块，用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；具体内容参见上述方法实施例对应部分，在此不再赘述。

状态空间确定模块，用于根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间；具体内容参见上述方法实施例对应部分，在此不再赘述。

动作空间确定模块，用于根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间；具体内容参见上述方法实施例对应部分，在此不再赘述。

奖励机制确定模块，用于根据优化目标确定预设求解器求解所需的奖励机制；具体内容参见上述方法实施例对应部分，在此不再赘述。

求解模块，用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果。具体内容参见上述方法实施例对应部分，在此不再赘述。

本发明实施例提供的在线规划时间敏感流的装置，根据深度强化学习算法模型设计预设求解器，通过提取时间敏感流和网络的关键特征信息，以及与环境和优化问题相适配的状态空间、动作空间和奖励机制，来求解网络中对动态时间敏感流和路由的联合调度规划问题，从而得到不同时间敏感流的规划结果。因此，本发明实施例提供的在线规划时间敏感流的装置，解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题，提高了网络对动态业务流的适应能力。

本发明实施例提供的在线规划时间敏感流的装置的功能描述详细参见上述实施例中在线规划时间敏感流的方法描述。

本发明实施例还提供一种存储介质，如图4所示，其上存储有计算机程序601，该指令被处理器执行时实现上述实施例中在线规划时间敏感流的方法的步骤。该存储介质上还存储有音视频流数据，特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本发明实施例还提供了一种电子设备，如图5所示，该电子设备可以包括处理器51和存储器52，其中处理器51和存储器52可以通过总线或者其他方式连接，图5中以通过总线连接为例。

处理器51可以为中央处理器(Central Processing Unit，CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的在线规划时间敏感流的方法。

存储器52可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储处理器51所创建的数据等。此外，存储器52可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器52可选包括相对于处理器51远程设置的存储器，这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中，当被所述处理器51执行时，执行如图1-2所示实施例中的在线规划时间敏感流的方法。

上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种在线规划时间敏感流的方法，其特征在于，包括：

根据Double DQN深度强化学习算法确定预设求解器；

获取业务流信息、网络拓扑信息和网络状态信息；

根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；

根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间；

根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间；

根据优化目标确定预设求解器求解所需的奖励机制；

根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果；

根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间，包括：

将提取的网络的关键特征生成状态空间的二维矩阵；

将所述二维矩阵拉伸成一维向量；

将所述一维向量和所述时间敏感流的关键特征拼接，得到预设求解器求解所需的状态空间；

优化目标为使网络容纳的动态时间敏感流的数量最多；

根据优化目标确定预设求解器求解所需的奖励机制，包括：

每步迭代求解时，如果在该步需要规划的时间敏感流被网络容纳，增加奖励值；

每步迭代求解时，如果在该步需要规划的时间敏感流不能被网络容纳，增加惩罚值；

所述预设求解器包括神经网络结构和Double DQN深度强化学习算法，

所述神经网络结构包括估计神经网络和目标神经网络，所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数；

所述Double DQN深度强化学习算法机制为根据当前的状态特征，以基于Q值的ε贪婪策略映射出一组动作，并在执行该组动作的过程中与环境交互，得到奖励值并转移到下一个状态，同时采用神经网络的反向传播机制，不断更新和优化神经网络参数，映射出更优的动作，所述学习算法在求解过程中重复迭代上述状态转移过程，直到满足停机准则结束；

所述神经网络的反向传播机制中，Double DQN的损失函数通过以下公式表示：

其中，Q(g)是估计神经网络的动作价值函数，y_j是目标价值，s_j是第j个样本的状态，a_j是第j个样本的动作，D_b表示总样本数；

其中，Q′(g)是目标神经网络的动作价值函数，r_j是环境给予第j个样本的即时奖励，γ是折扣因子，ω和分别表示估计神经网络和目标神经网络的参数，每经过M步迭代，目标神经网络的参数会被估计神经网络的参数直接取代，则/>

2.根据权利要求1所述的在线规划时间敏感流的方法，其特征在于，

所述时间敏感流的关键特征包括：当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小；

所述网络的关键特征包括：网络中每个节点每个接口上的每个队列的空间占用率。

3.根据权利要求1所述的在线规划时间敏感流的方法，其特征在于，根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间，包括：

将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。

4.一种在线规划时间敏感流的装置，其特征在于，包括：

求解器确定模块，用于根据Double DQN深度强化学习算法确定预设求解器；

信息获取模块，用于获取业务流信息、网络拓扑信息和网络状态信息；

特征提取模块，用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征；

状态空间确定模块，用于根据所述时间敏感流的关键特征和网络的关键特征，构建预设求解器求解所需的状态空间；

动作空间确定模块，用于根据循环队列转发机制所对应的调度和路由规则，构建预设求解器求解所需要的动作空间；

奖励机制确定模块，用于根据优化目标确定预设求解器求解所需的奖励机制；

求解模块，用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解，得到在线规划结果；

将提取的网络的关键特征生成状态空间的二维矩阵；

将所述二维矩阵拉伸成一维向量；

优化目标为使网络容纳的动态时间敏感流的数量最多；

根据优化目标确定预设求解器求解所需的奖励机制，包括：

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1－3任一项所述的在线规划时间敏感流的方法。

6.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行如权利要求1－3任一项所述的在线规划时间敏感流的方法。