CN114422453B - 一种在线规划时间敏感流的方法、装置及存储介质 - Google Patents
一种在线规划时间敏感流的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114422453B CN114422453B CN202111449096.6A CN202111449096A CN114422453B CN 114422453 B CN114422453 B CN 114422453B CN 202111449096 A CN202111449096 A CN 202111449096A CN 114422453 B CN114422453 B CN 114422453B
- Authority
- CN
- China
- Prior art keywords
- network
- neural network
- time
- solver
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000002787 reinforcement Effects 0.000 claims abstract description 16
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 61
- 230000015654 memory Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 241001522296 Erithacus rubecula Species 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/56—Queue scheduling implementing delay-aware scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/62—Queue scheduling characterised by scheduling criteria
- H04L47/625—Queue scheduling characterised by scheduling criteria for service slots or service orders
- H04L47/6275—Queue scheduling characterised by scheduling criteria for service slots or service orders based on priority
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种在线规划时间敏感流的方法、装置及存储介质,该方法包括:根据Double DQN深度强化学习算法确定预设求解器;获取业务流信息、网络拓扑信息和网络状态信息;根据业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;根据时间敏感流的关键特征和网络的关键特征构建预设求解器求解所需的状态空间;根据循环队列转发机制所对应的调度和路由规则构建预设求解器求解所需要的动作空间;根据优化目标确定预设求解器求解所需的奖励机制;运行预设求解器求解,得到在线规划结果。通过实施本发明,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。
Description
技术领域
本发明涉及工业网络技术领域,具体涉及一种在线规划时间敏感流的方法、装置及存储介质。
背景技术
时间敏感网络、无线确定性网络等具有时延确定性需求的网络是目前国际产业界正在积极推动的全新通信技术,确定性网络为时间敏感流的传输提供了有界端到端传输时延、低传输抖动和极低数据丢失率的可靠保证,且具有广泛的应用场景,例如工业自动化、移动网络、车联网等,在大部分应用场景下,具有硬实时性需求的时间敏感流都是静态的且提前定义好的,所以现有的规划算法普遍适用于离线的场景。
然而针对于在线规划动态时间敏感流的问题,传统的算法计算时间长且开销大,容易陷入局部最优,不适合实时调度业务流。
发明内容
有鉴于此,本发明实施例提供了涉及一种在线规划时间敏感流的方法、装置及存储介质,以解决现有技术中规划时间敏感流的算法不适合实时调度业务流的技术问题。
本发明提出的技术方案如下:
本发明实施例第一方面提供一种在线规划时间敏感流的方法,包括:根据DoubleDQN深度强化学习算法确定预设求解器;获取业务流信息、网络拓扑信息和网络状态信息;根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;根据优化目标确定预设求解器求解所需的奖励机制;根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。
可选地,所述时间敏感流的关键特征包括:当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小;所述网络的关键特征包括:网络中每个节点每个接口上的每个队列的空间占用率。
可选地,根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:将提取的网络的关键特征生成状态空间的二维矩阵;将所述二维矩阵拉伸成一维向量;将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间。
可选地,根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间,包括:将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。
可选地,优化目标为使网络容纳的动态时间敏感流的数量最多;根据优化目标确定预设求解器求解所需的奖励机制,包括:每步迭代求解时,如果在该步需要规划的时间敏感流被网络容纳,增加奖励值;每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值。
可选地,所述预设求解器包括神经网络结构和学习算法,所述神经网络结构包括估计神经网络和目标神经网络,所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数;所述学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境交互,得到奖励值并转移到下一个状态,同时采用神经网络的反向传播机制,不断更新和优化神经网络参数,映射出更优的动作,所述学习算法在求解过程中重复迭代上述状态转移过程,直到满足停机准则结束。
可选地,所述神经网络的反向传播机制中,Double DQN的损失函数通过以下公式表示:
其中,Q(·)是估计神经网络的动作价值函数,yj是目标价值,sj是第j个样本的状态,aj是第j个样本的动作,Db表示总样本数;
其中,Q′(·)是目标神经网络的动作价值函数,rj是环境给予第j个样本的即时奖励,γ是折扣因子,ω和分别表示估计神经网络和目标神经网络的参数,每经过M步迭代,目标神经网络的参数会被估计神经网络的参数直接取代,则/>
本发明实施例第二方面提供一种在线规划时间敏感流的装置,包括:求解器确定模块,用于根据Double DQN深度强化学习算法确定预设求解器;信息获取模块,用于获取业务流信息、网络拓扑信息和网络状态信息;特征提取模块,用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;状态空间确定模块,用于根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;动作空间确定模块,用于根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;奖励机制确定模块,用于根据优化目标确定预设求解器求解所需的奖励机制;求解模块,用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。
本发明实施例第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如本发明实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。
本发明实施例第四方面提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本发明实施例第一方面及第一方面任一项所述的在线规划时间敏感流的方法。
本发明提供的技术方案,具有如下效果:
本发明实施例提供的在线规划时间敏感流的方法、装置及存储介质,根据深度强化学习算法模型设计预设求解器,通过提取时间敏感流和网络的关键特征信息,以及与环境和优化问题相适配的状态空间、动作空间和奖励机制,来求解网络中对动态时间敏感流和路由的联合调度规划问题,从而得到不同时间敏感流的规划结果。因此,本发明实施例提供的在线规划时间敏感流的方法、装置及存储介质,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的在线规划时间敏感流的方法的应用场景示意图;
图2是根据本发明实施例的在线规划时间敏感流的方法的流程图;
图3是根据本发明实施例的在线规划时间敏感流的装置的结构框图;
图4是根据本发明实施例提供的计算机可读存储介质的结构示意图;
图5是根据本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1描述了本发明实施例在时间敏感网络中的一个应用场景。该应用场景采用了全集中式时间敏感网络(TSN)架构的部署方式,该架构包括控制平面和数据平面两部分,控制平面包含一个全局控制器,在控制器中部署了三个主要的组件,分别是集中式用户配置CUC、集中式网络配置CNC和数据库。CUC面向用户获取业务流信息,CNC负责集中管控数据平面、下发配置信息以及执行规划业务流所必需的计算。数据平面由终端和TSN交换机组成,每个节点的每个接口上均部署有8个队列,前两个优先级最高的队列用于存储时间敏感流,接下来两个优先级次高的队列用于存储音视频A类流和B类流,其他队列均用于存储尽力而为的流。本实施例对网络中所包括的节点的数量不作具体限定。
本发明实施例提供一种在线规划时间敏感流的方法,该方法可以用于具有确定性调度需求的网络,例如时间敏感网络、无线确定性网络等。如图2所示,该方法包括如下步骤:
步骤S101:根据Double DQN深度强化学习算法确定预设求解器。具体地,在进行时间敏感流的在线规划时,可以先确定预设求解器,采用该求解器进行规划求解。其中,该预设求解器为采用Double DQN(DDQN)深度强化学习算法的智能化求解器。同时,该预设求解器将基于循环队列转发机制的时间敏感流和路由的联合调度模型转化成马尔可夫决策过程。
在一实施方式中,该预设求解器包括神经网络结构、学习算法、状态空间、动作空间以及奖励机制。其中,神经网络结构包括估计神经网络和目标神经网络,估计神经网络和目标神经网络具有相同网络结构和相同初始参数。而学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境交互,得到奖励值并转移到下一个状态,同时采用神经网络的反向传播机制,不断更新和优化神经网络参数,映射出更优的动作,所述学习算法在求解过程中重复迭代上述状态转移过程,直到满足停机准则结束。
其中,在反向传播时,DDQN的损失函数可以用均方误差来表示:
其中,Q(·)是估计神经网络的动作价值函数,yj是目标价值,sj是第j个样本的状态,aj是第j个样本的动作,Db表示总样本数;
其中,Q′(·)是目标神经网络的动作价值函数,rj是环境给予第j个样本的即时奖励,γ是折扣因子,ω和分别表示估计神经网络和目标神经网络的参数;
每经过M步迭代,目标神经网络的参数会被估计神经网络的参数直接取代,有表达式
步骤S102:获取业务流信息、网络拓扑信息和网络状态信息。具体地,在获取业务流信息时,可以采用上述集中式用户配置CUC面向用户获取业务流信息。而网络状态信息和网络拓扑信息可以由集中式网络配置CNC实时探测和获取,实现网络的在线实时监测。
步骤S103:根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征。具体地,可以基于业务流信息提取时间敏感流的关键特征,基于网络拓扑信息和网络状态信息提取网络的关键特征。
步骤S104:根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间。具体地,在提取到时间敏感流的关键特征和网络的关键特征后,可以将两种特征进行拼接,从而构建预设求解器求解所需的状态空间。
步骤S105:根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间。具体地,将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成求解器的动作空间,集合表达如下:
at={T1,T2,...,TN;P1,P2,...,Pv}
其中,在每步迭代求解时,会根据ε贪婪策略映射出具有最大Q值的一组动作{Ti,Pj},由此,得到一组由时间槽分配策略和路径转发策略构成的解空间。
步骤S106:根据优化目标确定预设求解器求解所需的奖励机制。具体地,在确定奖励机制时,可以先确定此次规划的优化目标。然后根据该优化目标的实现与否确定求解器对应的奖励机制。
步骤S107:根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。具体地,在确定智能求解器的状态空间、动作空间以及奖励机制后,将其输入到求解器中。求解器根据输入的参数,并基于其内部的Double DQN深度强化学习算法进行求解,得到在线规划结果。
本发明实施例提供的在线规划时间敏感流的方法,根据深度强化学习算法模型设计预设求解器,通过提取时间敏感流和网络的关键特征信息,以及与环境和优化问题相适配的状态空间、动作空间和奖励机制,来求解网络中对动态时间敏感流和路由的联合调度规划问题,从而得到不同时间敏感流的规划结果。因此,本发明实施例提供的在线规划时间敏感流的方法,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。
在一实施方式中,所述时间敏感流的关键特征包括:当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小;所述网络的关键特征包括:网络中每个节点每个接口上的每个队列的空间占用率。
具体地,在提取时间敏感流的关键特征时,可以在每步DDQN算法迭代开始时均进行提取。其中,上述时间敏感流的关键特征可以表示为:
对于网络的关键特征,也可以在每步DDQN算法迭代开始时均进行提取。该网络的关键特征包括网络中每个节点每个接口上的每个队列的空间占用率,以便能实时监测队列资源,保证在一个时间槽发送的数据包不超过最大传输容量。由此,将每次提取的时间敏感流特征和网络的关键特征一起输入到求解器中进行每步DDQN算法的迭代求解。
在一实施方式中,根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:将提取的网络的关键特征生成状态空间的二维矩阵;将所述二维矩阵拉伸成一维向量;将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间。
具体地,对于提取的网络的关键特征,可以结合循环队列转发机制和调度周期,给出状态空间的二维矩阵表示:
其中,第i行表示第i个时间槽,第j列表示第j个接收队列,第(i,j)个元素则表示在第i个时间槽内第j个接收队列的空间占用率。
而预设求解器所需的状态空间由时间敏感流的关键特征和网络的关键特征拼接而成,由此,对于网络的关键特征生成状态空间的二维矩阵,可以将其进行拉伸生成一维向量,然后再将该一维向量和时间敏感流的关键特征进行拼接生成状态空间。该状态空间的集合由以下公式表示:
在一实施方式中,优化目标为使网络容纳的动态时间敏感流的数量最多;根据优化目标确定预设求解器求解所需的奖励机制,包括:每步迭代求解时,如果在该步需要规划的时间敏感流被网络容纳,增加奖励值;每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值。
在确定优化目标后,可以基于每步迭代求解时需要规划的时间敏感流是否能够被网络容纳,确定奖励机制。例如,若能被网络容纳,则证明调度成功,给予奖励值加1,若不能被网络容纳,则证明调度失败,给予惩罚值加1。
本发明实施例还提供一种在线规划时间敏感流的装置,如图3所示,该装置包括:
求解器确定模块,用于根据Double DQN深度强化学习算法确定预设求解器;具体内容参见上述方法实施例对应部分,在此不再赘述。
信息获取模块,用于获取业务流信息、网络拓扑信息和网络状态信息;具体内容参见上述方法实施例对应部分,在此不再赘述。
特征提取模块,用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;具体内容参见上述方法实施例对应部分,在此不再赘述。
状态空间确定模块,用于根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;具体内容参见上述方法实施例对应部分,在此不再赘述。
动作空间确定模块,用于根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;具体内容参见上述方法实施例对应部分,在此不再赘述。
奖励机制确定模块,用于根据优化目标确定预设求解器求解所需的奖励机制;具体内容参见上述方法实施例对应部分,在此不再赘述。
求解模块,用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果。具体内容参见上述方法实施例对应部分,在此不再赘述。
本发明实施例提供的在线规划时间敏感流的装置,根据深度强化学习算法模型设计预设求解器,通过提取时间敏感流和网络的关键特征信息,以及与环境和优化问题相适配的状态空间、动作空间和奖励机制,来求解网络中对动态时间敏感流和路由的联合调度规划问题,从而得到不同时间敏感流的规划结果。因此,本发明实施例提供的在线规划时间敏感流的装置,解决了网络中在线的对动态时间敏感流和路由联合调度规划的难题,提高了网络对动态业务流的适应能力。
本发明实施例提供的在线规划时间敏感流的装置的功能描述详细参见上述实施例中在线规划时间敏感流的方法描述。
本发明实施例还提供一种存储介质,如图4所示,其上存储有计算机程序601,该指令被处理器执行时实现上述实施例中在线规划时间敏感流的方法的步骤。该存储介质上还存储有音视频流数据,特征帧数据、交互请求信令、加密数据以及预设数据大小等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本发明实施例还提供了一种电子设备,如图5所示,该电子设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的在线规划时间敏感流的方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1-2所示实施例中的在线规划时间敏感流的方法。
上述电子设备具体细节可以对应参阅图1至图2所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (6)
1.一种在线规划时间敏感流的方法,其特征在于,包括:
根据Double DQN深度强化学习算法确定预设求解器;
获取业务流信息、网络拓扑信息和网络状态信息;
根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;
根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;
根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;
根据优化目标确定预设求解器求解所需的奖励机制;
根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果;
根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:
将提取的网络的关键特征生成状态空间的二维矩阵;
将所述二维矩阵拉伸成一维向量;
将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间;
优化目标为使网络容纳的动态时间敏感流的数量最多;
根据优化目标确定预设求解器求解所需的奖励机制,包括:
每步迭代求解时,如果在该步需要规划的时间敏感流被网络容纳,增加奖励值;
每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值;
所述预设求解器包括神经网络结构和Double DQN深度强化学习算法,
所述神经网络结构包括估计神经网络和目标神经网络,所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数;
所述Double DQN深度强化学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境交互,得到奖励值并转移到下一个状态,同时采用神经网络的反向传播机制,不断更新和优化神经网络参数,映射出更优的动作,所述学习算法在求解过程中重复迭代上述状态转移过程,直到满足停机准则结束;
所述神经网络的反向传播机制中,Double DQN的损失函数通过以下公式表示:
其中,Q(g)是估计神经网络的动作价值函数,yj是目标价值,sj是第j个样本的状态,aj是第j个样本的动作,Db表示总样本数;
其中,Q′(g)是目标神经网络的动作价值函数,rj是环境给予第j个样本的即时奖励,γ是折扣因子,ω和分别表示估计神经网络和目标神经网络的参数,每经过M步迭代,目标神经网络的参数会被估计神经网络的参数直接取代,则/>
2.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,
所述时间敏感流的关键特征包括:当前时间敏感流的ID号、发包周期、源地址、目的地址、端到端时延需求、抖动需求、每个周期发包数目和数据包大小;
所述网络的关键特征包括:网络中每个节点每个接口上的每个队列的空间占用率。
3.根据权利要求1所述的在线规划时间敏感流的方法,其特征在于,根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间,包括:
将一个调度周期内所有的时间槽和网络中所有无环的可达转发路径构成预设求解器的动作空间。
4.一种在线规划时间敏感流的装置,其特征在于,包括:
求解器确定模块,用于根据Double DQN深度强化学习算法确定预设求解器;
信息获取模块,用于获取业务流信息、网络拓扑信息和网络状态信息;
特征提取模块,用于根据所述业务流信息、网络拓扑信息和网络状态信息提取时间敏感流的关键特征和网络的关键特征;
状态空间确定模块,用于根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间;
动作空间确定模块,用于根据循环队列转发机制所对应的调度和路由规则,构建预设求解器求解所需要的动作空间;
奖励机制确定模块,用于根据优化目标确定预设求解器求解所需的奖励机制;
求解模块,用于根据所述状态空间、所述动作空间以及所述奖励机制运行预设求解器求解,得到在线规划结果;
根据所述时间敏感流的关键特征和网络的关键特征,构建预设求解器求解所需的状态空间,包括:
将提取的网络的关键特征生成状态空间的二维矩阵;
将所述二维矩阵拉伸成一维向量;
将所述一维向量和所述时间敏感流的关键特征拼接,得到预设求解器求解所需的状态空间;
优化目标为使网络容纳的动态时间敏感流的数量最多;
根据优化目标确定预设求解器求解所需的奖励机制,包括:
每步迭代求解时,如果在该步需要规划的时间敏感流被网络容纳,增加奖励值;
每步迭代求解时,如果在该步需要规划的时间敏感流不能被网络容纳,增加惩罚值;
所述预设求解器包括神经网络结构和Double DQN深度强化学习算法,
所述神经网络结构包括估计神经网络和目标神经网络,所述估计神经网络和目标神经网络具有相同网络结构和相同初始参数;
所述Double DQN深度强化学习算法机制为根据当前的状态特征,以基于Q值的ε贪婪策略映射出一组动作,并在执行该组动作的过程中与环境交互,得到奖励值并转移到下一个状态,同时采用神经网络的反向传播机制,不断更新和优化神经网络参数,映射出更优的动作,所述学习算法在求解过程中重复迭代上述状态转移过程,直到满足停机准则结束;
所述神经网络的反向传播机制中,Double DQN的损失函数通过以下公式表示:
其中,Q(g)是估计神经网络的动作价值函数,yj是目标价值,sj是第j个样本的状态,aj是第j个样本的动作,Db表示总样本数;
其中,Q′(g)是目标神经网络的动作价值函数,rj是环境给予第j个样本的即时奖励,γ是折扣因子,ω和分别表示估计神经网络和目标神经网络的参数,每经过M步迭代,目标神经网络的参数会被估计神经网络的参数直接取代,则/>
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-3任一项所述的在线规划时间敏感流的方法。
6.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-3任一项所述的在线规划时间敏感流的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111449096.6A CN114422453B (zh) | 2021-11-30 | 2021-11-30 | 一种在线规划时间敏感流的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111449096.6A CN114422453B (zh) | 2021-11-30 | 2021-11-30 | 一种在线规划时间敏感流的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114422453A CN114422453A (zh) | 2022-04-29 |
CN114422453B true CN114422453B (zh) | 2023-10-24 |
Family
ID=81266004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111449096.6A Active CN114422453B (zh) | 2021-11-30 | 2021-11-30 | 一种在线规划时间敏感流的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114422453B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900859B (zh) * | 2022-07-11 | 2022-09-20 | 深圳市华曦达科技股份有限公司 | 一种easymesh网络管理方法及装置 |
CN115567466A (zh) * | 2022-09-29 | 2023-01-03 | 浙江大学 | 基于深度强化学习的时间敏感流量在线调度方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830376A (zh) * | 2018-06-13 | 2018-11-16 | 中国科学技术大学 | 针对时间敏感的环境的多价值网络深度强化学习方法 |
CN113032938A (zh) * | 2021-03-26 | 2021-06-25 | 北京邮电大学 | 时间敏感流的路由调度方法、装置、电子设备及介质 |
WO2021128181A1 (zh) * | 2019-12-25 | 2021-07-01 | 深圳大学 | 一种自适应调节拥塞控制初始窗口的方法和系统 |
CN113207147A (zh) * | 2021-03-16 | 2021-08-03 | 网络通信与安全紫金山实验室 | 基于深度强化学习的mptcp拥塞控制方法及其存储介质 |
CN113285872A (zh) * | 2021-03-09 | 2021-08-20 | 清华大学 | 一种基于深度强化学习的时间敏感网络通信流调度方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970649B2 (en) * | 2018-08-27 | 2021-04-06 | Vmware, Inc. | Automated reinforcement-learning-based application manager that uses local agents |
-
2021
- 2021-11-30 CN CN202111449096.6A patent/CN114422453B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830376A (zh) * | 2018-06-13 | 2018-11-16 | 中国科学技术大学 | 针对时间敏感的环境的多价值网络深度强化学习方法 |
WO2021128181A1 (zh) * | 2019-12-25 | 2021-07-01 | 深圳大学 | 一种自适应调节拥塞控制初始窗口的方法和系统 |
CN113285872A (zh) * | 2021-03-09 | 2021-08-20 | 清华大学 | 一种基于深度强化学习的时间敏感网络通信流调度方法 |
CN113207147A (zh) * | 2021-03-16 | 2021-08-03 | 网络通信与安全紫金山实验室 | 基于深度强化学习的mptcp拥塞控制方法及其存储介质 |
CN113032938A (zh) * | 2021-03-26 | 2021-06-25 | 北京邮电大学 | 时间敏感流的路由调度方法、装置、电子设备及介质 |
Non-Patent Citations (7)
Title |
---|
An Analytical Latency Model for AVB Traffic in TSN Considering Time-Triggered Traffic;Jie Ren 等;《2020 IEEE 20th International Conference on Communication Technology (ICCT)》;第938-943页 * |
Deep Reinforcement Learning for Edge Service Placement in Softwarized Industrial Cyber-Physical System;Yixue Hao 等;《IEEE Transactions on Industrial Informatics》;第5552-5561页 * |
Incremental Flow Scheduling and Routing in Time-Sensitive Software-Defined Networks;Naresh Ganesh Nayak 等;《IEEE Transactions on Industrial Informatics》;第14卷(第5期);第2066-2075页 * |
Smart Manufacturing Scheduling System: DQN based on Cooperative Edge Computing;Junhyung Moon 等;《2021 15th International Conference on Ubiquitous Information Management and Communication (IMCOM)》;第1-8页 * |
基于深度强化学习的智能电网通信网业务路由方法;马庆刘 等;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;第3章 * |
边缘计算与时间敏感网络融合技术研究及标准进展;郭雄;杨宏;李孟良;;中国新通信(第05期);第58-60页 * |
面向边缘设备的高能效深度学习任务调度策略;任杰 等;《计算机学报》;第43卷(第3期);第441-451页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114422453A (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114286413B (zh) | Tsn网络联合路由选择与流分配方法及相关设备 | |
Abdelkader et al. | A performance comparison of delay-tolerant network routing protocols | |
CN114422453B (zh) | 一种在线规划时间敏感流的方法、装置及存储介质 | |
CN104506435B (zh) | Sdn控制器和sdn中的最短路径确定方法 | |
US20080170510A1 (en) | Efficient Determination Of Fast Routes When Voluminous Data Is To Be Sent From A Single Node To Many Destination Nodes Via Other Intermediate Nodes | |
Aujla et al. | An ensembled scheme for QoS-aware traffic flow management in software defined networks | |
CN103873291B (zh) | 用于配置软件定义的网络的方法和设备 | |
CN105897584A (zh) | 路径规划方法和控制器 | |
CN103329493B (zh) | 用于在分组处理期间避免存储器带宽利用的方法和设备 | |
Du et al. | GAQ-EBkSP: a DRL-based urban traffic dynamic rerouting framework using fog-cloud architecture | |
Smith et al. | Target assignment for robotic networks: Asymptotic performance under limited communication | |
CN116527565A (zh) | 基于图卷积神经网络的互联网路由优化方法及装置 | |
CN106104503A (zh) | 使用统一api对用于转发的服务器和架构编程以用于细粒度网络优化 | |
CN114024907A (zh) | 一种多口字环形结构下的流量调度方法和系统 | |
Blose et al. | Scalable Hybrid Switching-Driven Software Defined Networking Issue: From the Perspective of Reinforcement Learning | |
Kurniawan et al. | Mobile computing and communications-driven fog-assisted disaster evacuation techniques for context-aware guidance support: A survey | |
CN115695280A (zh) | 基于边缘节点的路由方法及装置、电子设备、存储介质 | |
Moza et al. | Routing in networks using genetic algorithm | |
Sun et al. | Joint Routing and Scheduling Optimization of in Vehicle Time Sensitive Networks based on Improved Grey Wolf Optimizer | |
JP5595342B2 (ja) | 複数経路探索方法及び装置 | |
CN117880256B (zh) | 一种基于多控制器SDN的数据中心网络视频流QoS保障方法 | |
Zhang et al. | Adaptive Service Function Chain Orchestration Algorithm Based on Deep Reinforcement Learning | |
Azampanah et al. | Contention‐aware selection strategy for application‐specific network‐on‐chip | |
Suleiman et al. | Flow-Level Simulation for Adaptive Routing Protocols in Vehicular Ad-Hoc Networks | |
Ji et al. | Efficient mobile agent path-search techniques using genetic algorithm processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |