CN113612692B - 基于dqn算法的集中式光片上网络自适应路由规划方法 - Google Patents
基于dqn算法的集中式光片上网络自适应路由规划方法 Download PDFInfo
- Publication number
- CN113612692B CN113612692B CN202110920145.3A CN202110920145A CN113612692B CN 113612692 B CN113612692 B CN 113612692B CN 202110920145 A CN202110920145 A CN 202110920145A CN 113612692 B CN113612692 B CN 113612692B
- Authority
- CN
- China
- Prior art keywords
- dqn
- network
- parameter
- path
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0073—Provisions for forwarding or routing, e.g. lookup tables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Networks & Wireless Communication (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法,通过建立无向加权图以及多个因子参数;将因子参数的当前状态参数输入对应的DQN算子模型中,得到输出结果并将其输入至ε‑greedy策略网络中,ε‑greedy策略网络根据输入以及内插损耗状态参数选择数据链路组成一条路径,输出每个因子参数的奖励以及下一时刻的状态参数,组成一个变迁样本训练DQN算子模型,结合基于ε‑greedy策略网络规划路由路径。本发明利用经验池的变迁样本作出路由决策,利用神经网络对Q表进行拟合,不需要时间或者空间来搜索或存放Q表,当源节点与目标节点更改时无需重新学习;同时考虑多个影响因素,从高维数据中提取和处理特征,使得路径规划效率以及准确率得到显著提高。
Description
技术领域
本发明属于动态路由规划技术领域,具体涉及一种基于DQN算法的集中式光片上网络自适应路由规划方法。
背景技术
片上硅光互连具有提高芯片级别的通信带宽、降低传输延迟、降低功耗等重要特性。而路由算法作为规划网络常规算法,路由算法的优劣直接影响到片上网络的性能。
现有技术提出将机器学习方法应用于路由路径规划中,以对集中式光片上网络的路由路径进行规划。机器学习应用的路由路径规划方法分为基于监督学习的智能路由算法以及基于强化学习的智能路由算法。
在基于监督学习的智能路由算法中在设定样本时需要确定标签;而确定合适的标签过程较为复杂,因此对网络的适应性不高。基于强化学习的智能路由算法主要是基于Q-learning算法及其衍生的算法,该算法需要学习Q表,而Q表中的参数会随着网络动态变更,同时当用户端接入想要访问区别于之前的源节点到目标节点时,该算法需要重新学习并重新规划路由。由于该算法计算过程中需要大量的计算来实现Q值的收敛较为耗时,重新学习增加了该算法在时间上的复杂度使得路由规划实时性更差。
由于光片上网络自适应路由规划过程中,网络如果动态变更,影响网络性能的因素也发生变化,现有的路由规划方法想要提高实时性就需要降低数据维度,即减少在计算中影响网络性能的因素,此种方案导致路由路径规划的准确性下降。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于DQN算法的集中式光片上网络自适应路由规划方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法包括:
S1:根据网络组成单元的拓扑关系建立无向加权图;
其中,无向加权图中包括多个表述网络组成单元的节点以及节点与节点之间的表示双向链路,源节点至目标节点包括多条由数据链路组成的路径,每个路径存在由于网络堵塞引起的等待时延,每个网络组成单元使用时存在内插损耗,在多条路径之间的不同状态下存在不同的网络负载均衡因子参数,所述负载均衡参数大小表述路径之间的负载均衡程度;
S2:确定影响所述链路以及网络组成单元的多个因子参数;
其中,因子参数包括:负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数;
S3:设置每个因子参数的当前状态参数,将其输入对应的DQN算子模型中,以使每个DQN算子模型初始化各自的当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径,输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数;
S4:将每个因子参数的当前状态参数、基于ε-greedy策略在无向加权图中选择的路径、其奖励、因子参数的下一时刻状态参数以及其他标记参数组成一个变迁样本放入经验池中;
S5:循环从经验池中随机选择变迁样本,训练DQN算子模型,获得训练完成后的DQN算子模型;
S6:使用训练完成后的DQN算子模型结合ε-greedy策略网络为光片上网络通信进行集中式路由规划。
可选的,所述S3包括:
针对负载均衡因子参数,将无向加权图中当前时刻每个路径上的节点之间数据链路使用次数归一化数值,作为当前状态参数输入负载均衡的DQN算子模型中,以使负载均衡的DQN算子模型初始化当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,将数据链路使用次数归一化数值负值作为负载均衡的DQN算子模型的奖励,以使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数;
针对等待延迟因子参数,将无向加权图中当前时刻每个路径上由于某个堵塞引起的等待时延的归一化数值作为当前状态参数输入等待延迟的DQN算子模型中,以使等待延迟的DQN算子模型初始化当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,将等待时延的归一化数值的负值作为等待延迟的DQN算子模型的奖励,使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数。
可选的,所述根据输入以及内插损耗的状态参数,以奖励递增的方式迭代在无向加权图中选择数据链路组成路径包括:
以奖励递增的方式,以负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数最小为目标,从源节点开始直至目标节点迭代在无向加权图中选择数据链路组成最终选择的路径。
所述数据链路使用次数归一化数值表示为:
其中,L(Ni)表示节点Ni的所有输出数据链路的使用次数集合,L(Ni,Nj)表示节点Ni连接节点Nj的数据链路的链路使用次数;
等待时延的归一化数值表示为:
其中,D(Ni)表示节点Ni的不同拐弯方向的路径由于网络堵塞引起的等待时延,D(Ni,turn)表示通过节点Ni时,路径中由于某个转弯堵塞引起的等待时延。
可选的,所述DQN算子模型的奖励表示为:
其中,所述变迁样本表示为:
(st,at,rt,st+1,done)
其中,st表示当前状态参数,at表示数据链路,st+1表示下一时刻的状态参数,rt表示奖励,done表示标记参数,表示执行动作at之后,是否到达目标节点。
可选的,所述S5包括:
循环k次从经验池中随机选择变迁样本,输入至DQN算子模型中,计算目标值和预测值的误差,并采用梯度下降算法更新估计DQN算子模型中的权重,获得训练完成后的DQN算子模型;
其中,k为当前的源节点和目标节点之间的最短路由跳数。
可选的,所述目标值和预测值的误差表示为:
loss=(yt-Q(st,at;w1))2;
其中,γ表示折扣系数,表示DQN算子模型输出的最大Q值,st表示当前状态参数,at表示数据链路,st+1表示下一时刻的状态参数,a'表示每隔A×C步计算目标值时所对应数据链路,用于与at区分,w1表示负载均衡DQN算子模型的权重,w2表示等待时延DQN算子模型的权重。
1、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法,通过建立无向加权图以及多个因子参数;将因子参数的当前状态参数输入对应的DQN算子模型中,得到输出结果,并输入到ε-greedy策略网络;ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径,得到衡量各个考虑因素的输出;每个因子参数的奖励以及下一时刻的状态参数,组成一个变迁样本训练DQN算子模型,结合基于ε-greedy策略网络规划路由路径。本发明综合考虑所有考虑因素,并做出路由决策。相较于基于Q-learning的路由算法,本发明的方法基于经验池,可以通过学习历史信息做出路由决策。而若改变源点和目标点,Q-learning算法需要重新学习。
2、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法,相较于单一的Q-learning算法,DQN算法利用神经网络对Q表进行拟合,不需要时间或者空间来搜索或存放Q表。
3、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法,考虑多个因素,能够从高维数据中提取和处理特征,可以显著提高学习速度,非常适合处理高维数据,对于在状态和动作空间数量巨大的问题适应性较高。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于DQN的集中式光片上网络自适应路由规划方法的流程图;
图2是本发明实施例提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法的通用架构图;
图3是本发明实施例提供的一种从节点(x1,y4)到节点(x4,y1)的第一步状态TS1,DS1的组成结构图;
图4是本发明实施例提供的一种基于DQN的集中式光片上网络自适应路由规划方法的详细架构图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法包括:
S1:根据网络中组成单元的拓扑关系建立无向加权图;
其中,无向加权图中包括多个表述网络组成单元的节点以及节点与节点之间的表示双向链路,源节点至目标节点包括多条由数据链路组成的路径,每个路径存在由于网络堵塞引起的等待时延,每个网络组成单元使用时存在内插损耗,在多条路径之间的不同状态下存在不同的网络负载均衡因子参数,负载均衡参数大小表述路径之间的负载均衡程度;
本发明可以采用N×N mesh网络、Cygnus路由器和光电路交换。在规划路由时,根据网络拓扑构建网络模型,即无向加权图G(E,V),其中,E表示双向数据链路集合,V表示路由器集合。确定规划路由时需要考虑的因素,包括最短路径、负载均衡、预约阶段预约路径中由于网络堵塞引起的等待时延和内插损耗四种因素,当然本发明也可以结合其他的多个参考因素进行路径规划,使用过程与这四种因素相同,本发明在此不作限制。
S2:确定影响链路以及网络组成单元的多个因子参数;
其中,因子参数包括:负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数;
S3:设置每个因子参数的当前状态参数,将其输入对应的DQN算子模型中,以使每个DQN算子模型初始化各自的当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径,输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数;
参考图2,本发明根据四种考虑因素,即最短路径、负载均衡、预约阶段预约路径中由于网络堵塞引起的等待时延和内插损耗,来进行路径规划算法。使用Dijkstra’s算法计算并保存从各节点到目标节点的最短路由跳数,并利用存储信息约束规划路由跳数,即保证规划的路径是最短路径。此处的最短路径指,从源点到目标节点的路径、并且路由跳数最少。由于网络中路由器同为Cygnus路由器,内插损耗因素固定。故对负载均衡和预约阶段预约路径中由于网络堵塞引起的等待时延两种因素设计对应的DQN算法子模型。并根据对应的考虑因素,初始化DQN算法子模型中的各部分参数。
S4:将每个因子参数的当前状态参数、基于ε-greedy策略在无向加权图中选择的路径、其奖励、因子参数的下一时刻状态参数以及其他标记参数组成一个变迁样本放入经验池中;
其中,变迁样本表示为:(st,at,rt,st+1,done),st表示当前状态参数,at表示数据链路,st+1表示下一时刻的状态参数,rt表示奖励,done表示标记参数,表示执行动作at之后,是否到达目标节点。
由于从源节点到目标节点的最短路径可能存在多跳,在规划路径算法中,为了去掉网络中不需要考虑的信息,每次执行动作,需重新确定状态{TSt,DSt}、经验回放池{TD2,DD2}和Q网络。随着每次选择并执行动作at,DQN算法的状态需修改成{TSt+1,DSt+1},并只包含从下一节点Nt+1到目标节点的所有最短路径上节点和链路集合所对应考虑参数的信息。根据{TS,DS}的规模大小,确定经验池{TD,DD}和Q网络。若状态规模大小一致,则可对应同一经验池。
在具体网络规划过程中,由于网络的动态变化,因子参数的状态在不同时刻会发生变化,本发明在组成回放池的变迁样本也跟随变化,具体过程如下:将目标Q网络的参数设置成与估计Q网络的初始化参数一致,并根据对应的S2中的考虑因素设置初始化状态s1。基于ε-greedy策略和当前状态st选择链路at并执行,得到奖励rt和下一状态st+1,并组成变迁样本(st,at,rt,st+1,done),将其填充到经验回放池Dt中。
示例性,假设多个因子参数分别为a,b,c;a因子参数的当前状态参数a_s1、b因子参数的当前状态参数b_s1和c因子参数的当前状态参数c_s1分别输入DQN1算子模型、DQN2算子模型和DQN3算子模型中,获得a因子参数的输出a1、b因子参数的输出b1和c因子参数的输出c1。综合上述各因子参数的输出a1、b1和c1,基于ε-greedy策略在无向加权图中选择路径path,获得下一时刻各因子参数的状态参数a_s2、b_s2、c_s2和各因子参数的奖励a_r、b_r、c_r,以及标记参数done,最后组成对应不同因子参数的变迁样本(a_s1,path,a_r,a_s2,done)、(b_s1,path,b_r,b_s2,done)、(c_s1,path,c_r,c_s2,done)。
S5:循环从经验池中随机选择变迁样本,训练DQN算子模型,获得训练完成后的DQN算子模型;
S6:使用训练完成后的DQN算子模型结合ε-greedy策略网络为光片上网络通信进行集中式路由规划。
本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法,根据网络组成单元的拓扑关系建立无向加权图;确定影响链路以及网络组成单元的多个因子参数;设置每个因子参数的当前状态参数输入对应的DQN算子模型中,得到输出结果并将其输入至ε-greedy策略网络中,ε-greedy策略网络根据输入结果及内插损耗状态参数选择数据链路组成一条路径,输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数,组成一个变迁样本放入经验池中;循环从经验池中随机选择变迁样本,训练DQN算子模型;使用训练完成后的DQN算子模型结合基于ε-greedy策略网络为光片上网络通信进行集中式路由规划。相较于单一的Q-learning算法,本发明利用经验池的变迁样本作出路由决策,利用神经网络对Q表进行拟合,不需要时间或者空间来搜索或存放Q表,当源节点与目标节点更改时无需重新学习,同时考虑多个影响因素,从高维数据中提取和处理特征,学习速度较快,使得路径规划效率以及准确率得到显著提高。
作为本发明一种可选的实施方式,S3包括:
S31:针对负载均衡因子参数,将无向加权图中当前时刻每个路径上的节点之间数据链路使用次数归一化数值,作为当前状态参数输入负载均衡的DQN算子模型中,以使负载均衡的DQN算子模型初始化当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,将数据链路使用次数归一化数值负值作为负载均衡的DQN算子模型的奖励,以使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数;
有关DQN算法的状态设置请参见图3。图3是从节点(x1,y4)到节点(x4,y1)的第一步状态TS1,DS1的组成结构图。状态根据具体情况分为多个表格,每个格子表示对应的路由器节点,格子里的数值表示该节点的有关参数数值的归一化值。
其中,数据链路使用次数归一化数值表示为:
其中,L(Ni)表示节点Ni的所有输出数据链路的使用次数集合,L(Ni,Nj)表示节点Ni连接节点Nj的数据链路的链路使用次数;
本发明将考虑因素对应的因子参数的当前状态作为输入,得到衡量不同考虑因素的输出,具体解释:考虑负载均衡,其状态为节点Ni到节点Nj之间数据链路使用次数的归一化数值。期望其整个网络的数据链路的使用次数更为均衡,其奖励设置为数据链路使用次数的归一化数值的负值。对于用于负载均衡的DQN子算法模型,初始化负载均衡的状态后,基于ε-greedy策略和当前负载均衡以及其他考虑因素的状态做出链路选择,得到奖励以及下一步负载均衡的状态,组成变迁样本,填充到经验池TDt中用于估计Q网络的训练。
S32:针对等待延迟因子参数,将无向加权图中当前时刻每个路径上由于某个拐弯堵塞引起的等待时延的归一化数值作为当前状态参数输入等待延迟的DQN算子模型中,以使等待延迟的DQN算子模型初始化当前状态参数后得到输出结果并将其输入至ε-greedy策略网络中,将等待时延的归一化数值的负值作为等待延迟的DQN算子模型的奖励,使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数。
等待时延的归一化数值表示为:
其中,D(Ni)表示节点Ni的不同拐弯方向的路径由于网络堵塞引起的等待时延,D(Ni,turn)表示通过节点Ni时,路径中由于某个转弯堵塞引起的等待时延。
DQN算子模型的奖励表示为:
本发明考虑预约阶段预约路径由于网络堵塞引起的等待时延,其状态为通过节点Ni时,预约阶段预约路径中由于某个拐弯堵塞引起的等待时延的归一化数值。期望其等待时延更小,其奖励设置为等待时延的归一化数值的负值。对于用于预约阶段预约路径由于网络堵塞引起的等待时延的DQN算法,初始化等待时延的状态后,基于ε-greedy策略和当前等待时延以及其他考虑因素的状态做出链路选择,得到奖励以及下一步等待时延的状态,组成变迁样本,填充到经验池DDt中用于估计Q网络的训练。
作为本发明一种可选的实施方式,根据输入以及内插损耗的状态参数,以奖励递增的方式迭代,在无向加权图中选择数据链路组成路径包括:
以奖励递增的方式,以负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数最小为目标,从源节点开始直至目标节点迭代,在无向加权图中选择数据链路组成最终选择的路径。
其中,样本(st,at,rt,st+1,done)包括动作at,奖励rt,当前状态st以及下一状态st+1,done表示是否到达目标点。
本步骤中以概率ε随机选择动作at,则
其中,Q1 *(s1,a;w1)是由DQN1算法的估计Q网络预测的不同数据链路对应的输出值的归一化数值。Q2 *(s1,a;w'1)是由DQN2算法的估计Q网络预测的不同数据链路对应的输出值的归一化数值。Iloss是选择不同数据链路之后产生的内插损耗数值的归一化数值。另外,在选择数据链路时,会使用Dijkstra’s算法计算各个节点到目标节点的最短路由跳数限制数据链路的选择,确保规划的路径为最短路径。
在路由规划算法中,当前状态st指由S1中考虑因素决定,每一个考虑因素对应一个状态。动作at指输出数据链路的选择。奖励rt指执行动作at之后,得到的关于对应考虑因素的反馈。下一状态st+1指执行动作at之后,网络对应考虑因素的变化状态。done表示在执行动作at之后,是否到达目标点。
参考图4,图4中包含两个DQN算法的子模型,两者的算法结构以及Q网络模型一致。当然本发明的考虑因素越多,DQN子模型的个数越多。图3中仅展示两个DQN算法的子模型,以DQN1算法为例,结合DQN1子模型和当前状态TSt,基于ε-greedy策略,执行动作at,选择链路,获得奖励rt以及DQN1算法的下一状态TSt+1,组成变迁样本(TSt,at,rt,TSt+1,done)放入经验回放池TD中,再进行下一步更新。每隔A步,从经验回放池中随机抽取miniBatch个样本,由样本中的奖励值rt、目标Q网络所产生的最大Q值以及当前状态TSt对应估计Q网络产生的估计Q值Q(TSt,at;w1)计算DQN1的损失函数,通过梯度下降法更新估计Q网络的权重w1。每隔A×C步,将估计Q网络的权重w1赋给目标Q网络的参数w2。DQN2算法子模型的更新步骤同理。
作为本发明一种可选的实施方式,S5包括:
循环k次从经验池中随机选择变迁样本,输入至DQN算子模型中,计算目标值和预测值的误差,并采用梯度下降算法更新估计DQN算子模型中的权重,获得训练完成后的DQN算子模型;
其中,k为当前的源节点和目标节点之间的最短路由跳数。目标值和预测值的误差表示为:
loss=(yt-Q(st,at;w1))2;
其中,γ表示折扣系数,表示DQN算子模型输出的最大Q值,st表示当前状态参数,at表示数据链路,st+1表示下一时刻的状态参数,a'表示每隔A×C步计算目标值时所对应数据链路,用于与at区分,w1表示负载均衡DQN算子模型的权重,w2表示等待时延DQN算子模型的权重。
本实施方式中,k为对应的当前的源节点和目标节点之间的最短路由跳数。每一次遍历,需更改DQN算法的输入状态st、对应的Q网络和经验池Dt。每隔A步训练DQN算法中的估计Q网络,采用梯度下降算法更新估计Q网络的权重。每隔A×C步更新目标Q网络的权重。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种基于DQN算法的集中式光片上网络自适应路由规划方法,其特征在于,包括:
S1:根据网络组成单元的拓扑关系建立无向加权图;
其中,无向加权图中包括多个表述网络组成单元的节点以及节点与节点之间的表示双向链路,源节点至目标节点包括多条由数据链路组成的路径,每个路径存在由于网络堵塞引起的等待时延,每个网络组成单元使用时存在内插损耗,在多条路径之间的不同状态下存在不同的网络负载均衡因子参数,所述负载均衡参数大小表述路径之间的负载均衡程度;
S2:确定影响所述链路以及网络组成单元的多个因子参数;
其中,因子参数包括:负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数;
S3:设置每个因子参数的当前状态参数,将其输入对应的DQN算子模型中,以使每个DQN算子模型初始化各自的当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径,输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数;
S4:将每个因子参数的当前状态参数、基于ε-greedy策略在无向加权图中选择的路径、选择路径的每个因子参数的奖励、因子参数的下一时刻状态参数以及其他标记参数组成一个变迁样本放入经验池中;
S5:循环从经验池中随机选择变迁样本,训练DQN算子模型,获得训练完成后的DQN算子模型;
S6:使用训练完成后的DQN算子模型结合ε-greedy策略网络为光片上网络通信进行集中式路由规划。
2.根据权利要求1所述的基于DQN算法的集中式光片上网络自适应路由规划方法,其特征在于,所述S3包括:
针对负载均衡因子参数,将无向加权图中当前时刻每个路径上的节点之间数据链路使用次数归一化数值,作为当前状态参数输入负载均衡的DQN算子模型中,以使负载均衡的DQN算子模型初始化当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,将数据链路使用次数归一化数值负值作为负载均衡的DQN算子模型的奖励,以使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数;
针对等待延迟因子参数,将无向加权图中当前时刻每个路径上由于某个堵塞引起的等待时延的归一化数值作为当前状态参数输入等待延迟的DQN算子模型中,以使等待延迟的DQN算子模型初始化当前状态参数后,得到输出结果并将其输入至ε-greedy策略网络中,将等待时延的归一化数值的负值作为等待延迟的DQN算子模型的奖励,使ε-greedy策略网络根据输入以及内插损耗的状态参数,以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径,获得负载均衡因子参数下一时刻的状态参数。
3.根据权利要求2所述的基于DQN算法的集中式光片上网络自适应路由规划方法,其特征在于,所述根据输入以及内插损耗的状态参数,以奖励递增的方式迭代在无向加权图中选择数据链路组成路径包括:
以奖励递增的方式,以负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数最小为目标,从源节点开始直至目标节点迭代在无向加权图中选择数据链路组成最终选择的路径。
6.根据权利要求1所述的基于DQN算法的集中式光片上网络自适应路由规划方法,其特征在于,
所述变迁样本表示为:
(st,at,rt,st+1,done)
其中,st表示当前状态参数,at表示数据链路,st+1表示下一时刻的状态参数,rt表示奖励,done表示标记参数,表示执行动作at之后,是否到达目标节点。
7.根据权利要求1所述的基于DQN算法的集中式光片上网络自适应路由规划方法,其特征在于,所述S5包括:
循环k次从经验池中随机选择变迁样本,输入至DQN算子模型中,计算目标值和预测值的误差,并采用梯度下降算法更新估计DQN算子模型中的权重,获得训练完成后的DQN算子模型;
其中,k为当前的源节点和目标节点之间的最短路由跳数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920145.3A CN113612692B (zh) | 2021-08-11 | 2021-08-11 | 基于dqn算法的集中式光片上网络自适应路由规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920145.3A CN113612692B (zh) | 2021-08-11 | 2021-08-11 | 基于dqn算法的集中式光片上网络自适应路由规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113612692A CN113612692A (zh) | 2021-11-05 |
CN113612692B true CN113612692B (zh) | 2022-06-07 |
Family
ID=78340322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110920145.3A Active CN113612692B (zh) | 2021-08-11 | 2021-08-11 | 基于dqn算法的集中式光片上网络自适应路由规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113612692B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114598946B (zh) * | 2022-01-24 | 2023-02-10 | 西安电子科技大学 | 一种基于模糊逻辑的片上光网络自适应路由规划方法 |
CN115134294B (zh) * | 2022-06-30 | 2023-08-22 | 中国电信股份有限公司 | 备用路由确定方法、装置及计算机可读存储介质 |
CN116074661B (zh) * | 2022-12-22 | 2023-08-22 | 北京邮电大学 | 基于q学习的自适应路由方法及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10935982B2 (en) * | 2017-10-04 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method of selection of an action for an object using a neural network |
CN107911299B (zh) * | 2017-10-24 | 2020-12-29 | 浙江工商大学 | 一种基于深度q学习的路由规划方法 |
US11688160B2 (en) * | 2018-01-17 | 2023-06-27 | Huawei Technologies Co., Ltd. | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
CN110321666B (zh) * | 2019-08-09 | 2022-05-03 | 重庆理工大学 | 基于先验知识与dqn算法的多机器人路径规划方法 |
CN111770019B (zh) * | 2020-05-13 | 2021-06-15 | 西安电子科技大学 | 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法 |
CN113159432A (zh) * | 2021-04-28 | 2021-07-23 | 杭州电子科技大学 | 一种基于深度强化学习的多智能体路径规划方法 |
-
2021
- 2021-08-11 CN CN202110920145.3A patent/CN113612692B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112362066A (zh) * | 2020-11-20 | 2021-02-12 | 西北工业大学 | 一种基于改进的深度强化学习的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113612692A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113612692B (zh) | 基于dqn算法的集中式光片上网络自适应路由规划方法 | |
CN110611619B (zh) | 一种基于ddpg强化学习算法的智能化路由决策方法 | |
CN108900419B (zh) | Sdn架构下基于深度强化学习的路由决策方法及装置 | |
CN109039942B (zh) | 一种基于深度强化学习的网络负载均衡系统及均衡方法 | |
CN112486690B (zh) | 一种适用于工业物联网的边缘计算资源分配方法 | |
CN111770019B (zh) | 基于Dijkstra算法的Q-learning光片上网络自适应路由规划方法 | |
CN110601973B (zh) | 一种路由规划方法、系统、服务器及存储介质 | |
CN108075975B (zh) | 一种物联网环境中的路由传输路径的确定方法及确定系统 | |
CN111211987B (zh) | 网络中流量动态调整方法、系统、电子设备及存储介质 | |
CN114697229B (zh) | 一种分布式路由规划模型的构建方法及应用 | |
CN109413707B (zh) | 无线网络环境下基于深度强化学习技术的智能路由方法 | |
CN111988225A (zh) | 基于强化学习和迁移学习的多路径路由方法 | |
EP3224990A1 (en) | Optimizing a network topology to satisfy predicted growth | |
CN113194034A (zh) | 基于图神经网络和深度强化学习的路由优化方法及系统 | |
CN113518035B (zh) | 路由确定方法及装置 | |
CN111340192A (zh) | 网络路径分配模型训练方法、路径分配方法、以及装置 | |
CN115225561A (zh) | 一种基于图结构特征的路由优化方法与系统 | |
CN110233763B (zh) | 一种基于时序差分学习的虚拟网络嵌入算法 | |
CN116938810A (zh) | 一种基于图神经网络的深度强化学习sdn智能路由优化方法 | |
CN115022231B (zh) | 一种基于深度强化学习的最优路径规划的方法和系统 | |
CN115150335B (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 | |
CN116389347A (zh) | 一种基于强化学习的动态sdn路由优化算法 | |
Garg et al. | Adaptive optimized open shortest path first algorithm using enhanced moth flame algorithm | |
EP3225000A1 (en) | Determining bandwidth requirements for network services | |
CN113177636A (zh) | 一种基于多约束条件的网络动态路由方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |