CN113612692B

CN113612692B - 基于dqn算法的集中式光片上网络自适应路由规划方法

Info

Publication number: CN113612692B
Application number: CN202110920145.3A
Authority: CN
Inventors: 李慧; 赵嘉禾; 陈燕怡; 顾华玺
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2022-06-07
Anticipated expiration: 2041-08-11
Also published as: CN113612692A

Abstract

本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法，通过建立无向加权图以及多个因子参数；将因子参数的当前状态参数输入对应的DQN算子模型中，得到输出结果并将其输入至ε‑greedy策略网络中，ε‑greedy策略网络根据输入以及内插损耗状态参数选择数据链路组成一条路径，输出每个因子参数的奖励以及下一时刻的状态参数，组成一个变迁样本训练DQN算子模型，结合基于ε‑greedy策略网络规划路由路径。本发明利用经验池的变迁样本作出路由决策，利用神经网络对Q表进行拟合，不需要时间或者空间来搜索或存放Q表，当源节点与目标节点更改时无需重新学习；同时考虑多个影响因素，从高维数据中提取和处理特征，使得路径规划效率以及准确率得到显著提高。

Description

基于DQN算法的集中式光片上网络自适应路由规划方法

技术领域

本发明属于动态路由规划技术领域，具体涉及一种基于DQN算法的集中式光片上网络自适应路由规划方法。

背景技术

片上硅光互连具有提高芯片级别的通信带宽、降低传输延迟、降低功耗等重要特性。而路由算法作为规划网络常规算法，路由算法的优劣直接影响到片上网络的性能。

现有技术提出将机器学习方法应用于路由路径规划中，以对集中式光片上网络的路由路径进行规划。机器学习应用的路由路径规划方法分为基于监督学习的智能路由算法以及基于强化学习的智能路由算法。

在基于监督学习的智能路由算法中在设定样本时需要确定标签；而确定合适的标签过程较为复杂，因此对网络的适应性不高。基于强化学习的智能路由算法主要是基于Q-learning算法及其衍生的算法，该算法需要学习Q表，而Q表中的参数会随着网络动态变更，同时当用户端接入想要访问区别于之前的源节点到目标节点时，该算法需要重新学习并重新规划路由。由于该算法计算过程中需要大量的计算来实现Q值的收敛较为耗时，重新学习增加了该算法在时间上的复杂度使得路由规划实时性更差。

由于光片上网络自适应路由规划过程中，网络如果动态变更，影响网络性能的因素也发生变化，现有的路由规划方法想要提高实时性就需要降低数据维度，即减少在计算中影响网络性能的因素，此种方案导致路由路径规划的准确性下降。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于DQN算法的集中式光片上网络自适应路由规划方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法包括：

S1：根据网络组成单元的拓扑关系建立无向加权图；

其中，无向加权图中包括多个表述网络组成单元的节点以及节点与节点之间的表示双向链路，源节点至目标节点包括多条由数据链路组成的路径，每个路径存在由于网络堵塞引起的等待时延，每个网络组成单元使用时存在内插损耗，在多条路径之间的不同状态下存在不同的网络负载均衡因子参数，所述负载均衡参数大小表述路径之间的负载均衡程度；

S2：确定影响所述链路以及网络组成单元的多个因子参数；

其中，因子参数包括：负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数；

S3：设置每个因子参数的当前状态参数，将其输入对应的DQN算子模型中，以使每个DQN算子模型初始化各自的当前状态参数后，得到输出结果并将其输入至ε-greedy策略网络中，ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径，输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数；

S4：将每个因子参数的当前状态参数、基于ε-greedy策略在无向加权图中选择的路径、其奖励、因子参数的下一时刻状态参数以及其他标记参数组成一个变迁样本放入经验池中；

S5：循环从经验池中随机选择变迁样本，训练DQN算子模型，获得训练完成后的DQN算子模型；

S6：使用训练完成后的DQN算子模型结合ε-greedy策略网络为光片上网络通信进行集中式路由规划。

可选的，所述S3包括：

针对负载均衡因子参数，将无向加权图中当前时刻每个路径上的节点之间数据链路使用次数归一化数值，作为当前状态参数输入负载均衡的DQN算子模型中，以使负载均衡的DQN算子模型初始化当前状态参数后，得到输出结果并将其输入至ε-greedy策略网络中，将数据链路使用次数归一化数值负值作为负载均衡的DQN算子模型的奖励，以使ε-greedy策略网络根据输入以及内插损耗的状态参数，以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径，获得负载均衡因子参数下一时刻的状态参数；

针对等待延迟因子参数，将无向加权图中当前时刻每个路径上由于某个堵塞引起的等待时延的归一化数值作为当前状态参数输入等待延迟的DQN算子模型中，以使等待延迟的DQN算子模型初始化当前状态参数后，得到输出结果并将其输入至ε-greedy策略网络中，将等待时延的归一化数值的负值作为等待延迟的DQN算子模型的奖励，使ε-greedy策略网络根据输入以及内插损耗的状态参数，以奖励递增的方式迭代、在无向加权图中选择数据链路组成路径，获得负载均衡因子参数下一时刻的状态参数。

可选的，所述根据输入以及内插损耗的状态参数，以奖励递增的方式迭代在无向加权图中选择数据链路组成路径包括：

以奖励递增的方式，以负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数最小为目标，从源节点开始直至目标节点迭代在无向加权图中选择数据链路组成最终选择的路径。

所述数据链路使用次数归一化数值表示为：

其中，L(N_i)表示节点N_i的所有输出数据链路的使用次数集合，L(N_i，N_j)表示节点N_i连接节点N_j的数据链路的链路使用次数；

等待时延的归一化数值表示为：

其中，D(N_i)表示节点N_i的不同拐弯方向的路径由于网络堵塞引起的等待时延，D(N_i，turn)表示通过节点N_i时，路径中由于某个转弯堵塞引起的等待时延。

可选的，所述DQN算子模型的奖励表示为：

其中，所述变迁样本表示为：

(s_t,a_t,r_t,s_t+1,done)

其中，s_t表示当前状态参数，a_t表示数据链路，s_t+1表示下一时刻的状态参数，r_t表示奖励，done表示标记参数，表示执行动作a_t之后，是否到达目标节点。

可选的，所述S5包括：

循环k次从经验池中随机选择变迁样本，输入至DQN算子模型中，计算目标值和预测值的误差，并采用梯度下降算法更新估计DQN算子模型中的权重，获得训练完成后的DQN算子模型；

其中，k为当前的源节点和目标节点之间的最短路由跳数。

可选的，所述目标值和预测值的误差表示为：

loss＝(y_t-Q(s_t,a_t；w₁))²；

目标值表示为：

其中，γ表示折扣系数，

表示DQN算子模型输出的最大Q值，s_t表示当前状态参数，a_t表示数据链路，s_t+1表示下一时刻的状态参数，a'表示每隔A×C步计算目标值时所对应数据链路，用于与a_t区分，w₁表示负载均衡DQN算子模型的权重，w₂表示等待时延DQN算子模型的权重。

1、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法，通过建立无向加权图以及多个因子参数；将因子参数的当前状态参数输入对应的DQN算子模型中，得到输出结果，并输入到ε-greedy策略网络；ε-greedy策略网络根据输入以及内插损耗的状态参数选择数据链路组成一条路径，得到衡量各个考虑因素的输出；每个因子参数的奖励以及下一时刻的状态参数，组成一个变迁样本训练DQN算子模型，结合基于ε-greedy策略网络规划路由路径。本发明综合考虑所有考虑因素，并做出路由决策。相较于基于Q-learning的路由算法，本发明的方法基于经验池，可以通过学习历史信息做出路由决策。而若改变源点和目标点，Q-learning算法需要重新学习。

2、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法，相较于单一的Q-learning算法，DQN算法利用神经网络对Q表进行拟合，不需要时间或者空间来搜索或存放Q表。

3、本发明的基于DQN算法的集中式光片上网络自适应路由规划方法，考虑多个因素，能够从高维数据中提取和处理特征，可以显著提高学习速度，非常适合处理高维数据，对于在状态和动作空间数量巨大的问题适应性较高。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于DQN的集中式光片上网络自适应路由规划方法的流程图；

图2是本发明实施例提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法的通用架构图；

图3是本发明实施例提供的一种从节点(x₁，y₄)到节点(x₄，y₁)的第一步状态TS₁，DS₁的组成结构图；

图4是本发明实施例提供的一种基于DQN的集中式光片上网络自适应路由规划方法的详细架构图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法包括：

S1：根据网络中组成单元的拓扑关系建立无向加权图；

其中，无向加权图中包括多个表述网络组成单元的节点以及节点与节点之间的表示双向链路，源节点至目标节点包括多条由数据链路组成的路径，每个路径存在由于网络堵塞引起的等待时延，每个网络组成单元使用时存在内插损耗，在多条路径之间的不同状态下存在不同的网络负载均衡因子参数，负载均衡参数大小表述路径之间的负载均衡程度；

本发明可以采用N×N mesh网络、Cygnus路由器和光电路交换。在规划路由时，根据网络拓扑构建网络模型，即无向加权图G(E，V)，其中，E表示双向数据链路集合，V表示路由器集合。确定规划路由时需要考虑的因素，包括最短路径、负载均衡、预约阶段预约路径中由于网络堵塞引起的等待时延和内插损耗四种因素，当然本发明也可以结合其他的多个参考因素进行路径规划，使用过程与这四种因素相同，本发明在此不作限制。

S2：确定影响链路以及网络组成单元的多个因子参数；

参考图2，本发明根据四种考虑因素，即最短路径、负载均衡、预约阶段预约路径中由于网络堵塞引起的等待时延和内插损耗，来进行路径规划算法。使用Dijkstra’s算法计算并保存从各节点到目标节点的最短路由跳数，并利用存储信息约束规划路由跳数，即保证规划的路径是最短路径。此处的最短路径指，从源点到目标节点的路径、并且路由跳数最少。由于网络中路由器同为Cygnus路由器，内插损耗因素固定。故对负载均衡和预约阶段预约路径中由于网络堵塞引起的等待时延两种因素设计对应的DQN算法子模型。并根据对应的考虑因素，初始化DQN算法子模型中的各部分参数。

其中，变迁样本表示为：(s_t,a_t,r_t,s_t+1,done)，s_t表示当前状态参数，a_t表示数据链路，s_t+1表示下一时刻的状态参数，r_t表示奖励，done表示标记参数，表示执行动作a_t之后，是否到达目标节点。

由于从源节点到目标节点的最短路径可能存在多跳，在规划路径算法中，为了去掉网络中不需要考虑的信息，每次执行动作，需重新确定状态{TS_t，DS_t}、经验回放池{TD₂，DD₂}和Q网络。随着每次选择并执行动作a_t，DQN算法的状态需修改成{TS_t+1，DS_t+1}，并只包含从下一节点N_t+1到目标节点的所有最短路径上节点和链路集合所对应考虑参数的信息。根据{TS，DS}的规模大小，确定经验池{TD，DD}和Q网络。若状态规模大小一致，则可对应同一经验池。

在具体网络规划过程中，由于网络的动态变化，因子参数的状态在不同时刻会发生变化，本发明在组成回放池的变迁样本也跟随变化，具体过程如下：将目标Q网络的参数设置成与估计Q网络的初始化参数一致，并根据对应的S2中的考虑因素设置初始化状态s₁。基于ε-greedy策略和当前状态s_t选择链路a_t并执行，得到奖励r_t和下一状态s_t+1，并组成变迁样本(s_t,a_t,r_t,s_t+1,done)，将其填充到经验回放池D_t中。

示例性，假设多个因子参数分别为a，b，c；a因子参数的当前状态参数a_s₁、b因子参数的当前状态参数b_s₁和c因子参数的当前状态参数c_s₁分别输入DQN₁算子模型、DQN₂算子模型和DQN₃算子模型中，获得a因子参数的输出a₁、b因子参数的输出b₁和c因子参数的输出c₁。综合上述各因子参数的输出a₁、b₁和c₁，基于ε-greedy策略在无向加权图中选择路径path，获得下一时刻各因子参数的状态参数a_s₂、b_s₂、c_s₂和各因子参数的奖励a_r、b_r、c_r，以及标记参数done，最后组成对应不同因子参数的变迁样本(a_s₁，path，a_r，a_s₂，done)、(b_s₁，path，b_r，b_s₂，done)、(c_s₁，path，c_r，c_s₂，done)。

本发明提供的一种基于DQN算法的集中式光片上网络自适应路由规划方法，根据网络组成单元的拓扑关系建立无向加权图；确定影响链路以及网络组成单元的多个因子参数；设置每个因子参数的当前状态参数输入对应的DQN算子模型中，得到输出结果并将其输入至ε-greedy策略网络中，ε-greedy策略网络根据输入结果及内插损耗状态参数选择数据链路组成一条路径，输出选择该路径的每个因子参数的奖励以及下一时刻的状态参数，组成一个变迁样本放入经验池中；循环从经验池中随机选择变迁样本，训练DQN算子模型；使用训练完成后的DQN算子模型结合基于ε-greedy策略网络为光片上网络通信进行集中式路由规划。相较于单一的Q-learning算法，本发明利用经验池的变迁样本作出路由决策，利用神经网络对Q表进行拟合，不需要时间或者空间来搜索或存放Q表，当源节点与目标节点更改时无需重新学习，同时考虑多个影响因素，从高维数据中提取和处理特征，学习速度较快，使得路径规划效率以及准确率得到显著提高。

作为本发明一种可选的实施方式，S3包括：

S31：针对负载均衡因子参数，将无向加权图中当前时刻每个路径上的节点之间数据链路使用次数归一化数值，作为当前状态参数输入负载均衡的DQN算子模型中，以使负载均衡的DQN算子模型初始化当前状态参数后，得到输出结果并将其输入至ε-greedy策略网络中，将数据链路使用次数归一化数值负值作为负载均衡的DQN算子模型的奖励，以使ε-greedy策略网络根据输入以及内插损耗的状态参数，以奖励递增的方式迭代在无向加权图中选择数据链路组成路径，获得负载均衡因子参数下一时刻的状态参数；

有关DQN算法的状态设置请参见图3。图3是从节点(x₁,y₄)到节点(x₄,y₁)的第一步状态TS₁，DS₁的组成结构图。状态根据具体情况分为多个表格，每个格子表示对应的路由器节点，格子里的数值表示该节点的有关参数数值的归一化值。

其中，数据链路使用次数归一化数值表示为：

本发明将考虑因素对应的因子参数的当前状态作为输入，得到衡量不同考虑因素的输出，具体解释：考虑负载均衡，其状态为节点N_i到节点N_j之间数据链路使用次数的归一化数值。期望其整个网络的数据链路的使用次数更为均衡，其奖励设置为数据链路使用次数的归一化数值的负值。对于用于负载均衡的DQN子算法模型，初始化负载均衡的状态后，基于ε-greedy策略和当前负载均衡以及其他考虑因素的状态做出链路选择，得到奖励以及下一步负载均衡的状态，组成变迁样本，填充到经验池TD_t中用于估计Q网络的训练。

S32：针对等待延迟因子参数，将无向加权图中当前时刻每个路径上由于某个拐弯堵塞引起的等待时延的归一化数值作为当前状态参数输入等待延迟的DQN算子模型中，以使等待延迟的DQN算子模型初始化当前状态参数后得到输出结果并将其输入至ε-greedy策略网络中，将等待时延的归一化数值的负值作为等待延迟的DQN算子模型的奖励，使ε-greedy策略网络根据输入以及内插损耗的状态参数，以奖励递增的方式迭代在无向加权图中选择数据链路组成路径，获得负载均衡因子参数下一时刻的状态参数。

等待时延的归一化数值表示为：

DQN算子模型的奖励表示为：

本发明考虑预约阶段预约路径由于网络堵塞引起的等待时延，其状态为通过节点N_i时，预约阶段预约路径中由于某个拐弯堵塞引起的等待时延的归一化数值。期望其等待时延更小，其奖励设置为等待时延的归一化数值的负值。对于用于预约阶段预约路径由于网络堵塞引起的等待时延的DQN算法，初始化等待时延的状态后，基于ε-greedy策略和当前等待时延以及其他考虑因素的状态做出链路选择，得到奖励以及下一步等待时延的状态，组成变迁样本，填充到经验池DD_t中用于估计Q网络的训练。

作为本发明一种可选的实施方式，根据输入以及内插损耗的状态参数，以奖励递增的方式迭代，在无向加权图中选择数据链路组成路径包括：

以奖励递增的方式，以负载均衡因子参数、等待延迟因子参数、内插损耗因子参数以及最短路径因子参数最小为目标，从源节点开始直至目标节点迭代，在无向加权图中选择数据链路组成最终选择的路径。

其中，样本(s_t,a_t,r_t,s_t+1,done)包括动作a_t，奖励r_t，当前状态s_t以及下一状态s_t+1，done表示是否到达目标点。

本步骤中以概率ε随机选择动作a_t，则

其中，Q₁ ^*(s₁,a；w₁)是由DQN₁算法的估计Q网络预测的不同数据链路对应的输出值的归一化数值。Q₂ ^*(s₁,a；w'₁)是由DQN₂算法的估计Q网络预测的不同数据链路对应的输出值的归一化数值。Iloss是选择不同数据链路之后产生的内插损耗数值的归一化数值。另外，在选择数据链路时，会使用Dijkstra’s算法计算各个节点到目标节点的最短路由跳数限制数据链路的选择，确保规划的路径为最短路径。

在路由规划算法中，当前状态s_t指由S1中考虑因素决定，每一个考虑因素对应一个状态。动作a_t指输出数据链路的选择。奖励r_t指执行动作a_t之后，得到的关于对应考虑因素的反馈。下一状态s_t+1指执行动作a_t之后，网络对应考虑因素的变化状态。done表示在执行动作a_t之后，是否到达目标点。

参考图4，图4中包含两个DQN算法的子模型，两者的算法结构以及Q网络模型一致。当然本发明的考虑因素越多，DQN子模型的个数越多。图3中仅展示两个DQN算法的子模型，以DQN₁算法为例，结合DQN₁子模型和当前状态TS_t，基于ε-greedy策略，执行动作a_t，选择链路，获得奖励r_t以及DQN₁算法的下一状态TS_t+1，组成变迁样本(TS_t,a_t,r_t,TS_t+1,done)放入经验回放池TD中，再进行下一步更新。每隔A步，从经验回放池中随机抽取miniBatch个样本，由样本中的奖励值r_t、目标Q网络所产生的最大Q值

以及当前状态TS_t对应估计Q网络产生的估计Q值Q(TS_t,a_t；w₁)计算DQN₁的损失函数，通过梯度下降法更新估计Q网络的权重w₁。每隔A×C步，将估计Q网络的权重w₁赋给目标Q网络的参数w₂。DQN₂算法子模型的更新步骤同理。

作为本发明一种可选的实施方式，S5包括：

其中，k为当前的源节点和目标节点之间的最短路由跳数。目标值和预测值的误差表示为：

loss＝(y_t-Q(s_t,a_t；w₁))²；

目标值表示为：

其中，γ表示折扣系数，

本实施方式中，k为对应的当前的源节点和目标节点之间的最短路由跳数。每一次遍历，需更改DQN算法的输入状态s_t、对应的Q网络和经验池D_t。每隔A步训练DQN算法中的估计Q网络，采用梯度下降算法更新估计Q网络的权重。每隔A×C步更新目标Q网络的权重。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。