CN116132353A

CN116132353A - 基于ddqn的tsn路由选择方法

Info

Publication number: CN116132353A
Application number: CN202211694211.0A
Authority: CN
Inventors: 杨柳; 李新月; 鲁银芝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Beijing Urban Construction Intelligent Control Technology Co ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-05-16
Anticipated expiration: 2042-12-28
Also published as: CN116132353B

Abstract

本申请提供了一种基于Dueling Deep Q Network(DDQN)的时间敏感网(TSN)路由选择方法，所述方法包括：基于多控制器软件定义网络(SDN)，根据工业现场将路由划分为多个区域，构建TSN网络的系统模型；构建路由选择问题的马尔可夫决策模型；获取拓扑和流信息，搜索可达路径生成候选路径表；为业务流初始化路由路径形成初始网络；以平均最小端到端时延为优化目标、流的时延要求为约束，利用DDQN算法对初始网络进行优化训练；当拓扑或业务流信息改变时，重新对模型进行训练；控制器为业务流分配路由路径并下发至转发平面。这是一种被数据驱动的集中式多控制器路由方法，可部署于工业TSN网络中，能够适应动态变化的业务和跨车间信号传输需求，并确保业务传输服务质量。

Description

基于DDQN的TSN路由选择方法

技术领域

本发明涉及TSN通信技术领域，具体是一种基于DDQN的TSN路由选择方法。

背景技术

工业制造领域中柔性制造的模式普遍存在，该模式是以消费者为导向的，以需定产的方式和传统大规模量产的模式相对立，在柔性制造中，考验的是生产线和供应链的反应速度，且现场设备普遍存在于不同车间或区域，需要同时具备各业务单元互联和现场与云端数据互通的能力，而该场景下实时的设备互联和数据互通需求满足度不高。现需要将TSN网络部署于控制器与现场设备之间和控制器与控制器之间，实现控制信号的高质量确定性时延传输和协同信号的高精度同步传输，同时需合适的TSN路由算法来提高系统适应外部变化(如生产需求变化导致业务流变化)和内部变化(如设备故障)的能力。目前，工业制造领域大多路由选择方案均为传统的刚性自动化生产线定制，假设业务流信息是固定的，且未对该领域现场设备存在于不同车间的典型网络提出针对性路由方案，因而无法为业务流提供最佳路由路径，网络针对性和时延确定性低，无法保证其传输服务质量，需要一种具有网络针对性和时延确定性的自适应智能路由选择方法。

发明内容

为解决将TSN部署到工业制造领域时数据互通需求满足度低和现有路由技术存在的缺陷，提出一种对服务质量敏感的自适应智能路由选择方法，以最小化平均端到端时延为优化目标，保证柔性工业制造领域动态变化的业务流的传输服务质量，其步骤如下：

步骤1：构建基于SDN的多控制器协作TSN网络模型，将转发平面的路由根据车间情况划分为以车间为单位的多个区域，以路由器端口为节点构建转发平面网络拓扑的数学模型，跳转至步骤2；

步骤2：构建TSN网络中路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数，跳转至步骤3；

步骤3：获取业务流信息，搜索所有流的可达路径放入候选路径表中备用，跳转至步骤4；

步骤4：基于转发平面网络拓扑的数学模型，根据候选路径表，利用现有TSN路由算法为业务流初始化路由路径形成初始化网络，跳转至步骤5；

步骤5：所述控制器作为智能体，基于转发平面网络拓扑的数学模型和马尔可夫决策模型，以最小化平均端到端时延为优化目标，以各业务流时延要求为约束，利用DDQN算法对初始网络进行优化训练，得到各业务流的最佳路由选择策略，跳转至步骤6；

步骤6：控制器根据最佳路由选择策略为各业务流分配路由路径，并下发至转发平面，跳转步骤7；

步骤7：判断拓扑或业务流信息是否改变，若是则跳转至步骤8，反之则跳转至步骤10；

步骤8：判断是否拓扑改变或业务流增加，若是则跳转至步骤3，反之则跳转至步骤9；

步骤9：更新网络资源占用信息，跳转至步骤5；

步骤10：路由策略保持不变。

进一步的，所述步骤1包括如下具体步骤：

步骤1-1：所述基于SDN的多控制器协作TSN网络模型包括控制平面的多个控制器、转发平面的路由拓扑和应用平面，所述控制器分为一个集中控制器和多个子控制器，可获取所述路由拓扑信息，其中，每个子控制器对应一个车间，集中控制器与所有子控制器相连，可掌控全局信息；

步骤1-2：所述车间情况是指现场设备存在于不同车间，依据其特点对转发平面的路由进行区域划分，将一个车间划分为一个区域；

步骤1-3：所述转发平面网络拓扑的数学模型为基于区域划分的有序二元组(V，E)，记为图G＝(V，E)，其中，V＝{v₁，v₂，...，v_n}定义路由器端口的集合，E＝{e₁，e₂，...，e_m}定义路由器端口与端口之间的链路集合，链路是双向的，点集V中各点之间的距离用距离矩阵

表示，其中w_ij表示节点i和节点j之间的距离，其中，

进一步的，所述步骤2包括如下具体步骤：

步骤2-1：所述TSN网络为转发平面网络拓扑，其已进行过区域划分和数学模型构建；

步骤2-2：所述马尔可夫决策过程在每个离散的时间步长t处，智能体观察环境的状态s_t，并根据其策略执行一个动作，然后收到一个及时奖励，环境进入下一个状态s_t+1，转换过程定义为四元组<s_t，a_t，r_t，s_t+1> (3)；

步骤2-3：所述四元组中s_t∈S表示环境在t处的状态，该状态包括网络拓扑信息、路由器端口占用情况和当前训练的业务流信息；

步骤2-4：所述四元组中a_t∈A是智能体t处的动作，包括当前训练的数据包转发的路径，即它决定将数据包转发的路由路径；

步骤2-5：所述四元组中r_t∈R是智能体模拟通过该路由路径发数据包收到的奖励，其定义为r_t＝-(p_t+q_t)(4)，其中，p_t表示该数据包执行动作a_t后的估计排队延迟，q_t表示该路由路径的传播时延；

步骤2-6：所述四元组中s_t+1∈S表示在状态s_t执行动作a_t后的下一状态。

进一步的，所述步骤3包括如下具体步骤：

步骤3-1：所述业务流信息包括流周期T_k、数据包大小M_k、截止时间D_k、优先级PR_k起始点PS_k和终点PE_k，其中下标k为流标志，表示业务流f_k∈F的流信息；

步骤3-2：所述可达路径指搜索从起始点到终点的所有可达链路，并将其放入所述候选路径表中备用，其中，每个业务流均有一个对应的候选路径表；

步骤3-3：所述获取拓扑和业务流信息，需要检验拓扑是否变化，若拓扑发生变化，则重新搜索所有业务流的可达路径并生成对应的候选路径表，若拓扑未发生变化，则仅生成新增业务流的候选路径表，其他业务流仍沿用原有候选路径表。

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：获取业务流信息，对所述业务流进行超周期计算，其中，所述超周期指网络中所有业务流周期的最小公倍数，定义为T_sup＝LCM(T₁，T₂，...，T₃) (5)；

步骤4-2：在当前网络环境s_t下，利用现有TSN路由算法依次对业务流分配初始路由路径，每分配好一条流的路径便依据其路由及调度方式更新模拟网络的资源占用信息，直到为所有业务流分配得到初始路径；

进一步的，所述步骤5包括如下具体步骤：

步骤5-1：对网络中的所有业务流按照优先级降序排列，得到待训练流的顺序表；

步骤5-2：按照所述顺序表，对表内业务流依次进行优化训练得到优化路由路径，其中，优化训练当前流之前，先去除其初始路由策略对网络资源的占用，更新网络资源占用信息，其中，所述当前流指某正在训练的业务流；

步骤5-3：对所述当前流进行优化训练时，首先判断其起始点和终点是否属于同一区域，若属于同一区域，则将其初始化路由路径作为优化后路由路径；若属于不同区域，则在同一区域内使用子控制器计算路由路径，跨区域传输时集中控制器协调子控制器利用DDQN算法为当前流计算优化路由路径；

步骤5-4：所述DDQN算法，指以最小化端到端时延为目标、以流的时延要求和训练时间不小于超周期为约束，利用DDQN算法计算最优路径，在DDQN中，Q网络被建模为：Q_η,α，β(s，a)＝V_η，α(s)+A_n,β(s，a)(6)，其中，V_η，α(s)为状态价值函数，A_η，β(s，a)为该状态下采取不同动作的优势函数，η是状态价值函数和优势价值函数共享的网络参数，α和β分别为状态价值函数和优势价值函数的参数；

步骤5-5：所述优化训练的停止条件是，网络中所有业务流的平均端到端时延趋于稳定，即达到最小值。

附图说明

图1为本发明实施例TSN网络路由选择算法流程图；

图2为本发明实施例多控制器SDN架构的控制平面和转发平面模型；

图3为本发明实施例以路由为节点的网络拓扑转化为以端口为节点的网络拓扑示意图(实线表示路由间端口可达，虚线表示路由内部端口可达)；

图4为本发明实施例基于DDQN算法的马尔可夫决策模型示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的原件或者物件涵盖出现在该词后面列举的原件或者物件及其等同，而不排除其他原件或者物件。

如背景技术部分所述，相关技术中大多路由选择方案均假设业务流信息是固定的，且未对柔性工业制造领域的典型网络提出针对性路由方案。申请人在实现本申请的过程中发现相关技术中的技术方案存在以下问题：无法为动态变化的业务流提供最佳路由路径，网络针对性和时延确定性低，无法保证业务流传输服务质量。

鉴于此，本申请提供了一种基于DDQN的TSN路由选择方法，利用DDQN对工业制造领域TSN网络的业务流进行路由选择，能够为动态变化的业务流提供最佳路由路径，网络针对性和时延确定性高，可保证其传输服务质量。

以下，通过具体的实施例来详细说明本申请的技术方案。

参考图1，本申请一个实施例提供一种基于DDQN的TSN路由选择方法，具体包括以下步骤：

步骤1：构建基于SDN的多控制器协作TSN网络模型，根据车间情况将转发平面的路由划分为多个区域，以路由器端口为节点构建转发平面网络拓扑的数学模型，跳转至步骤2；

步骤3：获取业务流信息，搜索所有可达路径放入候选路径表中备用，跳转至步骤4；

步骤4：所述控制器作为智能体，基于转发平面网络拓扑的数学模型和马尔可夫决策模型，以最小化端到端时延为优化目标，以业务流时延要求为约束，利用DDQN算法为业务流初始化路由路径形成初始化网络，跳转至步骤5；

步骤9：更新网络资源占用信息，跳转至步骤5；

步骤10：路由策略保持不变。

进一步的，所述步骤1包括如下具体步骤：

步骤1-1：所述基于SDN的多控制器协作TSN网络模型包括转发平面、控制平面和应用平面，其中，控制平面包括一个集中控制器和多个子控制器，转发平面包括路由拓扑，结合图2，每个子控制器对应一个区域，集中控制器与所有子控制器相连，可掌握全局信息，所述控制器获取所述路由拓扑信息；

步骤1-2：所述车间情况是指现场设备存在于不同车间，依据其特点对转发平面的路由进行区域划分，结合图2，同一车间划分为一个区域；

步骤1-3：所述转发平面网络拓扑的数学模型为基于区域划分的有序二元组(V，E)，记为图G＝(V，E)，结合图3，V＝{v₁，v₂，...，v_n}定义路由器端口的集合，E＝{e₁，e₂，...，e_m}定义路由器端口与端口之间的链路集合，链路是双向的，点集V中各点之间的距离用距离矩阵

表示，其中w_ij表示节点i和节点j之间的距离，其中，

进一步的，所述步骤2包括如下具体步骤：

步骤2-2：结合图4，所述马尔可夫决策过程在每个离散的时间步长t处，智能体观察环境的状态s_t，并根据其策略执行一个动作a_t，然后收到一个及时奖励r_t，环境进入下一个状态s_t+1；

步骤2-3：所述s_t表示环境在t处的状态，该状态包括网络拓扑信息、路由器端口占用情况和当前训练的业务流信息；

步骤2-4：所述a_t是智能体t处的动作，包括当前训练的数据包转发路径决策，即它决定数据包转发的路由路径；

步骤2-5：所述r_t是智能体模拟通过该路由路径发数据包后收到的奖励，其值为执行该动作后该路由路径的时延的相反数，其中，总时延为排队时延和传播时延总和；

步骤2-6：所述S_t+1表示在状态s_t执行动作a_t后的下一状态。

进一步的，所述步骤3包括如下具体步骤：

步骤3-1：所述业务流信息包括流周期、数据包大小、截止时间、优先级起始点和终点；

步骤3-2：所述可达路径指利用现有技术(例如深度优先搜索算法)搜索从起始点到终点的所有可达链路，并将其放入所述候选路径表中备用，其中，每个业务流均有一个对应的候选路径表；

步骤3-3：所述获取拓扑和业务流信息，需要检验拓扑是否发生变化，若拓扑发生变化，则重新搜索所有业务流的可达路径并生成对应的候选路径表，若拓扑未发生变化，则仅生成新增业务流的候选路径表，其他业务流仍沿用原有候选路径表。

进一步的，所述步骤4包括如下具体步骤：

步骤4-1：获取业务流信息，对所述业务流进行超周期计算，其中，所述超周期指网络中所有业务流周期的最小公倍数；

步骤4-2：在当前网络环境s_t下，以流的端到端时延为约束，利用现有TSN路由算法依次对业务流分配路由路径，每分配好一条流的路径便依据其路由及调度方式更新模拟网络的资源占用信息，直到为所有业务流分配得到初始路径，其中，调度策略可以是现有技术中任意业务流调度算法，如先来先服务算法(FCFS)、短作业优先算法(SJF)、高响应比优先算法、优先级调度算法等；

步骤4-3：网络初始化的停止条件是所有流得到初始化路由路径。

进一步的，所述步骤5包括如下具体步骤：

步骤5-2：按照所述顺序表，对表内业务流进行循环优化训练输出最优动作，即得到优化路由路径，其中，优化训练当前流之前，先去除其初始路由策略对网络资源的占用，更新当前网络环境s_t，即更新网络资源占用信息，其中，所述当前流指某正在训练的业务流，所述循环优化训练是指，若训练完顺序表中最后一条流时并未达到优化训练的停止条件，则从第一条流开始继续训练；

步骤5-3：对所述当前流进行优化训练时，首先判断其起始点和终点是否属于同一区域，若属于同一区域，则将其初始化路由路径作为优化后路由路径；若属于不同区域，则在同一区域内该区域对应的子控制器利用DDQN算法计算路由路径，跨区域传输时集中控制器协调子控制器使用DDQN算法初始化路由路径；

步骤5-4：所述DDQN算法指以最小化端到端时延为目标、以流的时延要求和训练时间不小于超周期为约束，利用DDQN算法计算最优路径，结合图4，在DDQN中，Q网络被建模为：Q_η,α，β(s，a)＝V_η，α(s)+A_η，β(s，a)(6)，其中，V_η，α(s)为状态价值函数，A_η,β(s，a)为该状态下采取不同动作的优势函数，η是状态价值函数和优势价值函数共享的网络参数，α和β分别为状态价值函数和优势价值函数的参数；

Claims

1.基于DDQN的TSN路由选择方法，其特征在于，包括以下步骤：

构建基于SDN的多控制器协作TSN网络模型，将转发平面的路由根据车间情况划分为以车间为单位的多个区域，以路由器端口为节点构建转发平面网络拓扑的数学模型；

构建TSN网络中路由选择问题的马尔可夫决策模型，确定状态空间、动作空间和奖励函数；

获取业务流信息，搜索所有流的可达路径放入候选路径表中备用；

基于转发平面网络拓扑的数学模型，根据候选路径表，利用现有TSN路由算法为业务流初始化路由路径形成初始化网络；

所述控制器作为智能体，基于转发平面网络拓扑的数学模型和马尔可夫决策模型，以最小化平均端到端时延为优化目标，以各业务流时延要求为约束，利用DDQN算法对初始网络进行优化训练，得到各业务流的最佳路由选择策略；

控制器根据最佳路由选择策略为各业务流分配路由路径，并下发至转发平面；

若拓扑或业务流信息发生改变，则更新网络资源占用信息并重新优化训练。

2.根据权利要求1所述的基于SDN的多控制器协作TSN网络模型，其特征在于，包括控制平面的多个控制器、转发平面的路由拓扑和应用平面，所述控制器分为一个集中控制器和多个子控制器，可获取所述路由拓扑信息，其中，每个子控制器对应一个车间，集中控制器与所有子控制器相连，可掌控全局信息。

3.根据权利要求1所述的车间情况，其特征在于，是指现场设备存在于不同车间，依据其特点对转发平面的路由进行区域划分，将一个车间划分为一个区域。

4.根据权利要求1所述转发平面网络拓扑，其特征在于，数学模型为基于区域划分的有序二元组(V，E)，记为图G＝(V，E)，其中，V＝{v₁，v₂，...，v_n}定义路由器端口的集合，E＝{e₁，e₂，...，e_m}定义路由器端口与端口之间的链路集合，链路是双向的，点集V中各点之间的距离用距离矩阵

表示，其中w_ij表示节点i和节点j之间的距离，其中，

5.根据权利要求1所述马尔可夫决策过程，其特征在于，在每个离散的时间步长t处，智能体观察环境的状态s_t，并根据其策略执行一个动作，然后收到一个及时奖励，环境进入下一个状态s_t+1，转换过程定义为四元组<s_t,a_t,r_t,s_t+1>(3)，所述四元组中s_t∈S表示环境在t处的状态，该状态包括网络拓扑信息、路由器端口占用情况和当前训练的业务流信息，所述四元组中a_t∈A是智能体t处的动作，包括当前训练的数据包转发的路径，即它决定将数据包转发的路由路径，所述四元组中r_t∈R是智能体模拟通过该路由路径发数据包收到的奖励，其定义为r_t＝-(p_t+q_t)(4)，其中，p_t表示该数据包执行动作a_t后的估计排队延迟，q_t表示该路由路径的传播时延，所述四元组中s_t+1∈S表示在状态s_t执行动作a_t后的下一状态。

6.根据权利要求1所述业务流信息，其特征在于，包括流周期T_k、数据包大小M_k、截止时间D_k、优先级PR_k起始点PS_k和终点PE_k，其中下标k为流标志，表示业务流f_k∈F的流信息。

7.根据权利要求1所述可达路径，其特征在于搜索从起始点到终点的所有可达链路，并将其放入所述候选路径表中备用，其中，每个业务流均有一个对应的候选路径表。

8.根据权利要求1所述获取拓扑和业务流信息，其特征在于，需要检验拓扑是否变化，若拓扑发生变化，则重新搜索所有业务流的可达路径并生成对应的候选路径表，若拓扑未发生变化，则仅生成新增业务流的候选路径表，其他业务流仍沿用原有候选路径表。

9.根据权利要求1所述利用现有TSN路由算法为业务流初始化路由路径形成初始化网络，其特征在于，当前网络环境s_t下，利用现有TSN路由算法依次对业务流分配初始路由路径，每分配好一条流的路径便依据其路由及调度方式更新模拟网络的资源占用信息，直到为所有业务流分配得到初始路径。

10.根据权利要求1所述利用DDQN算法对初始网络进行优化训练，其特征在于，首先对网络中的所有业务流按照优先级降序排列，得到待训练流的顺序表，其次按照所述顺序表，对表内业务流依次进行优化训练得到优化路由路径，其中，优化训练当前流之前，先去除其初始路由策略对网络资源的占用，更新网络资源占用信息，其中，所述当前流指某正在训练的业务流，最后对所述当前流进行优化训练时，首先判断其起始点和终点是否属于同一区域，若属于同一区域，则将其初始化路由路径作为优化后路由路径；若属于不同区域，则在同一区域内使用子控制器计算路由路径，跨区域传输时集中控制器协调子控制器利用DDQN算法为当前流计算优化路由路径。

11.根据权利要求1所述DDQN算法，其特征在于，以最小化端到端时延为目标、以流的时延要求和训练时间不小于超周期为约束，利用DDQN算法计算最优路径，在DDQN中，Q网络被建模为：Q_η，α，β(s，a)＝V_η，α(s)+A_η，β(s，a)(6)，其中，V_η，α(s)为状态价值函数，A_η，β(s，a)为该状态下采取不同动作的优势函数，η是状态价值函数和优势价值函数共享的网络参数，α和β分别为状态价值函数和优势价值函数的参数。

12.根据权利要求1所述优化训练，其特征在于，停止条件是，网络中所有业务流的平均端到端时延趋于稳定，即达到最小值。