CN116170370B

CN116170370B - 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Info

Publication number: CN116170370B
Application number: CN202310138290.5A
Authority: CN
Inventors: 尚凤军; 向敏雅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2024-03-12
Anticipated expiration: 2043-02-20
Also published as: CN116170370A

Abstract

本发明属于工业互联网领域，具体涉及一种基于注意力机制和深度强化学习的SDN多路径路由方法，包括：利用SDN获取全局网络拓扑信息，并周期性采集网络中的实时链路信息和数据流量信息；计算待转发流从源到目的节点之间的多条备选转发路径；将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径的网络数据流；采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取；根据提取的特征计算网络数据流的转发路径并传输。本发明将传统的多路径路由和SDN和深度强化学习结合在一起，可以满足用户对不同QoS业务流传输要求，并且在充分利用网络资源的同时也降低网络平均端到端传输时延，提升了网络性能和服务质量。

Description

一种基于注意力机制和深度强化学习的SDN多路径路由方法

技术领域

本发明属于工业互联网领域，具体涉及一种基于注意力机制和深度强化学习的SDN多路径路由方法。

背景技术

SDN作为一种新型的网络架构受到各行各界的广泛关注，它解决了传统网络中一些无法避免的问题。SDN转发与控制分离，可以通过0penFlow协议实时获取链路信息，有利于网络的集中控制，使得控制层获得网络全局资源信息，并且根据业务数据流的需求进行统一的管理与分配，同时，集中控制还使得整个网络可以被视为一个整体，方便维护。因此，可以在工业互联网中引入SDN控制器，增加全局掌控力，利用其特性感知网络拓扑以及链路状态变化，收集当前网络实时状态信息，为实现根据不同QoS等级数据流的需求智能规划路由降低网络时延和减少网络拥塞奠定基础。

工业互联网中引入SDN控制器，由SDN控制器集中控制采集全局网络状态信息，将SDN控制器作为智能体，网络即为学习环境,将路由优化看成一个决策问题,引入注意力机制进行网络状态特征提取，再运用深度强化学习进行路由优化，当数据流到达时,可以为不同QoS等级业务流快速计算出满足其QoS要求的传输路径，降低网络传输时延，提升网络性能。

目前主流的SDN路由模块采用的基本都是最短路径算法，这也是SDN控制器默认的路由算法。然而在工业互联网中多个工厂跨域协同制造时，大量数据流会频繁在相同源、目的节点上传输，若此时所有数据包若仅仅依赖于最短路径算法，数据流很容易因为具有相同目的地址而大量涌入这条最短转发路径，会造成该链路负荷过大，造成负载不均衡，最终引起网络拥塞，继而造成数据帧丢失、时延增长和时延抖动等问题，对工业生产线造成严重的破坏，给企业带来难以估计的损失。并且在转发过程中对于所有流量均是统一处理，无视用户是否对某些流有较高实时性要求或者高安全性要求，都让所有流在那一条最短路径上转发，应充分利用次短路径，使得网络资源得到充分利用的同时，达到负载均衡。

此外也有一些支持多路径的路由协议，通过为数据流计算多条候选备用传输路径，均衡网络通信流量，进而降低网络拥塞，提升网络的吞吐量。比如传统的ECMP(EqualCost Multi-Path)算法，它是采用静态哈希的形式来进行传输路径抉择，运用胖树拓扑结构带来的多条等价路径，完成网络数据的迅速转发。但是ECMP算法没有考虑网络链路的状态在实际中是不断变化的，也并未考虑不同业务流对服务质量有不同的需求，而采用随机的哈希形式为数据流选择平分传输路径，并不能很好提升网络的性能，保障不同业务流的服务质量和降低网络端到端时延。

综上所述，现有技术问题是：

在工业互联网中多个工厂跨域协同制造时，大量数据流会频繁在相同源、目的节点上传输，若此时所有数据包若仅仅依赖于最短路径算法，数据流很容易因为具有相同目的地址而大量涌入这条最短转发路径，会造成该链路负荷过大，造成负载不均衡，最终引起网络拥塞，继而造成数据帧丢失、时延增长和时延抖动；

现有采用静态哈希的形式来进行传输路径抉择，运用胖树拓扑结构带来的多条等价路径，没有考虑网络链路的状态在实际中是不断变化的，也并未考虑不同业务流对服务质量有不同的需求，不能很好提升网络的性能和保障不同业务流的服务质量和降低网络端到端时延。

发明内容

为解决上述技术问题，本发明提出一种基于注意力机制和深度强化学习的SDN多路径路由方法，包括以下步骤：

S1：利用SDN控制器集中控制，获取全局网络拓扑信息，并且周期性采集网络中的实时链路信息和数据流量信息；

S2：根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径；

S3：根据不同的QoS业务数据需求将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流；

S4：采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取；

S5：根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略，得到网络数据流的转发路径，并通过网络数据流的转发路径传输数据。

本发明的有益效果：

本发明将传统的多路径路由和SDN以及深度强化学习结合在一起，通过SDN控制器全局监控网络状态，采集链路信息，为数据流首先计算多条传输备选路径集，然后再综合考虑路径链路信息如带宽、时延和数据流大小及QoS需求等使用基于CNN的注意力机制提取特征，在运用深度强化学习算法为不同业务流计算不同QoS传输路由，高实时性等QoS业务流会优先分配最优路径，略低要求业务流会选择次优路径，通过这个方法，可以满足用户对不同QoS业务流传输要求，并且在充分利用网络资源的同时也降低网络平均端到端传输时延，进一步提升了网络性能和服务质量。

附图说明

图1为本发明的一种基于注意力机制和深度强化学习的SDN多路径路由方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于注意力机制和深度强化学习的SDN多路径路由方法，如图1所示，包括：

利用SDN控制器对全局网络链路状态信息进行采集，建立相关网络拓扑，同时收集待转发数据流量信息。

本发明用加权无向图G＝(V,E)来表示整个网络拓扑和网络链路信息，V是网络中OF交换机的集合，V＝{v₁,v₂,…,v_n}，E为网络中交换机间链路e_ij集合。链路状态信息主要为常规QoS度量指标，包含了链路当前的时延，丢包率和利用率等，因此本文将用Bandwidth_ij，delay_ij，loss_ij，U_ij分别表示为链路e_ij的网络总带宽、链路时延、丢包率和链路资源负载比。

本发明用四元组表示待转发数据业务流f＝(S_t，D_t，d，b),其分别表示为流f的源地址、目的地址、最大时延和需求带宽。

以一次周期内检测的链路信息为例，将链路的QoS度量指标表示为：

链路可用带宽容量：C_ij＝Bandwidth_ij-Bandwidth_ij_ed

链路资源负载比：

链路时延：

其中，Bandwidth_ij_ed表示为在当前时刻链路已使用带宽，dtx为传播时延。

根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径，包括：

采用多次Dijkstra算法根据网络拓扑信息计算待转发流从源S_t到目的节点D_t的多条路径集合P，P＝{p₁,p₂,…,p_n}，且任意两条路径之间不存在链路复用，即每次选择最优路径后，删除最优路径包含的所有链路再次重新计算选择剩余拓扑中的最优路径，直到从源S_t到目的节点D_t无连通路径。

通过多路径路由将原本单路径承担的数据流量分拆卸载到多条路径上，利用多条路径上的资源共同承担网络数据，并且不同QoS业务数据会根据自身需求自适应网络状态选择不同传输路径，减轻单条路径的负担和资源浪费，降低整体网络数据传输时延，提高网络链路利用率和性能，使网络能负载均衡。

将从源S_t到目的节点D_t的一条完整路径p_i上端到端的QoS度量指标表示为：

源St到目的节点Dt间路径时延：

源St到目的节点Dt间路径丢包率：

路径可用带宽容量：

路径负载：

其中，D(p_i)表示源St到目的节点Dt间的路径时延，p_i表示第i条备选路径，<i,j>表示两个相连交换机Si和S_j之间的链路，delay_ij表示交换机Si到S_j之间的链路时延，U_ij表示链路资源负载比，Bandwidth_ij表示链路提供的总带宽，L(p_i)表示源St到目的节点Dt间的路径丢包率，loss_ik表示交换机Si到S_j之间的链路丢包率，C(p_i)表示第i条备选路径的可用带宽容量，C_ij表示交换机Si到Sj之间的路径可用带宽容量，表示第i条备选路径的路径负载。

将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流，怎样合理为不同QoS业务数据流计算分配合适路由是本文的主要解决问题，本文将此目标转换为最小化网络的最大链路利用率：

将目标转换为最小化网络的最大链路利用率，表示为：

受制于

BLink_ij<Bandwidth_ij

其中，表示路径负载，/>表示备选路经所提供的带宽之和，F_bandwidth表示当前所有待转发业务流的带宽需求，/>表示分拆业务流路径总时延，F_delay表示业务流能接受最大时延，BLink_ij表示链路承载的所有业务流，Bandwidth_ij表示链路提供的总带宽，P表示备选路径集，p_i表示第i条备选路径，<i、j>表示两个相连交换机Si和Sj之间的链路；

以上公式中设置多个条件来约束选择该条路径的业务数据流，保障待拆分转发业务流的带宽和链路可用性，其中第一个约束是所有备选路经所提供的带宽之和应该大于当前所有待转发业务流的带宽需求，第二个约束是加入分拆业务流后的路径，总时延不能超过业务流能接受最大时延，第三个约束中表示为链路承载的所有业务流不能超出链路提供的总带宽。

控制器根据每条路径的实时状态以及待转发业务数据流中业务流对QoS不同的需求数据流拆解，因此为了每条分拆流有对应路径承载，每条分拆流可表示为：

上式用表示分拆流是否选择路径p_i转发，当且仅当/> 时，任意分拆业务流都有路径承载转发，即待转发业务流路由计算完毕；S_tn，D_tn，d_n，b_n分别表示为拆分业务流的源地址、目的地址、最大时延和需求带宽。

本发明使用基于CNN的注意力机制来来提取状态特征，特征提取模块用于对构成备选路径的链路状态信息s进行特征提取，在通道域上采用最大池化和平均池化来保留不同程度上的特征，并使用两者平均融合实现对输入状态的细节特征提取；此外，在通道内采用两种不同维度的卷积层实现两种不同维度的注意力机制，以此实现双重注意力；最后，为了保证特征的完整性，采用ResNet残差网络思想，将在通道域和通道内得到的两个特征进行融合。

采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取，包括：

S41：采用32个一维卷积的卷积核对所述链路状态s进行卷积操作提取相应特征F＝Conv^1×1(s)；

S42：根据特征F在32个通道域上采用全局平均池化和全局最大池化分别得到两个新的特征F_avg∈R^1×m×k和F_max∈R^1×m×k，将两个新的特征进行融合，得到融合特征F_am＝[F_avg；F_max]；

S43：对融合特征F_am在通道上进行全局平均池化操作，提取得到细节特征F_c∈R¹ ^×m×k；

S44：采用两个具有不同卷积核尺寸的注意力机制卷积层对细节特征F_v在两个不同的维度上实行卷积操作，得到双重注意力特征向量N_w＝Conv^1×m(F_c)和M_w＝Conv^k×1(F_c)；

S45：采用矩阵乘法计算双重注意力机制下的特征向量矩阵NM_w＝N_w×M_w；

S46：将NM_w输入残差块用于保证信息的完整性，并执行一维卷积操作，得到结果F_j＝Conv^m×1(NM_w+F_c)；

其中，F表示对链路状态s进行卷积操提取的特征，s表示输入的路径链路状态，F_avg表示全局平均池化后的特征，F_max表示全局最大池化后的特征，F_am表示F_avg与F_max融合后的融合特征，F_c表示细节特征，N_w，M_w分别表示不同维度上对F_c卷积后的向量，NM_w表示实行双重注意力机制后的特征向量矩阵。

为了满足业务需求，需要尽量选择符合业务QoS需求的最优高质量路径转发数据，本发明将高质量链路定义为低时延低丢包率的链路，但此类链路可能不能负载有服务质量需求的大规模流量，为了得到实际最佳链路，将链路剩余带宽同时也作为度量链路是否优质的指标，由高质量链路组成的路径为高质量路径。

根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略，包括：

S51：使用min-max标准对链路丢包率、时延和链路剩余可用带宽归一化处理；

S52：根据归一化后的链路丢包率、时延和链路剩余可用带宽建立链路开销Cost_ij作为度量链路质量的综合指标；

S53：根据开销小的链路将优先被考虑转发数据的特点设计DQN模型的奖励值函数r；

S54：初始化DQN模型的Q网络及其参数：随机初始化当前Q网络的参数θ，初始化目标Q网络的参数θ^-＝θ，初始化容量为M的经验池；

S55：DQN模型使用神经网络来逼近Q值函数，该网络的输入是状态s，输出是DQN模型将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后，使用ε-贪心策略来输出动作a，得到数据流的转发路径。

本发明将业务所需的多个QoS约束指标统一处理，但是由于时延、丢包率和链路带宽在实际中数量级差异较大，不便于统一处理，本文将使用min-max标准对时延和丢包率这类负指标做归一化处理：

丢包率：

时延：

链路可用带宽：

其中，l_ij，d_ij，b_ij分别表示链路丢包率、时延和链路剩余可用带宽的归一化处理后的数据，loss_max表示链路丢包率最大值，loss_min表示链路丢包率最小值，loss_ij表示交换机S_i到S_j之间的链路丢包率，delay_max表示链路时延最大值，delay_min表示链路时延最小值，delay_ij表示交换机S_i到S_j之间的链路时延，Bandwidth_ij表示链路提供的总带宽，C_ij表示交换机S_i到S_j之间的路径可用带宽容量。

将链路上多个QoS约束条件综合度量，用度量值表示选路时的链路开销，其中链路开销越小，则该链路可用性越强，所述链路开销Cost_ij，包括：

Cost_ij＝αl_ij+βd_ij+γb_ij

其中，α，β，γ分别表示链路丢包率l_ij、时延d_ij和链路剩余可用带宽b_ij的加权指数，令α+β+γ＝1，不同QoS需求的业务对每个约束的加权指数也不一样，如视频业务对时延要求较高，大象流业务需要链路可用带宽较大等等，因此每个约束条件的加权指数根据实际业务做不同调整。

路径集合中组成备选路径的所有链路开销之和最小则表示此为当前最优路径，模型应该给此最优路径选择最大的回报，使智能体做出相应动作a选择此条路径，因此所述DQN模型的奖励值函数r，包括：

其中，Cost_ij表示链路开销，p_i表示第i条备选路径，<i、j>表示两个相连交换机Si和Sj之间的链路。

DQN使用神经网络来逼近Q值函数，该网络的输入是状态s，输出是将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后，DQN使用ε-贪心策略来输出动作a，当智能体会进行动作选择时以ε的概率进行探索，即从所有的可选动作A中随机抽取一个动作a；以1-ε的概率进行利用，从已知的信息中选择使得Q值函数最大的动作，即a＝argmaxQ(s,a)；在当前系统状态s执行动作a，得到奖励r,更新当前系统环境状态为s′，将生成的经验元组(s,a,r,s′)存储到经验池。

在本实施例中，还提供DQN模型训练过程：

(1)随机从经验回放池中抽取小批量经验样本(s_j,a_j,r_j,s_j′)，第j个样本由样本的当前状态s_j、动作a_j、在状态-动作对(s_j,a_j)下获取的奖励值r_j以及执行状态-动作对(s_j,a_j)后的状态s_j′表示，获取样本中的状态，即s_j和s_j′，使用第4部分中的基于CNN注意力机制特征提取方法计算s_j和s_j′对应的特征F_j和F_j′；

(2)更新计算目标Q值，其更新更新公式为：

y_j＝r_j+γQ(F_j′，argmaxQ(F_j，a_j；θ)；θ^-)

其中，y_j为对应状态-动作对(s_j,a_j)的目标Q值，r_j表示第j个结点在对应状态和动作下的奖励值，γ表示折扣率，θ^-为未更新的神经网络参数。

(3)计算当前网络损失函数L(θ)，并更新网络参数θ；

使用均方误差(mean-square error,MSE)来作为损失函数，损失函数表示样本的预测值与实际值的接近程度，损失函数值越低，表示两者越接近，其公式如下所示：

L(θ)＝E[y_j-Q(F_j，a_j；θ))²]

采用梯度下降法来进行优化：

其中，表示采用梯度下降法来进行优化当前网络损失函数L(θ)。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，包括：

将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流，包括：将目标转换为最小化网络的最大链路利用率，表示为：

受制于

BLink_ij＜Bandwidth_ij

S43：对融合特征F_am在通道上进行全局平均池化操作，提取得到细节特征F_c∈R^1×m×K；

S44：采用两个具有不同卷积核尺寸的注意力机制卷积层对细节特征F_c在两个不同的维度上实行卷积操作，得到双重注意力特征向量N_w＝Conv^1×m(F_c)和M_w＝Conv^k×1(F_c)；

S5：根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略，得到网络数据流的转发路径，并通过网络数据流的转发路径传输数据；

S54：初始化DQN模型的Q网络及其参数：随机初始化当前Q网络的参数θ，初始化目标Q网络的参数θ^-＝θ；

S55：DQN模型使用神经网络来逼近Q值函数，该网络的输入是状态s，输出是Q(s，a)，DQN模型将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后，使用ε-贪心策略来输出动作a，得到数据流的转发路径，其中，A表示智能体的所有可选动作。

2.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径，包括：

采用多次Dijkstra算法根据网络拓扑信息计算待转发流从源S_t到目的节点D_t的多条路径集合P，P＝{p₁，p₂，...，p_n}，且任意两条路径之间不存在链路复用，每次选择最优路径后，删除最优路径包含的所有链路再次重新计算选择剩余拓扑中的最优路径，直到从源S_t到目的节点D_t无连通路径。

3.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述QoS业务数据需求，包括：

源St到目的节点Dt间路径时延：

源St到目的节点Dt间路径丢包率：

路径可用带宽容量：

路径负载：

其中，D(p_i)表示源St到目的节点Dt间的路径时延，p_i表示第i条备选路径，<i，j>表示两个相连交换机S_i和S_j之间的链路，delay_ij表示交换机S_i到S_j之间的链路时延，U_ij表示链路资源负载比，/> dtx表示传播时延，Bandwidth_ij_ed表示在当前时刻链路已使用带宽，Bandwidth_ij表示链路提供的总带宽，L(p_i)表示源St到目的节点Dt间的路径丢包率，loss_ij表示交换机S_i到S_j之间的链路丢包率，C(p_i)表示第i条备选路径的可用带宽容量，C_ij表示交换机S_i到S_j之间的路径可用带宽容量，C_ij＝Bandwidth_ij-Bandwidth_ij_ed，/>表示第i条备选路径的路径负载。

4.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，使用min-max标准对链路丢包率、时延和链路剩余可用带宽归一化处理，包括：

丢包率：

时延：

链路可用带宽：

5.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述链路开销Cost_ij，包括：

Cost_ij＝αl_ij+βd_ij+γb_ij

其中，α，β，γ分别表示链路丢包率l_ij、时延d_ij和链路剩余可用带宽b_ij的加权指数，α+β+γ＝1。

6.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述DQN模型的奖励值函数r，包括：