CN117294643B

CN117294643B - 一种基于SDN架构的网络QoS保障路由方法

Info

Publication number: CN117294643B
Application number: CN202311575841.0A
Authority: CN
Inventors: 郭永安; 李金城; 崔畅; 佘昊; 王宇翱
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-03-12
Anticipated expiration: 2043-11-24
Also published as: CN117294643A

Abstract

本发明公开了一种基于SDN架构的网络QoS保障路由方法，根据网络拓扑信息，抽象成有向图，然后基于基于改经的k‑means算法将数据分为老鼠流、大象流、巨象流，定义流量传输的约束条件，构建DQN神经网络，以奖励函数R最大的动作所对应的最大Q值为目标训练DQN神经网络，得到QoS保障路由模型，得到最优路径权重值，根据Dijkstra算法确定数据包发送路径，最后将路径信息下发到交换机。本发明避免了传统K‑means算法对数据的处理不够稳健以及分类结果不够准确的情况。在DQN的神经网络训练时，从经验池中依据数据的优先性抽取数据，使得神经网络更加关注重要的数据，提高了神经网络的学习效率和算法的性能。

Description

一种基于SDN架构的网络QoS保障路由方法

技术领域

本发明属于网络技术领域，具体涉及一种基于SDN架构的网络QoS保障路由方法。

背景技术

随着网络规模不断扩大，网络拥塞、延迟等问题也越来越突出。在传统的网络中，控制和转发紧紧耦合的网络架构与“尽力而为”的QoS服务模式，无法对网络流量进行动态调整和优化，难以满足不同应用场景下的QoS要求。而SDN(Software-Define Networking，软件定义网络)技术通过将网络控制平面和数据平面分离，能够动态调整网络流量，提高网络性能和QoS保障。

数据中心网络的流量从数据量大小的角度一般被分为大象流和老鼠流。但网络中数量较少的大象流承载了大部分的网络流量，而数量较多的老鼠流仅承载了少量的网络流量。而目前很多流量分类的的思路是设置静态或动态阈值来识别大象流和老鼠流，并且对于所有体量的大象流都使用同样的方法计算路径转发，但是大象流之间的体量差别很大，将流量非常大的大象流与普通大象流一起转发，同样会造成网络局部拥塞，负载不均衡等问题。

K-means算法是网络流量分类中应用最广泛的机器学习算法之一，但是经典的K-means算法也存在一些缺点，如对于初始聚类中心选择的随机性导致算法对异常数据敏感，对分类准确度有较大影响。由于初始聚类中心的随机性，传统K-means算法对于数据的处理不够稳健，因而可能导致分类结果不准确的情况。

OSPF和BGP是目前基于QoS的路由算法中比较常用的两种，但它们各自也都存在一些缺点。OSPF只能静态选择单一路径作为数据包的路由路径，无法实现负载均衡；BGP虽然支持多路径，但是需要配置较多的策略和路由规则，且路由决策较慢，对网络的可扩展性也存在一定限制。

发明内容

本发明所要解决的技术问题在于：针对现有技术中OSPF只能静态选择单一路径作为数据包的路由路径，无法实现负载均衡；BGP虽然支持多路径，但是需要配置较多的策略和路由规则，且路由决策较慢，对网络的可扩展性也存在一定限制的问题，提供了一种基于SDN架构的网络QoS保障路由方法，更好地实现数据中心网络资源的灵活按需分配、最大程度提升数据中心网络资源利用率，提高网络性能和QoS保障。

为解决以上技术问题，本发明提供如下技术方案：一种基于SDN架构的网络QoS保障路由方法，包括如下步骤：

S1、SDN控制器按照预设时间t周期性地获取数据中心网络拓扑信息；

S2、根据拓扑信息将数据中心网络抽象为有向图，通过有向图获得数据中心网络数据传输可达路径，并用权重矩阵表示；

S3、SDN控制器接收来自源主机的数据流，根据有向图判断该数据流要发送的目的节点与源节点是否直接相连，是则直接按照网络可达路径进行数据包转发，否则执行步骤S4；

S4、采用改进的基于数据分布密度的k-means算法将数据流聚类分簇，即先利用流量分布密度函数确定初始聚类中心，再将数据流进行聚类为包含具有各个分类特征的数据流，即老鼠流、大象流、以及巨象流；

S5、计算路径的端到端时延、路径的可用带宽、路径的丢包率，然后构建数据流的QoS约束条件即最小传输总成本Cost_min；

S6、构建DQN神经网络，包括Q网络和目标Q_target网络；定义状态空间，包括网络拓扑结构信息、源节点、目的节点、各个分类特征的数据流；定义智能体与环境交互的动作空间A为数据流选择在节点之间的路径传输的权重值，奖励函数R为网络各路径最小传输总成本的负相关，以奖励函数R最大的动作a所对应的最大Q值为目标训练DQN神经网络，在训练过程中利用经验回放机制和目标Q_target网络，优化路由策略得到QoS保障路由模型；

S7、利用QoS保障路由模型，得到数据流传输最优路径的权重值，由此权重值获得相应数据流传输最优路径，进一步确定传输路径经过的所有节点；

S8、根据Dijkstra算法，选取传输路径经过的所有节点中权重值最小的节点作为路由节点，确定数据流的传输路径。

进一步地，前述的步骤S1中，SDN控制器通过南向OpenFlow协议与网络中的交换机进行通信，获取交换机的连接关系和链路信息，并通过链路发现协议LLDP周期性获取并更新全局网络拓扑信息，所述的SDN网络包含x个控制器和y个交换机，x个控制器集合为C＝{c₁,c₂,……,c_x}，并将控制器c₁设为中央控制器，y个交换机集合为S＝{s₁,s₂,……,s_y}。

进一步地，前述的步骤S2中，有向图为G＝(U,V,W)，U表示网络的节点u的集合，即u∈U；V表示网络的链路v的集合，两个节点的连接定义一个链路，即v∈V，表示初始时网络路径节点的权重矩阵，其中w_ij＝R⁺，即正实数，表示在节点i和j之间有路径相连，即数据可达；w_ij＝0，表示在i和j之间无路径相连，即数据不可达。

进一步地，前述的步骤S4包括以下子步骤：

S41、针对网络任意节点i计算所传数据流之间的欧氏距离dis(l_a，l_b)，如下式：

其中，网络中节点i传输的数据流用向量集合

L＝{l_i|l_i∈R^p，i＝1，2，3，…，n}表示，n为节点i中传输的流量条数，p为

流量的表示维数，l_a和l_b是流量集合L中任意的两条数据流；

计算节点i所有数据流的平均欧氏距离如下式：

其中，值越小，则数据流的平均欧氏距离越小，表示数据流之间的差异越小，即该节点的数据流越相似；

S42、计算节点i传输的流量集合L中数据流l_a的数据密度den(l_a)，如下式：

其中，den(l_a)表示在数据流l_a的传输时间t(l_a)内传输的数据量或数据包数量的大小，den(l_a)用于衡量该数据流的流量强度；

计算节点i所有数据流的平均数据密度如下式：

其中，值越大，则数据流的平均数据密度越大，表示节点i中的传输的数据量占比越高，即流量分布越集中；

计算节点i传输的n条数据流的平均传输时间为如下式：

计算节点i所有数据流相对应的聚类中心c_i，如下式：

其中，c_i表示节点i所有数据流在大小、距离、密度等方面的共同特征；

S43、计算节点i的流量分布函数F(l_i)，如下式：

其中，P()是概率函数，

计算节点i的分布密度函数f(l_i)，如下式：

其中，f(l_i)表示流量l_i分布在某个区间内的概率；

S44、根据有向图G＝(U，V，W)，对网络的全部U个节点重复执行步骤S41-S43，获得网络各个节点的传输流量的分布密度函数，并用集合f_all表示如下：

f_all＝{f₁，f₂，…，f_i，…f_u}，

各个节点所对应的聚类均值中心C_all如下式：

C_all＝{c₁，c₂，…，c_i，…，c_u}，

网络所有U个节点的平均流量分布密度函数如下式：

平均流量分布密度函数用于衡量网络各节点流量密度的平均值，通过与该函数值大小的比较，将网络中各节点分为高密度节点f_i ^h吐及低密度节点f_i ^l；

S45、根据高密度节点f_i ^h以及低密度节点f_i ^l，进一步得到下式：

将高密度节点对应的聚类中心从C_all中抽取，作为K-means聚类中心的预备值，并用集合C_h表示，如下：

C_h＝{c₁，c₂…，c_i…，c_m}，i＝1，2，3…m，m＜n，

S46、从C_h中找出数值最大的数据对象c₁作为第1个初始聚类中心并将c₁从C_h中删除；

S47、再从C_h中找出距离最远的数据对象c₂作为第2个初始聚类中心/>并将c₂从C_h中删除；

S48、从C_h中找出距离和/>最远的数据对象c₃作为第3个初始聚类中心/>并将c₃从C_h中删除；

S49、分配数据流到相应数据簇：利用步骤S46-S48获得的初始聚类簇中心集合对网络各节点的每条数据流进行聚类，计算其与各个初始聚类中心的距离，并将其分配给距离最近的聚类中心相对应的数据簇；

S410、更新簇中心：对于每个簇，重复步骤S41-S42，计算所有分配给该簇的数据流的平均值，即数据流的中心点，并将该平均值作为新的簇中心

S411、重复步骤S44-S410，直到聚类中心不再改变，保存聚类结果，将数据流聚类为老鼠流L_r、大象流L_e、巨象流L_g。

进一步地，前述的步骤S5中，数据流的QoS约束条件按如下步骤获得：

S51、计算路径p(i，j)的端到端时延T_d(p)，如下式：

其中，T_t(v)、T_c(v)、T_q(v)分别为路径p中链路v的传输时延、传播时延以及排队时延；

S52、计算路径p的可用带宽B(p)，如下式：

其中，t是预设的SDN控制器获取网络数据中心网路拓扑信息的时间间隔；D_r为当前时间间隔t内端口的接收数据量；D′_t为前一时间间隔内t内端口已发送的数据量，B_c为基于香农理论定义的信道带宽；

S53、计算路径p的丢包率：

其中，D_t-all为当前时间间隔t内端口的发送数据总量；D_r为当前时间间隔t内端口的接收数据量，二者差值即为丢包量；

S54、计算路径p传输最小成本Cost_min(p)，如下式：

Cost_min(p)＝[αT_d(p)-βB(p)+γLo(p)]，

其中，α、β、γ为链路成本的权重系数，所述最小成本Cost_min(p)综合了考虑链路带宽、时延和丢包率因素的共同作用，通过控制最小成本Cost_min(p)以达到网络传输的最佳性能。

进一步地，前述的步骤S6包括如下子步骤：

S61、将DQN神经网络的参数映射到实际的SDN网络的应用场景中，包括状态空间S，动作空间A以及奖励函数R；

其中，状态空间S包括网络拓扑结构信息、源节点、目的节点、各个分类特征的数据流；定义智能体与环境交互的动作空间A如下式：即

a(s_t)是数据流l选择在节点i和节点j之间的第p条路径传输的权重值的集合，节点i和节点j之间共有K条路经，数据流l在节点i和节点j间的第p条路径上传输，第p条路径的权重为：

其中，表示在节点i和节点j之间的路径p上传输的流量；

奖励函数R为网络各路径最小传输成本的负相关，如下式：

R＝-Cost_min(p)＝[-αT_d(p)+βB(p)-γLo(p)]，

其中，T_d(p)、B(p)、Lo(p)表示节点i和节点j之间的路径p的端到端时延、可用带宽、丢包率；α，β，γ∈[0，1]为各优化目标的权重系数，在应对不同的业务流时，权重值有所不同；

S62、初始化DQN神经网络，包括预设学习率折扣因子μ、探索率ε初值；所述DQN神经网络用于估计奖励函数R的动作a所对应的Q值；初始化训练池，即创建经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括当前网络环境状态信息S_t、动作a_t、奖励r_t、下一个网络环境状态信息S_t+1；

S63、智能体与环境交互，获取当前网络环境状态信息S_t，并根据当前网络环境状态信息S_t和探索率ε选择动作a_t，即数据流传输路径的权重值，即择该路径进行数据传输；其中，探索率ε为一个取值(0，1)的超参数，表示智能体选择随机动作的概率，用于探索性地选择非最优动作，如果随机数小于探索率，智能体选择随机动作；否则，根据当前Q值选择最优动作；

S64，智能体执行动作a_t，即选中一条路径p对数据包进行路由，智能体执行动作a_t后获得相应的奖励r_t，即网络成本值的反馈，同时将S_t更新为S_t+1。将智能体与环境交互获得的经验值(s_t，a_t，r_t，s_t+1)存入DQN经验池；

S65，在DQN经验池中，数据优先性筛选模块部署在经验池的经验元组中，神经网络基于数据优先性采集到学习样本批次包括：

S65-1、智能体与环境交互获取的第一批经验(s_t，a_t，r_t，s_t+1)直接输入Q网络，再经过Q_target网络得到t时刻内每个动作的Q值预测值Q′；

其中，目标网络Q_target与主网络Q结构相同，用于提供相对稳定的目标Q值，解决DQN算法过估计问题；

S65-2，根据Q′值选择对应的最优动作a′_t，如下式：

a′_t＝argmaxQ(s_t，a_t；θ_t)，

其中，θ表示Q网络的参数，用来调整Q网络的权重，使Q网络能够更准确地估计每个动作的Q值，t为预设的一个时间单位；

S65-3，计算出执行a′_t所获得的对应的奖励值r′_t；

S65-4，定义经验池数据优先级函数Pr(t)：

Pr(t)＝(r′_t+Q′)^λ，

其中，λ是一个超参数且λ∈(0，1)，用于控制优先级函数的衰减程度，以直接过滤优先级较低的数据，提高模型训练效率；

S65-5，将每个经验数据的奖励值r′_t和对应的Q′代入优先级函数的公式，计算出每个经验数据的优先级，并加载到经验池中；根据智能体与环境的交互，周期性更新经验池中数据的优先级；

S66、根据步骤S65基于数据优先性筛选模块采集到学习样本批次神经网络计算出该批次样本对应的Q值，然后获得当前状态/>下Q值对应的动作/>以及执行动作/>后智能体所获得的奖励/>再计算出目标Q值，其中，该批次样本对应的Q值：

式中，f_θ表示主网络的输出函数，是神经网络确定的函数，Q值对应的动作

基于数据流经聚类算法后被聚类成巨象流L_g、大象流L_e以及老鼠流L_r，动作即为数据流传输所规划的路径p的权重值；

执行动作后智能体获得环境的奖励值/>如下式：

奖励值越大则网络成本越小，所执行的动作越优，即路径规划方案越优；

计算目标Q值：

其中，μ为折扣因子，用于平衡当前奖励和未来奖励的重要性程度；

S67、更新Q网络参数θ_t：定义损失函数Loss(θ_t)，使用随机梯度下降法SGD最小化当前状态的Q值与目标Q值的差异，更新Q网络的参数；

更新目标Q_target网络参数θ′：即定期将Q网络的参数复制到目标Q_target网络中，

S68，智能体将状态更新为并降低探索率ε，重复上述步骤S63至S68，直到智能体确定到的数据中心网络状态是终止状态，即网络中各种业务所聚类成的老鼠流、大象流、以及巨象流转发完成。

进一步地，前述的，步骤S7具体为：

定义最优路径的权重值集合We_min，如下式，该集合作用为在DQN算法输出最优动作a，即为数据流传输所规划的路径p后，确定路径p所经过的节点，SDN控制层对于网络的管理及流表下发；

进一步地，前述的步骤S8中权重值按如下公式计算：

其中，K为利用基于跳数的K最短路径算法计算共有K条路径，表示节点i和j之间在第k条路径上传输的流。

相较于现有技术，本发明采用以上技术方案的有益技术效果如下：

1、本发明采用SDN技术，将网络控制平面和数据平面分离，实现网络流量的动态调整和优化，通过部署统一的SDN控制器收集各链路之间的流量需求与拥塞情况，实现数据中心网络资源的灵活按需分配、最大程度提升数据中心网络资源利用率，提高网络性能和QoS保障。

2、本发明对传统的k-means算法加以改进，在初始聚类中心的确定上，采用基于流量的分布概率密度来确定初始聚类中心，通过对数据流量进行分析，得到了流量的分布概率密度函数。根据流量的分布概率密度函数来确定初始聚类中心的位置，使得聚类中心更加贴近数据的分布情况，从而提高了算法的准确性。大大避免了传统K-means算法由于初始聚类中心选取的随机性导致的对数据的处理不够稳健以及分类结果不够准确的情况。

3、本发明应用DQN算法对整个网络各节点的链路权重值进行计算优化，相较于传统方法，本发明在DQN的经验池中维护了一个优先队列，通过定义经验池数据优先级函数，将数据按优先级存储到队列中。在DQN的神经网络训练时，从经验池中依据数据的优先性而非传统DQN网络的随机均匀方式抽取数据，从而获得神经网络的学习样本批次，使得神经网络更加关注重要的数据，提高了神经网络的学习效率和算法的性能。

附图说明

图1为本发明的SDN网络模型图。

图2为本发明的一种基于SDN架构的网络QoS保障路由方法总体流程图。

图3为本发明的深度强化学习算法模型图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本发明中参照附图来描述本发明的各方面，附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解，本发明通过上面介绍的多种构思和实施例，以及下面详细描述的构思和实施方式中的任意一种来实现，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

参考图1，本发明的一种基于SDN架构的网络包括应用层、控制层以及数据层，SDN控制层所属控制器与数据层交换机相连，流量分类模块和QoS保障模块均部署在SDN控制器中，负责数据中心网络流量分类以及路由优化等功能。

如图2所示，本发明提供一种基于SDN架构的网络QoS保障路由方法，包括如下步骤：S1、SDN控制器按照预设时间t周期性地获取数据中心网络拓扑信息；

拓扑信息包括网络中各节点间可用带宽、端到端时延等信息，用于后续评估、计算路由策略。具体为：SDN控制器通过南向OpenFlow协议与网络中的交换机进行通信，获取交换机的连接关系和链路信息，并通过链路发现协议LLDP周期性获取并更新全局网络拓扑信息，所述的SDN网络包含x个控制器和y个交换机，x个控制器集合为C＝{c₁，c₂，……，c_x}，并将控制器c₁设为中央控制器，y个交换机集合为S＝{s₁，s₂，……，s_y}。

链路可用带宽的监测：先设定一个固定的时间间隔t，然后通过SDN控制器通过南向OpenFlow协议对网络中各个交换设备的端口进行周期性地监测，获取各个端口的统计信息。统计信息包括每个端口的接收数据量、发送数据量等，进而计算出链路可用带宽，即

其中，D_r为当前时间间隔t内端口的接收数据量，D′_t为上一时间间隔内t内端口已发送的数据量，B_c为基于香农理论定义的信道带宽。

链路时延的监测：在SDN网络数据传输时，控制器会发送Packet-Out消息，命令交换机S₁发送数据流至交换机S₂。但当交换机S₂没有能够处理该数据流的流表项时，就会向SDN控制器发送Packet-In消息进行回复。SDN控制器根据发送时间和接收时间，便可计算得到消息在该条路径(由SDN控制器发送至交换机S₁，再至交换机S₂，最后又从交换机S₂返回至控制器)下的往返总时间T_tr。

SDN控制器再分别向S₁与S₂发送echo request消息，交换机S₁与S₂再分别发送echoreply消息至SDN控制器。SDN控制器根据发送echo request消息和接收echo reply消息的时间差得到SDN控制器到交换机S₁与S₂的各自时间T₁、T₂，进而计算出交换机S₁与S₂间的端到端时延T_d：

S2、根据拓扑信息将数据中心网络抽象为有向图G＝(U，V，W)，通过有向图获得数据中心网络数据传输可达路径，并用权重矩阵表示；其中，U表示网络的节点u的集合，即u∈U；V表示网络的链路v的集合，两个节点的连接定义一个链路，即v∈V，有向图G中源节点源节点i和节点j间数据传输利用基于跳数的K最短路径算法计算共有K条路径，表示节点i和j之间在第k条路径上传输的流。定义数据流在节点i和j之间传输时第k条路径的权重值为/>则

该值即代表初始时节点i和j之间第k条路径的权重值。进而可得到初始时网络各节点间路径的权重值，表示为N×N权重矩阵其中，w_ij＝R⁺，即正实数，表示在节点i和j之间有路径相连，即数据可达；w_ij＝0，表示在i和j之间无路径相连，即数据不可达。

S3、SDN控制器接收来自源主机的数据流，根据有向图判断该数据流要发送的目的节点与源节点是否直接相连，是则直接按照网络可达路径进行数据包转发，否则执行步骤S4；网络流量的行为特征和统计特性可知，同一应用类型的流量数据往往分布在一个相对比较密集的区域。

S4、采用改进的基于数据分布密度的k-means算法将数据流聚类分簇，即先利用流量分布密度函数确定初始聚类中心，再将数据流进行聚类为包含具有各个分类特征的数据流，即老鼠流L_r、大象流L_e、以及巨象流g；

其中，网络中节点i传输的数据流用向量集合L＝{l_i|l_i∈R^p，i＝1，2，3，…，n}表示，n为节点i中传输的流量条数，p为流量的表示维数，l_a和l_b是流量集合L中任意的两条数据流；

计算节点i所有数据流的平均欧氏距离如下式：

其中，直越小，则数据流的平均欧氏距离越小，表示数据流之间的差异越小，即该节点的数据流越相似；

计算节点i所有数据流的平均数据密度如下式：

计算节点i传输的n条数据流的平均传输时间为如下式：

计算节点i所有数据流相对应的聚类中心c_i，如下式：

S43、计算节点i的流量分布函数F(l_i)，如下式：

其中，P()是概率函数，

计算节点i的分布密度函数f(l_i)，如下式：

其中，f(l_i)表示流量l_i分布在某个区间内的概率；

f_all＝{f₁，f₂，…，f_i，…f_u}

各个节点所对应的聚类均值中心C_all，如下式：

C_all＝{c₁，c₂，…，c_i，…，c_u}

网络所有U个节点的平均流量分布密度函数如下式：

/>

该平均流量分布密度函数用于衡量网络各节点流量密度的平均值，通过与该函数值大小的比较，将网络中各节点分为高密度节点f_i ^h以及低密度节点f_i ^l；

C_h＝{c₁，c₂…，c_i…，c_m}，i＝1，2，3…m，m＜n

由于数据中心网络中老鼠流占比最多，大象流占比较少，巨象流占比最少，通过改进的基于流量概率密度分布从而获得初始聚类中心的k-means算法，在聚类中心不再变化时，表明各簇流量收敛成功。即网络流量以概率分布为聚类中心选取前提，以数据量大小为聚类标准，经过k-means算法成功聚类为老鼠流L_r、大象流L_e、巨象流L_g。

由于不同业务对应的巨象流、大象流、老鼠流等在传输带宽、时延、抖动、传输安全等方面，提出了各自确定性的QoS标准和相互差异化要求。为了保障不同业务的QoS，通过QoS构成约束条件，进而利用DQN神经网络生成数据中心网络各链路权重。

QoS多约束条件目的是为网络流量筛选出最满足该应用类型QoS的路径，即在网络G＝(U，V，W)中的节点i和j之间找到一条路径p(i，j)且满足该业务QoS及保证网络传输总成本最小。当网络传输总成本满足最小时，可有效避免网络拥塞，因此将基于SDN网络流量复杂多变的路由问题转变为优化问题。

S5、计算路径的端到端时延、路径的可用带宽、路径的丢包率，然后构建数据流的QoS约束条件即最小传输总成本Cost_min(p)；

数据流的QoS约束条件按如下步骤获得：

S51、计算路径p(i，j)的端到端时延T_d(p)，其包括数据包在路径p上所有节点的传输时延、传播时延以及排队时延之和，如下式：

T_d(p)和可用带宽B(p)在步骤S1中当SQN控制平面按照一定时间t周期性地获取数据中心网络拓扑结构已获得，其中，T_t(v)、T_c(v)、T_q(v)分别为路径p中链路v的传输时延、传播时延以及排队时延；传输时延，取决于数据包的大小以及链路的传输能力；传播时延，取决于链路的物理距离和信号传播速度；数据包在网络设备的队列中等待传输所需的排队时延，取决于网络拥塞情况和队列长度。

S52、计算路径p的可用带宽B(p)，如下式：

S53、路径p的丢包率，即发送过程中丢失的数据包数量占发送的数据包数量。丢失的数据包数量是在链路传输过程中未能成功到达目的地的数据包数量，发送的数据包数量是在链路上发送的总数据包数量；

计算路径p的丢包率，如下式：

S54、计算路径p传输最小成本Cost_min(p)，如下式：

Cost_mmin(p)＝[αT_d(p)-βB(p)+γLo(p)]

参考图3，S6、构建DQN神经网络，包括Q网络和目标Q_target网络；定义状态空间，包括网络拓扑结构信息、源节点、目的节点、各个分类特征的数据流；定义智能体与环境交互的动作空间A为数据流选择在节点之间的路径传输的权重值，奖励函数R为网络各路径最小传输总成本Cost_min的负相关，以奖励函数R最大的动作a所对应的最大Q值为目标训练DQN神经网络，在训练过程中利用经验回放机制和目标Q_target网络，优化路由策略得到QoS保障路由模型；

模型输入包括源节点、目的节点、流量分类特征、网络拓扑结构信息和QoS约束条件即最小传输总成本Cost_min等，输出与业务QoS保障策略对应的最优路径权重值。训练过程中，DQN算法利用经验回放机制和目标网络等技术，不断优化路由策略，提高QoS保障能力，包括如下子步骤：

(1)状态空间S包括：网络拓扑结构信息、源节点、目的节点、各个分类特征的数据流，

源节点、目的节点包括网络中各个节点的位置、跳数、连接关系等信息。流量特征信息为智能体需要了解的当前网络中存在流量分类情况，即已由步骤S4中基于改进的k-means算法聚类后得到的巨象流L_g、大象流L_e以及老鼠流L_r等3簇数据流。网络中的状态变量，如网络负载、带宽利用率，网络吞吐量等，以便智能体选择合适的流量调度策略。

(2)定义智能体与环境交互的动作空间A：即

a(s_t)为数据流l选择在节点i和j之间的第p条路径传输的权重值的集合，节点i和j之间共有K条路经，数据流l在节点i和j间的第p条路径上传输，第p条路径的权重为：

其中表示在节点i和j之间的路径p上传输的流量；

(3)为了选出满足业务QoS要求的最优路径，避免数据中心常出现的拥塞问题，本实施例的优化目标为使数据流传输所经过的链路权重和最小。与此同时，DQN神经网络的目标是找到使奖励函数R最大的动作a所对应的最大Q值。奖励函数R为网络各路径最小传输成本的负相关，如下式：

R＝-Cost_min(p)＝[-αT_d(p)+βB(p)-γLo(p)]

其中，T_d(p)、B(p)、Lo(p)表示节点节点i和j之间的路径p的端到端时延、可用带宽、丢包率；α，β，γ∈[0，1]为各优化目标的权重系数，在应对不同的业务流时，权重值有所不同；

S62、初始化DQN神经网络，包括预设学习率、折扣因子μ、探索率ε初值；所述DQN神经网络用于估计奖励函数R的动作a所对应的Q值；初始化训练池，即创建经验回放缓冲区，用于存储智能体与环境交互获得的经验，包括当前网络环境状态信息S_t、动作a_t、奖励r_t、下一个网络环境状态信息S_t+1，保证了DQN神经网络的稳定性；

S63、智能体与环境交互，获取当前网络环境状态信息St，并根据当前网络环境状态信息S_t和探索率ε选择动作a_t，即数据流传输路径的权重值，即择该路径进行数据传输；其中，探索率为一个取值(0，1)的超参数，表示智能体选择随机动作的概率，用于探索性地选择非最优动作，如果随机数小于探索率，智能体选择随机动作；否则，根据当前Q值选择最优动作；

S64，智能体执行动作a_t，即选中一条路径p对数据包进行路由，智能体执行动作a_t后获得相应的奖励r_t，即网络成本值的反馈，同时将S_t更新为S_t+1，将智能体与环境交互获得的经验值(s_t，a_t，r_t，S_t+1)存入DQN经验池；

S65-1、智能体与环境交互获取的第一批经验(s_t，a_t，r_t，s_t+1)直接输入Q网络，再经过Q_target网络得到t时刻内每个动作的Q值预测值Q′。

S65-2，根据Q′值选择对应的最优动作a′_t，如下式：

a′_t＝argmaxQ(s_t，a_t；θ_t)，

S65-3，计算出执行a′_t所获得的对应的奖励值r′_t；

S65-4，定义经验池数据优先级函数Pr(t)：

Pr(t)＝(r′_t+Q′)^λ

S65-5，将每个经验数据的奖励值r′_t和对应的Q′代入优先级函数的公式，计算出每个经验数据的优先级，并加载到经验池中；根据智能体与环境的交互，周期性更新经验池中数据的优先级。

.基于数据流经聚类算法后被聚类成巨象流L_g、大象流L_e以及老鼠流L_r，动作即为数据流传输所规划的路径p的权重值。

执行动作后智能体获得环境的奖励值/>如下式：

在本实施例中，奖励值与网络开销负相关，该值物理意义为部署在SDN控制平面的基于DQN算法的网络QOS保障模型结合流量业务需求以及网络资源开销，对网络中任意两节点间所传数据流规划的路由路径的评价指标。奖励值/>越大则网络成本越小，则所执行的动作越优，即路径规划方案越优。反之，结论同理。/>

计算目标Q值：

S67、更新Q网络参数θ_t：定义损失函数Loss(θ_t)：

损失函数衡量了神经网络的预测误差，即当前状态下的Q值与目标Q值之间的差异。损失函数的作用是指导主网络参数的更新，通过计算损失函数对参数的梯度，可以确定参数更新的方向和大小，使网络的预测能力逐渐改进，进而使神经网络的预测逐渐接近真实值，提高智能体的决策准确性。

使用随机梯度下降法SGD最小化当前状态的Q值与目标Q值的差异，更新Q网络的参数；

其中，是学习率，是用来控制神经网络参数更新的步长或者速度的超参数，决定了每次参数更新时，参数沿着梯度方向移动的幅度；/>是损失函数对参数的梯度。

更新目标Q_target网络参数θ′：即定期将Q网络的参数复制到目标Q_target网络中，则

θ′_t+1＝τ×θ_t+1+(1-τ)θ′_t

其中，τ是参数更新速率，控制了主网络参数对目标网络参数的影响程度。

S68，智能体将状态更新为以便在下一步训练中使用更新后的状态进行决策，并降低探索率ε，减少智能体随机探索的概率，重复上述步骤S63-S68，直到智能体确定到的数据中心网络状态是终止状态，即网络中各种业务所聚类成的老鼠流、大象流、以及巨象流转发完成。

定义最优路径的权重值集合We_min，如下式，该集合作用为在DQN算法输出最优动作a，即为数据流传输所规划的路径p后，确定路径p所经过的节点，便于SDN控制层对于网络的管理及流表下发；

其中，表示节点i和节点j之间规划的路径p中是否包含节点z，/>取值为1或0，值为1则包含节点z，值为0则不包含节点z；

最后配置路由器、路由协议、接口，将步骤S7及S8选择的最优路径对应的传输节点信息配置成路由表并下发至SDN数据平面的交换机，交换机根据下发的路径信息进行数据转发，实现了流量传输的路由优化和QoS保障，保证流量传输的效率和QoS要求。

虽然本发明已以较佳实施例阐述如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于SDN架构的网络QoS保障路由方法，其特征在于，包括如下步骤：

S2、根据拓扑信息将数据中心网络抽象为有向图，通过有向图获得数据中心网络数据传输可达路径，并用权重矩阵表示，具体是：有向图为G＝(U，V，W)，U表示网络的节点u的集合，即u∈U；V表示网络的链路v的集合，两个节点的连接定义一个链路，即v∈V，表示初始时网络路径节点的权重矩阵，其中w_ij＝R⁺，即正实数，表示在节点i和j之间有路径相连，即数据可达；w_ij＝0，表示在i和j之间无路径相连，即数据不可达；

S4、采用改进的基于数据分布密度的k-means算法将数据流聚类分簇，即先利用流量分布密度函数确定初始聚类中心，再将数据流进行聚类为包含具有各个分类特征的数据流，即老鼠流、大象流、以及巨象流；具体包括以下子步骤：

其中，网络中节点i传输的数据流用向量集合

L＝{l_i|l_i∈R^p，i＝1，2，3，…，n}表示，n为节点i中传输的流量条数，p为流量的表示维数，l_a和l_b是流量集合L中任意的两条数据流；

计算节点i所有数据流的平均欧氏距离如下式：

计算节点i所有数据流的平均数据密度如下式：

计算节点i传输的n条数据流的平均传输时间为如下式：

计算节点i所有数据流相对应的聚类中心c_i，如下式：

其中，c_i表示节点i所有数据流在大小、距离、密度的共同特征；

S43、计算节点i的流量分布函数F(l_i)，如下式：

其中，P()是概率函数；

计算节点i的分布密度函数f(l_i)，如下式：

其中，f(l_i)表示流量l_i分布在某个区间内的概率；

f_all＝{f₁，f₂，…，f_i，…f_u}，

各个节点所对应的聚类均值中心C_all如下式：

C_all＝{C₁，c₂，…，c_i，…，C_u}，

网络所有U个节点的平均流量分布密度函数如下式：

平均流量分布密度函数用于衡量网络各节点流量密度的平均值，通过与该函数值大小的比较，将网络中各节点分为高密度节点f_i ^h以及低密度节点f_i ^l；

C_h＝{c₁，c₂…，c_i…，c_m}，i＝1，2，3…m，m＜n，

S411、重复步骤S44-S410，直到聚类中心不再改变，保存聚类结果，将数据流聚类为老鼠流L_r、大象流L_e、巨象流L_g；

2.根据权利要求1所述的一种基于SDN架构的网络QoS保障路由方法，其特征在于，步骤S1中，SDN控制器通过南向OpenFlow协议与网络中的交换机进行通信，获取交换机的连接关系和链路信息，并通过链路发现协议LLDP周期性获取并更新全局网络拓扑信息，所述的SDN网络包含x个控制器和y个交换机，x个控制器集合为C＝{c₁，c₂，……，c_x}，并将控制器c₁设为中央控制器，y个交换机集合为S＝{s₁，s₂，……，s_y}。

3.根据权利要求2所述的一种基于SDN架构的网络QoS保障路由方法，其特征在于，步骤S5中，数据流的QoS约束条件按如下步骤获得：

S51、计算路径p(i，j)的端到端时延T_d(p)，如下式：

S52、计算路径p的可用带宽B(p)，如下式：

S53、计算路径p的丢包率：

S54、计算路径p传输最小成本Cost_min(p)，如下式：

Cost_min(p)＝[αT_d(p)-βB(p)+γLo(p)]，

4.根据权利要求3所述的一种基于SDN架构的网络QoS保障路由方法，其特征在于，步骤S6包括如下子步骤：

其中，表示在节点i和节点j之间的路径p上传输的流量；

奖励函数R为网络各路径最小传输成本的负相关，如下式：

R＝-Cost_min(p)＝[-αT_d(p)+βB(p)-γLo(p)]，

S65-2、根据Q′值选择对应的最优动作a′_t，如下式：

a′_t＝argmaxQ(s_t，a_t；θ_t)，

其中，θ表示Q网络的参数，用来调整Q网络的权重，使Q网络能够更准确地估计每个动作的Q值，t为预设的一个单位时间；

S65-3、计算出执行a′_t所获得的对应的奖励值r_t′；

S65-4、定义经验池数据优先级函数Pr(t)：

Pr(t)＝(r′_t+Q′)^λ，

S65-5、将每个经验数据的奖励值r′_t和对应的Q′代入优先级函数的公式，计算出每个经验数据的优先级，并加载到经验池中；根据智能体与环境的交互，周期性更新经验池中数据的优先级；

S66、根据步骤S65基于数据优先性筛选模块采集到学习样本批次神经网络计算出样本批次对应的Q值，然后获得当前状态/>下Q值对应的动作/>以及执行动作/>后智能体所获得的奖励/>再计算出目标Q值，其中，样本批次对应的Q值：

执行动作后智能体获得环境的奖励值/>如下式：

计算目标Q值：

S67、更新Q网络参数θ_t：定义损失函数LosS(θ_t)，使用随机梯度下降法SGD最小化当前状态的Q值与目标Q值的差异，更新Q网络的参数；更新目标Q_target网络参数θ′：即定期将Q网络的参数复制到目标Q_target网络中，S68、智能体将状态更新为并降低探索率ε，重复上述步骤S63至S68，直到智能体确定到的数据中心网络状态是终止状态，即网络中各种业务所聚类成的老鼠流、大象流、以及巨象流转发完成。

5.根据权利要求4所述的一种基于SDN架构的网络QoS保障路由方法，其特征在于，步骤S7具体为：

6.根据权利要求5所述的一种基于SDN架构的网络QoS保障路由方法，其特征在于，步骤S8中权重值按如下公式计算：