CN116170370B - 一种基于注意力机制和深度强化学习的sdn多路径路由方法 - Google Patents

一种基于注意力机制和深度强化学习的sdn多路径路由方法 Download PDF

Info

Publication number
CN116170370B
CN116170370B CN202310138290.5A CN202310138290A CN116170370B CN 116170370 B CN116170370 B CN 116170370B CN 202310138290 A CN202310138290 A CN 202310138290A CN 116170370 B CN116170370 B CN 116170370B
Authority
CN
China
Prior art keywords
link
path
representing
network
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310138290.5A
Other languages
English (en)
Other versions
CN116170370A (zh
Inventor
尚凤军
向敏雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310138290.5A priority Critical patent/CN116170370B/zh
Publication of CN116170370A publication Critical patent/CN116170370A/zh
Application granted granted Critical
Publication of CN116170370B publication Critical patent/CN116170370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于工业互联网领域,具体涉及一种基于注意力机制和深度强化学习的SDN多路径路由方法,包括:利用SDN获取全局网络拓扑信息,并周期性采集网络中的实时链路信息和数据流量信息;计算待转发流从源到目的节点之间的多条备选转发路径;将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径的网络数据流;采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取;根据提取的特征计算网络数据流的转发路径并传输。本发明将传统的多路径路由和SDN和深度强化学习结合在一起,可以满足用户对不同QoS业务流传输要求,并且在充分利用网络资源的同时也降低网络平均端到端传输时延,提升了网络性能和服务质量。

Description

一种基于注意力机制和深度强化学习的SDN多路径路由方法
技术领域
本发明属于工业互联网领域,具体涉及一种基于注意力机制和深度强化学习的SDN多路径路由方法。
背景技术
SDN作为一种新型的网络架构受到各行各界的广泛关注,它解决了传统网络中一些无法避免的问题。SDN转发与控制分离,可以通过0penFlow协议实时获取链路信息,有利于网络的集中控制,使得控制层获得网络全局资源信息,并且根据业务数据流的需求进行统一的管理与分配,同时,集中控制还使得整个网络可以被视为一个整体,方便维护。因此,可以在工业互联网中引入SDN控制器,增加全局掌控力,利用其特性感知网络拓扑以及链路状态变化,收集当前网络实时状态信息,为实现根据不同QoS等级数据流的需求智能规划路由降低网络时延和减少网络拥塞奠定基础。
工业互联网中引入SDN控制器,由SDN控制器集中控制采集全局网络状态信息,将SDN控制器作为智能体,网络即为学习环境,将路由优化看成一个决策问题,引入注意力机制进行网络状态特征提取,再运用深度强化学习进行路由优化,当数据流到达时,可以为不同QoS等级业务流快速计算出满足其QoS要求的传输路径,降低网络传输时延,提升网络性能。
目前主流的SDN路由模块采用的基本都是最短路径算法,这也是SDN控制器默认的路由算法。然而在工业互联网中多个工厂跨域协同制造时,大量数据流会频繁在相同源、目的节点上传输,若此时所有数据包若仅仅依赖于最短路径算法,数据流很容易因为具有相同目的地址而大量涌入这条最短转发路径,会造成该链路负荷过大,造成负载不均衡,最终引起网络拥塞,继而造成数据帧丢失、时延增长和时延抖动等问题,对工业生产线造成严重的破坏,给企业带来难以估计的损失。并且在转发过程中对于所有流量均是统一处理,无视用户是否对某些流有较高实时性要求或者高安全性要求,都让所有流在那一条最短路径上转发,应充分利用次短路径,使得网络资源得到充分利用的同时,达到负载均衡。
此外也有一些支持多路径的路由协议,通过为数据流计算多条候选备用传输路径,均衡网络通信流量,进而降低网络拥塞,提升网络的吞吐量。比如传统的ECMP(EqualCost Multi-Path)算法,它是采用静态哈希的形式来进行传输路径抉择,运用胖树拓扑结构带来的多条等价路径,完成网络数据的迅速转发。但是ECMP算法没有考虑网络链路的状态在实际中是不断变化的,也并未考虑不同业务流对服务质量有不同的需求,而采用随机的哈希形式为数据流选择平分传输路径,并不能很好提升网络的性能,保障不同业务流的服务质量和降低网络端到端时延。
综上所述,现有技术问题是:
在工业互联网中多个工厂跨域协同制造时,大量数据流会频繁在相同源、目的节点上传输,若此时所有数据包若仅仅依赖于最短路径算法,数据流很容易因为具有相同目的地址而大量涌入这条最短转发路径,会造成该链路负荷过大,造成负载不均衡,最终引起网络拥塞,继而造成数据帧丢失、时延增长和时延抖动;
现有采用静态哈希的形式来进行传输路径抉择,运用胖树拓扑结构带来的多条等价路径,没有考虑网络链路的状态在实际中是不断变化的,也并未考虑不同业务流对服务质量有不同的需求,不能很好提升网络的性能和保障不同业务流的服务质量和降低网络端到端时延。
发明内容
为解决上述技术问题,本发明提出一种基于注意力机制和深度强化学习的SDN多路径路由方法,包括以下步骤:
S1:利用SDN控制器集中控制,获取全局网络拓扑信息,并且周期性采集网络中的实时链路信息和数据流量信息;
S2:根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径;
S3:根据不同的QoS业务数据需求将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流;
S4:采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取;
S5:根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略,得到网络数据流的转发路径,并通过网络数据流的转发路径传输数据。
本发明的有益效果:
本发明将传统的多路径路由和SDN以及深度强化学习结合在一起,通过SDN控制器全局监控网络状态,采集链路信息,为数据流首先计算多条传输备选路径集,然后再综合考虑路径链路信息如带宽、时延和数据流大小及QoS需求等使用基于CNN的注意力机制提取特征,在运用深度强化学习算法为不同业务流计算不同QoS传输路由,高实时性等QoS业务流会优先分配最优路径,略低要求业务流会选择次优路径,通过这个方法,可以满足用户对不同QoS业务流传输要求,并且在充分利用网络资源的同时也降低网络平均端到端传输时延,进一步提升了网络性能和服务质量。
附图说明
图1为本发明的一种基于注意力机制和深度强化学习的SDN多路径路由方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于注意力机制和深度强化学习的SDN多路径路由方法,如图1所示,包括:
S1:利用SDN控制器集中控制,获取全局网络拓扑信息,并且周期性采集网络中的实时链路信息和数据流量信息;
S2:根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径;
S3:根据不同的QoS业务数据需求将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流;
S4:采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取;
S5:根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略,得到网络数据流的转发路径,并通过网络数据流的转发路径传输数据。
利用SDN控制器对全局网络链路状态信息进行采集,建立相关网络拓扑,同时收集待转发数据流量信息。
本发明用加权无向图G=(V,E)来表示整个网络拓扑和网络链路信息,V是网络中OF交换机的集合,V={v1,v2,…,vn},E为网络中交换机间链路eij集合。链路状态信息主要为常规QoS度量指标,包含了链路当前的时延,丢包率和利用率等,因此本文将用Bandwidthij,delayij,lossij,Uij分别表示为链路eij的网络总带宽、链路时延、丢包率和链路资源负载比。
本发明用四元组表示待转发数据业务流f=(St,Dt,d,b),其分别表示为流f的源地址、目的地址、最大时延和需求带宽。
以一次周期内检测的链路信息为例,将链路的QoS度量指标表示为:
链路可用带宽容量:Cij=Bandwidthij-Bandwidthij_ed
链路资源负载比:
链路时延:
其中,Bandwidthij_ed表示为在当前时刻链路已使用带宽,dtx为传播时延。
根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径,包括:
采用多次Dijkstra算法根据网络拓扑信息计算待转发流从源St到目的节点Dt的多条路径集合P,P={p1,p2,…,pn},且任意两条路径之间不存在链路复用,即每次选择最优路径后,删除最优路径包含的所有链路再次重新计算选择剩余拓扑中的最优路径,直到从源St到目的节点Dt无连通路径。
通过多路径路由将原本单路径承担的数据流量分拆卸载到多条路径上,利用多条路径上的资源共同承担网络数据,并且不同QoS业务数据会根据自身需求自适应网络状态选择不同传输路径,减轻单条路径的负担和资源浪费,降低整体网络数据传输时延,提高网络链路利用率和性能,使网络能负载均衡。
将从源St到目的节点Dt的一条完整路径pi上端到端的QoS度量指标表示为:
源St到目的节点Dt间路径时延:
源St到目的节点Dt间路径丢包率:
路径可用带宽容量:
路径负载:
其中,D(pi)表示源St到目的节点Dt间的路径时延,pi表示第i条备选路径,<i,j>表示两个相连交换机Si和Sj之间的链路,delayij表示交换机Si到Sj之间的链路时延,Uij表示链路资源负载比,Bandwidthij表示链路提供的总带宽,L(pi)表示源St到目的节点Dt间的路径丢包率,lossik表示交换机Si到Sj之间的链路丢包率,C(pi)表示第i条备选路径的可用带宽容量,Cij表示交换机Si到Sj之间的路径可用带宽容量,表示第i条备选路径的路径负载。
将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流,怎样合理为不同QoS业务数据流计算分配合适路由是本文的主要解决问题,本文将此目标转换为最小化网络的最大链路利用率:
将目标转换为最小化网络的最大链路利用率,表示为:
受制于
BLinkij<Bandwidthij
其中,表示路径负载,/>表示备选路经所提供的带宽之和,F_bandwidth表示当前所有待转发业务流的带宽需求,/>表示分拆业务流路径总时延,F_delay表示业务流能接受最大时延,BLinkij表示链路承载的所有业务流,Bandwidthij表示链路提供的总带宽,P表示备选路径集,pi表示第i条备选路径,<i、j>表示两个相连交换机Si和Sj之间的链路;
以上公式中设置多个条件来约束选择该条路径的业务数据流,保障待拆分转发业务流的带宽和链路可用性,其中第一个约束是所有备选路经所提供的带宽之和应该大于当前所有待转发业务流的带宽需求,第二个约束是加入分拆业务流后的路径,总时延不能超过业务流能接受最大时延,第三个约束中表示为链路承载的所有业务流不能超出链路提供的总带宽。
控制器根据每条路径的实时状态以及待转发业务数据流中业务流对QoS不同的需求数据流拆解,因此为了每条分拆流有对应路径承载,每条分拆流可表示为:
上式用表示分拆流是否选择路径pi转发,当且仅当/> 时,任意分拆业务流都有路径承载转发,即待转发业务流路由计算完毕;Stn,Dtn,dn,bn分别表示为拆分业务流的源地址、目的地址、最大时延和需求带宽。
本发明使用基于CNN的注意力机制来来提取状态特征,特征提取模块用于对构成备选路径的链路状态信息s进行特征提取,在通道域上采用最大池化和平均池化来保留不同程度上的特征,并使用两者平均融合实现对输入状态的细节特征提取;此外,在通道内采用两种不同维度的卷积层实现两种不同维度的注意力机制,以此实现双重注意力;最后,为了保证特征的完整性,采用ResNet残差网络思想,将在通道域和通道内得到的两个特征进行融合。
采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取,包括:
S41:采用32个一维卷积的卷积核对所述链路状态s进行卷积操作提取相应特征F=Conv1×1(s);
S42:根据特征F在32个通道域上采用全局平均池化和全局最大池化分别得到两个新的特征Favg∈R1×m×k和Fmax∈R1×m×k,将两个新的特征进行融合,得到融合特征Fam=[Favg;Fmax];
S43:对融合特征Fam在通道上进行全局平均池化操作,提取得到细节特征Fc∈R1 ×m×k
S44:采用两个具有不同卷积核尺寸的注意力机制卷积层对细节特征Fv在两个不同的维度上实行卷积操作,得到双重注意力特征向量Nw=Conv1×m(Fc)和Mw=Convk×1(Fc);
S45:采用矩阵乘法计算双重注意力机制下的特征向量矩阵NMw=Nw×Mw
S46:将NMw输入残差块用于保证信息的完整性,并执行一维卷积操作,得到结果Fj=Convm×1(NMw+Fc);
其中,F表示对链路状态s进行卷积操提取的特征,s表示输入的路径链路状态,Favg表示全局平均池化后的特征,Fmax表示全局最大池化后的特征,Fam表示Favg与Fmax融合后的融合特征,Fc表示细节特征,Nw,Mw分别表示不同维度上对Fc卷积后的向量,NMw表示实行双重注意力机制后的特征向量矩阵。
为了满足业务需求,需要尽量选择符合业务QoS需求的最优高质量路径转发数据,本发明将高质量链路定义为低时延低丢包率的链路,但此类链路可能不能负载有服务质量需求的大规模流量,为了得到实际最佳链路,将链路剩余带宽同时也作为度量链路是否优质的指标,由高质量链路组成的路径为高质量路径。
根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略,包括:
S51:使用min-max标准对链路丢包率、时延和链路剩余可用带宽归一化处理;
S52:根据归一化后的链路丢包率、时延和链路剩余可用带宽建立链路开销Costij作为度量链路质量的综合指标;
S53:根据开销小的链路将优先被考虑转发数据的特点设计DQN模型的奖励值函数r;
S54:初始化DQN模型的Q网络及其参数:随机初始化当前Q网络的参数θ,初始化目标Q网络的参数θ-=θ,初始化容量为M的经验池;
S55:DQN模型使用神经网络来逼近Q值函数,该网络的输入是状态s,输出是DQN模型将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后,使用ε-贪心策略来输出动作a,得到数据流的转发路径。
本发明将业务所需的多个QoS约束指标统一处理,但是由于时延、丢包率和链路带宽在实际中数量级差异较大,不便于统一处理,本文将使用min-max标准对时延和丢包率这类负指标做归一化处理:
丢包率:
时延:
链路可用带宽:
其中,lij,dij,bij分别表示链路丢包率、时延和链路剩余可用带宽的归一化处理后的数据,lossmax表示链路丢包率最大值,lossmin表示链路丢包率最小值,lossij表示交换机Si到Sj之间的链路丢包率,delaymax表示链路时延最大值,delaymin表示链路时延最小值,delayij表示交换机Si到Sj之间的链路时延,Bandwidthij表示链路提供的总带宽,Cij表示交换机Si到Sj之间的路径可用带宽容量。
将链路上多个QoS约束条件综合度量,用度量值表示选路时的链路开销,其中链路开销越小,则该链路可用性越强,所述链路开销Costij,包括:
Costij=αlij+βdij+γbij
其中,α,β,γ分别表示链路丢包率lij、时延dij和链路剩余可用带宽bij的加权指数,令α+β+γ=1,不同QoS需求的业务对每个约束的加权指数也不一样,如视频业务对时延要求较高,大象流业务需要链路可用带宽较大等等,因此每个约束条件的加权指数根据实际业务做不同调整。
路径集合中组成备选路径的所有链路开销之和最小则表示此为当前最优路径,模型应该给此最优路径选择最大的回报,使智能体做出相应动作a选择此条路径,因此所述DQN模型的奖励值函数r,包括:
其中,Costij表示链路开销,pi表示第i条备选路径,<i、j>表示两个相连交换机Si和Sj之间的链路。
DQN使用神经网络来逼近Q值函数,该网络的输入是状态s,输出是将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后,DQN使用ε-贪心策略来输出动作a,当智能体会进行动作选择时以ε的概率进行探索,即从所有的可选动作A中随机抽取一个动作a;以1-ε的概率进行利用,从已知的信息中选择使得Q值函数最大的动作,即a=argmaxQ(s,a);在当前系统状态s执行动作a,得到奖励r,更新当前系统环境状态为s′,将生成的经验元组(s,a,r,s′)存储到经验池。
在本实施例中,还提供DQN模型训练过程:
(1)随机从经验回放池中抽取小批量经验样本(sj,aj,rj,sj′),第j个样本由样本的当前状态sj、动作aj、在状态-动作对(sj,aj)下获取的奖励值rj以及执行状态-动作对(sj,aj)后的状态sj′表示,获取样本中的状态,即sj和sj′,使用第4部分中的基于CNN注意力机制特征提取方法计算sj和sj′对应的特征Fj和Fj′;
(2)更新计算目标Q值,其更新更新公式为:
yj=rj+γQ(Fj′,argmaxQ(Fj,aj;θ);θ-)
其中,yj为对应状态-动作对(sj,aj)的目标Q值,rj表示第j个结点在对应状态和动作下的奖励值,γ表示折扣率,θ-为未更新的神经网络参数。
(3)计算当前网络损失函数L(θ),并更新网络参数θ;
使用均方误差(mean-square error,MSE)来作为损失函数,损失函数表示样本的预测值与实际值的接近程度,损失函数值越低,表示两者越接近,其公式如下所示:
L(θ)=E[yj-Q(Fj,aj;θ))2]
采用梯度下降法来进行优化:
其中,表示采用梯度下降法来进行优化当前网络损失函数L(θ)。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,包括:
S1:利用SDN控制器集中控制,获取全局网络拓扑信息,并且周期性采集网络中的实时链路信息和数据流量信息;
S2:根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径;
S3:根据不同的QoS业务数据需求将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流;
将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流,包括:将目标转换为最小化网络的最大链路利用率,表示为:
受制于
BLinkij<Bandwidthij
其中,表示路径负载,/>表示备选路经所提供的带宽之和,F_bandwidth表示当前所有待转发业务流的带宽需求,/>表示分拆业务流路径总时延,F_delay表示业务流能接受最大时延,BLinkij表示链路承载的所有业务流,Bandwidthij表示链路提供的总带宽,P表示备选路径集,pi表示第i条备选路径,<i、j>表示两个相连交换机Si和Sj之间的链路;
S4:采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取;
S41:采用32个一维卷积的卷积核对所述链路状态s进行卷积操作提取相应特征F=Conv1×1(s);
S42:根据特征F在32个通道域上采用全局平均池化和全局最大池化分别得到两个新的特征Favg∈R1×m×k和Fmax∈R1×m×K,将两个新的特征进行融合,得到融合特征Fam=[Favg;Fmax];
S43:对融合特征Fam在通道上进行全局平均池化操作,提取得到细节特征Fc∈R1×m×K
S44:采用两个具有不同卷积核尺寸的注意力机制卷积层对细节特征Fc在两个不同的维度上实行卷积操作,得到双重注意力特征向量Nw=Conv1×m(Fc)和Mw=Convk×1(Fc);
S45:采用矩阵乘法计算双重注意力机制下的特征向量矩阵NMw=Nw×Mw
S46:将NMw输入残差块用于保证信息的完整性,并执行一维卷积操作,得到结果Fj=Convm×1(NMw+Fc);
S5:根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略,得到网络数据流的转发路径,并通过网络数据流的转发路径传输数据;
S51:使用min-max标准对链路丢包率、时延和链路剩余可用带宽归一化处理;
S52:根据归一化后的链路丢包率、时延和链路剩余可用带宽建立链路开销Costij作为度量链路质量的综合指标;
S53:根据开销小的链路将优先被考虑转发数据的特点设计DQN模型的奖励值函数r;
S54:初始化DQN模型的Q网络及其参数:随机初始化当前Q网络的参数θ,初始化目标Q网络的参数θ-=θ;
S55:DQN模型使用神经网络来逼近Q值函数,该网络的输入是状态s,输出是Q(s,a),DQN模型将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后,使用ε-贪心策略来输出动作a,得到数据流的转发路径,其中,A表示智能体的所有可选动作。
2.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径,包括:
采用多次Dijkstra算法根据网络拓扑信息计算待转发流从源St到目的节点Dt的多条路径集合P,P={p1,p2,...,pn},且任意两条路径之间不存在链路复用,每次选择最优路径后,删除最优路径包含的所有链路再次重新计算选择剩余拓扑中的最优路径,直到从源St到目的节点Dt无连通路径。
3.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,所述QoS业务数据需求,包括:
源St到目的节点Dt间路径时延:
源St到目的节点Dt间路径丢包率:
路径可用带宽容量:
路径负载:
其中,D(pi)表示源St到目的节点Dt间的路径时延,pi表示第i条备选路径,<i,j>表示两个相连交换机Si和Sj之间的链路,delayij表示交换机Si到Sj之间的链路时延,Uij表示链路资源负载比,/> dtx表示传播时延,Bandwidthij_ed表示在当前时刻链路已使用带宽,Bandwidthij表示链路提供的总带宽,L(pi)表示源St到目的节点Dt间的路径丢包率,lossij表示交换机Si到Sj之间的链路丢包率,C(pi)表示第i条备选路径的可用带宽容量,Cij表示交换机Si到Sj之间的路径可用带宽容量,Cij=Bandwidthij-Bandwidthij_ed,/>表示第i条备选路径的路径负载。
4.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,使用min-max标准对链路丢包率、时延和链路剩余可用带宽归一化处理,包括:
丢包率:
时延:
链路可用带宽:
其中,lij,dij,bij分别表示链路丢包率、时延和链路剩余可用带宽的归一化处理后的数据,lossmax表示链路丢包率最大值,lossmin表示链路丢包率最小值,lossij表示交换机Si到Sj之间的链路丢包率,delaymax表示链路时延最大值,delaymin表示链路时延最小值,delayij表示交换机Si到Sj之间的链路时延,Bandwidthij表示链路提供的总带宽,Cij表示交换机Si到Sj之间的路径可用带宽容量。
5.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,所述链路开销Costij,包括:
Costij=αlij+βdij+γbij
其中,α,β,γ分别表示链路丢包率lij、时延dij和链路剩余可用带宽bij的加权指数,α+β+γ=1。
6.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法,其特征在于,所述DQN模型的奖励值函数r,包括:
其中,Costij表示链路开销,pi表示第i条备选路径,<i、j>表示两个相连交换机Si和Sj之间的链路。
CN202310138290.5A 2023-02-20 2023-02-20 一种基于注意力机制和深度强化学习的sdn多路径路由方法 Active CN116170370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138290.5A CN116170370B (zh) 2023-02-20 2023-02-20 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138290.5A CN116170370B (zh) 2023-02-20 2023-02-20 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Publications (2)

Publication Number Publication Date
CN116170370A CN116170370A (zh) 2023-05-26
CN116170370B true CN116170370B (zh) 2024-03-12

Family

ID=86419629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138290.5A Active CN116170370B (zh) 2023-02-20 2023-02-20 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Country Status (1)

Country Link
CN (1) CN116170370B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395188B (zh) * 2023-12-07 2024-03-12 南京信息工程大学 一种基于深度强化学习的天地一体化负载均衡路由方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535770A (zh) * 2019-08-30 2019-12-03 西安邮电大学 一种SDN环境下基于QoS感知的视频流智能路由方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111147387A (zh) * 2019-12-19 2020-05-12 北京邮电大学 一种混合sdn网络的流量控制方法及装置
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
WO2022008082A1 (en) * 2020-07-10 2022-01-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for network control
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统
CN114567582A (zh) * 2022-02-24 2022-05-31 南京航空航天大学 一种基于路径跟踪反馈的sdn网络可信路由调度方法
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535770A (zh) * 2019-08-30 2019-12-03 西安邮电大学 一种SDN环境下基于QoS感知的视频流智能路由方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111147387A (zh) * 2019-12-19 2020-05-12 北京邮电大学 一种混合sdn网络的流量控制方法及装置
WO2022008082A1 (en) * 2020-07-10 2022-01-13 Telefonaktiebolaget Lm Ericsson (Publ) Methods and apparatus for network control
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN114423061A (zh) * 2022-01-20 2022-04-29 重庆邮电大学 一种基于注意力机制和深度强化学习的无线路由优化方法
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统
CN114567582A (zh) * 2022-02-24 2022-05-31 南京航空航天大学 一种基于路径跟踪反馈的sdn网络可信路由调度方法
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
reliability optimization for channel resource allocation in multihop wireless network:a multigranularity deep reinforcement learning approach;Ying Wang;IEEE;20221015;全文 *
SDN网络智能流量调度平台设计与实现;崔金鹏;中国优秀硕士学位论文全文数据库信息科技辑;20221115;全文 *
基于SDN的胖树数据中心网络多路径负载均衡算法研究;付应辉;刘必果;束永安;;计算机应用与软件;20170915(09);全文 *

Also Published As

Publication number Publication date
CN116170370A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN108900419B (zh) Sdn架构下基于深度强化学习的路由决策方法及装置
CN108092791B (zh) 网络控制方法、装置及系统
CN107579922B (zh) 网络负载均衡装置和方法
CN108540384B (zh) 软件定义网络中基于拥塞感知的智能重路由方法和装置
CN108259367B (zh) 一种基于软件定义网络的服务感知的流策略定制方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN112822109B (zh) 一种基于强化学习的SDN核心网QoS路由优化方法
CN112260950B (zh) 一种基于业务优先级区分的云存储网络组播流调度方法
Zhang et al. Toward concurrent video multicast orchestration for caching-assisted mobile networks
JPH1117704A (ja) 通信網内の承認制御の実時間制御アーキテクチャ
CN116170370B (zh) 一种基于注意力机制和深度强化学习的sdn多路径路由方法
CN106936705B (zh) 一种软件定义网络路由选择方法
CN101127689B (zh) 实现最小化优先级抢占代价的方法
Liu Intelligent routing based on deep reinforcement learning in software-defined data-center networks
CN113794638B (zh) 基于差分进化算法的sdn数据中心网络大象流调度方法
Gong et al. A fuzzy delay-bandwidth guaranteed routing algorithm for video conferencing services over SDN networks
CN116390164A (zh) 一种低轨卫星网络可信负载均衡路由方法、系统、设备及介质
CN108989148B (zh) 一种传输时延最小化的中继多路径流量分配方法
CN114567588B (zh) 基于时延预测及双蚁群的软件定义网络Qos路由方法
CN113518039B (zh) Sdn架构下基于深度强化学习的资源优化方法及系统
Mai et al. Packet routing with graph attention multi-agent reinforcement learning
Yao et al. A machine learning approach of load balance routing to support next-generation wireless networks
Zhang et al. DSOQR: Deep reinforcement learning for online QoS routing in SDN-based networks
Magadum et al. Deepqosr: A deep reinforcement learning based qos-aware routing for software defined data center networks
Swain et al. CoDRL: Intelligent packet routing in SDN using convolutional deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant