CN113098771B - 基于Q学习的分布式自适应QoS路由方法 - Google Patents

基于Q学习的分布式自适应QoS路由方法 Download PDF

Info

Publication number
CN113098771B
CN113098771B CN202110331147.9A CN202110331147A CN113098771B CN 113098771 B CN113098771 B CN 113098771B CN 202110331147 A CN202110331147 A CN 202110331147A CN 113098771 B CN113098771 B CN 113098771B
Authority
CN
China
Prior art keywords
node
policy table
network node
reward
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110331147.9A
Other languages
English (en)
Other versions
CN113098771A (zh
Inventor
刘柯池
王振永
李德志
朱洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110331147.9A priority Critical patent/CN113098771B/zh
Publication of CN113098771A publication Critical patent/CN113098771A/zh
Application granted granted Critical
Publication of CN113098771B publication Critical patent/CN113098771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/38Flow based routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/70Routing based on monitoring results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

基于Q学习的分布式自适应QoS路由方法,本发明涉及分布式自适应QoS路由方法。本发明的目的是为了解决现有路由方法需要频繁获取实时全局网络拓扑信息,因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题。过程为:一、初始化各网络节点策略表;二、某个网络节点x接收到需要转发的数据包时,执行三和四;三、获取目的节点;四、获取轮询阶段的奖赏信号;五、网络节点x根据三和四更新自身策略表;六、网络节点x根据五选择路由器下一跳节点n;七、网络节点x向节点n转发数据包;执行八;八、网络节点x与节点n通信,获取转发阶段的奖赏信号;九、网络节点x根据八和三更新自身策略表。本发明用于分布式路由领域。

Description

基于Q学习的分布式自适应QoS路由方法
技术领域
本发明涉及分布式路由领域,尤其涉及分布式自适应QoS路由方法。
背景技术
随着互联网的普及,特别是云计算、大数据等相关技术的出现,互联网进入了快速发展期。互联网的快速发展使得网络传输业务数据量迅速增长,特别是近年短视频、直播平台的兴起,网络业务的交互更加实时,终端用户对于网络业务的服务质量即QoS提出了更高的需求。QoS需求多种多样,如时延、带宽、丢包率、负载等等。路由选择是QoS中重要的一环,即通过合适的路由算法为网络中不同的业务寻找一条满足QoS需求的路径。
集中式路由要求网络中心定期收集整个网络的有关信息,在网络中心进行集中处理,计算出路由后下发给各个网络设备,这对于网络中心能否即时准确地获得网络中的各种信息有很高的要求,并且在网络设备无法有效与网络中心通信时难以使用;分布式路由拥有部署灵活、不依赖于中央控制的特点,采用对流量、网络状况进行预估的预分配路由方法难以应对网络流量、拓扑发生变化的情形,而传统的适应性路由方法则需要网络节点频繁地和其他各个节点通信以更新路由表,占用大量网络资源的同时难以满足组合式QoS需求。
发明内容
本发明的目的是为了解决现有路由方法中采用集中式路由或分布式路由时,都需要频繁获取实时全局网络拓扑信息,因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题,而提出基于Q学习的分布式自适应QoS路由方法。
基于Q学习的分布式自适应QoS路由方法具体过程为:
步骤一、初始化各网络节点策略表;
步骤二、某个网络节点x接收到需要转发的数据包时,执行步骤三和步骤四;
步骤三、网络节点x根据包头信息解析数据包,获取目的节点d;
步骤四、网络节点x向所有邻居节点轮询,获取轮询阶段的奖赏信号;
步骤五、网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;
步骤六、网络节点x根据步骤五更新后的策略表选择路由器下一跳节点n,执行步骤七;
步骤七、网络节点x向节点n转发数据包;执行步骤八;
步骤八、网络节点x与节点n通信,获取转发阶段的奖赏信号;
步骤九、网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表。
本发明的有益效果为:
1、本发明是一种分布式的路由方法,即该路由方法部署于各个网络节点中,根据网络情况自适应调整策略选择下一跳路由节点,无需网络中心总体控制和下发路由表,无需获取全局网络拓扑信息,具有较好的自适应性和实时性。
2、本发明所述方法可根据不同的QoS需求灵活配置以满足需求,与常见的强化学习路由方法不同,本方法通过轮询和转发两次学习阶段加快策略表收敛。
3、本发明只需各节点与邻居节点通信即可完成路由,避免了较大的网络开销,能在占用较小网络开销下完成满足组合式QoS需求。
解决了现有路由方法中采用集中式路由或分布式路由时,都需要频繁获取实时全局网络拓扑信息,因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题。
附图说明
图1为本发明流程图;
图2为本发明仿真网络拓扑图;
图3a为lambda=1时本发明算法的平均时延图;
图3b为lambda=1时Dijkstra算法的平均时延图;
图4a为lambda=2时本发明算法的平均时延图;
图4b为lambda=2时Dijkstra算法的平均时延图;
图5a为lambda=3时本发明算法的平均时延图;
图5b为lambda=3时Dijkstra算法的平均时延图;
图6为本发明高负载下本发明方法负载情况图;
图7为本发明高负载下Dijkstra算法负载情况图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式基于Q学习的分布式自适应QoS路由方法具体过程为:
步骤一、初始化各网络节点策略表;
步骤二、某个网络节点x接收到需要转发的数据包时,执行步骤三和步骤四;
步骤三、网络节点x根据包头信息解析数据包,获取目的节点d;
步骤四、网络节点x向所有邻居节点轮询,获取轮询阶段的奖赏信号;
步骤五、网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;
步骤六、网络节点x根据步骤五更新后的策略表选择路由器下一跳节点n(网络节点x可到达的所有下一跳转发节点中最优的一个),执行步骤七;
步骤七、网络节点x向节点n转发数据包;执行步骤八;
步骤八、网络节点x与节点n通信,获取转发阶段的奖赏信号;
步骤九、网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表。
本实施方式所述方法可以在仅与邻居节点通信的情况下完成分布式QoS路由,且随着网络状态的变化网络节点可自适应地调整路由策略。
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤一中初始化各网络节点策略表;具体过程为:
策略表为一个目的节点与转发节点的二维表格Qv(s,a);在每一个节点上,均保存着只由自己维护的策略表;v代表该策略表中的节点,s代表目的节点,a代表节点v可到达的下一跳转发节点;若某一个节点有y个可到达的目的节点,z个邻居节点,则策略表大小为y×z,即有y×z项;在初始化阶段,所有节点的策略表中的值均初始化为0。
Q(s,a)是指的一个二维表格,后面更新的是其中具体的一项。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述步骤四中网络节点x向所有邻居节点轮询,获取轮询阶段的奖赏信号;具体过程为:
当前网络节点x向某一邻居节点j发出轮询信号,邻居节点j收到该信号后,向当前网络节点x返回一个奖赏信号rxj,重复该过程直到所有邻居节点轮询完毕。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述奖赏信号rxj具体求解过程为:
针对时延、带宽、丢包率的组合QoS需求,本发明所设计的奖赏信号写为:
Figure BDA0002994500730000043
其中Dxj、Bxj、Lxj分别为时延、带宽、丢包率的归一化奖赏函数,β、θ、
Figure BDA0002994500730000044
为不同QoS需求所占的权重,可根据不同的QoS需求进行调整。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述时延的归一化奖赏函数Dxj的具体表达式为:
Figure BDA0002994500730000041
其中dxj为节点间的时延,dxi为节点间的时延,N(x)为节点x的邻居节点集合,|N(x)|为节点x的邻居节点数量。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述带宽的归一化奖赏函数Bxj的具体表达式为:
Figure BDA0002994500730000042
其中,bxj为节点间的带宽,bxi为节点间的带宽。
其它步骤及参数与具体实施方式一至五之一相同。
具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述丢包率的归一化奖赏函数Lxj的具体表达式为:
Lxj=-1+2%lxj (4)
其中lxj为节点间的丢包率。
其它步骤及参数与具体实施方式一至六之一相同。
具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述步骤五中网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;具体过程为:
对每一个邻居节点j,策略表更新的过程为:
Figure BDA0002994500730000051
其中N(j)指的是邻居节点j的邻居节点集合,ηe是轮询阶段的学习率;γ为奖赏衰减参数;Qj(d,j′)表示节点j的策略表中,目的节点为d,节点j选择的下一跳节点为j′的项;
Figure BDA0002994500730000052
表示Qj(d,j′)的最小值(节点j确定,目的节点d确定,节点j选择的下一跳节点j′决定了Qj(d,j′)的取值大小);Qx(d,j)为节点x的策略表中,目的节点为d,节点x选择的下一跳节点j的项;重复此过程直到所有邻居节点对应的x策略表中的项更新完毕。
此时对策略表中的Qx(d,j)进行了更新,但并未实际转发数据包;在与某一个节点通信后,只更新了表中的其中一项。
其它步骤及参数与具体实施方式一至七之一相同。
具体实施方式九:本实施方式与具体实施方式一至八之一不同的是,所述步骤六中网络节点x根据更新后的策略表选择路由器下一跳节点n(网络节点x可到达的所有下一跳转发节点中的一个);具体过程为:
网络节点x根据更新后的策略表选择下一跳节点n,使得Qx(d,n)在更新后的策略表中取值最小时对应的下一跳节点n作为转发的节点(从可选择的下一跳节点n中确定一个下一跳节点n);
Qx(d,n)为节点x的策略表中,目标节点为d,节点x选择的下一跳节点为n的项。
其它步骤及参数与具体实施方式一至八之一相同。
具体实施方式十:本实施方式与具体实施方式一至九之一不同的是,所述步骤八中网络节点x与节点n通信,获取转发阶段的奖赏信号;具体过程为:
当前网络节点x向步骤六确定的转发的节点n发出询问信号,下一跳节点n收到该信号后,向网络节点x返回一个奖赏信号,转发阶段的奖赏信号写为:
rxn=qx+dxn (6)
其中qx为数据包在节点x中的排队时间,dxn为节点x与n的传输时延,rxn为转发阶段奖赏信号。
其它步骤及参数与具体实施方式一至九之一相同。
具体实施方式十一:本实施方式与具体实施方式一至十之一不同的是,所述步骤九中网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;具体过程为:
对策略表进行更新的过程可写为:
Figure BDA0002994500730000061
其中ηt为转发学习阶段的学习率;N(n)为节点n的邻居节点集合;γ为奖赏衰减参数;Qn(d,n′)为节点n的策略表中,目的节点为d,节点n选择的下一跳节点为n′的项;
Figure BDA0002994500730000062
表示Qn(d,n′)的最小值(节点n确定,目的节点d确定,节点n选择的下一跳节点n′决定了Qn(d,n′)的取值大小),Qx(d,n)为节点x的策略表中,目标节点为d,节点x选择的下一跳节点为n的项。
其它步骤及参数与具体实施方式一至十之一相同。
具体实施方式十二:本实施方式与具体实施方式一至十一之一不同的是,所述轮询阶段的学习率ηe通常取0.5;转发学习阶段的学习率ηt一般设置为0.5;奖赏衰减参数γ通常取0.95。
其它步骤及参数与具体实施方式一至十一之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本发明为基于Q学习的分布式自适应QoS路由方法。
仿真由python编写的模拟路由环境下进行。网络拓扑如图2:
从图2的拓扑视图可以看出,节点20至节点21这一条链路是一条瓶颈链路,在高网络负载下,该链路有很大的可能性引起拥塞。
在模拟系统下,每一仿真时刻会产生数个数据包,它的数量遵循泊松分布。在泊松分布参数lambda小于2时,认为网络是低负载情况;为2至2.5时,认为网络此时是中等负载;为3至3.5时,认为网络是高负载情况。节点的转发能力是有限的,规定在每一个仿真时刻,节点可以完成一个数据包的处理并转发。每个节点拥有一个先入先出(FIFO)队列。每个数据包包含的信息有它的产生时间、入队时间、当前节点、目标节点等信息。在一个数据包到达目标节点后,将该数据包从网络中移除,表示该数据包已经转发成功。在统计阶段,每一千个数据包转发成功,统计一次平均时延。
用于对比的算法是常见的路由算法Dijkstra,它在转发时,只关注最短时延。
仿真结果如图3a、图3b、图4a、图4b、图5a、图5b,图3a、图3b、图4a、图4b、图5a、图5b中Q-routing即为本发明所用方法。
从图3a、图3b、图4a、图4b、图5a、图5b结果可以看出,泊松分布参数lambda为1时,在低负载的网络下,本发明所用方法Q-routing收敛后能够达到和Dijkstra算法相当的性能。此时网络负载没有压力,两种算法都不存在网络拥塞的问题。在中等负载下,没有出现网络拥塞的情况,本发明所用方法Q-routing的平均时延和Dijkstra相当,收敛后出现抖动更小。而在高网络负载下,Dijkstra的平均时延随着时间不断地升高,已经无法正常进行转发。由于网络负载过高,Dijkstra的转发策略没有因此发生改变,导致拓扑中的瓶颈链路出现了大规模的拥塞,并且随着时间的推移拥塞会越来越严重。在现实情况下,无法进入队列的数据包可能会被丢弃,从而导致丢包率大大上升。本发明所用方法Q-routing在网络出现拥塞时调整了自身策略,选择了瓶颈链路之外的链路进行转发,避免了大规模的拥塞情况。
可以通过观察网络中各节点的负载情况来说明以上结论,在仿真时刻为10000时,各节点的负载情况如图6、图7:
对比图6、图7可以发现,本发明所用方法在节点出现拥塞的时候学习新的策略,选择了瓶颈链路之外的链路进行转发,因此整个网络的拥塞情况随着训练程度逐渐下降并最终稳定在较低的水平。而Dijkstra有较大概率选择瓶颈链路进行转发,随着时间的推移会有大量数据包在瓶颈链路造成拥塞,并且其他节点只能等待瓶颈节点处理队列中的数据包,整个网络的平均时延会迅速上升。
该仿真结果用于说明本发明所用方法可以在只与邻居节点通信的情况下,完成自适应调整的分布式QoS路由。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (4)

1.基于Q学习的分布式自适应QoS路由方法,其特征在于:所述方法具体过程为:
步骤一、初始化各网络节点策略表;
步骤二、某个网络节点x接收到需要转发的数据包时,执行步骤三和步骤四;
步骤三、网络节点x根据包头信息解析数据包,获取目的节点d;
步骤四、网络节点x向所有邻居节点轮询,获取轮询阶段的奖赏信号;
步骤五、网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;
步骤六、网络节点x根据步骤五更新后的策略表选择路由器下一跳节点n,执行步骤七;
步骤七、网络节点x向节点n转发数据包;执行步骤八;
步骤八、网络节点x与节点n通信,获取转发阶段的奖赏信号;
步骤九、网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;
所述步骤四中网络节点x向所有邻居节点轮询,获取轮询阶段的奖赏信号;具体过程为:
当前网络节点x向某一邻居节点j发出轮询信号,邻居节点j收到该信号后,向当前网络节点x返回一个奖赏信号rxj,重复该过程直到所有邻居节点轮询完毕;
所述奖赏信号rxj具体求解过程为:
奖赏信号写为:
Figure FDA0003550121900000011
其中Dxj、Bxj、Lxj分别为时延、带宽、丢包率的归一化奖赏函数,β、θ、
Figure FDA0003550121900000012
为不同QoS需求所占的权重;
所述时延的归一化奖赏函数Dxj的具体表达式为:
Figure FDA0003550121900000013
其中dxj为节点间的时延,dxi为节点间的时延,N(x)为节点x的邻居节点集合,|N(x)|为节点x的邻居节点数量;
所述带宽的归一化奖赏函数Bxj的具体表达式为:
Figure FDA0003550121900000021
其中,bxj为节点间的带宽,bxi为节点间的带宽;
所述丢包率的归一化奖赏函数Lxj的具体表达式为:
Lxj=-1+2%lxj (4)
其中lxj为节点间的丢包率;
所述步骤五中网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;具体过程为:
对每一个邻居节点j,策略表更新的过程为:
Figure FDA0003550121900000022
其中N(j)指的是邻居节点j的邻居节点集合,ηe是轮询阶段的学习率;γ为奖赏衰减参数;Qj(d,j′)表示节点j的策略表中,目的节点为d,节点j选择的下一跳节点为j′的项;
Figure FDA0003550121900000023
表示Qj(d,j′)的最小值;Qx(d,j)为节点x的策略表中,目的节点为d,节点x选择的下一跳节点j的项;重复此过程直到所有邻居节点对应的x策略表中的项更新完毕;
所述步骤八中网络节点x与节点n通信,获取转发阶段的奖赏信号;具体过程为:
当前网络节点x向步骤六确定的转发的节点n发出询问信号,下一跳节点n收到该信号后,向网络节点x返回一个奖赏信号,转发阶段的奖赏信号写为:
rxn=qx+dxn (6)
其中qx为数据包在节点x中的排队时间,dxn为节点x与n的传输时延,rxn为转发阶段奖赏信号;
所述步骤九中网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表;具体过程为:
对策略表进行更新的过程可写为:
Figure FDA0003550121900000031
其中ηt为转发学习阶段的学习率;N(n)为节点n的邻居节点集合;γ为奖赏衰减参数;Qn(d,n′)为节点n的策略表中,目的节点为d,节点n选择的下一跳节点为n′的项;
Figure FDA0003550121900000032
表示Qn(d,n′)的最小值,Qx(d,n)为节点x的策略表中,目标节点为d,节点x选择的下一跳节点为n的项。
2.根据权利要求1所述基于Q学习的分布式自适应QoS路由方法,其特征在于:所述步骤一中初始化各网络节点策略表;具体过程为:
策略表为一个目的节点与转发节点的二维表格Qv(s,a);v代表该策略表中的节点,s代表目的节点,a代表节点v可到达的下一跳转发节点;若某一个节点有y个可到达的目的节点,z个邻居节点,则策略表大小为y×z,即有y×z项;在初始化阶段,所有节点的策略表中的值均初始化为0。
3.根据权利要求2所述基于Q学习的分布式自适应QoS路由方法,其特征在于:所述步骤六中网络节点x根据更新后的策略表选择路由器下一跳节点n;具体过程为:
网络节点x根据更新后的策略表选择下一跳节点n,使得Qx(d,n)在更新后的策略表中取值最小时对应的下一跳节点n作为转发的节点;
Qx(d,n)为节点x的策略表中,目标节点为d,节点x选择的下一跳节点为n的项。
4.根据权利要求3所述基于Q学习的分布式自适应QoS路由方法,其特征在于:所述轮询阶段的学习率ηe取0.5;转发学习阶段的学习率ηt为0.5;奖赏衰减参数γ取0.95。
CN202110331147.9A 2021-03-26 2021-03-26 基于Q学习的分布式自适应QoS路由方法 Active CN113098771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110331147.9A CN113098771B (zh) 2021-03-26 2021-03-26 基于Q学习的分布式自适应QoS路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110331147.9A CN113098771B (zh) 2021-03-26 2021-03-26 基于Q学习的分布式自适应QoS路由方法

Publications (2)

Publication Number Publication Date
CN113098771A CN113098771A (zh) 2021-07-09
CN113098771B true CN113098771B (zh) 2022-06-14

Family

ID=76670713

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110331147.9A Active CN113098771B (zh) 2021-03-26 2021-03-26 基于Q学习的分布式自适应QoS路由方法

Country Status (1)

Country Link
CN (1) CN113098771B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115150325B (zh) * 2022-06-29 2024-04-09 东北大学 一种应用于b5g车载网的可靠路由方法
CN116366529A (zh) * 2023-04-20 2023-06-30 哈尔滨工业大学 一种sdn背景下基于深度强化学习的自适应路由方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109922004A (zh) * 2019-04-24 2019-06-21 清华大学 基于部分部署分段路由的IPv6网络的流量工程方法及装置
CN111479306A (zh) * 2020-04-02 2020-07-31 中国科学院上海微系统与信息技术研究所 一种基于Q-learning的飞行自组网QoS路由方法
WO2020223640A1 (en) * 2019-05-02 2020-11-05 Intel Corporation Quality of service (qos) in information centric networking (icn)
CN111901833A (zh) * 2020-07-13 2020-11-06 哈尔滨工业大学(深圳) 一种面向不可靠信道传输的联合服务调度以及内容缓存方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7577108B2 (en) * 2003-06-03 2009-08-18 Palo Alto Research Center Incorporated Learning-based strategies for message-initiated constraint-based routing
CN103220751B (zh) * 2013-05-08 2016-03-30 哈尔滨工业大学 基于q学习资源分配策略的异构网络准入控制方法
CN108040353A (zh) * 2017-12-18 2018-05-15 北京工业大学 一种q学习的无人机集群智能地理路由方法
US20190280991A1 (en) * 2019-05-16 2019-09-12 Intel Corporation Quality of service traffic management in high-speed packet processing systems
CN110986979B (zh) * 2019-11-27 2021-09-10 浙江工商大学 一种基于强化学习的sdn多路径路由规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109922004A (zh) * 2019-04-24 2019-06-21 清华大学 基于部分部署分段路由的IPv6网络的流量工程方法及装置
WO2020223640A1 (en) * 2019-05-02 2020-11-05 Intel Corporation Quality of service (qos) in information centric networking (icn)
CN111479306A (zh) * 2020-04-02 2020-07-31 中国科学院上海微系统与信息技术研究所 一种基于Q-learning的飞行自组网QoS路由方法
CN111901833A (zh) * 2020-07-13 2020-11-06 哈尔滨工业大学(深圳) 一种面向不可靠信道传输的联合服务调度以及内容缓存方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Deep Q-Learning for Routing Schemes in SDN-Based Data Center Networks";Qiongxiao Fu,等;《IEEE Access》;20200601;第103491-103499页 *
"SDNMesh: An SDN Based Routing Architecture for Wireless Mesh Networks";Syed Sherjeel A. Gilani,等;《IEEE Access 》;20200727;第136769–136781页 *
"基于Q-learning的分布式自适应拓扑稳定性算法";黄庆东,等;《电子科技大学学报》;20200331;第262-268页 *
"基于Q学习的能量自适应路由算法";黄庆东,等;《西安邮电大学学报》;20200731;第48-52+59页 *

Also Published As

Publication number Publication date
CN113098771A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
CN110986979B (zh) 一种基于强化学习的sdn多路径路由规划方法
CN110505099B (zh) 一种基于迁移a-c学习的服务功能链部署方法
CN113098771B (zh) 基于Q学习的分布式自适应QoS路由方法
CN112822109B (zh) 一种基于强化学习的SDN核心网QoS路由优化方法
CN111065105B (zh) 一种面向无人机网络切片的分布式智能路由方法
CN107294852B (zh) 一种使用拓扑分散短路径集的网络路由方法
WO2000024164A1 (en) Method and apparatus for network control
CN111416771A (zh) 基于多智能体强化学习路由策略控制路由动作的方法
CN110149226B (zh) 一种软件定义网络中多控制器部署问题的改进粒子群算法
CN114143264A (zh) 一种SRv6网络下基于强化学习的流量调度方法
CN113518035B (zh) 路由确定方法及装置
Oida et al. An agent-based routing system for QoS guarantees
CN114827021A (zh) 一种基于sdn和机器学习的多媒体业务流量加速系统
Rai et al. A distributed algorithm for throughput optimal routing in overlay networks
CN109922161B (zh) 动态云内容分发网络的内容分发方法、系统、设备及介质
Xiong et al. Congestion performance improvement in wireless sensor networks
CN114745322B (zh) Sdn环境下基于遗传算法的视频流路由方法
CN116389347A (zh) 一种基于强化学习的动态sdn路由优化算法
Baklizi Stabilizing average queue length in active queue management method
CN115695291A (zh) 一种路由控制方法、系统、电子设备及可读存储介质
CN110768906B (zh) 一种面向sdn网络基于q学习的节能路由方法
JP5361001B2 (ja) 経路制御装置、経路制御方法、およびプログラム
Lü et al. Adaptive swarm-based routing in communication networks
Kojic et al. Neural network based dynamic multicast routing
CN113556287B (zh) 一种基于多智能体强化学习的软件定义网络路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant