CN113098771B

CN113098771B - 基于Q学习的分布式自适应QoS路由方法

Info

Publication number: CN113098771B
Application number: CN202110331147.9A
Authority: CN
Inventors: 刘柯池; 王振永; 李德志; 朱洪涛
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-06-14
Anticipated expiration: 2041-03-26
Also published as: CN113098771A

Abstract

基于Q学习的分布式自适应QoS路由方法，本发明涉及分布式自适应QoS路由方法。本发明的目的是为了解决现有路由方法需要频繁获取实时全局网络拓扑信息，因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题。过程为：一、初始化各网络节点策略表；二、某个网络节点x接收到需要转发的数据包时，执行三和四；三、获取目的节点；四、获取轮询阶段的奖赏信号；五、网络节点x根据三和四更新自身策略表；六、网络节点x根据五选择路由器下一跳节点n；七、网络节点x向节点n转发数据包；执行八；八、网络节点x与节点n通信，获取转发阶段的奖赏信号；九、网络节点x根据八和三更新自身策略表。本发明用于分布式路由领域。

Description

基于Q学习的分布式自适应QoS路由方法

技术领域

本发明涉及分布式路由领域，尤其涉及分布式自适应QoS路由方法。

背景技术

随着互联网的普及，特别是云计算、大数据等相关技术的出现，互联网进入了快速发展期。互联网的快速发展使得网络传输业务数据量迅速增长，特别是近年短视频、直播平台的兴起，网络业务的交互更加实时，终端用户对于网络业务的服务质量即QoS提出了更高的需求。QoS需求多种多样，如时延、带宽、丢包率、负载等等。路由选择是QoS中重要的一环，即通过合适的路由算法为网络中不同的业务寻找一条满足QoS需求的路径。

集中式路由要求网络中心定期收集整个网络的有关信息，在网络中心进行集中处理，计算出路由后下发给各个网络设备，这对于网络中心能否即时准确地获得网络中的各种信息有很高的要求，并且在网络设备无法有效与网络中心通信时难以使用；分布式路由拥有部署灵活、不依赖于中央控制的特点，采用对流量、网络状况进行预估的预分配路由方法难以应对网络流量、拓扑发生变化的情形，而传统的适应性路由方法则需要网络节点频繁地和其他各个节点通信以更新路由表，占用大量网络资源的同时难以满足组合式QoS需求。

发明内容

本发明的目的是为了解决现有路由方法中采用集中式路由或分布式路由时，都需要频繁获取实时全局网络拓扑信息，因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题，而提出基于Q学习的分布式自适应QoS路由方法。

基于Q学习的分布式自适应QoS路由方法具体过程为：

步骤一、初始化各网络节点策略表；

步骤二、某个网络节点x接收到需要转发的数据包时，执行步骤三和步骤四；

步骤三、网络节点x根据包头信息解析数据包，获取目的节点d；

步骤四、网络节点x向所有邻居节点轮询，获取轮询阶段的奖赏信号；

步骤五、网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表；

步骤六、网络节点x根据步骤五更新后的策略表选择路由器下一跳节点n，执行步骤七；

步骤七、网络节点x向节点n转发数据包；执行步骤八；

步骤八、网络节点x与节点n通信，获取转发阶段的奖赏信号；

步骤九、网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表。

本发明的有益效果为：

1、本发明是一种分布式的路由方法，即该路由方法部署于各个网络节点中，根据网络情况自适应调整策略选择下一跳路由节点，无需网络中心总体控制和下发路由表，无需获取全局网络拓扑信息，具有较好的自适应性和实时性。

2、本发明所述方法可根据不同的QoS需求灵活配置以满足需求，与常见的强化学习路由方法不同，本方法通过轮询和转发两次学习阶段加快策略表收敛。

3、本发明只需各节点与邻居节点通信即可完成路由，避免了较大的网络开销，能在占用较小网络开销下完成满足组合式QoS需求。

解决了现有路由方法中采用集中式路由或分布式路由时，都需要频繁获取实时全局网络拓扑信息，因此不能在占用较小网络开销下完成满足组合式QoS需求且进行自适应调整的路由的问题。

附图说明

图1为本发明流程图；

图2为本发明仿真网络拓扑图；

图3a为lambda＝1时本发明算法的平均时延图；

图3b为lambda＝1时Dijkstra算法的平均时延图；

图4a为lambda＝2时本发明算法的平均时延图；

图4b为lambda＝2时Dijkstra算法的平均时延图；

图5a为lambda＝3时本发明算法的平均时延图；

图5b为lambda＝3时Dijkstra算法的平均时延图；

图6为本发明高负载下本发明方法负载情况图；

图7为本发明高负载下Dijkstra算法负载情况图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式基于Q学习的分布式自适应QoS路由方法具体过程为：

步骤一、初始化各网络节点策略表；

步骤六、网络节点x根据步骤五更新后的策略表选择路由器下一跳节点n(网络节点x可到达的所有下一跳转发节点中最优的一个)，执行步骤七；

步骤七、网络节点x向节点n转发数据包；执行步骤八；

本实施方式所述方法可以在仅与邻居节点通信的情况下完成分布式QoS路由，且随着网络状态的变化网络节点可自适应地调整路由策略。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤一中初始化各网络节点策略表；具体过程为：

策略表为一个目的节点与转发节点的二维表格Q_v(s,a)；在每一个节点上，均保存着只由自己维护的策略表；v代表该策略表中的节点，s代表目的节点，a代表节点v可到达的下一跳转发节点；若某一个节点有y个可到达的目的节点，z个邻居节点，则策略表大小为y×z，即有y×z项；在初始化阶段，所有节点的策略表中的值均初始化为0。

Q(s,a)是指的一个二维表格，后面更新的是其中具体的一项。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤四中网络节点x向所有邻居节点轮询，获取轮询阶段的奖赏信号；具体过程为：

当前网络节点x向某一邻居节点j发出轮询信号，邻居节点j收到该信号后，向当前网络节点x返回一个奖赏信号r_xj，重复该过程直到所有邻居节点轮询完毕。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述奖赏信号r_xj具体求解过程为：

针对时延、带宽、丢包率的组合QoS需求，本发明所设计的奖赏信号写为：

其中D_xj、B_xj、L_xj分别为时延、带宽、丢包率的归一化奖赏函数，β、θ、

为不同QoS需求所占的权重，可根据不同的QoS需求进行调整。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述时延的归一化奖赏函数D_xj的具体表达式为：

其中d_xj为节点间的时延，d_xi为节点间的时延，N(x)为节点x的邻居节点集合，|N(x)|为节点x的邻居节点数量。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述带宽的归一化奖赏函数B_xj的具体表达式为：

其中，b_xj为节点间的带宽，b_xi为节点间的带宽。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述丢包率的归一化奖赏函数L_xj的具体表达式为：

L_xj＝-1+2％l_xj (4)

其中l_xj为节点间的丢包率。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述步骤五中网络节点x根据步骤四获取的轮询阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表；具体过程为：

对每一个邻居节点j，策略表更新的过程为：

其中N(j)指的是邻居节点j的邻居节点集合，η_e是轮询阶段的学习率；γ为奖赏衰减参数；Q_j(d,j′)表示节点j的策略表中，目的节点为d，节点j选择的下一跳节点为j′的项；

表示Q_j(d,j′)的最小值(节点j确定，目的节点d确定，节点j选择的下一跳节点j′决定了Q_j(d,j′)的取值大小)；Q_x(d,j)为节点x的策略表中，目的节点为d，节点x选择的下一跳节点j的项；重复此过程直到所有邻居节点对应的x策略表中的项更新完毕。

此时对策略表中的Q_x(d,j)进行了更新，但并未实际转发数据包；在与某一个节点通信后，只更新了表中的其中一项。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述步骤六中网络节点x根据更新后的策略表选择路由器下一跳节点n(网络节点x可到达的所有下一跳转发节点中的一个)；具体过程为：

网络节点x根据更新后的策略表选择下一跳节点n，使得Q_x(d,n)在更新后的策略表中取值最小时对应的下一跳节点n作为转发的节点(从可选择的下一跳节点n中确定一个下一跳节点n)；

Q_x(d,n)为节点x的策略表中，目标节点为d，节点x选择的下一跳节点为n的项。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是，所述步骤八中网络节点x与节点n通信，获取转发阶段的奖赏信号；具体过程为：

当前网络节点x向步骤六确定的转发的节点n发出询问信号，下一跳节点n收到该信号后，向网络节点x返回一个奖赏信号，转发阶段的奖赏信号写为：

r_xn＝q_x+d_xn (6)

其中q_x为数据包在节点x中的排队时间，d_xn为节点x与n的传输时延，r_xn为转发阶段奖赏信号。

其它步骤及参数与具体实施方式一至九之一相同。

具体实施方式十一：本实施方式与具体实施方式一至十之一不同的是，所述步骤九中网络节点x根据步骤八获取的转发阶段的奖赏信号和步骤三获取的目的节点d更新自身策略表；具体过程为：

对策略表进行更新的过程可写为：

其中η_t为转发学习阶段的学习率；N(n)为节点n的邻居节点集合；γ为奖赏衰减参数；Q_n(d,n′)为节点n的策略表中，目的节点为d，节点n选择的下一跳节点为n′的项；

表示Q_n(d,n′)的最小值(节点n确定，目的节点d确定，节点n选择的下一跳节点n′决定了Q_n(d,n′)的取值大小)，Q_x(d,n)为节点x的策略表中，目标节点为d，节点x选择的下一跳节点为n的项。

其它步骤及参数与具体实施方式一至十之一相同。

具体实施方式十二：本实施方式与具体实施方式一至十一之一不同的是，所述轮询阶段的学习率η_e通常取0.5；转发学习阶段的学习率η_t一般设置为0.5；奖赏衰减参数γ通常取0.95。

其它步骤及参数与具体实施方式一至十一之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

本发明为基于Q学习的分布式自适应QoS路由方法。

仿真由python编写的模拟路由环境下进行。网络拓扑如图2：

从图2的拓扑视图可以看出，节点20至节点21这一条链路是一条瓶颈链路，在高网络负载下，该链路有很大的可能性引起拥塞。

在模拟系统下，每一仿真时刻会产生数个数据包，它的数量遵循泊松分布。在泊松分布参数lambda小于2时，认为网络是低负载情况；为2至2.5时，认为网络此时是中等负载；为3至3.5时，认为网络是高负载情况。节点的转发能力是有限的，规定在每一个仿真时刻，节点可以完成一个数据包的处理并转发。每个节点拥有一个先入先出(FIFO)队列。每个数据包包含的信息有它的产生时间、入队时间、当前节点、目标节点等信息。在一个数据包到达目标节点后，将该数据包从网络中移除，表示该数据包已经转发成功。在统计阶段，每一千个数据包转发成功，统计一次平均时延。

用于对比的算法是常见的路由算法Dijkstra，它在转发时，只关注最短时延。

仿真结果如图3a、图3b、图4a、图4b、图5a、图5b，图3a、图3b、图4a、图4b、图5a、图5b中Q-routing即为本发明所用方法。

从图3a、图3b、图4a、图4b、图5a、图5b结果可以看出，泊松分布参数lambda为1时，在低负载的网络下，本发明所用方法Q-routing收敛后能够达到和Dijkstra算法相当的性能。此时网络负载没有压力，两种算法都不存在网络拥塞的问题。在中等负载下，没有出现网络拥塞的情况，本发明所用方法Q-routing的平均时延和Dijkstra相当，收敛后出现抖动更小。而在高网络负载下，Dijkstra的平均时延随着时间不断地升高，已经无法正常进行转发。由于网络负载过高，Dijkstra的转发策略没有因此发生改变，导致拓扑中的瓶颈链路出现了大规模的拥塞，并且随着时间的推移拥塞会越来越严重。在现实情况下，无法进入队列的数据包可能会被丢弃，从而导致丢包率大大上升。本发明所用方法Q-routing在网络出现拥塞时调整了自身策略，选择了瓶颈链路之外的链路进行转发，避免了大规模的拥塞情况。

可以通过观察网络中各节点的负载情况来说明以上结论，在仿真时刻为10000时，各节点的负载情况如图6、图7：

对比图6、图7可以发现，本发明所用方法在节点出现拥塞的时候学习新的策略，选择了瓶颈链路之外的链路进行转发，因此整个网络的拥塞情况随着训练程度逐渐下降并最终稳定在较低的水平。而Dijkstra有较大概率选择瓶颈链路进行转发，随着时间的推移会有大量数据包在瓶颈链路造成拥塞，并且其他节点只能等待瓶颈节点处理队列中的数据包，整个网络的平均时延会迅速上升。

该仿真结果用于说明本发明所用方法可以在只与邻居节点通信的情况下，完成自适应调整的分布式QoS路由。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。