CN116828548A

CN116828548A - 一种针对电力无线网络的基于强化学习的最佳路由调度方法

Info

Publication number: CN116828548A
Application number: CN202310496759.2A
Authority: CN
Inventors: 刘超; 冯尚友; 肖博; 高鼎; 马军; 曹超; 王克敏; 王旭阳; 李贝伦
Original assignee: North China Electric Power University; Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Current assignee: North China Electric Power University; Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-09-29

Abstract

本发明公开了一种针对电力无线网络的基于强化学习的最佳路由调度方法，包括以下步骤：步骤S101、利用SDN架构构建系统模型；步骤S102、规划通信链路，初始化Q矩阵；步骤S103、智能体与无线通信网络的环境状态进行交互；步骤S104、更新Q矩阵；步骤S105、重复步骤S103到步骤S104直到网络结果收敛，将训练好的网络应用于无线通信网络的路由选择中。本发明利用SDN架构方式，合理调节信道资源分配，来满足差异化的QoS服务需求，建立无线通信网络系统模型，将路由选择问题映射成为马尔可夫决策过程过程，进行迭代求解，最后将训练好的网络应用于无线通信网络的路由选择中。

Description

一种针对电力无线网络的基于强化学习的最佳路由调度方法

技术领域

本发明属于无线传输网络QoS保障技术领域,涉及接纳控制中的调度算法,尤其涉及一种针对电力无线网络的基于强化学习的最佳路由调度方法。

背景技术

随着居民生活水平的提高，电力通信技术不断发展，越来越多的智能化通信设备被应用与电力通信网络之中。这些新设备的出现一方面满足了客户的新需求，另一方面对网络的多样化QoS支持能力也提出了更高的要求。但是通过提高设备性能来满足逐渐增长的服务质量要求，已经到达顶点，进一步提高需要消耗大量资源。相反的是，如何合理利用现有的网络资源，分配合适的通信带宽，仍有较大的进步空间。对于传统的计算机网络而言，主要采用尽力而为的数据调度方法，网络尽最大可能传输报文，只考虑数据是否送达，不考虑链路状态，时延等信息，无法保障QoS服务质量。在如今的网络结构下，该调度方法难以满足数据传输要求。因此，需要寻找合适的路由调度算法以满足新时代对于数据传输的要求。

传统的动态路由算法可以分为两大类，基于最优化方法的路由算法和基于启发式方法的路由算法。基于最优化方法的路由算法如分层最短路由算法(HierarchicalShortest Path algorithm,HSRA)，该算法将无线网络描述为一系列静态图并建模为时空图，空间链路表示为两个通信节点的无线链路(即信道)，时间链路表示为节点讲数据包从一个时隙传送到另一个时隙。该算法通过空间链路转发数据，依靠时间链路计算传播时延和链路可靠性概率，计算数据找出最佳路由，但是算法本身没有考虑链路带宽对QoS需求的影响，同时也要求较高的网络检测能力，以便实时更新链路信息。而基于启发式方法的路由算法，也存在着一些问题。如基于蚁群和膜计算的非均匀分簇路由算法，在进行路由选择时，需要将路径分组，进行迭代，再整合信息，迭代选出最佳路由。该算法虽然保证了可靠性，但过程复杂，能耗较大。综上所述，传统的动态路由算法，算法结构简单，稳定性高。但是计算速度慢，无法适应当今的网络环境，难以支撑差异化QoS保障需求。而强化学习能够利用智能体(agent)与环境状态参量，进行多次迭代，最终选择能够达到目标的最优动作。面对复杂多变的网络环境，基于真实数据驱动的强化学习可以准确快速的完成寻找出最佳路由。

发明目的

本发明目的就是应对上述现有技术中所存在的技术问题，基于802.11标准的WLAN网络的QoS机制中的接纳控制，提供一种基于机器学习的最佳路由算法，利用SDN架构，实时感知网络状态，统一处理数据信息，合理分配通信带宽，防止网络负载超出其承受能力以及保护已有的数据流的传输，满足差异化的QoS需求。

发明内容

本发明提供了一种针对电力无线网络的基于强化学习的最佳路由调度方法，包括以下步骤：

步骤S101、利用SDN架构构建系统模型，具体是将无线通信网络部署在SDN架构平台上，在SDN平台上收集网络信息，通过控制器直接管理全局网络，进行强化学习；所述SDN架构包括应用层、控制层和转发层，其中，所述应用层为用户服务，负责收集网络信息，监控网络状态；所述控制层对应用层收集来的数据进行处理，更新R值表和Q值表；在迭代完成后，依靠Q值表，控制信息下一跳选择；所述转发层由通信设备组成，负责执行决策，完成路由选择；所述系统模型中设定所选信道的最大传输速率W大于信息正常传输所需带宽B，如果出现多个信道同时满足条件，则选择拥有较大传输速率的链路作为传输信道。

步骤S102、规划通信链路，初始化Q矩阵，具体是在传递信息通过源节点进入无线通信网络之前，依靠信息的目的节点和业务类型，通过dijkstra算法，规划出多条满足传输要求的通信线路，提高Q矩阵收敛速度；将路由选择问题映射成为马尔可夫决策过程，其中状态集<S>设定为所选通信链路中的所有节点集合，动作集<A>设定为信息在节点s处的下一跳可选择的全部节点集合，基于动作选定后，下一个状态固定，所以概率转移矩阵P为1，奖励函数R与时延，丢包率，带宽相关；该MDP(马尔可夫决策过程)的四元组均为已知，利用强化学习中的Q-learning算法进行迭代求解；

步骤S103、智能体与无线通信网络的环境状态进行交互，其中，所述无线通信网络的环境状态参数包括链路剩余带宽、通信时延和信道丢包率；

步骤S104、更新Q矩阵；

步骤S105、重复步骤S103到步骤S104直到网络结果收敛，将训练好的网络应用于无线通信网络的路由选择中。

优选地，所述步骤S101中，用一个有向图G(V,E)来表示无线通信网络，其中顶点集V表示通信节点的集合，边集E表示为通信链路的集合，每条链路的容量，即信道带宽有限；所述有向图G(V,E)中的节点代表网络中的通信节点，由网络中的路由器和交换机构成，节点间的连线代表着信道，箭头的方向即为信息的传输方向，某一时刻信息通过源节点向整个网络递交发送请求，且带宽需求稳定；在网络状态保持稳定的前提下，信息传送过程中，信道的带宽，时延，丢包率，网络拓扑默认不会变化；

优选地，所述步骤S103中设定B(s,a)为带宽参数，被表示为如式(1)所示：

其中W为链路剩余带宽，B为通信所需最低带宽；

T(s,a)为时延参数，被表示为如式(2)所示：

T(s,a)＝tanh(-αt+b) (2)，

其中α,b为常量，t为链路时延；

L(s,a)为丢包率参数，被表示为如式(3)所示：

其中δ为信息在传输过程中能接受的最大丢包率，l为链路实际丢包率；

通过ε-greedy方法选择下一跳节点，得到下一个状态s'和奖赏函数R(s,a)，该奖赏函数R(s,a)被表示为如式(4)所示：

其中x,y,z为调整参数，针对不同的业务类型，优先级，合理调节不同参数的权重，满足差异化的QoS服务需求；

用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。

优选地，所述步骤S104包括：从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练，当信息在节点s处选择动作a到达节点s'后，更新自我状态，在Q矩阵中，选择能使Q值最大的动作a'，得到Q(s',a')，于是矩阵Q(s,a)更新被为如式(5)所示：

其中Q(s,a)为更新前的Q值，α为学习率，γ为奖励性衰变系数。

优选地，所述步骤S105包括：在信息到达目的节点后，源节点向目的节点重新发送信息，重复步骤S103到S104，通过ε-greedy方法，随机选择通信节点，多次迭代，直至Q矩阵完成收敛，最后将训练好的网络应用于无线通信网络的路由选择中，在路由选择过程中，选择最大的Q值，即为最佳路由调度。

附图说明

图1为本发明利用SDN架构构建的无线通信网络模型图。

图2为本发明所述针对电力无线网络的基于强化学习的最佳路由调度方法的流程框图。

具体实施方式

下面结合附图，对具体实施方式作详细说明。

图1为本发明利用SDN架构构建的无线通信网络模型图。图2为本发明所述针对电力无线网络的基于强化学习的最佳路由调度方法的流程框图。如图2所示，所述一种基于强化学习的最佳路由调度方法，包括以下步骤：

步骤S101：利用SDN架构构建系统模型：

用一个有向图G(V,E)来表示无线通信网络，顶点集V表示通信节点的集合，边集E表示为通信链路的集合，每条链路的容量(信道带宽)有限。某一时刻信息通过源节点向整个网络递交发送请求，且带宽需求稳定。在网络状态保持稳定的前提下，信息传送过程中，信道的带宽，时延，丢包率，网络拓扑默认不会变化。

利用SDN架构解决路由问题。将无线通信网络部署在SDN架构平台上，在SDN平台上收集网络信息，通过控制器直接管理全局网络，进行强化学习。

优化接纳控制机制。为了防止网络负载超出其承受能力并且保护已有的数据流的传输，在保证时延和丢包率满足要求的的前提下，设定信道的最大传输速率W必须大于信息正常传输所需带宽B，当出现多个信道满足要求的前提下，优先选择拥有较大传输速率的链路作为传输信道，满足通信要求。

步骤S102:规划通信链路，初始化Q矩阵：

在源节点向无线网络发送信息前，需要依靠信息的目的节点和业务类型，通过dijkstra算法，规划出多条合适的通信路线，在贪婪算法选择下一跳节点过程前，依靠选择好的通信线路，减少不必要选择，提高强化学习矩阵收敛速度。同时，确定了通信路线，保证了信息不会在几个节点间循环传递，避免了路由环路问题。为了解决上述模型，将路由选择问题映射成马尔可夫决策过程，其中状态集<S>设定为所选通信链路中的所有节点集合，动作集<A>设定为信息在节点s处的下一跳选择，基于动作选定后，下一个状态固定，所以概率转移矩阵P为1，奖励函数R则与时延，丢包率，带宽相关。该MDP的四元组均为已知，可利用机器学习中的Q-learning算法进行迭代求解。

步骤S103：智能体与无线通信网络的环境状态进行交互：

所述无线通信网络的环境状态参数包括链路剩余带宽、通信时延和信道丢包率；设定B(s,a)为带宽参数，被表示为如式(1)所示：

其中W为链路剩余带宽，B为通信所需最低带宽；

T(s,a)为时延参数，被表示为如式(2)所示：

T(s,a)＝tanh(-αt+b) (2)，

其中α,b为常量，t为链路时延；

L(s,a)为丢包率参数，被表示为如式(3)所示：

用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。

步骤S104：更新矩阵，包括：从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练，当信息在节点s处选择动作a到达节点s'后，更新自我状态，在Q矩阵中，选择能使Q值最大的动作a'，得到Q(s',a')，于是矩阵Q(s,a)更新被为如式(5)所示：

其中Q(s,a)为更新前的Q值，α为学习率，γ奖励性衰变系数。

步骤S105:重复步骤S103到步骤S104直到网络结果收敛，将训练好的网络应用于无线通信网络的路由选择中，具体是在信息到达目的节点后，源节点向目的节点重新发送信息，重复步骤S103到S104，通过ε-greedy方法，随机选择通信节点，多次迭代，直至Q矩阵完成收敛，最后将训练好的网络应用于无线通信网络的路由选择中，在路由选择过程中，选择最大的Q值，即为最佳路由调度。

本发明摒弃了传统智能路由算法，多个智能体同时进行强化学习的方式，而使用SDN架构，极大程度上提高了配置的灵活性，降低了部署装置的成本，同时不再依靠分布式协议，统一节点状态，降低了完成共识所需时间,提高Q矩阵收敛速度。

优化接纳控制机制，假定保证信息可以正常传输的带宽为B，为了防止网络负载超出其承受能力，在通信时延和丢包率满足要求的情况下，本文设定所选的信道的最大传输速率W必须大于信息正常传输所需带宽B，如果出现多个信道同时满足条件的情况，优先选择拥有较大传输速率的链路作为传输信道，满足通信要求。

本发明具有以下有益效果：

提出了一种面向无线传输网络的基于机器学习的最佳路由调度方法，摒弃了基于数学模型的优化方案和传统的分布式强化学习策略。对接纳控制进行优化，防止网络负载超出其承受能力以及保护已有的数据流的传输，合理分配通信资源，满足差异化的QoS服务需求。

本发明的实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种针对电力无线网络的基于强化学习的最佳路由调度方法，其特征在于，包括以下步骤：

步骤S102、规划通信链路，初始化Q矩阵，具体是在传递信息通过源节点进入无线通信网络之前，依靠信息的目的节点和业务类型，通过dijkstra算法，规划出多条满足传输要求的通信线路，提高Q矩阵收敛速度；将路由选择问题映射成为马尔可夫决策过程，其中状态集<S>设定为所选通信链路中的所有节点集合，动作集<A>设定为信息在节点s处的下一跳可选择的全部节点集合，基于动作选定后，下一个状态固定，所以概率转移矩阵P为1，奖励函数R与时延，丢包率，带宽相关；马尔可夫决策过程MDP的四元组均为已知，利用强化学习中的Q-learning算法进行迭代求解；

步骤S104、更新Q矩阵；

2.根据权利要求1所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法，其特征在于，所述步骤S101中，用一个有向图G(V,E)来表示无线通信网络，其中顶点集V表示通信节点的集合，边集E表示为通信链路的集合，每条链路的容量，即信道带宽有限；所述有向图G(V,E)中的节点代表网络中的通信节点，由网络中的路由器和交换机构成，节点间的连线代表着信道，箭头的方向即为信息的传输方向，某一时刻信息通过源节点向整个网络递交发送请求，且带宽需求稳定；在网络状态保持稳定的前提下，信息传送过程中，信道的带宽，时延，丢包率，网络拓扑默认不会变化。

3.根据权利要求2所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法，其特征在于，所述步骤S103中设定B(s,a)为带宽参数，被表示为如式(1)所示：

其中W为链路剩余带宽，B为通信所需最低带宽；

T(s,a)为时延参数，被表示为如式(2)所示：

T(s,a)＝tanh(-αt+b) (2)，

其中α,b为常量，t为链路时延；

L(s,a)为丢包率参数，被表示为如式(3)所示：

用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。

4.根据权利要求3所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法，其特征在于，所述步骤S104包括：从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练，当信息在节点s处选择动作a到达节点s'后，更新自我状态，在Q矩阵中，选择能使Q值最大的动作a'，得到Q(s',a')，于是矩阵Q(s,a)更新被为如式(5)所示：

5.根据权利要求4所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法，其特征在于，所述步骤S105包括：在信息到达目的节点后，源节点向目的节点重新发送信息，重复步骤S103到S104，通过ε-greedy方法，随机选择通信节点，多次迭代，直至Q矩阵完成收敛，最后将训练好的网络应用于无线通信网络的路由选择中，在路由选择过程中，选择最大的Q值，即为最佳路由调度。