CN116828548A - 一种针对电力无线网络的基于强化学习的最佳路由调度方法 - Google Patents

一种针对电力无线网络的基于强化学习的最佳路由调度方法 Download PDF

Info

Publication number
CN116828548A
CN116828548A CN202310496759.2A CN202310496759A CN116828548A CN 116828548 A CN116828548 A CN 116828548A CN 202310496759 A CN202310496759 A CN 202310496759A CN 116828548 A CN116828548 A CN 116828548A
Authority
CN
China
Prior art keywords
network
information
node
wireless communication
bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310496759.2A
Other languages
English (en)
Inventor
刘超
冯尚友
肖博
高鼎
马军
曹超
王克敏
王旭阳
李贝伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Original Assignee
North China Electric Power University
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University, Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd filed Critical North China Electric Power University
Priority to CN202310496759.2A priority Critical patent/CN116828548A/zh
Publication of CN116828548A publication Critical patent/CN116828548A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/24Negotiating SLA [Service Level Agreement]; Negotiating QoS [Quality of Service]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/34Modification of an existing route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种针对电力无线网络的基于强化学习的最佳路由调度方法,包括以下步骤:步骤S101、利用SDN架构构建系统模型;步骤S102、规划通信链路,初始化Q矩阵;步骤S103、智能体与无线通信网络的环境状态进行交互;步骤S104、更新Q矩阵;步骤S105、重复步骤S103到步骤S104直到网络结果收敛,将训练好的网络应用于无线通信网络的路由选择中。本发明利用SDN架构方式,合理调节信道资源分配,来满足差异化的QoS服务需求,建立无线通信网络系统模型,将路由选择问题映射成为马尔可夫决策过程过程,进行迭代求解,最后将训练好的网络应用于无线通信网络的路由选择中。

Description

一种针对电力无线网络的基于强化学习的最佳路由调度方法
技术领域
本发明属于无线传输网络QoS保障技术领域,涉及接纳控制中的调度算法,尤其涉及一种针对电力无线网络的基于强化学习的最佳路由调度方法。
背景技术
随着居民生活水平的提高,电力通信技术不断发展,越来越多的智能化通信设备被应用与电力通信网络之中。这些新设备的出现一方面满足了客户的新需求,另一方面对网络的多样化QoS支持能力也提出了更高的要求。但是通过提高设备性能来满足逐渐增长的服务质量要求,已经到达顶点,进一步提高需要消耗大量资源。相反的是,如何合理利用现有的网络资源,分配合适的通信带宽,仍有较大的进步空间。对于传统的计算机网络而言,主要采用尽力而为的数据调度方法,网络尽最大可能传输报文,只考虑数据是否送达,不考虑链路状态,时延等信息,无法保障QoS服务质量。在如今的网络结构下,该调度方法难以满足数据传输要求。因此,需要寻找合适的路由调度算法以满足新时代对于数据传输的要求。
传统的动态路由算法可以分为两大类,基于最优化方法的路由算法和基于启发式方法的路由算法。基于最优化方法的路由算法如分层最短路由算法(HierarchicalShortest Path algorithm,HSRA),该算法将无线网络描述为一系列静态图并建模为时空图,空间链路表示为两个通信节点的无线链路(即信道),时间链路表示为节点讲数据包从一个时隙传送到另一个时隙。该算法通过空间链路转发数据,依靠时间链路计算传播时延和链路可靠性概率,计算数据找出最佳路由,但是算法本身没有考虑链路带宽对QoS需求的影响,同时也要求较高的网络检测能力,以便实时更新链路信息。而基于启发式方法的路由算法,也存在着一些问题。如基于蚁群和膜计算的非均匀分簇路由算法,在进行路由选择时,需要将路径分组,进行迭代,再整合信息,迭代选出最佳路由。该算法虽然保证了可靠性,但过程复杂,能耗较大。综上所述,传统的动态路由算法,算法结构简单,稳定性高。但是计算速度慢,无法适应当今的网络环境,难以支撑差异化QoS保障需求。而强化学习能够利用智能体(agent)与环境状态参量,进行多次迭代,最终选择能够达到目标的最优动作。面对复杂多变的网络环境,基于真实数据驱动的强化学习可以准确快速的完成寻找出最佳路由。
发明目的
本发明目的就是应对上述现有技术中所存在的技术问题,基于802.11标准的WLAN网络的QoS机制中的接纳控制,提供一种基于机器学习的最佳路由算法,利用SDN架构,实时感知网络状态,统一处理数据信息,合理分配通信带宽,防止网络负载超出其承受能力以及保护已有的数据流的传输,满足差异化的QoS需求。
发明内容
本发明提供了一种针对电力无线网络的基于强化学习的最佳路由调度方法,包括以下步骤:
步骤S101、利用SDN架构构建系统模型,具体是将无线通信网络部署在SDN架构平台上,在SDN平台上收集网络信息,通过控制器直接管理全局网络,进行强化学习;所述SDN架构包括应用层、控制层和转发层,其中,所述应用层为用户服务,负责收集网络信息,监控网络状态;所述控制层对应用层收集来的数据进行处理,更新R值表和Q值表;在迭代完成后,依靠Q值表,控制信息下一跳选择;所述转发层由通信设备组成,负责执行决策,完成路由选择;所述系统模型中设定所选信道的最大传输速率W大于信息正常传输所需带宽B,如果出现多个信道同时满足条件,则选择拥有较大传输速率的链路作为传输信道。
步骤S102、规划通信链路,初始化Q矩阵,具体是在传递信息通过源节点进入无线通信网络之前,依靠信息的目的节点和业务类型,通过dijkstra算法,规划出多条满足传输要求的通信线路,提高Q矩阵收敛速度;将路由选择问题映射成为马尔可夫决策过程,其中状态集<S>设定为所选通信链路中的所有节点集合,动作集<A>设定为信息在节点s处的下一跳可选择的全部节点集合,基于动作选定后,下一个状态固定,所以概率转移矩阵P为1,奖励函数R与时延,丢包率,带宽相关;该MDP(马尔可夫决策过程)的四元组均为已知,利用强化学习中的Q-learning算法进行迭代求解;
步骤S103、智能体与无线通信网络的环境状态进行交互,其中,所述无线通信网络的环境状态参数包括链路剩余带宽、通信时延和信道丢包率;
步骤S104、更新Q矩阵;
步骤S105、重复步骤S103到步骤S104直到网络结果收敛,将训练好的网络应用于无线通信网络的路由选择中。
优选地,所述步骤S101中,用一个有向图G(V,E)来表示无线通信网络,其中顶点集V表示通信节点的集合,边集E表示为通信链路的集合,每条链路的容量,即信道带宽有限;所述有向图G(V,E)中的节点代表网络中的通信节点,由网络中的路由器和交换机构成,节点间的连线代表着信道,箭头的方向即为信息的传输方向,某一时刻信息通过源节点向整个网络递交发送请求,且带宽需求稳定;在网络状态保持稳定的前提下,信息传送过程中,信道的带宽,时延,丢包率,网络拓扑默认不会变化;
优选地,所述步骤S103中设定B(s,a)为带宽参数,被表示为如式(1)所示:
其中W为链路剩余带宽,B为通信所需最低带宽;
T(s,a)为时延参数,被表示为如式(2)所示:
T(s,a)=tanh(-αt+b) (2),
其中α,b为常量,t为链路时延;
L(s,a)为丢包率参数,被表示为如式(3)所示:
其中δ为信息在传输过程中能接受的最大丢包率,l为链路实际丢包率;
通过ε-greedy方法选择下一跳节点,得到下一个状态s'和奖赏函数R(s,a),该奖赏函数R(s,a)被表示为如式(4)所示:
其中x,y,z为调整参数,针对不同的业务类型,优先级,合理调节不同参数的权重,满足差异化的QoS服务需求;
用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。
优选地,所述步骤S104包括:从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练,当信息在节点s处选择动作a到达节点s'后,更新自我状态,在Q矩阵中,选择能使Q值最大的动作a',得到Q(s',a'),于是矩阵Q(s,a)更新被为如式(5)所示:
其中Q(s,a)为更新前的Q值,α为学习率,γ为奖励性衰变系数。
优选地,所述步骤S105包括:在信息到达目的节点后,源节点向目的节点重新发送信息,重复步骤S103到S104,通过ε-greedy方法,随机选择通信节点,多次迭代,直至Q矩阵完成收敛,最后将训练好的网络应用于无线通信网络的路由选择中,在路由选择过程中,选择最大的Q值,即为最佳路由调度。
附图说明
图1为本发明利用SDN架构构建的无线通信网络模型图。
图2为本发明所述针对电力无线网络的基于强化学习的最佳路由调度方法的流程框图。
具体实施方式
下面结合附图,对具体实施方式作详细说明。
图1为本发明利用SDN架构构建的无线通信网络模型图。图2为本发明所述针对电力无线网络的基于强化学习的最佳路由调度方法的流程框图。如图2所示,所述一种基于强化学习的最佳路由调度方法,包括以下步骤:
步骤S101:利用SDN架构构建系统模型:
用一个有向图G(V,E)来表示无线通信网络,顶点集V表示通信节点的集合,边集E表示为通信链路的集合,每条链路的容量(信道带宽)有限。某一时刻信息通过源节点向整个网络递交发送请求,且带宽需求稳定。在网络状态保持稳定的前提下,信息传送过程中,信道的带宽,时延,丢包率,网络拓扑默认不会变化。
利用SDN架构解决路由问题。将无线通信网络部署在SDN架构平台上,在SDN平台上收集网络信息,通过控制器直接管理全局网络,进行强化学习。
优化接纳控制机制。为了防止网络负载超出其承受能力并且保护已有的数据流的传输,在保证时延和丢包率满足要求的的前提下,设定信道的最大传输速率W必须大于信息正常传输所需带宽B,当出现多个信道满足要求的前提下,优先选择拥有较大传输速率的链路作为传输信道,满足通信要求。
步骤S102:规划通信链路,初始化Q矩阵:
在源节点向无线网络发送信息前,需要依靠信息的目的节点和业务类型,通过dijkstra算法,规划出多条合适的通信路线,在贪婪算法选择下一跳节点过程前,依靠选择好的通信线路,减少不必要选择,提高强化学习矩阵收敛速度。同时,确定了通信路线,保证了信息不会在几个节点间循环传递,避免了路由环路问题。为了解决上述模型,将路由选择问题映射成马尔可夫决策过程,其中状态集<S>设定为所选通信链路中的所有节点集合,动作集<A>设定为信息在节点s处的下一跳选择,基于动作选定后,下一个状态固定,所以概率转移矩阵P为1,奖励函数R则与时延,丢包率,带宽相关。该MDP的四元组均为已知,可利用机器学习中的Q-learning算法进行迭代求解。
步骤S103:智能体与无线通信网络的环境状态进行交互:
所述无线通信网络的环境状态参数包括链路剩余带宽、通信时延和信道丢包率;设定B(s,a)为带宽参数,被表示为如式(1)所示:
其中W为链路剩余带宽,B为通信所需最低带宽;
T(s,a)为时延参数,被表示为如式(2)所示:
T(s,a)=tanh(-αt+b) (2),
其中α,b为常量,t为链路时延;
L(s,a)为丢包率参数,被表示为如式(3)所示:
其中δ为信息在传输过程中能接受的最大丢包率,l为链路实际丢包率;
通过ε-greedy方法选择下一跳节点,得到下一个状态s'和奖赏函数R(s,a),该奖赏函数R(s,a)被表示为如式(4)所示:
其中x,y,z为调整参数,针对不同的业务类型,优先级,合理调节不同参数的权重,满足差异化的QoS服务需求;
用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。
步骤S104:更新矩阵,包括:从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练,当信息在节点s处选择动作a到达节点s'后,更新自我状态,在Q矩阵中,选择能使Q值最大的动作a',得到Q(s',a'),于是矩阵Q(s,a)更新被为如式(5)所示:
其中Q(s,a)为更新前的Q值,α为学习率,γ奖励性衰变系数。
步骤S105:重复步骤S103到步骤S104直到网络结果收敛,将训练好的网络应用于无线通信网络的路由选择中,具体是在信息到达目的节点后,源节点向目的节点重新发送信息,重复步骤S103到S104,通过ε-greedy方法,随机选择通信节点,多次迭代,直至Q矩阵完成收敛,最后将训练好的网络应用于无线通信网络的路由选择中,在路由选择过程中,选择最大的Q值,即为最佳路由调度。
本发明摒弃了传统智能路由算法,多个智能体同时进行强化学习的方式,而使用SDN架构,极大程度上提高了配置的灵活性,降低了部署装置的成本,同时不再依靠分布式协议,统一节点状态,降低了完成共识所需时间,提高Q矩阵收敛速度。
优化接纳控制机制,假定保证信息可以正常传输的带宽为B,为了防止网络负载超出其承受能力,在通信时延和丢包率满足要求的情况下,本文设定所选的信道的最大传输速率W必须大于信息正常传输所需带宽B,如果出现多个信道同时满足条件的情况,优先选择拥有较大传输速率的链路作为传输信道,满足通信要求。
本发明具有以下有益效果:
提出了一种面向无线传输网络的基于机器学习的最佳路由调度方法,摒弃了基于数学模型的优化方案和传统的分布式强化学习策略。对接纳控制进行优化,防止网络负载超出其承受能力以及保护已有的数据流的传输,合理分配通信资源,满足差异化的QoS服务需求。
本发明的实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种针对电力无线网络的基于强化学习的最佳路由调度方法,其特征在于,包括以下步骤:
步骤S101、利用SDN架构构建系统模型,具体是将无线通信网络部署在SDN架构平台上,在SDN平台上收集网络信息,通过控制器直接管理全局网络,进行强化学习;所述SDN架构包括应用层、控制层和转发层,其中,所述应用层为用户服务,负责收集网络信息,监控网络状态;所述控制层对应用层收集来的数据进行处理,更新R值表和Q值表;在迭代完成后,依靠Q值表,控制信息下一跳选择;所述转发层由通信设备组成,负责执行决策,完成路由选择;所述系统模型中设定所选信道的最大传输速率W大于信息正常传输所需带宽B,如果出现多个信道同时满足条件,则选择拥有较大传输速率的链路作为传输信道。
步骤S102、规划通信链路,初始化Q矩阵,具体是在传递信息通过源节点进入无线通信网络之前,依靠信息的目的节点和业务类型,通过dijkstra算法,规划出多条满足传输要求的通信线路,提高Q矩阵收敛速度;将路由选择问题映射成为马尔可夫决策过程,其中状态集<S>设定为所选通信链路中的所有节点集合,动作集<A>设定为信息在节点s处的下一跳可选择的全部节点集合,基于动作选定后,下一个状态固定,所以概率转移矩阵P为1,奖励函数R与时延,丢包率,带宽相关;马尔可夫决策过程MDP的四元组均为已知,利用强化学习中的Q-learning算法进行迭代求解;
步骤S103、智能体与无线通信网络的环境状态进行交互,其中,所述无线通信网络的环境状态参数包括链路剩余带宽、通信时延和信道丢包率;
步骤S104、更新Q矩阵;
步骤S105、重复步骤S103到步骤S104直到网络结果收敛,将训练好的网络应用于无线通信网络的路由选择中。
2.根据权利要求1所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法,其特征在于,所述步骤S101中,用一个有向图G(V,E)来表示无线通信网络,其中顶点集V表示通信节点的集合,边集E表示为通信链路的集合,每条链路的容量,即信道带宽有限;所述有向图G(V,E)中的节点代表网络中的通信节点,由网络中的路由器和交换机构成,节点间的连线代表着信道,箭头的方向即为信息的传输方向,某一时刻信息通过源节点向整个网络递交发送请求,且带宽需求稳定;在网络状态保持稳定的前提下,信息传送过程中,信道的带宽,时延,丢包率,网络拓扑默认不会变化。
3.根据权利要求2所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法,其特征在于,所述步骤S103中设定B(s,a)为带宽参数,被表示为如式(1)所示:
其中W为链路剩余带宽,B为通信所需最低带宽;
T(s,a)为时延参数,被表示为如式(2)所示:
T(s,a)=tanh(-αt+b) (2),
其中α,b为常量,t为链路时延;
L(s,a)为丢包率参数,被表示为如式(3)所示:
其中δ为信息在传输过程中能接受的最大丢包率,l为链路实际丢包率;
通过ε-greedy方法选择下一跳节点,得到下一个状态s'和奖赏函数R(s,a),该奖赏函数R(s,a)被表示为如式(4)所示:
其中x,y,z为调整参数,针对不同的业务类型,优先级,合理调节不同参数的权重,满足差异化的QoS服务需求;
用四维元组(s,a,s',R)储存这一过程的数据并放入经验池。
4.根据权利要求3所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法,其特征在于,所述步骤S104包括:从经验池中取出执行步骤S103得到的样本(s,a,s',R)进行训练,当信息在节点s处选择动作a到达节点s'后,更新自我状态,在Q矩阵中,选择能使Q值最大的动作a',得到Q(s',a'),于是矩阵Q(s,a)更新被为如式(5)所示:
其中Q(s,a)为更新前的Q值,α为学习率,γ为奖励性衰变系数。
5.根据权利要求4所述的一种针对电力无线网络的基于强化学习的最佳路由调度方法,其特征在于,所述步骤S105包括:在信息到达目的节点后,源节点向目的节点重新发送信息,重复步骤S103到S104,通过ε-greedy方法,随机选择通信节点,多次迭代,直至Q矩阵完成收敛,最后将训练好的网络应用于无线通信网络的路由选择中,在路由选择过程中,选择最大的Q值,即为最佳路由调度。
CN202310496759.2A 2023-05-05 2023-05-05 一种针对电力无线网络的基于强化学习的最佳路由调度方法 Pending CN116828548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310496759.2A CN116828548A (zh) 2023-05-05 2023-05-05 一种针对电力无线网络的基于强化学习的最佳路由调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310496759.2A CN116828548A (zh) 2023-05-05 2023-05-05 一种针对电力无线网络的基于强化学习的最佳路由调度方法

Publications (1)

Publication Number Publication Date
CN116828548A true CN116828548A (zh) 2023-09-29

Family

ID=88119336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310496759.2A Pending CN116828548A (zh) 2023-05-05 2023-05-05 一种针对电力无线网络的基于强化学习的最佳路由调度方法

Country Status (1)

Country Link
CN (1) CN116828548A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240774A (zh) * 2023-11-15 2023-12-15 云南省地矿测绘院有限公司 一种跨域智能sdn路由方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117240774A (zh) * 2023-11-15 2023-12-15 云南省地矿测绘院有限公司 一种跨域智能sdn路由方法
CN117240774B (zh) * 2023-11-15 2024-01-23 云南省地矿测绘院有限公司 一种跨域智能sdn路由方法

Similar Documents

Publication Publication Date Title
CN110730131B (zh) 基于改进蚁群的SDN卫星网络多QoS约束路由方法
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
Tang Dynamically adaptive cooperation transmission among satellite-ground integrated networks
CN104168620A (zh) 无线多跳回传网络中的路由建立方法
Budyal et al. ANFIS and agent based bandwidth and delay aware anycast routing in mobile ad hoc networks
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
CN114050961B (zh) 一种大规模网络仿真系统及资源动态调度分配方法
CN109089294A (zh) 一种基于sdn分布式控制的无人机网络流量配置方法及系统
WO2023245835A1 (zh) 一种基于栅格时延预测的卫星传输优化方法
CN116828548A (zh) 一种针对电力无线网络的基于强化学习的最佳路由调度方法
Oužecki et al. Reinforcement learning as adaptive network routing of mobile agents
Han et al. Dynamic routing for software-defined LEO satellite networks based on ISL attributes
Qadeer et al. Flow-level dynamic bandwidth allocation in SDN-enabled edge cloud using heuristic reinforcement learning
Nguyen et al. Multi-agent DRL-based task offloading in hierarchical HAP-LAP networks
CN116389347A (zh) 一种基于强化学习的动态sdn路由优化算法
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Moayyedi et al. Generalizable GNN-based 5G RAN/MEC Slicing and Admission control in metropolitan networks
Wu et al. QoS provisioning in space information networks: Applications, challenges, architectures, and solutions
Zhang et al. Dynamical controller placement among SDN space-terrestrial integrated networks
Dai et al. Heuristic computing methods for contact plan design in the spatial-node-based Internet of Everything
CN114173418A (zh) 基于深度强化学习的实时分布式无线网络调度方法和系统
Belkout et al. A load balancing and routing strategy in fog computing using deep reinforcement learning
Wei et al. Dynamic controller placement for software-defined LEO network using deep reinforcement learning
Lee et al. ACO-based optimal node selection method for QoE improvement in MEC environment
Wang et al. A reliability-aware adaptive greedy-multicast routing protocol for 3D highly dynamic networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination