CN111565153A - 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统 - Google Patents

基于Q-learning算法和OLSR路由机制维护路由表的方法及系统 Download PDF

Info

Publication number
CN111565153A
CN111565153A CN202010356029.9A CN202010356029A CN111565153A CN 111565153 A CN111565153 A CN 111565153A CN 202010356029 A CN202010356029 A CN 202010356029A CN 111565153 A CN111565153 A CN 111565153A
Authority
CN
China
Prior art keywords
node
parameter
time
load
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010356029.9A
Other languages
English (en)
Other versions
CN111565153B (zh
Inventor
刘静
杨释心
李超
俞晖
归琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010356029.9A priority Critical patent/CN111565153B/zh
Publication of CN111565153A publication Critical patent/CN111565153A/zh
Application granted granted Critical
Publication of CN111565153B publication Critical patent/CN111565153B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/54Organization of routing tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于Q‑learning算法和OLSR路由机制维护路由表的方法及系统,包括:节点在hello包和TC包中添加实际负载量,根据实际负载量计算负载程度参数;节点在hello包和TC包中添加信道忙碌程度;根据负载程度参数和信道忙碌程度,计算得到节点负载参数;节点在hello包和TC包中添加运动信息,计算节点间链路持续生存时间参数;根据节点负载参数和持续生存时间参数计算Q‑value;当节点发送数据包至其他节点或转发任务时,查询本节点的Q‑table,根据Q‑table中目的节点对应的最大Q‑value节点进行路由。本发明提升了路由的稳定性,减少了数据包的丢失率。

Description

基于Q-learning算法和OLSR路由机制维护路由表的方法及 系统
技术领域
本发明涉及无线通信领域,具体地,涉及一种基于Q-learning算法和OLSR路由机制维护路由表的方法及系统,更为具体地,涉及无人机网络,基于增强学习Q-learning改善OLSR中负载均衡和链路稳定性问题的路由策略的方案。
背景技术
随着全球无人机产业发展,无人机间信息传输的需求也随之增加。无人机间即时通讯可以有效地辅助无人机的协同工作。通常无人机搭载的射频设备功率有限,导致有效通信距离有限。大型的无人机网络两节点之间距离可能已远远超出有效通信半径,因此,节点间业务需要依赖于多跳传输,通过路由策略选出合适的路径进行通信就会极大影响通信性能。
传统ad-hoc网络最为常用的路由策略包括AODV和OLSR,AODV是一种被动式路由,在网络没有业务需求时不产生开销。当节点有业务需求时,AODV将首先广播这一需求,随后其邻居节点将继续转发这一需求,形成网络洪泛直至找到目的节点。随后目的节点会将信息由源节点传输至目的节点的路径反向传输回去,通知源节点这一路径。这一方法在高动态网络下会产生大量的重传及洪泛,极大影响网络通信性能。
OLSR是一种主动式路由,即使在没有业务需求的情况下,各节点也会周期性地主动发送路由包,通过相关算法实现有选择性的网络洪泛,使得每个节点都维护全网的路由表。当业务需求出现时,可以直接通过查询路由表确定传输路径。
AODV与OLSR在寻路策略上,都是寻找最短跳数的路径。但在复杂的网络环境中,最短跳数并不一定是最佳的路由路径,甚至不一定是时延最小的路径。同时,拥塞控制是无人机网络中必须考虑的重要问题之一,即高负载的节点不再适合作为中继节点。考虑到无人机的高动态特性,节点间链路状态频繁发生变化,传统的AODV策略在高节点密度、高动态情况下会频繁洪泛,重传大量的RREQ包,占用大量的信道资源。而OLSR使用主动的更新策略,并通过MPR算法减少洪泛。因此本方法在OLSR基础上展开研究。
受无人机网络中节点的重量、体积的物理限制,网络中节点往往基于嵌入式设备进行控制通信。嵌入式设备的处理速度远不如大型静态网络中的专用路由器,节点的MAC队列容量也有限。当数据包传递给节点时,MAC层会将这些包在发送队列中按序排队,若此时其它节点持续向该节点转发数据分组,该节点将会出现拥塞、分组溢出等现象。过重的负载极大影响节点通信效率。
同时,由于无人机网络的带宽受限,节点的传输速率和频段的受限都极大限制了节点的通信能力。此外网络中所有相邻的节点共享一个无线传输信道,网络中的节点需要与其邻居节点通过竞争来接入这一信道。因此,节点的通信性能不仅和自身的负载有关,也和邻居节点的负载有关。
经过对现有文献检索发现,Justin.A.Boyan等人在“Packet Routing inChanging Networks:A Reinforcement Learning Approach”文章中提出了一种Q-routing方法并在学术界广为流传。该方法通过Q-learning方法预测节点中数据分组的排队时延、传输时延。通过对那些拥塞程度严重的节点予以惩罚,有效控制节点业务的拥塞。但是该方法对动态网络适配性较差,网络收敛速度偏慢。
另经检索发现,Jamal Toutouh等人在IEEE Transactions on VehicularTechnology中发表的“Intelligent OLSR Routing Protocol Optimization for VANETs”提出了一种合理选择OLSR中最佳参数配置的算法,有效提升了OLSR的效率,通过该算法可以自动求解最适合当前场景的最佳参数配置,但其研究并未涉及到对拥塞控制、负载均衡的思考。
A.McAuley等人在“Tuning of Reinforcement Learning Parameters appliedto OLSR using a Cognitive Network Design Tool”一文中提出了使用Q-learning技术改善OLSR策略。该文章对比了OLSR、基于Dijkstra的OLSR-D和使用Q-learning方法的OLSR-Q,体现出基于Q-learning的OLSR-Q不仅有效解决了拥塞控制问题,并且相较于OLSR-D避免了路径震荡的问题。但该方法忽略了节点的高动态性,更适用于节点运动速度偏低的场景。并且,该方法依赖于以TDMA为MAC的条件,可扩展性较差。
一个良好的路由策略应独立于MAC层的选择,提供良好的兼容性。本方法基于以上文献,提出一种使用Q-learning综合权衡节点负载和节点间链路稳定性的算法,着重改善无人机网络中高动态场景下的传输成功率。
专利文献CN 109617779A(申请号:201811551853.9)公开了一种基于VTEP的路由表维护方法及装置,该方法包括:监控硬件路由表包括的硬件路由表项的第一数量是否达到最大容量,若未达到最大容量,则从软件路由表中选取软件路由表项添加到硬件路由表中;监控各个硬件路由表项在老化周期内是否被命中,更新各个硬件路由表项的连续未被命中周期和第一命中标识,删除在硬件路由表中连续未被命中周期超过第一设定阈值的硬件路由表项及其在软件路由表中对应的软件路由表项;监控各个软件路由表项在老化周期内是否被命中,更新各个软件路由表项的连续未被命中周期和第二命中标识,删除在软件路由表中连续未被命中周期超过第二设定阈值的软件路由表项。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于Q-learning算法和OLSR路由机制维护路由表的方法及系统。
根据本发明提供的一种基于Q-learning算法和OLSR路由机制维护路由表的方法,包括:
步骤M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
步骤M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
步骤M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
步骤M4:节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
步骤M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
步骤M6:每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
步骤M8:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。
具体地,所述步骤M1中当前节点的负载程度参数RLD包括:
Figure BDA0002473462440000041
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期。
具体地,所述步骤M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure BDA0002473462440000042
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
具体地,所述步骤M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化。
具体地,所述步骤M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure BDA0002473462440000051
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
具体地,所述步骤M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
根据本发明提供的一种基于Q-learning算法和OLSR路由机制维护路由表的系统,包括:
模块M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
模块M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
模块M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
模块M4:节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
模块M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
模块M6:每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
模块M8:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。
具体地,所述模块M1中当前节点的负载程度参数RLD包括:
Figure BDA0002473462440000061
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期;
所述模块M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure BDA0002473462440000062
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
具体地,所述模块M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化;
所述模块M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure BDA0002473462440000071
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
具体地,所述模块M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
与现有技术相比,本发明具有如下的有益效果:
1、本发明的无人机网络中通过增强学习改进OLSR中负载均衡的路由策略,考虑了节点相对负载程度以及节点相对信道忙碌程度,采用自回归平滑机制确定节点负载参数,作为影响建立本节点的Q表即路由表建立的因素,缓解了网络中的负载均衡问题。
2、对节点负载的考量在负载均衡路由方法的设计中起到重要作用。对于节点相对负载程度RLD,本发明使用自回归平滑机制,以更好地根据过去周期的负载参数预测下一周期的负载程度。
3、本发明的无人机网络中通过增强学习改进OLSR中负载均衡的路由策略,考了节点由于高速移动对链路稳定性造成的影响,采用自回归平滑机制确定了链路相对生存时间,会影响节点的Q值,进而影响Q表的建立,提升了路由的稳定性,减少了数据包的丢失率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为OLSR-QL拓扑样例,节点间连线表示存在双向链路。其中节点e正在以ve速度远离其他节点。链路ae,de不稳定。
图2为图1网络链路2s后的状态,如图所示链路ae,de已经断开。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明的网络结构与传统ad-hoc网络相同,无需中心控制器,所有节点均为对等节点,这样的网络结构具有更好的鲁棒性,不会因一个节点的故障而影响其它节点。本发明核心贡献点在于综合考虑节点相对负载程度、节点相对信道忙碌程度和链路相对生存时间三项参数,以此控制Q-value更新,维护路由表。
基于现有技术的不足,本发明提出了一种基于Q-learning算法和OLSR路由机制维护路由表的方法。该方法基于OLSR路由策略,实时获得网络当前拓扑状态,维护路由表。并根据其MPR的相关算法有效减小洪泛开销,节约带宽资源。同时,基于Q-learning的思想,通过使用负载参数OH控制Q-value的更新,改善高动态无人机网络的路由中遇到的拥塞控制现象。
实施例1
根据本发明提供的一种基于Q-learning算法和OLSR路由机制维护路由表的方法,包括:
步骤M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
对节点负载的考量在负载均衡路由方法的设计中起到重要作用。对于节点相对负载程度RLD,本发明使用自回归平滑机制,以更好地根据过去周期的负载参数预测下一周期的负载程度。节点的负载即为节点的MAC队列中分组队列的长度;
具体地,所述步骤M1中当前节点的负载程度参数RLD包括:
Figure BDA0002473462440000091
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期。
步骤M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
数据包的时延不仅取决于本节点中业务的排队长度,还与其邻居节点的忙闲程度有关,即使数据包在节点MAC队列队首,但信道始终在忙的状态,且节点的一跳邻居中多个节点在竞争信道,那么该数据包的传输时延仍然可能偏大。
具体地,所述步骤M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure BDA0002473462440000092
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
步骤M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
具体地,所述步骤M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化。
步骤M4:为了提供节点的坐标和速度信息,节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
网络环境中节点移动速度快、网络拓扑变化快,导致网络链路稳定性差,为避免选择出的路由路径迅速失效,需在寻路过程中考虑节点间稳定性。
无人机的运动较为复杂,难以准确预测,尤其当节点运动状态发生突变更是难以估计。本发明不会对节点的生存时间进行长时间估计,而对于节点在一个hello周期里多久会失效进行估计,节点每次接收到hello包时会更新这一估计值。
本发明使用WayPoint模型来描述无人机的运动,虽然这并不能准确刻画节点复杂的运动,但通过每个周期的更新,可以有效控制预测值与真实值的偏差。
具体地,所述步骤M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure BDA0002473462440000101
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
所述节点相对负载程度(RLD)、节点相对信道忙碌程度(RCB)、稳定性参数ST由节点周期性计算并更新,更新值通过hello包发送至邻居节点。
步骤M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
步骤M6:节点使用Q-table代替原有路由表,每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
具体地,所述步骤M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
节点的Q-value依OLSR的更新策略,在hello和TC包中全网洪泛,调整TC包的帧结构和转发策略,节点在转发TC包时会将本节点的Q-value信息添加至包中。
本发明节点除需要产生OLSR的正常开销外,还需要额外维护Q-table。Q-table如
表1所示。
目的节点 Q-value 下一跳节点
b 1 b
c 0.8 b
d 0.7 g
e 0.7 e
f 0.75 b
g 1 g
h 0.8 1
表1附图1状态下节点a的Q-table
如图1所示,节点a会收到节点b、g、e的路由包,每个路由包中含有该发送节点的路由表Q-table,而节点a接收到相应的包后,会根据b、g、e的Q-table更新自身的Q-table,以下以节点d为目的节点为例,a节点维护对于目的节点d的Q-value的更新策略为:
Qd(a,b)←Qd(a,b)+θ(1-OHb)(1+STab)[R+γmaxbQd(b,x′)-Qd(a,b)] (8)
其中Qd(a,b)表示节点a以节点d为目的节点选择节点b作为下一跳节点的Q-value,θ为学习速率,取常数。R为反馈,若下一跳节点即为目的节点d,则R=1;否则R=0。γ为常数,表示Q-learning算法对未来预测的权重。OHb为节点b的负载参数,STab为链路ab的归一化有效时间参数。其中maxQd(b,x’)代表所有b的以d为目的节点的Q-value中的最大值;
当节点a收到节点b的路由包,根据节点b的maxQd(b,x’)更新自身的Qd(a,b),x’为节点b以节点d为目的节点时的下一跳节点,本例中即为节点b的Q-valueQd(b,c)。节点a收到节点b、g、e的路由包后,分别计算出相应的Qd(a,b)、Qd(a,g)、Qd(a,g),从中选择最大值作为本节点的Q-value。本例中由于b至节点d链路过长,Qd(a,b)较小。虽然节点e至节点d只有一跳,但因为链路ae,be稳定性差,其Q-value也偏小,如图2所示。因此,节点a对于目的节点d的Q-value记录为Qd(a,g),并记录下一跳节点为g,表1所示。
当节点a需要发送数据包至节点d时,节点a会在Q-table中查询目的节点d对应的下一跳节点g,将数据包发送至节点g。当节点g收到这一数据包,查询节点g的Q-table目的节点d对应的下一跳节点,做出转发操作,直至数据包被节点d接收。
为实现以上Q-learning的思想,需要对OLSR进行一定的修改,在OLSR的hello包中,额外添加本节点的Q-table。而对于TC包,节点发送TC包时首先需要添加自身的Q-table,而当其它节点进行转发TC时,用本节点的Q-table替换该包中的Q-table,由此,当节点接收到TC包时,首先会根据TC中的Q-table更新本节点的Q-table,进而完成路由表维护。
步骤M7:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,并将其对应的下一跳节点作为中继节点,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。Q-table如表1所示,表1中所示为图1的网络状态下节点a的Q-table。
所述Q-value为当前节点至目的节点i的开销值,根据Q-table,节点在选择路由和中继节点时,只维护最小开销的路径。
根据本发明提供的一种基于Q-learning算法和OLSR路由机制维护路由表的系统,包括:
模块M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
对节点负载的考量在负载均衡路由方法的设计中起到重要作用。对于节点相对负载程度RLD,本发明使用自回归平滑机制,以更好地根据过去周期的负载参数预测下一周期的负载程度。节点的负载即为节点的MAC队列中分组队列的长度;
具体地,所述模块M1中当前节点的负载程度参数RLD包括:
Figure BDA0002473462440000131
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期。
模块M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
数据包的时延不仅取决于本节点中业务的排队长度,还与其邻居节点的忙闲程度有关,即使数据包在节点MAC队列队首,但信道始终在忙的状态,且节点的一跳邻居中多个节点在竞争信道,那么该数据包的传输时延仍然可能偏大。
具体地,所述模块M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure BDA0002473462440000132
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
模块M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
具体地,所述模块M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化。
模块M4:为了提供节点的坐标和速度信息,节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
网络环境中节点移动速度快、网络拓扑变化快,导致网络链路稳定性差,为避免选择出的路由路径迅速失效,需在寻路过程中考虑节点间稳定性。
无人机的运动较为复杂,难以准确预测,尤其当节点运动状态发生突变更是难以估计。本发明不会对节点的生存时间进行长时间估计,而对于节点在一个hello周期里多久会失效进行估计,节点每次接收到hello包时会更新这一估计值。
本发明使用WayPoint模型来描述无人机的运动,虽然这并不能准确刻画节点复杂的运动,但通过每个周期的更新,可以有效控制预测值与真实值的偏差。
具体地,所述模块M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure BDA0002473462440000141
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
所述节点相对负载程度(RLD)、节点相对信道忙碌程度(RCB)、稳定性参数ST由节点周期性计算并更新,更新值通过hello包发送至邻居节点。
模块M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
模块M6:节点使用Q-table代替原有路由表,每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
具体地,所述模块M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
节点的Q-value依OLSR的更新策略,在hello和TC包中全网洪泛,调整TC包的帧结构和转发策略,节点在转发TC包时会将本节点的Q-value信息添加至包中。
本发明节点除需要产生OLSR的正常开销外,还需要额外维护Q-table。Q-table如表1所示。
如图1所示,节点a会收到节点b、g、e的路由包,每个路由包中含有该发送节点的路由表Q-table,而节点a接收到相应的包后,会根据b、g、e的Q-table更新自身的Q-table,以下以节点d为目的节点为例,a节点维护对于目的节点d的Q-value的更新策略为:
Qd(a,b)←Qd(a,b)+θ(1-OHb)(1+STab)[R+γmaxbQd(b,x′)-Qd(a,b)] (8)
其中Qd(a,b)表示节点a以节点d为目的节点选择节点b作为下一跳节点的Q-value,θ为学习速率,取常数。R为反馈,若下一跳节点即为目的节点d,则R=1;否则R=0。γ为常数,表示Q-learning算法对未来预测的权重。OHb为节点b的负载参数,STab为链路ab的归一化有效时间参数。其中maxQd(b,x’)代表所有b的以d为目的节点的Qvalue中的最大值;
当节点a收到节点b的路由包,根据节点b的maxQd(b,x’)更新自身的Qd(a,b),x’为节点b以节点d为目的节点时的下一跳节点,本例中即为节点b的Q-valueQd(b,c)。节点a收到节点b、g、e的路由包后,分别计算出相应的Qd(a,b)、Qd(a,g)、Qd(a,g),从中选择最大值作为本节点的Q-value。本例中由于b至节点d链路过长,Qd(a,b)较小。虽然节点e至节点d只有一跳,但因为链路ae,be稳定性差,其Q-value也偏小。因此,节点a对于目的节点d的Q-value记录为Qd(a,g),并记录下一跳节点为g,如表1所示。
当节点a需要发送数据包至节点d时,节点a会在Q-table中查询目的节点d对应的下一跳节点g,将数据包发送至节点g。当节点g收到这一数据包,查询节点g的Q-table目的节点d对应的下一跳节点,做出转发操作,直至数据包被节点d接收。
为实现以上Q-learning的思想,需要对OLSR进行一定的修改,在OLSR的hello包中,额外添加本节点的Q-table。而对于TC包,节点发送TC包时首先需要添加自身的Q-table,而当其它节点进行转发TC时,用本节点的Q-table替换该包中的Q-table,由此,当节点接收到TC包时,首先会根据TC中的Q-table更新本节点的Q-table,进而完成路由表维护。
模块M7:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,并将其对应的下一跳节点作为中继节点,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。Q-table如表1所示,表1中所示为图1的网络状态下节点a的Q-table。
所述Q-value为当前节点至目的节点i的开销值,根据Q-table,节点在选择路由和中继节点时,只维护最小开销的路径。
实施例2
实施例2是实施例1的变化例
本发明适用于无线无人机网络系统,发明方法包括OLSR-QL策略。它包括以下步骤:
步骤1:每个节点维护自身的Q-table,并通过hello和TC包广播。
步骤2:节点在hello包和TC包中添加负载信息,包括节点的实际负载量Lis,节点的负载参数RLD,每个节点根据接收到实际负载量Lis计算本节点的负载参数RLD。
步骤3:节点在hello包和TC包中添加本节点的RCB参数。
步骤4:节点在hello包和TC包中添加运动信息,包括节点的三维坐标、运动速度、节点接收到其它节点发送的hello包和TC包时通过该信息计算节点间链路持续时间相关参数ST。
步骤5:节点在原始OLSR的流程基础上,根据该邻居节点的Q-table更新自身的Q-table,如附图1所示场景,源节点a需发送数据包至目的节点d。节点a已接收到节点b、g、e的hello和TC包。虽然节点e至节点d仅需两跳,但因为其链路不稳定,选择节点e作为下一跳的Q-value低于选择节点g作为下一跳的Q-value。而选择节点b作为下一跳的路径因跳数过多,Q-value也偏低。最终,节点a在b、g、e三个节点中选择具有最大Q-value的节点,即节点g,并在节点a的Q-table中把目的节点为d的Q值记录为通过g节点所计算的Q-value,并将下一跳节点记录为g(如表1所示)。
步骤6:节点接收到其它节点的TC包,根据发送节点的Q-table更新本节点的Q-table。并且,若本节点为转发节点,需用本节点的Q-table替换TC包中的Q-table,广播给邻居节点。
步骤7:节点需发送数据包至其它节点或进行转发任务时,查询本节点的Q-table,根据本节点的Q-table中目的节点对应的的Q-value节点进行路由。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,包括:
步骤M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
步骤M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
步骤M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
步骤M4:节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
步骤M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
步骤M6:每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
步骤M8:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。
2.根据权利要求1所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述步骤M1中当前节点的负载程度参数RLD包括:
Figure FDA0002473462430000011
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期。
3.根据权利要求1所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述步骤M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure FDA0002473462430000021
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
4.根据权利要求1所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述步骤M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;RLDi(t)表示节点i在t时刻的相对负载程度参数。
5.根据权利要求1所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述步骤M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure FDA0002473462430000022
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
6.根据权利要求1所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述步骤M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
7.一种基于Q-learning算法和OLSR路由机制维护路由表的系统,其特征在于,包括:
模块M1:节点在hello数据包和TC数据包中添加实际负载量Lis,每个节点根据接收到实际负载量Lis计算当前节点的负载程度参数RLD;
模块M2:节点在hello数据包和TC数据包中添加当前节点的节点相对信道忙碌程度RCB;
模块M3:根据当前节点的负载程度参数RLD和当前节点的节点相对信道忙碌程度RCB,计算得到节点负载参数OH;
模块M4:节点在hello数据包和TC数据包中添加的运动信息,当节点接收到除自身节点之外的节点发送的hello数据包和TC数据包时,计算节点间链路持续生存时间参数ST;
模块M5:根据节点负载参数OH和节点间链路持续生存时间参数ST对Q-value进行计算更新;
模块M6:每个节点使用Q-table记录本节点至网络中除自身之外的节点的Q-value及对应的下一跳中继节点,每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播;
模块M8:当节点需发送数据包至除本节点之外的节点或进行转发任务时,查询本节点的Q-table,根据本节点的Q-table中目的节点对应的最大Q-value节点进行路由。
8.根据权利要求7所述的基于Q-learning算法和OLSR路由机制维护路由表的方法,其特征在于,所述模块M1中当前节点的负载程度参数RLD包括:
Figure FDA0002473462430000041
其中,RLDi(t)表示节点i在时刻t的相对负载程度,α表示固定自回归平滑机制参数,RLDi(t-δ)表示上一OLSR周期中节点的相对负载程度;RLavg表示节点i及当前节点一跳邻居在上一周期内的平均队列长度;Lis表示节点i在时刻t的队列长度即实际负载量;δ代表一个OLSR周期;
所述模块M2中当前节点的节点相对信道忙碌程度参数RCB;包括:
节点的归一化信道繁忙程度计算规则如下:
Figure FDA0002473462430000042
其中,BP表示在上一周期δ中,节点检测到信道的繁忙时间,包括信道忙和本节点在发送的时间总和,对BP进行归一化并进行自回归平滑机制得到信道忙碌程度参数RCBi(t):
RCBi(t)=β×RCBi(t-δ)+(1-β)×CBi(t) (3)
其中,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;β表示自回归平滑机制中的平滑系数;δ表示含义一个OLSR周期;RCBi(t-δ)表示节点i在t-δ时刻的信道忙碌程度参数,也就是上一周期的RCB参数。
9.根据权利要求7所述的基于Q-learning算法和OLSR路由机制维护路由表的系统,其特征在于,所述模块M3包括:
根据节点相对负载程度参数RLD和当前节点相对信道忙碌程度参数RCB,获得节点负载参数OH:
OHi(t)=λ×RLDi(t)+(1-λ)×RCBi(t) (4)
其中,λ为权重因子,OH代表节点负载程度的量化,RCBi(t)表示节点i在t时刻的信道忙碌程度参数;RLDi(t)表示节点i在t时刻的相对负载程度参数;
所述模块M4中节点间链路持续生存时间参数ST包括:
STij(t)=atSTij(t-δ)+(1-at)TNij (5)
其中,STij(t)代表t时刻链路ij的链路有效时间;at代表t时刻的自回归平滑系数;STij(t-δ)代表t-δ时刻链路ij的链路有效时间;TNij代表链路ij的链路持续时间与节点i的所有邻居节点的链路平均持续时间比;
Figure FDA0002473462430000051
其中,tij代表链路ij的预测持续时间;tin代表链路in的预测持续时间;Ni代表节点i的邻居集合;n代表节点i的邻居集合中的节点;
节点i、j间链路持续时间tij表达式如下:
(Xi+Vxitij-Xj-Vxjtij)2+(Yi+Vyitij-Yj-Vyjtij)2+(Zi+Vzitij-Zj-Vzjtij)2=Rc 2 (7)
其中,Xi,Yi,Zi表示节点i的三维坐标,Xj,Yj,Zj表示节点j的三维坐标,Vxi,Vyi,Vzi表示节点i的三维速度分量,Rc表示节点的有效通信半径;由此解出节点的预测持续时间tij
10.根据权利要求6所述的基于Q-learning算法和OLSR路由机制维护路由表的系统,其特征在于,所述模块M6中每个节点维护自身的Q-table,并通过OLSR路由协议中hello数据包和TC数据包进行广播包括:通过Hello数据包根据邻居节点的Q-table更新自身的Q-table;
节点接收到除自身节点以外的节点TC数据包,根据发送节点的Q-table更新当前节点的Q-table,并将本节点的Q-table信息添加至TC数据包中,再进行广播;当本节点为转发节点时,需要将本节点的Q-table替换TC数据包中的Q-table,并广播给邻居。
CN202010356029.9A 2020-04-29 2020-04-29 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统 Expired - Fee Related CN111565153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356029.9A CN111565153B (zh) 2020-04-29 2020-04-29 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356029.9A CN111565153B (zh) 2020-04-29 2020-04-29 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统

Publications (2)

Publication Number Publication Date
CN111565153A true CN111565153A (zh) 2020-08-21
CN111565153B CN111565153B (zh) 2021-06-29

Family

ID=72073119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356029.9A Expired - Fee Related CN111565153B (zh) 2020-04-29 2020-04-29 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统

Country Status (1)

Country Link
CN (1) CN111565153B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891399A (zh) * 2021-10-13 2022-01-04 北京慧清科技有限公司 一种面向负载均衡的多径加权调度olsr路由方法
CN115242290A (zh) * 2022-06-13 2022-10-25 北京邮电大学 应急无人机网络链路感知的olsr协议优化方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713143A (zh) * 2016-12-06 2017-05-24 天津理工大学 一种面向车联网的自适应可靠路由方法
CN109922513A (zh) * 2019-03-06 2019-06-21 上海交通大学 一种基于移动预测和时延预测的olsr路由方法及系统
CN109936473A (zh) * 2017-12-19 2019-06-25 华耀(中国)科技有限公司 基于深度学习预测的分布计算系统及其运行方法
CN110418377A (zh) * 2019-07-31 2019-11-05 重庆远感科技有限公司 一种LoRa无线传感器网络数据动态负载均衡调控方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713143A (zh) * 2016-12-06 2017-05-24 天津理工大学 一种面向车联网的自适应可靠路由方法
CN109936473A (zh) * 2017-12-19 2019-06-25 华耀(中国)科技有限公司 基于深度学习预测的分布计算系统及其运行方法
CN109922513A (zh) * 2019-03-06 2019-06-21 上海交通大学 一种基于移动预测和时延预测的olsr路由方法及系统
CN110418377A (zh) * 2019-07-31 2019-11-05 重庆远感科技有限公司 一种LoRa无线传感器网络数据动态负载均衡调控方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ABDELLATIF SERHANI,NAJIB NAJA,ETC.: "QLAR: A Q-learning based adaptive routing for MANETs", 《IEEE》 *
HASITHA PRIYADARSHANI,NIPUNA JAYASEKARA,ETC.: "Enhancing the security of OLSR protocol using reinforcement learning", 《IEEE》 *
MIN SONG,JING LIU,SHIXIN YANG: "A Mobility Prediction and Delay Prediction", 《IEEE》 *
熊轲等: "QL-OLSR:一种基于Q-Learning思想优化的移动自组织网络路由协议", 《北京交通大学学报》 *
马林华等: "航空高动态网络链路感知OLSR路由算法", 《北京航空航天大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113891399A (zh) * 2021-10-13 2022-01-04 北京慧清科技有限公司 一种面向负载均衡的多径加权调度olsr路由方法
CN113891399B (zh) * 2021-10-13 2023-08-01 北京慧清科技有限公司 一种面向负载均衡的多径加权调度olsr路由方法
CN115242290A (zh) * 2022-06-13 2022-10-25 北京邮电大学 应急无人机网络链路感知的olsr协议优化方法及装置
CN115242290B (zh) * 2022-06-13 2023-10-13 北京邮电大学 应急无人机网络olsr协议优化方法及装置

Also Published As

Publication number Publication date
CN111565153B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN103052129B (zh) 一种无线多跳中继网络中节能路由及功率分配方法
CN111556550B (zh) 无人机网络通信的路由方法
CN110708736B (zh) 一种基于能效中继选择的动态路由方法与系统
CN111741448B (zh) 一种基于边缘计算策略的分簇aodv路由方法
CN111565153B (zh) 基于Q-learning算法和OLSR路由机制维护路由表的方法及系统
CN110167097B (zh) 基于加权度量转发和路径规划的移动机器人中继路由方法
CN112969210A (zh) 一种飞行器协同组网网络层路由协议处理装置及实现方法
CN107846706A (zh) 一种拥塞避免的编码感知无线mesh网络多路径路由方法
CN108462983B (zh) 基于改进蚁群aodv协议的多机器人通信组网方法
Zheng et al. An adaptive density-based routing protocol for flying Ad Hoc networks
CN111510956A (zh) 一种基于分簇和增强学习的混合路由方法、海洋通信系统
CN112954764A (zh) 一种移动自组网络中的基于路径状态的多径分流路由方法
CN105007570B (zh) 一种基于olsr协议的移动自组织网络拥塞控制方法
Hussein et al. A New Hybrid Technique to Improve the Path Selection in Reducing Energy Consumption in Mobile AD-HOC Networks
Nurcahyani et al. Performance analysis of ad-hoc on-demand distance vector (aodv) and dynamic source routing (dsr) routing protocols during data broadcast storm problem in wireless ad hoc network
Yu et al. An ant colony optimization-based QoS routing algorithm for wireless multimedia sensor networks
Dogra Q-AODV: A flood control ad-hoc on demand distance vector routing protocol
CN113727408A (zh) 一种基于速度与能量感知的无人机自组网改进aodv路由方法
CN109803342A (zh) 一种面向能量均衡高可靠传输的无人机自组织网络路由方法
CN116528313A (zh) 一种面向任务协同的无人机低能耗快速路由方法
Liu et al. Advanced Fast Recovery OLSR Protocol for UAV Swarms in the Presence of Topological Change
CN116782330A (zh) Sd-uanet中考虑负载和链路变化的路径选择方法及介质
CN116567772A (zh) 一种基于多模场域网的邻居关系建立、维护、更新方法
Basarkod et al. Node movement stability and congestion aware anycast routing in mobile ad hoc networks
Zhou et al. A bidirectional Q-learning routing protocol for UAV networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210629

CF01 Termination of patent right due to non-payment of annual fee