CN114339936A

CN114339936A - 基于q学习的飞行器自组织网络优化链路状态路由机制

Info

Publication number: CN114339936A
Application number: CN202111530693.1A
Authority: CN
Inventors: 郑国强; 郝娇杰; 白薇薇; 马华红; 王�锋; 杨伟峰; 冀保峰; 吴红海; 郑奕薇
Original assignee: Henan University of Science and Technology
Current assignee: Henan University of Science and Technology
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-12

Abstract

基于Q学习的飞行器自组织网络优化链路状态路由机制，该机制基于节点亲密度、链路质量和剩余能量建立奖励函数计算奖励值，节点根据环境反馈的奖励值对该节点选择下一跳节点的策略进行调整，以减少数据传输的延迟；根据节点移动感知过程计算决定Q值更新快慢的学习速率参数，以保证数据的实时性；利用奖励函数和学习速率构建Q学习优化函数计算下一跳节点的Q值，选择Q值最大的下一跳节点作为转发节点，以提高网络的生存期。该机制利用Q学习算法选择转发节点，能够适用于拓扑结构高度变化的飞行器自组织网络。仿真结果表明，本文提出的Q‑OLSR机制相比于OLSR和QMR在端到端延迟、包投递率和能量消耗方面均有提升。

Description

基于Q学习的飞行器自组织网络优化链路状态路由机制

技术领域

本发明涉及无线通信技术领域，具体说的是基于Q学习的飞行器自组织网络优化链路状态路由机制。

背景技术

近年来，由于飞行器具有部署灵活、用途多样和成本较低等特点，飞行器在军用0和民用0领域得到广泛的应用。为了保证多个飞行器之间高效可靠的通信，飞行器自组织网络(FANET)的路由机制成为了研究的热点。飞行器自组织网络的路由机制主要分为基于拓扑结构、基于地理位置和基于强化学习的路由机制。

飞行器自组织网络中基于拓扑结构的路由机制分为主动式路由机制、反应式路由机制和混合式路由机制。优化链路状态路由机制(OLSR)是基于拓扑结构的主动式路由机制，主动式路由机制是在路由之前先建立好路由表，因此该机制的优点是时延小，但由于飞行器自组织网络是高度动态变化的，在发送数据包之前建立好路由会产生较大的网络开销。为了减少网络开销的问题，文献0提出了基于能量移动感知过程的OLSR路由机制，基于节点速度和剩余能量选择中继节点。文献0提出了EE-OLSR路由机制，在保证QOS的情况下，基于节点的意愿度选择中继节点，延长网络寿命。

飞行器自组织网络中基于地理位置的路由机制主要分为传统的贪婪周边无状态路由机制(GPSR)和以GPSR为基础对路由空洞问题进行改进的一些路由机制。文献0提出了可扩展的预测性地理多播路由机制，通过利用网络优化工具实现了可扩展的预测性地理多播路由机制，然后将可扩展的预测性地理多播路由机制和传统的基于地理位置的路由机制相结合对飞行器自组织网络的路由进行优化。该路由机制在通信范围增加时，单跳预测转发器到达组播目的节点的概率也增加。

为了使飞行器自组织网络实现高效的通信，采用强化学习算法对传统的路由机制进行优化。强化学习的经典算法是Q-learning算法，Q-learning以环境反馈为输入的自适应学习算法，主体可以根据环境反馈的奖励值不断调整自己的行动策略，以更好地适应动态的、不可持续的拓扑结构。文献0提出了基于强化学习的地理路由，它考虑了能量效率、延迟和路由失效期来提高传感器网络的网络性能。文献0在无线自组织网络中使用Q学习算法优化多播路由协议(Q-MAP),该算法分为正向路由发现和反向路由回复两个阶段，并且以分布式建立路由路径。文献0提出了T-OLSR路由机制，利用飞行器的运行轨迹作为已知因子，每个节点在hello消息和拓扑控制消息中共享节点的短期轨迹信息，基于轨迹信息采用Q学习优化OLSR路由机制。

基于上述三类路由机制研究发现，基于拓扑结构的OLSR路由机制，无需等待就可提供源节点到目的节点的传输路径，但会产生一个大的网络开销；基于地理位置的路由机制需要知道自身和目的节点的地理位置为前提，实时获取目的节点的位置信息有一定难度；基于强化学习的路由机制是利用Q学习算法对传统的路由机制进行优化，但传统的Q学习优化算法使用固定的学习率和折扣因子。基于地理位置的路由机制不仅需要提前获取位置信息，而且在数据分组传输时会出现路由空洞问题。

飞行器自组织网络中常用的路由机制有基于拓扑结构路由、基于地理位置路由、基于无信标机会路由和基于强化学习路由。本文主要利用强化学习算法优化基于拓扑结构的OLSR路由机制0。目前，在基于强化学习的路由机制设计方面做了大量的研究工作。在本节中，对与本文研究相关的参考文献进行分析。

文献0提出了一种基于概率的强化学习地理路由算法(Q-PR)，Q-PR使用强化学习和贝叶斯决策模型来确定最优路由,该算法在消息发送期间发现下一跳；根据数据重要性、节点概况、预期传输和接收能量建立Q学习优化函数，将贝叶斯决策模型用于提高将数据分组传输到候选邻居节点的实时性。实验结果表明Q-PR的性能高于基于地理位置的路由机制。然而，该路由机制没有考虑节点的移动性，不适合用于节点高速移动的飞行器自组织网络。

文献0基于邻居节点间的距离利用Q学习算法自适应预测邻居节点，提出了基于Q学习的邻居节点自适应选择算法，基于存储利用率和代价函数计算学习速率，利用学习速率建立新的Q学习优化函数。提高了路由机制的有效性，实现了更少的数据包丢失，提高了数据包投递率。

在0中提出了一种飞行器网络中基于Q学习的多目标路由优化机制(QMR)，以提供低延迟、低能耗、高吞吐量的服务保证。现有的Q学习都是基于固定的学习速率，该路由机制根据节点的移动速度自适应地调整Q学习速率，并且还提出了一种新的探索和发开机制，以适应无人机自组织网络的高动态性。

文献0提出了在无人机器人网络中基于Q学习的地理路由协议(Q-Geo),Q学习的奖励函数与数据包的传输速度有关，该路由协议采用基于节点地理位置信息进行分布式路由决策，在移动场景下具有良好的分组投递率和更低的时延。但该路由机制没有考虑节点能耗，节点的电池寿命被认为是无人机的一个主要缺点，因此设计低能耗的路由协议是非常必要的。

文献0提出了基于Q学习的数据聚合感知高效路由算法，该算法根据传感器数据聚合效率和节点剩余能量构造奖励函数计算奖励值获得最优路径。只在二维环境中验证了算法的可行性，不适合用于在三维环境中运行的飞行器自组织网络。

文献0提出了一种深度Q网络(DQN)，用于捕获转发节点到目的节点的最优路由。DQN基于历史飞行数据以离线方式进行训练。为了提高DQN路由的学习效率和在线适应性，利用带有反馈机制的深值网络(DVN)来挖掘系统的动态知识。但该算法只考虑了端到端延迟性能指标，没有考虑节点的能耗。

文献0提出了一种飞行器网络中基于Q学习模糊逻辑的多目标路由算法。该算法除了考虑基本的传输性能外，还考虑了节点的移动性和每个节点的能量对网络性能的影响。每个节点使用一个带有链路和路径参数的模糊系统来确定到达目的节点的最佳路由路径，利用Q学习动态更新路径层参数。由于为每个节点设置一个模糊系统，会产生一个较大的能耗，该方法适合用于节点数量少的网络环境中。

[1]Silva L,Bernardo R M,Oliveira H,et al.Multi-UAV agent-basedcoordination for persistent surveillance with dynamic priorities[C]//International Conference on Military Technologies.IEEE,2017。

[2]Erdelj M,Krol M,Natalizio E.Wireless Sensor Networks and Multi-UAVsystems for natural disaster management[J].Computer Networks,2017,124(SEP.4):72-86。

[3]Jabbar W A,Ismail M,Nordin R.Energy and mobility consciousmultipath routing scheme for route stability and load balancing in MANETs[J].Simulation Modelling Practice and Theory,2017,77(September2017):245-271。

[4]Rango F D,Fotino M,Marano S.EE-OLSR:Energy Efficient OLSR routingprotocol for Mobile ad-hoc Networks[C]//Military Communications Conference,2008.MILCOM 2008.IEEE.IEEE,2008。

[5]Hussen H R,Choi S C,Park J H,et al.Predictive geographic multicastrouting protocol in flying ad hoc networks[J].International Journal ofDistributed Sensor Networks,2019,15(7):155014771984387。

[6]Dong S,Agrawal P,Sivalingam K.Reinforcement Learning BasedGeographic Routing Protocol for UWB Wireless Sensor Network[C]//IEEE GlobalTelecommunications Conference.IEEE,2007。

[7]Sun R Y,Tatsumi S J,Zhao G.Q-MAP:a novel multicast routing methodin wireless ad hoc networks with multiagent reinforcement learning[C]//Tencon02 IEEE Region 10 Conference on Computers.IEEE,2002。

[8]Hou C,Xu Z,Jia W K,et al.Improving aerial image transmissionquality using trajectory-aided OLSR in flying ad hoc networks[J].EURASIPJournal on Wireless Communications and Networking,2020,2020(1)。

[9]Khan M F,Yau K,Noor R M,et al.Routing Schemes in FANETs:A Survey[J].Sensors(Basel,Switzerland),2020,20(1)。

[10]Arroyo-Valles R,Alaiz-Rodriguez R,Guerrero-Curieses A,et al.Q-Probabilistic Routing in Wireless Sensor Networks[C]//InternationalConference on Intelligent Sensors.IEEE,2007。

[11]Alfarraj O,Tolba A,Alkhalaf S,et al.Neighbor Predictive AdaptiveHandoff Algorithm for Improving Mobility Management in VANETs[J].ComputerNetworks,2019,151(MAR.14):224-231。

[12]J Liu,Wang Q,He C T,et al.QMR:Q-learning based Multi-objectiveoptimization Routing protocol for Flying Ad Hoc Networks[J].ComputerCommunications,2019,150。

[13]Woo-Sung,Jung,Jinhyuk,et al.QGeo:Q-Learning-Based Geographic AdHoc Routing Protocol for Unmanned Robotic Networks[J].IEEE CommunicationsLetters,2017,21(10):2258-2261。

[14]Yun W K,Yoo S J.Q-Learning-Based Data-Aggregation-Aware Energy-Efficient Routing Protocol for Wireless Sensor Networks[J].IEEE Access,2021,9:10737-10750。

[15]Liu D,Cui J,Zhang J,et al.Deep Reinforcement Learning AidedRouting in Aeronautical Ad Hoc Networks[J].IEEE Transactions on VehicularTechnology,2021,PP(99):1-1。

[16]Yang,Q.,Jang,SJ.&Yoo,SJ.Q-Learning-Based Fuzzy Logic for Multi-objective Routing Algorithm in Flying Ad Hoc Networks.Wireless Pers Commun,2020,113:115–138。

[17]Ateya A A,Muthanna A,Gudkova I,et al.Latency and energy-efficientmulti-hop routing protocol for unmanned aerial vehicle networks[J].International Journal of Distributed Sensor Networks,2019,15。

发明内容

为解决上述技术问题，本发明提供一种基于Q学习的飞行器自组织网络优化链路状态路由机制，利用奖励函数和学习速率建立新的Q学习优化函数，以适应FANETs高动态变化的拓扑结构，并提高路由协议的鲁棒性。

为实现上述技术目的，所采用的技术方案是：基于Q学习的飞行器自组织网络优化链路状态路由机制，包括以下步骤：

步骤一、每个节点定期向周围节点发送hello数据包，任何节点在接收到来自其他节点的hello数据包后，建立或更新邻居表信息，根据邻居表得到节点N_i的下一跳节点N_i+1集合

步骤二、当节点N_i开始传输数据，判断下一跳节点N_i+1是否在节点N_i的通信范围内，如果在通信范围内，判断下一跳节点N_i+1是否为目的节点，如果为目的节点，将直接传输数据，如果非目的节点，根据节点邻近度

剩余能量E_l和链路质量LQ构建奖励函数，计算N_i+1的奖励值，设定0.5≤a≤1，a为常数，如果奖励值小于a，需要重新选择下一跳节点；若奖励值大于等于a，基于节点间的距离和方向计算学习速率α_Ni,Nj，基于奖励函数和学习速率α_Ni,Nj构造Q学习优化函数，计算所有N_i+1的Q值，从

中选择Q值最大的节点N_j作为中继节点,即QN_j；步骤三、节点N_i利用步骤二得到的中继节点QN_j进行数据传输。

Q学习优化函数计算方法为

其中，

表示最大未来期望值，

表示当前状态的Q值，α_Ni,Nj表示学习速率，γ表示折扣因子，

表示下一个状态的奖励值。

奖励函数的计算方法为

其中，E_l表示节点的剩余能量，LQ表示链路质量，

表示节点邻近度,ω₁+ω₂+ω₃＝1。

节点的剩余能量计算方法为

E_tx(k,r)＝E_el+kpr² (3)

E_rx(k,r)＝E_elk (4)

E_l＝E_i-E_tx(k,r)-E_rx(k,r) (5)

其中,k表示发送信息的比特数，r表示有效传输半径，E_el表示电路元件发送和接收单位比特数据所消耗的能量，p表示功率放大器发送单位比特数据的能耗系数，E_tx(k,r)表示发送k比特数据、传输距离为r的情况下的耗能情况，E_rx(k,r)表示在传输距离为r、接收k比特数据所需要消耗的能量。

链路质量的计算方法为

其中，D(V_k)表示节点方差，

表示节点N_i的相对速度，n为节点总数。

节点邻近度的计算方法为

其中，dis(N_i,N_j)表示节点N_i与N_j的距离，r表示有效传输半径。

学习速率计算方法为

其中，dis(N_i,N_j)表示节点N_i与N_j的距离，ang(N_i,N_j)表示节点N_i与N_j的方向，dis(N_i,N_j)表示节点N_i与N_j的距离，

和|NsN_i|是源节点Ns到节点N_i的向量值和距离，

和|N_iN_j|是节点N_i到邻居节点N_j的向量值和距离，0.5≤a≤1。

节点N_i与N_j的距离计算方法为

其中，(X(t),Y(t),Z(t))表示节点当前的位置，(X(t₁),Y(t₁),Z(t₁))表示下一时刻节点的位置。

本发明有益效果是：针对飞行器自组织网络基于Q学习的路由优化机制研究中，奖励函数和学习速率的建立只考虑单个路由指标对整个网络性能的影响。本文提出了基于Q学习的飞行器网络OLSR路由研究(Q-OLSR)。所提出的路由机制为了减少数据传输延迟，在建立奖励函数时考虑了节点邻近度、链路稳定性和剩余能量；为了保证数据的实时性，根据节点的移动状态计算学习速率；为了提高路由的鲁棒性，根据奖励函数和学习速率得到新的Q学习优化函数计算所有下一跳节点的Q值，选择Q值最大的节点作为转发节点进行数据传输。仿真结果表明，本文提出的路由机制在端到端延迟、能量消耗和数据包投递率方面要优于OLSR和QMR。

附图说明

图1为本发明的网络模型图；

图2为节点方向计算图；

图3为本发明的流程图；

图4为不同距离的包投递率图；

图5为不同速度的包投递率图；

图6为不同距离的端到端延迟图；

图7为不同速度的端到端延迟图；

图8为不同距离的能量消耗图；

图9为不同速度的能量消耗图。

具体实施方式

本文利用多个飞行器构成一个飞行器自组织网络，如图1所示。该网络模型中智能体(节点)、奖励、多个飞行器构成的学习环境，节点间的有效传输半径为r。强化学习三元组的状态空间为所有节点，动作空间为节点转发数据时选择中继节点的过程，奖励为完成一次动作之后网络环境反馈的奖励值，智能体根据网络环境反馈的奖励值调整对下一跳节点的选择策略，利用飞行器间不同的运动方向和相对距离为整个网络环境提供移动状态感知信息计算学习速率。

模型假设：

(1)智能体(节点)的学习环境为整个飞行器自组织网络，学习过程是一个三元组(状态空间SN、动作空间AN和奖励值RN)。

(3)智能体的状态空间表示为

表示网络中所有节点的状态。

(4)智能体的动作空间表示为

动作被定义为当前节点传输数据包到下一跳节点的过程。

(5)完成一次动作之后，网络环境会反馈给该节点一个奖励值，根据该奖励值的大小对下一跳的选择策略进行调整。

1、Q-OLSR路由机制

本文提出的Q-OLSR路由机制使用Q学习算法对主动式路由机制进行优化。在飞行器自组织网络中每个节点是一个智能体，当有数据包传输时，节点需要根据网络环境反馈的奖励值对该节点的下一跳节点选择策略进行调整，以减少数据传输延迟；为了适应飞行器自组织网络的动态拓扑结构，利用节点移动的方向和速度计算学习速率，学习速率越快，对下一跳节点的选择就越精准，以保证数据传输的实时性；基于奖励函数和学习速率建立Q学习优化函数计算并更新节点Q值的大小，从下一跳节点中选择Q值最大的节点作为中继节点，以提高网络的生存期。下面详细介绍Q学习优化函数的计算及Q-OLSR路由机制的实现。

1.1、Q学习优化函数的计算

利用剩余能量、节点邻近度和链路质量建立奖励函数计算节点的奖励值；根据节点的移动状态作为影响学习快慢的因素，利用节点间不同的距离和方向计算学习速率。本文基于奖励函数和学习速率构建Q学习优化函数，计算公式如下：

其中，

表示最大未来期望值，

是下一个状态的奖励值。

1.1.1、奖励函数

本文基于节点邻近度、节点剩余能量和链路稳定性建立奖励函数，计算公式如下：

其中，E_l表示节点的剩余能量，LQ表示链路质量，

表示节点邻近度,ω₁+ω₂+ω₃＝1。

的值越大，表示该状态下采取的动作越有效，节点间的通信能力越强，网络性能越好。

节点剩余能量：在选择下一跳节点时将剩余能量作为选择标准，所以针对网络中节点发送和接收数据建立一阶能量消耗模型，计算公式如下：

E_tx(k,r)＝E_el+kpr² (3)

E_rx(k,r)＝E_elk (4)

其中,k表示发送信息的比特数，r表示有效传输半径，E_el表示电路元件发送和接收单位比特数据所消耗的能量，p表示功率放大器发送单位比特数据的能耗系数。E_tx(k,r)表示发送k比特数据，传输距离为r的情况下的耗能情况。E_rx(k,r)表示在传输距离为r,接收k比特数据所需要消耗的能量。

从满足方向和距离阈值的一跳邻居中，选择剩余能量高的节点作为中继节点转发拓扑数据包，因此需要设置能量阈值，阈值计算公式如下：

E_l＝E_i-E_tx(k,r)-E_rx(k,r) (5)

其中,E_i表示节点的初始能量，E_l表示节点的剩余能量，E_lim表示节点能量的阈值。

链路质量：由于节点的强移动性，网络拓扑发生动态的变化，为了保证节点间通信的稳定性，需要考虑链路质量指标，链路质量是依据0中提出的算法进行估计，利用切比雪夫不等式计算节点与每个相邻节点之间通信链路的稳定性，计算公式如下：

其中，E(x)是离散随机变量x的期望值，ε是任意正数，D(x)是离散随机变量x的方差。随机变量设置为节点的速度，速度方差的值越小，两个节点之间的相对移动性就越小，这意味着两个节点之间的链路质量更好；当节点之间的速度方差为1时，链路被认为是完全不稳定的，该节点从链路中删除，这是最坏的情况。

另一方面，当速度方差为零时链路的稳定性最佳，这意味着节点之间没有相对移动性，在这种情况下，A和B之间的链路被定义为完全稳定。链路质量计算公式如下：

其中，D(V_k)表示节点方差，

表示节点N_i的相对速度。LQ值越小，链路质量越好，n为节点总数。

节点邻近度：节点邻近度表示节点间的亲密度，如果两个节点不在彼此的通信范围内，则节点邻近度为0；反之，根据节点间距离和传输范围的比值进行计算，节点邻近度的计算公式如下：

其中，dis(N_i,N_j)表示节点N_i与N_j的距离，r表示有效传输半径，节点邻近度

越大,节点间的亲密度越高，数据包成功投递率越高。

1.1.2、学习速率

在Q学习中，学习速率表示新获得的信息对先前信息的覆盖程度。现有基于Q学习的路由优化机制大多使用固定的学习速率，然而在节点高速移动的飞行器自组织网络中，使用固定的学习率，可能会使原中继节点丧失数据分组转发资格，严重的情况下会导致数据传输失败。为了适应动态的网络环境，本文根据节点移动感知过程调整学习速率。根据第3节提出的网络模型，利用节点间不同的距离和移动方向计算学习速率。学习速率计算公式如下：

和|NsN_i|是源节点Ns到节点N_i的向量值和距离，

和|N_iN_j|是节点N_i到邻居节点N_j的向量值和距离，0.5≤a≤1。

节点方向的计算示例图如2所示，利用公式(11)进行计算，如下：

其中,N₃和N₄当前节点n₂的邻居节点，

和|sn₂|是源节点Ns到N₂的向量值和距离，

和|N₂N₃|是节点N₂到节点N₃的向量值和距离。节点间距离的计算公式如下：

1.2、路由过程

本文提出的基于Q-learning的路由机制分为三个过程：初始化阶段，确定中继节点阶段和数据传输阶段，路由实现过程如图3所示。

初始化阶段：每个节点定期向周围节点发送hello数据包，任何节点在接收到来自其他节点的hello数据包后，建立或更新邻居表(Q表)信息。为了保证高效可靠的通信，每个节点需要及时更新当前状态信息和邻居节点状态信息。每个节点内部维护一个Q表，由Q表可以得到节点N_i的下一跳节点N_i+1集合

确定中继节点阶段：若节点N_i有数据进行传输，首先根据Q表判断节点N_i的下一跳节点N_i+1是否为目的节点。若不是目的节点，根据节点邻近度、剩余能量和链路质量构建奖励函数计算N_i+1的奖励值，设定0.5≤a≤1，a为常数，。如a取0.5，如果奖励值小于0.5，需要重新选择下一跳节点；若奖励值大于等于0.5，基于节点间的距离和方向计算学习速率。基于奖励函数和学习速率构造Q学习优化函数，计算所有N_i+1的Q值，从

中选择Q值最大的节点N_j作为中继节点,即QN_j。中继节点的确定过程如算法1所示。

数据传输阶段：当节点i有数据进行传输时，首先判断N_i是否在节点i的通信范围内，如果N_i不在节点i的通信范围内直接结束；反之，判断N_i是否为目的节点，若N_i在节点i的通信范围内且是目的节点，直接进行数据传输；否则需要确定好中继节点之后,节点i将数据发送到中继节点进行传输，重复上述步骤，直到数据成功传输到目的节点。

算法1转发节点的确定过程输入：有效传输半径r,剩余能量E_l，节点邻近度

链路质量LQ，节点间距离dis(N_i,N_j)和方向ang(N_i,N_j)

输出：N_i+1的q值

Start：

1：根据Q表得到节点N_i的下一跳节点N_i+1，判断N_i+1是否在节点N_i的通信范围内

2:if(N_i+1＝＝destination node)

3:{send data packet

4:else if(N_i+1inrofN_i)

{

if(E_l of the next hop node>E_lim)

{

if((V_k)_Ni of the next hop node>V_lim)

{

Construct the reward function

}else end

5:if(dis(N_i,N_j)&&ang(N_i,N_j)>Threshold value)

{

Count the next hop node Q learning rate

}

6:Based on the reward function and q-learning rate,the q-learningoptimization function is obtained

7:calculate the q value of all N_i+1

8:Select N_i+1with the largest q value as the relay node

}else end

end

2、仿真分析

为验证Q-OLSR有效性，利用python进行仿真测试，并将Q-OLSR与OLSR和基于Q学习的多目标路由机制(QRM)进行比较，其性能参数包括包投递率、端到端延迟和能耗等。由于飞行器自组织网络拓扑频繁变化，因此链路质量也是需要考虑的关键指标。在500*500的仿真区域内分布30个节点，目的节点的坐标为(500*500)，我们随机选择一个节点作为源节点向目的节点传输数据，除了目的节点之外的其余节点都是中继节点。最初，为每个链路设置的Q值为0.5，仿真参数如表1所示：

表1仿真参数

包投递率是目的节点接收到的数据包与源节点发送的数据包的比值关系，包投递率越高表示网络可靠性越高，通信状况越好。如图4、5所示，展示了不同距离和速度的包投递率。从图4中可以清晰的看出，随着距离的增加，链路断开的概率会增加，包投递率是一个递减的趋势。但我们所提出的路由机制在计算奖励函数的时候考虑了链路质量参数，链路质量是根据节点间的速度进行计算。在固定的有效通信范围内，节点的移动速度越慢，则节点间的相对距离变化越小，包投递率就会越高。在QMR中利用Q学习进行路由决策时，并没有考虑链路质量对包投递率的影响。因此QMR的投递率略低于我们所提出的路由机制。传统的OLSR的包投递率最低，因为OLSR利用了传统的多点中继选择机制选择最优的中继节点转发数据包。所以投递率整体低于QMR和Q-OLSR路由机制。在图5中，随着节点速度的增大，包投递率呈现下降趋势，我们所提出的机制基于节点的速度对链路质量进行评估。节点速度变大，链路质量不稳定，包投递率会有所降低。但我们所提出的路由机制包投递率整体要高于QMR和Q-OLSR。

端到端的延迟是数据包从源节点传输到目的节点所需的时间，反映整体网络性能的重要指标。从图6、7可以清晰的看出，随着节点间距离和速度的增加端到端的延迟也在呈线性的增加。但我们所提出的路由机制利用节点的移动状态计算学习速率。学习速率越大，Q值更新的越快，能更准确的选择下一跳节点转发数据，进而减少端到端的延迟。我们所提出的Q-OLSR路由机制端到端延迟比OLSR和QMR分别降低了17％、28％。

能耗定义为所有节点执行的发送和接收数据包的平均次数。如图8、9所示，反映了不同距离和速度之间节点的能量消耗，随着节点之间距离和速度的增加，能耗也呈现上升趋势。我们所提出的路由机制的奖励函数构造考虑了节点的剩余能量。当有数据发送到目的节点时，当前节点选择Q值最大的下一跳节点作为转发节点。本文所提出的路由机制是基于主动式路由，在数据传输前要先建立路由表，会有较大的网络消耗。仿真初始阶段为节点间的距离为40m。节点间距离为小于40的时候，我们所提出的Q-OLSR路由机制的能耗略高于QMR。但节点距离大于40m时，能耗明显低于QMR。我们所提出的Q-OLSR路由机制的能耗与QMR和OLSR相比分别降低了10％、20％。