CN111479306A

CN111479306A - 一种基于Q-learning的飞行自组网QoS路由方法

Info

Publication number: CN111479306A
Application number: CN202010255387.0A
Authority: CN
Inventors: 黄鑫陈; 谭冲; 刘洪�; 郑敏
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-31
Anticipated expiration: 2040-04-02
Also published as: CN111479306B

Abstract

本发明提出一种基于Q‑learning的飞行自组网QoS路由方法，包括：以Q‑learning强化学习框架为基础，将邻居节点度、链路持续时间和链路可用带宽三个因素作为路由度量信息，定义一种提供QoS保证的Q‑learning奖励函数；各个网络节点作为发送节点将各自本地的路由度量信息发送给其邻居节点，邻居节点作为接收节点根据所述路由度量信息和Q‑learning奖励函数计算并更新Q值，以维护Q值表，所述发送节点在存在待转发的数据分组时，根据其维护的Q值表智能选择下一跳转发节点。本发明在吞吐量和平均端到端时延上具有较好的性能，能为高动态飞行自组网中数据传输提供稳定性好、服务质量高的通信链路。

Description

一种基于Q-learning的飞行自组网QoS路由方法

技术领域

本发明属于飞行自组网领域，具体涉及一种基于Q-learning的飞行自组网QoS路由方法。

背景技术

飞行自组网(FlyingAdHocNetworks)作为一种新的移动自组网(MobileAd-hocNetworks)，由多个无人机组成飞行自组网络，这种网络由具有无线通信功能的节点组成，不依赖任何固定的基础设施，以一种无中心、自组织和多跳传输方式，可实现无人机间的协同，相比较于单无人机，在执行任务的效率、生存力、可靠性和扩展性等方面具有明显优势。因此飞行自组网得到了广泛关注和研究，为多机协同、抢险救灾等应用场景提供应急通信网络。

在高动态飞行自组网中，网络节点频繁入网、退网以及快速移动，网络拓扑变化快，链路容易断裂和路由重建频繁，从而导致数据分组丢失严重，网络性能严重下降。

路由选择作为网络通信的关键技术之一，决定了数据的传输路径，对网络整体性能有着非常重要的影响。

目前飞行自组网中采用的路由方法通过自组网网络(adhoc)路由协议及其改进来实现。adhoc网络路由协议是指adhoc网络中的路由协议，包含很多协议。其中，传统的adhoc网络路由协议，例如AODV(AdhocOn-DemandDistanceVectorRouting)和DSR(DynamicSourceRouting)，难以适应网络拓扑结构的快速变化，不能保证网络的服务质量(QualityofService,QoS)。

2008年，ZhengZ.等人提出了一种针对飞行自组网的自适应路由方法，以适应网络拓扑结构的快速变化，参见文献【Zheng,Z.；Sangaiah,A.K.；Wang,T.Adaptivecommunicationprotocolsinflyingadhocnetwork.IEEECommun.Mag.2018,56,136–142.】。然而，该方法仍具有考虑的指标比较单一的缺点，如单独考虑链路联通性、链路持续时间、节点能量等，难以找到综合性能最好的链路。

强化学习(ReinforcementLearning,RL)利用智能体(Agent)与环境(Environment)的交互，通过映射动作(Action)和场景进行学习以获得最优策略。它不会告诉Agent在当前状态(State)下应该采取的最优动作，而是让Agent与环境进行交互，通过不断地尝试来最大化总奖励值进而获得最优策略。图1描述了强化学习(RL)的基本框架。RL中的智能体根据系统的当前状态以及从环境中接收到的反馈来选择操作。满足马尔可夫性质的强化学习任务称为马尔可夫决策过程(MarkovDecisionProcess,MDP)，通常用一个四元组(s,a,p,r)来描述MDP，该四元组分别表示状态、动作、转移概率(transitionprobabilities)和奖励(Reward)。

在图1中，定义：

(1)动作(a)：智能体可以采取的所有可能的行动。

(2)状态(s)：环境返回的当前情况。

(3)奖励(r_t)：环境的即时反馈值，以评估智能体选择的上一个动作。

(4)策略(π)：智能体根据当前状态决定下一步动作的策略。

(5)价值(V)：折扣(discount)下的长期期望返回值，与r_t代表的短期返回相区分。V^π(s)定义为策略π下当前状态s长期返回值的期望。

(6)Q值或行动值(Q)：与r_t相似，但多一个参数a。Q^π(s,a)指当前状态s在策略π下采取动作a的长期回报。

Q-Learning作为其中一种经典的强化学习算法，通过不断与外界交互信息，能够在动态的环境中找出一条到达目的地的最佳路径。Q-learning强化学习算法是基于贝尔曼方程(BellmanEquation)的离策略、无模型强化学习算法。

发明内容

本发明旨在提出一种基于Q-learning的飞行自组网QoS路由方法，以保证飞行自组网的网络性能。

为了实现上述目的，本发明提供了一种基于Q-learning的飞行自组网QoS路由方法，其特征在于，包括：

S1：以Q-learning强化学习框架为基础，将邻居节点度、链路持续时间和链路可用带宽三个因素作为路由度量信息，定义一种提供QoS保证的Q-learning奖励函数；

S2：各个网络节点作为发送节点S将各自本地的路由度量信息发送给其邻居节点，邻居节点作为接收节点R根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以维护其Q值表，所述发送节点在存在待转发的数据分组时，根据其维护的Q值表智能选择下一跳转发节点。

所述步骤S1具体包括：

S11：定义所述飞行自组网的邻居节点度、链路可用带宽和链路持续时间；

S12：定义发送节点S到接收节点R的Q-learning奖励函数A(S,R)，所述Q-learning奖励函数A(S,R)为：

A(S,R)＝-g+[w_N·n(R)+w_B·b(S,R)+w_T·t(S,R)]，

其中，w_N、w_B和w_T分别为邻居节点度、链路可用带宽和链路持续时间的权重因子，且满足w_N+w_B+w_T＝1；n(R)、t(S,R)和b(S,R)分别为邻居节点度、链路持续时间和链路可用带宽的归一化值；g为取值是正常数的惩罚因子；所述邻居节点度、链路持续时间和链路可用带宽的归一化值n(R)、t(S,R)和b(S,R)分别为：

其中，n(R)、t(S,R)和b(S,R)分别为邻居节点度、链路持续时间和链路可用带宽的归一化值，N(R)、T(S,R)和B(S,R)分别为邻居节点度、链路持续时间和链路可用带宽，B_max为链路可用带宽的上限值。

在所述步骤S2中，更新的Q值为接收节点R对各个发送节点S的质量评估Q_R(D，S)，其公式为：

其中，Q_R(D，S)为接收节点R对发送节点S的质量评估，Q_S(D，X)为发送节点S对其邻居节点X的质量评估，为α∈(0,1]为学习速率，γ∈[0,1)为折扣因子，N_S为发送节点S的邻居节点集，A(S,R)为发送节点S到接收节点R的Q-learning奖励函数。

在所述步骤S2中，所述路由度量信息包括该发送节点S的发送可用时长、节点位置坐标、邻居节点度和Q_max值链表，Q_max为所述发送节点S对其邻居节点X的质量评估Q_S(D，X)的最大值。

所述步骤S2包括：

S21：各个网络节点首先统计各自本地的路由度量信息，然后作为发送节点S周期性广播Hello分组并转发数据分组，其邻居节点作为接收节点R通过Hello分组和数据分组接收来自发送节点的路由度量信息；

S22：各个接收节点R在接收到的Hello分组或数据分组中提取所述路由度量信息，根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以本地维护接收节点R的Q值表，所述Q值表包括接收节点R对其邻居节点的质量评估；发送节点S在存在待转发的数据分组时，根据该接收节点R维护的Q值表智能选择下一跳转发节点。

在所述步骤S21中，所述路由度量信息封装在所述Hello分组的IP信息的头部，且所述路由度量信息和数据分组的原始IP信息共同封装在所述数据分组的IP信息的头部。

所述步骤S22包括：

S221：各个接收节点R在正确接收到Hello分组或数据分组时，从该Hello分组或数据分组中提取路由度量信息，根据所述路由度量信息计算并更新该接收节点R的邻居链表中的邻居节点度、链路持续时间和链路可用带宽，根据不同的发送节点的链路可用带宽形成更新的链路可用带宽链表；

S222：根据定义得到发送节点S到接收节点R的Q-learning奖励函数A(S,R)；

S223：判断接收节点R接收到的是否是数据分组，若是数据分组，则提取目的节点的地址，并根据所述路由度量信息中的Q_max值链表和所述Q-learning奖励函数来计算对应于该目的节点D的接收节点R对发送节点S的质量评估，以更新Q值表中该目的节点对应的列的Q值；否则释放丢弃Hello分组释放内存并结束；

S224：判断所述接收节点R是否是数据分组的目的节点，若是，则目的节点不是接收节点R的数据分组将被丢弃，其余数据分组将上传给上层；否则，接收节点R通过查询Q值表选择Q值最高的节点作为下一跳转发节点；

S225：采用接收节点R作为新的发送节点S，将下一跳转发节点作为接收节点R，回到所述步骤S21，直到数据分组成功到达目的节点。

在所述步骤S21之前，还包括步骤S20：每个节点均利用自身的物理载波侦听能力通过在一个固定测量周期T_mea内统计所述节点的空闲时间，以获取各自的发送可用时长和接收可用时长；且在所述步骤S221中，所述链路可用带宽根据所提取的路由度量信息中的发送节点S的发送可用时长，以及该接收节点R的接收可用时长来计算并更新，具体包括以下步骤：

A1：根据所述飞行自组网采用的数据链路层协议来确定链路可用带宽的上限值，链路可用带宽的上限值为在该数据链路层协议下的最大吞吐量B_max；

A2：接收节点R根据所提取的路由度量信息中的发送节点S的发送可用时长和该接收节点R的接收可用时长获取链路L_S,R在固定测量周期T_mea内的可用时长，根据链路可用时长的占比获取链路可用带宽的初步估计值B_pre；链路L_S,R在固定测量周期T_mea内的可用时长T_L为：

T_L＝min{[1-p(S,R)]·T_s(S),[1-p(R,S)]·T_r(R)}，

其中，p(S,R)为发送节点S可以发送数据，但接收节点R不能接收的概率；p(R,S)为接收节点R可以接收数据，但发送节点S不能发送的概率，T_s(S)表示发送节点S的发送可用时长，T_r(R)表示接收节点R的接收可用时长；

所述链路可用带宽的初步估计值B_pre为：

其中，B_pre为链路可用带宽的初步估计值，T_L为链路L_S,R的可用时长，T_mea为测量周期，B_max为链路可用带宽的上限值；

A3：根对链路可用带宽的初步估计值B_pre进行修正，得到所述链路可用带宽B(S,R)；

所述链路可用带宽B(S,R)为：

B(S,R)＝(1-p_con)·B_pre，

其中，p_con为隐藏节点导致的可用带宽消耗的概率，B_pre为链路可用带宽的初步估计值。

在所述步骤S221中，所述链路持续时间T(S,R)为：

其中h为传输距离，且

式中，(x_S,y_S)、(x_R,y_R)分别为发送节点S和接收节点R的横坐标和纵坐标，(V_S,θ_S)、(V_R,θ_R)为发送节点S和接收节点R的移动速度和移动方向。

所述步骤S223还包括：若该目的地址不是接收节点R当前已知的目的节点地址，则在接收节点R的Q值表中新建该目的地址所对应的Q值项；且在所述Q值表中规定了每个目的节点的生存周期，如果在生存周期内某一个目的节点相关的Q值没有得到更新，则认为此目的节点失效，并删除该目的节点对应的列的Q值。

本发明的基于Q-learning的飞行自组网QoS路由方法首先采用强化学习中的Q-learning来自适应移动网络；其次综合考虑了节点质量(邻居节点度)、链路质量(链路持续时间)和服务质量(链路可用带宽)，因此本发明在吞吐量和平均端到端时延上具有较好的性能，能为高动态飞行自组网中数据传输提供稳定性好、服务质量高的通信链路。

附图说明

图1为现有技术中的强化学习的基本框架示意图。

图2为本发明的基于Q-learning的飞行自组网QoS路由方法的路由发现过程的流程图。

图3为本发明的基于Q-learning的飞行自组网QoS路由方法中的传输周期中信号收发的时序图。

图4为本发明的基于Q-learning的飞行自组网QoS路由方法的链路持续时间计算模型的原理图。

图5为分组投递率随仿真时间的变化情况示意图。

图6为总平均端到端时延随仿真时间的变化情况示意图。

图7为不同的总业务负载下的分组投递率示意图。

图8为不同的总业务负载下的总平均端到端时延示意图。

图9为不同运动速率下的网络丢包率示意图。

图10为不同运动速率下的网络吞吐量示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

下面结合附图详细阐述本发明的技术方案。本发明的基于Q-learning的飞行自组网QoS路由方法适用于基于竞争接入的移动自组网，其包括以下步骤：

步骤S1：以Q-learning强化学习框架为基础，将邻居节点度、链路持续时间和链路可用带宽三个因素作为路由度量信息，定义一种提供QoS保证的Q-learning奖励函数。

本发明的飞行自组网QoS路由方法基于Q-learning强化学习框架，其基本原理为：在通信网络中，假设一个节点代表一个状态，数据分组从一个节点传输到另一个节点称为一个动作，每发送一个数据分组，更新一次平均值。数据分组被转发的次数越多，得到样本就越多，则更新次数越多，Q的估计值就越接近于真实值，最后依概率收敛于最优值，从而可以找出一条从源节点到目的节点的最佳路径。

其中，标准的Q-learning强化学习框架的更新公式为：

其中α∈(0,1]为学习速率，用于控制学习更新的速度；γ∈[0,1)，用于表示未来奖赏的折扣，意味着相较于以后的回报看重眼前奖励的程度；r_t为环境的即时反馈值，在本发明中，可根据网络性能需求，将性能参数如跳数、带宽、时延、丢包率、能耗等，映射到r_t中。

所述步骤S1具体包括：

步骤S11：定义所述飞行自组网的邻居节点度、链路可用带宽和链路持续时间。

其中，节点R的邻居节点度用N(R)表示。节点的邻居节点度为节点的一跳邻居节点数，是衡量节点质量的重要度量指标。

一方面，如果有待发送数据的节点随机选择一该节点的邻居节点作为下一跳的转发节点，则该转发节点的邻居节点度可能较小，即转发节点的邻居节点可能稀少甚至没有，从而传输成功率低，容易造成通信链路断裂，从而导致链路的可持续性降低，因此邻居节点度N(R)应该为比较大的值。另一方面，节点的邻居节点度N(R)并非越大越好。假设节点的发送概率为p_t，考虑到本发明的飞行自组网为基于竞争接入的移动自组网，节点将数据分组成功传输出去的概率为p_s为1-(1-p_t)^N(R)-1。邻居节点数越多，越有可能产生分组冲突，导致网络性能下降。分组冲突的含义是：节点的传输范围内同时有多个节点传输数据，导致该节点不能解析到底谁发送的数据分组，不能正确接收数据。

所述链路持续时间T(S,R)为接收节点R处于该发送节点S的通信范围的时间。

步骤S12：定义发送节点S到接收节点R的Q-learning奖励函数A(S,R)。

其中，发送节点S到接收节点R的Q-learning奖励函数A(S,R)为：

A(S,R)＝-g+[w_N·n(R)+w_B·b(S,R)+w_T·t(S,R)] (2)

其中，w_N、w_B和w_T分别为邻居节点度、链路可用带宽和链路持续时间的权重因子，且满足w_N+w_B+w_T＝1；n(R)、t(S,R)和b(S,R)分别为邻居节点度、链路持续时间和链路可用带宽的归一化值；g为取值是正常数的惩罚因子，则-g为负值，因为每次发送数据分组都会消耗节点能量，并且占用一定的信道带宽。基于归一化的n(R)、t(S,R)和b(S,R)，取g＝1，则A(S,R)∈[-1,0]。

根据前面对邻居节点度、链路持续时间和链路可用带宽的定义可知，邻居节点度N(R)∈[0,∞)，链路持续时间T(S,R)∈[0,∞)，链路可用带宽B(S,R)∈[0,B_max]，因此，邻居节点度、链路持续时间和链路可用带宽的归一化值n(R)、t(S,R)和b(S,R)分别为：

Q-learning奖励函数A(S,R)表明网络节点发送数据分组之后会获得一个负的奖励，从而迫使源节点最终选择相对跳数较少的转发路径，因为跳数越多，转发节点获得的负奖励越多，Q值则越小，被选为转发节点的机会越小。对于目的节点D的每一个邻居节点X，都满足A(X,D)＝-1。

步骤S2：各个网络节点作为发送节点S将各自本地的路由度量信息发送给其邻居节点，邻居节点作为接收节点R根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以维护其Q值表，发送节点在存在待转发的数据分组时，根据其维护的Q值表智能选择下一跳转发节点。

由于A(S,R)总是负值，则非目的节点的Q_max值也是负的，从而目的节点的Q_max值最大，定义为Q_max(D,D)＝0。

所述步骤S2具体包括：

步骤S21：路由信息交互，即各个网络节点首先统计各自本地的路由度量信息，然后作为发送节点周期性广播Hello分组并转发数据分组，其邻居节点作为接收节点R通过Hello分组和数据分组接收来自发送节点的路由度量信息，以实现路由度量信息的交互。

由此，接收节点R正确接收到Hello分组或数据分组，就可以从分组头部提取路由度量信息，从而在后续的步骤S22中计算本节点到相应目的节点的Q值，完成后续Q值的计算更新。节点周期性广播Hello分组的目的是确保所有节点(包括那些没有数据流量的节点)能够更新路由度量信息，以辅助接收节点R做出正确的路由决策，其周期性广播的周期大小应根据网络应用需求进行设置。

其中，数据分组就是需要传输的业务，其作用是携带路由度量信息，同时指明需要寻找路由的目的节点。所述原始IP信息包括传统的IP版本、协议版本、源节点的ID地址、目的节点的ID地址等信息。所述路由度量信息包括该发送节点S的发送可用时长(4字节)、节点位置坐标(24字节)、邻居节点度(4字节)和V值链表(即Q_max值链表)。其中，Q_max为该发送节点S对其邻居节点X的质量评估Q_S(D，X)中的最大值，其通过发送节点S在本地查询发送节点S的Q值表得到，V值链表的长度就是经过发送节点S的目的节点的数量，经过发送节点S的目的节点是指发送节点S通过有限跳数能够到达的目的节点，自组网中的目的节点的数量可以为一个或多个。

在所述步骤S21之前，还包括步骤S20：每个节点均利用自身的物理载波侦听能力通过在一个固定测量周期T_mea内统计所述节点的空闲时间(没有检测到信道中有信号传输的时间)，以获取各自的发送可用时长和接收可用时长。

其中，固定测量周期T_mea是获取链路可用带宽的初步估计值B_pre的时间段，就是在固定测量周期T_mea内执行带宽估计算法，并计算出该段时间对应的可用带宽，这期间有很多数据包完成传输，故固定测量周期T_mea包含很多的传输周期，一般量级为秒(s)。固定测量周期T_mea的值取经验值，一般来说，若网络拓扑变化较快，可以取较小值，以在短时间内及时反映网络流量；若网络拓扑变化较慢，则可取较大值。

节点的物理层状态有四种情况：发送、接收、侦听和空闲，发送可用时长为节点处于空闲状态，且处于空闲状态的时间大于DIFS的时长；接收可用时长为节点处于空闲或侦听状态的时长。

步骤S22：路由发现，即，各个接收节点R在接收到的Hello分组或数据分组中提取所述路由度量信息，根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以本地维护接收节点R的Q值表，发送节点S在存在待转发的数据分组时，根据该接收节点R维护的Q值表智能选择下一跳转发节点。

其中，如表1所示，Q值表(即Q矩阵)存储于每个节点(如发送节点S、接收节点R)中并由其维护，Q值表包括节点对其邻居节点的质量评估。以接收节点R的Q值表为例，Q值表包括接收节点R对其邻居节点的质量评估。Q值表中的行代表经过所述接收节点R的目的节点D的ID地址，列表示接收节点R的邻居节点N_i(即相邻的一跳的节点)的ID地址，其中，接收节点R的邻居节点N_i(i＝1,2,…)中包括各个发送节点S。

表1 Q值表

如图2所示为路由发现的流程图，所述步骤S22具体包括以下步骤：

步骤S221：各个接收节点R在正确接收到Hello分组或数据分组时，无论该接收节点R是否会被指定为下一跳转发节点，从该Hello分组或数据分组中提取路由度量信息(该路由度量信息包括发送节点S的发送可用时长、节点位置坐标x、y、z，邻居节点度和Q_max值链表)，根据所述路由度量信息计算并更新该接收节点R的邻居链表中的邻居节点度、链路持续时间和链路可用带宽，根据不同的发送节点的链路可用带宽形成更新的链路可用带宽链表。

其中，所述接收节点R的邻居链表中相应地存储有各个发送节点S(即该接收节点R的邻居节点)的前一时刻位置、前一时刻记录时间、链路持续时间、邻居节点度、链路可用带宽的链表和Q_max值链表。在本实施例中，邻居节点项全部信息如下：目的地址、发送节点S是否为新的标志、发送节点S的前一时刻位置、发送节点S的前一时刻记录时间、链路持续时间、邻居节点度、链路可用带宽的链表、Q_max值链表、指向下一表项的指针。

其中，所述链路可用带宽根据所提取的路由度量信息中的发送节点S的发送可用时长，以及该接收节点R的接收可用时长来计算并更新，具体包括以下步骤：

步骤A1：根据所述飞行自组网采用的数据链路层协议来确定链路可用带宽的上限值。

其中，所述飞行自组网采用的数据链路层协议为现有的数据链路层协议，IEEE定制了众多数据链路层协议，针对无线通信领域，数据链路层协议IEEE802.11是通用标准。在本实施例中，所述飞行自组网采用的数据链路层协议为IEEE802.11，其是现今无线局域网通用的标准，它是由电气和电子工程师协会(IEEE)所定义的无线网络通信的标准。

下面以IEEE802.11DCF协议为例，说明确定链路可用带宽的上限值的具体过程。

定义传输周期为链路成功完成一次数据传输所需要的时间，如图3所示为传输周期中信号收发的时序图。以IEEE802.11DCF协议为例，考虑如图3所示的RTS/CTS四次握手机制，传输周期包含分布式帧间间隔DIFS(DistributedInterframeSpace)、退避过程(BackOff)所经历的时间、RTS/CTS控制帧交互过程经历的时间，DATA/ACK(Acknowledgement)帧交互过程经历的时间，以及3个短帧间间隔SIFS(ShortInterframeSpace)。

所述传输周期的时长为：

t＝t_DIFS+t_B+t_RTS+t_CTS+t_DATA+t_ACK+3t_SIFS (5)

其中，t为传输周期，其为微秒(us)级别，t_DIFS为分布式帧间间隔DIFS，t_B为退避过程(BackOff)所经历的时间，t_RTS、t_CTS分别为RTS/CTS控制帧交互过程经历的时间，t_DATA、t_ACK分别为DATA/ACK(Acknowledgement)帧交互过程经历的时间，t_SIFS为3个短帧间间隔。

用L_DATA表示DATA帧的大小，考虑到传输周期t包含了传输一个DATA帧的其他协议开销，如上文的RTS/CTS、ACK等协议的协议开销，则网络中一条链路能获得的最大吞吐量B_max为：

其中，B_max为最大吞吐量，L_DATA为DATA帧的大小，t为传输周期。

链路可用带宽的上限值为在该数据链路层协议下的最大吞吐量B_max。

步骤A2：接收节点R根据所提取的路由度量信息中的发送节点S的发送可用时长和该接收节点R的接收可用时长获取链路L_S,R在固定测量周期T_mea内的可用时长，根据链路可用时长的占比获取链路可用带宽的初步估计值B_pre；

其中，链路L_S,R在固定测量周期T_mea内的可用时长T_L为：

T_L＝min{[1-p(S,R)]·T_s(S),[1-p(R,S)]·T_r(R)} (7)

其中，p(S,R)为发送节点S可以发送数据，但接收节点R不能接收的概率；p(R,S)为接收节点R可以接收数据，但发送节点S不能发送的概率，T_s(S)表示发送节点S的发送可用时长，T_r(R)表示接收节点R的接收可用时长。

所述链路可用带宽的初步估计值B_pre为：

其中，B_pre为链路可用带宽的初步估计值，T_L为链路L_S,R的可用时长，T_mea为测量周期，B_max为链路可用带宽的上限值。

步骤A3：根对链路可用带宽的初步估计值B_pre进行修正，得到所述链路可用带宽B(S,R)。

在基于竞争接入的多跳adhoc网络中，考虑隐藏节点的信号传输导致节点对(S,R)数据分组冲突，以及信道忙而不能应答CTS，从而造成链路可用带宽损耗的情况，对初步估计值进行修正。在一个测量周期T_mea内，通过侦听信道统计发送节点S的隐藏节点发送信号的总时间为T_hid，可以推出隐藏节点导致可用带宽消耗的概率p_con为：

则链路L_S,R的链路可用带宽B(S,R)为：

B(S,R)＝(1-p_con)·B_pre (10)

其中，p_con为隐藏节点导致的可用带宽消耗的概率；B_pre为链路可用带宽的初步估计值。

考虑图4所示的平面拓扑，设发送节点S为源节点，D为目的节点，R为接收节点，链路持续时间是移动距离RH所需的时间t_RH。然而，在基于贪婪和竞争的转发过程中，经过距离RK所需的时间t_RK明显小于链路持续时间t_RH。

所述链路持续时间为接收节点R处于发送节点S的通信范围的时间T(S,R)，所述链路持续时间为：

其中h为传输距离，且

为了减少协议开销，发送节点S和接收节点R的移动速度和移动方向均由该节点在前一时刻和当前时刻的位置进行估算，而不再交互额外的速度矢量信息。具体来说，接收节点R在前一时刻和当前时刻的位置通过统计本地的路由度量信息得到，发送节点S在前一时刻和当前时刻的位置根据所述步骤S22中提取的路由度量信息中的发送节点S的节点位置坐标x、y、z，以及所述接收节点R的邻居链表中的发送节点S的前一时刻位置、发送节点S的前一时刻记录时间来进行估算。

步骤S222：根据定义得到发送节点S到接收节点R的Q-learning奖励函数A(S,R)。

步骤S223：判断接收节点R接收到的是否是数据分组，若是数据分组，则提取目的节点的地址，并根据所述路由度量信息中的Q_max值链表和所述Q-learning奖励函数来计算对应于该目的节点D的接收节点R对发送节点S的质量评估，以更新Q值表中该目的节点对应的列的Q值；否则释放丢弃Hello分组释放内存并结束。

其中，在更新所述Q值时，所采用了上文的公式(4)，其中的Q_R(D，X)的值是直接从提取的路由度量信息中得到的，为所述路由度量信息中的Q_max值链表。

此外，所述步骤S223还包括：若该目的地址不是接收节点R当前已知的目的节点地址，则在接收节点R的Q值表中新建该目的地址所对应的Q值项。由此，可以在Q值表插入对应于该目的节点的地址的Q值项，以获得该Q值表中该目的节点对应的列。

步骤S224：判断所述接收节点R是否是数据分组的目的节点，若是，则目的节点不是接收节点R的数据分组将被丢弃，其余数据分组将上传给上层；否则，接收节点R通过查询Q值表选择Q值最高的节点作为下一跳转发节点。

此外，如果当前不存在到目的节点的Q值，或者存在多个最高Q值相同的节点，则从中随机选择一个节点转发本次数据分组。

步骤S225：采用接收节点R作为新的发送节点S，将下一跳转发节点作为接收节点R，回到所述步骤S21，以采用新的本地的路由度量信息替换原有的路由度量信息，直到数据分组成功到达目的节点。

利用无线信道的广播特性，路径上节点的邻居节点也会接收到消息，只是后续判断不是发给自己的，提取路由信息后就丢弃数据包。由此，当数据分组成功到达目的节点，与这条路径相邻的部分节点的Q值表也通过路由发现的过程得到更新。此外，由于所有节点都会周期性广播Hello分组，周期性广播Hello分组能够动态地维护全网节点的Q值表，并解决链路断开问题。

此外，在所述步骤S225中，如果数据分组超过一预设跳数或预设时间没有达到目的节点，则将该数据分组而不再进行转发。

此外，在所述步骤S223还包括：在Q值表中规定了每个目的节点的生存周期，如果在生存周期内某一个目的节点相关的Q值没有得到更新，则认为此目的节点失效，并删除该目的节点对应的列的Q值。

由此，实现了路由维护。

仿真结果

下面通过具体实施例子和相关实验参数对本发明实施例所提出的路由方法进行验证，通过仿真实验与已有的经典路由算法进行比较，证明本方法在吞吐量和平均端到端时延上具有较好的性能。

给定具体应用背景如下：利用EXata网络仿真环境进行仿真，在1000m×1000m的方形拓扑中随机均匀分布25个静态节点，任意建立6条多跳业务流，业务流类型为泊松流，数据包的产生时间服从泊松分布。Hello包的广播间隔设置为0.1s，仿真时间40s，统计6条业务流总的分组投递率，吞吐量和平均端到端时延，并与现有技术中的AODV协议(无线自组网按需平面距离向量路由协议)比较分析。设置邻居节点度、链路持续时间和链路可用带宽的权重系数为0.2、0.3和0.5，其他主要仿真参数如表2所示。图5中QQR表示本发明的基于Q-learning的飞行自组网QoS路由方法。

表2主要仿真参数

静态拓扑下设置每条业务流的业务负载为50Kbps，在40s的仿真过程中每隔2s统计一次所有业务流的总分组投递率和总平均端到端时延。

图5显示了分组投递率随仿真时间的变化情况，可以清楚地看到，对于静态拓扑，业务负载保持不变时，AODV协议获得的分组投递率基本保持在一个平均水平，Poisson业务流的随机性会导致统计结果有一些小范围波动集群维持时间随着通信半径的增加而增加。对于本发明提出的路由方法，初始化时Q值表还未建立，故而在仿真初期需要发送数据包来建立并更新Q值表，所以仿真开始阶段业务的分组投递率比较小，随着Q值表慢慢收敛，分组投递率逐渐提高并达到稳定水平。静态拓扑中邻居节点度和链路持续时间维持恒定，由于本发明路由方法还考虑了链路可用带宽，减少了网络拥塞，提高了分组投递率。

图6显示了总平均端到端时延随仿真时间的变化情况，与分组投递率相对应，仿真初期本路由方法的总平均端到端时延较大，后期随着路径的收敛会逐渐变小，最后趋于稳定。同时Q值的动态变化导致路由切换，平均端到端时延会出现波动现象。

静态拓扑下依次改变单条业务流的负载为100Kbps、150Kbps、200Kbps和250Kbps，统计不同业务负载条件下的分组投递率和平均端到端时延。

图7显示了分组投递率随总业务负载的变化情况，图8显示了不同的总业务负载下的总平均端到端时延。小负载条件下两种路由均保持较高的分组投递率和较低的平均端到端时延，随着网络总负载的增加，分组投递率下降，平均端到端时延随之增加。由于考虑到链路可用带宽，本发明的路由方法会轮换使用负载较轻的节点当作中继节点，从而减少分组冲突和网络拥塞，因此整体来看本发明路由方法的分组投递率要高于AODV，同时平均端到端时延比AODV更小。

随后，在静态拓扑条件下增加节点的运动性，将拓扑更改为运动拓扑，设置节点运动模型为RandomWaypoint，停留时间为0s，最小速率为0m/s，最大速率依次设置为0、5、10、15和20(速度单位为m/s)，统计全网的丢包率和吞吐量。

图9显示了不同运动速率下的网络丢包率，图10显示了不同运动速率下的网络吞吐量，随着节点运动速率的加快，通信链路断裂变得频繁，两种协议下的网络丢包率均呈增大趋势，相应的网络吞吐量不断减小。然而，通过周期性交互的Hello分组和转发的数据分组，本发明的路由方法的Q值表得以不断地更新，Q学习的任务被分配到每一个节点中，使得算法能够快速地收敛到最优路径，并且本发明的路由方法综合考虑了邻居节点度、链路持续时间和链路可用带宽三个指标，对网络拓扑的变化能够做出及时的调整，因此较AODV协议丢包率更低，吞吐量更大。但由于Q值的收敛需要一定的时间，对于运动速率很快的网络场景，需要改进和提高Q值收敛速度以获得更好的网络性能。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Q-learning的飞行自组网QoS路由方法，其特征在于，包括：

步骤S1：以Q-learning强化学习框架为基础，将邻居节点度、链路持续时间和链路可用带宽三个因素作为路由度量信息，定义一种提供QoS保证的Q-learning奖励函数；

步骤S2：各个网络节点作为发送节点S将各自本地的路由度量信息发送给其邻居节点，邻居节点作为接收节点R根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以维护其Q值表，所述发送节点在存在待转发的数据分组时，根据其维护的Q值表智能选择下一跳转发节点。

2.根据权利要求1所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，所述步骤S1具体包括：

步骤S11：定义所述飞行自组网的邻居节点度、链路可用带宽和链路持续时间；

步骤S12：定义发送节点S到接收节点R的Q-learning奖励函数A(S,R)；

所述Q-learning奖励函数A(S,R)为：

A(S,R)＝-g+[w_N·n(R)+w_B·b(S,R)+w_T·t(S,R)]，

其中，w_N、w_B和w_T分别为邻居节点度、链路可用带宽和链路持续时间的权重因子，且满足w_N+w_B+w_T＝1；n(R)、t(S,R)和b(S,R)分别为邻居节点度、链路持续时间和链路可用带宽的归一化值；g为取值是正常数的惩罚因子；

所述邻居节点度、链路持续时间和链路可用带宽的归一化值n(R)、t(S,R)和b(S,R)分别为：

3.根据权利要求2所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，在所述步骤S2中，更新的Q值为接收节点R对各个发送节点S的质量评估Q_R(D，S)，其公式为：

4.根据权利要求3所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，在所述步骤S2中，所述路由度量信息包括该发送节点S的发送可用时长、节点位置坐标、邻居节点度和Q_max值链表，Q_max为所述发送节点S对其邻居节点X的质量评估Q_S(D，X)的最大值。

5.根据权利要求1所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，所述步骤S2包括：

步骤S21：各个网络节点首先统计各自本地的路由度量信息，然后作为发送节点S周期性广播Hello分组并转发数据分组，其邻居节点作为接收节点R通过Hello分组和数据分组接收来自发送节点的路由度量信息；

步骤S22：各个接收节点R在接收到的Hello分组或数据分组中提取所述路由度量信息，根据所述路由度量信息和Q-learning奖励函数计算并更新Q值，以本地维护接收节点R的Q值表，所述Q值表包括接收节点R对其邻居节点的质量评估；发送节点S在存在待转发的数据分组时，根据该接收节点R维护的Q值表智能选择下一跳转发节点。

6.根据权利要求5所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，在所述步骤S21中，所述路由度量信息封装在所述Hello分组的IP信息的头部，且所述路由度量信息和数据分组的原始IP信息共同封装在所述数据分组的IP信息的头部。

7.根据权利要求5所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，所述步骤S22包括：

步骤S221：各个接收节点R在正确接收到Hello分组或数据分组时，从该Hello分组或数据分组中提取路由度量信息，根据所述路由度量信息计算并更新该接收节点R的邻居链表中的邻居节点度、链路持续时间和链路可用带宽，根据不同的发送节点的链路可用带宽形成更新的链路可用带宽链表；

步骤S222：根据定义得到发送节点S到接收节点R的Q-learning奖励函数A(S,R)；

步骤S223：判断接收节点R接收到的是否是数据分组，若是数据分组，则提取目的节点的地址，并根据所述路由度量信息中的Q_max值链表和所述Q-learning奖励函数来计算对应于该目的节点D的接收节点R对发送节点S的质量评估，以更新所述Q值表中该目的节点对应的列的Q值；否则释放丢弃Hello分组释放内存并结束；

步骤S224：判断所述接收节点R是否是数据分组的目的节点，若是，则目的节点不是接收节点R的数据分组将被丢弃，其余数据分组将上传给上层；否则，接收节点R通过查询Q值表选择Q值最高的节点作为下一跳转发节点；

步骤S225：采用接收节点R作为新的发送节点S，将下一跳转发节点作为接收节点R，回到所述步骤S21，直到数据分组成功到达目的节点。

8.根据权利要求7所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，在所述步骤S21之前，还包括步骤S20：每个节点均利用自身的物理载波侦听能力通过在一个固定测量周期T_mea内统计所述节点的空闲时间，以获取各自的发送可用时长和接收可用时长；

且在所述步骤S221中，所述链路可用带宽根据所提取的路由度量信息中的发送节点S的发送可用时长，以及该接收节点R的接收可用时长来计算并更新，具体包括以下步骤：

步骤A1：根据所述飞行自组网采用的数据链路层协议来确定链路可用带宽的上限值，链路可用带宽的上限值为在该数据链路层协议下的最大吞吐量B_max；

所述链路L_S,R在固定测量周期T_mea内的可用时长T_L为：

T_L＝min{[1-p(S,R)]·T_s(S),[1-p(R,S)]·T_r(R)}，

所述链路可用带宽的初步估计值B_pre为：

步骤A3：根对链路可用带宽的初步估计值B_pre进行修正，得到所述链路可用带宽B(S,R)；

所述链路可用带宽B(S,R)为：

B(S,R)＝(1-p_con)·B_pre，

9.根据权利要求7所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，在所述步骤S221中，所述链路持续时间T(S,R)为：

其中h为传输距离，且

10.根据权利要求7所述的基于Q-learning的飞行自组网QoS路由方法，其特征在于，所述步骤S223还包括：若该目的地址不是接收节点R当前已知的目的节点地址，则在接收节点R的Q值表中新建该目的地址所对应的Q值项；且在所述Q值表中规定了每个目的节点的生存周期，如果在生存周期内某一个目的节点相关的Q值没有得到更新，则认为此目的节点失效，并删除该目的节点对应的列的Q值。