CN111614559B

CN111614559B - 实现全局优化aodv路由的方法、系统及介质

Info

Publication number: CN111614559B
Application number: CN202010413894.2A
Authority: CN
Inventors: 刘静; 李超; 俞晖; 周军宇; 归琳; 许丽丽; 武新波; 夏天
Original assignee: Shanghai Jiaotong University; Beijing Dongfang Measurement and Test Institute
Current assignee: Shanghai Jiaotong University; Beijing Dongfang Measurement and Test Institute
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2022-07-01
Anticipated expiration: 2040-05-15
Also published as: CN111614559A

Abstract

本发明提供了一种实现全局优化AODV路由的方法、系统及介质，包括发起节点Q表的更新过程和目的节点计算近似全局优化路由的过程；所述发起节点Q表的更新过程为：在发起节点中引入分布值函数优化Q值的更新策略，其中的权重参数由卡尔曼滤波结合高斯滤波算法通过建立轨迹预测模型计算得到，从而完成发起节点Q表的更新过程；所述目的节点计算近似全局优化路由的过程为：目的节点返回一定时间内缓存中平均Q值最大的路由给源节点。本发明提升了网络的鲁棒性和信息传输成功率，降低了网络端到端时延。

Description

实现全局优化AODV路由的方法、系统及介质

技术领域

本发明涉及AODV路由技术领域，具体地，涉及一种实现全局优化AODV路由的方法、系统及介质；尤其地，涉及一种基于强化学习和轨迹预测近似实现全局优化AODV路由的方法。

背景技术

无人机网络作为ad-hoc网络的一种，具有分布式和良好的可扩展性等特点，应用范围已经渐渐从军用领域扩展至民用领域。但是由于无人机的随机运动会造成网络拓扑的迅速变化，极易造成链路断开，如果此时仍有业务在此链路传输，则会发生丢包现象，降低了网络性能。因此，如果路由策略可以适应网络拓扑的迅速变化，则可以提升信息传输成功率，从而提升网络性能。

AODV作为一种被动式路由协议，当节点有发送业务需求时，此节点将广播这一需求，随后其邻居节点转发这一需求，形成网络洪泛直至找到目的节点。随后目的节点会将路由信息由源节点传输至目的节点的路径反向传输回去，通知源节点这一路径，所以AODV对路由动态性适应较强且开销较少，故本发明基于AODV协议。但是，在AODV协议中返回的是跳数最少的路由，并未考虑拓扑即环境的改变，所以节点的随机运动可能会造成此路由很快失效。

强化学习是机器学习的方法之一，在强化学习中，通过智能体(agent)与环境的不断交互使学习策略收益最大化。因此，智能体可以感知周围环境的变化。Q-learning是强化学习中常用的算法之一，属于无监督学习。但是在目前已有的将Q-learning应用在AODV协议的若干算法中，节点Q值的更新策略仅仅考虑和维护其邻居Q表中最大的Q值，并未考虑其它邻居节点Q表中的Q值，会产生局部最优问题。因此，如何更好地将Q-learning应用在AODV路由策略中，成为越来越多人研究的热点。

经检索文献发现，Celimuge Wu等人在IEEE Transactions on VehicularTechnology发表的“Flexible,Portable,and Practicable Solution for Routing inVANETs:A Fuzzy Constraint Q-Learning Approach”文章中提出了一种改善AODV协议性能的方法，该方法综合考虑链路质量、可用带宽以及节点运动因素，将以上因素的影响体现在Q-learning算法更新Q值的参数中，提高了信息传输成功率，降低了端到端时延。但是，该方法所采用的Q值更新策略仅仅考虑邻居节点Q表中Q值最大的节点，并未综合考虑其它邻居节点的Q值，会产生局部最优问题。Xinge Li等人在2019IEEE InternationalConference on Communications发表的“A Multi-Agent Reinforcement LearningRouting Protocol for Underwater Opt ical Sensor Networks”文章中提出了一种基于multi-agent的Q-learning算法，从全局角度对AODV协议选取的路由进行优化。但是，该方法中的网络拓扑动态性不高，并未考虑节点间由于相对运动造成的链路不稳定问题。Tiansi Hu等人在IEEE Transactions on Mobile Computing发表的“QELAR:A Machine-Learning-Based Adaptive Rout ing Protocol for Energy-Efficient and Lifetime-Extended Underwater Sensor Networks”文章中提出一种基于Q-learning改进AODV协议的方法，该方法综合考虑了节点能量分布情况以及节点间的移动性，改善了协议的性能。但是，该方法中的Q值更新策略没有综合考虑其它邻居节点，仍会产生局部最优问题。

专利文献CN104244356A(申请号：201410443069.1)公开了一种基于演化图全路由预测的定向蚁群路由优化方法，其主要技术特点是：在应用层，控制中心或者GPS全球定位系统提供节点轨道、链路调度信息或节点位置、运动速度和方向信息并发送至网络层；在网络层，节点首先根据应用层信息建立演化图模型，然后进行全路由预测，最后采用定向蚁群路由优化方法选择最优路由并发送数据；在物理层，收集链路时延、数据传输速率、可用带宽信息。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种实现全局优化AODV路由的方法、系统及介质。

根据本发明提供的实现全局优化AODV路由的方法，包括：

步骤1：发起节点Q表的更新和目的节点计算近似全局优化路由的过程；

步骤2：在发起节点Q表的更新中引入分布值函数进行优化，其中权重参数代表邻居节点Q表中的Q值在发起节点Q表更新中所占的比重；

步骤3：邻居节点采用卡尔曼滤波结合高斯滤波算法对自身轨迹进行预测，通过hello包将信息发送至发起节点；

步骤4：发起节点根据邻居节点和发起节点的轨迹预测信息计算链路生存时间，得到归一化链路生存时间，对应权重参数的值，完成节点Q表的更新；

步骤5：改变目的节点路由请求RREQ包处理机制，缓存一段时间内接收到的所有RREQ包，计算接收到的RREQ包中路由的平均Q值，将平均Q值最大的路由添加至RREP包返回给源节点，完成优化。

优选的，所述步骤1包括：

步骤1.1：引入分布值函数优化Q表更新，将发起节点所有邻居节点的Q值考虑到本节点的Q表更新中；

步骤1.2：修改hello包帧格式，在hello包中增加相应信息字段，其中(x_now,y_now,z_now)为采集的邻居节点在当前时刻的地理位置信息，(x_pre,y_pre,z_pre)为采用卡尔曼滤波结合高斯滤波预测邻居节点t₀时刻后的地理位置信息，(v_x,v_y,v_z)为邻居节点在当前时刻的运动速度信息，D_q为邻居节点此时队列中的平均排队时延；

步骤1.3：当发起节点收到邻居节点的hello包后提取运动速度信息和预测的地理位置信息，计算对应链路的链路生存时间，同时提取邻居节点此时队列中的平均排队时延信息；

步骤1.4：发起节点根据收到其它邻居节点hello包中的信息计算对应的链路生存时间进而计算得到归一化链路生存时间以及某一邻居节点的相对负载值，代入分布值函数，近似实现全局优化。

优选的，引入分布值函数，将发起节点所有邻居节点Q表中最大的Q值考虑到本节点的Q值更新策略中，利用局部信息的迭代逼近全局最优，全局优化Q表更新表达式为：

其中，α为学习率，γ表示折现系数，

为分布值函数，Ni为节点i的邻居节点集合，

表示节点i在t时刻采取动作

后的Q值，

和

分别表示节点i在t时刻的邻居节点j和k的Q表中最大的Q值；

表示：节点i在t时刻处于状态s；ω表示：其它节点的Q值在某一节点的Q值更新策略中所占的比重；A_j表示：节点j的动作集；A_k表示：节点k的动作集；

为节点i在t时刻采取动作

后获得的收益，定义如下：

其中，

表示节点j中队列的平均排队时延，刻画了节点j的负载水平，

表示节点k中队列的平均排队时延；奖励函数中的

表示节点j的相对负载水平，

值越大表明节点j的负载情况与节点i的其它邻居节点相比越轻，节点i的下一跳若选择节点j，则时延性能会较好；w(i,j)和w(i,k)为在上述Q值更新策略中节点j和k的Q表中Q值在节点i的Q值更新策略中所占的权重。

优选的，采用卡尔曼滤波结合高斯滤波算法，根据相应物理运动定理，预测无人机运动轨迹，卡尔曼滤波方程表示如下：

其中，

表示无人机节点在t时刻的运动状态矢量，

为预测节点在下一时刻的运动状态矢量，

为状态转移矩阵，

为加速度转移矩阵，

为加速度矢量，服从均值为零且方差为

的高斯分布，

为观测矢量，

表示观测矩阵；

表示观测噪声，服从均值为零且方差为

的高斯分布；

在卡尔曼滤波方程中，

为系统状态方程，

为观测方程；

是服从高斯分布的随机变量，为了减小噪声对预测结果的影响，考虑到高斯滤波器对高斯噪声有良好的处理效果，所以采用如下高斯滤波方程对观测矢量进行预处理：

其中，

代表采用高斯滤波器对卡尔曼滤波中的观测值

进行高斯滤波预处理后得到的值；

表示方差为

的二维高斯核，*表示卷积运算。

优选的，所述步骤3包括：

步骤3.1：初始化状态转移矩阵

高斯分布参数

以及无人机节点在初始时刻的运动状态

步骤3.2：预测阶段：根据系统状态方程，预测无人机节点在T₀时间后的系统状态先验值，hello包的周期为T₁，并且节点间是通过hello包的交互得知彼此的运动消息，预测周期等于hello包周期，即T₀＝T₁；预测阶段得到的是节点在下一hello周期的系统状态先验值，同时得到在此时刻运动状态先验值的协方差矩阵；

步骤3.3：校正阶段：利用协方差矩阵计算得到卡尔曼增益，利用GPS或者其它获取地理信息的装置得到观测矢量

根据方程

对

进行高斯滤波预处理得到

由修正过的观测方程得到观测噪声；通过观测噪声和卡尔曼增益，对系统状态先验值进行校正，得到系统状态后验值，将校正后的预测信息添加到hello包中，并且更新系统状态后验值的协方差矩阵。

优选的，当发起节点i接收到邻居节点j发送的hello包后，提取hello包中的有关信息，计算在下一时刻两节点之间的距离，其中无人机为等高运动，计算公式如下：

表示预测节点i下一时刻的x坐标；

表示预测节点i下一时刻的y坐标；

表示预测节点j下一时刻的x坐标；

表示预测节点j下一时刻的y坐标；

在得到

的基础上，根据两节点间的相对运动过程，计算链路ij的链路生存时间T_ij，计算公式如下：

其中，

表示由节点j指向节点i的距离矢量，R为节点的通信半径，

为节点j和节点i之间的相对速度矢量，β为矢量

和矢量

之间的夹角。

优选的，当发起节点接收到所有邻居节点发送的hello包后，分别计算其与各个邻居节点之间的链路所对应的链路生存时间，进而计算对应的归一化链路生存时间以及该节点的相对负载值，归一化链路生存时间定义如下：

其中，w(i,j)取值范围是[0,1]，该值越接近1表明此链路与其它链路相比生存时间越长；此值即为邻居节点Q表中的Q值在发起节点Q值更新策略中所占的权重参数值，最终发起节点i依靠得到的权重参数以及节点j的相对负载值完成其Q表中对节点j的Q值更新。

优选的，所述目的节点计算近似全局优化的路由过程包括：

修改目的节点RREQ包处理机制，包括：目的节点首次收到RREQ包后，缓存预设时间段内所有的RREQ包中的路由；

计算缓存中所有路由的平均Q值，将平均Q值最大的路由返回给源节点；

当源节点发起路由寻路过程时，向邻居节点发送RREQ包，源节点以及寻路过程中涉及到的所有前序节点的Q值会添加到RREQ包中，当目的节点首次收到RREQ包后启动定时器T₂，缓存T₂时间内收到的所有RREQ包中的路由，定时器失效后计算缓存中所有路由的平均Q值，将平均Q值最大的路由添加到RREP包中返回给源节点，从而告知源节点此路由。

根据本发明提供的实现全局优化AODV路由的系统，包括：

模块M1：发起节点Q表的更新和目的节点计算近似全局优化路由的过程；

模块M2：在发起节点Q表的更新中引入分布值函数进行优化，其中权重参数代表邻居节点Q表中的Q值在发起节点Q表更新中所占的比重；

模块M3：邻居节点采用卡尔曼滤波结合高斯滤波算法对自身轨迹进行预测，通过hello包将信息发送至发起节点；

模块M4：发起节点根据邻居节点和发起节点的轨迹预测信息计算链路生存时间，得到归一化链路生存时间，对应权重参数的值，完成节点Q表的更新；

模块M5：改变目的节点路由请求RREQ包处理机制，缓存一段时间内接收到的所有RREQ包，计算接收到的RREQ包中路由的平均Q值，将平均Q值最大的路由添加至RREP包返回给源节点，完成优化。

与现有技术相比，本发明具有如下的有益效果：

1、本发明解决了强化学习Q-learning中Q值更新策略产生的局部最优问题；

2、本发明解决了无人机网络中由于节点随机运动造成的链路断开现象而引发的信息传输失败的问题；

3、本发明提升了网络的鲁棒性和信息传输成功率，降低了网络端到端时延。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明拓扑样例，虚线表示节点间默认存在双向链路；

图2是本发明图1状态中两节点间相对运动的过程。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

本发明适用于无人机网络系统，是基于强化学习和轨迹预测近似实现全局优化AODV路由的方法。步骤如下：在发起节点中引入分布值函数，优化Q值的更新策略，其中权重参数是通过采用卡尔曼滤波结合高斯滤波算法得到的归一化链路生存时间，同时结合节点相对负载值，实现发起节点Q表的更新，目的节点根据接收到的Q表计算得到平均Q值最大的路由返回给源节点，最终建立源节点到目的节点的路由。

接下来对本发明进行详细的描述。

它包括以下步骤：

步骤1：将分布值函数引入Q值更新策略。如图1所示的网络，每个节点维护和更新自身的Q表，Q表中的Q值初始化为0，每个节点都会作为发起节点通过接收邻居节点发送的hello包提取相应的信息，完成Q表的更新；

步骤2：如表一所示：对hello包帧格式进行修改，其中(x_now,y_now)为邻居节点利用GPS等定位装置获得当前时刻的地理位置信息，(x_pre,y_pre)为采用卡尔曼滤波算法和高斯滤波算法预测T₀时间后其地理位置信息，(v_x,v_y)为邻居节点在当前时刻的运动速度信息，D_q为邻居节点中此时队列的平均排队时延(即负载信息)；

表一：本发明修改后的hello包帧格式步骤3：如图1所示，当节点i接收到邻居节点j发送的hello包后，提取节点j

的负载信息

提取hello包中节点j的地理位置信息

以及运动速度信息

结合自身节点预测的地理位置信息

以及运动速度信息

计算在下一时刻两节点之间的距离，计算公式如下：

节点i和j之间的相对运动过程如图2所示，图中的

由

以及

共同决定，在得到

值的基础上，计算链路ij的链路生存时间，计算公式如下：

步骤4：如图1所示，当节点i接收到另一邻居节点k发送的hello包后，按照步骤3中的过程提取其负载信息，同时提取其预测信息计算得到

和T_ik，由于节点i的所有邻居节点为节点j和k，所以计算链路ij的归一化链路生存时间，计算公式如下：

同理得到w(i,k)；

步骤5：将步骤4中得到的归一化链路生存时间即对应的权重参数w(i,j)和w(i,k)代入节点i优化后的Q值更新策略中，对节点j的Q值更新策略如下：

其中，奖励函数的取值由下式得到：

从而完成本节点Q表中对节点j的Q值更新，对节点k的Q值更新过程与上述步骤一致。至此，一个hello周期中节点i的Q表更新过程完成。

步骤6：如图1所示，当源节点i需发送数据包至目的节点p时，节点i向其邻居节点广播RREQ消息。当节点i的邻居节点j、k收到RREQ包后，节点j(k)会把它的Q表中以节点i为目的节点的Q值加入RREQ包，然后节点j(k)再次洪泛更新后的RREQ包；

步骤7：节点j的邻居节点l、m收到更新后的RREQ包之后，节点m(l)会把它的Q表中以j为目的节点的Q值加入RREQ包，然后节点m(l)再次洪泛更新后的RREQ包，节点k的邻居节点遵循同样的过程；

步骤8：经过中间节点若干次的洪泛，当RREQ包到达目的节点p时，目的节点p启动定时器T₂，缓存T₂时间内收到的所有RREQ包中的路由，定时器失效后节点p计算缓存中所有RREQ包中路由的平均Q值，将平均Q值中最大的路由添加至RREP包返回给源节点，如表二所示，节点p在T₂时间内收到两个RREQ包，即两条路由消息：表二(a)和(b)，因为

所以表二(a)将作为RREP包中的路由从目的节点p返回给源节点i；

表二：本发明图1状态下目的节点在定时器结束后缓存中所有的Q表示例

下一跳节点	Q值
		j	1
m	0.8
		o	0.7
p	0.6

(a)

下一跳节点	Q值
		k	1
n	0.4
		p	0.7

(b)

根据本发明提供的实现全局优化AODV路由的系统，包括：

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。