CN112804726A

CN112804726A - 一种基于地理位置的多智能体强化学习路由算法

Info

Publication number: CN112804726A
Application number: CN202110013305.6A
Authority: CN
Inventors: 谢勇盛; 杨余旺; 邱修林; 柯亚琪; 王吟吟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-14

Abstract

本发明在结合强化学习试错和动态规划思想的基础上，公开了一种基于地理位置的多智能体Q学习路由算法，QLGR(Q Learning based Geographic Routing)路由协议。协议在考虑下一跳节点质量与负载能力的同时，基于地理位置信息选择较优的邻居节点。同时在数据包传输时考虑数据回传的情况，并对该情况的出现基于惩罚。本发明首先详细分析了QLGR的设计思路、网络架构；其次，设计了基于Q学习衡量邻居节点价值评估方法；接着，结合地理位置信息，权衡贪婪转发与邻居节点价值，设计了一种基于地理位置的转发策略；最后通过仿真实验对提出的路由协议进行测试，并与现有的路由协议进行对比。

Description

一种基于地理位置的多智能体强化学习路由算法

技术领域

本发明涉及无线通信技术领域，尤其涉及基于地理位置以及多智能体强化学习的路由方法。

背景技术

在适用于FANET网络的经典路由协议中，各协议有各自适应的场景，也有其自身的缺陷。如OLSR此类主动路由协议，掌握全局拓扑结构，相应的代价就是存在控制开销高的问题。而对于如AODV此类按需路由协议，在无需数据发送时不维护路由信息，在数据发送前发起路由发现操作，这将导致网络首包时延高，并且在路由链路断开时，需要反馈机制，与重新启动路由发现等相关操作，降低了网络的实时性。

获得地位位置信息，是无人机的一项基本功能。几乎所有的无人机系统都需要地理位置信息来实现无人机路径规划使用，尤其是在无人机群中。GPSR是基于地理位置的路由协议类中较为广泛应用的协议，在正常情况下使用贪婪模式转发数据，当遇到空洞区域时改为周边模式转发。而在进入周边转发模式时，可能一个数据包的发送会遍历整个网络，这极大的增加了网络时延以及路由丢包的可能。在FANET网络环境中，节点的稀疏性容易使网络产生空洞区域，节点的高动态性使链路易于断开。

为了克服这些缺点，机器学习概念被用于路由算法当中。本发明在结合强化学习试错和动态规划思想的基础上，提出一种基于地理位置的多智能体Q学习路由算法，QLGR路由协议。协议在考虑下一跳节点质量与负载能力的同时，基于地理位置信息选择较优的邻居节点。同时在数据包传输时考虑数据回传的情况，并对该情况的出现基于惩罚。

发明内容

本发明所要解决的技术问题是针对背景技术中所涉及到的缺陷，提供一种基于地理位置的多智能体强化学习路由算法，该方法基于传统地理位置路由具有空洞效应的缺点，设计了基于Q学习衡量邻居节点价值评估方法；结合地理位置信息，权衡贪婪转发与邻居节点价值，设计了一种基于地理位置的转发策略。

本发明为解决上述技术问题采用以下技术方案：

一种基于地理位置的多智能体强化学习路由算法，其网络拓扑如图1所示，源节点S欲将数据发送至目的节点D，依照贪婪的原则可见邻居节点n1到目的节点D的距离较邻居节点n2到目的节点D更近，则选择n1为下一跳节点。但是节点n1与目的节点D之间有一大片空洞区域，因此触发周边转发模式，依照右手定则或左手定则都没有可转发的其他节点，造成数据的回传。数据包流经S->n1->S->n2->…->D，这不仅增加了传输的时延，也大大增加了节点S的工作压力。若节点S能够感知邻居节点状态，直接选择n2节点为下一跳，则可以直接绕开空洞区域。

一种基于地理位置的多智能体强化学习路由算法，为了绕开空洞区域，将整个自组网网络构建为一个多智能体系统，以支持节点之间的信息交换。并采用值函数算法来获取与环境交互的奖惩值，学习到有效的传输方式。对于高动态节点的FANET来说，受环境影响因素，通常难以得到精确的数据模型。而Q学习是一种无模型下基于值函数算法且被广泛使用的强化学习模型。为此，本文采用Q学习对邻居节点价值进行迭代，维护邻居价值Q表。在路由决策时结合目的节点距离，以及邻居价值权重，来选择下一跳节点。具体框架如图2所示，整个框架主要由节点价值评估与路由决策两部分组成。

对于单Agent系统而言，它仅考虑回报功能中两个通信节点的状态，以及做出动作仅改变自身所处环境，并未对其它节点造成影响。为此，本发明构建一个多智能体系统，表现为节点之间合作，将数据包从源节点发往目的节点。

使用强化学习优化路由算法之前，应首要将路由决策问题描述为一个MDP过程。令N＝{n₁,…,n_i,…n_n}表示节点集，节点通过自身直接通信或通过其他节点中继，实现多跳通信。将整个网络作为MDP交互环境，所有节点看成一个个独立的Agent。单个智能体只对部分环境做出感知，因此首要考虑部分可观察MDP(partially observable MDP,POMDP)情况。

一种基于地理位置的多智能体强化学习路由算法，其状态的定义是：将节点处于的状态视为状态集S，并在t时刻，将有数据包p处于节点n_i视为状态

在该节点上将数据包p发送给下一跳的动作构成节点n_i上的动作集A_i，并且节点n_i所选择的动作空间可以定义为节点n_i的邻居集：

N_nbr＝{n_j|n_j∈N and Distance(n_i,n_j)＜D_max and i≠j}

其中Distance(n_i,n_j)为两节点间距离，而D_max为节点最大通信距离。在执行完动作之后，Agent将收到环境的回报，回报将包括本地回报(Local Rewards,LR)和全局回报(Global Rewards,GR)。

为评估策略的合理性，一种基于地理位置的多智能体路由算法定义了回报函数。将链路任务负载能力与链路质量考虑到LR中，将路由的最终目的，把数据包传输到目的节点或距离目的节点更近的下一跳节点纳入到全局回报GR中。LR通过HELLO消息广播给邻居节点，后续将会介绍HELLO消息格式的设计。GR通过成功传输根据位置信息更新Q值。分别定义LR与GR，如下：

LR本地回报：

LR(i,j)＝αL_Q+(1-α)L.

其中

L_Q表示发送节点与接收节点间链路质量比值，P_rec和P_totle分别下一跳节点的接收到的数据包和总发送的数据包。L表示归一化节点剩余负载能力，C_len表示缓存队列的长度，D_len表示缓存队列中已有数据队列的长度。α为平衡链路质量与剩余负载能力的权重值。

GR全局回报：

其中j∈N_i表示j是i的邻居节点。

一种基于地理位置的多智能体强化学习路由算法，邻居节点价值的评估方法是：每个节点维护其通信范围内的一跳邻居Q表，如表1。表项中Q值作为一个路由决策权重值，其取值范围为[0,1]。并且为节省存储空间，只保存周边活跃的邻居，对每条邻居信息设置一定的生存周期，当超过一定期限没有再接收到该节点发送的HELLO消息则认为其已离开本节点的通信范围。在超过3个最长HELLO消息时隙后，删除该条信息。相对地，在接收到一个全新的邻居HELLO消息，则会生成一个新的表现，并初始化一个Q值。

表1 Q表结构

当前节点接i收到邻居j节点发送的HELLO消息，将自身原本保存邻居j节点的HELLO ID进行对比统计，通过自增的ID号，可以发现是否有HELLO丢失，再计算出链路质量L_Q。同理根据HELLO中缓存队列长度与数据队列长度计算出邻居节点剩余负载能力。

依据上述信息，容易计算出本地奖励LR(i,j)，且LR(i,j)∈[0,1]。对于链路稳定性好且节点剩余负载能力强的节点，获得的LR越大。根据得到的本地奖励LR即可对Q表中对应该邻居节点的Q值进行更新，更新当前节点i对邻居j节点的价值估计值：

其中

其中V^t(j,d)和V^t(i',d)分别表示邻居节点j关于目的节点d的状态价值函数和其他邻居节点关于目的节点d的状态价值函数，用以估计选择节点j为下一跳和周边节点对目的节点传输趋势的联合价值。w₁和w₂是两者的权重值，经过多次实验仿真，分别将其设置为0.2和0.05，使得算法有较好的性能表现。

一种基于地理位置的多智能体强化学习路由算法，基于地理位置的路由决策方法是：在基于距离目的节点就近原则的基础上，考虑邻居节点价值选择下一跳。为此，对邻居节点与目的节点间距离进行量化，如下定义：

其中i，j，d分别代表当前节点、邻居节点和目的节点，r_max表示当前节点通信半径。D()表示两节点间的欧氏距离：

由上式可见，对于距离目的节点较远的邻居节点距离量化值较小，被选为下一跳的概率也更小。同时，也没有禁止节点选择距离目的节点更远一跳的操作，保留了节点权衡距离与传输可行性的能力。

将当前节点Q表中各邻居节点对应的Q值作为距离量化值的权重，两者的乘积定义为折扣Q值

在运行节点QLGR是采用Softmax策略选择下一跳转发节点。Softmax策略如下：

式中τ＞0为温度。区别于ε-greedy策略平衡探索，Softmax策略将每个Q值做指数映射，着重于在有较优的

的邻居节点上做探索。以便将网络流量分布在不同的网络节点上，避免数据包过为集中，导致网络拥塞。

在做出路由决策后，需要根据全局奖励GR对选择此动作做出奖励，即对对应Q值进行更新计算：

此后，后续转发节点依照以上原则逐步将数据包传往目的节点。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明建立一种基于地理位置的多智能体强化学习路由算法，这种方法考虑了本节点与邻居节点间的链路质量、邻居节点业务负载等属性。

2.本发明在稀疏的FANET下容易出现路由空洞区域，QLGR可以通过迭代学习自适应找寻路径，以避免陷入周边转发模型。

3.本发明通过定义了邻居节点价值评估，建立了QLGR协议，且能够在多个可行下一跳邻居节点中按概率的选择转发节点。

4.本发明考虑了下一跳节点质量与负载能力，可以将流量依照链路质量比，分散在不同的节点上传输，减少网络拥塞出现的可能。

附图说明

图1是本发明基于地理位置的多智能体强化学习路由算法网络拓扑图；

图2是本发明QLGR路由算法的总体框架；

图3是本发明HELLO包的消息格式；

图4是本发明QLGR路由算法流程图；

图5是本发明QLGR路由算法与GPSR路由算法吞吐量性能对比；

图6是本发明QLGR路由算法与GPSR路由算法丢包率性能对比。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

1)如图1所示，现有的基于地理位置的路由算法，如GPSR路由协议，在路由转发的时候仅仅考虑节点间的距离关系，并未充分考虑邻居节点的其他属性(节点与邻居节点间链路质量、邻居节点业务负载)。在选择下一跳时，只是贪婪地选择距离目的节点最近节点，没有长远考虑传输的可靠性与可行性，容易由陷入局部最优，导致传输失败。

2)如图2所示，在节点n_i做出路由决策时，为达到与邻居节点实现合作的目的，应该考虑邻居节点的本地回报和全局回报对自身的影响。为此需要节点与周边邻居信息交互，以确保路由决策可以及时地响应动态网络。在QLGR路由协议中，可以采用周期性广播信标数据(HELLO消息)的方式，将自身位置、LR和GR等信息告知周边邻居节点。

在单Agent系统中，每个节点只感知自身周边的环境。其他Agent的动作不对本Agent造成影响，若所有Agent都以自身最优策略执行动作，在某种时刻可能造成网络负载不均衡，多条路由通过一个节点中继，造成网络拥塞，网络寿命缩短。为评估策略的合理性，将链路任务负载能力与链路质量考虑到LR中，将路由的最终目的，把数据包传输到目的节点或距离目的节点更近的下一跳节点纳入到全局回报GR中。

3)在定义智能体时，动作定义为将数据包发送给一个邻居节点。按照常规强化学习的定义，只有在执行动作后才获得回报值，更新Q值。但是在FANET这个动态的网络环境中，没有数据包发送时，Q值将会固定下来，这明显不适合。因此将接收到HELLO消息也看着一个动作，通过HELLO消息中邻居节点的属性等信息评价该节点相对于本节点的价值，并作为更新Q值的一个依据。

如图3所示，HELLO消息在邻居发现，以及Q值更新中起到重要的作用。HELLO消息中不仅需包含节点位置信息，还包括HELLO序列号、消息长度、Q表信息、缓存队列长度以及缓存队列中已经有的数据队列长度。

当邻居节点与当前节点之间的链路价值相对越高，根据HELLO消息中的邻居信息计算所获得到的本地奖励越多。且Q值迭代后对该节点的评价也更好，契合在路由决策中选择稳定且剩余负载能力足够的下一跳的设计思想。节点接收到邻居节点周期性发送的HELLO消息，实时维护自身评估的邻居节点的价值Q表，当需要数据转发时，则根据此时对邻居节点的价值评估与目的节点的位置信息选择当前时刻最优的邻居节点作为下一跳。

4)路由决策即节点以某种策略转发当前的数据包，当节点有数据任务传输时，需要选择下一跳进行转发。此时应当结合目的节点位置信息，选择当前状态下，最优的下一跳作为信息中继节点，以确保信息能够流向目的节点。为方便节点信息的维护与更新，用哈希表的形式存储地理位置与Q值执行，相较于O(n)时间复杂度的轮询查找，常数时间复杂度的查询方式更有利于减少数据包转发时延。

综上所述，QLGR路由算法中每个节点为可达目的节点的下一跳维护一个邻居节点价值Q表，Q表的大小由一跳邻居节点数和以往目的节点数决定。在新添加邻居节点或删除节点时会自动维护Q表条目，因此算法在多跳网络环境下有一定的鲁棒性。

5)如图4所示，路由协议的具体流程如下：

(1)初期工作

在开始节点，建立路由表并初始化有关网络设置的相关参数。

(2)路由发现

每个节点周期性在网络中广播HELLO消息，将其节点信息通知周围的节点，并根据接收到的HELLO消息确定单跳通信范围内节点链路质量和节点负载能力，对节点质量做出评估LR。基于这些，每个节点都会在接收到HELLO消息后更新其Q表并监视网络中的通信需求，以准备随时进行业务数据包传输。

(3)消息接收

当前节点接收到邻居节点发送的消息，判断消息类型，若为HELLO消息，则执行路由发现操作，更新对应Q值；若接收到消息为数据包，根据数据包的源节点和序号判断该节点是否曾经经过本节点，若是，则GR＝-GR执行式(4.12)更新Q表，然后进入路由转发。若不是，直接进入路由转发步骤。

(4)路由转发

当前节点消息队列中有数据包需要发送时，获取数据包首部目的节点的位置，结合Q表中Q值信息，计算出各邻居对应Q折扣值，根据Softmax策略选出下一跳进行转发。

6)如图5,6，为路由协议的仿真实验对比测试，从图中可以看出，与传统GPSR路由协议相比，提出的新协议在路由吞吐量、丢包率开销等方便都有所优化。

本发明适用于基于地理位置路由协议中的可靠传输，利用该方案可以自适应建立路由，避免路由陷入周边转发模式，将流量依照链路质量比，分散在不同的节点上传输，减少网络拥塞的出现。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于地理位置的多智能体强化学习路由算法，其主要任务是将网络环境构建为一个强化学习模型，多智能体相互合作，将数据包从源节点发往目的节点。单个智能体通过贪婪地理和折扣Q值策略选择路由协议下一跳，并通过动态规划更新节点维护的Q表。

2.如权利要求1，强化学习模型中状态定义为当前网络某个节点有数据需要发送。

3.如权利要求1，强化学习模型中动作定义为有数据的某个节点将数据转发给邻居节点作为下一跳。其中邻居节点满足N_nbr＝{n_j|n_j∈N and Distance(n_i,n_j)＜D_max and i≠j}

4.如权利要求1，当节点收到HELLO时依据本地奖励更新Q表，本地奖励定义：LR(i,j)＝αL_Q+(1-α)L.节点发送数据时选择邻居节点为下一跳，做完决策后更近该决策对应Q值全局奖励定义为

5.如权利要求4所述，节点接收到HELLO消息信息实时更新Q表：

节点选择下一跳后或收到重复数据消息后更新Q表：

6.如权利要求1所述路由协议算法，其路由发现特征在于：节点周期性在网络中广播HELLO消息，将自身信息告知周围节点，周围节点为该节点维护一个机遇链路质量与节点负载能力的Q表，并监视网络中的通信需求，已准备随时进行数据业务传输。

7.如权利要求1所述路由协议算法，其路由转发特征在于：当节点消息队列有数据包需发送时，根据数据包首的位置信息，结合Q表中信息，计算出各邻居节点对应的Q折扣值，根据Softmax策略选择下一跳。