CN109587751A

CN109587751A - 无人机自组网自适应路由方法和系统

Info

Publication number: CN109587751A
Application number: CN201910012976.3A
Authority: CN
Inventors: 王琪; 刘建敏; 徐勇军; 徐亦达
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-04-05
Anticipated expiration: 2039-01-07
Also published as: CN109587751B

Abstract

本发明涉及一种无人机自组网自适应路由方法，包括：以无人机自组网中的无人机为节点，所有节点以预定周期发送握手包；任一节点接收其邻居节点发送的握手包，获取并更新该邻居节点的节点信息；该节点发送或转发数据包时，获取该数据包从该节点到目标节点的要求传输速度，以及该数据包从该节点到该邻居节点的实际传输速度，以大于或等于该要求传输速度的该实际传输速度对应的邻居节点为候选节点；根据该候选节点的节点信息，通过Q‑learning算法获得该候选节点的Q值，以最大Q值对应的候选节点为下一跳的路由节点进行该数据包的路由。

Description

无人机自组网自适应路由方法和系统

技术领域

本发明涉及信息技术领域，具体涉及一种无人机自适应组网的路由方法和系统。

背景技术

在由无人机组成的自组织网络(简称，无人机自组网)中，无人机自主移动、无线链路不稳定、无人机遭受碰撞和干扰等因素，导致无人机自组网拓扑频繁变化，数据传输无法保持固定路径，需要根据网络当前状态，动态改变数据传输路径，以保证数据高效传送到目的无人机。然而，传统的基于网络拓扑的路由协议，由于需要维护固定的路由表，在无人机自组网中无法正常工作。基于地理信息的路由协议主要分为定位辅助路由和贪心周边无状态路两类路由协议，虽然适用于无人机自组网，但定位辅助路由，由于必须等待完整路由建立才能开始传输数据，其路由建立之初的报文端到端延迟较高；贪心周边无状态路(GPSR)仅使用邻居位置信息，虽然减少了路由控制开销，但在无人机网络中存在路由能耗高且时延大的问题。由于无人机具有更丰富的感知手段，能够对外部作业环境和自身工作状态等多个维度的态势进行全方位感知，无人机可以利用Q-learning方法，通过自学习选择能达到其目标的最优传输路径。

近年来，已有研究工作利用Q-learning实现了无人机自组网的数据转发，而无人机动态移动(移动速度约30-100km/h)，其位置和无线链路质量快速变化，但由于该方法的学习率和折扣因子等参数不能随着位置和无线链路质量变化而自适应地改变，导致路由健壮性差，无法适用于动态无人机自组网。此外，上述工作提出的路由协议未考虑数据包在无人机的排队等待时延和数据转发的能量消耗。

发明内容

针对上述问题，本发明提出一种无人机自组网自适应路由方法，包括：以无人机自组网中的无人机为节点，所有节点以预定周期发送握手包；任一节点接收其邻居节点发送的握手包，获取并更新该邻居节点的节点信息；该节点发送或转发数据包时，获取该数据包从该节点到目标节点的要求传输速度，以及该数据包从该节点到该邻居节点的实际传输速度，以不小于该要求传输速度的该实际传输速度对应的邻居节点为候选节点；根据该候选节点的节点信息，通过Q-learning算法获得该候选节点的Q值，以最大Q值对应的候选节点为下一跳的路由节点进行该数据包的路由。

本发明所述的自适应路由方法，其中该要求传输速度dis(i,D)为该节点i到该数据包路由的目标节点D的距离，deadline_i为该数据包从该节点i到该目标节点D的最大要求传输时间；该实际传输速度为该节点i到该邻居节点j的端到端时延，为该数据包到达该邻居节点j时该邻居节点j到该目标节点D的预测距离。

本发明所述的自适应路由方法，其中，该Q值的更新式为其中maxQ(s_i,a_i)s.t.α为学习率，0≤α≤1，s_i表示该数据包处于节点i的状态，r(s_i,a_i)为该节点i采取行动a_i使该数据包由处于该节点i转换到处于该邻居节点j所获得的奖励值，γ为折扣因子，0≤γ≤1，为下一个状态该邻居节点j采取一个行为a_j所能获得的最大Q值。

本发明所述的自适应路由方法，其中该奖励值r(s_i,a_i)为：当该邻居节点j为该目的节点D时，r(s_i,a_i)＝r_max；当该节点i的所有邻居节点j与该目的节点D的距离均大于该节点i与该目的节点D的距离，r(s_i,a_i)＝r_min；当存在该邻居节点j与该目的节点D的距离小于或等于该节点与该目的节点的距离，则其中，w为该节点i到该邻居节点j的端到端时延的权重值，0≤w≤1，为将该数据包从该节点i传输到该邻居节点j并离开该邻居节点j所需要的时间，E_res为该邻居节点j的剩余电量，E_init为该邻居节点j的初始电量；

本发明所述的自适应路由方法，其中该折扣因子γ和该学习率α为：α＝1-e^-ε，其中，N_t-1(i)和N_t(i)分别为该节点i在t-1和t时刻拥有邻居节点的个数，为该节点i到该邻居节点j的端到端时延，μ和σ分别为所有该节点i到其邻居节点的端到端时延的均值和方差。

本发明还提出一种无人机自组网自适应路由系统，包括：

邻居节点更新模块，用于以无人机自组网中的无人机为节点，获取该节点的邻居节点的节点信息；其中所有该节点以预定周期发送握手包；任一节点接收其邻居节点发送的握手包，获取并更新该邻居节点的节点信息；

候选节点筛选模块，用于该节点从其所有邻居节点中筛选数据包路由候选节点；其中当该节点发送或转发数据包时，获取该数据包从该节点到目标节点的要求传输速度，以及该数据包从该节点到该邻居节点的实际传输速度，以大于该要求传输速度的该实际传输速度对应的邻居节点为该候选节点；

路由节点选择模块，用于根据该候选节点的节点信息，通过Q-learning算法获得该候选节点的Q值，以最大Q值对应的候选节点为下一跳的路由节点进行该数据包的路由。

本方法提出的适用于动态无人机自组网的自适应路由方法，利用无人机当前位置信息、电量等先验知识，基于Q-learning进行时延和能量消耗联合优化的路由决策，其中Q-learning方法的学习率和折扣因子可随着位置和无线链路质量变化进行自适应调节，实现自适应路由，提高路由健壮性。

附图说明

图1是本发明的无人机自适应组网方法的流程图。

图2A、2B、2C是单个数据流从源节点到达目的节点路由决策图。

图3、图4和图5是本发明实例的仿真实验结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的无人机自适应组网方法和系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

为了解决现有技术中所存在的上述问题，本发明提出一种无人机自组网自适应路由方法，该路由方法基于无人机地理位置信息，但不需要全局信息，可以分布式执行，利用Q-learning方法，可在动态网络场景中进行最优路由决策。

所述最优路由决策，在Q-learning的奖励函数中，同时考虑端到端时延和节点的电量，实现低时延、低能耗的路由。此外，Q-learning中学习率和折扣因子将随端到端时延和节点的电量，自适应地调节，实现健壮性路由；针对不满足速度要求的传输问题，选择实际速度最大的邻居节点进行数据的传输，使得数据包尽可能在其初始的最大要求传输时间内到达目的节点；针对当前节点为局部最优节点问题，采用惩罚措施，进而避免其他节点再次选择该节点，造成数据不可达的问题。

在具体描述本发明提出的无人机自组网自适应路由方法之前，首先对本发明涉及的一些概念和术语进行简单的说明。

“网络健壮性”：在网络拓扑动态、链路质量不稳定的条件下，数据包仍可从源节点到达目的节点。

“最大要求传输时间”：数据包从该节点到达目的节点的最大时延。

“排队等待时延”：是数据包到达节点的时刻与离开节点时刻的差值，即数据包在节点的停留时间。

下面将通过一个具体的实施例来详细介绍根据本发明的针对无人机自组网自适应路由方法，参考图1，所述方法包括：

步骤101：节点以100ms的时间间隔周期性地发送握手包，握手包中含有当前节点的地理位置、电量、移动模型、等待时延和折扣因子，收到握手包的节点，利用握手包中的信息建立并维护邻居表，邻居表中含有邻居的地理位置、电量、移动模型、到达时间、信道接入时延、等待时延、Q值、折扣因子和学习率，每个邻居节点的生命周期为400ms，节点在发送握手包之后，根据每个邻居节点的到达时间和生命周期，从邻居表中删去生命期结束的邻居。

步骤102：针对每一个数据包，确定从源节点S到潜在的目的节点D的最大要求传输时间(本实例中，最大要求传输时间的范围为100ms～500ms),在已知最大要求传输时间条件下，节点在转发数据包之前，需更新该数据包的最大要求传输时间，并将所更新的最大要求传输时间加载到数据包中，一起发送给下一跳。

所述最大要求传输时间是数据包从源节点S到达目的节点D的最大时延限制，假设节点i向邻居节点j发送数据包，数据包在节点i和邻居节点j的最大要求传输时间分别为deadline_i、deadline_j，则最大要求传输时间更新公式为：

其中，为数据包从节点i到达邻居节点j并从邻居节点j离开的时间，即节点i与邻居节点j的端到端时延。

所述端到端时延在本发明中，节点间不需要保持时钟同步，节点利用邻居表中所记录的邻居信道接入时延和排队等待时延信息，来计算端到端时延的表达式为：

其中，delay_MAC为数据包的信道接入时延，delay_pro为数据包的传播时延，delay_WR为数据包在邻居节点j的停留时间即排队等待时延，由于数据包在无线媒体中以光速传播，在百米量级的通信范围内，传播时延为微秒量级，因此传播时延较信道接入时延和排队等待时延可忽略不计，可近似为：

所述端到端时延可利用ACK包进行估算，即将节点i向邻居节点j发送数据包的时刻与收到邻居节点j发来ACK包时刻的时差作为时延的值并采用WMEWMA技术更新对于一个拥有m个邻居的节点i，其始终维持m个长度为n的滑动窗口(本实例中n的取值为5)，每个窗口记录了节点i向邻居节点j发送的最近n个数据包的时延，第l次更新的公式如下：

其中，β为参数(本实施例中β的取值为0.5)，0≤β≤1，τ为节点i收到邻居节点j发来的最新ACK包的时延，τ的表达公式为：

τ＝t_ACK-t_leave

其中，t_ACK为节点i收到邻居节点j发送的ACK包的时刻，t_leave为数据包离开节点i的时刻。

步骤103：在数据包的转发过程中，根据当前数据包的最大要求传输时间，动态地计算数据包从当前节点i到目的节点D在传输过程中所要求的速度V_i和数据包从节点i到邻居邻居节点j的实际速度并根据V_i和获取候选节点集合，候选节点需满足

所述数据包在传输过程中所要求速度V_i的表达式为：

其中，dis(i,D)为节点i到目的节点D的距离，deadline_i为数据包在节点i的最大要求传输时间。

所述数据包在传输过程中实际速度的计算方法为：考虑节点的移动性，首先利用邻居表中所记录的邻居节点的移动速度，来预测邻居节点的位置。设节点i在t₁时刻将邻居节点j加入到邻居表中，即在t₁时刻邻居节点j成为节点i的邻居，邻居节点j在t₁时刻的地理位置为[x(j,t₁),y(j,t₁),z(j,t₁)]，速度的大小为v_j，方向为[angle_xy_j,angle_z_j]，t₂为当前时刻，即在t₂时刻节点i进行路由决策，假设节点i选择邻居节点j作为下一跳节点，数据包于t₃时刻到达邻居节点j，则可预测邻居节点j在t₃时刻的位置为：

x(j,t₃)＝x(j,t₁)+υ_j*cos(angle_xy)*cos(angle_z)*(t₃-t₁)

y(j,t₃)＝y(j,t₁)+υ_j*sin(angle_xy)*cos(angle_z)*(t₃-t₁)

z(j,t₃)＝z(j,t₁)+υ_j*sin(angle_z)*(t₃-t₁)

t₃＝t₂+T

其中，T为节点i将数据包传送到邻居节点j的平均时延。

根据节点i的当前位置和邻居节点j的预测位置，可求得数据包从节点i到邻居节点j所能提供的实际速度的表达式为:

其中，为节点i与邻居节点j的端到端时延，dis(i,D)为节点i在t₂时刻的实际位置与目的节点D的距离，为邻居节点j在t₃时刻的预测位置与目的节点D的距离。

步骤104：根据步骤103所得到的候选节点集合，进行最优路由决策，若候选节点集合不为空，则利用Q-learning在候选节点中，选择Q值最大的候选节点作为下一跳，表达式为：

其中，α是学习率，0≤α≤1，s_i表示系统处于节点i状态，r(s_i,a_i)为该节点i采取行动a_i使系统状态由该节点i转换到该邻居节点j所获得的奖励值，γ是折扣因子，0≤γ≤1，为下一个状态该邻居节点j采取一个行为a_j所能获得的最大Q值。这里所述的系统是指无人机自组网系统，系统处于节点i状态是指数据包处于节点i时无人机自组网的状态。

所述Q-learning中的奖励函数，同时考虑了端到端时延和节点的电量，其表达式为：

其中，w为端到端时延的权重值，0≤w≤1(本实施例中，w的取值为0.6)，假设节点i采取行动a_i，系统状态由节点i换为邻居节点j，即节点i选用邻居节点j作为下一跳传输数据，则为将数据从节点i传输到邻居节点j并离开邻居节点j所需要的时间，E_res为邻居节点j的剩余电量，E_init为邻居节点j的初始电量；当所选的邻居节点j为目的节点时，节点i与邻居节点j之间的链路获得最大奖励值r_max(本实施例中，r_max的取值为1)；当节点i为局部最优节点时，即节点i的所有邻居节点与目的节点D的距离均大于节点i与目的节点D的距离，则节点i获得最小奖励值r_min(本实施例中，r_min的取值为-1)。

所述Q-learning的学习率α和折扣因子γ，节点将随该节点与邻居节点的端到端时延变化更新相应的学习率α，同时节点将随该节点和邻居节点的位置变化(本发明利用邻居节点个数的变化情况反应节点的位置变化)周期性地更新折扣因子γ(本实施例中，γ的更新周期为0.1s)，γ和α的表达式为：

α＝1-e^-ε

其中，N_t-1(i)和N_t(i)分别为节点i在t-1和t时刻拥有邻居节点的个数，μ和σ分别为端到端时延的均值和方差。

根据本发明的一个优选实施例，对于当前节点i，若其候选节点的集合为空集，但有实际速度大于0的邻居节点，则选择拥有最大速度且速度不小于0的邻居节点进行数据传输。

根据本发明的一个优选实施例，对于当前节点i，若既无候选节点，也无实际速度大于0的邻居节点，即节点i为局部最优节点时，则采用惩罚措施即赋予当前节点最小奖励值，并利用Q-learning重新学习当前节点的链路状况，避免其他节点再次选择该节点，造成数据不可达的问题。

为了更清晰地阐述本发明中节点在候选节点集合不为空、候选节点集合为空但有实际速度大于0的邻居节点和候选节点集合为空且无实际速度大于0的邻居节点，3种情况下的路由决策过程，参考图2A、2B、2C对其进行详细说明。图2A显示了在候选节点集合不空情况下的路由决策过程，假设数据流已从源节点S转发到节点A，且从当前节点A到目的节点D在传输过程中所要求的速度V_A等于20m/s，节点A有B、C、E三个邻居，从节点A到节点B、C、E的实际速度分别为18m/s、28m/s、25m/s，根据候选节点要求，节点C和E为节点A的候选节点，而节点C和E的Q值分别为0.82、0.85，根据选择最大Q值原则，节点A将选择节点E进行数据传输；图2B显示了在候选节点集合为空但有实际速度大于0的邻居节点情况下的路由决策过程，假设数据流已从源节点S转发到节点A，且从当前节点A到目的节点D在传输过程中所要求的速度V_A等于20m/s，节点A有B、C、E三个邻居，从节点A到节点B、C、E的实际速度分别为-8m/s、19m/s、15m/s，根据候选节点要求，节点A邻居的实际速度均小于要求速度，因此节点A无候选节点，即候选节点集合为空，但有实际速度大于0的邻居C和E，则节点A将选择实际速度最大的邻居C进行数据传输；图2C显示了在候选节点集合为空且无实际速度大于0的邻居无人机情况下的路由决策过程，假设数据流已从源节点S转发到节点A，且从当前节点A到目的节点D在传输过程中所要求的速度V_A等于20m/s，节点A有B、C两个邻居，从节点A到节点B、C的实际速度分别为-5m/s、-9m/s，根据候选节点要求，节点A邻居的实际速度均小于要求速度，因此节点A无候选节点，即候选节点集合为空，同时节点A也无实际速度大于0的邻居节点，因此无人机A对原传输链路进行惩罚。

下面将针对在步骤101～步骤104中的具体数学计算式及其中所涉及的变量进行详细介绍。

<步骤101的计算式>

节点周期性地发送握手包，握手包中含有当前节点的地理位置、电量、移动模型、等待时延和折扣因子，收到握手包的节点，利用握手包中的信息建立并维护邻居表，邻居表中含有邻居的地理位置、电量、移动模型、到达时间、信道接入时延、等待时延、Q值、折扣因子和学习率，节点确定每个邻居节点的生命周期，并在发送握手包之后，根据每个邻居节点的到达时间和生命周期，从邻居表中删去生命期结束的邻居，握手包的时间间隔和邻居节点的生命周期均可根据节点的移动速度进行调节。

<步骤102的计算式>

本路由方法中，每一个数据包都有一个初始的最大要求传输时间，即源节点S在发送数据包时，需赋予数据包明确的最大要求传输时间，数据包需在相应的最大要求传输时间内到达目的节点D。在转发过程中，数据包的最大要求传输时间会实时更新，假设节点i向邻居节点j发送数据包，数据包在节点i和j的最大要求传输时间分别为deadline_i、deadline_j，则数据包的最大要求传输时间更新公式为：

其中，为数据包从节点i到达邻居节点j并从邻居节点j离开的时间，其由三部分组成：

本方法中，利用ACK包对进行估算，即将节点i向邻居节点j发送数据包的时刻与收到邻居节点j发来ACK包时刻的时差作为的值，同时采用WMEWMA技术更新对于一个拥有m个邻居的节点i，其始终维持m个长度为n的滑动窗口，每个窗口记录了节点i向邻居节点j发送的最近n个数据包的时延，第l次更新的公式如下：

其中，β为参数，0≤β≤1，如果节点的端到端时延随时间变化较大，那么应赋予β一个较大值(一般为0.7～0.9)，以强调新测量的信道接入时延。但是如果节点的端到端时延变化很小，则β可以选择一个较小的值(一般为0.2～0.4)，τ为节点i收到邻居节点j发来的最新ACK包的时延，τ的表达公式为：

τ＝t_ACK-t_leave

<步骤103的计算式>

本方法中，数据包在传输过程中需满足一定的速度要求，根据当前数据包的端到端最大要求传输时间和当前节点i与目的节点D之间的距离，确定数据包从当前节点i到目的节点D在传输过程中所要求的速度V_i，V_i的表达式为：

同时根据当前节点i与邻居邻居节点j间的端到端时延和邻居节点j与目的节点D间的距离以及邻居节点j的移动状况，确定数据包从节点i到邻居节点j的实际速度其计算方法为，设节点i在t₁时刻将邻居节点j加入到邻居表中，即在t₁时刻邻居节点j成为节点i的邻居，邻居节点j在t₁时刻的地理位置为[x(j,t₁),y(j,t₁),z(j,t₁)]，速度的大小为v_j，方向为[angle_xy_j,angle_z_j]，t₂为当前时刻，即在t₂时刻节点i进行路由决策，假设节点i选择邻居节点j作为下一跳节点，数据包于t₃时刻到达邻居节点j，则可预测邻居节点j在t₃时刻的位置为：

x(j,t₃)＝x(j,t₁)+υ_j*cos(angle_xy)*cos(angle_z)*(t₃-t₁)

y(j,t₃)＝y(j,t₁)+υ_j*sin(angle_xy)*cos(angle_z)*(t₃-t₁)

z(j,t₃)＝z(j,t₁)+υ_j*sin(angle_z)*(t₃-t₁)

t₃＝t₂+T

其中，T为节点i将数据包传送到邻居节点j的时延。

根据节点i的当前位置和邻居节点j的预估位置，可求得数据包从节点i到邻居节点j所能提供的实际速度的表达式为:

根据上述V_i和获取候选节点集合，候选节点需满足

<步骤104的计算式>

根据步骤103所得的候选节点集合，进行最优路由决策，若候选节点集合不为空，则利用Q-learning在候选节点中，选择Q值最大的节点作为下一跳，表达式如下：

其中，α是学习率(0≤α≤1)，用于控制Q值的更新速度，α值越小，表示Q值更新较慢，反之，Q值更新较快。s_i表示系统处于节点i状态，r(s_i,a_i)为该节点i采取行动a_i使系统状态由该节点i转换到该邻居节点j所获得的奖励值，γ是折扣因子(0≤γ≤1)，γ越小，表示智能体更趋向于考虑即时奖励；反之，γ越大，表示智能体将以更大的权重考虑未来的奖励。

未来状态转换的稳定性，较高的γ值表示未来的状态转换是稳定的，而较低的γ值表示节点的状态转换不稳定。

为下一个状态该邻居节点j采取一个行为a_j所能获得的最大Q值。

本方法中，Q-learning的奖励函数同时考虑了端到端时延和节点的电量，其表达式为：

其中，w(0≤w≤1)为端到端时延的权重值，较高的w值表示在数据包的传输过程中，更侧重于低时延要求；较低的w值表示在数据包的传输过程中，更侧重于低能耗要求。假设节点i采取行动a_i使系统由节点i状态转换为节点j状态，即选用邻居节点j传输数据，则delay_i ^j为将数据从节点i传输到邻居节点j并离开邻居节点j所需要的时间，E_res为邻居节点j的剩余电量，E_init为邻居节点j的初始电量，当所选的邻居节点j为目的节点时，节点i与邻居节点j之间的链路获得最大奖励值r_max；当节点i为最优节点时，即节点i的所有邻居节点与目的节点D的距离均大于节点i与目的节点D的距离，则节点i获得最小奖励值r_min。

本方法中，Q-learning的学习率α和折扣因子γ将随端到端时延和节点的位置变化，进行自适应地调节，从而实现自适应路由，γ和α的表达式为：

α＝1-e^-ε

其中，N_t-1(i)和N_t(i)分别为节点i在t-1和t时刻拥有邻居节点的个数，折扣因子γ与节点邻居个数的变化成反比，若当前节点的邻居个数变化较大，说明该节点处于一个较不稳定的状态，则γ应拥有一个较小的值来表示当前节点未来的状态转换不稳定，若当前节点的邻居个数变化较小，说明该节点处于一个较稳定的状态，则γ应拥有一个较大的值来表示当前节点未来的状态转换较为稳定。μ和σ分别为端到端时延的均值和方差，学习率α与数据包的端到端时延有关，端到端时延的波动越大，表示该链路越不稳定，因此α应拥有一个更大的值，使Q值更新速度较快，否则较小的α值使得Q值更新速度较慢。

本方法中，针对候选节点的集合为空集，即所有候选节点的实际速度均小于当前节点的要求速度，本方法将选择最大实际速度的邻居邻居节点j进行数据传输，使数据包尽可能在初始的最大要求传输时间内到达目的节点。

本方法中，针对当前节点为局部最优节点问题，即当前节点既无候选节点，也无实际速度大于0的邻居节点，采用了惩罚措施，即赋予当前节点最小的奖励值，同时利用Q-learning重新学习当前节点的链路状况，避免其他节点再次选择该节点，造成数据不可达的问题。

下面将通过具体的实例对本发明所述的基于Q-learning的自适应路由进行仿真实验并给予说明。

本实例在无线网络模拟器WSNet环境中仿真实验，实例中，25个节点分布在500m×500m的区域内，目的节点固定于(500,500)的位置上，而其他节点随机分布。表1描述了本发明实验参数的详细信息。

表1参数配置表

在本实例中，一个握手包的时间间隔为100ms，每个邻居的生命周期为400ms，折扣因子更新的时间间隔为100ms。实验中，仅有源节点在发送数据，目的节点接收数据，而其他节点对收到的数据进行转发。除了目的节点，其他节点以200ms的时间间隔周期性地随机改变移动速度和方向，移动速度范围为10m/s～30m/s。源节点发送数据的时间间隔为10ms～50ms，根据源节点发送数据的时间间隔进行了5组实验，每组实验仿真1000次，源节点发送1000个数据包，数据包的大小为127Bytes。

本实验中，将本发明实例与现有的QGeo路由协议(QGeo:Q-Learning basedGeographic Ad-Hoc Routing Protocol for Unmanned Robotic Networks,Jung W S,2017)进行了比较，并从平均端到端时延、数据包的到达率和能耗，这3个性能指标对本发明所述无人机自组网自适应路由方法进行评估。在分析实验结果之前，先对本实验所涉及的3个性能指标进行简单的说明：

平均端到端时延AD：数据包从源节点S成功到达目的节点D的平均时延；

到达率AR：目的节点D所收到的数据包数(不包括冗余的数据包数)占源节点S所发送的数据包数的百分比；

能量消耗(EC)：考虑节点转发和接受数据包是主要的能量消耗因素。能量消耗指标EC定义为：EC＝(source_fp+rely_rp+reply_fp)/des_rp，其中，source_fp源节点转发数据包数，rely_rp、reply_fp分别是中继节点接受和转发数据包数，des_rp是目的节点接受的数据包数。图3显示了平均端到端时延随着源节点发送数据时间间隔增大的变化，红色曲线为本发明所述的无人机自组网自适应路由方法的平均端到端时延变化情况，蓝色曲线为现有的QGeo路由协议的平均端到端时延变化情况，从图3中可以看到，本发明的平均端到端时延低于现有的QGeo路由协议，特别是当源节点发送数据包的时间间隔小于20ms时。相比于QGeo算法，本发明方法的平均端到端时延平均降低45％-。这主要原因是本发明对数据包在传输过程中的速度进行了约束，要求数据包在传输过程中的速度不小于时延约束范围内所要求的速度。相比QGeo路由，本发明在Q学习的奖励函数中，不仅考虑了数据的信道接入时延，还考虑了数据在节点的排队等待时延。通过对信道接入时延和等待时延的联合考虑，节点总是选择低时延的路径进行数据的传输，从而使数据包能以较小的时延到达目的节点。

图4显示了数据包的到达率随着源节点发送数据时间间隔增大的变化，红色曲线为本发明所述的无人机自组网自适应路由方法的数据包到达率变化情况，蓝色曲线为现有的QGeo路由协议的数据包到达率变化情况，从图中可以看到，本发明的数据到达率明显高于QGeo算法，且与QGeo相比，到达率平均增加6％。当源节点发送数据的时间间隔为10m/s时，本发明的到达率仍可达到90％。这主要是因为在本发明中，Q学习中的学习率和折扣因子将随端到端时延和节点的位置变化情况，自适应地调节，使得节点能够快速地预测链路的状况。通过这种方式，节点总会选择更稳固的链路进行数据的传输，进而提高了数据的到达率。

图5显示了能耗EC随着源节点发送数据时间间隔增大的变化，红色曲线为本发明所述的无人机自组网自适应路由方法的能耗变化情况，蓝色曲线为现有的QGeo路由协议的能耗变化情况，从图中可以看到，相比QGeo路由，本发明中节点的平均能耗更小，使得网络的生命周期更长。相比QGeo，本发明的能耗平均降低28％，这主要是因为，本发明在Q学习的奖励函数中考虑了节点的电量。通过综合考虑节点的初始电量和剩余电量，选择电量消耗较小的节点进行数据传输，进而平衡了网络中每个节点电量消耗的问题。

本实例的实验结果说明了本发明所述的基于Q-learning的自适应路由较现有路由协议有更低的平均端到端时延、更低的能耗和更高的数据包到达率，适用于动态自组织网络，例如无人机自组网。

本发明所提供的无人机自组网自适应路由方法，在路由决策时综合考虑了数据的信道接入时延、排队等待时延和节点的电量，实现低时延、低能耗路由。此外，本发明通过自适应地调节Q-learning中的学习率和折扣因子，能够很好地预测链路不稳定问题，从而实现健壮的路由。

需要说明的是，上述实施例中介绍的各个步骤并非都是必须的，本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种无人机自组网自适应路由方法，其特征在于，包括：

以无人机自组网中的无人机为节点，所有节点以预定周期发送握手包；任一节点接收其邻居节点发送的握手包，获取并更新该邻居节点的节点信息；

该节点发送或转发数据包时，获取该数据包从该节点到目标节点的要求传输速度，以及该数据包从该节点到该邻居节点的实际传输速度，以大于或等于该要求传输速度的该实际传输速度对应的邻居节点为候选节点；

根据该候选节点的节点信息，通过Q-learning算法获得该候选节点的Q值，以最大Q值对应的候选节点为下一跳的路由节点进行该数据包的路由。

2.如权利要求1所述的自适应路由方法，其特征在于，该要求传输速度其中，dis(i,D)为该节点i到该数据包路由的目标节点D的距离，deadline_i为该数据包从该节点i到该目标节点D的最大要求传输时间；该实际传输速度其中，为该节点i到该邻居节点j的端到端时延，为该数据包到达该邻居节点j时该邻居节点j到该目标节点D的预测距离。

3.如权利要求1所述的自适应路由方法，其特征在于，该Q值的更新式为其中max Q(s_i,a_i)s.t. α为学习率，0≤α≤1，s_i表示该数据包处于节点i的状态，r(s_i,a_i)为该节点i采取行动a_i使该数据包由处于该节点i转换到处于该邻居节点j所获得的奖励值，γ为折扣因子，0≤γ≤1，为下一个状态该邻居节点j采取一个行为a_j所能获得的最大Q值。

4.如权利要求3所述的自适应路由方法，其特征在于，该奖励值r(s_i,a_i)为：

当该邻居节点j为该目的节点D时，r(s_i,a_i)＝r_max；

当该节点i的所有邻居节点j与该目的节点D的距离均大于该节点i与该目的节点D的距离，r(s_i,a_i)＝r_min；

当存在该邻居节点j与该目的节点D的距离小于或等于该节点i与该目的节点D的距离，则其中，w为该节点i到该邻居节点j的端到端时延的权重值，0≤w≤1，为将该数据包从该节点i传输到该邻居节点j并离开该邻居节点j所需要的时间，E_res为该邻居节点j的剩余电量，E_init为该邻居节点j的初始电量。

5.如权利要求3所述的自适应路由方法，其特征在于，该折扣因子γ和该学习率α为：

α＝1-e^-ε

其中，N_t-1(i)和N_t(i)分别为该节点i在t-1和t时刻拥有邻居节点的个数，为该节点i到该邻居节点j的端到端时延，μ和σ分别为所有该节点i到其邻居节点的端到端时延的均值和方差。

6.一种无人机自组网自适应路由系统，其特征在于，包括：

候选节点筛选模块，用于该节点从其所有邻居节点中筛选数据包路由候选节点；其中当该节点发送或转发数据包时，获取该数据包从该节点到目标节点的要求传输速度，以及该数据包从该节点到该邻居节点的实际传输速度，以大于或等于该要求传输速度的该实际传输速度对应的邻居节点为该候选节点；

7.如权利要求6所述的自适应路由系统，其特征在于，该要求传输速度其中，dis(i,D)为该节点i到该数据包路由的目标节点D的距离，deadline_i为该数据包从该节点i到该目标节点D的最大要求传输时间；该实际传输速度其中，为该节点i到该邻居节点j的端到端时延，为该数据包到达该邻居节点j时该邻居节点j到该目标节点D的预测距离。

8.如权利要求6所述的自适应路由系统，其特征在于，该Q值的更新式为其中max Q(s_i,a_i)s.t. α为学习率，0≤α≤1，s_i表示该数据包处于节点i的状态，r(s_i,a_i)为该节点i采取行动a_i使该数据包由处于该节点i转换到处于该邻居节点j所获得的奖励值，γ为折扣因子，0≤γ≤1，为下一个状态该邻居节点j采取一个行为a_j所能获得的最大Q值。

9.如权利要求8所述的自适应路由系统，其特征在于，该立即回报值r(s_i,a_i)为：

当该邻居节点j为该目的节点D时，r(s_i,a_i)＝r_max；

10.如权利要求8所述的自适应路由系统，其特征在于，该折扣因子γ和该学习率α为：

α＝1-e^-ε