CN110691364B

CN110691364B - 基于双曲正割学习率因子的q路由方法

Info

Publication number: CN110691364B
Application number: CN201910940701.6A
Authority: CN
Inventors: 黄庆东; 袁润芝; 李晓瑞
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-10-28
Anticipated expiration: 2039-09-30
Also published as: CN110691364A

Abstract

本发明公开基于双曲正割学习率因子的Q路由方法，在路由中使用适应性更好、性能更稳健的双曲正割算子，根据网络不同情况自适应地调节路由；继承了Q路由中对网络路由进行自适应决策的特点，解决了原有算法中附加学习率因子调节能力有限的问题，采用调节范围覆盖全面的双曲正割调节因子，使训练前期Q值更加可靠，路由性能更加稳健，网络中数据从信源节点到信宿节点的平均递交时间降低；只需要利用局部邻居节点信息及数据包信息即可实现路由选择，避免过大的网络开销，适合于无线自组织网络。本发明能有效地减少网络在高、低负载时数据的平均递交时间，降低路由间的振荡，提高数据包的投递率。

Description

基于双曲正割学习率因子的Q路由方法

技术领域

本发明属于通信技术领域，涉及无线自组织网络的Q路由，具体是基于双曲正割学习率因子的Q路由方法，用于无线自组织网络。

背景技术

多年来，关于无线自组织网络的路由研究一直是热点问题。无线自组织网络通过多跳节点进行通信，尤其适用于在紧急环境中的网络部署，节点获取环境中的信息，并进行信息的交互。无线自组织网络中没有固定的基础设施，网络中没有集中控制的节点，节点间通过自组织成网来进行通信。在移动自组织网络中，节点的移动导致拓扑不断变化。传统路由算法中由于灵活性差、计算复杂度高等原因，不能适应高度变化的网络拓扑变化给网络路由带来的极大挑战，而且已有的基于对流量和网络状况改变大量假设的路由技术越来越被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。事实上，假设条件如果在现实网络不能满足，网络性能与预期模拟性能将存在很大偏差。在这些方面所做的工作主要有：对节点队列长度进行检测，利用各节点反馈的时延信息更新网络，从环境交互中进行学习，权衡路由中探索与利用的关系。

强化学习适用于解决与分布式系统相关的优化问题，Q学习(Q-learning)是强化学习中最常用的学习方法。Q学习的作者Watkins证明了只要在所有状态下对所有动作进行重复采样，Q学习就能以概率1收敛到最佳动作值。因此，Q学习是延迟强化学习中应用最广泛和最有效的学习方法，并被应用在Q路由算法中，然而收敛速度仍然是一个悬而未决的问题。自适应全回波Q路由(AQFE)算法是近年来被提出的一种基于Q学习获得最优递交延迟的逐跳Q路由方法；它具有前期学习包数要求低、状态空间小以及动作空间较小等特点，广泛应用于无线自组织网络中。目前，在实际应用中发现，Q路由普遍存在的下列问题在AQFE及AQFE-M中依然显著：1.训练前期Q值有较长时间不可靠；2.收敛到最优解速度慢；3.参数的稳健性差，算法性能不稳定。

现有技术以上的缺陷，限制了网络中路由性能的提高，导致网络时延增加，算法收敛速度比较慢，算法性能不稳定。从而影响了基于Q学习的路由算法的应用性能。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种自适应调节范围广、路由性能稳健性更高的基于双曲正割学习率因子的Q路由方法。

本发明是一种基于双曲正割学习率因子的Q路由方法，其特征在于：包括如下步骤：

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，或在m×m的矩形区域内根据动态随机游走模型布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑；

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价；

步骤3网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t；

步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新：当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为数据包传输下一跳节点，决策出传输的下一跳节点后，进行数据包的传输；根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x在各个时刻将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用；

步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新：当前节点x如果存在y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用双曲正割学习率因子η'执行更新,通过对双曲正割学习率因子η'的自适应调节，并对该节点的Q值执行更新；

步骤6路由过程循环：网络中各节点在传输数据包时，对数据包P(o,d)途经的节点依次执行上述操作，并重复执行步骤3～5；网络中各节点进行数据包路由的Q值表更新和路由决策，直至网络生命周期结束。

本发明利用双曲正割自适应学习率因子，改善其参数调节能力。能够缩短前期训练Q值不可靠时长，同时提升算法收敛速度。快速寻找最短时延路径，并根据网络不同拥塞情况自适应进行路由调节，避免网络的拥塞。在不增加网络路由开销的前提下，实现对数据包路由的合理决策，降低网络的路由时延和振荡，增加路由在时延性能方面的稳定性，提高数据包的成功投递率。

与现有技术相比，本发明具有如下优点：

(1)避免过大开销：本发明将节点中包到下一跳局部邻居节点的时延估计信息作为奖励值反馈给该节点，使节点得到最优的决策，由于不需要知道网络的全局信息，因此避免了过大的网络开销。

(2)算法稳定性好：网络拓扑的频繁变化对路由带来极大挑战，传统的基于对流量和网络状况改变大量假设的路由技术越来越被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。本发明利用强化学习来解决路由问题，从以前与环境的交互中学习，通过对邻居节点Q值的更新，从而在未来有效地选择其行为，可以适应复杂、高度变化条件的无线自组织网络环境。算法在各路由参数下稳定性好，在路由时延和递交率方面体现较好的性能。

(3)自适应进行调节路由策略：当网络中的节点需要进行决策时，邻居节点会返回决策节点一个反馈信息，根据这些反馈信息，网络中的节点对接收数据包的邻居节点使用基础学习率进行更新，对于未接收数据包的邻居节点使用双曲正割学习率因子进行更新，双曲正割学习率因子可以根据网络状况自适应进行调节，平衡路由中探索与利用的关系，通过双曲正割学习率因子对路由的调节，能够对路由状况进行即时学习并生成更优的路由策略。

附图说明:

图1是本发明的流程示意图；

图2是本发明中双曲正割学习率因子的曲线图；

图3是本发明中的静态网络拓扑结构示意图；

图4给出了本发明与现有技术在静态网络下低负载时的节点传输包数和平均递交时间对比图；其中图4(a)是对比算法在低负载下的节点传输包数图，图4(b)是本发明在低负载下的节点传输包数图，图4(c)是本发明与现有技术在低负载下的平均递交时间对比；

图5给出了本发明与现有技术在静态网络下高负载时的节点传输包数和平均递交时间对比图；其中图5(a)是对比算法在高负载下的节点传输包数图，图5(b)是本发明在高负载下的节点传输包数图，图5(c)是本发明与现有技术在高负载下的平均递交时间对比；

图6是本发明所示方案与现有技术在静态网络中的全局平均递交时间对比图；

图7是本发明所示方案与现有技术在静态网络中不同参数下的全局平均递交时间对比图，图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图；

图8是本发明所示方案与现有技术在动态网络高低负载下的平均递交时间对比图；

图9是本发明所示方案与现有技术在动态网络中的全局平均递交时间对比图。

具体实施方式：

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明做详细说明。

实施例1：

网络与人们的生活密不可分，可以在酒店、机场以及抗震救灾环境等实际应用中以无线方式将许多节点连接成一个网络。

强化学习被认为是解决现实网络状况的有效替代方案。强化适用于解决与分布式系统相关的优化问题，尤其适用于网络中的路由问题，它可以从以前与环境的交互中学习，从而在未来有效地选择其行为，用于优化无线自组织网络中的路由选择。

现有的一些基于强化学习的路由算法有着状态、动作空间要求少，仅利用局部节点信息，自适应进行调节等优点，但是仍然存在训练前期Q值不准确、收敛速度较慢、算法性能不稳定等缺点。

现有关于无线自组织网络的路由方法限制了网络中路由性能的提高，导致网络时延增加，算法收敛速度比较慢，算法性能不稳定。从而影响了基于Q学习的路由算法的应用性能。本发明针对上述现状展开了研究与探索，提出基于双曲正割学习率因子的Q路由方法，参见图1：包括如下步骤：

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，网络按照如图3所示的静态网络布局，图3是一种被广泛使用的用来验证路由性能的静态基准网络，该网络存在两条瓶颈链路，网络中的数据包从不同瓶颈链路中经过，进而影响路由的时延性能；或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑。

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价。

N^*(y₁)表示去除x后，y₁的所有邻居节点；z为N^*(y₁)中的节点；N(y₁)表示y₁的所有邻居节点；如果N(y₁)仅有一个邻居x时，N^*(y₁)＝N(y₁)。

步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新：路由决策是当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为数据包传输下一跳节点，决策出传输的下一跳节点后，进行数据包的传输；

路由决策时，增加节点路由记忆，避免数据包返回已经经过的路径，如果节点返回之前已经经过的节点，会造成额外的路由延迟，因此使数据包记忆前面经过的L个节点的信息，避免数据包返回此前已经经过的L个路由节点；即路由选择时，如果节点x存在邻居集合，x从其邻居集合中排除此前经过的L个节点后，再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y₁；若剩余邻居集合为空集合时，才允许选择此前经过的L个邻居节点。

对每一个需要进行决策的节点，判断出下一跳最优路径的节点后，在下一跳节点缓存区队列未满的情况下，接收该数据包，完成数据包的传输转移；否则在节点缓存区队列已满的情况下，丢弃该数据包。

Q值更新是根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用。

步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新，进一步调节探索与利用的关系：当前节点x如果存在具有最小时间代价的邻居y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点y₂的各个Q值，逐一使用双曲正割学习率因子η'执行更新。完成节点在当前时刻的路由决策过程。当网络状况良好时，不需要对其它的路径进行探索，此时学习率较低，反之，当网络较为拥塞时，增大学习率，增加对其它更优路径的探索。本发明通过双曲正割学习率因子η'的自适应调节，并对当前节点的Q值执行更新，能够适应网络参数的变化，使网络在各参数的性能下更加稳定。

参见图2，图2为本发明双曲正割自适应学习率因子η'随自变量T_max-T_est的变化曲线，由图2可知，随着T_max-T_est的变化，双曲正割自适应学习率因子η'可以在(0,1)范围内进变化；通过η'对网络Q值的调节，平衡网络中探索与利用的关系，优化路由策略。

步骤6路由过程循环：网络中各节点在传输数据包时，对数据包P(o,d)途经的节点依次执行上述操作，并重复执行步骤3～5；进行网络中各节点进行数据包路由的Q值表更新和路由决策，直至网络生命周期结束。完成基于双曲正割学习率因子的无线自组织网络的Q路由。

本发明提出了一个自适应调节范围广、路由时延更稳定收敛的基于双曲正割学习率因子的Q路由方法的整体技术方案。

本发明的技术思路是：首先布局网络拓扑，当决策节点需要做出路由决策时，局部邻居节点会发给决策节点一个到达信宿节点的估计时间代价，节点进行路由决策，在排除节点记忆中已经经过的邻居节点后，将数据包发送给邻居节点中到达信宿节点估计时间代价最小的邻居节点。并对接收到包的邻居使用学习率η进行Q值的更新，对未收到包的邻居使用双曲正割学习率因子η'进行Q值的更新。

本发明的基于双曲正割学习率因子的Q路由方法，解决了已有算法中附加学习率因子调节能力有限的问题，其实现有：布局网络拓扑；建立网络Q值表；网络节点获得最小时间代价邻居的估计值；路由决策和对数据包传输最小时间代价邻居节点Q值更新；当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新；路由过程循环，实现无线自组织网络的自适应调节路由。

通过对网络中的节点Q值表进行逐步迭代之后，使Q值表更加准确反映数据包到达信宿节点的时延情况，从而实现数据包路由的合理决策，避免网络拥塞，降低节点的平均递交时间。本发明能够提高数据包的成功投递率，降低网络间的路由振荡，提高算法在路由时延方面的的稳定性。

实施例2：

基于双曲正割学习率因子的Q路由方法同实施例1，步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y₂的各个Q值，逐一使用双曲正割学习率因子η'执行更新，计算公式如下式所示：

其中y₂为当前节点x的任一其它邻居节点；η'为双曲正割学习率因子，η'的值在(0,1)范围；s₂是数据包从x到节点y₂的链路传输时间；式中

是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示。

已有算法只对具有最小时间代价的邻居节点Q值进行更新时，当路由寻找到较优路径之后，就不会再去寻找其它更加有效的路径，这样不利于快速寻找到最优路径。本发明中对每个节点中的邻居节点Q值进行更新，增大了对路径的探索，有利于找到时延更优的路径。当网络中邻居节点之间的平均递交时间与最大递交时间之差比较大时，表示网络状况良好，此时双曲正割学习率因子较小，通过使用较小的双曲正割学习率因子对节点的Q值进行更新，使路由利用当前有效策略，反之增加路由探索，寻求更有效的路径。

本发明中由于只利用邻居节点分享的的信息，避免了集中式网络中大的路由开销，每个节点自主决策，得到路由最优策略。本发明的双曲正割学习率因子可以根据需要在(0,1)范围内自适应地进行学习率的调节，从而平衡探索与利用的关系，通过自适应地对网络拥塞情况进行调节，提高网络路由时延方面的性能，提高数据包的投递率，改善路由的振荡情况，提高算法在不同参数下的时延性能方面的稳健性。

实施例3：

如权利要求1或2所述的基于双曲正割学习率因子的Q路由方法，其特征在于：步骤5所述的双曲正割学习率因子，根据Q值表对应节点的Q值计算出当前节点x所有邻居y间最大递交时间T_max与平均递交时间T_est之差，并对当前节点x的其它邻居节点y₂使用双曲正割学习率因子η'计算当前节点学习率，计算公式如下：

η'＝η.sech[(T_max-T_est)/k₂]；

式中k₂为常数，取值范围为(0,1]；其中T_est由节点x的Q值表中对应信宿d所有Q值的算术平均值计算所得；T_max是节点x到目前为止，曾经所得所有T_est值中的最大值。

当邻居间的最大递交时间与平均递交时间之差T_max-T_est较小时，则此时节点不能选择出有效的路径，此时双曲正割学习率因子η'会增大，进而增加探索，选择出更加有效的路径；当邻居间的最大递交时间与平均递交时间之差T_max-T_est较大时，则此时当前的路径策略比较有效，此时双曲正割学习率因子η'较小，本发明只需利用当前的有效路由策略，而不需要过多的路径探索。通过对节点x的Q值进行更新，经过逐步迭代获取整个网络的路由情况，更加准确对未来网络的路由进行决策。

下面给出一个更加详细的例子，对本发明进一步说明。

实施例4：基于双曲正割学习率因子的Q路由方法同实施例1-3，参照图1，本发明是基于双曲正割学习率因子的Q路由方法，其实现步骤包括有：

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点；或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑。

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价。初始条件时所有的Q_x(d,y)设置为0，之后通过在每一个时刻对Q值的不断更新，逐渐使Q值收敛稳定，获得更加准确的网络路由信息。

步骤3网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t：

步骤4路由决策和对包传输最小时间代价邻居节点Q值进行更新：使数据包记忆前面经过的L个节点的信息，避免数据包返回此前已经经过的L个路由节点；在进行路由选择时，x从其邻居集合中排除此前经过的L个节点后，再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y₁；若剩余邻居集合为空集合时，才允许选择此前经过的L个邻居节点；节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为包传输下一跳节点，并根据下式更新节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是包在节点x传输队列中的等待时间；s是包从x到y₁节点的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；节点x在各个时刻将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的参数t使用。

对每一个需要进行决策的节点，判断出下一跳最优路径的节点后，由于节点的缓存区大小是有限的，当接收数据包的节点缓存区未满时，接收节点收到数据包，完成数据包的传输。否则在节点缓存区已满的情况下，节点缓存区溢出，丢弃该数据包。

步骤5节点对其它邻居节点Q值使用双曲正割学习率因子进行更新，并调节探索与利用路由策略：节点x如果存在y₁以外的其它邻居节点，则根据包传输节点x的Q值表计算出最大递交时间T_max与平均递交时间T_est之差，其中T_est为节点x的Q值表中对应信宿d所有邻居Q值的算术平均值，T_max是节点x到目前为止，曾经所得所有T_est值中的最大值；对节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用双曲正割学习率因子η'执行更新，更新公式如下：

式中

是T时刻的Q_x(d,y₂)值表示，

表示的是T+1时刻更新的Q_x(d,y₂)值；根据邻居节点之间的递交时间计算双曲正割学习率因子η'，双曲正割学习率因子η'如下式所示：

η'＝η.sech[(T_max-T_est)/k₂]

对需决策的节点Q值进行更新，式中k₂为常数，取值范围为(0,1]。其中T_est是节点x的Q值表中对应信宿d所有Q值的算术平均值；T_max是节点x到目前为止，曾经所得所有T_est中的最大值。双曲正割学习率因子η'在(0,1)范围内自适应地的调节学习率，平衡路由策略中的路径探索与利用关系。

通过以下仿真实验结果对本发明的技术效果再做说明。

实施例5：

基于双曲正割自适应学习率因子的Q路由算法同实施例1-4。

仿真条件：

仿真实验的条件如下：在矩形平面区域内按照如3所示静态拓扑结构布局36个节点。实验选取图1中5对信源和信宿节点进行包传输测试，其分别为：0→17,1→23,2→29,7→10,8→4。仿真时间为10000个单位时间，实验设置网络中每单位时间每个节点只能发出到达同一信宿节点的一个或队列排列相连的多个数据包，且不考虑包的丢失重发。网络中的负载服从指数为λ的泊松分布，实验中低负载时λ＝0.5，高负载下λ＝1.9，包的记忆长度L为1，节点队列最大缓存包数为50，算法中自适应学习率因子的参数k₂在静态网络中取值为1.0时效果较好，因此静态实验取此参数。实验中节点队列中每个数据包的处理时间设置为0.01个单位时间，节点之间的传输时间设置为0.2个单位时间，因此队列中每个数据包传输处理总时间为0.21个单位时间，考虑节点应答消息为echo＝0.02个单位时间。每个数据包传输时间：

s＝0.2+echo×message_received，

队列时间：

q＝0.21×queue_length，

式中message_received为邻居节点消息的应答数，queue_length为节点队列的长度。静态网络中一般认为λ在0.9以内为较低负载，高于1.6为较高负载。

仿真内容及仿真结果：

仿真1，对本发明在静态不规则网络拓扑进行仿真，如图3所示的网络拓扑结构是一种被广泛使用的基准网络,用来验证路由算法性能。网络中的数字表示各个节点的包传输数和节点标号：比如图4(a)中左下方节点处的数字0和1932分别表示节点标号和节点的传输包数，其他节点以此类推。图中信源一般位于网络左半部分，信宿一般位于右半部分；信源、信宿在图中用实心圆表示。包需要通过图中的两条瓶颈链路20-21、32-33进行传递。一条路径距离短，一条路径距离长，以此来验证算法路由选择情况。其中图4(a)是作为对比算法的AQFE-M算法在低负载下的节点传输包数图，图4(b)是本发明在低负载下的节点传输包数图，图4(c)是本发明与现有技术在低负载下的平均递交时间对比曲线图。数据包的平均递交时间是将每100时间单位内所有能成功到达信宿的数据包花费的时间求平均值。在低负载下，网络最短路径处的路由压力不大，比较图4(a)和图4(b)可见本发明与现有技术相比，AQFE-M算法没有让更多的包从低时延路径通过，而本发明中多数包从低时延路径通过，本发明显然体现了低负载下的更优的路由选择策略。图4(c)中，本发明在初始时期路由选择阶段的上冲峰值相较AQFE-M算法要小很多。在仿真时间500-10000内，本发明的平均递交时间总体走势更平稳，且平均递交时间总是低于AQFE-M算法，证实了本发明在路由时延方面的良好性能。

仿真2，图5(a)是对比算法在高负载下的节点传输包数图，图5(b)是本发明在高负载下的节点传输包数图，图5(c)是本发明与现有技术在高负载下的平均递交时间对比。如图5(a)所示，高负载下AQFE-M算法实现了在两个瓶颈链路之间的负载均衡，如图5(b)所示，本发明在高负载下将一部分最短路径处的路由压力及时分流到较远路径处，能够及时适应网络拥塞变化，又尽量在网络承受压力内使较多包以最短时延到达信宿。因此算法在高低负载下都能实现对包路由的合理决策。在高负载条件下(λ＝1.9)，平均递交时间情况如图5(c)所示，本发明使参数符合网络的变化，能根据网络的变化及时做出调整，初始训练时长明显缩短，上冲峰值明显减小，沉降时间明显缩短，节点的平均投递时间相对于AQFE-M更低。

仿真3，实验对不同负载下全局平均递交时间变化情况进行了对比。全局平均递交时间是将实验中不同负载情况下的各时间段平均递交时间做全局统计平均后得到，实验结果采用50次实验数据的平均值。由图6可知，随着负载水平的增加，两种算法的全局平均递交时间都不断增大。在较低负载0.5-0.8区间和较高负载1.7-1.9区间时，本发明相对于原算法递交时间都相对减少，但是在负载为0.9-1.6时，本发明相对AQFE-M算法全局平均递交时间有了一定的增加。图7为AQFE-M算法和本发明的参数k或k₂取不同值时各负载下的全局平均递交时间变化情况，不同的参数取值对自适应学习率因子产生影响，进而对路由决策中探索与利用之间的平衡关系产生影响。图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图。由图7(a)可以看出，AQFE-M算法实验结果相较本发明波动较大，参数k为0.5时在负载1.5时出现一个明显波动峰，这会造成算法不稳健，由图7(b)所示，本发明实验结果总体变化趋势平稳，尤其在参数较大时，未出现结果突变的不稳定情况，且递交时间更低，体现了本发明在路由性能方面的稳健性。

实施例6：基于双曲正割自适应学习率因子的Q路由方法同实施例1-4，本发明可以通过以下仿真实验结果进行进一步说明。

仿真条件：

仿真实验的条件如下：动态随机游走模型中(RWM)将100个传感器随机布置在1500m×1500m的矩形区域中，节点的最大移动速度为10m/单位时间，传感器的传输范围为250m。动态网络由于频繁的拓扑变化，相比静态网络中需要较高的学习率来实现对下一跳最优路径的探索，因此相比静态网络，在动态网络中增加了k₂的取值，使学习率增加，如果学习率过低，路由探索能力比较小，在高负载下会导致更大的时延，实验在动态网络中k₂取值为3效果较好，因此在动态网络所有实验中均选取k₂为3，在AQFE-M算法中仍选取k为0.6时有较好的效果。实验中的信源和信宿节点选取和静态网络中相同的节点对标号。仿真时间为10000单位时间。

仿真内容及仿真结果：

仿真1，对本发明在RWM模型下生成的随机拓扑进行仿真，图8对比了动态网络中高、低负载下平均递交时间的变化情况。在动态网络中，实验在较低负载下，选取λ＝0.5，较高负载下选取λ＝2.0。图8所示在低负载和高负载下，由于动态网络中邻居节点的不断变化，节点初始学习时花费了较长的时间进行学习，之后趋于平稳，学习到稳定的路由策略，在动态网络中仍会出现路由间的振荡。相对于AQFE-M算法，在高低负载下，本发明中双曲正割学习率因子仍具有更好的适应性，能够适应网络拥塞变化，相对原算法平均递交时间更低。与现有技术相比，本发明可以大较大地降低网络延迟。

仿真2，对本发明与现有技术在动态网络中的全局平均递交时间的性能进行比较。由于动态网络中拓扑不断变化，平均递交时间变化差异较大，实验选取各负载下50次全局平均递交时间的均值作为最终值。如图9所示，仿真实验体现了本发明能更好适应网络拓扑的变化，对网络拓扑的变化更快做出反应，在各负载下的路由时延优于现有技术，体现了本发明的优越性。

实施例7:基于双曲正割学习率因子的Q路由方法同实施例1-4，仿真条件同实施例6。

仿真内容及仿真结果：

仿真3，对本发明与现有技术在动态网络中的投递率进行比较。表1是低负载下动态网络中的投递率对比表，表2是高负载下动态网络中的投递率对比表。各个节点对的投递率定义为仿真时间内，到达信宿节点的包数与信源节点处产生的包数之比。网络数据包会由于队列缓存已满，或链路质量差而传输失败，造成包丢失。网络总投递率定义为网络中所有成功到达信宿的包数与所有信源处产生的总包数之比。动态拓扑情况下，如图9所示，负载由低到高变化，本发明延迟均低于原算法；且从表1和表2中均可以看出，本发明具有更高的包投递率。

表1低负载投递率对比

表2高负载投递率对比

本发明将网络中缓存区中有包的节点到下一跳节点的时延信息作为反馈奖励值，继承了Q路由算法前期学习包数要求低、状态空间小以及动作空间较小等特点，通过判断邻居节点间的最大递交时间与平均递交时间差值的计算，对收到包和未收到包的邻居节点使用不同的双曲正割自适应学习率因子进行更新，为不同的路由拥塞情况提供合理地决策，并通过增加接收数据包节点的后向探索功能，使Q值的更新更能准确反映网络状态，加速降低数据包的平均递交时间。本发明降低了路由的时延，减少了路由之间的振荡，提高了包的投递率，路由时延性能的稳健也更好。

Claims

1.一种基于双曲正割学习率因子的Q路由方法，其特征在于：包括有如下步骤：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用；

步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新：当前节点x如果存在y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用双曲正割学习率因子η'执行更新，通过对双曲正割学习率因子η'的自适应调节，并对该节点的Q值执行更新；

步骤6路由过程循环：网络中各节点在传输数据包时，对数据包P(o,d)途经的节点依次重复执行步骤3～5；网络中各节点进行数据包路由的Q值表更新和路由决策，直至网络生命周期结束。

2.如权利要求1所述的基于双曲正割学习率因子的Q路由方法，其特征在于：步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y₂的各个Q值，逐一使用双曲正割学习率因子η'执行更新，计算公式如下式所示：

是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示。

3.如权利要求1或2所述的基于双曲正割学习率因子的Q路由方法，其特征在于：步骤5所述的双曲正割学习率因子，根据Q值表对应节点的Q值计算出当前节点x所有邻居y间最大递交时间T_max与平均递交时间T_est之差，并对当前节点x的其它邻居节点y₂使用双曲正割学习率因子η'计算当前节点学习率，计算公式如下：

η'＝η.sech[(T_max-T_est)/k₂]；