CN110719617A

CN110719617A - 基于反正切学习率因子的q路由方法

Info

Publication number: CN110719617A
Application number: CN201910941768.1A
Authority: CN
Inventors: 黄庆东; 袁润芝; 曹艺苑
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-21
Anticipated expiration: 2039-09-30
Also published as: CN110719617B

Abstract

本发明公开了一种基于反正切学习率因子的Q路由方法，解决了现有算法附加学习率因子调节能力有限的问题，其实现有：布局网络拓扑；建立网络Q值表；网络节点获得最小时间代价邻居的估计值；路由决策和对数据包传输最小时间代价邻居节点Q值更新；当前节点对其它邻居节点Q值进行更新；路由过程循环，实现无线自组织网络的自适应调节路由。本发明使用调节范围大的学习率因子对网络中未接收数据包的邻居节点Q值进行更新，能因网络不同情况自适应调节。本发明降低了在高、低负载时数据的平均递交时间和路由间的振荡；只需局部节点信息即可实现路由选择，避免过大网络开销，用于无线自组织网络通信。

Description

基于反正切学习率因子的Q路由方法

技术领域

本发明属于通信技术领域，涉及无线自组织网络的Q路由，具体是基于反正切学习率因子的Q路由方法，用于无线自组织网络。

在不增加网络路由开销的前提下，能够实现对数据包路由的合理决策，降低网络的路由时延，减少路由振荡，提高数据包的成功投递率。

背景技术

无线自组织是一种没有固定基础设施的网络，网络中通常没有集中控制的节点，节点间通过自组织成网来进行通信。通常网络中的节点可以自由移动，在移动自组织网络中，节点的不断移动导致拓扑不断变化。拓扑变化对网络路由带来极大挑战，传统的基于对流量和网络状况改变大量假设的路由技术越来越被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。事实上，假设条件如果在现实网络不能满足，网络性能与预期模拟性能将存在很大偏差。在这些方面所做的工作主要有：检测节点队列长度，利用节点反馈信息对网络状态进行更新，权衡路由中探索与利用有效路径的关系。

强化学习是解决现实网络状况的有效替代方案。强化学习适用于解决与分布式系统相关的优化问题，尤其适用于网络中的路由问题，它可以从以前与环境的交互中学习，从而在未来有效地选择其行为，用于优化无线自组织网络中的路由选择。

Q学习(Q-learning)是强化中最常用的学习方法。Q学习的作者Watkins证明了只要在所有状态下对所有动作进行重复采样，Q学习就能以概率1收敛到最佳动作值。因此，Q学习是延迟强化中应用最广泛和最有效的学习方法，然而收敛速度仍然是一个悬而未决的问题。自适应全回波Q路由(AQFE)算法是近年来被提出的一种基于Q学习获得最优递交延迟的逐跳Q路由方法；它具有前期学习包数要求低、状态空间小以及动作空间较小等特点。但是Q路由普遍存在的一些问题依然显著：1.训练前期Q值有较长时间不可靠；2.收敛到最优解速度慢；3.参数的稳健性差，算法性能不稳定。

现有技术以上的缺陷，限制了网络中路由性能的提高，导致网络中时延增加，算法收敛速度比较慢，算法性能不稳定。从而影响了基于Q学习的路由算法的应用性能。

发明内容

本发明的目的在于克服上述已有技术的不足，提出一种自适应调节范围广，收敛速度更快的基于反正切学习率因子的Q路由方法。

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，或在m×m的矩形区域内根据动态随机游走模型布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑；

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价；

步骤3网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t；

步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新：当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为数据包传输下一跳节点，决策出传输的下一跳节点后，进行数据包的传输；根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的

值表示，是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x在各个时刻将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用；

步骤5当前节点对其它邻居节点Q值进行更新：当前节点x如果存在y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用反正切学习率因子η'执行更新,通过对反正切学习率因子η'的自适应调节，平衡网络中探索与利用路由策略的关系，进而优化路由决策，完成一次数据包传输的路由过程；

步骤6路由过程循环：网络中各节点在传输数据包时，对数据包P(o,d)途经的节点依次执行上述操作，并重复执行步骤3～5；网络中各节点进行数据包路由的Q值表更新和路由决策，直至网络生命周期结束。

本发明采用一种自适应调节范围大的反正切自适应学习率因子。通过利用反正切自适应学习率因子，改善已有算法参数调节能力，能够缩短前期训练Q值不可靠时长，同时提升网络平均递交时间收敛速度。本发明可以快速寻找最短时延路径，并根据网络不同拥塞情况自适应进行路由调节，避免网络的拥塞，提高路由算法在时延方面的性能以及递交时延稳定性。

与现有技术相比，本发明具有如下优点：

(1)避免过大开销：本发明将节点中包到下一跳局部邻居节点的时延估计信息作为奖励值反馈给该节点，使节点得到最优的决策，由于不需要知道网络的全局信息，因此避免了过大的网络开销。

(2)调节范围大：网络拓扑的频繁变化对路由带来极大挑战，传统的基于对流量和网络状况改变大量假设的路由技术被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。本发明利用强化来解决路由问题，它可以从以前与环境的交互中学习，通过对邻居节点Q值的更新，从而在未来有效地选择其行为，可以适应复杂、高度变化条件的无线自组织网络环境。自适应学习率因子的调节可以根据实际网络自适应进行调节，调节范围大，算法的收敛速度快，稳定性好，在路由时延和递交率方面体现较好的性能。

(3)算法的收敛速度快：当网络中的节点需要进行决策时，邻居节点会返回决策节点一个反馈信息，根据这些反馈信息，网络中的节点会对邻居节点使用不同的调节因子，进而平衡路由中探索与利用的关系，加快路由收敛到时延最短路径的速度。在路由状况良好时，利用当前的有效路由策略，否则当网络中较为拥塞时，对网络中的路径进行更加有效地探索，选择出更合适的路径。

附图说明:

图1是本发明的算法流程示意图；

图2是本发明中反正切学习率因子的曲线图；

图3是本发明中的静态网络拓扑结构示意图；

图4是本发明与现有技术在静态网络低负载时的节点传输包数和平均递交时间对比图，其中图4(a)是对比算法在低负载下的节点传输包数图，图4(b)是本发明在低负载下的节点传输包数图，图4(c)是本发明与现有技术在低负载下的平均递交时间对比；

图5是本发明与现有技术在静态网络高负载时的节点传输包数和平均递交时间对比图；其中图5(a)是对比算法在高负载下的节点传输包数图，图5(b)是本发明在高负载下的节点传输包数图，图5(c)是本发明与现有技术在高负载下的平均递交时间对比；

图6是本发明与现有技术在静态网络中的全局平均递交时间对比图；

图7是本发明与现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图；

图8是本发明与现有技术在动态网络高低负载下的平均递交时间对比图；

图9是本发明与现有技术在动态网络中的全局平均递交时间对比图。

具体实施方式：

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明做详细说明。

实施例1:

网络与人们的生活密不可分，可以在酒店、机场以及抗震救灾环境等实际应用中以无线方式将许多节点连接成一个网络。多年来，关于无线自组织网络的路由研究一直是热点问题。无线自组织网络是多跳的可移动性网络，尤其适用于在紧急环境中的网络部署，节点通过自组织成网获得环境中的信息，并进行信息的交互。传统路由算法中由于灵活性差、计算复杂度高等原因，不能适应高度变化的网络。强化学习是解决现实网络状况的有效替代方案。现有的一些基于强化学习的路由算法有着状态、动作空间要求少，仅利用局部节点信息，自适应进行调节等优点，但是仍然存在训练前期Q值不准确、收敛速度较慢、算法性能不稳定等缺点。以上现有技术的缺陷，限制了网络中路由性能的提高，导致网络时延增加，算法收敛速度比较慢，算法性能不稳定。影响了基于Q学习的路由算法的应用性能。

本发明针对上述现状展开了研究与探索，提出了一种基于反正切学习率因子的Q路由方法，参见图1：包括如下步骤：

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，网络按照如图3所示的静态网络布局；或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑。

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表。Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价。

步骤3网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t；即网络节点获得数据包传输最小时间代价邻居的估计值t。

步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新：路由决策是当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为数据包传输下一跳节点，决策出传输的下一跳节点后，进行数据包的传输。

本发明在Q路由决策时，增加节点路由记忆，避免数据包返回已经经过的路径，如果节点返回之前已经经过的节点，会造成额外的路由延迟，因此使数据包记忆前面经过的L个节点的信息，避免数据包返回此前已经经过的L个路由节点；即路由选择时，如果节点x存在邻居集合，x从其邻居集合中排除此前经过的L个节点后，再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y₁；若剩余邻居集合为空集合时，才允许选择此前经过的L个邻居节点。

对每一个需要进行决策的节点，判断出下一跳最优路径的节点后，在下一跳节点缓存区队列未满的情况下，接收该数据包，完成数据包的传输转移；否则在节点缓存区队列已满的情况下，丢弃该数据包。

Q值更新是根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x在各个时刻将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用。

步骤5当前节点对其它邻居节点Q值进行更新，并调节探索与利用路由策略：当前节点x如果存在y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用反正切学习率因子η'执行更新,对反正切学习率因子η'的自适应调节。通过对反正切学习率因子η'的调节，可以根据网络不同状况进一步调节探索与利用路由策略之间的平衡，在网络路由状况良好时，仅需要利用当前有效策略；在网络状况拥塞时，探索其它有效路径，寻求更有效的路由策略。平衡网络中探索与利用路由策略的关系，进而优化路由决策，完成一次数据包传输的路由过程。

根据包传输节点x的Q值表计算出最大递交时间T_max与平均递交时间T_est之差，其中T_est为节点x的Q值表中对应信宿d所有邻居Q值的算术平均值，T_max是节点x到目前为止，曾经所得所有T_est值中的最大值；对节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用反正切学习率因子η'执行更新，更新公式如下：

式中y₂为节点x的任一其它邻居节点；通过对η'的自适应调节，平衡网络中探索与利用路由策略的关系，进而优化路由决策；s₂是数据包从x到节点y₂的链路传输时间；式中

是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示。本发明的反正切学习率因子η'：

η′＝1-(2atan((T_max-T_est)/(2k₂π))/π)

参见图2，图2为本发明反正切自适应学习率因子η'随自变量T_max-T_est的变化曲线，通过T_max-T_est的变化，反正切自适应学习率因子η'可以在(0,1)范围内进行调节；最大递交时间与平均递交时间之差T_max-T_est的变化会对路由策略的调节产生影响，平衡网络中探索与利用路由策略的关系。式中k₂为常数，取值范围为(0,1]；通过调节k₂可以调节反正切学习率因子的变化，对路由策略进一步进行调节。

反正切学习率因子η'自适应地进行调节，使得路由决策准确有效。实现在最小路径延迟方向快速地选择最佳路径，且在路径拥塞时能够进行自适应路由调节，按照最小延迟进行路由选择。

本发明通过对节点的所有邻居节点Q值不断进行更新，网络中Q值不断迭代逐步得到全网络的全局信息；当网络中路由较为拥塞时，这些信息会被迅速传遍整个网络，路由会做出迅速调整，增大对有效路径的搜索；如果当前路由策略有效，则不改变原有的路由策略。

本发明提出了一个自适应调节范围广的基于反正切学习率因子的Q路由方法的整体技术方案。

本发明的技术思路是：首先布局网络拓扑，当决策节点需要做出路由决策时，局部邻居节点会发给决策节点一个到达信宿节点的估计时间代价，节点进行路由决策，在排除节点记忆中已经经过的邻居节点后，将数据包发送给邻居节点中到达信宿节点估计时间代价最小的邻居节点。并对接收到包的邻居使用学习率η进行Q值的更新，对未收到包的邻居使用反正切学习率因子η'进行Q值的更新。

本发明的基于反正切学习率因子的Q路由方法，解决了原有算法中附加学习率因子调节能力有限的问题，其实现有：布局网络拓扑；建立网络Q值表；网络节点获得最小时间代价邻居的估计值；路由决策和对数据包传输最小时间代价邻居节点Q值更新；当前节点对其它邻居节点Q值进行更新；路由过程循环，实现无线自组织网络的自适应调节路由。

通过对网络中的节点Q值表进行逐步迭代之后，使Q值表更加准确反映数据包到达信宿节点的时延情况，从而实现数据包路由的合理决策，避免网络拥塞，降低节点的平均递交时间。本发明能够提高数据包的成功投递率，降低网络间的路由振荡，加速路由向最小时延路径的收敛速度。

实施例2:

基于反正切学习率因子的Q路由方法同实施例1，本发明步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y₂的各个Q值，逐一使用反正切学习率因子η'执行更新，对最小时间代价邻居Q值更新计算公式如下式所示：

其中y₂为当前节点x的任一其它邻居节点；η'为反正切自适应学习率因子，η'的值在(0,1)范围；s₂是数据包从x到节点y₂的链路传输时间；式中

是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示。

只对网络中决策出的下一跳节点Q值进行更新，对其它邻居节点的Q值不进行更新，则网络中节点在寻找到一条较优的路径后，就不会再对其它更有效的路径进行探索。本发明中对网络中不同的邻居节点使用两种学习率进行Q值更新，即：对路由决策选择处的下一跳节点使用基础学习率η进行更新，对其它邻居节点使用反正切学习率因子η'进行Q值的更新。通过使用反正切学习率因子对其它邻居节点Q值进行更新，增加了对网络中其它路径的探索，可以发现更为有效的路径，网络中数据包传输到信宿节点的时延更低，路由策略更加有效；且通过对其它邻居节点使用反正切学习率因子η'进行Q值的更新，对网络Q值自适应调节，平衡路由中的探索与利用。

本发明给出的反正切学习率因子能够适应网络参数的变化；在当前路由策略有效时，利用当前路由策略，在当前路由策略不是十分有效时，增加对有效路径的探索，以获得更好的路由策略。

实施例3:

基于反正切学习率因子的Q路由方法同实施例1-2，本发明步骤5中反正切学习率因子η'的实现，计算公式如下式所示：

η′＝1-(2atan((T_max-T_est)/(2k₂π))/π)

式中k₂为常数，取值范围为(0,1]；通过调节k₂可以调节反正切学习率因子η'，进而对路由策略进一步进行调节。根据当前数据包传输节点x的Q值表计算出最大递交时间T_max与平均递交时间T_est之差，其中T_est为当前节点x的Q值表中对应信宿d所有邻居Q值的算术平均值，T_max是当前节点x到目前为止，曾经所得所有T_est值中的最大值。如果当前节点x的最大递交时间与平均递交时间之差T_max-T_est较大时，η'的值较小，说明此时网络路径选择相对稳定，网络不需要过多地进行路由探索，去寻找其它路径，而侧重于利用当前的路由策略。而当前节点x的最大递交时间与平均递交时间之差T_max-T_est不大时，此时η'较大，说明此时网络路径选择情况较复杂，需要加强探索网络中的其它更有效传输路径。本发明反正切学习率因子η'在(0,1)范围内自适应地的调节学习率，平衡路由策略中的路径探索与利用关系。

目前已有的算法自适应学习率因子只能在有限的范围内进行调节，本发明通过反正切自适应学习率因子实现对不同邻居估计时间的更新，并进行路由的决策，由于反正切自适应学习率因子的调节范围更大，实现了对路由在不同拥塞情况下的合理决策，扩大了自适应调节范围，收敛速度更快，得到最优的路由策略。

本发明的反正切自适应学习率因子可以根据需要在(0,1)范围内自适应地进行学习率的调节，在无线自组织网络路由中平衡探索与利用的关系，通过自适应地对网络拥塞情况进行调节，提高网络路由时延方面的性能，提高数据包的投递率，改善路由的振荡情况。

参见图7,图7是本发明与现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，其中，图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图。对比图7(a)和图7(b)，现有技术在中负载时，递交时间有明显的凸起，说明算法不稳定，而本发明，在各个区间内均无明显凸起，可见，本发明在不同参数下的时延性能方面具有更好的稳健性。

本发明继承了Q路由中对网络路由进行自适应决策的特点，采用调节范围覆盖全面的反正切学习率因子，使训练前期Q值更加可靠，网络收敛到最优解的速度加快。本发明在路由中使用调节范围更大、适应性更好、算法性能更稳健的反正切学习率因子，根据网络不同情况自适应地调节学习率。本发明性能更加稳健，进而使网络中数据从信源节点到信宿节点的递交时间降低，更稳定收敛；只需要利用局部邻居节点信息及数据包信息即可实现路由选择，避免过大的网络开销，适合于静态或移动自组织分布式网络。本发明能有效地减少网络在高、低负载时数据的平均递交时间，降低路由间的振荡，提高数据包的投递率，且体现更好的稳健性。用于无线自组织网络通信。

下面给出一个更加详细的例子，对本发明进一步说明。

实施例4:

基于反正切学习率因子的Q路由方法同实施例1-3，无线自组织网络中节点x对经由下一跳邻居节点到达信宿节点d的估计时延进行采集，并决策出下一跳最优路径节点，对收到包的邻居节点y₁使用基础学习率η进行Q值的更新；对剩余的邻居节点y₂，判断当所有邻居y间的最大递交时间与平均递交时间之差T_max-T_est较小时，则此时网络较为拥塞，使用较大的反正切学习率因子η'进行更新，否则，在网络状态良好时，使用较小的学习率η'进行更新。

通过对节点x的Q值进行更新，经过逐步迭代获取整个网络的路由情况，更加准确对未来网络的路由进行决策。对于目前无线自组织网络，只要能够获取节点到的下一跳节点估计时延信息的无线自组织网络均可适用。

参照图1，本发明是一种无线自组织网络的低时延Q路由方法，其实现步骤包括有：

步骤1布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，参见图3所示的网络拓扑结构是用于路由算法中的一种基准网络，网络中有两条瓶颈链路，不同的路由决策可以对两条链路之间的路由产生影响；或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑；

步骤2建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价；初始条件时所有的Q_x(d,y)设置为0，之后通过在每一个仿真时间对Q值的不断更新，逐渐使Q值收敛稳定，获得更加准确的网络路由信息。

步骤3网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t：

N^*(y₁)表示去除x后，y₁的所有邻居节点；z为N^*(y₁)中的节点；N(y₁)表示y₁的所有邻居节点；如果N(y₁)仅有一个邻居x时，N^*(y₁)＝N(y₁)。

步骤4路由决策和对包传输最小时间代价邻居节点Q值进行更新：使数据包记忆前面经过的L个节点的信息，避免数据包返回此前已经经过的L个路由节点；即路由选择时，如果节点x存在邻居集合，x从其邻居集合中排除此前经过的L个节点后，再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y₁；若剩余邻居集合为空集合时，才允许选择此前经过的L个邻居节点；节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为包传输下一跳节点，并根据下式更新节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中

是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是包在节点x传输队列中的等待时间；s是包从x到y₁节点的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；节点x在各个时刻将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的参数t使用；

对每一个需要进行决策的节点，判断出下一跳最优路径的节点后，由于节点的缓存区大小是有限的，当接收数据包的节点缓存区未满时，完成数据包的传输。否则在节点缓存区已满的情况下，节点缓存区溢出，丢弃该数据包。

步骤5节点对其它邻居节点Q值进行更新，并调节探索与利用路由策略：节点x如果存在y₁以外的其它邻居节点，则根据包传输节点x的Q值表计算出最大递交时间T_max与平均递交时间T_est之差，其中T_est为节点x的Q值表中对应信宿d所有邻居Q值的算术平均值，T_max是节点x到目前为止，曾经所得所有T_est值中的最大值；对节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用反正切学习率因子η'执行更新，更新公式如下：

根据邻居节点之间的递交时间计算反正切学习率因子η'，反正切学习率因子η'如下式所示：

η′＝1-(2atan((T_max-T_est)/(2k₂π))/π)

对需决策的节点Q值进行更新，式中k₂为常数，取值范围为(0,1]。式中

是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示；其中T_est是节点x的Q值表中对应信宿d所有Q值的算术平均值；T_max是节点x到目前为止，曾经所得所有T_est中的最大值。反正切学习率因子η'在(0,1)范围内自适应地的调节学习率，平衡路由策略中的路径探索与利用关系。

本发明中每个节点作为一个独立的agent，根据邻居节点的估计时延状况独立地做出决策，本发明对每个节η'的调节可以寻求在探索与利用之间的平衡，在高、低负载时寻找信源与信宿之间的递交时延最短路径，具有较好的灵活性。

对网络中实际收到包的邻居节点和未收到包的邻居节点使用不同的学习率进行更新，继承了现有Q路由算法中前期学习包数要求低、状态空间小以及动作空间较小等特点，保持了现有技术的良好特性，同时通过利用反正切学习率因子的调节，使算法的时延更低，收敛速度加快，性能更加稳定。

步骤6路由过程循环：网络各节点在传输数据包时，对数据包P(o,d)途经的各节点依次执行上述操作，并重复执行步骤3～5；各节点进行包路由的Q值表更新和路由决策，直至网络生命周期结束。

本发明将网络中缓存区中有包的节点到下一跳节点的时延信息作为反馈奖励值，继承了Q路由算法前期学习包数要求低、状态空间小以及动作空间较小等特点，通过判断邻居节点间的最大递交时间与平均递交时间差值的计算，对收到包和未收到包的邻居节点使用不同的反正切自适应学习率因子进行更新，为不同的路由拥塞情况提供合理地决策。通过对自适应学习率因子进行改进，改善其参数调节能力，使算法能够缩短前期训练Q值不可靠时长，同时提升算法收敛速度。使算法快速寻找最短时延路径。本发明降低了路由的时延，减少了路由之间的振荡，提高了包的投递率，算法的稳健更好。

下面通过以下仿真及其实验结果对本发明的技术效果再做说明。

实施例5：

基于反正切自适应学习率因子的Q路由算法同实施例1-4。

仿真条件与内容：

仿真实验的条件如下：在矩形平面区域内按照如图1所示静态拓扑结构布局36个节点。实验选取图1中5对信源和信宿节点进行包传输测试，其分别为：0→17，1→23，2→29，7→10，8→4。仿真时间为10000个单位时间，实验设置网络中每单位时间每个节点只能发出到达同一信宿节点的一个或队列排列相连的多个数据包，且不考虑包的丢失重发。网络中的负载服从指数为λ的泊松分布，实验中低负载时λ＝0.5，高负载下λ＝1.9，包的记忆长度L为1，节点队列最大缓存包数为50，算法中自适应学习率因子的参数k₂取值为1.0时效果较好，因此实验中取此参数。实验中节点队列中每个数据包的处理时间设置为0.01个单位时间，节点之间的传输时间设置为0.2个单位时间，因此队列中每个数据包传输处理总时间为0.21个单位时间，考虑节点应答消息为echo＝0.02个单位时间。每个数据包传输时间：

s＝0.2+echo×message_received，

队列时间：

q＝0.21×queue_length，

式中message_received为邻居节点消息的应答数，queue_length为节点队列的长度。静态网络中一般认为λ在0.9以内为较低负载，高于1.6为较高负载。

仿真结果：

仿真1，对本发明在静态不规则网络拓扑低负载下的路由性能进行仿真，与AQFE-M算法的性能进行比较。

图3是静态网络拓扑结构示意图，如图3所示的网络拓扑结构，是一种被广泛使用的基准网络,用来验证路由算法性能。本发明仿真实验也用其作为基准网络。图4是本发明与现有技术在静态网络低负载时的节点传输包数和平均递交时间对比图，其中图4(a)是对比算法在低负载下的节点传输包数图，图4(b)是本发明在低负载下的节点传输包数图，图4(c)是本发明与现有技术在低负载下的平均递交时间对比。网络中的数字表示各个节点的包传输数和节点标号：比如图4(a)，图4(a)是对比算法的节点传输包数图，左下方节点处的数字0和982分别表示节点标号和节点的传输包数，其它节点以此类推。图中信源一般位于网络左半部分，信宿一般位于右半部分；信源、信宿在图中用实心圆表示。包需要通过图中的两条瓶颈链路20-21、32-33进行传递。一条路径距离短，一条路径距离长，以此来验证算法路由选择情况。图4(b)是本发明的节点传输包数图，网络中大多数包数从较近的瓶颈链路中经过，在低负载时，网络中的路由压力不大，从具有最短路径的瓶颈链路中经过显然是低负载下的最优路由策略。

结合图4(a)(b)(c)可见本发明与现有技术在不规则固定拓扑下低负载时的节点传输包数和平均递交时间对比图。可见本发明与现有技术相比，低负载下，网络最短路径处的路由压力不大，而AQFE-M算法并没有让更多的包从低时延路径通过，本发明在低负载时大多数数据包从低时延路径通过，本发明显然体现了低负载下的更优的路由选择策略。图4(c)，在低负载时，本发明在仿真时间内的递交时间一直低于已有算法，且保持递交时间的持续稳定。图4(c)对低负载下两种算法数据包平均递交时间情况进行对比。数据包的平均递交时间是将每100时间单位内所有能成功到达信宿的数据包花费的时间求平均值。在本发明中，在初始时期路由选择阶段的上冲峰值相较AQFE-M算法要小很多。

实施例6：

基于反正切自适应学习率因子的Q路由算法同实施例1-4，仿真条件同实施例5。

仿真2，对本发明在静态不规则网络拓扑在高负载下的路由性能进行仿真，对比算法仍采用AQFE-M算法。

图5是本发明与现有技术在静态网络高负载时的节点传输包数和平均递交时间对比图；其中图5(a)是对比算法在高负载下的节点传输包数图，图5(b)是本发明在高负载下的节点传输包数图，图5(c)是本发明与现有技术在高负载下的平均递交时间对比；如图5(a)所示，从图中可以看出，AQFE-M算法在网络上下两个瓶颈链路20-21和32-33处传输的包数基本一致，都在9500左右，高负载下AQFE-M算法实现了在两个瓶颈链路之间的负载均衡，如图5(b)所示，本发明中网络下部瓶颈链路中20-21处传输的包数为9800左右，32-33处的传输包数为9096，短路径瓶颈链路20-21相对于较远瓶颈链路32-33处传输的数据包增加，网络中较多数数据包从最短路径20-21经过，网络中其余数据包从较长路径的瓶颈节点32-33中经过。本发明在高负载下将一部分最短路径处的路由压力及时分流到较远路径处，能够及时适应网络拥塞变化，又尽量在网络承受压力内使较多包以最短时延到达信宿。因此算法在高低负载下都能实现对包路由的合理决策。

在高负载条件下(λ＝1.9)，平均递交时间情况如图5(c)所示，本发明使参数符合网络的变化，能根据网络的变化及时做出调整，初始训练时长明显缩短，上冲峰值明显减小，沉降时间明显缩短，节点的平均投递时间相对于AQFE-M更低。

实施例7：

基于反正切自适应学习率因子的Q路由算法同实施例1-4，仿真条件同实施例5-6。

仿真3，实验对不同负载下全局平均递交时间变化情况进行了对比。全局平均递交时间是将实验中不同负载情况下的各时间段平均递交时间做全局统计平均后得到，实验结果采用50次实验数据的平均值。参见图6，图6是本发明与现有技术在静态网络中的全局平均递交时间对比曲线图；由图6可知，随着负载水平的增加，本发明和对比的AQFE-M算法的全局平均递交时间都不断增大。在较低负载0.5-0.8区间和较高负载1.7-1.9区间时，本发明相对于原算法递交时间都相对减少，但是在负载为0.9-1.6时，本发明相对AQFE-M算法全局平均递交时间有了一定的增加。

仿真4，对本发明在静态不规则网络拓扑在不同参数下的路由稳定性进行仿真。图7是本发明与现有技术在静态网络中不同参数下的全局平均递交时间对比三维图；图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图，图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图。图7给出了AQFE-M算法和本发明算法的参数k或k₂取不同值时各负载下的全局平均递交时间变化情况，不同的参数取值对自适应学习率因子产生影响，进而对路由决策中探索与利用之间的平衡关系产生影响。由图7(a)可以看出，AQFE-M算法实验结果相较本发明波动较大，参数k为0.5时在负载1.5时出现一个明显波动峰，这会造成算法不稳健，由图7(b)所示，本发明实验结果总体变化趋势平稳，未出现结果突变的不稳定情况，说明本发明的方法在整体上满足路由时延性能方面的稳健性。

实施例8:

基于反正切学习率因子的Q路由方法同实施例1-4。

仿真条件：

仿真实验的条件如下：动态随机游走模型中(RWM)将100个节点随机布置在1500m×1500m的矩形区域中，节点的最大移动速度为10m/单位时间，节点的通信距离为250m。动态网络由于频繁的拓扑变化，相比静态网络中需要较高的学习率来实现对下一跳最优路径的探索，因此相比静态网络，在动态网络中增加了k₂的取值，使学习率增加，如果学习率过低，路由探索能力比较小，在高负载下会导致较大的时延，实验在动态网络中k₂取值为1效果较好，因此在动态网络所有实验中均选取k₂为1，在AQFE-M算法中仍选取k为0.6时有较好的效果。实验中的信源和信宿节点选取和静态网络中相同的节点对标号。仿真时间为10000单位时间。

仿真内容及仿真结果：

仿真5，对本发明在RWM模型下生成的随机拓扑进行仿真，是本发明与现有技术在动态网络高低负载下的平均递交时间对比；在动态网络中，实验在较低负载下，选取λ＝0.5，较高负载下选取λ＝2.0。图8(a)是在低负载下，本发明与现有技术在动态网络高低负载下的平均递交时间对比曲线图。由于动态网络中邻居节点的不断变化，节点初始学习时花费了较长的时间进行学习，之后趋于平稳，学习到稳定的路由策略，在动态网络中仍会出现路由间的振荡。相对于AQFE-M算法，本发明中反正切学习率因子具有更好的适应性，能够适应网络拥塞变化，相对原算法平均递交时间更低。尤其在节点学习阶段的递交时间变化幅度更为明显，收敛速度更快，节点学习到最优路由策略的时间减小，在路由时延平稳阶段具有更好地稳定性。图8(b)所示在高负载下，与现有技术相比，本发明可以实现更低的递交时间，学习速率加快，收敛到稳定路由策略的时间也降低。在高低负载下，本发明均可以较大地降低网络延迟。

实施例9:

基于反正切学习率因子的Q路由方法同实施例1-4，仿真条件同实施例8。

仿真6，对本发明与现有技术在动态网络中的全局平均递交时间的性能进行比较。由于动态网络中拓扑不断变化，平均递交时间变化差异较大，实验选取各负载下50次全局平均递交时间的均值作为最终值。图9是本发明与现有技术在动态网络中的全局平均递交时间对比图。仿真实验体现了本发明能更好适应网络拓扑的变化，对网络拓扑的变化更快做出反应，在各负载下的路由时延优于现有技术，体现了本发明的优越性。

实施例10:

基于反正切学习率因子的Q路由方法同实施例1-4，仿真条件同实施例8-9。

仿真内容及仿真结果：

仿真7，对本发明与现有技术在动态网络中的投递率进行比较。各个节点对的投递率定义为仿真时间内，到达信宿节点的包数与信源节点处产生的包数之比。网络数据包会由于队列缓存已满，或链路质量差而传输失败，造成包丢失。网络总投递率定义为网络中所有成功到达信宿的包数与所有信源处产生的总包数之比。动态拓扑情况下，如图9所示，负载由低到高变化，本发明延迟均低于原算法。表1是低负载下动态网络中的投递率对比表，表2是高负载下动态网络中的投递率对比表。

表1低负载投递率对比

表2高负载投递率对比

从表1和表2中均可以看出，本发明具有更高的包投递率。

简而言之，本发明的一种基于反正切学习率因子的Q路由方法，解决了原有算法附加学习率因子调节能力有限的问题，其实现有：布局网络拓扑；建立网络Q值表；网络节点获得最小时间代价邻居的估计值；路由决策和对数据包传输最小时间代价邻居节点Q值更新；当前节点对其它邻居节点Q值进行更新；路由过程循环，实现无线自组织的自适应调节路由。本发明使用调节范围大的学习率因子对网络中未接收数据包的邻居节点Q值进行更新，使路由时延性能更稳健，能因网络不同情况自适应地调节。本发明使网络中平均递交时间降低，更稳定收敛；只需局部节点信息即可实现路由选择，避免过大的网络开销。有效地减少网络在高、低负载时数据的平均递交时间，降低路由间的振荡，提高数据包投递率。用于无线自组织网络通信。

Claims

1.一种基于反正切学习率因子的Q路由方法，其特征在于：包括如下步骤：

步骤1 布局网络拓扑：在一块矩形平面区域内布置N个同构的无线自组织网络节点，或在m×m的矩形区域内根据动态随机游走模型布置M个移动节点，节点的通信距离为r，根据通信距离建立节点间的联接关系，形成网络拓扑；

步骤2 建立网络Q值表：将网络中信源节点为o，信宿节点为d的数据包表示为P(o,d)；网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量，简称Q值，用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计；将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Q_x(d,y)，其中y为x的任一邻居节点；当前节点x遍历所有不同邻居和所有不同信宿节点的Q值，构成了当前节点的本地Q值表，所有节点的本地Q值表构成了整个网络的Q值表；Q值表中Q_x(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价；

步骤3 网络节点获得数据包传输最小时间代价邻居的估计值t：当前节点x收到数据包P(o,d)后，将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y₁，同时y₁会返回当前节点x一个y₁传递数据包到信宿节点d的估计值t；

步骤4 路由决策和对数据包传输最小时间代价邻居节点Q值进行更新：当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y₁作为数据包传输下一跳节点，决策出传输的下一跳节点后，进行数据包的传输；根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y₁的Q_x(d,y₁)值：

式中是T时刻的Q_x(d,y₁)值表示，

是T+1时刻更新的Q_x(d,y₁)的值表示；其中η代表基础学习率，为一个常数；q是数据包在节点x传输队列中的等待时间；s是数据包从x到邻居节点y₁的链路传输时间；t为y₁传递数据包到信宿节点d的Q值；当前节点x将计算出的Q_x(d,y)分享给它的所有邻居节点，供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用；

步骤5 当前节点对其它邻居节点Q值进行更新，并调节探索与利用路由策略：当前节点x如果存在y₁以外的其它邻居节点，则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值，逐一使用反正切学习率因子η'执行更新，通过对反正切学习率因子η'的自适应调节，平衡网络中探索与利用路由策略的关系，进而优化路由决策，完成一次数据包传输的路由过程；

步骤6 路由过程循环：网络中各节点在传输数据包时，对数据包P(o,d)途经的节点依次执行上述操作，并重复执行步骤3～5；网络中各节点进行数据包路由的Q值表更新和路由决策，直至网络生命周期结束。

2.如权利要求1所述的基于反正切学习率因子的Q路由方法，其特征在于：步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y₂的各个Q值，逐一使用反正切学习率因子η'执行更新，计算公式如下式所示：

其中y₂为当前节点x的任一其它邻居节点；η'为反正切自适应学习率因子，η'的值在(0,1)范围；s₂是数据包从x到节点y₂的链路传输时间；式中是T时刻的Q_x(d,y₂)值表示，

是T+1时刻更新的Q_x(d,y₂)的值表示。

3.如权利要求1所述的基于反正切学习率因子的Q路由方法，其特征在于：步骤5中反正切学习率因子η'的实现，计算公式如下式所示：

η′＝1-(2atan((T_max-T_est)/(2k₂π))/π)

式中k₂为常数，取值范围为(0,1]；通过调节k₂可以调节反正切学习率因子η'，进而对路由策略进一步进行调节；根据当前数据包传输节点x的Q值表计算出最大递交时间T_max与平均递交时间T_est之差，其中T_est为当前节点x的Q值表中对应信宿d所有邻居Q值的算术平均值，T_max是当前节点x到目前为止，曾经所得所有T_est值中的最大值；如果当前节点x的最大递交时间与平均递交时间之差T_max-T_est较大时，η'的值较小，说明此时网络路径选择相对稳定，网络不需要过多地进行路由探索，去寻找其它路径，而侧重于利用当前的路由策略；而当前节点x的最大递交时间与平均递交时间之差T_max-T_est不大时，此时η'较大，说明此时网络路径选择情况较复杂，需要加强探索网络中的其它更有效传输路径；反正切学习率因子η'在(0,1)范围内自适应地的调节学习率，平衡路由策略中的路径探索与利用关系。