CN110691364B - 基于双曲正割学习率因子的q路由方法 - Google Patents

基于双曲正割学习率因子的q路由方法 Download PDF

Info

Publication number
CN110691364B
CN110691364B CN201910940701.6A CN201910940701A CN110691364B CN 110691364 B CN110691364 B CN 110691364B CN 201910940701 A CN201910940701 A CN 201910940701A CN 110691364 B CN110691364 B CN 110691364B
Authority
CN
China
Prior art keywords
node
value
network
neighbor
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910940701.6A
Other languages
English (en)
Other versions
CN110691364A (zh
Inventor
黄庆东
袁润芝
李晓瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN201910940701.6A priority Critical patent/CN110691364B/zh
Publication of CN110691364A publication Critical patent/CN110691364A/zh
Application granted granted Critical
Publication of CN110691364B publication Critical patent/CN110691364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开基于双曲正割学习率因子的Q路由方法,在路由中使用适应性更好、性能更稳健的双曲正割算子,根据网络不同情况自适应地调节路由;继承了Q路由中对网络路由进行自适应决策的特点,解决了原有算法中附加学习率因子调节能力有限的问题,采用调节范围覆盖全面的双曲正割调节因子,使训练前期Q值更加可靠,路由性能更加稳健,网络中数据从信源节点到信宿节点的平均递交时间降低;只需要利用局部邻居节点信息及数据包信息即可实现路由选择,避免过大的网络开销,适合于无线自组织网络。本发明能有效地减少网络在高、低负载时数据的平均递交时间,降低路由间的振荡,提高数据包的投递率。

Description

基于双曲正割学习率因子的Q路由方法
技术领域
本发明属于通信技术领域,涉及无线自组织网络的Q路由,具体是基于双曲正割学习率因子的Q路由方法,用于无线自组织网络。
背景技术
多年来,关于无线自组织网络的路由研究一直是热点问题。无线自组织网络通过多跳节点进行通信,尤其适用于在紧急环境中的网络部署,节点获取环境中的信息,并进行信息的交互。无线自组织网络中没有固定的基础设施,网络中没有集中控制的节点,节点间通过自组织成网来进行通信。在移动自组织网络中,节点的移动导致拓扑不断变化。传统路由算法中由于灵活性差、计算复杂度高等原因,不能适应高度变化的网络拓扑变化给网络路由带来的极大挑战,而且已有的基于对流量和网络状况改变大量假设的路由技术越来越被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。事实上,假设条件如果在现实网络不能满足,网络性能与预期模拟性能将存在很大偏差。在这些方面所做的工作主要有:对节点队列长度进行检测,利用各节点反馈的时延信息更新网络,从环境交互中进行学习,权衡路由中探索与利用的关系。
强化学习适用于解决与分布式系统相关的优化问题,Q学习(Q-learning)是强化学习中最常用的学习方法。Q学习的作者Watkins证明了只要在所有状态下对所有动作进行重复采样,Q学习就能以概率1收敛到最佳动作值。因此,Q学习是延迟强化学习中应用最广泛和最有效的学习方法,并被应用在Q路由算法中,然而收敛速度仍然是一个悬而未决的问题。自适应全回波Q路由(AQFE)算法是近年来被提出的一种基于Q学习获得最优递交延迟的逐跳Q路由方法;它具有前期学习包数要求低、状态空间小以及动作空间较小等特点,广泛应用于无线自组织网络中。目前,在实际应用中发现,Q路由普遍存在的下列问题在AQFE及AQFE-M中依然显著:1.训练前期Q值有较长时间不可靠;2.收敛到最优解速度慢;3.参数的稳健性差,算法性能不稳定。
现有技术以上的缺陷,限制了网络中路由性能的提高,导致网络时延增加,算法收敛速度比较慢,算法性能不稳定。从而影响了基于Q学习的路由算法的应用性能。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种自适应调节范围广、路由性能稳健性更高的基于双曲正割学习率因子的Q路由方法。
本发明是一种基于双曲正割学习率因子的Q路由方法,其特征在于:包括如下步骤:
步骤1布局网络拓扑:在一块矩形平面区域内布置N个同构的无线自组织网络节点,或在m×m的矩形区域内根据动态随机游走模型布置M个移动节点,节点的通信距离为r,根据通信距离建立节点间的联接关系,形成网络拓扑;
步骤2建立网络Q值表:将网络中信源节点为o,信宿节点为d的数据包表示为P(o,d);网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量,简称Q值,用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计;将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Qx(d,y),其中y为x的任一邻居节点;当前节点x遍历所有不同邻居和所有不同信宿节点的Q值,构成了当前节点的本地Q值表,所有节点的本地Q值表构成了整个网络的Q值表;Q值表中Qx(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价;
步骤3网络节点获得数据包传输最小时间代价邻居的估计值t:当前节点x收到数据包P(o,d)后,将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y1,同时y1会返回当前节点x一个y1传递数据包到信宿节点d的估计值t;
步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新:当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y1作为数据包传输下一跳节点,决策出传输的下一跳节点后,进行数据包的传输;根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y1的Qx(d,y1)值:
Figure BDA0002222817180000031
式中
Figure BDA0002222817180000032
是T时刻的Qx(d,y1)值表示,
Figure BDA0002222817180000033
是T+1时刻更新的Qx(d,y1)的值表示;其中η代表基础学习率,为一个常数;q是数据包在节点x传输队列中的等待时间;s是数据包从x到邻居节点y1的链路传输时间;t为y1传递数据包到信宿节点d的Q值;当前节点x在各个时刻将计算出的Qx(d,y)分享给它的所有邻居节点,供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用;
步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新:当前节点x如果存在y1以外的其它邻居节点,则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值,逐一使用双曲正割学习率因子η'执行更新,通过对双曲正割学习率因子η'的自适应调节,并对该节点的Q值执行更新;
步骤6路由过程循环:网络中各节点在传输数据包时,对数据包P(o,d)途经的节点依次执行上述操作,并重复执行步骤3~5;网络中各节点进行数据包路由的Q值表更新和路由决策,直至网络生命周期结束。
本发明利用双曲正割自适应学习率因子,改善其参数调节能力。能够缩短前期训练Q值不可靠时长,同时提升算法收敛速度。快速寻找最短时延路径,并根据网络不同拥塞情况自适应进行路由调节,避免网络的拥塞。在不增加网络路由开销的前提下,实现对数据包路由的合理决策,降低网络的路由时延和振荡,增加路由在时延性能方面的稳定性,提高数据包的成功投递率。
与现有技术相比,本发明具有如下优点:
(1)避免过大开销:本发明将节点中包到下一跳局部邻居节点的时延估计信息作为奖励值反馈给该节点,使节点得到最优的决策,由于不需要知道网络的全局信息,因此避免了过大的网络开销。
(2)算法稳定性好:网络拓扑的频繁变化对路由带来极大挑战,传统的基于对流量和网络状况改变大量假设的路由技术越来越被认为不适合复杂、高度变化条件的移动无线延迟容忍网络。本发明利用强化学习来解决路由问题,从以前与环境的交互中学习,通过对邻居节点Q值的更新,从而在未来有效地选择其行为,可以适应复杂、高度变化条件的无线自组织网络环境。算法在各路由参数下稳定性好,在路由时延和递交率方面体现较好的性能。
(3)自适应进行调节路由策略:当网络中的节点需要进行决策时,邻居节点会返回决策节点一个反馈信息,根据这些反馈信息,网络中的节点对接收数据包的邻居节点使用基础学习率进行更新,对于未接收数据包的邻居节点使用双曲正割学习率因子进行更新,双曲正割学习率因子可以根据网络状况自适应进行调节,平衡路由中探索与利用的关系,通过双曲正割学习率因子对路由的调节,能够对路由状况进行即时学习并生成更优的路由策略。
附图说明:
图1是本发明的流程示意图;
图2是本发明中双曲正割学习率因子的曲线图;
图3是本发明中的静态网络拓扑结构示意图;
图4给出了本发明与现有技术在静态网络下低负载时的节点传输包数和平均递交时间对比图;其中图4(a)是对比算法在低负载下的节点传输包数图,图4(b)是本发明在低负载下的节点传输包数图,图4(c)是本发明与现有技术在低负载下的平均递交时间对比;
图5给出了本发明与现有技术在静态网络下高负载时的节点传输包数和平均递交时间对比图;其中图5(a)是对比算法在高负载下的节点传输包数图,图5(b)是本发明在高负载下的节点传输包数图,图5(c)是本发明与现有技术在高负载下的平均递交时间对比;
图6是本发明所示方案与现有技术在静态网络中的全局平均递交时间对比图;
图7是本发明所示方案与现有技术在静态网络中不同参数下的全局平均递交时间对比图,图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图,图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图;
图8是本发明所示方案与现有技术在动态网络高低负载下的平均递交时间对比图;
图9是本发明所示方案与现有技术在动态网络中的全局平均递交时间对比图。
具体实施方式:
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明做详细说明。
实施例1:
网络与人们的生活密不可分,可以在酒店、机场以及抗震救灾环境等实际应用中以无线方式将许多节点连接成一个网络。
强化学习被认为是解决现实网络状况的有效替代方案。强化适用于解决与分布式系统相关的优化问题,尤其适用于网络中的路由问题,它可以从以前与环境的交互中学习,从而在未来有效地选择其行为,用于优化无线自组织网络中的路由选择。
现有的一些基于强化学习的路由算法有着状态、动作空间要求少,仅利用局部节点信息,自适应进行调节等优点,但是仍然存在训练前期Q值不准确、收敛速度较慢、算法性能不稳定等缺点。
现有关于无线自组织网络的路由方法限制了网络中路由性能的提高,导致网络时延增加,算法收敛速度比较慢,算法性能不稳定。从而影响了基于Q学习的路由算法的应用性能。本发明针对上述现状展开了研究与探索,提出基于双曲正割学习率因子的Q路由方法,参见图1:包括如下步骤:
步骤1布局网络拓扑:在一块矩形平面区域内布置N个同构的无线自组织网络节点,网络按照如图3所示的静态网络布局,图3是一种被广泛使用的用来验证路由性能的静态基准网络,该网络存在两条瓶颈链路,网络中的数据包从不同瓶颈链路中经过,进而影响路由的时延性能;或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点,节点的通信距离为r,根据通信距离建立节点间的联接关系,形成网络拓扑。
步骤2建立网络Q值表:将网络中信源节点为o,信宿节点为d的数据包表示为P(o,d);网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量,简称Q值,用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计;将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Qx(d,y),其中y为x的任一邻居节点;当前节点x遍历所有不同邻居和所有不同信宿节点的Q值,构成了当前节点的本地Q值表,所有节点的本地Q值表构成了整个网络的Q值表;Q值表中Qx(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价。
步骤3网络节点获得数据包传输最小时间代价邻居的估计值t:当前节点x收到数据包P(o,d)后,将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y1,同时y1会返回当前节点x一个y1传递数据包到信宿节点d的估计值t;
Figure BDA0002222817180000061
N*(y1)表示去除x后,y1的所有邻居节点;z为N*(y1)中的节点;N(y1)表示y1的所有邻居节点;如果N(y1)仅有一个邻居x时,N*(y1)=N(y1)。
步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新:路由决策是当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y1作为数据包传输下一跳节点,决策出传输的下一跳节点后,进行数据包的传输;
路由决策时,增加节点路由记忆,避免数据包返回已经经过的路径,如果节点返回之前已经经过的节点,会造成额外的路由延迟,因此使数据包记忆前面经过的L个节点的信息,避免数据包返回此前已经经过的L个路由节点;即路由选择时,如果节点x存在邻居集合,x从其邻居集合中排除此前经过的L个节点后,再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y1;若剩余邻居集合为空集合时,才允许选择此前经过的L个邻居节点。
对每一个需要进行决策的节点,判断出下一跳最优路径的节点后,在下一跳节点缓存区队列未满的情况下,接收该数据包,完成数据包的传输转移;否则在节点缓存区队列已满的情况下,丢弃该数据包。
Q值更新是根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y1的Qx(d,y1)值:
Figure BDA0002222817180000071
式中
Figure BDA0002222817180000072
是T时刻的Qx(d,y1)值表示,
Figure BDA0002222817180000073
是T+1时刻更新的Qx(d,y1)的值表示;其中η代表基础学习率,为一个常数;q是数据包在节点x传输队列中的等待时间;s是数据包从x到邻居节点y1的链路传输时间;t为y1传递数据包到信宿节点d的Q值;当前节点x将计算出的Qx(d,y)分享给它的所有邻居节点,供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用。
步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新,进一步调节探索与利用的关系:当前节点x如果存在具有最小时间代价的邻居y1以外的其它邻居节点,则对当前节点x的Q值表中对应信宿d和其它邻居节点y2的各个Q值,逐一使用双曲正割学习率因子η'执行更新。完成节点在当前时刻的路由决策过程。当网络状况良好时,不需要对其它的路径进行探索,此时学习率较低,反之,当网络较为拥塞时,增大学习率,增加对其它更优路径的探索。本发明通过双曲正割学习率因子η'的自适应调节,并对当前节点的Q值执行更新,能够适应网络参数的变化,使网络在各参数的性能下更加稳定。
参见图2,图2为本发明双曲正割自适应学习率因子η'随自变量Tmax-Test的变化曲线,由图2可知,随着Tmax-Test的变化,双曲正割自适应学习率因子η'可以在(0,1)范围内进变化;通过η'对网络Q值的调节,平衡网络中探索与利用的关系,优化路由策略。
步骤6路由过程循环:网络中各节点在传输数据包时,对数据包P(o,d)途经的节点依次执行上述操作,并重复执行步骤3~5;进行网络中各节点进行数据包路由的Q值表更新和路由决策,直至网络生命周期结束。完成基于双曲正割学习率因子的无线自组织网络的Q路由。
本发明提出了一个自适应调节范围广、路由时延更稳定收敛的基于双曲正割学习率因子的Q路由方法的整体技术方案。
本发明的技术思路是:首先布局网络拓扑,当决策节点需要做出路由决策时,局部邻居节点会发给决策节点一个到达信宿节点的估计时间代价,节点进行路由决策,在排除节点记忆中已经经过的邻居节点后,将数据包发送给邻居节点中到达信宿节点估计时间代价最小的邻居节点。并对接收到包的邻居使用学习率η进行Q值的更新,对未收到包的邻居使用双曲正割学习率因子η'进行Q值的更新。
本发明的基于双曲正割学习率因子的Q路由方法,解决了已有算法中附加学习率因子调节能力有限的问题,其实现有:布局网络拓扑;建立网络Q值表;网络节点获得最小时间代价邻居的估计值;路由决策和对数据包传输最小时间代价邻居节点Q值更新;当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新;路由过程循环,实现无线自组织网络的自适应调节路由。
通过对网络中的节点Q值表进行逐步迭代之后,使Q值表更加准确反映数据包到达信宿节点的时延情况,从而实现数据包路由的合理决策,避免网络拥塞,降低节点的平均递交时间。本发明能够提高数据包的成功投递率,降低网络间的路由振荡,提高算法在路由时延方面的的稳定性。
实施例2:
基于双曲正割学习率因子的Q路由方法同实施例1,步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y2的各个Q值,逐一使用双曲正割学习率因子η'执行更新,计算公式如下式所示:
Figure BDA0002222817180000081
其中y2为当前节点x的任一其它邻居节点;η'为双曲正割学习率因子,η'的值在(0,1)范围;s2是数据包从x到节点y2的链路传输时间;式中
Figure BDA0002222817180000082
是T时刻的Qx(d,y2)值表示,
Figure BDA0002222817180000083
是T+1时刻更新的Qx(d,y2)的值表示。
已有算法只对具有最小时间代价的邻居节点Q值进行更新时,当路由寻找到较优路径之后,就不会再去寻找其它更加有效的路径,这样不利于快速寻找到最优路径。本发明中对每个节点中的邻居节点Q值进行更新,增大了对路径的探索,有利于找到时延更优的路径。当网络中邻居节点之间的平均递交时间与最大递交时间之差比较大时,表示网络状况良好,此时双曲正割学习率因子较小,通过使用较小的双曲正割学习率因子对节点的Q值进行更新,使路由利用当前有效策略,反之增加路由探索,寻求更有效的路径。
本发明中由于只利用邻居节点分享的的信息,避免了集中式网络中大的路由开销,每个节点自主决策,得到路由最优策略。本发明的双曲正割学习率因子可以根据需要在(0,1)范围内自适应地进行学习率的调节,从而平衡探索与利用的关系,通过自适应地对网络拥塞情况进行调节,提高网络路由时延方面的性能,提高数据包的投递率,改善路由的振荡情况,提高算法在不同参数下的时延性能方面的稳健性。
实施例3:
如权利要求1或2所述的基于双曲正割学习率因子的Q路由方法,其特征在于:步骤5所述的双曲正割学习率因子,根据Q值表对应节点的Q值计算出当前节点x所有邻居y间最大递交时间Tmax与平均递交时间Test之差,并对当前节点x的其它邻居节点y2使用双曲正割学习率因子η'计算当前节点学习率,计算公式如下:
η'=η.sech[(Tmax-Test)/k2];
式中k2为常数,取值范围为(0,1];其中Test由节点x的Q值表中对应信宿d所有Q值的算术平均值计算所得;Tmax是节点x到目前为止,曾经所得所有Test值中的最大值。
当邻居间的最大递交时间与平均递交时间之差Tmax-Test较小时,则此时节点不能选择出有效的路径,此时双曲正割学习率因子η'会增大,进而增加探索,选择出更加有效的路径;当邻居间的最大递交时间与平均递交时间之差Tmax-Test较大时,则此时当前的路径策略比较有效,此时双曲正割学习率因子η'较小,本发明只需利用当前的有效路由策略,而不需要过多的路径探索。通过对节点x的Q值进行更新,经过逐步迭代获取整个网络的路由情况,更加准确对未来网络的路由进行决策。
下面给出一个更加详细的例子,对本发明进一步说明。
实施例4:基于双曲正割学习率因子的Q路由方法同实施例1-3,参照图1,本发明是基于双曲正割学习率因子的Q路由方法,其实现步骤包括有:
步骤1布局网络拓扑:在一块矩形平面区域内布置N个同构的无线自组织网络节点;或在m×m的矩形区域内根据动态随机游走模型(RWM)布置M个移动节点,节点的通信距离为r,根据通信距离建立节点间的联接关系,形成网络拓扑。
步骤2建立网络Q值表:将网络中信源节点为o,信宿节点为d的数据包表示为P(o,d);网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量,简称Q值,用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计;将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Qx(d,y),其中y为x的任一邻居节点;当前节点x遍历所有不同邻居和所有不同信宿节点的Q值,构成了当前节点的本地Q值表,所有节点的本地Q值表构成了整个网络的Q值表;Q值表中Qx(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价。初始条件时所有的Qx(d,y)设置为0,之后通过在每一个时刻对Q值的不断更新,逐渐使Q值收敛稳定,获得更加准确的网络路由信息。
步骤3网络节点获得数据包传输最小时间代价邻居的估计值t:当前节点x收到数据包P(o,d)后,将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y1,同时y1会返回当前节点x一个y1传递数据包到信宿节点d的估计值t:
Figure BDA0002222817180000101
N*(y1)表示去除x后,y1的所有邻居节点;z为N*(y1)中的节点;N(y1)表示y1的所有邻居节点;如果N(y1)仅有一个邻居x时,N*(y1)=N(y1)。
步骤4路由决策和对包传输最小时间代价邻居节点Q值进行更新:使数据包记忆前面经过的L个节点的信息,避免数据包返回此前已经经过的L个路由节点;在进行路由选择时,x从其邻居集合中排除此前经过的L个节点后,再将数据包P(o,d)发送给剩余邻居集合中对应Q值最小的邻居节点y1;若剩余邻居集合为空集合时,才允许选择此前经过的L个邻居节点;节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y1作为包传输下一跳节点,并根据下式更新节点x的Q值表中对应信宿节点d和邻居节点y1的Qx(d,y1)值:
Figure BDA0002222817180000111
式中
Figure BDA0002222817180000112
是T时刻的Qx(d,y1)值表示,
Figure BDA0002222817180000113
是T+1时刻更新的Qx(d,y1)的值表示;其中η代表基础学习率,为一个常数;q是包在节点x传输队列中的等待时间;s是包从x到y1节点的链路传输时间;t为y1传递数据包到信宿节点d的Q值;节点x在各个时刻将计算出的Qx(d,y)分享给它的所有邻居节点,供邻居节点将来计算信宿为d的数据包对应Q值时对应的参数t使用。
对每一个需要进行决策的节点,判断出下一跳最优路径的节点后,由于节点的缓存区大小是有限的,当接收数据包的节点缓存区未满时,接收节点收到数据包,完成数据包的传输。否则在节点缓存区已满的情况下,节点缓存区溢出,丢弃该数据包。
步骤5节点对其它邻居节点Q值使用双曲正割学习率因子进行更新,并调节探索与利用路由策略:节点x如果存在y1以外的其它邻居节点,则根据包传输节点x的Q值表计算出最大递交时间Tmax与平均递交时间Test之差,其中Test为节点x的Q值表中对应信宿d所有邻居Q值的算术平均值,Tmax是节点x到目前为止,曾经所得所有Test值中的最大值;对节点x的Q值表中对应信宿d和其它邻居节点的各个Q值,逐一使用双曲正割学习率因子η'执行更新,更新公式如下:
Figure BDA0002222817180000114
式中
Figure BDA0002222817180000115
是T时刻的Qx(d,y2)值表示,
Figure BDA0002222817180000116
表示的是T+1时刻更新的Qx(d,y2)值;根据邻居节点之间的递交时间计算双曲正割学习率因子η',双曲正割学习率因子η'如下式所示:
η'=η.sech[(Tmax-Test)/k2]
对需决策的节点Q值进行更新,式中k2为常数,取值范围为(0,1]。其中Test是节点x的Q值表中对应信宿d所有Q值的算术平均值;Tmax是节点x到目前为止,曾经所得所有Test中的最大值。双曲正割学习率因子η'在(0,1)范围内自适应地的调节学习率,平衡路由策略中的路径探索与利用关系。
通过以下仿真实验结果对本发明的技术效果再做说明。
实施例5:
基于双曲正割自适应学习率因子的Q路由算法同实施例1-4。
仿真条件:
仿真实验的条件如下:在矩形平面区域内按照如3所示静态拓扑结构布局36个节点。实验选取图1中5对信源和信宿节点进行包传输测试,其分别为:0→17,1→23,2→29,7→10,8→4。仿真时间为10000个单位时间,实验设置网络中每单位时间每个节点只能发出到达同一信宿节点的一个或队列排列相连的多个数据包,且不考虑包的丢失重发。网络中的负载服从指数为λ的泊松分布,实验中低负载时λ=0.5,高负载下λ=1.9,包的记忆长度L为1,节点队列最大缓存包数为50,算法中自适应学习率因子的参数k2在静态网络中取值为1.0时效果较好,因此静态实验取此参数。实验中节点队列中每个数据包的处理时间设置为0.01个单位时间,节点之间的传输时间设置为0.2个单位时间,因此队列中每个数据包传输处理总时间为0.21个单位时间,考虑节点应答消息为echo=0.02个单位时间。每个数据包传输时间:
s=0.2+echo×message_received,
队列时间:
q=0.21×queue_length,
式中message_received为邻居节点消息的应答数,queue_length为节点队列的长度。静态网络中一般认为λ在0.9以内为较低负载,高于1.6为较高负载。
仿真内容及仿真结果:
仿真1,对本发明在静态不规则网络拓扑进行仿真,如图3所示的网络拓扑结构是一种被广泛使用的基准网络,用来验证路由算法性能。网络中的数字表示各个节点的包传输数和节点标号:比如图4(a)中左下方节点处的数字0和1932分别表示节点标号和节点的传输包数,其他节点以此类推。图中信源一般位于网络左半部分,信宿一般位于右半部分;信源、信宿在图中用实心圆表示。包需要通过图中的两条瓶颈链路20-21、32-33进行传递。一条路径距离短,一条路径距离长,以此来验证算法路由选择情况。其中图4(a)是作为对比算法的AQFE-M算法在低负载下的节点传输包数图,图4(b)是本发明在低负载下的节点传输包数图,图4(c)是本发明与现有技术在低负载下的平均递交时间对比曲线图。数据包的平均递交时间是将每100时间单位内所有能成功到达信宿的数据包花费的时间求平均值。在低负载下,网络最短路径处的路由压力不大,比较图4(a)和图4(b)可见本发明与现有技术相比,AQFE-M算法没有让更多的包从低时延路径通过,而本发明中多数包从低时延路径通过,本发明显然体现了低负载下的更优的路由选择策略。图4(c)中,本发明在初始时期路由选择阶段的上冲峰值相较AQFE-M算法要小很多。在仿真时间500-10000内,本发明的平均递交时间总体走势更平稳,且平均递交时间总是低于AQFE-M算法,证实了本发明在路由时延方面的良好性能。
仿真2,图5(a)是对比算法在高负载下的节点传输包数图,图5(b)是本发明在高负载下的节点传输包数图,图5(c)是本发明与现有技术在高负载下的平均递交时间对比。如图5(a)所示,高负载下AQFE-M算法实现了在两个瓶颈链路之间的负载均衡,如图5(b)所示,本发明在高负载下将一部分最短路径处的路由压力及时分流到较远路径处,能够及时适应网络拥塞变化,又尽量在网络承受压力内使较多包以最短时延到达信宿。因此算法在高低负载下都能实现对包路由的合理决策。在高负载条件下(λ=1.9),平均递交时间情况如图5(c)所示,本发明使参数符合网络的变化,能根据网络的变化及时做出调整,初始训练时长明显缩短,上冲峰值明显减小,沉降时间明显缩短,节点的平均投递时间相对于AQFE-M更低。
仿真3,实验对不同负载下全局平均递交时间变化情况进行了对比。全局平均递交时间是将实验中不同负载情况下的各时间段平均递交时间做全局统计平均后得到,实验结果采用50次实验数据的平均值。由图6可知,随着负载水平的增加,两种算法的全局平均递交时间都不断增大。在较低负载0.5-0.8区间和较高负载1.7-1.9区间时,本发明相对于原算法递交时间都相对减少,但是在负载为0.9-1.6时,本发明相对AQFE-M算法全局平均递交时间有了一定的增加。图7为AQFE-M算法和本发明的参数k或k2取不同值时各负载下的全局平均递交时间变化情况,不同的参数取值对自适应学习率因子产生影响,进而对路由决策中探索与利用之间的平衡关系产生影响。图7(a)是现有技术在静态网络中不同参数下的全局平均递交时间对比三维图,图7(b)是本发明在静态网络中不同参数下的全局平均递交时间对比三维图。由图7(a)可以看出,AQFE-M算法实验结果相较本发明波动较大,参数k为0.5时在负载1.5时出现一个明显波动峰,这会造成算法不稳健,由图7(b)所示,本发明实验结果总体变化趋势平稳,尤其在参数较大时,未出现结果突变的不稳定情况,且递交时间更低,体现了本发明在路由性能方面的稳健性。
实施例6:基于双曲正割自适应学习率因子的Q路由方法同实施例1-4,本发明可以通过以下仿真实验结果进行进一步说明。
仿真条件:
仿真实验的条件如下:动态随机游走模型中(RWM)将100个传感器随机布置在1500m×1500m的矩形区域中,节点的最大移动速度为10m/单位时间,传感器的传输范围为250m。动态网络由于频繁的拓扑变化,相比静态网络中需要较高的学习率来实现对下一跳最优路径的探索,因此相比静态网络,在动态网络中增加了k2的取值,使学习率增加,如果学习率过低,路由探索能力比较小,在高负载下会导致更大的时延,实验在动态网络中k2取值为3效果较好,因此在动态网络所有实验中均选取k2为3,在AQFE-M算法中仍选取k为0.6时有较好的效果。实验中的信源和信宿节点选取和静态网络中相同的节点对标号。仿真时间为10000单位时间。
仿真内容及仿真结果:
仿真1,对本发明在RWM模型下生成的随机拓扑进行仿真,图8对比了动态网络中高、低负载下平均递交时间的变化情况。在动态网络中,实验在较低负载下,选取λ=0.5,较高负载下选取λ=2.0。图8所示在低负载和高负载下,由于动态网络中邻居节点的不断变化,节点初始学习时花费了较长的时间进行学习,之后趋于平稳,学习到稳定的路由策略,在动态网络中仍会出现路由间的振荡。相对于AQFE-M算法,在高低负载下,本发明中双曲正割学习率因子仍具有更好的适应性,能够适应网络拥塞变化,相对原算法平均递交时间更低。与现有技术相比,本发明可以大较大地降低网络延迟。
仿真2,对本发明与现有技术在动态网络中的全局平均递交时间的性能进行比较。由于动态网络中拓扑不断变化,平均递交时间变化差异较大,实验选取各负载下50次全局平均递交时间的均值作为最终值。如图9所示,仿真实验体现了本发明能更好适应网络拓扑的变化,对网络拓扑的变化更快做出反应,在各负载下的路由时延优于现有技术,体现了本发明的优越性。
实施例7:基于双曲正割学习率因子的Q路由方法同实施例1-4,仿真条件同实施例6。
仿真内容及仿真结果:
仿真3,对本发明与现有技术在动态网络中的投递率进行比较。表1是低负载下动态网络中的投递率对比表,表2是高负载下动态网络中的投递率对比表。各个节点对的投递率定义为仿真时间内,到达信宿节点的包数与信源节点处产生的包数之比。网络数据包会由于队列缓存已满,或链路质量差而传输失败,造成包丢失。网络总投递率定义为网络中所有成功到达信宿的包数与所有信源处产生的总包数之比。动态拓扑情况下,如图9所示,负载由低到高变化,本发明延迟均低于原算法;且从表1和表2中均可以看出,本发明具有更高的包投递率。
表1低负载投递率对比
Figure BDA0002222817180000151
表2高负载投递率对比
Figure BDA0002222817180000152
本发明将网络中缓存区中有包的节点到下一跳节点的时延信息作为反馈奖励值,继承了Q路由算法前期学习包数要求低、状态空间小以及动作空间较小等特点,通过判断邻居节点间的最大递交时间与平均递交时间差值的计算,对收到包和未收到包的邻居节点使用不同的双曲正割自适应学习率因子进行更新,为不同的路由拥塞情况提供合理地决策,并通过增加接收数据包节点的后向探索功能,使Q值的更新更能准确反映网络状态,加速降低数据包的平均递交时间。本发明降低了路由的时延,减少了路由之间的振荡,提高了包的投递率,路由时延性能的稳健也更好。

Claims (3)

1.一种基于双曲正割学习率因子的Q路由方法,其特征在于:包括有如下步骤:
步骤1布局网络拓扑:在一块矩形平面区域内布置N个同构的无线自组织网络节点,或在m×m的矩形区域内根据动态随机游走模型布置M个移动节点,节点的通信距离为r,根据通信距离建立节点间的联接关系,形成网络拓扑;
步骤2建立网络Q值表:将网络中信源节点为o,信宿节点为d的数据包表示为P(o,d);网络中每一节点对应于其它任一信宿节点经由某一邻居节点传输数据包时建立一个Q值变量,简称Q值,用来表示数据包经由此节点通过某一邻居节点传递到其它任一信宿节点所需的时间代价估计;将网络中当前节点x对应于信宿节点d经由邻居y的Q值表示为Qx(d,y),其中y为x的任一邻居节点;当前节点x遍历所有不同邻居和所有不同信宿节点的Q值,构成了当前节点的本地Q值表,所有节点的本地Q值表构成了整个网络的Q值表;Q值表中Qx(d,y)值的大小表示当前节点x将数据包经由邻居y传递到信宿节点d的估计时间代价;
步骤3网络节点获得数据包传输最小时间代价邻居的估计值t:当前节点x收到数据包P(o,d)后,将数据包P(o,d)发送给其Q值表中信宿节点d对应具有最小时间代价的邻居y1,同时y1会返回当前节点x一个y1传递数据包到信宿节点d的估计值t;
步骤4路由决策和对数据包传输最小时间代价邻居节点Q值进行更新:当前节点x根据当前传输数据包选择邻居节点中具有最小时间代价的邻居y1作为数据包传输下一跳节点,决策出传输的下一跳节点后,进行数据包的传输;根据最小时间代价邻居Q值更新公式更新当前节点x的Q值表中对应信宿节点d和邻居节点y1的Qx(d,y1)值:
Figure FDA0003798914440000011
式中
Figure FDA0003798914440000012
是T时刻的Qx(d,y1)值表示,
Figure FDA0003798914440000013
是T+1时刻更新的Qx(d,y1)的值表示;其中η代表基础学习率,为一个常数;q是数据包在节点x传输队列中的等待时间;s是数据包从x到邻居节点y1的链路传输时间;t为y1传递数据包到信宿节点d的Q值;当前节点x将计算出的Qx(d,y)分享给它的所有邻居节点,供邻居节点将来计算信宿为d的数据包对应Q值时对应的估计值t使用;
步骤5当前节点对其它邻居节点Q值利用双曲正割学习率因子进行更新:当前节点x如果存在y1以外的其它邻居节点,则对当前节点x的Q值表中对应信宿d和其它邻居节点的各个Q值,逐一使用双曲正割学习率因子η'执行更新,通过对双曲正割学习率因子η'的自适应调节,并对该节点的Q值执行更新;
步骤6路由过程循环:网络中各节点在传输数据包时,对数据包P(o,d)途经的节点依次重复执行步骤3~5;网络中各节点进行数据包路由的Q值表更新和路由决策,直至网络生命周期结束。
2.如权利要求1所述的基于双曲正割学习率因子的Q路由方法,其特征在于:步骤5中所述的对当前节点x的Q值表中对应信宿d和其它邻居节点y2的各个Q值,逐一使用双曲正割学习率因子η'执行更新,计算公式如下式所示:
Figure FDA0003798914440000021
其中y2为当前节点x的任一其它邻居节点;η'为双曲正割学习率因子,η'的值在(0,1)范围;s2是数据包从x到节点y2的链路传输时间;式中
Figure FDA0003798914440000022
是T时刻的Qx(d,y2)值表示,
Figure FDA0003798914440000023
是T+1时刻更新的Qx(d,y2)的值表示。
3.如权利要求1或2所述的基于双曲正割学习率因子的Q路由方法,其特征在于:步骤5所述的双曲正割学习率因子,根据Q值表对应节点的Q值计算出当前节点x所有邻居y间最大递交时间Tmax与平均递交时间Test之差,并对当前节点x的其它邻居节点y2使用双曲正割学习率因子η'计算当前节点学习率,计算公式如下:
η'=η.sech[(Tmax-Test)/k2];
式中k2为常数,取值范围为(0,1];其中Test由节点x的Q值表中对应信宿d所有Q值的算术平均值计算所得;Tmax是节点x到目前为止,曾经所得所有Test值中的最大值。
CN201910940701.6A 2019-09-30 2019-09-30 基于双曲正割学习率因子的q路由方法 Active CN110691364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910940701.6A CN110691364B (zh) 2019-09-30 2019-09-30 基于双曲正割学习率因子的q路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910940701.6A CN110691364B (zh) 2019-09-30 2019-09-30 基于双曲正割学习率因子的q路由方法

Publications (2)

Publication Number Publication Date
CN110691364A CN110691364A (zh) 2020-01-14
CN110691364B true CN110691364B (zh) 2022-10-28

Family

ID=69111278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910940701.6A Active CN110691364B (zh) 2019-09-30 2019-09-30 基于双曲正割学习率因子的q路由方法

Country Status (1)

Country Link
CN (1) CN110691364B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112822745B (zh) * 2020-12-31 2023-03-14 南京航空航天大学 一种面向无人机自组网的自适应路由方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102009024464B4 (de) * 2009-06-10 2017-09-21 Carl Zeiss Ag Auswerteeinrichtung, Messanordnung und Verfahren zur Weglängenmessung
CN104640168B (zh) * 2014-12-04 2018-10-09 北京理工大学 基于q学习的车载自组织网络路由方法
CN104684040B (zh) * 2015-03-09 2018-05-25 西安电子科技大学 基于模糊推理的q学习车载网建立路由路径的方法
CN109547351B (zh) * 2019-01-22 2020-04-14 西安电子科技大学 Ad Hoc网络中基于Q学习和信任模型的路由方法
CN110191053B (zh) * 2019-04-30 2021-05-11 上海微波技术研究所(中国电子科技集团公司第五十研究所) 一种基于认知学习的无线自组网络多径路由方法

Also Published As

Publication number Publication date
CN110691364A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN107094115B (zh) 一种基于sdn的蚁群优化负载均衡路由算法
CN110719617B (zh) 基于反正切学习率因子的q路由方法
CN113328938B (zh) 一种基于深度强化学习的网络自主智能管控方法
CN110557732B (zh) 一种车辆边缘计算网络任务卸载负载均衡系统及均衡方法
MXPA03008242A (es) Aprendizaje de trayectoria eficiente en una red.
CN108684063B (zh) 一种基于网络拓扑变化的按需路由协议改进方法
CN112202848B (zh) 基于深度强化学习的无人系统网络自适应路由方法和系统
CN102571570A (zh) 一种基于强化学习的网络流量负载均衡控制方法
CN107070802B (zh) 基于pid控制器的无线传感器网络拥塞控制方法
CN113966596B (zh) 用于数据流量路由的方法和设备
CN107040961A (zh) 一种无线传感器网络拥塞控制方法
Oužecki et al. Reinforcement learning as adaptive network routing of mobile agents
CN103888976A (zh) 一种联合网络调度和路由的链路选择方法
CN111885493B (zh) 一种基于改进布谷鸟搜索算法的微云部署方法
CN108462983B (zh) 基于改进蚁群aodv协议的多机器人通信组网方法
Kumar Confidence based dual reinforcement Q-routing: an on-line adaptive network routing algorithm
CN110691364B (zh) 基于双曲正割学习率因子的q路由方法
CN116566838A (zh) 一种区块链与边缘计算协同的车联网任务卸载和内容缓存方法
CN113660710A (zh) 一种基于强化学习的移动自组织网络路由方法
CN108809829B (zh) 一种sdn规则部署方法
CN110267322A (zh) 一种基于dsr协议改进的无人机自组网快速反应路由算法
Ruan et al. PTCP: A priority-based transport control protocol for timeout mitigation in commodity data center
Shuai et al. Adaptive task offloading in vehicular edge computing networks based on deep reinforcement learning
Lavanya et al. Mobility-Based Optimized Multipath Routing Protocol on Optimal Link State Routing in MANET
CN110753000A (zh) 一种通信改进方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant