CN111065145A - 一种面向水下多智能体的q学习蚁群路由方法 - Google Patents

一种面向水下多智能体的q学习蚁群路由方法 Download PDF

Info

Publication number
CN111065145A
CN111065145A CN202010033962.2A CN202010033962A CN111065145A CN 111065145 A CN111065145 A CN 111065145A CN 202010033962 A CN202010033962 A CN 202010033962A CN 111065145 A CN111065145 A CN 111065145A
Authority
CN
China
Prior art keywords
node
underwater
learning
ant colony
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010033962.2A
Other languages
English (en)
Other versions
CN111065145B (zh
Inventor
任勇
王景璟
方政儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010033962.2A priority Critical patent/CN111065145B/zh
Publication of CN111065145A publication Critical patent/CN111065145A/zh
Application granted granted Critical
Publication of CN111065145B publication Critical patent/CN111065145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/248Connectivity information update
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种面向水下多智能体的Q学习蚁群路由方法,结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:路由发现阶段,路由维持阶段及路由空洞处理机制。将蚁群算法中的信息素映射为Q学习中的Q值。将链路的延迟、带宽和节点的剩余能量、吞吐量综合考虑作为Q值函数来选择下一跳链路。该路由协议还实现了一种空洞感知机制,通过节点定时广播和定时器记录回传ACK时间,判断节点是否处于路由空洞,通过Q学习的惩罚函数使网络避免使用处于空洞的节点。本发明考虑了节点的能量和深度、链路稳定性,通过Q学习减少了节点的端到端延迟、提高了数据递送率和水下无线传感器网络的寿命。

Description

一种面向水下多智能体的Q学习蚁群路由方法
技术领域
本发明涉及一种水下传感器网络路由协议领域,具体而言,涉及一种基于Q学习和集群算法的水下传感器网络路由协议。
背景技术
尽管海洋探测和开发的战略地位非常重要,但是只有5%的海洋被探索过。一定程度上这是由于海洋水声信道与水上的无线信道有很大不同。因此不能直接将陆地上的无线路由算法直接运用在水下传感器网络(UWSNs)中,它必须要加以修改才能运用在水下情况。
由于水下传感器网络(UWSNs)相比陆地无线传感器网络,面临如下挑战:
(1)声音作为信号传播介质导致的高延迟。由于水下的电磁波信号衰减十分严重,只能用于短距离传输。由于声音在水下环境衰减较小,因此水下通信主要采用声信号作为传播媒介。但是水下声信号传播速度大约为 1500m/s,而无线电波的传播速度是水下声传播速度的20万倍,采用传统的确认重传机制会大大增加路由过程的时延。
(2)AUV(自主式水下潜器)的移动和水流作用于水声传感器节点导致节点动态移动。水流作用会导致理想状态是固定不动的水声节点发生每秒 2~3m的移动,而水下AUV移动速度可达到10节。因此设计水下路由算法往往采用分布式设计策略,根据网络拓扑结构选择合适的下一跳节点。
(3)传感器和AUV的能量受限。水声传感器和AUV都是使用电池供电,而且在水下更换电池成本高昂。为了提高UWSNs的能量效率,必须充分考虑这个因素。
常见的水下传感器路由协议可分为无状态路由协议和有状态路由协议。有状态路由协议需要提前知道整个网络的拓扑结构,这对于水下高延迟的状态会大大增加通信开销。无状态路由协议有VBF、DFR、DBR等等,虽然适合于水下动态拓扑结构,但是容易陷入局部最优解的问题。水下传感器网络路由协议还可以根据是否需要调节功率、声波批量、数据包冲突等划分为跨层和非跨层协议。非跨层协议只需要考虑网络层问题,跨层协议会根据网络拓扑和链路状态变化,动态的去优化路由性能。比较典型的跨层路由协议包括 FBR、EEDBR、QELAR、ACO等。为了解决UWSNs的动态网络拓扑问题和能量受限问题,需要采用跨层路由协议。
意大利学者Dorigo于1991年提出了蚁群算法,人工蚂蚁通过改变环境变量,进行间接交流信息达到搜索最优解的目的。自然界中蚂蚁根据沿途释放信息素来寻找最短路径。受此启发,许多学者已经把这种原理应用在离散优化问题中,特别是引用到Ad Hoc网络中来提高网络性能。基于蚁群算法的路由协议通常可以分为主动式路由协议,按需式路由协议,及混合式路由协议。主动式路由协议特点是所有节点都是活动的,每个节点在实际通信请求之前找到网络中任何其他节点的路由。它的优点是减少了路由发现时延,缺点是网络开销很大,例如AntNet。按需式路由协议特点是所有节点都处于休眠模式。当节点需要与其他节点通信时,它们就会变得活跃。优点是网络开销小,于此同时带来了相对长的路由建立时间,比如ADSR、ARA。而混合路由则结合了二者的优点,比如Ant AODV。
文献1提出了一种主动路由算法,利用FANT(forward ants)和BANT (backwardants)分别收集链路信息和更新信息素浓度,但是端到端时延会导致AntNet较慢。文献2提出了一种按需路由协议ARA,特点是无需像AntNet 协议那样周期性释放ants,但是无法适用于水下网络拓扑动态变化的情景。文献3提出了属于混合路由协议的AntSensNet算法,这是一种QoS蚁群路由算法,将节点的传输延迟、丢包率等因素综合起来进行路由选择,提高了发包率,但是增加了路由开销。
发明内容
本发明针对传统的水下路由协议存在对动态拓扑适应性差和链路不稳定问题,提出一种新颖的结合蚁群算法和Q学习的水下传感器路由算法QLACO。
本发明的目的在于Q学习的水下传感器路由算法针对水下传感器网络的网络拓扑变化和高延迟、能量受限特点,利用蚁群算法中的信息素和Q学习的奖励函数,将节点之间的链路延迟、吞吐率和能量消耗作为影响因子充分考虑,相比前人提出的传统蚁群算法,特别是针对水下特有的网络动态拓扑情景,QLACO有这更好的收敛速度和鲁棒性。
本发明提出如下的技术方案,一种面向水下多智能体的Q学习蚁群路由方法,结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:
路由发现阶段:结合了蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;
路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q 值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;
路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数。
进一步地,所述路由发现阶段中,Q值表在路由发现阶段开始时初始化为 0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci
进一步地,所述路由发现阶段中,当路径上的节点从目的节点接收到BANT 时,节点将从数据包中提取出BANT记录的上一跳节点信息,这些信息将用于计算奖励和当前节点的Q值;以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT所存储的路径作为最优路径;如此反复迭代后,将得到源节点到目的节点的最优路径。
进一步地,所述强化学习的模型可转换为马尔可夫决策过程,强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组 (S,A,P,R,γ)组成。S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数。
Figure BDA0002365355410000041
是在时间t时,执行动作a从状态s转移到s`的概率:
Figure BDA0002365355410000042
进一步地,在路由发现和路由维持阶段中,设计奖励函数,并定义奖励函数如下:
Figure BDA0002365355410000043
其中,
Figure BDA0002365355410000044
是当状态节点采取动作at从st转移到st+1状态时,从环境获得的奖励大小。Agent的奖励包括了直接奖励值Rt和未来奖励。
进一步地,动作价值函数Qπ(s,a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小:
Figure BDA0002365355410000045
其中γ是在[0,1]范围内的衰减因子,又叫做学习率;γ用来平衡直接奖励和未来奖励的权重。
进一步地,为了找到最佳路由器路径,当水下传感器节点传输数据包时,Q学习蚁群路由方法的目标是把Qπ(st+1,a)的期望值最大化,则定义最佳Q值函数,如下中所示:
Figure BDA0002365355410000051
进一步地,还包括建立水声信道模型,水声传播的特点对水深传感器网络有影响,水下声信道的路径损耗可由以下公式表示:
A(l,f)=A0lka(f)l
其中,A0是一个单位归一化常数,k为扩展因子,a(f)为吸收系数。
进一步地,水下环境是一个高噪声环境,需要考虑到四种噪声源:湍流,船舶,波浪和热噪声,可以使用一个经验公式替代:
10log N(f)=N1-ηlog f
其中N(f)是环境噪声的功率密度谱;不考虑方向增益和损耗,只考虑路径损耗的水下信噪比可以由下面公式给出:
Figure BDA0002365355410000052
Δf是接收噪声信号带宽,P是传输信号功率,f是传输信号频率。
进一步地,还包括建立水下无线传感器网络拓扑,所述水下传感器网络架构包括若干传感器节点、AUV、一个以上的平台同时具有水声收发器和RF 收发器,所述传感器节点通过声学调制解调器通信,声链路用于与水下传感器节点交换数据。RF链路用于和以及其他水上平台的无线传输。
与现有技术相比本发明的有益效果在于:
本发明提出了一种新颖的结合蚁群算法和Q学习的水下传感器路由算法QLACO。本发明方法针对水下传感器网络的网络拓扑变化和高延迟、能量受限特点,利用蚁群算法中的信息素和Q学习的奖励函数,将节点之间的链路延迟、吞吐率和能量消耗作为影响因子充分考虑;相比前人提出的传统蚁群算法,特别是针对水下特有的网络动态拓扑情景,本发明方法有着更好的收敛速度和鲁棒性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明构建的水下传感器网络架构图;
图2为本发明中路由发现阶段示意图。
具体实施方式
下面参照附图来描述发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释发明的技术原理,并非在限制发明的保护范围。
需要说明的是,在发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对发明的限制。
此外,还需要说明的是,在发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在发明中的具体含义。
请参阅图1至图2所示,一种面向水下多智能体的Q学习蚁群路由方法,结合强化学习和蚁群算法适应和学习动态水下环境的特征。
首先,构建水下无线传感器网络拓扑。请参阅图1所示,我们从实际水下应用的角度,通过系统中的几种类型的节点描述了一种可能的水下传感器网络架构。在海底,有许多传感器节点,这些传感器节点通过声学调制解调器与其他节点通信。而且,AUV100(即无缆水下机器人)正在巡航并从传感器节点收集信息。另外,在顶层的一个或多个平台同时具有水声收发器和RF 收发器。声链路用于与水下传感器节点200交换数据。RF链路用于和以及其他水上平台(例如卫星500或船只)的无线传输。
由于水下声信道与地面无线电信道不同,因此我们分析了水下声信道的特征。
其次,建立水声信道模型,水声传播的特点对水深传感器网络的影响,水声通信信道的特点是路径损耗,它不仅取决于发射机和接收机之间的距离,就像许多其他无线信道一样,而且还取决于信号频率。
水下声信道的路径损耗可由以下公式表示:
A(l,f)=A0lka(f)l
其中,A0是一个单位归一化常数,k为扩展因子,a(f)为吸收系数。用dB表示,声径损耗由下式给出:
Figure BDA0002365355410000071
上面公式右边第一项k·10log l指的是传播损失,第二项10log a(f) 代表了吸收损失。其中常数k一般取值范围为2到4,对于球面展开,其常用值为k=2,对于圆柱状展开,k=1,对于所谓的实际展开,k=1.5。公式 x当声波频率在kHz等级时,可以使用公式:
Figure BDA0002365355410000081
在更低频率范围可以使用下面的经验公式替代:
Figure BDA0002365355410000082
除了考虑水下路径损耗,我们还需要考虑水下环境是一个高噪声环境,需要考虑到四种噪声源:湍流,船舶600,波浪和热噪声,可以使用一个经验公式替代:
10log N(f)=N1-ηlog f
其中N(f)是环境噪声的功率密度谱;不考虑方向增益和损耗,只考虑路径损耗的水下信噪比可以由下面公式给出:
Figure BDA0002365355410000083
Δf是接收噪声信号带宽,P是传输信号功率,f是传输信号频率。
我们使用瑞利衰落去模拟小尺度衰落,最后距离d的情况下传递一个比特的误比特率为:
Figure BDA0002365355410000084
此外,考虑到UWSN(即水下传感器网络)中对传感器网络寿命和低延迟应用的需求,我们描述了如何使用Q学习技术来增强水下声传感器网络路由器协议。
Q学习技术,这是路由算法的基本理论。传统的基于深度的路由协议对 UWSN中的动态网络拓扑的适应性较差,并且陷入局部最优状态。此外,对延迟,深度和能耗的考虑还远远不能令人满意。因此,我们提出的协议结合强化学习和蚁群算法来自适应地适应和学习动态水下环境的特征。
强化学习的模型可转换为马尔可夫决策过程(MDP),强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,R,γ)组成。S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数。
Figure BDA0002365355410000091
是在时间t时,执行动作a从状态s转移到s`的概率:
Figure BDA0002365355410000092
在路由发现和路由维持阶段中,设计奖励函数,并定义奖励函数如下:
Figure BDA0002365355410000093
其中,
Figure BDA0002365355410000094
是当状态节点采取动作at从st转移到st+1状态时,从环境获得的奖励大小。Agent的奖励包括了直接奖励值Rt和未来奖励。
动作价值函数Qπ(s,a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小:
Figure BDA0002365355410000095
其中γ是在[0,1]范围内的衰减因子,又叫做学习率;γ用来平衡直接奖励和未来奖励的权重。通常,我们把γ的范围限制在[0.5,0.99]。
为了找到最佳路由器路径,当水下传感器节点200传输数据包时,Q学习蚁群路由方法的目标是把Qπ(st+1,a)的期望值最大化,则定义最佳Q值函数,如下中所示:
Figure BDA0002365355410000096
最后,本发明方法使用前向蚂蚁(forward ants,FANT)和后向蚂蚁 (backwardant,BANT)探索最佳路径。通过Q-learning算法中的奖励函数加入链路状态和节点信息,通过反复的算法迭代,QLACO协议会收敛到全局最优的路由策略。
本发明方法主要包括三个部分阶段:通过定义Ni是需要转发数据的当前第i跳节点。Ci是i的除了上一跳Mlast邻居节点的集合。其中Dj是邻居节点Mj所处的深度,
Figure BDA0002365355410000101
邻居节点Nj的剩余能量,
Figure BDA0002365355410000102
是节点i和邻居节点j之间数据传输的延时。Packetre和Packetfor分别代表了接收和发送的数据包。
具体而言,路由发现阶段:结合了蚁群算法中的FANT和BANT探索路径并维护Q值表。Q值表在路由发现阶段开始时初始化为0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci
请参阅图2所示,当源节点开始向接收节点发送数据包时,释放FANT, FANT在初始阶段随机寻找下一个转发节点。FANT具有唯一的序列号ID和源地址。FANT将在到达目的地之前收集路径的信息。这样,目的节点可以获得拓扑信息并确定最佳路由路径。FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,这类似于传统ACO路由协议中的信息素。到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点。
当路径上的节点从目的节点接收到BANT时,节点将从数据包中提取出 BANT记录的上一跳节点信息(比如深度、链路延时和Q值),这些信息将用于计算奖励和当前节点的Q值。
以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT 所存储的路径作为最优路径。如此反复迭代后,将得到源节点到目的节点的最优路径。
路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q 值来维护Q值表。源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径。
因此,在路由发现和路由维持阶段中,设计合理的奖励函数对于Q学习来说是非常重要的,本发明算法的主要目标就是为了传输数据包时获得最大的奖励和最小的惩罚。
Rt代表了传输成功基于的奖励和传输失败基于的惩罚函数。假设节点St向距离l的节点St+1传输一个含有m比特的数据包,则直接奖励函数Rt如下所示:
Figure BDA0002365355410000111
其中
Figure BDA0002365355410000112
是数据包传输成功的概率,
Figure BDA0002365355410000113
是数据包传输失败的概率,
Figure BDA0002365355410000114
是节点传输成功后得到的直接奖励,
Figure BDA0002365355410000115
是节点传输成功后得到的惩罚。本协议通过水下声信道特性导致的误码率Perror(l),计算出传输大小为m 位的数据包的成功和失败的概率分别为(我们假定使用水下无线通信最常用的调制方式BPSK(二进制相移键控)):
Figure BDA0002365355410000116
Figure BDA0002365355410000117
我们定义奖励函数
Figure BDA0002365355410000118
是从状态St转移到St+1时采用动作At后得到的奖励。βi是代表链路延时的权重值,αi是代表传感器节点深度的权重值(i=1、2)。当UWSNs使用低延时要求的应用时,就可以增大βi的值,当UWSNs需要使得水下传感器节点200数据尽可能快速传到水面声呐节点,可以提高αi
Figure BDA0002365355410000119
在这里我们定义链路可靠性因子为Fij
Figure BDA00023653554100001110
是节点i传输数据包到j节点的延迟时间,L是传感器网络布局的距离常数。Vsound是声音在水下的传播速度,一般取值为1500m/s。
Figure BDA0002365355410000121
Dj为目标节点j的归一化后的深度参数。
Figure BDA0002365355410000122
是节点j的剩余能量,
Figure BDA0002365355410000123
是节点j的初始能量,
Figure BDA0002365355410000124
如果传输失败,节点i将重新发送数据包,惩罚函数如下:
Figure BDA0002365355410000125
本发明算法不仅通过周期性广播信标交换邻居路径上节点的延迟,能量和深度信息,还通过数据传输过程携带的数据包来连续更新Q值表。
当i的相邻节点不为空时,可以通过广播信标和数据包中的节点和路径信息来计算最大奖励和相应的路由策略。假设选择策略An时,路由转发的下一个节点为Nn。因此通过维护Q值表,本发明算法可以很好地适应水下通道的时变特性。
路由空洞处理机制:网络路由空洞指的是某些传感器节点死亡后,该位置无线中继节点仍然被别的节点作为转发节点,从而导致数据传输中断。
具体而言,当一个节点无法继续通过更新Q值表来选择路由策略时,本发明算法将进入路由失败处理函数。
当节点i传输数据包给节点j成功时,节点j会回复一个ACK给i,在节点 i需要先把发送给j节点的数据包缓存在存储空间,当收到ACK才能删除这个缓存数据包。如果在定时器计时完毕时,i节点仍然没有收到来自j的ACK,则说明出现了路由空洞。此时i节点将降低Q值表对应转发给j的奖励,并且向邻居节点广播存在路由空洞消息。
本发明主要贡献是提出了一种新颖的结合蚁群算法和Q学习的水下传感器路由算法QLACO。本发明针对水下传感器网络的网络拓扑变化和高延迟、能量受限特点,利用蚁群算法中的信息素和Q学习的奖励函数,将节点之间的链路延迟、吞吐率和能量消耗作为影响因子充分考虑,相比前人提出的传统蚁群算法,特别是针对水下特有的网络动态拓扑情景,本发明有着更好的收敛速度和鲁棒性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种面向水下多智能体的Q学习蚁群路由方法,其特征在于:结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:
路由发现阶段:结合蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;
路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;
路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数。
2.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,Q值表在路由发现阶段开始时初始化为0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci
3.根据权利要求1或2所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,当路径上的节点从目的节点接收到BANT时,节点将从数据包中提取出BANT记录的上一跳节点信息,这些信息将用于计算奖励和当前节点的Q值;以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT所存储的路径作为最优路径;如此反复迭代后,将得到源节点到目的节点的最优路径。
4.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述强化学习的模型可转换为马尔可夫决策过程,强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,R,γ)组成。S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数;
Figure FDA0002365355400000021
是在时间t时,执行动作a从状态s转移到s`的概率:
Figure FDA0002365355400000022
5.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,在路由发现和路由维持阶段中,设计奖励函数,并定义奖励函数如下:
Figure FDA0002365355400000023
其中,
Figure FDA0002365355400000024
是当状态节点采取动作at从st转移到st+1状态时,从环境获得的奖励大小;Agent的奖励包括了直接奖励值Rt和未来奖励。
6.根据权利要求5所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,动作价值函数Qπ(s,a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小:
Figure FDA0002365355400000025
其中γ是在[0,1]范围内的衰减因子,又叫做学习率;γ用来平衡直接奖励和未来奖励的权重。
7.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,为了找到最佳路由器路径,当水下传感器节点传输数据包时,Q学习蚁群路由方法的目标是把Qπ(st+1,a)的期望值最大化,则定义最佳Q值函数,如下中所示:
Figure FDA0002365355400000031
8.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,还包括建立水声信道模型,水声传播的特点对水深传感器网络有影响,水下声信道的路径损耗可由以下公式表示:
A(l,f)=A0lka(f)l
其中,A0是一个单位归一化常数,k为扩展因子,a(f)为吸收系数。
9.根据权利要求8所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,水下环境是一个高噪声环境,需要考虑到四种噪声源:湍流,船舶,波浪和热噪声,使用经验公式替代:
10logN(f)=N1-ηlogf
其中N(f)是环境噪声的功率密度谱;不考虑方向增益和损耗,只考虑路径损耗的水下信噪比可以由下面公式给出:
Figure FDA0002365355400000032
Δf是接收噪声信号带宽,P是传输信号功率,f是传输信号频率。
10.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,还包括建立水下无线传感器网络拓扑,所述水下传感器网络架构包括若干传感器节点、AUV、一个以上的平台同时具有水声收发器和RF收发器,所述传感器节点通过声学调制解调器通信,声链路用于与水下传感器节点交换数据。
CN202010033962.2A 2020-01-13 2020-01-13 一种面向水下多智能体的q学习蚁群路由方法 Active CN111065145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010033962.2A CN111065145B (zh) 2020-01-13 2020-01-13 一种面向水下多智能体的q学习蚁群路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010033962.2A CN111065145B (zh) 2020-01-13 2020-01-13 一种面向水下多智能体的q学习蚁群路由方法

Publications (2)

Publication Number Publication Date
CN111065145A true CN111065145A (zh) 2020-04-24
CN111065145B CN111065145B (zh) 2021-09-21

Family

ID=70307158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010033962.2A Active CN111065145B (zh) 2020-01-13 2020-01-13 一种面向水下多智能体的q学习蚁群路由方法

Country Status (1)

Country Link
CN (1) CN111065145B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188583A (zh) * 2020-10-08 2021-01-05 上海海事大学 一种基于强化学习的海洋水下无线感知网络机会路由方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112351400A (zh) * 2020-10-15 2021-02-09 天津大学 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN112714064A (zh) * 2020-12-29 2021-04-27 广东电网有限责任公司电力调度控制中心 一种电力线通信网络拓扑控制方法、装置、设备及介质
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN112867089A (zh) * 2020-12-31 2021-05-28 厦门大学 基于信息重要度和q学习算法的水声网络路由选择方法
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN112954769A (zh) * 2021-01-25 2021-06-11 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法
CN113014648A (zh) * 2021-02-25 2021-06-22 北京邮电大学 小节点群动态转发混合路由方法及相关设备
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN114025405A (zh) * 2021-10-09 2022-02-08 哈尔滨工程大学 一种基于强化学习的水下无人航行器安全机会路由方法及装置
CN114356535A (zh) * 2022-03-16 2022-04-15 北京锦诚世纪咨询服务有限公司 无线传感器网络的资源管理方法和装置
CN115001598A (zh) * 2022-04-29 2022-09-02 厦门大学 可远程遥控的水声信号发射装置
CN115173923A (zh) * 2022-07-04 2022-10-11 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115987886A (zh) * 2022-12-22 2023-04-18 厦门大学 一种基于元学习参数优化的水声网络q学习路由方法
CN116233784A (zh) * 2023-02-24 2023-06-06 青岛科技大学 Auv与水下无线传感器网络的数据收集方法
CN117200902A (zh) * 2023-11-07 2023-12-08 中国人民解放军总医院第一医学中心 一种基于智能咬嘴的水下通信方法、装置和存储介质
CN117521716A (zh) * 2024-01-02 2024-02-06 山东大学 面向海量未知选项与有限内存空间的协作决策方法及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106131916A (zh) * 2016-08-23 2016-11-16 上海交通大学 一种基于蚁群算法的无线网络路由建立方法
CN107104899A (zh) * 2017-06-09 2017-08-29 中山大学 一种应用于车载自组织网络中的基于蚁群算法的路由方法
CN108809443A (zh) * 2018-05-24 2018-11-13 华中科技大学 一种基于多智能体强化学习的水下光通信网络路由方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106131916A (zh) * 2016-08-23 2016-11-16 上海交通大学 一种基于蚁群算法的无线网络路由建立方法
CN107104899A (zh) * 2017-06-09 2017-08-29 中山大学 一种应用于车载自组织网络中的基于蚁群算法的路由方法
CN108809443A (zh) * 2018-05-24 2018-11-13 华中科技大学 一种基于多智能体强化学习的水下光通信网络路由方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张伟,王乃新,魏世琳,杜雪,严浙平: "水下无人潜航器集群发展现状及关键技术综述", 《哈尔滨工程大学学报》 *
段瑞洋,王景璟,杜军,王云龙,沈渊,任勇: "面向"三全"信息覆盖的新型海洋信息网络", 《通信学报》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112188583A (zh) * 2020-10-08 2021-01-05 上海海事大学 一种基于强化学习的海洋水下无线感知网络机会路由方法
CN112351400B (zh) * 2020-10-15 2022-03-11 天津大学 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN112351400A (zh) * 2020-10-15 2021-02-09 天津大学 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112714064A (zh) * 2020-12-29 2021-04-27 广东电网有限责任公司电力调度控制中心 一种电力线通信网络拓扑控制方法、装置、设备及介质
CN112822109A (zh) * 2020-12-31 2021-05-18 上海缔安科技股份有限公司 一种基于强化学习的SDN核心网QoS路由优化算法
CN112867089A (zh) * 2020-12-31 2021-05-28 厦门大学 基于信息重要度和q学习算法的水声网络路由选择方法
CN112929900A (zh) * 2021-01-21 2021-06-08 华侨大学 水声网络中基于深度强化学习实现时域干扰对齐的mac协议
CN112954769A (zh) * 2021-01-25 2021-06-11 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法
CN112954769B (zh) * 2021-01-25 2022-06-21 哈尔滨工程大学 基于强化学习的水下无线传感器网络路由方法
CN113014648A (zh) * 2021-02-25 2021-06-22 北京邮电大学 小节点群动态转发混合路由方法及相关设备
CN113014648B (zh) * 2021-02-25 2022-04-29 北京邮电大学 小节点群动态转发混合路由方法及相关设备
CN113783782A (zh) * 2021-09-09 2021-12-10 哈尔滨工程大学 一种深度强化学习的机会路由候选集节点排序方法
CN114025405A (zh) * 2021-10-09 2022-02-08 哈尔滨工程大学 一种基于强化学习的水下无人航行器安全机会路由方法及装置
CN114025405B (zh) * 2021-10-09 2023-07-28 哈尔滨工程大学 一种基于强化学习的水下无人航行器安全机会路由方法及装置
CN114356535A (zh) * 2022-03-16 2022-04-15 北京锦诚世纪咨询服务有限公司 无线传感器网络的资源管理方法和装置
CN115001598A (zh) * 2022-04-29 2022-09-02 厦门大学 可远程遥控的水声信号发射装置
CN115173923A (zh) * 2022-07-04 2022-10-11 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115173923B (zh) * 2022-07-04 2023-07-04 重庆邮电大学 一种低轨卫星网络能效感知路由优化方法和系统
CN115987886A (zh) * 2022-12-22 2023-04-18 厦门大学 一种基于元学习参数优化的水声网络q学习路由方法
CN115987886B (zh) * 2022-12-22 2024-06-04 厦门大学 一种基于元学习参数优化的水声网络q学习路由方法
CN116233784A (zh) * 2023-02-24 2023-06-06 青岛科技大学 Auv与水下无线传感器网络的数据收集方法
CN116233784B (zh) * 2023-02-24 2023-09-15 青岛科技大学 Auv与水下无线传感器网络的数据收集方法
CN117200902A (zh) * 2023-11-07 2023-12-08 中国人民解放军总医院第一医学中心 一种基于智能咬嘴的水下通信方法、装置和存储介质
CN117200902B (zh) * 2023-11-07 2024-02-02 中国人民解放军总医院第一医学中心 一种基于智能咬嘴的水下通信方法、装置和存储介质
CN117521716A (zh) * 2024-01-02 2024-02-06 山东大学 面向海量未知选项与有限内存空间的协作决策方法及介质
CN117521716B (zh) * 2024-01-02 2024-03-19 山东大学 面向海量未知选项与有限内存空间的协作决策方法及介质

Also Published As

Publication number Publication date
CN111065145B (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
CN111065145B (zh) 一种面向水下多智能体的q学习蚁群路由方法
Rahman et al. EECOR: An energy-efficient cooperative opportunistic routing protocol for underwater acoustic sensor networks
Wei et al. Reliable data collection techniques in underwater wireless sensor networks: A survey
Teekaraman et al. Energy analysis on localization free routing protocols in UWSNs
Zhang et al. Reinforcement learning-based opportunistic routing protocol for underwater acoustic sensor networks
Jornet et al. On joint frequency and power allocation in a cross-layer protocol for underwater acoustic networks
Zhu et al. A reinforcement-learning-based opportunistic routing protocol for energy-efficient and Void-Avoided UASNs
CN111083758A (zh) 一种高能效声电协同传输网络路由系统及方法
Fang et al. QLACO: Q-learning aided ant colony routing protocol for underwater acoustic sensor networks
CN111049743A (zh) 一种联合优化的水声多跳协作通信网络路由选择方法
Shah et al. Position adjustment–based location error–resilient geo‐opportunistic routing for void hole avoidance in underwater sensor networks
CN113766597B (zh) 水声传感网中基于定向传输的机会路由方法
Alasarpanahi et al. Energy‐efficient void avoidance geographic routing protocol for underwater sensor networks
Wang et al. Reinforcement learning-based opportunistic routing protocol using depth information for energy-efficient underwater wireless sensor networks
Baranidharan et al. Clustered geographic-opportunistic routing protocol for underwater wireless sensor networks
CN116261202A (zh) 农田数据机会传输方法、装置、电子设备及介质
CN113709035B (zh) 一种水声网络渗透路由方法
Sozer et al. Initialization and routing optimization for ad-hoc underwater acoustic networks
Misra et al. DATUM: Dynamic topology control for underwater wireless multimedia sensor networks
Chan et al. An integrated energy efficient data retrieval protocol for underwater delay tolerant networks
CN115022228B (zh) 基于蚁群算法的声电协同网络的自适应路由系统及方法
Ahmad et al. Machine Learning-Based Optimal Cooperating Node Selection for Internet of Underwater Things
Su et al. ACAR: an ant colony algorithm‐based routing protocol for underwater acoustic sensor network
Wang et al. A reliable and efficient routing protocol for underwater acoustic sensor networks
CN112291729B (zh) 一种低延迟的水下跨层机会路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant