CN113141592A - 一种长生命周期的水声传感器网络自适应多路径路由机制 - Google Patents

一种长生命周期的水声传感器网络自适应多路径路由机制 Download PDF

Info

Publication number
CN113141592A
CN113141592A CN202110388409.5A CN202110388409A CN113141592A CN 113141592 A CN113141592 A CN 113141592A CN 202110388409 A CN202110388409 A CN 202110388409A CN 113141592 A CN113141592 A CN 113141592A
Authority
CN
China
Prior art keywords
node
data packet
network
nodes
neighbor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110388409.5A
Other languages
English (en)
Other versions
CN113141592B (zh
Inventor
申晓红
王超
何欢
王海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110388409.5A priority Critical patent/CN113141592B/zh
Publication of CN113141592A publication Critical patent/CN113141592A/zh
Application granted granted Critical
Publication of CN113141592B publication Critical patent/CN113141592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种长生命周期的水声传感器网络自适应多路径路由机制,针对水下传感器网络节点移动性导致的链路质量下降以及各节点网络负载不均衡等问题,将网络建模为一个多智能体系统,每个节点作为一个智能体,通过直接与环境进行交互,并与其他智能体进行信息共享,高效地学习环境信息以适应网络拓扑的动态变化,智能体依据信道优劣,在邻居节点集中选择使未来奖励最大化的最佳中继节点集以确定数据包的最优传输路径,使网络在单一路径和多路径路由间进行动态切换以提高数据包的投递率,从而最大化地减少网络开销以提高能量利用率,提高包投递率以提升网络鲁棒性,平衡网络负载以延长网络生命周期。

Description

一种长生命周期的水声传感器网络自适应多路径路由机制
技术领域
本发明属于水声传感器网络技术领域,是一种可感知网络信道状态、延长网络寿命的多路径自适应路由协议,涉及多智能体协作的强化学习等算法。
背景技术
近年来,水声传感器网络随海洋信息应用领域的不断扩大而取得了很大的进步,在海洋军事、海洋环境与气象研究、海洋资源开发等方面具有重要的应用。一方面,水声传感器网络以水声信号为传输信息媒介,具有带宽低、传输延迟大等特点,导致以电磁波等为媒介的陆地传感器网络协议无法直接应用于水声传感器网络中。另一方面,水下环境复杂恶劣,节点频繁移动导致网络拓扑产生动态变化,且水下部署网络成本高昂,使得水声传感器网络的研究比在陆地的研究更加困难。
水声传感器网络路由协议按照路由决策方式分为分簇式和多跳式。分簇式路由中,将整个网络按照不同的分簇方法分成相应的簇,每个簇中选举一个簇头节点,簇间和簇内路由构成了整个网络的互联互通,但是簇的重构及维护开销大,且簇头节点作为网络的关键节点,其失效将导致路由失败。而多跳式路由中,没有固定的关键节点,网络中的所有节点都作为一个独立的个体,分别计算到达下一跳节点的路由,节点间相互交换路由信息,进行数据信息传输。其单个节点的失效并不会带来整个网络的瘫痪,可增强网络的鲁棒性,延长网络的生命周期。
然而,由于水下环境复杂恶劣,节点频繁移动使得网络拓扑动态变化,导致节点间链路质量下降甚至无法通信。基于强化学习的路由算法可很好的适应水下环境带来的网络拓扑变化,通过智能体与环境的不断交互,找到使长期累积奖赏最大化的路由策略,以实现网络路由性能的优化。
在现有的基于强化学习的水声传感器网络路由协议中,往往采用单智能体建模,借助Q学习算法建立目标函数以缓解网络资源的消耗速度,在不同网络需求下提高相应的网络性能,如节点能耗、传输延时以及包投递率等。但是,单智能体系统只是依据节点自身周围的环境信息做出判断,节点之间缺少信息交互,导致信息利用率低且易陷入局部最优化,进而忽略网络整体的路由性能,如为进一步节省能耗,导致某些关键节点过度使用而使整个网络瘫痪等。
基于多智能体强化学习的网络结构,每个智能体不仅关注节点自身与环境的交互,也与其他智能体进行合作学习,通过不同节点之间的信息交互实现动态路由选择。在Xinge Li等人提出的基于多智能体强化学习的水下光传感器网络路由协议中,考虑了链路质量和节点剩余能量,一定程度上增强了网络动态拓扑的适应性并延长了网络寿命,但该方法对通信链路的不对称性以及信道的不稳定性考虑不足。
发明内容
为了克服现有技术的不足,本发明提供一种长生命周期的水声传感器网络自适应多路径路由机制,是一种基于多智能体强化学习框架,感知链路质量的自适应多路径多跳式水声传感器网络路由协议,能够提高网络包投递率以及动态拓扑鲁棒性,平衡网络负载以延长网络生命周期。
本发明解决其技术问题所采用的技术方案包括以下步骤:
第一步,对网络进行建模,在N个节点组成的水声传感器网络中,对于每一个节点i,其邻居节点集合Ni={j1,j2,…}能够与节点i直接进行数据传输;
第二步,确定节点的状态空间Si={busy,idle},如果节点i有数据包需要处理,则Si处于busy状态,反之,节点i处于idle状态;
确定节点的动作空间Ai={{j1},{j2},…,{j1,j2},…,{j1,j2,…}}i,其中j1、j2…表示节点i的邻居节点,Ai中的元素表示节点i的中继节点集合;
第三步,构造奖励函数
Figure BDA0003014843770000021
表示智能体在状态s时,执行动作a后,从环境中获取的直接奖励,其中,g是常数,表示传输数据包的代价;Eresm(sj)是节点i在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值,每个节点都存储有其相邻节点的初始能量,节点依据其邻居节点所发送数据包的次数计算邻居节点的剩余能量;Einit(si)是节点i的初始能量;Lnon是对节点i丢失数据包的惩罚;k表示数据包当前的传输次数;K表示数据包的最大传输次数;
第四步,构造链路状态概率矩阵
Figure BDA0003014843770000022
其中,Srec,j表示节点j接收到的数据包的信号强度,Stra,i表示节点i发送该数据包的信号强度;
第五步,更新在状态si时,采取动作ai得到的期望总回报
Figure BDA0003014843770000031
其中,γ表示折扣因子,决定了未来奖励对系统的重要程度;jm是节点i选择的构成下一跳中继节点集合Ai中包含的任一节点;jn属于邻居节点集合Ni,但不属于当前节点状态的中继节点集合ai;ω1和ω2分别表示节点i采取的动作ai所对应的中继节点集合与未选中的邻居节点集合关于当前总回报的权值;
Figure BDA0003014843770000032
表示在当前状态si下执行动作ai时中继节点集合带来的累积奖励;
Figure BDA0003014843770000033
表示当前状态si下执行动作ai时未选中的邻居节点集和带来的累积奖励;
第六步,设计数据包结构,数据包中除有效负载外,还包括数据包ID、源节点ID、Sink节点ID、当前节点V值、下一跳节点ID、所有邻居节点ID及链路状态概率,其中,数据包ID和源节点ID表示对数据包进行唯一标识;Sink节点ID表示数据包的目的节点ID;当前节点V值表示本节点的状态值,即
Figure BDA0003014843770000034
下一跳节点ID表示当前节点从其邻居节点中选择的所有中继节点的ID;除此之外,每个节点都存储有其邻居节点的V值以及到达各邻居节点的链路状态概率,并依据数据包的包头信息以及HELLO包信息进行相关更新;
第七步,当节点i需要对数据包进行处理时,将执行数据包转发操作;
第八步,节点i在时间段τ内对数据包p的传输进行监听。
所述的常数g取值为-1,Lnon设定为绝对值大于100的负数。
所述的第四步中,将发送数据包的功率设为定值,仅依据所接受的数据包的信号强度确认节点i到节点j的链路状态概率,节点i的数据包包头中广播的是P(j,i),即由节点j传输数据包至节点i的链路状态,节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。
所述的数据包转发操作包括以下步骤:给数据包增加头部信息;如果节点i缺少其邻居节点Ni信息,发送广播包以确定其邻居节点;如果节点i已知邻居节点Ni,初始化k=0,当k<K时,si=busy,对于该状态的每一个可选动作a∈Ai(s)更新当前Q(si,ai);并依据ε-greedy策略,选取max Q(si,ai)所对应的动作ai或随机选取动作ai;计算节点i的V值
Figure BDA0003014843770000041
节点i将数据包发给ai所包含的节点;如果在时间段τ内数据包p的传输被节点i监听到,则节点i成功传输数据包p至下一跳节点;若没有监听到,节点i对数据包p进行重传,k值加1;若k≥K,则节点i传输数据包p失败,节点i将丢弃该数据包p。
所述的监听首先提取数据包p的包头信息,并更新所存储的邻居节点V值;如果数据包p的下一跳节点的列表中包含节点j,节点j接收整个数据包p,并更新数据包p的头部信息以进行其后传输;否则,节点j丢弃数据包p。
本发明的有益效果是:能够在复杂多变的水下环境中,使节点间进行信息可靠、高效地传输。在水声传感器网络中,各节点通过直接与环境进行交互,并与其他智能体进行信息共享,可高效地学习环境信息,适应网络拓扑的动态变化,并依信道优劣在单一路径和多路径路由间进行切换,能够极大的提高网络的投递率和吞吐量,降低网络时延。同时,该路由协议通过平衡网络负载,可节省水下传感器的能耗,延长网络生命周期。因此,本发明大大提高了水下传感器网络节点间的路由效率,为水声传感器网络通信提供了一种有效的方式,对水声传感器网络的进一步研究和发展具有重要意义。
附图说明
图1是本发明的多智能体强化学习网络框架示意图;
图2是本发明仿真的网络拓扑示意图;
图3是本发明整体路由进程设计示意图;
图4是本发明的仿真结果示意图,其中,(a)是信道状态较差时的各节点剩余能量示意图,(b)是信道状态较好时的各节点剩余能量示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
本发明针对水下传感器网络节点移动性导致的链路质量下降以及各节点网络负载不均衡等问题,提出了一种自适应水声传感器网络路由协议,将网络建模为一个多智能体系统,设计了基于多智能体强化学习的路由协议,每个节点作为一个智能体,通过直接与环境进行交互,并与其他智能体进行信息共享,高效地学习环境信息以适应网络拓扑的动态变化,智能体依据信道优劣,在邻居节点集中选择使未来奖励最大化的最佳中继节点集以确定数据包的最优传输路径,使网络在单一路径和多路径路由间进行动态切换以提高数据包的投递率,从而最大化地减少网络开销以提高能量利用率,提高包投递率以提升网络鲁棒性,平衡网络负载以延长网络生命周期。
本发明的主要步骤如下:
第一步:基于多智能体强化学习对网络进行建模
水声传感器网络由N个节点组成,对于每一个节点i,其邻居节点集合如(1)式所示:
Ni={j1,j2,…} (1)
即,节点j1、节点j2为节点i的邻居节点,可与节点i直接进行数据传输。
该发明的路由过程可建模为马尔可夫决策过程,如(2)式所示:
p(st+1|st,at,…,s0,a0)=p(st+1|st,at) (2)
即下一个时刻的状态st+1只和当前时刻的状态st以及动作at相关,而与之前的动作和状态无关,其中p为状态st到st+1的状态转移概率。因此,节点只需关注当前状态,维护成本大大降低,以对网络性能进行优化。
第二步:确定节点的状态空间和动作空间
每个节点都作为一个独立智能体,通过与节点周围环境进行信息交流,并与邻居智能体进行信息共享,在可选的动作集中选取使未来累计奖励最大的最佳动作,由此确定数据包传输的最优路径。节点的状态空间和动作空间如下:
(1)状态空间:Si={busy,idle},如果节点i有数据包需要处理,则它处于busy状态,反之,节点i处于idle状态。
(2)动作空间:Ai={{j1},{j2},…,{j1,j2},…,{j1,j2,…}}i,其中j1,j2,…表示节点i的邻居节点,Ai中的元素表示节点i的中继节点集合,由节点i的邻居节点集合的非空子集组成。
第三步:构造奖励函数
奖励函数表示智能体在状态s时,执行动作a后,从环境中获取的直接奖励,如(3)式所示:
Figure BDA0003014843770000061
其中,g是常数(此处取值为-1),表示传输数据包的代价,使智能体选择到达目的节点(Sink)相对短的路径;Eresm(sj)是节点i在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值,每个节点都存储有其相邻节点的初始能量,节点依据其邻居节点所发送数据包的次数计算邻居节点的剩余能量;Einit(si)是节点i的初始能量;Lnon是对节点i丢失数据包的惩罚,被设定为绝对值大于100的负数;k表示数据包当前的传输次数;K表示数据包的最大传输次数,其值基于网络当前流量动态设定。
第四步:构造链路状态概率矩阵
由于水下链路的不对称性,即P(i,j)≠P(j,i),因此,用链路状态概率来衡量两节点间的通信链路质量,如(4)式所示:
Figure BDA0003014843770000062
其中,i为当前数据包发送节点,j为节点i的邻居节点,Srec,j表示节点j接收到的数据包的信号强度,Stra,i表示节点i发送该数据包的信号强度。仿真中,将发送数据包的功率设为定值,仅依据所接受的数据包的信号强度,即可确认i→j的链路状态概率。节点i的数据包包头中广播(与其他节点共享)的是P(j,i),即由节点j传输数据包至节点i的链路j→i的状态。节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。
第五步:值函数的更新
强化学习的目标是,找到能使长期累积奖励最大化的策略。其基本算法Q学习的基本更新公式,如(5)式所示:
Figure BDA0003014843770000063
其中,Q(s,a)表示在状态s时,采取动作a得到的期望总回报;α表示学习速率且α∈[0,1],决定了Q值函数的更新速度;γ表示折扣因子且γ∈[0,1],该值决定了未来奖励对系统的重要程度,γ=0时系统仅考虑当前奖励,易导致局部最优而忽略全局性能;γ=1时,系统争取长期奖励,但并不能准确评估未来奖励。
依典型的Q学习更新公式可知,只考虑当前节点的最大收益(即只追求最小跳数),将使网络中某些节点因过度使用而提前衰亡,导致网络瘫痪(定义网络生命周期为网络中第一个节点死亡的时间)。本发明中,多智能体强化学习的目标是最大化网络生命周期并提高包投递率。因此,在传统Q值函数的更新中引入其他智能体的V值,实现全局最优,取α=1,具体表达式如(6)所示:
Figure BDA0003014843770000071
其中,jm是节点i选择的构成下一跳中继节点集合Ai中包含的任一节点;jn属于邻居节点集合Ni,但不属于当前节点状态的中继节点集合ai;ω1和ω2分别表示节点i采取的动作ai所对应的中继节点集合与未选中的邻居节点集合关于当前总回报的权值;其中
Figure BDA0003014843770000072
表示在当前状态si下执行动作ai时中继节点集合带来的累积奖励,使节点智能地选择下一跳中继节点集合,依信道优劣在单一路径和多路径路由间进行切换,提高包投递率以提升网络鲁棒性;
Figure BDA0003014843770000073
表示当前状态si下执行动作ai时未选中的邻居节点集和带来的累积奖励,使当前节点与其他节点进行信息共享,高效地学习环境信息以适应网络拓扑的动态变化,也使得节点在满足信息可靠性传输的情况下减少节点稳定性冗余度,最大化地减少网络开销以提高能量利用率,平衡网络负载以延长网络生命周期。
第六步:包结构设计
为了满足本文中算法需要,设计了包含如下信息的数据包结构,阴影部分为数据包的有效负载,如表1所示。
表1数据包结构
数据包ID
源节点ID
Sink节点ID
当前节点V值
下一跳节点ID列表
所有邻居节点ID及链路状态概率
数据包负载
其中,数据包ID和源节点ID,表示对数据包进行唯一标识;Sink节点ID,表示数据包的目的节点ID;当前节点V值,表示本节点的状态值,即
Figure BDA0003014843770000081
下一跳节点ID,表示当前节点从其邻居节点中选择的所有中继节点的ID;所有邻居节点ID及链路状态概率,其所需空间大小,取决于该节点的邻居节点的数量。
除此之外,每个节点都存储有其邻居节点的V值以及到达各邻居节点的链路状态概率,并依据数据包的包头信息以及HELLO包信息进行相关更新,即每个节点都需维护与其邻居节点相关的V值表和链路状态概率表。
第七步:数据包的转发
当节点i需要对数据包进行处理时,将执行数据包转发操作,如下所示:
①给数据包增加头部信息;
②如果节点i已知邻居节点Ni
·初始化k=0,当k<K时,si=busy,对于该状态的每一个可选动作a∈Ai(s),依据式(6)更新当前Q(si,ai);并依据ε-greedy策略选择动作,即生成随机数rand(0,1),若该随机数小于等于ε,选取max Q(si,ai)所对应的动作ai,否则,节点将随机选取动作ai
·计算节点i的V值:
Figure BDA0003014843770000082
·节点i将数据包p发给ai所包含的节点;
·如果在时间段τ内数据包p的传输被节点i监听到,则节点i成功传输数据包p至下一跳节点;若没有监听到,节点i对数据包p进行重传,即k=k+1;若k≥K,则节点i传输数据包p失败,节点i将丢弃该数据包p;
③如果节点i缺少其邻居节点Ni信息,将发送广播包以确定其邻居节点。
若节点i已知其邻居节点集合Ni,则选取最优动作集合转发数据包;若节点i无其邻居节点集合信息,则发送广播包确定其邻居节点集合Ni。此外,节点i发送广播包也由“邻居时间T”决定,“邻居时间T”是一个定值,表示节点周期性地发送广播包获得邻居节点信息。τ的值是数据包p传输到下一跳节点的最大往返时间的函数。为减少网络流量及节点能耗,节点对数据包的传输采用隐性确认的方法,即数据包传输后,发送端监听信道,若在τ时间段内监听到数据包,则节点i本次传输数据包成功,否则,将重新传输。只有Sink节点是显性确认,因为Sink节点不在对数据包进行中继。
第八步:数据包的监听和接收
节点i在时间段τ内对数据包p的传输进行监听,如下所示:
①提取数据包p的包头信息,并更新所存储的邻居节点V值;
②如果数据包p的下一跳节点的列表中包含节点j,节点j接收整个数据包p,并更新数据包p的头部信息以进行其后传输;否则,节点j丢弃数据包p。
该协议整体路由进程如图3所示,依据数据包的待需处理类型,节点的busy状态分为两种,即从MAC层到来的需接收的数据包和从应用层到来的需发送的数据包。该路由协议基于多智能体强化学习,通过智能体自身对周围环境的感知以及智能体间信息的共享,可高效地适应水下变化的环境状态。节点周期性地广播HELLO包,使智能体适应水下环境大幅度改变所带来的网络拓扑的大范围动态变化,并确定以及更新其邻居节点。节点在数据包转发时,由信号强度所确定的链路状态概率P,反映了当前链路的优劣,使节点适应水下环境小幅度改变所带来的网络拓扑的小范围动态变化。
下面以图2所示网络拓扑图为例,给出基于多智能体强化学习的水声传感器网络路由协议的具体实施方案。
依据图2提供的水声传感器网络节点场景图,节点之间利用声信号进行信息传输。节点1为发送节点(依据自身业务需求发送数据信息),节点2-7为普通节点,节点8为Sink节点。
具体实施步骤如下:
第一步:基于多智能体强化学习对网络进行建模
该水声传感器网络由8个节点组成,对于节点1,其邻居节点集合可表示为:N1={2,3,4}。即,节点2,3,4为节点1的邻居节点,可与节点1直接进行数据传输。同样,节点2,其邻居节点集合可表示为:N2={1,5,6}。
该发明的路由过程被建模为马尔可夫决策过程,即节点5的状态动作值和动作值只与其邻居节点集合N5={2,3,8}的动作值有关,而与其非直接相连的节点无关。因此,节点5只需关注其直接邻居节点,路由维护成本大大降低,以便提升网络性能。
第二步:确定节点的状态空间和动作空间
每个节点都作为一个独立智能体,通过与节点周围环境进行信息交流,并与邻居智能体进行信息共享,在可选的动作集中选取使未来累计奖励最大的最佳动作,由此确定数据包传输的最优路径。节点1的状态空间和动作空间如下:
(1)状态空间:S1={busy,idle}.如果节点1有数据包需要处理,则它处于busy状态,反之,节点1处于idle状态。
(2)动作空间:A1={{2},{3},{4},{2,3},{2,4},{3,4},{2,3,4}}1,由节点1的邻居节点集合的非空子集组成,其内元素均表示节点1的中继节点集合。
第三步:构造奖励函数
依据式(3),可得智能体1在状态busy时,执行动作a1后,从环境中获取的直接奖励,如式(7)所示:
Figure BDA0003014843770000101
其中,g=1表示传输数据包的代价,使智能体选择到达Sink相对短的路径;Eresm(sj)是是节点1在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值;Einit(si)是节点i的初始能量,普通节点的初始能量相同,设为500;Lnon是对节点i丢失数据包的惩罚,被设定为绝对值很大的负数;k表示数据包当前的传输次数;K=[5,8]表示数据包的最大传输次数,其值基于网络当前流量动态设定。
第四步:构造链路状态概率矩阵
由于水下链路的不对称性,即P(i,j)≠P(j,i)。以节点1和节点2为例,用来衡量两节点间的通信链路质量的链路状态概率,如是(8)所示:
Figure BDA0003014843770000102
其中,1为发送节点,2为接收节点,Srec,2表示节点2接收到的数据包的信号强度,Stra,1表示节点1发送该数据包的信号强度。仿真中,将发送数据包的功率设为定值,只依据所接受的数据包的信号强度,即可确认1→2的链路状态概率。
第五步:值函数的更新
当数据包到达节点5时,节点5的状态,由idle切换为busy,此时其邻居节点集合为N5={2,3,8},所选动作为a5={3,8}.依式(6),其中,ω1=0.9,ω2=0.1,γ=0.7,可知,其Q值的计算,如式(9)所示:
Figure BDA0003014843770000111
V值的计算,如式(10)所示:
Figure BDA0003014843770000112
第六步:包结构设计
当节点1发送的数据包时,其包头部具体信息为:数据包ID与源节点ID构成数据包p的唯一标识;源节点ID:节点1的ID;Sink节点ID:节点2的ID;当前节点V值:节点1的V值;下一跳节点ID列表:如此时节点1所选择的动作为a1={2,3},则下一跳节点ID列表包含节点2和节点3的ID;所有邻居节点ID及链路状态概率:
邻居节点ID 节点2ID 节点3ID 节点4ID
链路状态概率 P(2,1) P(3,1) P(4,1)
节点1包头部的链路状态概率表示的是其邻居节点到节点1的链路情况,目的是为了方便其邻居节点自身链路状态的更新。
除此之外,节点1也存储有其邻居节点的V值(V2,V3,V4)以及到达各邻居节点的链路状态概率(P(1,2),P(1,3),P(1,4)),并依据数据包的包头信息以及HELLO包信息进行相关更新,即节点1需维护与其邻居节点相关的V值表和链路状态概率表。
第七步:数据包的转发
当节点1需要对数据包进行处理时,将依据算法1执行数据包转发操作,具体步骤如下:
(1)节点1给数据包增加头部信息;
(2)对于节点1的每一个动作,计算所有的Q值;
(3)依据ε-greedy策略选择动作;
(4)将节点1的V值更新为
Figure BDA0003014843770000113
(5)节点1将数据包发给所选动作a1所包含的节点;
(6)对数据包的传输进行监听。
第八步:数据包的监听和接收
节点1将数据包发给节点2,在时间段τ内对数据包p的传输进行监听。节点2接收到数据包后,提取包头信息,并更新所存储的邻居节点(节点1,5,6)的V值。若节点1的下一跳节点集合中不包含节点2,节点2丢弃数据包p。若节点1的下一跳节点集合中包含节点2,节点2接收整个数据包p,并更新数据包p的头部信息以进行其后传输,此时,节点2发送数据包p给其动作a2所包含的节点,此时节点1监听到节点2发送的数据包p,则认为节点1到节点2的数据包p发送成功。
本发明的整体路由进程如图3所示,依据数据包的待需处理类型,分别对从MAC层到来的需接收的数据包和从应用层到来的需发送的数据包进行处理。针对以上过程采用Matlab对其性能进行仿真。如图2所示设置网络,由8个节点组成,其中一个是Sink节点。普通传感器节点根据其业务需求随机向Sink节点发送采集数据。图4(a)为信道状态较差时的仿真结果,是本发明所采取的算法与Q学习算法在初始节点发送相同数量数据包后所得的各节点剩余能量的比较。图4(b)为信道状态很好时的仿真结果。由各节点的剩余能量图可明显观察到,该算法各节点剩余能量比Q学习算法各节点剩余能量高且分布更加均衡,可见该算法可更有效的节省节点能量以延长网络生命周期。综上所述,本发明所提出的基于多智能体强化学习的长生命周期水声传感器网络自适应多路径路由协议可很好地改善网络性能。

Claims (5)

1.一种长生命周期的水声传感器网络自适应多路径路由机制,其特征在于,包括以下步骤:
第一步,对网络进行建模,在N个节点组成的水声传感器网络中,对于每一个节点i,其邻居节点集合Ni={j1,j2,…}能够与节点i直接进行数据传输;
第二步,确定节点的状态空间Si={busy,idle},如果节点i有数据包需要处理,则Si处于busy状态,反之,节点i处于idle状态;
确定节点的动作空间Ai={{j1},{j2},…,{j1,j2},…,{j1,j2,…}}i,其中j1、j2…表示节点i的邻居节点,Ai中的元素表示节点i的中继节点集合;
第三步,构造奖励函数
Figure FDA0003014843760000011
表示智能体在状态s时,执行动作a后,从环境中获取的直接奖励,其中,g是常数,表示传输数据包的代价;Eresm(sj)是节点i在当前状态s时采取的动作a包含的所有中继节点j剩余能量的均值,每个节点都存储有其相邻节点的初始能量,节点依据其邻居节点所发送数据包的次数计算邻居节点的剩余能量;Einit(si)是节点i的初始能量;Lnon是对节点i丢失数据包的惩罚;k表示数据包当前的传输次数;K表示数据包的最大传输次数;
第四步,构造链路状态概率矩阵
Figure FDA0003014843760000012
其中,Srec,j表示节点j接收到的数据包的信号强度,Stra,i表示节点i发送该数据包的信号强度;
第五步,更新在状态si时,采取动作ai得到的期望总回报
Figure FDA0003014843760000013
其中,γ表示折扣因子,决定了未来奖励对系统的重要程度;jm是节点i选择的构成下一跳中继节点集合Ai中包含的任一节点;jn属于邻居节点集合Ni,但不属于当前节点状态的中继节点集合ai;ω1和ω2分别表示节点i采取的动作ai所对应的中继节点集合与未选中的邻居节点集合关于当前总回报的权值;
Figure FDA0003014843760000014
表示在当前状态si下执行动作ai时中继节点集合带来的累积奖励;
Figure FDA0003014843760000021
表示当前状态si下执行动作ai时未选中的邻居节点集和带来的累积奖励;
第六步,设计数据包结构,数据包中除有效负载外,还包括数据包ID、源节点ID、Sink节点ID、当前节点V值、下一跳节点ID、所有邻居节点ID及链路状态概率,其中,数据包ID和源节点ID表示对数据包进行唯一标识;Sink节点ID表示数据包的目的节点ID;当前节点V值表示本节点的状态值,即
Figure FDA0003014843760000022
下一跳节点ID表示当前节点从其邻居节点中选择的所有中继节点的ID;除此之外,每个节点都存储有其邻居节点的V值以及到达各邻居节点的链路状态概率,并依据数据包的包头信息以及HELLO包信息进行相关更新;
第七步,当节点i需要对数据包进行处理时,将执行数据包转发操作;
第八步,节点i在时间段τ内对数据包p的传输进行监听。
2.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制,其特征在于,所述的常数g取值为-1,Lnon设定为绝对值大于100的负数。
3.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制,其特征在于,所述的第四步中,将发送数据包的功率设为定值,仅依据所接受的数据包的信号强度确认节点i到节点j的链路状态概率,节点i的数据包包头中广播的是P(j,i),即由节点j传输数据包至节点i的链路状态,节点i依据其邻居节点j广播的P(i,j)来更新本地链路状态表。
4.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制,其特征在于,所述的数据包转发操作包括以下步骤:给数据包增加头部信息;如果节点i缺少其邻居节点Ni信息,发送广播包以确定其邻居节点;如果节点i已知邻居节点Ni,初始化k=0,当k<K时,si=busy,对于该状态的每一个可选动作a∈Ai(s)更新当前Q(si,ai);并依据ε-greedy策略,选取max Q(si,ai)所对应的动作ai或随机选取动作ai;计算节点i的V值
Figure FDA0003014843760000023
节点i将数据包发给ai所包含的节点;如果在时间段τ内数据包p的传输被节点i监听到,则节点i成功传输数据包p至下一跳节点;若没有监听到,节点i对数据包p进行重传,k值加1;若k≥K,则节点i传输数据包p失败,节点i将丢弃该数据包p。
5.根据权利要求1所述的长生命周期的水声传感器网络自适应多路径路由机制,其特征在于,所述的监听首先提取数据包p的包头信息,并更新所存储的邻居节点V值;如果数据包p的下一跳节点的列表中包含节点j,节点j接收整个数据包p,并更新数据包p的头部信息以进行其后传输;否则,节点j丢弃数据包p。
CN202110388409.5A 2021-04-11 2021-04-11 一种长生命周期的水声传感器网络自适应多路径路由方法 Active CN113141592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110388409.5A CN113141592B (zh) 2021-04-11 2021-04-11 一种长生命周期的水声传感器网络自适应多路径路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110388409.5A CN113141592B (zh) 2021-04-11 2021-04-11 一种长生命周期的水声传感器网络自适应多路径路由方法

Publications (2)

Publication Number Publication Date
CN113141592A true CN113141592A (zh) 2021-07-20
CN113141592B CN113141592B (zh) 2022-08-19

Family

ID=76811171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110388409.5A Active CN113141592B (zh) 2021-04-11 2021-04-11 一种长生命周期的水声传感器网络自适应多路径路由方法

Country Status (1)

Country Link
CN (1) CN113141592B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783628A (zh) * 2021-09-13 2021-12-10 广东技术师范大学 一种基于峰值信息年龄的水声通信路由确定方法及系统
CN114356535A (zh) * 2022-03-16 2022-04-15 北京锦诚世纪咨询服务有限公司 无线传感器网络的资源管理方法和装置
CN114828141A (zh) * 2022-04-25 2022-07-29 广西财经学院 一种基于AUV组网的UWSNs多跳路由方法
CN115568039A (zh) * 2022-09-30 2023-01-03 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN115843083A (zh) * 2023-02-24 2023-03-24 青岛科技大学 基于多智能体强化学习的水下无线传感器网络路由方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110022746A (ko) * 2009-08-24 2011-03-08 한국해양연구원 클러스터 수중 음향 네트워크를 위한 이동 노드 기반의 시간 분할 다중 접속 매체 접속 제어 방법
CN103002560A (zh) * 2012-12-21 2013-03-27 天津大学 基于mimo动态信道的水声网络自适应功率控制方法
CN104601280A (zh) * 2014-12-26 2015-05-06 中国船舶重工集团公司第七一五研究所 一种用于水声传感器网络的多路径协作通信方法
EP3127256A2 (en) * 2014-04-04 2017-02-08 TrackServer, Inc. Method and apparatus for underwater acoustic communication
WO2018075984A1 (en) * 2016-10-21 2018-04-26 Northeastern University Method and apparatus for wireless communications
CN108464032A (zh) * 2015-10-16 2018-08-28 罗马大学 以自适应和接合的方式管理水下网络中的节点的路由策略和重传策略的方法及其实现装置
CN109246786A (zh) * 2018-10-16 2019-01-18 天津大学 水下传感器网络中基于距离的能量均衡动态地理路由方法
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
US20190386823A1 (en) * 2017-10-04 2019-12-19 The Boeing Company Secure and disruption-tolerant communications for unmanned underwater vehicles
CN111278078A (zh) * 2020-01-21 2020-06-12 桂林电子科技大学 一种移动稀疏水声传感器网络自适应路由协议的实现方法
CN111835838A (zh) * 2020-06-30 2020-10-27 江苏科技大学 一种多智能体系统及其控制方法
CN111866982A (zh) * 2020-06-19 2020-10-30 青海师范大学 一种基于分层的能量均衡水声网络路由协议方法
CN112188583A (zh) * 2020-10-08 2021-01-05 上海海事大学 一种基于强化学习的海洋水下无线感知网络机会路由方法
CN112351400A (zh) * 2020-10-15 2021-02-09 天津大学 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN112469103A (zh) * 2020-11-26 2021-03-09 厦门大学 基于强化学习Sarsa算法的水声协作通信路由方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110022746A (ko) * 2009-08-24 2011-03-08 한국해양연구원 클러스터 수중 음향 네트워크를 위한 이동 노드 기반의 시간 분할 다중 접속 매체 접속 제어 방법
CN103002560A (zh) * 2012-12-21 2013-03-27 天津大学 基于mimo动态信道的水声网络自适应功率控制方法
EP3127256A2 (en) * 2014-04-04 2017-02-08 TrackServer, Inc. Method and apparatus for underwater acoustic communication
CN104601280A (zh) * 2014-12-26 2015-05-06 中国船舶重工集团公司第七一五研究所 一种用于水声传感器网络的多路径协作通信方法
CN108464032A (zh) * 2015-10-16 2018-08-28 罗马大学 以自适应和接合的方式管理水下网络中的节点的路由策略和重传策略的方法及其实现装置
WO2018075984A1 (en) * 2016-10-21 2018-04-26 Northeastern University Method and apparatus for wireless communications
US20190386823A1 (en) * 2017-10-04 2019-12-19 The Boeing Company Secure and disruption-tolerant communications for unmanned underwater vehicles
CN109246786A (zh) * 2018-10-16 2019-01-18 天津大学 水下传感器网络中基于距离的能量均衡动态地理路由方法
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
CN111278078A (zh) * 2020-01-21 2020-06-12 桂林电子科技大学 一种移动稀疏水声传感器网络自适应路由协议的实现方法
CN111866982A (zh) * 2020-06-19 2020-10-30 青海师范大学 一种基于分层的能量均衡水声网络路由协议方法
CN111835838A (zh) * 2020-06-30 2020-10-27 江苏科技大学 一种多智能体系统及其控制方法
CN112188583A (zh) * 2020-10-08 2021-01-05 上海海事大学 一种基于强化学习的海洋水下无线感知网络机会路由方法
CN112351400A (zh) * 2020-10-15 2021-02-09 天津大学 一种基于改进强化学习的水下多模态网络路由策略生成方法
CN112469103A (zh) * 2020-11-26 2021-03-09 厦门大学 基于强化学习Sarsa算法的水声协作通信路由方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
MEHDI RAHMATI: "UW-MARL: Multi-Agent Reinforcement Learning for Underwater Adaptive Sampling using Autonomous Vehicles", 《ACM》 *
XINGE LI: "Routing Protocol Design for Underwater Optical Wireless Sensor Networks: A Multiagent Reinforcement Learning Approach", 《IEEE INTERNET OF THINGS JOURNAL》 *
卜任菲: "水声通信网络中基于智能算法的路由计算研究", 《信息科技辑》 *
白卫岗: "水声通信网络组网协议关键技术研究", 《信息科技》 *
马莹莹: "水声传感器网络高能效路由机制研究", 《信息科技》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783628A (zh) * 2021-09-13 2021-12-10 广东技术师范大学 一种基于峰值信息年龄的水声通信路由确定方法及系统
CN113783628B (zh) * 2021-09-13 2022-07-15 广东技术师范大学 一种基于峰值信息年龄的水声通信路由确定方法及系统
CN114356535A (zh) * 2022-03-16 2022-04-15 北京锦诚世纪咨询服务有限公司 无线传感器网络的资源管理方法和装置
CN114828141A (zh) * 2022-04-25 2022-07-29 广西财经学院 一种基于AUV组网的UWSNs多跳路由方法
CN114828141B (zh) * 2022-04-25 2024-04-19 广西财经学院 一种基于AUV组网的UWSNs多跳路由方法
CN115568039A (zh) * 2022-09-30 2023-01-03 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN115568039B (zh) * 2022-09-30 2023-08-04 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN115843083A (zh) * 2023-02-24 2023-03-24 青岛科技大学 基于多智能体强化学习的水下无线传感器网络路由方法

Also Published As

Publication number Publication date
CN113141592B (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
CN113141592B (zh) 一种长生命周期的水声传感器网络自适应多路径路由方法
CN106993320B (zh) 基于多中继多跳的无线传感器网络协作传输路由方法
CN110324877B (zh) 基于伺服骨干网与Vikor多标准决策的中继机器人路由方法
CN110708736B (zh) 一种基于能效中继选择的动态路由方法与系统
CN106817738B (zh) 一种基于联盟博弈的路由方法
CN112954769B (zh) 基于强化学习的水下无线传感器网络路由方法
CN107846706B (zh) 一种拥塞避免的编码感知无线mesh网络多路径路由方法
CN110167097B (zh) 基于加权度量转发和路径规划的移动机器人中继路由方法
CN108174412A (zh) 一种负载均衡的rpl多路径数据传输机制
Li et al. Energy-efficient multipath routing in wireless sensor network considering wireless interference
CN101711048A (zh) 移动自组织网络与Internet融合过程中的网关选择方法
CN101835099B (zh) 基于分簇与rrep广播的大规模传感器网络路由方法
CN110932969B (zh) 一种智能电网高级量测系统ami网络抗干扰攻击路由算法
Fang et al. QLACO: Q-learning aided ant colony routing protocol for underwater acoustic sensor networks
CN114339661A (zh) 基于鲸鱼优化的飞行器自组织网络多径路由机制
CN114339936A (zh) 基于q学习的飞行器自组织网络优化链路状态路由机制
CN111132236B (zh) 基于改进olsr协议的多无人机自组织网络mpr节点选择方法
Bhat et al. Lifetime ratio improvement in relay nodes using CWSN for cooperative wireless sensor networks
Farhan et al. LQOR: link quality-oriented route selection on Internet of Things networks for green computing
CN110740487A (zh) 一种能量有效且避障的水下路由方法
Saleem et al. Ant based self-organized routing protocol for wireless sensor networks
Peng et al. Real-time transmission optimization for edge computing in industrial cyber-physical systems
CN115843083B (zh) 基于多智能体强化学习的水下无线传感器网络路由方法
CN116528313A (zh) 一种面向任务协同的无人机低能耗快速路由方法
CN116113008A (zh) 一种无人机自组织网络多智能体路由算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Shen Xiaohong

Inventor after: He Huan

Inventor after: Wang Chao

Inventor after: Wang Haiyan

Inventor before: Shen Xiaohong

Inventor before: Wang Chao

Inventor before: He Huan

Inventor before: Wang Haiyan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant