CN108809443B - 一种基于多智能体强化学习的水下光通信网络路由方法 - Google Patents
一种基于多智能体强化学习的水下光通信网络路由方法 Download PDFInfo
- Publication number
- CN108809443B CN108809443B CN201810513090.2A CN201810513090A CN108809443B CN 108809443 B CN108809443 B CN 108809443B CN 201810513090 A CN201810513090 A CN 201810513090A CN 108809443 B CN108809443 B CN 108809443B
- Authority
- CN
- China
- Prior art keywords
- node
- data packet
- sending
- packet
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B13/00—Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
- H04B13/02—Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/0073—Provisions for forwarding or routing, e.g. lookup tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0062—Network aspects
- H04Q2011/009—Topology aspects
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于多智能体强化学习的水下光通信网络路由方法,包括:在水下光通信网络中,各节点通过发送广播包,得到各节点的邻居节点,利用各节点的邻居节点初始化各节点的路由表信息;对水下光通信网络中有通信需求的节点发送数据包,通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值;利用奖赏值,通过分布式值函数计算并更新节点的Q值;采用ε‑greedy间接探索方法,选择Q值最大的节点作为下一跳节点,若下一跳节点为目的节点,则在下一跳节点转发数据包,确定最优路径。本发明主要用来确定水光网络数据转发的最优路径,从而节约能量,提高数据转发率,实现网络生命周期最大化。
Description
技术领域
本发明属于水下光通信领域,更具体地,涉及一种基于多智能体强化学习的水下光通信网络路由方法。
背景技术
水下无线传感器网络对于海洋探索与开发十分重要,但是,由于海水介质的随机性和海洋环境条件的特殊性,尤其是潮汐,海浪,台风等恶劣条件,使得海洋无线信息传输面临严峻挑战。
一方面,水声通信是目前最为成熟的水下通信技术,几乎所有的路由协议都是基于水声通信进行设计。但是,水声通信受限的可用带宽,大传播时延等特性无法满足水下大量数据的实时传输需求,不仅造成水下路由数据传输时延大,同时也消耗了过多能量,缩短网络生命周期。水光通信具有高带宽,高传输速率,低迟延,低功耗等特性,有利于实现水下大数据实时通信。同时,考虑到水光通信传输范围有限,网络路由设计需基于通信节点密集分布的网络中,以短距离多跳方式实现。
另一方面,强化学习是一种通过学习环境信息,直接与环境交互,从而实现长期目标的计算方法。有不少基于强化学习算法的路由协议的研究工作被展开,解决水下声传感器网络的动态拓扑,能量受限以及长迟延问题,而针对水光网络的却几乎没有。目前水下光通信领域研究主要集中水下光信道模型,光信号传输的调制编码技术以及水下光通信的传输特性,在路由技术方面只有少量研究。现有的水光网络中由于动态拓扑变化引起数据链路中断,缩短了网络生命周期。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多智能体强化学习的水下光通信网络路由方法,由此解决现有的水光网络中由于动态拓扑变化引起数据链路中断,缩短了网络生命周期的技术问题。
为实现上述目的,本发明提供了一种基于多智能体强化学习的水下光通信网络路由方法,包括:
(1)在水下光通信网络中,各节点通过发送广播包,得到各节点的邻居节点,利用各节点的邻居节点初始化各节点的路由表信息;
(2)对水下光通信网络中有通信需求的节点发送数据包,通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值;
(3)利用奖赏值,通过分布式值函数计算并更新节点的Q值;
(4)采用ε-greedy间接探索方法,选择Q值最大的节点作为下一跳节点,若下一跳节点为目的节点,则在下一跳节点转发数据包,确定最优路径,否则,在下一跳节点转发数据包,然后执行步骤(2)。
进一步地,各节点的邻居节点为发送广播包的各节点的通信范围内收到广播包的节点。
进一步地,步骤(2)包括:
(2-1)判断水下光通信网络中是否有通信需求,若有,则对水下光通信网络中有通信需求的节点发送数据包,若没有,则等待并定期监测;
(2-2)通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息,若返回,则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息,利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值,并将该节点作为转发节点,若没有返回,则重新选择发送数据包的节点。
进一步地,奖赏值为:
其中,Knon-ACK<0,WE和WL分别是接收数据包的节点的剩余能量和信号强度的权重因子,E和LQ分别表示接收数据包的节点的剩余能量和信号强度的归一化值,r(a(sj|si))为发送数据包的节点i在状态si下向接收数据包的节点j发送数据包a产生的奖赏值,sj为接收数据包的节点的状态为。
进一步地,Q值为:
γi,j=Kdis·CFi,j
其中,α是学习速率,γi,j是发送数据包的节点i与接收数据包的节点j之间的折扣因子,γi,i′是发送数据包的节点i与其邻居节点i′之间的折扣因子,CFi,j是发送数据包的节点i与接收数据包的节点j之间的连通因子,表示发送数据包的节点i在t时刻的状态,表示发送数据包的节点i在t+1时刻对应的奖赏值,ω(i,j)和ω(i,i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度,表示发送数据包的节点i在t时刻采取的动作,Kdis是常数,I为发送数据包的节点i的邻居节点i′的集合,为中的最大值,为中的最大值,为发送数据包的节点i在t时刻状态下采取动作时的Q值,为发送数据包的节点i在t+1时刻状态下采取动作时的Q值,为发送数据包的节点i的邻居节点i′在t时刻状态下采取动作时的Q值。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提出一种应用于水光网络,基于多智能体强化学习算法的路由方法,通过这种路径寻优的方式,可以提高数据传输的高效性和实时性,节约能量,增强网络动态拓扑的适应能力。由此解决现有的水光网络中由于动态拓扑变化引起数据链路中断,缩短了网络生命周期的技术问题。
(2)本发明利用强化学习算法提高节点对于网络拓扑变化的适应能力,每一个节点通过与邻居节点进行信息交互的方式来学习网络环境变化状况;本发明中每一个节点可以被认为是一个智能体,通过自主学习和信息通讯,考虑其剩余能量以及链路状态,选择最佳的转发节点,实现网络生命周期最大化。
(3)本发在进行Q值更新时,不仅考虑了发送节点自身的情况,同时引入所有邻居节点的状态信息,从而达到全局最优的效果,这相比于传统的Q值更新公式实现局部最优,有了很大的突破。针对水下光传感器网络节点移动造成链路易中断特性,本发明提出并设计动态折扣因子γi,j,其取决于节点间的连通因子CFi,j,从而反映网络链路状态,提高动态网络节点学习精度和路由算法的鲁棒性。
附图说明
图1是本发明实施例提供的一种基于多智能体强化学习的水下光通信网络路由方法的流程图;
图2是本发明实施例提供的ACK确认机制的流程图;
图3是本发明实施例提供的节点Q值更新流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于多智能体强化学习的水下光通信网络路由方法,包括:
(1)在水下光通信网络中,各节点通过发送广播包,得到各节点的邻居节点,利用各节点的邻居节点初始化各节点的路由表信息;
(2)对水下光通信网络中有通信需求的节点发送数据包,通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值;
(3)利用奖赏值,通过分布式值函数计算并更新节点的Q值;
(4)采用ε-greedy间接探索方法,选择Q值最大的节点作为下一跳节点,若下一跳节点为目的节点,则在下一跳节点转发数据包,确定最优路径,否则,在下一跳节点转发数据包,然后执行步骤(2)。
进一步地,各节点的邻居节点为发送广播包的各节点的通信范围内收到广播包的节点。
步骤(2)包括:
(2-1)判断水下光通信网络中是否有通信需求,若有,则对水下光通信网络中有通信需求的节点发送数据包,若没有,则等待并定期监测;
(2-2)如图2所示,通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息,若返回,则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息,利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值,并将该节点作为转发节点,若没有返回,则重新选择发送数据包的节点。
进一步地,奖赏值为:
其中,Knon-ACK<0,WE和WL分别是接收数据包的节点的剩余能量和信号强度的权重因子,E和LQ分别表示接收数据包的节点的剩余能量和信号强度的归一化值,r(a(sj|si))为发送数据包的节点i在状态si下向接收数据包的节点j发送数据包a产生的奖赏值,sj为接收数据包的节点的状态为。
进一步地,Q值为:
γi,j=Kdis·CFi,j
其中,α是学习速率,γi,j是发送数据包的节点i与接收数据包的节点j之间的折扣因子,γi,i′是发送数据包的节点i与其邻居节点i′之间的折扣因子,CFi,j是发送数据包的节点i与接收数据包的节点j之间的连通因子,表示发送数据包的节点i在t时刻的状态,表示发送数据包的节点i在t+1时刻对应的奖赏值,ω(i,j)和ω(i,i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度,表示发送数据包的节点i在t时刻采取的动作,Kdis是常数,I为发送数据包的节点i的邻居节点i′的集合,为中的最大值,为中的最大值,为发送数据包的节点i在t时刻状态下采取动作时的Q值,为发送数据包的节点i在t+1时刻状态下采取动作时的Q值,为发送数据包的节点i的邻居节点i′在t时刻状态下采取动作时的Q值。
如图3所示,由于水下光网络拓扑结构高度变化,数据链路极易中断,因此路由选择过程应具有探索动态环境的能力以适应网络的动态变化。本发明采用采用ε-greedy间接探索方法,通过给每个可选择动作赋予一定的执行概率来完成对全部动作的尝试。以ε概率随机选择邻居节点转发,以1-ε概率选择Q值最大的节点进行转发。
本发明的路由协议的设计中包含了三种类型的packet:广播包,数据包和ACK确认包。不同结构的包通过包结构中的类型字段区分,同时利用包中不同的字段来更新自己的路由表信息,实现相邻节点间的信息共享。广播包包括:广播地址、类型1、源节点ID、值函数V、剩余能量和连通因子。数据包包括:下一跳节点ID、类型2、数据包序号、sink节点ID、TTL跳数限制、前一跳节点ID、前一跳节点值函数V、前一跳节点剩余能量、前一跳节点移动因子和上层数据。ACK确认包包括:目的节点ID、类型3、ACK确认、源节点ID、源节点值函数V、源节点剩余能量和源节点连通因子。
本发明主要用来是解决水下光通信无线传感器网络中数据传输的路由决策问题。根据水光网络中传感器节点的剩余能量、链路质量等信息,对网络进行不断的学习和训练,从而确定网络中下一跳路由转发节点,优化传输路径,适应网络环境变化。因此,基于多智能体强化学习的水光路由协议可以增强节点对于网络拓扑变化的适应能力,从而提高数据转发率,减少能量消耗,延长网络生命周期。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于多智能体强化学习的水下光通信网络路由方法,其特征在于,包括:
(1)在水下光通信网络中,各节点通过发送广播包,得到各节点的邻居节点,利用各节点的邻居节点初始化各节点的路由表信息;
(2)对水下光通信网络中有通信需求的节点发送数据包,通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值;
(3)利用奖赏值,通过分布式值函数计算并更新节点的Q值;
(4)采用ε-greedy间接探索方法,选择Q值最大的节点作为下一跳节点,若下一跳节点为目的节点,则在下一跳节点转发数据包,确定最优路径,否则,在下一跳节点转发数据包,然后执行步骤(2);
所述步骤(2)包括:
(2-1)判断水下光通信网络中是否有通信需求,若有,则对水下光通信网络中有通信需求的节点发送数据包,若没有,则等待并定期监测;
(2-2)通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息,若返回,则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息,利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值,并将该节点作为转发节点,若没有返回,则重新选择发送数据包的节点;
所述Q值为:
γi,j=Kdis·CFi,j
其中,α是学习速率,γi,j是发送数据包的节点i与接收数据包的节点j之间的折扣因子,γi,i′是发送数据包的节点i与其邻居节点i′之间的折扣因子,CFi,j是发送数据包的节点i与接收数据包的节点j之间的连通因子,表示发送数据包的节点i在t时刻的状态,表示发送数据包的节点i在t+1时刻对应的奖赏值,ω(i,j)和ω(i,i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度,表示发送数据包的节点i在t时刻采取的动作,Kdis是常数,I为发送数据包的节点i的邻居节点i′的集合,为中的最大值,为中的最大值,为发送数据包的节点i在t时刻状态下采取动作时的Q值,为发送数据包的节点i在t+1时刻状态下采取动作时的Q值,为发送数据包的节点i的邻居节点i′在t时刻状态下采取动作时的Q值。
2.如权利要求1所述的一种基于多智能体强化学习的水下光通信网络路由方法,其特征在于,所述各节点的邻居节点为发送广播包的各节点的通信范围内收到广播包的节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810513090.2A CN108809443B (zh) | 2018-05-24 | 2018-05-24 | 一种基于多智能体强化学习的水下光通信网络路由方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810513090.2A CN108809443B (zh) | 2018-05-24 | 2018-05-24 | 一种基于多智能体强化学习的水下光通信网络路由方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108809443A CN108809443A (zh) | 2018-11-13 |
CN108809443B true CN108809443B (zh) | 2020-02-21 |
Family
ID=64091840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810513090.2A Active CN108809443B (zh) | 2018-05-24 | 2018-05-24 | 一种基于多智能体强化学习的水下光通信网络路由方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108809443B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109818856B (zh) * | 2019-03-07 | 2021-07-13 | 北京西米兄弟未来科技有限公司 | 一种多路径数据传输方法及装置 |
CN110708736B (zh) * | 2019-10-24 | 2021-04-06 | 东南大学 | 一种基于能效中继选择的动态路由方法与系统 |
CN111065144B (zh) * | 2019-12-30 | 2022-05-13 | 青岛科技大学 | 一种基于光声融合的水下传感网分布式机会路由方法 |
CN111065145B (zh) * | 2020-01-13 | 2021-09-21 | 清华大学 | 一种面向水下多智能体的q学习蚁群路由方法 |
CN112752250B (zh) * | 2021-01-04 | 2023-10-20 | 深圳万知达科技有限公司 | 基于Q-learning的紫外光无人机编队中邻居发现方法 |
CN113783628B (zh) * | 2021-09-13 | 2022-07-15 | 广东技术师范大学 | 一种基于峰值信息年龄的水声通信路由确定方法及系统 |
CN114786236B (zh) * | 2022-04-27 | 2024-05-31 | 曲阜师范大学 | 无线传感器网络启发式学习路由协议的方法及装置 |
CN115835065B (zh) * | 2022-11-17 | 2023-08-04 | 大连理工大学 | 一种水下多面体结构的无线光通信路由装置及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9191304B1 (en) * | 2013-08-12 | 2015-11-17 | The United States Of America As Represented By The Secretary Of The Navy | Reinforcement learning-based distributed network routing method utilizing integrated tracking and selective sweeping |
CN106411749B (zh) * | 2016-10-12 | 2019-07-30 | 国网江苏省电力公司苏州供电公司 | 一种基于q学习的用于软件定义网络的路径选择方法 |
-
2018
- 2018-05-24 CN CN201810513090.2A patent/CN108809443B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108809443A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108809443B (zh) | 一种基于多智能体强化学习的水下光通信网络路由方法 | |
Zhang et al. | A link-state based adaptive feedback routing for underwater acoustic sensor networks | |
Zhang et al. | Energy-efficient depth based probabilistic routing within 2-hop neighborhood for underwater sensor networks | |
CN105916183B (zh) | 基于链路质量和剩余能量的无线传感器网络路由选择方法 | |
Ashraf et al. | USPF: underwater shrewd packet flooding mechanism through surrogate holding time | |
Chen et al. | ACOA-AFSA fusion dynamic coded cooperation routing for different scale multi-hop underwater acoustic sensor networks | |
Jin et al. | Q-learning-based opportunistic routing with an on-site architecture in UASNs | |
Ayaz et al. | Reliable data deliveries using packet optimization in multi-hop underwater sensor networks | |
CN115022228B (zh) | 基于蚁群算法的声电协同网络的自适应路由系统及方法 | |
Liu et al. | Balance energy-efficient and real-time with reliable communication protocol for wireless sensor network | |
Wang et al. | Reinforcement learning-based opportunistic routing protocol using depth information for energy-efficient underwater wireless sensor networks | |
CN112188467A (zh) | 一种基于用户属性的终端发现方法 | |
Li et al. | An adaptive multi-zone geographic routing protocol for underwater acoustic sensor networks | |
CN113923743B (zh) | 电力地下管廊的路由选择方法、装置、终端及存储介质 | |
Chaudhary et al. | Internet of underwater things: challenges, routing protocols, and ML algorithms | |
CN104009916A (zh) | 基于社会属性转发的容迟网络节能路由方案 | |
Li et al. | An Environment‐Friendly Multipath Routing Protocol for Underwater Acoustic Sensor Network | |
Ragavi et al. | A Novel Hybridized Cluster‐Based Geographical Opportunistic Routing Protocol for Effective Data Routing in Underwater Wireless Sensor Networks | |
Su et al. | ACAR: an ant colony algorithm‐based routing protocol for underwater acoustic sensor network | |
Pavitra et al. | A Survival Study on Flooding Based Routing Protocols for Underwater Wireless Sensor Networks (UWSNs) | |
Prathiba et al. | A two phase energy-efficient routing protocol for underwater wireless sensor network to enhance data gathering | |
Kampli et al. | Markov model based dynamic chain routing protocol for grid WSN | |
Kampen et al. | MAC and Network Layer Solutions for Underwater Wireless Sensor Networks | |
CN113783628B (zh) | 一种基于峰值信息年龄的水声通信路由确定方法及系统 | |
Nassiri et al. | EEARP-an efficient and energy aware routing protocol for underwater wireless sensor networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |