CN108809443B

CN108809443B - 一种基于多智能体强化学习的水下光通信网络路由方法

Info

Publication number: CN108809443B
Application number: CN201810513090.2A
Authority: CN
Inventors: 胡晓娅; 李欣格; 郝小燕
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2020-02-21
Anticipated expiration: 2038-05-24
Also published as: CN108809443A

Abstract

本发明公开了一种基于多智能体强化学习的水下光通信网络路由方法，包括：在水下光通信网络中，各节点通过发送广播包，得到各节点的邻居节点，利用各节点的邻居节点初始化各节点的路由表信息；对水下光通信网络中有通信需求的节点发送数据包，通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值；利用奖赏值，通过分布式值函数计算并更新节点的Q值；采用ε‑greedy间接探索方法，选择Q值最大的节点作为下一跳节点，若下一跳节点为目的节点，则在下一跳节点转发数据包，确定最优路径。本发明主要用来确定水光网络数据转发的最优路径，从而节约能量，提高数据转发率，实现网络生命周期最大化。

Description

一种基于多智能体强化学习的水下光通信网络路由方法

技术领域

本发明属于水下光通信领域，更具体地，涉及一种基于多智能体强化学习的水下光通信网络路由方法。

背景技术

水下无线传感器网络对于海洋探索与开发十分重要，但是，由于海水介质的随机性和海洋环境条件的特殊性，尤其是潮汐，海浪，台风等恶劣条件，使得海洋无线信息传输面临严峻挑战。

一方面，水声通信是目前最为成熟的水下通信技术，几乎所有的路由协议都是基于水声通信进行设计。但是，水声通信受限的可用带宽，大传播时延等特性无法满足水下大量数据的实时传输需求，不仅造成水下路由数据传输时延大，同时也消耗了过多能量，缩短网络生命周期。水光通信具有高带宽，高传输速率，低迟延，低功耗等特性，有利于实现水下大数据实时通信。同时，考虑到水光通信传输范围有限，网络路由设计需基于通信节点密集分布的网络中，以短距离多跳方式实现。

另一方面，强化学习是一种通过学习环境信息，直接与环境交互，从而实现长期目标的计算方法。有不少基于强化学习算法的路由协议的研究工作被展开，解决水下声传感器网络的动态拓扑，能量受限以及长迟延问题，而针对水光网络的却几乎没有。目前水下光通信领域研究主要集中水下光信道模型，光信号传输的调制编码技术以及水下光通信的传输特性，在路由技术方面只有少量研究。现有的水光网络中由于动态拓扑变化引起数据链路中断，缩短了网络生命周期。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多智能体强化学习的水下光通信网络路由方法，由此解决现有的水光网络中由于动态拓扑变化引起数据链路中断，缩短了网络生命周期的技术问题。

为实现上述目的，本发明提供了一种基于多智能体强化学习的水下光通信网络路由方法，包括：

(1)在水下光通信网络中，各节点通过发送广播包，得到各节点的邻居节点，利用各节点的邻居节点初始化各节点的路由表信息；

(2)对水下光通信网络中有通信需求的节点发送数据包，通过ACK确认机制计算接收数据包的节点与发送数据包的节点间的奖赏值；

(3)利用奖赏值，通过分布式值函数计算并更新节点的Q值；

(4)采用ε-greedy间接探索方法，选择Q值最大的节点作为下一跳节点，若下一跳节点为目的节点，则在下一跳节点转发数据包，确定最优路径，否则，在下一跳节点转发数据包，然后执行步骤(2)。

进一步地，各节点的邻居节点为发送广播包的各节点的通信范围内收到广播包的节点。

进一步地，步骤(2)包括：

(2-1)判断水下光通信网络中是否有通信需求，若有，则对水下光通信网络中有通信需求的节点发送数据包，若没有，则等待并定期监测；

(2-2)通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息，若返回，则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息，利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值，并将该节点作为转发节点，若没有返回，则重新选择发送数据包的节点。

进一步地，奖赏值为：

其中，K_non-ACK＜0，W_E和W_L分别是接收数据包的节点的剩余能量和信号强度的权重因子，E和L_Q分别表示接收数据包的节点的剩余能量和信号强度的归一化值，r(a(s_j|s_i))为发送数据包的节点i在状态s_i下向接收数据包的节点j发送数据包a产生的奖赏值，s_j为接收数据包的节点的状态为。

进一步地，Q值为：

γ_i，j＝K_dis·CF_i，j

其中，α是学习速率，γ_i，j是发送数据包的节点i与接收数据包的节点j之间的折扣因子，γ_i，i′是发送数据包的节点i与其邻居节点i′之间的折扣因子，CF_i，j是发送数据包的节点i与接收数据包的节点j之间的连通因子，

表示发送数据包的节点i在t时刻的状态，

表示发送数据包的节点i在t+1时刻对应的奖赏值，ω(i，j)和ω(i，i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度，

表示发送数据包的节点i在t时刻采取的动作，K_dis是常数，I为发送数据包的节点i的邻居节点i′的集合，

为

中的最大值，

为中的最大值，

为发送数据包的节点i在t时刻

状态下采取动作时的Q值，

为发送数据包的节点i在t+1时刻

状态下采取动作

时的Q值，

为发送数据包的节点i的邻居节点i′在t时刻

状态下采取动作

时的Q值。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提出一种应用于水光网络，基于多智能体强化学习算法的路由方法，通过这种路径寻优的方式，可以提高数据传输的高效性和实时性，节约能量，增强网络动态拓扑的适应能力。由此解决现有的水光网络中由于动态拓扑变化引起数据链路中断，缩短了网络生命周期的技术问题。

(2)本发明利用强化学习算法提高节点对于网络拓扑变化的适应能力，每一个节点通过与邻居节点进行信息交互的方式来学习网络环境变化状况；本发明中每一个节点可以被认为是一个智能体，通过自主学习和信息通讯，考虑其剩余能量以及链路状态，选择最佳的转发节点，实现网络生命周期最大化。

(3)本发在进行Q值更新时，不仅考虑了发送节点自身的情况，同时引入所有邻居节点的状态信息，从而达到全局最优的效果，这相比于传统的Q值更新公式实现局部最优，有了很大的突破。针对水下光传感器网络节点移动造成链路易中断特性，本发明提出并设计动态折扣因子γ_i，j，其取决于节点间的连通因子CF_i，j，从而反映网络链路状态，提高动态网络节点学习精度和路由算法的鲁棒性。

附图说明

图1是本发明实施例提供的一种基于多智能体强化学习的水下光通信网络路由方法的流程图；

图2是本发明实施例提供的ACK确认机制的流程图；

图3是本发明实施例提供的节点Q值更新流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于多智能体强化学习的水下光通信网络路由方法，包括：

(3)利用奖赏值，通过分布式值函数计算并更新节点的Q值；

步骤(2)包括：

(2-2)如图2所示，通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息，若返回，则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息，利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值，并将该节点作为转发节点，若没有返回，则重新选择发送数据包的节点。

进一步地，奖赏值为：

进一步地，Q值为：

γ_i，j＝K_dis·CF_i，j

表示发送数据包的节点i在t时刻的状态，表示发送数据包的节点i在t+1时刻对应的奖赏值，ω(i，j)和ω(i，i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度，

为

中的最大值，

为中的最大值，

为发送数据包的节点i在t时刻

状态下采取动作

时的Q值，

为发送数据包的节点i在t+1时刻

状态下采取动作

时的Q值，

为发送数据包的节点i的邻居节点i′在t时刻状态下采取动作

时的Q值。

如图3所示，由于水下光网络拓扑结构高度变化，数据链路极易中断，因此路由选择过程应具有探索动态环境的能力以适应网络的动态变化。本发明采用采用ε-greedy间接探索方法，通过给每个可选择动作赋予一定的执行概率来完成对全部动作的尝试。以ε概率随机选择邻居节点转发，以1-ε概率选择Q值最大的节点进行转发。

本发明的路由协议的设计中包含了三种类型的packet：广播包，数据包和ACK确认包。不同结构的包通过包结构中的类型字段区分，同时利用包中不同的字段来更新自己的路由表信息，实现相邻节点间的信息共享。广播包包括：广播地址、类型1、源节点ID、值函数V、剩余能量和连通因子。数据包包括：下一跳节点ID、类型2、数据包序号、sink节点ID、TTL跳数限制、前一跳节点ID、前一跳节点值函数V、前一跳节点剩余能量、前一跳节点移动因子和上层数据。ACK确认包包括：目的节点ID、类型3、ACK确认、源节点ID、源节点值函数V、源节点剩余能量和源节点连通因子。

本发明主要用来是解决水下光通信无线传感器网络中数据传输的路由决策问题。根据水光网络中传感器节点的剩余能量、链路质量等信息，对网络进行不断的学习和训练，从而确定网络中下一跳路由转发节点，优化传输路径，适应网络环境变化。因此，基于多智能体强化学习的水光路由协议可以增强节点对于网络拓扑变化的适应能力，从而提高数据转发率，减少能量消耗，延长网络生命周期。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多智能体强化学习的水下光通信网络路由方法，其特征在于，包括：

(3)利用奖赏值，通过分布式值函数计算并更新节点的Q值；

(4)采用ε-greedy间接探索方法，选择Q值最大的节点作为下一跳节点，若下一跳节点为目的节点，则在下一跳节点转发数据包，确定最优路径，否则，在下一跳节点转发数据包，然后执行步骤(2)；

所述步骤(2)包括：

(2-2)通过ACK确认机制判断接收数据包的节点是否返回ACK确认信息，若返回，则根据ACK确认信息对应的ACK包中的接收数据包的节点的剩余能量和信号强度更新发送数据包的节点的路由表信息，利用更新后的节点的路由表信息计算接收数据包的节点与发送数据包的节点间的奖赏值，并将该节点作为转发节点，若没有返回，则重新选择发送数据包的节点；

所述Q值为：

γ_i,j＝K_dis·CF_i,j

其中，α是学习速率，γ_i,j是发送数据包的节点i与接收数据包的节点j之间的折扣因子，γ_i,i′是发送数据包的节点i与其邻居节点i′之间的折扣因子，CF_i,j是发送数据包的节点i与接收数据包的节点j之间的连通因子，

表示发送数据包的节点i在t时刻的状态，表示发送数据包的节点i在t+1时刻对应的奖赏值，ω(i,j)和ω(i,i′)分别用来描述接收数据包的节点j或者发送数据包的节点i的邻居节点i′对发送数据包的节点i的影响程度，

为

中的最大值，

为

中的最大值，

为发送数据包的节点i在t时刻

状态下采取动作时的Q值，

为发送数据包的节点i在t+1时刻状态下采取动作时的Q值，

为发送数据包的节点i的邻居节点i′在t时刻

状态下采取动作

时的Q值。

2.如权利要求1所述的一种基于多智能体强化学习的水下光通信网络路由方法，其特征在于，所述各节点的邻居节点为发送广播包的各节点的通信范围内收到广播包的节点。

3.如权利要求1所述的一种基于多智能体强化学习的水下光通信网络路由方法，其特征在于，所述奖赏值为：

其中，K_non-ACK＜0，W_E和W_L分别是接收数据包的节点的剩余能量和信号强度的权重因子，E和L_Q分别表示接收数据包的节点的剩余能量和信号强度的归一化值，r(a(s_j|s_i))为发送数据包的节点i在状态s_i下向接收数据包的节点j发送数据包a产生的奖赏值，s_j为接收数据包的节点的状态。