CN114938511B

CN114938511B - 水声传感网中基于强化学习的自适应定向邻居发现方法

Info

Publication number: CN114938511B
Application number: CN202210492636.7A
Authority: CN
Inventors: 江金芳; 王帅辉; 韩光洁
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2023-07-28
Anticipated expiration: 2042-05-07
Also published as: CN114938511A

Abstract

本发明公开了一种水声传感网中基于强化学习的自适应定向邻居发现方法，包括：S1构建水声传感网的网络模型；S2：设计水下传感器节点的波束扫描序列；S3：构建水下传感器节点的Q学习奖励函数；S4：采用Nash‑Q学习方法对整个邻居发现过程进行建模；S5：设置自适应波束扫描，将Nash‑Q学习输出的波束扫描序列作为新的波束扫描序列，重复执行步骤S2‑S5，直到邻居发现过程执行完毕。本发明采用确定性波束扫描方法设计扫描周期，利用节点上一发现周期在各个波束的邻居发现所获得的先验知识和节点三次握手过程获得的邻居推荐知识，通过Nash‑Q学习方法进行自适应设置，减少下一周期波束扫描序列设计的波束数，从而减少邻居发现的长延迟，加快整体算法的收敛。

Description

水声传感网中基于强化学习的自适应定向邻居发现方法

技术领域

本发明属于水声传感网定向邻居发现领域，具体一种水声传感网中基于强化学习的自适应定向邻居发现方法。

背景技术

水声传感网中节点的部署没有任何预先分配的全局网络信息，因网络需要首先执行邻居发现过程来感知网络的全局拓扑。但是随着邻居发现过程的进行，节点的每个波束逐渐发现其邻居节点，当某个波束内的邻居节点被完全发现时，节点再去考虑此波束会对整个邻居发现过程产生一定的影响。比如，当此波束内没有邻居节点可供发现时，仍然对其进行波束扫描序列的规划，就会造成时隙的浪费，也会导致整个预期发现周期过长，延长邻居发现的时间。

发明内容

为了解决这个难题，本发明提供了一种水声传感网中基于强化学习的自适应定向邻居发现方法，采用确定性波束扫描方法设计扫描周期，利用节点上一发现周期在各个波束的邻居发现所获得的先验知识和节点三次握手过程获得的邻居推荐知识，通过Nash-Q学习方法进行自适应设置，减少下一周期波束扫描序列设计的波束数，从而减少邻居发现的长延迟，加快整体算法的收敛。

实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种水声传感网中基于强化学习的自适应定向邻居发现方法，包括以下步骤：

S1构建水声传感网的网络模型，所述水声传感网包括若干水下传感器节点与水面基站，所述水下传感器节点随机分布在水下区域内，从周围环境内收集感知到的数据，并通过多跳传输将收集到的数据传输到水面基站；

S2：设计水下传感器节点的波束扫描序列，根据需要扫描的波束序列采用连续环形仲裁系统设计波束扫描序列，从而保证节点间波束的对准；

S3：构建水下传感器节点的Q学习奖励函数，构建水下传感器节点先验知识的奖励函数以及邻居推荐的奖励函数，根据水下传感器节点所获得的先验知识和邻居推荐方法自适应节点扫描波束的选取；

S4：采用Nash-Q学习方法对整个邻居发现过程进行建模，将水下传感器节点的单一波束建模为一个单智能体，则每个水下传感器节点的多波束建模为一个多智能体，采用Nash-Q学习方法，联合奖励函数完成波束选择的自适应策略，从而最小化波束的选择；

S5：设置自适应波束扫描，将Nash-Q学习输出的波束扫描序列作为新的波束扫描序列，重复执行步骤S2-S5，直到邻居发现过程执行完毕。

优选地，所述步骤S1中的水下传感器节点采用正十二面体模型构建波束模型，每个水下传感器节点均配备有定向换能器和矢量水听器，且通过波束成形方法构建十二个等大的波束，每个波束对应正十二面体的一个面，从而实现水声传感器节点的定向收发。

优选地，每个所述水下传感器节点均配备有压力传感器，用于获取深度信息，且每个所述水下传感器节点具有双波束，双波束采用两种不同的收发模式，包括发送波束与接收波束，且发送波束与接收波束不同时扫描相同波束。

优选地，所述步骤S2中水下传感器节点的波束扫描序列的具体设计方法如下：

采用连续环形仲裁系统设计波束扫描序列，假设水下传感器节点需要扫描n个波束，则时隙矩阵大小为h*w，如公式(1)所示：

其中，

对于每个波束来说，随机不重复选取某一列c，1≤c≤h，再从此列选取某一行r，1≤r≤w；从r行的c列元素向后选取个元素，以此作为波束的扫描时隙从而确保邻居发现的确定性。

优选地，所述步骤S3中水下传感器节点先验知识的奖励函数如下所示：

式中，c(i)表示水下传感器节点在波束i内是否发现邻居节点；

若c(i)为1，表示水下传感器节点在当前波束的当前轮发现了邻居节点，则认为该水下传感器节点当前波束内仍可能存在邻居节点，在下一轮继续扫描当前波束；若c(i)为0，表示水下传感器节点在当前波束的当前轮未发现邻居节点，则认为该水下传感器节点在当前波束内并不存在邻居节点，则下一轮可以忽略当前波束的扫描过程。

优选地，所述步骤S3中水下传感器节点邻居推荐的具体方法如下：

S3-1：邻居节点在收到水下传感器节点的信标数据包后，根据自身的波束标号，将与自身波束所处正向波束内的所有邻居节点的信息放入ACK数据包内，回复给水下传感器节点,所述ACK数据包包括确认消息和被推荐节点的信息，所述被推荐节点的信息包括节点ID、所处波束、角度以及距离；

S3-2：水下传感器节点在收到ACK数据包之后，获取被推荐节点的信息，并通过比较自身的邻居表，找出其中未发现的被推荐节点；

S3-3：通过基于定向天线测距的自适应分布式定位方法，判断被推荐节点是否为水下传感器的邻居节点，构建邻居推荐的奖励函数如下所示：

d(i)表示水下传感器节点在波束i内是否存在未发现的邻居节点；

若d(i)为1，表示波束内存在未发现的邻居节点，则找出该被推荐节点所处水下传感器节点的波束标号，并在下一个波束扫描序列设计时进行考虑，根据邻居推荐来调整波束扫描序列，使该被推荐节点的波束处于波束扫描序列的最前位置，进行循环移位。

优选地，所述步骤S3中，邻居节点在执行推荐过程时，只推荐自身相对于水下传感器节点正向波束范围内的邻居节点。

优选地，所述步骤S4中水下传感器节点波束选择的自适应策略的具体构建如下：

S4-1：将水下传感器节点的单一波束建模为一个单智能体，则每个水下传感器节点的多波束建模为一个多智能体；

S4-2：定义多智能体的联合状态空间为：

s(t)＝{s₁(t),…,s_n(t)} (4)；

其中，s_i(t)表示第t个扫描周期结束后智能体i的状态，且1≤i≤n；

S4-3：定义动作a_i为智能体i下一周期的扫描状态，且扫描状态包括扫描与不扫描两个动作，则根据当前联合状态和动作选择策略即可确定联合动作空间如下所示:

其中，表示联合状态下智能体i在第t个周期采取的动作，且1≤i≤n；

S4-4：构建奖励函数r作为智能体i选定动作成功或失败的反馈，则奖励函数r为：

r(i)＝d(i)+c(i) (6)；

智能体i根据公式(6)获得自身的奖励函数；

S4-5：构建策略π：根据奖励函数r来判断是否选择当前智能体作为下一周期的扫描波束；

S4-6：定义Nash-Q函数为智能体i在下一阶段遵循Nash均衡策略时获得期望折扣回报总和，表达式如下：

式中，为智能体i遵循均衡策略从联合状态s(t)开始累计折扣回报期望；p(s(t+1)|s(t),a_1,s(t),…,a_n,s(t))表示多智能体在状态s(t)采用动作a_1,s(t),…,a_n,s(t)后转移到状态s(t+1)的概率；/>为智能体i的最佳策略；π_i为智能体的当前策略；E_i为智能体i可能采取策略的集合；γ为折扣因子；

随后根据公式(8)更新Q值：

式中：是智能体i在状态s(t)下的收益；π(s(t))＝argmax_a Q^π(s(t),a)，α为学习率；

在每一个预期扫描周期，水下传感器节点通过学习先验知识以及邻居推荐所获得的知识，采用Nash-Q学习方法获得下一周期最优的扫描波束序列。

有益效果：本发明提供了一种水声传感网中基于强化学习的自适应定向邻居发现方法，具有如下优点：

1、采用强化学习方法来进行自适应考虑，提高了邻居发现的有效性，同时减少了邻居发现的延迟。

2、对节点在各波束内的先验知识进行考虑，对下一周期的波束进行选择优化，加快了节点波束的扫描。

3、采用邻居推荐的方式来推荐未知邻居节点，增加了节点间的协作，提高了邻居发现的效率。

4、采用Nash-Q学习方法，将节点的多波束建模为多智能体，从而求出最优的波束序列，增加了自适应算法的有效性

附图说明

图1为实施例1的水声传感网的网络结构图；

图2为实施例1的水声传感器节点的模型图；

图3为实施例1中连续环形仲裁系统(c-torusquorum)中单波束的时隙选择示意图；

图4为实施例1中的邻居推荐示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

实施例1：

一种水声传感网中基于强化学习的自适应邻居发现方法，其步骤包括：

S1构建水声传感网的网络模型

如图1所示，水声传感网的网络节点包括若干水下传感器节点与水面基站，水下传感器节点随机分布在水下区域内，从周围环境内收集感知到的数据，并通过多跳传输将收集到的数据传输到水面基站。

如图2所示，水下传感器节点采用正十二面体模型构建波束模型，每个节点均配备有定向换能器和矢量水听器，且通过波束成形方法构建十二个等大的波束，每个波束对应正十二面体的一个面，从而实现水声传感器节点的定向收发；此外，每个所述水下传感器节点均配备有压力传感器，用于获取深度信息。且每个所述水下传感器节点具有双波束，双波束采用两种不同的收发模式，包括发送波束与接收波束，且发送波束与接收波束不同时扫描相同波束，本发明中，波束切换时间和模式切换时间均忽略不计，且考虑严格时间同步。

S2：设计水下传感器节点的波束扫描序列，根据需要扫描的波束序列采用连续环形仲裁系统(c-torus quorum方法)设计波束扫描序列，从而保证节点间波束的对准；

假设水下传感器节点需要扫描n个波束，则时隙矩阵大小为h*w，如公式(1)所示：

其中，

对于每个波束来说，随机不重复选取某一列c，1≤c≤h，再从此列选取某一行r，1≤r≤w；从r行的c列元素向后选取个元素，以此作为波束的扫描时隙从而确保邻居发现的确定性。假设水下传感器节点具有6个波束，则单个波束的扫描时隙选择如图3所示。

S3：构建水下传感器节点的Q学习奖励函数，根据水下传感器节点在上轮次扫描过程中发现邻居节点的过程以及所进行的数据包传输，可以获得水下传感器节点在每个波束的先验知识以及所获得的邻居推荐知识，根据水下传感器节点所获得的先验知识和邻居推荐的知识来自适应节点扫描波束的选取，从而加快算法的整体收敛；

先验知识奖励函数：

根据水下传感器节点在上次轮扫描过程中所获得的先验知识，可以获得水下传感器节点在每个波束的先验知识。

先验知识的奖励函数设置如下：

c(i)表示水下传感器节点在波束i内是否发现邻居节点。

若c(i)为1，表示水下传感器节点在当前波束的当前轮发现了邻居节点，则认为该水下传感器节点当前波束内仍可能存在邻居节点，在下一轮继续扫描当前波束；

若c(i)为0，表示水下传感器节点在当前波束的当前轮未发现邻居节点，则认为该水下传感器节点在当前波束内并不存在邻居节点，则下一轮可以忽略当前波束的扫描过程。

通过上述判断，可以减少波束的扫描数，从而使预期发现周期时隙数有一定数量的减少，加快算法的收敛过程。

邻居推荐奖励函数：

根据节点间的协作来加快邻居发现的进程，即邻居推荐。邻居推荐的利用可以加快节点发现未知邻居节点的进程，因此，考虑利用邻居推荐的知识来进行波束的序列的重新设计，从而能够加快算法的整体收敛。

水下传感器节点通过三次握手过程中的信息包可以获得相关邻居推荐的信息，具体如下：

本发明中，当水下传感器节点发现新邻居节点时，邻居节点回复ACK包完成节点间的握手过程，其中，所述ACK包内包含满足条件的自身的邻居节点的信息实现邻居推荐，通过这种邻居推荐，可以帮助水下传感器节点知晓其周围可能存在的未发现的邻居节点，更快地执行邻居发现的过程。

在执行推荐过程时，邻居节点只推荐自身相对于被推荐节点正向波束范围内的邻居，不推荐负向波束内的邻居，其中，正向波束是与当前波束相邻的波束；负向波束是指与当前波束不相邻的波束,当前波束指传感器节点所处的邻居节点波束。由水下传感器节点间的空间位置关系可知，负向波束的节点与其构成邻居关系的可能性不大。

如图4为邻居推荐示意图：节点B是节点A的邻居节点，位于节点A标号为3的波束范围内。因此在执行邻居推荐时，将节点A与波束3同向的波束内的邻居，即推荐正向波束(1，2，3，4，8，9)范围内的邻居；而不去推荐反向波束(5，6，7，10，11，12)范围内的邻居，从而可以进一步约束和获取精准邻居推荐的条件，同时减少数据包信息的大小和成本的开销。

S4:采用Nash-Q学习方法对整个邻居发现过程进行建模，

S4-1：将水下传感器节点的单一波束建模为一个单智能体，所以对于每个水下传感器节点的波束选择可以建模为一个多智能体，其目标是选择最优的扫描波束序列以及相应的波束数。利用Nash-Q学习方法，通过设计合适的奖励函数来完成波束选择的决策，从而最小化波束的选择。通过自适应波束的调整，减少quorum序列设计所需要考虑的波束数，从而减少预期发现周期，加快算法的整体收敛。

S4-2：定义多智能体的联合状态空间为：

s(t)＝{s₁(t),…,s_n(t)} (4)；

S4-4：构建奖励函数r作为波束i选定动作成功或失败的反馈，在当前周期在波束内发现节点或根据邻居推荐存在未发现节点，为正奖励，未发现节点，为负奖励，则奖励函数r为：

r(i)＝d(i)+c(i) (6)；

智能体i根据上述公式获得自身的奖励函数。

S4-5：构建策略π：智能体i(波束)确定基于当前状态的下一个最佳动作，即在下一周期是否扫描；根据奖励函数r来判断是否选择当前智能体作为下一周期的扫描波束；

S4-6：多智能体强化学习依赖博弈Nash均衡结果，在Nash均衡中每个智能体的策略对于其他智能体都是最佳反应。在联合状态s(t)下有：

为智能体i遵循均衡策略从联合状态s(t)开始累计折扣回报期望；/>为智能体i的最佳策略；π_i为智能体的当前策略；E_i为智能体i可能采取策略的集合；

Nash-Q学习方法的第一步是假设t＝0处的随机Q值，在第t个周期，智能体i识别其当前状态，并采取相应动作以获得正奖励，然后观察自己的奖励、其他智能体采取的行动和下一个状态s(t+1)，然后计算阶段博弈的Nash均衡然后采用时间差分算法，随后根据公式(8)更新Q值：

其中：是智能体i在状态s(t)下的收益；π(s(t))＝arg max_a Q^π(s(t),a)；α：学习率；γ：折扣因子。

在每一个预期发现周期，节点通过学习先验知识以及邻居推荐所获得的知识，采用Nash-Q学习算法获得下一周期最优的扫描波束序列。

S5：设置自适应波束扫描，将Nash-Q学习输出的波束扫描序列作为新的波束扫描序列，重复执行步骤S2-S5，直到邻居发现过程执行完毕。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的两种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S1中的水下传感器节点采用正十二面体模型构建波束模型，每个水下传感器节点均配备有定向换能器和矢量水听器，且通过波束成形方法构建十二个等大的波束，每个波束对应正十二面体的一个面，从而实现水声传感器节点的定向收发。

3.根据权利要求2所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，每个所述水下传感器节点均配备有压力传感器，用于获取深度信息，且每个所述水下传感器节点具有双波束，双波束采用两种不同的收发模式，包括发送波束与接收波束，且发送波束与接收波束不同时扫描相同波束。

4.根据权利要求1或3所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S2中水下传感器节点的波束扫描序列的具体设计方法如下：

其中，

5.根据权利要求4所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S3中水下传感器节点先验知识的奖励函数如下所示：

6.根据权利要求5所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S3中水下传感器节点邻居推荐的具体方法如下：

7.根据权利要求6所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S3中，邻居节点在执行推荐过程时，只推荐自身相对于水下传感器节点正向波束范围内的邻居节点。

8.根据权利要求7所述的水声传感网中基于强化学习的自适应定向邻居发现方法，其特征在于，所述步骤S4中水下传感器节点波束选择的自适应策略的具体构建如下：

S4-2：定义多智能体的联合状态空间为：

s(t)＝{s₁(t),…,s_n(t)} (4)；

r(i)＝d(i)+c(i) (6)；

智能体i根据公式(6)获得自身的奖励函数；

随后根据公式(8)更新Q值：

式中：是智能体i在状态s(t)下的收益；π(s(t))＝arg max_a Q^π(s(t),a)，α为学习率；