CN112469103A

CN112469103A - 基于强化学习Sarsa算法的水声协作通信路由方法

Info

Publication number: CN112469103A
Application number: CN202011348226.2A
Authority: CN
Inventors: 陈友淦; 林姗; 朱建英; 陶毅; 张小康; 许肖梅
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112469103B

Abstract

基于强化学习Sarsa算法的水声协作通信路由方法，涉及水声网络。兼顾减少水声数据传输能耗与路由选择算法本身复杂度两方面，根据水声通信能耗模型，利用强化学习Sarsa算法为水声多跳协作通信网络提供路由选择；在同时存在中继节点和协作节点的复杂情况下，在海洋环境动态变化条件下，可快速进行水声多跳协作通信网络路由选择。将强化学习算法与协作通信相结合，可以有效降低运算复杂度，增强路由选择稳定性，提高传输效率，从而得到一条使系统传输总能耗最低的协作路由线路，有效降低水声数据传输系统的能量消耗，延长水声通信网络生命周期。

Description

基于强化学习Sarsa算法的水声协作通信路由方法

技术领域

本发明涉及水声网络，尤其是涉及一种基于强化学习Sarsa算法的水声协作通信路由方法。

背景技术

地球是由71％的水和29％的陆地组成的“水球”，生物的起源与海洋密不可分，人们一直对神秘广阔的海洋抱以好奇心。从古至今，无数科研工作者专注于探索这个神秘的世界，水声通信网络是探索海洋过程中必不可少的技术支撑。同时，水声通信技术的发展也对海洋资源开发和海上军事力量发展起着重要作用。

由于受到复杂的海洋环境的制约，水下通信的实现比陆地通信更加困难，声波是水下进行中远程数据传输的最好媒介。水声通信网络技术需要考虑如何在多变恶劣的海洋环境中，以低廉的成本，用有限的能量，降低窄带宽限制、强多径效应、大时变效应等因素对水声数据传输的不利影响，高效完成水下通信任务。Cecilia等(Carbonelli C,MitraU.Cooperative Multihop Communication for Underwater Acoustic Networks[C].inthe Proceedings of the 1st ACM International Workshop on Underwater Networks,2006:97-100.)针对线性和网格拓扑结构研究得出结论，在远距离和高工作频率的水下通信中，多跳协作通信比点对点直接传输有着更显著的性能增益。

在多跳水声通信网络中，引入水声协作通信技术，考虑水下节点的发射功率、传输距离等因素，源节点S和目的节点D之间的每一个节点都可能成为中继节点或协作节点；因此，需采用合适的算法选出最优的中继节点、协作节点，实现最佳路由，以减少传输能耗。

强化学习中的Sarsa算法难度小，运算速度快，前期训练量小，同时可以使智能体在与环境的交互中自主学习，适合在复杂多变的水声通信网络中使用。Sutton等(Sutton RS,Barto AG.Reinforcement Learning:An Introduction[M].Cambridge:The MIT Press,2014:154-161.)通过算法仿真说明Sarsa算法比其类似算法Q-learning算法拥有更好的在线学习效果，拥有更高的平均收益。在水声通信网络中，当前研究大都在无协作节点网络中进行算法优化，如基于深度的路由协议DBR和基于矢量的路由协议VBF，虽有文献开始探究人工鱼群算法、蚁群算法等传统智能算法在水声通信网络中的应用，但目前尚未有将强化学习Sarsa算法应用于水声多跳协作通信网络路由选择的研究。

发明内容

本发明的目的在于针对水下节点能量供应受限问题，提供基于强化学习Sarsa算法的水声协作通信路由方法。在同时存在中继节点R和协作节点C的复杂情况下，海洋环境动态变化条件下，可快速进行水声多跳协作通信网络路由选择，以提高水声通信网络能量利用效率，延长水声通信网络生命周期。

本发明包括以下步骤：

1)参数初始化：

考虑一个由随机布置的n个水下节点组成的水声通信网络，包括源节点S、中继节点R、协作节点C和目的节点D；设置状态动作空间X×A，状态空间X表示所有水下节点的位置，动作空间A表示水声数据在两个节点间进行传输；具体地，设x表示节点m的位置，a表示水声数据在从节点m向节点n传输，则用Q(x,a)表示在x状态下采取a动作的所对应的Q值；方便起见，x用节点m的位置序号表示，a用节点n的位置序号表示；初始迭代数i＝1，最大迭代数为k，初始Q值Q(x,a)＝0，智能体初始状态x_i＝1表示源节点S所在的位置序号；

2)设计奖励机制：

计算各节点间的距离，根据节点m和节点n之间的距离d_m,n及节点间的最优工作频率f_opt，得到节点m向节点n传输水声数据的动作a所对应的奖励函数r(x,a)＝-d_x,a；节点m和节点n(以下简称“两节点”)之间可直接传输成功的距离阈值为d_hop，两节点间需要协作传输的距离阈值为d_cop，即当d_m,n<d_hop时节点间可直接传输，当d_hop<d_m,n<d_cop时两节点间需要协作节点协助才能成功传输，当d_m,n>d_cop时两节点即使有协作节点协助也无法成功传输；当a＝x时，表示节点m和节点n为同一节点位置序号，为极端情况，为极端情况，节点陷于同一节点，则设r(x,a)为极小值，建议小于-1000*|r_min(x,a)|，以避免此类情况出现；为确保每一跳传输均为水声协作通信，当d_m,n>d_cop或d_m,n<d_hop时，亦设r(x,a)为极小值，建议小于-1000*|r_min(x,a)|；

3)根据ε-greedy法则，以探索率1-ε概率选择动作a，智能体采取动作a，获得后续状态x’和对应的奖励函数r(x,a)；

4)在状态x’下，以探索率1-ε概率选择动作a’；

5)计算智能体的Q(x,a)：

按照Q(x,a)←Q(x,a)+α[r(x,a)+γQ(x’,a’)-Q(x,a)]计算更新，其中α是学习率，决定这次的误差有多少是要被学习的，取值为[0,1]，γ表示对未来奖励的衰减因子，取值为[0,1]；

6)将下一个状态赋给当前状态x←x’，将下一个动作赋给当前动作a←a’；

7)i＝i+1，若达到最大迭代次数k，则算法结束，否则重复执行步骤2)至步骤6)；

8)选择最佳主传输路由：

根据最大Q值找到相应的状态-动作对，从源节点S出发，根据找出的状态-动作对到达目的节点D；在寻找最佳主传输路由过程中，将走过的节点在Q表里对应的状态下的Q值全部设为极小值，设置方式同步骤2)；

9)计算最小能耗所对应的协作节点，得出最优协作传输路由，结束程序。

在步骤9)中，针对第j跳水声数据传输，智能体在计算水声数据从节点j传输到节点j+1的过程中，将根据节点间的距离d_j,j+1及第j跳的节点间最优工作频率f_j,opt，计算出两节点间进行水声数据传输的能量消耗U(d_j,j+1)，以水声通信网络整体能量消耗为代价函数寻找最优协作路由，计算出该跳的能量消耗代价函数L_(j,j+1)；因存在协作传输，故节点采用半功率发送，计算出各种可能的协作方案的能量消耗L_(j,j+1),Cj，找出能量消耗最小的方案，确定为最优协作节点C_j；然后，智能体继续下一跳，直至到达目的节点D，终止循环，并计算该路径的总能量消耗代价函数L，画出协作路由选择图；适用于水声多跳协作通信网络的Sarsa算法的代价函数如下：

其中，L_(j,j+1)为表示智能体在第j跳情况下将水声数据传输从节点j传输给节点j+1的能耗，即智能体在状态j情况下选择动作j+1转变为j+1状态的能耗；总能量消耗代价函数L等于每跳路径的能量消耗代价函数相加。

本发明以减少水声数据传输能耗为目标，根据水声数据传输能耗模型，结合水声协作通信机制，利用强化学习Sarsa算法为水声多跳协作通信网络进行快速的路由选择，从而得到一条使系统传输总能耗最低的协作路由线路，有效降低水声数据传输系统的能量消耗，延长水声通信网络的生命周期。

本发明具有以下突出优点：

1)在水声多跳通信网络中，引入水声协作通信策略，网络中同时存在中继节点和协作节点，增大中继节点下一跳选择空间，提高路由选择成功性和传输效率，利用能在海洋环境中自主学习的强化学习Sarsa算法选择路由，可使路由寻找过程更趋向于全局最优解，找寻更低能耗的路由，延长水声通信网络的使用周期；

2)水声协作通信网络中同时存在中继节点和协作节点，在复杂多变海洋信道环境中，水下节点位置可能随洋流飘动，网络拓扑结构更为复杂，利用强化学习Sarsa算法进行路由选择，具有快速运算的优点，拥有更强的适应能力。

附图说明

图1为水下传感器节点网络拓扑图。(图中网络节点序号分别为1～50，其中S为源节点，D为目的节点)。

图2为每一跳的路由选择示意图。

图3为基于强化学习Sarsa算法的水声多跳协作通信网络的最优路径图。

图4为基于强化学习Sarsa算法的水声多跳协作通信网络的能量消耗随迭代次数变化图。

图5为基于强化学习Sarsa算法的水声多跳无协作通信网络的最优路径图。

图6为基于强化学习Sarsa算法的水声多跳无协作通信网络的能量消耗随迭代次数变化图。

具体实施方式

下面结合附图和具体实施例对本发明做详细描述。

本发明根据水声通信能量消耗模型，结合协作通信技术，在水声多跳协作通信网络中利用强化学习Sarsa算法迅速找到能量消耗最小的协作路由，包括以下步骤：

1)如图1，设计一个水声通信网络拓扑，随机布置50个节点，节点1为源节点S，节点50为目标节点D；

2)参数初始化：最大迭代数为k＝10000，当前迭代数i＝1，初始Q值Q(x,a)＝0，智能体初始状态x_i＝1，学习率α＝1，折扣因子γ＝0.8，探索率

3)设计奖励机制：计算各节点间的距离根据节点距离d_m,n及节点间的最优工作频率f_opt，得到奖励r(x,a)＝-d_x,a，两节点间可直接传输成功的距离阈值为d_hop＝2.5km，两节点间需要协作传输的距离阈值为d_cop＝4km，即当d_m,n<d_hop时，节点间可直接传输，当d_hop<d_m,n<d_cop时，两节点间需要协作节点协助才能成功传输，当d_m,n>d_cop时，两节点即使有协作节点协助也无法成功传输；同时，当a＝x时，令r(x,a)＝-10000，当d_m,n>d_cop或d_m,n<d_hop时，令r(x,a)＝-10000；

4)根据ε-greedy法则，以探索率1-ε概率选择动作a，智能体采取动作a，获得后续状态x’和立即奖赏r(x,a)；

5)在状态x’下，以探索率1-ε概率选择动作a’；

6)计算智能体的Q(x,a)：按照Q(x,a)←Q(x,a)+α[r(x,a)+γQ(x’,a’)-Q(x,a)]进行更新计算；

7)将下一个状态赋给当前状态，将下一个动作赋给当前动作；

8)i＝i+1，若达到最大迭代次数k，则算法结束，否则重复执行步骤3)至步骤7)；

9)选择最佳主传输路由：

根据最大Q值找到相应的状态-动作对，从源节点S出发，根据找出的状态-动作对到达目的节点D；在寻找最佳主传输路由过程中，将走过的节点在Q表里对应的状态下的Q值全部设为-10000；

10)计算最小能耗的协作节点，得出最优协作路由，结束程序。

在步骤10)中，针对第j跳水声数据传输，智能体在计算水声数据从节点j传输到节点j+1的过程中，将根据节点间的距离d_j,j+1及第j跳的节点间最优工作频率f_j,opt，计算出两节点间进行水声数据传输的能量消耗U(d_j,j+1)，以水声通信网络整体能量消耗为代价函数寻找最优协作路由，计算出该跳的能量消耗代价函数L_(j,j+1)；因存在协作传输，故节点采用半功率发送，计算出各种可能的协作方案的能量消耗L_(j,j+1),Cj，找出能量消耗最小的方案，确定为最优协作节点C_j；然后，智能体继续下一跳，直至到达目的节点D，终止循环，并计算该路径的总能量消耗代价函数L，画出协作路由选择图；适用于水声多跳协作通信网络的Sarsa算法的代价函数如下：

在式(1)中，U(d_j,j+1)表示通信距离为d_j,j+1条件下的水声通信能耗模型，具体为：

其中，Θ(f)是吸收系数，单位为dB/km。根据不同的传播条件，κ的取值不同：κ＝1适用于表面声道或深海声道，柱面波传播；κ＝1.5适用于计及海底声吸收时的浅海声传播，柱面波传播；κ＝2适用于开阔水域，球面波传播。f为频率，单位为kHz。f的选择根据最优工作频率与工作距离的经验公式：

如图2所示，想要使用水声协作通信策略，两节点距离需满足d_hop<d_m,n<d_cop的要求。本实施例中，假设d_hop＝2.5km，d_cop＝4km，即当两节点的距离满足大于2.5km且小于4km要求时，可以进行协作通信。若节点在2.5km范围内(例如节点1)，节点无需借用协作通信的手段就可直接接收到来自源节点S广播的信息；若节点在4km范围外(例如节点5)，则无论是直接传输还是协作传输，都无法接收到节点S的信息；只有在2.5km至4km范围内的节点2、3、4才可以使用协作通信的方式。节点2、3、4若都满足成为协作节点的条件，则就需要根据代价函数计算出三个节点成为协作节点时的路由能耗，最终选择其中能耗最低的情况为协作节点。

下面对本发明所述实施例进行计算机仿真验证。

如图1所示，随机布置水下传感器节点网络拓扑，总计50个节点，节点S为源节点，节点D为目标节点，节点布置的横坐标区间为[0,14]，纵坐标区间为[0,5]，单位km。

本实施例中，假设应用场景为浅海的水声数据传输，声波以柱面波形式传播，布点考虑需满足前文提及的距离要求。当节点距离小于2.5km时，节点可以利用直接路由的方式直接传输，无需协作；当节点距离大于4km时，无论是否利用协作通信的方式，节点都接收不到数据，传输失败；当节点距离在2.5km到4km间时，节点可以利用协作通信的方式以降低能耗。若布点时，节点距离大于4km，则无法满足传输条件，需要重新布点。

以下是对于本发明所述方法仿真结果的分析：

仿真软件为MATLAB R2016a。

1)有协作策略分析：

图3为本案例中基于强化学习Sarsa算法的水声多跳协作通信网络的最优路由选择结果，仿真运行时间为0.82s，对应的能耗为3.97×10⁶，其最优主路为：

S→11→20→30→41→D。

协作节点依次为18，27，39，48。

其中，节点18为从节点11到节点20的最优协作节点，节点27为从节点20到节点30的最优协作节点，节点39为从节点30到节点41的最优协作节点，节点48为从节点41到节点50的最优协作节点。图4为本实施例中基于强化学习Sarsa算法的水声多跳协作通信网络的能量消耗随迭代次数变化图。如图4所示，智能体一开始探寻时能耗波动较大，随着迭代次数的增加，算法很快向全局最优解靠近，能耗趋于减小，算法近似收敛至最优解附近，曲线小幅度波动。

2)无协作策略分析：

为对比引入协作策略的能耗优越性，在相同条件下，对强化学习Sarsa算法进行仿真，如图5所示，为本案例中基于Sarsa算法的水声多跳无协作通信网络的最优路由选择结果，仿真运行时间为1.9s，对应的能耗为6.50×10⁶，其最优路由为：

S→1→4→9→13→16→17→18→19→21→27→31→34→37→38→40→42→D。

由于没有协作节点的帮助，节点之间的传输距离需小于2.5km，因此智能体需要更多的跳数从源节点S传至目标节点D，消耗更多能量。显然，采取协作策略可以减少智能体传输所需跳数，降低系统整体的传输能耗。

如图6为基于强化学习Sarsa算法的水声多跳无协作通信网络的能量消耗随迭代次数变化图，整体趋势与协作时相同，但近似收敛时的能耗要明显高于协作传输时的能耗，近似收敛于6.00×10⁶附近。两次仿真虽都基于强化学习Sarsa算法的路由选择，但水声多跳协作通信网络路由选择算法优于无协作网络。

表1给出了为水声多跳通信网络路由选择中应用强化学习Sarsa算法与蚁群算法的性能对比。

表1

由表1可见，强化学习Sarsa算法和蚁群算法所选路由对应的能耗基本相同，差异不大，均可满足实用需求；但是，随着节点数目的增加，强化学习Sarsa算法拥有远远小于蚁群算法的运算耗时，能更加快速完成地路由选择。因此，在多跳水声通信网络路由选择中，综合考虑运算难度和运算耗时，将强化学习Sarsa算法结合协作通信机制，可以满足稳定性、快速运算和低能耗的路由选择条件。

通过两种仿真方案的对比可见，将强化学习Sarsa算法应用于水声多跳协作通信网络中能比无协作情况明显降低传输能耗，提高传输效率；而无论是否引入协作策略，Sarsa算法都能够十分快速地找到全局最优解，选择低能耗路由。

本发明根据水声通信能耗模型，结合水声协作通信技术，利用强化学习Sarsa算法为水声多跳协作通信网络提供路由选择，智能体在复杂多变的海洋环境中自学习，得到一条使系统传输总能耗最低的协作路由，该路由可有效降低水声数据传输系统的能量消耗，延长水声通信网络的生命周期。

Claims

1.基于强化学习Sarsa算法的水声协作通信路由方法，其特征在于包括以下步骤：

1)参数初始化：

考虑一个由随机布置的n个水下节点组成的水声通信网络，包括源节点S、中继节点R、协作节点C和目的节点D；设置状态动作空间X×A，状态空间X表示所有水下节点的位置，动作空间A表示水声数据在两个节点间进行传输；具体地，设x表示节点m的位置，a表示水声数据在从节点m向节点n传输，则用Q(x,a)表示在x状态下采取a动作的所对应的Q值；方便起见，x用节点m的位置序号表示，a用节点n的位置序号表示；初始迭代数i＝0，最大迭代数为k，初始Q值Q(x,a)＝0，智能体初始状态x_i＝1表示源节点S所在的位置序号；

2)设计奖励机制：

计算各节点间的距离，根据节点m和节点n之间的距离d_m,n及节点间的最优工作频率f_opt，得到节点m向节点n传输水声数据的动作a所对应的奖励函数r(x,a)＝-d_x,a；点m和节点n(以下简称“两节点”)之间可直接传输成功的距离阈值为d_hop，两节点间需要协作传输的距离阈值为d_cop，即当d_m,n<d_hop时节点间可直接传输，当d_hop<d_m,n<d_cop时两节点间需要协作节点协助才能成功传输，当d_m,n>d_cop时两节点即使有协作节点协助也无法成功传输；当a＝x时，表示节点m和节点n为同一节点位置序号，为极端情况，此时节点陷于同一节点，则设r(x,a)为极小值，建议小于-1000*|r_min(x,a)|，以避免此类情况出现；为确保每一跳传输均为水声协作通信，当d_m,n>d_cop或d_m,n<d_hop时，亦设r(x,a)为极小值，建议小于-1000*|r_min(x,a)|；

3)根据ε-greedy法则，以探索率1-ε概率选择动作a，智能体采取动作a，获得后续状态和对应的奖励函数r(x,a)；

4)在状态x’下，以探索率1-ε概率选择动作a’；

5)计算智能体的Q(x,a)：

8)选择最佳主传输路由：

2.如权利要求1所述基于强化学习Sarsa算法的水声协作通信路由方法，其特征在于在步骤9)中，所述得到最优协作路由的具体方法为：针对第j跳水声数据传输，智能体在计算水声数据从节点j传输到节点j+1的过程中，将根据节点间的距离d_j,j+1及第j跳的节点间最优工作频率f_j,opt，计算出两节点间进行水声数据传输的能量消耗U(d_j,j+1)，以水声通信网络整体能量消耗为代价函数寻找最优协作路由，计算出该跳的能量消耗代价函数L_(j,j+1)；因存在协作传输，故节点采用半功率发送，计算出各种可能的协作方案的能量消耗L_(j,j+1),Cj，找出能量消耗最小的方案，确定为最优协作节点C_j；然后，智能体继续下一跳，直至到达目的节点D，终止循环，并计算该路径的总能量消耗代价函数L，画出协作路由选择图；适用于水声多跳协作通信网络的Sarsa算法的代价函数如下：