CN112469103A - 基于强化学习Sarsa算法的水声协作通信路由方法 - Google Patents

基于强化学习Sarsa算法的水声协作通信路由方法 Download PDF

Info

Publication number
CN112469103A
CN112469103A CN202011348226.2A CN202011348226A CN112469103A CN 112469103 A CN112469103 A CN 112469103A CN 202011348226 A CN202011348226 A CN 202011348226A CN 112469103 A CN112469103 A CN 112469103A
Authority
CN
China
Prior art keywords
node
cooperative
nodes
energy consumption
hop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011348226.2A
Other languages
English (en)
Other versions
CN112469103B (zh
Inventor
陈友淦
林姗
朱建英
陶毅
张小康
许肖梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Shenzhen Research Institute of Xiamen University
Original Assignee
Xiamen University
Shenzhen Research Institute of Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University, Shenzhen Research Institute of Xiamen University filed Critical Xiamen University
Priority to CN202011348226.2A priority Critical patent/CN112469103B/zh
Publication of CN112469103A publication Critical patent/CN112469103A/zh
Application granted granted Critical
Publication of CN112469103B publication Critical patent/CN112469103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/08Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/22Communication route or path selection, e.g. power-based or shortest path routing using selective relaying for reaching a BTS [Base Transceiver Station] or an access point
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B11/00Transmission systems employing sonic, ultrasonic or infrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B13/00Transmission systems characterised by the medium used for transmission, not provided for in groups H04B3/00 - H04B11/00
    • H04B13/02Transmission systems in which the medium consists of the earth or a large mass of water thereon, e.g. earth telegraphy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

基于强化学习Sarsa算法的水声协作通信路由方法,涉及水声网络。兼顾减少水声数据传输能耗与路由选择算法本身复杂度两方面,根据水声通信能耗模型,利用强化学习Sarsa算法为水声多跳协作通信网络提供路由选择;在同时存在中继节点和协作节点的复杂情况下,在海洋环境动态变化条件下,可快速进行水声多跳协作通信网络路由选择。将强化学习算法与协作通信相结合,可以有效降低运算复杂度,增强路由选择稳定性,提高传输效率,从而得到一条使系统传输总能耗最低的协作路由线路,有效降低水声数据传输系统的能量消耗,延长水声通信网络生命周期。

Description

基于强化学习Sarsa算法的水声协作通信路由方法
技术领域
本发明涉及水声网络,尤其是涉及一种基于强化学习Sarsa算法的水声协作通信路由方法。
背景技术
地球是由71%的水和29%的陆地组成的“水球”,生物的起源与海洋密不可分,人们一直对神秘广阔的海洋抱以好奇心。从古至今,无数科研工作者专注于探索这个神秘的世界,水声通信网络是探索海洋过程中必不可少的技术支撑。同时,水声通信技术的发展也对海洋资源开发和海上军事力量发展起着重要作用。
由于受到复杂的海洋环境的制约,水下通信的实现比陆地通信更加困难,声波是水下进行中远程数据传输的最好媒介。水声通信网络技术需要考虑如何在多变恶劣的海洋环境中,以低廉的成本,用有限的能量,降低窄带宽限制、强多径效应、大时变效应等因素对水声数据传输的不利影响,高效完成水下通信任务。Cecilia等(Carbonelli C,MitraU.Cooperative Multihop Communication for Underwater Acoustic Networks[C].inthe Proceedings of the 1st ACM International Workshop on Underwater Networks,2006:97-100.)针对线性和网格拓扑结构研究得出结论,在远距离和高工作频率的水下通信中,多跳协作通信比点对点直接传输有着更显著的性能增益。
在多跳水声通信网络中,引入水声协作通信技术,考虑水下节点的发射功率、传输距离等因素,源节点S和目的节点D之间的每一个节点都可能成为中继节点或协作节点;因此,需采用合适的算法选出最优的中继节点、协作节点,实现最佳路由,以减少传输能耗。
强化学习中的Sarsa算法难度小,运算速度快,前期训练量小,同时可以使智能体在与环境的交互中自主学习,适合在复杂多变的水声通信网络中使用。Sutton等(Sutton RS,Barto AG.Reinforcement Learning:An Introduction[M].Cambridge:The MIT Press,2014:154-161.)通过算法仿真说明Sarsa算法比其类似算法Q-learning算法拥有更好的在线学习效果,拥有更高的平均收益。在水声通信网络中,当前研究大都在无协作节点网络中进行算法优化,如基于深度的路由协议DBR和基于矢量的路由协议VBF,虽有文献开始探究人工鱼群算法、蚁群算法等传统智能算法在水声通信网络中的应用,但目前尚未有将强化学习Sarsa算法应用于水声多跳协作通信网络路由选择的研究。
发明内容
本发明的目的在于针对水下节点能量供应受限问题,提供基于强化学习Sarsa算法的水声协作通信路由方法。在同时存在中继节点R和协作节点C的复杂情况下,海洋环境动态变化条件下,可快速进行水声多跳协作通信网络路由选择,以提高水声通信网络能量利用效率,延长水声通信网络生命周期。
本发明包括以下步骤:
1)参数初始化:
考虑一个由随机布置的n个水下节点组成的水声通信网络,包括源节点S、中继节点R、协作节点C和目的节点D;设置状态动作空间X×A,状态空间X表示所有水下节点的位置,动作空间A表示水声数据在两个节点间进行传输;具体地,设x表示节点m的位置,a表示水声数据在从节点m向节点n传输,则用Q(x,a)表示在x状态下采取a动作的所对应的Q值;方便起见,x用节点m的位置序号表示,a用节点n的位置序号表示;初始迭代数i=1,最大迭代数为k,初始Q值Q(x,a)=0,智能体初始状态xi=1表示源节点S所在的位置序号;
2)设计奖励机制:
计算各节点间的距离,根据节点m和节点n之间的距离dm,n及节点间的最优工作频率fopt,得到节点m向节点n传输水声数据的动作a所对应的奖励函数r(x,a)=-dx,a;节点m和节点n(以下简称“两节点”)之间可直接传输成功的距离阈值为dhop,两节点间需要协作传输的距离阈值为dcop,即当dm,n<dhop时节点间可直接传输,当dhop<dm,n<dcop时两节点间需要协作节点协助才能成功传输,当dm,n>dcop时两节点即使有协作节点协助也无法成功传输;当a=x时,表示节点m和节点n为同一节点位置序号,为极端情况,为极端情况,节点陷于同一节点,则设r(x,a)为极小值,建议小于-1000*|rmin(x,a)|,以避免此类情况出现;为确保每一跳传输均为水声协作通信,当dm,n>dcop或dm,n<dhop时,亦设r(x,a)为极小值,建议小于-1000*|rmin(x,a)|;
3)根据ε-greedy法则,以探索率1-ε概率选择动作a,智能体采取动作a,获得后续状态x’和对应的奖励函数r(x,a);
4)在状态x’下,以探索率1-ε概率选择动作a’;
5)计算智能体的Q(x,a):
按照Q(x,a)←Q(x,a)+α[r(x,a)+γQ(x’,a’)-Q(x,a)]计算更新,其中α是学习率,决定这次的误差有多少是要被学习的,取值为[0,1],γ表示对未来奖励的衰减因子,取值为[0,1];
6)将下一个状态赋给当前状态x←x’,将下一个动作赋给当前动作a←a’;
7)i=i+1,若达到最大迭代次数k,则算法结束,否则重复执行步骤2)至步骤6);
8)选择最佳主传输路由:
根据最大Q值找到相应的状态-动作对,从源节点S出发,根据找出的状态-动作对到达目的节点D;在寻找最佳主传输路由过程中,将走过的节点在Q表里对应的状态下的Q值全部设为极小值,设置方式同步骤2);
9)计算最小能耗所对应的协作节点,得出最优协作传输路由,结束程序。
在步骤9)中,针对第j跳水声数据传输,智能体在计算水声数据从节点j传输到节点j+1的过程中,将根据节点间的距离dj,j+1及第j跳的节点间最优工作频率fj,opt,计算出两节点间进行水声数据传输的能量消耗U(dj,j+1),以水声通信网络整体能量消耗为代价函数寻找最优协作路由,计算出该跳的能量消耗代价函数L(j,j+1);因存在协作传输,故节点采用半功率发送,计算出各种可能的协作方案的能量消耗L(j,j+1),Cj,找出能量消耗最小的方案,确定为最优协作节点Cj;然后,智能体继续下一跳,直至到达目的节点D,终止循环,并计算该路径的总能量消耗代价函数L,画出协作路由选择图;适用于水声多跳协作通信网络的Sarsa算法的代价函数如下:
Figure BDA0002800511820000031
Figure BDA0002800511820000032
其中,L(j,j+1)为表示智能体在第j跳情况下将水声数据传输从节点j传输给节点j+1的能耗,即智能体在状态j情况下选择动作j+1转变为j+1状态的能耗;总能量消耗代价函数L等于每跳路径的能量消耗代价函数相加。
本发明以减少水声数据传输能耗为目标,根据水声数据传输能耗模型,结合水声协作通信机制,利用强化学习Sarsa算法为水声多跳协作通信网络进行快速的路由选择,从而得到一条使系统传输总能耗最低的协作路由线路,有效降低水声数据传输系统的能量消耗,延长水声通信网络的生命周期。
本发明具有以下突出优点:
1)在水声多跳通信网络中,引入水声协作通信策略,网络中同时存在中继节点和协作节点,增大中继节点下一跳选择空间,提高路由选择成功性和传输效率,利用能在海洋环境中自主学习的强化学习Sarsa算法选择路由,可使路由寻找过程更趋向于全局最优解,找寻更低能耗的路由,延长水声通信网络的使用周期;
2)水声协作通信网络中同时存在中继节点和协作节点,在复杂多变海洋信道环境中,水下节点位置可能随洋流飘动,网络拓扑结构更为复杂,利用强化学习Sarsa算法进行路由选择,具有快速运算的优点,拥有更强的适应能力。
附图说明
图1为水下传感器节点网络拓扑图。(图中网络节点序号分别为1~50,其中S为源节点,D为目的节点)。
图2为每一跳的路由选择示意图。
图3为基于强化学习Sarsa算法的水声多跳协作通信网络的最优路径图。
图4为基于强化学习Sarsa算法的水声多跳协作通信网络的能量消耗随迭代次数变化图。
图5为基于强化学习Sarsa算法的水声多跳无协作通信网络的最优路径图。
图6为基于强化学习Sarsa算法的水声多跳无协作通信网络的能量消耗随迭代次数变化图。
具体实施方式
下面结合附图和具体实施例对本发明做详细描述。
本发明根据水声通信能量消耗模型,结合协作通信技术,在水声多跳协作通信网络中利用强化学习Sarsa算法迅速找到能量消耗最小的协作路由,包括以下步骤:
1)如图1,设计一个水声通信网络拓扑,随机布置50个节点,节点1为源节点S,节点50为目标节点D;
2)参数初始化:最大迭代数为k=10000,当前迭代数i=1,初始Q值Q(x,a)=0,智能体初始状态xi=1,学习率α=1,折扣因子γ=0.8,探索率
Figure BDA0002800511820000041
3)设计奖励机制:计算各节点间的距离根据节点距离dm,n及节点间的最优工作频率fopt,得到奖励r(x,a)=-dx,a,两节点间可直接传输成功的距离阈值为dhop=2.5km,两节点间需要协作传输的距离阈值为dcop=4km,即当dm,n<dhop时,节点间可直接传输,当dhop<dm,n<dcop时,两节点间需要协作节点协助才能成功传输,当dm,n>dcop时,两节点即使有协作节点协助也无法成功传输;同时,当a=x时,令r(x,a)=-10000,当dm,n>dcop或dm,n<dhop时,令r(x,a)=-10000;
4)根据ε-greedy法则,以探索率1-ε概率选择动作a,智能体采取动作a,获得后续状态x’和立即奖赏r(x,a);
5)在状态x’下,以探索率1-ε概率选择动作a’;
6)计算智能体的Q(x,a):按照Q(x,a)←Q(x,a)+α[r(x,a)+γQ(x’,a’)-Q(x,a)]进行更新计算;
7)将下一个状态赋给当前状态,将下一个动作赋给当前动作;
8)i=i+1,若达到最大迭代次数k,则算法结束,否则重复执行步骤3)至步骤7);
9)选择最佳主传输路由:
根据最大Q值找到相应的状态-动作对,从源节点S出发,根据找出的状态-动作对到达目的节点D;在寻找最佳主传输路由过程中,将走过的节点在Q表里对应的状态下的Q值全部设为-10000;
10)计算最小能耗的协作节点,得出最优协作路由,结束程序。
在步骤10)中,针对第j跳水声数据传输,智能体在计算水声数据从节点j传输到节点j+1的过程中,将根据节点间的距离dj,j+1及第j跳的节点间最优工作频率fj,opt,计算出两节点间进行水声数据传输的能量消耗U(dj,j+1),以水声通信网络整体能量消耗为代价函数寻找最优协作路由,计算出该跳的能量消耗代价函数L(j,j+1);因存在协作传输,故节点采用半功率发送,计算出各种可能的协作方案的能量消耗L(j,j+1),Cj,找出能量消耗最小的方案,确定为最优协作节点Cj;然后,智能体继续下一跳,直至到达目的节点D,终止循环,并计算该路径的总能量消耗代价函数L,画出协作路由选择图;适用于水声多跳协作通信网络的Sarsa算法的代价函数如下:
Figure BDA0002800511820000051
Figure BDA0002800511820000052
其中,L(j,j+1)为表示智能体在第j跳情况下将水声数据传输从节点j传输给节点j+1的能耗,即智能体在状态j情况下选择动作j+1转变为j+1状态的能耗;总能量消耗代价函数L等于每跳路径的能量消耗代价函数相加。
在式(1)中,U(dj,j+1)表示通信距离为dj,j+1条件下的水声通信能耗模型,具体为:
Figure BDA0002800511820000053
Figure BDA0002800511820000054
Figure BDA0002800511820000055
其中,Θ(f)是吸收系数,单位为dB/km。根据不同的传播条件,κ的取值不同:κ=1适用于表面声道或深海声道,柱面波传播;κ=1.5适用于计及海底声吸收时的浅海声传播,柱面波传播;κ=2适用于开阔水域,球面波传播。f为频率,单位为kHz。f的选择根据最优工作频率与工作距离的经验公式:
Figure BDA0002800511820000061
如图2所示,想要使用水声协作通信策略,两节点距离需满足dhop<dm,n<dcop的要求。本实施例中,假设dhop=2.5km,dcop=4km,即当两节点的距离满足大于2.5km且小于4km要求时,可以进行协作通信。若节点在2.5km范围内(例如节点1),节点无需借用协作通信的手段就可直接接收到来自源节点S广播的信息;若节点在4km范围外(例如节点5),则无论是直接传输还是协作传输,都无法接收到节点S的信息;只有在2.5km至4km范围内的节点2、3、4才可以使用协作通信的方式。节点2、3、4若都满足成为协作节点的条件,则就需要根据代价函数计算出三个节点成为协作节点时的路由能耗,最终选择其中能耗最低的情况为协作节点。
下面对本发明所述实施例进行计算机仿真验证。
如图1所示,随机布置水下传感器节点网络拓扑,总计50个节点,节点S为源节点,节点D为目标节点,节点布置的横坐标区间为[0,14],纵坐标区间为[0,5],单位km。
本实施例中,假设应用场景为浅海的水声数据传输,声波以柱面波形式传播,布点考虑需满足前文提及的距离要求。当节点距离小于2.5km时,节点可以利用直接路由的方式直接传输,无需协作;当节点距离大于4km时,无论是否利用协作通信的方式,节点都接收不到数据,传输失败;当节点距离在2.5km到4km间时,节点可以利用协作通信的方式以降低能耗。若布点时,节点距离大于4km,则无法满足传输条件,需要重新布点。
以下是对于本发明所述方法仿真结果的分析:
仿真软件为MATLAB R2016a。
1)有协作策略分析:
图3为本案例中基于强化学习Sarsa算法的水声多跳协作通信网络的最优路由选择结果,仿真运行时间为0.82s,对应的能耗为3.97×106,其最优主路为:
S→11→20→30→41→D。
协作节点依次为18,27,39,48。
其中,节点18为从节点11到节点20的最优协作节点,节点27为从节点20到节点30的最优协作节点,节点39为从节点30到节点41的最优协作节点,节点48为从节点41到节点50的最优协作节点。图4为本实施例中基于强化学习Sarsa算法的水声多跳协作通信网络的能量消耗随迭代次数变化图。如图4所示,智能体一开始探寻时能耗波动较大,随着迭代次数的增加,算法很快向全局最优解靠近,能耗趋于减小,算法近似收敛至最优解附近,曲线小幅度波动。
2)无协作策略分析:
为对比引入协作策略的能耗优越性,在相同条件下,对强化学习Sarsa算法进行仿真,如图5所示,为本案例中基于Sarsa算法的水声多跳无协作通信网络的最优路由选择结果,仿真运行时间为1.9s,对应的能耗为6.50×106,其最优路由为:
S→1→4→9→13→16→17→18→19→21→27→31→34→37→38→40→42→D。
由于没有协作节点的帮助,节点之间的传输距离需小于2.5km,因此智能体需要更多的跳数从源节点S传至目标节点D,消耗更多能量。显然,采取协作策略可以减少智能体传输所需跳数,降低系统整体的传输能耗。
如图6为基于强化学习Sarsa算法的水声多跳无协作通信网络的能量消耗随迭代次数变化图,整体趋势与协作时相同,但近似收敛时的能耗要明显高于协作传输时的能耗,近似收敛于6.00×106附近。两次仿真虽都基于强化学习Sarsa算法的路由选择,但水声多跳协作通信网络路由选择算法优于无协作网络。
表1给出了为水声多跳通信网络路由选择中应用强化学习Sarsa算法与蚁群算法的性能对比。
表1
Figure BDA0002800511820000071
由表1可见,强化学习Sarsa算法和蚁群算法所选路由对应的能耗基本相同,差异不大,均可满足实用需求;但是,随着节点数目的增加,强化学习Sarsa算法拥有远远小于蚁群算法的运算耗时,能更加快速完成地路由选择。因此,在多跳水声通信网络路由选择中,综合考虑运算难度和运算耗时,将强化学习Sarsa算法结合协作通信机制,可以满足稳定性、快速运算和低能耗的路由选择条件。
通过两种仿真方案的对比可见,将强化学习Sarsa算法应用于水声多跳协作通信网络中能比无协作情况明显降低传输能耗,提高传输效率;而无论是否引入协作策略,Sarsa算法都能够十分快速地找到全局最优解,选择低能耗路由。
本发明根据水声通信能耗模型,结合水声协作通信技术,利用强化学习Sarsa算法为水声多跳协作通信网络提供路由选择,智能体在复杂多变的海洋环境中自学习,得到一条使系统传输总能耗最低的协作路由,该路由可有效降低水声数据传输系统的能量消耗,延长水声通信网络的生命周期。

Claims (2)

1.基于强化学习Sarsa算法的水声协作通信路由方法,其特征在于包括以下步骤:
1)参数初始化:
考虑一个由随机布置的n个水下节点组成的水声通信网络,包括源节点S、中继节点R、协作节点C和目的节点D;设置状态动作空间X×A,状态空间X表示所有水下节点的位置,动作空间A表示水声数据在两个节点间进行传输;具体地,设x表示节点m的位置,a表示水声数据在从节点m向节点n传输,则用Q(x,a)表示在x状态下采取a动作的所对应的Q值;方便起见,x用节点m的位置序号表示,a用节点n的位置序号表示;初始迭代数i=0,最大迭代数为k,初始Q值Q(x,a)=0,智能体初始状态xi=1表示源节点S所在的位置序号;
2)设计奖励机制:
计算各节点间的距离,根据节点m和节点n之间的距离dm,n及节点间的最优工作频率fopt,得到节点m向节点n传输水声数据的动作a所对应的奖励函数r(x,a)=-dx,a;点m和节点n(以下简称“两节点”)之间可直接传输成功的距离阈值为dhop,两节点间需要协作传输的距离阈值为dcop,即当dm,n<dhop时节点间可直接传输,当dhop<dm,n<dcop时两节点间需要协作节点协助才能成功传输,当dm,n>dcop时两节点即使有协作节点协助也无法成功传输;当a=x时,表示节点m和节点n为同一节点位置序号,为极端情况,此时节点陷于同一节点,则设r(x,a)为极小值,建议小于-1000*|rmin(x,a)|,以避免此类情况出现;为确保每一跳传输均为水声协作通信,当dm,n>dcop或dm,n<dhop时,亦设r(x,a)为极小值,建议小于-1000*|rmin(x,a)|;
3)根据ε-greedy法则,以探索率1-ε概率选择动作a,智能体采取动作a,获得后续状态和对应的奖励函数r(x,a);
4)在状态x’下,以探索率1-ε概率选择动作a’;
5)计算智能体的Q(x,a):
按照Q(x,a)←Q(x,a)+α[r(x,a)+γQ(x’,a’)-Q(x,a)]计算更新,其中α是学习率,决定这次的误差有多少是要被学习的,取值为[0,1],γ表示对未来奖励的衰减因子,取值为[0,1];
6)将下一个状态赋给当前状态x←x’,将下一个动作赋给当前动作a←a’;
7)i=i+1,若达到最大迭代次数k,则算法结束,否则重复执行步骤2)至步骤6);
8)选择最佳主传输路由:
根据最大Q值找到相应的状态-动作对,从源节点S出发,根据找出的状态-动作对到达目的节点D;在寻找最佳主传输路由过程中,将走过的节点在Q表里对应的状态下的Q值全部设为极小值,设置方式同步骤2);
9)计算最小能耗所对应的协作节点,得出最优协作传输路由,结束程序。
2.如权利要求1所述基于强化学习Sarsa算法的水声协作通信路由方法,其特征在于在步骤9)中,所述得到最优协作路由的具体方法为:针对第j跳水声数据传输,智能体在计算水声数据从节点j传输到节点j+1的过程中,将根据节点间的距离dj,j+1及第j跳的节点间最优工作频率fj,opt,计算出两节点间进行水声数据传输的能量消耗U(dj,j+1),以水声通信网络整体能量消耗为代价函数寻找最优协作路由,计算出该跳的能量消耗代价函数L(j,j+1);因存在协作传输,故节点采用半功率发送,计算出各种可能的协作方案的能量消耗L(j,j+1),Cj,找出能量消耗最小的方案,确定为最优协作节点Cj;然后,智能体继续下一跳,直至到达目的节点D,终止循环,并计算该路径的总能量消耗代价函数L,画出协作路由选择图;适用于水声多跳协作通信网络的Sarsa算法的代价函数如下:
Figure FDA0002800511810000021
Figure FDA0002800511810000022
其中,L(j,j+1)为表示智能体在第j跳情况下将水声数据传输从节点j传输给节点j+1的能耗,即智能体在状态j情况下选择动作j+1转变为j+1状态的能耗;总能量消耗代价函数L等于每跳路径的能量消耗代价函数相加。
CN202011348226.2A 2020-11-26 2020-11-26 基于强化学习Sarsa算法的水声协作通信路由方法 Active CN112469103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011348226.2A CN112469103B (zh) 2020-11-26 2020-11-26 基于强化学习Sarsa算法的水声协作通信路由方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011348226.2A CN112469103B (zh) 2020-11-26 2020-11-26 基于强化学习Sarsa算法的水声协作通信路由方法

Publications (2)

Publication Number Publication Date
CN112469103A true CN112469103A (zh) 2021-03-09
CN112469103B CN112469103B (zh) 2022-03-08

Family

ID=74808618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011348226.2A Active CN112469103B (zh) 2020-11-26 2020-11-26 基于强化学习Sarsa算法的水声协作通信路由方法

Country Status (1)

Country Link
CN (1) CN112469103B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113141592A (zh) * 2021-04-11 2021-07-20 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由机制
CN113421345A (zh) * 2021-06-21 2021-09-21 东北大学 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN113518009A (zh) * 2021-07-12 2021-10-19 山东建筑大学 一种基于不确定图的水声通信路由转发方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106162794A (zh) * 2016-09-20 2016-11-23 厦门大学 一种基于蚁群算法的水声多跳协作通信网络路由选择方法
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
EP3445539A1 (en) * 2016-04-27 2019-02-27 Neurala Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
CN109407682A (zh) * 2018-09-29 2019-03-01 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN111049743A (zh) * 2019-12-13 2020-04-21 厦门大学 一种联合优化的水声多跳协作通信网络路由选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3445539A1 (en) * 2016-04-27 2019-02-27 Neurala Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
CN106162794A (zh) * 2016-09-20 2016-11-23 厦门大学 一种基于蚁群算法的水声多跳协作通信网络路由选择方法
CN109407682A (zh) * 2018-09-29 2019-03-01 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN109362113A (zh) * 2018-11-06 2019-02-19 哈尔滨工程大学 一种水声传感器网络合作探索强化学习路由方法
CN111049743A (zh) * 2019-12-13 2020-04-21 厦门大学 一种联合优化的水声多跳协作通信网络路由选择方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SIGURD A. FJERDINGEN 等: "AUV Pipeline Following using Reinforcement Learning", 《ISR 2010 (41ST INTERNATIONAL SYMPOSIUM ON ROBOTICS) AND ROBOTIK 2010 (6TH GERMAN CONFERENCE ON ROBOTICS)》 *
方一成: "多AUV路径规划与编队控制研究", 《中国优秀硕士学位全文数据库》 *
郑思远 等: "跨介质水声网络试验平台设计与试验", 《水下无人系统学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113141592A (zh) * 2021-04-11 2021-07-20 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由机制
CN113141592B (zh) * 2021-04-11 2022-08-19 西北工业大学 一种长生命周期的水声传感器网络自适应多路径路由方法
CN113421345A (zh) * 2021-06-21 2021-09-21 东北大学 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN113421345B (zh) * 2021-06-21 2023-10-17 东北大学 基于深度强化学习技术的仿生机器鱼群集导航模拟方法
CN113518009A (zh) * 2021-07-12 2021-10-19 山东建筑大学 一种基于不确定图的水声通信路由转发方法
CN113518009B (zh) * 2021-07-12 2023-07-21 山东建筑大学 一种基于不确定图的水声通信路由转发方法

Also Published As

Publication number Publication date
CN112469103B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN112469103B (zh) 基于强化学习Sarsa算法的水声协作通信路由方法
Zhuo et al. AUV-aided energy-efficient data collection in underwater acoustic sensor networks
CN106162794B (zh) 一种基于蚁群算法的水声多跳协作通信网络路由选择方法
Chen et al. QMCR: A Q-learning-based multi-hop cooperative routing protocol for underwater acoustic sensor networks
CN111049743B (zh) 一种联合优化的水声多跳协作通信网络路由选择方法
CN114025330B (zh) 一种空地协同的自组织网络数据传输方法
CN111491358B (zh) 基于能量采集的自适应调制和功率控制系统与优化方法
CN112492691B (zh) 一种深度确定性策略梯度的下行noma功率分配方法
Peng et al. Energy harvesting reconfigurable intelligent surface for UAV based on robust deep reinforcement learning
Sun et al. Adaptive clustering routing protocol for underwater sensor networks
Alsalman et al. A balanced routing protocol based on machine learning for underwater sensor networks
CN112866911A (zh) 基于q学习的自主水下航行器协助下水下数据收集方法
CN111385853B (zh) 无线传感器网络中基于改进蚁群算法的定向扩散路由方法
Wu et al. Routing strategy of reducing energy consumption for underwater data collection
He et al. State prediction-based data collection algorithm in underwater acoustic sensor networks
CN109348518B (zh) 水声协作通信网络中运用人工鱼群算法寻找路由的方法
Zhao et al. Partial expert-based adversarial relay learning strategy for underwater acoustic sensor networks
Zhang et al. Distributed hierarchical information acquisition systems based on AUV enabled sensor networks
Shen et al. A distributed routing-aware power control scheme for underwater wireless sensor networks
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN108650030A (zh) 水下无线传感器网络的水面多个汇聚结点部署方法
Misra et al. DATUM: Dynamic topology control for underwater wireless multimedia sensor networks
CN115987886B (zh) 一种基于元学习参数优化的水声网络q学习路由方法
CN102983878B (zh) 协同通信中中继节点的选择和功率分配方法
CN115243212B (zh) 一种基于auv辅助和改进跨层聚类的海洋数据采集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant