CN112866911A - 基于q学习的自主水下航行器协助下水下数据收集方法 - Google Patents

基于q学习的自主水下航行器协助下水下数据收集方法 Download PDF

Info

Publication number
CN112866911A
CN112866911A CN202110032022.6A CN202110032022A CN112866911A CN 112866911 A CN112866911 A CN 112866911A CN 202110032022 A CN202110032022 A CN 202110032022A CN 112866911 A CN112866911 A CN 112866911A
Authority
CN
China
Prior art keywords
data
underwater vehicle
autonomous underwater
sensor
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110032022.6A
Other languages
English (en)
Other versions
CN112866911B (zh
Inventor
闫敬
李爱红
杨晛
罗小元
赵海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202110032022.6A priority Critical patent/CN112866911B/zh
Publication of CN112866911A publication Critical patent/CN112866911A/zh
Application granted granted Critical
Publication of CN112866911B publication Critical patent/CN112866911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/021Services related to particular areas, e.g. point of interest [POI] services, venue services or geofences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/042Backward inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/20Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location
    • H04W40/205Communication route or path selection, e.g. power-based or shortest path routing based on geographic position or location using topographical information, e.g. hills, high rise buildings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Remote Sensing (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于Q学习的自主水下航行器协助下水下数据收集方法,涉及水下传感器网络数据收集技术领域。该方法包括:划分水下监测区域,每个区域生成基于最优刚性图的传感器网络;采用Q学习算法对传感器进行局部路由决策;自主水下航行器根据数据值和位置选择目标数据收集器;采用Q学习算法规划自主水下航行器到达目标点的路径;自主水下航行器在PD控制器控制下对规划路径跟踪。当到达自主水下航行器规定访问时间后,自主水下航行器上浮至水面,将数据传送到控制中心,完成本周期数据收集任务。本发明可以在水流环境中及存在环境障碍下工作,具有平衡和降低能耗,提高网络稳定性,提高传输成功率等优点。

Description

基于Q学习的自主水下航行器协助下水下数据收集方法
技术领域
本发明涉及水下传感器网络数据收集技术领域,尤其是一种基于Q学习的自主水下航行器协助下水下数据收集方法。
背景技术
水下网络物理系统是一种新型的复杂系统,它通过在监测区域部署传感器来收集数据,具有高效的通信和有效的控制能力,广泛用于各种水下工程和研究领域。传感器节点主要用于对监测区域进行数据采集,如何将这些采集到的数据收集到水面进行相应处理,是一个重要的问题。
目前,水下数据收集可分为两类:1)多跳转发的数据收集。多跳转发具有整体传输延迟短的优点。然而,由于传感器的能量有限,传感器在接收器附近的能量消耗非常快,因此存在能量消耗的不平衡,很容易导致能量空洞的出现。2)自主水下航行器的数据收集。自主水下航行器可以有效地平衡能耗,但传输延迟长。同时,与地面相比,水下环境具有许多特殊性。首先,由于水下环境的不稳定性,对传感器网络的鲁棒性要求更高。其次,水下环境复杂性,如珊瑚礁、鱼群,影响数据传输。而且地面传感器网络通过高频无线电波交换信息,但在水下环境中,无线电波被强烈吸收。这些因素给自主水下航行器的数据收集带来很大困难。
如,申请公布号为CN111132064A的中国专利申请号公开了“一种基于水下航行器的水下传感器数据采集方法”,该方法以水下航行器作为中继,通过在水面部署多个汇聚节点,传感器按照距离最近原则选择水面汇聚节点,水下传感器节点确定悬停点位置并数据中继转发到水面汇聚节点,完成水下传感器节点的数据采集。该发明可以降低水下传感器节点能耗,并保证水下航行器中继转发数据时,具有较好的通信质量。但上述方法假定传感器节点静止,但考虑到实际水下环境中,受水流作用下传感器节点被动移动,而且存在延时时间较长的不足。
又如,申请公布号为CN111542020A的中国专利申请公开了“水声传感器网络中基于区域划分的多自主水下航行器协作数据收集方法”,该方法通过在三维水下环境中根据不同簇的特征对网络进行区域划分。并通过多自主水下航行器的状态预测,获取其他自主水下航行器的数据收集状态,再进行路径规划和更新。该方案通过区域划分和多自主水下航行器的路径规划,采用多自主水下航行器收集子区域的数据,均衡了网络能量,降低延迟。但该方案并没有考虑传感器网络的能耗优化,且水下环境的复杂性,如珊瑚礁,鱼群,导致环境空洞和障碍的出现,如何避免障碍物对数据收集的影响,以及水流环境影响下,如何提高传感器网络的稳定性,显得尤为重要。
发明内容
有鉴于此,本发明提出一种基于Q学习的自主水下航行器协助下水下数据收集方法,以避免障碍物、水流环境对水下数据收集的影响,平衡和降低能耗,提高传输成功率。
为此,本发明提供了以下技术方案:
本发明提供了一种基于Q学习的自主水下航行器协助下水下数据收集方法,包括以下步骤:
步骤1:将水下监测区域划分为若干个子区域,每个子区域部署若干个用于执行水下监测任务的传感器节点和一个用于从传感器节点收集数据的数据收集器;
步骤2:在每个子区域,传感器节点通过声通信寻找自身邻居节点,建立各自的邻居列表,然后采用博弈论对传感器网络进行拓扑优化,生成基于最优刚性图的传感器网络拓扑;
步骤3:通过所述传感器网络拓扑,得到各个传感器节点的通信节点,并提取海图信息,确定障碍物位置,传感器节点基于Q学习算法选择路由策略,将采集到的数据发送至数据收集器;
步骤4:每个数据收集器通过声通信向自主水下航行器广播一个短控制数据包,所述短控制数据包包含数据收集器的位置信息和数据收集器正在收集的事件的数据值;
步骤5:自主水下航行器根据接收到的短控制数据包,将收益函数最大的数据收集器作为目标数据收集器;所述数据收集器的收益函数通过位置信息和动态数据值定义;
步骤6:自主水下航行器在根据已知海域信息建立的水下环境三维模拟中基于Q学习算法规划到达目标数据收集器的路径;
步骤7:自主水下航行器利用PD控制器对规划的路径进行跟踪,完成对目标数据收集器的访问,返回步骤4;
步骤8:当到达自主水下航行器规定访问时间后,自主水下航行器上浮至水面,并将数据传送到水面控制中心,完成本周期数据收集任务。
进一步地,所述传感器节点受水流影响的移动采用弯曲水流移动模型来描述;且所述传感器节点仅在预定的子区域中移动。
进一步地,采用博弈论对传感器网络进行拓扑优化,包括:
在每一轮博弈中,通过调整连接到节点的边,使节点博弈模型的效用函数最大化,生成最优刚性子图;
所述节点博弈模型的效用函数为:u(si,s-i)=αhi(si,s-i)+βtrace(X(p,W));
其中α是一个大的正数,β是一个正数,trace(X(p,W))表示刚度矩阵的秩,边的刚度矩阵为:
Figure BDA0002892807650000031
hi(si,s-i)为连通性函数,
Figure BDA0002892807650000032
其中R(p,W)为加权刚度矩阵。
进一步地,传感器节点基于Q学习算法选择路由策略包括:
定义当前传感器节点st,下一个可选传感器节点集A,传感器的奖励函数R(st,at)定义如下:
Figure BDA0002892807650000041
其中at∈A为下一个选择节点,Rmax是最大奖励值,表示当下一个节点是数据收集器时,奖金值被设置为最大值;-Rmax是将奖励值设置为负值,以避免传感器节点不直接连接或存在环境空隙时出现空白区域;结合传感器的位置信息,-diffi,j为节点之间的距离,表示为了减少传输距离,当下一个节点既不是目标也不是空白区域时,结合传感器节点之间的距离设置负奖励值;通过得到及时的奖励函数R(st,at)来更新当前节点的Q值,Q值函数Q(st,at)定义如下:Q(st,at)=R(st,at)+γ×max(Q(st+1,at+1));其中折扣因子γ是满足0≤γ<1的常数;当执行所选节点并得到相应的返回值时,当前节点被转移到下一个选择的节点,根据新节点下的最大Q值和返回值更新前一节点的Q值;直到满足结束条件,停止Q值的更新;传感器节点根据Q矩阵选择最大Q值的节点作为下一跳转发节点,最后将传感器节点收集的数据汇集到数据收集器。
进一步地,所述数据收集器正在收集的事件的数据值包括:
假设一组事件集E={E1,E2,...,E|E|}发生在水下监测区域;
当传感器节点i∈{1,...,N}在时间tk,i监测到事件Ek时,获得对于事件Ek上的监测数据信息值:
Figure BDA0002892807650000042
其中
Figure BDA0002892807650000043
分别表示事件Ek的重要性和及时性;0<βk<1表示信息权重,其作用是平衡重要性和及时性之间的权衡;事件重要性可以根据监测级别进行设计和修改;同时,事件时效性是一个单调递减的函数,它随捕捉感知数据的时间衰减;定义一个二进制变量kk,i,当传感器i感应到事件Ek时,kk,i=1,否则为0;任意传感器节点i发送到数据收集器的信息值为:
Figure BDA0002892807650000044
则数据收集器j得到的传感器的信息值为:RCj(t)=∑liCE,i(t);
其中j∈{1,...,M},li是一个二进制变量,当数据收集器接收传感器i发送的数据时,li=1,否则li=0。
进一步地,数据收集器的收益函数:Ij(t)=RCj(t)-αD(t);其中t∈[0,T],D(t)是自主水下航行器当前位置到数据收集器j的距离;距离做减法的目的是减少访问距离,α是常数。
进一步地,根据已知海域信息建立水下环境三维模拟,包括:以自主水下航行器的当前位置作为学习过程的初始点,以当前收益函数最大的收集器为目标点,将该区域地图的x轴,y轴和z轴划分为n个部分,使其均匀地离散为M=n×n×n个区域,自主水下航行器以每个区域作为一个动作,所以有M个可选动作区域;然后根据每个区域的不同先验知识确定奖惩机制,奖惩函数为:
Figure BDA0002892807650000051
其中上式表示当自主水下航行器下一个动作为目标点区域时,给予奖励RAmax;当自主水下航行器下一个动作是危险区域或非邻域时,得到惩罚-RAmax,其中RAmax为一个较大的常数;当目标状态为其他情况时,不指导全局情况;
进一步地,基于Q学习算法规划到达目标数据收集器的路径,包括:
自主水下航行器随机在M个可选动作中选择当前区域st,并根据当前区域的所有可能动作区域中选择一个动作区域at,并得到当前区域的奖惩RA(st,at),根据选定的动作区域at,作为下一个当前区域st+1,计算下一个当前区域st+1下的最高Q值,并根据QA(st,at)=RA(st,at)+γ×max(QA(st+1,at+1))更新QA(st,at);
重复上述步骤,直到Q值满足收敛要求;
自主水下航行器根据更新后的Q值,找出具有最大Q值的动作区域所组成的路径即为最佳路径。
进一步地,所述PD控制器如下:τ=kpe(t+1)+kd(e(t+1)-e(t));
其中kp∈R4×4是比例增益,kd∈R4×4是微分增益;通过调整kp和kd参数来控制反馈输出数据,驱使自主水下航行器到达目标位置。
进一步地,数据收集器被自主水下航行器访问后,数据值被重置为零。
与现有技术相比,本发明具有以下优点:
1、本发明结合传感器能量和位置信息,对传感器网络进行拓扑优化。该方案可以平衡和降低传感器网络的能耗,提高网络的稳定性。
2、本发明结合Q学习和刚性拓扑,提出了一种新的动态路由协议方案。该方案在减少传输路径的同时,避免环境空洞对数据传输的影响。
3、本发明提出了一种基于动态信息值和Q学习的路径规划策略来指导自主水下航行器,为了实现自主水下航行器轨迹跟踪,本发明还提出了一种基于PD控制器的跟踪控制算法。该方案提高了总收集数据的信息值,同时避免了环境障碍的影响,使数据收集具有较高的精度和稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于Q学习的自主水下航行器协助下水下数据收集方法的流程图;
图2是本发明实施例中水下网络体系结构的模型示意图;
图3是本发明实施例中基于最优刚性图的传感器网络模拟示意图;
图4为本发明实施例中基于Q学习的传感器局部路由协议模拟示意图;
图5为本发明实施例中基于Q学习的自主水下航行器路径规划的模拟示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
参见图1,其示出了一种基于Q学习的自主水下航行器协助下水下数据收集方法的流程图,具体包括以下步骤:
步骤1:将水下监测区域划分为若干个子区域,每个子区域部署若干个用于执行水下监测任务的传感器节点和一个用于从传感器节点收集数据的数据收集器。
如图2所示,其示出了本发明实施例中水下网络体系结构模型示意图,网络水下体系包括浮标1、传感器节点2、数据收集器3、水下机器人4、水下机器人路径5以及事件6。将水下监测区域划分为M个子区域,每个区域部署N个传感器节点2和一个数据收集器3。
传感器节点2的作用是执行水下监测任务,其时钟同步,位置准确。传感器节点2受水流的影响可以移动。本发明实施例中采用了一种弯曲水流移动模型来描述传感器的移动,任意传感器节点i∈{1,...,N}的移动可以更新为:
Figure BDA0002892807650000081
Figure BDA0002892807650000082
zi(t+1)=zfix,ii(t) (1)
其中:
Figure BDA0002892807650000083
其中,(xi,yi,zi)∈R3表示传感器节点i的位置,ρ∈R+是一个迭代标量,zfix.i∈R表示传感器节点i的预定义固定深度,θi∈R是一种高斯白噪声,κ∈R是单位长度的弯曲数,而c∈R表示相位速度,B(t)=A+εcos(ωt)为调节弯曲的宽度,A∈R决定平均弯曲宽度,ε∈R表示它的频率。在数据采集周期中,假设水流的变化不频繁,传感器节点不能从预定义的子区域中移动。
数据收集器是静态节点,其作用是收集区域内传感器节点的数据。
步骤2:在每个子区域,传感器节点通过声通信寻找自身邻居节点,建立各自的邻居列表,然后采用博弈论对传感器网络进行拓扑优化,生成基于最优刚性图的传感器网络拓扑;
其中,通过以下几个方面考虑节点的效用函数:
传感器网络的连通性:为了保证网络的连通性,生成的拓扑图应满足最小刚性,因此定义连通性函数:
Figure BDA0002892807650000084
其中R(p,W)为加权刚度矩阵。
传感器网络的稳定性:定义网络中边的刚度矩阵为:
Figure BDA0002892807650000085
刚度矩阵包含了刚度图的定量信息,特别是,刚性矩阵特征值较大的刚性图具有较好的代数刚性图,具有较好的代数刚性图具有较好的稳定性。矩阵的迹是矩阵的特征值之和,因此保证刚性矩阵的迹大,进而提高网络的稳定性。
传感器网络的能耗:关于声能消耗,本发明实施例中采用了一种常见的水下能量模型。从一个传感器节点到另一个传感器节点的一个数据包传输所消耗的能量被描述为
Figure BDA0002892807650000091
其中SL∈R+表示声纳源级别,l表示传输损耗范围,α表示dB/km中的吸收系数,A表示传输损耗,Ttx是一个数据包所花费的传输时间。最小化网络的相对能耗是平衡传感器网络能耗的途径。将相对能耗定义为
Figure BDA0002892807650000092
其中REi(t)∈R+为传输所需能量,AEi(t)∈R+为可用能量。当传感器节点i向传感器节点j发送数据时,传感器节点j上的可用能量不能小于所需能量,以保证数据的正常传输。因此,基于能量的传感器节点在时间t处的路由模型为:
Figure BDA0002892807650000093
其中Ni表示网络拓扑中传感器节点i邻域的传感器节点集。假设在监测区采用相同的声纳参数,则REi(t)=REj(t)=REij(t)。式(5)可以改写为
Figure BDA0002892807650000094
定义
Figure BDA0002892807650000095
作为传感器节点i和j之间边的权重。
基于上述分析,节点博弈模型的效用函数为:
u(si,s-i)=αhi(si,s-i)+βtrace(X(p,W)) (6)
其中α是一个大的正数,β是一个正数,trace(X(p,W))表示刚度矩阵的秩。
在每一轮博弈中,通过调整连接到节点i的边,使节点博弈模型的效用函数最大化,生成最优刚性子图。删除不属于最优刚性图的边,最终得到全局最优刚性拓扑。即,基于最优刚性图的传感器网络生成,如图3所示。
步骤3:通过步骤2中生成的传感器网络拓扑,得到各个传感器节点的通信节点,并提取海图信息,确定障碍物位置,传感器节点利用Q学习算法选择路由策略。
如图4所示,其中,2代表传感器节点,3代表数据收集器,7代表环境空洞;通过传感器网络拓扑,得到各个传感器节点的合理通信节点,并提取海图信息,确定障碍物位置,传感器节点利用Q学习算法选择路由策略。
利用Q学习算法选择路由策略如下:
定义当前传感器节点st,下一个可选传感器节点集A,传感器节点的奖励函数R(st,at)定义如下:
Figure BDA0002892807650000101
其中,at∈A为下一个选择节点。Rmax是最大奖励值,表示当下一个节点是数据收集器时,奖金值被设置为最大值。-Rmax是将奖励值设置为负值,以避免传感器节点不直接连接或存在环境空隙时出现空白区域。结合传感器的位置信息,-diffi,j为节点之间的距离,表示为了减少传输距离,当下一个节点既不是目标也不是空白区域时,结合传感器节点之间的距离设置负奖励值。
通过得到及时的奖励函数R(st,at)来更新当前节点的Q值,Q值函数Q(st,at)定义如下:
Q(st,at)=R(st,at)+γ×max(Q(st+1,at+1)) (8)
其中折扣因子γ是满足0≤γ<1的常数。当执行所选节点并得到相应的返回值时,系统当前节点被转移到下一个选择的节点,根据新节点下的最大Q值和返回值更新前一节点的Q值。直到满足结束条件,停止Q值的更新。传感器节点根据Q矩阵选择最大Q值的节点作为下一跳转发节点,最后将传感器收集的数据汇集到数据收集器。
步骤4:每个数据收集器通过声通信向自主水下航行器广播一个短控制数据包,其中包含数据收集器的位置信息和数据收集器正在收集的事件的信息值。
在不失去通用性的情况下,假设一组事件集E={E1,E2,...,E|E|}发生在水下监测区域。当传感器节点i∈{1,...,N}在时间tk,i监测到事件Ek时,它获得对于事件Ek上的监测数据信息值
Figure BDA0002892807650000111
Figure BDA0002892807650000112
被定义为:
Figure BDA0002892807650000113
其中
Figure BDA0002892807650000114
分别表示事件Ek的重要性和及时性。0<βk<1表示信息权重,其作用是平衡重要性和及时性之间的权衡。事件重要性可以根据监测级别进行设计和修改。事件时效性是一个单调递减的函数,它随捕捉感知数据的时间衰减。
定义一个二进制变量kk,i,当传感器节点i感应到事件Ek时,kk,i=1,否则为0。任意传感器节点i发送到数据收集器的信息值定义为:
Figure BDA0002892807650000115
则数据收集器j得到的传感器的信息值为:
RCj(t)=∑liCE,i(t) (11)
其中j∈{1,...,M},li是一个二进制变量,当数据收集器接收传感器节点i发送的数据时,li=1,否则li=0。
自主水下航行器访问周期时间为T。假设数据收集器的深度为h,自主水下航行器的垂直速度为υ,自主水下航行器的垂直运行时间为tvertical=h/υ。则自主水下航行器进行数据收集时间为
Figure BDA0002892807650000116
在访问时间内,通过位置信息和动态信息值定义数据收集器的收益函数:
Ij(t)=RCj(t)-αD(t) (12)
其中t∈[0,T],D(t)是自主水下航行器当前位置到数据收集器j的距离。距离做减法的目的是减少访问距离,α是常数。
然后自主水下航行器的收益函数定义为:
Figure BDA0002892807650000121
其中tin是自主水下航行器开始收集数据的时间。从式(13)可以看出,在访问时间段t∈[0,T],自主水下航行器在下一刻动态选择收入函数最大的数据收集器作为目标节点。
步骤5:自主水下航行器根据接收到的短控制数据包,将收益函数最大的数据收集器作为目标数据收集器;所述数据收集器的收益函数通过位置信息和动态数据值定义;
步骤6:自主水下航行器在根据已知海域信息建立的水下环境三维模拟中基于Q学习算法规划到达目标数据收集器的路径;
根据已知海域信息,建立如图5所示的水下环境三维模拟:
以自主水下航行器的当前位置作为学习过程的初始点,以当前收益函数最大的收集器为目标点,将该区域地图的x轴,y轴和z轴划分为n个部分,使其均匀地离散为M=n×n×n个区域,自主水下航行器以每个区域作为一个动作,所以有M个可选动作区域。然后根据每个区域的不同先验知识确定奖惩机制。奖惩函数为:
Figure BDA0002892807650000122
式(14)表示当自主水下航行器下一个动作为目标点区域时,给予奖励RAmax;当自主水下航行器下一个动作是危险区域或非邻域时,得到惩罚-RAmax,其中RAmax为一个较大的常数。当目标状态为其他情况时,不指导全局情况。
自主水下航行器利用Q学习算法,规划到达目标数据收集器的路径:
QA(st,at)=RA(st,at)+γ×max(QA(st+1,at+1)) (15)
自主水下航行器随机在M个可选动作中选择当前区域st,并根据当前区域的所有可能动作区域中选择一个动作区域at,并得到当前区域的奖惩RA(st,at),根据选定的动作区域at,作为下一个当前区域st+1,计算下一个当前区域st+1下的最高Q值,并根据式(15)更新QA(st,at)。重复这些步骤,直到Q值满足收敛要求。自主水下航行器根据更新后的Q值,找出具有最大Q值的动作区域所组成的路径即为最佳路径。
步骤7:通过基站实时确定自主水下航行器的状态位置,并发送到控制中心,设计PD控制器,通过调整比例增益和微分增益参数来控制反馈输出数据,驱使自主水下航行器到达目标位置,完成对当前目标数据收集器的访问。
自主水下航行器完成对当前目标数据收集器的访问后,返回步骤4。为了避免冗余访问,数据收集器被自主水下航行器访问后,数据值被重置为零。
在t时刻,自主水下航行器的位置被定义为X(t)=[x(t),y(t),z(t),ψ(t)]T,其中x、y、z分别表示自主水下航行器在X轴、Y轴和Z轴的位置坐标,ψ为偏航的角度。将自主水下航行器的目标位置定义为Xd=[xr,yr,zrr]T,则位置误差为e(t)=Xd-X(t)。确定自主水下航行器的目标位置,然后将控制命令发送到自主水下航行器。通过基站实时确定其状态位置,并发送到控制中心。要实现位置跟踪任务,自主水下航行器与目标点之间的相对位置和速度最终需要为零。定义τ=[Fu,Fv,Fw,Tr],其中Tr是偏航中施加的扭矩,Fu、Fv和Fw分别表示在滚动、摇摆和起伏时施加的力。
设计的PD控制器如下:
τ=kpe(t+1)+kd(e(t+1)-e(t)) (16)
其中kp∈R4×4是比例增益,kd∈R4×4是微分增益。通过调整kp和kd参数来控制反馈输出数据,驱使自主水下航行器到达目标位置。
步骤8:当到达自主水下航行器规定访问时间后,自主水下航行器上浮至水面,并将数据传送到水面控制中心,完成本周期数据收集任务。
本发明实施例具有以下优点:
1、本发明结合传感器能量和位置信息,对传感器网络进行拓扑优化。该方案可以平衡和降低传感器网络的能耗,提高网络的稳定性。
2、本发明结合Q学习和刚性拓扑,提出了一种新的动态路由协议方案。该方案在减少传输路径的同时,避免环境空洞对数据传输的影响。
3、本发明提出了一种基于动态信息值和Q学习的路径规划策略来指导自主水下航行器,为了实现自主水下航行器轨迹跟踪,本发明还提出了一种基于PD控制器的跟踪控制算法。该方案提高了总收集数据的信息值,同时避免了环境障碍的影响,使数据收集具有较高的精度和稳定性。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,包括以下步骤:
步骤1:将水下监测区域划分为若干个子区域,每个子区域部署若干个用于执行水下监测任务的传感器节点和一个用于从传感器节点收集数据的数据收集器;
步骤2:在每个子区域,传感器节点通过声通信寻找自身邻居节点,建立各自的邻居列表,然后采用博弈论对传感器网络进行拓扑优化,生成基于最优刚性图的传感器网络拓扑;
步骤3:通过所述传感器网络拓扑,得到各个传感器节点的通信节点,并提取海图信息,确定障碍物位置,传感器节点基于Q学习算法选择路由策略,将采集到的数据发送至数据收集器;
步骤4:每个数据收集器通过声通信向自主水下航行器广播一个短控制数据包,所述短控制数据包包含数据收集器的位置信息和数据收集器正在收集的事件的数据值;
步骤5:自主水下航行器根据接收到的短控制数据包,将收益函数最大的数据收集器作为目标数据收集器;所述数据收集器的收益函数通过位置信息和动态数据值定义;
步骤6:自主水下航行器在根据已知海域信息建立的水下环境三维模拟中基于Q学习算法规划到达目标数据收集器的路径;
步骤7:自主水下航行器利用PD控制器对规划的路径进行跟踪,完成对目标数据收集器的访问,返回步骤4;
步骤8:当到达自主水下航行器规定访问时间后,自主水下航行器上浮至水面,并将数据传送到水面控制中心,完成本周期数据收集任务。
2.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,所述传感器节点受水流影响的移动采用弯曲水流移动模型来描述;且所述传感器节点仅在预定的子区域中移动。
3.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,采用博弈论对传感器网络进行拓扑优化,包括:
在每一轮博弈中,通过调整连接到节点的边,使节点博弈模型的效用函数最大化,生成最优刚性子图;
所述节点博弈模型的效用函数为:u(si,s-i)=αhi(si,s-i)+βtrace(X(p,W));
其中α是一个大的正数,β是一个正数,trace(X(p,W))表示刚度矩阵的秩,边的刚度矩阵为:
Figure FDA0002892807640000021
hi(si,s-i)为连通性函数,
Figure FDA0002892807640000022
其中R(p,W)为加权刚度矩阵。
4.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,传感器节点基于Q学习算法选择路由策略包括:
定义当前传感器节点st,下一个可选传感器节点集A,传感器的奖励函数R(st,at)定义如下:
Figure FDA0002892807640000023
其中at∈A为下一个选择节点,Rmax是最大奖励值,表示当下一个节点是数据收集器时,奖金值被设置为最大值;-Rmax是将奖励值设置为负值,以避免传感器节点不直接连接或存在环境空隙时出现空白区域;结合传感器的位置信息,-diffi,j为节点之间的距离,表示为了减少传输距离,当下一个节点既不是目标也不是空白区域时,结合传感器节点之间的距离设置负奖励值;通过得到及时的奖励函数R(st,at)来更新当前节点的Q值,Q值函数Q(st,at)定义如下:Q(st,at)=R(st,at)+γ×max(Q(st+1,at+1));其中折扣因子γ是满足0≤γ<1的常数;当执行所选节点并得到相应的返回值时,当前节点被转移到下一个选择的节点,根据新节点下的最大Q值和返回值更新前一节点的Q值;直到满足结束条件,停止Q值的更新;传感器节点根据Q矩阵选择最大Q值的节点作为下一跳转发节点,最后将传感器节点收集的数据汇集到数据收集器。
5.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,所述数据收集器正在收集的事件的数据值包括:
假设一组事件集E={E1,E2,...,E|E|}发生在水下监测区域;
当传感器节点i∈{1,...,N}在时间tk,i监测到事件Ek时,获得对于事件Ek上的监测数据信息值:
Figure FDA0002892807640000031
其中
Figure FDA0002892807640000032
Figure FDA0002892807640000033
分别表示事件Ek的重要性和及时性;0<βk<1表示信息权重,其作用是平衡重要性和及时性之间的权衡;事件重要性可以根据监测级别进行设计和修改;同时,事件时效性是一个单调递减的函数,它随捕捉感知数据的时间衰减;定义一个二进制变量kk,i,当传感器i感应到事件Ek时,kk,i=1,否则为0;任意传感器节点i发送到数据收集器的信息值为:
Figure FDA0002892807640000034
则数据收集器j得到的传感器的信息值为:RCj(t)=∑liCE,i(t);
其中j∈{1,...,M},li是一个二进制变量,当数据收集器接收传感器i发送的数据时,li=1,否则li=0。
6.根据权利要求5所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,数据收集器的收益函数:Ij(t)=RCj(t)-αD(t);其中t∈[0,T],D(t)是自主水下航行器当前位置到数据收集器j的距离;距离做减法的目的是减少访问距离,α是常数。
7.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,根据已知海域信息建立水下环境三维模拟,包括:以自主水下航行器的当前位置作为学习过程的初始点,以当前收益函数最大的收集器为目标点,将该区域地图的x轴,y轴和z轴划分为n个部分,使其均匀地离散为M=n×n×n个区域,自主水下航行器以每个区域作为一个动作,所以有M个可选动作区域;然后根据每个区域的不同先验知识确定奖惩机制,奖惩函数为:
Figure FDA0002892807640000041
其中上式表示当自主水下航行器下一个动作为目标点区域时,给予奖励RAmax;当自主水下航行器下一个动作是危险区域或非邻域时,得到惩罚-RAmax,其中RAmax为一个较大的常数;当目标状态为其他情况时,不指导全局情况。
8.根据权利要求7所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,基于Q学习算法规划到达目标数据收集器的路径,包括:
自主水下航行器随机在M个可选动作中选择当前区域st,并根据当前区域的所有可能动作区域中选择一个动作区域at,并得到当前区域的奖惩RA(st,at),根据选定的动作区域at,作为下一个当前区域st+1,计算下一个当前区域st+1下的最高Q值,并根据QA(st,at)=RA(st,at)+γ×max(QA(st+1,at+1))更新QA(st,at);
重复上述步骤,直到Q值满足收敛要求;
自主水下航行器根据更新后的Q值,找出具有最大Q值的动作区域所组成的路径即为最佳路径。
9.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,所述PD控制器如下:τ=kpe(t+1)+kd(e(t+1)-e(t));
其中kp∈R4×4是比例增益,kd∈R4×4是微分增益;通过调整kp和kd参数来控制反馈输出数据,驱使自主水下航行器到达目标位置。
10.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法,其特征在于,数据收集器被自主水下航行器访问后,数据值被重置为零。
CN202110032022.6A 2021-01-11 2021-01-11 基于q学习的自主水下航行器协助下水下数据收集方法 Active CN112866911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110032022.6A CN112866911B (zh) 2021-01-11 2021-01-11 基于q学习的自主水下航行器协助下水下数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110032022.6A CN112866911B (zh) 2021-01-11 2021-01-11 基于q学习的自主水下航行器协助下水下数据收集方法

Publications (2)

Publication Number Publication Date
CN112866911A true CN112866911A (zh) 2021-05-28
CN112866911B CN112866911B (zh) 2022-02-25

Family

ID=76002452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110032022.6A Active CN112866911B (zh) 2021-01-11 2021-01-11 基于q学习的自主水下航行器协助下水下数据收集方法

Country Status (1)

Country Link
CN (1) CN112866911B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848868A (zh) * 2021-10-18 2021-12-28 东南大学 一种意图驱动的强化学习路径规划方法
CN115568039A (zh) * 2022-09-30 2023-01-03 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011981A (zh) * 2018-01-11 2018-05-08 河海大学常州校区 水下传感器网络中基于多auv的高可用数据收集方法
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法
US10908250B1 (en) * 2019-03-19 2021-02-02 United States Of America As Represented By The Secretary Of The Navy Self surveying navigation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011981A (zh) * 2018-01-11 2018-05-08 河海大学常州校区 水下传感器网络中基于多auv的高可用数据收集方法
CN109540151A (zh) * 2018-03-25 2019-03-29 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
US10908250B1 (en) * 2019-03-19 2021-02-02 United States Of America As Represented By The Secretary Of The Navy Self surveying navigation system
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伟等: "水下无人潜航器集群发展现状及关键技术综述", 《哈尔滨工程大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848868A (zh) * 2021-10-18 2021-12-28 东南大学 一种意图驱动的强化学习路径规划方法
WO2023065494A1 (zh) * 2021-10-18 2023-04-27 东南大学 一种意图驱动的强化学习路径规划方法
CN113848868B (zh) * 2021-10-18 2023-09-22 东南大学 一种意图驱动的强化学习路径规划方法
CN115568039A (zh) * 2022-09-30 2023-01-03 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN115568039B (zh) * 2022-09-30 2023-08-04 青岛科技大学 水下无线传感器网络中考虑数据紧急程度的数据采集方法
CN116405111A (zh) * 2023-06-09 2023-07-07 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN116405111B (zh) * 2023-06-09 2023-08-15 山东科技大学 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN117606490A (zh) * 2024-01-23 2024-02-27 吉林大学 一种水下自主航行器协同搜索路径规划方法
CN117606490B (zh) * 2024-01-23 2024-05-14 吉林大学 一种水下自主航行器协同搜索路径规划方法

Also Published As

Publication number Publication date
CN112866911B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN112866911B (zh) 基于q学习的自主水下航行器协助下水下数据收集方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Huang et al. Deep reinforcement learning for UAV navigation through massive MIMO technique
CN111240319B (zh) 室外多机器人协同作业系统及其方法
Ho et al. Optimization of wireless sensor network and UAV data acquisition
Han et al. Multi-AUV collaborative data collection algorithm based on Q-learning in underwater acoustic sensor networks
CN110989352B (zh) 一种基于蒙特卡洛树搜索算法的群体机器人协同搜索方法
CN114422056B (zh) 基于智能反射面的空地非正交多址接入上行传输方法
CN109275099B (zh) 水下无线传感器网络中基于voi的多auv高效数据收集方法
CN114422363A (zh) 一种无人机搭载ris辅助通信系统容量优化方法及装置
CN109947131A (zh) 一种基于强化学习的多水下机器人编队控制方法
CN113316169B (zh) 一种面向智慧港口的uav辅助通信能效优化方法及装置
CN106022471A (zh) 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法
CN113283169B (zh) 一种基于多头注意力异步强化学习的三维群体探索方法
CN112469103B (zh) 基于强化学习Sarsa算法的水声协作通信路由方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
Evmorfos et al. Reinforcement learning for motion policies in mobile relaying networks
Zhang et al. Distributed hierarchical information acquisition systems based on AUV enabled sensor networks
Wang et al. Robotic wireless energy transfer in dynamic environments: system design and experimental validation
Qiao et al. Dynamic self-organizing leader-follower control in a swarm mobile robots system under limited communication
CN116009590B (zh) 无人机网络分布式轨迹规划方法、系统、设备及介质
CN116867025A (zh) 无线传感器网络中传感器节点分簇方法及装置
CN115855226B (zh) 基于dqn和矩阵补全的多auv协同水下数据采集方法
Nguyen et al. Multi-agent data collection in non-stationary environments
Afifi et al. Reinforcement learning for autonomous vehicle movements in wireless multimedia applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant