CN115855226A - 基于dqn和矩阵补全的多auv协同水下数据采集方法 - Google Patents
基于dqn和矩阵补全的多auv协同水下数据采集方法 Download PDFInfo
- Publication number
- CN115855226A CN115855226A CN202310159755.5A CN202310159755A CN115855226A CN 115855226 A CN115855226 A CN 115855226A CN 202310159755 A CN202310159755 A CN 202310159755A CN 115855226 A CN115855226 A CN 115855226A
- Authority
- CN
- China
- Prior art keywords
- auv
- data
- value
- data acquisition
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000011159 matrix material Substances 0.000 title claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 32
- 230000033001 locomotion Effects 0.000 claims description 26
- 230000009471 action Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 238000005265 energy consumption Methods 0.000 claims description 6
- 230000026058 directional locomotion Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004804 winding Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,属于海洋数据采集技术领域。本发明首先布设水声传感器节点,根据节点产生数据与应用所需数据之间的相关性和时效性计算各区域产生信息的价值,并用于后续AUV的路径规划;然后使用深度强化学习方法规划多台AUV信息采集的路径,在AUV行驶过程中不断修正多AUV航行轨迹;最后设计了一种矩阵补全式的数据采集方法,使AUV只需采集关键节点产生的数据,减轻了数据采集的工作量。本发明能够有效协同多台AUV采集水声传感器网络产生的数据,降低水下网络中数据采集的延迟,延长水声传感器网络的生命周期。
Description
技术领域
本发明属于海洋数据采集技术领域,具体地说,涉及一种基于DQN和矩阵补全的多AUV协同水下数据采集方法。
背景技术
海洋覆盖了地球的大部分面积,海洋中用于各种特定任务的水声传感器节点会产生大量数据。然而,由于海洋环境中带宽有限和声信号传播速度低,设计合适的海洋数据采集方法是一个巨大的挑战。
随着自主式航行器(AUV)的普及,单个AUV经常用来辅助海洋数据采集,然而,海洋数据采集区域广阔,且AUV的航行速度比声波慢好几个数量级,所以使用单个AUV在海洋中采集数据已经不能满足应用需求。另外,AUV的路径规划对于信息采集也至关重要,目前深度强化学习技术发展迅速,利用深度强化学习(DQN)技术规划AUV路径可以有效适应复杂海洋环境,然而,目前基于DQN的AUV路径规划很少有考虑数据的价值和洋流影响,这导致数据价值的损失和高度延迟。以往的研究表明,AUV在同一或相似区域的节点采集的数据往往在时间和空间上高度相关,这导致采集到的数据冗余度高,高度的数据冗余导致额外的能量消耗,会降低水声传感器网络的生命周期。如何在AUV路径规划的基础上,降低数据采集的冗余度也是海洋数据采集中的一大难题。
综上所述,目前基于DQN的AUV辅助海洋数据采集方法存在数据采集延迟高、数据采集冗余度高、网络生命周期短等问题。
因此,设计一种低延迟和高生命周期的多AUV协同海洋数据采集方法成为亟待解决的关键问题。
发明内容
本发明的目的是提出一种基于DQN(深度强化学习)和矩阵补全的多AUV(自主式水下航行器)协同水下数据采集方法,以弥补现有技术的不足。
为实现上述发明目的,本发明采用下述技术方案予以实现:
一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,包括以下步骤:
S1:水下布设水声传感器节点,形成不同的传感区域,并选取AUV采集传感区域;
S2:基于深度强化学习方法DQN规划多AUV信息采集的路径,且根据所述信息价值设计奖励函数;
S3:在多AUV航行过程中不断修正其运动轨迹;
S4:多AUV基于矩阵补全式的数据采集方法进行关键节点的数据采集。
进一步的,所述S1具体如下:
在海洋等区域中布设水声传感器节点,根据节点产生数据与所需数据之间的相关性和时效性判断各区域产生信息的价值,其公式化定义为:
;其中,/>表示第k片区域产生的第i组数据的价值,/>,/>,/>表示介于0到1之间的权重系数,其满足/>,表示第k片区域产生的第i组数据的期望;/>表示第k片区域感知到的第i组数据与应用程序需要的数据之间的相关性,其计算公式为:/>;其中, X表示应用程序所需要数据的物理信号, K表示节点感知到数据的物理信号,Cov表示计算协方差,Var表示计算方差;/>表示数据时效性的函数,其计算公式为:/>;其中,/>表示第i组数据时效性的衰减系数,t代表当前时间,tk,i代表第k片区域感知到的第i组数据的时间。
进一步的,所述S2具体如下:
S2-1:根据信息价值设计奖励函数:
在深度强化学习方法中,奖励函数包括距离奖励Rdis、洋流奖励Rcur、价值奖励Rvol三项,其中距离奖励Rdis的计算公式为:Rdis=Dis(P,PGoal);其中,Dis(P,PGoal)代表目标位置和当前位置的单位化距离,用其当作距离奖励可引导AUV接近目标点;洋流奖励Rcur利用洋流,使AUV跟随洋流移动来缩短移动时间并降低能量消耗;洋流奖励Rcur的计算公式为:;其中,/>代表洋流分量与海平面之间的夹角,/>表示AUV行进方向角度与海平面的夹角角度;价值奖励Rvol为步骤S2中计算得到的信息价值,奖励函数R的计算公式为:/>;其中,/>,/>,/>代表权重因子,其满足;
S2-2:设计洋流影响下的状态转移函数:状态空间S是一个六维的连续向量,是神经网络的输入信息。动作空间A由六维离散向量表示,表示六个运动方向。状态转移函数概括了环境变化,是神经网络的拟合对象。在复杂的海洋环境中,AUV的运动受到外部条件和内部动力的共同作用。假设AUV从位置P(x, y, z)转移到下一个位置P`(x`, y`, z`)。下一个位置P`(x`, y`, z`)的计算公式为:;其中,动作a = [a1,a2, a3, a4, a5, a6]T, a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,T(i,j)表示由i(i={a1,a3,a5})和j(j={a2,a4,a6})共同确定的方向运动强度,Vcur表示洋流速度,[u,v,w]表示当前位置洋流的运动方向强度,VAUV表示AUV的速度;
S2-3:设计Q值更新函数与网络的损失函数:
深度强化学习方法的Q值由二元组(s,a;(fs,fa))组成,其中s表示状态,a表示动作,(fs,fa)表示动作-状态值,Q(s,a;(fs,fa))的值计算公式为:Q(s,a;(fs,fa))=p(s;fa)+p(s,a;fa)-avg(s);其中,p(s;fa)和p(s,a;fa)分别代表估计状态值和估计动作值,avg(s)代表目前真实动作值的平均值;假设Q`(s`, a`; (f`s, f`a))代表目标网络输出的真实Q值,Q(s,a;(fs,fa))代表目前网络的Q值,则损失函数Loss的计算公式为:Loss=E[(R+vQ`(s`, a`;(f`s, f`a))-Q(s,a;(fs,fa)))2];其中,E[*]代表计算*的期望值,R为奖励函数,v代表奖励的折扣。
进一步的,所述S3具体如下:
考虑到洋流冲击导致的水声传感器节点漂移,在AUV行驶过程中不断修正多AUV航行轨迹。水声传感器节点会在洋流运动的影响下自由移动,假设u为x轴方向的速度分量,v为y轴方向的速度分量;则节点漂流位置可由汉密尔顿微分方程描述如下:;其中,/>代表海洋中节点移动的蜿蜒移动模型,其微分方程计算公式为:;其中,k为单位长度内蜿蜒弯曲的数目,c为相位速度,B(t)为曲线流的密度,A决定了曲线流的平均宽度,ε和w分别为调幅系数和变化频率;然后根据水声传感器节点的漂流位置,在每个AUV通信阶段优化其采集信息的轨迹,提高采样点数据采集效率。
进一步的,所述S4具体如下:
S4-1:关键采样点的选择:
以往的研究表明,同一或相似区域的节点采集的数据往往在时间和空间上高度相关,这导致采集到的数据冗余度高。设计了一种矩阵补全式的数据采集方法,在AUV路径规划的基础上,使AUV仅采集每个区域内关键节点的部分数据,假设CM×N×O表示三维信息矩阵,则关键采样点B的选择需满足限制:;其中,/>=Max{M,N,O},k表示常数系数,r表示矩阵信息矩阵CM×N×O的秩;
S4-2:最小化数据冗余比:
AUV收集的数据相对于局部是冗余的,因此,必须要降低数据冗余率;数据冗余率是指数据冗余量与信息矩阵CM×N×O中采集数据量的比值;最小化数据冗余比I的计算公式为:;其中,D代表数据冗余总量,M、N、O分别为信息矩阵CM×N×O的层、行、列的大小,Tijk代表信息矩阵CM×N×O的对应数据元素,如果数据冗余比大,说明重复率越高。
本发明的优点和技术效果如下:
本发明首先在海洋区域中布设水声传感器节点,根据节点产生数据与应用所需数据之间的相关性和时效性计算各区域产生信息的价值,并用于后续AUV的路径规划,大大降低了数据价值的损失;然后使用深度强化学习方法规划多台AUV信息采集的路径,并考虑到洋流冲击导致的水声传感器节点漂移,在AUV行驶过程中不断修正多AUV航行轨迹;最后设计了一种矩阵补全式的数据采集方法,使AUV只需采集关键节点产生的数据,减轻了数据采集的工作量并降低了能量消耗,延长了网络的生命周期。
本发明能够有效协同多台AUV采集水声传感器网络产生的数据,降低水下网络中数据采集的延迟,延长水声传感器网络的生命周期。
附图说明
图1是本发明的一种实施例的整体流程图。
图2是本发明的一种实施例的深度强化学习模型图。
图3是本发明的一种实施例的多AUV在通信阶段根据传感器节点漂流位置的协同轨迹优化过程图。
图4是本发明的一种实施例的本方法与传统方法网络中数据采集延迟随时间的变化情况仿真结果对比图。
图5是本发明的一种实施例的本方法与传统方法传感器网络的生命周期随节点个数变化情况仿真结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下将结合附图和实施例,对本发明作进一步详细说明。
实施例1:
本发明使用多个AUV协同的方法来采集海洋数据,以此来降低海洋数据采集的延迟,并利用深度强化学习(DQN)技术规划AUV路径,综合考虑了数据价值和洋流的影响,可以有效适应复杂海洋环境,减少数据价值的损失。另外,多AUV在同一或相似区域的节点采集的数据往往在时间和空间上高度相关,这导致采集到的数据冗余度高,高度的数据冗余导致额外的能量消耗,会降低水声传感器网络的生命周期,如何在AUV路径规划的基础上,降低数据采集的冗余度也是海洋数据采集中的难题。
如何有效降低数据采集的延迟、减少数据采集的冗余度、延长网络的生命周期,提高多AUV协同海洋数据采集的效率,是本实施例所要解决的技术问题。
本实施例提出了一种基于DQN和矩阵补全的多AUV协同海洋数据采集方法,其整体流程图如图1所示,包括以下步骤:
S1:在海洋区域中布设水声传感器节点,根据节点产生数据与应用所需数据之间的相关性和时效性计算各区域产生信息的价值,具体步骤如下:各区域产生的信息价值,其公式化定义为:;其中,/>表示第k片区域产生的第i组数据的价值,/>,/>,/>表示介于0到1之间的权重系数,其满足,/>表示第k片区域产生的第i组数据的期望。/>表示第k片区域感知到的第i组数据与应用程序需要的数据之间的相关性,其计算公式为:/>;其中, X表示应用程序所需要数据的物理信号, K表示节点感知到数据的物理信号,Cov表示计算协方差,Var表示计算方差。/>表示数据时效性的函数,其计算公式为:/>;其中,/>表示第i组数据时效性的衰减系数,t代表当前时间,tk,i代表第k片区域感知到的第i组数据的时间。
S2:使用深度强化学习方法规划多台AUV信息采集的路径,根据信息价值设计奖励函数,具体步骤如下:
S2-1:根据信息价值设计奖励函数:在本深度强化学习模型中,奖励函数包括距离奖励Rdis、洋流奖励Rcur、价值奖励Rvol三项,其中距离奖励Rdis的计算公式为:Rdis=Dis(P,PGoal);其中,Dis(P,PGoal)代表目标位置和当前位置的单位化距离,用其当作距离奖励可引导AUV接近目标点。洋流奖励Rcur利用洋流,使AUV跟随洋流移动来缩短移动时间并降低能量消耗。洋流奖励Rcur的计算公式为:
其中, 代表洋流分量与海平面之间的夹角,/>表示AUV行进方向角度与海平面的夹角角度。价值奖励Rvol为步骤S2中计算得到的信息价值,所以,奖励函数R的计算公式为:;其中,/>,/>,/>代表权重因子,其满足。
S2-2:设计洋流影响下的状态转移函数:
状态空间S是一个六维的连续向量,是神经网络的输入信息。动作空间A由六维离散向量表示,表示六个运动方向。状态转移函数概括了环境变化,是神经网络的拟合对象。在复杂的海洋环境中,AUV的运动受到外部条件和内部动力的共同作用。假设AUV从位置P(x, y, z)转移到下一个位置P`(x`, y`, z`)。下一个位置P`(x`, y`, z`)的计算公式为:;其中,动作a = [a1, a2, a3, a4, a5, a6]T, a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,T(i,j)表示由i(i={a1,a3,a5})和j(j={a2,a4,a6})共同确定的方向运动强度,Vcur表示洋流速度,[u,v,w]表示当前位置洋流的运动方向强度,VAUV表示AUV的速度。
S2-3:设计Q值更新函数与网络的损失函数:本网络模型的Q值由二元组(s,a;(fs,fa))组成,其中s表示状态,a表示动作,(fs,fa)表示动作-状态值,Q(s,a;(fs,fa))的值计算公式为:Q(s,a;(fs,fa))=p(s;fa)+p(s,a;fa)-avg(s);其中,p(s;fa)和p(s,a;fa)分别代表估计状态值和估计动作值,avg(s)代表目前真实动作值的平均值。假设Q`(s`, a`; (f`s,f`a))代表目标网络输出的真实Q值,Q(s,a;(fs,fa))代表目前网络的Q值,则损失函数Loss的计算公式为:Loss=E[(R+vQ`(s`, a`; (f`s, f`a))-Q(s,a;(fs,fa)))2];其中,E[*]代表计算*的期望值,R为奖励函数,v代表奖励的折扣。
本发明实施例中深度强化学习模型图2所示,首先将洋流特征Pcur(u, v, w)和AUV的位置特征P(x, y, z) 融合为6×1维的特征向量,然后通过两个全连接层提取共同特征。之后分为Q(S)和Q(A)两个分支,分别用来估计状态值p(s;fs)和动作值p(s,a;fa),通过与目标网络的Q值比较进行网络参数更新,等到损失值达到可接受范围时输出每个策略动作的Q值,策略动作a = [a1, a2, a3, a4, a5, a6]T, a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,最后得到最佳动作a3。
S3:考虑到洋流冲击导致的水声传感器节点漂移,在AUV行驶过程中不断修正多AUV航行轨迹,具体步骤如下:水声传感器节点会在洋流运动的影响下自由移动,假设u为x轴方向的速度分量,v为y轴方向的速度分量。则节点漂流位置可由汉密尔顿微分方程描述如下:;其中,/>代表海洋中节点移动的蜿蜒移动模型,其微分方程计算公式为:/>;其中,k为单位长度内蜿蜒弯曲的数目,c为相位速度,B (t)为曲线流的密度,A决定了曲线流的平均宽度,ε和w分别为调幅系数和变化频率。然后,根据水声传感器节点的漂流位置,在每个AUV通信阶段优化其采集信息的轨迹,提高采样点数据采集效率。多AUV在通信阶段根据传感器节点漂流位置的协同轨迹优化过程如图3所示。首先,3台AUV从点 O 开始,第一阶段根据深度强化学习规划的路径如图3中的(a)所示,为 OS,OL和OM。然后根据深度强化学习算法继续规划下一阶段路径。在下一阶段图3中的(b)中,AUV#02的原轨迹LL`前方的传感器节点已受洋流冲击偏离轨迹,这将导致下一阶段若继续遵循原轨迹采集数据将不可行。故在图3中的(c)中,AUG#02基于水声传感器节点的漂流位置对轨迹L`L``进行修正,以弥补洋流冲击对水声传感器节点的影响。
S4:为减少网络中数据采集的信息冗余,设计了一种矩阵补全式的数据采集方法,使AUV只需采集关键节点产生的数据,具体步骤如下:
S4-1:关键采样点的选择:以往的研究表明,同一或相似区域的节点采集的数据往往在时间和空间上高度相关,这导致采集到的数据冗余度高。所以,本发明设计了一种矩阵补全式的数据采集方法,在AUV路径规划的基础上,使AUV仅采集每个区域内关键节点的部分数据,假设CM×N×O表示三维信息矩阵,则关键采样点B的选择需满足限制:;其中,/>=Max{M,N,O},k表示常数系数,r表示矩阵信息矩阵CM×N×O的秩。
S4-2:最小化数据冗余比:AUV收集的数据相对于局部是冗余的,因此,必须要降低数据冗余率。数据冗余率是指数据冗余量与信息矩阵CM×N×O中采集数据量的比值。最小化数据冗余比的计算公式为:/>;其中,D代表数据冗余总量,M、N、O分别为信息矩阵CM×N×O的层、行、列的大小,Tijk代表信息矩阵CM×N×O的对应数据元素,如果数据冗余比大,说明重复率越高。
实施例1提出的方法进行具体验证:
本发明提出的基于DQN和矩阵补全的多AUV协同海洋数据采集方法与传统单AUV海洋数据采集方法网络中数据采集的延迟随时间的变化情况仿真结果对比如图4所示。ACMC方法是传统的单AUV海洋数据采集方法,其使用单台AUV在网络聚类的基础上来采集海洋数据。我们在Aqua-Sim(基于NS-2的水下传感器网络模拟器)中完成仿真模拟,本实施例中所有仿真的具体参数如表1所示。
表1 仿真参数
仿真参数 | 数值 |
网络的大小 | 1000×1000×1000m<sup>3</sup> |
声信号速度 | 1.5Km/s |
节点数量 | 0-600 |
数据包大小 | 5Kb |
节点通信范围 | 80m |
节点初始能量 | 5000J |
节点的数据传输速率 | 4kbps |
节点的数据接收速率 | 5kbps |
节点数据采集消耗 | 0.1J/s |
节点数据传输消耗 | 0.5J/s |
。
从图4的仿真结果可以看出,当区域内传感器节点数量较少时,如区域内存在100个节点,本方法比单AUV海洋数据采集方法(ACMC)降低了约1400秒的网络数据采集延迟,随着区域内节点数量的增多,这种优势更加明显,如区域内存在400个节点时,本方法比单AUV海洋数据采集方法(ACMC)降低了约2200秒的网络数据采集延迟。综上所述,本发明方法能够有效降低网络中数据采集的延迟。
本发明提出的基于DQN和矩阵补全的多AUV协同海洋数据采集方法与传统单AUV海洋数据采集方法传感器网络的生命周期随节点个数的变化情况仿真结果对比如图5所示。从仿真结果可以看出,当区域内传感器节点数量达到100时,本方法比单AUV海洋数据采集方法(ACMC)提升了了约1000秒的网络生命周期,随着区域内节点数量的增多,这种优势也会更加明显,当区域内传感器节点数量达到600时,本方法比单AUV海洋数据采集方法(ACMC)提升了了约1400秒的网络生命周期。综上所述,本发明方法能够延长水声传感器网络的生命周期。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。
Claims (5)
1.一种基于DQN和矩阵补全的多AUV协同水下数据采集方法,其特征在于,包括以下步骤:
S1:水下布设水声传感器节点,形成不同的传感区域,并选取AUV采集传感区域;
S2:基于深度强化学习方法DQN规划多AUV信息采集的路径,且根据信息价值设计奖励函数;
S3:在多AUV航行过程中不断修正其运动轨迹;
S4:多AUV基于矩阵补全式的数据采集方法进行关键节点的数据采集。
2.如权利要求1所述的多AUV协同水下数据采集方法,其特征在于,所述S1具体如下:布设水声传感器节点,根据节点产生数据与所需数据之间的相关性和时效性判断各区域产生信息的价值,其公式化定义为:;其中,/>表示第k片区域产生的第i组数据的价值,/>,/>,/>表示介于0到1之间的权重系数,其满足/>,/>表示第k片区域产生的第i组数据的期望;
3.如权利要求1所述的多AUV协同水下数据采集方法,其特征在于,所述S2具体如下:
S2-1:根据信息价值设计奖励函数:
在深度强化学习方法中,奖励函数包括距离奖励Rdis、洋流奖励Rcur、价值奖励Rvol三项,其中距离奖励Rdis的计算公式为:
Rdis=Dis(P,PGoal);其中,Dis(P,PGoal)代表目标位置和当前位置的单位化距离,用其当作距离奖励可引导AUV接近目标点;洋流奖励Rcur利用洋流,使AUV跟随洋流移动来缩短移动时间并降低能量消耗;洋流奖励Rcur的计算公式为:
;其中,/>代表洋流分量与海平面之间的夹角,/>表示AUV行进方向角度与海平面的夹角角度;价值奖励Rvol为步骤S2中计算得到的信息价值,奖励函数R的计算公式为:/>;其中,/>,/>,/>代表权重因子,其满足/>;
S2-2:设计洋流影响下的状态转移函数:
假设AUV从位置P(x, y, z)转移到下一个位置P`(x`, y`, z`),下一个位置P`(x`, y`, z`)的计算公式为:;其中,动作a = [a1, a2, a3, a4, a5, a6]T,a∈A表示AUV在六个方向上的运动,其中a1和a2沿经度方向,a3和a4沿纬度方向,a5和 a6沿垂直方向,T(i,j)表示由i(i={a1,a3,a5})和j(j={a2,a4,a6})共同确定的方向运动强度,Vcur表示洋流速度,[u,v,w]表示当前位置洋流的运动方向强度,VAUV表示AUV的速度;
S2-3:设计Q值更新函数与网络的损失函数:
深度强化学习方法的Q值由二元组(s,a;(fs,fa))组成,其中s表示状态,a表示动作,(fs,fa)表示动作-状态值,Q(s,a;(fs,fa))的值计算公式为:
Q(s,a;(fs,fa))=p(s;fa)+p(s,a;fa)-avg(s);其中,p(s;fa)和p(s,a;fa)分别代表估计状态值和估计动作值,avg(s)代表目前真实动作值的平均值;假设Q`(s`, a`; (f`s, f`a))代表目标网络输出的真实Q值,Q(s,a;(fs,fa))代表目前网络的Q值,则损失函数Loss的计算公式为:Loss=E[(R+vQ`(s`, a`; (f`s, f`a))-Q(s,a;(fs,fa)))2];其中,E[*]代表计算*的期望值,R为奖励函数,v代表奖励的折扣。
5.如权利要求1所述的多AUV协同水下数据采集方法,其特征在于,所述S4具体如下:
S4-1:关键采样点的选择:
设计一种矩阵补全式的数据采集方法,在AUV路径规划的基础上,使AUV仅采集每个区域内关键节点的部分数据,假设CM×N×O表示三维信息矩阵,则关键采样点B的选择需满足限制:;其中,/>=Max{M,N,O},k表示常数系数,r表示矩阵信息矩阵CM×N×O的秩;
S4-2:最小化数据冗余比:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310159755.5A CN115855226B (zh) | 2023-02-24 | 2023-02-24 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310159755.5A CN115855226B (zh) | 2023-02-24 | 2023-02-24 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115855226A true CN115855226A (zh) | 2023-03-28 |
CN115855226B CN115855226B (zh) | 2023-05-30 |
Family
ID=85658789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310159755.5A Active CN115855226B (zh) | 2023-02-24 | 2023-02-24 | 基于dqn和矩阵补全的多auv协同水下数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115855226B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5033024A (en) * | 1989-01-06 | 1991-07-16 | U.S. Philips Corp. | Matrix memory with redundancy and minimizes delay |
US20140321236A1 (en) * | 2013-04-25 | 2014-10-30 | Cgg Services Sa | Methods and underwater bases for using autonomous underwater vehicle for marine seismic surveys |
CN107205154A (zh) * | 2017-06-07 | 2017-09-26 | 南京邮电大学 | 一种基于矩阵补全的无线多媒体传感网图像压缩采集方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109275099A (zh) * | 2018-09-26 | 2019-01-25 | 河海大学常州校区 | 水下无线传感器网络中基于voi的多auv高效数据收集方法 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110362089A (zh) * | 2019-08-02 | 2019-10-22 | 大连海事大学 | 一种基于深度强化学习和遗传算法的无人船自主导航的方法 |
CN111829527A (zh) * | 2020-07-23 | 2020-10-27 | 中国石油大学(华东) | 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法 |
CN112362064A (zh) * | 2020-11-17 | 2021-02-12 | 西北工业大学 | 一种洋流环境下的水下航行器路径规划方法 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113485371A (zh) * | 2021-08-11 | 2021-10-08 | 河海大学 | 一种基于改进麻雀搜索算法的水下多auv路径规划方法 |
CN113592162A (zh) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
CN114089762A (zh) * | 2021-11-22 | 2022-02-25 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
CN114840928A (zh) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115167419A (zh) * | 2022-06-30 | 2022-10-11 | 广东工业大学 | 一种基于dqn算法的机器人路径规划方法 |
CN115314133A (zh) * | 2022-10-11 | 2022-11-08 | 中国人民解放军战略支援部队航天工程大学 | 一种基于矩阵补全的路径损耗数据增强方法及系统 |
CN115638793A (zh) * | 2022-10-26 | 2023-01-24 | 南京大学 | 一种基于贝叶斯矩阵补全的无人机频谱感知算法 |
-
2023
- 2023-02-24 CN CN202310159755.5A patent/CN115855226B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5033024A (en) * | 1989-01-06 | 1991-07-16 | U.S. Philips Corp. | Matrix memory with redundancy and minimizes delay |
US20140321236A1 (en) * | 2013-04-25 | 2014-10-30 | Cgg Services Sa | Methods and underwater bases for using autonomous underwater vehicle for marine seismic surveys |
CN107205154A (zh) * | 2017-06-07 | 2017-09-26 | 南京邮电大学 | 一种基于矩阵补全的无线多媒体传感网图像压缩采集方法 |
CN109540151A (zh) * | 2018-03-25 | 2019-03-29 | 哈尔滨工程大学 | 一种基于强化学习的auv三维路径规划方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109275099A (zh) * | 2018-09-26 | 2019-01-25 | 河海大学常州校区 | 水下无线传感器网络中基于voi的多auv高效数据收集方法 |
CN110362089A (zh) * | 2019-08-02 | 2019-10-22 | 大连海事大学 | 一种基于深度强化学习和遗传算法的无人船自主导航的方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN111829527A (zh) * | 2020-07-23 | 2020-10-27 | 中国石油大学(华东) | 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法 |
CN112362064A (zh) * | 2020-11-17 | 2021-02-12 | 西北工业大学 | 一种洋流环境下的水下航行器路径规划方法 |
CN113052372A (zh) * | 2021-03-17 | 2021-06-29 | 哈尔滨工程大学 | 一种基于深度强化学习的动态auv追踪路径规划方法 |
CN113326872A (zh) * | 2021-05-19 | 2021-08-31 | 广州中国科学院先进技术研究所 | 一种多机器人轨迹规划方法 |
CN113592162A (zh) * | 2021-07-22 | 2021-11-02 | 西北工业大学 | 一种基于多智能体强化学习的多水下无人航行器协同搜索方法 |
CN113485371A (zh) * | 2021-08-11 | 2021-10-08 | 河海大学 | 一种基于改进麻雀搜索算法的水下多auv路径规划方法 |
CN114089762A (zh) * | 2021-11-22 | 2022-02-25 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
CN114840928A (zh) * | 2022-05-07 | 2022-08-02 | 西北工业大学 | 一种基于深度学习的水下航行器集群运动仿真方法 |
CN114967721A (zh) * | 2022-06-08 | 2022-08-30 | 西北工业大学 | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115167419A (zh) * | 2022-06-30 | 2022-10-11 | 广东工业大学 | 一种基于dqn算法的机器人路径规划方法 |
CN115314133A (zh) * | 2022-10-11 | 2022-11-08 | 中国人民解放军战略支援部队航天工程大学 | 一种基于矩阵补全的路径损耗数据增强方法及系统 |
CN115638793A (zh) * | 2022-10-26 | 2023-01-24 | 南京大学 | 一种基于贝叶斯矩阵补全的无人机频谱感知算法 |
Non-Patent Citations (4)
Title |
---|
CHENMING ZHANG: "AUV path tracking with real-time obstacle avoidance via reinforcement learning under adaptive constraints", OCEAN ENGINEERING * |
ZHAOLUN LI: "Autonomous underwater vehicles (AUVs) path planning based on Deep Reinforcement Learning", 2022 9TH INTERNATIONAL CONFERENCE ON DIGITAL HOME (ICDH) * |
牟治宇: "基于深度强化学习的无人机数据采集和路径规划研究", 物联网学报 * |
蒋述凯: "基于深度强化学习的跟踪拍摄 AUV 路径 规划方法", 中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑) * |
Also Published As
Publication number | Publication date |
---|---|
CN115855226B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111780777B (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN102799179B (zh) | 基于单链序贯回溯q学习的移动机器人路径规划算法 | |
CN102322861B (zh) | 一种航迹融合方法 | |
CN105116900B (zh) | 基于Nash迭代的分布式多移动机器人编队控制方法 | |
CN112866911B (zh) | 基于q学习的自主水下航行器协助下水下数据收集方法 | |
CN112857385B (zh) | 一种基于非均匀栅格模型的快速无人车局部路径规划方法 | |
CN110488842A (zh) | 一种基于双向内核岭回归的车辆轨迹预测方法 | |
CN106022471A (zh) | 基于粒子群优化算法的小波神经网络模型船舶横摇实时预测方法 | |
CN110191411B (zh) | 一种基于时空域联合处理的分布式协作定位系统和方法 | |
CN111830989B (zh) | 一种基于内模控制与遗传算法的无人船路径跟踪控制方法 | |
CN114199248B (zh) | 一种基于混合元启发算法优化anfis的auv协同定位方法 | |
CN107919918A (zh) | 一种移动节点辅助水下物联网数据可靠采集方法 | |
CN108827311A (zh) | 一种制造车间无人搬运系统路径规划方法 | |
CN116734856A (zh) | 一种考虑洋流影响的水下机器人路径规划方法 | |
CN113554060B (zh) | 一种融合dtw的lstm神经网络轨迹预测方法 | |
Dong et al. | Double ant colony algorithm based on dynamic feedback for energy-saving route planning for ships | |
CN110726416A (zh) | 一种基于障碍区域扩张策略的强化学习路径规划方法 | |
CN112484733B (zh) | 一种基于拓扑图的强化学习室内导航方法 | |
CN115855226B (zh) | 基于dqn和矩阵补全的多auv协同水下数据采集方法 | |
CN114019967B (zh) | 一种适用于狭长航道的无人艇航线规划方法 | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
CN113419539B (zh) | 具有复杂地形可通过性判断的移动机器人路径规划方法 | |
Yan et al. | Optimal rigid graph-based cooperative formation control of AUVs in anchor-free environments | |
CN115202357A (zh) | 一种基于脉冲神经网络的自主建图方法 | |
CN113985884A (zh) | 一种电力巡检机器人路径规划方法、系统和机器人 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |