CN112866911A

CN112866911A - 基于q学习的自主水下航行器协助下水下数据收集方法

Info

Publication number: CN112866911A
Application number: CN202110032022.6A
Authority: CN
Inventors: 闫敬; 李爱红; 杨晛; 罗小元; 赵海燕
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-05-28
Anticipated expiration: 2041-01-11
Also published as: CN112866911B

Abstract

本发明公开一种基于Q学习的自主水下航行器协助下水下数据收集方法，涉及水下传感器网络数据收集技术领域。该方法包括：划分水下监测区域，每个区域生成基于最优刚性图的传感器网络；采用Q学习算法对传感器进行局部路由决策；自主水下航行器根据数据值和位置选择目标数据收集器；采用Q学习算法规划自主水下航行器到达目标点的路径；自主水下航行器在PD控制器控制下对规划路径跟踪。当到达自主水下航行器规定访问时间后，自主水下航行器上浮至水面，将数据传送到控制中心，完成本周期数据收集任务。本发明可以在水流环境中及存在环境障碍下工作，具有平衡和降低能耗，提高网络稳定性，提高传输成功率等优点。

Description

基于Q学习的自主水下航行器协助下水下数据收集方法

技术领域

本发明涉及水下传感器网络数据收集技术领域，尤其是一种基于Q学习的自主水下航行器协助下水下数据收集方法。

背景技术

水下网络物理系统是一种新型的复杂系统，它通过在监测区域部署传感器来收集数据，具有高效的通信和有效的控制能力，广泛用于各种水下工程和研究领域。传感器节点主要用于对监测区域进行数据采集，如何将这些采集到的数据收集到水面进行相应处理，是一个重要的问题。

目前，水下数据收集可分为两类：1)多跳转发的数据收集。多跳转发具有整体传输延迟短的优点。然而，由于传感器的能量有限，传感器在接收器附近的能量消耗非常快，因此存在能量消耗的不平衡，很容易导致能量空洞的出现。2)自主水下航行器的数据收集。自主水下航行器可以有效地平衡能耗，但传输延迟长。同时，与地面相比，水下环境具有许多特殊性。首先，由于水下环境的不稳定性，对传感器网络的鲁棒性要求更高。其次，水下环境复杂性，如珊瑚礁、鱼群，影响数据传输。而且地面传感器网络通过高频无线电波交换信息，但在水下环境中，无线电波被强烈吸收。这些因素给自主水下航行器的数据收集带来很大困难。

如，申请公布号为CN111132064A的中国专利申请号公开了“一种基于水下航行器的水下传感器数据采集方法”，该方法以水下航行器作为中继，通过在水面部署多个汇聚节点，传感器按照距离最近原则选择水面汇聚节点，水下传感器节点确定悬停点位置并数据中继转发到水面汇聚节点，完成水下传感器节点的数据采集。该发明可以降低水下传感器节点能耗，并保证水下航行器中继转发数据时，具有较好的通信质量。但上述方法假定传感器节点静止，但考虑到实际水下环境中，受水流作用下传感器节点被动移动，而且存在延时时间较长的不足。

又如，申请公布号为CN111542020A的中国专利申请公开了“水声传感器网络中基于区域划分的多自主水下航行器协作数据收集方法”，该方法通过在三维水下环境中根据不同簇的特征对网络进行区域划分。并通过多自主水下航行器的状态预测，获取其他自主水下航行器的数据收集状态，再进行路径规划和更新。该方案通过区域划分和多自主水下航行器的路径规划，采用多自主水下航行器收集子区域的数据，均衡了网络能量，降低延迟。但该方案并没有考虑传感器网络的能耗优化，且水下环境的复杂性，如珊瑚礁，鱼群，导致环境空洞和障碍的出现，如何避免障碍物对数据收集的影响，以及水流环境影响下，如何提高传感器网络的稳定性，显得尤为重要。

发明内容

有鉴于此，本发明提出一种基于Q学习的自主水下航行器协助下水下数据收集方法，以避免障碍物、水流环境对水下数据收集的影响，平衡和降低能耗，提高传输成功率。

为此，本发明提供了以下技术方案：

本发明提供了一种基于Q学习的自主水下航行器协助下水下数据收集方法，包括以下步骤：

步骤1：将水下监测区域划分为若干个子区域，每个子区域部署若干个用于执行水下监测任务的传感器节点和一个用于从传感器节点收集数据的数据收集器；

步骤2：在每个子区域，传感器节点通过声通信寻找自身邻居节点，建立各自的邻居列表，然后采用博弈论对传感器网络进行拓扑优化，生成基于最优刚性图的传感器网络拓扑；

步骤3：通过所述传感器网络拓扑，得到各个传感器节点的通信节点，并提取海图信息，确定障碍物位置，传感器节点基于Q学习算法选择路由策略，将采集到的数据发送至数据收集器；

步骤4：每个数据收集器通过声通信向自主水下航行器广播一个短控制数据包，所述短控制数据包包含数据收集器的位置信息和数据收集器正在收集的事件的数据值；

步骤5：自主水下航行器根据接收到的短控制数据包，将收益函数最大的数据收集器作为目标数据收集器；所述数据收集器的收益函数通过位置信息和动态数据值定义；

步骤6：自主水下航行器在根据已知海域信息建立的水下环境三维模拟中基于Q学习算法规划到达目标数据收集器的路径；

步骤7：自主水下航行器利用PD控制器对规划的路径进行跟踪，完成对目标数据收集器的访问，返回步骤4；

步骤8：当到达自主水下航行器规定访问时间后，自主水下航行器上浮至水面，并将数据传送到水面控制中心，完成本周期数据收集任务。

进一步地，所述传感器节点受水流影响的移动采用弯曲水流移动模型来描述；且所述传感器节点仅在预定的子区域中移动。

进一步地，采用博弈论对传感器网络进行拓扑优化，包括：

在每一轮博弈中，通过调整连接到节点的边，使节点博弈模型的效用函数最大化，生成最优刚性子图；

所述节点博弈模型的效用函数为：u(s_i,s_-i)＝αh_i(s_i,s_-i)+βtrace(X_(p,W))；

其中α是一个大的正数，β是一个正数，trace(X_(p,W))表示刚度矩阵的秩，边的刚度矩阵为：

h_i(s_i,s_-i)为连通性函数，

其中R_(p,W)为加权刚度矩阵。

进一步地，传感器节点基于Q学习算法选择路由策略包括：

定义当前传感器节点s_t，下一个可选传感器节点集A，传感器的奖励函数R(s_t,a_t)定义如下：

其中a_t∈A为下一个选择节点，R_max是最大奖励值，表示当下一个节点是数据收集器时，奖金值被设置为最大值；-R_max是将奖励值设置为负值，以避免传感器节点不直接连接或存在环境空隙时出现空白区域；结合传感器的位置信息，-d_iffi,j为节点之间的距离，表示为了减少传输距离，当下一个节点既不是目标也不是空白区域时，结合传感器节点之间的距离设置负奖励值；通过得到及时的奖励函数R(s_t,a_t)来更新当前节点的Q值，Q值函数Q(s_t,a_t)定义如下：Q(s_t,a_t)＝R(s_t,a_t)+γ×max(Q(s_t+1,a_t+1))；其中折扣因子γ是满足0≤γ＜1的常数；当执行所选节点并得到相应的返回值时，当前节点被转移到下一个选择的节点，根据新节点下的最大Q值和返回值更新前一节点的Q值；直到满足结束条件，停止Q值的更新；传感器节点根据Q矩阵选择最大Q值的节点作为下一跳转发节点，最后将传感器节点收集的数据汇集到数据收集器。

进一步地，所述数据收集器正在收集的事件的数据值包括：

假设一组事件集E＝{E₁,E₂,...,E_|E|}发生在水下监测区域；

当传感器节点i∈{1,...,N}在时间t_k,i监测到事件E_k时，获得对于事件E_k上的监测数据信息值：

其中

分别表示事件E_k的重要性和及时性；0＜β_k＜1表示信息权重，其作用是平衡重要性和及时性之间的权衡；事件重要性可以根据监测级别进行设计和修改；同时，事件时效性是一个单调递减的函数，它随捕捉感知数据的时间衰减；定义一个二进制变量k_k,i，当传感器i感应到事件E_k时，k_k,i＝1，否则为0；任意传感器节点i发送到数据收集器的信息值为：

则数据收集器j得到的传感器的信息值为：RC_j(t)＝∑l_iC_E,i(t)；

其中j∈{1,...,M}，l_i是一个二进制变量，当数据收集器接收传感器i发送的数据时，l_i＝1，否则l_i＝0。

进一步地，数据收集器的收益函数：I_j(t)＝RC_j(t)-αD(t)；其中t∈[0,T]，D(t)是自主水下航行器当前位置到数据收集器j的距离；距离做减法的目的是减少访问距离，α是常数。

进一步地，根据已知海域信息建立水下环境三维模拟，包括：以自主水下航行器的当前位置作为学习过程的初始点，以当前收益函数最大的收集器为目标点，将该区域地图的x轴，y轴和z轴划分为n个部分，使其均匀地离散为M＝n×n×n个区域，自主水下航行器以每个区域作为一个动作，所以有M个可选动作区域；然后根据每个区域的不同先验知识确定奖惩机制，奖惩函数为：

其中上式表示当自主水下航行器下一个动作为目标点区域时，给予奖励R_Amax；当自主水下航行器下一个动作是危险区域或非邻域时，得到惩罚-R_Amax，其中R_Amax为一个较大的常数；当目标状态为其他情况时，不指导全局情况；

进一步地，基于Q学习算法规划到达目标数据收集器的路径，包括：

自主水下航行器随机在M个可选动作中选择当前区域s_t，并根据当前区域的所有可能动作区域中选择一个动作区域a_t，并得到当前区域的奖惩R_A(s_t,a_t)，根据选定的动作区域a_t，作为下一个当前区域s_t+1，计算下一个当前区域s_t+1下的最高Q值，并根据Q_A(s_t,a_t)＝R_A(s_t,a_t)+γ×max(Q_A(s_t+1,a_t+1))更新Q_A(s_t,a_t)；

重复上述步骤，直到Q值满足收敛要求；

自主水下航行器根据更新后的Q值，找出具有最大Q值的动作区域所组成的路径即为最佳路径。

进一步地，所述PD控制器如下：τ＝k_pe(t+1)+k_d(e(t+1)-e(t))；

其中k_p∈R^4×4是比例增益，k_d∈R^4×4是微分增益；通过调整k_p和k_d参数来控制反馈输出数据，驱使自主水下航行器到达目标位置。

进一步地，数据收集器被自主水下航行器访问后，数据值被重置为零。

与现有技术相比，本发明具有以下优点：

1、本发明结合传感器能量和位置信息，对传感器网络进行拓扑优化。该方案可以平衡和降低传感器网络的能耗，提高网络的稳定性。

2、本发明结合Q学习和刚性拓扑，提出了一种新的动态路由协议方案。该方案在减少传输路径的同时，避免环境空洞对数据传输的影响。

3、本发明提出了一种基于动态信息值和Q学习的路径规划策略来指导自主水下航行器，为了实现自主水下航行器轨迹跟踪，本发明还提出了一种基于PD控制器的跟踪控制算法。该方案提高了总收集数据的信息值，同时避免了环境障碍的影响，使数据收集具有较高的精度和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种基于Q学习的自主水下航行器协助下水下数据收集方法的流程图；

图2是本发明实施例中水下网络体系结构的模型示意图；

图3是本发明实施例中基于最优刚性图的传感器网络模拟示意图；

图4为本发明实施例中基于Q学习的传感器局部路由协议模拟示意图；

图5为本发明实施例中基于Q学习的自主水下航行器路径规划的模拟示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

参见图1，其示出了一种基于Q学习的自主水下航行器协助下水下数据收集方法的流程图，具体包括以下步骤：

步骤1：将水下监测区域划分为若干个子区域，每个子区域部署若干个用于执行水下监测任务的传感器节点和一个用于从传感器节点收集数据的数据收集器。

如图2所示，其示出了本发明实施例中水下网络体系结构模型示意图，网络水下体系包括浮标1、传感器节点2、数据收集器3、水下机器人4、水下机器人路径5以及事件6。将水下监测区域划分为M个子区域，每个区域部署N个传感器节点2和一个数据收集器3。

传感器节点2的作用是执行水下监测任务，其时钟同步，位置准确。传感器节点2受水流的影响可以移动。本发明实施例中采用了一种弯曲水流移动模型来描述传感器的移动，任意传感器节点i∈{1,...,N}的移动可以更新为：

z_i(t+1)＝z_fix,i+θ_i(t) (1)

其中：

其中，(x_i,y_i,z_i)∈R³表示传感器节点i的位置，ρ∈R⁺是一个迭代标量，z_fix.i∈R表示传感器节点i的预定义固定深度，θ_i∈R是一种高斯白噪声，κ∈R是单位长度的弯曲数，而c∈R表示相位速度，B(t)＝A+εcos(ωt)为调节弯曲的宽度，A∈R决定平均弯曲宽度，ε∈R表示它的频率。在数据采集周期中，假设水流的变化不频繁，传感器节点不能从预定义的子区域中移动。

数据收集器是静态节点，其作用是收集区域内传感器节点的数据。

其中，通过以下几个方面考虑节点的效用函数：

传感器网络的连通性：为了保证网络的连通性，生成的拓扑图应满足最小刚性，因此定义连通性函数：

其中R_(p,W)为加权刚度矩阵。

传感器网络的稳定性：定义网络中边的刚度矩阵为：

刚度矩阵包含了刚度图的定量信息，特别是，刚性矩阵特征值较大的刚性图具有较好的代数刚性图，具有较好的代数刚性图具有较好的稳定性。矩阵的迹是矩阵的特征值之和，因此保证刚性矩阵的迹大，进而提高网络的稳定性。

传感器网络的能耗：关于声能消耗，本发明实施例中采用了一种常见的水下能量模型。从一个传感器节点到另一个传感器节点的一个数据包传输所消耗的能量被描述为

其中SL∈R⁺表示声纳源级别，l表示传输损耗范围，α表示dB/km中的吸收系数，A表示传输损耗，T_tx是一个数据包所花费的传输时间。最小化网络的相对能耗是平衡传感器网络能耗的途径。将相对能耗定义为

其中RE_i(t)∈R⁺为传输所需能量，AE_i(t)∈R⁺为可用能量。当传感器节点i向传感器节点j发送数据时，传感器节点j上的可用能量不能小于所需能量，以保证数据的正常传输。因此，基于能量的传感器节点在时间t处的路由模型为：

其中N_i表示网络拓扑中传感器节点i邻域的传感器节点集。假设在监测区采用相同的声纳参数，则RE_i(t)＝RE_j(t)＝RE_ij(t)。式(5)可以改写为

定义

作为传感器节点i和j之间边的权重。

基于上述分析，节点博弈模型的效用函数为：

u(s_i,s_-i)＝αh_i(s_i,s_-i)+βtrace(X_(p,W)) (6)

其中α是一个大的正数，β是一个正数，trace(X_(p,W))表示刚度矩阵的秩。

在每一轮博弈中，通过调整连接到节点i的边，使节点博弈模型的效用函数最大化，生成最优刚性子图。删除不属于最优刚性图的边，最终得到全局最优刚性拓扑。即，基于最优刚性图的传感器网络生成，如图3所示。

步骤3：通过步骤2中生成的传感器网络拓扑，得到各个传感器节点的通信节点，并提取海图信息，确定障碍物位置，传感器节点利用Q学习算法选择路由策略。

如图4所示，其中，2代表传感器节点，3代表数据收集器，7代表环境空洞；通过传感器网络拓扑，得到各个传感器节点的合理通信节点，并提取海图信息，确定障碍物位置，传感器节点利用Q学习算法选择路由策略。

利用Q学习算法选择路由策略如下：

定义当前传感器节点s_t，下一个可选传感器节点集A，传感器节点的奖励函数R(s_t,a_t)定义如下：

其中，a_t∈A为下一个选择节点。R_max是最大奖励值，表示当下一个节点是数据收集器时，奖金值被设置为最大值。-R_max是将奖励值设置为负值，以避免传感器节点不直接连接或存在环境空隙时出现空白区域。结合传感器的位置信息，-d_iffi,j为节点之间的距离，表示为了减少传输距离，当下一个节点既不是目标也不是空白区域时，结合传感器节点之间的距离设置负奖励值。

通过得到及时的奖励函数R(s_t,a_t)来更新当前节点的Q值，Q值函数Q(s_t,a_t)定义如下：

Q(s_t,a_t)＝R(s_t,a_t)+γ×max(Q(s_t+1,a_t+1)) (8)

其中折扣因子γ是满足0≤γ＜1的常数。当执行所选节点并得到相应的返回值时，系统当前节点被转移到下一个选择的节点，根据新节点下的最大Q值和返回值更新前一节点的Q值。直到满足结束条件，停止Q值的更新。传感器节点根据Q矩阵选择最大Q值的节点作为下一跳转发节点，最后将传感器收集的数据汇集到数据收集器。

步骤4：每个数据收集器通过声通信向自主水下航行器广播一个短控制数据包，其中包含数据收集器的位置信息和数据收集器正在收集的事件的信息值。

在不失去通用性的情况下，假设一组事件集E＝{E₁,E₂,...,E_|E|}发生在水下监测区域。当传感器节点i∈{1,...,N}在时间t_k,i监测到事件E_k时，它获得对于事件E_k上的监测数据信息值

被定义为：

其中

分别表示事件E_k的重要性和及时性。0＜β_k＜1表示信息权重，其作用是平衡重要性和及时性之间的权衡。事件重要性可以根据监测级别进行设计和修改。事件时效性是一个单调递减的函数，它随捕捉感知数据的时间衰减。

定义一个二进制变量k_k,i，当传感器节点i感应到事件E_k时，k_k,i＝1，否则为0。任意传感器节点i发送到数据收集器的信息值定义为：

则数据收集器j得到的传感器的信息值为：

RC_j(t)＝∑l_iC_E,i(t) (11)

其中j∈{1,...,M}，l_i是一个二进制变量，当数据收集器接收传感器节点i发送的数据时，l_i＝1，否则l_i＝0。

自主水下航行器访问周期时间为T。假设数据收集器的深度为h，自主水下航行器的垂直速度为υ，自主水下航行器的垂直运行时间为t_vertical＝h/υ。则自主水下航行器进行数据收集时间为

在访问时间内，通过位置信息和动态信息值定义数据收集器的收益函数：

I_j(t)＝RC_j(t)-αD(t) (12)

其中t∈[0,T]，D(t)是自主水下航行器当前位置到数据收集器j的距离。距离做减法的目的是减少访问距离，α是常数。

然后自主水下航行器的收益函数定义为：

其中t_in是自主水下航行器开始收集数据的时间。从式(13)可以看出，在访问时间段t∈[0，T]，自主水下航行器在下一刻动态选择收入函数最大的数据收集器作为目标节点。

根据已知海域信息，建立如图5所示的水下环境三维模拟：

以自主水下航行器的当前位置作为学习过程的初始点，以当前收益函数最大的收集器为目标点，将该区域地图的x轴，y轴和z轴划分为n个部分，使其均匀地离散为M＝n×n×n个区域，自主水下航行器以每个区域作为一个动作，所以有M个可选动作区域。然后根据每个区域的不同先验知识确定奖惩机制。奖惩函数为：

式(14)表示当自主水下航行器下一个动作为目标点区域时，给予奖励R_Amax；当自主水下航行器下一个动作是危险区域或非邻域时，得到惩罚-R_Amax，其中R_Amax为一个较大的常数。当目标状态为其他情况时，不指导全局情况。

自主水下航行器利用Q学习算法，规划到达目标数据收集器的路径：

Q_A(s_t,a_t)＝R_A(s_t,a_t)+γ×max(Q_A(s_t+1,a_t+1)) (15)

自主水下航行器随机在M个可选动作中选择当前区域s_t，并根据当前区域的所有可能动作区域中选择一个动作区域a_t，并得到当前区域的奖惩R_A(s_t,a_t)，根据选定的动作区域a_t，作为下一个当前区域s_t+1，计算下一个当前区域s_t+1下的最高Q值，并根据式(15)更新Q_A(s_t,a_t)。重复这些步骤，直到Q值满足收敛要求。自主水下航行器根据更新后的Q值，找出具有最大Q值的动作区域所组成的路径即为最佳路径。

步骤7：通过基站实时确定自主水下航行器的状态位置，并发送到控制中心，设计PD控制器，通过调整比例增益和微分增益参数来控制反馈输出数据，驱使自主水下航行器到达目标位置，完成对当前目标数据收集器的访问。

自主水下航行器完成对当前目标数据收集器的访问后，返回步骤4。为了避免冗余访问，数据收集器被自主水下航行器访问后，数据值被重置为零。

在t时刻，自主水下航行器的位置被定义为X(t)＝[x(t),y(t),z(t),ψ(t)]^T，其中x、y、z分别表示自主水下航行器在X轴、Y轴和Z轴的位置坐标，ψ为偏航的角度。将自主水下航行器的目标位置定义为X_d＝[x_r,y_r,z_r,ψ_r]^T，则位置误差为e(t)＝X_d-X(t)。确定自主水下航行器的目标位置，然后将控制命令发送到自主水下航行器。通过基站实时确定其状态位置，并发送到控制中心。要实现位置跟踪任务，自主水下航行器与目标点之间的相对位置和速度最终需要为零。定义τ＝[F_u,F_v,F_w,T_r]，其中T_r是偏航中施加的扭矩，F_u、F_v和F_w分别表示在滚动、摇摆和起伏时施加的力。

设计的PD控制器如下：

τ＝k_pe(t+1)+k_d(e(t+1)-e(t)) (16)

其中k_p∈R^4×4是比例增益，k_d∈R^4×4是微分增益。通过调整k_p和k_d参数来控制反馈输出数据，驱使自主水下航行器到达目标位置。

本发明实施例具有以下优点：

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，所述传感器节点受水流影响的移动采用弯曲水流移动模型来描述；且所述传感器节点仅在预定的子区域中移动。

3.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，采用博弈论对传感器网络进行拓扑优化，包括：

h_i(s_i,s_-i)为连通性函数，

其中R_(p,W)为加权刚度矩阵。

4.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，传感器节点基于Q学习算法选择路由策略包括：

5.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，所述数据收集器正在收集的事件的数据值包括：

假设一组事件集E＝{E₁,E₂,...,E_|E|}发生在水下监测区域；

其中

6.根据权利要求5所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，数据收集器的收益函数：I_j(t)＝RC_j(t)-αD(t)；其中t∈[0,T]，D(t)是自主水下航行器当前位置到数据收集器j的距离；距离做减法的目的是减少访问距离，α是常数。

7.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，根据已知海域信息建立水下环境三维模拟，包括：以自主水下航行器的当前位置作为学习过程的初始点，以当前收益函数最大的收集器为目标点，将该区域地图的x轴，y轴和z轴划分为n个部分，使其均匀地离散为M＝n×n×n个区域，自主水下航行器以每个区域作为一个动作，所以有M个可选动作区域；然后根据每个区域的不同先验知识确定奖惩机制，奖惩函数为：

其中上式表示当自主水下航行器下一个动作为目标点区域时，给予奖励R_Amax；当自主水下航行器下一个动作是危险区域或非邻域时，得到惩罚-R_Amax，其中R_Amax为一个较大的常数；当目标状态为其他情况时，不指导全局情况。

8.根据权利要求7所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，基于Q学习算法规划到达目标数据收集器的路径，包括：

重复上述步骤，直到Q值满足收敛要求；

9.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，所述PD控制器如下：τ＝k_pe(t+1)+k_d(e(t+1)-e(t))；

10.根据权利要求1所述的基于Q学习的自主水下航行器协助下水下数据收集方法，其特征在于，数据收集器被自主水下航行器访问后，数据值被重置为零。