CN110658833A

CN110658833A - 一种水下环境中多auv实时营救任务分配算法

Info

Publication number: CN110658833A
Application number: CN201910879149.4A
Authority: CN
Inventors: 吴杰宏; 宋成鑫; 范纯龙; 石祥滨; 张德园; 苏馨; 马坚; 孙熙春; 杨京辉
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2020-01-07
Anticipated expiration: 2039-09-18
Also published as: CN110658833B

Abstract

本发明属于自主式水下航行器技术领域，一种水下环境中多AUV实时营救任务分配算法，包括如下步骤，S1:构造复杂的水下环境，包含多个营救区，在不同的位置设球体与长方体障碍物。S2：构建代价函数，使其包含两个部分，一是每个AUV营救路线的长度；其二是当前AUV执行所有营救区情况的回报值，这两个部分按照权重因子进行分配；S3：根据上述的代价函数对粒子进行速度与位置的更新；S4：从强化学习的角度积累营救区的回报值，寻找这种回报的最大值，从而找到一种执行营救过程的最优行为策略。

Description

一种水下环境中多AUV实时营救任务分配算法

技术领域

本发明属于自主式水下航行器技术领域，具体说是通过提出了一种RE-RPSO算法，为多AUV系统在水下能够实现实时的营救任务提供了一种解决方案，具体提供了一种水下环境中多AUV实时营救任务分配算法。

背景技术

多AUV系统在近些年来已经受到研究者的关注，营救任务是多AUV系统的一个主要问题。多AUV系统的任务营救的基本问题是如何将多个营救任务分为若干个子任务，然后将这些子任务分配给不同的AUV，目的是使每个AUV都能够沿着最优化的路径去执行分配的子任务，使多AUV系统在整个营救过程中的代价最小。为了弥补单个AUV执行营救任务的缺陷，缩短营救时间，提高营救效率，多个AUV协同执行营救任务是一种必然趋势。目前，多AUV系统在水下进行实时营救有广泛的应用前景。一般海上事故是由很多不利的因素引起的，如海底暗礁或者恶劣的天气等。当一片海域内发生了多起这样的事故，考虑到船上人员的生命安全，多AUV系统在营救时需要具备路径代价优，快速营救同时较少的考虑任务之间的关联的特点。实时营救是多AUV系统实现上述特点最直观的表现，在水下营救过程中考虑实时性是具有实际意义的。因此多AUV系统在营救时要以实时性为前提，多AUV系统制定合适的营救策略，从而确保营救任务的安全顺利进行。

多AUV系统在执行水下营救任务时，不仅要考虑如何合理的分配营救任务，同时还要考虑如何以更少的代价去执行营救任务。水下的环境是复杂多变的，AUV在奔向营救任务的过程中，可能会存在不可预知的障碍物与海底暗礁的阻碍，为了能够安全执行营救任务，AUV必须要绕过这些障碍物。

发明内容

为此，本发明的主要是为多AUV系统在水下能够实现实时的营救任务提供了一种解决方案，通过回报营救分配的思想将任务分成若干个子任务，将这些子任务分配给多AUV系统，为了确保执行任务的安全性和最小的路径代价，具体方案为：

一种水下环境中多AUV营救实时任务分配方法，包括如下步骤，

S1:构造复杂的水下环境，包含多个营救区，在不同的位置设球体与长方体障碍物；

S2：构建代价函数，使其包含两个部分，一是每个AUV营救路线的长度代价；其二是当前AUV执行所有营救区情况的回报值，这两个部分按照权重因子进行分配；

S3：如果满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时，进行粒子的速度与位置的更新；

S4：通过强化学习训练积累营救区回报值，寻找这些回报值的最大值，从而找到一种执行营救过程的最优行为策略。

在每个营救区外设定一个吸引营救区，根据当前路径点落在设定的营救区与吸引营救区的相对位置可以分为三种情况。

上式中，R₀是营救区的半径，R₁是吸引营救区半径，dist是AUV当前路径点到营救区中心的距离。W^(j)(k)是在j次迭代时第k个营救区的权重系数，ε是每个路径点落在营救区范围内的回报值。

表示在j+1次迭代时第k个营救区的总回报值。每个路径点根据落在营救区与吸引营救区的相对位置分为三种情况。当dist>R₁，此时该路径点落在吸引营救区外，此时路径点的回报值表示为0，当dist<R₀表示当前点落在营救区内，此时当前路径点的回报值为(1+W^(j)(k))ε。当R₀≤dist≤R₁，此时表示该路径点在吸引区域内但不在营救区内，此时该路径点的回报值通过线性函数计算，其回报值为((1-(dist-R₀)/(R₁-R₀))ε)(1+W^(j)(k))。

进一步地，S2步骤中，构建评价粒子的代价函数，该代价函数包含两个部分，其一是每个AUV的营救路线长度代价c_path，其二是当前AUV执行营救任务的回报值c_reward。其代价函数如下：

COST_F＝αc_path-βc_reward

设定权重系数α,β来衡量c_path与c_reward的重要程度。权重系数α,β可以通过主观经验进行设定，本文中分别设置α＝2与β＝10。

进一步地，S3步骤中，如果当前AUV的营救路线上的路径点满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时，进行粒子的速度与位置的更新。在第k次进化时，粒子的速度与位置更新公式如下:

其中，w是惯性权重系数，c₁与c₂是学习因子。r₁与r₂是介于[0,1]区间内的常数，

是在k次迭代时第i个粒子的速度，

是在k+1次迭代时第i个粒子的速度，

是在k次迭代时第i个粒子的位置，

是在k+1次迭代时第i个粒子的位置。

是第k次迭代时每个粒子到当前为止存储的最优经验，

是粒子群中所有粒子当前迭代的全局最优经验；基于公式(1)构建新的代价函数COST_F为:

COST_F＝αc_path-βc_reward (2)

c_path为每个AUV执行若干个子营救任务的路径代价值，c_reward为子营救区的总的回报值；设定权重系数α,β来衡量c_path与c_reward的重要程度。权重系数α,β可以通过主观经验进行设定，本文中分别设置α＝2与β＝10。

进一步地，S4步骤中，c_reward的累积是通过强化学习实现的，假设多AUV系统中有三个AUV,多AUV系统的营救过程通过定义一个元组<S,Θ₁,Θ₂,Θ₃,p,γ₁,γ₂,γ₃>进行描述，该元组具体表现形式如下:

p:S×Θ×S→[0,1]

Θ＝Θ₁×Θ₂×Θ₃

上式中S表示环境的状态集合，Θ₁,Θ₂和Θ₃表示该系统中三个AUV的行为，γ_i是第i个AUV的回报函数，p是状态转移概率函数，Θ表示多AUV系统的动作集合。

进一步地，S4步骤中，从强化学习的角度积累营救区的回报值，公式如下，

上式中α^j为在j次迭代时的折扣因子，r_i,j+1是第i个AUV在第j+1次迭代时的回报值，是第i个AUV累积的回报值，π是一种AUV逐渐靠近各自的最适合的营救区的策略；

表示在策略π引导下，第i个AUV通过一系列状态与行为所获得的累积回报值；这里的s是一种抽象的状态，它可以表示成趋向于营救区的若干位置，a表示要达到这样状态所作出的行为；

最终通过代价函数COST_F寻找最优策略，即，

进一步地，AUV在营救过程的路线可以通过若干的路径点进行标记，针对每个营救区，设中心点位于T_i(x_i,y_i,z_i)，对于路径点P(x,y,z)距离中心点的距离dist可以表达为：

基于dist,对于路径上的每个路径点P(x,y,z)的回报值γ可以表示为:

进一步地，对于营救路线上的每个路径点p(x,y,z)的回报值γ，为了减小营救路线的路径点在营救区附近的波动幅度，加强算法的稳定性，从每个营救区的营救状态出发，提出一个回报权重系数作用于回报值γ的计算。假设有N个营救区，在第i次迭代的回报值之和为：

在计算回报值时，当

时，我们设置

因此回报权重系数可以表达为:

那么经过回报权重系数，作用后的每个路径点P(x,y,z)的回报值γ可以表示为:

W^(j)(k)表示第k个营救区在第j次迭代时回报权重系数，

表示第k个营救区在(j+1)时的回报值。

进一步地，S4步骤中，当路径点在营救区内过度累积时或当AUV在应该执行的营救区任务内不存在路径点时，对营救区的回报值

进行惩罚，

其中η表示路径点在第k个营救区内累积的个数，κ表示营救区路径点累积的个数上限，ε₁表示惩罚回报值为常数；当η>κ时，表示营救区中累积的路径点个数达到阈值上限κ,需要对回报值惩罚；当营救区内没有路径点，根据回报权重系数进行判断回报值

是否要进行惩罚

W^(j)(k)表示j次迭代时第k个营救区的权重系数，W^(j)(k)>0表示j次迭代时对第k个营救区是有“偏爱性”，存在路径点在该营救区内，而在(j+1)次迭代时，W^(j+1)(k)＝0表示没有路径点在该营救区内，在这种情况下，需要对回报值进行惩罚。

附图说明

图1是本发明中多AUV系统设计的实时营救任务技术流程示意图；

图2是本发明的多AUV系统执行营救任务示意图；

图3是本发明的营救区与吸引营救区分布示意图；

图4是本发明的获得c_reward的过程示意图；

图5是本发明的多AUV系统中的AUV1执行T1，T2和T3营救任务的回报值示意图；

图6是本发明的多AUV系统中的AUV2执行T4，T5营救任务的回报值示意图；

图7是本发明的多AUV系统中的AUV3执行T6，T7营救任务的回报值示意图；

图8是本发明的多AUV系统中的总回报值示意图；

图9是本发明的多AUV系统执行营救任务后的代价值示意图；

图10是本发明的多AUV系统执行营救任务路径点落在吸引营救区情况的示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1-10，为了模型化营救任务，假定在一片三维的海域的不同位置设定球体的营救任务。同时考虑到水下环境的复杂性，为了使营救过程更接近实际，设置球体与长方体障碍物，同时还有海底暗礁的凹凸不平的结构，AUV在执行营救任务的过程中需要避免这些障碍物，以确保营救任务的安全进行。另外这里多AUV系统执行任务是从同一个位置出发，然后到达不同的目标位置。考虑到人员的生命安全，多AUV系统执行任务时应考虑最小的路径代价。

为了在每个营救区累积路径点的回报值，定义每个营救区为球体覆盖区域。假设营救区的中心点在T_i(x_i,y_i,z_i)，覆盖半径的大小为R_i。如果多AUV系统中某个AUV被分配执行这个营救任务，定义完成营救任务的状态为AUV的营救路线中至少存在一个路径点P(x,y,z)满足下面等式：

在粒子群优化算法中，粒子通过代价函数不断更新位置与速度来寻找环境中的最优的营救位置，在第k次进化时，粒子的速度与位置更新公式如下:

是第k次迭代时每个粒子到当前为止存储的最优经验，

是粒子群中所有粒子当前迭代的全局最优经验，他们是通过代价函数对粒子进行评价。

通过设定一种新的代价函数来更新粒子群中粒子的速度与位置。这个代价函数由两部分构成，一是营救路线的长度代价，二是营救区累积的回报值。代价函数更新粒子的规则是当这个代价函数越小，当前的粒子的营救路线越优。而当营救区累积的回报值越大时，会引起代价函数越小，回报值越大代表了存在更多的路径点在吸引营救区内累积，表示完成了营救任务，新的代价函数COST_F为:

COST_F＝αc_path-βc_reward

c_path为每个AUV执行若干个子营救任务的路径代价值，c_reward为这些子营救区的总的回报值。α与β分别为路径代价c_path与总回报c_reward的权重因子。

对于多AUV系统中的每个AUV，c_reward的累积是通过强化学习实现的。强化学习是一个智能体与环境不断交互，寻找最优的行为策略的过程。这里的智能体代表多AUV系统，环境代表预先设定的不同的营救区，多AUV系统通过不断与营救区之间交互，累积最大的回报值，这种累积最大回报值的过程可以视为一种寻找最优执行任务营救区的策略；假设多AUV系统中有三个AUV,那么多AUV系统的营救过程可以通过定义一个元组<S,Θ₁,Θ₂,Θ₃,p,γ₁,γ₂,γ₃>进行描述。该元组具体表现形式如下:

p:S×Θ×S→[0,1]

Θ＝Θ₁×Θ₂×Θ₃

其中，S表示环境的状态集合，Θ₁,Θ₂和Θ₃表示该系统中三个AUV的行为，γ_i是第i个AUV的回报函数，p是状态转移概率函数，Θ表示多AUV系统的动作集合。这里，使用了强化学习的思想进行回报值的累积，强化学习的特点是起初对环境一无所知，实际能做的，就是不断的使AUV与环境进行接触，从环境中学习到相应的经验，为了使下一次做的更好。所以在强化学习收敛之前，它对环境发出的行为是一种随机状态，但是随着AUV对环境经验的逐渐增多，这种随机性会逐渐的减小。所以上述的描述本身就是一个抽象且随机的过程，很难进行量化，但是通过强化学习，知道目前为止积累的最优经验，所以上式是对强化学习过程在多AUV营救任务下的一个抽象描述，他并不是一个所谓的具体我要怎么算出来这个状态，因为本身就具有随机性。这里状态的含义实际上就是某个时间点下AUV的所处的位置。由于代价函数COST_F的作用，多AUV系统中每个AUV会自主的选择最适合的营救任务组合。随着迭代的进行，AUV会逐渐靠近各自的最适合的营救区，这种靠近营救区的行为可以视为一种策略，策略π可以通过强化学习的方式实现，其目标是要累积在所有营救区的回报值。

上式中α^j为在j次迭代时的折扣因子，r_i,j+1是第i个AUV在第j+1次迭代时的回报值。

是第i个AUV累积的回报值，它就可以视为一种策略。

针对多AUV系统中的AUV,当找到最适合的营救任务组合后，这些营救区的回报值会不断累积。随着算法的不断迭代，一定会找到最优的策略。这里将寻找最优的策略转化为寻找

的最大值的过程。这里寻找最优策略是通过代价函数COST_F来实现的，通过该代价函数，累积的回报值c_reward越大，其代价值COST_F就会越小，粒子群是通过代价值COST_F来选择最优粒子的，其值越小，标记该代价值的粒子就越有可能被选择成为最优粒子，而这种累计回报值行为一定代表存在一定数量的路径点在吸引营救区内，标志着完成了营救任务。

上式中α^j为在j次迭代时的折扣因子，r_i,j+1是第i个AUV在第j+1次迭代时的回报值，

是第i个AUV累积的回报值，π是一种AUV逐渐靠近各自的最适合的营救区的策略；

表示在策略π引导下，第i个AUV通过一系列状态与行为所获得的累积回报值；这里的s是一种抽象的状态，它可以表示成趋向于营救区的若干位置，a表示要达到这样状态所作出的行为。

AUV在营救过程的路线可以通过若干的路径点进行标记，针对每个营救区，假设中心点位于T_i(x_i,y_i,z_i)，对于路径点P(x,y,z)距离中心点的距离dist可以表达为：

每个吸引营救区与对应的营救区是中心重合，营救区的半径R₀小于吸引营救区的半径R₁，每个路径点在这种结构下具有三种位置关系。即路径点在吸引营救区外，路径点在吸引营救区内，路径点在营救区内。上面的分段函数分别表达了三种情况下的该路径点的回报值情况。考虑到营救区是一个球体，路径点在营救区内，能获得最大的常值回报，但是考虑到当路径点在这个营救区球体外，但是已经很接近这个营救区，这时路径点的回报值仍然为0，实际上此时路径点已经在营救区附近，但是多AUV系统并没有感觉到这种情况的发生。如果此时对于这种位置的路径点仍然能有回报值，根据代价函数，能够更快且更稳定的接近任务区。基于这样的考虑，构建一个虚拟的吸引营救区，吸引营救区是我们提出的一个创新概念，由于每个营救区是一个球体，所以我们设定每个吸引营救区也同样是一个球体。每个吸引营救区中心与营救区中心重合，但是吸引营救区的半径大于营救区的半径，但是吸引营救区是除去营救区区域的空心球体。这个吸引营救区的中心与营救区的中心一致，但是半径更大，包含了营救区。这样对于在营救区的路径点，赋予最大的回报值，对于在营救区外却在吸引营救区内路径点，设定一个线性回报函数计算回报值。对于在这个范围的路径点，根据距离营救中心的距离计算回报值，当它越接近营救区时，该路径点的回报值越接近最大的回报值，当它越接近吸引营救区外，将要脱离吸引营救区时，其回报值越接近0；我们针对每个营救区提出一个吸引营救区，这个吸引营救区同样是一个球体，并且中心点与营救区的中心点相同，但是吸引营救区半径R₁大于营救区的半径R₀，上式的回报值计算分为三种情况：(1)当dist>R₁时，说明路径点位于吸引营救区外，这时路径点的回报值为0，表示路径点不受吸引营救区的吸引。(2)当dist<R₀时，表示已经存在路径点在营救区范围内，根据任务完成的定义，AUV已经完成该营救任务，该路径点的回报值为ε。(3)当R₀≤dist≤R₁时，表示路径点在构造的虚拟吸引营救区内但是在营救区外，由于该路径点没有在营救区内，所以不能赋予回报值ε。提出一个线性回报函数来计算这种情况下的回报值，该线性函数会根据当前路径点到营救区的距离线性赋予在0到ε的回报值。根据当前路径点与营救区中心点距离，当dist趋于R₀时，此时γ趋于ε，表示路径点趋于营救区。当dist趋于R₁时，此时γ趋于0，表示路径点将离开吸引营救区，路径点不受吸引营救区的作用。

那么，一个营救区的总的回报值可以视为在吸引营救区范围内的所有这样的路径点的回报值之和。设定一个权重回报系数，这个系数是所有营救区的回报值的权重系数。根据设定，在营救区内回报值为正才代表有路径点在营救区内，这样计算权重才具有实际意义，因此在计算回报权重系数时，设定回报值小于0的营救的回报值为0。然后将这个计算的权重作用于回报值的计算上。随着不断迭代，权重回报系数中大于0的营救区的回报值不断被强化。根据代价函数，这种不断被强化的回报值会引起路径点的回报值更大范围的减小，更加有利于最优粒子的选择，而最优粒子决定着营救的路线。这样不仅加快了算法的执行，同时能够标记不同营救区的营救状态。

为了加速RE-RPSO算法同时标记每个营救区的营救状态，我们提出一个回报权重系数作用于回报值γ的计算，假设有N个营救区，在第i次迭代的回报值之和为：

在回报值计算上，我们认为只有当

时进行计算才有意义，因为此时路径点至少位于吸引营救区内，而

时，路径点不在吸引营救区内，这样的路径点是不具有执行营救任务的能力，因此在计算回报值

时，当

时，我们设置因此回报权重系数可以表达为:

那么经过权重系数作用后的每个路径点P(x,y,z)的回报值γ可以表示为:

W^(j)(k)表示第k个营救区在第j次迭代时回报权重系数，

表示第k个营救区在(j+1)时的回报值。从上式可以看出，在进行(j+1)次迭代的回报值计算时，会将j次迭代的所有营救区的回报值情况以权重系数的形式进行传递，我们将回报值的这种现象称为“强者恒强”。同时不难发现，提出的这个权重系数，会使回报值有更大的增加幅度，通过代价函数COST_F的作用，其代价值会有更大程度的减小，增加了RE-RPSO算法的收敛速度。

为了使营救路径点经过营救区，同时为了避免生成的营救路线过于扭曲不符合实际，这里需要对每个营救区的回报值惩罚，这种惩罚包括两个方面：(1)一是路径点在吸引营救区内过度累积，造成营救路线的扭曲，造成这种现象原因是由于代价函数的作用，吸引营救区采用贪婪的方式吸引路径点，如果对吸引营救区内路径点进行限制，会导致路径点在这个区域内过度累积。因此设定吸引营救区路径点个数的上限，如果超过这个上限,对这个吸引营救区的回报值惩罚；(2)营二是路径点没有经过吸引营救区，对于多AUV系统的单一AUV，它不可能执行所有预设的营救任务，因此对于在某些营救任务下没有路径点也是正常。通过权重回报系数来判断AUV是否执行特定的营救任务。如果通过权重系数判断该AUV应该执行这个营救任务，但是却没有执行。出现第一种现象的原因是吸引营救区是通过贪婪的方式吸引路径点，如果不设置路径点累积的上限，很容易造成路径点在每个吸引营救区内过于累积，从而产生营救的路线过度扭曲，不符合实际，需要对营救区的回报值

惩罚。

其中，η表示路径点在第k个营救区内累积的个数，κ表示营救区路径点累积的个数上限，ε₁表示惩罚回报值，是一个常数。当η>κ时，表示营救区中累积的路径点个数达到阈值上限κ,需要对回报值惩罚。出现第二种现象，营救区内没有路径点应该分为两个方面来看：一方面，针对多AUV系统中单一AUV，它不可能执行所有的营救任务，在某些营救区内没有路径点也是正常现象。另一方面，对于AUV应该执行的营救区没有路径点就是不正常的现象。提出的回报权重系数具有“偏爱性”，每个AUV的回报权重系数会对不同的任务有不同的“偏爱”，使这些营救区的权重系数大于0，而不偏爱的营救区的回报权重系数为0。因此我们根据回报权重系数进行判断回报值

是否要进行惩罚。

W^(j)(k)表示j次迭代时第k个营救区的权重系数。W^(j)(k)>0表示j次迭代时对第k个营救区是有“偏爱性”。存在路径点在该营救区内，而在(j+1)次迭代时，W^(j+1)(k)＝0表示没有路径点在该营救区内，在这种情况下，需要对回报值

进行惩罚。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水下环境中多AUV实时营救任务分配算法，其特征在于：包括如下步骤，

S1:构造复杂的水下环境，包含多个营救区及对应的吸引营救区，在不同的位置设球体与长方体障碍物；

S2：构建代价函数，使其包含两个部分，一是每个AUV营救路线的长度代价；其二是当前AUV执行营救任务的回报值，这两个部分按照权重因子进行分配；

2.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：在每个营救区外设定一个吸引营救区，根据当前路径点落在设定的营救区与吸引营救区的相对位置可以分为三种情况：

上式中，R₀是营救区的半径，R₁是吸引营救区半径，dist是AUV当前路径点到营救区中心的距离；W^(j)(k)是在j次迭代时第k个营救区的权重系数，ε是每个路径点落在营救区范围内的回报值；

表示在j+1次迭代时第k个营救区的总回报值；每个路径点根据落在营救区与吸引营救区的相对位置分为三种情况；当dist>R₁，此时该路径点落在吸引营救区外，此时路径点的回报值表示为0，当dist<R₀表示当前点落在营救区内，此时当前路径点的回报值为(1+W^(j)(k))ε；当R₀≤dist≤R₁，此时表示该路径点在吸引区域内但不在营救区内，此时该路径点的回报值通过线性函数计算，其回报值为((1-(dist-R₀)/(R₁-R₀))ε)(1+W^(j)(k))。

3.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S2步骤中，构建评价粒子的代价函数，该代价函数包含两个部分，其一是每个AUV的营救路线长度代价c_path，其二是当前AUV执行营救任务的回报值c_reward；其代价函数如下：

COST_F＝αc_path-βc_reward

设定权重系数α,β来衡量c_path与c_reward的重要程度；权重系数α,β可以通过主观经验进行设定，本文中分别设置α＝2与β＝10。

4.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S3步骤中，如果当前AUV的营救路线上的路径点满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时，进行粒子的速度与位置的更新；在第k次进化时，粒子的速度与位置更新公式如下:

其中，w是惯性权重系数，c₁与c₂是学习因子；r₁与r₂是介于[0,1]区间内的常数，

是在k次迭代时第i个粒子的速度，是在k+1次迭代时第i个粒子的速度，

是在k次迭代时第i个粒子的位置，

是在k+1次迭代时第i个粒子的位置；是第k次迭代时每个粒子到当前为止存储的最优经验，

是粒子群中所有粒子当前迭代的全局最优经验。

5.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S4步骤中，c_reward通过强化学习训练积累营救区回报值，寻找这些回报值的最大值，从而找到一种执行营救过程的最优行为策略；假设多AUV系统中有三个AUV,多AUV系统的营救过程通过定义一个元组<S,Θ₁,Θ₂,Θ₃,p,γ₁,γ₂,γ₃>进行描述，该元组具体表现形式如下:

p:S×Θ×S→[0,1]

Θ＝Θ₁×Θ₂×Θ₃

6.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S4步骤中，c_reward从强化学习的训练积累营救区的回报值，公式如下，

最终通过代价函数COST_F寻找最优策略，即，

7.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S4步骤中，AUV在营救过程的路线可以通过若干的路径点进行标记，针对每个营救区，设中心点位于T_i(x_i,y_i,z_i)，对于路径点P(x,y,z)距离中心点的距离dist可以表达为：

基于dist,对于营救路线上的每个路径点P(x,y,z)的回报值γ可以表示为:

8.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法，其特征在于：S4步骤中，对于营救路线上的每个路径点p(x,y,z)的回报值γ，为了减小营救路线的路径点在营救区附近的波动幅度，加强算法的稳定性，从每个营救区的营救状态出发，提出一个回报权重系数作用于回报值γ的计算；假设有N个营救区，在第i次迭代的回报值之和为：