CN110658833A - 一种水下环境中多auv实时营救任务分配算法 - Google Patents

一种水下环境中多auv实时营救任务分配算法 Download PDF

Info

Publication number
CN110658833A
CN110658833A CN201910879149.4A CN201910879149A CN110658833A CN 110658833 A CN110658833 A CN 110658833A CN 201910879149 A CN201910879149 A CN 201910879149A CN 110658833 A CN110658833 A CN 110658833A
Authority
CN
China
Prior art keywords
rescue
auv
area
return value
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910879149.4A
Other languages
English (en)
Other versions
CN110658833B (zh
Inventor
吴杰宏
宋成鑫
范纯龙
石祥滨
张德园
苏馨
马坚
孙熙春
杨京辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN201910879149.4A priority Critical patent/CN110658833B/zh
Publication of CN110658833A publication Critical patent/CN110658833A/zh
Application granted granted Critical
Publication of CN110658833B publication Critical patent/CN110658833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Navigation (AREA)

Abstract

本发明属于自主式水下航行器技术领域,一种水下环境中多AUV实时营救任务分配算法,包括如下步骤,S1:构造复杂的水下环境,包含多个营救区,在不同的位置设球体与长方体障碍物。S2:构建代价函数,使其包含两个部分,一是每个AUV营救路线的长度;其二是当前AUV执行所有营救区情况的回报值,这两个部分按照权重因子进行分配;S3:根据上述的代价函数对粒子进行速度与位置的更新;S4:从强化学习的角度积累营救区的回报值,寻找这种回报的最大值,从而找到一种执行营救过程的最优行为策略。

Description

一种水下环境中多AUV实时营救任务分配算法
技术领域
本发明属于自主式水下航行器技术领域,具体说是通过提出了一种RE-RPSO算法,为多AUV系统在水下能够实现实时的营救任务提供了一种解决方案,具体提供了一种水下环境中多AUV实时营救任务分配算法。
背景技术
多AUV系统在近些年来已经受到研究者的关注,营救任务是多AUV系统的一个主要问题。多AUV系统的任务营救的基本问题是如何将多个营救任务分为若干个子任务,然后将这些子任务分配给不同的AUV,目的是使每个AUV都能够沿着最优化的路径去执行分配的子任务,使多AUV系统在整个营救过程中的代价最小。为了弥补单个AUV执行营救任务的缺陷,缩短营救时间,提高营救效率,多个AUV协同执行营救任务是一种必然趋势。目前,多AUV系统在水下进行实时营救有广泛的应用前景。一般海上事故是由很多不利的因素引起的,如海底暗礁或者恶劣的天气等。当一片海域内发生了多起这样的事故,考虑到船上人员的生命安全,多AUV系统在营救时需要具备路径代价优,快速营救同时较少的考虑任务之间的关联的特点。实时营救是多AUV系统实现上述特点最直观的表现,在水下营救过程中考虑实时性是具有实际意义的。因此多AUV系统在营救时要以实时性为前提,多AUV系统制定合适的营救策略,从而确保营救任务的安全顺利进行。
多AUV系统在执行水下营救任务时,不仅要考虑如何合理的分配营救任务,同时还要考虑如何以更少的代价去执行营救任务。水下的环境是复杂多变的,AUV在奔向营救任务的过程中,可能会存在不可预知的障碍物与海底暗礁的阻碍,为了能够安全执行营救任务,AUV必须要绕过这些障碍物。
发明内容
为此,本发明的主要是为多AUV系统在水下能够实现实时的营救任务提供了一种解决方案,通过回报营救分配的思想将任务分成若干个子任务,将这些子任务分配给多AUV系统,为了确保执行任务的安全性和最小的路径代价,具体方案为:
一种水下环境中多AUV营救实时任务分配方法,包括如下步骤,
S1:构造复杂的水下环境,包含多个营救区,在不同的位置设球体与长方体障碍物;
S2:构建代价函数,使其包含两个部分,一是每个AUV营救路线的长度代价;其二是当前AUV执行所有营救区情况的回报值,这两个部分按照权重因子进行分配;
S3:如果满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时,进行粒子的速度与位置的更新;
S4:通过强化学习训练积累营救区回报值,寻找这些回报值的最大值,从而找到一种执行营救过程的最优行为策略。
在每个营救区外设定一个吸引营救区,根据当前路径点落在设定的营救区与吸引营救区的相对位置可以分为三种情况。
上式中,R0是营救区的半径,R1是吸引营救区半径,dist是AUV当前路径点到营救区中心的距离。W(j)(k)是在j次迭代时第k个营救区的权重系数,ε是每个路径点落在营救区范围内的回报值。
Figure BDA0002205324360000031
表示在j+1次迭代时第k个营救区的总回报值。每个路径点根据落在营救区与吸引营救区的相对位置分为三种情况。当dist>R1,此时该路径点落在吸引营救区外,此时路径点的回报值表示为0,当dist<R0表示当前点落在营救区内,此时当前路径点的回报值为(1+W(j)(k))ε。当R0≤dist≤R1,此时表示该路径点在吸引区域内但不在营救区内,此时该路径点的回报值通过线性函数计算,其回报值为((1-(dist-R0)/(R1-R0))ε)(1+W(j)(k))。
进一步地,S2步骤中,构建评价粒子的代价函数,该代价函数包含两个部分,其一是每个AUV的营救路线长度代价c_path,其二是当前AUV执行营救任务的回报值c_reward。其代价函数如下:
COST_F=αc_path-βc_reward
设定权重系数α,β来衡量c_path与c_reward的重要程度。权重系数α,β可以通过主观经验进行设定,本文中分别设置α=2与β=10。
进一步地,S3步骤中,如果当前AUV的营救路线上的路径点满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时,进行粒子的速度与位置的更新。在第k次进化时,粒子的速度与位置更新公式如下:
Figure BDA0002205324360000032
其中,w是惯性权重系数,c1与c2是学习因子。r1与r2是介于[0,1]区间内的常数,
Figure BDA0002205324360000033
是在k次迭代时第i个粒子的速度,
Figure BDA0002205324360000034
是在k+1次迭代时第i个粒子的速度,
Figure BDA0002205324360000035
是在k次迭代时第i个粒子的位置,
Figure BDA0002205324360000036
是在k+1次迭代时第i个粒子的位置。
Figure BDA0002205324360000041
是第k次迭代时每个粒子到当前为止存储的最优经验,
Figure BDA0002205324360000042
是粒子群中所有粒子当前迭代的全局最优经验;基于公式(1)构建新的代价函数COST_F为:
COST_F=αc_path-βc_reward (2)
c_path为每个AUV执行若干个子营救任务的路径代价值,c_reward为子营救区的总的回报值;设定权重系数α,β来衡量c_path与c_reward的重要程度。权重系数α,β可以通过主观经验进行设定,本文中分别设置α=2与β=10。
进一步地,S4步骤中,c_reward的累积是通过强化学习实现的,假设多AUV系统中有三个AUV,多AUV系统的营救过程通过定义一个元组<S,Θ123,p,γ123>进行描述,该元组具体表现形式如下:
p:S×Θ×S→[0,1]
Θ=Θ1×Θ2×Θ3
上式中S表示环境的状态集合,Θ12和Θ3表示该系统中三个AUV的行为,γi是第i个AUV的回报函数,p是状态转移概率函数,Θ表示多AUV系统的动作集合。
进一步地,S4步骤中,从强化学习的角度积累营救区的回报值,公式如下,
Figure BDA0002205324360000043
上式中αj为在j次迭代时的折扣因子,ri,j+1是第i个AUV在第j+1次迭代时的回报值,是第i个AUV累积的回报值,π是一种AUV逐渐靠近各自的最适合的营救区的策略;
Figure BDA0002205324360000045
表示在策略π引导下,第i个AUV通过一系列状态与行为所获得的累积回报值;这里的s是一种抽象的状态,它可以表示成趋向于营救区的若干位置,a表示要达到这样状态所作出的行为;
最终通过代价函数COST_F寻找最优策略,即,
Figure BDA0002205324360000051
进一步地,AUV在营救过程的路线可以通过若干的路径点进行标记,针对每个营救区,设中心点位于Ti(xi,yi,zi),对于路径点P(x,y,z)距离中心点的距离dist可以表达为:
Figure BDA0002205324360000052
基于dist,对于路径上的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure BDA0002205324360000053
进一步地,对于营救路线上的每个路径点p(x,y,z)的回报值γ,为了减小营救路线的路径点在营救区附近的波动幅度,加强算法的稳定性,从每个营救区的营救状态出发,提出一个回报权重系数作用于回报值γ的计算。假设有N个营救区,在第i次迭代的回报值之和为:
Figure BDA0002205324360000054
在计算回报值时,当
Figure BDA0002205324360000056
时,我们设置
Figure BDA0002205324360000057
因此回报权重系数可以表达为:
Figure BDA0002205324360000058
那么经过回报权重系数,作用后的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure BDA0002205324360000059
W(j)(k)表示第k个营救区在第j次迭代时回报权重系数,
Figure BDA0002205324360000061
表示第k个营救区在(j+1)时的回报值。
进一步地,S4步骤中,当路径点在营救区内过度累积时或当AUV在应该执行的营救区任务内不存在路径点时,对营救区的回报值
Figure BDA0002205324360000062
进行惩罚,
Figure BDA0002205324360000063
其中η表示路径点在第k个营救区内累积的个数,κ表示营救区路径点累积的个数上限,ε1表示惩罚回报值为常数;当η>κ时,表示营救区中累积的路径点个数达到阈值上限κ,需要对回报值惩罚;当营救区内没有路径点,根据回报权重系数进行判断回报值
Figure BDA0002205324360000064
是否要进行惩罚
Figure BDA0002205324360000065
W(j)(k)表示j次迭代时第k个营救区的权重系数,W(j)(k)>0表示j次迭代时对第k个营救区是有“偏爱性”,存在路径点在该营救区内,而在(j+1)次迭代时,W(j+1)(k)=0表示没有路径点在该营救区内,在这种情况下,需要对回报值进行惩罚。
附图说明
图1是本发明中多AUV系统设计的实时营救任务技术流程示意图;
图2是本发明的多AUV系统执行营救任务示意图;
图3是本发明的营救区与吸引营救区分布示意图;
图4是本发明的获得c_reward的过程示意图;
图5是本发明的多AUV系统中的AUV1执行T1,T2和T3营救任务的回报值示意图;
图6是本发明的多AUV系统中的AUV2执行T4,T5营救任务的回报值示意图;
图7是本发明的多AUV系统中的AUV3执行T6,T7营救任务的回报值示意图;
图8是本发明的多AUV系统中的总回报值示意图;
图9是本发明的多AUV系统执行营救任务后的代价值示意图;
图10是本发明的多AUV系统执行营救任务路径点落在吸引营救区情况的示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1-10,为了模型化营救任务,假定在一片三维的海域的不同位置设定球体的营救任务。同时考虑到水下环境的复杂性,为了使营救过程更接近实际,设置球体与长方体障碍物,同时还有海底暗礁的凹凸不平的结构,AUV在执行营救任务的过程中需要避免这些障碍物,以确保营救任务的安全进行。另外这里多AUV系统执行任务是从同一个位置出发,然后到达不同的目标位置。考虑到人员的生命安全,多AUV系统执行任务时应考虑最小的路径代价。
为了在每个营救区累积路径点的回报值,定义每个营救区为球体覆盖区域。假设营救区的中心点在Ti(xi,yi,zi),覆盖半径的大小为Ri。如果多AUV系统中某个AUV被分配执行这个营救任务,定义完成营救任务的状态为AUV的营救路线中至少存在一个路径点P(x,y,z)满足下面等式:
Figure BDA0002205324360000081
在粒子群优化算法中,粒子通过代价函数不断更新位置与速度来寻找环境中的最优的营救位置,在第k次进化时,粒子的速度与位置更新公式如下:
Figure BDA0002205324360000082
Figure BDA0002205324360000083
Figure BDA0002205324360000084
是第k次迭代时每个粒子到当前为止存储的最优经验,
Figure BDA0002205324360000085
是粒子群中所有粒子当前迭代的全局最优经验,他们是通过代价函数对粒子进行评价。
通过设定一种新的代价函数来更新粒子群中粒子的速度与位置。这个代价函数由两部分构成,一是营救路线的长度代价,二是营救区累积的回报值。代价函数更新粒子的规则是当这个代价函数越小,当前的粒子的营救路线越优。而当营救区累积的回报值越大时,会引起代价函数越小,回报值越大代表了存在更多的路径点在吸引营救区内累积,表示完成了营救任务,新的代价函数COST_F为:
COST_F=αc_path-βc_reward
c_path为每个AUV执行若干个子营救任务的路径代价值,c_reward为这些子营救区的总的回报值。α与β分别为路径代价c_path与总回报c_reward的权重因子。
对于多AUV系统中的每个AUV,c_reward的累积是通过强化学习实现的。强化学习是一个智能体与环境不断交互,寻找最优的行为策略的过程。这里的智能体代表多AUV系统,环境代表预先设定的不同的营救区,多AUV系统通过不断与营救区之间交互,累积最大的回报值,这种累积最大回报值的过程可以视为一种寻找最优执行任务营救区的策略;假设多AUV系统中有三个AUV,那么多AUV系统的营救过程可以通过定义一个元组<S,Θ123,p,γ123>进行描述。该元组具体表现形式如下:
Figure BDA0002205324360000094
p:S×Θ×S→[0,1]
Θ=Θ1×Θ2×Θ3
其中,S表示环境的状态集合,Θ12和Θ3表示该系统中三个AUV的行为,γi是第i个AUV的回报函数,p是状态转移概率函数,Θ表示多AUV系统的动作集合。这里,使用了强化学习的思想进行回报值的累积,强化学习的特点是起初对环境一无所知,实际能做的,就是不断的使AUV与环境进行接触,从环境中学习到相应的经验,为了使下一次做的更好。所以在强化学习收敛之前,它对环境发出的行为是一种随机状态,但是随着AUV对环境经验的逐渐增多,这种随机性会逐渐的减小。所以上述的描述本身就是一个抽象且随机的过程,很难进行量化,但是通过强化学习,知道目前为止积累的最优经验,所以上式是对强化学习过程在多AUV营救任务下的一个抽象描述,他并不是一个所谓的具体我要怎么算出来这个状态,因为本身就具有随机性。这里状态的含义实际上就是某个时间点下AUV的所处的位置。由于代价函数COST_F的作用,多AUV系统中每个AUV会自主的选择最适合的营救任务组合。随着迭代的进行,AUV会逐渐靠近各自的最适合的营救区,这种靠近营救区的行为可以视为一种策略,策略π可以通过强化学习的方式实现,其目标是要累积在所有营救区的回报值。
Figure BDA0002205324360000091
上式中αj为在j次迭代时的折扣因子,ri,j+1是第i个AUV在第j+1次迭代时的回报值。
Figure BDA0002205324360000092
是第i个AUV累积的回报值,它就可以视为一种策略。
针对多AUV系统中的AUV,当找到最适合的营救任务组合后,这些营救区的回报值会不断累积。随着算法的不断迭代,一定会找到最优的策略。这里将寻找最优的策略转化为寻找
Figure BDA0002205324360000093
的最大值的过程。这里寻找最优策略是通过代价函数COST_F来实现的,通过该代价函数,累积的回报值c_reward越大,其代价值COST_F就会越小,粒子群是通过代价值COST_F来选择最优粒子的,其值越小,标记该代价值的粒子就越有可能被选择成为最优粒子,而这种累计回报值行为一定代表存在一定数量的路径点在吸引营救区内,标志着完成了营救任务。
Figure BDA0002205324360000101
上式中αj为在j次迭代时的折扣因子,ri,j+1是第i个AUV在第j+1次迭代时的回报值,
Figure BDA0002205324360000102
是第i个AUV累积的回报值,π是一种AUV逐渐靠近各自的最适合的营救区的策略;
Figure BDA0002205324360000103
表示在策略π引导下,第i个AUV通过一系列状态与行为所获得的累积回报值;这里的s是一种抽象的状态,它可以表示成趋向于营救区的若干位置,a表示要达到这样状态所作出的行为。
AUV在营救过程的路线可以通过若干的路径点进行标记,针对每个营救区,假设中心点位于Ti(xi,yi,zi),对于路径点P(x,y,z)距离中心点的距离dist可以表达为:
Figure BDA0002205324360000104
基于dist,对于路径上的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure BDA0002205324360000105
每个吸引营救区与对应的营救区是中心重合,营救区的半径R0小于吸引营救区的半径R1,每个路径点在这种结构下具有三种位置关系。即路径点在吸引营救区外,路径点在吸引营救区内,路径点在营救区内。上面的分段函数分别表达了三种情况下的该路径点的回报值情况。考虑到营救区是一个球体,路径点在营救区内,能获得最大的常值回报,但是考虑到当路径点在这个营救区球体外,但是已经很接近这个营救区,这时路径点的回报值仍然为0,实际上此时路径点已经在营救区附近,但是多AUV系统并没有感觉到这种情况的发生。如果此时对于这种位置的路径点仍然能有回报值,根据代价函数,能够更快且更稳定的接近任务区。基于这样的考虑,构建一个虚拟的吸引营救区,吸引营救区是我们提出的一个创新概念,由于每个营救区是一个球体,所以我们设定每个吸引营救区也同样是一个球体。每个吸引营救区中心与营救区中心重合,但是吸引营救区的半径大于营救区的半径,但是吸引营救区是除去营救区区域的空心球体。这个吸引营救区的中心与营救区的中心一致,但是半径更大,包含了营救区。这样对于在营救区的路径点,赋予最大的回报值,对于在营救区外却在吸引营救区内路径点,设定一个线性回报函数计算回报值。对于在这个范围的路径点,根据距离营救中心的距离计算回报值,当它越接近营救区时,该路径点的回报值越接近最大的回报值,当它越接近吸引营救区外,将要脱离吸引营救区时,其回报值越接近0;我们针对每个营救区提出一个吸引营救区,这个吸引营救区同样是一个球体,并且中心点与营救区的中心点相同,但是吸引营救区半径R1大于营救区的半径R0,上式的回报值计算分为三种情况:(1)当dist>R1时,说明路径点位于吸引营救区外,这时路径点的回报值为0,表示路径点不受吸引营救区的吸引。(2)当dist<R0时,表示已经存在路径点在营救区范围内,根据任务完成的定义,AUV已经完成该营救任务,该路径点的回报值为ε。(3)当R0≤dist≤R1时,表示路径点在构造的虚拟吸引营救区内但是在营救区外,由于该路径点没有在营救区内,所以不能赋予回报值ε。提出一个线性回报函数来计算这种情况下的回报值,该线性函数会根据当前路径点到营救区的距离线性赋予在0到ε的回报值。根据当前路径点与营救区中心点距离,当dist趋于R0时,此时γ趋于ε,表示路径点趋于营救区。当dist趋于R1时,此时γ趋于0,表示路径点将离开吸引营救区,路径点不受吸引营救区的作用。
那么,一个营救区的总的回报值可以视为在吸引营救区范围内的所有这样的路径点的回报值之和。设定一个权重回报系数,这个系数是所有营救区的回报值的权重系数。根据设定,在营救区内回报值为正才代表有路径点在营救区内,这样计算权重才具有实际意义,因此在计算回报权重系数时,设定回报值小于0的营救的回报值为0。然后将这个计算的权重作用于回报值的计算上。随着不断迭代,权重回报系数中大于0的营救区的回报值不断被强化。根据代价函数,这种不断被强化的回报值会引起路径点的回报值更大范围的减小,更加有利于最优粒子的选择,而最优粒子决定着营救的路线。这样不仅加快了算法的执行,同时能够标记不同营救区的营救状态。
为了加速RE-RPSO算法同时标记每个营救区的营救状态,我们提出一个回报权重系数作用于回报值γ的计算,假设有N个营救区,在第i次迭代的回报值之和为:
Figure BDA0002205324360000121
在回报值计算上,我们认为只有当
Figure BDA0002205324360000122
时进行计算才有意义,因为此时路径点至少位于吸引营救区内,而
Figure BDA0002205324360000123
时,路径点不在吸引营救区内,这样的路径点是不具有执行营救任务的能力,因此在计算回报值
Figure BDA0002205324360000124
时,当
Figure BDA0002205324360000125
时,我们设置因此回报权重系数可以表达为:
Figure BDA0002205324360000127
那么经过权重系数作用后的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure BDA0002205324360000131
W(j)(k)表示第k个营救区在第j次迭代时回报权重系数,
Figure BDA0002205324360000132
表示第k个营救区在(j+1)时的回报值。从上式可以看出,在进行(j+1)次迭代的回报值计算时,会将j次迭代的所有营救区的回报值情况以权重系数的形式进行传递,我们将回报值的这种现象称为“强者恒强”。同时不难发现,提出的这个权重系数,会使回报值有更大的增加幅度,通过代价函数COST_F的作用,其代价值会有更大程度的减小,增加了RE-RPSO算法的收敛速度。
为了使营救路径点经过营救区,同时为了避免生成的营救路线过于扭曲不符合实际,这里需要对每个营救区的回报值惩罚,这种惩罚包括两个方面:(1)一是路径点在吸引营救区内过度累积,造成营救路线的扭曲,造成这种现象原因是由于代价函数的作用,吸引营救区采用贪婪的方式吸引路径点,如果对吸引营救区内路径点进行限制,会导致路径点在这个区域内过度累积。因此设定吸引营救区路径点个数的上限,如果超过这个上限,对这个吸引营救区的回报值惩罚;(2)营二是路径点没有经过吸引营救区,对于多AUV系统的单一AUV,它不可能执行所有预设的营救任务,因此对于在某些营救任务下没有路径点也是正常。通过权重回报系数来判断AUV是否执行特定的营救任务。如果通过权重系数判断该AUV应该执行这个营救任务,但是却没有执行。出现第一种现象的原因是吸引营救区是通过贪婪的方式吸引路径点,如果不设置路径点累积的上限,很容易造成路径点在每个吸引营救区内过于累积,从而产生营救的路线过度扭曲,不符合实际,需要对营救区的回报值
Figure BDA0002205324360000133
惩罚。
Figure BDA0002205324360000141
其中,η表示路径点在第k个营救区内累积的个数,κ表示营救区路径点累积的个数上限,ε1表示惩罚回报值,是一个常数。当η>κ时,表示营救区中累积的路径点个数达到阈值上限κ,需要对回报值惩罚。出现第二种现象,营救区内没有路径点应该分为两个方面来看:一方面,针对多AUV系统中单一AUV,它不可能执行所有的营救任务,在某些营救区内没有路径点也是正常现象。另一方面,对于AUV应该执行的营救区没有路径点就是不正常的现象。提出的回报权重系数具有“偏爱性”,每个AUV的回报权重系数会对不同的任务有不同的“偏爱”,使这些营救区的权重系数大于0,而不偏爱的营救区的回报权重系数为0。因此我们根据回报权重系数进行判断回报值
Figure BDA0002205324360000142
是否要进行惩罚。
W(j)(k)表示j次迭代时第k个营救区的权重系数。W(j)(k)>0表示j次迭代时对第k个营救区是有“偏爱性”。存在路径点在该营救区内,而在(j+1)次迭代时,W(j+1)(k)=0表示没有路径点在该营救区内,在这种情况下,需要对回报值
Figure BDA0002205324360000144
进行惩罚。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种水下环境中多AUV实时营救任务分配算法,其特征在于:包括如下步骤,
S1:构造复杂的水下环境,包含多个营救区及对应的吸引营救区,在不同的位置设球体与长方体障碍物;
S2:构建代价函数,使其包含两个部分,一是每个AUV营救路线的长度代价;其二是当前AUV执行营救任务的回报值,这两个部分按照权重因子进行分配;
S3:如果满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时,进行粒子的速度与位置的更新;
S4:通过强化学习训练积累营救区回报值,寻找这些回报值的最大值,从而找到一种执行营救过程的最优行为策略。
2.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:在每个营救区外设定一个吸引营救区,根据当前路径点落在设定的营救区与吸引营救区的相对位置可以分为三种情况:
上式中,R0是营救区的半径,R1是吸引营救区半径,dist是AUV当前路径点到营救区中心的距离;W(j)(k)是在j次迭代时第k个营救区的权重系数,ε是每个路径点落在营救区范围内的回报值;
Figure FDA0002205324350000012
表示在j+1次迭代时第k个营救区的总回报值;每个路径点根据落在营救区与吸引营救区的相对位置分为三种情况;当dist>R1,此时该路径点落在吸引营救区外,此时路径点的回报值表示为0,当dist<R0表示当前点落在营救区内,此时当前路径点的回报值为(1+W(j)(k))ε;当R0≤dist≤R1,此时表示该路径点在吸引区域内但不在营救区内,此时该路径点的回报值通过线性函数计算,其回报值为((1-(dist-R0)/(R1-R0))ε)(1+W(j)(k))。
3.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S2步骤中,构建评价粒子的代价函数,该代价函数包含两个部分,其一是每个AUV的营救路线长度代价c_path,其二是当前AUV执行营救任务的回报值c_reward;其代价函数如下:
COST_F=αc_path-βc_reward
设定权重系数α,β来衡量c_path与c_reward的重要程度;权重系数α,β可以通过主观经验进行设定,本文中分别设置α=2与β=10。
4.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S3步骤中,如果当前AUV的营救路线上的路径点满足代价函数值小于已存在的代价函数值且当前营救区的累积的回报值比已存在的营救区的回报值大的条件时,进行粒子的速度与位置的更新;在第k次进化时,粒子的速度与位置更新公式如下:
Figure FDA0002205324350000021
其中,w是惯性权重系数,c1与c2是学习因子;r1与r2是介于[0,1]区间内的常数,
Figure FDA0002205324350000022
是在k次迭代时第i个粒子的速度,是在k+1次迭代时第i个粒子的速度,
Figure FDA0002205324350000024
是在k次迭代时第i个粒子的位置,
Figure FDA0002205324350000025
是在k+1次迭代时第i个粒子的位置;是第k次迭代时每个粒子到当前为止存储的最优经验,
Figure FDA0002205324350000027
是粒子群中所有粒子当前迭代的全局最优经验。
5.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S4步骤中,c_reward通过强化学习训练积累营救区回报值,寻找这些回报值的最大值,从而找到一种执行营救过程的最优行为策略;假设多AUV系统中有三个AUV,多AUV系统的营救过程通过定义一个元组<S,Θ123,p,γ123>进行描述,该元组具体表现形式如下:
p:S×Θ×S→[0,1]
Θ=Θ1×Θ2×Θ3
上式中S表示环境的状态集合,Θ12和Θ3表示该系统中三个AUV的行为,γi是第i个AUV的回报函数,p是状态转移概率函数,Θ表示多AUV系统的动作集合。
6.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S4步骤中,c_reward从强化学习的训练积累营救区的回报值,公式如下,
Figure FDA0002205324350000032
上式中αj为在j次迭代时的折扣因子,ri,j+1是第i个AUV在第j+1次迭代时的回报值,
Figure FDA0002205324350000033
是第i个AUV累积的回报值,π是一种AUV逐渐靠近各自的最适合的营救区的策略;
Figure FDA0002205324350000034
表示在策略π引导下,第i个AUV通过一系列状态与行为所获得的累积回报值;这里的s是一种抽象的状态,它可以表示成趋向于营救区的若干位置,a表示要达到这样状态所作出的行为;
最终通过代价函数COST_F寻找最优策略,即,
Figure FDA0002205324350000035
7.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S4步骤中,AUV在营救过程的路线可以通过若干的路径点进行标记,针对每个营救区,设中心点位于Ti(xi,yi,zi),对于路径点P(x,y,z)距离中心点的距离dist可以表达为:
Figure FDA0002205324350000041
基于dist,对于营救路线上的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure FDA0002205324350000042
8.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S4步骤中,对于营救路线上的每个路径点p(x,y,z)的回报值γ,为了减小营救路线的路径点在营救区附近的波动幅度,加强算法的稳定性,从每个营救区的营救状态出发,提出一个回报权重系数作用于回报值γ的计算;假设有N个营救区,在第i次迭代的回报值之和为:
Figure FDA0002205324350000043
在计算回报值
Figure FDA0002205324350000044
时,当
Figure FDA0002205324350000045
时,我们设置
Figure FDA0002205324350000046
因此回报权重系数可以表达为:
Figure FDA0002205324350000047
那么经过回报权重系数作用后的每个路径点P(x,y,z)的回报值γ可以表示为:
Figure FDA0002205324350000048
W(j)(k)表示第k个营救区在第j次迭代时回报权重系数,
Figure FDA0002205324350000051
表示第k个营救区在(j+1)时的回报值。
9.如权利要求1所述的一种水下环境中多AUV实时营救任务分配算法,其特征在于:S4步骤中,当路径点在营救区内过度累积时或当AUV在应该执行的营救区任务内不存在路径点时,对营救区的回报值进行惩罚,
其中η表示路径点在第k个营救区内累积的个数,κ表示营救区路径点累积的个数上限,ε1表示惩罚回报值为常数;当η>κ时,表示营救区中累积的路径点个数达到阈值上限κ,需要对回报值惩罚;当营救区内没有路径点,根据回报权重系数进行判断回报值
Figure FDA0002205324350000054
是否要进行惩罚
Figure FDA0002205324350000055
W(j)(k)表示j次迭代时第k个营救区的权重系数,W(j)(k)>0表示j次迭代时对第k个营救区是有“偏爱性”,存在路径点在该营救区内,而在(j+1)次迭代时,W(j+1)(k)=0表示没有路径点在该营救区内,在这种情况下,需要对回报值
Figure FDA0002205324350000056
进行惩罚。
CN201910879149.4A 2019-09-18 2019-09-18 一种水下环境中多auv实时营救任务分配算法 Active CN110658833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910879149.4A CN110658833B (zh) 2019-09-18 2019-09-18 一种水下环境中多auv实时营救任务分配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910879149.4A CN110658833B (zh) 2019-09-18 2019-09-18 一种水下环境中多auv实时营救任务分配算法

Publications (2)

Publication Number Publication Date
CN110658833A true CN110658833A (zh) 2020-01-07
CN110658833B CN110658833B (zh) 2022-06-14

Family

ID=69038099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910879149.4A Active CN110658833B (zh) 2019-09-18 2019-09-18 一种水下环境中多auv实时营救任务分配算法

Country Status (1)

Country Link
CN (1) CN110658833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111307158A (zh) * 2020-03-19 2020-06-19 哈尔滨工程大学 一种auv三维航路规划方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013037A (zh) * 2010-12-16 2011-04-13 上海电机学院 一种基于粒子群算法的路径搜索方法及装置
CN107567036A (zh) * 2017-09-30 2018-01-09 山东大学 基于机器人搜救环境无线自组织局域网的slam系统及方法
CN108958238A (zh) * 2018-06-01 2018-12-07 哈尔滨理工大学 一种基于协变代价函数的机器人点到区路径规划方法
CN109782779A (zh) * 2019-03-19 2019-05-21 电子科技大学 基于种群超启发式算法的洋流环境下auv路径规划方法
CN110244759A (zh) * 2019-06-05 2019-09-17 哈尔滨工程大学 一种基于区间优化的水下机器人时间最优路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013037A (zh) * 2010-12-16 2011-04-13 上海电机学院 一种基于粒子群算法的路径搜索方法及装置
CN107567036A (zh) * 2017-09-30 2018-01-09 山东大学 基于机器人搜救环境无线自组织局域网的slam系统及方法
CN108958238A (zh) * 2018-06-01 2018-12-07 哈尔滨理工大学 一种基于协变代价函数的机器人点到区路径规划方法
CN109782779A (zh) * 2019-03-19 2019-05-21 电子科技大学 基于种群超启发式算法的洋流环境下auv路径规划方法
CN110244759A (zh) * 2019-06-05 2019-09-17 哈尔滨工程大学 一种基于区间优化的水下机器人时间最优路径规划方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DAQI ZHU等: "Dynamic Task Assignment and Path Planning of Multi-AUV System Based on an Improved Self-Organizing Map and Velocity Synthesis Method in Three-Dimensional Underwater Workspace", 《TRANSACTIONS ON CYBERNETICS,》, 30 April 2013 (2013-04-30) *
张美燕等: "基于多AUV间任务协作的水下多目标探测路径规划", 《传感技术学报》, no. 07, 15 July 2018 (2018-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111307158A (zh) * 2020-03-19 2020-06-19 哈尔滨工程大学 一种auv三维航路规划方法

Also Published As

Publication number Publication date
CN110658833B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
Wu et al. Reinforcement learning and particle swarm optimization supporting real-time rescue assignments for multiple autonomous underwater vehicles
Russell et al. Q-decomposition for reinforcement learning agents
CN106875090B (zh) 一种面向动态任务的多机器人分布式任务分配形成方法
US20210348928A1 (en) Multi-police-officer collaborative round-up task allocation and path planning method under constraint of road network
CN109269502A (zh) 一种基于多策略改进粒子群算法的无人机三维航路规划方法
CN110095120A (zh) 自治水下航行器在海洋环流下的生物启发自组织映射路径规划方法
CN113238232B (zh) 面向海洋静态目标的自主水下航行器系统目标搜索方法
CN111307153A (zh) 基于六边形栅格地图的多auv任务分配与路径规划方法
Wu et al. DENPSO: A distance evolution nonlinear PSO algorithm for energy-efficient path planning in 3D UASNs
CN116088576A (zh) 一种基于改进鲸鱼算法的无人机三维路径规划方法
Zadeh et al. An autonomous reactive architecture for efficient AUV mission time management in realistic dynamic ocean environment
CN110658833B (zh) 一种水下环境中多auv实时营救任务分配算法
CN113344320A (zh) 多目标下的物流机器人配送路径动态自动规划方法及系统
CN115809547A (zh) 基于非支配排序的改进粒子群算法的多智能体协同任务分配方法
Zhang et al. Optimal search and rescue route design using an improved ant colony optimization
CN114599069A (zh) 一种基于能量自收集的水下无线传感器网络路由方法
CN115334165B (zh) 一种基于深度强化学习的水下多无人平台调度方法及系统
Zhu et al. Improved Harris hawks optimization algorithm based on quantum correction and Nelder-Mead simplex method
CN115423324A (zh) 一种基于改进蚁群优化的uuv集群任务规划方法
CN115951711A (zh) 一种高海况环境下的无人集群多目标搜索和追捕方法
Kwok et al. An empirical study on the settings of control coefficients in particle swarm optimization
Naredo et al. ACO-tuning of a fuzzy controller for the ball and beam problem
CN114386556A (zh) 一种基于禁忌搜索与粒子群算法的目标源定位与避障方法
CN117032247B (zh) 海上救援搜索路径规划方法、装置及设备
Li et al. Improved genetic algorithm for multi-agent task allocation with time windows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant