CN114815797A

CN114815797A - 基于概率图融合的多无人艇任务处理方法及装置

Info

Publication number: CN114815797A
Application number: CN202111471367.8A
Authority: CN
Inventors: 韩玮; 王千一; 曾江峰; 谢杨柳; 张馗; 陈骁; 陈卓; 马向峰; 郭晓晔; 梁旭; 王伟; 董钉; 李哲; 胥凤驰; 骆福宇; 王一帆; 刘如磊; 王子帅; 吴与伦; 宋胜男
Original assignee: CSSC Systems Engineering Research Institute
Current assignee: CSSC Systems Engineering Research Institute
Priority date: 2021-12-04
Filing date: 2021-12-04
Publication date: 2022-07-29

Abstract

本发明提供了一种基于概率图融合的多无人艇任务处理方法及装置，所述方法包括：确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。通过本发明的方法可以在观测区域中存在多个未知的待搜救人员的情况下，控制无人艇以最快地速度搜索到全部的目标位置。

Description

基于概率图融合的多无人艇任务处理方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种基于概率图融合的多无人艇任务处理方法及装置。

背景技术

无人水面艇，亦被称为水上机器人，在科考、救援、贸易运输等方面表现出广阔的应用前景。无人水面艇是一种由多模块组成的智能化水上运动平台，可以用于执行一些不适合有人船只执行的任务，因而作为一种水上平台被众多机构所关注。其具有体型小、智能化、自主化等优点，常被用来执行危险系数高、作业环境恶劣的任务，在军事作战、海域巡逻、岛礁补给等领域具有广泛的应用需求。

对于水上救援无人艇而言，为了保障待搜救人员的安全，最关键的就是如何在尽可能缩短搜索时间的情况下寻找到目标。实际救援任务中，往往存在多个救援目标存在于区域的多个未知位置中等待救援，因此就需要多无人艇协同工作，在最短时间内搜索到全部的目标位置，使得多个无人艇能够以最高效率进行救援任务。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于概率图融合的多无人艇任务处理方法及装置。

具体地，本发明提供以下技术方案：

第一方面，本发明实施例提供了一种基于概率图融合的多无人艇任务处理方法，包括：

确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；

将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

进一步地，确定单个无人艇针对目标区域的搜索概率图，包括：

根据上一时刻所述单个无人艇针对所述目标区域各位置是否存在对象的概率以及当前时刻所述目标区域各位置是否存在对象的观测结果，确定当前时刻所述单个无人艇针对所述目标区域的搜索概率图。

进一步地，将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图，包括：

将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，通过使代价函数最小化，让各无人艇向不确定性较大的位置方向进行搜索，得到所述目标区域的融合概率图。

进一步地，所述代价函数为单个无人艇生成的多边形中所有点到单个无人艇的距离平方乘上相应权重的求和。

进一步地，将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，通过使代价函数最小化，让各无人艇向不确定性较大的位置方向进行搜索，得到所述目标区域的融合概率图，包括：

将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，通过使代价函数最小化，让各无人艇向不确定性较大的位置方向进行搜索，并采用强化学习的算法对路径规划的动作选择进行优化，以启发多无人艇向所述目标区域的未探测位置进行多目标搜索任务。

进一步地，采用强化学习的算法对路径规划的动作选择进行优化，以启发多无人艇向所述目标区域的未探测位置进行多目标搜索任务，包括：

采用强化学习的算法对路径规划的动作选择进行优化，以融合后的概率图平均不确定度降低程度为奖励函数，通过训练令各无人艇自主学习最优的策略使算法收敛，启发多无人艇向所述目标区域的未探测位置进行多目标搜索任务。

进一步地，确定当前时刻所述单个无人艇针对所述目标区域的搜索概率图，包括：

确定当前时刻所述单个无人艇针对所述目标区域各位置的搜索概率P；

按照预设变换模型对所述P进行非线性变换，得到Q，其中Q与P为一一对应关系，且所述Q在前后时刻的更新关系为线性关系；

利用Q值代替P值对所述单个无人艇针对所述目标区域的搜索概率图进行更新。

第二方面，本发明实施例还提供了一种基于概率图融合的多无人艇任务处理装置，包括：

确定模块，用于确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；

融合模块，用于将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述基于概率图融合的多无人艇任务处理方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如如第一方面所述基于概率图融合的多无人艇任务处理方法的步骤。

根据上面的技术方案可知，本发明实施例提供的基于概率图融合的多无人艇任务处理方法及装置，首先确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况，然后将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图，通过本发明实施例的方法可以在观测区域中存在多个未知的待搜救人员的情况下，控制无人艇以最快地速度搜索到全部的目标位置。

需要说明的是，本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于概率图融合的多无人艇任务处理方法的流程图；

图2是本发明一实施例提供的基于概率图融合的多无人艇任务处理方法的算法框架示意图；

图3是本发明一实施例提供的基于概率图融合的多无人艇任务处理方法的策略网络示意图；

图4是本发明一实施例提供的基于概率图融合的多无人艇任务处理装置的结构示意图；

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于水上救援无人艇而言，为了保障待搜救人员的安全，最关键的就是如何在尽可能缩短搜索时间的情况下寻找到目标。实际救援任务中，往往存在多个救援目标存在于区域的多个未知位置中等待救援，因此就需要多无人艇协同工作，在最短时间内搜索到全部的目标位置，使得多个无人艇能够以最高效率进行救援任务。为解决该问题，本发明实施例提出了一种基于概率图融合的多无人艇任务处理方法，在观测区域中存在多个未知的待搜救人员的情况下，控制无人艇以最快地速度搜索到全部的目标位置。下面将通过具体实施例对本发明提供的基于概率图融合的多无人艇任务处理方法进行详细说明。

图1示出了本发明一实施例提供的基于概率图融合的多无人艇任务处理方法的流程图，参见图1，本发明实施例提供的基于概率图融合的多无人艇任务处理方法，包括：

步骤101：确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；

步骤102：将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

在本实施例中，将待搜索的目标区域划分为多个cell，cell的坐标为其中心点坐标。每个cell只有存在和不存在目标两种情况，不考虑一个cell多个目标。将多无人艇初始位置集中，使其能够相互通讯。在算法开始，设定每个无人艇对不同cell的存在目标概率的初始值，并在救援搜索中由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新每一时刻的目标概率，从而获得每个无人艇的区域目标概率图。将各无人艇的目标概率图进行融合，作为搜索算法的信息依据。

根据上面的技术方案可知，本发明实施例提供的基于概率图融合的多无人艇任务处理方法，首先确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况，然后将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图，通过本发明实施例的方法可以在观测区域中存在多个未知的待搜救人员的情况下，控制无人艇以最快地速度搜索到全部的目标位置。

在本实施例中，将待搜索的目标区域划分为多个cell，cell的坐标为其中心点坐标。每个cell只有存在和不存在目标两种情况，不考虑一个cell多个目标。将多无人艇初始位置集中，使其能够相互通讯。在算法开始，设定每个无人艇对不同cell的存在目标概率的初始值，并在救援搜索中由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新每一时刻的目标概率，从而获得每个无人艇的区域目标概率图。

在本实施例中，将待搜索的目标区域划分为多个cell，cell的坐标为其中心点坐标。每个cell只有存在和不存在目标两种情况，不考虑一个cell多个目标。将多无人艇初始位置集中，使其能够相互通讯。在算法开始，设定每个无人艇对不同cell的存在目标概率的初始值，并在救援搜索中由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新每一时刻的目标概率，从而获得每个无人艇的区域目标概率图。将各无人艇的目标概率图进行融合，作为搜索算法的信息依据。在本实施例中，通过使代价函数最小化的方法，让无人艇向不确定性比较大的cell的方向进行搜索，同时采用强化学习的算法对路径规划的动作选择进行优化，从而能够更快地启发多无人艇向未探测区域进行多目标搜救任务。

在本实施例中，需要说明的是，概率图能够有效地反映在整个区域内目标物体出现位置的概率分布情况。在多无人艇进行搜索任务的时候，概率图实时地提供无人艇最大可能搜索到目标人员的搜索方向，从而极大地缩短搜救任务的时间。此外通过设计奖励函数，强化学习可以训练智能体根据当前搜索的结果调整接下来的路径，更快地完成任务。将更复杂的信息放入智能体的观测数据中，调整奖励函数可以训练智能体适应更复杂的任务。

在本实施例中，在概率图的更新部分，首先设定每个无人艇对不同cell的存在目标概率的初始值，这样每个无人艇形成一张对整个区域的概率图。对于每个单无人艇由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新这一时刻的目标概率图。将无人艇在当前时间对不同cell的有目标的概率的估值P经过非线性变换得到Q，因为非线性转换函数是一个单调函数，所以Q与P是一一对应关系。非线性转换之后不再记录原来的P值，转而记录Q值，那么每次的更新只是一个加法运算，相比原来的P值的更新计算量大大减小，当需要输出概率的时候，只要通过转换函数计算P值就可以了。当无人艇i更新概率图时，将这个概率图与无人艇i通讯范围内的其他无人艇的概率图进行融合，形成一个此刻最终的概率图。

下面将结合图2和图3对本发明实施例的方案进行解释和说明。本发明实施例的技术方案为：

算法框架如图2所示，共分为2部分：概率图更新与融合，路径规划。

其中，无人艇i在time k的坐标为μ_i,k＝[x_i,k,y_i,k]^T；

θ_g＝1/0表示cell g的状态(有或者没有目标)；

Z_i,g,k＝1/0表示无人艇i对cell g在time k的观测结果；

C_i,k＝{g∈O:||μ_g-μ_i,k||≤R_s}表示无人艇i在time k的探测区域；这里R_s为探测半径。

P(Z_i,g,k＝1|θ_g＝1)＝p为探测准确率；

P(Z_i,g,k＝1|θ_g＝0)＝q为错误报警率；

N_i,k＝{j∈v:||μ_i,k-μ_j,k||≤R_C}表示所有在无人艇i通讯范围内的无人艇的集合(包括自己)，这里R_C为通讯半径；

d_i,k＝|N_i,k|表示无人艇i通讯范围内无人艇的数量(包括自己)。

P_i,g,k＝P_i,k(θ_g＝1)表示无人艇i在time k对cell g有目标的概率的估值。

先分析在不通讯的情况下，单个无人艇生成的概率图的更新，在此基础上对通讯之后的概率图进行信息融合，令所有无人艇生成的概率图随着时间的增长收敛到同一张概率图。

单个概率图信息更新方面，由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新这一时刻的概率。

对P_i,g,k作一个非线性变换：

令

可以得到Q_i,g,k更新前后简单的线性关系：

Q_i，g，k＝Q_i，g，k-1+υ_i，g，k

其中，

因为非线性转换函数

是一个单调函数，所以Q与P是一一对应关系。

非线性转换之后不再记录原来的P值，转而记录Q值，那么每次的更新只是一个加法运算，相比原来的P值的更新计算量大大减小，当需要输出概率的时候，只要通过转换函数计算P值就可以了。

这里会产生一个问题，因为P取值区间为[0,1]，对应Q的取值区间为(-∞,+∞)，所以在储存Q值时，可能会产生数据溢出，所以给Q加一个绝对值上限：

当无人艇i更新概率图时，将这个概率图与无人艇i通讯范围内的其他无人艇的概率图进行融合，形成一个此刻最终的概率图：

其中，权重系数为：

将更新过程表达为矩阵形式：

γ_g，k＝W_k(Y_g，k-1+Φ_g，k)

其中

Y_g，k＝[Q_1，g，k，Q_2，g，k，...，Q_N，g，k]^T

Φ_g，k＝[υ_1，g，k，υ_2，g，k，...，υ_N，g，k]^T

[W_k]_i，j＝w_i，j，k

路径规划方面为了判断无人艇i下一步往哪走更有利于算法的收敛，设定一个代价方程：

其中，r表示多边形中任意点，Vi表示无人艇i生成的泰森多边形，φ(r)表示r点的密度。

这个代价函数表示，无人艇i生成i的多边形中所有点到无人艇i的距离平方乘上相应权重的求和。所以让这个代价函数最小化的方向即质心的方向。

密度函数定义为对应cell的不确定性：

这里当||Q_i，g，k||越小时，P_i，g，k越接近0.5，那么相应cell存在目标的不确定性越大。

因此通过使代价函数最小化的方法，可以让无人艇向不确定性比较大的cell的方向移动。

按梯度下降的方法最小化代价函数：

u_i＝μ₁＝K_u(CM_i-μ_i)

所以在离散的时间节点上，无人艇i的位置更新为：

μ_i，k＝μ_i，k-1+u_i，k

u_i，k＝K_u(CM_i，k-1-μ_i，k-1)

采用强化学习则可以通过训练令智能体自主学习最优的策略，根据环境的改变灵活地改变策略。保持原有的概率图更新和融合方式不变，在路径规划部分使用强化学习算法进行动作选择。

观测空间为<map，coords>，map为反映目标存在概率的概率图，为观测区域大小的矩阵，coords包括了无人艇以及在其通讯范围内的其他无人艇的坐标位置，为(number ofagents，2)的矩阵。

动作空间为<θ，distance>，其中θ为无人艇运动的角度，distance为无人艇运动的距离。

奖励函数为：

reward＝(unsure-unsure′)*10-0.005

其中(unsure-unsure′)是对概率图平均不确定度降低程度的奖励，形式为更新之后的概率图平均不确定度减去更新之前；-0.005是对时间的惩罚。

观测数据是环境返回的无人艇对环境的观测，包括概率图和通讯范围内无人艇的位置。策略网络如图3所示，首先提取观测数据的信息然后通过全连接层后输出无人艇的下一步动作，评价网络同样提取观测数据的信息后与动作值合并后通过全连接层后输出相应动作的Q值。episode结束的条件为到达200步上限或者unsure≤0.001。

具体地，本发明实施例将无人艇的运动控制建模为神经网络，在POMDP假设下研究多艇协同搜索问题。对于单个无人艇而言，将其他无人艇看做环境的一部分，所有无人艇与相邻单位共享概率图，降低环境的不稳定性，用强化学习算法训练神经网络收敛到最优。

具体来说，本实施例主要是将搜索区域分成多个cell，用多个无人艇搜寻目标。

在概率图的更新和融合部分，首先设定每个无人艇对不同cell的存在目标概率的初始值，这样每个无人艇形成一张对整个区域的概率图。对于每个单无人艇由贝叶斯公式，根据上一时刻的概率和这一时刻的观测结果，更新这一时刻的目标概率图。将无人艇在当前时间对不同cell的有目标的概率的估值P经过非线性变换得到Q，因为非线性转换函数是一个单调函数，所以Q与P是一一对应关系。非线性转换之后不再记录原来的P值，转而记录Q值，那么每次的更新只是一个加法运算，相比原来的P值的更新计算量大大减小，当需要输出概率的时候，只要通过转换函数计算P值就可以了。当无人艇i更新概率图时，将这个概率图与无人艇i通讯范围内的其他无人艇的概率图进行融合，形成一个此刻最终的概率图。

在路径规划部分，为了判断单无人艇下一步往哪走更有利于算法的收敛，设定一个代价方程，这个代价函数表示，单无人艇生成的多边形中所有点到单无人艇的距离平方乘上相应权重的求和，从而让这个代价函数最小化的方向即质心的方向。通过按梯度下降的方法最小化代价函数，可以让无人艇向不确定性比较大的cell的方向移动。

改进部分保持概率图融合部分不变，路径规划替换为强化学习算法进行的动作选择。其中，观测空间为<map，coords>，map为反映目标存在概率的概率图，为观测区域大小的矩阵，coords包括了无人艇以及在其通讯范围内的其他无人艇的坐标位置，为(number ofagents，2)的矩阵。

奖励函数为：

reward＝(unsure-unsure′)*10-0.005

其中(unsure-unsure)是对概率图平均不确定度降低程度的奖励，形式为更新之后的概率图平均不确定度减去更新之前；-0.005是对时间的惩罚。

通过训练令无人艇自主学习最优的策略，从而使算法更快地收敛，加快搜索进程。

基于相同的发明构思，本发明另一实施例还提供了一种基于概率图融合的多无人艇任务处理装置，参见图4，包括：

确定模块21，用于确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；

融合模块22，用于将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

根据上面的技术方案可知，本发明实施例提供的基于概率图融合的多无人艇任务处理装置，首先确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况，然后将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图，通过本发明实施例的方法可以在观测区域中存在多个未知的待搜救人员的情况下，控制无人艇以最快地速度搜索到全部的目标位置。

由于本实施例提供的基于概率图融合的多无人艇任务处理装置可以用于执行上述实施例所述的基于概率图融合的多无人艇任务处理方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

基于相同的发明构思，本发明又一实施例提供了一种电子设备，参见图5，所述电子设备具体包括如下内容：处理器301、存储器302、通信接口303和通信总线304；

其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；所述通信接口303用于实现各建模软件及智能制造装备模块库等相关设备之间的传输；

所述处理器301用于调用所述存储器302中的计算机程序，所述处理器执行所述计算机程序时实现上述基于概率图融合的多无人艇任务处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述基于概率图融合的多无人艇任务处理方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：确定单个无人艇针对目标区域的搜索概率图；所述搜索概率图用于表征所述单个无人艇针对所述目标区域不同位置是否存在对象的概率预测情况；将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的基于概率图融合的多无人艇任务处理方法。

在本发明的描述中，需要说明的是，诸如“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于概率图融合的多无人艇任务处理方法，其特征在于，包括：

2.根据权利要求1所述的基于概率图融合的多无人艇任务处理方法，其特征在于，确定单个无人艇针对目标区域的搜索概率图，包括：

3.根据权利要求1所述的基于概率图融合的多无人艇任务处理方法，其特征在于，将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，得到所述目标区域的融合概率图，包括：

4.根据权利要求3所述的基于概率图融合的多无人艇任务处理方法，其特征在于，所述代价函数为单个无人艇生成的多边形中所有点到单个无人艇的距离平方乘上相应权重的求和。

5.根据权利要求3所述的基于概率图融合的多无人艇任务处理方法，其特征在于，将所述单个无人艇的搜索概率图与所述单个无人艇通讯范围内的其他无人艇的搜索概率图进行融合，通过使代价函数最小化，让各无人艇向不确定性较大的位置方向进行搜索，得到所述目标区域的融合概率图，包括：

6.根据权利要求5所述的基于概率图融合的多无人艇任务处理方法，其特征在于，采用强化学习的算法对路径规划的动作选择进行优化，以启发多无人艇向所述目标区域的未探测位置进行多目标搜索任务，包括：

7.根据权利要求2所述的基于概率图融合的多无人艇任务处理方法，其特征在于，确定当前时刻所述单个无人艇针对所述目标区域的搜索概率图，包括：

8.一种基于概率图融合的多无人艇任务处理装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于概率图融合的多无人艇任务处理方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于概率图融合的多无人艇任务处理方法的步骤。