CN112817318A

CN112817318A - 一种多无人艇协同搜索控制方法及系统

Info

Publication number: CN112817318A
Application number: CN202110012855.6A
Authority: CN
Inventors: 蒲华燕; 刘源; 罗均; 谢志江; 李小毛; 谢佳佳; 苏洲; 彭艳; 谢少荣
Original assignee: Chongqing University; University of Shanghai for Science and Technology
Current assignee: Chongqing University; University of Shanghai for Science and Technology
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-05-18
Anticipated expiration: 2041-01-06
Also published as: CN112817318B; US20220214688A1

Abstract

本发明涉及一种多无人艇协同搜索控制方法及系统，涉及海洋智能无人艇协同作业领域，包括确定无人艇团队的任务区域；根据任务区域和概率图方式，确定当前时刻每个无人艇对应的环境感知信息；将当前时刻每个无人艇对应的环境感知信息分别输入到相应的目标搜索策略输出模型中以获取下一个时刻每个无人艇的执行动作；将下一个时刻每个无人艇的执行动作发送至对应的无人艇执行结构中以对任务区域内的水下目标进行搜索。其中，目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。本发明能够解决在搜索任务中，无人艇效率低、精确度不高、任务分配不明确等问题。

Description

一种多无人艇协同搜索控制方法及系统

技术领域

本发明涉及海洋智能无人艇协同作业领域，特别是涉及一种多无人艇协同搜索控制方法及系统。

背景技术

无人艇是一种具有自主计划、驾驶功能和导航功能的机器人系统，它可以通过岸上运输或大型船只携带部署在任务区域，以独立完成任务。其中，任务包括环境监测、采样、搜索、通信、港口保护和巡逻等。在这些任务中，搜索任务是最适合无人艇的任务之一。

一般而言，需要根据任务要求和环境条件(例如风，流和障碍物)对任务区域进行监管。任务区域通常很大，需要很长时间才能搜索整个任务区域，因此工作人员需要长时间工作在船上。众所周知，长期的海上作业是非常困难的，工作不便且对工作人员存在危险。

由于无人艇自身的特点，可以在任务区域内长时间自主执行搜索任务，而无需人工干预，这不仅大大提高了搜索效率，而且大大降低了工作强度和工作风险。然而，由于大多数无人艇都比正常船舶空间小，故不能配备一些大功率观测传感器，因此，无人艇的感应范围有限，这就意味着无人艇每单位时间的搜索效率低。此外，一旦无人艇在执行任务过程中发生意外事故(设备故障，不可避免的障碍、强烈电磁干扰等)，则必须暂停执行任务，这对某些紧急情况(例如寻找受害者)具有负面影响。尽管提高无人艇的性能可以在一定程度上解决上述问题，但是无论如何提高无人艇的性能，单个无人艇的搜索效率远低于实际需求。

发明内容

本发明的目的是提供一种多无人艇协同搜索控制方法及系统，旨在解决在搜索任务中，无人艇效率低、精确度不高、任务分配不明确等问题，使无人艇团队充分发挥无人艇协同作业优势。

为实现上述目的，本发明提供了如下方案：

一种多无人艇协同搜索控制方法，包括：

确定无人艇团队的任务区域；所述无人艇团队包括多个无人艇；一个所述无人艇对应一个目标搜索策略输出模型；所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的；

根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息；所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息；

将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作；

将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。

可选的，所述根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息，具体包括：

根据所述任务区域和所述无人艇团队内无人艇的个数，计算每个所述无人艇对应的任务子区域；

基于概率图方式，确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。

可选的，所述目标信息的确定过程为：

以所述任务子区域的一个角点为原点建立xy坐标系；

对所述任务子区域进行分割，得到多个大小相同的单元格，并基于所述xy坐标系计算每个所述单元格的中心位置坐标；

确定每个单元格目标存在概率；

以每个所述单元格目标存在概率为基础，采用伯努利分布概率算法，对每个所述单元格建模，得到每个所述单元格对应的目标存在概率模型；

确定当前时刻所述无人艇的感应区域；

根据每个所述单元格的中心位置坐标、每个所述单元格对应的目标存在概率模型以及当前时刻所述无人艇的感应区域，计算当前时刻所述无人艇对应的目标存在概率图；

根据当前时刻所述无人艇对应的目标存在概率图，确定当前时刻所述无人艇对应的目标信息。

可选的，所述协作信息的确定过程为：

根据公式C_i,k＝{c_i,k,j∈R:||g-a_i,k||≤R_c}确定当前时刻所述无人艇对应的协作信息；

其中，C_i,k表示第i个无人艇在第k时刻的协同信息，c_i,k,j表示第k时刻第i个无人艇在第j个单元格中的协作信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，g表示第j个单元格的位置，R_c表示通信半径。

可选的，所述障碍物观察信息的确定过程为：

根据公式O_i,k＝{o_i,k,j∈R:||a_i,k-O_bstacle||≤R_o}确定当前时刻所述无人艇对应的障碍物观察信息；

其中，O_i,k表示第i个无人艇在第k时刻的障碍物观察信息，o_i,k,j表示第k时刻第i个无人艇在第j个单元格中的障碍物观察信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，O_bstacle表示障碍物的位置，R_o表示避障半径。

可选的，所述避免碰撞信息的确定过程为：

根据公式d_i,k＝{d_i,k,j∈R:||g-a_i,k||≤R_d}确定当前时刻所述无人艇对应的避免碰撞信息；

其中，d_i,k表示第i个无人艇在第k时刻的避免碰撞信息，d_i,k,j表示第k时刻第i个无人艇在第j个单元格中的避免碰撞信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，g表示第j个单元格的位置，R_d表示碰撞半径。

可选的，所述目标搜索策略输出模型的构建过程为：

确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻环境感知信息，当前时刻执行动作，当前时刻奖励以及下一时刻环境感知信息；

构建DDQN网络结构；

将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练，进而得到第i个无人艇对应的目标搜索策略输出模型，进而得到每个无人艇对应的目标搜索策略输出模型。

一种多无人艇协同搜索控制系统，包括：

任务区域确定模块，用于确定无人艇团队的任务区域；所述无人艇团队包括多个无人艇；一个所述无人艇对应一个目标搜索策略输出模型；所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的；

环境感知信息确定模块，用于根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息；所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息；

执行动作获取模块，用于将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作；

目标搜索模块，用于将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。

可选的，所述环境感知信息确定模块，具体包括：

任务区域划分单元，用于根据所述任务区域和所述无人艇团队内无人艇的个数，计算每个所述无人艇对应的任务子区域；

环境感知信息确定单元，用于基于概率图方式，确定当前时刻每个无人艇在对应的任务子区域内采集到的环境感知信息。

可选的，还包括：目标搜索策略输出模型构建模块；所述目标搜索策略输出模型构建模块，具体包括：

训练样本确定单元，用于确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻环境感知信息，当前时刻执行动作，当前时刻奖励以及下一时刻环境感知信息；

DDQN网络结构构建单元，用于构建DDQN网络结构；

目标搜索策略输出模型构建单元，用于将第i个所述无人艇的训练样本输入到所述DDQN网络结构中以对所述DDQN网络结构进行训练，进而得到第i个无人艇对应的目标搜索策略输出模型，进而得到每个无人艇对应的目标搜索策略输出模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过概率图方式和DDQN算法实时确定每个无人艇的目标搜索策略，进而实现多个无人艇协同搜索水下目标的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种多无人艇协同搜索控制方法的流程示意图；

图2为本发明一种多无人艇协同搜索控制系统的结构示意图；

图3为本发明目标信息示意图；

图4为本发明一种多无人艇协同搜索控制方法的操作示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

多无人飞行器系统可以增强无人飞行器的鲁棒性和可靠性，并为各种类型的任务提供不同的执行策略。基于此，无人艇团队内每艘无人艇都能够相互传输信息，并可以根据任务需求随时调整任务计划，一旦其中一艘无人艇不能继续工作，其他无人艇可以迅速替换故障无人艇，以确保执行期间任务不会中断。在现阶段，无人艇团队的控制仍面临许多挑战，因此，无人艇团队需要更先进的控制方法来增强无人艇的协作能力。

近年来，强化学习方法的不断发展为解决目标搜索问题提供了新的选择。强化学习的本质是从代理与环境之间的交互中学习策略。本发明提供了一种基于强化学习方法和概率图方法的多无人艇协同搜索控制方法及系统，并将其应用在多无人艇协同搜索多个静止水下目标的搜索任务中。本发明由环境感知步骤和策略生成步骤组成，这两个步骤由基于“分而治之”策略的体系结构组织。环境感知步骤专注于提供环境感测值。策略生成步骤着重于如何学习最佳策略。在本发明提供的方法或系统中，对任务环境进行建模，并设计相应的奖励功能，以有效地探索任务环境和学习策略。

实施例一

如图1所示，本实施例提供的一种多无人艇协同搜索控制方法，包括如下步骤。

步骤101：确定无人艇团队的任务区域；所述无人艇团队包括多个无人艇；一个所述无人艇对应一个目标搜索策略输出模型；所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。

步骤102：根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息；所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息。

步骤103：将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作。

步骤104：将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。

作为一种优选的具体实施方式，本实施例提供的步骤102具体包括：

根据所述任务区域和所述无人艇团队内无人艇的个数，计算每个所述无人艇对应的任务子区域。

所述目标信息的确定过程为：

以所述任务子区域的一个角点为原点建立xy坐标系。

对所述任务子区域进行分割，得到多个大小相同的单元格，并基于所述xy坐标系计算每个所述单元格的中心位置坐标。

确定每个单元格目标存在概率。

以每个所述单元格目标存在概率为基础，采用伯努利分布概率算法，对每个所述单元格建模，得到每个所述单元格对应的目标存在概率模型。

确定当前时刻所述无人艇的感应区域。

根据每个所述单元格的中心位置坐标、每个所述单元格对应的目标存在概率模型以及当前时刻所述无人艇的感应区域，计算当前时刻所述无人艇对应的目标存在概率图。

所述协作信息的确定过程为：

根据公式C_i,k＝{c_i,k,j∈R:||g-a_i,k||≤R_c}确定当前时刻所述无人艇对应的协作信息；其中，C_i,k表示第i个无人艇在第k时刻的协同信息，c_i,k,j表示第k时刻第i个无人艇在第j个单元格中的协作信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，g表示第j个单元格的位置，R_c表示通信半径。

所述障碍物观察信息的确定过程为：

根据公式O_i,k＝{o_i,k,j∈R:||a_i,k-O_bstacle||≤R_o}确定当前时刻所述无人艇对应的障碍物观察信息；其中，O_i,k表示第i个无人艇在第k时刻的障碍物观察信息，o_i,k,j表示第k时刻第i个无人艇在第j个单元格中的障碍物观察信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，O_bstacle表示障碍物的位置，R_o表示避障半径。

所述避免碰撞信息的确定过程为：

根据公式d_i,k＝{d_i,k,j∈R:||g-a_i,k||≤R_d}确定当前时刻所述无人艇对应的避免碰撞信息；其中，d_i,k表示第i个无人艇在第k时刻的避免碰撞信息，d_i,k,j表示第k时刻第i个无人艇在第j个单元格中的避免碰撞信息，R表示任务子区域的半径，a_i,k表示第i个无人艇在第k时刻的位置，g表示第j个单元格的位置，R_d表示碰撞半径。

作为一种优选的具体实施方式，本实施例提供的所述目标搜索策略输出模型的构建过程为：

确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻环境感知信息，当前时刻执行动作，当前时刻奖励以及下一时刻环境感知信息。

构建DDQN网络结构。

实施例二

如图2所示，本实施例提供了一种多无人艇协同搜索控制系统，包括：

任务区域确定模块201，用于确定无人艇团队的任务区域；所述无人艇团队包括多个无人艇；一个所述无人艇对应一个目标搜索策略输出模型；所述目标搜索策略输出模型是基于训练样本和DDQN网络结构训练得到的。

环境感知信息确定模块202，用于根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息；所述环境感知信息包括目标信息、协作信息、障碍物观察信息以及避免碰撞信息。

执行动作获取模块203，用于将当前时刻每个所述无人艇对应的环境感知信息分别输入到相应的所述目标搜索策略输出模型中以获取下一个时刻每个所述无人艇的执行动作。

目标搜索模块204，用于将下一个时刻每个所述无人艇的执行动作发送至对应的无人艇执行结构中以对所述任务区域内的水下目标进行搜索。

作为一种优选的具体实施方式，本实施例提供的所述环境感知信息确定模块202，具体包括：

任务区域划分单元，用于根据所述任务区域和所述无人艇团队内无人艇的个数，计算每个所述无人艇对应的任务子区域。

作为一种优选的具体实施方式，本实施例提供的系统还包括：目标搜索策略输出模型构建模块；所述目标搜索策略输出模型构建模块，具体包括：

训练样本确定单元，用于确定第i个无人艇的训练样本；所述训练样本为具有时间连续性的数据集；所述数据集包括多个样本集合；每个所述样本集合包括多个元素，分别为当前时刻环境感知信息，当前时刻执行动作，当前时刻奖励以及下一时刻环境感知信息。

DDQN网络结构构建单元，用于构建DDQN网络结构。

实施例三

本实施例提供的多无人艇协同搜索控制方法，包括以下步骤。

步骤1：利用每个无人艇上搭载的传感器来确定在k时刻的环境感知值。环境感知值直接影响策略生成步骤是否可以学习有效的执行策略。每个环境感知值都由四个部分组成，包括目标信息，协作信息，障碍物观察信息和避免碰撞信息。

上述四个信息的计算过程如下：

(1)目标信息

假设无人艇团队中有N个无人艇，每个无人艇在任务区域A∈R²中移动，该任务区域是长为L，宽为W的矩形区域。

如图3所示，以任务区域A的左上角为原点创建xy坐标系，然后将任务区域A分割成若干个单元格。每个单元格的中心位置的坐标表示为g＝(x,y),x∈{1,2,...,L_x},y∈{1,2,...,W_y}，单元格总数为L_x×W_y，j∈{1,2,...,L_x×W_y}。θ_j＝1和θ_j＝0分别表示第j个单元格中存在目标和未存在目标。在k时刻，任务区域A中第i个无人艇的坐标可以描述为a_i,k。以伯努利分布概率方法对每个单元格建模，即以概率P(θ_j＝1)为θ_j＝1和以概率1-P(θ_j＝1)为θ_j＝0的形式对每个单元格进行建模。

由于无人艇的观测能力有限，在第k时刻第i个无人艇只能在由感应半径R_s定义的感应区域s_i,k中采样；其中，s_i,k＝{g∈A:||g-a_i,k||≤R_s}，||*||表示矢量的2范数。

当单元格的中心位置的坐标位于感应区域s_i,k时，被认为该单元格完全在感应区域s_i,k内。第i个无人艇在第k时刻对感应区域s_i,k的采样结果由z_i,j,k表示，z_i,j,k＝1表示检测到目标，z_i,j,k＝0表示未检测到目标。因此，P(z_i,j,k＝1|θ_j＝1)＝d(检测概率)和P(z_i,j,k＝1|θ_j＝0)＝f(虚警概率)用于对无人艇数据采样过程进行建模。

总而言之，每个无人艇都会生成一个单独的概率图，例如第i个无人艇的概率图为

其中，P_i,j,k表示对第k时刻第i个无人艇在第j个单元格中存在目标的概率。

基于贝叶斯规则，测量更新每个无人艇的概率图；其测量更新公式由下式给出。P_i,j,k初始值设置为0.5，表示没有信息，P_i,j,k在搜索过程中进行实时更新。

(2)协作信息

协作信息的目的是使无人艇根据其他无人艇的位置调整搜索区域，以避免多个无人艇重复搜索同一区域。协作信息由c-map表示，协作信息是将通信范围内的邻居坐标映射到大小为2R_c×2R_c的矩阵上，R_c是通信半径。第i个无人艇在第k时刻的协同信息映射表示为C_i,k＝{c_i,k,j∈R:||g-a_i,k||≤R_c}，其中，c_i,k,j是以邻居的坐标为中心的高斯分布的叠加。

(3)障碍物观察信息

障碍物观察信息是为了使无人艇在执行任务时避开局部障碍物(不包括其他无人艇)。障碍物观察信息由障碍物图表示，该障碍物图将无人艇避障范围内的障碍物坐标映射到大小为2R_o×2R_o的矩阵中，R_o是避障半径。第i个无人艇在第k时刻的障碍物图表示为O_i,k＝{o_i,k,j∈R:||a_i,k-O_bstacle||≤R_o}。

(4)避免碰撞信息

避免碰撞信息是为了使无人艇在执行任务时避开其他无人艇。避免碰撞信息由防撞图表示，该防撞图将无人艇防撞范围内的无人艇坐标映射到大小为2R_d×2R_d的矩阵中，R_d是碰撞半径。第i个无人艇在第k时刻的碰撞图表示为d_i,_k＝{d_i,k,j∈R:||g-a_i,k||≤R_d}。

步骤2：将步骤1采集到的环境感知值传递给策略生成步骤。策略生成步骤的职责是学习最佳策略。在搜索任务中，在确保无人艇导航安全的基础上，找出可以提高目标搜索效率和无人艇团队准确性的执行策略，如图4所示。

在策略生成步骤中使用DDQN算法。DDQN算法是一种经典的强化学习算法，该算法是基于价值的方法，可以轻松地集成到环境中。将采集到的环境感知值输入到DDQN算法中，生成大量样本数据并将其存储在DDQN算法的重播缓冲区中。当重播缓冲区中积累了足够的样本数据时，DDQN算法会从重播缓冲区中随机抽取样本，这些样本数据用于学习策略，进而得到训练后的DDQN算法。

步骤3：获取第k时刻第i个无人艇采集到环境感知值E_i,k，并将此值输入到训练后的DDQN算法中，就可以反馈给第i个无人艇相应的动作值，然后根据此执行动作控制该无人艇进行搜索。

相比于现有协同搜索算法，本发明专利具有以下有益效果：

(1)本发明可以使无人艇团队学习到有效的搜索策略，在任务范围内快速定位目标的同时，保证无人艇在任务执行过程中的航行安全。(2)与传统的搜索算法相比，本发明搜索的精确度和效率更高。(3)本发明具有实时在线学习能力，可以根据不同的任务情况学习到不同的搜索策略，大大提高了无人艇团队的任务能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多无人艇协同搜索控制方法，其特征在于，包括：

2.根据权利要求1所述的一种多无人艇协同搜索控制方法，其特征在于，所述根据所述任务区域和概率图方式，确定当前时刻每个所述无人艇对应的环境感知信息，具体包括：

3.根据权利要求2所述的一种多无人艇协同搜索控制方法，其特征在于，所述目标信息的确定过程为：

以所述任务子区域的一个角点为原点建立xy坐标系；

确定每个单元格目标存在概率；

确定当前时刻所述无人艇的感应区域；

4.根据权利要求3所述的一种多无人艇协同搜索控制方法，其特征在于，所述协作信息的确定过程为：

5.根据权利要求3所述的一种多无人艇协同搜索控制方法，其特征在于，所述障碍物观察信息的确定过程为：

6.根据权利要求3所述的一种多无人艇协同搜索控制方法，其特征在于，所述避免碰撞信息的确定过程为：

7.根据权利要求1所述的一种多无人艇协同搜索控制方法，其特征在于，所述目标搜索策略输出模型的构建过程为：

构建DDQN网络结构；

8.一种多无人艇协同搜索控制系统，其特征在于，包括：

9.根据权利要求8所述的一种多无人艇协同搜索控制系统，其特征在于，所述环境感知信息确定模块，具体包括：

10.根据权利要求8所述的一种多无人艇协同搜索控制系统，其特征在于，还包括：目标搜索策略输出模型构建模块；所述目标搜索策略输出模型构建模块，具体包括：

DDQN网络结构构建单元，用于构建DDQN网络结构；