CN115373409B

CN115373409B - 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法

Info

Publication number: CN115373409B
Application number: CN202210920765.1A
Authority: CN
Inventors: 黄海; 孙溢泽; 张震坤; 靳佰达; 卞鑫宇; 姜涛; 蔡峰春; 韩鑫悦; 王兆群
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2023-05-30
Anticipated expiration: 2042-08-02
Also published as: CN115373409A

Abstract

本发明属于路径规划技术领域，涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法，具体流程为基于DBSCAN算法的聚类分布、基于改进粒子群算法的任务分配、双值迭代网络的路径规划。本发明首先采用一种基于密度的水下海生物目标聚类方法，对抓取目标进行聚类，为抓取任务提供任务目标；又提出一种结合LSTM网络的改进双值迭代网络，得到预测后的水下环境，对原始的地图进行修正；最后提出了一种基于改进粒子群算法的水下多机器人的任务分配方法，通过优化粒子群算法为每个机器人分配的任务，使用改进双值迭代网络，为每个机器人规划长周期的路径，实现复杂环境下水下机器人协同捕捞海生物的路径规划。

Description

一种复杂环境下水下机器人协同捕捞海生物的路径规划方法

技术领域

本发明属于路径规划技术领域，具体涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。

背景技术

目前，自然养殖海参和鲍鱼的捕捞目前主要由潜水员完成。与人工养殖环境相比，近海自然养殖环境不仅深度相对较大，目标生物密度小，而且生长在礁石等环境相近，较大地增加了人力成本和机器捕捞工作的困难。目前水下机器人的捕捞效率和人类相比尚有较大差距，而多水下机器人协同捕捞作业不仅可以较大提高捕捞效率，而且可以实现大面积的捕捞作业，但由于水下障碍物环境复杂，视野受限使得传统的多机器人协作路径规划方法难以适用，需要针对水下捕捞的环境变化进行预测和路径重规划。

申请号201710301455.0的中国专利文件(公开日：2017年9月15日)中公开的“一种基于行为的多水下机器人路径规划方法”，提供了一种适用于动态未知环境下的多水下机器人路径规划策略，主要通过定义基本行为来对水下机器人的航行路径添加约束，通过建立节能行为、协同行为和安全行为的全局目标函数，通过行为融合生成免于碰撞的最优路径。但难以对复杂和未知的环境实现多水下机器人的捕捞任务分配和协同捕捞路径规划。

发明内容

本发明的目的在于一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。

本发明的目的通过如下技术方案来实现：

一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,具体包括以下步骤：

步骤一：提出一种基于密度的水下海生物目标聚类方法；

根据各个对象之间的欧式距离进行聚类，将水下复杂环境中的海生物根据目标抓取任务需要，对抓取目标进行聚类，得到几个目标群，对于每个目标群求得它的几何中心位置，得到抓取目标点，为抓取任务提供任务目标；

步骤二：提出一种结合LSTM网络的改进双值迭代网络，并进行训练；

通过LSTM网络对环境中发生变化的部分进行预测，得到预测后的水下环境，对原始的地图进行修正，并将改进的LSTM模块替代原来的迭代操作，值迭代网络改进的双值迭代网络将更适用于水下的路径规划；

步骤三：提出了一种基于改进粒子群算法的水下多机器人的任务分配方法；

通过优化粒子群算法为每个机器人分配的任务，使用改进双值迭代网络，为每个机器人规划长周期的路径，实现复杂环境下水下机器人协同捕捞海生物的路径规划。

进一步地，所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程：

(1)寻找核心点形成临时聚类簇；

检查所有的样本点，判断是否为核心点，如果是加入到核心点列表中，并将所有密度直达的点形成临时聚类簇；

(2)合并临时聚类簇得到聚类簇；

对于每一个临时聚类簇，判断每一个点是否为核心点，如果是将临时聚类簇合并到当前临时聚类簇，得到新的临时聚类簇；以此类推，直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇，或者簇内的每一个点都不在核心点列表中，证明已经形成了聚类簇，最后将所有的临时聚类簇合并，完成聚类。

进一步地，所述步骤二中定义一种改进双值迭代网络的LSTM迭代模块：

使用LSTM代替值迭代网络中原来的卷积网络，LSTM的输入为奖励图像和隐藏层状态的组合，每一个时刻的更新表示状态-动作价值函数的更新，k次循环后输出的h^(k)就是最终的状态-动作价值函数，用于后面生成相应的策略；基于LSTM轻量化的价值迭代模块更新公式如下：

h^k+C^k＝LSTM(R+h^k-1+C^k-1)

其中，R表示奖励函数，C表示细胞状态，h表示隐藏层状态；

LSTM网络通过循环输入8个时刻的坐标，得到细胞状态和隐藏层状态，根据在接下来12个时刻每一个时刻输入上一个时刻的坐标，来预测接下来12个时刻的坐标，LSTM细胞的输入特征是64维，并且LSTM细胞中隐藏层维度是128，故一个时刻LSTM的输入是将观测到二维的位置通过全连接层映射为64维向量，上一个时刻输出的128维的隐藏层状态与128维的细胞状态，将得到的特征向量通过高斯分布映射成二维的坐标；则LSTM迭代部分更新式为：

h^k+C^k＝LSTM(R+ΔR+h^k-1+C^k-1)

进一步地，提出一种对改进双值迭代网络的训练方法：

对训练环境的设置，值迭代网络仿真所用的地图尺寸有18×18，28×28；数据集中的样本路径是由Dijstra算法生成，其中训练集中有25000个样本，验证集中有5000个样本，测试集中有5000个样本；生成数据集时，每个栅格地图会储存为一个哈希值，当新生成的地图时，会检查是否与数据集中的地图重复；每个样本包括由环境地图、起点、终点和决策图组成，形成一一对应的标签，与监督学习训练的方法相似；在训练中，采用模仿学习的方法对算法进行训练，评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率；

对于18×18的网格，学习率为0.002，训练30轮，迭代20次，批大小为128，28×28的网格，学习率为0.002，训练30轮，迭代36批大小为128，损失函数采用交叉熵函数，并通过Adam优化器更新模型；提出的路径规划算法在ubantu环境中，使用的编译软件是pycharm，使用深度学习框架1.0，随机初始化神经网络的权重参数；对于LSTM网络模型，数据集共有145段轨迹，每段轨迹有的长度为20，前八个位置坐标作为观测位置，后12个位置坐标为预测位置；50轮训练，每轮训练由58个batch，batchsize为5，对于训练LSTM预测模型，使用随机梯度下降的方法训练模型，学习率为0.003；

对训练过程，值迭代网络通过正确的路由策略进行训练，是价值地图学习最大价值的方向；采用交叉熵损失函数对网络进行训练；最后，双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径；当多通道值通道和双奖励值迭代网络结构确定后，就可以将训练数据从环境映射到路由策略，从而对双奖励值迭代网络进行端到端训练。

进一步地，所述步骤三中提出了一种基于改进粒子群算法的水下多机器人的任务分配方法包括以下过程：

针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子，每个粒子代表一次多机器人的任务规划每个粒子包含两个N_num维向量，分别定义为X_mission和X_seq两个向量；其中X_mission向量代表整个抓取任务，需要执行抓取任务的任务点，X_seq表示对应于不同的机器人执行的次序，同一个机器人多次出现的先后顺序代表执行捕捞任务的先后次序，X_mission和X_seq共同决定着捕捞的先后顺序；

根据具体的抓取任务，对于两个向量进行不同的方式同时更新；对于X_mission向量代表不同阶段需要捕捞的任务点，在每个阶段为每个机器人只分配一个任务点，X_mission向量表示不同的阶段分配给不同机器人对应的任务点，将X_mission向量定义为整数序列：

X_mission＝(s₁,s₂,…,s_sum)

其中，X_mission中的任意两个元素不重复，并且任意一个元素属于任务点集合M中，对于该向量可以通过离散的粒子群算法进行更新；

对于X_seq向量代表着在不同阶段需要在对应任务点执行任务的对应捕捞机器人，X_seq将定义为整数序列：

Y＝(p₁,p₂,…,p_r)

其中，每个元素代表指定的捕捞机器人，每个机器人都属于机器人集合N，向量的更新采用将pso算法的更新，具体的更新步骤如下：

S1：每个粒子的位置中向量的每个元素随机取任务集中任务点对应的编号；

S2：为了满足保证效率，当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕，需要重新生成该向量，直到满足条件为止；

S3：为每个分配结果使用双值迭代网络规划路线；

S4：结合X_seq向量，按照适应度函数计算个体历史最优解和整体全局最优解；

S5：按照速度更新公式和位置更新公式计算；

S6：重复执行步骤S4和S5，直到满足迭代次数。

进一步地，适应度函数的定义如下：

其中，f_pickij为第i个机器人去第j个任务点执行任务的捕捞路径，q_sumij为第i个机器人去第j个任务点的状态价值和，μ₁和μ₂分别代表价值q_sumij和与捕捞路径f_pickij的权值，N_r为捕捞机器人的编号，N_num为需要捕捞的任务点，P_ij为当前任务点的目标数量。

本发明的有益效果在于：

本发明一种水下机器人海生物高效捕捞路径规划方法。设计了水下捕捞任务分配模型，改进了粒子群优化算法，以抓取运动代价为优化目标，并结合改进双值迭代网络提出多机器人协同路径规划模型，以实现多捕捞机器人协同路径规划的高效性，提升多捕捞机器人目标抓取的效率。

附图说明

图1为本发明的DBSCAN算法步骤图；

图2为本发明的双值迭代网络结构图；

图3为本发明的双值迭代网络的训练；

图4为本发明的基于双值迭代网络的路径规划流程；

图5为本发明的多机器人任务分配的整体框架；

图6为本发明的仿真环境；

图7为本发明的协同捕捞仿真结果。

具体实施方式

下面结合附图对本发明做进一步描述。

一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于所述适用于水下机器人协同捕捞海生物的路径规划方法，具体包括：

首先采用基于密度的DBSCAN算法，根据各个对象之间的欧式距离进行聚类，将水下复杂环境中的海生物根据目标抓取任务需要，对抓取目标进行聚类，得到几个目标群，对于每个目标群求得它的几何中心位置，得到抓取目标点，为抓取任务提供任务目标。

如附图1所示，DBSCAN的算法步骤分成两步：

1.寻找核心点形成临时聚类簇。

检查所有的样本点，判断是否为核心点，如果是加入到核心点列表中，并将所有密度直达的点形成临时聚类簇。

2.合并临时聚类簇得到聚类簇。

对于每一个临时聚类簇，判断每一个点是否为核心点，如果是将临时聚类簇合并到当前临时聚类簇，得到新的临时聚类簇。以此类推，直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇，或者簇内的每一个点都不在核心点列表中，证明已经形成了聚类簇，最后将所有的临时聚类簇合并，完成聚类。

算法1DBSCAN算法流程

其次结合LSTM网络模块改进单值迭代网络，提出一种双值迭代网络，通过LSTM网络对环境中发生变化的部分进行预测，得到预测后的水下环境，对原始的地图进行修正，并将改进的LSTM模块替代原来的迭代操作：

双值迭代网络结构如附图2所示，首先，为了预测接下来12个轨迹，需要将8个观察到环境变化部分的轨迹输入到LSTM预测网络中，d是当前的时间戳。LSTM网络包含了一层神LSTM层和两层全连接层。为了适应值迭代网络，每个观测地图将通过标准化组成一个转换为9层的奖励地图，表示对应时间戳下的环境状态，通过输入8个时刻的观测到的环境变化部分的轨迹，预测出12个时间戳后的环境状态。然后，将当前环境状态与预测环境状态进行组合，输入到改进的LSTM迭代模块，通过迭代k次，得到最终的价值地图。

价值迭代网络与反应式神经网络的不同之处在于价值迭代网络具有规划能力，采用基于贝尔曼优化原理的值迭代算法，利用卷积和最大池化将规划模块嵌入到值迭代网络中，将值迭代网络的核心迭代流程按时序展开如附图3所示，当前时刻的状态值函数与奖励函数线性组合经过最大池化得到。基于双值迭代网络的路径规划整体流程如附图4所示。

对于改进双值迭代网络训练环境的设置，值迭代网络仿真所用的地图尺寸有18×18，28×28。数据集中的样本路径是由Dijstra算法生成，其中训练集中有25000个样本，验证集中有5000个样本，测试集中有5000个样本。生成数据集时，每个栅格地图会储存为一个哈希值，当新生成的地图时，会检查是否与数据集中的地图重复。每个样本包括由环境地图，起点，终点和决策图组成，形成一一对应的标签，与监督学习训练的方法相似。在训练中，采用模仿学习的方法对算法进行训练，评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率。

对于18×18的网格，学习率为0.002，训练30轮，迭代20次，批大小为128，28×28的网格，学习率为0.002，训练30轮，迭代36批大小为128，损失函数采用交叉熵函数，并通过Adam优化器更新模型。提出的路径规划算法在ubantu环境中，使用的编译软件是pycharm，使用深度学习框架1.0，随机初始化神经网络的权重参数。对于LSTM网络模型，数据集共有145段轨迹，每段轨迹有的长度为20，前八个位置坐标作为观测位置，后12个位置坐标为预测位置。50轮训练，每轮训练由58个batch，batchsize为5，对于训练LSTM预测模型，使用随机梯度下降的方法训练模型，学习率为0.003。

训练过程为值迭代网络通过正确的路由策略进行训练，是价值地图学习最大价值的方向。采用交叉熵损失函数对网络进行训练。最后，双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径。当多通道值通道和双奖励值迭代网络结构确定后，就可以将训练数据从环境映射到路由策略，从而对双奖励值迭代网络进行端到端训练。所提出的双奖励值迭代网络经过30轮训练后，能够成功地规划出最优捕获路径。

最后通过改进粒子群算法为每个机器人分配的任务，使用改进双值迭代网络，为每个机器人规划长周期的路径，实现复杂环境下水下机器人协同捕捞海生物的路径规划：

在粒子群算法中，对于采用排列编码的粒子，使用交换算子来定义粒子更新的公式。交换序算子S＝(S₁,S₂),是对于粒子S₁和S₂位置处交换对应的元素，通过一系列的交换序算子可以对粒子进行更新，粒子与交换序算子相加表示对粒子进行换序操作，两个粒子的减法表示得到两个粒子的交换序算子。

经过定义后的粒子位置更新公式可以表示为：

x_j(t)＝x_i(t)+(S₁，S₂，…)

速度更新公式可以定义为：

v_i(t+1)＝v_i(t+1)+ω₁(x_pi(t)-x_i(t))+ω₂(x_gi(t)-x_i(t))

其中ω₁表示全局最优粒子的保留概率，ω₂表示个体最优粒子的保留概率，v_i表示粒子的速度，x_i表示粒子当前的位置，v_i的最大值为V_max(大于0)，如果v_i大于V_max，则V_i＝V_max，x_pi表示局部最优位置，x_gi表示全局最优位置。

针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子，每个粒子代表一次多机器人的任务规划每个粒子包含两个N_num维向量，分别定义为X_mission和X_seq两个向量。其中X_mission向量代表整个抓取任务，需要执行抓取任务的任务点，X_seq表示对应于不同的机器人执行的次序，同一个机器人多次出现的先后顺序代表执行捕捞任务的先后次序，X_mission和X_seq共同决定着捕捞的先后顺序。

根据具体的抓取任务，对于两个向量进行不同的方式同时更新。对于X_mission向量代表不同阶段需要捕捞的任务点，在每个阶段为每个机器人只分配一个任务点，X_mission向量表示不同的阶段分配给不同机器人对应的任务点，将X_mission向量定义为整数序列：

X＝(s₁，s₂，…，s_sum)

其中X中的任意两个元素不重复，并且任意一个元素属于任务点集合M中，对于该向量可以通过离散的粒子群算法进行更新。

Y＝(p₁，p₂，…，p_r)

其中每个元素代表指定的捕捞机器人，每个机器人都属于机器人集合N。X_seq与X_mission不同的是，X_seq表示的是不同阶段下需要执行任务的捕捞机器人，捕捞机器人可能在多个任务点执行任务，所以X_seq中的元素可以重复。并且每个任务点有目标限制，因此向量的更新采用将pso算法的更新。

pso算法中的适应度函数平均抓取路径f_fit如下：

其中，f_pickij为第i个机器人去第j个任务点执行任务的捕捞路径，g_sumij为第i个机器人去第j个任务点的状态价值和，μ₁和μ₂分别代表价值q_sumij和与捕捞路径f_pickij的权值，N_r为捕捞机器人的编号，N_num为需要捕捞的任务点，P_ij为当前任务点的目标数量。

具体的更新步骤如下：

S1每个粒子的位置中向量的每个元素随机取任务集中任务点对应的编号

S2为了满足保证效率，当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕，需要重新生成该向量，直到满足条件为止。

S3为每个分配结果使用双值迭代网络规划路线。

S4结合X_seq向量，按照适应度函数计算个体历史最优解和整体全局最优解。

S5按照速度更新公式和位置更新公式计算。

S6重复执行步骤S4和S5，直到满足迭代次数。

如附图5所示，通过优化粒子群算法为每个机器人分配的任务，为每个机器人规划长周期的路径，输入的地图为DBSCAN算法聚类后生成的水下地图，使用的网络为改进双值迭代网络，并根据任务要求最后对捕捞机器人系统计算适应度函数f_fit，作为对整体任务分配的评估标准计算。

如附图6(a)(b)所示，仿真环境将使用分别2个，3个捕捞机器人对8个目标进行捕捞，已知任务点的位置和任务点的目标数目，捕捞机器人的位置已知。

其中各种颜色的圆点表示任务点，地图中右下角黄色的三角代表投放捕捞机器人的位置，每个任务点的碰撞风险和目标数量如下表所示，机器人平均抓取速度为1个/min，同时用抓取每个目标所耗费时间和抓取代价衡量机器人的抓取效率和抓取平均代价：

表1每个任务点的目标个数

洋流情况如附图6(c)所示；

设置20组粒子进行初始化，分别进行200次迭代，根据分配结果使用双值迭代网络对分别结果进行规划。如附图7所示是对两个机器人，三个机器人分别通过粒子群算法任务分配，并使用改进双值迭代网络在修正前后的地图上进行的路径规划。通过结果可以看出多个机器人协同抓取的效率高于单个机器人的捕捞效率，通过离子群算法可以搜索出使整体路径安全、平滑的分配方案。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于：具体包括以下步骤：

步骤一：提出一种基于密度的水下海生物目标聚类方法；

所述一种改进双值迭代网络的LSTM迭代模块：

h^k+C^k＝LSTM(R+h^k-1+C^k-1)

其中，R表示奖励函数，C表示细胞状态，h表示隐藏层状态；

h^k+C^k＝LSTM(R+ΔR+h^k-1+C^k-1)；

所述一种对改进双值迭代网络的训练方法：

对训练环境的设置，值迭代网络仿真所用的地图尺寸有18×18，28×28；数据集中的样本路径是由Dijstra算法生成，其中训练集中有25000个样本，验证集中有5000个样本，测试集中有5000个样本；生成数据集时，每个栅格地图储存为一个哈希值，当新生成的地图时，检查是否与数据集中的地图重复；每个样本包括由环境地图、起点、终点和决策图组成，形成一一对应的标签，与监督学习训练的方法相似；在训练中，采用模仿学习的方法对算法进行训练，评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率；

对训练过程，值迭代网络通过正确的路由策略进行训练，是价值地图学习最大价值的方向；采用交叉熵损失函数对网络进行训练；最后，双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径；当多通道值通道和双奖励值迭代网络结构确定后，就可以将训练数据从环境映射到路由策略，从而对双奖励值迭代网络进行端到端训练；

通过优化粒子群算法为每个机器人分配的任务，使用改进双值迭代网络，为每个机器人规划长周期的路径，实现复杂环境下水下机器人协同捕捞海生物的路径规划；

所述一种基于改进粒子群算法的水下多机器人的任务分配方法包括以下过程：

X_mission＝(s₁,s₂,…,s_sum)

Y＝(p₁,p₂,…,p_r)

S2：当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕，需要重新生成该向量，直到满足条件为止；

S3：为每个分配结果使用双值迭代网络规划路线；

所述适应度函数的定义如下：

其中，f_pickij为第i个机器人去第j个任务点执行任务的捕捞路径，q_sumij为第i个机器人去第j个任务点的状态价值和，μ₁和μ₂分别代表价值q_sumij和与捕捞路径f_pickij的权值，N_r为捕捞机器人的编号，N_num为需要捕捞的任务点，P_ij为当前任务点的目标数量；

S5：按照速度更新公式和位置更新公式计算；

S6：重复执行步骤S4和S5，直到满足迭代次数。

2.如权利要求1所述的一种复杂环境下水下机器人协同捕捞海生物的路径规划方法，其特征在于：所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程：

(1)寻找核心点形成临时聚类簇；

(2)合并临时聚类簇得到聚类簇；