CN115373409B - 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 - Google Patents
一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 Download PDFInfo
- Publication number
- CN115373409B CN115373409B CN202210920765.1A CN202210920765A CN115373409B CN 115373409 B CN115373409 B CN 115373409B CN 202210920765 A CN202210920765 A CN 202210920765A CN 115373409 B CN115373409 B CN 115373409B
- Authority
- CN
- China
- Prior art keywords
- task
- robot
- network
- training
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000002245 particle Substances 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 25
- 238000004088 simulation Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000237891 Haliotidae Species 0.000 description 1
- 241000251511 Holothuroidea Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Manipulator (AREA)
Abstract
本发明属于路径规划技术领域,涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,具体流程为基于DBSCAN算法的聚类分布、基于改进粒子群算法的任务分配、双值迭代网络的路径规划。本发明首先采用一种基于密度的水下海生物目标聚类方法,对抓取目标进行聚类,为抓取任务提供任务目标;又提出一种结合LSTM网络的改进双值迭代网络,得到预测后的水下环境,对原始的地图进行修正;最后提出了一种基于改进粒子群算法的水下多机器人的任务分配方法,通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划。
Description
技术领域
本发明属于路径规划技术领域,具体涉及一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。
背景技术
目前,自然养殖海参和鲍鱼的捕捞目前主要由潜水员完成。与人工养殖环境相比,近海自然养殖环境不仅深度相对较大,目标生物密度小,而且生长在礁石等环境相近,较大地增加了人力成本和机器捕捞工作的困难。目前水下机器人的捕捞效率和人类相比尚有较大差距,而多水下机器人协同捕捞作业不仅可以较大提高捕捞效率,而且可以实现大面积的捕捞作业,但由于水下障碍物环境复杂,视野受限使得传统的多机器人协作路径规划方法难以适用,需要针对水下捕捞的环境变化进行预测和路径重规划。
申请号201710301455.0的中国专利文件(公开日:2017年9月15日)中公开的“一种基于行为的多水下机器人路径规划方法”,提供了一种适用于动态未知环境下的多水下机器人路径规划策略,主要通过定义基本行为来对水下机器人的航行路径添加约束,通过建立节能行为、协同行为和安全行为的全局目标函数,通过行为融合生成免于碰撞的最优路径。但难以对复杂和未知的环境实现多水下机器人的捕捞任务分配和协同捕捞路径规划。
发明内容
本发明的目的在于一种复杂环境下水下机器人协同捕捞海生物的路径规划方法。
本发明的目的通过如下技术方案来实现:
一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,具体包括以下步骤:
步骤一:提出一种基于密度的水下海生物目标聚类方法;
根据各个对象之间的欧式距离进行聚类,将水下复杂环境中的海生物根据目标抓取任务需要,对抓取目标进行聚类,得到几个目标群,对于每个目标群求得它的几何中心位置,得到抓取目标点,为抓取任务提供任务目标;
步骤二:提出一种结合LSTM网络的改进双值迭代网络,并进行训练;
通过LSTM网络对环境中发生变化的部分进行预测,得到预测后的水下环境,对原始的地图进行修正,并将改进的LSTM模块替代原来的迭代操作,值迭代网络改进的双值迭代网络将更适用于水下的路径规划;
步骤三:提出了一种基于改进粒子群算法的水下多机器人的任务分配方法;
通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划。
进一步地,所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程:
(1)寻找核心点形成临时聚类簇;
检查所有的样本点,判断是否为核心点,如果是加入到核心点列表中,并将所有密度直达的点形成临时聚类簇;
(2)合并临时聚类簇得到聚类簇;
对于每一个临时聚类簇,判断每一个点是否为核心点,如果是将临时聚类簇合并到当前临时聚类簇,得到新的临时聚类簇;以此类推,直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇,或者簇内的每一个点都不在核心点列表中,证明已经形成了聚类簇,最后将所有的临时聚类簇合并,完成聚类。
进一步地,所述步骤二中定义一种改进双值迭代网络的LSTM迭代模块:
使用LSTM代替值迭代网络中原来的卷积网络,LSTM的输入为奖励图像和隐藏层状态的组合,每一个时刻的更新表示状态-动作价值函数的更新,k次循环后输出的h(k)就是最终的状态-动作价值函数,用于后面生成相应的策略;基于LSTM轻量化的价值迭代模块更新公式如下:
hk+Ck=LSTM(R+hk-1+Ck-1)
其中,R表示奖励函数,C表示细胞状态,h表示隐藏层状态;
LSTM网络通过循环输入8个时刻的坐标,得到细胞状态和隐藏层状态,根据在接下来12个时刻每一个时刻输入上一个时刻的坐标,来预测接下来12个时刻的坐标,LSTM细胞的输入特征是64维,并且LSTM细胞中隐藏层维度是128,故一个时刻LSTM的输入是将观测到二维的位置通过全连接层映射为64维向量,上一个时刻输出的128维的隐藏层状态与128维的细胞状态,将得到的特征向量通过高斯分布映射成二维的坐标;则LSTM迭代部分更新式为:
hk+Ck=LSTM(R+ΔR+hk-1+Ck-1)
进一步地,提出一种对改进双值迭代网络的训练方法:
对训练环境的设置,值迭代网络仿真所用的地图尺寸有18×18,28×28;数据集中的样本路径是由Dijstra算法生成,其中训练集中有25000个样本,验证集中有5000个样本,测试集中有5000个样本;生成数据集时,每个栅格地图会储存为一个哈希值,当新生成的地图时,会检查是否与数据集中的地图重复;每个样本包括由环境地图、起点、终点和决策图组成,形成一一对应的标签,与监督学习训练的方法相似;在训练中,采用模仿学习的方法对算法进行训练,评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率;
对于18×18的网格,学习率为0.002,训练30轮,迭代20次,批大小为128,28×28的网格,学习率为0.002,训练30轮,迭代36批大小为128,损失函数采用交叉熵函数,并通过Adam优化器更新模型;提出的路径规划算法在ubantu环境中,使用的编译软件是pycharm,使用深度学习框架1.0,随机初始化神经网络的权重参数;对于LSTM网络模型,数据集共有145段轨迹,每段轨迹有的长度为20,前八个位置坐标作为观测位置,后12个位置坐标为预测位置;50轮训练,每轮训练由58个batch,batchsize为5,对于训练LSTM预测模型,使用随机梯度下降的方法训练模型,学习率为0.003;
对训练过程,值迭代网络通过正确的路由策略进行训练,是价值地图学习最大价值的方向;采用交叉熵损失函数对网络进行训练;最后,双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径;当多通道值通道和双奖励值迭代网络结构确定后,就可以将训练数据从环境映射到路由策略,从而对双奖励值迭代网络进行端到端训练。
进一步地,所述步骤三中提出了一种基于改进粒子群算法的水下多机器人的任务分配方法包括以下过程:
针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子,每个粒子代表一次多机器人的任务规划每个粒子包含两个Nnum维向量,分别定义为Xmission和Xseq两个向量;其中Xmission向量代表整个抓取任务,需要执行抓取任务的任务点,Xseq表示对应于不同的机器人执行的次序,同一个机器人多次出现的先后顺序代表执行捕捞任务的先后次序,Xmission和Xseq共同决定着捕捞的先后顺序;
根据具体的抓取任务,对于两个向量进行不同的方式同时更新;对于Xmission向量代表不同阶段需要捕捞的任务点,在每个阶段为每个机器人只分配一个任务点,Xmission向量表示不同的阶段分配给不同机器人对应的任务点,将Xmission向量定义为整数序列:
Xmission=(s1,s2,…,ssum)
其中,Xmission中的任意两个元素不重复,并且任意一个元素属于任务点集合M中,对于该向量可以通过离散的粒子群算法进行更新;
对于Xseq向量代表着在不同阶段需要在对应任务点执行任务的对应捕捞机器人,Xseq将定义为整数序列:
Y=(p1,p2,…,pr)
其中,每个元素代表指定的捕捞机器人,每个机器人都属于机器人集合N,向量的更新采用将pso算法的更新,具体的更新步骤如下:
S1:每个粒子的位置中向量的每个元素随机取任务集中任务点对应的编号;
S2:为了满足保证效率,当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕,需要重新生成该向量,直到满足条件为止;
S3:为每个分配结果使用双值迭代网络规划路线;
S4:结合Xseq向量,按照适应度函数计算个体历史最优解和整体全局最优解;
S5:按照速度更新公式和位置更新公式计算;
S6:重复执行步骤S4和S5,直到满足迭代次数。
进一步地,适应度函数的定义如下:
其中,fpickij为第i个机器人去第j个任务点执行任务的捕捞路径,qsumij为第i个机器人去第j个任务点的状态价值和,μ1和μ2分别代表价值qsumij和与捕捞路径fpickij的权值,Nr为捕捞机器人的编号,Nnum为需要捕捞的任务点,Pij为当前任务点的目标数量。
本发明的有益效果在于:
本发明一种水下机器人海生物高效捕捞路径规划方法。设计了水下捕捞任务分配模型,改进了粒子群优化算法,以抓取运动代价为优化目标,并结合改进双值迭代网络提出多机器人协同路径规划模型,以实现多捕捞机器人协同路径规划的高效性,提升多捕捞机器人目标抓取的效率。
附图说明
图1为本发明的DBSCAN算法步骤图;
图2为本发明的双值迭代网络结构图;
图3为本发明的双值迭代网络的训练;
图4为本发明的基于双值迭代网络的路径规划流程;
图5为本发明的多机器人任务分配的整体框架;
图6为本发明的仿真环境;
图7为本发明的协同捕捞仿真结果。
具体实施方式
下面结合附图对本发明做进一步描述。
一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于所述适用于水下机器人协同捕捞海生物的路径规划方法,具体包括:
首先采用基于密度的DBSCAN算法,根据各个对象之间的欧式距离进行聚类,将水下复杂环境中的海生物根据目标抓取任务需要,对抓取目标进行聚类,得到几个目标群,对于每个目标群求得它的几何中心位置,得到抓取目标点,为抓取任务提供任务目标。
如附图1所示,DBSCAN的算法步骤分成两步:
1.寻找核心点形成临时聚类簇。
检查所有的样本点,判断是否为核心点,如果是加入到核心点列表中,并将所有密度直达的点形成临时聚类簇。
2.合并临时聚类簇得到聚类簇。
对于每一个临时聚类簇,判断每一个点是否为核心点,如果是将临时聚类簇合并到当前临时聚类簇,得到新的临时聚类簇。以此类推,直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇,或者簇内的每一个点都不在核心点列表中,证明已经形成了聚类簇,最后将所有的临时聚类簇合并,完成聚类。
算法1DBSCAN算法流程
其次结合LSTM网络模块改进单值迭代网络,提出一种双值迭代网络,通过LSTM网络对环境中发生变化的部分进行预测,得到预测后的水下环境,对原始的地图进行修正,并将改进的LSTM模块替代原来的迭代操作:
双值迭代网络结构如附图2所示,首先,为了预测接下来12个轨迹,需要将8个观察到环境变化部分的轨迹输入到LSTM预测网络中,d是当前的时间戳。LSTM网络包含了一层神LSTM层和两层全连接层。为了适应值迭代网络,每个观测地图将通过标准化组成一个转换为9层的奖励地图,表示对应时间戳下的环境状态,通过输入8个时刻的观测到的环境变化部分的轨迹,预测出12个时间戳后的环境状态。然后,将当前环境状态与预测环境状态进行组合,输入到改进的LSTM迭代模块,通过迭代k次,得到最终的价值地图。
价值迭代网络与反应式神经网络的不同之处在于价值迭代网络具有规划能力,采用基于贝尔曼优化原理的值迭代算法,利用卷积和最大池化将规划模块嵌入到值迭代网络中,将值迭代网络的核心迭代流程按时序展开如附图3所示,当前时刻的状态值函数与奖励函数线性组合经过最大池化得到。基于双值迭代网络的路径规划整体流程如附图4所示。
对于改进双值迭代网络训练环境的设置,值迭代网络仿真所用的地图尺寸有18×18,28×28。数据集中的样本路径是由Dijstra算法生成,其中训练集中有25000个样本,验证集中有5000个样本,测试集中有5000个样本。生成数据集时,每个栅格地图会储存为一个哈希值,当新生成的地图时,会检查是否与数据集中的地图重复。每个样本包括由环境地图,起点,终点和决策图组成,形成一一对应的标签,与监督学习训练的方法相似。在训练中,采用模仿学习的方法对算法进行训练,评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率。
对于18×18的网格,学习率为0.002,训练30轮,迭代20次,批大小为128,28×28的网格,学习率为0.002,训练30轮,迭代36批大小为128,损失函数采用交叉熵函数,并通过Adam优化器更新模型。提出的路径规划算法在ubantu环境中,使用的编译软件是pycharm,使用深度学习框架1.0,随机初始化神经网络的权重参数。对于LSTM网络模型,数据集共有145段轨迹,每段轨迹有的长度为20,前八个位置坐标作为观测位置,后12个位置坐标为预测位置。50轮训练,每轮训练由58个batch,batchsize为5,对于训练LSTM预测模型,使用随机梯度下降的方法训练模型,学习率为0.003。
训练过程为值迭代网络通过正确的路由策略进行训练,是价值地图学习最大价值的方向。采用交叉熵损失函数对网络进行训练。最后,双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径。当多通道值通道和双奖励值迭代网络结构确定后,就可以将训练数据从环境映射到路由策略,从而对双奖励值迭代网络进行端到端训练。所提出的双奖励值迭代网络经过30轮训练后,能够成功地规划出最优捕获路径。
最后通过改进粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划:
在粒子群算法中,对于采用排列编码的粒子,使用交换算子来定义粒子更新的公式。交换序算子S=(S1,S2),是对于粒子S1和S2位置处交换对应的元素,通过一系列的交换序算子可以对粒子进行更新,粒子与交换序算子相加表示对粒子进行换序操作,两个粒子的减法表示得到两个粒子的交换序算子。
经过定义后的粒子位置更新公式可以表示为:
xj(t)=xi(t)+(S1,S2,…)
速度更新公式可以定义为:
vi(t+1)=vi(t+1)+ω1(xpi(t)-xi(t))+ω2(xgi(t)-xi(t))
其中ω1表示全局最优粒子的保留概率,ω2表示个体最优粒子的保留概率,vi表示粒子的速度,xi表示粒子当前的位置,vi的最大值为Vmax(大于0),如果vi大于Vmax,则Vi=Vmax,xpi表示局部最优位置,xgi表示全局最优位置。
针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子,每个粒子代表一次多机器人的任务规划每个粒子包含两个Nnum维向量,分别定义为Xmission和Xseq两个向量。其中Xmission向量代表整个抓取任务,需要执行抓取任务的任务点,Xseq表示对应于不同的机器人执行的次序,同一个机器人多次出现的先后顺序代表执行捕捞任务的先后次序,Xmission和Xseq共同决定着捕捞的先后顺序。
根据具体的抓取任务,对于两个向量进行不同的方式同时更新。对于Xmission向量代表不同阶段需要捕捞的任务点,在每个阶段为每个机器人只分配一个任务点,Xmission向量表示不同的阶段分配给不同机器人对应的任务点,将Xmission向量定义为整数序列:
X=(s1,s2,…,ssum)
其中X中的任意两个元素不重复,并且任意一个元素属于任务点集合M中,对于该向量可以通过离散的粒子群算法进行更新。
对于Xseq向量代表着在不同阶段需要在对应任务点执行任务的对应捕捞机器人,Xseq将定义为整数序列:
Y=(p1,p2,…,pr)
其中每个元素代表指定的捕捞机器人,每个机器人都属于机器人集合N。Xseq与Xmission不同的是,Xseq表示的是不同阶段下需要执行任务的捕捞机器人,捕捞机器人可能在多个任务点执行任务,所以Xseq中的元素可以重复。并且每个任务点有目标限制,因此向量的更新采用将pso算法的更新。
pso算法中的适应度函数平均抓取路径ffit如下:
其中,fpickij为第i个机器人去第j个任务点执行任务的捕捞路径,gsumij为第i个机器人去第j个任务点的状态价值和,μ1和μ2分别代表价值qsumij和与捕捞路径fpickij的权值,Nr为捕捞机器人的编号,Nnum为需要捕捞的任务点,Pij为当前任务点的目标数量。
具体的更新步骤如下:
S1每个粒子的位置中向量的每个元素随机取任务集中任务点对应的编号
S2为了满足保证效率,当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕,需要重新生成该向量,直到满足条件为止。
S3为每个分配结果使用双值迭代网络规划路线。
S4结合Xseq向量,按照适应度函数计算个体历史最优解和整体全局最优解。
S5按照速度更新公式和位置更新公式计算。
S6重复执行步骤S4和S5,直到满足迭代次数。
如附图5所示,通过优化粒子群算法为每个机器人分配的任务,为每个机器人规划长周期的路径,输入的地图为DBSCAN算法聚类后生成的水下地图,使用的网络为改进双值迭代网络,并根据任务要求最后对捕捞机器人系统计算适应度函数ffit,作为对整体任务分配的评估标准计算。
如附图6(a)(b)所示,仿真环境将使用分别2个,3个捕捞机器人对8个目标进行捕捞,已知任务点的位置和任务点的目标数目,捕捞机器人的位置已知。
其中各种颜色的圆点表示任务点,地图中右下角黄色的三角代表投放捕捞机器人的位置,每个任务点的碰撞风险和目标数量如下表所示,机器人平均抓取速度为1个/min,同时用抓取每个目标所耗费时间和抓取代价衡量机器人的抓取效率和抓取平均代价:
表1每个任务点的目标个数
洋流情况如附图6(c)所示;
设置20组粒子进行初始化,分别进行200次迭代,根据分配结果使用双值迭代网络对分别结果进行规划。如附图7所示是对两个机器人,三个机器人分别通过粒子群算法任务分配,并使用改进双值迭代网络在修正前后的地图上进行的路径规划。通过结果可以看出多个机器人协同抓取的效率高于单个机器人的捕捞效率,通过离子群算法可以搜索出使整体路径安全、平滑的分配方案。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于:具体包括以下步骤:
步骤一:提出一种基于密度的水下海生物目标聚类方法;
根据各个对象之间的欧式距离进行聚类,将水下复杂环境中的海生物根据目标抓取任务需要,对抓取目标进行聚类,得到几个目标群,对于每个目标群求得它的几何中心位置,得到抓取目标点,为抓取任务提供任务目标;
步骤二:提出一种结合LSTM网络的改进双值迭代网络,并进行训练;
通过LSTM网络对环境中发生变化的部分进行预测,得到预测后的水下环境,对原始的地图进行修正,并将改进的LSTM模块替代原来的迭代操作,值迭代网络改进的双值迭代网络将更适用于水下的路径规划;
所述一种改进双值迭代网络的LSTM迭代模块:
使用LSTM代替值迭代网络中原来的卷积网络,LSTM的输入为奖励图像和隐藏层状态的组合,每一个时刻的更新表示状态-动作价值函数的更新,k次循环后输出的h(k)就是最终的状态-动作价值函数,用于后面生成相应的策略;基于LSTM轻量化的价值迭代模块更新公式如下:
hk+Ck=LSTM(R+hk-1+Ck-1)
其中,R表示奖励函数,C表示细胞状态,h表示隐藏层状态;
LSTM网络通过循环输入8个时刻的坐标,得到细胞状态和隐藏层状态,根据在接下来12个时刻每一个时刻输入上一个时刻的坐标,来预测接下来12个时刻的坐标,LSTM细胞的输入特征是64维,并且LSTM细胞中隐藏层维度是128,故一个时刻LSTM的输入是将观测到二维的位置通过全连接层映射为64维向量,上一个时刻输出的128维的隐藏层状态与128维的细胞状态,将得到的特征向量通过高斯分布映射成二维的坐标;则LSTM迭代部分更新式为:
hk+Ck=LSTM(R+ΔR+hk-1+Ck-1);
所述一种对改进双值迭代网络的训练方法:
对训练环境的设置,值迭代网络仿真所用的地图尺寸有18×18,28×28;数据集中的样本路径是由Dijstra算法生成,其中训练集中有25000个样本,验证集中有5000个样本,测试集中有5000个样本;生成数据集时,每个栅格地图储存为一个哈希值,当新生成的地图时,检查是否与数据集中的地图重复;每个样本包括由环境地图、起点、终点和决策图组成,形成一一对应的标签,与监督学习训练的方法相似;在训练中,采用模仿学习的方法对算法进行训练,评价标准包括规划的路径的长度小于标签路径的长以及路径规划的成功率;
对于18×18的网格,学习率为0.002,训练30轮,迭代20次,批大小为128,28×28的网格,学习率为0.002,训练30轮,迭代36批大小为128,损失函数采用交叉熵函数,并通过Adam优化器更新模型;提出的路径规划算法在ubantu环境中,使用的编译软件是pycharm,使用深度学习框架1.0,随机初始化神经网络的权重参数;对于LSTM网络模型,数据集共有145段轨迹,每段轨迹有的长度为20,前八个位置坐标作为观测位置,后12个位置坐标为预测位置;50轮训练,每轮训练由58个batch,batchsize为5,对于训练LSTM预测模型,使用随机梯度下降的方法训练模型,学习率为0.003;
对训练过程,值迭代网络通过正确的路由策略进行训练,是价值地图学习最大价值的方向;采用交叉熵损失函数对网络进行训练;最后,双奖励值迭代网络利用已经学习值迭代地图逐步确定从起点到终点的路径;当多通道值通道和双奖励值迭代网络结构确定后,就可以将训练数据从环境映射到路由策略,从而对双奖励值迭代网络进行端到端训练;
步骤三:提出了一种基于改进粒子群算法的水下多机器人的任务分配方法;
通过优化粒子群算法为每个机器人分配的任务,使用改进双值迭代网络,为每个机器人规划长周期的路径,实现复杂环境下水下机器人协同捕捞海生物的路径规划;
所述一种基于改进粒子群算法的水下多机器人的任务分配方法包括以下过程:
针对于复杂环境下多机器人的任务分配需要根据具体的任务设计粒子,每个粒子代表一次多机器人的任务规划每个粒子包含两个Nnum维向量,分别定义为Xmission和Xseq两个向量;其中Xmission向量代表整个抓取任务,需要执行抓取任务的任务点,Xseq表示对应于不同的机器人执行的次序,同一个机器人多次出现的先后顺序代表执行捕捞任务的先后次序,Xmission和Xseq共同决定着捕捞的先后顺序;
根据具体的抓取任务,对于两个向量进行不同的方式同时更新;对于Xmission向量代表不同阶段需要捕捞的任务点,在每个阶段为每个机器人只分配一个任务点,Xmission向量表示不同的阶段分配给不同机器人对应的任务点,将Xmission向量定义为整数序列:
Xmission=(s1,s2,…,ssum)
其中,Xmission中的任意两个元素不重复,并且任意一个元素属于任务点集合M中,对于该向量可以通过离散的粒子群算法进行更新;
对于Xseq向量代表着在不同阶段需要在对应任务点执行任务的对应捕捞机器人,Xseq将定义为整数序列:
Y=(p1,p2,…,pr)
其中,每个元素代表指定的捕捞机器人,每个机器人都属于机器人集合N,向量的更新采用将pso算法的更新,具体的更新步骤如下:
S1:每个粒子的位置中向量的每个元素随机取任务集中任务点对应的编号;
S2:当任务分配之后机器人不能在规定时间内对所有任务点捕捞完毕,需要重新生成该向量,直到满足条件为止;
S3:为每个分配结果使用双值迭代网络规划路线;
S4:结合Xseq向量,按照适应度函数计算个体历史最优解和整体全局最优解;
所述适应度函数的定义如下:
其中,fpickij为第i个机器人去第j个任务点执行任务的捕捞路径,qsumij为第i个机器人去第j个任务点的状态价值和,μ1和μ2分别代表价值qsumij和与捕捞路径fpickij的权值,Nr为捕捞机器人的编号,Nnum为需要捕捞的任务点,Pij为当前任务点的目标数量;
S5:按照速度更新公式和位置更新公式计算;
S6:重复执行步骤S4和S5,直到满足迭代次数。
2.如权利要求1所述的一种复杂环境下水下机器人协同捕捞海生物的路径规划方法,其特征在于:所述步骤一中基于密度的水下海生物目标聚类方法包括以下过程:
(1)寻找核心点形成临时聚类簇;
检查所有的样本点,判断是否为核心点,如果是加入到核心点列表中,并将所有密度直达的点形成临时聚类簇;
(2)合并临时聚类簇得到聚类簇;
对于每一个临时聚类簇,判断每一个点是否为核心点,如果是将临时聚类簇合并到当前临时聚类簇,得到新的临时聚类簇;以此类推,直到当前临时聚类簇中的所有密度直达的点都在该临时聚类簇,或者簇内的每一个点都不在核心点列表中,证明已经形成了聚类簇,最后将所有的临时聚类簇合并,完成聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920765.1A CN115373409B (zh) | 2022-08-02 | 2022-08-02 | 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210920765.1A CN115373409B (zh) | 2022-08-02 | 2022-08-02 | 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115373409A CN115373409A (zh) | 2022-11-22 |
CN115373409B true CN115373409B (zh) | 2023-05-30 |
Family
ID=84064430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210920765.1A Active CN115373409B (zh) | 2022-08-02 | 2022-08-02 | 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115373409B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118760039A (zh) * | 2024-09-09 | 2024-10-11 | 西安骏硕通信技术有限公司 | 一种数据中心机房ai节能控制方法及集中控制柜 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105302062B (zh) * | 2015-10-15 | 2017-10-03 | 东南大学 | 一种基于任务解耦的多机器人协作焊接路径的生成方法 |
CN111522305B (zh) * | 2020-04-15 | 2021-03-30 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 面向3c装配的双模块协作机器人协调装配系统及规划方法 |
CN112000115B (zh) * | 2020-09-15 | 2022-11-01 | 湖南文理学院 | 一种自主式水下机器人的路径规划方法及相关设备 |
CN112327890A (zh) * | 2020-11-10 | 2021-02-05 | 中国海洋大学 | 一种基于whca*算法的水下多机器人路径规划 |
CN113485371B (zh) * | 2021-08-11 | 2023-04-25 | 河海大学 | 一种基于改进麻雀搜索算法的水下多auv路径规划方法 |
-
2022
- 2022-08-02 CN CN202210920765.1A patent/CN115373409B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115373409A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110488859B (zh) | 一种基于改进Q-learning算法的无人机航路规划方法 | |
CN114603564B (zh) | 机械臂导航避障方法、系统、计算机设备及存储介质 | |
CN108600379A (zh) | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 | |
Sharma et al. | A review on artificial bee colony and it’s engineering applications | |
CN111300390A (zh) | 基于蓄水池采样和双经验池的机械臂智能控制系统 | |
CN110181508A (zh) | 水下机器人三维航路规划方法及系统 | |
CN115373409B (zh) | 一种复杂环境下水下机器人协同捕捞海生物的路径规划方法 | |
CN112381237B (zh) | 基于岸海协同的水面无人系统的持续自主学习架构系统 | |
CN112926825B (zh) | 基于多目标量子磷虾群机制的多无人机任务分配方法 | |
CN110716575A (zh) | 基于深度双q网络强化学习的uuv实时避碰规划方法 | |
CN114611663A (zh) | 一种基于在线更新策略的定制化行人轨迹预测方法 | |
Su et al. | Robot path planning based on random coding particle swarm optimization | |
CN113141012A (zh) | 基于深度确定性策略梯度网络的电网潮流调控决策推理方法 | |
CN116300755A (zh) | 基于mpc的含储热的供热系统双层优化调度方法及装置 | |
CN111080035A (zh) | 基于改进量子粒子群优化算法的全局路径规划方法 | |
CN105976018A (zh) | 用于结构健康监测传感器优化布设的离散鸽群算法 | |
CN117606490B (zh) | 一种水下自主航行器协同搜索路径规划方法 | |
CN108830483B (zh) | 多智能体系统任务规划方法 | |
CN115755801A (zh) | 基于sqp-cs的船舶建造车间工序优化方法及系统 | |
Wang et al. | Negative Gradient Differential Biogeography-based Optimization for Mobile Robot Path Planning | |
CN116360483A (zh) | 基于局部观测信息的多无人机协同攻防对抗方法及系统 | |
CN114489035B (zh) | 一种基于累积迹强化学习的多机器人协同搜索方法 | |
CN115016499A (zh) | 一种基于sca-ql的路径规划方法 | |
Chen et al. | Multi-robot task allocation based on the modified particle swarm optimization algorithm | |
CN112861332A (zh) | 一种基于图网络的集群动力学预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |