CN114942643B - 一种usv无人艇路径规划模型的构建方法及应用 - Google Patents
一种usv无人艇路径规划模型的构建方法及应用 Download PDFInfo
- Publication number
- CN114942643B CN114942643B CN202210693205.7A CN202210693205A CN114942643B CN 114942643 B CN114942643 B CN 114942643B CN 202210693205 A CN202210693205 A CN 202210693205A CN 114942643 B CN114942643 B CN 114942643B
- Authority
- CN
- China
- Prior art keywords
- unmanned ship
- usv
- path planning
- unmanned
- moment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 90
- 238000000034 method Methods 0.000 claims abstract description 59
- 230000009471 action Effects 0.000 claims abstract description 51
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 27
- 230000033001 locomotion Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004888 barrier function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000007493 shaping process Methods 0.000 abstract description 7
- 238000013461 design Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000002787 reinforcement Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种USV无人艇路径规划模型的构建方法及应用,属于无人艇路径规划技术领域;基于DDQN网络搭建了USV无人艇路径规划模型,以根据从无人艇中观察到的连续状态做出决策;其中,模型的状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;动作空间包括单位时间内的无人艇的行进动作指令;本发明基于先验知识和奖励塑形技术设计了一种引入速度收益、距离障碍物的势和航行误差的奖励函数,有效地提高了模型的精确度,显著加速了训练过程中模型的收敛,解决了无人艇在未知且带障碍环境下的路径规划及避障问题,显著地提升了模型训练时的收敛性和稳定性,能够在真实环境下实现安全高效的导航。
Description
技术领域
本发明属于无人艇路径规划技术领域,更具体地,涉及一种USV无人艇路径规划模型的构建方法及应用。
背景技术
无人水面艇(unmanned surface vessel,简称USV),是一种无人操作的水面舰艇。由于其灵活自上个世纪以来就受到了广泛的关注与研究。但是当时的无人艇由于技术限制,也只能执行一些简单的任务,并没有引起巨大关注。近年来随着人工智能技术的兴起,无人船的控制决策技术得到了很大的提升,配合通信技术以及制造工艺的发展,无人船USV已经可以执行更加复杂的任务。虽然无人艇需要完成多种任务,但导航能力和避障能力是它们应该具备的两项基本能力,因此研究一种USV无人艇路径规划方法存在重要意义。
传统USV无人艇路径规划方法中往往将基于数学分析的模型用于无人艇控制,例如基于启发式算法优化的线性化模型,基于扩展卡尔曼滤波器(EKF)、搜索求和势场的融合模型等,但是当环境极其复杂或发生变化时,由于它们无法考虑足够多的情况,也不具有学习的能力而变化控制策略,这些传统模型经常无法满足系统控制要求。
随着人工智能快速发展,越来越多的研究聚焦于通过机器学习(ML)方法进行无人艇(USV)控制,与传统方法相比,它克服了可用性问题。强化学习(ReinforcementLearning)作为机器学习的一个分支,描述了智能体通过与环境交互的方式学习的过程,近年来被频繁地应用于无人艇相关的控制策略设计中。但是,USV控制的强化学习模型往往具有复杂的状态和动作空间以及稀疏的奖励,并采用超大规模的神经网络做状态的感知和动作的决策,需要足够多的训练时间,其参数量巨大的网络才能达到近似收敛,虽然也有一部分模型控制了网络规模,但是它们通常仅假设了十分简单的仿真环境,与现实环境相差很多而无法在真实环境中使用。另外,由于强化学习算法模型对于无人艇模型存在适配性问题,需要通过自己建模,搭建仿真环境,修改算法模型来适配无人艇的动作及状态空间,且其用以指导模型收敛到总收益最大的奖励函数往往难以量化表示,并且存在稀疏奖励环境问题,从而导致agent智能体学习缓慢甚至会学习到并非我们期望的行为,因此现有的算法往往很难在较少的训练次数下规划出非常安全高效的路径,因此难以部署到实机模型上。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种USV无人艇路径规划模型的构建方法及应用,用以解决现有无法在真实环境下进行安全高效的导航的技术问题。
为了实现上述目的,第一方面,本发明提供了一种USV无人艇路径规划模型的构建方法,包括:
S1、基于DDQN网络搭建USV无人艇路径规划模型,包括:状态空间、动作空间和奖励函数;状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;动作空间包括:单位时间内的无人艇的行进动作指令;奖励函数用于基于下一时刻下无人艇的状态观测值,计算当前时刻下所选取的行进动作指令的反馈值,以对无人艇当前时刻的动作决策进行奖惩评估;
上述USV无人艇路径规划模型用于根据当前时刻无人艇的状态观测值获取当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;
S2、在无人艇从起始位置到目标位置的运动过程中,采集每一时刻下所得的数据样本,并存储在经验回放池中;其中,第j个时刻下所得的数据样本的采集过程包括:将第j个时刻下无人艇的状态观测值sj输入到上述USV无人艇路径规划模型中得到第j个时刻下无人艇的行进动作指令aj,从而得到第j+1个时刻下无人艇的状态观测值sj+1,并将状态观测值sj+1带入上述奖励函数中计算得到行进动作指令aj所对应的奖励rj;将sj、aj、rj和sj+1组成的四元数作为第j个时刻下所得的数据样本,记为(sj,aj,rj,sj+1);
S3、从经验回放池抽取数据样本构成训练样本集,并输入至USV无人艇路径规划模型中,基于DDQN算法进行训练。
进一步优选地,上述奖励函数为:
其中,λcol为碰撞影响因子;λdis为目的地距离影响因子;λobs_dis为障碍物距离影响因子;λspeed为行进速度影响因子;λyaw为偏航影响因子;Pknock为预设碰撞惩罚值,为负数;distj+1为第j+1个时刻下无人艇与最近障碍物之间的距离;distsafe为预设安全距离;(xj+1,yj+1)为第j+1个时刻下无人艇的坐标;(xd,yd)为目标位置的坐标;n为无人艇周围的障碍物数量;为第j+1个时刻下无人艇周围的第i个障碍物的坐标;/>为第j+1个时刻下无人艇的浪涌速度;/>为第j+1个时刻下无人艇的航向误差。
进一步优选地,的计算公式为:/>其中,ψj+1为第j+1个时刻下USV无人艇的方位。
进一步优选地,无人艇的行进动作指令aj包括:浪涌速度指令和偏航速度指令/>
上述USV无人艇路径规划模型包括并联的第一DDQN网络和第二DDQN网络。
进一步优选地,上述步骤S3包括:
S31、从经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本和第二子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本和第二子训练样本/>
S32、同时将第一子训练样本输入至第一DDQN网络中,第二子训练样本输入至第二DDQN网络中进行训练。
进一步优选地,无人艇的行进动作指令aj包括:浪涌速度指令偏航速度指令/>和摇摆速度指令/>
上述USV无人艇路径规划模型包括并联的第一DDQN网络、第二DDQN网络和第三DDQN网络。
进一步优选地,上述步骤S3包括:
S31、从经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本、第二子训练样本以及第三子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本第二子训练样本/>和第三子训练样本/>
S32、同时将第一子训练样本输入至第一DDQN网络中,第二子训练样本输入至第二DDQN网络中,第三子训练样本输入至第三DDQN网络中进行训练。
第二方面,本发明提供了一种USV无人艇路径规划方法,包括:
将实时采集的无人艇的状态观测值输入至采用本发明第一方面所提供的USV无人艇路径规划模型的构建方法所构建的USV无人艇路径规划模型中,得到当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;其中,上述无人艇的状态观测值包括:无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息。
第三方面,本发明提供了一种USV无人艇路径规划系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明第二方面所提供的USV无人艇路径规划方法。
第四方面,本发明提供了一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现本发明第一方面所提供的USV无人艇路径规划模型的构建方法和/或本发明第二方面所提供的USV无人艇路径规划方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
1、本发明提供了一种USV无人艇路径规划模型的构建方法,基于DDQN网络搭建了USV无人艇路径规划模型,以根据从无人艇中的观察到的连续状态做出决策;其中,模型的状态空间包括无人艇的状态观测值,即无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;本发明基于无人艇的状态观测值对奖励函数进行塑形,充分考虑了无人艇周围障碍物所带来的影响,有效地解决了无人艇在未知且带障碍环境下的路径规划及避障问题,显著提升了模型训练时的收敛性和稳定性,能够在真实环境下实现安全高效的导航。
2、本发明所提供的USV无人艇路径规划模型的构建方法,基于先验知识设计了一种引入速度收益、距离障碍物的势和航行误差的奖励函数,不仅有效提高了模型的精确度,还显著地加速了训练过程中模型的收敛,大大减小了训练过程中所需的数据和时间,大大提高了模型的稳定性和泛化性,解决了在稀疏奖励环境下难以收敛的问题;与此同时,本发明采用经验回放机制,大大提升了样本的利用率,提升了模型训练过程中的探索效率。
3、由于前进和转向两个动作的取值范围差异较大,本发明所提供的USV无人艇路径规划模型的构建方法,采用了多个DDQN网络来分别进行迭代训练,以防止训练过程中由于参数取值的范围差异过大所带来的串扰问题,大大提高了模型的精确度。
附图说明
图1为本发明实施例1提供的USV无人艇路径规划模型的构建方法的流程图;
图2为本发明实施例1提供的USV无人艇在地球固定参考系中的位置和方位示意图;
图3为在可选实施方式二下强化学习与USV控制各部分的对应关系示意图;
图4为在可选实施方式二下基于DDQN算法根据从无人艇中的传感器观察到的连续状态做出决策的整个算法流程图;
图5为本发明实施例1提供的USV无人艇路径规划模型的训练过程中所得的训练奖励曲线示意图;
图6为本发明实施例1提供的没有使用奖励塑形的训练奖励曲线示意图;
图7为采用本发明实施例2所提供的USV无人艇路径规划方法的寻路与避障效果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例1、
一种USV无人艇路径规划模型的构建方法,如图1所示,包括:
S1、基于DDQN网络搭建USV无人艇路径规划模型,包括:状态空间、动作空间和奖励函数;
具体地,对于USV无人艇的控制模型,考虑USV在一个平面上的运动。其可以漂浮并由其动力系统推动在海面上移动。此外,USV的运动被限制在一个固定范围(对应到现实生活如一个湖泊或海洋),其中存在一些障碍物和无人艇完成任务的目的地。
基于此,状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息,通过装配在无人艇上的传感器获取上述信息;
具体地,如图2所示,USV无人艇在地球固定参考系中的位置和方位可以用向量η=[x,y,ψ]T的坐标表示,其中(x,y)为USV无人艇的横坐标和纵坐标,ψ为USV无人艇的方位。
航向误差表示如下:
ae=|ψ-arctan(yd-y,xd-x)|
其中,xd和yd为目标位置的横坐标和纵坐标。可以采用C语言、python等编程软件进行计算,此时上述arctan表示为atan2。
无人艇周围的障碍物距离信息包括:从USV无人艇主体到覆盖一个半圆的n个方向上最近的障碍物的距离;其中,n为正整数,本实施例中取值为10,此时,无人艇周围的障碍物距离信息为一个10维向量。
动作空间包括:单位时间内的无人艇的行进动作指令;具体地,在一种可选实施方式一下,在三自由度模型中,USV可以做浪涌、摇摆和偏航的运动,其行进动作指令用一个三维向量v=[vthrusting,vshaking,vyaw]来表示;其中,vthrusting为浪涌速度指令,vshaking为摇摆速度指令,vyaw为偏航速度指令。而由于一般情况下,USV无人艇是在水平面上运动的,因此可以忽略摇摆速度,仅利用其中的浪涌速度指令和偏航速度指令即可完全控制USV无人艇。因此,在另一种可选实施方式二下,无人艇的行进动作指令aj包括:浪涌速度指令和偏航速度指令/>
奖励函数用于基于下一时刻下无人艇的状态观测值计算当前时刻下所选取的行进动作指令的反馈值,以对无人艇当前时刻的动作决策进行奖惩评估。对于导航和避障问题,本发明在碰撞惩罚和寻路跟踪奖惩的基础上,通过引入速度收益、距离障碍物的势和航行误差来对无人艇进行奖惩,不仅能够提高模型的精确度,还大大减小了训练过程中所需的数据和时间,稳定性和泛化性均较强。
具体地,上述奖励函数为:
其中,λcol为碰撞影响因子;为第j+1个时刻下无人艇发生碰撞的惩罚值;λdis为目的地距离影响因子;/>为第j+1个时刻下无人艇与目标位置之间的距离所对应的惩罚值;λobs_dis为障碍物距离影响因子;/>为第j+1个时刻下无人艇与障碍物之间的距离所对应的奖励值;λspeed为行进速度影响因子;/>为第j+1个时刻下无人艇的速度收益;λyaw为偏航影响因子;/>为第j+1个时刻下无人艇的偏航奖励;Pknock为预设碰撞惩罚值,为负数,本实施例中取值为-100;distj+1为第j+1个时刻下无人艇与最近障碍物之间的距离;distsafe为预设安全距离,本实施例中取值为1m;(xj+1,yj+1)为第j+1个时刻下无人艇的坐标;(xd,yd)为目标位置的坐标;n为无人艇周围的障碍物数量;/>为第j+1个时刻下无人艇周围的第i个障碍物的坐标;/>为第j+1个时刻下无人艇的浪涌速度;为第j+1个时刻下无人艇的航向误差。
需要说明的是,本实施例中,λcol、λdis、λobs_dis、λspeed和λyaw均为预设值,分别取值为1,3,1,20,10。
需要说明的是,在USV导航与避障任务中,一般情况下,奖励只会在碰撞和到达终点后给出,是十分稀疏的,而这样稀疏的奖励会大大妨碍模型的收敛,因此为了更快和稳定的得到收敛模型,根据奖励塑形的原则,塑形后的奖励需要有利于训练,同时不能改变每个状态原来的势,即维护每个状态的奖励值的相对大小;本发明在考虑到碰撞因素和与目的地之间的距离因素的基础上,进一步加入了与周围障碍物的距离因素、速度因素以及偏航因素,实现了奖励塑形,大大加速了算法的收敛速度并提高了性能,解决了在稀疏奖励环境下模型的训练难以收敛的问题。
由于现有的基于强化学习方法来进行USV无人艇路径规划的模型大都着重从算法模型结构方面进行改进,但更复杂的模型训练所需要的时间以及性能要求对于实际部署提出了更大的要求,本发明基于先验知识设计了上述奖励函数,以加速算法的收敛并提高性能,解决在稀疏奖励环境下难以收敛的问题,提升样本利用率,加快收敛速度,可有效解决无人艇在未知且带障碍环境下的路径规划及避障问题。
S2、在无人艇从起始位置到目标位置的运动过程中,采集每一时刻下所得的数据样本,并存储在经验回放池中;其中,第j个时刻下所得的数据样本的采集过程包括:将第j个时刻下无人艇的状态观测值sj输入到上述USV无人艇路径规划模型中得到第j个时刻下无人艇的行进动作指令aj,从而得到第j+1个时刻下无人艇的状态观测值sj+1,并将状态观测值sj+1带入上述奖励函数中计算得到行进动作指令aj所对应的奖励rj;将sj、aj、rj和sj+1组成的四元数作为第j个时刻下所得的数据样本,记为(sj,aj,rj,sj+1);
需要说明的是,在无人艇从起始位置到目标位置的运动过程中,若走出环境边界或者碰到障碍物,则无人艇重新回到起始位置重新再向目标位置行进。
S3、从经验回放池抽取数据样本构成训练样本集,并输入至USV无人艇路径规划模型中,基于DDQN算法进行训练,所得的USV无人艇路径规划模型用于根据当前时刻无人艇的状态观测值获取当前时刻无人艇的行进动作指令,以实时控制无人艇的运动。
具体地,在USV无人艇行动探索环境的过程中,用状态观测值、行进动作指令和奖励函数的值更新改进的USV无人艇路径规划模型中的网络参数。本发明采用DDQN算法作为基础算法,分别有两个Q网络进行状态-动作评判。本实施例从经验回放池中抽取一组数据样本进行训练,根据梯度更新网络参数,并进行下一步动作的决策;重复上述过程,共抽取M组数据样本进行训练,在本次任务中,经验回放池大小设为20000,且M取值为128。且在训练过程中,同样会按照步骤S2的方式产生数据样本,同样将产生的数据样本存储在经验回放池中;需要说明的是,经验回放池的容量为预设容量,当经验回放池待存储的数据样本的容量超出预设容量时,将最先存储的若干数据样本从经验回放池中移除。
经过上述训练,使得基于奖励函数计算出来的一个episode的总收益最大,其中,从起始位置到目标位置或者没到终点但是超过限定时间记为一个episode。
需要说明的是,传统的Q-Learning根据Bellman迭代式用Q函数输出的值和Reward组成迭代目标后,用来更新Q函数,但是更新后的Q函数对原目标的估计就改变了,导致迭代出现误差,可能导致最后结果的崩溃,而本发明所采用的DDQN算法使用了决策网络和目标网络两个网络来进行迭代,先固定一个网络作为迭代目标,另一个用来迭代,一段episodes后使二者相等以避免上述问题,两个网络在足够多的优化后都会逼近目标。
具体地,在上述可选实施方式一下,由于未忽略摇摆速度,上述无人艇的行进动作指令aj包括:浪涌速度指令偏航速度指令/>和摇摆速度指令/>由于各动作的取值范围差异较大,本发明分别采用三个DDQN网络来进行迭代训练,以防止训练过程中由于参数取值的范围差异过大所带来的串扰问题,以提高模型的精确度;此时,上述USV无人艇路径规划模型包括并联的第一DDQN网络、第二DDQN网络和第三DDQN网络。
上述步骤S3包括:
S31、从经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本、第二子训练样本以及第三子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本第二子训练样本/>和第三子训练样本/>
S32、同时将第一子训练样本输入至第一DDQN网络中,将第二子训练样本输入至第二DDQN网络中,将第三子训练样本输入至第三DDQN网络中进行训练。
在上述的另一种可选实施方式二下,忽略掉摇摆速度,无人艇的行进动作指令aj包括:浪涌速度指令和偏航速度指令/>由于前进和转向两个动作的取值范围差异较大,本发明分别采用两个DDQN网络来进行迭代训练,以防止训练过程中由于参数取值的范围差异过大所带来的串扰问题,以提高模型的精确度;此时,上述USV无人艇路径规划模型包括并联的第一DDQN网络和第二DDQN网络。
上述步骤S3包括:
S31、从经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本和第二子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本和第二子训练样本/>
S32、同时将第一子训练样本输入至第一DDQN网络中,将第二子训练样本输入至第二DDQN网络中进行训练。
具体地,在可选实施方式二下,强化学习与USV控制各部分的对应关系如图3所示,基于DDQN算法根据从无人艇中的传感器观察到的连续状态做出决策的整个算法流程如图4所示。其中,第一DDQN网络包括行进决策网络和行进目标网络;第二DDQN网络包括转向决策网络和转向目标网络。
需要说明的是,USV无人艇在行进过程中,将速度指令转换为力向量来控制自身的运动状态。在力向量τ=[τthrusting,τshaking,τyaw]中,三个力可以由向量ΔF=[ΔFthrusting,ΔFshaking,ΔFyaw]表示三个控制命令控制,向量ΔF基于速度差值计算得到。在忽略掉摇摆速度的情况下,向量ΔF可以简化为ΔF=[ΔFthrusting,0,ΔFyaw]。因此,动态系统的力变化为:
τyaw(t)=τyaw(t-1)+ΔFyaw
其中,τthrusting限制在{0,14}范围内,τyaw限制在范围内。
需要说明的是,上述DDQN网络包括决策网络和目标网络;决策网络和目标网络分别包括五个部分,分别是input层、fc1层、fc2层、fc3层和output层;这五个部分全为线性全连接层,input层为输入层,采用ReLU函数作为激活函数;fc1层、fc2层和fc3层为隐藏层,采用ReLU函数作为激活函数;output层为输出层。具体地,决策网络的output层输出当前时刻无人艇的行进动作指令;目标网络的output层输出对应的Q值。对于网络的具体参数,本发明不做特殊限定,合理即可。
进一步地,本发明所提供的USV无人艇路径规划模型的训练过程中所得的训练奖励曲线如图5所示;而没有使用奖励塑形的训练奖励曲线示意图如图6所示;根据图6可以看出,没有使用奖励塑形(即仅考虑碰撞和寻路跟踪的奖励函数)的训练过程在经过500次迭代之后仍在震荡不稳定的状态中,而本发明所得的奖励曲线稳步上升并逐步收敛到较高的水平,说明本发明所提供的奖励塑形的设计对于收敛速度起到了很大的作用。
进一步地,如图7所示为采用本发明所提供的USV无人艇路径规划模型最终规划出的避障路径;其中,圆点表示障碍物,虚线表示不考虑避障时从起始位置到目标位置的最短距离,实线表示采用本发明所提供的USV无人艇路径规划方法考虑避障时从起始位置到目标位置所得的路径。结合图5和图7可以看出,经过500次训练后,算法模型大致可以实现收敛并且稳定在较好的奖励水平,对应到规划出的路径,即在实现避障的同时尽可能快速地到达目的地。
综上所述,本发明提供了一种基于深度强化学习的USV路径规划及避障控制决策方法,使用双深度Q网络(DDQN)算法根据从无人艇中的传感器观察到的连续状态做出决策,基于先验知识设计了一种新的奖励函数,通过Q值选择执行动作,并采用经验回放机制以充分利用样本,大大提升了探索效率。
实施例2、
一种USV无人艇路径规划方法,包括:
将实时采集的无人艇的状态观测值输入至采用本发明实施例1所提供的USV无人艇路径规划模型的构建方法所构建的USV无人艇路径规划模型中,得到当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;其中,上述无人艇的状态观测值包括:无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息。
具体地,从如图7所示的USV无人艇路径规划方法的寻路与避障效果示意图可以看出,USV无人艇可以在避开所有障碍物的前提下规划处一条尽可能离目的地距离更短更快速的路径,由此可知本发明能够实现安全高效的导航。
相关技术方案同实施例1,这里不做赘述。
实施例3、
一种USV无人艇路径规划系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本发明实施例2所提供的USV无人艇路径规划方法。
相关技术方案同实施例2,这里不做赘述。
实施例4、
一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现本发明实施例1所提供的USV无人艇路径规划模型的构建方法和/或本发明实施例2所提供的USV无人艇路径规划方法。
相关技术方案同实施例1和实施例2,这里不做赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种USV无人艇路径规划模型的构建方法,其特征在于,包括:
S1、基于DDQN网络搭建USV无人艇路径规划模型,包括:状态空间、动作空间和奖励函数;所述状态空间包括无人艇的状态观测值,具体包括无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息;所述动作空间包括:单位时间内的无人艇的行进动作指令;所述奖励函数用于基于下一时刻下无人艇的状态观测值,计算当前时刻下所选取的行进动作指令的反馈值,以对无人艇当前时刻的动作决策进行奖惩评估;
所述USV无人艇路径规划模型用于根据当前时刻无人艇的状态观测值获取当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;
S2、在无人艇从起始位置到目标位置的运动过程中,采集每一时刻下所得的数据样本,并存储在经验回放池中;其中,第j个时刻下所得的数据样本的采集过程包括:将第j个时刻下无人艇的状态观测值sj输入到所述USV无人艇路径规划模型中得到第j个时刻下无人艇的行进动作指令aj,从而得到第j+1个时刻下无人艇的状态观测值sj+1,并将状态观测值sj+1带入所述奖励函数中计算得到行进动作指令aj所对应的奖励rj;将sj、aj、rj和sj+1组成的四元数作为第j个时刻下所得的数据样本,记为(sj,aj,rj,sj+1);
S3、从所述经验回放池抽取数据样本构成训练样本集,并输入至所述USV无人艇路径规划模型中,基于DDQN算法进行训练。
2.根据权利要求1所述的USV无人艇路径规划模型的构建方法,其特征在于,所述奖励函数为:
其中,λcol为碰撞影响因子;λdis为目的地距离影响因子;λobs_dis为障碍物距离影响因子;λspeed为行进速度影响因子;λyaw为偏航影响因子;Pknock为预设碰撞惩罚值,为负数;distj+1为第j+1个时刻下无人艇与最近障碍物之间的距离;distsafe为预设安全距离;(xj+1,yj+1)为第j+1个时刻下无人艇的坐标;(xd,yd)为目标位置的坐标;n为无人艇周围的障碍物数量;为第j+1个时刻下无人艇周围的第i个障碍物的坐标;/>为第j+1个时刻下无人艇的浪涌速度;/>为第j+1个时刻下无人艇的航向误差。
3.根据权利要求2所述的USV无人艇路径规划模型的构建方法,其特征在于,的计算公式为:/>其中,ψj+1为第j+1个时刻下USV无人艇的方位。
4.根据权利要求1-3任意一项所述的USV无人艇路径规划模型的构建方法,其特征在于,所述无人艇的行进动作指令aj包括:浪涌速度指令和偏航速度指令/>
所述USV无人艇路径规划模型包括并联的第一DDQN网络和第二DDQN网络。
5.根据权利要求4所述的USV无人艇路径规划模型的构建方法,其特征在于,所述步骤S3包括:
S31、从所述经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本和第二子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据所述行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本和第二子训练样本/>
S32、同时将所述第一子训练样本输入至所述第一DDQN网络中,所述第二子训练样本输入至所述第二DDQN网络中进行训练。
6.根据权利要求1-3任意一项所述的USV无人艇路径规划模型的构建方法,其特征在于,所述无人艇的行进动作指令aj包括:浪涌速度指令偏航速度指令/>和摇摆速度指令/>
所述USV无人艇路径规划模型包括并联的第一DDQN网络、第二DDQN网络和第三DDQN网络。
7.根据权利要求6所述的USV无人艇路径规划模型的构建方法,其特征在于,所述步骤S3包括:
S31、从所述经验回放池抽取数据样本,并分别将所抽取的各数据样本划分为第一子训练样本、第二子训练样本以及第三子训练样本;
其中,对所抽取的数据样本(sj,aj,rj,sj+1)进行划分方法包括:根据所述行进动作指令aj的类型将数据样本(sj,aj,rj,sj+1)划分为第一子训练样本第二子训练样本/>和第三子训练样本/>
S32、同时将所述第一子训练样本输入至所述第一DDQN网络中,所述第二子训练样本输入至所述第二DDQN网络中,所述第三子训练样本输入至所述第三DDQN网络中进行训练。
8.一种USV无人艇路径规划方法,其特征在于,包括:将实时采集的无人艇的状态观测值输入至采用权利要求1-7任意一项所述的USV无人艇路径规划模型的构建方法所构建的USV无人艇路径规划模型中,得到当前时刻无人艇的行进动作指令,以实时控制无人艇的运动;其中,所述无人艇的状态观测值包括:无人艇的位置状态信息、航向误差和无人艇周围的障碍物距离信息。
9.一种USV无人艇路径规划系统,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行权利要求8所述的USV无人艇路径规划方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现权利要求1-7任意一项所述的USV无人艇路径规划模型的构建方法和/或权利要求8所述的USV无人艇路径规划方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693205.7A CN114942643B (zh) | 2022-06-17 | 2022-06-17 | 一种usv无人艇路径规划模型的构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210693205.7A CN114942643B (zh) | 2022-06-17 | 2022-06-17 | 一种usv无人艇路径规划模型的构建方法及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114942643A CN114942643A (zh) | 2022-08-26 |
CN114942643B true CN114942643B (zh) | 2024-05-14 |
Family
ID=82911162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210693205.7A Active CN114942643B (zh) | 2022-06-17 | 2022-06-17 | 一种usv无人艇路径规划模型的构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114942643B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117848345A (zh) * | 2024-01-08 | 2024-04-09 | 广东工业大学 | 一种步进式采用优化无人艇路径规划方法 |
CN118502450B (zh) * | 2024-07-18 | 2024-10-15 | 华中科技大学 | 一种基于3d-ga的水面无人艇回收路径规划方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN111566583A (zh) * | 2019-10-04 | 2020-08-21 | 香港应用科技研究院有限公司 | 自适应路径规划的系统和方法 |
CN111880535A (zh) * | 2020-07-23 | 2020-11-03 | 上海交通大学 | 一种基于强化学习的无人艇混合感知自主避障方法及系统 |
CN112817318A (zh) * | 2021-01-06 | 2021-05-18 | 上海大学 | 一种多无人艇协同搜索控制方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
-
2022
- 2022-06-17 CN CN202210693205.7A patent/CN114942643B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN111566583A (zh) * | 2019-10-04 | 2020-08-21 | 香港应用科技研究院有限公司 | 自适应路径规划的系统和方法 |
CN111880535A (zh) * | 2020-07-23 | 2020-11-03 | 上海交通大学 | 一种基于强化学习的无人艇混合感知自主避障方法及系统 |
CN112817318A (zh) * | 2021-01-06 | 2021-05-18 | 上海大学 | 一种多无人艇协同搜索控制方法及系统 |
Non-Patent Citations (3)
Title |
---|
基于改进Q学习算法的无人水面艇动态环境路径规划;王猛;李民强;余道洋;;仪表技术;20200415(04);全文 * |
基于深度Q网络的水面无人艇路径规划算法;随博文;黄志坚;姜宝祥;郑欢;温家一;;上海海事大学学报;20200930(03);全文 * |
浅析深度学习在未来水面无人艇平台的应用;钱正芳;陆江;孙小帅;;中国造船;20200830(S1);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114942643A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241176B (zh) | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN114942643B (zh) | 一种usv无人艇路径规划模型的构建方法及应用 | |
CN112650237B (zh) | 基于聚类处理和人工势场的船舶路径规划方法和装置 | |
CN112558612B (zh) | 一种基于云模型量子遗传算法的异构智能体编队控制方法 | |
Wang et al. | Cooperative collision avoidance for unmanned surface vehicles based on improved genetic algorithm | |
CN113534668B (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
Cao et al. | Toward optimal rendezvous of multiple underwater gliders: 3D path planning with combined sawtooth and spiral motion | |
CN112925319B (zh) | 一种基于深度强化学习的水下自主航行器动态避障方法 | |
CN107239075A (zh) | 自主水下航行器平面直线航线跟踪的智能s面制导控制方法 | |
CN114879671B (zh) | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 | |
CN111930141A (zh) | 一种水下机器人三维路径可视化跟踪方法 | |
CN113741449A (zh) | 一种面向海空协同观测任务的多智能体控制方法 | |
CN117606490B (zh) | 一种水下自主航行器协同搜索路径规划方法 | |
Jin et al. | Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning | |
CN116257067A (zh) | 无人艇集群的协同编队多层次规划控制方法 | |
Wang et al. | A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning | |
Xie et al. | Random patrol path planning for unmanned surface vehicles in shallow waters | |
CN115657683A (zh) | 一种可用于巡检作业任务的无人无缆潜水器实时避障方法 | |
CN115107948A (zh) | 一种采用内部激励信号与学习经验复用的高效强化学习自主船舶避碰方法 | |
Huang et al. | Cooperative trajectory planning algorithm of USV-UAV with hull dynamic constraints | |
CN117168468B (zh) | 基于近端策略优化的多无人艇深度强化学习协同导航方法 | |
CN116578102B (zh) | 水下自主航行器避障方法、装置、计算机设备和存储介质 | |
Ou et al. | Collision Avoidance Algorithm for Unmanned Surface Vehicle Based on Improved Artificial Potential Field and Ant Colony Optimization | |
Tziortziotis et al. | Motion planning with energy reduction for a floating robotic platform under disturbances and measurement noise using reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |