CN111694365B - 一种基于深度强化学习的无人船艇编队路径跟踪方法 - Google Patents

一种基于深度强化学习的无人船艇编队路径跟踪方法 Download PDF

Info

Publication number
CN111694365B
CN111694365B CN202010626769.XA CN202010626769A CN111694365B CN 111694365 B CN111694365 B CN 111694365B CN 202010626769 A CN202010626769 A CN 202010626769A CN 111694365 B CN111694365 B CN 111694365B
Authority
CN
China
Prior art keywords
formation
unmanned ship
unmanned
neural network
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010626769.XA
Other languages
English (en)
Other versions
CN111694365A (zh
Inventor
马勇
赵玉蛟
李�昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010626769.XA priority Critical patent/CN111694365B/zh
Publication of CN111694365A publication Critical patent/CN111694365A/zh
Application granted granted Critical
Publication of CN111694365B publication Critical patent/CN111694365B/zh
Priority to US17/364,884 priority patent/US11914376B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G05D1/69
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • G05D1/228
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B63SHIPS OR OTHER WATERBORNE VESSELS; RELATED EQUIPMENT
    • B63BSHIPS OR OTHER WATERBORNE VESSELS; EQUIPMENT FOR SHIPPING 
    • B63B35/00Vessels or similar floating structures specially adapted for specific purposes and not otherwise provided for
    • B63B2035/006Unmanned surface vessels, e.g. remotely controlled
    • B63B2035/007Unmanned surface vessels, e.g. remotely controlled autonomously operating

Abstract

本发明公开了一种基于深度强化学习的无人船艇编队路径跟踪方法,包括无人船艇航行环境探索、奖励函数设计、编队队形保持、随机制动机制以及路径跟踪,无人船艇航行环境探索采用多艇同时探索,提取环境信息,奖励函数设计包括针对编队队形组成情况和路径跟踪误差的设计,随机制动机制可以优化深度强化学习的训练过程,编队队形保持通过编队队形控制策略实现,路径跟踪是通过领导者‑跟随者编队控制策略控制无人船艇沿预设路径运动,通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪,本发明通过协同探索策略加速训练无人船艇路径点跟踪模型,并与领导者‑跟随者编队控制策略结合,形成无人船艇编队路径跟踪方法。

Description

一种基于深度强化学习的无人船艇编队路径跟踪方法
技术领域
本发明属于无人船艇编队路径跟踪控制领域,尤其涉及一种基于深度强化学习的无人船艇编队路径跟踪方法。
背景技术
无人船艇具有灵活、高速的特点,常被用于执行一些无人的任务,如海洋测绘、气象监视、环境监测等方面。近年来,无人船艇的相关研究和技术有了很大的发展。同时,后续的多欠驱动无人船艇编队路径跟踪也逐渐引起广泛关注。多无人船艇编队在搜救、侦察、数据收集、海洋清理等方面可发挥重要作用。路径跟踪是无人船艇控制中的基本问题之一。无人船艇编队路径跟踪的主要目的是使多艘无人船艇保持一定的编队队形沿预设路径航行。
与此同时,强化学习技术在人工智能、机器学习和自动控制等领域中得到了广泛的研究和应用,并被认为是设计智能系统的核心技术之一。随着机器学习领域的技术突破,相关人员开展了大量的强化学习与深度学习相结合的研究。因此,如何实现基于深度强化学习的无人船艇编队路径跟踪是目前亟需解决的技术难题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于深度强化学习的无人船艇编队路径跟踪方法,以实现基于深度强化学习的无人船艇编队路径跟踪。
为实现上述目的,按照本发明的一个方面,提供了一种基于深度强化学习的无人船艇编队路径跟踪方法,包括:
S1:构建决策神经网络模型;
S2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;
S3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的训练过程,获取无人船艇编队队形保持能力;
S4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪;
S5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。
优选地,步骤S2包括:
通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存到经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人船艇从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。
优选地,奖励函数考虑了无人船艇速度的同时,最大化无人船艇驶向参考坐标点的航向速度,最小化无人船艇横向偏移速度,将无人船艇与参考点之间的距离视为奖励函数的设计因子。
优选地,由R=kvRv+kdRd设计奖励函数,其中,Rv表示无人船艇的速度,Rd表示无人船艇与参考点的距离,kv和kd是速度和距离的权重。
优选地,步骤S3包括:
基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程引入到DDPG中来探索环境,当所述决策神经网络模型做出决策和输出动作at=μ(st)时,由随机过程产生的动作
Figure BDA0002565078890000021
噪声
Figure BDA0002565078890000022
的平均值为0,at表示神经网络输出的动作,μ(st)表示神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。
优选地,所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保持,将actor网络设计为近似策略,采用梯度下降法更新所述actor网络中的参数。
优选地,由
Figure BDA0002565078890000031
确定所述决策神经网络模型中的目标评价网络,并通过优化损失函数对所述目标评价网络进行更新为:
Figure BDA0002565078890000032
通过随机梯度下降法更新参数
Figure BDA0002565078890000033
其中,
Figure BDA0002565078890000034
是在线评价网络中的参数,
Figure BDA0002565078890000035
是目标评价网络中的参数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处采取的行动,r是奖励值,
Figure BDA0002565078890000036
表示训练的网络的输出值与期望值之间的损失值,
Figure BDA0002565078890000037
表示
Figure BDA0002565078890000038
Figure BDA0002565078890000039
的集合,r(s,a)表示奖励值,γ表示折扣因子,
Figure BDA00025650788900000310
表示目标评价网络的目标评价值,
Figure BDA00025650788900000311
表示在线评价网络的目标评价值,C(s,a)表示s和a的组合,s表示状态向量,a表示动作向量。
优选地,步骤S4包括:
设无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标,无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动,xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数;
Figure BDA00025650788900000312
确定路径跟踪的交叉航迹误差ed
无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,根据ed在预设路径上选择虚拟引导者pv以保持与pp点的距离。
按照本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
首先要构建航行水域环境信息获取方案,科学表征水域复杂环境信息;考虑无人船艇故障、调度、航行区域限制等问题,提出新的编队队形动态控制策略;引入人工智能领域前沿技术,构建面向无人船艇编队路径跟踪的深度强化学习模型;围绕深度强化学习模型训练关键点,考虑编队队形组成情况和路径跟踪误差设计奖励函数;采用无人船艇编队协同探测策略,加速深度强化学习模型。本发明通过协同探索策略加速训练无人船艇路径点跟踪模型,并将其与领导者-跟随者编队控制策略结合,形成一种无人船艇编队路径跟踪方法。
附图说明
图1是本发明实施例提供的一种基于深度强化学习的无人船艇编队跟踪方法的流程示意图;
图2是本发明实施例提供的一种环境探索与经验数据收集;
图3是本发明实施例提供的一种随机制动机制下的动作选择;
图4是本发明实施例提供的一种编队队形保持控制流程;
图5是本发明实施例提供的一种编队路径跟踪策略。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的目的在于提供一种基于深度强化学习的无人船艇编队路径跟踪方法,它将基于协同探索的深度强化学习算法应用于无人船艇编队路径跟踪,设计路径点跟踪奖励函数,并通过协同探索策略加速训练无人船艇路径点跟踪模型,将其与领导者-跟随者编队控制策略结合,形成一种新颖的无人船艇编队路径跟踪算法。本发明提供的一种基于深度强化学习的无人船艇编队路径跟踪方法区别于传统的无人艇编队路径跟踪方法的地方有以下三方面:提出了基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的多个无人船艇形成路径跟踪策略,以实现多无人船艇编队路径跟踪,利用神经网络训练替代数学推导与计算;编队中的无人船艇可以动态退出编队,以应对无人船艇故障或紧急调度;在DDPG训练中引入随机制动机制,多欠驱动无人船艇编队在编队保持和路径跟踪方面达到优异的性能。
实施例一
如图1所示是本发明实施例提供的一种方法流程示意图,在图1所示的方法中包括以下步骤:
S1:构建决策神经网络模型;
在本发明的一个实施例中,决策神经网络包括输入层、卷积层、隐藏层和输出层,卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接。
在本发明的一个实施例中,决策神经网络中的卷积层,通过卷积核降低输入特征的维度。
在本发明的一个实施例中,决策神经网络中的全连接层的激活函数均为Relu函数。
在本发明的一个实施例中,决策神经网络训练算法中的探索函数是按概率决定是否对未知状态探索,该概率初始值为0.9,最小值为0.01,并且该概率随训练过程减小。
在本发明的一个实施例中,决策神经网络训练算法中的状态观测方法观测到的状态包括水面无人艇与预设路径的位置偏差、方向偏差,与预设速度的偏差。
在本发明的一个实施例中,决策神经网络的训练结果的评估结果是由测试数据集的准确率决定的。
S2:设计奖励函数;
在本发明的一个实施例中,为使无人船艇快速形成编队并保持编队快速到达参考坐标点,在奖励函数的设计中考虑了无人船艇的速度Rv,最大化无人船艇向参考坐标点航行速度,最小化无人船艇横向偏差速度,可用公式表示为:
Rv=vicosβi-visinβi (1)
其中,vi=[ui,vi,ri]T,ui,vi,ri分别表示无人船艇的纵荡、横荡速度和艏摇角速度,无人船艇间夹角为βi
在本发明的一个实施例中,为避免出现编队控制模型陷入局部最优,将无人船艇与参考点的距离Rd作为奖励函数的设计因子,用公式表示为:
Figure BDA0002565078890000061
其中,ef是实际编队位置与预期编队位置之间的误差,ef-max表示允许的编队位置与预期编队位置之间的最大误差,若误差超过该值,则本次训练无效,开始下次训练。
因此,奖励函数为:
R=kvRv+kdRd (3)
其中,kv和kd是速度和距离的权重。
S3:探索未知环境,储存经验数据;
在本发明的一个实施例中,未知环境下的探测问题是将深度强化学习模型应用于路径跟踪任务的关键,从路径跟踪的角度出发,无人船艇编队在航行中需避开水上构筑物、桥墩、岛屿、暗礁、浅滩等静态障碍物,还需应对渡船、来往船只、水上漂浮物等动态障碍物,此外,还要充分考虑水流扰动的影响。
在本发明的一个实施例中,在复杂的环境信息数据的基础上,快速训练路径跟踪决策下的无人船艇,确保无人船艇具备抵御水流扰动的能力,适应曲线、折线、直线等多种路径跟踪任务要求,使无人船艇编队在保持编队队形的条件下,以较小的位置偏差和航向偏差航行在预定路径上,高质量完成路径跟踪任务。
如图2所示,在本发明的一个实施例中,通过决策神经网络输出动作,将相关状态、动作、奖励保存到经验池中,然后从经验池中选择经验数据形成训练数据集,在训练决策神经网络时,无人船艇编队对环境进行探测,编队中每个无人船艇会从不同的初始状态开始探测,从而大大降低了环境探索经验的重复率,并更快地探索到不同的运动状态、更快地积累经验池中的训练数据集。
如图3所示,在本发明的一个实施例中,基于DDPG算法的决策神经网络训练中存在一种试错学习机制,将Ornstein-Uhlenbeck(OU)过程引入到DDPG中来探索环境,当决策神经网络做出决策和输出动作at=μ(st)时,由随机过程产生的
Figure BDA0002565078890000071
噪声
Figure BDA0002565078890000072
的平均值为0,OU过程实际上是带有随机噪声的均值回归,OU过程可以表示为:
dat=θ*(δ-at)dt+σdW (4)
其中,δ是加入噪声后动作的平均值,W是布朗运动产生的随机噪声,而且δ是W的权重,at表示神经网络输出的动作,θ和σ分别表示动作和随机噪声W的权重,μ(st)表示神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。
S4:训练决策神经网络,获取无人船艇编队队形保持能力;
如图4所示,在本发明的一个实施例中,决策神经网络模型旨在学习共享决策,因此actor网络设计为近似策略,并采用梯度下降法更新actor网络中的参数,梯度如下:
Figure BDA0002565078890000081
其中,ρ是概率分布,E表示的是
Figure BDA0002565078890000082
的期望值,
Figure BDA0002565078890000083
表示策略梯度,
Figure BDA0002565078890000084
表示动作值函数对动作的偏导数,
Figure BDA0002565078890000085
表示决策网络输出对权值矩阵的偏导数,
Figure BDA0002565078890000086
表示决策网络的权值矩阵,μ表示神经网络决策策略,J(μ)表示目标策略函数。
在本发明的一个实施例中,通常随机抽取小批量样本作为训练数据,然后对梯度下降过程进行如下描述:
Figure BDA0002565078890000087
其中,N是小批量样本的大小,
Figure BDA0002565078890000088
是目标评价网络中的参数,
Figure BDA0002565078890000089
表示动作值函数,
Figure BDA00025650788900000810
表示第i次迭代的评价网络权值,
Figure BDA00025650788900000811
表示第i次迭代的决策网络权值,si表示第i次迭代的神经网络的状态输入,μ(si)表示神经网络决策策略。
在本发明的一个实施例中,假设C(s,a)可以连接状态向量s和动作向量a,Q称为目标评价网络,如下述公式(7)所示:
Figure BDA00025650788900000812
其中,C(s,a)表示s和a的组合。
在本发明的一个实施例中,可以通过优化损失函数对公式(7)进行更新,更新后公式(8)如下所示:
Figure BDA0002565078890000091
其中,
Figure BDA0002565078890000092
是在线评价网络中的参数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处采取的行动,r是奖励值,
Figure BDA0002565078890000093
表示训练的网络的输出值与期望值之间的损失值,
Figure BDA0002565078890000094
表示
Figure BDA0002565078890000095
Figure BDA0002565078890000096
的集合,r(s,a)表示奖励值,γ表示折扣因子,
Figure BDA0002565078890000097
表示目标评价网络的目标评价值,
Figure BDA0002565078890000098
表示在线评价网络的目标评价值。
在本发明的一个实施例中,在线评价网络中的参数
Figure BDA0002565078890000099
通过随机梯度下降法进行更新,其中梯度如下:
Figure BDA00025650788900000910
其中,
Figure BDA00025650788900000911
表示梯度。
在本发明的一个实施例中,在决策神经网络完成动作选择后引入随机制动,通过引入随机制动机制,无人水面艇(Unmanned Surface Vessel,USV)在远离参考坐标点时可以快速加速,而在靠近参考坐标点时可以正确制动。
在本发明的一个实施例中,无人船艇保持最大速度将获得最高回报,在通过决策神经网络训练无人船艇选择动作时会剔除减速运动,无人船艇到达参考坐标点后会保持最大速度围绕参考坐标点旋转,为避免这种情况的出现,通过引入随机制动机制,随机概率选择决策神经网络输出的动作和船舶减速动作,作为无人船艇最终的动作。
S5:路径跟踪方案;按照路径跟踪方案控制无人船艇编队保持预设队形移动,实现无人船艇编队路径跟踪。
在本发明的一个实施例中,为解决无人船艇编队路径跟踪问题,引入了领导者-跟随者编队控制策略,根据虚拟引导者的位置建立编队中各无人船艇的参考位置,虚拟引导者的位置代表了整个无人船艇编队的位置。
如图5所示,在本发明的一个实施例中,无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标。无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动,xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数,路径可表示为含θ的函数,路径跟踪的交叉航迹误差ed可以表示为:
Figure BDA0002565078890000101
在本发明的一个实施例中,无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,在预设路径上选择虚拟引导者pv以保持与pp点的距离。
在本发明的一个实施例中,虚拟引导者的更新与编队的中心点的位置有关,如图5所示,λ为固定值,当无人船艇编队中心点pc的位置会不断变化,虚拟引导者可以随着无人船艇编队的移动而不断更新,以确保无人船艇编队保持和路径跟踪效果。
实施例二
在本发明所实施的实例中,无人船艇运动模型采用3自由度欠驱动船舶运动模型,船舶操作被离散化为“向前加速”、“向前减速”、“向左加速”、“向左减速”、“向右加速”、“向右减速”6个固定动作。
在构建决策神经网络模型时,决策神经网络包括输入层、卷积层、隐藏层和输出层,卷积层与隐藏层之间、隐藏层和输出层之间通过激活函数连接,由于无人船艇保持最大速度将获得最高回报,因此无人船艇无法学习减速,无人船艇会以最大速度前进到参考坐标点,并在到达参考坐标点时以最大速度围绕参考点旋转,所以在设计奖励函数时要考虑无人船艇的减速运动。
无人船艇形成路径跟随模型的训练是与环境相互作用的过程,无人船艇编队会对周围环境进行探测并根据周围环境的观测状态做出决策并结合任务目标与观测状态来评估无人船艇形成路径跟随的动作选择,然后根据评估值按照训练模型来训练无人船艇以形成跟随路径,最后执行选定的操作并改变环境来重新获取观测状态,重复该过程直到无人船艇编队路径跟踪模型可以选择预期的动作。
在训练决策神经网络时,多个无人船艇会同时探索环境,每个无人船艇从不同的初始状态开始探索,从而大大降低探索经验重复率并更快的探索到不同的运动状态,多个无人船艇适用于同一个决策神经网络,无需分别训练每一个无人船艇,确保了无人船艇在编队中行为一致性,最终决策神经网络输出动作并将相关的状态、动作、奖励保存到经验池后从经验池中选择经验数据形成训练数据集。
制动操作可以增加动作空间,同时也会降低无人船艇速度和奖励值,所以编队控制模型会忽略制动操作,并且编队控制模型会产生一些不良的经验数据到最后恒定制动的局部最优情况,为避免上述情况,本发明在无人船艇编队训练过程中增加了随机制动机制,设置概率以随机选择制动动作,加入了随机制动的训练模型只能在一定概率下制动,并且能够避免恒定制动的局部最优并最终学会制动,采用了随机制动机制后,无人船艇在远离参考坐标点时能快速加速,在接近参考坐标点时能适当制动。
无人船艇编队路径跟踪任务可以分为无人船艇编队队形保持任务和无人船艇路径跟踪任务,从无人船艇编队队形保持任务的角度看,无人船艇的状态以及虚拟引导者和其他无人船艇之间关系是影响无人船艇编队速度和标准的主要因素,无人船艇的状态是由其位置、航向以及速度来表征,每个无人船艇的预期位置和虚拟引导者的位置信息都是必要的,从无人船艇路径跟踪任务的角度来看,虚拟引导者的更新与路径跟踪的交叉航迹误差ed有关。
通过引入领导者-跟随者编队控制策略,虚拟引导者可以随着无人船艇编队的移动而不断更新,确保了无人船艇编队保持预设队形实现编队路径跟踪。
本申请还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现方法实施例中的基于深度强化学习的无人船艇编队路径跟踪方法。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度强化学习的无人船艇编队路径跟踪方法,其特征在于,包括:
S1:构建决策神经网络模型;
S2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;
其中,步骤S2包括:
通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存到经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人船艇从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中;
S3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的训练过程,获取无人船艇编队队形保持能力;
S4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪;
其中,步骤S4包括:
设无人船艇编队中心点为pc(xc,yc),其中,xc,yc分别表示无人船艇编队中心点的横坐标和纵坐标,ed表示pc与预设路径上的点pp(xp,yp)之间的交叉航迹误差,xp,yp表示pp(xp,yp)的横坐标和纵坐标,pv(xv,yv)表示虚拟引导者的预期位置,xv,yv表示虚拟引导者的横坐标和纵坐标,无人船艇编队路径跟踪要求无人船艇编队虚拟引导者沿参数化预设路径(xp(θ),yp(θ))移动,xp(θ),yp(θ)表示预设路径上的点,θ表示路径参数;
Figure FDA0002935428850000011
确定路径跟踪的交叉航迹误差ed
无人船艇编队路径跟踪过程中,无人船艇编队中心点pc的位置会不断变化,pc在预设路径上的投影pp也会发生变化,根据ed在预设路径上选择虚拟引导者pv以保持与pp点的距离;
S5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。
2.根据权利要求1所述的方法,其特征在于,奖励函数考虑了无人船艇速度的同时,最大化无人船艇驶向参考坐标点的航向速度,最小化无人船艇横向偏移速度,将无人船艇与参考点之间的距离视为奖励函数的设计因子。
3.根据权利要求2所述的方法,其特征在于,由R=kvRv+kdRd设计奖励函数,其中,Rv表示无人船艇的速度,Rd表示无人船艇与参考点的距离,kv和kd是速度和距离的权重。
4.根据权利要求1至3任意一项所述的方法,其特征在于,步骤S3包括:
基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程引入到DDPG中来探索环境,当所述决策神经网络模型做出决策和输出动作at=μ(st)时,由随机过程产生的动作
Figure FDA0002935428850000021
噪声
Figure FDA0002935428850000022
的平均值为0,at表示神经网络输出的动作,μ(st)表示神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神经网络输出的动作加入随机噪声后生成的动作。
5.根据权利要求4所述的方法,其特征在于,所述决策神经网络模型通过学习共享决策实现无人船艇编队队形保持,将actor网络设计为近似策略,采用梯度下降法更新所述actor网络中的参数。
6.根据权利要求5所述的方法,其特征在于,由
Figure FDA0002935428850000023
确定所述决策神经网络模型中的目标评价网络,并通过优化损失函数对所述目标评价网络进行更新为:
Figure FDA0002935428850000031
通过随机梯度下降法更新参数
Figure FDA0002935428850000032
其中,
Figure FDA0002935428850000033
是在线评价网络中的参数,
Figure FDA0002935428850000034
是目标评价网络中的参数,s'是指在状态s处采取动作a后的下一个状态,a'是决策神经网络在s'处采取的行动,r是奖励值,
Figure FDA0002935428850000035
表示训练的网络的输出值与期望值之间的损失值,
Figure FDA0002935428850000036
表示
Figure FDA0002935428850000037
Figure FDA0002935428850000038
的集合,r(s,a)表示奖励值,γ表示折扣因子,
Figure FDA0002935428850000039
表示目标评价网络的目标评价值,
Figure FDA00029354288500000310
表示在线评价网络的目标评价值,C(s,a)表示s和a的组合,s表示状态向量,a表示动作向量。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN202010626769.XA 2020-07-01 2020-07-01 一种基于深度强化学习的无人船艇编队路径跟踪方法 Active CN111694365B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010626769.XA CN111694365B (zh) 2020-07-01 2020-07-01 一种基于深度强化学习的无人船艇编队路径跟踪方法
US17/364,884 US11914376B2 (en) 2020-07-01 2021-07-01 USV formation path-following method based on deep reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010626769.XA CN111694365B (zh) 2020-07-01 2020-07-01 一种基于深度强化学习的无人船艇编队路径跟踪方法

Publications (2)

Publication Number Publication Date
CN111694365A CN111694365A (zh) 2020-09-22
CN111694365B true CN111694365B (zh) 2021-04-20

Family

ID=72485111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010626769.XA Active CN111694365B (zh) 2020-07-01 2020-07-01 一种基于深度强化学习的无人船艇编队路径跟踪方法

Country Status (2)

Country Link
US (1) US11914376B2 (zh)
CN (1) CN111694365B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112180950B (zh) * 2020-11-05 2022-07-08 武汉理工大学 一种基于强化学习的智能船舶自主避碰及路径规划方法
CN112712251B (zh) * 2020-12-28 2023-09-12 珠海港信息技术股份有限公司 一种应用于驳船管理系统中的船舶智能调度方法
CN112835368A (zh) * 2021-01-06 2021-05-25 上海大学 一种多无人艇协同编队控制方法及系统
CN112947084B (zh) * 2021-02-08 2022-09-23 重庆大学 一种基于强化学习的模型未知多智能体一致性控制方法
CN113093735B (zh) * 2021-03-18 2022-07-26 华南理工大学 随机扰动下输出受限欠驱动无人艇的横截函数控制方法、系统及介质
CN112987758B (zh) * 2021-04-29 2021-08-06 电子科技大学 一种多水面航行器协同跟踪编队控制方法
CN113741449B (zh) * 2021-08-30 2023-07-14 南京信息工程大学 一种面向海空协同观测任务的多智能体控制方法
CN114200950B (zh) * 2021-10-26 2023-06-02 北京航天自动控制研究所 一种飞行姿态控制方法
CN114020013B (zh) * 2021-10-26 2024-03-15 北航(四川)西部国际创新港科技有限公司 一种基于深度强化学习的无人机编队避撞方法
CN114296350B (zh) * 2021-12-28 2023-11-03 中山大学 一种基于模型参考强化学习的无人船容错控制方法
CN114489060B (zh) * 2022-01-14 2023-06-30 珠海云洲智能科技股份有限公司 无人船编队控制方法、终端设备及计算机可读存储介质
CN114609905B (zh) * 2022-03-07 2024-04-05 大连海事大学 一种船舶编队事件触发控制方法
CN114757102A (zh) * 2022-04-19 2022-07-15 贵州翰凯斯智能技术有限公司 基于深度强化学习的双点渐进成形制造方法及装置
CN114721273B (zh) * 2022-04-22 2024-04-12 湖南师范大学 一种固定时间收敛零化神经网络的多智能体编队控制方法
CN114707613B (zh) * 2022-04-24 2024-03-12 西安交通大学 基于分层的深度策略梯度网络的电网调控方法
CN114995137B (zh) * 2022-06-01 2023-04-28 哈尔滨工业大学 基于深度强化学习的绳驱并联机器人控制方法
CN114721409B (zh) * 2022-06-08 2022-09-20 山东大学 一种基于强化学习的水下航行器对接控制方法
CN114942643A (zh) * 2022-06-17 2022-08-26 华中科技大学 一种usv无人艇路径规划模型的构建方法及应用
CN114996856B (zh) * 2022-06-27 2023-01-24 北京鼎成智造科技有限公司 一种用于飞机智能体机动决策的数据处理方法及装置
CN115333143A (zh) * 2022-07-08 2022-11-11 国网黑龙江省电力有限公司大庆供电公司 基于双神经网络的深度学习多智能体微电网协同控制方法
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115328117B (zh) * 2022-07-15 2023-07-14 大理大学 基于强化学习的蛋白质动态配体通道最优路径分析方法
CN114964268B (zh) * 2022-07-29 2023-05-02 白杨时代(北京)科技有限公司 一种无人机导航方法及装置
CN114995521B (zh) * 2022-08-08 2022-10-28 中国科学院自动化研究所 多无人机分布式编队控制方法、装置及电子设备
CN115328203B (zh) * 2022-08-31 2023-03-14 哈尔滨工业大学 一种基于数据驱动的大规模无人机集群编队仿真加速方法及系统
CN115249134B (zh) * 2022-09-23 2022-12-23 江西锦路科技开发有限公司 一种用于无人机的资源分配方法、装置、设备及存储介质
CN115494732B (zh) * 2022-09-29 2024-04-12 湖南大学 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN115453914B (zh) * 2022-10-19 2023-05-16 哈尔滨理工大学 一种考虑海浪干扰的无人艇回收分布式决策仿真系统
CN115903885B (zh) * 2022-10-26 2023-09-29 中国人民解放军陆军炮兵防空兵学院 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN115866629B (zh) * 2022-11-21 2024-03-26 华工未来科技(江苏)有限公司 一种基于近端策略优化的ris控制方法、系统、设备及介质
CN116069023B (zh) * 2022-12-20 2024-02-23 南京航空航天大学 一种基于深度强化学习的多无人车编队控制方法和系统
CN115877871B (zh) * 2023-03-03 2023-05-26 北京航空航天大学 一种基于强化学习的非零和博弈无人机编队控制方法
CN116500893B (zh) * 2023-04-19 2023-11-14 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116225032B (zh) * 2023-05-09 2023-07-25 陕西欧卡电子智能科技有限公司 基于已知航迹的无人船集群协同避障规划方法
CN116520281B (zh) * 2023-05-11 2023-10-24 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116628448B (zh) * 2023-05-26 2023-11-28 兰州理工大学 扩展目标中基于深度强化学习的传感器管理方法
CN116360504B (zh) * 2023-05-31 2023-10-27 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质
CN116522802B (zh) * 2023-06-29 2023-09-19 北京天航华创科技股份有限公司 一种基于气象数据的无人飞艇智能飞行规划方法
CN116841208A (zh) * 2023-08-30 2023-10-03 白杨时代(北京)科技有限公司 一种无人水下航行器编队控制模拟方法、系统和设备
CN116909316B (zh) * 2023-09-13 2023-11-17 北京航空航天大学 一种基于羊群智能的无人机三维集群控制方法
CN117215196B (zh) * 2023-10-17 2024-04-05 成都正扬博创电子技术有限公司 基于深度强化学习的舰载综合控制计算机智能决策方法
CN117331317B (zh) * 2023-12-01 2024-02-20 东海实验室 一种基于宽度学习的欠驱动水下直升机合围控制方法
CN117452827B (zh) * 2023-12-20 2024-04-05 广东海洋大学 一种欠驱动无人艇轨迹跟踪控制方法
CN117555220B (zh) * 2023-12-29 2024-03-19 广州优飞智能设备有限公司 一种无人机挂载的x光探伤装置控制优化方法
CN117578679B (zh) * 2024-01-15 2024-03-22 太原理工大学 基于强化学习的锂电池智能充电控制方法
CN117590862B (zh) * 2024-01-18 2024-04-05 北京工业大学 一种分布式无人机预定时间三维目标包围控制方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073175A (zh) * 2018-01-23 2018-05-25 上海交通大学 基于虚拟艇自适应规划的欠驱动无人艇编队智能控制方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109765916A (zh) * 2019-03-26 2019-05-17 武汉欣海远航科技研发有限公司 一种水面无人艇路径跟踪控制器设计方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
EP3553622A1 (en) * 2016-12-07 2019-10-16 Nec Corporation Control device, control method, and program recording medium
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10556600B2 (en) * 2015-12-09 2020-02-11 Toyota Motor Engineering & Manufacturing North America, Inc. Assessment of human driving performance using autonomous vehicles
US10304154B2 (en) * 2017-04-24 2019-05-28 Intel Corporation Coordination and increased utilization of graphics processors during inference
CN110673600B (zh) * 2019-10-18 2021-05-28 武汉理工大学 面向无人船舶的自动驾驶集成系统
JP2023528077A (ja) * 2020-06-05 2023-07-03 ガティック エーアイ インコーポレイテッド 自律エージェントのコンテキスト認識型意思決定を行うための方法およびシステム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3553622A1 (en) * 2016-12-07 2019-10-16 Nec Corporation Control device, control method, and program recording medium
CN108073175A (zh) * 2018-01-23 2018-05-25 上海交通大学 基于虚拟艇自适应规划的欠驱动无人艇编队智能控制方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109765916A (zh) * 2019-03-26 2019-05-17 武汉欣海远航科技研发有限公司 一种水面无人艇路径跟踪控制器设计方法
CN110502033A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于强化学习的固定翼无人机群集控制方法
CN110658829A (zh) * 2019-10-30 2020-01-07 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AUV path following controlled by modified Deep Deterministic Policy Gradient;Yushan Sun等;《Ocean Engineering》;20200608;第1-14页 *
基于强化学习的无人机自主机动决策方法;孙楚 等;《火力与指挥控制》;20190430;第44卷(第4期);第142-149页 *
水质监测无人船路径规划方法研究;吕扬民 等;《智能计算机与应用》;20190131;第9卷(第1期);第14-18、23页 *

Also Published As

Publication number Publication date
US11914376B2 (en) 2024-02-27
CN111694365A (zh) 2020-09-22
US20220004191A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
CN111694365B (zh) 一种基于深度强化学习的无人船艇编队路径跟踪方法
Sawada et al. Automatic ship collision avoidance using deep reinforcement learning with LSTM in continuous action spaces
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN110658829B (zh) 一种基于深度强化学习的群无人艇智能避碰方法
Zhu et al. Identification-based simplified model of large container ships using support vector machines and artificial bee colony algorithm
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
CN112100917A (zh) 一种基于专家对抗系统的智能船舶避碰仿真测试系统与方法
Wang et al. Cooperative collision avoidance for unmanned surface vehicles based on improved genetic algorithm
CN111861155B (zh) 船舶碰撞风险检测方法、系统、计算机设备和存储介质
Deraj et al. Deep reinforcement learning based controller for ship navigation
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN112766329B (zh) 一种多无人艇协同拦截控制方法及系统
CN112052984A (zh) 一种智能船舶避碰方法及系统
Xue et al. Proximal policy optimization with reciprocal velocity obstacle based collision avoidance path planning for multi-unmanned surface vehicles
CN109556609A (zh) 一种基于人工智能的避碰方法及装置
Wang et al. Unmanned surface vessel obstacle avoidance with prior knowledge‐based reward shaping
CN113538973B (zh) 一种基于改进粒子群算法的船舶自动避碰方法
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
CN112540614B (zh) 一种基于深度强化学习的无人艇航迹控制方法
Sawada Automatic collision avoidance using deep reinforcement learning with grid sensor
CN109766569A (zh) 潜艇运动模型简化方法及装置
Jose et al. Navigating the Ocean with DRL: Path following for marine vessels
CN115718497A (zh) 一种多无人艇避碰决策方法
KR20200036592A (ko) 자동 조업 시스템
Ebada Intelligent techniques-based approach for ship manoeuvring simulations and analysis: artificial neural networks application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant