CN112947431A - 一种基于强化学习的无人船路径跟踪方法 - Google Patents

一种基于强化学习的无人船路径跟踪方法 Download PDF

Info

Publication number
CN112947431A
CN112947431A CN202110149076.0A CN202110149076A CN112947431A CN 112947431 A CN112947431 A CN 112947431A CN 202110149076 A CN202110149076 A CN 202110149076A CN 112947431 A CN112947431 A CN 112947431A
Authority
CN
China
Prior art keywords
unmanned ship
path tracking
tracking
path
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110149076.0A
Other languages
English (en)
Other versions
CN112947431B (zh
Inventor
张卫东
董博韬
孙志坚
徐鑫莉
黄梦醒
张永辉
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haizhiyun Suzhou Technology Co ltd
Original Assignee
Haizhiyun Suzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haizhiyun Suzhou Technology Co ltd filed Critical Haizhiyun Suzhou Technology Co ltd
Priority to CN202110149076.0A priority Critical patent/CN112947431B/zh
Publication of CN112947431A publication Critical patent/CN112947431A/zh
Application granted granted Critical
Publication of CN112947431B publication Critical patent/CN112947431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提出了一种基于强化学习的无人船路径跟踪方法,包括设定无人船的跟踪路径;对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数;无人船根据控制策略参数执行路径跟踪任务;本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。

Description

一种基于强化学习的无人船路径跟踪方法
技术领域
本发明涉及智能船舶技术领域,特别是指一种基于强化学习的无人船路径跟踪方法。
背景技术
与有人船相比,无人船由于具有成本低、续航远、能够在危险坏境和狭小空间执行任务等优点,因而在许多行业得到了越来越广泛的应用。路径跟踪是无人船研究和应用的重要问题之一,其目的是通过合理的控制算法使无人船能够精确地遍历给定路线。无人船路径跟踪算法在海洋测绘、水产养殖和环境检测等方面正发挥着日益重要的作用。
由于海洋环境的复杂性,无人船进行路径跟踪任务时会受到各种干扰的影响,传统的无人船路径跟踪算法在设计时往往不能兼顾到各种干扰的影响,从而带来路径跟踪效果不理想的弊端;此外,传统路径跟踪算法的设计过程存在算法复杂等缺点。
发明内容
有鉴于此,本发明的目的在于提出一种基于强化学习的无人船路径跟踪方法,用以解决上述问题的之一或全部。
一种基于强化学习的无人船路径跟踪方法,包括如下步骤:
设定无人船的跟踪路径;
对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;
采用PPO算法对控制策略进行模型训练,得出无人船的控制策略参数;
无人船根据控制策略参数执行路径跟踪任务。
可选的,所述对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数,包括:
建立MDP模型,所述MDP模型包括:时刻为t时无人船所处的状态st;时刻t时无人船所采取的动作at,其取自动作空间,根据控制策略参数给出;奖励函数rt,表示时刻t时、采取动作at后,无人船获得的奖励值;衰减率γ,表征智能体对当前奖励和未来奖励重视情况;状态转移概率P,表示在状态st采取动作at后,状态转移到st+1的概率;
定义状态st,建立状态st与无人船完成路径跟踪任务所需信息的数量关系;
定义动作at,将动作at定义为无人船推进模块所提供的推进力与推进力的角度的函数;
基于无人船路径跟踪的目标定义奖励函数,所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。
可选的,所述无人船完成路径跟踪任务所需信息包括无人船当前位置与既定轨迹之间的垂直距离、无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角、无人船当前位置与目标点之间的欧式距离、无人船速度与船头方向的夹角、风速、无人船当前位置与障碍物之间的欧式距离、无人船速度与障碍物速度之间夹角、障碍物的速度、无人船的航速偏差角、推进器提供的推力方向与无人船速度方向的夹角。
可选的,所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。
可选的,所述采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数,包括:
使用优势函数估计器计算现行动作策略下,各个动作的优势函数值,并传给Actor网络和Critic网络进行后续更新;
Actor网络给出当前状态下无人船能够获得最大奖励值的动作,并根据优势函数的估计值和Critic网络的评估值来进行迭代更新,并引入clip函数,将每次更新的步长限制在一个合理的范围内,以此来保证动作策略的逐步提升;
Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度,并根据MDP的状态转移来进行更新;
引入跟踪总误差函数判断训练过程是否结束,当跟踪总误差小于设定值时,判定跟踪精度满足要求,得出控制策略参数,结束训练,否则重复上述训练步骤。
可选的,所述控制策略参数为训练完成的Actor网络参数。
从上面所述可以看出,本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于强化学习的无人船路径跟踪方法的流程示意图;
图2为本发明的无人船路径跟踪时的各变量角度关系示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
一种基于强化学习的无人船路径跟踪方法,其中,无人船包括船体、能源模块、推进模块、通信模块、路径跟踪控制模块与定位模块,其中,能源模块、通信模块、路径跟踪模块和定位模块安装在无人船船体内部;用于给无人船提供转向和前进动力的推进模块安装在无人船船体的船尾,路径跟踪模块中的控制器策略参数通过强化学习中的PPO算法训练得到,
如图1所示,该方法包括如下步骤:
S101、设定无人船的跟踪路径;
S102、对无人船跟踪路径与避障过程建立MDP(马尔可夫决策过程MarkovDecisionProcess模型),并设置奖励函数;
S103、采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数;
S104、无人船根据控制策略参数执行路径跟踪任务。
在一种实施方式中,步骤S102中的所述MDP模型具体为:
(st,at,rt,γ,P(st+1|st,at))
其中st表示时刻为t时无人船所处的状态;at表示时刻t时无人船所采取的动作;rt为奖励函数,表示时刻t时,无人船获得的奖励值;γ为衰减率,表征智能体对当前奖励和未来奖励重视情况;P(st+1|st,at)表示在状态st采取动作at后,状态转移到st+1的概率。
根据无人船路径跟踪与避障过程对st进行建模:
Figure BDA0002931529410000041
其中,et为无人船当前位置与既定轨迹之间的垂直距离;ζt为航线偏差角,其具体为无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角,相应的
Figure BDA0002931529410000042
为航向偏差角的导数;
Figure BDA0002931529410000043
为无人船当前位置xt与目标点xtarget之间的欧氏距离;
Figure BDA0002931529410000044
Figure BDA0002931529410000045
分别为无人船速度vt在船体坐标系两个坐标轴上的投影,φ为无人船速度与船头方向的夹角;
Figure BDA0002931529410000046
为由无人船上携带的风速计测得的风速参数;||xobstacle-xt||2为无人船当前位置与障碍物体xobstacle(雷达)之间的欧氏距离;|ψ-ψobstacle|为无人船速度与障碍物速度之间夹角;
Figure BDA0002931529410000047
为障碍物的速度;
Figure BDA0002931529410000048
为无人船的航速偏差角;η为推进器提供的推力方向与无人船速度方向的夹角;
在状态变量st的各个组成变量由无人船携带的传感器和通信模块获得,涉及到的仪器包括(GPS/北斗定位系统、罗经、风速计和航海雷达等),各变量角度关系如图2所示,
无人船上携带的推进模块作为执行器,因此将at定义为:
at=[ft δt]
其中ft和δt分别为无人船推进模块所提供的推进力与推进力的角度;
基于无人船路径跟踪的目标定义奖励函数,所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞;
对无人船进行3-自由度的水面运动建立数学模型:
η=R(ξ)v
Figure BDA0002931529410000051
其中,η=[xt ξ]包含无人艇位置与偏航角信息,
Figure BDA0002931529410000052
包含横荡、纵荡与艏摇等速度信息,τ=[τu 0 τt]为无人船纵荡力与艏摇力,M为无人艇质量,R(ζ)为偏航角ξ的函数,C(v)和g(v)均为v的函数。
在一种实施方式中,所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励,具体为:
路径跟踪奖励为:
Figure BDA0002931529410000053
其中,et为t时刻无人船位置与既定轨迹之间的垂直距离,et-1为t-1时刻无人船位置与既定轨迹之间的垂直距离,当t时刻无人船位置与既定轨迹之间的垂直距离小于t-1时刻无人船位置与既定轨迹之间的垂直距离时,认为无人船在向着既定轨迹移动,给与+1路径跟踪奖励;反之,当t时刻无人船位置与既定轨迹之间的垂直距离大于等于t-1时刻无人船位置与既定轨迹之间的垂直距离时,认为无人船在偏离既定轨迹移动,给与无人船-1的偏离轨迹惩罚;
目标点奖励为:
Figure BDA0002931529410000054
其中,σ为事先给定的超参数,当无人船远离目标点xtarget时,rt distance为很大的惩罚值来驱动无人船快速达到目标点所在的邻域内;
由于无人船的目标为将饵料均匀的抛洒到养殖区域内,故而期望无人船的航速为一个固定值,恒定航速奖励为:
Figure BDA0002931529410000055
其中,
Figure BDA0002931529410000056
为无人船航速在既定轨迹上的投影,其计算公式为
Figure BDA0002931529410000061
ε为事先给定的阈值,其描述了对速度恒定要求的精确程度,vexpect为事先给定的无人船期望航速;
由于在无人船航行过程中,期望与其他障碍物之间保持一定的安全距离,避障奖励为:
Figure BDA0002931529410000062
其中,γ为事先给定的阈值,当无人船与障碍物之间的距离很小时,给与无人船一个很大的惩罚,以此避免无人船;
无人船在海上行驶时,需满足国际海上避碰规则(COLREGs),COLREGs奖励为:
Figure BDA0002931529410000063
其中,κ为事先给定的超参数,当无人船满足COLREGs规则时,给与κ的奖励;当无人船违反COLREGs规则时,则给与无人船-κ的惩罚。
在一种实施方式中,所述采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数,包括:
使用优势函数估计器计算现行动作策略下,各个动作的优势函数值,并传给Actor网络和Critic网络进行后续更新;
Actor网络给出当前状态下无人船能够获得最大奖励值的动作,并根据优势函数的估计值和Critic网络的评估值来进行迭代更新,并引入clip函数,将每次更新的步长限制在一个合理的范围内,以此来保证动作策略的逐步提升;
Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度,并根据MDP的状态转移来进行更新;
引入跟踪总误差函数判断训练过程是否结束,当跟踪总误差小于设定值时,判定跟踪精度满足要求,得出控制策略参数,结束训练,否则重复上述训练步骤。
在本实施例中,强化学习的过程具体的采用如下步骤:
步骤一、根据无人船的水面运动的数学模型建立海洋仿真环境;
步骤二、设定无人船路径跟踪路线并初始化,根据跟定的路径跟踪路线设定奖励函数;
步骤三、根据PPO算法中的Actor网络参数,以st为输入得出at,并将这一过程重复执行T次,收集{st at rt}的相应数据;
步骤四、建立优势函数估计器
Figure BDA0002931529410000071
并计算各时刻的优势估计
Figure BDA0002931529410000072
并存储到记忆单元中,
其中,Vw(st)由PPO算法中的Critic网络给出的参数;
步骤五、定义重要性采样率
Figure BDA0002931529410000073
对Actor网络的参数进行迭代更新,
Figure BDA0002931529410000074
其中,θt+1为当前迭代过程的更新参数;θt为上一次迭代的更新参数;ε为事先给定的超参数,用来限制每一步算法更新的步长,αθ为参数的更新步长;E为求期望符号;
Figure BDA0002931529410000075
为上一步骤中的优势估计;clip为裁剪函数,定义为
Figure BDA0002931529410000076
步骤六、对Critic网络参数进行迭代更新,
Figure BDA0002931529410000077
其中,wt+1为当前迭代过程的更新参数;wt为上一次迭代的更新参数;rt为当前次更新样本中的奖励值;γ为衰减率,为实现给定的超参数;Vw(st+1)为当前参数下对状态st+1值函数的估计;Vw(st)为当前参数下对状态st值函数的估计;αw为算法每次更新的步长;
Figure BDA0002931529410000078
为求导算子;
步骤七、定义跟踪总误差
Figure BDA0002931529410000079
当efollow<y时跟踪精度满足要求,得出控制策略参数,结束训练,否则重复步骤三至步骤六,
其中,T为每一次训练的样本长度,et为t时刻无人船位置与既定轨迹之间的垂直距离,y为设定值,n为最近的n次训练结果。
在一种实施方式中,所述控制策略参数为训练完成的Actor网络参数,将训练完成的Actor网络参数作为控制器来控制推进模块输出推力的大小与角度。
传统的Actor-Critic算法存在更新步长难以确定和训练结果不稳定、难收敛等问题,给控制策略的训练带来了许多的困难,因此本说明书提到的训练过程采用PPO(Proximal Policy Optimization)算法来进行强化学习策略训练,PPO算法包含Actor和Critic两个网络,其中Actor网络用来输出时刻t无人船应该采取的动作,而Critic网络则用来评判Actor所输出的动作好坏情况,具体的说,通过实施策略πθ,获得一系列轨迹((s0,a0,s1),(s1,a1,s2),……,(st,at,st+1),sT)(其中,sT为终止状态),之后重复该过程,将采集到的数据存入经验回放模块,PPO算法基于Actor-Critic模型,其中,Actor模块的输入为当前时刻的状态st,输出为当前时刻采取的动作at;Critic网络则用来衡量Actor网络的动作优劣;
本发明提出的基于强化学习的无人船路径跟踪方法,策略训练过程采用PPO算法来提高动作策略参数的收敛性,且算法迭代过程无需人为干预,并且由于智能体主动与环境进行交互,环境中的各类干扰因素可以被智能体学习,简化了无人船路径跟踪控制器的设计过程,有效替代人力资源、提升了作业效率。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。
本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (6)

1.一种基于强化学习的无人船路径跟踪方法,其特征在于,包括如下步骤:
设定无人船的跟踪路径;
对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数;
采用PPO算法对控制策略进行模型训练,得出无人船的控制策略参数;
无人船根据控制策略参数执行路径跟踪任务。
2.根据权利要求1所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述对无人船跟踪路径与避障过程建立MDP模型,并设置奖励函数,包括:
建立MDP模型,所述MDP模型包括:时刻为t时无人船所处的状态st;时刻t时无人船所采取的动作at,其取自动作空间,根据控制策略参数给出;奖励函数rt,表示时刻t时、采取动作at后,无人船获得的奖励值;衰减率γ,表征智能体对当前奖励和未来奖励重视情况;状态转移概率P,表示在状态st采取动作at后,状态转移到st+1的概率;
定义状态st,建立状态st与无人船完成路径跟踪任务所需信息的数量关系;
定义动作at,将动作at定义为无人船推进模块所提供的推进力与推进力的角度的函数;
基于无人船路径跟踪的目标定义奖励函数,所述无人船路径跟踪的目标包括最小化路径跟踪误差、达到目标点、恒定航速和避免与其他任何障碍物之间的碰撞。
3.根据权利要求2所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述无人船完成路径跟踪任务所需信息包括无人船当前位置与既定轨迹之间的垂直距离、无人船位置在既定轨迹上的投影与目标点的连线和无人船位置与目标点连线两条连线之间的夹角、无人船当前位置与目标点之间的欧式距离、无人船速度与船头方向的夹角、风速、无人船当前位置与障碍物之间的欧式距离、无人船速度与障碍物速度之间夹角、障碍物的速度、无人船的航速偏差角、推进器提供的推力方向与无人船速度方向的夹角。
4.根据权利要求2所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述奖励函数包括路径跟踪奖励、目标点奖励、恒定航速奖励、避障奖励与COLREGs奖励。
5.根据权利要求1所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述采用PPO算法对状态信息模型进行强化学习,得出无人船的控制策略参数,包括:
使用优势函数估计器计算现行动作策略下,各个动作的优势函数值,并传给Actor网络和Critic网络进行后续更新;
Actor网络给出当前状态下无人船能够获得最大奖励值的动作,并根据优势函数的估计值和Critic网络的评估值来进行迭代更新,并引入clip函数,将每次更新的步长限制在一个合理的范围内,以此来保证动作策略的逐步提升;
Critic网络根据优势函数的估计值和Actor网络的输出值来分析当前策略动作值的好坏程度,并根据MDP的状态转移来进行更新;
引入跟踪总误差函数判断训练过程是否结束,当跟踪总误差小于设定值时,判定跟踪精度满足要求,得出控制策略参数,结束训练,否则重复上述训练步骤。
6.根据权利要求5所述的基于强化学习的无人船路径跟踪方法,其特征在于,所述控制策略参数为训练完成的Actor网络参数。
CN202110149076.0A 2021-02-03 2021-02-03 一种基于强化学习的无人船路径跟踪方法 Active CN112947431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110149076.0A CN112947431B (zh) 2021-02-03 2021-02-03 一种基于强化学习的无人船路径跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110149076.0A CN112947431B (zh) 2021-02-03 2021-02-03 一种基于强化学习的无人船路径跟踪方法

Publications (2)

Publication Number Publication Date
CN112947431A true CN112947431A (zh) 2021-06-11
CN112947431B CN112947431B (zh) 2023-06-06

Family

ID=76242340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110149076.0A Active CN112947431B (zh) 2021-02-03 2021-02-03 一种基于强化学习的无人船路径跟踪方法

Country Status (1)

Country Link
CN (1) CN112947431B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN114077258A (zh) * 2021-11-22 2022-02-22 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN114147718A (zh) * 2021-12-09 2022-03-08 申江万国数据信息股份有限公司 无人档案库房多任务执行控制方法、装置、设备以及介质
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN115291616A (zh) * 2022-07-25 2022-11-04 江苏海洋大学 一种基于近端策略优化算法的auv动态避障方法
CN115494831A (zh) * 2021-06-17 2022-12-20 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110262482A (zh) * 2019-06-10 2019-09-20 华东师范大学 一种无人船航速控制方法及无人船
CN110362089A (zh) * 2019-08-02 2019-10-22 大连海事大学 一种基于深度强化学习和遗传算法的无人船自主导航的方法
CN111752274A (zh) * 2020-06-17 2020-10-09 杭州电子科技大学 一种基于强化学习的激光agv的路径跟踪控制方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN112180950A (zh) * 2020-11-05 2021-01-05 武汉理工大学 一种基于强化学习的智能船舶自主避碰及路径规划方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110262482A (zh) * 2019-06-10 2019-09-20 华东师范大学 一种无人船航速控制方法及无人船
CN110362089A (zh) * 2019-08-02 2019-10-22 大连海事大学 一种基于深度强化学习和遗传算法的无人船自主导航的方法
CN111752274A (zh) * 2020-06-17 2020-10-09 杭州电子科技大学 一种基于强化学习的激光agv的路径跟踪控制方法
CN111829527A (zh) * 2020-07-23 2020-10-27 中国石油大学(华东) 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法
CN112180950A (zh) * 2020-11-05 2021-01-05 武汉理工大学 一种基于强化学习的智能船舶自主避碰及路径规划方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115494831A (zh) * 2021-06-17 2022-12-20 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN115494831B (zh) * 2021-06-17 2024-04-16 中国科学院沈阳自动化研究所 一种人机自主智能协同的跟踪方法
CN113239639A (zh) * 2021-06-29 2021-08-10 暨南大学 策略信息生成方法、装置、电子装置和存储介质
CN114077258A (zh) * 2021-11-22 2022-02-22 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN114077258B (zh) * 2021-11-22 2023-11-21 江苏科技大学 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN114147718A (zh) * 2021-12-09 2022-03-08 申江万国数据信息股份有限公司 无人档案库房多任务执行控制方法、装置、设备以及介质
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN115291616A (zh) * 2022-07-25 2022-11-04 江苏海洋大学 一种基于近端策略优化算法的auv动态避障方法

Also Published As

Publication number Publication date
CN112947431B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN112947431B (zh) 一种基于强化学习的无人船路径跟踪方法
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
CN109540151B (zh) 一种基于强化学习的auv三维路径规划方法
Wu et al. Deep reinforcement learning-based path control and optimization for unmanned ships
CN109241552B (zh) 一种基于多约束目标的水下机器人运动规划方法
CN106444806B (zh) 基于生物速度调节的欠驱动auv三维轨迹跟踪控制方法
CN108073175B (zh) 基于虚拟艇自适应规划的欠驱动无人艇编队智能控制方法
CN113885534B (zh) 一种基于智能预测控制的水面无人船路径跟踪方法
WO2021230356A1 (ja) 船舶の自動誘導方法、船舶の自動誘導プログラム、船舶の自動誘導システム、及び船舶
CN111026135B (zh) 一种无人艇高性能航行前馈控制系统及其控制方法
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
CN114879671A (zh) 一种基于强化学习mpc的无人艇轨迹跟踪控制方法
CN113010963A (zh) 基于深度强化学习的变质量水下航行器避障方法及系统
CN111123923A (zh) 一种无人船舶局部路径动态优化方法
CN111930141A (zh) 一种水下机器人三维路径可视化跟踪方法
CN115903800A (zh) 一种基于领导者协同的多无人船编队的严格安全控制方法
CN114967702A (zh) 一种无人艇控制系统及路径跟踪方法
CN113093804B (zh) 基于反演滑模控制的无人艇编队控制方法和控制系统
CN113741433A (zh) 一种水面无人船的分布式编队方法
CN116820101A (zh) 一种距离信息缺失下的欠驱动无人艇编队控制方法
CN114943168B (zh) 一种水上浮桥组合方法及系统
CN115480580A (zh) 一种基于nmpc的水下机器人路径跟踪与避障的控制方法
CN115145282A (zh) 一种欠驱动船舶自动靠泊鲁棒自适应控制方法
CN114047743A (zh) 一种带预测的无人艇目标跟踪控制方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant