CN107346138B - 一种基于增强学习算法的无人船侧向控制方法 - Google Patents

一种基于增强学习算法的无人船侧向控制方法 Download PDF

Info

Publication number
CN107346138B
CN107346138B CN201710458496.0A CN201710458496A CN107346138B CN 107346138 B CN107346138 B CN 107346138B CN 201710458496 A CN201710458496 A CN 201710458496A CN 107346138 B CN107346138 B CN 107346138B
Authority
CN
China
Prior art keywords
unmanned ship
performance
following
reinforcement learning
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710458496.0A
Other languages
English (en)
Other versions
CN107346138A (zh
Inventor
赵东明
周浩
朱楷
柳欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201710458496.0A priority Critical patent/CN107346138B/zh
Publication of CN107346138A publication Critical patent/CN107346138A/zh
Application granted granted Critical
Publication of CN107346138B publication Critical patent/CN107346138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/041Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于增强学习算法的无人船侧向控制方法,建立无人船行驶的动力学模型,采用简化的船体‑路径一体化模型;根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;无人船侧向控制器中增强学习控制器采用Actor‑Critic结构,分为执行器网络和评价器网络;设计无人船的侧向偏差参考模型;通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。本发明的优点在于:增强学习基于动物学习心理学的“试误法”原理,使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化,从而可以用于解决某些监督学习难以应用的优化控制问题。

Description

一种基于增强学习算法的无人船侧向控制方法
技术领域
本发明涉及无人艇控制技术领域,具体涉及一种基于增强学习算法的无人船侧向控制方法。
背景技术
海底地形地貌是一切海洋开发和利用活动的基础,其信息获取是海洋测绘中最基础的工作。近年来,随着卫星导航定位、声学探测、数据通讯、计算机数据处理与可视化、图像学和图形学以及现代测量数据处理理论和方法等相关领域的发展,我国的海底地形地貌信息获取技术正在向高精度、高分辨率、自主集成、综合化和标准化方向发展。
无人船是一种多用途的观测平台。可搭载多种海洋测量传感器用于实施多种专业测量,无人水面测量船作为一种执行实时、无人、自动测量的综合作业平台,将测量人员从繁重的水下地形测量工作中解脱出来、是现代海洋测量技术装备发展的必然趋势。
无人船需要在复杂的海洋环境中自主航行和作业,因此无人船对操纵性、控制性能和可靠性均提出了更为苛刻的要求。为了保证无人船安全、可靠、自主地完成各种复杂任务,这就要求自主地完成各种复杂任务,这就要求它具备灵活机动性和环境适应能力,为了更好的完成任务就需要研究更加先进的无人船智能运动控制技术。
发明内容
本发明的目的就是要针对现有装置的不足,其能够优化无人船侧向控制器的设计,提高无人船的控制性能,获得更好的控制效果。
为实现上述目的,本发明所涉及的一种基于增强学习算法的无人船侧向控制方法,包括如下步骤:
步骤1:建立无人船行驶的动力学模型,采用简化的船体-路径一体化模型;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;
步骤4:设计无人船的侧向偏差参考模型;
步骤5:通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
进一步地,所述步骤1:
采用如下简化的船体-路径一体化模型:
Figure GDA0002368537530000021
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率。
更进一步地,所述步骤2:
所述基于增强学习的自适应PID控制律具有如下形式:
Figure GDA0002368537530000031
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出。
进一步地,所述步骤3:
所述评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数;
更进一步地,所述步骤3:
所述执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
Figure GDA0002368537530000032
其中:
Figure GDA0002368537530000033
为多个执行器网络输出构成的向量;σ为行为探索的方差,仍然由如下公式决定:
Figure GDA0002368537530000034
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
进一步地,所述步骤3:
所述执行器网络的学习算法采用如下近似策略梯度估计算法:
Figure GDA0002368537530000035
其中:
Figure GDA0002368537530000036
称为内部回报,由评价器的时域差值信号来提供,即:
Figure GDA0002368537530000041
更进一步地,所述步骤4:
为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
Figure GDA0002368537530000042
其中:b>0为常数。
进一步地,所述步骤4中:
所述参考模型的基础上,对回报函数的设计如下:
Figure GDA0002368537530000043
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数。
更进一步地,所述步骤5:
在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,
由于采用了Actor-Critic结构,则增强学习控制器的优化目标是下面的折扣回报指标:
Figure GDA0002368537530000044
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
本发明的优点在于:增强学习基于动物学习心理学的“试误法”原理,使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化,从而可以用于解决某些监督学习难以应用的优化控制问题。
附图说明
图1为本发明中自适应PID控制器的结构图;
图2为Actor-Critic结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述:
如图1~2,一种基于增强学习算法的无人船侧向控制方法,包括如下步骤:
步骤1:建立无人船行驶的动力学模型,采用如下简化的船体-路径一体化模型:
Figure GDA0002368537530000051
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案,基于增强学习的自适应PID控制律具有如下形式:
Figure GDA0002368537530000052
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;
评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数;
执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
Figure GDA0002368537530000061
其中:
Figure GDA0002368537530000062
为多个执行器网络输出构成的向量;σ为行为探索的方差,仍然由如下公式决定:
Figure GDA0002368537530000063
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
学习算法采用如下近似策略梯度估计算法:
Figure GDA0002368537530000064
其中:
Figure GDA0002368537530000065
称为内部回报,由评价器的时域差值信号来提供,即:
Figure GDA0002368537530000066
步骤4:设计无人船的侧向偏差参考模型,为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
Figure GDA0002368537530000067
其中:b>0为常数;
在参考模型的基础上,对回报函数的设计如下:
Figure GDA0002368537530000071
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数;
步骤5:在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,
由于采用了Actor-Critic结构,则增强学习控制器的优化目标是下面的折扣回报指标:
Figure GDA0002368537530000072
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,可以实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
本发明实际使用时:
对于无人船的侧向控制问题,基于增强学习的自适应PID控制律具有如下形式:
Figure GDA0002368537530000073
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出,分别用于对方向角偏差和侧向偏差的比例增益进行自适应调整。
基于上述自适应PID控制律,增强学习控制器由一个评价器网络和一个执行器网络构成。
评价器网络的输入为系统的状态,包括:侧向偏差y及其变化率
Figure GDA0002368537530000081
方向角偏差θ及其变化率
Figure GDA0002368537530000082
输出为系统的状态值函数估计。评价器网络采用CMAC网络,其结构参数如下:泛化参数C=4,每个输入的量化等级M=7,经过Hash映射后的物理地址空间大小N=100。学习算法采用TD(λ)算法,有关参数如下:折扣因子γ=0.95,适合度轨迹参数λ=0.6。
执行器网络的输入与评价器相同,输出用于确定PID控制器的可变增益,采用两个多层前馈神经网络,中间层节点数为6。△ka,△kp由高斯分布进行行为探索,高斯分布的均值由执行器网络输出确定。设两个执行器网络的输出分别为z1,z2(0≤z1,z2≤1),则△ka,△kp的均值由如下公式决定:
Figure GDA0002368537530000083
Figure GDA0002368537530000084
其中:U△p,U△a分别可变增益kp,ka的变化范围。
为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
Figure GDA0002368537530000085
其中:b>0为常数。以上参考模型对侧向偏差的变化给出了一种指数收敛的性能指标曲线,适当地选择常数b可以进一步对系统性能进行优化。
在设计了参考模型的基础上,对回报函数的设计如下:
Figure GDA0002368537530000086
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数。以上回报函数的设计使为了尽量是系统侧向偏差的变化接近给定的参考模型,即具有指数收敛的性能。
根据技术方案的步骤5,基于增强学习的自适应PID控制器的算法描述:
给定回报函数r(△y),由执行器网络和评价器网络构成的增强学习控制器,单次运行的时间长度T。
1、初始化学习控制器的参数,包括神经网络的权值,折扣因子γ,时域差值学习算法的有关控制参数(λ,p0或α),执行器网络的学习因子β,评价器网络权值的适合度轨迹向量,学习次数n=0。
2、循环,直到满足算法停止的条件。
(1)初始化控制对象的状态,控制时间步t=0。
(2)根据当前的控制对象状态和参考模型状态,计算模型跟随误差;
(3)根据当前时刻的模型跟随误差△yt,计算执行器网络输出
Figure GDA0002368537530000091
和评价网络的输出V(△yt);
(4)计算实际的PID参数整定△K(t),从而计算PID控制器的控制量输出u;
(5)将输出u作用于控制对象,观测下一采样时刻的对象状态和参考模型状态,计算新的模型跟随误差,同时计算回报函数rt
(6)对评价器网络的权值,利用TD(λ)算法进行时域差值学习,对执行器网络,计算策略梯度估计,进行权值的迭代;
(7)t=t+1,若t=T,则n=n+1,返回b),否则,返回c)。
上述算法停止的准则可以选择为系统性能指标达到给定要求或学习次数达到给定的最大值。
最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明不限于上述实施例,还可以有许多变形。凡依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应认为属于本发明的保护范围。

Claims (2)

1.一种基于增强学习算法的无人船侧向控制方法,其特征在于:包括如下步骤:
步骤1:建立无人船行驶的动力学模型,采用简化的船体-路径一体化模型;所述采用如下简化的船体-路径一体化模型:
Figure FDA0002368537520000011
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;所述基于增强学习的自适应PID控制律具有如下形式:
Figure FDA0002368537520000012
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;所述执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
Figure FDA0002368537520000013
其中:
Figure FDA0002368537520000014
为多个执行器网络输出构成的向量;σ为行为探索的方差,仍然由如下公式决定:
Figure FDA0002368537520000021
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
所述执行器网络的学习算法采用如下近似策略梯度估计算法:
Figure FDA0002368537520000022
Figure FDA0002368537520000023
称为内部回报,由评价器的时域差值信号来提供,即:
Figure FDA0002368537520000024
其中:γ为折扣因子;
步骤4:设计无人船的侧向偏差参考模型;为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
Figure FDA0002368537520000025
其中:b>0为常数;
所述参考模型的基础上,对回报函数的设计如下:
Figure FDA0002368537520000026
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数;
步骤5:通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化,在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:
rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,γt为回报函数,
由于采用了Actor-Critic结构,则增强学习控制器的优化目标是下面的折扣回报指标:
Figure FDA0002368537520000031
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
2.根据权利要求1所述的一种基于增强学习算法的无人船侧向控制方法,其特征在于:所述步骤3:
所述评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数。
CN201710458496.0A 2017-06-16 2017-06-16 一种基于增强学习算法的无人船侧向控制方法 Active CN107346138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710458496.0A CN107346138B (zh) 2017-06-16 2017-06-16 一种基于增强学习算法的无人船侧向控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710458496.0A CN107346138B (zh) 2017-06-16 2017-06-16 一种基于增强学习算法的无人船侧向控制方法

Publications (2)

Publication Number Publication Date
CN107346138A CN107346138A (zh) 2017-11-14
CN107346138B true CN107346138B (zh) 2020-05-05

Family

ID=60253073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710458496.0A Active CN107346138B (zh) 2017-06-16 2017-06-16 一种基于增强学习算法的无人船侧向控制方法

Country Status (1)

Country Link
CN (1) CN107346138B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108200175B (zh) * 2018-01-04 2020-07-17 浙江大学 基于协同云控制的多无人船编队协同控制系统及方法
CN108287542B (zh) * 2018-01-04 2021-01-26 浙江大学 基于协同云控制的无人机与无人船协作控制系统与方法
CN108536005A (zh) * 2018-03-15 2018-09-14 吉林大学 一种基于模糊神经网络pid船舶航向控制器及其控制方法
FR3084867B1 (fr) 2018-08-07 2021-01-15 Psa Automobiles Sa Procede d’assistance pour qu’un vehicule a conduite automatisee suive une trajectoire, par apprentissage par renforcement de type acteur critique a seuil
CN109521669A (zh) * 2018-11-12 2019-03-26 中国航空工业集团公司北京航空精密机械研究所 一种基于强化学习的转台控制参数自整定方法
CN109719721B (zh) * 2018-12-26 2020-07-24 北京化工大学 一种仿蛇搜救机器人适应性步态自主涌现方法
CN109948781A (zh) * 2019-03-21 2019-06-28 中国人民解放军国防科技大学 用于自动驾驶车辆的连续动作在线学习控制方法及系统
CN109765916A (zh) * 2019-03-26 2019-05-17 武汉欣海远航科技研发有限公司 一种水面无人艇路径跟踪控制器设计方法
CN111950733A (zh) * 2019-05-15 2020-11-17 阿里巴巴集团控股有限公司 信息流的排序方法、装置及计算机存储介质
CN110471289B (zh) * 2019-08-28 2021-06-04 湖南大学 一种基于视觉导航移动设备的自适应路径跟踪方法及系统
CN110658829B (zh) * 2019-10-30 2021-03-30 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN110703792B (zh) * 2019-11-07 2022-12-30 江苏科技大学 基于增强学习的水下机器人姿态控制方法
CN113671962B (zh) * 2021-08-20 2023-11-21 湘潭大学 一种无人驾驶铰接式清扫车的横向控制方法
WO2023108494A1 (zh) * 2021-12-15 2023-06-22 中国科学院深圳先进技术研究院 一种概率滤波强化学习无人船控制方法、装置及终端设备
CN114237254B (zh) * 2021-12-20 2024-01-09 中国海洋大学 基于Smith预估器和粒子群算法的无人船舵向PID控制设计方法
CN116627145B (zh) * 2023-07-25 2023-10-20 陕西欧卡电子智能科技有限公司 无人游船的自主航行控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853046A (zh) * 2014-02-14 2014-06-11 广东工业大学 一种压电陶瓷驱动器的自适应学习控制方法
CN105228158A (zh) * 2015-11-11 2016-01-06 国家电网公司 基于强化学习的认知无线网络协作节点选择方法
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108008627A (zh) * 2017-12-13 2018-05-08 中国石油大学(华东) 一种并行优化的强化学习自适应pid控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853046A (zh) * 2014-02-14 2014-06-11 广东工业大学 一种压电陶瓷驱动器的自适应学习控制方法
CN105228158A (zh) * 2015-11-11 2016-01-06 国家电网公司 基于强化学习的认知无线网络协作节点选择方法
CN106338919A (zh) * 2016-11-02 2017-01-18 哈尔滨工程大学 基于增强学习型智能算法的无人艇航迹跟踪控制方法
CN108008627A (zh) * 2017-12-13 2018-05-08 中国石油大学(华东) 一种并行优化的强化学习自适应pid控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Adaptive low-level control of autonomous underwater vehicles using deep reinforcement learning;Ignacio Carlucho 等;《Robotics and Autonomous Systems》;20180615;第71-86页 *
Two-step gradient-based reinforcement learning for underwater robotics behavior learning;Andres El-Fakdi 等;《Robotics and Autonomous Systems》;20121223;第271-282页 *
基于执行器_评价器学习的自适应PID控制;陈学松 等;《控制理论与应用》;20110815;第28卷(第8期);第1187-1192页 *
增强学习算法的性能测试与对比分析;李兆斌 等;《计算机应用研究》;20101015;第27卷(第10期);第3662-3666页 *

Also Published As

Publication number Publication date
CN107346138A (zh) 2017-11-14

Similar Documents

Publication Publication Date Title
CN107346138B (zh) 一种基于增强学习算法的无人船侧向控制方法
Chen et al. Tracking control of surface vessels via fault-tolerant adaptive backstepping interval type-2 fuzzy control
Peng et al. Robust adaptive formation control of underactuated autonomous surface vehicles with uncertain dynamics
Zhang et al. Adaptive output feedback control based on DRFNN for AUV
CN107255923B (zh) 基于rbf辨识的ica-cmac神经网络的欠驱动无人艇航迹跟踪控制方法
CN101833338B (zh) 无人潜航器垂直面欠驱动运动控制方法
Jiang et al. Identification modeling and prediction of ship maneuvering motion based on LSTM deep neural network
Ekinci et al. Predictions of oil/chemical tanker main design parameters using computational intelligence techniques
CN107179693A (zh) 基于Huber估计的鲁棒自适应滤波和状态估计方法
CN111913175A (zh) 一种传感器短暂失效下带补偿机制的水面目标跟踪方法
CN107255920A (zh) 基于网络优化算法的pid控制方法和装置及系统
Tu et al. Adaptive dynamic positioning control for accommodation vessels with multiple constraints
Liu et al. Deep reinforcement learning for vectored thruster autonomous underwater vehicle control
Jing et al. Self-tuning adaptive active disturbance rejection pitch control of a manta-ray-like underwater glider
Zheng et al. DDPG based LADRC trajectory tracking control for underactuated unmanned ship under environmental disturbances
Li et al. Adaptive RBF neural network control for unmanned surface vessel course tracking
CN110687798B (zh) 一种基于滑模量化输出反馈的自适应容错控制方法
CN114715331B (zh) 一种浮式海洋平台动力定位控制方法及系统
Numakura et al. FAD learning: Separate learning for three accelerations-learning for dynamics of boat through motor babbling
Ye et al. A modified predictive PID controller for dynamic positioning of vessels with autoregressive model
Yan et al. Differential evolution algorithm-based iterative sliding mode control of underactuated ship motion
Bańka et al. A comparative and experimental study on gradient and genetic optimization algorithms for parameter identification of linear MIMO models of a drilling vessel
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
Xu USV course controller optimization based on elitism estimation of distribution algorithm
Guo et al. Adaptive control of an autonomous underwater vehicle testbed using neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant