CN107346138B - 一种基于增强学习算法的无人船侧向控制方法 - Google Patents
一种基于增强学习算法的无人船侧向控制方法 Download PDFInfo
- Publication number
- CN107346138B CN107346138B CN201710458496.0A CN201710458496A CN107346138B CN 107346138 B CN107346138 B CN 107346138B CN 201710458496 A CN201710458496 A CN 201710458496A CN 107346138 B CN107346138 B CN 107346138B
- Authority
- CN
- China
- Prior art keywords
- unmanned ship
- performance
- following
- reinforcement learning
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 238000013461 design Methods 0.000 claims abstract description 10
- 238000013507 mapping Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 5
- VIEYMVWPECAOCY-UHFFFAOYSA-N 7-amino-4-(chloromethyl)chromen-2-one Chemical compound ClCC1=CC(=O)OC2=CC(N)=CC=C21 VIEYMVWPECAOCY-UHFFFAOYSA-N 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 3
- 238000012876 topography Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/041—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于增强学习算法的无人船侧向控制方法,建立无人船行驶的动力学模型,采用简化的船体‑路径一体化模型;根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;无人船侧向控制器中增强学习控制器采用Actor‑Critic结构,分为执行器网络和评价器网络;设计无人船的侧向偏差参考模型;通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。本发明的优点在于:增强学习基于动物学习心理学的“试误法”原理,使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化,从而可以用于解决某些监督学习难以应用的优化控制问题。
Description
技术领域
本发明涉及无人艇控制技术领域,具体涉及一种基于增强学习算法的无人船侧向控制方法。
背景技术
海底地形地貌是一切海洋开发和利用活动的基础,其信息获取是海洋测绘中最基础的工作。近年来,随着卫星导航定位、声学探测、数据通讯、计算机数据处理与可视化、图像学和图形学以及现代测量数据处理理论和方法等相关领域的发展,我国的海底地形地貌信息获取技术正在向高精度、高分辨率、自主集成、综合化和标准化方向发展。
无人船是一种多用途的观测平台。可搭载多种海洋测量传感器用于实施多种专业测量,无人水面测量船作为一种执行实时、无人、自动测量的综合作业平台,将测量人员从繁重的水下地形测量工作中解脱出来、是现代海洋测量技术装备发展的必然趋势。
无人船需要在复杂的海洋环境中自主航行和作业,因此无人船对操纵性、控制性能和可靠性均提出了更为苛刻的要求。为了保证无人船安全、可靠、自主地完成各种复杂任务,这就要求自主地完成各种复杂任务,这就要求它具备灵活机动性和环境适应能力,为了更好的完成任务就需要研究更加先进的无人船智能运动控制技术。
发明内容
本发明的目的就是要针对现有装置的不足,其能够优化无人船侧向控制器的设计,提高无人船的控制性能,获得更好的控制效果。
为实现上述目的,本发明所涉及的一种基于增强学习算法的无人船侧向控制方法,包括如下步骤:
步骤1:建立无人船行驶的动力学模型,采用简化的船体-路径一体化模型;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;
步骤4:设计无人船的侧向偏差参考模型;
步骤5:通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
进一步地,所述步骤1:
采用如下简化的船体-路径一体化模型:
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率。
更进一步地,所述步骤2:
所述基于增强学习的自适应PID控制律具有如下形式:
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出。
进一步地,所述步骤3:
所述评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数;
更进一步地,所述步骤3:
所述执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
进一步地,所述步骤3:
所述执行器网络的学习算法采用如下近似策略梯度估计算法:
更进一步地,所述步骤4:
其中:b>0为常数。
进一步地,所述步骤4中:
所述参考模型的基础上,对回报函数的设计如下:
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数。
更进一步地,所述步骤5:
在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
本发明的优点在于:增强学习基于动物学习心理学的“试误法”原理,使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化,从而可以用于解决某些监督学习难以应用的优化控制问题。
附图说明
图1为本发明中自适应PID控制器的结构图;
图2为Actor-Critic结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述:
如图1~2,一种基于增强学习算法的无人船侧向控制方法,包括如下步骤:
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案,基于增强学习的自适应PID控制律具有如下形式:
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;
评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数;
执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
学习算法采用如下近似策略梯度估计算法:
步骤4:设计无人船的侧向偏差参考模型,为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
其中:b>0为常数;
在参考模型的基础上,对回报函数的设计如下:
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数;
步骤5:在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,可以实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
本发明实际使用时:
对于无人船的侧向控制问题,基于增强学习的自适应PID控制律具有如下形式:
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出,分别用于对方向角偏差和侧向偏差的比例增益进行自适应调整。
基于上述自适应PID控制律,增强学习控制器由一个评价器网络和一个执行器网络构成。
评价器网络的输入为系统的状态,包括:侧向偏差y及其变化率方向角偏差θ及其变化率输出为系统的状态值函数估计。评价器网络采用CMAC网络,其结构参数如下:泛化参数C=4,每个输入的量化等级M=7,经过Hash映射后的物理地址空间大小N=100。学习算法采用TD(λ)算法,有关参数如下:折扣因子γ=0.95,适合度轨迹参数λ=0.6。
执行器网络的输入与评价器相同,输出用于确定PID控制器的可变增益,采用两个多层前馈神经网络,中间层节点数为6。△ka,△kp由高斯分布进行行为探索,高斯分布的均值由执行器网络输出确定。设两个执行器网络的输出分别为z1,z2(0≤z1,z2≤1),则△ka,△kp的均值由如下公式决定:
其中:U△p,U△a分别可变增益kp,ka的变化范围。
其中:b>0为常数。以上参考模型对侧向偏差的变化给出了一种指数收敛的性能指标曲线,适当地选择常数b可以进一步对系统性能进行优化。
在设计了参考模型的基础上,对回报函数的设计如下:
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数。以上回报函数的设计使为了尽量是系统侧向偏差的变化接近给定的参考模型,即具有指数收敛的性能。
根据技术方案的步骤5,基于增强学习的自适应PID控制器的算法描述:
给定回报函数r(△y),由执行器网络和评价器网络构成的增强学习控制器,单次运行的时间长度T。
1、初始化学习控制器的参数,包括神经网络的权值,折扣因子γ,时域差值学习算法的有关控制参数(λ,p0或α),执行器网络的学习因子β,评价器网络权值的适合度轨迹向量,学习次数n=0。
2、循环,直到满足算法停止的条件。
(1)初始化控制对象的状态,控制时间步t=0。
(2)根据当前的控制对象状态和参考模型状态,计算模型跟随误差;
(4)计算实际的PID参数整定△K(t),从而计算PID控制器的控制量输出u;
(5)将输出u作用于控制对象,观测下一采样时刻的对象状态和参考模型状态,计算新的模型跟随误差,同时计算回报函数rt;
(6)对评价器网络的权值,利用TD(λ)算法进行时域差值学习,对执行器网络,计算策略梯度估计,进行权值的迭代;
(7)t=t+1,若t=T,则n=n+1,返回b),否则,返回c)。
上述算法停止的准则可以选择为系统性能指标达到给定要求或学习次数达到给定的最大值。
最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明不限于上述实施例,还可以有许多变形。凡依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应认为属于本发明的保护范围。
Claims (2)
1.一种基于增强学习算法的无人船侧向控制方法,其特征在于:包括如下步骤:
步骤1:建立无人船行驶的动力学模型,采用简化的船体-路径一体化模型;所述采用如下简化的船体-路径一体化模型:
其中:y为路径跟踪的侧向偏差,θ为方向角偏差,即船体的纵轴方向与期望路径切线方向的偏差;a(t)为转向舵偏角,ac(t)为转向舵偏角的控制量;τa(t)为方向控制的时间常数;ρ为路径曲率;
步骤2:根据无人船侧向控制性能的要求,选择无人船侧向控制器的设计方案;所述基于增强学习的自适应PID控制律具有如下形式:
其中:kp0,ka0,kD和kI为固定增益常数,根据手工调整的PID参数设定;△ka,△kp为执行器神经网络的输出;
步骤3:无人船侧向控制器中增强学习控制器采用Actor-Critic结构,分为执行器网络和评价器网络;所述执行器网络采用两个多层前馈神经网络,采用高斯行为分布来确定实际控制量,多维高斯分布进行执行器网络输出的随机探索:
其中:V(△y)为评价器对当前状态的值函数估计;σ1,σ2为常数,
所述执行器网络的学习算法采用如下近似策略梯度估计算法:
其中:γ为折扣因子;
步骤4:设计无人船的侧向偏差参考模型;为实现路径跟踪性能的优化,考虑采用如下形式的侧向偏差性能参考模型:
其中:b>0为常数;
所述参考模型的基础上,对回报函数的设计如下:
其中:e1、e2和c为常数,且0≤e2≤e1;k<0为回报比例系数;
步骤5:通过对性能指标的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化,在设计具有期望性能的参考模型的基础上,对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能,通常可以采用如下的跟随误差线性函数形式:
rt=c|△y|
其中:c为比例系数,可以为常数或分段常数,γt为回报函数,
由于采用了Actor-Critic结构,则增强学习控制器的优化目标是下面的折扣回报指标:
其中:γ为折扣因子,通常选择为接近1的常数,
通过对性能指标J的优化,实现系统状态或输出对参考模型状态的跟随,进而保证了系统的性能优化。
2.根据权利要求1所述的一种基于增强学习算法的无人船侧向控制方法,其特征在于:所述步骤3:
所述评价器网络采用CMAC网络,第一层特征映射Cqn→f1是由输入状态空间到状态空间检测器的层叠式编码映射,在状态空间检测器中有C个针对整个状态空间量化编码结构C1,C2,C3,……,CC,第二层状态特征映射f2对每个状态检测器单元计算唯一的物理地址,此时需要的物理地址单元总数为Cqn,最后一层映射为输出映射,该映射通过对被激活的物理地址单元中的权值求和来计算输出,学习算法采用TD(λ)学习算法,选择算法的关键参数折扣因子和适合度轨迹参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458496.0A CN107346138B (zh) | 2017-06-16 | 2017-06-16 | 一种基于增强学习算法的无人船侧向控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458496.0A CN107346138B (zh) | 2017-06-16 | 2017-06-16 | 一种基于增强学习算法的无人船侧向控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107346138A CN107346138A (zh) | 2017-11-14 |
CN107346138B true CN107346138B (zh) | 2020-05-05 |
Family
ID=60253073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710458496.0A Active CN107346138B (zh) | 2017-06-16 | 2017-06-16 | 一种基于增强学习算法的无人船侧向控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107346138B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108200175B (zh) * | 2018-01-04 | 2020-07-17 | 浙江大学 | 基于协同云控制的多无人船编队协同控制系统及方法 |
CN108287542B (zh) * | 2018-01-04 | 2021-01-26 | 浙江大学 | 基于协同云控制的无人机与无人船协作控制系统与方法 |
CN108536005A (zh) * | 2018-03-15 | 2018-09-14 | 吉林大学 | 一种基于模糊神经网络pid船舶航向控制器及其控制方法 |
FR3084867B1 (fr) | 2018-08-07 | 2021-01-15 | Psa Automobiles Sa | Procede d’assistance pour qu’un vehicule a conduite automatisee suive une trajectoire, par apprentissage par renforcement de type acteur critique a seuil |
CN109521669A (zh) * | 2018-11-12 | 2019-03-26 | 中国航空工业集团公司北京航空精密机械研究所 | 一种基于强化学习的转台控制参数自整定方法 |
CN109719721B (zh) * | 2018-12-26 | 2020-07-24 | 北京化工大学 | 一种仿蛇搜救机器人适应性步态自主涌现方法 |
CN109948781A (zh) * | 2019-03-21 | 2019-06-28 | 中国人民解放军国防科技大学 | 用于自动驾驶车辆的连续动作在线学习控制方法及系统 |
CN109765916A (zh) * | 2019-03-26 | 2019-05-17 | 武汉欣海远航科技研发有限公司 | 一种水面无人艇路径跟踪控制器设计方法 |
CN111950733A (zh) * | 2019-05-15 | 2020-11-17 | 阿里巴巴集团控股有限公司 | 信息流的排序方法、装置及计算机存储介质 |
CN110471289B (zh) * | 2019-08-28 | 2021-06-04 | 湖南大学 | 一种基于视觉导航移动设备的自适应路径跟踪方法及系统 |
CN110658829B (zh) * | 2019-10-30 | 2021-03-30 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN110703792B (zh) * | 2019-11-07 | 2022-12-30 | 江苏科技大学 | 基于增强学习的水下机器人姿态控制方法 |
CN113671962B (zh) * | 2021-08-20 | 2023-11-21 | 湘潭大学 | 一种无人驾驶铰接式清扫车的横向控制方法 |
WO2023108494A1 (zh) * | 2021-12-15 | 2023-06-22 | 中国科学院深圳先进技术研究院 | 一种概率滤波强化学习无人船控制方法、装置及终端设备 |
CN114237254B (zh) * | 2021-12-20 | 2024-01-09 | 中国海洋大学 | 基于Smith预估器和粒子群算法的无人船舵向PID控制设计方法 |
CN116627145B (zh) * | 2023-07-25 | 2023-10-20 | 陕西欧卡电子智能科技有限公司 | 无人游船的自主航行控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853046A (zh) * | 2014-02-14 | 2014-06-11 | 广东工业大学 | 一种压电陶瓷驱动器的自适应学习控制方法 |
CN105228158A (zh) * | 2015-11-11 | 2016-01-06 | 国家电网公司 | 基于强化学习的认知无线网络协作节点选择方法 |
CN106338919A (zh) * | 2016-11-02 | 2017-01-18 | 哈尔滨工程大学 | 基于增强学习型智能算法的无人艇航迹跟踪控制方法 |
CN108008627A (zh) * | 2017-12-13 | 2018-05-08 | 中国石油大学(华东) | 一种并行优化的强化学习自适应pid控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917925B2 (en) * | 2001-03-30 | 2005-07-12 | Intelligent Inference Systems Corporation | Convergent actor critic-based fuzzy reinforcement learning apparatus and method |
-
2017
- 2017-06-16 CN CN201710458496.0A patent/CN107346138B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853046A (zh) * | 2014-02-14 | 2014-06-11 | 广东工业大学 | 一种压电陶瓷驱动器的自适应学习控制方法 |
CN105228158A (zh) * | 2015-11-11 | 2016-01-06 | 国家电网公司 | 基于强化学习的认知无线网络协作节点选择方法 |
CN106338919A (zh) * | 2016-11-02 | 2017-01-18 | 哈尔滨工程大学 | 基于增强学习型智能算法的无人艇航迹跟踪控制方法 |
CN108008627A (zh) * | 2017-12-13 | 2018-05-08 | 中国石油大学(华东) | 一种并行优化的强化学习自适应pid控制方法 |
Non-Patent Citations (4)
Title |
---|
Adaptive low-level control of autonomous underwater vehicles using deep reinforcement learning;Ignacio Carlucho 等;《Robotics and Autonomous Systems》;20180615;第71-86页 * |
Two-step gradient-based reinforcement learning for underwater robotics behavior learning;Andres El-Fakdi 等;《Robotics and Autonomous Systems》;20121223;第271-282页 * |
基于执行器_评价器学习的自适应PID控制;陈学松 等;《控制理论与应用》;20110815;第28卷(第8期);第1187-1192页 * |
增强学习算法的性能测试与对比分析;李兆斌 等;《计算机应用研究》;20101015;第27卷(第10期);第3662-3666页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107346138A (zh) | 2017-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107346138B (zh) | 一种基于增强学习算法的无人船侧向控制方法 | |
Chen et al. | Tracking control of surface vessels via fault-tolerant adaptive backstepping interval type-2 fuzzy control | |
Peng et al. | Robust adaptive formation control of underactuated autonomous surface vehicles with uncertain dynamics | |
Zhang et al. | Adaptive output feedback control based on DRFNN for AUV | |
CN107255923B (zh) | 基于rbf辨识的ica-cmac神经网络的欠驱动无人艇航迹跟踪控制方法 | |
CN101833338B (zh) | 无人潜航器垂直面欠驱动运动控制方法 | |
Jiang et al. | Identification modeling and prediction of ship maneuvering motion based on LSTM deep neural network | |
Ekinci et al. | Predictions of oil/chemical tanker main design parameters using computational intelligence techniques | |
CN107179693A (zh) | 基于Huber估计的鲁棒自适应滤波和状态估计方法 | |
CN111913175A (zh) | 一种传感器短暂失效下带补偿机制的水面目标跟踪方法 | |
CN107255920A (zh) | 基于网络优化算法的pid控制方法和装置及系统 | |
Tu et al. | Adaptive dynamic positioning control for accommodation vessels with multiple constraints | |
Liu et al. | Deep reinforcement learning for vectored thruster autonomous underwater vehicle control | |
Jing et al. | Self-tuning adaptive active disturbance rejection pitch control of a manta-ray-like underwater glider | |
Zheng et al. | DDPG based LADRC trajectory tracking control for underactuated unmanned ship under environmental disturbances | |
Li et al. | Adaptive RBF neural network control for unmanned surface vessel course tracking | |
CN110687798B (zh) | 一种基于滑模量化输出反馈的自适应容错控制方法 | |
CN114715331B (zh) | 一种浮式海洋平台动力定位控制方法及系统 | |
Numakura et al. | FAD learning: Separate learning for three accelerations-learning for dynamics of boat through motor babbling | |
Ye et al. | A modified predictive PID controller for dynamic positioning of vessels with autoregressive model | |
Yan et al. | Differential evolution algorithm-based iterative sliding mode control of underactuated ship motion | |
Bańka et al. | A comparative and experimental study on gradient and genetic optimization algorithms for parameter identification of linear MIMO models of a drilling vessel | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
Xu | USV course controller optimization based on elitism estimation of distribution algorithm | |
Guo et al. | Adaptive control of an autonomous underwater vehicle testbed using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |