CN107346138B

CN107346138B - 一种基于增强学习算法的无人船侧向控制方法

Info

Publication number: CN107346138B
Application number: CN201710458496.0A
Authority: CN
Inventors: 赵东明; 周浩; 朱楷; 柳欣
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2020-05-05
Anticipated expiration: 2037-06-16
Also published as: CN107346138A

Abstract

本发明公开了一种基于增强学习算法的无人船侧向控制方法，建立无人船行驶的动力学模型，采用简化的船体‑路径一体化模型；根据无人船侧向控制性能的要求，选择无人船侧向控制器的设计方案；无人船侧向控制器中增强学习控制器采用Actor‑Critic结构，分为执行器网络和评价器网络；设计无人船的侧向偏差参考模型；通过对性能指标的优化，实现系统状态或输出对参考模型状态的跟随，进而保证了系统的性能优化。本发明的优点在于：增强学习基于动物学习心理学的“试误法”原理，使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化，从而可以用于解决某些监督学习难以应用的优化控制问题。

Description

一种基于增强学习算法的无人船侧向控制方法

技术领域

本发明涉及无人艇控制技术领域，具体涉及一种基于增强学习算法的无人船侧向控制方法。

背景技术

海底地形地貌是一切海洋开发和利用活动的基础，其信息获取是海洋测绘中最基础的工作。近年来，随着卫星导航定位、声学探测、数据通讯、计算机数据处理与可视化、图像学和图形学以及现代测量数据处理理论和方法等相关领域的发展，我国的海底地形地貌信息获取技术正在向高精度、高分辨率、自主集成、综合化和标准化方向发展。

无人船是一种多用途的观测平台。可搭载多种海洋测量传感器用于实施多种专业测量，无人水面测量船作为一种执行实时、无人、自动测量的综合作业平台，将测量人员从繁重的水下地形测量工作中解脱出来、是现代海洋测量技术装备发展的必然趋势。

无人船需要在复杂的海洋环境中自主航行和作业，因此无人船对操纵性、控制性能和可靠性均提出了更为苛刻的要求。为了保证无人船安全、可靠、自主地完成各种复杂任务，这就要求自主地完成各种复杂任务，这就要求它具备灵活机动性和环境适应能力，为了更好的完成任务就需要研究更加先进的无人船智能运动控制技术。

发明内容

本发明的目的就是要针对现有装置的不足，其能够优化无人船侧向控制器的设计，提高无人船的控制性能，获得更好的控制效果。

为实现上述目的，本发明所涉及的一种基于增强学习算法的无人船侧向控制方法，包括如下步骤：

步骤1：建立无人船行驶的动力学模型，采用简化的船体-路径一体化模型；

步骤2：根据无人船侧向控制性能的要求，选择无人船侧向控制器的设计方案；

步骤3：无人船侧向控制器中增强学习控制器采用Actor-Critic结构，分为执行器网络和评价器网络；

步骤4：设计无人船的侧向偏差参考模型；

步骤5：通过对性能指标的优化，实现系统状态或输出对参考模型状态的跟随，进而保证了系统的性能优化。

进一步地，所述步骤1：

采用如下简化的船体-路径一体化模型：

其中：y为路径跟踪的侧向偏差，θ为方向角偏差，即船体的纵轴方向与期望路径切线方向的偏差；a(t)为转向舵偏角，a_c(t)为转向舵偏角的控制量；τ_a(t)为方向控制的时间常数；ρ为路径曲率。

更进一步地，所述步骤2：

所述基于增强学习的自适应PID控制律具有如下形式：

其中：k_p0，k_a0，k_D和k_I为固定增益常数，根据手工调整的PID参数设定；△k_a，△k_p为执行器神经网络的输出。

进一步地，所述步骤3：

所述评价器网络采用CMAC网络，第一层特征映射Cqⁿ→f₁是由输入状态空间到状态空间检测器的层叠式编码映射，在状态空间检测器中有C个针对整个状态空间量化编码结构C₁,C₂,C₃,……,C_C，第二层状态特征映射f₂对每个状态检测器单元计算唯一的物理地址，此时需要的物理地址单元总数为Cqⁿ，最后一层映射为输出映射，该映射通过对被激活的物理地址单元中的权值求和来计算输出，学习算法采用TD(λ)学习算法，选择算法的关键参数折扣因子和适合度轨迹参数；

更进一步地，所述步骤3：

所述执行器网络采用两个多层前馈神经网络，采用高斯行为分布来确定实际控制量，多维高斯分布进行执行器网络输出的随机探索：

其中：

为多个执行器网络输出构成的向量；σ为行为探索的方差，仍然由如下公式决定：

其中：V(△y)为评价器对当前状态的值函数估计；σ₁，σ₂为常数，

进一步地，所述步骤3：

所述执行器网络的学习算法采用如下近似策略梯度估计算法：

其中：

称为内部回报，由评价器的时域差值信号来提供，即：

更进一步地，所述步骤4：

为实现路径跟踪性能的优化，考虑采用如下形式的侧向偏差性能参考模型：

其中：b>0为常数。

进一步地，所述步骤4中：

所述参考模型的基础上，对回报函数的设计如下：

其中：e₁、e₂和c为常数，且0≤e₂≤e₁；k<0为回报比例系数。

更进一步地，所述步骤5：

在设计具有期望性能的参考模型的基础上，对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能，通常可以采用如下的跟随误差线性函数形式：r_t＝c|△y|

其中：c为比例系数，可以为常数或分段常数，

由于采用了Actor-Critic结构，则增强学习控制器的优化目标是下面的折扣回报指标：

其中：γ为折扣因子，通常选择为接近1的常数，

通过对性能指标J的优化，实现系统状态或输出对参考模型状态的跟随，进而保证了系统的性能优化。

本发明的优点在于：增强学习基于动物学习心理学的“试误法”原理，使得无人船能够在与环境的交互过程中根据评价性的反馈信号实现序贯决策的优化，从而可以用于解决某些监督学习难以应用的优化控制问题。

附图说明

图1为本发明中自适应PID控制器的结构图；

图2为Actor-Critic结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述：

如图1～2，一种基于增强学习算法的无人船侧向控制方法，包括如下步骤：

步骤1：建立无人船行驶的动力学模型，采用如下简化的船体-路径一体化模型：

其中：y为路径跟踪的侧向偏差，θ为方向角偏差，即船体的纵轴方向与期望路径切线方向的偏差；a(t)为转向舵偏角，a_c(t)为转向舵偏角的控制量；τ_a(t)为方向控制的时间常数；ρ为路径曲率；

步骤2：根据无人船侧向控制性能的要求，选择无人船侧向控制器的设计方案，基于增强学习的自适应PID控制律具有如下形式：

其中：k_p0，k_a0，k_D和k_I为固定增益常数，根据手工调整的PID参数设定；△k_a，△k_p为执行器神经网络的输出；

评价器网络采用CMAC网络，第一层特征映射Cqⁿ→f₁是由输入状态空间到状态空间检测器的层叠式编码映射，在状态空间检测器中有C个针对整个状态空间量化编码结构C₁,C₂,C₃,……,C_C，第二层状态特征映射f₂对每个状态检测器单元计算唯一的物理地址，此时需要的物理地址单元总数为Cqⁿ，最后一层映射为输出映射，该映射通过对被激活的物理地址单元中的权值求和来计算输出，学习算法采用TD(λ)学习算法，选择算法的关键参数折扣因子和适合度轨迹参数；

执行器网络采用两个多层前馈神经网络，采用高斯行为分布来确定实际控制量，多维高斯分布进行执行器网络输出的随机探索：

其中：

学习算法采用如下近似策略梯度估计算法：

其中：

称为内部回报，由评价器的时域差值信号来提供，即：

步骤4：设计无人船的侧向偏差参考模型，为实现路径跟踪性能的优化，考虑采用如下形式的侧向偏差性能参考模型：

其中：b>0为常数；

在参考模型的基础上，对回报函数的设计如下：

其中：e₁、e₂和c为常数，且0≤e₂≤e₁；k<0为回报比例系数；

步骤5：在设计具有期望性能的参考模型的基础上，对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能，通常可以采用如下的跟随误差线性函数形式：r_t＝c|△y|

其中：c为比例系数，可以为常数或分段常数，

其中：γ为折扣因子，通常选择为接近1的常数，

通过对性能指标J的优化，可以实现系统状态或输出对参考模型状态的跟随，进而保证了系统的性能优化。

本发明实际使用时：

对于无人船的侧向控制问题，基于增强学习的自适应PID控制律具有如下形式：

其中：k_p0，k_a0，k_D和k_I为固定增益常数，根据手工调整的PID参数设定；△k_a，△k_p为执行器神经网络的输出，分别用于对方向角偏差和侧向偏差的比例增益进行自适应调整。

基于上述自适应PID控制律，增强学习控制器由一个评价器网络和一个执行器网络构成。

评价器网络的输入为系统的状态，包括：侧向偏差y及其变化率

方向角偏差θ及其变化率

输出为系统的状态值函数估计。评价器网络采用CMAC网络，其结构参数如下：泛化参数C＝4，每个输入的量化等级M＝7，经过Hash映射后的物理地址空间大小N＝100。学习算法采用TD(λ)算法，有关参数如下：折扣因子γ＝0.95，适合度轨迹参数λ＝0.6。

执行器网络的输入与评价器相同，输出用于确定PID控制器的可变增益，采用两个多层前馈神经网络，中间层节点数为6。△k_a，△k_p由高斯分布进行行为探索，高斯分布的均值由执行器网络输出确定。设两个执行器网络的输出分别为z₁，z₂(0≤z₁,z₂≤1)，则△k_a，△k_p的均值由如下公式决定：

其中：U_△p，U_△a分别可变增益k_p，k_a的变化范围。

其中：b>0为常数。以上参考模型对侧向偏差的变化给出了一种指数收敛的性能指标曲线，适当地选择常数b可以进一步对系统性能进行优化。

在设计了参考模型的基础上，对回报函数的设计如下：

其中：e₁、e₂和c为常数，且0≤e₂≤e₁；k<0为回报比例系数。以上回报函数的设计使为了尽量是系统侧向偏差的变化接近给定的参考模型，即具有指数收敛的性能。

根据技术方案的步骤5，基于增强学习的自适应PID控制器的算法描述：

给定回报函数r(△y)，由执行器网络和评价器网络构成的增强学习控制器，单次运行的时间长度T。

1、初始化学习控制器的参数，包括神经网络的权值，折扣因子γ，时域差值学习算法的有关控制参数(λ，p₀或α)，执行器网络的学习因子β，评价器网络权值的适合度轨迹向量，学习次数n＝0。

2、循环，直到满足算法停止的条件。

(1)初始化控制对象的状态，控制时间步t＝0。

(2)根据当前的控制对象状态和参考模型状态，计算模型跟随误差；

(3)根据当前时刻的模型跟随误差△y_t，计算执行器网络输出

和评价网络的输出V(△y_t)；

(4)计算实际的PID参数整定△K(t)，从而计算PID控制器的控制量输出u；

(5)将输出u作用于控制对象，观测下一采样时刻的对象状态和参考模型状态，计算新的模型跟随误差，同时计算回报函数r_t；

(6)对评价器网络的权值，利用TD(λ)算法进行时域差值学习，对执行器网络，计算策略梯度估计，进行权值的迭代；

(7)t＝t+1,若t＝T,则n＝n+1,返回b),否则，返回c)。

上述算法停止的准则可以选择为系统性能指标达到给定要求或学习次数达到给定的最大值。

最后，应当指出，以上实施例仅是本发明较有代表性的例子。显然，本发明不限于上述实施例，还可以有许多变形。凡依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应认为属于本发明的保护范围。

Claims

1.一种基于增强学习算法的无人船侧向控制方法，其特征在于：包括如下步骤：

步骤1：建立无人船行驶的动力学模型，采用简化的船体-路径一体化模型；所述采用如下简化的船体-路径一体化模型：

步骤2：根据无人船侧向控制性能的要求，选择无人船侧向控制器的设计方案；所述基于增强学习的自适应PID控制律具有如下形式：

步骤3：无人船侧向控制器中增强学习控制器采用Actor-Critic结构，分为执行器网络和评价器网络；所述执行器网络采用两个多层前馈神经网络，采用高斯行为分布来确定实际控制量，多维高斯分布进行执行器网络输出的随机探索：

其中：

称为内部回报，由评价器的时域差值信号来提供，即：

其中：γ为折扣因子；

步骤4：设计无人船的侧向偏差参考模型；为实现路径跟踪性能的优化，考虑采用如下形式的侧向偏差性能参考模型：

其中：b>0为常数；

所述参考模型的基础上，对回报函数的设计如下：

步骤5：通过对性能指标的优化，实现系统状态或输出对参考模型状态的跟随，进而保证了系统的性能优化，在设计具有期望性能的参考模型的基础上，对回报函数的设计需要考虑系统状态或输出对参考模型的跟随性能，通常可以采用如下的跟随误差线性函数形式：

r_t＝c|△y|

其中：c为比例系数，可以为常数或分段常数，γ_t为回报函数，

其中：γ为折扣因子，通常选择为接近1的常数，

2.根据权利要求1所述的一种基于增强学习算法的无人船侧向控制方法，其特征在于：所述步骤3：

所述评价器网络采用CMAC网络，第一层特征映射Cqⁿ→f₁是由输入状态空间到状态空间检测器的层叠式编码映射，在状态空间检测器中有C个针对整个状态空间量化编码结构C₁,C₂,C₃,……,C_C，第二层状态特征映射f₂对每个状态检测器单元计算唯一的物理地址，此时需要的物理地址单元总数为Cqⁿ，最后一层映射为输出映射，该映射通过对被激活的物理地址单元中的权值求和来计算输出，学习算法采用TD(λ)学习算法，选择算法的关键参数折扣因子和适合度轨迹参数。