CN103645635A

CN103645635A - 一种基于模拟退火-强化学习算法的船舶运动控制器

Info

Publication number: CN103645635A
Application number: CN201310594889.6A
Authority: CN
Inventors: 刘雨
Original assignee: DALIAN HAILINK AUTOMATION Co Ltd
Current assignee: DALIAN HAILINK AUTOMATION Co Ltd
Priority date: 2013-11-25
Filing date: 2013-11-25
Publication date: 2014-03-19

Abstract

本发明针对船舶运动控制与航行的安全性、可操纵性和经济性，基于模拟退火-强化学习算法提出一种混合智能控制器，应用于船舶运动航向控制中。这种混合智能控制器发挥了各种智能算法的优势，能够克服风、浪、流等外界的干扰，船舶操纵自身的不确定性，以及干扰或仪器测量误差情况下，精确的训练数据不容易得到的缺陷。

Description

一种基于模拟退火-强化学习算法的船舶运动控制器

为解决上述技术问题，本发明的技术方案是：

由于模糊逻辑的知识表达和推理能力，以及神经网络的知识获取、学习及适应、非线性映射与容错能力，模糊神经网络在许多领域得到了广泛的应用。本发明选用了一种ANFIS 类型的模糊神经网络。

模拟退火(Simulated Annealing, SA)是近年来提出的一种适合解大规模组合优化问题的有效优化算法，是一种模仿金属退火物理过程的优化算法。SA 具有描述简单、使用灵活、运用广泛、运行效率高和较少受初始条件限制等优点，而且特别适合并行计算，具有较高的实用价值。本文采用模拟退火法来对模糊神经网络进行在线学习。但这种在线学习的算法，需要提供准确的训练数据。在存在干扰或仪器测量误差情况下（在测量仪表部分故障情况下，测量误差甚至可达到被测量相同量级），精确的训练数据是不容易得到的。在这种情况下，强化学习算法显示出其独特的优势。强化学习只需具有非常简单的“可估计的”或“临界的”信息，在极端情况下，只要单个位的信息以表明输出是正确还是错误的即可，这一点在精确数据不易得到的船舶运动控制中是很有意义的。利用强化学习对控制器参数进行在线调整，只需对当前控制效果提供诸如好、一般、差等模糊信息，既可以满足控制的实时性要求，又可以在一定程度上改善船舶控制效果。

本发明提出的基于模拟退火-强化学习算法的混合智能控制器的控制结构框图如图 1 所示。图 1 中，评价网络为一个普通的五输入单输出的三层前向神经网络，动作网络为一个双输入单输出的 ANFIS 类型的模糊神经网络，其结构框图如图 2 所示。动作网络根据每时刻输入计算出一个计算舵

角，加上通过评价网络算出的强化信号得到的舵角修正值，就得到实际舵角。

整个控制系统实际上存在了两个闭环，一个闭环是：动作网络 →δ_r→ 船舶→ ψ, γ→动作网络；另一个闭环是：评价网络 → Δδ →船舶→ r →评价网络。评价网络既是δr →r的动态预报器，同时也是一种附加反馈控制器。

1 强化信号

所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大。本文采用的强化学习算法为自适应启发评价算法。

强化信号通常有 3 种表达方式：二值，离散多值，连续值。二值只能以-1和0简单的描述成功或失败；离散多值，通常取某个区间，如[−1,1]内的多个离散值，这样可以通过多个值更详细，准确的描述成功或失败的程度；连续值，通常是可以在某个连续区间如 [−1,1]内连续变化，这样就比离散多值更加详细，准确描述成败的程度，通常数值越大，效果越好。

2 评价网络

评价网络的作用主要有两个：第一，计算出预测强化信号p(t)，从而得出对动作网络的输出δ(t)的矫正量，最终影响作用于船舶的舵令；第二，根据预测强化信号p(t)与实际强化信号r(t)，通过BP算法修正评价网络的权值。预测强化信号p(t)是根据t时刻系统的输入信息对t+1时刻船舶可能的运行状态的预估，这样就可以使动作网络的输出δ(t)提前进行修正，从而改善船舶航行的控制效果。

3 动作网络

动作网络为一个双输入单输出的ANFIS类型的模糊神经网络，采用模拟退火法进行参数修正，使现在系统的状态映射为输出舵角δ控制船舶运行，网络结构如图2所示。ANFIS 的后件参数 p, q, γ,i=1,2,…,9，初始化时取为0到1之间的随机数，在闭环系统的仿真运行中进行实时模拟退火优化。

4 模拟退火算法

模拟退火算法是近年来提出的一种适合解大规模组合优化问题的有效优化算法，是一种模仿金属退火物理过程的优化算法，不但可用于解大型组合优化问题，而且可用于求解连续非线性优化问题。具有描述简单、使用灵活、运用广泛、运行效率高和较少受初始条件限制等优点，而且特别适合并行计算，具有较高的实用价值。本发明采用的是改进的SA算法。

模拟退火算法程序的伪代码如下：

Simulated Annealing

Initial (θ₀ _， t₀，L0)；

While (StopCircle)

{for l =1 to L_K

{Generate(Qj，fromS_i)；

if J (Q_j)≤ J(Q_i) then Q_i=Q _j；

else if exp(t_kJ(Q_j)J(Q_i)≥random(0,1)；

then Q= Q；

}

k = k+1；

Length (L_k)；

Control(t_k)；

}

与现有技术相比，本发明的有益效果是：

1）、本发明的控制器经过仿真验证表明，当存在风浪干扰海况下，船舶航向的控制仍能取得令人满意的效果。

2）、该控制器不需要有大量准确样本数据，又能满足控制的实时性要求，能够在一定程度上改善控制效果。

3）、模拟退火是近年来提出的一种适合解大规模组合优化问题的有效优化算法；强化学习只需具有非常简单的“可估计的”或“临界的”信息，在极端情况下，只要单个位的信息以表明输出是正确还是错误的即可，这符合人类或其它生物的学习过程，与智能控制的宗旨是一致的，对控制问题的

适用范围也较其它方法更广泛。

Claims

1.一种基于模拟退火-强化学习算法的船舶运动控制器包含以下几个部分：

由于模糊逻辑的知识表达和推理能力，以及神经网络的知识获取、学习及适应、非线性映射与容错能力，模糊神经网络在许多领域得到了广泛的应用；本发明选用了一种ANFIS 类型的模糊神经网络；模拟退火(Simulated Annealing, SA)是近年来提出的一种适合解大规模组合优化问题的有效优化算法，是一种模仿金属退火物理过程的优化算法；SA 具有描述简单、使用灵活、运用广泛、运行效率高和较少受初始条件限制等优点，而且特别适合并行计算，具有较高的实用价值；本文采用模拟退火法来对模糊神经网络进行在线学习；但这种在线学习的算法，需要提供准确的训练数据；在存在干扰或仪器测量误差情况下（在测量仪表部分故障情况下，测量误差甚至可达到被测量相同量级），精确的训练数据是不容易得到的；在这种情况下，强化学习算法显示出其独特的优势；强化学习只需具有非常简单的“可估计的”或“临界的”信息，在极端情况下，只要单个位的信息以表明输出是正确还是错误的即可，这一点在精确数据不易得到的船舶运动控制中是很有意义的；利用强化学习对控制器参数进行在线调整，只需对当前控制效果提供诸如好、一般、差等模糊信息，既可以满足控制的实时性要求，又可以在一定程度上改善船舶控制效果。