CN108181900A

CN108181900A - 一种基于增强学习智能算法的航海船舶运动控制方法

Info

Publication number: CN108181900A
Application number: CN201711426992.4A
Authority: CN
Inventors: 袁银龙; 俞祝良
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-19
Anticipated expiration: 2037-12-26
Also published as: CN108181900B

Abstract

本发明公开了一种基于增强学习智能算法的航海船舶运动控制方法，包括：利用多模态传感器采集船舶的各类重要数据；对获取的数据信息进行滤波及融合处理，得到满足精度要求的各种状态数据，包括：船舶的姿态信息，船舶实际位置、船舶速度、海面风速、洋流速度等；通过评估函数对实际状态数据进行评估，得到当前时刻的奖赏值；通过增强学习智能算法不断的学习，最终得到在不同的环境状态条件下船舶的运动控制规律。本发明船舶运动控制方法，是不依赖于环境模型的一种优化算法，相比较传统的运动控制算法，控制更加灵活，并且可以在使用中持续优化学习。

Description

一种基于增强学习智能算法的航海船舶运动控制方法

技术领域

本发明涉及航海航舶领域，具体涉及一种基于增强学习智能算法的航海船舶运动控制方法。

背景技术

随着世界经济贸易的繁荣，船舶在运输过程中起着越来越重要的作用，但是其高能耗也限制着船舶的长距离运输的发展。据测算，航运企业燃油成本占总运营成本的40％左右。一个大的船舶企业一年的燃油费用可达几十甚至上百亿。船舶在航行前要制定航行计划，并随着实时条件变化调整；但影响船舶节能减排的因素多达40多个，关系错综复杂，而对船舶实时的有效的动态控制是其中一项最重要的关键点。

船舶在航行过程中环境变化多端，控制系统要处理各种各样的环境外力影响，在此过程中保持运动控制系统实时有效的做出控制命令显得很有必要。增强学习是当今人工智能领域研究的热点之一，当外界环境模型复杂难以建立时，该算法依旧可以使得交互式代理学习得到最优的控制规律。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于增强学习智能算法的航海船舶运动控制方法，使船舶能够在复杂环境下自适应节能航行，并且不依赖于外部环境模型。

本发明采用如下技术方案：

一种基于增强学习智能算法的航海船舶运动控制方法，包括如下步骤：

S1船舶上安装多模态传感器，周期性采集当前t时刻的传感器数据信息；

S2对传感器数据信息，进行滤波及归一化处理，归一化后处理后的环境状态信息为：

式中，c_t为当前t时刻的船舶姿态信息，p_t为当前t时刻的船舶实际位置信息，为当前t时刻的船舶速度信息，为当前t时刻的海面风速信息，为当前t时刻的洋流速度信息，σ_t为其他多模态传感器的数据；

S3根据动作-状态值函数Q(S_t,aθ)得到当前时刻t的运动控制动作a_t；

S4执行S3得到的动作a_t，得到t+1时刻的状态数据信息

S5通过评估函数对t+1时刻状态数据进行评估，得到当前时刻的奖赏值：

R_t+1＝f(S_t+1)

式中，函数f是自定义的评价函数；

S6通过最小化损失函数L(θ)来更新网络参数θ：

其中γ为折扣因子；

S7循环迭代上述步骤，直到网络参数θ达到收敛，即网络参数达到稳定，终止。

所述运动控制动作a_t：

a_t＝argmax_aQ(S_t,a|θ)。

本发明的有益效果：

本发明应用于种复杂的航海环境，是一种自主学习的控制系统。

附图说明

图1是本发明一种基于增强学习智能算法的航海船舶运动控制方法。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，一种基于增强学习智能算法的航海船舶运动控制方法，包括如下步骤：

S1船舶上相应位置安装多模态传感器，周期性的采集船舶及周围行驶环境的数据信息，所述数据信息包括船舶的姿态信息，船舶实际位置、船舶速度、海面风速、洋流速度等。

S2对获取的传感器数据信息进行滤波及融合处理，得到满足精度要求的各种状态数据，归一化处理后的环境状态信息为：

S3根据动作-状态值函数Q(S_t,aθ)得到当前时刻t的运动控制动作a_t，其计算公式为：

a_t＝argmax_aQ(S_t,a|θ)；

S4执行S3得到的动作a_t，得到t+1时刻的状态数据信息

R_t+1＝f(S_t+1)

式中，函数f是自定义的评价函数，其目的是为了评估当前环境下控制策略的好坏程度。

S6根据S2、S3、S4及S5检测得到的数据信息，通过最小化损失函数L(θ)来更新网络参数θ：

其中γ为折扣因子；

S7通过增强学习智能算法不断的学习动作-状态值函数Q(S,a)，通过迭代循环最终得到稳定的动作-状态值函数，则满足条件，终止。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于增强学习智能算法的航海船舶运动控制方法，其特征在于，包括如下步骤：

S3根据动作-状态值函数Q(S_t,a|θ)得到当前时刻t的运动控制动作a_t；

S4执行S3得到的动作a_t，得到t+1时刻的状态数据信息

R_t+1＝f(S_t+1)

式中，函数f是自定义的评价函数；

S6通过最小化损失函数L(θ)来更新网络参数θ：

其中γ为折扣因子；

2.根据权利要求1所述的航海船舶运动控制方法，其特征在于，所述运动控制动作a_t：

a_t＝arg max_aQ(S_t,a|θ)。