CN110045614A

CN110045614A - 一种基于深度学习的绞吸船横移过程自学习控制系统及方法

Info

Publication number: CN110045614A
Application number: CN201910408969.5A
Authority: CN
Inventors: 魏长赟; 陈秀静; 倪福生; 蒋爽; 顾磊; 李洪彬; 刘增辉
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-07-23

Abstract

本发明涉及一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法，所述系统包括：离线学习模块和在线学习模块；离线学习模块是指根据实际施工采集的数据，利用深度神经网络模型来构建虚拟的横移过程仿真环境，采用基于深度确定性策略梯度模型，构建粗略的先验控制模型经验库；在线学习模块是指利用深度确定性策略梯度控制模型，直接对真实的绞吸挖泥船横移过程进行自学习控制，对离线学习模块构建的先验控制模型经验库进行完善和更新。本发明不仅能够使横移过程控制更加智能化，而且操作过程更简单、灵活性较好、可快速寻优。

Description

一种基于深度学习的绞吸船横移过程自学习控制系统及方法

技术领域

本发明涉及智能化船舶控制领域，公开了一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法。

背景技术

挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中，绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时，横移切削过程受土质、环境、工况等复杂因素影响，难以用准确的数学模型表达其控制过程。疏浚作业时，横移切削是最为频繁的操作步骤，目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定，操作人员需要根据长期疏浚作业积累的经验来操作横移手柄，调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大，另外，疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法，其不仅能够使得横移控制更加智能化，而且控制过程更简单、灵活性高、寻优效率高。

本发明的目的通过如下技术方案实现：

本发明提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统，系统包括：离线学习模块和在线学习模块；

所述的离线学习模块是指根据实际施工采集的数据，利用深度神经网络模型来构建虚拟的横移过程，采用基于深度确定性策略梯度，构建粗略的先验控制模型经验库。

所述的在线学习模块是指利用深度确定性策略梯度控制模型，直接对真实的绞吸挖泥船横移过程进行自学习控制，对离线学习模块构建的先验控制模型经验库进行完善和更新。

一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，包括如下步骤：

Step1，收集并分析绞吸挖泥船的实际施工数据，构成基于深度确定性策略梯度的横移过程离线学习的原始数据；分析原始数据，挑选其中对横移过程具有影响的参数组成多元的训练数据组；

Step2，利用深度神经网络模型，建立虚拟的绞吸挖泥船横移过程；

Step3，构建深度确定性策略梯度的横移过程控制模型，并设置离线学习控制模块中的主要参数；主要参数包括动作空间、奖惩函数、动作网络；

Step4，对深度确定性策略梯度的横移过程控制模型进行离线训练和学习，得到粗略的先验控制模型经验库，供在线学习模块使用；

Step5，读取离线学习模块中的先验控制模型经验库、动作空间、奖惩函数；

Step6，与实际绞吸挖泥船连接，用于进行实船无人施工；

Step7，构建深度确定性策略梯度的横移过程控制模型，在实际的横移过程环境中进行自学习控制；

Step8，在线学习的同时，更新先验控制模型经验库，如此不断循环。

更优选地，所述步骤step1中横移过程每个时刻的状态量包含多个参数：绞刀电机电流/电机电压、吸入真空、泥浆浓度；而动作量为横移速度。

更优选地，所述步骤step2中横移的深度神经网络模型是指利用深度神经网络模型建立虚拟横移过程，该网络模型可以较好地表示横移过程中状态的跳转情况，即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作，来对当前时刻横移过程状态进行状态转移。

更优选地，所述步骤step3中主要参数包括：动作空间、奖惩函数、动作网络；

所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围；

更优选地，所述横移过程的动作空间设置为[-1，1]，其含义是：负表示在当前横移速度的基础上降低一定数值；正表示增加一定数值。锁定了横移速度的边界值，即当横移速度在边界处，其动作空间会发生变化。此外，还定义了不同运动步长的控制指令，使得环境状态能稳定在预期目标状态附近。

更优选地，所述横移过程的动作空间用下式表示：

其中，V_s为横移速度(单位：m/min)；C_w为泥浆浓度(单位:％)。

所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值，奖惩函数的输出端连接价值网络的输入端；所述奖惩函数根据横移过程的优化目标进行设定。

更优选地，所述横移过程的优化目标包括：泥浆浓度小于53％，且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A。

更优选地，所述奖惩函数可用下式表示：

总奖惩值：

其中，r为奖惩值；I_d为绞刀电机电流(单位：A)；P_v为吸入真空(单位：bar)；C_w为泥浆浓度(单位:％)。

更优选地，所述的动作网络，动作网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。

更优选地，所述步骤step4具体包括：

动作网络根据输入的横移过程状态，通过神经网络得到当前状态下最优的动作，然后横移速度变化，动作网络可选择的动作范围由环境模型中的动作空间确定，动作网络选择的最优动作反馈给环境模型；

横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作，来进行状态转移，同时根据奖惩函数算出奖惩值，并将该奖惩值和改变后的状态信息反馈给动作网络，用于输出动作，并更新动作网络；

如此不断迭代进行训练和学习，最终使得深度确定性策略梯度模型得以收敛。

所述的在线学习模块，其具体包括：首先，读取离线学习中的控制经验库、动作空间、奖惩函数；然后，在实际的横移过程环境中进行自学习控制，即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络，动作网络根据输入的状态信息输出最优的横移动作；接着，将该动作作用于横移过程；最后，更新控制经验库。如此不断循环，最终使得挖泥船产量高且工作稳定。

更优选地，所述动作网络具体包括：

深度确定性策略梯度的横移过程控制模型中的动作网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。

由上述本发明的技术方案可以看出，本发明具有如下技术效果：

(1)其结合了深度学习和强化学习的优势，仅需要环境模型的信息进行自学习的模型训练，极少依赖人工经验；

(2)深度确定性策略梯度模型中的深度神经网络具有极强的状态表征能力，在不同横移状态下的适应性更强；

(3)深度确定性策略梯度模型可根据横移过程控制优化目标来涉及奖惩函数，能够满足多目标优化复杂问题的需求，其奖惩函数的涉及具有较强的灵活性；

(4)通过训练好的深度确定性策略梯度的横移过程控制模型进行横移智能控制应用，只需要根据实际的横移过程环境状态信息输入到训练好的深度确定性策略梯度的横移过程控制模型中，即可获得当前最优横移动作，使得横移过程更加智能化。

附图说明

图1为本发明中的一种基于深度确定性策略梯度的绞吸挖泥船横移过程自学习控制方法的基本结构图；

图2为本发明中的基于深度确定性策略梯度的绞吸挖泥船横移过程离线学习和在线学习的结构框图。

具体实施方式

以下将结合附图对本发明的技术方案做进一步详细说明。

本发明提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统，其系统包括：离线学习模块和在线学习模块；

所述的在线学习模块是指利用深度确定性策略梯度控制模型，直接对真实的绞吸挖泥船横移过程进行自学习控制，对先验控制模型经验库进行完善和更新。

一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其步骤如下：

Step6，与实际绞吸挖泥船连接，用于进行实船无人施工；

其中，step2所述的横移的深度神经网络模型利用深度神经网络模型建立虚拟横移过程，该网络模型可以较好地表示横移过程中状态的跳转情况，即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作，来对当前时刻横移过程状态进行状态转移。

横移过程状态是由状态量和横移速度共同决定的，所以状态转移时，用前一时刻的状态值和当前时刻的横移速度，来得到下一时刻的横移状态信息，从而实现状态转移功能并将转移后的状态信息反馈给横移过程中的价值网络。

所述步骤step3中主要参数包括：动作空间、奖惩函数、动作网络；

所述的动作空间，用于根据当前横移过程状态信息和实际操作中动作的最大范围确定可供智能体选择的动作范围。

其中，动作是指智能体在某个状态下可进行的操作，本发明中横移速度即为动作。横移速度在实际作业中有操作人员通过手柄进行操作，其最大可调范围为[0，18]，当前一时刻的横移速度过小时，则不再适合选择降低横移速度；反之，则不再适合选择增加横移速度。所以需结合状态信息，确定智能体的动作范围。

因此，动作空间设置为[-1，1]，其含义是：负表示在当前横移速度的基础上降低一定数值；正表示增加一定数值。锁定了横移速度的边界值，即当横移速度在边界处，其动作空间会发生变化。此外，还定义了不同运动步长的控制指令，使得环境状态能稳定在预期目标状态附近。

具体地，本发明以一个具体绞吸挖泥船工作环境设定的动作空间用下式表示：

其中，V_s为横移速度(单位：m/min)；C_w为泥浆浓度(单位：％)。

所述的奖惩函数，是由横移过程的优化目标确定的。利用设定的奖惩函数计算奖惩值，以判断此时动作网络输出的动作是好是坏。若为奖，则动作网络会增加选择该动作的概率；反之，则会降低其概率。

奖惩函数的确定在整个深度确定性策略梯度的横移过程模型的训练和学习中至关重要，直接影响到学习的最后结果，具体确定奖惩函数时遵循的原则是当横移过程中状态达到优化目标时，计算出一个奖赏值；反之，则为惩罚值。奖惩函数可以通过多种形式表达，其计算结果用于更新动作网络。动作网络则根据奖惩值进行参数调整，直到学习训练结束。本发明中，横移过程的优化目标是泥浆浓度小于53％，且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A。

具体地，本发明以一个具体绞吸挖泥船工作环境设定奖惩函数如下：

总奖惩值：

本奖惩函数只针对此种绞吸挖泥船工作环境下，若是其他条件下可适当调整奖惩函数。

所述的动作网络，用于抽象横移过程状态信息，并选择最优的横移速度，并将选择的最优横移速度反馈给横移过程环境模型。动作网络抽象出的状态信息和对应的动作价值越大，则对应的动作越优。因此，可以根据每个横移速度的动作价值大小，选择动作价值最大的横移速度作为最优横移速度。

通过动作网络不断将选择到的最优动作反馈到横移过程环境模型中，从而实现动作网络与横移过程环境模型不断迭代训练，使得模型学习到最优的横移过程控制。

动作网络有深度神经网络组成，通过使用深度神经网络模型来抽象状态信息以输出最优动作，本发明动作网络选用了深度神经网络中的CNN。动作网络是深度确定性策略梯度的横移过程控制模型的核心，具有极强的状态抽象和表征能力，使得该方法可以应用于复杂多变的横移过程控制问题上。

动作网络根据输入的横移过程状态，通过神经网络得到当前状态下最优的动作，即横移速度，动作网络可选择的动作范围由动作空间确定，动作网络选择的最优动作反馈给环境模型；

横移过程网络模型根据前一时刻的各个参数状态以及动作网络输出的最优动作，来进行状态转移，同时根据奖惩函数算出奖惩值，并将该奖惩值和改变后的状态信息反馈给动作网络；

在横移过程离线学习中，将每次学习经验均保存到控制经验库中。

如此不断迭代进行训练和学习，最终使得深度确定性策略梯度的横移过程自学习控制模型得以收敛。

Step6，与实际绞吸挖泥船连接，用于进行实船无人施工；

Step7，构建基于深度学习的绞吸船横移过程自学习控制模型，在实际的横移过程环境中进行自学习控制，即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络，动作网络根据输入的状态信息输出最优的横移动作，将该动作作用于横移过程；

根据输入的状态信息输出最优的横移动作的过程具体包括：横移深度确定性策略梯度模型中的动作网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。

Step8，最后，更新先验控制模型经验库，如此不断循环。

基于深度确定性策略梯度的横移过程离线/在线学习，基本结构如图2所示。

所述的在线学习，其具体包括：首先，读取离线学习中的控制经验库、动作空间、奖惩函数；然后，在实际的横移过程环境中进行自学习控制，即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络，动作网络根据输入的状态信息输出最优的横移动作；接着，将该动作作用于横移过程；最后，更新控制经验库。如此不断循环，最终使得挖泥船产量高且工作稳定。

基于深度确定性策略梯度的横移过程在线学习，基本结构如图2所示。

Claims

1.一种基于深度学习的绞吸挖泥船横移过程自学习控制系统，其特征在于，所述系统包括：离线学习模块和在线学习模块；

所述离线学习模块是指根据实际施工采集的数据，利用深度神经网络模型来构建虚拟的横移过程，采用基于深度确定性策略梯度，构建粗略的先验控制模型经验库；

所述在线学习模块是指利用深度确定性策略梯度控制模型，直接对真实的绞吸挖泥船横移过程进行自学习控制，对离线学习模块构建的先验控制模型经验库进行完善和更新。

2.一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其特征在于，采用权利要求1所述的系统，其步骤如下：

Step6，与实际绞吸挖泥船连接，用于进行实船无人施工；

3.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其特征在于，所述步骤step1中多元的训练数据组包含参数：绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度。

4.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其特征在于，所述步骤step2中所述的横移过程的深度神经网络模型是指利用深度神经网络模型建立虚拟横移过程，该网络模型能够表示横移过程中状态的跳转情况，即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作，来对当前时刻横移过程状态进行状态转移。

5.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其特征在于，所述步骤step3中的动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供动作网络选择的动作范围；

所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值；所述奖惩函数根据横移过程的优化目标进行设定；

所述横移过程的优化目标包括：泥浆浓度小于53％，且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A；

所述动作网络用于抽象横移过程中状态，并输出在该状态下最优的动作，将动作反馈给横移过程环境模型。

6.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法，其特征在于，所述动作空间用下式表示：

其中，V_s为横移速度；C_w为泥浆浓度；负表示在当前横移速度的基础上降低一定数值；正表示增加一定数值。

7.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法，其特征在于，所述奖惩函数用下式表示：

总奖惩值：

其中，r为奖惩值；I_d为绞刀电机电流；P_v为吸入真空；C_w为泥浆浓度。

8.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法，其特征在于，所述动作网络：

动作网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。

9.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法，其特征在于，所述步骤step4中对深度确定性策略梯度的横移过程控制模型进行离线训练和学习的具体步骤如下：