CN108762079B

CN108762079B - 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

Info

Publication number: CN108762079B
Application number: CN201810563482.XA
Authority: CN
Inventors: 魏长赟; 倪福生; 陈秀静; 蒋爽; 顾磊; 李洪彬; 刘增辉
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2022-03-11
Anticipated expiration: 2038-06-04
Also published as: CN108762079A

Abstract

本发明涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法，其首先需收集绞吸挖泥船决策系统的大量数据，构成基于深度强化学习的横移控制模型的原始数据；将收集到的原始数据进行分析，并挑选其中对横移过程影响较大的参数，组成多元的训练数据组；利用挑选出的数据训练神经网络，构建横移过程控制的环境模型；结合环境模型，对深度强化学习的横移过程控制模型进行离线训练和学习，得到训练好的深度强化学习的横移过程控制模型；利用训练好的深度强化学习的横移过程控制模型，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。本发明不仅能够使横移过程控制更加智能化，而且操作过程更简单、灵活性较好、可快速寻优。

Description

基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

技术领域

本发明涉及挖泥船控制领域，尤其是涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法。

背景技术

挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中，绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时，横移切削过程受土质、环境、工况等复杂因素影响，难以用准确的数学模型表达其控制过程。疏浚作业时，横移切削是最为频繁的操作步骤，目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定，操作人员需要根据长期疏浚作业积累的经验来操作横移手柄，调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大，另外，疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。

发明内容

本发明的目的是针对现有技术存在的问题，提供一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法，其不仅能够使得横移控制更加智能化，而且控制过程更简单、灵活性高、寻优效率高。

本发明的目的通过如下技术方案实现：

本发明提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统，其特征在于，所述系统包括：横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络；

所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度，执行深度强化学习的横移过程控制模型发送过来的最优横移速度，执行完成后等待固定时间，再将状态信息反馈给深度强化学习的横移过程控制模型。

所述的深度强化学习的横移过程控制模型中的价值网络，是根据真实横移过程环境反馈的状态信息，输出最优的横移动作返回给横移速度环境模型。

一种基于深度强化学习的绞吸挖泥船横移过程控制方法，其包括：

Step1，收集绞吸挖泥船决策系统的大量数据，构成基于深度强化学习的横移过程控制模型的原始数据；

Step2，在实际疏浚生产中，挖泥船产量在一定程度上体现挖泥船的性能。将收集到的原始数据进行理论分析，绞吸挖泥船的产量W＝流量Q*泥浆浓度C_w*时间t，而挖泥船的产量是由绞刀切削的泥砂质量决定的，泥砂体积量V＝比例因子k*切削宽度b_c*切削深度h_c*横移速度V_S，其中由电机驱动的绞刀性能直接反映其切削能力，吸入真空数实时反映挖泥船的产量率。选择其中对横移过程具有影响的参数(绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度)组成多元的训练数据组，并构建横移过程控制的环境模型；

Step3，结合横移过程环境模型，构建深度强化学习的横移过程控制模型中的价值网络；所述的价值网络，是根据当前状态并利用动作值函数，给出状态对应所有动作的价值，再根据该价值确定出当前状态下所有动作中最优的动作；

Step4，对深度强化学习的横移过程控制模型进行离线训练和学习，得到训练好的深度强化学习的横移过程控制模型；

Step5，将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制，其中，在运用于实际横移过程控制时，在横移过程环境模型中需加入一个横移速度控制器，以用于与挖泥船中的控制柜进行信息交换。所述的环境模型给予强化学习智能体奖惩值和状态转移信息，并确定给出可供价值网络选择的动作空间。

所述横移过程环境模型包括：状态转移、动作空间以及奖惩函数；

所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作，来对当前时刻横移过程状态进行状态转移；

所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围；

所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值，奖惩函数的输出端连接价值网络的输入端；所述奖惩函数根据横移过程的优化目标进行设定；

所述横移过程的优化目标包括：泥浆浓度高于45％，且吸入真空∈(30，70)bar、绞刀电机电流∈(920，960)A。

更优选地，所述奖惩函数可用下式表示：

其中，r为奖惩值；I_d为绞刀电机电流(单位：A)；b为吸入真空(单位：bar)；C_v为泥浆浓度(单位:％)。

更优选地，所述步骤step3中利用深度神经网络构建价值网络，以逼近价值函数；

所述价值网络用于抽象横移过程中状态，并输出在该状态下对应不同动作时价值，然后在所有动作值中选择动作值最优的动作，将动作反馈给环境模型。

更优选地，所述步骤step4中对深度强化学习的横移过程控制模型进行离线训练和学习的具体步骤如下：

价值网络根据输入的横移过程状态，通过神经网络得到当前状态下最优的动作，即横移速度，价值网络可选择的动作范围由环境模型中的动作空间确定，价值网络选择的最优动作反馈给环境模型；

横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作，来进行状态转移，同时根据奖惩函数算出奖惩值，并将该奖惩值和改变后的状态信息反馈给价值网络；

如此不断迭代进行训练和学习，最终使得深度强化学习模型得以收敛。

更优选地，所述步骤step5中的横移速度控制器根据在实际的横移过程环境中控制柜采集到的所有状态信息，输出当前时刻横移过程控制模型所需的各个参数的状态信息，将其传给深度强化学习的价值网络，价值网络根据输入的状态信息输出最优的横移动作，然后将该动作反馈给横移过程控制器；

横移速度控制器收到最优的横移动作后，执行该动作，等待固定时间再次采集各个参数值；横移速度控制器将当前环境状态信息发送到深度强化学习的横移过程控制模型，并获取新的最优横移动作，如此不断循环。

更优选地，所述根据输入的状态信息输出最优的横移动作的过程具体包括：

横移深度强化学习模型中的价值网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。

由上述本发明的技术方案可以看出，本发明具有如下技术效果：

(1)其结合了深度学习和强化学习的优势，仅需要环境模型的信息进行自学习的模型训练，极少依赖人工经验；

(2)深度强化学习模型中的深度神经网络具有极强的状态表征能力，在不同横移状态下的适应性更强；

(3)深度强化学习模型可根据横移过程控制优化目标来涉及奖惩函数，能够满足多目标优化复杂问题的需求，其奖惩函数的涉及具有较强的灵活性；

(4)通过训练好的深度强化学习的横移过程控制模型进行横移智能控制应用，只需要根据实际的横移过程环境状态信息输入到训练好的深度强化学习的横移过程控制模型中，即可获得当前最优横移动作，使得横移过程更加智能化。

附图说明

图1为本发明中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法的流程图；

图2为本发明中横移控制的深度强化学习模型的结构框图；

图3为本发明中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制应用的结构框图。

具体实施方式

以下将结合附图对本发明的技术方案做进一步详细说明。

本发明提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统，所述系统包括：横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络；

本发明提供一种基于深度强化学习的绞吸挖泥船横移过程控制方法，其实施流程如图1所示，包括如下步骤：

Step1，收集大量绞吸挖泥船决策系统数据，构成原始数据。

需要对某个具体绞吸挖泥船进行横移过程控制时，首先要先用该挖泥船的之前工作时决策系统采集的大量数据，构成训练基于深度强化学习的绞吸挖泥船横移过程控制的原始数据。

Step2，将收集到的原始数据进行分析，并挑选其中对横移过程影响较大的参数作为横移过程环境模型的状态量，并挑选其中可控参数作为深度强化学习的横移过程控制模型的动作量。具体地，绞吸挖泥船的产量W＝流量Q*泥浆浓度C_w*时间t，而挖泥船的产量是由绞刀切削的泥砂质量决定的，泥砂体积量V＝比例因子k*切削宽度b_c*切削深度h_c*横移速度V_S，其中由电机驱动的绞刀性能直接反映其切削能力，吸入真空数实时反映挖泥船的产量率。因此，挑选出的训练数据包括：绞刀电机电流、吸入真空、泥浆浓度、横移速度。其中，绞刀电机电流、吸入真空、泥浆浓度组成多元状态量，横移速度为动作量。

横移过程环境模型给予深度强化学习的横移过程控制模型奖惩值和状态转移信息，并确定出可供智能体选择的动作空间。所述横移过程环境模型包括状态转移、动作空间以及奖惩函数三个部分。

状态转移，是根据前一时刻的横移过程模型输出的状态信息和深度强化学习的横移过程中的价值网络输出的当前时刻的动作，来对当前时刻的横移过程状态实施状态转移。

因为横移过程状态是由状态量和横移速度共同决定的，所以状态转移时，用前一时刻的状态值和当前时刻的横移速度，来得到下一时刻的横移状态信息，从而实现状态转移功能。

横移过程环境模型将转移后的状态信息反馈给横移过程中的价值网络。

动作空间，用于根据当前横移过程状态信息和实际操作中动作的最大范围确定可供智能体选择的动作范围。

其中，动作是指智能体在某个状态下可进行的操作，本发明中横移速度即为动作。横移速度在实际作业中有操作人员通过手柄进行操作，其最大可调范围为[0，18]，当前一时刻的横移速度过小时，则不再适合选择降低横移速度；反之，则不再适合选择增加横移速度。所以需结合状态信息，确定智能体的动作范围。

奖惩函数，是由横移过程的优化目标确定的，其输出端连接价值网络的输入端。利用设定的奖惩函数计算奖惩值，以判断此时智能体采取的动作是好是坏。若为奖，则智能体会增加选择该动作的概率；反之，则会降低其概率。

奖惩函数的确定在整个深度强化学习的横移过程模型的训练和学习中至关重要，直接影响到学习的最后结果，具体确定奖惩函数时遵循的原则是当横移过程中状态达到优化目标时，计算出一个奖赏值；反之，则为惩罚值。奖惩函数可以通过多种形式表达，其计算结果可直接反馈给价值网络。价值网络则根据奖惩值进行参数调整，直到学习训练结束。本发明中，横移过程的优化目标是在其他条件稳定在允许范围内时，泥浆浓度高于45％。

具体地，本发明以一个具体绞吸挖泥船工作环境设定奖惩函数如下：

其中，r为奖惩值；I_d为绞刀电机电流；b为吸入真空；C_v为泥浆浓度。

本奖惩函数只针对此种绞吸挖泥船工作环境下，若是其他条件下可适当调整奖惩函数。

Step3，结合横移过程环境模型，构建深度强化学习的横移过程控制模型中价值网络；所述的价值网络，是根据当前状态并利用动作值函数，通过价值网络给出状态对应所有动作的价值，再根据该价值确定出当前状态下所有动作中最优的动作；

价值网络，用于抽象横移过程状态信息，并输出在该状态下对应不同动作时的价值，根据状态信息和动作价值选择最优的横移速度，并将选择的最优横移速度反馈给横移过程环境模型。价值网络抽象出的状态信息和对应的动作价值越大，则对应的动作越优。因此，可以根据每个横移速度的动作价值大小，选择动作价值最大的横移速度作为最优横移速度。

通过价值网络不断将选择到的最优动作反馈到横移过程环境模型中，从而实现价值网络与横移过程环境模型不断迭代训练，使得模型学习到最优的横移过程控制。其中，价值网络的更新遵循强化学习中的Bellman方程。

价值网络有深度神经网络组成，通过使用深度神经网络模型来抽象状态信息以拟合价值，本发明价值网络选用了深度神经网络中的CNN。价值网络是深度强化学习的横移过程控制模型的核心，具有极强的状态抽象和表征能力，使得该方法可以应用于复杂多变的横移过程控制问题上。

价值网络根据输入的横移过程状态，通过神经网络得到当前状态下最优的动作，即横移速度，价值网络可选择的动作范围由动作空间确定，价值网络选择的最优动作反馈给环境模型；

如此不断迭代进行训练和学习，最终使得深度强化学习的横移过程控制模型得以收敛。

Step5，利用训练好的深度强化学习的横移过程控制模型，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。其中，在运用于实际横移过程控制时，在横移过程环境模型中需加入一个横移速度控制器，以用于与挖泥船中的控制柜进行信息交换。

利用训练好的深度强化学习的横移过程控制模型进行横移过程智能控制，基本结构如图3所示。

由图3可知，该基于深度强化学习的教习挖泥船横移过程智能控制实际应用结构包括：横移速度环境模型和价值网络。其中，价值网络是step4中训练好的模型；横移速度环境模型中增加一个横移速度控制器。

在具体应用时，横移速度控制器控制实际的横移过程环境中的横移速度，先输出当前时刻横移过程各个参数的状态信息，将其传给深度强化学习的横移过程控制模型，该深度强化学习的横移过程控制模型中的价值网络根据输入的状态信息，并结合动作空间，进而输出最优的动作，然后将该动作反馈给横移速度控制器；

横移速度控制器接收到最优动作后，执行该动作，等待固定时间后再次采集各个参数值；横移速度控制器将当前环境状态信息发送到深度强化的横移过程控制模型，并获取新的最优横移动作。如此不断循环，最终使得挖泥船产量高且工作稳定。

Claims

1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法，采用一种控制系统，所述系统包括：横移过程环境模型和深度强化学习的横移过程控制模型中的价值网络；

所述的横移过程环境模型是指在绞吸挖泥船横移过程环境中控制横移速度，执行深度强化学习的横移过程控制模型发送过来的最优横移速度，执行完成后等待固定时间，再将状态信息反馈给深度强化学习的横移过程控制模型；

所述的深度强化学习的横移过程控制模型中的价值网络，是根据真实横移过程环境反馈的状态信息，输出最优的横移动作返回给横移速度环境模型；

其特征在于所述方法包括如下步骤：

Step2，将收集到的原始数据进行绞吸挖泥船横移过程中产量形成机理分析，并构建横移过程环境模型；

多元的训练数据组包含参数：绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度；

所述的环境模型给予强化学习智能体奖惩值和状态转移信息，并确定给出可供价值网络选择的动作空间；

所述奖惩函数用下式表示：

其中，r为奖惩值；I_d为绞刀电机电流，单位为A；b为吸入真空，单位为bar；C_v为泥浆浓度，单位为％；

所述横移过程的优化目标包括：泥浆浓度高于45％，且吸入真空∈(30，70)bar、绞刀电机电流∈(920，960)A；

Step5，将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作，对绞吸挖泥船横移过程进行基于深度强化学习的智能控制，其中，在运用于实际横移过程控制时，在横移过程环境模型中需加入一个横移速度控制器，以用于与挖泥船中的控制柜进行信息交换。

2.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，所述步骤step3具体包括：利用深度神经网络构建价值网络，以逼近价值函数；

3.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，所述步骤step4中对深度强化学习的横移过程控制模型进行离线训练和学习的具体步骤如下：

4.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，所述步骤step5中的横移速度控制器根据在实际的横移过程环境中控制柜采集到的所有状态信息，输出当前时刻横移过程控制模型所需的各个参数的状态信息，将其传给深度强化学习的价值网络，价值网络根据输入的状态信息输出最优的横移动作，然后将该动作反馈给横移过程控制器；

5.根据权利要求4所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法，其特征在于，所述根据输入的状态信息输出最优的横移动作的过程具体包括：

深度强化学习的横移过程控制模型中的价值网络根据输入的横移过程状态信息，通过深度神经网络，并结合动作空间提供的动作范围，得到当前状态下最优的横移动作。