CN114411858B

CN114411858B - 一种基于强化学习的绞吸式挖泥船智能控制系统及方法

Info

Publication number: CN114411858B
Application number: CN202210137133.8A
Authority: CN
Inventors: 鲁嘉俊; 王柳艳; 沈彦超; 王伟; 徐婷; 戴文伯; 杨波; 许墅
Original assignee: CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd
Current assignee: CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-05-16
Anticipated expiration: 2042-02-15
Also published as: CN116446487A; CN114411858A

Abstract

本发明属于绞吸挖泥船智能化控制领域，一种基于强化学习的绞吸式挖泥船智能控制方法，并基于此方法设计了一种基于强化学习的绞吸式挖泥船智能控制系统，其特征在于，包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统；所述智能控制子系统包括：横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统。本发明仅需实船数据即可进行自学习的模型训练，能够在实船复杂环境条件下快速有效学习并达到智能优化目标，在降低人工成本的同时提升疏浚施工效率。

Description

一种基于强化学习的绞吸式挖泥船智能控制系统及方法

技术领域

本发明属于绞吸挖泥船智能化控制领域，特别涉及一种基于强化学习的智能控制系统与控制方法，可以进行自学习，完成对绞吸挖泥船的智能控制，属于人工智能及控制技术领域。

背景技术

挖泥船是水利疏浚中的重要装备。绞吸式挖泥船将挖掘和输送泥浆的工序一次完成，具有非常广泛的适应性和经济性，在航道疏浚、港口建设、海洋开发等工程中有非常重要的作用。

绞吸式挖泥船的操作流程繁琐、工作原理复杂、工作环境多样。实际疏浚作业过程的动态特性非常复杂，疏浚作业设备的特性也随作业状态和作业位置的不同而明显变化。疏浚工程中的施工参数只能是针对某一具体挖泥船设备和作业环境而制定的，适用面窄，没有相应的数学模型。疏浚作业过程中挖泥船主要的作业参数是由操作人员根据自己的经验、试挖情况以及挖泥船实际作业效果灵活确定的。由于实际施工过程中影响因素非常多，相互关系复杂，疏浚操作人员的经验和理论水平差别较大，以手工作业的实际产量往往低于设计产量，疏浚作业效率低、自动化程度低、经验依赖性强。为此亟需提高疏浚作业的智能化程度，运用人工智能技术，实现疏浚船舶智能优化控制。

发明内容

本发明的目的是针对现有技术存在的问题，提出一种基于强化学习的绞吸式挖泥船智能控制系统及方法。通过控制绞吸船的横移子系统、泥泵子系统、绞刀子系统、桥架子系统和进关子控制系统，针对不同的控制子系统设计适当的控制器，并利用强化学习推荐智能自主寻优实时施工参数，实现对疏浚作业过程动作和重要过程参数的控制。该系统不需要驾驶员手动操纵各类控制把柄，极大降低工作人员的劳动强度，对于提高挖泥船的智能化水平、提升生产效率和降低生产成本等都可起到积极作用。

发明的目的通过如下技术方案实现：

一种基于强化学习的绞吸式挖泥船智能控制方法，其特征在于，包括以下步骤：

S1.利用传感器收集绞吸船施工过程数据，构成疏浚作业过程的原始数据库；

S2.针对原始数据进行数据预处理，筛选出横移周期内的有效数据，并采用卡尔曼滤波方法对数据进行滤波；

S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数；

信息增益是指添加了信息之后能增加多少收益，也即增加信息之后能减少多少不确定性；分裂信息量(又称节点分裂信息度量)为节点上样本的信息熵，其考虑属性进行分裂时分支的数量和尺寸信息；信息增益率是信息增益与分裂信息量的比值，使各属性的重要性随着分裂信息量的增大而减小。利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度，其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统。

S4.筛选出控制变量后，定义强化学习动作区间为[横移速度，泥泵转速，绞刀转速，桥架深度，步进距离]，即定义了强化学习中智能体可以控制的变量；

S5.强化学习动作区间为连续动作空间，并满足完备性、高效性、合法性要求；

其中，完备性指的是功能的完备性(具备基本功能)和时效完备性(在具备基本功能前提下，响应速度快，决策周期短)；

高效性指的是动作空间简单高效，可以有效降低训练难度并提升算法性能；

合法性指的是设置在特定状态下不允许出现的动作；

S6.将强化学习的动作区间作为输入变量，利用ELM(极限学习机)神经网络搭建绞吸挖泥船的产量预测模型；

ELM神网的输入层向量和输出层向量分别为：

X＝{横移速度、泥泵转速、绞刀转速、桥架深度、步进距离}；

Y＝{瞬时产量}；

设置隐含层的神经元默认节点个数为30；设置激活函数表达式如下：

ELM的优点在于计算迅速，且参数的随机初始化使得ELM具有较好的泛化性；

S7.奖励函数是强化学习的核心，强化学习智能体的学习目标就是最大化期望累计奖励；设计奖励函数表达式如下：

R＝O-D_c*D-P_f

其中R表示智能体执行动作所获得的奖励值，即对当前动作好坏的评价；

O代表ELM神网模型预测的绞吸船瞬时产量，瞬时产量越高意味着系统得到的奖励值也越高；

D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差，加入此变量是为了限制两次输入信号之间的变化幅度，防止控制参数剧烈跳变；

D_c为D的乘数项系数，可根据实际工程工况做调整，默认值为100；

P_f定义为惩罚函数，默认值为400，如果系统控制变量超限，则立即给予智能体惩罚值；添加控制变量超限的惩罚函数，能够使得强化学习推荐的最佳施工参数位于安全区间内；

S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到，针对当前的每次动作选择，分为探索(将尝试机会均匀分到每个可以执行的动作中去)和利用(只采取已知经验中得到的平均奖赏最大的动作)；本发明中动作概率的分配基于Boltzmann分布，方程式如下：

式中R(i)为当前动作完成后的平均奖赏。可在程序中自定义τ值大小，设定τ越小则平均奖赏高的动作被选取的概率越高，τ趋近于0时趋于仅利用，τ趋于无穷大时趋于仅探索；程序默认τ值通常取0.05至0.10之间；

S9.根据当前状态S_t，强化学习智能体执行当前动作A_t作用到环境，执行不同动作的概率为上一步骤计算得到的P(k)；然后环境反馈对应状态值S_t，并将其与奖励值R_t反馈智能体，与此同时环境转移到下一个状态S_t+1，并给予奖励值R_t+1；由此得到强化学习的行动状态序列：

τ＝{S₁,A₁,S₂,A₂,S₃,A₃,…,S_n,A_n}

式中S₁,S₂,S₃,…,S_n为智能体的状态序列，A₁,A₂,A₃,…,A_n为智能体的动作序列；

S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分；经上述步骤搭建环境模型后，强化学习智能体根据上一步给出的随机动作A_i-1执行指令并反馈状态信息S_i-1，通过与强化学习环境的交互学习中逐渐获得最优策略π_i；随着学习的进行，好的动作被选取的概率逐渐增大，不好的动作慢慢淘汰，因此机器获得的奖励值R_i逐渐上升，代表着智能体在自学习过程中逐渐获得最佳施工参数；

S11.设置机器学习最高学习次数；如果累计奖励值上升并逐渐趋于稳定，即满足学习终止条件；若不满足，返回到步骤S6继续循环；如果到达最高学习次数，结束强化学习算法，调整参数后重新开始学习；满足学习终止条件后，获得的动作A_F(包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离)即为机器学习找到的最优疏浚参数。

S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统这五个控制系统设置挖泥船子系统中的各个控制参数，并通过PLC控制机械设备，使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。

一种基于强化学习的绞吸式挖泥船智能控制系统，其特征在于，包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统；所述智能控制子系统包括：横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统；所述作业优化系统通过上述步骤，基于强化学习的智能寻优在线反复迭代优化控制参数；智能控制子系统以寻优后的控制参数控制疏浚工艺，执行最佳疏浚动作，使得绞吸挖泥船的实际产量稳定保持在最佳产量值。绞吸船智能控制模块的控制流程包含了以下常规步骤(过程及每个步骤本身都为已有技术)：开泥泵，开绞刀，放桥架，横移，没有到台车限位，左右横移，到了台车限位，横移到中间，左右横移结束，进台车，横移到中间结束，退台车，这一段挖泥结束后换桩，挖泥结束，提桥架，关绞刀，关泥泵。各过程控制单元与作业优化系统相互配合，共同构成一个自顶向下的功能完整的控制结构，实现疏浚作业过程的智能化运行。

本发明仅需实船数据即可进行自学习的模型训练，能够在实船复杂环境条件下快速有效学习并达到智能优化目标，在降低人工成本的同时提升疏浚施工效率。

附图说明

图1为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的控制系统结构框图；

图2为本发明基于强化学习的绞吸式挖泥船疏浚参数智能自主寻优的结构示意图；

图3为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的智能控制系统功能架构图；

图4为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的横移控制子系统图；

图5为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的泥泵控制子系统图；

图6为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的绞刀控制子系统图；

图7为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的桥架控制子系统图；

图8为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的进关控制子系统图；

图9为通过控制仿真试验得到强化学习控制结果与实际人工操作的产量对比图。

具体实施方式

下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明，本申请的优点和特征将更加清楚。

需要说明的是，本申请的实施例有较佳的实施性，并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的，它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现，且这应被本申请实施例所属技术领域的技术人员所理解。

本发明提供一种基于强化学习的绞吸式挖泥船智能控制方法，如图1包括以下步骤：

S1.利用传感器收集绞吸船施工过程数据，构成疏浚作业过程的原始数据库。

S2.针对原始数据进行数据预处理，筛选出横移周期内的有效数据，并采用卡尔曼滤波方法对数据进行滤波。

S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数。信息增益是指添加了信息之后能增加多少收益，也即增加信息之后能减少多少不确定性；分裂信息量(又称节点分裂信息度量)为节点上样本的信息熵，其考虑属性进行分裂时分支的数量和尺寸信息；信息增益率是信息增益与分裂信息量的比值，使各属性的重要性随着分裂信息量的增大而减小。信息增益率方法经常被用来判断变量的重要性，利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度，其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统。

S5.强化学习动作区间为连续动作空间，并满足完备性、高效性、合法性要求。其中完备性指的是功能的完备性(具备基本功能)和时效完备性(在具备基本功能前提下，响应速度快，决策周期短)。高效性指的是动作空间简单高效，可以有效降低训练难度并提升算法性能。合法性指的是设置在特定状态下不允许出现的动作，例如，绞吸船横移到左/右边线时，横移速度不应过快。

S6.将强化学习的动作区间作为输入变量，利用ELM(极限学习机)神经网络搭建绞吸挖泥船的产量预测模型。ELM神网的输入层向量和输出层向量分别为：

Y＝{瞬时产量}。

设置隐含层的神经元默认节点个数为30。设置激活函数表达式如下：

S7.奖励函数是强化学习的核心，强化学习智能体的学习目标就是最大化期望累计奖励。设计奖励函数表达式如下：

R＝O-D_c*D-P_f

其中R表示智能体执行动作所获得的奖励值，即对当前动作好坏的评价。

O代表ELM神网模型预测的绞吸船瞬时产量，瞬时产量越高意味着系统得到的奖励值也越高。

D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差，加入此变量是为了限制两次输入信号之间的变化幅度，防止控制参数剧烈跳变。

D_c为D的乘数项系数，可根据实际工程工况做调整，默认值为100。

P_f定义为惩罚函数，默认值为400，如果系统控制变量超限，则立即给予智能体惩罚值。添加控制变量超限的惩罚函数，能够使得强化学习推荐的最佳施工参数位于安全区间内。

S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到，针对当前的每次动作选择，分为探索(将尝试机会均匀分到每个可以执行的动作中去)和利用(只采取已知经验中得到的平均奖赏最大的动作)。本发明中动作概率的分配基于Boltzmann分布，方程式如下：

式中R(i)为当前动作完成后的平均奖赏。可在程序中自定义τ值大小，设定τ越小则平均奖赏高的动作被选取的概率越高，τ趋近于0时趋于仅利用，τ趋于无穷大时趋于仅探索。程序默认τ值通常取0.05至0.10之间。

S9.根据当前状态S_t，强化学习智能体执行当前动作A_t作用到环境，执行不同动作的概率为上一步骤计算得到的P(k)。然后环境反馈对应状态值S_t，并将其与奖励值R_t反馈智能体，与此同时环境转移到下一个状态S_t+1，并给予奖励值R_t+1。由此得到强化学习的行动状态序列：

τ＝{S₁,A₁,S₂,A₂,S₃,A₃,…,S_n,A_n}

式中S₁,S₂,S₃,…,S_n为智能体的状态序列，A₁,A₂,A₃,…,A_n为智能体的动作序列，如图2。

S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分。经上述步骤搭建环境模型后，强化学习智能体根据上一步给出的随机动作A_i-1执行指令并反馈状态信息S_i-1，通过与强化学习环境的交互学习中逐渐获得最优策略π_i。随着学习的进行，好的动作被选取的概率逐渐增大，不好的动作慢慢淘汰，因此机器获得的奖励值R_i逐渐上升，代表着智能体在自学习过程中逐渐获得最佳施工参数。

S11.设置机器学习最高学习次数。如果累计奖励值上升并逐渐趋于稳定，即满足学习终止条件。若不满足，返回到步骤6继续循环。如果到达最高学习次数，结束强化学习算法，此时考虑调整参数后重新开始学习。满足学习终止条件后，获得的动作A_F(包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离)即为机器学习找到的最优疏浚参数。

S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统(图4为横移控制子系统图、图5为泥泵控制子系统图、图6为绞刀控制子系统图、图7为桥架控制子系统图、图8为进关控制子系统图)这五个控制系统设置挖泥船子系统中的各个控制参数，并通过PLC控制机械设备，使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。

一种基于强化学习的绞吸式挖泥船智能控制系统包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统；所述智能控制子系统包括：横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统；所述作业优化系统通过上述步骤，基于强化学习的智能寻优在线反复迭代优化控制参数；智能控制子系统以寻优后的控制参数控制疏浚工艺，执行最佳疏浚动作，使得绞吸挖泥船的实际产量稳定保持在最佳产量值。绞吸船智能控制模块的控制流程包含了以下常规步骤(过程及每个步骤本身都为已有技术)：开泥泵，开绞刀，放桥架，横移，没有到台车限位，左右横移，到了台车限位，横移到中间，左右横移结束，进台车，横移到中间结束，退台车，这一段挖泥结束后换桩，挖泥结束，提桥架，关绞刀，关泥泵。各过程控制单元与作业优化系统相互配合，共同构成一个自顶向下的功能完整的控制结构，实现疏浚作业过程的智能化运行。

本发明具有如下优点及效果：

(1)开发了绞吸挖泥船疏浚作业过程的ELM神经网络和强化学习算法，利用自主设计的强化学习奖励函数，实现了绞吸船非线性复杂系统工程中多约束条件下的自主学习和自主优化；

(2)基于强化学习的绞吸式挖泥船控制系统能在保障施工安全的前提下，实现绞吸挖泥船横移、绞刀、进关、桥架和泥泵控制系统单个控制系统以及多个控制系统组合的智能控制；

(3)系统无需竣工员操纵各类控制手柄，依靠机器学习的方法即可灵活快捷的进行疏浚作业，在降低疏浚操作员劳动强度的同时提升疏浚施工效率；

(4)强化学习智能寻优的参数能快速响应动态的环境变化，深层次原因是智能体能够评估当前状态，并寻找使得未来回报最大化的策略，从而灵活调整控制参数，使得预期收益最大化。相比而言，操作员决策依赖于操作面板的数据，缺少对未来的预测判断。

图9为通过控制仿真试验得到强化学习控制结果与实际人工操作的产量对比图，证明了采用强化学习最优参数控制的瞬时产量比人工操作时高，可将瞬时产量值维持在高点，能有效提高挖泥船的疏浚产量。

Claims

1.一种基于强化学习的绞吸式挖泥船智能控制方法，其特征在于，包括以下步骤：

信息增益是指添加了信息之后能增加多少收益，也即增加信息之后能减少多少不确定性；分裂信息量为节点上样本的信息熵，其考虑属性进行分裂时分支的数量和尺寸信息；信息增益率是信息增益与分裂信息量的比值，使各属性的重要性随着分裂信息量的增大而减小；信息增益率方法经常被用来判断变量的重要性，利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度，其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统；

其中，完备性指的是功能的完备性和时效完备性；

合法性指的是设置在特定状态下不允许出现的动作；

S6.将强化学习的动作区间作为输入变量，利用ELM神经网络搭建绞吸挖泥船的产量预测模型；

ELM神网的输入层向量和输出层向量分别为：

Y＝{瞬时产量}；

设置隐含层的神经元默认节点个数为30；设置激活函数S(x)表达式如下：

R＝O-D_c*D-P_f

S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到，针对当前的每次动作选择，分为探索和利用，探索为将尝试机会均匀分到每个可以执行的动作中去，利用为只采取已知经验中得到的平均奖赏最大的动作；动作概率的分配基于Boltzmann分布，方程式如下：

式中R(i)为当前动作完成后的平均奖赏；在程序中自定义τ值大小，设定τ越小则平均奖赏高的动作被选取的概率越高，τ趋近于0时趋于仅利用，τ趋于无穷大时趋于仅探索；程序默认τ值通常取0.05至0.10之间；

τ＝{S₁,A₁,S₂,A₂,S₃,A₃,…,S_n,A_n}

S11.设置机器学习最高学习次数；如果累计奖励值上升并逐渐趋于稳定，即满足学习终止条件；若不满足，返回到步骤S6继续循环；如果到达最高学习次数，结束强化学习算法，调整参数后重新开始学习；满足学习终止条件后，获得的动作A_F，包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离，即为机器学习找到的最优疏浚参数；