CN114411858B - 一种基于强化学习的绞吸式挖泥船智能控制系统及方法 - Google Patents

一种基于强化学习的绞吸式挖泥船智能控制系统及方法 Download PDF

Info

Publication number
CN114411858B
CN114411858B CN202210137133.8A CN202210137133A CN114411858B CN 114411858 B CN114411858 B CN 114411858B CN 202210137133 A CN202210137133 A CN 202210137133A CN 114411858 B CN114411858 B CN 114411858B
Authority
CN
China
Prior art keywords
action
learning
reinforcement learning
control system
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210137133.8A
Other languages
English (en)
Other versions
CN114411858A (zh
Inventor
鲁嘉俊
王柳艳
沈彦超
王伟
徐婷
戴文伯
杨波
许墅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd
Original Assignee
CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd filed Critical CCCC National Engineering Research Center of Dredging Technology and Equipment Co Ltd
Priority to CN202210137133.8A priority Critical patent/CN114411858B/zh
Priority to CN202310403174.1A priority patent/CN116446487A/zh
Publication of CN114411858A publication Critical patent/CN114411858A/zh
Application granted granted Critical
Publication of CN114411858B publication Critical patent/CN114411858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F5/00Dredgers or soil-shifting machines for special purposes
    • E02F5/28Dredgers or soil-shifting machines for special purposes for cleaning watercourses or other ways
    • EFIXED CONSTRUCTIONS
    • E02HYDRAULIC ENGINEERING; FOUNDATIONS; SOIL SHIFTING
    • E02FDREDGING; SOIL-SHIFTING
    • E02F3/00Dredgers; Soil-shifting machines
    • E02F3/04Dredgers; Soil-shifting machines mechanically-driven
    • E02F3/88Dredgers; Soil-shifting machines mechanically-driven with arrangements acting by a sucking or forcing effect, e.g. suction dredgers
    • E02F3/8833Floating installations
    • E02F3/885Floating installations self propelled, e.g. ship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/17Mechanical parametric or variational design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Mechanical Engineering (AREA)
  • Mining & Mineral Resources (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Ocean & Marine Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于绞吸挖泥船智能化控制领域,一种基于强化学习的绞吸式挖泥船智能控制方法,并基于此方法设计了一种基于强化学习的绞吸式挖泥船智能控制系统,其特征在于,包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统;所述智能控制子系统包括:横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统。本发明仅需实船数据即可进行自学习的模型训练,能够在实船复杂环境条件下快速有效学习并达到智能优化目标,在降低人工成本的同时提升疏浚施工效率。

Description

一种基于强化学习的绞吸式挖泥船智能控制系统及方法
技术领域
本发明属于绞吸挖泥船智能化控制领域,特别涉及一种基于强化学习的智能控制系统与控制方法,可以进行自学习,完成对绞吸挖泥船的智能控制,属于人工智能及控制技术领域。
背景技术
挖泥船是水利疏浚中的重要装备。绞吸式挖泥船将挖掘和输送泥浆的工序一次完成,具有非常广泛的适应性和经济性,在航道疏浚、港口建设、海洋开发等工程中有非常重要的作用。
绞吸式挖泥船的操作流程繁琐、工作原理复杂、工作环境多样。实际疏浚作业过程的动态特性非常复杂,疏浚作业设备的特性也随作业状态和作业位置的不同而明显变化。疏浚工程中的施工参数只能是针对某一具体挖泥船设备和作业环境而制定的,适用面窄,没有相应的数学模型。疏浚作业过程中挖泥船主要的作业参数是由操作人员根据自己的经验、试挖情况以及挖泥船实际作业效果灵活确定的。由于实际施工过程中影响因素非常多,相互关系复杂,疏浚操作人员的经验和理论水平差别较大,以手工作业的实际产量往往低于设计产量,疏浚作业效率低、自动化程度低、经验依赖性强。为此亟需提高疏浚作业的智能化程度,运用人工智能技术,实现疏浚船舶智能优化控制。
发明内容
本发明的目的是针对现有技术存在的问题,提出一种基于强化学习的绞吸式挖泥船智能控制系统及方法。通过控制绞吸船的横移子系统、泥泵子系统、绞刀子系统、桥架子系统和进关子控制系统,针对不同的控制子系统设计适当的控制器,并利用强化学习推荐智能自主寻优实时施工参数,实现对疏浚作业过程动作和重要过程参数的控制。该系统不需要驾驶员手动操纵各类控制把柄,极大降低工作人员的劳动强度,对于提高挖泥船的智能化水平、提升生产效率和降低生产成本等都可起到积极作用。
发明的目的通过如下技术方案实现:
一种基于强化学习的绞吸式挖泥船智能控制方法,其特征在于,包括以下步骤:
S1.利用传感器收集绞吸船施工过程数据,构成疏浚作业过程的原始数据库;
S2.针对原始数据进行数据预处理,筛选出横移周期内的有效数据,并采用卡尔曼滤波方法对数据进行滤波;
S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数;
信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能减少多少不确定性;分裂信息量(又称节点分裂信息度量)为节点上样本的信息熵,其考虑属性进行分裂时分支的数量和尺寸信息;信息增益率是信息增益与分裂信息量的比值,使各属性的重要性随着分裂信息量的增大而减小。利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度,其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统。
S4.筛选出控制变量后,定义强化学习动作区间为[横移速度,泥泵转速,绞刀转速,桥架深度,步进距离],即定义了强化学习中智能体可以控制的变量;
S5.强化学习动作区间为连续动作空间,并满足完备性、高效性、合法性要求;
其中,完备性指的是功能的完备性(具备基本功能)和时效完备性(在具备基本功能前提下,响应速度快,决策周期短);
高效性指的是动作空间简单高效,可以有效降低训练难度并提升算法性能;
合法性指的是设置在特定状态下不允许出现的动作;
S6.将强化学习的动作区间作为输入变量,利用ELM(极限学习机)神经网络搭建绞吸挖泥船的产量预测模型;
ELM神网的输入层向量和输出层向量分别为:
X={横移速度、泥泵转速、绞刀转速、桥架深度、步进距离};
Y={瞬时产量};
设置隐含层的神经元默认节点个数为30;设置激活函数表达式如下:
Figure BDA0003504801600000031
ELM的优点在于计算迅速,且参数的随机初始化使得ELM具有较好的泛化性;
S7.奖励函数是强化学习的核心,强化学习智能体的学习目标就是最大化期望累计奖励;设计奖励函数表达式如下:
R=O-Dc*D-Pf
其中R表示智能体执行动作所获得的奖励值,即对当前动作好坏的评价;
O代表ELM神网模型预测的绞吸船瞬时产量,瞬时产量越高意味着系统得到的奖励值也越高;
D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差,加入此变量是为了限制两次输入信号之间的变化幅度,防止控制参数剧烈跳变;
Dc为D的乘数项系数,可根据实际工程工况做调整,默认值为100;
Pf定义为惩罚函数,默认值为400,如果系统控制变量超限,则立即给予智能体惩罚值;添加控制变量超限的惩罚函数,能够使得强化学习推荐的最佳施工参数位于安全区间内;
S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到,针对当前的每次动作选择,分为探索(将尝试机会均匀分到每个可以执行的动作中去)和利用(只采取已知经验中得到的平均奖赏最大的动作);本发明中动作概率的分配基于Boltzmann分布,方程式如下:
Figure BDA0003504801600000041
式中R(i)为当前动作完成后的平均奖赏。可在程序中自定义τ值大小,设定τ越小则平均奖赏高的动作被选取的概率越高,τ趋近于0时趋于仅利用,τ趋于无穷大时趋于仅探索;程序默认τ值通常取0.05至0.10之间;
S9.根据当前状态St,强化学习智能体执行当前动作At作用到环境,执行不同动作的概率为上一步骤计算得到的P(k);然后环境反馈对应状态值St,并将其与奖励值Rt反馈智能体,与此同时环境转移到下一个状态St+1,并给予奖励值Rt+1;由此得到强化学习的行动状态序列:
τ={S1,A1,S2,A2,S3,A3,…,Sn,An}
式中S1,S2,S3,…,Sn为智能体的状态序列,A1,A2,A3,…,An为智能体的动作序列;
S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分;经上述步骤搭建环境模型后,强化学习智能体根据上一步给出的随机动作Ai-1执行指令并反馈状态信息Si-1,通过与强化学习环境的交互学习中逐渐获得最优策略πi;随着学习的进行,好的动作被选取的概率逐渐增大,不好的动作慢慢淘汰,因此机器获得的奖励值Ri逐渐上升,代表着智能体在自学习过程中逐渐获得最佳施工参数;
S11.设置机器学习最高学习次数;如果累计奖励值上升并逐渐趋于稳定,即满足学习终止条件;若不满足,返回到步骤S6继续循环;如果到达最高学习次数,结束强化学习算法,调整参数后重新开始学习;满足学习终止条件后,获得的动作AF(包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离)即为机器学习找到的最优疏浚参数。
S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统这五个控制系统设置挖泥船子系统中的各个控制参数,并通过PLC控制机械设备,使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。
一种基于强化学习的绞吸式挖泥船智能控制系统,其特征在于,包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统;所述智能控制子系统包括:横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统;所述作业优化系统通过上述步骤,基于强化学习的智能寻优在线反复迭代优化控制参数;智能控制子系统以寻优后的控制参数控制疏浚工艺,执行最佳疏浚动作,使得绞吸挖泥船的实际产量稳定保持在最佳产量值。绞吸船智能控制模块的控制流程包含了以下常规步骤(过程及每个步骤本身都为已有技术):开泥泵,开绞刀,放桥架,横移,没有到台车限位,左右横移,到了台车限位,横移到中间,左右横移结束,进台车,横移到中间结束,退台车,这一段挖泥结束后换桩,挖泥结束,提桥架,关绞刀,关泥泵。各过程控制单元与作业优化系统相互配合,共同构成一个自顶向下的功能完整的控制结构,实现疏浚作业过程的智能化运行。
本发明仅需实船数据即可进行自学习的模型训练,能够在实船复杂环境条件下快速有效学习并达到智能优化目标,在降低人工成本的同时提升疏浚施工效率。
附图说明
图1为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的控制系统结构框图;
图2为本发明基于强化学习的绞吸式挖泥船疏浚参数智能自主寻优的结构示意图;
图3为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的智能控制系统功能架构图;
图4为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的横移控制子系统图;
图5为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的泥泵控制子系统图;
图6为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的绞刀控制子系统图;
图7为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的桥架控制子系统图;
图8为本发明一种基于强化学习的绞吸式挖泥船智能控制系统及方法的进关控制子系统图;
图9为通过控制仿真试验得到强化学习控制结果与实际人工操作的产量对比图。
具体实施方式
下面将结合具体实施例及其附图对本申请提供的技术方案作进一步说明。结合下面说明,本申请的优点和特征将更加清楚。
需要说明的是,本申请的实施例有较佳的实施性,并非是对本申请任何形式的限定。本申请实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。本申请优选实施方式的范围也可以包括另外的实现,且这应被本申请实施例所属技术领域的技术人员所理解。
本发明提供一种基于强化学习的绞吸式挖泥船智能控制方法,如图1包括以下步骤:
S1.利用传感器收集绞吸船施工过程数据,构成疏浚作业过程的原始数据库。
S2.针对原始数据进行数据预处理,筛选出横移周期内的有效数据,并采用卡尔曼滤波方法对数据进行滤波。
S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数。信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能减少多少不确定性;分裂信息量(又称节点分裂信息度量)为节点上样本的信息熵,其考虑属性进行分裂时分支的数量和尺寸信息;信息增益率是信息增益与分裂信息量的比值,使各属性的重要性随着分裂信息量的增大而减小。信息增益率方法经常被用来判断变量的重要性,利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度,其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统。
S4.筛选出控制变量后,定义强化学习动作区间为[横移速度,泥泵转速,绞刀转速,桥架深度,步进距离],即定义了强化学习中智能体可以控制的变量;
S5.强化学习动作区间为连续动作空间,并满足完备性、高效性、合法性要求。其中完备性指的是功能的完备性(具备基本功能)和时效完备性(在具备基本功能前提下,响应速度快,决策周期短)。高效性指的是动作空间简单高效,可以有效降低训练难度并提升算法性能。合法性指的是设置在特定状态下不允许出现的动作,例如,绞吸船横移到左/右边线时,横移速度不应过快。
S6.将强化学习的动作区间作为输入变量,利用ELM(极限学习机)神经网络搭建绞吸挖泥船的产量预测模型。ELM神网的输入层向量和输出层向量分别为:
X={横移速度、泥泵转速、绞刀转速、桥架深度、步进距离};
Y={瞬时产量}。
设置隐含层的神经元默认节点个数为30。设置激活函数表达式如下:
Figure BDA0003504801600000071
ELM的优点在于计算迅速,且参数的随机初始化使得ELM具有较好的泛化性;
S7.奖励函数是强化学习的核心,强化学习智能体的学习目标就是最大化期望累计奖励。设计奖励函数表达式如下:
R=O-Dc*D-Pf
其中R表示智能体执行动作所获得的奖励值,即对当前动作好坏的评价。
O代表ELM神网模型预测的绞吸船瞬时产量,瞬时产量越高意味着系统得到的奖励值也越高。
D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差,加入此变量是为了限制两次输入信号之间的变化幅度,防止控制参数剧烈跳变。
Dc为D的乘数项系数,可根据实际工程工况做调整,默认值为100。
Pf定义为惩罚函数,默认值为400,如果系统控制变量超限,则立即给予智能体惩罚值。添加控制变量超限的惩罚函数,能够使得强化学习推荐的最佳施工参数位于安全区间内。
S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到,针对当前的每次动作选择,分为探索(将尝试机会均匀分到每个可以执行的动作中去)和利用(只采取已知经验中得到的平均奖赏最大的动作)。本发明中动作概率的分配基于Boltzmann分布,方程式如下:
Figure BDA0003504801600000081
式中R(i)为当前动作完成后的平均奖赏。可在程序中自定义τ值大小,设定τ越小则平均奖赏高的动作被选取的概率越高,τ趋近于0时趋于仅利用,τ趋于无穷大时趋于仅探索。程序默认τ值通常取0.05至0.10之间。
S9.根据当前状态St,强化学习智能体执行当前动作At作用到环境,执行不同动作的概率为上一步骤计算得到的P(k)。然后环境反馈对应状态值St,并将其与奖励值Rt反馈智能体,与此同时环境转移到下一个状态St+1,并给予奖励值Rt+1。由此得到强化学习的行动状态序列:
τ={S1,A1,S2,A2,S3,A3,…,Sn,An}
式中S1,S2,S3,…,Sn为智能体的状态序列,A1,A2,A3,…,An为智能体的动作序列,如图2。
S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分。经上述步骤搭建环境模型后,强化学习智能体根据上一步给出的随机动作Ai-1执行指令并反馈状态信息Si-1,通过与强化学习环境的交互学习中逐渐获得最优策略πi。随着学习的进行,好的动作被选取的概率逐渐增大,不好的动作慢慢淘汰,因此机器获得的奖励值Ri逐渐上升,代表着智能体在自学习过程中逐渐获得最佳施工参数。
S11.设置机器学习最高学习次数。如果累计奖励值上升并逐渐趋于稳定,即满足学习终止条件。若不满足,返回到步骤6继续循环。如果到达最高学习次数,结束强化学习算法,此时考虑调整参数后重新开始学习。满足学习终止条件后,获得的动作AF(包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离)即为机器学习找到的最优疏浚参数。
S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统(图4为横移控制子系统图、图5为泥泵控制子系统图、图6为绞刀控制子系统图、图7为桥架控制子系统图、图8为进关控制子系统图)这五个控制系统设置挖泥船子系统中的各个控制参数,并通过PLC控制机械设备,使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。
一种基于强化学习的绞吸式挖泥船智能控制系统包括作业优化系统、绞吸船智能控制模块、过程控制单元和智能控制子系统;所述智能控制子系统包括:横移控制子系统、泥泵控制子系统、绞刀控制子系统、进关控制子系统和桥架控制子系统;所述作业优化系统通过上述步骤,基于强化学习的智能寻优在线反复迭代优化控制参数;智能控制子系统以寻优后的控制参数控制疏浚工艺,执行最佳疏浚动作,使得绞吸挖泥船的实际产量稳定保持在最佳产量值。绞吸船智能控制模块的控制流程包含了以下常规步骤(过程及每个步骤本身都为已有技术):开泥泵,开绞刀,放桥架,横移,没有到台车限位,左右横移,到了台车限位,横移到中间,左右横移结束,进台车,横移到中间结束,退台车,这一段挖泥结束后换桩,挖泥结束,提桥架,关绞刀,关泥泵。各过程控制单元与作业优化系统相互配合,共同构成一个自顶向下的功能完整的控制结构,实现疏浚作业过程的智能化运行。
本发明具有如下优点及效果:
(1)开发了绞吸挖泥船疏浚作业过程的ELM神经网络和强化学习算法,利用自主设计的强化学习奖励函数,实现了绞吸船非线性复杂系统工程中多约束条件下的自主学习和自主优化;
(2)基于强化学习的绞吸式挖泥船控制系统能在保障施工安全的前提下,实现绞吸挖泥船横移、绞刀、进关、桥架和泥泵控制系统单个控制系统以及多个控制系统组合的智能控制;
(3)系统无需竣工员操纵各类控制手柄,依靠机器学习的方法即可灵活快捷的进行疏浚作业,在降低疏浚操作员劳动强度的同时提升疏浚施工效率;
(4)强化学习智能寻优的参数能快速响应动态的环境变化,深层次原因是智能体能够评估当前状态,并寻找使得未来回报最大化的策略,从而灵活调整控制参数,使得预期收益最大化。相比而言,操作员决策依赖于操作面板的数据,缺少对未来的预测判断。
图9为通过控制仿真试验得到强化学习控制结果与实际人工操作的产量对比图,证明了采用强化学习最优参数控制的瞬时产量比人工操作时高,可将瞬时产量值维持在高点,能有效提高挖泥船的疏浚产量。

Claims (1)

1.一种基于强化学习的绞吸式挖泥船智能控制方法,其特征在于,包括以下步骤:
S1.利用传感器收集绞吸船施工过程数据,构成疏浚作业过程的原始数据库;
S2.针对原始数据进行数据预处理,筛选出横移周期内的有效数据,并采用卡尔曼滤波方法对数据进行滤波;
S3.采用信息增益率的方法挑选出和产量密切相关并可人工调控的控制参数;
信息增益是指添加了信息之后能增加多少收益,也即增加信息之后能减少多少不确定性;分裂信息量为节点上样本的信息熵,其考虑属性进行分裂时分支的数量和尺寸信息;信息增益率是信息增益与分裂信息量的比值,使各属性的重要性随着分裂信息量的增大而减小;信息增益率方法经常被用来判断变量的重要性,利用信息增益率筛选的参数为横移速度、泥泵转速、绞刀转速、步进距离和桥架深度,其分别对应了绞吸船的横移子控制系统、泥泵子控制系统、绞刀子控制系统、进关子控制系统和桥架子控制系统;
S4.筛选出控制变量后,定义强化学习动作区间为[横移速度,泥泵转速,绞刀转速,桥架深度,步进距离],即定义了强化学习中智能体可以控制的变量;
S5.强化学习动作区间为连续动作空间,并满足完备性、高效性、合法性要求;
其中,完备性指的是功能的完备性和时效完备性;
高效性指的是动作空间简单高效,可以有效降低训练难度并提升算法性能;
合法性指的是设置在特定状态下不允许出现的动作;
S6.将强化学习的动作区间作为输入变量,利用ELM神经网络搭建绞吸挖泥船的产量预测模型;
ELM神网的输入层向量和输出层向量分别为:
X={横移速度、泥泵转速、绞刀转速、桥架深度、步进距离};
Y={瞬时产量};
设置隐含层的神经元默认节点个数为30;设置激活函数S(x)表达式如下:
Figure FDA0003988969040000021
ELM的优点在于计算迅速,且参数的随机初始化使得ELM具有较好的泛化性;
S7.奖励函数是强化学习的核心,强化学习智能体的学习目标就是最大化期望累计奖励;设计奖励函数表达式如下:
R=O-Dc*D-Pf
其中R表示智能体执行动作所获得的奖励值,即对当前动作好坏的评价;
O代表ELM神网模型预测的绞吸船瞬时产量,瞬时产量越高意味着系统得到的奖励值也越高;
D为该时刻的控制参数与上一时刻控制参数的欧氏距离偏差,加入此变量是为了限制两次输入信号之间的变化幅度,防止控制参数剧烈跳变;
Dc为D的乘数项系数,可根据实际工程工况做调整,默认值为100;
Pf定义为惩罚函数,默认值为400,如果系统控制变量超限,则立即给予智能体惩罚值;添加控制变量超限的惩罚函数,能够使得强化学习推荐的最佳施工参数位于安全区间内;
S8.强化学习智能体的最终奖赏是在多次动作之后才能观察到,针对当前的每次动作选择,分为探索和利用,探索为将尝试机会均匀分到每个可以执行的动作中去,利用为只采取已知经验中得到的平均奖赏最大的动作;动作概率的分配基于Boltzmann分布,方程式如下:
Figure FDA0003988969040000031
式中R(i)为当前动作完成后的平均奖赏;在程序中自定义τ值大小,设定τ越小则平均奖赏高的动作被选取的概率越高,τ趋近于0时趋于仅利用,τ趋于无穷大时趋于仅探索;程序默认τ值通常取0.05至0.10之间;
S9.根据当前状态St,强化学习智能体执行当前动作At作用到环境,执行不同动作的概率为上一步骤计算得到的P(k);然后环境反馈对应状态值St,并将其与奖励值Rt反馈智能体,与此同时环境转移到下一个状态St+1,并给予奖励值Rt+1;由此得到强化学习的行动状态序列:
τ={S1,A1,S2,A2,S3,A3,…,Sn,An}
式中S1,S2,S3,…,Sn为智能体的状态序列,A1,A2,A3,…,An为智能体的动作序列;
S10.强化学习的环境模型包括动作空间、状态转移和奖惩函数3个部分;经上述步骤搭建环境模型后,强化学习智能体根据上一步给出的随机动作Ai-1执行指令并反馈状态信息Si-1,通过与强化学习环境的交互学习中逐渐获得最优策略πi;随着学习的进行,好的动作被选取的概率逐渐增大,不好的动作慢慢淘汰,因此机器获得的奖励值Ri逐渐上升,代表着智能体在自学习过程中逐渐获得最佳施工参数;
S11.设置机器学习最高学习次数;如果累计奖励值上升并逐渐趋于稳定,即满足学习终止条件;若不满足,返回到步骤S6继续循环;如果到达最高学习次数,结束强化学习算法,调整参数后重新开始学习;满足学习终止条件后,获得的动作AF,包含横移速度、泥泵转速、绞刀转速、桥架深度和步进距离,即为机器学习找到的最优疏浚参数;
S12.在横移控制系统、泥泵控制系统、绞刀控制系统、桥架控制系统、进关控制系统这五个控制系统设置挖泥船子系统中的各个控制参数,并通过PLC控制机械设备,使得绞吸挖泥船能够依据强化学习获得的最优疏浚参数进行智能挖泥操作。
CN202210137133.8A 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统及方法 Active CN114411858B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210137133.8A CN114411858B (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统及方法
CN202310403174.1A CN116446487A (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210137133.8A CN114411858B (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统及方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310403174.1A Division CN116446487A (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统

Publications (2)

Publication Number Publication Date
CN114411858A CN114411858A (zh) 2022-04-29
CN114411858B true CN114411858B (zh) 2023-05-16

Family

ID=81261540

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310403174.1A Pending CN116446487A (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统
CN202210137133.8A Active CN114411858B (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统及方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310403174.1A Pending CN116446487A (zh) 2022-02-15 2022-02-15 一种基于强化学习的绞吸式挖泥船智能控制系统

Country Status (1)

Country Link
CN (2) CN116446487A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118246813B (zh) * 2024-05-20 2024-08-06 中交广州航道局有限公司 一种针对绞吸式挖泥船操作手能力的监控系统及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100474761C (zh) * 2007-01-30 2009-04-01 深圳国人通信有限公司 前馈线性功率放大器中载波对消的智能控制系统与方法
CN108762079B (zh) * 2018-06-04 2022-03-11 河海大学常州校区 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

Also Published As

Publication number Publication date
CN116446487A (zh) 2023-07-18
CN114411858A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Yeh Application of neural networks to automatic soil pressure balance control for shield tunneling
JP2018097680A (ja) 制御システム及び機械学習装置
CN108762079B (zh) 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN109901403A (zh) 一种自主水下机器人神经网络s面控制方法
CN114411858B (zh) 一种基于强化学习的绞吸式挖泥船智能控制系统及方法
CN112292642A (zh) 用于控制技术系统的控制装置和用于配置控制装置的方法
CN113093526B (zh) 一种基于强化学习的无超调pid控制器参数整定方法
CN116050505A (zh) 一种基于伙伴网络的智能体深度强化学习方法
Ersü et al. A new concept for learning control inspired by brain theory
Espinosa et al. Predictive control using fuzzy models
KR20230128191A (ko) 강화학습을 이용한 pid 제어기의 자동적응 제어튜닝방법 및 시스템
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法
CN105511270B (zh) 一种基于协同进化的pid控制器参数优化方法和系统
CN110888323A (zh) 一种用于切换系统智能优化的控制方法
CN114527642B (zh) 一种基于深度强化学习的agv自动调整pid参数的方法
CN116817909A (zh) 一种基于深度强化学习的无人机中继式导航方法
Salvador et al. Historian data based predictive control of a water distribution network
CN115903938A (zh) 钻井压力控制方法及装置
Igreja et al. Application of distributed model predictive control to a water delivery canal
CN112796747B (zh) 基于多目标的油气钻井策略预测方法及装置
CN113759929A (zh) 基于强化学习和模型预测控制的多智能体路径规划方法
CN114002957B (zh) 一种基于深度强化学习的智能控制方法及系统
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
Waldock et al. Fuzzy Q-learning with an adaptive representation
CN114012735B (zh) 一种基于深度强化学习的机械臂控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant