CN108762079B - 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法 - Google Patents

基于深度强化学习的绞吸挖泥船横移过程控制系统及方法 Download PDF

Info

Publication number
CN108762079B
CN108762079B CN201810563482.XA CN201810563482A CN108762079B CN 108762079 B CN108762079 B CN 108762079B CN 201810563482 A CN201810563482 A CN 201810563482A CN 108762079 B CN108762079 B CN 108762079B
Authority
CN
China
Prior art keywords
traversing
reinforcement learning
action
value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810563482.XA
Other languages
English (en)
Other versions
CN108762079A (zh
Inventor
魏长赟
倪福生
陈秀静
蒋爽
顾磊
李洪彬
刘增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201810563482.XA priority Critical patent/CN108762079B/zh
Publication of CN108762079A publication Critical patent/CN108762079A/zh
Application granted granted Critical
Publication of CN108762079B publication Critical patent/CN108762079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Abstract

本发明涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法,其首先需收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移控制模型的原始数据;将收集到的原始数据进行分析,并挑选其中对横移过程影响较大的参数,组成多元的训练数据组;利用挑选出的数据训练神经网络,构建横移过程控制的环境模型;结合环境模型,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;利用训练好的深度强化学习的横移过程控制模型,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。本发明不仅能够使横移过程控制更加智能化,而且操作过程更简单、灵活性较好、可快速寻优。

Description

基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
技术领域
本发明涉及挖泥船控制领域,尤其是涉及一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法。
背景技术
挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中,绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时,横移切削过程受土质、环境、工况等复杂因素影响,难以用准确的数学模型表达其控制过程。疏浚作业时,横移切削是最为频繁的操作步骤,目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定,操作人员需要根据长期疏浚作业积累的经验来操作横移手柄,调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大,另外,疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于深度强化学习的绞吸挖泥船横移过程控制系统及方法,其不仅能够使得横移控制更加智能化,而且控制过程更简单、灵活性高、寻优效率高。
本发明的目的通过如下技术方案实现:
本发明提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,其特征在于,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;
所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型。
所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型。
一种基于深度强化学习的绞吸挖泥船横移过程控制方法,其包括:
Step1,收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移过程控制模型的原始数据;
Step2,在实际疏浚生产中,挖泥船产量在一定程度上体现挖泥船的性能。将收集到的原始数据进行理论分析,绞吸挖泥船的产量W=流量Q*泥浆浓度Cw*时间t,而挖泥船的产量是由绞刀切削的泥砂质量决定的,泥砂体积量V=比例因子k*切削宽度bc*切削深度hc*横移速度VS,其中由电机驱动的绞刀性能直接反映其切削能力,吸入真空数实时反映挖泥船的产量率。选择其中对横移过程具有影响的参数(绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度)组成多元的训练数据组,并构建横移过程控制的环境模型;
Step3,结合横移过程环境模型,构建深度强化学习的横移过程控制模型中的价值网络;所述的价值网络,是根据当前状态并利用动作值函数,给出状态对应所有动作的价值,再根据该价值确定出当前状态下所有动作中最优的动作;
Step4,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;
Step5,将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制,其中,在运用于实际横移过程控制时,在横移过程环境模型中需加入一个横移速度控制器,以用于与挖泥船中的控制柜进行信息交换。所述的环境模型给予强化学习智能体奖惩值和状态转移信息,并确定给出可供价值网络选择的动作空间。
所述横移过程环境模型包括:状态转移、动作空间以及奖惩函数;
所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作,来对当前时刻横移过程状态进行状态转移;
所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围;
所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值,奖惩函数的输出端连接价值网络的输入端;所述奖惩函数根据横移过程的优化目标进行设定;
所述横移过程的优化目标包括:泥浆浓度高于45%,且吸入真空∈(30,70)bar、绞刀电机电流∈(920,960)A。
更优选地,所述奖惩函数可用下式表示:
Figure BDA0001683848070000031
其中,r为奖惩值;Id为绞刀电机电流(单位:A);b为吸入真空(单位:bar);Cv为泥浆浓度(单位:%)。
更优选地,所述步骤step3中利用深度神经网络构建价值网络,以逼近价值函数;
所述价值网络用于抽象横移过程中状态,并输出在该状态下对应不同动作时价值,然后在所有动作值中选择动作值最优的动作,将动作反馈给环境模型。
更优选地,所述步骤step4中对深度强化学习的横移过程控制模型进行离线训练和学习的具体步骤如下:
价值网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,即横移速度,价值网络可选择的动作范围由环境模型中的动作空间确定,价值网络选择的最优动作反馈给环境模型;
横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;
如此不断迭代进行训练和学习,最终使得深度强化学习模型得以收敛。
更优选地,所述步骤step5中的横移速度控制器根据在实际的横移过程环境中控制柜采集到的所有状态信息,输出当前时刻横移过程控制模型所需的各个参数的状态信息,将其传给深度强化学习的价值网络,价值网络根据输入的状态信息输出最优的横移动作,然后将该动作反馈给横移过程控制器;
横移速度控制器收到最优的横移动作后,执行该动作,等待固定时间再次采集各个参数值;横移速度控制器将当前环境状态信息发送到深度强化学习的横移过程控制模型,并获取新的最优横移动作,如此不断循环。
更优选地,所述根据输入的状态信息输出最优的横移动作的过程具体包括:
横移深度强化学习模型中的价值网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
由上述本发明的技术方案可以看出,本发明具有如下技术效果:
(1)其结合了深度学习和强化学习的优势,仅需要环境模型的信息进行自学习的模型训练,极少依赖人工经验;
(2)深度强化学习模型中的深度神经网络具有极强的状态表征能力,在不同横移状态下的适应性更强;
(3)深度强化学习模型可根据横移过程控制优化目标来涉及奖惩函数,能够满足多目标优化复杂问题的需求,其奖惩函数的涉及具有较强的灵活性;
(4)通过训练好的深度强化学习的横移过程控制模型进行横移智能控制应用,只需要根据实际的横移过程环境状态信息输入到训练好的深度强化学习的横移过程控制模型中,即可获得当前最优横移动作,使得横移过程更加智能化。
附图说明
图1为本发明中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法的流程图;
图2为本发明中横移控制的深度强化学习模型的结构框图;
图3为本发明中的一种基于深度强化学习的绞吸挖泥船横移过程智能控制应用的结构框图。
具体实施方式
以下将结合附图对本发明的技术方案做进一步详细说明。
本发明提供一种基于深度强化学习的绞吸挖泥船横移过程智能控制系统,所述系统包括:横移速度环境模型和深度强化学习的横移过程控制模型中的价值网络;
所述的横移速度环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型。
所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型。
本发明提供一种基于深度强化学习的绞吸挖泥船横移过程控制方法,其实施流程如图1所示,包括如下步骤:
Step1,收集大量绞吸挖泥船决策系统数据,构成原始数据。
需要对某个具体绞吸挖泥船进行横移过程控制时,首先要先用该挖泥船的之前工作时决策系统采集的大量数据,构成训练基于深度强化学习的绞吸挖泥船横移过程控制的原始数据。
Step2,将收集到的原始数据进行分析,并挑选其中对横移过程影响较大的参数作为横移过程环境模型的状态量,并挑选其中可控参数作为深度强化学习的横移过程控制模型的动作量。具体地,绞吸挖泥船的产量W=流量Q*泥浆浓度Cw*时间t,而挖泥船的产量是由绞刀切削的泥砂质量决定的,泥砂体积量V=比例因子k*切削宽度bc*切削深度hc*横移速度VS,其中由电机驱动的绞刀性能直接反映其切削能力,吸入真空数实时反映挖泥船的产量率。因此,挑选出的训练数据包括:绞刀电机电流、吸入真空、泥浆浓度、横移速度。其中,绞刀电机电流、吸入真空、泥浆浓度组成多元状态量,横移速度为动作量。
横移过程环境模型给予深度强化学习的横移过程控制模型奖惩值和状态转移信息,并确定出可供智能体选择的动作空间。所述横移过程环境模型包括状态转移、动作空间以及奖惩函数三个部分。
状态转移,是根据前一时刻的横移过程模型输出的状态信息和深度强化学习的横移过程中的价值网络输出的当前时刻的动作,来对当前时刻的横移过程状态实施状态转移。
因为横移过程状态是由状态量和横移速度共同决定的,所以状态转移时,用前一时刻的状态值和当前时刻的横移速度,来得到下一时刻的横移状态信息,从而实现状态转移功能。
横移过程环境模型将转移后的状态信息反馈给横移过程中的价值网络。
动作空间,用于根据当前横移过程状态信息和实际操作中动作的最大范围确定可供智能体选择的动作范围。
其中,动作是指智能体在某个状态下可进行的操作,本发明中横移速度即为动作。横移速度在实际作业中有操作人员通过手柄进行操作,其最大可调范围为[0,18],当前一时刻的横移速度过小时,则不再适合选择降低横移速度;反之,则不再适合选择增加横移速度。所以需结合状态信息,确定智能体的动作范围。
奖惩函数,是由横移过程的优化目标确定的,其输出端连接价值网络的输入端。利用设定的奖惩函数计算奖惩值,以判断此时智能体采取的动作是好是坏。若为奖,则智能体会增加选择该动作的概率;反之,则会降低其概率。
奖惩函数的确定在整个深度强化学习的横移过程模型的训练和学习中至关重要,直接影响到学习的最后结果,具体确定奖惩函数时遵循的原则是当横移过程中状态达到优化目标时,计算出一个奖赏值;反之,则为惩罚值。奖惩函数可以通过多种形式表达,其计算结果可直接反馈给价值网络。价值网络则根据奖惩值进行参数调整,直到学习训练结束。本发明中,横移过程的优化目标是在其他条件稳定在允许范围内时,泥浆浓度高于45%。
具体地,本发明以一个具体绞吸挖泥船工作环境设定奖惩函数如下:
Figure BDA0001683848070000061
其中,r为奖惩值;Id为绞刀电机电流;b为吸入真空;Cv为泥浆浓度。
本奖惩函数只针对此种绞吸挖泥船工作环境下,若是其他条件下可适当调整奖惩函数。
Step3,结合横移过程环境模型,构建深度强化学习的横移过程控制模型中价值网络;所述的价值网络,是根据当前状态并利用动作值函数,通过价值网络给出状态对应所有动作的价值,再根据该价值确定出当前状态下所有动作中最优的动作;
价值网络,用于抽象横移过程状态信息,并输出在该状态下对应不同动作时的价值,根据状态信息和动作价值选择最优的横移速度,并将选择的最优横移速度反馈给横移过程环境模型。价值网络抽象出的状态信息和对应的动作价值越大,则对应的动作越优。因此,可以根据每个横移速度的动作价值大小,选择动作价值最大的横移速度作为最优横移速度。
通过价值网络不断将选择到的最优动作反馈到横移过程环境模型中,从而实现价值网络与横移过程环境模型不断迭代训练,使得模型学习到最优的横移过程控制。其中,价值网络的更新遵循强化学习中的Bellman方程。
价值网络有深度神经网络组成,通过使用深度神经网络模型来抽象状态信息以拟合价值,本发明价值网络选用了深度神经网络中的CNN。价值网络是深度强化学习的横移过程控制模型的核心,具有极强的状态抽象和表征能力,使得该方法可以应用于复杂多变的横移过程控制问题上。
Step4,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;
价值网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,即横移速度,价值网络可选择的动作范围由动作空间确定,价值网络选择的最优动作反馈给环境模型;
横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;
如此不断迭代进行训练和学习,最终使得深度强化学习的横移过程控制模型得以收敛。
Step5,利用训练好的深度强化学习的横移过程控制模型,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制。其中,在运用于实际横移过程控制时,在横移过程环境模型中需加入一个横移速度控制器,以用于与挖泥船中的控制柜进行信息交换。
利用训练好的深度强化学习的横移过程控制模型进行横移过程智能控制,基本结构如图3所示。
由图3可知,该基于深度强化学习的教习挖泥船横移过程智能控制实际应用结构包括:横移速度环境模型和价值网络。其中,价值网络是step4中训练好的模型;横移速度环境模型中增加一个横移速度控制器。
在具体应用时,横移速度控制器控制实际的横移过程环境中的横移速度,先输出当前时刻横移过程各个参数的状态信息,将其传给深度强化学习的横移过程控制模型,该深度强化学习的横移过程控制模型中的价值网络根据输入的状态信息,并结合动作空间,进而输出最优的动作,然后将该动作反馈给横移速度控制器;
横移速度控制器接收到最优动作后,执行该动作,等待固定时间后再次采集各个参数值;横移速度控制器将当前环境状态信息发送到深度强化的横移过程控制模型,并获取新的最优横移动作。如此不断循环,最终使得挖泥船产量高且工作稳定。

Claims (5)

1.一种基于深度强化学习的绞吸挖泥船横移过程智能控制方法,采用一种控制系统,所述系统包括:横移过程环境模型和深度强化学习的横移过程控制模型中的价值网络;
所述的横移过程环境模型是指在绞吸挖泥船横移过程环境中控制横移速度,执行深度强化学习的横移过程控制模型发送过来的最优横移速度,执行完成后等待固定时间,再将状态信息反馈给深度强化学习的横移过程控制模型;
所述的深度强化学习的横移过程控制模型中的价值网络,是根据真实横移过程环境反馈的状态信息,输出最优的横移动作返回给横移速度环境模型;
其特征在于所述方法包括如下步骤:
Step1,收集绞吸挖泥船决策系统的大量数据,构成基于深度强化学习的横移过程控制模型的原始数据;
Step2,将收集到的原始数据进行绞吸挖泥船横移过程中产量形成机理分析,并构建横移过程环境模型;
多元的训练数据组包含参数:绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度;
所述的环境模型给予强化学习智能体奖惩值和状态转移信息,并确定给出可供价值网络选择的动作空间;
所述横移过程环境模型包括:状态转移、动作空间以及奖惩函数;
所述状态转移根据前一时刻的横移过程状态和价值网络输出的当前时刻的动作,来对当前时刻横移过程状态进行状态转移;
所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围;
所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值,奖惩函数的输出端连接价值网络的输入端;所述奖惩函数根据横移过程的优化目标进行设定;
所述奖惩函数用下式表示:
Figure FDA0003339607120000011
其中,r为奖惩值;Id为绞刀电机电流,单位为A;b为吸入真空,单位为bar;Cv为泥浆浓度,单位为%;
所述横移过程的优化目标包括:泥浆浓度高于45%,且吸入真空∈(30,70)bar、绞刀电机电流∈(920,960)A;
Step3,结合横移过程环境模型,构建深度强化学习的横移过程控制模型中的价值网络;所述的价值网络,是根据当前状态并利用动作值函数,给出状态对应所有动作的价值,再根据该价值确定出当前状态下所有动作中最优的动作;
Step4,对深度强化学习的横移过程控制模型进行离线训练和学习,得到训练好的深度强化学习的横移过程控制模型;
Step5,将训练好的深度强化学习的横移过程控制模型应用于实际疏浚操作,对绞吸挖泥船横移过程进行基于深度强化学习的智能控制,其中,在运用于实际横移过程控制时,在横移过程环境模型中需加入一个横移速度控制器,以用于与挖泥船中的控制柜进行信息交换。
2.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,所述步骤step3具体包括:利用深度神经网络构建价值网络,以逼近价值函数;
所述价值网络用于抽象横移过程中状态,并输出在该状态下对应不同动作时价值,然后在所有动作值中选择动作值最优的动作,将动作反馈给环境模型。
3.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,所述步骤step4中对深度强化学习的横移过程控制模型进行离线训练和学习的具体步骤如下:
价值网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,即横移速度,价值网络可选择的动作范围由环境模型中的动作空间确定,价值网络选择的最优动作反馈给环境模型;
横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给价值网络;
如此不断迭代进行训练和学习,最终使得深度强化学习模型得以收敛。
4.根据权利要求1所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,所述步骤step5中的横移速度控制器根据在实际的横移过程环境中控制柜采集到的所有状态信息,输出当前时刻横移过程控制模型所需的各个参数的状态信息,将其传给深度强化学习的价值网络,价值网络根据输入的状态信息输出最优的横移动作,然后将该动作反馈给横移过程控制器;
横移速度控制器收到最优的横移动作后,执行该动作,等待固定时间再次采集各个参数值;横移速度控制器将当前环境状态信息发送到深度强化学习的横移过程控制模型,并获取新的最优横移动作,如此不断循环。
5.根据权利要求4所述的基于深度强化学习的绞吸挖泥船横移过程智能控制方法,其特征在于,所述根据输入的状态信息输出最优的横移动作的过程具体包括:
深度强化学习的横移过程控制模型中的价值网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
CN201810563482.XA 2018-06-04 2018-06-04 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法 Active CN108762079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810563482.XA CN108762079B (zh) 2018-06-04 2018-06-04 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810563482.XA CN108762079B (zh) 2018-06-04 2018-06-04 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

Publications (2)

Publication Number Publication Date
CN108762079A CN108762079A (zh) 2018-11-06
CN108762079B true CN108762079B (zh) 2022-03-11

Family

ID=64002676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810563482.XA Active CN108762079B (zh) 2018-06-04 2018-06-04 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法

Country Status (1)

Country Link
CN (1) CN108762079B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109750698B (zh) * 2019-03-12 2021-07-27 中交天津航道局有限公司 一种绞吸挖泥船横移自动控制器
CN109750707B (zh) * 2019-03-12 2020-08-25 中交天津航道局有限公司 一种绞吸挖泥船目标产量自动挖泥控制方法
CN110045614A (zh) * 2019-05-16 2019-07-23 河海大学常州校区 一种基于深度学习的绞吸船横移过程自学习控制系统及方法
CN110826790A (zh) * 2019-10-31 2020-02-21 天津大学 一种绞吸式挖泥船施工生产率智能预测方法
CN112488467A (zh) * 2020-11-16 2021-03-12 中国科学院合肥物质科学研究院 一种基于多尺度生境信息的水培作物施肥装置
CN114355936A (zh) * 2021-12-31 2022-04-15 深兰人工智能(深圳)有限公司 智能体的控制方法、装置、智能体及计算机可读存储介质
CN114411858B (zh) * 2022-02-15 2023-05-16 中交疏浚技术装备国家工程研究中心有限公司 一种基于强化学习的绞吸式挖泥船智能控制系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080673A (ja) * 1998-09-08 2000-03-21 Ishikawajima Harima Heavy Ind Co Ltd 浚渫船向け経路計画法
CN101021878A (zh) * 2006-02-14 2007-08-22 中国交通建设集团有限公司 绞吸挖泥船计算机自动寻优疏浚方法
CN105045091A (zh) * 2015-07-14 2015-11-11 河海大学常州校区 基于模糊神经控制系统的疏浚工艺智能决策分析方法
CN106836341A (zh) * 2017-02-23 2017-06-13 中交烟台环保疏浚有限公司 智能绞吸式挖泥船的控制系统与控制方法
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000080673A (ja) * 1998-09-08 2000-03-21 Ishikawajima Harima Heavy Ind Co Ltd 浚渫船向け経路計画法
CN101021878A (zh) * 2006-02-14 2007-08-22 中国交通建设集团有限公司 绞吸挖泥船计算机自动寻优疏浚方法
CN105045091A (zh) * 2015-07-14 2015-11-11 河海大学常州校区 基于模糊神经控制系统的疏浚工艺智能决策分析方法
CN106836341A (zh) * 2017-02-23 2017-06-13 中交烟台环保疏浚有限公司 智能绞吸式挖泥船的控制系统与控制方法
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
绞吸挖泥船横移过程的预测控制系统研究;魏长赟等;《机械设计与制造工程》;20180115;第47卷(第1期);第70-74页 *

Also Published As

Publication number Publication date
CN108762079A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108762079B (zh) 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN110488754B (zh) 一种基于ga-bp神经网络算法的机床自适应控制方法
CN106557074B (zh) 生成最佳速度分布的机床、仿真装置以及机器学习器
CN110347155A (zh) 一种智能车辆自动驾驶控制方法及系统
CN111812968B (zh) 基于模糊神经网络pid控制器的阀位串级控制方法
CN110221580B (zh) 一种基于主轴数据仿真的进给速度优化方法
CN110989366B (zh) 掘进机的控制方法、掘进机与计算机可读存储介质
CN109571432A (zh) 一种基于力传感器的机器人直接示教方法
CN110456634A (zh) 一种基于人工神经网络的无人车控制参数选取方法
CN110244658B (zh) 一种基于改进bp神经网络提高裁床插补位置精度的方法
CN104200270A (zh) 一种基于差异演化算法的滚齿工艺参数自适应调整方法
CN103978488A (zh) 基于云模型控制系统的搬运机器人
CN110535396A (zh) 基于bp神经网络的表面式永磁同步电机模型预测控制方法
CN110928215A (zh) 一种油田掺水管网智能控制系统及控制方法
CN110045614A (zh) 一种基于深度学习的绞吸船横移过程自学习控制系统及方法
CN102999008B (zh) 切边圆盘剪的重叠量控制器参数优化方法
CN110393954B (zh) 一种基于强化学习的浓密机在线控制方法
CN107807526A (zh) 一种基于稳定性仿真智能抑制加工颤振的方法
CN110888323A (zh) 一种用于切换系统智能优化的控制方法
CN110442099A (zh) 一种基于长短期记忆的数控加工工艺参数优化方法
CN109212972A (zh) 间歇过程的受限滚动时域混杂2d跟踪控制方法
CN112140005B (zh) 一种钢箱梁喷砂除锈并联机器人喷枪轨迹智能优化方法
CN114537391A (zh) 一种基于预报观测器的车辆跟驰伺服控制方法及系统
CN114411858B (zh) 一种基于强化学习的绞吸式挖泥船智能控制系统及方法
CN109760680B (zh) 一种参数不确定自主车辆变速巡航系统鲁棒控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant