CN110045614A - 一种基于深度学习的绞吸船横移过程自学习控制系统及方法 - Google Patents

一种基于深度学习的绞吸船横移过程自学习控制系统及方法 Download PDF

Info

Publication number
CN110045614A
CN110045614A CN201910408969.5A CN201910408969A CN110045614A CN 110045614 A CN110045614 A CN 110045614A CN 201910408969 A CN201910408969 A CN 201910408969A CN 110045614 A CN110045614 A CN 110045614A
Authority
CN
China
Prior art keywords
traversing process
traversing
learning
network
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910408969.5A
Other languages
English (en)
Inventor
魏长赟
陈秀静
倪福生
蒋爽
顾磊
李洪彬
刘增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201910408969.5A priority Critical patent/CN110045614A/zh
Publication of CN110045614A publication Critical patent/CN110045614A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Abstract

本发明涉及一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法,所述系统包括:离线学习模块和在线学习模块;离线学习模块是指根据实际施工采集的数据,利用深度神经网络模型来构建虚拟的横移过程仿真环境,采用基于深度确定性策略梯度模型,构建粗略的先验控制模型经验库;在线学习模块是指利用深度确定性策略梯度控制模型,直接对真实的绞吸挖泥船横移过程进行自学习控制,对离线学习模块构建的先验控制模型经验库进行完善和更新。本发明不仅能够使横移过程控制更加智能化,而且操作过程更简单、灵活性较好、可快速寻优。

Description

一种基于深度学习的绞吸船横移过程自学习控制系统及方法
技术领域
本发明涉及智能化船舶控制领域,公开了一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法。
背景技术
挖泥船广泛应用于港口航道的建设与维护、防洪清淤以及环境改造等国民经济基础建设。其中,绞吸式挖泥船是目前疏浚工程中使用较广泛地一种疏浚设备。绞吸挖泥船在疏浚作业时,横移切削过程受土质、环境、工况等复杂因素影响,难以用准确的数学模型表达其控制过程。疏浚作业时,横移切削是最为频繁的操作步骤,目前完全依赖驾驶员通过手柄进行操控。为了使挖泥船产量相对稳定,操作人员需要根据长期疏浚作业积累的经验来操作横移手柄,调节横移速度。由于不同的环境、土质等对疏浚作业影响非常大,另外,疏浚作业的生产效率以及完成度会受到操作员身体疲劳程度以及个人工作能力的影响。目前疏浚作业效率低、自动化程度低、经验依赖性强。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统及方法,其不仅能够使得横移控制更加智能化,而且控制过程更简单、灵活性高、寻优效率高。
本发明的目的通过如下技术方案实现:
本发明提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统,系统包括:离线学习模块和在线学习模块;
所述的离线学习模块是指根据实际施工采集的数据,利用深度神经网络模型来构建虚拟的横移过程,采用基于深度确定性策略梯度,构建粗略的先验控制模型经验库。
所述的在线学习模块是指利用深度确定性策略梯度控制模型,直接对真实的绞吸挖泥船横移过程进行自学习控制,对离线学习模块构建的先验控制模型经验库进行完善和更新。
一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,包括如下步骤:
Step1,收集并分析绞吸挖泥船的实际施工数据,构成基于深度确定性策略梯度的横移过程离线学习的原始数据;分析原始数据,挑选其中对横移过程具有影响的参数组成多元的训练数据组;
Step2,利用深度神经网络模型,建立虚拟的绞吸挖泥船横移过程;
Step3,构建深度确定性策略梯度的横移过程控制模型,并设置离线学习控制模块中的主要参数;主要参数包括动作空间、奖惩函数、动作网络;
Step4,对深度确定性策略梯度的横移过程控制模型进行离线训练和学习,得到粗略的先验控制模型经验库,供在线学习模块使用;
Step5,读取离线学习模块中的先验控制模型经验库、动作空间、奖惩函数;
Step6,与实际绞吸挖泥船连接,用于进行实船无人施工;
Step7,构建深度确定性策略梯度的横移过程控制模型,在实际的横移过程环境中进行自学习控制;
Step8,在线学习的同时,更新先验控制模型经验库,如此不断循环。
更优选地,所述步骤step1中横移过程每个时刻的状态量包含多个参数:绞刀电机电流/电机电压、吸入真空、泥浆浓度;而动作量为横移速度。
更优选地,所述步骤step2中横移的深度神经网络模型是指利用深度神经网络模型建立虚拟横移过程,该网络模型可以较好地表示横移过程中状态的跳转情况,即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作,来对当前时刻横移过程状态进行状态转移。
更优选地,所述步骤step3中主要参数包括:动作空间、奖惩函数、动作网络;
所述动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供智能体选择的动作范围;
更优选地,所述横移过程的动作空间设置为[-1,1],其含义是:负表示在当前横移速度的基础上降低一定数值;正表示增加一定数值。锁定了横移速度的边界值,即当横移速度在边界处,其动作空间会发生变化。此外,还定义了不同运动步长的控制指令,使得环境状态能稳定在预期目标状态附近。
更优选地,所述横移过程的动作空间用下式表示:
其中,Vs为横移速度(单位:m/min);Cw为泥浆浓度(单位:%)。
所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值,奖惩函数的输出端连接价值网络的输入端;所述奖惩函数根据横移过程的优化目标进行设定。
更优选地,所述横移过程的优化目标包括:泥浆浓度小于53%,且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A。
更优选地,所述奖惩函数可用下式表示:
总奖惩值:
其中,r为奖惩值;Id为绞刀电机电流(单位:A);Pv为吸入真空(单位:bar);Cw为泥浆浓度(单位:%)。
更优选地,所述的动作网络,动作网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
更优选地,所述步骤step4具体包括:
动作网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,然后横移速度变化,动作网络可选择的动作范围由环境模型中的动作空间确定,动作网络选择的最优动作反馈给环境模型;
横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给动作网络,用于输出动作,并更新动作网络;
如此不断迭代进行训练和学习,最终使得深度确定性策略梯度模型得以收敛。
所述的在线学习模块,其具体包括:首先,读取离线学习中的控制经验库、动作空间、奖惩函数;然后,在实际的横移过程环境中进行自学习控制,即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络,动作网络根据输入的状态信息输出最优的横移动作;接着,将该动作作用于横移过程;最后,更新控制经验库。如此不断循环,最终使得挖泥船产量高且工作稳定。
更优选地,所述动作网络具体包括:
深度确定性策略梯度的横移过程控制模型中的动作网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
由上述本发明的技术方案可以看出,本发明具有如下技术效果:
(1)其结合了深度学习和强化学习的优势,仅需要环境模型的信息进行自学习的模型训练,极少依赖人工经验;
(2)深度确定性策略梯度模型中的深度神经网络具有极强的状态表征能力,在不同横移状态下的适应性更强;
(3)深度确定性策略梯度模型可根据横移过程控制优化目标来涉及奖惩函数,能够满足多目标优化复杂问题的需求,其奖惩函数的涉及具有较强的灵活性;
(4)通过训练好的深度确定性策略梯度的横移过程控制模型进行横移智能控制应用,只需要根据实际的横移过程环境状态信息输入到训练好的深度确定性策略梯度的横移过程控制模型中,即可获得当前最优横移动作,使得横移过程更加智能化。
附图说明
图1为本发明中的一种基于深度确定性策略梯度的绞吸挖泥船横移过程自学习控制方法的基本结构图;
图2为本发明中的基于深度确定性策略梯度的绞吸挖泥船横移过程离线学习和在线学习的结构框图。
具体实施方式
以下将结合附图对本发明的技术方案做进一步详细说明。
本发明提供一种基于深度学习的绞吸挖泥船横移过程自学习控制系统,其系统包括:离线学习模块和在线学习模块;
所述的离线学习模块是指根据实际施工采集的数据,利用深度神经网络模型来构建虚拟的横移过程,采用基于深度确定性策略梯度,构建粗略的先验控制模型经验库。
所述的在线学习模块是指利用深度确定性策略梯度控制模型,直接对真实的绞吸挖泥船横移过程进行自学习控制,对先验控制模型经验库进行完善和更新。
一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其步骤如下:
Step1,收集并分析绞吸挖泥船的实际施工数据,构成基于深度确定性策略梯度的横移过程离线学习的原始数据;分析原始数据,挑选其中对横移过程具有影响的参数组成多元的训练数据组;
Step2,利用深度神经网络模型,建立虚拟的绞吸挖泥船横移过程;
Step3,构建深度确定性策略梯度的横移过程控制模型,并设置离线学习控制模块中的主要参数;主要参数包括动作空间、奖惩函数、动作网络;
Step4,对深度确定性策略梯度的横移过程控制模型进行离线训练和学习,得到粗略的先验控制模型经验库,供在线学习模块使用;
Step5,读取离线学习模块中的先验控制模型经验库、动作空间、奖惩函数;
Step6,与实际绞吸挖泥船连接,用于进行实船无人施工;
Step7,构建深度确定性策略梯度的横移过程控制模型,在实际的横移过程环境中进行自学习控制;
Step8,在线学习的同时,更新先验控制模型经验库,如此不断循环。
其中,step2所述的横移的深度神经网络模型利用深度神经网络模型建立虚拟横移过程,该网络模型可以较好地表示横移过程中状态的跳转情况,即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作,来对当前时刻横移过程状态进行状态转移。
横移过程状态是由状态量和横移速度共同决定的,所以状态转移时,用前一时刻的状态值和当前时刻的横移速度,来得到下一时刻的横移状态信息,从而实现状态转移功能并将转移后的状态信息反馈给横移过程中的价值网络。
所述步骤step3中主要参数包括:动作空间、奖惩函数、动作网络;
所述的动作空间,用于根据当前横移过程状态信息和实际操作中动作的最大范围确定可供智能体选择的动作范围。
其中,动作是指智能体在某个状态下可进行的操作,本发明中横移速度即为动作。横移速度在实际作业中有操作人员通过手柄进行操作,其最大可调范围为[0,18],当前一时刻的横移速度过小时,则不再适合选择降低横移速度;反之,则不再适合选择增加横移速度。所以需结合状态信息,确定智能体的动作范围。
因此,动作空间设置为[-1,1],其含义是:负表示在当前横移速度的基础上降低一定数值;正表示增加一定数值。锁定了横移速度的边界值,即当横移速度在边界处,其动作空间会发生变化。此外,还定义了不同运动步长的控制指令,使得环境状态能稳定在预期目标状态附近。
具体地,本发明以一个具体绞吸挖泥船工作环境设定的动作空间用下式表示:
其中,Vs为横移速度(单位:m/min);Cw为泥浆浓度(单位:%)。
所述的奖惩函数,是由横移过程的优化目标确定的。利用设定的奖惩函数计算奖惩值,以判断此时动作网络输出的动作是好是坏。若为奖,则动作网络会增加选择该动作的概率;反之,则会降低其概率。
奖惩函数的确定在整个深度确定性策略梯度的横移过程模型的训练和学习中至关重要,直接影响到学习的最后结果,具体确定奖惩函数时遵循的原则是当横移过程中状态达到优化目标时,计算出一个奖赏值;反之,则为惩罚值。奖惩函数可以通过多种形式表达,其计算结果用于更新动作网络。动作网络则根据奖惩值进行参数调整,直到学习训练结束。本发明中,横移过程的优化目标是泥浆浓度小于53%,且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A。
具体地,本发明以一个具体绞吸挖泥船工作环境设定奖惩函数如下:
总奖惩值:
其中,r为奖惩值;Id为绞刀电机电流(单位:A);Pv为吸入真空(单位:bar);Cw为泥浆浓度(单位:%)。
本奖惩函数只针对此种绞吸挖泥船工作环境下,若是其他条件下可适当调整奖惩函数。
所述的动作网络,用于抽象横移过程状态信息,并选择最优的横移速度,并将选择的最优横移速度反馈给横移过程环境模型。动作网络抽象出的状态信息和对应的动作价值越大,则对应的动作越优。因此,可以根据每个横移速度的动作价值大小,选择动作价值最大的横移速度作为最优横移速度。
通过动作网络不断将选择到的最优动作反馈到横移过程环境模型中,从而实现动作网络与横移过程环境模型不断迭代训练,使得模型学习到最优的横移过程控制。
动作网络有深度神经网络组成,通过使用深度神经网络模型来抽象状态信息以输出最优动作,本发明动作网络选用了深度神经网络中的CNN。动作网络是深度确定性策略梯度的横移过程控制模型的核心,具有极强的状态抽象和表征能力,使得该方法可以应用于复杂多变的横移过程控制问题上。
Step4,对深度确定性策略梯度的横移过程控制模型进行离线训练和学习,得到粗略的先验控制模型经验库,供在线学习模块使用;
动作网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,即横移速度,动作网络可选择的动作范围由动作空间确定,动作网络选择的最优动作反馈给环境模型;
横移过程网络模型根据前一时刻的各个参数状态以及动作网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给动作网络;
在横移过程离线学习中,将每次学习经验均保存到控制经验库中。
如此不断迭代进行训练和学习,最终使得深度确定性策略梯度的横移过程自学习控制模型得以收敛。
Step5,读取离线学习模块中的先验控制模型经验库、动作空间、奖惩函数;
Step6,与实际绞吸挖泥船连接,用于进行实船无人施工;
Step7,构建基于深度学习的绞吸船横移过程自学习控制模型,在实际的横移过程环境中进行自学习控制,即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络,动作网络根据输入的状态信息输出最优的横移动作,将该动作作用于横移过程;
根据输入的状态信息输出最优的横移动作的过程具体包括:横移深度确定性策略梯度模型中的动作网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
Step8,最后,更新先验控制模型经验库,如此不断循环。
基于深度确定性策略梯度的横移过程离线/在线学习,基本结构如图2所示。
所述的在线学习,其具体包括:首先,读取离线学习中的控制经验库、动作空间、奖惩函数;然后,在实际的横移过程环境中进行自学习控制,即将当前时刻横移过程状态信息传给深度确定性策略梯度的动作网络,动作网络根据输入的状态信息输出最优的横移动作;接着,将该动作作用于横移过程;最后,更新控制经验库。如此不断循环,最终使得挖泥船产量高且工作稳定。
基于深度确定性策略梯度的横移过程在线学习,基本结构如图2所示。

Claims (9)

1.一种基于深度学习的绞吸挖泥船横移过程自学习控制系统,其特征在于,所述系统包括:离线学习模块和在线学习模块;
所述离线学习模块是指根据实际施工采集的数据,利用深度神经网络模型来构建虚拟的横移过程,采用基于深度确定性策略梯度,构建粗略的先验控制模型经验库;
所述在线学习模块是指利用深度确定性策略梯度控制模型,直接对真实的绞吸挖泥船横移过程进行自学习控制,对离线学习模块构建的先验控制模型经验库进行完善和更新。
2.一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其特征在于,采用权利要求1所述的系统,其步骤如下:
Step1,收集并分析绞吸挖泥船的实际施工数据,构成基于深度确定性策略梯度的横移过程离线学习的原始数据;分析原始数据,挑选其中对横移过程具有影响的参数组成多元的训练数据组;
Step2,利用深度神经网络模型,建立虚拟的绞吸挖泥船横移过程;
Step3,构建深度确定性策略梯度的横移过程控制模型,并设置离线学习控制模块中的主要参数;主要参数包括动作空间、奖惩函数、动作网络;
Step4,对深度确定性策略梯度的横移过程控制模型进行离线训练和学习,得到粗略的先验控制模型经验库,供在线学习模块使用;
Step5,读取离线学习模块中的先验控制模型经验库、动作空间、奖惩函数;
Step6,与实际绞吸挖泥船连接,用于进行实船无人施工;
Step7,构建深度确定性策略梯度的横移过程控制模型,在实际的横移过程环境中进行自学习控制;
Step8,在线学习的同时,更新先验控制模型经验库,如此不断循环。
3.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其特征在于,所述步骤step1中多元的训练数据组包含参数:绞刀电机电流/电机电压、吸入真空、泥浆浓度、横移速度。
4.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其特征在于,所述步骤step2中所述的横移过程的深度神经网络模型是指利用深度神经网络模型建立虚拟横移过程,该网络模型能够表示横移过程中状态的跳转情况,即根据前一时刻的横移过程状态和自学习控制模型中动作网络输出的动作,来对当前时刻横移过程状态进行状态转移。
5.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其特征在于,所述步骤step3中的动作空间用于根据当前时刻的横移速度和实际操作中横移速度所能达到的最大范围来确定可供动作网络选择的动作范围;
所述奖惩函数用于针对当前横移过程状态利用设定的奖惩函数计算输出奖惩值;所述奖惩函数根据横移过程的优化目标进行设定;
所述横移过程的优化目标包括:泥浆浓度小于53%,且吸入真空∈[-63,-38]bar、绞刀电机电流∈[935,943]A;
所述动作网络用于抽象横移过程中状态,并输出在该状态下最优的动作,将动作反馈给横移过程环境模型。
6.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法,其特征在于,所述动作空间用下式表示:
其中,Vs为横移速度;Cw为泥浆浓度;负表示在当前横移速度的基础上降低一定数值;正表示增加一定数值。
7.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法,其特征在于,所述奖惩函数用下式表示:
总奖惩值:
其中,r为奖惩值;Id为绞刀电机电流;Pv为吸入真空;Cw为泥浆浓度。
8.根据权利要求5所述的一种基于深度学习的横移过程自学习控制方法,其特征在于,所述动作网络:
动作网络根据输入的横移过程状态信息,通过深度神经网络,并结合动作空间提供的动作范围,得到当前状态下最优的横移动作。
9.根据权利要求2所述的一种基于深度学习的绞吸挖泥船横移过程自学习控制方法,其特征在于,所述步骤step4中对深度确定性策略梯度的横移过程控制模型进行离线训练和学习的具体步骤如下:
动作网络根据输入的横移过程状态,通过神经网络得到当前状态下最优的动作,然后横移速度变化,动作网络可选择的动作范围由环境模型中的动作空间确定,动作网络选择的最优动作反馈给环境模型;
横移过程环境模型根据前一时刻的各个参数状态以及价值网络输出的最优动作,来进行状态转移,同时根据奖惩函数算出奖惩值,并将该奖惩值和改变后的状态信息反馈给动作网络,用于输出动作,并更新动作网络;
如此不断迭代进行训练和学习,最终使得深度确定性策略梯度模型得以收敛。
CN201910408969.5A 2019-05-16 2019-05-16 一种基于深度学习的绞吸船横移过程自学习控制系统及方法 Pending CN110045614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910408969.5A CN110045614A (zh) 2019-05-16 2019-05-16 一种基于深度学习的绞吸船横移过程自学习控制系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910408969.5A CN110045614A (zh) 2019-05-16 2019-05-16 一种基于深度学习的绞吸船横移过程自学习控制系统及方法

Publications (1)

Publication Number Publication Date
CN110045614A true CN110045614A (zh) 2019-07-23

Family

ID=67282301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910408969.5A Pending CN110045614A (zh) 2019-05-16 2019-05-16 一种基于深度学习的绞吸船横移过程自学习控制系统及方法

Country Status (1)

Country Link
CN (1) CN110045614A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111335388A (zh) * 2020-02-21 2020-06-26 中交疏浚技术装备国家工程研究中心有限公司 一种全智能绞吸挖泥船
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995467A (zh) * 2014-05-26 2014-08-20 河海大学常州校区 基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108762079A (zh) * 2018-06-04 2018-11-06 河海大学常州校区 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109750701A (zh) * 2019-03-12 2019-05-14 中交天津航道局有限公司 一种绞吸挖泥船最大产量自动挖泥控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995467A (zh) * 2014-05-26 2014-08-20 河海大学常州校区 基于偏最小二乘法的疏浚作业能耗影响因素主成分提取方法
CN104881992A (zh) * 2015-06-12 2015-09-02 天津大学 基于多智能体仿真的城市公共交通政策分析平台
CN107194612A (zh) * 2017-06-20 2017-09-22 清华大学 一种基于深度强化学习的列车运行调度方法及系统
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108762079A (zh) * 2018-06-04 2018-11-06 河海大学常州校区 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN109750701A (zh) * 2019-03-12 2019-05-14 中交天津航道局有限公司 一种绞吸挖泥船最大产量自动挖泥控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANGYUN WEI等: "Obtaining Human Experience for Intelligent Dredger Control: A Reinforcement Learning Approach", 《APPLIED SCIENCE》 *
WEI CHANGYUN等: "On-Policy Learning for the Swing Process Control of a Cutter Suction Dredger", 《IOP CONFERENCE SERIES: MATERIALS SCIENCE AND ENGINEERING》 *
刘建伟等: "基于值函数和策略梯度的深度强化学习综述", 《计算机学报》 *
魏长赟等: "绞吸挖泥船横移过程的预测控制系统研究", 《机械设计与制造工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111335388A (zh) * 2020-02-21 2020-06-26 中交疏浚技术装备国家工程研究中心有限公司 一种全智能绞吸挖泥船
CN113031642A (zh) * 2021-05-24 2021-06-25 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统
CN113031642B (zh) * 2021-05-24 2021-08-10 北京航空航天大学 动态禁飞区约束的高超声速飞行器轨迹规划方法和系统

Similar Documents

Publication Publication Date Title
CN108762079A (zh) 基于深度强化学习的绞吸挖泥船横移过程控制系统及方法
CN107882103B (zh) 一种挖掘机三维姿态显示及远程自动控制系统
CN110045614A (zh) 一种基于深度学习的绞吸船横移过程自学习控制系统及方法
CN111639811B (zh) 基于改进蚁群算法的多农机协同作业远程管理调度方法
US10462966B2 (en) Controlling a positioning system for an agricultural implement
CN107300925A (zh) 基于改进鱼群算法的四旋翼无人机姿控参数整定方法
US9986685B2 (en) Controlling a positioning system for an agricultural implement
CN109202904A (zh) 一种机械臂运动路径的确定方法及确定系统
CN107390753B (zh) 基于物联网云平台的智能植物生长环境调节装置与方法
CN101916071A (zh) 仿生机器鱼运动的cpg反馈控制方法
CN103472828A (zh) 基于改进蚁群粒子群算法的移动机器人路径规划方法
CN104062902A (zh) Delta机器人时间最优轨迹规划方法
CN110110419A (zh) 一种基于多目标学习的tbm掘进参数预测方法
CN109240091A (zh) 一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
CN106200673A (zh) 一体化自动飞行机动控制方法
CN117355210A (zh) 一种水下机器人装置.水下调控管理最优化系统及方法
CN110989366B (zh) 掘进机的控制方法、掘进机与计算机可读存储介质
CN105974801A (zh) 基于数据驱动的温室环境建模与控制技术
CN113218400A (zh) 一种基于深度强化学习的多智能体导航算法
CN108107881A (zh) 一种新型的果园作业机器人装置及方法
CN114527642B (zh) 一种基于深度强化学习的agv自动调整pid参数的方法
Chen et al. Design and implementation of a novel internet of things irrigation system with a precision irrigation robot
CN102999706B (zh) 一种用于gps控制平地系统的作业路线生成方法及作业路线
CN107831781A (zh) 一种机器鱼运动的控制方法及系统
CN114740858A (zh) 一种采用人工鱼群模型的机器人路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190723