CN114527642B - 一种基于深度强化学习的agv自动调整pid参数的方法 - Google Patents

一种基于深度强化学习的agv自动调整pid参数的方法 Download PDF

Info

Publication number
CN114527642B
CN114527642B CN202210207327.0A CN202210207327A CN114527642B CN 114527642 B CN114527642 B CN 114527642B CN 202210207327 A CN202210207327 A CN 202210207327A CN 114527642 B CN114527642 B CN 114527642B
Authority
CN
China
Prior art keywords
agv
reinforcement learning
network
state
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210207327.0A
Other languages
English (en)
Other versions
CN114527642A (zh
Inventor
陈愉彬
李丹程
Original Assignee
东北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 东北大学 filed Critical 东北大学
Priority to CN202210207327.0A priority Critical patent/CN114527642B/zh
Publication of CN114527642A publication Critical patent/CN114527642A/zh
Application granted granted Critical
Publication of CN114527642B publication Critical patent/CN114527642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/60Electric or hybrid propulsion means for production processes

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于深度强化学习的AGV自动调整PID参数的方法,方法首先将生产环境的实际场景进行建模,建立马尔可夫决策过程;然后初始化AGV的当前状态,根据ε‑greedy决策选择动作,获得AGV的下一个状态,并将其发送给AGV运行,获取AGV运行过程中的数据,计算奖励值;接着储存当前状态、动作、奖励值和下一个状态到记忆库中,从记忆库中取样并使用深度强化学习DQN网络模型中的评估网络和目标网络分别计算当前状态和下一状态的所有值函数,使用梯度下降、均方差损失函数计算损失,并将评估网络参数更新到目标网络;最后根据AGV运行情况判断当前的PID是否为最终状态,结束PID参数的调整。本发明的方法不仅适用于所有生产环境,还能提高AGV投入使用的工作效率。

Description

一种基于深度强化学习的AGV自动调整PID参数的方法
技术领域
本发明涉及运动控制技术领域,尤其涉及一种基于深度强化学习的AGV自动调整PID参数的方法。
背景技术
在AGV出厂后,需要对它进行初始化设置,使用一系列PID参数对AGV运动进行控制,使其能够平稳运行。并且在后续使用过程中,如果运动情况出现偏差,需要对它进行重新调整。在AGV控制算法中,PID算法是基础且重要的一部分,PID算法运用简单,但参数正定困难,需要不断地尝试找到最佳的参数。PID算法不仅要考虑控制对象的当前状态值,还需要考虑控制对象过去一段时间的状态值和最近一段时间的状态值变化,由这三方面共同决定输出控制信号。PID控制算法的结果是一个数值,利用这个数值来控制被控对象在多种工作中的状态,例如对AGV运行速度、转弯速度、加速度等的控制。
PID控制的参数整定方法概括起来有两大类:一是理论计算整定法。它主要是依据系统的数学模型,经过理论计算确定控制器参数。这种方法所得到的计算数据未必可以直接用,还必须通过工程实际进行调整和修改。二是工程整定方法,它主要依赖工程经验,直接在控制系统的试验中进行,而且方法简单、易于掌握,在工程实际中被广泛采用。PID控制器参数的工程整定方法,主要有临界比例法、反应曲线法和衰减法。三种方法各有其特点,但无论采用哪一种方法所得到的控制器参数,都需要在实际运行中进行最后调整与完善,通过不断地实验和调整,然后按照工程经验公式,对控制器参数进行整定,确定最佳的PID参数。在此过程中,需要投入大量的人工成本,设置一次参数,需要观测AGV的运行情况,然后再进行调整,多次反复实验才能得到最优的参数,而且运动中微小的偏差肉眼是无法区分的。
每辆AGV都是独一无二的,并且AGV所工作的环境有各种各样不同的影响因素,例如:地面材质、摩擦力等,如果采用现有方式,需要对每辆AGV进行多次地修改PID参数,而且参数调整规律的发现、总结,经验的积累以及参数的设置都需要人员的参与、资源和时间的消耗。
发明内容
针对上述现有技术的不足,本发明提供一种基于深度强化学习的AGV自动调整PID参数的方法。
为解决上述技术问题,本发明所采取的技术方案是:一种基于深度强化学习的AGV自动调整PID参数的方法,包括如下步骤:
步骤1:将生产环境的实际场景进行建模,建立马尔可夫决策过程;
进一步的,所述建立马尔可夫决策过程的具体步骤如下:
步骤1.1:把AGV运动控制中需要设置的比例P、积分I、微分D作为状态s,把对比例P、积分I、微分D的改变操作作为动作a,并设置每个参数的调整步长;
步骤1.2:使用AGV运行过程中运行线路的位置偏差和以及角度偏差和来计算奖励值r;
步骤1.3:动作的选择采用ε-greedy决策;
步骤1.4:建立深度强化学习DQN网络模型作为策略的评估模型。
进一步的,所述深度强化学习DQN网络模型由评估网络、目标网络、记忆库和损失函数组成;
所述评估网络和目标网络包含输入层、隐含层、全连接层和输出层;输入层到隐藏层之间通过第一个全连接层进行,并定义forward函数连接输入层到隐藏层,且使用激励函数ReLu来处理经过隐藏层后的值,设置第二个全连接层来连接隐藏层和输出层。
所述输入层中神经元的数目为状态s的个数,隐含层中神经元的数目设为50,输出层中神经元的数目为动作a的个数。
步骤2:初始化AGV的当前状态s,随机生成P、I、D;
步骤3:根据ε-greedy决策选择动作,获得AGV的下一个状态s’,具体过程如下:
步骤3.1:设置贪婪度,定义动作选择函数,如下:
其中,m是动作个数,ε是贪婪度,a*为最优动作,Л为动作策略;
步骤3.2:输入状态s,采用ε-greedy决策,如果随机生成值小于贪婪度ε,则贪婪,通过评估网络选择最优动作;如果随机生成值大于等于贪婪度ε,则探索,随机选择动作,函数返回所选择的动作a;
步骤3.3:根据选择的动作a对状态s进行步长的调整,得到下一个状态s’。
步骤4:发送下一个状态s’的PID给AGV,AGV运行,同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记,并根据位置偏差和与角度偏差和计算奖励值r;
进一步的,所述AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记信息,分别通过创建位置信息发布者和订阅者、终点信息发布者和订阅者以及错误信息发布者和订阅者来实现发布和接收。
步骤5:储存当前状态s、动作a、奖励值r和下一个状态s’到记忆库M中;
步骤6:判断储存次数是否大于记忆库最大容量,若是则执行步骤7和步骤8;若否则跳转到步骤9;
步骤7:从记忆库中随机取样,使用深度强化学习DQN网络模型中的评估网络计算当前状态s的所有值函数Q,使用深度强化学习DQN网络模型中的目标网络计算下一状态s’的所有值函数Q’,结合Q和Q’使用梯度下降、均方差损失函数计算损失,并根据损失更新评估网络;
步骤8:判断评估网络的更新次数是否达到目标网络更新步数,若是则将评估网络参数更新到目标网络;若否则跳转到步骤9;
步骤9:根据AGV运行情况,判断当前状态下设置的PID是否为最终状态或当前设置的PID是否保持两次不变或达到状态改变的阈值;若是则跳转到步骤10;若否则跳转到步骤3;
步骤10:判断是否达到训练次数阈值,若否则重复执行步骤2-9;若是则程序结束。
进一步的,在所述步骤1之后添加深度强化学习DQN网络模型的预训练步骤,具体过程如下:
S1:记忆库从外部获取历史数据,以(状态s,动作a,奖励值r,下一个状态s’)四元组的形式存储到记忆库M中;
S2:判断记忆库是否达到记忆库最大容量,若达到记忆库最大容量则进行网络训练;
所述S2中网络训练的具体步骤同步骤7到步骤9。
训练结束后该算法模型就可以根据给定的初始条件,以最快的速度得出最优的决策,即AGV运动控制中PID参数的调整;并且可以在后续的使用中继续更新网络。
采用上述技术方案所产生的有益效果在于:本发明提供的方法可以摆脱工程整定法带来的缺点,可以减少人员的参与,减少资源和时间的开销;适用于所有生产环境,对于所有的AGV都可以通过此方法调整PID,能够提高AGV投入使用的工作效率。
附图说明
图1为本发明实施例中基于深度强化学习的AGV自动调整PID参数的方法流程图;
图2为本发明实施例中深度强化学习DQN网络模型结构图示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例中基于深度强化学习的AGV自动调整PID参数的方法如下所述。
本实施例中,需要设置的初始参数包括学习次数计数器、记忆库最大容量、目标网络更新频率、网络学习的样本数量、贪婪度、衰减因子、参数调整步长、参数精度;
步骤1:将生产环境的实际场景进行建模,建立马尔可夫决策过程;
进一步的,所述建立马尔可夫决策过程的具体步骤如下:
步骤1.1:把AGV运动控制中需要设置的比例P、积分I、微分D作为状态s,把对比例P、积分I、微分D的改变操作作为动作a,并设置每个参数的调整步长;
所述动作a分为增大、减小和不变。
步骤1.2:使用AGV运行过程中运行线路的位置偏差和以及角度偏差和来计算奖励值r;
步骤1.3:动作的选择采用ε-greedy决策;
步骤1.4:建立深度强化学习DQN网络模型作为策略的评估模型。
进一步的,所述深度强化学习DQN网络模型如图2所示,由评估网络、目标网络、记忆库和损失函数组成;
所述评估网络和目标网络包含输入层、隐含层、全连接层和输出层;输入层到隐藏层之间通过第一个全连接层进行,并定义forward函数连接输入层到隐藏层,且使用激励函数ReLu来处理经过隐藏层后的值,设置第二个全连接层来连接隐藏层和输出层。模型输出为输入状态的所有值函数Q(s,a),根据Q值的大小选择最优的动作,因为场景的状态多,使用列表储存Q值会占用很多空间,在本实施例中只考虑当前状态下的Q值,通过评估网络的输出直接得到结果,节省了空间。
所述输入层中神经元的数目为状态s的个数,隐含层中神经元的数目设为50,输出层中神经元的数目为动作a的个数。
步骤2:初始化AGV的当前状态s,随机生成P、I、D;
步骤3:根据ε-greedy决策选择动作,获得AGV的下一个状态s’,具体过程如下:
步骤3.1:设置贪婪度,定义动作选择函数,如下:
其中,m是动作个数,ε是贪婪度,a*为最优动作,Л为动作策略;
步骤3.2:输入状态s,采用ε-greedy决策,如果随机生成值小于贪婪度ε,则贪婪,通过评估网络选择最优动作;如果随机生成值大于等于贪婪度ε,则探索,随机选择动作,函数返回所选择的动作a;
步骤3.3:根据选择的动作a对状态s进行步长的调整,得到下一个状态s’。
步骤4:发送下一个状态s’的PID给AGV,AGV运行,同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记,并根据位置偏差和与角度偏差和计算奖励值r;偏差和越小奖励值越高,反之奖励值越低。
进一步的,所述AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记信息,分别通过创建位置信息发布者和订阅者、终点信息发布者和订阅者以及错误信息发布者和订阅者来实现发布和接收。
步骤5:储存当前状态s、动作a、奖励值r和下一个状态s’到记忆库M中;
步骤6:判断储存次数是否大于记忆库最大容量,若是则执行步骤7和步骤8;若否则跳转到步骤9;
步骤7:从记忆库中随机取样,使用深度强化学习DQN网络模型中的评估网络计算当前状态s的所有值函数Q,使用深度强化学习DQN网络模型中的目标网络计算下一状态s’的所有值函数Q’,结合Q和Q’使用梯度下降、均方差损失函数计算损失,并根据损失更新评估网络;
在上述实施例中,所述评估网络向AGV输出的为当前状态、动作和网络权重下最大的Q估计值,即动作选择决策,也就是对PID的调整方式;向所述损失函数输出的是当前状态、动作和网络权重下的Q估计值。
所述记忆库向评估网络输出的是当前设置的PID和对PID进行调整的操作;向损失函数输出的是当前设置的PID进行调整后的PID对AGV运行带来的奖励;向所述目标网络输出的是调整后的AGV的PID。
步骤8:判断评估网络的更新次数是否达到目标网络更新步数,若是则将评估网络参数更新到目标网络;若否则跳转到步骤9;
步骤9:根据AGV运行情况,判断当前状态下设置的PID是否为最终状态或当前设置的PID是否保持两次不变或达到状态改变的阈值;若是则跳转到步骤10;若否则跳转到步骤3;
步骤10:判断是否达到训练次数阈值,若否则重复执行步骤2-9;若是则程序结束。
进一步的,在所述步骤1之后添加深度强化学习DQN网络模型的预训练步骤,具体过程如下:
S1:记忆库从外部获取历史数据,以(状态s,动作a,奖励值r,下一个状态s’)四元组的形式存储到记忆库M中;
S2:判断记忆库是否达到记忆库最大容量,若达到记忆库最大容量则进行网络训练;
所述S2中网络训练的具体步骤同步骤7到步骤9。
本实施例中,预训练首先读取data文件,将文件中的历史数据储存到记忆库中,如果记忆库达到最大容量,则进行网络的训练;如果不需要,则初始化记忆库,随机生成网络参数。
训练结束后该算法模型就可以根据给定的初始条件,以最快的速度得出最优的决策,即AGV运动控制中PID参数的调整;并且可以在后续的使用中继续更新网络。

Claims (7)

1.一种基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,包括如下步骤:
步骤1:将生产环境的实际场景进行建模,建立马尔可夫决策过程;
步骤2:初始化AGV的当前状态s,随机生成P、I、D;
步骤3:根据ε-greedy决策选择动作,获得AGV的下一个状态s’;
步骤4:发送下一个状态s’的PID给AGV,AGV运行,同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记,并根据位置偏差和与角度偏差和计算奖励值r;
步骤5:储存当前状态s、动作a、奖励值r和下一个状态s’到记忆库M中;
步骤6:判断储存次数是否大于记忆库最大容量,若是则执行步骤7和步骤8;若否则跳转到步骤9;
步骤7:从记忆库中随机取样,使用深度强化学习DQN网络模型中的评估网络计算当前状态s的所有值函数Q,使用深度强化学习DQN网络模型中的目标网络计算下一状态s’的所有值函数Q’,结合Q和Q’使用梯度下降、均方差损失函数计算损失,并根据损失更新评估网络;
步骤8:判断评估网络的更新次数是否达到目标网络更新步数,若是则将评估网络参数更新到目标网络;若否则跳转到步骤9;
步骤9:根据AGV运行情况,判断当前状态下设置的PID是否为最终状态或当前设置的PID是否保持两次不变或达到状态改变的阈值;若是则跳转到步骤10;若否则跳转到步骤3;
步骤10:判断是否达到训练次数阈值,若否则重复执行步骤2-9;若是则程序结束。
2.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,所述建立马尔可夫决策过程的具体步骤如下:
步骤1.1:把AGV运动控制中需要设置的比例P、积分I、微分D作为状态s,把对比例P、积分I、微分D的改变操作作为动作a,并设置每个参数的调整步长;
步骤1.2:使用AGV运行过程中运行线路的位置偏差和以及角度偏差和来计算奖励值r;
步骤1.3:动作的选择采用ε-greedy决策;
步骤1.4:建立深度强化学习DQN网络模型作为策略的评估模型。
3.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,在所述步骤1之后添加深度强化学习DQN网络模型的预训练步骤,具体过程如下:
S1:记忆库从外部获取历史数据,以(状态s,动作a,奖励值r,下一个状态s’)四元组的形式存储到记忆库M中;
S2:判断记忆库是否达到记忆库最大容量,若达到记忆库最大容量则进行网络训练;
所述S2中网络训练的具体步骤同步骤7到步骤9。
4.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,所述AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记信息,分别通过创建位置信息发布者和订阅者、终点信息发布者和订阅者以及错误信息发布者和订阅者来实现发布和接收。
5.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,所述步骤3的过程如下:
步骤3.1:设置贪婪度,定义动作选择函数,如下:
其中,m是动作个数,ε是贪婪度,a*为最优动作,Л为动作策略;
步骤3.2:输入状态s,采用ε-greedy决策,如果随机生成值小于贪婪度ε,则贪婪,通过评估网络选择最优动作;如果随机生成值大于等于贪婪度ε,则探索,随机选择动作,函数返回所选择的动作a;
步骤3.3:根据选择的动作a对状态s进行步长的调整,得到下一个状态s’。
6.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,所述深度强化学习DQN网络模型由评估网络、目标网络、记忆库和损失函数组成;
所述评估网络和目标网络包含输入层、隐含层、全连接层和输出层;输入层到隐藏层之间通过第一个全连接层进行,并定义forward函数连接输入层到隐藏层,且使用激励函数ReLu来处理经过隐藏层后的值,设置第二个全连接层来连接隐藏层和输出层。
7.根据权利要求6所述的基于深度强化学习的AGV自动调整PID参数的方法,其特征在于,所述输入层中神经元的数目为状态s的个数,隐含层中神经元的数目设为50,输出层中神经元的数目为动作a的个数。
CN202210207327.0A 2022-03-03 2022-03-03 一种基于深度强化学习的agv自动调整pid参数的方法 Active CN114527642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210207327.0A CN114527642B (zh) 2022-03-03 2022-03-03 一种基于深度强化学习的agv自动调整pid参数的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210207327.0A CN114527642B (zh) 2022-03-03 2022-03-03 一种基于深度强化学习的agv自动调整pid参数的方法

Publications (2)

Publication Number Publication Date
CN114527642A CN114527642A (zh) 2022-05-24
CN114527642B true CN114527642B (zh) 2024-04-02

Family

ID=81627040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210207327.0A Active CN114527642B (zh) 2022-03-03 2022-03-03 一种基于深度强化学习的agv自动调整pid参数的方法

Country Status (1)

Country Link
CN (1) CN114527642B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898822A (zh) * 2022-07-15 2022-08-12 烟台国工智能科技有限公司 基于价值学习的多目标属性分子生成方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN111781840A (zh) * 2020-08-14 2020-10-16 哈尔滨商业大学 基于深度强化学习无模型自适应混水温度控制系统及方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN112016811A (zh) * 2020-08-04 2020-12-01 四叶草(苏州)智能科技有限公司 一种基于强化学习的agv智能调度系统及方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113093526A (zh) * 2021-04-02 2021-07-09 浙江工业大学 一种基于强化学习的无超调pid控制器参数整定方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
JP2021034050A (ja) * 2019-08-21 2021-03-01 哈爾浜工程大学 強化学習に基づくauv行動計画及び動作制御方法
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN112016811A (zh) * 2020-08-04 2020-12-01 四叶草(苏州)智能科技有限公司 一种基于强化学习的agv智能调度系统及方法
CN111898211A (zh) * 2020-08-07 2020-11-06 吉林大学 基于深度强化学习的智能车速度决策方法及其仿真方法
CN111781840A (zh) * 2020-08-14 2020-10-16 哈尔滨商业大学 基于深度强化学习无模型自适应混水温度控制系统及方法
AU2021100503A4 (en) * 2020-12-04 2021-04-15 East China Jiaotong University Method and system for controlling heavy-haul train based on reinforcement learning
CN112861269A (zh) * 2021-03-11 2021-05-28 合肥工业大学 一种基于深度强化学习优先提取的汽车纵向多态控制方法
CN113093526A (zh) * 2021-04-02 2021-07-09 浙江工业大学 一种基于强化学习的无超调pid控制器参数整定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
分布式测量系统服务窗口动态调度算法研究;李丹程;罗小川;姜琳颖;宋航;朱志良;;小型微型计算机系统;20080315(第03期);全文 *
姚杰 ; 柯飂挺 ; 任佳 ; .基于深度强化学习的自适应增益控制算法.浙江理工大学学报(自然科学版).(第05期),全文. *

Also Published As

Publication number Publication date
CN114527642A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN112052936B (zh) 基于生成对抗机制的强化学习探索方法及装置
CN107272403A (zh) 一种基于改进粒子群算法的pid控制器参数整定算法
CN112286218B (zh) 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN114527642B (zh) 一种基于深度强化学习的agv自动调整pid参数的方法
CN113156980A (zh) 一种基于深度强化学习的塔式起重机路径规划方法及系统
CN113093526B (zh) 一种基于强化学习的无超调pid控制器参数整定方法
CN111783994A (zh) 强化学习的训练方法和装置
Ma et al. State-chain sequential feedback reinforcement learning for path planning of autonomous mobile robots
Bianchi et al. Heuristically accelerated reinforcement learning: Theoretical and experimental results
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116551703B (zh) 一种复杂环境下基于机器学习的运动规划方法
CN116755323A (zh) 一种基于深度强化学习的多旋翼无人机pid自整定方法
Sastry et al. Differential evolution based fuzzy logic controller for nonlinear process control
CN115796364A (zh) 一种面向离散制造系统的智能交互式决策方法
CN113919217B (zh) 自抗扰控制器自适应参数整定方法及装置
CN109993271A (zh) 基于博弈理论的灰色神经网络预测方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
Chowdhury et al. A Novel Entropy-Maximizing TD3-based Reinforcement Learning for Automatic PID Tuning
Zhang et al. Gliding control of underwater gliding snake-like robot based on reinforcement learning
Asadi et al. Accellerating Action Dependent Hierarchical Reinforcement Learning through Autonomous Subgoal Discovery
Hayashida et al. Improved anticipatory classifier system with internal memory for POMDPs with aliased states
CN112597693A (zh) 一种基于深度确定性策略梯度的自适应控制方法
CN116755046B (zh) 一种不完美专家策略的多功能雷达干扰决策方法
Deng et al. Dynamic fuzzy Q-learning and control of mobile robots
Liao et al. Design of a hierarchical-clustering CMAC-PID controller

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant