CN114527642B

CN114527642B - 一种基于深度强化学习的agv自动调整pid参数的方法

Info

Publication number: CN114527642B
Application number: CN202210207327.0A
Authority: CN
Inventors: 陈愉彬; 李丹程
Original assignee: 东北大学
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2024-04-02
Anticipated expiration: 2042-03-03
Also published as: CN114527642A

Abstract

本发明公开一种基于深度强化学习的AGV自动调整PID参数的方法，方法首先将生产环境的实际场景进行建模，建立马尔可夫决策过程；然后初始化AGV的当前状态，根据ε‑greedy决策选择动作，获得AGV的下一个状态，并将其发送给AGV运行，获取AGV运行过程中的数据，计算奖励值；接着储存当前状态、动作、奖励值和下一个状态到记忆库中，从记忆库中取样并使用深度强化学习DQN网络模型中的评估网络和目标网络分别计算当前状态和下一状态的所有值函数，使用梯度下降、均方差损失函数计算损失，并将评估网络参数更新到目标网络；最后根据AGV运行情况判断当前的PID是否为最终状态，结束PID参数的调整。本发明的方法不仅适用于所有生产环境，还能提高AGV投入使用的工作效率。

Description

一种基于深度强化学习的AGV自动调整PID参数的方法

技术领域

本发明涉及运动控制技术领域，尤其涉及一种基于深度强化学习的AGV自动调整PID参数的方法。

背景技术

在AGV出厂后，需要对它进行初始化设置，使用一系列PID参数对AGV运动进行控制，使其能够平稳运行。并且在后续使用过程中，如果运动情况出现偏差，需要对它进行重新调整。在AGV控制算法中，PID算法是基础且重要的一部分，PID算法运用简单，但参数正定困难，需要不断地尝试找到最佳的参数。PID算法不仅要考虑控制对象的当前状态值，还需要考虑控制对象过去一段时间的状态值和最近一段时间的状态值变化，由这三方面共同决定输出控制信号。PID控制算法的结果是一个数值，利用这个数值来控制被控对象在多种工作中的状态，例如对AGV运行速度、转弯速度、加速度等的控制。

PID控制的参数整定方法概括起来有两大类：一是理论计算整定法。它主要是依据系统的数学模型，经过理论计算确定控制器参数。这种方法所得到的计算数据未必可以直接用，还必须通过工程实际进行调整和修改。二是工程整定方法，它主要依赖工程经验，直接在控制系统的试验中进行，而且方法简单、易于掌握，在工程实际中被广泛采用。PID控制器参数的工程整定方法，主要有临界比例法、反应曲线法和衰减法。三种方法各有其特点，但无论采用哪一种方法所得到的控制器参数，都需要在实际运行中进行最后调整与完善，通过不断地实验和调整，然后按照工程经验公式，对控制器参数进行整定，确定最佳的PID参数。在此过程中，需要投入大量的人工成本，设置一次参数，需要观测AGV的运行情况，然后再进行调整，多次反复实验才能得到最优的参数，而且运动中微小的偏差肉眼是无法区分的。

每辆AGV都是独一无二的，并且AGV所工作的环境有各种各样不同的影响因素，例如：地面材质、摩擦力等，如果采用现有方式，需要对每辆AGV进行多次地修改PID参数，而且参数调整规律的发现、总结，经验的积累以及参数的设置都需要人员的参与、资源和时间的消耗。

发明内容

针对上述现有技术的不足，本发明提供一种基于深度强化学习的AGV自动调整PID参数的方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于深度强化学习的AGV自动调整PID参数的方法，包括如下步骤：

步骤1：将生产环境的实际场景进行建模，建立马尔可夫决策过程；

进一步的，所述建立马尔可夫决策过程的具体步骤如下：

步骤1.1：把AGV运动控制中需要设置的比例P、积分I、微分D作为状态s，把对比例P、积分I、微分D的改变操作作为动作a，并设置每个参数的调整步长；

步骤1.2：使用AGV运行过程中运行线路的位置偏差和以及角度偏差和来计算奖励值r；

步骤1.3：动作的选择采用ε-greedy决策；

步骤1.4：建立深度强化学习DQN网络模型作为策略的评估模型。

进一步的，所述深度强化学习DQN网络模型由评估网络、目标网络、记忆库和损失函数组成；

所述评估网络和目标网络包含输入层、隐含层、全连接层和输出层；输入层到隐藏层之间通过第一个全连接层进行，并定义forward函数连接输入层到隐藏层，且使用激励函数ReLu来处理经过隐藏层后的值，设置第二个全连接层来连接隐藏层和输出层。

所述输入层中神经元的数目为状态s的个数，隐含层中神经元的数目设为50，输出层中神经元的数目为动作a的个数。

步骤2：初始化AGV的当前状态s，随机生成P、I、D；

步骤3：根据ε-greedy决策选择动作，获得AGV的下一个状态s’，具体过程如下：

步骤3.1：设置贪婪度，定义动作选择函数，如下：

其中，m是动作个数，ε是贪婪度，a*为最优动作，Л为动作策略；

步骤3.2：输入状态s，采用ε-greedy决策，如果随机生成值小于贪婪度ε，则贪婪，通过评估网络选择最优动作；如果随机生成值大于等于贪婪度ε，则探索，随机选择动作，函数返回所选择的动作a；

步骤3.3：根据选择的动作a对状态s进行步长的调整，得到下一个状态s’。

步骤4：发送下一个状态s’的PID给AGV，AGV运行，同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记，并根据位置偏差和与角度偏差和计算奖励值r；

进一步的，所述AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记信息，分别通过创建位置信息发布者和订阅者、终点信息发布者和订阅者以及错误信息发布者和订阅者来实现发布和接收。

步骤5：储存当前状态s、动作a、奖励值r和下一个状态s’到记忆库M中；

步骤6：判断储存次数是否大于记忆库最大容量，若是则执行步骤7和步骤8；若否则跳转到步骤9；

步骤7：从记忆库中随机取样，使用深度强化学习DQN网络模型中的评估网络计算当前状态s的所有值函数Q，使用深度强化学习DQN网络模型中的目标网络计算下一状态s’的所有值函数Q’，结合Q和Q’使用梯度下降、均方差损失函数计算损失，并根据损失更新评估网络；

步骤8：判断评估网络的更新次数是否达到目标网络更新步数，若是则将评估网络参数更新到目标网络；若否则跳转到步骤9；

步骤9：根据AGV运行情况，判断当前状态下设置的PID是否为最终状态或当前设置的PID是否保持两次不变或达到状态改变的阈值；若是则跳转到步骤10；若否则跳转到步骤3；

步骤10：判断是否达到训练次数阈值，若否则重复执行步骤2-9；若是则程序结束。

进一步的，在所述步骤1之后添加深度强化学习DQN网络模型的预训练步骤，具体过程如下：

S1：记忆库从外部获取历史数据，以(状态s,动作a,奖励值r,下一个状态s’)四元组的形式存储到记忆库M中；

S2：判断记忆库是否达到记忆库最大容量，若达到记忆库最大容量则进行网络训练；

所述S2中网络训练的具体步骤同步骤7到步骤9。

训练结束后该算法模型就可以根据给定的初始条件，以最快的速度得出最优的决策，即AGV运动控制中PID参数的调整；并且可以在后续的使用中继续更新网络。

采用上述技术方案所产生的有益效果在于：本发明提供的方法可以摆脱工程整定法带来的缺点，可以减少人员的参与，减少资源和时间的开销；适用于所有生产环境，对于所有的AGV都可以通过此方法调整PID，能够提高AGV投入使用的工作效率。

附图说明

图1为本发明实施例中基于深度强化学习的AGV自动调整PID参数的方法流程图；

图2为本发明实施例中深度强化学习DQN网络模型结构图示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本实施例中基于深度强化学习的AGV自动调整PID参数的方法如下所述。

本实施例中，需要设置的初始参数包括学习次数计数器、记忆库最大容量、目标网络更新频率、网络学习的样本数量、贪婪度、衰减因子、参数调整步长、参数精度；

进一步的，所述建立马尔可夫决策过程的具体步骤如下：

所述动作a分为增大、减小和不变。

步骤1.3：动作的选择采用ε-greedy决策；

进一步的，所述深度强化学习DQN网络模型如图2所示，由评估网络、目标网络、记忆库和损失函数组成；

所述评估网络和目标网络包含输入层、隐含层、全连接层和输出层；输入层到隐藏层之间通过第一个全连接层进行，并定义forward函数连接输入层到隐藏层，且使用激励函数ReLu来处理经过隐藏层后的值，设置第二个全连接层来连接隐藏层和输出层。模型输出为输入状态的所有值函数Q(s,a)，根据Q值的大小选择最优的动作，因为场景的状态多，使用列表储存Q值会占用很多空间，在本实施例中只考虑当前状态下的Q值，通过评估网络的输出直接得到结果，节省了空间。

步骤2：初始化AGV的当前状态s，随机生成P、I、D；

步骤3.1：设置贪婪度，定义动作选择函数，如下：

步骤4：发送下一个状态s’的PID给AGV，AGV运行，同时获取AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记，并根据位置偏差和与角度偏差和计算奖励值r；偏差和越小奖励值越高，反之奖励值越低。

在上述实施例中，所述评估网络向AGV输出的为当前状态、动作和网络权重下最大的Q估计值，即动作选择决策，也就是对PID的调整方式；向所述损失函数输出的是当前状态、动作和网络权重下的Q估计值。

所述记忆库向评估网络输出的是当前设置的PID和对PID进行调整的操作；向损失函数输出的是当前设置的PID进行调整后的PID对AGV运行带来的奖励；向所述目标网络输出的是调整后的AGV的PID。

所述S2中网络训练的具体步骤同步骤7到步骤9。

本实施例中，预训练首先读取data文件，将文件中的历史数据储存到记忆库中，如果记忆库达到最大容量，则进行网络的训练；如果不需要，则初始化记忆库，随机生成网络参数。

Claims

1.一种基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，包括如下步骤：

步骤2：初始化AGV的当前状态s，随机生成P、I、D；

步骤3：根据ε-greedy决策选择动作，获得AGV的下一个状态s’；

2.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，所述建立马尔可夫决策过程的具体步骤如下：

步骤1.3：动作的选择采用ε-greedy决策；

3.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，在所述步骤1之后添加深度强化学习DQN网络模型的预训练步骤，具体过程如下：

所述S2中网络训练的具体步骤同步骤7到步骤9。

4.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，所述AGV运行过程中的横坐标x、纵坐标y、角度theta、终点坐标和是否运行结束标记信息，分别通过创建位置信息发布者和订阅者、终点信息发布者和订阅者以及错误信息发布者和订阅者来实现发布和接收。

5.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，所述步骤3的过程如下：

步骤3.1：设置贪婪度，定义动作选择函数，如下：

6.根据权利要求1所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，所述深度强化学习DQN网络模型由评估网络、目标网络、记忆库和损失函数组成；

7.根据权利要求6所述的基于深度强化学习的AGV自动调整PID参数的方法，其特征在于，所述输入层中神经元的数目为状态s的个数，隐含层中神经元的数目设为50，输出层中神经元的数目为动作a的个数。