CN108803348B

CN108803348B - 一种pid参数的优化方法及pid参数的优化装置

Info

Publication number: CN108803348B
Application number: CN201810876323.5A
Authority: CN
Inventors: 刘建都; 王柯; 刘旭; 李梦伟; 戚骁亚
Original assignee: Beijing Deep Singularity Technology Co ltd
Current assignee: Beijing Deep Singularity Technology Co ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2021-07-13
Anticipated expiration: 2038-08-03
Also published as: CN108803348A

Abstract

本申请涉及一种PID参数的优化方法及PID参数的优化装置，属于机器人控制器领域。本申请对机械臂运动质量进行评估；通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行。通过贪婪算法可实现从回归模型不断进行采样，直至得到最优PID参数，以提供给控制器执行，能有效解决控制器PID参数的自动优化的问题，进而实现对控制器PID参数优化的方面改进。

Description

一种PID参数的优化方法及PID参数的优化装置

技术领域

本申请属于机器人控制领域，具体涉及一种PID参数的优化方法及PID参数的优化装置。

背景技术

近年来随着控制系统的复杂性增加，同时现代控制理论的发展，大量新的控制算法被发展出来，如自适应控制，专家控制，鲁棒控制，迭代学习控制，模糊控制等等。但在工业控制领域，PID控制器由于其简单易用、良好鲁棒性等特性被广泛应用。在机器人控制领域PID控制器也由于其良好特性被大量应用在机械臂关节电机的伺服控制中，但由于机器人系统的复杂性、动态性、环境的不确定性以及在工业生产过程中对机械臂的准确性和稳定性要求很高，然而PID控制的PID参数对机器人的运动性能有至关重要的影响。当前国内大多数机械臂PID参数的调节还是根据经验人工调节，对于机械臂不同运动轨迹下人工调节PID参数耗费大量的人力物力，并且人工调节的PID控制器参数也不能保证是最优的控制性能，所以对实现高效稳定的自动调节PID控制器参数的功能产品需求很大。

因而，在控制器PID参数的优化方面依然存在改进的需求。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种PID参数的优化方法及PID参数的优化装置。

为实现以上目的，本申请采用如下技术方案：

第一方面，

本申请提供了一种PID参数的优化方法，所述方法包括：

对机械臂运动质量进行评估；

通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；

采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行。

进一步地，所述对机械臂运动质量进行评估，包括：

获取机械臂的规划运动轨迹以及所述规划运动轨迹相对应的真实运行轨迹；

对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果；和/或，

对所述规划运动轨迹和所述真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果。

进一步地，所述对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果，包括：

计算所述规划运动轨迹和所述真实运动轨迹之间各点的误差绝对值；

根据所述误差绝对值的最大值得到第一准确性评估值；

根据所述误差绝对值的平均值得到第二准确性评估值；

计算第一准确性评估值和第二准确性评估值的加权平均值，以所述加权平均值作为准确性比较评估结果。

进一步地，所述对所述规划运动轨迹和所述真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果，包括：

通过电机的目标值和响应值得到位置误差的绝对值数据，将位置误差的绝对值数据进行FFT，在预设频率范围内计算位置数据稳定性评估值；

通过电机的速度数据的指令值和响应值得到速度误差的绝对值数据，将速度误差的绝对值数据进行FFT，在预设频率范围内计算速度数据稳定性评估值；

将转矩数据的响应值进行FFT，在预设频率范围内计算转矩数据稳定性评估值；

计算位置数据稳定性评估值、速度数据稳定性评估值和转矩数据稳定性评估值的加权和，以所述加权和作为稳定性比较评估结果。

进一步地，所述通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型，包括：

根据对机械臂运动质量进行的评估，得到各个PID参数及对应的评估结果；

将各个PID参数及其对应的评估结果作为样本数据；

利用所述样本数据对多层前馈神经网络进行训练，得到所述回归模型。

进一步地，在采用贪婪算法从所述回归模型中获取PID参数，提供给控制器控制机械臂运行后，所述方法还包括：

对机械臂运动质量进行评估，并根据所述评估更新所述回归模型。

第二方面，

本申请提供了一种PID参数的优化装置，所述装置包括：

运动质量评估模块，用于对机械臂运动质量进行评估；

回归模型模块，用于通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；

获取模块，采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行。

进一步地，所述运动质量评估模块具体用于：

进一步地，所述回归模型模块具体用于：

将各个PID参数及其对应的评估结果作为样本数据；

进一步地，所述装置还包括：

更新模块，用于在采用贪婪算法从所述回归模型中获取PID参数，提供给控制器控制机械臂运行后，对机械臂运动质量进行评估，并根据所述评估更新所述回归模型。

本申请采用以上技术方案，至少具备以下有益效果：

对机械臂运动质量进行评估，通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；通过贪婪算法从回归模型不断进行采样，直至得到最优PID参数，以提供给控制器执行，能有效解决控制器PID参数的自动优化的问题，进而实现对控制器PID参数优化的方面改进。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的PID参数的优化方法的流程示意图；

图2为本申请一个实施例提供的对机械臂运动质量进行评估的流程示意图；

图3为本申请一个实施例提供的对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果的流程示意图；

图4为本申请一个实施例提供的对规划运动轨迹和真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果的流程示意图；

图5为本申请一个实施例提供的通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型的流程示意图；

图6为本申请另一个实施例提供的PID参数的优化方法的流程示意图；

图7为本申请一个实施例提供的PID参数的优化装置的结构示意图；

图8为本申请另一个实施例提供的PID参数的优化装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

图1为本申请一个实施例提供的PID参数的优化方法的流程示意图，如图1所示，该PID参数的优化方法包括如下步骤：

步骤S101、对机械臂运动质量进行评估；

步骤S102、通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；

步骤S103、采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行。

可以理解的是，上述实施例方案中，通过对机械臂运动质量进行评估，可以得到涉及机械臂运行的各个PID参数的评估结果，通过神经网络对PID参数及其对应的评估结果进行学习，可以得到回归模型，通过回归模型可以对输入的PID参数形成预测，该预测结果能够表征PID控制器控制机械臂执行PID参数后的运动质量情况。在具体应用时，输入一个PID参数，通过回归模型对该PID参数进行预测，并得到预测结果，根据预测结果，贪婪算法能从回归模型中不断进行采样，直至得到最优PID参数，作为下一次要执行的PID参数，提供给控制器执行，能有效解决控制器PID参数的自动优化的问题，从而实现对控制器PID参数优化的方面改进。

在具体应用中，采用贪婪算法从所述回归模型中获取下一次要执行PID参数的一个具体应用中，可以根据采样函数探索得到下一次迭代的PID参数，比如，根据神经网络回归模型，采用贪婪探索方式选择下一个采样点，贪婪采样以50％的概率在回归模型的前10个最大值中随机选择下一采样点；若没有获取到采样点，以另外50％的概率在整个可接受空间中随机选择下一采样点。采样函数能够根据回归模型并且充分利用收集的数据确定一个更好的采样点，下一个采样点的选择既能保证历史数据的充分利用又能保证探索性。

图2为本申请一个实施例提供的对机械臂运动质量进行评估的流程示意图；如图2所示，所述对机械臂运动质量进行评估，包括如下步骤：

步骤S201、获取机械臂的规划运动轨迹以及所述规划运动轨迹相对应的真实运行轨迹。

步骤S202、对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果；和/或，

可以理解的是，上述实施例方案中，机械臂具有提前规划好的运动轨迹，该规划运动轨迹即为控制机械臂运动的目标轨迹。当PID控制器根据PID参数控制机械臂按该规划运动轨迹运动时，会形成一个真实运动轨迹。该真实运动轨迹与规划运动轨迹之间可能并非完全重合，它们之间存在误差，因而可以根据规划运动轨迹与真实运动轨迹对PID参数进行评估。

对于根据规划运动轨迹与真实运动轨迹对PID参数进行的评估，可通过准确性和/或稳定性获得，当准确性和稳定性两者都采纳获得的评估结果，对PID参数进行的评估更佳。

图3为本申请一个实施例提供的对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果的流程示意图；如图3所示，所述对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果，包括如下步骤：

步骤S301、计算所述规划运动轨迹和所述真实运动轨迹之间各点的误差绝对值；

步骤S302、根据所述误差绝对值的最大值得到第一准确性评估值；

步骤S303、根据所述误差绝对值的平均值得到第二准确性评估值；

步骤S304、计算第一准确性评估值和第二准确性评估值的加权平均值，以所述加权平均值作为准确性比较评估结果。

在一个具体的应用中，以PID控制器控制机械臂关节电机运动为例。对规划运动轨迹和真实运动轨迹进行准确性比较评估，得到准确性比较评估结果的具体过程如下：

计算机械臂关节电机目标轨迹位置和真实轨迹位置之间的误差绝对值

P_error＝|P_goal-P_real|

其中，P_error为误差绝对值，P_goal为目标轨迹位置，P_real为真实轨迹位置。

得到电机位置误差绝对值P_error的最大值P_error-max，则最大值对应的准确性评估值Reward_max为：

如果P_{error_max}<0.5*π，Reward_max＝0；

如果P_{error_max}≥0.5*π，Reward_max＝-(P_{error_max}-0.5*π)²。

计算得到电机位置误差绝对值的平均值P_{error-average}，则平均值对应的准确性评估值Reward_average为：

如果P_{error_average}<0.25*π,，Reward_average＝0；

如果P_{error_average}≥0.25*π，Reward_average＝(P_{error_averagex}-0.25*π)²。

准确性比较评估结果为：

Reward_accuracy＝λ_max*Reward_max+λ_average*Reward_average

其中，λ_max和λ_average均为加权系数。

图4为本申请一个实施例提供的对规划运动轨迹和真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果的流程示意图，如图4所示，所述对规划运动轨迹和真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果，包括：

步骤S401、过电机的目标值和响应值得到位置误差的绝对值数据，将位置误差的绝对值数据进行FFT(快速傅氏变换)，在预设频率范围内计算位置数据稳定性评估值；

步骤S402、通过电机的速度数据的指令值和响应值得到速度误差的绝对值数据；将速度误差的绝对值数据进行FFT，在预设频率范围内计算速度数据稳定性评估值；

步骤S403、将转矩数据的响应值进行FFT，在预设频率范围内计算转矩数据稳定性评估值；

步骤S404、计算位置数据稳定性评估值、速度数据稳定性评估值和转矩数据稳定性评估值的加权和，以所述加权和作为稳定性比较评估结果。

通过机械臂关节电机的目标值和响应值得到位置误差的绝对值数据。将位置误差的绝对值数据进行1024点的FFT，得到该数据的频域表示，在频率范围在2Hz至200Hz的范围内，计算位置数据相关的电机的稳定性评估值

Reward^P _stability，如下式所示：

Reward^P _stability＝-(∑A_freq*Freq)/1024

其中，A_freq为每个频率点对应的幅值，Freq对应频率点的频率值。

通过电机的速度数据的指令值和响应值得到速度误差的绝对值数据。将速度误差的绝对值数据进行1024点的FFT，得到该数据的频域表示，在频率范围在2Hz至200Hz的范围内，计算速度数据相关的电机的稳定性评估值，如下式所示：

Reward^V _stability＝-(∑A_freq*Freq)/1024

(3)将转矩数据的响应值进行1024点的FFT，得到该数据的频域表示，在频率范围在2Hz至200Hz的范围内，计算转矩数据相关的电机的稳定性评估值，如下式所示：

Reward^J _stability＝-(∑A_freq*Freq)/1024

(5)该轨迹对应的机械臂运动稳定性的评估值为位置数据、速度数据和转矩数据评估值的加权和。

Reward_stability＝λ_P*Reward^P _stability+λ_v*Reward^v _stability+λ_J*Reward^J _stability

其中，λ_P、λ_v和λ_J均为加权系数。

图5为本申请一个实施例提供的通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型的流程示意图，如图5所示，所述通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型，包括如下步骤：

步骤S501、根据对机械臂运动质量进行的评估，得到各个PID参数及对应的评估结果。

可以理解的是，根据对规划运动轨迹和真实运动轨迹比较评估，可以得到PID参数的评估结果，该PID参数的评估结果可以表征该PID参数被PID控制器执行时，控制机械臂运动的运动质量的优劣情况。

步骤S502、将各个PID参数及其对应的评估结果作为样本数据；

可以理解的是，样本数据用于提供给神经网络进行训练学习，作为输入的数据是PID参数，作为输出的数据是评估结果。因而在具体应用中，可以建立样本库，该样本库中存储足够量的样本数据，以提供足够多的训练学习量。

步骤S503、利用所述样本数据对多层前馈神经网络进行训练，得到所述回归模型。

在一个应用场景中，多层前馈神经网络，其输入层神经元的个数是三个，一个隐藏层，隐藏层的神经元的个数可以是五十个，输出层神经元的个数是一个。其中，隐藏层和输出层的激活函数可以选用ReLU激活函数，损失函数是MSE函数加L2正则项，梯度下降算法采用Adam算法。利用误差反向传播算法训练神经网络直至神经网络收敛得到回归模型。在网络训练之前需要对样本数据做归一化处理。

训练得到的所述预设回归模型其具有预测功能，可以对输入的PID参数形成预测，得到预测结果，该预测结果能够表征PID控制器控制机械臂执行PID参数后的运动质量情况。

图6为本申请另一个实施例提供的PID参数的优化方法的流程示意图，如图6所示，在步骤S103之后，即：在采用贪婪算法从所述回归模型中获取PID参数，提供给控制器控制机械臂运行后；所述方法还包括：

步骤S104、对机械臂运动质量进行评估，并根据所述评估更新所述回归模型。

可以理解的是，所述回归模型可进行不断更新，可不断提升预设回归模型预测的准确性，进而实现根据预测从预设回归模型获取最优PID参数更为准确。在具体应用中，对步骤S104中机械臂运动质量进行的评估，仍可以根据机械臂的规划运动轨迹以及相对应的真实运行轨迹进行准确性和/或稳定性方面的评估，具体评估方法，上述有关实施例中已有详细说明，此处将不做详细阐述说明。

图7为本申请一个实施例提供的PID参数的优化装置的结构示意图，如图7所示，该PID参数的优化装置7包括：

运动质量评估模块71，用于对机械臂运动质量进行评估；

回归模型模块72，用于通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型；

获取模块73，采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行。

进一步地，所述运动质量评估模块71具体用于：

进一步地，所述回归模型模块72具体用于：

将各个PID参数及其对应的评估结果作为样本数据；

图8为本申请另一个实施例提供的PID参数的优化装置的结构示意图，如图8所示，该PID参数的优化装置7还包括：

更新模块74，用于在采用贪婪算法从所述回归模型中获取PID参数，提供给控制器控制机械臂运行后，对机械臂运动质量进行评估，并根据所述评估更新所述回归模型。

关于PID参数的优化装置，其具体实现方式已经在上述有关实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种PID参数的优化方法，其特征在于，所述方法包括：

对机械臂运动质量进行评估；

采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行；

其中，所述对机械臂运动质量进行评估，包括：

对所述规划运动轨迹和所述真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果；

其中，所述对所述规划运动轨迹和所述真实运动轨迹进行准确性比较评估，得到准确性比较评估结果，包括：

根据所述误差绝对值的最大值得到第一准确性评估值；

根据所述误差绝对值的平均值得到第二准确性评估值；

计算第一准确性评估值和第二准确性评估值的加权平均值，以所述加权平均值作为准确性比较评估结果；

其中，所述对所述规划运动轨迹和所述真实运动轨迹进行稳定性比较评估，得到稳定性比较评估结果，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过神经网络对机械臂运动质量的评估进行学习，并得到回归模型，包括：

将各个PID参数及其对应的评估结果作为样本数据；

3.根据权利要求1或2所述的方法，其特征在于，

在采用贪婪算法从所述回归模型中获取PID参数，提供给控制器控制机械臂运行后，所述方法还包括：

4.一种PID参数的优化装置，其特征在于，所述装置包括：

运动质量评估模块，用于对机械臂运动质量进行评估；

获取模块，采用贪婪算法从所述回归模型中获取PID参数，以提供给控制器控制机械臂运行；

其中，所述运动质量评估模块具体用于：

根据所述误差绝对值的最大值得到第一准确性评估值；

根据所述误差绝对值的平均值得到第二准确性评估值；

5.根据权利要求4所述的PID参数的优化装置，其特征在于，

所述回归模型模块具体用于：

将各个PID参数及其对应的评估结果作为样本数据；

6.根据权利要求4或5所述的PID参数的优化装置，其特征在于，所述装置还包括：