CN111624872A

CN111624872A - 一种基于自适应动态规划的pid控制器参数整定方法及系统

Info

Publication number: CN111624872A
Application number: CN202010103628.XA
Authority: CN
Inventors: 刘晨; 谢宝娣; 蔡继红; 陈秋瑞; 杨涵博; 马原野; 丛文姿; 朱双琳; 夏川; 王昭磊
Original assignee: Beijing Simulation Center
Current assignee: Beijing Simulation Center
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-09-04
Anticipated expiration: 2040-02-20
Also published as: CN111624872B

Abstract

本申请实施例公开了一种基于自适应动态规划的PID控制器参数整定方法及系统，所述方法首先对系统状态、系统控制器与神经网络参数进行初始化，如在未达到最大采样次数之前系统失稳，应放弃当前状态更新过程，重新对控制器以及神经网络参数进行初始化，进行下一次迭代。如在未达到最大采样次数之前系统满足精度要求，则记录当前PID参数整定结果，并重新对控制器以及神经网络参数进行初始化，进行下一次迭代。能够对PID控制器的参数进行在线自动调节，确保系统满足给定的性能指标，有效提升系统总体性能。

Description

一种基于自适应动态规划的PID控制器参数整定方法及系统

技术领域

本申请实施例涉及工业控制技术领域，具体涉及一种基于自适应动态规划的PID控制器参数整定方法及系统。

背景技术

1922年，美国的N.Minorsky等人基于反馈原理，首次提出了一种通过对系统跟踪误差进行比例、积分以及微分运算进行组合的控制器设计方法，也即 PID控制方法，并成功将其应用于船舶伺服控制系统的设计中。在此之后，由于PID控制方法结构简单且易于实现，仅有三个参数需要整定，因此在实际工程中极为适用。据统计，目前工业领域中百分之九十以上的系统均采用PID 控制策略，尤其是很多关键领域也应用了PID控制，如：炼钢过程的温度控制、轧钢过程中的电机转速控制以及飞行器的控制系统设计等。

上述系统对控制器的设计均提出了极高的要求，如控制器参数整定结果不理想，则会引发严重的后果：若炼钢过程中温度无法满足精度要求，则会引起刚才成品中包含其他杂质，合格率将大幅降低，造成经济损失；轧钢过程中电机如无法实现稳定的速度指令跟踪，则会使成品厚度难以达到指标要求；对飞行器而言，会导致动态性能变差，严重时甚至引起其失稳。

因此，如何对PID控制器参数进行合理整定，确保系统能够实现对给定信号的快速稳定跟踪，成为了目前一个亟待解决的问题。

发明内容

为此，本申请实施例提供一种基于自适应动态规划的PID控制器参数整定方法及系统，能够对PID控制器的参数进行在线自动调节，确保系统满足给定的性能指标，有效提升系统总体性能。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供一种基于自适应动态规划的PID控制器参数整定方法，其特征在于，所述方法包括：

步骤1：系统控制器设置最大迭代次数为iter_max，当前迭代次数iter＝1，运行时间为t_max，采样周期为Δt；

步骤2：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k设置为1；

步骤3：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差；

步骤4：更新所述第一神经网络的权值；

步骤5：更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益；

步骤6：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤3；若是，判断iter是否满足小于等于iter_max，若满足，终止当前算法并令iter＝iter+1，转入步骤2；若不满足，结束迭代。

可选地，所述系统控制器的个数是根据系统模型以及各状态变量与输出间的耦合关系确定的，针对每个系统控制器按照如下公式进行设置：

其中，δ_e为升降舵，e为俯仰角跟踪误差，e＝q-q^*，q为俯仰角，q^*为指令信号，k_p为比例增益、k_i为积分增益，k_d为微分增益。

可选地，在步骤4中，所述更新所述第一神经网络的权值，具体按照如下两个公式进行更新：

其中，

为第一神经网络权值的估计值，σ_c表示第一神经网络的学习率， E_c＝0.5e^Te；激活函数S_c(t)＝(1-e^t)/(1+e^t)；输入层神经元的个数为跟踪误差向量的维数与控制量向量维数之和，隐层数为1层，神经元个数大于输入层神经元个数，所述第一神经网络输出对长期回报函数的估计值，输出层神经元个数为 1。

可选地，所述长期回报函数按照如下公式定义：

其中，定义系统控制器在t时刻的瞬时回报函数r(t)＝e^TK₁e+u^TK₁u，e表示系统控制器的指令跟踪误差向量，u为系统控制器的控制输入向量，K₁和 K₂为两个正定矩阵，用于对跟踪误差以及控制量进行加权；β为折扣因子且满足0<β<1，定义目标回报函数J_d＝0为控制系统的预期目标。

可选地，在步骤5中，按照如下两个公式进行所述第二神经网络的权值更新：

其中，

为第二神经网络权值的估计值，σ_c表示第二神经网络的学习率， E_c＝0.5e^Te，H(t)为适维矩阵，其行数与第二神经网络输入层神经元的个数相等，列数与第一神经网络输入层神经元个数相等，各元素分别表示为

，j和k分别表示行标与列标；输入层神经元的个数为跟踪误差向量的维数；隐层数为1层，神经元个数大于输入层神经元个数；第二神经网络输出PID控制器的参数整定值，每个系统控制器包含三个参数，第二神经网络输出层神经元个数为系统控制器个数的三倍；激活函数 S_a(t)＝(1-e^t)/(1+e^t)。

根据本申请实施例的第二方面，提供一种基于自适应动态规划的PID控制器参数整定系统，其特征在于，所述系统包括：

参数设置模块，用于执行步骤1：设置系统控制器最大迭代次数为iter_max，当前迭代次数iter＝1，运行时间为t_max，采样周期为Δt；

初始化模块，用于执行步骤2：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k设置为1。

计算模块，用于执行步骤3：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差；

权值更新模块，用于执行步骤4和5：更新所述第一神经网络的权值，还用于更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益；

迭代模块，用于执行步骤6：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤3；若是，判断iter是否满足小于等于iter_max，若满足，终止当前算法并令iter＝iter+1，转入步骤2；若不满足，结束迭代。

可选地，所述权值更新模块具体按照如下两个公式进行更新：

其中，

可选地，所述长期回报函数按照如下公式定义：

其中，

j和k分别表示行标与列标；输入层神经元的个数为跟踪误差向量的维数；隐层数为1层，神经元个数大于输入层神经元个数；第二神经网络输出PID控制器的参数整定值，每个系统控制器包含三个参数，第二神经网络输出层神经元个数为系统控制器个数的三倍；激活函数 S_a(t)＝(1-e^t)/(1+e^t)。

综上所述，本申请实施例提供了一种基于自适应动态规划的PID控制器参数整定方法及系统，通过步骤1：系统控制器设置最大迭代次数为iter_max，当前迭代次数iter＝1，运行时间为t_max，采样周期为Δt；步骤2：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k设置为1；步骤3：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差；步骤 4：更新所述第一神经网络的权值；步骤5：更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益；步骤6：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤3；若是，判断iter是否满足小于等于iter_max，若满足，终止当前算法并令 iter＝iter+1，转入步骤2；若不满足，结束迭代。通过引入两个神经网络分别对系统性能进行评估并生成参数整定结果。克服了传统人工参数整定方法中时间成本高、无法确保系统具有最优性能、通用性差以及对模型依赖性强的缺点，且易于编程实现。可以使设计人员能够将主要精力放在控制系统综合上，从而有效提升系统总体性能。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种基于自适应动态规划的PID控制器参数整定方法流程示意图；

图2为本申请实施例提供的基于自适应动态规划的PID控制器参数整定方法的系统结构图；

图3为本申请实施例提供的基于自适应动态规划的PID控制器参数整定方法的流程图；

图4为本申请实施例提供的一种基于自适应动态规划的PID控制器参数整定系统框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，PID控制器的参数整定往往是由工程师依靠自身经验进行手动调节的。这一方法虽然有效，但仍存在下述几个问题：1.针对一些需要进行大量控制器设计的复杂过程，人工调参将会非常耗费时间成本。如飞行器的增益调参过程，需要设计师针对包线中许多选定点进行参数整定。随着现代飞行器技术的发展，飞行器包线越来越大，若仍使用人工调参方法，则时间成本也会越来越高，严重降低飞行器迭代设计的效率。2.人工参数整定无法确保系统具有最优的性能。人工调参的结果往往是由系统的时域响应结果进行定性评判的，缺少一个定量的指标进行衡量，因此所得结果往往并非最优。3.人工参数整定方法通用性差，且对模型依赖性强。针对某一系统设计的控制器，无法直接移植到其他系统上，因为不同的系统反映出的特性差别很大，对控制器设计的要求也不同。因此，针对每一个系统均需要完成由建模，到线性化，到系统频域特性分析，再到控制器设计的全部流程。

而随着现代控制理论以及机器学习技术的发展，自适应动态规划方法逐渐引起了控制学界的关注。自适应动态规划是一种以最优控制理论为基础，结合强化学习方法与神经网络提出的解决系统在线优化问题的技术手段。这一方法通过引入两个神经网络分别对系统的性能进行评估并更新控制策略，确保系统能够满足预设的性能指标，从而实现控制系统的在线优化。因此，自适应动态规划方法成为解决PID控制器参数整定问题的一种有效途径。

图1示出了本申请实施例提供的一种基于自适应动态规划的PID参数整定方法，旨在能够对PID控制器的参数进行在线自动调节，并确保系统满足给定的性能指标，降低控制系统设计工程师的时间成本，使设计人员能够将主要精力放在控制系统综合上，最终有效提升系统总体性能。所述方法包括如下步骤：

步骤101：系统控制器设置最大迭代次数为iter_max，当前迭代次数iter＝1，运行时间为t_max，采样周期为Δt。

步骤202：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k设置为1。

步骤203：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差。

步骤204：更新所述第一神经网络的权值。

步骤205：更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益。

步骤206：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤203；若是，判断iter是否满足小于等于iter_max，若满足，终止当前算法并令iter＝iter+1，转入步骤202；若不满足，结束迭代。

在一种可能的实施方式中，所述第一神经网络可以是Critic网络，所述第二神经网络可以是Actor网络。

在一种可能的实施方式中，所述系统控制器的个数是根据系统模型以及各状态变量与输出间的耦合关系确定的，针对每个系统控制器按照如下公式(1) 进行设置：

在一种可能的实施方式中，步骤202中对控制器参数的初始化，以及对网络权值的初始化均是在给定范围内随机选择的。

在一种可能的实施方式中，在步骤204中，所述更新所述第一神经网络的权值，具体按照如下公式(2)和(3)进行更新：

其中，

在一种可能的实施方式中，所述长期回报函数按照如下公式(4)定义：

在一种可能的实施方式中，在步骤205中，按照如下公式(5)和(6)进行所述第二神经网络的权值更新：

其中，

在一种可能的实施方式中，步骤206中循环终止条件，设置为系统跟踪误差满足精度要求或系统失稳。

通过引入两个神经网络分别对系统性能进行评估并生成参数整定结果。本申请实施例提供的基于自适应动态规划的PID参数整定方法，克服了传统人工参数整定方法中时间成本高、无法确保系统具有最优性能、通用性差以及对模型依赖性强的缺点，且易于编程实现。可以使设计人员能够将主要精力放在控制系统综合上，从而有效提升系统总体性能。

下面将结合附图与基于自适应动态规划的PID控制器参数整定实例作进一步的详细说明。

图2示出了基于自适应动态规划的PID控制器参数整定方法的系统结构图。在包含控制器的闭环系统外，引入Critic网络以及Actor网络，分别用于对系统的性能进行评估以及调整参数整定结果。

图2中，实线表示信号的输入与输出，虚线表示该信号对所指向对象产生影响。在此基础上，图2即表明了本申请实施例所提出方法的原理：

(1)闭环系统由被控对象及PID控制器组成。基于反馈原理，PID控制器包含对跟踪误差进行比例、积分与微分运算的线性组合，其中PID控制器参数待整定。

(2)引出闭环系统的控制量与跟踪误差作为Critic网络的输入值，根据网络估计误差进行网络参数的调整

(由公式2和公式3确定)，同时网络的输出值为对系统长期回报函数的估计值

(由公式4确定)。

(3)引出闭环系统跟踪误差作为Actor网络的输入值，根据

与预期回报的差值进行网络参数的调整

(由公式5和公式6确定)，同时网络的输出值为PID参数的整定结果k_p,k_i,k_d，输入PID控制器参与下一采样时刻的系统状态更新。

本申请实施例提出的基于自适应动态规划的PID控制器参数整定方法的流程图如图3所示。图3即表明了所提出方法的意义：

(1)首先对系统状态进行初始化，并对系统控制器与神经网络参数进行初始化，同时根据初始化结果进行系统状态更新。

(2)如在未达到最大采样次数之前系统失稳，则说明PID控制器的参数或神经网络初始化结果较差，导致跟踪误差不收敛。应放弃当前状态更新过程，重新对控制器以及神经网络参数进行初始化，进行下一次迭代。

(3)如在未达到最大采样次数之前系统满足精度要求，则记录当前PID 参数整定结果，并重新对控制器以及神经网络参数进行初始化，进行下一次迭代。这一过程是为了避免参数整定结果对初始状态的依赖性，容易陷入局部最优，因此通过对控制器参数及神经网络参数进行随机初始化，以及进行多次迭代来解决这一问题。

最后以飞行器的增益调参过程为例，说明本申请实施例所提出的基于自适应动态规划的PID控制器参数整定方法在实际系统中的实施过程。增益调参方法即在飞行器包线中进行区域划分并在各区域内分别选择特征点进行控制器设计，最终需要所有特征点的控制器均设计完成且能够保持系统稳定。在本例中，以包线内的某一点为例，其他所有特征点均以此流程进行设计。不失一般性，且为了便于叙述，在本例中仅考虑系统纵向姿态通道的指令跟踪，也即确保俯仰角q能够实现对指令信号q^*的快速稳定跟踪。影响飞行器纵向短周期模态的执行机构为升降舵δ_e。

步骤一：系统控制器设计。

根据本申请实施例提出的基于自适应动态规划的PID控制器参数整定方法，首先进行PID控制器设计：

其中，e＝q-q^*表示俯仰角跟踪误差。在后续的参数整定过程中，控制器参数在下述范围内随机取值：k_p∈[-10,0)，k_p∈[-10,0)，k_p∈[-10,0)。

步骤二：神经网络结构与更新律设计。

(1)定义飞行器在t时刻的瞬时回报函数为：

(2)定义系统的长期回报函数：

其中，折扣因子β取值为0.9。同时，定义目标回报函数为J_d＝0。

(3)Critic网络的输入层神经元数为2，隐层神经元数选为5，输出层神经元为1，激活函数选择为S_c(t)＝(1-e^t)/(1+e^t)，Critic网络更新律如式(3)和(4) 所示。

(4)Actor网络的输入层神经元数为1，隐层神经元数选为6，输出层神经元为3，激活函数选择为S_a(t)＝(1-e^t)/(1+e^t)，Actor网络更新律如式(5)和(6) 所示。

步骤三：控制器参数整定。

在前述步骤的基础上，在图3中，可得到控制器参数整定的算法如下：

S1：设置最大迭代次数为50，当前迭代次数iter＝1，运行时间为10s，采样周期为0.01s。

S2：对系统状态以及控制器参数进行初始化。

S3：对Critic以及Actor网络权值进行初始化，并设置采样次数k＝1。

S4：当k<1000时，计算当前的系统跟踪误差、控制量以及神经网络估计误差。

S5：根据式(3)和式(4)更新Critic网络权值。

S6：根据式(5)和式(6)更新Actor网络权值。

S7：将Actor网络输出作为下一采样时刻的控制器增益。

S8：运行当前控制策略，如果跟踪误差小于10^-3deg或者大于10deg，则终止当前算法并令iter＝iter+1，返回S2；否则令k＝k+1，返回S4。

在本例中，为保证参数整定的快速性，迭代次数选择为50。这一参数略为保守，可视参数整定的实际情况或性能指标的严格程度适当增大。当完成50 次迭代后，若存在多组满足性能指标的整定结果，则以系统跟踪性能方差最小为指标，从得到的结果中选择一组可以令系统具有最优性能的参数，即为最终的PID参数整定结果。

完成上述过程后，可对包线内的下一个特征点采用本申请实施例所提出方法进行参数整定，最终实现全包线内特征点的控制器设计。

通过本申请实施例提供的方法有诸多优点：

第一，可以大幅降低控制系统设计的时间成本。所述的方法仅需人工设计网络结构，并给定网络参数以及系统参数初值，即可实现自动参数整定。

第二，能够有效提升系统性能。通过引入双神经网络进行系统性能评估与策略更新，确保系统可以满足给定的性能指标，可有效降低系统跟踪误差，提升系统动态与静态性能。

第三，通用性强，对单输入单输出以及多输入多输出系统均适用，仅需根据系统结构调整所设计的回报函数以及神经网络结构即可，具有很强的通用性。

第四，没有对系统精准数学模型的依赖性。仅需根据系统的控制量以及跟踪误差进行控制器参数整定，无需系统的精确数学模型，对由建模引入的参数不确定具有较强鲁棒性。

第五，易于编程实现。所提出参数整定方法是离散的，与实际工程要求相符。同时仅需两个神经网络即可驱动参数整定全过程，便于在实际工程中应用。

需要注意的是，本申请实施例仅为了能够更好理解本申请实施例的原理与步骤，选用飞行器六自由度中的一个通道来进行说明。本申请实施例对其他多输入多输出系统同样适用，仅需根据系统输出以及控制器的维数对神经网络结构进行重新设计即可。而其他基于本申请实施例是指的变形与组合同样在本申请实施例的保护范围内。

综上所述，本申请实施例提供了一种基于自适应动态规划的PID参数整定方法，通过步骤1：系统控制器设置最大迭代次数为iter_max，当前迭代次数 iter＝1，运行时间为t_max，采样周期为Δt；步骤2：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k设置为1；步骤3：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差；步骤4：更新所述第一神经网络的权值；步骤5：更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益；步骤6：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤3；若是，判断iter 是否满足小于等于iter_max，若满足，终止当前算法并令iter＝iter+1，转入步骤2；若不满足，结束迭代。通过引入两个神经网络分别对系统性能进行评估并生成参数整定结果。克服了传统人工参数整定方法中时间成本高、无法确保系统具有最优性能、通用性差以及对模型依赖性强的缺点，且易于编程实现。可以使设计人员能够将主要精力放在控制系统综合上，从而有效提升系统总体性能。

基于相同的技术构思，本申请实施例还提供了一种基于自适应动态规划的 PID参数整定系统，如图4所示，所述系统包括：

参数设置模块401，用于执行步骤1：设置系统控制器最大迭代次数为 iter_max，当前迭代次数iter＝1，运行时间为t_max，采样周期为Δt。

初始化模块402，用于执行步骤2：对系统控制器状态以及控制器参数进行初始化；对第一神经网络和第二神经网络的权值进行初始化，将采样次数k 设置为1。

计算模块403，用于执行步骤3：当k<t_max/Δt时，计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差。

权值更新模块404，用于执行步骤4和5：更新所述第一神经网络的权值，还用于更新所述第二神经网络的权值，将所述第二神经网络的输出作为下一采样时刻的系统控制器增益。

迭代模块405，用于执行步骤6：运行控制策略，判断是否达到循环终止条件；若不是，令k＝k+1，转入步骤3；若是，判断iter是否满足小于等于iter_max，若满足，终止当前算法并令iter＝iter+1，转入步骤2；若不满足，结束迭代。

可选地，所述系统控制器的个数是根据系统模型以及各状态变量与输出间的耦合关系确定的，针对每个系统控制器按照上述公式(1)进行设置。

可选地，所述权值更新模块403具体按照上述公式(2)和公式(3)进行更新。

可选地，所述长期回报函数按照上述公式(4)进行定义。

可选地，所述权值更新模块403具体按照上述公式(5)和公式(6)进行更新。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于自适应动态规划的PID控制器参数整定方法，其特征在于，所述方法包括：

步骤4：更新所述第一神经网络的权值；

2.如权利要求1所述的方法，其特征在于，所述系统控制器的个数是根据系统模型以及各状态变量与输出间的耦合关系确定的，针对每个系统控制器按照如下公式进行设置：

3.如权利要求1所述的方法，其特征在于，在步骤4中，所述更新所述第一神经网络的权值，具体按照如下两个公式进行更新：

其中，

为第一神经网络权值的估计值，σ_c表示第一神经网络的学习率，E_c＝0.5e^Te；激活函数S_c(t)＝(1-e^t)/(1+e^t)；输入层神经元的个数为跟踪误差向量的维数与控制量向量维数之和，隐层数为1层，神经元个数大于输入层神经元个数，所述第一神经网络输出对长期回报函数的估计值，输出层神经元个数为1。

4.如权利要求3所述的方法，其特征在于，所述长期回报函数按照如下公式定义：