CN111624872A - 一种基于自适应动态规划的pid控制器参数整定方法及系统 - Google Patents
一种基于自适应动态规划的pid控制器参数整定方法及系统 Download PDFInfo
- Publication number
- CN111624872A CN111624872A CN202010103628.XA CN202010103628A CN111624872A CN 111624872 A CN111624872 A CN 111624872A CN 202010103628 A CN202010103628 A CN 202010103628A CN 111624872 A CN111624872 A CN 111624872A
- Authority
- CN
- China
- Prior art keywords
- neural network
- neurons
- controller
- system controller
- iter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本申请实施例公开了一种基于自适应动态规划的PID控制器参数整定方法及系统,所述方法首先对系统状态、系统控制器与神经网络参数进行初始化,如在未达到最大采样次数之前系统失稳,应放弃当前状态更新过程,重新对控制器以及神经网络参数进行初始化,进行下一次迭代。如在未达到最大采样次数之前系统满足精度要求,则记录当前PID参数整定结果,并重新对控制器以及神经网络参数进行初始化,进行下一次迭代。能够对PID控制器的参数进行在线自动调节,确保系统满足给定的性能指标,有效提升系统总体性能。
Description
技术领域
本申请实施例涉及工业控制技术领域,具体涉及一种基于自适应动态规划 的PID控制器参数整定方法及系统。
背景技术
1922年,美国的N.Minorsky等人基于反馈原理,首次提出了一种通过对 系统跟踪误差进行比例、积分以及微分运算进行组合的控制器设计方法,也即 PID控制方法,并成功将其应用于船舶伺服控制系统的设计中。在此之后,由 于PID控制方法结构简单且易于实现,仅有三个参数需要整定,因此在实际 工程中极为适用。据统计,目前工业领域中百分之九十以上的系统均采用PID 控制策略,尤其是很多关键领域也应用了PID控制,如:炼钢过程的温度控 制、轧钢过程中的电机转速控制以及飞行器的控制系统设计等。
上述系统对控制器的设计均提出了极高的要求,如控制器参数整定结果不 理想,则会引发严重的后果:若炼钢过程中温度无法满足精度要求,则会引起 刚才成品中包含其他杂质,合格率将大幅降低,造成经济损失;轧钢过程中电 机如无法实现稳定的速度指令跟踪,则会使成品厚度难以达到指标要求;对飞 行器而言,会导致动态性能变差,严重时甚至引起其失稳。
因此,如何对PID控制器参数进行合理整定,确保系统能够实现对给定 信号的快速稳定跟踪,成为了目前一个亟待解决的问题。
发明内容
为此,本申请实施例提供一种基于自适应动态规划的PID控制器参数整 定方法及系统,能够对PID控制器的参数进行在线自动调节,确保系统满足 给定的性能指标,有效提升系统总体性能。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供一种基于自适应动态规划的PID控 制器参数整定方法,其特征在于,所述方法包括:
步骤1:系统控制器设置最大迭代次数为itermax,当前迭代次数iter=1, 运行时间为tmax,采样周期为Δt;
步骤2:对系统控制器状态以及控制器参数进行初始化;对第一神经网络 和第二神经网络的权值进行初始化,将采样次数k设置为1;
步骤3:当k<tmax/Δt时,计算系统控制器跟踪误差、控制量、所述第一神 经网络和所述第二神经网络的估计误差;
步骤4:更新所述第一神经网络的权值;
步骤5:更新所述第二神经网络的权值,将所述第二神经网络的输出作为 下一采样时刻的系统控制器增益;
步骤6:运行控制策略,判断是否达到循环终止条件;若不是,令k=k+1, 转入步骤3;若是,判断iter是否满足小于等于itermax,若满足,终止当前算 法并令iter=iter+1,转入步骤2;若不满足,结束迭代。
可选地,所述系统控制器的个数是根据系统模型以及各状态变量与输出间 的耦合关系确定的,针对每个系统控制器按照如下公式进行设置:
其中,δe为升降舵,e为俯仰角跟踪误差,e=q-q*,q为俯仰角,q*为指 令信号,kp为比例增益、ki为积分增益,kd为微分增益。
可选地,在步骤4中,所述更新所述第一神经网络的权值,具体按照如下 两个公式进行更新:
其中,为第一神经网络权值的估计值,σc表示第一神经网络的学习率, Ec=0.5eTe;激活函数Sc(t)=(1-et)/(1+et);输入层神经元的个数为跟踪误差向量 的维数与控制量向量维数之和,隐层数为1层,神经元个数大于输入层神经元 个数,所述第一神经网络输出对长期回报函数的估计值,输出层神经元个数为 1。
可选地,所述长期回报函数按照如下公式定义:
其中,定义系统控制器在t时刻的瞬时回报函数r(t)=eTK1e+uTK1u,e表 示系统控制器的指令跟踪误差向量,u为系统控制器的控制输入向量,K1和 K2为两个正定矩阵,用于对跟踪误差以及控制量进行加权;β为折扣因子且满 足0<β<1,定义目标回报函数Jd=0为控制系统的预期目标。
可选地,在步骤5中,按照如下两个公式进行所述第二神经网络的权值更 新:
其中,为第二神经网络权值的估计值,σc表示第二神经网络的学习率, Ec=0.5eTe,H(t)为适维矩阵,其行数与第二神经网络输入层神经元的个数相 等,列数与第一神经网络输入层神经元个数相等,各元素分别表示为 ,j和k分别表示行标与列标;输入层神经元的个数为 跟踪误差向量的维数;隐层数为1层,神经元个数大于输入层神经元个数;第 二神经网络输出PID控制器的参数整定值,每个系统控制器包含三个参数, 第二神经网络输出层神经元个数为系统控制器个数的三倍;激活函数 Sa(t)=(1-et)/(1+et)。
根据本申请实施例的第二方面,提供一种基于自适应动态规划的PID控 制器参数整定系统,其特征在于,所述系统包括:
参数设置模块,用于执行步骤1:设置系统控制器最大迭代次数为itermax, 当前迭代次数iter=1,运行时间为tmax,采样周期为Δt;
初始化模块,用于执行步骤2:对系统控制器状态以及控制器参数进行初 始化;对第一神经网络和第二神经网络的权值进行初始化,将采样次数k设置 为1。
计算模块,用于执行步骤3:当k<tmax/Δt时,计算系统控制器跟踪误差、 控制量、所述第一神经网络和所述第二神经网络的估计误差;
权值更新模块,用于执行步骤4和5:更新所述第一神经网络的权值,还 用于更新所述第二神经网络的权值,将所述第二神经网络的输出作为下一采样 时刻的系统控制器增益;
迭代模块,用于执行步骤6:运行控制策略,判断是否达到循环终止条件; 若不是,令k=k+1,转入步骤3;若是,判断iter是否满足小于等于itermax, 若满足,终止当前算法并令iter=iter+1,转入步骤2;若不满足,结束迭代。
可选地,所述系统控制器的个数是根据系统模型以及各状态变量与输出间 的耦合关系确定的,针对每个系统控制器按照如下公式进行设置:
其中,δe为升降舵,e为俯仰角跟踪误差,e=q-q*,q为俯仰角,q*为指 令信号,kp为比例增益、ki为积分增益,kd为微分增益。
可选地,所述权值更新模块具体按照如下两个公式进行更新:
其中,为第一神经网络权值的估计值,σc表示第一神经网络的学习率, Ec=0.5eTe;激活函数Sc(t)=(1-et)/(1+et);输入层神经元的个数为跟踪误差向量 的维数与控制量向量维数之和,隐层数为1层,神经元个数大于输入层神经元 个数,所述第一神经网络输出对长期回报函数的估计值,输出层神经元个数为 1。
可选地,所述长期回报函数按照如下公式定义:
其中,定义系统控制器在t时刻的瞬时回报函数r(t)=eTK1e+uTK1u,e表 示系统控制器的指令跟踪误差向量,u为系统控制器的控制输入向量,K1和 K2为两个正定矩阵,用于对跟踪误差以及控制量进行加权;β为折扣因子且满 足0<β<1,定义目标回报函数Jd=0为控制系统的预期目标。
可选地,所述权值更新模块具体按照如下两个公式进行更新:
其中,为第二神经网络权值的估计值,σc表示第二神经网络的学习率, Ec=0.5eTe,H(t)为适维矩阵,其行数与第二神经网络输入层神经元的个数相 等,列数与第一神经网络输入层神经元个数相等,各元素分别表示为 j和k分别表示行标与列标;输入层神经元的个数为 跟踪误差向量的维数;隐层数为1层,神经元个数大于输入层神经元个数;第 二神经网络输出PID控制器的参数整定值,每个系统控制器包含三个参数, 第二神经网络输出层神经元个数为系统控制器个数的三倍;激活函数 Sa(t)=(1-et)/(1+et)。
综上所述,本申请实施例提供了一种基于自适应动态规划的PID控制器 参数整定方法及系统,通过步骤1:系统控制器设置最大迭代次数为itermax, 当前迭代次数iter=1,运行时间为tmax,采样周期为Δt;步骤2:对系统控制 器状态以及控制器参数进行初始化;对第一神经网络和第二神经网络的权值进 行初始化,将采样次数k设置为1;步骤3:当k<tmax/Δt时,计算系统控制器 跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差;步骤 4:更新所述第一神经网络的权值;步骤5:更新所述第二神经网络的权值,将所述第二神经网络的输出作为下一采样时刻的系统控制器增益;步骤6:运 行控制策略,判断是否达到循环终止条件;若不是,令k=k+1,转入步骤3; 若是,判断iter是否满足小于等于itermax,若满足,终止当前算法并令 iter=iter+1,转入步骤2;若不满足,结束迭代。通过引入两个神经网络分别对 系统性能进行评估并生成参数整定结果。克服了传统人工参数整定方法中时间 成本高、无法确保系统具有最优性能、通用性差以及对模型依赖性强的缺点, 且易于编程实现。可以使设计人员能够将主要精力放在控制系统综合上,从而 有效提升系统总体性能。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对 实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下 面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内 容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条 件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调 整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明 所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种基于自适应动态规划的PID控制器参数 整定方法流程示意图;
图2为本申请实施例提供的基于自适应动态规划的PID控制器参数整定 方法的系统结构图;
图3为本申请实施例提供的基于自适应动态规划的PID控制器参数整定 方法的流程图;
图4为本申请实施例提供的一种基于自适应动态规划的PID控制器参数 整定系统框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由 本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的 实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
目前,PID控制器的参数整定往往是由工程师依靠自身经验进行手动调节 的。这一方法虽然有效,但仍存在下述几个问题:1.针对一些需要进行大量控 制器设计的复杂过程,人工调参将会非常耗费时间成本。如飞行器的增益调参 过程,需要设计师针对包线中许多选定点进行参数整定。随着现代飞行器技术 的发展,飞行器包线越来越大,若仍使用人工调参方法,则时间成本也会越来 越高,严重降低飞行器迭代设计的效率。2.人工参数整定无法确保系统具有最 优的性能。人工调参的结果往往是由系统的时域响应结果进行定性评判的,缺 少一个定量的指标进行衡量,因此所得结果往往并非最优。3.人工参数整定方 法通用性差,且对模型依赖性强。针对某一系统设计的控制器,无法直接移植 到其他系统上,因为不同的系统反映出的特性差别很大,对控制器设计的要求 也不同。因此,针对每一个系统均需要完成由建模,到线性化,到系统频域特 性分析,再到控制器设计的全部流程。
而随着现代控制理论以及机器学习技术的发展,自适应动态规划方法逐渐 引起了控制学界的关注。自适应动态规划是一种以最优控制理论为基础,结合 强化学习方法与神经网络提出的解决系统在线优化问题的技术手段。这一方法 通过引入两个神经网络分别对系统的性能进行评估并更新控制策略,确保系统 能够满足预设的性能指标,从而实现控制系统的在线优化。因此,自适应动态 规划方法成为解决PID控制器参数整定问题的一种有效途径。
图1示出了本申请实施例提供的一种基于自适应动态规划的PID参数整 定方法,旨在能够对PID控制器的参数进行在线自动调节,并确保系统满足 给定的性能指标,降低控制系统设计工程师的时间成本,使设计人员能够将主 要精力放在控制系统综合上,最终有效提升系统总体性能。所述方法包括如下 步骤:
步骤101:系统控制器设置最大迭代次数为itermax,当前迭代次数iter=1, 运行时间为tmax,采样周期为Δt。
步骤202:对系统控制器状态以及控制器参数进行初始化;对第一神经网 络和第二神经网络的权值进行初始化,将采样次数k设置为1。
步骤203:当k<tmax/Δt时,计算系统控制器跟踪误差、控制量、所述第一 神经网络和所述第二神经网络的估计误差。
步骤204:更新所述第一神经网络的权值。
步骤205:更新所述第二神经网络的权值,将所述第二神经网络的输出作 为下一采样时刻的系统控制器增益。
步骤206:运行控制策略,判断是否达到循环终止条件;若不是,令k=k+1, 转入步骤203;若是,判断iter是否满足小于等于itermax,若满足,终止当前 算法并令iter=iter+1,转入步骤202;若不满足,结束迭代。
在一种可能的实施方式中,所述第一神经网络可以是Critic网络,所述第 二神经网络可以是Actor网络。
在一种可能的实施方式中,所述系统控制器的个数是根据系统模型以及各 状态变量与输出间的耦合关系确定的,针对每个系统控制器按照如下公式(1) 进行设置:
其中,δe为升降舵,e为俯仰角跟踪误差,e=q-q*,q为俯仰角,q*为指 令信号,kp为比例增益、ki为积分增益,kd为微分增益。
在一种可能的实施方式中,步骤202中对控制器参数的初始化,以及对网 络权值的初始化均是在给定范围内随机选择的。
在一种可能的实施方式中,在步骤204中,所述更新所述第一神经网络的 权值,具体按照如下公式(2)和(3)进行更新:
其中,为第一神经网络权值的估计值,σc表示第一神经网络的学习率, Ec=0.5eTe;激活函数Sc(t)=(1-et)/(1+et);输入层神经元的个数为跟踪误差向量 的维数与控制量向量维数之和,隐层数为1层,神经元个数大于输入层神经元 个数,所述第一神经网络输出对长期回报函数的估计值,输出层神经元个数为 1。
在一种可能的实施方式中,所述长期回报函数按照如下公式(4)定义:
其中,定义系统控制器在t时刻的瞬时回报函数r(t)=eTK1e+uTK1u,e表 示系统控制器的指令跟踪误差向量,u为系统控制器的控制输入向量,K1和 K2为两个正定矩阵,用于对跟踪误差以及控制量进行加权;β为折扣因子且满 足0<β<1,定义目标回报函数Jd=0为控制系统的预期目标。
在一种可能的实施方式中,在步骤205中,按照如下公式(5)和(6)进 行所述第二神经网络的权值更新:
其中,为第二神经网络权值的估计值,σc表示第二神经网络的学习率, Ec=0.5eTe,H(t)为适维矩阵,其行数与第二神经网络输入层神经元的个数相 等,列数与第一神经网络输入层神经元个数相等,各元素分别表示为 j和k分别表示行标与列标;输入层神经元的个数为 跟踪误差向量的维数;隐层数为1层,神经元个数大于输入层神经元个数;第 二神经网络输出PID控制器的参数整定值,每个系统控制器包含三个参数, 第二神经网络输出层神经元个数为系统控制器个数的三倍;激活函数 Sa(t)=(1-et)/(1+et)。
在一种可能的实施方式中,步骤206中循环终止条件,设置为系统跟踪误 差满足精度要求或系统失稳。
通过引入两个神经网络分别对系统性能进行评估并生成参数整定结果。本 申请实施例提供的基于自适应动态规划的PID参数整定方法,克服了传统人 工参数整定方法中时间成本高、无法确保系统具有最优性能、通用性差以及对 模型依赖性强的缺点,且易于编程实现。可以使设计人员能够将主要精力放在 控制系统综合上,从而有效提升系统总体性能。
下面将结合附图与基于自适应动态规划的PID控制器参数整定实例作进 一步的详细说明。
图2示出了基于自适应动态规划的PID控制器参数整定方法的系统结构 图。在包含控制器的闭环系统外,引入Critic网络以及Actor网络,分别用于 对系统的性能进行评估以及调整参数整定结果。
图2中,实线表示信号的输入与输出,虚线表示该信号对所指向对象产生 影响。在此基础上,图2即表明了本申请实施例所提出方法的原理:
(1)闭环系统由被控对象及PID控制器组成。基于反馈原理,PID控制 器包含对跟踪误差进行比例、积分与微分运算的线性组合,其中PID控制器 参数待整定。
(3)引出闭环系统跟踪误差作为Actor网络的输入值,根据与预期回报 的差值进行网络参数的调整(由公式5和公式6确定),同时网络的输出值 为PID参数的整定结果kp,ki,kd,输入PID控制器参与下一采样时刻的系统状 态更新。
本申请实施例提出的基于自适应动态规划的PID控制器参数整定方法的 流程图如图3所示。图3即表明了所提出方法的意义:
(1)首先对系统状态进行初始化,并对系统控制器与神经网络参数进行 初始化,同时根据初始化结果进行系统状态更新。
(2)如在未达到最大采样次数之前系统失稳,则说明PID控制器的参数 或神经网络初始化结果较差,导致跟踪误差不收敛。应放弃当前状态更新过程, 重新对控制器以及神经网络参数进行初始化,进行下一次迭代。
(3)如在未达到最大采样次数之前系统满足精度要求,则记录当前PID 参数整定结果,并重新对控制器以及神经网络参数进行初始化,进行下一次迭 代。这一过程是为了避免参数整定结果对初始状态的依赖性,容易陷入局部最 优,因此通过对控制器参数及神经网络参数进行随机初始化,以及进行多次迭 代来解决这一问题。
最后以飞行器的增益调参过程为例,说明本申请实施例所提出的基于自适 应动态规划的PID控制器参数整定方法在实际系统中的实施过程。增益调参 方法即在飞行器包线中进行区域划分并在各区域内分别选择特征点进行控制 器设计,最终需要所有特征点的控制器均设计完成且能够保持系统稳定。在本 例中,以包线内的某一点为例,其他所有特征点均以此流程进行设计。不失一 般性,且为了便于叙述,在本例中仅考虑系统纵向姿态通道的指令跟踪,也即 确保俯仰角q能够实现对指令信号q*的快速稳定跟踪。影响飞行器纵向短周 期模态的执行机构为升降舵δe。
步骤一:系统控制器设计。
根据本申请实施例提出的基于自适应动态规划的PID控制器参数整定方 法,首先进行PID控制器设计:
其中,e=q-q*表示俯仰角跟踪误差。在后续的参数整定过程中,控制器 参数在下述范围内随机取值:kp∈[-10,0),kp∈[-10,0),kp∈[-10,0)。
步骤二:神经网络结构与更新律设计。
(1)定义飞行器在t时刻的瞬时回报函数为:
(2)定义系统的长期回报函数:
其中,折扣因子β取值为0.9。同时,定义目标回报函数为Jd=0。
(3)Critic网络的输入层神经元数为2,隐层神经元数选为5,输出层神 经元为1,激活函数选择为Sc(t)=(1-et)/(1+et),Critic网络更新律如式(3)和(4) 所示。
(4)Actor网络的输入层神经元数为1,隐层神经元数选为6,输出层神 经元为3,激活函数选择为Sa(t)=(1-et)/(1+et),Actor网络更新律如式(5)和(6) 所示。
步骤三:控制器参数整定。
在前述步骤的基础上,在图3中,可得到控制器参数整定的算法如下:
S1:设置最大迭代次数为50,当前迭代次数iter=1,运行时间为10s,采 样周期为0.01s。
S2:对系统状态以及控制器参数进行初始化。
S3:对Critic以及Actor网络权值进行初始化,并设置采样次数k=1。
S4:当k<1000时,计算当前的系统跟踪误差、控制量以及神经网络估计误 差。
S5:根据式(3)和式(4)更新Critic网络权值。
S6:根据式(5)和式(6)更新Actor网络权值。
S7:将Actor网络输出作为下一采样时刻的控制器增益。
S8:运行当前控制策略,如果跟踪误差小于10-3deg或者大于10deg,则终 止当前算法并令iter=iter+1,返回S2;否则令k=k+1,返回S4。
在本例中,为保证参数整定的快速性,迭代次数选择为50。这一参数略为 保守,可视参数整定的实际情况或性能指标的严格程度适当增大。当完成50 次迭代后,若存在多组满足性能指标的整定结果,则以系统跟踪性能方差最小 为指标,从得到的结果中选择一组可以令系统具有最优性能的参数,即为最终 的PID参数整定结果。
完成上述过程后,可对包线内的下一个特征点采用本申请实施例所提出方 法进行参数整定,最终实现全包线内特征点的控制器设计。
通过本申请实施例提供的方法有诸多优点:
第一,可以大幅降低控制系统设计的时间成本。所述的方法仅需人工设计 网络结构,并给定网络参数以及系统参数初值,即可实现自动参数整定。
第二,能够有效提升系统性能。通过引入双神经网络进行系统性能评估与 策略更新,确保系统可以满足给定的性能指标,可有效降低系统跟踪误差,提 升系统动态与静态性能。
第三,通用性强,对单输入单输出以及多输入多输出系统均适用,仅需根 据系统结构调整所设计的回报函数以及神经网络结构即可,具有很强的通用 性。
第四,没有对系统精准数学模型的依赖性。仅需根据系统的控制量以及跟 踪误差进行控制器参数整定,无需系统的精确数学模型,对由建模引入的参数 不确定具有较强鲁棒性。
第五,易于编程实现。所提出参数整定方法是离散的,与实际工程要求相 符。同时仅需两个神经网络即可驱动参数整定全过程,便于在实际工程中应用。
需要注意的是,本申请实施例仅为了能够更好理解本申请实施例的原理与 步骤,选用飞行器六自由度中的一个通道来进行说明。本申请实施例对其他多 输入多输出系统同样适用,仅需根据系统输出以及控制器的维数对神经网络结 构进行重新设计即可。而其他基于本申请实施例是指的变形与组合同样在本申 请实施例的保护范围内。
综上所述,本申请实施例提供了一种基于自适应动态规划的PID参数整 定方法,通过步骤1:系统控制器设置最大迭代次数为itermax,当前迭代次数 iter=1,运行时间为tmax,采样周期为Δt;步骤2:对系统控制器状态以及控制 器参数进行初始化;对第一神经网络和第二神经网络的权值进行初始化,将采 样次数k设置为1;步骤3:当k<tmax/Δt时,计算系统控制器跟踪误差、控制 量、所述第一神经网络和所述第二神经网络的估计误差;步骤4:更新所述第 一神经网络的权值;步骤5:更新所述第二神经网络的权值,将所述第二神经 网络的输出作为下一采样时刻的系统控制器增益;步骤6:运行控制策略,判 断是否达到循环终止条件;若不是,令k=k+1,转入步骤3;若是,判断iter 是否满足小于等于itermax,若满足,终止当前算法并令iter=iter+1,转入步 骤2;若不满足,结束迭代。通过引入两个神经网络分别对系统性能进行评估 并生成参数整定结果。克服了传统人工参数整定方法中时间成本高、无法确保 系统具有最优性能、通用性差以及对模型依赖性强的缺点,且易于编程实现。 可以使设计人员能够将主要精力放在控制系统综合上,从而有效提升系统总体 性能。
基于相同的技术构思,本申请实施例还提供了一种基于自适应动态规划的 PID参数整定系统,如图4所示,所述系统包括:
参数设置模块401,用于执行步骤1:设置系统控制器最大迭代次数为 itermax,当前迭代次数iter=1,运行时间为tmax,采样周期为Δt。
初始化模块402,用于执行步骤2:对系统控制器状态以及控制器参数进 行初始化;对第一神经网络和第二神经网络的权值进行初始化,将采样次数k 设置为1。
计算模块403,用于执行步骤3:当k<tmax/Δt时,计算系统控制器跟踪误 差、控制量、所述第一神经网络和所述第二神经网络的估计误差。
权值更新模块404,用于执行步骤4和5:更新所述第一神经网络的权值, 还用于更新所述第二神经网络的权值,将所述第二神经网络的输出作为下一采 样时刻的系统控制器增益。
迭代模块405,用于执行步骤6:运行控制策略,判断是否达到循环终止 条件;若不是,令k=k+1,转入步骤3;若是,判断iter是否满足小于等于itermax, 若满足,终止当前算法并令iter=iter+1,转入步骤2;若不满足,结束迭代。
可选地,所述系统控制器的个数是根据系统模型以及各状态变量与输出间 的耦合关系确定的,针对每个系统控制器按照上述公式(1)进行设置。
可选地,所述权值更新模块403具体按照上述公式(2)和公式(3)进行 更新。
可选地,所述长期回报函数按照上述公式(4)进行定义。
可选地,所述权值更新模块403具体按照上述公式(5)和公式(6)进行 更新。
本说明书中上述方法的各个实施例均采用递进的方式描述,各个实施例之 间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的 不同之处。相关之处参见方法实施例的部分说明即可。
需要说明的是,尽管在附图中以特定顺序描述了本发明方法的操作,但这 并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所 示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个 步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无 创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅 仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装 置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并 行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环 境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含, 从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的 过程、方法、产品或者设备中还存在另外的相同或等同要素。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实 现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以 功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同 一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模 块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如, 所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方 式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可 以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性, 机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以 外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专 用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因 此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功 能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能 的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例 如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的 例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实 践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设 备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的 本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本 申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申 请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形 式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、 光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终 端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分 所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相 似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之 处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计 算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、 基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、 大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进 一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不 用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、 等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于自适应动态规划的PID控制器参数整定方法,其特征在于,所述方法包括:
步骤1:系统控制器设置最大迭代次数为itermax,当前迭代次数iter=1,运行时间为tmax,采样周期为Δt;
步骤2:对系统控制器状态以及控制器参数进行初始化;对第一神经网络和第二神经网络的权值进行初始化,将采样次数k设置为1;
步骤3:当k<tmax/Δt时,计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差;
步骤4:更新所述第一神经网络的权值;
步骤5:更新所述第二神经网络的权值,将所述第二神经网络的输出作为下一采样时刻的系统控制器增益;
步骤6:运行控制策略,判断是否达到循环终止条件;若不是,令k=k+1,转入步骤3;若是,判断iter是否满足小于等于itermax,若满足,终止当前算法并令iter=iter+1,转入步骤2;若不满足,结束迭代。
6.一种基于自适应动态规划的PID控制器参数整定系统,其特征在于,所述系统包括:
参数设置模块,用于执行步骤1:设置系统控制器最大迭代次数为itermax,当前迭代次数iter=1,运行时间为tmax,采样周期为Δt;
初始化模块,用于执行步骤2:对系统控制器状态以及控制器参数进行初始化;对第一神经网络和第二神经网络的权值进行初始化,将采样次数k设置为1;
计算模块,用于执行步骤3:当k<tmax/Δt时,计算系统控制器跟踪误差、控制量、所述第一神经网络和所述第二神经网络的估计误差;
权值更新模块,用于执行步骤4和5:更新所述第一神经网络的权值,还用于更新所述第二神经网络的权值,将所述第二神经网络的输出作为下一采样时刻的系统控制器增益;
迭代模块,用于执行步骤6:运行控制策略,判断是否达到循环终止条件;若不是,令k=k+1,转入步骤3;若是,判断iter是否满足小于等于itermax,若满足,终止当前算法并令iter=iter+1,转入步骤2;若不满足,结束迭代。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103628.XA CN111624872B (zh) | 2020-02-20 | 2020-02-20 | 一种基于自适应动态规划的pid控制器参数整定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103628.XA CN111624872B (zh) | 2020-02-20 | 2020-02-20 | 一种基于自适应动态规划的pid控制器参数整定方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111624872A true CN111624872A (zh) | 2020-09-04 |
CN111624872B CN111624872B (zh) | 2022-08-09 |
Family
ID=72259716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103628.XA Active CN111624872B (zh) | 2020-02-20 | 2020-02-20 | 一种基于自适应动态规划的pid控制器参数整定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111624872B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467494A (zh) * | 2021-06-29 | 2021-10-01 | 北京控制工程研究所 | 一种控制力矩陀螺框架转速控制参数整定方法 |
CN114167724A (zh) * | 2021-11-30 | 2022-03-11 | 中车长春轨道客车股份有限公司 | 一种基于黑箱模型的双控制器分权控制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102141776A (zh) * | 2011-04-26 | 2011-08-03 | 江苏科技大学 | 基于粒子滤波和rbf辨识的神经网络pid控制参数自整定方法 |
CN104852639A (zh) * | 2015-05-26 | 2015-08-19 | 江南大学 | 基于神经网络的永磁同步电机参数自整定速度控制器 |
CN106849793A (zh) * | 2017-03-01 | 2017-06-13 | 西安交通大学 | 一种电动汽车用永磁同步电机模糊神经网络控制系统 |
US20180314931A1 (en) * | 2017-04-28 | 2018-11-01 | Intel Corporation | Variable precision and mix type representation of multiple layers in a network |
-
2020
- 2020-02-20 CN CN202010103628.XA patent/CN111624872B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102141776A (zh) * | 2011-04-26 | 2011-08-03 | 江苏科技大学 | 基于粒子滤波和rbf辨识的神经网络pid控制参数自整定方法 |
CN104852639A (zh) * | 2015-05-26 | 2015-08-19 | 江南大学 | 基于神经网络的永磁同步电机参数自整定速度控制器 |
CN106849793A (zh) * | 2017-03-01 | 2017-06-13 | 西安交通大学 | 一种电动汽车用永磁同步电机模糊神经网络控制系统 |
US20180314931A1 (en) * | 2017-04-28 | 2018-11-01 | Intel Corporation | Variable precision and mix type representation of multiple layers in a network |
Non-Patent Citations (1)
Title |
---|
王超 等: ""面向模型未知的自由漂浮空间机械臂"", 《中国工程机械学报》, vol. 17, no. 2, 30 April 2019 (2019-04-30), pages 153 - 158 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113467494A (zh) * | 2021-06-29 | 2021-10-01 | 北京控制工程研究所 | 一种控制力矩陀螺框架转速控制参数整定方法 |
CN113467494B (zh) * | 2021-06-29 | 2023-11-10 | 北京控制工程研究所 | 一种控制力矩陀螺框架转速控制参数整定方法 |
CN114167724A (zh) * | 2021-11-30 | 2022-03-11 | 中车长春轨道客车股份有限公司 | 一种基于黑箱模型的双控制器分权控制方法 |
CN114167724B (zh) * | 2021-11-30 | 2023-10-27 | 中车长春轨道客车股份有限公司 | 一种基于黑箱模型的双控制器分权控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111624872B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111496792B (zh) | 一种机械臂输入饱和固定时间轨迹跟踪控制方法及系统 | |
US8452423B2 (en) | Methods and systems for the design and implementation of optimal multivariable model predictive controllers for fast-sampling constrained dynamic systems | |
CN110815225B (zh) | 电机驱动单机械臂系统的点对点迭代学习优化控制方法 | |
Shirzadeh et al. | Trajectory tracking of a quadrotor using a robust adaptive type-2 fuzzy neural controller optimized by cuckoo algorithm | |
CN111624872B (zh) | 一种基于自适应动态规划的pid控制器参数整定方法及系统 | |
Chen et al. | Prescribed performance-barrier Lyapunov function for the adaptive control of unknown pure-feedback systems with full-state constraints | |
EP2269122A1 (en) | Method of multi-dimensional nonlinear control | |
CN109062040B (zh) | 基于系统嵌套优化的预测pid方法 | |
CN112947089A (zh) | 一种预设跟踪精度的自适应神经网络跟踪控制方法 | |
Elloumi et al. | Adaptive control scheme for large‐scale interconnected systems described by Hammerstein models | |
Pinheiro et al. | Constrained discrete model predictive control of an arm‐manipulator using Laguerre function | |
De Jesús Rubio et al. | A new discrete-time sliding-mode control with time-varying gain and neural identification | |
Durnyak et al. | Simulation of a combined robust system with a P-fuzzy controller | |
CN116088498A (zh) | 一种基于mpc与fpga的自动驾驶车辆轨迹跟踪控制方法 | |
CN114114903B (zh) | 一种基于变指数幂次趋近律的板球系统积分终端滑模控制方法 | |
Wu et al. | Adaptive prescribed performance control for nonlinear pure-feedback systems: a scalarly virtual parameter adaptation approach | |
Precup et al. | On the combination of tensor product and fuzzy models | |
Bordanov et al. | On the Problem of Choosing Optimal Methods for Approximating Functions | |
Wang et al. | Trajectory tracking control based on memory data for robots with imprecise dynamic properties and interference | |
Li et al. | Robust model predictive ship heading control with event-triggered strategy | |
CN113985900B (zh) | 一种四旋翼无人机姿态动态特性模型、辨识方法及自适应柔化预测控制方法 | |
de Freitas et al. | Risk Sensitive Stochastic Shortest Path and LogSumExp: From Theory to Practice | |
Sheng et al. | 6-DOF Reinforcement Learning Control for Multi-rotor and Fixed-Wing Aircrafts | |
CN111665723B (zh) | 一种基于轨迹梯度软约束的平面电机的控制方法 | |
JPH0272404A (ja) | メンバーシップ関数決定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |