CN111086268A - 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法 - Google Patents

一种电石炉石灰粉料压球控制系统的积分强化学习控制方法 Download PDF

Info

Publication number
CN111086268A
CN111086268A CN201911088739.1A CN201911088739A CN111086268A CN 111086268 A CN111086268 A CN 111086268A CN 201911088739 A CN201911088739 A CN 201911088739A CN 111086268 A CN111086268 A CN 111086268A
Authority
CN
China
Prior art keywords
formula
optimal
calcium carbide
function
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911088739.1A
Other languages
English (en)
Other versions
CN111086268B (zh
Inventor
宋晓铃
马龙华
文刚
徐鸣
姚佳清
崔家林
耿润华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Institute of Technology of ZJU
Xinjiang Tianye Group Co Ltd
Original Assignee
Ningbo Institute of Technology of ZJU
Xinjiang Tianye Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo Institute of Technology of ZJU, Xinjiang Tianye Group Co Ltd filed Critical Ningbo Institute of Technology of ZJU
Priority to CN201911088739.1A priority Critical patent/CN111086268B/zh
Publication of CN111086268A publication Critical patent/CN111086268A/zh
Application granted granted Critical
Publication of CN111086268B publication Critical patent/CN111086268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B15/00Details of, or accessories for, presses; Auxiliary measures in connection with pressing
    • B30B15/26Programme control arrangements
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B30PRESSES
    • B30BPRESSES IN GENERAL
    • B30B15/00Details of, or accessories for, presses; Auxiliary measures in connection with pressing
    • B30B15/30Feeding material to presses
    • B30B15/302Feeding material in particulate or plastic state to moulding presses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,该方法提出了积分强化学习自适应控制器,包括两个神经网络(Neural Network,NN):一个估计非二次策略效用函数(Strategy Utility Function,SUF)的评论器NN;另一个生成优化控制输入并使SUF最小化的执行器NN。由于控制以非仿射形式出现,应用隐函数定理得到最优控制律。首次引入离散Nussbaum增益来克服控制方向未知的困难,并采用非二次SUF来处理基于RL控制中的控制约束。采用本发明的电石炉石灰粉料压球控制系统具有调整时间短,超调小的优点,并且鲁棒性更强。

Description

一种电石炉石灰粉料压球控制系统的积分强化学习控制方法
技术领域
本发明涉及积分强化学习领域,尤其涉及一种电石炉石灰粉料压球控制系统的积分强化学习控制方法。
背景技术
我国已成为电石世界生产和消费第一大国,但电石行业整体面临能耗较高、安全环保水平低、自动化程度差三大问题。在电石炉石灰粉料压球生产过程中,压球机电流控制是其中极为重要的一个环节,对最后加工出来的球团质量起着重要的作用。现代电石炉石灰粉料压球电流控制基本上采用手动控制,这不仅使得操作人员劳动强度大、生产效率低,而且加工出来的球团质量难以保证,因此实现电石炉石灰粉料生产过程中压球机电流的自动控制是一个亟待解决的问题。
在正常生产情况下,进料绞刀的供料量必须等于或稍大于压球机的需要量,所以操作人员应根据电机电流大小和出球情况适时地调节振动给料机和进料绞刀电机的转速。这种通过间接控制两机转速的方法虽然能够保证电流稳定在一定的范围内,但这一调节过程对人工经验要求高并且需要一定的调节时间,系统具有一定的时滞性;同时,在复杂的工况下,系统难免存在时变、非线性及现场随机干扰多等特点。针对以上控制难点,如果单纯地采用常规PID控制,难以整定PID参数,进而难以达到预期的控制效果。
发明内容
本发明的目的在于针对一种电石炉石灰粉料压球控制系统非线性、大时滞和被控对象不确定等控制难点,提出一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,
本发明的目的是通过以下技术方案来实现的:一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,包括以下步骤:
S1:首先采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;并定义非二次策略效用函数,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小。具体如下:
定义非二次策略效用函数SUF;
Figure BDA0002266224330000021
式中,k为采样步数,
Figure BDA0002266224330000022
为正常数,u(k)为控制输入信号,y(k)为输出信号,r>0,v为控制输入的饱和界限,
Figure BDA0002266224330000023
为有界的一对一函数,满足
Figure BDA0002266224330000024
而且
Figure BDA0002266224330000025
为单调递增奇函数;
Figure BDA0002266224330000026
的梯度是有界的;q(y(k))=(y(k)-yr(k))2,其中,y(k)为输出信号,yr(k)为期望轨迹,是紧子集R上的一个已知的光滑有界函数,由于
Figure BDA0002266224330000027
是单调奇函数,W(u(·))是正定的;
根据Bellman最优化原理,得到最优的SUF值J*(·),满足以下HJB方程:
Figure BDA0002266224330000028
q(k)为q(y(k))的简写。
S2:在每一个采样周期内,根据隐函数定理,由最优的SUF值J*(·),得到一个最优控制律u*(k),作为电机的输入电压,可以使电石炉石灰粉料压球机电机电流跟踪给定的电流期望轨迹,最优控制律如下:
Figure BDA0002266224330000029
式中,
Figure BDA00022662243300000210
τ为系统时延。
S3:利用评论器NN神经网络近似最优SUF值J*(·);评论器NN神经网络的预测误差ec(k)为:
式中
Figure BDA0002266224330000031
表示评论器NN神经网络的输出,
Figure BDA0002266224330000032
0<rc<1;
Figure BDA0002266224330000033
为回归向量,由输入和输出测量值的回归值组成,z(k)为由输入信号和输出信号的反馈值组成的向量,作为评论器NN神经网络的输入;,a(k)是开关信号;评论器NN神经网络具有双层结构,
Figure BDA0002266224330000034
Figure BDA0002266224330000035
分别表示其输出的实际权向量和隐藏层的权矩阵;nc项表示隐藏层神经元的数量,nz=m+n+1,m和n分别为输入和输出信号的阶次;隐藏层的激活函数向量
Figure BDA0002266224330000036
简写为φc(k);评论器NN神经网络近似最优SUF值J*(·)的公式如下:
Figure BDA0002266224330000037
式中,T为转置符号,Wc为最优SUF的期望权矩阵,为公式中需要更新的参数,
Figure BDA0002266224330000038
为J*(k)的有界的最优逼近误差,根据需求精度进行选择。
评论器NN网络的权值估计误差
Figure BDA0002266224330000039
为:
Figure BDA00022662243300000310
近似权值估计误差ζc(k)表示为:
Figure BDA00022662243300000311
因此,预测误差为:
Figure BDA00022662243300000312
其中,
Figure BDA00022662243300000313
Figure BDA00022662243300000314
Figure BDA0002266224330000041
G(k)=1+|N(x(k))|
其中,e(k)为时刻的跟踪误差,N(x(k))为Nussbaum增益,λ为一个阈值,λ>0。将预测误差的二次函数Ec(k)定义为评论器NN神经网络的最小化对象,进而确定预测误差中的ζc(k);
Figure BDA0002266224330000042
评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法:
Figure BDA0002266224330000043
式中,
Figure BDA0002266224330000044
αc∈R是可调节的自适应增益;然后根据以下引理,得到权重更新律。
引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为:
Figure BDA0002266224330000045
式中,矩阵A,向量b和q与矩阵X无关;
可得评论器NN的权值更新规律为
Figure BDA0002266224330000046
根据得到的权值更新规律和确定的近似权值估计误差,得到需要更新的最优SUF的期望权矩阵,进而得到最优SUF值。
S4:利用执行器NN生成电石炉石灰粉料压球机输入电压信号来近似最优控制律u*(k),具体如下:
利用执行器NN近似电石炉石灰粉料压球机输入电压的控制律表达式:
Figure BDA0002266224330000051
式中,u(k)为控制律,是执行器的输入,
Figure BDA0002266224330000052
为执行器NN的输出;
Figure BDA0002266224330000053
Figure BDA0002266224330000054
分别为输出层的加权向量和隐含层的加权矩阵,Z(k)是输入和输出信号的反馈信号组成的向量;S(Vaz(k))简写为S(z(k)),表示隐含层的激活函数向量,na为隐含层神经元的数量;nz=m+n+1,m和n分别为输入和输出信号的阶次;
定义辅助变量:
Figure BDA0002266224330000055
式中,Wa为期望加权向量,是需要更新的参数,则最优控制律为
Figure BDA0002266224330000056
d*(k)表示有界误差;
k+τ时刻的跟踪误差为:
Figure BDA0002266224330000057
式中,φ(z(k),u(k))=y(k+τ)-dt(k),
Figure BDA0002266224330000058
dφ(k)=dt(k)-yr(k+τ)+φ(z(k),u*(k));其中,dt(k)为干扰信号,Φ(·,·)满足Lipschitz条件,并且
Figure BDA0002266224330000059
有界,即
Figure BDA00022662243300000510
式中
Figure BDA00022662243300000511
为正常数;
因此,k+τ时刻的跟踪误差可表示为:
Figure BDA00022662243300000513
式中,
Figure BDA00022662243300000512
Figure BDA0002266224330000061
Figure BDA0002266224330000062
Figure BDA0002266224330000063
δ分别表示δ的上界和下界;
因此,跟踪误差的动态表达式为
Figure BDA0002266224330000064
式中
Figure BDA0002266224330000065
为执行器的近似权值估计误差,其中
Figure BDA0002266224330000066
执行器NN的自适应律的设计原则是最小化SUF函数并跟踪期望轨迹。执行器NN的预测误差定义为
Figure BDA0002266224330000067
式中,
Figure BDA0002266224330000068
Figure BDA0002266224330000069
根据Δx(k)可计算出Nussbaum增益N(x(k));
G(k)=1+|N(x(k))|
Figure BDA00022662243300000610
Figure BDA00022662243300000611
其中,λ是一个阈值,λ>0。
调整执行器NN的权重
Figure BDA00022662243300000612
来最小化目标函数Ea(k)。
Figure BDA00022662243300000613
评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法:
Figure BDA00022662243300000614
式中,
Figure BDA0002266224330000071
αa∈R+为执行器NN的自适应增益;然后根据以下引理,得到权重更新律。
引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为:
Figure BDA0002266224330000072
式中,矩阵A,向量b和q与矩阵X无关;
Figure BDA0002266224330000073
因此,得到执行器NN的权值更新规律为
Figure BDA0002266224330000074
根据得到的权值更新规律和确定的跟踪误差,得到需要更新的期望加权向量Wa,进而得到最优控制律u*(k)。
进一步地,步骤S1中
Figure BDA0002266224330000075
可为双曲正切函数,即
Figure BDA0002266224330000076
进一步地,步骤S2具体为:根据隐函数定理,存在一个最优控制律u*(k),定义为
Figure BDA0002266224330000077
假设J*(·)是光滑的,J*(k)的最小值通过令q(k)+W(u(k))+J*(k+1)对于u(k)的梯度为零来精确求解,即
Figure BDA0002266224330000078
求解后,可得相应的最优控制律u*(k)。
本发明与由于采用以上技术方案,与现有技术相比,具有的优点和效果为:
现代电石炉石灰粉料压球电流控制基本上采用手动控制,这不仅使得操作人员劳动强度大、生产效率低,而且加工出来的球团质量难以保证,因此实现电石炉石灰粉料生产过程中压球机电流的自动控制是一个亟待解决的问题。现代电石炉石灰粉料控制具有严重的时滞性、非线性及不确定性等控制难点。针对以上控制难点,如果单纯地采用常规PID控制,难以整定PID参数,进而难以达到预期的控制效果。为了解决这一问题,本发明提出了积分强化学习自适应控制方法,对电石炉石灰粉料压球过程进行控制,有效地降低了操作人员的劳动强度,使石灰粉料压球生产均衡稳定。
附图说明
附图1电石炉石灰粉料压球工艺流程;
附图2电石炉石灰粉料压球机积分强化学习控制系统结构图;
附图3单位阶跃响应作用下控制系统响应曲线;
附图4模型参数失配下控制系统响应曲线。
具体的实现方法
本发明主要针对电石炉石灰粉料压球机的电流控制问题,提出基于积分强化学习的自适应控制方法。
图1为电石炉石灰粉料压球工艺流程。振动给料机通过人字纹皮带将石灰粉传送给中间料斗,然后由另一个振动给料机将中间料斗中的石灰粉料送入压球机的进料铰刀,经进料铰刀充分搅碎的石灰粉料进入压球机生产压球,出球皮带把石灰球团送入振动筛,合格的石灰球团经大倾角皮带进入成品料仓待用,未成形的石灰粉料经返灰皮带返回至人字纹皮带,重新进入中间料斗再生产。
图2为电石炉石灰粉料压球机积分强化学习控制系统结构图。采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;考虑由非仿射纯反馈形式下的电石炉石灰粉料压球系统为下述的离散时间系统:
Figure BDA0002266224330000091
式中
Figure BDA0002266224330000092
为系统的状态变量,fi(·,·)和fn(·,·,·)是系统函数,u(k)∈R和y(k)∈R分别为系统的输入和输出,|u(k)|≤υ,式中υ是饱和界限,并且d(k)为有界的外部扰动,其界限为
Figure BDA0002266224330000093
Figure BDA0002266224330000094
假设1:系统函数fi(·,·)和fn(·,·,0),i=1,···…,n-1对所有参数都是连续的,并且对第二个参数是连续可微的。
假设2:存在常数
Figure BDA0002266224330000095
使得
Figure BDA0002266224330000096
式中
Figure BDA0002266224330000097
Figure BDA0002266224330000098
偏导数gi(·)是系统表达式的控制增益。每个控制增益的符号是固定的,但是其值和方向是未知的。
假设3:系统函数fi(·,0)和fn(·,0,·)在Ωi和Ωn×Ωd上是Lipschitz连续的,Ωd是干扰信号所在的空间。
为了简化控制器的设计,将系统表达式转化为无未来状态的输入输出形式:
y(k+τ)=φ(z(k),u(k))+dt(k)
式中z(k)=[y(k),···…,y(k-n+1),u(k-1),···…,u(k-m+1)],τ≥1为控制延迟,m≥1,φ(·,·):Rn+m→R是未知的非线性函数.存在一个有限常数
Figure BDA0002266224330000099
使得
Figure BDA00022662243300000910
一般最优控制目标是获得可容许控制u(k)可以保证系统稳定性,来最小化定义的非二次SUF,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小:
Figure BDA0002266224330000101
式中,
Figure BDA0002266224330000102
为正常数,
Figure BDA0002266224330000103
为有界的一对一函数满足
Figure BDA0002266224330000104
属于L2n).而且
Figure BDA0002266224330000105
为单调递增奇函数。
Figure BDA0002266224330000106
的梯度受到常数M的限制,可选择为双曲正切函数即
Figure BDA0002266224330000107
yr(k)为期望轨迹,是紧子集R上的一个已知的光滑有界函数。因为
Figure BDA0002266224330000108
是单调奇函数,并且r为正数,所以W(u(·))是正定的。
根据Bellman最优化原理,得到了最优的SUF值J*(·)应满足以下HJB方程:
Figure BDA0002266224330000109
在每一个采样周期内(本发明中采样周期ts=0.1s),根据隐函数定理,存在一个最优控制律u*(k)定义为
Figure BDA00022662243300001010
假设函数J*(·)是光滑的,HJB方程的右边的最小值通过令q(k)+W(u(k))+J*(k+1)对于u(k)的梯度为零来精确求解,即
Figure BDA00022662243300001011
因此,由上式可得相应的最优控制律u*(k),即
Figure BDA00022662243300001012
式中
Figure BDA00022662243300001013
根据Nussbaum增益的定义,进行评论器NN和执行器NN的设计,通过评论器NN近似最优的SUF值J*(·),通过执行器NN近似最优控制律u*(k),Nussbaum增益的定义如下。
考虑一个离散的非线性函数N(x(k))由序列x(k)和
Figure BDA0002266224330000111
定义。N(x(k))是一个离散Nussbaum增益,当且仅当它满足以下两个性质:
a.如果xs(k)可无限增大,那么对于任意给定的常数δ0
Figure BDA0002266224330000112
b.如果xs(k)≤δ1,则|SN(x(k))|≤δ2,δ1和δ2为正常量。
式中SN(x(k))是由Δx(k)=x(k+1)-x(k)定义的:
Figure BDA0002266224330000113
离散的Nussbaum增益N(x(k)),被定义为:
Figure BDA0002266224330000114
式中
Figure BDA0002266224330000115
令{x(k)}为一个离散序列,满足
Figure BDA0002266224330000116
并且
Figure BDA0002266224330000117
式中c1是一个常数.则s(x(k))定义如下:
s(x(0))=+1。 (1)
当k=k1,如果s(x(k1))=+1,并且如果
Figure BDA0002266224330000118
令s(x(k1+1))=-1否则,令s(x(k1+1))=1.但是如果s(x(k1))=-1则如果
Figure BDA0002266224330000121
令s(x(k1+1))=+1,否则令s(x(k1+1))=-1.
设计评论器NN近似SUFJ(k)。由于J(k)在第k步是不能得到的,评论器NN在线调整,以确保其输出收敛到接近J(k).
将评论器NN的预测误差定义为:
Figure BDA0002266224330000122
式中
Figure BDA0002266224330000123
表示评论器NN的输出
Figure BDA0002266224330000124
0<rc<1.评论器NN具有双层结构,
Figure BDA0002266224330000125
Figure BDA0002266224330000126
分别表示其输出的实际权向量和隐含层的权矩阵。nc项表示隐藏层神经元的数量,nz=m+n+1.
Figure BDA0002266224330000127
为回归向量,它由输入和输出测量值的过去值组成,被选择为评论器NN的输入。隐藏层的激活函数向量
Figure BDA0002266224330000128
可以简写为
Figure BDA0002266224330000129
如果隐藏层中有足够数量的神经元,评论器网络可以以任意小的估计误差εc(k)近似最优SUF J*
Figure BDA00022662243300001210
式中,Wc为最优SUF的期望权矩阵,
Figure BDA00022662243300001211
为有界误差。
该网络的权值估计误差定义为
Figure BDA00022662243300001212
近似权值误差表示为
Figure BDA00022662243300001213
因此,预测误差为
Figure BDA0002266224330000131
将预测误差的二次函数定义为评论器神经网络的最小化对象:
Figure BDA0002266224330000132
评论器神经网络的权值更新规则是一个基于梯度的自适应算法
Figure BDA0002266224330000133
式中
Figure BDA0002266224330000134
式中,αc∈R是自适应增益。然后根据以下引理,得到权重更新律。
引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数是
Figure BDA0002266224330000135
式中,矩阵A,向量b和q与矩阵X无关。
结合(11)-(13)和(15),可得评论器NN的权值更新规律为
Figure BDA0002266224330000136
设计执行器NN来生成输入信号来近似所需的控制输入u*(k)。所需控制信号可近似为
Figure BDA0002266224330000137
式中,
Figure BDA0002266224330000138
为执行器NN的输出。
Figure BDA0002266224330000139
Figure BDA00022662243300001310
分别为输出层的加权向量和隐含层的加权矩阵。S(z(k))为S(Vaz(k))的简写,表示隐含层的激活函数向量,na为隐藏层神经元的数量。
定义辅助变量:
Figure BDA0002266224330000141
式中,Wa为期望加权向量,令
Figure BDA0002266224330000142
d*(k)表示有界误差。
定义k时刻的跟踪误差为
Figure BDA0002266224330000143
式中,
Figure BDA0002266224330000144
和dφ(k)=dt(k)-yr(k+τ)+φ(z(k),u*(k)).从假设3,我们知道Φ(·,·)是Lipschitz函数,并且
Figure BDA0002266224330000145
具有有界性,即
Figure BDA0002266224330000146
式中
Figure BDA0002266224330000147
为正常数。然后,(20)可化为
Figure BDA0002266224330000148
式中,
Figure BDA0002266224330000149
简单表示为δ(k),Uc(k)∈[min{U*(z(k)),U(k)},max{U*(z(k)),U(k)}]和
Figure BDA00022662243300001410
因此,闭环跟踪误差的动态表达式为
Figure BDA00022662243300001411
式中
Figure BDA00022662243300001412
并且
Figure BDA00022662243300001413
执行器NN的自适应律的设计原则是最小化SUF函数并跟踪期望轨迹。执行器NN的预测误差定义为
Figure BDA0002266224330000151
式中
Figure BDA0002266224330000152
Figure BDA0002266224330000153
G(k)=1+|N(x(k))|
Figure BDA0002266224330000154
Figure BDA0002266224330000155
式中,λ是一个阈值,λ>0。
调整执行器NN的权重
Figure BDA0002266224330000156
来最小化误差
Figure BDA0002266224330000157
结合(23)(24)(30)和引理2,可以得到
Figure BDA0002266224330000158
式中αa∈R+为执行器NN的自适应增益。因此,得到执行器NN的权值更新算法为
Figure BDA0002266224330000159
图3给出了对电石炉石灰粉料压球机电流控制回路单位阶跃响应作用下的响应曲线。对电石炉石灰粉料压球机电流控制回路采取简化一阶惯性加延时环节,通过阶跃响应作图方法来获取其数学模型:
Figure BDA00022662243300001510
分别采用本发明提出的积分强化学习控制方法,参数为评论器NN和执行器NN的调节速率分别为αa=4.7和αc=0.01.选择阈值为λ=0.001。采用PID控制作为对比方法,通过Z-N法,并通过人工调整正定得到PID参数分别为Kp=0.45,ki=0.0017,kd=0.0075。通过仿真结果可以看出,本发明所提的控制方法具有超调量小,调节时间短的优势。
附图4为模型参数失配下控制系统响应曲线。为了保证控制系统的效果,通过改变被控对象的参数说明所发明的控制方法的鲁棒性,被控参数K、T、τ都增加20%,所发明就积分强化学习控制方法与PID控制方法的响应结果对比在附图4中。通过比较可以看出,在模型失配情况下,积分强化学习控制明显具有调整时间短,超调小的优点,可见积分强化学习控制系统的鲁棒性更强。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (3)

1.一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,其特征在于,该方法包括以下步骤:
S1:首先采集电石炉石灰粉料压球机进料铰刀电机的转速来获得电机的电流作为输出信号,利用电机的输入电压对电机电流进行控制;并定义非二次策略效用函数,使得输出信号跟踪给定的电流期望轨迹,并且使所用的输入电压信号波动最小。具体如下:
定义非二次策略效用函数SUF;
Figure FDA0002266224320000011
式中,k为采样步数,
Figure FDA0002266224320000012
为正常数,u(k)为电机的控制输入电压信号,y(k)为电机电流的输出信号,r>0,v为控制输入的饱和界限,
Figure FDA0002266224320000013
为有界的一对一函数,满足
Figure FDA0002266224320000014
而且
Figure FDA0002266224320000015
为单调递增奇函数;
Figure FDA0002266224320000016
的梯度是有界的;q(y(k))=(y(k)-yr(k))2,其中,yr(k)为电石炉石灰粉料压球机给定的电流期望轨迹,是紧子集R上的一个已知的光滑有界函数,由于
Figure FDA0002266224320000017
是单调奇函数,W(u(·))是正定的;
根据Bellman最优化原理,得到最优的SUF值J*(·),满足以下HJB方程:
Figure FDA0002266224320000018
q(k)为q(y(k))的简写。
S2:在每一个采样周期内,根据隐函数定理,由最优的SUF值J*(·),得到一个最优控制律u*(k),作为电机的输入电压,可以使电石炉石灰粉料压球机电机电流跟踪给定的电流期望轨迹,最优控制律如下:
Figure FDA0002266224320000021
式中,
Figure FDA0002266224320000022
τ为系统时延。
S3:利用评论器NN神经网络近似最优SUF值J*(·);评论器NN神经网络的预测误差ec(k)为:
Figure FDA0002266224320000023
式中
Figure FDA0002266224320000024
表示评论器NN神经网络的输出,
Figure FDA0002266224320000025
0<rc<1;
Figure FDA0002266224320000026
为回归向量,由输入和输出测量值的回归值组成,z(k)为由输入信号和输出信号的反馈值组成的向量,作为评论器NN神经网络的输入;,a(k)是开关信号;评论器NN神经网络具有双层结构,
Figure FDA0002266224320000027
Figure FDA0002266224320000028
分别表示其输出的实际权向量和隐藏层的权矩阵;nc项表示隐藏层神经元的数量,nz=m+n+1,m和n分别为输入和输出信号的阶次;隐藏层的激活函数向量
Figure FDA0002266224320000029
简写为φc(k);评论器NN神经网络近似最优SUF值J*(·)的公式如下:
Figure FDA00022662243200000210
式中,T为转置符号,Wc为最优SUF的期望权矩阵,为公式中需要更新的参数,
Figure FDA00022662243200000211
为J*(k)的有界的最优逼近误差,根据需求精度进行选择。
评论器NN网络的权值估计误差
Figure FDA00022662243200000212
为:
Figure FDA00022662243200000213
近似权值估计误差ζc(k)表示为:
Figure FDA00022662243200000214
因此,预测误差为:
Figure FDA0002266224320000031
其中,
Figure FDA0002266224320000032
Figure FDA0002266224320000033
Figure FDA0002266224320000034
G(k)=1+|N(x(k))|
其中,e(k)为时刻的跟踪误差,N(x(k))为Nussbaum增益,λ为一个阈值,λ>0。将预测误差的二次函数Ec(k)定义为评论器NN神经网络的最小化对象,进而确定预测误差中的ζc(k);
Figure FDA0002266224320000035
评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法:
Figure FDA0002266224320000036
式中,
Figure FDA0002266224320000037
αc∈R是可调节的自适应增益;然后根据以下引理,得到权重更新律。
引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为:
Figure FDA0002266224320000038
式中,矩阵A,向量b和q与矩阵X无关;
可得评论器NN的权值更新规律为
Figure FDA0002266224320000041
根据得到的权值更新规律和确定的近似权值估计误差,得到需要更新的最优SUF的期望权矩阵,进而得到最优SUF值。
S4:利用执行器NN生成电石炉石灰粉料压球机输入电压信号来近似最优控制律u*(k),具体如下:
利用执行器NN近似电石炉石灰粉料压球机输入电压的控制律表达式:
Figure FDA0002266224320000042
式中,u(k)为控制律,是执行器的输入,
Figure FDA0002266224320000043
为执行器NN的输出;
Figure FDA0002266224320000044
Figure FDA0002266224320000045
分别为输出层的加权向量和隐含层的加权矩阵,Z(k)是输入和输出信号的反馈信号组成的向量;S(Vaz(k))简写为S(z(k)),表示隐含层的激活函数向量,na为隐含层神经元的数量;nz=m+n+1,m和n分别为输入和输出信号的阶次;
定义辅助变量:
Figure FDA0002266224320000046
式中,Wa为期望加权向量,是需要更新的参数,则最优控制律为
Figure FDA0002266224320000047
d*(k)表示有界误差;
k+τ时刻的跟踪误差为:
Figure FDA0002266224320000048
式中,φ(z(k),u(k))=y(k+τ)-dt(k),
Figure FDA0002266224320000051
dφ(k)=dt(k)-yr(k+τ)+φ(z(k),u*(k));其中,dt(k)为干扰信号,Φ(·,·)满足Lipschitz条件,并且
Figure FDA0002266224320000052
有界,即
Figure FDA0002266224320000053
式中
Figure FDA0002266224320000054
为正常数;因此,k+τ时刻的跟踪误差可表示为:
Figure FDA0002266224320000055
式中,
Figure FDA0002266224320000056
Uc(k)∈[min{U*(z(k)),U(k)},max{U*(z(k)),U(k)}],
Figure FDA0002266224320000057
Figure FDA0002266224320000058
δ分别表示δ的上界和下界;
因此,跟踪误差的动态表达式为
Figure FDA0002266224320000059
式中
Figure FDA00022662243200000510
为执行器的近似权值估计误差,其中
Figure FDA00022662243200000511
执行器NN的自适应律的设计原则是最小化SUF函数并跟踪期望轨迹。执行器NN的预测误差定义为
Figure FDA00022662243200000512
式中,
Figure FDA00022662243200000513
Figure FDA00022662243200000514
根据Δx(k)可计算出Nussbaum增益N(x(k));
G(k)=1+|N(x(k))|
Figure FDA00022662243200000515
Figure FDA0002266224320000061
其中,λ是一个阈值,λ>0。
调整执行器NN的权重
Figure FDA0002266224320000062
来最小化目标函数Ea(k)。
Figure FDA0002266224320000063
评论器NN神经网络的权值更新规则是一个基于梯度的自适应算法:
Figure FDA0002266224320000064
式中,
Figure FDA0002266224320000065
αa∈R+为执行器NN的自适应增益;然后根据以下引理,得到权重更新律。
引理:考虑到矩阵A∈Rm×m,X∈Rn×m和向量b∈Rn,q∈Rm,下面的二次项关于矩阵X的导数为:
Figure FDA0002266224320000066
式中,矩阵A,向量b和q与矩阵X无关;
Figure FDA0002266224320000067
因此,得到执行器NN的权值更新规律为
Figure FDA0002266224320000068
根据得到的权值更新规律和确定的跟踪误差,得到需要更新的期望加权向量Wa,进而得到最优控制律u*(k)。
2.根据权利要求1所述的一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,其特征在于,步骤S1中
Figure FDA0002266224320000069
可为双曲正切函数,即
Figure FDA00022662243200000610
3.根据权利要求1所述的一种电石炉石灰粉料压球控制系统的积分强化学习控制方法,其特征在于,步骤S2具体为:根据隐函数定理,存在一个最优控制律u*(k),定义为
Figure FDA0002266224320000071
假设J*(·)是光滑的,J*(k)的最小值通过令q(k)+W(u(k))+J*(k+1)对于u(k)的梯度为零来精确求解,即
Figure FDA0002266224320000072
求解后,可得相应的最优控制律u*(k)。
CN201911088739.1A 2019-11-08 2019-11-08 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法 Active CN111086268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088739.1A CN111086268B (zh) 2019-11-08 2019-11-08 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088739.1A CN111086268B (zh) 2019-11-08 2019-11-08 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法

Publications (2)

Publication Number Publication Date
CN111086268A true CN111086268A (zh) 2020-05-01
CN111086268B CN111086268B (zh) 2021-02-23

Family

ID=70393119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088739.1A Active CN111086268B (zh) 2019-11-08 2019-11-08 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法

Country Status (1)

Country Link
CN (1) CN111086268B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943659A (en) * 1995-10-03 1999-08-24 Nec Research Institute, Inc. Deterministic encoding of fuzzy finite state automata in continuous recurrent neural networks
CN1648801A (zh) * 2005-02-03 2005-08-03 浙江大学 利用神经网络来整定鲁棒pid控制器参数的方法
CN102591203A (zh) * 2012-02-17 2012-07-18 南京国电环保设备有限公司 一种伺服电机的基于微分器的直接神经网络控制方法
CN104020672A (zh) * 2014-05-29 2014-09-03 西安交通大学 一种直流中空电极电石炉智能控制方法
CN105366679A (zh) * 2015-12-04 2016-03-02 中国天辰工程有限公司 一种氧热法电石生产用原料及其制备方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107416831A (zh) * 2017-07-24 2017-12-01 神雾环保技术股份有限公司 一种长焰煤粉和生石灰粉制备电石冶炼原料的方法
CN207874943U (zh) * 2018-01-29 2018-09-18 郑州中鼎重型机器制造有限公司 一种干粉压球机

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5943659A (en) * 1995-10-03 1999-08-24 Nec Research Institute, Inc. Deterministic encoding of fuzzy finite state automata in continuous recurrent neural networks
CN1648801A (zh) * 2005-02-03 2005-08-03 浙江大学 利用神经网络来整定鲁棒pid控制器参数的方法
CN102591203A (zh) * 2012-02-17 2012-07-18 南京国电环保设备有限公司 一种伺服电机的基于微分器的直接神经网络控制方法
CN104020672A (zh) * 2014-05-29 2014-09-03 西安交通大学 一种直流中空电极电石炉智能控制方法
CN105366679A (zh) * 2015-12-04 2016-03-02 中国天辰工程有限公司 一种氧热法电石生产用原料及其制备方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN106970594B (zh) * 2017-05-09 2019-02-12 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107416831A (zh) * 2017-07-24 2017-12-01 神雾环保技术股份有限公司 一种长焰煤粉和生石灰粉制备电石冶炼原料的方法
CN207874943U (zh) * 2018-01-29 2018-09-18 郑州中鼎重型机器制造有限公司 一种干粉压球机

Also Published As

Publication number Publication date
CN111086268B (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
He et al. Fuzzy self-tuning of PID controllers
CN109581870B (zh) 含能材料反应釜的釜内温度动态矩阵控制方法
US5159660A (en) Universal process control using artificial neural networks
Wu et al. An intelligent integrated optimization system for the proportioning of iron ore in a sintering process
CN107544255B (zh) 一种批次注塑过程的状态补偿模型控制方法
CN108490779B (zh) 一种稀土萃取过程解耦控制方法
CN105353619B (zh) 一种批次注塑过程的滚动时域跟踪控制方法
CN109557810B (zh) 一种基于新型二自由度内模pid的加热炉温度控制方法
He et al. PID self-tuning control using a fuzzy adaptive mechanism
CN111413863B (zh) 一种基于3D打印喷头的粒子群模糊Smith温度控制方法
CN109254530A (zh) 基于磨矿过程基础回路的无模型自适应控制方法
Khettab et al. Enhanced fractional order indirect fuzzy adaptive synchronization of uncertain fractional chaotic systems based on the variable structure control: robust H∞ design approach
CN111007716A (zh) 基于预测函数的交流伺服电机变论域模糊pi控制方法
CN117093033A (zh) 基于粒子群算法优化pid参数的电阻加热炉温度控制系统
CN106054616B (zh) 模糊逻辑优化pid控制器参数的钛带卷连续酸洗活套高度控制方法
CN112180733B (zh) 一种基于模糊逻辑的建筑能耗系统预测控制参数整定方法
CN111086268B (zh) 一种电石炉石灰粉料压球控制系统的积分强化学习控制方法
CN105353618B (zh) 一种批次注塑过程的约束跟踪控制方法
CN110597055B (zh) 抗不确定性的2d分段仿射间歇过程最小-最大优化的预测控制方法
Piltan et al. Design Auto Adjust Sliding Surface Slope: Applied to Robot Manipulator
CN111077771A (zh) 一种自整定模糊pid控制方法
CN108089442A (zh) 一种基于预测函数控制与模糊控制的pi控制器参数自整定方法
CN112379601A (zh) 基于工业过程的mfa控制系统设计方法
CN109039166B (zh) 一种永磁同步直线伺服系统速度环pi-ip控制参数自校正方法
Rayme et al. Control System based on Reinforcement Learning applied to a Klatt-Engell Reactor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Song Xiaoling

Inventor after: Ma Longhua

Inventor after: Wen Gang

Inventor after: Xu Ming

Inventor after: Yao Jiaqing

Inventor after: Cui Jialin

Inventor after: Geng Runhua

Inventor before: Song Xiaoling

Inventor before: Ma Longhua

Inventor before: Wen Gang

Inventor before: Xu Ming

Inventor before: Yao Jiaqing

Inventor before: Cui Jialin

Inventor before: Geng Runhua

CB03 Change of inventor or designer information