具体实施方式
参见图1,本发明五自由度无轴承永磁同步电机强化学习控制器8由一个电流控制模块4、六个微分器和三个执行器-评价器模块组成,三个执行器-评价器模块分别是第一执行器-评价器模块1、第二执行器-评价器模块2和第三执行器-评价器模块3。三个执行器-评价器模块的输出端连接电流控制模块4的输入端,电流控制模块4的输出端连接五自由度无轴承永磁同步电机系统7。五自由度无轴承永磁同步电机系统7中的五自由度无轴承永磁同步电机由一台二自由度无轴承永磁同步电机和一个三自由度混合磁轴承构成。
由无轴承永磁同步电机系统7和电流控制模块4组成复合被控对象9,复合被控对象9的输出即无轴承永磁同步电机系统7的输出,为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及三自由度混合磁轴承径向位移xr、yr与轴向位移z。电流控制模块4的输出是二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc、二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc、三自由度混合磁轴承径向位移控制电流ia、ib、ic和轴向位移控制电流iz。
将电机实时径向位移值x、y、实际转速ω以及磁轴承径向位移xr、yr与轴向位移z作为反馈值,分别与相应的给定值x*、y*、xr *、yr *、z*、ω*一一对应地进行比较,得到电机实时径向位移误差ex、ey、实际转速eω误差以及磁轴承径向位移误差exr、eyr与轴向位移ez这6个误差,将每个误差各输入一个对应的微分器d/dt,通过6个微分器分别对时间求导,得到误差将其中的误差ex、ey、作为第一执行器-评价器模块1的输入,误差eω、作为第二执行器-评价器模块2的输入,误差exr、eyr、ez、 作为第三执行器-评价器模块3的输入。第一执行器-评价器模块1的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流iBd *、iBq *,第二执行器-评价器模块2的输出是d-q坐标系下的转矩绕组给定电流iMd *、iMq *,第三执行器-评价器模块3的输出是三自由度混合磁轴承控制电流ix *、iy *、iz *。复合被控对象9的输入即电流控制模块4的输入,为三个执行器-评价器模块的输入。
如图2所示,电流控制模块4由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55组成。五自由度无轴承永磁同步电机系统7由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66组成。其中,6个PI调节器分别是第一PI调节器41、第二PI调节器42、第三PI调节器49、第四PI调节器50、第五PI调节器56和第六PI调节器57;2个PARK变换器分别是第一PARK变换器45和第二PARK变换器63;2个IPARK变换器分别是第一IPARK变换器43和第二IPARK变换器58;3个CLARK变换器分别是第一CLARK变换器46、第二CLARK变换器53和第三CLARK变换器62;3个SVPWM分别是第一SVPWM44、第二SVPWM51和第三SVPWM59;3个电流传感器分别是第一电流传感器47、第二电流传感器54和第三电流传感器61;3个电压源逆变器分别是第一电压源逆变器48、第二电压源逆变器52和第三电压源逆变器60。
位移传感器65采用五个电涡流位移传感器分别检测二自由度无轴承永磁同步电机转子的x轴与y轴的实时径向位移值x、y以及三自由度混合磁轴承的径向位移xr、yr和轴向位移z,采用光电编码器64检测二自由度无轴承永磁同步电机转子的转速ω。
第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc,第三电流传感器61的输出端依序连接第三CLARK变换器62和第二PARK变换器63,悬浮绕组电流iBa、iBb、iBc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流iBα、iBβ。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流iBα、iBβ生成d-q坐标系下的悬浮绕组电流iBd、iBq。将该悬浮绕组电流iBd、iBq作为反馈电流,与d-q坐标系下的悬浮绕组给定电流iBd *、iBq *比较,比较得到的误差分别一一对应地输出到第五PI调节器56和第六PI调节器57,第五PI调节器56和第六PI调节器57的输出端依序连接第二IPARK变换器58、第三SVPWM59和第三电压源逆变器60,比较得到的误差经第五PI调节器56和第六PI调节器57处理后分别生成d-q坐标系下的悬浮绕组电压VBd *和VBq *,悬浮绕组电压VBd *和VBq *经第二IPARK变换器58处理后生成α-β坐标系下的悬浮绕组电压VBα *和VBβ *。α-β坐标系下的悬浮绕组电压VBα *和VBβ *经第三SVPWM59处理后生成第三电压源逆变器60的开关信号SB(B=1,2,3,4,5,6)。第三电压源逆变器60根据开关信号SB控制二自由度无轴承永磁同步电机的悬浮绕组电流。
第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc,第一电流传感器47的输出端依序连接第一CLARK变换器46和第一PARK变换器45,转矩绕组电流iMa、iMb、iMc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流iMα、iMβ,第一PARK变换器45处理α-β坐标系下的转矩绕组电流iMα、iMβ生成d-q坐标系下的转矩绕组电流iMd、iMq,将转矩绕组电流iMd、iMq作为反馈电流,与d-q坐标系下的转矩绕组给定电流iMd *、iMq *比较,比较得到误差分别一一对应地输出到第一PI调节器41和第二PI调节器42,比较得到的误差经第一PI调节器41和第二PI调节器42处理后分别生成d-q坐标系下的转矩绕组电压VMd *和VMq *,第一PI调节器41和第二PI调节器42的输出端依次串接第一IPARK变换器43、第一SVPWM44和第一电压源逆变器48,第一IPARK变换器43处理d-q坐标系下的转矩绕组电压VMd *和VMq *,生成α-β坐标系下的转矩绕组电压VMα *和VMβ *,α-β坐标系下的转矩绕组电压VMα *和VMβ *经第一SVPWM44处理后生成第一电压源逆变器48的开关信号SM(M=1,2,3,4,5,6)。第一电压源逆变器48根据开关信号SM控制二自由度无轴承永磁同步电机的转矩绕组电流。
第二电流传感器54检测三自由度混合磁轴承径向位移控制电流ia、ib、ic,径向位移控制电流ia、ib、ic经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流ix、iy,将α-β坐标系下的径向位移控制电流ix、iy作为反馈电流,与给定径向位移控制电流ix *、iy *比较,比较得到的误差分别一一对应地输出到第三PI调节器49和第四PI调节器50,比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压Vx *和Vy *。第三PI调节器49和第四PI调节器50的输出端依次串接第二SVPWM51和第二电压源逆变器52,α-β坐标系下的径向位移控制电压Vx *和Vy *经第二SVPWM51处理后生成第二电压源逆变器52的开关信号ST(T=1,2,3,4,5,6),第二电压源逆变器52根据开关信号ST控制三自由度混合磁轴承径向位移控制电流。
三自由度磁轴承轴向位移控制电流iz直接经由轴向位移给定电流iz *经过功率放大器55得到。
如图3所示,第一执行器-评价器模块1由第一执行器神经网络11、第一评价器神经网络12、第一强化信号模块13和第一瞬时差分模块14组成。误差ex、ey、为第一执行器神经网络11和第一评价器神经网络12的共同输入,第一评价器神经网络12的输出端经第一瞬时差分模块14连接第一执行器神经网络11,第一瞬时差分模块14的输出端还连接第一评价器神经网络12的输入端。误差ex、ey作为第一强化信号模块13的输入,第一强化信号模块13的输出端连接第一瞬时差分模块14,第一强化信号模块13输出强化信号r1(t)。第一评价器神经网络12生成并输出值函数V1(t),第一执行器神经网络11输出d-q坐标系下的悬浮绕组给定电流iBd *、iBq *,第一瞬时差分模块14根据强化信号r1(t)和值函数V1(t)生成瞬时差分信号δ1(t)。第一执行器神经网络11和第一评价器神经网络12根据瞬时差分信号δ1(t)调整权值。
如图4所示,第二执行器-评价器模块2由第二执行器神经网络21、第二评价器神经网络22、第二强化信号模块23和第二瞬时差分模块24组成。将误差eω、作为第二执行器神经网络21和第二评价器神经网络22的共同输入,第二评价器神经网络22的输出端经第二瞬时差分模块24连接第二执行器神经网络21,第二瞬时差分模块24的输出端还连接第二评价器神经网络22的输入端。第二强化信号模块23以eω作为的输入,第二强化信号模块23的输出端连接第二瞬时差分模块24,输出强化信号r2(t)。第二评价器神经网络22生成输出值函数V2(t),第二执行器神经网络21输出d-q坐标系下的转矩绕组给定电流iMd *、iMq *。第二瞬时差分模块24根据强化信号r2(t)和值函数V2(t)生成瞬时差分信号δ2(t)。第二执行器神经网络21和第二评价器神经网络22根据瞬时差分信号δ2(t)调整权值。
如图5所示,第三执行器-评价器模块3由第三执行器神经网络31、第三评价器神经网络32、第三强化信号模块33和第三瞬时差分模块34组成。将误差exr、eyr、ez、 作为第三执行器神经网络31和第三评价器神经网络32的共同输入,第三评价器神经网络32的输出端经第三瞬时差分模块34连接第三执行器神经网络31,第三瞬时差分模块34的输出端还连接第三评价器神经网络32的输入端。第三强化信号模块33以exr、eyr、ez作为的输入,第三强化信号模块33的输出端连接第三瞬时差分模块34,输出强化信号r3(t)。第三评价器神经网络32生成输出值函数V3(t),第三执行器神经网络31输出三自由度混合磁轴承控制电流ix *、iy *、iz *,第三瞬时差分模块34根据强化信号r3(t)和值函数V3(t)生成瞬时差分信号δ3(t),第三执行器神经网络31和第三评价器神经网络32根据瞬时差分信号δ3(t)调整权值。
五自由度无轴承永磁同步电机强化学习控制器8的具体构造方法分以下6步:
1.构造电流控制模块4和五自由度无轴承永磁同步电机系统7
如图2所示,由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55构成电流控制模块4。由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66构成五自由度无轴承永磁同步电机系统7。
第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流iBa、iBb、iBc,悬浮绕组电流iBa、iBb、iBc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流iBα、iBβ。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流iBα、iBβ生成d-q坐标系下的悬浮绕组电流iBd、iBq。悬浮绕组电流iBd、iBq作为反馈电流与d-q坐标系下的悬浮绕组给定电流iBd *、iBq *比较,比较误差分别输出到第五PI调节器56和第六PI调节器57,比较误差经第五PI调节器56和第六PI调节器57处理后生成d-q坐标系下的悬浮绕组电压VBd *和VBq *。第二IPARK变换器58处理d-q坐标系下的悬浮绕组电压VBd *和VBq *生成α-β坐标系下的悬浮绕组电压VBα *和VBβ *。α-β坐标系下的悬浮绕组电压VBα *和VBβ *经第三SVPWM59处理后生成第三电压源逆变器60的开关信号SB(B=1,2,3,4,5,6)。第三电压源逆变器60根据开关信号控制二自由度无轴承永磁同步电机的悬浮绕组电流。第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流iMa、iMb、iMc,转矩绕组电流iMa、iMb、iMc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流iMα、iMβ。第一PARK变换器45处理α-β坐标系下的转矩绕组电流iMα、iMβ生成d-q坐标系下的转矩绕组电流iMd、iMq。转矩绕组电流iMd、iMq作为反馈电流与d-q坐标系下的转矩绕组给定电流iMd *、iMq *比较,比较误差分别输出到第一PI调节器41和第二PI调节器42,比较误差经第一PI调节器41和第二PI调节器42处理后生成d-q坐标系下的转矩绕组电压VMd *和VMq *。第一IPARK变换器43处理d-q坐标系下的转矩绕组电压VMd *和VMq *生成α-β坐标系下的转矩绕组电压VMα *和VMβ *。α-β坐标系下的转矩绕组电压VMα *和VMβ *经第一SVPWM44处理后生成第一电压源逆变器48的开关信号SM(M=1,2,3,4,5,6)。第一电压源逆变器48根据开关信号控制二自由度无轴承永磁同步电机的转矩绕组电流。第二电流传感器54检测三自由度混合磁轴承径向位移控制电流ia、ib、ic,径向位移控制电流ia、ib、ic经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流ix、iy。α-β坐标系下的径向位移控制电流ix、iy作为反馈电流与g给定径向位移控制电流ix *、iy *比较,比较误差分别输出到第三PI调节器49和第四PI调节器50,比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压Vx *和Vy *。α-β坐标系下的径向位移控制电压Vx *和Vy *经第二SVPWM51处理后生成第二电压源逆变器的开关信号ST(T=1,2,3,4,5,6)。第二电压源逆变器52根据开关信号控制三自由度混合磁轴承径向位移控制电流。三自由度磁轴承轴向位移控制电流iz直接由iz *经过功率放大器55得到。
2.构造第一执行器神经网络11、第二执行器神经网络21、第三执行器神经网络31与第一评价器神经网络12、第二评价器神经网络22、第三评价器神经网络32。
如图6、7、8所示,本发明采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习,每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层资源。如图6所示,第一执行器-评价器模块1的复合RBF神经网络共有三层,第一层为输入层节点数为4个,第二层为隐含层节点数为8个,第三层为输出层节点数为3个。如图7所示,第二执行器-评价器模块2的复合RBF神经网络共有三层,第一层为输入层节点数为2个,第二层为隐含层节点数为6个,第三层为输出层节点数为3个。如图8所示,第三执行器-评价器模块3的复合RBF神经网络共有三层,第一层为输入层节点数为6个,第二层为隐含层节点数为12个,第三层为输出层节点数为4个。
如图6,第一执行器-评价器模块1的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻,上标T表示矩阵的转置。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:
其中:
μ(1)j=[μ(1)1jμ(1)2jμ(1)3jμ(1)4j]T
为第一个神经网络的第j个节点的基函数中心向量,μ(1)1j,μ(1)2j,μ(1)3j,μ(1)4j分别对应状态变量ex(t)、ey(t)、的基函数中心向量,t为当前时刻,上标T表示矩阵的转置。σ(1)j为第一个神经网络的第j个节点的方差。下标(1)代表执行器-评价器模块1。第三层为输出层,由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I1m(t)和评价器神经网络输出值函数V1(t)由下面式子计算:
其中w(1)jk(t)为第一个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(1)1(t)、I(1)2(t)分别对应iBd *、iBq *。
其中v(1)j(t)为第j个隐含层节点到评价器输出节点的权值。
如图7,第二执行器-评价器模块2的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:
其中:
μ(2)j=[μ(2)1jμ(2)2j]T
为第二个神经网络的第j个节点的基函数中心向量,μ(2)1j、μ(2)2j分别对应状态变量eω(t)、的基函数中心向量。σ(2)j为第二个神经网络的第j个节点的方差。下标(2)代表第二执行器-评价器模块2。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I2m(t)和评价器神经网络输出值函数V2(t)由下面式子计算:
其中w(2)jk(t)为第二个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(2)1(t)、I(2)2(t)分别对应iMd *、iMq *。
其中v(2)j(t)为第二个神经网络第j个隐含层节点到评价器输出节点的权值。
如图8,第三执行器-评价器模块3的复合RBF神经网络的第一层为输入层,每个输入节点代表状态向量的一个分量,其中t代表当前时刻。第二层为隐含层,隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为:
其中:
μ(3)j=[μ1jμ2jμ3jμ4jμ5jμ6j]T
为第三个神经网络的第j个节点的基函数中心向量,μ1j、μ2j、μ3j、μ4j、μ5j、μ6j分别对应状态变量exr(t)、eyr(t)、ez(t)、的基函数中心向量,上标T表示矩阵的转置。σ(3)j为第三个神经网络的第j个节点的方差。下标(3)代表第三执行器-评价器模块3。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I3m(t)和评价器神经网络输出值函数V3(t)由下面式子计算:
其中w(3)jk(t)为第三个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I(3)1(t)、I(3)2(t)、I(3)3(t)分别对应ix *、iy *、iz *。
其中v(3)j(t)为第三个神经网络第j个隐含层节点到评价器输出节点的权值。
3.构造第一强化信号模块13、第二强化信号模块23、第三强化信号模块33。
如图3和图9所示,第一强化信号模块13有两个输入端,一个输出端。输入为二自由度无轴承永磁同步电机位移误差信号ex、ey,输出为强化信号r1(t)。强化信号的计算由以下公式得到:
r1(t)=αxrx(t)+αyry(t),
其中rx(t)、ry(t)分别为x轴向位移误差强化信号,y轴向位移误差强化信号。αx、αy分别为x轴向位移误差强化信号系数,y轴向位移误差强化信号系数。这里两个系数值都取0.5。
x轴向位移误差强化信号rx(t),y轴向位移误差强化信号ry(t)的计算由以下公式得到:
rx(t)=βx1rx1(t)+βx2rx2(t)
ry(t)=βy1ry1(t)+βy2ry2(t)
其中rx1(t),rx2(t)分别为x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号,系数βx1和βx2分别为他们的权重,这里均取0.5。其中ry1(t),ry2(t)分别为y轴向位移当前时刻误差强化信号和误差变化强化信号系数βy1和βy2分别为他们的权重,均取0.5。ex(t)为x轴向位移当前时刻误差,ey(t)为y轴向位移当前时刻误差,ex(t-1)为x轴向位移上一时刻误差,ey(t-1)为y轴向位移上一时刻误差,εx和εy分别为x轴向位移误差信号的容许误差带,y轴向位移误差信号的容许误差带,统一设为反馈量大小的1%。
如图4和图10所示,第二强化信号模块23有一个输入端,一个输出端。输入为转速误差信号eω,输出为强化信号r2(t)。强化信号的计算由以下公式得到:
r2(t)=βω1rω1(t)+βω2rω2(t)
其中rω1(t)、rω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号。系数βω1和βω2分别为它们的权重,这里均取0.5。转速当前时刻误差强化信号rω1(t)和转速误差变化强化信号rω2(t)的计算由以下公式得到:
其中eω(t)为转速当前时刻误差,eω(t-1)为转速上一时刻误差,εω转速误差信号的容许误差带,设为反馈量大小的1%。
如图5和图11所示,第三强化信号模块33有三个输入端,一个输出端。输入为三自由度混合磁轴承径向与轴向位移误差信号exr、eyr和ez,输出为强化信号r3(t)。强化信号的计算由以下公式得到:
r3(t)=αxrrxr(t)+αyrryr(t)+αzrz(t)
其中rxr(t)、ryr(t)和rz(t)分别为三自由度混合磁轴承x轴向位移误差强化信号,y轴向位移误差强化信号和z轴向位移强化信号。αxr、αyr和αz分别为x轴向位移误差强化信号系数,y轴向位移误差强化信号系数和z轴向位移强化信号系数。这里三个系数值都取0.3。
三自由度混合磁轴承的x轴向位移误差强化信号rxr(t)、y轴向位移误差强化信号ryr(t)和x轴向位移误差强化信号rz(t)的计算由以下公式得到:
rxr(t)=βxr1rxr1(t)+βxr2rxr2(t)
ryr(t)=βyr1ryr1(t)+βyr2ryr2(t)
rz(t)=βz1rz1(t)+βz2rz2(t)
其中rxr1(t),rxr2(t)分别为三自由度混合磁轴承x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号,系数βxr1和βxr2分别为它们的权重,这里均取0.5。ryr1(t),ryr2(t)分别为三自由度混合磁轴承y轴向位移当前时刻误差强化信号和误差变化强化信号系数βyr1和βyr2分别为他们的权重,均取0.5。rz1(t),rz2(t)分别为三自由度混合磁轴承z轴向位移当前时刻误差强化信号和误差变化强化信号系数βz1和βz2分别为他们的权重,均取0.5。exr(t)为x轴向位移当前时刻误差,eyr(t)为y轴向位移当前时刻误差,ez(t)为z轴向位移当前时刻误差。exr(t-1)为x轴向位移上一时刻误差,eyr(t-1)为y轴向位移上一时刻误差,ez(t-1)为z轴向位移上一时刻误差。εxr、εyr和εz分别为x轴向位移误差信号的容许误差带,y轴向位移误差信号的容许误差带和z轴向位移误差信号的容许误差带,统一设为反馈量大小的1%。
4.构造第一瞬时差分模块14、第二瞬时差分模块24和第三瞬时差分模块34。
如图3-5所示,三个瞬时差分模块14、24、34中的每个都有两个输入端和两个输出端。两个输入分别为强化信号ra(t)(a=1,2,3,分别代表执行器-评价器模块1,2,3),评价器神经网络输出值函数Va(t)(a=1,2,3),两个输出相同都为瞬时差分信号δa(t)(a=1,2,3),一个输出到执行器神经网络,一个输出到评价器神经网络。如图12、13和图14所示,瞬时差分信号δa(t)的计算由以下公式得到:
δa(t)=ra(t)+γaVa(t+1)-Va(t)(a=1,2,3)
其中0≤γa≤1(a=1,2,3)为折扣因子,其大小表明了未来的回报相对于当前回报的重要程度。特别的,γa=0时,相当于只考虑立即不考虑长期回报,γa=1时,将长期回报和立即回报看得同等重要。t为当前时刻,Va(t+1)和Va(t)分别为更新前后的值函数。
5.确定执行器-评价器复合RBF神经网络参数更新方式。
在执行器-评价器复合RBF神经网络中需要更新的参数有w(a)jk,v(a)j,μ(a)j和σ(a)j(a=1,2,3)。其计算方法由如下公式得到:
w(a)jk(t+1)=w(a)jk(t)+α(a)Aδa(t)Φ(a)j(t),
v(a)j(t+1)=v(a)j(t)+α(a)Cδa(t)Φ(a)j(t),
其中α(a)A和α(a)C分别为执行器和评价器的学习率,α(a)μ和α(a)σ分别为中心向量和方差的学习率,所有学习率的取值范围均为0到1。所有的下标a可取1,2,3表示执行器-评价器模块1,2,3。
6.确定执行器-评价器算法流程
本发明中的强化学习执行器评价器算法流程如图15所示。具体步骤如下:
步骤1:初始化第一、第二、第三执行器评价器模块1,2,3中各个参数。
步骤2:由系统输出得到反馈值x、y、xr、yr、z、ω。
步骤3:将反馈值x、y、xr、yr、z、ω与给定值x*、y*、xr *、yr *、z*、ω*比较得到系统误差ex、ey、exr、eyr、ez、eω,
步骤4:误差信号分别对时间求导,得到
步骤5:构造状态向量:
步骤6:计算三个执行器-评价器复合RBF神经网络的输出I(a)m(t)、V(a)(t)。
步骤7:计算三个强化信号r(a)(t)。
步骤8:计算下一采样时间的系统输出。
步骤9:计算t+1时刻三个执行器-评价器复合RBF神经网络输出I(a)m(t+1)、V(a)(t+1)。
步骤10:计算强化信号r(a)(t+1)。
步骤11:计算瞬时差分信号δa(t)。
步骤12:更新执行器-评价器复合RBF神经网络的参数包括w(a)jk、v(a)j、μ(a)j、σ(a)j。
步骤13:判断系统是否稳定即误差信号是否处于容许误差带。若系统稳定则结束流程,否则跳转到步骤8。
最终由第一、第二、第三执行器-评价器模块1,2,3与电流控制模块4共同组成完整的五自由度无轴承永磁同步电机强化学习控制器8,如图1所示。