CN106788028A

CN106788028A - 无轴承永磁同步电机强化学习控制器及其构造方法

Info

Publication number: CN106788028A
Application number: CN201611180439.2A
Authority: CN
Inventors: 华逸舟; 朱熀秋
Original assignee: Jiangsu University
Current assignee: Yangzhong inspection and Testing Center
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-05-31
Anticipated expiration: 2036-12-20
Also published as: CN106788028B

Abstract

本发明公开一种无轴承永磁同步电机强化学习控制器及其构造方法，悬浮绕组和转矩绕组电流控制模块的输入端分别连接执行器‑评价器模块，执行器‑评价器模块由执行器神经网络、评价器神经网络、强化信号模块和瞬时差分模块组成，评价器神经网络和强化信号模块输出端连接瞬时差分模块输入端，瞬时差分模块输出端分别连接执行器神经网络和评价器神经网络输入端，位移误差和转速误差是评价器神经网络、强化信号模块和执行器神经网络的共同输入，执行器神经网络输出是d‑q坐标系下的悬浮绕组与转矩绕组给定电流，由评价器评价转速与位移反馈信息，并指导执行器控制悬浮绕组与转矩绕组电流，实现了对无轴承永磁同步电机系统的稳定跟踪控制。

Description

无轴承永磁同步电机强化学习控制器及其构造方法

技术领域

本发明涉及无轴承永磁同步电机，具体是一种无轴承永磁同步电机的控制器及构造方法，应用于机床电主轴、涡轮分子泵、离心机、压缩机、机电贮能、航空航天等特殊电气传动领域，属于电力传动控制设备的领域。

背景技术

无轴承永磁同步电机的控制器设计往往需要精确的电机参数值来辅助设计,如无速度传感器控制、矢量控制等。但是随着温度、负载和磁饱和程度的变化,电机的定子电感、绕组电阻和转子永磁磁链幅值等参数值大小都会随之而变化。当电机实际参数值相对于常温下的设计参数值发生比较大变化时,会对所设计的控制器性能造成很大影响,甚至会让其无法工作。

自适应控制器具有修正自己的特性以适应对象扰动的能力。在电机控制系统运行中，自适应控制器依靠不断采集控制过程信息，确定被控对象的当前实际工作状态，以优化性能为准则，产生自适应控制规律，从而实时地调整控制器结构或参数，使系统始终自动地工作在最优或次最优状态下。然而要实施自适应控制，通常需要准确获得被控对象的数学模型，而无轴承永磁同步电机径向位置系统是一个多变量、非线性、强耦合的复杂系统，很难获取其精确的数学模型。

中国专利公开号为CN102790577A的文献中公开了一种无轴承永磁同步电机悬浮子系统控制器的构造方法，对无轴承永磁同步电机的悬浮子系统在不同径向位置下径向力进行非线性解耦控制设计了模糊神经网络逆解耦控制器，模糊神经网络需要事先读取训练数据，进行大量离线训练，权值一旦固定无法在线调节，导致控制器无法克服无轴承永磁同步电机系统参数变化、负载突变等不确定因素对系统的影响，鲁棒性差。中国专利公开号为CN103647481A的文献中公开了一种无轴承永磁同步电机径向位置神经网络自适应逆控制器构造方法，对无轴承永磁同步电机转子位于不同径向位置设计了神经网络自适应控制器，该神经网络自适应控制器将水平位移和垂直位移分开控制，系统复杂，同时没有对电机速度进行控制，但是其研究对象为无轴承永磁同步电机。

执行器–评价器算法(Actor-Critic，AC),也称为自适应启发式评价算法,是一种重要的强化学习算法，具有无模型在线学习能力。它包含两个部件：执行器(Actor)和评价器(Critic)。执行器即策略结构，用于选择动作；评价器即值函数，用于评估执行器选择的动作。执行器–评价器算法中，动作的选择与值函数的更新釆用了相同的策略。评价器必须了解和评价执行器当前采用的策略，评价采用瞬时差分误差的方式，这个标量信号是评价器的唯一输出并推动了执行器–评价器的所有学习。一般情况下,评价器是一个状态值函数，评价器的实现机制，即值函数的更新可以采用时间差分学习(Temporal-Differencelearning，TD)。评价器的作用在于：在每个动作选择之后，评价器评估新状态来决定事情是否比期望的好或者更糟，这个评估就是瞬时差分误差。如果瞬时差分误差是正值，表明未来选择当前动作的倾向要被加强，但是如果瞬时差分误差是负值，表明倾向要被减弱。

发明内容

本发明的目的是为克服上述现有技术的不足，提供一种可使无轴承永磁同步电机具有优良的动、静态控制性能的自适应强化学习控制器以及该控制器的构造方法，将人工智能领域强化学习中的执行器-评价器算法与传统矢量控制相结合，能够在没有电机精确模型的情况下在线更新控制器参数，维持无轴承永磁同步电机的稳定运行，抗电机参数变化及抗负载扰动能力强。

本发明无轴承永磁同步电机强化学习控制器采用的技术方案是：包括悬浮绕组电流控制模块和转矩绕组电流控制模块，电机的实时径向位移值x、y与转子位移指令值x^*、y^*分别对应地比较得到位移误差e_x和e_y，实际转速n与转速指令值n^*比较得到转速误差e_n，其特征是：悬浮绕组电流控制模块和转矩绕组电流控制模块的输入端分别连接执行器-评价器模块，执行器-评价器模块由执行器神经网络、评价器神经网络、强化信号模块和瞬时差分模块组成，评价器神经网络和强化信号模块的输出端连接瞬时差分模块的输入端，瞬时差分模块的输出端分别连接执行器神经网络和评价器神经网络的输入端；位移误差e_x、e_y和转速误差e_n是评价器神经网络、强化信号模块和执行器神经网络的共同输入，执行器神经网络的输出是d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*与转矩绕组给定电流i_Md ^*、i_Mq ^*，悬浮绕组给定电流i_Bd ^*、i_Bq ^*是悬浮绕组电流控制模块的输入，转矩绕组给定电流i_Md ^*、i_Mq ^*是转矩绕组电流控制模块的输入。

进一步地，评价器神经网络根据输入值生成评价器神经网络输出值函数V(t)，强化信号模块根据输入值生成强化信号r(t)，瞬时差分模块根据强化信号r(t)和评价器神经网络输出值函数V(t)计算得到并输出瞬时差分信号δ_TD(t)。

本发明无轴承永磁同步电机强化学习控制器的构造方法采用的技术方案是：包括以下步骤：

A.构造执行器神经网络与评价器神经网络，采用一个有三层的执行器-评价器复合RBF神经网络，第一层为输入层节点数为3个，每个输入节点代表状态向量x(t)＝[e_x e_ye_n]^T的一个分量；第二层为隐含层节点数为8个，节点基函数采用高斯核函数；第三层为输出层节点数为4个，由执行器神经网络输出值函数I_m(t)和评价器神经网络输出值函数V(t)两个部分组成；

B.构造强化信号模块，强化信号模块的输出为强化信号r(t)＝α_xr_x(t)+α_yr_y(t)+α_nr_n(t)，r_x(t)、r_y(t)和r_n(t)分别为x轴向位移误差强化信号、y轴向位移误差强化信号和转子转速误差强化信号，α_x、α_y和α_n分别为x轴向位移误差强化信号系数、y轴向位移误差强化信号系数和转子转速误差强化信号系数；

C.构造瞬时差分模块，瞬时差分模块的两个输入分别为强化信号r(t)、评价器神经网络输出值函数V(t)，两个输出都为瞬时差分信号δ_TD(t)＝r(t)+γV(t+1)-V(t)，TD表示瞬时差分，0≤γ≤1为折扣因子，V(t+1)和V(t)分别为更新前后的值函数；

D.由执行器-评价器模块与悬浮绕组电流控制模块、转矩绕组电流控制模块共同组成无轴承永磁同步电机强化学习控制器。

本发明的优点在于：

1、本发明中的评价器神经网络输出值与强化信号模块输出值经瞬时差分模块处理产生瞬时差分信号，瞬时差分信号同时指导评价器神经网络和执行器神经网络的权值更新，执行器神经网络最终作为控制器控制复合被控对象，解决了单一神经网络控制器需要事先读取训练数据，进行大量离线训练，权值一旦固定无法在线调节的不足，解决传统自适应控制需要精确数学模型的难题，同时克服了系统参数变化、负载突变等不确定因素对系统性能的影响，具有更好的鲁棒性，能够维持无轴承永磁同步电机的高性能稳定运行。

2.本发明采用了执行器–评价器学习算法,也称为自适应启发式评价算法，是一种重要的强化学习算法。由评价器评价无轴承永磁同步电机系统的转速与位移反馈信息，并指导执行器控制无轴承永磁同步电机的悬浮绕组与转矩绕组电流，实现了对无轴承永磁同步电机系统的稳定跟踪控制，能够在没有电机精确模型的情况下在线更新控制器参数，可以解决传统自适应控制需要精确数学模型的难题，解决了单一神经网络控制器需要事先读取训练数据，进行大量离线训练，权值一旦固定无法在线调节的不足，同时克服了系统参数变化、负载突变等不确定因素对系统性能的影响，具有更好的鲁棒性。

3.本发明采用了径向基函数神经网络(RBF network)。RBF神经网络能够逼近任意的非线性函数，可以处理系统内的难以解析的规律性，具有良好的泛化能力。同时RBF神经网络作为一种局部逼近网络相比BP神经网络等全局逼近网络具有更快的学习收敛速度。已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。

附图说明

图1是本发明无轴承永磁同步电机强化学习控制器的结构框图；

图2是图1中执行器–评价器控制原理示意图；

图3是图2执行器–评价器复合RBF神经网络结构图；

图4是图2中强化信号模块的构造原理图；

图5是图2中瞬时差分模块的构造原理图；

图6是图2中执行器-评价器算法流程图。

图中：1.无轴承永磁同步电机强化学习控制器；2.执行器-评价器模块；3.悬浮绕组电流控制模块；4.转矩绕组电流控制模块；5.执行器神经网络；6.强化信号模块；7.瞬时差分模块；8.评价器神经网络；9.第一PI调节器；10.第二PI调节器；11.第一PARK变换器；12.第一IPARK变换器；13.第一CLARK变换器；14.第一SVPWM；15.第一电流传感器；16.第一电压源逆变器；17.第三PI调节器；18.第四PI调节器；19.第二PARK变换器；20.第二IPARK变换器；21.第二CLARK变换器；22.第二SVPWM；23.第二电流传感器；24.第二电压源逆变器；25.位移传感器；26.光电编码器；27.速度计算模块；28.复合被控对象。

具体实施方式

参见图1和图2，本发明无轴承永磁同步电机强化学习控制器1由执行器-评价器模块2、悬浮绕组电流控制模块3和转矩绕组电流控制模块4组成。悬浮绕组电流控制模块3和转矩绕组电流控制模块4的输入端分别连接执行器-评价器模块2。执行器-评价器模块2由执行器神经网络5、评价器神经网络8、强化信号模块6和瞬时差分模块7组成。评价器神经网络8和强化信号模块6的输出端连接瞬时差分模块7的输入端，瞬时差分模块7的输出端分别连接执行器神经网络5和评价器神经网络8的输入端，执行器神经网络5的输出端分别连接悬浮绕组电流控制模块3和转矩绕组电流控制模块4的输入端。

悬浮绕组电流控制模块3由第一PI调节器9、第二PI调节器10、第一PARK变换器11、第一IPARK变换器12、第一CLARK变换器13、第一SVPWM(空间矢量脉宽调制模块)14、第一电流传感器15和第一电压源逆变器16组成。

转矩绕组电流控制模块4由第三PI调节器17、第四PI调节器18、第二PARK变换器19、第二IPARK变换器20、第二CLARK变换器21、第二SVPWM22、第二电流传感器23和第二电压源逆变器24组成。

无轴承永磁同步电机采用两个电涡流位移传感器25分别检测转子的x轴与y轴的实时径向位移值x、y。采用光电编码器26检测无轴承永磁同步电机转子的实际角位置θ，光电编码器26的输出端连接速度计算模块27的输入端，实际角位置θ经速度计算模块27得到实际转速n。

将无轴承永磁同步电机和悬浮绕组电流控制模块3、转矩绕组电流控制模块4、位移传感器25、光电编码器26、速度计算模块27一起构成复合被控对象28。复合被控对象28的输入是执行器神经网络5的输出，为d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*与d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*，悬浮绕组给定电流i_Bd ^*、i_Bq ^*是悬浮绕组电流控制模块3的输入，转矩绕组给定电流i_Md ^*、i_Mq ^*是转矩绕组电流控制模块4的输入。输出为无轴承永磁同步电机的实时径向位移值x、y与实际转速n。

将实时径向位移值x、y分别与转子位移指令值x^*、y^*分别对应地进行比较得到对应的位移误差e_x和e_y，将实际转速n与转速指令值n^*进行比较，得到转速误差e_n。位移误差e_x、e_y和转速误差e_n作为评价器神经网络8、强化信号模块6和执行器神经网络5的共同输入，评价器神经网络8根据输入值生成评价器神经网络输出值函数V(t)。强化信号模块6根据输入值生成强化信号r(t)，强化信号r(t)的计算由以下公式得到：

r(t)＝α_xr_x(t)+α_yr_y(t)+α_nr_n(t)

其中t为当前时刻，r_x(t)为x轴向位移误差强化信号，r_y(t)为y轴向位移误差强化信号，r_n(t)为转子转速误差强化信号。α_x、α_y和α_n分别为x轴向位移误差强化信号系数、y轴向位移误差强化信号系数和转子转速误差强化信号系数，本发明α_x、α_y和α_n这三个系数值都取0.3，系数的大小会影响控制器对位移反馈信号和转速反馈信号的敏感度。x轴向位移误差强化信号r_x(t)，y轴向位移误差强化信号r_y(t)和转子转速误差强化信号r_n(t)的计算由以下公式得到：

其中ε_x为x轴向位移误差信号的容许误差带，ε_y为y轴向位移误差信号的容许误差带，ε_n为转子转速误差信号的容许误差带。容许误差带的选取与反馈量本身的大小有关，这里三个误差带ε_x、ε_y、ε_n统一设为反馈量大小的1％。

强化信号模块6生成的强化信号r(t)输入瞬时差分模块7，评价器神经网络8生成的评价器神经网络输出值函数V(t)也输入瞬时差分模块7。瞬时差分模块7根据强化信号r(t)和评价器神经网络输出值函数V(t)，由公式：

δ_TD(t)＝r(t)+γV(t+1)-V(t)

计算得到并输出瞬时差分信号δ_TD(t)，TD表示瞬时差分，γ表示折扣因子，0<γ<1。评价器神经网络8根据公式：

v_j(t+1)＝v_j(t)+α_Cδ_TD(t)Φ_j(t)

更新神经网络权值并输出新的评价器神经网络输出值函数V(t)，其中α_C为评价器神经网络的学习率，v_j(t)为第j个隐含层节点到评价器输出节点的权值，v_j(t+1)为更新后的第j个隐含层节点到评价器输出节点的权值，Φ_j(t)为第j个隐含层节点的输出。

瞬时差分模块7输出的瞬时差分信号δ_TD(t)输入执行器神经网络5中，执行器神经网络5根据公式：

w_jk(t+1)＝w_jk(t)+α_Aδ_TD(t)Φ_j(t)

更新神经网络权值，并最终输出d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*与d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*。其中α_A为执行器神经网络的学习率，w_jk(t)为第j个隐含层节点到执行器的第k个输出节点的权值，w_jk(t+1)为更新后的第j个隐含层节点到执行器的第k个输出节点的权值。

无轴承永磁同步电机强化学习控制器1的具体构造方法分以下7步：

1.构造悬浮绕组电流控制模块3

采用第一电流传感器15检测无轴承永磁同步电机的悬浮绕组电流i_Ba、i_Bb、i_Bc，电流传感器15的输出端连接第一CLARK变换器13的输入端，悬浮绕组电流i_Ba、i_Bb、i_Bc经第一CLARK变换器13处理后生成α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ。第一CLARK变换器13的输出端连接第一PARK变换器11的输入端，第一PARK变换器11再依据光电编码器26输出的电机转子角度θ处理α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ，生成d-q坐标系下的悬浮绕组电流i_Bd、i_Bq。

将悬浮绕组电流i_Bd、i_Bq作为反馈电流，与d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*比较，比较误差分别输出到一一对应的第一PI调节器9和第二PI调节器10，比较误差经第一PI调节器9和第二PI调节器10处理后生成d-q坐标系下的悬浮绕组电压V_Bd ^*和V_Bq ^*。PI调节器9和PI调节器10输出端与IPARK变换器12输入端连接，第一IPARK变换器12再依据光电编码器26输出的电机转子角度θ处理d-q坐标系下的悬浮绕组电压V_Bd ^*和V_Bq ^*，生成α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*。第一IPARK变换器12的输出端与第一SVPWM14的输入端相连，α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*经第一SVPWM14处理后生成第一电压源逆变器16的开关信号S_B(B＝1,2,3,4,5,6)。第一SVPWM14的输出端与第一电压源逆变器16的输入端相连，电压源逆变器母线电压V_DC输入电压第一电压源逆变器16，第一电压源逆变器16根据开关信号控制无轴承永磁同步电机的悬浮绕组。

2.构造转矩绕组电流控制模块4

采用第二电流传感器23检测无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc，第二电流传感器23的输出端连接第二CLARK变换器21的输入端，转矩绕组电流i_Ma、i_Mb、i_Mc经第二CLARK变换器21处理后生成α-β坐标系下的转矩绕组电流i_Mα、i_Mβ。第二CLARK变换器21的输出端连接第二PARK变换器19的输入端，第二PARK变换器19再依据光电编码器26输出的电机转子角度θ处理α-β坐标系下的转矩绕组电流i_Mα、i_Mβ生成d-q坐标系下的转矩绕组电流i_Md、i_Mq。转矩绕组电流i_Md、i_Mq作为反馈电流与d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*比较，比较误差分别输出到一一对应的第三PI调节器17和第四PI调节器18，比较误差经第三PI调节器17和第四PI调节器18处理后生成d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*。第三PI调节器17和第四PI调节器18输出端与第二IPARK变换器20输入端连接，第二IPARK变换器20依据光电编码器26输出的电机转子角度θ处理d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*生成α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*。第二IPARK变换器20的输出端与第二SVPWM22的输入端相连，α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*经第二SVPWM22处理后生成电压源逆变器的开关信号S_T(T＝1,2,3,4,5,6)。第二SVPWM22的输出端与第二电压源逆变器24的输入端相连，电压源逆变器母线电压V_DC输入第二电压源逆变器24，第二电压源逆变器24根据开关信号控制无轴承永磁同步电机的转矩绕组。

3.构造执行器神经网络5与评价器神经网络8

本发明采用一个执行器-评价器复合RBF神经网络同时实现执行器和评价器的学习，如图3所示，执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层资源。执行器-评价器复合RBF神经网络共有三层，第一层为输入层节点数为3个，第二层为隐含层节点数为8个，第三层为输出层节点数为4个。第一层为输入层，每个输入节点代表状态向量x(t)＝[e_x e_y e_n]^T的一个分量，其中T表示矩阵的转置。第二层为隐含层，隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为：

其中：μ_j＝[μ_1j μ_2j μ_3j]^T为第j个节点的基函数中心向量，μ_1j，μ_2j，μ_3j分别对应状态变量e_x，e_y，e_n的基函数中心向量，T表示矩阵的转置，σ_j为第j个节点的方差。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I_m(t)和评价器神经网络输出值函数V(t)由下面式子计算：

其中w_jk(t)为第j个隐含层节点到执行器的第k个输出节点的权值。I₁(t)、I₂(t)、I₃(t)、I₄(t)分别对应i_Bd ^*、i_Bq ^*、i_Md ^*、i_Mq ^*。

其中v_j(t)为第j个隐含层节点到评价器输出节点的权值。

4.构造强化信号模块6

如图4所示强化信号模块有三个输入端，一个输出端。三个输入为位移误差e_x、e_y和转速误差e_n，输出为强化信号r(t)。强化信号的计算由以下公式得到：

r(t)＝α_xr_x(t)+α_yr_y(t)+α_nr_n(t)，

其中r_x(t)、r_y(t)和r_n(t)分别为x轴向位移误差强化信号，y轴向位移误差强化信号和转子转速误差强化信号。α_x、α_y和α_n分别为x轴向位移误差强化信号系数，y轴向位移误差强化信号系数和转子转速误差强化信号系数。在这里三个系数值都取0.3，系数的大小会影响控制器对位移反馈信号和转速反馈信号的敏感度。

x轴向位移误差强化信号r_x(t)，y轴向位移误差强化信号r_y(t)和转子转速误差强化信号r_n(t)的计算由以下公式得到：

其中ε_x、ε_y和ε_z分别为x轴向位移误差信号的容许误差带，y轴向位移误差信号的容许误差带和转子转速误差信号的容许误差带。容许误差带的选取与反馈量本身的大小有关，这里三个容许误差带统一设为反馈量大小的1％。

5.构造瞬时差分模块7

如图5所示，瞬时差分模块7有两个输入端两个输出端。两个输入分别为强化信号r(t)，评价器神经网络输出值函数V(t)，两个输出相同都为瞬时差分信号δ_TD(t)，TD表示瞬时差分。一个输出到执行器神经网络5，一个输出到评价器神经网络8。瞬时差分信号δ_TD(t)的计算由以下公式得到：

δ_TD(t)＝r(t)+γV(t+1)-V(t)，

其中0≤γ≤1为折扣因子，其大小表明了未来的回报相对于当前回报的重要程度。特别的，γ＝0时，相当于只考虑立即不考虑长期回报，γ＝1时，将长期回报和立即回报看得同等重要。V(t+1)和V(t)分别为更新前后的值函数。

6.确定执行器-评价器复合RBF神经网络参数更新方式

在执行器-评价器复合RBF神经网络中需要更新的参数有w_jk，v_j，μ_j和σ_j。其计算方法由如下公式得到：

w_jk(t+1)＝w_jk(t)+α_Aδ_TD(t)Φ_j(t)

v_j(t+1)＝v_j(t)+α_Cδ_TD(t)Φ_j(t)

其中α_A和α_C分别为执行器和评价器的学习率，α_μ和α_σ分别为中心和方差的学习率，取值范围均为0到1。

7.确定执行器-评价器算法流程

本发明中的强化学习执行器评价器算法流程如图6所示。具体步骤如下：

步骤1：初始化执行器评价器模块2中各个参数，包括w_jk、v_j、μ_j、σ_j、α_x、α_y、α_n、ε_x、ε_y、ε_z、γ、α_A、α_C、α_μ、α_σ。

步骤2：由系统输出得到反馈值x、y、n。

步骤3：将反馈值x、y、n与给定值x*、y*、n*比较得到误差e_x、e_y、e_n。并构造状态向量x(t)＝[e _x e_y e_n]^T。

步骤4：计算执行器-评价器复合RBF神经网络的输出I_m(t)、V(t)。

步骤5：计算强化信号r(t)。

步骤6：计算下一采样时间的系统输出。

步骤7：计算t+1时刻执行器-评价器复合RBF神经网络输出I_m(t+1)、V(t+1)。

步骤8：计算强化信号r(t+1)。

步骤9：计算瞬时差分信号δ_TD(t)。

步骤10：更新执行器-评价器复合RBF神经网络的参数包括w_jk、v_j、μ_j、σ_j。

步骤11：判断系统是否稳定即误差信号是否处于容许误差带。若系统稳定则结束流程，否则跳转到步骤6。

最终由上述执行器-评价器模块2与悬浮绕组电流控制模块3、转矩绕组电流控制模块4共同组成完整的无轴承永磁同步电机强化学习控制器1，如图1所示。

Claims

1.一种无轴承永磁同步电机强化学习控制器，包括悬浮绕组电流控制模块(3)和转矩绕组电流控制模块(4)，电机的实时径向位移值x、y与转子位移指令值x^*、y^*分别对应地比较得到位移误差e_x和e_y，实际转速n与转速指令值n^*比较得到转速误差e_n，其特征是：悬浮绕组电流控制模块(3)和转矩绕组电流控制模块(4)的输入端分别连接执行器-评价器模块(2)，执行器-评价器模块(2)由执行器神经网络(5)、评价器神经网络(8)、强化信号模块(6)和瞬时差分模块(7)组成，评价器神经网络(8)和强化信号模块(6)的输出端连接瞬时差分模块(7)的输入端，瞬时差分模块(7)的输出端分别连接执行器神经网络(5)和评价器神经网络(8)的输入端；位移误差e_x、e_y和转速误差e_n是评价器神经网络(8)、强化信号模块(6)和执行器神经网络(5)的共同输入，执行器神经网络(5)的输出是d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*与转矩绕组给定电流i_Md ^*、i_Mq ^*，悬浮绕组给定电流i_Bd ^*、i_Bq ^*是悬浮绕组电流控制模块(3)的输入，转矩绕组给定电流i_Md ^*、i_Mq ^*是转矩绕组电流控制模块(4)的输入。

2.根据权利要求1所述无轴承永磁同步电机强化学习控制器，其特征是：评价器神经网络(8)根据输入值生成评价器神经网络输出值函数V(t)，强化信号模块(6)根据输入值生成强化信号r(t)，瞬时差分模块(7)根据强化信号r(t)和评价器神经网络输出值函数V(t)计算得到并输出瞬时差分信号δ_TD(t)。

3.一种如权利要求1所述无轴承永磁同步电机强化学习控制器的构造方法，其特征是包括以下步骤：

A.构造执行器神经网络(5)与评价器神经网络(8)，采用一个有三层的执行器-评价器复合RBF神经网络，第一层为输入层节点数为3个，每个输入节点代表状态向量x(t)＝[e_x e_ye_n]^T的一个分量；第二层为隐含层节点数为8个，节点基函数采用高斯核函数；第三层为输出层节点数为4个，由执行器神经网络输出值函数I_m(t)和评价器神经网络输出值函数V(t)两个部分组成；

B.构造强化信号模块(6)，强化信号模块(6)的输出为强化信号r(t)＝α_xr_x(t)+α_yr_y(t)+α_nr_n(t)，r_x(t)、r_y(t)和r_n(t)分别为x轴向位移误差强化信号、y轴向位移误差强化信号和转子转速误差强化信号，α_x、α_y和α_n分别为x轴向位移误差强化信号系数、y轴向位移误差强化信号系数和转子转速误差强化信号系数；

C.构造瞬时差分模块(7)，瞬时差分模块(7)的两个输入分别为强化信号r(t)、评价器神经网络输出值函数V(t)，两个输出都为瞬时差分信号δ_TD(t)＝r(t)+γV(t+1)-V(t)，TD表示瞬时差分，0≤γ≤1为折扣因子，V(t+1)和V(t)分别为更新前后的值函数；

D.由执行器-评价器模块(2)与悬浮绕组电流控制模块(3)、转矩绕组电流控制模块(4)共同组成无轴承永磁同步电机强化学习控制器。

4.根据权利要求3所述无轴承永磁同步电机强化学习控制器的构造方法，其特征是：步骤B中，x轴向位移误差强化信号r_x(t)、y轴向位移误差强化信号r_y(t)和转子转速误差强化信号r_n(t)由以下公式计算得到：

r_{x} (t) = \{\begin{matrix} 0, | e_{x} (t) | \leq ϵ_{x} \\ - 0.1, | e_{x} (t) | > ϵ_{x} \end{matrix},

r_{y} (t) = \{\begin{matrix} 0, | e_{y} (t) | \leq ϵ_{y} \\ - 0.1, | e_{y} (t) | > ϵ_{y} \end{matrix},

r_{n} (t) = \{\begin{matrix} 0, | e_{n} (t) | \leq ϵ_{n} \\ - 0.1, | e_{n} (t) | > ϵ_{n} \end{matrix},

ε_x为x轴向位移误差信号的容许误差带，ε_y为y轴向位移误差信号的容许误差带，ε_n为转子转速误差信号的容许误差带。

5.根据权利要求3所述无轴承永磁同步电机强化学习控制器的构造方法，其特征是：步骤A中，评价器神经网络(8)根据式v_j(t+1)＝v_j(t)+α_Cδ_TD(t)Φ_j(t)更新神经网络权值并输出新的评价器神经网络输出值函数V(t)，α_C为评价器神经网络的学习率，v_j(t)为第j个隐含层节点到评价器输出节点的权值，v_j(t+1)为更新后的第j个隐含层节点到评价器输出节点的权值，Φ_j(t)为第j个隐含层节点的输出；执行器神经网络(5)根据式w_jk(t+1)＝w_jk(t)+α_Aδ_TD(t)Φ_j(t)更新神经网络权值，α_A为执行器神经网络的学习率，w_jk(t)为第j个隐含层节点到执行器的第k个输出节点的权值，w_jk(t+1)为更新后的第j个隐含层节点到执行器的第k个输出节点的权值。

6.根据权利要求5所述无轴承永磁同步电机强化学习控制器的构造方法，其特征是：执行器神经网络输出值函数评价器神经网络输出值函数m＝1,2,3,4,j＝1,2,3,4,5,6,7,8,w_jk(t)为第j个隐含层节点到执行器的第k个输出节点的权值，I₁(t)、I₂(t)、I₃(t)、I₄(t)分别对应i_Bd ^*、i_Bq ^*、i_Md ^*、i_Mq ^*，v_j(t)为第j个隐含层节点到评价器输出节点的权值。