CN106612089A

CN106612089A - 五自由度无轴承永磁同步电机强化学习控制器及构造方法

Info

Publication number: CN106612089A
Application number: CN201611180471.0A
Authority: CN
Inventors: 朱熀秋; 华逸舟
Original assignee: Jiangsu University
Current assignee: Yangzhong Guanjie Technology Innovation Co ltd; Zhenjiang Top Management Consulting Co ltd
Priority date: 2016-12-20
Filing date: 2016-12-20
Publication date: 2017-05-03
Anticipated expiration: 2036-12-20
Also published as: CN106612089B

Abstract

本发明公开一种五自由度无轴承永磁同步电机强化学习控制器及构造方法，由一个电流控制模块、六个微分器和三个执行器‑评价器模块组成，三个执行器‑评价器模块的输出经电流控制模块连接无轴承永磁同步电机系统，将人工智能领域强化学习中的执行器‑评价器与传统矢量控制技术相结合，由评价器评价五自由度电机系统的转速与位移反馈信息，并指导执行器输出电机的各个电流，能够在没有电机精确模型的情况下在线更新控制器参数，维持电机的稳定运行，抗电机参数变化及抗负载扰动能力强，同时克服了系统参数变化、负载突变等不确定因素对系统性能的影响，具有更好的鲁棒性。

Description

五自由度无轴承永磁同步电机强化学习控制器及构造方法

技术领域

本发明属于电力传动控制设备的技术领域，涉及五自由度无轴承永磁同步电机的控制器结构及其构造方法，适用于五自由度无轴承永磁同步电机的高性能控制。五自由度无轴承永磁同步电机在离心机、密封泵、航空航天、数控机床、飞轮储能、生命科学等众多高速、超高速特种电气传动领域应用广阔。

背景技术

五自由度无轴承永磁同步电机由一台二自由度无轴承永磁同步电机和一个三自由度混合磁轴承构成，是多变量、强耦合的非线性复杂系统。五自由度无轴承永磁同步电机具备运行可靠、质量轻、运行损耗低、控制性能好等优良特性。在五自由度无轴承永磁同步电机的控制系统里，控制器设计往往需要精确的电机参数值来辅助设计,如无速度传感器控制、矢量控制等。但是随着温度、负载和磁饱和程度的变化,永磁同步电机的定子电感、绕组电阻和转子永磁磁链幅值等参数值大小都会随之而变化，当电机实际参数值相对于常温下的设计参数值发生比较大变化时,会对所设计的控制系统性能造成很大影响，甚至会让其无法工作。同样的，三自由度混合磁轴承由于铁芯饱和以及温度对永磁体影响等因素也导致类似问题。

自适应控制器具有修正自己的特性以适应对象扰动的能力。在系统运行中，自适应控制器依靠不断采集控制过程信息，确定被控对象的当前实际工作状态，以优化性能为准则，产生自适应控制规律，从而实时地调整控制器结构或参数，使系统始终自动地工作在最优或次最优状态下。然而要实施自适应控制，通常需要准确获得被控对象的数学模型，而五自由度无轴承永磁同步电机系统是一个多变量、非线性、强耦合的复杂系统，很难获取其精确的数学模型。

中国专利公开号为CN1737708的文献中公开的“基于神经网络逆五自由度无轴承永磁同步电机控制系统及控制方法”，对五自由度无轴承永磁同步电机系统设计了神经网络逆解耦控制器，该神经网络需要事先读取训练数据，进行大量离线训练，权值一旦固定无法在线调节，导致控制器无法克服五自由度无轴承永磁同步电机系统参数变化、负载突变、铁芯饱和等不确定因素对系统的影响，鲁棒性差。中国专利公开号为CN102790579A的文献中公开的“一种五自由度无轴承永磁同步电机解耦控制器的构造方法”，对五自由度无轴承永磁同步电机系统设计了基于支持向量机逆的解耦控制器，该支持向量机逆解耦控制器同样存在学习之后不能在线调节参数的问题，导致控制器无法克服五自由度无轴承永磁同步电机系统参数变化、负载突变、铁芯饱和等不确定因素对系统的影响。

执行器–评价器算法(Actor-Critic,AC),也称为自适应启发式评价算法,是一种重要的强化学习算法，具有无模型在线学习能力。它包含两个部件:执行器(Actor)和评价器(Critic)。执行器即策略结构,用于选择动作。评价器即值函数,用于评估执行器选择的动作。执行器–评价器算法中,动作的选择与值函数的更新釆用了相同的策略。评价器必须了解和评价执行器当前采用的策略。评价采用瞬时差分误差的方式。这个标量信号是评价器的唯一输出并推动了执行器–评价器的所有学习。一般情况下,评价器是一个状态值函数，评价器的实现机制,即值函数的更新可以采用时间差分学习(Temporal-Differencelearning，TD)。评价器的作用在于,在每个动作选择之后,评价器评估新状态来决定事情是否比期望的好或者更糟，这个评估就是瞬时差分误差。如果瞬时差分误差是正值,表明未来选择当前动作的倾向要被加强,但是如果瞬时差分误差是负值,表明倾向要被减弱。

发明内容

本发明的目的是为解决现有五自由度无轴承永磁同步电机控制存在的自适应控制需要精确数学模型的难题，解决现有单一神经网络控制器需要事先读取训练数据，进行大量离线训练，权值一旦固定无法在线调节的问题，提出一种可使五自由度无轴承永磁同步电机具有优良的动、静态控制性能的自适应强化学习控制器，同时提出该强化学习控制器的构造方法。

本发明五自由度无轴承永磁同步电机强化学习控制器采用的技术方案是：由一个电流控制模块、六个微分器和三个执行器-评价器模块组成，三个执行器-评价器模块的输出经电流控制模块连接无轴承永磁同步电机系统，电流控制模块的输出是组成无轴承永磁同步电机中二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc、悬浮绕组电流i_Ba、i_Bb、i_Bc、组成无轴承永磁同步电机中三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c和轴向位移控制电流i_z；无轴承永磁同步电机系统的输出为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及所述磁轴承径向位移x_r、y_r与轴向位移z；实时径向位移值x、y、实际转速ω以及磁轴承径向位移x_r、y_r与轴向位移z分别与相应的给定值x^*、y^*、x_r ^*、y_r ^*、z^*、ω^*一一对应地比较得到实时径向位移误差e_x、e_y、实际转速e_ω误差以及磁轴承径向位移误差e_xr、e_yr与轴向位移e_z这6个误差，每个误差各输入一个对应的微分器得到误差误差e_x、e_y、是第一执行器-评价器模块的输入，误差e_ω、是第二执行器-评价器模块的输入，误差e_xr、e_yr、e_z、是第三执行器-评价器模块的输入，第一执行器-评价器模块的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*，第二执行器-评价器模块的输出是d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*，第三执行器-评价器模块的输出是三自由度混合磁轴承控制电流i_x ^*、i_y ^*、i_z ^*。

本发明五自由度无轴承永磁同步电机强化学习控制器的构造方法采用的技术方案是：其特别是包括以下步骤：

步骤1：构造电流控制模块和五自由度无轴承永磁同步电机系统；

步骤2：采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习，每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层，构造出三个执行器神经网络与三个评价器神经网络；

步骤3：构造三个强化信号模块，第一强化信号模块输出强化信号r₁(t)＝α_xr_x(t)+α_yr_y(t)，r_x(t)、r_y(t)分别为x、y轴向位移误差强化信号，α_x、α_y分别为x、y轴向位移误差强化信号系数；第二强化信号模块输出强化信号r₂(t)＝β_ω1r_ω1(t)+β_ω2r_ω2(t)，r_ω1(t)、r_ω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号，β_ω1和β_ω2分别为它们的权重；第三强化信号模块输出强化信号r₃(t)＝α_xrr_xr(t)+α_yrr_yr(t)+α_zr_z(t)，r_xr(t)、r_yr(t)和r_z(t)分别为磁轴承x、y轴向位移误差强化信号和z轴向位移强化信号，α_xr、α_yr和α_z分别为x、y轴向位移误差强化信号系数和z轴向位移强化信号系数；

步骤4.构造三个瞬时差分模块，瞬时差分信号δ_a(t)＝r_a(t)+γ_aV_a(t+1)-V_a(t)，γ_a折扣因子，0≤γ_a≤1，t为当前时刻，V_a(t+1)和V_a(t)分别为更新前后的值函数，a＝1,2,3，分别代表第一、第二、第二执行器-评价器模块；

步骤5：由三个执行器-评价器模块与电流控制模块共同组成五自由度无轴承永磁同步电机强化学习控制器。

本发明的优点在于：

1.本发明将人工智能领域强化学习中的执行器-评价器(Actor-Critic,AC)与传统矢量控制技术相结合，利用强化学习中的执行器-评价器算法，也称为自适应启发式评价算法,是一种重要的强化学习算法，由评价器评价五自由度无轴承永磁同步电机系统的转速与位移反馈信息，并指导执行器输出五自由度无轴承永磁同步电机的各个电流，能够在没有电机精确模型的情况下在线更新控制器参数，维持五自由度无轴承永磁同步电机的稳定运行，抗电机参数变化及抗负载扰动能力强，同时克服了系统参数变化、负载突变等不确定因素对系统性能的影响，具有更好的鲁棒性，能够维持五自由度无轴承永磁同步电机的高性能稳定运行和跟踪控制。

2.本发明采用了径向基函数神经网络(RBF network)。RBF神经网络能够逼近任意的非线性函数，可以处理系统内的难以解析的规律性，具有良好的泛化能力。同时RBF神经网络作为一种局部逼近网络相比BP神经网络等全局逼近网络具有更快的学习收敛速度。已成功应用于非线性函数逼近、时间序列分析、数据分类、模式识别、信息处理、图像处理、系统建模、控制和故障诊断等。

附图说明

图1是本发明五自由度无轴承永磁同步电机强化学习控制器的结构框图；

图2是图1中电流控制模块和五自由度无轴承永磁同步电机系统的放大的构造框图及等效图；

图3是图1中第一执行器-评价器模块1的构造框图及等效图；

图4是图1中第二执行器-评价器模块2的构造框图及等效图；

图5是图1中第三执行器-评价器模块3的构造框图及等效图；

图6是图3中复合RBF神经网络结构图；

图7是图4中复合RBF神经网络结构图；

图8是图5中复合RBF神经网络结构图；

图9是图3中第一强化信号模块13的构造原理图；

图10是图4中第二强化信号模块23的构造原理图；

图11是图5中第三强化信号模块23的构造原理图；

图12是图3中第一瞬时差分模块14的构造原理图；

图13是图4中第二瞬时差分模块24的构造原理图；

图14是图5中第三瞬时差分模块34的构造原理图；

图15是图1中三个执行器-评价器模块的算法流程图。

图中：1.第一执行器-评价器模块；2.第二执行器-评价器模块；3.第三执行器-评价器模块；4.电流控制模块；7.五自由度无轴承永磁同步电机系统；8.五自由度无轴承永磁同步电机强化学习控制器；9.复合被控对象；11.第一执行器神经网络；12.第一评价器神经网络；13.第一强化信号模块；14.第一瞬时差分模块；

21.第二执行器神经网络；22.第二评价器神经网络；23.第二强化信号模块；24.第二瞬时差分模块；

31.第三执行器神经网络；32.第三评价器神经网络；33.第三强化信号模块；34.第三瞬时差分模块；

41.第一PI调节器；42.第二PI调节器；43.第一IPARK变换器；44.第一SVPWM；45.第一PARK变换器；46.第一CLARK变换器；47.第一电流传感器；48.第一电压源逆变器；49.第三PI调节器；

50.第四PI调节器；51.第二SVPWM；52.第二电压源逆变器；53.第二CLARK变换器；54.第二电流传感器；55.功率放大器；56.第五PI调节器；57.第六PI调节器；58.第二IPARK变换器；59.第三SVPWM；

60.第三电压源逆变器；61.第三电流传感器；62.第三CLARK变换器；63.第二PARK变换器；64.光电编码器；65.位移传感器；66.五自由度无轴承永磁同步电机。

具体实施方式

参见图1，本发明五自由度无轴承永磁同步电机强化学习控制器8由一个电流控制模块4、六个微分器和三个执行器-评价器模块组成，三个执行器-评价器模块分别是第一执行器-评价器模块1、第二执行器-评价器模块2和第三执行器-评价器模块3。三个执行器-评价器模块的输出端连接电流控制模块4的输入端，电流控制模块4的输出端连接五自由度无轴承永磁同步电机系统7。五自由度无轴承永磁同步电机系统7中的五自由度无轴承永磁同步电机由一台二自由度无轴承永磁同步电机和一个三自由度混合磁轴承构成。

由无轴承永磁同步电机系统7和电流控制模块4组成复合被控对象9，复合被控对象9的输出即无轴承永磁同步电机系统7的输出，为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及三自由度混合磁轴承径向位移x_r、y_r与轴向位移z。电流控制模块4的输出是二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc、二自由度无轴承永磁同步电机的悬浮绕组电流i_Ba、i_Bb、i_Bc、三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c和轴向位移控制电流i_z。

将电机实时径向位移值x、y、实际转速ω以及磁轴承径向位移x_r、y_r与轴向位移z作为反馈值，分别与相应的给定值x^*、y^*、x_r ^*、y_r ^*、z^*、ω^*一一对应地进行比较，得到电机实时径向位移误差e_x、e_y、实际转速e_ω误差以及磁轴承径向位移误差e_xr、e_yr与轴向位移e_z这6个误差，将每个误差各输入一个对应的微分器d/dt，通过6个微分器分别对时间求导，得到误差将其中的误差e_x、e_y、作为第一执行器-评价器模块1的输入，误差e_ω、作为第二执行器-评价器模块2的输入，误差e_xr、e_yr、e_z、作为第三执行器-评价器模块3的输入。第一执行器-评价器模块1的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*，第二执行器-评价器模块2的输出是d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*，第三执行器-评价器模块3的输出是三自由度混合磁轴承控制电流i_x ^*、i_y ^*、i_z ^*。复合被控对象9的输入即电流控制模块4的输入，为三个执行器-评价器模块的输入。

如图2所示，电流控制模块4由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55组成。五自由度无轴承永磁同步电机系统7由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66组成。其中，6个PI调节器分别是第一PI调节器41、第二PI调节器42、第三PI调节器49、第四PI调节器50、第五PI调节器56和第六PI调节器57；2个PARK变换器分别是第一PARK变换器45和第二PARK变换器63；2个IPARK变换器分别是第一IPARK变换器43和第二IPARK变换器58；3个CLARK变换器分别是第一CLARK变换器46、第二CLARK变换器53和第三CLARK变换器62；3个SVPWM分别是第一SVPWM44、第二SVPWM51和第三SVPWM59；3个电流传感器分别是第一电流传感器47、第二电流传感器54和第三电流传感器61；3个电压源逆变器分别是第一电压源逆变器48、第二电压源逆变器52和第三电压源逆变器60。

位移传感器65采用五个电涡流位移传感器分别检测二自由度无轴承永磁同步电机转子的x轴与y轴的实时径向位移值x、y以及三自由度混合磁轴承的径向位移x_r、y_r和轴向位移z，采用光电编码器64检测二自由度无轴承永磁同步电机转子的转速ω。

第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流i_Ba、i_Bb、i_Bc，第三电流传感器61的输出端依序连接第三CLARK变换器62和第二PARK变换器63，悬浮绕组电流i_Ba、i_Bb、i_Bc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ生成d-q坐标系下的悬浮绕组电流i_Bd、i_Bq。将该悬浮绕组电流i_Bd、i_Bq作为反馈电流，与d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*比较，比较得到的误差分别一一对应地输出到第五PI调节器56和第六PI调节器57，第五PI调节器56和第六PI调节器57的输出端依序连接第二IPARK变换器58、第三SVPWM59和第三电压源逆变器60，比较得到的误差经第五PI调节器56和第六PI调节器57处理后分别生成d-q坐标系下的悬浮绕组电压V_Bd ^*和V_Bq ^*，悬浮绕组电压V_Bd ^*和V_Bq ^*经第二IPARK变换器58处理后生成α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*。α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*经第三SVPWM59处理后生成第三电压源逆变器60的开关信号S_B(B＝1,2,3,4,5,6)。第三电压源逆变器60根据开关信号S_B控制二自由度无轴承永磁同步电机的悬浮绕组电流。

第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc，第一电流传感器47的输出端依序连接第一CLARK变换器46和第一PARK变换器45，转矩绕组电流i_Ma、i_Mb、i_Mc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流i_Mα、i_Mβ，第一PARK变换器45处理α-β坐标系下的转矩绕组电流i_Mα、i_Mβ生成d-q坐标系下的转矩绕组电流i_Md、i_Mq，将转矩绕组电流i_Md、i_Mq作为反馈电流，与d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*比较，比较得到误差分别一一对应地输出到第一PI调节器41和第二PI调节器42，比较得到的误差经第一PI调节器41和第二PI调节器42处理后分别生成d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*，第一PI调节器41和第二PI调节器42的输出端依次串接第一IPARK变换器43、第一SVPWM44和第一电压源逆变器48，第一IPARK变换器43处理d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*，生成α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*，α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*经第一SVPWM44处理后生成第一电压源逆变器48的开关信号S_M(M＝1,2,3,4,5,6)。第一电压源逆变器48根据开关信号S_M控制二自由度无轴承永磁同步电机的转矩绕组电流。

第二电流传感器54检测三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c，径向位移控制电流i_a、i_b、i_c经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流i_x、i_y，将α-β坐标系下的径向位移控制电流i_x、i_y作为反馈电流，与给定径向位移控制电流i_x ^*、i_y ^*比较，比较得到的误差分别一一对应地输出到第三PI调节器49和第四PI调节器50，比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压V_x ^*和V_y ^*。第三PI调节器49和第四PI调节器50的输出端依次串接第二SVPWM51和第二电压源逆变器52，α-β坐标系下的径向位移控制电压V_x ^*和V_y ^*经第二SVPWM51处理后生成第二电压源逆变器52的开关信号S_T(T＝1,2,3,4,5,6)，第二电压源逆变器52根据开关信号S_T控制三自由度混合磁轴承径向位移控制电流。

三自由度磁轴承轴向位移控制电流i_z直接经由轴向位移给定电流i_z ^*经过功率放大器55得到。

如图3所示，第一执行器-评价器模块1由第一执行器神经网络11、第一评价器神经网络12、第一强化信号模块13和第一瞬时差分模块14组成。误差e_x、e_y、为第一执行器神经网络11和第一评价器神经网络12的共同输入，第一评价器神经网络12的输出端经第一瞬时差分模块14连接第一执行器神经网络11，第一瞬时差分模块14的输出端还连接第一评价器神经网络12的输入端。误差e_x、e_y作为第一强化信号模块13的输入，第一强化信号模块13的输出端连接第一瞬时差分模块14，第一强化信号模块13输出强化信号r₁(t)。第一评价器神经网络12生成并输出值函数V₁(t)，第一执行器神经网络11输出d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*，第一瞬时差分模块14根据强化信号r₁(t)和值函数V₁(t)生成瞬时差分信号δ₁(t)。第一执行器神经网络11和第一评价器神经网络12根据瞬时差分信号δ₁(t)调整权值。

如图4所示，第二执行器-评价器模块2由第二执行器神经网络21、第二评价器神经网络22、第二强化信号模块23和第二瞬时差分模块24组成。将误差e_ω、作为第二执行器神经网络21和第二评价器神经网络22的共同输入，第二评价器神经网络22的输出端经第二瞬时差分模块24连接第二执行器神经网络21，第二瞬时差分模块24的输出端还连接第二评价器神经网络22的输入端。第二强化信号模块23以e_ω作为的输入，第二强化信号模块23的输出端连接第二瞬时差分模块24，输出强化信号r₂(t)。第二评价器神经网络22生成输出值函数V₂(t)，第二执行器神经网络21输出d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*。第二瞬时差分模块24根据强化信号r₂(t)和值函数V₂(t)生成瞬时差分信号δ₂(t)。第二执行器神经网络21和第二评价器神经网络22根据瞬时差分信号δ₂(t)调整权值。

如图5所示，第三执行器-评价器模块3由第三执行器神经网络31、第三评价器神经网络32、第三强化信号模块33和第三瞬时差分模块34组成。将误差e_xr、e_yr、e_z、作为第三执行器神经网络31和第三评价器神经网络32的共同输入，第三评价器神经网络32的输出端经第三瞬时差分模块34连接第三执行器神经网络31，第三瞬时差分模块34的输出端还连接第三评价器神经网络32的输入端。第三强化信号模块33以e_xr、e_yr、e_z作为的输入，第三强化信号模块33的输出端连接第三瞬时差分模块34，输出强化信号r₃(t)。第三评价器神经网络32生成输出值函数V₃(t)，第三执行器神经网络31输出三自由度混合磁轴承控制电流i_x ^*、i_y ^*、i_z ^*，第三瞬时差分模块34根据强化信号r₃(t)和值函数V₃(t)生成瞬时差分信号δ₃(t)，第三执行器神经网络31和第三评价器神经网络32根据瞬时差分信号δ₃(t)调整权值。

五自由度无轴承永磁同步电机强化学习控制器8的具体构造方法分以下6步：

1.构造电流控制模块4和五自由度无轴承永磁同步电机系统7

如图2所示，由6个PI调节器、2个PARK变换器与2个IPARK变换器、3个CLARK变换器、3个SVPWM、3个电流传感器与3个电压源逆变器以及1个功率放大器55构成电流控制模块4。由位移传感器65、光电编码器64和五自由度无轴承永磁同步电机66构成五自由度无轴承永磁同步电机系统7。

第三电流传感器61检测二自由度无轴承永磁同步电机的悬浮绕组电流i_Ba、i_Bb、i_Bc，悬浮绕组电流i_Ba、i_Bb、i_Bc经第三CLARK变换器62处理后生成α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ。第二PARK变换器63处理α-β坐标系下的悬浮绕组电流i_Bα、i_Bβ生成d-q坐标系下的悬浮绕组电流i_Bd、i_Bq。悬浮绕组电流i_Bd、i_Bq作为反馈电流与d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*比较，比较误差分别输出到第五PI调节器56和第六PI调节器57，比较误差经第五PI调节器56和第六PI调节器57处理后生成d-q坐标系下的悬浮绕组电压V_Bd ^*和V_Bq ^*。第二IPARK变换器58处理d-q坐标系下的悬浮绕组电压V_Bd ^*和V_Bq ^*生成α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*。α-β坐标系下的悬浮绕组电压V_Bα ^*和V_Bβ ^*经第三SVPWM59处理后生成第三电压源逆变器60的开关信号S_B(B＝1,2,3,4,5,6)。第三电压源逆变器60根据开关信号控制二自由度无轴承永磁同步电机的悬浮绕组电流。第一电流传感器47检测二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc，转矩绕组电流i_Ma、i_Mb、i_Mc经第一CLARK变换器46处理后生成α-β坐标系下的转矩绕组电流i_Mα、i_Mβ。第一PARK变换器45处理α-β坐标系下的转矩绕组电流i_Mα、i_Mβ生成d-q坐标系下的转矩绕组电流i_Md、i_Mq。转矩绕组电流i_Md、i_Mq作为反馈电流与d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*比较，比较误差分别输出到第一PI调节器41和第二PI调节器42，比较误差经第一PI调节器41和第二PI调节器42处理后生成d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*。第一IPARK变换器43处理d-q坐标系下的转矩绕组电压V_Md ^*和V_Mq ^*生成α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*。α-β坐标系下的转矩绕组电压V_Mα ^*和V_Mβ ^*经第一SVPWM44处理后生成第一电压源逆变器48的开关信号S_M(M＝1,2,3,4,5,6)。第一电压源逆变器48根据开关信号控制二自由度无轴承永磁同步电机的转矩绕组电流。第二电流传感器54检测三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c，径向位移控制电流i_a、i_b、i_c经第二CLARK变换器53处理后生成α-β坐标系下的径向位移控制电流i_x、i_y。α-β坐标系下的径向位移控制电流i_x、i_y作为反馈电流与g给定径向位移控制电流i_x ^*、i_y ^*比较，比较误差分别输出到第三PI调节器49和第四PI调节器50，比较误差经第三PI调节器49和第四PI调节器50处理后生成α-β坐标系下的径向位移控制电压V_x ^*和V_y ^*。α-β坐标系下的径向位移控制电压V_x ^*和V_y ^*经第二SVPWM51处理后生成第二电压源逆变器的开关信号S_T(T＝1,2,3,4,5,6)。第二电压源逆变器52根据开关信号控制三自由度混合磁轴承径向位移控制电流。三自由度磁轴承轴向位移控制电流i_z直接由i_z ^*经过功率放大器55得到。

2.构造第一执行器神经网络11、第二执行器神经网络21、第三执行器神经网络31与第一评价器神经网络12、第二评价器神经网络22、第三评价器神经网络32。

如图6、7、8所示，本发明采用三个执行器-评价器复合RBF神经网络同时实现三个执行器神经网络和评价器神经网络的学习，每个执行器与评价器共享执行器-评价器复合RBF神经网络的输入层和隐含层资源。如图6所示，第一执行器-评价器模块1的复合RBF神经网络共有三层，第一层为输入层节点数为4个，第二层为隐含层节点数为8个，第三层为输出层节点数为3个。如图7所示，第二执行器-评价器模块2的复合RBF神经网络共有三层，第一层为输入层节点数为2个，第二层为隐含层节点数为6个，第三层为输出层节点数为3个。如图8所示，第三执行器-评价器模块3的复合RBF神经网络共有三层，第一层为输入层节点数为6个，第二层为隐含层节点数为12个，第三层为输出层节点数为4个。

如图6，第一执行器-评价器模块1的复合RBF神经网络的第一层为输入层，每个输入节点代表状态向量的一个分量，其中t代表当前时刻，上标T表示矩阵的转置。第二层为隐含层，隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为：

其中：

μ_(1)j＝[μ_(1)1jμ_(1)2jμ_(1)3jμ_(1)4j]^T

为第一个神经网络的第j个节点的基函数中心向量，μ_(1)1j，μ_(1)2j，μ_(1)3j，μ_(1)4j分别对应状态变量e_x(t)、e_y(t)、的基函数中心向量，t为当前时刻，上标T表示矩阵的转置。σ_(1)j为第一个神经网络的第j个节点的方差。下标(1)代表执行器-评价器模块1。第三层为输出层，由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I_1m(t)和评价器神经网络输出值函数V₁(t)由下面式子计算：

其中w_(1)jk(t)为第一个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I₍₁₎₁(t)、I₍₁₎₂(t)分别对应i_Bd ^*、i_Bq ^*。

其中v_(1)j(t)为第j个隐含层节点到评价器输出节点的权值。

如图7，第二执行器-评价器模块2的复合RBF神经网络的第一层为输入层，每个输入节点代表状态向量的一个分量，其中t代表当前时刻。第二层为隐含层，隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为：

其中：

μ_(2)j＝[μ_(2)1jμ_(2)2j]^T

为第二个神经网络的第j个节点的基函数中心向量，μ_(2)1j、μ_(2)2j分别对应状态变量e_ω(t)、的基函数中心向量。σ_(2)j为第二个神经网络的第j个节点的方差。下标(2)代表第二执行器-评价器模块2。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I_2m(t)和评价器神经网络输出值函数V₂(t)由下面式子计算：

其中w_(2)jk(t)为第二个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I₍₂₎₁(t)、I₍₂₎₂(t)分别对应i_Md ^*、i_Mq ^*。

其中v_(2)j(t)为第二个神经网络第j个隐含层节点到评价器输出节点的权值。

如图8，第三执行器-评价器模块3的复合RBF神经网络的第一层为输入层，每个输入节点代表状态向量的一个分量，其中t代表当前时刻。第二层为隐含层，隐含层的节点基函数采用高斯核函数。第j个隐含层节点的输出为：

其中：

μ_(3)j＝[μ_1jμ_2jμ_3jμ_4jμ_5jμ_6j]^T

为第三个神经网络的第j个节点的基函数中心向量，μ_1j、μ_2j、μ_3j、μ_4j、μ_5j、μ_6j分别对应状态变量e_xr(t)、e_yr(t)、e_z(t)、的基函数中心向量，上标T表示矩阵的转置。σ_(3)j为第三个神经网络的第j个节点的方差。下标(3)代表第三执行器-评价器模块3。第三层为输出层由执行器输出和评价器输出两个部分组成。执行器神经网络输出值函数I_3m(t)和评价器神经网络输出值函数V₃(t)由下面式子计算：

其中w_(3)jk(t)为第三个神经网络的第j个隐含层节点到执行器的第k个输出节点的权值。I₍₃₎₁(t)、I₍₃₎₂(t)、I₍₃₎₃(t)分别对应i_x ^*、i_y ^*、i_z ^*。

其中v_(3)j(t)为第三个神经网络第j个隐含层节点到评价器输出节点的权值。

3.构造第一强化信号模块13、第二强化信号模块23、第三强化信号模块33。

如图3和图9所示，第一强化信号模块13有两个输入端，一个输出端。输入为二自由度无轴承永磁同步电机位移误差信号e_x、e_y，输出为强化信号r₁(t)。强化信号的计算由以下公式得到：

r₁(t)＝α_xr_x(t)+α_yr_y(t)，

其中r_x(t)、r_y(t)分别为x轴向位移误差强化信号，y轴向位移误差强化信号。α_x、α_y分别为x轴向位移误差强化信号系数，y轴向位移误差强化信号系数。这里两个系数值都取0.5。

x轴向位移误差强化信号r_x(t)，y轴向位移误差强化信号r_y(t)的计算由以下公式得到：

r_x(t)＝β_x1r_x1(t)+β_x2r_x2(t)

r_y(t)＝β_y1r_y1(t)+β_y2r_y2(t)

其中r_x1(t)，r_x2(t)分别为x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号，系数β_x1和β_x2分别为他们的权重，这里均取0.5。其中r_y1(t)，r_y2(t)分别为y轴向位移当前时刻误差强化信号和误差变化强化信号系数β_y1和β_y2分别为他们的权重，均取0.5。e_x(t)为x轴向位移当前时刻误差，e_y(t)为y轴向位移当前时刻误差，e_x(t-1)为x轴向位移上一时刻误差，e_y(t-1)为y轴向位移上一时刻误差，ε_x和ε_y分别为x轴向位移误差信号的容许误差带，y轴向位移误差信号的容许误差带，统一设为反馈量大小的1％。

如图4和图10所示，第二强化信号模块23有一个输入端，一个输出端。输入为转速误差信号e_ω，输出为强化信号r₂(t)。强化信号的计算由以下公式得到：

r₂(t)＝β_ω1r_ω1(t)+β_ω2r_ω2(t)

其中r_ω1(t)、r_ω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号。系数β_ω1和β_ω2分别为它们的权重，这里均取0.5。转速当前时刻误差强化信号r_ω1(t)和转速误差变化强化信号r_ω2(t)的计算由以下公式得到：

其中e_ω(t)为转速当前时刻误差，e_ω(t-1)为转速上一时刻误差，ε_ω转速误差信号的容许误差带，设为反馈量大小的1％。

如图5和图11所示，第三强化信号模块33有三个输入端，一个输出端。输入为三自由度混合磁轴承径向与轴向位移误差信号e_xr、e_yr和e_z，输出为强化信号r₃(t)。强化信号的计算由以下公式得到：

r₃(t)＝α_xrr_xr(t)+α_yrr_yr(t)+α_zr_z(t)

其中r_xr(t)、r_yr(t)和r_z(t)分别为三自由度混合磁轴承x轴向位移误差强化信号，y轴向位移误差强化信号和z轴向位移强化信号。α_xr、α_yr和α_z分别为x轴向位移误差强化信号系数，y轴向位移误差强化信号系数和z轴向位移强化信号系数。这里三个系数值都取0.3。

三自由度混合磁轴承的x轴向位移误差强化信号r_xr(t)、y轴向位移误差强化信号r_yr(t)和x轴向位移误差强化信号r_z(t)的计算由以下公式得到：

r_xr(t)＝β_xr1r_xr1(t)+β_xr2r_xr2(t)

r_yr(t)＝β_yr1r_yr1(t)+β_yr2r_yr2(t)

r_z(t)＝β_z1r_z1(t)+β_z2r_z2(t)

其中r_xr1(t)，r_xr2(t)分别为三自由度混合磁轴承x轴向位移当前时刻误差强化信号和x轴向位移误差变化强化信号，系数β_xr1和β_xr2分别为它们的权重，这里均取0.5。r_yr1(t)，r_yr2(t)分别为三自由度混合磁轴承y轴向位移当前时刻误差强化信号和误差变化强化信号系数β_yr1和β_yr2分别为他们的权重，均取0.5。r_z1(t)，r_z2(t)分别为三自由度混合磁轴承z轴向位移当前时刻误差强化信号和误差变化强化信号系数β_z1和β_z2分别为他们的权重，均取0.5。e_xr(t)为x轴向位移当前时刻误差，e_yr(t)为y轴向位移当前时刻误差，e_z(t)为z轴向位移当前时刻误差。e_xr(t-1)为x轴向位移上一时刻误差，e_yr(t-1)为y轴向位移上一时刻误差，e_z(t-1)为z轴向位移上一时刻误差。ε_xr、ε_yr和ε_z分别为x轴向位移误差信号的容许误差带，y轴向位移误差信号的容许误差带和z轴向位移误差信号的容许误差带，统一设为反馈量大小的1％。

4.构造第一瞬时差分模块14、第二瞬时差分模块24和第三瞬时差分模块34。

如图3-5所示，三个瞬时差分模块14、24、34中的每个都有两个输入端和两个输出端。两个输入分别为强化信号r_a(t)(a＝1,2,3，分别代表执行器-评价器模块1，2，3)，评价器神经网络输出值函数V_a(t)(a＝1,2,3)，两个输出相同都为瞬时差分信号δ_a(t)(a＝1,2,3)，一个输出到执行器神经网络，一个输出到评价器神经网络。如图12、13和图14所示，瞬时差分信号δ_a(t)的计算由以下公式得到：

δ_a(t)＝r_a(t)+γ_aV_a(t+1)-V_a(t)(a＝1,2,3)

其中0≤γ_a≤1(a＝1,2,3)为折扣因子，其大小表明了未来的回报相对于当前回报的重要程度。特别的，γ_a＝0时，相当于只考虑立即不考虑长期回报，γ_a＝1时，将长期回报和立即回报看得同等重要。t为当前时刻，V_a(t+1)和V_a(t)分别为更新前后的值函数。

5.确定执行器-评价器复合RBF神经网络参数更新方式。

在执行器-评价器复合RBF神经网络中需要更新的参数有w_(a)jk，v_(a)j，μ_(a)j和σ_(a)j(a＝1,2,3)。其计算方法由如下公式得到：

w_(a)jk(t+1)＝w_(a)jk(t)+α_(a)Aδ_a(t)Φ_(a)j(t)，

v_(a)j(t+1)＝v_(a)j(t)+α_(a)Cδ_a(t)Φ_(a)j(t)，

其中α_(a)A和α_(a)C分别为执行器和评价器的学习率，α_(a)μ和α_(a)σ分别为中心向量和方差的学习率，所有学习率的取值范围均为0到1。所有的下标a可取1，2，3表示执行器-评价器模块1，2，3。

6.确定执行器-评价器算法流程

本发明中的强化学习执行器评价器算法流程如图15所示。具体步骤如下：

步骤1：初始化第一、第二、第三执行器评价器模块1，2，3中各个参数。

步骤2：由系统输出得到反馈值x、y、x_r、y_r、z、ω。

步骤3：将反馈值x、y、x_r、y_r、z、ω与给定值x^*、y^*、x_r ^*、y_r ^*、z^*、ω^*比较得到系统误差e_x、e_y、e_xr、e_yr、e_z、e_ω，

步骤4：误差信号分别对时间求导，得到

步骤5：构造状态向量：

步骤6：计算三个执行器-评价器复合RBF神经网络的输出I_(a)m(t)、V_(a)(t)。

步骤7：计算三个强化信号r_(a)(t)。

步骤8：计算下一采样时间的系统输出。

步骤9：计算t+1时刻三个执行器-评价器复合RBF神经网络输出I_(a)m(t+1)、V_(a)(t+1)。

步骤10：计算强化信号r_(a)(t+1)。

步骤11：计算瞬时差分信号δ_a(t)。

步骤12：更新执行器-评价器复合RBF神经网络的参数包括w_(a)jk、v_(a)j、μ_(a)j、σ_(a)j。

步骤13：判断系统是否稳定即误差信号是否处于容许误差带。若系统稳定则结束流程，否则跳转到步骤8。

最终由第一、第二、第三执行器-评价器模块1，2，3与电流控制模块4共同组成完整的五自由度无轴承永磁同步电机强化学习控制器8，如图1所示。

Claims

1.一种五自由度无轴承永磁同步电机强化学习控制器，其特征是：所述强化学习控制器由一个电流控制模块(4)、六个微分器和三个执行器-评价器模块组成，三个执行器-评价器模块的输出经电流控制模块(4)连接无轴承永磁同步电机系统(7)，电流控制模块(4)的输出是组成无轴承永磁同步电机中二自由度无轴承永磁同步电机的转矩绕组电流i_Ma、i_Mb、i_Mc、悬浮绕组电流i_Ba、i_Bb、i_Bc、组成无轴承永磁同步电机中三自由度混合磁轴承径向位移控制电流i_a、i_b、i_c和轴向位移控制电流i_z；无轴承永磁同步电机系统(7)的输出为二自由度无轴承永磁同步电机实时径向位移值x、y与实际转速ω以及所述磁轴承径向位移x_r、y_r与轴向位移z；实时径向位移值x、y、实际转速ω以及磁轴承径向位移x_r、y_r与轴向位移z分别与相应的给定值x^*、y^*、x_r ^*、y_r ^*、z^*、ω^*一一对应地比较得到实时径向位移误差e_x、e_y、实际转速e_ω误差以及磁轴承径向位移误差e_xr、e_yr与轴向位移e_z这6个误差，每个误差各输入一个对应的微分器得到误差误差e_x、e_y、是第一执行器-评价器模块(1)的输入，误差e_ω、是第二执行器-评价器模块(2)的输入，误差e_xr、e_yr、e_z、是第三执行器-评价器模块(3)的输入，第一执行器-评价器模块(1)的输出是二自由度无轴承永磁同步电机d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*，第二执行器-评价器模块(2)的输出是d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*，第三执行器-评价器模块(3)的输出是三自由度混合磁轴承控制电流i_x ^*、i_y ^*、i_z ^*。

2.根据权利要求1所述五自由度无轴承永磁同步电机强化学习控制器，其特征是：每个执行器-评价器模块各由执行器神经网络、评价器神经网络、第一强化信号模块和第一瞬时差分模块组成，每个执行器-评价器模块中的评价器神经网络的输出端经瞬时差分模块连接执行器神经网络，瞬时差分模块的输出端连接评价器神经网络的输入端，强化信号模块的输出端连接瞬时差分模块，每个强化信号模块各输出对应的强化信号，每个评价器神经网络生成并输出对应的值函数，每个瞬时差分模块生成对应的瞬时差分信号，每个执行器-评价器模块中的执行器神经网络和评价器神经网络根据瞬时差分信号调整权值；所述误差e_x、e_y为第一强化信号模块(13)的输入，所述误差e_x、e_y、为第一执行器神经网络(11)和第一评价器神经网络(12)的共同输入，第一执行器神经网络(11)输出d-q坐标系下的悬浮绕组给定电流i_Bd ^*、i_Bq ^*；所述误差e_ω、为第二执行器神经网络(21)和第二评价器神经网络(22)的共同输入，所述误差e_ω为第二强化信号模块(23)的输入，第二执行器神经网络(21)输出d-q坐标系下的转矩绕组给定电流i_Md ^*、i_Mq ^*；所述误差e_xr、e_yr、e_z、为第三执行器神经网络(31)和第三评价器神经网络(32)的共同输入，所述误差e_xr、e_yr、e_z为第三强化信号模块(33)的输入，第三执行器神经网络(31)输出磁轴承控制电流i_x ^*、i_y ^*、i_z ^*。

3.一种如权利要求2所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，其特别是包括以下步骤：

步骤1：构造电流控制模块(4)和五自由度无轴承永磁同步电机系统(7)；

步骤3：构造三个强化信号模块，第一强化信号模块(13)输出强化信号r₁(t)＝α_xr_x(t)+α_yr_y(t)，r_x(t)、r_y(t)分别为x、y轴向位移误差强化信号，α_x、α_y分别为x、y轴向位移误差强化信号系数；第二强化信号模块(23)输出强化信号r₂(t)＝β_ω1r_ω1(t)+β_ω2r_ω2(t)，r_ω1(t)、r_ω2(t)分别为转速当前时刻误差强化信号和转速误差变化强化信号，β_ω1和β_ω2分别为它们的权重；第三强化信号模块(33)输出强化信号r₃(t)＝α_xrr_xr(t)+α_yrr_yr(t)+α_zr_z(t)，r_xr(t)、r_yr(t)和r_z(t)分别为磁轴承x、y轴向位移误差强化信号和z轴向位移强化信号，α_xr、α_yr和α_z分别为x、y轴向位移误差强化信号系数和z轴向位移强化信号系数；

步骤4：构造三个瞬时差分模块，瞬时差分信号δ_a(t)＝r_a(t)+γ_aV_a(t+1)-V_a(t)，γ_a折扣因子，0≤γ_a≤1，t为当前时刻，V_a(t+1)和V_a(t)分别为更新前后的值函数，a＝1,2,3，分别代表第一、第二、第二执行器-评价器模块；

步骤5：由三个执行器-评价器模块与电流控制模块(4)共同组成五自由度无轴承永磁同步电机强化学习控制器。

4.根据权利要求3所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，步骤2中，每个执行器-评价器模块的复合RBF神经网络的第一层为输入层，第二层为隐含层，隐含层的节点基函数采用高斯核函数，第三层为输出层，由执行器输出和评价器输出两个部分组成，执行器神经网络输出值函数和评价器神经网络输出值函数。

5.根据权利要求3所述五自由度无轴承永磁同步电机强化学习控制器的构造方法，其特别是：在步骤4之后，先确定执行器-评价器复合RBF神经网络参数更新方式，再确定执行器-评价器算法流程。