CN117111476A

CN117111476A - 一种滑模控制器参数整定方法和系统

Info

Publication number: CN117111476A
Application number: CN202311232890.4A
Authority: CN
Inventors: 朱其新; 缪刘洋; 张拥军; 眭立洪; 刘红俐; 牛雪梅; 张德义
Original assignee: Jiangsu Yongding Fiber Technology Co ltd; Suzhou University of Science and Technology
Current assignee: Jiangsu Yongding Fiber Technology Co ltd; Suzhou University of Science and Technology
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-11-24

Abstract

本发明涉及一种滑模控制器参数整定方法和系统，其中，方法包括：步骤S1：搭建PMSM数学模型，基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器；步骤S2：通过改进的多智能体强化学习对所述SMC控制器进行参数整定。本发明能够有效解决SMC控制器参数难以整定的问题，经多智能体强化学习整定的SMC控制器具有响应速度快、鲁棒性强、抗干扰能力强等优点。

Description

一种滑模控制器参数整定方法和系统

技术领域

本发明涉及滑模控制器参数整定技术领域，尤其是指一种滑模控制器参数整定方法和系统。

背景技术

伺服系统在机器人、工业、航空、军事等领域扮演着举足轻重的角色。其中，永磁同步电机(Permanent Magnet Synchronous Motor,PMSM)由于其转动惯量大、运行可靠、功率密度高等优点，在伺服系统中得到了广泛的应用。

PMSM是一种多变量、强耦合、非线性和时变等特性的复杂系统。目前一般使用比例-积分-微分(Proportional-integral-derivative,PID)控制器，PID是一种非常成熟的控制方式，具有结构简单、可靠性高等特点；然而，在面对相互耦合的多变量时，PID控制器的表现不足。在目前的工业生产中，PID控制器已无法满足PMSM对转速跟踪实时性及鲁棒性的要求。针对上述问题，国内外学者提出了不同的控制方式，如：自抗扰控制、内模控制、滑模控制(sliding mode control,SMC)、自适应控制、智能控制等。其中，SMC具有强鲁棒性、结构简单、响应速度快、对匹配参数的扰动不敏感等优点，在PMSM上得到广泛应用。

虽然SMC具有诸多优点，但是，还存在控制器参数难以整定的问题。SMC的参数整定主要以试凑法和经验法为主，上述方法效率低且很难找到各参数的最佳组合，不合理的参数组合会导致SMC控制器无法达到控制要求。因此，解决参数整定是十分必要的。Orosco等人通过使用遗传算法(Genetic Algorithms,GA)对四旋翼飞行器的SMC控制器参数进行整定，实验结果表明，使用GA比使用ISE(Integral of the Square Error)进行参数调优的SMC控制器的动态响应及抗扰动性能提升明显。Mpanza等人使用蚁群算法(ant colonyoptimization,ACO)对2自由度液压伺服系统的动力学和轨迹跟踪的SMC制器进行参数整定，与其他算法相比，经ACO整定的控制器在跟踪误差和输出力矩上的性能优于其他算法。严家政等人通过强化学习对PID控制器参数进行在线自整定及优化，将经验回放机制和控制系统的动态性能指标相结合，有效减小了被控对象的超调量，提升了控制器的动态响应性能。Sun等人提出一种改进飞蛾扑火算法(Moth-Flame Optimization,MFO)对并网复合装置(grid-connected composite device,GCCD)的SMC控制器参数进行整定，通过优秀点集和Levy飞行策略对MFO进行改进，该算法使得控制器具有良好的动态性能。

虽然，上述方法简化了控制器参数的整定过程并取得了良好效果，但是SMC参数较多且部分参数的选取区间较大，另外不同参数的选取范围差别较大。在使用智能算法对多参数同时进行整定时，参数的组合种类会产生维度灾难，同时可能会陷入局部最优。为此，需要寻找一种性能较好的SMC参数整定方法。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中对SMC控制器参数难以整定的问题。

为解决上述技术问题，本发明提供了一种滑模控制器参数整定方法，包括：

步骤S1：搭建PMSM数学模型，基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器；

步骤S2：通过改进的多智能体强化学习对所述SMC控制器进行参数整定。

在本发明的一个实施例中，所述步骤S1中搭建PMSM数学模型，方法包括：

PMSM在同步旋转d-q轴坐标系下的基本方程公式为：

式中，u_d,u_q为d-q轴定子电压、i_d,i_q为d-q轴定子电流；L_q,L_d为定子电感；R为定子电阻；ω_e为电角速度；ψ_f为磁链；

PMSM的转矩方程和动力学方程公式为：

式中，P_n为极对数；T_e为电磁转矩；T_L为负载转矩；J为转动惯量；B为摩擦系数，ω_m为转子角速度；

根据所述PMSM在同步旋转d-q轴坐标系下的基本方程、PMSM的转矩方程和动力学方程搭建PMSM数学模型，公式为：

式中，L_s为定子电感。

在本发明的一个实施例中，所述步骤S1中基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器，方法包括：

根据所述PMSM数学模型定义SMC控制器的状态变量，公式为：

式中，k_t＝3P_nψ_f/2；转速误差e＝ω^*-ω_m，ω^*为目标转速，ω_m为实际转速；

根据所述PMSM数学模型和所述状态变量得到SMC控制器的状态，公式为：

定义SMC控制器的滑模面函数为：

s＝cx₁+x₂

式中，c＞0；

对所述SMC控制器滑模面函数进行求导得到滑模趋近律，并将所述滑模趋近律中的sgn函数替换为tanh函数，得到新的滑模趋近律，公式为：

式中，k₁,k₂＞0，0＜μ＜1；

根据所述SMC控制器的状态、SMC控制器的滑模面函数和新的滑模趋近律构建SMC控制器，公式为：

式中，c,μ,k₁,k₂均为待整定参数。

在本发明的一个实施例中，对所述SMC控制器的稳定性进行测试，方法包括：

定义李雅普诺夫函数：

对V进行求导表明SMC控制器稳定。

在本发明的一个实施例中，所述步骤S2中通过改进的多智能体强化学习对所述SMC控制器进行参数整定，方法包括：通过多智能体的多臂老虎机算法对所述SMC控制器进行参数整定，并且多臂老虎机算法每一次进行动作选择时，按照预设策略从K个摇臂中选取一个，其中，所述预设策略为UCB策略，公式为：

式中，A_t为t回合选取的动作，Q_t(a)为t回合动作a的价值，t为当前回合数，N_t(a)为当前动作选取的总次。

在本发明的一个实施例中，所述通过多智能体的多臂老虎机算法对所述SMC控制器进行参数整定，方法包括：

使用多智能体的多臂老虎机算法对所述SMC控制器进行参数整定过程中，每个智能体根据当前UCB策略分别输出一个参数值至SMC控制器，SMC控制器根据接收到的各种参数值驱动PMSM运行并给出奖赏，将所述奖赏反馈至每个智能体，所有智能体共享所述奖赏并根据当前奖赏更新UCB策略，在下一轮迭代过程中，每个智能体根据更新后的UCB策略分别输出一个新的参数值至SMC控制器，SMC控制器根据接收到的各种新的参数值驱动PMSM运行并给出新的奖赏，循环往复，当奖赏完全收敛时则完成SMC控制器的参数整定。

在本发明的一个实施例中，所述奖赏由超调量δ、上升时间t_r和稳态时间t_s三个指标构成，所述超调量δ、上升时间t_r和稳态时间t_s用于评价SMC控制器的优劣，具体设置为：

当δ＝0时，给与r₁＝10的正奖赏，当δ＞0时，则给与r₁＝-δ的负奖赏；

设定r₂＝1/t_r+1/t_s；

根据r₁和r₂定义奖赏函数为：R＝r₁+r₂。

为解决上述技术问题，本发明提供了一种滑模控制器参数整定系统，包括：

搭建与设计模块：用于搭建PMSM数学模型，基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器；

参数整定模块：用于通过改进的多智能体强化学习对所述SMC控制器进行参数整定。

为解决上述技术问题，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述滑模控制器参数整定方法的步骤。

为解决上述技术问题，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述滑模控制器参数整定方法的步骤。

本发明的上述技术方案相比现有技术具有以下优点：

本发明通过多个智能体共享奖赏的方式分别对SMC控制器每个参数进行寻优，有效地避免了不同参数的选取范围差别较大而导致对多参数同时进行整定寻优时产生的维度灾难的问题；

本发明通过多智能体的多臂老虎机算法整定的SMC控制器在超调量、响应速度、抗干扰能力和鲁棒性方面具有明显的优势，即本发明能够有效地解决滑模控制器参数难以整定的问题。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的方法流程图；

图2是本发明实施例中MARL模型示意图；

图3是本发明实施例中SMC控制器仿真模型示意图；

图4是本发明实施例中PMSM系统模型示意图；

图5是本发明实施例中MMAB与Simlink模型联合仿真原理图；

图6是本发明实施例中MMAB算法奖赏与GA算法每回合最优种群隶属度图；

图7是本发明实施例中MMAB算法输出参数c与GA算法每回合最优参数图；

图8是本发明实施例中MMAB算法输出参数μ与GA算法每回合最优参数图；

图9是本发明实施例中MMAB算法输出参数k₁与GA算法每回合最优参数图；

图10是本发明实施例中MMAB算法输出参数k₂与GA算法每回合最优参数图；

图11是本发明实施例中MMAB算法与GA算法参数整定下的SMC控制器转速跟踪曲线图；

图12是本发明实施例中MMAB算法与GA算法参数整定下的SMC控制器的转速误差曲线图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

参照图1所示，本发明涉及一种滑模控制器参数整定方法，包括：

步骤S1：搭建PMSM(永磁同步电机)数学模型，基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器(滑模控制器)；

步骤S2：通过改进的多智能体强化学习对所述SMC控制器进行参数整定，参数整定后的SMC控制器能够实现对PMSM(即永磁同步电机)的有效控制。

本发明通过多个智能体共享奖赏的方式分别对SMC控制器每个参数进行寻优，有效地避免了不同参数的选取范围差别较大而导致对多参数同时进行整定寻优时产生的维度灾难的问题，经多智能体强化学习整定的SMC控制器具有响应速度快、鲁棒性强、抗干扰能力强等优点。

以下对本实施例进行详细介绍：

1、PMSM数学模型

表贴式三项PMSM在同步旋转d-q轴坐标系下的基本方程为：

式中，u_d,u_q为d-q轴定子电压、i_d,i_q为d-q轴定子电流；L_q,L_d为定子电感；R为定子电阻；ω_e为电角速度；ψ_f为磁链。

其转矩方程和动力学方程如下所示：

式中，P_n为极对数；T_e为电磁转矩；T_L为负载转矩；J为转动惯量；B为摩擦系数。

根据根据PMSM在同步旋转d-q轴坐标系下的基本方程、PMSM的转矩方程和动力学方程搭建PMSM数学模型，公式为：

式中，L_s为定子电感。

2、滑模控制器(SMC控制器)设计

本实施例定义i_q为SMC控制器的输出对象；e＝ω^*-ω_m为转速误差，ω^*为目标转速，ω_m为实际转速；根据PMSM数学模型定义SMC控制器的状态变量，公式为(需要注意：公式(4)的中间一行是根据所述PMSM数学模型推导出来的，另外两行是自定义的)：

式中，k_t＝3P_nψ_f/2。

根据PMSM数学模型和状态变量得到SMC控制器的状态，公式为：

定义SMC控制器的滑模面函数为：

s＝cx₁+x₂ (6)

式中，c＞0。

本实施例采用新的趋近律，在幂次趋近律中引入指数项，当SMC控制器运力滑模面时，指数项能够使系统状态以较大的速度趋近滑动模态；当系统状态趋近滑模面时，幂次项能使系统状态以较小的速度趋近于滑动模态，以降低抖振。同时为进一步降低系统在滑模面的抖震，使用tanh函数代替sgn函数。新的趋近律具体形式为：

式中，k₁,k₂＞0，0＜α＜1。

根据SMC控制器的状态公式(5)、SMC控制器的滑模面函数公式(6)、新的趋近律公式(7)可得PMSM速度滑模控制器函数：

式中，λ,α,k₁,k₂均为待整定参数。

为证明SMC控制器的稳定性，定义李雅普诺夫函数为：

对式(9)求导得：

由李雅普诺夫稳定判据可知，所设计的控制器是渐进稳定的。

3、速度滑模控制器参数整定

针对SMC控制器参数难调试的问题，本实施例采用强化学习(reinforcementlearning,RL)算法对SMC控制器参数进行整定。

3.1强化学习

RL是一种学习如何从状态映射到行为决策以获取奖赏最大化的学习机制。智能体(Agent)从环境获取状态和奖赏并对环境施加动作，环境给予Agent一个奖赏值，Agent以此来评估当前动作的好坏。Agent通过与环境不断地交互，以此来学习并寻找最优策略(policy)π。RL算法具体实施流程如下：

1)Agent从环境获取初始状态s_t；

2)Agent依据当前状态s_t遵循策略π对环境施加一个动作a_t；

3)Agent从环境中获取下一状态s_t+1，并根据状态计算及时奖赏r_t及总奖赏R_t＝R_t-1-r_t；

4)Agent根据s_t，s_t+1，r_t，R_t更新策略π；

5)判断迭代是否完成，“是”结束，“否”返回步骤2)

3.2算法设计

在控制器性能分析中，系统的超调量、上升时间、稳态时间等性能指标是评价控制器设计优劣的关键性因素。所以在对整定的参数进行评价时，需要从过程响应特性中提取出评价因素，即每回合Agent仅需输出一次action(控制器参数)；同时，Agent得到的奖励是即时的，没有延迟奖励问题，即时奖赏即为累计奖赏。

另外，在RL中，Agent通过与环境不断地交互，通过动作和奖赏来学习并寻找最优策略。Agent在交互期间选取动作时，首先要在“探索”(Exploration)与“利用”(Exploitation)两个方面进行权衡。“探索”表示Agent通过尝试未知动作期望获得更大奖赏。“利用”则表示Agent通过已知的动作和奖赏，选择奖赏最大的动作。因此如何合理地使用“探索”与“利用”进行决策，使Agent在有限回合内实现奖赏最大化，是强化学习领域的一个经典问题，一般称为EE问题。多臂老虎机(Multi-Armed Bandit，MAB)模型是解决EE问题的经典模型。

因此，参数整定问题与MAB问题十分契合，所以本实施例提出一种多智能体的多臂老虎机(Multi-agent multi-armed bandit,MMAB)算法对SMC控制器进行参数整定。

3.2.1多臂老虎机算法

MAB问题是简化版的强化学习问题，其不存在状态信息，只有动作和奖励。每一次进行动作选择时，按照策略从K个摇臂(参数)中选取一个，得到奖赏(reward)，通过多次重复动作选择，学会将动作集中到最好的摇臂上，从而最大化奖赏。MAB通过一些列的决策模解决EE问题，常见的决策模型有贪心策略、置信区间上限策略(Upper confidencesmapling，UCB)、Thompson Sampling策略等。

UCB策略可以有效的避免陷入局部最优，所以本实施例选取UCB作为Agent的动作输出策略。其具体策略表示为：

式中，A_t为t回合选取的动作，Q_t(a)为t回合动作a的价值，t为当前回合数，N_t(a)为当前动作选取的总次数。

3.2.2多智能体强化学习

SMC控制器参数多且取值范围大，在使用智能算法同时对多参数进行迭代整定时可能会出现维度灾难的问题，因此本实施例提出一种MARL的参数整定方法。

MARL可根据智能体之间的关系分为完全合作类、完全竞争类和混合类3种。其中完全合作类的MARL与本实施例参数整定目标极为契合，其主要思想为所有Agent相互合作公共完成一个特定目标，最大化团队的全局累计奖赏。具体地，使用多智能体的多臂老虎机算法对所述SMC控制器进行参数整定过程中，每个智能体根据当前UCB策略分别输出一个参数值至SMC控制器，SMC控制器根据接收到的各种参数值驱动PMSM运行并给出奖赏，将所述奖赏反馈至每个智能体，所有智能体共享所述奖赏并根据当前奖赏更新UCB策略，在下一轮迭代过程中，每个智能体根据更新后的UCB策略分别输出一个新的参数值至SMC控制器，SMC控制器根据接收到的各种新的参数值驱动PMSM运行并给出新的奖赏，循环往复，当奖赏完全收敛时则完成SMC控制器的参数整定。简而言之，本实施例通过最优的UCB策略实现奖赏最大化，当奖赏完全收敛时则完成SMC控制器的参数整定。其具体模型如图2所示。

3.2.2奖赏函数

RL的基本思想就是通过最大化奖赏来找到最优策略，奖赏函数对于最终学习结果至关重要，其主要包含两个部分，具体设置如下：

1)超调量δ

为尽量减少超调量，当δ＝0时，给与r₁＝10的正奖赏，当δ＞0时，则给与r₁＝-δ的负奖赏；

2)上升时间t_r和稳态时间t_s

为使系统尽快进入稳定状态，设定r₂＝1/t_r+1/t_s。

综上，本实施例最终设定的奖赏函数为：

R＝r₁+r₂ (12)

4仿真建模与结果分析

本实施例使用python与Matlab进行联合仿真，首先在Matlab/Simulink中搭建PMSM系统仿真模型，然后利用python编写MARL与GA算法，两者之间通过Workspace进行数据交互。

4.1建模

4.1.1 PMSM建模

为验证本实施例所提趋近律的稳定性和参数整定算法的可行性，在Simulink中搭建PMSM系统仿真模型。

速度SMC控制器仿真模型如图3所示，其中输入为转速误差，输出为控制量。PMSM系统模型由的转速环SMC控制器、电流环PI控制器、PWM模块、逆变器模块、Clack变换与Park变换模块和直流电机模块构建而成，具体如图4所示，所使用PMSM参数表1所示。

表1 PMSM参数

4.1.2算法实施

图5为MMAB与Simlink模型联合仿真原理图，如图所示，MMAB中四个Agent(智能体)在待整定参数c，μ，k₁，k₂的指定范围内输出参数值至Workspace中，Simulink模型调用Workspace中的四个参数值开始仿真，并将运行后得到的控制器评价指标超调量、上升时间、稳态时间反馈至Workspace，MMAB从Workspace中读取评价指标并计算奖赏，然后根据奖赏更新UCB值。至此完成一次迭代。

4.2仿真结果分析

仿真条件设置：仿真时间设置0.6s，PMSM控制启动，给定转速ω^*＝600r/min，0.2s时给4Nm负载，0.4s时转速增加至1000r/min，稳态误差不超过0.5％。在参数整定过程中，每个参数的取值区间分别为c∈[0,100]，μ∈[0,1]，k₁∈[0,1500]，k₂∈[0,1000]。MMAB是一种离散的学习方法，将参数值离散为c∈[0:1:100]，μ∈[0:0.01:1]，k₁∈[0:10:1500]，k₂∈[0:10:1000]。

本实施例使用GA算法与MMAB进行比较，GA算法使用的参数分别为：迭代次数G＝500，种群大小M＝10，变异概率ψ＝0.1，交叉概率Γ＝0.8。仿真结果如图6-10所示。

图6为MMAB算法奖赏与GA算法每回合最优种群隶属度图，从图中可以看出，MMAB奖赏函数上升速度较快，在160回合之后完全收敛。GA算法隶属度下降稍慢，在90回合左右开始收敛180回合完全收敛。图7-10分别为MMAB算法输出参数与GA算法每回合最优参数图，四个参数在两种算法的整定下都会稳定收敛，相较而言MMAB算法比GA算法的收敛速度更快。两种算法整定的参数差异较大，SMC控制器性能如图11-12所示。

图11为MMAB算法与GA算法参数整定下的SMC控制器转速跟踪曲线，由图中转速对比可知，使用MMAB算法整定的速度SMC控制器启动时超调小于经GA算法整定的控制器，上升时间及稳态时间两者相同；当0.2s施加4Nm负载时，MMAB整定的控制器能够保持最低下降量并快速回到稳定状态；当0.4s转速提升至800r/min时，仍能控制超调量且调整时间较短。然而，在进入稳态后，经GA算法整定的控制器转速跟踪能力稍差，转速始终低于给定转速。

图12为MMAB算法与GA算法参数整定下的SMC控制器的转速误差曲线。启动时，由于给定转速为600r/min，两者误差均为600r/min。MMAB整定的控制器在速度过零处的转速误差较小，并最快达到0r/min；当0.2s施加4Nm负载时，其转速误差也较小调整时间也最短，当转速提升至800r/min时，MMAB整定的控制器转速误差为200r/min，GA整定的控制器超过200r/min。在调整时间方面，MMAB整定的控制器也较小。

综上，根据仿真结果可以表明，经MMAB整定参数的速度SMC控制器的PMSM系统具有超调更小小、响应更快、抗干扰能力更强和鲁棒性更强的优点，系统性能得到了改善。

实施例二

本实施例提供一种滑模控制器参数整定系统，包括：

实施例三

本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一所述滑模控制器参数整定方法的步骤。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例一所述滑模控制器参数整定方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种滑模控制器参数整定方法，其特征在于：包括：

2.根据权利要求1所述的滑模控制器参数整定方法，其特征在于：所述步骤S1中搭建PMSM数学模型，方法包括：

PMSM在同步旋转d-q轴坐标系下的基本方程公式为：

PMSM的转矩方程和动力学方程公式为：

式中，L_s为定子电感。

3.根据权利要求2所述的滑模控制器参数整定方法，其特征在于：所述步骤S1中基于所述PMSM数学模型，引入新的滑模趋近律设计SMC控制器，方法包括：

根据所述PMSM数学模型定义SMC控制器的状态变量，公式为：

定义SMC控制器的滑模面函数为：

s＝cx₁+x₂

式中，c＞0；

对所述SMC控制器的滑模面函数进行求导得到滑模趋近律，并将所述滑模趋近律中的sgn函数替换为tanh函数，得到新的滑模趋近律，公式为：

式中，k₁,k₂＞0，0＜μ＜1；

式中，c,μ,k₁,k₂均为待整定参数。

4.根据权利要求3所述的滑模控制器参数整定方法，其特征在于：对所述SMC控制器的稳定性进行测试，方法包括：

定义李雅普诺夫函数：

对V进行求导表明SMC控制器稳定。

5.根据权利要求1所述的滑模控制器参数整定方法，其特征在于：所述步骤S2中通过改进的多智能体强化学习对所述SMC控制器进行参数整定，方法包括：通过多智能体的多臂老虎机算法对所述SMC控制器进行参数整定，并且多臂老虎机算法每一次进行动作选择时，按照预设策略从K个摇臂中选取一个，其中，所述预设策略为UCB策略，公式为：

6.根据权利要求5所述的滑模控制器参数整定方法，其特征在于：所述通过多智能体的多臂老虎机算法对所述SMC控制器进行参数整定，方法包括：

7.根据权利要求6所述的滑模控制器参数整定方法，其特征在于：所述奖赏由超调量δ、上升时间t_r和稳态时间t_s三个指标构成，所述超调量δ、上升时间t_r和稳态时间t_s用于评价SMC控制器的优劣，具体设置为：

设定r₂＝1/t_r+1/t_s；

根据r₁和r₂定义奖赏函数为：R＝r₁+r₂。

8.一种滑模控制器参数整定系统，其特征在于：包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述滑模控制器参数整定方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述滑模控制器参数整定方法的步骤。