CN110323981A - 一种控制永磁同步直线电机的方法及系统 - Google Patents

一种控制永磁同步直线电机的方法及系统 Download PDF

Info

Publication number
CN110323981A
CN110323981A CN201910399548.0A CN201910399548A CN110323981A CN 110323981 A CN110323981 A CN 110323981A CN 201910399548 A CN201910399548 A CN 201910399548A CN 110323981 A CN110323981 A CN 110323981A
Authority
CN
China
Prior art keywords
network
synchronous motor
permanent magnetic
linear synchronous
magnetic linear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910399548.0A
Other languages
English (en)
Inventor
张振宇
张昱
陈丽
林利彬
张东波
秦昊
凌翔
刘智
杨瑞
魏千洲
王晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute of Intelligent Manufacturing
Original Assignee
Guangdong Institute of Intelligent Manufacturing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute of Intelligent Manufacturing filed Critical Guangdong Institute of Intelligent Manufacturing
Priority to CN201910399548.0A priority Critical patent/CN110323981A/zh
Publication of CN110323981A publication Critical patent/CN110323981A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P21/00Arrangements or methods for the control of electric machines by vector control, e.g. by control of field orientation
    • H02P21/0003Control strategies in general, e.g. linear type, e.g. P, PI, PID, using robust control
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02PCONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
    • H02P25/00Arrangements or methods for the control of AC motors characterised by the kind of AC motor or by structural details
    • H02P25/02Arrangements or methods for the control of AC motors characterised by the kind of AC motor or by structural details characterised by the kind of motor
    • H02P25/06Linear motors
    • H02P25/064Linear motors of the synchronous type

Landscapes

  • Engineering & Computer Science (AREA)
  • Power Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及永磁同步直线电机技术领域,具体涉及一种控制永磁同步直线电机的方法、系统、平台及存储介质。建立永磁直线电机数学模型;通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。

Description

一种控制永磁同步直线电机的方法及系统
技术领域
本发明涉及永磁同步直线电机技术领域,具体涉及一种控制永磁同步直线电机的方法、系统、平台及存储介质。
背景技术
随着现代生产技术的发展对PMLSM伺服系统稳定性、精确性有了更高的要求。常规的控制算法已经越来越不能满足PMLSM控制系统的要求,随着人工智能技术的发展和成熟,将现代智能控制方法应用于永磁同步直线电机控制系统成为未来发展的趋势。
永磁同步直线电机(Permanent magnet linear synchronous motor,PMLSM)是一种不需要中间传动装置而直接将电能转换为直线运动的电机。永磁同步直线电机有着推力大、速度大、行程大和精度高等优点,相比传统旋转电机,永磁同步直线电机驱动系统取消了中间传动环节,简化了机械结构,具有优越的加减速度特性和高刚度、高可靠性,运行噪声小,维护简单等优点。所以永磁同步直线电机越来越广泛的应用在一些高速、高精密机械加工中。然而由于其实际伺服系统是非线性、不确定性系统,当模型的不确定性超过传统线性最优鲁棒控制所允许的范围时,控制系统就变得不稳定。
此外,为使永磁同步直线电机伺服系统稳定、可控,现代常规的控制方法有模糊控制、神经网络和粒子群算法控制等控制方法。模糊PID控制,相较于单一的PID控制算法,模糊PID控制控制下的PMLSM伺服系统的超调量较小、响应速度较快,且系统的抗干扰能力强,鲁棒性好,基本达到了控制系统的设计要求。模糊神经网络控制,模糊神经网络控制系统与传统PID和模糊PID相比,具有超调小,快速性好及运行稳定的优点,其控制效果得到了明显的提升。粒子群算法,采用改进的粒子群算法来优化PMLSM,在优化过程中增加了遗传算法中的交叉这个过程,实现了粒子群算法与遗传算法相结合,这种改进的算法不仅能减少迭代次数,让目标函数快速收敛,还能防止陷入局部最优,提高算法寻找全局最优的可靠性。
这些经典的现代智能控制系统,为研究新型的伺服控制系统奠定了良好的理论基础,但控制过程仍存在一些缺点:模糊逻辑控制,模型预测控制等传统控制方法需要复杂的数学模型和专业知识,然而,专家们很难获得这些经验和知识。通过粒子群优化,遗传算法和神经网络算法优化的最优跟踪曲线通常仅对特定周期有效,缺乏在线学习能力和有限的泛化能力。因此传统控制方法很难满足现代伺服系统的要求。
发明内容
针对以上实际伺服系统是非线性、不确定性系统,缺乏在线学习能力和有限的泛化能力的问题,本发明提出一种基于深度强化学习算法控制永磁同步直线电机的方法,即一种控制永磁同步直线电机的方法、系统、平台及存储介质,将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。
本发明具体通过以下技术方案实现:
一种控制永磁同步直线电机的方法,所述的方法具体包括如下步骤:
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
通过actor-critic网络构建强化学习代理的框架;
以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现PID参数自动调整;
具体地,PID控制器由以下方程设计:
其中,u(t)表示控制器t时刻输出信号,u(t-1)表示控制器t-1时刻输出信号,Δu(t)表示控制器输出增量,ki,kp,kd分别表示比例、积分、微分系数,e(t)表示给定值与实际输出反馈值之差,e(t-1)表示上一时刻给定值与实际输出反馈值之差,e(t-2)表示上上时刻给定值与实际输出反馈值之差,Δe(t)表示当前时刻误差与上一时刻误差之差,Δe(t-1)表示上一时刻误差与上上时刻误差之差,Δ2e(t)=Δe(t)-Δe(t-1)。
进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;
critic的动作值函数具体为:
Q(st,μ(stμ)|θQ) (2)
actor的动作值函数具体为:
μ(stμ) (3)
其中,θQ和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。
进一步地,于步骤通过actor-critic网络构建强化学习代理的框架中;
actor评估网络选择动作采用的函数为:
at=[kp,ki,kd]=μ(stμ)+Noise (4)
其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,Noise代表随机OU噪声。
进一步地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体的学习过程函数为:
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,分别代表目标权重,γ代表折扣因子。
进一步地,于步骤从存储器中取出部分随机样本,进而进行训练更新目标网络中,还包括如下步骤:
根据最小损失函数更新critic网络;
具体函数采用公式为:
其中,L代表损失函数,N代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。
根据策略梯度更新actor网络;
具体函数采用公式为:
其中,▽θμJ代表actor更新网络梯度,N代表更新次数,▽aQ(s,a|θQ)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度。
根据更新后的critic网络和actor网络,更新目标网络。
为实现上述目的,本发明还提供一种控制永磁同步直线电机的系统,所述的系统具体包括:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
进一步地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现PID参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
为实现上述目的,本发明还提供一种控制永磁同步直线电机的平台,具体包括:
处理器、存储器以及控制永磁同步直线电机平台控制程序;
其中在所述处理器执行所述控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序被存储在所述存储器中,所述的控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤。
为实现上述目的,本发明还提供一种计算机可读取存储介质,所述计算机可读取存储介质存储有控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤。
与现有技术相比,本发明具有以下有益效果:
本发明通过一种控制永磁同步直线电机的方法,
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
及相应地系统单元和模块:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
进一步地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现PID参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
及相应地平台及存储介质;
可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种控制永磁同步直线电机的方法架构流程示意图;
图2为本发明直线电机传递函数框图示意图;
图3为本发明基于DDPG方法来对永磁同步直线电机的速度环进行自适应控制,控制方法示意图;
图4为本发明基于强化学习的自适应PID控制算法的结构图;
图5为本发明基于深度强化学习算法控制永磁同步直线电机的方法的流程图;
图6为本发明一种控制永磁同步直线电机的系统架构示意图;
图7为本发明一种控制永磁同步直线电机的平台架构示意图;
图8为本发明一种实施例中计算机可读取存储介质架构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为便于更好的理解本发明的目的、技术方案和优点更加清楚,下面结合附图和具体的实施方式对本发明作进一步说明,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。
本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。其次,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
优选地,本发明一种控制永磁同步直线电机的方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
本发明为实现一种控制永磁同步直线电机的方法、系统、平台及存储介质。
如图1所示,是本发明实施例提供的控制永磁同步直线电机的方法的流程图。
在本实施例中,所述控制永磁同步直线电机的方法,可以应用于具备显示功能的终端或者固定终端中,所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。
所述控制永磁同步直线电机的方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于:广域网、城域网或局域网。本发明实施例的控制永磁同步直线电机的方法可以由服务器来执行,也可以由终端来执行,还可以是由服务器和终端共同执行。
例如,对于需要进行控制永磁同步直线电机的终端,可以直接在终端上集成本发明的方法所提供的控制永磁同步直线电机的功能,或者安装用于实现本发明的方法的客户端。再如,本发明所提供的方法还可以软件开发工具包(Software Development Kit,SDK)的形式运行在服务器等设备上,以SDK的形式提供控制永磁同步直线电机的功能的接口,终端或其他设备通过所提供的接口即可实现控制永磁同步直线电机的功能。
如图1所示,本发明提供了一种控制永磁同步直线电机的方法,所述方法具体包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
具体地,建立永磁直线电机数学模型,根据矢量控制的基本原理,采用id=0的矢量控制策略,其数学模型为:
其中Rs为初级绕组等效电阻,τ为永磁体极距,υ为永磁直线同步电机的同步运动速度,对于PMLSM,Ld=Lq=L,Ld、Lq为d轴和q轴的电感,ud、uq为直线电机初级d轴和q轴电压,id、iq为d轴和q轴电流,ψf为永磁体励磁基波磁链,M为电机初级质量,B为黏摩擦系数,F1为负载阻力,Kf为电磁推力系数。
通过以上的数学模型,直线电机传递函数框图示意图如图2所述。
较佳地,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
通过actor-critic网络构建强化学习代理的框架;
以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现PID参数自动调整;
更进一步地,还包括如下步骤:
从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地为:根据最小损失函数更新critic网络;根据策略梯度更新actor网络;根据更新后的critic网络和actor网络,更新目标网络。
也就是说,通过深度确定性策略梯度方法来对永磁同步直线电机的速度环进行自适应控制,控制方法示意图参见图3。
本发明方法以actor-critic网络构建强化学习代理的框架,以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线。DPG确定性策略梯度算法用于设计actor网络,DQN算法用于设计critic网络,实现PID参数自整定。
PID控制器由以下方程设计:
其中:u(t)表示控制器t时刻输出信号,u(t-1)表示控制器t-1时刻输出信号,Δu(t)表示控制器输出增量,ki,kp,kd分别表示比例、积分、微分系数,e(t)表示给定值与实际输出反馈值之差,e(t-1)表示上一时刻给定值与实际输出反馈值之差,e(t-2)表示上上时刻给定值与实际输出反馈值之差,Δe(t)表示当前时刻误差与上一时刻误差之差,Δe(t-1)表示上一时刻误差与上上时刻误差之差,Δ2e(t)=Δe(t)-Δe(t-1)。
在PMLSM速度环中,e(t)为当前时刻给定速度与实时反馈速度之差,e(t-1)为上一时刻给定速度与实时反馈速度之差,e(t-2)为上上时刻给定速度与实时反馈速度之差;Δe(t)为当前时刻速度误差与上一时刻速度误差之差,Δe(t-1)为上一时刻速度误差与上上时刻速度误差之差;
Δ2e(t)=Δe(t)-Δe(t-1) (9)
基于强化学习的自适应PID控制算法的结构图示意图参见图4。图中实线上部分是基于强化学习的自适应参数调节器,由强化学习代理组成,实线下部分由PID控制器和伺服系统作为代理环境交互对象。对于强化代理,策略初始化误差e(t),以生成状态向量,
St=[e(t),Δe(t),Δe2(t)]T (10)
用于表示当前时刻的强化代理系统状态特征,初始状态下根据当前actor在线策略μ和随机OU噪声的随机过程,映射获得一个PID参数a't=[k'p,k’i,k'd]。PID控制器执行a’t,并返回奖励值rt和下一时刻强化代理状态:
St+1=[e(t+1),Δe(t+1),Δe2(t+1)]T (11)。
actor网络将这一状态转换过程(st,at,rt,st+1)存入到存储器M中。在存储器M中随机采样N个转换数据(si,ai,ri,si+1)作为在线网络的一个mini-batch训练数据。待系统完成N步采样后,目标网络Q-和μ-用于计算critic目标网络值
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,分别代表目标权重,γ代表折扣因子。
再通过最小化损失,具体函数采用公式为:
其中,L代表损失函数,N代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。
来更新critic网络。critic输出状态的估计值Q-和最小化损失函数L都是作为评判Actor网络在t时刻决策优劣程度的重要依据,actor网络根据,具体函数为:
其中,▽θμJ代表actor更新网络梯度,N代表更新次数,▽aQ(s,a|θQ)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度。
进行更新。经过多次迭代学习获得合适的强化学习代理,以选择适当的kp,ki,kd并实现PID伺服系统的参数的自动调整。
具体的如图5所示,步骤201、初始化:随机初始化critic动作值函数
Q(st,μ(stμ)|θQ) (2)
和actor动作值函数
μ(stμ) (3)
其权重分别为θQ和θμ,分别对目标网络Q-和μ-的权重和θμ-←θμ进行随机初始化,构建存储器库M,存储当前状态st;其中,θQ和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估;
步骤202、执行动作:采取行动μt,获得奖励rt和下一时刻状态st+1。初始化第一状态s1,基于actor评估网络选择动作,具体计算函数为:
at=[kp,ki,kd]=μ(stμ)+Noise (4)
其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,Noise代表随机OU噪声;
动作at在PID伺服控制器中执行以获得返回rt和下一状态st+1,在存储器M中保存经验(st,at,rt,st+1);
步骤203、进行训练:从存储器M中取出部分随机样本,表示为(si,ai,ri,si+1),然后训练更新目标网络,学习过程可表示为:
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,分别代表目标权重,γ代表折扣因子;
在actor在线策略μ上添加随机OU噪声(μ(stμ)+Noise),增加对未知区域的探索,以避免强化代理陷入局部最优;
步骤204、根据最小损失函数更新critic网络:具体函数为:
其中,L代表损失函数,N代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估;
步骤205、根据策略梯度更新actor网络,具体计算函数为:
其中,▽θμJ代表actor更新网络梯度,N代表更新次数,▽aQ(s,a|θQ)代表critic在线网络对μ策略的评估梯度,▽θμμ(s|θμ)代表actor在线网络策略梯度;
步骤206、更新目标网络,即权重更新,critic网络权重更新:actor网络权重更新:
最后,经过步骤3、学习结束,经过多次的权重迭代更新,获得最优的强化学习代理,找到以选择适当的kp,ki,kd并实现PID伺服系统的参数的自动调整。
为实现上述目的,如图6所示,本发明还提供一种控制永磁同步直线电机的系统,所述的系统包括:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
较佳地,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现PID参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
本发明还提出一种控制永磁同步直线电机的平台,如图7所示,包括:
处理器、存储器以及控制永磁同步直线电机平台控制程序;
其中在所述处理器执行所述控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序被存储在所述存储器中,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤,例如:
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
步骤具体细节已在上文阐述,此处不再赘述;
本发明实施例中,所述的控制永磁同步直线电机的平台内置处理器,可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processingunit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器利用各种接口和线路连接取各个部件,通过运行或执行存储在存储器内的程序或者单元,以及调用存储在存储器内的数据,以执行竞价调控的各种功能和处理数据;
存储器用于存储程序代码和各种数据,安装在控制永磁同步直线电机的平台中,并在运行过程中实现高速、自动地完成程序或数据的存取。
所述存储器包括只读存储器(Read-Only Memory,ROM),随机存储器(RandomAccess Memory,RAM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本发明还提出一种计算机可读取存储介质,如图8所示,所述计算机可读取存储介质存储有控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序,实现所述的控制永磁同步直线电机的方法步骤,例如,
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
步骤具体细节已在上文阐述,此处不再赘述;
在本发明的实施方式的描述中,需要说明的是,流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读取介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读取介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
通过本发明的步骤、系统、平台及存储介质,可以将深度强化学习算法所具有的并行性、自适应、自学习等能力结合PID控制应用于PMLSM伺服控制中,作为速度环节的控制器,达到精确和稳定的控制,克服推力波动使控制系统具有高速稳定,鲁棒性好等性能品质,能够对PMLSM进行快速准确控制。
更具体地,还包括如下有益效果:
(1)、本发明设计了一个强化学习代理来自动控制速度参数伺服系统的方法。代理在DDPG算法的基础上建立行动网络和评论功能。actor网络实现了策略的最佳近似,critic网络实现了价值函数的最优逼近,采用记忆回放,参数冻结和噪声动态调整等策略,提高了神经网络的收敛速度。
(2)、利用DPG与DQN相结合,包含了深度Q网络的取记忆学习,反向传播,梯度更新,自动探索学习等,解决强化学习代理更新的问题。
(3)、为了避免确定性策略陷入局部最优化学习的问题,μ策略中加入随机OU噪声,使动作探索更广泛和高效。
(4)、建立多个神经网络,包括actor网络和critic网络,actor网络和critic网络分别包含各自的估计和现实网络,利用critic网络指导actor网络,actor网络利用梯度策略不断地修改更新,最终网络快速收敛并选择出最优状态值,输出最优强化代理。
(5)、当直线电机运行到指定位置时,actor网络从记忆库中取出部分记忆,获得伺服系统的调整参数,采用相同的强化学习智能结构,提高控制精度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种控制永磁同步直线电机的方法,其特征在于,所述的方法具体包括如下步骤:
建立永磁直线电机数学模型;
通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
2.根据权利要求1所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
通过actor-critic网络构建强化学习代理的框架;
以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现PID参数自动调整;
具体地,PID控制器由以下方程设计:
其中,u(t)表示控制器t时刻输出信号,u(t-1)表示控制器t-1时刻输出信号,Δu(t)表示控制器输出增量,ki,kp,kd分别表示比例、积分、微分系数,e(t)表示给定值与实际输出反馈值之差,e(t-1)表示上一时刻给定值与实际输出反馈值之差,e(t-2)表示上上时刻给定值与实际输出反馈值之差,Δe(t)表示当前时刻误差与上一时刻误差之差,Δe(t-1)表示上一时刻误差与上上时刻误差之差,Δ2e(t)=Δe(t)-Δe(t-1)。
3.根据权利要求2所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过actor-critic网络构建强化学习代理的框架中;
critic的动作值函数具体为:
Q(st,μ(stμ)|θQ) (2)
actor的动作值函数具体为:
μ(stμ) (3)
其中,θQ和θμ分别表示critic在线网络和actor在线网络的权重,st表示存储当前状态,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。
4.根据权利要求2所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过actor-critic网络构建强化学习代理的框架中;
actor评估网络选择动作采用的函数为:
at=[kp,ki,kd]=μ(stμ)+Noise (4)
其中,at代表t时刻代理执行的动作即t时刻ki,kp,kd的值,ki,kp,kd分别表示比例、积分、微分系数,μ表示actor在线网络策略,st表示存储当前状态,θμ代表actor在线网络的权重,Noise代表随机OU噪声。
5.根据权利要求1所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制中,还包括如下步骤:
从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体的学习过程函数为:
其中,yi代表目标网络,ri代表在i学习过程中的回报值,si+1代表i+1时刻存储状态,分别代表目标权重,γ代表折扣因子。
6.根据权利要求5所述的一种控制永磁同步直线电机的方法,其特征在于,于步骤从存储器中取出部分随机样本,进而进行训练更新目标网络中,还包括如下步骤:
根据最小损失函数更新critic网络;
具体函数采用公式为:
其中,L代表损失函数,N代表更新次数,yi代表目标网络,si,ai分别代表第i时刻的存储状态与输出动作,μ表示actor在线网络策略,Q表示critic在线网络对μ策略的评估。
根据策略梯度更新actor网络;
具体函数采用公式为:
其中,代表actor更新网络梯度,N代表更新次数,▽aQ(s,a|θQ)代表critic在线网络对μ策略的评估梯度,代表actor在线网络策略梯度。
根据更新后的critic网络和actor网络,更新目标网络。
7.一种控制永磁同步直线电机的系统,其特征在于,所述的系统具体包括:
模型建立单元,用于建立永磁直线电机数学模型;
自适应控制单元,用于通过深度确定性策略梯度方法对永磁同步直线电机的速度环进行自适应控制;
自动调整单元,用于获得最优的强化学习代理,实现PID伺服系统的参数的自动调整。
8.根据权利要求7所述的一种控制永磁同步直线电机的系统,其特征在于,所述的自动调整单元,还包括如下功能模块:
网络构建模块,用于通过actor-critic网络构建强化学习代理的框架;
跟踪模块,用于以PID速度伺服系统为环境对象,获取激励函数的跟踪误差曲线;
实现模块,用于实现PID参数自动调整;
第一更新模块,用于从存储器中取出部分随机样本,进而进行训练更新目标网络;
具体地,第一更新模块中还包括:
第二更新模块,用于根据最小损失函数更新critic网络;
第三更新模块,用于根据策略梯度更新actor网络;
第四更新模块,用于根据更新后的critic网络和actor网络,更新目标网络。
9.一种控制永磁同步直线电机的平台,其特征在于,包括:
处理器、存储器以及控制永磁同步直线电机平台控制程序;
其中在所述处理器执行所述控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序被存储在所述存储器中,所述的控制永磁同步直线电机平台控制程序,实现如权利要求1至6中任一项所述的控制永磁同步直线电机的方法步骤。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有控制永磁同步直线电机平台控制程序,所述控制永磁同步直线电机平台控制程序,实现如权利要求1至6中任一项所述的控制永磁同步直线电机的方法步骤。
CN201910399548.0A 2019-05-14 2019-05-14 一种控制永磁同步直线电机的方法及系统 Pending CN110323981A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910399548.0A CN110323981A (zh) 2019-05-14 2019-05-14 一种控制永磁同步直线电机的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910399548.0A CN110323981A (zh) 2019-05-14 2019-05-14 一种控制永磁同步直线电机的方法及系统

Publications (1)

Publication Number Publication Date
CN110323981A true CN110323981A (zh) 2019-10-11

Family

ID=68119080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910399548.0A Pending CN110323981A (zh) 2019-05-14 2019-05-14 一种控制永磁同步直线电机的方法及系统

Country Status (1)

Country Link
CN (1) CN110323981A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008708A (zh) * 2019-12-23 2020-04-14 广东电网有限责任公司 一种准比例谐振控制器参数调整方法及系统
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN112597693A (zh) * 2020-11-19 2021-04-02 沈阳航盛科技有限责任公司 一种基于深度确定性策略梯度的自适应控制方法
CN112947627A (zh) * 2021-02-24 2021-06-11 金陵科技学院 一种基于ddpg-模糊pid的温度控制方法
CN113050430A (zh) * 2021-03-29 2021-06-29 浙江大学 一种基于鲁棒强化学习的排水系统控制方法
CN113919217A (zh) * 2021-10-08 2022-01-11 南开大学 自抗扰控制器自适应参数整定方法及装置
CN114089633A (zh) * 2021-11-19 2022-02-25 江苏科技大学 一种水下机器人多电机耦合驱动控制装置及方法
CN114268259A (zh) * 2021-12-28 2022-04-01 郑州大学 用于永磁同步电机的多目标控制方法、控制器及控制系统
CN114313252A (zh) * 2021-12-16 2022-04-12 广州极飞科技股份有限公司 一种无人设备控制方法及装置
CN114744946A (zh) * 2022-05-18 2022-07-12 江南大学 基于宽度学习干扰观测器的永磁同步电机控制方法及系统
CN115356919A (zh) * 2022-10-19 2022-11-18 吉林省百皓科技有限公司 一种二氧化氯消毒机pid控制器自适应调整方法
CN115411991A (zh) * 2022-10-09 2022-11-29 哈尔滨工业大学 同步磁阻电机驱动器的逆变器非线性自学习方法
CN117539145A (zh) * 2024-01-10 2024-02-09 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429551A (zh) * 2016-01-18 2016-03-23 华东交通大学 一种伺服系统电流环控制参数自整定方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105429551A (zh) * 2016-01-18 2016-03-23 华东交通大学 一种伺服系统电流环控制参数自整定方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENGZHAN CHEN、ZHIQIANG HE、CHUANXI CHEN等: "Control Strategy of Speed Servo Systems Based on Deep Reinforcement Learning", 《ALGORITHMS》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111008708A (zh) * 2019-12-23 2020-04-14 广东电网有限责任公司 一种准比例谐振控制器参数调整方法及系统
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN111708378B (zh) * 2020-06-22 2023-01-03 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN112597693A (zh) * 2020-11-19 2021-04-02 沈阳航盛科技有限责任公司 一种基于深度确定性策略梯度的自适应控制方法
CN112947627A (zh) * 2021-02-24 2021-06-11 金陵科技学院 一种基于ddpg-模糊pid的温度控制方法
CN112947627B (zh) * 2021-02-24 2021-11-23 金陵科技学院 一种基于ddpg-模糊pid的温度控制方法
CN113050430A (zh) * 2021-03-29 2021-06-29 浙江大学 一种基于鲁棒强化学习的排水系统控制方法
CN113919217A (zh) * 2021-10-08 2022-01-11 南开大学 自抗扰控制器自适应参数整定方法及装置
CN113919217B (zh) * 2021-10-08 2024-05-17 南开大学 自抗扰控制器自适应参数整定方法及装置
CN114089633A (zh) * 2021-11-19 2022-02-25 江苏科技大学 一种水下机器人多电机耦合驱动控制装置及方法
CN114089633B (zh) * 2021-11-19 2024-04-26 江苏科技大学 一种水下机器人多电机耦合驱动控制装置及方法
CN114313252A (zh) * 2021-12-16 2022-04-12 广州极飞科技股份有限公司 一种无人设备控制方法及装置
CN114268259A (zh) * 2021-12-28 2022-04-01 郑州大学 用于永磁同步电机的多目标控制方法、控制器及控制系统
CN114744946A (zh) * 2022-05-18 2022-07-12 江南大学 基于宽度学习干扰观测器的永磁同步电机控制方法及系统
CN114744946B (zh) * 2022-05-18 2023-06-06 江南大学 基于宽度学习干扰观测器的永磁同步电机控制方法及系统
CN115411991A (zh) * 2022-10-09 2022-11-29 哈尔滨工业大学 同步磁阻电机驱动器的逆变器非线性自学习方法
CN115356919B (zh) * 2022-10-19 2023-01-24 吉林省百皓科技有限公司 一种二氧化氯消毒机pid控制器自适应调整方法
CN115356919A (zh) * 2022-10-19 2022-11-18 吉林省百皓科技有限公司 一种二氧化氯消毒机pid控制器自适应调整方法
CN117539145A (zh) * 2024-01-10 2024-02-09 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法
CN117539145B (zh) * 2024-01-10 2024-04-02 北京理工大学 一种基于深度强化学习的稳定平台伺服控制方法

Similar Documents

Publication Publication Date Title
CN110323981A (zh) 一种控制永磁同步直线电机的方法及系统
Zeng et al. A survey on visual navigation for artificial agents with deep reinforcement learning
CN114185264B (zh) 一种基于物理信息神经网络的pid控制器参数整定方法
Lucarelli et al. A deep reinforcement learning approach for automated cryptocurrency trading
EP4085392A1 (en) Multi-objective reinforcement learning using objective-specific action-value functions
US11650551B2 (en) System and method for policy optimization using quasi-Newton trust region method
KR20210118182A (ko) 이중 액터 크리틱 알고리즘을 통한 강화 학습
CN112077839B (zh) 一种机械臂的运动控制方法及装置
KR20220137732A (ko) 적응형 리턴 계산 방식을 사용한 강화 학습
CN109885077A (zh) 一种四旋翼飞行器姿态控制方法及控制器
Zhang et al. Modified grey wolf optimizer-based support vector regression for ship maneuvering identification with full-scale trial
CN111682972A (zh) 更新业务预测模型的方法及装置
Luo et al. Balance between efficient and effective learning: Dense2sparse reward shaping for robot manipulation with environment uncertainty
Arshad et al. Deep Deterministic Policy Gradient to Regulate Feedback Control Systems Using Reinforcement Learning.
Kovalev et al. Incremental structure-evolving intelligent systems with advanced interpretational properties
CN116610218A (zh) Ai数字人的交互方法、装置及系统
CN114282440B (zh) 一种抽水蓄能机组调节系统鲁棒辨识方法
Liu et al. Forward-looking imaginative planning framework combined with prioritized-replay double DQN
Wang et al. Tracking moving target for 6 degree-of-freedom robot manipulator with adaptive visual servoing based on deep reinforcement learning PID controller
CN113485803B (zh) 具有时延约束任务流场景下的自适应封装与协同推理方法
Reinhart Reservoir computing with output feedback
CN1047671C (zh) 一种控制被控对象的预测控制方法及使用该方法的系统
Karachalios et al. Parameter Refinement of a Ballbot and Predictive Control for Reference Tracking with Linear Parameter-Varying Embedding
Bekcheva Flatness-based constrained control and model-free control applications to quadrotors and cloud computing
Gao et al. Research on USV Path Planning Method Based on Improved Option-Critical Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191011

RJ01 Rejection of invention patent application after publication