CN110376965B - 机器学习装置、控制装置以及机器学习方法 - Google Patents

机器学习装置、控制装置以及机器学习方法 Download PDF

Info

Publication number
CN110376965B
CN110376965B CN201910285449.XA CN201910285449A CN110376965B CN 110376965 B CN110376965 B CN 110376965B CN 201910285449 A CN201910285449 A CN 201910285449A CN 110376965 B CN110376965 B CN 110376965B
Authority
CN
China
Prior art keywords
machine learning
correction
control device
feedback loop
servo control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910285449.XA
Other languages
English (en)
Other versions
CN110376965A (zh
Inventor
筱田翔吾
恒木亮太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Publication of CN110376965A publication Critical patent/CN110376965A/zh
Application granted granted Critical
Publication of CN110376965B publication Critical patent/CN110376965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety
    • G05B19/4063Monitoring general control system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/408Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by data handling or data format, e.g. reading, buffering or conversion of data
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33056Reinforcement learning, agent acts, receives reward, emotion, action selective
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34082Learning, online reinforcement learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42063Position and speed and current and force, moment, torque
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42128Servo characteristics, drive parameters, during test move
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42152Learn, self, auto tuning, calibrating, environment adaptation, repetition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Numerical Control (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供机器学习装置、控制装置以及机器学习方法。在机床、机器人或工业机械等的动作不稳定时,机器学习装置不会对使动作不稳定的校正量进行机器学习。针对具有至少一个反馈环、生成施加给反馈环的校正量的校正生成部、以及检测所述伺服电动机的异常动作的异常检测部的伺服控制装置,进行校正生成部的校正量的最佳化有关的机器学习,所述伺服控制装置对驱动机床、机器人或工业机械的轴的伺服电动机进行控制,在机器学习动作过程中,当异常检测部检测出异常时,停止来自校正生成部的校正,继续所述校正生成部生成的校正量的最佳化。

Description

机器学习装置、控制装置以及机器学习方法
技术领域
本发明涉及对具有至少一个反馈环和生成施加给反馈环的校正的校正生成部的伺服控制装置进行校正生成部的校正量的最佳化有关的机器学习的机器学习装置、包含该机器学习装置的控制装置以及机器学习方法。
背景技术
例如专利文献1中记载了具有反馈环并对反馈环施加校正的伺服控制装置。
专利文献1公开了如下数值控制装置:能够减少在学习控制有关的位置偏差收敛之前的加工造成的工件浪费,并能够自动进行校正数据的存储和实际加工。具体来说,数值控制装置具有:学习控制单元,其具有生成位置偏差的位置反馈环,制作并存储基于同一动作模式中位置偏差的校正数据,根据校正数据来校正执行同一动作模式时的位置偏差。该数值控制装置使工具与工件从程序所指令的位置向不产生干扰的位置移位,自动重复同一动作模式的空运转直到指定次数或位置偏差为指定值以下为止,来制作校正数据,在制作校正数据之后,自动存储校正数据并且取消所述移位使工具与工件返回到产生干扰的所指令的位置,根据制作出的校正数据来校正位置偏差而执行同一动作模式来进行加工。
现有技术文献
专利文献1:日本特开平2006-215732号公报
在具有反馈环并根据位置偏差等生成施加给反馈环的校正的伺服控制装置中,存在如下情况:当生成的校正量不处于适当的范围、位置偏差增大时,由伺服控制装置驱动的机床、机器人、或工业机械的动作会不稳定,因警报使得机床等停止、结束。
例如,在并非空运转,而是一边使机床实际动作一边学习校正量的情况下,若该校正量不处于适当的范围,会在电动机或机械末端产生振动而无法进行有效的学习,此外,可能因警报使机床等停止、结束而导致学习中断。
在这一点上,专利文献1所记载的学习控制重复空运转,生成校正数据,因此,在空运转的学习控制过程中,不会在电动机或机械末端产生振动而无法进行有效的学习,还不会因警报使机床等停止、结束而导致学习中断。
另一方面,在使用后述的高次传递函数生成施加给反馈环的校正时,想到了机器学习装置一边使机床实际动作一边通过机器学习来求出该传递函数的系数这样的方法。
作为这样的学习方法的一例,想到了基于强化学习的传递函数系数的机器学习。强化学习是所谓的无监督学习,即,智能体观测环境状态,当选择某个行为时,根据该行为环境发生变化,随着环境的变化,提供某种回报,智能体学习更好的行为选择(决策)。通过这样的强化学习对传递函数系数进行机器学习,在环境状态是位置偏差的情况下,例如在选择该位置偏差增大这样的系数时,可能在电动机或机械末端产生振动而无法进行有效的机器学习,此外,因警报使机床等停止、结束而导致机器学习中断。因此,寻求一种机器学习装置、包含该机器学习装置的控制装置、以及机器学习方法,使得在机器学习装置一边使机床实际动作一边对校正量进行机器学习时,假使选择了不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效的学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
发明内容
本发明的目的在于提供一种机器学习装置、包含该机器学习装置的控制装置、以及机器学习方法,在具有至少一个反馈环、生成施加给反馈环的校正的校正生成部的伺服控制装置中,其应用于在一边使机床、机器人或工业机械等实际动作,一边对校正生成部中的校正量的计算式进行机器学习的情况,在机器学习过程中,假使计算出不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效的学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
(1)本发明涉及的机器学习装置,其针对具有至少一个反馈环、生成施加给该反馈环的校正量的校正生成部(例如,后述的位置前馈处理部116、速度前馈处理部113、或校正生成部110、122)、以及检测伺服电动机的异常动作的异常检测部(例如,后述的异常检测部109、124)的伺服控制装置(例如,后述的伺服控制装置100、100A、100B或100C),进行所述校正生成部的校正量的最佳化有关的机器学习,所述伺服控制装置对驱动机床、机器人或工业机械的轴的所述伺服电动机(例如,后述的伺服电动机106)进行控制,其中,
在机器学习动作过程中,在所述伺服控制装置中当所述异常检测部检测出异常时停止来自所述校正生成部的校正,在所述机器学习装置中继续所述校正生成部生成的校正量的最佳化。
(2)在上述(1)的机器学习装置中,也可以是,所述伺服控制装置具有在所述反馈环与所述校正生成部内或所述校正生成部的后级之间设置的开关(例如,后述的开关105、114、126、128、130、132),在所述异常检测部检测出异常动作时,断开所述开关,并向所述机器学习装置通知停止对所述反馈环的校正,
所述机器学习装置接收到停止对所述反馈环的校正的通知时,使学习反映所述校正量。
(3)在上述(1)或(2)的机器学习装置中,也可以是,作为所述机器学习而进行强化学习,
在从所述异常检测部接收到停止校正通知时,给予不选择进行异常动作的所述校正量那样的回报。
(4)在上述(3)的机器学习装置中,也可以是,根据所述回报来更新价值函数,并根据更新后的价值函数生成最佳的所述校正量或校正参数的调整信息,输出给所述校正生成部。
(5)在上述(1)~(4)中任一项的机器学习装置中,也可以是,所述异常检测部在位置偏差、转矩指令、或该两者为预先设定的阈值以上时检测为异常。
(6)在上述(1)~(5)中任一项的机器学习装置中,也可以是,所述伺服控制装置还具有:报知部(例如,后述的报知部117、125),其在所述异常检测部检测出异常时,报知异常的检测。
(7)在上述(2)~(6)中任一项的机器学习装置中,也可以是,所述伺服控制装置具有设置于所述开关的后级的低通滤波器(例如,后述的低通滤波器127、129、131或133),在所述开关进行切换时通过所述低通滤波器。
(8)在上述(2)~(6)中任一项的机器学习装置中,也可以是,所述反馈环具有:速度控制部(例如,后述的速度控制部104),其具有对速度偏差进行积分的积分器(例如,后述的积分器1041),
在所述开关进行切换时进行所述积分器的重写。
(9)在上述(1)~(8)中任一项的机器学习装置中,也可以是,至少一个反馈环包含位置反馈环和速度反馈环中的至少一个,所述校正生成部包含对所述位置反馈环施加位置前馈项的位置前馈处理部(例如,后述的位置前馈处理部116)和对所述速度反馈环施加速度前馈项的速度前馈处理部(例如,后述的速度前馈处理部113)中的至少一个。
(10)在上述(1)~(8)中任一项的机器学习装置中,也可以是,至少一个反馈环是位置反馈环,所述校正生成部生成所述伺服电动机反转时的校正。
(11)本发明涉及的控制装置,其具有:上述(1)~(10)中任一项的机器学习装置(例如,后述的机器学习装置200);以及
伺服控制装置(例如,后述的伺服控制装置100、100A、100B或100C),其对驱动机床、机器人或工业机械的轴的伺服电动机(例如,后述的伺服电动机106)进行控制,该伺服控制装置具有至少一个反馈环、生成施加给该反馈环的校正的校正生成部(例如,后述的位置前馈处理部116、速度前馈处理部113、或校正生成部110、122)、以及检测所述伺服电动机的异常动作的异常检测部(例如,后述的异常检测部109、124)。
(12)在上述(11)的控制装置中,也可以是,所述机器学习装置包含于所述伺服控制装置中。
(13)本发明涉及的机器学习方法,是对生成施加给至少一个反馈环的校正、并检测伺服电动机的异常动作的伺服控制装置(例如,后述的伺服控制装置100、100A、100B或100C),进行施加给所述至少一个反馈环的校正量的最佳化有关的机器学习装置(例如,后述的机器学习装置)200的机器学习方法,所述伺服控制装置对驱动机床、机器人或工业机械的轴的所述伺服电动机(例如,后述的伺服电动机106)进行控制,其中,
在机器学习动作过程中,当所述伺服控制装置检测出异常时停止施加给至少一个反馈环的校正,所述机器学习装置继续所述校正量的最佳化。
发明效果
根据本发明,在具有至少一个反馈环、生成施加给反馈环的校正的校正生成部的伺服控制装置中,在一边使机床、机器人或工业机械等实际动作一边对所述校正生成部进行机器学习时,在机器学习过程中假使计算出不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效的学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
附图说明
图1是表示本发明的第一实施方式的控制装置的一结构例的框图。
图2是表示第一实施方式的校正生成部的一结构例的框图。
图3是用于对加工形状是八边形时的电动机的动作进行说明的图。
图4是用于对加工形状是八边形的角每隔一个置换为圆弧的形状时的电动机的动作进行说明的图。
图5是表示本发明的第一实施方式的机器学习装置的框图。
图6是表示第一实施方式中的机器学习装置的动作的流程图。
图7是表示本发明的第二实施方式的控制装置的一结构例的框图。
图8是表示本发明的第三实施方式的控制装置的一结构例的框图。
图9是表示本发明的第四实施方式的控制装置的一结构例的框图。
图10是表示成为本发明的第五实施方式的伺服控制装置的速度前馈处理部后级结构的一部分的框图。
图11是表示成为本发明的第五实施方式的伺服控制装置的位置前馈处理部后级结构的一部分的框图。
图12是表示有无滤波器导致的位置前馈(位置FF)处理或速度前馈(速度FF)处理涉及的校正量变化的特性图。
图13是表示成为本发明的第五实施方式的其他结构的伺服控制装置的二次微分器后级结构的一部分的框图。
图14是表示成为本发明的第五实施方式的其他结构的伺服控制装置的微分器后级结构的一部分的框图。
图15是表示其他结构的伺服控制装置中有无滤波器导致的位置前馈(位置FF)处理或速度前馈(速度FF)处理涉及的校正量变化的特性图。
图16是表示成为本发明的第六实施方式的伺服控制装置的速度控制部结构的框图。
图17是表示是否进行积分器的重写涉及的转矩指令变化的特性图。
图18是表示本发明的其他实施方式的控制装置的框图。
符号说明
10、10A~10D 控制装置
100、100A~100C 伺服控制装置
101 减法器
102 位置控制部
103 加法减法器
104 速度控制部
111 加法器
106 电动机
107 积分器
108 位置检测处理部
109、124 异常检测部
112 二次微分器
113 速度前馈处理部
114、105、123 开关
115 微分器
116 位置前馈处理部
117、125 报知部
121 反转检测部
122 校正生成部
200 机器学习装置
201 状态信息取得部
202 学习部
203 行为信息输出部
204 价值函数存储部
205 最佳化行为信息输出部
300 网络
具体实施方式
以下,使用附图对本发明的实施方式进行详细说明。
(第一实施方式)
图1是表示本发明的第一实施方式的控制装置的一结构例的框图。图1所示的控制装置10具有伺服控制装置100和机器学习装置200。伺服控制装置100与数值控制装置(CNC装置)400连接。
首先,对伺服控制装置100进行说明。
伺服控制装置100具有:减法器101、位置控制部102、加法减法器103、速度控制部104、开关105、伺服电动机106、积分器107、位置检测处理部108、异常检测部109、校正生成部110、以及报知部117。
数值控制装置400根据使伺服电动机106动作的程序来制作位置指令值。在机床中,在搭载被加工物(工件)的工作台在X轴方向和Y轴方向上移动时,对X轴方向和Y轴方向分别设置图1所示的伺服控制装置100。在使工作台在三轴以上的方向上移动时,对各轴方向设置伺服控制装置100。
数值控制装置400设定进给速度来制作位置指令,并输出给减法器101、校正生成部110以及机器学习装置200,使得成为加工程序所指定的加工形状。按照输入的程序和命令来制作位置指令。
减法器101从数值控制装置400接收位置指令,求出位置指令与位置反馈的检测位置之差,将该差作为位置偏差输出给位置控制部102、异常检测部109以及机器学习装置200。
位置控制部102将位置增益Kp乘以从减法器101输出的位置偏差而得的值作为速度指令输出给加法减法器103。
加法减法器103将速度指令与从校正生成部110经由开关105输入的校正量相加,进而,求出该加法值与速度反馈的速度检测值之差,将该差作为校正后的速度偏差输出给速度控制部104。
速度控制部104对校正后的速度偏差进行比例积分处理(PI处理),并输出给伺服电动机106。具体来说,速度控制部104通过积分器对校正后的速度偏差进行积分,将积分增益Ki乘以该积分值而得的值、与比例增益Kv乘以校正后的速度偏差而得的值相加,作为转矩指令输出给伺服电动机106来驱动伺服电动机106。
伺服电动机106例如可以包含于机床、机器人、或工业机械等中。伺服控制装置100可以与伺服电动机106一起设置为机床、机器人、或工业机械等的一部分。
通过与伺服电动机106关联起来的、作为位置检测部的旋转编码器,来检测伺服电动机106的旋转角度位置,速度检测值作为速度反馈输入到加法减法器103。从加法减法器103到伺服电动机106构成速度反馈环。
积分器107对速度检测值进行积分并将积分值输出给位置检测处理部108。位置检测处理部108根据积分值求出位置检测值。位置检测值作为位置反馈输入到减法器101。从减法器101到位置检测处理部108构成位置反馈环。
异常检测部109根据从减法器101输出的位置偏差,在位置偏差为阈值以上时,将成为切换信号的异常检测信号输送给开关105,使开关105断开(非导通状态)。之后,异常检测部109对机器学习装置200输送通知停止校正的停止校正通知信号。并且,优选为了进行机器学习而运行的动作程序即学习时的加工程序在保持停止校正的状态下运行,一直运行到结束。假设,加工程序在中途停止时,由于在进行下一动作时从机械停止时的位置开始,因此根据机械的不同需要用于将动作程序恢复到开始位置的处理。另一方面,为了进行机器学习而运行的动作程序基本上包含为了连续运转而恢复到开始位置的动作。因此,为了进行机器学习而运行的动作程序在保持停止校正的状态下运行、结束由此恢复到开始位置,机器学习装置200可以继续下一学习。另外,为了进行机器学习而运行的动作程序在停止校正的情况下,可以在中途停止动作程序,但是该情况下,如上所述,有时需要用于使机械恢复到开始位置的处理。
另外,停止校正通知信号可以不与异常检测信号分开设置,可以使用异常检测信号。机器学习装置200将校正量调整通知信号输送给异常检测部109,所述校正量调整通知信号用于通知将校正生成部110的校正量调整为与检测出异常时的校正量不同的校正量。异常检测部109接收该校正量调整通知信号时,通过机器学习装置200来识别对与产生异常时的校正量不同的新校正量进行了探索、调整,在开始新学习动作时,将切换信号输送给开关105使开关105接通(导通状态)。
这样,在异常检测部109检测出异常而断开开关105时,由于校正量没有输出给加法减法器103,因此伺服控制装置100仅通过位置反馈环与速度反馈环进行动作,动作稳定。
校正生成部110根据位置偏差生成对位置反馈环的校正量,经由开关105输出给加法减法器103。校正量例如是基于位置指令的、位置前馈项或抑制象限突起的校正量。另外,在通过异常检测部109使开关105断开时,由校正生成部110生成的校正量不输出到加法减法器103。
报知部117在通过异常检测部109检测出异常时,通过液晶监视器、LED、或扬声器以显示、点亮或声音的方式向管理员报知异常。报知部117可以是通过网络发送使外部知晓异常的信息的通信部。
图2是表示第一实施方式的校正生成部110的一结构例的框图。这里对校正生成部110具有根据位置指令生成针对速度指令的位置前馈项的位置前馈项生成部进行说明。
如图2所示,位置前馈项生成部具有微分器115和位置前馈处理部116。微分器115对位置指令进行微分而乘以常数β。位置前馈处理部116对微分器115的输出进行由数学式1(以下表示为数学式1)表示的传递函数G(s)所示的位置前馈处理。将该处理结果作为位置前馈项(成为校正量)经由开关105输出给加法减法器103。
数学式1的系数ai、bj(m≥i≥0、n≥j≥0;m、n是自然数)是位置前馈处理部116的传递函数G(s)的各系数。
【数学式1】
Figure BDA0002023123550000091
机器学习装置200探索校正量来进行机器学习。在本实施方式中,作为机器学习的一例对强化学习进行说明,但是机器学习并不特别限定于强化学习。在强化学习中,智能体(相当于本实施方式中的机器学习装置200)观测环境状态,选择某个行为,根据该行为环境发生变化。随着环境的变化,提供某种回报,智能体学习更好的行为选择(决策)。在本实施方式中,例如从减法器101输出的位置偏差为环境状态,智能体选择校正生成部110的校正量作为用于降低位置偏差的行为信息。
这里,以作为上述的校正生成部110而示例的、根据位置指令生成针对速度指令的校正量的位置前馈项有关的机器学习(强化学习)为例,进行说明。
机器学习装置200通过执行预先设定的加工程序(成为“学习时的加工程序”),对位置前馈处理部116的传递函数的系数ai、bj进行机器学习(以下,称为学习)。
这里,由学习时的加工程序指定的加工形状例如是图3所示的八边形、和/或图4所示的八边形的角每隔一个置换为圆弧的形状等。
这里,机器学习装置200是通过由学习时的加工程序指定的加工形状的位置A1与位置A3、和/或位置B1与位置B3,对线性控制中变更了转速时的振动进行评价,调查针对位置偏差的影响,由此,学习传递函数G(s)有关的系数。
另外,机器学习装置200通过加工形状的位置A2与位置A4、和/或位置B2与位置B4,对旋转方向反转时产生的惯性移动(所谓的“象限突起”)进行评价,调查针对位置偏差的影响,由此,可以学习用于计算抑制象限突起的校正量的传递函数有关的系数。
在进行机器学习装置200所包含的各功能块的说明之前,首先对强化学习的基本结构进行说明。如上所述,智能体(相当于本实施方式中的机器学习装置200)观测环境状态,选择某个行为,根据该行为环境发生变化。随着环境的变化,提供某种回报,智能体学习更好的行为选择(决策)。
有监督学习表示完全的正确答案,而很多时候强化学习中的回报是基于环境的部分变化的片段值。因此,智能体学习选择行为使得到将来的回报合计为最大。
这样,在强化学习中通过学习行为,在行为给予环境的相互作用基础上学习适当的行为,即学习用于使将来获得的回报为最大的行为。这表示在本实施方式中,例如可以获得选择用于降低位置偏差的行为信息这样的、对未来造成影响的行为。
这里,强化学习可以使用任意的学习方法,在以下的说明中,以在某种环境状态S下,使用Q学习(Q-learning)的情况为例进行说明,所述Q学习是学习选择行为A的价值Q(S、A)的方法。
Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。
但是,在最初开始Q学习的时间点,对于状态S与行为A的组合来说,完全不知晓价值Q(S、A)的正确值。因此,智能体在某种状态S下选择各种行为A,针对当时的行为A,根据给予的回报,选择更好的行为,由此,继续学习正确的价值Q(S、A)。
此外,智能体想要使将来获得的回报的合计最大化,因此,目标是最终成为Q(S、A)=E[Σ(γt)rt]。这里,E[]表示期待值,t表示时刻、γ表示后述的称为折扣率的参数,rt表示时刻t的回报,Σ是时刻t涉及的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中,由于不知道最佳行为,因此智能体通过进行各种行为,一边探索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学式2(以下表示为数学式1)来表示。
【数学式2】
Figure BDA0002023123550000111
在上述的数学式2中,St表示时刻t的环境状态,At表示时刻t的行为。通过行为At,状态变化为St+1。rt+1表示通过该状态的变化而得到的回报。此外,带有max的项是:在状态St+1下,将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里,γ是0<γ≤1的参数,称为折扣率。此外,α是学习系数,设α的范围为0<α≤1。
上述的数学式2表示如下方法:根据试错At的结果而反馈回来的回报rt+1,更新状态St下的行为At的价值Q(St、At)。
该更新式表示了:若行为At导致的下一状态St+1下的最佳行为的价值maxa Q(St+1、A)比状态St下的行为At的价值Q(St、At)大,则增大Q(St、At),反之如果小,则减小Q(St、At)。也就是说,更新式使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中,尽管行为价值之差因折扣率γ和回报rt+1的存在形式而变化,但更新式是基本上某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。
这里,Q学习存在如下方法:制作针对所有状态行为对(S、A)的Q(S、A)的表格,来进行学习。但是,有时为了求出所有状态行为对的Q(S、A)的值状态数会增多,使得Q学习收敛需要较多的时间。
因此,Q学习可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说,DQN使用适当的神经网络来构成价值函数Q,调整神经网络的参数,由此通过适当的神经网络来近似价值函数Q来计算价值Q(S、A)的值。通过利用DQN,能够缩短Q学习收敛所需的时间。另外,关于DQN,例如在以下的非专利文献中有详细的记载。
<非专利文献>
“Human-level control through deep reinforcement learning”,VolodymyrMnih1著[online],[平成29年1月17日检索],因特网〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
机器学习装置200进行以上说明的Q学习。具体来说,机器学习装置200学习如下内容的价值Q:将指令以及反馈等伺服状态作为状态S,将该状态S有关的位置前馈处理部116的传递函数的各系数ai、bj的值的调整选择为行为A,其中,指令以及反馈包含伺服控制装置100中的位置前馈处理部116的传递函数的各系数ai、bj(m≥i≥0、n≥j≥0;m、n是自然数)的值、和通过执行学习时的加工程序而取得的伺服控制装置100的位置偏差信息、以及位置指令。
机器学习装置200根据位置前馈处理部116的传递函数的各系数ai、bj的值来观测包含指令以及反馈等伺服状态的状态信息S,从而决定行为A,其中,指令以及反馈包含通过执行学习时的加工程序而在上述的加工形状的位置A1与位置A3和/或位置B1与位置B3处的、伺服控制装置100的位置指令以及位置偏差信息。机器学习装置200每当进行行为A时返回回报。机器学习装置200例如试错性地探索最佳的行为A以使到将来的回报合计为最大。通过这样,机器学习装置200能够对包含指令和反馈等伺服状态的状态S选择最佳的行为A(即,位置前馈处理部116的最佳系数ai、bj),其中,指令和反馈包含根据位置前馈处理部116的传递函数的各系数ai、bj的值来执行学习时的加工程序而取得的伺服控制装置100的位置指令以及位置偏差信息。机器学习装置200可以学习线性动作时的位置前馈处理部116的传递函数的各系数ai、bj
即,机器学习装置200根据学习到的价值函数Q,选择应用于某种状态S有关的位置前馈处理部116的传递函数的各系数ai、bj的行为A中的、价值函数Q的值为最大那样的行为A,由此,能够选择通过执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即,位置前馈处理部116的传递函数的系数ai、bj)。
图5是表示第一实施方式的机器学习装置200的框图。
为了进行上述的强化学习,如图5所示,机器学习装置200具有:状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204、以及最佳化行为信息输出部205。学习部202具有:回报输出部2021、价值函数更新部2022、以及行为信息生成部2023。
状态信息取得部201从伺服控制装置100取得包含指令、反馈等伺服状态的状态S,其中,指令、反馈包含伺服控制装置100中的位置前馈处理部116的传递函数的各系数ai、bj、以及根据这些系数执行学习时的加工程序而取得的伺服控制装置100的位置指令和位置偏差信息。此外,状态信息取得部201从异常检测部109取得通知停止校正的停止校正通信信号。该状态信息S相当于Q学习中的环境状态S。
状态信息取得部201对学习部202输出取得的状态信息S。
另外,最初开始Q学习的时间点的位置前馈处理部116的系数ai、bj预先由用户生成。在本实施方式中,机器学习装置200通过强化学习将用户制作出的位置前馈处理部116的系数ai、bj的初始设定值调整为最佳。将微分器115的系数β设为固定值,例如设β=1。此外,位置前馈处理部116的系数ai、bj例如作为初始设定值,设数学式1的a0=1,a1=0,a2=0,…,am=0,b0=1,b1=0,b2=0,…,bn=0。此外,预先设定系数ai、bj的维度(次元)m、n。即,对于ai设0≤i≤m,对于bj设0≤j≤n。
另外,系数ai、bj在操作员预先调整机床时,可以将调整完的值作为初始值。
学习部202是在某种环境状态S下,学习选择某种行为A时的价值Q(S、A)的部分。此外,学习部202在从异常检测部109接收停止校正通知信号时,可以将状态S下的位置前馈处理部116的系数ai、bj作为伺服电动机106进行异常动作的校正参数反映到学习中。此时,关于执行用于学习该状态S的加工程序,如上所述,在保持停止校正的状态下,一直运行到加工程序结束。此时,加工程序仅在位置反馈环和速度反馈环中进行动作。之后,学习部202重新探索与产生异常时的位置前馈处理部116的系数ai、bj不同的、用于下一学习的系数,设定给位置前馈处理部116,并且将表示设定了位置前馈处理部116的系数的系数设定通知信号输送给异常检测部109。
回报输出部2021是在某种状态S下计算选择了行为A时的回报的部分。这里,状态S下的状态变量即位置偏差的集合(位置偏差集合)通过PD(S)来表示,因行为信息A而从状态S变化了的状态信息S’有关的状态变量即位置偏差集合通过PD(S’)来表示。此外,状态S下的位置偏差的评价函数值设为根据预先设定的评价函数f(PD(S))而计算的值。行为信息A是位置前馈处理部116的各系数ai、bj(i、j表示0和正整数)的修正。
这里,所谓状态S下的状态变量即位置偏差的集合表示在包含上述加工形状的位置A1与位置A3、和/或位置B1与位置B3在内的规定范围内测量的位置偏差的集合。
作为评价函数f,例如可以应用如下等函数,其中e表示位置偏差:
计算位置偏差的绝对值的积分值的函数
∫|e|dt
对位置偏差的绝对值进行时间加权来计算积分值的函数
∫t|e|dt
计算位置偏差的绝对值的2n(n是自然数)次幂的积分值的函数
∫e2ndt(n是自然数)
计算位置偏差的绝对值的最大值的函数
Max{|e|}。
此时,在根据通过行为信息A进行了修正的状态信息S’涉及的修正后的位置前馈处理部116而进行了动作的伺服控制装置100的位置偏差的评价函数值f(PD(S’))比根据通过行为信息A进行修正前的状态信息S涉及的修正前的位置前馈处理部116而进行了动作的伺服控制装置100的位置偏差的评价函数值f(PD(S))大时,回报输出部2021使回报值为负值。
另外,回报输出部2021在接收到来自异常检测部109的停止校正通知信号时,可以将回报值设为绝对值大的负值,使得不选择检查出异常时的位置前馈处理部116的系数ai、bj。通过这样,可以从今后的学习范围实质地排除检查出异常时的位置前馈处理部116的系数ai、bj
另一方面,在位置偏差的评价函数值f(PD(S’))比位置偏差的评价函数值f(PD(S))小时,回报输出部2021使回报值为正值。
另外,在位置偏差的评价函数值f(PD(S’))与位置偏差的评价函数值f(PD(S))相等时,回报输出部2021可以使回报值为零。
此外,执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))大时的负值,可以根据比例设定得大。也就是说,可以根据位置偏差的值变大的程度使负值变大。反之,执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))小时的正值,可以根据比例设定得大。也就是说,可以根据位置偏差的值变小的程度使正值变大。
价值函数更新部2022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报的值来进行Q学习,由此,对价值函数存储部204存储的价值函数Q进行更新。
价值函数Q的更新既可以通过在线学习来进行,也可以通过批量学习来进行,还可以通过小批量学习来进行。
在线学习是如下学习方法:通过将某种行为A应用于当前状态S,每当状态S向新状态S’转移时,立即进行价值函数Q的更新。此外,批量学习是如下学习方法:通过重复将某种行为A应用于当前状态S,状态S向新状态S’转移,由此收集学习用的数据,使用收集到的所有学习用数据,来进行价值函数Q的更新。进而,小批量学习是在线学习与批量学习中间的学习方法,是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。
行为信息生成部2023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部2023在Q学习的过程中,为了进行修正伺服控制装置100的位置前馈处理部116的各系数ai、bj的动作(相当于Q学习中的行为A),而生成行为信息A,针对行为信息输出部203输出所生成的行为信息A。更具体来说,行为信息生成部2023例如相对于状态S所包含的位置前馈处理部116的各系数ai、bj,使行为A所包含的位置前馈处理部116的各系数ai、bj加上或者减去增量(例如0.1左右)。
并且,可以采取如下策略:行为信息生成部2023在应用位置前馈处理部116的各系数ai、bj的增加或减少而向状态S’转移并返回了正回报(正值的回报)时,作为下一行为A’,选择针对位置前馈处理部116的各系数ai、bj与前次的动作同样地加上或减去增量等使位置偏差值更小那样的行为A’。
此外,反之还可以采取如下策略:当返回了负回报(负值的回报)时,行为信息生成部2023作为下一行为A’,例如选择针对位置前馈处理部116的各系数ai、bj与前次的动作相反地减去或者加上增量等使位置偏差比前次的值小那样的行为A’。
此外,行为信息生成部2023也可以采取如下策略:通过在当前推定的行为A的价值中选择价值Q(S、A)最高的行为A’的贪婪算法,或者用某个较小的概率ε随机选择行为A’,除此之外选择价值Q(S、A)最高的行为A’的ε贪婪算法这样的众所周知的方法,来选择行为A’。
行为信息输出部203是针对伺服控制装置100发送从学习部202输出的行为信息A的部分。如上所述,伺服控制装置100根据该行为信息,对当前状态S,即当前设定的位置前馈处理部116的各系数ai、bj进行微修正,而向下一状态S’(即,进行了修正的位置前馈处理部116的各系数ai、bj校正)转移。
此外,行为信息生成部2023将系数设定通知信号输送给异常检测部109,其中,所述系数设定通知信号通知将位置前馈处理部116的各系数ai、bj调整为与检测出异常时的系数ai、bj不同的系数ai、bj来设定系数。
价值函数存储部204是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下,称为行为价值表)。存储于价值函数存储部204的价值函数Q通过价值函数更新部2022而被更新。此外,存储于价值函数存储部204的价值函数Q也可以在与其他机器学习装置200之间共享。如果在多个机器学习装置200之间共享价值函数Q,则能够通过各机器学习装置200分散地进行强化学习,因此,能够提升强化学习的效率。
最佳化行为信息输出部205根据价值函数更新部2022进行Q学习而进行了更新的价值函数Q,生成用于使位置前馈处理部116进行价值Q(S、A)为最大的动作的行为信息A(以下,称为“最佳化行为信息”)。
更具体来说,最佳化行为信息输出部205取得价值函数存储部204存储的价值函数Q。如上所述该价值函数Q是通过价值函数更新部2022进行Q学习而被更新的函数。并且,最佳化行为信息输出部205根据价值函数Q,生成行为信息,对伺服控制装置100(位置前馈处理部116)输出所生成的行为信息。该最佳化行为信息与行为信息输出部203在Q学习的过程中输出的行为信息一样,包含对位置前馈处理部116的各系数ai、bj进行修正的信息。
在伺服控制装置100中,根据该行为信息对位置前馈处理部116的各系数ai、bj进行修正。
机器学习装置200通过以上的动作,进行位置前馈处理部116的各系数ai、bj的学习和最佳化,以降低位置偏差的值的方式来进行动作。
像以上那样,通过利用本发明涉及的机器学习装置200,使伺服控制装置100的位置前馈处理部116的校正参数(系数ai、bj)的调整简化。通过校正参数(系数ai、bj)的调整来完成位置前馈处理部116的位置前馈项的调整。
以上,对伺服控制装置100、机器学习装置200所包含的功能块进行了说明。
为了实现这些功能,伺服控制装置100和机器学习装置200分别具有CPU(CentralProcessing Unit,中央处理单元)等运算处理装置。此外,伺服控制装置100和机器学习装置200还分别具有存储应用软件或OS(Operating System,操作系统)等各种控制用程序的HDD(Hard Disk Drive,硬盘驱动器)等辅助存储装置、存储运算处理装置执行程序之后暂时需要的数据的RAM(Random Access Memory,随机存取存储器)等主存储装置。
并且,分别在伺服控制装置100和机器学习装置200中,运算处理装置从辅助存储装置中读入应用软件或OS,一边在主存储装置上展开读入的应用软件或OS,一边进行根据这些应用软件或OS的运算处理。此外,根据该运算结果,来控制各装置具有的各种硬件。由此,实现本实施方式的功能块。也就是说,本实施方式可以通过硬件与软件协作来实现。
关于机器学习装置200,由于伴随机器学习的运算量增多,因此优选利用例如在个人计算机搭载GPU(Graphics Processing Units,图形处理器),称为GPGPU(General-Purpose computing on Graphics Processing Units,通用图形处理器)的技术。在将GPU用于伴随机器学习的运算处理时,使运算处理高速化。并且,为了进行更高速的处理,机器学习装置200可以使用多台搭载了这样的GPU的计算机来构筑计算机集群,通过该计算机集群所包含的多个计算机来进行并列处理。
像以上那样,在本实施方式中,伺服控制装置100具有异常检测部109和开关105,通过来自异常检测部109的切换通知信号,开关105断开,机器学习装置200通过来自异常检测部109的停止校正通知信号,识别检查到了异常。机器学习装置200在识别出检查到了异常时,将状态S下的位置前馈处理部116的系数ai、bj作为伺服电动机106进行异常动作的校正参数而反映到学习中。并且,如上所述,关于执行用于学习该状态S的加工程序,在保持停止校正的状态下,一直运行到动作程序结束,机器学习装置200结束该状态S的学习动作。之后,机器学习装置200重新探索用于下一学习的系数,选择下一行为信息,设定给位置前馈处理部116,并且将表示重新设定了位置前馈处理部116的系数的系数设定通知信号输送给异常检测部109。通过这样,机器学习装置200可以开始基于下一行为的学习动作。像以上那样,本实施方式的机器学习装置在对校正生成部110进行机器学习时,在机器学习过程中,假使选择不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效的学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
接下来,参照图6,对本实施方式的机器学习装置200的动作进行说明。如图6所示,在步骤S21中,机器学习装置200开始学习动作。这里,学习动作表示如下一连串的处理:在状态S下,选择行为A(位置前馈处理部116的系数ai、bj),设定给校正生成部110,执行学习时的加工程序取得所述加工形状的位置A1与位置A3、和/或位置B1与位置B3处的位置偏差的集合(状态S’下的状态变量),计算该位置偏差的评价函数值,并与状态S下的位置偏差的评价函数值进行比较,由此计算回报,更新价值函数存储部204存储的价值函数Q。在以下步骤中,机器学习装置200执行一连串的处理。
并且,在学习动作时,在异常检测部109检查出异常时,机器学习装置200可以将状态S下的行为A(位置前馈处理部116的系数ai、bj)作为伺服电动机106进行异常动作的行为(校正参数)反映到回报中。此时,如上所述,该状态S的学习时的加工程序,在保持了停止校正的状态下,一直运行到加工程序结束。由此,机器学习装置通过探索下一行为生成新的行为,而能够继续机器学习,使得学习不会中断。
在步骤S22中,机器学习装置200判定是否检测出异常动作。在判定为检测出异常动作时(是),向步骤S25转移。在没有检测出异常动作时(否),向步骤S23转移。
在步骤S23中,机器学习装置200判定该学习动作是否结束。在该学习动作结束时(是),向步骤S24转移。在该学习动作没有结束时(否),向步骤S22转移。
在步骤S24中,机器学习装置200探索下一行为,设定新的参数。具体来说,机器学习装置200进行用于调整校正生成部110的校正量(位置前馈项)的校正参数设定(位置前馈处理部116的系数ai、bj的设定)。之后向步骤S28转移。
在步骤S25中,机器学习装置200判定该学习动作是否结束。在该学习动作结束时(是),向步骤S26转移。在该学习动作没有结束时(否),返回步骤S25。
在步骤S26中,机器学习装置200学习产生异常时的校正生成部110的校正量,探索下一行为,将新的校正生成部110的校正量调整设定为与检测出异常时的校正量不同的校正量。
在步骤S27中,机器学习装置200对异常检测部109通知设定为新的校正量。
在步骤S28中,机器学习装置200判断是否结束机器学习,在继续机器学习时(否),返回到步骤S21。在结束机器学习时(是),结束机器学习处理。
(变形例)
在第一实施方式中,校正生成部110具有根据位置指令来生成针对速度指令的校正量的位置前馈项生成部,但是并不限定于此。
例如,校正生成部110可以替换位置前馈项生成部,而具有后述的速度前馈项生成部。该情况下,速度前馈项从速度前馈项生成部经由开关施加给构成速度反馈环的速度控制部104的输出。
此外,校正生成部110也可以生成后述的象限突起的校正量。该情况下,象限突起的校正量经由开关施加给构成速度反馈环的加法减法器103。
像以上那样,根据本实施方式,在具有至少一个反馈环、生成施加给反馈环的校正的校正生成部的伺服控制装置中,在一边使机床、机器人或工业机械等动作,一边对所述校正生成部进行机器学习时,在机器学习过程中,假使计算出不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
(第二实施方式)
在第一实施方式中,校正生成部110具有根据位置指令来生成针对速度指令的校正量的位置前馈项生成部。在第二实施方式中,校正生成部110除了根据位置指令来生成针对速度指令的校正量的位置前馈项生成部之外,还具有根据位置指令来生成针对转矩指令的校正量的速度前馈项生成部。
图7是表示本发明的第二实施方式的控制装置的一结构例的框图。关于第二实施方式的控制装置10A与图1所示的第一实施方式的控制装置10不同的结构,校正生成部110(未图示)除了具有微分器115与位置前馈处理部116的位置前馈项生成部之外,还在于具有二次微分器112、速度前馈处理部113的速度前馈项生成部(未图示),具有开关114,具有加法器111。以下,对第二实施方式的控制装置10A与图1所示的第一实施方式的控制装置10的相同结构部件标注相同符号省略结构和动作的说明。
在第二实施方式中,机器学习装置200对位置前馈处理部116的传递函数的系数以及速度前馈处理部113的传递函数的系数进行机器学习(以下,称为学习)。
在第二实施方式中,机器学习装置200分开进行速度前馈处理部113的传递函数的系数的学习与位置前馈处理部116的传递函数的系数的学习,先于位置前馈处理部116的传递函数的系数的学习来进行处于比位置前馈处理部116靠近内侧(内环)的速度前馈处理部113的传递函数的系数的学习。具体来说,机器学习装置200固定位置前馈处理部116的传递函数的系数,学习速度前馈处理部113的传递函数的系数的最佳值。之后,机器学习装置200将速度前馈处理部113的传递函数的系数固定为通过学习而获得的最佳值,学习位置前馈处理部116的传递函数的系数。
通过这样,机器学习装置200在通过学习而最佳化的速度前馈项的条件下,可以进行位置前馈处理部116的传递函数的系数的最佳化有关的学习,可以抑制位置偏差的变动。
因此,通过先于位置前馈处理部116的传递函数的系数的学习来进行处于比位置前馈处理部116靠近内侧(内环)的速度前馈处理部113的传递函数的系数的学习,可以抑制位置偏差的变动,可以实现高精度化。
<关于速度前馈项生成部>
位置指令值输出到二次微分器112。
二次微分器112对位置指令进行二次微分而乘以常数α,速度前馈处理部113对二次微分器112的输出进行由数学式3(以下表示为数学式3)表示的传递函数F(s)所示的速度前馈处理,将该处理结果作为速度前馈项(成为校正量)经由开关114而输出给加法器111。在因异常检测部109而使开关114断开的情况下,速度前馈项不输出到加法器111。数学式3的系数ci、dj(m≥i≥0、n≥j≥0;m、n是自然数)是速度前馈处理部113的传递函数F(s)的各系数。
【数学式3】
Figure BDA0002023123550000221
加法器111将从速度控制部104输出的转矩指令与从速度前馈处理部113经由开关114输入的速度前馈项相加,作为前馈控制的转矩指令而输出给伺服电动机106来驱动伺服电动机106。
机器学习装置200在先于位置前馈处理部116的传递函数的系数的学习来进行速度前馈处理部113的传递函数的系数的学习时,异常检测部109根据从减法器101输出的位置偏差,在位置偏差为阈值以上的情况下,输送成为切换信号的异常检测信号,使得断开开关114(非导通状态)。从机器学习装置200向异常检测部109输送系数设定通知信号,该系数设定通知信号与第一实施方式一样通知:探索与检测出异常时的系数不同的新系数,调整速度前馈处理部113的传递函数的各系数ci、dj(m≥i≥0、n≥j≥0)的值。异常检测部109在接收该系数设定通知信号时,识别出在机器学习装置200中探索调整了与产生异常时的系数不同的新系数,在接收到系数设定通知信号时或开始新的学习动作时,向开关114输送切换信号使得接通开关114(导通状态)。
异常检测部109检测出异常而断开开关114时,由于速度前馈项不输出给加法器111,因此伺服控制装置100动作稳定。
<机器学习装置200>
机器学习装置200与第一实施方式一样,通过执行预先设定的加工程序(成为“学习时的加工程序”),对速度前馈处理部113的传递函数的系数、以及位置前馈处理部116的传递函数的系数进行机器学习(学习)。在以下的说明中,对速度前馈处理部113的传递函数的系数的学习进行说明,在速度前馈处理部113的传递函数的系数的学习之后,进行第一实施方式所说明的、位置前馈处理部116的传递函数的系数的学习。
机器学习装置200学习如下内容的价值Q:将伺服控制装置100中的、包含速度前馈处理部113的传递函数的各系数ci、dj的值、通过执行学习时的加工程序而取得的伺服控制装置100的位置偏差信息、以及位置指令在内的指令以及反馈等伺服状态作为状态S,将该状态S有关的速度前馈处理部113的传递函数的各系数ci、dj的值的调整选择为行为A。
机器学习装置200根据速度前馈处理部113的传递函数的各系数ci、dj来观测包含指令以及反馈等伺服状态的状态信息S,来决定行为A,其中,指令以及反馈包含通过执行学习时的加工程序而在所述加工形状的位置A1与位置A3和/或位置B1与位置B3处的、伺服控制装置100的位置指令以及位置偏差信息。机器学习装置200每当进行行为A时返回回报。机器学习装置200例如试错性地探索最佳的行为A以使到将来的回报合计为最大。通过这样,机器学习装置200能够根据速度前馈处理部113的传递函数的各系数ci、dj对包含指令、反馈等伺服状态的状态S选择最佳的行为A(即,速度前馈处理部113的最佳系数ci、dj),其中,指令、反馈包含通过执行学习时的加工程序而取得的伺服控制装置100的位置指令以及位置偏差信息。在位置A1与位置A3和位置B1与位置B3处,X轴方向以及Y轴方向的伺服电动机的旋转方向不变,机器学习装置200可以学习线性动作时的速度前馈处理部113的传递函数的各系数ci、dj
即,机器学习装置200根据学习到的价值函数Q,选择对某种状态S有关的速度前馈处理部113的传递函数的各系数ci、dj应用的行为A中的、价值函数Q的值为最大那样的行为A,由此,能够选择通过执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即,速度前馈处理部113的系数ci、dj)。
另外,可以通过将第一实施方式中的位置前馈处理部116改为速度前馈处理部113,并且将位置前馈处理部116的各系数ai、bj改为速度前馈处理部113的传递函数的各系数ci、dj,来说明机器学习装置200具有的状态信息取得部201、(包括回报输出部2021、价值函数更新部2022、行为信息生成部2023)学习部202、行为信息输出部203、价值函数存储部204、以及最佳化行为信息输出部205中的速度前馈处理部113的传递函数的各系数ci、dj有关的处理,因此省略详细说明。
此外,最初开始Q学习的时间点的速度前馈处理部113的系数ci、dj预先由用户生成。在本实施方式中,机器学习装置200通过强化学习将用户制作出的速度前馈处理部113的系数ci、dj的初始设定值调整为最佳。将二次微分器112的系数α设为固定值,例如设α=1。此外,速度前馈处理部113的系数ci、dj例如作为初始设定值,设数学式2的c0=1,c1=0,c2=0,…,cm=0,d0=1,d1=0,d2=0,…,dn=0。此外,预先设定系数ci、dj的维度(次元)m、n。即,对于ci设0≤i≤m,对于dj设0≤j≤n。
此外,系数ci、dj的初始设定值可以应用与位置前馈处理部116的各系数ai、bj的初始设定值相同的值。
同样地,也可以通过将位置前馈处理部116的各系数ai、bj改为速度前馈处理部113的传递函数的各系数ci、dj,来说明伺服控制装置100中的速度前馈处理部113的各系数ci、dj有关的处理。
像以上那样,在第二实施方式中,伺服控制装置100具有:二次微分器112、速度前馈处理部113、以及开关114,通过来自异常检测部109的切换通知信号,使开关114断开,机器学习装置200通过来自异常检测部109的停止校正通知信号,识别检查到了异常。机器学习装置200在识别出检查到了异常时,可以将状态S下的速度前馈处理部113的系数ci、dj作为伺服电动机106进行异常动作的校正参数反映到学习中。此时,如上所述,执行用于学习该状态S的加工程序,在保持停止了校正的状态,一直运行到加工程序结束,由此结束该状态S的学习。通过调整校正参数(系数ci、dj)而完成速度前馈处理部113的速度前馈项的调整。之后,机器学习装置200重新探索用于下一学习的系数,选择下一行为信息,设定给速度前馈处理部113,并且将表示重新设定速度前馈处理部113的系数的系数设定通知信号输送给异常检测部109。通过这样,开始基于下一行为的学习动作。如上所述,本实施方式的机器学习装置,在对校正生成部110进行机器学习时,在机器学习过程中,假使选择不适当的校正量,也不会在电动机或机械末端产生振动而无法进行有效学习,还不会因警报使机床等停止、结束而导致学习中断,而能够继续机器学习。
接下来,对第二实施方式的机器学习装置200的动作进行说明。
可以通过在第一实施方式的图6所示的机器学习装置200的处理流程中,将位置前馈处理部116改为速度前馈处理部113,将位置前馈处理部116的各系数ai、bj改为速度前馈处理部113的传递函数的各系数ci、dj,来说明第二实施方式的机器学习装置200的速度前馈处理部113的传递函数的各系数ci、dj关联的动作,因此省略详细说明。
(变形例)
在第二实施方式中,机器学习装置200先行进行速度前馈处理部113的传递函数的系数的学习,在将速度前馈处理部113的传递函数的系数最佳化之后,进行位置前馈处理部116的传递函数的系数的学习,但是第二实施方式并不限定于此。
例如,机器学习装置200可以同时学习位置前馈处理部116的传递函数的系数以及速度前馈处理部113的传递函数的系数。该情况下,在异常检测部109检测出异常时,同时接通开关114和开关105,机器学习装置200可以同时进行学习。但是,在机器学习装置200同时学习的情况下,两个学习可能相互干扰造成信息处理量增大。
(第三实施方式)
如图1所示,在第一实施方式的控制装置10中,在异常检测部109检测出异常时,通过断开开关105将包括微分器115与位置前馈处理部116的校正生成部110从位置反馈环中分离。
同样地,如图7所示,在第二实施方式的控制装置10A中,异常检测部109在检测出异常时,通过断开开关114将二次微分器112与速度前馈处理部113从速度反馈环中分离,通过断开开关105将微分器115与位置前馈处理部116从位置反馈环中分离。
与之相对地,在第三实施方式的控制装置中构成为:异常检测部109检测出异常时,仅将作为机器学习装置200的学习部分的、校正生成部内的速度前馈处理部113和/或位置前馈处理部116分离。
图8是表示本发明的第三实施方式的控制装置的一结构例的框图。在图8中,对与图7所示的控制装置的各结构部件相同的结构部件标识相同的符号而省略说明。
在本实施方式中,如图8所示,伺服控制装置100B在二次微分器112与速度前馈处理部113之间具有开关118来代替开关114。此外,伺服控制装置100B在微分器115与位置前馈处理部116之间具有开关119来代替开关105。
切换开关118使二次微分器112与速度前馈处理部113或加法器111连接。切换开关119使微分器115与位置前馈处理部116或加法减法器103连接。
异常检测部109检测出异常时,切换开关118和/或开关119,二次微分器112与加法器111连接,微分器115与加法减法器103连接。通过像这样构成,在本实施方式中,只有成为通过机器学习装置200而被学习的部分的、速度前馈处理部113和/或位置前馈处理部116被分离。
因此,异常检测部109检测出异常时,对位置反馈环施加微分器115的输出来实现校正,对速度反馈环施加二次微分器112的输出来实现校正。
本实施方式也可以应用于第一实施方式与第二实施方式的任一个,在应用于第一实施方式的情况下,伺服控制装置在微分器115与位置前馈处理部116之间具有开关119。应用于作为第一实施方式的变形例的、设置速度前馈项生成部的情况时,伺服控制装置在二次微分器112与速度前馈处理部113之间具有开关118。
在将本实施方式应用于第二实施方式的情况下,伺服控制装置具有开关118与开关119。
(变形例)
在本实施方式中,与第二实施方式一样,在机器学习装置200分开进行速度前馈处理部113的传递函数的系数的学习与位置前馈处理部116的传递函数的系数的学习时,机器学习装置200先于位置前馈处理部116的传递函数的系数的学习进行速度前馈处理部113的传递函数的系数的学习。但是,也可以与第二实施方式的变形例一样,机器学习装置200同时学习位置前馈处理部116的传递函数的系数以及速度前馈处理部113的传递函数的系数。
(第四实施方式)
在以上说明的实施方式中,对X轴方向以及Y轴方向的伺服电动机的旋转方向不变的线性动作时相关的机器学习装置200的学习动作时,异常检测部109检测出异常时的处理进行了说明。
但是,本发明并不限定于线性动作时的学习动作,也可以应用于非线性动作的学习动作。例如,像已经说明的那样,已知的是:机床作为非线性动作而在通过由电动机与滚珠丝杠驱动的进给驱动系统进行圆运动时,在进行轴的运动方向反转的象限切换时会产生突起状的轨迹误差(以下,称为“象限突起”)。
在第四实施方式中,对通过机器学习装置200来学习象限突起的校正量的示例进行说明。
图9是表示本发明的第四实施方式的控制装置的一结构例的框图。在图9的控制装置10C中,对与图7所示的控制装置的各结构部件相同的结构部件标注相同的符号并省略说明。
如图9所示,伺服控制装置100C具有:反转检测部121、校正生成部122、开关123、异常检测部124、以及报知部125。伺服控制装置100C不具有:图7所示的、异常检测部109、二次微分器112、速度前馈处理部113、开关114、微分器115、位置前馈处理部116、开关105以及报知部117。
数值控制装置400例如根据图4所示的、八边形的角每隔一个置换为圆弧的形状的加工形状的、学习时的加工程序来制作位置指令。
位置指令被输入到减法器101、反转检测部121、以及机器学习装置200。减法器101求出位置指令与位置反馈的检测位置之差,将该差作为位置偏差输出给位置控制部102以及机器学习装置200。
反转检测部121基于位置指令检测反转部。例如,在图4所示的圆弧的位置B2,使工作台在Y轴方向上移动的电动机的旋转方向反转,而反转检测部121根据位置指令检测到位置B2处的反转。校正生成部122根据反转的检测信号经由开关123将校正量输出给加法减法器103。
异常检测部124根据从速度控制部104输出的转矩指令,在转矩指令为阈值以上时,输送切换信号使开关123断开(非导通状态),停止针对位置反馈环的校正。之后,异常检测部124向机器学习装置200输送停止校正信号,并且关于学习用的加工程序的执行,如上所述,在保持停止了校正的状态下,一直运行到加工程序结束。之后,从机器学习装置200输送校正量调整通知信号,所述校正量调整通知信号通知对于校正生成部122的校正量进行了检索并调整成与检测出异常时的校正量不同的校正量。在异常检测部124接收到该校正量调整通知信号时,识别出已将机器学习装置200产生异常时的校正量调整为新的校正量,在开始新的学习动作时,向开关123输送切换信号使开关123接通(导通状态)。
报知部125在通过异常检测部124检测出异常时,通过液晶监视器、LED、或扬声器以显示、点亮或声音的方式对管理员进行报知。报知部125也可以是通过网络发送使外部知晓异常的信息的通信部。
机器学习装置200为了进行象限突起的校正,使用图4所示的加工形状的位置B2与位置B4处的、成为减法器101的输出的位置偏差来进行学习,调整校正生成部122的校正量。
在异常检测部124检测出异常而断开开关123时,由于校正量没有输出给加法减法器103,因此伺服控制装置100C仅通过位置反馈环与速度反馈环进行动作,由此动作稳定。
在进行象限突起的校正时,也可以使用图3所示的八边形的加工形状的学习时的加工程序。该情况下,例如,在图3所示的位置A2处,使工作台在Y轴方向上移动的电动机的旋转方向反转,在位置A4处,使工作台在X轴方向上移动的电动机的旋转方向反转。机器学习装置200为了进行象限突起的校正,例如使用图3所示的八边形的加工形状的位置A2与位置A4处的、成为减法器101的输出的位置偏差来进行学习,调整校正生成部122的校正量。
(第五实施方式)
在所述的第一实施方式或第二实施方式的控制装置中,在异常检测部109将开关114和/或开关105从接通切换为断开时,在进行切换时分别施加给位置反馈环以及速度反馈环的位置前馈项和/或速度前馈项(成为校正量)不连续地变化。
此外,即使在所述的第三实施方式的控制装置中,在异常检测部109切换开关118和/或开关119时,在进行切换时分别施加给位置反馈环以及速度反馈环的位置前馈项和/或速度前馈项(成为校正量)不连续地变化。
此外,在所述的第四实施方式的控制装置中,在异常检测部124切换开关123时,在进行切换时校正量不连续地变化。
第一实施方式~第四实施方式中产生的不连续的校正量,产生不连续的速度指令和/或不连续的转矩指令。
在本实施方式中,为了防止校正量的不连续而设置低通滤波器。以下,对在第一实施方式~第四实施方式中应用本实施方式的结构的情况进行说明。
在将本实施方式的结构应用于第一实施方式或第二实施方式的控制装置的情况下,为了防止校正量的不连续,分别在速度前馈处理部113和/或位置前馈处理部116的后级设置低通滤波器。通过使校正量通过低通滤波器,可以缓缓地跟随不连续的值。
图10是表示成为本发明的第五实施方式的伺服控制装置的速度前馈处理部113的后级的结构的一部分的框图。图11是表示成为本发明的第五实施方式的伺服控制装置的位置前馈处理部116的后级的结构的一部分的框图。
如图10所示,开关126代替开关114而与速度前馈处理部113连接。开关126接收到来自异常检测部109的异常检测信号时,从将速度前馈处理部113与加法器111直接连接的状态,切换为将速度前馈处理部113经由低通滤波器127与加法器111连接的状态,在保持该状态一定时间之后,切换为未连接。一定时间可以通过校正量充分收敛的时间或低通滤波器127的时间常数来决定。
此外,如图11所示,开关128代替开关105而与位置前馈处理部116连接。开关128接收到来自异常检测部109的异常检测信号时,从将位置前馈处理部116与加法减法器103直接连接的状态,切换为将位置前馈处理部116经由低通滤波器129而与加法减法器103连接的状态,在保持该状态一定时间之后,切换为未连接。一定时间可以通过校正量充分收敛的时间或低通滤波器129的时间常数来决定。
这样,开关并非不连续地切换速度前馈处理部113与加法器111之间的连接,而是暂时经由低通滤波器127切换为连接状态从而使之缓缓收敛。此外,开关并非不连续地切换位置前馈处理部116与加法减法器103之间的连接,而是暂时经由低通滤波器129切换为连接状态从而使之缓缓收敛。
图12是表示基于滤波器的有无的位置前馈(位置FF)处理或速度前馈(速度FF)处理涉及的校正量的变化的特性图。
在将本实施方式的结构应用于第三实施方式的控制装置的情况下,为了防止校正量的不连续,在二次微分器112与微分器115的后级分别设置了低通滤波器。通过使校正量通过低通滤波器,可以缓缓地跟随不连续的值。
图13是表示成为本发明的第五实施方式的其他结构的伺服控制装置的二次微分器112的后级的结构的一部分的框图。图14是表示成为本发明的第五实施方式的其他结构的伺服控制装置的微分器115的后级的结构的一部分的框图。
如图13所示,开关130代替开关118而与二次微分器112连接。开关130接收到来自异常检测部109的异常检测信号时,从将二次微分器112经由速度前馈处理部113而与加法器111连接的状态,切换为将二次微分器112经由低通滤波器131而与加法器111连接的状态,在保持该状态一定时间之后,将二次微分器112与加法器111直接连接。一定时间可以通过校正量充分收敛的时间或低通滤波器131的时间常数来决定。
此外,如图14所示,开关132代替开关119而与微分器115连接。开关132接收到来自异常检测部109的异常检测信号时,从将微分器115经由位置前馈处理部116而与加法减法器103连接的状态,切换为将微分器115经由低通滤波器133而与加法减法器103连接的状态,在保持该状态一定时间之后,将微分器115与加法减法器103直接连接。一定时间可以通过校正量充分收敛的时间或低通滤波器133的时间常数来决定。
这样,开关并非不连续地切换二次微分器112与加法器111之间的连接,而是暂时经由低通滤波器131切换为连接状态从而使之缓缓收敛。此外,开关并非不连续地切换微分器115与加法减法器103之间的连接,而是暂时经由低通滤波器133切换为连接状态从而使之缓缓收敛。
图15是表示基于滤波器的有无的位置前馈(位置FF)处理或速度前馈(速度FF)处理涉及的校正量的变化的特性图。
此外,在将本实施方式的结构应用于第四实施方式的控制装置时,为了防止校正量的不连续,在图9所示的校正生成部122的后级设置低通滤波器。通过使校正量通过低通滤波器,可以缓缓地跟随不连续的值。另外,低通滤波器以及切换至低通滤波器的开关的结构与图10中的、将速度前馈处理部113置换成校正生成部122的结构相同,因此,省略说明。
(第六实施方式)
在第五实施方式的控制装置中,为了防止校正量的不连续而设置了低通滤波器,但是也可以代替低通滤波器而进行速度控制部104的积分器的重写,使从速度控制部104输出的转矩指令值连续。在本实施方式中,可以与积分器的重写一起同时设置第五实施方式所说明的低通滤波器。在以下的说明中,以图4所示的第二实施方式的控制装置为例进行说明,但是也可以应用于第一、第三以及第四实施方式的伺服控制装置。
图16是表示成为本发明的第六实施方式的控制装置的速度控制部104的结构的框图。如图16所示,从异常检测部109向积分器1041输送异常检测信号。
如图16所示,速度控制部104具有:积分器1041,其被输入施加了位置前馈项的速度偏差;乘法器1042,其将系数Ki与从积分器1041输出的积分值相乘;乘法器1043,其被输入施加了位置前馈项的速度偏差,并将其乘以系数Kv;以及加法器1044,其将乘法器1042的输出与乘法器1043的输出相加后输出。
异常检测部109将异常检测信号输送给开关105,将开关105从接通切换为断开,并且将异常检测信号输出给积分器1041。积分器1041接收到异常检测信号时,为了防止开关105的断开导致的位置前馈项的校正的停止造成校正量的不连续,进行以下重写,使转矩指令值连续。
在将Verr设为速度偏差,将kp设为比例增益,将ki设为积分增益时,通过以下的数学式4来表示位置前馈(位置FF)的刚刚停止之前的转矩指令Tcmd(i)。
【数学式4】
Figure BDA0002023123550000311
此外,通过以下的数学式5来表示位置前馈的刚停止之后的转矩指令Tcmd(i+1)。
【数学式5】
Figure BDA0002023123550000312
在位置前馈的刚停止之后Verr(i+1)大幅变动,因此,有时在Tcmd(i)与Tcmd(i+1)之间产生不连续而产生冲击。
因此,如数学式6所示,像以下那样来置换位置前馈的刚停止之后的转矩指令的积分器使用的积分项。
【数学式6】
Figure BDA0002023123550000321
于是,重写了积分器的转矩指令Tcmd’(i+1)成为数学式7所示那样。
【数学式7】
Tcmd′(i)=(Tcmd(i)-V′err(i+1)×kp)/ki×ki+Verr(i+1)×kp=Tcmd(i)
即,通过积分器1041的重写,Tcmd’(i+1)=Tcmd(i),转矩指令连续地变化,因此位置前馈刚刚停止前后的冲击消失。
重写后的积分器1041将Verr(n)与(Tcmd(i)-Verr(i+1)×kp)/ki相加而进行计算。
图17是表示基于积分器的重写的有无的转矩指令的变化的特性图。
以上对本发明的各实施方式进行了说明,上述的伺服控制装置的伺服控制部和机器学习装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外,由上述伺服控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里,所谓通过软件来实现表示计算机通过读入程序来执行从而实现。
可以使用各种类型的非临时性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序提供给计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读记录介质的示例包含:磁记录介质(例如,磁盘、硬盘驱动器)、光-磁记录介质(例如,光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如,掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random accessmemory)。
上述实施方式是本发明的优选实施方式,但是并非将本发明的范围只限定于上述实施方式,可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。
<伺服控制装置具有机器学习装置的变形例>
在上述实施方式中,构成为将机器学习装置200和伺服控制装置100、100A、100B或100C设置于控制装置内,机器学习装置200和伺服控制装置100、100A、100B或100C通过分开的装置构成,但是也可以通过伺服控制装置100来实现机器学习装置200的功能的一部分或者全部。
此外,在上述实施方式中,伺服控制装置100、100A、100B或100C与数值控制装置400通过分开的装置构成,但是也可以通过数值控制装置400来实现伺服控制装置100、100A、100B或100C的功能的一部分或全部。数值控制装置400可以包括机器学习装置200与伺服控制装置100、100A、100B或100C,该情况下,数值控制装置400构成控制装置。
<系统结构的自由度>
图18是表示其他结构的控制装置的框图。控制装置10D如图18所示,具有n台伺服控制装置100-1~100-n、n台机器学习装置200-1~200-n、网络300、以及数值控制装置400-1~400-n。另外,n是任意自然数。n台伺服控制装置100-1~100-n分别与图1、图7、图8以及图9所示的伺服控制装置100、100A~100C的某一个对应。n台机器学习装置200-1~200-n分别与图1、图7、图8以及图9所示的机器学习装置200的某一个对应。数值控制装置400-1~400-n与数值控制装置400对应,数值控制装置400-1~400-n针对伺服控制装置100-1~100-n的每一个而设置。伺服控制装置100-1~100-n可以包含于数值控制装置400-1~400-n。
这里,伺服控制装置100-1与机器学习装置200-1为一对一的组,两者能够通信地连接。关于伺服控制装置100-2~100-n与机器学习装置200-2~200-n,也同伺服控制装置100-1与机器学习装置200-1一样地连接。在图18中,伺服控制装置100-1~100-n与机器学习装置200-1~200-n的n个组经由网络300而连接,但是,关于伺服控制装置100-1~100-n与机器学习装置200-1~200-n这n个组,各组的伺服控制装置与机器学习装置可以经由连接接口而直接连接。关于这些伺服控制装置100-1~100-n与机器学习装置200-1~200-n这n个组,例如可以在同一个工厂中设置多组,也可以分别设置于不同的工厂中。
另外,网络300例如是在工厂内构建的LAN(Local Area Network:局域网)、互联网、公共电话网、或者它们的组合。对于网络300中具体的通信方式是有线连接还是无线连接等没有特别限定。
在上述的图18的控制装置中,机器学习装置200-1~200-n与伺服控制装置100-1~100-n作为一对一的组以能够通信的方式进行连接,例如一台机器学习装置200-1也可以经由网络300而与多台伺服控制装置100-1~100-m(m<n或m=n;m、n是自然数)能够通信地连接,实施各伺服控制装置100-1~100-m的机器学习。另外这里使用的m、n是与数学式1和数学式3所使用的m、n无关的值。
此时,机器学习装置200-1的各功能也可以适当分散于多个服务器而成为分散处理系统。此外,机器学习装置200-1的各功能也可以在云上利用虚拟服务器功能等来实现。
此外,当存在与多个相同型号名称、相同规格、或者相同系列的伺服控制装置100-1~100-n分别对应的多个机器学习装置200-1~200-n时,可以共享各机器学习装置200-1~200-n中的学习结果。这样,能够构建更理想的模型。

Claims (11)

1.一种机器学习装置,其针对具有至少一个反馈环、生成施加给该反馈环的校正量的校正生成部、以及检测伺服电动机的异常动作的异常检测部的伺服控制装置,进行所述校正生成部的校正量的最佳化有关的机器学习,所述伺服控制装置对驱动机床、机器人或工业机械的轴的所述伺服电动机进行控制,其特征在于,
至少一个反馈环包含位置反馈环和速度反馈环中的至少一个,所述校正生成部生成针对所述位置反馈环的位置前馈项、针对所述速度反馈环的速度前馈项、以及伺服电动机的反转时的校正中的至少一个,
所述机器学习装置具有:
状态信息取得部,其针对所述伺服控制装置,从所述伺服控制装置取得包含针对所述反馈环的指令、以及所述反馈环内的伺服状态的状态来作为状态信息,所述状态信息具体包含所述伺服控制装置中的施加所述位置前馈项的位置前馈处理部的传递函数的各系数、所述伺服控制装置中的施加所述速度前馈项的速度前馈处理部的传递函数的系数、和所述伺服电动机的反转时的校正中的至少一个、以及根据这些信息执行学习时的加工程序而取得的所述伺服控制装置的位置指令和位置偏差信息;
学习部,其基于由所述状态信息取得部输出的所述状态信息,对所述校正量的最佳化进行机器学习,
在机器学习动作过程中,在所述伺服控制装置中当所述异常检测部检测出异常时,通过通知校正停止,停止将由所述校正生成部生成的校正量施加于所述反馈环的校正,直至用于进行机器学习的加工程序结束为止,之后,在重新使所述用于进行机器学习的加工程序从开始位置进行动作时,通过所述校正生成部生成与在所述异常检测部检测出异常时由所述校正生成部生成的校正量不同的新的校正量,将校正量调整通知信号通知给所述异常检测部,由此使施加给所述反馈环的校正重新开始,在所述机器学习装置中继续所述校正生成部生成的校正量的最佳化有关的机器学习。
2.根据权利要求1所述的机器学习装置,其特征在于,所述伺服控制装置具有在所述反馈环与所述校正生成部内或所述校正生成部的后级之间设置的开关,在所述异常检测部检测出异常动作时,断开所述开关,并向所述机器学习装置通知停止对所述反馈环的校正,
所述机器学习装置接收到停止对所述反馈环的校正的通知时,使学习反映所述校正量。
3.根据权利要求1或2所述的机器学习装置,其特征在于,
作为所述机器学习而进行强化学习,
在从所述异常检测部接收到停止校正通知时,给予不选择进行异常动作的所述校正量那样的回报。
4.根据权利要求3所述的机器学习装置,其特征在于,
根据所述回报来更新价值函数,并根据更新后的价值函数生成最佳的所述校正量或校正参数的调整信息,输出给所述校正生成部。
5.根据权利要求1或2所述的机器学习装置,其特征在于,
所述异常检测部在位置偏差、转矩指令、或该两者为预先设定的阈值以上时检测为异常。
6.根据权利要求1或2所述的机器学习装置,其特征在于,
所述伺服控制装置还具有:报知部,其在所述异常检测部检测出异常时,报知异常的检测。
7.根据权利要求2所述的机器学习装置,其特征在于,
所述伺服控制装置具有设置于所述开关的后级的低通滤波器,在所述开关进行切换时通过所述低通滤波器。
8.根据权利要求2所述的机器学习装置,其特征在于,
所述反馈环具有:速度控制部,其具有对速度偏差进行积分的积分器,
在所述开关进行切换时进行所述积分器的重写。
9.一种控制装置,其特征在于,具有:
权利要求1~8中任一项所述的机器学习装置;以及
伺服控制装置,其对驱动机床、机器人或工业机械的轴的伺服电动机进行控制,该伺服控制装置具有至少一个反馈环、生成施加给该反馈环的校正的校正生成部、以及检测所述伺服电动机的异常动作的异常检测部。
10.根据权利要求9所述的控制装置,其特征在于,
所述机器学习装置包含于所述伺服控制装置中。
11.一种机器学习装置的机器学习方法,该机器学习装置对生成施加给至少一个反馈环的校正、并检测伺服电动机的异常动作的伺服控制装置,进行施加给所述至少一个反馈环的校正量的最佳化有关的机器学习,所述伺服控制装置对驱动机床、机器人或工业机械的轴的所述伺服电动机进行控制,其特征在于,
至少一个反馈环包含位置反馈环和速度反馈环中的至少一个,所述校正生成部生成针对所述位置反馈环的位置前馈项、针对所述速度反馈环的速度前馈项、以及伺服电动机的反转时的校正中的至少一个,
所述机器学习装置从所述伺服控制装置取得包含针对所述伺服控制装置中的所述反馈环的指令、以及所述反馈环内的伺服状态的状态来作为状态信息,并基于由所述状态信息取得部输出的所述状态信息,对所述校正量的最佳化进行学习,其中,所述状态信息具体包含所述伺服控制装置中的施加所述位置前馈项的位置前馈处理部的传递函数的各系数、所述伺服控制装置中的施加所述速度前馈项的速度前馈处理部的传递函数的系数、和所述伺服电动机的反转时的校正中的至少一个、以及根据这些信息执行学习时的加工程序而取得的所述伺服控制装置的位置指令和位置偏差信息
在机器学习动作过程中,当所述伺服控制装置检测出异常时,通过通知校正停止,停止施加给至少一个反馈环的校正,直至用于进行机器学习的加工程序结束为止,之后,在重新使所述用于进行机器学习的加工程序从开始位置进行动作时,通过所述伺服控制装置生成与在检测出异常时生成的校正量不同的新的校正量,将校正量调整通知信号通知给所述伺服控制装置,由此使施加给所述反馈环的校正重新开始,所述机器学习装置继续所述校正量的最佳化有关的机器学习。
CN201910285449.XA 2018-04-13 2019-04-10 机器学习装置、控制装置以及机器学习方法 Active CN110376965B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-077558 2018-04-13
JP2018077558A JP6740277B2 (ja) 2018-04-13 2018-04-13 機械学習装置、制御装置、及び機械学習方法

Publications (2)

Publication Number Publication Date
CN110376965A CN110376965A (zh) 2019-10-25
CN110376965B true CN110376965B (zh) 2022-06-14

Family

ID=68053035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910285449.XA Active CN110376965B (zh) 2018-04-13 2019-04-10 机器学习装置、控制装置以及机器学习方法

Country Status (4)

Country Link
US (1) US10877442B2 (zh)
JP (1) JP6740277B2 (zh)
CN (1) CN110376965B (zh)
DE (1) DE102019204861B4 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
JP6703021B2 (ja) * 2018-02-20 2020-06-03 ファナック株式会社 サーボ制御装置
US11429869B2 (en) * 2019-11-21 2022-08-30 International Business Machines Corporation Artificially intelligent interaction agent
CN114728411B (zh) * 2019-11-25 2024-06-07 三菱电机株式会社 控制装置、机器人系统和控制方法
US11316583B2 (en) * 2019-12-09 2022-04-26 Intelligent Fusion Technology, Inc. Predistorter, predistorter controller, and high power amplifier linearization method
US20210178600A1 (en) * 2019-12-12 2021-06-17 Mitsubishi Electric Research Laboratories, Inc. System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
US11584004B2 (en) * 2019-12-17 2023-02-21 X Development Llc Autonomous object learning by robots triggered by remote operators
JP7326177B2 (ja) * 2020-01-31 2023-08-15 住友重機械工業株式会社 射出成形機の調整装置、及び射出成形機
DE102021116393A1 (de) 2021-06-24 2022-12-29 Ifm Electronic Gmbh Computerimplementiertes Verfahren zur Ausführung einer Steuerung mit Anomalie-Erkennung
JPWO2023012902A1 (zh) 2021-08-03 2023-02-09

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234826A (ja) * 1995-02-22 1996-09-13 Hitachi Ltd 制御装置のシミュレーション装置
CN101620421A (zh) * 2008-06-30 2010-01-06 发那科株式会社 伺服电动机的驱动控制装置以及驱动控制方法
CN102122132A (zh) * 2010-01-11 2011-07-13 北京航空航天大学 一种基于模糊神经网络的用于环境模拟系统的智能控制系统
JP2014048953A (ja) * 2012-08-31 2014-03-17 Okuma Corp 繰返し学習位置制御装置
CN104283484A (zh) * 2013-07-05 2015-01-14 发那科株式会社 具备前馈控制的电动机控制装置
CN105027013A (zh) * 2013-03-07 2015-11-04 株式会社牧野铣床制作所 机床的进给轴控制方法及进给轴控制装置
CN105706010A (zh) * 2013-11-08 2016-06-22 东芝三菱电机产业系统株式会社 生产线模拟装置
CN107234255A (zh) * 2016-03-29 2017-10-10 发那科株式会社 进行摆动切削的机床的伺服控制装置以及控制方法
CN107645257A (zh) * 2016-07-21 2018-01-30 发那科株式会社 机械学习器、电动机控制装置以及机械学习方法
CN107807519A (zh) * 2016-09-08 2018-03-16 发那科株式会社 伺服电动机控制装置、伺服电动机控制方法以及记录介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852018A (en) * 1987-01-07 1989-07-25 Trustees Of Boston University Massively parellel real-time network architectures for robots capable of self-calibrating their operating parameters through associative learning
JP3552158B2 (ja) * 1999-04-08 2004-08-11 富士通株式会社 記憶装置
US7062411B2 (en) * 2003-06-11 2006-06-13 Scientific Systems Research Limited Method for process control of semiconductor manufacturing equipment
JP4042058B2 (ja) * 2003-11-17 2008-02-06 株式会社デンソー 内燃機関用燃料噴射装置
KR100636220B1 (ko) * 2005-01-22 2006-10-19 삼성전자주식회사 화상 형성 장치에 공급되는 매체 속도 제어 장치 및 방법
JP4276187B2 (ja) * 2005-02-02 2009-06-10 ファナック株式会社 学習制御機能を有する数値制御装置
JP4647393B2 (ja) * 2005-05-23 2011-03-09 富士重工業株式会社 空燃比センサの異常診断装置
US8767343B1 (en) * 2012-04-24 2014-07-01 Western Digital Technologies, Inc. Disk drive increasing integrator output range to complete seek operation
JP5890472B2 (ja) * 2014-06-13 2016-03-22 ファナック株式会社 周期動作サイクルに同期した重畳サイクルを重畳させる機能を有する数値制御装置
JP6193961B2 (ja) 2015-11-30 2017-09-06 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置
JP6544219B2 (ja) * 2015-11-30 2019-07-17 オムロン株式会社 制御装置
JP6333868B2 (ja) * 2016-01-21 2018-05-30 ファナック株式会社 セル制御装置、及び製造セルにおける複数の製造機械の稼働状況を管理する生産システム
JP6140331B1 (ja) 2016-04-08 2017-05-31 ファナック株式会社 主軸または主軸を駆動するモータの故障予知を学習する機械学習装置および機械学習方法、並びに、機械学習装置を備えた故障予知装置および故障予知システム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234826A (ja) * 1995-02-22 1996-09-13 Hitachi Ltd 制御装置のシミュレーション装置
CN101620421A (zh) * 2008-06-30 2010-01-06 发那科株式会社 伺服电动机的驱动控制装置以及驱动控制方法
CN102122132A (zh) * 2010-01-11 2011-07-13 北京航空航天大学 一种基于模糊神经网络的用于环境模拟系统的智能控制系统
JP2014048953A (ja) * 2012-08-31 2014-03-17 Okuma Corp 繰返し学習位置制御装置
CN105027013A (zh) * 2013-03-07 2015-11-04 株式会社牧野铣床制作所 机床的进给轴控制方法及进给轴控制装置
CN104283484A (zh) * 2013-07-05 2015-01-14 发那科株式会社 具备前馈控制的电动机控制装置
CN105706010A (zh) * 2013-11-08 2016-06-22 东芝三菱电机产业系统株式会社 生产线模拟装置
CN107234255A (zh) * 2016-03-29 2017-10-10 发那科株式会社 进行摆动切削的机床的伺服控制装置以及控制方法
CN107645257A (zh) * 2016-07-21 2018-01-30 发那科株式会社 机械学习器、电动机控制装置以及机械学习方法
CN107807519A (zh) * 2016-09-08 2018-03-16 发那科株式会社 伺服电动机控制装置、伺服电动机控制方法以及记录介质

Also Published As

Publication number Publication date
JP2019185529A (ja) 2019-10-24
CN110376965A (zh) 2019-10-25
JP6740277B2 (ja) 2020-08-12
DE102019204861A1 (de) 2019-10-17
DE102019204861B4 (de) 2021-09-30
US20190317457A1 (en) 2019-10-17
US10877442B2 (en) 2020-12-29

Similar Documents

Publication Publication Date Title
CN110376965B (zh) 机器学习装置、控制装置以及机器学习方法
CN108628355B (zh) 伺服控制装置及系统、机器学习装置及方法
CN110376964B (zh) 机器学习装置、控制装置以及机器学习方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
CN109274314B (zh) 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
CN109116811B (zh) 机器学习装置和方法、伺服控制装置、伺服控制系统
CN108880399B (zh) 机器学习装置、伺服控制系统以及机器学习方法
JP6474449B2 (ja) 調整装置及び調整方法
US11592789B2 (en) Output device, control device, and method for outputting evaluation functions and machine learning results
CN110658785B (zh) 输出装置、控制装置、以及评价函数值的输出方法
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
WO2022254621A1 (ja) 数値制御装置、学習装置、推論装置、および数値制御方法
CN111552237B (zh) 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法
US10739734B2 (en) Motor control apparatus
CN111722530B (zh) 机器学习装置、控制系统以及机器学习方法
JP2019140765A (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
CN110727242B (zh) 机器学习装置、控制装置、以及机器学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant