CN110832422B

CN110832422B - 机器学习装置、校正参数调整装置及机器学习方法

Info

Publication number: CN110832422B
Application number: CN201880004299.4A
Authority: CN
Inventors: 藤田智哉; 木全敏章; 井藤达也; 井内幸弘; 佐藤刚
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2021-04-16
Anticipated expiration: 2038-06-14
Also published as: DE112018000122T5; US11562048B2; US20210036640A1; US20190386595A1; DE112018000122T8; WO2019239553A1; JPWO2019239553A1; JP6567205B1; CN110832422A; US10840840B2

Abstract

机器学习装置(100)对在具有多种校正功能的电动机驱动装置中在用于控制电动机的指令值的校正时所使用的校正参数进行学习，该机器学习装置(100)的特征在于，具备：状态观测部(101)，其将校正参数、基于电动机驱动装置的驱动数据及校正功能的种类计算出的特征量作为状态变量而进行观测；以及学习部(102)，其按照基于状态变量创建的训练数据组，针对各个校正功能对校正参数进行学习。

Description

机器学习装置、校正参数调整装置及机器学习方法

技术领域

本发明涉及对在具有多种校正功能的电动机驱动装置的校正功能中使用的校正参数进行学习的机器学习装置、校正参数调整装置及机器学习方法。

背景技术

由电动机驱动的电动机驱动装置例如为工作机械、工业用机械、机器人、输送机。就电动机驱动装置而言，以追随于被给予的指令值的方式对工具、加工对象物、机械手这样的控制对象进行控制。但是，由于构成电动机驱动装置的机械构造及机械要素具有内在的各式各样的误差原因及干扰原因，因此有时对指令值的追随精度会降低。误差原因为滑动面的摩擦、构造部件的刚性不足、组装误差、控制的延迟、电动机的发热等。因此，想到将误差考虑在内而对指令值进行校正后使用。指令值的校正量、校正定时(timing)这样的校正条件的最佳值根据电动机驱动装置的构造的差异、个体差异、设置环境的差异等而不同。

作业者针对各个电动机驱动装置对校正条件进行调整，因此需要花费功夫，并且直至变得能够调整出合适的校正条件为止需要熟练时间。因此，对自动调整校正条件的装置进行了研究。在专利文献1中公开了如下技术，即，使用校正参数，自动决定校正条件，其中，该校正参数用于决定由摩擦的影响产生的运动误差的校正条件。在该技术中，对校正参数进行变更，反复进行扭矩指令的校正及校正扭矩的更新直至在圆弧运动中产生的响应误差小于或等于阈值，自动决定与摩擦校正相关的校正参数，其中，该校正参数用于决定由摩擦的影响产生的运动误差的校正条件。

专利文献1：日本特开平11-24754号公报

发明内容

但是，在上述专利文献1所记载的技术中，由于仅存在仅对单一的校正功能的校正参数进行调整的算法，因此仅能够对单一的校正功能的校正参数进行调整。对校正功能的校正参数进行调整的算法的创建为非常花费时间和功夫的作业，在电动机驱动装置具有多种校正功能的情况下，需要与各校正功能相匹配地单独创建对校正参数进行调整的算法，存在算法的创建所需要的时间和功夫巨大这样的问题。

本发明就是鉴于上述问题而提出的，其目的在于得到即使是具有多种校正功能的电动机驱动装置，也能够容易地对校正参数进行调整的机器学习装置及校正参数调整装置，其中，该校正参数用于决定电动机驱动装置的指令值的校正条件。

为了解决上述课题，达成目的，本发明为一种机器学习装置，该机器学习装置对在具有多种校正功能的电动机驱动装置中在用于控制电动机的指令值的校正时所使用的校正参数进行学习，该机器学习装置的特征在于，具备：状态观测部，其将校正参数、基于电动机驱动装置的驱动数据及校正功能的种类计算出的特征量作为状态变量而进行观测；以及学习部，其按照基于状态变量创建的训练数据组，针对各个校正功能对校正参数进行学习。

发明的效果

本发明涉及的机器学习装置取得如下效果，即，即使是具有多种校正功能的电动机驱动装置，也能够容易地对校正参数进行调整，其中，该校正参数用于决定电动机驱动装置的指令值的校正条件。

附图说明

图1是表示本发明的实施方式1涉及的校正参数调整装置的功能结构的图。

图2是表示图1所示的特征量提取部的结构的图。

图3是表示图1所示的机器学习装置的结构的图。

图4是表示图1所示的校正参数决定部的结构的图。

图5是表示图1所示的电动机驱动装置的结构的图。

图6是表示图5所示的机械装置的结构的图。

图7是表示图5所示的伺服控制部的结构的图。

图8是表示图1所示的校正参数调整装置的硬件结构例的图。

图9是表示图1所示的校正参数调整装置的动作的流程图。

图10是表示机器学习装置使用强化学习的情况下的图3所示的学习部的结构的图。

图11是表示图2所示的机器学习装置使用强化学习的情况下的学习部的动作的图。

图12是表示本发明的实施方式2涉及的校正参数调整装置的结构的图。

图13是表示本发明的实施方式3涉及的校正参数调整装置的结构的图。

图14是表示图13所示的校正参数决定部的结构的图。

具体实施方式

以下，基于附图对本发明的实施方式涉及的机器学习装置、校正参数调整装置及机器学习方法进行详细说明。此外，本发明并不限于该实施方式。

实施方式1.

图1是表示本发明的实施方式1涉及的校正参数调整装置1的功能结构的图。校正参数调整装置1使用机器学习，对校正参数进行调整，其中，该校正参数用于决定电动机驱动装置99的指令值的校正条件。校正参数调整装置1具备调整条件输入部11、校正功能选择部12、驱动数据取得部13、特征量提取部14、校正参数决定部15、机器学习装置100。

调整条件输入部11接收用于对是否结束校正参数的调整进行判断的调整条件的输入。调整条件为作为目标的精度、作为目标的生产节拍、能够允许的最大误差、调整时间等。调整条件输入部11也能够接收多个调整条件的组合。调整条件输入部11将接收到的调整条件输入至校正参数决定部15。

校正功能选择部12从存储有电动机驱动装置99所具有的校正功能的种类、表示校正功能的内容的信息、表示在执行校正功能时使用的校正参数的校正参数信息的校正功能信息存储部16，取得电动机驱动装置99所具有的校正功能的种类、校正参数信息，对调整所使用的校正功能进行选择。校正功能为用于实现某目标效果的动作的单位，为对由摩擦的影响产生的运动误差进行校正的功能、振动抑制功能、轴间干涉校正功能等。表示校正功能的内容的信息为校正对象的误差原因、对校正量进行计算所需要的状态量、施加校正量的控制量、校正量的运算式、校正量运算所需要的校正参数数量等。校正参数信息为校正参数所依赖的状态量等。

校正功能选择部12可以依次对预先确定的校正功能的组合进行选择，也可以从操作者接收对校正功能进行选择的输入。校正功能选择部12将选择出的校正功能的校正参数信息输入至机器学习装置100，将校正功能信息输入至特征量提取部14。校正功能信息包含用于对选择出的校正功能进行识别的信息、表示校正功能的内容的信息。

驱动数据取得部13从电动机驱动装置99取得学习用驱动数据De、验证用驱动数据Dv。学习用驱动数据De及验证用驱动数据Dv为与电动机驱动装置99的驱动相关的信息，包含电动机的位置指令、速度指令、电流指令这样的向对电动机驱动装置99进行驱动的电动机的指令信息、位置反馈、速度反馈、电流反馈这样的来自对电动机驱动装置99进行驱动的电动机的反馈数据、不存在误差的情况下的理想的电动机位置、电动机速度、电动机电流这样的电动机的状态信息、电动机的控制对象即机械装置的驱动数据中的至少1个。另外，学习用驱动数据De及验证用驱动数据Dv也可以包含理想的电动机位置和实际的电动机位置之差、理想的电动机速度和实际的电动机速度之差。学习用驱动数据De和验证用驱动数据Dv可以是相同种类的数据，也可以是不同种类的数据。驱动数据取得部13将取得的学习用驱动数据De输入至特征量提取部14，将取得的验证用驱动数据Dv输入至校正参数决定部15。

特征量提取部14从学习用驱动数据De，基于由校正功能选择部12输入的校正功能信息，针对各个校正功能提取特征量Fv，该学习用驱动数据De是从驱动数据取得部13输入的。特征量提取部14提取与作为调整对象选择出的校正功能的数量相同数量的特征量Fv。1个特征量Fv为表示每个校正功能的驱动数据的特性的数据，不是一维标量而是多维矢量。特征量提取部14将提取出的特征量Fv输入至机器学习装置100。

图2是表示图1所示的特征量提取部14的结构的图。特征量提取部14具有算法选择部61、算法存储部62、特征量计算部63。算法选择部61从校正功能信息取得表示成为调整对象的校正功能的信息，对针对各个校正功能从学习用驱动数据De提取特征量所使用的算法进行选择。算法选择部61将表示针对各个校正功能选择出的算法的计算算法选择指令输入至特征量计算部63。在算法存储部62中储存有表示计算算法的函数组，该计算算法用于执行低通滤波、高通滤波、带通滤波、带阻滤波等各种滤波、运动方向反转位置检测、零速度附近检测、角部检测等运动特征波形提取、数据截取处理等。数据的截取是指对数据进行截取而将截取出的部分提取出。特征量计算部63基于从算法选择部61输入的计算算法选择指令，从算法存储部62取出使用的计算算法，使用取出的计算算法，根据学习用驱动数据De针对各个校正功能对特征量进行计算。

关于摩擦校正功能，算法选择部61对运动方向反转位置检测、运动方向反转时附近的数据截取进行选择。在学习用驱动数据De包含位置指令、位置反馈、电动机电流、与理想位置相对的实际位置的数据的情况下，特征量计算部63针对各个数据，应用选择出的计算算法而对特征量进行计算。另外，关于振动校正功能，算法选择部61对运动刚停止后的数据的截取、带通滤波进行选择。

返回到图1的说明。机器学习装置100基于从校正功能选择部12输入的校正功能信息及校正参数信息、从特征量提取部14输入的特征量Fv，针对各个特征量Fv对校正参数进行学习。机器学习装置100对以下的校正参数进行学习，即，能够设定如对电动机驱动装置99的驱动数据所包含的误差进行抑制那样的校正条件的校正参数。机器学习装置100将学习结果Fr、校正参数信息输入至校正参数决定部15。

图3是表示图1所示的机器学习装置100的结构的图。机器学习装置100具有状态观测部101、学习部102。状态观测部101使用校正参数信息及特征量，对校正参数、基于校正功能提取出的特征量作为状态变量而进行观测。状态观测部101基于状态变量，针对各个校正功能对训练数据组进行创建而输出。学习部102使用由状态观测部101基于状态变量创建出的训练数据组，针对各个特征量、即针对各个校正功能而进行校正参数的学习，输出学习结果Fr。学习部102所使用的学习算法为如神经网络那样的有教师学习、无教师学习、强化学习等。

返回到图1的说明。校正参数决定部15基于从机器学习装置100输入的学习结果Fr及校正参数信息，决定校正参数，将决定出的校正参数设定于电动机驱动装置99，并且基于从调整条件输入部11输入的调整条件、从驱动数据取得部13输入的验证用驱动数据Dv，对是否结束校正参数的调整处理进行判定。

图4是表示图1所示的校正参数决定部15的结构的图。校正参数决定部15具有校正参数计算部51、校正参数评价部52、结束判定部53。校正参数计算部51基于从机器学习装置100输入的学习结果Fr、校正参数信息，针对各个校正功能，基于学习结果Fr对校正参数进行计算。校正参数评价部52基于验证用驱动数据Dv，对当前设定的校正参数的妥当性进行评价。结束判定部53基于校正参数评价部52的评价结果、从调整条件输入部11输入的调整条件，对是否结束调整处理进行判断，并且将由校正参数计算部51计算出的校正参数设定于电动机驱动装置99。

此处，对电动机驱动装置99的结构例进行说明。图5是表示图1所示的电动机驱动装置99的结构的图。电动机驱动装置99具有电动机2、机械装置3、电动机位置检测器4、指令值生成部5、伺服控制部6、校正量运算部7。这里，仅图示出1个电动机2，但电动机驱动装置99可以具有1个电动机2，也可以具有大于或等于2个电动机2。

电动机2为致动器，具体而言，为旋转电动机。向电动机2连接有机械装置3、对电动机2的位置进行检测的电动机位置检测器4。电动机2按照被供给的电动机电流Im而旋转，通过旋转扭矩Tm对机械装置3进行驱动。

图6是表示图5所示的机械装置3的结构的图。机械装置3具备水平地配置的底座89、固定于底座89的引导机构86a、86b、由引导机构86a、86b支撑且限制了可动方向的工作台84。另外，机械装置3具备滚珠丝杠82、对滚珠丝杠82进行保持的滚珠前轴承87a、后轴承87b，在该滚珠丝杠82组装有由在工作台84的一个面设置的未图示的螺母、工作台84构成的可动部。滚珠丝杠82经由刚性联轴器88连结于电动机2的旋转轴。这里，作为轴承的方式，使用滚珠前轴承87a由角接触球轴承固定，后轴承87b由深沟球轴承支撑的单锚方式。

由于工作台84由引导机构86a、86b支撑，因此可动方向之外的运动受到制约。这里，引导机构86a、86b为以刚性球为滚动体且通过润滑脂润滑的直线滚动引导机构。机械装置3还具备对工作台84的位置进行检测的工作台位置检测器85。作为工作台位置检测器85的具体例，举出线性编码器。工作台位置检测器85能够将检测出的工作台的位置作为反馈位置Xfb输入至伺服控制部6。

上述说明过的机械装置3的结构只是一个例子，机械装置3的结构并不限于上述例子。如后所述，本实施方式的校正参数调整装置1能够将多个机械装置3作为控制对象。

返回到图5的说明。电动机位置检测器4安装于电动机2，对电动机2的旋转方向的位置进行检测。作为电动机位置检测器4的具体例，举出旋转编码器。电动机位置检测器4能够将检测出的电动机2的位置作为反馈位置Xfb输入至伺服控制部6。反馈位置Xfb为由工作台位置检测器85检测出的工作台位置及由电动机位置检测器4检测出的电动机2的位置中的至少1个。

此外，工作台位置检测器85能够对工作台84的移动距离进行测量，与此相对，由电动机位置检测器4直接检测的位置为电动机2的旋转角度。但是，通过将电动机2每旋转1圈的工作台移动距离即滚珠丝杠导程乘以检测出的旋转角度，除以电动机旋转1圈的角度2π(rad)，伺服控制部6能够将电动机2的旋转角度换算为工作台84的移动方向的长度。因此，也可以省略电动机位置检测器4或工作台位置检测器85。在图5中示出如下例子，即，电动机驱动装置99具备电动机位置检测器4，将电动机位置作为反馈位置Xfb而输入至伺服控制部6。另一方面，在图6中示出机械装置3具备工作台位置检测器85的例子。

将使用由电动机位置检测器4检测出的结果作为反馈位置Xfb的反馈控制称为半闭环控制。将使用由电动机位置检测器4检测出的结果和由工作台位置检测器85检测出的结果这两者作为反馈位置Xfb、或仅使用由工作台位置检测器85检测出的结果作为反馈位置Xfb的反馈控制称为全闭环控制。

指令值生成部5基于运转程序Xc生成电动机2的位置指令Xr，将生成的位置指令Xr输入至伺服控制部6。这里，运转程序Xc为通过G代码记述了机械装置3的控制对象的指令位置和指令速度的数控用NC(Numerical Control)程序。向伺服控制部6的位置指令Xr是通过运转程序Xc进行加减速处理及滤波处理而生成的时序上的位置指令。这里，G代码是数控中使用的命令代码之一，是在进行控制对象物的定位、直线插补、圆弧插补、平面指定等时记述的指令代码。

伺服控制部6基于从指令值生成部5输入的位置指令Xr、表示控制对象的位置的信息即反馈位置Xfb、从校正量运算部7输入的校正量Dcmp，进行反馈控制而生成用于对电动机2进行驱动的电动机电流Im，向电动机2输入所生成的电动机电流Im。

校正量运算部7针对各个校正功能，基于驱动数据Dc及校正参数Pc，将由位置校正量、速度校正量、电流校正量这3个状态量构成的校正量Dcmp输出至伺服控制部6。校正参数Pc及驱动数据Dc分别是由多个状态量构成的矢量或矩阵。例如，如果是摩擦校正功能，则校正量运算部7使用从运动方向反转位置起的位移量、速度的状态量、位置校正参数、及速度校正参数，对电流校正量进行计算。

图7是表示图5所示的伺服控制部6的结构的图。伺服控制部6具有微分运算器31、位置控制器32、速度控制器33、电流控制器34、驱动数据发送部35。

微分运算器31进行反馈位置Xfb的微分运算，对反馈速度进行计算。微分运算器31将计算出的反馈速度输入至速度控制器33。

位置控制器32基于从电动机位置检测器4输入的反馈位置Xfb、从指令值生成部5输入的位置指令Xr、从校正量运算部7输入的校正量Dcmp所包含的位置校正量，生成速度指令。具体而言，位置控制器32以使得位置指令和反馈位置Xfb的差即位置偏差变小的方式，执行比例控制等位置控制处理，基于位置校正量进行校正处理而生成速度指令。位置控制器32将生成的速度指令输入至速度控制器33。

速度控制器33基于从微分运算器31输入的反馈速度、从位置控制器32输入的速度指令、从校正量运算部7输入的校正量Dcmp所包含的速度校正量，生成电流指令Ir。具体而言，速度控制器33以使得速度偏差变小的方式，执行比例积分控制等速度控制处理，基于速度校正量进行校正处理而生成电流指令Ir。速度控制器33将生成的电流指令Ir输入至电流控制器34。

电流控制器34基于从速度控制器33输入的电流指令Ir、从校正量运算部7输入的校正量Dcmp所包含的电流校正量，生成电动机电流Im。具体而言，电流控制器34以使得输出的电动机电流Im与输入的电流指令Ir一致的方式，进行比例积分控制等电流控制。电流控制器34将生成的电动机电流Im输入至电动机2。

驱动数据发送部35对伺服控制部6中的各指令值、反馈值、校正量等进行收集，作为驱动数据而输出。由驱动数据发送部35输出的驱动数据被输入至校正量运算部7及校正参数调整装置1的驱动数据取得部13。

此外，在图7中说明了进行半闭环控制的例子，但在进行全闭环控制的情况下，反馈位置Xfb中的电动机位置检测器4的检测值被输入至微分运算器31，反馈位置Xfb中的工作台位置检测器85的检测值被输入至位置控制器32。

接着，对本实施方式的硬件结构进行说明。图8是表示图1所示的校正参数调整装置1的硬件结构例的图。校正参数调整装置1具有运算装置41、存储器42、存储装置43、通信装置44、输入装置45、显示装置46。

运算装置41是进行运算处理的以CPU(Central Processing Unit)为代表的处理器。存储器42作为对运算装置41在运算处理中途使用的数据进行储存的工作区域起作用。存储装置43对计算机程序、信息等进行存储。通信装置44具有与校正参数调整装置1的外部通信的通信功能。输入装置45接收来自操作者的输入。输入装置45为键盘、鼠标等。显示装置46输出显示画面。显示装置46为监视器、显示器等。此外，也可以使用将输入装置45和显示装置46一体化后的触摸面板。

图1所示的调整条件输入部11、校正功能选择部12、驱动数据取得部13、特征量提取部14、校正参数决定部15及机器学习装置100的功能由运算装置41读出而执行在存储装置43储存的计算机程序来实现。另外，在由运算装置41实现调整条件输入部11及校正功能选择部12时，使用输入装置45及显示装置46。另外，在由运算装置41实现校正功能选择部12及校正参数决定部15时，也可以使用通信装置44。

另外，校正功能信息存储部16在图1中设置于校正参数调整装置1的外部。在该情况下，校正功能信息存储部16由与校正参数调整装置1经由网络连接的服务器、或云上的服务器等实现。另外，校正功能信息存储部16也可以设置于校正参数调整装置1的内部。在该情况下，校正功能信息存储部16由存储装置43实现。校正参数调整装置1及机器学习装置100也可以是其功能的全部或一部分设置于被隔离开的场所。在该情况下，机器学习装置100经由网络与电动机驱动装置99连接。

图9是表示图1所示的校正参数调整装置1的动作的流程图。首先，调整条件输入部11接收操作者使用输入装置45而进行的调整条件的输入(步骤S101)。例如，调整条件为目标精度、目标生产节拍等。校正功能选择部12按照由调整条件输入部11接收到的调整条件，对作为调整对象的校正功能进行选择(步骤S102)。

接着，校正参数决定部15使用设定好的校正参数，使电动机驱动装置99驱动电动机2(步骤S103)。这里，在第1次进行步骤S103的动作时，设定的校正参数为预先确定的初始设定值，例如零、在前一次的调整处理中决定出的校正参数的值等。另外，在第2次及其以后，使用在后述的步骤S107中设定出的校正参数。驱动数据取得部13从电动机驱动装置99取得正在对电动机2进行驱动的驱动数据(步骤S104)。特征量提取部14针对各个校正功能提取特征量(步骤S105)。

机器学习装置100对能够抑制产生的误差的校正参数进行学习(步骤S106)。校正参数决定部15基于机器学习装置100的学习结果Fr，决定校正参数，将所决定的校正参数设定于电动机驱动装置99(步骤S107)。校正参数决定部15使用验证用驱动数据Dv对校正参数进行评价，对是否满足调整条件进行判断(步骤S108)。在满足调整条件的情况下(步骤S108：Yes)，校正参数调整装置1结束校正参数的调整处理。在不满足调整条件的情况下(步骤S108：No)，校正参数调整装置1从步骤S103起反复进行校正参数的调整处理。

这里，对机器学习装置100使用强化学习的情况下的结构进行说明。强化学习是某个环境内的行动主体即本体(agent)观测当前的状态，决定应该采取的行动的学习方法。本体通过选择行动而从环境得到回报，通过一系列的行动而对如得到最多回报那样的策略进行学习。作为强化学习的典型的方法，已知Q学习、TD学习等。在Q学习的情况下，由下面的数学式(1)表示行动价值函数Q(s，a)的通常的更新式即行动价值表格。

[数学式1]

在数学式(1)中，s_t表示时刻t时的环境，a_t表示时刻t时的行动。通过行动a_t，环境变化为s_t+1。r_t+1表示由该环境的变化得到的回报。γ表示折扣率。α表示学习系数。在应用了Q学习的情况下，环境s_t为状态变量，行动a_t为校正参数。

就由数学式(1)表示的更新式而言，如果时刻t+1时的最佳行动a的行动价值比在时刻t执行的行动a的行动价值函数Q大，则增大行动价值函数Q，反之，则减小行动价值函数Q。换言之，以使时刻t时的行动a的行动价值函数Q接近时刻t+1时的最佳行动价值的方式，对行动价值函数Q(s，a)进行更新。由此，使某个环境下的最佳行动价值依次传递至其之前的环境下的行动价值。

图10是表示机器学习装置100使用强化学习的情况下的图3所示的学习部102的结构的图。学习部102具有回报计算部102a、函数更新部102b。

回报计算部102a基于由状态观测部101观测到的状态变量对回报进行计算。回报计算部102a针对各个校正功能，对回报进行计算。回报计算部102a针对各个校正功能，使用表示被校正功能作为对象的误差的特征量，在满足回报增大基准的情况下，使回报r增大，例如给予“1”的回报。回报计算部102a在满足回报减少基准的情况下，降低回报r，例如给予“-1”的回报。回报增大基准例如是误差比阈值小，回报减少基准例如是误差比阈值大。误差例如为位置的误差，位置的误差能够通过位置指令或不存在误差的情况下的理想的电动机位置与位置反馈的差值来计算。另外，误差也可以是速度或电流的误差。

函数更新部102b按照由回报计算部102a计算的回报，对用于决定校正参数的函数进行更新。在Q学习的情况下，将由数学式(1)表示的行动价值函数Q(s_t，a_t)用作用于对校正参数进行变更的函数。

图11是表示图2所示的机器学习装置100使用强化学习的情况下的学习部102的动作的图。此外，图11所示的动作相当于图9所示的步骤S105。

回报计算部102a基于特征量，对是否满足回报增大基准进行判断(步骤S201)。在满足回报增大基准的情况下(步骤S201：Yes)，回报计算部102a使回报增大(步骤S202)。在不满足回报增大基准的情况下(步骤S201：No)，回报计算部102a使回报减少(步骤S203)。

如果回报计算部102a对回报进行计算，则函数更新部102b基于计算出的回报，对行动价值函数进行更新(步骤S204)。在图9的步骤S107中，反复执行步骤S201至步骤S204所示的动作，直至满足调整条件为止。如果通过步骤S201～步骤S204的动作更新了行动价值函数，则在图9的步骤S106中，基于此时的行动价值函数对校正参数进行设定。如果满足调整条件，则此后使用基于此时的行动价值函数设定出的校正参数。

以上，说明了使用强化学习而进行机器学习的例子，但也可以按照其它公知的方法，例如神经网络、遗传编程、功能逻辑编程、支持向量机等进行机器学习。

如以上说明的那样，根据本发明的实施方式1涉及的校正参数调整装置1，针对多个校正功能的每一个提取反映了校正对象的现象的驱动数据作为特征量，针对各个特征量对校正参数进行学习。这样，通过针对各个特征量，即针对各个校正功能对校正参数进行学习的结构，即使是具有多种校正功能的电动机驱动装置，也能够容易地对校正参数进行调整，其中，该校正参数用于决定电动机驱动装置的指令值的校正条件。另外，通过对校正参数进行学习，从而与对指令值本身或校正量本身进行学习的情况相比，能够以较少的存储器实现有效的校正。

实施方式2.

图12是表示本发明的实施方式2涉及的校正参数调整装置1a的结构的图。校正参数调整装置1a具有调整条件输入部11、校正功能选择部12、驱动数据取得部13a、特征量提取部14、校正参数决定部15、机器学习装置100。

实施方式2涉及的校正参数调整装置1a除了替代实施方式1涉及的校正参数调整装置1的驱动数据取得部13而具有驱动数据取得部13a这方面之外，与校正参数调整装置1相同，因此，下面主要对与实施方式1不同的方面进行说明。在校正参数调整装置1a的调整对象即电动机驱动装置99设置传感器21。驱动数据取得部13a除了电动机驱动装置99的控制信号即驱动数据之外，还取得传感器21的检测信号作为驱动数据。

传感器21为加速度传感器、温度传感器、位移传感器等。在电动机驱动装置99可以安装1个种传感器21，也可以安装多种传感器21。

例如，在作为传感器21而使用加速度传感器的情况下，如果安装于机械装置3的工作台84，则能够提取通过电动机驱动装置99的控制信号不能够取得的与机械装置3的工作台84的振动相关的特征量，用作状态变量。如果对加速度传感器的信号进行积分，则能够对工作台84的运动轨迹进行推定，能够提取工作台84的运动轨迹作为特征量，用作状态变量。通过将加速度传感器安装于工作台84，从而例如能够对如下的校正参数进行调整，即，能够提高机械前端的摩擦校正功能的效果的校正参数。并且，通过分别提取加工中的加速度和非加工中的加速度，从而能够对抑制加工干扰的校正功能的校正参数进行调整。

并且，在作为传感器21而使用加速度传感器、温度传感器及位移传感器的情况下，能够高精度地对与热位移相关的校正功能的校正参数进行调整。如以上说明的那样，通过使用传感器21的检测信号，从而能够得到仅通过电动机驱动装置99的控制信号即驱动数据不能够取得的信息，能够使校正参数的调整精度提高。

实施方式3.

图13是表示本发明的实施方式3涉及的校正参数调整装置1b的结构的图。校正参数调整装置1b具有调整条件输入部11、校正功能选择部12、驱动数据取得部13b、特征量提取部14、校正参数决定部15b。

校正参数调整装置1b具有驱动数据取得部13b来替代校正参数调整装置1a的驱动数据取得部13a，具有校正参数决定部15b来替代校正参数决定部15。下面，主要对与校正参数调整装置1a不同的部分进行说明。

驱动数据取得部13b与驱动数据取得部13a相同地，不仅取得电动机驱动装置99的控制信号，还取得传感器21的检测信号作为驱动数据。另外，驱动数据取得部13b将学习用驱动数据De输入至特征量提取部14，不将验证用驱动数据Dv输入至校正参数决定部15b。

校正参数决定部15b基于从调整条件输入部11输入的调整条件、从机器学习装置100输入的学习结果Fr及校正参数信息，决定校正参数，并且对是否结束校正参数的调整处理进行判断。

图14是表示图13所示的校正参数决定部15b的结构的图。校正参数决定部15b具有校正参数计算部51b、模拟部54、校正参数评价部52b、结束判定部53b。

校正参数计算部51b基于从机器学习装置100输入的学习结果Fr、校正参数信息，针对各个校正功能，计算对学习结果Fr进行近似的校正参数。校正参数计算部51b将计算出的校正参数输入至模拟部54、结束判定部53b。

模拟部54使用从校正参数计算部51b输入的校正参数，执行驱动模拟。模拟部54将模拟结果输入至校正参数评价部52b。

校正参数评价部52b对从模拟部54输入的模拟结果所包含的驱动数据进行评价，将评价结果输入至结束判定部53b。结束判定部53b对调整条件和评价结果进行比较，对是否结束校正参数的调整处理进行判断。

如以上说明的那样，就本发明的实施方式3涉及的校正参数调整装置1b而言，由于校正参数决定部15b具有使用校正参数而执行驱动模拟的模拟部54，因此无需对电动机驱动装置99进行驱动即可进行校正参数的验证。因此，能够缩短校正参数的调整所需要的时间。

以上的实施方式所示的结构表示的是本发明的内容的一个例子，也可以与其它的公知的技术组合，在不脱离本发明的主旨的范围，也可以对结构的一部分进行省略、变更。

标号的说明

1、1a、1b校正参数调整装置，2电动机，3机械装置，4电动机位置检测器，5指令值生成部，6伺服控制部，7校正量运算部，11调整条件输入部，12校正功能选择部，13、13a、13b驱动数据取得部，14特征量提取部，15、15b校正参数决定部，16校正功能信息存储部，21传感器，31微分运算器，32位置控制器，33速度控制器，34电流控制器，35驱动数据发送部，41运算装置，42存储器，43存储装置，44通信装置，45输入装置，46显示装置，51、51b校正参数计算部，52、52b校正参数评价部，53、53b结束判定部，54模拟部，61算法选择部，62算法存储部，63特征量计算部，82滚珠丝杠，84工作台，85工作台位置检测器，86a、86b引导机构，87a滚珠前轴承，87b后轴承，88刚性联轴器，89底座，99电动机驱动装置，100机器学习装置，101状态观测部，102学习部，102a回报计算部，102b函数更新部。

Claims

1.一种机器学习装置，其对在具有多种校正功能的电动机驱动装置中在用于控制电动机的指令值的校正时所使用的校正参数进行学习，

该机器学习装置的特征在于，具备：

状态观测部，其将所述校正参数、基于所述校正功能的种类从所述电动机驱动装置的驱动数据针对各个所述校正功能提取出的特征量作为状态变量而进行观测；以及

学习部，其按照基于所述状态变量创建的训练数据组，针对各个所述校正功能对所述校正参数进行学习。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述驱动数据包含来自对所述电动机驱动装置进行驱动的电动机的反馈数据、及所述电动机的控制对象即机械装置的驱动数据中的至少1个。

3.根据权利要求1或2所述的机器学习装置，其特征在于，

所述特征量为多维矢量，为表示每个所述校正功能的所述驱动数据的特性的数据。

4.根据权利要求1或2所述的机器学习装置，其特征在于，

所述学习部具有：

回报计算部，其基于所述状态变量对回报进行计算；以及

函数更新部，其基于所述回报，对用于决定所述校正参数的函数进行更新。

5.根据权利要求4所述的机器学习装置，其特征在于，

所述回报计算部针对各个校正功能对回报进行计算。

6.根据权利要求4所述的机器学习装置，其特征在于，

所述函数更新部针对各个所述校正功能对所述函数进行更新。

7.一种校正参数调整装置，其特征在于，具备：

权利要求1至6中任一项所述的机器学习装置；

校正功能选择部，其对所述多种校正功能中的1个进行选择；

驱动数据取得部，其取得所述驱动数据；

特征量提取部，其基于选择出的所述校正功能、所取得的所述驱动数据，提取所述特征量；

调整条件输入部，其输入所述校正参数的调整条件；以及

校正参数决定部，其基于所述学习部的学习结果，决定满足所述调整条件的所述校正参数。

8.根据权利要求7所述的校正参数调整装置，其特征在于，

所述校正功能选择部对所述多种校正功能中的大于或等于2个进行选择。

9.根据权利要求7所述的校正参数调整装置，其特征在于，

所述校正功能选择部依次对预先确定的校正功能的组合进行选择。

10.根据权利要求7所述的校正参数调整装置，其特征在于，

具有算法选择部，该算法选择部对针对所选择的各个校正功能从驱动数据提取特征量所使用的算法进行选择。

11.根据权利要求7所述的校正参数调整装置，其特征在于，

所述驱动数据为来自对所述电动机驱动装置进行驱动的电动机的反馈数据。

12.根据权利要求7所述的校正参数调整装置，其特征在于，

所述驱动数据为所述电动机的控制对象即机械装置的驱动数据。

13.根据权利要求12所述的校正参数调整装置，其特征在于，

所述机械装置的驱动数据为从设置于所述机械装置的传感器取得的检测数据。

14.根据权利要求7至13中任一项所述的校正参数调整装置，其特征在于，

所述校正参数决定部具备：

校正参数计算部，其基于所述学习结果对校正参数进行计算，将计算出的所述校正参数发送至所述电动机驱动装置；

校正参数评价部，其对基于计算出的所述校正参数得到的驱动结果是否满足所述调整条件进行评价；以及

结束判定部，其基于所述校正参数评价部的评价结果，对是否结束所述校正参数的调整进行判定。

15.根据权利要求14所述的校正参数调整装置，其特征在于，

所述校正参数评价部使用在实际驱动了所述电动机驱动装置时取得的驱动数据、及在模拟了所述电动机驱动装置的动作时取得的驱动数据中的至少1个而进行评价。

16.一种机器学习方法，其对在具有多种校正功能的电动机驱动装置中在用于控制电动机的指令值的校正时所使用的校正参数进行学习，

该机器学习方法的特征在于，包含如下步骤：

将所述校正参数、基于所述校正功能的种类从所述电动机驱动装置的驱动数据针对各个所述校正功能提取出的特征量作为状态变量而进行观测；以及

按照基于所述状态变量创建的训练数据组，针对各个所述校正功能对所述校正参数进行学习。