CN110083080B

CN110083080B - 机器学习装置及方法、伺服电动机控制装置及系统

Info

Publication number: CN110083080B
Application number: CN201910063984.0A
Authority: CN
Inventors: 中村勉; 猪饲聪史
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-01-25
Filing date: 2019-01-23
Publication date: 2020-12-18
Anticipated expiration: 2039-01-23
Also published as: CN110083080A; JP2019128830A; JP6697491B2; US10824121B2; DE102019200080A1; US20190227502A1

Abstract

本发明提供机器学习装置及方法、伺服电动机控制装置及系统。机器学习装置对具有变更部的伺服电动机控制装置进行机器学习，该变更部变更控制伺服电动机的控制部的参数，以及位置指令与转矩指令中的至少一个的校正值，该机器学习装置具有：状态信息取得部，其通过使伺服电动机控制装置执行预定的程序，取得包含位置指令、包含位置偏差的伺服状态、参数与校正值的组合的状态信息；行为信息输出部，其输出包含状态信息所包含的参数与校正值的组合的调整信息在内的行为信息；回报输出部，其输出基于状态信息所包含的位置偏差的强化学习中的回报的值；以及价值函数更新部，其根据由回报输出部输出的回报的值、状态信息和行为信息，更新行为价值函数。

Description

机器学习装置及方法、伺服电动机控制装置及系统

技术领域

本发明涉及对伺服电动机控制装置进行与参数和校正值有关的学习的机器学习装置、包含该机器学习装置在内的伺服电动机控制装置和伺服电动机控制系统、以及机器学习方法，所述伺服电动机控制装置对作用于控制对象的负载的变动来变更控制伺服电动机的控制部的该参数，以及位置指令和转矩指令中的至少一个的校正值。

背景技术

以往的伺服电动机控制装置例如已知有专利文献1所记载的数值控制装置、专利文献2所记载的机械装置的控制装置、专利文献3所记载的电动机的控制装置、以及专利文献4所记载的伺服控制装置。

专利文献1所记载的数值控制装置将机床的进给轴的移动范围划分成多个区域，并预先存储与所划分的多个区域的每一个对应的多个控制参数。检测工件加工时的进给轴的位置，从所存储的多个控制参数中读出与所检测的工件加工时的进给轴的位置所属的划分出的区域对应的控制参数，并使用读出的控制参数来控制进给轴。此外，数值控制装置将来自转矩前馈控制部的输出与来自速度反馈控制部的输出相加，经由带阻滤波器向进给轴电动机驱动部供给该加算值，由此，驱动进给轴电动机。

专利文献2所记载的机械装置的控制装置根据从机械装置输出的速度来推定机械装置产生的摩擦力，将比例增益与推定出的摩擦力相乘而求出摩擦校正值，使用求出的摩擦校正值来校正转矩指令。比例增益根据从针对机械装置的位置指令到位置偏差的传递函数的增益特性来决定。

专利文献3所记载的电动机的控制装置具有：第一学习控制器，其以第一电动机的位置偏差为最小的方式来计算位置偏差校正量；以及第二学习控制器，其以第二电动机的位置偏差为最小的方式来计算位置偏差校正量，通过将决定学习控制的响应性的参数设为相同，而将各电动机的响应性设为同等。

专利文献4所记载的伺服控制装置对驱动原动轴的主侧驱动源、与驱动从动轴的从属侧驱动源进行同步控制。并且，该伺服控制装置求出主侧驱动源的位置偏差与从属侧驱动源的位置偏差之差即同步误差，并根据针对从属侧的驱动源的位置指令值来校正从属侧驱动源的位置偏差，以减小同步误差。学习控制部接收同步误差，并根据该同步误差来计算校正进给侧伺服电动机的位置偏差的校正数据。

现有技术文献

专利文献1：国际公开第2012-057219号

专利文献2：日本特开2015-156194号公报

专利文献3：日本特开2009-106034号公报

专利文献4：日本特开2008-225533号公报

有时作用于由伺服电动机控制装置控制的控制对象的负载因控制对象的旋转轴的角度或控制对象的驱动体的位置等而发生变动。针对该负载的变动，变更控制伺服电动机的控制部的参数以及位置指令和转矩指令中的至少一个的校正值在伺服性能提升方面尤为重要。在针对作用于控制对象的负载的变动使控制部的参数与校正值变更时，根据控制对象的旋转轴的角度、控制对象的驱动体的位置将控制部的参数的值与校正值设定为怎样的值成为问题。

发明内容

本发明的目的在于提供一种机器学习装置、伺服电动机控制装置、伺服电动机控制系统、以及机器学习方法，能够针对作用于控制对象的负载的变动，将伺服电动机控制装置的控制部的参数的值以及位置指令和转矩指令中的至少一个的校正值设定为适当值，实现伺服性能的提升。

(1)本发明的机器学习装置(例如，后述的机器学习装置300)对具有变更部(例如，后述的变更部206)的伺服电动机控制装置(例如，后述的伺服电动机控制装置200)进行机器学习，所述变更部变更根据位置指令来控制伺服电动机(例如，后述的伺服电动机101)的控制部(例如，后述的控制部204)的参数，以及所述位置指令和转矩指令中的至少一个的校正值，

所述机器学习装置具有：状态信息取得部(例如，后述的状态信息取得部301)，其通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，所述状态信息包含所述位置指令、至少包含位置偏差在内的伺服状态、所述控制部的参数与所述校正值的组合；

行为信息输出部(例如，后述的行为信息输出部303)，其对所述伺服电动机控制装置输出行为信息，所述行为信息包含所述状态信息所包含的所述参数与所述校正值的组合的调整信息；

回报输出部(例如，后述的回报输出部3021)，其输出基于所述状态信息所包含的所述位置偏差的强化学习中的回报的值；以及

价值函数更新部(例如，后述的价值函数更新部3022)，其根据由所述回报输出部输出的回报的值、所述状态信息和所述行为信息，更新行为价值函数。

(2)在上述(1)的机器学习装置中，所述回报输出部可以根据所述位置偏差的绝对值来输出所述回报的值。

(3)在上述(1)或(2)的机器学习装置中，还可以具有：最优化行为信息输出部(例如，后述的最优化行为信息输出部305)，其根据由所述价值函数更新部更新的价值函数，生成所述控制部的参数和所述位置指令与所述转矩指令中的至少一个的所述校正值的组合并输出给所述变更部。

(4)本发明的伺服电动机控制系统(例如，后述的伺服电动机控制系统10)具有：上述(1)～(3)中任一项所记载的机器学习装置(例如，后述的机器学习装置300)；伺服电动机控制装置(例如，后述的伺服电动机控制装置200)，其具有变更部(例如，后述的变更部206)，该变更部变更根据位置指令来控制伺服电动机的控制部(例如，后述的控制部204)的参数，以及位置指令和转矩指令中的至少一个的校正值；以及由该伺服电动机控制装置控制的控制对象(例如，后述的控制对象100、110、120)。

(5)在上述(4)的伺服电动机控制系统中，所述控制对象(例如，后述的控制对象100)可以具有伺服电动机和由该伺服电动机来控制旋转角度的驱动体(例如，后述的倾斜机构104)，并依赖于所述旋转角度使所述驱动体的旋转轴承受的负载变动。

(6)在上述(4)的伺服电动机控制系统中，所述控制对象(例如，后述的控制对象110或120)可以具有伺服电动机和由该伺服电动机来控制位置的驱动体(例如，后述的主轴头113或螺母124)，并依赖于所述位置使所述控制对象承受的负载变动。

(7)在上述(5)或(6)的伺服电动机控制系统中，所述负载可以随时间变化。

(8)在上述(4)～(7)中任一项的伺服电动机控制系统中，所述伺服电动机控制装置的所述控制部可以具有：位置控制部(例如，后述的位置控制部2041)，其根据所述位置指令生成速度指令；速度控制部(例如，后述的速度控制部2043)，其根据从该位置控制部输出的速度指令来生成所述转矩指令；以及滤波器(例如，后述的滤波器2044)，其使从该速度控制部输出的所述转矩指令的预定频率范围内的频率的信号衰减，

所述变更部根据所述行为信息来变更所述位置控制部和所述速度控制部中的至少一个的增益、所述滤波器的滤波系数、附加到所述位置指令或所述转矩指令中的转矩偏移值和摩擦校正值中的至少一个。

(9)本发明有关的伺服电动机装置(例如，后述的伺服电动机控制装置200)，具有：上述(1)～(3)中任一项的机器学习装置(例如，后述的机器学习装置300)；变更部(例如，后述的变更部206)，所述变更部根据来自所述机器学习装置的行为信息，变更根据位置指令控制伺服电动机的控制部(例如，后述的控制部204)的参数，以及位置指令和转矩指令中的至少一个的校正值。

(10)本发明有关的机器学习装置(例如，后述的机器学习装置300)的机器学习方法，用于对具有变更部(例如，后述的变更部206)的伺服电动机控制装置(例如，后述的伺服电动机控制装置200)进行机器学习，所述变更部变更根据位置指令来控制伺服电动机的控制部(例如，后述的控制部204)的参数，以及所述位置指令和转矩指令中的至少一个的校正值，

所述机器学习方法执行以下内容：

通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，所述状态信息包含所述位置指令、至少包含位置偏差在内的伺服状态、所述控制部的参数与所述校正值的组合，

对所述伺服电动机控制装置输出行为信息，所述行为信息包含所述状态信息所包含的所述参数与所述校正值的组合的调整信息，

根据基于所述状态信息所包含的所述位置偏差的强化学习中的回报的值、所述状态信息和所述行为信息，更新行为价值函数。

发明效果

根据本发明，针对作用于控制对象的负载的变动，能够将伺服电动机控制装置的控制部的参数的值以及位置指令和转矩指令中的至少一个的校正值设定为适当值，实现伺服性能的提升。

附图说明

图1是表示本发明的第一实施方式的伺服电动机控制系统的框图。

图2是表示由伺服电动机控制装置驱动的控制对象的一例的结构的图。

图3是表示装载有工件的倾斜机构的一例的结构的图。

图4是表示图3所示的工件旋转90度时的倾斜机构的一例的结构的图。

图5是表示本发明的第一实施方式的伺服电动机控制系统的伺服电动机控制装置与机器学习装置的组合、以及控制对象所包含的伺服电动机的框图。

图6是说明图2的控制对象的转矩因旋转角度而变化的图。

图7是表示本发明的第一实施方式的机器学习装置的框图。

图8是说明机器学习装置的动作的流程图。

图9是详细表示图8的流程图的步骤S15的图。

图10是说明第一实施方式的机器学习装置的最优化行为信息输出部的动作的流程图。

图11是表示成为本发明的第二实施方式的伺服电动机控制系统的控制对象的门型机械的结构的示意结构图。

图12是表示成为本发明的第三实施方式的伺服电极控制系统的控制对象的、包含伺服电动机在内的机床的框图。

符号说明

10 伺服电动机控制系统

100、100-1～100-n、110、120 控制对象

101 伺服电动机

200、200-1～200-n 伺服电动机控制装置

201 位置指令制作部

202 加法器

203 减法器

204 控制部

300、300-1～300-n 机器学习装置

301 状态信息取得部

302 学习部

303 行为信息输出部

304 价值函数存储部

305 最优化行为信息输出部

400 网络。

具体实施方式

以下，使用附图对本发明的实施方式进行详细说明。

(第一实施方式)

图1是表示本发明的第一实施方式的伺服电动机控制系统的框图。伺服电动机控制系统10如图1所示，具有：n台控制对象100-1～100-n、n台伺服电动机控制装置200-1～200-n、n台机器学习装置300-1～300-n、以及网络400。另外，n是任意自然数。

控制对象100-1～100-n分别与伺服电动机控制装置200-1～200-n连接。控制对象100-1～100-n例如是包含伺服电动机在内的机床、机器人、或工业机械等。伺服电动机控制装置200-1～200-n可以设置为机床、机器人、或工业机械等的一部分。

伺服电动机控制装置200-1与机器学习装置300-1为1对1的组，并可通信地连接。伺服电动机控制装置200-2～200-n和机器学习装置300-2～300-n与伺服电动机控制装置200-1和机器学习装置300-1同样地连接。在图1中，伺服电动机控制装置200-1～200-n与机器学习装置300-1～300-n的n个组经由网络400连接，但是伺服电动机控制装置200-1～200-n与机器学习装置300-1～300-n的n个组可以分别经由连接接口来直接连接。这些伺服电动机控制装置200-1～200-n与机器学习装置300-1～300-n的n个组，例如可以多组设置在同一个工厂中，也可以分别设置于不同的工厂中。

另外，网络400例如是在工厂内构建的LAN(Local Area Network：局域网)、互联网、公共电话网、或者经由连接接口的直接连接、或者它们的组合。对于网络400中的具体的通信方式以及是有线连接还是无线连接等，并没有特别限定。

首先，对本实施方式的控制对象100进行说明。

图2是表示由伺服电动机控制装置驱动的控制对象的一例的结构的图。图2所示的控制对象100具有：由从伺服电动机控制装置200输出的电流所控制的伺服电动机101、编码器(成为位置检测部和速度检测部)102、检测从伺服电动机控制装置200输出的电流的电流检测部103、以及倾斜机构104。控制对象100例如对应于图1的控制对象100-1。

图3是表示装载有工件的倾斜机构的一例的结构的图。图4是表示图3所示的工件旋转90度时的倾斜机构的一例的结构的图。

如图3所示，倾斜机构104通过伺服电动机101相对于B轴旋转驱动，并使由工具加工的工件105倾斜。倾斜机构104例如由装载有工件105的工作台1041和具有倾斜轴(旋转轴)的一对支承部件1042构成。这样，倾斜机构104具有相对于B轴不对称的结构。

工件105在工作台1041上通过其他伺服电动机相对于C轴旋转驱动。图3表示B轴的轴向与工件105的长边方向为平行状态的倾斜机构104，图4示出了图3所示的工件旋转90度，工件105的长边方向相对于B轴的轴向为直角状态的倾斜机构104。

电流检测部103例如是使用了电流互感器或分流电阻器的电流传感器。由电流检测部103检测出的电流被用作电流反馈(电流FB)。

编码器102与伺服电动机101关联设置，检测伺服电动机101的旋转位置。由于伺服电动机101的旋转位置与倾斜机构104的位置相对应，因此编码器102检测倾斜机构104的位置(机械坐标，换言之倾斜角度(旋转角度))。检测出的位置被用作位置反馈(位置FB)。此外，编码器102检测伺服电动机101的转速。由于伺服电动机101的转速与倾斜机构104的速度相对应，因此编码器102检测倾斜机构104的速度。检测出的速度被用作速度反馈(速度FB)。

接下来，对伺服电动机控制装置200进行说明。

图5是表示本发明的第一实施方式的伺服电动机控制系统的伺服电动机控制装置200与机器学习装置300的组、和控制对象所包含的伺服电动机的框图。图5的伺服电动机控制装置200和机器学习装置300例如与图1所示的伺服电动机控制装置200-1和机器学习装置300-1相对应。

如图5所示，伺服电动机控制装置200具有：位置指令制作部201、加法器202、减法器203、控制部204、校正部205以及变更部206。

控制部204具有：位置控制部2041、减法器2042、速度控制部2043、滤波器2044、减法器2045、加法器2046以及电流控制部2047。控制部204控制伺服电动机101的旋转。另外，控制部204中可以包含加法器202、减法器203、校正部205以及变更部206中的一部分或全部。

伺服电动机101的转速通过与伺服电动机101关联起来的编码器102来检测，检测出的速度检测值作为速度反馈(速度FB)被输入到减法器2042。此外，由编码器102检测出的位置检测值作为位置反馈(位置FB)被输入到减法器203。电流检测部103检测从控制部204输入到伺服电动机101的电流，电流检测值作为电流反馈(电流FB)被输入到减法器2045。

位置指令制作部201按照从未图示的上级控制装置或外部输入装置等输入的程序，制作用于使伺服电动机101动作的位置指令值，并将制作出的位置指令值输出给加法器202和机器学习装置300。位置指令制作部201为了使伺服电动机101的速度变化而改变脉冲频率来制作位置指令值，使得成为由程序指定的加工形状。

加法器202将从校正部205输出的位置指令校正值与位置指令值相加，将该加算值输出给减法器203。

减法器203求出通过位置指令校正值校正过的位置指令值与位置反馈的位置检测值之差，将该差作为位置偏差输出给位置控制部2041和机器学习装置300。

位置控制部2041例如将预先设定的位置增益Kp乘以从减法器203输出的位置偏差而得的值作为速度指令值输出给减法器2042。

减法器2042求出位置控制部2041的输出与速度反馈的速度检测值之差，将该差作为速度偏差输出给速度控制部2043。

速度控制部2043例如将预先设定的积分增益K1v乘以从减法器2042输出的速度偏差并积分而得的值、与预先设定的比例增益K2v乘以从减法器2042输出的速度偏差而得的值相加，作为转矩指令值输出给滤波器2044。滤波器2044例如是抑制振动用的陷波滤波器，根据滤波器常数使预定频率范围的频率信号(转矩指令值)衰减，输出给减法器2045。

减法器2045求出从滤波器2044输出的转矩指令值与电流反馈的电流检测值之差，将该差作为电流偏差输出给加法器2046。

加法器2046将从减法器2045输出的电流偏差与校正部205的输出相加，将通过相加而被校正的电流偏差输出给电流控制部2047。

电流控制部2047根据被校正过的电流偏差来控制伺服电动机101。

校正部205将转矩偏移值输出给加法器2046。校正部205可以不将转矩偏移值与从减法器2045输出的电流偏差相加，而向加法器202输出位置指令校正值，并将位置指令校正值与从位置指令制作部201输出的位置指令值相加来作为转矩偏移的替代。此外，校正部205可以将转矩偏移值与从减法器2045输出的电流偏差相加，并且将位置指令校正值与从位置指令制作部201输出的位置指令值相加。在图5中校正部205连接到加法器202和加法器2046，但是也可以连接到某一个。在校正部205只将转矩偏移值输出给加法器2046时，可以不设置加法器202，在只将位置指令校正值输出给加法器202时，可以不设置加法器2046。

变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更位置控制部2041的位置增益Kp、滤波器2044的滤波系数、和从校正部205输出的转矩偏移值或位置指令校正值。机器学习装置300的详细情况在后面叙述。

当伺服电动机101相对于B轴旋转驱动倾斜机构104时，B轴承受的负载惯性根据工作台1041上的工件105相对于C轴的旋转位置而变化。B轴承受的负载惯性依赖于围绕B轴的惯性力矩，但是基于工作台1041与支承部件1042的围绕B轴的惯性力矩在图3的状态和图4的状态下不变。但是，基于工件105的围绕B轴的惯性力矩根据工作台1041上的工件105相对于C轴的旋转位置而变化。如图3所示，在B轴的轴向与工件105的长边方向为平行状态时，工件105围绕B轴的惯性力矩最小。另一方面，如图4所示，在工件105的长边方向相对于B轴的轴向为直角状态时，工件105围绕B轴的惯性力矩最大。因此，B轴承受的负载惯性在图3的状态时为最小，在图4的状态时为最大。

当作用于B轴的负载惯性变大时，驱动力不足而工件105的位置到达目标位置的时间延迟。因此，理想的是，在负载惯性小时，位置控制部2041的位置增益Kp小，在负载惯性大时，位置控制部2041的位置增益Kp大。例如，对于位置增益Kp，在将固定值设为b，将校正系数(参数)设为c，将角度θ设为C轴的旋转角度时，能够通过Kp＝b+c×|sinθ|来表示。在这里，角度θ在图3的状态时设为0°，在图4的状态时设为90°。变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更位置增益Kp的校正系数c。

此外，当作用于B轴的负载惯性小时具有高频的机构共振特性，当作用于B轴的负载惯性大时具有低频的机构共振特性。因此，设置成：在负载惯性小时将滤波器2044的滤波系数设定成使高频的信号衰减，在负载惯性大时将滤波器2044的滤波系数设定成使低频的信号衰减。例如，对于滤波系数F，在将固定值设为d，将校正系数(参数)设为e，将依赖于角度θ的函数设为f(θ)时，能够通过F＝d+e×f(θ)来表示。函数f(θ)是由滤波器2044的电路结构而适当决定的函数。变更部206根据来自机器学习装置300的行为信息或最优化行为信息来变更校正系数e。

在图2所示的控制对象100中，用于抵抗重力的稳定转矩根据B轴的位置而变化。例如，在B轴为横向(水平)时，施加给B轴的重力的影响最大，在B轴为垂直方向时，没有施加给B轴的重力的影响。

在B轴为横向(水平)时，若倾斜机构104相对于B轴进行旋转驱动，则由于作用于工件105、工作台1041和支承部件1042的重力和旋转的影响，相对于B轴的转矩根据装载工件105的工作台1041和支承部件1042的位置而变化。相对于B轴的转矩例如，如图6所示，在装载了工件105的工作台1041围绕B轴旋转时，重心的位置相对于装载了工件105的工作台1041的旋转从位置P1移动至位置P2，从位置P2移动至位置P3。在重心的位置P1处，重力方向与旋转方向一致，在位置P2处，重力方向与旋转方向相差90度，在位置P3处，重力方向与旋转方向相反。

因此，变更从校正部205输出的转矩偏移值或位置指令校正值，以便在重力的影响变大时，转矩偏移值变大，在重力的影响变小时，转矩偏移值变小。例如，对于转矩偏移值或位置指令校正值，在将固定值设为h，将校正系数(参数)设为g时，能够通过h+g×sinφ来表示。在这里，角度φ在图6的位置P1时设为-90°，在位置P2时设为0°，在位置P3时设为90°。另外，位置P1、位置P2和位置P3是装载工件105的工作台1041的重心位置的一例，并非特别限定于该位置。变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更校正系数g。另外，由于重力的影响随着B轴靠近垂直方向而变小，因此适当设定固定值h和校正系数g的初始值。

另外，在负载惯性变化时，可以不改变位置控制部2041的位置增益Kp，而改变速度控制部2043的积分增益K1v与比例增益K2v中的至少一个。此外，也可以改变位置控制部2041的位置增益Kp、以及速度控制部2043的积分增益K1v和比例增益K2v中的至少一个。该情况下，变更部206不变更位置增益Kp的校正系数c，或者在变更校正系数c的同时，变更速度控制部2043的积分增益K1v与比例增益K2v中的至少一个的校正系数。

对于从控制部204到机器学习装置300，位置控制部2041发送校正系数c，滤波器2044发送滤波系数F的校正系数e，校正部205发送校正系数g。

<机器学习装置300>

机器学习装置300通过执行预先设定的评价用的程序(以下，称为“评价用程序”)，能够学习伺服电动机控制装置200中的控制部204的位置控制部2041的位置增益Kp的校正系数c、控制部204的滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值或/和位置指令校正值的校正系数g。机器学习装置300可以不学习位置增益Kp的校正系数c，或者在学习校正系数c的同时，学习速度控制部2043的积分增益K1v与比例增益K2v中的至少一个的校正系数。

此外，作为进行加工之前的准备阶段，机器学习装置300能够使用实际使用的加工程序而不是评价用程序来进行学习。评价用程序或在准备阶段实际使用的加工程序称为预定的程序。以下，说明机器学习装置300通过执行评价用程序作为预定的程序来进行学习。此外，说明机器学习装置300学习校正部205的转矩偏移值的校正系数g。

首先，对机器学习装置300的结构进行说明。

机器学习装置300学习根据评价用程序使伺服电动机控制装置200驱动控制对象100时的、用于降低位置偏差的、位置增益Kp的校正系数c和滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的组合。作为评价用程序，准备上述的旋转角度θ和φ的范围的组合不同的多个评价用程序，由机器学习装置300执行这些评价用程序来进行学习。例如，机器学习装置300依次执行在旋转角度θ从0°到30°且旋转角度φ从-30°到30°的范围内使机床动作的第一评价用程序，在旋转角度θ从30°到60°且旋转角度φ从-30°到30°的范围内使机床动作的第二评价用程序，在旋转角度θ从60°到90°且旋转角度φ从-30°到30°的范围内使机床动作的第三评价用程序，来进行学习。

在说明机器学习装置300所包含的各功能块之前，首先对强化学习的基本的机制进行说明。智能体(相当于本实施方式中的机器学习装置300)观察环境的状态，选择某个行为，根据该行为使得环境变化。伴随着环境的变化，获得某种回报，智能体对于选择更好的行为(决策)进行学习。

相对于有监督学习表示完整正确的答案，强化学习的回报大多是基于环境的一部分变化的碎片化的值。因此，智能体对选择行为进行学习，使得将来的回报的总和最大。

这样，在强化学习中，通过对行为进行学习，来学习考虑行为带给环境的相互作用来学习合适的行为，即学习用于使将来得到的回报最大化的学习的方法。这在本实施方式中，表示例如可以获得诸如选择用于降低位置偏差的行为信息这样的对未来产生影响的行为。

在这里，作为强化学习可以使用任意的学习方法，但是在以下的说明中，以Q学习(Q-learning)为例进行说明，所述Q学习是在某环境状态S下，对选择行为A的价值Q(S、A)进行学习的方法。

Q学习的目的在于，在某个状态S时，能够从取得的行为A中选择价值函数Q(S、A)最高的行为A作为最佳的行为。

然而，在最初开始进行Q学习的时间点，针对状态S与行为A的组合，价值函数Q(S、A)的正确值是完全未知的。因此，智能体在某个状态S下选择各种各样的行为A，根据针对当时的行为A赋予的回报来选择更好的行为，由此，学习正确的价值函数Q(S、A)。

此外，由于想要使将来得到的回报的总和最大化，因此以最终成为Q(S、A)＝E[Σ(γ^t)r_t]为目标。在这里，E[]表示期待值，t表示时刻、γ表示后述的被称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的总和。该数学式中的期待值是按照最佳的行为状态发生了变化时的期望值。但是在Q学习的过程中，最佳的行为是未知的，因此对于Q学习，通过进行各种行为，一边搜索一边进行强化学习。像这样的价值函数Q(S、A)的更新式例如能够通过以下的数学式1(以下表示为数学式1)来表示。

【数学式1】

在上述的数学式1中，S_t表示在时刻t的环境的状态，A_t表示在时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示由于该状态的变化而得到的回报。此外，带有max的项是在状态S_t+1下，对选择了当时已知的Q值最高的行为A时的Q值乘以γ的项。在这里，γ是0＜γ≤1的参数，并被称为折扣率。此外，α是学习系数，设为0＜α≤1的范围。

上述的数学式1表示作为试行A_t的结果，以返回的回报r_t+1为基础，对状态S_t下的行为A_t的价值函数Q(S_t、A_t)进行更新的方法。

该更新式表示如果基于行为A_t的下一状态S_t+1下的最佳的行为的价值max_a Q(S_t+1、A)比状态S_t下的行为A_t的价值函数Q(S_t、A_t)大，则增大Q(S_t、A_t)，反之如果小，则减小Q(S_t、A_t)。也就是说，使某个状态下的某个行为的价值接近于基于该行为的下一个状态下的最佳的行为的价值。其中，它们之间的差因折扣率γ和回报r_t+1的状态而变化，但是基本上是如下机制：某个状态下的最佳的行为的价值传播至前一个状态下的行为的价值。

在这里，Q学习是针对所有状态行为对(S、A)生成价值函数Q(S、A)的表来进行学习的方法。但是，存在以下情况：对于求出所有状态行为对的价值函数Q(S、A)的值，状态数量过多，Q学习收敛需要较多的时间。

因此，可以利用公知的被称为DQN(Deep Q-Network：深度强化学习)的技术。具体来说，可以通过使用适当的神经网络构成价值函数Q，并调整神经网络的参数，通过适当的神经网络来近似价值函数Q，由此来计算价值函数Q(S、A)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著(在线)，(2017年1月17日检索)，互联网<URL：http：//files.davidqiu.com/research/nature14236.pdf>

机器学习装置300进行以上说明的Q学习。具体来说，机器学习装置300将伺服电动机控制装置200中的、位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、校正部205的转矩偏移值的校正系数g、和通过执行评价用程序而取得的伺服电动机控制装置200的位置指令与包含位置偏差信息在内的、指令和反馈等的伺服状态作为状态S，针对选择该状态S下的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的调整来作为行为A价值函数Q进行学习。

机器学习装置300根据位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g，观察包含指令和反馈等伺服状态的状态信息S来决定行为A，其中伺服状态包含通过执行评价用程序而得到的伺服电动机控制装置200的位置指令与位置偏差信息。机器学习装置300在每一次进行行为A时返还回报。机器学习装置300例如试错地搜索最佳的行为A，使得将来的回报的总和为最大。由此，机器学习装置300能够根据位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g，针对包含指令、反馈等伺服状态的状态S，选择最佳的行为A(即，位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的最佳组合)，其中，伺服状态包含通过执行评价用程序而得到的伺服电动机控制装置200的位置指令与位置偏差信息。

即，根据由机器学习装置300学习的价值函数Q，选择某个状态S下的、针对位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g采用的行为A中的Q值为最大的行为A。由此，能够选择通过执行评价用程序而取得的位置偏差为最小的行为A(即、位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的组合)。

图7是表示本发明的第一实施方式的机器学习装置300的框图。

为了进行上述的强化学习，如图7所示，机器学习装置300具有状态信息取得部301、学习部302、行为信息输出部303、价值函数存储部304以及最优化行为信息输出部305。

状态信息取得部301根据伺服电动机控制装置200中的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g，从伺服电动机控制装置200取得包含指令、反馈等的伺服状态的状态S，该伺服状态包含通过执行评价用程序而取得的伺服电动机控制装置200的位置指令和位置偏差。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部301对学习部302输出所取得的状态信息S。

另外，设为由用户预先生成最初开始Q学习的时间点的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g。在本实施方式中，机器学习装置300例如通过强化学习，将用户制作出的、位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的初始设定值调整为最佳的值。

学习部302是对于在某个环境状态S下选择某种行为A时的价值函数Q(S、A)进行学习的部分。具体来说，学习部302具有回报输出部3021、价值函数更新部3022以及行为信息生成部3023。

回报输出部3021是计算在某个状态s下选择了行为A时的回报的部分。在这里，用PD(S)来表示状态S下的状态变量的位置偏差值的集合(位置偏差集合)，用PD(S’)来表示因行为信息A(位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的修正)而从状态S变化后的状态信息S’下的状态变量的位置偏差集合。此外，状态s下的位置偏差的值为根据预先设定的评价函数f(PD(s))计算出的值。

作为评价函数f，例如能够应用以下函数：

计算位置偏差的绝对值的累计值的函数

∫|e|dt

对位置偏差的绝对值进行时间的加权来计算累计值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n是自然数)次方的累计值的函数

∫e²ⁿdt(n是自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}。

这里，在评价函数f中，e表示位置偏差。另外，评价函数并不限定于此。状态S下的评价函数只要是根据位置偏差集合PD(S)恰当地对评价状态S下的位置偏差值进行评价的函数即可。

此时，当使用通过行为信息A修正后的状态信息S’所涉及的修正后的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S’))大于使用通过行为信息A修正前的状态信息S所涉及的修正前的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S))时，回报输出部3021使回报的值为负值。

另一方面，当使用通过行为信息A修正后的状态信息S’所涉及的修正后的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S’))小于使用通过行为信息A修正前的状态信息S所涉及的修正前的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S))时，使回报的值为正值。

另外，当使用通过行为信息A修正后的状态信息S’所涉及的修正后的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S’))等于使用通过行为信息A修正前的状态信息S所涉及的控制部204和校正部205来进行动作的伺服电动机控制装置200的位置偏差的评价函数值f(PD(S))时，回报输出部3021例如使回报的值为零。

此外，可以根据比例使得执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))大于前一状态S下的位置偏差的评价函数值f(PD(S))时的负值增大。也就是说，可以根据位置偏差的评价函数值变大的程度，来使负值增大。反之，可以根据比例使得执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))小于前一状态S下的位置偏差的评价值f(PD(S))时的正值增大。也就是说，可以根据位置偏差的评价函数值变小的程度，来使正值增大。

价值函数更新部3022根据状态S、行为A、将行为A应用于状态S时的状态S’、以及如上所述计算出的回报的值来进行Q学习，由此来更新价值函数存储部304所存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习通过将某个行为A应用于当前状态S，从而在每次状态S迁移至新的状态S’时，立即进行价值函数Q的更新的学习方法。此外，批量学习是通过重复进行将某种行为A应用于当前的状态S，从而使状态S迁移至新的状态S’的处理，来收集学习用的数据，使用收集到的所有学习用数据来进行价值函数Q的更新的学习方法。并且，小批量学习是在线学习与批量学习之间的在每次积累了某种程度的学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部3023针对当前的状态S选择Q学习的过程中的行为A。在Q学习的过程中，为了进行伺服电动机控制装置200的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的修正动作(相当于Q学习中的行为A)，行为信息生成部3023生成行为信息A，并将所生成的行为信息A输出给行为信息输出部303。更具体来说，例如针对状态S中包含的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g，行为信息生成部3023以渐进地方式加上或者减去行为A中包含的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g。该情况下，调整滤波系数的校正系数e，使得当位置控制部2041的位置增益Kp减小时，使高频的信号衰减。

并且，应用位置增益Kp的校正系数c、滤波系数F的校正系数e、以及转矩偏移值的校正系数g的增加或减少来迁移至状态S’，当给予了正的回报(正值的回报)时，行为信息生成部3023可以采取如下策略：针对位置增益Kp的校正系数c、滤波系数F的校正系数e、以及转矩偏移值的校正系数g，选择与前次的动作同样地以渐进的方式加上或减去等、使位置偏差值变得更小那样的行为A’，来作为下一个行为A’。

此外，相反地，当给予了负的回报(负值的回报)时，行为信息生成部3023还可以采取如下策略：例如针对位置增益Kp的校正系数c、滤波系数F的校正系数e、以及转矩偏移值的校正系数g，选择与前次的动作相反地以渐进地方式减去或者加上等、位置偏差比前次的值变得更小那样的行为A’，来作为下一行为A’。

此外，行为信息生成部3023也可以采取如下策略：通过在当前推定的行为A的价值中，选择价值函数Q(S、A)最高的行为A’的贪婪算法、或者以某个小的概率ε来随机选择行为A’，在此之外选择价值函数Q(S、A)最高的行为A’的ε贪婪算法这样的公知的方法，来选择行为A’。

行为信息输出部303是将从学习部302输出的行为信息A发送给伺服电动机控制装置200的变更部206的部分。如上所述，伺服电动机控制装置200根据该行为信息，对在当前状态S下，即当前所设定的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g稍微进行修正，由此转移到下一个状态S’(即，修正后的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g)。

价值函数存储部304是存储价值函数Q的存储装置。价值函数Q例如可以针对每个状态S、每个行为A而保存为表(以下，称为行为价值表)。通过价值函数更新部3022来更新存储于价值函数存储部304的价值函数Q。此外，可以与其他机器学习装置300共享存储于价值函数存储部304的价值函数Q。如果在多个机器学习装置300之间共享价值函数Q，则能够通过各机器学习装置300分散地进行强化学习，因此能够提高强化学习的效率。

最优化行为信息输出部305根据价值函数更新部3022进行Q学习而更新后的价值函数Q，生成用于使控制部204以及校正部205进行价值函数Q(S、A)成为最大的动作的行为信息A(以下，称为“最优化行为信息”)。

更具体来说，最优化行为信息输出部305取得价值函数存储部304所存储的价值函数Q。如上所述，该价值函数Q是通过价值函数更新部3022进行Q学习而更新后的函数。并且，最优化行为信息输出部305根据价值函数Q生成行为信息，并将所生成的行为信息输出给伺服电动机控制装置200(变更部206)。与行为信息输出部303在Q学习的过程中输出的行为信息一样地，该最优化行为信息包含用于修正位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的信息。

在伺服电动机控制装置200中，根据该行为信息对位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g进行修正，伺服电动机控制装置200能够以减少位置偏差的值的方式来进行动作。

如上所述，通过利用本实施方式的机器学习装置300，能够简化伺服电动机控制装置200的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的调整。

以上，对伺服电动机控制装置200、机器学习装置300所包含的功能块进行了说明。

为了实现这些功能块，伺服电动机控制装置200和机器学习装置300分别具有CPU(Central Processing Unit：中央处理单元)等运算处理装置。此外，伺服电动机控制装置200和机器学习装置300分别还具有存储应用程序软件或OS(Operating System：操作系统)等各种控制用程序的HDD(Hard Disk Drive：硬盘驱动器)等辅助存储装置、以及在运算处理装置执行程序时用于暂时存储所需要的数据的RAM(Random Access Memory：随机存取存储器)这样的主存储装置。

并且，在各个伺服电动机控制装置200和机器学习装置300中，运算处理装置从辅助存储装置读入应用程序软件或OS，一边将读入的应用软件或OS在主存储装置中展开，一边进行基于这些应用软件或OS的运算处理。此外，运算处理装置根据该运算结果，来控制各装置具有的各种硬件。由此，实现本实施方式的功能块。也就是说，本实施方式能够通过硬件与软件的协作来实现。

针对机器学习装置300，伴随机器学习的运算量较多，因此理想的是，机器学习装置300例如在个人计算机中搭载GPU(Graphics Processing Units：，图形处理器)，通过被称为GPGPU(General-Purpose computing on Graphics Processing Units：通用图形处理器)的技术，将GPU用于与机器学习相伴的运算处理。机器学习装置300通过使用GPGPU能够进行高速处理。并且，为了进行更高速的处理，机器学习装置300使用多台搭载了这样的GPU的计算机来构建计算机集群，通过该计算机集群所包含的多个计算机来进行并行处理。

接下来，参照图8和图9的流程图对本实施方式中的Q学习时的机器学习装置300的动作进行说明。图9是详细表示图8的流程图的步骤S15的图。

在步骤S11中，学习部302将试行次数设为1。接下来在步骤S12中，状态信息取得部301从伺服电动机控制装置200取得状态信息S。将取得的状态信息输出给价值函数更新部3022和行为信息生成部3023。如上所述，该状态信息S是相当于Q学习中的状态的信息，包含在步骤S12时间点的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g。如此，取得位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g为初始值时的与加工形状对应的位置偏差的集合PD(S)。

另外，如上所述，由用户来初始设定初始状态S₀下的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g。

通过利用评价用程序使伺服电动机控制装置200动作而从减法器203得到最初开始Q学习的时间点的状态S₀下的位置偏差的值PD(S₀)。位置指令制作部201通过由评价用程序指定的加工形状来依次输出位置指令。从位置指令制作部201输出与加工形状对应的位置指令值，减法器203将位置指令值与位置检测值之差作为位置偏差PD(S₀)输出给机器学习装置300。

在步骤S13中，行为信息生成部3023生成新的行为信息A，并将生成的新的行为信息A经由行为信息输出部303输出给伺服电动机控制装置200。行为信息生成部3023根据上述的策略，输出新的行为信息A。另外，接收到行为信息A的伺服电动机控制装置200通过状态S’，驱动包含伺服电动机的机床，其中，状态S’是根据接收到的行为信息对当前状态S下的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g进行修正后的状态。如上所述，该行为信息相当于Q学习中的行为A。

在步骤S14中，状态信息取得部301从减法器203取得新的状态S’下的位置偏差PD(S’)、和位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g。这样，状态信息取得部301从控制部204和校正部205取得与状态S’下的校正系数c、e和g时的加工形状对应的位置偏差的集合PD(S’)。所取得的状态信息被输出到回报输出部3021。

在步骤S15的步骤S151中，回报输出部3021判断状态S’下的位置偏差的评价函数值f(PD(S’))与状态S下的位置偏差的评价函数值f(PD(S))的大小关系，在f(PD(S’))＞f(PD(S))时，在步骤S152中，使回报为负值。回报输出部3021在f(PD(S’))＜f(PD(S))时，在步骤S153中，使回报为正值。回报输出部3021在f(PD(S’))＝f(PD(S))时，在步骤S154中，使回报为零。另外，回报输出部3021可以对回报的负值、正值进行加权。

当步骤S152、步骤S153和步骤S154的某一个结束时，在步骤S16中，根据通过该某一步骤计算出的回报的值，价值函数更新部3022更新存储于价值函数存储部304的价值函数Q。然后，在步骤S17中，学习部302判断试行次数是否达到最大试行次数，在没有达到最大试行次数时(步骤S17：否)，在步骤S18中对试行次数进行递增计数，并重新返回到步骤S13，通过重复上述处理，价值函数Q逐渐收敛为合适的值。当达到最大试行次数时(步骤S17：是)，学习部302结束处理。另外，可以以在预定时间重复上述处理为条件而结束处理。

另外，步骤S16例示了在线更新，但是也可以不在线更新而换成批量更新或者小批量更新。

以上，通过参照图8和图9所说明的动作，本实施方式获得如下效果：通过利用机器学习装置300，能够得到用于调整位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的合适的价值函数，并能够简化控制部204的增益与滤波系数和校正部205的转矩偏移值的最优化。

接下来，参照图10的流程图，针对由最优化行为信息输出部305进行的生成最优化行为信息时的动作进行说明。

首先，在步骤S21中，最优化行为信息输出部305取得存储于价值函数存储部304的价值函数Q。价值函数Q如上所述，是通过价值函数更新部3022进行Q学习而更新的函数。

在步骤S22中，最优化行为信息输出部305根据该价值函数Q，生成最优化行为信息，将所生成的最优化行为信息输出给伺服电动机控制装置200的变更部206。并且，变更部206使位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g最优化。

此外，通过参照图10所说明的动作，本实施方式根据由机器学习装置300进行学习而求出的价值函数Q，生成最优化行为信息，伺服电动机控制装置200能够根据该最优化行为信息，简化当前所设定的位置控制部2041的位置增益Kp的校正系数c、滤波器2044的滤波系数F的校正系数e、以及校正部205的转矩偏移值的校正系数g的调整，并且降低位置偏差的值。

(第二实施方式)

第一实施方式是控制对象依赖于旋转角度使负载发生变动时的伺服电动机控制系统，而本实施方式针对控制对象110是门型机床，且依赖于位置使负载发生变动时的伺服电动机控制系统进行说明。本实施方式的伺服电动机控制系统针对X方向设置有两个伺服电动机控制装置，针对Y方向设置有一个伺服电动机控制装置，针对Z方向设置有两个伺服电动机控制装置，使得包含主轴头在内的门相对于被加工物相对地向X方向、Y方向、和Z方向移动。除了控制对象以外，伺服电动机控制系统、伺服电动机控制装置以及机器学习装置的基本结构和动作与使用图1～图10所说明的结构和动作一样。在以下的说明中，只对控制对象和与控制对象关联的伺服控制装置进行说明。

图11是表示门型机械的结构的示意结构图。图11所示的门型机械由沿垂直方向设置的支柱111-1、111-2、在支柱111-1、111-2之间沿水平方向设置的支柱112、配置有支柱111-1、111-2的支承台114-1、114-2构成。

主轴头113通过Y轴伺服电动机来相对于支柱112沿Y方向移动。支柱112的一端(图11中的左端)通过第一Z轴伺服电动机相对于支柱111-1沿Z₁方向上下移动。支柱112的另一端(图11中的右端)通过第二Z轴伺服电动机相对于支柱111-2沿Z₂方向上下移动。第一Z轴伺服电动机与第二Z轴伺服电动机连动，使支柱112上下移动。

此外，支柱111-1通过第一X轴伺服电动机相对于支承台114-1沿X₁方向移动。支柱111-2通过第二X轴伺服电动机相对于支承台114-2沿X₂方向移动。第一X轴伺服电动机与第二X轴伺服电动机连动，使由支柱111-1、111-2和支柱112构成的门移动。

在主轴头113相对于支柱112沿Y方向移动时，根据主轴头113的位置，作用于门两侧的负载(作用于支柱112的两端的负载和分别作用于支柱111-1和111-2的负载)发生变化。

因此，在主轴头113相对于支柱112沿Y轴方向移动时，机器学习装置对控制第一和第二X轴伺服电动机的伺服电动机控制装置的控制部和校正部的校正系数(参数)进行学习，并调整该校正系数。此外，机器学习装置还对控制第一和第二Z轴伺服电动机的伺服电动机控制装置的控制部和校正部的校正系数进行学习，并调整该校正系数。

(控制第一和第二Z轴伺服电动机的伺服电动机控制装置以及机器学习装置)

在主轴头113相对于支柱112沿Y轴方向移动时，作用于支柱112两端的负载发生变化，因此，使支柱112沿门的上下方向移动的第一和第二Z轴伺服电动机对应于负载的变动使得转矩发生变化。因此，需要控制第一和第二Z轴伺服电动机的伺服电动机控制装置对转矩偏移进行变更。例如，如图11所示，设主轴头从支柱112的一端(支柱111-1侧)到另一端(支柱111-2侧)可移动距离Wd，且主轴头113从支柱112的一端(支柱111-1侧)移动距离Wd₁。

此时，使支柱112的一端(支柱111-1侧)沿Z₁方向移动的第一Z轴伺服电动机的负载变轻，在将校正系数(参数)设为g2时，转矩偏移值可以用h2-g2×Wd₁来表示。在这里，h2表示Wd₁＝0时的转矩偏移值。另一方面，使支柱112的另一端(支柱111-2侧)沿Z₂方向移动的第二Z轴伺服电动机的负载变重，转矩偏移值可以用h3+g2×Wd₁来表示。在这里，h3表示Wd₁＝0时的转矩偏移值。变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更校正系数g2。

此外，在主轴头113相对于支柱112沿Y轴方向移动时，当作用于支柱112两侧的负载发生变化，则伺服电动机的驱动力发生变化，因此，需要在负载轻的情况下缩小位置控制部2041的位置增益Kp，在负载重的情况下增大位置控制部2041的位置增益Kp。

例如，如图11所示，设主轴头从支柱112的一端(支柱111-1侧)到另一端(支柱111-2侧)可移动距离Wd，且主轴头113从支轴112的一端(支柱111-1侧)移动距离Wd₁。此时，例如使支柱112的一端(支柱111-1侧)沿Z₁方向移动的第一Z轴伺服电动机的控制装置的负载变轻，在将校正系数(参数)设为c2时的、基于距离Wd₁的移动的增益变动量设为c2×Wd₁，并将固定值设为b2时，位置控制部2041的位置增益Kp能够用Kp＝b2-c2×Wd₁来表示。在这里，b2表示Wd₁＝0时的位置增益。另一方面，使支柱112的另一端(支柱111-2侧)沿Z₂方向移动的第二Z轴伺服电动机的控制装置的负载变重，在将校正系数(参数)设为c2时的、基于距离Wd₁的移动的增益变动量设为c2×Wd₁，并将固定值设为b3时，位置控制部2041的位置增益Kp能够用Kp＝b3+c2×Wd₁来表示。在这里，b3表示Wd₁＝0时的位置增益。变更部206根据来自机器学习装置300的行为信息或最优化行为信息来变更位置增益Kp的校正系数c2。

并且，对于控制第一和第二Z轴伺服电动机的伺服电动机控制装置，在负载轻时具有高频的机构共振特性，在负载重时具有低频的机构共振特性。因此，需要控制第一和第二Z轴伺服电动机的伺服电动机控制装置设定滤波器2044的滤波系数，使得在负载轻时高频的信号衰减，在负载重时低频的信号衰减。

例如，如图11所示，设主轴头从支柱112的一端(支柱111-1侧)到另一端(支柱111-2侧)可移动距离Wd，且主轴头113从支柱112的一端(支柱111-1侧)移动距离Wd₁。

此时，使支柱112的一端(支柱111-1侧)沿Z₁方向移动的第一Z轴伺服电动机的负载变轻，在将固定值设为d2、校正系数(参数)设为e2、将依赖于距离Wd₁的函数设为f(Wd₁)时，滤波系数F能够用F＝d2+e2×f(Wd₁)来表示。函数f(Wd₁)是由滤波器2044的电路结构而适当决定的函数。在这里，d2表示Wd₁＝0时的滤波系数。另一方面，使支柱112的另一端(支柱111-2侧)沿Z₂方向移动的第二Z轴伺服电动机的负载变重，对于滤波系数F，在将固定值设为d3、校正系数(参数)设为e2，将依赖于距离Wd₁的函数设为f(Wd₁)时，在距离Wd₁时，滤波系数F能够用F＝d3-e2×f(Wd₁)来表示。在这里，d3表示Wd₁＝0时的滤波系数。变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更校正系数e2。

连接到控制第一和第二Z轴伺服电动机的伺服电动机控制装置的机器学习装置除了来自控制Z轴伺服电动机的伺服电动机控制装置的状态信息之外，还接收控制Y轴伺服电动机的伺服电动机控制装置的位置指令作为状态信息。该位置指令对应于主轴头113的位置，机器学习装置考虑主轴头113的位置，对控制Z轴伺服电动机的伺服电动机控制装置的控制部204的校正系数c2、校正系数e2和校正部205的校正系数g2进行学习，并使控制部204的校正系数c2、校正系数e2以及校正部205的校正系数g2最优化。

(控制第一和第二X轴伺服电动机的伺服电动机控制装置和机器学习装置)

在主轴头113相对于支轴112沿Y轴方向移动时，分别作用于支柱111-1和111-2的负载发生变化，因此，使支柱111-1和111-2相对于支承台114-1、114-2沿X₁方向和X₂方向分别移动时的摩擦力发生变化。因此，需要控制第一和第二X轴伺服电动机的伺服电动机控制装置变更针对转矩的摩擦校正值。

此外，对于控制第一和第二X轴伺服电动机的伺服电动机控制装置，在作用于支柱111-1与支柱111-2的负载发生变化时，伺服电动机的驱动力发生变化，因此，需要在负载轻的情况下减小位置控制部2041的位置增益Kp，在负载重的情况下增大位置控制部2041的位置增益Kp。

并且，对于控制第一和第二X轴伺服电动机的伺服电动机控制装置，在负载轻的情况下具有高频的机构共振特性，在负载重的情况下具有低频的机构共振特性。因此，需要控制第一和第二X轴伺服电动机的伺服电动机控制装置设定滤波器2044的滤波系数，使得在负载轻时高频的信号衰减，在负载重时低频的信号衰减。

与控制第一和第二X轴伺服电动机的伺服电动机控制装置的位置控制部2041的位置增益Kp和滤波器2044的滤波系数的变更相关的说明与上述的控制第一和第二Z轴伺服电动机的伺服电动机控制装置的位置控制部2041的位置增益Kp和滤波器2044的滤波系数的变更相关的说明一样，因此，在这里省略说明。

关于控制第一和第二X轴伺服电动机的伺服电动机控制装置，校正部205将摩擦校正值输出给加法器2046，并将用于计算摩擦校正值的后述的校正系数输出给机器学习装置300。并且，机器学习装置300将摩擦校正值的校正系数的调整值作为行为信息输出给变更部206。

此时，使支柱111-1沿X₁方向移动的第一X轴伺服电动机的负载变轻，在将校正系数(参数)设为j时，摩擦校正值能够用k1-j×Wd₁来表示。在这里，k1表示Wd₁＝0时的摩擦校正值。另一方面，使支柱111-2沿X₂方向移动的第二X轴伺服电动机的负载变重，在将校正系数(参数)设为j时，摩擦校正值能够用k2+j×Wd₁来表示。在这里，k2表示Wd₁＝0时的摩擦校正值。变更部206根据来自机器学习装置300的行为信息或最优化行为信息来变更校正系数j。

连接到控制第一和第二X轴伺服电动机的伺服电动机控制装置的机器学习装置除了来自控制X轴伺服电动机的伺服电动机控制装置的状态信息之外，还接收控制Y轴伺服电动机的伺服电动机控制装置的位置指令作为状态信息。该位置指令对应于主轴头113的位置，机器学习装置考虑主轴头113的位置，对控制X轴伺服电动机的伺服电动机控制装置的校正系数c2’、校正系数e2’和校正部205的校正系数j进行学习，并使控制部204的校正系数c2’、校正系数e2’以及校正部205的校正系数j最优化。校正系数c2’、和e2’表示控制第一和第二X轴伺服电动机的伺服电动机控制装置的位置增益Kp的校正系数、滤波系数F的校正系数。

(第三实施方式)

第一实施方式是控制对象依赖于旋转角度使负载变动时的伺服电动机控制系统，而本实施方式针对控制对象包含滚珠丝杠时的伺服电动机控制系统进行说明。除了控制对象以外，伺服电动机控制系统、伺服电动机控制装置以及机器学习装置的基本结构和动作与使用图1～图10所说明的结构和动作一样。在以下的说明中，只对控制对象和与控制对象关联的伺服控制装置进行说明。

图12是表示成为控制对象120的一例的、包含伺服电动机在内的机床的框图。

控制对象120具有伺服电动机101、连结伺服电动机101与滚珠丝杠123的耦合121、支承单元122、滚珠丝杠123、与滚珠丝杠123螺纹连接的螺母124以及支承单元126。

伺服电动机101经由耦合121、滚珠丝杠123、以及螺母124使工作台125移动，并对搭载于工作台125上的被加工物(工件)进行加工。通过伺服电动机101的旋转驱动，与滚珠丝杠123螺接的螺母124沿滚珠丝杠123的轴向移动。

控制对象120中的摩擦产生在耦合121、支承单元122、126、滚珠丝杠123、螺母124等处，但是在伺服电动机101中也产生摩擦。有时滚珠丝杠因直线轴的局部破损、缺少硅脂油等，造成该局部摩擦变大。

如图12所示，有时滚珠丝杠123因直线轴的局部破损、缺少硅脂油等而造成该局部摩擦变大，在摩擦变大的区域，负载作用于伺服电动机101。在将距支承单元122的距离设为Hd时，摩擦变大的区域是距离Hd从距离Hd₁到距离Hd₂的区域(Hd₁＜Hd＜Hd₂)。在该区域中作用于伺服电动机101的负载发生变化，因此，需要伺服电动机控制装置变更针对转矩的摩擦校正值。包含负载变更的区域时的摩擦校正值f(ω)具有数学式2(以下表示为数学式2)所示的关系。

摩擦表示非线形特性，并被称为非线形摩擦。如数学式2所示，非线形摩擦校正值f(ω)例如包含与电动机速度ω成正比的摩擦校正值mXω、由摩擦变大的区域的摩擦校正值e构成的项f₁(ω)、以及静止时的摩擦校正值f₂(ω)。

如图12所示，在处于距离Hd₁到距离Hd₂的区域中，摩擦变大，在该区域给出摩擦校正值e(e＞0)。

【数学式2】

f_(ω)＝f_1(ω)+f_2(ω)

f_1(ω)＝m×ω+e

变更部206根据来自机器学习装置300的行为信息或最优化行为信息，来变更距离Hd在从距离Hd₁到距离Hd₂的区域内的摩擦校正值e。

机器学习装置考虑摩擦变大的区域的范围(Hd₁＜Hd＜Hd₂)，学习伺服电动机控制装置的控制部204的位置控制部2041的位置增益Kp的校正值q、控制部204的滤波器2044的滤波系数F的校正系数s、以及校正部205的摩擦校正值e，并使位置控制部2041的位置增益Kp的校正值q、控制部204的滤波器2044的滤波系数F的校正系数s、以及校正部205的摩擦校正值e最优化。

关于伺服电动机控制装置，校正部205将摩擦校正值输出给加法器2046，并将摩擦校正值e_(Hd)输出给机器学习装置300。并且，机器学习装置300将摩擦校正值e_(Hd)的调整值作为行为信息输出给变更部206。

校正部205将摩擦校正值f(ω、Hd)作为转矩校正值输出给加法器2046。

以上说明的第一～第三实施方式是依赖于连接到伺服电动机的控制对象的角度或位置的负载的变化，即，是与空间性的负载的变化相关的示例，但是本发明也能够应用于与时间性的负载的变化相关。例如，对于第一～第三实施方式中的控制对象，有时伺服电动机的负载因磨耗和缺少硅脂油等，而随时间变化。

在第一～第三实施方式中，决定了最大试行次数，但是也可以不决定最大试行次数而继续进行机器学习。如果不决定最大试行次数，则根据时间性的负载的变化，调整伺服电动机控制装置的控制部和校正部的参数，因此，即使存在时间性的负载的变化，伺服电动机控制装置也能够以该时间点的最佳的伺服性能来进行动作。

此外，可以设机器学习装置300执行评价用程序或在准备阶段实际使用的加工程序来进行学习，在设定了伺服电动机控制装置的控制部以及校正部的参数之后，使用加工程序来对控制对象进行控制，重复进行机械加工等，机器学习装置300定期或不定期地执行评价用程序或在准备阶段实际使用的加工程序来进行学习，根据时间性的负载的变化，来调整伺服电动机控制装置的控制部以及校正部的参数。

上述的伺服电动机控制装置的伺服电动机控制部和机器学习装置中包含的各结构部能够通过硬件、软件或者它们的组合来实现。此外，通过上述伺服电动机控制装置中包含的各结构部的协作而进行的伺服电动机控制方法也能够通过硬件、软件或者它们的组合来实现。在这里，通过软件来实现是指通过计算机读入并执行程序来实现。

能够使用各种类型的非暂时性的计算机可读介质(non-transitory computerreadable medium)来保存程序，并提供给计算机。非暂时性的计算机可读介质包含各种类型的有形的记录介质(tangible storage medium)。非暂时性的计算机可读介质的示例包含：磁记录介质(例如，硬盘驱动器)、磁光记录介质(例如，磁光盘)、CD-ROM(Read OnlyMemory：只读存储器)、CD-R、CD-R/W、半导体存储器(例如，掩膜ROM、PROM(ProgrammableROM：可编程ROM)、EPROM(Erasable PROM：可擦除PROM)、闪存ROM、RAM(random accessmemory：随机存取存储器))。

上述实施方式是本发明的优选实施方式，但是本发明的范围不仅限定于上述实施方式，在不脱离本发明的主旨的范围内可以通过实施了各种变更后的方式来实施。

<伺服电动机控制装置具有机器学习装置的变形例>

在上述实施方式中，机器学习装置300是由与伺服电动机控制装置200不同的装置而构成的，但是可以通过伺服电动机控制装置200来实现机器学习装置300的功能的一部分或者全部。

<系统结构的自由度>

在上述实施方式中，将机器学习装置300与伺服电动机控制装置200可通信地连接为1对1的组，但是也可以设为例如1台机器学习装置300经由网络400与多台伺服电动机控制装置200可通信地连接，来执行各伺服电动机控制装置200的机器学习。

此时，可以设为机器学习装置300的各功能适当分散于多个服务器的分散处理系统。此外，也可以在云端利用虚拟服务器功能等来实现机器学习装置300的各功能。

此外，当存在分别与相同的型号名称、相同规格或相同系列的多个伺服电动机控制装置200-1～200-n相对应的多个机器学习装置300-1～300-n时，机器学习装置300-1～300-n可以构成为共享各机器学习装置300-1～300-n中的学习结果。由此，可以构建更为最优化的模型。

Claims

1.一种伺服电动机控制系统，具备：伺服电动机控制装置，其具有变更根据位置指令来控制伺服电动机的控制部的参数以及所述位置指令和转矩指令中的至少一个的校正值的变更部；通过该伺服电动机控制装置控制的控制对象；以及对所述伺服电动机控制装置进行机器学习的机器学习装置，其特征在于，

所述机器学习装置具有：

状态信息取得部，其通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，所述状态信息包含所述位置指令、至少包含位置偏差在内的伺服状态、所述控制部的参数与所述校正值的组合；

行为信息输出部，其对所述伺服电动机控制装置输出行为信息，所述行为信息包含所述状态信息所包含的所述参数与所述校正值的组合的调整信息；

回报输出部，其输出基于所述状态信息所包含的所述位置偏差的强化学习中的回报的值；以及

价值函数更新部，其根据由所述回报输出部输出的回报的值、所述状态信息和所述行为信息，更新行为价值函数，

所述伺服电动机控制装置的所述控制部具有：位置控制部，其根据所述位置指令生成速度指令；速度控制部，其根据从该位置控制部输出的速度指令来生成所述转矩指令；以及滤波器，其使从该速度控制部输出的所述转矩指令的预定频率范围内的频率的信号衰减，

所述伺服电动机控制装置的所述变更部根据所述行为信息来变更所述位置控制部和所述速度控制部中的至少一个的增益、所述滤波器的滤波系数以及附加到所述位置指令或所述转矩指令中的转矩偏移值和摩擦校正值中的至少一个。

2.根据权利要求1所述的伺服电动机控制系统，其特征在于，

所述回报输出部根据所述位置偏差的绝对值来输出所述回报的值。

3.根据权利要求1或2所述的伺服电动机控制系统，其特征在于，

所述机器学习装置还具有：最优化行为信息输出部，其根据由所述价值函数更新部更新的价值函数，生成所述控制部的参数与所述位置指令和所述转矩指令中的至少一个的所述校正值的组合并输出至所述变更部。

4.根据权利要求1所述的伺服电动机控制系统，其特征在于，

所述控制对象具有伺服电动机和由该伺服电动机来控制旋转角度的驱动体，并依赖于所述旋转角度使所述驱动体的旋转轴承受的负载变动。

5.根据权利要求1所述的伺服电动机控制系统，其特征在于，

所述控制对象具有伺服电动机和由该伺服电动机来控制位置的驱动体，并依赖于所述位置使所述控制对象承受的负载变动。

6.根据权利要求4或5所述的伺服电动机控制系统，其特征在于，

所述负载随时间变化。

7.一种伺服电动机控制系统的控制方法，所述伺服电动机控制系统具备：伺服电动机控制装置，其具有变更根据位置指令来控制伺服电动机的控制部的参数以及所述位置指令和转矩指令中的至少一个的校正值的变更部；通过该伺服电动机控制装置控制的控制对象；以及对所述伺服电动机控制装置进行机器学习的机器学习装置，其特征在于，

所述机器学习装置执行以下内容：

通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，该状态信息包含所述位置指令、至少包含位置偏差在内的伺服状态、所述控制部的参数与所述校正值的组合，

对所述伺服电动机控制装置输出行为信息，该行为信息包含所述状态信息所包含的所述参数与所述校正值的组合的调整信息，

根据基于所述状态信息所包含的所述位置偏差的强化学习中的回报的值、所述状态信息和所述行为信息，更新行为价值函数，