CN110286645A

CN110286645A - 机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法

Info

Publication number: CN110286645A
Application number: CN201910197184.8A
Authority: CN
Inventors: 恒木亮太郎; 猪饲聪史
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-03-19
Filing date: 2019-03-15
Publication date: 2019-09-27
Anticipated expiration: 2039-03-15
Also published as: JP6748135B2; CN110286645B; JP2019164484A; DE102019201758A1; US11023827B2; US20190287007A1

Abstract

本发明提供一种机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法，其降低用于机器学习的信息处理量来缩短机器学习的收敛时间。其针对伺服控制装置进行机器学习，伺服控制装置具备根据位置指令计算位置前馈项的位置前馈计算部(109)、根据位置指令计算速度前馈项的速度前馈计算部(110)、根据位置指令计算电流前馈项的电流前馈计算部(114)中的至少两个前馈计算部，机器学习装置使至少两个前馈计算部中的一个前馈计算部的传递函数的系数的机器学习先于另一个前馈计算部的传递函数的系数的机器学习。

Description

机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法

技术领域

本发明涉及针对使用了前馈控制的伺服控制装置进行机器学习的机器学习装置、具备该机器学习装置的伺服控制装置、伺服控制系统以及机器学习方法，上述前馈控制由至少2个以上的前馈计算部构成多重循环。

背景技术

例如在专利文献1至专利文献4中记载了使用前馈控制的伺服控制装置。

专利文献1中记载的伺服控制装置具备根据位置指令值计算速度指令的前馈项并将其与从位置控制部输出的速度指令进行相加的神经回路网、以及根据速度指令值计算转矩指令的前馈项并将其与从速度控制部输出的转矩指令进行相加的神经回路网。另外，各神经回路网学习驱动系统的惯性力矩的变动以及驱动系统所具备的共振特性等来计算最优的前馈项。

专利文献2中记载的前馈控制装置具备：位置前馈计算部，根据位置指令值计算速度指令的前馈项，并将其与从位置控制器输出的速度指令进行相加；速度前馈计算部，根据位置指令值计算转矩指令的前馈项，并将其与从速度控制器输出的转矩指令进行相加。另外，专利文献2记载的前馈控制装置具备根据位置指令值和反馈的位置检测值之间的差即位置偏差来学习位置前馈计算部的增益的学习控制器、根据位置偏差或速度指令值与反馈的速度检测值之间的差即速度偏差来学习速度前馈计算部的增益的学习控制器。

专利文献3记载的最优指令生成装置输入指令值，生成控制对象能够实现希望的动作的理想的动作指令，并向控制控制对象的伺服控制部输出动作指令，该最优指令生成装置具备：控制对象模型；进行学习控制使得控制对象模型实现希望的动作的学习控制部或进行预测控制的预测控制部。

在专利文献4中记载的伺服控制装置中，前馈控制系统具备：速度前馈生成部，其根据位置指令生成速度前馈信号；转矩前馈生成部，其根据位置指令生成转矩前馈信号；以及速度前馈变更部，其根据速度前馈信号和转矩前馈信号生成速度前馈变更信号。

在专利文献2中，伺服控制装置使用对位置前馈控制进行学习的学习控制器、对速度前馈控制进行学习的学习控制器，同时进行针对位置前馈控制的学习和针对速度前馈控制的学习。

但是，当伺服控制装置同时进行针对位置前馈控制的学习和针对速度前馈控制的学习时，用于学习的信息处理量增大。即使一方的学习控制器为了减少位置偏差，根据位置偏差变更针对速度指令的前馈项，当另一方的学习控制器根据位置偏差变更了针对转矩速度指令的前馈项时，受到该变更的影响位置偏差会产生变化。因此，2个学习控制器的学习相互干扰，用于2个学习控制器的学习的信息处理量增大。

专利文献1：日本特开平4-084303号公报

专利文献2：日本特开平2-085902号公报

专利文献3：日本特开2003-084804号公报

专利文献4：日本特开2010-033172号公报

发明内容

本发明的目的在于，提供一种机器学习装置、包含该机器学习装置的伺服控制装置、伺服控制系统以及机器学习方法，其在使用了由至少2个以上的前馈计算部构成多重循环的反馈控制的伺服控制装置中，能够降低用于机器学习的信息处理量从而缩短机器学习的收敛时间，并且能够抑制位置偏差的变动从而谋求高精度。

(1)本发明的机器学习装置是针对伺服控制装置(例如后述的伺服控制装置100)进行与至少2个以上的前馈计算部的系数的最优化相关的机器学习的机器学习装置(例如后述的机器学习装置200)，上述伺服控制装置使用由至少2个以上的前馈计算部(例如后述的位置前馈计算部109和速度前馈计算部110)构成多重循环的前馈控制来控制用于驱动机床或工业机械的轴的伺服电动机(例如后述的伺服电动机300)，在从上述伺服电动机进行观察，通过由上述至少2个前馈计算部中的一个前馈计算部计算的前馈项进行修正的一个指令相比于通过由上述至少2个前馈计算部中的另一个前馈计算部计算的前馈项进行修正的另一指令为内侧的指令的情况下，

首先，进行与上述一个前馈计算部的系数的最优化相关的机器学习，然后，基于通过与上述一个前馈计算部的系数的最优化相关的机器学习而得到的上述一个前馈计算部的最优化后的系数，进行与上述另一个前馈计算部的系数的最优化相关的机器学习。

(2)在上述(1)的机器学习装置中，可以使上述至少2个以上的前馈计算部为根据位置指令计算速度指令的第一前馈项的位置前馈计算部(例如后述的位置前馈计算部109)、根据位置指令计算转矩指令的第二前馈项的速度前馈计算部(例如后述的速度前馈计算部110)、以及根据位置指令计算电流指令的第三前馈项的电流前馈计算部(例如后述的电流前馈计算部114)中的至少2个前馈计算部，

上述一个指令以及上述另一个指令是上述速度指令、上述转矩指令以及上述电流指令中的2个指令，

根据上述转矩指令或上述电流指令驱动上述伺服电动机。

(3)在上述(2)的机器学习装置中，可以使上述一个前馈计算部为上述速度前馈计算部，上述另一个前馈计算部为上述位置前馈计算部。

(4)在上述(2)的机器学习装置中，可以使上述伺服控制装置具备上述位置前馈计算部、上述速度前馈计算部以及上述电流前馈计算部，

上述一个前馈计算部是上述速度前馈计算部或上述电流前馈计算部，上述另一个前馈计算部是上述位置前馈计算部。

(5)在上述(1)～(4)中的任意一项的机器学习装置中，可以使上述另一个前馈计算单元的传递函数的系数的初始设定值是与上述一个前馈计算单元的传递函数的系数的初始设定值相同的值。

(6)在上述(1)～(5)中的任意一项的机器学习装置中，可以具备：

状态信息取得单元(例如后述的状态信息取得部201)，其通过使上述伺服控制装置执行预定的加工程序，从上述伺服控制装置取得包含至少包含位置偏差的伺服状态、上述一个前馈计算单元或另一个前馈计算单元的传递函数的系数的组合的状态信息；

行为信息输出单元(例如后述的行为信息输出部203)，其向上述伺服控制装置输出包含上述状态信息中包含的上述系数的组合的调整信息的行为信息；

回报输出单元(例如后述的回报输出部2021)，其输出基于上述状态信息中包含的上述位置偏差的在强化学习中的回报的值；以及

价值函数更新单元(例如后述的价值函数更新部2022)，其根据上述回报输出单元输出的回报的值、上述状态信息以及上述行为信息，更新价值函数。

(7)在上述(6)的机器学习装置中，可以使上述回报输出单元根据上述位置偏差的绝对值输出上述回报的值。

(8)在上述(6)或(7)的机器学习装置中，可以具备最优化行为信息输出单元(例如后述的最优化行为信息输出部205)，该最优化行为信息输出单元根据通过上述价值函数更新单元更新后的价值函数，生成并输出上述至少2个前馈计算单元的传递函数的系数的组合。

(9)本发明的伺服控制系统具备：上述(1)～(8)中的任意一项的机器学习装置；伺服控制装置，其使用由至少2个以上的前馈计算部构成多重循环的前馈控制，控制用于对机床或工业机械的轴进行驱动的伺服电动机。

(10)本发明的伺服控制装置具备：上述(1)～(8)中的任意一项的机器学习装置；至少2个以上的前馈计算部，

使用由至少2个以上的前馈计算部构成多重循环的前馈控制，控制用于对机床或工业机械的轴进行驱动的伺服电动机。

(11)本发明的机器学习方法是针对伺服控制装置进行与至少2个以上的前馈计算部的系数的最优化相关的机器学习的机器学习装置的机器学习方法，上述伺服控制装置使用由至少2个以上的前馈计算部构成多重循环的前馈控制来控制用于对机床或工业机械的轴进行驱动的伺服电动机，

在从上述伺服电动机进行观察，通过由上述至少2个前馈计算部中的一个前馈计算部计算的前馈项进行修正的一个指令相比于通过由上述至少2个前馈计算部中的另一个前馈计算部计算的前馈项进行修正的另一指令为内侧的指令的情况下，

发明效果

根据本发明，在使用了由至少2个以上的前馈计算部构成多重循环的前馈控制的伺服控制装置中，能够缩短机器学习的收敛时间，并且抑制位置偏差的变动来谋求提高精度。

附图说明

图1是表示本发明的第一实施方式的伺服控制系统的框图。

图2是表示本发明的第一实施方式的伺服控制系统的伺服控制装置与机器学习装置的组合以及电动机的框图。

图3是表示成为伺服控制装置的控制对象的一个例子的包含电动机的机床的一部分的框图。

图4用于说明加工形状为八边形时的电动机的动作。

图5用于说明加工形状为将八边形的角每隔一个置换为圆弧后的形状时的电动机的动作。

图6是表示第一实施方式的机器学习装置的框图。

图7是说明第一实施方式的机器学习装置的动作的流程图。

图8是说明第一实施方式的机器学习装置的最优化行为信息输出部的动作的流程图。

图9是表示本发明的第二实施方式的伺服控制装置的一部分的框图。

具体实施方式

以下，使用附图详细说明本发明的实施方式。

(第一实施方式)

图1是表示发明的第一实施方式的伺服控制系统的框图。

如图1所示，伺服控制系统10具备n台伺服控制装置100-1～100-n、n台机器学习装置200-1～200-n以及网络40。此外，n是任意的自然数。作为机器学习的一个例子，如后述那样，说明为第一实施方式的机器学习装置200-1～200-n进行与位置前馈计算部109和速度前馈计算部110的系数相关的强化学习。位置前馈计算部109和速度前馈计算部110在伺服控制装置100-1～100-n中构成多重循环。

此外，本发明并不限于与位置前馈计算部109和速度前馈计算部110的系数相关的机器学习。即，本发明也能够用于与位置前馈计算部109和速度前馈计算部110以外的构成多重循环的前馈计算部相关的机器学习。另外，本发明中的机器学习并不限于强化学习，也能够用于进行其他的机器学习(例如监督学习)的情况。

在此，使伺服控制装置100-1和机器学习装置200-1成为一对一的组，并可通信地连接。对于伺服控制装置100-2～100-n和机器学习装置200-2～200-n，也与伺服控制装置100-1和机器学习装置200-1同样地连接。在图1中，经由网络400将伺服控制装置100-1～100-n和机器学习装置200-1～200-n的n个组连接，但是关于这些n个组，也可以经由连接接口直接将各个组的伺服控制装置与机器学习装置连接起来。这些伺服控制装置100-1～100-n和机器学习装置200-1～200-n的n个组例如既可以在同一工厂中设置多组，也可以分别设置在不同的工厂中。

此外，网络400例如是在工厂内构筑的LAN(局域网)、因特网、公用电话网或它们的组合。对于网络400的具体的通信方式以及是有线连接和无线连接中的哪一个等，并没有特别限定。

图2是表示本发明的第一实施方式的伺服控制系统的伺服控制装置和机器学习装置的组合以及电动机的框图。图2的伺服控制装置100和机器学习装置200例如与图1所示的伺服控制装置100-1和机器学习装置200-1对应。

伺服电动机300包含在伺服控制装置100的控制对象，例如机床、机器人、工业机械等中。可以将伺服控制装置100与伺服电动机300一起设置为机床、机器人、工业机械等的一部分。

首先，说明伺服控制装置100。

伺服控制装置100具备位置指令生成部101、减法器102、位置控制部103、加法器104、减法器105、速度控制部106、加法器107、积分器108、位置前馈计算部109以及速度前馈计算部110。位置前馈计算部109具备微分器1091和位置前馈处理部1092。另外，速度前馈计算部110具备二次微分器1101和速度前馈处理部1102。

位置指令生成部101生成位置指令值，向减法器102、位置前馈计算部109、速度前馈计算部110以及机器学习装置200输出所生成的位置指令值。

减法器102求出位置指令值与位置反馈的检测位置之间的差，并将该差作为位置偏差输出给位置控制部103和机器学习装置200。

位置指令生成部101根据使伺服电动机300进行动作的程序生成位置指令值。伺服电动机300例如包含在机床中。在机床中，当搭载被加工物(工件)的工作台在X轴方向和Y轴方向上移动的情况下，针对X轴方向和Y轴方向分别设置图2所示的伺服控制装置100和伺服电动机300。在使工作台在3轴以上的方向上移动时，针对各个轴方向设置伺服控制装置100和伺服电动机300。

位置指令生成部101设定进给速度来生成位置指令值，使得成为由加工程序指定的加工形状。

位置控制部103将位置偏差乘以位置增益Kp后的值作为速度指令值输出给加法器104。

位置前馈计算部109的微分器1091对位置指令值进行微分并乘以常数β，位置前馈处理部1092对微分器1091的输出进行数式1(以下表示为式1)所示的传递函数G(s)所表示的位置前馈处理，将该处理结果作为位置前馈项输出到加法器104。式1的系数a_i、b_j(m≥i≥0，n≥j≥0)是位置前馈处理部1092的传递函数的各系数。m、n表示自然数。

[式1]

加法器104将速度指令值与位置前馈计算部109的输出值(位置前馈项)进行相加，作为进行了前馈控制的速度指令值输出到减法器105。减法器105求出加法器104的输出与速度反馈的速度检测值之间的差，将该差作为速度偏差输出到速度控制部106。

速度控制部106将速度偏差乘以积分增益K1v进行积分后的值与速度偏差乘以比例增益K2v后的值进行相加，作为转矩指令值输出到加法器107。

速度前馈计算部110的二次微分器1101对位置指令值进行二次微分并乘以常数α，速度前馈处理部1102对二次微分器1101的输出进行数式2(以下表示为式2)所示的传递函数F(s)所表示的速度前馈处理，将该处理结果作为速度前馈项输出到加法器107。式2的系数c_i、d_j(m≥i≥0，n≥j≥0)是速度前馈处理部1102的传递函数的各系数。m、n表示自然数。此外，式2的自然数m和n既可以是与数式1的自然数m和n相同的数，也可以是不同的数。

[式2]

加法器107将转矩指令值与速度前馈计算部110的输出值(速度前馈项)进行相加，作为进行了前馈控制的转矩指令值输出到伺服电动机300来驱动伺服电动机300。

伺服电动机300的旋转角度位置通过与伺服电动机300关联起来的成为位置检测部的旋转编码器进行检测，将速度检测值作为速度反馈而输入到减法器105。速度检测值通过积分器108进行积分而成为位置检测值，将位置检测值作为位置反馈输入到减法器102。

如以上那样构成伺服控制装置100。

接着，说明包含通过伺服控制装置100控制的伺服电动机300的控制对象500。

图3是表示成为伺服控制装置100的控制对象500的一个例子的包含电动机的机床的一部分的框图。

伺服控制装置100通过伺服电动机300经由连结机构302使工作台303移动，由此对搭载在工作台303上的被加工物(工件)进行加工。连结机构302具有与伺服电动机300连结的联轴器3021、被固定在联轴器3021上的滚珠丝杠3023，滚珠丝杠3023与螺母3022螺纹结合。通过伺服电动机300的旋转驱动，与滚珠丝杠3023螺纹结合的螺母3022在滚珠丝杠3023的轴向上移动。通过螺母3022的移动，工作台303移动。

伺服电动机300的旋转角度位置通过与伺服电动机300关联起来的成为位置检测部的旋转编码器301进行检测。如上述那样，将检测出的信号用作速度反馈。通过积分器108对检测出的信号进行积分，由此用作位置反馈。此外，也可以将安装在滚珠丝杠3023的端部的用于检测滚珠丝杠3023的移动距离的线性刻度304的输出用作位置反馈。另外，也可以使用加速度传感器生成位置反馈。

<机器学习装置200>

机器学习装置200例如对位置前馈处理部1092的传递函数的系数、速度前馈处理部1102的传递函数的系数进行机器学习(以下称为学习)。如同在关于专利文献2的说明中已叙述的那样，当同时进行针对位置前馈项的学习以及针对速度前馈项的学习时，2个学习相互干扰，用于位置前馈控制的系数的学习以及速度前馈控制的系数的学习的信息处理量增大。

因此，在本实施方式中，机器学习装置200分别地进行速度前馈计算部110的传递函数的系数的学习和位置前馈计算部109的传递函数的系数的学习，与位置前馈计算部109的传递函数的系数的学习相比，先进行相比于位置前馈计算部109位于内侧(内部循环)的速度前馈计算部110的传递函数的系数的学习。具体地说，机器学习装置200将位置前馈计算部109的位置前馈处理部1092的传递函数的系数固定，针对速度前馈计算部110的速度前馈处理部1102的传递函数的系数的最优值进行学习。然后，机器学习装置200将速度前馈处理部1102的传递函数的系数固定为通过学习而得到的最优值，对位置前馈处理部1092的传递函数的系数进行学习。

使用图2来说明机器学习装置200在位置前馈处理部1092的传递函数的系数之前先学习速度前馈处理部1102的传递函数的系数的理由。

在从伺服电动机300进行观察的情况下，使用速度指令生成转矩指令，因此转矩指令相对于速度指令是内侧(内部)的指令。因此，转矩指令中包含的速度前馈项的计算是相比于速度指令中包含的位置前馈项的计算位于内侧(内部)的处理。具体地说，位置前馈计算部109的输出(位置前馈项)被输入到加法器104，速度前馈计算部110的输出(速度前馈项)被输入到加法器107。加法器104经由减法器105、速度控制部106以及加法器107与伺服电动机300连接。

如果与位置前馈处理部1092的传递函数的系数的最优化相关的学习在与速度前馈处理部1102的传递函数的系数的最优化相关的学习之前，则由于之后进行的与速度前馈处理部1102的传递函数的系数的最优化相关的学习，使得速度前馈项产生变化。为了充分抑制位置偏差，机器学习装置200需要在改变后的速度前馈项的条件下再次进行与位置前馈处理部1092的传递函数的系数的最优化相关的学习。

与此相对，如果与速度前馈处理部1102的传递函数的系数的最优化相关的学习在与位置前馈处理部1092的传递函数的系数的最优化相关的学习之前，则机器学习装置200能够在通过学习而最优化的速度前馈项的条件下，进行与位置前馈处理部1092的传递函数的系数的最优化相关的学习，抑制位置偏差的变动。

因此，机器学习装置200在位置前馈处理部1092的传递函数的系数的学习之前，先进行相比于位置前馈计算部109位于内侧(内部循环)的速度前馈处理部1102的传递函数的系数的学习。结果，抑制位置偏差的变动，实现高精度化。

机器学习装置200通过执行预先设定的加工程序(以下也称为“学习时的加工程序”)，学习位置前馈计算部109的位置前馈处理部1092的传递函数的系数、以及速度前馈计算部110的速度前馈处理部1102的传递函数的系数。

在此，由学习时的加工程序指定的加工形状例如是八边形、或将八边形的角每隔一个置换为圆弧后的形状。

图4用于说明加工形状是八边形时的电动机的动作。图5用于说明加工形状为将八边形的角每隔一个置换为圆弧后的形状时的电动机的动作。在图4和图5中，设为工作台以顺时针加工被加工物(工件)的方式在X轴和Y轴方向上移动。

在加工形状为八边形时，如图4所示，在角的位置A1，使工作台在Y轴方向上移动的电动机的转速变慢，使工作台在X轴方向上移动的电动机的转速变快。

在角的位置A2，使工作台在Y轴方向上移动的电动机的旋转方向反转，工作台在Y轴方向上以直线反转的方式移动。另外，使工作台在X轴方向上移动的电动机从位置A1到位置A2以及从位置A2到位置A3，以相同的旋转方向等速地旋转。

在角的位置A3，使工作台在Y轴方向上移动的电动机的转速变快，使工作台在X轴方向上移动的电动机的转速变慢。

在角的位置A4，使工作台在X轴方向上移动的电动机的旋转方向反转，工作台在X轴方向上以直线反转的方式进行移动。另外，使工作台在Y轴方向上移动的电动机从位置A3到位置A4以及从位置A4到下一个角的位置，以相同的旋转方向等速地旋转。

在加工形状为将八边形的角每隔一个置换为圆弧后的形状的情况下，如图5所示，在角的位置B1，使工作台在Y轴方向上移动的电动机的转速变慢，使工作台在X轴方向上移动的电动机的转速变快。

在圆弧的位置B2，使工作台在Y轴方向上移动的电动机的旋转方向反转，工作台在Y轴方向上以直线反转的方式进行移动。另外，使工作台在X轴方向上移动的电动机从位置B1到位置B3，以相同的旋转方向等速地旋转。与图4所示的加工形状为八边形的情况不同，使工作台在Y轴方向上移动的电动机朝向位置B2逐渐减速，在位置B2停止旋转，当经过了位置B2时旋转逐渐增加，使得在位置B2的前后形成圆弧的加工形状。

在角的位置B3，使工作台在Y轴方向上移动的电动机的转速变快，使工作台在X轴方向上移动的电动机的转速变慢。

在圆弧的位置B4，使工作台在X轴方向上移动的电动机的旋转方向反转，工作台在X轴方向上以直线反转的方式进行移动。另外，使工作台在Y轴方向上移动的电动机从位置B3到位置B4以及从位置B4到下一个角的位置，以相同的旋转方向等速地旋转。使工作台在X轴方向上移动的电动机朝向位置B4逐渐减速，在位置B4停止旋转，当经过了位置B4时旋转逐渐增加，使得在位置B4的前后形成圆弧的加工形状。

在本实施方式中，设为机器学习装置200对于在以上说明的由学习时的加工程序指定的加工形状的位置A1和位置A3以及位置B1和位置B3，在线性控制中变更了转速时的振动进行评价，调查对于位置偏差的影响，由此进行系数的机器学习。此外，在本实施方式中虽然没有使用，但机器学习装置200也可以根据加工形状的位置A2和位置A4以及位置B2和位置B4，对在旋转方向反转时产生的惯性运动(由于惯性而进行动作)进行评价，调查对位置偏差的影响。

以下，更详细地说明机器学习装置200。

在以下的说明中，说明机器学习装置200进行强化学习的情况，但机器学习装置200进行的学习并未特别地限定于强化学习，例如在机器学习装置200进行监督学习的情况下也能够应用本发明。

在说明机器学习装置200中包含的各功能块之前，首先针对强化学习的基本的机制进行说明。智能体(相当于本实施方式中的机器学习装置200)观察环境的状态，选择某个行为，基于该行为使得环境变化。伴随着环境的变化，给予某种回报，智能体学习选择更好的行为(决策)。

相对于监督学习表示完全正确的解，强化学习中的回报大多是基于环境的部分变化的碎片化的值。因此，智能体学习选择行为，使得将来的回报的总和最大。

如此，在强化学习中，智能体通过学习行为，考虑行为带给环境的相互作用来学习合适的行为，即学习用于使将来得到的回报最大的行为。这在本实施方式中表现为获得影响未来的行为，例如选择用于降低位置偏差的行为信息。

在这里，作为强化学习，智能体能够使用任意的学习方法，但是在以下的说明中，以使用Q学习(Q-Learning)的情况为例进行说明，Q学习是智能体在某个环境的状态S下，针对选择行为A的价值Q(S，A)进行学习的方法。

Q学习的目的在于，在某个状态S时，从可取得的行为A中选择价值Q(S，A)最高的行为A来作为最佳的行为。

然而，在最初开始Q学习的时间点，对于状态S与行为A的组合，完全不知道价值Q(S，A)的正确值。因此，智能体在某个状态S下选择各种各样的行为A，根据针对此时的行为A赋予的回报来选择更好的行为，由此学习正确的价值Q(S，A)。

另外，因为想要使将来得到的回报的总和最大化，所以智能体以最终成为Q(S，A)＝E[Σ(γ^t)r_t]为目标。在这里，E[]表示期待值，t是时刻，γ是后述的被称为折扣率的参数，r_t是时刻t的回报、Σ是时刻t的总和。该式子中的期待值是按照最佳的行为，状态发生了变化时的期待值。但是，在Q学习的过程中，不知道最佳的行为是什么，因此智能体通过进行各种各样的行为，一边探索一边进行强化学习。关于这样的价值Q(S，A)的更新式，例如能够通过以下的数式3(以下表示为式3)表示。

[式3]

在上述的式3中，S_t表示时刻t的环境的状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。另外，带有max的项是在状态S_t+1下，选择了当时所知道的Q值最高的行为A时的Q值乘以γ的项。在这里，γ是0＜γ≤1的参数，被称为折扣率。另外，α是学习系数，设为0＜α≤1的范围。

上述式3表示根据作为行为A_t的结果而返回的回报r_t+1，来对状态S_t下的行为A_t的价值Q(S_t，A_t)进行更新的方法。

该更新式表示如果基于行为A_t的下一个状态S_t+1下的最佳的行为的价值max_aQ(S_t+1，A)大于状态S_t下的行为A_t的价值Q(S_t，A_t)，则增大Q(S_t，A_t)，反之，如果小于，则减小Q(S_t，A_t)。也就是说，该更新式表示使某个状态下的某个行为的价值接近基于该行为的下一个状态下的最佳的行为的价值。虽然这些价值的差根据折扣率γ与回报r_t+1的方式而变化，但基本上，更新式成为如下的结构：某个状态下的最佳的行为的价值传播至该状态的前一个状态下的行为的价值。

在此，在Q学习中，具有生成与全部的状态行为对(S，A)有关的Q(S，A)的表来进行学习的方法。但是，该方法存在为了求出全部的状态行为对的Q(S，A)的值，状态数过多，Q学习收敛需要较多时间的情况。

因此，智能体在Q学习中可以使用公知的被称为DQN(Deep Q-Network)的技术。具体而言，DQN可以使用适当的神经网络来构成价值函数Q，并调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q从而计算价值Q(S，A)的值。通过使用DQN，Q学习收敛所需要的时间变短。此外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著，“online”，“平成29年1月17日检索”，因特网<URL：http://files.davidqiu.com/research/nature14236.pdf>。

机器学习装置200进行以上说明的Q学习。具体地说，机器学习装置200将伺服控制装置100中的位置前馈处理部1092的传递函数的各系数a_i、b_j(i、j≥0)的值或速度前馈处理部1102的传递函数的各系数c_i、d_j(i、j≥0)的值、以及指令和反馈等伺服状态来作为状态S，学习与该状态S相关的选择位置前馈处理部1092的传递函数的各系数a_i、b_j的值或速度前馈处理部1102的传递函数的各系数c_i、d_j的值的调整来作为行为A时的价值Q。指令包含位置指令，反馈包含通过执行学习时的加工程序而取得的伺服控制装置100的位置偏差信息。

机器学习装置200首先进行速度前馈处理部1102的传递函数的各系数c_i、d_j(i、j≥0)的值的学习，然后，进行位置前馈处理部1092的传递函数的各系数a_i、b_j(i、j≥0)的值的学习。在以下的说明中，说明速度前馈处理部1102的传递函数的各系数c_i、d_j(i、j≥0)的值的学习，但也同样地进行位置前馈处理部1092的传递函数的各系数a_i、b_j(i、j≥0)的值的学习。

机器学习装置200根据速度前馈处理部1102的传递函数的各系数c_i、d_j来执行学习时的加工程序，由此观测上述加工形状的位置A1和位置A3以及位置B1和位置B3处的包含指令和反馈等伺服状态的状态信息S，来决定行为A，上述指令和反馈包含伺服控制装置100的位置指令和位置偏差信息。机器学习装置200例如在每次进行行为A时返回回报。机器学习装置200例如以试错的方式探索最优的行为A，使得将来的回报的总和成为最大。由此，机器学习装置200能够针对包含以下指令和反馈等伺服状态的状态信息S，选择最优的行为A(即速度前馈处理部1102的最优系数c_i、d_j)，其中，上述指令和反馈包含通过根据速度前馈处理部1102的传递函数的各系数c_i、d_j，执行学习时的加工程序而取得的伺服控制装置100的位置指令和位置偏差信息。在位置A1和位置A3、以及位置B1和位置B3，X轴方向和Y轴方向的伺服电动机的旋转方向不变，机器学习装置200能够学习线性动作时的速度前馈处理部1102的传递函数的各系数c_i、d_j。

即，机器学习装置200根据已学习的价值函数Q，选择针对与某个状态S相关的速度前馈计算部110的传递函数的各系数c_i、d_j应用的行为A中的Q值为最大的行为A，由此能够选择通过执行学习时的加工程序而取得的位置偏差成为最小的行为A(即，速度前馈处理部1102的系数c_i、d_j)。

图6是表示本发明的第一实施方式的机器学习装置200的框图。

为了进行上述的强化学习，如图6所示，机器学习装置200具备状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204、以及最优化行为信息输出部205。学习部202具备回报输出部2021、价值函数更新部2022、以及行为信息生成部2023。

状态信息取得部201从伺服控制装置100取得包含指令、反馈等伺服状态的状态S，其中，上述指令、反馈包含根据伺服控制装置100中的速度前馈处理部1102的传递函数的各系数c_i、d_j，执行学习时的加工程序而取得的伺服控制装置100的位置指令和位置偏差信息。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部201向学习部202输出所取得的状态信息S。

此外，预先由用户生成最初开始Q学习的时间点的速度前馈计算部110的系数c_i、d_j。在本实施方式中，通过强化学习，将用户生成的速度前馈处理部1102的系数c_i、d_j的初始设定值调整为最优值。使速度前馈计算部110的二次微分器1101的系数α为固定值，例如设为α＝1。另外，作为初始设定值，将速度前馈处理部1102的系数c_i、d_j例如设为式2的c₀＝1、c₁＝0、c₂＝0、……c_m＝0，d₀＝1、d₁＝0、d₂＝0、……d_n＝0。另外，预先设定系数c_i、d_j的维度m、n。即，对于c_i，设为0≤i≤m，对于d_j，设为0≤j≤n。

此外，位置前馈计算部109的微分器1091的系数β也设为固定值，例如设为β＝1。另外，作为初始设定值，将位置前馈处理部1092的系数a_i、b_j例如设为式1的a₀＝1、a₁＝0、a₂＝0、……a_m＝0，b₀＝1、b₁＝0、b₂＝0、……b_n＝0。另外，预先设定系数a_i、b_j的维度m、n。即，对于a_i，设为0≤i≤m，对于d_j，设为0≤j≤n。关于系数a_i、b_j的初始设定值，也可以应用与上述速度前馈处理部1102的传递函数的系数c_i、d_j的初始设定值相同的值。

此外，关于系数a_i、b_j和系数c_i、d_j，在预先由操作者调整了机床的情况下，可以将已调整的值作为初始值来进行机器学习。

学习部202是学习在某个环境状态S下选择某个行为A时的价值Q(S，A)的部分。

回报输出部2021是计算在某个状态S下选择了行为A时的回报的部分。在此，用PD(S)表示状态S下的作为状态变量的位置偏差的集合(位置偏差集合)，用PD(S’)表示与由于行为信息A(速度前馈处理部1102的各系数c_i、d_j(i、j表示0和正的整数)的修正)从状态S进行变化后的状态信息S’相关的作为状态变量的位置偏差集合。另外，将状态S下的位置偏差的评价函数值设为根据预先设定的评价函数f(PD(S))计算出的值。

作为评价函数f，在用e表示位置偏差时，例如能够应用以下的函数等：

计算位置偏差的绝对值的累计值的函数

∫|e|dt

对位置偏差的绝对值进行时间的加权来计算累计值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n为自然数)次方的累计值的函数

∫e²ⁿdt(n为自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}。

用f(PD(S’))表示基于与通过行为信息A修正后的状态信息S’相关的修正后的速度前馈计算部110进行了动作的伺服控制装置100的位置偏差的评价函数值，用f(PD(S))表示基于与通过行为信息A进行修正前的状态信息S相关的修正前的速度前馈计算部110进行了动作的伺服控制装置100的位置偏差的评价函数值。

这时，在评价函数值f(PD(S’))比评价函数值f(PD(S))大的情况下，回报输出部2021将回报的值设为负的值。

另一方面，在评价函数值f(PD(S’))比评价函数值f(PD(S))小的情况下，回报输出部2021将回报的值设为正的值。

此外，在评价函数值f(PD(S’))与评价函数值f(PD(S))相等的情况下，回报输出部2021将回报的值设为零。

另外，在执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比前一个状态S下的位置偏差的评价函数值f(PD(S))大的情况下，回报输出部2021可以根据比例使负的值变大。即，可以根据位置偏差的评价函数值变大的程度，使负的值变大。相反，在执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比前一个状态S下的位置偏差的评价函数值f(PD(S))小的情况下，回报输出部2021可以根据比例使正的值变大。即，可以根据位置偏差的评价函数值变小的程度，使正的值变大。

价值函数更新部2022根据状态S、行为A、将行为A应用于状态S时的状态S’、以及如上那样计算出的回报的值来进行Q学习，由此更新在价值函数存储部204中存储的价值函数Q。

价值函数Q的更新既可以通过在线学习进行，也可以通过批量学习进行，还可以通过小批量学习进行。

在线学习是通过将某个行为A应用于当前的状态S，在每次状态S迁移为新的状态S’时，立即更新价值函数Q的学习方法。另外，批量学习是重复进行将某个行为A应用于当前的状态S使得状态S迁移为新的状态S’，由此收集学习用数据，使用收集到的全部的学习用数据更新价值函数S的学习方法。并且，小批量学习是在线学习与批量学习中间的在每次留存了某种程度的学习用数据时，更新价值函数Q的学习方法。

行为信息生成部2023针对当前的状态S，选择Q学习的过程中的行为A。行为信息生成部2023在Q学习的过程中，为了执行对伺服控制装置100的速度前馈处理部1102的各系数c_i、d_j进行修正的动作(相当于Q学习中的行为A)，生成行为信息A，并向行为信息输出部203输出所生成的行为信息A。更具体地说，行为信息生成部2023例如针对状态S中包含的速度前馈计算部的各系数，将行为A中包含的速度前馈处理部1102的各系数c_i、d_j逐渐(例如以0.01的程度)地进行加减。

然后，在应用速度前馈处理部1102的各系数c_i、d_j的增加或减少从而迁移到状态S’，并返回了正的回报(正值的回报)的情况下，作为下一个行为A’，行为信息生成部2023可以采取以下的策略：选择对于前馈处理部1102的各系数c_i、d_j与上次的行为同样地逐渐地进行加减等位置偏差的值变得更小的行为A’。

另外，相反在返回了负的回报(负的值的回报)的情况下，作为下一个行为A’，行为信息生成部2023例如可以采取以下的策略：选择对于速度前馈计算部的各系数c_i、d_j与上次的行为相反地逐渐减少或增加等位置偏差变得比上次的值小的行为A’。

另外，行为信息生成部2023可以采取以下的策略：通过在当前推定的行为A的价值中，选择价值Q(S，A)最高的行为A’的贪婪法、或者以某个小的概率ε来随机选择行为A’，在此之外选择价值Q(S，A)最高的行为A’的ε贪婪法这样的公知的方法，来选择行为A’。

行为信息输出部203是向伺服控制装置100发送从学习部202输出的行为信息A的部分。如上所述，伺服控制装置100根据该行为信息，对当前状态S，即当前设定的速度前馈处理部1102的各系数c_i、d_j进行微修正，由此迁移到下一个状态S’(即修正后的速度前馈处理部1102的各系数)。

价值函数存储部204是存储价值函数Q的存储装置。例如，可以针对每个状态S和行为A，将价值函数Q存储为表(以下称为行为价值表)。通过价值函数更新部2022更新在价值函数存储部204中存储的价值函数Q。另外，也可以在与其他的机器学习装置200之间共享在价值函数存储部204中存储的价值函数Q。如果与多个机器学习装置200共享价值函数Q。则能够在各机器学习装置200中分散地进行强化学习，因此能够提高强化学习的效率。

最优化行为信息输出部205根据由价值函数更新部2022通过进行Q学习而更新后的价值函数Q，生成用于使速度前馈计算部110进行价值Q(S，A)为最大的动作的行为信息A(以下称为“最优化行为信息”)。

更具体地说，最优化行为信息输出部205取得价值函数存储部204存储的价值函数Q。如上所述，该价值函数Q是由价值函数更新部2022通过进行Q学习而更新后的价值函数。然后，最优化行为信息输出部205根据价值函数Q生成行为信息，向伺服控制装置100(速度前馈计算部110的速度前馈处理部1102)输出所生成的行为信息。与行为信息输出部203在Q学习的过程中输出的行为信息同样地，该最优化行为信息包含对速度前馈处理部1102的各系数c_i、d_j进行修正的信息。

在伺服控制装置100中，根据该行为信息，修正速度前馈处理部1102的各系数c_i、d_j。

机器学习装置200在通过以上的动作进行了速度前馈处理部1102的各系数c_i、d_j的最优化后，可以与速度前馈处理部1102的系数的学习和最优化同样地进行动作，进行位置前馈处理部1092的系数a_i、b_j的学习和最优化，来降低位置偏差的值。

如上所述，通过利用本实施方式的机器学习装置200，能够使伺服控制装置100的速度前馈计算部110和位置前馈计算部109的参数调整变得容易。

本发明的发明人将学习时的加工程序指定的加工形状设为八边形，在通过使用了强化学习的机器学习装置200进行了速度前馈处理部1102的系数c_i、d_j的最优化后，进行位置前馈处理部1092的系数a_i、b_j的最优化，并调查了位置偏差的变动范围。另外，为了比较，本发明的发明人将学习时的加工程序指定的加工形状设为八边形，在通过使用了强化学习的机器学习装置200进行了位置前馈处理部1092的系数a_i、b_j的最优化后，进行速度前馈处理部1102的系数c_i、d_j的最优化，并调查了位置偏差的变动范围。结果，可知在进行了速度前馈处理部1102的系数c_i、d_j的最优化后进行位置前馈处理部1092的系数a_i、b_j的最优化的一方缩短了机器学习的收敛时间，另外，进一步抑制了位置偏差的变动，可谋求高精度化。

以上，说明了伺服控制装置100、机器学习装置200中包含的功能模块。

为了实现这些功能模块，伺服控制装置100和机器学习装置200分别具备CPU(中央处理单元)等运算处理装置。另外，伺服控制装置100和机器学习装置200分别还具备存储了应用程序软件和OS(操作系统)等各种控制用程序的HDD(硬盘驱动器)等辅助存储装置、用于存储在由运算处理装置执行程序时临时需要的数据的RAM(随机存取存储器)这样的主存储装置。

另外，在伺服控制装置100和机器学习装置200中，分别由运算处理装置从辅助存储装置读入应用程序软件或OS，一边将读入的应用程序软件或OS在主存储装置中展开，一边基于这些应用程序软件或OS进行运算处理。另外，根据该运算结果，运算处理装置控制各装置所具备的各种硬件。由此，实现本实施方式的功能模块。即，能够通过硬件与软件的协作来实现本实施方式。

由于与机器学习相伴的运算量大，因此机器学习装置200例如在个人计算机中安装GPU(图形处理单元)，通过被称为GPGPU(General-Purpose computing on GraphicsProcessing Units：图形处理单元的通用计算)的技术，将GPU用于机器学习，由此能够进行高速处理。并且，机器学习装置200为了进行更高速的处理，也可以使用多台这样的安装了GPU的计算机来构筑计算机集群，通过该计算机集群中包含的多台计算机进行并行处理。

接着，参照图7的流程图说明本实施方式的Q学习时的机器学习装置200的动作。

在步骤S11中，状态信息取得部201从伺服控制装置100取得状态信息S。对价值函数更新部2022和行为信息生成部2023输出所取得的状态信息。如上所述，该状态信息S是相当于Q学习中的状态的信息，包含步骤S11的时间点的速度前馈处理部1102的各系数c_i、d_j。如此，状态信息取得部201从速度前馈计算部110取得系数为初始值时的与预定的进给速度且圆形的加工形状对应的位置偏差的集合PD(S)。

此外，如上所述，初始状态S₀下的速度前馈处理部1102的系数c_i、d_j例如设为c₀＝1、c₁＝0、c₂＝0、……c_m＝0、d₀＝1、d₁＝0、d₂＝0、……d_n＝0。

通过学习时的加工程序使伺服控制装置100进行动作，由此从最初开始Q学习的时间点的减法器102得到状态S₀下的位置偏差的值PD(S₀)。位置指令生成部101按照由加工程序指定的预定的加工形状，例如八边形的加工形状，顺序地输出位置指令。例如，从位置指令生成部101输出与八边形的加工形状对应的位置指令值，将该位置指令值输出给减法器102、位置前馈计算部109、速度前馈计算部110以及机器学习装置200。减法器102将上述的加工形状的位置A1和位置A3以及位置B1和位置B3处的位置指令值与从积分器108输出的检测位置之间的差作为位置偏差PD(S₀)输出到机器学习装置200。此外，在机器学习装置200中，也可以提取上述的加工形状的位置A2和位置A4、以及位置B2和位置B4处的位置指令值与从积分器108输出的检测位置之间的差来作为位置偏差PD(S₀)。

在步骤S12中，行为信息生成部2023生成新的行为信息A，并经由行为信息输出部203向伺服控制装置100输出所生成的新的行为信息A。行为信息生成部2023根据上述的策略，输出新的行为信息A。此外，接收到行为信息A的伺服控制装置100通过基于接收到的行为信息对与当前的状态S相关的速度前馈处理部1102的各系数c_i、d_j进行修正后的状态S’，驱动包含伺服电动机300的机床。如上所述，该行为信息相当于Q学习中的行为A。

在步骤S13中，状态信息取得部201从减法器102取得新的状态S’下的位置偏差PD(S’)，从速度前馈处理部1102取得系数c_i、d_j。如此，状态信息取得部201从速度前馈处理部1102取得是状态S’下的系数c_i、d_j时的与八边形的加工形状(具体地说，上述的加工形状的位置A1和位置A3、以及位置B1和位置B3)对应的位置偏差的集合PD(S’)。将取得的状态信息输出给回报输出部2021。

在步骤S14中，回报输出部2021判断状态S’下的位置偏差的评价函数值f(PD(S’))与状态S下的位置偏差的评价函数值f(PD(S))之间的大小关系，在f(PD(S’))>f(PD(S))的情况下，在步骤S15中，将回报设为负的值。在f(PD(S’))<f(PD(S))的情况下，在步骤S16中，将回报设为正的值。在f(PD(S’))＝f(PD(S))的情况下，在步骤S17中，将回报设为零。此外，也可以对回报的负的值、正的值进行加权。

当步骤S15、步骤S16、以及步骤S17中的任意一个步骤结束时，在步骤S18中，价值函数更新部2022根据在任意一个步骤中计算出的回报的值，更新在价值函数存储部204中存储的价值函数Q。然后，再次返回到步骤S11，通过重复进行上述的处理，由此价值函数Q收敛为适当的值。此外，也可以以重复预定的次数、重复预定的时间为条件来结束上述的处理。

此外，步骤S18示例了在线更新，但是也可以置换为批量更新或小批量更新来代替在线更新。

在本实施方式中，通过以上参照图7说明的动作，起到以下的效果：机器学习装置200能够得到用于调整速度前馈处理部1102的系数c_i、d_j的适当的价值函数，能够简化速度前馈处理部1102的系数c_i、d_j的最优化。

接着，参照图8的流程图，说明最优化行为信息输出部205生成最优化行为信息时的动作。

首先，在步骤S21中，最优化行为信息输出部205取得在价值函数存储部204中存储的价值函数Q。如上述那样，价值函数更新部2022通过进行Q学习来更新价值函数Q。

在步骤S22中，最优化行为信息输出部205根据该价值函数Q，生成最优化行为信息，向伺服控制装置100的速度前馈处理部1102输出所生成的最优化行为信息。

机器学习装置200在通过以上的动作进行了速度前馈处理部1102的系数c_i、d_j的最优化后，通过同样的动作，进行位置前馈处理部1092的系数a_i、b_j的学习和最优化。

另外，在本实施方式中，通过参照图8说明的动作，机器学习装置200能够根据通过进行学习而求出的价值函数Q，生成最优化行为信息，伺服控制装置100能够根据该最优化行为信息，简化当前设定的速度前馈处理部1102的系数c_i、d_j的调整，并且能够降低位置偏差的值。另外，通过将速度前馈处理部1102的系数初始设定为更高维度的系数，并由机器学习装置200进行学习，能够进一步降低位置偏差的值。对于位置前馈处理部1092的系数a_i、b_j的调整，也与速度前馈处理部1102的系数c_i、d_j的调整同样地能够降低位置偏差的值。

在第一实施方式中，回报输出部2021通过将以状态S下的位置偏差PD(S)为输入根据预先设定的评价函数f(PD(S))计算出的状态S的位置偏差的评价函数值f(PD(S))与以状态S’下的位置偏差PD(S’)为输入根据评价函数f计算出的状态S’的位置偏差的评价函数值f(PD(S’))进行比较，来计算回报的值。

但是，回报输出部2021也可以在计算回报的值时，还添加位置偏差以外的其他要素。

例如，机器学习装置200除了成为减法器102的输出的位置偏差以外，也可以添加成为加法器104的输出的进行了位置前馈控制的速度指令、进行了位置前馈控制的速度指令与速度反馈之间的差、以及成为减法器107的输出的进行了位置前馈控制的转矩指令等中的至少一个。

(第二实施方式)

在第一实施方式中，说明了与具备位置前馈计算部109和速度前馈计算部110的伺服控制装置相对的机器学习装置。本实施方式说明与除了具备位置前馈计算部以及速度前馈计算部以外还具备电流前馈计算部的伺服控制装置相对的机器学习装置。

图9是表示本实施方式的伺服控制装置的一部分的框图。如图9所示，本实施方式的伺服控制装置向图1所示的伺服控制装置100追加了图9的虚线区域所示的减法器111、电流控制部112、加法器113以及电流前馈计算部114。

减法器111取得从加法器107输出的进行了速度前馈控制的转矩指令值与电流反馈的电流检测值之间的差，将该差作为电流偏差输出到电流控制部112。电流控制部112根据电流偏差求出电流指令值，将该电流指令值输出到加法器113。

电流前馈计算部114根据位置指令值求出电流指令值并输出到加法器113。加法器113将电流指令值与电流前馈计算部114的输出值相加，作为进行了前馈控制的电流指令值输出到伺服电动机300来驱动伺服电动机300。

机器学习装置200与速度前馈处理部1102的各系数c_i、d_j同样地学习电流前馈计算部114的传递函数的系数。

在本实施方式中，在从伺服电动机300观察时，电流指令为相比于转矩指令处于内侧的指令，转矩指令为相比于速度指令处于内侧的指令。另外，在从伺服电动机300观察的情况下，从内侧向外侧，按照电流前馈控制、速度前馈控制、位置前馈控制这样的排列顺序配置了各个前馈控制。因此，与第一实施方式同样地，优选在与位置前馈计算部的系数的最优化相关的学习之前进行与速度前馈计算部的系数的最优化相关的学习。并且，相比于速度前馈控制，电流前馈控制配置在内侧(内部)，因此优选在与速度前馈计算部的系数的最优化相关的学习之前进行与电流前馈计算部的系数的最优化相关的学习。但是，如果电流前馈控制对位置偏差产生的影响小，则机器学习装置200也可以在与速度前馈计算部的系数的最优化相关的学习之后进行与电流前馈计算部的系数的最优化相关的学习，然后进行与位置前馈计算部的系数的最优化相关的学习。在该情况下，成为在与位置前馈控制相关的学习之前进行与速度前馈控制相关的学习的方式的一个例子。

在以上说明的实施方式中，关于机器学习装置200，说明了X轴方向和Y轴方向的伺服电动机的旋转方向不变的线性动作时的与位置前馈计算部和速度前馈计算部的系数的最优化相关的学习、以及与位置前馈计算部、速度前馈计算部、电流前馈计算部的系数的最优化相关的学习。

但是，本发明并不限于线性动作时的学习，也能够应用于非线性动作的学习。例如，在为了齿隙修正，机器学习装置200进行与位置前馈计算部和速度前馈计算部的系数的最优化相关的学习、或与位置前馈计算部、速度前馈计算部、电流前馈计算部的系数的最优化相关的学习的情况下，机器学习装置200能够提取上述的加工形状的位置A2和位置A4、以及位置B2和位置B4处的位置指令值与从积分器108输出的检测位置之间的差来作为位置偏差，将其作为判定信息来赋予回报从而进行强化学习。

在位置A2和位置A4、以及位置B2和位置B4，Y轴方向或X轴方向的伺服电动机的旋转方向反转而成为非线性动作而产生齿隙，机器学习装置能够进行非线性动作时的前馈处理部的传递函数的系数的学习。

能够通过硬件、软件或它们的组合，来实现上述伺服控制装置的伺服控制部和机器学习装置所包含的各构成部分。另外，也能够通过硬件、软件或它们的组合，来实现通过上述伺服控制装置中包含的各构成部分的各个协作进行的伺服控制方法。在此，通过软件实现表示通过计算机读入并执行程序来实现。

能够使用各种类型的非临时的计算机可读介质(non-transitory computerreadable medium)存储程序来提供给计算机。非临时的计算机可读介质包括各种类型的有实体的记录介质(tangible storage medium)。作为非临时的计算机可读介质的例子，包括磁记录介质(例如软盘、硬盘驱动器)、光磁记录介质(例如光磁盘)、CD-ROM(只读存储器)、CD-R、CD-R/W、半导体存储器(例如掩膜ROM、PROM(可编程ROM)、EPROM(可擦写PROM)、闪速ROM、RAM(随机存取存储器))。另外，也可以通过各种类型的临时的计算机可读介质(transitory computer readable medium)将程序提供给计算机。

上述实施方式是本发明的优选的实施方式，但本发明的范围并不只限于上述实施方式，本发明在不脱离本发明的主旨的范围内能够以实施了各种变更的方式来实施。

<伺服控制装置具备机器学习装置的变形例子>

在上述实施方式中，机器学习装置200由与伺服控制装置100分体的装置构成，但也可以通过伺服控制装置100来实现机器学习装置200的功能的一部分或全部。

<系统结构的自由度>

在上述实施方式中，机器学习装置200与伺服控制装置100成为一对一的组而可通信地连接，但是例如也可以使一台机器学习装置200经由网络400与多个伺服控制装置100可通信地连接，执行各伺服控制装置100的机器学习。

这时，也可以通过将机器学习装置200的各功能适当地分散到多个服务器的分散处理系统来实现。另外，也可以在云上利用虚拟服务器功能等来实现机器学习装置200的各功能。

另外，在存在与多个相同型号、相同规格、或相同系列的伺服控制装置100-1～100-n分别对应的多个机器学习装置200-1～200-n的情况下，也可以共享各机器学习装置200-1～200-n的学习结果。由此，能够构筑更恰当的模型。

附图标记说明

10：伺服控制系统；100：伺服控制装置；101：位置指令生成部；102：减法器；103：位置控制部；104：加法器；105：减法器；106：速度控制部；107：加法器；108：积分器；109：位置前馈计算部；110：速度前馈计算部；200：机器学习装置；201：状态信息取得部；202：学习部；203：行为信息输出部；204：价值函数存储部；205：最优化行为信息输出部；300：电动机；400：网络。

Claims

1.一种机器学习装置，其针对伺服控制装置进行与至少2个以上的前馈计算部的系数的最优化相关的机器学习，上述伺服控制装置使用由至少2个以上的上述前馈计算部构成多重循环的前馈控制来控制用于对机床或工业机械的轴进行驱动的伺服电动机，其特征在于，

从上述伺服电动机进行观察，通过由至少2个上述前馈计算部中的一个前馈计算部计算的前馈项进行修正的一个指令相比于通过由至少2个上述前馈计算部中的另一个前馈计算部计算的前馈项进行修正的另一个指令为内侧的指令，

进行与上述一个前馈计算部的系数的最优化相关的机器学习，然后，基于通过与上述一个前馈计算部的系数的最优化相关的机器学习而得到的上述一个前馈计算部的最优化后的系数，进行与上述另一个前馈计算部的系数的最优化相关的机器学习。

2.根据权利要求1所述的机器学习装置，其特征在于，

至少2个以上的上述前馈计算部为根据位置指令计算速度指令的第一前馈项的位置前馈计算部、根据位置指令计算转矩指令的第二前馈项的速度前馈计算部、以及根据位置指令计算电流指令的第三前馈项的电流前馈计算部中的至少2个前馈计算部，

根据上述转矩指令或上述电流指令驱动上述伺服电动机。

3.根据权利要求2所述的机器学习装置，其特征在于，

上述一个前馈计算部为上述速度前馈计算部，上述另一个前馈计算部为上述位置前馈计算部。

4.根据权利要求2所述的机器学习装置，其特征在于，

上述伺服控制装置具备上述位置前馈计算部、上述速度前馈计算部以及上述电流前馈计算部，

5.根据权利要求1～4中的任意一项所述的机器学习装置，其特征在于，

使上述另一个前馈计算部的传递函数的系数的初始设定值为与上述一个前馈计算部的传递函数的系数的初始设定值相同的值。

6.根据权利要求1～5中的任意一项所述的机器学习装置，其特征在于，具备：

状态信息取得部，其通过使上述伺服控制装置执行预定的加工程序，从上述伺服控制装置取得状态信息，该状态信息包含：至少包含位置偏差的伺服状态、以及上述一个前馈计算部或另一个前馈计算部的传递函数的系数的组合；

行为信息输出部，其向上述伺服控制装置输出行为信息，该行为信息包含上述状态信息中包含的上述系数的组合的调整信息；

回报输出部，其输出基于上述状态信息中包含的上述位置偏差的在强化学习中的回报的值；以及

价值函数更新部，其根据上述回报输出部输出的回报的值、上述状态信息以及上述行为信息，更新价值函数。

7.根据权利要求6所述的机器学习装置，其特征在于，

上述回报输出部根据上述位置偏差的绝对值输出上述回报的值。

8.根据权利要求6或7所述的机器学习装置，其特征在于，

上述机器学习装置具备最优化行为信息输出部，该最优化行为信息输出部根据通过上述价值函数更新部更新后的价值函数，生成上述一个前馈计算部或另一个前馈计算部的传递函数的系数的组合并进行输出。

9.一种伺服控制系统，其特征在于，具备：

权利要求1～8中的任意一项所述的机器学习装置；以及

伺服控制装置，其使用由至少2个以上的前馈计算部构成多重循环的前馈控制，来控制用于对机床或工业机械的轴进行驱动的伺服电动机。

10.一种伺服控制装置，其特征在于，具备：

权利要求1～8中的任意一项所述的机器学习装置；

至少2个以上的前馈计算部，

上述伺服控制装置使用由至少2个以上的上述前馈计算部构成多重循环的前馈控制，来控制用于对机床或工业机械的轴进行驱动的伺服电动机。

11.一种机器学习方法，其是针对伺服控制装置进行与至少2个以上的前馈计算部的系数的最优化相关的机器学习的机器学习装置的机器学习方法，上述伺服控制装置使用由至少2个以上的上述前馈计算部构成多重循环的前馈控制来控制用于对机床或工业机械的轴进行驱动的伺服电动机，其特征在于，