CN109274314A

CN109274314A - 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法

Info

Publication number: CN109274314A
Application number: CN201810771452.8A
Authority: CN
Inventors: 於保勇作; 园田直人
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-07-18
Filing date: 2018-07-13
Publication date: 2019-01-25
Anticipated expiration: 2038-07-13
Also published as: DE102018211148A1; JP2019021024A; CN109274314B; JP6538766B2; US10418921B2; US20190028043A1

Abstract

本发明提供一种机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法。机器学习装置针对具备非线性摩擦补偿器的伺服电动机控制装置进行机器学习，其具备：状态信息取得部，通过使伺服电动机控制装置执行预定的程序，从伺服电动机控制装置取得状态信息，该状态信息包含至少包含位置偏差的伺服状态以及非线性摩擦补偿部的修正系数的组合；行为信息输出部，向伺服电动机控制装置输出行为信息，该行为信息包含在状态信息中包含的修正系数的组合的调整信息；回报输出部，输出基于状态信息中包含的位置偏差的强化学习中的回报的值；价值函数更新部，根据通过回报输出部输出的回报的值、状态信息以及行为信息来更新行为价值函数。

Description

机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法

技术领域

本发明涉及一种对于进行非线性摩擦的修正的伺服电动机控制装置，进行与非线性摩擦的修正中的修正系数有关的学习的机器学习装置、包含该机器学习装置的伺服电动机控制装置、伺服电动机控制系统以及机器学习方法。

背景技术

关于现有的伺服电动机控制装置，例如已知专利文献1中记载的电动机控制装置、专利文献2中记载的伺服控制装置以及专利文献3中记载的电动机控制装置。

专利文献1中记载的电动机控制装置具有：速度前馈控制部，其根据位置指令生成用于减少位置偏差的速度前馈指令；以及转矩前馈控制部，其根据位置指令生成用于减少位置偏差的转矩前馈指令。

专利文献2中记载的伺服控制装置具有根据位置指令来生成前馈指令的前馈补偿器。另外，专利文献2中记载的伺服控制装置具有用于对由于机床中的摩擦的影响而导致的控制误差进行补偿的摩擦补偿装置。

专利文献3中记载的电动机控制装置具有补偿计算部，其用于根据通过干扰观测器推定出的摩擦转矩和转矩指令来补偿操纵杆运动，并根据速度指令来补偿空转。

关于伺服电动机控制装置中的伺服电动机的反转动作时的控制偏差的原因，考虑伺服系统的响应延迟、机械系统的弹性变形以及摩擦的影响。控制偏差尤其受到摩擦中的非线性摩擦的影响较大，修正非线性摩擦对提高伺服性能非常重要。

专利文献1：日本特开2016-101017号公报

专利文献2：日本特开2015-018496号公报

专利文献3：日本特开2004-280565号公报

发明内容

本发明的目的在于，提供一种进行非线性摩擦的补偿，改善伺服电动机的反转动作时的伺服系统的响应性的机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法。

(1)本发明的机器学习装置(例如，后述的机器学习装置200)是针对具备非线性摩擦补偿部(例如，后述的非线性摩擦补偿器111)的伺服电动机控制装置(例如，后述的伺服电动机控制装置100)进行机器学习的机器学习装置，所述非线性摩擦补偿部根据位置指令生成对于非线性摩擦的修正值，机器学习装置具备：状态信息取得部(例如，后述的状态信息取得部201)，其通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，所述状态信息包含：至少包含位置偏差的伺服状态以及所述非线性摩擦补偿部的修正系数的组合；行为信息输出部(例如，后述的行为信息输出部203)，其向所述伺服电动机控制装置输出行为信息，所述行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息；回报输出部(例如，后述的回报输出部2021)，其输出基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值；以及价值函数更新部(例如，后述的价值函数更新部2022)，其根据通过所述回报输出部输出的回报的值、所述状态信息、所述行为信息来更新行为价值函数。

(2)在上述(1)的机器学习装置中，所述回报输出部可以根据所述位置偏差的绝对值来输出所述回报的值。

(3)在上述(1)或(2)的机器学习装置中，所述伺服电动机控制装置还可以具有速度前馈计算部(例如，后述的速度前馈计算部110)，其根据所述位置指令来生成速度前馈值，所述非线性摩擦补偿部可以与所述速度前馈计算部并联连接。

(4)在上述(1)～(3)中任一项的机器学习装置中，所述机器学习装置还可以具备最优化行为信息输出部(例如，后述的最优化行为信息输出部205)，其根据通过所述价值函数更新部更新后的价值函数，生成并输出所述非线性摩擦补偿部的修正系数的组合。

(5)本发明的伺服电动机控制系统具备：上述(1)～(4)中任一项的机器学习装置(例如，后述的机器学习装置200)；以及具备非线性摩擦补偿部的伺服电动机控制装置(例如，后述的伺服电动机控制装置100)，非线性摩擦补偿部生成针对非线性摩擦的修正值。

(6)在上述(5)的伺服电动机控制系统中，所述伺服电动机控制装置还可以具有速度前馈计算部(例如，后述的速度前馈计算部110)，其根据位置指令来生成速度前馈值，所述非线性摩擦补偿部可以与所述速度前馈计算部并联连接。

(7)本发明的伺服电动机控制装置具备：上述(1)～(4)中任一项的机器学习装置；以及非线性摩擦补偿部，其生成针对非线性摩擦的修正值。

(8)在上述(7)的伺服电动机控制装置中，还可以具有速度前馈计算部，其根据位置指令来生成速度前馈值，所述非线性摩擦补偿部可以与所述速度前馈计算部并联连接。

(9)本发明的机器学习方法是针对具备非线性摩擦补偿部(例如，后述的非线性摩擦补偿器111)的伺服电动机控制装置(例如，后述的伺服电动机控制装置100)进行机器学习的机器学习装置(例如，后述的机器学习装置200)的机器学习方法，所述非线性摩擦补偿部根据位置指令生成针对非线性摩擦的修正值，所述机器学习方法通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，该状态信息包含至少包含位置偏差的伺服状态以及所述非线性摩擦补偿部的修正系数的组合，向所述伺服电动机控制装置输出行为信息，该行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息，根据基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。

根据本发明，能够进行非线性摩擦的补偿，改善伺服电动机的反转动作时的伺服系统的响应性。

附图说明

图1是表示本发明的第1实施方式的伺服电动机控制系统的框图。

图2是表示本发明的第1实施方式的伺服电动机控制系统的伺服电动机控制装置与机器学习装置的组合以及控制对象的框图。

图3是表示非线性摩擦修正值f(ω)与电动机速度ω的关系的特性图。

图4是表示控制对象的一个例子的框图。

图5用于说明加工形状为圆形时的伺服电动机的动作。

图6用于说明加工形状为四边形时的伺服电动机的动作。

图7表示在控制对象中包含的工作台向X轴方向或Y轴方向正弦波状地移动的状态。

图8表示在控制对象中包含的工作台向X轴方向或Y轴方向三角波状地移动的状态。

图9用于说明加工形状为星形时的伺服电动机的动作。

图10是表示第1实施方式的机器学习装置的框图。

图11是说明机器学习装置的动作的流程图。

图12是说明机器学习装置的最优化行为信息输出部的动作的流程图。

图13表示基于机器学习的非线性摩擦补偿器的参数调整前的工作台的移动轨迹。

图14表示基于机器学习的非线性摩擦补偿器的参数调整后的工作台的移动轨迹。

具体实施方式

以下，使用附图针对本发明的实施方式进行详细说明。

(第1实施方式)

图1是表示发明的第1实施方式的伺服电动机控制系统的框图。如图1所示，伺服电动机控制系统10具备n台伺服电动机控制装置100-1～100-n、n台机器学习装置200-1～200-n、以及网络400。此外，n是任意的自然数。

在这里，伺服电动机控制装置100-1与机器学习装置200-1被设为1对1的组合，可相互通信地连接。针对伺服电动机控制装置100-2～100-n与机器学习装置200-2～200-n也与伺服电动机控制装置100-1和机器学习装置200-1同样地连接。在图1中，经由网络400连接伺服电动机控制装置100-1～100-n与机器学习装置200-1～200-n的n个组合，但是对于伺服电动机控制装置100-1～100-n与机器学习装置200-1～200-n的n个组合，也可以经由连结接口将各个组合的伺服电动机控制装置与机器学习装置直接连接。这些伺服电动机控制装置100-1～100-n与机器学习装置200-1～200-n的n个组合例如可以在相同的工厂中设置多组，也可以分别设置在不同的工厂中。

此外，网络400例如是在工厂内构建的LAN(Local Area Network：局域网)、因特网、公共电话网络、或者经由连接接口的直接连接、或它们的组合。对于网络400中的具体的通信方式以及是有线连接还是无线连接等，并没有特别限定。

图2是表示本发明的第1实施方式的伺服电动机控制系统的伺服电动机控制装置与机器学习装置的组合以及控制对象的框图。图2的伺服电动机控制装置100与机器学习装置200例如对应于图1所示的伺服电动机控制装置100-1与机器学习装置200-1。

控制对象300例如是包含伺服电动机的机床、机器人或工业机械等。伺服电动机控制装置100可以被设为机床、机器人或工业机械等的一部分。

首先针对伺服电动机控制装置100进行说明。

如图2所示，伺服电动机控制装置100具备位置指令生成部101、减法器102、位置控制部103、加法器104、减法器105、速度控制部106、加法器107、积分器108、位置前馈计算部109、速度前馈计算部110以及非线性摩擦补偿器111。

位置指令生成部101按照从未图示的上位控制装置或外部输入装置等输入的程序，来生成用于使控制对象300中包含的伺服电动机进行动作的位置指令值，并将生成的位置指令值输出至减法器102和位置前馈计算部109。减法器102求出位置指令值与位置反馈的检测位置之间的差，将该差作为位置偏差输出至位置控制部103并且发送给机器学习装置200。

位置指令生成部101根据用于使控制对象300中包含的伺服电动机进行动作的程序来生成位置指令值。控制对象300例如是包含伺服电动机的机床。当机床使搭载被加工物(工件)的工作台向X轴方向以及Y轴方向移动来进行加工时，对X轴方向以及Y轴方向分别设置图2所示的伺服电动机控制装置。当机床使工作台向3轴以上的方向移动时，对各个轴向设置图2所示的伺服电动机控制装置。

位置指令生成部101为了使伺服电动机的速度变化而改变脉冲频率来生成位置指令值，使得成为由程序指定的加工形状。

位置控制部103例如将位置偏差乘以预先设定的位置增益Kp而得到的值作为速度指令值输出至加法器104。位置前馈计算部109将对位置指令值进行微分并乘以前馈系数而得到的值输出给加法器104、速度前馈计算部110以及非线性摩擦补偿器111。

加法器104将速度指令值与位置前馈计算部109的输出值进行相加，并作为进行了前馈控制的速度指令值来输出至减法器105。减法器105求出加法器104的输出与进行了速度反馈的速度检测值之间的差，并将该差作为速度偏差输出至速度控制部106。

速度控制部106例如将速度偏差乘以预先设定的积分增益K1v并进行积分而得到的值与速度偏差乘以预先设定的比例增益K2v而得到的值进行相加，来作为转矩指令值输出至加法器107。

速度前馈计算部110根据位置前馈计算部109的输出值，例如进行通过数学式1(以下表示为式1)表示的传递函数Gf(S)所表示的速度前馈计算处理，并将该计算结果作为第1转矩修正值输出至加法器107。速度前馈计算部110的系数a_i、b_j对于a_i成为0≤i≤m，对于b_j成为0≤j≤n的预先设定的常数。范围m、n是预先设定的自然数。

【式1】

非线性摩擦补偿器111根据位置前馈计算部109的输出值，求出用于对控制对象300中产生的非线性摩擦进行补偿的非线性摩擦修正值，并将该非线性摩擦修正值作为第2转矩修正值输出至加法器107。非线性摩擦例如在控制对象300是包含伺服电动机的机床时，主要通过伺服电动机以外的机床的滚珠丝杠等产生。但是，非线性摩擦在伺服电动机中也会产生。非线性摩擦修正值f(ω)例如能够由数学式2(以下表示为式2)来表示，使用电动机速度ω来求出。图3示出了表示非线性摩擦修正值f(ω)与电动机速度ω之间的关系的特性图。

【式2】

f_(ω)＝f_1(ω)·f₂(ω)

f_1(ω)＝c·ω

如后所述，使用机器学习装置200来求出数学式2中的修正系数c、d的组合的最佳值。

加法器107将转矩指令值、速度前馈计算部110的输出值以及非线性摩擦补偿器111的输出值进行相加，将该相加值作为进行了前馈控制的转矩指令值输出至控制对象300的伺服电动机。

控制对象300输出速度检测值，并将速度检测值作为速度反馈输入至减法器105。速度检测值通过积分器108进行积分而成为位置检测值，将位置检测值作为位置反馈输入至减法器102。

如上所述，构成伺服电动机控制装置100。

接下来，针对由伺服电动机控制装置100控制的控制对象300进行说明。

图4是表示作为控制对象300的一个例子的包含伺服电动机的机床的一部分的框图。

伺服电动机控制装置100通过伺服电动机302经由连结机构303使工作台304移动。机床一边使工作台304移动，一边使安装了工具的主轴旋转，来加工搭载在工作台304上的被加工物(工件)。连结机构303具有与伺服电动机302连结的联结器3031以及在联结器3031固定的滚珠丝杠3033，螺母3032与滚珠丝杠3033螺纹结合。通过伺服电动机302的旋转驱动，与滚珠丝杠3033螺纹结合的螺母3032在滚珠丝杠3033的轴向上移动。非线性摩擦在包含联结器3031与滚珠丝杠3033的连结机构303、螺母3032等中产生，但是在伺服电动机302中也产生非线性摩擦。

通过与伺服电动机302相关联的成为位置检测部的旋转编码器301来检测伺服电动机302的旋转角度位置，将检测出的信号用作速度反馈。将检测出的信号通过由积分器108进行积分来用作位置反馈。此外，机床可以在滚珠丝杠3033的端部具备检测滚珠丝杠3033的移动距离的线性标尺305。能够将该线性标尺305的输出用作位置反馈。

＜机器学习装置200＞

机器学习装置200通过执行预先设定的评价用的程序(以下，称为“评价用程序”)来学习非线性摩擦补偿器111的修正系数。在这里，在机床通过伺服电动机使工作台在X轴方向以及Y轴方向上移动来进行加工时，关于通过评价用程序指定的加工形状，在评价伺服电动机的反转动作时，例如能够使用圆形、四边形或星形等。

图5用于说明加工形状为圆形时的伺服电动机的动作。图6用于说明加工形状为四边形时的伺服电动机的动作。在图5以及图6中，工作台进行移动，使得顺时针方向加工被加工物(工件)。

在评价伺服电动机的反转动作时，例如，如图7或图8所示，伺服电动机控制装置100控制伺服电动机302，使得控制对象300中包含的工作台在X轴方向和Y轴方向中的至少一个方向上正弦波状或三角波状地进行移动。

评价用程序用于控制从伺服电动机控制装置100的位置指令生成部101输出的脉冲的频率。通过该频率的控制，来控制工作台的X轴方向或Y轴方向的进给速度。如果从位置指令生成部101输出的脉冲的频率变高，则电动机的旋转速度上升，进给速度变快，另一方面，如果脉冲的频率降低，则电动机的旋转速度下降，进给速度变慢。在伺服电动机302的旋转方向发生反转时，工作台的移动方向对于X轴方向或Y轴方向发生反转。

当加工形状为图5所示的圆形时，伺服电动机控制装置100控制X轴方向与Y轴方向的伺服电动机，使得工作台在X轴方向如图7所示正弦波状地进行移动，在Y轴方向余弦波状地进行移动。

在图5所示的位置A1，使工作台在Y轴方向移动的伺服电动机的旋转方向发生反转，工作台以在Y轴方向直线反转的方式进行移动。另一方面，在位置A1，使工作台在X轴方向进行移动的伺服电动机通过与位置A1前后的速度相同的速度进行旋转，工作台在X轴方向通过与位置A1前后的速度相同的速度进行移动。工作台在Y轴方向发生反转的位置A1对应于图7所示的正方向的反转位置。另一方面，在X轴方向恒速进行移动的工作台通过成为图7所示的波形(正弦波)的相位延迟或提前90度后的波形(余弦波)的方式进行移动。工作台在X轴方向以相同的速度进行移动的位置A1对应于图7所示的正方向的反转位置与负方向的反转位置的中间的位置。

在图5所示的位置A2，伺服电动机控制装置100控制各伺服电动机，使得使工作台在X轴方向进行移动的伺服电动机的动作以及使工作台在Y轴方向进行移动的伺服电动机的动作与位置A1相反。也就是说，在位置A2，使工作台在X轴方向进行移动的伺服电动机的旋转方向发生反转，工作台以在X轴方向上直线反转的方式进行移动。另一方面，在位置A2，使工作台在Y轴方向进行移动的伺服电动机通过与位置A2前后的速度相同的速度进行旋转，工作台在Y轴方向通过与位置A2前后的速度相同的速度进行移动。

在加工形状为图6所示的四边形时，伺服电动机控制装置100控制X轴方向和Y轴方向的伺服电动机，使得工作台在X轴方向如图8所示三角波状地进行移动，在Y轴方向以图8所示的三角波的相位延迟或提前90度后的三角波状进行移动。此外，在工作台三角波状地进行移动时，从正的反转位置到负的反转位置为止以及从负的反转位置到正的反转位置为止的伺服电动机的旋转速度为恒速。

在图6所示的位置B1，使工作台在X轴方向进行移动的伺服电动机的旋转方向发生反转，工作台以在X轴方向上直线反转的方式进行移动。另一方面，在位置B1，使工作台在Y轴方向进行移动的伺服电动机恒速进行旋转，工作台在Y轴方向恒速进行移动。工作台在X轴方向进行反转的位置B1与图8所示的负方向的反转位置对应。另一方面，在Y轴方向恒速移动的工作台通过成为图8所示的三角波的相位延迟或提前90度后的三角波的方式进行移动。工作台在Y轴方向恒速进行移动的位置B1对应于图8所示的正方向的反转位置与负方向的反转位置的中间的位置。

在图6所示的位置B2，伺服电动机控制装置100控制各伺服电动机，使得使工作台在X轴方向移动的伺服电动机的动作以及使工作台在Y轴方向移动的伺服电动机的动作与位置B1相反。也就是说，在位置B2，使工作台在Y轴方向进行移动的伺服电动机的旋转方向发生反转，工作台以在Y轴方向直线反转的方式进行移动。另一方面，在位置B2，使工作台在X轴方向进行移动的伺服电动机恒速旋转，工作台在X轴方向恒速移动。

通过执行评价用程序，伺服电动机控制装置100的位置指令生成部101依次输出位置指令值，使得成为圆形或四边形的加工形状。另外，位置指令生成部101对于圆形或四边形的每个加工形状变更进给速度，使得机器学习装置200能够学习有关多个进给速度的影响。位置指令生成部101可以在加工形状的图形的移动过程中变更进给速度，例如在使工作台移动成为四边形的加工形状时，可以在经过拐角时变更进给速度。由此，当工作台在X轴方向或Y轴方向分别正弦波状或三角波状地进行移动时，机器学习装置200能够提高频率或对于逐渐提高频率的模式进行学习。

另外，当加工形状为圆形或四边形时，在使工作台在X轴方向以及Y轴方向进行移动的伺服电动机中的一方的旋转方向发生反转时，另一方的伺服电动机的旋转成为恒定速度。但是，也可以使通过评价用程序指定的加工形状成为使工作台在X轴方向以及Y轴方向进行移动的2个伺服电动机的旋转方向都发生反转的加工形状，例如可以设为图9所示的星形。机器学习装置200可以学习在这样的加工形状下的非线性摩擦补偿器111的修正系数c、d的组合。

图9用于说明加工形状为星形时的伺服电动机的动作。当加工形状是图9所示的星形时，伺服电动机控制装置100控制X轴方向以及Y轴方向的伺服电动机，使得在星形的4个“＜”形状的突出部分，工作台在X轴方向以及Y轴方向三角波状地进行移动。

在星形的4个“＜”形状的突出部分的顶点，例如在图9所示的位置C1，使工作台在X轴方向进行移动的伺服电动机的旋转方向反转，工作台以在X轴方向直线反转的方式进行移动。同样地，在位置C1，使工作台在Y轴方向进行移动的伺服电动机的旋转方向反转，工作台以在Y轴方向直线反转的方式进行移动。由此，对于使工作台在X轴方向以及Y轴方向进行移动的2个伺服电动机的旋转方向都发生反转时的伺服电动机的反转动作进行评价。

此外，在图9所示的星形的加工形状中，在4个凹部的顶点，与加工形状为图6所示的四边形时相同，对于在X轴方向和Y轴方向中的一个方向上进行移动的伺服电动机的旋转方向发生反转，在另一方向上进行移动的伺服电动机恒速进行旋转的动作进行评价。例如，在图9所示的位置C2，使工作台在X轴方向进行移动的伺服电动机的旋转方向发生反转，工作台以在X轴方向直线反转的方式进行移动。但是，在位置C2，使工作台在Y轴方向进行移动的伺服电动机恒速进行旋转，工作台在Y轴方向恒速进行移动。

接下来，针对机器学习装置200的结构进行说明。

机器学习装置200对于根据评价用程序来驱动控制对象300时的用于降低位置偏差的非线性摩擦补偿器111的修正系数c、d的组合进行学习。

在说明机器学习装置200中包含的各功能块之前，首先针对强化学习的基本的机制进行说明。智能体(相当于本实施方式中的机器学习装置200)观察环境的状态，选择某个行为，根据该行为使得环境变化。伴随着环境的变化，给予一些回报，智能体学习选择更好的行为(决策)。

相对于有监督学习表示完全正确的解，强化学习中的回报大多是基于环境的部分的变化的碎片化的值。因此，智能体学习选择行为，使得将来的回报的总和最大。

如此，在强化学习中，机器学习装置200通过学习行为，考虑行为带给环境的相互作用来学习合适的行为，即学习用于使将来得到的回报最大的行为。这在本实施方式中，表现为机器学习装置200能够获得影响未来的行为，例如选择用于减少位置偏差的行为信息。

在这里，作为强化学习能够使用任意的学习方法，但是在以下的说明中，以使用Q学习(Q-Learning)的情况为例进行说明，Q学习是在某个环境的状态S下，对于选择行为A的价值函数Q(S，A)进行学习的方法。

Q学习的目的在于，在某个状态S时，从可取得的行为A中选择价值函数Q(S，A)最高的行为A来作为最佳的行为。

然而，在最初开始Q学习的时间点，对于状态S与行为A的组合，完全不知道价值函数Q(S，A)的正确值。因此，智能体在某个状态S下选择各种各样的行为A，根据针对此时的行为A赋予的回报来选择更好的行为，由此学习正确的价值函数Q(S，A)。

另外，Q学习想要使将来得到的回报的总和最大，因此以最终成为Q(S，A)＝E[Σ(γ^t)r_t]为目标。在这里，E[]表示期待值，t是时刻，γ是后述的被称为折扣率的参数，r_t是时刻t的回报、Σ是时刻t的总和。该式子中的期待值是按照最佳的行为而状态发生了变化时的期待值。但是，在Q学习的过程中，不知道最佳的行为是什么，因此通过进行各种各样的行为，一边探索一边进行强化学习。关于这样的价值函数Q(S，A)的更新式，例如能够通过以下的数学式3(以下表示为式3)表示。

【式3】

在上述的式3中，S_t表示时刻t的环境的状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。另外，带有max的项是在状态S_t+1下，选择了当时所知道的Q值最高的行为A时的Q值乘以γ的项。在这里，γ是0＜γ≤1的参数，被称为折扣率。另外，α是学习系数，设为0＜α≤1的范围。

上述式3表示根据作为行为A_t的结果而返回的回报r_t+1，来对状态S_t下的行为A_t的价值函数Q(S_t，A_t)进行更新的方法。

该更新式表示如果基于行为A_t的下一个状态S_t+1下的最佳的行为的价值max_aQ(S_t+1，A)大于状态S_t下的行为A_t的价值函数Q(S_t，A_t)，则增大Q(S_t，A_t)，反之，如果小于，则减小Q(S_t，A_t)。也就是说，更新式表示使某个状态下的某个行为的价值接近基于该行为的下一个状态下的最佳的行为的价值。但是，它们之间的差根据折扣率γ与回报r_t+1的方式而变化，基本上，Q学习成为如下机制：某个状态下的最佳的行为的价值传播至该状态的前一个状态下的行为的价值。

在此，在Q学习中，具有生成与全部的状态行为对(S，A)有关的价值函数Q(S，A)的表来进行学习的方法。但是，存在为了求出全部的状态行为对的价值函数Q(S，A)的值，需要的状态数过多，Q学习收敛需要较多时间的情况。

因此，Q学习可以使用公知的被称为DQN(Deep Q-Network)的技术。具体而言，Q学习可以使用适当的神经网络来构成价值函数Q，并调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q(S，A)来计算价值函数Q(S，A)的值。通过使用DQN，Q学习收敛所需要的时间变短。此外，关于DQN，例如在以下的非专利文献中有详细的记载。

＜非专利文献＞

“Human-level control through deep reinforcement learning”、VolodymyrMnih1著[online]、[平成29年1月17日检索]、因特网〈URL：http://files.davidqiu.com/research/nature14236.pdf〉

机器学习装置200进行以上说明的Q学习。具体而言，机器学习装置200将伺服电动机控制装置100中的非线性摩擦补偿器111的修正系数c、d的值、指令以及反馈等伺服状态作为状态S，针对选择该状态S下的非线性摩擦补偿器111的修正系数c、d的调整来作为行为A的价值函数Q进行学习。伺服状态包含通过执行评价用程序而取得的伺服电动机控制装置100的位置偏差信息。

机器学习装置200根据非线性摩擦补偿器111的修正系数c、d，观察包含指令以及反馈等伺服状态的状态信息S来决定行为A，其中，伺服状态包含通过执行评价用程序而得到的伺服电动机控制装置100的位置偏差信息。机器学习装置200在每一次进行行为A时给予回报。机器学习装置200例如反复试验地搜索最佳的行为A，使得将来的回报的总和为最大。由此，机器学习装置200能够根据非线性摩擦补偿器111的修正系数c、d，针对包含指令、反馈等伺服状态的状态S，选择最佳的行为A(即，非线性摩擦补偿器111的最佳的修正系数c、d)，其中，伺服状态包含通过执行评价用程序而得到的伺服电动机控制装置100的位置偏差信息。

即，根据由机器学习装置200学习的价值函数Q，选择涉及某个状态S的对于非线性摩擦补偿器111的修正系数c、d采用的行为A中的Q值为最大的行为A，由此来选择通过执行评价用程序而取得的位置偏差为最小的行为A(即、非线性摩擦补偿器111的修正系数c、d的组合)。

图10是表示本发明的第1实施方式的机器学习装置200的框图。

为了进行上述强化学习，如图10所示，机器学习装置200具备状态信息取得部201、学习部202、行为信息输出部203、价值函数存储部204以及最优化行为信息输出部205。

状态信息取得部201根据伺服电动机控制装置100中的非线性摩擦补偿器111的修正系数c、d，从伺服电动机控制装置100取得包含指令以及反馈等伺服状态的状态S，该伺服状态包含通过执行评价用程序而取得的伺服电动机控制装置100的位置偏差信息。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部201对学习部202输出所取得的状态信息S。

此外，设为由用户预先生成在最初开始Q学习的时间点的非线性摩擦补偿器111的修正系数c、d。在本实施方式中，例如通过强化学习将用户生成的非线性摩擦补偿器111的修正系数c、d的初始设定值调整为最佳的值。

学习部202是对于在某个环境状态S下选择某个行为A时的价值函数Q(S，A)进行学习的部分。具体而言，学习部202具备回报输出部2021、价值函数更新部2022以及行为信息生成部2023。

回报输出部2021是计算在某个状态S下选择了行为A时的回报的部分。在这里，用PD(S)来表示作为状态S下的状态变量的位置偏差的集合(位置偏差集合)，用PD(S′)来表示作为通过行为信息A(非线性摩擦补偿器111的修正系数c、d的修正)从状态S发生变化后的状态信息S′下的状态变量的位置偏差集合。另外，设状态S下的位置偏差的值为根据预先设定的评价函数f(PD(S))计算出的值。

作为评价函数f，例如能够应用以下函数：

计算位置偏差的绝对值的累计值的函数

∫|e|dt

对位置偏差的绝对值进行时间的加权来计算累计值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n为自然数)次方的累计值的函数

∫e²ⁿdt(n为自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}

此外，评价函数并不限定于此。评价函数只要是根据位置偏差集合PD(S)恰当地对状态S下的位置偏差值进行评价的函数即可。

当使用通过行为信息A修正后的状态信息S′所涉及的修正后的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S′))大于使用通过行为信息A修正前的状态信息S所涉及的修正前的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S))时，回报输出部2021使回报的值为负值。

另一方面，当使用通过行为信息A修正后的状态信息S′所涉及的修正后的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S′))小于使用通过行为信息A修正前的状态信息S所涉及的修正前的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S))时，回报输出部2021使回报的值为正值。

此外，当使用通过行为信息A修正后的状态信息S′所涉及的修正后的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S′))等于使用通过行为信息A修正前的状态信息S所涉及的非线性摩擦补偿器111来进行动作的伺服电动机控制装置100的位置偏差的值f(PD(S))时，回报输出部2021例如使回报的值为零。

另外，可以根据比例使得执行行为A后的状态S′的位置偏差的值f(PD(S′))大于前一状态S下的位置偏差的值f(PD(S))时的负值增大。也就是说，可以根据位置偏差的值变大的程度，来使负值增大。反之，可以根据比例使得执行行为A后的状态S′的位置偏差的值f(PD(S′))小于前一状态S下的位置偏差的值f(PD(S))时的正值增大。也就是说，可以根据位置偏差的值变小的程度，来使正值增大。

价值函数更新部2022根据状态S、行为A、将行为A用于状态S后的状态S′以及如上所述计算出的回报的值来进行Q学习，由此来更新价值函数存储部204所存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是通过将某个行为A用于当前的状态S，从而在每次状态S迁移至新的状态S′时，立即进行价值函数Q的更新的学习方法。另外，批量学习是通过重复进行将某个行为A用于当前的状态S，从而使状态S迁移至新的状态S′的处理，来收集学习用数据，使用收集到的全部的学习用数据来进行价值函数Q的更新的学习方法。并且，小批量学习是在线学习与批量学习之间的在每次积累了某种程度的学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部2023针对当前的状态S选择Q学习的过程中的行为A。在Q学习的过程中，为了进行伺服电动机控制装置100的非线性摩擦补偿器111的各修正系数c、d的修正动作(相当于Q学习中的行为A)，行为信息生成部2023生成行为信息A，并将生成的行为信息A输出给行为信息输出部203。更具体而言，例如，关于状态S中包含的非线性摩擦补偿器111的各修正系数，行为信息生成部2023对于在行为A中包含的非线性摩擦补偿器111的各修正系数c、d以渐进的方式进行加法或减法。

然后，应用非线性摩擦补偿器111的各修正系数c、d的增加或减少来迁移至状态S′，当给予了正的回报(正的值的回报)时，行为信息生成部2023可以采取以下措施：针对非线性摩擦补偿器111的各修正系数c、d，选择使位置偏差的值变得更小的行为A′，例如与上次的行为同样地以渐进的方式进行加法或减法等，来作为下一个行为A′。

另外，相反地，当给予了负的回报(负值的回报)时，行为信息生成部2023可以采取以下措施：例如针对非线性摩擦补偿器111的各修正系数c、d，选择使位置偏差变得比上次的值小的行为A′，例如与上次的行为相反地以渐进的方式进行减法或加法等，来作为下一个行为A′。

另外，行为信息生成部2023可以通过在当前推定的行为A的价值中，选择价值函数Q(S，A)最高的行为A′的贪婪法、或者以某个小的概率ε来随机选择行为A′，在此之外选择价值函数Q(S，A)最高的行为A′的ε贪婪法这样的公知的方法，来采取选择行为A′的措施。

行为信息输出部203是将从学习部202输出的行为信息A发送给伺服电动机控制装置100的部分。如上所述，伺服电动机控制装置100根据该行为信息，对在当前状态S下，即当前所设定的非线性摩擦补偿器111的各修正系数c、d稍微进行修正，由此转移到下一个状态S′(即修正后的非线性摩擦补偿器111的各修正系数)。

价值函数存储部204是存储价值函数Q的存储装置。价值函数Q例如可以针对每个状态S、每个行为A保存为表(以下，称为行为价值表)。通过价值函数更新部2022来更新在价值函数存储部204中存储的价值函数Q。另外，可以与其他的机器学习装置200共享在价值函数存储部204中存储的价值函数Q。如果由多个机器学习装置200共享价值函数Q，则可以通过各机器学习装置200分散地进行强化学习，因此能够提高强化学习的效率。

最优化行为信息输出部205根据通过价值函数更新部2022进行Q学习而更新后的价值函数Q，生成用于使非线性摩擦补偿器111进行使价值函数Q(S，A)成为最大的动作的行为信息A(以下，称为“最优化行为信息”)。

更具体而言，最优化行为信息输出部205取得价值函数存储部204所存储的价值函数Q。如上所述，该价值函数Q是通过价值函数更新部2022进行Q学习而更新后的函数。然后，最优化行为信息输出部205根据价值函数Q生成行为信息，并将生成的行为信息输出给伺服电动机控制装置100(非线性摩擦补偿器111)。与行为信息输出部203在Q学习的过程中输出的行为信息同样地，该最优化行为信息包含用于对非线性摩擦补偿器111的各修正系数c、d进行修正的信息。

在伺服电动机控制装置100中，根据该行为信息修正非线性摩擦补偿器111的各修正系数c、d，伺服电动机控制装置100能够以减少位置偏差的值的方式来进行动作。

如上所述，通过使用本实施方式的机器学习装置200，能够简化伺服电动机控制装置100的非线性摩擦补偿器111的参数调整。

以上，针对在伺服电动机控制装置100、机器学习装置200中包含的功能块进行了说明。

为了实现这些功能块，伺服电动机控制装置100以及机器学习装置200分别具备CPU(Central Processing Unit：中央处理单元)等运算处理装置。另外，伺服电动机控制装置100以及机器学习装置200分别还具备存储了应用程序软件、OS(Operating System：操作系统)等各种控制用程序的HDD(Hard Disk Drive：硬盘驱动器)等辅助存储装置、以及在运算处理装置执行程序时用于暂时存储所需要的数据的RAM(Random Access Memory：随机存取存储器)这样的主存储装置。

然后，在各个伺服电动机控制装置100以及机器学习装置200中，运算处理装置从辅助存储装置读入应用程序软件和OS，一边将读入的应用程序软件、OS在主存储装置中展开，一边基于这些应用程序软件、OS进行运算处理。另外，根据该运算结果，来控制各装置所具备的各种硬件。由此，实现本实施方式的功能块。也就是说，本实施方式能够通过硬件与软件的协作来实现。

在机器学习装置200中与机器学习相伴的运算量较多，因此优选例如在个人计算机中搭载GPU(Graphics Processing Units：图形处理单元)，通过被称为GPGPU(General-Purpose computing on Graphics Processing Units：通用图形处理单元)的技术，将GPU用于与机器学习相伴的运算处理。机器学习装置200通过使用GPU能够进行高速处理。为了进行更高速的处理，机器学习装置200使用多台搭载了这样的GPU的计算机来构筑计算机集群，通过在该计算机集群中包含的多个计算机来进行并行处理。

接下来，参照图11的流程图来对本实施方式的Q学习时的机器学习装置200的动作进行说明。此外，在此针对加工形状为圆形的情况进行说明，但是加工形状可以是四边形，机器学习装置200可以按顺序针对加工形状为圆形以及四边形等形状的情况进行学习。

在步骤S11中，状态信息取得部201从伺服电动机控制装置100取得状态信息S。将取得的状态信息输出给价值函数更新部2022以及行为信息生成部2023。如上所述，该状态信息S是相当于Q学习中的状态的信息，包含在步骤S11时间点的非线性摩擦补偿器111的各修正系数c、d。如此，从非线性摩擦补偿器111取得修正系数为初始值时的与圆形的加工形状相对应的位置偏差的集合PD(S)。

此外，如上所述，由用户来初始设定初始状态S₀下的非线性摩擦补偿器111的修正系数c、d。

通过使用评价用程序使伺服电动机控制装置100进行动作，从减法器102得到最初开始进行Q学习的时间点的状态S₀下的位置偏差的值PD(S₀)。位置指令生成部101通过由评价用程序指定的圆形的加工形状来依次输出位置指令。从位置指令生成部101输出与圆形的加工形状相对应的位置指令值，减法器102将位置指令值与从积分器108输出的检测位置之间的差作为位置偏差PD(S₀)输出至机器学习装置200。

在步骤S12中，行为信息生成部2023生成新的行为信息A，并将生成的新的行为信息A经由行为信息输出部203输出给伺服电动机控制装置100。行为信息生成部2023根据上述措施，输出新的行为信息A。此外，接收到行为信息A的伺服电动机控制装置100通过根据接收到的行为信息对当前的状态S所涉及的非线性摩擦补偿器111的各修正系数c、d进行修正后的状态S′，来驱动包含伺服电动机的机床。如上所述，该行为信息是相当于Q学习中的行为A的信息。

在步骤S13中，状态信息取得部201从减法器102取得新的状态S′下的位置偏差PD(S′)以及从非线性摩擦补偿器111取得修正系数c、d。如此，状态信息取得部201取得在为来自非线性摩擦补偿器111的状态S′下的修正系数c、d时的与圆形的加工形状相对应的位置偏差的集合PD(S′)。向回报输出部2021输出所取得的状态信息。

在步骤S14中，回报输出部2021判断状态S′下的位置偏差的值f(PD(S′))与状态S下的位置偏差的值f(PD(S))的大小关系，当f(PD(S′))＞f(PD(S))时，在步骤S15中，使回报为负值。回报输出部2021在f(PD(S′))＜f(PD(S))时，在步骤S16中，使回报为正值。回报输出部2021在f(PD(S′))＝f(PD(S))时，在步骤S17中，使回报为零。此外，回报输出部2021还可以针对回报的负值、正值进行加权。

如果步骤S15、步骤S16以及步骤S17中的任意一个步骤结束，则在步骤S18中，价值函数更新部2022根据在该任意一个步骤中计算出的回报的值，更新在价值函数存储部204中存储的价值函数Q。然后，再次返回步骤S11，通过重复上述处理，价值函数Q收敛为合适的值。此外，可以将上述处理重复预定次数或重复预定时间作为条件来结束处理。

此外，步骤S18例示了在线更新，但是也可以替换为批量更新或小批量更新来代替在线更新。

通过以上参照图11说明的动作，在本实施方式中，可以实现以下效果：机器学习装置200能够得到恰当的价值函数来调整非线性摩擦补偿器111的修正系数c、d，并能够简化前馈的修正系数c、d的最优化。

接下来，参照图12的流程图针对由最优化行为信息输出部205生成最优化行为信息时的动作进行说明。

首先，在步骤S21中，最优化行为信息输出部205取得在价值函数存储部204中存储的价值函数Q。如上所述，价值函数Q是通过价值函数更新部2022进行Q学习而更新后的价值函数。

在步骤S22中，最优化行为信息输出部205根据该价值函数Q来生成最优化行为信息，并对伺服电动机控制装置100的非线性摩擦补偿器111输出所生成的最优化行为信息。

另外，通过参照图12所说明的动作，在本实施方式中，根据通过由机器学习装置200进行学习而求出的价值函数Q，生成最优化行为信息，伺服电动机控制装置100根据该最优化行为信息，能够简化当前设定的非线性摩擦补偿器111的修正系数c、d的调整，并且降低位置偏差的值。

以下，使用图13以及图14针对本实施方式的机器学习装置的效果进行说明。图13表示基于机器学习的非线性摩擦补偿器的参数调整前的工作台的移动轨迹的图。图14表示基于机器学习的非线性摩擦补偿器的参数调整后的工作台的移动轨迹。图13以及图14都如图5所示，表示了在控制对象中包含的工作台在X轴方向或Y轴方向上正弦波状地进行移动时的移动轨迹。

如图13所示，在通过机器学习对非线性摩擦补偿器111的参数进行调整前，在伺服电动机的旋转方向要反转时，相对于通过位置指令生成部101设定的用虚线表示的正弦波状的工作台的移动轨迹，如实线所示的移动轨迹那样产生反转延迟。该反转延迟由于非线性摩擦而产生，工作台无法立即进行反转移动。如图14所示，在通过机器学习对非线性摩擦补偿器111的参数进行调整后，消除了由于非线性摩擦引起的反转延迟，如实线所示，工作台以正弦波状的移动轨迹来进行移动。图13以及图14中的箭头表示反转位置。

如图6所示，在控制对象中包含的工作台在X轴方向或Y轴方向上三角波状地进行移动的情况下，在通过机器学习对非线性摩擦补偿器111的参数进行调整前，也和正弦波状地进行移动时相同，在伺服电动机的旋转方向要反转时，产生由于非线性摩擦引起的反转延迟。即，相对于通过位置指令生成部101设定的三角波状的工作台的移动轨迹，由于非线性摩擦而产生反转延迟，工作台不会立即进行反转移动。但是，在通过机器学习对非线性摩擦补偿器111的参数进行调整后，消除了由于非线性摩擦引起的反转延迟，工作台以三角波状的移动轨迹进行移动。

上述伺服电动机控制装置的伺服电动机控制部以及机器学习装置中包含的各结构部能够通过硬件、软件或它们的组合来实现。另外，通过上述伺服电动机控制装置中包含的各结构部的协作而进行的伺服电动机控制方法也能够通过硬件、软件或它们的组合来实现。在这里，通过软件来实现是指通过计算机读入并执行程序来实现。

能够使用各种各样的类型的非暂时性的计算机可读记录介质(non-transitorycomputer readable medium)来保存程序，并提供给计算机。非暂时性的计算机可读记录介质包含各种各样的类型的有形的记录介质(tangible storage medium)。作为非暂时性的计算机可读记录介质的例子，包含磁记录介质(例如，硬盘驱动器)、磁光记录介质(例如，磁光盘)、CD-ROM(Read Only Memory：只读存储器)、CD-R、CD-R/W、半导体存储器(例如，掩膜ROM、PROM(Programmable ROM：可编程ROM)、EPROM(Erasable PROM：可擦除PROM)、闪存ROM、RAM(random access memory：随机存取存储器))。

上述实施方式是本发明的优选的实施方式，但是本发明的范围不仅限于上述实施方式，在不脱离本发明的主旨的范围内可以通过实施了各种各样的变更后的方式来实施。

＜使速度前馈计算部110为选项的情况＞

在上述实施方式中，伺服电动机控制装置100构成为具备速度前馈计算部110，并将非线性摩擦补偿器111与速度前馈计算部110并联连接的结构，但是并不限于此。速度前馈计算部110可以作为选项，伺服电动机控制装置100可以不具备速度前馈计算部110。

＜伺服电动机控制装置具备机器学习装置的变形例＞

在上述实施方式中，机器学习装置200是与伺服电动机控制装置100不同的装置，但是可以通过伺服电动机控制装置100来实现机器学习装置200的部分功能或全部功能。即，伺服电动机控制装置100可以包含机器学习装置200。

＜系统结构的自由度＞

在上述实施方式中，将机器学习装置200与伺服电动机控制装置100可通信地连接为1对1的组合，但是也可以设为例如1台机器学习装置200经由网络400与多个伺服电动机控制装置100可通信地连接，来执行各伺服电动机控制装置100的机器学习。

此时，可以设为将机器学习装置200的各功能适当分散到多个服务器的分散处理系统。另外，也可以在云端利用虚拟服务器功能等来实现机器学习装置200的各功能。

另外，当存在分别与相同的型号名称、相同规格或相同系列的多个伺服电动机控制装置100-1～100-n相对应的多个机器学习装置200-1～200-n时，伺服电动机控制系统可以构成为共享各机器学习装置200-1～200-n中的学习结果。由此，可以构建更为最优化的模型。

符号说明

10 伺服电动机控制系统

100 伺服电动机控制装置

101 位置指令生成部

102 减法器

103 位置控制部

104 加法器

105 减法器

106 速度控制部

107 加法器

108 积分器

109 位置前馈计算部

110 速度前馈计算部

111 非线性摩擦补偿器

200 机器学习装置

201 状态信息取得部

202 学习部

203 行为信息输出部

204 价值函数存储部

205 最优化行为信息输出部

300 控制对象

400 网络。

Claims

1.一种机器学习装置，其针对具备非线性摩擦补偿部的伺服电动机控制装置进行机器学习，所述非线性摩擦补偿部根据位置指令生成针对非线性摩擦的修正值，其特征在于，

所述机器学习装置具备：

状态信息取得部，其通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，所述状态信息包含至少包含位置偏差的伺服状态以及所述非线性摩擦补偿部的修正系数的组合；

行为信息输出部，其向所述伺服电动机控制装置输出行为信息，所述行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息；

回报输出部，其输出基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值；以及

价值函数更新部，其根据通过所述回报输出部输出的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述回报输出部根据所述位置偏差的绝对值来输出所述回报的值。

3.根据权利要求1或2所述的机器学习装置，其特征在于，

所述伺服电动机控制装置还具有速度前馈计算部，该速度前馈计算部根据所述位置指令来生成速度前馈值，

所述非线性摩擦补偿部与所述速度前馈计算部并联连接。

4.根据权利要求1～3中的任意一项所述的机器学习装置，其特征在于，

所述机器学习装置还具备最优化行为信息输出部，该最优化行为信息输出部根据通过所述价值函数更新部更新后的价值函数，生成所述非线性摩擦补偿部的修正系数的组合并进行输出。

5.一种伺服电动机控制系统，其特征在于，具备：

权利要求1～4中的任意一项所述的机器学习装置；以及

伺服电动机控制装置，其具有用于生成针对非线性摩擦的修正值的非线性摩擦补偿部。

6.根据权利要求5所述的伺服电动机控制系统，其特征在于，

所述伺服电动机控制装置还具有速度前馈计算部，该速度前馈计算部根据位置指令来生成速度前馈值，

所述非线性摩擦补偿部与所述速度前馈计算部并联连接。

7.一种伺服电动机控制装置，其特征在于，具备：

权利要求1～4中的任意一项所述的机器学习装置；以及

非线性摩擦补偿部，其生成针对非线性摩擦的修正值。

8.根据权利要求7所述的伺服电动机控制装置，其特征在于，

所述非线性摩擦补偿部与所述速度前馈计算部并联连接。

9.一种机器学习方法，其是针对具备非线性摩擦补偿部的伺服电动机控制装置进行机器学习的机器学习装置的机器学习方法，所述非线性摩擦补偿部根据位置指令生成针对非线性摩擦的修正值，其特征在于，

所述机器学习方法

通过使所述伺服电动机控制装置执行预定的程序，从所述伺服电动机控制装置取得状态信息，该状态信息包含至少包含位置偏差的伺服状态以及所述非线性摩擦补偿部的修正系数的组合；

向所述伺服电动机控制装置输出行为信息，该行为信息包含在所述状态信息中包含的所述修正系数的组合的调整信息；

根据基于所述状态信息中包含的所述位置偏差的强化学习中的回报的值、所述状态信息以及所述行为信息来更新行为价值函数。