CN111103794A

CN111103794A - 输出装置、控制装置、以及评价函数值的输出方法

Info

Publication number: CN111103794A
Application number: CN201911021683.8A
Authority: CN
Inventors: 恒木亮太郎; 猪饲聪史; 下田隆贵
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-10-29
Filing date: 2019-10-25
Publication date: 2020-05-05
Anticipated expiration: 2039-10-25
Also published as: CN111103794B; US11914334B2; JP2020071508A; US20200133208A1; DE102019216190A1; JP6860541B2

Abstract

本发明提供一种输出装置、控制装置、以及评价函数值的输出方法，可以取得学习后的参数或第一物理量以及评价函数值，从而确认机器学习的经过或结果。输出装置具有：信息取得部，其从对控制伺服电动机的伺服控制装置进行机器学习的机器学习装置中，取得机器学习中或机器学习后的伺服控制装置的结构要素的参数或第一物理量、以及评价函数值，其中所述伺服电动机用于驱动机床、机器人或工业机械的轴；输出部，其输出表示如下关系的信息：所取得的参数、第一物理量、或根据参数求出的第二物理量、与评价函数值之间的关系。

Description

输出装置、控制装置、以及评价函数值的输出方法

技术领域

本发明涉及输出装置、控制装置、以及评价函数值的输出方法，特别是涉及从对控制伺服电动机的伺服控制装置进行机器学习的机器学习装置中取得机器学习中或机器学习后的伺服控制装置的结构要素的参数或第一物理量、以及评价函数值，输出参数、第一物理量或根据参数求出的第二物理量、与评价函数值的关系的输出装置、包含该输出装置的控制装置以及评价函数值的输出方法。

背景技术

作为本发明相关联的技术，例如在专利文献1中记载了具有输出部的信号变换器，所述输出部通过机器学习单元使用乘法系数模式掌握方法求出目标乘法系数模式，使用该乘法系数模式来进行数字滤波器运算，显示数字滤波器输出。

具体来说，专利文献1公开了如下内容：信号变换器具有信号输入部、运算处理部、以及显示来自运算处理部的输出的输出部，所述运算处理部具有根据输入信号数据将信号数据特征化的功能，运算处理部具有输入文件、学习单元、数字滤波器、参数设定单元，在学习单元中通过机器学习单元使用乘法系数模式掌握方法求出目标乘法系数模式。

现有技术文献

专利文献1：日本特开平11-31139号公报

在专利文献1中，存在如下课题：虽然显示了来自运算处理部的输出，但是并不输出由机器学习单元进行了机器学习后的模式，操作员等用户无法确认机器学习的经过或结果。

此外，在通过机器学习装置对控制伺服电动机的伺服控制装置的结构要素的参数进行机器学习时，通常情况下，不显示参数以及机器学习装置所使用的评价函数值，因此，操作员无法确认机器学习的经过或结果，其中，伺服电动机用于驱动机床、机器人或工业机械的轴。此外，即使显示评价函数值，操作员也难以从评价函数值中掌握机械特性。

发明内容

本发明的目的在于提供一种输出装置、包含该输出装置的控制装置以及评价函数值的输出方法，可以取得伺服控制装置的结构要素的学习后的参数或第一物理量与评价函数值，可以从表示该参数、第一物理量或根据参数求出的第二物理量与评价函数值的关系的信息中确认机器学习的经过或结果，还可以从第一或第二物理量掌握机械特性。

(1)本发明涉及的输出装置(例如，后述的输出装置200、200A)具有：信息取得部(例如，后述的信息取得部201)，其从对控制伺服电动机(例如，后述的伺服电动机400)的伺服控制装置(例如，后述的伺服控制装置300)进行机器学习的机器学习装置(例如，后述的机器学习装置100)中，取得机器学习中或机器学习后的所述伺服控制装置的结构要素的参数或第一物理量、以及评价函数值，其中，所述伺服电动机用于驱动机床、机器人或工业机械的轴；以及

输出部(例如，后述的控制部205与显示部209、控制部205与存储部206)，其输出表示如下关系的信息：所取得的参数、所述第一物理量、或根据所述参数求出的第二物理量、与所述评价函数值之间的关系。

(2)在上述(1)的输出装置中，可以是，所述输出部包含：显示部，其在显示画面显示表示如下关系的信息：所述参数、所述第一物理量或所述第二物理量、与所述评价函数值之间的关系。

(3)在上述(1)或(2)的输出装置中，可以是，所述参数是所述伺服控制装置的结构要素的传递函数的系数，输出装置根据所述信息，指示所述伺服控制装置变更所述系数的阶数。

(4)在上述(1)～(3)中任一项的输出装置中，可以是，根据所述信息，指示所述机器学习装置变更或选择所述伺服控制装置的结构要素的参数或所述第一物理量的机器学习的搜索范围。

(5)在上述(1)～(4)中任一项的输出装置中，可以是，所述伺服控制装置的结构要素的参数包含数学公式模型或滤波器的参数。

(6)在上述(5)的输出装置中，可以是，所述数学公式模型或所述滤波器包含在速度前馈处理部或位置前馈处理部中，所述参数包含滤波器的传递函数的系数。

(7)本发明涉及的控制装置具有：

上述(1)～(6)中任一项的输出装置；

伺服控制装置，其控制用于驱动机床、机器人或工业机械的轴的伺服电动机；以及

机器学习装置，其对伺服控制装置进行机器学习。

(8)在上述(7)的控制装置中，可以是，所述输出装置包含在所述伺服控制装置和机器学习装置中的一个装置中。

(9)本发明涉及的输出装置的评价函数值的输出方法，所述评价函数值是在对伺服控制装置进行机器学习的机器学习装置的机器学习中使用的，所述伺服控制装置对用于驱动机床、机器人或工业机械的轴的伺服电动机进行控制，

从所述机器学习装置中取得机器学习中或机器学习后的所述伺服控制装置的结构要素的参数或第一物理量、以及评价函数值，

输出表示如下关系的信息：所取得的参数、所述第一物理量、或根据所述参数求出的第二物理量、与所述评价函数值之间的关系。

发明效果

根据本发明，可以取得学习到的参数或第一物理量与评价函数值，可以从表示该参数、第一物理量或以及根据参数求出的第二物理量与评价函数值的关系的信息中确认机器学习的经过或结果。此外，可以从第一或第二物理量掌握机械特性。

附图说明

图1是表示本发明的第一实施方式的控制装置的一结构例的框图。

图2是表示本发明的第一实施方式的控制装置的整体结构以及伺服控制装置的结构的框图。

图3是用于对加工形状是八边形时的电动机的动作进行说明的图。

图4是用于对加工形状是八边形的每隔一个角置换为圆弧的形状时的电动机的动作进行说明的图。

图5是表示本发明的第一实施方式的机器学习装置的框图。

图6是表示本发明的第一实施方式的控制装置所包含的输出装置的一结构例的框图。

图7是表示在机器学习过程中，根据机器学习的进展状况，在显示部显示表示从状态S有关的参数计算出的滤波器衰减中心频率与评价函数值的关系的特性图时的显示画面的一例的图。

图8是表示显示于输出装置的显示部的显示画面的特性图的其他示例的图。

图9是表示追加给输出装置的显示部的显示画面的频率-增益特性的频率特性图。

图10是表示衰减中心频率、评价函数值、滤波器衰减率的关系的三维图。

图11是表示用于说明滤波器衰减率的、曲线波谷的深度的频率-增益特性图。

图12是表示用于说明滤波器频带的、曲线波谷的深度的频率-增益特性图。

图13是表示将滤波器衰减率(衰减系数(damping))变为三个固定值时的、衰减中心频率与评价函数值的曲线的特性图。

图14是表示衰减中心频率、评价函数值、滤波器衰减率的详细关系的三维图。

图15是表示从机器学习开始到机器学习结束为止的、以输出装置为中心的控制装置的动作的流程图。

图16是表示机器学习结束指示后的输出装置的动作的流程图。

图17是表示本发明的第二实施方式的控制装置的一结构例的框图。

图18是表示本发明的第三实施方式的控制装置的一结构例的框图。

图19是表示其他结构的控制装置的框图。

符号说明

10、10A、10B、10C 控制装置

100 机器学习装置

200 输出装置

211 信息取得部

212 信息输出部

213 作图部

214 操作部

215 控制部

216 存储部

217 信息取得部

218 信息输出部

219 显示部

220 运算部

300 伺服控制装置

400 伺服电动机

500 调整装置

600 网络

具体实施方式

以下，使用附图对本发明的实施方式进行详细说明。

(第一实施方式)

图1是表示本发明的第一实施方式的控制装置的一结构例的框图。图1所示的控制装置10具有机器学习装置100、输出装置200、伺服控制装置300以及伺服电动机400。控制装置10驱动机床、机器人、或工业机械等。控制装置10可以与机床、机器人、或工业机械等分开设置，也可以包含于机床、机器人、或工业机械等中。

机器学习装置100从输出装置200取得输入到伺服控制装置300的位置指令、速度指令等控制指令以及从伺服控制装置300输出的位置偏差等伺服信息等用于机器学习的信息。此外，机器学习装置100从输出装置200取得伺服控制装置300的结构要素的参数(例如，速度前馈处理部的传递函数的系数)。机器学习装置100可以代替伺服控制装置300的结构要素的参数取得物理量(例如，与参数关联的、衰减中心频率、带宽、衰减系数(damping)等)(该物理量对应于第一物理量)。机器学习装置100根据输入的信息，对伺服控制装置300的结构要素的参数或物理量进行机器学习，向输出装置200输出机器学习中或机器学习后的参数或物理量、以及机器学习所使用的评价函数值。

输出装置200取得输入到伺服控制装置300的位置指令、速度指令等控制指令以及从伺服控制装置300输出的位置偏差等伺服信息，输出给机器学习装置100。此外，输出装置从机器学习装置100取得机器学习中或机器学习后的参数或物理量，发送给伺服控制装置300。

此外，输出装置200从机器学习装置100取得机器学习中或机器学习后的参数或物理量，输出表示该参数(例如，速度前馈处理部的系数)或从参数计算出的值(例如，中心频率、带宽、衰减系数(damping)等，作为第二物理量)与评价函数值的关系的信息。输出方法例如是液晶显示装置的显示画面、使用了打印机等对纸的印刷、对存储器等存储部的存储、经由通信部的外部信号输出等。

操作员等用户根据从输出装置200输出的信息，例如为了变更速度前馈处理部的传递函数的系数的阶数、机器学习的搜索范围，而对输出装置200进行操作。输出装置200为了变更速度前馈处理部的传递函数的系数的阶数，或者变更机器学习的搜索范围，向伺服控制装置300或机器学习装置100输出调整信息。

如以上说明那样，输出装置200具有如下功能：对机器学习装置100与伺服控制装置300之间的信息(控制指令、参数以及伺服信息等)进行中继的功能、输出表示参数或根据参数计算出的值与评价函数值的关系的信息的输出功能、以及输出用于进行机器学习装置100和伺服控制装置300的动作控制的调整信息的调整功能。

伺服控制装置300根据位置指令、速度指令等控制指令输出电流指令，控制伺服电动机400的旋转。伺服控制装置300例如具有：速度前馈处理部，其通过包含由机器学习装置100进行机器学习的系数的传递函数来表示。

伺服电动机400驱动机床、机器人、或工业机械的轴。伺服电动机400例如包含在机床、机器人、工业机械中。伺服电动机400将检测位置或/和检测速度作为反馈信息输出给伺服控制装置300。

以下，对上述第一实施方式的控制装置10的各结构进行进一步说明。

图2是表示本发明的第一实施方式的控制装置10的整体结构以及伺服控制装置300的结构的框图。

首先，对伺服控制装置300进行说明。

如图2所示，伺服控制装置300作为结构要素具有：减法器301、位置控制部302、加法器303、减法器304、速度控制部305、加法器306、积分器307、速度前馈处理部308、以及位置前馈处理部309。

将位置指令输出给减法器301、速度前馈处理部308、位置前馈处理部309以及输出装置200。

根据使伺服电动机400动作的程序，由上位装置来制作位置指令。伺服电动机400例如包含于机床中。在机床中，在搭载被加工物(工件)的工作台在X轴方向和Y轴方向上移动时，对X轴方向和Y轴方向分别设置图2所示的伺服控制装置300以及伺服电动机400。在使工作台在三轴以上的方向上移动时，对各轴方向设置伺服控制装置300以及伺服电动机400。

通过位置指令设定进给速度，以便成为由加工程序指定的加工形状。

减法器301求出位置指令值与位置反馈的检测位置之差，将该差作为位置偏差输出给位置控制部302以及输出装置200。

位置控制部302将位置增益Kp乘以位置偏差而得的值作为速度指令值输出给加法器303。

加法器303将速度指令值与位置前馈处理部309的输出值(位置前馈项)相加，作为前馈控制的速度指令值输出给减法器304。减法器304求出加法器303的输出与速度反馈的速度检测值之差，将该差作为速度偏差输出给速度控制部305。

速度控制部305将积分增益K1v乘以速度偏差进行了积分而得的值、与比例增益K2v乘以速度偏差而得的值相加，作为转矩指令值输出给加法器306。

加法器306将转矩指令值与速度前馈处理部308的输出值(速度前馈项)相加，作为前馈控制的转矩指令值经由未图示的电流控制部输出给伺服电动机400来驱动伺服电动机400。

通过与伺服电动机400关联起来的、作为位置检测部的旋转编码器来检测伺服电动机400的旋转角度位置，速度检测值作为速度反馈而输入到减法器304。速度检测值通过积分器307被积分而成为位置检测值，位置检测值作为位置反馈输入到减法器301。

速度前馈处理部308对位置指令进行速度前馈处理，将处理结果作为速度前馈项输出给加法器306。速度前馈处理部308的传递函数是由数学公式1(以下表示为数学式1)表示的传递函数F(s)。通过机器学习装置100对数学式1的系数a_i、b_i(0≤i≤m，0≤j≤n，m、n是自然数)的最佳值进行机器学习。

【数学式1】

位置前馈处理部309对位置指令值进行微分而乘以常数α，将该处理结果作为位置前馈项，输出给加法器303。

如以上那样，构成伺服控制装置300。

接下来，对机器学习装置100进行说明。

机器学习装置100通过执行预先设定的加工程序(以下，也称为“学习时的加工程序”)，对速度前馈处理部308的传递函数的系数进行学习。

这里，由学习时的加工程序指定的加工形状例如是八边形、或八边形的每隔一个角置换为圆弧的形状等。另外，由学习时的加工程序指定的加工形状并不限定于这些加工形状，也可以是其他加工形状。

图3是用于对加工形状是八边形时的电动机的动作进行说明的图。图4是用于对加工形状是八边形的每隔一个角置换为圆弧的形状时的电动机的动作进行说明的图。在图3和图4中，工作台在X轴和Y轴方向上移动以便顺时针加工被加工物(工件)。

如图3所示，在加工形状为八边形时，在角的位置A1处，使工作台在Y轴方向上移动的电动机转速慢，使工作台在X轴方向上移动的电动机转速快。

在角的位置A2处，使工作台在Y轴方向上移动的电动机旋转方向反转，使工作台在X轴方向上移动的电动机从位置A1朝向位置A2和从位置A2朝向位置A3，以相同的旋转方向等速旋转。

在角的位置A3处，使工作台在Y轴方向上移动的电动机转速快，使工作台在X轴方向上移动的电动机转速慢。

在角的位置A4处，使工作台在X轴方向上移动的电动机旋转方向反转，使工作台在Y轴方向上移动的电动机从位置A3朝向位置A4和从位置A4朝向下一个角的位置，以相同的旋转方向等速旋转。

如图4所示，在加工形状是八边形的每隔一个角置换为圆弧的形状时，在角的位置B1处，使工作台在Y轴方向上移动的电动机转速慢，使工作台在X轴方向上移动的电动机转速快。

在圆弧的位置B2处，使工作台在Y轴方向上移动的电动机旋转方向反转，使工作台在X轴方向上移动的电动机从位置B1朝向位置B3以相同的旋转方向等速旋转。与图12所示的加工形状为八边形的情况不同，使工作台在Y轴方向上移动的电动机朝向位置B2缓缓减速，在位置B2处停止旋转，通过位置B2时旋转速度缓缓增加，以便在位置B2的前后形成圆弧的加工形状。

在角的位置B3处，使工作台在Y轴方向上移动的电动机转速快，使工作台在X轴方向上移动的电动机转速慢。

在圆弧的位置B4处，使工作台在X轴方向上移动的电动机旋转方向反转，工作台以在X轴方向上直线反转的方式进行移动。此外，使工作台在Y轴方向上移动的电动机从位置B3朝向位置B4、以及从位置B4朝向下一个角的位置以相同的旋转方向等速旋转。使工作台在X轴方向上移动的电动机朝向位置B4缓缓减速，在位置B4处停止旋转，通过位置B4时旋转速度缓缓增加，以便在位置B4的前后形成圆弧的加工形状。

在本实施方式中，通过以上说明的、由学习时的加工程序指定的加工形状的位置A1与位置A3、以及位置B1与位置B3，评价在线性控制中变更转速时的振动，调查对位置偏差的影响，由此，进行速度前馈处理部308的传递函数的系数优化有关的机器学习。另外，在本实施方式中虽然没有使用，但是通过加工形状的位置A2与位置A4、以及位置B2与位置B4，对旋转方向反转时产生的惯性(因惯性而动作)进行评价，可以调查对位置偏差的影响。

传递函数的系数优化有关的机器学习并非特别限定于速度前馈处理部，例如也能够应用于位置前馈处理部、或在进行伺服控制装置的电流前馈时设置的电流前馈处理部。

接下来，对机器学习装置100进行更详细说明。

在以下的说明中，对机器学习装置100进行强化学习的情况进行说明，但是机器学习装置100进行的学习并不特别限定于强化学习，例如，本发明也能够应用于进行监督学习的情况。

在进行机器学习装置100所包含的各功能块的说明之前，首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习装置100)观测环境状态，选择某个行为，根据该行为环境发生变化。随着环境的变化，提供某种回报，智能体学习更好的行为选择(决策)。

监督学习表示完全的正确答案，而强化学习中的回报大多是基于环境的部分变化的片段值。因此，智能体学习选择行为使得到将来的回报合计为最大。

这样，在强化学习中通过学习行为，在行为给予环境的相互作用基础上学习适当的行为，即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中，可以获得例如选择用于降低位置偏差的行为信息这样的、影响未来的行为。

这里，作为强化学习可以使用任意的学习方法，在以下的说明中，以在某种环境状态S下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为A的价值Q(S、A)的方法。

Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。

但是，在最初开始Q学习的时间点，对于状态S与行为A的组合来说，完全不知晓价值Q(S、A)的正确值。因此，智能体在某种状态S下选择各种行为A，针对当时的行为A，根据给予的回报，选择更好的行为，由此，继续学习正确的价值Q(S、A)。

此外，想要使将来获得的回报的合计最大化，因此，目标是最终成为Q(S、A)＝E[Σ(γ^t)r_t]。这里，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边搜索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学公式2(以下表示为数学式2)来表示。

【数学式2】

在上述的数学式2中，S_t表示时刻t的环境状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态S_t+1下，将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里，γ是0＜γ≤1的参数，称为折扣率。此外，α是学习系数，设α的范围为0＜α≤1。

上述的数学式2表示如下方法：根据尝试A_t的结果而反馈回来的回报r_t+1，更新状态S_t下的行为A_t的价值Q(S_t、A_t)。

该更新式表示了：若行为A_t导致的下一状态S_t+1下的最佳行为的价值max_aQ(S_t+1、A)比状态S_t下的行为A_t的价值Q(S_t、A_t)大，则增大Q(S_t、A_t)，反之如果小，则减小Q(S_t、A_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中，尽管该差因折扣率γ和回报r_t+1的存在形式而变化，但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。

这里，Q学习存在如下方法：制作针对所有状态行为对(S、A)的Q(S、A)的表格，来进行学习。但是，有时为了求出所有状态行为对的Q(S、A)的值状态数会过多，使得Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说，可以使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q来计算价值Q(S、A)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著[online]，[平成29年1月17日检索]，因特网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

机器学习装置100进行以上说明的Q学习。具体来说，机器学习装置100学习如下内容的价值Q：将指令以及反馈等伺服状态作为状态S，将该状态S有关的速度前馈处理部308的传递函数的各系数a_i、b_j的值的调整选择为行为A，其中，指令以及反馈包含伺服控制装置300中的、速度前馈处理部308的传递函数的各系数a_i、b_j(0≤i≤m，0≤j≤n，m、n是自然数)的值、通过执行学习时的加工程序而取得的伺服控制装置300的位置偏差、以及位置指令。

机器学习装置100根据速度前馈处理部308的传递函数的各系数a_i、b_j来观测包含指令以及反馈等伺服状态的状态信息S，从而决定行为A，其中，指令以及反馈包含通过执行学习时的加工程序而在所述的加工形状的位置A1与位置A3、以及位置B1与位置B3处的、伺服控制装置300的位置指令以及位置偏差信息。机器学习装置100每当进行行为A时返回回报。机器学习装置100例如试错性地探索最佳的行为A以使到将来的回报合计为最大。通过这样，机器学习装置100能够对包含指令和反馈等伺服状态的状态S选择最佳的行为A(即，速度前馈处理部308的最佳系数a_i、b_j)，其中，指令和反馈包含根据速度前馈处理部308的传递函数的各系数a_i、b_j来执行学习时的加工程序而取得的伺服控制装置300的位置指令以及位置偏差。在位置A1与位置A3、以及位置B1与位置B3处，X轴方向以及Y轴方向的伺服电动机的旋转方向不变，机器学习装置100可以学习线性动作时的速度前馈处理部308的传递函数的各系数a_i、b_j。

即，机器学习装置100根据学习到的价值函数Q，选择应用于某种状态S有关的速度前馈处理部308的传递函数的各系数a_i、b_j的行为A中的、Q的值为最大那样的行为A，由此，能够选择通过执行学习时的加工程序而取得的位置偏差为最小那样的行为A(即，速度前馈处理部308的系数a_i、b_j)。

图5是表示本发明的第一实施方式的机器学习装置100的框图。

为了进行上述的强化学习，如图5所示，机器学习装置100具有：状态信息取得部101、学习部102、行为信息输出部103、价值函数存储部104、以及优化行为信息输出部105。学习部102具有：回报输出部1021、价值函数更新部1022、以及行为信息生成部1023。

状态信息取得部101从伺服控制装置100取得包含指令、反馈等伺服状态的状态S，其中，指令、反馈包含根据伺服控制装置300中的速度前馈处理部308的传递函数的各系数a_i、b_j执行学习时的加工程序而取得的伺服控制装置300的位置指令和位置偏差。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部101对学习部102输出取得的状态信息S。

另外，最初开始Q学习的时间点的速度前馈处理部308的系数a_i、b_j预先由用户生成。在本实施方式中，通过强化学习将用户制作出的速度前馈处理部308的系数a_i、b_j的初始设定值调整为最佳。速度前馈处理部308的系数a_i、b_j例如作为初始设定值，设数学式1的a₀＝1，a₁＝0，a₂＝0，…，a_m＝0，b₀＝1，b₁＝0，b₂＝0，…，b_n＝0。此外，预先设定系数a_i、b_j的阶数(次元)m、n。即，对于a_i设0≤i≤m，对于b_j设0≤j≤n。

另外，系数a_i、b_j在操作员预先调整机床时，可以将调整完的值作为初始值进行机器学习。

学习部102是在某种环境状态S下，学习选择某种行为A时的价值Q(S、A)的部分。

回报输出部1021是在某种状态S下计算选择了行为A时的回报的部分。这里，状态S下的状态变量即位置偏差的集合(位置偏差集合)通过PD(S)来表示，因行为信息A(速度前馈处理部308的各系数a_i、b_j的修正)而从状态S变化了的状态信息S’有关的状态变量即位置偏差集合通过PD(S’)来表示。此外，状态S下的位置偏差的值设为根据预先设定的评价函数f(PD(S))而计算的值。

评价函数f，例如在通过e表示位置偏差时，可以应用如下等函数：

计算位置偏差的绝对值的积分值的函数

∫|e|dt

对位置偏差的绝对值进行时间加权来计算积分值的函数

∫t|e|dt

计算位置偏差的绝对值的2n(n是自然数)次幂的积分值的函数

∫e²ⁿdt(n是自然数)

计算位置偏差的绝对值的最大值的函数

Max{|e|}。

此时，在根据通过行为信息A进行了修正的状态信息S’有关的修正后的速度前馈处理部308而进行了动作的伺服控制装置300的位置偏差的评价函数值f(PD(S’))比根据通过行为信息A进行修正前的状态信息S有关的修正前的速度前馈处理部308而进行了动作的伺服控制装置300的位置偏差的评价函数值f(PD(S))大时，回报输出部1021使回报值为负值。

另一方面，在位置偏差的评价函数值f(PD(S’))比位置偏差的评价函数值f(PD(S))小时，回报输出部1021使回报值为正值。

此外，在位置偏差的评价函数值f(PD(S’))与位置偏差的评价函数值f(PD(S))相等时，回报输出部1021使回报值为零。

此外，执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))大时的负值，可以根据比例将负值设定得大。也就是说，可以根据位置偏差的值变大的程度使负值变大。反之，执行行为A后的状态S’的位置偏差的评价函数值f(PD(S’))比之前的状态S下的位置偏差的评价函数值f(PD(S))小时的正值，可以根据比例将正值设定得大。也就是说，可以根据位置偏差的值变小的程度使正值变大。

价值函数更新部1022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报值来进行Q学习，由此，对价值函数存储部104存储的价值函数Q进行更新。

价值函数Q的更新既可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是如下学习方法：通过将某种行为A应用于当前状态S，每当状态S向新状态S’转移时，立即进行价值函数Q的更新。此外，批量学习是如下学习方法：通过重复将某种行为A应用于当前状态S，状态S向新状态S’转移，由此收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新。进而，小批量学习是在线学习与批量学习中间的学习方法，是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部1023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部1023在Q学习的过程中，为了进行修正伺服控制装置300的速度前馈处理部308的各系数a_i、b_j的动作(相当于Q学习中的行为A)，而生成行为信息A，对行为信息输出部103输出所生成的行为信息A。更具体来说，行为信息生成部1023例如相对于状态S所包含的速度前馈处理部的各系数使行为A所包含的速度前馈处理部308的各系数a_i、b_j加上或者减去增量(例如0.1左右)。

并且，可以采取如下策略：行为信息生成部1023在应用速度前馈处理部308的各系数a_i、b_j的增加或减少而向状态S’转移并返回了正回报(正值的回报)时，作为下一行为A’，选择针对速度前馈处理部308的各系数a_i、b_j与前次的动作同样地加上或减去增量等使位置偏差值更小那样的行为A’。

此外，反之还可以采取如下策略：当返回了负回报(负值的回报)时，行为信息生成部1023作为下一行为A’，例如选择针对速度前馈处理部的各系数a_i、b_j与前次的动作相反地减去或者加上增量等使位置偏差比前次的值小那样的行为A’。

此外，行为信息生成部1023也可以采取如下策略：通过在当前推定的行为A的价值中选择价值Q(S、A)最高的行为A’的贪婪算法，或者用某个较小的概率ε随机选择行为A’，除此之外选择价值Q(S、A)最高的行为A’的ε贪婪算法这样的众所周知的方法，来选择行为A’。

行为信息输出部103是针对输出装置200输出从学习部102输出的行为信息A以及评价函数值的部分。如上所述，伺服控制装置300根据经由输出装置200取得的行为信息，对当前状态S，即当前设定的速度前馈处理部308的各系数a_i、b_j进行微修正，而向下一状态S’(即，进行了修正的速度前馈处理部308的各系数)转移。

价值函数存储部104是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下，称为行为价值表)。存储于价值函数存储部104的价值函数Q通过价值函数更新部1022而被更新。此外，存储于价值函数存储部104的价值函数Q也可以在与其他机器学习装置100之间共享。如果在多个机器学习装置100之间共享价值函数Q，则能够通过各机器学习装置200分散地进行强化学习，因此，能够提升强化学习的效率。

优化行为信息输出部105根据价值函数更新部1022进行Q学习而进行了更新的价值函数Q，生成用于使速度前馈处理部308进行价值Q(S、A)为最大的动作的行为信息A(以下，称为“优化行为信息”)。

更具体来说，优化行为信息输出部105取得价值函数存储部104存储的价值函数Q。如上所述该价值函数Q是通过价值函数更新部1022进行Q学习而被更新的函数。并且，优化行为信息输出部105根据价值函数Q，生成行为信息，对输出装置200输出所生成的行为信息。该优化行为信息与行为信息输出部103在Q学习的过程中输出的行为信息一样，包含对速度前馈处理部308的各系数a_i、b_j进行修正的信息以及评价函数值。

像以上那样，通过利用本实施方式涉及的机器学习装置100，使伺服控制装置300的速度前馈处理部308的参数调整简化。

回报输出部1021当进行回报值的计算时可以施加位置偏差以外的其他要素。

例如，回报输出部1021除了成为减法器301的输出的位置偏差之外，可以施加成为加法器303的输出即位置前馈控制的速度指令、成为减法器304的输出的、位置前馈控制的速度指令与速度反馈之差、以及成为加法器306的输出即速度前馈控制的转矩指令等中的至少一个，来计算回报值。

在以上说明的实施方式中，对机器学习装置100进行X轴方向以及Y轴方向的伺服电动机的在转速方向没有改变的线性动作时的、速度前馈处理部的系数优化有关的学习进行了说明。

但是，本实施方式并不限定于线性动作时的学习，也可以应用于非线性动作的学习。例如，为了齿隙校正，在进行速度前馈处理部的系数优化有关的学习时，将所述的加工形状的位置A2与位置A4和位置B2与位置B4处的、位置指令值与从积分器108输出的检测位置之差提取为位置偏差，可以将此作为判定信息给予回报来进行强化学习。

在位置A2与位置A4和位置B2与位置B4处，Y轴方向或X轴方向的伺服电动机的旋转方向反转成为非线性动作而产生齿隙，机器学习装置可以对非线性动作时的前馈处理部的传递函数的系数进行学习。

以上，对伺服控制装置300以及机器学习装置100进行了说明。接下来，对输出装置200进行说明。

<输出装置200>

图6是表示本发明的第一实施方式的控制装置10所包含的输出装置200的一结构例的框图。如图6所示，输出装置200具有：信息取得部201、信息输出部202、作图部203、操作部204、控制部205、存储部206、信息取得部207、信息输出部208、显示部209、以及运算部210。

信息取得部201是从机器学习装置100取得参数以及评价函数值的信息取得部。控制部205以及显示部209是通过散布图(scatter chart)等输出参数(例如，速度前馈处理部的系数a_i、b_j)或从参数计算出的值(例如，中心频率、带宽fw、衰减系数(damping)等)与评价函数值的关系的输出部。输出部的显示部209可以使用液晶显示装置、打印机等。输出还包括存储于存储部206中，此时，输出部是控制部205以及存储部206。

输出装置200具有如下功能：将机器学习装置100的机器学习中或机器学习后的参数(学习参数)与评价函数值的关系、或者从学习参数计算出的值与评价函数值的关系输出的输出功能。

此外，输出装置200具有如下功能：进行从伺服控制装置300向机器学习装置100的信息(例如，位置指令、速度指令等控制指令、位置偏差、速度前馈处理部的系数)、从机器学习装置100向伺服控制装置310的信息(例如，速度前馈处理部的系数的修正信息)中继的中继功能，进行机器学习装置100的动作控制(例如，指示机器学习装置启动学习程序、指示变更搜索范围等)的调整功能。经由信息取得部201、207以及信息输出部202、208进行这些信息的中继以及动作的控制。

首先，使用图7对输出装置200输出从机器学习中的参数计算出的值与评价函数值的关系的情况进行说明。图7是表示在机器学习过程中，根据机器学习的进展状况，在显示部209显示表示从状态S有关的参数计算出的衰减中心频率与评价函数值的关系的散布图等时的显示画面一例的图。

如图7所示，显示部209的显示画面P包含栏P1、P2以及P3。显示部209在栏P1例如显示轴选择、参数确认、程序确认编辑、程序启动、机器学习中、结束判定的选择项目。

此外，显示部209在栏P2例如显示速度前馈等的调整对象、数据采取中等的状况(状态)、表示针对预先设定的该机器学习结束为止的尝试次数(以下，也称为“最大尝试次数”)的当前为止的累积尝试次数的尝试次数、以及选择学习的中继的按钮。

此外，显示部209在栏P3例如显示表示衰减中心频率fc与评价函数值的关系的散布图，所述衰减中心频率fc是根据速度前馈处理部的传递函数的系数计算出的值。

操作员等用户通过鼠标、键盘等操作部204选择液晶显示装置等显示部209的图7所示的显示画面P的栏P1的“机器学习”时，控制部205经由信息输出部202对机器学习装置100，发出包含用尝试次数关联起来的状态S有关的、系数a_i、b_j以及评价函数值f(PD(S)、该机器学习的调整对象(学习对象)相关的信息、尝试次数、最大尝试次数的信息等输出指示。

信息取得部201从机器学习装置100接收包含用尝试次数关联起来的状态S有关的系数a_i、b_j以及评价函数值f(PD(S))、该机器学习的调整对象(学习对象)相关的信息、尝试次数、最大尝试次数的信息等时，控制部205将接收到的信息存储于存储部206中，并且向运算部220转移控制。系数a_i、b_j和与系数a_i、b_j对应的评价函数值f(PD(S))关联起来存储于存储部206中。

运算部220从机器学习装置100的机器学习中的参数，具体来说从强化学习时或强化学习后的参数(例如上述的状态S有关的系数a_i、b_j)计算速度前馈处理部的衰减中心频率fc。衰减中心频率fc是从a_i、b_j计算出的值(第二物理量)。另外，运算部220除了衰减中心频率fc之外，还可以对照带宽fw、衰减系数R来进行计算。在以下的说明中，对计算衰减中心频率fc、带宽fw、衰减系数R的方法进行说明。

以下，以通过电动机反向特性((motor reverse characteristic))(传递函数是Js²)与陷波滤波器表示速度前馈处理部308为例，对运算部220计算衰减中心频率fc、带宽fw、衰减系数R的方法进行说明。

关于通过电动机的反向特性(传递函数是Js²)与陷波滤波器表示速度前馈处理部308的情况，数学式1所示的传递函数F(s)为数学式3的右边所示的数学公式模型，使用惯量J、中心角频率ω、分数带宽ζ(fractional bandwidth)、衰减系数R如数学式3的右边那样进行表示。为了从系数a_i、b_j求出衰减中心频率fc、带宽fw、衰减系数(damping)R，而从数学式3中求出中心角频率ω、分数带宽ζ、衰减系数R，并且还从ω＝2πfc，ζ＝fw/fc，求出衰减中心频率fc、带宽fw。

【数学式3】

从数学式3中，a₀＝ω²、b⁴＝J、a₁＝2ζω、b₃＝2JζRω、(b₃/a₁)＝R·J，因ω＝2πfc，ζ＝fw/fc，因此可以通过数学式4来求出中心频率fc、带宽fw、衰减系数R

【数学式4】

以上，以通过电动机的反向特性(传递函数是Js²)与陷波滤波器的数学公式模型来表示速度前馈处理部308时，计算衰减中心频率fc、带宽fw、衰减系数R的情况为例进行了说明，但是本实施方式并非特别限定于这样的情况，即使取得通过数学式1来表示速度前馈处理部308的传递函数那样的、一般式子的情况，在具有增益波谷的情况下，也可以求出衰减中心频率fc、带宽fw、衰减系数R。此外，一般情况下即使是高阶的滤波器也一样，可以求出一个以上的要衰减的衰减中心频率fc、带宽fw、衰减系数R。可以从传递函数解析频率响应的软件是公知的，例如可以使用

https://jp.mathworks.com/help/signal/ug/frequency～renponse.html

https://jp.mathworks.com/help/signal/ref/freqz.html

https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.signal.freqz.html

https://wiki.octave.org/Control_package等。可以从频率响应求出衰减中心频率fc、带宽fw、衰减系数R。

运算部220在计算衰减中心频率fc时，向控制部205转移控制。

另外，可以将数学式3的右式的传递函数变换为由中心频率fc、带宽fw、衰减系数R表示的速度前馈处理部308的传递函数，通过机器学习装置100对中心频率fc、带宽fw、衰减系数R的参数进行机器学习，输出装置200取得求出的中心频率fc、带宽fw、衰减系数R。该情况下，所取得的中心频率fc、带宽fw、衰减系数R为第一物理量。

控制部205将衰减中心频率fc存储于存储部206中。系数a_i、b_j和与系数a_i、b_j对应的评价函数值f(PD(S))关联起来存储于存储部206中，控制部205将根据系数a_i、b_j计算出的衰减中心频率fc与评价函数值f(PD(S))关联起来进行存储。并且，控制部205求出评价函数值具有极小值的衰减中心频率fc并存储于存储部206中，向作图部203转移控制。

另外，输出装置200在不求出衰减中心频率fc等物理量，输出表示成为学习参数的速度前馈系数a_i、b_j、与评价函数值的关系的信息时，不需要通过运算部210从速度前馈系数a_i、b_j计算衰减中心频率fc等物理量，不求出衰减中心频率fc，而是控制部205向作图部203转移控制。

作图部203制作针对根据系数a_i、b_j计算出的衰减中心频率fc的、与系数a_i、b_j关联起来存储的评价函数值f(PD(S))的、衰减中心频率-评价函数值的散布图，对该散布图添加表示评价函数值为极小值的衰减中心频率fc的值(这里，250Hz与400Hz)，制作衰减中心频率-评价函数值的散布图的图像信息，向控制部205转移控制。

控制部205在图7所示的显示画面P的栏P3显示衰减中心频率-评价函数值的散布图。

此外，控制部205例如根据表示速度前馈处理部是调整对象的信息，在图7所示的显示画面P的栏P2的调整对象项目显示速度前馈，在尝试次数没有达到最大尝试次数时在栏P2的状况项目显示数据采取中。并且，控制部205在栏P2的尝试次数项目显示尝试次数相对于最大尝试次数的比。在输出表示速度前馈系数a_i、b_j与评价函数值的关系的信息时，作图部203例如制作表示速度前馈系数a₀(与衰减中心频率fc关联的参数)与评价函数值的关系的散布图，控制部205将该散布图显示于图7所示的显示画面P的栏P3。

另外，图7所记载的显示画面P是一例，并非限定于此。也可以显示上述所例示的项目以外的信息。此外，也可以省略上述所例示的几个项目的信息显示。

此外，在上述说明中，控制部205将从机器学习装置100接收到的信息存储于存储部206中，并且实时地将衰减中心频率-评价函数值的散步图相关的信息等显示于显示部209，但是并不限定于此。

例如，作为没有实时显示的结构例存在以下示例。

结构例1：在操作员(作业员)等用户指示显示时显示图7所记载的信息。

结构例2：(从开始学习时的)累积尝试次数达到预先设定的规定次数时，显示图7所记载的信息。

结构例3：在机器学习的中断时或结束时显示图7所记载的信息。

在以上的结构例1～3中，也与上述的实时显示的动作一样，信息取得部201从机器学习装置100接收包含用尝试次数关联起来的状态S有关的系数a_i、b_j、该机器学习的调整对象(学习对象)相关的信息、尝试次数、最大尝试次数的信息等时，控制部205将接收到的信息存储于存储部206中。之后，在结构例1中在用户进行了显示指示时，在结构例2中在累积尝试次数达到预先设定的规定次数时，在结构例3中在机器学习的中断时或结束时，控制部205进行向运算部210、作图部203转移控制的动作。

另外，作图部203可以代替衰减中心频率-评价函数值的散布图，如图8所示，不将评价函数值作为评价点，而是作为评价曲线的特性图来制图，控制部205将图8所示的图显示于图7所示的显示画面P的栏P3。

在以上的说明中，对将衰减中心频率-评价函数值的散布图或评价曲线的特性图显示于显示部209的显示画面P的栏P3的示例进行了说明，但是除了散布图或特性图之外还可以追加表示速度前馈处理部308的频率-增益特性的频率特性图。

例如，作图部203通过运算部210从包含数学式3的右边的中心角频率ω、分数带宽ζ、衰减系数R的传递函数中求出速度前馈处理部308的频率响应，制作图9所示的频率-增益特性图，向控制部205转移控制。速度前馈处理部308的频率响应可以从数学式3的右式的传递函数中，使用上述的可以从公知的传递函数中解析频率响应的软件来进行求出。

控制部205将频率-增益特性图(成为频率响应特性)、以及衰减中心频率-评价函数值的散布图或评价曲线的特性图显示于图7所示的显示画面P的栏P3。这样，操作员等用户可以同时掌握速度前馈处理部308的频率-增益特性。在图9中表示衰减中心频率是400Hz。

在以上说明的实施方式中，对将表示衰减中心频率或学习参数与评价函数值的关系的散布图或评价曲线的特性图显示于显示部209的显示画面P的栏P3的示例进行了说明。

但是，表示与评价函数值的关系的物理量并不限定于衰减中心频率，也可以替换衰减中心频率，而使用带宽fw或衰减系数R。此外，也可以对衰减中心频率加上带宽fw或衰减系数R，该情况下，显示于显示画面P的栏P3的图可以为三维图(3D图表)。此外，可以改变带宽fw或衰减系数R，将记载了表示评价函数值与衰减中心频率的关系的多个曲线的、衰减中心频率-评价函数值的特性图显示于图7所示的显示画面P的栏P3。以下，作为例1～例3对这些示例进行说明。

在以下的各示例中，当然也可以将衰减中心频率、带宽fw、衰减系数R变换为速度前馈处理部的传递函数的系数a_i、b_j的某一个。

<示例1>

本示例1是将对衰减中心频率与评价函数值加上了滤波器衰减率(衰减系数(damping))而得的三维图(3D图表)显示于显示部209的显示画面P的栏P3的示例。

图10是表示衰减中心频率与评价函数值与滤波器衰减率的关系的三维图。在图10中，可以将滤波器衰减率变换为滤波器频带(带宽)。如图11的表示频率-增益特性的曲线所示，滤波器衰减率表示曲线的波谷的深度。如图12的表示频率-增益特性的曲线所示，滤波器频带表示曲线的波谷的宽度。

用户可以理解滤波器衰减率和衰减中心频率对评价函数值造成的影响。

<示例2>

本示例2是在显示部209的显示画面P的栏P3显示了表示将滤波器衰减率(衰减系数(damping))变换为三个固定值时的、衰减中心频率与评价函数值的曲线的特性图的示例。

图13是表示将滤波器衰减率(衰减系数(damping))变换为规定值(0％、50％以及100％)时的、衰减中心频率与评价函数值的曲线的特性图。

用户可以理解滤波器衰减率对衰减中心频率和评价函数值的特性造成的影响。

<示例3>

本示例3是在显示画面P的栏P3显示表示衰减中心频率与评价函数值与滤波器衰减率(衰减系数(damping))的关系的三维图(3D图表)的示例。

图14是进一步表示衰减中心频率与评价函数值与滤波器衰减率的详细关系的三维图。在图14中，可以将滤波器衰减率变换为滤波器频域(带宽)。

以上，对输出装置200的输出功能进行了说明。

接下来，使用图15和图16对输出装置200的中继功能以及调整功能进行说明。

在步骤S31中，输出装置200在操作员通过鼠标、键盘等操作部204选择图7所示的、显示部209的显示画面P的栏P1的“程序启动”时，控制部205将程序启动指示经由信息输出部202输出给机器学习装置100。并且，对伺服控制装置300输出通知将学习用的程序启动指示输出给机器学习装置100的学习用的程序启动指示通知。

在步骤S32中，输出装置200指示将学习时的加工程序输出给伺服控制装置300的上位装置启动学习时的加工程序。步骤S32可以在步骤S31之前，也可以与步骤S31同时进行。上位装置接收学习时的加工程序的启动指示时，制作位置指令输出给伺服控制装置300。

在步骤S21中，机器学习装置100接收程序启动指示时，开始机器学习。

在步骤S11中，伺服控制装置300控制伺服电动机400，将包含速度前馈处理部308的参数信息(系数a_i、b_j)、位置指令、以及位置偏差的信息输出给输出装置200。并且，输出装置200将参数、位置指令、以及位置偏差输出给机器学习装置100。

机器学习装置100将包含在通过步骤S21进行的机器学习动作过程中与回报输出部2021所使用的尝试次数关联起来的状态S有关的评价函数值、最大尝试次数、尝试次数以及速度前馈处理部308的传递函数的系数a_i、b_j的修正信息(成为参数修正信息)的信息输出给输出装置200。

在步骤S33中，输出装置200通过上述的输出功能，选择图7所示的显示画面P的栏P1的“机器学习”时，根据从机器学习装置100输出的、机器学习中的速度前馈处理部308的传递函数的系数的修正信息与评价函数值，制作表示作业员等用户容易理解的物理量(中心频率fc等)与评价函数值的关系的图，显示于显示部209的图7所示的显示画面P的栏P3。输出装置200在步骤S33中，或在步骤S33之后或之前，对伺服控制装置310发送速度前馈处理部308的传递函数的系数的修正信息。在机器学习结束之前重复进行步骤S11、步骤S21、步骤S33。

这里，对实时地将表示机器学习中的参数有关的速度前馈处理部308的传递函数的系数的物理量(中心频率fc等)与评价函数的关系的图有关的信息输出给显示部209的情况进行了说明，但是在作为没有实时地显示的情况下的示例已经进行了说明的示例1～示例3那样的情况下，可以将表示速度前馈处理部308的传递函数的系数的物理量(中心频率fc等)与评价函数的关系的图有关的信息输出给显示部209。

在步骤S34中，输出装置200判定尝试次数是否达到最大尝试次数，在达到最大尝试次数时，输出装置200在步骤S35中向机器学习装置100发送结束指示。在没有达到最大尝试次数时返回到步骤S33。

在步骤S35中，输出装置200向机器学习装置100发送结束指示。

在步骤S22中，在机器学习装置100接收结束指示时结束机器学习。

以上，对输出装置200的中继功能进行了说明。接下来，对输出装置200的调整功能进行说明。

操作员等用户有时在机器学习中或机器学习后观察输出装置200的显示部209的图7所示的显示画面P的栏P3，想对伺服控制装置300指示速度前馈处理部308的系数的阶数m、n的变更或对机器学习装置100指示搜索范围的变更或选择。例如，用户观察图7所示的显示画面P的栏P3的散步图的评价函数值，在机床中为250Hz和400Hz时评价函数值小，因此，识别出该频率存在机械共振的可能性高。这样的情况下，用户有时想要变更数学式1的系数a_i、b_j的阶数m、n或者变更系数a_i、b_j的搜索范围。输出装置200在学习中或学习后，对伺服控制装置300指示速度前馈处理部的系数a_i、b_j的阶数m、n的调整或对机器学习装置100指示再学习。

在图15的步骤S35中，输出装置200在对机器学习装置100输出了结束指示后，用户观察图7所示的显示画面P的栏P3的散布图的评价函数值，识别出在250Hz和400Hz的频率存在机械共振的可能性高，通过鼠标、键盘等操作部204来选择图7的显示画面P的“变更”。控制部205例如将数学式3所示的传递函数的式子、系数a_i、b_j的阶数m、n的输入栏显示于图7的显示画面P内。用户从数学式3的右边所示的传递函数的式子中识别出传递函数由一个滤波器构成，为了设为两个滤波器，而将数学式3的左边所示的传递函数的系数a_i的阶数m从“2”变更为“4”，将系数b_j的阶数n从“4”变更为“6”。

在图16的步骤S36中，控制部205判断是否存在阶数的变更或搜索范围的变更，控制部205在根据用户的上述阶数的变更而判定为阶数的变更时，在图7的显示画面P显示数学式5的传递函数，并且在步骤S37中，向伺服控制装置300输出包含速度前馈处理部308的修正参数(系数a_i、b_j的变更值)和阶数m、n的修正指示。数学式5的右边为数学公式模型。系数a_i、b_j的变更值可以根据存储于存储部206中的、评价函数值为极小值的系数来决定。伺服控制装置310在步骤S11中通过变更后的系数a_i、b_j来驱动机床，将变更后的系数a_i、b_j和位置偏差输出给输出装置200。

【数学式5】

此外，在步骤S38中，输出装置200指示机器学习装置100针对机器学习装置100将尝试次数重置为“0”。步骤S38可以与步骤S37同时执行，也可以在步骤S37之前执行。

输出装置200在步骤S38之后返回到步骤S31。然后，再次执行基于步骤S11、步骤S21、步骤S31-S33的机器学习。

这样，用户从图7的显示画面P的栏P3的散布图中观察衰减中心频率与评价函数值的特性，根据需要变更系数a_i、b_j的阶数m、n，进行机器学习，由此，可以调整速度前馈处理部308的系数a_i、b_j。

另一方面，用户在选择图7的显示画面P所示的“再学习”的按钮时，控制部205将中心频率fc的输入栏显示于图7的显示画面P内。用户对输入栏例如输入250Hz和400Hz。

在图16的步骤S36中，控制部205通过用户在输入栏中作为中心频率fc而输入250Hz和400Hz时，判断为再学习，在步骤S39中，对机器学习装置100指示以250Hz和400Hz为中心的搜索范围的变更或选择。之后，输出装置200在步骤S40中，输出装置200指示机器学习装置100针对机器学习装置100将尝试次数重置为“0”。步骤S40可以与步骤S39同时执行，也可以在步骤S39之前执行。

输出装置200在步骤S40之后返回到步骤S31。机器学习装置100接收搜索范围的变更或选择的指示，接收程序的启动指示时，在步骤S21中执行以250Hz和400Hz为中心的再学习。此时，以搜索范围为从较宽范围变更为较窄范围或者以250Hz和400Hz为中心的范围的方式进行选择。例如，将搜索范围是100Hz～1000Hz变更为200Hz～500Hz，选择为200Hz～300Hz、400Hz～500Hz。

输出装置200根据从机器学习装置100发送的、变更后的系数a_i、b_j与评价函数值，将衰减中心频率-评价函数值的散布图显示于显示部209的图7所示的显示画面P的栏P3，将变更后的系数a_i、b_j发送给伺服控制装置300。这样，再次进行基于步骤S11、步骤S21、步骤S31-S33的机器学习。

这样，用户从图7的显示画面P的栏P3所显示的散布图观察衰减中心频率与评价函数值的特性，根据需要变更或选择机器学习的搜索范围，由此，通过使机器学习装置100进行机器学习，可以调整速度前馈处理部308的系数a_i、b_j。

以上，对第一实施方式的输出装置以及控制装置进行了说明，接下来对第二以及第三实施方式的输出装置以及控制装置进行说明。

(第二实施方式)

在第一实施方式中，输出装置200与伺服控制装置300和机器学习装置100连接，进行了机器学习装置100与伺服控制装置300之间的信息的中继、伺服控制装置300与机器学习装置100的动作的控制。

在本实施方式中，对输出装置只与机器学习装置连接的情况进行说明。

图17是表示本发明的第二实施方式的控制装置的一结构例的框图。控制装置10A具有：机器学习装置100、输出装置200A、伺服控制装置300、以及伺服电动机400。

输出装置200A相比于图6所示的输出装置200，不具有信息取得部217以及信息输出部218。

由于输出装置200A不与伺服控制装置300连接，因此不进行机器学习装置100与伺服控制装置300之间的信息的中继，不进行与伺服控制装置300之间的信息的收发。具体来说，执行图15所示的、步骤S31的学习程序启动指示、步骤S33的参数的物理量输出、以及步骤S35的再学习指示，但是不进行图15所示的其他动作(例如，步骤S32、S34)。这样，输出装置200A不与伺服控制装置300连接，因此，输出装置200A的动作减少，可以实现装置结构简化。

(第三实施方式)

在第一实施方式中，输出装置200与伺服控制装置300和机器学习装置100连接，但是在本实施方式中，对调整装置与机器学习装置100和伺服控制装置300连接，输出装置与调整装置连接的情况进行说明。

图18是表示本发明的第三实施方式的控制装置的一结构例的框图。控制装置10B具有：机器学习装置100、输出装置200A、伺服控制装置300、以及调整装置500。图18所示的输出装置200A与图17所示的输出装置200A的结构一样，但是信息取得部211与信息输出部212不与机器学习装置100连接，而与调整装置700连接。

调整装置500为除去了图6的输出装置200的作图部203、操作部204、显示部209以及运算部2100的结构。

图18所示的输出装置200A与第二实施方式的图17所示的输出装置200A一样，除了图15所示的、步骤S31的学习程序启动指示、步骤S33的参数的物理量输出、以及步骤S35的参数的微调整的指示之外，还进行步骤S35的再学习指示，这些动作经由调整装置700来进行。调整装置500对机器学习装置100与伺服控制装置300之间的信息进行中继。此外，调整装置500对输出装置200A进行的、针对机器学习装置100的学习程序启动指示等进行中继，分别将启动指示输出给机器学习装置100。

这样，与第一实施方式相比较，输出装置200的功能分给输出装置200A和调整装置500，因此，输出装置200A的动作少，可以实现装置结构简化。

以上对本发明有关的各实施方式进行了说明，上述的伺服控制装置、机器学习装置以及输出装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外，由上述伺服控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里，所谓通过软件来实现表示计算机通过读入程序来执行从而实现。

可以使用各种类型的非易失性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序供给到计算机。非易失性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非易失性的计算机可读记录介质的示例包含：磁记录介质(例如，磁盘、硬盘驱动器)、光-磁记录介质(例如，光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如，掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random accessmemory)。

上述实施方式是本发明的优选实施方式，但是并非将本发明的范围仅限定于上述实施方式以及实施例，可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。

<输出装置包含于伺服控制装置或机器学习装置的变形例>

在上述的实施方式中，对将机器学习装置100、输出装置200或200A、以及伺服控制装置300构成为控制装置10的第一实施方式以及第二实施方式、和将输出装置200分为输出装置200A与调整装置500设置于控制装置而构成的第三实施方式进行了说明。在这些实施方式中，机器学习装置100、输出装置200或200A、伺服控制装置300、调整装置500通过分开的装置构成，但是也可以将这些装置中的一个与其他装置一体地构成。例如，可以通过机器学习装置100或伺服控制装置300来实现输出装置200或200A的功能的一部分或全部。

此外，也可以将输出装置200或200A设置于由机器学习装置100以及伺服控制装置300构成的控制装置的外部。

<系统结构的自由度>

图19是表示其他结构的控制装置的框图。如图19所示，控制装置10C具有n台机器学习装置100-1～100-n、输出装置200-1～200-n、以及n台伺服控制装置300-1～300-n、伺服电动机400-1～400-n以及网络600。另外，n是任意自然数。n台机器学习装置100-1～100-n分别与图5所示的机器学习装置100对应。输出装置200-1～200-n与图6所示的输出装置200或图17所示的输出装置200A对应。n台伺服控制装置300-1～300-n分别与图2所示的伺服控制装置300对应。图18所示的输出装置200A以及调整装置500与输出装置200-1～200-n对应。

这里，输出装置200-1与伺服控制装置300-1为一对一的组，能够通信地连接。关于输出装置200-2～200-n和伺服控制装置300-2～300-n也与输出装置200-1和伺服控制装置300-1一样地连接。在图19中，输出装置200-1～200-n与伺服控制装置300-1～300-n的n个组经由网络600而连接，关于输出装置200-1～200-n与伺服控制装置300-1～300-n这n个组，各组的输出装置与伺服控制装置可以经由连接接口而直接连接。关于这些输出装置200-1～200-n与伺服控制装置300-1～300-n这n个组，例如可以在同一个工厂中设置多组，也可以分别设置于不同的工厂中。

另外，网络600例如是在工厂内构建的LAN(Local Area Network：局域网)、互联网、公共电话网、或者它们的组合。对于网络600中具体的通信方式是有线连接还是无线连接等没有特别限定。

在上述的图19的控制装置中，输出装置200-1～200-n与伺服控制装置300-1～300-n作为一对一的组以能够通信的方式进行连接，例如一台输出装置200-1可以经由网络600与多台伺服控制装置300-1～300-m(m＜n或m＝n)能够通信地连接，与一台输出装置200-1连接的一台机器学习装置可以实施各伺服控制装置300-1～300-m的机器学习。

此时，可以将机器学习装置100-1的各功能作为适当分散到多个服务器的分散处理系统。此外，机器学习装置100-1的各功能也可以在云上利用虚拟服务器功能等来实现。

此外，当存在与多个相同型号名称、相同规格、或者相同系列的伺服控制装置300-1～300-n分别对应的多个机器学习装置100-1～100-n时，可以共享各机器学习装置100-1～100-n中的学习结果。这样，能够构建更理想的模型。

Claims

1.一种输出装置，其特征在于，具有：

信息取得部，其从对控制伺服电动机的伺服控制装置进行机器学习的机器学习装置中，取得机器学习中或机器学习后的所述伺服控制装置的结构要素的参数或第一物理量、以及评价函数值，其中，所述伺服电动机用于驱动机床、机器人或工业机械的轴；以及

输出部，其输出表示如下关系的信息：所取得的参数、所述第一物理量、或根据所述参数求出的第二物理量、与所述评价函数值之间的关系。

2.根据权利要求1所述的输出装置，其特征在于，

所述输出部包含：显示部，其在显示画面显示表示如下关系的信息：所述参数、所述第一物理量或所述第二物理量、与所述评价函数值之间的关系。

3.根据权利要求1或2所述的输出装置，其特征在于，

所述参数是所述伺服控制装置的结构要素的传递函数的系数，根据所述信息，指示所述伺服控制装置变更所述系数的阶数。

4.根据权利要求1～3中任一项所述的输出装置，其特征在于，

根据所述信息，指示所述机器学习装置变更或选择所述伺服控制装置的结构要素的参数或所述第一物理量的机器学习的搜索范围。

5.根据权利要求1～4中任一项所述的输出装置，其特征在于，

所述伺服控制装置的结构要素的参数包含数学公式模型或滤波器的参数。

6.根据权利要求5所述的输出装置，其特征在于，

所述数学公式模型或所述滤波器包含在速度前馈处理部或位置前馈处理部中，所述参数包含滤波器的传递函数的系数。

7.一种控制装置，其特征在于，具有：

权利要求1～6中任一项所述的输出装置；

机器学习装置，其对伺服控制装置进行机器学习。

8.根据权利要求7所述的控制装置，其特征在于，

所述输出装置包含在所述伺服控制装置和所述机器学习装置中的一个装置中。

9.一种输出装置的评价函数值的输出方法，所述评价函数值是在对伺服控制装置进行机器学习的机器学习装置的机器学习中使用的，所述伺服控制装置对用于驱动机床、机器人或工业机械的轴的伺服电动机进行控制，其特征在于，