CN111478682A

CN111478682A - 优化滤波器系数的机器学习系统、控制装置以及机器学习方法

Info

Publication number: CN111478682A
Application number: CN202010072337.9A
Authority: CN
Inventors: 前田和臣
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-01-24
Filing date: 2020-01-21
Publication date: 2020-07-31
Also published as: JP2020119295A; US20200241485A1; DE102020200635A1; JP6956122B2; US11226599B2

Abstract

本发明提供一种优化滤波器系数的机器学习系统、控制装置以及机器学习方法。机器学习系统具有：初始设定部，其设定滤波器的系数的初始值，以使至少一个特定的频率成分衰减；频率特性计算部，其根据伺服控制装置中频率变化的输入信号和输出信号，来计算伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个；滤波器特性去除部，其在机器学习开始时，从根据输出信号和输入信号而获得的输入输出增益与输入输出的相位延迟中的至少一个之中，去除初始滤波器的滤波器特性，其中，输出信号是使用对滤波器设定了初始值的初始滤波器而获得的，开始滤波器的系数的机器学习，以使去除了滤波器特性的、至少所述输入输出增益降低或所述相位延迟变小。

Description

优化滤波器系数的机器学习系统、控制装置以及机器学习方法

技术领域

本发明涉及对控制机床、机器人或者工业机械等的电动机的伺服控制装置中的滤波器的系数进行优化的机器学习系统、包含该机器学习系统的控制装置、以及机器学习方法。

背景技术

已知有自动调整滤波器特性的装置(例如，参照专利文献1以及专利文献2)。

专利文献1记载了：“一种伺服致动器，其具有控制电动机速度的速度反馈环，将陷波滤波器单元插入到该速度反馈环来去除机器共振，所述伺服致动器具有：数据收集单元，其取得表示速度反馈环的频率响应特性的数据；移动平均单元，对由数据收集单元取得的数据进行移动平均处理；比较单元，其将由该移动平均单元取得的数据与由数据收集单元获得的数据进行比较，提取速度反馈环的共振特性；陷波滤波器设定单元，其根据由比较单元提取出的共振特性来设定陷波滤波器单元的频率和Q值”。

专利文献2记载了“一种伺服致动器，在调谐模式时，将频率扫描而得的交流信号与速度指令值信号叠加，检测作为叠加结果从速度控制部获得的转矩指令值信号的振幅，将振幅的变化率从正转为负时的转矩指令值信号的频率设定为陷波滤波器(notchfilter)的中心频率”。

专利文献3记载了“一种电动机控制装置，具有：陷波滤波器，其能够变更包含陷波频率和陷波宽度在内的陷波滤波器的参数；推定振动频率的振动频率推定单元。还具有：陷波滤波器参数设定单元，其将陷波滤波器的陷波频率与推定出的振动频率之间的频率设定为陷波滤波器的新陷波频率，并且变更陷波宽度使得原本的陷波频率成分与推定出的频率成分衰减”。

现有技术文献

专利文献1：日本特开2009-104439号公报

专利文献2：日本特开平5-19858号公报

专利文献3：日本特开2008-312339号公报

发明内容

在确定滤波器，例如陷波滤波器的特性时，需要确定衰减系数、想要去除的频带的中心频率、以及带宽等多个参数，希望调整这些参数来求出最佳值。并且，当这些参数设定不合适时，有时无法充分抑制共振，或者伺服控制部的相位延迟增大导致伺服控制性能劣化。

(1)本公开的一个方式提供一种机器学习系统，其进行对设置于伺服控制装置(例如，后述的伺服控制装置100)的至少一个滤波器(例如，后述的滤波器130)的系数进行优化的机器学习，所述伺服控制装置控制电动机(例如，后述的电动机150)，其中，

所述机器学习系统具有：

初始设定部(例如，后述的初始设定部500)，其设定所述滤波器的系数的初始值，以使至少一个特定的频率成分衰减；

频率特性计算部(例如，后述的频率特性计算部300)，其根据所述伺服控制装置中频率变化的输入信号和输出信号，来计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个；以及

滤波器特性去除部(例如，后述的滤波器特性去除部4011)，其在机器学习开始时，从根据所述输出信号和所述输入信号而获得的所述输入输出增益与所述输入输出的相位延迟中的至少一个之中，去除所述初始滤波器的滤波器特性，其中，所述输出信号是使用由所述初始设定部对所述滤波器设定了所述初始值的初始滤波器而获得的，

开始所述滤波器的系数的机器学习，以使由所述滤波器特性去除部去除了所述初始滤波器的滤波器特性的、至少所述输入输出增益降低或所述相位延迟变小。

(2)在上述(1)的机器学习系统中，可以是，所述频率变化的输入信号是频率变化的正弦波，该正弦波由频率生成部(例如，后述的频率生成部200)生成，该频率生成部设置于所述伺服控制装置内或所述伺服控制装置外。

(3)在上述(1)或(2)的机器学习系统中，可以是，所述机器学习系统具有机器学习部(例如，后述的机器学习部400)，

所述机器学习部具有：

状态信息取得部(例如，后述的状态信息取得部401)，其取得状态信息，其中，该状态信息包含从所述频率特性计算部输出的所述伺服控制装置的输入输出增益和输入输出的相位延迟、以及所述初始滤波器的系数或所述机器学习开始后的所述滤波器的系数；

行为信息输出部(例如，后述的行为信息输出部403)，其输出包含在所述状态信息中的行为信息，该行为信息包含所述初始滤波器的系数或所述机器学习开始后的所述滤波器的系数的调整信息；

回报输出部(例如，后述的回报输出部4021)，其输出强化学习中的回报值，该强化学习是基于从所述状态信息取得部输出的所述输入输出增益和所述输入输出的相位延迟的学习；以及

价值函数更新部(例如，后述的价值函数更新部4022)，其根据由所述回报输出部输出的回报值、所述状态信息、所述行为信息来更新行为价值函数。

(4)在上述(3)的机器学习系统中，可以是，所述频率特性计算部输出所述输入输出增益和所述输入输出的相位延迟，

当所述伺服控制装置的输入输出增益是根据所述伺服控制装置的特性计算出的输入输出增益的标准模型的该输入输出增益以下时，所述回报输出部计算所述输入输出的相位延迟的回报。

(5)在上述(4)的机器学习系统中，可以是，所述标准模型的输入输出增益在规定的频率以上是固定值。

(6)在上述(4)或(5)的机器学习系统中，可以是，所述回报输出部计算回报以使所述输入输出的相位延迟变小。

(7)在上述(3)～(6)中任一项的机器学习系统中，可以是，所述机器学习系统具有：优化行为信息输出部(例如，后述的优化行为信息输出部405)，其根据由所述价值函数更新部更新了的价值函数来输出所述系数的调整信息。

(8)本公开的另个一方式提供一种控制装置(例如，后述的控制装置10)，具有：

上述(1)～(7)中任一项的机器学习系统；以及

控制电动机(例如，后述的电动机150)的伺服控制装置，该伺服控制装置具有使特定的频率成分衰减的至少一个滤波器(例如，后述的滤波器130)。

(9)本公开的另一个其他方式提供一种机器学习系统的机器学习方法，该机器学习系统进行对设置于伺服控制装置(例如，后述的伺服控制装置100)的至少一个滤波器(例如，后述的滤波器130)的系数进行优化的机器学习，所述伺服控制装置控制电动机(例如，后述的电动机150)，所述滤波器使至少一个特定的频率成分衰减，其中，

设定所述滤波器的系数的初始值，以使至少一个特定的频率成分衰减，

根据所述伺服控制装置中频率变化的输入信号和输出信号，来计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个，

在机器学习开始时，从根据所述伺服控制装置的输出信号和所述伺服控制装置的输入信号而获得的输入输出增益与输入输出的相位延迟中的至少一个之中，去除所述初始滤波器的滤波器特性，其中，所述输出信号是使用对所述滤波器设定了所述初始值的初始滤波器而获得的，

开始所述滤波器的系数的机器学习，以使去除了所述滤波器特性的、至少所述输入输出增益降低或所述相位延迟变小。

发明效果

通过一个方式，能够设定伺服控制装置的滤波器的最佳参数。

附图说明

图1是表示包含一实施方式的机器学习系统的控制装置的框图。

图2是表示成为输入信号的速度指令和成为输出信号的检测速度的图。

图3是表示输入信号与输出信号的振幅比、以及相位延迟的频率特性的图。

图4是初始设定的滤波器的频率特性图。

图5是用于说明初始设定部以及滤波器的动作的概念图。

图6是表示一实施方式的机器学习部的框图。

图7是表示附加了滤波器特性的频率特性、以及去除了滤波器特性的频率特性的一例的频率特性图。

图8是成为用于计算输入输出增益的标准模型的模型的框图。

图9是表示标准模型的伺服控制部、学习前和学习后的伺服控制部的输入输出增益的频率特性的特性图。

图10是表示滤波器的带宽与增益和相位的关系的特性图。

图11是表示滤波器的衰减系数与增益和相位的关系的特性图。

图12是表示本实施方式中的Q学习时的机器学习部的动作的流程图。

图13是说明一实施方式的机器学习部的优化行为信息输出部的动作的流程图。

图14是表示直接连接多个滤波器来构成滤波器的示例的框图。

图15是表示控制装置的其他结构例的框图。

符号说明

10，10A 控制装置

100、100-1～100-n 伺服控制部

110 减法器

120 速度控制部

130 滤波器

140 电流控制部

150 伺服电动机

200 频率生成部

300 频率特性计算部

400 机器学习部

400A-1～400A-n 机器学习部

401 状态信息取得部

402 学习部

403 行为信息输出部

404 价值函数存储部

405 优化行为信息输出部

500 初始设定部

600 网络

具体实施方式

以下，使用附图对本公开的实施方式进行详细说明。

图1是表示包含一实施方式的机器学习系统的控制装置的框图。控制装置10的控制对象例如是机床、机器人、工业机械。控制装置10也可以设置为机床、机器人、工业机械等控制对象的一部分。

控制装置10具有：成为伺服控制装置的伺服控制部100、频率生成部200、频率特性计算部300、机器学习部400、以及初始设定部500。

另外，频率生成部200、频率特性计算部300、机器学习部400以及初始设定部500中的一个或多个可以设置于伺服控制部100内。此外，初始设定部500以及频率特性计算部300中的一个或两者可以设置于机器学习部400内。频率特性计算部300、机器学习部400以及初始设定部500构成机器学习系统。频率特性计算部300、机器学习部400以及初始设定部500可以分别设置为独立的装置，也可以设置为一个装置。此外，也可以由频率特性计算部300、机器学习部400以及初始设定部500中的一个和余下的两个构成两个装置。哪种情况都能构成机器学习系统。

伺服控制部100具有：减法器110、速度控制部120、滤波器130、电流控制部140以及伺服电动机150。减法器110、速度控制部120、滤波器130、电流控制部140以及伺服电动机150构成速度反馈环。关于成为电动机的伺服电动机150，在以下的说明中设为进行旋转运动的电动机进行说明，也可以是进行直线运动的线性电动机。

减法器110求出输入的速度指令与速度反馈的检测速度之差，将该差作为位置偏差输出给速度控制部120。

速度控制部120将积分增益K1v乘以速度偏差进行了积分而得的值、与比例增益K2v乘以速度偏差而得的值相加，作为转矩指令输出给滤波器130。

滤波器130是使特定的频率成分衰减的滤波器，例如使用陷波滤波器或低通滤波器。由电动机驱动的机床等机械中存在共振点，有时共振因伺服控制部100而增大。该情况下，例如可以通过使用陷波滤波器降低共振。滤波器130的输出作为转矩指令输出给电流控制部140。

数学公式1(以下表示为数学式1)表示滤波器130的传递函数F(s)。数学公式1的系数ai，bj(0≦i≦m，0≦j≦n，m，n是自然数)的最佳值通过机器学习部400来被机器学习。

【数学式1】

电流控制部140根据转矩指令生成用于驱动伺服电动机150的电流指令，将该电流指令输出给伺服电动机150。

通过设置于伺服电动机150的旋转编码器(未图示)来检测伺服电动机150的旋转角度位置，速度检测值作为速度反馈而输入到减法器110。

如上所述构成伺服控制部100，但是为了对滤波器的优选参数进行机器学习，控制装置10还具有：频率生成部200、频率特性计算部300机器学习部400以及初始设定部500。

频率生成部200一边使频率变化一边将正弦波信号作为速度指令，输出给伺服控制部100的减法器110以及频率特性计算部300。速度指令成为相对伺服控制部100的输入信号。

频率特性计算部300使用速度指令(正弦波)、成为从旋转编码器(未图示)输出的输出信号的检测速度(正弦波)，按速度指令所规定的各频率，求出输入信号与输出信号的振幅比(输入输出增益)和相位延迟。图2是表示成为输入信号的速度指令和成为输出信号的检测速度的图。图3是表示输入信号与输出信号的振幅比和相位延迟的频率特性的图。

如图2所示，从频率生成部200输出的速度指令使频率变化，获得图3所示那样的、关于输入输出增益(振幅比)和相位延迟的频率特性。

机器学习部400使用从频率特性计算部300输出的输入输出增益(振幅比)和相位延迟，对滤波器130的传递函数F(s)的系数ai、bj进行机器学习(以下，称为学习)。在出库之前进行由机器学习部400进行的学习，也可以在出库后进行再学习。

在由机器学习部400进行的学习开始时或者开始前，初始设定部500设定滤波器130的传递函数F(s)的系数的初始值。将设定了初始值的滤波器130称为初始滤波器。初始值的系数设定成抑制共振频率。设定滤波器130的系数的初始值以抑制共振频率，有可能在存在机械的共振点时，因叠加振动而产生较大的振动而无法测量检测速度等数据。

设定滤波器的系数的初始值的方法，例如可以使用日本特开2016-034224号公报所记载的伺服电动机控制装置、以及日本特开2017-022855号公报所记载的伺服控制装置所公开的滤波器的调整方法。

关于日本特开2016-034224号公报所记载的伺服电动机控制装置，正弦波生成部生成正弦波干扰值，频率响应计算部计算将正弦波干扰值输入给速度控制环时的频率响应。并且，共振频率检测部检测频率响应的增益为极大的共振频率，共振频率比较部根据共振频率来测量机床的刚性，针对共振频率调整滤波器。

在日本特开2017-022855号公报所记载的伺服控制装置中，正弦波干扰输入部进行对速度控制环的正弦波扫描，频率特性计算部根据速度控制环的输出，推定速度控制环输入输出信号的增益和相位。并且，频率特性计算部通过将来自正弦波干扰输入部的干扰输入频率设为基本频率的、由任意项数构成的傅里叶级数来表示速度控制环的输出，计算该傅里叶级数的基本波成分的振幅和相位，由此计算频率特性。之后，共振频率检测部根据频率特性检测共振频率，滤波器调整部根据检测出的共振频率来调整滤波器。

系数设定成初始值的滤波器130的频率特性在共振点为1个的情况下，为图4所示的频率特性。

频率特性计算部300使用由伺服控制部11获得的检测速度和速度指令，来计算输入输出增益和相位延迟的频率特性，其中，伺服控制部11使用了在学习开始时或者开始前由初始设定部500设定了系数的滤波器130。但是，该频率特性不是使用未由初始设定部500进行初始设定时的滤波器时的频率特性。因此，机器学习部400求出在学习开始时由初始设定部500设定的滤波器130的滤波器特性时的频率特性，针对求出的频率特性进行滤波器130的系数的学习。在学习开始后，使用由机器学习部400设定了系数的滤波器130来获得检测速度和速度指令，频率特性计算部300使用该获得的检测速度和速度指令来计算频率特性。

去除由初始设定部500设定了系数的滤波器130(初始滤波器)的滤波器特性的方法，例如以如下方式进行。

伺服控制部100使用由初始设定部500设定了系数的滤波器130来进行伺服控制从而获得检测速度和速度指令。频率特性计算部300使用从伺服控制部100获得的检测速度(输出)和速度指令(输入)，生成数学公式2(以下表示为数学式2)所表示的伺服控制部100的传递函数L₁(s)的机械模型(系数c_i，d_j，0≦i≦m，0≦j≦n，m，n自然数)生成。

数学式2

频率特性计算部300在频率ω[rad]＝2πf[Hz]时，代入s＝j·ω(j是复函数)，求出

增益＝|L₁(jω)|

相位＝∠L₁(jω)

，按频率进行制图求出频率特性。

另一方面，机器学习部400存储由初始设定部500设定的滤波器130(初始滤波器)的传递函数。该传递函数例如是数学公式3(以下表示为数学式3)所表示的传递函数H(s)。传递函数H(s)为陷波滤波器的传递函数。

在数学公式3中，系数k是衰减系数，系数ω_c是中心角频率，系数τ是比带宽(specific bandwidth)。将中心频率设为fc，将带宽设为fw，于是通过ω_c＝2πfc来表示系数ω_c，通过τ＝fw/fc来表示系数τ。在数学公式1的传递函数F(s)的系数ai，bj中，设a₀、b₀＝ω_c ²、a₁＝2τω_c、b₁＝2kτω_c、a₂＝1、b₂＝1、a₃～a_m＝0、b₃～b_n＝0由此可以获得数学公式3的传递函数H(s)。

数学式3

机器学习部400使用数学公式3，求出每一个频率的增益和相位，除了使用传递函数L₁(s)的机械模型而获得这些的频率特性之外，还获得去除了由初始设定部500设定的滤波器130(初始滤波器)的滤波器特性的频率特性。

这里，将去除了由初始设定部500设定的滤波器130的滤波器特性的伺服控制部100的传递函数设为L₀(s)，于是L₀(s)+H(s)＝L₁(s)，因此，L₀(s)＝L₁(s)-H(s)。

在频率ω[rad]＝2πf[Hz]时，代入s＝j·ω(j是复函数)，求出

增益＝|L₁(jω)-H(jω)|

相位＝∠(L₁(jω)-H(jω))

，按频率进行制图来求出频率特性。

以下，使用图5对初始设定部500以及滤波器130的动作进行说明。

图5是用于说明初始设定部500以及滤波器130的动作的概念图。

图5所示的、初始滤波器503对应于系数设定为初始值的滤波器130，滤波器502对应于学习中的滤波器130。初始滤波器503的系数例如设定成数学公式3的传递函数H(s)的系数，以便抑制共振频率。在由机器学习部400进行的学习开始时，通过切换部501、504，在速度控制部120与电流控制部140之间连接初始滤波器503来进行伺服控制。频率特性计算部300使用通过利用了初始滤波器503的伺服控制而获得的检测速度和速度指令，通过数学公式2的传递函数L₁(s)计算输入输出增益和相位延迟的频率特性。之后，机器学习部400求出通过从L₀(s)＝L₁(s)-H(s)求出的传递函数L₀(s)去除了滤波器特性时的频率特性，来进行学习。学习开始后，通过切换部501、504，在速度控制部120与电流控制部140之间连接滤波器502来进行伺服控制。

这样，在学习开始时使用设定了系数的初始滤波器503，以便抑制共振频率。若对应于图1所示的控制装置10，则初始滤波器503对应于初始设定部500设定用于抑制共振频率的系数作为滤波器103的初始值。

另外，在实际采用图5的结构时，相比于图1的结构，滤波器的数量增加一个，插入两个切换部，因此安装变得复杂，成本上升。但是，如果允许安装的复杂度和成本上升，也可以替换图1所示的初始设定部以及滤波器的结构而采用图5的结构。

以下，对机器学习部400的结构以及动作的详细情况进行进一步说明。

<机器学习部400>

在以下的说明中对机器学习部400进行强化学习的情况进行说明，但是机器学习部400进行的学习并不特别限定于强化学习，例如，本发明还能够应用于进行监督学习的情况。

在进行机器学习部400所包含的各功能块的说明之前，首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习部400)观测环境状态，选择某个行为，环境根据该行为而发生变化。随着环境的变化，提供某种回报，智能体学习更好的行为选择(决策)。

监督学习表示完全的正确答案，而强化学习中的回报大多是基于环境的部分变化的片段值。因此，智能体学习选择行为使得到将来的回报合计为最大。

这样，在强化学习中通过学习行为，在行为给予环境的相互作用基础上学习适当的行为，即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中，可以获得例如选择用于抑制机械端振动的行为信息这样的、影响未来的行为。

这里，作为强化学习可以使用任意的学习方法，在以下的说明中，以在某种环境状态S下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为A的价值Q(S、A)的方法。

Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。

但是，在最初开始Q学习的时间点，对于状态S与行为A的组合来说，完全不知晓价值Q(S、A)的正确值。因此，智能体在某种状态S下选择各种行为A，针对当时的行为A，根据给予的回报，选择更好的行为，由此，继续学习正确的价值Q(S、A)。

此外，想要使将来获得的回报的合计最大化，因此，目标是最终成为Q(S、A)＝E[Σ(γ^t)r_t]。这里，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边搜索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学公式4(以下表示为数学式4)来表示。

【数学式4】

在上述的数学式4中，S_t表示时刻t的环境状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态S_t+1下，将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里，γ是0＜γ≤1的参数，称为折扣率。此外，α是学习系数，设α的范围为0＜α≤1。

上述的数学式4表示如下方法：根据尝试A_t的结果而反馈回来的回报r_t+1，更新状态S_t下的行为A_t的价值Q(S_t、A_t)。

该更新式表示了：若行为A_t导致的下一状态S_t+1下的最佳行为的价值max_a Q(S_t+1、A)比状态S_t下的行为A_t的价值Q(S_t、A_t)大，则增大Q(S_t、A_t)，反之如果小，则减小Q(S_t、A_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中，尽管该差因折扣率γ和回报r_t+1的存在形式而变化，但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。

这里，Q学习存在如下方法：制作针对所有状态行为对(S、A)的Q(S、A)的表格，来进行学习。但是，有时为了求出所有状态行为对的Q(S、A)的值，状态数会过多，使得Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说，可以使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q由此计算价值Q(S、A)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih著[online]，[平成29年1月17日检索]，因特网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

机器学习部400进行以上说明的Q学习。具体来说，机器学习部400学习如下价值Q：将滤波器130的传递函数F(s)的各系数a_i、b_j的值、从频率特性计算部300输出的输入输出增益(振幅比)和相位延迟作为状态S，将该状态S有关的、滤波器130的传递函数的各系数a_i、b_j的值的调整，选择为行为A。在学习开始时，初始设定部500将滤波器130的传递函数F(s)的各系数a_i、b_j设定为传递函数H(s)的各系数，机器学习部400去除由初始设定部500设定的滤波器130的滤波器特性来进行学习。因此，去除了滤波器特性时的输入输出增益(振幅比)和相位延迟成为状态S。

在学习开始后，伺服控制部100根据由机器学习部400设定的滤波器130的传递函数F(s)的各系数a_i、b_j，使用所述频率变化的正弦波即速度指令来进行伺服控制。机器学习部400观测状态信息S来决定行为A，该状态信息S包含通过驱动伺服控制部100而从频率特性计算部300获得的、各频率中每一个的输入输出增益(振幅比)和相位延迟。机器学习部400每当进行行为A时返回回报。机器学习部400例如试错性地搜索最佳行为A以使到将来的回报合计为最大。通过这样，机器学习部400根据滤波器130的传递函数F(s)的各系数a_i、b_j，使用频率变化的正弦波即速度指令来驱动伺服控制部100。并且，机器学习部400能够对状态S选择最佳行为A(即，滤波器130的传递函数F(s)的最佳系数a_i、b_j)，其中，状态S包含从频率特性计算部300获得的、各频率中每一个的输入输出增益(振幅比)和相位延迟。

即，根据由机器学习部400学习到的价值函数Q，选择应用于某种状态S有关的滤波器130的传递函数的各系数a_i、b_j的行为A中的、Q值为最大那样的行为A。通过这样，机器学习部400能够选择通过执行学习程序而产生的机械端的振动为最小那样的行为A(即，滤波器130的传递函数的各系数a_i、b_j)。

图6是表示一实施方式的机器学习部400的框图。

为了进行上述的强化学习，如图6所示，机器学习部400具有：状态信息取得部401、学习部402、行为信息输出部403、价值函数存储部404以及优化行为信息输出部405。

状态信息取得部401具有滤波器特性去除部4011。在滤波器特性去除部4011中存储有由初始设定部500设定的滤波器130的传递函数H(s)。

在学习开始时或开始之前，初始设定部500将滤波器130的传递函数设定为传递函数H(s)。并且，频率特性计算部300使用利用传递函数H(s)的滤波器130而获得的检测速度和速度指令，通过伺服控制部100的传递函数L₁(s)来计算输入输出增益(振幅比)和相位延迟的频率特性。

该频率特性不是使用未由初始设定部500进行初始设定时的滤波器130时的频率特性。因此，状态信息取得部401在学习开始时，使用滤波器特性去除部4011，通过传递函数L₀(s)(L₀(s)＝L₁(s)-H(s))，求出去除了传递函数H(s)的滤波器130的滤波器特性时的、输入输出增益(振幅比)和相位延迟的频率特性。该频率特性为状态S。

例如，图7表示附加了滤波器特性的频率特性与去除了滤波器特性的频率特性的一例。在图7中，曲线RC₁是表示附加了滤波器特性的伺服控制部100的频率特性的曲线，曲线RC₂是表示去除了滤波器特性的伺服控制部100的频率特性的曲线。

另外，滤波器特性去除部4011不在机器学习部400的状态信息取得部401内，可以设置于频率特性计算部300内。

状态信息取得部401从频率特性计算部300取得状态S，其中，状态S包含根据在学习开始后的学习过程中由机器学习部400设定的滤波器130的传递函数F(s)的各系数a_i、b_j，使用速度指令(正弦波)驱动伺服电动机150而获得的输入输出增益(振幅比)和相位延迟。该输入输出增益是使用具有学习开始后的传递函数F(s)的滤波器的伺服控制部100的传递函数L(s)计算出的输入输出增益。频率特性计算部300使用从伺服控制部100获得的检测速度(输出)和速度指令(输入)，生成伺服控制部100的传递函数L(s)的机械模型。该状态S相当于Q学习中的环境状态S。

状态信息取得部401对学习部402输出取得到的状态S。

学习部402是在某种环境状态S下对选择某种行为A时的价值Q(S、A)进行学习的部分。学习部402具有：回报输出部4021、价值函数更新部4022以及行为信息生成部4023。

回报输出部4021是在某种状态S下计算选择了行为A时的回报的部分。

回报输出部4021将在修正了滤波器130的传递函数F(s)的各系数a_i、b_j的情况下计算出的输入输出增益G与预先设定的标准模型的各频率中每一个的输入输出增益Gb进行比较。另外，输入输出增益G是使用所述伺服控制部100的传递函数L(s)计算出的输入输出增益。

回报输出部4021在计算出的输入输出增益G比标准模型的输入输出增益Gb大时，给予负回报。另一方面，回报输出部4021在计算出的输入输出增益G是标准模型的输入输出增益Gb以下的情况下，在相位延迟变小时给予正回报，在相位延迟变大时给予负回报，在相位延迟不变时给予零回报。

首先，使用图8和图9对回报输出部4021在计算出的输入输出增益G比标准模型的输入输出增益Gb大时，给予负回报的动作进行说明。

回报输出部4021保存输入输出增益的标准模型。标准模型是具有不共振的理想特性的伺服控制部的模型。标准模型例如可以根据图8所示的模型的惯量Ja、转矩常数K_t、比例增益K_p、积分增益K_I、微分增益K_D进行计算而求出。惯量Ja是电动机惯量与机械惯量的相加值。

图9是表示标准模型的伺服控制部与学习前和学习后的伺服控制部100的输入输出增益的频率特性的特性图。如图9的特性图所示，标准模型具有：区域A、区域B，其中，区域A是成为一定的输入输出增益以上，例如-20dB以上的理想的输入输出增益的频率区域，区域B是成为不足一定的输入输出增益的频率区域。在图9的区域A中，通过曲线MC₁(粗线)来表示标准模型的理想的输入输出增益。在图9的区域B中，通过曲线MC₁₁(粗虚线)来表示标准模型的理想的虚拟输入输出增益，将标准模型的输入输出增益作为固定值而通过直线MC₁₂(粗线)进行表示。在图9的区域A以及B中，分别通过曲线RC₁、RC₂来表示学习前和学习后的伺服控制部的输入输出增益的曲线。

回报输出部4021在区域A中，在计算出的输入输出增益的曲线RC₂超过标准模型的理想的输入输出增益的曲线MC₁时给予第一负回报。

在超过输入输出增益变得足够小的频率的区域B中，即使输入输出增益的曲线RC₂超过标准模型的理想的虚拟输入输出增益的曲线MC₁₁，对稳定性的影响也变小。因此，在区域B中，如上所述，标准模型的输入输出增益并非理想的增益特性的曲线MC₁₁，而是使用固定值的输入输出增益(例如，-20dB)的直线MC₁₂。但是，在学习前的计算出的输入输出增益的曲线RC₂超过固定值的输入输出增益的直线MC₁₂时可能不稳定，因此，作为回报而给予第一负值。

接下来，对回报输出部4021在计算出的输入输出增益G是标准模型的输入输出增益Gb以下时，根据相位延迟的信息来决定回报的动作进行说明。

在以下的说明中，通过D(S)表示状态信息S有关的状态变量即相位延迟，通过D(S’)来表示通过行为信息A(滤波器130的传递函数F(s)的各系数a_i、b_j的修正)而从状态S发生了变化的状态S’有关的状态变量即相位延迟。

回报输出部4021根据相位延迟的信息来决定回报的方法例如存在以下三个方法。

第一方法是：在从状态S成为状态S’的情况下，通过相位延迟为180度的频率变大、变小、或者相同来决定回报的方法。这里，列举相位延迟为180度的情况，但是并非特别限定于180度也可以是其他值。

例如，在通过图3所示的相位线图表示了相位延迟时，在从状态S成为状态S’的情况下，曲线变化成相位延迟为180度的频率变小(在图3的X₂方向)，则相位延迟变大。另一方面，在从状态S成为状态S’的情况下，曲线变化成相位延迟为180度的频率变大(在图3的X₁方向)，则相位延迟变小。

因此，在从状态S成为状态S’的情况下，在相位延迟为180度的频率变小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021将回报值设为第二负值。另外，将第二负值的绝对值设定得比第一负值小。

另一方面，在从状态S成为状态S’的情况下，在相位延迟为180度的频率变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021将回报值设为正值。

此外，在从状态S成为状态S’的情况下，在相位延迟为180度的频率不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021将回报值设为零。

第二方法是：在从状态S成为状态S’的情况下，通过输入输出增益交叉在0dB时的相位延迟的绝对值变大、变小、或相同来决定回报的方法。

例如，在状态S下通过图3所示的增益线图表示输入增益时，交叉在0dB的点(以下，称为“零交叉点”)对应的、图3所示的相位线图的相位延迟为-90度。

在从状态S成为状态S’的情况下，在零交叉点的相位延迟的绝对值变大时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021将回报值设为第二负值。

另一方面，在从状态S成为状态S’的情况下，在零交叉点的相位延迟的绝对值变小时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021将回报值设为正值。

此外，在从状态S成为状态S’的情况下，在零交叉点的相位延迟的绝对值不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021将回报值设为零值。

第三方法是：在从状态S成为状态S’的情况下，通过相位裕量变大、变小、或相同来决定回报的方法。所谓相位裕量是指：在增益为0dB时，表示相位距-180度有多少度的量。例如，在图3中在增益为0dB时，相位为-90度，因此相位裕量为90度。

在从状态S成为状态S’的情况下，在相位裕量变小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021将回报值设为第二负值。

另一方面，在从状态S成为状态S’的情况下，在相位裕量变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021将回报值设为正值。

此外，在从状态S成为状态S’的情况下，在相位裕量不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021将回报值设为零。

另外，作为定义为执行行为A之后的状态S’的相位延迟D(S’)比之前的状态S下的相位延迟D(S)大时的负值，可以根据比例将负值设定得大。例如，在上述的第一方法中，可以根据频率变小的程度将负值设定得大。反之，作为定义为执行行为A之后的状态S’的相位延迟D(S’)比之前的状态S下的相位延迟D(S)小时的正值，可以根据比例将正值设定得大。例如，在上述的第一方法中，可以根据频率变大的程度将正值设定得大。

价值函数更新部4022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报值来进行Q学习，由此，对价值函数存储部404存储的价值函数Q进行更新。

价值函数Q的更新既可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是如下学习方法：通过将某种行为A应用于当前状态S，每当状态S向新状态S’转移时，立即进行价值函数Q的更新。此外，批量学习是如下学习方法：通过重复将某种行为A应用于当前状态S，状态S向新状态S’转移，由此收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新。进而，小批量学习是在线学习与批量学习中间的学习方法，是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部4023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部4023在Q学习的过程中，为了进行修正滤波器130的传递函数F(s)的各系数a_i、b_j的动作(相当于Q学习中的行为A)，而生成行为信息A，对行为信息输出部403输出所生成的行为信息A。

更具体来说，行为信息生成部4023例如针对状态S所包含的滤波器130的传递函数F(s)的各系数a_i、b_j，使包含在行为A中的滤波器130的传递函数F(s)的各系数a_i、b_j加上或减去增量。

并且，可以采取如下策略：行为信息生成部4023在应用滤波器130的传递函数F(s)的各系数a_i、b_j的增加或减少，而向状态S’转移并返回了正回报(正值的回报)时，作为下一行为A’，选择使滤波器130的传递函数F(s)的各系数a_i、b_j与前次的动作同样地增加或减少增量等使计算出的相位延迟比前次的相位延迟小那样的行为A’。

此外，反之还可以采取如下策略：当返回了负回报(负值的回报)时，行为信息生成部4023作为下一行为A’，例如选择使滤波器130的传递函数F(s)的各系数a_i、b_j与前次的动作相反地减少或增加增量等、使计算出的输入输出增益比标准模型的输入输出增益大时与前次相比输入增益之差更小那样，或计算出的相位延迟比前次的相位延迟小那样的行为A’。

另外，各系数a_i、b_j可以修正全部，也可以修正部分系数。例如，在滤波器130的传递函数F(s)作为数学公式3所示那样的陷波滤波器的传递函数被学习时，产生共振的中心频率fc容易发现，中心频率fc容易确定。因此，行为信息生成部4023可以进行临时固定中心频率fc，修正带宽fw以及衰减系数k，即，固定系数ω_c(＝2πfc)，修正系数τ(＝fw/fc)以及衰减系数k的动作。具体来说，在数学公式1的传递函数F(s)的系数a_i、b_j中，设a₀、b₀＝ω_c ²、a₁＝2τω_c、b₁＝2kτω_c、a₂＝1、b₂＝1、a₃～a_m＝0、b₃～b_n＝0。该情况下，可以固定a₀、b₀，修正a₁，b₁生成行为信息A，将生成的行为信息A输出给行为信息输出部403。

另外，滤波器130的特性如图10所示，通过滤波器130的带宽fw使得增益和相位发生变化。在图10中，虚线表示带宽fw大的情况，实线表示带宽fw小的情况。此外，滤波器130的特性如图11所示，通过滤波器130的衰减系数k，使得增益和相位发生变化。在图11中，虚线表示衰减系数k小的情况，实线表示衰减系数k大的情况。

此外，行为信息生成部4023也可以采取如下策略：通过在当前推定的行为A的价值中选择价值Q(S、A)最高的行为A’的贪婪算法，或者用某个较小的概率ε随机选择行为A’，除此之外选择价值Q(S、A)最高的行为A’的ε贪婪算法这样的众所周知的方法，来选择行为A’。

行为信息输出部403是对滤波器130发送从学习部402输出的行为信息A的部分。如上所述，滤波器130根据该行为信息，对当前状态S，即当前设定的各系数a_i、b_j进行微修正，而向下一状态S’(即，修正后的滤波器130的各系数)转移。

价值函数存储部404是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下，称为行为价值表)。存储在价值函数存储部404中的价值函数Q通过价值函数更新部4022而被更新。此外，存储在价值函数存储部404中的价值函数Q也可以在与其他机器学习部400之间共享。如果在多个机器学习部400之间共享价值函数Q，则能够通过各机器学习部400分散地进行强化学习，因此，能够提升强化学习的效率。

优化行为信息输出部405根据价值函数更新部4022进行Q学习而进行了更新的价值函数Q，生成用于使滤波器130进行价值Q(S、A)为最大的动作的行为信息A(以下，称为“优化行为信息”)。

更具体来说，优化行为信息输出部405取得价值函数存储部404存储的价值函数Q。如上所述该价值函数Q是通过价值函数更新部4022进行Q学习而被更新的函数。并且，优化行为信息输出部405根据价值函数Q，生成行为信息，对滤波器130输出所生成的行为信息。该优化行为信息与行为信息输出部403在Q学习的过程中输出的行为信息一样，包含修正滤波器130的传递函数的各系数a_i、b_j的信息。

在滤波器130中，根据该行为信息来修正传递函数F(s)的各系数a_i、b_j。

机器学习部400可以进行动作，以便通过以上的动作进行滤波器130的传递函数F(s)的各系数a_i、b_j的优化，抑制机械端的振动。

像以上那样，通过利用本发明涉及的机器学习部400，可以使滤波器130的参数调整简化。

以上，对包含在控制装置10中的功能块进行了说明。

为了实现这些功能块，控制装置10具有CPU(Central Processing Unit，中央处理单元)等运算处理装置。此外，控制装置10还具有存储应用软件或OS(Operating System，操作系统)等各种控制用程序的HDD(Hard Disk Drive，硬盘驱动器)等辅助存储装置、存储运算处理装置执行程序之后暂时需要的数据的RAM(Random Access Memory，随机存取存储器)这样的主存储装置。

并且，在控制装置10中，运算处理装置从辅助存储装置中读入应用软件或OS，一边在主存储装置上展开读入的应用软件或OS，一边进行根据这些应用软件或OS的运算处理。此外，根据该运算结果，来控制各装置具有的各种硬件。由此，实现本实施方式的功能块。也就是说，本实施方式可以通过硬件与软件协作来实现。

关于机器学习部400，由于伴随机器学习的运算量增多，因此例如利用在个人计算机搭载GPU(Graphics Processing Units，图形处理器)，称为GPGPU(General-Purposecomputing on Graphics Processing Units，通用图形处理器)的技术，在将GPU用于伴随机器学习的运算处理时可以进行高速处理。并且，为了进行更高速的处理，可以使用多台搭载了这样的GPU的计算机来构筑计算机集群，通过包含在该计算机集群中的多个计算机来进行并列处理。

接下来，参照图12的流程对本实施方式中的Q学习时的机器学习部400的动作进行说明。

在步骤S11中，状态信息取得部401从伺服控制部100以及频率特性计算部300取得最初的状态信息S。

使用频率发生变化的正弦波即速度指令，来驱动滤波器130的传递函数是传递函数H(s)的伺服控制部100，由此，从频率特性计算部300取得最初开始Q学习的时间点的状态S₀下的输入输出增益(振幅比)G(S₀)以及相位延迟D(S₀)。速度指令和检测速度被输入到频率特性计算部300，从频率特性计算部300输出的输入输出增益(振幅比)G(S₀)、以及相位延迟D(S₀)作为最初的状态信息输入到状态信息取得部401。频率特性计算部300根据状态S₀下的伺服控制部100的数学公式2所示的传递函数L₁(s)，来计算输入输出增益(振幅比)G(S₀)以及相位延迟D(S₀)。由初始设定部500设定的滤波器130的传递函数H(s)的各系数ω_c、τ、k作为最初的状态信息发送给状态信息取得部401。如已经说明那样，通过设数学公式1的传递函数F(s)的a₀、b₀＝ω_c ²、a₁＝2τω_c、b₁＝2kτω_c、a₂＝1、b₂＝1、a₃～a_m＝0、b₃～b_m＝0，可以获得数学公式3的传递函数H(s)。

在步骤S12中，状态信息取得部401求出使用滤波器特性去除部4011，去除由初始设定部500设定的滤波器130的滤波器特性时的、状态S₀下的、输入输出增益(振幅比)以及相位延迟的频率特性。求出的输入输出增益(振幅比)以及相位延迟输出给回报输出部4021以及行为信息生成部4023。如上所述，该状态信息S是与Q学习中的状态相当的信息。

在步骤S13中，行为信息生成部4023生成新的行为信息A，将生成的新的行为信息A经由行为信息输出部403输出给滤波器130。行为信息生成部4023根据所述的策略，输出新的行为信息A。另外，接收到行为信息A的伺服控制部100通过根据接收到的行为信息对当前的状态S有关的滤波器130的传递函数F(s)的各系数a_i、b_j进行了修正的状态S’，使用频率发生变化的正弦波即速度指令来驱动伺服电动机150。如上所述，该行为信息与Q学习中的行为A相当。另外，在学习开始时的状态S₀下，关于滤波器130的传递函数，传递函数F(s)的各系数a_i、b_j设定为传递函数H(s)的各系数，在学习开始时的状态S₀后的下一状态S’下，行为信息生成部4023根据传递函数H(s)的各系数对传递函数F(s)的各系数a_i、b_j进行修正。

在步骤S14中，状态信息取得部401作为新的状态信息而从新的状态S’下的、输入输出增益(振幅比)G(S’)、以及相位延迟D(S’)和滤波器130中取得传递函数F(s)的各系数a_i、b_j。取得的新的状态信息输出给回报输出部4021。

在步骤S15中，回报输出部4021判断状态S’下的各频率的输入输出增益G(S’)是否为标准模型的各频率的输入输出增益Gb以下。如果各频率的输入输出增益G(S’)比标准模型的各频率的输入输出增益Gb大(步骤S15否)，则在步骤S16中，回报输出部4021将回报设为第1负值，返回到步骤S13。

关于回报输出部4021，如果状态S’下的各频率的输入输出增益G(S’)是标准模型的各频率的输入输出增益Gb以下(步骤S15是)，则在相位延迟D(S’)比相位延迟D(S)小时给予正回报，在相位延迟D(S’)比相位延迟D(S)大时给予负回报，在相位延迟D(S’)与相位延迟D(S)相比没有变化时给予零回报。如上所述，决定回报以使相位延迟变小的方法例如列举三种方法，但是在以下的示例中列举第一方法进行说明。另外，关于状态S在学习开始时为状态S₀。

在步骤S17中，具体来说，例如，在图3的相位线图中，在从状态S成为状态S’的情况下，当相位延迟为180度时的频率变小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021通过步骤S18，将回报值设为第2负值。另外，第2负值的绝对值设定得比第1负值小。在从状态S成为状态S’的情况下，当相位延迟为180度时的频率变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021通过步骤S19将回报值设为正值。此外，在从状态S成为状态S’的情况下，当相位延迟为180度时的频率不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021通过步骤S20将回报值设为零值。

在步骤S18、步骤S19以及步骤S20中的某一个结束时，在步骤S21中，根据在该某一步骤计算出的回报值，价值函数更新部4022对存储在价值函数存储部404中的价值函数Q进行更新。然后，再次返回到步骤S11，重复上述的处理，价值函数Q收敛为适当值。另外，可以以重复规定次数的上述处理、或重复规定时间的上述处理为条件来结束处理。

另外，步骤S21例示了在线更新，也可以替换在线更新而置换成批量更新或小批量更新。

以上，通过参照图12所说明的动作，在本实施方式中，通过利用机器学习部400，获得可以取得滤波器130的传递函数F(s)的各系数a_i、b_j的调整用的、适当的价值函数，可以使滤波器130的传递函数F(s)的各系数a_i、b_j的优化简化这样的效果。

接下来，参照图13的流程，对优化行为信息输出部405进行的优化行为信息生成时的动作进行说明。

首先，在步骤S21中，优化行为信息输出部405取得存储在价值函数存储部404中的价值函数Q。如上所述价值函数Q是通过价值函数更新部4022进行Q学习而被更新的函数。

在步骤S22中，优化行为信息输出部405根据该价值函数Q，生成优化行为信息，将生成的优化行为信息输出给滤波器130。

此外，通过参照图13所说明的动作，在本实施方式中，可以根据由机器学习部400进行学习而求出的价值函数Q，生成优化行为信息，根据该优化行为信息，简化当前设定的滤波器130的传递函数F(s)的各系数a_i、b_j的调整，并且可以抑制机械端的振动，可以提升工件加工面的品质。

上述的控制装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外，由上述控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里，所谓通过软件来实现表示计算机通过读入程序来执行从而进行实现。

可以使用各种类型的非临时性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序提供给计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读记录介质的示例包含：磁记录介质(例如，硬盘驱动器)、光-磁记录介质(例如，光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如，掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random access memory)。此外，程序也可以通过各种类型的临时性的计算机可读记录介质(transitory computerreadable medium)而提供给计算机。

上述实施方式是本发明的优选实施方式，但是并非将本发明的范围只限定于上述实施方式，可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。

在上述实施方式中，对由伺服电动机150驱动的机械存在一个共振点的情况进行了说明，但是有时机械存在多个共振点。在机械存在多个共振点时，以与各共振点对应的方式设置多个滤波器，进行串联连接，由此，可以使所有的共振衰减。图14是表示直接连接多个滤波器来构成滤波器的示例的框图。在图14中，当存在m个(m是2以上的自然数)共振点时，滤波器130串联连接m个滤波器130-1～130-m来构成。针对m个滤波器130-1～130-m的各自系数a_i、b_j，依次通过机器学习求出使共振点衰减的最佳值。

此外，在上述的实施方式中，频率特性计算部根据伺服控制装置中频率变化的输入信号和输出信号，来计算伺服控制装置的输入输出增益和输入输出的相位延迟两者，滤波器特性去除部从输入输出增益和输入输出的相位延迟两者中去除初始滤波器的滤波器特性，机器学习部开始滤波器系数的机器学习，使得去除了初始滤波器的滤波器特性的输入输出增益和所述相位延迟两者降低，对上述这样的示例进行了说明。但是，在上述的实施方式中，也可以是频率特性计算部根据伺服控制装置中频率变化的输入信号和输出信号，来计算伺服控制装置的输入输出增益和输入输出的相位延迟中的一个，滤波器特性去除部从输入输出增益和输入输出的相位延迟中的一个之中，去除初始滤波器的滤波器特性，机器学习部开始滤波器系数的机器学习，使得去除了初始滤波器的滤波器特性的输入输出增益和相位延迟中的一个降低。

此外，控制装置的结构除了图1的结构以外还存在以下的结构。

<机器学习部设置于伺服控制部的外部的变形例>

图15是表示控制装置的其他结构例的框图。图15所示的控制装置10A与图1所示的控制装置10的不同点在于：n(n是2以上的自然数)个伺服控制部100A-1～100A-n经由网络600与n个机器学习部400A-1～400A-n连接，并且分别具有频率生成部200和频率特性计算部300。机器学习部400A-1～400A-n具有与图6所示的机器学习部400相同的结构。伺服控制部100A-1～100A-n分别对应于伺服控制装置，此外机器学习部400A-1～400A-n分别对应于机器学习装置。另外，当然也可以将频率生成部200、频率特性计算部300、初始设定部500中的某一个或多个设置于伺服控制部100A-1～100A-n的外部。

这里，伺服控制部100A-1与机器学习部400A-1为一对一的组，能够通信地连接。关于伺服控制部100A-2～100A-n和机器学习部400A-2～400A-n也与伺服控制部100A-1和机器学习部400A-1一样地连接。在图15中，伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n的n个组经由网络600而连接，而关于伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n这n个组，各组的伺服控制部与机器学习部可以经由连接接口而直接连接。这些伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n这n个组，例如可以在同一个工厂中设置多组，也可以分别设置于不同的工厂中。

另外，网络600例如是在工厂内构建的LAN(Local Area Network：局域网)、互联网、公共电话网、或者它们的组合。对于网络600中具体的通信方式是有线连接还是无线连接等没有特别限定。

<系统结构的自由度>

在上述的实施方式中，伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n分别为一对一的组以能够通信的方式进行连接，但例如一台机器学习部也可以经由网络600与多台伺服控制部能够通信地连接，实施各伺服控制部的机器学习。

此时，可以将一台机器学习部的各功能作为适当分散于多个服务器的分散处理系统。此外，一台机器学习部的各功能也可以在云上利用虚拟服务器功能等来实现。

此外，当存在与n台相同型号名称、相同规格、或者相同系列的伺服控制部100A-1～100A-n分别对应的n个机器学习部400A-1～400A-n时，可以共享各机器学习部400A-1～400A-n中的学习结果。这样，能够构建更理想的模型。

Claims

1.一种机器学习系统，其进行对设置于伺服控制装置的至少一个滤波器的系数进行优化的机器学习，所述伺服控制装置控制电动机，其特征在于，

所述机器学习系统具有：

初始设定部，其设定所述滤波器的系数的初始值，以使至少一个特定的频率成分衰减；

频率特性计算部，其根据所述伺服控制装置中频率变化的输入信号和输出信号，来计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个；以及

滤波器特性去除部，其在机器学习开始时，从根据所述输出信号和所述输入信号而获得的所述输入输出增益与所述输入输出的相位延迟中的至少一个之中，去除所述初始滤波器的滤波器特性，其中，所述输出信号是使用由所述初始设定部对所述滤波器设定了所述初始值的初始滤波器而获得的，

2.根据权利要求1所述的机器学习系统，其特征在于，

所述频率变化的输入信号是频率变化的正弦波，

该正弦波由频率生成部生成，该频率生成部设置于所述伺服控制装置内或所述伺服控制装置外。

3.根据权利要求1或2所述的机器学习系统，其特征在于，

所述机器学习系统具有机器学习部，

所述机器学习部具有：

状态信息取得部，其取得状态信息，其中，该状态信息包含从所述频率特性计算部输出的所述伺服控制装置的输入输出增益和输入输出的相位延迟、以及所述初始滤波器的系数或所述机器学习开始后的所述滤波器的系数；

行为信息输出部，其输出包含在所述状态信息中的行为信息，该行为信息包含所述初始滤波器的系数或所述机器学习开始后的所述滤波器的系数的调整信息；

回报输出部，其输出强化学习中的回报值，该强化学习是基于从所述状态信息取得部输出的所述输入输出增益和所述输入输出的相位延迟的学习；以及

价值函数更新部，其根据由所述回报输出部输出的回报值、所述状态信息、所述行为信息来更新行为价值函数。

4.根据权利要求3所述的机器学习系统，其特征在于，

所述频率特性计算部输出所述输入输出增益和所述输入输出的相位延迟，

5.根据权利要求4所述的机器学习系统，其特征在于，

所述标准模型的输入输出增益在规定的频率以上是固定值。

6.根据权利要求4或5所述的机器学习系统，其特征在于，

所述回报输出部计算回报以使所述输入输出的相位延迟变小。

7.根据权利要求3～6中任一项所述的机器学习系统，其特征在于，

所述机器学习系统具有：优化行为信息输出部，其根据由所述价值函数更新部更新了的价值函数来输出所述系数的调整信息。

8.一种控制装置，其特征在于，具有：

权利要求1～7中任一项所述的机器学习系统；以及

控制电动机的伺服控制装置，该伺服控制装置具有使特定的频率成分衰减的至少一个滤波器。

9.一种机器学习系统的机器学习方法，该机器学习系统进行对设置于伺服控制装置的至少一个滤波器的系数进行优化的机器学习，所述伺服控制装置控制电动机，所述滤波器使至少一个特定的频率成分衰减，其特征在于，