CN111830904A

CN111830904A - 机器学习装置、控制装置以及机器学习方法

Info

Publication number: CN111830904A
Application number: CN202010287685.8A
Authority: CN
Inventors: 恒木亮太郎; 猪饲聪史
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-04-15
Filing date: 2020-04-13
Publication date: 2020-10-27
Anticipated expiration: 2040-04-13
Also published as: JP2020177257A; CN111830904B; US11256220B2; DE102020203758A1; JP7000373B2; US20200326670A1

Abstract

本发明提供一种机器学习装置、控制装置以及机器学习方法。机器学习装置进行如下强化学习：在多个条件下驱动对电动机进行控制的伺服控制装置，并对设置于伺服控制装置的使至少一个特定频率成分衰减的至少一个滤波器的系数进行优化，具有：状态信息取得部，其取得状态信息，状态信息包含频率特性计算装置的计算结果、滤波器的系数、多个条件；行为信息输出部，其将行为信息输出给滤波器，行为信息包含状态信息所包含的系数的调整信息；回报输出部，其根据计算结果分别求出多个条件下的评价值，并将这些评价值之和的值作为回报来进行输出；价值函数更新部，其根据由回报输出部输出的回报值、状态信息、行为信息来更新行为价值函数。

Description

机器学习装置、控制装置以及机器学习方法

技术领域

本发明涉及进行对至少一个滤波器的系数进行优化的强化学习的机器学习装置、包含该机器学习装置的控制装置、以及机器学习方法，其中，所述滤波器设置于对电动机进行控制的伺服控制装置，并使至少一个特定频率成分衰减。

背景技术

例如专利文献1～专利文献4记载有对滤波器的特性进行调整的装置。

专利文献1中记载有一种机器人的振动降低装置，其具有：机器人轴驱动源，其设置于机器人的各轴的每一个，与输入控制信号对应地驱动机器人轴；信号处理单元，其从控制信号中除去机器人轴的固有频率对应的频率成分，振动降低装置通过将由信号处理单元进行了信号处理而得的控制信号施加给机器人轴驱动源，来降低机器人轴所产生的振动，该振动降低装置设置有：神经网络，其通过输入机器人各轴的当前位置，来运算并输出机器人各轴的固有频率，并将这些固有频率施加给信号处理单元，该机器人的振动降低装置从控制信号中除去从神经网络输出的机器人轴的固有频率对应的频率成分。并且，专利文献1中还记载有如下内容：信号处理单元是陷波滤波器，与从神经网络输出的机器人轴的固有频率对应地改变陷波频率。

专利文献2中记载有一种XY平台的控制装置，该XY平台在工作台上配备了纵横交叉的可动引导件，并且在其交叉点配备了移动平台，该控制装置构成为包含：可变陷波滤波器，其能够可变地设定用于吸收移动平台的共振运动的增益的陷波频率；切换单元，其输入工作台上移动平台的位置信息，输出切换陷波滤波器的陷波频率的切换信号。

专利文献3中记载有一种基于实施方式的具有运算处理部的伺服控制装置，所述运算处理部执行以下内容：指令采样，根据转矩指令或者电流指令，控制对进行旋转运动或者往复运动的运动体进行驱动的伺服放大器，在进行速度控制增益的调整时，对向伺服放大器的转矩指令或者电流指令进行采样；振荡频带判断，在进行速度控制增益的调整时，将转矩指令或者电流指令的采样值变换为频率下的运动体的转矩强度，并将运动体的转矩强度为峰值的频带判断为振荡频带；滤波器设定，在进行速度控制增益的调整时，设定带阻滤波器以使振荡频带中运动体的转矩强度衰减。

专利文献4中记载有一种伺服控制装置，其具有：速度指令制作部、转矩指令制作部、速度检测部、速度控制环、速度控制环增益设定部、除去转矩指令值的特定频带的至少一个滤波器、向速度控制环进行正弦波扫描的正弦波干扰输入部、推定速度控制环输入输出信号的增益和相位的频率特性计算部、共振频率检测部、与共振频率对应地调整滤波器的滤波器调整部、增益调整部、在线自动地实施共振频率的检测和速度控制环增益的调整以及滤波器的调整的时序控制部、调整状态显示部，调整状态表示部显示时序控制部的调整阶段以及进展状况。

现有技术文献

专利文献1：日本特开平07-261853号公报

专利文献2：日本特开昭62-126402号公报

专利文献3：日本特开2013-126266号公报

专利文献4：日本特开2017-022855号公报

在决定一个轴的伺服控制装置的陷波滤波器等滤波器特性时，在机器特性受其他轴的位置或者其他轴的伺服控制装置的速度增益的影响时，即使以其他轴的某个位置或者某个速度增益来优化滤波器特性，也会有时因其他位置或者速度增益而振荡。此外，即使在不受其他轴的位置影响时，也会有时因本轴的位置而振荡。

发明内容

因此，希望即使在机器特性因本轴位置而发生变化时或者受其他轴影响时，也能进行滤波器特性的优化调整。

(1)本公开的一方式是一种机器学习装置，进行如下强化学习：在多个条件下驱动对电动机进行控制的伺服控制装置，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器的系数进行优化，其中，所述机器学习装置具有：

状态信息取得部，其取得状态信息，所述状态信息包含频率特性计算装置的计算结果、所述滤波器的系数、所述多个条件，其中，所述频率特性计算装置计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个；

行为信息输出部，其将行为信息输出给所述滤波器，其中，所述行为信息包含所述状态信息所包含的所述系数的调整信息；

回报输出部，其根据所述计算结果来分别求出所述多个条件下的评价值，并将这些评价值之和的值作为回报来进行输出；以及

价值函数更新部，其根据由所述回报输出部输出的回报的值、所述状态信息、所述行为信息来更新行为价值函数。

(2)本公开的其他方式是一种控制装置，其具有：

上述(1)的机器学习装置；

控制电动机的伺服控制装置，该伺服控制装置具有使至少一个特定频率成分衰减的至少一个滤波器；以及

频率特性计算装置，其计算所述伺服控制装置中所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个。

(3)本公开的另一其他方式是一种机器学习装置的机器学习方法，该机器学习装置进行如下强化学习：在多个条件下驱动对电动机进行控制的伺服控制装置，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器的系数进行优化，其中，在所述机器学习方法中，

取得状态信息，所述状态信息包含计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个的计算结果、所述滤波器的系数、所述多个条件，

将行为信息输出给所述滤波器，其中，所述行为信息包含所述状态信息所包含的所述系数的调整信息，

根据所述计算结果来分别求出所述多个条件下的评价值，并将这些评价值之和的值作为回报来进行求出，

根据求出的所述回报的值、所述状态信息、所述行为信息来更新行为价值函数。

发明效果

根据本公开的各方式，即使在机床、机器人、工业机械等机械特性因条件而发生变化时，例如机械特性因一个轴的位置而发生变化时或者机械特性受其他轴影响时，也能够进行滤波器特性的优化调整。

附图说明

图1是表示包含本公开的一实施方式的机器学习装置的控制装置的框图。

图2是表示成为输入信号的速度指令与成为输出信号的检测速度的图。

图3是表示输入信号与输出信号的振幅比和相位延迟的频率特性的图。

图4是表示控制装置的控制对象的一例的、表示5轴机床的立体图。

图5是表示X轴左端的X轴的频率特性的一例的特性图。

图6是表示X轴中央的X轴的频率特性的一例的特性图。

图7是表示X轴右端的X轴的频率特性的一例的特性图。

图8是表示因一个轴的伺服刚性使得另一个轴的输入输出增益的频率特性发生变化的情况的示意特性图。

图9是表示因一个轴的位置使得另一个轴的输入输出增益的频率特性发生变化的情况的示意特性图。

图10是表示本公开的一实施方式的机器学习部的框图。

图11是作为用于计算输入输出增益的标准模型的模型的框图。

图12是表示标准模型的伺服控制部与学习前以及学习后的伺服控制部的输入输出增益的频率特性的特性图。

图13是表示滤波器的带宽与增益以及相位的关系的特性图。

图14是表示滤波器的衰减系数与增益以及相位的关系的特性图。

图15是表示本实施方式中Q学习时的机器学习部的动作的流程图。

图16是对本发明的一实施方式的机器学习部的优化行为信息输出部的动作进行说明的流程图。

图17是表示直接连接多个滤波器来构成滤波器的示例的框图。

图18是表示控制装置的其他结构例的框图。

符号说明

10，10A 控制装置

100，100-1～100-n 伺服控制部

110 减法器

120 速度控制部

130 滤波器

140 电流控制部

150 伺服电动机

200 频率生成部

300 频率特性计算部

400 机器学习部

400A-1～400A-n 机器学习部

401 状态信息取得部

402 学习部

403 行为信息输出部

404 价值函数存储部

405 优化行为信息输出部

500 控制对象

600 网络

具体实施方式

以下，使用附图对本公开的实施方式进行详细说明。

图1是表示包含本公开的一实施方式的机器学习装置的控制装置的框图。控制装置10的控制对象500例如是机床、机器人、工业机器。控制装置10也可以设置为机床、机器人、工业机器等控制对象的一部分。

控制装置10具有：伺服控制部100、频率生成部200、频率特性计算部300以及机器学习部400。伺服控制部100对应于伺服控制装置，频率特性计算部300对应于频率特性计算装置，机器学习部400对应于机器学习装置。

另外，频率生成部200、频率特性计算部300以及机器学习部400中的一个或者多个可以设置在伺服控制部100内。频率特性计算部300可以设置于机器学习部400内。

伺服控制部100具有：减法器110、速度控制部120、滤波器130、电流控制部140以及伺服电动机150。减法器110、速度控制部120、滤波器130、电流控制部140以及伺服电动机150构成速度反馈环。伺服电动机150可以使用进行直线运动的线性电动机、具有旋转轴的电动机等。伺服电动机150可以设置为控制对象500的一部分。

减法器110求出输入的速度指令与速度反馈的检测速度之差，将该差作为位置偏差输出给速度控制部120。

速度控制部120将积分增益K1v乘以速度偏差进行了积分而得的值与比例增益K2v乘以速度偏差而得的值相加，作为转矩指令输出给滤波器130。

滤波器130是使特定频率成分衰减的滤波器，例如使用陷波滤波器或者低通滤波器。有时在电动机驱动的机床等机械中存在共振点，在伺服控制部100共振增大。通过使用陷波滤波器等滤波器可以降低共振。将滤波器130的输出作为转矩指令输出给电流控制部140。

数学公式1(以下表示为数学式1)表示作为滤波器130的陷波滤波器的传递函数F(s)。参数示出了系数ω_c、τ、k。

数学式1的系数k是衰减系数，系数ω_c是中心角频率，系数τ是特定频带。将中心频率设为fc，将带宽设为fw，通过ω_c＝2πfc来表示系数ω_c，通过τ＝fw/fc来表示系数τ。

【数学式1】

电流控制部140根据转矩指令生成用于取得伺服电动机150的电流指令，将该电流指令输出给伺服电动机150。

在伺服电动机150是线性电动机时，通过设置于伺服电动机150的线性标尺(未图示)来检测可动部的位置，通过对速度检测值进行微分来求出速度检测值，将求出的速度检测值作为速度反馈而输入到减法器110。

在伺服电动机150是具有旋转轴的电动机时，通过设置于伺服电动机150的旋转编码器(未图示)来检测旋转角度位置，将速度检测值作为速度反馈而输入到减法器110。

如上所述构成伺服控制部100，但是为了对滤波器的优化参数进行机器学习，控制装置10还具有：频率生成部200、频率特性计算部300以及机器学习部400。

频率生成部200一边使频率变化一边将正弦波信号作为速度指令，输出给伺服控制部100的减法器110以及频率特性计算部300。

频率特性计算部300使用由频率生成部200生成的、成为输入信号的速度指令(正弦波)、成为从旋转编码器(未图示)输出的输出信号的检测速度(正弦波)或者成为从线性标尺输出的输出信号的检测位置的积分(正弦波)，按速度指令所规定的各频率，求出输入信号与输出信号的振幅比(输入输出增益)和相位延迟。图2是表示成为输入信号的速度指令和成为输出信号的检测速度的图。图3是表示输入信号与输出信号的振幅比和相位延迟的频率特性的图。

如图2所示，从频率生成部200输出的速度指令使频率发生变化，获得图3所示那样的、关于输入输出增益(振幅比)和相位延迟的频率特性。

机器学习部400使用从频率特性计算部300输出的输入输出增益(振幅比)和相位延迟，对滤波器130的传递函数的系数ω_c、τ、k进行机器学习(以下，称为学习)。可以在出库之前进行机器学习部400的学习，也可以在出库后进行再学习。

作为控制对象500的机床例如是具有X轴、Y轴以及Z轴的直线3轴、B轴、C轴的旋转2轴的5轴加工机。图4是表示控制装置10的控制对象的一例的、表示5轴机床的立体图。图4示出了伺服电动机150包含在成为控制对象500的机床中的示例。

作为控制对象500的图4所示的机床具有使工作台511、521以及531分别在X轴方向、Z轴方向以及Y轴方向上进行直线移动的线性电动机510、520以及530。Y轴的线性电动机530装载于Z轴的线性电动机520上。此外，机床具有使工作台541以及551分别在C轴方向、B轴方向上旋转的内置电动机(built in motor)540以及550。关于线性电动机510、520以及530，工作台511、521以及531为可动部。此外，关于内置电动机540以及550，工作台541以及551为可动部。因此，线性电动机510、520以及530与内置电动机540以及550不经由齿轮等而是对工作台511、521以及531、工作台541以及551进行直接驱动。线性电动机510、520以及530、内置电动机540以及550分别对应于伺服电动机150。

另外，关于工作台511、521以及531，可以将电动机的旋转轴经由联轴器与滚珠丝杠连接，通过与该滚珠丝杠螺合的螺母来进行驱动。

以下，对机器学习部400的结构以及动作的详细情况进行进一步说明。以下的说明中作为控制对象500以图4所示的机床为例进行说明。

＜机器学习部400＞

在以下的说明中对机器学习部400进行强化学习的情况进行说明，但是机器学习部400进行的学习并不特别限定于强化学习，例如，本发明还能够应用于进行监督学习的情况。

在进行机器学习部400所包含的各功能块的说明之前，首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习部400)观测环境状态，选择某个行为，根据该行为环境发生变化。随着环境的变化，提供某种回报，智能体学习更好的行为选择(决策)。

监督学习表示完全的正确答案，而强化学习中的回报大多是基于环境的部分变化的片段值。因此，智能体学习选择行为使得到将来的回报合计为最大。

这样，在强化学习中通过学习行为，在行为给予环境的相互作用基础上学习适当的行为，即学习用于使将来获得的回报为最大的要学习的方法。这表示在本实施方式中，可以获得例如选择用于抑制机械端的振动的行为信息这样的、影响未来的行为。

这里，作为强化学习可以使用任意的学习方法，在以下的说明中，以在某种环境状态S下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为A的价值Q(S、A)的方法。

Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为最佳行为为目的。

但是，在最初开始Q学习的时间点，对于状态S与行为A的组合来说，完全不知晓价值Q(S、A)的正确值。因此，智能体在某种状态S下选择各种行为A，针对当时的行为A，根据给予的回报，选择更好的行为，由此，继续学习正确的价值Q(S、A)。

此外，想要使将来获得的回报的合计最大化，因此，目标是最终成为Q(S、A)＝E[Σ(γ^t)r_t]。这里，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的合计。该数学式中的期待值是按最佳行为状态发生变化时的期望值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边搜索一边进行强化学习。这样的价值Q(S、A)的更新式例如可以通过如下的数学公式2(以下表示为数学式2)来表示。

【数学式2】

在上述的数学式2中，S_t表示时刻t的环境状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。此外，带有max的项是：在状态S_t+1下，将γ乘以选择出当时知道的Q值最高的行为A时的Q值而得的。这里，γ是0＜γ≤1的参数，称为折扣率。此外，α是学习系数，设α的范围为0＜α≤1。

上述的数学式2表示如下方法：根据尝试A_t的结果而反馈回来的回报r_t+1，更新状态S_t下的行为A_t的价值Q(S_t、A_t)。

该更新式表示了：若行为A_t导致的下一状态S_t+1下的最佳行为的价值max_a Q(S_t+1、A)比状态S_t下的行为A_t的价值Q(S_t、A_t)大，则增大Q(S_t、A_t)，反之如果小，则减小Q(S_t、A_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中，尽管该差因折扣率γ和回报r_t+1的存在形式而变化，但基本上是某种状态下的最佳行为价值传播至其前一个状态下的行为价值的结构。

这里，Q学习存在如下方法：制作针对所有状态行为对(S、A)的Q(S、A)的表格，来进行学习。但是，有时为了求出所有状态行为对的Q(S、A)的值状态数会过多，使得Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体来说，可以使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此通过适当的神经网络来近似价值函数Q来计算价值Q(S、A)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。另外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著[online]，[平成29年1月17日检索]，因特网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

机器学习部400进行以上说明的Q学习。具体来说，机器学习部400学习如下价值Q：将滤波器130的传递函数的各系数ω_c、τ、k的值、从频率特性计算部300输出的输入输出增益(增幅比)和相位延迟作为状态S，将该状态S有关的、滤波器130的传递函数的各系数ω_c、τ、k的值的调整选择为行为A。

机器学习部400根据滤波器130的传递函数的各系数ω_c、τ、k，观测状态信息S来决定行为A，该状态信息S包含使用所述频率发生变化的正弦波即速度指令来驱动伺服控制部100而从频率特性计算部300获得的、各频率中每一个的输入输出增益(增幅比)和相位延迟。机器学习部400每当进行行为A时返回回报。

机器学习部400例如试错性地搜索最佳行为A以使到将来的回报合计为最大。通过这样，机器学习部400能够对状态S选择最佳行为A(即，滤波器130的传递函数的最佳系数ω_c、τ、k)，其中，状态S包含根据滤波器130的传递函数的各系数ω_c、τ、k，使用频率发生变化的正弦波即速度指令驱动伺服控制部100而从频率特性计算部300获得的、各频率中每一个的输入输出增益(增幅比)和相位延迟。

即，根据由机器学习部400学习到的价值函数Q，选择应用于某种状态S有关的滤波器130的传递函数的各系数ω_c、τ、k的行为A中的、Q值为最大那样的行为A，由此，能够选择通过执行生成频率变化的正弦波信号的程序而产生的机械端的振动为最小那样的行为A(即，滤波器130的传递函数的各系数ω_c、τ、k)。

状态S包含：滤波器130的传递函数的各系数ω_c、τ、k的值、通过按多个条件的每一个条件驱动伺服控制部而从频率特性计算部300输出的每一个条件的输入输出增益(振幅比)与相位延迟、以及多个条件。

机器学习部400根据包含在状态S中的、多个条件的各条件下的输入输出增益(振幅比)与相位延迟，在各条件下求出评价值，通过将各条件下的评价值相加来求出回报。关于求出回报的方法的详细情况，将在后面进行描述。

行为A是滤波器130的传递函数的各系数ω_c、τ、k的修正信息。

多个条件例如可以列举以下3个示例。

(a)由伺服控制部100控制的轴(例如X轴)的多个位置

多个位置是通过伺服控制部100而变化的多个位置，例如是以200mm等规定间距而规定的轴的多个位置。也可以是像轴的左端、中央、右端那样决定出的多个位置。多个位置可以是4个点以上。

这里，轴的位置在是机床时例如对应于工作台的位置。关于由伺服控制部100控制的X轴的位置，在伺服电动机150是线性电动机时，通过由线性标尺检测出的、线性电动机的可动部(工作台)的检测位置来进行判断。将可动部的检测位置从线性标尺输入到机器学习部400。在伺服电动机150是具有旋转轴的电动机时，例如电动机的旋转轴经由联轴器与滚珠丝杠连接，由与滚珠丝杠螺合的螺母来驱动工作台。因此，关于由伺服控制部100控制的轴的位置，由安装在工作台的线性标尺通过工作台的移动来进行检测，通过该检测位置来进行判断。工作台的检测位置(轴的位置)作为状态S而输入到机器学习部400。图1中示出了将安装在作为控制对象500的一部分工作台的工作台的检测位置(轴的位置)输入到机器学习部400的情况。状态S除了滤波器130的传递函数的各系数ω_c、τ、k的值、以及按多个条件(X轴的多个位置)的每一个条件驱动伺服控制部而从频率特性计算部300输出的、每一个条件的输入输出增益(振幅比)与相位延迟之外，还包含与各条件对应的、工作台的检测位置(轴的位置)。

图5～图7是表示X轴的左端、中央、右端的X轴的频率特性(输入输出增益、相位延迟的频率特性)的一例的特性图。如图5以及图7的输入输出增益的频率特性的虚线包围的区域所示，在X轴的左端以及右端共振增大，如图6的输入输出增益的频率特性的虚线包围的区域所示，在X轴的中央共振小。

机器学习部400根据状态S所包含的、各条件对应的、X轴的多个位置(例如，X轴的左端、中央、右端)的输入输出增益(振幅比)与相位延迟，来求出各条件下的评价值，通过评价值之和求出回报。

(b)对与伺服控制部100控制的轴(例如Y轴)不同的轴(例如Z轴)进行控制的伺服控制部的多个速度增益

图8是表示因一个轴的伺服刚性使得另一个轴的输入输出增益的频率特性发生变化的情况的示意特性图。这里，所谓伺服刚性表示相对于干扰的强度，图8中示出了伺服刚性越低，因一个轴的伺服刚性使得另一个轴的输入输出增益的频率特性的变化越大。控制Z轴的伺服控制部的速度增益小时，Y轴的伺服刚性低，控制Z轴的伺服控制部的速度增益大时，Y轴的伺服刚性高。

因此，考虑到图8所示的伺服刚性的特性来设定多个速度增益。

另外，这里对控制Z轴的伺服控制部的速度增益不同时的、Y轴的频率特性进行了说明，也可以设定控制Z轴的伺服控制部的3个以上的速度增益。

将控制Z轴的伺服控制部的速度增益作为状态S输入到对Y轴的伺服控制部100的滤波器的系数进行优化的机器学习部400。状态S除了滤波器130的传递函数的各系数ω_c、τ、k的值、以及按多个条件(多个速度增益)的每一个条件驱动伺服控制部而从频率特性计算部300输出的、每一个条件的输入输出增益(振幅比)与相位延迟之外，还包含各条件对应的、控制Z轴的伺服控制部的速度增益。

机器学习部400根据状态S所包含的、各条件对应的、控制Z轴的伺服控制部的速度增益中Y轴的输入输出增益(振幅比)与相位延迟，来求出各条件下的评价值，通过评价值之和求出回报。

(c)与伺服控制部100控制的轴(例如Z轴)不同的轴(例如Y轴)的多个位置

由伺服控制部100控制的一个轴的频率特性有时因其他轴的位置而发生变化。例如图4所示，Y轴装载于Z轴之上，有时因Y轴的多个位置使得Z轴的频率特性发生变化。多个位置因Y轴的伺服控制部(未图示)发生变化，例如是以200mm等规定间距而规定的轴上的多个位置。也可以是像Y轴的上端、下端那样决定出的多个位置。多个位置也可以是3个点以上。关于由伺服控制部控制的Y轴的位置，在伺服电动机150是线性电动机时，通过由线性标尺检测出的、线性电动机的可动部的检测位置来进行判断。将可动部的检测位置从线性标尺输入到对Z轴的伺服控制部100的滤波器的系数进行优化的机器学习部400。

在伺服电动机150是具有旋转轴的电动机时，例如电动机的旋转轴经由联轴器与滚珠丝杠连接，由与滚珠丝杠螺合的螺母驱动控制对象的工作台。因此，关于由伺服控制部控制的Y轴的位置，由安装在工作台的线性标尺通过工作台的移动来进行检测，通过该检测位置来进行判断。工作台的检测位置作为状态S输入到对Z轴的伺服控制部的滤波器的系数进行优化的机器学习部400。

图9是表示因一个轴的位置使得另一个轴的输入输出增益的频率特性发生变化的情况的示意特性图。图9示出了因一个轴的位置(图9的轴位置A与轴位置B)使得另一个轴的输入输出增益的上升的位置以及大小变化的情况。

状态S除了滤波器130的传递函数的各系数ω_c、τ、k的值、以及按多个条件(Y轴的多个位置)的每一个条件驱动伺服控制部而从频率特性计算部300输出的、每一个条件的输入输出增益(振幅比)与相位延迟之外，还包含各条件对应的、Y轴工作台的检测位置(轴的位置)。

机器学习部400根据状态S所包含的、Y轴的各个位置(例如，Y轴的上端、下端)处的Z轴的输入输出增益(振幅比)与相位延迟，在各条件对应的、Y轴的多个位置的各位置处求出评价值，将评价值之和作为回报。

机器学习部400根据状态S所包含的、Y轴的多个位置(例如，Y轴的上端、下端)处的Z轴的频率特性的多个条件的各条件(Y轴的上端或者下端)的、输入输出增益(振幅比)与相位延迟，来求出各条件下的评价值，通过评价值之和求出回报。

在上述的(b)中，对通过控制Z轴的伺服控制部的速度增益使得Y轴的频率特性发生变化的情况进行了说明，但是还存在如下情况：因控制Y轴的伺服控制部的速度增益，使得Y轴之下的Z轴的频率特性发生变化。此外，在上述的(c)中，对由伺服控制部100控制的Z轴的频率特性因Y轴的位置而发生变化的情况进行了说明，但是还存在如下情况：由伺服控制部100控制的Y轴的频率特性因Z轴的位置而发生变化。

使用如上所述那样例示的(a)～(c)的某一个的多个条件中的各评价值之和即回报，机器学习部400进行学习，由此，即使是因多个条件使得频率特性(输入输出增益、相位延迟的频率特性)发生变化的机器，也能够进行滤波器130的传递函数的最佳化的系数ω_c、τ、k的调整。

评价值是在计算出的输入输出增益是标准模型的输入输出增益以下的情况下，相位延迟变小时给予的正值，在相位延迟变大时给予的负值，或在相位延迟不变时给予的零值。标准模型是具有不共振的理想特性的伺服控制部的模型。对于标准模型的输入输出增益将在后面进行描述。

通过利用多个条件下的各评价值之和求出回报，即使在因多个各条件使得输入输出增益的频率特性或者相位延迟发生变化时，也能有效地进行如下学习：进行稳定的滤波器调整的学习。

另外，也可以对多个条件的各条件对应的评价值赋予权重。这样，通过对评价值赋予权重，即使各条件对机器特性给予的影响不同时，也能设定与该影响对应的回报。

例如，在上述的(a)中，将在X轴的左端、中央、右端的位置分别求出的评价值设为Es(L)、Es(C)、Es(R)，将回报设为Re。将评价值Es(L)、Es(C)、Es(R)的权重系数设为系数a、b、c，通过Re＝a×Es(L)+b×Es(C)+c×Es(R)求出回报Re。系数a、b、c可以适当决定，例如，当是难以在X轴的中央产生共振的机床时，相比于系数a、c，可以将系数b设定得小。

在利用各条件对应的各评价值之和求出回报时，有可能一个评价值为负值，而其他评价值可能为正值，回报为正值。

因此，可以仅在所有的评价值的值为0或者正值时，利用各条件对应的各评价值之和来求出回报。然后，当在所有的评价值中哪怕只有一个负值时，使回报为负值。理想的是，该负值为较大的值(例如-∞)，所有的评价值中哪怕只有一个负值，也不选择。通过这样，不论在哪个位置都可以有效进行稳定地调整滤波器的学习。

图10是表示本公开的一实施方式的机器学习部400的框图。

为了进行上述的强化学习，如图10所示，机器学习部400具有：状态信息取得部401、学习部402、行为信息输出部403、价值函数存储部404以及优化行为信息输出部405。学习部402具有：回报输出部4021、价值函数更新部4022以及行为信息生成部4023。

状态信息取得部401从频率特性计算部300取得状态S，其中，状态S包含根据滤波器130的传递函数的各系数ω_c、τ、k，使用速度指令(正弦波)来驱动伺服控制部100而获得的各条件下的输入输出增益(振幅比)和相位延迟。该状态信息S相当于Q学习中的环境状态S。

状态信息取得部401对学习部402输出取得到的状态信息S。

另外，最初开始Q学习的时间点的滤波器130的传递函数的各系数ω_c、τ、k由用户预先生成。在本实施方式中，通过强化学习将用户制作出的滤波器130的传递函数的各系数ω_c、τ、k的初始设定值调整为最佳。

另外，关于系数ω_c、τ、k，在操作员预先调整了机床的情况下，可以将调整完的值作为初始值来进行机器学习。

学习部402是在某种环境状态S下对选择某种行为A时的价值Q(S、A)进行学习的部分。

回报输出部4021是在某种状态S下计算选择了行为A时的回报的部分。

回报输出部4021将在修正了滤波器130的传递函数的各系数ω_c、τ、k的情况下在各条件下计算出的输入输出增益Gs与预先设定的标准模型的各频率中每一个的输入输出增益Gb进行比较。回报输出部4021在计算出的输入输出增益Gs比标准模型的输入输出增益Gb大时，给予第一负评价值。另一方面，回报输出部4021在计算出的输入输出增益Gs是标准模型的输入输出增益Gb以下的情况下，在相位延迟变小时给予正评价值，在相位延迟变大时给予第二负评价值，在相位延迟不变时给予零评价值。另外，理想的是，不选择如下情况：第二负值的绝对值比第一负值的绝对值小，计算出的输入输出增益Gs比标准模型的输入输出增益Gb大。

首先，使用图11和图12对回报输出部4021在计算出的输入输出增益Gs比标准模型的输入输出增益Gb大时，给予负评价值的动作进行说明。

回报输出部4021保存输入输出增益的标准模型。标准模型是具有不共振的理想特性的伺服控制部的模型。标准模型例如可以根据图11所示的模型的惯量Ja、转矩常数K_t、比例增益K_p、积分增益K_I、微分增益K_D进行计算而求出。惯量Ja是电动机惯量与机械惯量的相加值。

图12是表示标准模型的伺服控制部与学习前和学习后的伺服控制部100的输入输出增益的频率特性的特性图。如图12的特性图所示，标准模型具有：区域A、区域B，其中，区域A是成为一定的输入输出增益以上，例如-20dB以上的理想的输入输出增益的频率区域，区域B是成为不足一定的输入输出增益的频率区域。在图12的区域A中，通过曲线MC₁(粗线)来表示标准模型的理想的输入输出增益。在图12的区域B中，通过曲线MC₁₁(粗虚线)来表示标准模型的理想的虚拟输入输出增益，将标准模型的输入输出增益作为固定值而通过直线MC₁₂(粗线)进行表示。在图12的区域A以及B中，分别通过曲线RC₁、RC₂来表示与学习前和学习后的伺服控制部的输入输出增益的曲线。

回报输出部4021在区域A中，在计算出的输入输出增益的学习前的曲线RC₁超过标准模型的理想的输入输出增益的曲线MC₁时给予第一负评价值。

在超过输入输出增益变得足够小的频率的区域B中，即使学习前的输入输出增益的曲线RC₁超过标准模型的理想的虚拟输入输出增益的曲线MC₁₁，对稳定性的影响也变小。因此，在区域B中，如上所述，标准模型的输入输出增益并非理想的增益特性的曲线MC₁₁，而是使用固定值的输入输出增益(例如，-20dB)的直线MC₁₂。但是，在学习前的计算出的输入输出增益的曲线RC₁超过固定值的输入输出增益的直线MC₁₂时可能不稳定，因此，作为评价值而给予第一负值。

接下来，对回报输出部4021在计算出的输入输出增益Gs是标准模型的输入输出增益Gb以下时，根据各条件下计算出的各相位延迟的信息来求出评价值，利用评价值的和来决定回报的动作进行说明。

在以下的说明中，通过D(S)表示状态信息S有关的状态变量即相位延迟，通过D(S’)来表示通过行为信息A(滤波器130的传递函数的各系数ω_c、τ、k的修正)而从状态S发生了变化的状态S’有关的状态变量即相位延迟。

回报输出部4021在各条件下分别求出评价值，求出各条件下的评价值之和作为回报。

回报输出部4021根据相位延迟的信息来决定评价值的方法例如可以应用如下方法：在从状态S成为状态S’的情况下，通过相位延迟为180度的频率变大、变小、或者相同来决定评价值。这里，列举相位延迟为180度的情况，但是并非特别限定于180度也可以是其他值。

例如，在通过图3所示的相位线图表示了相位延迟时，在从状态S成为状态S’的情况下，曲线变化成相位延迟为180度的频率变小(在图3的X₂方向)，则相位延迟变大。另一方面，在从状态S成为状态S’的情况下，曲线变化成相位延迟为180度的频率变大(在图3的X₁方向)，则相位延迟变小。

因此，在从状态S成为状态S’的情况下，在相位延迟为180度的频率变小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021使评价值的值为第二负值。另外，将第二负值的绝对值设定得比第一负值小。

另一方面，在从状态S成为状态S’的情况下，在相位延迟为180度的频率变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021使评价值的值为正值。

此外，在从状态S成为状态S’的情况下，在相位延迟为180度的频率不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021使评价值的值为零值。

根据相位延迟的信息决定评价值的方法不限于上述的方法，也可以应用其他方法。

另外，作为定义为执行行为A之后的状态S’的相位延迟D(S’)比之前的状态S下的相位延迟D(S)大时的负值，可以根据比例将负值设定得大。例如，在上述的第一方法中，可以根据频率变小的程度将负值设定得大。反之，作为定义为执行行为A之后的状态S’的相位延迟D(S’)比之前的状态S下的相位延迟D(S)小时的正值，可以根据比例将正值设定得大。例如，在上述的第一方法中，可以根据频率变大的程度将正值设定得大。

回报输出部4021在各条件下，分别求出评价值。

并且，回报输出部4021求出将各条件下的评价值相加而得的回报。该回报为机床的各条件下的各评价值之和。回报输出部4021如已经说明那样，在计算出的输入输出增益的学习前的曲线RC₁超过标准模型的理想输入输出增益的曲线MC₁时给予第1负评价值。回报输出部4021在计算出的输入输出增益的学习前的曲线RC₁超过标准模型的理想输入输出增益的曲线MC₁时不求出基于相位延迟的评价值，因此，在计算出的输入输出增益的学习前的曲线RC₁超过标准模型的理想输入输出增益的曲线MC₁时，评价值为第1负评价值。

价值函数更新部4022根据状态S、行为A、将行为A应用于状态S时的状态S’、如上所述计算出的回报来进行Q学习，由此，对价值函数存储部404存储的价值函数Q进行更新。

价值函数Q的更新既可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是如下学习方法：通过将某种行为A应用于当前状态S，每当状态S向新状态S’转移时，立即进行价值函数Q的更新。此外，批量学习是如下学习方法：通过重复将某种行为A应用于当前状态S，状态S向新状态S’转移，由此收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新。进而，小批量学习是在线学习与批量学习中间的学习方法，是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部4023针对当前状态S选择Q学习的过程中的行为A。行为信息生成部4023在Q学习的过程中，为了进行修正滤波器130的传递函数的各系数ω_c、τ、k的动作(相当于Q学习中的行为A)，而生成行为信息A，对行为信息输出部403输出所生成的行为信息A。

更具体来说，行为信息生成部4023例如针对状态S所包含的滤波器130的传递函数的各系数ω_c、τ、k，使包含于行为A的滤波器130的传递函数的各系数ω_c、τ、k加上或减去增量。

另外，各系数ω_c、τ、k可以修正全部，但也可以修正一部分系数。产生共振的中心频率fc容易发现，中心频率fc容易确定。因此，行为信息生成部4023为了进行临时固定中心频率fc、修正带宽fw以及衰减系数k，即，为了固定系数ω_c(＝2πfc)、修正系数τ(＝fw/fc)以及衰减系数k的动作，可以生成行为信息A，将生成的行为信息A输出给行为信息输出部403。

另外，滤波器130的特性如图13所示，通过滤波器130的带宽fw使得增益和相位发生变化。在图13中，虚线表示带宽fw大的情况，实线表示带宽fw小的情况。此外，滤波器130的特性如图14所示，通过滤波器130的衰减系数k，使得增益和相位发生变化。在图14中，虚线表示衰减系数k小的情况，实线表示衰减系数k大的情况。

此外，行为信息生成部4023也可以采取如下策略：通过在当前推定的行为A的价值中选择价值Q(S、A)最高的行为A’的贪婪算法，或者用某个较小的概率ε随机选择行为A’，除此之外选择价值Q(S、A)最高的行为A’的ε贪婪算法这样的众所周知的方法，来选择行为A’。

行为信息输出部403是对滤波器130发送从学习部402输出的行为信息A的部分。如上所述，滤波器130根据该行为信息，对当前状态S，即当前设定的各系数ω_c、τ、k进行微修正，而向下一状态S’(即，修正后的滤波器130的各系数)转移。

价值函数存储部404是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、行为A而存储为表(以下，称为行为价值表)。存储在价值函数存储部404中的价值函数Q通过价值函数更新部4022而被更新。此外，存储在价值函数存储部404中的价值函数Q也可以在与其他机器学习部400之间共享。如果在多个机器学习部400之间共享价值函数Q，则能够通过各机器学习部400分散地进行强化学习，因此，能够提升强化学习的效率。

优化行为信息输出部405根据价值函数更新部4022进行Q学习而进行了更新的价值函数Q，生成用于使滤波器130进行价值Q(S、A)为最大的动作的行为信息A(以下，称为“优化行为信息”)。

更具体来说，优化行为信息输出部405取得价值函数存储部404存储的价值函数Q。如上所述，该价值函数Q是通过价值函数更新部4022进行Q学习而被更新的函数。并且，优化行为信息输出部405根据价值函数Q，生成行为信息，对滤波器130输出所生成的行为信息。该优化行为信息与行为信息输出部403在Q学习的过程中输出的行为信息一样，包含修正滤波器130的传递函数的各系数ω_c、τ、k的信息。

在滤波器130中，根据该行为信息来修正传递函数的各系数ω_c、τ、k。

机器学习部400可以进行动作，以便通过以上的动作进行滤波器130的传递函数的各系数ω_c、τ、k的优化，抑制机械端的振动。

并且，机器学习部400在机器特性因条件而发生变化时，例如机器特性因1个轴的位置而发生变化或者受其他轴的影响时，也能够进行滤波器特性的优化调整。

像以上那样，通过利用本公开的机器学习部400，可以使滤波器130的参数调整简化。

以上，对控制装置10所包含的功能块进行了说明。

为了实现这些功能块，控制装置10具有CPU(Central Processing Unit，中央处理单元)等运算处理装置。此外，控制装置10还具有存储应用软件或OS(Operating System，操作系统)等各种控制用程序的HDD(Hard Disk Drive，硬盘驱动器)等辅助存储装置、存储运算处理装置执行程序之后暂时需要的数据的RAM(Random Access Memory，随机存取存储器)这样的主存储装置。

并且，在控制装置10中，运算处理装置从辅助存储装置中读入应用软件或OS，一边在主存储装置上展开读入的应用软件或OS，一边进行根据这些应用软件或OS的运算处理。此外，根据该运算结果，来控制各装置具有的各种硬件。由此，实现本实施方式的功能块。也就是说，本实施方式可以通过硬件与软件协作来实现。

关于机器学习部400，由于伴随机器学习的运算量增多，因此例如利用在个人计算机搭载GPU(Graphics Processing Units，图形处理器)，称为GPGPU(General-Purposecomputing on Graphics Processing Units，通用图形处理器)的技术，在将GPU用于伴随机器学习的运算处理时可以进行高速处理。并且，为了进行更高速的处理，可以使用多台搭载了这样的GPU的计算机来构筑计算机集群，通过该计算机集群所包含的多个计算机来进行并列处理。

接下来，参照图15的流程对本实施方式中的Q学习时的机器学习部400的动作进行说明。

在步骤S11中，状态信息取得部401从伺服控制部100以及频率生成部200取得最初的状态信息S。所取得的状态信息输出给价值函数更新部4022或行为信息生成部4023。如上所述，该状态信息S是与Q学习中的状态相当的信息。

通过使用频率发生变化的正弦波即速度指令来驱动伺服控制部100而从频率特性计算部300取得最初开始Q学习的时间点的状态S₀下的、各条件下的输入输出增益(振幅比)Gs(S₀)以及相位延迟D(S₀)。速度指令与检测速度输入到频率特性计算部300，从频率特性计算部300输出的、各条件下的输入输出增益(振幅比)Gs(S₀)、以及相位延迟D(S₀)作为最初的状态信息依次输入到状态信息取得部401。滤波器130的传递函数的各系数ω_c、τ、k的初始值预先由用户生成，该系数ω_c、τ、k的初始值作为最初的状态信息发送给状态信息取得部401。

在步骤S12中，行为信息生成部4023生成新的行为信息A，经由行为信息输出部403将生成的新的行为信息A输出给滤波器130。行为信息生成部4023根据上述策略输出新的行为信息A。另外，接收到行为信息A的伺服控制部100通过根据接收到的行为信息而修正了当前状态S有关的滤波器130的传递函数的各系数ω_c、τ、k的状态S’，使用频率发生变化的正弦波即速度指令来驱动伺服电动机150。如上所述，该行为信息相当于Q学习中的行为A。

在步骤S13中，状态信息取得部401从新的状态S’下的、输入输出增益(振幅比)Gs(S’)、以及相位延迟D(S’)和滤波器130将传递函数的各系数ω_c、τ、k取得为新的状态信息。将所取得的新的状态信息输出给回报输出部4021。

在步骤S14中，回报输出部4021判断状态S’下的各频率的输入输出增益Gs(S’)是否为标准模型的各频率的输入输出增益Gb以下。如果各频率的输入输出增益Gs(S’)比标准模型的各频率的输入输出增益Gb大(步骤S14否)，在步骤S15中，回报输出部4021使评价值为第一负值，返回到步骤S12。

如果状态S’下的各频率的输入输出增益Gs(S’)是标准模型的各频率的输入输出增益Gb以下(步骤S14是)，在相位延迟D(S’)比相位延迟D(S)小时，回报输出部4021给予正评价值，在相位延迟D(S’)比相位延迟D(S)大时，回报输出部4021给予负评价值，在相位延迟D(S’)与相位延迟D(S)相比没有变化时，回报输出部4021给予零的评价值。决定评价值以使相位延迟变小的方法例如列举所述的方法，但是并非特别限定于该方法，也可以使用其他方法。

在步骤S16中，具体来说，例如在图3的相位线图中，在从状态S成为状态S’的情况下，在相位延迟为180度时的频率变小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部4021在步骤S17中，使评价值的值为第二负值。另外，第二负值的绝对值设定得比第一负值小。在从状态S成为状态S’的情况下，相位延迟为180度时的频率变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部4021在步骤S18中，使评价值的值为正值。此外，在从状态S成为状态S’的情况下，相位延迟为180度时的频率不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部4021在步骤S19中，使评价值的值为零值。

在步骤S17、步骤S18以及步骤S19中的某一个结束时，在步骤S20中，判断是否在多个条件下求出评价值，当没有在多个条件下求出评价值，即在多个条件中存在没有求出评价值的条件时，返回到步骤S13，变换为没有求出评价值的条件来取得状态信息。当在多个条件下求出评价值时，在步骤S21中，将按多个条件的每一个求出的评价值(通过步骤S17、步骤S18以及步骤S1的某一个计算出的评价值)相加，将评价值之和作为回报。

接下来，在步骤S22中，根据通过步骤S21计算出的回报的值，价值函数更新部4022对存储在价值函数存储部404中的价值函数Q进行更新。并且，再次返回到步骤S12，通过重复上述的处理，使得价值函数Q收敛为适当的值。另外，可以以重复规定次数的上述处理、或重复规定时间的上述处理为条件来结束处理。

另外，步骤S21例示了在线更新，也可以替换在线更新而置换成批量更新或小批量更新。

以上，通过参照图15所说明的动作，在本实施方式中，通过利用机器学习部400，获得可以取得滤波器130的传递函数的各系数ω_c、τ、k的调整用的、适当的价值函数，可以使滤波器130的传递函数的各系数ω_c、τ、k的优化简化这样的效果。

接下来，参照图16的流程，对优化行为信息输出部405进行的优化行为信息生成时的动作进行说明。

首先，在步骤S23中，优化行为信息输出部405取得存储于价值函数存储部404中的价值函数Q。如上所述价值函数Q是通过价值函数更新部4022进行Q学习而被更新的函数。

在步骤S24中，优化行为信息输出部405根据该价值函数Q，生成优化行为信息，将生成的优化行为信息输出给滤波器130。

此外，通过参照图16所说明的动作，在本实施方式中，可以根据由机器学习部400进行学习而求出的价值函数Q，生成优化行为信息，根据该优化行为信息，简化当前设定的滤波器130的传递函数的各系数ω_c、τ、k的调整，并且可以抑制机械端的振动，可以提升工件的加工面的品质。

在以上说明的实施方式中，以上述(a)、(b)或者(c)的多个条件、输入输出增益、相位延迟的频率特性变化时的学习为例进行了说明。

但是，上述(a)、(b)以及(c)的多个条件也可以适当组合而供机器学习部400进行学习。例如，Y轴的频率特性可能受Y轴自身的位置、Z轴的位置以及Z轴的伺服控制部的速度增益的影响，但是可以将它们组合而设定多个条件。具体来说，Y轴的机器学习部400例如可以从Y轴自身的左端、中央、右端位置的第1多个条件、Z轴的左端、中央、右端位置的第2多个条件、Z轴的伺服控制部的速度增益的第3多个条件中适当组合多个条件来进行学习。

上述的控制装置所包含的各结构部可以通过硬件、软件或者它们的组合来实现。此外，由上述控制装置所包含的各结构部的各自协作而进行的伺服控制方法也可以通过硬件、软件或者它们的组合来实现。这里，所谓通过软件来实现表示计算机通过读入程序来执行从而实现。

可以使用各种类型的非临时性的计算机可读记录介质(non-transitorycomputer readable medium)来存储程序并将该程序提供给计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangible storage medium)。非临时性的计算机可读记录介质的示例包含：磁记录介质(例如，硬盘驱动器)、光-磁记录介质(例如，光磁盘)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半导体存储器(例如，掩模ROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、闪存ROM、RAM(random access memory))。此外，程序也可以通过各种类型的临时性的计算机可读记录介质(transitory computerreadable medium)而供给到计算机。

上述实施方式是本发明的优选实施方式，但是并非将本发明的范围只限定于上述实施方式，可以在不脱离本发明精神的范围内以实施了各种变更的方式来进行实施。

此外，在上述实施方式中，对由伺服电动机150驱动的机械存在一个共振点的情况进行了说明，但是有时机械存在多个共振点。在机械存在多个共振点时，以与各共振点对应的方式设置多个滤波器，进行串联连接，由此，可以使所有的共振衰减。图17是表示直接连接多个滤波器来构成滤波器的示例的框图。在图17中，当存在m个(m是2以上的自然数)共振点时，滤波器130串联连接m个滤波器130-1～130-m来构成。针对m个滤波器130-1～130-m的各自系数ω_c、τ、k，依次通过机器学习求出使共振点衰减的最佳值。

此外，控制装置的结构除了图1的结构以外还存在以下的结构。

<机器学习部设置于伺服控制部的外部的变形例>

图18是表示控制装置的其他结构例的框图。图18所示的控制装置10A与图1所示的控制装置10的不同点在于：n(n是2以上的自然数)个伺服控制部100A-1～100A-n经由网络600与n个机器学习部400A-1～400A-n连接，并且分别具有频率生成部200和频率特性计算部300。机器学习部400A-1～400A-n具有与图10所示的机器学习部400相同的结构。伺服控制部100A-1～100A-n分别对应于伺服控制装置，此外机器学习部400A-1～400A-n分别对应于机器学习装置。另外，当然也可以将频率生成部200和频率特性计算部300中的一方或双方设置于伺服控制部100A-1～100A-n之外。

这里，伺服控制部100A-1与机器学习部400A-1为一对一的组，能够通信地连接。关于伺服控制部100A-2～100A-n和机器学习部400A-2～400A-n也与伺服控制部100A-1和机器学习部400A-1一样地连接。在图18中，伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n的n个组经由网络600而连接，而关于伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n这n个组，各组的伺服控制部与机器学习部可以经由连接接口而直接连接。这些伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n这n个组，例如可以在同一个工厂中设置多组，也可以分别设置于不同的工厂中。

另外，网络600例如是在工厂内构建的LAN(Local Area Network：局域网)、互联网、公共电话网、或者它们的组合。对于网络600中具体的通信方式是有线连接还是无线连接等没有特别限定。

<系统结构的自由度>

在上述的实施方式中，伺服控制部100A-1～100A-n与机器学习部400A-1～400A-n分别为一对一的组以能够通信的方式进行连接，但例如一台机器学习部也可以经由网络600与多台伺服控制部能够通信地连接，实施各伺服控制部的机器学习。

此时，可以将一台机器学习部的各功能作为适当分散于多个服务器的分散处理系统。此外，一台机器学习部的各功能也可以在云上利用虚拟服务器功能等来实现。

此外，当存在与n台相同型号名称、相同规格、或者相同系列的伺服控制部100A-1～100A-n分别对应的n个机器学习部400A-1～400A-n时，可以共享各机器学习部400A-1～400A-n中的学习结果。这样，能够构建更理想的模型。

本公开涉及的机器学习装置、控制装置以及机器学习方法可以取得包含上述实施方式、具有如下结构的各种实施方式。

(1)一种机器学习装置(机器学习部400)进行如下强化学习：在各个条件下驱动对电动机(伺服电动机150)进行控制的伺服控制装置(伺服控制部100)，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器(滤波器130)的系数进行优化，

机器学习装置具有：

状态信息取得部(状态信息取得部401)，其取得状态信息，所述状态信息包含频率特性计算装置(频率特性计算部300)的计算结果、所述滤波器的系数、所述多个条件，其中，所述频率特性计算装置计算所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个；

行为信息输出部(行为信息输出部403)，其将行为信息输出给所述滤波器，其中，所述行为信息包含所述状态信息所包含的所述系数的调整信息；

回报输出部(回报输出部4021)，其根据所述计算结果来分别求出所述多个条件下的评价值，并将这些评价值之和的值作为回报来进行输出；以及

价值函数更新部(价值函数更新部4022)，其根据由所述回报输出部输出的回报的值、所述状态信息、所述行为信息来更新行为价值函数。

根据该机器学习装置，即使在机器特性因条件而发生变化时，例如在机器特性因1个轴的位置而发生变化时或者机器特性受其他轴的影响时，也能够进行滤波器特性的优化调整。

(2)根据上述(1)所记载的机器学习装置，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

所述多个条件是所述轴的多个位置。

根据该机器学习装置，即使在因机床、机器人、或者工业机器的一个轴的多个位置使得机器特性发生变化时，也能够进行滤波器特性的优化调整。

(3)根据上述(1)所记载的机器学习装置，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

所述多个条件是装载于所述轴之上或者所述轴之下的其他轴的多个位置。

根据机器学习装置，即使在因装载于机床、机器人、或者工业机器的一个轴上的或者所述一个轴下的其他轴的多个位置使得机器特性发生变化时，也能够进行滤波器特性的优化调整。

(4)根据上述(1)所记载的机器学习装置，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

所述多个条件是对装载于所述轴之上的或者所述轴之下的其他轴进行驱动的伺服控制装置的多个速度增益。

根据该机器学习装置，即使在因伺服控制装置的多个速度增益使得机器特性发生变化时，也能够进行滤波器特性的优化调整，所述伺服控制装置对设置于机床、机器人、或者工业机器的、一个轴上的或者所述一个轴下的其他轴进行驱动。

(5)根据上述(1)～(4)中任一项所记载的机器学习装置，

所述频率特性计算装置使用频率变化的正弦波的输入信号和所述伺服控制装置的速度反馈信息，来计算所述输入输出增益与所述输入输出的相位延迟中的至少一个。

(6)根据上述(1)～(5)中任一项所记载的机器学习装置，

与所述多个条件的各条件对应地设定各评价值的权重。

根据该机器学习装置，即使在多个条件的各条件给予机器特性的影响不同时，也能够根据该影响的程度来设定各评价值的权重。

(7)根据上述(1)～(6)中任一项所记载的机器学习装置，

所述机器学习装置还具有：优化行为信息输出部(优化行为信息输出部405)，其根据由所述价值函数更新部更新而得的价值函数来输出所述系数的调整信息。

(8)一种控制装置，具有：

上述(1)～(7)中任一项所记载的机器学习装置(机器学习部400)；

控制电动机的伺服控制装置(伺服控制部100)，该伺服控制装置具有使至少一个特定频率成分衰减的至少一个滤波器；以及

频率特性计算装置(频率特性计算部300)，其计算所述伺服控制装置中所述伺服控制装置的输入输出增益与输入输出的相位延迟中的至少一个。

根据该控制装置，即使在机器特性因条件而发生变化时，例如在机器特性因1个轴的位置而发生变化时或者机器特性受其他轴的影响时，也能够进行滤波器特性的优化调整。

(9)一种机器学习装置(机器学习部400)的机器学习方法，

该机器学习装置进行如下强化学习：在多个条件下驱动对电动机(伺服电动机150)进行控制的伺服控制装置(伺服控制部100)，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器(滤波器130)的系数进行优化，在所述机器学习方法中，

根据该机器学习方法，即使在机器特性因条件而发生变化时，例如机器特性因1个轴的位置而发生变化时或者机器特性受其他轴的影响时，也能够进行滤波器特性的优化调整。

Claims

1.一种机器学习装置，进行如下强化学习：在多个条件下驱动对电动机进行控制的伺服控制装置，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器的系数进行优化，其特征在于，

所述机器学习装置具有：

2.根据权利要求1所述的机器学习装置，其特征在于，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

所述多个条件是所述轴的多个位置。

3.根据权利要求1所述的机器学习装置，其特征在于，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

所述多个条件是装载于所述轴之上的或者所述轴之下的其他轴的多个位置。

4.根据权利要求1所述的机器学习装置，其特征在于，

所述电动机驱动机床、机器人、或者工业机器的一个轴，

5.根据权利要求1～4中任一项所述的机器学习装置，其特征在于，

6.根据权利要求1～5中任一项所述的机器学习装置，其特征在于，

与所述多个条件的各条件对应地设定各评价值的权重。

7.根据权利要求1～6中任一项所述的机器学习装置，其特征在于，

所述机器学习装置还具有：优化行为信息输出部，其根据由所述价值函数更新部更新而得的价值函数来输出所述系数的调整信息。

8.一种控制装置，其特征在于，具有：

权利要求1～7中任一项所述的机器学习装置；

9.一种机器学习装置的机器学习方法，该机器学习装置进行如下强化学习：在多个条件下驱动对电动机进行控制的伺服控制装置，并对设置于所述伺服控制装置的、使至少一个特定频率成分衰减的至少一个滤波器的系数进行优化，其特征在于，在所述机器学习方法中，