CN116057479A

CN116057479A - 控制辅助装置、控制系统以及控制辅助方法

Info

Publication number: CN116057479A
Application number: CN202180058078.7A
Authority: CN
Inventors: 恒木亮太郎
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-08-05
Filing date: 2021-07-29
Publication date: 2023-05-02
Also published as: WO2022030346A1; JP7469476B2; US20230324885A1; JPWO2022030346A1; DE112021004158T5

Abstract

能够求出共振点的优先级，按照共振点的优先级从高到低的顺序分配滤波器。控制辅助装置进行用于对被设置于控制马达的伺服控制装置的多个滤波器的系数进行调整的辅助，具备：共振检测部，其检测基于频率变化的输入信号和输出信号而测定出的、伺服控制装置的输入输出增益与输入输出的相位延迟的频率特性中的多个共振点；以及共振评价部，其计算多个共振点的优先级，共振评价部将复平面上的实轴上的点(‑1，0)或者点(k，0)(k为小于‑1的值)、和根据输入输出增益与输入输出的相位延迟的频率特性计算出的奈奎斯特轨迹上的共振点之间的距离作为基准来计算优先级。

Description

控制辅助装置、控制系统以及控制辅助方法

技术领域

本发明涉及用于对控制马达的伺服控制装置的多个滤波器的系数进行调整的控制辅助装置、包含控制辅助装置和伺服控制装置的控制系统、以及控制辅助方法。

背景技术

在具有多个共振点的机械中，例如在专利文献1中记载有具备通过多个滤波器抑制多个共振点的伺服控制装置的控制系统以及使滤波器的系数最佳化的机器学习装置。

在专利文献1中记载有如下的控制系统：在机械中有多个共振点的情况下，以与各共振点对应的方式在伺服控制部(成为伺服控制装置)设置多个滤波器，并串联连接，由此使所有的共振衰减。并且，在专利文献1中记载了机器学习装置针对多个滤波器的系数通过机器学习来求取依次使共振点衰减的最佳值。

现有技术文献

专利文献

专利文献1：日本特开2020-57211号公报

发明内容

发明所要解决的课题

在机械中有多个共振点的情况下，在不知道哪个共振对增大伺服控制装置的增益最重要的状态下，若调整多个滤波器，则有时会无意义地应用滤波器。

因此，期望从优先级高的共振点开始依次应用滤波器。

用于解决课题的手段

(1)本公开的第一方式是一种控制辅助装置，其进行用于对被设置于控制马达的伺服控制装置的多个滤波器的系数进行调整的辅助，其中，

该控制辅助装置具备：

共振检测部，其检测基于频率变化的输入信号和输出信号而测定出的、所述伺服控制装置的输入输出增益与输入输出的相位延迟的频率特性中的多个共振点；以及

共振评价部，其计算所述多个共振点的优先级，

所述共振评价部将复平面上的实轴上的点(-1，0)或者点(k，0)(k为小于-1的值)与根据所述输入输出增益和所述输入输出的相位延迟的频率特性计算出的奈奎斯特轨迹上的共振点之间的距离作为基准来计算所述优先级。

(2)本公开的第二方式是一种控制系统，其中，

所述控制系统具备：伺服控制装置，其控制马达；以及

上述(1)所述的控制辅助装置，其检测所述伺服控制装置的输入输出增益与输入输出的相位延迟的频率特性中的多个共振点，计算所述多个共振点的优先级。

(3)本公开的第三方式是一种控制辅助装置的控制辅助方法，进行用于对被设置于控制马达的伺服控制装置的多个滤波器的系数进行调整的辅助，其中，

检测基于频率变化的输入信号和输出信号而测定的、所述伺服控制装置的输入输出增益与输入输出的相位延迟的频率特性中的多个共振点，

以复平面上的实轴上的点(-1，0)或点(k，0)(k为小于-1的值)与根据所述输入输出增益和所述输入输出的相位延迟的频率特性计算出的奈奎斯特轨迹上的共振点之间的距离为基准，计算所述多个共振点的优先级。

发明效果

根据本公开的各方式，能够求出共振点的优先级。其结果是，能够按照共振点的优先级从高到低的顺序分配滤波器。

附图说明

图1是表示本公开的第一实施方式的控制系统的框图。

图2是表示将多个滤波器直接连接而构成滤波器的例子的框图。

图3是表示输入输出增益和相位延迟的频率特性的波特图。

图4是在复平面上表示奈奎斯特轨迹、单位圆以及通过增益余量和相位余量，以(k，0)为中心的圆的图。

图5是增益余量和相位余量、以及以复平面上的实轴上的点为中心通过增益余量和相位余量的圆的说明图。

图6是示出了图1所示的控制辅助部的动作的流程图；

图7是表示本公开的第二实施方式的控制系统的框图。

图8是示出本公开的第三实施例的控制系统的框图；

图9是表示本发明的一个实施方式的机器学习部的框图。

图10是成为用于计算输入输出增益的规范模型的模型的框图。

图11是表示规范模型的伺服控制部的输入输出增益的频率特性、学习前及学习后的伺服控制部的输入输出增益的频率特性的特性图。

图12是表示图1所示的控制系统的变形例的框图。

图13是表示控制系统的另一变形例的框图。

具体实施方式

以下，使用附图对本公开的实施方式进行详细说明。

(第一实施方式)

图1是示出本公开的第一实施例的控制系统的框图。

控制系统10具备伺服控制部100、频率生成部200、频率特性测定部300以及控制辅助部400。伺服控制部100对应于控制马达的伺服控制装置，频率特性测定部300对应于频率特性测定装置，控制辅助部400对应于控制辅助装置。

此外，频率生成部200、频率特性测定部300以及控制辅助部400中的一个或者多个也可以被设置于伺服控制部100内。频率特性测定部300也可以被设置在控制辅助部400内。

伺服控制部100具备减法器110、速度控制部120、滤波器130、电流控制部140以及马达150。减法器110、速度控制部120、滤波器130、电流控制部140以及马达150构成速度反馈环路的伺服系统。

马达150是具有进行直线运动的线性马达或具有旋转轴的马达等。由马达150驱动的对象例如是机床、机器人、工业机械的机构部。马达150也可以被设置为机床、机器人、工业机械等的一部分。控制系统10也可以被设置为机床、机器人、工业机械等的一部分。

减法器110求出所输入的速度指令与速度反馈的检测速度之差，并将该差作为速度偏差输出至速度控制部120。

速度控制部120进行PI控制(Proportional-Integral Control：比例积分控制)，将速度偏差乘以积分增益K1v进行积分而得的值与速度偏差乘以比例增益K2v所得的值相加，作为转矩指令输出到滤波器130。速度控制部120包含反馈增益。此外，速度控制部120并不特别限定于PI控制，也可以使用其他控制，例如PID控制(Proportional-Integral-Differential Control：比例积分差分控制)。

数学式1(以下表示为数1)表示速度控制部120的传递函数G_V(s)。

[数1]

滤波器130是将多个使特定的频率成分衰减的滤波器串联连接而构成的。各滤波器例如是陷波滤波器、低通滤波器或阻带滤波器。在具有由马达150驱动的机构部的机床等机械中，有时存在多个共振点，有时在伺服控制部100中各共振增大。通过将陷波滤波器等滤波器串联连接，能够降低多个共振点的各共振。滤波器130的输出作为转矩指令被输出到电流控制部140。

图2是表示将多个滤波器直接连接而构成滤波器130的例子的框图。在图2中，在存在n个(n为2以上的自然数)的共振点的情况下，将m个滤波器130-1～130-m(m为2以上的自然数且m≤n)串联连接而构成滤波器130。m个滤波器130-1至130-m分别对应于不同的频带。以下，以滤波器130由m个滤波器130-1～130-m构成的方式进行说明。

数学式2(以下表示为数学式2)表示滤波器130中的1个、例如作为滤波器130-1的陷波滤波器的传递函数G_F(s)。滤波器130-2至130-m也可以分别由相同传递函数的陷波滤波器构成。

在此，数学式2的系数δ是衰减系数，系数ω_c是中心角频率，系数τ是比频带。若将中心频率设为fc，将频带宽度设为fw，则系数ω_c用ω_c＝2πfc表示，系数τ用τ＝fw/fc表示。

[数2]

电流控制部140基于转矩指令生成用于驱动马达150的电压指令，并将该电压指令输出至马达150。

在马达150为线性马达的情况下，可动部的位置由设置于马达150的线性标尺(未图示)检测，通过对位置检测值进行微分来求出速度检测值，将所求出的速度检测值作为速度反馈输入到减法器110。

在马达150具有旋转轴的马达的情况下，旋转角度位置由设置于马达150的旋转编码器(未图示)检测，速度检测值作为速度反馈被输入到减法器110。

如以上那样构成伺服控制部100。

为了使未设置滤波器130的伺服控制部100动作，检测多个共振点，计算优先级高的共振点，控制系统10还具备频率生成部200、频率特性测定部300以及控制辅助部400。频率特性测定部300也可以包含在控制辅助部400中。

频率生成部200一边使频率变化一边将正弦波信号作为速度指令输出到伺服控制部100的减法器110和频率特性测定部300。此时，在伺服控制部100中不设置滤波器130。

频率特性测定部300使用由频率生成部200生成的成为输入信号的速度指令(正弦波)和成为从旋转编码器(未图示)输出的输出信号的检测速度(正弦波)，按照由速度指令规定的各频率，测定输入信号与输出信号的振幅比(输入输出增益)以及相位延迟。或者，频率特性测定部300使用由频率生成部200生成的成为输入信号的速度指令(正弦波)和成为从线性标尺输出的输出信号的检测位置的微分(正弦波)，按照由速度指令规定的各频率，测定输入信号与输出信号的振幅比以及相位延迟。

伺服控制部100向频率特性测定部300输入上述的检测速度或检测位置的微分。频率特性测定部300测定作为输入信号的速度指令与输出信号的振幅比(输入输出增益)以及相位延迟的频率特性，并输出至控制辅助部400。

控制辅助部400检测从频率特性测定部300输出的输入输出增益(振幅比)和相位延迟的频率特性的共振点，计算共振点的优先级，求出优先级高的共振点。

以下，对控制辅助部400的结构以及动作的详细情况进行进一步说明。

(控制辅助部400)

如图1所示，控制辅助部400具备共振检测部401以及共振评价部402。

共振检测部401从频率特性测定部300取得伺服控制部100的输入输出增益(振幅比)和相位延迟的频率特性，并且检测输入输出增益和相位延迟的频率特性的共振点。

图3是表示输入输出增益和相位延迟的频率特性的波特图。实线所示的曲线表示开环的频率特性，虚线所示的曲线表示闭环的频率特性。在图3中，示出了5个共振点P1、P2、P3、P4、P5。

以下，对求取开环的频率特性的方法进行说明。

速度反馈回路由减法器110和传递函数H的开环电路构成。开环的电路由图1所示的速度控制部120、电流控制部140以及马达150构成。

在将某个频率ω₀时的速度反馈环的输入输出增益设为c，将相位延迟设为θ时，闭环频率特性G(jω₀)成为c·e^jθ。使用开环频率特性H(jω₀)，将闭环频率特性G(jω₀)表示为G(jω₀)＝H(jω₀)/(1+H(jω₀))。因此，某一频率ω₀时的开环频率特性H(jω₀)能够通过H(jω₀)＝G(jω₀)/(1-G(jω₀))＝c·e^jθ/(1-c·e^jθ)求出。

在将变化的频率设为ω时，如上所述，开环频率特性H(jω)能够通过关系式H(jω)＝G(jω)/(1-G(jω))求出。共振检测部401使用从频率特性测定部300得到的、伺服控制部100的输入输出增益(振幅比)和相位延迟的频率特性(闭环的频率特性)，求出开环频率特性H(jω)。然后，后述的共振评价部402通过在复平面上描绘开环频率特性H(jω)来生成奈奎斯特轨迹。

共振检测部401可以检测除了共振点之外的反共振点。通过检测反共振点，在设定m个滤波器130-1～130-m的各滤波器的衰减中心频率的范围的情况下，能够设定在反共振点的频率之间。在图3中，作为一例，示出了与共振点P1、P2接近的反共振点AP1、AP2。

共振评价部402计算共振点的优先级，并且求出优先级高的共振点。

具体而言，共振评价部402以复平面上的、奈奎斯特轨迹上的共振点与实轴上的点的距离为基准来计算优先级。

在此，复平面上的实轴上的点例如考虑伺服控制部100的开环的电路的增益余量、相位余量来决定。如图5所示，以复平面上的实轴上的点为中心的圆与通过(-1，0)的单位圆的交点成为增益余量、相位余量。复平面上的实轴上的点为(-1，0)或(k，0)(k为小于-1的值)。关于值k，考虑增益余量和相位余量，由用户来确定。

图4是在复平面上表示奈奎斯特轨迹、单位圆以及通过增益余量和相位余量，以(k，0)为中心的圆的图。图5是增益余量和相位余量、以及以复平面上的实轴上的点为中心通过增益余量和相位余量的圆的说明图。

共振评价部402提高例如接近复平面上的实轴上的点的奈奎斯特轨迹上的共振点的优先级。奈奎斯特轨迹上的共振点与实轴上的点之间的距离例如是图4的箭头所示的距离D。

如以下说明的那样，共振评价部402也可以以复平面上的、奈奎斯特轨迹上的共振点与实轴上的点之间的距离和共振频率的大小为基准来计算优先级。

共振评价部402首先在比高频区域低的频域中，基于复平面上的、奈奎斯特轨迹上的各共振点与实轴上的点之间的距离来计算优先级。高频区域例如是相位延迟为-180度以上的频域或增益特性小于-6dB的频域。

共振评价部402在比高频区域低的频域中计算优先级之后，与比高频区域低的频域同样地在高频区域中，基于复平面上的、奈奎斯特轨迹上的共振点与实轴上的点之间的距离来计算优先级。

对于比高频区域低的频域先求出共振点的优先级，是因为在输入输出增益足够小的高频区域中，共振对稳定性的影响变小。

在图4中，示出了原本的速度增益时的奈奎斯特轨迹(用虚线表示)、和从原来的速度增益到1.5倍的速度增益的奈奎斯特轨迹。若提高速度增益，则图3所示的共振点P1首先与后述的图5所示的稳定临界碰撞。速度增益可以通过变更数学式1的积分增益K1v和比例增益K2v中的至少一方来改变。

此外，列举以复平面上的实轴上的点为中心的圆来进行了说明，但并不特别限定于圆，也可以是圆以外的闭合曲线，例如椭圆等。

另外，对使未设置滤波器130的伺服控制部100进行动作而得到输入输出增益(振幅比)以及相位延迟的频率特性并检测共振点的情况进行了说明，但没有滤波器130的情况下的输入输出增益以及相位延迟的频率特性也可以通过其他方法求出。例如，使用滤波器130的传递函数的各系数ω_c、τ、δ，计算滤波器130的输入输出增益和相位延迟的频率特性。然后，使设置有滤波器130的伺服控制部100进行动作，得到输入输出增益和相位延迟的频率特性，从该频率特性减去滤波器130的输入输出增益和相位延迟的频率特性。通过该减法处理，能够得到没有滤波器130的情况下的输入输出增益和相位延迟的频率特性。

以上，对控制系统10所包含的功能块进行了说明。

为了实现这些功能块，控制系统10、伺服控制部100或控制辅助部400具备CPU(Central Processing Unit：中央处理器)等运算处理装置。另外，控制系统10、伺服控制部100或控制辅助部400还具备存储有应用软件或OS(Operating System：操作系统)等各种控制用程序的HDD(Hard Disk Drive：硬盘驱动器)等辅助存储装置、以及用于在运算处理装置执行程序时暂时存储所需的数据的RAM(Random Access Memory：随机存取存储器)这样的主存储装置。

然后，在控制系统10、伺服控制部100或控制辅助部400中，运算处理装置从辅助存储装置读入应用软件或OS，一边使读入的应用软件或OS在主存储装置中展开，一边进行基于这些应用软件或OS的运算处理。另外，运算处理装置基于该运算结果来控制各装置所具备的各种硬件。由此，实现本实施方式的功能块。即，本实施方式能够通过硬件和软件协作来实现。

在关于控制辅助部400的运算量较多的情况下，例如，通过在个人计算机上搭载GPU(Graphics Processing Unit，图形处理单元)，通过被称为GPGPU(General-Purposecomputing on Graphics Processing Units图形处理单元上的通用计算)的技术，能够将GPU利用于运算处理来进行高速处理。进而，为了进行更高速的处理，也可以使用多台搭载有这样的GPU的计算机来构建计算机集群，由该计算机集群所包含的多个计算机进行并行处理。

接着，使用流程图对控制辅助部400的动作进行说明。图6是表示控制辅助部的动作的流程图。

在步骤S11中，共振检测部401从频率特性测定部300取得伺服控制部100的输入输出增益(振幅比)和相位延迟的频率特性。

在步骤S12中，共振检测部401检测从频率特性测定部300输出的输入输出增益(振幅比)和相位延迟的频率特性的共振点。

在步骤S13中，共振评价部402以复平面上的、奈奎斯特轨迹上的共振点与实轴上的点之间的距离和共振频率的大小为基准来计算共振点的优先级。

共振评价部402首先在比高频区域低的频域中，基于复平面上的、奈奎斯特轨迹上的共振点与实轴上的点之间的距离来计算优先级。高频区域例如是相位延迟为-180度以上的频域或增益特性小于-6dB的频域。提高在复平面上的实轴上的点更接近的奈奎斯特轨迹上的共振点的优先级。

复平面上的实轴上的点例如考虑增益余量、相位余量来决定。具体而言，将通过增益余量、相位余量的圆的中心设为复平面上的实轴上的点，例如，将通过增益余量、相位余量的圆的中心设为(-1，0)或(k，0)(k为小于-1的值)。考虑增益余量和相位余量，由用户确定值k。

在步骤S14中，共振评价部402在比高频区域低的频域中计算优先级之后，在高频区域以上的区域中，基于复平面上的、奈奎斯特轨迹上的共振点与实轴上的点之间的距离来计算优先级。

在步骤S15中，控制辅助部400判断是否继续进行计算共振点的优先级的处理，在继续进行的情况下，返回到步骤S11，在不继续进行的情况下，结束控制辅助部的动作。

根据以上说明的实施方式，能够计算多个共振点的优先级。

共振评价部402能够按照计算出的共振点的优先级从高到低的顺序对多个共振点各分配1个滤波器，构成图1所示的滤波器130(滤波器130-1～130-m)。

例如，共振评价部402能够按照计算出的共振点的优先级从高到低的顺序对多个共振点各分配1个滤波器，构成图1所示的滤波器130。在共振评价部402分配了滤波器的情况下，共振检测部401检测反共振点，由此，共振评价部402在设定所分配的滤波器的衰减中心频率的范围时，能够将该范围设定在反共振点的频率之间。

另外，也可以将按照计算出的共振点的优先级从高到低的顺序对多个共振点各分配1个滤波器的分配部与共振评价部402分开设置。滤波器的数量有限制，即使存在超过滤波器的数量的共振点，共振评价部402也能够按照优先级从高到低的顺序应用滤波器，不会在优先级低的共振点无意义地应用滤波器。

(第二实施方式)

在第一实施方式中，频率特性测定部300在测定伺服控制部100的输入输出增益(振幅比)与相位延迟的频率特性的情况下，根据频率变化的正弦波信号即速度指令和速度反馈来计算频率特性。在本实施方式中，频率生成部200在电流控制部140的前级，一边使频率变化一边输入正弦波信号。然后，频率特性测定部300在测定伺服控制部100的输入输出增益和相位延迟的频率特性的情况下，根据输入到电流控制部140的前级的正弦波信号和速度控制部120的输出来计算频率特性。

图7是示出根据本公开的第二实施例的控制系统的框图。在图7中，对与图1所示的控制系统10的构成部件相同的构成部件标注相同的附图标记并省略说明。此外，如在第一实施方式中说明的那样，在求出多个共振点的优先级的情况下不设置滤波器130。

如图7所示，控制系统10A在减法器170的前级设置加法器160，向该加法器160输入从频率生成部200输出的、频率变化的正弦波信号。加法器160与减法器170连接，电流控制部140与放大器180连接。放大器180具备电流检测器，由电流检测器检测出的电流被输入到减法器170。减法器170、电流控制部140以及放大器180构成电流反馈环路，电流反馈环路包含在速度反馈环路中。正弦波信号对应于频率变化的第一信号，滤波器130的输出对应于在速度反馈环路中输入到电流反馈环路的第二信号。

马达150的电感由于磁饱和等的影响而根据流过马达150的电流而非线性地变化。当从调整前的伺服参数变为调整后的伺服参数时，向电流控制部140输入的转矩指令变化，在电流控制部140的电流增益恒定的情况下，流过马达150的电流也变化。当流过马达150的电流改变而电感非线性地变化时，电流反馈环路的特性也非线性地变化。

在本实施方式中，将输入到减法器110的输入信号的电平设为零，频率生成部200在电流控制部140的前级，一边使频率变化一边输入正弦波信号，频率特性测定部300根据该正弦波信号和速度控制部120的输出，测定伺服控制部100的输入输出增益和相位延迟的频率特性。由此，向电流反馈环路的输入恒定，因此能够在维持电流反馈环路的特性的线性的同时，通过控制辅助部400求出多个共振点的优先级。

(第三实施方式)

在第一和第二实施方式中，控制辅助部400求出多个共振点的优先级。在本实施方式中，说明控制辅助部求出共振点的优先级，机器学习部根据该优先级各分配1个滤波器，通过机器学习求出所分配的滤波器的系数的最佳值而构成滤波器130-1～130-m的控制系统。在以下的说明中，对在图1所示的控制系统10中添加了机器学习部的例子进行说明，但也可以对图7所示的控制系统10A添加机器学习部。

此外，在以下的说明中，说明机器学习部根据多个共振点的优先级各分配1个滤波器，求出所分配的滤波器的系数的最佳值，构成伺服控制部100的滤波器130的滤波器130-1～130-m。但是，如在第一实施方式中说明的那样，控制辅助部400也可以按照计算出的共振点的优先级从高到低的顺序各分配1个滤波器，求出机器学习部分配的滤波器的系数的最佳值，构成伺服控制部100的滤波器130的滤波器130-1～130-m。

图8是示出根据本公开的第三实施例的控制系统的框图。在图8中，对与图1所示的构成部件相同的构成部件标注相同的附图标记并省略说明。

如图8所示，控制系统10B构成为在图1所示的控制系统10中添加了成为机器学习装置的机器学习部500。

机器学习部500从控制辅助部400取得多个共振点的优先级和各共振点的频率。

机器学习部500取得从频率特性测定部300输出的伺服控制部100的输入输出增益与相位延迟的频率特性。然后，机器学习部500以抑制伺服控制部100的输入输出增益与相位延迟的频率特性的多个共振点的方式，从由控制辅助部400输出的优先级高的共振点起依次分配滤波器，将所分配的滤波器的传递函数的各系数ω_c、τ、δ的最佳值设为机器学习(以下，将“机器学习”称为“学习”)。在以下的说明中，最初分配的滤波器是滤波器130-1，之后依次分配滤波器130-2～130-m来进行说明。然后，机器学习部500将伺服控制部100的滤波器130-1～130-m的各传递函数的各系数ω_c、τ、δ设定为最佳值。

机器学习部500的学习在出厂前进行，但也可以在出厂后进行再学习。

机器学习部500进行的学习能够使用强化学习，但并不特别限定于强化学习，例如也可以进行监督学习。

此外，在机器学习部500学习滤波器130-1～130-m的各传递函数的各系数ω_c、τ、δ的情况下，例如若想要从高的频率起依次分配滤波器、学习滤波器的各系数ω_c、τ、δ的最佳值，则在不知道哪个共振最重要的状态下，对滤波器的各系数ω_c、τ、δ进行调整，因此存在无意义地应用滤波器的情况。

在本实施方式中，机器学习部500基于由控制辅助部400求出的共振点的优先级来分配滤波器，以从优先级高的共振点开始依次抑制共振的方式，学习所分配的滤波器的传递函数的各系数ω_c、τ、δ的最佳值。因此，不会无意义地应用滤波器来学习滤波器的传递函数的各系数ω_c、τ、δ的最佳值。

以下，对作为机器学习装置的机器学习部500中的机器学习进行补充说明。

(机器学习部500)

在以下的说明中，对机器学习部500进行强化学习的情况进行说明。

机器学习部500将从频率特性测定部300输出的输入输出增益与相位延迟的频率特性设为状态S，进行将该状态S所涉及的、在伺服控制部100的滤波器130中分配的滤波器的各系数ω_c、τ、δ的值的调整设为行为A的Q学习(Q-learning)。对于本领域技术人员来说众所周知，Q学习的目的在于，在某个状态S时，从能够取得的行为A中选择价值Q(S，A)最高的行为A作为最佳行为。

具体而言，智能体(机器学习装置)在某个状态S下选择各种行为A，针对此时的行为A，基于赋予的回报，进行更好的行为的选择，由此学习正确的价值Q(S，A)。

另外，由于想要使将来得到的回报的合计最大化，因此，最终以成为Q(S，A)＝E[Σ(γ^t)r_t]为目标。在此，E[]表示期待值，t为时刻，γ为后述的被称为折扣率的参数，r_t为时刻t的回报，Σ为时刻t的合计。该式中的期待值是按照最佳的行为状态变化时的期待值。这样的价值Q(S，A)的更新式例如能够通过以下的数学式3(以下表示为数学式3)来表示。

[数3]

在上述的数学式3中，S_t表示时刻t的环境的状态，A_t表示时刻t的行为。通过行为A_t，状态变化为S_t+1。r_t+1表示通过该状态的变化而得到的回报。另外，带有max的项是在状态S_t+1下选择当时知道的Q值最高的行为A时的Q值乘以γ而得到的值。在此，γ是0＜γ≤1的参数，被称为折扣率。另外，α是学习系数，设为0＜α≤1的范围。

上述的数学式3表示根据试行A_t的结果、返回的回报r_t+1，更新状态S_t中的行为A_t的价值Q(S_t，A_t)的方法。

机器学习部500观测包含从频率特性测定部300输出的各频率的输入输出增益和相位延迟的频率特性的状态信息S，决定行为A。机器学习部500在每次进行行为A时返回回报。关于回报，将在后面叙述。

在Q学习中，机器学习部500例如以试错的方式搜索将来的回报的合计成为最大的最佳的行为A。由此，机器学习部500能够对状态S选择最佳的行为A(即，最佳的伺服参数的值)。

图9是表示本发明的一实施方式的机器学习部500的框图。

为了进行上述的强化学习，如图9所示，机器学习部500具备状态信息取得部501、学习部502、行为信息输出部503、价值函数存储部504以及最佳化行为信息输出部505。

状态信息取得部501从控制辅助部400取得多个共振点的优先级和各共振点的频率，并向学习部502输出。另外，状态信息取得部501根据多个共振点的优先级，按照共振点的优先级高的顺序分配滤波器，并将确定所分配的滤波器的信息输出给学习部502。如已经说明的那样，最初分配的滤波器是滤波器130-1，之后依次分配滤波器130-2～130-m。

另外，状态信息取得部501基于滤波器130-1的传递函数的各系数ω_c、τ、δ，从频率特性测定部300取得包含使用速度指令(正弦波)驱动伺服控制部100而得到的输入输出增益(振幅比)和相位延迟的状态S，并输出给学习部502。该状态信息S相当于Q学习中的环境状态S。

此外，最初开始Q学习的时刻的滤波器130-1的传递函数的各系数ω_c、τ、δ预先由用户生成。在本实施方式中，通过强化学习将用户生成的、滤波器130-1的传递函数的各系数ω_c、τ、δ的初始设定值调整为最佳的值。

在操作者预先调整机床的情况下，系数ω_c、τ、δ也可以将调整完毕的值作为初始值进行机器学习。

学习部502是学习在某个环境状态S下选择某个行为A的情况下的价值Q(S，A)的部分。学习部502具备回报输出部5021、价值函数更新部5022以及行为信息生成部5023。

回报输出部5021是在某个状态S下计算选择了行为A的情况下的回报的部分。

回报输出部5021在调整了滤波器130-1的初始值的各系数ω_c、τ、δ的情况下，将以由优先级选择出的共振点为中心的频带的各频率的输入输出增益gs与预先设定的规范模型的各频率的输入输出增益的值gb进行比较。在输入输出增益gs大于规范模型的输入输出增益的值gb的情况下，回报输出部5021赋予负的回报。另一方面，回报输出部5021在输入输出增益gs为规范模型的输入输出增益的值gb以下的情况下，在从状态S成为状态S’的情况下，在相位延迟变小时赋予正回报，在相位延迟变大时赋予负回报，在相位延迟不变时赋予零回报。

首先，使用图10以及图11对回报输出部5021在输入输出增益gs大于规范模型的输入输出增益的值gb的情况下赋予负回报的动作进行说明。

回报输出部5021保存输入输出增益的规范模型。规范模型是具有没有共振的理想特性的伺服控制部的模型。规范模型例如能够根据图10所示的模型的惯量Ja、转矩常数K_t、比例增益K_p、积分增益K_I、微分增益K_D通过计算求出。惯量Ja是马达惯量与机械惯量的相加值。

图11是表示规范模型的伺服控制部的输入输出增益的频率特性、学习前以及学习后的伺服控制部100的输入输出增益的频率特性的特性图。如图11的特性图所示，规范模型具备：区域A，其是成为一定的输入输出增益以上、例如-20dB以上的理想输入输出增益的频域；以及区域B，其是小于一定的输入输出增益的频域。在图11的区域A中，用曲线MC₁(粗线)表示规范模型的理想的输入输出增益。在图11的区域B中，用曲线MC₁₁(虚线的粗线)表示规范模型的理想的虚拟输入输出增益，用直线MC₁₂(粗线)表示规范模型的输入输出增益，在图11的区域A和B中，用曲线RC₁、RC₂表示学习前和学习后的与伺服控制部的输入输出增益的曲线。

在区域A中，在以由优先级选择出的共振点为中心的频带中，在输入输出增益的学习前的曲线RC₁超过规范模型的理想的输入输出增益的曲线MC₁的情况下，回报输出部5021赋予第一负的回报。

在输入输出增益超过足够小的频率的区域B中，即使学习前的输入输出增益的曲线RC₁超过规范模型的理想的虚拟输入输出增益的曲线MC₁₁，对稳定性的影响也变小。因此，在区域B中，如上所述，规范模型的输入输出增益不是理想的增益特性的曲线MC₁₁，而是使用固定值的输入输出增益(例如-20dB)的直线MC₁₂。但是，在以由优先级选择出的共振点为中心的频带中，在学习前的输入输出增益的曲线RC₁超过了一定值的输入输出增益的直线MC₁₂的情况下，有可能变得不稳定，因此作为回报而赋予第一负值。

接着，说明在输入输出增益gs为规范模型的输入输出增益的值gb以下的情况下，回报输出部5021基于相位延迟决定回报的动作。

在以下的说明中，将与状态信息S相关的状态变量即相位延迟用D(S)表示，将根据行为信息A(伺服参数的值的调整)从状态S变化的状态S’相关的状态变量即相位延迟用D(S’)表示。此外，在最初开始Q学习的时刻，由于没有求出相位延迟，所以将通过从频率特性测定部300取得的、通过初始值的伺服参数使伺服控制部100动作而得到的伺服控制部100的相位延迟作为相位延迟D(S)来决定以下的回报。

回报输出部5021基于相位延迟决定回报的方法例如有以下的方法。

回报输出部5021在从状态S成为状态S’的情况下，能够根据相位延迟成为180度的频率变大还是变小或者相同来决定回报。在此，举出了相位延迟为180度的情况，但并不特别限定于180度，也可以是其他值。

例如，在相位延迟由图8所示的相位线图表示时，在从状态S变为状态S’的情况下，如果以相位延迟成为180度的频率变小的方式(在图3的X₂方向)曲线变化，则相位延迟变大。另一方面，在从状态S成为状态S’的情况下，若曲线以相位延迟成为180度的频率变大(图3的X₁方向)而变化，则相位延迟变小。

因此，在从状态S成为状态S’的情况下，在相位延迟成为180度的频率减小时，定义为相位延迟D(S)＜相位延迟D(S’)，回报输出部5021将回报的值设为第二负值。此外第二负值的绝对值小于第一负值。

另一方面，在从状态S成为状态S’的情况下，在相位延迟成为180度的频率变大时，定义为相位延迟D(S)＞相位延迟D(S’)，回报输出部5021将回报值设为正值。

另外，在从状态S成为状态S’的情况下，在相位延迟成为180度的频率不变时，定义为相位延迟D(S)＝相位延迟D(S’)，回报输出部5021将回报值设为零值。

基于相位延迟决定回报的方法并不限定于上述方法，也可以使用在从状态S成为状态S’的情况下，在相位余量小时赋予第二负值的回报，在变大时赋予正值回报，在相同时赋予零回报的方法。

以上，对回报输出部5021进行了说明。

价值函数更新部5022基于状态S、行为A、将行为A应用于状态S的情况下的状态S’、以及如上所述地求出的回报来进行Q学习，由此更新价值函数存储部504存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，也可以通过小批量学习来进行。

在线学习是通过将某个行为A应用于当前的状态S，每当状态S迁移到新的状态S’时立即进行价值函数Q的更新的学习方法。另外，批量学习是通过将某个行为A应用于当前的状态S，反复进行状态S迁移到新的状态S’的动作，从而收集学习用的数据，使用收集到的全部的学习用数据，进行价值函数Q的更新的学习方法。进而，小批量学习是在线学习与批量学习的中间的每当积存某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部5023针对当前的状态S，选择Q学习的过程中的行为A。行为信息生成部5023在Q学习的过程中，为了进行调整所分配的滤波器130-1的传递函数的各系数ω_c、τ的值的动作(相当于Q学习中的行为A)，生成行为信息A，并将生成的行为信息A输出给行为信息输出部503。

更具体而言，行为信息生成部5023例如也可以对于状态S所包含的、针对调整后的滤波器130-1将行为A所包含的滤波器130-1的传递函数的各系数ω_c、τ、δ进行递增或递减。

此外，行为信息生成部5023可以对滤波器130-1的各系数ω_c、τ、δ全部进行修正，但也可以对一部分系数进行修正。在行为信息生成部5023调整滤波器130-1的各系数ω_c、τ、δ的情况下，例如容易发现产生共振的中心频率fc，容易确定中心频率fc。因此，行为信息生成部5023也可以临时固定中心频率fc，修正带宽fw及衰减系数δ，即，固定系数ω_c(＝2πfc)，为了进行修正系数τ(＝fw/fc)和衰减系数δ的动作，生成行为信息A，并将生成的行为信息A输出给行为信息输出部503。

另外，行为信息生成部5023也可以采取如下方案：通过在当前的推定的行为A的价值中选择价值Q(S，A)最高的行为A’的贪婪算法或以某小的概率ε随机地选择行为A’，除此以外选择价值Q(S，A)最高的行为A’的ε贪婪算法这样的公知的方法，选择行为A’。

行为信息输出部503是向伺服控制部100发送从学习部502输出的行为信息A的部分。如上所述，基于该行为信息，调整当前的状态S、即当前设定的滤波器130-1的各系数ω_c、τ、δ，由此迁移到下一状态S’(即调整后的滤波器130-1的各系数)。

价值函数存储部504是存储价值函数Q的存储装置。价值函数Q例如也可以按每个状态S、行为A被保存为表(以下，称为行为价值表)。存储在价值函数存储部504中的价值函数Q由价值函数更新部5022更新。另外，存储于价值函数存储部504的价值函数Q也可以与其他机器学习部500之间共享。若由多个机器学习部500共享价值函数Q，则能够通过各机器学习部500进行分散而进行强化学习，因此能够提高强化学习的效率。

最佳化行为信息输出部505基于价值函数更新部5022进行Q学习而更新的价值函数Q，生成用于使由共振点的优先级分配的滤波器130-1进行价值Q(S，A)成为最大的动作的行为信息A(以下，称为“最佳化行为信息”)。

更具体而言，最佳化行为信息输出部505取得价值函数存储部504存储的价值函数Q。如上所述，该价值函数Q是价值函数更新部5022通过进行Q学习而更新的函数Q。然后，最佳化行为信息输出部505基于价值函数Q生成行为信息，并将生成的行为信息输出给伺服控制部100的滤波器130-1。该最佳化行为信息中包含对伺服控制部100的滤波器130的滤波器130-1的传递函数的各系数ω_c、τ、δ进行修正的信息。

在滤波器130的滤波器130-1中，基于该行为信息来修正传递函数的各系数ω_c、τ、δ。

机械学习部500还能够依次进行滤波器130-2～130-m的各传递函数的各系数ω_c、τ、δ的最佳化，以通过滤波器130-1～130-m抑制共振的方式进行动作。通过使用机器学习部500，能够简化滤波器130-1～130-m的各传递函数的各系数ω_c、τ、δ的调整。

如以上说明的那样，机器学习部500基于多个共振点的优先级来分配滤波器，以从优先级高的共振点开始依次抑制共振的方式，学习所分配的滤波器的传递函数的各系数ω_c、τ、δ的最佳值。

但是，即使机器学习部500以从优先级高的共振点起依次抑制共振的方式学习所分配的滤波器的传递函数的各系数ω_c、τ、δ的最佳值，有时截止频率等的评价函数也无法变好。

因此，机器学习部500即使是优先级高的共振点，也可以在评价函数不良好的情况下不应用滤波器。在评价函数为截止频率的情况下，在截止频率不变大的情况下不应用滤波器。截止频率例如是波特图的增益特性为-3dB的频率、或者相位特性为-180度的频率。通过截止频率增大，使反馈增益增大，响应速度变快。

截止频率是否变好通过机器学习部500的回报输出部5021或者行为信息生成部5023使用测定根据伺服控制装置的输入输出增益计算出的频率响应而得到的波特图来进行判断。

除了截止频率之外，评价函数还可以列举成|1-(闭环增益特性)|²或|1-(闭环传递函数)|²。闭环传递函数能够根据波特图的增益A(ω)和相位延迟θ(ω)使用G(jω)＝A(ω)×e-^jθ(ω)来进行计算。

在即使是优先级高的共振点，评价函数也未变好的情况下，通过不应用滤波器，能够在不进行无意义的滤波器应用而稳定地使系统高响应化。

(变形例)

在第一至第三实施方式中的控制系统中，在调整伺服控制部100所分配的滤波器的系数的情况下，每当调整滤波器的系数时，使伺服控制部动作，测定输入输出增益以及相位延迟的频率特性。

以下，作为变形例，对能够缩短测定输入输出增益以及相位延迟的频率特性的时间的控制系统进行说明。以下说明的变形例是在图1所示的第一实施方式的控制系统中插入求出输入输出增益(振幅比)及相位延迟的频率特性的推定值的频率特性推定部的例子。

图12是表示图1所示的控制系统的变形例的框图。

本变形例的控制系统10C在频率特性测定部300的后级设置求出输入输出增益及相位延迟的频率特性的推定值的频率特性推定部600。频率特性推定部600以调整前的滤波器(以下，设为被分配的滤波器是滤波器130-1进行说明)的系数，伺服控制部100进行动作，使用从频率特性测定部300输出的输入输出增益(振幅比)及相位延迟的频率特性，求出调整后的输入输出增益(振幅比)及相位延迟的频率特性的推定值。

控制系统10C通过使用频率特性推定部600，在每次调整滤波器130-1的系数时使伺服控制部进行动作，不需要测定输入输出增益及相位延迟的频率特性，能够缩短测定输入输出增益及相位延迟的频率特性的时间。

频率特性推定部600通过系数调整前的滤波器130使伺服控制部100进行动作，保存从频率特性测定部300输出的、伺服控制部100的输入输出增益(振幅比)和相位延迟的频率特性P。

频率特性推定部600使用调整前的滤波器130-1的传递函数的各系数ω_c、τ、δ(成为第二信息)，计算滤波器130-1的输入输出增益和相位延迟的频率特性C₂。

另外，频率特性推定部600使用调整后的滤波器130-1的传递函数的各系数ω_c、τ、δ(成为第一信息)，计算滤波器130-1的输入输出增益和相位延迟的频率特性C₁。

然后，频率特性推定部600根据频率特性C₁、频率特性C₂和频率特性P，求出伺服控制部100的输入输出增益和相位延迟的频率特性的推定值E。

具体而言，使用以下的数学式4(以下表示为数4)，求出伺服控制部100的输入输出增益与相位延迟的频率特性的推定值E。

[数4]

E＝C₁-C₂+P

此外，伺服控制部100的输入输出增益与相位延迟的频率特性的推定值E能够使用上述数学式4、即E＝C₁-C₂+P来计算，但为了求出推定值E而由频率特性推定部600进行的计算也可以使用E＝(C₁-C₂)+P、E＝(P-C₂)+C₁、E＝(P+C₁)-C₂中的任一种。

以下，对频率特性推定部600的结构和动作的详细情况进行进一步说明。

(频率特性推定部600)

如图12所示，频率特性推定部600具备伺服状态信息取得部601、调整前状态存储部602、频率特性计算部603和状态推定部604。

伺服状态信息取得部601取得调整后的滤波器130-1的传递函数的各系数ω_c、τ、δ(以下，称为第一信息)并输出至频率特性计算部603。

此外，预先由用户生成调整前的滤波器130-1的传递函数的各系数ω_c、τ、δ。

如上所述，在调整前状态保存部602中保存从频率特性测定部300输出的、伺服控制部100的输入输出增益和相位延迟的频率特性P。另外，在调整前状态保存部602中，从滤波器130输出并保存调整前的滤波器130-1的传递函数的各系数ω_c、τ、δ(以下，称为第二信息)。

频率特性计算部603从伺服状态信息取得部601取得第一信息，从调整前状态保存部602读出第二信息。

然后，频率特性计算部603使用第一信息中包含的滤波器130-1的传递函数G_F(jω)，计算滤波器130-1的输入输出增益和相位延迟的频率特性C₁。另外，频率特性计算部603使用包括在第二信息中的滤波器130-1的传递函数G_F(jω)来计算滤波器130-1的输入输出增益和相位延迟的频率特性C₂。

然后，频率特性计算部603将计算出的频率特性C₁和频率特性C₂输出到状态推定部604。

状态推定部604使用上述的数学式4(E＝(C₁-C₂)+P)，基于频率特性C₁、频率特性C₂以及频率特性P，求出伺服控制部100的输入输出增益与相位延迟的频率特性的推定值E。

所求出的推定值E被输入到控制辅助部400，控制辅助部400能够使用该推定值E，求出调整了所分配的滤波器的各系数的情况下的共振点的优先级。

以上，对滤波器130-1进行了说明，但滤波器130-2～滤波器130-m也是同样的。

在本变形例中，调整后的所分配的滤波器的各系数中的伺服控制部100的输入输出增益和相位延迟的频率特性的推定值能够由频率特性推定部600计算，因此，与利用调整后的所分配的滤波器的各系数使伺服控制部100进行动作来实际检测速度指令和检测速度，与在频率特性测定部300中测定输入输出增益和相位延迟的频率特性的情况相比，能够在短时间内求出。

以上说明的变形例是在图1所示的第一实施方式的控制系统中插入求出输入输出增益(振幅比)及相位延迟的频率特性的推定值的频率特性推定部的例子，但也可以在图7所示的第二实施方式的控制系统或图8所示的第三实施方式的控制系统中插入频率特性推定部。

在图8所示的第三实施方式的控制系统中插入了频率特性推定部600的情况下，机器学习部500在调整了所分配的滤波器的各系数的情况下，使用由频率特性推定部600求出的、伺服控制部100的输入输出增益和相位延迟的频率特性的推定值来进行学习。

在第三实施方式中，说明了在即使是优先级高的共振点，成为评价函数的截止频率也未变好的情况下机器学习部500不应用滤波器的情况，但也可以将频率特性推定部600插入控制系统10B，使用由频率特性推定部600求出的、使用伺服控制部100的输入输出增益和相位延迟的频率特性的推定值而生成的波特图，来判断截止频率是否变好。

(其他变形例)

控制系统的变形例除了图12的结构以外还具有以下的结构。

(控制辅助部经由网络与伺服控制部连接的变形例)

图13是表示控制系统的另一变形例的框图。图13所示的控制系统10D能够应用于图1以及图7所示的第一以及第二实施方式的控制系统10以及10A。控制系统10D与控制系统10及10A的不同点在于，n(n为2以上的自然数)个伺服控制部100-1～100-n经由网络700与n个控制辅助部400-1～400-n连接，并且分别具备频率生成部200和频率特性测定部300。控制辅助部400-1～400-n具有与图1所示的控制辅助部400相同的结构。伺服控制部100-1～100-n分别对应于伺服控制装置，另外，控制辅助部400-1～400-n分别对应于控制辅助装置。此外，当然也可以将频率生成部200和频率特性测定部300中的一方或双方设置在伺服控制部100-1～100-n之外。

图13所示的结构也可以应用于图8的控制系统10B，在该情况下，伺服控制部100-1～100-n分别具备机器学习部500。此外，当然也可以将机器学习部500设置在伺服控制部100-1～100-n之外。

并且，图13所示的结构也可以应用于图12的控制系统10C，在该情况下，伺服控制部100-1～100-n分别具备频率特性推定部600。此外，当然也可以将频率特性推定部600设置在伺服控制部100-1～100-n之外。

这里，伺服控制部100-1和控制辅助部400-1是1对1的组，以能够通信的方式连接。伺服控制部100-2～100-n和控制辅助部400-2～400-n也与伺服控制部100-1和控制辅助部400-1同样地连接。在图13中，伺服控制部100-1～100-n与控制辅助部400-1～400-n的n个组经由网络700连接，但伺服控制部100-1～100-n与控制辅助部400-1～400-n的n个组也可以各自的组的伺服控制部与控制辅助部经由连接接口直接连接。这些伺服控制部100-1～100-n和控制辅助部400-1～400-n的n个组例如可以在相同的工厂设置多组，也可以分别设置在不同的工厂。

此外，网络700例如是在工厂内构建的LAN(Local Area Network：局域网)、因特网、公共电话网、或者它们的组合。关于网络700中的具体的通信方式、以及有线连接以及无线连接中的哪一个等，没有特别限定。

(系统结构的自由度)

在上述的实施方式中，伺服控制部100-1～100-n和控制辅助部400-1～400-n分别为1对1的组而能够通信地连接，但例如1台控制辅助部也可以经由网络700以能够通信的方式与多个伺服控制部连接，实施各伺服控制部的控制辅助。

此时，1台控制辅助部的各功能也可以适当地作为分散于多个服务器的分散处理系统。另外，1台控制辅助部的各功能也可以在云上利用虚拟服务器功能等来实现。

另外，在存在与n台相同型号名、同一规格、或同一系列的伺服控制部100-1～100-n分别对应的n个控制辅助部400-1～400-n的情况下，各控制辅助部400-1～400-n中的推定结果也可以共享。由此，能够构建更加优化的模型。

以上，对第一、第二、第三实施方式以及2个变形例进行了说明。各实施方式以及各变形例的控制系统所包含的各结构部能够通过硬件、软件或者它们的组合来实现。另外，通过上述控制系统所包含的各结构部各自的协作来进行的伺服控制方法也能够通过硬件、软件或者它们的组合来实现。这里，以软件实现是指通过计算机读取程序并执行来实现。

程序可以使用各种类型的非易失性的计算机可读介质(non-transitorycomputer readable medium)进行保存，并提供给计算机。非暂时性计算机可读介质包括各种类型的有形存储介质。非易失性的计算机可读介质例如是磁记录介质(例如，硬盘驱动器)、光磁记录介质(例如，光磁盘)、CD-ROM(Read Only Memory：只读存储器)、CD-R、CD-R/W、半导体存储器(例如，掩膜ROM、PROM(Programmable ROM：可编程ROM)、EPROM(ErasablePROM：可擦除PROM)、或闪存ROM、RAM(random access memory，随机存取存储器))。

上述的实施方式是本发明的优选实施方式，但不是仅以上述实施方式限定本发明的范围，在不脱离本发明的主旨的范围内能够以实行各种变更的方式进行实施。

本公开的控制辅助装置、控制系统以及控制辅助方法包含上述的实施方式，能够采取具有如下结构的各种各样的实施方式。

(1)一种控制辅助装置(例如，控制辅助部400)，其进行用于对被设置于控制马达(例如，马达150)的伺服控制装置(例如，伺服控制部100)的多个滤波器(例如，滤波器130-1～130-m)的系数的辅助，所述控制辅助装置具备：

共振检测部(例如共振检测部401)，其对基于频率变化的输入信号和输出信号而测定出的、所述伺服控制装置的输入输出增益与输入输出的相位延迟的频率特性中的多个共振点进行检测；以及

共振评价部(例如，共振评价部402)，其计算所述多个共振点的优先级，

所述共振评价部将复平面上的实轴上的点(-1，0)或者点(k，0)(k为小于-1的值)、与根据所述输入输出增益和所述输入输出的相位延迟的频率特性而计算出的奈奎斯特轨迹上的共振点之间的距离作为基准来计算所述优先级。

根据该控制辅助装置，能够求出共振点的优先级。其结果是，能够按照共振点的优先级从高到低的顺序分配滤波器。

(2)根据上述(1)所述的控制辅助装置，其中，所述共振评价部以所述距离和共振频率的大小为基准来计算所述优先级。

(3)根据上述(1)或(2)所述的控制辅助装置，其中，所述共振评价部从优先级高的共振点起各分配1个滤波器。

(4)一种控制系统(例如，控制系统10、10A、10B、10C或10D)，具备：

伺服控制装置(例如，伺服控制部100)，其控制马达；以及

上述(1)至(3)中任一项所述的控制辅助装置(例如，控制辅助部400)，其检测所述伺服控制装置的输入输出增益和输入输出的相位延迟的频率特性中的多个共振点，计算所述多个共振点的优先级。

根据该控制系统，能够求出共振点的优先级。其结果是，能够按照共振点的优先级从高到低的顺序分配滤波器。

(5)根据上述(4)所述的控制系统具备：机器学习装置(例如机器学习部500)，其基于所述多个共振点的优先级，使从优先级高的共振点起依次分配的滤波器的系数最佳化。

根据该控制系统，能够简化滤波器的系数的调整并在短时间内进行。

(6)根据上述(5)所述的控制系统，在即使是所述优先级高的共振点，评价函数也未变好的情况下，所述机器学习装置不应用滤波器。

根据该控制系统，不会无意义地应用滤波器来学习滤波器的系数的最佳值。

(7)根据上述(4)至(6)中任一项所述的控制系统具备：频率生成装置(例如，频率生成部200)，其生成频率改变的信号，并将所述信号输入至所述伺服控制装置；以及

频率特性测定装置(例如，频率特性测定部300)，其基于所述信号和所述伺服控制装置的输出信号来测定所述伺服控制装置的输入输出增益及相位延迟的频率特性。

(8)根据(4)至(6)中任一项所述的控制系统具备：电流反馈环路，其控制在所述马达中流动的电流；以及反馈环路，其包含该电流反馈环路，并具有所述滤波器，所述控制系统具备：

频率生成装置(例如，频率生成部200)，其生成频率变化的第一信号，将所述第一信号输入到所述电流反馈环路；以及

频率特性测定部(例如，频率特性测定部300)，其根据所述第一信号和在所述反馈环路中被输入到所述电流反馈环路的第二信号，测定所述伺服控制装置的输入输出增益和相位延迟的频率特性。

(9)一种控制辅助装置的控制辅助方法(例如，控制辅助部400)，其进行用于对被设置于控制马达(例如，马达150)的伺服控制装置(例如，伺服控制部100)的多个滤波器的系数进行调整的辅助，其中，

检测基于频率变化的输入信号和输出信号而测定出的、所述伺服控制装置的输入输出增益和输入输出的相位延迟的频率特性中的多个共振点，

以复平面上的实轴上的点(-1，0)或者点(k，0)(k为小于-1的值)、与根据所述输入输出增益和所述输入输出的相位延迟的频率特性而计算出的奈奎斯特轨迹上的共振点之间的距离为基准，计算所述多个共振点的优先级。

根据该控制辅助方法，能够求出共振点的优先级。其结果是，能够按照共振点的优先级从高到低的顺序分配滤波器。

附图标记说明

10、10A、10B、10C、10D控制系统

100、100-1～100-n伺服控制部

110减法器

120速度控制部

130、130-1～130-m滤波器

140电流控制部

150马达

200频率生成部

300频率特性测定部

400、400-1～400-n控制辅助部

401共振检测部

402共振评价部

500机器学习部

501状态信息取得部

502学习部

503行为信息输出部

价值函数存储部

505最佳化行为信息输出部

600频率特性推定部

700网络。

Claims

1.一种控制辅助装置，其进行用于对被设置于控制马达的伺服控制装置的多个滤波器的系数进行调整的辅助，其特征在于，具备：

共振评价部，其计算所述多个共振点的优先级，

所述共振评价部将复平面上的实轴上的点(-1，0)或者点(k，0)与根据所述输入输出增益和所述输入输出的相位延迟的频率特性计算出的奈奎斯特轨迹上的共振点之间的距离作为基准来计算所述优先级，其中，k为小于-1的值。

2.根据权利要求1所述的控制辅助装置，其特征在于，

所述共振评价部以所述距离和共振频率的大小为基准计算所述优先级。

3.根据权利要求1或2所述的控制辅助装置，其特征在于，

所述共振评价部从优先级高的共振点起各分配1个滤波器。

4.一种控制系统，其特征在于，具备：

伺服控制装置，其控制马达；以及

权利要求1至3中任一项所述的控制辅助装置，其检测所述伺服控制装置的输入输出增益和输入输出的相位延迟的频率特性中的多个共振点，计算所述多个共振点的优先级。

5.根据权利要求4所述的控制系统，其特征在于，

所述控制系统具备：机器学习装置，其基于所述多个共振点的优先级，使从优先级高的共振点开始依次分配的滤波器的系数最佳化。

6.根据权利要求5所述的控制系统，其特征在于，

在即使是所述优先级高的共振点，评价函数也未变好的情况下，所述机器学习装置不应用滤波器。

7.根据权利要求4至6中任一项所述的控制系统，其特征在于，

所述控制系统具备：频率生成装置，其生成频率改变的信号，并将所述信号输入至所述伺服控制装置；以及

频率特性测定装置，其基于所述信号和所述伺服控制装置的输出信号来测定所述伺服控制装置的输入输出增益以及相位延迟的频率特性。

8.根据权利要求4至6中任一项所述的控制系统，其特征在于，

所述伺服控制装置具备：电流反馈环路，其控制流过所述马达的电流；以及反馈环路，其包含该电流反馈环路，并具有滤波器，

所述控制系统具备：

频率生成装置，其生成频率变化的第一信号，将所述第一信号输入到所述电流反馈环路；以及

频率特性测定部，其根据所述第一信号和在所述反馈环路中被输入到所述电流反馈环路的第二信号，测定所述伺服控制装置的输入输出增益和相位延迟的频率特性。

9.一种控制辅助装置的控制辅助方法，进行用于对被设置于控制马达的伺服控制装置的多个滤波器的系数进行调整的辅助，其特征在于，

检测基于频率改变的输入信号和输出信号而测定出的、所述伺服控制装置的输入输出增益和输入输出的相位延迟的频率特性中的多个共振点，

以复平面上的实轴上的点(-1，0)或点(k，0)与根据所述输入输出增益和所述输入输出的相位延迟的频率特性计算出的奈奎斯特轨迹上的共振点之间的距离为基准，计算所述多个共振点的优先级，其中，k为小于-1的值。