JP2020013268A

JP2020013268A - 機械学習装置、制御装置、及び機械学習方法

Info

Publication number: JP2020013268A
Application number: JP2018134352A
Authority: JP
Inventors: 亮太郎恒木; Ryotaro Tsuneki; 聡史猪飼; Satoshi Igai; 直人園田; Naoto Sonoda
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2020-01-23
Anticipated expiration: 2038-07-17
Also published as: CN110727242B; US20200026248A1; CN110727242A; JP6740290B2; DE102019210397A1; US10901374B2

Abstract

【課題】機械学習の収束時間の短縮化を図る。【解決手段】ＩＩＲフィルタ（１０９２、１１０２）を有するフィードフォワード計算部（１０９、１１０）によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ（３００）を制御するサーボ制御装置（１００）に対して、フィードフォワード計算部のＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置（２００）であって、ＩＩＲフィルタの伝達関数が零になる零点と、伝達関数が無限に発散する極と、をそれぞれ半径ｒと角度θとを用いて表す極座標で表現し、半径ｒと角度θをそれぞれ所定の探索範囲内を探索して学習することで、ＩＩＲフィルタの伝達関数の係数の最適化を行う。【選択図】図１

Description

本発明は、ＩＩＲ（Infinite impulse response；無限インパルス応答）フィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、ＩＩＲフィルタの係数の最適化に係る機械学習を行う機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法に関する。

ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いたサーボ制御装置は、例えば特許文献１に記載されている。
特許文献１は、サーボモータの制御装置に関する発明であり、速度フィードフォワード器（後述する本実施形態の位置フィードフォワード計算部に対応する）が、速度フィード演算器（後述する本実施形態の微分器に対応する）と速度フィードフォワードフィルタから構成され、速度フィードフォワードフィルタとしてＩＩＲフィルタを用いてよいことの記載がある（段落００８０等）。

特開２００３−２３７８５号公報

特許文献１は、ＩＩＲフィルタを用いたフィードフォワード制御を記載しているが、ＩＩＲフィルタの伝達関数の係数の最適化を図る機械学習については記載されていない。

本発明は、ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、サーボモータを制御するサーボ制御装置に対して、ＩＩＲフィルタの伝達関数の係数の最適化を図るための機械学習の収束時間を短縮化できる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置は、ＩＩＲフィルタ（例えば、後述のＩＩＲフィルタ１０９２又は１１０２）を有するフィードフォワード計算部（例えば、後述の速度フィードフォワード計算部１０９又は位置フィードフォワード計算部１１０）によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ（例えば、後述のサーボモータ３００）を制御するサーボ制御装置（例えば、後述のサーボ制御装置１００）に対して、前記ＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）であって、
前記ＩＩＲフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径ｒと角度θとを用いて表す極座標で表現し、半径ｒと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記ＩＩＲフィルタの伝達関数の係数の最適化を行う機械学習装置である。

（２）上記（１）の機械学習装置において、前記半径ｒの探索範囲は減衰率に基づいて規定され、前記角度θの探索範囲は振動を抑える周波数に基づいて規定されるようにしてもよい。

（３）上記（１）又は（２）の機械学習装置において、前記極の探索の前に前記零点の探索を行ってもよい。

（４）上記（１）から（３）のいずれかの機械学習装置において、前記零点を探索するときに、前記極を固定してもよい。

（５）上記（１）から（４）のいずれかの機械学習装置において、前記半径ｒの探索の前に前記角度θの探索を行ってもよい。

（６）上記（１）から（５）のいずれかの機械学習装置において、前記角度θを探索するときに、前記半径ｒを固定値に固定してもよい。

（７）上記（１）から（６）のいずれかの機械学習装置において、前記零点を複素数と共役な複素数で表現してもよい。

（８）上記（１）から（７）のいずれかの機械学習装置において、前記フィードフォワード計算部は速度フィードフォワード計算部又は位置フィードフォワード計算部であってもよい。

（９）上記（１）から（８）のいずれかの機械学習装置において、前記フィードフォワード計算部は速度フィードフォワード計算部であり、
ＩＩＲフィルタを有する位置フィードフォワード計算部を更に有し、
前記位置フィードフォワード計算部のＩＩＲフィルタの伝達関数の最適化の前に、前記速度フィードフォワード計算部のＩＩＲフィルタの伝達関数の最適化を行ってもよい。

（１０）上記（１）から（９）のいずれかの機械学習装置において、所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記フィードフォワード計算部の伝達関数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得部（例えば、後述の状態情報取得部２０１）と、
前記状態情報に含まれる前記伝達関数の係数の調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力部（例えば、後述の行動情報出力部２０３）と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部（例えば、後述の報酬出力部２０２１）と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部（例えば、後述の価値関数更新部２０２２）と、
を備えてもよい。

（１１）上記（１０）の機械学習装置において、前記報酬出力部は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。

（１２）上記（１０）又は（１１）の機械学習装置において、前記価値関数更新部により更新された価値関数に基づいて、前記フィードフォワード計算部の伝達関数の係数の修正情報を生成して出力する最適化行動情報出力部（例えば、後述の最適化行動情報出力部２０５）を備えていてもよい。

（１３）本発明に係る制御装置は、上記（１）から（１２）のいずれかの機械学習装置と、ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置と、を備えた制御装置である。

（１４）上記（１３）の制御装置において、前記機械学習装置は、前記サーボ制御装置に含まれてもよい。

（１５）本発明に係る機械学習方法は、ＩＩＲフィルタ（例えば、後述のＩＩＲフィルタ１０９２又は１１０２）を有するフィードフォワード計算部（例えば、後述の速度フィードフォワード計算部１０９又は位置フィードフォワード計算部１１０）によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ（例えば、後述のサーボモータ３００）を制御するサーボ制御装置（例えば、後述のサーボ制御装置１００）に対して、前記ＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）の機械学習方法であって、
前記ＩＩＲフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径ｒと角度θとを用いて表す極座標で表現し、半径ｒと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記ＩＩＲフィルタの伝達関数の係数の最適化を行う機械学習方法である。

本発明によれば、ＩＩＲフィルタの伝達関数の係数の最適化を図るための機械学習の収束時間を短縮化できる。

本発明の一実施形態の制御装置の一構成例を示すブロック図である。サーボ制御装置の制御対象の一例となる、サーボモータを含む工作機械の一部を示すブロック図である。加工形状が八角形の場合のサーボモータの動作を説明するための図である。加工形状が、八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。極と零点との探索範囲を示す複素平面の説明図である。本実施形態の機械学習装置を示すブロック図である。本実施形態の機械学習装置の動作を説明するフローチャートである。本実施形態の機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。他の構成の制御装置を示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
図１は本発明の一実施形態の制御装置の一構成例を示すブロック図である。図１に示す制御装置１０は、サーボ制御装置１００と機械学習装置２００とを備えている。

サーボモータ３００は、サーボ制御装置１００の制御対象であり、例えば工作機械、ロボット、又は産業機械等に含まれる。サーボ制御装置１００はサーボモータ３００とともに、工作機械，ロボット，産業機械等の一部として設けられてもよい。

最初に、サーボ制御装置１００について説明する。
サーボ制御装置１００は、位置指令作成部１０１、減算器１０２、位置制御部１０３、加算器１０４、減算器１０５、速度制御部１０６、加算器１０７、積分器１０８、速度フィードフォワード計算部１０９、及び位置フィードフォワード計算部１１０を備えている。速度フィードフォワード計算部１０９は２回微分器１０９１とＩＩＲフィルタ１０９２とを備えている。また、位置フィードフォワード計算部１１０は微分器１１０１とＩＩＲフィルタ１１０２とを備えている。

位置指令作成部１０１は位置指令値を作成し、作成した位置指令値を、減算器１０２、速度フィードフォワード計算部１０９、位置フィードフォワード計算部１１０、及び機械学習装置２００に出力する。減算器１０２は位置指令値と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１０３及び機械学習装置２００に出力する。

位置指令作成部１０１は、サーボモータ３００を動作させるプログラムに基づいて位置指令値を作成する。サーボモータ３００は、例えば工作機械に含まれる。工作機械において、被加工物（ワーク）を搭載するテーブルがＸ軸方向及びＹ軸方向に移動される場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図１に示すサーボ制御装置１００及びサーボモータ３００が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置１００及びサーボモータ３００が設けられる。
位置指令作成部１０１は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。

位置制御部１０３は、位置偏差にポジションゲインＫｐを乗じた値を、速度指令値として加算器１０４に出力する。

加算器１０４は、速度指令値と位置フィードフォワード計算部１１０の出力値（位置フィードフォワード項）とを加算して、フィードフォワード制御された速度指令値として減算器１０５に出力する。減算器１０５は加算器１０４の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１０６に出力する。

速度制御部１０６は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令値として加算器１０７に出力する。

加算器１０７は、トルク指令値と速度フィードフォワード計算部１０９の出力値（速度フィードフォワード項）とを加算して、フィードフォワード制御されたトルク指令値としてサーボモータ３００に出力してサーボモータ３００を駆動する。

サーボモータ３００の回転角度位置は、サーボモータ３００に関連付けられた、位置検出部となるロータリーエンコーダによって検出され、速度検出値は速度フィードバックとして減算器１０５に入力される。速度検出値は積分器１０８で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器１０２に入力される。

速度フィードフォワード計算部１０９の２回微分器１０９１は、位置指令値を２回微分して定数αを掛け、ＩＩＲフィルタ１０９２は２回微分器１０９１の出力に、数式１（以下に数１として示す）で示された伝達関数ＶＦＦ（ｚ）で示されるＩＩＲフィルタ処理を行い、その処理結果を速度フィードフォワード項として、加算器１０７に出力する。数式１の係数ａ_１、ａ_２、ｂ_０〜ｂ_２はＩＩＲフィルタ１０９２の伝達関数の各係数である。なお、ここでは、伝達関数ＶＦＦ（ｚ）の分母及び分子は、ともに２次関数となっているが特に２次関数に限定されず、３次関数以上であってもよい。

位置フィードフォワード計算部１１０の微分器１１０１は、位置指令値を微分して定数βを掛け、ＩＩＲフィルタ１１０２は微分器１１０１の出力に、数式２（以下に数２として示す）で示す伝達関数ＰＦＦ（ｚ）で示されたＩＩＲフィルタ処理を行い、その処理結果を位置フィードフォワード項として、加算器１０４に出力する。数式２の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２はＩＩＲフィルタ１１０２の伝達関数の各係数である。ここでは、伝達関数ＰＦＦ（ｚ）の分母及び分子は、ともに２次関数となっているが特に２次関数に限定されず、３次関数以上であってもよい。

以上のように、サーボ制御装置１００は構成される。

次に、サーボ制御装置１００により制御されるサーボモータ３００を含む制御対象４００について説明する。
図２はサーボ制御装置１００の制御対象４００の一例となる、サーボモータ３００を含む工作機械の一部を示すブロック図である。
サーボ制御装置１００は、サーボモータ３００で連結機構３０２を介してテーブル３０３を移動させることで、テーブル３０３の上に搭載された被加工物（ワーク）を加工する。連結機構３０２は、サーボモータ３００に連結されたカップリング３０２１と、カップリング３０２１に固定されるボールねじ３０２３とを有し、ボールねじ３０２３にナット３０２２が螺合されている。サーボモータ３００の回転駆動によって、ボールねじ３０２３に螺着されたナット３０２２がボールねじ３０２３の軸方向に移動する。ナット３０２２の移動によってテーブル３０３が移動する。

サーボモータ３００の回転角度位置は、サーボモータ３００に関連付けられた、位置検出部となるロータリーエンコーダ３０１によって検出される。上述したように、検出された信号は速度フィードバックとして利用される。検出された信号は積分器１０８で積分することで位置フィードバックとして利用される。なお、ボールねじ３０２３の端部に取り付けられ、ボールねじ３０２３の移動距離を検出するリニアスケール３０４出力を位置フィードバックとして用いてもよい。また、加速度センサを用いて位置フィードバックを生成してもよい。

＜機械学習装置２００＞

機械学習装置２００は、予め設定された加工プログラム（以下、「学習時の加工プログラム」ともいう）を実行することで、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数の係数、及び位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数の係数を学習する。
ここで、学習時の加工プログラムにより指定される加工形状は、例えば、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形等である。なお、学習時の加工プログラムにより指定される加工形状はこれらの加工形状に限定されず、他の加工形状であってもよい。

図３は、加工形状が八角形の場合のモータの動作を説明するための図である。図４は、加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。図３及び図４において、被加工物（ワーク）が時計まわりに加工されるようにテーブルがＸ軸及びＹ軸方向に移動するものとする。

加工形状が八角形の場合は、図３に示すように、角の位置Ａ１で、テーブルをＹ軸方向に移動するモータは回転速度が遅くなり、テーブルをＸ軸方向に移動するモータは回転速度が速くなる。
角の位置Ａ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。また、テーブルをＸ軸方向に移動するモータは、位置Ａ１から位置Ａ２及び位置Ａ２から位置Ａ３にかけて、同じ回転方向で、等速度で回転する。

角の位置Ａ３で、テーブルをＹ軸方向に移動するモータは回転速度が速くなり、テーブルをＸ軸方向に移動するモータは回転速度が遅くなる。
角の位置Ａ４で、テーブルをＸ軸方向に移動するモータは、回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。また、テーブルをＹ軸方向に移動するモータは、位置Ａ３から位置Ａ４及び位置Ａ４から次の角の位置にかけて、同じ回転方向で、等速度で回転する。

加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合は、図４に示すように、角の位置Ｂ１で、テーブルをＹ軸方向に移動するモータは回転速度が遅くなり、テーブルをＸ軸方向に移動するモータは回転速度が速くなる。
円弧の位置Ｂ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。また、テーブルをＸ軸方向に移動するモータは位置Ｂ１から位置Ｂ３にかけて同じ回転方向で、等速度で回転する。図３に示した加工形状が八角形の場合と異なり、テーブルをＹ軸方向に移動するモータは位置Ｂ２の前後で円弧の加工形状が形成されるように、位置Ｂ２に向かって徐々に減速され、位置Ｂ２で回転が停止され、位置Ｂ２を過ぎると回転方向が徐々に増加していく。

角の位置Ｂ３で、テーブルをＹ軸方向に移動するモータは回転速度が速くなり、テーブルをＸ軸方向に移動するモータは回転速度が遅くなる。
円弧の位置Ｂ４で、テーブルをＸ軸方向に移動するモータは、回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。また、テーブルをＹ軸方向に移動するモータは位置Ｂ３から位置Ｂ４、及び位置Ｂ４から次の角の位置にかけて同じ回転方向で、等速度で回転する。テーブルをＸ軸方向に移動するモータは位置Ｂ４の前後で円弧の加工形状が形成されるように、位置Ｂ４に向かって徐々に減速され、位置Ｂ４で回転が停止され、位置Ｂ４を過ぎると回転方向が徐々に増加していく。

本実施形態では、以上説明した、学習時の加工プログラムにより指定される加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３により、線形制御において回転速度が変更されたときの振動を評価し、位置偏差に対する影響を調べることで、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数の係数、及び位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数の係数の最適化に係る機械学習を行うものとする。なお、ＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習は、速度フィードフォワード計算部、位置フィードフォワード計算部に特に限定されるものでなく、例えば、サーボ制御装置の電流フィードフォワードを行う場合に設けられる、ＩＩＲフィルタを有する電流フィードフォワード計算部にも適用可能である。

以下、機械学習装置２００について更に詳細に説明する。
本実施形態の機械学習装置２００は、機械学習の一例として、後述するように、サーボ制御装置１００においてそれぞれ速度ループと位置ループを構成する、速度フィードフォワード計算部１０９と位置フィードフォワード計算部１１０の伝達関数の係数の最適化に係る強化学習を行うものとして説明する。なお、本発明における機械学習は強化学習に限定されず、他の機械学習（例えば教師あり学習）を行う場合にも適用できる。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式３（以下に数３として示す）により表すことができる。

上記の数式３において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。
機械学習装置２００は、図１に示す、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数と、位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数とを機械学習（以下、学習という）する。

機械学習装置２００は、ＩＩＲフィルタ１１０２より内側（インナーループ）にあるＩＩＲフィルタ１０９２の伝達関数の係数の学習をＩＩＲフィルタ１１０２の伝達関数の係数の学習よりも先に行う。具体的には、ＩＩＲフィルタ１１０２の伝達関数の係数を固定し、ＩＩＲフィルタ１０９２の伝達関数の係数の最適な値を学習する。その後に、機械学習装置２００は、ＩＩＲフィルタ１０９２の伝達関数の係数を学習で得られた最適な値に固定して、ＩＩＲフィルタ１１０２の伝達関数の係数を学習する。ＩＩＲフィルタ１０９２の伝達関数の係数の学習をＩＩＲフィルタ１１０２の伝達関数の係数の学習よりも先に行うことで、学習により最適化された速度フィードフォワード項（ＩＩＲフィルタ１０９２の出力）の条件下で、ＩＩＲフィルタ１１０２の伝達関数の係数の最適化に係る学習を行うことができる。

ＩＩＲフィルタ１０９２の伝達関数の係数の学習と、ＩＩＲフィルタ１１０２の伝達関数の係数の学習とは同時に行ってもよいが、同時に学習を行うと、機械学習の情報処理量が増大して機械学習の収束時間が長くなる。

上述したように、まず、機械学習装置２００は、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数の係数の機械学習を行う。機械学習装置２００は、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Ｓとして、当該状態Ｓに係る、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２の調整を行動Ａとして選択する価値Ｑを学習する。
具体的には、本発明の実施形態に係る機械学習装置２００は、伝達関数ＶＦＦ（ｚ）の零点及び極を極座標で表した半径ｒと角度θとをそれぞれ所定の範囲内を探索して学習することで、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数を設定する。なお、極は伝達関数ＶＦＦ（ｚ）が無限大になるｚの値、零点は、伝達関数ＶＦＦ（ｚ）が０になるｚの値である。
このため、伝達関数ＶＦＦ（ｚ）の分子における係数を次のように変形する。
ｂ_０＋ｂ_１ｚ^−１＋ｂ_２ｚ^−２＝ｂ_０（１＋（ｂ_１／ｂ_０）ｚ^−１＋（ｂ_２／ｂ_０）ｚ^−２）
以下、特に断らない限り（ｂ_１／ｂ_０）及び（ｂ_２／ｂ_０）をそれぞれｂ_１´及びｂ_２´で表して説明する。
そして、機械学習装置２００は、位置偏差が最小になるような半径ｒと角度θを学習して、伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_１´及びｂ_２´を設定する。
係数ｂ_０は例えば半径ｒ及び角度θをそれぞれ最適な値ｒ_０及びθ_０に設定した後、機械学習して求めてもよい。係数ｂ_０は角度θと同時に学習してもよい。また、半径ｒと同時に学習するようにしてもよい。

その後に、ＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２の学習をＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）と同様の方法で行う。以下の説明では、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数の学習について説明するが、位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数の学習も同様にして行われる。

機械学習装置２００は、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２の値に基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３における、サーボ制御装置１００の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点、極の値に基づいて算出される係数の値に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓに対して、最適な行動Ａ（すなわち、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の最適な零点及び極の値）を選択することが可能となる。位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３とでは、Ｘ軸方向及びＹ軸方向のサーボモータの回転方向は変わらず、機械学習装置２００は線形動作時のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点及び極の値の学習を行うことができる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係るＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）に対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動Ａ（すなわち、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点及び極の値）を選択することが可能となる。

位置偏差が最小になるような、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点及び極を極座標で表した半径ｒと角度θを学習して、伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_１´、ｂ_２´を求める方法、及び係数ｂ_０を求める方法について以下に説明する。

機械学習装置２００は、ＩＩＲフィルタ１０９２から取得した、数式１の伝達関数ＶＦＦ（ｚ）が無限大になるｚである極、伝達関数ＶＦＦ（ｚ）が０になるｚである零点を設定する。
機械学習装置２００は、極及び零点を求めるために、数式１の分母及び分子にｚ^２を掛けて、数式４（以下に数４として示す）を求める。

極は数式４の分母が０となるｚ、即ちｚ^２＋ａ_１ｚ＋ａ_２＝０となるｚであり、零点は数式４の分子が０となるｚ、即ちｚ^２＋ｂ_１´ｚ＋ｂ_２´＝０となるｚである。

本実施形態では極及び零点を極座標で表し、極座標で表された極と零点を探索する。
振動を抑制するためには零点が重要であり、機械学習装置２００は、まず、極を固定して、分子（ｚ^２＋ｂ_１´ｚ＋ｂ_２´）において
ｚ＝ｒｅ^ｉθ及びその共役複素数ｚ^＊＝ｒｅ-^ｉθを零点（角度θは所定の範囲内、０≦ｒ≦１）とした場合に算出される係数ｂ_１´（＝−ｒｅ^ｉθ−ｒｅ-^ｉθ）及びｂ_２´（＝ｒ^２）を伝達関数ＶＦＦ（ｚ）の係数として設定することで、極座標で零点ｒｅ^ｉθを探索して最適な係数ｂ_１´、ｂ_２´の値を学習する。半径ｒは減衰率をに依存し、角度θは振動を抑える周波数に依存している。その後、零点を最適な値に固定して、係数ｂ_０の値を学習してもよい。次に、伝達関数ＶＦＦ（ｚ）の極を極座標で表し、極座標で表された極の値ｒｅ^ｉθを、前述した零点と同様の方法で探索する。そうすることで、伝達関数ＶＦＦ（ｚ）の分母の最適な係数ａ_１、ａ_２の値を学習することができる。
なお、極を固定して伝達関数ＶＦＦ（ｚ）の分子における係数を学習する場合、高周波側のゲインを抑えることができれば十分であり、例えば、極は２次のローパスフィルタ相当とする。例えば、２次のローパスフィルタの伝達関数は数式５（以下に数５として示す）で示される。ωはフィルタのピークゲイン周波数である。

なお、極を３次のローパスフィルタとする場合には、伝達関数が、１／（１＋Ｔｓ）で示される一次のローパスフィルタ（Ｔはフィルタの時定数である）を３個設けて構成したり、この一次のローパスフィルタと数式５の２次のローパスフィルタとを組み合わせて構成することができる。
なお、ｚ領域における伝達関数は上記のｓ領域の伝達関数を双一次変換を用いて求めるものとする。

なお、伝達関数ＶＦＦ（ｚ）の極と零点とは同時に探索することができるが、極と零点とを別に探索して別に学習することで、機械学習量を低減し、学習時間を短縮することができる。

極と零点の探索範囲は図５の複素平面において、半径ｒを、例えば０≦ｒ≦１の範囲とし、角度θを、速度ループの応答できる周波数範囲で規定して、斜線領域で示す所定の探索範囲に絞ることができる。周波数の範囲は、例えば、速度ループの共振で生ずる振動は２００Ｈｚ程度であるため、周波数範囲の上限を２００Ｈｚとすることができる。探索範囲は工作機械等の制御対象の共振特性で決められるが、サンプリング周期を１ｍsecとしたときに、角度θは約２５０Ｈｚで９０度に対応するため、周波数範囲の上限を２００Ｈｚとすると、図５の複素平面のような角度θの探索範囲となる。このように探索範囲を所定の範囲に絞ることで、機械学習量を低減し、機械学習の収束時間を短縮化することができる。

極座標で零点を探索する場合、まず、係数ｂ_０を例えば１に固定し、半径ｒを、（０≦ｒ≦１）の範囲内の任意の値に固定し、上記の図５で示す探索範囲において角度θを試行的に設定してｚ及びその共役複素数ｚ^＊が、（ｚ^２＋ｂ_１´ｚ＋ｂ_２´）の零点となるような係数ｂ_１´（＝−ｒｅ^ｊθ−ｒｅ-^ｊθ）及びｂ_２´（＝ｒ^２）を設定する。角度θの初期設定値は図５で示す探索範囲で設定される。
機械学習装置２００は、求めた係数ｂ_１´及びｂ_２´の調整情報を行動ＡとしてＩＩＲフィルタ１０９２に送り、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_１´及びｂ_２´を設定する。係数ｂ_０は上記のように例えば１に設定されている。機械学習装置２００が角度θの探索を行う学習により価値Ｑの値が最大となるような、好適な角度θ_０が決定されると、その後に、角度θをその角度θ_０に固定して半径ｒを可変とし、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_１´（＝−ｒｅ^ｊθ−ｒｅ-^ｊθ）及びｂ_２´（＝ｒ^２）を設定する。半径ｒの探索を行う学習により、価値Ｑの値が最大となるような、最適な半径ｒ_０が決定される。角度θ_０及び半径ｒ_０により係数ｂ_１´及びｂ_２´が設定され、その後、ｂ_０について学習することで、伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_０、ｂ_１´及びｂ_２´が決定される。

極座標で極を探索する場合についても、伝達関数ＶＦＦ（ｚ）の分子と同様に学習することができる。まず、半径ｒを（例えば、０≦ｒ≦１）の範囲の値に固定し、零点の探索と同様に、上記の探索範囲において角度θを探索して、学習によりＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の極の好適な角度θが決定されると、その後に、角度θをその角度に固定して半径ｒを探索して学習することにより、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の極の好適な角度θ及び好適な半径ｒが決定される。そうすることで、極の好適な角度θ及び好適な半径ｒに対応する最適な係数ａ_１、ａ_２が決定される。なお、既に述べたように、半径ｒは減衰率に依存し、角度θは振動を抑える周波数に依存しており、振動を抑制するためには角度θを半径よりも先に学習することが望ましい。

以上のようにして、位置偏差が最小になるように、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点及び極を極座標で表した半径ｒと角度θとをそれぞれ所定の範囲内を探索して学習することで、伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０、ｂ_１´及びｂ_２´の最適化を、係数ａ_１、ａ_２、ｂ_０、ｂ_１´及びｂ_２´を直接学習するよりも、効率よく行うことができる。

なお、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_０の学習に際しては、例えば、係数ｂ_０の初期値を１にして、その後行動Ａに含まれる、伝達関数ＶＦＦ（ｚ）の係数ｂ_０をインクレメンタルに加算又は減算させる。係数ｂ_０の初期値は１に限られない。係数ｂ_０の初期値は任意の値に設定することができる。機械学習装置２００は、行動Ａをするたびに位置偏差に基づいて報酬を与え、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する強化学習により価値Ｑの値が最大となるような好適な値に伝達関数ＶＦＦ（ｚ）の係数ｂ_０を調整する。係数ｂ_０の学習は、ここでは半径ｒの学習後としているが、角度θと同時学習でもよいし、半径ｒと同時学習でもよい。
なお、半径ｒと角度θと係数ｂ_０は同時に学習してもよいが、別々に学習することで、機械学習量を低減し、機械学習の収束時間を短縮化することができる。

ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数の最適化に係る学習が終了すると、次にＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数の最適化に係る学習を行う。
機械学習装置２００は、極及び零点を求めるために、数式２の分母及び分子にｚ^２を掛けて、数式６（以下に数６として示す）を求める。

数式６のｄ_１´及びｄ_２´は、（ｄ_１／ｄ_０）及び（ｄ_２／ｄ_０）に対応している。
これ以降のＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の零点及び極を極座標で表した半径ｒと角度θを学習して、伝達関数ＰＦＦ（ｚ）の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２の最適化を行うことは、上述した、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点及び極を極座標で表した半径ｒと角度θを学習の場合と同様なので、説明を省略する。

図６は本実施形態の機械学習装置２００を示すブロック図である。以下の説明は、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数の学習について行うが、その後に行う位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数の係数の学習についても同様に行われる。
上述した強化学習を行うために、図６に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、サーボ制御装置１００における速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２の値に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓを、サーボ制御装置１００から取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部２０１は、取得した状態情報Ｓを学習部２０２に対して出力する。また、状態情報取得部２０１は、零点及び極を極座標で表した角度θ、半径ｒと、これに対応する係数ａ_１、ａ_２、ｂ_１´、ｂ_２´と、を行動情報生成部２０２３から取得して記憶しており、サーボ制御装置１００から取得した係数ａ_１、ａ_２、ｂ_１´、ｂ_２´に対応する零点及び極を極座標で表した角度θ、半径ｒも合わせて学習部２０２に対して出力する。

なお、最初にＱ学習を開始する時点でのＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の初期設定は、予めユーザが設定するようにする。本実施形態では、その後、ユーザが初期設定したＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２を、前述したとおり、零点及び極を極座標で表した半径ｒ及び角度θをそれぞれ所定の範囲内を探索する強化学習により最適なものに調整する。速度フィードフォワード計算部１０９の２回微分器１０９１の係数αは固定値とし、例えばα＝１とする。また、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分母の初期設定については、数５で示したもの（を双一次変換のより変換されたｚ領域の伝達関数）とする。また、伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_０〜ｂ_２の初期設定については、例えばｂ_０＝１、ｒを０≦ｒ≦１の範囲内の値、θを前述した所定の探索範囲内の値とすることができる。
なお、位置フィードフォワード計算部１１０の初期設定についても同様にする。
また、係数ａ_１、ａ_２、ｂ_０〜ｂ_２及び係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２は予め操作者が工作機械を調整している場合には、調整済の伝達関数の零点及び極を極座標で表した半径ｒと角度θの値を初期値として機械学習してもよい。

学習部２０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。なお行動Ａは、例えば、係数ｂ_０を１として固定し、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_１´、ｂ_２´の修正情報を、伝達関数ＶＦＦ（ｚ）の零点を極座標で表した半径ｒと角度θの修正情報に基づいて算出する。以下の説明では、係数ｂ_０が例えば１として初期設定され、行動情報Ａが係数ｂ_１´、ｂ_２´の修正情報である場合を例として説明する。

報酬出力部２０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。ここで、状態Ｓにおける状態変数である位置偏差の集合（位置偏差集合）をＰＤ（Ｓ）、行動情報Ａにより状態Ｓから変化した状態情報Ｓ´に係る状態変数である位置偏差集合をＰＤ（Ｓ´）で示す。また、状態Ｓにおける位置偏差の値を、予め設定された評価関数ｆ（ＰＤ（Ｓ））に基づいて算出される値とする。
評価関数ｆとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝
等を適用することができる。

このとき、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を負の値とする。

一方で、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも小さくなった場合に、報酬出力部２０２１は、報酬の値を正の値とする。
なお、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード計算部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））と等しい場合は、報酬出力部２０２１は、報酬の値をゼロとする。

また、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部２０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部２０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボ制御装置１００のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_１´、ｂ_２´を、零点を極座標で表した半径ｒと角度θに基づいて修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部２０３に対して出力する。
より具体的には、行動情報生成部２０２３は、例えば、極座標で零点を探索するために、数式４の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０が固定された状態で、分子（ｚ^２＋ｂ_１´ｚ＋ｂ_２´）においてｚの零点をｒｅ^ｉθとして、状態情報取得部２０１から受けた半径ｒを固定した状態で、状態情報取得部２０１から受けた角度θを図５の探索範囲内で増加又は減少させる。そして、固定した半径ｒ及び増加又は減少させた角度θにより、零点とするｚ及びその共役複素数ｚ^＊を設定し、当該零点に基づいて係数ｂ_１´、ｂ_２´を新たに求める。

行動情報生成部２０２３は、角度θを増加又は減少させて、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_１´、ｂ_２´を新たに設定することで状態Ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、角度θを前回のアクションと同様に増加又は減少等、位置偏差の値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動Ａ´としては、例えば、角度θを、前回のアクションとは逆に減少又は増加等、位置偏差が前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報生成部２０２３は、角度θの探索を続けて、最適化行動情報出力部２０５からの後述する最適化行動情報によって、学習により価値Ｑの値が最大となるような好適な角度θ_０が決定されると、その後に、角度θをその角度θ_０に固定して半径ｒを０≦ｒ≦１の範囲内で探索し、角度θの探索と同様にＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数ｂ_１´、ｂ_２´を設定する。行動情報生成部２０２３は、半径ｒの探索を続けて、最適化行動情報出力部２０５からの後述する最適化行動情報によって、学習により、価値Ｑの値が最大となるような好適な半径ｒ_０が決定されると、分子の最適な係数ｂ_１´、ｂ_２´が決定される。その後、前述したように、係数ｂ_０を学習することで、伝達関数ＶＦＦ（ｚ）の分子の係数の最適値が学習される。

その後、行動情報生成部２０２３は、伝達関数ＶＦＦ（ｚ）の分母に係る伝達関数の係数を上記同様に極を極座標で表した半径ｒ及び角度θに基づいて探索する。なお、その学習は、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の場合と同様に極を極座標で表した半径ｒ及び角度θを強化学習により最適なものに調整する。その際、伝達関数ＶＦＦ（ｚ）の分子の場合と同様に角度θを学習した後に半径ｒを学習する。学習方法は伝達関数ＶＦＦ（ｚ）の零点の探索の場合と同様のため、詳細な説明は省略する。

行動情報出力部２０３は、学習部２０２から出力される行動情報Ａをサーボ制御装置１００に対して送信する部分である。サーボ制御装置１００は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されているＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の零点を極座標で表した半径ｒ及び角度θを微修正することで、次の状態Ｓ´（すなわち修正された零点に対応する、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_１´、ｂ_２´）に遷移する。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を速度フィードフォワード計算部１０９に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置１００（速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２）に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、角度θ、半径ｒ及び係数ｂ_０の学習によって、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数を修正する情報が含まれる。

サーボ制御装置１００では、角度θ、半径ｒ及び係数ｂ_０に基づく、行動情報に基づいてＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子に係る伝達関数の係数が修正される。
機械学習装置２００は、以上の動作で、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数の最適化を行った後に、その最適化と同様に、角度θ及び半径ｒの学習によって、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分母の係数の最適化を行う。その後、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数の学習と最適化と同様に、角度θ、半径ｒ及び係数ｄ_０の学習によって、ＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数の学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置２００を利用することで、サーボ制御装置１００の速度フィードフォワード計算部１０９及び位置フィードフォワード計算部１１０のパラメータ調整を簡易化することができる。

以上、サーボ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図７のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２００の動作について説明をする。なお、図７に記載のフローチャートは、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の伝達関数に係る係数ｂ_０〜ｂ_２を決定するための角度θ、半径ｒ及び係数ｂ_０の学習に関するフローチャートである。
以下のフローチャートでは、速度フィードフォワード計算部１０９のＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の伝達関数に係る係数ｂ_０〜ｂ_２を決定するための伝達関数ＶＦＦ（ｚ）の零点を極座標で表した角度θ、半径ｒ及び係数ｂ_０の学習を例として説明するが、分母の伝達関数に係る係数ａ_１、ａ_２を決定するための極を極座標で表した角度θ及び半径ｒの学習も同様のフローチャートで行うことができる。また、その後に行う位置フィードフォワード計算部１１０のＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２を決定するための伝達関数ＰＦＦ（ｚ）の零点及び極を極座標で表した角度θ、半径ｒ及び係数ｄ_０の学習に関するフローチャートについても、図７に記載したフローチャートと同様に行われるため、説明は省略する。

ステップＳ１１において、状態情報取得部２０１がサーボ制御装置１００から状態情報Ｓを取得する。取得した状態情報は、価値関数更新部２０２２や行動情報生成部２０２３に対して出力される。上述したように、この状態情報Ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２が含まれる。なお、学習を最初に開始した状態情報Ｓ_０は、初期設定値であり、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子に係る係数ｂ_０及び分母に係る係数ａ_１、ａ_２は固定値とされる。こうして、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２が初期値であるときの、所定の送り速度且つ円の加工形状に対応する位置偏差の集合ＰＤ(Ｓ)が取得される。

状態Ｓ_０における位置偏差の値ＰＤ（Ｓ_０）は、最初にＱ学習を開始する時点での減算器１０２から、学習時の加工プログラムでサーボ制御装置１００を動作させることで得られる。位置指令作成部１０１は、加工プログラムにより指定された所定の加工形状で、例えば、八角形の加工形状で、位置指令を順次出力する。例えば、八角形の加工形状に対応する位置指令値が位置指令作成部１０１から出力され、その位置指令値が減算器１０２、速度フィードフォワード計算部１０９、位置フィードフォワード計算部１１０及び機械学習装置２００に出力される。減算器１０２は、前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３における、位置指令値と積分器１０８から出力される検出位置との差を位置偏差ＰＤ（Ｓ_０）として機械学習装置２００に出力する。なお、機械学習装置２００において、前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３における、位置指令値と積分器１０８から出力される検出位置との差を位置偏差ＰＤ（Ｓ_０）として抽出するようにしてもよい。

ステップＳ１２において、行動情報生成部２０２３は、前述したとおり、零点を極座標で表した半径ｒ及び角度θに基づいて、角度θ、半径ｒ、係数ｂ_０の順番に新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部２０３を介してサーボ制御装置１００に対して出力する。行動情報生成部２０２３は前述した方策に基づいて、新たな行動情報Ａを出力する。
なお、行動情報Ａを受信したサーボ制御装置１００は、受信した行動情報に基づいて現在の状態Ｓに係るＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_１´、ｂ_２´を修正した状態Ｓ´により、サーボモータ３００を含む工作機械を駆動させる。上述したように、この行動情報は、Ｑ学習における行動Ａに相当するものである。

ステップＳ１３において、状態情報取得部２０１は、減算器１０２から新たな状態Ｓ´における位置偏差ＰＤ（Ｓ´）、及びＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ｂ_１´、ｂ_２´を取得する。こうして、状態情報取得部２０１は、状態Ｓ´における伝達関数ＶＦＦ（ｚ）の係数であるときの、八角形の加工形状（具体的には、前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３）に対応する位置偏差の集合ＰＤ（Ｓ´）を取得する。取得した状態情報は、報酬出力部２０２１に対して出力される。

ステップＳ１４において、報酬出力部２０２１は、状態Ｓ´における位置偏差の値ｆ（ＰＤ（Ｓ´））と状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））との大小関係を判断し、ｆ（ＰＤ（Ｓ´））＞ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ＰＤ（Ｓ´））＜ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ＰＤ（Ｓ´））＝ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部２０２２が、価値関数記憶部２０４に記憶している価値関数Ｑを更新する。なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
次に、ステップＳ１９において、角度θの学習が終了していない場合には再度ステップＳ１１に戻り、終了している場合はステップＳ２０に進む。
次に、ステップＳ２０において、半径ｒの学習が終了していない場合には再度ステップＳ１１に戻り、終了している場合はステップＳ２１に進む。
次に、ステップＳ２１において、係数ｂ_０の学習が終了していない場合には再度ステップＳ１１に戻り、終了している場合は処理を終了する。
なお、ステップＳ１１に戻り、上述したステップＳ１１〜Ｓ２１の処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として角度θ、半径ｒ及び係数の学習を終了するようにしてもよい。

以上、図７等を参照して説明した動作により、本実施形態で一例として説明した機械学習装置２００により、ＩＩＲフィルタ１０９２及びＩＩＲフィルタ１１０２の各伝達関数の零点及び極を極座標で表した半径ｒと角度θの値をそれぞれ所定範囲内を探索して学習することで、ＩＩＲフィルタ１０９２及びＩＩＲフィルタ１１０２の各伝達関数の係数の最適化に要する学習時間をより短縮化することができる、という効果を奏する。
次に、図８のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ３１において、最適化行動情報出力部２０５は、価値関数記憶部２０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。

ステップＳ３２において、最適化行動情報出力部２０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置１００のＩＩＲフィルタ１０９２に対して出力する。
機械学習装置２００は、以上の動作で、ＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の分子の係数を決定するための零点を極座標で表した角度θ、半径ｒ及び係数ｂ_０の最適化を行った後に、分母の伝達関数に係る係数ａ_１、ａ_２を決定するための極を極座標で表した角度θ及び半径ｒの最適化を行う。同様な動作で、ＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２を決定するために、伝達関数ＰＦＦ（ｚ）の零点及び極を極座標で表わす際の角度θ、半径ｒによる学習及び係数ｄ_０の学習及び最適化を行う。

また、図８を参照して説明した動作により、本実施形態では、機械学習装置２００により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、サーボ制御装置１００が、この最適化行動情報に基づいて、現在設定されているＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２の調整を簡易化するとともに、位置偏差の値を低減することができる。また、速度フィードフォワードをより高次元のものに初期設定して、機械学習装置２００により学習することで、位置偏差の値をさらに低減することができる。ＩＩＲフィルタ１１０２の伝達関数ＰＦＦ（ｚ）の係数ｃ_１、ｃ_２、ｄ_０〜ｄ_２の調整についてもＩＩＲフィルタ１０９２の伝達関数ＶＦＦ（ｚ）の係数ａ_１、ａ_２、ｂ_０〜ｂ_２の調整と同様に、位置偏差の値を低減することができる。

本実施形態においては、報酬出力部２０２１は、報酬の値を、状態Ｓにおける位置偏差ＰＤ（Ｓ）を入力として予め設定された評価関数ｆ（ＰＤ（Ｓ））に基づいて算出される状態Ｓの位置偏差の値ｆ（ＰＤ（Ｓ））と、状態Ｓ´における位置偏差ＰＤ（Ｓ´）を入力として評価関数ｆに基づいて算出される状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））とを比較することで算出した。
しかし、報酬の値の算出にあたっては位置偏差以外の他の要素を加えてもよい。
例えば、機械学習装置２００に、減算器１０２の出力となる位置偏差の他に、加算器１０４の出力となる位置フォワード制御された速度指令、位置フォワード制御された速度指令と速度フィードバックとの差、及び加算器１０７の出力となる位置フォワード制御されたトルク指令等の少なくとも１つが加えられてもよい。

また、フィードフォワード計算部として、位置フィードフォワード計算部か速度フィードフォワード計算部かのいずれかを備えるものとしてもよい。その場合、例えば、位置フィードフォワード計算部のみを設けるときには、２回微分器１０９１、ＩＩＲフィルタ１０９２、加算器１０７は不要となる。
上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜サーボ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００を、サーボ制御装置１００とは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボ制御装置１００により実現するようにしてもよい。

＜システム構成の自由度＞
図９は他の構成の制御装置を示すブロック図である。制御装置１０Ａは、図９に示すように、ｎ（ｎは２以上の自然数）台のサーボ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、及びネットワーク５００を備えている。なお、ｎは任意の自然数である。ｎ台のサーボ制御装置１００−１〜１００−ｎのそれぞれは図１に示したサーボ制御装置１００に対応している。ｎ台の機械学習装置２００−１〜２００−ｎのそれぞれは図１に示した機械学習装置２００に対応している。

ここで、サーボ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜２００−ｎについてもサーボ制御装置１００−１と機械学習装置２００−１と同様に接続される。図９では、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク５００を介して接続されているが、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク５００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク５００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

上述した図９の制御装置では、機械学習装置２００−１〜２００−ｎとサーボ制御装置１００−１−１００−ｎとが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００−１が複数のサーボ制御装置１００−１〜１００−ｍ（ｍ＜ｎ又はｍ＝ｎ）とネットワーク５００を介して通信可能に接続され、各サーボ制御装置１００−１〜１００−ｍの機械学習を実施するようにしてもよい。
その際、機械学習装置２００−１の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００−１の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

本発明の実施形態においては、ＩＩＲフィルタ１０９２及び１１０２の伝達関数を２次関数の場合を例として説明したが、実施形態の中で説明したように、２次関数に限られない。３次以上の関数であってもよい。

１０、１０Ａ制御装置
１００サーボ制御装置
１０１位置指令作成部
１０２減算器
１０３位置制御部
１０４加算器
１０５減算器
１０６速度制御部
１０７加算器
１０８積分器
１０９速度フィードフォワード計算部
１１０位置フィードフォワード計算部
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００サーボモータ
４００制御対象
５００ネットワーク

Claims

ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記ＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置であって、
前記ＩＩＲフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径ｒと角度θとを用いて表す極座標で表現し、半径ｒと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記ＩＩＲフィルタの伝達関数の係数の最適化を行う機械学習装置。
前記半径ｒの探索範囲は減衰率に基づいて規定され、前記角度θの探索範囲は振動を抑える周波数に基づいて規定される、請求項１に記載の機械学習装置。
前記極の探索の前に前記零点の探索を行う請求項１又は請求項２に記載の機械学習装置。
前記零点を探索するときに、前記極を固定する請求項１から請求項３の何れか１項に記載の機械学習装置。
前記半径ｒの探索の前に前記角度θの探索を行う請求項１から請求項４の何れか１項に記載の機械学習装置。
前記角度θを探索するときに、前記半径ｒを固定値に固定する請求項１から請求項５の何れか１項に記載の機械学習装置。
前記零点を複素数と共役な複素数で表現する請求項１から請求項６の何れか１項に記載の機械学習装置。
前記フィードフォワード計算部は速度フィードフォワード計算部又は位置フィードフォワード計算部である、請求項１から請求項７の何れか１項に記載の機械学習装置。
前記フィードフォワード計算部は速度フィードフォワード計算部であり、
ＩＩＲフィルタを有する位置フィードフォワード計算部を更に有し、
前記位置フィードフォワード計算部のＩＩＲフィルタの伝達関数の最適化の前に、前記速度フィードフォワード計算部のＩＩＲフィルタの伝達関数の最適化を行う請求項１から請求項８の何れか１項に記載の機械学習装置。
所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記フィードフォワード計算部の伝達関数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得部と、
前記状態情報に含まれる前記伝達関数の係数の調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力部と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
を備える請求項１から請求項９の何れか１項に記載の機械学習装置。
前記報酬出力部は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項１０に記載の機械学習装置。
前記価値関数更新部により更新された価値関数に基づいて、前記フィードフォワード計算部の伝達関数の係数の修正情報を生成して出力する最適化行動情報出力部を備えた請求項１０又は請求項１１に記載の機械学習装置。
請求項１から請求項１２の何れか１項に記載の機械学習装置と、
ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置と、
を備えた制御装置。
前記機械学習装置は、前記サーボ制御装置に含まれる、請求項１３に記載の制御装置。
ＩＩＲフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記ＩＩＲフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
前記ＩＩＲフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径ｒと角度θとを用いて表す極座標で表現し、半径ｒと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記ＩＩＲフィルタの伝達関数の係数の最適化を行う機械学習方法。