JP2019008472A

JP2019008472A - 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法

Info

Publication number: JP2019008472A
Application number: JP2017122449A
Authority: JP
Inventors: 聡史猪飼; Satoshi Igai; 勉中邨; Tsutomu Nakamura; 智之相澤; Tomoyuki Aizawa
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2019-01-17
Anticipated expiration: 2037-06-22
Also published as: JP6499720B2; DE102018209951A1; US10747193B2; US20180373223A1; CN109116811B; CN109116811A

Abstract

【課題】バックラッシ補正及びバックラッシ加速補正の係数の煩雑な調整を回避できる強化学習を行う。【解決手段】所定の加工プログラムをサーボ制御装置１００に実行させることにより、少なくとも位置偏差と、バックラッシ加速補正部１１０で用いる係数の組み合わせと、を含む状態情報を、サーボ制御装置１００から取得する状態情報取得部２０１と、状態情報に含まれる係数の組み合わせの調整情報を含む行動情報をサーボ制御装置１００に出力する行動情報出力部２０３と状態情報に含まれる位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部２０２１と、報酬出力手段により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新部２０２２と、を備える機械学習装置２００。【選択図】図２

Description

本発明は、バックラッシ補正制御及びバックラッシ加速補正制御を実行するサーボ制御装置に対して、バックラッシ補正制御におけるバックラッシ補正パラメータ及び／又はバックラッシ加速補正制御におけるバックラッシ加速補正パラメータを対象とした強化学習を行う機械学習装置、当該機械学習装置を含むサーボ制御装置、及び機械学習装置とサーボ制御装置とを含むサーボ制御システム、並びに機械学習方法に関する。

従来、物体の位置、方位、姿勢等を制御量とする制御系、例えば工作機械や産業機械の制御系において、サーボモータが用いられている。サーボモータのモータ軸の回転を他の主軸に伝えるために用いられる機械要素であって互いに係合する機械要素においては、当該機械要素間の抵触面に意図的に隙間が設けられている。この隙間が存在することにより、例えばねじやギア等の機械要素は、ある程度の範囲で自由に回転することができる。この隙間を「バックラッシ」（又は「バックラッシュ」）と呼ぶ。

例えば、モータと主軸等の被駆動軸がギアで結合されている場合、ギアのバックラッシが存在することにより、モータの反転時には、被駆動軸の反転がモータの反転に対して遅れてしまうこととなる。この被駆動軸の反転遅れを補正するために、モータへの位置指令にバックラッシ補正量を加算する方法が、従来存在する。これを「バックラッシ補正」と呼ぶ。

一方で、例えば被駆動軸における静摩擦等の影響により、被駆動軸の反転がモータの反転に対して遅れてしまうことがある。この被駆動軸の反転遅れを補正するために、モータ反転時に、位置指令ではなく、速度指令又はトルク指令に補正を加算する方法が、従来存在する。これを「バックラッシ加速補正」と呼ぶ。

バックラッシ補正制御及びバックラッシ加速補正制御を用いたサーボ制御装置としては、例えば、特許文献１に記載されたサーボ制御装置がある。特許文献１に記載された補正パラメータ調整装置としてのサーボ制御装置は、実際の使用状態にある機械の運動軌跡をジグや工具を外さずに測定し、誤差要因を分離して補正パラメータの適切な設定を可能とするため、機械の加速度を測定するための加速度計と、機械運動を解析する機械運動解析部と、機械の運動精度を向上するための、バックラッシ補正パラメータ等を決定する補正パラメータ計算部とを備える。

特開２０１１−２２１６１２号公報

上記のように、サーボ制御装置においては、機械の摩擦、ガタ、ロストモーション等の非線形特性の影響により、位置指令値や速度指令値が変化したときに位置偏差が発生する場合がある。このような場合に、バックラッシ補正やバックラッシ加速補正を時間や距離に応じた複雑な形状（以下、「複雑な形状」ともいう）にすることで、位置偏差や速度偏差を低減し、位置指令や速度指令に対する追従性を向上できる。しかし、バックラッシ補正やバックラッシ補正を複雑な形状にするほど、バックラッシ補正やバックラッシ加速補正の際に用いられるパラメータ（「係数」ともいう）の調整は難しくなる。

本発明は、バックラッシ補正やバックラッシ加速補正を用いたサーボ制御装置において、位置偏差や速度偏差を低減して、位置指令に対する追従性を向上させるためにバックラッシ補正やバックラッシ加速補正を複雑な形状にした場合に、複雑な形状のバックラッシ補正やバックラッシ加速補正のパラメータ（係数）の煩雑な調整を回避できる強化学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置、サーボ制御システム、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置（例えば、後述の「機械学習装置２００」）は、位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段（例えば、後述の「バックラッシ補正部１０９」）及び／又は、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段（例えば、後述の「バックラッシ加速補正部１１０」）を備える、サーボ制御装置に対して、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置であって、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び／又は前記バックラッシ加速補正手段に対して出力する行動情報出力手段（例えば、後述の「行動情報出力部２０３」）と、前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得手段（例えば、後述の「状態情報取得部２０１」）と、前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の「報酬出力部２０２１」）と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の「価値関数更新部２０２２」）と、を備える。

（２）上記（１）の機械学習装置において、前記バックラッシ補正手段におけるバックラッシ補正パラメータを対象として強化学習を行った後に、前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを対象として強化学習を行うようにしてもよい。

（３）上記（１）又は（２）の機械学習装置において、前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力してもよい。

（４）上記（１）から（３）の何れかの機械学習装置において、前記価値関数更新手段により更新された行動価値関数に基づいて、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを生成して出力する最適化行動情報出力手段（例えば、後述の「最適化行動情報出力部２０５」）を備えてもよい。

（５）本発明に係るサーボ制御装置は、上記（１）から（４）の何れかの機械学習装置を含むサーボ制御装置である。

（６）本発明に係るサーボ制御システムは、上記（１）から（４）の何れかの機械学習装置と、前記サーボ制御装置と、を備えたサーボ制御システムである。

（７）本発明に係る機械学習方法は、位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段と、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段とを備える、サーボ制御装置に対して前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置の機械学習方法であって、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び／又は前記バックラッシ加速補正手段に対して出力する行動情報出力ステップと、前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得ステップと、前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、を備える。

本発明によれば、バックラッシ補正やバックラッシ加速補正を用いたサーボ制御装置において、位置偏差や速度偏差を低減して、位置指令に対する追従性を向上させるためにバックラッシ補正やバックラッシ加速補正を複雑な形状にした場合に、複雑な形状のバックラッシ補正やバックラッシ加速補正の係数の煩雑な調整を回避できる強化学習を行うことができる。

本発明の第１の実施形態のサーボ制御システムを示すブロック図である。サーボ制御装置１００と機械学習装置２００がネットワークで接続された構成例を示すブロック図である。制御対象３００の一例を示すブロック図である。加工形状が円形の場合のサーボモータの動作を説明するための図である。加工形状が四角の場合のサーボモータの動作を説明するための図である。加工形状が角Ｒ付き四角の場合のサーボモータの動作を説明するための図である。加工形状が円形で、位置Ａ１で、テーブルをＹ軸方向に移動するサーボモータの回転方向が反転しようとした時の象限突起を示す説明図である。第１の実施形態の機械学習装置２００を示すブロック図である。台形型加速方式に基づくバックラッシ加速補正の概要を示す図である。バックラッシ加速補正の際の加速量Ｖ０の大きさと加速度の平方根との関係を示す図である。バックラッシ加速補正の際の加速量Ｖ０の大きさと加速度の平方根との関係を示す図である。バックラッシ加速補正の際の加速量Ｖ０の大きさと加速度の平方根との関係を示す図である。第１の強化学習時におけるサーボ制御装置１００と機械学習装置２００の構成例を示すブロック図である。機械学習装置２００の動作を説明するフローチャートである。機械学習装置２００の最適化行動情報出力部２０５の動作を説明するフローチャートである。第２の強化学習時におけるサーボ制御装置１００と機械学習装置２００の構成例を示すブロック図である。機械学習終了後の運用時におけるサーボ制御装置１００の構成例を示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１の実施形態）
図１は発明の第１の実施形態のサーボ制御システムを示すブロック図である。サーボ制御システム１０は、図１に示すように、例えばｎ台のサーボ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、及びネットワーク４００を備えている。なお、ｎは任意の自然数である。

ここで、サーボ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜２００−ｎについてもサーボ制御装置１００−１と機械学習装置２００−１と同様に接続される。図１では、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続及び無線接続の何れであるか等については、特に限定されない。

図２は本発明の第１の実施形態のサーボ制御システムのサーボ制御装置と機械学習装置との組、及び制御対象を示すブロック図である。図２のサーボ制御装置１００と、機械学習装置２００は例えば、図１に示すサーボ制御装置１００−１と機械学習装置２００−１とに対応している。
制御対象３００は例えばサーボモータ、サーボモータを含む工作機械，ロボット，産業機械等である。サーボ制御装置１００は工作機械，ロボット，産業機械等の一部として設けられてもよい。

最初に、サーボ制御装置１００について説明する。
サーボ制御装置１００は、位置指令作成部１０１、減算器１０２、加算器１０３、位置制御部１０４、減算器１０５、加算器１０６、速度制御部１０７、積分器１０８、バックラッシ補正部１０９、及びバックラッシ加速補正部１１０を備えている。

位置指令作成部１０１は位置指令値を作成し、作成した位置指令値を減算器１０２に出力する。減算器１０２は位置指令値とフィードバックされた検出位置との差を求め、その差を位置偏差値として加算器１０３とに出力する。なお、機械学習時には当該位置偏差値は後述の機械学習装置２００に対しても送信される。

位置指令作成部１０１は、制御対象３００を動作させる任意の加工プログラムに基づいて位置指令値を作成する。制御対象３００は、例えばサーボモータを含む工作機械で、被加工物（ワーク）を搭載するテーブルをＸ軸方向及びＹ軸方向に移動させて加工する場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図２に示すサーボ制御装置が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置が設けられる。
位置指令作成部１０１は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。

バックラッシ補正部１０９は、バックラッシ補正パラメータに基づいて作成されるバックラッシ補正量を加算器１０３に出力する。

加算器１０３は、減算器１０２から入力される位置偏差に、バックラッシ補正部１０９から入力されたバックラッシ補正量を加算し、バックラッシ補正量を加算した位置偏差を、位置制御部１０４に出力する。なお、加算器１０３は、位置偏差ではなく、位置指令にバックラッシ補正量を加算することも可能である。

位置制御部１０４は、位置偏差にポジションゲインＫｐを乗じた値を、速度指令値として減算器１０５に出力する。減算器１０５は速度指令値とフィードバックされた速度検出値との差を求め、その差を速度偏差として加算器１０６に出力する。

バックラッシ加速補正部１１０は、バックラッシ加速補正パラメータに基づいて作成されるバックラッシ加速補正量を加算器１０６に出力する。

加算器１０６は、減算器１０５から入力される速度偏差に、バックラッシ加速補正部１１０から入力されたバックラッシ加速補正量を加算し、バックラッシ加速補正量を加算した速度偏差を、速度制御部１０７に出力する。

速度制御部１０７は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令値として制御対象３００に出力する。

制御対象３００は速度検出値を出力し、速度検出値は速度フィードバックとして減算器１０５に入力される。速度検出値は積分器１０８で積分されて位置検出値となり、位置検出値は位置フィードバックとして減算器１０２に入力される。
以上のように、サーボ制御装置１００は構成される。

次に、サーボ制御装置１００により制御される制御対象３００について説明する。
図３は制御対象３００の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボ制御装置１００は、サーボモータ３０２で連結機構３０３を介してテーブル３０４を移動させ、テーブル３０４の上に搭載された被加工物（ワーク）を加工する。連結機構３０３は、サーボモータ３０２に連結されたカップリング３０３１と、カップリング３０３１に固定されるボールねじ３０３３とを有し、ボールねじ３０３３にナット３０３２が螺合されている。サーボモータ３０２の回転駆動によって、ボールねじ３０３３に螺着されたナット３０３２がボールねじ３０３３の軸方向に移動する。

サーボモータ３０２の回転角度位置は、サーボモータ３０２に関連付けられた、位置検出部となるロータリーエンコーダ３０１によって検出され、検出された信号は速度フィードバックとして利用される。検出された信号は積分することで位置フィードバックとして利用される。なお、ボールねじ３０３３の端部に取り付けられ、ボールねじ３０３３の移動距離を検出するリニアスケール３０５の出力を位置フィードバックとして用いてもよい。また、加速度センサを用いて位置フィードバックを生成してもよい。

機械学習装置２００は、予め用意される所定の加工プログラム（以下、「学習時の加工プログラム」ともいう）を実行することで、バックラッシ補正部１０９がバックラッシ補正量を作成する際に用いるバックラッシ補正パラメータ、及びバックラッシ加速補正部１１０がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータを対象として強化学習を行う。ここで、学習時の加工プログラムにより指定される加工形状は、例えば、円、四角、及び角Ｒ付き四角（a square with quarter arc）等である。

学習時の加工プログラムについて説明する。
図４Ａは、学習時の加工プログラムにより指定される加工形状が円形の場合のサーボモータの動作を説明するための図である。図４Ｂは、学習時の加工プログラムにより指定される加工形状が四角の場合のサーボモータの動作を説明するための図である。図４Ｃは、学習時の加工プログラムにより指定される加工形状が角Ｒ付き四角の場合のサーボモータの動作を説明するための図である。図４Ａ〜図４Ｃにおいて、被加工物（ワーク）が時計まわりに加工されるようにテーブルが移動する。

加工形状が円形の場合は、図４Ａに示すように、位置Ａ１と位置Ａ３で、テーブルをＹ軸方向に移動するサーボモータは回転方向が反転し、テーブルはＹ軸方向に直線反転するように移動する。位置Ａ２と位置Ａ４で、テーブルをＸ軸方向に移動するサーボモータは、回転方向が反転し、テーブルはＸ軸方向に直線反転するように移動する。

加工形状が四角の場合は、図４Ｂに示すように、位置Ｂ１で、テーブルをＹ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをＸ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはＸ軸方向の直線動作からＹ軸方向の直線動作に移る。同様に、位置Ｂ２で、テーブルをＸ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをＹ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはＹ軸方向の直線動作からＸ軸方向の直線動作に移る。位置Ｂ３で、テーブルをＹ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをＸ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはＸ軸方向の直線動作からＹ軸方向の直線動作に移る。位置Ｂ４で、テーブルをＸ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルをＹ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルはＹ軸方向の直線動作からＸ軸方向の直線動作に移る。

加工形状が角Ｒ付き四角の場合は、図４Ｃに示すように、位置Ｃ１で、テーブルをＹ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはＸ軸方向の直線動作から円弧動作に移る。位置Ｃ２で、テーブルをＸ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からＹ軸方向の直線動作に移る。同様に、位置Ｃ３で、テーブルをＸ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはＹ軸方向の直線動作から円弧動作に移る。位置Ｃ４で、テーブルをＹ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からＸ軸方向の直線動作に移る。位置Ｃ５で、テーブルをＹ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはＸ軸方向の直線動作から円弧動作に移る。位置Ｃ６で、テーブルをＸ軸方向に移動するサーボモータは回転動作から停止に移り、テーブルは円弧動作からＹ軸方向の直線動作に移る。位置Ｃ７で、テーブルをＸ軸方向に移動するサーボモータは、停止から回転動作に移り、テーブルはＹ軸方向の直線動作から円弧動作に移る。位置Ｃ８で、テーブルをＹ軸方向に移動するサーボモータは、回転動作から停止に移り、テーブルは円弧動作からＸ軸方向の直線動作に移る。

図４Ｄは、加工形状が円形で、位置Ａ１で、テーブルをＹ軸方向に移動するサーボモータの回転方向が反転しようとした時に、機械要素間の抵触面におけるガタや摩擦により生ずる象限突起の生成を示す説明図である。
図４Ｄに示すように、テーブルをＹ軸方向に移動するサーボモータの回転方向が位置Ａ１で反転しようとした時に、機械要素間の抵触面にガタが存在することにより、軌跡の回転中心がずれてしまう。また、摩擦によって反転遅れが生じることにより、半径方向に軌跡誤差が拡大し、軌跡誤差の拡大表示を行うと軌跡誤差が突起として見える。回転中心のずれに対しては、バックラッシ補正が必要であり、突起の解消に対しては、バックラッシ加速補正が必要である。
以上のように、学習時の加工プログラムにより指定される加工形状により、回転方向が反転したり、回転状態から停止したりする場合に生ずる惰走（惰性で動作する）を評価し、位置偏差に対する影響を調べることができる。

学習時の加工プログラムを実行することで、サーボ制御装置１００の位置指令作成部１０１は順次、円、四角、角Ｒ付き四角（a square with quarter arc）の加工形状となるように位置指令値を出力する。また、円、四角、角Ｒ付き四角（a square with quarter arc）の加工形状毎に、送り速度を変更し、複数の送り速度についての影響も学習できるようにする。送り速度は、加工形状の図形の移動途中、例えば四角の加工形状にテーブルを移動させているときに、角を過ぎたときに送り速度を変更してもよい。

＜強化学習について＞
機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Ｑ−ｌｅａｒｎｉｎｇ）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（ｓ，ａ）の更新式は、例えば、次の数式１（以下に数１として示す）により表すことができる。

上記の数式１において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式１は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（ＤｅｅｐＱ−Ｎｅｔｗｏｒｋ）と呼ばれる技術を利用するようにしてもよい。具体的には、行動価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。
なお、本実施形態では、バックラッシ補正部１０９が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、及びバックラッシ加速補正部１１０がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータについて同時に学習するのではなく、先ずバックラッシ補正パラメータを対象とする強化学習（「第１の強化学習」ともいう）を行う。第１の強化学習により、最適なバックラッシ補正パラメータを算出すると、当該バックラッシ補正パラメータをバックラッシ補正部１０９に設定したうえで、バックラッシ加速補正部１１０がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータを対象とする強化学習（「第２の強化学習」ともいう）を行う。
こうすることで、強化学習を効率的に行うことができる。

＜第１の強化学習＞
まず、第１の強化学習について説明する。第１の強化学習において、機械学習装置２００は、サーボ制御装置１００におけるバックラッシ補正部１０９が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置１００の位置偏差情報を含むサーボ状態を状態ｓとして、当該状態ｓに係る、バックラッシ補正パラメータの調整を行動ａとして選択する価値Ｑを学習する。なお、第１の強化学習時においては、バックラッシ加速補正を省略してもよい。

バックラッシ補正のための学習においては、バックラッシ補正パラメータＰ_０の調整（修正）を、行動ａとして選択する価値Ｑを学習する。

機械学習装置２００は、バックラッシ補正パラメータＰ_０に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させた場合の位置指令と位置フィードバック値から得られる位置偏差値の集合と、バックラッシ補正パラメータＰ_０と、を含む状態情報ｓを観測して、次の行動ａ（バックラッシ補正パラメータＰ_０の調整）を決定する。
機械学習装置２００は、行動ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、バックラッシ補正パラメータＰ_０に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させることで得られるサーボ制御装置１００の位置偏差情報を含むサーボ状態を含む状態情報ｓに対して、最適な行動ａ、すなわち、バックラッシ補正パラメータＰ_０を選択することが可能となる。

これにより、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態ｓに係るバックラッシ補正パラメータＰ_０に対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、位置偏差が最小になるような行動ａ（すなわち、バックラッシ補正部１０９の最適なバックラッシ補正パラメータＰ_０を選択すること）が可能となる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態ｓに係るバックラッシ補正パラメータＰ_０に対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動ａ（すなわち、バックラッシ補正パラメータＰ_０）を選択することが可能となる。

なお、本実施形態における強化学習は、バックラッシ補正パラメータＰ_０を対象としたものとして説明したが、バックラッシ補正パラメータＰ_０に限定されない。
例えば、サーボモータの回転方向が反転した後、反転後の移動量が固定値Ｌ_０に達するまでは補正を行わず、移動量が固定値Ｌ_０に達した時点において、補正量がバックラッシ補正パラメータＰ_０のバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、バックラッシ補正パラメータとしてＰ_０及びＬ_０を対象として強化学習を行ってもよい。
この場合、行動ａは、バックラッシ補正パラメータＰ_０及びＬ_０の調整となる。
また、サーボモータの回転方向が右方向（順方向）か、左方向（逆方向）かによって、補正量及び／又は移動量として、右方向（順方向）のバックラッシ補正パラメータ及び左方向（逆方向）のバックラッシ補正パラメータによるバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、右方向（順方向）のバックラッシ補正パラメータ及び左方向（逆方向）のバックラッシ補正パラメータを対象として強化学習を行ってもよい。

＜機械学習装置２００の機能ブロック＞
図５は第１の強化学習を行う場合の機械学習装置２００を示すブロック図である。
上述した第１の強化学習を行うために、図５に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

なお、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、最適化行動情報出力部２０５、報酬出力部２０２１、価値関数更新部２０２２、行動情報生成部２０２３は、上記のバックラッシ補正パラメータＰ_０を対象とした強化学習のために動作する。

状態情報取得部２０１は、サーボ制御装置１００におけるバックラッシ補正パラメータＰ_０に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態ｓを、サーボ制御装置１００から取得する。この状態情報ｓは、Ｑ学習における、環境状態ｓに相当する。
状態情報取得部２０１は、取得した状態情報ｓを学習部２０２に対して出力する。
なお、最初にＱ学習を開始する時点での、バックラッシ補正パラメータＰ_０は、予めユーザが生成するようにする。本実施形態では、ユーザが作成したバックラッシ補正パラメータＰ_０の初期設定値を、強化学習により最適なものに調整する。

学習部２０２は、或る環境状態ｓの下で、ある行動ａを選択する場合の価値Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部２０２は、報酬出力部２０２１、価値関数更新部２０２２及び行動情報生成部２０２３を備える。

報酬出力部２０２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。ここで、状態ｓにおける状態変数である位置偏差値の集合（位置偏差集合）をＰＤ（ｓ）、行動情報ａ（バックラッシ補正パラメータＰ_０の修正）により状態ｓから変化した状態情報ｓ´に係る状態変数である位置偏差集合をＰＤ（ｓ´）で示す。また、状態ｓにおける位置偏差の値を、予め設定された評価関数ｆ（ＰＤ（ｓ））に基づいて算出される値とする。
評価関数ｆとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫｜e｜dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t｜e｜dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数、
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛｜e｜｝
等を適用することができる。

このとき、行動情報ａにより修正された状態情報ｓ´に係る修正後のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を負の値とする。

一方で、行動情報ａにより修正された状態情報ｓ´に係る修正後のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））よりも小さくなった場合に、報酬の値を正の値とする。
なお、行動情報ａにより修正された状態情報ｓ´に係る修正後のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前のバックラッシ補正部１０９に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（ｓ））と等しい場合は、報酬出力部２０２１は、報酬の値をゼロとする。

また、行動ａを実行後の状態ｓ´の位置偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける位置偏差の値ｆ（ＰＤ（ｓ））より大きくなった場合の負の値としては、その比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動ａを実行後の状態ｓ´の位置偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける位置偏差の値ｆ（ＰＤ（ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。
また、各係数の値をランダムに設定してもよい。

価値関数更新部２０２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する行動価値関数Ｑを更新する。
行動価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に行動価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集したすべての学習用データを用いて、行動価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに行動価値関数Ｑの更新を行うという学習方法である。

行動情報生成部２０２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボ制御装置１００のバックラッシ補正パラメータＰ_０を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、バックラッシ補正部１０９のバックラッシ補正パラメータＰ_０をインクレメンタル（例えば０．０１程度）に加算又は減算させる。

そして、行動情報生成部２０２３は、バックラッシ補正パラメータＰ_０の増加又は減少を適用して、状態ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動ａ´としては、バックラッシ補正パラメータＰ_０に対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動ａ´としては、例えば、バックラッシ補正部１０９のバックラッシ補正パラメータＰ_０に対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動ａの価値の中で、最も価値Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報ａをサーボ制御装置１００に対して送信する部分である。サーボ制御装置１００は上述したように、この行動情報に基づいて、現在の状態ｓ、すなわち現在設定されているバックラッシ補正パラメータＰ_０を調整することで、次の状態ｓ´（すなわち修正された、バックラッシ補正パラメータＰ_０）に遷移する。

価値関数記憶部２０４は、行動価値関数Ｑを記憶する記憶装置である。行動価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された行動価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された行動価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。行動価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した行動価値関数Ｑに基づいて、価値Ｑ（ｓ，ａ）が最大となる動作をバックラッシ補正部１０９に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している行動価値関数Ｑを取得する。この行動価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、行動価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置１００（バックラッシ補正部１０９）に対して出力する。この最適化行動情報には、行動情報出力部２０３ＡがＱ学習の過程において出力する行動情報と同様に、バックラッシ補正部１０９の係数Ｐ０を修正する情報が含まれる。

サーボ制御装置１００では、この行動情報に基づいてバックラッシ補正部１０９に修正されたバックラッシ補正パラメータＰ_０が設定され、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置２００を利用することで、サーボ制御装置１００のバックラッシ補正部１０９に設定されたバックラッシ補正パラメータＰ_０の最適化を容易にすることができる。

＜第２の強化学習＞
次に、第１の強化学習に続いて、バックラッシ加速補正部１１０におけるバックラッシ加速補正パラメータを対象として強化学習（第２の強化学習）を行う場合について説明する。
前述したように、第１の強化学習により算出された、最適なバックラッシ補正パラメータをバックラッシ補正部１０９に設定したうえで、第２の強化学習を行う。

バックラッシ加速補正パラメータを対象とした第２の強化学習に際しては、例えば、台形型加速に基づく補正を適用することができる。台形型加速に基づく補正とは、各軸の速度指令の符号が反転したとき、又はその直前から、図６に示すように、台形の形状に基づいて「しばらくの時間」補正を行う方式を意味する。
図６に示す台形型加速に基づく補正を適用する場合、加速量Ｖ０、計算開始時間ＴＺ、加速時間Ｔ０、加速時間Ｔ１、及び減衰係数αは、それぞれ速度指令の符号反転直後の加速度ｘの平方根√｜ｘ｜に応じて、以下の式（１）〜式（６）のように定められる。ここで、ａ_ｉ、ｂ_ｉ、ｃ_ｉ(１≦ｉ≦５)は、バックラッシ加速補正のためのパラメータである。なお、加速時間Ｔ２については、加速度ｘの平方根√｜ｘ｜に依存しない定数パラメータである。
Ｖ０＝ａ_１・√｜ｘ｜・Ｈ_１／２（ｂ_１−√｜ｘ｜）
＋ａ₁・ｂ_１・Ｈ_１／２（√｜ｘ｜−ｂ_１）
＋ｃ_１ (式１)
ＴＺ＝ａ_２・√｜ｘ｜・Ｈ_１／２（ｂ_２−√｜ｘ｜）
＋ａ_２・ｂ_２・Ｈ_１／２（√｜ｘ｜−ｂ_２）
＋ｃ_２ (式２)
Ｔ０＝ａ_３・√｜ｘ｜・Ｈ_１／２（ｂ_３−√｜ｘ｜）
＋ａ_３・ｂ_３・Ｈ_１／２（√｜ｘ｜−ｂ_３）
＋ｃ_３ (式３)
Ｔ１＝ａ_４・√｜ｘ｜・Ｈ_１／２（ｂ_４−√｜ｘ｜）
＋ａ_４・ｂ_４・Ｈ_１／２（√｜ｘ｜−ｂ_４）
＋ｃ_４ (式４)
α＝ａ_５・√｜ｘ｜・Ｈ_１／２（ｂ_５−√｜ｘ｜）
＋ａ_５・ｂ_５・Ｈ_１／２（√｜ｘ｜−ｂ_５）
＋ｃ_５ (式５)
ここで、Ｈ_１／２（ｘ）は、以下の値をとるヘヴィサイドの階段関数である。
Ｈ_１／２（ｘ）＝０（ｘ＜０）
Ｈ_１／２（０）＝１／２
Ｈ_１／２（ｘ）＝１（ｘ＞０）
(式６)

具体的には、加速量Ｖ０を例にとると、図７Ａのグラフに示すように、加速量Ｖ０は、加速度ｘの平方根√｜ｘ｜の関数となっている。また、加速量Ｖ０は、０＜√｜ｘ｜＜ｂ_１においては、傾きがａ_１でｙ切片の値がｃ_１の一次関数となっており、√｜ｘ｜≧ｂ_１においては、加速量Ｖ０は、定数ａ_１・ｂ_１＋ｃ_１となっている。

なお、例えば、加速量Ｖ０と加速度ｘの平方根√｜ｘ｜との関係は、上記以外に、図７Ｂ又は図７Ｃのグラフに示す関係でも良い。
ａ_ｉ、ｂ_ｉ(６≦ｉ≦１５)、ｃ_ｉ（６≦ｉ≦２１）が、バックラッシ加速補正のためのパラメータであって、例えば、加速量Ｖ０と加速度ｘの平方根√｜ｘ｜との関係が図７Ｂのグラフに示す関係となる場合、０≦√｜ｘ｜＜ｂ_６の範囲において、グラフの傾きをａ_６（＞０）、ｙ切片をｃ_６（＞０）とすると
Ｖ０＝ａ_６√｜ｘ｜＋ｃ_６
となる。
ｂ_６≦√｜ｘ｜＜ｂ_７の範囲において、グラフの傾きがａ_７（＞０）、ｙ切片がｃ_７（＞０）であって、ａ_７≠ａ_６、ｃ_７≠ｃ_６とすると、
Ｖ０＝ａ_７√｜ｘ｜＋ｃ_７
となる。
なお、√｜ｘ｜＝ｂ_６のとき、ａ_６×ｂ_６＋ｃ_６＝ａ_７×ｂ_６＋ｃ_７＝ｃ_８となる。
ｂ_７≦√｜ｘ｜の範囲においては、ｃ_９＞０とすると、
Ｖ０＝ｃ_９
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
Ｖ０＝（ａ_６√｜ｘ｜＋ｃ_６）・Ｈ_１／２（ｂ_６−√｜ｘ｜）
＋（ａ_７√｜ｘ｜＋ｃ_７）・Ｈ_１／２（（√｜ｘ｜−ｂ_６）（ｂ_７−√｜ｘ｜））
＋ｃ_９・Ｈ_１／２（√｜ｘ｜−ｂ_７） (式７)
となる。

Ｖ０に限らず、ＴＺ、Ｔ０、Ｔ１、αについても、以下のように、これと同様の関数で表わすことが可能である。すなわち、
ＴＺ＝（ａ_８√｜ｘ｜＋ｃ_１０）・Ｈ_１／２（ｂ_８−√｜ｘ｜）
＋（ａ_９√｜ｘ｜＋ｃ_１１）・Ｈ_１／２（（√｜ｘ｜−ｂ_８）（ｂ_９−√｜ｘ｜））
＋ｃ_１２・Ｈ_１／２（√｜ｘ｜−ｂ_９） (式８)
Ｔ０＝（ａ_１０√｜ｘ｜＋ｃ_１３）・Ｈ_１／２（ｂ_１０−√｜ｘ｜）
＋（ａ_１１√｜ｘ｜＋ｃ_１４）・Ｈ_１／２（（√｜ｘ｜−ｂ_１０）（ｂ_１１−√｜ｘ｜））
＋ｃ_１５・Ｈ_１／２（√｜ｘ｜−ｂ_１１） (式９)
Ｔ１＝（ａ_１２√｜ｘ｜＋ｃ_１６）・Ｈ_１／２（ｂ_１２−√｜ｘ｜）
＋（ａ_１３√｜ｘ｜＋ｃ_１７）・Ｈ_１／２（（√｜ｘ｜−ｂ_１２）（ｂ_１３−√｜ｘ｜））
＋ｃ_１８・Ｈ_１／２（√｜ｘ｜−ｂ_１３） (式１０)
α＝（ａ_１４√｜ｘ｜＋ｃ_１９）・Ｈ_１／２（ｂ_１４−√｜ｘ｜）
＋（ａ_１５√｜ｘ｜＋ｃ_２０）・Ｈ_１／２（（√｜ｘ｜−ｂ_１４）（ｂ_１５−√｜ｘ｜））
＋ｃ_２１・Ｈ_１／２（√｜ｘ｜−ｂ_１５） (式１１)

また、ａ_ｉ、ｂ_ｉ(１６≦ｉ≦２５)、ｃ_ｉ（２２≦ｉ≦３７）が、バックラッシ加速補正のためのパラメータであって、加速量Ｖ０と加速度ｘの平方根√｜ｘ｜との関係が図７Ｃのグラフに示す関係となる場合、０≦√｜ｘ｜＜ｂ_１６の範囲において、グラフの傾きをａ_１６（＞０）、ｙ切片をｃ_２２（＞０）とすると、
Ｖ０＝ａ_１６√｜ｘ｜＋ｃ_２２
となる。
ｂ_１６≦√｜ｘ｜＜ｂ_１７の範囲において、グラフの傾きがａ_１７（＜０）、ｙ切片がｃ_２３（＞０）であって、ｃ_２３≠ｃ_２２とすると、
Ｖ０＝ａ_１７√｜ｘ｜＋ｃ_２３
なお、√｜ｘ｜＝ｂ_１６のとき、ａ_１６×ｂ_１６＋ｃ_２２＝ａ_１７×ｂ_１６＋ｃ_２３＝ｃ_２５となる。
ｂ_１７≦√｜ｘ｜の範囲においては、ｃ_２４＞０とすると、
Ｖ０＝ｃ_２４
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
Ｖ０＝（ａ_１６√｜ｘ｜＋ｃ_２２）・Ｈ_１／２（ｂ_１６−√｜ｘ｜）
＋（ａ_１７√｜ｘ｜＋ｃ_２３）・Ｈ_１／２（（√｜ｘ｜−ｂ_１６）（ｂ_１７−√｜ｘ｜））
＋ｃ_２４・Ｈ_１／２（√｜ｘ｜−ｂ_１７） (式１２)
となる。

Ｖ０に限らず、ＴＺ、Ｔ０、Ｔ１、αについても、以下のように、これと同様の関数で表わすことが可能である。すなわち、
ＴＺ＝（ａ_１８√｜ｘ｜＋ｃ_２６）・Ｈ_１／２（ｂ_１８−√｜ｘ｜）
＋（ａ_１９√｜ｘ｜＋ｃ_２７）・Ｈ_１／２（（√｜ｘ｜−ｂ_１８）（ｂ_１９−√｜ｘ｜））
＋ｃ_２８・Ｈ_１／２（√｜ｘ｜−ｂ_１９） (式１３)
Ｔ０＝（ａ_２０√｜ｘ｜＋ｃ_２９）・Ｈ_１／２（ｂ_２０−√｜ｘ｜）
＋（ａ_２１√｜ｘ｜＋ｃ_３０）・Ｈ_１／２（（√｜ｘ｜−ｂ_２０）（ｂ_２１−√｜ｘ｜））
＋ｃ_３１・Ｈ_１／２（√｜ｘ｜−ｂ_２１） (式１４)
Ｔ１＝（ａ_２２√｜ｘ｜＋ｃ_３２）・Ｈ_１／２（ｂ_２２−√｜ｘ｜）
＋（ａ_２３√｜ｘ｜＋ｃ_３３）・Ｈ_１／２（（√｜ｘ｜−ｂ_２２）（ｂ_２３−√｜ｘ｜））
＋ｃ_３４・Ｈ_１／２（√｜ｘ｜−ｂ_２３） (式１５)
α＝（ａ_２４√｜ｘ｜＋ｃ_３５）・Ｈ_１／２（ｂ_２４−√｜ｘ｜）
＋（ａ_２５√｜ｘ｜＋ｃ_３６）・Ｈ_１／２（（√｜ｘ｜−ｂ_２４）（ｂ_２５−√｜ｘ｜））
＋ｃ_３７・Ｈ_１／２（√｜ｘ｜−ｂ_２５） (式１６)
と表わすことが可能である。

このように、バックラッシ加速補正部１１０は、速度指令の符号反転直後の加速度ｘの平方根√｜ｘ｜に基づいて、（式１）から（式１６）によりそれぞれ求められる、加速量Ｖ０、計算開始時間ＴＺ、加速時間Ｔ０、加速時間Ｔ１、及び減衰係数α、並びに加速時間Ｔ２に基づいて、図６に示す台形の形状に基づいて「しばらくの時間」補正を行うように動作する。

第２の強化学習において、機械学習装置２００は、サーボ制御装置１００におけるバックラッシ加速補正部１１０がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータ並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置１００の位置偏差情報を含むサーボ状態を状態ｓとして、当該状態ｓに係る、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２の調整を行動ａとして選択する価値Ｑを学習する。

バックラッシ加速補正パラメータを対象とした強化学習においては、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２の調整（修正）を、行動ａとして選択する価値Ｑを学習する。

機械学習装置２００は、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ及び加速時間Ｔ２に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させた場合の位置指令と位置フィードバック値から得られる位置偏差値の集合と、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２と、を含む状態情報ｓを観測して、次の行動ａ（バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２の調整）を決定する。
機械学習装置２００は、行動ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させることで得られるサーボ制御装置１００の位置偏差情報を含むサーボ状態を含む状態情報ｓに対して、最適な行動ａ、すなわち、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２を選択することが可能となる。

これにより、第２の強化学習において、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態ｓに係るバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ及び加速時間Ｔ２に対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、位置偏差が最小になるような行動ａ（すなわち、バックラッシ加速補正部１１０の最適なバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２を選択すること）が可能となる。

なお、第２の強化学習における、状態情報取得部２０１、学習部２０２（報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３）、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５の処理は、前述した第１の強化学習時と同等の処理を行う。すなわち、機械学習装置２００は、第１の強化学習についての前述の説明において、バックラッシ補正部１０９をバックラッシ加速補正部１１０に読み替え、バックラッシ補正パラメータＰ_０をバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２に読み替えた強化学習を行う。
以上のように、本発明に係る機械学習装置２００を利用することで、サーボ制御装置１００のバックラッシ加速補正部１１０のバックラッシ加速補正パラメータ調整を簡易化することができる。

以上、サーボ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

＜本実施形態の動作＞
次に、図８のブロック図、図９のフローチャートを参照してバックラッシ補正パラメータを対象とする第１の強化学習時の機械学習装置２００の動作について説明をする。

バックラッシ補正パラメータを対象とする第１の強化学習時には、図８の太線で示されるように、機械学習装置２００は、バックラッシ補正パラメータＰ_０の調整情報を含む行動情報をバックラッシ補正部１０９に対して出力し、当該行動情報に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させて、位置偏差情報を観測する。

第１の強化学習は、図９に示すように、ステップＳ１１において、学習時の加工プログラムを実行することで、状態情報取得部２０１がサーボ制御装置１００から状態情報ｓを取得する。取得した状態情報は、価値関数更新部２０２２や行動情報生成部２０２３に対して出力される。上述したように、この状態情報ｓは、Ｑ学習における状態に相当する情報であり、ステップＳ１１時点での、バックラッシ補正部１０９のバックラッシ補正パラメータＰ_０が含まれる。こうして、バックラッシ補正パラメータＰ_０が初期値であるときの、学習時の加工プログラムにより指定される所定の送り速度且つ円の加工形状に対応する位置偏差の集合ＰＤ(s)が取得される。

最初にＱ学習を開始する時点での減算器１０２から状態ｓ_０における位置偏差の値ＰＤ（ｓ_０）は、学習時の加工プログラムでサーボ制御装置１００を動作させることで得られる。なお、学習時の加工プログラムにおいては、サーボモータ３０２の回転速度は前述したとおり、送り速度を変更し複数の送り速度が用意されている。位置指令作成部１０１は、学習時の加工プログラムにより指定された所定の加工形状で、例えば、円、四角、角Ｒ付き四角（a square with quarter arc）の加工形状で、送り速度を変えて位置指令を順次出力する。例えば、所定の送り速度で円の加工形状に対応する位置指令値が位置指令作成部１０１から出力され、減算器１０２は位置指令値と積分器１０８から出力される検出位置との差を位置偏差ＰＤ（ｓ_０）として機械学習装置２００に出力する。

ステップＳ１２において、行動情報生成部２０２３は新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部２０３を介してサーボ制御装置１００に対して出力する。行動情報生成部２０２３は前述した方策に基づいて、新たな行動情報ａを出力する。なお、行動情報ａを受信したサーボ制御装置１００は、受信した行動情報に基づいて現在の状態ｓに係るバックラッシ補正部１０９のバックラッシ補正パラメータＰ_０を修正した状態ｓ´により、サーボモータを含む工作機械を駆動させる。

ステップＳ１３において、状態情報取得部２０１は、減算器１０２から新たな状態ｓ´における位置偏差ＰＤ（ｓ´）を取得する。こうして、状態情報取得部２０１は、バックラッシ補正部１０９から状態ｓ´に係るバックラッシ補正パラメータＰ_０に基づいて、学習時の加工プログラムを前記サーボ制御装置に実行させた場合における、位置偏差の集合ＰＤ（ｓ´）を取得する。取得した状態情報は、報酬出力部２０２１に対して出力される。

ステップＳ１４において、報酬出力部２０２１は、状態ｓ´における位置偏差の値ｆ（ＰＤ（ｓ´））と状態sにおける位置偏差の値ｆ（ＰＤ（ｓ））との大小関係を判断し、ｆ（ＰＤ（ｓ´））＞ｆ（ＰＤ（ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ＰＤ（ｓ´））＜ｆ（ＰＤ（ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ＰＤ（ｓ´））＝ｆ（ＰＤ（ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部２０２２が、価値関数記憶部２０４に記憶している行動価値関数Ｑを更新する。そして、再度ステップＳ１１に戻り、上述した処理を繰り返すことにより、行動価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図８及び図９を参照して説明した第１の強化学習により、本実施形態では、機械学習装置２００を利用することで、バックラッシ補正パラメータＰ_０の最適な値を容易に取得することができる。

次に、図１０のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部２０５は、価値関数記憶部２０４に記憶している行動価値関数Ｑを取得する。行動価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部２０５は、この行動価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置１００のバックラッシ補正部１０９に対して出力する。
このようにして、第１の強化学習を終了する。

次にバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ及び加速時間Ｔ２を対象とする第２の強化学習時の機械学習装置２００の動作について説明をする。
機械学習装置２００は、バックラッシ加速補正パラメータを対象とした第２の強化学習時にも、図９のフローチャートと同様の動作フローにより、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及びＴ２の最適な値を容易に取得することができる。

なお、バックラッシ加速補正パラメータを対象とした第２の強化学習時には、図１１の太線で示されるように、バックラッシ補正部１０９は、加算器１０３に対して、第１の強化学習で最適化されたバックラッシ補正パラメータＰ_０を適用して、バックラッシ補正量を出力する。
そして、機械学習装置２００は、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ及び加速時間Ｔ２の調整情報を含む行動情報をバックラッシ加速補正部１１０に対して出力し、当該行動情報に基づいて、学習時の加工プログラムをサーボ制御装置１００に実行させて、位置偏差情報を観測する。

なお、第２の強化学習における、状態情報取得部２０１、学習部２０２（報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３）、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５の動作は、前述した第１の強化学習時と同等の動作を行う。すなわち、機械学習装置２００は、第１の強化学習についての前述の動作説明において、バックラッシ補正部１０９をバックラッシ加速補正部１１０に読み替え、バックラッシ補正パラメータＰ_０をバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及び加速時間Ｔ２に読み替えた強化学習の動作を行う。
このようにして、第２の強化学習時に、バックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及びＴ２の最適な値を容易に取得することができる。
バックラッシ加速補正パラメータを対象とした第２の強化学習後には、図１２の太線で示されるように、バックラッシ加速補正部１１０は、加算器１０６に対して、第２の強化学習で最適化されたバックラッシ加速補正パラメータａ_ｉ、ｂ_ｉ、ｃ_ｉ、及びＴ２を適用して、バックラッシ加速補正量を出力する。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜サーボ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００を、サーボ制御装置１００とは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボ制御装置１００により実現するようにしてもよい。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置２００とサーボ制御装置１００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００が複数のサーボ制御装置１００とネットワーク４００を介して通信可能に接続され、各サーボ制御装置１００の機械学習を実施するようにしてもよい。
その際、機械学習装置２００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０サーボ制御システム
１００サーボ制御装置
１０１位置指令作成部
１０２減算器
１０３加算器
１０４位置制御部
１０５減算器
１０６加算器
１０７速度制御部
１０８積分器
１０９バックラッシ補正部
１１０バックラッシ加速補正部
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００制御対象
４００ネットワーク
２０２１報酬出力部
２０２２価値関数更新部
２０２３行動情報生成部

Claims

位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段及び／又は、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段を備える、サーボ制御装置に対して、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置であって、
前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び／又は前記バックラッシ加速補正手段に対して出力する行動情報出力手段と、
前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記バックラッシ補正手段におけるバックラッシ補正パラメータを対象として強化学習を行った後に、前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを対象として強化学習を行う、請求項１に記載の機械学習装置。
前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項１又は請求項２に記載の機械学習装置。
前記価値関数更新手段により更新された行動価値関数に基づいて、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを生成して出力する最適化行動情報出力手段を備えた請求項１から請求項３の何れか１項に記載の機械学習装置。
請求項１〜４の何れか１項に記載の機械学習装置を含む前記サーボ制御装置。
請求項１〜４の何れか１項に記載の機械学習装置と、前記サーボ制御装置と、を備えたサーボ制御システム。
位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段と、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段とを備える、サーボ制御装置に対して前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び／又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置の機械学習方法であって、
前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び／又は前記バックラッシ加速補正手段に対して出力する行動情報出力ステップと、
前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び／又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得ステップと、
前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
を備える機械学習方法。