JP2021039648A

JP2021039648A - 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法

Info

Publication number: JP2021039648A
Application number: JP2019161883A
Authority: JP
Inventors: 瑶梁; Yao Liang; 亮太郎恒木; Ryotaro Tsuneki
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-11
Anticipated expiration: 2039-09-05
Also published as: DE102020122373A1; JP7405537B2; US11914333B2; CN112445181A; US20210072710A1

Abstract

【課題】サーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させる。
【解決手段】複数の軸に対応する複数のサーボ制御部に対して、機械学習を行う機械学習装置であって、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正部を備え、
機械学習装置は、第１のサーボ制御部の第１のサーボ制御情報と、第２のサーボ制御部の第２のサーボ制御情報と、関数の係数と、を含む状態情報を取得し、係数の調整情報を含む行動情報を補正部に出力し、第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、報酬の値と、状態情報と、行動情報とに基づいて価値関数を更新する。
【選択図】図１

Description

本発明は、複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置、この機械学習装置を含むサーボ制御装置とサーボ制御システム、及び機械学習方法に関する。

複数の軸を有する機械を駆動する複数のモータを制御する複数のサーボ制御部を有する装置は、例えば特許文献１及び特許文献２に記載されている。
特許文献１には、工作機械、ロボット、又は産業機械に係る第１の軸を駆動する第１のモータを制御する第１のモータ制御部と、第１の軸と異なる方向の第２の軸を駆動する第２のモータを制御する第２のモータ制御部と、を含む制御装置が記載されている。そして、特許文献１には、制御装置に係る動作特性を評価するための、第１及び第２のモータ制御部を動作させる評価用プログラムであって、第１及び第２のモータで駆動される第１及び第２の軸によって移動する制御対象の移動軌跡の形状が少なくとも、第１及び第２のモータの回転方向がともに反転しない角（かど）のある形状と、第１及び第２のモータの一方が一方向に回転し、且つ第１及び第２のモータの他方の回転方向が反転する弧を描く形状とを備えるように、第１及び第２のモータ制御部を動作させる評価用プログラムが記載されている。

特許文献２には、一つの位置指令制御装置と、各サーボモータ毎に設けられた複数個の位置駆動制御部を有し、位置指令制御装置より位置指令を与えられる位置駆動制御装置と、を具備した位置駆動制御システムにおいて、各軸の制御状態データを格納する共有メモリを有し、位置駆動制御部は、多軸の同期・同調制御時には、他軸の制御状態データを共有メモリより取得して他軸の負荷変動に応じた軸間修正指令値を算出する軸間修正速度・トルク制御部を有し、この軸間修正速度・トルク制御部により算出された軸間修正指令値により自軸の指令値を修正する位置駆動制御システムが記載されている。

特開２０１９−００３４０４号公報特開２００１−１００８１９号公報

複数の軸を駆動する複数のモータを複数のサーボ制御部で制御する場合、一つのサーボ制御部が一つの軸を駆動した場合に、その一の軸の駆動が、他のサーボ制御部が駆動する他の軸の駆動に干渉する場合がある。
干渉を受ける側のサーボ制御部における指令追従性を向上させるには、その干渉を補正することが望まれる。

（１）本開示の第１の態様は、複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部と、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えている、機械学習装置である。

（２）本開示の第２の態様は、上記（１）に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置である。

（３）本開示の第３の態様は、上記（１）項に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部を含むサーボ制御装置と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システムである。

（４）本開示の第４の態様は、複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置の機械学習方法であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習方法は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法である。

本開示の各態様によれば、干渉を受ける軸に関するサーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させることができる。

本開示の第１の実施形態のサーボ制御装置を示すブロック図である。工作機械となる４軸加工機の主軸を移動する主軸移動機構の部分構成図である。工作機械となる５軸加工機のワークを搭載するテーブル機構を示す部分構成図である。本開示の一実施形態の機械学習部を示すブロック図である。図２に示した４軸加工機を駆動する場合の機械学習による係数調整前の位置フィードバック情報の変動を示す特性図である。図２に示した４軸加工機を駆動する場合の機械学習による係数調整前の位置フィードバック情報の変動を示す特性図である。図３に示した５軸加工機を駆動する場合の機械学習による係数調整前の回転軸とＸ軸の位置フィードバック情報の変動を示す特性図である。図３に示した５軸加工機を駆動する場合の機械学習による係数調整前の回転軸とＸ軸の位置フィードバック情報の変動を示す特性図である。本開示の一実施形態の機械学習部の動作を説明するフローチャートである。本開示の一実施形態の機械学習部の最適化行動情報出力部の動作を説明するフローチャートである。サーボ制御装置と機械学習装置とを含むサーボ制御システムの一構成例を示すブロック図である。

以下、本開示の実施形態について図面を用いて詳細に説明する。

（第１の実施形態）
図１は本開示の第１の実施形態のサーボ制御装置を示すブロック図である。
図１に示すように、サーボ制御装置１０は、サーボ制御部１００、２００と、機械学習部３００とを備えている。機械学習部３００は機械学習装置となる。機械学習部３００はサーボ制御部１００又はサーボ制御部２００内に設けられてもよい。工作機械２０はサーボ制御部１００、２００によって駆動される。
サーボ制御部１００及び２００の制御対象として、ここでは工作機械２０を取り上げて説明するが、制御対象となる機械は工作機械に限定されず、例えばロボット，産業機械等であってもよい。サーボ制御部１００及び２００は、工作機械、ロボット、産業機械等の機械の一部として設けられてもよい。

サーボ制御部１００及び２００は工作機械２０の２軸を制御する。工作機械は例えば、３軸加工機、４軸加工機又は５軸加工機であり、２軸は、例えば、Ｙ軸とＺ軸等の２つの直線軸、又はＸ軸とＢ軸等の直線軸と回転軸である。工作機械２０の具体的な構成については後述する。

サーボ制御部１００は、減算器１０１、加算器１０２、位置制御部１０３、加算器１０４、減算器１０５、速度制御部１０６、加算器１０７、サーボモータ１０８、ロータリーエンコーダ１０９、積分器１１０、位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３を備えている。
サーボ制御部２００は、減算器２０１、位置制御部２０２、加算器２０３、減算器２０４、速度制御部２０５、サーボモータ２０６、ロータリーエンコーダ２０７、積分器２０８、及び位置フィードフォワード部２０９を備えている。
サーボ制御部１００は干渉を受ける軸に関する第１のサーボ制御部、サーボ制御部２００は干渉を与える軸に関する第２のサーボ制御部に対応する。

サーボ制御部１００とサーボ制御部２００との違いは、サーボ制御部１００が位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３を備えていることである。位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３は、サーボ制御部２００が工作機械２０の一つの軸を駆動した場合に、その一の軸の駆動が、サーボ制御部１００が駆動する他の軸の駆動に干渉するために、当該一の軸の駆動の影響をサーボ制御部１００で補正するために設けられる。
図１では、位置フィードフォワード部２０９はサーボ制御部２００に設けられているが、設けられなくともよい。また、位置フィードフォワード部２０９はサーボ制御部１００に設けられても、サーボ制御部１００とサーボ制御部２００の両方に設けられてもよい。

以下、サーボ制御装置１０の各部及び工作機械２０について更に説明する。まず、サー干渉を与える軸に関するサーボ制御部２００について説明する。なお、干渉を受ける軸に関するサーボ制御部１００は後述する。

＜サーボ制御部２００＞
位置指令ｘは、上位制御装置又は外部入力装置等で、所定の加工プログラムに従って、サーボモータ２０６の速度を変化させるためにパルス周波数を変えるように生成される。位置指令ｘは制御指令となる。位置指令ｘは、減算器２０１、位置フィードフォワード部２０９、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３及び機械学習部３００に出力される。

減算器２０１は、位置指令ｘと位置フィードバック（位置ＦＢ）された検出位置（位置フィードバック情報ｘ’となる）との差を求め、その差を位置偏差として位置制御部２０２に出力する。

位置制御部２０２は、位置偏差にポジションゲインＫｐを乗じた値を、速度指令として加算器２０３に出力する。

加算器２０３は、速度指令と位置フィードフォワード部２０９の出力値（位置フィードフォワード項）とを加算して、フィードフォワード制御された速度指令として減算器２０４に出力する。
減算器２０４は加算器２０３の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部２０５に出力する。

速度制御部２０５は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令としてサーボモータ２０６に出力する。
積分器２０８はロータリーエンコーダ２０７から出力される速度検出値を積分して位置検出値を出力する。
ロータリーエンコーダ２０７は速度検出値を速度フィードバック情報として減算器２０４に出力する。積分器１２９は速度検出値から位置検出値を求め、その位置検出値を位置フィードバック（位置ＦＢ）情報ｘ’として減算器２０１に出力する。位置フィードバック（位置ＦＢ）情報ｘ’は、機械学習部３００、位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３にも出力される。
ロータリーエンコーダ２０７及び積分器２０８は検出器となり、サーボモータ２０６は、回転運動をするモータであっても、直線運動をするリニアモータであってもよい。

位置フィードフォワード部２０９は、位置指令値を微分して定数を掛けた値に、位置フィードフォワード係数を掛けた値を位置フィードフォワード項として、加算器２０３に出力する。
以上のように、サーボ制御部２００は構成される。

＜サーボ制御部１００＞
位置指令ｙは、上位制御装置や外部入力装置等で、所定の加工プログラムに従って、サーボモータ１０８の速度を変化させるためにパルス周波数を変えるように生成される。位置指令ｙは制御指令となる。位置指令ｙは、減算器１０１及び機械学習部３００に出力される。

減算器１０１は、位置指令ｙと、位置フィードバックされた検出位置（位置フィードバック情報ｙ’となる）との差を求め、その差を位置偏差として加算器１０２に出力する。
加算器１０２は、位置偏差と、位置偏差補正部１１１から出力される位置偏差補正値との差を求めて、その差を補正された位置偏差として位置制御部１０３に出力する。

位置制御部１０３は、補正された位置偏差にポジションゲインＫｐを乗じた値を、速度指令として加算器１０４に出力する。

加算器１０４は、速度指令と、速度指令補正部１１２から出力される速度指令補正値との差を求めて、その差を補正された速度指令として減算器１０５に出力する。
減算器１０５は加算器１０４の出力と、速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１０６に出力する。

速度制御部１０６は、速度偏差に積分ゲインＫ１ｖを乗じて積分した値と、速度偏差に比例ゲインＫ２ｖを乗じた値とを加算して、トルク指令として加算器１０７へ出力する。
加算器１０７は、トルク指令と、トルク指令補正部１１３から出力されるトルク指令補正値との差を求めて、その差を補正されたトルク指令としてサーボモータ１０８に出力する。

積分器１１０はロータリーエンコーダ１０９から出力される速度検出値を積分して位置検出値を出力する。
ロータリーエンコーダ１０９は速度検出値を速度フィードバック情報として減算器１０５に出力する。積分器１１０は速度検出値から位置検出値を求め、その位置検出値を位置フィードバック情報ｙ’として減算器１０１及び機械学習部３００に出力する。
ロータリーエンコーダ１０９及び積分器１１０は検出器となり、サーボモータ１０８は、回転運動をするモータであっても、直線運動をするリニアモータであってもよい。

位置偏差補正部１１１は、サーボ制御部２００の積分器２０８から出力される位置フィードバック情報ｘ’、サーボ制御部２００へ入力される位置指令ｘ、及び機械学習部３００から出力される以下の数式１（以下の数１）で示される関数の係数ａ_１〜ａ_６の変更量を受け、数式１を用いて、位置偏差補正値Ｅｒｒ_ｃｏｍｐを求めて加算器１０２に出力する。

速度指令補正部１１２は、サーボ制御部２００の積分器２０８から出力される位置フィードバック情報ｘ’、サーボ制御部２００へ入力される位置指令ｘ、及び機械学習部３００から出力される以下の数式２（以下の数２）で示される関数の係数ｂ_１〜ｂ_６の変更量を受け、数式２を用いて、速度指令補正値Ｖｃｍｄ_ｃｏｍｐを求めて加算器１０４に出力する。

トルク指令補正部１１３は、サーボ制御部２００の積分器２０８から出力される位置フィードバック情報ｘ’、サーボ制御部２００へ入力される位置指令ｘ、及び機械学習部３００から出力される以下の数式３（以下の数３）で示される関数の係数ｃ_１〜ｃ_６の変更量を受け、数式３を用いて、トルク指令補正値Ｔｃｍｄ_ｃｏｍｐを求めて加算器１０７に出力する。

位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３は、補正部に対応し、サーボ制御部２００の位置指令ｘ、位置フィードバック情報ｘ’を用いてサーボ制御部１００の位置偏差の補正値Ｅｒｒ_ｃｏｍｐ、速度指令の補正値Ｖｃｍｄ_ｃｏｍｐ及びトルク指令の補正値Ｔｃｍｄ_ｃｏｍｐを作成する。サーボ制御部１００の位置偏差、速度指令及びトルク指令には、方向を無視して補正値Ｅｒｒ_ｃｏｍｐ、速度指令の補正値Ｖｃｍｄ_ｃｏｍｐ及びトルク指令の補正値Ｔｃｍｄ_ｃｏｍｐのスカラ値が加算される。このようにして、サーボ制御部１００の位置偏差、速度指令及びトルク指令からサーボ制御部２００によって駆動される軸による干渉量を削除することができる。位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３は全て設ける必要はなく、必要に応じて、位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３のうちの１つ又は２つを設けてもよい。

なお、数式１〜３はそれぞれ位置指令ｘ、位置指令ｘの１回微分、位置指令ｘの２回微分、位置フィードバック情報ｘ’、位置フィードバック情報ｘ’の１回微分、位置フィードバック情報ｘ’の２回微分を変数として含む式となっている。しかし、数式１〜３はこれらの変数を全て含まなくてもよく、適宜１つ又は複数を選択してもよい。例えば、位置指令ｘの２回微分と位置フィードバック情報ｘ’の２回微分、すなわち、位置指令ｘの加速度と位置フィードバック情報ｘ’の加速度とから位置偏差の補正値Ｅｒｒ_ｃｏｍｐ、速度指令の補正値Ｖｃｍｄ_ｃｏｍｐ及びトルク指令の補正値Ｔｃｍｄ_ｃｏｍｐを求めてよい。
位置指令ｘ、位置指令ｘの１回微分、位置指令ｘの２回微分はそれぞれ位置指令に関する変数、位置フィードバック情報ｘ’、位置フィードバック情報ｘ’の１回微分、位置フィードバック情報ｘ’の２回微分はそれぞれ位置指令に関する変数となる。
以上のように、サーボ制御部１００は構成される。

＜工作機械２０＞
工作機械２０は、例えば、３軸加工機、４軸加工機、５軸加工機である。
図２は、４軸加工機の主軸を移動する主軸移動機構の部分構成図である。図３は５軸加工機のワークを搭載するテーブル機構を示す部分構成図である。
工作機械２０が図２に示す４軸加工機２０Ａである場合に、例えばサーボ制御部２００はＹ軸の直線移動を制御し、サーボ制御部１００はＺ軸の直線移動を制御する。この場合、サーボ制御部２００は干渉を与える軸に関するサーボ制御部、サーボ制御部１００は干渉を受ける軸に関するサーボ制御部となる。

図２に示すように、Ｘ軸移動台２２が静止台２１上にＸ軸方向に移動可能に載置され、Ｙ軸移動柱２３がＸ軸移動台２２上にＹ軸方向に移動可能に載置される。また、主軸取り付け台２４がＹ軸移動柱２３の側面に取り付けられ、主軸２５が主軸取り付け台２４に対して、Ｂ軸について回動可能に、且つＺ軸方向に移動可能に取り付けられる。例えば、Ｙ軸移動柱２３のＹ軸方向の加減速時に、主軸２５のＺ軸方向の駆動がＹ軸から干渉を受ける。

工作機械２０が図３に示す５軸加工機２０Ｂである場合に、例えばサーボ制御部２００は回転軸の回転を制御し、サーボ制御部１００は直線軸となるＸ軸の直線移動を制御する。図３に示すように、偏心荷重のある回転割出テーブル２８の回転軸が直線軸上に配置された場合、相互に影響を与え干渉を生ずる。この干渉を排除するために、サーボ制御部１００とサーボ制御部２００との少なくとも一方に補正部を設ける。ここでは、サーボ制御部１００に補正部として位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３が設けられている。図２に示す４軸加工機２０Ａと同様に、サーボ制御部２００は干渉を与える軸のサーボ制御部、サーボ制御部１００は干渉を受ける軸のサーボ制御部となる。サーボ制御部２００に入力される位置指令は回転軸の回転角度を規定する指令である。

図３に示すように、Ｘ軸移動台２７が静止台２６上にＸ軸方向に移動可能に載置され、回転割出テーブル２８がＸ軸移動台２７上で回動可能に載置される。回転割出テーブル２８に搭載されるワーク又はワーク保持具の影響により、回転軸の中心からずれた位置に偏心荷重２９が形成される場合がある。偏心荷重２９が形成されると、Ｘ軸移動台２７と回転割出テーブル２８との間に相互に干渉を生ずる。

なお、サーボ制御部１００及びサーボ制御部２００の構成は、図２に示した４軸加工機２０Ａを駆動する場合でも、図３に示した５軸加工機２０Ｂを駆動する場合でも構成は同じである。ただし、サーボ制御部１００の位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の値は、Ｙ軸がＺ軸に干渉する図２に示した４軸加工機２０Ａと、回転軸とＸ軸とが相互に干渉する図３に示す５軸加工機２０Ｂとでは互いに異なる。

＜機械学習部３００＞
機械学習部３００は、予め設定された加工プログラム（以下、「学習時の加工プログラム」ともいう）を実行し、サーボ制御部１００から出力される位置指令ｙ及び位置フィードバック（位置ＦＢ）情報ｙを用いて、位置偏差補正部１１１の係数ａ_１〜ａ_６、速度指令補正部１１２の係数ｂ_１〜ｂ_６及びトルク指令補正部１１３の係数ｃ_１〜ｃ_６を機械学習（以下、学習という）する。機械学習部３００は機械学習装置となる。機械学習部３００による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
以下では、工作機械２０として４軸加工機２０Ａを用い、サーボ制御部２００が、学習時の加工プログラムによりサーボモータ２０６を制御し、サーボモータ２０６が４軸加工機２０ＡのＹ軸を駆動するものとする。またサーボ制御部１００は、学習時の加工プログラムによりサーボモータ１０８を制御し、サーボモータ１０８が４軸加工機２０ＡのＺ軸を駆動するものとする。
４軸加工機２０Ａを駆動する学習時の加工プログラムは、干渉を与える軸のサーボ制御部２００を制御することでＹ軸を往復移動させればよく、干渉を受ける軸のサーボ制御部１００を制御することでＺ軸を往復移動させてもさせなくともよい。以下の説明ではＺ軸を移動させない場合について説明する。
学習時の加工プログラムによって、上位制御装置又は外部入力装置は、サーボ制御部２００にＹ軸を往復移動させる位置指令を出力し、サーボ制御部１００にはＺ軸を静止させる位置指令が出力される。しかし、Ｚ軸を静止させる位置指令が入力されても、サーボ制御部１００は、Ｙ軸の移動による干渉によって、サーボ制御部１００の位置偏差、速度指令、及びトルク指令が影響を受ける。そこで、機械学習部３００は、位置偏差補正部１１１の係数ａ１〜ａ６、速度指令補正部１１２の係数ｂ１〜ｂ６及びトルク指令補正部１１３の係数ｃ１〜ｃ６を学習することで位置偏差、速度指令、及びトルク指令の補正値を最適な値に設定する。

以下、機械学習部３００について更に詳細に説明する。
以下の説明では機械学習部３００が強化学習を行う場合について説明するが、機械学習部３００が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。

機械学習部３００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習部３００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、干渉を受ける軸に関するサーボ制御部において、軸間干渉を補正するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式４（以下に数４として示す）により表すことができる。

上記の数式４において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習部３００が行う。具体的には、機械学習部３００は、学習時の加工プログラムを実行することでサーボ制御部２００から位置指令ｘの集合と位置フィードバック情報ｘ’の集合を取得する。また、機械学習部３００は、学習時の加工プログラムを実行することでサーボ制御部１００の位置指令ｙの集合と位置フィードバック情報ｙ’の集合を取得する。位置指令ｙと位置フィードバック情報ｙ’とは第１のサーボ制御情報となり、位置指令ｘと位置フィードバック情報ｘ’とは第２のサーボ制御情報となる。位置指令ｙはＺ軸の静止を指令する。位置指令ｘの集合と位置フィードバック情報ｘ’ の集合、及び位置指令ｙの集合と位置フィードバック情報ｙ’の集合は状態Ｓとなる。そして、機械学習部３００は、当該状態Ｓに係る、サーボ制御部１００の位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の値の調整を行動Ａとして選択する価値Ｑを学習する。

サーボ制御部２００は、学習時の加工プログラムを実行し、Ｙ軸を駆動するサーボモータ２０６のサーボ制御を行う。また、サーボ制御部１００は、学習時の加工プログラムを実行し、係数ａ_１〜ａ_６を備えた数式１、係数ｂ_１〜ｂ_６を備えた数式２、係数ｃ_１〜ｃ_６を備えた数式３で求められる位置偏差補正値、速度指令補正値、トルク指令補正値を用いて位置偏差、速度指令、トルク指令を補正しつつ、位置指令に基づいてＺ軸が静止するようにサーボモータ１０８のサーボ制御を行う。

機械学習部３００は、学習時の加工プログラムを実行することで取得される、位置指令ｘの集合と位置フィードバック情報ｘ’の集合、及び位置指令ｙの集合と位置フィードバック情報ｙ’の集合を含む状態Ｓの情報を観測して、行動Ａを決定する。機械学習部３００は、行動Ａをするたびに報酬を与える。機械学習部３００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習部３００は、学習時の加工プログラムを実行することで取得される位置指令ｘの集合と位置フィードバック情報ｘ’の集合、及び係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６に基づいて、学習時の加工プログラムを実行することで取得される位置指令ｙの集合と位置フィードバック情報ｙ’の集合を含む状態Ｓに対して、最適な行動Ａ（すなわち、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６）を選択することが可能となる。

すなわち、機械学習部３００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６に対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで生ずる軸間干渉を補正するような行動Ａ（すなわち、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６）を選択することが可能となる。

図４は本開示の一実施形態の機械学習部３００を示すブロック図である。
上述した強化学習を行うために、図７に示すように、機械学習部３００は、状態情報取得部３０１、学習部３０２、行動情報出力部３０３、価値関数記憶部３０４、及び最適化行動情報出力部３０５を備える。学習部３０２は報酬出力部３０２１、価値関数更新部３０２２、及び行動情報生成部３０２３を備える。

状態情報取得部３０１は、学習時の加工プログラムを実行することで取得される、サーボ制御部２００の位置指令ｘの集合と位置フィードバック情報ｘ’（第２のサーボ制御情報となる）の集合、及び位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６に基づいて、学習時の加工プログラムを実行することで取得される、サーボ制御部１００の位置指令ｙの集合と位置フィードバック情報ｙ’ の集合を含む状態Ｓを取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。なお、図４においては、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６は、簡略化のために係数ａ、ｂ、ｃと示している。
状態情報取得部３０１は、取得した状態情報Ｓを学習部３０２に対して出力する。

なお、最初にＱ学習を開始する時点での位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６は、予めユーザが生成するようにする。本実施形態では、ユーザが作成した係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６の初期設定値を、強化学習により最適なものに調整する。
なお、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６は予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部３０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。

報酬出力部３０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。行動Ａ（係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６の修正）により状態Ｓから変化した状態を状態Ｓ’で示す。
報酬出力部３０２１は、状態Ｓ及び状態Ｓ’における、位置指令ｙと位置フィードバック情報ｙ’の差（ｙ−ｙ’）を求める。報酬出力部３０２１で、位置指令ｙと位置フィードバック情報ｙ’の差により求められた位置偏差は第２の位置偏差となる。差（ｙ−ｙ’）の集合を位置偏差集合と呼び、状態Ｓにおける位置偏差集合をＰＤ（Ｓ）、状態Ｓ’における位置偏差集合をＰＤ（Ｓ’）で示す。

評価関数ｆとしては、干渉を受ける軸のサーボ制御部１００の位置偏差（ｙ−ｙ’）を位置偏差ｅで示すとき、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数、
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝
等を適用することができる。
位置偏差集合ＰＤ（Ｓ）により求められた評価関数ｆの値を評価関数値ｆ（ＰＤ（Ｓ））、位置偏差集合ＰＤ（Ｓ’）により求められた評価関数ｆの値を評価関数値ｆ（ＰＤ（Ｓ’））とする。
サーボ制御部１００に入力される位置指令ｙが、Ｚ軸を静止させる指令でなく、Ｚ軸を報復移動させる指令であっても、評価関数は上記評価関数ｆを用いることができる。

このとき、行動情報Ａにより修正された状態情報Ｓ’に係る修正後の位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３に基づいてサーボ制御部１００が動作したときの評価関数値ｆ（ＰＤ（Ｓ’））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の位置偏差補正部１１１、速度指令補正部１１２及びトルク指令補正部１１３に基づいてサーボ制御部１００が動作したときの評価関数値ｆ（ＰＤ（Ｓ））よりも大きくなった場合に、報酬出力部３０２１は、報酬の値を負の値とする。

一方で、評価関数値ｆ（ＰＤ（Ｓ’））が、評価関数値ｆ（ＰＤ（Ｓ））よりも小さくなった場合に、報酬出力部３０２１は、報酬の値を正の値とする。
なお、評価関数ｆ（ＰＤ（Ｓ’））が、評価関数値ｆ（ＰＤ（Ｓ））と等しい場合は、報酬出力部３０２１は、報酬の値をゼロとする。

また、行動Ａを実行後の状態Ｓ’の評価関数値ｆ（ＰＤ（Ｓ’））が、前の状態Ｓにおける評価関数値ｆ（ＰＤ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりｆ（ＰＤ（Ｓ’））の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ’の評価関数値ｆ（ＰＤ（Ｓ’））が、前の状態Ｓにおける評価関数値ｆ（ＰＤ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりｆ（ＰＤ（Ｓ’））の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部３０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ’と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部３０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。

オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ’に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ’に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部３０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部３０２３は、Ｑ学習の過程において、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６を修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部３０３に対して出力する。より具体的には、行動情報生成部３０２３は、例えば、状態Ｓに含まれる位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６に対して行動Ａに含まれる、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６をインクレメンタルに加算又は減算させる。

そして、行動情報生成部３０２３は、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６の増加又は減少を適用して、状態Ｓ’に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６に対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、評価関数ｆの値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部３０２３は、次の行動Ａ´としては、例えば、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６に対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、評価関数が前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部３０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部３０３は、学習部３０２から出力される行動情報Ａを位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３に対して送信する部分である。位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６及び係数ｃ_１〜ｃ_６を微修正することで、次の状態Ｓ’（すなわち修正された、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６）に遷移する。

価値関数記憶部３０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部３０４に記憶された価値関数Ｑは、価値関数更新部３０２２により更新される。また、価値関数記憶部３０４に記憶された価値関数Ｑは、他の機械学習部３００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習部３００で共有するようにすれば、各機械学習部３００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部３０５は、価値関数更新部３０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部３０５は、価値関数記憶部３０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部３０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報を位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３に対して出力する。この最適化行動情報には、行動情報出力部３０３がＱ学習の過程において出力する行動情報と同様に、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６を修正する情報が含まれる。

位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３この行動情報に基づいて係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６が修正される。
機械学習部３００は、以上の動作で、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の最適化を行い、軸間干渉を補正し、指令追従性を向上させるように動作することができる。

図５は図２に示した４軸加工機２０Ａを駆動する場合の機械学習による係数（パラメータ）調整前の位置フィードバック（位置ＦＢ）情報の変動を示す特性図である。図６は図２に示した４軸加工機２０Ａを駆動する場合の機械学習による係数（パラメータ）調整前の位置フィードバック（位置ＦＢ）情報の変動を示す特性図である。
図５及び図６は、Ｙ軸を往復移動させ、Ｚ軸を静止するようにサーボ制御部２００及び１００を駆動したときのサーボ制御部１００の位置フィードバック情報の変動の変動を示している。図６の特性図に示すように、機械学習による係数（パラメータ）調整によって、図５の特性図の位置変動が改善され、指令追従性が向上されることが分かる。

図７は図３に示した５軸加工機２０Ｂを駆動する場合の機械学習による係数（パラメータ）調整前の回転軸とＸ軸の位置フィードバック（位置ＦＢ）情報の変動を示す特性図である。図８は図３に示した５軸加工機２０Ｂを駆動する場合の機械学習による係数（パラメータ）調整前の回転軸とＸ軸の位置フィードバック（位置ＦＢ）情報の変動を示す特性図である。図７及び図８において、右縦軸は直線軸となるＸ軸の位置フィードバック（位置ＦＢ）情報の値を示し、左縦軸は回転軸の位置フィードバック（位置ＦＢ）情報の値を示す。
図７及び図８は、回転軸を回転させ、Ｘ軸を静止するようにサーボ制御部２００及び１００を駆動したときのサーボ制御部１００の位置フィードバック情報の変動の変動を示している。図８の特性図に示すように、機械学習による係数（パラメータ）調整によって、図７の特性図のＸ軸の位置変動が改善され、指令追従性が向上されることが分かる。

以上のように、本実施形態に係る機械学習部３００を利用することで、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３の係数の調整を簡易化することができる。

以上、サーボ制御装置１０に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置１０は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボ制御装置１０は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボ制御装置１０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習部３００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図９のフローチャートを参照して本実施形態におけるＱ学習時の機械学習部３００の動作について説明をする。

ステップＳ１１において、状態情報取得部３０１がサーボ制御部１００及び２００から最初の状態情報Ｓ_０を取得する。取得した状態情報は、価値関数更新部３０２２や行動情報生成部３０２３に対して出力される。上述したように、この状態情報Ｓは、Ｑ学習における状態に相当する情報である。

最初にＱ学習を開始する時点での状態Ｓ_０における、位置指令ｘの集合及び位置指令ｙの集合は上位制御装置若しくは外部入力装置、又はサーボ制御部２００及びサーボ制御部１００から得られる。状態Ｓ_０における、位置フィードバック情報ｘ’の集合及び位置フィードバック情報ｙ’の集合は、学習時の加工プログラムでサーボ制御部１００及びサーボ制御部２００を動作させることで得られる。サーボ制御部２００に入力される位置指令ｘの集合は、Ｙ軸を往復移動させる指令であり、サーボ制御部１００に入力される位置指令ｙの集合は、Ｚ軸を静止させる指令である。位置指令ｘは、位置フィードフォワード部２０９、減算器２０１、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３及び機械学習部３００に入力される。位置指令ｙは、減算器１０１及び機械学習部３００に入力される。位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の初期値は予めユーザが生成し、機械学習部３００に係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６及び係数ｃ_１〜ｃ_６の初期値が送られる。例えば、初期値は係数ａ_１〜ａ_６の全てを０、係数ｂ_１〜ｂ_６の全てを０及び係数ｃ_１〜ｃ_６の全てを０とされる。なお、機械学習部３００において、前述した状態Ｓ_０における、位置指令ｘの集合と位置フィードバック情報ｘ’の集合、位置指令ｙの集合と位置フィードバック情報ｙ’ の集合を抽出するようにしてもよい。

ステップＳ１２において、行動情報生成部３０２３は新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部３０３を介して位置偏差補正部１１１、速度指令補正部１１２、及びトルク指令補正部１１３に対して出力する。行動情報生成部３０２３は前述した方策に基づいて、新たな行動情報Ａを出力する。なお、行動情報Ａを受信したサーボ制御部１００は、受信した行動情報に基づいて現在の状態Ｓに係る位置偏差補正部１１１、速度指令補正部１１２、及びトルク指令補正部１１３係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、係数ｃ_１〜ｃ_６を修正した状態Ｓ’により、サーボモータ１０８を含む工作機械を駆動させる。上述したように、この行動情報は、Ｑ学習における行動Ａに相当するものである。現在の状態Ｓは、最初にＱ学習を開始する時は状態Ｓ_０となる。

ステップＳ１３において、状態情報取得部３０１は、新たな状態Ｓ’における、位置指令ｘの集合と位置フィードバック情報ｘ’の集合、位置指令ｙの集合と位置フィードバック情報ｙ’の集合、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、及び係数ｃ_１〜ｃ_６を取得する。こうして、状態情報取得部３０１は、状態Ｓ’における係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、及び係数ｃ_１〜ｃ_６であるときの、位置指令ｘの集合と位置フィードバック情報ｘ’の集合、位置指令ｙの集合と位置フィードバック情報ｙ’の集合を取得する。取得した状態情報は、報酬出力部３０２１に対して出力される。

ステップＳ１４において、報酬出力部３０２１は、状態Ｓ’における評価関数値ｆ（ＰＤ（Ｓ’））と状態Ｓにおける評価関数値ｆ（ＰＤ（Ｓ））との大小関係を判断し、ｆ（ＰＤ（Ｓ’））＞ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ＰＤ（Ｓ’））＜ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ＰＤ（Ｓ’））＝ｆ（ＰＤ（Ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。なお、状態ＳはＱ学習を開始する時点では状態Ｓ_０となる。

ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部３０２２が、価値関数記憶部３０４に記憶している価値関数Ｑを更新する。そして、再度ステップＳ１２に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図９を参照して説明した動作により、本実施形態では、機械学習部３００を利用することで、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の調整のための、適切な価値関数を得ることができ、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、及び係数ｃ_１〜ｃ_６の最適化を簡易化することができる、という効果を奏する。
次に、図１０のフローチャートを参照して、最適化行動情報出力部３０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部３０５は、価値関数記憶部３０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部３０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御部１００に対して出力する。

また、図１０を参照して説明した動作により、本実施形態では、機械学習部３００により学習することにより求められる価値関数Ｑに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて、現在設定されている位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６の調整を簡易化し、ワークの加工面の品位を向上させることができる。

上記のサーボ制御部及び機械学習部に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

例えば、上述した実施形態では、機械学習部３００は、評価関数ｆの値を求めるために、干渉を受ける軸のサーボ制御部１００の位置指令ｙと位置フィードバック情報ｙ’の差を求めているが、サーボ制御部１００の減算器１０１の出力である位置偏差（ｙ−ｙ’）を用いて評価関数ｆの値を求めてもよい。サーボ制御部１００の減算器１０１の出力である位置偏差（ｙ−ｙ’）は第１の位置偏差となる。

また、上述した実施形態では、機械学習部３００が、位置偏差補正部１１１の数式１の係数ａ_１〜ａ_６、速度指令補正部１１２の数式２の係数ｂ_１〜ｂ_６、トルク指令補正部１１３の数式３の係数ｃ_１〜ｃ_６を同時に学習する例について説明したが、機械学習部３００は、係数ａ_１〜ａ_６、係数ｂ_１〜ｂ_６、及び係数ｃ_１〜ｃ_６のうちの一つの係数を先に学習して最適化した後に、他方の係数を順次学習して最適化してもよい。

また、上述した実施形態では、機械学習部３００の報酬出力部３０２１は、評価関数として、位置偏差を用いているが、速度偏差又は加速度偏差を用いてよい。
速度偏差は位置偏差の時間微分、加速度偏差は位置偏差の時間微分から求めることができる。速度偏差は加算器１０４の出力である速度指令と速度フィードバック情報との差、又は減算器１０５の出力を用いてもよい。

（第２の実施形態）
第１の実施形態では、機械学習部はサーボ制御装置の一部として設けられている例について説明したが、本実施形態では、機械学習部がサーボ制御装置の外に設けられてサーボ制御システムを構成する例について説明する。以下、機械学習部はサーボ制御装置と独立して設けられるため、機械学習装置と呼ぶ。
図１１はサーボ制御装置と機械学習装置とを含むサーボ制御システムの一構成例を示すブロック図である。図１１に示すサーボ制御システム３０は、ｎ（ｎは２以上の自然数）個のサーボ制御装置１０−１〜１０−ｎと、ｎ個の機械学習装置３００Ａ−１〜３００Ａ−ｎと、サーボ制御装置１０−１〜１０−ｎとｎ個の機械学習装置３００Ａ−１〜３００Ａ−ｎとを接続するネットワーク４００とを備えている。ｎ（ｎは２以上の自然数）個のサーボ制御装置１０−１〜１０−ｎはｎ個の工作機械２０−１〜２０−ｎと接続されている。
サーボ制御装置１０−１〜１０−ｎの各々は機械学習部を備えていない点を除き、図１のサーボ制御装置１０と同じ構成を有している。機械学習装置３００Ａ−１〜３００Ａ−ｎは図５に示した機械学習部３００と同じ構成を有している。

ここで、サーボ制御装置１０−１と、機械学習装置３００Ａ−１とは１対１の組とされて、通信可能に接続されている。サーボ制御装置１０−２〜１０−ｎと、機械学習装置３００Ａ−２〜３００Ａ−ｎについてもサーボ制御装置１０−１と機械学習装置３００Ａ−１と同様に接続される。図１１では、サーボ制御装置１０−１〜１０−ｎと、機械学習装置３００Ａ−１〜３００Ａ−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、サーボ制御装置１０−１〜１０−ｎと、機械学習装置３００Ａ−１〜３００Ａ−ｎとのｎ個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置１０−１〜１０−ｎと機械学習装置３００Ａ−１〜３００Ａ−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

＜システム構成の自由度＞
上述した実施形態では、サーボ制御装置１０−１〜１０−ｎと、機械学習装置３００Ａ−１〜３００Ａ−ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習装置が複数のモータ制御装置及び複数の加速度センサとネットワーク４００を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、１台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習装置の各機能を実現してもよい。

また、ｎ台の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置１０−１〜１０−ｎとそれぞれ対応するｎ個の機械学習装置３００Ａ−１〜３００Ａ−ｎがあった場合に、各機械学習装置３００Ａ−１〜３００Ａ−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）本開示の一態様は、複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部（例えば、サーボ制御部１００、２００）に対して、機械学習を行う機械学習装置（例えば、機械学習部３００、機械学習装置３００−１〜３００−ｎ）であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部（例えば、サーボ制御部１００）は、干渉を与える軸に関する第２のサーボ制御部（例えば、サーボ制御部２００）の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部（例えば、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３）を備え、
前記機械学習装置は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部（例えば、状態情報取得部３０１）と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部（例えば、行動情報出力部３０３）と、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部（例えば、報酬出力部３０２１）と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部（例えば、価値関数更新部３０２２）と、
を備えている、機械学習装置である。
この機械学習装置によれば、軸間干渉を補正するサーボ制御部の補正部の係数の最適化を図ることができ、サーボ制御部における煩雑な調整を回避しつつ、サーボ制御部の指令追従性を向上させることができる。

（２）前記第１のサーボ制御情報は、前記第１のサーボ制御部の位置指令と位置フィードバック情報、又は前記第１のサーボ制御部の第１の位置偏差を含み、
前記評価関数は、前記第１のサーボ制御部の位置指令と位置フィードバック情報とから求められる第２の位置偏差又は前記第１の位置偏差、該第１又は第２の位置偏差の絶対値又は該絶対値の２乗を含む値に基づいて前記報酬の値を出力する、上記（１）に記載の機械学習装置。

（３）前記第２のサーボ制御部の位置指令に関する変数は、前記第２のサーボ制御部の、前記位置指令、前記位置指令の１回微分及び前記位置指令の２回微分の少なくとも１つであり、前記第２のサーボ制御部の位置フィードバック情報に関する変数は、前記第２のサーボ制御部の、前記位置フィードバック情報、前記位置フィードバック情報の１回微分及び前記位置フィードバック情報の２回微分の少なくとも１つである、上記（１）又は（２）に記載の機械学習装置。

（４）前記第１及び前記第２のサーボ制御部を制御する学習時の加工プログラムは、機械学習時に、前記干渉を与える軸を動かし、前記干渉を受ける軸を静止させる、上記（１）から（３）のいずれかに記載の機械学習装置。

（５）前記価値関数更新部により更新された価値関数に基づいて、前記補正部の前記係数の調整情報を出力する最適化行動情報出力部を備えた上記（１）から（４）のいずれかに記載の機械学習装置。

（６）本開示の他の一態様は、上記（１）から（５）のいずれかに記載に記載の機械学習装置（例えば、機械学習部３００）と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部（例えば、サーボ制御部１００、２００）と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部（例えば、サーボ制御部１００）は、干渉を与える軸に関する第２のサーボ制御部（例えば、サーボ制御部２００）の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部（例えば、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３）を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置（例えば、サーボ制御装置１０）である。
このサーボ制御装置によれば、サーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させることができる。

（７）本開示の他の一態様は、上記（１）から（５）のいずれかに記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部（例えば、サーボ制御部１００、２００）を含むサーボ制御装置（例えば、サーボ制御装置１０−１〜１０−ｎ）と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部（例えば、サーボ制御部１００）は、干渉を与える軸に関する第２のサーボ制御部（例えば、サーボ制御部２００）の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部（例えば、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３）を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システム（例えば、サーボ制御システム３０）である。
このサーボ制御システムによれば、サーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させることができる。

（８）本開示の他の一態様は、複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部（例えば、サーボ制御部１００、２００）に対して、機械学習を行う機械学習装置（例えば、機械学習部３００、機械学習装置３００−１〜３００−ｎ）の機械学習方法であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部（例えば、サーボ制御部１００）は、干渉を与える軸に関する第２のサーボ制御部（例えば、サーボ制御部２００）の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部（例えば、位置偏差補正部１１１、速度指令補正部１１２、トルク指令補正部１１３）を備え、
前記機械学習方法は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法である。
この機械学習方法によれば、軸間干渉を補正するサーボ制御部の補正部の係数の最適化を図ることができ、サーボ制御部における煩雑な調整を回避しつつ、サーボ制御部の指令追従性を向上させることができる。

（９）更新された前記価値関数に基づいて、最適化行動情報となる、前記補正部の前記係数の調整情報を出力する上記（８）に記載の機械学習装置。

１０、１０−１〜１０−ｎサーボ制御装置
２０、２０−１〜２０−ｎ工作機械
１００、２００サーボ制御部
１０１、２０１減算器
１０２加算器
１０３、２０２位置制御部
１０４、２０３加算器
１０５、２０４減算器
１０６、２０５速度制御部
１０７加算器
１０８、２０６サーボモータ
１０９、２０７ロータリーエンコーダ
１１０、２０８積分器
１１１位置偏差補正部
１１２速度指令補正部
１１３トルク指令補正部
２０９位置フィードフォワード部
３００機械学習部
３００Ａ−１〜３００Ａ−ｎ機械学習装置
４００ネットワーク

Claims

複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数との少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部と、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えている、機械学習装置。
前記第１のサーボ制御情報は、前記第１のサーボ制御部の位置指令と位置フィードバック情報、又は前記第１のサーボ制御部の第１の位置偏差を含み、
前記評価関数は、前記第１のサーボ制御部の位置指令と位置フィードバック情報とから求められる第２の位置偏差又は前記第１の位置偏差、該第１又は第２の位置偏差の絶対値又は該絶対値の２乗を含む値に基づいて前記報酬の値を出力する請求項１に記載の機械学習装置。
前記第２のサーボ制御部の位置指令に関する変数は、前記第２のサーボ制御部の、前記位置指令、前記位置指令の１回微分及び前記位置指令の２回微分の少なくとも１つであり、前記第２のサーボ制御部の位置フィードバック情報に関する変数は、前記第２のサーボ制御部の、前記位置フィードバック情報、前記位置フィードバック情報の１回微分及び前記位置フィードバック情報の２回微分の少なくとも１つである、請求項１又は２に記載の機械学習装置。
前記第１及び前記第２のサーボ制御部を制御する学習時の加工プログラムは、機械学習時に、前記干渉を与える軸を動かし、前記干渉を受ける軸を静止させる、請求項１から３のいずれか１項に記載の機械学習装置。
前記価値関数更新部により更新された価値関数に基づいて、前記補正部の前記係数の調整情報を出力する最適化行動情報出力部を備えた請求項１から４のいずれか１項に記載の機械学習装置。
請求項１から５のいずれか１項に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置。
請求項１から５のいずれか１項に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部を含むサーボ制御装置と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システム。
複数の軸を有し、該複数の軸のうちの１つの軸が他の少なくとも１つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置の機械学習方法であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第１のサーボ制御部は、干渉を与える軸に関する第２のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも１つを含む関数に基づいて、前記第１のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも１つを補正する補正値を求める補正部を備え、
前記機械学習方法は、前記第１のサーボ制御部の第１のサーボ制御情報と、前記第２のサーボ制御部の第２のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第１のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法。
更新された前記価値関数に基づいて、最適化行動情報となる、前記補正部の前記係数の調整情報を出力する請求項８に記載の機械学習装置。