JP2018195018A

JP2018195018A - 機械学習装置、サーボ制御システム及び機械学習方法

Info

Publication number: JP2018195018A
Application number: JP2017097527A
Authority: JP
Inventors: 翔吾篠田; Shogo Shinoda; 聡史猪飼; Satoshi Igai
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2018-12-06
Anticipated expiration: 2037-05-16
Also published as: CN108880399B; JP6474456B2; DE102018003769A1; DE102018003769B4; CN108880399A; US11009837B2; US20180335758A1

Abstract

【課題】モータの位相に応じて適切に制御器ゲインを調整する。【解決手段】モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置が、制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力手段と、前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段と、前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、を備える。【選択図】図１

Description

本発明は、サーボ制御に関する機械学習を行うための、機械学習装置、サーボ制御システム及び機械学習方法に関する。

従来、サーボ制御に関する機械学習を行うことによって、サーボ制御の対象とする工作機械等を適切に制御する技術が知られている。
例えば、特許文献１に開示の技術では、主軸についての負荷、温度及び振動を状態として観測する。そして、この観測した状態に基づいた強化学習によって、動作指令を補正するための価値関数を学習する。学習終了後、このようにして学習した価値関数を用いることにより、オペレータによる補正操作を要することなく、状況に応じて動作指令を補正することが可能となる。

特開平７−２１０２０７号公報

ところで、サーボモータ等のモータを駆動させると、モータの位相に応じてモータのインダクタンスが変化する。そのため、モータの駆動を制御するための制御器ゲインが一定のままであると、インダクタンスの変化に伴ってモータの回転ムラが生じる。この回転ムラを抑制するためには、モータの位相に応じて、制御器ゲインを調整する必要がある。
しかしながら、一般的な技術では、モータの位相に応じて制御器ゲインを調整するようなことは行われていない。例えば、上述した特許文献１に開示の技術では、負荷、温度及び振動に応じて工作機械に与える動作指令を補正することは記載されているが、モータの位相を考慮することや、制御器ゲインを調整することは記載されていない。
また、仮に一般的な技術で制御器ゲインの調整を行うとしても、モータのインダクタンスは、モータの位相に応じて非常に短い時間に瞬間的に変化するので、その調整は容易なものではない。

本発明はこのような状況に鑑みてなされたものであり、モータの位相に応じて適切に制御器ゲインを調整することが可能な、機械学習装置、サーボ制御システム及び機械学習方法を提供することを目的とする。

（１）本発明の機械学習装置（例えば、後述の機械学習装置１００）は、モータ（例えば、後述のモータ３２）を備える制御対象装置（例えば、後述の制御対象装置３００）の動作を制御するサーボ制御装置（例えば、後述のサーボ制御装置２００）に対して、強化学習を行う機械学習装置であって、制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器（例えば、後述の位置制御器２３、速度制御器２５及び電流制御器２７）に対して出力する行動情報出力手段（例えば、後述の行動情報出力部１３）と、前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段（例えば、後述の状態情報取得部１１）と、前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の報酬出力１２１）と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の価値関数更新部１２２）と、を備える。

（２）上記（１）に記載の機械学習装置を、前記サーボ制御装置は前記制御器に入力される指令を補正するためのフィードバック制御を行うサーボ制御装置であり、前記状態情報取得手段は、前記偏差として、前記制御器に入力される指令と前記フィードバック制御におけるフィードバック値との差分を取得するようにしてもよい。

（３）上記（１）又は（２）に記載の機械学習装置を、前記制御器は、位置制御、速度制御、及び電流制御の何れかを行う制御器の組合せであり、当該機械学習装置は、前記制御器の何れか１つを対象として前記強化学習を行った後に他の制御器の１つを対象として前記強化学習を行う場合に、電流制御を行う制御器、速度制御を行う制御器、位置制御を行う制御器の順に前記強化学習の対象とするようにしてもよい。

（４）上記（１）から（３）までの何れか１に記載の機械学習装置を、前記モータの位相は、前記制御対象装置の動作を制御するための位置指令に基づいて算出されるようにしてもよい。

（５）上記（１）から（４）までの何れか１に記載の機械学習装置を、前記制御器ゲインの伝達関数は、変数として前記モータの位相を含むようにしてもよい。

（６）本発明のサーボ制御システムは、上記（１）から（５）までの何れか１に記載の機械学習装置と、前記サーボ制御装置とを備えたサーボ制御システムであって、前記サーボ制御装置が、前記制御対象装置の動作を制御するための位置指令に基づいて前記モータの位相を算出し、算出したモータの位相を前記状態情報取得手段及び前記制御器に対して出力する位相算出手段（位相算出部２１）を備える。

（７）本発明の機械学習方法は、モータ（例えば、後述のモータ３２）を備える制御対象装置（例えば、後述の制御対象装置３００）の動作を制御するサーボ制御装置（例えば、後述のサーボ制御装置２００）に対して、強化学習を行う機械学習装置（例えば、後述の機械学習装置１００）の機械学習方法であって、制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器（例えば、後述の位置制御器２３、速度制御器２５、及び電流制御器２７）に対して出力する行動情報出力ステップと、前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得ステップと、前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、を備える。

本発明によれば、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。

本発明の実施形態全体の基本的構成を示す機能ブロック図である。本発明の実施形態におけるサーボ制御装置の構成要素及び制御対象装置の構成要素並びに信号の流れについて示す機能ブロック図である。本発明の実施形態におけるモータの位相の算出について説明するための模式図である。本発明の実施形態における機械学習装置の構成を示す機能ブロック図である。本発明の実施形態における機械学習装置の、機械学習時の動作について説明するためのフローチャートである。本発明の実施形態における機械学習装置の、最適化行動情報の出力時の動作について説明するためのフローチャートである。本発明の実施形態が奏する効果について説明するための模式図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
＜実施形態の全体構成＞
図１は本実施形態であるサーボ制御システム１の全体構成を示す機能ブロック図である。図１に示すようにサーボ制御システム１は、機械学習装置１００、サーボ制御装置２００及び制御対象装置３００を含んで構成される。

機械学習装置１００は、サーボ制御装置２００の制御器ゲインを調整するために機械学習を行う装置である。機械学習装置１００は、機械学習により、制御器ゲインの伝達関数における最適な係数を求める。機械学習装置１００は、パーソナルコンピュータやサーバ装置あるいは数値制御装置（ＣＮＣ：ＣｏｍｐｕｔｅｒｉｚｅｄＮｕｍｅｒｉｃａｌＣｏｎｔｒｏｌ）等により実現できる。

サーボ制御装置２００は、フィードバック制御を行うことにより、制御対象装置３００の駆動を制御する装置である。また、サーボ制御装置２００の制御器ゲインの伝達関数における係数は、機械学習装置１００により調整される。

制御対象装置３００は、サーボ制御装置２００の制御により駆動するサーボモータを備えた装置である。制御対象装置３００は、例えば、工作機械、ロボット、産業機械等により実現できる。上記サーボ制御装置２００は、単独の装置として実現してもよいが、これら工作機械、ロボット、産業機械等の一部として実現してもよい。

機械学習装置１００及びサーボ制御装置２００は通信可能に接続される。また、サーボ制御装置２００及び制御対象装置３００も通信可能に接続される。これら通信は、例えば、工場内に構築されたＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）により実現できる。また、これら通信は、有線通信及び無線通信の何れか又はその組み合わせであってもよく、その通信規格等に特に制限はない。更に、これら通信は、インターネットや公衆電話網等のネットワーク（図示を省略する）を介したものでよく、この場合、各装置はそれぞれ近傍（例えば、同じ工場内）に設置されてもよいが、遠方の場所に別々に設置されてもよい。
なお、図中では、これら装置を１台ずつ図示するが、これら装置の台数に制限はなく、その接続も１対１のみならず、１対多や、多対多の接続であってよい。

＜フィードバック制御＞
次に、サーボ制御装置２００及び制御対象装置３００の詳細な構成及びフィードバック信号の流れについて図２を参照して説明をする。

図２に示すように、本実施形態は、機械学習装置１００と、サーボ制御装置２００の構成要素である位相算出部２１、減算器２２、位置制御器２３、減算器２４、速度制御器２５、減算器２６、電流制御器２７、積分器２８と、制御対象装置３００の構成要素である駆動用アンプ３１、モータ３２、及び機械３３とを備える。なお、機械学習装置１００の詳細な構成については、図４を参照して後述する。

本実施形態では、フィードバック制御として、位置制御器２３、減算器２４及び電流制御器２７にて、比例演算、積分演算及び微分演算を行うことによりＰＩＤ制御を行う。なお、フィードバック制御及びＰＩＤ制御を行うサーボ制御装置の基本的な動作自体は、当業者にとってよく知られているので、この点についての詳細な説明は省略する。

次に、機械学習時の信号の流れについて、引き続き図２を参照して説明をする。以下では、先にフィードバック制御に関する信号の流れについて説明してから、機械学習に関する信号の流れについて説明をする。

まず、サーボ制御装置２００に対して、図示を省略した上位装置（例えば数値制御装置）又は図示を省略した位置指令作成部から制御対象装置３００の駆動を制御するための位置指令が入力される。この位置指令は、制御対象装置３００を動作させるプログラムに基づいて作成されたものである。ここで、本実施形態では、モータ３２の回転子が、一定速度で正方向及び／又は負方向に一回転以上回転する動作を対象として機械学習を行う。そのため、機械学習時の位置指令は、モータ３２の回転子が、一定速度で正方向及び／又は負方向に一回転以上回転するような動作を行わせる位置指令であるとする。
入力された位置指令は分岐して、位相算出部２１と減算器２２に対して出力される。減算器２２に対して出力された位置指令は、減算器２２にて位置フィードバック値により減算されて、位置指令と位置フィードバック値との偏差である位置偏差が位置制御器２３に入力される。また、位置偏差は分岐して機械学習装置１００にも入力される。

位置制御器２３では、比例ゲインをＫ_３Ｐ（Θ）、積分ゲインをＫ_３Ｉ（Θ）、微分ゲインをＫ_３Ｄ（Θ）とした場合に「Ｋ_３Ｐ（Θ）＋Ｋ_３Ｉ（Θ）／ｓ＋Ｋ_３Ｄ（Θ）ｓ」と表される制御器ゲインの伝達関数Ｋ_３（ｓ，Θ）にて、入力された位置偏差から速度指令を生成し、生成した速度指令を速度制御器２５に対して出力する。なお、各制御器ゲインの伝達関数の変数であるΘは、モータ３２の位相である。モータ３２の位相は、位相算出部２１により算出され、位置制御器２３、速度制御器２５、及び電流制御器２７の各制御器に対して出力される。位相算出部２１による位相の算出方法については図３を参照して後述する。
位置制御器２３が出力した速度指令は、減算器２４にて速度フィードバック値により減算されて、速度指令と速度フィードバック値との偏差である速度偏差が速度制御器２５に入力される。また、速度偏差は分岐して機械学習装置１００にも入力される。

速度制御器２５では、比例ゲインをＫ_２Ｐ（Θ）、積分ゲインをＫ_２Ｉ（Θ）、微分ゲインをＫ_２Ｄ（Θ）とした場合に「Ｋ_２Ｐ（Θ）＋Ｋ_２Ｉ（Θ）／ｓ＋Ｋ_２Ｄ（Θ）ｓ」と表される制御器ゲインの伝達関数Ｋ_２（ｓ，Θ）にて、入力された速度偏差から電流指令を生成し、生成した電流指令を電流制御器２７に対して出力する。
速度制御器２５が出力した電流指令は、減算器２６にて電流フィードバック値により減算されて、速度指令と電流フィードバック値との偏差である電流偏差が電流制御器２７に入力される。また、電流偏差は分岐して機械学習装置１００にも入力される。

電流制御器２７では、比例ゲインをＫ_１Ｐ（Θ）、積分ゲインをＫ_１Ｉ（Θ）、微分ゲインをＫ_１Ｄ（Θ）とした場合に「Ｋ_１Ｐ（Θ）＋Ｋ_１Ｉ（Θ）／ｓ＋Ｋ_１Ｄ（Θ）ｓ」と表される制御器ゲインの伝達関数Ｋ_１（ｓ，Θ）にて、入力された電流偏差から電圧指令を生成し、生成した電圧指令を駆動用アンプ３１に対して出力する。

駆動用アンプ３１は、この電圧指令に基づいて、サーボモータであるモータ３２を駆動するための駆動電流を生成し、生成した駆動電流をモータ３２に対して出力する。また、この駆動電流は分岐し、電流フィードバック値として減算器２６に対して入力される。減算器２６では、上述したように電流フィードバック値による減算を行う。

モータ３２は入力された駆動電流に基づいて回転をする。これにより、モータ３２に接続された機械３３が動作する。機械３３は、例えば、被加工物（ワーク）を搭載したテーブルである。この場合、機械３３は、図示を省略したボールねじ等の連結機構でモータ３２と接続される。
そして、このボールねじにより、モータ３２の回転運動は、直線運動に変換される。これにより、機械３３は被加工物（ワーク）を、位置指令に応じた所定の位置に移動させる。

ここで、モータ３２には、速度検出器（図示省略）が取り付けられている。この速度検出器が検出した速度フィードバック値は分岐して減算器２４と積分器２８のそれぞれに対して出力される。減算器２４では、上述したように速度フィードバック値による減算を行う。

また、積分器２８では、速度フィードバック値を積分することにより、位置フィードバック値を生成する。そして、積分器２８は、生成した位置フィードバック値を減算器２２に対して出力する。モータ３２では、上述したように位置フィードバック値による減算を行う。

ここで、制御対象装置３００を駆動させるための負荷や外乱等の影響があることから、目標値である位置指令と、出力値である位置フィードバック値との間には位置偏差が生じる。この位置偏差が減少することを目的として、上述のフィードバック制御が繰り返される。
以上が、フィードバック制御の流れである。

＜モータ３２の位相の算出＞
本実施形態では、モータ３２の位相に応じて適切に制御器ゲインを調整するために、上述したように、制御器ゲインの伝達関数の変数として、モータ３２の位相に相当するΘを含んでいる。次に、位相算出部２１による、このモータ３２の位相の算出について図３を参照して説明をする。

本実施形態では、位相算出部２１が、入力された位置指令に基づいて、モータ３２の位相を算出して出力する。この算出の前提として、位相算出部２１は、モータの回転位置についての絶対位置を記憶する。ここで、絶対位置を、例えば図３に示すようにＺ相とする。

他方、通常、モータ３２には回転位置を検出するための検出器が備え付けられている。この検出器は、検出結果である回転位置等を記憶している。具体的には、モータ３２の回転数を示すデータや、一回転内の何れの位置にあるのかを示すデータとして記憶している。本実施形態では、これらのデータを、例えば電源投入時に検出器から位相算出部２１に対して通知する。
通知を受けた位相算出部２１は、記憶している絶対位置（例えば、Ｚ相）と、通知された一回転内の何れの位置にあるのかを示すデータに基づいて特定される位置との差分（すなわち、絶対位置とのズレ）を計算することにより、絶対位置を基準（原点）とした初期位置を特定することができる。

そして、電源投入後、位置指令に基づいてモータ３２の回転が開始されると、位相算出部２１は、位置指令に基づいて現在位置の位相を算出する。そのために、位相算出部２１は、機械３３の駆動部分の先端とモータ３２間のギア比（すなわち、モータ１回転当たりの駆動部分の先端の移動量）を記憶しておく。そして、このギア比から、機械３３の駆動部の先端に与える位置指令に対してモータ３２の位相がどれだけ変化するのかを、下記の数式（式１）により算出する。

モータの位相［ｄｅｇ］＝位置指令［ｍｍ］÷ギア比［ｍｍ／ｒｅｖ］×３６０
（式１）

そして、位相算出部２１は、絶対位置を基準（原点）とした初期位置の位相に、上記の式によって位置指令から算出した位相を加算し、加算後の位相を現在位置の位相として、位置制御器２３、速度制御器２５及び電流制御器２７のそれぞれに対して出力する。位置制御器２３、速度制御器２５及び電流制御器２７は、現在位置の位相の値を、制御器ゲインの伝達関数の変数であるΘに代入する。なお、位相算出部２１と、位置制御器２３、速度制御器２５及び電流制御器２７のそれぞれをつなげる信号線については図示を省略する。

＜機械学習＞
上述したフィードバック制御と並行して、機械学習装置１００による機械学習が行われる。この機械学習のために、位相算出部２１は、現在位置の位相を、機械学習装置１００に対しても出力する。
また、機械学習装置１００には機械学習のために、位置制御器２３、速度制御器２５及び電流制御器２７から、現在の制御器ゲインの伝達関数の係数が入力される。
更に、上述したように、機械学習装置１００には機械学習のために、位置偏差、速度偏差、及び電流偏差も入力される。

更に、機械学習装置１００は、機械学習のために、位置制御器２３、速度制御器２５及び電流制御器２７のそれぞれに対して、制御器ゲインの伝達関数の係数を出力する。位置制御器２３、速度制御器２５及び電流制御器２７は、機械学習装置１００から入力された制御器ゲインの伝達関数の係数と、位相算出部２１から入力された制御器ゲインの伝達関数の変数（すなわち、モータ３２の位相）に応じて、指令を出力する。
機械学習装置１００は、これらの入力及び出力に基づいて機械学習を行う。具体的には、機械学習装置１００は機械学習の１つである強化学習を行う。

次に、機械学習装置１００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。
強化学習において、エージェント（本実施形態における機械学習装置１００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、位相の変化に応じてモータのインダクタンスが変化することに起因する位置偏差、速度偏差、及び電流偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Ｑ−ｌｅａｒｎｉｎｇ）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（ｓ，ａ）の更新式は、例えば、次の数式（式２）により表すことができる。

上記の数式（式２）において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式（式２）は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（ＤｅｅｐＱ−Ｎｅｔｗｏｒｋ）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年５月８日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14位置制御器２３6.pdf〉

以上説明をしたＱ学習を機械学習装置１００が行う。
具体的には、機械学習装置１００は、サーボ制御装置２００における位置制御器２３、速度制御器２５及び電流制御器２７の内の学習対象としている制御器の制御器ゲインの伝達関数の係数の値、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置２００の各偏差情報やモータ３２の位相を含むサーボ状態を状態ｓとして、当該状態ｓに係る制御器の制御器ゲインの伝達関数の各係数の調整を行動ａとして選択する価値Ｑを学習する。

ここで、制御器ゲインの伝達関数の係数は、例えば電流制御器２７の制御器ゲインの伝達関数Ｋ_１（ｓ，Θ）（＝Ｋ_１Ｐ（Θ）＋Ｋ_１Ｉ（Θ）／ｓ＋Ｋ_１Ｄ（Θ）ｓ）、速度制御器２５の制御器ゲインの伝達関数Ｋ_２（ｓ，Θ）（＝Ｋ_２Ｐ（Θ）＋Ｋ_２Ｉ（Θ）／ｓ＋Ｋ_２Ｄ（Θ）ｓ）、及び位置制御器２３の制御器ゲインの伝達関数Ｋ_３（ｓ，Θ）（＝Ｋ_３Ｐ（Θ）＋Ｋ_３Ｉ（Θ）／ｓ＋Ｋ_３Ｄ（Θ）ｓ）をそれぞれΘの１次元の関数とする場合以下の数式（式３）のように定められる。
Ｋ_ｉＰ（Θ）＝ａ_ｉＰ・ｓｉｎ（Θ＋ｂ_ｉＰ）＋ｃ_ｉＰ
Ｋ_ｉＩ（Θ）＝ａ_ｉＩ・ｓｉｎ（Θ＋ｂ_ｉＩ）＋ｃ_ｉＩ
Ｋ_ｉＤ（Θ）＝ａ_ｉＤ・ｓｉｎ（Θ＋ｂ_ｉＤ）＋ｃ_ｉＤ
ここで、ｉは、１≦ｉ≦３の整数である。
（式３）

機械学習装置１００は、各制御器ゲインの伝達関数の各係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３）に基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置２００の各偏差情報（電流偏差、速度偏差、及び位置偏差）及びモータ３２の位相と、各制御器ゲインの伝達関数の各係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３）とを含む情報である状態情報ｓを観測して、行動ａを決定する。
機械学習装置１００は、行動ａをするたびに報酬が返ってくる。機械学習装置１００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置１００は、制御器ゲインの伝達関数の各係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３）に基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置２００の各偏差情報を含むサーボ状態を含む状態情報ｓに対して、最適な行動ａ（すなわち、位置制御器２３、速度制御器２５及び電流制御器２７の内の学習対象としている制御器の最適な係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３）を選択することが可能となる。

これにより、機械学習装置１００により学習された価値関数Ｑに基づいて、或る状態ｓに係る制御器ゲインの伝達関数の各係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３）に対して適用される行動ａのうち、Ｑの値が最大となるような行動ａを選択することで、各偏差が最小になるような行動ａ（すなわち、位置制御器２３、速度制御器２５及び電流制御器２７の最適な係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦３））を選択することが可能となる。

また、本実施形態では、位置制御器２３、速度制御器２５及び電流制御器２７の３つの制御器について同時に学習するのではなく、これら制御器内の１つを対象として、順番に学習を行う。これは、位置制御器２３、速度制御器２５及び電流制御器２７の３つの制御器について同時に学習すると、学習が収束するまで時間を要するおそれがあるからである。

具体的には、まず電流制御器２７を対象として、電流制御器２７の最適な係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄを選択するための学習を行う。この際、位置制御器２３及び速度制御器２５についての係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（２≦ｉ≦３）については、未だ学習を行っていないため最適な係数を選択することはできない。そこで、位置制御器２３及び速度制御器２５についての各係数については、モータ３２を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する（例えば、従来のように、位相に依存しない固定値とする）。モータ３２を発振させずに問題なく動作させることができる制御器ゲインとした場合、位置や速度の追従性が低くなることもあるが、電流制御器２７についての学習する際に位置偏差や速度偏差が大きくなっていても、それぞれの偏差によって生成された電流指令に対する電流偏差のみを評価するため、電流制御器２７の学習には問題は発生しない。

また、電流制御器２７についての学習が終了した場合には、速度制御器２５を対象として、速度制御器２５の最適な係数ａ_２Ｐ、ｂ_２Ｐ、ｃ_２Ｐ、ａ_２Ｉ、ｂ_２Ｉ、ｃ_２Ｉ、ａ_２Ｄ、ｂ_２Ｄ、ｃ_２Ｄを選択するための学習を行う。この際、電流制御器２７の係数については、既に学習を行っているので、学習結果に基づいて最適な係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄを選択する。位置制御器２３の係数については、モータ３２を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する（例えば、従来のように、位相に依存しない固定値とする）。

更に、速度制御器２５についての学習が終了した場合には、位置制御器２３を対象として、位置制御器２３の最適な係数ａ_３Ｐ、ｂ_３Ｐ、ｃ_３Ｐ、ａ_３Ｉ、ｂ_３Ｉ、ｃ_３Ｉ、ａ_３Ｄ、ｂ_３Ｄ、ｃ_３Ｄを選択するための学習を行う。この際、電流制御器２７及び速度制御器２５の各係数については、既に学習を行っているので、学習結果に基づいて最適な係数ａ_ｉＰ、ｂ_ｉＰ、ｃ_ｉＰ、ａ_ｉＩ、ｂ_ｉＩ、ｃ_ｉＩ、ａ_ｉＤ、ｂ_ｉＤ、ｃ_ｉＤ（１≦ｉ≦２）を選択する。

以上のようにすることにより、位置制御器２３、速度制御器２５及び電流制御器２７のそれぞれについての学習を行うことができ、各制御器について最適な係数を選択することが可能となる。

＜機械学習装置１００の機能ブロック＞
次に、図４を参照して、上述した強化学習を行う機械学習装置１００の機能ブロックについて説明をする。
図４に示すように、機械学習装置１００は、電流制御器２７、速度制御器２５、及び位置制御器２３の制御器ゲインを調整するために、状態情報取得部１１、学習部１２、行動情報出力部１３、価値関数記憶部１４、及び最適化行動情報出力部１５を備える。また、学習部１２は報酬出力部１２１、価値関数更新部１２２、及び行動情報生成部１２３を備える。以下、電流制御器２７、速度制御器２５、及び位置制御器２３の順番に説明する。

まず、電流制御器２７の制御器ゲインの学習について説明する。前述したように、位置制御器２３及び速度制御器２５についての各係数については、モータ３２を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する（例えば、従来のように、位相に依存しない固定値とする）。
状態情報取得部１１は、サーボ制御装置２００における電流制御器２７の制御器ゲインの伝達関数の各係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄに基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置２００の電流偏差情報を含む状態である状態情報ｓを、サーボ制御装置２００から取得する。この状態情報ｓは、Ｑ学習における、環境状態ｓに相当する。また、状態情報ｓには、制御器ゲインの伝達関数の各係数の値も含まれる。この値は、位置制御器２３、速度制御器２５及び電流制御器２７から取得してもよいが、この値を調整情報として出力した行動情報生成部１２３から取得してもよい。
状態情報取得部１１は、取得した状態情報ｓを学習部１２に対して出力する。

なお、最初にＱ学習を開始する時点での電流制御器２７の制御器ゲインの伝達関数の係数は、予めユーザが生成するようにする。つまり、本実施形態では、ユーザが作成した制御器ゲインの伝達関数の係数の初期設定値を、強化学習により最適なものに調整する。

学習部１２は、或る環境状態ｓの下で、ある行動ａを選択する場合の価値Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部１２は、報酬出力部１２１、価値関数更新部１２２及び行動情報生成部１２３を備える。

報酬出力部１２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。ここで、状態ｓにおける状態変数である電流偏差の集合（電流偏差集合）をＰＤ（ｓ）、行動情報ａ（制御器ゲインの伝達関数の各係数）の修正により状態ｓから変化した状態情報ｓ´に係る状態変数である電流偏差集合をＰＤ（ｓ´）で示す。また、状態ｓにおける電流偏差の値を、予め設定された評価関数ｆ（ＰＤ（ｓ））に基づいて算出される値とする。

評価関数ｆとしては、例えば、
電流偏差の絶対値の積算値を算出する関数
∫|e|dt （式４）
電流偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数、
∫e²ⁿdt（ｎは自然数）（式５）
電流偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝（式６）
等を適用することができる。

このとき、行動情報ａにより修正された状態情報ｓ´に係る修正後の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ））よりも大きくなった場合に、報酬出力部１２１は、報酬の値を負の値とする。

一方で、行動情報ａにより修正された状態情報ｓ´に係る修正後の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ））よりも小さくなった場合に、報酬の値を正の値とする。

また、行動情報ａにより修正された状態情報ｓ´に係る修正後の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ´））が、行動情報ａにより修正される前の状態情報ｓに係る修正前の電流制御器２７の制御器ゲインの伝達関数の係数に基づいて動作したサーボ制御装置２００の電流偏差の値ｆ（ＰＤ（ｓ））と等しい場合は、報酬出力部１２１は、報酬の値をゼロとする。

更に、行動ａを実行後の状態ｓ´の電流偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける電流偏差の値ｆ（ＰＤ（ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり電流偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動ａを実行後の状態ｓ´の電流偏差の値ｆ（ＰＤ（ｓ´））が、前の状態ｓにおける電流偏差の値ｆ（ＰＤ（ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり電流偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部１２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された報酬の値と、に基づいて電流制御器２７の制御器ゲインの伝達関数の係数についてＱ学習を行うことにより、価値関数記憶部１４が記憶する価値関数Ｑを更新する。

価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部１２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部１２３は、Ｑ学習の過程において、サーボ制御装置２００の電流制御器２７の制御器ゲインの伝達関数の各係数を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部１３に対して出力する。より具体的には、行動情報生成部１２３は、例えば、状態ｓに含まれる電流制御器２７の制御器ゲインの伝達関数の各係数に対して行動ａに含まれる、制御器ゲインの伝達関数の各係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄをインクレメンタル（例えば０．０１程度）に加算又は減算させる。

そして、行動情報生成部１２３は、電流制御器２７の制御器ゲインの伝達関数の各係数の増加又は減少を適用して、状態ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動ａ´としては、電流制御器２７の制御器ゲインの伝達関数の各係数に対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、電流偏差の値がより小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部１２３は、次の行動ａ´としては、例えば、電流制御器２７の制御器ゲインの伝達関数の各係数に対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、電流偏差が前回の値よりも小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部１２３は、現在の推定される行動ａの価値の中で、最も価値Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部１３は、学習部１２から出力される行動情報ａをサーボ制御装置２００の学習対象としている制御器（電流制御器２７）に対して送信する部分である。学習対象としている制御器は上述したように、この行動情報に基づいて、現在の状態ｓ、すなわち現在設定されている電流制御器２７の制御器ゲインの伝達関数の各係数を微修正することで、次の状態ｓ´（すなわち修正された、制御器ゲインの伝達関数の各係数）に遷移する。

価値関数記憶部１４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部１４に記憶された価値関数Ｑは、価値関数更新部１２２により更新される。また、価値関数記憶部１４に記憶された価値関数Ｑは、他の機械学習装置１００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置１００で共有するようにすれば、各機械学習装置１００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部１５は、価値関数更新部１２２が電流制御器２７の制御器ゲインの伝達関数の係数についてＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（ｓ，ａ）が最大となる動作を電流制御器２７の制御器ゲインの伝達関数に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部１５は、価値関数記憶部１４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部１２２が電流制御器２７の制御器ゲインの伝達関数の係数についてＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部１５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置２００の学習済みの電流制御器２７に対して出力する。この最適化行動情報には、行動情報出力部１３がＱ学習の過程において出力する行動情報と同様に、電流制御器２７の制御器ゲインの伝達関数の各係数を修正する情報が含まれる。
以上のようにして、機械学習装置１００は、電流制御器２７についての制御器ゲインの伝達関数の係数ａ_ｉ、ｂ_ｊ、ｃ_ｋの調整のための、適切な価値関数を得ることができ、係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄの最適化を簡易化することができる。

次に、電流制御器２７の制御器ゲインの学習終了に引き続き、速度制御器２５の制御器ゲインの係数ａ_２Ｐ、ｂ_２Ｐ、ｃ_２Ｐ、ａ_２Ｉ、ｂ_２Ｉ、ｃ_２Ｉ、ａ_２Ｄ、ｂ_２Ｄ、ｃ_２ＤのＱ学習を行う場合について簡単に説明する。
前述したように、速度制御器２５の制御器ゲインのＱ学習に際して、電流制御器２７の係数については、電流制御器２７の学習結果に基づいて最適な係数を選択する。なお、位置制御器２３の係数については、モータ３２を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する（例えば、従来のように、位相に依存しない固定値とする）。
速度制御器２５の制御器ゲインのＱ学習における、状態情報取得部１１、学習部１２（報酬出力部１２１、価値関数更新部１２２、及び行動情報生成部１２３）、行動情報出力部１３、価値関数記憶部１４、及び最適化行動情報出力部１５の処理は、前述した電流制御器２７の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置１００は、電流制御器２７の制御器ゲインの機械学習についての前述の説明において、電流制御器２７を速度制御器２５に読み替え、電流制御器２７の制御器ゲインの係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄを速度制御器２５の制御器ゲインの係数ａ_２Ｐ、ｂ_２Ｐ、ｃ_２Ｐ、ａ_２Ｉ、ｂ_２Ｉ、ｃ_２Ｉ、ａ_２Ｄ、ｂ_２Ｄ、ｃ_２Ｄに読み替え、電流偏差を速度偏差に読み替えた機械学習を行う。

次に、電流制御器２７及び速度制御器２５の制御器ゲインの学習終了に引き続き、位置制御器２３の制御器ゲインの係数ａ_３Ｐ、ｂ_３Ｐ、ｃ_３Ｐ、ａ_３Ｉ、ｂ_３Ｉ、ｃ_３Ｉ、ａ_３Ｄ、ｂ_３Ｄ、ｃ_３ＤのＱ学習を行う場合について簡単に説明する。
前述したように、位置制御器２３の制御器ゲインのＱ学習に際して、電流制御器２７及び速度制御器２５の係数については、電流制御器２７及び速度制御器２５の学習結果に基づいて最適な係数を選択する。
位置制御器２３の制御器ゲインのＱ学習における、状態情報取得部１１、学習部１２（報酬出力部１２１、価値関数更新部１２２、及び行動情報生成部１２３）、行動情報出力部１３、価値関数記憶部１４、及び最適化行動情報出力部１５は、前述した電流制御器２７の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置１００は、電流制御器２７の制御器ゲインの機械学習についての前述の説明において、電流制御器２７を位置制御器２３に読み替え、電流制御器２７の制御器ゲインの係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄを位置制御器２３の制御器ゲインの係数ａ_３Ｐ、ｂ_３Ｐ、ｃ_３Ｐ、ａ_３Ｉ、ｂ_３Ｉ、ｃ_３Ｉ、ａ_３Ｄ、ｂ_３Ｄ、ｃ_３Ｄに読み替え、電流偏差を位置偏差に読み替えた機械学習を行う。

以上のように、電流制御器２７、速度制御器２５、及び位置制御部２３の機械学習を順番に行うことで、サーボ制御装置２００は、機械学習に基づいて制御器ゲインの伝達関数の各係数の最適な値を選択することが可能となり、そうすることで、モータの位相に応じて位置制御器２３のインダクタンスが変化する場合であってもモータの回転ムラを低減するように動作することができる。
以上のように、本発明に係る機械学習装置１００を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。

以上、サーボ制御装置２００、機械学習装置１００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置２００、及び機械学習装置１００のそれぞれは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の演算処理装置を備える。また、サーボ制御装置２００、及び機械学習装置１００のそれぞれは、アプリケーションソフトウェアやＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の各種の制御用プログラムを格納したＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）といった主記憶装置も備える。

そして、サーボ制御装置２００、及び機械学習装置１００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置１００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）を搭載し、ＧＰＧＰＵ（Ｇｅｎｅｒａｌ−ＰｕｒｐｏｓｅｃｏｍｐｕｔｉｎｇｏｎＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

＜本実施形態の動作＞
次に、図５のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置１００の動作について説明をする。なお、図５のフローチャートの説明においては、簡単のため、位置制御器２３、速度制御器２５及び電流制御器２７を単に制御器と称し、位置偏差、速度偏差、及び電流偏差を単に偏差と称している。

ステップＳ１１において、状態情報取得部１１がサーボ制御装置２００から状態情報ｓを取得する。取得した状態情報は、価値関数更新部１２２や行動情報生成部１２３に対して出力される。上述したように、この状態情報ｓは、Ｑ学習における環境状態ｓに相当する情報であり、ステップＳ１１時点での、偏差の集合ＰＤ(s)と、モータ３２の位相と、制御器ゲインの伝達関数の係数が含まれる。例えば、学習対象としているのが電流制御器２７である場合には、減算器２６が電流指令から電流フィードバックを減算することで得られる電流偏差が、偏差ＰＤ（ｓ）として含まれる。また、位相算出部２１が算出したモータ３２の位相が含まれる。更に、電流制御器２７の制御器ゲインの伝達関数の係数ａ_１Ｐ、ｂ_１Ｐ、ｃ_１Ｐ、ａ_１Ｉ、ｂ_１Ｉ、ｃ_１Ｉ、ａ_１Ｄ、ｂ_１Ｄ、ｃ_１Ｄが含まれる。

ステップＳ１２において、行動情報生成部１２３は新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部１３を介して学習対象としている制御器に対して出力する。行動情報生成部１２３は前述した方策に基づいて、新たな行動情報ａを出力する。なお、行動情報ａを受信した制御器は、受信した行動情報に基づいて現在の状態ｓに係る制御器ゲインの伝達関数の各係数を修正した状態ｓ´により、モータ３２を含む制御対象装置３００を駆動させる。上述したように、この行動情報は、Ｑ学習における行動ａに相当するものである。

ステップＳ１３において、状態情報取得部１１は、学習対象としている制御器の入力に対応する減算器（例えば、学習対象としているのが電流制御器２７である場合には、減算器２６）から新たな状態ｓ´における偏差ＰＤ（ｓ´）を取得する。こうして、状態情報取得部１１は、状態ｓ´における偏差の集合ＰＤ（ｓ´）を取得する。取得した状態情報は、報酬出力部１２１に対して出力される。

ステップＳ１４において、報酬出力部１２１は、状態ｓ´における偏差の値ｆ（ＰＤ（ｓ´））と状態sにおける偏差の値ｆ（ＰＤ（ｓ））との大小関係を判断する。そして、判断の結果、ｆ（ＰＤ（ｓ´））＞ｆ（ＰＤ（ｓ））の場合には、ステップＳ１５において、報酬を負の値とする。ｆ（ＰＤ（ｓ´））＜ｆ（ＰＤ（ｓ））の場合には、ステップＳ１６において、報酬を正の値とする。ｆ（ＰＤ（ｓ´））＝ｆ（ＰＤ（ｓ））の場合には、ステップＳ１７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。
ステップＳ１５、ステップＳ１６及びステップＳ１７の何れかが終了すると、処理はステップＳ１８に進む。

ステップＳ１８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部１２２が、価値関数記憶部１４に記憶している価値関数Ｑを更新する。なお、ステップＳ１８はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

ステップＳ１９において、学習部１２は、強化学習を終了する条件が満たされたか否かを判定する。強化学習を終了する条件は、例えば上述した処理を、所定回数繰り返したことや、所定時間繰り返したこととする。未だ強化学習を終了する条件が満たされていない場合には、ステップＳ１９においてＮｏと判定され、処理は再度ステップＳ１１に戻る。そして、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。
一方で、強化学習を終了する条件が満たされた場合には、ステップＳ１９においてＹｅｓと判定され、処理は終了する。

上述したように、本実施形態では、位置制御器２３、速度制御器２５及び電流制御器２７の３つの制御器について同時に学習するのではなく、これら制御器内の１つを対象として、順番に学習を行う。つまり、ステップＳ１１〜ステップＳ１９の処理を、各制御器に対して順番に行う。そして、全ての制御器に対してステップＳ１１〜ステップＳ１９の処理を行った場合に、Ｑ学習時の機械学習装置１００の動作は終了となる。

以上、図５を参照して説明した動作により、本実施形態では、機械学習装置１００を利用することで、各制御器についての制御器ゲインの伝達関数の係数の調整のための、適切な価値関数を得ることができ、各係数の最適化を簡易化することができる。

次に、図６のフローチャートを参照して、最適化行動情報出力部１５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部１５は、価値関数記憶部１４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部１２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部１５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報をサーボ制御装置２００の各制御器に対して出力する。この最適化行動情報は、各制御器についての制御器ゲインの伝達関数の係数を適切に調整するための情報である。

サーボ制御装置２００では、この最適化行動情報に基づいて制御器ゲインの伝達関数の各係数が最適化され、位相に応じて位置制御器２３のインダクタンスが変化する場合であっても回転ムラを軽減し、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置１００を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。

この効果について、図７を参照して説明をする。図７には、モータ３２が一定速度で回転している場合の、各制御ループにおける偏差を図示している。

まず、図中左の＜伝達関数の係数の調整前＞には、モータ３２の回転子の回転に伴いモータ３２の位相が変化すると、この位相の変化に応じてモータのインダクタンスも変化するため、ゲインが一定であると回転ムラが生じる様子を図示する。上述したように、一般的な技術では、伝達関数の係数の調整を行っていないので、このように回転ムラが生じてしまう。これにより、例えば、制御対象装置３００が工作機械である場合に、ワークの送りムラが発生してしまうので、ワークの加工面に対して均一に加工を行うことができない。

これに対して、図中右の＜伝達関数の係数の調整後＞には、上述した本実施形態の処理によって、モータ３２の位相の変化に応じて伝達関数の係数の調整を行うことから、ゲインが適切に調整され、回転ムラが改善される様子を図示する。これにより、本実施形態によれば、例えば、制御対象装置３００が工作機械である場合に、ワークの送りムラの発生を防止できるので、ワークの加工面に対して均一に加工を行うことが可能となる。
つまり、本実施形態は、モータの位相に応じて適切に制御器ゲインを調整することから、一般的な技術に比べて有利な効果を奏する。

上記のサーボ制御システムに含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御システムに含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（ｔａｎｇｉｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ）、フラッシュＲＯＭ、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。以下に、変更を施した形態の例を記載する。

＜サーボ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置１００を、サーボ制御装置２００とは別体の装置により構成したが、機械学習装置１００の機能の一部又は全部をサーボ制御装置２００により実現するようにしてもよい。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置１００とサーボ制御装置２００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置１００が複数のサーボ制御装置２００とがネットワーク介して通信可能に接続され、各サーボ制御装置２００の機械学習を実施するようにしてもよい。
その際、機械学習装置１００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置１００の各機能を実現してもよい。

＜モータ３２の変形＞
上述した実施形態では、モータ３２が回転モータであることを想定していた。そして、モータ３２の回転子が、一定速度で正方向及び／又は負方向に一回転以上回転する動作を対象として機械学習を行っていた。
これを変形して、モータ３２を、回転モータではなく、リニアモータに置き換えるようにしてもよい。この場合は、リニアモータの可動子が、固定子上の動作領域一端から他端までを何れかの方向に移動する動作を対象として機械学習を行うようにすればよい。

＜制御器の制御方法の変形＞
上述した実施形態では、３つの制御器である、位置制御器２３、速度制御器２５及び電流制御器２７のそれぞれにおいてＰＩＤ制御を行うことを想定していた。これを変形して、一部又は全部の制御器において、ＰＩ制御を行ったり、比例制御のみを行ったりするようにしてもよい。
例えば、速度制御器２５及び電流制御器２７についてはＰＩ制御を行い、位置制御器２３については比例制御を行うようにした場合には、上述した各制御器の制御器ゲインの伝達関数を以下の数式（式７）のようにすればよい。
電流制御器２７の伝達関数Ｋ_１（ｓ，Θ）＝Ｋ_１Ｐ（Θ）＋Ｋ_１Ｉ（Θ）／ｓ
速度制御器２５の伝達関数Ｋ_２（ｓ，Θ）＝Ｋ_２Ｐ（Θ）＋Ｋ_２Ｉ（Θ）／ｓ
位置制御器２３の伝達関数Ｋ_３（ｓ，Θ）＝Ｋ_３Ｐ（Θ）
（式７）

＜制御器の伝達関数の係数の変形＞
上述した実施形態では、制御器ゲインの伝達関数の係数を、例えば電流制御器２７の制御器ゲインの伝達関数Ｋ_１（ｓ，Θ）、速度制御器２５の制御器ゲインの伝達関数Ｋ_２（ｓ，Θ）、及び位置制御器２３の制御器ゲインの伝達関数Ｋ_３（ｓ，Θ）をそれぞれ、数式（式３）のように、Θの１次元の関数としたが、これに限定されない。
例えば、同様に電流制御器２７の制御器ゲインの伝達関数Ｋ_１（ｓ，Θ）（＝Ｋ_１Ｐ（Θ）＋Ｋ_１Ｉ（Θ）／ｓ＋Ｋ_１Ｄ（Θ）ｓ）を例に取った場合に、以下のようにΘの多次元の関数としてもよい。
Ｋ_１Ｐ（Θ）＝Σ_{１≦ｉ≦Ｌ}｛ａ_１Ｐ（ｉ）・ｓｉｎ（ｉΘ＋ｂ_１Ｐ（ｉ））｝＋ｃ_１Ｐ
Ｋ_１Ｉ（Θ）＝Σ_{１≦ｊ≦Ｍ}｛ａ_１Ｉ（ｊ）・ｓｉｎ（ｊΘ＋ｂ_１Ｉ（ｊ））｝＋ｃ_１Ｉ
Ｋ_１Ｄ（Θ）＝Σ_{１≦ｋ≦Ｎ}｛ａ_１Ｄ（ｋ）・ｓｉｎ（ｋΘ＋ｂ_１Ｄ（ｋ））｝＋ｃ_１Ｄ
ここで、Ｌ、Ｍ、Ｎはそれぞれ１以上の整数とする。
（式８）
速度制御器２５の制御器ゲインの伝達関数Ｋ_２（ｓ，Θ）、及び位置制御器２３の制御器ゲインの伝達関数Ｋ_３（ｓ，Θ）についても同様に、Θの多次元の関数としてもよい。
また、本実施形態においては、関数ｓｉｎを適用したが、これに限定されない。例えば、ｓｉｎに替えてｃｏｓを適用してもよい。更にこのような数式で係数の値を算出するのではなく、制御器ゲインの伝達関数の係数の値と、位相Θの値とを対応付けたパラメータテーブルを機械学習により作成するようにしてもよい。

＜学習の対象とする制御器の選択＞
上述の実施形態では、位置制御器２３、速度制御器２５及び電流制御器２７の３つの制御器について、これら制御器内の１つを対象として順番に学習を行い、最終的に３つの制御器の全てに対しての学習を行ったがこれに限定されない。
例えば、３つの学習器の内の何れかの学習機についてのみ学習を行うようにしてもよい。例えば、電流制御器２７についてのみ学習を行ったり、速度制御器２５及び電流制御器２７についてのみ学習を行ったりするようにしてもよい。

＜電流指令値＞
電流指令値には上限値が存在する。そこで、許容値ＣＣmaxを例えば、上限値又は上限値以下の値に設定し、この許容値ＣＣmaxを超えないようにすることが好ましい。そこで、偏差ＰＤ（ｓ）による報酬の計算の他に、電流指令値が許容値ＣＣmaxまで達しているか否かにより報酬を計算する。
具体的には、状態情報取得部１１が、状態ｓにおいて、加算器１０７の出力となる位置フォワード制御された電流指令値ＣＣ（ｓ）を観測する。状態情報取得部１１は、状態ｓにおいて観測される電流指令値が一つでも許容値ＣＣmaxを超えたことを観測した場合、報酬出力部１２１は、偏差ＰＤ（ｓ）による報酬の計算結果や前の状態における電流指令値の如何に関わらず、報酬を負の値とする。

なお、状態ｓにおいて観測される電流指令値が許容値ＣＣmaxを超えない場合、電流指令値ＣＣ（ｓ）の評価関数ｑを予め設定し、電流指令値ＣＣ（ｓ）の評価値ｑ（ＣＣ（ｓ））に基づき、偏差ＰＤ（ｓ）と同様に、電流指令値ＣＣ（ｓ）に基づく報酬を算出するようにしてもよい。
その場合、報酬出力部１２１は、偏差ＰＤ（ｓ）による報酬と電流指令値ＣＣ（ｓ）に基づく報酬との間で重み付けを行って加算するようにしてもよい。
また、偏差ＰＤ（ｓ）に関する評価関数と電流指令値ＣＣ（ｓ）の評価関数ｑとの間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。

１サーボ制御システム
１００機械学習装置
１１状態情報取得部
１２学習部
１２１報酬出力部
１２２価値関数更新部
１２３行動情報生成部
１３行動情報出力部
１４価値関数記憶部
１５最適化行動情報出力部
２００サーボ制御装置
２１位相算出部
２２、２４、２６減算器
２３位置制御器
２５速度制御器
２７電流制御器
２８積分器
３００制御対象装置
３１駆動用アンプ
３２モータ
３３機械

Claims

モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置であって、
制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力手段と、
前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記サーボ制御装置は前記制御器に入力される指令を補正するためのフィードバック制御を行うサーボ制御装置であり、
前記状態情報取得手段は、前記偏差として、前記制御器に入力される指令と前記フィードバック制御におけるフィードバック値との差分を取得する請求項１に記載の機械学習装置。
前記制御器は、位置制御、速度制御、及び電流制御の何れかを行う制御器の組合せであり、
当該機械学習装置は、前記制御器の何れか１つを対象として前記強化学習を行った後に他の制御器の１つを対象として前記強化学習を行う場合に、電流制御を行う制御器、速度制御を行う制御器、位置制御を行う制御器の順に前記強化学習の対象とする請求項１又は請求項２に記載の機械学習装置。
前記モータの位相は、前記制御対象装置の動作を制御するための位置指令に基づいて算出される請求項１から請求項３までの何れか１項に記載の機械学習装置。
前記制御器ゲインの伝達関数は、変数として前記モータの位相を含む請求項１から請求項４までの何れか１項に記載の機械学習装置。
請求項１から請求項５の何れか１項に記載の機械学習装置と、前記サーボ制御装置とを備えたサーボ制御システムであって、
前記サーボ制御装置が、
前記制御対象装置の動作を制御するための位置指令に基づいて前記モータの位相を算出し、算出したモータの位相を前記状態情報取得手段及び前記制御器に対して出力する位相算出手段を備えるサーボ制御システム。
モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置の機械学習方法であって、
制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力ステップと、
前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得ステップと、
前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
を備える機械学習方法。