JP6740278B2

JP6740278B2 - 機械学習装置、制御装置、及び機械学習方法

Info

Publication number: JP6740278B2
Application number: JP2018077559A
Authority: JP
Inventors: 瑶梁; 亮太郎恒木
Original assignee: FANUC Corp
Current assignee: FANUC Corp
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2020-08-12
Anticipated expiration: 2038-04-13
Also published as: CN110376964A; DE102019204949A1; US10901396B2; JP2019185530A; CN110376964B; US20190317477A1

Description

本発明は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置に対して、補正生成部の補正量の最適化に係る機械学習を行う機械学習装置、この機械学習装置を含む制御装置及び機械学習方法に関する。

工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、速度指令又はトルク指令に、位置フィードフォワード項又は速度フィードフォワード項等の補正量を加えるサーボ制御装置は、例えば特許文献１に記載されている。

特許文献１には、電源を遮断する前にサーボモータの動作状態を報知するサーボ制御装置の記載がある。このサーボ制御装置は、サーボモータと、セーフティユニットとを備える。セーフティユニットは、サーボモータの速度、位置、加速度、移動量、移動方向、トルクのうちの少なくともいずれか１つが第１動作範囲外にあると、サーボモータへの給電を遮断する。また、セーフティユニットは、速度、位置、加速度、移動量、移動方向、トルクのうちの少なくともいずれか１つが第１動作範囲に含まれ、かつ第１動作範囲よりも狭い第２動作範囲外にあると、警告を出力する。

特開２０１７−５５６５５号公報

工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する、速度指令又はトルク指令に、位置フィードフォワード項又は速度フィードフォワード項等の補正量を加えるサーボ制御装置において、生成する補正量が適正な範囲になく、位置偏差が増大すると、サーボ制御装置によって駆動される、工作機械、ロボット、又は産業機械の動作が不安定となって、アラームで工作機械等が停止、終了してしまう場合がある。

例えば、空運転ではなく、工作機械を実動作させながら補正量を学習する場合、その補正量が適切な範囲にないと、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断する恐れがある。
他方、速度指令又はトルク指令に加える位置フィードフォワード項又は速度フィードフォワード項等の補正量を、後述する高次の伝達関数を用いて生成する場合に、当該伝達関数の係数を、工作機械を実動作させながら機械学習により求める方法が考えられる。

このような学習方法の一例として、強化学習による伝達関数の係数の機械学習が考えられる。強化学習とは、エージェントが、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化し、環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する、いわゆる教師無し学習である。このような強化学習により伝達関数の係数を機械学習する場合、環境の状態が位置偏差である場合に、例えばこの位置偏差が増大するような係数が選択されると、モータや機械先端に振動が発生して有効な機械学習ができなくなったり、また、アラームで工作機械等が停止、終了して、機械学習が中断する可能性がある。このため、工作機械を実動作させながら、補正量を機械学習する場合に、仮に不適切な補正量が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法が求められる。

本発明は、サーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、補正生成部における補正量の算出式を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータ（例えば、後述のサーボモータ１０９）を制御する制御指令に加える補正量を生成する補正生成部（例えば、後述の位置フィードフォワード処理部１１３、速度フィードフォワード処理部１１５、又は補正生成部１１７）と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部（例えば、後述の速度指令制限部１０４又はトルク指令制限部１０８）と、を備えたサーボ制御装置（例えば、後述のサーボ制御装置１００又は１００Ａ）に対して、前記補正生成部の前記補正量の最適化に係る機械学習を行う機械学習装置（例えば、後述の機械学習装置２００）であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記制限部が前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正生成部にて生成する前記補正量の最適化の新たな探索を継続する機械学習装置である。

（２）上記（１）の機械学習装置において、前記制限部は、前記補正量又は前記補正量が加えられた前記制御指令に制限を加えた場合に、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となったことを前記機械学習装置に通知し、
前記機械学習装置は、前記通知を受けたときに、前記補正量を学習に反映させてよい。

（３）上記（１）又は（２）の機械学習装置において、前記機械学習として強化学習を行い、
前記制限部から前記通知を受けたときに、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲を超えるような前記補正量が選択されないような報酬を与えてよい。

（４）上記（３）の機械学習装置において、前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力してよい。

（５）上記（１）から（４）のいずれかの機械学習装置において、前記制御指令は、速度指令とトルク指令のうちの少なくとも１つを含み、前記補正量は、前記速度指令に加える位置フィードフォワード項と前記トルク指令に加える速度フィードフォワード項のうちの少なくとも１つを含んでよい。

（６）上記上記（１）から（５）のいずれかの機械学習装置において、前記設定範囲は上限と下限とが固定された範囲であってよい。

（７）上記（１）から（５）のいずれかの機械学習装置において、前記設定範囲は上限と下限とが変動する範囲であってよい。

（８）上記（７）の機械学習装置において、前記制限部は加工精度又は加工サイクルタイムによって前記設定範囲の上限と下限を変えてよい。

（９）本発明に係る制御装置は、上記（１）から（８）のいずれかの機械学習装置と、
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部を備えたサーボ制御装置と、
を備えた制御装置である。

（１０）上記（９）の制御装置において、前記機械学習装置は、前記サーボ制御装置に含まれてもよい。

（１１）本発明に係る機械学習方法は、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正を生成し、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限するサーボ制御装置に対して、前記補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えられて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正量の最適化の新たな探索を継続する、機械学習方法である。

本発明によれば、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部を備えたサーボ制御装置において、工作機械、ロボット又は産業機械等を実動作させながら、前記補正生成部の補正量を機械学習する場合に、機械学習中に、仮に不適切な補正量が算出されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することができる機械学習装置、この機械学習装置を含む制御装置、及び機械学習方法を提供することができる。

本発明の第１実施形態の制御装置の一構成例を示すブロック図である。補正された制御指令が制限される設定範囲が固定されている場合を示す特性図である。補正された制御指令が制限される設定範囲が基準範囲とは別に設けられている場合を示す特性図である。補正された制御指令が制限される設定範囲の上限及び下限が動的に変動する場合を示す特性図である。加工形状が八角形の場合のモータの動作を説明するための図である。加工形状が八角形の角が一つ置きに円弧に置き換えられた形の場合のモータの動作を説明するための図である。本発明の第１実施形態の機械学習装置を示すブロック図である。第１実施形態における機械学習装置の動作を示すフローチャートである。本発明の第２実施形態の制御装置の一構成例を示すブロック図である。本発明の他の実施形態の制御装置を示すブロック図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１実施形態）

図１は本発明の第１実施形態の制御装置の一構成例を示すブロック図である。図１に示す制御装置１０は、サーボ制御装置１００と機械学習装置２００とを備えている。サーボ制御装置１００は機械学習装置２００と数値制御装置（ＣＮＣ装置）３００とに接続される。

最初に、サーボ制御装置１００について説明する。
サーボ制御装置１００は、減算器１０１、位置制御部１０２、加算器１０３、速度指令制限部１０４、減算器１０５、速度制御部１０６、加算器１０７、トルク指令制限部１０８、サーボモータ１０９、積分器１１０、位置検出処理部１１１、微分器１１２、位置フィードフォワード処理部１１３、２回微分器１１４、及び速度フィードフォワード処理部１１５を備えている。

数値制御装置３００は、サーボモータ１０９を動作させるプログラムに基づいて位置指令値を作成する。工作機械において、被加工物（ワーク）を搭載するテーブルがＸ軸方向及びＹ軸方向に移動される場合には、Ｘ軸方向及びＹ軸方向に対してそれぞれ図１に示すサーボ制御装置１００が設けられる。テーブルを３軸以上の方向に移動させる場合には、それぞれの軸方向に対してサーボ制御装置１００が設けられる。
数値制御装置３００は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成し、減算器１０１、微分器１１２、２回微分器１１４及び機械学習装置２００に出力する。

減算器１０１は、数値制御装置３００から入力されるプログラムや命令に従って作成された位置指令を受け、位置指令と位置フィードバックされた検出位置との差を求め、その差を位置偏差として位置制御部１０２及び機械学習装置２００に出力する。

位置制御部１０２は、減算器１０１から出力される位置偏差にポジションゲインＫｐを乗じた値を、速度指令として加算器１０３に出力する。速度指令はサーボモータ１０９を制御する制御指令の１つである。

加算器１０３は、速度指令と、位置フィードフォワード処理部１１３から入力される位置フィードフォワード項（補正量となる）とを加算して速度指令制限部１０４に出力する。

速度指令制限部１０４は、位置フィードフォワード項が加算された速度指令（以下、補正された速度指令という）が、制限を行う設定範囲内（上限以下及び下限以上）に有るかどうかを検出する。補正された速度指令が設定範囲内であれば、速度指令制限部１０４は、そのまま補正された速度指令を減算器１０５に出力する。一方、補正された速度指令が設定範囲外である場合には、速度指令制限部１０４は、補正された速度指令に制限を加えて補正された速度指令を設定範囲内とし、設定範囲内とされた速度指令を減算器１０５に出力する。
また、速度指令制限部１０４は、速度指令に制限を加えて設定範囲内とした場合は速度制限通知を機械学習装置２００に対して行う。

補正された速度指令が制限される設定範囲は以下のように設定される。なお図２〜図４において制御指令は速度指令となる。
図２に示す設定範囲は、上限Ａ１と下限Ｂ１とが固定された基準範囲とされる。この設定範囲は、加工ワークが変わらない量産品を作製する場合に好適に用いられる。
図３に示す設定範囲は、基準範囲の上限Ａ１と下限Ｂ１とは異なる、加工ワークによって決められる固定された上限Ａ２と下限Ｂ２が設けられた範囲とされる。この設定範囲は、加工ワークが変わる受注生産品を作製する場合に好適に用いられる。
この設定範囲は、例えば、[（加工ワークのイナーシャ）／（基準イナーシャ）]×（基準範囲）で求めることができる。
図４に示す設定範囲は、上限Ａ３と下限Ｂ３とが加工精度又は加工サイクルタイムによって動的に変動する範囲とされる。図４に示すように、上限Ａ３と下限Ｂ３は、位置フィードフォワード（ＦＦ）が設けられない場合、又は後述する位置フィードフォワード処理部１１３の伝達関数の係数が初期値（β＝１、Ｇ（ｓ）＝１）の場合の指令値に対して、幅Δ分離れた上下に設けられる。
幅Δは、加工精度によって上限Ａ３と下限Ｂ３が動的に変動する場合は、例えば、[（要求加工精度）／（基準精度）]×（基準値）で求めることができる。基準値は固定値とされる。また幅Δは、加工サイクルタイムによって上限Ａ３と下限Ｂ３が動的に変動する場合は、例えば、[（基準サイクルタイム）／（要求加工サイクルタイム）]×（基準値）で求めることができる。基準値は固定値とされる。

減算器１０５は、速度指令制限部１０４からの出力と、速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部１０６に出力する。

速度制御部１０６は、速度偏差に比例積分処理（ＰＩ処理）を行い、トルク指令として加算器１０７に出力する。具体的には、速度制御部１０６は、速度偏差を積分器で積分して、その積分値に積分ゲインＫｉを乗じた値と、速度偏差に比例ゲインＫｖを乗じた値とを加算して、トルク指令として加算器１０７に出力する。トルク指令はサーボモータ１０９を制御する制御指令の１つである。

加算器１０７は、速度制御部１０６から出力されたトルク指令と、速度フィードフォワード処理部１１５から出力された速度フィードフォワード項（補正量となる）とを加算してトルク指令制限部１０８に出力する。

トルク指令制限部１０８は、速度フィードフォワード項が加算されたトルク指令（以下、補正されたトルク指令という）が設定範囲内（上限以下及び下限以上）に有るかどうかを検出する。補正されたトルク指令が設定範囲内であれば、トルク指令制限部１０８は、そのまま補正されたトルク指令をサーボモータ１０９に出力する。補正されたトルク指令が設定範囲外である場合には、トルク指令制限部１０８は、補正されたトルク指令を制限して設定範囲内とし、設定範囲内とされたトルク指令をサーボモータ１０９に出力する。なお、トルク指令の設定範囲は、既に説明した速度指令の設定範囲と同様に決めることができる。この場合、図２〜図４において制御指令はトルク指令となる。図４に示す設定範囲は、上限Ａ３と下限Ｂ３は、速度フィードフォワード（ＦＦ）が設けられない場合、又は後述する速度フィードフォワード処理部１１５の伝達関数の係数が初期値（α＝１、Ｆ（ｓ）＝１）の場合の指令値に対して、幅Δ分離れた上下に設けられる。
また、トルク指令制限部１０８は、トルク指令を制限して設定範囲内とした場合はトルク指令制限通知を機械学習装置２００に対して行う。

サーボモータ１０９は、例えば工作機械，ロボット，産業機械等に含まれてもよい。サーボ制御装置１００はサーボモータ１０９とともに、工作機械，ロボット，産業機械等の一部として設けられてもよい。

サーボモータ１０９の回転角度位置は、サーボモータ１０９に関連付けられた、位置検出部となるロータリーエンコーダによって検出され、速度検出値は速度フィードバックとして減算器１０５に入力される。減算器１０５からサーボモータ１０９は、速度フィードバックループを構成する。

積分器１１０は速度検出値を積分して積分値を位置検出処理部１１１に出力する。位置検出処理部１１１は積分値に基づいて位置検出値を求める。位置検出値は位置フィードバックとして減算器１０１に入力される。減算器１０１から位置検出処理部１１１は、位置フィードバックループを構成する。

微分器１１２は、位置指令を微分して定数βを掛ける。位置フィードフォワード処理部１１３は微分器１１２の出力に、数式１（以下に数１として示す）で示す伝達関数Ｇ（ｓ）で示された位置フィードフォワード処理を行う。位置フィードフォワード処理部１１３は、その処理結果を位置フィードフォワード項（補正量となる）として加算器１０３に出力する。
数式１の係数ａ_ｉ、ｂ_ｊ(ｉ，ｊ≧０)は位置フィードフォワード処理部１１３の伝達関数Ｇ（ｓ）の各係数である。

２回微分器１１４は、位置指令を２回微分して定数αを掛ける。速度フィードフォワード処理部１１５は２回微分器１１４の出力に、数式２（以下に数２として示す）で示された伝達関数Ｆ（ｓ）で示される速度フィードフォワード処理を行い、その処理結果を速度フィードフォワード項（補正量となる）として加算器１０７に出力する。
数式３の係数ｃ_ｉ、ｄ_ｊ(ｉ，ｊ≧０)は速度フィードフォワード処理部１１５の伝達関数Ｆ（ｓ）の各係数である。

機械学習装置２００は、位置フィードフォワード処理部１１３の伝達関数の係数と、速度フィードフォワード処理部１１５の伝達関数の係数とを機械学習（以下、学習という）する。
機械学習装置２００は、速度フィードフォワード処理部１１５の伝達関数の係数の学習と、位置フィードフォワード処理部１１３の伝達関数の係数の学習とは別に行い、位置フィードフォワード処理部１１３より内側（インナーループ）にある速度フィードフォワード処理部１１５の伝達関数の係数の学習を位置フィードフォワード処理部１１３の伝達関数の係数の学習よりも先に行う。具体的には、位置フィードフォワード処理部１１３の伝達関数の係数を固定し、速度フィードフォワード処理部１１５の伝達関数の係数の最適な値を学習する。その後に、機械学習装置２００は、速度フィードフォワード処理部１１５の伝達関数の係数を学習で得られた最適な値に固定して、位置フィードフォワード処理部１１３の伝達関数の係数を学習する。
そうすることで、学習により最適化された速度フィードフォワード項の条件下で、位置フィードフォワード処理部１１３の伝達関数の係数の最適化に係る学習を行うことができ、位置偏差の変動を抑制することができる。
このため、位置フィードフォワード処理部１１３より内側（インナーループ）にある速度フィードフォワード処理部１１５の伝達関数の係数の学習が位置フィードフォワード処理部１１３の伝達関数の係数の学習より先にした方が、位置偏差の変動を抑制し、高精度化を実現できる。
以下の説明では、速度フィードフォワード処理部１１５の伝達関数の係数に係る機械学習（強化学習）を例として説明する。なお、本実施形態では、機械学習の一例として強化学習について説明するが、機械学習は特に強化学習に限定されない。
機械学習装置２００は、予め設定された加工プログラム（「学習時の加工プログラム」となる）を実行することで、速度フィードフォワード処理部１１５の伝達関数の係数を機械学習（以下、学習という）する。

ここで、学習時の加工プログラムにより指定される加工形状は、例えば、図５に示す八角形、及び／又は図６に示す八角形の角が一つ置きに円弧に置き換えられた形等である。
ここでは、学習時の加工プログラムにより指定される加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３により、線形制御において回転速度が変更されたときの振動を評価し、位置偏差に対する影響を調べることで、伝達関数Ｇ（ｓ）に係る係数の学習を行うものとする。
なお、加工形状の位置Ａ２と位置Ａ４、及び／又は位置Ｂ２と位置Ｂ４により、回転方向が反転する場合に生ずる惰走（いわゆる「象限突起」）を評価し、位置偏差に対する影響を調べることで、象限突起を抑制する補正量を算出するための伝達関数の係る係数の学習を行うこともできる。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、位置偏差を低減するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式３（以下に数３として示す）により表すことができる。

上記の数式３において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。具体的には、機械学習装置２００は、サーボ制御装置１００における、速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊ(ｉ，ｊ≧０)の値、並びに学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Ｓとして、当該状態Ｓに係る、速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習装置２００は、速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊの値に基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３における、サーボ制御装置１００の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊの値に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓに対して、最適な行動Ａ（すなわち、速度フィードフォワード処理部１１５の最適な係数ｃ_ｉ、ｄ_ｊ）を選択することが可能となる。機械学習装置２００は線形動作時の速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊの学習を行うことができる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動Ａ（すなわち、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊを選択することが可能となる。

図７は第１実施形態の機械学習装置２００を示すブロック図である。
上述した強化学習を行うために、図７に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、サーボ制御装置１００における速度フィードフォワード処理部１１５の伝達関数の各係数ｃ_ｉ、ｄ_ｊ、及びこれらの係数に基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓを、サーボ制御装置１００から取得する。また、状態情報取得部２０１は、トルク指令制限部１０８から、トルク指令を設定範囲内に制限したことを通知するトルク指令制限通知信号を取得する。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部２０１は、取得した状態情報Ｓを学習部２０２に対して出力する。

なお、最初にＱ学習を開始する時点での速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊの初期設定値を、強化学習により最適なものに調整する。微分器１１２の係数βを固定値とし、例えばα＝１とする。また、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊは例えば、初期設定値として、数式２のｃ_０＝１、ｃ_１＝０、ｃ_２＝０、、ｄ_０＝１、ｄ_１＝０、ｄ_２＝０、とする。また、係数ｃ_ｉ、ｄ_ｊの次元ｍ、ｎを予め設定する。すなわち、ｃ_ｉについては０≦ｉ≦ｍｄ_ｊについては０≦ｊ≦ｎとする。
なお、係数ｃ_ｉ、ｄ_ｊは予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部２０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。また、学習部２０２は、トルク指令制限部１０８からトルク指令制限通知信号を受けると、状態Ｓにおける速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊをサーボモータ１０９が異常な動作をする補正パラメータとして学習に反映させる。その後、当該状態Ｓの学習動作を続行させる。なお、当該状態Ｓの学習に係る加工プログラムの実行を途中で止めるようにしてもよい。そのためには、数値制御装置３００に、当該状態Ｓの学習に係る加工プログラムの実行を止めるための指示信号を送ればよい。その後、学習部２０２は、異常が生じたときの速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊとは異なる、次の学習のための係数を新たに探索して、速度フィードフォワード処理部１１５に設定するとともに、速度フィードフォワード処理部１１５の係数を設定したことを示す係数設定通知信号を数値制御装置３００へ送る。数値制御装置３００は係数設定通知信号を受けると、学習を続ける場合に、加工プログラムを動作させて位置指令をサーボ制御装置１００に送る。

報酬出力部２０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。ここで、状態Ｓにおける状態変数である位置偏差の集合（位置偏差集合）をＰＤ（Ｓ）、行動情報Ａにより状態Ｓから変化した状態情報Ｓ´に係る状態変数である位置偏差集合をＰＤ（Ｓ´）で示す。また、状態Ｓにおける位置偏差の値を、予め設定された評価関数ｆ（ＰＤ（Ｓ））に基づいて算出される値とする。行動情報Ａは速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊ（ｉ，ｊは０及び正の整数を示す）の修正である。
ここで、状態Ｓにおける状態変数である位置偏差の集合とは、前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３を含む所定の範囲内で計測される位置偏差の集合を意味する。
評価関数ｆとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の２ｎ（ｎは自然数）乗の積算値を算出する関数
∫e²ⁿdt（ｎは自然数）
位置偏差の絶対値の最大値を算出する関数
Ｍａｘ｛|e|｝
等を適用することができる。

このとき、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を負の値とする。
なお、報酬出力部２０２１は、トルク指令制限部１０８から速度制限通知信号を受けたときには、設定範囲外のトルク指令を生み出す速度フィードフォワード項を生成する速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊが選択されないように報酬の値を絶対値の大きな負の値とすることができる。そうすることで、設定範囲外のトルク指令が生み出されたときの速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊは、今後の学習範囲から実質的に外すことができる。

一方で、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））よりも小さくなった場合に、報酬出力部２０２１は、報酬の値を正の値とする。
なお、行動情報Ａにより修正された状態情報Ｓ´に係る修正後の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ´））が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の速度フィードフォワード処理部１１５に基づいて動作したサーボ制御装置１００の位置偏差の値ｆ（ＰＤ（Ｓ））と等しい場合は、報酬出力部２０２１は、報酬の値をゼロとするようにしてもよい。

また、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり位置偏差の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の位置偏差の値ｆ（ＰＤ（Ｓ´））が、前の状態Ｓにおける位置偏差の値ｆ（ＰＤ（Ｓ））より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり位置偏差の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

価値関数更新部２０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部２０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、サーボ制御装置１００の速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、状態Ｓに含まれる速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊに対して行動Ａに含まれる、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊをインクレメンタル（例えば０．０１程度）に加算又は減算させる。

そして、行動情報生成部２０２３は、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊの増加又は減少を適用して、状態Ｓ´に遷移して、プラスの報酬（正の値の報酬）が返った場合、次の行動Ａ´としては、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、位置偏差の値がより小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、マイナスの報酬（負の値の報酬）が返った場合、行動情報生成部２０２３は、次の行動Ａ´としては、例えば、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、位置偏差が前回の値よりも小さくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法、又はある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報Ａをサーボ制御装置１００に対して送信する部分である。サーボ制御装置１００は上述したように、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを微修正することで、次の状態Ｓ´（すなわち修正された、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊ）に遷移する。

また、行動情報生成部２０２３は、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを、設定範囲外のトルク指令が生み出されたときの係数ｃｉ、ｄｊとは異なる係数ｃ_ｉ、ｄ_ｊに調整して係数を設定したこと通知する係数設定通知信号を数値制御装置３００に対して送る。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を速度フィードフォワード処理部１１５に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置１００（速度フィードフォワード処理部１１５）に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを修正する情報が含まれる。

サーボ制御装置１００では、この行動情報に基づいて速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊが修正される。
機械学習装置２００は、以上の動作で、速度フィードフォワード処理部１１５の各係数ｃｉ、ｄｊの学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本実施形態に係る機械学習装置２００を利用することで、サーボ制御装置１００の速度フィードフォワード処理部１１５の補正パラメータ（係数ｃ_ｉ、ｄ_ｊ）調整を簡易化することができる。補正パラメータ（係数ｃ_ｉ、ｄ_ｊ）調整により速度フィードフォワード処理部１１５の速度フィードフォワード項の調整がなされる。

本実施形態では、サーボ制御装置１００は、トルク指令制限部１０８を備え、トルク指令制限部１０８は、速度フィードフォワード項が加算されたトルク指令（以下、補正されたトルク指令という）が設定範囲外となったときに、補正されたトルク指令を設定範囲内となるように制限する。機械学習装置２００は、トルク指令制限部１０８からのトルク指令制限通知信号により、補正されたトルク指令が設定範囲外となったことを認識する。機械学習装置２００は、補正されたトルク指令が設定範囲外となったことを認識すると、状態Ｓにおける速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊをサーボモータ１０９が異常な動作をする補正パラメータとして学習に反映させる。その後、機械学習装置２００は次の学習のための係数を新たに探索して、次の行動情報を選択して、速度フィードフォワード処理部１１５に設定するとともに、速度フィードフォワード処理部１１５の係数を新たに設定したことを示す係数設定通知信号を数値制御装置３００へ送る。そうすることで、次の行動に基づく学習動作を開始することができる。以上のように、本実施形態の機械学習装置は、速度フィードフォワード処理部１１５の補正パラメータ（係数ｃ_ｉ、ｄ_ｊ）を機械学習する場合に、機械学習中に、仮に不適切な速度フィードフォワード項（補正量）が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。

以上、サーボ制御装置１００、機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、サーボ制御装置１００、及び機械学習装置２００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、サーボ制御装置１００、及び機械学習装置２００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図８を参照して、本実施形態の機械学習装置２００の動作について説明する。
図８に示すように、ステップＳ２１で、機械学習装置２００は学習動作を開始する。ここで、学習動作とは、状態Ｓにおいて、行動Ａ（速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊ）を選択して、速度フィードフォワード処理部１１５に設定し、学習時の加工プログラムを実行させることにより前述した加工形状の位置Ａ１と位置Ａ３、及び／又は位置Ｂ１と位置Ｂ３における位置偏差の集合（状態Ｓ´における状態変数）を取得して、当該位置偏差の評価値を算出し、状態Ｓにおける位置偏差の評価値と比較することにより、報酬を算出し、価値関数記憶部２０４が記憶する価値関数Ｑを更新する一連の処理を意味する。以下のステップにおいて、一連の処理を実行する。
そして、学習動作時に、トルク指令制限部１０８が、補正されたトルク指令が設定範囲外となったことを認識した場合、機械学習装置２００は、状態Ｓにおける行動Ａ（速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊ）をサーボモータ１０９が異常な動作をする行動（補正パラメータ）として報酬に反映させて、当該状態Ｓ、行動Ａの学習を続行させる。それにより、機械学習装置は、次の行動を探索して、新たな行動を生成することで、学習が中断することがないように、安全に機械学習を継続することが可能となる。

ステップＳ２２において、機械学習装置２００は、補正された制御指令が設定範囲以内か否かを判定する。補正された制御指令が設定範囲外となったと判定した場合（Ｎｏ）、ステップＳ２５に移る。補正された制御指令が設定範囲内の場合（Ｎｏ）、ステップＳ２３に移る。なお、ここでは制御指令はトルク指令となる。

ステップＳ２３において、機械学習装置２００は、当該学習動作が終了したか否かを判定する。当該学習動作が終了した場合（Ｙｅｓ）、ステップＳ２４に移る。当該学習動作が終了していない場合（Ｎｏ）、ステップＳ２２に移る。

ステップＳ２４において、機械学習装置２００は、次の行動を探索して、新たなパラメータを設定する。具体的には、機械学習装置２００は速度フィードフォワード処理部１１５の補正量（速度フィードフォワード項）を調整するための補正パラメータ設定（速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊの設定）をする。その後ステップＳ２９に移る。

ステップＳ２５において、機械学習装置２００は、補正されたトルク指令が設定範囲外となったときの速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊを学習に反映させる。

ステップＳ２６において、機械学習装置２００は、加工プログラムが終了したか否かを判定する。当該加工プログラムが終了した場合（Ｙｅｓ）、ステップＳ２７に移る。当該加工プログラムが終了していない場合（Ｎｏ）、再度ステップＳ２６を実行する。

ステップＳ２７において、機械学習装置２００は、次の行動を探索して、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊ（補正パラメータ）を、補正されたトルク指令が設定範囲外となったときの係数とは異なる係数に調整して設定する。

ステップＳ２８において、機械学習装置２００は、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊが新たな係数に設定されたことを数値制御装置３００に対して通知する。数値制御装置３００はその通知を受けることで、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊが新たな係数に設定されたこと認識する。そのため、学習を続ける場合に、速度フィードフォワード処理部１１５の係数ｃ_ｉ、ｄ_ｊが新たな係数に設定された状態で、数値制御装置３００は加工プログラムを動作させて位置指令をサーボ制御装置１００に送ることができる。

ステップＳ２８において、機械学習装置２００は、機械学習を終了するかどうかを判断し、機械学習を継続する場合（Ｎｏ）、ステップＳ２１に戻る。機械学習を終了する場合（Ｙｅｓ）には機械学習処理を終了する。

以上、機械学習装置２００による、速度フィードフォワード処理部１１５の係数の学習について説明したが、位置フィードフォワード処理部１１３の伝達関数の係数の機械学習も同様にして行われる。以下、位置フィードフォワード処理部１１３の伝達関数の係数の機械学習について説明する。

機械学習装置２００は、サーボ制御装置１００における、位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊ(ｉ，ｊ≧０)の値、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置偏差情報、及び位置指令を含む、指令及びフィードバック等のサーボ状態を状態Ｓとして、当該状態Ｓに係る、位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊの値の調整を行動Ａとして選択する価値Ｑを学習する。

機械学習装置２００は、位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊに基づいて、学習時の加工プログラムを実行することで前述した加工形状の位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３における、サーボ制御装置１００の位置指令及び位置偏差情報を含む、指令及びフィードバック等のサーボ状態を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊに基づいて、学習時の加工プログラムを実行することで取得されるサーボ制御装置１００の位置指令及び位置偏差情報を含む指令、フィードバック等のサーボ状態を含む状態Ｓに対して、最適な行動Ａ（すなわち、位置フィードフォワード処理部１１３の最適な係数ａｉ、ｂｊ）を選択することが可能となる。位置Ａ１と位置Ａ３、及び位置Ｂ１と位置Ｂ３とでは、Ｘ軸方向及びＹ軸方向のサーボモータの回転方向は変わらず、機械学習装置２００は線形動作時の位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊの学習を行うことができる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、学習時の加工プログラムを実行することで取得される位置偏差が最小になるような行動Ａ（すなわち、位置フィードフォワード処理部１１３の係数ａｉ、ｂｊ）を選択することが可能となる。

なお、機械学習装置２００の備える状態情報取得部２０１、（報酬出力部２０２１、価値関数更新部２０２２、行動情報生成部２０２３を含む）学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５における位置フィードフォワード処理部１１３の伝達関数の各係数ａｉ、ｂｊに係る処理については、第１実施形態における速度フィードフォワード処理部１１５を位置フィードフォワード処理部１１３に読み換えるとともに、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを位置フィードフォワード処理部１１３の伝達関数の各係数ａ_ｉ、ｂ_ｊに読み換えることで説明できるため、詳細な説明は省略する。

また、最初にＱ学習を開始する時点での位置フィードフォワード処理部１１３の係数ａ_ｉ、ｂ_ｊは、予めユーザが生成するようにする。本実施形態では、ユーザが作成した位置フィードフォワード処理部１１３の係数ａ_ｉ、ｂ_ｊの初期設定値を、強化学習により最適なものに調整する。微分器１１２の係数βは固定値とし、例えばβ＝１とする。また、位置フィードフォワード処理部１１３の係数ａ_ｉ、ｂ_ｊは例えば、初期設定値として、数式１のａ_０＝１、ａ_１＝０、ａ_２＝０、ｂ_０＝１、ｂ_１＝０、ｂ_２＝０、とする。また、係数ａ_ｉ、ｂ_ｊの次元ｍ、ｎを予め設定する。すなわち、ａ_ｉについては０≦ｉ≦ｍｂ_ｊについては０≦ｊ≦ｎとする。
また、係数ａ_ｉ、ｂ_ｊの初期設定値は、速度フィードフォワード処理部１１５の各係数ａ_ｉ、ｂ_ｊの初期設定値と同じ値を適用してもよい。
同様に、サーボ制御装置１００における位置フィードフォワード処理部１１３の各係数ａ_ｉ、ｂ_ｊに係る処理についても、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを位置フィードフォワード処理部１１３の伝達関数の各係数ａ_ｉ、ｂ_ｊに読み換えることで説明できる。

以上のように、サーボ制御装置１００は、微分器１１２、位置フィードフォワード処理部１１３、及び速度指令制限部１０４を備える。機械学習装置２００は、速度指令制限部１０４からの速度指令制限通知により、速度指令が設定範囲内に制限されたことを認識する。機械学習装置２００は、速度指令が設定範囲内に制限されたことを認識すると、状態Ｓにおける位置フィードフォワード処理部１１３の係数ａ_ｉ、ｂ_ｊをサーボモータ１０９が異常な動作をする補正パラメータとして学習に反映させる。補正パラメータ（係数ａ_ｉ、ｂ_ｊ）調整により位置フィードフォワード処理部１１３の位置フィードフォワード項の調整がなされる。その後、次の学習のための係数を新たに探索して、次の行動情報を選択して、位置フィードフォワード処理部１１３に設定するとともに、位置フィードフォワード処理部１１３の係数を新たに設定したことを示す係数設定通知信号を数値制御装置３００。そうすることで、数値制御装置３００は、学習を続ける場合に、位置フィードフォワード処理部１１３の係数がサーボモータ１０９が異常な動作をする係数でない新たな係数に設定された状態で、加工プログラムを動作させて位置指令をサーボ制御装置１００に送ることができる。

以上のように、本実施形態の機械学習装置は、位置フィードフォワード処理部１１３の係数を機械学習する場合に、機械学習中に、仮に不適切な係数が選択されることがあっても、モータや機械先端に振動が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。

次に、機械学習装置２００の動作について説明する。
機械学習装置２００の位置フィードフォワード処理部１１３の伝達関数の各係数ａ_ｉ、ｂ_ｊに関連する動作についても、第１実施形態における図８に示した機械学習装置２００の処理フローにおいて、速度フィードフォワード処理部１１５を位置フィードフォワード処理部１１３に読み換え、速度フィードフォワード処理部１１５の各係数ｃ_ｉ、ｄ_ｊを位置フィードフォワード処理部１１３の伝達関数の各係数ａ_ｉ、ｂ_ｊに読み換えることで説明できるため、詳細な説明は省略する。なお、図８の処理フローにおいて、ステップＳ２２における補正された制御指令は速度指令となる。

（変形例）
本実施形態では、位置フィードフォワード項が加算された速度指令の範囲を制限するために速度指令制限部１０４を設け、速度フィードフォワード項が加算されたトルク指令の範囲を制限するためにトルク指令制限部１０８を設けた。
しかし、速度指令制限部１０４の代わりに、位置フィードフォワード項の範囲を制限するために、位置フィードフォワード処理部１１３と加算器１０３との間に位置フィードフォワード項制限部を設けてもよい。また、トルク指令制限部１０８の代わりに、速度フィードフォワード項の範囲を制限するために、速度フィードフォワード処理部１１５と加算器１０７との間に速度フィードフォワード項制限部を設けてもよい。位置フィードフォワード項制限部の設定範囲及び速度フィードフォワード項制限部の設定範囲は、図２〜図４を用いて説明したように、固定された範囲としても、動的に変動する範囲としてもよい。

本実施形態において、機械学習装置２００は、速度フィードフォワード処理部１１５の伝達関数の係数の学習を先に行い、速度フィードフォワード処理部１１５の伝達関数の係数を最適化した後に、位置フィードフォワード処理部１１３の伝達関数の係数の学習を行うようにしたが、本実施形態は、これに限定されない。
例えば、機械学習装置２００は、位置フィードフォワード処理部１１３の伝達関数の係数、及び速度フィードフォワード処理部１１５の伝達関数の係数を同時に学習するようにしてもよい。このように、機械学習装置２００が同時に学習した場合、二つの学習が相互に干渉して情報処理量が増大する可能性がある。

また、本実施形態では、補正生成部として、位置指令に基づいて速度指令に対する補正量を生成する位置フィードフォワード項生成部（微分器１１２及び位置フィードフォワード処理部１１３）と、位置指令に基づいてトルク指令に対する補正量を生成する速度フィードフォワード項生成部（２回微分器１１４及び速度フィードフォワード処理部１１５）と、を備えるものとした。
しかし、補正生成部として、位置フィードフォワード項生成部か速度フィードフォワード項生成部かのいずれかを備えるものとしてもよい。その場合、例えば、位置フィードフォワード項生成部のみを設けるときには、２回微分器１１４、速度フィードフォワード処理部１１５、加算器１０７及びトルク指令制限部１０８は不要となる。

（第２実施形態）
以上説明した実施形態においては、機械学習装置２００が、Ｘ軸方向及びＹ軸方向のサーボモータの回転方向が変わらない線形動作時の、位置フィードフォワード処理部と速度フィードフォワード処理部の係数の最適化に係る学習動作を行う場合について説明した。
しかし、本発明は、線形動作時の学習動作に限定されず、非線形動作の学習動作を行うにも適用することができる。例えば、既に説明したように、工作機械において、非線形動作として、モータとボールねじにより駆動される送り駆動系で円運動を行うと、軸の運動方向が反転する象限切替え時に突起状の軌跡誤差（以下、「象限突起」という）が生じることが知られている。

第２実施形態では、象限突起の補正量を機械学習装置２００で学習し、速度指令制限部で象限突起の補正量が加算された速度指令の範囲を制限し、範囲外となったときの象限突起の補正量を学習に反映させる例について説明する。
図９は本発明の第２実施形態の制御装置の一構成例を示すブロック図である。図９の制御装置１０Ｂにおいて、図１に示した制御装置の各構成部材と同一構成部材については同一符号を付して説明を省略する。

図９に示すように、サーボ制御装置１００Ａは、反転検出部１１６、及び補正生成部１１７、を備えている。サーボ制御装置１００Ａは、図１に示す、微分器１１２、位置フィードフォワード処理部１１３、２回微分器１１４、速度フィードフォワード処理部１１５、加算器１０７、及びトルク指令制限部１０８を備えていない。

数値制御装置３００は、例えば図６に示す、八角形の角が一つ置きに円弧に置き換えられた形の加工形状の、学習時の加工プログラムに基づいて位置指令を作成する。
位置指令は、減算器１０１、反転検出部１１６、及び機械学習装置２００に入力される。

反転検出部１１６は、位置指令から反転部を検出する。例えば、図６に示す円弧の位置Ｂ２で、テーブルをＹ軸方向に移動するモータは、回転方向が反転するが、反転検出部１２１は、位置指令に基づいて、位置Ｂ２での反転を検出する。補正生成部１１７は反転の検出信号に基づいて補正量を加算器１０３に出力する。

速度指令制限部１０４は、補正生成部１１７から出力される補正量が加算された速度指令（以下、補正された速度指令という）が制限を行う設定範囲内（上限以下及び下限以上）に有るかどうかを検出する。補正された速度指令が設定範囲内であれば、速度指令制限部１０４は、そのまま補正された速度指令を減算器１０５に出力する。一方、補正された速度指令が設定範囲外である場合には、速度指令制限部１０４は、補正された速度指令を制限して設定範囲内として、設定範囲内とされた速度指令を減算器１０５に出力する。
また、速度指令制限部１０４は、速度指令を設定範囲内に制限した場合は速度制限通知を機械学習装置２００に対して行う。

以上のように、本実施形態の機械学習装置も、補正生成部１１７の補正量を機械学習する場合に、機械学習中に、仮に不適切な補正量が選択されることがあっても、象限突起が発生して有効な学習ができなくなったり、また、アラームで工作機械等が停止、終了して、学習が中断することがないように、安全に機械学習を継続することが可能となる。

（変形例）
本実施形態では、象限突起の補正量が加算された速度指令の範囲を制限するために速度指令制限部１０４を設けた。
しかし、速度指令制限部１０４の代わりに、象限突起の補正量の範囲を制限するために、補正生成部１１７と加算器１０３との間に補正量制限部を設けてもよい。補正量制限部の設定範囲は、固定された範囲としても、動的に変動する範囲としてもよい。

機械学習装置２００は、象限突起の補正のために、図６に示す加工形状の位置Ｂ２と位置Ｂ４における、減算器１０１の出力となる位置偏差を用いて学習し、補正生成部１１７の補正量を調整する。

象限突起の補正を行う場合、図５に示した八角形の加工形状の、学習時の加工プログラムを用いてもよい。その場合、例えば、図５に示す位置Ａ２で、テーブルをＹ軸方向に移動するモータの回転方向が反転し、位置Ａ４で、テーブルをＸ軸方向に移動するモータの回転方向が反転する。機械学習装置２００は、象限突起の補正のために、例えば、図５に示す八角形の加工形状の位置Ａ２と位置Ａ４における、減算器１０１の出力となる位置偏差を用いて学習し、補正生成部１１７の補正量を調整する。

以上本発明に係る各実施形態について説明したが、上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ読み取り可能な記録媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ読み取り可能な記録媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ読み取り可能な記録媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜サーボ制御装置が機械学習装置を備える変形例＞
上述した実施形態では、機械学習装置２００と、サーボ制御装置１００又は１００Ａとを制御装置内に設けて構成し、機械学習装置２００とサーボ制御装置１００又は１００Ａとは別体の装置により構成したが、機械学習装置２００の機能の一部又は全部をサーボ制御装置１００により実現するようにしてもよい。
また、上述した実施形態では、サーボ制御装置１００又は１００Ａと数値制御装置３００とは別体の装置により構成したが、サーボ制御装置１００又は１００Ａの機能の一部又は全部を数値制御装置３００により実現するようにしてもよい。数値制御装置３００は、機械学習装置２００、サーボ制御装置１００又は１００Ａを含んでもよく、その場合、数値制御装置３００が制御装置を構成する。

＜システム構成の自由度＞
図１０は他の構成の制御装置を示すブロック図である。制御装置１０Ｂは、図１０に示すように、ｎ台のサーボ制御装置１００−１〜１００−ｎ、ｎ台の機械学習装置２００−１〜２００−ｎ、ネットワーク４００、及び数値制御装置３００−１〜３００−ｎを備えている。なお、ｎは任意の自然数である。ｎ台のサーボ制御装置１００−１〜１００−ｎのそれぞれは図１、図７、図８及び図９に示したサーボ制御装置１００、１００Ａ〜１００Ｃのいずれかに対応している。ｎ台の機械学習装置２００−１〜２００−ｎのそれぞれは図１及び図９に示した機械学習装置２００のいずれかに対応している。数値制御装置３００−１〜３００−ｎは数値制御装置３００に対応し、サーボ制御装置１００−１〜１００−ｎのそれぞれに対して設けられる。サーボ制御装置１００−１〜１００−ｎは数値制御装置３００−１〜３００−ｎに含まれていてもよい。

ここで、サーボ制御装置１００−１と機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。サーボ制御装置１００−２〜１００−ｎと機械学習装置２００−２〜２００−ｎについてもサーボ制御装置１００−１と機械学習装置２００−１と同様に接続される。図１０では、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、サーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組のサーボ制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御装置１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

上述した図１０の制御装置では、機械学習装置２００−１〜２００−ｎとサーボ制御装置１００−１−１００−ｎとが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置２００−１が複数のサーボ制御装置１００−１〜１００−ｍ（ｍ＜ｎ又はｍ＝ｎ）とネットワーク４００を介して通信可能に接続され、各サーボ制御装置１００−１〜１００−ｍの機械学習を実施するようにしてもよい。
その際、機械学習装置２００−１の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置２００−１の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置１００−１〜１００−ｎとそれぞれ対応する複数の機械学習装置２００−１〜２００−ｎがあった場合に、各機械学習装置２００−１〜２００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０、１０Ａ、１０Ｂ制御装置
１００、１００Ａサーボ制御装置
１０１減算器
１０２位置制御部
１０３加算器
１０４速度指令制限部
１０５減算器
１０６速度制御部
１０７加算器
１０８トルク指令制限部
１０９モータ
１１０積分器
１１１位置検出処理部
１１２微分器
１１３位置フィードフォワード処理部
１１４２回微分器
１１５速度フィードフォワード処理部
１１６反転検出部
１１７補正生成部
２００機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
３００数値制御装置
４００ネットワーク

Claims

工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部と、を備えたサーボ制御装置に対して、前記補正生成部の前記補正量の最適化に係る機械学習を行う機械学習装置であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記制限部が前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正生成部にて生成する前記補正量の最適化の新たな探索を継続する機械学習装置。
前記制限部は、前記補正量又は前記補正量が加えられた前記制御指令に制限を加えた場合に、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となったことを前記機械学習装置に通知し、
前記機械学習装置は、前記通知を受けたときに、前記補正量を学習に反映させる、請求項１に記載の機械学習装置。
前記機械学習として強化学習を行い、
前記制限部から前記通知を受けたときに、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲を超えるような前記補正量が選択されないような報酬を与える請求項１又は２に記載の機械学習装置。
前記報酬に基づいて価値関数を更新し、更新された価値関数に基づいて、最適な前記補正量又は補正パラメータの調整情報を生成して、前記補正生成部に出力する請求項３に記載の機械学習装置。
前記制御指令は、速度指令とトルク指令のうちの少なくとも１つを含み、前記補正量は、前記速度指令に加える位置フィードフォワード項と前記トルク指令に加える速度フィードフォワード項のうちの少なくとも１つを含む請求項１から４のいずれか１項に記載の機械学習装置。
前記設定範囲は上限と下限とが固定された範囲である、請求項１から５のいずれか１項に記載の機械学習装置。
前記設定範囲は上限と下限とが変動する範囲である、請求項１から５のいずれか１項に記載の機械学習装置。
前記制限部は加工精度又は加工サイクルタイムによって前記設定範囲の上限と下限を変える、請求項７に記載の機械学習装置。
請求項１から８のいずれか１項に記載の機械学習装置と、
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成する補正生成部と、前記補正量又は前記補正量が加えられた制御指令を設定範囲に制限する制限部と、を備えたサーボ制御装置と、
を備えた制御装置。
前記機械学習装置は、前記サーボ制御装置に含まれる、請求項９に記載の制御装置。
工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御する制御指令に加える補正量を生成し、補正量又は前記補正量が加えられた制御指令を設定範囲に制限するサーボ制御装置に対して、前記補正量の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
機械学習動作中に、前記サーボ制御装置において、前記補正量又は前記補正量が加えられた前記制御指令が前記設定範囲外となり、前記補正量又は前記補正量が加えられた前記制御指令に対して制限を加えられて前記設定範囲とした場合、前記機械学習装置において、前記補正量を学習に反映させ、前記補正量の最適化の新たな探索を継続する、機械学習方法。