JP7010877B2

JP7010877B2 - 機械学習装置、数値制御システム及び機械学習方法

Info

Publication number: JP7010877B2
Application number: JP2019084477A
Authority: JP
Inventors: 春宇鮑
Original assignee: FANUC Corp
Current assignee: FANUC Corp
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2022-01-26
Anticipated expiration: 2039-04-25
Also published as: JP2020181403A; CN111857052A; US20200342356A1; US11640557B2; DE102020204854A1; CN111857052B; DE102020204854A8

Description

本発明は、コーナー部の指令を最適化する機械学習を行う機械学習装置、この機械学習装置を含む数値制御システム、及び機械学習方法に関する。

機械学習装置を用いた工作機械は、例えば特許文献１から特許文献５に記載されている。
特許文献１には、直線と曲線で形成される所定の加工物の輪郭を工具経路とする工具の動作を機械学習する工作機械が記載されている。具体的には、特許文献１には、工作機械の動作を評価して評価データを出力する動作評価部と、工作機械の軸の移動量を機械学習する機械学習器とを備え、機械学習器は、工作機械の物理量データと評価データとを取得する状態観測部と、物理量データと評価データに基づいて報酬を計算する報酬計算部と、機械学習結果および物理量データに基づいて軸の移動量の調整を行う移動量調整学習部と、移動量調整学習部が調整した軸の移動量を出力する移動量出力部と、を有し、移動量調整学習部は、調整された前記軸の移動量と、状態観測部により取得された物理量データと、報酬計算部が計算した前記報酬と、に基づいて軸の移動量の調整を機械学習する工作機械が記載されている。

特許文献２には、各軸の制御における最適な加減速を生成する工作機械が記載されている。具体的には、特許文献２には、工作機械の動作を評価する動作評価部と、工作機械の軸の移動量を機械学習する機械学習器とを備え、機械学習器は、工作機械の状態データとを取得する状態観測部と、状態データに基づいて報酬を計算する報酬計算部と、軸の移動量の決定を機械学習する移動量調整学習部と、機械学習結果に基づいて軸の移動量を決定して出力する移動量出力部と、を有し、移動量調整学習部は、決定された前記軸の移動量と、状態観測部により取得された状態データと、報酬計算部が計算した報酬と、に基づいて軸の移動量の決定を機械学習する工作機械が記載されている。

特許文献３には、オーバーヒートの発生を回避しながらもサイクルタイムを短縮するための行動情報を選択することを可能とする強化学習を行う行動情報学習装置が記載されている。具体的には、特許文献３には、工作機械における加工に係る主軸の動作パターン及びパラメータの組合せを含む状態情報を取得する状態情報取得手段と、前記状態情報に含まれる前記動作パターン及び前記パラメータの組合せの調整情報を含む行動情報を出力する行動情報出力手段と、前記工作機械の温度及び前記工作機械の前記加工に係る加工時間についての情報である判定情報を取得し、該取得した判定情報に基づいて強化学習における報酬の値を出力する報酬計算手段と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて前記強化学習を行うことにより価値関数を更新する価値関数更新手段と、を備える行動情報学習装置が記載されている。

特許文献４には、外形加工数値制御データを作成する際に、削り残し部分を別の工具で補正するのではなく、ひとつの工具で削り残しを低減することで、加工時間を短縮する数値制御データ作成装置が記載されている。具体的には、特許文献４には、凹形状のある外形形状を入力とすると、予め登録された工具情報から最適な工具を選び、加工工程順に数値制御データを作成し、次に、入力された外形形状から、凹部を抽出し、この部位のデータを正負の公差分まで考慮して算出した外形加工数値制御データに修正することにより、補正加工工程を新たに追加しなくとも、高い精度で外形を切削することができる数値制御データ作成装置が記載されている。

特許文献５には、コーナー部を形成する２つの移動ブロックの成す角に応じて加工経路を補正するワイヤ放電加工機が記載されている。具体的には、特許文献５には、加工プログラム記憶部から加工プログラムのブロックを読み込んで解析し、コーナー角度検出部によってコーナーがあると判断されると、コーナー角度検出部で検出されたコーナー角度に基づいて補正距離と戻し距離とを演算し、補正距離にしたがって先に加工するブロックの終点を延長するように補正し、戻し距離にしたがって次に加工するブロックを始点からブロック途中まで削除し、延長されて作成された新たなブロック終点と、削除されて作成された新たなブロック開始点とを繋ぐように加工経路を加工経路補正部において作成し、加工経路制御部によってワイヤ電極を被加工物に対して相対移動させるワイヤ放電加工機が記載されている。

特開２０１７－０３３１３８号公報特開２０１７－０６８３２５号公報特開２０１８－１２０４５３号公報特開平０８－２０２４２４号公報特開２０１４－１２１７５５号公報

工作機械を制御する数値制御装置において、コーナー部で機械にショックが発生することを回避するため、補間後加減速制御が行われている。その結果、指令経路のブロック間でオーバラップして加減速が行われるため、加工経路が指令された加工経路からずれて内回り量が発生する。
工作機械を制御する数値制御装置において、この内回り量を削減して、加工精度を向上させつつ、加工時間を削減することが望まれている。

（１）本開示の一態様は、加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置である。

（２）本開示の他の一態様は、上記（１）に記載の機械学習装置と、該機械学習装置によって、前記ｍ個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システムである。

（３）本開示の更に他の一態様は、加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
機械学習方法である。

本開示の各態様によれば、内回り量を削減して、加工精度を向上させるとともに加工時間を短縮することができる。

本開示の一実施形態の数値制御システムの構成を示すブロック図である。２つのブロックを有する指令及び５つのブロックの内部指令の一例を示す説明図である。２つのブロックを有する指令に基づく指令経路と加工経路、及び５つのブロックを有する内部指令に基づく内部指令経路と補正された加工経路を示す図である。図３に示した補正された加工経路の許容誤差範囲を示す図である。本開示の一実施形態の機械学習装置２００を示すブロック図である。２つのブロックを有する指令に基づく加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。５つのブロックを有する内部指令に基づく、補正された加工経路におけるX軸及びY軸の速度と時間との関係を示す特性図である。本実施形態におけるＱ学習（Q-learning）時の機械学習装置２００の動作を示すフローチャートである。図８のステップＳ１４内での加工精度に基づく報酬の算出方法を示すフローチャートである。図８のステップＳ１４内での加工時間に基づく報酬の算出方法の一部を示すフローチャートである。本開示の一実施形態の機械学習装置の最適化行動情報出力部の動作を説明するフローチャートである。数値制御システムの他の構成例を示すブロック図である。

以下、本開示の実施形態について図面を用いて詳細に説明する。

まず、本開示の機械学習装置を含む、数値制御システムについて説明する。
図１は、本開示の一実施形態の数値制御システムの構成を示すブロック図である。
図１に示すように、数値制御システム１０は、ＣＮＣ（Computerized Numerical Control）装置等の数値制御装置１００、機械学習装置２００及びモータ３０１、３０２を備えている。機械学習装置２００は数値制御装置１００に含まれてもよい。

モータ３０１、３０２は、例えば、工作機械、ロボット、産業機械等の一部として設けられる。また、数値制御装置１００は、工作機械、ロボット、産業機械等の一部として設けられてもよい。モータ３０１、３０２は、以下の説明では回転運動をするモータとして説明するが、直線運動をするリニアモータであってもよい。

工作機械は例えば３軸加工機で、図１ではＸ軸及びＹ軸の送り軸モータとなるモータ３０１、３０２のみを示している。送り軸モータとしては他にＺ軸のモータが設けられており、また３軸加工機はボールエンドミル等の工具を回転させる主軸モータも備えているがここでは、説明を省略する。

モータ３０１、３０２は、ボールねじ等を介して、ワークを作製するための基板が載せられたテーブルをＸ軸方向及びＹ軸方向にそれぞれ直線移動する。Ｚ軸のモータは工具又はテーブルをＺ軸方向に直線移動する。なお、３軸加工機の構成は係る構成に限定されず、例えば、工具を固定し、テーブルをＸ軸方向、Ｙ軸方向及びＺ軸方向に直線移動させたり、テーブルを固定し、工具をＸ軸方向、Ｙ軸方向及びＺ軸方向に直線移動させたりしてもよい。

数値制御装置１００は、指令解析部１０１、内部指令生成部１０２、補間部１０３、加減速制御部１０４、Ｘ軸サーボ制御部１０５、及びＹ軸サーボ制御部１０６を備えている。数値制御装置１００はＺ軸サーボ制御部及び主軸制御部を含むが、ここでは説明を省略し、以下、Ｘ軸及びＹ軸についてのコーナー部の制御について説明する。

指令解析部１０１は、入力された加工プログラムからＸ軸及びＹ軸の移動の指令を含むブロックを逐次読みだして解析し、解析結果に基づいて各軸の移動を指令する移動指令データを作成し、作成した移動指令データを補間部１０３に出力する。
指令解析部１０１は、加工プログラムに２つのブロックからなるコーナー部を含み指令（第１の指令となる）が含まれることを検出した場合には、内部指令生成部１０２及び機械学習装置２００に２つのブロックの指令を送る。なお、ここではコーナー部は直角としているが、鋭角でも鈍角でもよい。

内部指令生成部１０２は２つのブロックの指令に基づいて、コーナー部の５つのブロックの内部指令（第２の指令となる）を生成して、作成した５つのブロックの内部指令を指令解析部１０１及び機械学習装置２００に送る。内部指令には、５つのブロックの各ブロックの座標値が含まれている。指令解析部１０１は、２つのブロックの指令を５つのブロックの内部指令に替えた移動指令データを作成し、作成した移動指令データを補間部１０３に出力する。生成するブロックの数は２より多いｍ個（ｍは自然数）以上であればよく、５つに限定されず、それ以外の数、例えば４つ又は７つであってもよい。

補間部１０３は、指令解析部１０１から出力された移動指令データにより指令される移動指令に基づいて、指令経路上の点を補間周期で補間計算した補間データを生成する。

加減速制御部１０４は、補間部１０３から出力された補間データに基づいて、加減速処理を行い補間周期ごとの各軸の速度を計算し、算出結果に基づくデータをＸ軸サーボ制御部１０５及びＹ軸サーボ制御部１０６に出力する。また、加減速制御部１０４は加速度を機械学習装置２００へ出力する。

図２は、２つのブロックを有する指令及び５つのブロックの内部指令の一例を示す説明図である。指令「Ｇ０１；」、「Ｎ０１Ｘ１０．０；」、及び「Ｎ０２Ｙ１０．０；」は指令解析部１０１によって解析された指令であり、「Ｇ０１」は「直線補間（切削送り）」、「Ｎ」は「シーケンス番号（行のブロック番号）、「Ｘ」はＸ軸座標、「Ｙ」はＹ軸座標を示している。具体的には、この指令は、切削送りでの直線補間で、第１ブロックでＸ軸及びＹ軸座標（０，０）から（１０，０）への移動、第２ブロックでＸ軸及びＹ軸座標（１０，０）から（１０，１０）への移動の指令であることを示している。

内部指令「Ｇ０１；」、「Ｎ０１Ｘ５．０；」、「Ｎ０２Ｘ９．９Ｙ－０．１；」、「Ｎ０３Ｘ１０．１Ｙ０．１；」、「Ｎ０４Ｘ１０．０Ｙ５．０；」、及び「Ｎ０５Ｙ１０．０；」は、内部指令生成部１０２によって指令「Ｇ０１；」、「Ｎ０１Ｘ１０．０；」、「Ｎ０２Ｙ１０．０；」に基づいて生成された指令である。具体的には、この内部指令は、削除送りで、第１ブロックでＸ軸及びＹ軸座標（０，０）から（５，０）への移動、第２ブロックでＸ軸及びＹ軸座標（５，０）から（９．９，－０．１）への移動、第３ブロックでＸ軸及びＹ軸座標（９．９，－０．１）から（１０．１，０．１）への移動、第４ブロックでＸ軸及びＹ軸座標（１０．１，０．１）から（１０．０，５．０）への移動、第５ブロックでＸ軸及びＹ軸座標（１０．０，５．０）から（１０．０，１０．０）への移動の指令であることを示している。

図３は２つのブロックを有する指令に基づく指令経路と加工経路、及び５つのブロックを有する内部指令に基づく内部指令経路と補正された加工経路を示す図である。図３に示される、点Ａと点Ｇとの間の指令経路、及び点Ｇと点Ｆとの間の指令経路は、指令「Ｇ０１；」、「Ｎ０１Ｘ１０．０；」、及び「Ｎ０２Ｙ１０．０；」による２つのブロックによる指令経路であり、この指令経路は図３において実線で示されている。また、図３において、２つのブロックの指令経路で実際に加工される加工経路が実線で示されている。
図３に示される、点Ａと点Ｂとの間の指令経路、点Ｂと点Ｃとの間の指令経路、点Ｃと点Ｄとの間の指令経路、点Ｄと点Ｅとの間の指令経路、及び点Ｅと点Ｆとの間の指令経路は、内部指令「Ｇ０１；」、「Ｎ０１Ｘ５．０；」、「Ｎ０２Ｘ９．９Ｙ－０．１；」、「Ｎ０３Ｘ１０．１Ｙ０．１；」、「Ｎ０４Ｘ１０．０Ｙ５．０；」、及び「Ｎ０５Ｙ１０．０；」による５つのブロックの指令経路であり、この指令経路は図３において間隔の広い点線で示されている。また、図３において、５つのブロックの指令経路で実際に加工される、補正された加工経路が間隔の狭い点線で示されている。

図３に示される実線で示される加工経路では、加減速制御部１０４で行われる補間後加減速制御のために、指令経路のブロック間で、オーバラップして加減速が行われる。その結果、加工経路は指令された指令経路からずれて内回り量が発生する。

後述する機械学習装置２００は、内回り量を削減し、加工時間を低減できるように、内部指令のＸ軸及びＹ軸座標のデータ（座標値）の最適な値を学習する。

Ｘ軸サーボ制御部１０５及びＹ軸サーボ制御部１０６は加減速制御部１０４からの出力に基づいて、それぞれＸ軸及びＹ軸のモータ３０１、３０２を制御する。
Ｘ軸サーボ制御部１０５及びＹ軸サーボ制御部１０６とはそれぞれ、位置、速度フィードバックループを構成するための位置制御部、速度制御部、トルク指令値に基づいてモータを駆動するモータ駆動アンプ、及びユーザの操作を受け付けるための操作盤等を含んでいる。

Ｘ軸サーボ制御部１０５及びＹ軸サーボ制御部１０６は、モータ３０１、３０２にそれぞれ結びついたエンコーダ等の位置検出器からの位置フィードバック信号と加減速制御部１０４から出力される位置指令とを用いて位置偏差を求める。モータ３０１、３０２にそれぞれ結びついた位置検出器から出力される位置検出値は位置フィードバック信号として用いられるとともに、機械学習装置２００へ位置情報として出力される。なお、Ｘ軸サーボ制御部１０５及びＹ軸サーボ制御部１０６の内部構成は当業者によく知られているので詳細な説明及び図示を省略する。

＜機械学習装置２００＞
機械学習装置２００は、加工プログラムを実行し、加工プログラムの指令、数値制御装置１００で生成された内部指令、内部指令の５つのブロックで設定された送り速度、各軸の時定数、加減速制御部１０４から出力される加速度及びモータ３０１及びモータ３０２から出力される位置検出値を用いて、内部指令の５つのブロックのＸ軸座標値及びＹ軸座標値を機械学習（以下、学習という）する。機械学習装置２００による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
ここで、数値制御装置１００は、加工プログラムによりモータ３０１、３０２を制御し、被加工物（ワーク）を搭載しない状態で工作機械を駆動する。

以下の説明では機械学習装置２００が強化学習を行う場合について説明するが、機械学習装置２００が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。

機械学習装置２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式１（以下に数１として示す）により表すことができる。

上記の数式１において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式１は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（Ｓ，Ａ）についてのＱ（Ｓ，Ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（Ｓ，Ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値Ｑ（Ｓ，Ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置２００が行う。具体的には、機械学習装置２００は、加工プログラムの指令、数値制御装置１００で生成された内部指令、内部指令の５つのブロックで設定された送り速度、各軸の時定数、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値を状態Ｓとして、当該状態Ｓに係る、内部指令の５つのブロックのＸ軸座標値及びＹ軸座標値（以下、座標値ｘ_i、ｙ_i(１≦i≦５)という）の調整を行動Ａとして選択する価値Ｑを学習する。なお、送り速度は切削加工時の送り速度であり予め設定される。各軸の時定数も予め設定される。

機械学習装置２００は、加工プログラムの指令、数値制御装置１００で生成された内部指令、内部指令の５つのブロックで設定された送り速度、各軸の時定数、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値を含む状態情報Ｓを観測して、行動Ａを決定する。機械学習装置２００は、行動Ａをするたびに報酬が返ってくる。この報酬は、加工精度及び加工時間に基づいて決められる。機械学習装置２００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Ａを試行錯誤的に探索する。そうすることで、機械学習装置２００は、５つのブロックの座標値ｘ_i、ｙを含む指令を用いて、数値制御装置を駆動し、加工プログラムの指令、数値制御装置１００で生成された内部指令、内部指令の５つのブロックで設定された送り速度、各軸の時定数、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値を含む状態Ｓに対して、最適な行動Ａ（すなわち、内部指令の最適な座標値ｘ_i、ｙ_i）を選択することが可能となる。

すなわち、機械学習装置２００により学習された価値関数Ｑに基づいて、或る状態Ｓに係る内部指令の座標値ｘ_i、ｙ_iに対して適用される行動Ａのうち、Ｑの値が最大となるような行動Ａを選択することで、加工経路の精度が向上し、加工時間が削減できる最適な行動Ａ（すなわち、内部指令の座標値ｘ_i、ｙ_i）を選択することが可能となる。

図５は本開示の一実施形態の機械学習装置２００を示すブロック図である。
上述した強化学習を行うために、図５に示すように、機械学習装置２００は、状態情報取得部２０１、学習部２０２、行動情報出力部２０３、価値関数記憶部２０４、及び最適化行動情報出力部２０５を備える。学習部２０２は報酬出力部２０２１、価値関数更新部２０２２、及び行動情報生成部２０２３を備える。

状態情報取得部２０１は、加工プログラムの指令、数値制御装置１００で生成された内部指令、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値を状態情報Ｓとして数値制御装置１００から取得する。内部指令の５つのブロックで設定された送り速度、及び各軸の時定数は予め取得され、状態情報Ｓの一部として記憶されている。この状態情報Ｓは、Ｑ学習における、環境状態Ｓに相当する。
状態情報取得部２０１は、状態情報Ｓを学習部２０２に対して出力する。

なお、最初にＱ学習を開始する時点での内部指令の座標値ｘ_i、ｙ_iは、予め数値制御装置１００の製造者又はユーザが生成するようにする。本実施形態では、製造者等が作成した内部指令の座標値ｘ_i、ｙ_iの初期設定値を、強化学習により最適なものに調整する。
なお、内部指令の座標値ｘ_i、ｙ_iは予め製造者又はユーザが工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。

学習部２０２は、或る環境状態Ｓの下で、ある行動Ａを選択する場合の価値Ｑ（Ｓ，Ａ）を学習する部分である。

報酬出力部２０２１は、或る状態Ｓの下で、行動Ａを選択した場合の報酬を算出する部分である。報酬は複数の評価項目に基づいて全体の報酬を算出してもよい。また複数の評価項目に基づいて算出する報酬に重み付けすることにより全体の報酬を算出してもよい。本実施形態では、加工精度及び加工時間に基づいて報酬を算出する。

報酬出力部２０２１は、まず、加工プログラムの指令により得られる指令経路（例えば図３の指令経路）の位置と、モータ３０１、３０２から出力される位置検出値により得られる、補正した実際の加工経路（例えば図３の補正した加工経路）の位置との差ｒを求める。この差ｒは補正後の内回り量となる。報酬出力部２０２１は、この補正後の内回り量が、図４に示す、予め定めた許容誤差範囲内かどうかを判断する。図４は図３に示した補正された加工経路の許容誤差範囲を示す図であり、図４において許容誤差範囲は一点鎖線で示される。補正後の内回り量が予め定めた許容誤差範囲内であれば以下に説明する加工精度に基づく報酬を算出する。一方、補正後の内回り量が予め定めた許容誤差範囲を超えていれば、以下に説明する加工精度に基づく報酬の算出を行わず、新たな行動情報を生成する。以上説明した、補正後の内回り量が予め定めた許容誤差範囲内かどうかを判断する処理は行わなくともよい。しかし、この処理を行うことで、補正後の内回り量が許容誤差範囲を超える場合は報酬の算出を行う必要がなくなるので、学習時間を削減することができる。

次に、加工精度に基づく報酬の算出について説明する。
報酬出力部２０２１は、加工プログラムの指令により得られる指令経路（例えば図３の指令経路）の位置と、モータ３０１、３０２から出力される位置検出値により得られる、補正した実際の加工経路（例えば図３の補正した加工経路）の位置との差ｒの積分を評価関数とする。この差ｒは補正後の内回り量となる。加工プログラムの指令経路のＸ軸の座標値をｘ_１、Ｙ軸の座標値をｙ_１で示し、座標値ｘ_１、ｙ_１に対応する、補正した実際の加工経路（例えば図３の補正した加工経路）のＸ軸の座標値をｘ_２、Ｙ軸の座標値をｙ_２で示すと、評価関数ｆは、以下の数式２（以下に数２として示す）の評価関数ｆ_１を用いることができる。

評価関数ｆは数式２の評価関数ｆ_１に限定されず、他の評価関数、例えば、以下の数式３（以下に数３として示す）で示す、差ｒの分散値である評価関数ｆ_２としてもよいを用いることができる。数式３において、ｒ’は差ｒの平均値を示す。ｎはデータ数を示す。

数式２の評価関数ｆ_１及び数式３の評価関数ｆ_２はいずれも内回り量（＝差ｒ）を用いた評価関数であり、数式２の評価関数ｆ_１又は数式３の評価関数ｆ_２に基づいて以下のように報酬が算出される。以下の説明では、評価関数ｆとして説明するが、数式２の評価関数ｆ_１及び数式３の評価関数ｆ_２のいずれを用いてもよい。
ここで、状態Ｓにおける評価関数ｆの値をｆ（Ｓ）、状態情報Ｓ´に係る評価関数ｆの値をｆ（Ｓ´）で示す。
このとき、行動情報Ａにより修正された状態情報Ｓ´に係る評価関数値ｆ（Ｓ´）が、行動情報Ａにより修正される前の状態情報Ｓに係る修正前の評価関数ｆ（Ｓ）よりも大きくなった場合に、報酬出力部２０２１は、報酬の値を第１の負の値とする。

一方で、評価関数値ｆ（Ｓ´）が、評価関数ｆ（Ｓ）よりも小さくなった場合に、報酬出力部２０２１は、報酬の値を第１の正の値とする。
、評価関数ｆ（Ｓ´）が、評価関数ｆ（Ｓ）と等しい場合は、報酬出力部２０２１は、報酬の値をゼロとする。

また、行動Ａを実行後の状態Ｓ´の評価関数ｆ（Ｓ´）が、前の状態Ｓにおける評価関数ｆ（Ｓ）より大きくなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりｆ（Ｓ´）の値が大きくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Ａを実行後の状態Ｓ´の評価関数ｆ（Ｓ´）が、前の状態Ｓにおける評価関数ｆ（Ｓ）より小さくなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりｆ（Ｓ´）の値が小さくなった度合いに応じて正の値が大きくなるようにするとよい。

なお、上述した加工精度に基づく報酬の算出の前に、数式２で与えられる評価関数ｆ_１の値が予め設定した第１の閾値以上となった場合、又は数式３で与えられる評価関数ｆ_２の値が予め設定した第２の閾値以上となった場合は第１の負の値よりも絶対値が大きい第２の負の値として、上述した加工精度に基づく報酬の算出を行わず、新たな行動情報を生成してもよい。ここで、第１及び第２の閾値は、評価関数ｆ_１及び評価関数ｆ_２、すなわち指令経路と補正した実際の加工経路との差ｒの積分が所定の上限値未満となるように設定された値である。この処理を行うことで、評価関数が閾値以上の場合は報酬の算出を行う必要がなくなるので、学習時間を削減することができる。

次に、加工時間に基づく報酬の算出について説明する。
報酬出力部２０２１は、モータ３０１、３０２から出力される位置検出値（位置情報）から、補正した実際の加工経路（例えば図３の補正した加工経路）での加工時間をカウントする。例えば図３において点Ａでモータ３０１が回転を開始し、点Ｆでモータ３０２が回転を停止するまで時間を加工時間とする。なお、加工時間は、数値制御装置１００によってモータ３０１、３０２から出力される位置検出値からカウントされ、状態情報取得部２０１が状態情報として取得してもよい。

報酬出力部２０２１は、以下のように加工時間に基づく報酬を算出する。ここで、行動Ａにより状態Ｓから状態Ｓ´に遷移した場合に、状態Ｓ及び状態Ｓ´における加工時間を値Ｔ（Ｓ）及び値Ｔ（Ｓ´）とする。
値Ｔ（Ｓ´）＞値Ｔ（Ｓ）の場合は、報酬を正の第２の値とする。
値Ｔ（Ｓ´）＝値Ｔ（Ｓ）の場合は、報酬を正の第２の値より大きい正の第３の値とする。ゼロとする。
値Ｔ（Ｓ´）＜値Ｔ（Ｓ）の場合は、報酬を正の第３の値より大きい正の第４の値とする。
なお、報酬の値の与え方はこれに限定されず、例えば、値Ｔ（Ｓ´）＞値Ｔ（Ｓ）の場合は報酬をゼロとし、値Ｔ（Ｓ´）＝値Ｔ（Ｓ）及び値Ｔ（Ｓ´）＜値Ｔ（Ｓ）の場合は報酬を同じ正の値としてもよい。
以上説明した、加工精度に基づく報酬及び加工時間に基づく報酬の算出において、設定される報酬の値は、加工精度が加工時間よりも優先されるように設定されることが望ましい。加工精度が低い場合には被加工物の品質が低下するからである。

また、行動Ａを実行後の状態Ｓ´の加工時間が、前の状態Ｓにおける加工時間より長くなった場合（値Ｔ（Ｓ´）＞値Ｔ（Ｓ））の正の値としては、比率に応じて正の値を小さくするようにしてもよい。つまり加工時間が長くなった度合いに応じて正の値を小さくなるようにしてもよい。逆に、行動Ａを実行後の状態Ｓ´の加工時間が、前の状態Ｓにおける加工時間より短くなった場合（値Ｔ（Ｓ´）＜値Ｔ（Ｓ））の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり加工時間が短くなった度合いに応じて正の値が大きくなるようにしてもよい。

報酬出力部２０２１は、上記のように算出された、加工精度に基づく報酬と、加工時間に基づく報酬とに基づいて全体の報酬を算出する。全体の報酬を算出する場合、加算に限定されず、例えば、重み付け加算してもよく、また、加工精度に基づく報酬と加工時間に基づく報酬との平均値を算出してもよい。全体の報酬を算出する方法は、加工精度と加工時間との優先度に応じて適宜設定することができる。例えば、加工精度を重視する場合には、加工精度に基づく報酬に１を超える重み係数を掛けて加工時間に基づく報酬に加算して重み付け加算することができる。

価値関数更新部２０２２は、状態Ｓと、行動Ａと、行動Ａを状態Ｓに適用した場合の状態Ｓ´と、上記のようにして算出された報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部２０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。

オンライン学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移する都度、即座に価値関数Ｑの更新を行う学習方法である。また、バッチ学習は、或る行動Ａを現在の状態Ｓに適用することにより、状態Ｓが新たな状態Ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行う学習方法である。

行動情報生成部２０２３は、現在の状態Ｓに対して、Ｑ学習の過程における行動Ａを選択する。行動情報生成部２０２３は、Ｑ学習の過程において、内部指令の座標値ｘ_i、ｙ_iを修正する動作（Ｑ学習における行動Ａに相当）を行わせるために、行動情報Ａを生成して、生成した行動情報Ａを行動情報出力部２０３に対して出力する。より具体的には、行動情報生成部２０２３は、例えば、状態Ｓに含まれる内部指令の座標値ｘ_i、ｙ_iに対して行動Ａに含まれる、内部指令の座標値ｘ_i、ｙ_iをインクレメンタルに加算又は減算させる。

そして、行動情報生成部２０２３は、内部指令の座標値ｘ_i、ｙ_iの増加又は減少を適用して、状態Ｓ´に遷移して、全体の報酬が大きくなった場合、次の行動Ａ´としては、内部指令の座標値ｘ_i、ｙ_iに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、全体の報酬がより大きくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、逆に、全体の報酬が小さくなった場合、行動情報生成部２０２３は、次の行動Ａ´としては、例えば、内部指令の座標値ｘ_i、ｙ_iに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、全体の報酬がより大きくなるような行動Ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部２０２３は、現在の推定される行動Ａの価値の中で、最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動Ａ´選択し、それ以外では最も価値Ｑ（Ｓ，Ａ）の高い行動Ａ´を選択するεグリーディ法といった公知の方法により、行動Ａ´を選択する方策を取るようにしてもよい。

行動情報出力部２０３は、学習部２０２から出力される行動情報（内部指令の座標値ｘ_i、ｙ_iの修正情報）Ａを指令フィルタ１１０に対して送信する部分である。内部指令生成部１０２は、この行動情報に基づいて、現在の状態Ｓ、すなわち現在設定されている内部指令の座標値ｘ_i、ｙ_iを微修正することで、次の状態Ｓ´（すなわち修正された、内部指令の座標値ｘ_i、ｙ_i）に遷移する。

価値関数記憶部２０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態Ｓ、行動Ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部２０４に記憶された価値関数Ｑは、価値関数更新部２０２２により更新される。また、価値関数記憶部２０４に記憶された価値関数Ｑは、他の機械学習装置２００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置２００で共有するようにすれば、各機械学習装置２００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部２０５は、価値関数更新部２０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値Ｑ（Ｓ，Ａ）が最大となる動作を内部指令生成部１０２に行わせるための行動情報Ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部２０５は、価値関数記憶部２０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部２０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報を指令フィルタ１１０に対して出力する。この最適化行動情報には、行動情報出力部２０３がＱ学習の過程において出力する行動情報と同様に、内部指令生成部１０２の内部指令の座標値ｘ_i、ｙ_iを修正する情報が含まれる。

内部指令生成部１０２は、この行動情報に基づいて内部指令の座標値ｘ_i、ｙ_iを修正する。
機械学習装置２００は、以上の動作で、内部指令生成部１０２の座標値ｘ_i、ｙ_iの最適化を行い、加工精度を向上し、加工時間を短縮するように動作することができる。

加工時間を短縮できる効果について図６及び図７を用いて以下に説明する。
図６は２つのブロックを有する指令に基づく加工経路におけるＸ軸及びＹ軸の速度と時間との関係を示す特性図である。図７は５つのブロックを有する内部指令に基づく、補正された加工経路におけるＸ軸及びＹ軸の速度と時間との関係を示す特性図である。
２つのブロックを有する指令に基づく加工経路では、図６に示すように、Ｘ軸の速度が減速を開始する時刻にＹ軸の速度が加速を開始する。一方、５つのブロックを有する内部指令に基づく、補正された加工経路では、図７に示すように、Ｘ軸の速度が減速を開始する時刻前からＹ軸の速度が加速され、Ｘ軸の速度が減速を開始する時刻ではＹ軸は既に加速を完了しているため、加工時間を短縮することができる。

以上、数値制御装置１００及び機械学習装置２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、数値制御装置１００及び機械学習装置２００は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、数値制御装置１００及び機械学習装置２００は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、数値制御装置１００及び機械学習装置２００において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
なお、数値制御装置１００は機械学習装置２００を含んでもよく、この場合、ＣＰＵ（Central Processing Unit）等の演算処理装置、補助記憶装置及び主記憶装置は共用され、数値制御装置１００及び機械学習装置２００に対してそれぞれ設ける必要はなくなる。

機械学習装置２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図８、図９及び図１０のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置２００の動作について説明をする。図８は本実施形態におけるＱ学習時の機械学習装置２００の動作を示すフローチャート、図９は図８のステップＳ１４内での加工精度に基づく報酬の算出方法を示すフローチャート、図１０は図８のステップＳ１４内での加工時間に基づく報酬の算出方法の一部を示すフローチャートである。

まず、図８のステップＳ１１において、状態情報取得部２０１が数値制御装置１００から最初の状態情報を取得する。取得した状態情報は、価値関数更新部２０２２及び行動情報生成部２０２３に対して出力される。上述したように、この状態情報は、Ｑ学習における状態Ｓに相当する情報であり、ステップＳ１１時点での、加工プログラムの指令、数値制御装置１００で生成された内部指令、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値が含まれる。内部指令の５つのブロックで設定された送り速度、及び各軸の時定数は予め取得され、状態情報Ｓの一部として記憶されている。

なお、最初にＱ学習を開始する時点での内部指令の座標値ｘ_i、ｙ_iは、予め数値制御装置１００の製造者又はユーザが生成するようにする。本実施形態では、製造者等が作成した内部指令の座標値ｘ_i、ｙ_iの初期設定値を、強化学習により最適なものに調整する。

ステップＳ１２において、行動情報生成部２０２３は新たな行動情報Ａを生成し、生成した新たな行動情報Ａを、行動情報出力部２０３を介して数値制御装置１００の内部指令生成部１０２に対して出力する。行動情報を受信した内部指令生成部１０２は、受信した行動情報に基づいて現在の状態Ｓに係る内部指令の座標値ｘ_ｉ、ｙ_ｉを修正して状態Ｓ´とし、数値制御装置１００は修正された状態Ｓ´により、モータ３０１、３０２を駆動する。

ステップＳ１３において、状態情報取得部２０１は、数値制御装置１００から取得した新たな状態Ｓ´に相当する状態情報を取得する。ここで、新たな状態情報には、状態Ｓ´に係る加工プログラムの指令、数値制御装置１００で生成された内部指令、加減速制御部１０４から出力される加速度、及び加工プログラムを実行することで取得される、モータ３０１、３０２から出力される位置検出値が含まれる。状態Ｓ´に係る、加工プログラムの指令経路の位置と、位置検出値により得られる、補正した実際の加工経路（例えば図３の補正した加工経路）の位置との差ｒの積分（加工精度）、及び位置検出値から算出される、補正した実際の加工経路での加工時間とは判定情報となる。状態情報取得部２０１は学習部２０２に対して取得した状態情報を出力する。

ステップＳ１４において、報酬出力部２０２１は入力された判定情報、すなわち加工精と加工時間とに基づいて報酬を算出する。ステップＳ１４は加工精度に基づいて報酬を算出するステップＳ１４Ａと、加工時間に基づいて報酬を算出するステップＳ１４Ｂと、ステップＳ１４Ａで求めた報酬と、ステップＳ１４Ｂで求めた報酬とに基づいて全体の報酬を算出するステップＳ１４Ｃとを含む。なお、ここでは、数式２に示した評価関数を用いて報酬を算出する例について説明したが、数式３に示した評価関数を用いて報酬を算出してもよい。

前述したように、報酬出力部２０２１は、加工精度に基づいて報酬を算出するステップ１４Ａの前に、補正後の内回り量を求め、この補正後の内回り量が、図４に示す、予め定めた許容誤差範囲内かどうかを判断し、補正後の内回り量が予め定めた許容誤差範囲内であればステップＳ１４Ａに移り、補正後の内回り量が許容誤差範囲を超えていれば、ステップＳ１２に戻るようにしてもよい。

加工精度に基づいて報酬を算出するステップＳ１４Ａにおいて、まず、報酬出力部２０２１は、ステップＳ１４１で、評価関数値ｆが閾値（既に説明した第１の閾値）以上かどうかを判断する。評価関数値ｆが閾値以上の場合（ＹＥＳの場合）は、加工精度が許容範囲外として、ステップ１４２で報酬を負の第２の値とし、ステップＳ１２に戻る。この負の第２の値は後述する第１の負の値よりも絶対値が大きく、学習により選択されない値、例えば、負の無限大とする。なお、ステップＳ１４１及びＳ１４２は行われなくともよい。

ステップＳ１４１で、評価関数値ｆが閾値未満の場合（ＮＯの場合）は、報酬出力部２０２１は、ステップＳ１４３で、状態Ｓ’での評価関数値ｆ（Ｓ’）と状態Ｓでの評価関数値ｆ（Ｓ）とを比較し、評価関数値ｆ（Ｓ’）が評価関数値ｆ（Ｓ）より大きいか、小さいか、又は同じどうかを判断する。
ｆ（Ｓ’）＞ｆ（Ｓ）である場合は、ステップＳ１４４で報酬を負の第１の値とする。ｆ（Ｓ’）＝ｆ（Ｓ）である場合は、ステップＳ１４５で報酬をゼロとする。ｆ（Ｓ’）＜ｆ（Ｓ）である場合は、ステップＳ１４６で報酬を正の第１の値とする。

次に加工時間に基づいて報酬を算出するステップＳ１４Ｂにおいて、報酬出力部２０２１は、ステップＳ１４７で、状態Ｓ´に係る加工処理を行うために要した加工時間Ｔ（Ｓ´）と状態Ｓに係る加工処理を行うために要した加工時間Ｔ（Ｓ）とを比較し、加工時間Ｔ（Ｓ’）が加工時間Ｔ（Ｓ）より大きいか、小さいか、又は同じどうかを判断する。
Ｔ（Ｓ´）＞Ｔ（Ｓ）の場合は、ステップＳ１４８で報酬を第２の正の値とする。Ｔ（Ｓ´）＝Ｔ（Ｓ）の場合は、ステップＳ１４９で報酬を第２の正の値より大きい第３の正の値とする。Ｔ（Ｓ´）＜値Ｔ（Ｓ）の場合は、ステップＳ１５０で報酬を第３の正の値より大きい第４の正の値とする。

全体の報酬を算出するステップＳ１４Ｃは、加工精度に基づく報酬と加工時間に基づく報酬とを、例えば、加算したり、重み付け加算したり、平均値を求めたりすることで、全体の報酬を算出するステップである。

ステップＳ１４が終了すると、ステップＳ１５において、全体の報酬の値に基づいて、価値関数更新部２０２２が、価値関数記憶部２０４が記憶している価値関数Ｑを更新する。次に、ステップＳ１６において、学習部２０２は学習を継続するかどうかを判断する。学習を継続するかどうかの判断は、例えば、最大試行回数に達したかどうか、所定時間を経過したかどうかにより判断することができる。学習を継続する場合は、ステップＳ１２に戻る。ステップＳ１２からステップＳ１６までの処理は学習が終了するまで繰り返し行われる。
なお、ステップＳ１５はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図８、図９及び図１０を参照して説明した動作により、本実施形態では、加工精度を向上し、加工時間を短縮するための行動情報を生成するための価値関数Ｑを生成することができる、という効果を奏する。

次に、図１１のフローチャートを参照して、最適化行動情報出力部２０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部２０５は、価値関数記憶部２０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部２０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部２０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置１００の内部指令生成部１０２に対して出力する。

以上のように、数値制御装置１００が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、内部指令を生成することにより、工作機械は、ワークの加工精度を向上させつつ、加工時間をより短くなるように動作することができる、という効果を奏する。
上記のモータ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ(Read Only Memory)、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

数値制御システムの構成は図１の構成以外にも以下の構成がある。
＜機械学習装置がネットワークを介して数値制御装置の外部に設けられた変形例＞
図１２は数値制御システムの他の構成例を示すブロック図である。図１２に示す数値制御システム１０Ａが、図１に示した数値制御システム１０と異なる点は、ｎ（ｎは２以上の自然数）個の数値制御装置１００Ａ－１～１００Ａ－ｎがネットワーク４００を介して機械学習装置２００Ａ－１～２００Ａ－ｎが接続されていることである。図１２では、モータ３０１、３０２は省略されているが、モータ３０１、３０２は数値制御装置１００Ａ－１～１００Ａ－ｎのそれぞれに対して接続されている。機械学習装置２００Ａ－１～２００Ａ－ｎは図５に示した機械学習装置２００と同じ構成を有している。

ここで、数値制御装置１００Ａ－１と、機械学習装置２００Ａ－１とは１対１の組とされて、通信可能に接続されている。数値制御装置１００Ａ－２～１００Ａ－ｎと、機械学習装置２００Ａ－２～２００Ａ－ｎについても数値制御装置１００Ａ－１と機械学習装置２００Ａ－１と同様に接続される。図１２では、数値制御装置１００Ａ－１～１００Ａ－ｎと、機械学習装置２００Ａ－１～２００Ａ－ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、数値制御装置１００Ａ－１～１００Ａ－ｎと、機械学習装置２００Ａ－１～２００Ａ－ｎとのｎ個の組は、それぞれの組の数値制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これら数値制御装置１００Ａ－１～１００Ａ－ｎと機械学習装置２００Ａ－１～２００Ａ－ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

＜システム構成の自由度＞
上述した実施形態では、数値制御装置１００Ａ－１～１００Ａ－ｎと、機械学習装置２００Ａ－１～２００Ａ－ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習装置が複数の数値制御装置とネットワーク４００を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、１台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習装置の各機能を実現してもよい。

また、ｎ台の同じ型名、同一仕様、又は同一シリーズの数値制御装置１００Ａ－１～１００Ａ－ｎとそれぞれ対応するｎ個の機械学習装置２００Ａ－１～２００Ａ－ｎがあった場合に、各機械学習装置２００Ａ－１～２００Ａ－ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）本開示の一態様は、加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置である。
この機械学習装置によれば、内回り量を削減するとともに加工時間を短縮することができる。

（２）前記加工時間は前記位置情報を用いてカウントされる上記（１）に記載の機械学習装置。
この機械学習装置によれば、数値制御装置に加工時間をカウントする機能を設ける必要がなくなる。

（３）前記価値関数更新手段により更新された価値関数に基づいて、前記ｍ個以上のブロックの各ブロックの座標値を生成して出力する最適化行動情報出力手段を備えた上記（１）又は（２）に記載の機械学習装置。

（４）上記（１）から（３）のいずれかに記載の機械学習装置と、該機械学習装置によって、前記ｍ個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システム。
この数値制御システムによれば、内回り量を削減するとともに加工時間を短縮することができる。

（５）本開示の他の一態様は、加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
機械学習方法である。
この機械学習方法によれば、内回り量を削減するとともに加工時間を短縮することができる。

１０、１０Ａ数値制御システム
１００、１００Ａ－１～１００Ａ－ｎ数値制御装置
１０１指令解析部
１０２内部指令生成部
１０３補間部
１０４加減速制御部
１０５Ｘ軸サーボ制御部
１０６Ｙ軸サーボ制御部
２００機械学習装置
２００Ａ－１～２００Ａ－ｎ機械学習装置
２０１状態情報取得部
２０２学習部
２０３行動情報出力部
２０４価値関数記憶部
２０５最適化行動情報出力部
４００ネットワーク

Claims

加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記加工時間は前記位置情報を用いてカウントされる請求項１に記載の機械学習装置。
前記価値関数更新手段により更新された価値関数に基づいて、前記ｍ個以上のブロックの各ブロックの座標値を生成して出力する最適化行動情報出力手段を備えた請求項１又は２に記載の機械学習装置。
請求項１から３のいずれか１項に記載の機械学習装置と、該機械学習装置によって、前記ｍ個以上のブロックの各ブロックの座標値が機械学習される数値制御装置とを有する数値制御システム。
加工プログラムを解析し、該加工プログラムに２個のブロックからなるコーナー部を含む第１の指令が含まれる場合に、該２個のブロックを該２個よりも多いｍ個（ｍは自然数）以上のブロックに替えた第２の指令を生成する数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
前記第１の指令、前記ｍ個以上のブロックの各ブロックの座標値、及び前記加工プログラムを前記数値制御装置が実行することで得られる加工経路の位置情報を含む状態情報を、取得し、
前記状態情報に含まれる前記ｍ個以上のブロックの各ブロックの座標値の調整情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記第１の指令及び前記加工経路の位置情報を用いて算出される前記コーナー部の内回り量と、加工時間とに基づく、強化学習における報酬の値を求め、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、
機械学習方法。