JP2019021235A

JP2019021235A - 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法

Info

Publication number: JP2019021235A
Application number: JP2017141707A
Authority: JP
Inventors: 浩志松村; Hiroshi Matsumura
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2019-02-07
Anticipated expiration: 2037-07-21
Also published as: DE102018211682B4; DE102018211682A1; JP6608879B2; CN109283887A; CN109283887B; US20190025794A1; US10921774B2

Abstract

【課題】機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間をより短縮する。【解決手段】加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量の条件が設定された所定の加工プログラムを数値制御装置が実行することで、工作機械に切削加工を行わせることにより、加工プログラムに設定された条件と、ワークを切削加工するサイクルタイムと、ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段と、状態情報に含まれる条件の修正情報を含む行動情報を数値制御装置に出力する行動情報出力手段と、状態情報に含まれるサイクルタイムと加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段と、報酬出力手段により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、を備える。【選択図】図４

Description

本発明は、機械学習装置、数値制御装置、数値制御システム及び機械学習方法に関する。

ねじ穴加工の一つにスレッドミリング加工がある。スレッドミリング加工は、ドリルでワークに下穴をあけた後、タップではなくスレッドミルという工具を用いて、ヘリカル補間により下穴の側面加工を行い、ねじ山を削りだす加工である。
スレッドミルを用いた加工は、タップを用いた加工と比較して以下の特徴がある。
（１）雌ねじ内径より小さな径の工具を使用した加工であるため、切粉を噛みにくく、その結果、加工中に急に折れることが少ない。
（２）タップのように回転と刃当たり送りとを同期する必要がなく、回転数と刃当たり送りとを自由に調整可能である。

一方、機械加工の加工精度を向上させる技術が、特許文献１及び２に開示されている。
特許文献１は、１個目のワークを加工して計測、評価し、その結果を用いて加工プログラムの経路を修正することで、２個目以降のワークの加工精度を向上させる技術を開示している。また、特許文献２は、モータの負荷、温度、振動から機械に異常が発生したかどうかを学習し、送り速度や主軸の回転数などの加工条件を調整することで加工精度を向上させる技術を開示している。

特開平０８−１８５２１１号公報特許第６０６３０１６号明細書

スレッドミルでの加工は、工具及びワークの母材を考慮した上で、ねじの精度を維持しつつ最速の加工時間を得るには、工具の回転、及び工具又はワークの移動についての適正な加工条件を調整することが求められる。そのために、調整に時間がかかる課題がある。
また、スレッドミリング加工に限らず、内径加工、外形加工、及び面加工も同様に、加工精度を維持しつつ最速の加工時間を得るためには、工具の回転、及び工具又はワークの移動についての適切な加工条件を調整することが求められる。

本発明は、機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間を短縮することができる機械学習装置、数値制御装置、数値制御システム、及び機械学習方法を提供することを目的とする。

（１）本発明に係る機械学習装置は、加工プログラムに基づいて工作機械（例えば、後述の工作機械１００）を動作させる数値制御装置（例えば、後述の数値制御装置２００）に対して機械学習を行う機械学習装置（例えば、後述の機械学習装置３００）であって、
主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段（例えば、後述の状態情報取得部３０１）と、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段（例えば、後述の行動情報出力部３０３）と、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段（例えば、後述の報酬出力部３０２１）と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段（例えば、後述の価値関数更新部３０２２）と、
を備える機械学習装置である。

（２）上記（１）の機械学習装置において、前記機械学習の最大試行回数を設けずに、前記機械学習を続けてもよい。

（３）上記（１）又は（２）の機械学習装置において、前記機械学習は、前記工作機械のスレッドミリング加工、内径加工、外形加工、面加工のうちのいずれかにおいて行われてもよい。

（４）上記（１）から（３）のいずれかの機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を生成して出力する最適化行動情報出力手段（例えば、後述の最適化行動情報出力部３０５）を備えてもよい。

（５）本発明に係る数値制御システムは、上記（１）から（４）のいずれかの機械学習装置と、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量が機械学習される数値制御装置とを有する数値制御システムである。

（６）本発明に係る数値制御装置は、上記（１）から（４）のいずれかの機械学習装置を含み、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量を機械学習する数値制御装置である。

（７）本発明に係る機械学習方法は、加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得し、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を算出し、
算出された前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、
機械学習方法である。

本発明によれば、機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間を短縮することができる。
また、状況に応じて適正な加工条件が求まることにより、長時間使用した工具でも加工精度が維持されるため、工具寿命を延長することができる。

スレッドミリング加工の説明図である。本発明の第１の実施形態の数値制御システムと工作機械とを示すブロック図である。本発明の第１の実施形態の数値制御システムの数値制御装置、及び工作機械の構成を示すブロック図である。機械学習装置の構成を示すブロック図である。本発明の第１の実施形態におけるＱ学習時の機械学習装置の動作を示すフローチャートである。図５のステップＳ１５のサイクルタイムに基づく報酬の算出方法を示すフローチャートである。図５のステップＳ１５の加工精度に基づく報酬の算出方法を示すフローチャートである。最適化行動情報出力部による最適化行動情報の生成時の動作を示すフローチャートである。外形加工の説明図である。本発明の第１の実施形態におけるＱ学習時の機械学習装置の動作における、面精度に基づく報酬の算出方法を示すフローチャートである。面加工の説明図である。

以下、本発明の実施形態について図面を用いて詳細に説明する。
（第１の実施形態）
本実施形態の数値制御システムは数値制御装置と機械学習装置とを備えており、工作機械によりスレッドミリング加工を行う場合に好適に用いられる。本実施形態ではスレッドミリング加工を例にとって説明するが、スレッドミリング加工に特に限定されるものではない。
図１に示すように、スレッドミルでの加工は、ドリルでワークＷ１に下穴Ｈをあけた後、スレッドミルＴ１を用いて、ヘリカル補間により下穴Ｈの側面加工を行い、ねじ山を削りだす加工である。スレッドミルでの加工では、工具及びワークの母材を考慮した上で、ねじの精度を維持しつつより短い加工時間を得るには、図１に示すように、工具となるスレッドミルＴ１を回転させる主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への１回の切り込み量を調整することが求められる。主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への１回の切り込み量は、ワークの加工形状、ワークの材質、工具の外形（直径、刃数等）、及び工具の材質等の条件のよって変わる。

図２は本発明の第１の実施形態の数値制御システムと工作機械とを示すブロック図である。数値制御システム１０は、図２に示すように、ｎ台の数値制御装置２００−１〜２００−ｎと、ネットワーク４００と、ネットワーク４００を介して数値制御装置２００−１〜２００−ｎと接続される機械学習装置３００−１〜３００−ｎとを備えている。ｎ台の工作機械１００−１〜１００−ｎは、ｎ台の数値制御装置２００−１〜２００−ｎと接続される。なお、ｎは任意の自然数である。

工作機械１００−１と数値制御装置２００−１とは１対１の組とされて、通信可能に接続されている。工作機械１００−２〜１００−ｎと数値制御装置２００−２〜１００−ｎについても工作機械１００−１と数値制御装置２００−１と同様に接続される。工作機械１００−１〜１００−ｎと数値制御装置２００−１〜２００−ｎとのｎ個の組は、接続インタフェースを介して直接接続されても、又はＬＡＮ（Local Area Network）などのネットワークを介して接続されてもよい。工作機械１００−１〜１００−ｎと数値制御装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

また、数値制御装置２００−１と機械学習装置３００−１とは１対１の組とされて、通信可能に接続されている。数値制御装置２００−２〜２００−ｎと機械学習装置３００−２〜３００−ｎについても数値制御装置２００−１と機械学習装置３００−１と同様に接続される。図１では、数値制御装置２００−１〜２００−ｎと機械学習装置３００−１〜３００−ｎとのｎ個の組は、ネットワーク４００を介して接続されているが、数値制御装置２００−１〜２００−ｎと機械学習装置３００−１〜３００−ｎとのｎ個の組は、それぞれの組の数値制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。なお、ネットワーク４００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク４００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

次に、工作機械１００−１〜１００−ｎと、数値制御システム１０に含まれる、数値制御装置２００−１〜２００−ｎ及び機械学習装置３００−１〜３００−ｎの構成について説明する。
図３は本発明の第１の実施形態の数値制御システム１０の数値制御装置２００、及び工作機械１００の構成を示すブロック図である。図４は機械学習装置３００の構成を示すブロック図である。図３の工作機械１００、図３の数値制御装置２００、及び図４に示す機械学習装置３００は例えば、図２に示す工作機械１００−１、数値制御装置２００−１、及び機械学習装置３００−１にそれぞれ対応している。工作機械１００−２〜１００−ｎ、数値制御装置２００−２〜２００−ｎ、及び機械学習装置３００−２〜３００−ｎも同様な構成を有している。

最初に、工作機械１００について説明する。
工作機械１００は、数値制御装置２００に設定された加工プログラムに基づいて生成される指令に従って、スレッドミリング加工を行う。
工作機械は、主軸モータ１０１と、送り軸サーボモータ１０２と、サイクルカウンタ１０３と、を備えている。

主軸モータ１０１は、スレッドミルを回転させるためのスピンドルモータである。主軸モータ１０１の回転軸に、スレッドミルが取り付けられている。

送り軸サーボモータ１０２はスレッドミルをワークの下穴に対してらせん状に移動させるサーボモータである。図３に示す送り軸サーボモータ１０２は、Ｘ軸方向、Ｙ軸方向及びＺ軸方向に対して設けられた３つの送り軸サーボモータからなる。Ｘ軸方向、Ｙ軸方向、及びＺ軸方向の送り軸サーボモータ１０２の回転軸を回転させることで、送り軸サーボモータ１０２に接続されるボールねじ等により、スレッドミルがらせん状に移動する。ここでは、送り軸サーボモータ１０２はスレッドミルをらせん状に駆動しているが、Ｘ軸方向及びＹ軸方向に対して設けられた送り軸サーボモータがワークを載置したテーブルをＸ軸方向及びＹ軸方向に移動させる一方、Ｚ軸方向に対して設けられた送り軸サーボモータがスレッドミルをＺ軸方向に移動させて、スレッドミルをワークに対して相対的にらせん状に移動させてもよい。

サイクルカウンタ１０３は、工作機械１００がスレッドミリング加工を行った場合に、このスレッドミリング加工に要した加工時間であるサイクルタイムを計測するためのカウンタである。サイクルカウンタ１０３が計測したサイクルタイムは、数値制御装置２００に対して出力される。

数値制御装置２００は、工作機械１００を制御することにより、工作機械１００にスレッドミリング加工を行わせる装置である。また、数値制御装置２００は、状態情報（「ステータス」ともいう）を機械学習装置３００に対して送信する。更に、数値制御装置２００は、行動情報（「アクション」）ともいう）を機械学習装置３００から受信する。これら各情報の詳細については、機械学習装置３００の説明において詳述する。

数値制御装置２００は、主軸モータ制御部２０１と、送り軸サーボモータ制御部２０２と、数値制御情報処理部２０３と、記憶部２０４と、プログラム修正部２０５と、を備える。

主軸モータ制御部２０１は、数値制御情報処理部２０３からの動作指令に基づいてトルク指令を生成し、生成したトルク指令を工作機械１００に送出することにより、工作機械１００の主軸モータ１０１の回転を制御する。また、送り軸サーボモータ制御部２０２は、数値制御情報処理部２０３からの位置指令に基づいてトルク指令を生成し、生成したトルク指令を工作機械１００に送出することにより、工作機械１００のＸ軸方向、Ｙ軸方向、及びＺ軸方向の送り軸サーボモータ１０２の回転を制御する。送り軸サーボモータ制御部２０２は、Ｘ軸方向、Ｙ軸方向及びＺ軸方向に対して設けられた３つの送り軸サーボモータを制御する３つの送り軸サーボモータ制御部からなる。

数値制御情報処理部２０３は、記憶部２０４に記憶された加工プログラムに基づいて、主軸モータ制御部２０１に動作指令、送り軸サーボモータ制御部２０２に位置指令を送る。また、数値制御情報処理部２０３は、工作機械１００のサイクルカウンタ１０３から出力されるサイクルタイムと、スレッドミリング加工されたワークの加工精度とを取得して、状態情報として機械学習装置３００へ送信する。ワークの加工精度は、３次元測定機などで測定され、数値制御情報処理部２０３に入力される。ワークの加工精度の測定機能を工作機械１００が持っていてもよい。

ワークに作製されたねじの加工精度は、加工精度が適正範囲かどうかの判断結果を含む。加工精度が適正範囲かどうかは、３次元測定機などで判断することができるが、例えば、スレッドミリング加工で加工されたねじ穴に、ねじゲージの通り側が通るかどうか、止まり側が２回転を超えて入らないかどうかを観測者又はロボットが試行して判断することもできる。ねじ穴が小さいために適正範囲外であれば削り残り、ねじ穴が大きくて適正範囲外であれば削りすぎと判断する。また、加工精度が適正範囲にある場合、更に、ワークに作製されたねじの加工精度は、例えば雌ねじの公差域クラスがJIS B0209-1 表８に記載された、はめあい区分「精」、「中」、「粗」により評価した評価結果を含むようにしてもよい。はめあい区分については、これは３次元測定機などで測定される。はめあい区分は、「精」、「中」、「粗」の順に加工精度が高い。

また、数値制御情報処理部２０３は、加工プログラムで設定された、主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を状態情報として機械学習装置３００へ送信する。

プログラム修正部２０５は、加工プログラムを直接修正する。具体的には、プログラム修正部２０５は、加工プログラムで記述された、主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を、機械学習装置３００から出力される行動情報、及び最適化行動情報に基づいて、プログラムコードを直接修正する。

以上、工作機械１００及び数値制御装置２００の構成について説明したが、上述した構成は本実施形態の動作に特に関連する部分である。工作機械１００及び数値制御装置２００の各構成の詳細、例えば送り軸サーボモータ制御部に対して位置・速度フィードバックを行うための位置・速度検出器や、動作指令を増幅するモータ駆動アンプや、ユーザの操作を受け付けるための操作盤等は当業者によく知られているので詳細な説明及び図示を省略する。

＜機械学習装置３００＞
機械学習装置３００は、数値制御装置２００が加工プログラムを実行することで、工作機械１００を動作させたときの、主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を強化学習する装置である。

機械学習装置３００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習装置３００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、加工精度を維持しつつ、サイクルタイムを短縮するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数式１（以下に数１として示す）により表すことができる。

上記の数式１において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式１は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

以上説明をしたＱ学習を機械学習装置３００が行う。具体的には、機械学習装置３００は、数値制御装置２００の加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量と、サイクルタイム及びワークの加工精度とを状態ｓとし、当該状態ｓに係る主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の調整を行動ａとして、選択する価値関数Ｑを学習する。

機械学習装置３００は、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量と、加工プログラムを実行することで得られる、サイクルタイム及びワークの加工精度とを含む状態情報ｓを観測して、行動ａを決定する。機械学習装置３００は、行動ａをするたびに報酬が返ってくる。機械学習装置３００は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、機械学習装置３００は、加工プログラムを実行することで取得される、サイクルタイム及びワークの加工精度を含む状態ｓに対して、最適な行動ａ（すなわち、最適な主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量）を選択することが可能となる。

すなわち、機械学習装置３００により学習された価値関数Ｑに基づいて、或る状態ｓに係る、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量に対して適用される行動ａのうち、価値関数Ｑの値が最大となるような行動ａを選択することで、サイクルタイムがより短く、ワークの加工精度がより高くなるような行動ａ（すなわち、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量）を選択することが可能となる。

図４は本発明の第１の実施形態の機械学習装置３００を示すブロック図である。
上述した強化学習を行うために、図４に示すように、機械学習装置３００は、状態情報取得部３０１、学習部３０２、行動情報出力部３０３、価値関数記憶部３０４、最適化行動情報出力部３０５、及び制御部３０６を備える。学習部３０２は報酬出力部３０２１、価値関数更新部３０２２、及び行動情報生成部３０２３を備える。制御部３０６は状態情報取得部３０１、学習部３０２、行動情報出力部３０３、及び最適化行動情報出力部３０５の動作を制御する。

状態情報取得部３０１は、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量と、加工プログラムを実行することで得られる、サイクルタイム及びワークの加工精度とを含む状態ｓを、数値制御装置２００から取得する。この状態情報ｓは、Ｑ学習における、環境状態ｓに相当する。
状態情報取得部３０１は、取得した状態情報ｓを学習部３０２に対して出力する。
なお、最初にＱ学習を開始する時点での加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量は、予めユーザが設定する。主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への１回の切り込み量は、ワークの加工形状、ワークの材質、工具の外形（直径、刃数等）、及び工具の材質等の条件のよって変わるので、これらの条件に基づいてユーザが設定する。本実施形態では、機械学習装置３００が、ユーザが設定した主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を、強化学習により最適なものに調整する。

学習部３０２は、或る状態情報（環境状態）ｓの下で、ある行動ａを選択する場合の価値関数Ｑ（ｓ，ａ）を学習する部分である。具体的には、学習部３０２は、報酬出力部３０２１、価値関数更新部３０２２及び行動情報生成部３０２３を備える。

報酬出力部３０２１は、或る状態ｓの下で、行動ａを選択した場合の報酬を算出する部分である。報酬は複数の評価項目に基づいて算出してもよい。また複数の評価項目に基づいて算出する報酬に重み付けすることにより全体の報酬を算出してもよい。本実施形態では、サイクルタイム及び加工精度に基づいて報酬を算出する。

まず、サイクルタイムに基づく報酬の算出について説明する。
行動ａにより状態ｓから状態ｓ´に遷移した場合に、状態ｓ及び状態ｓ´における加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量に基づいて動作した工作機械１００のサイクルタイムの値を値Ｔ（ｓ）及び値Ｔ（ｓ´）とする。
報酬出力部３０２１は、以下のようにサイクルタイムに基づく報酬を算出する。
値Ｔ（ｓ´）＞値Ｔ（ｓ）の場合は、報酬を負の値とする。
値Ｔ（ｓ´）＝値Ｔ（ｓ）の場合は、報酬をゼロとする。
値Ｔ（ｓ´）＜値Ｔ（ｓ）の場合は、報酬を正の値とする。
例えば、サイクルタイムに基づく報酬の値は、サイクルタイム値が長くなった場合は−５、サイクルタイム値が変わらない場合は＋５、サイクルタイム値が短くなった場合は＋１０とすることができる。
なお、報酬出力部３０２１は、値Ｔ（ｓ´）＝値Ｔ（ｓ）の場合に報酬を正の値とし、値Ｔ（ｓ´）＜値Ｔ（ｓ）の場合の報酬を、値Ｔ（ｓ´）＝値Ｔ（ｓ）の場合の報酬よりも大きい正の値としてもよい。

また、行動ａを実行後の状態ｓ´のサイクルタイムが、前の状態ｓにおけるサイクルタイムより長くなった場合（値Ｔ（ｓ´）＞値Ｔ（ｓ））の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりサイクルタイムが長くなった度合いに応じて負の値が大きくなるようにしてもよい。逆に、行動ａを実行後の状態ｓ´のサイクルタイムが、前の状態ｓにおけるサイクルタイムより短くなった場合（値Ｔ（ｓ´）＜値Ｔ（ｓ））の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりサイクルタイムが短くなった度合いに応じて正の値が大きくなるようにしてもよい。

次に、加工精度に基づく報酬の算出について説明する。
行動ａにより状態ｓから状態ｓ´に遷移した場合に、状態ｓ´における加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量に基づいて動作した工作機械１００によって作製されたワークの加工精度に基づいて報酬を決定する。

ワークの加工精度に含まれる、加工精度が適正範囲かどうかの判断結果に基づいて、加工精度が適正範囲外である場合は、報酬を負の値とする。適正範囲外は削り残り又は削りすぎの場合である。ワークに作製されたねじの加工精度が適正範囲外の場合の報酬の負の値の絶対値は、加工精度が適正範囲外の場合が選択されないように、全体の報酬が大きな負の値になるような値とすることが望ましい。これは、加工精度が適正範囲外となることは、削りすぎの場合には再生することができず、削り残りの場合には再度の切削を行う必要があることから、切削加工として好ましくない状態だからである。削りすぎの場合は再生することができないので、削りすぎの場合の報酬は削り残り場合の報酬よりも大きな負の値になるような値とすることができる。例えば、削りすぎの場合の報酬を−５０、削り残りの報酬を−１０とすることができる。

加工精度が適正範囲内である場合は、ワークの加工精度の、雌ねじの公差域クラスのはめあい区分が「精」、「中」、「粗」のどれに該当するかの評価結果に基づいて、例えば以下のように報酬を算出することができる。
はめあい区分が「粗」の場合は、報酬を正の第１の値とする。
はめあい区分が「中」の場合は、報酬を正の第１の値より大きい正の第２の値とする。
はめあい区分が「精」の場合は、報酬を正の第２の値より大きい正の第３の値とする。
なお、報酬の値の与え方はこれに限定されず、「精」、「中」、「粗」に係らず同じ正の値としてもよい。例えば、「精」、「中」、「粗」の場合の報酬を同じ＋１０とすることができる。また、「粗」の場合の報酬をゼロとし、「中」及び「精」の場合の報酬を同じ正の値としてもよい。

報酬出力部３０２１は、上記のように算出された、サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出する。全体の報酬を算出する場合、加算に限定されず、例えば、重み付け加算してもよく、また、サイクルタイムに基づく報酬と加工精度に基づく報酬との平均値を算出してもよい。全体の報酬を算出する方法は、サイクルタイムと加工精度との優先度に応じて適宜設定することができる。例えば、サイクルタイムを重視する場合には、サイクルタイムに基づく報酬に１を超える重み係数を掛けて）をかけて加工精度に基づく報酬に加算して重み付け加算することができる。

価値関数更新部３０２２は、状態ｓと、行動ａと、行動ａを状態ｓに適用した場合の状態ｓ´と、上記のようにして算出された全体の報酬の値と、に基づいてＱ学習を行うことにより、価値関数記憶部３０４が記憶する価値関数Ｑを更新する。
価値関数Ｑの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移する都度、即座に価値関数Ｑの更新を行うという学習方法である。また、バッチ学習とは、或る行動ａを現在の状態ｓに適用することにより、状態ｓが新たな状態ｓ´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Ｑの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Ｑの更新を行うという学習方法である。

行動情報生成部３０２３は、現在の状態ｓに対して、Ｑ学習の過程における行動ａを選択する。行動情報生成部３０２３は、Ｑ学習の過程において、数値制御装置２００の加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を修正する動作（Ｑ学習における行動ａに相当）を行わせるために、行動情報ａを生成して、生成した行動情報ａを行動情報出力部３０３に対して出力する。

より具体的には、行動情報生成部３０２３は、例えば、状態ｓに含まれる、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量に対して、行動ａにより、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を調整して増加又は減少させる。

行動情報生成部３０２３は、行動ａにより加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を調整して、状態ｓ´に遷移した場合に、サイクルタイムの状態（増減又は維持）、及び加工精度の状態（適正範囲かどうか、及びはめあい区分が「精」、「中」、「粗」のどれか）によって次の行動ａ´の加工条件（主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量）を選択してもよい。
例えば、サイクルタイムの減少によりプラスの報酬（正の値の報酬）が返り、且つ加工精度が適正範囲であり、はめあい区分が「精」であることによりプラスの報酬（正の値の報酬）が返った場合、次の行動ａ´としては、例えば、送り速度をインクレメンタルに増加させる、又はインクレメンタルに切り込み量を増加させ且つ切り込み回数を減少させる等、サイクルタイムがより小さくなるような行動ａ´を選択する方策を取るようにしてもよい。

また、状態ｓ´に遷移して、サイクルタイムの減少によりプラスの報酬（正の値の報酬）が返り、且つ加工精度が適正範囲であり、はめあい区分が「粗」である場合、次の行動ａ´としては、インクレメンタルに切り込み量を減少させ且つ切り込み回数を増加させる等、加工精度を向上させるような行動ａ´を選択する方策を取るようにしてもよい。

また、行動情報生成部３０２３は、現在の推定される行動ａの価値の中で、最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するグリーディ法や、ある小さな確率εでランダムに行動ａ´選択し、それ以外では最も価値関数Ｑ（ｓ，ａ）の高い行動ａ´を選択するεグリーディ法といった公知の方法により、行動ａ´を選択する方策を取るようにしてもよい。

行動情報出力部３０３は、学習部３０２から出力される行動情報ａを数値制御装置２００に対して送信する部分である。行動情報出力部３０３は、例えば行動情報としての、主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の値を特定のマクロ変数へ適用したマクロ変数ファイルを生成し、生成したマクロ変数ファイルを、ネットワーク４００を経由して数値制御装置２００のプログラム修正部２０５に出力するようにしてもよい。プログラム修正部２０５は受信したマクロ変数ファイルを用いて行動情報（主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量）を記憶部２０４に記憶された加工プログラムの特定のマクロ変数の値に反映する。数値制御情報処理部２０３は、特定のマクロ変数を含んだ加工プログラムを実行する。なお、マクロ変数ファイルを生成し、このマクロ変数ファイルを用いて行動情報を加工プログラムの特定のマクロ変数の値に反映させる方法は、行動情報を加工プログラムに反映させるための方法の一例であって、これに限定されるものではない。

価値関数記憶部３０４は、価値関数Ｑを記憶する記憶装置である。価値関数Ｑは、例えば状態ｓ、行動ａ毎にテーブル（以下、行動価値テーブルと呼ぶ）として格納してもよい。価値関数記憶部３０４に記憶された価値関数Ｑは、価値関数更新部３０２２により更新される。また、価値関数記憶部３０４に記憶された価値関数Ｑは、他の機械学習装置３００との間で共有されるようにしてもよい。価値関数Ｑを複数の機械学習装置３００で共有するようにすれば、各機械学習装置３００にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。

最適化行動情報出力部３０５は、価値関数更新部３０２２がＱ学習を行うことにより更新した価値関数Ｑに基づいて、価値関数Ｑ（ｓ，ａ）が最大となる動作を工作機械１００に行わせるための行動情報ａ（以下、「最適化行動情報」と呼ぶ）を生成する。
より具体的には、最適化行動情報出力部３０５は、価値関数記憶部３０４が記憶している価値関数Ｑを取得する。この価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。そして、最適化行動情報出力部３０５は、価値関数Ｑに基づいて、行動情報を生成し、生成した行動情報をプログラム修正部２０５に対して出力する。この最適化行動情報には、行動情報出力部３０３がＱ学習の過程において出力する行動情報と同様に、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を修正する情報が含まれる。

プログラム修正部２０５が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、動作指令を生成することにより、工作機械１００は、加工精度を向上させつつ加工サイクルタイムがより短くなるように動作することができる。

以上、数値制御装置２００及び機械学習装置３００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、数値制御装置２００及び機械学習装置３００のそれぞれは、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、数値制御装置２００及び機械学習装置３００のそれぞれは、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、数値制御装置２００及び機械学習装置３００のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習装置３００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

次に、図５、図６及び図７のフローチャートを参照して本実施形態におけるＱ学習時の機械学習装置３００の動作について説明をする。図５は本実施形態におけるＱ学習時の機械学習装置３００の動作を示すフローチャート、図６は図５のステップＳ１５のサイクルタイムに基づく報酬の算出方法を示すフローチャート、図７は図５のステップＳ１５の加工精度に基づく報酬の算出方法の一部を示すフローチャートである。

まず、ステップＳ１１において、制御部３０６は、試行回数を１として状態情報取得部３０１に状態情報の取得を指示する。

ステップＳ１２において、状態情報取得部３０１が数値制御装置２００から最初の状態情報を取得する。取得した状態情報は、価値関数更新部３０２２及び行動情報生成部３０２３に対して出力される。上述したように、この状態情報は、Ｑ学習における状態ｓに相当する情報であり、ステップＳ１２時点での、加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の値、これらの値に設定された加工プログラムに基づいて加工処理した場合のサイクルタイム、及びワークの加工精度が含まれる。なお、最初にＱ学習を開始する時点での加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の設定値は、予めユーザが生成するようにする。本実施形態では、ユーザが作成した加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の値を、強化学習により最適なものに調整する。

ステップＳ１３において、行動情報生成部３０２３は新たな行動情報ａを生成し、生成した新たな行動情報ａを、行動情報出力部３０３を介して数値制御装置２００のプログラム修正部２０５に対して出力する。行動情報を受信したプログラム修正部２０５は、受信した行動情報に基づいて現在の状態ｓに係る加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量を修正して状態ｓ´とし、数値制御情報処理部２０３は修正された状態ｓ´により、工作機械１００を駆動させて切削加工を行う。

ステップＳ１４において、状態情報取得部３０１は、数値制御装置２００から取得した新たな状態ｓ´に相当する状態情報を取得する。ここで、新たな状態情報には、状態ｓ´に係る加工プログラムの主軸回転数、送り速度、切り込み回数、及び１回分の切り込み量の値と、状態ｓ´に係る加工処理を行うために要したサイクルタイムと、状態ｓ´に係る加工処理により作成されたワークの加工精度とを含む。状態ｓ´に係る加工処理を行うために要したサイクルタイムと、状態ｓ´に係る加工処理により作成されたワークの加工精度とは判定情報となる。状態情報取得部３０１は学習部３０２に対して取得した状態情報を出力する。

ステップＳ１５において、報酬出力部３０２１は入力された判定情報、すなわちサイクルタイム及び加工精度に基づいて報酬を算出する。ステップＳ１５はサイクルタイムに基づいて報酬を算出するステップと、加工精度に基づいて報酬を算出するステップと、サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出するステップとを含む。

サイクルタイムに基づいて報酬を算出するステップは、図６のステップＳ１５−１に示される。ステップＳ１５−１に示すように、報酬出力部３０２１は、まず、ステップＳ１５１で、状態ｓ´に係る加工処理を行うために要したサイクルタイム値Ｔ（ｓ´）が状態ｓに係る加工処理を行うために要したサイクルタイム値Ｔ（ｓ）より長いか、短いか、変化がないかを判断する。
サイクルタイム値Ｔ（ｓ´）＞サイクルタイム値Ｔ（ｓ）の場合は、ステップＳ１５２で報酬を負の値とする。サイクルタイム値Ｔ（ｓ´）＝サイクルタイム値Ｔ（ｓ）の場合は、ステップＳ１５３で報酬をゼロとする。サイクルタイム値Ｔ（ｓ´）＜サイクルタイム値Ｔ（ｓ）の場合は、ステップＳ１５４で報酬を正の値とする。

加工精度に基づいて報酬を算出するステップは、図７のステップＳ１５−２に示される。まず、ステップＳ１５５で、ワークに作製されたねじの加工精度が適正範囲かどうかを判断する。加工精度が適正範囲外である場合は報酬を負の値とする。適正範囲外には削りすぎと削り残りとがある。ここでは、適正範囲外の削りすぎの場合は、ステップＳ１５６で報酬を負の第１の値とし、削り残りの場合は、ステップＳ１５７で報酬を負の第１の値よりも小さい負の第２の値としている。削りすぎの場合の報酬を、削り残りの場合の報酬より大きい負の値としたのは、削りすぎは再生することができないので、削り残りよりも好ましくないからである。

加工精度が適正範囲内である場合は、報酬出力部３０２１は、ステップＳ１５８で、ワークの加工精度の、雌ねじの公差域クラスのはめあい区分が「精」、「中」、「粗」のどれに該当するかを判断する。はめあい区分が「粗」であれば、ステップＳ１５９で、報酬を正の第１の値とする。はめあい区分が「中」であれば、ステップＳ１６０で、報酬を正の第１の値より大きい正の第２の値とする。はめあい区分が「精」であれば、ステップＳ１６１で、報酬を正の第２の値より大きい正の第３の値とする。既に説明したように、報酬の値の与え方はこれに限定されない。

サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出するステップは、図７のステップＳ１５−３に示される。ステップＳ１５−３は、サイクルタイムに基づく報酬と加工精度に基づく報酬とを、例えば、加算したり、重み付け加算したり、平均値を求めたりすることで、全体の報酬を算出するステップである。

ステップＳ１５が終了すると、ステップＳ１６において、全体の報酬の値に基づいて、価値関数更新部３０２２が、価値関数記憶部３０４が記憶している価値関数Ｑを更新する。次に、ステップＳ１７において、制御部３０６は最大試行回数に到達したかどうかを判断する。最大試行回数は予め設定しておく。最大試行回数に到達していなければ、ステップＳ１８で試行回数をカウントアップして、ステップＳ１３に戻る。ステップＳ１３からステップＳ１８までの処理は最大試行回数に到達するまで繰り返し行われる。なお、ここでは試行回数が最大試行回数に到達したときに処理を終了させているが、ステップＳ１３からステップＳ１８の処理を所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップＳ１６はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。

以上、図５、図６及び図７を参照して説明した動作により、本実施形態では、ワークの加工精度を向上させつつ、サイクルタイムを短縮するための行動情報を生成するための価値関数Ｑを生成することができる、という効果を奏する。

次に、図８のフローチャートを参照して、最適化行動情報出力部３０５による最適化行動情報の生成時の動作について説明をする。
まず、ステップＳ２１において、最適化行動情報出力部３０５は、価値関数記憶部３０４に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部３０２２がＱ学習を行うことにより更新したものである。

ステップＳ２２において、最適化行動情報出力部３０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置２００のプログラム修正部２０５に対して出力する。

以上のように、数値制御装置２００が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、動作指令を生成することにより、工作機械１００は、ワークの加工精度を向上させつつ、当該加工サイクルタイムがより短くなるように動作することができる、という効果を奏する。

本実施形態の効果について実施例に基づいて以下に説明する。
（実施例１）
実施例１は、最大試行回数を設けて例えば主軸速度及び／又は送り速度を速くするような行動ａを主に選択する方策をとる機械学習を行った後に、主軸速度Ｓ、送り速度Ｆが速くなり、サイクルタイムが短くなった場合の実施例である。
図２〜図４に示した、工作機械１００、数値制御装置２００及び機械学習装置３００を用いて、図５に示した機械学習動作に基づいて機械学習を行った。機械学習における報酬の値は以下の通りとした。
サイクルタイムに基づく報酬の値は、サイクルタイム値が長くなった場合は−５、サイクルタイム値が変わらない場合は＋５、サイクルタイム値が短くなった場合は＋１０とした。加工精度に基づく報酬の値は、加工精度が適正範囲となった場合に＋１０とした。すなわち、はめあい区分「精」、「中」、「粗」に係らず、報酬を同じ＋１０とした。

機械学習の結果、機械学習前の出力データが、主軸速度Ｓ：７５８［ｒｅｖ／ｍｉｎ］、送り速度Ｆ：４５５［ｒｅｖ／ｍｉｎ］であったのが、機械学習後の出力データが、主軸速度Ｓ：９０９［ｒｅｖ／ｍｉｎ］、送り速度Ｆ：６８２［ｒｅｖ／ｍｉｎ］となった。

（実施例２）
実施例２は、最大試行回数を設けて、例えば切り込み量Ｊの増加及び／又は切り込み回数の減少させるような行動ａを主に選択する方策をとる機械学習を行った後に、切り込み量Ｊが増加し、切り込み回数Ｌが少なくなり、加工経路が短くなった結果、サイクルタイムが短くなった場合の実施例である。
実施例２においても、実施例１と同様に、図２〜図４に示した、工作機械１００、数値制御装置２００及び機械学習装置３００を用いて、図５に示した機械学習動作に基づいて機械学習を行った。サイクルタイムに基づく報酬の値及び加工精度に基づく報酬の値も実施例１と同様とした。

機械学習の結果、径方向の総切込み量１．２［ｍｍ］の場合に、機械学習前の出力データが、一回の切り込み量Ｊ：０．３［ｍｍ］、切り込み回数Ｌ：４［回］であったのが、機械学習後の出力データが、一回の切り込み量Ｊ：０．４［ｍｍ］、切り込み回数Ｌ：３［回］となった。

＜変形例＞
なお、以上説明した実施形態では、最大試行回数を決めていたが、最大試行回数を決めずに機械学習を続けてもよい。最大試行回数を決めなければ、状況に応じて加工精度が向上するように加工条件が調整されるため、工具が古くなり切れ味が悪くなっても、その時点での最適な加工条件で加工することが可能となる。そのため工具寿命の延長に効果がある。

最大試行回数を決めずに機械学習を続け場合の効果について実施例に基づいて以下に説明する。
本実施例は、最大試行回数を決めずに機械学習を行い、切り込み量Ｊが減少しても、主軸速度Ｓ，送り速度Ｆが調整された実施例である。
本実施例においても、実施例１と同様に、図２〜図４に示した、工作機械１００、数値制御装置２００及び機械学習装置３００を用いて、図５に示した機械学習動作に基づいて機械学習を行った。サイクルタイムに基づく報酬の値及び加工精度に基づく報酬の値も実施例１と同様とした。実施例３では最大試行回数を設けないため図５のステップＳ１７及びＳ１８を設けず、ステップＳ１２〜ステップＳ１６を繰り返し行った。
機械学習の結果、ある時点で、主軸速度Ｓ：７５８［ｒｅｖ／ｍｉｎ］、送り速度Ｆ：４５５［ｒｅｖ／ｍｉｎ］、一回の切り込み量Ｊ：０．４［ｍｍ］、切り込み回数Ｌ：３［回］であったのが、機械学習を続けたその後の時点で、主軸速度Ｓ：９０９［ｒｅｖ／ｍｉｎ］、送り速度Ｆ：６８２［ｒｅｖ／ｍｉｎ］、一回の切り込み量Ｊ：０．３［ｍｍ］、切り込み回数Ｌ：４［回］となった。

＜他の変形例＞
以上説明した実施形態では、工具半径を含めた座標で加工プログラムを作成してしまうと、違う工具を使用することになってしまった場合に、全ての座標を修正しなければならなくなる。工具側の磨耗などで経路を補正する必要が生ずる場合もある。このため、加工プログラムには工具径補正という機能が設けられている。上述した実施形態において、１回当たりの切込み量に変えて工具径補正量を調整してもよく、又は１回当たりの切込み量に加えて工具径補正量を調整してもよい。工具径補正量は工具補正量に対応する。

上述した実施形態では、工作機械１００として、スレッドミリング加工を行う工作機械を例として挙げたが、これに限定されず、内径加工、外形加工、面加工などの加工を行う工作機械を工作機械１００としてもよい。以下、外形加工及び面加工の例を第２及び第３の実施形態として説明する。

（第２の実施形態）
本発明の第２の実施形態は工作機械により外形加工を行う場合の数値制御システムについて説明する。本実施形態において用いられる数値制御装置及び機械学習装置は第１の実施形態で説明した数値制御装置及び機械学習装置と同じ構成なので説明を省略する。
図９は外形加工の説明図である。図９に示すように、ワークＷ２の外周を、工具Ｔ２を回転させつつ移動させて外形加工を行う。外形加工では、工具Ｔ２及びワークＷ２の母材を考慮した上で、ワークＷ２の外周の加工精度となる面精度を維持しつつより短い加工時間を得るには、図９に示すように、工具Ｔ２を回転させる主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への切り込み量を調整することが求められる。第２の実施形態での機械学習における状態情報は、ワークの加工精度が面精度である点を除いて第１の実施形態と同じである。面精度は３次元測定機などで測定される。面精度とは加工された面が目標とする表面からどの程度ずれているかを示す値である。

第２の実施形態におけるＱ学習時の機械学習装置３００の動作が第１の実施形態の動作と異なるのは、図７に示す加工精度に基づいて報酬を算出するステップＳ１５−２の代わりに図１０に示すステップＳ１５−４が用いられている点である。

ステップＳ１５−４に示すように、図４に示す報酬出力部３０２１は、まずステップＳ１６２において、状態ｓ´に係る加工処理で作製されたワークの面精度が、状態ｓに係る加工処理で作製されたワークの面精度より低いか、変化がないか、又は高いかを判断する。そして、面精度が低下した場合は、ステップＳ１６３で報酬を負の値とする。面精度が変化しない場合はステップＳ１６４で報酬をゼロとする。面精度が向上した場合は、ステップＳ１６５で報酬を正の値とする。

なお、報酬出力部３０２１は、面精度が変化しない場合に報酬を正の値とし、面精度が向上した場合の報酬を、面精度が変化しない場合の報酬よりも大きい正の値としてもよい。

また、行動ａを実行後の状態ｓ´に係る加工処理で作製されたワークの面精度が、前の状態ｓに係る加工処理で作製されたワークの面精度より低下した場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり面精度が低下する度合いに応じて負の値が大きくなるようにしてもよい。逆に、行動ａを実行後の状態ｓ´に係る加工処理で作製されたワークの面精度が、前の状態ｓに係る加工処理で作製されたワークの面精度より向上した場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり面精度が向上する度合いに応じて正の値が大きくなるようにしてもよい。

（第３の実施形態）
本発明の第３の実施形態は工作機械により面加工を行う場合の数値制御システムについて説明する。本実施形態において用いられる数値制御装置及び機械学習装置は第１の実施形態で説明した数値制御装置及び機械学習装置と同じ構成なので説明を省略する。
図１１は面加工の説明図である。面加工は、ワークＷ３の加工表面を、工具Ｔ３を回転させつつ直線移動させて面加工を行う。面加工では、工具Ｔ３及びワークＷ３の母材を考慮した上で、ワークＷ３の加工表面の加工精度となる面精度を維持しつつより短い加工時間を得るには、図１１に示すように、工具Ｔ３を回転させる主軸の主軸回転数、送り速度、工具の軸方向への切り込み回数、及び工具の軸方向への切り込み量を調整することが求められる。

第３の実施形態での機械学習における状態情報における、ワークの加工精度が面精度であり、切り込み回数と切り込み量とが工具径方向ではなく工具の軸方向である点を除いて第１の実施形態と同じである。面精度は３次元測定機などで測定される。面精度とは加工された面が目標とする表面からどの程度ずれているかを示す値である。第１の実施形態における工具径補正量は、第３の実施形態では工具長補正量となる。工具長補正量は工具補正量に対応する。
加工精度に基づいて報酬を算出するステップは、第２の実施形態のステップＳ１５−３と同じである。

以上、本発明の実施形態について説明したが、上記の数値制御装置及び機械学習装置のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の数値制御装置及び機械学習装置のそれぞれの協働により行なわれる機械学習方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。

また、上述した各実施形態は、本発明の好適な実施形態ではあるが、上記各実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

＜変形例＞
上述した第１から第３の実施形態では、機械学習装置３００を、工作機械１００や数値制御装置２００とは別体の装置により実現することを想定していたが、機械学習装置３００の機能の一部又は全部を工作機械１００や数値制御装置２００により実現するようにしてもよい。また、機械学習装置３００の最適化行動情報出力部３０５は機械学習装置３００とは別の最適化行動情報出力装置としてもよい。この場合、最適化行動情報出力装置は複数の機械学習装置３００に対して１つ又は複数設けて共通化してもよい。
また、上述した実施形態では、機械学習装置３００を、数値制御装置２００とは別体の装置により構成したが、機械学習装置３００の機能の一部又は全部を数値制御装置２００により実現するようにしてもよい。

＜システム構成の自由度＞
上述した実施形態では、機械学習装置３００と数値制御装置２００とが１対１の組として通信可能に接続されているが、例えば１台の機械学習装置３００が複数の数値制御装置２００とネットワーク４００を介して通信可能に接続され、各数値制御装置２００の機械学習を実施するようにしてもよい。
その際、機械学習装置３００の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置３００の各機能を実現してもよい。

また、複数の同じ型名、同一仕様、又は同一シリーズの数値制御装置２００−１〜２００−ｎとそれぞれ対応する複数の機械学習装置３００−１〜３００−ｎがあった場合に、各機械学習装置３００−１〜３００−ｎにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。

１０数値制御システム
１００、１００−１〜１００−ｎ工作機械
１０１主軸モータ
１０２送り軸サーボモータ
１０３サイクルカウンタ
２００、２００−１〜２００−ｎ数値制御装置
２０１主軸モータ制御部
２０２送り軸サーボモータ制御部
２０３数値制御情報処理部
２０４記憶部
３００、３００−１〜３００−ｎ機械学習装置
３０１状態情報取得部
３０２学習部
３０３行動情報出力部
３０４価値関数記憶部
３０５最適化行動情報出力部
４００ネットワーク

Claims

加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、
主軸回転数、送り速度、及び切り込み回数と、１回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段と、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。
前記機械学習の最大試行回数を設けずに、前記機械学習を続ける請求項１に記載の機械学習装置。
前記機械学習は、前記工作機械のスレッドミリング加工、内径加工、外形加工、面加工のうちのいずれかにおいて行われる請求項１又は２に記載の機械学習装置。
前記価値関数更新手段により更新された価値関数に基づいて、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を生成して出力する最適化行動情報出力手段を備えた請求項１から３のいずれか１項に記載の機械学習装置。
請求項１から４のいずれか１項に記載の機械学習装置と、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量が機械学習される数値制御装置とを有する数値制御システム。
請求項１から４のいずれか１項に記載の機械学習装置を含み、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量を機械学習する数値制御装置。
加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
主軸回転数、送り速度、切り込み回数、及び１回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記１回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得し、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を算出し、
算出された前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、
機械学習方法。