JP2019021235A - 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法 - Google Patents

機械学習装置、数値制御装置、数値制御システム、及び機械学習方法 Download PDF

Info

Publication number
JP2019021235A
JP2019021235A JP2017141707A JP2017141707A JP2019021235A JP 2019021235 A JP2019021235 A JP 2019021235A JP 2017141707 A JP2017141707 A JP 2017141707A JP 2017141707 A JP2017141707 A JP 2017141707A JP 2019021235 A JP2019021235 A JP 2019021235A
Authority
JP
Japan
Prior art keywords
machine learning
value
reward
tool
numerical control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017141707A
Other languages
English (en)
Other versions
JP6608879B2 (ja
Inventor
浩志 松村
Hiroshi Matsumura
浩志 松村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2017141707A priority Critical patent/JP6608879B2/ja
Priority to US16/031,279 priority patent/US10921774B2/en
Priority to DE102018211682.2A priority patent/DE102018211682B4/de
Priority to CN201810792076.0A priority patent/CN109283887B/zh
Publication of JP2019021235A publication Critical patent/JP2019021235A/ja
Application granted granted Critical
Publication of JP6608879B2 publication Critical patent/JP6608879B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/19Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by positioning or contouring control systems, e.g. to control position from one programmed point to another or to control movement along a programmed continuous path
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33034Online learning, training
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35349Display part, programmed locus and tool path, traject, dynamic locus
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/45Nc applications
    • G05B2219/45044Cutting
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/49Nc machine tool, till multiple
    • G05B2219/49065Execute learning mode first for determining adaptive control parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Numerical Control (AREA)
  • Automatic Control Of Machine Tools (AREA)

Abstract

【課題】機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間をより短縮する。【解決手段】加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量の条件が設定された所定の加工プログラムを数値制御装置が実行することで、工作機械に切削加工を行わせることにより、加工プログラムに設定された条件と、ワークを切削加工するサイクルタイムと、ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段と、状態情報に含まれる条件の修正情報を含む行動情報を数値制御装置に出力する行動情報出力手段と、状態情報に含まれるサイクルタイムと加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段と、報酬出力手段により出力される報酬の値と、状態情報と、行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、を備える。【選択図】図4

Description

本発明は、機械学習装置、数値制御装置、数値制御システム及び機械学習方法に関する。
ねじ穴加工の一つにスレッドミリング加工がある。スレッドミリング加工は、ドリルでワークに下穴をあけた後、タップではなくスレッドミルという工具を用いて、ヘリカル補間により下穴の側面加工を行い、ねじ山を削りだす加工である。
スレッドミルを用いた加工は、タップを用いた加工と比較して以下の特徴がある。
(1)雌ねじ内径より小さな径の工具を使用した加工であるため、切粉を噛みにくく、その結果、加工中に急に折れることが少ない。
(2)タップのように回転と刃当たり送りとを同期する必要がなく、回転数と刃当たり送りとを自由に調整可能である。
一方、機械加工の加工精度を向上させる技術が、特許文献1及び2に開示されている。
特許文献1は、1個目のワークを加工して計測、評価し、その結果を用いて加工プログラムの経路を修正することで、2個目以降のワークの加工精度を向上させる技術を開示している。また、特許文献2は、モータの負荷、温度、振動から機械に異常が発生したかどうかを学習し、送り速度や主軸の回転数などの加工条件を調整することで加工精度を向上させる技術を開示している。
特開平08−185211号公報 特許第6063016号明細書
スレッドミルでの加工は、工具及びワークの母材を考慮した上で、ねじの精度を維持しつつ最速の加工時間を得るには、工具の回転、及び工具又はワークの移動についての適正な加工条件を調整することが求められる。そのために、調整に時間がかかる課題がある。
また、スレッドミリング加工に限らず、内径加工、外形加工、及び面加工も同様に、加工精度を維持しつつ最速の加工時間を得るためには、工具の回転、及び工具又はワークの移動についての適切な加工条件を調整することが求められる。
本発明は、機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間を短縮することができる機械学習装置、数値制御装置、数値制御システム、及び機械学習方法を提供することを目的とする。
(1) 本発明に係る機械学習装置は、加工プログラムに基づいて工作機械(例えば、後述の工作機械100)を動作させる数値制御装置(例えば、後述の数値制御装置200)に対して機械学習を行う機械学習装置(例えば、後述の機械学習装置300)であって、
主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段(例えば、後述の状態情報取得部301)と、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段(例えば、後述の行動情報出力部303)と、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段(例えば、後述の報酬出力部3021)と、
前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部3022)と、
を備える機械学習装置である。
(2) 上記(1)の機械学習装置において、前記機械学習の最大試行回数を設けずに、前記機械学習を続けてもよい。
(3) 上記(1)又は(2)の機械学習装置において、前記機械学習は、前記工作機械のスレッドミリング加工、内径加工、外形加工、面加工のうちのいずれかにおいて行われてもよい。
(4) 上記(1)から(3)のいずれかの機械学習装置において、前記価値関数更新手段により更新された価値関数に基づいて、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を生成して出力する最適化行動情報出力手段(例えば、後述の最適化行動情報出力部305)を備えてもよい。
(5) 本発明に係る数値制御システムは、上記(1)から(4)のいずれかの機械学習装置と、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量が機械学習される数値制御装置とを有する数値制御システムである。
(6) 本発明に係る数値制御装置は、上記(1)から(4)のいずれかの機械学習装置を含み、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量を機械学習する数値制御装置である。
(7) 本発明に係る機械学習方法は、加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得し、
前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力し、
前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を算出し、
算出された前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、
機械学習方法である。
本発明によれば、機械学習により適正な加工条件を求めることにより、加工精度を維持しつつ、加工時間を短縮することができる。
また、状況に応じて適正な加工条件が求まることにより、長時間使用した工具でも加工精度が維持されるため、工具寿命を延長することができる。
スレッドミリング加工の説明図である。 本発明の第1の実施形態の数値制御システムと工作機械とを示すブロック図である。 本発明の第1の実施形態の数値制御システムの数値制御装置、及び工作機械の構成を示すブロック図である。 機械学習装置の構成を示すブロック図である。 本発明の第1の実施形態におけるQ学習時の機械学習装置の動作を示すフローチャートである。 図5のステップS15のサイクルタイムに基づく報酬の算出方法を示すフローチャートである。 図5のステップS15の加工精度に基づく報酬の算出方法を示すフローチャートである。 最適化行動情報出力部による最適化行動情報の生成時の動作を示すフローチャートである。 外形加工の説明図である。 本発明の第1の実施形態におけるQ学習時の機械学習装置の動作における、面精度に基づく報酬の算出方法を示すフローチャートである。 面加工の説明図である。
以下、本発明の実施形態について図面を用いて詳細に説明する。
(第1の実施形態)
本実施形態の数値制御システムは数値制御装置と機械学習装置とを備えており、工作機械によりスレッドミリング加工を行う場合に好適に用いられる。本実施形態ではスレッドミリング加工を例にとって説明するが、スレッドミリング加工に特に限定されるものではない。
図1に示すように、スレッドミルでの加工は、ドリルでワークW1に下穴Hをあけた後、スレッドミルT1を用いて、ヘリカル補間により下穴Hの側面加工を行い、ねじ山を削りだす加工である。スレッドミルでの加工では、工具及びワークの母材を考慮した上で、ねじの精度を維持しつつより短い加工時間を得るには、図1に示すように、工具となるスレッドミルT1を回転させる主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への1回の切り込み量を調整することが求められる。主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への1回の切り込み量は、ワークの加工形状、ワークの材質、工具の外形(直径、刃数等)、及び工具の材質等の条件のよって変わる。
図2は本発明の第1の実施形態の数値制御システムと工作機械とを示すブロック図である。数値制御システム10は、図2に示すように、n台の数値制御装置200−1〜200−nと、ネットワーク400と、ネットワーク400を介して数値制御装置200−1〜200−nと接続される機械学習装置300−1〜300−nとを備えている。n台の工作機械100−1〜100−nは、n台の数値制御装置200−1〜200−nと接続される。なお、nは任意の自然数である。
工作機械100−1と数値制御装置200−1とは1対1の組とされて、通信可能に接続されている。工作機械100−2〜100−nと数値制御装置200−2〜100−nについても工作機械100−1と数値制御装置200−1と同様に接続される。工作機械100−1〜100−nと数値制御装置200−1〜200−nとのn個の組は、接続インタフェースを介して直接接続されても、又はLAN(Local Area Network)などのネットワークを介して接続されてもよい。工作機械100−1〜100−nと数値制御装置200−1〜200−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
また、数値制御装置200−1と機械学習装置300−1とは1対1の組とされて、通信可能に接続されている。数値制御装置200−2〜200−nと機械学習装置300−2〜300−nについても数値制御装置200−1と機械学習装置300−1と同様に接続される。図1では、数値制御装置200−1〜200−nと機械学習装置300−1〜300−nとのn個の組は、ネットワーク400を介して接続されているが、数値制御装置200−1〜200−nと機械学習装置300−1〜300−nとのn個の組は、それぞれの組の数値制御装置と機械学習装置とが接続インタフェースを介して直接接続されてもよい。なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
次に、工作機械100−1〜100−nと、数値制御システム10に含まれる、数値制御装置200−1〜200−n及び機械学習装置300−1〜300−nの構成について説明する。
図3は本発明の第1の実施形態の数値制御システム10の数値制御装置200、及び工作機械100の構成を示すブロック図である。図4は機械学習装置300の構成を示すブロック図である。図3の工作機械100、図3の数値制御装置200、及び図4に示す機械学習装置300は例えば、図2に示す工作機械100−1、数値制御装置200−1、及び機械学習装置300−1にそれぞれ対応している。工作機械100−2〜100−n、数値制御装置200−2〜200−n、及び機械学習装置300−2〜300−nも同様な構成を有している。
最初に、工作機械100について説明する。
工作機械100は、数値制御装置200に設定された加工プログラムに基づいて生成される指令に従って、スレッドミリング加工を行う。
工作機械は、主軸モータ101と、送り軸サーボモータ102と、サイクルカウンタ103と、を備えている。
主軸モータ101は、スレッドミルを回転させるためのスピンドルモータである。主軸モータ101の回転軸に、スレッドミルが取り付けられている。
送り軸サーボモータ102はスレッドミルをワークの下穴に対してらせん状に移動させるサーボモータである。図3に示す送り軸サーボモータ102は、X軸方向、Y軸方向及びZ軸方向に対して設けられた3つの送り軸サーボモータからなる。X軸方向、Y軸方向、及びZ軸方向の送り軸サーボモータ102の回転軸を回転させることで、送り軸サーボモータ102に接続されるボールねじ等により、スレッドミルがらせん状に移動する。ここでは、送り軸サーボモータ102はスレッドミルをらせん状に駆動しているが、X軸方向及びY軸方向に対して設けられた送り軸サーボモータがワークを載置したテーブルをX軸方向及びY軸方向に移動させる一方、Z軸方向に対して設けられた送り軸サーボモータがスレッドミルをZ軸方向に移動させて、スレッドミルをワークに対して相対的にらせん状に移動させてもよい。
サイクルカウンタ103は、工作機械100がスレッドミリング加工を行った場合に、このスレッドミリング加工に要した加工時間であるサイクルタイムを計測するためのカウンタである。サイクルカウンタ103が計測したサイクルタイムは、数値制御装置200に対して出力される。
数値制御装置200は、工作機械100を制御することにより、工作機械100にスレッドミリング加工を行わせる装置である。また、数値制御装置200は、状態情報(「ステータス」ともいう)を機械学習装置300に対して送信する。更に、数値制御装置200は、行動情報(「アクション」)ともいう)を機械学習装置300から受信する。これら各情報の詳細については、機械学習装置300の説明において詳述する。
数値制御装置200は、主軸モータ制御部201と、送り軸サーボモータ制御部202と、数値制御情報処理部203と、記憶部204と、プログラム修正部205と、を備える。
主軸モータ制御部201は、数値制御情報処理部203からの動作指令に基づいてトルク指令を生成し、生成したトルク指令を工作機械100に送出することにより、工作機械100の主軸モータ101の回転を制御する。また、送り軸サーボモータ制御部202は、数値制御情報処理部203からの位置指令に基づいてトルク指令を生成し、生成したトルク指令を工作機械100に送出することにより、工作機械100のX軸方向、Y軸方向、及びZ軸方向の送り軸サーボモータ102の回転を制御する。送り軸サーボモータ制御部202は、X軸方向、Y軸方向及びZ軸方向に対して設けられた3つの送り軸サーボモータを制御する3つの送り軸サーボモータ制御部からなる。
数値制御情報処理部203は、記憶部204に記憶された加工プログラムに基づいて、主軸モータ制御部201に動作指令、送り軸サーボモータ制御部202に位置指令を送る。また、数値制御情報処理部203は、工作機械100のサイクルカウンタ103から出力されるサイクルタイムと、スレッドミリング加工されたワークの加工精度とを取得して、状態情報として機械学習装置300へ送信する。ワークの加工精度は、3次元測定機などで測定され、数値制御情報処理部203に入力される。ワークの加工精度の測定機能を工作機械100が持っていてもよい。
ワークに作製されたねじの加工精度は、加工精度が適正範囲かどうかの判断結果を含む。加工精度が適正範囲かどうかは、3次元測定機などで判断することができるが、例えば、スレッドミリング加工で加工されたねじ穴に、ねじゲージの通り側が通るかどうか、止まり側が2回転を超えて入らないかどうかを観測者又はロボットが試行して判断することもできる。ねじ穴が小さいために適正範囲外であれば削り残り、ねじ穴が大きくて適正範囲外であれば削りすぎと判断する。また、加工精度が適正範囲にある場合、更に、ワークに作製されたねじの加工精度は、例えば雌ねじの公差域クラスがJIS B0209-1 表8に記載された、はめあい区分「精」、「中」、「粗」により評価した評価結果を含むようにしてもよい。はめあい区分については、これは3次元測定機などで測定される。はめあい区分は、「精」、「中」、「粗」の順に加工精度が高い。
また、数値制御情報処理部203は、加工プログラムで設定された、主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を状態情報として機械学習装置300へ送信する。
プログラム修正部205は、加工プログラムを直接修正する。具体的には、プログラム修正部205は、加工プログラムで記述された、主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を、機械学習装置300から出力される行動情報、及び最適化行動情報に基づいて、プログラムコードを直接修正する。
以上、工作機械100及び数値制御装置200の構成について説明したが、上述した構成は本実施形態の動作に特に関連する部分である。工作機械100及び数値制御装置200の各構成の詳細、例えば送り軸サーボモータ制御部に対して位置・速度フィードバックを行うための位置・速度検出器や、動作指令を増幅するモータ駆動アンプや、ユーザの操作を受け付けるための操作盤等は当業者によく知られているので詳細な説明及び図示を省略する。
<機械学習装置300>
機械学習装置300は、数値制御装置200が加工プログラムを実行することで、工作機械100を動作させたときの、主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を強化学習する装置である。
機械学習装置300に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置300に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、加工精度を維持しつつ、サイクルタイムを短縮するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値関数Q(s,a)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値関数Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値関数Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Q(s,a)の更新式は、例えば、次の数式1(以下に数1として示す)により表すことができる。
Figure 2019021235
上記の数式1において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式1は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値関数Q(s,a)を更新する方法を表している。
この更新式は、状態sにおける行動aの価値関数Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値関数Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習装置300が行う。具体的には、機械学習装置300は、数値制御装置200の加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量と、サイクルタイム及びワークの加工精度とを状態sとし、当該状態sに係る主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の調整を行動aとして、選択する価値関数Qを学習する。
機械学習装置300は、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量と、加工プログラムを実行することで得られる、サイクルタイム及びワークの加工精度とを含む状態情報sを観測して、行動aを決定する。機械学習装置300は、行動aをするたびに報酬が返ってくる。機械学習装置300は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置300は、加工プログラムを実行することで取得される、サイクルタイム及びワークの加工精度を含む状態sに対して、最適な行動a(すなわち、最適な主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量)を選択することが可能となる。
すなわち、機械学習装置300により学習された価値関数Qに基づいて、或る状態sに係る、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量に対して適用される行動aのうち、価値関数Qの値が最大となるような行動aを選択することで、サイクルタイムがより短く、ワークの加工精度がより高くなるような行動a(すなわち、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量)を選択することが可能となる。
図4は本発明の第1の実施形態の機械学習装置300を示すブロック図である。
上述した強化学習を行うために、図4に示すように、機械学習装置300は、状態情報取得部301、学習部302、行動情報出力部303、価値関数記憶部304、最適化行動情報出力部305、及び制御部306を備える。学習部302は報酬出力部3021、価値関数更新部3022、及び行動情報生成部3023を備える。制御部306は状態情報取得部301、学習部302、行動情報出力部303、及び最適化行動情報出力部305の動作を制御する。
状態情報取得部301は、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量と、加工プログラムを実行することで得られる、サイクルタイム及びワークの加工精度とを含む状態sを、数値制御装置200から取得する。この状態情報sは、Q学習における、環境状態sに相当する。
状態情報取得部301は、取得した状態情報sを学習部302に対して出力する。
なお、最初にQ学習を開始する時点での加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量は、予めユーザが設定する。主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への1回の切り込み量は、ワークの加工形状、ワークの材質、工具の外形(直径、刃数等)、及び工具の材質等の条件のよって変わるので、これらの条件に基づいてユーザが設定する。本実施形態では、機械学習装置300が、ユーザが設定した主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を、強化学習により最適なものに調整する。
学習部302は、或る状態情報(環境状態)sの下で、ある行動aを選択する場合の価値関数Q(s,a)を学習する部分である。具体的には、学習部302は、報酬出力部3021、価値関数更新部3022及び行動情報生成部3023を備える。
報酬出力部3021は、或る状態sの下で、行動aを選択した場合の報酬を算出する部分である。報酬は複数の評価項目に基づいて算出してもよい。また複数の評価項目に基づいて算出する報酬に重み付けすることにより全体の報酬を算出してもよい。本実施形態では、サイクルタイム及び加工精度に基づいて報酬を算出する。
まず、サイクルタイムに基づく報酬の算出について説明する。
行動aにより状態sから状態s´に遷移した場合に、状態s及び状態s´における加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量に基づいて動作した工作機械100のサイクルタイムの値を値T(s)及び値T(s´)とする。
報酬出力部3021は、以下のようにサイクルタイムに基づく報酬を算出する。
値T(s´)>値T(s)の場合は、報酬を負の値とする。
値T(s´)=値T(s)の場合は、報酬をゼロとする。
値T(s´)<値T(s)の場合は、報酬を正の値とする。
例えば、サイクルタイムに基づく報酬の値は、サイクルタイム値が長くなった場合は−5、サイクルタイム値が変わらない場合は+5、サイクルタイム値が短くなった場合は+10とすることができる。
なお、報酬出力部3021は、値T(s´)=値T(s)の場合に報酬を正の値とし、値T(s´)<値T(s)の場合の報酬を、値T(s´)=値T(s)の場合の報酬よりも大きい正の値としてもよい。
また、行動aを実行後の状態s´のサイクルタイムが、前の状態sにおけるサイクルタイムより長くなった場合(値T(s´)>値T(s))の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりサイクルタイムが長くなった度合いに応じて負の値が大きくなるようにしてもよい。逆に、行動aを実行後の状態s´のサイクルタイムが、前の状態sにおけるサイクルタイムより短くなった場合(値T(s´)<値T(s))の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりサイクルタイムが短くなった度合いに応じて正の値が大きくなるようにしてもよい。
次に、加工精度に基づく報酬の算出について説明する。
行動aにより状態sから状態s´に遷移した場合に、状態s´における加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量に基づいて動作した工作機械100によって作製されたワークの加工精度に基づいて報酬を決定する。
ワークの加工精度に含まれる、加工精度が適正範囲かどうかの判断結果に基づいて、加工精度が適正範囲外である場合は、報酬を負の値とする。適正範囲外は削り残り又は削りすぎの場合である。ワークに作製されたねじの加工精度が適正範囲外の場合の報酬の負の値の絶対値は、加工精度が適正範囲外の場合が選択されないように、全体の報酬が大きな負の値になるような値とすることが望ましい。これは、加工精度が適正範囲外となることは、削りすぎの場合には再生することができず、削り残りの場合には再度の切削を行う必要があることから、切削加工として好ましくない状態だからである。削りすぎの場合は再生することができないので、削りすぎの場合の報酬は削り残り場合の報酬よりも大きな負の値になるような値とすることができる。例えば、削りすぎの場合の報酬を−50、削り残りの報酬を−10とすることができる。
加工精度が適正範囲内である場合は、ワークの加工精度の、雌ねじの公差域クラスのはめあい区分が「精」、「中」、「粗」のどれに該当するかの評価結果に基づいて、例えば以下のように報酬を算出することができる。
はめあい区分が「粗」の場合は、報酬を正の第1の値とする。
はめあい区分が「中」の場合は、報酬を正の第1の値より大きい正の第2の値とする。
はめあい区分が「精」の場合は、報酬を正の第2の値より大きい正の第3の値とする。
なお、報酬の値の与え方はこれに限定されず、「精」、「中」、「粗」に係らず同じ正の値としてもよい。例えば、「精」、「中」、「粗」の場合の報酬を同じ+10とすることができる。また、「粗」の場合の報酬をゼロとし、「中」及び「精」の場合の報酬を同じ正の値としてもよい。
報酬出力部3021は、上記のように算出された、サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出する。全体の報酬を算出する場合、加算に限定されず、例えば、重み付け加算してもよく、また、サイクルタイムに基づく報酬と加工精度に基づく報酬との平均値を算出してもよい。全体の報酬を算出する方法は、サイクルタイムと加工精度との優先度に応じて適宜設定することができる。例えば、サイクルタイムを重視する場合には、サイクルタイムに基づく報酬に1を超える重み係数を掛けて)をかけて加工精度に基づく報酬に加算して重み付け加算することができる。
価値関数更新部3022は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された全体の報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部304が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部3023は、現在の状態sに対して、Q学習の過程における行動aを選択する。行動情報生成部3023は、Q学習の過程において、数値制御装置200の加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を修正する動作(Q学習における行動aに相当)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部303に対して出力する。
より具体的には、行動情報生成部3023は、例えば、状態sに含まれる、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量に対して、行動aにより、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を調整して増加又は減少させる。
行動情報生成部3023は、行動aにより加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を調整して、状態s´に遷移した場合に、サイクルタイムの状態(増減又は維持)、及び加工精度の状態(適正範囲かどうか、及びはめあい区分が「精」、「中」、「粗」のどれか)によって次の行動a´の加工条件(主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量)を選択してもよい。
例えば、サイクルタイムの減少によりプラスの報酬(正の値の報酬)が返り、且つ加工精度が適正範囲であり、はめあい区分が「精」であることによりプラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、例えば、送り速度をインクレメンタルに増加させる、又はインクレメンタルに切り込み量を増加させ且つ切り込み回数を減少させる等、サイクルタイムがより小さくなるような行動a´を選択する方策を取るようにしてもよい。
また、状態s´に遷移して、サイクルタイムの減少によりプラスの報酬(正の値の報酬)が返り、且つ加工精度が適正範囲であり、はめあい区分が「粗」である場合、次の行動a´としては、インクレメンタルに切り込み量を減少させ且つ切り込み回数を増加させる等、加工精度を向上させるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部3023は、現在の推定される行動aの価値の中で、最も価値関数Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値関数Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
行動情報出力部303は、学習部302から出力される行動情報aを数値制御装置200に対して送信する部分である。行動情報出力部303は、例えば行動情報としての、主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の値を特定のマクロ変数へ適用したマクロ変数ファイルを生成し、生成したマクロ変数ファイルを、ネットワーク400を経由して数値制御装置200のプログラム修正部205に出力するようにしてもよい。プログラム修正部205は受信したマクロ変数ファイルを用いて行動情報(主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量)を記憶部204に記憶された加工プログラムの特定のマクロ変数の値に反映する。数値制御情報処理部203は、特定のマクロ変数を含んだ加工プログラムを実行する。なお、マクロ変数ファイルを生成し、このマクロ変数ファイルを用いて行動情報を加工プログラムの特定のマクロ変数の値に反映させる方法は、行動情報を加工プログラムに反映させるための方法の一例であって、これに限定されるものではない。
価値関数記憶部304は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態s、行動a毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部304に記憶された価値関数Qは、価値関数更新部3022により更新される。また、価値関数記憶部304に記憶された価値関数Qは、他の機械学習装置300との間で共有されるようにしてもよい。価値関数Qを複数の機械学習装置300で共有するようにすれば、各機械学習装置300にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部305は、価値関数更新部3022がQ学習を行うことにより更新した価値関数Qに基づいて、価値関数Q(s,a)が最大となる動作を工作機械100に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部305は、価値関数記憶部304が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部3022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部305は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をプログラム修正部205に対して出力する。この最適化行動情報には、行動情報出力部303がQ学習の過程において出力する行動情報と同様に、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を修正する情報が含まれる。
プログラム修正部205が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、動作指令を生成することにより、工作機械100は、加工精度を向上させつつ加工サイクルタイムがより短くなるように動作することができる。
以上、数値制御装置200及び機械学習装置300に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、数値制御装置200及び機械学習装置300のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、数値制御装置200及び機械学習装置300のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、数値制御装置200及び機械学習装置300のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習装置300については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図5、図6及び図7のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置300の動作について説明をする。図5は本実施形態におけるQ学習時の機械学習装置300の動作を示すフローチャート、図6は図5のステップS15のサイクルタイムに基づく報酬の算出方法を示すフローチャート、図7は図5のステップS15の加工精度に基づく報酬の算出方法の一部を示すフローチャートである。
まず、ステップS11において、制御部306は、試行回数を1として状態情報取得部301に状態情報の取得を指示する。
ステップS12において、状態情報取得部301が数値制御装置200から最初の状態情報を取得する。取得した状態情報は、価値関数更新部3022及び行動情報生成部3023に対して出力される。上述したように、この状態情報は、Q学習における状態sに相当する情報であり、ステップS12時点での、加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の値、これらの値に設定された加工プログラムに基づいて加工処理した場合のサイクルタイム、及びワークの加工精度が含まれる。なお、最初にQ学習を開始する時点での加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の設定値は、予めユーザが生成するようにする。本実施形態では、ユーザが作成した加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の値を、強化学習により最適なものに調整する。
ステップS13において、行動情報生成部3023は新たな行動情報aを生成し、生成した新たな行動情報aを、行動情報出力部303を介して数値制御装置200のプログラム修正部205に対して出力する。行動情報を受信したプログラム修正部205は、受信した行動情報に基づいて現在の状態sに係る加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量を修正して状態s´とし、数値制御情報処理部203は修正された状態s´により、工作機械100を駆動させて切削加工を行う。
ステップS14において、状態情報取得部301は、数値制御装置200から取得した新たな状態s´に相当する状態情報を取得する。ここで、新たな状態情報には、状態s´に係る加工プログラムの主軸回転数、送り速度、切り込み回数、及び1回分の切り込み量の値と、状態s´に係る加工処理を行うために要したサイクルタイムと、状態s´に係る加工処理により作成されたワークの加工精度とを含む。状態s´に係る加工処理を行うために要したサイクルタイムと、状態s´に係る加工処理により作成されたワークの加工精度とは判定情報となる。状態情報取得部301は学習部302に対して取得した状態情報を出力する。
ステップS15において、報酬出力部3021は入力された判定情報、すなわちサイクルタイム及び加工精度に基づいて報酬を算出する。ステップS15はサイクルタイムに基づいて報酬を算出するステップと、加工精度に基づいて報酬を算出するステップと、サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出するステップとを含む。
サイクルタイムに基づいて報酬を算出するステップは、図6のステップS15−1に示される。ステップS15−1に示すように、報酬出力部3021は、まず、ステップS151で、状態s´に係る加工処理を行うために要したサイクルタイム値T(s´)が状態sに係る加工処理を行うために要したサイクルタイム値T(s)より長いか、短いか、変化がないかを判断する。
サイクルタイム値T(s´)>サイクルタイム値T(s)の場合は、ステップS152で報酬を負の値とする。サイクルタイム値T(s´)=サイクルタイム値T(s)の場合は、ステップS153で報酬をゼロとする。サイクルタイム値T(s´)<サイクルタイム値T(s)の場合は、ステップS154で報酬を正の値とする。
加工精度に基づいて報酬を算出するステップは、図7のステップS15−2に示される。まず、ステップS155で、ワークに作製されたねじの加工精度が適正範囲かどうかを判断する。加工精度が適正範囲外である場合は報酬を負の値とする。適正範囲外には削りすぎと削り残りとがある。ここでは、適正範囲外の削りすぎの場合は、ステップS156で報酬を負の第1の値とし、削り残りの場合は、ステップS157で報酬を負の第1の値よりも小さい負の第2の値としている。削りすぎの場合の報酬を、削り残りの場合の報酬より大きい負の値としたのは、削りすぎは再生することができないので、削り残りよりも好ましくないからである。
加工精度が適正範囲内である場合は、報酬出力部3021は、ステップS158で、ワークの加工精度の、雌ねじの公差域クラスのはめあい区分が「精」、「中」、「粗」のどれに該当するかを判断する。はめあい区分が「粗」であれば、ステップS159で、報酬を正の第1の値とする。はめあい区分が「中」であれば、ステップS160で、報酬を正の第1の値より大きい正の第2の値とする。はめあい区分が「精」であれば、ステップS161で、報酬を正の第2の値より大きい正の第3の値とする。既に説明したように、報酬の値の与え方はこれに限定されない。
サイクルタイムに基づく報酬と、加工精度に基づく報酬とに基づいて全体の報酬を算出するステップは、図7のステップS15−3に示される。ステップS15−3は、サイクルタイムに基づく報酬と加工精度に基づく報酬とを、例えば、加算したり、重み付け加算したり、平均値を求めたりすることで、全体の報酬を算出するステップである。
ステップS15が終了すると、ステップS16において、全体の報酬の値に基づいて、価値関数更新部3022が、価値関数記憶部304が記憶している価値関数Qを更新する。次に、ステップS17において、制御部306は最大試行回数に到達したかどうかを判断する。最大試行回数は予め設定しておく。最大試行回数に到達していなければ、ステップS18で試行回数をカウントアップして、ステップS13に戻る。ステップS13からステップS18までの処理は最大試行回数に到達するまで繰り返し行われる。なお、ここでは試行回数が最大試行回数に到達したときに処理を終了させているが、ステップS13からステップS18の処理を所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS16はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図5、図6及び図7を参照して説明した動作により、本実施形態では、ワークの加工精度を向上させつつ、サイクルタイムを短縮するための行動情報を生成するための価値関数Qを生成することができる、という効果を奏する。
次に、図8のフローチャートを参照して、最適化行動情報出力部305による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部305は、価値関数記憶部304に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部3022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部305は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置200のプログラム修正部205に対して出力する。
以上のように、数値制御装置200が、この最適化行動情報に基づいて現在設定されている加工プログラムを修正して、動作指令を生成することにより、工作機械100は、ワークの加工精度を向上させつつ、当該加工サイクルタイムがより短くなるように動作することができる、という効果を奏する。
本実施形態の効果について実施例に基づいて以下に説明する。
(実施例1)
実施例1は、最大試行回数を設けて例えば主軸速度及び/又は送り速度を速くするような行動aを主に選択する方策をとる機械学習を行った後に、主軸速度S、送り速度Fが速くなり、サイクルタイムが短くなった場合の実施例である。
図2〜図4に示した、工作機械100、数値制御装置200及び機械学習装置300を用いて、図5に示した機械学習動作に基づいて機械学習を行った。機械学習における報酬の値は以下の通りとした。
サイクルタイムに基づく報酬の値は、サイクルタイム値が長くなった場合は−5、サイクルタイム値が変わらない場合は+5、サイクルタイム値が短くなった場合は+10とした。加工精度に基づく報酬の値は、加工精度が適正範囲となった場合に+10とした。すなわち、はめあい区分「精」、「中」、「粗」に係らず、報酬を同じ+10とした。
機械学習の結果、機械学習前の出力データが、主軸速度S:758[rev/min]、送り速度F:455[rev/min]であったのが、機械学習後の出力データが、主軸速度S:909[rev/min]、送り速度F:682[rev/min]となった。
(実施例2)
実施例2は、最大試行回数を設けて、例えば切り込み量Jの増加及び/又は切り込み回数の減少させるような行動aを主に選択する方策をとる機械学習を行った後に、切り込み量Jが増加し、切り込み回数Lが少なくなり、加工経路が短くなった結果、サイクルタイムが短くなった場合の実施例である。
実施例2においても、実施例1と同様に、図2〜図4に示した、工作機械100、数値制御装置200及び機械学習装置300を用いて、図5に示した機械学習動作に基づいて機械学習を行った。サイクルタイムに基づく報酬の値及び加工精度に基づく報酬の値も実施例1と同様とした。
機械学習の結果、径方向の総切込み量1.2[mm]の場合に、機械学習前の出力データが、一回の切り込み量J:0.3[mm]、切り込み回数L:4[回]であったのが、機械学習後の出力データが、一回の切り込み量J:0.4[mm]、切り込み回数L:3[回]となった。
<変形例>
なお、以上説明した実施形態では、最大試行回数を決めていたが、最大試行回数を決めずに機械学習を続けてもよい。最大試行回数を決めなければ、状況に応じて加工精度が向上するように加工条件が調整されるため、工具が古くなり切れ味が悪くなっても、その時点での最適な加工条件で加工することが可能となる。そのため工具寿命の延長に効果がある。
最大試行回数を決めずに機械学習を続け場合の効果について実施例に基づいて以下に説明する。
本実施例は、最大試行回数を決めずに機械学習を行い、切り込み量Jが減少しても、主軸速度S,送り速度Fが調整された実施例である。
本実施例においても、実施例1と同様に、図2〜図4に示した、工作機械100、数値制御装置200及び機械学習装置300を用いて、図5に示した機械学習動作に基づいて機械学習を行った。サイクルタイムに基づく報酬の値及び加工精度に基づく報酬の値も実施例1と同様とした。実施例3では最大試行回数を設けないため図5のステップS17及びS18を設けず、ステップS12〜ステップS16を繰り返し行った。
機械学習の結果、ある時点で、主軸速度S:758[rev/min]、送り速度F:455[rev/min]、一回の切り込み量J:0.4[mm]、切り込み回数L:3[回]であったのが、機械学習を続けたその後の時点で、主軸速度S:909[rev/min]、送り速度F:682[rev/min]、一回の切り込み量J:0.3[mm]、切り込み回数L:4[回]となった。
<他の変形例>
以上説明した実施形態では、工具半径を含めた座標で加工プログラムを作成してしまうと、違う工具を使用することになってしまった場合に、全ての座標を修正しなければならなくなる。工具側の磨耗などで経路を補正する必要が生ずる場合もある。このため、加工プログラムには工具径補正という機能が設けられている。上述した実施形態において、1回当たりの切込み量に変えて工具径補正量を調整してもよく、又は1回当たりの切込み量に加えて工具径補正量を調整してもよい。工具径補正量は工具補正量に対応する。
上述した実施形態では、工作機械100として、スレッドミリング加工を行う工作機械を例として挙げたが、これに限定されず、内径加工、外形加工、面加工などの加工を行う工作機械を工作機械100としてもよい。以下、外形加工及び面加工の例を第2及び第3の実施形態として説明する。
(第2の実施形態)
本発明の第2の実施形態は工作機械により外形加工を行う場合の数値制御システムについて説明する。本実施形態において用いられる数値制御装置及び機械学習装置は第1の実施形態で説明した数値制御装置及び機械学習装置と同じ構成なので説明を省略する。
図9は外形加工の説明図である。図9に示すように、ワークW2の外周を、工具T2を回転させつつ移動させて外形加工を行う。外形加工では、工具T2及びワークW2の母材を考慮した上で、ワークW2の外周の加工精度となる面精度を維持しつつより短い加工時間を得るには、図9に示すように、工具T2を回転させる主軸の主軸回転数、送り速度、工具径方向への切り込み回数、及び工具径方向への切り込み量を調整することが求められる。第2の実施形態での機械学習における状態情報は、ワークの加工精度が面精度である点を除いて第1の実施形態と同じである。面精度は3次元測定機などで測定される。面精度とは加工された面が目標とする表面からどの程度ずれているかを示す値である。
第2の実施形態におけるQ学習時の機械学習装置300の動作が第1の実施形態の動作と異なるのは、図7に示す加工精度に基づいて報酬を算出するステップS15−2の代わりに図10に示すステップS15−4が用いられている点である。
ステップS15−4に示すように、図4に示す報酬出力部3021は、まずステップS162において、状態s´に係る加工処理で作製されたワークの面精度が、状態sに係る加工処理で作製されたワークの面精度より低いか、変化がないか、又は高いかを判断する。そして、面精度が低下した場合は、ステップS163で報酬を負の値とする。面精度が変化しない場合はステップS164で報酬をゼロとする。面精度が向上した場合は、ステップS165で報酬を正の値とする。
なお、報酬出力部3021は、面精度が変化しない場合に報酬を正の値とし、面精度が向上した場合の報酬を、面精度が変化しない場合の報酬よりも大きい正の値としてもよい。
また、行動aを実行後の状態s´に係る加工処理で作製されたワークの面精度が、前の状態sに係る加工処理で作製されたワークの面精度より低下した場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまり面精度が低下する度合いに応じて負の値が大きくなるようにしてもよい。逆に、行動aを実行後の状態s´に係る加工処理で作製されたワークの面精度が、前の状態sに係る加工処理で作製されたワークの面精度より向上した場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまり面精度が向上する度合いに応じて正の値が大きくなるようにしてもよい。
(第3の実施形態)
本発明の第3の実施形態は工作機械により面加工を行う場合の数値制御システムについて説明する。本実施形態において用いられる数値制御装置及び機械学習装置は第1の実施形態で説明した数値制御装置及び機械学習装置と同じ構成なので説明を省略する。
図11は面加工の説明図である。面加工は、ワークW3の加工表面を、工具T3を回転させつつ直線移動させて面加工を行う。面加工では、工具T3及びワークW3の母材を考慮した上で、ワークW3の加工表面の加工精度となる面精度を維持しつつより短い加工時間を得るには、図11に示すように、工具T3を回転させる主軸の主軸回転数、送り速度、工具の軸方向への切り込み回数、及び工具の軸方向への切り込み量を調整することが求められる。
第3の実施形態での機械学習における状態情報における、ワークの加工精度が面精度であり、切り込み回数と切り込み量とが工具径方向ではなく工具の軸方向である点を除いて第1の実施形態と同じである。面精度は3次元測定機などで測定される。面精度とは加工された面が目標とする表面からどの程度ずれているかを示す値である。第1の実施形態における工具径補正量は、第3の実施形態では工具長補正量となる。工具長補正量は工具補正量に対応する。
加工精度に基づいて報酬を算出するステップは、第2の実施形態のステップS15−3と同じである。
以上、本発明の実施形態について説明したが、上記の数値制御装置及び機械学習装置のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の数値制御装置及び機械学習装置のそれぞれの協働により行なわれる機械学習方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。
また、上述した各実施形態は、本発明の好適な実施形態ではあるが、上記各実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
<変形例>
上述した第1から第3の実施形態では、機械学習装置300を、工作機械100や数値制御装置200とは別体の装置により実現することを想定していたが、機械学習装置300の機能の一部又は全部を工作機械100や数値制御装置200により実現するようにしてもよい。また、機械学習装置300の最適化行動情報出力部305は機械学習装置300とは別の最適化行動情報出力装置としてもよい。この場合、最適化行動情報出力装置は複数の機械学習装置300に対して1つ又は複数設けて共通化してもよい。
また、上述した実施形態では、機械学習装置300を、数値制御装置200とは別体の装置により構成したが、機械学習装置300の機能の一部又は全部を数値制御装置200により実現するようにしてもよい。
<システム構成の自由度>
上述した実施形態では、機械学習装置300と数値制御装置200とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置300が複数の数値制御装置200とネットワーク400を介して通信可能に接続され、各数値制御装置200の機械学習を実施するようにしてもよい。
その際、機械学習装置300の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置300の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズの数値制御装置200−1〜200−nとそれぞれ対応する複数の機械学習装置300−1〜300−nがあった場合に、各機械学習装置300−1〜300−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10 数値制御システム
100、100−1〜100−n 工作機械
101 主軸モータ
102 送り軸サーボモータ
103 サイクルカウンタ
200、200−1〜200−n 数値制御装置
201 主軸モータ制御部
202 送り軸サーボモータ制御部
203 数値制御情報処理部
204 記憶部
300、300−1〜300−n 機械学習装置
301 状態情報取得部
302 学習部
303 行動情報出力部
304 価値関数記憶部
305 最適化行動情報出力部
400 ネットワーク

Claims (7)

  1. 加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置であって、
    主軸回転数、送り速度、及び切り込み回数と、1回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得する状態情報取得手段と、
    前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力する行動情報出力手段と、
    前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を出力する報酬出力手段と、
    前記報酬出力手段により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
    を備える機械学習装置。
  2. 前記機械学習の最大試行回数を設けずに、前記機械学習を続ける請求項1に記載の機械学習装置。
  3. 前記機械学習は、前記工作機械のスレッドミリング加工、内径加工、外形加工、面加工のうちのいずれかにおいて行われる請求項1又は2に記載の機械学習装置。
  4. 前記価値関数更新手段により更新された価値関数に基づいて、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を生成して出力する最適化行動情報出力手段を備えた請求項1から3のいずれか1項に記載の機械学習装置。
  5. 請求項1から4のいずれか1項に記載の機械学習装置と、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量が機械学習される数値制御装置とを有する数値制御システム。
  6. 請求項1から4のいずれか1項に記載の機械学習装置を含み、該機械学習装置によって、加工プログラム主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量を機械学習する数値制御装置。
  7. 加工プログラムに基づいて工作機械を動作させる数値制御装置に対して機械学習を行う機械学習装置の機械学習方法であって、
    主軸回転数、送り速度、切り込み回数、及び1回当たりの切込み量又は工具補正量が設定された所定の加工プログラムを前記数値制御装置が実行することで、前記工作機械に切削加工を行わせることにより、前記主軸回転数、前記送り速度、前記切り込み回数、及び前記1回当たりの切込み量又は前記工具補正量を含む設定値と、ワークを切削加工するサイクルタイムと、該ワークの加工精度と、を含む状態情報を、取得し、
    前記状態情報に含まれる前記設定値の修正情報を含む行動情報を前記数値制御装置に出力し、
    前記状態情報に含まれる前記サイクルタイムと前記加工精度に基づく、強化学習における報酬の値を算出し、
    算出された前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する、
    機械学習方法。
JP2017141707A 2017-07-21 2017-07-21 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法 Active JP6608879B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017141707A JP6608879B2 (ja) 2017-07-21 2017-07-21 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法
US16/031,279 US10921774B2 (en) 2017-07-21 2018-07-10 Machine learning devices and methods for optimizing the speed and accuracy of thread mill, inner diameter, outer shape, and surface machine tools
DE102018211682.2A DE102018211682B4 (de) 2017-07-21 2018-07-13 Maschinelle lernvorrichtung, numerische steuervorrichtung, numerisches steuersystem und maschinelles lernverfahren
CN201810792076.0A CN109283887B (zh) 2017-07-21 2018-07-18 机器学习装置、数值控制装置、数值控制系统以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017141707A JP6608879B2 (ja) 2017-07-21 2017-07-21 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2019021235A true JP2019021235A (ja) 2019-02-07
JP6608879B2 JP6608879B2 (ja) 2019-11-20

Family

ID=64951500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017141707A Active JP6608879B2 (ja) 2017-07-21 2017-07-21 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法

Country Status (4)

Country Link
US (1) US10921774B2 (ja)
JP (1) JP6608879B2 (ja)
CN (1) CN109283887B (ja)
DE (1) DE102018211682B4 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752224A (zh) * 2019-03-28 2020-10-09 兄弟工业株式会社 数值控制装置和控制方法
WO2021187268A1 (ja) * 2020-03-17 2021-09-23 ファナック株式会社 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法
JP7166488B1 (ja) * 2021-09-30 2022-11-07 三菱電機株式会社 数値制御装置、加工システム、数値制御方法および加工方法
JP7224541B1 (ja) * 2021-09-30 2023-02-17 三菱電機株式会社 数値制御装置、加工システム、数値制御方法および加工方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10276925B2 (en) 2017-03-29 2019-04-30 Garmin Switzerland Gmbh Watch with slot antenna configuration
JP6940474B2 (ja) * 2018-12-05 2021-09-29 ファナック株式会社 工作機械
US20220137591A1 (en) * 2019-04-03 2022-05-05 Siemens Industry Software Inc. System and method for design and manufacture using multi-axis machine tools
JP7181554B2 (ja) * 2019-04-05 2022-12-01 i Smart Technologies株式会社 生産効率向上支援システム
JP7239106B2 (ja) * 2019-04-22 2023-03-14 株式会社ジェイテクト サイバーフィジカルプロダクションシステム型生産システム
JP7010877B2 (ja) * 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
JP7074718B2 (ja) * 2019-04-26 2022-05-24 ファナック株式会社 加工支援装置、数値制御装置、及び加工支援システム
CN110370076A (zh) * 2019-08-08 2019-10-25 合肥学院 基于加工机床的自由曲面原位测量方法
US11413747B2 (en) * 2019-08-12 2022-08-16 Workshops for Warriors Machine learning driven computer numerical control of a robotic machine tool
WO2021044491A1 (ja) * 2019-09-02 2021-03-11 ヤマザキマザック株式会社 制御装置、工作機械、算出方法及びプログラム
US11609546B2 (en) * 2019-11-06 2023-03-21 Hexagon Technology Center Gmbh Systems and methods for virtual environment for reinforcement learning in manufacturing
CN113741352B (zh) * 2021-09-22 2023-01-06 陕西法士特齿轮有限责任公司 一种数控自适应控制加工方法、系统、设备及其存储介质
CN114002948B (zh) * 2021-10-12 2023-09-26 同济大学 一种第三方数控机床接入服务平台的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5942249A (ja) * 1982-08-30 1984-03-08 Mitsubishi Heavy Ind Ltd 加工径補正方法
JPH0691479A (ja) * 1992-09-11 1994-04-05 Okuma Mach Works Ltd 非円形ワークの加工方法
JP2000127040A (ja) * 1998-10-26 2000-05-09 Hitachi Via Mechanics Ltd 研削盤の研削条件設定装置
JP2011158982A (ja) * 2010-01-29 2011-08-18 Mori Seiki Co Ltd 工作機械の制御装置
JP2017030067A (ja) * 2015-07-30 2017-02-09 ファナック株式会社 加工時間測定機能とオンマシン測定機能を有する制御装置付き加工装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5942249B2 (ja) * 1976-09-29 1984-10-13 株式会社千野製作所 放射温度計の補償回路
JPS6063016A (ja) 1984-07-31 1985-04-11 松下電器産業株式会社 ミル付コ−ヒ−沸し器
JP3575093B2 (ja) 1994-12-28 2004-10-06 株式会社デンソー 加工制御方法
US7216407B2 (en) * 2003-04-09 2007-05-15 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for processing screw rotor and cutting bit
JP5942249B2 (ja) * 2012-04-11 2016-06-29 パナソニックIpマネジメント株式会社 電線引込支柱及びそれを用いた配電システム
JP6063013B1 (ja) 2015-08-27 2017-01-18 ファナック株式会社 びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置
JP6063016B1 (ja) 2015-09-29 2017-01-18 ファナック株式会社 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械
JP6235543B2 (ja) * 2015-09-30 2017-11-22 ファナック株式会社 加工機のサイクル加工時間を最適化する機械学習装置、モータ制御装置、加工機、および機械学習方法
JP5969676B1 (ja) * 2015-09-30 2016-08-17 ファナック株式会社 工作機械の工具補正の頻度を最適化する機械学習装置及び機械学習方法、並びに該機械学習装置を備えた工作機械

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5942249A (ja) * 1982-08-30 1984-03-08 Mitsubishi Heavy Ind Ltd 加工径補正方法
JPH0691479A (ja) * 1992-09-11 1994-04-05 Okuma Mach Works Ltd 非円形ワークの加工方法
JP2000127040A (ja) * 1998-10-26 2000-05-09 Hitachi Via Mechanics Ltd 研削盤の研削条件設定装置
JP2011158982A (ja) * 2010-01-29 2011-08-18 Mori Seiki Co Ltd 工作機械の制御装置
JP2017030067A (ja) * 2015-07-30 2017-02-09 ファナック株式会社 加工時間測定機能とオンマシン測定機能を有する制御装置付き加工装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752224A (zh) * 2019-03-28 2020-10-09 兄弟工业株式会社 数值控制装置和控制方法
CN111752224B (zh) * 2019-03-28 2024-05-24 兄弟工业株式会社 数值控制装置和控制方法
WO2021187268A1 (ja) * 2020-03-17 2021-09-23 ファナック株式会社 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法
JP7436632B2 (ja) 2020-03-17 2024-02-21 ファナック株式会社 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法
JP7166488B1 (ja) * 2021-09-30 2022-11-07 三菱電機株式会社 数値制御装置、加工システム、数値制御方法および加工方法
JP7224541B1 (ja) * 2021-09-30 2023-02-17 三菱電機株式会社 数値制御装置、加工システム、数値制御方法および加工方法
WO2023053400A1 (ja) * 2021-09-30 2023-04-06 三菱電機株式会社 数値制御装置、加工システム、数値制御方法および加工方法

Also Published As

Publication number Publication date
DE102018211682B4 (de) 2022-12-15
DE102018211682A1 (de) 2019-01-24
JP6608879B2 (ja) 2019-11-20
CN109283887A (zh) 2019-01-29
CN109283887B (zh) 2021-05-04
US20190025794A1 (en) 2019-01-24
US10921774B2 (en) 2021-02-16

Similar Documents

Publication Publication Date Title
JP6608879B2 (ja) 機械学習装置、数値制御装置、数値制御システム、及び機械学習方法
JP7010877B2 (ja) 機械学習装置、数値制御システム及び機械学習方法
JP6453919B2 (ja) 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6697491B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP6063013B1 (ja) びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
JP6564432B2 (ja) 機械学習装置、制御システム、制御装置、及び機械学習方法
US20180373223A1 (en) Machine learning apparatus, servo control apparatus, servo control system, and machine learning method
JP6453921B2 (ja) 学習モデル構築装置、及び制御情報最適化装置
CN110286645B (zh) 机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法
JP7000373B2 (ja) 機械学習装置、制御装置及び機械学習方法
JP2019185530A (ja) 機械学習装置、制御装置、及び機械学習方法
CN110875703A (zh) 机器学习装置、控制系统以及机器学习方法
JP6978452B2 (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP2021039648A (ja) 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法
WO2022153936A1 (ja) 機械学習装置
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP7166488B1 (ja) 数値制御装置、加工システム、数値制御方法および加工方法
JP2020154989A (ja) 機械学習装置、制御システム及び機械学習方法
JP6940474B2 (ja) 工作機械
WO2021187268A1 (ja) 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法
WO2023181418A1 (ja) 制御パラメータを調整する調整装置、制御システム及び制御パラメータ調整方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180918

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181211

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190416

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20190625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190819

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20190827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191024

R150 Certificate of patent or registration of utility model

Ref document number: 6608879

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150