JP6453919B2 - 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム - Google Patents

行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム Download PDF

Info

Publication number
JP6453919B2
JP6453919B2 JP2017011910A JP2017011910A JP6453919B2 JP 6453919 B2 JP6453919 B2 JP 6453919B2 JP 2017011910 A JP2017011910 A JP 2017011910A JP 2017011910 A JP2017011910 A JP 2017011910A JP 6453919 B2 JP6453919 B2 JP 6453919B2
Authority
JP
Japan
Prior art keywords
behavior information
value
information
machine tool
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017011910A
Other languages
English (en)
Other versions
JP2018120453A (ja
Inventor
セイ トウ
セイ トウ
西村 卓真
卓真 西村
雄三 稲口
雄三 稲口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FANUC Corp
Original Assignee
FANUC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FANUC Corp filed Critical FANUC Corp
Priority to JP2017011910A priority Critical patent/JP6453919B2/ja
Priority to US15/857,911 priority patent/US10509397B2/en
Priority to DE102018200794.2A priority patent/DE102018200794B4/de
Priority to CN201810069763.XA priority patent/CN108363356B/zh
Publication of JP2018120453A publication Critical patent/JP2018120453A/ja
Application granted granted Critical
Publication of JP6453919B2 publication Critical patent/JP6453919B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41835Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by programme execution
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/404Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4185Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication
    • G05B19/41855Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by the network communication by local area network [LAN], network structure
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41875Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by quality surveillance of production
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33038Real time online learning, training, dynamic network
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35215Generate optimal nc program variant as function of cost, time, surface, energy

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Manufacturing & Machinery (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Numerical Control (AREA)
  • Automatic Control Of Machine Tools (AREA)

Description

本発明は、工作機械等を制御するための行動情報に関する学習を行う行動情報学習装置及び行動情報学習プログラム、並びに、行動情報を最適化するための行動情報最適化システムに関する。
工作機械による生産性を向上させるためには、ワークを加工するための加工時間であるサイクルタイムを短縮する必要がある。サイクルタイムの短縮のための方法としては、例えば、工作機械における切削送りの速度を上げたり、工作機械に備えられた主軸や送り軸の加減速の時定数を短くすることが考えられる。
しかしながら、切削送りの速度を上げたり、主軸や送り軸の加減速の時定数を短くすると、モータやアンプからなる各軸の駆動装置にかかる負荷が大きくなる。その結果として、駆動装置が発熱してオーバーヒートすることとなり、駆動装置の損傷や動作不良を引き起こすことがあり得る。
このような事態を防止するために、一般的な技術では、発熱により駆動装置の温度がオーバーヒートする直前まで上昇すると、アラームを発令して駆動部の動作を停止させることとしている。これにより駆動装置がオーバーヒートして、駆動装置が損傷等することを防止できる。しかしながら、駆動装置の運転を一旦停止してから、駆動装置が冷却されて温度が下がるまでの間は、再運転をすることができないため、加工が中断されてしまうという問題が生じる。
この問題を考慮して、特許文献1に開示の技術では、発熱により駆動装置の温度が所定の温度まで上昇した場合に、駆動部を直ちに停止させるのではなく、駆動部の動作速度を低下させている。このようにすれば、駆動装置の温度の更なる上昇を防止しつつ、駆動部を運転して加工を継続することが可能となる。
特開2003−5836号公報
上述したように、特許文献1に開示の技術を利用することにより、設定された加工プログラムによる加工処理時に駆動装置がオーバーヒートする可能性がある場合であっても、当該加工プログラムを調整することにより、加工を継続することができる。
しかしながら、特許文献1に開示の技術では、設定された加工プログラムによる加工処理時に駆動装置がオーバーヒートする可能性がある場合に、駆動部の動作速度を低下させることから、ワークを加工するためのサイクルタイムが長くなる。つまり、特許文献1に開示の技術では、工作機械による生産性が低下してしまうという課題がある。
そこで本発明は、工作機械における予め設定された加工処理に係る主軸の動作パターン、パラメータ等の組み合わせを含む状態情報(例えば後述の加工プログラム及びパラメータ等を含む情報)に対して、オーバーヒートの発生を回避しながらも当該加工サイクルタイムが最短になるような当該状態情報の調整情報を含む行動情報(例えば後述の当該加工プログラムの調整及び当該加工プログラム実行時におけるパラメータの調整を含む情報)を選択することを可能とする強化学習を行うための行動情報学習装置及び行動情報学習プログラム、並びに、このような行動情報を選択するための行動情報最適化システムを提供することを目的とする。
(1) 本発明による行動情報学習装置(例えば、後述の行動情報学習装置300)は、工作機械(例えば、後述の工作機械100)における加工に係る主軸の動作パターン及びパラメータの組合せ(例えば、後述の加工プログラム及びパラメータの組合せ)を含む状態情報を取得する状態情報取得手段(例えば、後述の状態情報取得部310)と、前記状態情報に含まれる前記動作パターン及び前記パラメータの組合せの調整情報を含む行動情報を出力する行動情報出力手段(例えば、後述の行動情報出力部320)と、前記工作機械の温度及び前記工作機械の前記加工に係る加工時間についての情報である判定情報を取得し、該取得した判定情報に基づいて強化学習における報酬の値を出力する報酬計算手段(例えば、後述の報酬計算部333)と、前記報酬の値と、前記状態情報と、前記行動情報とに基づいて前記強化学習を行うことにより価値関数を更新する価値関数更新手段(例えば、後述の価値関数更新部332)と、を備える。
(2) 上記(1)に記載の行動情報学習装置を、前記状態情報は、前記主軸の動作パターンとして、切削送りの速度及び主軸を指定時間待機させるドウェルの何れか又は双方についての動作パターンを含み、前記調整情報は、前記状態情報が含む前記動作パターンについて調整を行うための情報を含むようにしてもよい。
(3) 上記(1)又は(2)に記載の行動情報学習装置を、前記状態情報は、前記パラメータとして、加減速の時定数及び切削送りの速度オーバライドの何れか又は双方についてのパラメータを含み、前記調整情報は、前記状態情報が含む前記パラメータについて調整を行うための情報を含むようにしてもよい。
(4) 上記(1)から(3)の何れかに記載の行動情報学習装置を、前記報酬計算手段は、前記工作機械の温度が所定の温度以上である場合に前記報酬の値を負の値とし、前記工作機械の温度が所定の温度未満であって前記工作機械の加工時間が前回の加工時間よりも短い場合に前記報酬の値を正の値とし、前記工作機械の温度が所定の温度未満であって前記工作機械の加工時間が前回の加工時間よりも長い場合に前記報酬の値を負の値とするようにしてもよい。
(5) 上記(1)から(4)の何れかに記載の行動情報学習装置を、他の行動情報学習装置との間で前記価値関数を共有し、前記価値関数更新手段が前記共有した価値関数を更新するようにしてもよい。
(6) 本発明による行動情報最適化システム(例えば、後述の行動情報最適化システム1)は、上記(1)から(5)の何れかに記載の行動情報学習装置と、行動情報最適化装置(例えば、後述の行動情報最適化装置400)とを備える行動情報最適化システムであって、前記行動情報最適化装置は、前記価値関数更新手段により更新された価値関数に基づいて、前記工作機械による前記加工の価値を最大とするための行動情報である最適化行動情報を生成し、該生成した最適化行動情報を、前記工作機械に前記加工を行わせるために出力する。
(6) 本発明による行動情報学習プログラムは、コンピュータを、上記(1)から(5)の何れかに記載の行動情報学習装置として機能させる。
本発明によれば、オーバーヒートの発生を回避しながらもサイクルタイムを短縮するために、工作機械における予め設定された加工処理に係る主軸の動作パターン、パラメータ等の組み合わせを含む状態情報の調整情報を含む行動情報を選択することを可能とする強化学習を行うことができる。また、本発明によれば、このような行動情報を選択することができる。
本発明の実施形態全体の基本的構成を示すブロック図である。 本発明の実施形態に含まれる各装置が備える機能ブロックについて示すブロック図である。 本発明の実施形態における強化学習時の基本的動作を示すフローチャートである。 本発明の実施形態における最適化行動情報の選択時の基本的動作を示すフローチャートである。
次に、本発明の実施形態について図面を参照して詳細に説明する。
まず、本実施形態に係る行動情報最適化システム1の構成について説明する。行動情報最適化システム1は、図1に示すように、n台の工作機械100、n台の数値制御装置200、m台の行動情報学習装置300、行動情報最適化装置400及びネットワーク500を備えている。なお、nおよびmは任意の自然数である。
ここで、数値制御装置200と工作機械100とは1対1の組とされて、通信可能に接続されている。数値制御装置200と工作機械100とは、接続インタフェースを介して直接接続されても、またLAN(Local Area Network)などのネットワークを介して接続されてもよい。これら数値制御装置200と工作機械100の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
また、数値制御装置200と、行動情報学習装置300と、行動情報最適化装置400は、それぞれ接続インタフェースを介して直接に接続、又はそれぞれネットワーク500を介して接続されており、相互に通信を行うことが可能である。なお、ネットワーク500は、例えば、工場内に構築されたLANや、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク500における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
次に、行動情報学習システム1に含まれるこれら装置の機能について、図2を参照して説明する。ここで、図2は、各装置に含まれる機能ブロックを表すブロック図である。なお、各数値制御装置200はそれぞれ同等の機能を有しているため、図2では1台のみを図示する。同様に、各工作機械100や各行動情報学習装置300もそれぞれ同等の機能を有しているため、図2では1台のみを図示する。また、各装置間に存在するネットワーク500については、その図示を省略する。
工作機械100は、数値制御装置200に設定された加工プログラム及び数値制御装置200に設定されたパラメータ(例えば加減速の時定数、切削送り速度オーバライド値等)の設定値に基づいて、生成される動作指令にしたがって、例えば切削加工を行う工作機械である。工作機械100は、主軸モータ110と、温度測定部120と、サイクルカウンタ130を備える。
主軸モータ110は、切削加工を行うためのスピンドルモータである。主軸モータ110には、切削加工用の刃物(図示を省略する)が取り付けられており、主軸モータ110で回転する主軸(図示を省略する)と、この主軸を送り出す送り軸(図示を省略する)とによって切削加工を行う。
温度測定部120は、主軸モータ110の温度を測定する温度センサである。温度測定部120が測定した温度は、温度情報(主軸温度を示す値又は主軸温度の上昇量を示す値)として数値制御装置200に対して出力される。なお、温度測定部120は、主軸モータ110に内蔵されていてもよく、また主軸モータ110の近傍に設置されていてもよい。
サイクルカウンタ130は、工作機械100が所定の切削加工を行った場合に、この切削加工に要した加工時間であるサイクルタイムを計測するためのカウンタである。サイクルカウンタ130が計測したサイクルタイムは、数値制御装置200に対して出力される。
数値制御装置200は、工作機械100を制御することにより、工作機械100に所定の切削加工を行わせる装置である。また、数値制御装置200は、状態情報(「ステータス」ともいう)を行動情報学習装置300に対して送信する。更に、数値制御装置200は、行動情報(「アクション」)ともいう)を行動情報学習装置300から受信する。これら各情報の詳細については、行動情報学習装置300の機能ブロックの説明と併せて説明をする。
数値制御装置200は、モータ制御部210と、パラメータ設定部220と、プログラム修正部230と、を備える。
モータ制御部210は、加工プログラム及びパラメータ(例えば加減速の時定数、切削送り速度オーバライド値等)の設定値に基づいて動作指令を生成し、生成した動作指令を工作機械100に送出することにより、工作機械100の主軸モータ110等の駆動を制御する。これにより、工作機械100による切削加工が実現される。ここで、加工プログラムには、切削加工の条件(主軸の回転数、切削送りの速度、切削時間、及びそのままの状態で指定時間待機させるドウェル等)が定義されている。
パラメータ設定部220は、工作機械100の当該加工プログラムによる加工処理に関するパラメータを設定する部分である。工作機械100のパラメータとは、例えば加減速の時定数や、オーバライドに関するパラメータである。かかるパラメータの設定値は、行動情報学習装置300から出力される行動情報や、行動情報最適化装置400から出力される最適化行動情報に基づいて調整される。
プログラム修正部230は、加工プログラムを直接修正する。具体的には、プログラム修正部230は、当該加工プログラムで記述された切削送り速度やドウェル等を、行動情報学習装置300から出力される行動情報や、行動情報最適化装置400から出力される最適化行動情報に基づいて、プログラムコードを直接修正する。
以上、工作機械100及び数値制御装置200の機能ブロックについて説明したが、上述した機能ブロックは本実施形態の動作に特に関連する部分である。工作機械100及び数値制御装置200は、上述した機能ブロック以外にも一般的な機能ブロックを備えている。例えば、ワークを移動させるためのサーボモータや、サーボモータを制御するための制御部や、位置・速度フィードバック制御を行うための位置・速度検出器や、動作指令を増幅するモータ駆動アンプや、ユーザの操作を受け付けるための操作盤等を機能ブロックとして備えている。しかしながら、これらの一般的な機能ブロックについては当業者によく知られているので詳細な説明及び図示を省略する。
行動情報学習装置300は、強化学習を行う装置である。行動情報学習装置300に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における行動情報学習装置300に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。
このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、オーバーヒートの発生を回避しながらもサイクルタイムを短縮するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態sの下で、行動aを選択する価値Q(s,a)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態sと行動aとの組合せについて、価値Q(s,a)の正しい値は全く分かっていない。そこで、エージェントは、或る状態sの下で様々な行動aを選択し、その時の行動aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(s,a)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(s,a)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(s,a)の更新式は、例えば、次の式(1)により表すことができる。
Figure 0006453919
上記の式(1)において、sは、時刻tにおける環境の状態を表し、aは、時刻tにおける行動を表す。行動aにより、状態はst+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態st+1の下で、その時に分かっている最もQ値の高い行動aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した式(1)は、試行aの結果、返ってきた報酬rt+1を元に、状態sにおける行動aの価値Q(s,a)を更新する方法を表している。 この更新式は、状態sにおける行動aの価値Q(s,a)よりも、行動aによる次の状態st+1における最良の行動の価値max Q(st+1,a)の方が大きければ、Q(s,a)を大きくし、逆に小さければ、Q(s,a)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(s,a)についてのQ(s,a)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(s,a)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(s,a)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を行動情報学習装置300は行う。具体的には、行動情報学習装置300は、工作機械100において設定された加工プログラムの内容及び当該加工プログラム実行時におけるパラメータの組み合わせ等を状態sとして、当該状態sに係る当該加工プログラムの修正及びパラメータの調整を行動aとして選択する価値Qを学習する。
行動情報学習装置300は、工作機械100において設定された加工プログラム及びパラメータ等の状態sを観測して、行動aを決定する。行動情報学習装置300は、行動aをするたびに報酬が返ってくる。行動情報学習装置300は、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、行動情報学習装置300は、工作機械において設定された加工プログラムの内容及び当該加工プログラム実行時におけるパラメータの組合せ等である状態sに対して、最適な行動aを選択することが可能となる。
すなわち、行動情報学習装置300により学習された価値関数Qに基づいて、或る状態sに係る加工プログラム及びパラメータの組み合わせに対して、適用される行動aのうち、Qの値が最大となるような行動aを選択することで、オーバーヒートの発生を回避しながらも当該加工サイクルタイムが最短になるような行動aを選択することが可能となる。
以上の強化学習を行うために、行動情報学習装置300は、状態情報取得部310、行動情報出力部320、学習部330及び価値関数記憶部340を備える。
状態情報取得部310は、加工プログラムの内容及び当該加工プログラム実行時におけるパラメータの組合せ等である状態情報sを、数値制御装置200(及び/又は工作機械100)から取得する部分である。この状態情報sは、Q学習における、環境状態sに相当する。
具体的には、本実施形態における状態情報sには、工作機械100を制御するための加工プログラムの内容及び当該加工プログラム実行時におけるパラメータの組み合わせ、当該加工プログラム等による加工処理を実行する前の工作機械100の主軸温度、及び当該加工プログラム等による加工処理を実行する場合のサイクルタイムが含まれる。状態情報取得部310は、取得した状態情報sを学習部330に対して出力する。
また、状態情報取得部310は、Q学習を行うための報酬を算出するための判定情報も取得する。具体的には、状態情報sに係る加工プログラム及び当該加工プログラム実行時におけるパラメータの組み合わせを実行後の工作機械100の主軸温度、及び当該加工処理を実行した場合のサイクルタイムを、Q学習を行うための報酬を算出するための判定情報とする。
行動情報出力部320は、学習部330から入力される行動情報aを数値制御装置200に対して送信する部分である。数値制御装置200は上述したように、この行動情報に基づいて、現在の状態sすなわち現在設定されている加工プログラム及びパラメータを修正することで、次の状態s´(すなわち修正された加工プログラム、修正されたパラメータ、工作機械100の主軸温度、及び当該修正された加工プログラムと修正されたパラメータによる加工処理を実行した場合のサイクルタイムを含む状態)に遷移する。
学習部330は、或る環境状態sの下で、ある行動aを選択する場合の価値Q(s,a)を学習する部分である。具体的には、学習部330は、報酬計算部331、価値関数更新部332及び行動情報生成部333を備える。
報酬計算部331は、或る状態sの下で、行動aを選択した場合の報酬を判定情報に基づいて算出する部分である。ここで、本実施形態では、行動情報aにより修正された状態情報s´に係る修正後の加工プログラム及び当該修正後の加工プログラム実行時における修正後のパラメータ値に基づいて動作した工作機械100がオーバーヒートした場合に、報酬の値を負の値とする。
また、行動情報aにより修正された状態情報s´に係る修正後の加工プログラム及び当該修正後の加工プログラム実行時における修正後のパラメータ値に基づいて動作した工作機械100のサイクルタイムが、行動情報aにより修正される前の状態情報sに係る修正前の加工プログラム及び当該修正前の加工プログラム実行時における修正前のパラメータ値に基づいて動作した工作機械100のサイクルタイムよりも長くなった場合にも、報酬の値を負の値とする。
一方で、行動情報aにより修正された状態情報s´に係る修正後の加工プログラム及び当該修正後の加工プログラム実行時における修正後のパラメータ値に基づいて動作した工作機械100がオーバーヒートせず、且つ、サイクルタイムが行動情報aにより修正される前の状態情報sに係る修正前の加工プログラム及び当該修正前の加工プログラム実行時における修正前のパラメータ値に基づいて動作した工作機械100のサイクルタイムよりも短くなった場合に、報酬の値を正の値とする。
また、報酬の値については重みづけを与えるようにすると、例えば、オーバーヒートは、好ましくない状態であることから、オーバーヒートする場合の負の値の大きさをサイクルタイムが長くなった場合の負の値に比較して、大きくすることが好ましい。
また、行動aを実行後の状態s´のサイクルタイムが、前の状態sにおけるサイクルタイムより長くなった場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。つまりサイクルタイムが長くなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動aを実行後の状態s´のサイクルタイムが、前の状態sにおけるサイクルタイムより短くなった場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。つまりサイクルタイムが短くなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部332は、状態sと、行動aと、行動aを状態sに適用した場合の状態s´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部340が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
行動情報生成部333は、Q学習の過程において、工作機械100に様々な動作(Q学習における行動aに相当する。)を行わせるために、行動情報aを生成して、生成した行動情報aを行動情報出力部320に対して出力する。
具体的には、行動情報生成部333は、現在の状態sに対して、Q学習の過程における行動aを選択する。本実施形態における行動情報aには、現在の状態sに係る加工プログラムで記述された切削送り速度やドウェル等の修正情報、及び現在の状態sに係るパラメータ(例えば加減速の時定数、切削送り速度オーバライド値等)の設定値が含まれる。
行動情報生成部333は、例えば、状態sに含まれる加工プログラム及びパラメータに対して行動aに含まれる、切削送り速度やドウェル等の修正情報、及びパラメータ(例えば加減速の時定数、切削送り速度オーバライド値等)の設定値を適用して、状態s´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動a´としては、例えば、切削送り速度をインクレメンタルに増加、又は時定数をインクレメンタルに小さくする等、サイクルタイムがより短くなるような行動a´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部333は、次の行動a´としては、例えば、切削送り速度をインクレメンタルに減少、又は時定数をインクレメンタルに大きくする等、負荷がより少なくなるような行動a´を選択する方策を取るようにしてもよい。
また、行動情報生成部333は、現在の推定される行動aの価値の中で、最も価値Q(s,a)の高い行動a´を選択するグリーディ法や、ある小さな確率εでランダムに行動a´選択し、それ以外では最も価値Q(s,a)の高い行動a´を選択するεグリーディ法といった公知の方法により、行動a´を選択する方策を取るようにしてもよい。
価値関数記憶部340は、価値関数Qを記憶する記憶装置である。価値関数記憶部340に記憶された価値関数Qは、価値関数更新部332により更新される。また、価値関数記憶部340に記憶された価値関数Qは、他の行動情報学習装置300との間で共有されるようにしてもよい。価値関数Qを複数の行動情報学習装置300で共有するようにすれば、各行動情報学習装置300にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
行動情報最適化装置400は、価値関数更新部332がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(s,a)が最大となる動作を工作機械100に行わせるための行動情報a(以下、「最適化行動情報」と呼ぶ。)を生成する装置である。
行動情報最適化装置400は、最適化行動情報出力部410を備えている。
最適化行動情報出力部410は、価値関数記憶部340が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部332がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部410は、価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置200に対して出力する。この最適化行動情報には、行動情報出力部320がQ学習の過程において出力する行動情報と同様に、修正後の加工プログラム及び当該修正後の加工プログラム実行時における修正後のパラメータ値が含まれる。
数値制御装置200が、この最適化行動情報に基づいて現在設定されている加工プログラム及びパラメータを修正して、動作指令を生成することにより、工作機械100は、オーバーヒートの発生を回避しながらも当該加工サイクルタイムが最短になるように動作することができる。
以上、数値制御装置200や行動情報学習装置行動情報学習装置300や行動情報最適化装置400に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、数値制御装置200、行動情報学習装置行動情報学習装置300及び行動情報最適化装置400のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、数値制御装置200、行動情報学習装置行動情報学習装置300及び行動情報最適化装置400のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、数値制御装置200、行動情報学習装置行動情報学習装置300及び行動情報最適化装置400のそれぞれにおいて、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
具体例として、数値制御装置200は、一般的な数値制御装置に本実施形態を実現するためのアプリケーションソフトウェアを組み込むことにより実現できる。また、故障予測装置行動情報学習装置300や行動情報最適化装置400は、一般的なパーソナルコンピュータに本実施形態を実現するためのアプリケーションソフトウェアを組み込むことより実現できる。
ただし、行動情報学習装置300については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図3のフローチャートを参照して本実施形態におけるQ学習時の行動情報学習装置300の動作について説明をする。
まず、ステップ11において、状態情報取得部310が数値制御装置200から状態情報を取得する。取得した状態情報は、価値関数更新部332や行動情報生成部333に対して出力される。上述したように、この状態情報は、Q学習における状態sに相当する情報であり、ステップS11時点での、加工プログラムの内容とパラメータの設定値、工作機械100の主軸温度、及び当該加工プログラムおよびパラメータに基づいて加工処理した場合のサイクルタイムが含まれる。なお、最初にQ学習を開始する時点での加工プログラム及びパラメータの設定値は、予めユーザが生成するようにする。つまり、本実施形態では、ユーザが作成した加工プログラム及びパラメータの初期設定値を、強化学習により最適なものに調整する。
ステップ12において、行動情報生成部333が新たな行動情報を生成し、生成した新たな行動情報を、行動情報出力部320を介して数値制御装置200に対して出力する。行動情報を受信した数値制御装置200は、受信した行動情報に基づいて現在の状態sに係る加工プログラム及びパラメータを修正した状態s´により、工作機械100を駆動させて切削加工を行う。上述したように、この行動情報は、Q学習における行動aに相当するものである。ここで、行動情報には、例えば、切削送りの速度や、ドウェルの時間等を定義した加工プログラムの修正値と、加減速の時定数をはじめとするパラメータの設定値が含まれる点については上述した通りである。
ステップS13において、状態情報取得部310は、新たな状態s´についての判定情報を取得する。ここで、新たな状態s´には、状態s´に係る加工プログラム及びパラメータと、主軸の温度情報と、状態s´に係る加工処理を行うために要したサイクルタイムと、を含む。また、判定情報は、状態s´に係る加工処理行うことにより変化した温度情報と、状態s´に係る加工処理を行うために要したサイクルタイムと、を含む。取得した判定情報は、価値関数更新部332に対して出力される。
価値関数更新部332は、入力された判定情報に基づいて報酬を算出する。そのために、ステップ14において、価値関数更新部332は、判定情報に含まれる温度情報に基づいて、状態s´に係る加工プログラム及びパラメータを実行したことにより工作機械100の駆動部がオーバーヒートしたか否かを判定する。
ここで、オーバーヒートしているのであれば(ステップS14にてYes)、ステップS15において、報酬を第1の値とする。ここで、第1の値は負の値とする。一方で、オーバーヒートしていないのであれば(ステップS14にてNo)、ステップS16に進む。
ステップS16において、判定情報に含まれるサイクルタイムに基づいて、サイクルタイムが短くなったか否かを判定する。かかる判定は、状態s´の判定情報に含まれる、状態s´に係る加工処理を行うために要したサイクルタイムと、状態s´の前の状態である状態sの判定情報に含まれる、状態sに係る加工処理を行うために要したサイクルタイムとを比較することにより行うことができる。
ここで、サイクルタイムが短くなっているのであれば(ステップS16にてYes)、ステップS17において、報酬を第2の値とする。ここで、第2の値は正の値とする。一方で、サイクルタイムが短くなっていないのであれば(ステップS16にてNo)、ステップS18において、報酬を第3の値とする。ここで、第3の値は負の値とする。なお、上述したように、第1の値、第2の値、及び第3の値について重みづけを行うようにしてもよい。
ステップS15、ステップS17及びステップS18の何れかが終了すると、ステップS19において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部332が、価値関数記憶部340が記憶している価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS15はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図3を参照して説明した動作により、本実施形態では、オーバーヒートの発生を回避しながらもサイクルタイムを短縮するための行動情報を生成するための価値関数Qを生成することができる、という効果を奏する。
次に、図4のフローチャートを参照して、行動情報最適化装置400による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、行動情報最適化装置400の最適化行動情報出力部410は、価値関数記憶部340が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部332がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部410は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報を数値制御装置200に対して出力する。
以上のように、数値制御装置200が、この最適化行動情報に基づいて現在設定されている加工プログラム及びパラメータを修正して、動作指令を生成することにより、工作機械100は、オーバーヒートの発生を回避しながらも当該加工サイクルタイムが最短になるように動作することができる、という効果を奏する。
また、図4を参照して説明した動作により、本実施形態では、価値関数Qに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて現在設定されている加工プログラム及びパラメータを修正して、動作指令を生成することにより、オーバーヒートの発生を回避しながらもサイクルタイムを短縮して、工作機械100を制御することが可能となる、という効果も奏する。
この本実施形態の効果についてより詳細に説明する。前提として、加工プログラムを調整して、切削送りの速度を上げることで、サイクルタイムを短縮できる。一方で、切削送りの速度を下げることで、主軸の発熱を抑えることができる。また、加工プログラムを調整して、ドウェルを短くすることで、サイクルタイムを短縮できる。一方で、ドウェルを長くすることで、主軸の発熱を抑えることができる。更に、パラメータの設定値を調整して加減速の時定数を短くすることで、サイクルタイムを短縮できる。一方で、加減速の時定数を長くすることで、主軸の発熱を抑えることができる。
このように、サイクルタイムの短縮と主軸の発熱はトレードオフの関係にあることが多い。そのため、加工プログラムやパラメータの設定値を適切に調整することにより、オーバーヒートの発生を回避しながらもサイクルタイムを短縮することは困難である。
従って、一般的な技術では、オーバーヒートが発生しそうな場合に、対症療法的に駆動部を停止させたり、駆動部の速度を低下させたりしていた。
これに対して、本実施形態では、上述したように、加工プログラムやパラメータの設定値を調整しながら強化学習を行うことにより、オーバーヒートの発生を回避しながらもサイクルタイムを短縮することができる。すなわち、本実施形態は、一般的な技術に比べて、有利な効果を奏する。
なお、上記の行動情報学習システムに含まれる各装置のそれぞれは、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の行動情報学習システムに含まれる各装置のそれぞれの協働により行なわれる行動情報学習方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
また、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
上述した実施形態では、工作機械100として、切削加工を行う工作機械を例として挙げたが、これに限定されない。例えば研削加工、研磨加工、圧延加工、あるいは鍛造加工といった他の加工を行う工作機械を工作機械100としてもよい。
上述した実施形態では、行動情報学習装置300や行動情報最適化装置400を、工作機械100や数値制御装置200とは別体の装置により実現することを想定していたが、行動情報学習装置300や行動情報最適化装置400の機能の一部又は全部を工作機械100や数値制御装置200により実現するようにしてもよい。また、行動情報学習装置300及び行動情報最適化装置400の機能の双方を単一の装置により実現するようにしてもよい。
100 工作機械
110 主軸モータ
120 温度測定部
130 サイクルカウンタ
200 数値制御装置
210 モータ制御部
220 パラメータ設定部
300 行動情報学習装置
310 状態情報取得部
320 行動情報出力部
330 学習部
331 報酬計算部
332 価値関数更新部
333 行動情報生成部
340 価値関数記憶部
400 行動情報最適化装置
500 ネットワーク

Claims (6)

  1. 工作機械における加工に係る主軸の動作パターン及びパラメータの組合せであって、切削送りの速度及び主軸を指定時間待機させるドウェルの少なくとも何れかを含んだ動作パターンと、加減速の時定数及び切削送りの速度オーバライドの少なくとも何れかを含んだパラメータとの組合せを含む状態情報を取得する状態情報取得手段と、
    前記状態情報に含まれる前記動作パターン及び前記パラメータの組合せの調整情報を含む行動情報を出力する行動情報出力手段と、
    前記工作機械の温度及び前記工作機械の前記加工に係る加工時間についての情報である判定情報を取得し、該取得した判定情報に基づいて強化学習における報酬の値を出力する報酬計算手段と、
    前記報酬の値と、前記状態情報と、前記行動情報とに基づいて前記強化学習を行うことにより価値関数を更新する価値関数更新手段と、
    を備え
    前記報酬計算手段は、
    前記工作機械の温度が所定の温度以上である場合に前記報酬の値を第1の負の値とし、
    前記工作機械の温度が所定の温度未満であって前記工作機械の加工時間が前回の加工時間よりも短い場合に前記報酬の値を正の値とし、
    前記工作機械の温度が所定の温度未満であって前記工作機械の加工時間が前回の加工時間よりも長い場合に前記報酬の値を第2の負の値とする、
    行動情報学習装置。
  2. 前記報酬計算手段は、
    前記第1の負の値の大きさを、前記第2の負の値の大きさよりも大きくする、
    請求項1に記載の行動情報学習装置。
  3. 前記報酬計算手段は、
    前記工作機械の加工時間の前回の加工時間よりも短くなった度合いに応じて前記正の値を大きくし、
    前記前記工作機械の加工時間が前回の加工時間よりも長くなった度合いに応じて前記第2の負の値を大きくする、
    請求項1又は2に記載の行動情報学習装置。
  4. 他の行動情報学習装置との間で前記価値関数を共有し、
    前記価値関数更新手段が前記共有した価値関数を更新する請求項1からの何れか1項に記載の行動情報学習装置。
  5. 請求項1からの何れか1項に記載の行動情報学習装置と、行動情報最適化装置とを備える行動情報最適化システムであって、
    前記行動情報最適化装置は、
    前記価値関数更新手段により更新された価値関数に基づいて、前記工作機械による前記加工の価値を最大とするための行動情報である最適化行動情報を生成し、該生成した最適化行動情報を、前記工作機械に前記加工を行わせるために出力する、
    行動情報最適化システム。
  6. コンピュータを、請求項1からの何れか1項に記載の行動情報学習装置として機能させる行動情報学習プログラム。
JP2017011910A 2017-01-26 2017-01-26 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム Active JP6453919B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017011910A JP6453919B2 (ja) 2017-01-26 2017-01-26 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
US15/857,911 US10509397B2 (en) 2017-01-26 2017-12-29 Action information learning device, action information optimization system and computer readable medium
DE102018200794.2A DE102018200794B4 (de) 2017-01-26 2018-01-18 Aktionsinformations-lernvorrichtung, aktionsinformations-optimierungssystem und aktionsinformations-lernprogramm
CN201810069763.XA CN108363356B (zh) 2017-01-26 2018-01-24 行动信息学习装置、行动信息最优化系统以及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017011910A JP6453919B2 (ja) 2017-01-26 2017-01-26 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム

Publications (2)

Publication Number Publication Date
JP2018120453A JP2018120453A (ja) 2018-08-02
JP6453919B2 true JP6453919B2 (ja) 2019-01-16

Family

ID=62813121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017011910A Active JP6453919B2 (ja) 2017-01-26 2017-01-26 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム

Country Status (4)

Country Link
US (1) US10509397B2 (ja)
JP (1) JP6453919B2 (ja)
CN (1) CN108363356B (ja)
DE (1) DE102018200794B4 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6453921B2 (ja) * 2017-02-03 2019-01-16 ファナック株式会社 学習モデル構築装置、及び制御情報最適化装置
US11042145B2 (en) * 2018-06-13 2021-06-22 Hitachi, Ltd. Automatic health indicator learning using reinforcement learning for predictive maintenance
JP7011239B2 (ja) * 2018-08-17 2022-01-26 横河電機株式会社 装置、方法、プログラム、および、記録媒体
JP6856591B2 (ja) * 2018-09-11 2021-04-07 ファナック株式会社 制御装置、cnc装置及び制御装置の制御方法
WO2020110250A1 (ja) * 2018-11-29 2020-06-04 三菱電機株式会社 無線通信装置、無線通信システムおよび無線通信プログラム
JP7302226B2 (ja) * 2019-03-27 2023-07-04 株式会社ジェイテクト 研削盤の支援装置及び支援方法
JP7010877B2 (ja) 2019-04-25 2022-01-26 ファナック株式会社 機械学習装置、数値制御システム及び機械学習方法
WO2021092490A1 (en) * 2019-11-06 2021-05-14 D.P. Technology Corp. Systems and methods for virtual environment for reinforcement learning in manufacturing
CN110779132A (zh) * 2019-11-13 2020-02-11 垚控科技(上海)有限公司 一种基于强化学习的空调系统的水泵设备运行控制系统
DE112021004692T5 (de) 2020-10-13 2023-07-06 Fanuc Corporation Maschinelle Lernvorrichtung, eine Steuervorrichtung und ein maschinelles Lernverfahren
JP2022070134A (ja) * 2020-10-26 2022-05-12 株式会社神戸製鋼所 機械学習方法、機械学習装置、機械学習プログラム、通信方法、及び樹脂処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6063013A (ja) * 1984-07-31 1985-04-11 松下電器産業株式会社 電気湯沸し器
JPH0991025A (ja) * 1995-09-26 1997-04-04 Fanuc Ltd 動作デューティを考慮したロボットの最短時間制御方法
JP3902710B2 (ja) * 1999-03-24 2007-04-11 株式会社牧野フライス製作所 数値制御による工作機械の制御方法及び装置
JP2003005836A (ja) * 2001-06-22 2003-01-08 Yamazaki Mazak Corp 自己保護機能付き駆動装置
DE10348608B4 (de) * 2003-10-20 2016-05-19 Siemens Aktiengesellschaft Überwachungssystem und Verfahren für eine Spindel
JP4525477B2 (ja) * 2005-02-23 2010-08-18 ソニー株式会社 学習制御装置および学習制御方法、並びに、プログラム
JP2006309519A (ja) * 2005-04-28 2006-11-09 Institute Of National Colleges Of Technology Japan 強化学習システム、及び強化学習プログラム
US9373163B2 (en) * 2010-06-28 2016-06-21 Precitec Kg Method for controlling a laser processing operation by means of a reinforcement learning agent and laser material processing head using the same
DE102010030691A1 (de) 2010-06-30 2012-01-05 Trumpf Werkzeugmaschinen Gmbh + Co. Kg Dialogsystem und Verfahren zur Untersuchung eines Bearbeitungsprozesses
JP5566469B2 (ja) * 2010-10-27 2014-08-06 株式会社牧野フライス製作所 数値制御方法
US8855804B2 (en) * 2010-11-16 2014-10-07 Mks Instruments, Inc. Controlling a discrete-type manufacturing process with a multivariate model
JP5750657B2 (ja) * 2011-03-30 2015-07-22 株式会社国際電気通信基礎技術研究所 強化学習装置、制御装置、および強化学習方法
JP5199440B1 (ja) * 2011-11-04 2013-05-15 ファナック株式会社 放電加工機の加工条件調整装置
US9008840B1 (en) * 2013-04-19 2015-04-14 Brain Corporation Apparatus and methods for reinforcement-guided supervised learning
EP2839932A1 (de) 2013-08-19 2015-02-25 HILTI Aktiengesellschaft Erholungsdrehzahl für Diamantkernbohrgeräte nach Temperaturabschaltung (Motorüberhitzung)
JP6234187B2 (ja) * 2013-11-27 2017-11-22 三菱電機株式会社 数値制御装置
US20150370227A1 (en) * 2014-06-19 2015-12-24 Hany F. Bassily Controlling a Target System
US10465931B2 (en) * 2015-01-30 2019-11-05 Schneider Electric It Corporation Automated control and parallel learning HVAC apparatuses, methods and systems
JP6063013B1 (ja) * 2015-08-27 2017-01-18 ファナック株式会社 びびり或いは工具摩耗/破損の発生を抑制する加工条件調整機能を有する数値制御装置

Also Published As

Publication number Publication date
CN108363356B (zh) 2019-07-09
US20180210431A1 (en) 2018-07-26
CN108363356A (zh) 2018-08-03
JP2018120453A (ja) 2018-08-02
US10509397B2 (en) 2019-12-17
DE102018200794A1 (de) 2018-07-26
DE102018200794B4 (de) 2024-06-06

Similar Documents

Publication Publication Date Title
JP6453919B2 (ja) 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム
JP6453921B2 (ja) 学習モデル構築装置、及び制御情報最適化装置
JP6474456B2 (ja) 機械学習装置、サーボ制御システム及び機械学習方法
US10921774B2 (en) Machine learning devices and methods for optimizing the speed and accuracy of thread mill, inner diameter, outer shape, and surface machine tools
US10730182B2 (en) Action information learning device, robot control system and action information learning method
JP7010877B2 (ja) 機械学習装置、数値制御システム及び機械学習方法
US10824121B2 (en) Machine learning device, servo motor controller, servo motor control system, and machine learning method
JP6564432B2 (ja) 機械学習装置、制御システム、制御装置、及び機械学習方法
US20180373223A1 (en) Machine learning apparatus, servo control apparatus, servo control system, and machine learning method
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
US10901396B2 (en) Machine learning device, control device, and machine learning method
US11592789B2 (en) Output device, control device, and method for outputting evaluation functions and machine learning results
JP6901450B2 (ja) 機械学習装置、制御装置及び機械学習方法
JP6784722B2 (ja) 出力装置、制御装置、及び評価関数値の出力方法
JP2019185529A (ja) 機械学習装置、制御装置、及び機械学習方法
US11914333B2 (en) Machine learning device, servo control device, servo control system, and machine learning method
JP2019185742A (ja) 制御装置及び制御方法
JP6806746B2 (ja) モータ制御装置
JP2020134960A (ja) 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP7436632B2 (ja) 機械学習装置、数値制御システム、設定装置、数値制御装置、及び機械学習方法

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181213

R150 Certificate of patent or registration of utility model

Ref document number: 6453919

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150