JP2019008472A - 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 - Google Patents
機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 Download PDFInfo
- Publication number
- JP2019008472A JP2019008472A JP2017122449A JP2017122449A JP2019008472A JP 2019008472 A JP2019008472 A JP 2019008472A JP 2017122449 A JP2017122449 A JP 2017122449A JP 2017122449 A JP2017122449 A JP 2017122449A JP 2019008472 A JP2019008472 A JP 2019008472A
- Authority
- JP
- Japan
- Prior art keywords
- backlash
- value
- correction
- servo control
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/404—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/416—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control of velocity, acceleration or deceleration
- G05B19/4163—Adaptive control of feed or cutting velocity
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B23—MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
- B23Q—DETAILS, COMPONENTS, OR ACCESSORIES FOR MACHINE TOOLS, e.g. ARRANGEMENTS FOR COPYING OR CONTROLLING; MACHINE TOOLS IN GENERAL CHARACTERISED BY THE CONSTRUCTION OF PARTICULAR DETAILS OR COMPONENTS; COMBINATIONS OR ASSOCIATIONS OF METAL-WORKING MACHINES, NOT DIRECTED TO A PARTICULAR RESULT
- B23Q15/00—Automatic control or regulation of feed movement, cutting velocity or position of tool or work
- B23Q15/007—Automatic control or regulation of feed movement, cutting velocity or position of tool or work while the tool acts upon the workpiece
- B23Q15/12—Adaptive control, i.e. adjusting itself to have a performance which is optimum according to a preassigned criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
- G05B13/0245—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance not using a perturbation signal
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/36—Nc in input of data, input key till input tape
- G05B2219/36521—Select by combination of detected force, acceleration, speed, work rate
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/41—Servomotor, servo controller till figures
- G05B2219/41032—Backlash
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/41—Servomotor, servo controller till figures
- G05B2219/41054—Using neural network techniques
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/41—Servomotor, servo controller till figures
- G05B2219/41078—Backlash acceleration compensation when inversing, reversing direction
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/41—Servomotor, servo controller till figures
- G05B2219/41386—System identifier adapts coefficients tables for state and observer controller
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Automation & Control Theory (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Manufacturing & Machinery (AREA)
- Mechanical Engineering (AREA)
- Numerical Control (AREA)
- Feedback Control In General (AREA)
Abstract
Description
(第1の実施形態)
図1は発明の第1の実施形態のサーボ制御システムを示すブロック図である。サーボ制御システム10は、図1に示すように、例えばn台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク400を備えている。なお、nは任意の自然数である。
なお、ネットワーク400は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク400における具体的な通信方式や、有線接続及び無線接続の何れであるか等については、特に限定されない。
制御対象300は例えばサーボモータ、サーボモータを含む工作機械,ロボット,産業機械等である。サーボ制御装置100は工作機械,ロボット,産業機械等の一部として設けられてもよい。
サーボ制御装置100は、位置指令作成部101、減算器102、加算器103、位置制御部104、減算器105、加算器106、速度制御部107、積分器108、バックラッシ補正部109、及びバックラッシ加速補正部110を備えている。
位置指令作成部101は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。
以上のように、サーボ制御装置100は構成される。
図3は制御対象300の一例となる、サーボモータを含む工作機械を示すブロック図である。
サーボ制御装置100は、サーボモータ302で連結機構303を介してテーブル304を移動させ、テーブル304の上に搭載された被加工物(ワーク)を加工する。連結機構303は、サーボモータ302に連結されたカップリング3031と、カップリング3031に固定されるボールねじ3033とを有し、ボールねじ3033にナット3032が螺合されている。サーボモータ302の回転駆動によって、ボールねじ3033に螺着されたナット3032がボールねじ3033の軸方向に移動する。
図4Aは、学習時の加工プログラムにより指定される加工形状が円形の場合のサーボモータの動作を説明するための図である。図4Bは、学習時の加工プログラムにより指定される加工形状が四角の場合のサーボモータの動作を説明するための図である。図4Cは、学習時の加工プログラムにより指定される加工形状が角R付き四角の場合のサーボモータの動作を説明するための図である。図4A〜図4Cにおいて、被加工物(ワーク)が時計まわりに加工されるようにテーブルが移動する。
図4Dに示すように、テーブルをY軸方向に移動するサーボモータの回転方向が位置A1で反転しようとした時に、機械要素間の抵触面にガタが存在することにより、軌跡の回転中心がずれてしまう。また、摩擦によって反転遅れが生じることにより、半径方向に軌跡誤差が拡大し、軌跡誤差の拡大表示を行うと軌跡誤差が突起として見える。回転中心のずれに対しては、バックラッシ補正が必要であり、突起の解消に対しては、バックラッシ加速補正が必要である。
以上のように、学習時の加工プログラムにより指定される加工形状により、回転方向が反転したり、回転状態から停止したりする場合に生ずる惰走(惰性で動作する)を評価し、位置偏差に対する影響を調べることができる。
機械学習装置200に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習装置200に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
この更新式は、状態stにおける行動atの価値Q(st,at)よりも、行動atによる次の状態st+1における最良の行動の価値maxa Q(st+1,a)の方が大きければ、Q(st,at)を大きくし、逆に小さければ、Q(st,at)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
なお、本実施形態では、バックラッシ補正部109が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、及びバックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータについて同時に学習するのではなく、先ずバックラッシ補正パラメータを対象とする強化学習(「第1の強化学習」ともいう)を行う。第1の強化学習により、最適なバックラッシ補正パラメータを算出すると、当該バックラッシ補正パラメータをバックラッシ補正部109に設定したうえで、バックラッシ加速補正部110がバックラッシ加速補正量を作成する際に用いるバックラッシ加速補正パラメータを対象とする強化学習(「第2の強化学習」ともいう)を行う。
こうすることで、強化学習を効率的に行うことができる。
まず、第1の強化学習について説明する。第1の強化学習において、機械学習装置200は、サーボ制御装置100におけるバックラッシ補正部109が作成するバックラッシ補正量の算出に用いるバックラッシ補正パラメータ、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置100の位置偏差情報を含むサーボ状態を状態sとして、当該状態sに係る、バックラッシ補正パラメータの調整を行動aとして選択する価値Qを学習する。なお、第1の強化学習時においては、バックラッシ加速補正を省略してもよい。
機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、バックラッシ補正パラメータP0に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させることで得られるサーボ制御装置100の位置偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a、すなわち、バックラッシ補正パラメータP0を選択することが可能となる。
例えば、サーボモータの回転方向が反転した後、反転後の移動量が固定値L0に達するまでは補正を行わず、移動量が固定値L0に達した時点において、補正量がバックラッシ補正パラメータP0のバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、バックラッシ補正パラメータとしてP0及びL0を対象として強化学習を行ってもよい。
この場合、行動aは、バックラッシ補正パラメータP0及びL0の調整となる。
また、サーボモータの回転方向が右方向(順方向)か、左方向(逆方向)かによって、補正量及び/又は移動量として、右方向(順方向)のバックラッシ補正パラメータ及び左方向(逆方向)のバックラッシ補正パラメータによるバックラッシ補正を実行するケースについて強化学習を行ってもよい。すなわち、右方向(順方向)のバックラッシ補正パラメータ及び左方向(逆方向)のバックラッシ補正パラメータを対象として強化学習を行ってもよい。
図5は第1の強化学習を行う場合の機械学習装置200を示すブロック図である。
上述した第1の強化学習を行うために、図5に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、取得した状態情報sを学習部202に対して出力する。
なお、最初にQ学習を開始する時点での、バックラッシ補正パラメータP0は、予めユーザが生成するようにする。本実施形態では、ユーザが作成したバックラッシ補正パラメータP0の初期設定値を、強化学習により最適なものに調整する。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
なお、行動情報aにより修正された状態情報s´に係る修正後のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s´))が、行動情報aにより修正される前の状態情報sに係る修正前のバックラッシ補正部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(s))と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
また、各係数の値をランダムに設定してもよい。
行動価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に行動価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集したすべての学習用データを用いて、行動価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに行動価値関数Qの更新を行うという学習方法である。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している行動価値関数Qを取得する。この行動価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、行動価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(バックラッシ補正部109)に対して出力する。この最適化行動情報には、行動情報出力部203AがQ学習の過程において出力する行動情報と同様に、バックラッシ補正部109の係数P0を修正する情報が含まれる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100のバックラッシ補正部109に設定されたバックラッシ補正パラメータP0の最適化を容易にすることができる。
次に、第1の強化学習に続いて、バックラッシ加速補正部110におけるバックラッシ加速補正パラメータを対象として強化学習(第2の強化学習)を行う場合について説明する。
前述したように、第1の強化学習により算出された、最適なバックラッシ補正パラメータをバックラッシ補正部109に設定したうえで、第2の強化学習を行う。
図6に示す台形型加速に基づく補正を適用する場合、加速量V0、計算開始時間TZ、加速時間T0、加速時間T1、及び減衰係数αは、それぞれ速度指令の符号反転直後の加速度xの平方根√|x|に応じて、以下の式(1)〜式(6)のように定められる。ここで、ai、bi、ci(1≦i≦5)は、バックラッシ加速補正のためのパラメータである。なお、加速時間T2については、加速度xの平方根√|x|に依存しない定数パラメータである。
V0=a1・√|x|・H1/2(b1−√|x|)
+a1・b1・H1/2(√|x|−b1)
+c1 (式1)
TZ=a2・√|x|・H1/2(b2−√|x|)
+a2・b2・H1/2(√|x|−b2)
+c2 (式2)
T0=a3・√|x|・H1/2(b3−√|x|)
+a3・b3・H1/2(√|x|−b3)
+c3 (式3)
T1=a4・√|x|・H1/2(b4−√|x|)
+a4・b4・H1/2(√|x|−b4)
+c4 (式4)
α= a5・√|x|・H1/2(b5−√|x|)
+a5・b5・H1/2(√|x|−b5)
+c5 (式5)
ここで、H1/2(x)は、以下の値をとるヘヴィサイドの階段関数である。
H1/2(x)=0 (x<0)
H1/2(0)=1/2
H1/2(x)=1 (x>0)
(式6)
ai、bi(6≦i≦15)、ci(6≦i≦21)が、バックラッシ加速補正のためのパラメータであって、例えば、加速量V0と加速度xの平方根√|x|との関係が図7Bのグラフに示す関係となる場合、0≦√|x|<b6の範囲において、グラフの傾きをa6(>0)、y切片をc6(>0)とすると
V0=a6√|x|+c6
となる。
b6≦√|x|<b7の範囲において、グラフの傾きがa7(>0)、y切片がc7(>0)であって、a7≠a6、c7≠c6とすると、
V0=a7√|x|+c7
となる。
なお、√|x|=b6のとき、a6×b6+c6=a7×b6+c7=c8となる。
b7≦√|x|の範囲においては、c9>0とすると、
V0=c9
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
V0=(a6√|x|+c6)・H1/2(b6−√|x|)
+(a7√|x|+c7)・H1/2((√|x|−b6)(b7−√|x|))
+c9・H1/2(√|x|−b7) (式7)
となる。
TZ=(a8√|x|+c10)・H1/2(b8−√|x|)
+(a9√|x|+c11)・H1/2((√|x|−b8)(b9−√|x|))
+c12・H1/2(√|x|−b9) (式8)
T0=(a10√|x|+c13)・H1/2(b10−√|x|)
+(a11√|x|+c14)・H1/2((√|x|−b10)(b11−√|x|))
+c15・H1/2(√|x|−b11) (式9)
T1=(a12√|x|+c16)・H1/2(b12−√|x|)
+(a13√|x|+c17)・H1/2((√|x|−b12)(b13−√|x|))
+c18・H1/2(√|x|−b13) (式10)
α=(a14√|x|+c19)・H1/2(b14−√|x|)
+(a15√|x|+c20)・H1/2((√|x|−b14)(b15−√|x|))
+c21・H1/2(√|x|−b15) (式11)
V0=a16√|x|+c22
となる。
b16≦√|x|<b17の範囲において、グラフの傾きがa17(<0)、y切片がc23(>0)であって、c23≠c22とすると、
V0=a17√|x|+c23
なお、√|x|=b16のとき、a16×b16+c22=a17×b16+c23=c25となる。
b17≦√|x|の範囲においては、c24>0とすると、
V0=c24
と常に定数となる。
これを、上記と同様に、ヘヴィサイドの階段関数を用いて表すと、
V0=(a16√|x|+c22)・H1/2(b16−√|x|)
+(a17√|x|+c23)・H1/2((√|x|−b16)(b17−√|x|))
+c24・H1/2(√|x|−b17) (式12)
となる。
TZ=(a18√|x|+c26)・H1/2(b18−√|x|)
+(a19√|x|+c27)・H1/2((√|x|−b18)(b19−√|x|))
+c28・H1/2(√|x|−b19) (式13)
T0=(a20√|x|+c29)・H1/2(b20−√|x|)
+(a21√|x|+c30)・H1/2((√|x|−b20)(b21−√|x|))
+c31・H1/2(√|x|−b21) (式14)
T1=(a22√|x|+c32)・H1/2(b22−√|x|)
+(a23√|x|+c33)・H1/2((√|x|−b22)(b23−√|x|))
+c34・H1/2(√|x|−b23) (式15)
α=(a24√|x|+c35)・H1/2(b24−√|x|)
+(a25√|x|+c36)・H1/2((√|x|−b24)(b25−√|x|))
+c37・H1/2(√|x|−b25) (式16)
と表わすことが可能である。
機械学習装置200は、行動aをするたびに報酬が返ってくる。機械学習装置200は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置200は、バックラッシ加速補正パラメータai、bi、ci、及び加速時間T2に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させることで得られるサーボ制御装置100の位置偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a、すなわち、バックラッシ加速補正パラメータai、bi、ci、及び加速時間T2を選択することが可能となる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100のバックラッシ加速補正部110のバックラッシ加速補正パラメータ調整を簡易化することができる。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
次に、図8のブロック図、図9のフローチャートを参照してバックラッシ補正パラメータを対象とする第1の強化学習時の機械学習装置200の動作について説明をする。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
まず、ステップS21において、最適化行動情報出力部205は、価値関数記憶部204に記憶している行動価値関数Qを取得する。行動価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
このようにして、第1の強化学習を終了する。
機械学習装置200は、バックラッシ加速補正パラメータを対象とした第2の強化学習時にも、図9のフローチャートと同様の動作フローにより、バックラッシ加速補正パラメータai、bi、ci、及びT2の最適な値を容易に取得することができる。
そして、機械学習装置200は、バックラッシ加速補正パラメータai、bi、ci及び加速時間T2の調整情報を含む行動情報をバックラッシ加速補正部110に対して出力し、当該行動情報に基づいて、学習時の加工プログラムをサーボ制御装置100に実行させて、位置偏差情報を観測する。
このようにして、第2の強化学習時に、バックラッシ加速補正パラメータai、bi、ci、及びT2の最適な値を容易に取得することができる。
バックラッシ加速補正パラメータを対象とした第2の強化学習後には、図12の太線で示されるように、バックラッシ加速補正部110は、加算器106に対して、第2の強化学習で最適化されたバックラッシ加速補正パラメータai、bi、ci、及びT2を適用して、バックラッシ加速補正量を出力する。
上述した実施形態では、機械学習装置200を、サーボ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
上述した実施形態では、機械学習装置200とサーボ制御装置100とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置200が複数のサーボ制御装置100とネットワーク400を介して通信可能に接続され、各サーボ制御装置100の機械学習を実施するようにしてもよい。
その際、機械学習装置200の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
100 サーボ制御装置
101 位置指令作成部
102 減算器
103 加算器
104 位置制御部
105 減算器
106 加算器
107 速度制御部
108 積分器
109 バックラッシ補正部
110 バックラッシ加速補正部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 制御対象
400 ネットワーク
2021 報酬出力部
2022 価値関数更新部
2023 行動情報生成部
Claims (7)
- 位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段及び/又は、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段を備える、サーボ制御装置に対して、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置であって、
前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力手段と、
前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。 - 前記バックラッシ補正手段におけるバックラッシ補正パラメータを対象として強化学習を行った後に、前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを対象として強化学習を行う、請求項1に記載の機械学習装置。
- 前記報酬出力手段は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項1又は請求項2に記載の機械学習装置。
- 前記価値関数更新手段により更新された行動価値関数に基づいて、前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段における前記バックラッシ加速補正パラメータを生成して出力する最適化行動情報出力手段を備えた請求項1から請求項3の何れか1項に記載の機械学習装置。
- 請求項1〜4の何れか1項に記載の機械学習装置を含む前記サーボ制御装置。
- 請求項1〜4の何れか1項に記載の機械学習装置と、前記サーボ制御装置と、を備えたサーボ制御システム。
- 位置指令又は位置偏差に対するバックラッシ補正量を作成するバックラッシ補正手段と、速度指令に対するバックラッシ加速補正量を作成するバックラッシ加速補正手段とを備える、サーボ制御装置に対して前記バックラッシ補正手段におけるバックラッシ補正パラメータ及び/又は前記バックラッシ加速補正手段におけるバックラッシ加速補正パラメータを対象とする強化学習を行う機械学習装置の機械学習方法であって、
前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータの調整情報を含む行動情報を前記バックラッシ補正手段及び/又は前記バックラッシ加速補正手段に対して出力する行動情報出力ステップと、
前記行動情報に基づいて、所定の加工プログラムを前記サーボ制御装置に実行させた場合における、前記位置指令と位置フィードバックから得られる位置偏差と、前記バックラッシ補正パラメータ及び/又は前記バックラッシ加速補正パラメータと、を含む状態情報を前記サーボ制御装置から取得する状態情報取得ステップと、
前記状態情報に含まれる前記位置偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
を備える機械学習方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017122449A JP6499720B2 (ja) | 2017-06-22 | 2017-06-22 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
US15/997,043 US10747193B2 (en) | 2017-06-22 | 2018-06-04 | Machine learning apparatus, servo control apparatus, servo control system, and machine learning method |
DE102018209951.0A DE102018209951A1 (de) | 2017-06-22 | 2018-06-20 | Maschinenlerngerät, servosteuergerät, servosteuersystem und maschinenlernverfahren |
CN201810638894.5A CN109116811B (zh) | 2017-06-22 | 2018-06-20 | 机器学习装置和方法、伺服控制装置、伺服控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017122449A JP6499720B2 (ja) | 2017-06-22 | 2017-06-22 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019008472A true JP2019008472A (ja) | 2019-01-17 |
JP6499720B2 JP6499720B2 (ja) | 2019-04-10 |
Family
ID=64692544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017122449A Active JP6499720B2 (ja) | 2017-06-22 | 2017-06-22 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10747193B2 (ja) |
JP (1) | JP6499720B2 (ja) |
CN (1) | CN109116811B (ja) |
DE (1) | DE102018209951A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6800384B1 (ja) * | 2020-03-04 | 2020-12-16 | 三菱電機株式会社 | 位置決め制御装置および位置決め方法 |
JP2021039648A (ja) * | 2019-09-05 | 2021-03-11 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
JPWO2021260921A1 (ja) * | 2020-06-26 | 2021-12-30 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6474449B2 (ja) * | 2017-04-07 | 2019-02-27 | ファナック株式会社 | 調整装置及び調整方法 |
JP6646025B2 (ja) * | 2017-09-15 | 2020-02-14 | ファナック株式会社 | 制御装置及び機械学習装置 |
JP7181753B2 (ja) * | 2018-10-12 | 2022-12-01 | 株式会社アドバンテスト | 解析装置、解析方法および解析プログラム |
JP2020095586A (ja) * | 2018-12-14 | 2020-06-18 | 富士通株式会社 | 強化学習方法、および強化学習プログラム |
CN109799701B (zh) * | 2018-12-29 | 2022-04-29 | 南京埃斯顿机器人工程有限公司 | 一种工业机器人振动抑制方法 |
JP7010877B2 (ja) * | 2019-04-25 | 2022-01-26 | ファナック株式会社 | 機械学習装置、数値制御システム及び機械学習方法 |
JP7181849B2 (ja) * | 2019-10-31 | 2022-12-01 | 横河電機株式会社 | 装置、方法およびプログラム |
JP7483013B2 (ja) * | 2020-01-17 | 2024-05-14 | シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレイテッド | 運動制御システムにおけるバックラッシュ補償 |
CN111516695B (zh) * | 2020-03-23 | 2021-10-26 | 浙江吉利汽车研究院有限公司 | 一种车辆输出扭矩的控制方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093982A (ja) * | 2010-10-27 | 2012-05-17 | Makino Milling Mach Co Ltd | 象限突起補正方法 |
JP2017064837A (ja) * | 2015-09-29 | 2017-04-06 | ファナック株式会社 | 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6611823B1 (en) * | 2000-04-20 | 2003-08-26 | Board Of Regents, The University Of Texas System | Backlash compensation using neural network |
JP2003048136A (ja) * | 2001-08-09 | 2003-02-18 | Mori Seiki Co Ltd | 送り装置の制御方法及び制御装置 |
CN1258431C (zh) | 2004-03-31 | 2006-06-07 | 清华大学 | 数控机床误差补偿方法及其系统 |
JP2008225780A (ja) * | 2007-03-12 | 2008-09-25 | Okuma Corp | 工作機械における旋回軸のバックラッシ補正方法 |
JP5404507B2 (ja) | 2010-04-05 | 2014-02-05 | 三菱電機株式会社 | 補正パラメータ調整装置 |
KR101827572B1 (ko) * | 2011-05-13 | 2018-02-08 | 두산공작기계 주식회사 | 공작기계의 백래시 자동 검출과 보상을 위한 방법 및 장치 |
CN103331310A (zh) | 2013-07-13 | 2013-10-02 | 吉林大学 | 镁合金板材轧制参数监测与故障诊断系统及方法 |
JP5905521B2 (ja) * | 2014-06-26 | 2016-04-20 | ファナック株式会社 | 工具先端点制御中に生じるバックラッシを抑制することを特徴とする数値制御装置 |
JP6374274B2 (ja) | 2014-09-04 | 2018-08-15 | 国立大学法人長岡技術科学大学 | 制御装置及び減速機システム |
JP6088581B2 (ja) | 2015-06-04 | 2017-03-01 | ファナック株式会社 | 主軸と送り軸との同期運転を制御する工作機械の制御装置及び制御方法 |
CN106338970B (zh) | 2016-11-17 | 2018-09-07 | 沈阳工业大学 | 一种五轴联动数控机床伺服系统控制方法 |
CN106763311B (zh) * | 2017-02-15 | 2019-04-12 | 三环集团有限公司 | 一种具有间隙补偿功能的全盘式制动器 |
-
2017
- 2017-06-22 JP JP2017122449A patent/JP6499720B2/ja active Active
-
2018
- 2018-06-04 US US15/997,043 patent/US10747193B2/en active Active
- 2018-06-20 CN CN201810638894.5A patent/CN109116811B/zh active Active
- 2018-06-20 DE DE102018209951.0A patent/DE102018209951A1/de active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012093982A (ja) * | 2010-10-27 | 2012-05-17 | Makino Milling Mach Co Ltd | 象限突起補正方法 |
JP2017064837A (ja) * | 2015-09-29 | 2017-04-06 | ファナック株式会社 | 電動機に対する動作指令を学習する機械学習方法および機械学習装置並びに該機械学習装置を備えた工作機械 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021039648A (ja) * | 2019-09-05 | 2021-03-11 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
JP7405537B2 (ja) | 2019-09-05 | 2023-12-26 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
US11914333B2 (en) | 2019-09-05 | 2024-02-27 | Fanuc Corporation | Machine learning device, servo control device, servo control system, and machine learning method |
JP6800384B1 (ja) * | 2020-03-04 | 2020-12-16 | 三菱電機株式会社 | 位置決め制御装置および位置決め方法 |
WO2021176619A1 (ja) * | 2020-03-04 | 2021-09-10 | 三菱電機株式会社 | 位置決め制御装置および位置決め方法 |
JPWO2021260921A1 (ja) * | 2020-06-26 | 2021-12-30 | ||
WO2021260921A1 (ja) * | 2020-06-26 | 2021-12-30 | 三菱電機株式会社 | バックラッシ量測定装置、学習済みの学習モデル生成装置、学習用データ生成装置、バックラッシ量測定方法、学習済みの学習モデル生成方法、学習用データ生成方法、バックラッシ量測定プログラム、学習済みの学習モデル生成プログラム、及び学習用データ生成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6499720B2 (ja) | 2019-04-10 |
DE102018209951A1 (de) | 2019-02-21 |
US10747193B2 (en) | 2020-08-18 |
US20180373223A1 (en) | 2018-12-27 |
CN109116811B (zh) | 2020-11-27 |
CN109116811A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6499720B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6490127B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
CN109274314B (zh) | 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法 | |
US10824121B2 (en) | Machine learning device, servo motor controller, servo motor control system, and machine learning method | |
JP6748135B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6490131B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6474449B2 (ja) | 調整装置及び調整方法 | |
JP6474456B2 (ja) | 機械学習装置、サーボ制御システム及び機械学習方法 | |
US11087509B2 (en) | Output device, control device, and evaluation function value output method | |
JP6740279B2 (ja) | 調整装置及び調整方法 | |
JP6740278B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
US11914333B2 (en) | Machine learning device, servo control device, servo control system, and machine learning method | |
JP2020035213A (ja) | 機械学習装置、制御システム及び機械学習方法 | |
CN111722530B (zh) | 机器学习装置、控制系统以及机器学习方法 | |
JP6740263B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
JP6740290B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20181109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6499720 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |