JP2021039648A - 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 - Google Patents
機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 Download PDFInfo
- Publication number
- JP2021039648A JP2021039648A JP2019161883A JP2019161883A JP2021039648A JP 2021039648 A JP2021039648 A JP 2021039648A JP 2019161883 A JP2019161883 A JP 2019161883A JP 2019161883 A JP2019161883 A JP 2019161883A JP 2021039648 A JP2021039648 A JP 2021039648A
- Authority
- JP
- Japan
- Prior art keywords
- servo control
- control unit
- unit
- information
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 161
- 238000012937 correction Methods 0.000 claims abstract description 202
- 230000006870 function Effects 0.000 claims abstract description 130
- 238000011156 evaluation Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims abstract description 34
- 230000002787 reinforcement Effects 0.000 claims abstract description 19
- 230000009471 action Effects 0.000 claims description 106
- 238000005457 optimization Methods 0.000 claims description 15
- 230000004069 differentiation Effects 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/414—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
- G05B19/4142—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller characterised by the use of a microprocessor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/414—Structure of the control system, e.g. common controller or multiprocessor systems, interface to servo, programmable interface controller
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/34—Director, elements to supervisory
- G05B2219/34013—Servocontroller
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Manufacturing & Machinery (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Hardware Design (AREA)
- Numerical Control (AREA)
- Feedback Control In General (AREA)
- Control Of Position Or Direction (AREA)
Abstract
【解決手段】複数の軸に対応する複数のサーボ制御部に対して、機械学習を行う機械学習装置であって、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正部を備え、
機械学習装置は、第1のサーボ制御部の第1のサーボ制御情報と、第2のサーボ制御部の第2のサーボ制御情報と、関数の係数と、を含む状態情報を取得し、係数の調整情報を含む行動情報を補正部に出力し、第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、報酬の値と、状態情報と、行動情報とに基づいて価値関数を更新する。
【選択図】図1
Description
特許文献1には、工作機械、ロボット、又は産業機械に係る第1の軸を駆動する第1のモータを制御する第1のモータ制御部と、第1の軸と異なる方向の第2の軸を駆動する第2のモータを制御する第2のモータ制御部と、を含む制御装置が記載されている。そして、特許文献1には、制御装置に係る動作特性を評価するための、第1及び第2のモータ制御部を動作させる評価用プログラムであって、第1及び第2のモータで駆動される第1及び第2の軸によって移動する制御対象の移動軌跡の形状が少なくとも、第1及び第2のモータの回転方向がともに反転しない角(かど)のある形状と、第1及び第2のモータの一方が一方向に回転し、且つ第1及び第2のモータの他方の回転方向が反転する弧を描く形状とを備えるように、第1及び第2のモータ制御部を動作させる評価用プログラムが記載されている。
干渉を受ける側のサーボ制御部における指令追従性を向上させるには、その干渉を補正することが望まれる。
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部と、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えている、機械学習装置である。
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置である。
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部を含むサーボ制御装置と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システムである。
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習方法は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法である。
図1は本開示の第1の実施形態のサーボ制御装置を示すブロック図である。
図1に示すように、サーボ制御装置10は、サーボ制御部100、200と、機械学習部300とを備えている。機械学習部300は機械学習装置となる。機械学習部300はサーボ制御部100又はサーボ制御部200内に設けられてもよい。工作機械20はサーボ制御部100、200によって駆動される。
サーボ制御部100及び200の制御対象として、ここでは工作機械20を取り上げて説明するが、制御対象となる機械は工作機械に限定されず、例えばロボット,産業機械等であってもよい。サーボ制御部100及び200は、工作機械、ロボット、産業機械等の機械の一部として設けられてもよい。
サーボ制御部200は、減算器201、位置制御部202、加算器203、減算器204、速度制御部205、サーボモータ206、ロータリーエンコーダ207、積分器208、及び位置フィードフォワード部209を備えている。
サーボ制御部100は干渉を受ける軸に関する第1のサーボ制御部、サーボ制御部200は干渉を与える軸に関する第2のサーボ制御部に対応する。
図1では、位置フィードフォワード部209はサーボ制御部200に設けられているが、設けられなくともよい。また、位置フィードフォワード部209はサーボ制御部100に設けられても、サーボ制御部100とサーボ制御部200の両方に設けられてもよい。
位置指令xは、上位制御装置又は外部入力装置等で、所定の加工プログラムに従って、サーボモータ206の速度を変化させるためにパルス周波数を変えるように生成される。位置指令xは制御指令となる。位置指令xは、減算器201、位置フィードフォワード部209、位置偏差補正部111、速度指令補正部112、トルク指令補正部113及び機械学習部300に出力される。
減算器204は加算器203の出力と速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部205に出力する。
積分器208はロータリーエンコーダ207から出力される速度検出値を積分して位置検出値を出力する。
ロータリーエンコーダ207は速度検出値を速度フィードバック情報として減算器204に出力する。積分器129は速度検出値から位置検出値を求め、その位置検出値を位置フィードバック(位置FB)情報x’として減算器201に出力する。位置フィードバック(位置FB)情報x’は、機械学習部300、位置偏差補正部111、速度指令補正部112及びトルク指令補正部113にも出力される。
ロータリーエンコーダ207及び積分器208は検出器となり、サーボモータ206は、回転運動をするモータであっても、直線運動をするリニアモータであってもよい。
以上のように、サーボ制御部200は構成される。
位置指令yは、上位制御装置や外部入力装置等で、所定の加工プログラムに従って、サーボモータ108の速度を変化させるためにパルス周波数を変えるように生成される。位置指令yは制御指令となる。位置指令yは、減算器101及び機械学習部300に出力される。
加算器102は、位置偏差と、位置偏差補正部111から出力される位置偏差補正値との差を求めて、その差を補正された位置偏差として位置制御部103に出力する。
減算器105は加算器104の出力と、速度フィードバックされた速度検出値との差を求め、その差を速度偏差として速度制御部106に出力する。
加算器107は、トルク指令と、トルク指令補正部113から出力されるトルク指令補正値との差を求めて、その差を補正されたトルク指令としてサーボモータ108に出力する。
ロータリーエンコーダ109は速度検出値を速度フィードバック情報として減算器105に出力する。積分器110は速度検出値から位置検出値を求め、その位置検出値を位置フィードバック情報y’として減算器101及び機械学習部300に出力する。
ロータリーエンコーダ109及び積分器110は検出器となり、サーボモータ108は、回転運動をするモータであっても、直線運動をするリニアモータであってもよい。
位置指令x、位置指令xの1回微分、位置指令xの2回微分はそれぞれ位置指令に関する変数、位置フィードバック情報x’、位置フィードバック情報x’の1回微分、位置フィードバック情報x’の2回微分はそれぞれ位置指令に関する変数となる。
以上のように、サーボ制御部100は構成される。
工作機械20は、例えば、3軸加工機、4軸加工機、5軸加工機である。
図2は、4軸加工機の主軸を移動する主軸移動機構の部分構成図である。図3は5軸加工機のワークを搭載するテーブル機構を示す部分構成図である。
工作機械20が図2に示す4軸加工機20Aである場合に、例えばサーボ制御部200はY軸の直線移動を制御し、サーボ制御部100はZ軸の直線移動を制御する。この場合、サーボ制御部200は干渉を与える軸に関するサーボ制御部、サーボ制御部100は干渉を受ける軸に関するサーボ制御部となる。
機械学習部300は、予め設定された加工プログラム(以下、「学習時の加工プログラム」ともいう)を実行し、サーボ制御部100から出力される位置指令y及び位置フィードバック(位置FB)情報yを用いて、位置偏差補正部111の係数a1〜a6、速度指令補正部112の係数b1〜b6及びトルク指令補正部113の係数c1〜c6を機械学習(以下、学習という)する。機械学習部300は機械学習装置となる。機械学習部300による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
以下では、工作機械20として4軸加工機20Aを用い、サーボ制御部200が、学習時の加工プログラムによりサーボモータ206を制御し、サーボモータ206が4軸加工機20AのY軸を駆動するものとする。またサーボ制御部100は、学習時の加工プログラムによりサーボモータ108を制御し、サーボモータ108が4軸加工機20AのZ軸を駆動するものとする。
4軸加工機20Aを駆動する学習時の加工プログラムは、干渉を与える軸のサーボ制御部200を制御することでY軸を往復移動させればよく、干渉を受ける軸のサーボ制御部100を制御することでZ軸を往復移動させてもさせなくともよい。以下の説明ではZ軸を移動させない場合について説明する。
学習時の加工プログラムによって、上位制御装置又は外部入力装置は、サーボ制御部200にY軸を往復移動させる位置指令を出力し、サーボ制御部100にはZ軸を静止させる位置指令が出力される。しかし、Z軸を静止させる位置指令が入力されても、サーボ制御部100は、Y軸の移動による干渉によって、サーボ制御部100の位置偏差、速度指令、及びトルク指令が影響を受ける。そこで、機械学習部300は、位置偏差補正部111の係数a1〜a6、速度指令補正部112の係数b1〜b6及びトルク指令補正部113の係数c1〜c6を学習することで位置偏差、速度指令、及びトルク指令の補正値を最適な値に設定する。
以下の説明では機械学習部300が強化学習を行う場合について説明するが、機械学習部300が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
この更新式は、状態Stにおける行動Atの価値Q(St,At)よりも、行動Atによる次の状態St+1における最良の行動の価値maxa Q(St+1,A)の方が大きければ、Q(St,At)を大きくし、逆に小さければ、Q(St,At)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
上述した強化学習を行うために、図7に示すように、機械学習部300は、状態情報取得部301、学習部302、行動情報出力部303、価値関数記憶部304、及び最適化行動情報出力部305を備える。学習部302は報酬出力部3021、価値関数更新部3022、及び行動情報生成部3023を備える。
状態情報取得部301は、取得した状態情報Sを学習部302に対して出力する。
なお、係数a1〜a6、係数b1〜b6、係数c1〜c6は予め操作者が工作機械を調整している場合には、調整済の値を初期値として機械学習してもよい。
報酬出力部3021は、状態S及び状態S’における、位置指令yと位置フィードバック情報y’の差(y−y’)を求める。報酬出力部3021で、位置指令yと位置フィードバック情報y’の差により求められた位置偏差は第2の位置偏差となる。差(y−y’)の集合を位置偏差集合と呼び、状態Sにおける位置偏差集合をPD(S)、状態S’における位置偏差集合をPD(S’)で示す。
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
位置偏差集合PD(S)により求められた評価関数fの値を評価関数値f(PD(S))、位置偏差集合PD(S’)により求められた評価関数fの値を評価関数値f(PD(S’))とする。
サーボ制御部100に入力される位置指令yが、Z軸を静止させる指令でなく、Z軸を報復移動させる指令であっても、評価関数は上記評価関数fを用いることができる。
なお、評価関数f(PD(S’))が、評価関数値f(PD(S))と等しい場合は、報酬出力部3021は、報酬の値をゼロとする。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
より具体的には、最適化行動情報出力部305は、価値関数記憶部304が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部3022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部305は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報を位置偏差補正部111、速度指令補正部112、トルク指令補正部113に対して出力する。この最適化行動情報には、行動情報出力部303がQ学習の過程において出力する行動情報と同様に、位置偏差補正部111の数式1の係数a1〜a6、速度指令補正部112の数式2の係数b1〜b6、トルク指令補正部113の数式3の係数c1〜c6を修正する情報が含まれる。
機械学習部300は、以上の動作で、位置偏差補正部111の数式1の係数a1〜a6、速度指令補正部112の数式2の係数b1〜b6、トルク指令補正部113の数式3の係数c1〜c6の最適化を行い、軸間干渉を補正し、指令追従性を向上させるように動作することができる。
図5及び図6は、Y軸を往復移動させ、Z軸を静止するようにサーボ制御部200及び100を駆動したときのサーボ制御部100の位置フィードバック情報の変動の変動を示している。図6の特性図に示すように、機械学習による係数(パラメータ)調整によって、図5の特性図の位置変動が改善され、指令追従性が向上されることが分かる。
図7及び図8は、回転軸を回転させ、X軸を静止するようにサーボ制御部200及び100を駆動したときのサーボ制御部100の位置フィードバック情報の変動の変動を示している。図8の特性図に示すように、機械学習による係数(パラメータ)調整によって、図7の特性図のX軸の位置変動が改善され、指令追従性が向上されることが分かる。
これらの機能ブロックを実現するために、サーボ制御装置10は、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置10は、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
なお、ステップS18はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
次に、図10のフローチャートを参照して、最適化行動情報出力部305による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部305は、価値関数記憶部304に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部3022がQ学習を行うことにより更新したものである。
速度偏差は位置偏差の時間微分、加速度偏差は位置偏差の時間微分から求めることができる。速度偏差は加算器104の出力である速度指令と速度フィードバック情報との差、又は減算器105の出力を用いてもよい。
第1の実施形態では、機械学習部はサーボ制御装置の一部として設けられている例について説明したが、本実施形態では、機械学習部がサーボ制御装置の外に設けられてサーボ制御システムを構成する例について説明する。以下、機械学習部はサーボ制御装置と独立して設けられるため、機械学習装置と呼ぶ。
図11はサーボ制御装置と機械学習装置とを含むサーボ制御システムの一構成例を示すブロック図である。図11に示すサーボ制御システム30は、n(nは2以上の自然数)個のサーボ制御装置10−1〜10−nと、n個の機械学習装置300A−1〜300A−nと、サーボ制御装置10−1〜10−nとn個の機械学習装置300A−1〜300A−nとを接続するネットワーク400とを備えている。n(nは2以上の自然数)個のサーボ制御装置10−1〜10−nはn個の工作機械20−1〜20−nと接続されている。
サーボ制御装置10−1〜10−nの各々は機械学習部を備えていない点を除き、図1のサーボ制御装置10と同じ構成を有している。機械学習装置300A−1〜300A−nは図5に示した機械学習部300と同じ構成を有している。
上述した実施形態では、サーボ制御装置10−1〜10−nと、機械学習装置300A−1〜300A−nとはそれぞれ1対1の組とされて通信可能に接続されているが、例えば1台の機械学習装置が複数のモータ制御装置及び複数の加速度センサとネットワーク400を介して通信可能に接続され、各モータ制御装置と各工作機械の機械学習を実施するようにしてもよい。
その際、1台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、1台の機械学習装置の各機能を実現してもよい。
(1)本開示の一態様は、複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部(例えば、サーボ制御部100、200)に対して、機械学習を行う機械学習装置(例えば、機械学習部300、機械学習装置300−1〜300−n)であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部(例えば、サーボ制御部100)は、干渉を与える軸に関する第2のサーボ制御部(例えば、サーボ制御部200)の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部(例えば、位置偏差補正部111、速度指令補正部112、トルク指令補正部113)を備え、
前記機械学習装置は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部(例えば、状態情報取得部301)と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部(例えば、行動情報出力部303)と、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部(例えば、報酬出力部3021)と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部(例えば、価値関数更新部3022)と、
を備えている、機械学習装置である。
この機械学習装置によれば、軸間干渉を補正するサーボ制御部の補正部の係数の最適化を図ることができ、サーボ制御部における煩雑な調整を回避しつつ、サーボ制御部の指令追従性を向上させることができる。
前記評価関数は、前記第1のサーボ制御部の位置指令と位置フィードバック情報とから求められる第2の位置偏差又は前記第1の位置偏差、該第1又は第2の位置偏差の絶対値又は該絶対値の2乗を含む値に基づいて前記報酬の値を出力する、上記(1)に記載の機械学習装置。
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部(例えば、サーボ制御部100、200)と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部(例えば、サーボ制御部100)は、干渉を与える軸に関する第2のサーボ制御部(例えば、サーボ制御部200)の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部(例えば、位置偏差補正部111、速度指令補正部112、トルク指令補正部113)を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置(例えば、サーボ制御装置10)である。
このサーボ制御装置によれば、サーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させることができる。
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部(例えば、サーボ制御部100、200)を含むサーボ制御装置(例えば、サーボ制御装置10−1〜10−n)と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部(例えば、サーボ制御部100)は、干渉を与える軸に関する第2のサーボ制御部(例えば、サーボ制御部200)の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部(例えば、位置偏差補正部111、速度指令補正部112、トルク指令補正部113)を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システム(例えば、サーボ制御システム30)である。
このサーボ制御システムによれば、サーボ制御部において、煩雑な調整を回避しつつ、軸間干渉を補正し、指令追従性を向上させることができる。
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部(例えば、サーボ制御部100)は、干渉を与える軸に関する第2のサーボ制御部(例えば、サーボ制御部200)の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部(例えば、位置偏差補正部111、速度指令補正部112、トルク指令補正部113)を備え、
前記機械学習方法は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法である。
この機械学習方法によれば、軸間干渉を補正するサーボ制御部の補正部の係数の最適化を図ることができ、サーボ制御部における煩雑な調整を回避しつつ、サーボ制御部の指令追従性を向上させることができる。
20、20−1〜20−n 工作機械
100、200 サーボ制御部
101、201 減算器
102 加算器
103、202 位置制御部
104、203 加算器
105、204 減算器
106、205 速度制御部
107 加算器
108、206 サーボモータ
109、207 ロータリーエンコーダ
110、208 積分器
111 位置偏差補正部
112 速度指令補正部
113 トルク指令補正部
209 位置フィードフォワード部
300 機械学習部
300A−1〜300A−n 機械学習装置
400 ネットワーク
Claims (9)
- 複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数との少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力する行動情報出力部と、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する価値関数更新部と、
を備えている、機械学習装置。 - 前記第1のサーボ制御情報は、前記第1のサーボ制御部の位置指令と位置フィードバック情報、又は前記第1のサーボ制御部の第1の位置偏差を含み、
前記評価関数は、前記第1のサーボ制御部の位置指令と位置フィードバック情報とから求められる第2の位置偏差又は前記第1の位置偏差、該第1又は第2の位置偏差の絶対値又は該絶対値の2乗を含む値に基づいて前記報酬の値を出力する請求項1に記載の機械学習装置。 - 前記第2のサーボ制御部の位置指令に関する変数は、前記第2のサーボ制御部の、前記位置指令、前記位置指令の1回微分及び前記位置指令の2回微分の少なくとも1つであり、前記第2のサーボ制御部の位置フィードバック情報に関する変数は、前記第2のサーボ制御部の、前記位置フィードバック情報、前記位置フィードバック情報の1回微分及び前記位置フィードバック情報の2回微分の少なくとも1つである、請求項1又は2に記載の機械学習装置。
- 前記第1及び前記第2のサーボ制御部を制御する学習時の加工プログラムは、機械学習時に、前記干渉を与える軸を動かし、前記干渉を受ける軸を静止させる、請求項1から3のいずれか1項に記載の機械学習装置。
- 前記価値関数更新部により更新された価値関数に基づいて、前記補正部の前記係数の調整情報を出力する最適化行動情報出力部を備えた請求項1から4のいずれか1項に記載の機械学習装置。
- 請求項1から5のいずれか1項に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御装置。 - 請求項1から5のいずれか1項に記載の機械学習装置と、
複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部を含むサーボ制御装置と、を含み、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習装置は前記係数の調整情報を含む行動情報を前記補正部に出力する、サーボ制御システム。 - 複数の軸を有し、該複数の軸のうちの1つの軸が他の少なくとも1つの軸の動きによって干渉を受ける機械を駆動する複数のモータを制御する複数のサーボ制御部に対して、機械学習を行う機械学習装置の機械学習方法であって、
前記複数のサーボ制御部のうちの、干渉を受ける軸に関する第1のサーボ制御部は、干渉を与える軸に関する第2のサーボ制御部の位置指令に関する変数と位置フィードバック情報に関する変数の少なくとも1つを含む関数に基づいて、前記第1のサーボ制御部の位置偏差と速度指令とトルク指令との少なくとも1つを補正する補正値を求める補正部を備え、
前記機械学習方法は、前記第1のサーボ制御部の第1のサーボ制御情報と、前記第2のサーボ制御部の第2のサーボ制御情報と、前記関数の係数と、を含む状態情報を取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記補正部に出力し、
前記第1のサーボ制御情報の関数となる評価関数を用いた、強化学習における報酬の値を出力し、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて価値関数を更新する、機械学習方法。 - 更新された前記価値関数に基づいて、最適化行動情報となる、前記補正部の前記係数の調整情報を出力する請求項8に記載の機械学習装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161883A JP7405537B2 (ja) | 2019-09-05 | 2019-09-05 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
US17/002,110 US11914333B2 (en) | 2019-09-05 | 2020-08-25 | Machine learning device, servo control device, servo control system, and machine learning method |
DE102020122373.0A DE102020122373A1 (de) | 2019-09-05 | 2020-08-27 | Vorrichtung für maschinelles Lernen, Servosteuervorrichtung, Servosteuersystem und Verfahren für maschinelles Lernen |
CN202010910848.3A CN112445181A (zh) | 2019-09-05 | 2020-09-02 | 机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019161883A JP7405537B2 (ja) | 2019-09-05 | 2019-09-05 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021039648A true JP2021039648A (ja) | 2021-03-11 |
JP7405537B2 JP7405537B2 (ja) | 2023-12-26 |
Family
ID=74644682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019161883A Active JP7405537B2 (ja) | 2019-09-05 | 2019-09-05 | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11914333B2 (ja) |
JP (1) | JP7405537B2 (ja) |
CN (1) | CN112445181A (ja) |
DE (1) | DE102020122373A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022239155A1 (ja) * | 2021-05-12 | 2022-11-17 | ファナック株式会社 | 数値制御装置、およびコンピュータ読み取り可能な記憶媒体 |
CN116205232A (zh) * | 2023-02-28 | 2023-06-02 | 之江实验室 | 一种确定目标模型的方法、装置、存储介质及设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114227675A (zh) * | 2021-12-15 | 2022-03-25 | 珠海格力电器股份有限公司 | 一种机器人控制方法、装置、伺服系统和机器人及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314517A (ja) * | 1995-05-18 | 1996-11-29 | Canon Inc | 可動ステージ装置 |
JP2017102617A (ja) * | 2015-11-30 | 2017-06-08 | オムロン株式会社 | 補正装置、補正装置の制御方法、情報処理プログラム、および記録媒体 |
JP2019008472A (ja) * | 2017-06-22 | 2019-01-17 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3600084B2 (ja) | 1999-09-28 | 2004-12-08 | 三菱電機株式会社 | 位置駆動制御システムおよび同期・同調位置駆動制御方法 |
US9517556B2 (en) * | 2012-06-29 | 2016-12-13 | Mitsubishi Electric Corporation | Robot control apparatus and robot control method |
JP6193961B2 (ja) * | 2015-11-30 | 2017-09-06 | ファナック株式会社 | 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置 |
JP6571716B2 (ja) * | 2017-06-15 | 2019-09-04 | ファナック株式会社 | 評価用プログラム、情報記憶媒体、評価方法、及び制御装置 |
-
2019
- 2019-09-05 JP JP2019161883A patent/JP7405537B2/ja active Active
-
2020
- 2020-08-25 US US17/002,110 patent/US11914333B2/en active Active
- 2020-08-27 DE DE102020122373.0A patent/DE102020122373A1/de active Pending
- 2020-09-02 CN CN202010910848.3A patent/CN112445181A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314517A (ja) * | 1995-05-18 | 1996-11-29 | Canon Inc | 可動ステージ装置 |
JP2017102617A (ja) * | 2015-11-30 | 2017-06-08 | オムロン株式会社 | 補正装置、補正装置の制御方法、情報処理プログラム、および記録媒体 |
JP2019008472A (ja) * | 2017-06-22 | 2019-01-17 | ファナック株式会社 | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022239155A1 (ja) * | 2021-05-12 | 2022-11-17 | ファナック株式会社 | 数値制御装置、およびコンピュータ読み取り可能な記憶媒体 |
CN116205232A (zh) * | 2023-02-28 | 2023-06-02 | 之江实验室 | 一种确定目标模型的方法、装置、存储介质及设备 |
CN116205232B (zh) * | 2023-02-28 | 2023-09-01 | 之江实验室 | 一种确定目标模型的方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
DE102020122373A1 (de) | 2021-03-11 |
JP7405537B2 (ja) | 2023-12-26 |
US11914333B2 (en) | 2024-02-27 |
CN112445181A (zh) | 2021-03-05 |
US20210072710A1 (en) | 2021-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6490127B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
US10824121B2 (en) | Machine learning device, servo motor controller, servo motor control system, and machine learning method | |
JP6499720B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6474449B2 (ja) | 調整装置及び調整方法 | |
JP6748135B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6490131B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
CN111857052B (zh) | 机器学习装置、数值控制系统以及机器学习方法 | |
JP6474456B2 (ja) | 機械学習装置、サーボ制御システム及び機械学習方法 | |
JP7405537B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム及び機械学習方法 | |
CN110376964B (zh) | 机器学习装置、控制装置以及机器学习方法 | |
JP6849643B2 (ja) | 出力装置、制御装置、及び評価関数と機械学習結果の出力方法 | |
JP6841801B2 (ja) | 機械学習装置、制御システム及び機械学習方法 | |
JP6784722B2 (ja) | 出力装置、制御装置、及び評価関数値の出力方法 | |
JP2019040556A (ja) | 機械学習装置、制御システム、制御装置、及び機械学習方法 | |
JP2020177257A (ja) | 機械学習装置、制御装置及び機械学習方法 | |
JP6978452B2 (ja) | 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法 | |
JP6806746B2 (ja) | モータ制御装置 | |
JP7000371B2 (ja) | 機械学習装置、制御システム及び機械学習方法 | |
JP6740263B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
JP7101091B2 (ja) | モータ制御装置のフィードフォワード制御器導出装置、モータ制御装置、制御装置、及びフィードフォワード制御器導出方法 | |
JP6740290B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220517 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230608 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7405537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |