JP2020013268A - 機械学習装置、制御装置、及び機械学習方法 - Google Patents
機械学習装置、制御装置、及び機械学習方法 Download PDFInfo
- Publication number
- JP2020013268A JP2020013268A JP2018134352A JP2018134352A JP2020013268A JP 2020013268 A JP2020013268 A JP 2020013268A JP 2018134352 A JP2018134352 A JP 2018134352A JP 2018134352 A JP2018134352 A JP 2018134352A JP 2020013268 A JP2020013268 A JP 2020013268A
- Authority
- JP
- Japan
- Prior art keywords
- machine learning
- transfer function
- value
- iir filter
- feedforward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/18—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
- G05B19/404—Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by control arrangements for compensation, e.g. for backlash, overshoot, tool offset, tool wear, temperature, machine construction errors, load, inertia
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33032—Learn by changing input weights as function of position error
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Manufacturing & Machinery (AREA)
- Human Computer Interaction (AREA)
- Feedback Control In General (AREA)
- Numerical Control (AREA)
Abstract
Description
特許文献1は、サーボモータの制御装置に関する発明であり、速度フィードフォワード器(後述する本実施形態の位置フィードフォワード計算部に対応する)が、速度フィード演算器(後述する本実施形態の微分器に対応する)と速度フィードフォワードフィルタから構成され、速度フィードフォワードフィルタとしてIIRフィルタを用いてよいことの記載がある(段落0080等)。
前記IIRフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径rと角度θとを用いて表す極座標で表現し、半径rと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記IIRフィルタの伝達関数の係数の最適化を行う機械学習装置である。
IIRフィルタを有する位置フィードフォワード計算部を更に有し、
前記位置フィードフォワード計算部のIIRフィルタの伝達関数の最適化の前に、前記速度フィードフォワード計算部のIIRフィルタの伝達関数の最適化を行ってもよい。
前記状態情報に含まれる前記伝達関数の係数の調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力部(例えば、後述の行動情報出力部203)と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部(例えば、後述の報酬出力部2021)と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部(例えば、後述の価値関数更新部2022)と、
を備えてもよい。
前記IIRフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径rと角度θとを用いて表す極座標で表現し、半径rと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記IIRフィルタの伝達関数の係数の最適化を行う機械学習方法である。
図1は本発明の一実施形態の制御装置の一構成例を示すブロック図である。図1に示す制御装置10は、サーボ制御装置100と機械学習装置200とを備えている。
サーボ制御装置100は、位置指令作成部101、減算器102、位置制御部103、加算器104、減算器105、速度制御部106、加算器107、積分器108、速度フィードフォワード計算部109、及び位置フィードフォワード計算部110を備えている。速度フィードフォワード計算部109は2回微分器1091とIIRフィルタ1092とを備えている。また、位置フィードフォワード計算部110は微分器1101とIIRフィルタ1102とを備えている。
位置指令作成部101は、加工プログラムにより指定される加工形状となるように、送り速度を設定して位置指令値を作成する。
図2はサーボ制御装置100の制御対象400の一例となる、サーボモータ300を含む工作機械の一部を示すブロック図である。
サーボ制御装置100は、サーボモータ300で連結機構302を介してテーブル303を移動させることで、テーブル303の上に搭載された被加工物(ワーク)を加工する。連結機構302は、サーボモータ300に連結されたカップリング3021と、カップリング3021に固定されるボールねじ3023とを有し、ボールねじ3023にナット3022が螺合されている。サーボモータ300の回転駆動によって、ボールねじ3023に螺着されたナット3022がボールねじ3023の軸方向に移動する。ナット3022の移動によってテーブル303が移動する。
ここで、学習時の加工プログラムにより指定される加工形状は、例えば、八角形、又は八角形の角が一つ置きに円弧に置き換えられた形等である。なお、学習時の加工プログラムにより指定される加工形状はこれらの加工形状に限定されず、他の加工形状であってもよい。
角の位置A2で、テーブルをY軸方向に移動するモータは、回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。また、テーブルをX軸方向に移動するモータは、位置A1から位置A2及び位置A2から位置A3にかけて、同じ回転方向で、等速度で回転する。
角の位置A4で、テーブルをX軸方向に移動するモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。また、テーブルをY軸方向に移動するモータは、位置A3から位置A4及び位置A4から次の角の位置にかけて、同じ回転方向で、等速度で回転する。
円弧の位置B2で、テーブルをY軸方向に移動するモータは、回転方向が反転し、テーブルはY軸方向に直線反転するように移動する。また、テーブルをX軸方向に移動するモータは位置B1から位置B3にかけて同じ回転方向で、等速度で回転する。図3に示した加工形状が八角形の場合と異なり、テーブルをY軸方向に移動するモータは位置B2の前後で円弧の加工形状が形成されるように、位置B2に向かって徐々に減速され、位置B2で回転が停止され、位置B2を過ぎると回転方向が徐々に増加していく。
円弧の位置B4で、テーブルをX軸方向に移動するモータは、回転方向が反転し、テーブルはX軸方向に直線反転するように移動する。また、テーブルをY軸方向に移動するモータは位置B3から位置B4、及び位置B4から次の角の位置にかけて同じ回転方向で、等速度で回転する。テーブルをX軸方向に移動するモータは位置B4の前後で円弧の加工形状が形成されるように、位置B4に向かって徐々に減速され、位置B4で回転が停止され、位置B4を過ぎると回転方向が徐々に増加していく。
本実施形態の機械学習装置200は、機械学習の一例として、後述するように、サーボ制御装置100においてそれぞれ速度ループと位置ループを構成する、速度フィードフォワード計算部109と位置フィードフォワード計算部110の伝達関数の係数の最適化に係る強化学習を行うものとして説明する。なお、本発明における機械学習は強化学習に限定されず、他の機械学習(例えば教師あり学習)を行う場合にも適用できる。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
この更新式は、状態Stにおける行動Atの価値Q(St,At)よりも、行動Atによる次の状態St+1における最良の行動の価値maxa Q(St+1,A)の方が大きければ、Q(St,At)を大きくし、逆に小さければ、Q(St,At)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
機械学習装置200は、図1に示す、速度フィードフォワード計算部109のIIRフィルタ1092の伝達関数と、位置フィードフォワード計算部110のIIRフィルタ1102の伝達関数とを機械学習(以下、学習という)する。
具体的には、本発明の実施形態に係る機械学習装置200は、伝達関数VFF(z)の零点及び極を極座標で表した半径rと角度θとをそれぞれ所定の範囲内を探索して学習することで、IIRフィルタ1092の伝達関数VFF(z)の係数を設定する。なお、極は伝達関数VFF(z)が無限大になるzの値、零点は、伝達関数VFF(z)が0になるzの値である。
このため、伝達関数VFF(z)の分子における係数を次のように変形する。
b0+b1z−1+b2z−2=b0(1+(b1/b0)z−1+(b2/b0)z−2)
以下、特に断らない限り(b1/b0)及び(b2/b0)をそれぞれb1´及びb2´で表して説明する。
そして、機械学習装置200は、位置偏差が最小になるような半径rと角度θを学習して、伝達関数VFF(z)の係数a1、a2、b1´及びb2´を設定する。
係数b0は例えば半径r及び角度θをそれぞれ最適な値r0及びθ0に設定した後、機械学習して求めてもよい。係数b0は角度θと同時に学習してもよい。また、半径rと同時に学習するようにしてもよい。
機械学習装置200は、極及び零点を求めるために、数式1の分母及び分子にz2を掛けて、数式4(以下に数4として示す)を求める。
振動を抑制するためには零点が重要であり、機械学習装置200は、まず、極を固定して、分子(z2+b1´z+b2´)において
z=reiθ及びその共役複素数z*=re-iθを零点(角度θは所定の範囲内、0≦r≦1)とした場合に算出される係数b1´(=−reiθ−re-iθ)及びb2´(=r2)を伝達関数VFF(z)の係数として設定することで、極座標で零点reiθを探索して最適な係数b1´、b2´の値を学習する。半径rは減衰率をに依存し、角度θは振動を抑える周波数に依存している。その後、零点を最適な値に固定して、係数b0の値を学習してもよい。次に、伝達関数VFF(z)の極を極座標で表し、極座標で表された極の値reiθを、前述した零点と同様の方法で探索する。そうすることで、伝達関数VFF(z)の分母の最適な係数a1、a2の値を学習することができる。
なお、極を固定して伝達関数VFF(z)の分子における係数を学習する場合、高周波側のゲインを抑えることができれば十分であり、例えば、極は2次のローパスフィルタ相当とする。例えば、2次のローパスフィルタの伝達関数は数式5(以下に数5として示す)で示される。ωはフィルタのピークゲイン周波数である。
なお、z領域における伝達関数は上記のs領域の伝達関数を双一次変換を用いて求めるものとする。
機械学習装置200は、求めた係数b1´及びb2´の調整情報を行動AとしてIIRフィルタ1092に送り、IIRフィルタ1092の伝達関数VFF(z)の分子の係数b1´及びb2´を設定する。係数b0は上記のように例えば1に設定されている。機械学習装置200が角度θの探索を行う学習により価値Qの値が最大となるような、好適な角度θ0が決定されると、その後に、角度θをその角度θ0に固定して半径rを可変とし、IIRフィルタ1092の伝達関数VFF(z)の分子の係数b1´(=−rejθ−re-jθ)及びb2´(=r2)を設定する。半径rの探索を行う学習により、価値Qの値が最大となるような、最適な半径r0が決定される。角度θ0及び半径r0により係数b1´及びb2´が設定され、その後、b0について学習することで、伝達関数VFF(z)の分子の係数b0、b1´及びb2´が決定される。
なお、半径rと角度θと係数b0は同時に学習してもよいが、別々に学習することで、機械学習量を低減し、機械学習の収束時間を短縮化することができる。
機械学習装置200は、極及び零点を求めるために、数式2の分母及び分子にz2を掛けて、数式6(以下に数6として示す)を求める。
これ以降のIIRフィルタ1102の伝達関数PFF(z)の零点及び極を極座標で表した半径rと角度θを学習して、伝達関数PFF(z)の係数c1、c2、d0〜d2の最適化を行うことは、上述した、IIRフィルタ1092の伝達関数VFF(z)の零点及び極を極座標で表した半径rと角度θを学習の場合と同様なので、説明を省略する。
上述した強化学習を行うために、図6に示すように、機械学習装置200は、状態情報取得部201、学習部202、行動情報出力部203、価値関数記憶部204、及び最適化行動情報出力部205を備える。学習部202は報酬出力部2021、価値関数更新部2022、及び行動情報生成部2023を備える。
状態情報取得部201は、取得した状態情報Sを学習部202に対して出力する。また、状態情報取得部201は、零点及び極を極座標で表した角度θ、半径rと、これに対応する係数a1、a2、b1´、b2´と、を行動情報生成部2023から取得して記憶しており、サーボ制御装置100から取得した係数a1、a2、b1´、b2´に対応する零点及び極を極座標で表した角度θ、半径rも合わせて学習部202に対して出力する。
なお、位置フィードフォワード計算部110の初期設定についても同様にする。
また、係数a1、a2、b0〜b2及び係数c1、c2、d0〜d2は予め操作者が工作機械を調整している場合には、調整済の伝達関数の零点及び極を極座標で表した半径rと角度θの値を初期値として機械学習してもよい。
評価関数fとしては、例えば、
位置偏差の絶対値の積算値を算出する関数
∫|e|dt
位置偏差の絶対値に時間の重み付けをして積算値を算出する関数
∫t|e|dt
位置偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数
∫e2ndt(nは自然数)
位置偏差の絶対値の最大値を算出する関数
Max{|e|}
等を適用することができる。
なお、行動情報Aにより修正された状態情報S´に係る修正後の速度フィードフォワード計算部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S´))が、行動情報Aにより修正される前の状態情報Sに係る修正前の速度フィードフォワード計算部109に基づいて動作したサーボ制御装置100の位置偏差の値f(PD(S))と等しい場合は、報酬出力部2021は、報酬の値をゼロとする。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移する都度、即座に価値関数Qの更新を行う学習方法である。また、バッチ学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行う学習方法である。
より具体的には、行動情報生成部2023は、例えば、極座標で零点を探索するために、数式4の伝達関数VFF(z)の係数a1、a2、b0が固定された状態で、分子(z2+b1´z+b2´)においてzの零点をreiθとして、状態情報取得部201から受けた半径rを固定した状態で、状態情報取得部201から受けた角度θを図5の探索範囲内で増加又は減少させる。そして、固定した半径r及び増加又は減少させた角度θにより、零点とするz及びその共役複素数z*を設定し、当該零点に基づいて係数b1´、b2´を新たに求める。
より具体的には、最適化行動情報出力部205は、価値関数記憶部204が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部205は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置100(速度フィードフォワード計算部109のIIRフィルタ1092)に対して出力する。この最適化行動情報には、行動情報出力部203がQ学習の過程において出力する行動情報と同様に、角度θ、半径r及び係数b0の学習によって、IIRフィルタ1092の伝達関数VFF(z)の係数を修正する情報が含まれる。
機械学習装置200は、以上の動作で、IIRフィルタ1092の伝達関数VFF(z)の分子の係数の最適化を行った後に、その最適化と同様に、角度θ及び半径rの学習によって、IIRフィルタ1092の伝達関数VFF(z)の分母の係数の最適化を行う。その後、IIRフィルタ1092の伝達関数VFF(z)の係数の学習と最適化と同様に、角度θ、半径r及び係数d0の学習によって、IIRフィルタ1102の伝達関数PFF(z)の係数の学習及び最適化を行い、位置偏差の値を低減するように動作することができる。
以上のように、本発明に係る機械学習装置200を利用することで、サーボ制御装置100の速度フィードフォワード計算部109及び位置フィードフォワード計算部110のパラメータ調整を簡易化することができる。
これらの機能ブロックを実現するために、サーボ制御装置100、及び機械学習装置200のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置100、及び機械学習装置200のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
以下のフローチャートでは、速度フィードフォワード計算部109のIIRフィルタ1092の伝達関数VFF(z)の分子の伝達関数に係る係数b0〜b2を決定するための伝達関数VFF(z)の零点を極座標で表した角度θ、半径r及び係数b0の学習を例として説明するが、分母の伝達関数に係る係数a1、a2を決定するための極を極座標で表した角度θ及び半径rの学習も同様のフローチャートで行うことができる。また、その後に行う位置フィードフォワード計算部110のIIRフィルタ1102の伝達関数PFF(z)の係数c1、c2、d0〜d2を決定するための伝達関数PFF(z)の零点及び極を極座標で表した角度θ、半径r及び係数d0の学習に関するフローチャートについても、図7に記載したフローチャートと同様に行われるため、説明は省略する。
なお、行動情報Aを受信したサーボ制御装置100は、受信した行動情報に基づいて現在の状態Sに係るIIRフィルタ1092の伝達関数VFF(z)の係数b1´、b2´を修正した状態S´により、サーボモータ300を含む工作機械を駆動させる。上述したように、この行動情報は、Q学習における行動Aに相当するものである。
次に、ステップS19において、角度θの学習が終了していない場合には再度ステップS11に戻り、終了している場合はステップS20に進む。
次に、ステップS20において、半径rの学習が終了していない場合には再度ステップS11に戻り、終了している場合はステップS21に進む。
次に、ステップS21において、係数b0の学習が終了していない場合には再度ステップS11に戻り、終了している場合は処理を終了する。
なお、ステップS11に戻り、上述したステップS11〜S21の処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として角度θ、半径r及び係数の学習を終了するようにしてもよい。
次に、図8のフローチャートを参照して、最適化行動情報出力部205による最適化行動情報の生成時の動作について説明をする。
まず、ステップS31において、最適化行動情報出力部205は、価値関数記憶部204に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部2022がQ学習を行うことにより更新したものである。
機械学習装置200は、以上の動作で、IIRフィルタ1092の伝達関数VFF(z)の分子の係数を決定するための零点を極座標で表した角度θ、半径r及び係数b0の最適化を行った後に、分母の伝達関数に係る係数a1、a2を決定するための極を極座標で表した角度θ及び半径rの最適化を行う。同様な動作で、IIRフィルタ1102の伝達関数PFF(z)の係数c1、c2、d0〜d2を決定するために、伝達関数PFF(z)の零点及び極を極座標で表わす際の角度θ、半径rによる学習及び係数d0の学習及び最適化を行う。
しかし、報酬の値の算出にあたっては位置偏差以外の他の要素を加えてもよい。
例えば、機械学習装置200に、減算器102の出力となる位置偏差の他に、加算器104の出力となる位置フォワード制御された速度指令、位置フォワード制御された速度指令と速度フィードバックとの差、及び加算器107の出力となる位置フォワード制御されたトルク指令等の少なくとも1つが加えられてもよい。
上記のサーボ制御装置のサーボ制御部及び機械学習装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のサーボ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
上述した実施形態では、機械学習装置200を、サーボ制御装置100とは別体の装置により構成したが、機械学習装置200の機能の一部又は全部をサーボ制御装置100により実現するようにしてもよい。
図9は他の構成の制御装置を示すブロック図である。制御装置10Aは、図9に示すように、n(nは2以上の自然数)台のサーボ制御装置100−1〜100−n、n台の機械学習装置200−1〜200−n、及びネットワーク500を備えている。なお、nは任意の自然数である。n台のサーボ制御装置100−1〜100−nのそれぞれは図1に示したサーボ制御装置100に対応している。n台の機械学習装置200−1〜200−nのそれぞれは図1に示した機械学習装置200に対応している。
その際、機械学習装置200−1の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置200−1の各機能を実現してもよい。
また、複数の同じ型名、同一仕様、又は同一シリーズのサーボ制御装置100−1〜100−nとそれぞれ対応する複数の機械学習装置200−1〜200−nがあった場合に、各機械学習装置200−1〜200−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
100 サーボ制御装置
101 位置指令作成部
102 減算器
103 位置制御部
104 加算器
105 減算器
106 速度制御部
107 加算器
108 積分器
109 速度フィードフォワード計算部
110 位置フィードフォワード計算部
200 機械学習装置
201 状態情報取得部
202 学習部
203 行動情報出力部
204 価値関数記憶部
205 最適化行動情報出力部
300 サーボモータ
400 制御対象
500 ネットワーク
Claims (15)
- IIRフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記IIRフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置であって、
前記IIRフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径rと角度θとを用いて表す極座標で表現し、半径rと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記IIRフィルタの伝達関数の係数の最適化を行う機械学習装置。 - 前記半径rの探索範囲は減衰率に基づいて規定され、前記角度θの探索範囲は振動を抑える周波数に基づいて規定される、請求項1に記載の機械学習装置。
- 前記極の探索の前に前記零点の探索を行う請求項1又は請求項2に記載の機械学習装置。
- 前記零点を探索するときに、前記極を固定する請求項1から請求項3の何れか1項に記載の機械学習装置。
- 前記半径rの探索の前に前記角度θの探索を行う請求項1から請求項4の何れか1項に記載の機械学習装置。
- 前記角度θを探索するときに、前記半径rを固定値に固定する請求項1から請求項5の何れか1項に記載の機械学習装置。
- 前記零点を複素数と共役な複素数で表現する請求項1から請求項6の何れか1項に記載の機械学習装置。
- 前記フィードフォワード計算部は速度フィードフォワード計算部又は位置フィードフォワード計算部である、請求項1から請求項7の何れか1項に記載の機械学習装置。
- 前記フィードフォワード計算部は速度フィードフォワード計算部であり、
IIRフィルタを有する位置フィードフォワード計算部を更に有し、
前記位置フィードフォワード計算部のIIRフィルタの伝達関数の最適化の前に、前記速度フィードフォワード計算部のIIRフィルタの伝達関数の最適化を行う請求項1から請求項8の何れか1項に記載の機械学習装置。 - 所定の加工プログラムを前記サーボ制御装置に実行させることにより、少なくとも位置偏差を含むサーボ状態と、前記フィードフォワード計算部の伝達関数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得部と、
前記状態情報に含まれる前記伝達関数の係数の調整情報を含む行動情報を前記サーボ制御装置に出力する行動情報出力部と、
前記状態情報に含まれる前記位置偏差に基づく、強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
を備える請求項1から請求項9の何れか1項に記載の機械学習装置。 - 前記報酬出力部は、前記位置偏差の絶対値に基づいて前記報酬の値を出力する請求項10に記載の機械学習装置。
- 前記価値関数更新部により更新された価値関数に基づいて、前記フィードフォワード計算部の伝達関数の係数の修正情報を生成して出力する最適化行動情報出力部を備えた請求項10又は請求項11に記載の機械学習装置。
- 請求項1から請求項12の何れか1項に記載の機械学習装置と、
IIRフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置と、
を備えた制御装置。 - 前記機械学習装置は、前記サーボ制御装置に含まれる、請求項13に記載の制御装置。
- IIRフィルタを有するフィードフォワード計算部によるフィードフォワード制御を用いて、工作機械、ロボット又は産業機械の軸を駆動するサーボモータを制御するサーボ制御装置に対して、前記IIRフィルタの伝達関数の係数の最適化に係る機械学習を行う機械学習装置の機械学習方法であって、
前記IIRフィルタの伝達関数が零になる零点と、該伝達関数が無限に発散する極と、をそれぞれ半径rと角度θとを用いて表す極座標で表現し、半径rと角度θをそれぞれ所定の探索範囲内を探索して学習することで、前記IIRフィルタの伝達関数の係数の最適化を行う機械学習方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134352A JP6740290B2 (ja) | 2018-07-17 | 2018-07-17 | 機械学習装置、制御装置、及び機械学習方法 |
US16/435,840 US10901374B2 (en) | 2018-07-17 | 2019-06-10 | Machine learning device, control device, and machine learning method |
CN201910624109.5A CN110727242B (zh) | 2018-07-17 | 2019-07-11 | 机器学习装置、控制装置、以及机器学习方法 |
DE102019210397.9A DE102019210397A1 (de) | 2018-07-17 | 2019-07-15 | Maschinenlernvorrichtung, Steuervorrichtung und Maschinenlernverfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018134352A JP6740290B2 (ja) | 2018-07-17 | 2018-07-17 | 機械学習装置、制御装置、及び機械学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020013268A true JP2020013268A (ja) | 2020-01-23 |
JP6740290B2 JP6740290B2 (ja) | 2020-08-12 |
Family
ID=69163028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018134352A Active JP6740290B2 (ja) | 2018-07-17 | 2018-07-17 | 機械学習装置、制御装置、及び機械学習方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10901374B2 (ja) |
JP (1) | JP6740290B2 (ja) |
CN (1) | CN110727242B (ja) |
DE (1) | DE102019210397A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003023785A (ja) * | 2001-07-05 | 2003-01-24 | Matsushita Electric Ind Co Ltd | サーボモータの制御装置及び制御方法 |
JP2015213714A (ja) * | 2014-05-13 | 2015-12-03 | 株式会社東芝 | 心電波形検出装置、心電波形検出方法、心電波形検出プログラム、及び撮像装置 |
JP2015230617A (ja) * | 2014-06-05 | 2015-12-21 | ファナック株式会社 | 機械先端点のたわみを低減するサーボ制御装置 |
JP2017084104A (ja) * | 2015-10-28 | 2017-05-18 | ファナック株式会社 | 学習制御器の自動調整を行う機能を有するサーボ制御装置 |
JP2017117366A (ja) * | 2015-12-25 | 2017-06-29 | 株式会社ジェイテクト | モータ制御装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2001273306A1 (en) * | 2000-07-05 | 2002-01-14 | Camo, Inc. | Method and system for the dynamic analysis of data |
JP2005327191A (ja) * | 2004-05-17 | 2005-11-24 | Fanuc Ltd | サーボ制御装置 |
JP5279299B2 (ja) * | 2008-02-29 | 2013-09-04 | キヤノン株式会社 | 反復学習制御回路を備える位置制御装置、露光装置及びデバイス製造方法 |
CN101954638B (zh) * | 2010-10-18 | 2012-01-04 | 湖南大学 | 高压输电线路除冰机器人自主抓线控制方法 |
CN103181075B (zh) * | 2010-10-27 | 2015-09-09 | 三菱电机株式会社 | 电动机控制装置 |
US20170089043A1 (en) * | 2015-09-25 | 2017-03-30 | Caterpillar Inc. | Online system identification for controlling a machine |
CN105690392B (zh) * | 2016-04-14 | 2017-11-28 | 苏州大学 | 基于行动者‑评论家方法的机器人运动控制方法和装置 |
JP2017199077A (ja) * | 2016-04-25 | 2017-11-02 | ファナック株式会社 | 複数台の産業機械を有する生産システムの動作を最適化するセルコントローラ |
JP6457472B2 (ja) * | 2016-12-14 | 2019-01-23 | ファナック株式会社 | 制御システム及び機械学習装置 |
US10334454B2 (en) * | 2017-05-11 | 2019-06-25 | Intel Corporation | Multi-finger beamforming and array pattern synthesis |
CN107505914B (zh) * | 2017-07-20 | 2020-01-14 | 西安交通大学 | 一种考虑滚珠丝杠进给系统高阶动态特性的高精运动控制方法 |
CN111095132B (zh) * | 2017-09-08 | 2023-04-18 | 三菱电机株式会社 | 伺服控制装置 |
-
2018
- 2018-07-17 JP JP2018134352A patent/JP6740290B2/ja active Active
-
2019
- 2019-06-10 US US16/435,840 patent/US10901374B2/en active Active
- 2019-07-11 CN CN201910624109.5A patent/CN110727242B/zh active Active
- 2019-07-15 DE DE102019210397.9A patent/DE102019210397A1/de active Granted
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003023785A (ja) * | 2001-07-05 | 2003-01-24 | Matsushita Electric Ind Co Ltd | サーボモータの制御装置及び制御方法 |
JP2015213714A (ja) * | 2014-05-13 | 2015-12-03 | 株式会社東芝 | 心電波形検出装置、心電波形検出方法、心電波形検出プログラム、及び撮像装置 |
JP2015230617A (ja) * | 2014-06-05 | 2015-12-21 | ファナック株式会社 | 機械先端点のたわみを低減するサーボ制御装置 |
JP2017084104A (ja) * | 2015-10-28 | 2017-05-18 | ファナック株式会社 | 学習制御器の自動調整を行う機能を有するサーボ制御装置 |
JP2017117366A (ja) * | 2015-12-25 | 2017-06-29 | 株式会社ジェイテクト | モータ制御装置 |
Non-Patent Citations (1)
Title |
---|
河野 健,阿部 正英,川又 政征: "安定な有理伝達関数の既約性とIIRフィルタの設計への応用", 第24回信号処理シンポジウム講演論文集, JPN6020021127, November 2009 (2009-11-01), JP, pages 249 - 254, ISSN: 0004290143 * |
Also Published As
Publication number | Publication date |
---|---|
CN110727242B (zh) | 2021-04-09 |
US20200026248A1 (en) | 2020-01-23 |
CN110727242A (zh) | 2020-01-24 |
JP6740290B2 (ja) | 2020-08-12 |
DE102019210397A1 (de) | 2020-03-12 |
US10901374B2 (en) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6490127B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
CN109274314B (zh) | 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法 | |
JP6748135B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6499720B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
US10824121B2 (en) | Machine learning device, servo motor controller, servo motor control system, and machine learning method | |
JP6860540B2 (ja) | 出力装置、制御装置、及び学習パラメータの出力方法 | |
JP6740277B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
US11592789B2 (en) | Output device, control device, and method for outputting evaluation functions and machine learning results | |
JP6474456B2 (ja) | 機械学習装置、サーボ制御システム及び機械学習方法 | |
JP6740278B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
JP7000373B2 (ja) | 機械学習装置、制御装置及び機械学習方法 | |
JP2020057211A (ja) | 機械学習装置、制御装置及び機械学習方法 | |
US11029650B2 (en) | Machine learning device, control system, and machine learning method | |
JP6784722B2 (ja) | 出力装置、制御装置、及び評価関数値の出力方法 | |
JP2020119295A (ja) | フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法 | |
JP6978452B2 (ja) | 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法 | |
CN111722530B (zh) | 机器学习装置、控制系统以及机器学习方法 | |
JP6740263B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
WO2022030346A1 (ja) | 制御支援装置、制御システム及び制御支援方法 | |
JP6740290B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
WO2021210483A1 (ja) | 機械学習装置、制御装置及び機械学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191209 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20200325 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20200612 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200623 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6740290 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |