JP2018195018A - 機械学習装置、サーボ制御システム及び機械学習方法 - Google Patents
機械学習装置、サーボ制御システム及び機械学習方法 Download PDFInfo
- Publication number
- JP2018195018A JP2018195018A JP2017097527A JP2017097527A JP2018195018A JP 2018195018 A JP2018195018 A JP 2018195018A JP 2017097527 A JP2017097527 A JP 2017097527A JP 2017097527 A JP2017097527 A JP 2017097527A JP 2018195018 A JP2018195018 A JP 2018195018A
- Authority
- JP
- Japan
- Prior art keywords
- controller
- value
- machine learning
- motor
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P29/00—Arrangements for regulating or controlling electric motors, appropriate for both AC and DC motors
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Power Engineering (AREA)
- Feedback Control In General (AREA)
- Control Of Electric Motors In General (AREA)
Abstract
Description
例えば、特許文献1に開示の技術では、主軸についての負荷、温度及び振動を状態として観測する。そして、この観測した状態に基づいた強化学習によって、動作指令を補正するための価値関数を学習する。学習終了後、このようにして学習した価値関数を用いることにより、オペレータによる補正操作を要することなく、状況に応じて動作指令を補正することが可能となる。
しかしながら、一般的な技術では、モータの位相に応じて制御器ゲインを調整するようなことは行われていない。例えば、上述した特許文献1に開示の技術では、負荷、温度及び振動に応じて工作機械に与える動作指令を補正することは記載されているが、モータの位相を考慮することや、制御器ゲインを調整することは記載されていない。
また、仮に一般的な技術で制御器ゲインの調整を行うとしても、モータのインダクタンスは、モータの位相に応じて非常に短い時間に瞬間的に変化するので、その調整は容易なものではない。
<実施形態の全体構成>
図1は本実施形態であるサーボ制御システム1の全体構成を示す機能ブロック図である。図1に示すようにサーボ制御システム1は、機械学習装置100、サーボ制御装置200及び制御対象装置300を含んで構成される。
なお、図中では、これら装置を1台ずつ図示するが、これら装置の台数に制限はなく、その接続も1対1のみならず、1対多や、多対多の接続であってよい。
次に、サーボ制御装置200及び制御対象装置300の詳細な構成及びフィードバック信号の流れについて図2を参照して説明をする。
入力された位置指令は分岐して、位相算出部21と減算器22に対して出力される。減算器22に対して出力された位置指令は、減算器22にて位置フィードバック値により減算されて、位置指令と位置フィードバック値との偏差である位置偏差が位置制御器23に入力される。また、位置偏差は分岐して機械学習装置100にも入力される。
位置制御器23が出力した速度指令は、減算器24にて速度フィードバック値により減算されて、速度指令と速度フィードバック値との偏差である速度偏差が速度制御器25に入力される。また、速度偏差は分岐して機械学習装置100にも入力される。
速度制御器25が出力した電流指令は、減算器26にて電流フィードバック値により減算されて、速度指令と電流フィードバック値との偏差である電流偏差が電流制御器27に入力される。また、電流偏差は分岐して機械学習装置100にも入力される。
そして、このボールねじにより、モータ32の回転運動は、直線運動に変換される。これにより、機械33は被加工物(ワーク)を、位置指令に応じた所定の位置に移動させる。
以上が、フィードバック制御の流れである。
本実施形態では、モータ32の位相に応じて適切に制御器ゲインを調整するために、上述したように、制御器ゲインの伝達関数の変数として、モータ32の位相に相当するΘを含んでいる。次に、位相算出部21による、このモータ32の位相の算出について図3を参照して説明をする。
通知を受けた位相算出部21は、記憶している絶対位置(例えば、Z相)と、通知された一回転内の何れの位置にあるのかを示すデータに基づいて特定される位置との差分(すなわち、絶対位置とのズレ)を計算することにより、絶対位置を基準(原点)とした初期位置を特定することができる。
(式1)
上述したフィードバック制御と並行して、機械学習装置100による機械学習が行われる。この機械学習のために、位相算出部21は、現在位置の位相を、機械学習装置100に対しても出力する。
また、機械学習装置100には機械学習のために、位置制御器23、速度制御器25及び電流制御器27から、現在の制御器ゲインの伝達関数の係数が入力される。
更に、上述したように、機械学習装置100には機械学習のために、位置偏差、速度偏差、及び電流偏差も入力される。
機械学習装置100は、これらの入力及び出力に基づいて機械学習を行う。具体的には、機械学習装置100は機械学習の1つである強化学習を行う。
強化学習において、エージェント(本実施形態における機械学習装置100に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
Q学習では、或る状態sのとき、取り得る行動aのなかから、価値Q(s,a)の最も高い行動aを最適な行動として選択することを目的とする。
この更新式は、状態stにおける行動atの価値Q(st,at)よりも、行動atによる次の状態st+1における最良の行動の価値maxa Q(st+1,a)の方が大きければ、Q(st,at)を大きくし、逆に小さければ、Q(st,at)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年5月8日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14位置制御器236.pdf〉
具体的には、機械学習装置100は、サーボ制御装置200における位置制御器23、速度制御器25及び電流制御器27の内の学習対象としている制御器の制御器ゲインの伝達関数の係数の値、並びに学習時の位置指令に応じた制御を実行することで取得されるサーボ制御装置200の各偏差情報やモータ32の位相を含むサーボ状態を状態sとして、当該状態sに係る制御器の制御器ゲインの伝達関数の各係数の調整を行動aとして選択する価値Qを学習する。
KiP(Θ)=aiP・sin(Θ+biP)+ciP
KiI(Θ)=aiI・sin(Θ+biI)+ciI
KiD(Θ)=aiD・sin(Θ+biD)+ciD
ここで、iは、1≦i≦3の整数である。
(式3)
機械学習装置100は、行動aをするたびに報酬が返ってくる。機械学習装置100は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動aを試行錯誤的に探索する。そうすることで、機械学習装置100は、制御器ゲインの伝達関数の各係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)に基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置200の各偏差情報を含むサーボ状態を含む状態情報sに対して、最適な行動a(すなわち、位置制御器23、速度制御器25及び電流制御器27の内の学習対象としている制御器の最適な係数aiP、biP、ciP、aiI、biI、ciI、aiD、biD、ciD(1≦i≦3)を選択することが可能となる。
次に、図4を参照して、上述した強化学習を行う機械学習装置100の機能ブロックについて説明をする。
図4に示すように、機械学習装置100は、電流制御器27、速度制御器25、及び位置制御器23の制御器ゲインを調整するために、状態情報取得部11、学習部12、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15を備える。また、学習部12は報酬出力部121、価値関数更新部122、及び行動情報生成部123を備える。以下、電流制御器27、速度制御器25、及び位置制御器23の順番に説明する。
状態情報取得部11は、サーボ制御装置200における電流制御器27の制御器ゲインの伝達関数の各係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dに基づいて、学習時の位置指令に応じた制御を実行することで得られるサーボ制御装置200の電流偏差情報を含む状態である状態情報sを、サーボ制御装置200から取得する。この状態情報sは、Q学習における、環境状態sに相当する。また、状態情報sには、制御器ゲインの伝達関数の各係数の値も含まれる。この値は、位置制御器23、速度制御器25及び電流制御器27から取得してもよいが、この値を調整情報として出力した行動情報生成部123から取得してもよい。
状態情報取得部11は、取得した状態情報sを学習部12に対して出力する。
電流偏差の絶対値の積算値を算出する関数
∫|e|dt (式4)
電流偏差の絶対値の2n(nは自然数)乗の積算値を算出する関数、
∫e2ndt(nは自然数) (式5)
電流偏差の絶対値の最大値を算出する関数
Max{|e|} (式6)
等を適用することができる。
オンライン学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移する都度、即座に価値関数Qの更新を行うという学習方法である。また、バッチ学習とは、或る行動aを現在の状態sに適用することにより、状態sが新たな状態s´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行うという学習方法である。更に、ミニバッチ学習とは、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行うという学習方法である。
より具体的には、最適化行動情報出力部15は、価値関数記憶部14が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部122が電流制御器27の制御器ゲインの伝達関数の係数についてQ学習を行うことにより更新したものである。そして、最適化行動情報出力部15は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をサーボ制御装置200の学習済みの電流制御器27に対して出力する。この最適化行動情報には、行動情報出力部13がQ学習の過程において出力する行動情報と同様に、電流制御器27の制御器ゲインの伝達関数の各係数を修正する情報が含まれる。
以上のようにして、機械学習装置100は、電流制御器27についての制御器ゲインの伝達関数の係数ai、bj、ckの調整のための、適切な価値関数を得ることができ、係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dの最適化を簡易化することができる。
前述したように、速度制御器25の制御器ゲインのQ学習に際して、電流制御器27の係数については、電流制御器27の学習結果に基づいて最適な係数を選択する。なお、位置制御器23の係数については、モータ32を発振させずに問題なく動作させることができる制御器ゲインとなるように任意に設定する(例えば、従来のように、位相に依存しない固定値とする)。
速度制御器25の制御器ゲインのQ学習における、状態情報取得部11、学習部12(報酬出力部121、価値関数更新部122、及び行動情報生成部123)、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15の処理は、前述した電流制御器27の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置100は、電流制御器27の制御器ゲインの機械学習についての前述の説明において、電流制御器27を速度制御器25に読み替え、電流制御器27の制御器ゲインの係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを速度制御器25の制御器ゲインの係数a2P、b2P、c2P、a2I、b2I、c2I、a2D、b2D、c2Dに読み替え、電流偏差を速度偏差に読み替えた機械学習を行う。
前述したように、位置制御器23の制御器ゲインのQ学習に際して、電流制御器27及び速度制御器25の係数については、電流制御器27及び速度制御器25の学習結果に基づいて最適な係数を選択する。
位置制御器23の制御器ゲインのQ学習における、状態情報取得部11、学習部12(報酬出力部121、価値関数更新部122、及び行動情報生成部123)、行動情報出力部13、価値関数記憶部14、及び最適化行動情報出力部15は、前述した電流制御器27の制御器ゲインの学習時とそれぞれ同等の処理を行う。すなわち、機械学習装置100は、電流制御器27の制御器ゲインの機械学習についての前述の説明において、電流制御器27を位置制御器23に読み替え、電流制御器27の制御器ゲインの係数a1P、b1P、c1P、a1I、b1I、c1I、a1D、b1D、c1Dを位置制御器23の制御器ゲインの係数a3P、b3P、c3P、a3I、b3I、c3I、a3D、b3D、c3Dに読み替え、電流偏差を位置偏差に読み替えた機械学習を行う。
以上のように、本発明に係る機械学習装置100を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。
これらの機能ブロックを実現するために、サーボ制御装置200、及び機械学習装置100のそれぞれは、CPU(Central Processing Unit)等の演算処理装置を備える。また、サーボ制御装置200、及び機械学習装置100のそれぞれは、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
次に、図5のフローチャートを参照して本実施形態におけるQ学習時の機械学習装置100の動作について説明をする。なお、図5のフローチャートの説明においては、簡単のため、位置制御器23、速度制御器25及び電流制御器27を単に制御器と称し、位置偏差、速度偏差、及び電流偏差を単に偏差と称している。
ステップS15、ステップS16及びステップS17の何れかが終了すると、処理はステップS18に進む。
一方で、強化学習を終了する条件が満たされた場合には、ステップS19においてYesと判定され、処理は終了する。
まず、ステップS21において、最適化行動情報出力部15は、価値関数記憶部14に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部122がQ学習を行うことにより更新したものである。
以上のように、本発明に係る機械学習装置100を利用することで、モータの位相に応じて適切に制御器ゲインを調整することが可能となる。
つまり、本実施形態は、モータの位相に応じて適切に制御器ゲインを調整することから、一般的な技術に比べて有利な効果を奏する。
上述した実施形態では、機械学習装置100を、サーボ制御装置200とは別体の装置により構成したが、機械学習装置100の機能の一部又は全部をサーボ制御装置200により実現するようにしてもよい。
上述した実施形態では、機械学習装置100とサーボ制御装置200とが1対1の組として通信可能に接続されているが、例えば1台の機械学習装置100が複数のサーボ制御装置200とがネットワーク介して通信可能に接続され、各サーボ制御装置200の機械学習を実施するようにしてもよい。
その際、機械学習装置100の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、機械学習装置100の各機能を実現してもよい。
上述した実施形態では、モータ32が回転モータであることを想定していた。そして、モータ32の回転子が、一定速度で正方向及び/又は負方向に一回転以上回転する動作を対象として機械学習を行っていた。
これを変形して、モータ32を、回転モータではなく、リニアモータに置き換えるようにしてもよい。この場合は、リニアモータの可動子が、固定子上の動作領域一端から他端までを何れかの方向に移動する動作を対象として機械学習を行うようにすればよい。
上述した実施形態では、3つの制御器である、位置制御器23、速度制御器25及び電流制御器27のそれぞれにおいてPID制御を行うことを想定していた。これを変形して、一部又は全部の制御器において、PI制御を行ったり、比例制御のみを行ったりするようにしてもよい。
例えば、速度制御器25及び電流制御器27についてはPI制御を行い、位置制御器23については比例制御を行うようにした場合には、上述した各制御器の制御器ゲインの伝達関数を以下の数式(式7)のようにすればよい。
電流制御器27の伝達関数K1(s,Θ)=K1P(Θ)+K1I(Θ)/s
速度制御器25の伝達関数K2(s,Θ)=K2P(Θ)+K2I(Θ)/s
位置制御器23の伝達関数K3(s,Θ)=K3P(Θ)
(式7)
上述した実施形態では、制御器ゲインの伝達関数の係数を、例えば電流制御器27の制御器ゲインの伝達関数K1(s,Θ)、速度制御器25の制御器ゲインの伝達関数K2(s,Θ)、及び位置制御器23の制御器ゲインの伝達関数K3(s,Θ)をそれぞれ、数式(式3)のように、Θの1次元の関数としたが、これに限定されない。
例えば、同様に電流制御器27の制御器ゲインの伝達関数K1(s,Θ)(=K1P(Θ)+K1I(Θ)/s+K1D(Θ)s)を例に取った場合に、以下のようにΘの多次元の関数としてもよい。
K1P(Θ)=Σ1≦i≦L{a1P(i)・sin(iΘ+b1P(i))}+c1P
K1I(Θ)=Σ1≦j≦M{a1I(j)・sin(jΘ+b1I(j))}+c1I
K1D(Θ)=Σ1≦k≦N{a1D(k)・sin(kΘ+b1D(k))}+c1D
ここで、L、M、Nはそれぞれ1以上の整数とする。
(式8)
速度制御器25の制御器ゲインの伝達関数K2(s,Θ)、及び位置制御器23の制御器ゲインの伝達関数K3(s,Θ)についても同様に、Θの多次元の関数としてもよい。
また、本実施形態においては、関数sinを適用したが、これに限定されない。例えば、sinに替えてcosを適用してもよい。更にこのような数式で係数の値を算出するのではなく、制御器ゲインの伝達関数の係数の値と、位相Θの値とを対応付けたパラメータテーブルを機械学習により作成するようにしてもよい。
上述の実施形態では、位置制御器23、速度制御器25及び電流制御器27の3つの制御器について、これら制御器内の1つを対象として順番に学習を行い、最終的に3つの制御器の全てに対しての学習を行ったがこれに限定されない。
例えば、3つの学習器の内の何れかの学習機についてのみ学習を行うようにしてもよい。例えば、電流制御器27についてのみ学習を行ったり、速度制御器25及び電流制御器27についてのみ学習を行ったりするようにしてもよい。
電流指令値には上限値が存在する。そこで、許容値CCmaxを例えば、上限値又は上限値以下の値に設定し、この許容値CCmaxを超えないようにすることが好ましい。そこで、偏差PD(s)による報酬の計算の他に、電流指令値が許容値CCmaxまで達しているか否かにより報酬を計算する。
具体的には、状態情報取得部11が、状態sにおいて、加算器107の出力となる位置フォワード制御された電流指令値CC(s)を観測する。状態情報取得部11は、状態sにおいて観測される電流指令値が一つでも許容値CCmaxを超えたことを観測した場合、報酬出力部121は、偏差PD(s)による報酬の計算結果や前の状態における電流指令値の如何に関わらず、報酬を負の値とする。
その場合、報酬出力部121は、偏差PD(s)による報酬と電流指令値CC(s)に基づく報酬との間で重み付けを行って加算するようにしてもよい。
また、偏差PD(s)に関する評価関数と電流指令値CC(s)の評価関数qとの間で重み付けをし、重み付けされた評価関数を加算し、重み付けされた評価関数を用いて報酬を決定してもよい。
100 機械学習装置
11 状態情報取得部
12 学習部
121 報酬出力部
122 価値関数更新部
123 行動情報生成部
13 行動情報出力部
14 価値関数記憶部
15 最適化行動情報出力部
200 サーボ制御装置
21 位相算出部
22、24、26 減算器
23 位置制御器
25 速度制御器
27 電流制御器
28 積分器
300 制御対象装置
31 駆動用アンプ
32 モータ
33 機械
Claims (7)
- モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置であって、
制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力手段と、
前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得手段と、
前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力手段と、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新手段と、
を備える機械学習装置。 - 前記サーボ制御装置は前記制御器に入力される指令を補正するためのフィードバック制御を行うサーボ制御装置であり、
前記状態情報取得手段は、前記偏差として、前記制御器に入力される指令と前記フィードバック制御におけるフィードバック値との差分を取得する請求項1に記載の機械学習装置。 - 前記制御器は、位置制御、速度制御、及び電流制御の何れかを行う制御器の組合せであり、
当該機械学習装置は、前記制御器の何れか1つを対象として前記強化学習を行った後に他の制御器の1つを対象として前記強化学習を行う場合に、電流制御を行う制御器、速度制御を行う制御器、位置制御を行う制御器の順に前記強化学習の対象とする請求項1又は請求項2に記載の機械学習装置。 - 前記モータの位相は、前記制御対象装置の動作を制御するための位置指令に基づいて算出される請求項1から請求項3までの何れか1項に記載の機械学習装置。
- 前記制御器ゲインの伝達関数は、変数として前記モータの位相を含む請求項1から請求項4までの何れか1項に記載の機械学習装置。
- 請求項1から請求項5の何れか1項に記載の機械学習装置と、前記サーボ制御装置とを備えたサーボ制御システムであって、
前記サーボ制御装置が、
前記制御対象装置の動作を制御するための位置指令に基づいて前記モータの位相を算出し、算出したモータの位相を前記状態情報取得手段及び前記制御器に対して出力する位相算出手段を備えるサーボ制御システム。 - モータを備える制御対象装置の動作を制御するサーボ制御装置に対して、強化学習を行う機械学習装置の機械学習方法であって、
制御器ゲインの伝達関数における係数の調整情報を含む行動情報を、前記サーボ制御装置が備える制御器に対して出力する行動情報出力ステップと、
前記行動情報に基づいて前記制御器が前記制御対象装置を動作させた場合における、前記制御器に入力される指令と前記制御対象装置の実際の動作との偏差と、前記モータの位相と、前記制御器ゲインの伝達関数における係数と、を含む状態情報を、前記サーボ制御装置から取得する状態情報取得ステップと、
前記状態情報に含まれる前記偏差に基づいて、強化学習における報酬の値を出力する報酬出力ステップと、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新ステップと、
を備える機械学習方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097527A JP6474456B2 (ja) | 2017-05-16 | 2017-05-16 | 機械学習装置、サーボ制御システム及び機械学習方法 |
DE102018003769.0A DE102018003769B4 (de) | 2017-05-16 | 2018-05-09 | Vorrichtung für maschinelles Lernen, Servosteuersystem und Verfahren zum maschinellen Lernen |
US15/976,427 US11009837B2 (en) | 2017-05-16 | 2018-05-10 | Machine learning device that adjusts controller gain in a servo control apparatus |
CN201810444852.8A CN108880399B (zh) | 2017-05-16 | 2018-05-10 | 机器学习装置、伺服控制系统以及机器学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017097527A JP6474456B2 (ja) | 2017-05-16 | 2017-05-16 | 機械学習装置、サーボ制御システム及び機械学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018195018A true JP2018195018A (ja) | 2018-12-06 |
JP6474456B2 JP6474456B2 (ja) | 2019-02-27 |
Family
ID=64271615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017097527A Active JP6474456B2 (ja) | 2017-05-16 | 2017-05-16 | 機械学習装置、サーボ制御システム及び機械学習方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11009837B2 (ja) |
JP (1) | JP6474456B2 (ja) |
CN (1) | CN108880399B (ja) |
DE (1) | DE102018003769B4 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200080976A (ko) * | 2018-12-27 | 2020-07-07 | 서울대학교산학협력단 | Ai 기반 노치 필터의 파라미터 설정 장치 및 방법 |
WO2021153229A1 (ja) * | 2020-01-30 | 2021-08-05 | 株式会社Screenホールディングス | 搬送装置および搬送方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6544219B2 (ja) * | 2015-11-30 | 2019-07-17 | オムロン株式会社 | 制御装置 |
WO2020179063A1 (ja) * | 2019-03-07 | 2020-09-10 | 三菱電機株式会社 | 機械学習装置、数値制御装置、異常推測装置および工作機械の制御システム |
JP7022096B2 (ja) * | 2019-03-28 | 2022-02-17 | ファナック株式会社 | サーボ制御装置 |
CN112631120B (zh) * | 2019-10-09 | 2022-05-17 | Oppo广东移动通信有限公司 | Pid控制方法、装置和视频编解码系统 |
JP7331660B2 (ja) * | 2019-11-26 | 2023-08-23 | 横河電機株式会社 | 装置、方法およびプログラム |
JP7484382B2 (ja) | 2020-04-24 | 2024-05-16 | 横河電機株式会社 | 制御装置、制御方法および制御プログラム |
CN114609976A (zh) * | 2022-04-12 | 2022-06-10 | 天津航天机电设备研究所 | 一种基于单应性和q学习的无标定视觉伺服控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006238663A (ja) * | 2005-02-28 | 2006-09-07 | Toshiba Corp | 電動機の制御装置 |
JP2017079514A (ja) * | 2015-10-19 | 2017-04-27 | ファナック株式会社 | モータ電流制御における補正値を学習する機械学習装置および方法ならびに該機械学習装置を備えた補正値計算装置およびモータ駆動装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01298977A (ja) | 1988-05-27 | 1989-12-01 | Sanyo Denki Co Ltd | モータの制御方法及び装置 |
JPH07210207A (ja) | 1994-01-17 | 1995-08-11 | Hitachi Ltd | 適応制御装置 |
JP2000054862A (ja) * | 1998-08-07 | 2000-02-22 | Yamaha Motor Co Ltd | 動力源付き乗物における出力制御方法 |
US20150018632A1 (en) | 2012-09-14 | 2015-01-15 | Mohammad Khair | System and Method For Monitoring Cardiac Blood Flow Balance Between The Right and Left Heart Chambers |
JP6154435B2 (ja) | 2015-07-09 | 2017-06-28 | ファナック株式会社 | 制御系のオンライン自動調整状況を表示する機能を有するサーボ制御装置 |
JP6106226B2 (ja) | 2015-07-31 | 2017-03-29 | ファナック株式会社 | ゲインの最適化を学習する機械学習装置及び機械学習装置を備えた電動機制御装置並びに機械学習方法 |
JP6177842B2 (ja) | 2015-07-31 | 2017-08-09 | ファナック株式会社 | アース線又はシールド線の接続箇所を学習する機械学習方法及び機械学習装置並びに該機械学習装置を備えた電動機制御装置及び電動機装置 |
-
2017
- 2017-05-16 JP JP2017097527A patent/JP6474456B2/ja active Active
-
2018
- 2018-05-09 DE DE102018003769.0A patent/DE102018003769B4/de active Active
- 2018-05-10 US US15/976,427 patent/US11009837B2/en active Active
- 2018-05-10 CN CN201810444852.8A patent/CN108880399B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006238663A (ja) * | 2005-02-28 | 2006-09-07 | Toshiba Corp | 電動機の制御装置 |
JP2017079514A (ja) * | 2015-10-19 | 2017-04-27 | ファナック株式会社 | モータ電流制御における補正値を学習する機械学習装置および方法ならびに該機械学習装置を備えた補正値計算装置およびモータ駆動装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200080976A (ko) * | 2018-12-27 | 2020-07-07 | 서울대학교산학협력단 | Ai 기반 노치 필터의 파라미터 설정 장치 및 방법 |
KR102215752B1 (ko) * | 2018-12-27 | 2021-02-17 | 서울대학교산학협력단 | Ai 기반 노치 필터의 파라미터 설정 장치 및 방법 |
WO2021153229A1 (ja) * | 2020-01-30 | 2021-08-05 | 株式会社Screenホールディングス | 搬送装置および搬送方法 |
JP2021119587A (ja) * | 2020-01-30 | 2021-08-12 | 株式会社Screenホールディングス | 搬送装置および搬送方法 |
JP7374790B2 (ja) | 2020-01-30 | 2023-11-07 | 株式会社Screenホールディングス | 搬送装置および搬送方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108880399B (zh) | 2019-12-06 |
JP6474456B2 (ja) | 2019-02-27 |
DE102018003769A1 (de) | 2018-11-22 |
DE102018003769B4 (de) | 2021-09-23 |
CN108880399A (zh) | 2018-11-23 |
US11009837B2 (en) | 2021-05-18 |
US20180335758A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6474456B2 (ja) | 機械学習装置、サーボ制御システム及び機械学習方法 | |
CN109274314B (zh) | 机器学习装置、伺服电动机控制装置、伺服电动机控制系统以及机器学习方法 | |
JP6499720B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
US10824121B2 (en) | Machine learning device, servo motor controller, servo motor control system, and machine learning method | |
JP6474449B2 (ja) | 調整装置及び調整方法 | |
JP2018152012A (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6748135B2 (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6453919B2 (ja) | 行動情報学習装置、行動情報最適化システム及び行動情報学習プログラム | |
JP6740277B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 | |
JP2018169695A (ja) | 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法 | |
JP6740279B2 (ja) | 調整装置及び調整方法 | |
US10901396B2 (en) | Machine learning device, control device, and machine learning method | |
JP6453921B2 (ja) | 学習モデル構築装置、及び制御情報最適化装置 | |
JP6784722B2 (ja) | 出力装置、制御装置、及び評価関数値の出力方法 | |
JP2020035213A (ja) | 機械学習装置、制御システム及び機械学習方法 | |
CN112445181A (zh) | 机器学习装置、伺服控制装置、伺服控制系统以及机器学习方法 | |
JP6978452B2 (ja) | 機械学習装置、制御装置、及び機械学習の探索範囲の設定方法 | |
JP6806746B2 (ja) | モータ制御装置 | |
JP6740263B2 (ja) | 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法 | |
JP6740290B2 (ja) | 機械学習装置、制御装置、及び機械学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20180829 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20180913 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6474456 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |