JP6956122B2 - フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法 - Google Patents

フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法 Download PDF

Info

Publication number
JP6956122B2
JP6956122B2 JP2019010111A JP2019010111A JP6956122B2 JP 6956122 B2 JP6956122 B2 JP 6956122B2 JP 2019010111 A JP2019010111 A JP 2019010111A JP 2019010111 A JP2019010111 A JP 2019010111A JP 6956122 B2 JP6956122 B2 JP 6956122B2
Authority
JP
Japan
Prior art keywords
filter
output
input
unit
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019010111A
Other languages
English (en)
Other versions
JP2020119295A (ja
Inventor
和臣 前田
和臣 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fanuc Corp
Original Assignee
Fanuc Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fanuc Corp filed Critical Fanuc Corp
Priority to JP2019010111A priority Critical patent/JP6956122B2/ja
Priority to US16/707,113 priority patent/US11226599B2/en
Priority to DE102020200635.0A priority patent/DE102020200635A1/de
Priority to CN202010072337.9A priority patent/CN111478682A/zh
Publication of JP2020119295A publication Critical patent/JP2020119295A/ja
Application granted granted Critical
Publication of JP6956122B2 publication Critical patent/JP6956122B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/06Non-recursive filters
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H2017/0072Theoretical filter design
    • H03H2017/0081Theoretical filter design of FIR filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Feedback Control In General (AREA)
  • Control Of Electric Motors In General (AREA)
  • Numerical Control (AREA)

Description

本発明は、工作機械、ロボット又は産業機械等のモータを制御するサーボ制御装置におけるフィルタの係数を最適化する機械学習システム、この機械学習システムを含む制御装置、及び機械学習方法に関する。
フィルタの特性を自動的に調整する装置が知られている(例えば特許文献1及び特許文献2を参照)。
特許文献1は、サーボアクチュエータが「モータの速度を制御する速度フィードバックループを有し、この速度フィードバックループにノッチフィルタ手段を挿入して機械共振を除去するサーボアクチュエータにおいて、速度フィードバックループの周波数応答特性を示すデータを取得するデータ収集手段と、データ収集手段で取得されたデータを移動平均処理する移動平均手段と、この移動平均手段で得られたデータと、データ収集手段で得られたデータとを比較して、速度フィードバックループの共振特性を抽出する比較手段と、比較手段で抽出された共振特性に基づいてノッチフィルタ手段の周波数及びQ値を設定するノッチフィルタ設定手段と、を備える」ことを記載している。
特許文献2は、サーボアクチュエータが「チューニングモード時には、周波数をスイープした交流信号を速度指令値の信号に重畳させ、重畳の結果、速度制御部から得られたトルク指令値信号の振幅を検出し、振幅の変化率が正から負に転じたときにおけるトルク指令値信号の周波数をノッチフィルタの中心周波数として設定する」ことを記載している。
特許文献3は、電動機の制御装置が「ノッチ周波数とノッチ幅を含むノッチフィルタパラメータの変更が可能であるノッチフィルタと、振動周波数を推定する振動周波数推定手段を有し、ノッチフィルタのノッチ周波数と推定された振動周波数との間の周波数をノッチフィルタの新たなノッチ周波数として設定するとともに、元のノッチ周波数成分と推定された周波数成分が減衰するようノッチ幅を変更するノッチフィルタパラメータ設定手段を有する」ことを記載している。
特開2009−104439号公報 特開平5−19858号公報 特開2008−312339号公報
フィルタ、例えば、ノッチフィルタの特性を決めるときには、減衰係数、除去したい帯域の中心周波数、及び帯域幅等の複数のパラメータを決めることが求められ、これらのパラメータを調整して最適値を求めることが望まれている。そして、これらのパラメータの設定が適正でないと、共振を十分に抑制できなかったり、サーボ制御部の位相遅れが増大してサーボ制御性能が劣化する場合がある。
(1) 本開示の一態様は、モータを制御するサーボ制御装置に設けられた少なくとも1つのフィルタの係数を最適化する機械学習を行う機械学習システムであって、
少なくとも1つの特定の周波数成分を減衰させるように前記フィルタの係数の初期値を設定する初期設定部と、
前記サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、前記サーボ制御装置の入出力ゲインと入出力の位相遅れの少なくとも1つを算出する周波数特性算出部と、
機械学習開始時に、前記フィルタに前記初期設定部により前記初期値を設定した初期フィルタを用いて得られた前記出力信号と、前記入力信号とに基づいて得られた前記入出力ゲインと前記入出力の位相遅れの少なくとも1つから、前記初期フィルタのフィルタ特性を除去するフィルタ特性除去部と、を備え、
前記フィルタ特性除去部により前記初期フィルタのフィルタ特性が除去された、前記入出力ゲインと前記位相遅れの少なくとも1つが低下するように前記フィルタの係数の機械学習を開始する、機械学習システムである。
(2) 上記(1)の機械学習システムにおいて、前記周波数が変わる入力信号は、周波数が変わる正弦波であって、該正弦波は周波数生成部によって生成され、該周波数生成部は前記サーボ制御装置内又は外に設けられてもよい。
(3) 上記(1)又は(2)の機械学習システムにおいて、前記周波数特性算出部から出力される前記サーボ制御装置の入出力ゲイン及び入出力の位相遅れと、前記初期フィルタの係数又は前記機械学習開始後の前記フィルタの係数と、を含む状態情報を取得する状態情報取得部と、
前記状態情報に含まれる、前記初期フィルタの係数又は前記機械学習開始後の前記フィルタの係数の調整情報を含む行動情報を出力する行動情報出力部と、
前記状態情報取得部から出力される前記入出力ゲイン及び前記入出力の位相遅れに基づく強化学習における報酬の値を出力する報酬出力部と、
前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、を有する機械学習部を備えてもよい。
(4) 上記(3)の機械学習システムにおいて、前記周波数特性算出部は、前記入出力ゲインと前記入出力の位相遅れとを出力し、
前記報酬出力部は、前記サーボ制御装置の入出力ゲインが、前記サーボ制御装置の特性から算出される入出力ゲインの規範モデルの該入出力ゲイン以下である場合に、前記入出力の位相遅れによる報酬を計算してもよい。
(5) 上記(4)の機械学習システムにおいて、前記規範モデルの入出力ゲインは、所定の周波数以上では一定値であってもよい。
(6) 上記(4)又は(5)の機械学習システムにおいて、前記報酬出力部は、前記入出力の位相遅れが小さくなるように報酬を計算してもよい。
(7) 上記(3)から(6)のいずれかの機械学習システムにおいて、前記価値関数更新部により更新された価値関数に基づいて、前記係数の調整情報を出力する最適化行動情報出力部を備えてもよい。
(8) 本開示の他の一態様は、上記(1)から(7)のいずれかの機械学習システムと、特定の周波数成分を減衰させる少なくとも1つのフィルタを有する、モータを制御するサーボ制御装置と、
を備えた制御装置である。
(9) 本開示のさらに他の一態様は、モータを制御するサーボ制御装置に設けられた、少なくとも1つの特定の周波数成分を減衰させる少なくとも1つのフィルタの係数を最適化する機械学習を行う機械学習システムの機械学習方法であって、
少なくとも1つの特定の周波数成分を減衰させるように前記フィルタの係数の初期値を設定し、
前記サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、前記サーボ制御装置の入出力ゲインと入出力の位相遅れの少なくとも1つを算出し、
機械学習開始時に、前記フィルタに前記初期値を設定した初期フィルタを用いて得られた前記サーボ制御装置の出力信号と、前記サーボ制御装置の入力信号とに基づいて得られた入出力ゲインと入出力の位相遅れの少なくとも1つから、前記初期フィルタのフィルタ特性を除去し、
前記フィルタ特性が除去された、前記入出力ゲインと前記位相遅れの少なくとも1つが低下するように前記フィルタの係数の機械学習を開始する、機械学習方法である。
一態様によれば、サーボ制御装置に係るフィルタの最適なパラメータの設定が可能となる。
一実施形態の機械学習システムを含む制御装置を示すブロック図である。 入力信号となる速度指令と出力信号となる検出速度とを示す図である。 入力信号と出力信号との振幅比と、位相遅れとの周波数特性を示す図である。 初期設定のフィルタの周波数特性図である。 初期設定部及びフィルタの動作を説明するための概念図である。 一実施形態の機械学習部を示すブロック図である。 フィルタ特性を付加した周波数特性と、フィルタ特性を除いた周波数特性の一例を示す周波数特性図である。 入出力ゲインの規範モデルを算出するためのモデルとなるブロック図である。 規範モデルのサーボ制御部と、学習前及び学習後のサーボ制御部の入出力ゲインの周波数特性を示す特性図である。 フィルタの帯域幅と、ゲイン及び位相との関係を示す特性図である。 フィルタの減衰係数と、ゲイン及び位相との関係を示す特性図である。 本実施形態におけるQ学習時の機械学習部の動作を示すフローチャートである。 一実施形態の機械学習部の最適化行動情報出力部の動作を説明するフローチャートである。 複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。 制御装置の他の構成例を示すブロック図である。
以下、本開示の実施形態について図面を用いて詳細に説明する。
図1は一実施形態の機械学習システムを含む制御装置を示すブロック図である。制御装置10の制御対象は、例えば、工作機械、ロボット、産業機械である。制御装置10は、工作機械、ロボット、産業機械等の制御対象の一部として設けられてもよい。
制御装置10は、サーボ制御装置となるサーボ制御部100、周波数生成部200、周波数特性算出部300、機械学習部400、及び初期設定部500を備えている。
なお、周波数生成部200、周波数特性算出部300、機械学習部400及び初期設定部500のうちの一つ又は複数はサーボ制御部100の内に設けてもよい。また、初期設定部500及び周波数特性算出部300のうちの一つ又は両方は機械学習部400内に設けてもよい。周波数特性算出部300、機械学習部400及び初期設定部500は機械学習システムを構成する。周波数特性算出部300、機械学習部400及び初期設定部500はそれぞれを独立した装置として設けてもよく、1つの装置としてしてもよい。また、周波数特性算出部300、機械学習部400及び初期設定部500のうちの1つと、残りの2つとで2つの装置を構成してもよい。いずれの場合も機械学習システムを構成する。
サーボ制御部100は、減算器110、速度制御部120、フィルタ130、電流制御部140、及びサーボモータ150を備えている。減算器110、速度制御部120、フィルタ130、電流制御部140、及びサーボモータ150は速度フィードバックループを構成する。モータとなるサーボモータ150は、以下の説明では回転運動をするモータとして説明するが、直線運動をするリニアモータであってもよい。
減算器110は、入力された速度指令と速度フィードバックされた検出速度との差を求め、その差を速度偏差として速度制御部120に出力する。
速度制御部120は、速度偏差に積分ゲインK1vを乗じて積分した値と、速度偏差に比例ゲインK2vを乗じた値とを加算して、トルク指令としてフィルタ130に出力する。
フィルタ130は特定の周波数成分を減衰させるフィルタで、例えばノッチフィルタ又はローパスフィルタが用いられる。モータで駆動される工作機械等の機械では共振点が存在し、サーボ制御部100で共振が増大する場合がある。その場合、例えば、ノッチフィルタを用いることで共振を低減することができる。フィルタ130の出力はトルク指令として電流制御部140に出力される。
数式1(以下に数1として示す)は、フィルタ130の伝達関数F(s)を示す。数式1の係数a、b(0≦i≦m,0≦j≦n、m,nは自然数である)の最適値は機械学習部400で機械学習される。
Figure 0006956122
電流制御部140はトルク指令に基づいてサーボモータ150を駆動するための電流指令を生成し、その電流指令をサーボモータ150に出力する。
サーボモータ150の回転角度位置は、サーボモータ150に設けられたロータリーエンコーダ(図示せず)によって検出され、速度検出値は速度フィードバックとして減算器110に入力される。
以上のようにサーボ制御部100は構成されるが、フィルタの最適なパラメータを機械学習するために、制御装置10は、周波数生成部200、周波数特性算出部300、機械学習部400及び初期設定部500を更に備える。
周波数生成部200は、周波数を変化させながら正弦波信号を速度指令として、サーボ制御部100の減算器110及び周波数特性算出部300に出力する。速度指令はサーボ制御部100への入力信号となる。
周波数特性算出部300は、速度指令(正弦波)と、ロータリーエンコーダ(図示せず)から出力された出力信号となる検出速度(正弦波)とを用いて、速度指令により規定される各周波数ごとに、入力信号と出力信号(入出力)との振幅比(入出力ゲイン)と位相遅れとを求める。図2は入力信号となる速度指令と出力信号となる検出速度とを示す図である。図3は入力信号と出力信号との振幅比と、位相遅れとの周波数特性を示す図である。
図2に示すように、周波数生成部200から出力された速度指令は周波数が変化し、図3に示すような、入出力ゲイン(振幅比)と位相遅れについての周波数特性が得られる。
機械学習部400は、周波数特性算出部300から出力される入出力ゲイン(振幅比)と位相遅れを用いて、フィルタ130の伝達関数F(s)の係数a、bを機械学習(以下、学習という)する。機械学習部400による学習は出荷前に行われるが、出荷後に再学習を行ってもよい。
初期設定部500は、機械学習部400による学習の開始時又は開始前にフィルタ130の伝達関数F(s)の係数の初期値を設定する。初期値が設定されたフィルタ130を初期フィルタと呼ぶ。初期値の係数は、共振周波数を抑制するように設定される。共振周波数を抑制するようにフィルタ130の係数の初期値を設定するのは、機械的な共振点があると、加振により大きな振動が発生して検出速度等のデータが測定できなくなる可能性があるからである。
フィルタの係数の初期値を設定する方法は、例えば、特開2016−034224号公報に記載のサーボモータ制御装置、及び特開2017−022855号公報に記載のサーボ制御装置に開示されたフィルタの調整方法を用いることができる。
特開2016−034224号公報に記載のサーボモータ制御装置は、正弦波生成部が正弦波外乱値を生成し、周波数応答算出部が正弦波外乱値を速度制御ループへ入力したときの周波数応答を算出する。そして、共振周波数検出部が周波数応答の利得が極大となる共振周波数を検出し、共振周波数比較部が共振周波数に基づいて工作機械の剛性を測定し、共振周波数に対してフィルタを調整する。
特開2017−022855号公報に記載のサーボ制御装置においては、正弦波外乱入力部が速度制御ループへの正弦波掃引を行い、周波数特性算出部が速度制御ループの出力から、速度制御ループ入出力信号の利得と位相を推定する。そして、周波数特性算出部が、正弦波外乱入力部からの外乱入力周波数を基本周波数とした、任意の項数からなるフーリエ級数によって速度制御ループの出力を表現し、そのフーリエ級数の基本波成分の振幅と位相を算出することで周波数特性を算出する。その後、共振周波数検出部は、周波数特性から共振周波数を検出し、フィルタ調整部は、検出した共振周波数に応じてフィルタを調整する。
係数が初期値も設定されたフィルタ130の周波数特性は共振点が1つの場合は、図4に示す周波数特性となる。
周波数特性算出部300は、学習の開始時又は開始前に初期設定部500で係数が設定されたフィルタ130を用いたサーボ制御部11で得られた検出速度と速度指令とを用いて、入出力ゲインと位相遅れの周波数特性を算出する。しかし、この周波数特性は初期設定部500による初期設定がされないときのフィルタを用いたときの周波数特性ではない。そこで、機械学習部400は学習の開始時には初期設定部500で設定されたフィルタ130のフィルタ特性を除去したときの周波数特性を求め、求めた周波数特性に対してフィルタ130の係数の学習を行う。周波数特性算出部300は、学習の開始後は、機械学習部400により係数が設定されたフィルタ130を用いて得られた検出速度と速度指令とを用いて周波数特性を算出する。
初期設定部500で係数が設定されたフィルタ130(初期フィルタ)のフィルタ特性を除去する方法は、例えば次のように行われる。
サーボ制御部100は、初期設定部500で係数が設定されたフィルタ130を用いてサーボ制御を行い検出速度と速度指令とを得る。周波数特性算出部300は、サーボ制御部100から得られた検出速度(出力)と速度指令(入力)を用いて、数式2(以下に数2として示す)で示されるサーボ制御部100の伝達関数L(s)の機械モデル(係数c、dは0≦i≦m,0≦j≦n、m,nは自然数である)を生成する。
Figure 0006956122
周波数特性算出部300は、周波数ω[rad]=2πf[Hz]のとき、s=j・ω(jは複素関数)を代入して、
ゲイン=|L(jω)|
位相=∠L(jω)
を求めて、周波数毎にプロットして周波数特性を求める。
一方、機械学習部400は初期設定部500で設定されたフィルタ130(初期フィルタ)の伝達関数を記憶している。この伝達関数は例えば、数式3(以下に数3として示す)で示される伝達関数H(s)である。伝達関数H(s)はノッチフィルタの伝達関数となる。
数式3において、係数kは減衰係数、係数ωは中心角周波数、係数τは比帯域である。中心周波数をfc、帯域幅をfwとすると、係数ωはω=2πfc、係数τはτ=fw/fcで表される。数式3の伝達関数H(s)は、数式1の伝達関数F(s)の係数a、bにおいて、a、b=ω 、a=2τω、b=2kτω、a=1、b=1、a〜a=0、b〜b=0とすることで得ることができる。
Figure 0006956122
機械学習部400は、数式3を用いて、周波数毎のゲインと位相を求めて、これらを伝達関数L(s)の機械モデルを用いて得られた周波数特性に加えて、初期設定部500で設定されたフィルタ130(初期フィルタ)のフィルタ特性が除かれた周波数特性を得る。
ここで、初期設定部500で設定されたフィルタ130のフィルタ特性が除かれたサーボ制御部100の伝達関数をL(s)とすると、L(s)+H(s)=L(s)となるので、L(s)=L(s)−H(s)となる。
周波数ω[rad]=2πf[Hz]のとき、s=j・ω(jは複素関数)を代入して、
ゲイン=|L(jω)−H(jω)|
位相=∠(L(jω)−H(jω))
を求めて、周波数毎にプロットして周波数特性を求める。
以下、初期設定部500及びフィルタ130の動作について図5を用いて説明する。
図5は、初期設定部500及びフィルタ130の動作を説明するための概念図である。
図5に示す、初期フィルタ503は係数が初期値に設定されたフィルタ130、フィルタ502は学習中のフィルタ130に対応する。初期フィルタ503の係数は共振周波数を抑制するように、例えば数式3の伝達関数H(s)の係数のように設定される。機械学習部400による学習開始時には切換部501、504により、速度制御部120と電流制御部140との間に初期フィルタ503が接続されてサーボ制御が行われる。周波数特性算出部300は、初期フィルタ503を用いたサーボ制御で得られた検出速度と速度指令とを用いて、数式2の伝達関数L(s)により入出力ゲインと位相遅れの周波数特性を算出する。その後に、機械学習部400は、L(s)=L(s)−H(s)より求められる伝達関数L(s)によりフィルタ特性を除去したときの周波数特性を求めて学習を行う。学習開始後は切換部501、504により、速度制御部120と電流制御部140との間にフィルタ502が接続されてサーボ制御が行われる。 このように、学習の開始時には共振周波数を抑制するように係数が設定された初期フィルタ503が用いられる。図1に示した制御装置10に対応させると、初期フィルタ503は、初期設定部500がフィルタ103の初期値として共振周波数を抑制する係数を設定することに対応する。 なお、実際に図5の構成を採用すると、図1の構成に比べて、フィルタの数が1つ増え、2つの切換部を挿入するために、実装が複雑になり、コストがアップする。しかし、実装の複雑さ及びコストアップが許容されるならば、図1に示した初期設定部及びフィルタの構成の替わり図5の構成を採用することも可能である。
以下、機械学習部400の構成及び動作の詳細について更に説明する。
<機械学習部400>
以下の説明では機械学習部400が強化学習を行う場合について説明するが、機械学習部400が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。
機械学習部400に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント(本実施形態における機械学習部400に相当)は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択(意思決定)を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。
このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、機械端の振動を抑制するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。
ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Sの下で、行動Aを選択する価値Q(S,A)を学習する方法であるQ学習(Q-learning)を用いる場合を例にとって説明をする。
Q学習では、或る状態Sのとき、取り得る行動Aのなかから、価値Q(S,A)の最も高い行動Aを最適な行動として選択することを目的とする。
しかしながら、Q学習を最初に開始する時点では、状態Sと行動Aとの組合せについて、価値Q(S,A)の正しい値は全く分かっていない。そこで、エージェントは、或る状態Sの下で様々な行動Aを選択し、その時の行動Aに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Q(S,A)を学習していく。
また、将来にわたって得られる報酬の合計を最大化したいので、最終的にQ(S,A)=E[Σ(γ)r]となるようにすることを目指す。ここでE[]は期待値を表し、tは時刻、γは後述する割引率と呼ばれるパラメータ、rは時刻tにおける報酬、Σは時刻tによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしQ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Q(S,A)の更新式は、例えば、次の数式4(以下に数4として示す)により表すことができる。
Figure 0006956122
上記の数式4において、Sは、時刻tにおける環境の状態を表し、Aは、時刻tにおける行動を表す。行動Aにより、状態はSt+1に変化する。rt+1は、その状態の変化により得られる報酬を表している。また、maxの付いた項は、状態St+1の下で、その時に分かっている最もQ値の高い行動Aを選択した場合のQ値にγを乗じたものになる。ここで、γは、0<γ≦1のパラメータで、割引率と呼ばれる。また、αは、学習係数で、0<α≦1の範囲とする。
上述した数式4は、試行Aの結果、返ってきた報酬rt+1を元に、状態Sにおける行動Aの価値Q(S,A)を更新する方法を表している。
この更新式は、状態Sにおける行動Aの価値Q(S,A)よりも、行動Aによる次の状態St+1における最良の行動の価値max Q(St+1,A)の方が大きければ、Q(S,A)を大きくし、逆に小さければ、Q(S,A)を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬rt+1のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
ここで、Q学習では、すべての状態行動ペア(S,A)についてのQ(S,A)のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのQ(S,A)の値を求めるには状態数が多すぎて、Q学習が収束するのに多くの時間を要してしまう場合がある。
そこで、公知のDQN(Deep Q-Network)と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Qを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Qを適当なニューラルネットワークで近似することにより価値Q(S,A)の値を算出するようにしてもよい。DQNを利用することにより、Q学習が収束するのに要する時間を短くすることが可能となる。なお、DQNについては、例えば、以下の非特許文献に詳細な記載がある。
<非特許文献>
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著[online]、[平成29年1月17日検索]、インターネット〈URL:http://files.davidqiu.com/research/nature14236.pdf〉
以上説明をしたQ学習を機械学習部400が行う。具体的には、機械学習部400は、フィルタ130の伝達関数F(s)の各係数a、bの値、周波数特性算出部300から出力された入出力ゲイン(振幅比)と位相遅れを状態Sとして、当該状態Sに係る、フィルタ130の伝達関数の各係数a、bの値の調整を行動Aとして選択する価値Qを学習する。学習の開始時には、初期設定部500はフィルタ130の伝達関数F(s)の各係数a、bを伝達関数H(s)の各係数に設定し、機械学習部400は初期設定部500で設定されたフィルタ130のフィルタ特性を除去して学習を行う。したがって、フィルタ特性を除去したときの入出力ゲイン(振幅比)と位相遅れが状態Sとなる。
学習の開始後には、サーボ制御部100は、機械学習部400により設定されたフィルタ130の伝達関数F(s)の各係数a、bに基づいて、前述した周波数が変化する正弦波である速度指令を用いてサーボ制御を行う。機械学習部400は、サーボ制御部100を駆動することで周波数特性算出部300から得られた、各周波数ごとの入出力ゲイン(振幅比)と位相遅れとを含む状態情報Sを観測して、行動Aを決定する。機械学習部400は、行動Aをするたびに報酬が返ってくる。機械学習部400は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動Aを試行錯誤的に探索する。そうすることで、機械学習部400は、フィルタ130の伝達関数F(s)の各係数a、bに基づいて、周波数が変化する正弦波である速度指令を用いてサーボ制御部100を駆動する。そして機械学習部400は、周波数特性算出部300から得られた、各周波数ごとの入出力ゲイン(振幅比)と位相遅れとを含む状態Sに対して、最適な行動A(すなわち、フィルタ130の伝達関数F(s)の最適な係数a、b)を選択することが可能となる。
すなわち、機械学習部400は、学習された価値関数Qに基づいて、或る状態Sに係るフィルタ130の伝達関数の各係数a、bに対して適用される行動Aのうち、Qの値が最大となるような行動Aを選択する。こうすることで、機械学習部400は、加工プログラムを実行することで生ずる機械端の振動が最小になるような行動A(すなわち、フィルタ130の伝達関数の各係数a、b)を選択することが可能となる。
図6は一実施形態の機械学習部400を示すブロック図である。
上述した強化学習を行うために、図6に示すように、機械学習部400は、状態情報取得部401、学習部402、行動情報出力部403、価値関数記憶部404、及び最適化行動情報出力部405を備える。
状態情報取得部401は、フィルタ特性除去部4011を備えている。フィルタ特性除去部4011には初期設定部500で設定されたフィルタ130の伝達関数H(s)が記憶されている。
学習の開始時又は開始前に、初期設定部500はフィルタ130の伝達関数を伝達関数H(s)に設定する。そして、周波数特性算出部300は、伝達関数H(s)のフィルタ130を用いて得られた検出速度と速度指令とを用いて、サーボ制御部100の伝達関数L(s)により入出力ゲイン(振幅比)と位相遅れの周波数特性を算出する。
この周波数特性は初期設定部500による初期設定がされないときのフィルタ130を用いたときの周波数特性ではない。そこで、状態情報取得部401は学習開始時には、フィルタ特性除去部4011を用いて、伝達関数L(s)(L(s)=L(s)−H(s))によって、伝達関数H(s)のフィルタ130のフィルタ特性を除去したときの、入出力ゲイン(振幅比)と位相遅れの周波数特性を求める。この周波数特性が状態Sとなる。
例えば、図7に、フィルタ特性を付加した周波数特性と、フィルタ特性を除いた周波数特性の一例を示す。図7において、曲線RCはフィルタ特性を付加したサーボ制御部100の周波数特性を示す曲線、曲線RCはフィルタ特性を除いたサーボ制御部100の周波数特性を示す曲線である。
なお、フィルタ特性除去部4011は機械学習部400の状態情報取得部401内でなく、周波数特性算出部300内に設けられてもよい。
状態情報取得部401は、学習開始後の学習中は機械学習部400により設定したフィルタ130の伝達関数F(s)の各係数a、bに基づいて、速度指令(正弦波)を用いてサーボモータ150を駆動することで得られた、入出力ゲイン(振幅比)と位相遅れとを含む状態Sを周波数特性算出部300から取得する。この入出力ゲインは学習開始後の伝達関数F(s)のフィルタを有するサーボ制御部100の伝達関数L(s)を用いて算出された入出力ゲインである。周波数特性算出部300は、サーボ制御部100から得られた検出速度(出力)と速度指令(入力)を用いて、サーボ制御部100の伝達関数L(s)の機械モデルを生成する。この状態Sは、Q学習における、環境状態Sに相当する。
状態情報取得部401は、取得した状態Sを学習部402に対して出力する。
学習部402は、或る環境状態Sの下で、ある行動Aを選択する場合の価値Q(S,A)を学習する部分である。学習部402は報酬出力部4021、価値関数更新部4022、及び行動情報生成部4023を備える。
報酬出力部4021は、或る状態Sの下で、行動Aを選択した場合の報酬を算出する部分である。
報酬出力部4021は、フィルタ130の伝達関数F(s)の各係数a、bを修正した場合において算出した入出力ゲインGを、予め設定した規範モデルの各周波数ごとの入出力ゲインGbと比較する。なお、入出力ゲインGは、前述したサーボ制御部100の伝達関数L(s)を用いて算出された入出力ゲインである。
報酬出力部4021は、算出した入出力ゲインGが規範モデルの入出力ゲインGbよりも大きい場合には、負の報酬を与える。一方、報酬出力部4021は、算出した入出力ゲインGが規範モデルの入出力ゲインGb以下である場合には、位相遅れが小さくなるときは正の報酬を与え、位相遅れが大きくなるときは負の報酬を与え、位相遅れが変わらないときはゼロの報酬を与える。
まず、報酬出力部4021が、算出した入出力ゲインGが規範モデルの入出力ゲインGbよりも大きい場合に、負の報酬を与える動作について図8及び図9を用いて説明する。
報酬出力部4021は、入出力ゲインの規範モデルを保存している。規範モデルは、共振のない理想的な特性を有するサーボ制御部のモデルである。規範モデルは、例えば、図8に示すモデルのイナーシャJa、トルク定数K、比例ゲインK、積分ゲインK、微分ゲインKから計算で求めることができる。イナーシャJaはモータイナーシャと機械イナーシャとの加算値である。
図9は、規範モデルのサーボ制御部と、学習前及び学習後のサーボ制御部100の入出力ゲインの周波数特性を示す特性図である。図9の特性図に示すように、規範モデルは、一定の入出力ゲイン以上、例えば、−20dB以上での理想的な入出力ゲインとなる周波数領域である領域Aと、一定の入出力ゲイン未満となる周波数領域である領域Bとを備えている。図9の領域Aにおいて、規範モデルの理想的な入出力ゲインを曲線MC(太線)で示す。図9の領域Bにおいて、規範モデルの理想的な仮想入出力ゲインを曲線MC11(破線の太線)で示し、規範モデルの入出力ゲインを一定値として直線MC12(太線)で示す。図9の領域A及びBにおいて、学習前及び学習後のサーボ制御部の入出力ゲインの曲線を曲線RC、RCで示す。
報酬出力部4021は、領域Aでは、算出した入出力ゲインの曲線RCが規範モデルの理想的な入出力ゲインの曲線MCを超えた場合は第1の負の報酬を与える。
入出力ゲインが十分小さくなる周波数を超える領域Bでは、入出力ゲインの曲線RCが規範モデルの理想的な仮想入出力ゲインの曲線MC11を超えたとしても安定性への影響が小さくなる。そのため領域Bでは、上述したように、規範モデルの入出力ゲインは理想的なゲイン特性の曲線MC11ではなく、一定値の入出力ゲイン(例えば、−20dB)の直線MC12を用いる。しかし、学習前の算出した入出力ゲインの曲線RCが一定値の入出力ゲインの直線MC12を超えた場合には不安定になる可能性があるため、報酬として第1の負の値を与える。
次に、報酬出力部4021が、算出した入出力ゲインGが規範モデルの入出力ゲインGb以下である場合に、位相遅れの情報に基づいて報酬を決める動作について説明する。
以下の説明において、状態情報Sに係る状態変数である位相遅れをD(S)、行動情報A(フィルタ130の伝達関数F(s)の各係数a、bの修正)により状態Sから変化した状態S´に係る状態変数である位相遅れをD(S´)で示す。
報酬出力部4021が、位相遅れの情報に基づいて報酬を決める方法は、例えば、以下の3つがある。
第1の方法は、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が大きくなるか、小さくなるか、又は同じになるかで報酬を決める方法である。ここでは、位相遅れが180度の場合を取り上げたが、特に180度に限定されず他の値であってもよい。
例えば、位相遅れが図3に示した位相線図で示されたときに、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が小さくなるように(図3のX方向に)曲線が変わると、位相遅れは大きくなる。一方、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が大きくなるように(図3のX方向に)曲線が変わると、位相遅れが小さくなる。
よって、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が小さくなったとき、位相遅れD(S)<位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を第2の負の値とする。なお第2の負の値の絶対値は第1の負の値よりも小さくする。
一方で、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が大きくなったとき、位相遅れD(S)>位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を正の値とする。
また、状態Sから状態S´となった場合に、位相遅れが180度となる周波数が変わらないとき、位相遅れD(S)=位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値をゼロの値とする。
第2の方法は、状態Sから状態S´となった場合に、入出力ゲインが0dBにクロスするときの位相遅れの絶対値が大きくなるか、小さくなるか、又は同じになるかで報酬を決める方法である。
例えば、状態Sにおける、入力ゲインが図3に示したゲイン線図で示されたときに、0dBにクロスする点(以下、「ゼロクロス点」という)に対応する、図3に示した位相線図の位相遅れは−90度となる。
状態Sから状態S´となった場合に、ゼロクロス点の位相遅れの絶対値が大きくなったとき、位相遅れD(S)<位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を第2の負の値とする。
一方で、状態Sから状態S´となった場合に、ゼロクロス点の位相遅れの絶対値が小さくなったときには、位相遅れD(S)>位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を正の値とする。
また、状態Sから状態S´となった場合に、ゼロクロス点の位相遅れの絶対値が変わらないとき、位相遅れD(S)=位相遅れD(S´)として、報酬出力部4021は、報酬の値をゼロの値とする。
第3の方法は、状態Sから状態S´となった場合に、位相余裕が大きくなるか、小さくなるか、又は同じになるかで報酬を決める方法である。位相余裕とは、ゲインが0dBのとき、位相が−180度から何度あるかを示したものが位相余裕である。例えば、図3では、ゲインが0dBのとき、位相が−90度なので、位相余裕は90度となる。
状態Sから状態S´となった場合に、位相余裕が小さくなったとき、位相遅れD(S)<位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を第2の負の値とする。
一方で、状態Sから状態S´となった場合に、位相余裕が大きくなったときには、位相遅れD(S)>位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値を正の値とする。
また、状態Sから状態S´となった場合に、位相余裕が変わらないときには、位相遅れD(S)=位相遅れD(S´)と定義して、報酬出力部4021は、報酬の値をゼロの値とする。
なお、行動Aを実行後の状態S´の位相遅れD(S´)が、前の状態Sにおける位相遅れD(S)より大きくなったと定義した場合の負の値としては、比率に応じて負の値を大きくするようにしてもよい。例えば、上述した第1の方法において、周波数が小さくなった度合いに応じて負の値が大きくなるようにするとよい。逆に、行動Aを実行後の状態S´の位相遅れD(S´)が、前の状態Sにおける位相遅れD(S)より小さくなったと定義した場合の正の値としては、比率に応じて正の値を大きくするようにしてもよい。例えば、上述した第1の方法において、周波数が大きくなった度合いに応じて正の値が大きくなるようにするとよい。
価値関数更新部4022は、状態Sと、行動Aと、行動Aを状態Sに適用した場合の状態S´と、上記のようにして算出された報酬の値と、に基づいてQ学習を行うことにより、価値関数記憶部404が記憶する価値関数Qを更新する。
価値関数Qの更新は、オンライン学習で行ってもよく、バッチ学習で行ってもよく、ミニバッチ学習で行ってもよい。
オンライン学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移する都度、即座に価値関数Qの更新を行う学習方法である。また、バッチ学習は、或る行動Aを現在の状態Sに適用することにより、状態Sが新たな状態S´に遷移することを繰り返すことにより、学習用のデータを収集し、収集した全ての学習用データを用いて、価値関数Qの更新を行う学習方法である。更に、ミニバッチ学習は、オンライン学習と、バッチ学習の中間的な、ある程度学習用データが溜まるたびに価値関数Qの更新を行う学習方法である。
行動情報生成部4023は、現在の状態Sに対して、Q学習の過程における行動Aを選択する。行動情報生成部4023は、Q学習の過程において、フィルタ130の伝達関数F(s)の各係数a、bを修正する動作(Q学習における行動Aに相当)を行わせるために、行動情報Aを生成して、生成した行動情報Aを行動情報出力部403に対して出力する。
より具体的には、行動情報生成部4023は、例えば、状態Sに含まれるフィルタ130の伝達関数F(s)の各係数a、bに対して行動Aに含まれる、フィルタ130の伝達関数F(s)の各係数a、bをインクレメンタルに加算又は減算させる。
そして、行動情報生成部4023は、フィルタ130の伝達関数F(s)の各係数a、bの増加又は減少を適用して、状態S´に遷移して、プラスの報酬(正の値の報酬)が返った場合、次の行動A´としては、フィルタ130の伝達関数F(s)の各係数a、bに対して、前回のアクションと同様にインクレメンタルに加算又は減算させる等、算出した位相遅れが前回の位相遅れよりも小さくなるように行動A´を選択する方策を取るようにしてもよい。
また、逆に、マイナスの報酬(負の値の報酬)が返った場合、行動情報生成部4023は、次の行動A´としては、例えば、フィルタ130の伝達関数F(s)の各係数a、bに対して、前回のアクションとは逆にインクレメンタルに減算又は加算させる等、算出した入出力ゲインが規範モデルの入出力ゲインよりも大きい場合には前回よりも入力ゲインの差がより小さくなるように、又は算出した位相遅れが前回の位相遅れよりも小さくなるように行動A´を選択する方策を取るようにしてもよい。
なお、各係数a、bは全てを修正してもよいが、一部の係数を修正してもよい。例えば、フィルタ130の伝達関数F(s)が数式3に示すようなノッチフィルタの伝達関数として学習されていく場合、共振を生ずる中心周波数fcは見つけやすく、中心周波数fcは特定しやすい。そこで、行動情報生成部4023は、中心周波数fcを仮に固定して、帯域幅fw及び減衰係数kを修正、すなわち、係数ω(=2πfc)を固定し、係数τ(=fw/fc)と及び減衰係数kを修正する動作を行わせてもよい。具体的には、数式1の伝達関数F(s)の係数a、bにおいて、a、b=ω 、a=2τω、b=2kτω、a=1、b=1、a〜a=0、b〜b=0とする。その場合、a、bを固定し、a、bを修正するように行動情報Aを生成して、生成した行動情報Aを行動情報出力部403に対して出力してもよい。
なお、フィルタ130の特性は図10に示すように、フィルタ130の帯域幅fwによって、ゲイン及び位相が変わる。図10において、破線は帯域幅fwが大きい場合を示し、実線は帯域幅fwが小さい場合を示す。また、フィルタ130の特性は図11に示すように、フィルタ130の減衰係数kによって、ゲイン及び位相が変わる。図11において、破線は減衰係数kが小さい場合を示し、実線は減衰係数kが大きい場合を示す。
また、行動情報生成部4023は、現在の推定される行動Aの価値の中で、最も価値Q(S,A)の高い行動A´を選択するグリーディ法や、ある小さな確率εでランダムに行動A´選択し、それ以外では最も価値Q(S,A)の高い行動A´を選択するεグリーディ法といった公知の方法により、行動A´を選択する方策を取るようにしてもよい。
行動情報出力部403は、学習部402から出力される行動情報Aをフィルタ130に対して送信する部分である。フィルタ130は上述したように、この行動情報に基づいて、現在の状態S、すなわち現在設定されている各係数a、bを微修正することで、次の状態S´(すなわち修正された、フィルタ130の各係数)に遷移する。
価値関数記憶部404は、価値関数Qを記憶する記憶装置である。価値関数Qは、例えば状態S、行動A毎にテーブル(以下、行動価値テーブルと呼ぶ)として格納してもよい。価値関数記憶部404に記憶された価値関数Qは、価値関数更新部4022により更新される。また、価値関数記憶部404に記憶された価値関数Qは、他の機械学習部400との間で共有されるようにしてもよい。価値関数Qを複数の機械学習部400で共有するようにすれば、各機械学習部400にて分散して強化学習を行うことが可能となるので、強化学習の効率を向上させることが可能となる。
最適化行動情報出力部405は、価値関数更新部4022がQ学習を行うことにより更新した価値関数Qに基づいて、価値Q(S,A)が最大となる動作をフィルタ130に行わせるための行動情報A(以下、「最適化行動情報」と呼ぶ)を生成する。
より具体的には、最適化行動情報出力部405は、価値関数記憶部404が記憶している価値関数Qを取得する。この価値関数Qは、上述したように価値関数更新部4022がQ学習を行うことにより更新したものである。そして、最適化行動情報出力部405は、価値関数Qに基づいて、行動情報を生成し、生成した行動情報をフィルタ130に対して出力する。この最適化行動情報には、行動情報出力部403がQ学習の過程において出力する行動情報と同様に、フィルタ130の伝達関数の各係数a、bを修正する情報が含まれる。
フィルタ130では、この行動情報に基づいて伝達関数F(s)の各係数a、bが修正される。
機械学習部400は、以上の動作で、フィルタ130の伝達関数F(s)の各係数a、bの最適化を行い、機械端の振動を抑制するように動作することができる。
以上のように、本発明に係る機械学習部400を利用することで、フィルタ130のパラメータ調整を簡易化することができる。
以上、制御装置10に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、制御装置10は、CPU(Central Processing Unit)等の演算処理装置を備える。また、制御装置10は、アプリケーションソフトウェアやOS(Operating System)等の各種の制御用プログラムを格納したHDD(Hard Disk Drive)等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのRAM(Random Access Memory)といった主記憶装置も備える。
そして、制御装置10において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやOSを読み込み、読み込んだアプリケーションソフトウェアやOSを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやOSに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。
機械学習部400については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにGPU(Graphics Processing Units)を搭載し、GPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれる技術により、GPUを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなGPUを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。
次に、図12のフローチャートを参照して本実施形態におけるQ学習時の機械学習部400の動作について説明をする。
ステップS11において、状態情報取得部401がサーボ制御部100及び周波数特性算出部300から最初の状態情報Sを取得する。
最初にQ学習を開始する時点での状態Sにおける入出力ゲイン(振幅比)G(S)、及び位相遅れD(S)は、周波数が変化する正弦波である速度指令を用いて、フィルタ130の伝達関数が伝達関数H(s)であるサーボ制御部100を駆動することで、周波数特性算出部300から得られる。速度指令と検出速度は周波数特性算出部300に入力され、周波数特性算出部300から出力される入出力ゲイン(振幅比)G(S)、及び位相遅れD(S)が、状態情報取得部401に最初の状態情報として入力される。周波数特性算出部300は、状態Sにおける、サーボ制御部100の数式2に示した伝達関数L(s)に基づいて、入出力ゲイン(振幅比)G(S)、及び位相遅れD(S)を、算出する。初期設定部500で設定されるフィルタ130の伝達関数H(s)の各係数ω、τ、kは、状態情報取得部401へ最初の状態情報として送られる。既に説明したように、数式1の伝達関数F(s)のa、b=ω 、a=2τω、b=2kτω、a=1、b=1、a〜a=0、b〜b=0とすることで、数式3の伝達関数H(s)を得ることができる。
ステップS12において、状態情報取得部401は、フィルタ特性除去部4011を用いて、初期設定部500で設定されたフィルタ130のフィルタ特性を除去したときの、状態Sにおける、入出力ゲイン(振幅比)、及び位相遅れの周波数特性を求める。求めた入出力ゲイン(振幅比)、及び位相遅れは、報酬出力部4021及び行動情報生成部4023に対して出力される。上述したように、この状態情報Sは、Q学習における状態に相当する情報である。
ステップS13において、行動情報生成部4023は新たな行動情報Aを生成し、生成した新たな行動情報Aを、行動情報出力部403を介してフィルタ130に対して出力する。行動情報生成部4023は前述した方策に基づいて、新たな行動情報Aを出力する。なお、行動情報Aを受信したサーボ制御部100は、受信した行動情報に基づいて現在の状態Sに係るフィルタ130の伝達関数F(s)の各係数a、bを修正した状態S´により、周波数が変化する正弦波である速度指令を用いてサーボモータ150を駆動する。上述したように、この行動情報は、Q学習における行動Aに相当するものである。なお、学習開始時の状態Sではフィルタ130の伝達関数は、伝達関数F(s)の各係数a、bが伝達関数H(s)の各係数に設定されており、学習開始時の状態S後の次の状態S´では行動情報生成部4023は、伝達関数F(s)の各係数a、bを伝達関数H(s)の各係数から修正する。
ステップS14において、状態情報取得部401は、新たな状態S´における、入出力ゲイン(振幅比)G(S´)、及び位相遅れD(S´)及びフィルタ130から伝達関数F(s)の各係数a、bを新たな状態情報として取得する。取得した新たな状態情報は、報酬出力部4021に対して出力される。
ステップS15において、報酬出力部4021は、状態S´における各周波数の入出力ゲインG(S´)が、規範モデルの各周波数の入出力ゲインGb以下かどうかを判断する。各周波数の入出力ゲインG(S´)が、規範モデルの各周波数の入出力ゲインGbより大きければ(ステップS15のNO)、ステップS16において、報酬出力部4021は、報酬を第1の負の値とし、ステップS13に戻る。
報酬出力部4021は、状態S´における各周波数の入出力ゲインG(S´)が、規範モデルの各周波数の入出力ゲインGb以下であれば(ステップS15のYES)、位相遅れD(S´)が位相遅れD(S)と比べて小さくなるときは正の報酬を与え、位相遅れD(S´)が位相遅れD(S)と比べて大きくなるときは負の報酬を与え、位相遅れD(S´)が位相遅れD(S)と比べて変わらないときはゼロの報酬を与える。前述したように位相遅れが小さくなるように報酬を決める方法は例えば3つの方法が挙げられるが以下の例では第1の方法を取り上げて説明する。なお、状態Sは学習開始時においては状態Sとなる。
ステップS17において、具体的には、例えば、図3の位相線図において、状態Sから状態S´となった場合に、位相遅れが180度のときの周波数が小さくなったときには、位相遅れD(S)<位相遅れD(S´)と定義して、報酬出力部4021は、ステップS18で、報酬の値を第2の負の値とする。なお第2の負の値の絶対値は第1の負の値よりも小さくする。状態Sから状態S´となった場合に、位相遅れが180度のときの周波数が大きくなったときには、位相遅れD(S)>位相遅れD(S´)と定義して、報酬出力部4021は、ステップS19で報酬の値を正の値とする。また、状態Sから状態S´となった場合に、位相遅れが180度のときの周波数が変わらないときには、位相遅れD(S)=位相遅れD(S´)と定義して、報酬出力部4021は、ステップS20で報酬の値をゼロの値とする。
ステップS18、ステップS19及びステップS20の何れかが終了すると、ステップS21において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部4022が、価値関数記憶部404に記憶している価値関数Qを更新する。そして、再度ステップS11に戻り、上述した処理を繰り返すことにより、価値関数Qは適切な値に収束していく。なお、上述した処理を、所定回数繰り返したことや、所定時間繰り返したことを条件として処理を終了するようにしてもよい。
なお、ステップS21はオンライン更新を例示しているが、オンライン更新に替えてバッチ更新又はミニバッチ更新に置き換えてもよい。
以上、図12を参照して説明した動作により、本実施形態では、機械学習部400を利用することで、フィルタ130の伝達関数F(s)の各係数a、bの調整のための、適切な価値関数を得ることができ、フィルタ130の伝達関数F(s)の各係数a、bの最適化を簡易化することができる、という効果を奏する。
次に、図13のフローチャートを参照して、最適化行動情報出力部405による最適化行動情報の生成時の動作について説明をする。
まず、ステップS21において、最適化行動情報出力部405は、価値関数記憶部404に記憶している価値関数Qを取得する。価値関数Qは、上述したように価値関数更新部4022がQ学習を行うことにより更新したものである。
ステップS22において、最適化行動情報出力部405は、この価値関数Qに基づいて、最適化行動情報を生成し、生成した最適化行動情報をフィルタ130に対して出力する。
また、図13を参照して説明した動作により、本実施形態では、機械学習部400により学習することにより求められる価値関数Qに基づいて、最適化行動情報を生成し、この最適化行動情報に基づいて、現在設定されているフィルタ130の伝達関数F(s)の各係数a、bの調整を簡易化するとともに、機械端の振動を抑制し、ワークの加工面の品位を向上させることができる。
上記の制御装置に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。
上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
上述した実施形態では、サーボモータ150により駆動される機械に1つの共振点がある場合について説明したが、機械に複数の共振点がある場合もある。機械に複数の共振点がある場合には、各共振点に対応するようにフィルタを複数個設けて、直列に接続することで、すべての共振を減衰させることができる。図14は複数のフィルタを直接接続してフィルタを構成した例を示すブロック図である。図14において、m個(mは2以上の自然数)の共振点がある場合に、フィルタ130は、m個のフィルタ130−1〜130−mを直列接続して構成する。m個のフィルタ130−1〜130−mのそれぞれの係数a、bについて、順次、共振点を減衰させる最適値を機械学習により求めていく。
また、上述した実施形態では、周波数特性算出部が、サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、サーボ制御装置の入出力ゲインと入出力の位相遅れの両方を算出し、フィルタ特性除去部が入出力ゲインと入出力の位相遅れの両方から初期フィルタのフィルタ特性を除去し、機械学習部が初期フィルタのフィルタ特性が除去された、入出力ゲインと前記位相遅れの両方が低下するようにフィルタの係数の機械学習を開始した例について説明した。しかし、上述した実施形態において、周波数特性算出部が、サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、サーボ制御装置の入出力ゲインと入出力の位相遅れの一方を算出し、フィルタ特性除去部が入出力ゲインと入出力の位相遅れの一方から初期フィルタのフィルタ特性を除去し、機械学習部が初期フィルタのフィルタ特性が除去された、入出力ゲインと位相遅れの一方が低下するようにフィルタの係数の機械学習を開始してもよい。
また、制御装置の構成は図1の構成以外にも以下の構成がある。
<機械学習部がサーボ制御部の外部に設けられた変形例>
図15は制御装置の他の構成例を示すブロック図である。図15に示す制御装置10Aが、図1に示した制御装置10と異なる点は、n(nは2以上の自然数)個のサーボ制御部100A−1〜100A−nが、ネットワーク600を介してn個の機械学習部400A−1〜400A−nに接続されていること、及びそれぞれ周波数生成部200と周波数特性算出部300と初期設定部500とを備えていることである。機械学習部400A−1〜400A−nは図6に示した機械学習部400と同じ構成を有している。サーボ制御部100A−1〜100A−nはそれぞれサーボ制御装置に対応しており、また機械学習部400A−1〜400A−nはそれぞれ機械学習装置に対応している。なお、周波数生成部200と周波数特性算出部300と初期設定部500とのいずれか又は複数をサーボ制御部100A−1〜100A−nの外に設けてもよいことは勿論である。
ここで、サーボ制御部100A−1と、機械学習部400A−1とは1対1の組とされて、通信可能に接続されている。サーボ制御部100A−2〜100A−nと、機械学習部400A−2〜400A−nについてもサーボ制御部100A−1と機械学習部400A−1と同様に接続される。図15では、サーボ制御部100A−1〜100A−nと、機械学習部400A−1〜400A−nとのn個の組は、ネットワーク600を介して接続されているが、サーボ制御部100A−1〜100A−nと、機械学習部400A−1〜400A−nとのn個の組は、それぞれの組のサーボ制御部と機械学習部とが接続インタフェースを介して直接接続されてもよい。これらサーボ制御部100A−1〜100A−nと機械学習部400A−1〜400A−nとのn個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。
なお、ネットワーク600は、例えば、工場内に構築されたLAN(Local Area Network)や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク600における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。
<システム構成の自由度>
上述した実施形態では、サーボ制御部100A−1〜100A−nと、機械学習部400A−1〜400A−nとはそれぞれ1対1の組とされて通信可能に接続されているが、例えば1台の機械学習部が複数のサーボ制御部とネットワーク600を介して通信可能に接続され、各サーボ制御部の機械学習を実施するようにしてもよい。
その際、1台の機械学習部の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、1台の機械学習部の各機能を実現してもよい。
また、n台の同じ型名、同一仕様、又は同一シリーズのサーボ制御部100A−1〜100A−nとそれぞれ対応するn個の機械学習部400A−1〜400A−nがあった場合に、各機械学習部400A−1〜400A−nにおける学習結果を共有するように構成するようにしてもよい。そうすることで、より最適なモデルを構築することが可能となる。
10、10A 制御装置
100、100−1〜100−n サーボ制御部
110 減算器
120 速度制御部
130 フィルタ
140 電流制御部
150 サーボモータ
200 周波数生成部
300 周波数特性算出部
400 機械学習部
400A−1〜400A−n 機械学習部
401 状態情報取得部
402 学習部
403 行動情報出力部
404 価値関数記憶部
405 最適化行動情報出力部
500 初期設定部
600 ネットワーク

Claims (9)

  1. モータを制御するサーボ制御装置に設けられた少なくとも1つのフィルタの係数を最適化する機械学習を行う機械学習システムであって、
    少なくとも1つの特定の周波数成分を減衰させるように前記フィルタの係数の初期値を設定する初期設定部と、
    前記サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、前記サーボ制御装置の入出力ゲインと入出力の位相遅れの少なくとも1つを算出する周波数特性算出部と、
    機械学習開始時に、前記フィルタに前記初期設定部により前記初期値を設定した初期フィルタを用いて得られた前記出力信号と、前記入力信号とに基づいて得られた前記入出力ゲインと前記入出力の位相遅れの少なくとも1つから、前記初期フィルタのフィルタ特性を除去するフィルタ特性除去部と、を備え、
    前記フィルタ特性除去部により前記初期フィルタのフィルタ特性が除去された、前記入出力ゲインと前記位相遅れの少なくとも1つが低下するように前記フィルタの係数の機械学習を開始する、機械学習システム。
  2. 前記周波数が変わる入力信号は、周波数が変わる正弦波であって、
    該正弦波は周波数生成部によって生成され、該周波数生成部は前記サーボ制御装置内又は外に設けられる、請求項1に記載の機械学習システム。
  3. 前記周波数特性算出部から出力される前記サーボ制御装置の入出力ゲイン及び入出力の位相遅れと、前記初期フィルタの係数又は前記機械学習開始後の前記フィルタの係数と、を含む状態情報を取得する状態情報取得部と、
    前記状態情報に含まれる、前記初期フィルタの係数又は前記機械学習開始後の前記フィルタの係数の調整情報を含む行動情報を出力する行動情報出力部と、
    前記状態情報取得部から出力される前記入出力ゲイン及び前記入出力の位相遅れに基づく強化学習における報酬の値を出力する報酬出力部と、
    前記報酬出力部により出力される報酬の値と、前記状態情報と、前記行動情報とに基づいて行動価値関数を更新する価値関数更新部と、
    を有する機械学習部を備えた、
    請求項1又は2に記載の機械学習システム。
    装置。
  4. 前記周波数特性算出部は、前記入出力ゲインと前記入出力の位相遅れとを出力し、
    前記報酬出力部は、前記サーボ制御装置の入出力ゲインが、前記サーボ制御装置の特性から算出される入出力ゲインの規範モデルの該入出力ゲイン以下である場合に、前記入出力の位相遅れによる報酬を計算する、請求項3に記載の機械学習システム。
  5. 前記規範モデルの入出力ゲインは、所定の周波数以上では一定値である、請求項4に記載の機械学習システム。
  6. 前記報酬出力部は、前記入出力の位相遅れが小さくなるように報酬を計算する、請求項4又は5に記載の機械学習システム。
  7. 前記価値関数更新部により更新された価値関数に基づいて、前記係数の調整情報を出力する最適化行動情報出力部を備えた請求項3から6のいずれか1項に記載の機械学習システム。
  8. 請求項1から請求項7のいずれか1項に記載の機械学習システムと、
    特定の周波数成分を減衰させる少なくとも1つのフィルタを有する、モータを制御するサーボ制御装置と、
    を備えた制御装置。
  9. モータを制御するサーボ制御装置に設けられた、少なくとも1つの特定の周波数成分を減衰させる少なくとも1つのフィルタの係数を最適化する機械学習を行う機械学習システムの機械学習方法であって、
    少なくとも1つの特定の周波数成分を減衰させるように前記フィルタの係数の初期値を設定し、
    前記サーボ制御装置における、周波数が変わる入力信号と出力信号とに基づいて、前記サーボ制御装置の入出力ゲインと入出力の位相遅れの少なくとも1つを算出し、
    機械学習開始時に、前記フィルタに前記初期値を設定した初期フィルタを用いて得られた前記サーボ制御装置の出力信号と、前記サーボ制御装置の入力信号とに基づいて得られた入出力ゲインと入出力の位相遅れの少なくとも1つから、前記初期フィルタのフィルタ特性を除去し、
    前記フィルタ特性が除去された、前記入出力ゲインと前記位相遅れの少なくとも1つが低下するように前記フィルタの係数の機械学習を開始する、機械学習方法。
JP2019010111A 2019-01-24 2019-01-24 フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法 Active JP6956122B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2019010111A JP6956122B2 (ja) 2019-01-24 2019-01-24 フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法
US16/707,113 US11226599B2 (en) 2019-01-24 2019-12-09 Machine learning system, control device, and machine learning method for optimizing filter coefficients
DE102020200635.0A DE102020200635A1 (de) 2019-01-24 2020-01-21 Maschinenlernsystem, Steuervorrichtung und Maschinenlernverfahren für das Optimieren von Filterkoeffizienten
CN202010072337.9A CN111478682A (zh) 2019-01-24 2020-01-21 优化滤波器系数的机器学习系统、控制装置以及机器学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019010111A JP6956122B2 (ja) 2019-01-24 2019-01-24 フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法

Publications (2)

Publication Number Publication Date
JP2020119295A JP2020119295A (ja) 2020-08-06
JP6956122B2 true JP6956122B2 (ja) 2021-10-27

Family

ID=71524692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019010111A Active JP6956122B2 (ja) 2019-01-24 2019-01-24 フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法

Country Status (4)

Country Link
US (1) US11226599B2 (ja)
JP (1) JP6956122B2 (ja)
CN (1) CN111478682A (ja)
DE (1) DE102020200635A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11122479B2 (en) * 2018-11-16 2021-09-14 Airfide Networks LLC Systems and methods for millimeter wave V2X wireless communications
JP7368159B2 (ja) * 2019-09-27 2023-10-24 ファナック株式会社 機械学習装置、機械学習方法及び産業機械
US11481679B2 (en) * 2020-03-02 2022-10-25 Kyndryl, Inc. Adaptive data ingestion rates
WO2023181484A1 (ja) * 2022-03-23 2023-09-28 パナソニックIpマネジメント株式会社 制御パラメータ調整装置、および、制御パラメータ調整方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519858A (ja) 1991-07-15 1993-01-29 Yokogawa Electric Corp サ―ボアクチユエ―タ
JP2008312339A (ja) 2007-06-14 2008-12-25 Panasonic Corp 電動機の制御装置
JP2009104439A (ja) 2007-10-24 2009-05-14 Yokogawa Electric Corp サーボアクチュエータ
JP6312548B2 (ja) 2014-07-31 2018-04-18 ファナック株式会社 機械剛性の自己測定機能および自己監視機能を有するサーボモータ制御装置
JP6154435B2 (ja) 2015-07-09 2017-06-28 ファナック株式会社 制御系のオンライン自動調整状況を表示する機能を有するサーボ制御装置
JP6259428B2 (ja) * 2015-07-31 2018-01-10 ファナック株式会社 機械指令に応じたフィルタを学習する機械学習装置、機械学習装置を備えたモータ駆動装置及びモータ駆動システム並びに機械学習方法
JP6649023B2 (ja) * 2015-09-30 2020-02-19 ファナック株式会社 学習制御器の特性測定を行う機能を有するサーボ制御装置
WO2018151215A1 (ja) * 2017-02-20 2018-08-23 株式会社安川電機 制御装置及び制御方法
JP6901450B2 (ja) * 2018-10-02 2021-07-14 ファナック株式会社 機械学習装置、制御装置及び機械学習方法

Also Published As

Publication number Publication date
DE102020200635A1 (de) 2020-07-30
JP2020119295A (ja) 2020-08-06
US20200241485A1 (en) 2020-07-30
US11226599B2 (en) 2022-01-18
CN111478682A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
JP6956122B2 (ja) フィルタの係数を最適化する機械学習システム、制御装置及び機械学習方法
JP6901450B2 (ja) 機械学習装置、制御装置及び機械学習方法
JP6490127B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP6860540B2 (ja) 出力装置、制御装置、及び学習パラメータの出力方法
JP6748135B2 (ja) 機械学習装置、サーボ制御装置、サーボ制御システム、及び機械学習方法
JP2019021024A (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
JP7000373B2 (ja) 機械学習装置、制御装置及び機械学習方法
US20200150599A1 (en) Output device, control device, and method for outputting evaluation functions and machine learning results
JP6841801B2 (ja) 機械学習装置、制御システム及び機械学習方法
CN111552237B (zh) 机器学习装置、控制装置、以及机器学习的搜索范围的设定方法
CN111722530B (zh) 机器学习装置、控制系统以及机器学习方法
JP7469476B2 (ja) 制御支援装置、制御システム及び制御支援方法
JP6740263B2 (ja) 機械学習装置、サーボモータ制御装置、サーボモータ制御システム、及び機械学習方法
WO2021251226A1 (ja) 制御支援装置、制御装置及び制御支援方法
WO2021210483A1 (ja) 機械学習装置、制御装置及び機械学習方法
WO2022065190A1 (ja) 制御支援装置、制御システム及びフィルタ調整方法
CN110727242B (zh) 机器学习装置、控制装置、以及机器学习方法
WO2023067787A1 (ja) 安定余裕の設定支援装置、制御システム及び設定支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211004

R150 Certificate of patent or registration of utility model

Ref document number: 6956122

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150