JP7206874B2 - 制御装置、制御方法及びプログラム - Google Patents

制御装置、制御方法及びプログラム Download PDF

Info

Publication number
JP7206874B2
JP7206874B2 JP2018231177A JP2018231177A JP7206874B2 JP 7206874 B2 JP7206874 B2 JP 7206874B2 JP 2018231177 A JP2018231177 A JP 2018231177A JP 2018231177 A JP2018231177 A JP 2018231177A JP 7206874 B2 JP7206874 B2 JP 7206874B2
Authority
JP
Japan
Prior art keywords
look
ahead
controlled object
value
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018231177A
Other languages
English (en)
Other versions
JP2020095352A (ja
Inventor
吉雄 丹下
智志 桐生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP2018231177A priority Critical patent/JP7206874B2/ja
Priority to US16/665,125 priority patent/US11294339B2/en
Publication of JP2020095352A publication Critical patent/JP2020095352A/ja
Application granted granted Critical
Publication of JP7206874B2 publication Critical patent/JP7206874B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Description

本発明は、制御装置、制御方法及びプログラムに関する。
近年、機械学習の1つとして、深層強化学習と呼ばれる手法が広く知られるようになってきた。深層強化学習とは、従来から知られていた強化学習と、多層のニューラルネットワークを学習する手法である深層学習とを組み合わせることで、或る環境下における複雑な最適行動を獲得する手法である。
強化学習の産業分野への応用例としては、例えば、エネルギーマネジメント分野への応用(特許文献1)やプラント制御への応用(特許文献2)、自動車の自動運転への応用(特許文献3)等が知られている。
また、産業上広く利用されている制御装置として、温調制御装置やPLC(Programmable Logic Controller)、DCS(Distributed Control System)等が知られている。このような制御装置に用いられる制御方式として、PID(Proportional-Integral-Differential)制御、モデル予測制御(MPC:Model-Predictive-Control)、内部モデル制御、LQG(Linear-Quadratic-Gaussian)制御、H2制御、H∞制御等が知られている。これらの制御方式は、制御対象の制御量を目標値に追従させることを目的とする制御方式である。
また、現在に至るまでの過去の操作量の変化に応じた制御量の収束値の予測値と、目標値との差である補正目標偏差に基づいて、新たな操作量を決定する技術が知られている(特許文献4)
特開2018-48750号公報 特開2017-157112号公報 特開2018-37064号公報 国際公開第2016/092872号
ここで、例えば、従来のモデル予測制御は、制御対象のモデルを用いて最適な操作量を計算することで、制御対象の特性を担保した制御が可能となる手法であるが、モデルの経年変化や非線形性、その他予期しない特性等には対応することができなかった。一方で、上記の特許文献1~3に記載されている応用例に鑑みると、深層強化学習を制御対象の制御に応用することで、これらの経年変化や非線形性、その他予期しない特性等にも対応可能な柔軟な制御を実現することができると考えられる。
しかしながら、深層強化学習では、状態の変化が既知の環境下で、十分なバリエーションのあるデータを用いて、十分な回数の学習を行う必要がある。したがって、制御対象の制御に深層強化学習を応用した場合、深層強化学習によって得られた制御則がブラックボックスになってしまうという問題がある。このため、得られた制御則が正しいものであるか否かの判定が困難な場合があった。
例えば、上記の特許文献1に記載されている応用例では、空調のシミュレーションに基づいて温度分布が正常になるまで学習を繰り返すが、一般に空調のシミュレーションは非常に計算時間の掛かる処理である。このため、深層強化学習を用いた場合、膨大な学習時間を要したり、学習が収束しなかったりすることがある。このとき、学習が十分に収束しない場合、得られた制御則がブラックボックスであるがゆえに、その制御則が正しいものであるかどうかの判定が困難であった。
本発明は、上記の点に鑑みてなされたもので、制御対象の制御特性を担保しつつ、深層強化学習による柔軟な制御を実現することを目的とする。
上記目的を達成するため、本発明の実施の形態における制御装置は、制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手段と、前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手段と、前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手段と、前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手段と、を有することを特徴とする。
制御対象の制御特性を担保しつつ、深層強化学習による柔軟な制御を実現することができる。
本実施形態に係る制御装置の構成の一例を示す図である。 目標値先読み部の動作の一例を説明するための図である。 応答補正部の動作の一例を説明するための図(その1)である。 応答補正部の動作の一例を説明するための図(その2)である。 制御対象応答モデル関数をニューラルネットワークで実現した場合の一例を模式的に示す図である。 操作量学習・計算部の動作の一例を説明するための図である。 強化学習部の動作の一例を説明するための図である。 行動評価関数を多層ニューラルネットワークで実現した場合の一例を模式的に示す図である。 変換テーブルの一例を示す図である。 本実施形態に係る制御装置のハードウェア構成の一例を示す図である。 実施例におけるステップ応答を示す図である。 実施例における学習用の目標値時系列を示す図である。 実施例における変換テーブルを示す図である。 実施例における学習履歴の変化を示す図である。 実施例における制御応答結果を示す図(その1)である。 実施例における制御応答結果を示す図(その2)である。
以下、本発明の実施の形態(以降、「本実施形態」とも表す。)について、図面を参照しながら詳細に説明する。以降では、制御対象モデルを用いた応答予測により、完全なブラックボックスではなく、制御対象の特性を担保しつつ、かつ、深層強化学習により経年変化や非線形性、その他予期しない特性等にも対応可能な柔軟な制御を実現する制御装置10について説明する。ここで、本実施形態に係る制御装置10は、制御対象の運用開始前に制御対象モデルを用いて深層強化学習による学習を十分に行った上で、実際に制御対象を運用する際には、この事前学習の結果を初期値として、適宜、深層強化学習による学習を行う。これにより、制御対象の特性を担保しつつ、制御対象の経年変化(例えば、特性の変化等)や非線形性、その他予期しない特性等にも対応可能な柔軟な制御を実現することができる。
なお、本実施形態に係る制御装置10は、例えば、PLCやDCS、組み込み型の計算機器等を想定するが、これらに限られず、制御対象を操作するための任意の機器又は装置を用いることができる。例えば、プラント制御、インバータ制御、機械制御、電気制御、信号制御、空調制御、温調制御等の各種制御に用いられる制御機器又は制御装置を用いることが可能である。
また、本実施形態では、一例として、SISO(single-input and single-output)制御である場合について説明するが、これに限られず、例えば、MIMO(multiple-input and multiple-output)制御に対しても本実施形態を同様に適用することが可能である。
<制御装置10の構成>
まず、本実施形態に係る制御装置10の構成について、図1を参照しながら説明する。図1は、本実施形態に係る制御装置10の構成の一例を示す図である。
図1に示すように、本実施形態に係る制御装置10は、目標値先読み部101と、計測部102と、差分器103と、操作量更新部104と、タイマ105とを有する。これら各機能部は、例えば、制御装置10にインストールされた1以上のプログラムがプロセッサ等に実行させる処理によって実現される。
目標値先読み部101は、所定の制御周期T毎に、目標値時系列{r(t)}と、先読み長Tとを入力して、現在時刻tから先読み長後の時刻t+Tにおける目標値r(t+T)を出力する。先読み長Tとは、目標値時系列{r(t)}のうち、先読みする目標値r(t+T)を決定するための時間長である。なお、以降では、目標値r(t+T)を「先読み目標値r(t+T)」とも表す。
計測部102は、制御周期T毎に、制御対象モデル20又は制御対象30の制御量yを計測する。そして、計測部102は、計測した制御量yの最新の値を、制御量現在値yとして出力する。なお、yは計測部102によって計測された制御量であることから「制御量計測値y」とも表す。したがって、制御量現在値とは、制御量計測値のうち、最新の制御量計測値のことである。
ここで、制御対象30は、実際の制御対象(すなわち、例えば、実際に制御の対象となるプラントやインバータ、機械、電気設備、信号設備、空調設備、温調設備等)である。一方で、制御対象モデル20は、制御対象30のモデル(すなわち、制御対象30をモデル化したデータ)のことである。制御対象モデル20は、制御装置10が有する補助記憶装置等のメモリに格納されていてもよいし、制御装置10とは異なる他の装置が有するメモリに格納されていてもよい。
なお、制御対象モデル20の制御量yは、操作量uと疑似外乱v´とに応じて決定される。一方で、制御対象30の制御量yは、操作量uと外乱vとに応じて決定される。疑似外乱v´とは外乱vに相当する値を制御対象モデル20に与えたものである。外乱vとしては、例えば、制御対象30が温調設備、制御量yが温度である場合における外気温の低下又は上昇等が挙げられる。
また、計測部102は、操作量更新部104から出力された操作量uを取得し、取得した操作量uの最新の値を、操作量現在値uとして出力する。
差分器103は、目標値先読み部101から出力された先読み目標値r(t+T)と、制御量現在値yとの差(偏差)を目標偏差e(t+T|t)として出力する。目標偏差e(t+T|t)は、e(t+T|t)=r(t+T)-y(t)で算出される。なお、以降では、目標偏差e(t+T|t)を「先読み目標偏差e(t+T|t)」とも表す。
操作量更新部104は、制御周期T毎に、制御対象モデル20又は制御対象30に対する操作量uを出力する。ここで、操作量更新部104には、応答補正部111と、操作量学習・計算部112と、加算器113とが含まれる。
応答補正部111は、制御対象30の応答モデル(以降、「制御対象応答モデル」とも表す。)Sm,tと、先読み目標偏差e(t+T|t)と、先読み長Tと、過去の操作量uの変化量du(以降では、これを「操作変化量du」とも表す。)の時系列データである操作変化量時系列{du(t)}とに基づいて、操作変化量duの算出に用いられる補正目標偏差e(t)を算出する。制御対象応答モデルSm,tは、時刻tにおいて、制御対象30の時刻mにおける応答を予測するモデルである。なお、補正目標偏差e(t)の算出方法の詳細については後述する。
操作量学習・計算部112は、制御周期T毎に、応答補正部111により算出された補正目標偏差e(t)に基づいて、操作変化量du(t)を算出する。このとき、操作量学習・計算部112は、操作変化量du(t)の算出と同時に、深層強化学習による学習も行うことができる。操作変化量du(t)の算出と、深層強化学習による学習との詳細については後述する。
ここで、操作量学習・計算部112は、例えば、du(t-3T)、du(t-2T)、du(t-T)という順序で操作変化量du(t)を算出し、出力する。なお、操作変化量duは、制御周期T毎に操作量uが変化した量である。
加算器113は、計測部102から出力された操作量現在値uと、操作量学習・計算部112から出力された操作変化量duとを加算して、新たな操作量uを算出する。そして、加算器113は、この操作量uを制御対象モデル20又は制御対象30に出力する。この操作量uは、u(t)=u+du(t)=u(t-T)+du(t)で算出される。
なお、本実施形態に係る制御装置10では、加算器113で算出した操作量uをそのまま制御対象モデル20又は制御対象30に出力しているが、例えば、操作量uに上下限制約が存在する場合等には、別途リミッター等を設けた上で、加算器113で算出した操作量uをリミッターに入力し、当該リミッターから出力された操作量を制御対象モデル20又は制御対象30に出力してもよい。
タイマ105は、制御周期T毎に、目標値先読み部101と計測部102とを動作させる。なお、目標値先読み部101と計測部102とが制御周期T毎に動作することで、操作量更新部104も制御周期T毎に動作する。
また、本実施形態に係る制御装置10は、制御対象モデル20と制御対象30とを切り替えるための切替器40及び切替器50と接続されている。切替器40及び切替器50により、制御装置10は、制御対象モデル20又は制御対象30のいずれかと閉ループを構成する。ここで、本実施形態に係る制御装置10は、制御対象30の運用開始前に、制御対象モデル20と閉ループを構成した上で、深層強化学習による学習を行う。一方で、本実施形態に係る制御装置10は、実際の運用では、制御対象30と閉ループを構成した上で、適宜、深層強化学習による学習を行う。
このように、本実施形態に係る制御装置10は、実際の運用開始前に制御対象モデル20を用いて深層強化学習による学習を行う。そして、本実施形態に係る制御装置10は、制御対象モデル20を用いた学習結果を初期値として、制御対象30の制御を行うと共に、適宜、深層強化学習による学習を行う。すなわち、本実施形態に係る制御装置10では、操作量学習・計算部112が或る程度学習した状態から制御対象30の運用を開始することができる。これにより、制御対象30の特性を担保しつつ、制御対象30の経年変化(例えば、特性の変化等)や非線形性、その他予期しない特性等にも対応可能な柔軟な制御を実現することができる。
<目標値先読み部101の動作>
次に、目標値先読み部101の動作について、図2を参照しながら説明する。図2は、目標値先読み部101の動作の一例を説明するための図である。
図2に示すように、目標値先読み部101は、目標値時系列{r(t)}と、先読み長Tとが入力されると、現在時刻tから先読み長後の時刻t+Tにおける先読み目標値r(t+T)を出力する。なお、図2におけるSVは制御量の目標値を表す。
このように、目標値先読み部101は、目標値時系列{r(t)}のうち、先読み長後の時刻t+Tにおける目標値r(t+T)を出力する。
なお、図2に示す例では、目標値時系列{r(t)}が直線によって表される場合を示しているが、これに限られない。目標値時系列{r(t)}は任意の曲線や矩形等によって表されてもよい。特に、目標値時系列{r(t)}は、時刻tに応じて周期的に変化する曲線によって表されてもよい。
また、目標値時系列{r(t)}は、予め設定されていてもよいし、未来の目標値r(t)が随時更新されてもよい。例えば、制御対象30がプログラム制御されている場合、一定の時間が経過すると目標値r(t)が更新される、といった構成も可能である。
<応答補正部111の動作>
次に、応答補正部111の動作について、図3を参照しながら説明する。図3は、応答補正部111の動作の一例を説明するための図(その1)である。
図3に示すように、応答補正部111は、制御対象応答モデルSm,tと、先読み目標偏差e(t+T|t)と、先読み長Tと、操作変化量時系列{du(t)}とが入力されると、以下のステップS1~ステップS2により補正目標偏差e(t)を出力する。なお、図3におけるSVは制御量の目標値、PVは制御量、MVは操作量、dMVは操作変化量をそれぞれ表す。
ステップS1:応答補正部111は、過去の操作変化量duによって制御量現在値yがT後に変化すると予測される値を先読み応答補正値y(t)として算出する。なお、例えば、現在時刻をtとした場合、過去の操作変化量duは、du(t-T)、du(t-2T)等と表される。
ステップS2:そして、応答補正部111は、先読み目標偏差e(t+T|t)を先読み応答補正値y(t)により補正することで補正目標偏差e(t)算出し、算出した補正目標偏差e(t)を出力する。このとき、補正目標偏差e(t)は、e(t)=e(t+T|t)-y(t)=r(t+T)-(y(t)+y(t))により算出される。
ここで、一例として、制御対象応答モデルSm,tを用いて先読み応答補正値y(t)を算出する場合について説明する。
制御対象応答モデルSm,tは関数として表すことができる。この関数をyn,C(m|t)として、制御対象応答モデル関数と呼ぶことにすれば、制御対象応答モデル関数yn,C(m|t)は、
Figure 0007206874000001
と表すことができる。ここで、Kはモデルの長さ(モデル区間)である。すなわち、制御対象応答モデル関数yn,C(m|t)は、過去の操作変化量時系列{du(t),du(t-T),・・・,du(t-KT)}を用いて、時刻tにおいて、時刻mにおける応答を制御対象応答モデルSm,tによって予測する関数である。
このとき、過去の操作変化量時系列{du(t),du(t-T),・・・,du(t-KT)}を用いて、時刻tにおいて、時刻t+Tにおける応答を制御対象応答モデルSm,tによって予測した予測値を先読み応答予測値yn,A(t)とする。すなわち、
Figure 0007206874000002
とする。
また、過去の操作変化量時系列{du(t),du(t-T),・・・,du(t-KT)}を用いて、時刻tにおいて、時刻tにおける応答を制御対象応答モデルSm,tによって予測した予測値を自由応答予測値yn,B(t)とする。すなわち、
Figure 0007206874000003
とする。
そして、先読み応答予測値yn,A(t)と自由応答予測値yn,B(t)との差を先読み応答補正値y(t)とする。すなわち、y(t)=yn,A(t)-yn,B(t)とする。これにより、先読み応答補正値y(t)を算出することができる。
ここで、上記の数1に示す制御対象応答モデル関数yn,C(m|t)を一般化予測値と呼ぶことにすれば、上記の数1と同様に、一般化予測値yn,C(m|t)は、
Figure 0007206874000004
である。このとき、一般化予測値yn,C(m|t)と先読み応答予測値yn,A(t)との関係は、yn,A(t)=yn,C(t+T|t)と表される。また、一般化予測値yn,C(m|t)と自由応答予測値yn,B(t)との関係は、yn,B(t)=yn,C(t|t)と表される。
以降では、一例として、一般化予測値yn,C(m|t)の時系列データ(以降、「予測時系列」とも表す。)を記憶する予測時系列記憶部114を応答補正部111が利用して、補正目標偏差e(t)を算出する場合について、図4を参照しながら説明する。図4は、応答補正部111の動作の一例を説明するための図(その2)である。なお、予測時系列記憶部114は、例えば、補助記憶装置やRAM(Random Access Memory)等の記憶装置を用いて実現可能である。
図4に示すように、予測時系列記憶部114には、現在時刻をtとして、時刻t-Δtから未来の時刻t+Tまでの一般化予測値yn,C(t-Δt|t),yn,C(t|t),yn,C(t+Δt|t),・・・,yn,C(t+T|t),・・・,yn,C(t+T|t)が記憶されている。なお、Tは、予測時系列記憶部114に記憶される一般化予測値yn,Cの長さ(時間長)を決める定数であり、例えば、予め決められた任意の整数をNとして、T=N×T(ただし、Nは、N×T≧Tとなる整数)等と表すことができる。
このとき、図4に示すように、先読み応答補正値y(t)は、予測時系列記憶部114に記憶されているyn,A(t)=yn,C(t+T|t)と、yn,B(t)=yn,C(t|t)とを用いて、y(t)=yn,A(t)-yn,B(t)により算出される。これにより、この先読み応答補正値y(t)を用いて、補正目標偏差e(t)は、e(t)=e(t+T|t)-y(t)により算出される。このように、予測時系列記憶部114を用いることで、応答補正部111は、少ない計算量と少ないメモリとで補正目標偏差e(t)を計算することができる。なお、予測時系列記憶部114に記憶されている予測時系列は、新しい操作変化量du(t)が操作量学習・計算部112から出力される度に更新される。
<制御対象応答モデル関数yn,C
ここで、上記の数1に示す制御対象応答モデル関数yn,Cとしては、例えば、以下の(1)~(3)のいずれかを用いることができる。
(1)線形予測式
制御対象応答モデルSm,tがステップ応答モデルである場合、制御対象応答モデル関数yn,Cとして、以下の線形予測式を用いることができる。
Figure 0007206874000005
ここで、{S(t)}は、ステップ応答モデルである場合の制御対象応答モデルSm,tである。
(2)非線形予測式
制御対象応答モデル関数yn,Cとして、以下の非線形予測式を用いることができる。
Figure 0007206874000006
ここで、制御対象応答モデルSm,tは、必ずしも線形とは限らないモデルである。
(3)ニューラルネットワーク
例えば、図6に示すように、mと、tと、{du(t),du(t-T),・・・,du(t-KT)}とを入力とする任意のニューラルネットワークを制御対象応答モデル関数yn,Cとして用いることができる。
<操作量学習・計算部112の動作>
次に、操作量学習・計算部112の動作について、図6を参照しながら説明する。図6は、操作量学習・計算部112の動作の一例を説明するための図である。
図6に示すように、操作量学習・計算部112は、補正目標偏差e(t)を入力して、操作変化量du(t)を出力する。ここで、操作量学習・計算部112には、報酬計算部121と、目標偏差・状態変換部122と、強化学習部123と、行動・操作変化量変換部124とが含まれる。
報酬計算部121は、補正目標偏差e(t)を入力して、深層強化学習に必要な報酬R(t)を計算する。
目標偏差・状態変換部122は、補正目標偏差e(t)を入力して、深層強化学習の状態s(t)を生成する。この状態s(t)には、補正目標偏差e(t)が含まれる。状態s(t)は、補正目標偏差e(t)そのものを状態s(t)としてもよいし、補正目標偏差e(t)の微分値、積分値、若しくはその他の任意の変換を施したものを用いてもよいし、又は補正目標偏差e(t)に加えて、制御量や操作量を含めたり、その他制御対象から観測される観測値を含めたりしてもよい。なお、状態s(t)は、「状態変数s(t)」と称されてもよい。
強化学習部123は、報酬R(t)と状態s(t)とを入力して、行動a(t)を出力すると共に学習を行う。学習の詳細については後述する。
ここで、例えば、学習を一定の間隔毎に周期的に行うような場合、強化学習部123には、学習周期を示す指令が入力されてもよい。また、例えば、学習の開始又は停止を制御するような場合、強化学習部123には、学習開始又は学習停止を示す指令が入力されてもよい。
行動・操作変化量変換部124は、強化学習部123により出力された行動a(t)を操作変化量du(t)に変換する。
<強化学習部123の動作>
次に、強化学習部123の動作について、図7を参照しながら説明する。図7は、強化学習部123の動作の一例を説明するための図である。
図7に示すように、強化学習部123は、報酬R(t)と状態s(t)とを入力して、行動a(t)を出力する。また、強化学習部123は、行動価値関数Q(s,a)を更新することで学習を行う。行動価値関数Q(s,a)とは、状態s(t)において行動a(t)をとった際に期待される価値を表す関数のことである。ここで、強化学習部123には、行動価値関数更新部131と、行動選択部132とが含まれる。
行動価値関数更新部131は、行動価値関数Q(s,a)を更新する。ここで、深層強化学習では、行動価値関数Q(s,a)が多層のニューラルネットワーク(多層のニューラルネットワークは「ディープニューラルネットワーク」とも称される。)で実現される。したがって、行動価値関数更新部131には、ニューラルネットワークのパラメータ(例えば、セル数、層数、入出力次元等)が与えられる。また、これ以外にも、行動価値関数更新部131には、将来の価値をどの程度割り引いて評価するかを示す割引率γも与えられる。なお、上述したように、学習周期や学習開始/終了を示す指令が与えられてもよい。
行動価値関数更新部131が行動価値関数Q(s,a)を更新するためのアルゴリズムとしては、例えば、TD(Temporal Difference)誤差法(又は、「TD学習」と称されることもある。)等の既知の深層強化学習の手法を用いることができる。
行動選択部132は、行動価値関数Q(s,a)を参照して、現在の状態s(t)に対して、適切な行動a(t)を選択する。行動選択部132が行動a(t)を選択するためのアルゴリズムとしては、例えば、ε-Greedy法等の既知の深層強化学習の手法を用いることができる。なお、ε-Greedy法を用いる場合、0以上1以下の値を取るεを行動選択パラメータとして設定する。
なお、本実施形態では、深層強化学習の手法として、DQN(Deep Q-Network)法と呼ばれる手法を用いているが、これに限られず、例えば、PG(Policy Gradient)法やAC(Actor Critic)法等の既知の深層強化学習の手法が用いられてもよい。
<行動価値関数Q(s,a)の更新>
ここで、一例として、或る時刻tにおいて、状態s=s(t)がi個の変数s,・・・sを要素するベクトルで表され、行動a=a(t)がj個の離散値a,・・・,aのいずれかを取り得る場合に、行動価値関数更新部131が行動価値関数Q(s,a)を更新する場合について説明する。なお、a,・・・,aの集合は行動集合とも称される。
図8に示すように、行動価値関数Q(s,a)は、s,・・・,sを入力として、Q(s,a),・・・,Q(s,a)を出力する多層ニューラルネットワークで実現されているものとする。この多層ニューラルネットワークは、入力層と、1以上の中間層と、出力層とで構成されており、各層間のセルはセル間結合で接続されている。なお、入力層のセル数はi個、出力層のセル数はj個である必要があるが、中間層のセル数は任意としてよい。また、中間層の数も任意としてよい。
ここで、行動価値関数Q(s,a)をニューラルネットワークで実現した場合、セル間結合の重みとオフセット(このオフセットは「バイアス」とも称される。)とが改善されるように学習される。なお、各層の活性化関数としては、例えば、シグモイド関数やReLU関数等が用いられる。
このとき、行動価値関数更新部131は、例えば、TD誤差法等を用いて、行動価値関数Q(s,a)を更新すればよい。例えば、TD誤差法では、以下の更新式により行動価値関数Q(s,a)が更新される。
Figure 0007206874000007
ここで、αは学習係数、s´は状態sにおいて行動aをとった場合の次の状態である。
本実施形態では、上述したように、状態s=s(t)の各要素s,・・・sは目標偏差e(t)から変換された値である。このため、本実施形態では、少ない要素数で効率的に学習(すなわち、行動価値関数Q(s,a)の更新)を行うことができる。
なお、行動価値関数更新部131は、上述したTD誤差法の他、例えば、Sarsa法やモンテカルロ法、TD(λ)法、適格度トレース法等の既知の方法により行動価値関数Q(s,a)を更新してもよい。
<行動aの選択>
次に、一例として、或る時刻tにおいて、ε-Greedy法により行動選択部132が行動a=a(t)を選択する場合について説明する。
行動選択部132は、行動価値関数Q(s,a)を参照して、現在の状態s(t)に対して、適切な行動a(t)を選択するが、一定の確率1-εで最適な行動をa(t)を選択する一方で、残りの一定の確率εでランダムな行動を選択する。すなわち、行動選択部132は、
Figure 0007206874000008
により行動a(t)を選択する。ここで、a(t)は最適な行動(つまり、行動価値関数Q(s,a)が最大となる行動)のことであり、
Figure 0007206874000009
と表される。
このように、ε-Greedy法では、行動選択パラメータεはランダムに新しい行動を探索するための調整パラメータを意味する。
<操作変化量duへの変換>
次に、行動a(t)を操作変化量du(t)に変換する場合について説明する。行動・操作変化量変換部124は、例えば、以下の(1)又は(2)により行動a(t)を操作変化量du(t)に変換することができる。
(1)関数変換
行動・操作変化量変換部124は、所定の関数fを用いて、du(t)=f(a(t))により行動a(t)を操作変化量du(t)に変換することができる。
(2)変換テーブルによる変換
一例として、行動a(t)のとり得る値が0~j-1であるものとする。このとき、行動・操作変化量変換部124は、例えば図9に示す変換テーブルを用いて、行動a(t)を操作変化量du(t)に変換することができる。すなわち、行動・操作変化量変換部124は、a(t)=0である場合はduに変換し、a(t)=1である場合はduに変換する。以降も同様に、行動・操作変化量変換部124は、行動a(t)の値に対応する操作変化量du(t)の値に、当該行動a(t)を変換する。なお、変換テーブルは、例えば、補助記憶装置等の記憶装置に格納されている。
なお、操作量が複数ある場合においても、j個の行動a(t)を変換して適用することができる。例えば、操作量がM個ある場合、行動a(t)をM桁のN進数を取るようにし、M番目の操作変化量を行動a(t)のN進数としてのM桁目に対応させる、等の方法を用いることができる。具体例として、2つの操作量を3進数で表せば、00(=0)、01(=1)、02(=2)、10(=3)、11(=4)、12(=5)、20(=6)、21(=7)、22(=8)の8つの3進数で表現でき、各桁が0であれば減少、1であれば維持、2であれば増加、といった対応を定義することもできる。この対応を行動・操作変化量変換部124に予め設定しておけばよい。
<報酬Rの計算>
次に、報酬計算部121が補正目標偏差e(t)から報酬R(t)を計算する場合について説明する。報酬計算部121は、例えば、以下の(1)~(3)のいずれかにより報酬R(t)を計算することができる。
(1)絶対値
報酬計算部121は、R(t)=-|e(t)|により報酬R(t)を計算することができる。
(2)2乗
報酬計算部121は、R(t)=-(e(t))により報酬R(t)を計算することができる。
(3)任意の関数
報酬計算部121は、任意の関数gを用いて、R(t)=g(e(t))により報酬R(t)を計算することができる。
なお、上記の(1)及び(2)でマイナスを乗じているのは、深層強化学習では、一般に報酬R(t)の最大化を行う一方で、補正目標偏差e(t)は小さい方が望ましいためである。
また、報酬R(t)の算出に補正目標偏差e(t)が用いられていればよく、上記の(1)~(3)に対して、任意の項を含めて報酬R(t)が計算されてもよい。例えば、操作量が大きすぎたり、操作変化の頻度が高すぎたりしないようにするためのペナルティ項を含めて報酬R(t)が計算されてもよい。
<制御装置10のハードウェア構成>
次に、本実施形態に係る制御装置10のハードウェア構成について、図10を参照しながら説明する。図10は、本実施形態に係る制御装置10のハードウェア構成の一例を示す図である。
図10に示すように、本実施形態に係る制御装置10は、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、ROM(Read Only Memory)205と、RAM206と、プロセッサ207と、補助記憶装置208とを有する。これら各ハードウェアは、バス209により相互に通信可能に接続されている。
入力装置201は、例えば各種ボタンやタッチパネル、キーボード、マウス等であり、制御装置10に各種の操作を入力するのに用いられる。表示装置202は、例えばディスプレイ等であり、制御装置10による各種の処理結果を表示する。なお、制御装置10は、入力装置201及び表示装置202の少なくとも一方を有していなくてもよい。
外部I/F203は、外部装置とのインタフェースである。外部装置には、記録媒体203a等がある。制御装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込みを行うことができる。記録媒体203aには、例えば、SDメモリカード(SD memory card)やUSBメモリ、CD(Compact Disk)、DVD(Digital Versatile Disk)等がある。なお、制御装置10が有する各機能部を実現する1以上のプログラムは、記録媒体203aに格納されていてもよい。
通信I/F204は、制御装置10が他の装置とデータ通信を行うためのインタフェースである。なお、制御装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ等から取得(ダウンロード)されてもよい。
ROM205は、電源を切ってもデータを保持することができる不揮発性の半導体メモリである。RAM206は、プログラムやデータを一時保持する揮発性の半導体メモリである。
プロセッサ207は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)等であり、補助記憶装置208やROM205からプログラムやデータをRAM206に読み出して、各種処理を実行する演算装置である。なお、制御装置10は、プロセッサ207として、CPU又はGPUのいずれか一方のみを有していてもよいし、CPU及びGPUの両方を有していてもよい。
補助記憶装置208は、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等であり、プログラムやデータを格納している不揮発性のメモリである。補助記憶装置208に格納されているプログラムやデータには、例えば、制御装置10が有する各機能部を実現する1以上のプログラムや基本ソフトウェアであるOS(Operating System)、OS上で動作する各種アプリケーションプログラム等がある。
本実施形態に係る制御装置10は、図10に示すハードウェア構成を有することにより、上述した各種処理を実現することができる。なお、図10では、制御装置10が1台のコンピュータで実現される場合のハードウェア構成例を示したが、制御装置10は複数台のコンピュータで実現されていてもよい。
[実施例]
次に、本実施形態の実施例について説明する。以降の実施例では、本実施形態に係る制御装置10(以下、実施例中では「本方式」と引用する。)と、従来技術とを比較する。比較対象の従来技術としては、比例方式と、比例・微分方式とを用いた。
比例方式とは、目標値の先読みを行わずに、目標値r(t)と制御量現在値yとの差を目標偏差e(t)とした上で、この目標偏差e(t)をそのまま状態s(t)として操作変化量du(t)を算出すると共に、深層強化学習による学習を行う方式である。
また、比例・微分方式とは、目標値の先読みを行わずに、目標値r(t)と制御量現在値yとの差を目標偏差e(t)とした上で、更にこの目標偏差e(t)の時間微分d(e(t))/dtを計算する。そして、目標偏差e(t)と目標偏差e(t)の時間微分d(e(t))/dtとを状態s(t)として操作変化量du(t)を算出すると共に、深層強化学習による学習を行う方式である。
本実施例では、図11に示すステップ応答の制御対象モデル20及び制御対象30を用いる。図11に示すように、本実施例では、制御対象モデル20のステップ応答と、制御対象30のステップ応答との間で差があるものとする。
また、本実施例では、操作量u(t)は離散値であり、+1、0、-1のいずれかを取るものとする。すなわち、
Figure 0007206874000010
であるものとする。このような場合は、例えば、温調におけるヒータのON/OFF制御や2レベルインバータ、3レベルインバータ、化学プラントにおける加温/冷却制御、信号処理におけるA/D変換等、様々な産業分野で現れる。なお、深層強化学習の手法によっては連続値を学習可能であるため、この場合、操作量u(t)は連続値であってもよい。
なお、一般に、モデル予測制御を用いて本実施例を扱おうとすると、予測ホライズンにおける離散時系列の最適化問題を解くことになる。このような最適化問題は、整数計画問題と呼ばれ、計算時間が掛かる問題となる。また、PID制御等の比較的簡易な制御を用いようとすると、連続値の離散化が必要となり、変調周期によって制御の精度が異なってしまい、その調整が困難となる。
本実施例において、学習を行った際の目標値時系列{r(t)}を図12に示す。図12に示すように、目標値時系列{r(t)}は台形状に変化する値とした。また、制御パラメータとしては、制御周期T=1、モデル区間K=300、先読み長T=2とした。
深層強化学習の学習条件としては、以下とした。
・行動選択パラメータε=0.3
・割引率γ=0.95
・行動集合{0,1,2}
・学習回数(エピソード回数)=200(回)
・ニューラルネットワークのパラメータとして、セル数=50、層数=3、入出力次元=1×3(本方式)、1×3(比例方式)、2×3(比例・微分方式)
なお、本方式では、補正目標偏差eのみを入力としているため、比例・微分方式と比較して規模の小さいニューラルネットワークとなる。
また、行動・操作変化量変換部124は、図13に示す変換テーブルを用いて、行動集合{0,1,2}のいずれかの値を取る行動a(t)を操作変化量du(t)に変換する。なお、本実施例では、操作量u(t)の取り得る値は-1、0、1のいずれかであるため、操作変化量du(t)によって操作量u(t)の取り得る値の範囲を逸脱しないように別途リミッターを設けている。
また、報酬計算部121は、以下により報酬R(t)を計算する。
・本方式:R(t)=-|e(t)|
・比例方式:R(t)=-|e(t)|
・比例・微分方式:R(t)=-|e(t)|
以上の条件の下で、本方式、比例方式及び比例・微分方式のそれぞれでの学習履歴、すなわち、報酬総和のエピソード毎の変化を図14に示す。ここで、1つのエピソードをt=0~t=50とした場合、報酬総和Rsumは以下により計算される。
Figure 0007206874000011
図14(a)~図14(c)に示すように、比例方式、比例・微分方式及び本方式のいずれにおいてもエピソードが進むにつれて報酬総和Rsumが上昇しているが、本方式では、比例方式及び比例・微分方式と比較して、早い段階で報酬総和Rsumが収束傾向になることがわかる。したがって、本方式では、比例方式及び比例・微分方式と比較して、より効率的な学習が実現できていることがわかる。
次に、学習完了後の本方式、比例方式及び比例・微分方式のそれぞれで、図12に示した目標値時系列{r(t)}を用いた場合(つまり、学習に使用した目標値時系列{r(t)}を用いた場合)の制御応答の結果を図15に示す。
図15(a)に示すように、比例方式では、特に、時刻t=30以降の後半でのPVとSVとの目標偏差が大きく、振動的になってしまっている。また、図15(b)に示すように、微分・比例方式では、比例方式よりも後半での目標偏差は改善されているものの、振動的な応答のままである。
これらに対して、図15(c)に示すように、本方式では、後半の制御が非常にスムーズに追従し、振動的な応答がなく、良好な制御が実現できている。これは、本方式では、制御対象モデル20に基づく制御応答の予測効果が考慮されているためである。
次に、学習完了後の本方式、比例方式及び比例・微分方式のそれぞれで、図12に示した目標値時系列{r(t)}とは異なる目標値時系列{r(t)}を用いた場合の制御結果を図16に示す。図16に示す例では、図12に示した目標値時系列{r(t)}とは異なる目標値時系列{r(t)}として、図12に示した目標値時系列{r(t)}の符号を反転させた目標値時系列{r(t)}を用いている。
図16(a)に示すように、比例方式では、図15(a)と比較しても、前半や中間時刻でも目標偏差が大きく、振動的になってしまっている。また、図16(b)に示すように、微分・比例方式では、図15(b)とほぼ同等であるが、若干応答が悪化している。
これらに対して、図16(c)に示すように、本方式では、振動的な応答がなく、良好な制御が実現できている。これは、本方式が、学習用のニューラルネットワークの入出力次元が小さいことにより効果的な学習ができており、かつ、補正目標偏差によって汎用的な学習ができているためである。
以上のように、本実施形態に係る制御装置10によれば、従来の制御手法(例えば、モデル予測制御等)では制御が難しい離散操作量の制御問題においても、制御対象モデルによって計算する補正目標偏差と深層強化学習とを組み合わせることで、少ない状態変数で効率的に学習を行うことができ、かつ、振動の少ない良好な制御を実現することができる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
10 制御装置
20 制御対象モデル
30 制御対象
40 切替器
50 切替器
101 目標値先読み部
102 計測部
103 差分器
104 操作量更新部
105 タイマ
111 応答補正部
112 操作量学習・計算部
113 加算器
114 予測時系列記憶部
121 報酬計算部
122 目標偏差・状態変換部
123 強化学習部
124 行動・操作変化量変換部
131 行動価値関数更新部
132 行動選択部

Claims (9)

  1. 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、
    前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手段と、
    前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手段と、
    前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手段と、
    前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手段と、
    を有し、
    前記操作量計算手段は、
    前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手段と、
    前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手段と、
    前記行動を、前記操作量の変化量に変換する変換手段とを有し、
    新たな前記操作量は、現在の操作量に対して、前記変換手段によって前記行動を変換した変化量を加算することで算出される、ことを特徴とする制御装置。
  2. 前記強化学習手段は、
    ニューラルネットワークで実現される行動価値関数を学習する、ことを特徴とする請求項に記載の制御装置。
  3. 前記行動は、任意の数の離散値である、ことを特徴とする請求項又はに記載の制御装置。
  4. 前記変換手段は、
    行動を入力として、操作量の変化量を出力とする所定の関数、又は、行動と操作量の変化量とを対応付けたテーブルのいずれかを用いて、前記行動を、前記操作量の変化量に変換する、ことを特徴とする請求項に記載の制御装置。
  5. 前記報酬計算手段は、
    前記補正目標偏差の絶対値に-1を乗じた値、前記補正目標偏差の2乗に-1を乗じた値、又は前記補正目標偏差を入力する所定の関数の関数値のいずれかを前記報酬として計算する、ことを特徴とする請求項に記載の制御装置。
  6. 前記応答モデルは、
    過去の操作量の変化量の時系列から、未来の制御量を予測する予測式であり、
    前記予測式は、線形予測式、非線形予測式又はニューラルネットワークによる予測式のいずれかである、ことを特徴とする請求項1乃至の何れか一項に記載の制御装置。
  7. 前記予測式による予測結果の時系列を記憶する予測系列記憶手段を有し、
    前記補正目標偏差算出手段は、
    前記予測系列記憶手段に記憶されている予測結果を用いて、前記補正目標偏差を算出する、ことを特徴とする請求項に記載の制御装置。
  8. 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置が、
    前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手順と、
    前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手順と、
    前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手順と、
    前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手順と、
    を実行し、
    前記操作量計算手順には、
    前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
    前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手順と、
    前記行動を、前記操作量の変化量に変換する変換手順とが含まれ、
    新たな前記操作量は、現在の操作量に対して、前記変換手順によって前記行動を変換した変化量を加算することで算出される、ことを特徴とする制御方法。
  9. 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置に、
    前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手順と、
    前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手順と、
    前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手順と、
    前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手順と、
    を実行させ
    前記操作量計算手順には、
    前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
    前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手順と、
    前記行動を、前記操作量の変化量に変換する変換手順とが含まれ、
    新たな前記操作量は、現在の操作量に対して、前記変換手順によって前記行動を変換した変化量を加算することで算出される、ことを特徴とするプログラム。
JP2018231177A 2018-12-10 2018-12-10 制御装置、制御方法及びプログラム Active JP7206874B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018231177A JP7206874B2 (ja) 2018-12-10 2018-12-10 制御装置、制御方法及びプログラム
US16/665,125 US11294339B2 (en) 2018-12-10 2019-10-28 Control device, control method, and non-transitory recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018231177A JP7206874B2 (ja) 2018-12-10 2018-12-10 制御装置、制御方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2020095352A JP2020095352A (ja) 2020-06-18
JP7206874B2 true JP7206874B2 (ja) 2023-01-18

Family

ID=70970887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018231177A Active JP7206874B2 (ja) 2018-12-10 2018-12-10 制御装置、制御方法及びプログラム

Country Status (2)

Country Link
US (1) US11294339B2 (ja)
JP (1) JP7206874B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11366697B2 (en) * 2019-05-01 2022-06-21 EMC IP Holding Company LLC Adaptive controller for online adaptation of resource allocation policies for iterative workloads using reinforcement learning
WO2022022816A1 (de) * 2020-07-29 2022-02-03 Siemens Industry Software Nv Steuern eines technischen systems mittels eines datenbasierten regelungsmodells
WO2022079761A1 (ja) * 2020-10-12 2022-04-21 三菱電機株式会社 パラメータ調整装置およびパラメータ調整方法
JP6904473B1 (ja) * 2020-12-10 2021-07-14 富士電機株式会社 モデル作成支援装置、モデル作成支援方法及びプログラム
JP6901037B1 (ja) * 2020-12-18 2021-07-14 富士電機株式会社 制御装置、制御方法及びプログラム
CN116670597A (zh) * 2020-12-28 2023-08-29 东京毅力科创株式会社 管理装置、预测方法和预测程序
WO2024090126A1 (ja) * 2022-10-25 2024-05-02 キヤノン株式会社 制御方法、制御装置、リソグラフィ装置、および物品製造方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272498A (ja) 2006-03-31 2007-10-18 Hitachi Ltd 運転制御方法,運転制御装置及び運転制御システム
US20120116546A1 (en) 2007-06-28 2012-05-10 Rockwell Automation Technologies, Inc. Model Predictive Control System and Method for Reduction of Steady State Error
WO2016092872A1 (ja) 2014-12-11 2016-06-16 富士電機株式会社 制御装置、そのプログラム、プラント制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4251073B2 (ja) * 2003-12-25 2009-04-08 株式会社デンソー 内燃機関の制御装置
TW200706711A (en) * 2005-08-12 2007-02-16 Komatsu Denshi Kinzoku Kk Control system and method for time variant system control object having idle time such as single crystal producing device by czochralski method
JP5334787B2 (ja) * 2009-10-09 2013-11-06 株式会社日立ハイテクノロジーズ プラズマ処理装置
JP5994947B2 (ja) * 2013-10-21 2016-09-21 富士電機株式会社 制御系設計支援装置、制御系設計支援プログラム、制御系設計支援方法、操作変化量算出装置および制御装置
JP6367754B2 (ja) * 2015-05-13 2018-08-01 株式会社日立製作所 負荷周波数制御装置および負荷周波数制御方法
US10519875B2 (en) * 2015-07-28 2019-12-31 Denso Corporation Diagnostic device
JP6650786B2 (ja) 2016-03-03 2020-02-19 三菱日立パワーシステムズ株式会社 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク
US10065654B2 (en) 2016-07-08 2018-09-04 Toyota Motor Engineering & Manufacturing North America, Inc. Online learning and vehicle control method based on reinforcement learning without active exploration
JP2018048750A (ja) 2016-09-20 2018-03-29 株式会社東芝 空調制御装置、空調制御方法及び空調制御プログラム
JP7159758B2 (ja) * 2018-09-27 2022-10-25 株式会社ジェイテクト 成形条件決定支援装置および射出成形機

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272498A (ja) 2006-03-31 2007-10-18 Hitachi Ltd 運転制御方法,運転制御装置及び運転制御システム
US20120116546A1 (en) 2007-06-28 2012-05-10 Rockwell Automation Technologies, Inc. Model Predictive Control System and Method for Reduction of Steady State Error
WO2016092872A1 (ja) 2014-12-11 2016-06-16 富士電機株式会社 制御装置、そのプログラム、プラント制御方法

Also Published As

Publication number Publication date
US20200183338A1 (en) 2020-06-11
US11294339B2 (en) 2022-04-05
JP2020095352A (ja) 2020-06-18

Similar Documents

Publication Publication Date Title
JP7206874B2 (ja) 制御装置、制御方法及びプログラム
Grimble Robust industrial control systems: optimal design approach for polynomial systems
US20210247744A1 (en) Manufacturing process control using constrained reinforcement machine learning
US11573541B2 (en) Future state estimation device and future state estimation method
Zhakatayev et al. Successive linearization based model predictive control of variable stiffness actuated robots
EP2778803A1 (en) Stabilized deterministic optimization based control system and method
JP6380552B2 (ja) 制御装置、そのプログラム、プラント制御方法
JP6901037B1 (ja) 制御装置、制御方法及びプログラム
Sánchez et al. MPC for nonlinear systems: A comparative review of discretization methods
CN111783356A (zh) 一种基于人工智能的石油产量预测方法和装置
Beal et al. Combined model predictive control and scheduling with dominant time constant compensation
Zhou et al. Robust model predictive control algorithm with variable feedback gains for output tracking
JPH0883104A (ja) プラント制御装置
JP2023028327A (ja) 制御装置、制御方法、及びプログラム
Chidrawar et al. Generalized predictive control and neural generalized predictive control
Lu et al. Ellipsoid invariant set‐based robust model predictive control for repetitive processes with constraints
JP7060130B1 (ja) 運用支援装置、運用支援方法及びプログラム
Schwedersky et al. Adaptive practical nonlinear model predictive control for echo state network models
JP7115654B1 (ja) 制御装置、制御方法及びプログラム
JP7283095B2 (ja) 制御装置、制御方法及びプログラム
JP7275492B2 (ja) 制御装置、制御方法及びプログラム
JP7484504B2 (ja) 制御装置、制御方法及びプログラム
De Keyser et al. Evaluation of the NEPSAC nonlinear predictive controller on a thermal process
JP7115656B1 (ja) 制御装置、制御方法及びプログラム
JP2022014099A (ja) 制御装置、制御方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7206874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150