JP7206874B2 - 制御装置、制御方法及びプログラム - Google Patents
制御装置、制御方法及びプログラム Download PDFInfo
- Publication number
- JP7206874B2 JP7206874B2 JP2018231177A JP2018231177A JP7206874B2 JP 7206874 B2 JP7206874 B2 JP 7206874B2 JP 2018231177 A JP2018231177 A JP 2018231177A JP 2018231177 A JP2018231177 A JP 2018231177A JP 7206874 B2 JP7206874 B2 JP 7206874B2
- Authority
- JP
- Japan
- Prior art keywords
- look
- ahead
- controlled object
- value
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Description
まず、本実施形態に係る制御装置10の構成について、図1を参照しながら説明する。図1は、本実施形態に係る制御装置10の構成の一例を示す図である。
次に、目標値先読み部101の動作について、図2を参照しながら説明する。図2は、目標値先読み部101の動作の一例を説明するための図である。
次に、応答補正部111の動作について、図3を参照しながら説明する。図3は、応答補正部111の動作の一例を説明するための図(その1)である。
ここで、上記の数1に示す制御対象応答モデル関数yn,Cとしては、例えば、以下の(1)~(3)のいずれかを用いることができる。
制御対象応答モデルSm,tがステップ応答モデルである場合、制御対象応答モデル関数yn,Cとして、以下の線形予測式を用いることができる。
制御対象応答モデル関数yn,Cとして、以下の非線形予測式を用いることができる。
例えば、図6に示すように、mと、tと、{du(t),du(t-Tc),・・・,du(t-KTc)}とを入力とする任意のニューラルネットワークを制御対象応答モデル関数yn,Cとして用いることができる。
次に、操作量学習・計算部112の動作について、図6を参照しながら説明する。図6は、操作量学習・計算部112の動作の一例を説明するための図である。
次に、強化学習部123の動作について、図7を参照しながら説明する。図7は、強化学習部123の動作の一例を説明するための図である。
ここで、一例として、或る時刻tにおいて、状態s=s(t)がi個の変数s1,・・・siを要素するベクトルで表され、行動a=a(t)がj個の離散値a1,・・・,ajのいずれかを取り得る場合に、行動価値関数更新部131が行動価値関数Q(s,a)を更新する場合について説明する。なお、a1,・・・,ajの集合は行動集合とも称される。
次に、一例として、或る時刻tにおいて、ε-Greedy法により行動選択部132が行動a=a(t)を選択する場合について説明する。
次に、行動a(t)を操作変化量du(t)に変換する場合について説明する。行動・操作変化量変換部124は、例えば、以下の(1)又は(2)により行動a(t)を操作変化量du(t)に変換することができる。
行動・操作変化量変換部124は、所定の関数fを用いて、du(t)=f(a(t))により行動a(t)を操作変化量du(t)に変換することができる。
一例として、行動a(t)のとり得る値が0~j-1であるものとする。このとき、行動・操作変化量変換部124は、例えば図9に示す変換テーブルを用いて、行動a(t)を操作変化量du(t)に変換することができる。すなわち、行動・操作変化量変換部124は、a(t)=0である場合はdu0に変換し、a(t)=1である場合はdu1に変換する。以降も同様に、行動・操作変化量変換部124は、行動a(t)の値に対応する操作変化量du(t)の値に、当該行動a(t)を変換する。なお、変換テーブルは、例えば、補助記憶装置等の記憶装置に格納されている。
次に、報酬計算部121が補正目標偏差e*(t)から報酬R(t)を計算する場合について説明する。報酬計算部121は、例えば、以下の(1)~(3)のいずれかにより報酬R(t)を計算することができる。
報酬計算部121は、R(t)=-|e*(t)|により報酬R(t)を計算することができる。
報酬計算部121は、R(t)=-(e*(t))2により報酬R(t)を計算することができる。
報酬計算部121は、任意の関数gを用いて、R(t)=g(e*(t))により報酬R(t)を計算することができる。
次に、本実施形態に係る制御装置10のハードウェア構成について、図10を参照しながら説明する。図10は、本実施形態に係る制御装置10のハードウェア構成の一例を示す図である。
次に、本実施形態の実施例について説明する。以降の実施例では、本実施形態に係る制御装置10(以下、実施例中では「本方式」と引用する。)と、従来技術とを比較する。比較対象の従来技術としては、比例方式と、比例・微分方式とを用いた。
・割引率γ=0.95
・行動集合{0,1,2}
・学習回数(エピソード回数)=200(回)
・ニューラルネットワークのパラメータとして、セル数=50、層数=3、入出力次元=1×3(本方式)、1×3(比例方式)、2×3(比例・微分方式)
なお、本方式では、補正目標偏差e*のみを入力としているため、比例・微分方式と比較して規模の小さいニューラルネットワークとなる。
・比例方式:R(t)=-|e(t)|
・比例・微分方式:R(t)=-|e(t)|
以上の条件の下で、本方式、比例方式及び比例・微分方式のそれぞれでの学習履歴、すなわち、報酬総和のエピソード毎の変化を図14に示す。ここで、1つのエピソードをt=0~t=50とした場合、報酬総和Rsumは以下により計算される。
20 制御対象モデル
30 制御対象
40 切替器
50 切替器
101 目標値先読み部
102 計測部
103 差分器
104 操作量更新部
105 タイマ
111 応答補正部
112 操作量学習・計算部
113 加算器
114 予測時系列記憶部
121 報酬計算部
122 目標偏差・状態変換部
123 強化学習部
124 行動・操作変化量変換部
131 行動価値関数更新部
132 行動選択部
Claims (9)
- 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置であって、
前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手段と、
前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手段と、
前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手段と、
前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手段と、
を有し、
前記操作量計算手段は、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手段と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手段と、
前記行動を、前記操作量の変化量に変換する変換手段とを有し、
新たな前記操作量は、現在の操作量に対して、前記変換手段によって前記行動を変換した変化量を加算することで算出される、ことを特徴とする制御装置。 - 前記強化学習手段は、
ニューラルネットワークで実現される行動価値関数を学習する、ことを特徴とする請求項1に記載の制御装置。 - 前記行動は、任意の数の離散値である、ことを特徴とする請求項1又は2に記載の制御装置。
- 前記変換手段は、
行動を入力として、操作量の変化量を出力とする所定の関数、又は、行動と操作量の変化量とを対応付けたテーブルのいずれかを用いて、前記行動を、前記操作量の変化量に変換する、ことを特徴とする請求項3に記載の制御装置。 - 前記報酬計算手段は、
前記補正目標偏差の絶対値に-1を乗じた値、前記補正目標偏差の2乗に-1を乗じた値、又は前記補正目標偏差を入力する所定の関数の関数値のいずれかを前記報酬として計算する、ことを特徴とする請求項1に記載の制御装置。 - 前記応答モデルは、
過去の操作量の変化量の時系列から、未来の制御量を予測する予測式であり、
前記予測式は、線形予測式、非線形予測式又はニューラルネットワークによる予測式のいずれかである、ことを特徴とする請求項1乃至5の何れか一項に記載の制御装置。 - 前記予測式による予測結果の時系列を記憶する予測系列記憶手段を有し、
前記補正目標偏差算出手段は、
前記予測系列記憶手段に記憶されている予測結果を用いて、前記補正目標偏差を算出する、ことを特徴とする請求項6に記載の制御装置。 - 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置が、
前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手順と、
前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手順と、
前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手順と、
前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手順と、
を実行し、
前記操作量計算手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手順と、
前記行動を、前記操作量の変化量に変換する変換手順とが含まれ、
新たな前記操作量は、現在の操作量に対して、前記変換手順によって前記行動を変換した変化量を加算することで算出される、ことを特徴とする制御方法。 - 制御対象に対する操作量を出力し、前記制御対象の制御量を目標値に追従させる制御装置に、
前記目標値の時系列である目標値時系列と、前記目標値を先読みする時間幅を示す先読み長とが入力されると、前記目標値時系列に含まれる複数の目標値のうち、前記先読み長後の目標値を示す先読み目標値を取得する目標値先読み手順と、
前記先読み目標値と、前記制御対象又は前記制御対象をモデル化した制御対象モデルの現在の制御量との差である先読み目標偏差を算出する先読み目標偏差算出手順と、
前記制御対象の応答モデルと、現在に至るまでの過去の前記操作量の変化量とに基づいて、前記先読み目標偏差を、前記制御量の前記先読み長後における予測値と前記先読み目標値との差へと補正した補正目標偏差を算出する補正目標偏差算出手順と、
前記補正目標偏差に基づいて、強化学習によって新たな前記操作量を学習及び算出する操作量計算手順と、
を実行させ、
前記操作量計算手順には、
前記補正目標偏差が入力されると、前記補正目標偏差を用いて報酬を計算する報酬計算手順と、
前記補正目標偏差を含む状態変数と、前記報酬とを用いて強化学習を行って行動を出力する強化学習手順と、
前記行動を、前記操作量の変化量に変換する変換手順とが含まれ、
新たな前記操作量は、現在の操作量に対して、前記変換手順によって前記行動を変換した変化量を加算することで算出される、ことを特徴とするプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231177A JP7206874B2 (ja) | 2018-12-10 | 2018-12-10 | 制御装置、制御方法及びプログラム |
US16/665,125 US11294339B2 (en) | 2018-12-10 | 2019-10-28 | Control device, control method, and non-transitory recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231177A JP7206874B2 (ja) | 2018-12-10 | 2018-12-10 | 制御装置、制御方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020095352A JP2020095352A (ja) | 2020-06-18 |
JP7206874B2 true JP7206874B2 (ja) | 2023-01-18 |
Family
ID=70970887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018231177A Active JP7206874B2 (ja) | 2018-12-10 | 2018-12-10 | 制御装置、制御方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11294339B2 (ja) |
JP (1) | JP7206874B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11366697B2 (en) * | 2019-05-01 | 2022-06-21 | EMC IP Holding Company LLC | Adaptive controller for online adaptation of resource allocation policies for iterative workloads using reinforcement learning |
WO2022022816A1 (de) * | 2020-07-29 | 2022-02-03 | Siemens Industry Software Nv | Steuern eines technischen systems mittels eines datenbasierten regelungsmodells |
WO2022079761A1 (ja) * | 2020-10-12 | 2022-04-21 | 三菱電機株式会社 | パラメータ調整装置およびパラメータ調整方法 |
JP6904473B1 (ja) * | 2020-12-10 | 2021-07-14 | 富士電機株式会社 | モデル作成支援装置、モデル作成支援方法及びプログラム |
JP6901037B1 (ja) * | 2020-12-18 | 2021-07-14 | 富士電機株式会社 | 制御装置、制御方法及びプログラム |
CN116670597A (zh) * | 2020-12-28 | 2023-08-29 | 东京毅力科创株式会社 | 管理装置、预测方法和预测程序 |
WO2024090126A1 (ja) * | 2022-10-25 | 2024-05-02 | キヤノン株式会社 | 制御方法、制御装置、リソグラフィ装置、および物品製造方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272498A (ja) | 2006-03-31 | 2007-10-18 | Hitachi Ltd | 運転制御方法,運転制御装置及び運転制御システム |
US20120116546A1 (en) | 2007-06-28 | 2012-05-10 | Rockwell Automation Technologies, Inc. | Model Predictive Control System and Method for Reduction of Steady State Error |
WO2016092872A1 (ja) | 2014-12-11 | 2016-06-16 | 富士電機株式会社 | 制御装置、そのプログラム、プラント制御方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4251073B2 (ja) * | 2003-12-25 | 2009-04-08 | 株式会社デンソー | 内燃機関の制御装置 |
TW200706711A (en) * | 2005-08-12 | 2007-02-16 | Komatsu Denshi Kinzoku Kk | Control system and method for time variant system control object having idle time such as single crystal producing device by czochralski method |
JP5334787B2 (ja) * | 2009-10-09 | 2013-11-06 | 株式会社日立ハイテクノロジーズ | プラズマ処理装置 |
JP5994947B2 (ja) * | 2013-10-21 | 2016-09-21 | 富士電機株式会社 | 制御系設計支援装置、制御系設計支援プログラム、制御系設計支援方法、操作変化量算出装置および制御装置 |
JP6367754B2 (ja) * | 2015-05-13 | 2018-08-01 | 株式会社日立製作所 | 負荷周波数制御装置および負荷周波数制御方法 |
US10519875B2 (en) * | 2015-07-28 | 2019-12-31 | Denso Corporation | Diagnostic device |
JP6650786B2 (ja) | 2016-03-03 | 2020-02-19 | 三菱日立パワーシステムズ株式会社 | 制御パラメータ自動調整装置、制御パラメータ自動調整方法、及び制御パラメータ自動調整装置ネットワーク |
US10065654B2 (en) | 2016-07-08 | 2018-09-04 | Toyota Motor Engineering & Manufacturing North America, Inc. | Online learning and vehicle control method based on reinforcement learning without active exploration |
JP2018048750A (ja) | 2016-09-20 | 2018-03-29 | 株式会社東芝 | 空調制御装置、空調制御方法及び空調制御プログラム |
JP7159758B2 (ja) * | 2018-09-27 | 2022-10-25 | 株式会社ジェイテクト | 成形条件決定支援装置および射出成形機 |
-
2018
- 2018-12-10 JP JP2018231177A patent/JP7206874B2/ja active Active
-
2019
- 2019-10-28 US US16/665,125 patent/US11294339B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007272498A (ja) | 2006-03-31 | 2007-10-18 | Hitachi Ltd | 運転制御方法,運転制御装置及び運転制御システム |
US20120116546A1 (en) | 2007-06-28 | 2012-05-10 | Rockwell Automation Technologies, Inc. | Model Predictive Control System and Method for Reduction of Steady State Error |
WO2016092872A1 (ja) | 2014-12-11 | 2016-06-16 | 富士電機株式会社 | 制御装置、そのプログラム、プラント制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US20200183338A1 (en) | 2020-06-11 |
US11294339B2 (en) | 2022-04-05 |
JP2020095352A (ja) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7206874B2 (ja) | 制御装置、制御方法及びプログラム | |
Grimble | Robust industrial control systems: optimal design approach for polynomial systems | |
US20210247744A1 (en) | Manufacturing process control using constrained reinforcement machine learning | |
US11573541B2 (en) | Future state estimation device and future state estimation method | |
Zhakatayev et al. | Successive linearization based model predictive control of variable stiffness actuated robots | |
EP2778803A1 (en) | Stabilized deterministic optimization based control system and method | |
JP6380552B2 (ja) | 制御装置、そのプログラム、プラント制御方法 | |
JP6901037B1 (ja) | 制御装置、制御方法及びプログラム | |
Sánchez et al. | MPC for nonlinear systems: A comparative review of discretization methods | |
CN111783356A (zh) | 一种基于人工智能的石油产量预测方法和装置 | |
Beal et al. | Combined model predictive control and scheduling with dominant time constant compensation | |
Zhou et al. | Robust model predictive control algorithm with variable feedback gains for output tracking | |
JPH0883104A (ja) | プラント制御装置 | |
JP2023028327A (ja) | 制御装置、制御方法、及びプログラム | |
Chidrawar et al. | Generalized predictive control and neural generalized predictive control | |
Lu et al. | Ellipsoid invariant set‐based robust model predictive control for repetitive processes with constraints | |
JP7060130B1 (ja) | 運用支援装置、運用支援方法及びプログラム | |
Schwedersky et al. | Adaptive practical nonlinear model predictive control for echo state network models | |
JP7115654B1 (ja) | 制御装置、制御方法及びプログラム | |
JP7283095B2 (ja) | 制御装置、制御方法及びプログラム | |
JP7275492B2 (ja) | 制御装置、制御方法及びプログラム | |
JP7484504B2 (ja) | 制御装置、制御方法及びプログラム | |
De Keyser et al. | Evaluation of the NEPSAC nonlinear predictive controller on a thermal process | |
JP7115656B1 (ja) | 制御装置、制御方法及びプログラム | |
JP2022014099A (ja) | 制御装置、制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7206874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |