JP2007233634A - 強化学習制御装置 - Google Patents
強化学習制御装置 Download PDFInfo
- Publication number
- JP2007233634A JP2007233634A JP2006053671A JP2006053671A JP2007233634A JP 2007233634 A JP2007233634 A JP 2007233634A JP 2006053671 A JP2006053671 A JP 2006053671A JP 2006053671 A JP2006053671 A JP 2006053671A JP 2007233634 A JP2007233634 A JP 2007233634A
- Authority
- JP
- Japan
- Prior art keywords
- value
- model
- evaluation value
- signal
- operation signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。
【解決手段】
制御対象100および制御対象の特性を模擬するモデル400に印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号205と目標値との偏差に基づいて求めた第1の評価値206と、前記モデルと制御対象の特性の相違に基づいて求めた第2の評価値207とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号208を計算する。
【選択図】図1
Description
強化学習(Reinforcement Learning)、三上貞芳・皆川雅章共訳、森北出版株式会社、2000年12月20日出版
まず、ステップ310において、価値関数Q(s,a)を任意に初期化する。次に、ステップ320において、モデル400の操作信号204の初期値を決定し、そのときのモデル400の出力205を計算する。
200 制御装置
300 学習部
400 モデル
500 実評価値計算部
600 第1の評価値計算部
700 第2の評価値計算部
800 モデル誤差特性データベース
900 評価値データベース
1000 プロセス値データベース
Claims (10)
- 制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、前記制御対象および前記モデルへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号と目標値との偏差に基づいて求めた第1の評価値と、前記モデルと制御対象の特性の相違に基づいて求めた第2の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御装置。 - 請求項1記載の制御装置において、
前記第2の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と、
事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも1つを含むことを特徴とする制御装置。 - 制御対象および制御対象の特性を模擬するモデルに印加する操作信号を生成し、生成した操作信号を前記制御対象およびモデルへ印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、
現状態から将来状態までに得られる前記評価値信号の総和の期待値が最大または最小となるように前記操作信号の生成方法を学習する機能を備える制御方法において、
モデルからの計測信号と目標値との偏差のもとに求めた第1の評価値と、モデルと制御対象の特性の相違に基づいて求めた第2の評価値とを加算して、モデルからの計測信号に基づいて算出される前記評価値信号を計算することを特徴とする制御方法。 - 請求項3記載の制御方法において、
前記第2の評価値は、操作信号とモデル化誤差の関係が保存されたモデル誤差特性データベースを参照して算出する値と、
操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存されたプロセス値データベースを参照して算出する値と
事前のモデル化誤差特性が保存されたデータベースを参照して算出する値のうち、少なくとも1つを含むことを特徴とする制御方法。 - 請求項1記載の制御装置において、
操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化する手段と、
モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算する手段と、
前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新する手段と、
更新された操作信号に対するモデル出力を計算する手段と、
第1の評価値計算部により計算した前記第1の評価値および第2の評価値計算部により計算した前記第2の評価値をもとに評価値信号を算出する手段と、
算出された評価値信号を用いて前記価値関数を更新する手段を備えたことを特徴とする制御装置。 - 請求項3記載の制御方法において、
操作信号と出力によって決定される状態において特定の行動を実行することの価値を表現する価値関数を初期化するステップと、
モデルの操作信号の初期値を決定し、そのときのモデルの出力を計算するステップと、
前記価値関数を用いて前記行動を決定し、該行動に基づいて操作信号を更新するステップと、
更新された操作信号に対するモデル出力を計算するステップと、
モデルからの計測信号と目標値との偏差にもとに求めた前記第1の評価値およびモデルと制御対象の特性の相違に基づいて求めた前記第2の評価値をもとに評価値信号を算出するステップと、
算出された評価値信号を用いて前記価値関数を更新するステップを備え、
前記各ステップを前記モデルの出力が予め定めた条件を満足するまで繰り返し実行することを特徴とする制御方法。 - 請求項2記載の制御装置において、
第2の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第2の評価値計算処理の各処理を実行することを特徴とする制御装置。 - 請求項4記載の制御方法において、
第2の評価計算部は、モデル誤差バイアス計算処理、モデル誤差分散計算処理、評価値予測誤差計算処理、計測値誤差計算処理、および第2の評価値計算処理の各処理を実行することを特徴とする制御方法。 - 請求項7記載の制御装置において、
画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第2の評価値を表示することを特徴とする制御装置。 - 請求項8記載の制御装置において、
画像表示手段を備え、該手段には、モデル誤差特性データベース、評価値データベース、プロセス値データベースを参照して得られる誤差評価ベクトルの値、操作員が調整して設定する重みベクトルの値、および第2の評価値を表示することを特徴とする制御方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053671A JP4974330B2 (ja) | 2006-02-28 | 2006-02-28 | 制御装置 |
US11/624,416 US8095479B2 (en) | 2006-02-28 | 2007-01-18 | Plant control apparatus and method having functions of determining appropriate learning constraint conditions |
CNB2007100042324A CN100483275C (zh) | 2006-02-28 | 2007-01-18 | 控制装置及控制方法 |
CN2008101844505A CN101477332B (zh) | 2006-02-28 | 2007-01-18 | 工厂的控制装置及工厂的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053671A JP4974330B2 (ja) | 2006-02-28 | 2006-02-28 | 制御装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233634A true JP2007233634A (ja) | 2007-09-13 |
JP4974330B2 JP4974330B2 (ja) | 2012-07-11 |
Family
ID=38554175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006053671A Expired - Fee Related JP4974330B2 (ja) | 2006-02-28 | 2006-02-28 | 制御装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4974330B2 (ja) |
CN (2) | CN101477332B (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135653B2 (en) | 2007-11-20 | 2012-03-13 | Hitachi, Ltd. | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal |
US8214062B2 (en) | 2008-03-28 | 2012-07-03 | Hitachi, Ltd. | Plant control system and thermal power generation plant control system |
CN103676822A (zh) * | 2012-09-10 | 2014-03-26 | 株式会社日立制作所 | 火力发电厂的控制装置以及控制方法 |
US10353351B2 (en) | 2015-09-30 | 2019-07-16 | Fanuc Corporation | Machine learning system and motor control system having function of automatically adjusting parameter |
CN113015981A (zh) * | 2018-11-16 | 2021-06-22 | 华为技术有限公司 | 利用第一原则和约束进行有效、连续和安全学习的系统和方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014212479A (ja) | 2013-04-19 | 2014-11-13 | ソニー株式会社 | 制御装置、制御方法及びコンピュータプログラム |
JP6281884B1 (ja) * | 2016-10-28 | 2018-02-21 | 株式会社レゾネスト | 機械制御装置、機械制御プログラムおよび機械制御方法 |
CN108700852B (zh) * | 2017-01-27 | 2021-07-16 | 三菱动力株式会社 | 模型参数值推定装置及推定方法、记录介质、模型参数值推定系统 |
JP6715800B2 (ja) * | 2017-06-09 | 2020-07-01 | 出光興産株式会社 | 燃料削減率出力システム、燃料削減率出力方法、および燃料削減率出力プログラム |
JP6836540B2 (ja) * | 2018-04-12 | 2021-03-03 | ファナック株式会社 | 情報処理装置及び情報処理方法 |
JP6952018B2 (ja) * | 2018-10-03 | 2021-10-20 | 株式会社日立製作所 | 制御装置および制御方法 |
JP7374590B2 (ja) * | 2019-02-12 | 2023-11-07 | 株式会社日立製作所 | Kpi改善支援システム及びkpi改善支援方法 |
JP7216566B2 (ja) * | 2019-02-19 | 2023-02-01 | 日立造船株式会社 | 情報処理装置、情報処理方法、および情報処理プログラム |
CN113080499A (zh) * | 2021-02-26 | 2021-07-09 | 红云红河烟草(集团)有限责任公司 | 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法 |
JP2023002081A (ja) * | 2021-06-22 | 2023-01-10 | オムロン株式会社 | 予測システム、情報処理装置および情報処理プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266404A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 非線形対象制御システム及び同システム構築用ニューラルネットワークの学習システム |
JPH08276354A (ja) * | 1995-04-06 | 1996-10-22 | Nissan Motor Co Ltd | カム研削装置 |
JPH1074188A (ja) * | 1996-05-23 | 1998-03-17 | Hitachi Ltd | データ学習装置およびプラント制御装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2907672B2 (ja) * | 1993-03-12 | 1999-06-21 | 株式会社日立製作所 | プロセスの適応制御方法およびプロセスの制御システム |
JP3350841B2 (ja) * | 1995-07-24 | 2002-11-25 | オムロン株式会社 | プラント制御装置、操作量決定装置、プラント制御方法および操作量決定方法 |
JP3541166B2 (ja) * | 2000-07-19 | 2004-07-07 | 川崎重工業株式会社 | 管の接合方法 |
JP2004038428A (ja) * | 2002-07-02 | 2004-02-05 | Yamatake Corp | 制御対象モデル生成方法、制御パラメータ調整方法、制御対象モデル生成プログラムおよび制御パラメータ調整プログラム |
-
2006
- 2006-02-28 JP JP2006053671A patent/JP4974330B2/ja not_active Expired - Fee Related
-
2007
- 2007-01-18 CN CN2008101844505A patent/CN101477332B/zh not_active Expired - Fee Related
- 2007-01-18 CN CNB2007100042324A patent/CN100483275C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266404A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 非線形対象制御システム及び同システム構築用ニューラルネットワークの学習システム |
JPH08276354A (ja) * | 1995-04-06 | 1996-10-22 | Nissan Motor Co Ltd | カム研削装置 |
JPH1074188A (ja) * | 1996-05-23 | 1998-03-17 | Hitachi Ltd | データ学習装置およびプラント制御装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135653B2 (en) | 2007-11-20 | 2012-03-13 | Hitachi, Ltd. | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal |
US8554706B2 (en) | 2007-11-20 | 2013-10-08 | Hitachi, Ltd. | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal |
US8214062B2 (en) | 2008-03-28 | 2012-07-03 | Hitachi, Ltd. | Plant control system and thermal power generation plant control system |
CN103676822A (zh) * | 2012-09-10 | 2014-03-26 | 株式会社日立制作所 | 火力发电厂的控制装置以及控制方法 |
CN103676822B (zh) * | 2012-09-10 | 2016-11-23 | 株式会社日立制作所 | 火力发电厂的控制装置以及控制方法 |
US10353351B2 (en) | 2015-09-30 | 2019-07-16 | Fanuc Corporation | Machine learning system and motor control system having function of automatically adjusting parameter |
CN113015981A (zh) * | 2018-11-16 | 2021-06-22 | 华为技术有限公司 | 利用第一原则和约束进行有效、连续和安全学习的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101477332A (zh) | 2009-07-08 |
CN101030074A (zh) | 2007-09-05 |
CN100483275C (zh) | 2009-04-29 |
JP4974330B2 (ja) | 2012-07-11 |
CN101477332B (zh) | 2011-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4974330B2 (ja) | 制御装置 | |
US8095479B2 (en) | Plant control apparatus and method having functions of determining appropriate learning constraint conditions | |
JP4627553B2 (ja) | プラントの制御装置および火力発電プラントの制御装置 | |
US8185216B2 (en) | Plant controlling device and method, thermal power plant, and its control method | |
US8554706B2 (en) | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal | |
JP4876057B2 (ja) | プラントの制御装置、及び火力発電プラントの制御装置 | |
US7219040B2 (en) | Method and system for model based control of heavy duty gas turbine | |
US8355996B2 (en) | Plant control apparatus that uses a model to simulate the plant and a pattern base containing state information | |
EP1921280A2 (en) | Systems and methods for multi-level optimizing control systems for boilers | |
JP2008171152A (ja) | プラント制御装置 | |
JP2008146371A (ja) | ボイラプラントの制御装置 | |
JP4741968B2 (ja) | プラントの制御装置 | |
JP5503563B2 (ja) | プラントの制御装置及び火力発電プラントの制御装置 | |
US20120040299A1 (en) | Dynamic matrix control of steam temperature with prevention of saturated steam entry into superheater | |
JP2012053505A (ja) | プラントの制御装置及び火力発電プラントの制御装置 | |
JP2007272646A (ja) | プラントの制御装置 | |
Aalrebei et al. | Ammonia-hydrogen-air gas turbine cycle and control analyses | |
KR102216860B1 (ko) | Egr 밸브 제어 장치 및 제어 방법 | |
JP4627509B2 (ja) | プラントの制御装置及びプラントの制御方法 | |
JP4989421B2 (ja) | プラントの制御装置および火力発電プラントの制御装置 | |
JP2009222332A (ja) | ボイラを備えたプラントの制御装置、及びボイラを備えたプラントの制御方法 | |
Alrebei et al. | Lightweight methane-air gas turbine controller and simulator | |
JP4333766B2 (ja) | ボイラの制御装置、及び制御方法 | |
JP2010127475A (ja) | 燃焼炉の燃焼制御システムおよびその燃焼制御方法 | |
JP2010146068A (ja) | プラントの制御装置及び火力発電プラントの制御装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110818 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111228 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4974330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |