JPH0934505A - プラントの制御装置 - Google Patents
プラントの制御装置Info
- Publication number
- JPH0934505A JPH0934505A JP7185260A JP18526095A JPH0934505A JP H0934505 A JPH0934505 A JP H0934505A JP 7185260 A JP7185260 A JP 7185260A JP 18526095 A JP18526095 A JP 18526095A JP H0934505 A JPH0934505 A JP H0934505A
- Authority
- JP
- Japan
- Prior art keywords
- control
- plant
- search
- control method
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
(57)【要約】
【目的】環境変化や制御目標の変更に対する追従性の良
いプラントの制御装置を提供する。 【構成】プラント1を制御する制御装置2は、使用環境
測定部3でプラントが使用される使用環境を測定し、制
御結果を制御結果測定部4で測定して学習部5に送り、
学習誌学習結果テーブル6に格納する。探索部7は、制
御目標設定部8で設定された制御方法を達成するため
に、学習結果テーブル6の内容やこれまでの探索結果を
記録した探索結果テーブル10のデータを用いて制御方
法の候補を求め、模擬部9で制御予測結果を求める。こ
の予測結果から制御目標を満たす制御方法を探索し、制
御方法テーブル11に書き込む。制御実行部12は、制
御方法テーブル11の内容に応じてプラントを制御す
る。
いプラントの制御装置を提供する。 【構成】プラント1を制御する制御装置2は、使用環境
測定部3でプラントが使用される使用環境を測定し、制
御結果を制御結果測定部4で測定して学習部5に送り、
学習誌学習結果テーブル6に格納する。探索部7は、制
御目標設定部8で設定された制御方法を達成するため
に、学習結果テーブル6の内容やこれまでの探索結果を
記録した探索結果テーブル10のデータを用いて制御方
法の候補を求め、模擬部9で制御予測結果を求める。こ
の予測結果から制御目標を満たす制御方法を探索し、制
御方法テーブル11に書き込む。制御実行部12は、制
御方法テーブル11の内容に応じてプラントを制御す
る。
Description
【0001】
【産業上の利用分野】本発明はプラントの制御装置に関
する。
する。
【0002】
【従来の技術】プラントを環境変化に追従させるための
制御装置は、たとえば特開平3− 128873号公報にあるよ
うに制御目標の変化に対しては、知識やファジー推論で
制御方法の決定を行うものがあり、また、特開昭64−43
794 号公報には、知識とシミュレータにより運転計画を
作成する装置が示されている。さらに、特開平4−18830
1号公報には、プロセスの時間的推移を予測するシステ
ムでファジー推論により評価するものが示されている。
制御装置は、たとえば特開平3− 128873号公報にあるよ
うに制御目標の変化に対しては、知識やファジー推論で
制御方法の決定を行うものがあり、また、特開昭64−43
794 号公報には、知識とシミュレータにより運転計画を
作成する装置が示されている。さらに、特開平4−18830
1号公報には、プロセスの時間的推移を予測するシステ
ムでファジー推論により評価するものが示されている。
【0003】
【発明が解決しようとする課題】従来技術によれば、パ
ラメータ数が一定の範囲内であれば効率よく最適な制御
方法または制御パラメータを求めることができるが、パ
ラメータが膨大になると推論に使用する知識やファジー
ルールが膨大になり、想定されるすべての制御目標,環
境変化に対して必要な知識やファジールールを準備して
おくことが困難になる。また、山登り法などの探索手法
では、実用的な時間で最適なまたは実用上十分な制御方
法・制御パラメータを求めることは困難である。
ラメータ数が一定の範囲内であれば効率よく最適な制御
方法または制御パラメータを求めることができるが、パ
ラメータが膨大になると推論に使用する知識やファジー
ルールが膨大になり、想定されるすべての制御目標,環
境変化に対して必要な知識やファジールールを準備して
おくことが困難になる。また、山登り法などの探索手法
では、実用的な時間で最適なまたは実用上十分な制御方
法・制御パラメータを求めることは困難である。
【0004】
【課題を解決するための手段】制御目標設定手段は、プ
ラントの制御目標を設定する。学習手段は、プラントの
動作,使用環境,入出力等を学習する。探索手段は、前
記学習手段の学習結果とこれまでの探索結果,模擬手段
のプラントの動作模擬結果から、学習結果が学習した使
用環境のもとで制御目標を達成する制御方法・制御パラ
メータの候補を探索する。模擬手段は、探索手段が求め
た制御方法・制御パラメータの候補を用いたときの、学
習結果の学習した使用環境の基での動作結果を予測す
る。探索手段は、この模擬結果の予測手段を用い次の探
索点を求める。
ラントの制御目標を設定する。学習手段は、プラントの
動作,使用環境,入出力等を学習する。探索手段は、前
記学習手段の学習結果とこれまでの探索結果,模擬手段
のプラントの動作模擬結果から、学習結果が学習した使
用環境のもとで制御目標を達成する制御方法・制御パラ
メータの候補を探索する。模擬手段は、探索手段が求め
た制御方法・制御パラメータの候補を用いたときの、学
習結果の学習した使用環境の基での動作結果を予測す
る。探索手段は、この模擬結果の予測手段を用い次の探
索点を求める。
【0005】
【作用】学習手段がプラントの動作,使用環境,入出力
等を学習し、これに基づき、模擬手段によって制御方法
・制御パラメータの候補を検証した後、使用するので、
不都合な制御を行うことを防ぐことができ、また、探索
手段に遺伝的アルゴリズム等の確率的他点同時探索手段
を用いることにより効率的な探索が可能となる。また、
制御方法・制御パラメータは随時探索結果により改善し
てゆくが、探索を行う際、過去の探索結果を参照するこ
とによって、さらに効率よく探索を行うことができる。
等を学習し、これに基づき、模擬手段によって制御方法
・制御パラメータの候補を検証した後、使用するので、
不都合な制御を行うことを防ぐことができ、また、探索
手段に遺伝的アルゴリズム等の確率的他点同時探索手段
を用いることにより効率的な探索が可能となる。また、
制御方法・制御パラメータは随時探索結果により改善し
てゆくが、探索を行う際、過去の探索結果を参照するこ
とによって、さらに効率よく探索を行うことができる。
【0006】加えて、模擬に使用する使用環境を微小変
化させたり、探索結果を微小変化させた制御方法でさら
に検証することにより、頑健な、ロバスト性の高い制御
を実現できる。
化させたり、探索結果を微小変化させた制御方法でさら
に検証することにより、頑健な、ロバスト性の高い制御
を実現できる。
【0007】さらに、模擬手段に、ファジーモデル,ニ
ューラルネットワークを用いることにより、数式モデル
やシミュレーションモデルが構成できない場合にもパラ
メータ探索を行うことができる。
ューラルネットワークを用いることにより、数式モデル
やシミュレーションモデルが構成できない場合にもパラ
メータ探索を行うことができる。
【0008】
【実施例】以下、本発明の実施例を図に従って説明す
る。
る。
【0009】図1は本発明のブロック図である。プラン
ト1を制御する制御装置2は、使用環境測定部3でプラ
ントが使用される使用環境を測定し、またプラントの入
出力などの制御結果を制御結果測定部4で測定して学習
部5に送る。学習部5は、これらを学習誌学習結果テー
ブル6に格納する。探索部7は、制御目標設定部8で設
定された制御方法を達成するために、この学習結果テー
ブル6の内容やこれまでの探索結果を記録した探索結果
テーブル10のデータを用いて制御方法・制御パラメー
タ(以下制御方法と略記する)の候補を求め、プラント
の動作を模擬するシミュレータなどで構成された模擬部
9でそれぞれの制御方法の候補を試行して、各制御方法
を用いてプラントの制御を行った場合の制御予測結果を
求める。探索部7はこの予測結果から制御目標を満たす
制御方法を探索し、制御方法テーブル11に書き込む。
制御実行部12は、前記制御方法テーブル11の内容に
従ってプラントを制御する。
ト1を制御する制御装置2は、使用環境測定部3でプラ
ントが使用される使用環境を測定し、またプラントの入
出力などの制御結果を制御結果測定部4で測定して学習
部5に送る。学習部5は、これらを学習誌学習結果テー
ブル6に格納する。探索部7は、制御目標設定部8で設
定された制御方法を達成するために、この学習結果テー
ブル6の内容やこれまでの探索結果を記録した探索結果
テーブル10のデータを用いて制御方法・制御パラメー
タ(以下制御方法と略記する)の候補を求め、プラント
の動作を模擬するシミュレータなどで構成された模擬部
9でそれぞれの制御方法の候補を試行して、各制御方法
を用いてプラントの制御を行った場合の制御予測結果を
求める。探索部7はこの予測結果から制御目標を満たす
制御方法を探索し、制御方法テーブル11に書き込む。
制御実行部12は、前記制御方法テーブル11の内容に
従ってプラントを制御する。
【0010】本実施例によれば、プラントの制御を行う
前に試行によって制御方法の効果を予測し、設定された
制御方法を達成できるより良い制御方法によりプラント
の制御を行うことができる。
前に試行によって制御方法の効果を予測し、設定された
制御方法を達成できるより良い制御方法によりプラント
の制御を行うことができる。
【0011】図2は本発明の動作を示すフローチャート
である。まず始めに学習部5が使用環境測定部3,制御
結果測定部4により、使用環境・制御結果を収集する(2
01)。次に探索部7が制御方法の候補をいくつか探索す
る(202)。探索した制御方法の候補を模擬部9に送
り(203)、学習結果テーブル6の学習結果を用いて
プラントの動作を模擬し(204)、その結果を探索部
7に送る(205)。次に結果が収束したか否か、制御
目標を達成したか否か等の基準により探索が終了したか
どうかを判断し(206)、終了していなかった(20
2)に戻り、探索が終了していたら探索結果を探索結果
テーブル10に登録し(207)、さらに制御方法テー
ブル11に書き込む(208)。次に制御実行部12
は、制御方法テーブル11の内容を用いてプラント1の
制御を実行する(209)。さらに、所定期間または使
用環境が一定範囲以上変化するなどの所定の条件を満た
すか否かを判断し(210)、満たさない場合は(20
9)を繰り返し、満たした場合は(201)に戻り探索
をやり直す。
である。まず始めに学習部5が使用環境測定部3,制御
結果測定部4により、使用環境・制御結果を収集する(2
01)。次に探索部7が制御方法の候補をいくつか探索す
る(202)。探索した制御方法の候補を模擬部9に送
り(203)、学習結果テーブル6の学習結果を用いて
プラントの動作を模擬し(204)、その結果を探索部
7に送る(205)。次に結果が収束したか否か、制御
目標を達成したか否か等の基準により探索が終了したか
どうかを判断し(206)、終了していなかった(20
2)に戻り、探索が終了していたら探索結果を探索結果
テーブル10に登録し(207)、さらに制御方法テー
ブル11に書き込む(208)。次に制御実行部12
は、制御方法テーブル11の内容を用いてプラント1の
制御を実行する(209)。さらに、所定期間または使
用環境が一定範囲以上変化するなどの所定の条件を満た
すか否かを判断し(210)、満たさない場合は(20
9)を繰り返し、満たした場合は(201)に戻り探索
をやり直す。
【0012】図3は探索に遺伝的アルゴリズムを用いる
場合のフローチャートであり、図4はその説明図であ
る。まず、乱数または学習結果テーブル6の学習結果に
基づき制御方法の候補を所定量作成してこれを初期値と
する(301)。制御方法は図4(a)のように制御パ
ラメータの組として表し、ここでは簡略化して図4(b)
のように6組の制御方法を用意する場合で説明する。次
に模擬部9を起動してプラントの動作の模擬を行い、こ
れら制御方法の候補を用いて制御を行った場合の予測動
作結果を求める(302)。この予測動作結果に基づき
各制御方法を順序付けする(303)。これが図4
(c)の評価に相当する。ここで、所定回数実行した
か、回が収束したか等といった終了条件を満たしている
かどうかを調べ(304)、満たしていたら制御方法を
探索結果テーブル10,制御方法テーブル11に書き込
む(305)。終了条件を満たしていなかったら順位が
上位の制御方法を残す(306)。これが図4(d)の
選択である。残った制御方法のパラメータを入れ替えて
次に試すべき制御方法を作成する(307)。これが図
4(e),(f)の交叉の処理である。次に乱数により制
御方法のパラメータの一部を変更する(308)。図4
(g)突然変異の処理である。その後(302)以降を
終了条件が満たされるまで繰り替える。現在より悪い制
御とならないようにするために、交叉,突然変異の際
に、順位の最上位の制御方法を必ず残すエリート保存戦
略を用い、制御結果の安定化を図る。
場合のフローチャートであり、図4はその説明図であ
る。まず、乱数または学習結果テーブル6の学習結果に
基づき制御方法の候補を所定量作成してこれを初期値と
する(301)。制御方法は図4(a)のように制御パ
ラメータの組として表し、ここでは簡略化して図4(b)
のように6組の制御方法を用意する場合で説明する。次
に模擬部9を起動してプラントの動作の模擬を行い、こ
れら制御方法の候補を用いて制御を行った場合の予測動
作結果を求める(302)。この予測動作結果に基づき
各制御方法を順序付けする(303)。これが図4
(c)の評価に相当する。ここで、所定回数実行した
か、回が収束したか等といった終了条件を満たしている
かどうかを調べ(304)、満たしていたら制御方法を
探索結果テーブル10,制御方法テーブル11に書き込
む(305)。終了条件を満たしていなかったら順位が
上位の制御方法を残す(306)。これが図4(d)の
選択である。残った制御方法のパラメータを入れ替えて
次に試すべき制御方法を作成する(307)。これが図
4(e),(f)の交叉の処理である。次に乱数により制
御方法のパラメータの一部を変更する(308)。図4
(g)突然変異の処理である。その後(302)以降を
終了条件が満たされるまで繰り替える。現在より悪い制
御とならないようにするために、交叉,突然変異の際
に、順位の最上位の制御方法を必ず残すエリート保存戦
略を用い、制御結果の安定化を図る。
【0013】本実施例によれば生物の進化を模擬した他
点同時探索手段である遺伝的アルゴリズムにより効率的
に探索を実行でき、エリート保存戦略を用いることによ
り制御方法の決定を自動化した場合でも制御結果の安定
化を図ることができる。
点同時探索手段である遺伝的アルゴリズムにより効率的
に探索を実行でき、エリート保存戦略を用いることによ
り制御方法の決定を自動化した場合でも制御結果の安定
化を図ることができる。
【0014】図5は上位の制御方法の効果を検証する場
合の説明図である。図5(a)のように従来例で用いら
れた山登り法や知識により探索範囲や探索順序を限定す
る方法では、利用状況変化に対する制御結果の連続性,
線形性が一定の範囲でほぼ成り立つことが多いので、利
用状況が若干変化しても制御結果はさほど悪化しないと
言う制御方法の頑健性がある程度保証される。しかし、
確率的な他点同時探索では、不連続に探索点を求めるこ
とになるので、制御方法の頑健性が保証されない。そこ
で、探索によって最適値として求められた制御方法の頑
健性は別途確認する必要がある。たとえば、遺伝的アル
ゴリズムでは、図5(b)のように点1a,1b,1
c,1dから新たに生成された制御方法が2a,2b,
2c,2dであるとすると2dのような制御方法が最適
値として選択される可能性がある。
合の説明図である。図5(a)のように従来例で用いら
れた山登り法や知識により探索範囲や探索順序を限定す
る方法では、利用状況変化に対する制御結果の連続性,
線形性が一定の範囲でほぼ成り立つことが多いので、利
用状況が若干変化しても制御結果はさほど悪化しないと
言う制御方法の頑健性がある程度保証される。しかし、
確率的な他点同時探索では、不連続に探索点を求めるこ
とになるので、制御方法の頑健性が保証されない。そこ
で、探索によって最適値として求められた制御方法の頑
健性は別途確認する必要がある。たとえば、遺伝的アル
ゴリズムでは、図5(b)のように点1a,1b,1
c,1dから新たに生成された制御方法が2a,2b,
2c,2dであるとすると2dのような制御方法が最適
値として選択される可能性がある。
【0015】ここでは、座標を制御パラメータとしてい
るが、利用状況の変化に対しても効果が敏感に変化する
ことも多い、そこで一定範囲で利用状況・使用環境を変
化させて模擬部9で動作の模擬を行いその制御結果の良
いものを使用する制御方法として制御方法テーブル11
に書き込むことにする。このとき制御方法の良いものと
は一定範囲で変化させた各利用状況・使用環境での動作
模擬結果の平均値の良いもの、最良値と最悪値との差や
標準偏差の少ないものまたはこれらを総合的に判断した
もの等である。
るが、利用状況の変化に対しても効果が敏感に変化する
ことも多い、そこで一定範囲で利用状況・使用環境を変
化させて模擬部9で動作の模擬を行いその制御結果の良
いものを使用する制御方法として制御方法テーブル11
に書き込むことにする。このとき制御方法の良いものと
は一定範囲で変化させた各利用状況・使用環境での動作
模擬結果の平均値の良いもの、最良値と最悪値との差や
標準偏差の少ないものまたはこれらを総合的に判断した
もの等である。
【0016】図6は上位の制御方法の効果を検証する場
合のブロック図である。探索部7は、学習結果テーブル
6の学習内容を基に一定範囲で利用状況・使用環境を変
化させた検証用使用環境を作成し、検証用データテーブ
ル13に登録する。探索が終了した後、探索部7は、模
擬部9を用いて、探索結果の上位の制御方法の検証用デ
ータテーブル13の検証用使用環境のもとでの動作の模
擬を行い、平均値や標準偏差の少ない結果の良いものを
探索結果テーブル10,制御方法テーブル11に登録す
る。
合のブロック図である。探索部7は、学習結果テーブル
6の学習内容を基に一定範囲で利用状況・使用環境を変
化させた検証用使用環境を作成し、検証用データテーブ
ル13に登録する。探索が終了した後、探索部7は、模
擬部9を用いて、探索結果の上位の制御方法の検証用デ
ータテーブル13の検証用使用環境のもとでの動作の模
擬を行い、平均値や標準偏差の少ない結果の良いものを
探索結果テーブル10,制御方法テーブル11に登録す
る。
【0017】図7は上位の制御方法の効果を検証する場
合のフローチャートである。まず始めに学習結果テーブ
ル6の内容を用い検証用使用環境を作成する(701)
その後、終了条件を調べるまでは図3と同様である。探
索結果テーブル10,制御方法テーブル11に書き込む
前に検証用使用環境を読み込み(702)、この検証用
使用環境の基で探索結果の上位の制御方法を用いて模擬
部9で動作の模擬を行う(703)。月にこの動作の模
擬結果を統計処理し、平均,標準偏差などを求め(70
4)、その結果の良いものを選択する(705)。これ
以降はまた図3と同様である。
合のフローチャートである。まず始めに学習結果テーブ
ル6の内容を用い検証用使用環境を作成する(701)
その後、終了条件を調べるまでは図3と同様である。探
索結果テーブル10,制御方法テーブル11に書き込む
前に検証用使用環境を読み込み(702)、この検証用
使用環境の基で探索結果の上位の制御方法を用いて模擬
部9で動作の模擬を行う(703)。月にこの動作の模
擬結果を統計処理し、平均,標準偏差などを求め(70
4)、その結果の良いものを選択する(705)。これ
以降はまた図3と同様である。
【0018】本実施例によれば、あらかじめ使用する制
御方法の頑健性について確かめることができるので多少
の使用環境・利用状況の変化があっても性能劣化の少な
い制御方法を選択することが可能になる。
御方法の頑健性について確かめることができるので多少
の使用環境・利用状況の変化があっても性能劣化の少な
い制御方法を選択することが可能になる。
【0019】図8は所定回数ごとに使用環境を微少変化
させる場合のフローチャートである。図5,図6,図7
で述べたような頑健な制御方法を求めるには、図5,図
6,図7のように探索終了後に探索結果の上位のものを
検証するのではなく、あらかじめ繰り返し計算に使用す
る使用環境を微小変化させ、使用環境の変化に対して頑
健な制御方法だけが探索結果として求められるようにし
たものである。(308)までは図3と同様である。(30
8)の後、次に動作を模擬すべき制御方法が作成された
後、学習結果テーブル6の内容を基に前記使用環境を乱
数により微小変化させて動作の模擬に使用する使用環境
を作成する。その後(302)に戻り以降はまた図3と
同様である。
させる場合のフローチャートである。図5,図6,図7
で述べたような頑健な制御方法を求めるには、図5,図
6,図7のように探索終了後に探索結果の上位のものを
検証するのではなく、あらかじめ繰り返し計算に使用す
る使用環境を微小変化させ、使用環境の変化に対して頑
健な制御方法だけが探索結果として求められるようにし
たものである。(308)までは図3と同様である。(30
8)の後、次に動作を模擬すべき制御方法が作成された
後、学習結果テーブル6の内容を基に前記使用環境を乱
数により微小変化させて動作の模擬に使用する使用環境
を作成する。その後(302)に戻り以降はまた図3と
同様である。
【0020】本実施例によれば、あらかじめ使用環境・
利用状況の微小変化にも頑健な制御を選択決定すること
ができる。
利用状況の微小変化にも頑健な制御を選択決定すること
ができる。
【0021】図9は基本制御方法を一定の割合で混入さ
せる場合の説明図である。図2で過去の探索結果を次の
探索の始まりとして用いる場合、解の収束は促進される
ので最適または実用的な最良解を求めるまでの計算時間
を短縮することができるが、他点同時探索の手法を用い
ても徐々に解は収束してゆき局所解に落ちついてしま
い、真の最適解が探索できないといったことが発生す
る。特に図9(a)のように点xが真の最適解であり、
点yが局所最適解であったものが、経年変化などにより
利用状況・使用環境が変化して図9(b)のように最適
解の位置が変わってゆき、真の最適解と局所最適解が逆
転するような場合、過去の探索結果を参照する方式では
点xの周辺の点i,j,kのような範囲でしか探索され
ず、真の最適解が求められない可能性がある。そこで図
9(c)のように一定間隔,一定の割合で点p,q,r
のような基本制御方法を探索点の中に混入させ多様性を
維持できるようにする。
せる場合の説明図である。図2で過去の探索結果を次の
探索の始まりとして用いる場合、解の収束は促進される
ので最適または実用的な最良解を求めるまでの計算時間
を短縮することができるが、他点同時探索の手法を用い
ても徐々に解は収束してゆき局所解に落ちついてしま
い、真の最適解が探索できないといったことが発生す
る。特に図9(a)のように点xが真の最適解であり、
点yが局所最適解であったものが、経年変化などにより
利用状況・使用環境が変化して図9(b)のように最適
解の位置が変わってゆき、真の最適解と局所最適解が逆
転するような場合、過去の探索結果を参照する方式では
点xの周辺の点i,j,kのような範囲でしか探索され
ず、真の最適解が求められない可能性がある。そこで図
9(c)のように一定間隔,一定の割合で点p,q,r
のような基本制御方法を探索点の中に混入させ多様性を
維持できるようにする。
【0022】図10は基本制御方法を混入させる場合の
ブロック図である。基本制御方法を混入させる際に探索
部7が探索する基本制御方法テーブル14がある以外は
図1と同様である。
ブロック図である。基本制御方法を混入させる際に探索
部7が探索する基本制御方法テーブル14がある以外は
図1と同様である。
【0023】図11は基本制御方法を混入させる場合の
フローチャートである。(308)の突然変異までは図
3と同様である。突然変異の処理の後、繰り替え指数が
所定値に達したかどうかを調べ(308−2)、達して
いなければそのまま(302)に戻り、達していたら基本
制御方法を基本制御方法テーブル14から読み出して混
入させる(308−3)。以下は図3と同様である。
フローチャートである。(308)の突然変異までは図
3と同様である。突然変異の処理の後、繰り替え指数が
所定値に達したかどうかを調べ(308−2)、達して
いなければそのまま(302)に戻り、達していたら基本
制御方法を基本制御方法テーブル14から読み出して混
入させる(308−3)。以下は図3と同様である。
【0024】本実施例によれば、過去の探索結果を参照
して計算時間の短縮を図りながら、多様性の維持も図っ
て真の最適解を求めやすくできる。
して計算時間の短縮を図りながら、多様性の維持も図っ
て真の最適解を求めやすくできる。
【0025】図12はファジー評価を行う場合のブロッ
ク図である。日々検索を行い、その最良値を制御方法と
して採用する場合には、解の多様性を確保するため、厳
密に評価をするよりもファジー評価を用いることにより
種々の形式の解が残される方が環境変化への追従性が改
善できることがある。そこで、探索部7は、図3(30
3)で制御方法を評価する際ファジールールテーブル1
5のファジールールを用いて評価することにする。
ク図である。日々検索を行い、その最良値を制御方法と
して採用する場合には、解の多様性を確保するため、厳
密に評価をするよりもファジー評価を用いることにより
種々の形式の解が残される方が環境変化への追従性が改
善できることがある。そこで、探索部7は、図3(30
3)で制御方法を評価する際ファジールールテーブル1
5のファジールールを用いて評価することにする。
【0026】本実施例によれば、解の多様性を確保しや
すく、環境変化への追従性を大きく改善できる。
すく、環境変化への追従性を大きく改善できる。
【0027】図13は他の評価基準の結果を混入する場
合の探索部7のブロック図である。評価部73では、設
定された制御目標による順位75だけでなく、個々の評
価項目、評価項目1の順位78,評価項目2の順位79
も採り入れこれの上位のものを制御パラメータ71に混
入させる。また選択・淘汰部76に混入させても良い。
合の探索部7のブロック図である。評価部73では、設
定された制御目標による順位75だけでなく、個々の評
価項目、評価項目1の順位78,評価項目2の順位79
も採り入れこれの上位のものを制御パラメータ71に混
入させる。また選択・淘汰部76に混入させても良い。
【0028】図14は他の評価基準の結果を混入する場
合のフローチャートである。上位の制御方法を残す(3
06)の前に、他の評価値の良いものを保存する(30
6−1)、突然変異(308)の次に(306−1)で
保存した他の評価値が良いものを混入させる(309−
1)を行い(302)に戻る以外は図3と同様である。
本実施例によれば、他の評価項目が良い制御方法も混入
させるため、多様性を維持でき、探索効率を改善できる
ほか異なる制御目標が設定された場合にもそれに近い制
御方法が残されているので速やかにその変化に追従する
ことができる。図15は乱数により一部を初期化する場
合の探索部7のブロック図である。制御方法の候補群7
1は模擬部9に送られ、その動作の模擬結果は、それぞ
れの制御方法ごとに動作模擬結果72として探索部7に
送られる。動作模擬結果72は、評価部73に送られ、
評価部73は、制御目標設定部8で設定された制御目標
により各動作模擬結果を重み付け評価し、重み付け評価
による順位75を作成する。次にこの重み付け順位によ
り選択・淘汰部76で、選択・淘汰の処理を行い、その
結果を交叉・突然変異部77に送る。交叉・突然変異部
77は、選択・淘汰部76から送られてきた制御方法に
交叉・突然変異の処理を行い、制御方法の候補群71と
して出力する。この制御方法の候補は探索結果として探
索結果テーブルに送られる。以下これを繰り返すことに
より、環境変化に追従し、制御目標を達成する制御方法
を探索・決定することが可能になる。乱数により発生さ
せた新たな制御方法は、選択・淘汰部76に混入させて
も良い。
合のフローチャートである。上位の制御方法を残す(3
06)の前に、他の評価値の良いものを保存する(30
6−1)、突然変異(308)の次に(306−1)で
保存した他の評価値が良いものを混入させる(309−
1)を行い(302)に戻る以外は図3と同様である。
本実施例によれば、他の評価項目が良い制御方法も混入
させるため、多様性を維持でき、探索効率を改善できる
ほか異なる制御目標が設定された場合にもそれに近い制
御方法が残されているので速やかにその変化に追従する
ことができる。図15は乱数により一部を初期化する場
合の探索部7のブロック図である。制御方法の候補群7
1は模擬部9に送られ、その動作の模擬結果は、それぞ
れの制御方法ごとに動作模擬結果72として探索部7に
送られる。動作模擬結果72は、評価部73に送られ、
評価部73は、制御目標設定部8で設定された制御目標
により各動作模擬結果を重み付け評価し、重み付け評価
による順位75を作成する。次にこの重み付け順位によ
り選択・淘汰部76で、選択・淘汰の処理を行い、その
結果を交叉・突然変異部77に送る。交叉・突然変異部
77は、選択・淘汰部76から送られてきた制御方法に
交叉・突然変異の処理を行い、制御方法の候補群71と
して出力する。この制御方法の候補は探索結果として探
索結果テーブルに送られる。以下これを繰り返すことに
より、環境変化に追従し、制御目標を達成する制御方法
を探索・決定することが可能になる。乱数により発生さ
せた新たな制御方法は、選択・淘汰部76に混入させて
も良い。
【0029】図16は乱数により一部を初期化する場合
のフローチャートである。突然変異の処理(308)の
あと制御方法の一部を乱数により新たに発生させた制御
方法と入れ替える(309−2)以外は図3と同様であ
る。
のフローチャートである。突然変異の処理(308)の
あと制御方法の一部を乱数により新たに発生させた制御
方法と入れ替える(309−2)以外は図3と同様であ
る。
【0030】本実施例によれば、環境変化に追従し、制
御目標を達成する制御方法を探索・決定することが可能
になる。
御目標を達成する制御方法を探索・決定することが可能
になる。
【0031】図17は改善が見られなくなったら初期化
する場合のフローチャートである。突然変異の処理(3
08)の後、探索による改善があるかどうかを判断し(3
08)改善があれば図3と同様(302)に戻り、改善
がなければ、最良値であるエリートの制御方法を残し、
他をすべて乱数により新たに作成した制御方法と入れ替
える初期化を行う(308−4)。後は図3と同様であ
る。
する場合のフローチャートである。突然変異の処理(3
08)の後、探索による改善があるかどうかを判断し(3
08)改善があれば図3と同様(302)に戻り、改善
がなければ、最良値であるエリートの制御方法を残し、
他をすべて乱数により新たに作成した制御方法と入れ替
える初期化を行う(308−4)。後は図3と同様であ
る。
【0032】本実施例によれば、局所最適解に収束し
て、それ以上の改善が見られなくなった場合にエリート
を残し新たに探索を行うことにより、制御の継続性,安
定性を保ちながら探索結果の改善を図ることができる。
て、それ以上の改善が見られなくなった場合にエリート
を残し新たに探索を行うことにより、制御の継続性,安
定性を保ちながら探索結果の改善を図ることができる。
【0033】図18は環境や制御目標に変化があったと
き初期化する場合のフローチャートである。突然変異の
処理(308)の後、使用環境が変化したかどうかを学
習結果テーブル6を調べることにより判定し、変化して
いなければ図3と同様(302)に戻り、変化していれば、
エリートを残して初期化する。これにより、使用環境が
大きく変化し、過去の探索結果が参考にならなくなった
場合新たに探索を始めることによりこの場合の探索性能
を改善することができる。
き初期化する場合のフローチャートである。突然変異の
処理(308)の後、使用環境が変化したかどうかを学
習結果テーブル6を調べることにより判定し、変化して
いなければ図3と同様(302)に戻り、変化していれば、
エリートを残して初期化する。これにより、使用環境が
大きく変化し、過去の探索結果が参考にならなくなった
場合新たに探索を始めることによりこの場合の探索性能
を改善することができる。
【0034】以上、探索性能向上をめざし、種々の実施
例を示したが、これらの組み合わせで性能をさらに改善
することも可能である。
例を示したが、これらの組み合わせで性能をさらに改善
することも可能である。
【0035】図19は模擬部9をファジーモデルで構成
する場合の説明図である。本模擬部9の性能モデルで
は、入力と出力の関数を表すファジールールを複数組用
意し、この性能モデルのルールの組み合わせ及びメンバ
ーシップ関数の形状を変更することによって性能モデル
を変更するものであり、模擬部9はファジールールベー
ス91,ファジー推論部92,ファジーモデル93を持
ち、探索部7の変形例であるモデル変更部16は、ルー
ル選択部161,メンバーシップ関数変更部162を有す
る。ここでも、このモデル変更部16に遺伝的アルゴリ
ズムを用いる場合で説明する。ファジーモデルは図19
(b)のようにファジールールとそのメンバーシップ関
数の形状の組で表現される。モデル変更部16は遺伝的
アルゴリズムによりパラメータを調整し、ルール選択部
161が変更されたパラメータ中のファジールールを示
す部分R1,R2,・・・をみて性能モデルを構成する
ファジールールをファジールールベース91から選択す
る。メンバーシップ関数変更部162は、各ルールの前
提部のメンバーシップ関数の形状を表すパラメータR1
l1,R1l2,・・・および結論部のメンバーシップ
関数の形状を示すパラメータR1r1,R1r2,・・
・に従いファジーモデル93のメンバーシップ関数を変
更・変形する。ファジー推論部92は、学習結果テーブ
ル6のデータをもとにファジーモデル93のルールと前
記ルールに対応したメンバーシップ関数を用いて性能計
算を行う。
する場合の説明図である。本模擬部9の性能モデルで
は、入力と出力の関数を表すファジールールを複数組用
意し、この性能モデルのルールの組み合わせ及びメンバ
ーシップ関数の形状を変更することによって性能モデル
を変更するものであり、模擬部9はファジールールベー
ス91,ファジー推論部92,ファジーモデル93を持
ち、探索部7の変形例であるモデル変更部16は、ルー
ル選択部161,メンバーシップ関数変更部162を有す
る。ここでも、このモデル変更部16に遺伝的アルゴリ
ズムを用いる場合で説明する。ファジーモデルは図19
(b)のようにファジールールとそのメンバーシップ関
数の形状の組で表現される。モデル変更部16は遺伝的
アルゴリズムによりパラメータを調整し、ルール選択部
161が変更されたパラメータ中のファジールールを示
す部分R1,R2,・・・をみて性能モデルを構成する
ファジールールをファジールールベース91から選択す
る。メンバーシップ関数変更部162は、各ルールの前
提部のメンバーシップ関数の形状を表すパラメータR1
l1,R1l2,・・・および結論部のメンバーシップ
関数の形状を示すパラメータR1r1,R1r2,・・
・に従いファジーモデル93のメンバーシップ関数を変
更・変形する。ファジー推論部92は、学習結果テーブ
ル6のデータをもとにファジーモデル93のルールと前
記ルールに対応したメンバーシップ関数を用いて性能計
算を行う。
【0036】本実施例によれば、少数のファジールール
を用いたファジー推論によって性能計算を行うことがで
きるので模擬部9の構成が簡単になり短時間に結果を得
ることができる。これにより、数学モデルやシミュレー
ションのアルゴリズムが確定していないプラントでも学
習結果をもとにファジールールを変更することによって
プラントを模擬させることができるようになる。また、
本実施例の構成では、モデルの学習,性能評価と制御方
法の決定がメンバーシップ関数による推論により一度に
実施することができ、結果を得るまでの時間を大幅に短
縮することができる。
を用いたファジー推論によって性能計算を行うことがで
きるので模擬部9の構成が簡単になり短時間に結果を得
ることができる。これにより、数学モデルやシミュレー
ションのアルゴリズムが確定していないプラントでも学
習結果をもとにファジールールを変更することによって
プラントを模擬させることができるようになる。また、
本実施例の構成では、モデルの学習,性能評価と制御方
法の決定がメンバーシップ関数による推論により一度に
実施することができ、結果を得るまでの時間を大幅に短
縮することができる。
【0037】図20は模擬部9をニューラルネットワー
クで構成する場合の説明図である。図20(a)のよう
に模擬部9の性能モデルとしてニューラルネットワーク
を用い、ネットワークのノードに接続する重み係数の列
として、遺伝的アルゴリズムで最適化を行う遺伝子と
し、これを訂正しながら性能モデルを学習結果テーブル
6の学習結果に合うように修正してゆく。図5(c)は
遺伝子の説明図である。遺伝的アルゴリズムを用いる場
合の遺伝子は、各層を連結する重み係数Wa1b1〜Wbn
cnを遺伝子として模擬部9の性能モデルの変更を行
う。Wa1b1は、ニューロンa1からb1への信号の
重み係数を表す。
クで構成する場合の説明図である。図20(a)のよう
に模擬部9の性能モデルとしてニューラルネットワーク
を用い、ネットワークのノードに接続する重み係数の列
として、遺伝的アルゴリズムで最適化を行う遺伝子と
し、これを訂正しながら性能モデルを学習結果テーブル
6の学習結果に合うように修正してゆく。図5(c)は
遺伝子の説明図である。遺伝的アルゴリズムを用いる場
合の遺伝子は、各層を連結する重み係数Wa1b1〜Wbn
cnを遺伝子として模擬部9の性能モデルの変更を行
う。Wa1b1は、ニューロンa1からb1への信号の
重み係数を表す。
【0038】
【発明の効果】本発明によれば、ニューラルネットワー
クの学習機能により、簡便で精度の良い性能モデルを模
擬部として構成することができ、数学モデルや、シミュ
レーションアルゴリズムが確定しておらず模擬部が構成
困難なプラントでも的確な制御方法を決定することが可
能になる。
クの学習機能により、簡便で精度の良い性能モデルを模
擬部として構成することができ、数学モデルや、シミュ
レーションアルゴリズムが確定しておらず模擬部が構成
困難なプラントでも的確な制御方法を決定することが可
能になる。
【図1】本発明の一実施例のブロック図。
【図2】本発明の動作を示すフローチャート。
【図3】遺伝的アルゴリズムを用いる場合のフローチャ
ート。
ート。
【図4】遺伝的アルゴリズムを用いる場合の説明図。
【図5】制御方法の制御方法を検証する場合の説明図。
【図6】制御方法を検証する場合のブロック図。
【図7】制御方法を検証する場合のフローチャート。
【図8】使用環境を微小変化させる場合のフローチャー
ト。
ト。
【図9】基本制御方法を混入させる場合の説明図。
【図10】基本制御方法を混入させる場合のブロック
図。
図。
【図11】基本制御方法を混入させる場合のフローチャ
ート。
ート。
【図12】ファジー評価を行う場合のブロック図。
【図13】他の評価指標の制御方法を混入させる場合の
探索部のブロック図。
探索部のブロック図。
【図14】他の評価結果の良いものを混入させる場合の
フローチャート。
フローチャート。
【図15】一部を乱数で初期化する場合の探索部7のブ
ロック図。
ロック図。
【図16】一部を乱数で初期化する場合のフローチャー
ト。
ト。
【図17】改善がないとき初期化する場合のフローチャ
ート。
ート。
【図18】環境変化時初期化する場合のフローチャー
ト。
ト。
【図19】模擬部9をファジーモデルで構成する場合の
説明図。
説明図。
【図20】模擬部9をニューラルネットワークで構成し
た場合の説明図。
た場合の説明図。
1…プラント、2…制御装置、3…使用環境測定部、4
…制御結果測定部、5…学習部、6…学習結果テーブ
ル、7…探索部、8…制御目標設定部、9…模擬部、1
0…探索結果テーブル、11…制御方法テーブル、12
…制御実行部。
…制御結果測定部、5…学習部、6…学習結果テーブ
ル、7…探索部、8…制御目標設定部、9…模擬部、1
0…探索結果テーブル、11…制御方法テーブル、12
…制御実行部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 米田 健治 茨城県ひたちなか市市毛1070番地 株式会 社日立製作所水戸工場内 (72)発明者 市川 芳明 茨城県日立市大みか町七丁目2番1号 株 式会社日立製作所電力・電機開発本部内
Claims (14)
- 【請求項1】設定された制御目標を達成するように制御
を行うプラントの制御装置において、学習手段,プラン
トの模擬手段,制御方法・制御パラメータ探索手段,探
索結果記憶手段を備え、前記探索手段は前記探索結果記
憶手段に記憶された過去の探索結果を考慮して探索を行
うことを特徴とするプラントの制御装置。 - 【請求項2】設定された制御目標を達成するように制御
を行うプラントの制御装置において、プラントの動作,
使用環境,入出力等の学習手段,前記学習手段の学習結
果をもとに前記制御目標を達成する制御方法・制御パラ
メータを探索する探索手段,前記探索手段によって探索
された制御方法を試行するため前記学習結果を用いてプ
ラントの動作を模擬する模擬手段を備え、前記探索手段
は複数の制御方法・制御パラメータを同時に模擬手段に
より試行することを特徴とするプラントの制御装置。 - 【請求項3】前記探索手段とは、複数の制御方法・制御
パラメータの組を選択,交叉,突然変異の操作により探
索する遺伝的アルゴリズムである請求項1または2に記
載のプラントの制御装置。 - 【請求項4】前記遺伝的アルゴリズムで、探索結果の最
良値を残すエリート優先戦略を行い、最悪でもそれまで
の制御実績より悪化させない請求項3に記載のプラント
の制御装置。 - 【請求項5】探索された前記制御方法・制御パラメータ
は、上位所定番目までを前記学習手段の学習内容を所定
範囲内で変更したデータで試行し、その結果により実行
するか否かの判定を行う請求項1,2または3に記載の
プラントの制御装置。 - 【請求項6】試行を繰り返して探索を行う探索手段にお
いて、所定回試行を繰り返すごとに試行に使用する使用
環境を所定範囲内で変化させる請求項1,2または3に
記載にプラントの制御装置。 - 【請求項7】前記探索手段における評価にはファジー評
価を行う請求項1,2または3に記載のプラントの制御
装置。 - 【請求項8】あらかじめ基本制御方法・基本制御パラメ
ータを登録した基本制御方法登録手段を備え、所定条件
で試行する制御方法・制御パラメータに加える請求項
1,2または3に記載のプラントの制御装置。 - 【請求項9】前記探索手段は、他点同時探索を行い、探
索を行う探索点の一部に最適化する制御目標とは無関係
な点を加え、探索を実行する請求項1,2または3に記
載のプラントの制御装置。 - 【請求項10】前記最適化する制御目標とは無関係な点
を加える手段は、最適化する制御目標以外の複数の評価
指標によっても評価し、最適化する制御目標以外の他の
点の良いものを探索点に加えることである請求項9に記
載のプラントの制御装置。 - 【請求項11】前記最適化する制御目標とは無関係な点
を加える手段は、乱数により、新たに発生された制御方
法・制御パラメータを加えることである請求項9に記載
のプラントの制御装置。 - 【請求項12】前記模擬手段は、プラントの機能を模擬
したシミュレータである請求項1,2または3に記載の
プラントの制御装置。 - 【請求項13】前記模擬手段は、ファジーモデルで構成
した請求項1,2または3に記載のプラントの制御装
置。 - 【請求項14】前記模擬手段はニューラルネットワーク
で構成した請求項1,2または3に記載のプラントの制
御装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7185260A JPH0934505A (ja) | 1995-07-21 | 1995-07-21 | プラントの制御装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7185260A JPH0934505A (ja) | 1995-07-21 | 1995-07-21 | プラントの制御装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0934505A true JPH0934505A (ja) | 1997-02-07 |
Family
ID=16167716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7185260A Pending JPH0934505A (ja) | 1995-07-21 | 1995-07-21 | プラントの制御装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0934505A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005062171A (ja) * | 2003-07-31 | 2005-03-10 | Fuji Electric Holdings Co Ltd | ネットワークにおける計測値の精査装置 |
KR20210132137A (ko) | 2019-04-24 | 2021-11-03 | 미츠비시 파워 가부시키가이샤 | 플랜트의 운전 조건 결정 장치, 플랜트의 제어 시스템, 운전 조건 결정 방법 및 프로그램 |
-
1995
- 1995-07-21 JP JP7185260A patent/JPH0934505A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005062171A (ja) * | 2003-07-31 | 2005-03-10 | Fuji Electric Holdings Co Ltd | ネットワークにおける計測値の精査装置 |
KR20210132137A (ko) | 2019-04-24 | 2021-11-03 | 미츠비시 파워 가부시키가이샤 | 플랜트의 운전 조건 결정 장치, 플랜트의 제어 시스템, 운전 조건 결정 방법 및 프로그램 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110515303B (zh) | 一种基于ddqn的自适应动态路径规划方法 | |
CN110569443B (zh) | 一种基于强化学习的自适应学习路径规划系统 | |
EP3992857A1 (en) | Method and device for generating neural network model, and computer-readable storage medium | |
Stanley et al. | Efficient reinforcement learning through evolving neural network topologies | |
Tesauro | Extending Q-learning to general adaptive multi-agent systems | |
CN106850289B (zh) | 结合高斯过程与强化学习的服务组合方法 | |
Atkeson et al. | Random sampling of states in dynamic programming | |
CN115983130A (zh) | 一种基于改进粒子群优化算法的全局最优解搜索方法 | |
CN111898770B (zh) | 一种多智能体强化学习方法、电子设备及存储介质 | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
CN112613608A (zh) | 一种强化学习方法及相关装置 | |
Ribeiro | A tutorial on reinforcement learning techniques | |
CN116933948A (zh) | 基于改进海鸥算法与反向传播神经网络的预测方法和系统 | |
CN115981336A (zh) | 工业机器人轨迹规划中的耦合插值函数选择方法 | |
Fakhari et al. | Quantum inspired reinforcement learning in changing environment | |
CN111861648A (zh) | 基于模拟训练的价格谈判策略模型学习方法 | |
JPH0934505A (ja) | プラントの制御装置 | |
CN116360437A (zh) | 智能机器人路径规划方法、装置、设备及存储介质 | |
CN116578080A (zh) | 一种基于深度强化学习的局部路径规划方法 | |
Butans | Addressing real-time control problems in complex environments using dynamic multi-objective evolutionary approaches | |
Niedzwiedz et al. | A consolidated actor-critic model with function approximation for high-dimensional POMDPs | |
Zhong | Comparison of Q-learning and SARSA Reinforcement Learning Models on Cliff Walking Problem | |
CN113485119B (zh) | 一种改进群机器人进化能力的异质同质群体协同进化方法 | |
Kapoutsis et al. | ACRE: Actor-Critic with Reward-Preserving Exploration | |
Schut et al. | Is situated evolution an alternative for classical evolution? |