JP4974330B2 - Control device - Google Patents
Control device Download PDFInfo
- Publication number
- JP4974330B2 JP4974330B2 JP2006053671A JP2006053671A JP4974330B2 JP 4974330 B2 JP4974330 B2 JP 4974330B2 JP 2006053671 A JP2006053671 A JP 2006053671A JP 2006053671 A JP2006053671 A JP 2006053671A JP 4974330 B2 JP4974330 B2 JP 4974330B2
- Authority
- JP
- Japan
- Prior art keywords
- evaluation value
- signal
- model
- value
- operation signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Feedback Control In General (AREA)
Description
本発明は、強化学習制御技術に係り、特に、学習初期段階でも安全に制御対象を運転操作することのできる強化学習制御技術に関する。 The present invention relates to a reinforcement learning control technique, and more particularly to a reinforcement learning control technique that can safely operate a control target even in an initial learning stage.
近年、教師なし学習の分野で、強化学習と呼ばれる手法が盛んに研究されている。強化学習とは、制御対象などの環境との試行錯誤的な相互作用を通じて、環境から得られる計測信号が望ましいものとなるように、環境への操作信号の生成方法を学習する学習制御の枠組みとして知られている。 In recent years, a technique called reinforcement learning has been actively studied in the field of unsupervised learning. Reinforcement learning is a learning control framework that learns how to generate operation signals to the environment so that measurement signals obtained from the environment become desirable through trial and error interactions with the environment such as the control target. Are known.
強化学習では、環境から得られる計測信号に基づいて計算されるスカラー量の評価値(強化学習では、報酬と呼ばれている)を手がかりに、現状態から将来までに得られる評価値の期待値が最大または最小となるような環境への操作信号の生成方法を学習する。このような学習機能を実装する方法として、例えば、非特許文献1に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムが知られている。
In reinforcement learning, the expected value of the evaluation value obtained from the current state to the future, based on the evaluation value of the scalar quantity that is calculated based on the measurement signal obtained from the environment (called reward in reinforcement learning) Learn how to generate an operation signal for an environment where is the maximum or minimum. As methods for implementing such a learning function, for example, algorithms such as Actor-Critic, Q-learning, and real-time dynamic programming described in Non-Patent
また、上述の手法を発展させた強化学習の枠組みとして、Dyna-アーキテクチャと呼ばれる枠組みが上記文献に紹介されている。これは、制御対象を模擬するモデルを対象にどのような操作信号を生成するのが良いかを予め学習し、この学習結果を用いて制御対象に印加する操作信号を決定する方法である。また、制御対象とモデルの誤差を小さくするように、制御対象への操作信号と計測信号を用いて、モデルを調整する機能を持っている。 In addition, a framework called Dyna-architecture is introduced in the above-mentioned document as a framework for reinforcement learning, which is an extension of the above-described method. This is a method of learning in advance what kind of operation signal should be generated for a model simulating a control target, and determining an operation signal to be applied to the control target using the learning result. In addition, it has a function of adjusting the model using the operation signal and the measurement signal to the control target so as to reduce the error between the control target and the model.
また、強化学習を適用した技術として、特許文献1に述べられている技術が挙げられる。これは、モデルと学習機能を有するシステムの組である強化学習モジュールを複数備えておき、各強化学習モジュールにおけるモデルと制御対象との予測誤差が少ないものほど大きな値を取る責任信号を求め、この責任信号に比例して各強化学習モジュールから生成される制御対象への操作信号を重み付けし、制御対象に印加する操作信号を決定する技術である。
上述のDyna-アーキテクチャ、あるいは特許文献1に述べられている技術を用いて、制御対象との試行錯誤による相互作用を通した学習を実施すると、学習を進めるに従って制御対象に対して良好な操作信号の生成方法を学習できる。しかし、学習の初期段階では、いずれの手法も試行錯誤的な操作信号を制御対象に与える必要があり、その間は、制御対象を安全に運転できない可能性がある。
When learning is performed through trial-and-error interaction with the control object using the above-described Dyna-architecture or the technique described in
また、制御対象とモデルの特性が大きく異なる場合、モデルに対して有効な操作信号が、制御対象に対しても有効となるとは限らない。そのため、制御対象を良好に制御できない可能性がある。 Further, when the characteristics of the controlled object and the model are greatly different, an operation signal effective for the model is not always effective for the controlled object. Therefore, there is a possibility that the controlled object cannot be controlled well.
そこで、本発明では、学習初期段階でも制御対象を安全に運転可能な操作信号の生成方法を学習することのできる制御技術を提供する。また、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号を生成することのできる制御技術を提供する。 Therefore, the present invention provides a control technique capable of learning a method for generating an operation signal that can safely drive a control target even in an initial learning stage. Further, the present invention provides a control technique that can generate an operation signal only in a region where the characteristics are close without generating an operation signal in a region where the characteristics of the controlled object and the model are different.
本発明は上記課題を解決するため、次のような手段を採用した。 In order to solve the above problems, the present invention employs the following means.
制御対象および制御対象の特性を模擬するモデルのそれぞれに印加する操作信号を生成し、前記制御対象および前記モデルのそれぞれへ前記操作信号を印加した結果得られる計測信号に基づいて算出される評価値信号を受信し、現状態から将来状態までに得られる前記制御対象に基づく前記評価値信号の総和の期待値が最大となるように前記操作信号の生成方法を学習する機能を備える制御装置において、前記モデルからの計測信号が所望の値に近いほど大きくなる第1の評価値を求める第1の評価値計算部と、前記モデルと制御対象の特性の相違に基づいて求める値であって、同一操作入力に対する制御対象出力とモデル出力との、モデル構築時に判明している誤差特性が保存されたモデル誤差特性データベースを参照して算出する値と、操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存された評価値データベースを参照して算出する値と、操作信号に対する計測信号の関係が保存されたプロセス値データベースを参照して算出する値とを含み、モデル化誤差が大きいほど小さくなる第2の評価値を計算する第2の評価値計算部とを備え、前記第1の評価値と前記第2の評価値とを加算して前記評価値信号を算出し、学習の初期段階における操作信号の安全性を向上させた。 An evaluation value calculated based on a measurement signal obtained as a result of generating an operation signal to be applied to each of the controlled object and a model simulating the characteristics of the controlled object and applying the operating signal to each of the controlled object and the model In a control device having a function of receiving a signal and learning a generation method of the operation signal so that an expected value of a sum of the evaluation value signals based on the control target obtained from a current state to a future state is maximized, A first evaluation value calculation unit that obtains a first evaluation value that increases as a measurement signal from the model approaches a desired value, and a value that is obtained based on a difference in characteristics between the model and a control target, and is the same the controlled object output and the model output with respect to the operation input, and a value error characteristics are found during model building are calculated by referring to the model error characteristic database stored, And values calculated by referring to the evaluation value database relation between the evaluation value signal calculated based on the work signal and resulting measuring signal the operation signal applied to the control object is stored, the measurement signal to the operation signal relationship comprises the value be calculated by reference to the stored process value database, and a second evaluation value calculation unit for calculating a second evaluation value as the modeling error is large becomes small, the first The evaluation value signal and the second evaluation value are added to calculate the evaluation value signal, thereby improving the safety of the operation signal in the initial stage of learning.
本発明は、以上の構成を備えるため、モデル誤差が小さい領域での操作信号の生成方法を学習することができる。このため学習初期段階においても制御対象を安全に運転することができる。 Since the present invention has the above configuration, it is possible to learn a method for generating an operation signal in a region where the model error is small. For this reason, the controlled object can be safely operated even in the initial learning stage.
以下、最良の実施形態を添付図面を参照しながら説明する。図1は、本実施形態に係る制御装置200を制御対象100に適用した例について説明する図である。
Hereinafter, the best embodiment will be described with reference to the accompanying drawings. FIG. 1 is a diagram illustrating an example in which a
制御装置200は、学習部300を備える。学習部300は、制御対象100に印加する操作信号201を生成する。また、制御対象100からの計測信号202および計測信号202を入力とした実評価値計算部500の出力信号である実評価値信号203を受信する。なお、学習部300は、現状態から将来までの実評価値信号203の期待値の総和が最大(または最小)となるような操作信号201の生成方法を学習する機能を備えている。
The
実評価値計算部500は、例えば、計測信号202が所望の値に近い程、大きな値となる実評価値信号203を出力する機能を有している。例えば、計測信号202が所望の値と一致する場合には、実評価値信号203を”1”を出力し、一致しない場合には”0”を出力する。なお、計測信号202と所望の値との偏差に反比例するような実評価値信号203を出力してもよい。
The actual evaluation
学習部300が実装する機能として、強化学習を挙げることができる。強化学習では、学習の初期段階においては試行錯誤的に操作信号201を生成する。このため実評価値信号203は小さい値となる可能性が高い。その後、試行錯誤の経験を積み、学習を進めるに従って、実評価値信号203が大きくなるような操作信号201の生成方法を学習する。このような学習アルゴリズムとして、例えば、前記非特許文献1に述べられているActor-Critic、Q学習、実時間Dynamic Programmingなどのアルゴリズムを用いることができる。この文献に紹介されているDyna-アーキテクチャと呼ばれる枠組みでは、制御対象を模擬するモデル400を対象に操作信号の生成方法を学習し、この学習結果を用いて操作信号201を生成する。
Reinforcement learning can be given as a function implemented by the
学習部300は、モデル400に対する操作信号204を生成し、モデル400からの計測信号205と評価値信号208を受信する機能を備える。評価値信号208は、モデル400からの計測信号205に基づいて第1の評価値計算部600で計算される第1の評価値信号206と、第2の評価値計算部700で計算される第2の評価値信号207を加算して計算する。
The
第1の評価値計算部600は、例えば、モデルからの計測信号205が所望の値に近い程、大きな値の第1の評価値信号206を出力する機能を有しており、これは実評価値計算部500と同様である。
For example, the first evaluation
第2の評価値計算部700は、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照しながら第2の評価値信号207を計算する。第2の評価値計算部700は、制御対象100とモデル400の特性が近いほど大きな値となる第2の評価値信号207を出力する。
The second evaluation
なお、図1に示す例では、学習部300、モデル400、実評価値計算部500、第1の評価値計算部600、第2の評価値計算部700、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を制御装置200の内部に配置しているが、これらの機能の一部を制御装置の外部に配置することもできる。
In the example shown in FIG. 1, the
図2は、第2の評価値信号の生成方法を説明する図である。第2の評価値信号207(R)は、前記モデルの誤差、すなわち事前評価モデル誤差のバイアスE1、事前評価モデル誤差の分散σ1、評価値予測誤差E2、モデル誤差のバイアスE3で構成される4次元の誤差評価ベクトルX、および4次元の重みベクトルWを用い、式1ないし式3を用いて計算する。ここで、前記重みベクトルW(w1,w2,w3,w4)は、設計者が予め設定する。
なお、前記事前評価モデル誤差のバイアスE1、事前評価モデル誤差の分散σ1は、モデル誤差特性データベース800を参照して求める。また、評価値予測誤差は、評価値データベース900、計測値誤差のバイアスはプロセス値データベース1000を参照して求める。
The prior evaluation model error bias E1 and the prior evaluation model error variance σ1 are obtained with reference to the model
モデル誤差特性データベース800には、モデル構築時に判明している、同一操作入力に対する制御対象100出力とモデル400出力の誤差特性が保存されている。すなわちある範囲の操作入力に対して精度のよいモデルを構築し、前記操作範囲を逸脱する操作入力に対するモデル誤差に関する知見、例えば、事前のモデル検証で判明した操作入力に対するモデル誤差のバイアスや分散が保存されている。
The model
また、経時変化により、制御対象100とモデル400の特性が相違してくる場合がある。このような経時変化に伴うモデル誤差に関する事前の知見も、モデル誤差特性データベース800に保存しておくことができる。
In addition, the characteristics of the controlled
第2の評価値計算部700は、モデル誤差が大きいほど、小さくなるような第2の評価値信号207を出力する。すなわち、重み係数を負の値に設定することにより、このような出力を生成することができる。
The second evaluation
評価値データベース900には、操作信号201に対する実評価値信号203、および操作信号204に対する第1の評価値信号206の関係が保存されている。制御対象100とモデル400の特性に誤差がある場合、同一の操作信号を与えても計測信号の値が異なる。このため前記評価値信号203と第1の評価値信号206とには誤差が生ずる。このため、第2の評価値計算部700では、評価値データベース900を参照して、モデル誤差に起因する評価値の予測誤差を計算する。
The
この予測誤差は、操作信号201と操作信号204が同一である場合において、実評価値信号203の予測値から、第1の評価値信号206を減算した値であり、実評価値信号203の予測値の方が第1の評価値信号206よりも大きい場合には正の値、逆の場合には負の値となる。重み係数は正の値に設定する。
This prediction error is a value obtained by subtracting the first
第1の評価値計算部600で計算された第1の評価値信号206より、実評価値計算部500で計算された評価値信号203の方が大きいということは、モデル400に対して有効であると学習した操作信号を制御対象100に印加した場合、予想していたよりも優れた結果が得られたことを意味している。このような現象は、制御対象100とモデル400誤差の特性に違いがあることによるが、このような操作方法を学習することは有益である。
The fact that the
このように、評価値データベース900を参照して得た評価信号を第2の評価信号207の要素として加えることにより、以上のような操作方法を学習部300で学習させることができる。
In this way, by adding an evaluation signal obtained by referring to the
プロセス値データベース1000には、操作信号201に対する計測信号202の関係、および操作信号204に対する計測信号205の関係が保存されている。重み係数を負の値に設定することにより、事前評価モデル誤差と同様に、モデル誤差が大きいほど第2の評価値信号207は小さな値となる。
The
図3は、第2の評価値計算部700の処理を説明する図である。第2の評価計算部700は、モデル誤差バイアス計算処理710、モデル誤差分散計算処理720、評価値予測誤差計算処理730、計測値誤差計算処理740、第2の評価値計算処理の各ステップを備える。なお、モデル誤差バイアス計算処理710、モデル誤差分散計算処理720、評価値予測誤差計算処理730、計測値誤差計算処理740の各処理の処理順序は、任意に変更することができる。
FIG. 3 is a diagram for explaining the processing of the second evaluation
なお、本実施の形態では、第2の評価値計算部700において第2の評価値信号207を計算する際に、事前評価モデル誤差のバイアスおよび分散、評価値予測誤差、モデル誤差のバイアスの4項目を評価の対象としているが、これらすべてを対象とする必要は必ずしもない。また、上述した例の外に、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる様々統計量(例えば実評価値予測値の分散)などを評価の対象に追加することも可能である。また、図1には図示していないが、画像表示手段を制御装置200内、あるいは外部に設置し、操作員が画像表示手段を介して制御装置200の動作を確認できるようにしてもよい。
In the present embodiment, when the second
図7は、学習部300が、モデル400を対象に制御対象100の操作方法を学習する方法について説明する図である。図7では学習方法としてQ-Learningを使用した場合を例に説明する。
FIG. 7 is a diagram illustrating a method in which the
Q-Learningでは、状態sにおいて行動aを実行することの価値を表現する関数を使用する。この価値関数をQ(s,a)と表記する。状態sは、操作信号204と出力205によって定義される。
まず、ステップ310において、価値関数Q(s,a)を任意に初期化する。次に、ステップ320において、モデル400の操作信号204の初期値を決定し、そのときのモデル400の出力205を計算する。
Q-Learning uses a function that expresses the value of executing action a in state s. This value function is expressed as Q (s, a). The state s is defined by the
First, in step 310, the value function Q (s, a) is arbitrarily initialized. Next, in step 320, the initial value of the
ステップ330では、価値関数Q(s,a)を用いて状態sにおける行動aを決定する。ここでは、非特許文献1に記載されているε−Greedy方策などを用いて、行動を決定する。この行動によって、操作信号204が更新される。次に、ステップ340において、更新された操作信号204に対するモデル出力205を計算する。これにより、状態がsからs’に遷移する。
In step 330, the action a in the state s is determined using the value function Q (s, a). Here, the action is determined using an ε-Greedy policy described in
次に、ステップ350では、第1の評価値計算部600と、第2の評価値計算部700にて評価値を計算し、これらを加算して評価値信号208を算出する。
Next, in step 350, the first evaluation
ステップ360では、式6を用いて価値関数Q(s,a)を更新する。
ここで、rは評価値信号208の値、α及びγは設計パラメータであり、制御対象100の運転員が設定する値である。
Here, r is the value of the
終了判定370では、モデル出力205が予め定められた条件を満足した場合にはYESとなり、ステップ320に戻る。それ以外の場合はステップ330に戻る。
In the end determination 370, if the
なお、図1には図示していないが、画像表示手段を制御装置200の内部あるいは制御装置200の外部に設置することにより、操作員は、この画像表示手段を介して制御装置200の動作を確認することができる。
Although not shown in FIG. 1, by installing the image display means inside the
図4は、前記画像表示手段に表示する画面を説明する図である。表示する画像250は、図2に示すように、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる様々なグラフとすることができる。
FIG. 4 is a diagram for explaining a screen displayed on the image display means. As shown in FIG. 2, the
画像260は、モデル誤差特性データベース800、評価値データベース900、プロセス値データベース1000を参照して得られる誤差評価ベクトルの値、操作員が設定する重みベクトルの値、および第2の評価値とすることができる。操作員は、画像250、および画像260を確認しながら、重みベクトルの値を設定、調整することができる。
The
次に、本実施形態による効果について説明する。本実施形態では、第2の評価値計算部700で計算された第2の評価値信号207を第1の評価信号206に加算して学習部300に供給している。このとき、第2の評価値信号207は、モデル誤差が小さい程、大きな値となる。このため、学習部300は、モデル400を対象にモデル誤差が小さい領域で操作信号を生成するように学習する。
Next, the effect by this embodiment is demonstrated. In the present embodiment, the second
従来手法では、モデル誤差が大きい領域であっても、モデル400に対して有効となる操作信号204の生成方法を学習する。この場合、この生成方法で生成した操作信号を制御対象100に印加しても所望の性能が得られない可能性がある。また、本実施形態では、モデル誤差が小さい領域、あるいはモデルからの評価値信号206よりも実評価値信号203の予測値が大きくなる領域での操作信号の生成方法を学習するので、従来手法と比べて良好な性能が得られることが期待できる。また、従来手法と比べて制御対象100の安全性が向上する効果もある。
In the conventional method, a method for generating the
図5は、前記制御対象としての火力発電プラントを説明する図である。まず、火力発電プラントにおける発電の仕組みについて説明する。 FIG. 5 is a diagram illustrating a thermal power plant as the control target. First, the mechanism of power generation in a thermal power plant will be described.
ボイラ101に備え付けられているバーナー102に、燃料となる石炭と石炭搬送用の1次空気、および燃焼調整用の2次空気を供給し、石炭を燃焼させる。石炭と1次空気は配管134から、2次空気は配管141から導かれる。また、2段燃焼用のアフタエアは、アフタエアポート103を介してボイラ101に投入される。このアフタエアは、配管142から導かれる。
Coal as a fuel, primary air for transporting coal, and secondary air for combustion adjustment are supplied to a
前記石炭の燃焼により発生した高温のガスは、ボイラ101の排気経路に沿って流れ、エアーヒーター104を通過し、排ガス処理した後、煙突を介して大気に放出される。
The high-temperature gas generated by the combustion of the coal flows along the exhaust path of the
ボイラ101を循環する給水は、給水ポンプ105を介してボイラ101に導かれ、熱交換器106においてガスにより過熱され、高温高圧の蒸気となる。本実施形態では熱交換器を1つとしているが、複数の熱交換器を配置することも可能である。
The feed water circulating through the
熱交換器106を通過した高温高圧の蒸気は、タービンガバナ107を介して蒸気タービン108に導かれる。蒸気の持つエネルギーによって蒸気タービン108を駆動し、発電機109により発電する。
The high-temperature and high-pressure steam that has passed through the
次に、バーナー102から投入される1次空気および2次空気、アフタエアポート103から投入されるアフタエアの経路について説明する。
Next, the paths of primary air and secondary air introduced from the
1次空気は、ファン120を介して配管130に導かれ、途中でエアーヒーターを通過する配管132と通過しない配管131に分岐し、再び配管133にて合流し、ミル110に導かれる。エアーヒーターを通過する空気は、ガスにより加熱される。この1次空気を用いて、ミル110で生成される石炭(微粉炭)をバーナー102に搬送する。
The primary air is guided to the
2次空気およびアフタエアは、ファン121を介して配管140に導かれ、エアーヒーター104で加熱された後、2次空気用の配管141とアフタエア用の配管142とに分岐し、それぞれバーナー102とアフタエアポート103に導かれる。
The secondary air and the after air are led to the
図6は、1次空気、2次空気、およびアフタエアが通過する配管部、並びにエアーヒーター104の拡大図である。
FIG. 6 is an enlarged view of the
図6に示すように、配管にはエアダンパ150、151、152、153が配置されている。エアダンパを操作することにより、配管における空気が通過する面積を変更することでき、これにより配管を通過する空気流量を調整することが可能となる。ここでは、エアダンパ150、151、152、153の制御により、ガスに含まれるNOxを目標値以下に抑制することを目的に制御装置200を導入する場合について説明する。
As shown in FIG. 6,
2段燃焼方式は、サーマルNOxおよびフューエルNOxの低減に効果がある方式として知られており、バーナーからは理論空気量より少ない空気量を投入し、アフタエアポートから不足分の空気を投入して完全燃焼させる。これにより、急激な燃焼を抑制し、火炎温度の上昇を抑えると共に、酸素濃度を低下させることによりNOx生成を抑制することができる。 The two-stage combustion method is known as a method that is effective in reducing thermal NOx and fuel NOx, and the air amount less than the theoretical air amount is supplied from the burner and the insufficient air is supplied from the after-air port. Burn. As a result, it is possible to suppress rapid combustion, suppress an increase in flame temperature, and suppress NOx generation by lowering the oxygen concentration.
すなわち、制御装置200は、NOx低減のため、バーナーから投入する空気量とアフタエアポートから投入する空気量の比率が最適となるように、エアダンパ150、151、152、153を操作する操作信号を生成する。
That is, the
このような動作を実行させるため、図1における実評価値計算部500および第1の評価値計算部600は、式4あるいは式5を用いて実評価値信号203および第1の評価値信号206を計算する。ここで、Rは評価値信号、YNOxはNOxの計測信号、DNOxはNOxの目標値である。
なお、本実施形態では、NOx成分に着目して評価値信号を計算する構成としたが、その他のガス成分であるCOなどを加えて、複数の計測信号に基づいて評価値を計算することもできる。 In the present embodiment, the evaluation value signal is calculated by paying attention to the NOx component. However, the evaluation value may be calculated based on a plurality of measurement signals by adding other gas components such as CO. it can.
モデル400は、ボイラ101の特性を模擬したものであり、バーナーおよびエアポートから投入する石炭、空気の諸条件を設定し計算を実行することで、NOx濃度を求めることができる。また、対象とするボイラ101以外のボイラの運転実績を用いて、事前にモデル400の精度を検証した知見が、モデル誤差特性データベース800に保存されている。
The
すなわち、ボイラは、石炭の燃焼により発生した灰が熱交換器やボイラの壁に付着することにより燃焼特性が経時変化し、これがNOxの生成量にも影響を与える。このため、この灰を除去するためにスートブロワが実施される。例えば、前記モデル400として、スートブロワ実施後1時間の特性を模擬するように構築すると、それ以外の経過時間では灰付着による影響により、モデルによるNOxの計算値とボイラから計測されるNOxの値が異なることが予想される。
That is, as for the boiler, the ash generated by the combustion of coal adheres to the heat exchanger and the wall of the boiler, so that the combustion characteristics change with time , which also affects the amount of NOx produced. For this reason, a soot blower is implemented in order to remove this ash. For example, if the
しかし、このようなモデル誤差特性は、ボイラの運転実績(経時変化の特性)からその一部分については事前に分かっていることが多く、このような運転時間とモデル誤差特性に関する情報をモデル誤差特性データベース800に保存しておく。また、計測器のノイズ特性(例えば、ノイズによる計測値の分散)が事前に分かっている場合には、この特性も前評価モデル誤差特性データベース800に蓄積しておく。このように設定しておくことにより、制御対象100が火力発電プラントである場合においても、制御装置200によりのプラントの排ガスに含まれるNOxを目標値以下に抑制することができる。
However, such model error characteristics are often known in advance for a part from the actual operation of the boiler (characteristics of changes over time) , and information on such operation time and model error characteristics is stored in the model error characteristic database. Save to 800. Further, when the noise characteristics of the measuring instrument (for example, dispersion of measured values due to noise) are known in advance, these characteristics are also stored in the pre-evaluation model error
以上説明したように、本実施形態によれば、モデル誤差が小さい領域での操作信号の生成方法を学習するので、従来手法と比べて良好な制御を実施することができる。また、従来手法と比べて制御対象の安全性が向上する。すなわち、前述のDyna-アーキテクチャあるいは特許文献1に述べられている従来手法によれば、モデル誤差が大きい領域において、モデルに対して有効となる操作信号の生成方法を学習する。このため、この学習結果を制御対象に印加しても有効とならない可能性がある。これに対して、本実施形態によれば、前記第1の評価値信号に第2の評価値信号を加算するので、制御対象とモデルの特性が異なる領域で操作信号を生成せずに、特性が近い領域においてのみ操作信号の生成方法を学習する。このため、運転開始直後における制御対象の安全性が向上する。
As described above, according to the present embodiment, since a method for generating an operation signal in a region where a model error is small is learned, it is possible to perform better control than in the conventional method. In addition, the safety of the controlled object is improved as compared with the conventional method. That is, according to the above-described Dyna-architecture or the conventional method described in
100 制御対象
200 制御装置
300 学習部
400 モデル
500 実評価値計算部
600 第1の評価値計算部
700 第2の評価値計算部
800 モデル誤差特性データベース
900 評価値データベース
1000 プロセス値データベース
DESCRIPTION OF
Claims (1)
現状態から将来状態までに得られる前記制御対象に基づく前記評価値信号の総和の期待値が最大となるように前記操作信号の生成方法を学習する機能を備える制御装置において、
前記モデルからの計測信号が所望の値に近いほど大きくなる第1の評価値を求める第1の評価値計算部と、
前記モデルと制御対象の特性の相違に基づいて求める値であって、
同一操作入力に対する制御対象出力とモデル出力との、モデル構築時に判明している誤差特性が保存されたモデル誤差特性データベースを参照して算出する値と、
操作信号と該操作信号を制御対象に印加した結果得られる計測信号に基づいて算出された評価値信号との関係が保存された評価値データベースを参照して算出する値と、操作信号に対する計測信号の関係が保存されたプロセス値データベースを参照して算出する値とを含み、モデル化誤差が大きいほど小さくなる第2の評価値を計算する第2の評価値計算部とを備え、
前記第1の評価値と前記第2の評価値とを加算して前記評価値信号を算出し、学習の初期段階における操作信号の安全性を向上させたことを特徴とする制御装置。 An evaluation value calculated based on a measurement signal obtained as a result of generating an operation signal to be applied to each of the controlled object and a model simulating the characteristics of the controlled object and applying the operating signal to each of the controlled object and the model Receive the signal,
In a control device having a function of learning a method for generating the operation signal so that an expected value of a sum of the evaluation value signals based on the control target obtained from a current state to a future state is maximized,
A first evaluation value calculation unit for obtaining a first evaluation value that increases as the measurement signal from the model approaches a desired value;
The value obtained based on the difference between the model and the characteristics of the controlled object,
A value calculated by referring to a model error characteristic database in which an error characteristic that is known at the time of model construction is stored for a control target output and a model output for the same operation input ,
A value calculated by referring to an evaluation value database in which a relationship between an operation signal and an evaluation value signal calculated based on a measurement signal obtained as a result of applying the operation signal to a control target is stored, and a measurement signal for the operation signal A second evaluation value calculation unit that calculates a second evaluation value that decreases as the modeling error increases.
A control device characterized in that the evaluation value signal is calculated by adding the first evaluation value and the second evaluation value, thereby improving the safety of the operation signal in the initial stage of learning.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053671A JP4974330B2 (en) | 2006-02-28 | 2006-02-28 | Control device |
CN2008101844505A CN101477332B (en) | 2006-02-28 | 2007-01-18 | Control apparatus and control method of factory |
US11/624,416 US8095479B2 (en) | 2006-02-28 | 2007-01-18 | Plant control apparatus and method having functions of determining appropriate learning constraint conditions |
CNB2007100042324A CN100483275C (en) | 2006-02-28 | 2007-01-18 | Control apparatus and control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006053671A JP4974330B2 (en) | 2006-02-28 | 2006-02-28 | Control device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233634A JP2007233634A (en) | 2007-09-13 |
JP4974330B2 true JP4974330B2 (en) | 2012-07-11 |
Family
ID=38554175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006053671A Expired - Fee Related JP4974330B2 (en) | 2006-02-28 | 2006-02-28 | Control device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4974330B2 (en) |
CN (2) | CN100483275C (en) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135653B2 (en) | 2007-11-20 | 2012-03-13 | Hitachi, Ltd. | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal |
JP4627553B2 (en) | 2008-03-28 | 2011-02-09 | 株式会社日立製作所 | Plant control device and thermal power plant control device |
JP5918663B2 (en) * | 2012-09-10 | 2016-05-18 | 株式会社日立製作所 | Thermal power plant control device and control method |
JP2014212479A (en) * | 2013-04-19 | 2014-11-13 | ソニー株式会社 | Control device, control method, and computer program |
JP6457369B2 (en) | 2015-09-30 | 2019-01-23 | ファナック株式会社 | Machine learning device and motor control device having function of automatically adjusting parameters |
JP6281884B1 (en) * | 2016-10-28 | 2018-02-21 | 株式会社レゾネスト | Machine control device, machine control program, and machine control method |
US20190019096A1 (en) * | 2017-01-27 | 2019-01-17 | Mitsubishi Hitachi Power Systems, Ltd. | Estimator, estimation method, program and storage medium where program stored for model parameter estimation and model parameter estimation system |
JP6715800B2 (en) * | 2017-06-09 | 2020-07-01 | 出光興産株式会社 | Fuel reduction rate output system, fuel reduction rate output method, and fuel reduction rate output program |
JP6836540B2 (en) * | 2018-04-12 | 2021-03-03 | ファナック株式会社 | Information processing device and information processing method |
JP6952018B2 (en) * | 2018-10-03 | 2021-10-20 | 株式会社日立製作所 | Control device and control method |
CN113015981A (en) * | 2018-11-16 | 2021-06-22 | 华为技术有限公司 | System and method for efficient, continuous and safe learning using first principles and constraints |
JP7374590B2 (en) * | 2019-02-12 | 2023-11-07 | 株式会社日立製作所 | KPI improvement support system and KPI improvement support method |
JP7216566B2 (en) * | 2019-02-19 | 2023-02-01 | 日立造船株式会社 | Information processing device, information processing method, and information processing program |
JP7563229B2 (en) | 2021-02-25 | 2024-10-08 | 富士通株式会社 | Control program, device, and method |
CN113080499A (en) * | 2021-02-26 | 2021-07-09 | 红云红河烟草(集团)有限责任公司 | Method for controlling temperature of loose moisture regaining hot air by Q-Learning algorithm based on strategy |
JP2023002081A (en) * | 2021-06-22 | 2023-01-10 | オムロン株式会社 | Predicting system, information processing device and information processing program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266404A (en) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | Non-linear object control system and learning system for nertal network for constructing its system |
JP2907672B2 (en) * | 1993-03-12 | 1999-06-21 | 株式会社日立製作所 | Process adaptive control method and process control system |
JPH08276354A (en) * | 1995-04-06 | 1996-10-22 | Nissan Motor Co Ltd | Cam grinding device |
JP3350841B2 (en) * | 1995-07-24 | 2002-11-25 | オムロン株式会社 | Plant control device, manipulated variable determining device, plant control method, and manipulated variable determining method |
JPH1074188A (en) * | 1996-05-23 | 1998-03-17 | Hitachi Ltd | Data learning device and plant controller |
JP3541166B2 (en) * | 2000-07-19 | 2004-07-07 | 川崎重工業株式会社 | Pipe joining method |
JP2004038428A (en) * | 2002-07-02 | 2004-02-05 | Yamatake Corp | Method for generating model to be controlled, method for adjusting control parameter, program for generating the model, and program for adjusting the parameter |
-
2006
- 2006-02-28 JP JP2006053671A patent/JP4974330B2/en not_active Expired - Fee Related
-
2007
- 2007-01-18 CN CNB2007100042324A patent/CN100483275C/en not_active Expired - Fee Related
- 2007-01-18 CN CN2008101844505A patent/CN101477332B/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN100483275C (en) | 2009-04-29 |
CN101030074A (en) | 2007-09-05 |
CN101477332A (en) | 2009-07-08 |
JP2007233634A (en) | 2007-09-13 |
CN101477332B (en) | 2011-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4974330B2 (en) | Control device | |
US8095479B2 (en) | Plant control apparatus and method having functions of determining appropriate learning constraint conditions | |
JP4627553B2 (en) | Plant control device and thermal power plant control device | |
US8135653B2 (en) | Power plant control device which uses a model, a learning signal, a correction signal, and a manipulation signal | |
US8185216B2 (en) | Plant controlling device and method, thermal power plant, and its control method | |
JP4876057B2 (en) | Plant control device and thermal power plant control device | |
JP4423617B2 (en) | Plant control device | |
US9447963B2 (en) | Dynamic tuning of dynamic matrix control of steam temperature | |
JP4665815B2 (en) | Plant control equipment | |
EP1921280A2 (en) | Systems and methods for multi-level optimizing control systems for boilers | |
JP2008146371A (en) | Controller of boiler plant | |
CN103061891A (en) | System and method for simulating gas turbine operation | |
US9217565B2 (en) | Dynamic matrix control of steam temperature with prevention of saturated steam entry into superheater | |
US20080306890A1 (en) | Plant Control Apparatus | |
JP4741968B2 (en) | Plant control equipment | |
JP5503563B2 (en) | Plant control device and thermal power plant control device | |
JP5918663B2 (en) | Thermal power plant control device and control method | |
JP6906935B2 (en) | Equipment-specific stochastic controls, related control systems, computer program products, and methods for gas turbine regulation with respect to output-emission parameters. | |
Alrebei et al. | Lightweight methane-air gas turbine controller and simulator | |
JP4627509B2 (en) | Plant control apparatus and plant control method | |
JP4989421B2 (en) | Plant control device and thermal power plant control device | |
JP2009222332A (en) | Control device for plant equipped with boiler and control method for plant equipped with boiler | |
JP4333766B2 (en) | Boiler control device and control method | |
CN106884727B (en) | Probabilistic control of power output-emission parameters in gas turbine regulation | |
JP2010146068A (en) | Control device for plant, and control device of thermal power generation plant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110818 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111228 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4974330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150420 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |