JP2009110256A - プラントの制御装置および火力発電プラントの制御装置 - Google Patents

プラントの制御装置および火力発電プラントの制御装置 Download PDF

Info

Publication number
JP2009110256A
JP2009110256A JP2007281762A JP2007281762A JP2009110256A JP 2009110256 A JP2009110256 A JP 2009110256A JP 2007281762 A JP2007281762 A JP 2007281762A JP 2007281762 A JP2007281762 A JP 2007281762A JP 2009110256 A JP2009110256 A JP 2009110256A
Authority
JP
Japan
Prior art keywords
model
learning
input
output
plant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007281762A
Other languages
English (en)
Other versions
JP4989421B2 (ja
Inventor
Toru Eguchi
徹 江口
Akihiko Yamada
昭彦 山田
Takao Sekiai
孝朗 関合
Masayuki Fukai
雅之 深井
Satoru Shimizu
悟 清水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007281762A priority Critical patent/JP4989421B2/ja
Publication of JP2009110256A publication Critical patent/JP2009110256A/ja
Application granted granted Critical
Publication of JP4989421B2 publication Critical patent/JP4989421B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Feedback Control In General (AREA)

Abstract

【課題】モデル入出力数に拘らず、制御周期以内での学習を可能とするプラント制御装置を提供する。
【解決手段】プラントの挙動を模擬するモデルの入出力を分割し、複数の学習手段に分割したモデル入力の操作方法を学習させることによって学習を高速化し、制御周期以内で学習を終了できるようにした。計測信号データベース、操作信号データベース、プラントに操作信号を与えた時の計測信号の値を推定するモデル、操作信号に該当するモデル入力と計測信号に該当するモデル出力を複数のグループに分割し、各グループのモデル出力が設定した目標値を達成するように各グループのモデル入力の生成方法を学習する複数の学習手段、学習手段によって生成された各グループのモデル入力を集約しモデルへ入力する機能、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対して夫夫出力する機能を持つモデル入出力生成手段を備える。
【選択図】図1

Description

本発明は、プラントの制御装置に関するものであり、特に石炭等の化石燃料を用いて発電する火力発電プラントの制御装置に関する。
プラントの制御装置では、制御対象であるプラントから得られる計測信号を処理し、制御対象に与える操作信号を算出し、伝達する。制御装置には、プラントの計測信号がその目標値を満足するように、操作信号を計算するアルゴリズムが実装される。
プラントの制御に用いられている制御アルゴリズムとして、PI(比例・積分)制御アルゴリズムがある。PI制御では、プラントの計測信号とその目標値との偏差に比例ゲインを乗じた値に、偏差を時間積分した値を加算して、制御対象に与える操作信号を導出する。
PI制御を用いた制御アルゴリズムは、ブロック線図などで入出力関係を記述することができるため、入力と出力の因果関係が分かりやすく、多くの適用実績がある。しかし、プラント運転形態の変更や環境の変化など、事前に想定していない条件でプラントを運転する場合には、制御ロジックを変更するなどの作業が必要になる場合がある。
一方、プラントの運転形態や環境の変化に適応して、制御アルゴリズムやパラメータ値を自動的に修正する適応制御や学習アルゴリズムを用いた制御方式がある。学習アルゴリズムを用いてプラントを制御する制御装置の操作信号を導出する方法として、特許文献1には、強化学習理論を用いた制御装置に関する技術が記載されている。この方法では、制御装置に制御対象の特性を予測するモデルと、モデル出力がそのモデル出力の目標値を達成するようなモデル入力の操作方法を学習する学習部を持つ。学習部において学習したモデル入力をモデルに入力することで、モデル出力がその目標値に近づく効果が得られる。
このような学習型適応制御では、プラントからの計測信号を用いてモデルを修正し、修正したモデルを用いて再度学習を実行することで制御アルゴリズムをオンラインで修正する。したがって、学習はプラントの操作信号が変更される周期(制御周期)以内で終了することが望ましい。
一般に、学習に要する時間は取り扱うモデル入力(計測信号、操作信号)の数に依存して増加する。したがって、これらの信号の数が多い場合、学習時間を短縮して制御周期以内で学習を実行することが制御性能の向上に繋がる。
学習理論を用いた制御技術における学習の高速化に関する技術として、非特許文献1には、強化学習理論の一つである、正規化ガウス関数ネットワーク(Normalized Gaussian Function Network: NGnet)に関する技術が記載されている。NGnetでは、モデル入力空間上に配置した基底関数ノードを用いて、モデル入力の操作方法を学習する。その際、基底関数ノードを入力空間上に適応的に配置することにより学習に必要なパラメータ数を低減し、学習を高速化する。
特開2000−35956号公報 近藤、伊藤、"進化的recruitment戦略を用いた強化学習による自律移動ロボットの制御器設計"、計測自動制御学会論文集、Vol.39、No.9、p.p.857−864、2003.
特許文献1の技術を用いることによって、制御目標を達成する操作信号の生成方法を自動的に学習できる。しかし、プラントの計測信号を用いて再学習する際には、モデル入力数が大きくなると学習時間が長くなり、制御周期以内での学習が困難となる。
また非特許文献1に記載される技術を用いることによって、従来の強化学習アルゴリズムを用いる場合に比べて学習を高速化できる。しかし、本技術をプラントの制御に適用する場合、学習するモデル入力の数が多くなると、モデル入力空間に配置される基底関数ノードの数が指数的に増加する。その結果、やはり学習時間が長くなり制御周期以内での学習が困難となる。
本発明は、以上の従来技術が有する課題に鑑みてなされたものであり、その目的は、モデル入力数にかかわらず、制御周期以内での学習を可能とするプラント制御装置を提供することにある。
本発明は、プラントから取得した計測信号を用いてプラントの操作信号を計算し、該操作信号をプラントに送信するプラントの制御装置において、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約し前記モデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段とを具備したことを特徴とする。
本発明では、学習対象であるプラントの特性を模擬するモデルの入力を複数のグループに分割し、グループ毎の操作方法を複数の学習手段に学習させることで学習を高速化する。これにより、学習手段毎の学習するモデル入力の数を少なくでき、学習パラメータ数を適切な数に低減して学習を高速化することができる。
本発明の制御装置において、学習手段には、モデル入力を複数のグループに分割したものを入力として与えた時に、該学習手段が具備する基底関数ノードの演算処理結果として得られる正規化活性度、該正規化活性度の加重和を非線形処理した結果得られる情報共有ノード出力値、及びモデル入力の生成方法の導出に用いる結合重みのうち、少なくとも一つの情報を該学習手段間で相互に利用することで、モデル入力の生成方法の導出及び学習を実行する機能を備えることが望ましい。
分割したモデル入力に対して各学習手段が独立に操作方法を学習する場合、他のモデル入力情報を利用できないため、学習が局所解に陥ることが考えられるが、他のモデル入力に関する情報として、各学習手段が求めた正規化活性度情報を相互に利用することにより、局所解を回避しモデル全体の特性を把握した学習が可能となる。
また学習手段では、プラントの操作方法を学習する際に、学習手段を一つずつ交互に動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能と、学習手段を全て動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能のうち、いずれか一つを用いることが望ましい。
本発明の制御装置には、計測信号データベースと操作信号データベースに保存される情報を画面に表示する機能と、学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を画面表示機能を通じて設定する機能と、過去のプラント運転結果と制御結果の履歴を画面に表示する機能のうちの少なくとも一つを備えることが望ましい。
学習の条件設定を、画像表示装置を介して入力する機能を備えることにより、プラントの運転員はプラントの構造と操作端の位置関係、及び各操作端の特性を確認しながら、モデル入力・出力の分割を容易に実行できる。さらに、操作実行時に学習結果から得られる制御効果を、過去の制御履歴を含めて画像表示装置に表示する機能を備えることにより、プラントの運転員が学習による制御効果を確認し、操作実行の可否を決定できる。
学習手段には、以下の(1)ないし(4)のいずれかに記載の機能を具備させることが望ましい。
(1)分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。
(2)分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。
(3)分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、該部分正規化活性度を全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。
(4)分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、各学習手段に共通に設けられた情報共有ノードにおいて、該部分正規化活性度、ならびに他の学習手段が同様に求めた部分正規化活性度に対し、結合重みを用いて重み付け非線形処理を施すことにより情報共有ノード出力値を導出する機能と、該情報共有ノード出力値に対し、前記結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該部分正規化活性度ならびに該情報共有ノード出力値に比例する値を修正値として、前記結合重みの値を学習する機能とを備える。
また本発明は、火力発電プラントの計測信号を用いて、前記火力発電プラントに与える操作信号を導出する操作信号生成部を備えた火力発電プラントの制御装置において、
前記計測信号に火力発電プラントから排出されるガスに含まれる窒素酸化物濃度、及び一酸化炭素濃度の少なくとも1つを含み、
前記操作信号に空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量の少なくとも1つを決定する信号を含み、
前記制御装置が、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
火力発電プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約しモデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段と、
前記モデル入力を個別に操作した場合に各モデル入力がモデル出力に与える特性に関する情報、ならびにモデル入力のグループへの分割パターンがモデル出力に与える特性に関する情報が保存される知識データベースと、
を具備することを特徴とする。
この火力発電プラント制御装置において、すでに記載した機能を有する学習手段と、モデル入力の生成方法の導出及び学習方式を備えることができる。
また、計測信号データベースと操作信号データベース、ならびに知識データベースに保存される情報を画面に表示する機能と、学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を、画面表示装置に表示される火力発電プラントの図面情報と対応させて設定する機能と、過去のプラントの運転結果と制御結果の履歴を画面に表示する機能のうち少なくとも一つを備えることができる。
本発明を火力発電プラントへ適用した一実施例では、火力発電プラントにおけるモデル入力に該当する操作端と、モデル出力に該当する一酸化炭素(CO)濃度、及び窒素酸化物(NOx)濃度の因果関係を、過去の運転データに基づいて規定した情報が保存される知識データベースが備えられる。
次に、本発明の実施例であるプラントの制御装置について、図面を参照して説明する。
図1は、本発明のプラントの制御装置における、第1の実施例を示すシステム図である。図1において、プラント100は制御装置200によって制御されるように構成される。
制御対象のプラント100を制御する制御装置200には演算装置として、数値解析手段300、計測信号変換手段400、モデル500、モデル入出力生成手段600、複数個の学習手段700、及び操作信号生成手段800が夫々設けられている。
また、制御装置200には、データベースとして計測信号データベース210、モデル構築データベース220、学習情報データベース230、制御ロジックデータベース240、操作信号データベース250、及び共有情報データベース260が夫々設けられている。
また、制御装置200には、外部とのインターフェイスとして、外部入力インターフェイス201、及び外部出力インターフェイス202が設けられている。
制御装置200では、外部入力インターフェイス201を介して、プラント100から計測信号1を制御装置200に取り込む。また、外部出力インターフェイス202を介して、制御対象のプラント100に操作信号18を送るようになっている。
制御装置200では、プラント100の計測信号1を、外部入力インターフェイス201を介して取り込み、取り込んだ計測信号2は計測信号データベース210に保存される。また、操作信号生成手段800にて生成させる操作信号17は、外部出力インターフェイス202に伝送されると共に、操作信号データベース250に保存される。
操作信号生成手段800では、制御ロジックデータベース240に保存される制御ロジックデータ16、及び学習情報データベース230より出力された学習データ15を用いて、計測信号1が運転目標値を達成するように操作信号17を生成する。この制御ロジックデータベース240には、制御ロジックデータ16を算出する制御回路、及び制御パラメータが保存される。この制御ロジックデータ16を算出する制御回路には、従来技術として公知のPI制御を用いることができる。
学習情報データベース230に保存される学習データは、学習手段700において生成される。学習手段700は、モデル入出力生成手段600を介してモデル500と接続される。
モデル500は、プラント100の制御特性を模擬する機能を持つものである。すなわち、制御指令となる操作信号18をプラント100に与え、その操作結果の計測信号1を得るのと同等のことを模擬演算するものである。この模擬演算のために、モデル500を動作させるモデル入力7をモデル入出力生成手段600から受け、モデル500にてプラント100の制御による特性変化を模擬演算して、その模擬演算結果のモデル出力8を得るように構成される。ここで、モデル出力8は、プラント100の計測信号1の予測値となる。
数値解析手段300では、プラント100を模擬する物理モデルを用いて、プラント100の特性を予測する。数値解析手段300で実行して得られた数値解析データ4は、モデル構築データベース220に保存される。
計測信号変換手段400では、計測信号データベース210に保存される計測データ3をモデル構築データ5に変換し、これがモデル構築データベース220へ保存される。また、計測データ3に含まれる直前の操作の結果得られた操作条件は、現在のモデル入力条件19として学習情報データベース230に保存される。
モデル500では、モデル構築データベース220に保存されるモデル構築データ6を用いて、ニューラルネットワークなどの統計的手法を用いて、モデル入力7に対応するモデル出力8を計算する。
モデル入出力生成手段600では、学習手段700の数及び各学習手段が学習するモデル入力の種類や、学習に用いる制御指標の種類に関する情報を含む学習情報データ13を用いて、各学習手段700が学習した操作方法に基づく部分モデル入力9を集約し、モデル入力7としてモデル500に入力する。また、同様に学習情報データ13に基づいてモデル出力8を各学習手段が学習の指標とする部分モデル出力10に分類し、学習手段700へ出力する。
学習手段700は複数用意されており、学習情報データベース230に保存される学習の拘束条件、モデル入出力の分割設定、及びモデル出力目標値等を含む学習情報データ13を用いて部分モデル入力9の操作方法を学習する。また、各学習手段が操作方法を学習する際に用いる、モデル入力情報、ならびに学習手段の内部演算処理情報等を含む共有情報12は、共有情報データベース260に保存される。
学習手段700は、学習時に必要な共有情報11を共有情報データベースを介して入力し、モデル入力の操作方法を学習する。このように、学習手段間で情報を相互に利用するメカニズムを具備することにより、学習時に他の学習手段が学習する部分モデル入力に関する情報が得られ、モデル全体の特性を考慮して操作方法を学習できる。
尚、学習手段700の詳細な機能については、後述する。また、学習手段700の学習結果である学習データ14は、学習情報データベース230に保存される。学習データ14には、操作前後のモデル入力、及びその操作の結果得られるモデル出力に関する情報が含まれている。学習情報データベース230では、現在のモデル入力情報に対応する学習データ15が選択され、操作信号生成手段800に入力される。
プラント100の運転員は、キーボード901とマウス902で構成される外部入力装置900、制御装置200とデータを送受信できるデータ送受信処理部912を備えた保守ツール910、及び画像表示装置920を用いることにより、制御装置200に備えられている種種のデータベースに保存される情報にアクセスすることができる。また、前記した夫々の装置を用いることにより、数値解析手段300、及び学習手段700で用いる設定パラメータを入力することができる。
保守ツール910は、外部入力インターフェイス911、データ送受信処理部912、及び外部出力インターフェイス913で構成される。
外部入力装置900で生成した保守ツール入力信号91は、外部入力インターフェイス911を介して保守ツール910に取り込まれる。保守ツール910のデータ送受信処理部912では、保守ツール入力信号92の情報に従って、制御装置200から取得した入出力データ情報90を取得する。また、データ送受信処理部912では、保守ツール入力信号92の情報に従って、数値解析手段300、及び学習手段700で用いるパラメータ設定値を含む入出力データ情報90を出力する。
データ送受信処理部910では、入出力データ情報90を処理した結果得られるデータ処理装置出力信号93を、外部出力インターフェイス913に送信する。データ処理装置出力信号94は、画像表示装置920に表示される。
尚、上記の本発明の制御装置200では、計測信号データベース210、モデル構築用データベース220、学習情報データベース230、制御ロジックデータベース240、操作信号データベース250、及び共有情報データベース260が制御装置200の内部に配置されるが、これらの全て、あるいは一部を制御装置200の外部に配置することもできる。
また、数値解析手段300が制御装置200の内部に配置されるが、これを制御装置200の外部に配置することもできる。
例えば、数値解析手段300、及びモデル構築データベース220を制御装置200の外部に配置し、数値解析データ4をインターネット経由で制御装置200に送信するようにしてもよい。
図2に、以上の説明による本発明の制御装置200の動作を示すフローチャート図を示す。図2のフローチャートは、ステップ1000、1010、1020、1030、及び1040を組み合わせて実行する。以下では、それぞれのステップについて説明する。
制御装置200の動作開始後、ステップ1000では、数値解析手段300を用いて数値解析を実行し、数値解析データ4をモデル構築データベース220に送信・保存する。
ステップ1010では、各学習手段のモデル入出力の分割設定、及び学習のパラメータ設定を実行後、モデル構築データ6を用いたモデル500に対して、モデル入出力生成手段600、学習手段700、及び共有情報データベース260を用いてモデル入力の操作方法を学習する。以上の動作は、プラント運転開始前に実行する。
プラント運転開始後、ステップ1020では、プラント100の計測信号1を、外部入力インターフェイス201を用いて制御装置200に入力し計測信号データベース210に送信・保存する。
ステップ1030では、ステップ1010と同様に各種設定の実行後、取得した計測データ3を計測信号変換手段400で変換したモデル構築データ5で修正したモデル500に対して、モデル入出力生成手段600、学習手段700、及び共有情報データベース260を用いてモデル入力7の操作方法を学習する。
ステップ1040では、操作信号生成手段800を用いて、学習データ15、及び制御ロジックデータ16を用いて操作信号17を生成し、外部出力インターフェイス202を用いて操作信号18としてプラント100に出力する。
以上のステップ1020〜1040の動作を、計測信号が入力される度に繰り返し実行することで、プラント100を制御する。
次に、前記学習手段700の詳細について説明する。学習手段として、従来技術の一つである正規化ガウス関数ネットワーク(Normalized Gaussian Function Network: NGnet)を、複数の学習手段による学習用に拡張した方式を用いる。NGnetは強化学習の一方式であるActor−critic学習法を用いてネットワークの結合重みを更新することで、状態入力に対する所望の行動を得ることができる。ここで、状態入力とは学習するモデル入力、行動とはモデル入力の操作量を意味する。
強化学習理論では、学習アルゴリズムが状態入力に対する行動を学習対象から得られる報酬を基に自律的に学習する。Actor−critic学習法では、行動を決定する制御器(Actor)と状態入力を評価する評価器(Critic)を使用し、Actorによる行動の結果得られる報酬γと、Criticで推定される状態価値V、V´を用いて(1)式によりTD(Temporal Difference)誤差δを計算し、これを手掛かりに学習する。
Figure 2009110256
NGnetでは、状態入力空間にガウス基底関数ノードを配置することにより、行動と状態価値を近似学習する特徴を持つ。すなわち、現在の状態入力に対する基底関数ノードの活性度を計算し、それらに正規化処理を施した正規化活性度を計算する。そして、正規化活性度に出力層への結合重みを乗じたものの線形和を取ることで行動及び状態価値を計算する。この出力層への結合重みが、学習パラメータとなる。学習動作は、(1)式より求めたTD誤差δを用いて結合重みを更新する。この処理を定数回繰り返すことにより、所望の行動及び状態価値を学習する。
強化学習アルゴリズムでは一般に、状態入力の次数が大きくなるほど、状態入力空間が指数的に増大し、学習時間が増加する。本発明では、モデル入力を分割し、複数の学習手段にそれぞれの操作方法を学習させることにより、学習手段当たりの状態入力空間を縮小し、学習を高速化する方式を提供する。
図3は、学習手段700の構成図である。モデル入力の集合をXとすると、図3では、学習手段1〜N(n=1,2、…N)が学習する部分モデル入力x∈Xに対して、学習手段を動作させ行動Δx及び状態価値Vを出力する。ここで、x={x,…,xkn,…,xkn}(k∈K、K:学習手段nが学習する部分モデル入力の添字集合)とする。学習手段nは、学習するモデル入力空間に配置された基底関数ノードj∈J(J:学習手段nの基底関数ノードの添字集合)を具備し、状態入力xに対する基底関数ノードjの活性度αjを(2)式、(3)式により計算する。
Figure 2009110256
Figure 2009110256
次に、(4)式に従って活性度αjを学習手段nの活性度の総和で除することにより、正規化活性度bjを計算する。正規化活性度bjは分割したモデル入力空間上でのモデル入力のNGnetアルゴリズムによる写像である。
Figure 2009110256
図3より、正規化活性度bjが出力される中間層ノードからは、出力層において行動Δx及び状態価値Vを求めるために、他の学習手段を含めて相互に出力層への結合が存在する。各々の結合には実数値を取る結合重みが設定され、ある出力層ノードに結合する全ての中間層ノードの正規化活性度bjに対応する結合重みwj、vjを乗じたものの線形和が出力Δx、Vとなる。図3において、結合重みwjは行動の結合重みであり、vjは状態価値の結合重みである。
学習動作では、(1)式を基に学習手段nのTD誤差δを計算し、δに修正する結合重みに対応する正規化活性度bj及び学習率を乗じたものを修正量として求め、結合重みwj、vjに加算する。また学習率はwjの学習の場合はα、Vjの学習の場合はαをそれぞれ用い、0<α,α≦1である。以上の処理を定数回繰り返すことで、学習手段700の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。
以上の説明が示すように、本発明における学習手段700では、学習するモデル入力を分割し、複数の学習手段によってそれらの操作方法を導出・学習する。学習時間は結合重みの修正回数に比例し、結合重み数は基底関数ノード数によって決定される。したがって、学習時間は基底関数ノード数に比例する。また基底関数ノード数は、モデル入力次数に対して指数的に求まるため、本発明により学習手段当たりの学習するモデル入力次数を少なくすることで、基底関数ノード数及び結合重み数を減らし、学習を高速化できる。
また、部分的なモデル入力に対して複数の学習手段が独立に操作方法を学習する場合、他のモデル入力情報を利用できないため、学習が局所解に陥る可能性がある。本発明では、学習手段の動作及び学習アルゴリズムにおいて、共有情報データベース260を介して各学習手段の正規化活性度情報を相互に利用できるメカニズムを有するため、局所解を回避しモデル全体を考慮した学習が可能となる。
尚、前記正規化活性度bj、及び結合重みwj、vjは、修正後、共有情報データ12として共有情報データベース260に逐次送信・保存される。
図4は、本実施例における共有情報データベース260に保存されるデータの態様を示す。図4に示すように、共有情報データベース260には、各各の学習手段が具備する基底関数ノードjに対応する正規化活性度bj、及び結合重み情報wj、vjが保存される。各学習手段は共有情報データベース260から、前記種種の情報を含む共有情報データ11を入力し、行動及び状態価値を導出する。以上で、学習手段700の説明を終了する。
以下では、前記学習手段700を用いた、図2におけるステップ1010、及び1030の詳細な動作について、フローチャート図を参照しながら説明する。
図5は、ステップ1010、及びステップ1030における操作方法の学習の動作を示すフローチャート図である。図5に示したように、学習の動作のフローチャートは、ステップ2000、2010、2020、2030、2040、2050、2060、2070、2080、及び2090を組み合わせて実行する。以下では、それぞれのステップについて説明する。
ステップ2000では、学習手段700の数N、各学習手段に割当てられたモデル入出力、学習方法、及び学習時に用いる学習率等の種種のパラメータ値を設定する。
ステップ2010では、ステップ2020〜2080の繰り返し回数を示す値である初期化回数Aを初期化(A=1に設定)する。次に、ステップ2020では、学習を開始する際のモデル入力の初期値を設定する。モデル入力の初期値としては、任意の値を選ぶことができる。ステップ2030では、ステップ2040〜2070の繰り返し回数を示す値である操作回数Bを初期化(B=1に設定)する。
ステップ2040は分岐であり、ステップ2000で指定した学習方式が交互学習である場合はステップ2050へ、一斉学習である場合はステップ2060へ進む。ステップ2050では、交互学習アルゴリズムを用いて、モデル操作方法を学習する。ステップ2060では、一斉学習アルゴリズムを用いてモデル操作方法を学習する。尚、上記の2種類のアルゴリズムの詳細については後述する。
ステップ2070は分岐であり、操作回数Bがステップ2000で設定した最大操作回数よりも小さい場合はBを1加算した後にステップ2040に戻り、Bが最大操作回数よりも大きい場合は分岐であるステップ2080に進む。
ステップ2080では、初期化回数Aがステップ2000で設定した最大初期化回数よりも小さい場合にはAを1加算した後にステップ2020に戻り、Aが最大初期化回数よりも大きい場合はステップ2090に進む。
ステップ2090では、学習した結果を学習情報データベース230に送信・保存し、操作方法の学習の動作を終了させるステップに進む。
以上の動作によって、操作方法の学習では、プラント100の運転員が設定した学習条件に基づき、任意のモデル入力条件からモデル出力目標値へ到達するモデル入力操作方法を獲得できる。
以下では、図5におけるステップ2050、及び2060の詳細な動作について、フローチャート図を参照しながら説明する。
図6は、ステップ2050の交互学習アルゴリズムの動作を示すフローチャート図である。図6に示したように、交互学習アルゴリズムの動作のフローチャートは、ステップ2110、2120、2130、2140、2150、及び2160を組み合わせて実行する。以下では、それぞれのステップについて説明する。
ステップ2110では、学習を実行する学習手段番号Cを決定する。学習手段番号Cは、i)C=A%N+1、またはii)C=B%N+1によって決定することができる。ここで、演算X%Yは整数Xを整数Yで除したときの余り値を意味する。即ち、i)では初期化回数A、ii)では操作回数Bをそれぞれ基準とした学習ターンの変更が実施される。
次に、ステップ2120では、学習手段Cのモデル入力に対する操作量を導出する。
ステップ2130では、導出したモデル入力操作量を用いてモデル入力を更新する。
ステップ2140では、更新した学習手段Cのモデル入力に対して、学習手段Cの基底関数ノードの正規化活性度bjを導出する。
ステップ2150では、導出した正規化活性度情報を共有情報データベース260へ送信・保存する。
ステップ2160では、学習手段Cのモデル操作方法を、共有情報データベースを参照しながら学習し、交互学習アルゴリズムの動作を終了させるステップへ進む。交互学習アルゴリズムでは、学習手段Cが学習する際に、他の学習手段は行動をせず、それらのモデル入力は固定とする。そのため、他の学習手段の行動による影響を受けず、精度の高い学習が可能となる。尚、ステップ2160の学習アルゴリズムの説明については、後述する。
次に、図5のステップ2060の一斉学習アルゴリズムについて説明する。
図7は、一斉学習アルゴリズムの動作を示すフローチャート図である。図7に示したように、一斉学習アルゴリズムの動作のフローチャートは、ステップ2210、2220、2230、2240、2250、2260、2270、2280、及び2290を組み合わせて実行する。以下では、それぞれのステップについて説明する。
ステップ2210では、モデル入力の更新及び正規化活性度の導出を実行する学習手段番号Cを初期化する(C=1)。
次に、ステップ2220では、学習手段Cのモデル入力に対する操作量を導出する。
ステップ2230では、導出したモデル入力操作量を用いてモデル入力を更新する。
ステップ2240では、更新した学習手段Cのモデル入力に対して、学習手段Cの基底関数ノードの正規化活性度bjを導出する。
ステップ2250では、導出した正規化活性度情報を共有情報データベース260へ送信・保存する。
ステップ2260は分岐であり、学習手段番号Cが学習手段数N以下である場合には、Cを1加算した後ステップ2220に戻り、そうでない場合にはステップ2270へ進む。
ステップ2270では、学習を実行する学習手段番号Dを初期化する(D=1)。
ステップ2280では、学習手段Dのモデル操作方法を、共有情報データベースを参照しながら学習する。
ステップ2290は分岐であり、学習手段番号Dが学習手段数N以下である場合には、Dを1加算した後ステップ2280に戻り、そうでない場合には一斉学習アルゴリズムを終了させるステップへ進む。
一斉学習アルゴリズムでは、1回の操作で、全ての学習手段のモデル入力を操作し、その結果得られた報酬及びTD誤差を用いて操作方法を一斉に学習する。そのため、学習に必要な初期化回数及び操作回数を交互学習アルゴリズムよりも少なくでき、より高速に学習できる。尚、ステップ2280の学習アルゴリズムの説明については、後述する。
次に、図6におけるステップ2160、及び図7における2280の学習アルゴリズムの詳細な動作について、図8のフローチャート図を参照しながら説明する。
図8は、学習アルゴリズムの動作を示すフローチャート図である。図8に示したように、学習アルゴリズムの動作のフローチャートは、ステップ2310、2320、2330、及び2340を組み合わせて実行する。以下では、それぞれのステップについて説明する。
ステップ2310では、予め設定した各学習手段の報酬式に従って、報酬を計算する。
次に、ステップ2320では、報酬、モデル入力更新前後の状態価値を用いてTD誤差を計算する。
ステップ2330では、計算したTD誤差、及び共有情報データベース260に保存される正規化活性度情報を入力し、結合重みを更新する。
ステップ2340では、学習した結合重みを共有情報データベース260に送信・保存し、学習アルゴリズムを終了させるステップに進む。
以上で、図2におけるステップ1010、及び1030の詳細な動作の説明を終了する。
次に、画像表示装置920に表示される画面について図9及び図10を用いて説明する。
図9及び図10は、画像表示装置920に表示される画面の一実施例である。図9は、図5のフローチャートにおけるステップ2000の学習条件設定画面の一例である。図9の画面が画像表示装置920に表示された状態で、マウス902を操作して画面上の数値ボックスにカーソルを重ね、キーボード901を用いることで数値を入力できる。また、マウス902を操作してカーソルをボタンに重ね、マウス902をクリックすることでボタンを選択する(押す)ことができる。同様に、マウス902を操作して画面上のチェックボックスにカーソルを重ね、マウス902をクリックすることでチェックを入れることができる。
図9では、数値ボックス3001に、学習時に使用する学習手段700の数を入力し、ボタン3002を選択することで学習手段の数を決定することができる。そして、モデル入出力設定画面3003において、各各の学習手段が学習に用いるモデル入出力を設定する。モデル入出力設定画面3003では、割当てたいモデル入出力のチェックボックスをチェックすることで、学習手段に任意のモデル入出力を割当てることができる。また、チェックボックス3004を選択することで、前回の学習で用いた設定を適用することができる。
チェックボックス3005と3006では、学習方法を決定する。即ち、交互学習アルゴリズムを選択する場合はチェックボックス3005を、一斉学習アルゴリズムを選択する場合はチェックボックス3006をチェックする。
数値ボックス3007〜3012では、学習パラメータを設定する。即ち、行動学習率α、状態価値学習率α、割引率γ、基底分散σk、最大初期化回数、及び最大操作回数を夫夫設定することができる。また、チェックボックス3013を選択することで、前回の学習で用いた設定を適用することができる。
以上の学習設定が終了後、ボタン3014を選択することで、図5に示すフローチャートを動作させ、学習を開始することができる。また、ボタン3015を選択すると初期画面に戻る。
図10は、図2のフローチャートにおけるステップ1040の操作実行画面の一例である。図10では、プラントの運転開始後に実行したモデル入力の操作履歴、操作によるモデル出力の制御結果履歴、ならびに本発明を使用しない場合の操作及び制御の推定結果を表示する。本画面において、モデル入力表示タグ3021、及びモデル出力表示タグ3025を選択することにより、任意のモデル入力の操作履歴、及びモデル出力の制御結果履歴を表示させることができる。また各画面上では、時間を表す横軸に対して、操作履歴3022、制御結果履歴3026、今回の学習結果による操作ガイダンス値3023、ガイダンス操作後のモデル出力予測値3027、本発明を使用しない場合の推定操作結果3024、推定制御結果3029、ならびに制御目標値3028がそれぞれ表示される。プラント100の運転員は、本画面を通じて操作ガイダンス値3023に対するモデル出力予測値3027の関係から、その制御効果を確認することができる。すなわち今回のガイダンス操作により、モデル出力予測値3027が制御目標値3028に近づく効果が得られる場合はボタン3030を選択することで操作を実行し、逆にガイダンス操作によりモデル出力予測値3027が悪化する場合は、ボタン3031を選択することで操作を回避することができる。その際、今回の操作は休止するか、他の制御ロジック等を用いて導出した操作方法に代替させることができる。
また、本発明による操作履歴3022と制御結果履歴3026を、本発明を使用しない場合の推定操作結果3024、ならびに推定制御結果3029と比較すると、本発明では制御周期毎にモデルを修正後、再学習を実行するため、モデルの特性変化に追従した操作が実行され、モデル出力を制御目標値に近づける効果が得られていることがわかる。一方、本発明を使用しない場合、学習時間が増加して制御周期毎に再学習を実行できないため、モデルの特性変化に対して適切な操作が実行されず、所望の制御効果が得られない。このように、プラント100の操作員は、本画面を通じて本発明を使用することによる制御効果を、視覚的に確認することができる。以上で、画像表示装置920に表示される画面の説明を終了する。
実施例1における図1の学習手段700は、以下に示す構造を取ることもできる。
図11に、実施例2における学習手段700の構成図を示す。図11では、モデル入力xに対して、各学習手段のモデル入力空間に配置された基底関数ノードjの活性度ajを(2)式、(3)式に従い計算する。次に(5)式に従い、活性度ajを全学習手段の活性度の総和で除することにより、正規化活性度bjを計算する。
Figure 2009110256
最後に、図11に示すように正規化活性度bjに結合重みwj又は、vjを乗じたものの線形和を取り、行動Δx及び状態価値Vを計算する。
学習動作では、実施例1と同様に(1)式を基に学習手段nのTD誤差δを計算し、δに修正する結合重みに対応する中間層ノードの正規化活性度bj及び学習率を乗じたものを修正量として求め、結合重みwj、vjに加算する。
以上の処理を定数回繰り返すことで、学習手段700の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。以上の動作により、本実施例における学習手段700は、実施例1と同様に、各学習手段の正規化活性度情報を相互に利用して学習する。
その他の制御装置100の動作アルゴリズム及び、画像表示装置920に示される画面仕様は、実施例1と同じである。本実施例によれば、実施例1と同様の効果が得られるのに加えて、全てのモデル入力空間におけるモデル入力の写像(正規化活性度)が得られるため、モデル入力間の相互関係を正確に近似して行動及び状態価値を学習できる効果が得られる。
実施例1及び2における、図1の学習手段700は、以下に示す構造を取ることもできる。
図12に、実施例3における学習手段700の構成図を示す。図12では、モデル入力xに対して、各学習手段のモデル入力空間に配置された基底関数ノードjの活性度ajを(2)式、(3)式に従い計算する。次に(6)式に従い、活性度ajを学習手段nの活性度の総和で除することにより、部分正規化活性度a´jを計算する。
Figure 2009110256
次に、(7)式に従い、部分正規化活性度a´jを全学習手段の活性度の総和で除することにより、正規化活性度bjを計算する。
Figure 2009110256
最後に、図12に示すように正規化活性度bjに結合重みwj又は、vjを乗じたものの線形和を取り、行動Δx及び状態価値Vを計算する。
学習動作では、実施例1及び2と同様に(1)式を基に学習手段nのTD誤差δを計算し、δに修正する結合重みに対応する中間層ノードの正規化活性度bj及び学習率を乗じたものを修正量として求め、結合重みwj、vjに加算する。
以上の処理を定数回繰り返すことで、学習手段700の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。以上の動作により、本実施例における学習手段700は、実施例1及び2と同様に、各学習手段の正規化活性度情報を相互に利用して学習する。
その他の制御装置100の動作アルゴリズム及び、画像表示装置920に示される画面仕様は、実施例1及び2と同じである。本実施例3によれば、実施例1及び2と同様の効果が得られる。また、本実施例3ではモデル入力の分割した入力空間に対する写像と、全てのモデル入力空間に対する写像を同時に考慮する。このような2段階の正規化処理によって、実施例2に比べてモデル入力間の相互関係をより高精度に近似し、行動及び状態価値を学習できる。
実施例1〜3における、図1の学習手段700は、以下に示す構造を取ることもできる。
図13に、実施例4における学習手段700の構成図を示す。図13では、モデル入力xに対して、各学習手段のモデル入力空間に配置された基底関数ノードjの活性度ajを(2)式、(3)式に従い計算後、(4)式に従って部分正規化活性度bjを計算する。次に(8)式に従い、各学習手段に共通ノードとして備えさせた情報共有ノードm∈M(M:情報共有ノード集合)の出力値cを計算する。
Figure 2009110256
最後に、図13に示すように情報共有ノードの出力値cに結合重みwj、又はvjを乗じたものの線形和を取り、行動Δx及び状態価値Vを計算する。
学習動作では、i)行動及び状態価値結合重みwmk、v、ii)情報共有ノード結合重みujmの順に結合重みを学習する。具体的には、先ず実施例1、2及び3と同様に(1)式を基に学習手段nのTD誤差δを求め、δに修正する結合重みに対応する情報共有ノード出力値c及び学習率を乗じたものを修正量として求め、結合重みwmk、vに加算する。
次にwmk、vの学習結果を用いて、情報共有ノードのTD誤差δ´を(9)式に従って求める。
Figure 2009110256
δ´に修正する結合重みに対応する部分正規化活性度bj及び情報共有ノードの結合重み学習率α(0<α≦1)を乗じたものを修正量として求め、結合重みujmに加算する。
以上の処理を定数回繰り返すことで、学習手段700の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。
上記に示すように、本実施例4における学習手段700の動作アルゴリズムでは、各学習手段が具備する基底関数ノードに対して導出した活性度を、中間層の情報共有ノードにおいて集約し、得られた情報共有ノード出力値に結合重みwmk、vを乗じて線形和を取ることで操作方法を導出する。即ち、分割したモデル入力に対して学習手段間で情報を相互に利用した学習が実行され、実施例1と同様の効果が得られる。更に本実施例4によれば、正規化処理による写像のみならず、非線形関数単調増加関数による写像を用いて学習することにより、モデル特性が強い非線形特性を持つ場合でも、適切な行動及び状態の近似学習が実行される。
尚、前記部分正規化活性度bj、情報共有ノードの出力値c、結合重みwmk、v及びujmは、修正後に共有情報データ12として共有情報データベース260に逐次送信・保存される。
図14は、本実施例4における共有情報データベース260に保存されるデータの態様を示す。図14に示すように、共有情報データベース260には、(a)各学習手段が具備する基底関数ノードjの部分正規化活性度bj、中間層結合重みujmの各情報、並びに(b)情報共有ノードmの出力値c、出力層結合重みwmk、vの各情報が保存される。各学習手段は共有情報データベース260から、前記した種種の情報を含む共有情報データ11を入力し、行動及び状態価値を導出する。
その他の学習手段700の動作アルゴリズムは、実施例1〜3と同じである。また、画像表示装置920に示される画面仕様は、図9の学習実行画面において、中間層結合重みの学習率αを設定する数値ボックスが追加される以外は、実施例1〜3と同じである。
本発明のプラントの制御装置200を、火力発電プラントに適用した実施例について説明する。尚、火力発電プラント以外のプラントを制御する際にも、本発明の実施例の制御装置200を使用できることは言うまでもない。
図15は、火力発電プラントの概略を示す図である。先ず、火力発電プラントの発電の仕組みについて説明する。
火力発電プラントを構成するボイラ101には、ミル110で石炭を細かく粉砕した燃料となる微粉炭と、微粉炭搬送用の1次空気、及び燃焼調整用の2次空気を供給するバーナー102が設けられており、このバーナー102を介して供給した微粉炭をボイラ101の内部で燃焼させる。尚、微粉炭と1次空気は配管134から、2次空気は配管141からバーナー102に導かれる。
また、ボイラ101には2段燃焼用の空気をボイラ101に投入するアフタエアポート103が設けられており、空気は配管142からアフタエアポート103に導かれる。
燃焼により発生した高温の燃焼ガスは、ボイラ101の内部の経路に沿って下流側に流れた後、ボイラ101に配置された熱交換器106を通過して熱交換した後、エアーヒーター104を通過する。エアーヒーター104を通過したガスは、排ガス処理を施した後、煙突から大気に放出される。
ボイラ101の熱交換器106を循環する給水は、給水ポンプ105を介して熱交換器106に給水を供給し、熱交換器106においてボイラ101を流下する燃焼ガスによって過熱され、高温高圧の蒸気となる。尚、本実施例では熱交換器の数を1つとしているが、熱交換器を複数配置するようにしてもよい。
熱交換器106を通過した高温高圧の蒸気は、タービンガバナ107を介して蒸気タービン108に導かれ、蒸気の持つエネルギーによって蒸気タービン108を駆動して発電機109で発電する。
火力発電プラントには、火力発電プラントの運転状態を検出する様々な計測器が配置されており、これらの計測器から取得されたプラントの計測信号は、計測信号1として制御装置200に送信される。例えば、図15には、流量計測器150、温度計測器151、圧力計測器152、発電出力計測器153、及び濃度計測器154が図示される。
流量計測器150では、給水ポンプ105からボイラ101に供給される給水の流量を計測する。また、温度計測器151、及び圧力計測器152は、熱交換器106から蒸気タービン108に供給される蒸気の温度、及び圧力を計測する。
発電機109で発電された電力量は、発電出力計測器153で計測する。ボイラ101を通過する燃焼ガスに含まれている成分(CO、NOxなど)の濃度に関する情報は、ボイラ101の下流側に設けた濃度計測器154で計測することができる。
尚、一般的には図15に図示した以外にも多数の計測器が火力発電プラントに配置されるが、ここでは図示を省略する。
次に、ボイラ101の内部にバーナー102から投入される1次空気と2次空気の経路、及びアフタエアポート103から投入される空気の経路について説明する。
1次空気は、ファン120から配管130に導かれ、途中でボイラ101の下流側に設置されたエアーヒーター104を通過する配管132と通過せずにバイパスする配管131とに分岐して、再び配管133にて合流し、バーナー102の上流側に設置されたミル110に導かれる。
エアーヒーター104を通過する空気は、ボイラ101を流下する燃焼ガスにより加熱される。この1次空気を用いて、ミル110において粉砕した微分炭を1次空気と共にバーナー102に搬送する。
ファン121を用いて配管140から投入された空気は、エアーヒーター104で同様にして加熱された後に、2次空気用の配管141とアフタエアポート用の配管142とに分岐して、それぞれバーナー102とアフタエアポート103に導かれる。
図16は、図15に示した火力発電プラントにおけるエアーヒーター104と関連する配管部の拡大図である。図16に示すように、配管131、132、141、142にはエアダンパ160、161、162、163が夫夫配置される。これらのエアダンパを操作することにより、配管131、132、141、142における空気が通過する面積を変更することができるので、配管131、132、141、142を通過する空気流量を個別に調整できる。
ボイラ101では、制御装置200によって生成された操作信号18を用いて、エアダンパ160、161、162、163などの機器を操作する。尚、本実施例では、エアダンパ160、161、162、163などの機器のことを操作端と呼び、これを操作するのに必要な指令信号を操作信号と呼ぶ。
以降では、本発明の制御装置200を上記火力発電プラントに用いた場合に、操作端をボイラ前後のバーナー、アフタエアポートのエアダンパとし、被制御量をボイラより排出されるCO、NOx濃度とする場合について説明する。尚、本実施例では、操作端の操作量がモデル入力、CO、NOx濃度がモデル出力となる。また、本実施例における学習手段700には、本発明の実施例1〜4のいずれも用いることができる。
図17は、本実施例におけるプラント100の制御装置200を示すシステム図であり、図1に対応する。図17では、制御装置200は図1の構成に加えて知識データベース270を具備しており、知識データベース270には操作端とCO、NOx発生量の因果関係に関する情報が保存される。また、外部入力装置900、保守ツール910、及び画像表示装置920を用いることにより、知識データベース270に保存される情報にアクセスすることができる。
図18に、知識データベース270に保存されるデータの態様を示す。図18には、(a)操作端個別のCO、NOx特性、及び(b)操作端グループ別のCO、NOx特性が保存される。操作端個別の特性は、操作端を個別に操作した場合における、CO、NOxの感度情報が記載され、これらは試運転時を含む過去の運転データ及び数値解析結果等を用いて作成される。この情報はプラント運転開始後の運転データの蓄積に伴い逐次変更できる。一方、グループ別の特性は、過去のプラント操作時に使用した操作端の割当てパターン、及び操作結果によるCO、NOx濃度の変化量が記載される。図18において、操作端のチェックボックスにチェックが入っているものは、該当する学習手段が使用したものを表す。尚、図18において、R_0001は学習結果データを区別するために割り振られた番号である。
図19は、本発明の制御装置を火力発電プラントに用いた場合に、画像表示装置920に表示される画面の一実施例であり、図9に対応する画面である。図19では、モデル入出力設定画面3105において、バーナー、エアポートのエアダンパ位置を示す操作端3103を含むプラント前/後面図が表示されており、プラント100の運転員は、モデル入力を割当てたい学習手段に画面上のカーソル3106を合せた後、画面上の操作端3103をクリックし、ボタン3104を選択することでモデル入出力設定画面3105内のチェックボックスにチェックを入れることができる。同様にモデル出力についても、CO、NOxのチェックボックスにチェックを入れることで、割当てたい学習手段を指定できる。
以上の画像表示装置920に表示される画面仕様及び、前記知識データベース270に保存される情報を用いれば、火力プラントから排出されるCO、NOxの制御方法の学習に効果的なモデル入出力の割当てを、プラントの操作端の位置関係を把握しながら、知識情報を用いて容易に実行できる。
本発明の実施例1によるプラント制御装置の構成を示すブロック図である。 本発明の実施例1によるプラントの制御装置の動作フローチャートである。 本発明の実施例1によるプラントの制御装置における学習手段の構成図である。 本発明の実施例1による共有情報データベースに保存される情報の態様を示す図面である。 本発明の実施例1によるプラントの制御装置の動作における学習アルゴリズムの動作を示すフローチャート図である。 本発明の実施例1によるプラントの制御装置の動作における交互学習の詳細な動作を示すフローチャート図である。 本発明の実施例1によるプラントの制御装置の動作における一斉学習の詳細な動作を示すフローチャート図である。 本発明の実施例1によるプラントの制御装置の動作における学習アルゴリズムの詳細な動作を示すフローチャート図である。 本発明の実施例1によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。 本発明の実施例1によるプラントの制御装置において、操作を実行する際に、画像表示装置に表示される画面の一例である。 本発明の実施例2によるプラントの制御装置における学習手段の構成図である。 本発明の実施例3によるプラントの制御装置における学習手段の構成図である。 本発明の実施例4によるプラントの制御装置における学習手段の構成図である。 本発明の実施例4による共有情報データベースに保存される情報の態様を示す図面である。 火力発電プラントの構成を説明する図である。 火力発電プラントにおいて、エアーヒーター部分の拡大図である。 本発明の実施例5によるプラント制御装置の構成を示すブロック図である。 本発明の実施例5による知識データベースに保存される情報の態様を示す図面である。 本発明の実施例5によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。
符号の説明
1…計測信号、18…操作信号、100…プラント、200…制御装置、201…外部入力インターフェイス、202…外部出力インターフェイス、210…計測信号データベース、220…モデル構築データベース、230…学習情報データベース、240…制御ロジックデータベース、250…操作信号データベース、260…共有情報データベース、270…知識データベース、300…数値解析手段、400…計測信号変換手段、500…モデル、600…モデル入出力生成手段、700…学習手段、800…操作信号生成手段、900…外部入力装置、901…キーボード、902…マウス、910…保守ツール、911…外部入力インターフェイス、912…データ送受信処理部、913…外部出力インターフェイス、920…画像表示装置。

Claims (12)

  1. プラントから取得した計測信号を用いてプラントの操作信号を計算し、該操作信号をプラントに送信するプラントの制御装置において、
    過去の計測信号が保存される計測信号データベースと、
    過去の操作信号が保存される操作信号データベースと、
    プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
    前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
    前記学習手段によって生成された各グループのモデル入力を集約し前記モデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを備えたモデル入出力生成手段と、を具備したことを特徴とするプラントの制御装置。
  2. 請求項1に記載されたプラントの制御装置において、
    前記学習手段には、前記モデル入力を複数のグループに分割したものを入力として与えた時に、該学習手段が具備する基底関数ノードの演算処理結果として得られる正規化活性度、該正規化活性度の加重和を非線形処理した結果得られる情報共有ノード出力値、及びモデル入力の生成方法の導出に用いる結合重みのうち、少なくとも一つの情報を該学習手段間で相互に利用することで、モデル入力の生成方法の導出及び学習を実行する機能が備えられていることを特徴とするプラントの制御装置。
  3. 請求項1に記載されたプラントの制御装置において、
    前記学習手段では、プラントの操作方法を学習する際に、学習手段を一つずつ交互に動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能と、学習手段を全て動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能のうち、いずれか一つが用いられることを特徴とするプラントの制御装置。
  4. 請求項1に記載されたプラントの制御装置において、
    前記計測信号データベースと前記操作信号データベースに保存される情報を画面に表示する機能と、前記学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を、画面表示機能を通じて設定する機能と、過去のプラント運転結果と制御結果の履歴を画面に表示する機能の少なくとも一つが備えられていることを特徴とするプラントの制御装置。
  5. 請求項1に記載されたプラントの制御装置において、
    前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、
    該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
    該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えられていることを特徴とするプラントの制御装置。
  6. 請求項1に記載されたプラントの制御装置において、
    前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、
    該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
    該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えられていることを特徴とするプラントの制御装置。
  7. 請求項1に記載されたプラントの制御装置において、
    前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、
    該部分正規化活性度を全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、
    該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
    該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えられていることを特徴とするプラントの制御装置。
  8. 請求項1に記載されたプラントの制御装置において、
    前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、
    各学習手段に共通に設けられた情報共有ノードにおいて、該部分正規化活性度、ならびに他の学習手段が同様に求めた部分正規化活性度に対し、結合重みを用いて重み付け非線形処理を施すことにより情報共有ノード出力値を導出する機能と、
    該情報共有ノード出力値に対し、前記結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
    該部分正規化活性度ならびに該情報共有ノード出力値に比例する値を修正値として、前記結合重みの値を学習する機能とが備えられていることを特徴とするプラントの制御装置。
  9. 火力発電プラントの計測信号を用いて、前記火力発電プラントに与える操作信号を導出する操作信号生成部を備えた火力発電プラントの制御装置において、
    前記計測信号には火力発電プラントから排出されるガスに含まれる窒素酸化物濃度、及び一酸化炭素濃度の少なくとも1つが含まれ、
    前記操作信号には空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量の少なくとも1つを決定する信号が含まれ、
    前記制御装置は、
    過去の計測信号が保存される計測信号データベースと、
    過去の操作信号が保存される操作信号データベースと、
    火力発電プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
    前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
    前記学習手段によって生成された各グループのモデル入力を集約しモデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段と、
    前記モデル入力を個別に操作した場合に各モデル入力がモデル出力に与える特性に関する情報、ならびにモデル入力のグループへの分割パターンがモデル出力に与える特性に関する情報が保存される知識データベースと、
    を具備することを特徴とする火力発電プラントの制御装置。
  10. 請求項9に記載した火力発電プラントの制御装置において、
    前記学習手段には、請求項2または3に記載される機能が備えられていることを特徴とする火力発電プラントの制御装置。
  11. 請求項9に記載した火力発電プラントの制御装置において、
    前記学習手段には、請求項5〜8に記載されるモデル入力の生成方法の導出及び学習方式のうち、少なくとも一つの機能が備えられていることを特徴とする火力発電プラントの制御装置。
  12. 請求項9に記載された火力発電プラントの制御装置において、
    前記計測信号データベースと前記操作信号データベース、ならびに前記知識データベースに保存される情報を、画面に表示する機能と、前記学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を、画面表示装置に表示される火力発電プラントの図面情報と対応させて設定する機能と、過去のプラントの運転結果と制御結果の履歴を画面に表示する機能のうち少なくとも一つが備えられていることを特徴とするプラントの火力発電プラントの制御装置。
JP2007281762A 2007-10-30 2007-10-30 プラントの制御装置および火力発電プラントの制御装置 Expired - Fee Related JP4989421B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007281762A JP4989421B2 (ja) 2007-10-30 2007-10-30 プラントの制御装置および火力発電プラントの制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007281762A JP4989421B2 (ja) 2007-10-30 2007-10-30 プラントの制御装置および火力発電プラントの制御装置

Publications (2)

Publication Number Publication Date
JP2009110256A true JP2009110256A (ja) 2009-05-21
JP4989421B2 JP4989421B2 (ja) 2012-08-01

Family

ID=40778691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007281762A Expired - Fee Related JP4989421B2 (ja) 2007-10-30 2007-10-30 プラントの制御装置および火力発電プラントの制御装置

Country Status (1)

Country Link
JP (1) JP4989421B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
CN110268349A (zh) * 2017-02-10 2019-09-20 三菱日立电力系统株式会社 试验规划装置以及试验规划方法
JP2020038612A (ja) * 2019-05-31 2020-03-12 ファナック株式会社 エッジサーバ
JP2020038614A (ja) * 2018-08-31 2020-03-12 ファナック株式会社 知識情報サービスシステム
KR20200061931A (ko) * 2018-11-26 2020-06-03 두산중공업 주식회사 연소 최적화를 위한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법
CN112364972A (zh) * 2020-07-23 2021-02-12 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035956A (ja) * 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム
JP2007241624A (ja) * 2006-03-08 2007-09-20 Hitachi Ltd プラントの制御装置と制御方法及び火力発電プラントとその制御方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035956A (ja) * 1998-07-17 2000-02-02 Japan Science & Technology Corp エージェント学習装置
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム
JP2007241624A (ja) * 2006-03-08 2007-09-20 Hitachi Ltd プラントの制御装置と制御方法及び火力発電プラントとその制御方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218513A (ja) * 2015-05-14 2016-12-22 国立研究開発法人情報通信研究機構 ニューラルネットワーク及びそのためのコンピュータプログラム
CN110268349A (zh) * 2017-02-10 2019-09-20 三菱日立电力系统株式会社 试验规划装置以及试验规划方法
JP2020038614A (ja) * 2018-08-31 2020-03-12 ファナック株式会社 知識情報サービスシステム
KR20200061931A (ko) * 2018-11-26 2020-06-03 두산중공업 주식회사 연소 최적화를 위한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법
KR102176765B1 (ko) * 2018-11-26 2020-11-10 두산중공업 주식회사 연소 최적화를 위한 학습 데이터를 생성하기 위한 장치 및 이를 위한 방법
US11526687B2 (en) 2018-11-26 2022-12-13 Doosan Enerbilityty Co., Ltd. Apparatus for generating learning data for combustion optimization and method therefor
JP2020038612A (ja) * 2019-05-31 2020-03-12 ファナック株式会社 エッジサーバ
CN112364972A (zh) * 2020-07-23 2021-02-12 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法
CN112364972B (zh) * 2020-07-23 2024-01-05 北方自动控制技术研究所 基于深度强化学习的无人战车分队火力分配方法

Also Published As

Publication number Publication date
JP4989421B2 (ja) 2012-08-01

Similar Documents

Publication Publication Date Title
JP4627553B2 (ja) プラントの制御装置および火力発電プラントの制御装置
US8355996B2 (en) Plant control apparatus that uses a model to simulate the plant and a pattern base containing state information
US8095479B2 (en) Plant control apparatus and method having functions of determining appropriate learning constraint conditions
Bartolini et al. Application of artificial neural networks to micro gas turbines
US8185216B2 (en) Plant controlling device and method, thermal power plant, and its control method
JP4989421B2 (ja) プラントの制御装置および火力発電プラントの制御装置
Palmé et al. Gas turbine sensor validation through classification with artificial neural networks
JP5511698B2 (ja) 空調機連係制御システム、空調機連係制御方法および空調機連係制御プログラム
Oko et al. Neural network approach for predicting drum pressure and level in coal-fired subcritical power plant
JP2010537192A (ja) ガス排出量の経験的アンサンブルに基づく仮想センシングのためのシステム及び方法
US20220235676A1 (en) Method and system for optimization of combination cycle gas turbine operation
JP2007233634A (ja) 強化学習制御装置
WO2007116592A1 (ja) プラントの制御装置
Pérez-González et al. Modeling of a greenhouse prototype using PSO and differential evolution algorithms based on a real-time LabView™ application
Shabanian et al. A neuro-fuzzy online fault detection and diagnosis algorithm for nonlinear and dynamic systems
Tunckaya et al. Comparative analysis and prediction study for effluent gas emissions in a coal-fired thermal power plant using artificial intelligence and statistical tools
Aghadavoodi et al. A new practical feed-forward cascade analyze for close loop identification of combustion control loop system through RANFIS and NARX
CN101275748B (zh) 锅炉的控制装置以及控制方法
JP2006209331A (ja) ネットワーク上の機器診断装置及び計測器診断装置
Ellis Machine learning enhanced grey-box modeling for building thermal modeling
JP2010146068A (ja) プラントの制御装置及び火力発電プラントの制御装置
JP2009282750A (ja) プラントのデータ処理装置及びプラントのデータ処理方法
Wang et al. Building degradation index with variable selection for multivariate sensory data
Işık et al. A neural network model for UAV propulsion system
US11164077B2 (en) Randomized reinforcement learning for control of complex systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120403

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120427

R150 Certificate of patent or registration of utility model

Ref document number: 4989421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees