JP4989421B2

JP4989421B2 - プラントの制御装置および火力発電プラントの制御装置

Info

Publication number: JP4989421B2
Application number: JP2007281762A
Authority: JP
Inventors: 徹江口; 昭彦山田; 孝朗関合; 雅之深井; 悟清水
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-10-30
Filing date: 2007-10-30
Publication date: 2012-08-01
Anticipated expiration: 2027-10-30
Also published as: JP2009110256A

Description

本発明は、プラントの制御装置に関するものであり、特に石炭等の化石燃料を用いて発電する火力発電プラントの制御装置に関する。

プラントの制御装置では、制御対象であるプラントから得られる計測信号を処理し、制御対象に与える操作信号を算出し、伝達する。制御装置には、プラントの計測信号がその目標値を満足するように、操作信号を計算するアルゴリズムが実装される。

プラントの制御に用いられている制御アルゴリズムとして、ＰＩ（比例・積分）制御アルゴリズムがある。ＰＩ制御では、プラントの計測信号とその目標値との偏差に比例ゲインを乗じた値に、偏差を時間積分した値を加算して、制御対象に与える操作信号を導出する。

ＰＩ制御を用いた制御アルゴリズムは、ブロック線図などで入出力関係を記述することができるため、入力と出力の因果関係が分かりやすく、多くの適用実績がある。しかし、プラント運転形態の変更や環境の変化など、事前に想定していない条件でプラントを運転する場合には、制御ロジックを変更するなどの作業が必要になる場合がある。

一方、プラントの運転形態や環境の変化に適応して、制御アルゴリズムやパラメータ値を自動的に修正する適応制御や学習アルゴリズムを用いた制御方式がある。学習アルゴリズムを用いてプラントを制御する制御装置の操作信号を導出する方法として、特許文献１には、強化学習理論を用いた制御装置に関する技術が記載されている。この方法では、制御装置に制御対象の特性を予測するモデルと、モデル出力がそのモデル出力の目標値を達成するようなモデル入力の操作方法を学習する学習部を持つ。学習部において学習したモデル入力をモデルに入力することで、モデル出力がその目標値に近づく効果が得られる。

このような学習型適応制御では、プラントからの計測信号を用いてモデルを修正し、修正したモデルを用いて再度学習を実行することで制御アルゴリズムをオンラインで修正する。したがって、学習はプラントの操作信号が変更される周期（制御周期）以内で終了することが望ましい。

一般に、学習に要する時間は取り扱うモデル入力（計測信号、操作信号）の数に依存して増加する。したがって、これらの信号の数が多い場合、学習時間を短縮して制御周期以内で学習を実行することが制御性能の向上に繋がる。

学習理論を用いた制御技術における学習の高速化に関する技術として、非特許文献１には、強化学習理論の一つである、正規化ガウス関数ネットワーク（ＮｏｒｍａｌｉｚｅｄＧａｕｓｓｉａｎＦｕｎｃｔｉｏｎＮｅｔｗｏｒｋ：ＮＧｎｅｔ）に関する技術が記載されている。ＮＧｎｅｔでは、モデル入力空間上に配置した基底関数ノードを用いて、モデル入力の操作方法を学習する。その際、基底関数ノードを入力空間上に適応的に配置することにより学習に必要なパラメータ数を低減し、学習を高速化する。

特開２０００−３５９５６号公報近藤、伊藤、"進化的ｒｅｃｒｕｉｔｍｅｎｔ戦略を用いた強化学習による自律移動ロボットの制御器設計"、計測自動制御学会論文集、Ｖｏｌ．３９、Ｎｏ．９、ｐ．ｐ．８５７−８６４、２００３．

特許文献１の技術を用いることによって、制御目標を達成する操作信号の生成方法を自動的に学習できる。しかし、プラントの計測信号を用いて再学習する際には、モデル入力数が大きくなると学習時間が長くなり、制御周期以内での学習が困難となる。

また非特許文献１に記載される技術を用いることによって、従来の強化学習アルゴリズムを用いる場合に比べて学習を高速化できる。しかし、本技術をプラントの制御に適用する場合、学習するモデル入力の数が多くなると、モデル入力空間に配置される基底関数ノードの数が指数的に増加する。その結果、やはり学習時間が長くなり制御周期以内での学習が困難となる。

本発明は、以上の従来技術が有する課題に鑑みてなされたものであり、その目的は、モデル入力数にかかわらず、制御周期以内での学習を可能とするプラント制御装置を提供することにある。

本発明は、プラントから取得した計測信号を用いてプラントの操作信号を計算し、該操作信号をプラントに送信するプラントの制御装置において、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約し前記モデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段とを具備したことを特徴とする。

本発明では、学習対象であるプラントの特性を模擬するモデルの入力を複数のグループに分割し、グループ毎の操作方法を複数の学習手段に学習させることで学習を高速化する。これにより、学習手段毎の学習するモデル入力の数を少なくでき、学習パラメータ数を適切な数に低減して学習を高速化することができる。

本発明の制御装置において、学習手段には、モデル入力を複数のグループに分割したものを入力として与えた時に、該学習手段が具備する基底関数ノードの演算処理結果として得られる正規化活性度、該正規化活性度の加重和を非線形処理した結果得られる情報共有ノード出力値、及びモデル入力の生成方法の導出に用いる結合重みのうち、少なくとも一つの情報を該学習手段間で相互に利用することで、モデル入力の生成方法の導出及び学習を実行する機能を備えることが望ましい。

分割したモデル入力に対して各学習手段が独立に操作方法を学習する場合、他のモデル入力情報を利用できないため、学習が局所解に陥ることが考えられるが、他のモデル入力に関する情報として、各学習手段が求めた正規化活性度情報を相互に利用することにより、局所解を回避しモデル全体の特性を把握した学習が可能となる。

また学習手段では、プラントの操作方法を学習する際に、学習手段を一つずつ交互に動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能と、学習手段を全て動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能のうち、いずれか一つを用いることが望ましい。

本発明の制御装置には、計測信号データベースと操作信号データベースに保存される情報を画面に表示する機能と、学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を画面表示機能を通じて設定する機能と、過去のプラント運転結果と制御結果の履歴を画面に表示する機能のうちの少なくとも一つを備えることが望ましい。

学習の条件設定を、画像表示装置を介して入力する機能を備えることにより、プラントの運転員はプラントの構造と操作端の位置関係、及び各操作端の特性を確認しながら、モデル入力・出力の分割を容易に実行できる。さらに、操作実行時に学習結果から得られる制御効果を、過去の制御履歴を含めて画像表示装置に表示する機能を備えることにより、プラントの運転員が学習による制御効果を確認し、操作実行の可否を決定できる。

学習手段には、以下の（１）ないし（４）のいずれかに記載の機能を具備させることが望ましい。

（１）分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。

（２）分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を、全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。

（３）分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、該部分正規化活性度を全ての学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより正規化活性度を導出する機能と、該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該正規化活性度に比例する値を修正値として結合重みの値を学習する機能とを備える。

（４）分割したモデル入力を入力として与えた時に、入力空間上に配置した基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活性度総和で正規化処理することにより部分正規化活性度を導出する機能と、各学習手段に共通に設けられた情報共有ノードにおいて、該部分正規化活性度、ならびに他の学習手段が同様に求めた部分正規化活性度に対し、結合重みを用いて重み付け非線形処理を施すことにより情報共有ノード出力値を導出する機能と、該情報共有ノード出力値に対し、前記結合重みを用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、該部分正規化活性度ならびに該情報共有ノード出力値に比例する値を修正値として、前記結合重みの値を学習する機能とを備える。

また本発明は、火力発電プラントの計測信号を用いて、前記火力発電プラントに与える操作信号を導出する操作信号生成部を備えた火力発電プラントの制御装置において、
前記計測信号に火力発電プラントから排出されるガスに含まれる窒素酸化物濃度、及び一酸化炭素濃度の少なくとも１つを含み、
前記操作信号に空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量の少なくとも１つを決定する信号を含み、
前記制御装置が、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
火力発電プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約しモデルへ入力する機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段と、
前記モデル入力を個別に操作した場合に各モデル入力がモデル出力に与える特性に関する情報、ならびにモデル入力のグループへの分割パターンがモデル出力に与える特性に関する情報が保存される知識データベースと、
を具備することを特徴とする。

この火力発電プラント制御装置において、すでに記載した機能を有する学習手段と、モデル入力の生成方法の導出及び学習方式を備えることができる。

また、計測信号データベースと操作信号データベース、ならびに知識データベースに保存される情報を画面に表示する機能と、学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割情報を、画面表示装置に表示される火力発電プラントの図面情報と対応させて設定する機能と、過去のプラントの運転結果と制御結果の履歴を画面に表示する機能のうち少なくとも一つを備えることができる。

本発明を火力発電プラントへ適用した一実施例では、火力発電プラントにおけるモデル入力に該当する操作端と、モデル出力に該当する一酸化炭素（ＣＯ）濃度、及び窒素酸化物（ＮＯｘ）濃度の因果関係を、過去の運転データに基づいて規定した情報が保存される知識データベースが備えられる。

次に、本発明の実施例であるプラントの制御装置について、図面を参照して説明する。

図１は、本発明のプラントの制御装置における、第１の実施例を示すシステム図である。図１において、プラント１００は制御装置２００によって制御されるように構成される。

制御対象のプラント１００を制御する制御装置２００には演算装置として、数値解析手段３００、計測信号変換手段４００、モデル５００、モデル入出力生成手段６００、複数個の学習手段７００、及び操作信号生成手段８００が夫々設けられている。

また、制御装置２００には、データベースとして計測信号データベース２１０、モデル構築データベース２２０、学習情報データベース２３０、制御ロジックデータベース２４０、操作信号データベース２５０、及び共有情報データベース２６０が夫々設けられている。

また、制御装置２００には、外部とのインターフェイスとして、外部入力インターフェイス２０１、及び外部出力インターフェイス２０２が設けられている。

制御装置２００では、外部入力インターフェイス２０１を介して、プラント１００から計測信号１を制御装置２００に取り込む。また、外部出力インターフェイス２０２を介して、制御対象のプラント１００に操作信号１８を送るようになっている。

制御装置２００では、プラント１００の計測信号１を、外部入力インターフェイス２０１を介して取り込み、取り込んだ計測信号２は計測信号データベース２１０に保存される。また、操作信号生成手段８００にて生成させる操作信号１７は、外部出力インターフェイス２０２に伝送されると共に、操作信号データベース２５０に保存される。

操作信号生成手段８００では、制御ロジックデータベース２４０に保存される制御ロジックデータ１６、及び学習情報データベース２３０より出力された学習データ１５を用いて、計測信号１が運転目標値を達成するように操作信号１７を生成する。この制御ロジックデータベース２４０には、制御ロジックデータ１６を算出する制御回路、及び制御パラメータが保存される。この制御ロジックデータ１６を算出する制御回路には、従来技術として公知のＰＩ制御を用いることができる。

学習情報データベース２３０に保存される学習データは、学習手段７００において生成される。学習手段７００は、モデル入出力生成手段６００を介してモデル５００と接続される。

モデル５００は、プラント１００の制御特性を模擬する機能を持つものである。すなわち、制御指令となる操作信号１８をプラント１００に与え、その操作結果の計測信号１を得るのと同等のことを模擬演算するものである。この模擬演算のために、モデル５００を動作させるモデル入力７をモデル入出力生成手段６００から受け、モデル５００にてプラント１００の制御による特性変化を模擬演算して、その模擬演算結果のモデル出力８を得るように構成される。ここで、モデル出力８は、プラント１００の計測信号１の予測値となる。

数値解析手段３００では、プラント１００を模擬する物理モデルを用いて、プラント１００の特性を予測する。数値解析手段３００で実行して得られた数値解析データ４は、モデル構築データベース２２０に保存される。

計測信号変換手段４００では、計測信号データベース２１０に保存される計測データ３をモデル構築データ５に変換し、これがモデル構築データベース２２０へ保存される。また、計測データ３に含まれる直前の操作の結果得られた操作条件は、現在のモデル入力条件１９として学習情報データベース２３０に保存される。

モデル５００では、モデル構築データベース２２０に保存されるモデル構築データ６を用いて、ニューラルネットワークなどの統計的手法を用いて、モデル入力７に対応するモデル出力８を計算する。

モデル入出力生成手段６００では、学習手段７００の数及び各学習手段が学習するモデル入力の種類や、学習に用いる制御指標の種類に関する情報を含む学習情報データ１３を用いて、各学習手段７００が学習した操作方法に基づく部分モデル入力９を集約し、モデル入力７としてモデル５００に入力する。また、同様に学習情報データ１３に基づいてモデル出力８を各学習手段が学習の指標とする部分モデル出力１０に分類し、学習手段７００へ出力する。

学習手段７００は複数用意されており、学習情報データベース２３０に保存される学習の拘束条件、モデル入出力の分割設定、及びモデル出力目標値等を含む学習情報データ１３を用いて部分モデル入力９の操作方法を学習する。また、各学習手段が操作方法を学習する際に用いる、モデル入力情報、ならびに学習手段の内部演算処理情報等を含む共有情報１２は、共有情報データベース２６０に保存される。

学習手段７００は、学習時に必要な共有情報１１を共有情報データベースを介して入力し、モデル入力の操作方法を学習する。このように、学習手段間で情報を相互に利用するメカニズムを具備することにより、学習時に他の学習手段が学習する部分モデル入力に関する情報が得られ、モデル全体の特性を考慮して操作方法を学習できる。

尚、学習手段７００の詳細な機能については、後述する。また、学習手段７００の学習結果である学習データ１４は、学習情報データベース２３０に保存される。学習データ１４には、操作前後のモデル入力、及びその操作の結果得られるモデル出力に関する情報が含まれている。学習情報データベース２３０では、現在のモデル入力情報に対応する学習データ１５が選択され、操作信号生成手段８００に入力される。

プラント１００の運転員は、キーボード９０１とマウス９０２で構成される外部入力装置９００、制御装置２００とデータを送受信できるデータ送受信処理部９１２を備えた保守ツール９１０、及び画像表示装置９２０を用いることにより、制御装置２００に備えられている種種のデータベースに保存される情報にアクセスすることができる。また、前記した夫々の装置を用いることにより、数値解析手段３００、及び学習手段７００で用いる設定パラメータを入力することができる。

保守ツール９１０は、外部入力インターフェイス９１１、データ送受信処理部９１２、及び外部出力インターフェイス９１３で構成される。

外部入力装置９００で生成した保守ツール入力信号９１は、外部入力インターフェイス９１１を介して保守ツール９１０に取り込まれる。保守ツール９１０のデータ送受信処理部９１２では、保守ツール入力信号９２の情報に従って、制御装置２００から取得した入出力データ情報９０を取得する。また、データ送受信処理部９１２では、保守ツール入力信号９２の情報に従って、数値解析手段３００、及び学習手段７００で用いるパラメータ設定値を含む入出力データ情報９０を出力する。

データ送受信処理部９１０では、入出力データ情報９０を処理した結果得られるデータ処理装置出力信号９３を、外部出力インターフェイス９１３に送信する。データ処理装置出力信号９４は、画像表示装置９２０に表示される。

尚、上記の本発明の制御装置２００では、計測信号データベース２１０、モデル構築用データベース２２０、学習情報データベース２３０、制御ロジックデータベース２４０、操作信号データベース２５０、及び共有情報データベース２６０が制御装置２００の内部に配置されるが、これらの全て、あるいは一部を制御装置２００の外部に配置することもできる。

また、数値解析手段３００が制御装置２００の内部に配置されるが、これを制御装置２００の外部に配置することもできる。

例えば、数値解析手段３００、及びモデル構築データベース２２０を制御装置２００の外部に配置し、数値解析データ４をインターネット経由で制御装置２００に送信するようにしてもよい。

図２に、以上の説明による本発明の制御装置２００の動作を示すフローチャート図を示す。図２のフローチャートは、ステップ１０００、１０１０、１０２０、１０３０、及び１０４０を組み合わせて実行する。以下では、それぞれのステップについて説明する。

制御装置２００の動作開始後、ステップ１０００では、数値解析手段３００を用いて数値解析を実行し、数値解析データ４をモデル構築データベース２２０に送信・保存する。

ステップ１０１０では、各学習手段のモデル入出力の分割設定、及び学習のパラメータ設定を実行後、モデル構築データ６を用いたモデル５００に対して、モデル入出力生成手段６００、学習手段７００、及び共有情報データベース２６０を用いてモデル入力の操作方法を学習する。以上の動作は、プラント運転開始前に実行する。

プラント運転開始後、ステップ１０２０では、プラント１００の計測信号１を、外部入力インターフェイス２０１を用いて制御装置２００に入力し計測信号データベース２１０に送信・保存する。

ステップ１０３０では、ステップ１０１０と同様に各種設定の実行後、取得した計測データ３を計測信号変換手段４００で変換したモデル構築データ５で修正したモデル５００に対して、モデル入出力生成手段６００、学習手段７００、及び共有情報データベース２６０を用いてモデル入力７の操作方法を学習する。

ステップ１０４０では、操作信号生成手段８００を用いて、学習データ１５、及び制御ロジックデータ１６を用いて操作信号１７を生成し、外部出力インターフェイス２０２を用いて操作信号１８としてプラント１００に出力する。

以上のステップ１０２０〜１０４０の動作を、計測信号が入力される度に繰り返し実行することで、プラント１００を制御する。

次に、前記学習手段７００の詳細について説明する。学習手段として、従来技術の一つである正規化ガウス関数ネットワーク（ＮｏｒｍａｌｉｚｅｄＧａｕｓｓｉａｎＦｕｎｃｔｉｏｎＮｅｔｗｏｒｋ：ＮＧｎｅｔ）を、複数の学習手段による学習用に拡張した方式を用いる。ＮＧｎｅｔは強化学習の一方式であるＡｃｔｏｒ−ｃｒｉｔｉｃ学習法を用いてネットワークの結合重みを更新することで、状態入力に対する所望の行動を得ることができる。ここで、状態入力とは学習するモデル入力、行動とはモデル入力の操作量を意味する。

強化学習理論では、学習アルゴリズムが状態入力に対する行動を学習対象から得られる報酬を基に自律的に学習する。Ａｃｔｏｒ−ｃｒｉｔｉｃ学習法では、行動を決定する制御器（Ａｃｔｏｒ）と状態入力を評価する評価器（Ｃｒｉｔｉｃ）を使用し、Ａｃｔｏｒによる行動の結果得られる報酬γと、Ｃｒｉｔｉｃで推定される状態価値Ｖ、Ｖ´を用いて（１）式によりＴＤ（ＴｅｍｐｏｒａｌＤｉｆｆｅｒｅｎｃｅ）誤差δを計算し、これを手掛かりに学習する。

ＮＧｎｅｔでは、状態入力空間にガウス基底関数ノードを配置することにより、行動と状態価値を近似学習する特徴を持つ。すなわち、現在の状態入力に対する基底関数ノードの活性度を計算し、それらに正規化処理を施した正規化活性度を計算する。そして、正規化活性度に出力層への結合重みを乗じたものの線形和を取ることで行動及び状態価値を計算する。この出力層への結合重みが、学習パラメータとなる。学習動作は、（１）式より求めたＴＤ誤差δを用いて結合重みを更新する。この処理を定数回繰り返すことにより、所望の行動及び状態価値を学習する。

強化学習アルゴリズムでは一般に、状態入力の次数が大きくなるほど、状態入力空間が指数的に増大し、学習時間が増加する。本発明では、モデル入力を分割し、複数の学習手段にそれぞれの操作方法を学習させることにより、学習手段当たりの状態入力空間を縮小し、学習を高速化する方式を提供する。

図３は、学習手段７００の構成図である。モデル入力の集合をＸとすると、図３では、学習手段１〜Ｎ（ｎ＝１，２、…Ｎ）が学習する部分モデル入力ｘ_ｎ∈Ｘに対して、学習手段を動作させ行動Δｘ_ｎ及び状態価値Ｖ_ｎを出力する。ここで、ｘ_ｎ＝｛ｘ_ｎ，…，ｘ_ｋｎ，…，ｘ_ｋｎ｝（ｋ_ｎ∈Ｋ_ｎ、Ｋ_ｎ：学習手段ｎが学習する部分モデル入力の添字集合）とする。学習手段ｎは、学習するモデル入力空間に配置された基底関数ノードｊ_ｎ∈Ｊ_ｎ（Ｊ_ｎ：学習手段ｎの基底関数ノードの添字集合）を具備し、状態入力ｘ_ｎに対する基底関数ノードｊ_ｎの活性度αｊ_ｎを（２）式、（３）式により計算する。

次に、（４）式に従って活性度αｊ_ｎを学習手段ｎの活性度の総和で除することにより、正規化活性度ｂｊ_ｎを計算する。正規化活性度ｂｊ_ｎは分割したモデル入力空間上でのモデル入力のＮＧｎｅｔアルゴリズムによる写像である。

図３より、正規化活性度ｂｊ_ｎが出力される中間層ノードからは、出力層において行動Δｘ_ｎ及び状態価値Ｖ_ｎを求めるために、他の学習手段を含めて相互に出力層への結合が存在する。各々の結合には実数値を取る結合重みが設定され、ある出力層ノードに結合する全ての中間層ノードの正規化活性度ｂｊ_ｎに対応する結合重みｗｊ_ｎｋ_ｎ、ｖｊ_ｎを乗じたものの線形和が出力Δｘ_ｎ、Ｖ_ｎとなる。図３において、結合重みｗｊ_ｎｋ_ｎは行動の結合重みであり、ｖｊ_ｎは状態価値の結合重みである。

学習動作では、（１）式を基に学習手段ｎのＴＤ誤差δ_ｎを計算し、δ_ｎに修正する結合重みに対応する正規化活性度ｂｊ_ｎ及び学習率を乗じたものを修正量として求め、結合重みｗｊ_ｎｋ_ｎ、ｖｊ_ｎに加算する。また学習率はｗｊ_ｎｋ_ｎの学習の場合はα_Ａ、Ｖｊ_ｎの学習の場合はα_Ｃをそれぞれ用い、０＜α_Ａ，α_Ｃ≦１である。以上の処理を定数回繰り返すことで、学習手段７００の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。

以上の説明が示すように、本発明における学習手段７００では、学習するモデル入力を分割し、複数の学習手段によってそれらの操作方法を導出・学習する。学習時間は結合重みの修正回数に比例し、結合重み数は基底関数ノード数によって決定される。したがって、学習時間は基底関数ノード数に比例する。また基底関数ノード数は、モデル入力次数に対して指数的に求まるため、本発明により学習手段当たりの学習するモデル入力次数を少なくすることで、基底関数ノード数及び結合重み数を減らし、学習を高速化できる。

また、部分的なモデル入力に対して複数の学習手段が独立に操作方法を学習する場合、他のモデル入力情報を利用できないため、学習が局所解に陥る可能性がある。本発明では、学習手段の動作及び学習アルゴリズムにおいて、共有情報データベース２６０を介して各学習手段の正規化活性度情報を相互に利用できるメカニズムを有するため、局所解を回避しモデル全体を考慮した学習が可能となる。

尚、前記正規化活性度ｂｊ_ｎ、及び結合重みｗｊ_ｎｋ_ｎ、ｖｊ_ｎは、修正後、共有情報データ１２として共有情報データベース２６０に逐次送信・保存される。

図４は、本実施例における共有情報データベース２６０に保存されるデータの態様を示す。図４に示すように、共有情報データベース２６０には、各各の学習手段が具備する基底関数ノードｊ_ｎに対応する正規化活性度ｂｊ_ｎ、及び結合重み情報ｗｊ_ｎｋ_ｎ、ｖｊ_ｎが保存される。各学習手段は共有情報データベース２６０から、前記種種の情報を含む共有情報データ１１を入力し、行動及び状態価値を導出する。以上で、学習手段７００の説明を終了する。

以下では、前記学習手段７００を用いた、図２におけるステップ１０１０、及び１０３０の詳細な動作について、フローチャート図を参照しながら説明する。

図５は、ステップ１０１０、及びステップ１０３０における操作方法の学習の動作を示すフローチャート図である。図５に示したように、学習の動作のフローチャートは、ステップ２０００、２０１０、２０２０、２０３０、２０４０、２０５０、２０６０、２０７０、２０８０、及び２０９０を組み合わせて実行する。以下では、それぞれのステップについて説明する。

ステップ２０００では、学習手段７００の数Ｎ、各学習手段に割当てられたモデル入出力、学習方法、及び学習時に用いる学習率等の種種のパラメータ値を設定する。

ステップ２０１０では、ステップ２０２０〜２０８０の繰り返し回数を示す値である初期化回数Ａを初期化（Ａ＝１に設定）する。次に、ステップ２０２０では、学習を開始する際のモデル入力の初期値を設定する。モデル入力の初期値としては、任意の値を選ぶことができる。ステップ２０３０では、ステップ２０４０〜２０７０の繰り返し回数を示す値である操作回数Ｂを初期化（Ｂ＝１に設定）する。

ステップ２０４０は分岐であり、ステップ２０００で指定した学習方式が交互学習である場合はステップ２０５０へ、一斉学習である場合はステップ２０６０へ進む。ステップ２０５０では、交互学習アルゴリズムを用いて、モデル操作方法を学習する。ステップ２０６０では、一斉学習アルゴリズムを用いてモデル操作方法を学習する。尚、上記の２種類のアルゴリズムの詳細については後述する。

ステップ２０７０は分岐であり、操作回数Ｂがステップ２０００で設定した最大操作回数よりも小さい場合はＢを１加算した後にステップ２０４０に戻り、Ｂが最大操作回数よりも大きい場合は分岐であるステップ２０８０に進む。

ステップ２０８０では、初期化回数Ａがステップ２０００で設定した最大初期化回数よりも小さい場合にはＡを１加算した後にステップ２０２０に戻り、Ａが最大初期化回数よりも大きい場合はステップ２０９０に進む。

ステップ２０９０では、学習した結果を学習情報データベース２３０に送信・保存し、操作方法の学習の動作を終了させるステップに進む。

以上の動作によって、操作方法の学習では、プラント１００の運転員が設定した学習条件に基づき、任意のモデル入力条件からモデル出力目標値へ到達するモデル入力操作方法を獲得できる。

以下では、図５におけるステップ２０５０、及び２０６０の詳細な動作について、フローチャート図を参照しながら説明する。

図６は、ステップ２０５０の交互学習アルゴリズムの動作を示すフローチャート図である。図６に示したように、交互学習アルゴリズムの動作のフローチャートは、ステップ２１１０、２１２０、２１３０、２１４０、２１５０、及び２１６０を組み合わせて実行する。以下では、それぞれのステップについて説明する。

ステップ２１１０では、学習を実行する学習手段番号Ｃを決定する。学習手段番号Ｃは、ｉ）Ｃ＝Ａ％Ｎ＋１、またはｉｉ）Ｃ＝Ｂ％Ｎ＋１によって決定することができる。ここで、演算Ｘ％Ｙは整数Ｘを整数Ｙで除したときの余り値を意味する。即ち、ｉ）では初期化回数Ａ、ｉｉ）では操作回数Ｂをそれぞれ基準とした学習ターンの変更が実施される。

次に、ステップ２１２０では、学習手段Ｃのモデル入力に対する操作量を導出する。

ステップ２１３０では、導出したモデル入力操作量を用いてモデル入力を更新する。

ステップ２１４０では、更新した学習手段Ｃのモデル入力に対して、学習手段Ｃの基底関数ノードの正規化活性度ｂｊ_ｎを導出する。

ステップ２１５０では、導出した正規化活性度情報を共有情報データベース２６０へ送信・保存する。

ステップ２１６０では、学習手段Ｃのモデル操作方法を、共有情報データベースを参照しながら学習し、交互学習アルゴリズムの動作を終了させるステップへ進む。交互学習アルゴリズムでは、学習手段Ｃが学習する際に、他の学習手段は行動をせず、それらのモデル入力は固定とする。そのため、他の学習手段の行動による影響を受けず、精度の高い学習が可能となる。尚、ステップ２１６０の学習アルゴリズムの説明については、後述する。

次に、図５のステップ２０６０の一斉学習アルゴリズムについて説明する。

図７は、一斉学習アルゴリズムの動作を示すフローチャート図である。図７に示したように、一斉学習アルゴリズムの動作のフローチャートは、ステップ２２１０、２２２０、２２３０、２２４０、２２５０、２２６０、２２７０、２２８０、及び２２９０を組み合わせて実行する。以下では、それぞれのステップについて説明する。

ステップ２２１０では、モデル入力の更新及び正規化活性度の導出を実行する学習手段番号Ｃを初期化する（Ｃ＝１）。

次に、ステップ２２２０では、学習手段Ｃのモデル入力に対する操作量を導出する。

ステップ２２３０では、導出したモデル入力操作量を用いてモデル入力を更新する。

ステップ２２４０では、更新した学習手段Ｃのモデル入力に対して、学習手段Ｃの基底関数ノードの正規化活性度ｂｊ_ｎを導出する。

ステップ２２５０では、導出した正規化活性度情報を共有情報データベース２６０へ送信・保存する。

ステップ２２６０は分岐であり、学習手段番号Ｃが学習手段数Ｎ以下である場合には、Ｃを１加算した後ステップ２２２０に戻り、そうでない場合にはステップ２２７０へ進む。

ステップ２２７０では、学習を実行する学習手段番号Ｄを初期化する（Ｄ＝１）。

ステップ２２８０では、学習手段Ｄのモデル操作方法を、共有情報データベースを参照しながら学習する。

ステップ２２９０は分岐であり、学習手段番号Ｄが学習手段数Ｎ以下である場合には、Ｄを１加算した後ステップ２２８０に戻り、そうでない場合には一斉学習アルゴリズムを終了させるステップへ進む。

一斉学習アルゴリズムでは、１回の操作で、全ての学習手段のモデル入力を操作し、その結果得られた報酬及びＴＤ誤差を用いて操作方法を一斉に学習する。そのため、学習に必要な初期化回数及び操作回数を交互学習アルゴリズムよりも少なくでき、より高速に学習できる。尚、ステップ２２８０の学習アルゴリズムの説明については、後述する。

次に、図６におけるステップ２１６０、及び図７における２２８０の学習アルゴリズムの詳細な動作について、図８のフローチャート図を参照しながら説明する。

図８は、学習アルゴリズムの動作を示すフローチャート図である。図８に示したように、学習アルゴリズムの動作のフローチャートは、ステップ２３１０、２３２０、２３３０、及び２３４０を組み合わせて実行する。以下では、それぞれのステップについて説明する。

ステップ２３１０では、予め設定した各学習手段の報酬式に従って、報酬を計算する。

次に、ステップ２３２０では、報酬、モデル入力更新前後の状態価値を用いてＴＤ誤差を計算する。

ステップ２３３０では、計算したＴＤ誤差、及び共有情報データベース２６０に保存される正規化活性度情報を入力し、結合重みを更新する。

ステップ２３４０では、学習した結合重みを共有情報データベース２６０に送信・保存し、学習アルゴリズムを終了させるステップに進む。

以上で、図２におけるステップ１０１０、及び１０３０の詳細な動作の説明を終了する。

次に、画像表示装置９２０に表示される画面について図９及び図１０を用いて説明する。

図９及び図１０は、画像表示装置９２０に表示される画面の一実施例である。図９は、図５のフローチャートにおけるステップ２０００の学習条件設定画面の一例である。図９の画面が画像表示装置９２０に表示された状態で、マウス９０２を操作して画面上の数値ボックスにカーソルを重ね、キーボード９０１を用いることで数値を入力できる。また、マウス９０２を操作してカーソルをボタンに重ね、マウス９０２をクリックすることでボタンを選択する（押す）ことができる。同様に、マウス９０２を操作して画面上のチェックボックスにカーソルを重ね、マウス９０２をクリックすることでチェックを入れることができる。

図９では、数値ボックス３００１に、学習時に使用する学習手段７００の数を入力し、ボタン３００２を選択することで学習手段の数を決定することができる。そして、モデル入出力設定画面３００３において、各各の学習手段が学習に用いるモデル入出力を設定する。モデル入出力設定画面３００３では、割当てたいモデル入出力のチェックボックスをチェックすることで、学習手段に任意のモデル入出力を割当てることができる。また、チェックボックス３００４を選択することで、前回の学習で用いた設定を適用することができる。

チェックボックス３００５と３００６では、学習方法を決定する。即ち、交互学習アルゴリズムを選択する場合はチェックボックス３００５を、一斉学習アルゴリズムを選択する場合はチェックボックス３００６をチェックする。

数値ボックス３００７〜３０１２では、学習パラメータを設定する。即ち、行動学習率α_Ａ、状態価値学習率α_Ｃ、割引率γ、基底分散σｋ_ｎ、最大初期化回数、及び最大操作回数を夫夫設定することができる。また、チェックボックス３０１３を選択することで、前回の学習で用いた設定を適用することができる。

以上の学習設定が終了後、ボタン３０１４を選択することで、図５に示すフローチャートを動作させ、学習を開始することができる。また、ボタン３０１５を選択すると初期画面に戻る。

図１０は、図２のフローチャートにおけるステップ１０４０の操作実行画面の一例である。図１０では、プラントの運転開始後に実行したモデル入力の操作履歴、操作によるモデル出力の制御結果履歴、ならびに本発明を使用しない場合の操作及び制御の推定結果を表示する。本画面において、モデル入力表示タグ３０２１、及びモデル出力表示タグ３０２５を選択することにより、任意のモデル入力の操作履歴、及びモデル出力の制御結果履歴を表示させることができる。また各画面上では、時間を表す横軸に対して、操作履歴３０２２、制御結果履歴３０２６、今回の学習結果による操作ガイダンス値３０２３、ガイダンス操作後のモデル出力予測値３０２７、本発明を使用しない場合の推定操作結果３０２４、推定制御結果３０２９、ならびに制御目標値３０２８がそれぞれ表示される。プラント１００の運転員は、本画面を通じて操作ガイダンス値３０２３に対するモデル出力予測値３０２７の関係から、その制御効果を確認することができる。すなわち今回のガイダンス操作により、モデル出力予測値３０２７が制御目標値３０２８に近づく効果が得られる場合はボタン３０３０を選択することで操作を実行し、逆にガイダンス操作によりモデル出力予測値３０２７が悪化する場合は、ボタン３０３１を選択することで操作を回避することができる。その際、今回の操作は休止するか、他の制御ロジック等を用いて導出した操作方法に代替させることができる。

また、本発明による操作履歴３０２２と制御結果履歴３０２６を、本発明を使用しない場合の推定操作結果３０２４、ならびに推定制御結果３０２９と比較すると、本発明では制御周期毎にモデルを修正後、再学習を実行するため、モデルの特性変化に追従した操作が実行され、モデル出力を制御目標値に近づける効果が得られていることがわかる。一方、本発明を使用しない場合、学習時間が増加して制御周期毎に再学習を実行できないため、モデルの特性変化に対して適切な操作が実行されず、所望の制御効果が得られない。このように、プラント１００の操作員は、本画面を通じて本発明を使用することによる制御効果を、視覚的に確認することができる。以上で、画像表示装置９２０に表示される画面の説明を終了する。

実施例１における図１の学習手段７００は、以下に示す構造を取ることもできる。

図１１に、実施例２における学習手段７００の構成図を示す。図１１では、モデル入力ｘ_ｎに対して、各学習手段のモデル入力空間に配置された基底関数ノードｊ_ｎの活性度ａｊ_ｎを（２）式、（３）式に従い計算する。次に（５）式に従い、活性度ａｊ_ｎを全学習手段の活性度の総和で除することにより、正規化活性度ｂｊ_ｎを計算する。

最後に、図１１に示すように正規化活性度ｂｊ_ｎに結合重みｗｊ_ｎｋ_ｎ又は、ｖｊ_ｎを乗じたものの線形和を取り、行動Δｘ_ｎ及び状態価値Ｖ_ｎを計算する。

学習動作では、実施例１と同様に（１）式を基に学習手段ｎのＴＤ誤差δ_ｎを計算し、δ_ｎに修正する結合重みに対応する中間層ノードの正規化活性度ｂｊ_ｎ及び学習率を乗じたものを修正量として求め、結合重みｗｊ_ｎｋ_ｎ、ｖｊ_ｎに加算する。

以上の処理を定数回繰り返すことで、学習手段７００の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。以上の動作により、本実施例における学習手段７００は、実施例１と同様に、各学習手段の正規化活性度情報を相互に利用して学習する。

その他の制御装置１００の動作アルゴリズム及び、画像表示装置９２０に示される画面仕様は、実施例１と同じである。本実施例によれば、実施例１と同様の効果が得られるのに加えて、全てのモデル入力空間におけるモデル入力の写像（正規化活性度）が得られるため、モデル入力間の相互関係を正確に近似して行動及び状態価値を学習できる効果が得られる。

実施例１及び２における、図１の学習手段７００は、以下に示す構造を取ることもできる。

図１２に、実施例３における学習手段７００の構成図を示す。図１２では、モデル入力ｘ_ｎに対して、各学習手段のモデル入力空間に配置された基底関数ノードｊ_ｎの活性度ａｊ_ｎを（２）式、（３）式に従い計算する。次に（６）式に従い、活性度ａｊ_ｎを学習手段ｎの活性度の総和で除することにより、部分正規化活性度ａ´ｊ_ｎを計算する。

次に、（７）式に従い、部分正規化活性度ａ´ｊ_ｎを全学習手段の活性度の総和で除することにより、正規化活性度ｂｊ_ｎを計算する。

最後に、図１２に示すように正規化活性度ｂｊ_ｎに結合重みｗｊ_ｎｋ_ｎ又は、ｖｊ_ｎを乗じたものの線形和を取り、行動Δｘ_ｎ及び状態価値Ｖ_ｎを計算する。

学習動作では、実施例１及び２と同様に（１）式を基に学習手段ｎのＴＤ誤差δ_ｎを計算し、δ_ｎに修正する結合重みに対応する中間層ノードの正規化活性度ｂｊ_ｎ及び学習率を乗じたものを修正量として求め、結合重みｗｊ_ｎｋ_ｎ、ｖｊ_ｎに加算する。

以上の処理を定数回繰り返すことで、学習手段７００の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。以上の動作により、本実施例における学習手段７００は、実施例１及び２と同様に、各学習手段の正規化活性度情報を相互に利用して学習する。

その他の制御装置１００の動作アルゴリズム及び、画像表示装置９２０に示される画面仕様は、実施例１及び２と同じである。本実施例３によれば、実施例１及び２と同様の効果が得られる。また、本実施例３ではモデル入力の分割した入力空間に対する写像と、全てのモデル入力空間に対する写像を同時に考慮する。このような２段階の正規化処理によって、実施例２に比べてモデル入力間の相互関係をより高精度に近似し、行動及び状態価値を学習できる。

実施例１〜３における、図１の学習手段７００は、以下に示す構造を取ることもできる。

図１３に、実施例４における学習手段７００の構成図を示す。図１３では、モデル入力ｘ_ｎに対して、各学習手段のモデル入力空間に配置された基底関数ノードｊ_ｎの活性度ａｊ_ｎを（２）式、（３）式に従い計算後、（４）式に従って部分正規化活性度ｂｊ_ｎを計算する。次に（８）式に従い、各学習手段に共通ノードとして備えさせた情報共有ノードｍ∈Ｍ（Ｍ：情報共有ノード集合）の出力値ｃ_ｍを計算する。

最後に、図１３に示すように情報共有ノードの出力値ｃ_ｍに結合重みｗｊ_ｎｋ_ｎ、又はｖｊ_ｎを乗じたものの線形和を取り、行動Δｘ_ｎ及び状態価値Ｖ_ｎを計算する。

学習動作では、ｉ）行動及び状態価値結合重みｗｍｋ_ｎ、ｖ_ｍ、ｉｉ）情報共有ノード結合重みｕｊ_ｎｍの順に結合重みを学習する。具体的には、先ず実施例１、２及び３と同様に（１）式を基に学習手段ｎのＴＤ誤差δ_ｎを求め、δ_ｎに修正する結合重みに対応する情報共有ノード出力値ｃ_ｍ及び学習率を乗じたものを修正量として求め、結合重みｗｍｋ_ｎ、ｖ_ｍに加算する。

次にｗｍｋ_ｎ、ｖ_ｍの学習結果を用いて、情報共有ノードのＴＤ誤差δ´_ｍを（９）式に従って求める。

δ´_ｍに修正する結合重みに対応する部分正規化活性度ｂｊ_ｎ及び情報共有ノードの結合重み学習率α_Ｈ（０＜α_Ｈ≦１）を乗じたものを修正量として求め、結合重みｕｊ_ｎｍに加算する。

以上の処理を定数回繰り返すことで、学習手段７００の行動及び状態価値を学習し、所望のモデル操作方法を得ることができる。

上記に示すように、本実施例４における学習手段７００の動作アルゴリズムでは、各学習手段が具備する基底関数ノードに対して導出した活性度を、中間層の情報共有ノードにおいて集約し、得られた情報共有ノード出力値に結合重みｗｍｋ_ｎ、ｖ_ｍを乗じて線形和を取ることで操作方法を導出する。即ち、分割したモデル入力に対して学習手段間で情報を相互に利用した学習が実行され、実施例１と同様の効果が得られる。更に本実施例４によれば、正規化処理による写像のみならず、非線形関数単調増加関数による写像を用いて学習することにより、モデル特性が強い非線形特性を持つ場合でも、適切な行動及び状態の近似学習が実行される。

尚、前記部分正規化活性度ｂｊ_ｎ、情報共有ノードの出力値ｃ_ｍ、結合重みｗｍｋ_ｎ、ｖ_ｍ及びｕｊ_ｎｍは、修正後に共有情報データ１２として共有情報データベース２６０に逐次送信・保存される。

図１４は、本実施例４における共有情報データベース２６０に保存されるデータの態様を示す。図１４に示すように、共有情報データベース２６０には、（ａ）各学習手段が具備する基底関数ノードｊ_ｎの部分正規化活性度ｂｊ_ｎ、中間層結合重みｕｊ_ｎｍの各情報、並びに（ｂ）情報共有ノードｍの出力値ｃ_ｍ、出力層結合重みｗｍｋ_ｎ、ｖ_ｍの各情報が保存される。各学習手段は共有情報データベース２６０から、前記した種種の情報を含む共有情報データ１１を入力し、行動及び状態価値を導出する。

その他の学習手段７００の動作アルゴリズムは、実施例１〜３と同じである。また、画像表示装置９２０に示される画面仕様は、図９の学習実行画面において、中間層結合重みの学習率α_Ｈを設定する数値ボックスが追加される以外は、実施例１〜３と同じである。

本発明のプラントの制御装置２００を、火力発電プラントに適用した実施例について説明する。尚、火力発電プラント以外のプラントを制御する際にも、本発明の実施例の制御装置２００を使用できることは言うまでもない。

図１５は、火力発電プラントの概略を示す図である。先ず、火力発電プラントの発電の仕組みについて説明する。

火力発電プラントを構成するボイラ１０１には、ミル１１０で石炭を細かく粉砕した燃料となる微粉炭と、微粉炭搬送用の１次空気、及び燃焼調整用の２次空気を供給するバーナー１０２が設けられており、このバーナー１０２を介して供給した微粉炭をボイラ１０１の内部で燃焼させる。尚、微粉炭と１次空気は配管１３４から、２次空気は配管１４１からバーナー１０２に導かれる。

また、ボイラ１０１には２段燃焼用の空気をボイラ１０１に投入するアフタエアポート１０３が設けられており、空気は配管１４２からアフタエアポート１０３に導かれる。

燃焼により発生した高温の燃焼ガスは、ボイラ１０１の内部の経路に沿って下流側に流れた後、ボイラ１０１に配置された熱交換器１０６を通過して熱交換した後、エアーヒーター１０４を通過する。エアーヒーター１０４を通過したガスは、排ガス処理を施した後、煙突から大気に放出される。

ボイラ１０１の熱交換器１０６を循環する給水は、給水ポンプ１０５を介して熱交換器１０６に給水を供給し、熱交換器１０６においてボイラ１０１を流下する燃焼ガスによって過熱され、高温高圧の蒸気となる。尚、本実施例では熱交換器の数を１つとしているが、熱交換器を複数配置するようにしてもよい。

熱交換器１０６を通過した高温高圧の蒸気は、タービンガバナ１０７を介して蒸気タービン１０８に導かれ、蒸気の持つエネルギーによって蒸気タービン１０８を駆動して発電機１０９で発電する。

火力発電プラントには、火力発電プラントの運転状態を検出する様々な計測器が配置されており、これらの計測器から取得されたプラントの計測信号は、計測信号１として制御装置２００に送信される。例えば、図１５には、流量計測器１５０、温度計測器１５１、圧力計測器１５２、発電出力計測器１５３、及び濃度計測器１５４が図示される。

流量計測器１５０では、給水ポンプ１０５からボイラ１０１に供給される給水の流量を計測する。また、温度計測器１５１、及び圧力計測器１５２は、熱交換器１０６から蒸気タービン１０８に供給される蒸気の温度、及び圧力を計測する。

発電機１０９で発電された電力量は、発電出力計測器１５３で計測する。ボイラ１０１を通過する燃焼ガスに含まれている成分（ＣＯ、ＮＯｘなど）の濃度に関する情報は、ボイラ１０１の下流側に設けた濃度計測器１５４で計測することができる。

尚、一般的には図１５に図示した以外にも多数の計測器が火力発電プラントに配置されるが、ここでは図示を省略する。

次に、ボイラ１０１の内部にバーナー１０２から投入される１次空気と２次空気の経路、及びアフタエアポート１０３から投入される空気の経路について説明する。

１次空気は、ファン１２０から配管１３０に導かれ、途中でボイラ１０１の下流側に設置されたエアーヒーター１０４を通過する配管１３２と通過せずにバイパスする配管１３１とに分岐して、再び配管１３３にて合流し、バーナー１０２の上流側に設置されたミル１１０に導かれる。

エアーヒーター１０４を通過する空気は、ボイラ１０１を流下する燃焼ガスにより加熱される。この１次空気を用いて、ミル１１０において粉砕した微分炭を１次空気と共にバーナー１０２に搬送する。

ファン１２１を用いて配管１４０から投入された空気は、エアーヒーター１０４で同様にして加熱された後に、２次空気用の配管１４１とアフタエアポート用の配管１４２とに分岐して、それぞれバーナー１０２とアフタエアポート１０３に導かれる。

図１６は、図１５に示した火力発電プラントにおけるエアーヒーター１０４と関連する配管部の拡大図である。図１６に示すように、配管１３１、１３２、１４１、１４２にはエアダンパ１６０、１６１、１６２、１６３が夫夫配置される。これらのエアダンパを操作することにより、配管１３１、１３２、１４１、１４２における空気が通過する面積を変更することができるので、配管１３１、１３２、１４１、１４２を通過する空気流量を個別に調整できる。

ボイラ１０１では、制御装置２００によって生成された操作信号１８を用いて、エアダンパ１６０、１６１、１６２、１６３などの機器を操作する。尚、本実施例では、エアダンパ１６０、１６１、１６２、１６３などの機器のことを操作端と呼び、これを操作するのに必要な指令信号を操作信号と呼ぶ。

以降では、本発明の制御装置２００を上記火力発電プラントに用いた場合に、操作端をボイラ前後のバーナー、アフタエアポートのエアダンパとし、被制御量をボイラより排出されるＣＯ、ＮＯｘ濃度とする場合について説明する。尚、本実施例では、操作端の操作量がモデル入力、ＣＯ、ＮＯｘ濃度がモデル出力となる。また、本実施例における学習手段７００には、本発明の実施例１〜４のいずれも用いることができる。

図１７は、本実施例におけるプラント１００の制御装置２００を示すシステム図であり、図１に対応する。図１７では、制御装置２００は図１の構成に加えて知識データベース２７０を具備しており、知識データベース２７０には操作端とＣＯ、ＮＯｘ発生量の因果関係に関する情報が保存される。また、外部入力装置９００、保守ツール９１０、及び画像表示装置９２０を用いることにより、知識データベース２７０に保存される情報にアクセスすることができる。

図１８に、知識データベース２７０に保存されるデータの態様を示す。図１８には、（ａ）操作端個別のＣＯ、ＮＯｘ特性、及び（ｂ）操作端グループ別のＣＯ、ＮＯｘ特性が保存される。操作端個別の特性は、操作端を個別に操作した場合における、ＣＯ、ＮＯｘの感度情報が記載され、これらは試運転時を含む過去の運転データ及び数値解析結果等を用いて作成される。この情報はプラント運転開始後の運転データの蓄積に伴い逐次変更できる。一方、グループ別の特性は、過去のプラント操作時に使用した操作端の割当てパターン、及び操作結果によるＣＯ、ＮＯｘ濃度の変化量が記載される。図１８において、操作端のチェックボックスにチェックが入っているものは、該当する学習手段が使用したものを表す。尚、図１８において、Ｒ＿０００１は学習結果データを区別するために割り振られた番号である。

図１９は、本発明の制御装置を火力発電プラントに用いた場合に、画像表示装置９２０に表示される画面の一実施例であり、図９に対応する画面である。図１９では、モデル入出力設定画面３１０５において、バーナー、エアポートのエアダンパ位置を示す操作端３１０３を含むプラント前／後面図が表示されており、プラント１００の運転員は、モデル入力を割当てたい学習手段に画面上のカーソル３１０６を合せた後、画面上の操作端３１０３をクリックし、ボタン３１０４を選択することでモデル入出力設定画面３１０５内のチェックボックスにチェックを入れることができる。同様にモデル出力についても、ＣＯ、ＮＯｘのチェックボックスにチェックを入れることで、割当てたい学習手段を指定できる。

以上の画像表示装置９２０に表示される画面仕様及び、前記知識データベース２７０に保存される情報を用いれば、火力プラントから排出されるＣＯ、ＮＯｘの制御方法の学習に効果的なモデル入出力の割当てを、プラントの操作端の位置関係を把握しながら、知識情報を用いて容易に実行できる。

本発明の実施例１によるプラント制御装置の構成を示すブロック図である。本発明の実施例１によるプラントの制御装置の動作フローチャートである。本発明の実施例１によるプラントの制御装置における学習手段の構成図である。本発明の実施例１による共有情報データベースに保存される情報の態様を示す図面である。本発明の実施例１によるプラントの制御装置の動作における学習アルゴリズムの動作を示すフローチャート図である。本発明の実施例１によるプラントの制御装置の動作における交互学習の詳細な動作を示すフローチャート図である。本発明の実施例１によるプラントの制御装置の動作における一斉学習の詳細な動作を示すフローチャート図である。本発明の実施例１によるプラントの制御装置の動作における学習アルゴリズムの詳細な動作を示すフローチャート図である。本発明の実施例１によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。本発明の実施例１によるプラントの制御装置において、操作を実行する際に、画像表示装置に表示される画面の一例である。本発明の実施例２によるプラントの制御装置における学習手段の構成図である。本発明の実施例３によるプラントの制御装置における学習手段の構成図である。本発明の実施例４によるプラントの制御装置における学習手段の構成図である。本発明の実施例４による共有情報データベースに保存される情報の態様を示す図面である。火力発電プラントの構成を説明する図である。火力発電プラントにおいて、エアーヒーター部分の拡大図である。本発明の実施例５によるプラント制御装置の構成を示すブロック図である。本発明の実施例５による知識データベースに保存される情報の態様を示す図面である。本発明の実施例５によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。

符号の説明

１…計測信号、１８…操作信号、１００…プラント、２００…制御装置、２０１…外部入力インターフェイス、２０２…外部出力インターフェイス、２１０…計測信号データベース、２２０…モデル構築データベース、２３０…学習情報データベース、２４０…制御ロジックデータベース、２５０…操作信号データベース、２６０…共有情報データベース、２７０…知識データベース、３００…数値解析手段、４００…計測信号変換手段、５００…モデル、６００…モデル入出力生成手段、７００…学習手段、８００…操作信号生成手段、９００…外部入力装置、９０１…キーボード、９０２…マウス、９１０…保守ツール、９１１…外部入力インターフェイス、９１２…データ送受信処理部、９１３…外部出力インターフェイス、９２０…画像表示装置。

Claims

プラントから取得した計測信号を用いてプラントの操作信号を計算し、該操作信号をプ
ラントに送信するプラントの制御装置において、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル
出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値
を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約し前記モデルへ入力す
る機能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する
学習手段に対してそれぞれ出力する機能とを備えたモデル入出力生成手段とを具備し、
前記学習手段には、前記モデル入力を複数のグループに分割したものを入力として与え
た時に、該学習手段が具備する基底関数ノードの演算処理結果として得られる正規化活性
度、該正規化活性度の加重和を非線形処理した結果得られる情報共有ノード出力値、及び
モデル入力の生成方法の導出に用いる結合重みのうち、少なくとも一つの情報を該学習手
段間で相互に利用することで、モデル入力の生成方法の導出及び学習を実行する機能が備
えられていることを特徴とするプラントの制御装置。
請求項１に記載されたプラントの制御装置において、
前記学習手段では、プラントの操作方法を学習する際に、学習手段を一つずつ交互に動
作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能と、学習手段を
全て動作させ、モデルを操作した結果得られるモデル出力を用いて学習する機能のうち、
いずれか一つが用いられることを特徴とするプラントの制御装置。
請求項１に記載されたプラントの制御装置において、
前記計測信号データベースと前記操作信号データベースに保存される情報を画面に表示
する機能と、前記学習手段で用いるパラメータ情報、及びモデル入力とモデル出力の分割
情報を、画面表示機能を通じて設定する機能と、過去のプラント運転結果と制御結果の履
歴を画面に表示する機能の少なくとも一つが備えられていることを特徴とするプラントの
制御装置。
請求項１に記載されたプラントの制御装置において、
前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置し
た基底関数ノードから出力される活性度を、該学習手段が有する全ての基底関数ノードの
活性度総和で正規化処理することにより正規化活性度を導出する機能と、
該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを
用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えら
れていることを特徴とするプラントの制御装置。
請求項１に記載されたプラントの制御装置において、
前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置し
た基底関数ノードから出力される活性度を、全ての学習手段が有する全ての基底関数ノー
ドの活性度総和で正規化処理することにより正規化活性度を導出する機能と、
該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを
用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えら
れていることを特徴とするプラントの制御装置。
請求項１に記載されたプラントの制御装置において、
前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置し
た基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活
性度総和で正規化処理することにより部分正規化活性度を導出する機能と、
該部分正規化活性度を全ての学習手段が有する全ての基底関数ノードの活性度総和で正
規化処理することにより正規化活性度を導出する機能と、
該正規化活性度ならびに他の学習手段が同様に求めた正規化活性度に対し、結合重みを
用いて重み付け和を計算することでモデル入力の生成方法を導出する機能と、
該正規化活性度に比例する値を修正値として、結合重みの値を学習する機能とが備えら
れていることを特徴とするプラントの制御装置。
請求項１に記載されたプラントの制御装置において、
前記学習手段には、分割したモデル入力を入力として与えた時に、入力空間上に配置し
た基底関数ノードから出力される活性度を該学習手段が有する全ての基底関数ノードの活
性度総和で正規化処理することにより部分正規化活性度を導出する機能と、
各学習手段に共通に設けられた情報共有ノードにおいて、該部分正規化活性度、ならび
に他の学習手段が同様に求めた部分正規化活性度に対し、結合重みを用いて重み付け非線
形処理を施すことにより情報共有ノード出力値を導出する機能と、
該情報共有ノード出力値に対し、前記結合重みを用いて重み付け和を計算することでモ
デル入力の生成方法を導出する機能と、
該部分正規化活性度ならびに該情報共有ノード出力値に比例する値を修正値として、前
記結合重みの値を学習する機能とが備えられていることを特徴とするプラントの制御装置
。
火力発電プラントの計測信号を用いて、前記火力発電プラントに与える操作信号を導出
する操作信号生成部を備えた火力発電プラントの制御装置において、
前記計測信号には火力発電プラントから排出されるガスに含まれる窒素酸化物濃度、及
び一酸化炭素濃度の少なくとも１つが含まれ、
前記操作信号には空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量の少なく
とも１つを決定する信号が含まれ、
前記制御装置は、
過去の計測信号が保存される計測信号データベースと、
過去の操作信号が保存される操作信号データベースと、
火力発電プラントに操作信号を与えた時の計測信号の値を推定するモデルと、
前記モデルにおいて、操作信号に該当するモデル入力、及び計測信号に該当するモデル
出力をそれぞれ複数のグループに分割し、各グループのモデル出力が予め設定した目標値
を達成するように、各グループのモデル入力の生成方法を学習する複数の学習手段と、
前記学習手段によって生成された各グループのモデル入力を集約しモデルへ入力する機
能と、各グループのモデル出力の分割設定情報に従いモデル出力を分割し、該当する学習
手段に対してそれぞれ出力する機能とを有するモデル入出力生成手段と、
前記モデル入力を個別に操作した場合に各モデル入力がモデル出力に与える特性に関す
る情報、ならびにモデル入力のグループへの分割パターンがモデル出力に与える特性に関
する情報が保存される知識データベースとを具備し、
前記学習手段には、請求項４〜７に記載されるモデル入力の生成方法の導出及び学習方
式のうち、少なくとも一つの機能が備えられていることを特徴とする火力発電プラントの
制御装置。
請求項８に記載した火力発電プラントの制御装置において、
前記学習手段には、請求項２に記載される機能が備えられていることを特徴と
する火力発電プラントの制御装置。
請求項８に記載された火力発電プラントの制御装置において、
前記計測信号データベースと前記操作信号データベース、ならびに前記知識データベー
スに保存される情報を、画面に表示する機能と、前記学習手段で用いるパラメータ情報、
及びモデル入力とモデル出力の分割情報を、画面表示装置に表示される火力発電プラント
の図面情報と対応させて設定する機能と、過去のプラントの運転結果と制御結果の履歴を
画面に表示する機能のうち少なくとも一つが備えられていることを特徴とするプラントの
火力発電プラントの制御装置。