JP2010146068A

JP2010146068A - プラントの制御装置及び火力発電プラントの制御装置

Info

Publication number: JP2010146068A
Application number: JP2008319568A
Authority: JP
Inventors: Toru Eguchi; 徹江口; Akihiko Yamada; 昭彦山田; Hisahiro Kusumi; 尚弘楠見; Takao Sekiai; 孝朗関合; Masayuki Fukai; 雅之深井; Satoru Shimizu; 悟清水; Yoshinari Hori; 嘉成堀
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-12-16
Filing date: 2008-12-16
Publication date: 2010-07-01

Abstract

【課題】制御対象の特性が複雑で情報が不完全なプラントの制御において、制御装置に内包された探索手段により自律的に抽出した、効率的な問題解決のための学習指針を用いることで、望ましい操作方法を制御周期以内で学習可能なプラントの制御装置を提供する。
【解決手段】本制御装置は、プラントに制御信号を与えた時に取得する計測信号の値を推定するモデルと、モデル出力が目標値を達成するようにモデル入力の生成方法を学習する操作方法学習部と、操作方法学習部における学習の制約条件及び学習結果に関する情報を保存する学習情報データベースと、所望のモデル出力が得られる運転条件に相当するモデル入力を探索する最適解探索部と、最適解探索部における探索の制約条件及び最適解探索に関する情報を保存する探索情報データベースとを備え、操作方法学習部は、最適解探索部で得られた最適な運転条件に関する情報を用いてモデル入力を生成する。
【選択図】図１

Description

本発明は、プラントの制御装置に関するものであり、特に石炭等の化石燃料を用いて発電する火力発電プラントの制御装置に関する。

プラントの制御装置は、制御対象であるプラントから得られる計測信号を処理し、制御対象に与える制御信号（操作信号）を算出し、制御対象に伝達する。制御装置には、プラントの計測信号がその目標値を満足するように、操作信号を計算するアルゴリズムが実装される。

プラントの制御に用いられている制御アルゴリズムとして、ＰＩ（比例・積分）制御アルゴリズムがある。ＰＩ制御では、プラントの計測信号とその目標値との偏差に比例ゲインを乗じた値に、偏差を時間積分した値を加算して、制御対象に与える操作信号を導出する。

ＰＩ制御を用いた制御アルゴリズムは、ブロック線図などで入出力関係を記述することができるため、入力と出力の因果関係が分かりやすく、多くの適用実績がある。しかし、プラント運転状態の変更や環境の変化など、事前に想定していない条件でプラントを運転する場合には、制御ロジックを変更するなどの作業が必要になる場合がある。

一方、プラントの運転状態や環境の変化に適応できる制御方式には、制御アルゴリズムやパラメータ値を自動的に修正する適応制御や学習アルゴリズムを用いた制御方式がある。学習アルゴリズムを用いてプラントの制御装置の操作信号を導出する方法として、特許文献１には、強化学習理論を用いた制御装置に関する技術が記載されている。この制御装置は、制御対象の特性を予測するモデルと、望ましいモデル出力の値が得られるようなモデル入力の操作方法を学習する学習部とを持つ。学習部において学習したモデル入力をモデルに入力することで、モデル出力が望ましい値に近づく効果が得られる。また、操作信号の変更により得られるプラントの計測情報を基に、モデル特性を逐次修正し、修正したモデルを再学習することで、高い適応性を実現する。モデルが修正される周期（制御周期）以内で学習を終了できない場合は、制御目標を達成する制御ロジックの構築に時間を要するため、運用コストの面で望ましくない。そのため、学習は制御周期以内に終了することが望ましい。

このような学習型適応制御では、設計者による望ましい操作への指針が与えられていない状況でも、ある学習指針に従って操作の決定に必要なパラメータを更新することで操作方法を自律的に獲得する。しかし、その学習指針の多くは発見的・試行錯誤的なプロセスを通じて望ましい操作方法を獲得するものであり、学習の対象となる問題の規模や性質によっては、解の組み合わせ数の増加によって学習に時間を要する場合や、学習が停滞し望ましい操作方法の獲得に至らない場合が想定される。

一方で、学習型適応制御が有する上記の課題に対して、学習する問題を複数の小問題に分解し、小問題に対する学習結果を有機的に結合することで、元の問題に対する望ましい操作方法を獲得する手法が検討されており、小問題への分割による学習時間増加の抑制効果が期待されている。

例えば非特許文献１には、強化学習による制御器において、分割した小問題毎に学習目標であるサブゴールを設定して階層的な構造を与え、各サブゴールの学習と最終的な学習目標を達成するためのサブゴールの切り替え制御則とを同時に学習させることで、学習時間の増加、及び学習の停滞を回避する技術が記載されている。

特開２０００−３５９５６号公報 Morimoto, J., Doya, K.： Acquisition of stand-up behavior by a real robot using hierarchical reinforcement learning. Robotics and Autonomous Systems, 36, 37-51 (2001)

特許文献１、及び非特許文献１の技術をプラントの制御装置へ適用した場合、制御目標を達成するプラントの操作信号の生成方法を自動的に学習できる。

ところが、一般に複雑かつ強い非線形性を持つプラントの特性に対して学習する場合、従来技術の試行錯誤的なプロセスでは、学習を制御周期以内で終了させることが困難となり、制御目標を達成する制御ロジックの構築に時間を要してしまう可能性がある。また、問題を複数の小問題に分割することを考える場合、問題の分割やそれに伴うサブゴールの設定は設計者の経験的な知識に依存する部分が大きく、特性が複雑でそれに関する情報が不完全な問題に対しては、適切な問題分割・サブゴールの設定が困難となり、望ましい操作方法を学習できない可能性がある。

本発明は、以上の従来技術が有する課題に鑑みてなされたものであり、その目的は、制御対象の特性が複雑で、それに関する情報が不完全な場合が多いプラントの制御において、制御装置に内包された探索手段によって自律的に抽出した、効率的な問題解決のための学習指針を用いることで、望ましい操作方法を制御周期以内で学習し、制御目標を達成する制御ロジックを短期間で構築可能なプラントの制御装置を提供することである。ここで、学習指針とは、望ましいモデル出力が得られる最適なプラントの運転条件に関する情報を指す。

本発明は、制御・計測対象のプラントに制御信号を与えた時に取得する計測信号の値を推定するモデルと、前記モデルを用いて、前記計測信号に相当するモデル出力が目標値を達成するように、前記制御信号に相当するモデル入力の生成方法を学習する操作方法学習部と、前記操作方法学習部における学習の制約条件及び学習結果に関する情報を保存する学習情報データベースとを備え、前記計測信号を用いてプラントの制御信号を計算し、この制御信号をプラントに送信するプラントの制御装置において、前記モデルを用いて、予め設定した制御目標及び制約条件を満足する所望のモデル出力が得られる運転条件に相当するモデル入力を探索する最適解探索部と、前記最適解探索部における探索の制約条件及び最適解探索に関する情報を保存する探索情報データベースとを備え、前記操作方法学習部は、前記最適解探索部の探索結果である最適な運転条件に関する情報を用いてモデル入力を生成することを特徴とする。

本発明の望ましい実施態様によれば、最適解探索部により自律的に獲得した、望ましい運転条件に関する情報を用いて、学習時の操作を実行する。これにより、学習時の操作に望ましい運転条件への指向性を持たせることができ、試行錯誤的な学習方式に比べて効率的に学習できる。また、そのような望ましい運転条件は、設計者の知識やプラントの特性に関する先験情報を用いることなく獲得できるため、プラントの特性に関する情報が不完全な場合においてもロバストな制御性能が期待できる。

本発明によるプラントの制御装置において、操作方法学習部は、学習情報データベース及び探索情報データベースに保存された情報を用いてモデル入力の操作方法を決定するモデル入力生成機能と、モデルを操作した結果得られるプラントの特性値に相当するモデル出力を用いてモデルの操作に対する評価値を計算する評価値計算機能と、学習情報データベースに保存された情報を用いてモデル入力の操作方法を学習する操作学習機能のうち、少なくとも１つを備えることが望ましい。

また、モデル入力生成機能は、学習情報データベースに保存された学習結果を基に試行錯誤的に決定される基準操作量ベクトルを算出する機能と、探索情報データベースに保存された所望の運転条件に関する情報を基に決定された最良解移動ベクトルを算出する機能と、基準操作量ベクトルと最良解移動ベクトルとを基に所望の運転条件への指向性を持つ操作量ベクトルを算出する機能のうち、少なくとも１つを備えることが望ましい。

また、モデル入力生成機能は、操作量ベクトルを算出する際に、予め定めた一定のパラメータに基づいて算出する機能と、現在の運転条件から所望の運転条件までの距離情報を用いて適応的に調整して算出する機能のうち、少なくとも１つを備えることが望ましい。

本発明によるプラントの制御装置は、画像表示装置と接続され、学習情報データベース及び探索情報データベースに保存された情報を画像表示装置に表示する機能と、操作方法学習部及び最適解探索部で用いる学習・探索条件が画像表示装置を介して設定される機能と、所望の運転条件の探索結果及び操作方法の学習結果を画像表示装置に表示する機能のうち、少なくとも１つを備えることが望ましい。

学習及び探索の条件設定を、画像表示装置を介して入力する機能を備えることにより、プラントの運転員は、プラントの制御ニーズに応じて適切な学習・探索条件を設定できる。さらに、探索時の目的関数の推移、並びに学習時の評価値及びモデル出力値の推移を画像表示装置に表示する機能を備えることにより、プラントの運転員は、所望の運転条件を探索できたか及び操作方法を学習できたかどうかを確認し、予め設定した最大学習回数や最大探索回数に達する前に学習または探索を終了させるか否かを決定できる。

また、本発明の他の実施態様は、火力発電プラントから取得する計測信号を用いて、火力発電プラントに与える制御信号を導出する制御信号生成部を備えた火力発電プラントの制御装置である。計測信号は、火力発電プラントから排出されるガスに含まれる窒素酸化物、一酸化炭素、及び硫化水素の夫々の濃度のうち少なくとも１つを表す信号を含む。制御信号は、空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量のうち少なくとも１つを決定する信号を含む。本制御装置は、火力発電プラントに制御信号を与えた時の、計測信号の値を推定するモデルと、このモデルを用いて、予め設定した制御目標及び制約条件を満足する所望のモデル出力が得られる運転条件に相当するモデル入力を探索する最適解探索部と、最適解探索部の実行条件に関する情報、及び探索によって得られた、火力発電プラントの空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量のうち少なくとも１つに関する所望のモデル出力が得られる運転条件を決定する信号を保存する探索情報データベースと、モデル及び最適解探索部の探索結果である最適な運転条件に関する情報を用いて、計測信号に相当するモデル出力が目標値を達成するように、制御信号に相当するモデル入力の生成方法を学習する操作方法学習部と、操作方法学習部における学習の制約条件及び学習結果に関する情報を保存する学習情報データベースとを設けたことを特徴とする。

また、画像表示装置と接続され、学習情報データベース及び探索情報データベースに保存された情報を画像表示装置に表示する機能と、操作方法学習部及び最適解探索部で用いる学習・探索条件が画像表示装置を介して設定される機能と、所望の運転条件の探索結果及び操作方法の学習結果を画像表示装置に表示する機能のうち、少なくとも１つを備えることができる。

本発明を火力発電プラントへ適用した一実施例では、火力発電プラントにおけるモデル出力に該当する窒素酸化物濃度、一酸化炭素濃度、及び硫化水素濃度に関する制御保証値、または最適な運転条件の探索時の目的関数計算に用いる重み係数を、画像表示装置を介して入力する。

次に、本発明の実施例であるプラントの制御装置について図面を参照して説明する。尚、ベクトル量を表す記号は、少なくとも初出時にベクトル量であることを明記する。

図１は、本発明の実施例１によるプラントの制御装置のシステム構成図である。プラント１００は、制御装置２００によって制御される。制御装置２００は保守ツール９１０と接続されているので、プラント１００の運転員は、保守ツール９１０に接続された外部入力装置９００と画像表示装置（例えばＣＲＴディスプレイ）９２０とを介して、制御装置２００を制御する。

制御装置２００には、演算装置として、計測信号変換部３００、数値解析部４００、モデル５００、制御信号生成部６００、操作方法学習部７００、及び最適解探索部８００が設けられている。

また、制御装置２００には、データベース（ＤＢ）として、計測信号データベース２１０、モデル構築データベース２２０、学習情報データベース２３０、探索情報データベース２４０、制御ロジックデータベース２５０、及び制御信号データベース２６０が設けられている。

また、制御装置２００には、外部とのインターフェースとして、外部入力インターフェース２０１、及び外部出力インターフェース２０２が設けられている。

制御装置２００では、外部入力インターフェース２０１を介して、プラント１００から計測信号１を制御装置２００に取り込む。また、外部出力インターフェース２０２を介して、制御対象のプラント１００に制御信号１５を送るようになっている。

制御装置２００では、外部入力インターフェース２０１から取り込んだ計測信号２は、計測信号データベース２１０に保存される。また、制御信号生成部６００にて生成される制御信号１４は、外部出力インターフェース２０２に伝送されると共に、制御信号データベース２６０に保存される。

計測信号変換部３００では、計測信号データベース２１０に保存された計測データ３をモデル構築データ４に変換する。モデル構築データ４は、モデル構築データベース２２０に保存される。また、計測データ３に含まれる直前の制御結果として得られた運転条件は、制御信号生成部６００に入力される。

数値解析部４００では、プラント１００を模擬する物理モデルを用いて、プラント１００の特性を予測する。数値解析部４００で実行して得られた数値解析データ５は、モデル構築データベース２２０に保存される。

操作方法学習部７００は、学習データ１０を生成し、学習情報データベース２３０に保存する。また、最適解探索部８００は、探索データ１２を生成し、探索情報データベース２４０に保存する。

モデル５００は、プラント１００の制御特性を模擬する機能を持つ。すなわち、制御信号１５をプラント１００に与え、その制御結果に対する計測信号１を得るのと同等の機能を模擬演算する。この模擬演算のために、モデル５００は、操作方法学習部７００より受けたモデル入力７と、モデル構築データベース２２０に保存されたモデル構築データ６とを使用する。モデル入力７は、制御信号１５に相当する。モデル入力７とモデル構築データ６とから、モデル５００は、ニューラルネットワークなどの統計的手法によりプラント１００の制御による特性変化を模擬演算して、モデル出力８を得る。モデル出力８は、プラント１００の計測信号１の予測値となる。尚、モデル入力７、モデル出力８は共に、その数は１種類に限定されず、夫々複数種類用意することができる。

制御信号生成部６００では、学習情報データベース２３０より出力された学習情報データ９、及び制御ロジックデータベース２５０に保存された制御ロジックデータ１３を用いて、計測信号１が望ましい値となるように制御信号１４を生成する。この制御ロジックデータベース２５０には、制御ロジックデータ１３を算出する制御回路、及び制御パラメータが保存される。この制御ロジックデータ１３を算出する制御回路には、従来技術として公知のＰＩ（比例・積分）制御を用いることができる。

操作方法学習部７００は、学習情報データベース２３０に保存された学習の制約条件及び学習のパラメータ設定条件等を含む学習情報データ９、並びに探索情報データベース２４０に保存された探索データ１２を用いて、モデル入力７の操作方法を学習する。探索データ１２は、最適解探索部８００を用いて学習と並行して実行する最適解探索の結果である。学習結果である学習データ１０は、学習情報データベース２３０に保存される。

最適解探索部８００は、学習情報データベース２３０に保存された学習情報データ９、並びに探索情報データベース２４０に保存された探索の制約条件及びパラメータ設定条件等を含む探索情報データ１１を用いて、制約条件を満足しつつ、モデル出力８が最適となるモデル入力７を探索する。ここで、制約条件を満足し、モデル出力が最適となるモデル入力を最適解、探索のある時点までに求まった上記条件を満たす最良のモデル入力を最良解と定義する。探索結果である探索データ１２は、探索情報データベース２４０に保存される。

このように、制御装置２００の動作において、学習の制約条件を満足しつつ、モデル出力８が最適となるモデル入力７の最適解を最適解探索部８００において探索し、探索した最良解情報を含む探索データ１２を用いて操作方法学習部７００が操作方法を学習するメカニズムを具備することにより、学習時の試行錯誤による操作に最適解への指向性を付加させることができる。その結果、試行錯誤操作のみによる学習に比べて効率的に最適解へ到達する操作を経験できるため、望ましい操作方法を効率的に学習でき、学習時間を短縮できる。

尚、操作方法学習部７００、及び最適解探索部８００の詳細な機能については、後述する。また、操作方法学習部７００から学習情報データベース２３０に保存される学習データ１０には、操作前後のモデル入力、及びその操作の結果得られるモデル出力に関する情報が含まれている。学習情報データベース２３０では、現在の運転条件に対応する学習データ１０が選択され、学習情報データ９として制御信号生成部６００に入力される。

プラント１００の運転員は、キーボード９０１とマウス９０２で構成される外部入力装置９００、制御装置２００とデータを送受信できる保守ツール９１０、及び画像表示装置９２０を用いることにより、制御装置２００に備えられている種々のデータベースに保存された情報にアクセスすることができる。また、これらの装置を用いることにより、数値解析部４００、操作方法学習部７００、及び最適解探索部８００で用いるパラメータ設定値、学習の制約条件、及び学習・探索の開始・終了信号を入力することができる。

保守ツール９１０は、外部入力インターフェース９１１、データ送受信処理部９１２、及び外部出力インターフェース９１３で構成され、データ送受信処理部９１２を介して制御装置２００とデータを送受信できる。

外部入力装置９００で生成した保守ツール入力信号９１は、外部入力インターフェース９１１を介して保守ツール９１０に取り込まれる。保守ツール９１０のデータ送受信処理部９１２では、保守ツール入力信号９２の情報に従って、制御装置２００から取得した入出力データ情報９０を取得する。また、データ送受信処理部９１２では、保守ツール入力信号９２の情報に従って、数値解析部４００、操作方法学習部７００、及び最適解探索部８００で用いるパラメータ設定値、学習の制約条件、及び学習・探索の開始・終了信号を含む入出力データ情報９０を出力する。

データ送受信処理部９１２では、入出力データ情報９０を処理した結果得られる保守ツール出力信号９３を、外部出力インターフェース９１３に送信する。外部出力インターフェース９１３から送信された保守ツール出力信号９４は、画像表示装置９２０に表示される。

尚、上記の制御装置２００では、計測信号データベース２１０、モデル構築データベース２２０、学習情報データベース２３０、探索情報データベース２４０、制御ロジックデータベース２５０、及び制御信号データベース２６０が制御装置２００の内部に配置されるが、これらの全て、あるいは一部を制御装置２００の外部に配置することもできる。

また、数値解析部４００が制御装置２００の内部に配置されるが、これを制御装置２００の外部に配置することもできる。

例えば、数値解析部４００、及びモデル構築データベース２２０を制御装置２００の外部に配置し、数値解析データ５をインターネット経由で制御装置２００に送信するようにしてもよい。

図２に、以上説明した実施例における操作方法の学習時の動作を示すフローチャートを示す。図２のフローチャートは、ステップ１０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２０００、及び２１００を組み合わせて実行する。以下では、夫々のステップについて説明する。

制御装置２００の動作開始後、ステップ１０００では、学習時の最大学習回数、最大操作回数、学習の制約条件、最適解探索に用いるパラメータ条件、及びモデル入力操作量決定に用いるパラメータ等、種々のパラメータ値を設定する。

ステップ１１００では、ステップ１３００〜２０００の繰り返し回数を示す値である学習回数ｋを初期化（ｋ＝１に設定）する。

ステップ１２００では、最適解探索部８００を動作させ、モデル入力７の最適解を探索する。

ステップ１３００では、学習を開始する際のモデル入力の初期値を設定する。モデル入力の初期値としては、予め設定された操作可能範囲内の任意の値を選ぶことができる。すなわち、この操作可能範囲内であれば、初期条件として任意の状態が選択可能である。尚、モデル入力は、通常連続値ベクトルとして表現されるが、離散値ベクトルを用いてもよい。

ステップ１４００では、ステップ１５００〜１９００の繰り返し回数を示す値である操作回数ｏを初期化（ｏ＝１に設定）する。

ステップ１５００では、操作方法学習部７００を動作させ、モデル入力７の操作量を決定する。

ステップ１６００では、決定したモデル入力７の操作量を用いてモデル入力７を更新する。

ステップ１７００では、更新したモデル入力７をモデル５００へ入力し、モデル入力７に対するモデル５００の演算結果であるモデル出力８を計算する。

ステップ１８００では、計算したモデル出力８の値を基に、強化学習理論等の学習アルゴリズムを用いて、モデル入力７の操作方法を学習する。

ステップ１９００は分岐である。操作回数ｏがステップ１０００で設定した最大操作回数よりも小さい場合は、ｏに１を加算した後にステップ１５００に戻り、ｏが最大操作回数に達している場合は、ステップ２０００に進む。

ステップ２０００も分岐である。学習回数ｋがステップ１０００で設定した最大学習回数よりも小さい、または学習終了条件を満たさない場合には、ｋに１を加算した後にステップ１３００に戻り、ｋが最大学習回数に達している、または学習終了条件を満たす場合は、ステップ２１００に進む。学習終了条件とは、保守ツール９１０から制御装置２００に対して、学習の強制終了信号が入力された場合を指す。

ステップ２１００では、操作方法の学習結果を学習情報データベース２３０に保存し、操作方法の学習の動作を終了させるステップに進む。

以上の動作によって、操作方法の学習では、プラント１００の運転員が設定した学習条件、及び最適解の探索条件に基づき、任意のモデル入力条件から最適解探索によって得られたモデル入力の最適解に到達し、望ましいモデル出力が得られるような操作方法を自律的に獲得できる。

次に、操作方法学習部７００の動作について、図３を用いて詳細に説明する。図３は、操作方法学習部７００の動作を説明する図であり、図１に示した制御装置２００において、モデル５００、操作方法学習部７００、学習情報データベース２３０、及び探索情報データベース２４０を含む部分を詳細に示したものである。

操作方法学習部７００は、モデル入力生成機能７０１、評価値計算機能７０２、及び操作学習機能７０３で構成される。

モデル入力生成機能７０１は、学習情報データベース２３０に保存された学習情報データ９、探索情報データベース２４０に保存された探索データ１２、及び操作学習機能７０３によって更新される操作量決定パラメータ７０を用いてモデル入力の操作量を決定する。さらに、モデル入力生成機能７０１は、この操作量を現在のモデル入力に加え、操作後のモデル入力７としてモデル５００へ入力する。ここで、学習情報データ９は、学習の制約条件と設定条件等を含み、探索データ１２は、モデル入力の最良解情報を含み、操作量決定パラメータ７０は、操作方法を決定するパラメータである。以上の動作は、図２のステップ１５００、及び１６００に相当する。

モデル５００は、モデル入力生成機能７０１が決定したモデル入力７に対して、モデル出力８を評価値計算機能７０２へ出力する。

評価値計算機能７０２は、モデル出力８を基に、モデル入力７の操作結果に対する評価値７１を計算し、操作学習機能７０３へ出力する。評価値７１は、学習情報データベース２３０に保存された学習の制約条件を含む学習情報データ９を基に計算され、望ましいモデル出力に近づくほど高い評価値が得られるように設定される。すなわち、評価値７１は、現在のモデル出力が、モデル入力の最適解に対するモデル出力へどの程度到達しているかを表す値であり、これらのモデル出力の差分をとる、または所定の関数を用いるなどの方法により求めることができる。

操作学習機能７０３は、評価値計算機能７０２が計算した評価値７１、及び学習情報データベース２３０に保存された学習情報データ９を基に、操作量決定パラメータ７０を更新し、これをモデル入力生成機能７０１へ出力する。学習情報データ９には、操作方法の学習に関するパラメータが含まれる。以上の動作は、図２のステップ１８００に相当する。また、学習終了後に最終的に得られた操作量決定パラメータ７０は、学習データ１０として学習情報データベース２３０に保存される（図２のステップ２１００に相当）。

以下では、モデル入力生成機能７０１による操作量決定のアルゴリズムについて、その概念図（図４）及びフローチャート（図７）を参照しながら説明する。

図４は、モデル入力生成機能７０１による操作量決定アルゴリズムの概念図であり、モデル入力空間におけるモデル操作量ベクトルの生成メカニズムを２次元座標上で示したものである。

図４に示すように、モデル入力生成機能７０１によって決定される操作量ベクトルｖは、操作量決定パラメータ７０（図３参照）を用いて計算される現在のモデル入力ｘ（ベクトル量）に対する基準操作量ベクトルｖ^ｂａｓｅ、及び、それまでの最適解探索の結果得られた最良解ｘ^ｂｅｓｔ（ベクトル量）を基準とした最良解移動ベクトルｖ^ｂｅｓｔを基に、式（１）に従って計算する。ここで、基準操作量ベクトルｖ^ｂａｓｅは、従来技術で用いられる試行錯誤的な要素を含む操作と等価であり、これまでに学習した操作方法に基づく量である。ｖ^ｂａｓｅとｖ^ｂｅｓｔの各成分は、ｘの各成分の操作量を意味する。また、操作は予め設定された操作可能範囲内で実行されるため、各操作ベクトルｖ、ｖ^ｂａｓｅ、ｖ^ｂｅｓｔのベクトル終点（操作後のモデル入力）は、全て操作可能範囲内となることが保証される。

図４において、最良解移動ベクトルｖ^ｂｅｓｔは、現在のモデル入力ｘから最良解ｘ^ｂｅｓｔへのベクトル方向成分を持ち、かつベクトル終点が操作可能範囲の境界条件に一致するように決定される。

また式（１）において、φは、操作量ベクトルｖを決定する比率パラメータであり、［０，１］の範囲に設定される。図５は、φの変化により操作量ベクトルｖがどのように変化するかを示した図である。操作量ベクトルｖは、φが大きい値をとる場合、基準操作量ベクトルｖ^ｂａｓｅへの指向性が強くなり、φが小さい値をとる場合、最良解移動ベクトルｖ^ｂｅｓｔへの指向性が強くなる。このように、φを適切に設定することにより、学習時に実行される操作に、最適解探索によって決定した最良解への指向性が付加されるため、試行錯誤的な操作に比べて最適解へ到達する操作方法を効率的に学習できる。

比率パラメータφは、外部入力装置９００（図１参照）を介して定数値として設定することもできるが、現在のモデル入力情報を用いて適応的に調整することもできる。具体的には、現在のモデル入力ｘとこれまでに得られた最良解ｘ^ｂｅｓｔとの距離情報ｄを基に、式（２）によって定義されるφの特性式に従ってφを決定する。

図６は、距離情報ｄに対する比率パラメータφの特性を示したグラフである。図６に示すように、φは、モデル入力ｘと最良解ｘ^ｂｅｓｔとの距離ｄが０の場合に１となり、距離ｄが大きくなるほど減少して０に漸近する。このような動作は、最良解から離れたモデル入力条件においては操作の最良解への指向性を強めることで学習を加速し、最良解に近づくにつれてその指向性を弱め、最良解近傍のモデル入力条件を試行錯誤的に経験させることで学習の精度を向上させることを鑑みてなされるものである。

また、式（２）におけるβは比率パラメータφ関数の特性を決定するための特性パラメータであり、外部入力装置９００を介して設定される。

尚、図６及び式（２）に示した特性式は実施の一例であり、これ以外にも上記のφ決定方針に従えば、線形関数を用いた例や、ステップ関数を用いた例等も考えられる。

以上の説明に基づく、モデル入力生成機能７０１による、モデル入力の操作量決定のアルゴリズム動作を示すフローチャートを図７に示す。図７のフローチャートは、図２におけるステップ１５００に相当し、ステップ１５１０、１５２０、１５３０、１５４０、１５５０、及び１５６０を組み合わせて実行する。以下では、夫々のステップについて説明する。

モデル入力の操作量決定のアルゴリズム開始後、ステップ１５１０では、操作量決定パラメータ７０を用いて現在のモデル入力ｘにおける基準操作量ベクトルｖ^ｂａｓｅを決定する。

ステップ１５２０では、それまでの最適解探索の結果得られた最良解ｘ^ｂｅｓｔを基準とした最良解移動ベクトルｖ^ｂｅｓｔを計算する。

ステップ１５３０は分岐であり、比率パラメータφの決定方法を選択する。φの決定方法は、前述したように、（１）定数値とする方式、（２）現在のモデル入力ｘと最良解ｘ^ｂｅｓｔとの距離ｄを基準に決定する方式、の２種類から選択する。φの決定方法として（１）を用いる場合は、φを外部入力装置９００から設定した値としてステップ１５６０に進み、（２）を用いる場合は、ステップ１５４０へ進む。

ステップ１５４０では、モデル入力ｘと最良解ｘ^ｂｅｓｔとの距離ｄを、式（３）に従って計算する。式（３）において、符号“| |”はベクトルの絶対値を示す。

次に、ステップ１５５０では、距離ｄ、及び外部入力装置９００を介して設定した特性パラメータβを用いて、式（２）に従って比率パラメータφを計算する。

ステップ１５６０では、決定した比率パラメータφを用いて、式（１）に従ってモデル操作量ベクトルｖを決定し、モデル入力生成機能７０１の動作を終了させるステップに進む。

以上の説明から、モデル入力生成機能７０１では、モデル入力の操作量ベクトルｖが、それまでに学習した操作方法に基づく基準操作量ベクトルｖ^ｂａｓｅ、及びそれまでの最適解探索で得られた最良解ｘ^ｂｅｓｔを基準とした最良解移動ベクトルｖ^ｂｅｓｔによって決定される。したがって、学習時の操作は、任意のモデル入力条件から探索で得られた最良解へ向かうように実行されるため、試行錯誤的な操作に比べて最良解への操作を実行する確率を大きくすることができる。その結果、学習の停滞や局所解への収束に陥ることなく、効率的に最適解へ到達する操作方法を学習できる。

次に、最適解探索部８００における最適解探索アルゴリズムの詳細な動作について、図８のフローチャートを用いて説明する。図８の最適解探索アルゴリズムの動作フローチャートは、図２のステップ１２００に相当し、ステップ１２１０、１２２０、１２３０、１２４０、１２５０、１２６０、及び１２７０を組み合わせて実行する。以下では、夫々のステップについて説明する。

ステップ１２１０は分岐であり、アルゴリズムが探索の終了条件を満たす場合は最適解探索アルゴリズムの動作を終了するステップに進み、そうでない場合はステップ１２２０に進む。ここで探索の終了条件とは、保守ツール９１０（図１参照）から制御装置２００に対して、探索の強制終了信号が入力された場合を指す。

ステップ１２２０では、ステップ１２３０〜１２６０の繰り返し回数を示す値である探索回数ｓを初期化（ｓ＝１に設定）する。

ステップ１２３０では、式（４）に示す目的関数ｆを最適化することを目的として、最適化手法（メタ・ヒューリスティクス）を用いて、解候補ｘ´（ベクトル量）となるモデル入力条件を決定する。最適化手法としては、焼きなまし法、タブー探索法、粒子群最適化手法等、既存の公知技術を用いることができる。式（４）の目的関数ｆは、扱うモデル出力の種類に応じて最小化・最大化のいずれかを最適化の目的とする。式（４）において、ｆｉはモデル出力値、ｉはモデル出力を識別するための添え字、Ｉはｉの集合である。また、Ｃｉは重み係数パラメータであり、外部入力装置９００を介して設定することができる。

ステップ１２４０は分岐であり、ステップ１２３０で決定した解候補ｘ´と、これまでの探索で得られた最良解ｘ^ｂｅｓｔについて、式（４）に従って求めた夫々の目的関数の値ｆを比較し、解候補ｘ´が最良解ｘ^ｂｅｓｔよりも改善する場合（ｆが収束に向かう場合）はステップ１２５０に進み、そうでない場合はステップ１２６０に進む。

ステップ１２５０では、最良解ｘ^ｂｅｓｔをｘ´に更新する。

ステップ１２６０は分岐であり、探索回数ｓが図２のステップ１０００で設定した最大探索回数よりも小さい場合は、ｓに１を加算した後にステップ１２３０に戻り、そうでない場合は、ステップ１２７０に進む。

ステップ１２７０では、最良解の探索結果を探索情報データベース２４０に保存し、最適解探索の動作を終了させるステップに進む。

上記の動作によって、制約条件を満足し、モデル出力値が最適となる操作条件の探索が実行される。探索は学習と並行して実行されるため、学習時にモデル入力の最適解が変化する場合においても、常に探索によって更新された最良解ｘ^ｂｅｓｔに近づくように操作が実行される。したがって、本発明における制御装置は、学習時のモデル特性変化にも対応した操作方法の学習が可能である。以上で、操作方法学習部７００、及び最適解探索部８００の詳細な動作の説明を終了する。

次に、画像表示装置９２０（図１参照）に表示される画面について、図９及び図１０を用いて説明する。図９及び図１０は、画像表示装置９２０に表示される画面の一実施例である。

図９は、図２のフローチャートにおけるステップ１０００の学習・探索条件の設定画面の一例である。図９に示す画面が画像表示装置９２０に表示された状態で、マウス９０２を操作して画面上の数値ボックスにフォーカスを移し、キーボード９０１を用いることで数値を入力できる。また、マウス９０２を操作して画面上のボタンをクリックすることで、ボタンを選択する（押す）ことができる。同様に、マウス９０２を操作して画面上のチェックボックスをクリックすることで、チェックを入れることができる。

図９では、数値ボックス３０００、３００１、及び３００２の夫々にフォーカスを移して数値を入力することで、図２のフローチャートにおける学習回数ｋの閾値である最大学習回数、及び操作回数ｏの閾値である最大操作回数、並びに図８のフローチャートにおける探索回数ｓの閾値である最大探索回数を決定することができる。

次に、チェックボックス３００３、及び３００４では、いずれかのチェックボックスを選択することで、図７の操作量決定アルゴリズムのフローチャートで用いる比率パラメータφの決定方法を選択することができる。チェックボックス３００３を選択した場合は、比率パラメータφの値は定数値（固定）となり、その値を数値ボックス３００５より入力する。チェックボックス３００４を選択した場合は、比率パラメータφの値は、可変となり、式（２）によって定義されるφの特性式にしたがって決定される。この場合、数値ボックス３００６より、式（２）における特性パラメータβの設定値を入力する。

最後に、モデル出力重み係数設定画面３００７では、式（４）に示した目的関数ｆの計算に用いる重み係数パラメータＣｉを、夫々のモデル出力に対して数値ボックス３００８より入力できる。

以上の学習・探索条件設定の終了後、ボタン３００９を選択することで、学習を開始することができる。また、ボタン３０１０を選択すると初期画面に戻る。

図１０は、図２のフローチャートにおけるステップ２０００の学習の終了判定時、及び図８のフローチャートにおけるステップ１２１０の探索の終了判定時に用いる画面の一例である。図１０における探索結果表示画面３１００は、図８のフローチャートにおけるステップ１２４０からステップ１２７０までの一連の最適解探索実行時に表示される画面であり、最適解探索で得られた目的関数ｆの値の推移がグラフで表示される。ここで、探索結果表示画面３１００のグラフの横軸は、学習を通じての延べ探索回数である。

プラントの運転員は、探索結果表示画面３１００に表示される探索結果を見ながら、探索が充分進んでいるかどうかを判断することができる。一定の探索回数が経過後、目的関数ｆの値の改善が見られない場合（目的関数ｆの値がある値に収束した場合）は、最適解の探索が充分進み最良解ｘ^ｂｅｓｔが最適解に漸近していると判断できるため、探索回数が最大探索回数に達していない場合でも、ボタン３１０１を選択することで探索を終了することができる。この操作により、以降の操作方法の学習では、図８のステップ１２１０の判定において以降の探索（ステップ１２２０からステップ１２７０まで）が実行されなくなるため、学習を高速化できる。

また、図１０における学習結果表示画面３１０２は、図２のフローチャートにおけるステップ１２００からステップ２１００までの一連の学習実行時に表示される画面の一例である。学習結果表示画面３１０２には、各学習回数経過時点で得られた操作方法を用いたモデル操作に対し、このモデル操作の結果得られたモデル出力値、及び学習の評価値の推移が表示される。学習の評価値とは、図３の評価値７１のことであり、望ましいモデル出力に近づくほど値が大きくなる。

プラントの運転員は、学習結果表示画面３１０２に表示される学習結果を見ながら、学習が充分進んでいるかどうかを判断することができる。学習の収束状況の判定条件としては、以下のものが挙げられる。（１）探索が充分収束している状況で、学習回数に対するモデル出力値（モデル出力が複数ある場合は、全てのモデル出力値）が充分改善され、かつ収束している。（２）探索が充分収束している状況で、学習回数に対する評価値が最大値付近まで大きくなり、収束している。

以上の条件を全部、または少なくとも１つ以上満足する場合に、プラントの運転員は、学習回数が設定した最大学習回数に達していない場合でも、ボタン３１０３を選択することで学習を終了させることができる。この操作により、従来想定していたよりも学習に要する時間を短縮できる。そのためプラントを操作する回数を増加させ、より高い制御効果を得ることができる。

以上で、画像表示装置９２０に表示される画面についての説明を終了する。

本発明のプラントの制御装置２００を、火力発電プラントに適用した実施例について説明する。尚、火力発電プラント以外のプラントを制御する際にも、本発明の実施例の制御装置２００を使用できることは言うまでもない。

図１１は、火力発電プラントの概略を示す図である。先ず、火力発電プラントの発電の仕組みについて説明する。

火力発電プラントを構成するボイラ１０１には、ミル１１０で石炭を細かく粉砕した燃料である微粉炭と、微粉炭搬送用の１次空気及び燃焼調整用の２次空気とを供給するバーナー１０２が設けられている。このバーナー１０２を介して供給した微粉炭を、ボイラ１０１の内部で燃焼させる。尚、微粉炭と１次空気は配管１３４から、２次空気は配管１４１から夫々バーナー１０２に導かれる。

また、ボイラ１０１には、２段燃焼用の空気をボイラ１０１に投入するアフタエアポート１０３が設けられている。２段燃焼用の空気は、配管１４２からアフタエアポート１０３に導かれる。

燃焼により発生した高温の燃焼ガスは、ボイラ１０１の内部の経路に沿って下流側に流れた後、ボイラ１０１に配置された熱交換器１０６を通過して熱交換した後、エアーヒーター１０４を通過する。エアーヒーター１０４を通過したガスは、排ガス処理を施した後、煙突から大気に放出される。

ボイラ１０１の熱交換器１０６を循環する給水は、給水ポンプ１０５を介して熱交換器１０６に供給され、熱交換器１０６においてボイラ１０１を流下する燃焼ガスによって過熱され、高温高圧の蒸気となる。尚、本実施例では熱交換器の数を１つとしているが、熱交換器を複数配置するようにしてもよい。

熱交換器１０６を通過した高温高圧の蒸気は、タービンガバナ１０７を介して蒸気タービン１０８に導かれ、蒸気の持つエネルギーによって蒸気タービン１０８を駆動して発電機１０９で発電する。

火力発電プラントには、火力発電プラントの運転状態を検出する様々な計測器が配置されており、これらの計測器から取得されたプラントの計測信号は、計測信号１（図１参照）として制御装置２００に送信される。計測器としては、例えば図１１には、流量計測器１５０、温度計測器１５１、圧力計測器１５２、発電出力計測器１５３、及び濃度計測器１５４が図示されている。

流量計測器１５０は、給水ポンプ１０５からボイラ１０１に供給される給水の流量を計測する。また、温度計測器１５１、及び圧力計測器１５２は、熱交換器１０６から蒸気タービン１０８に供給される蒸気の温度、及び圧力を夫々計測する。

発電機１０９で発電された電力量は、発電出力計測器１５３で計測する。ボイラ１０１を通過する燃焼ガスに含まれている成分（窒素酸化物（ＮＯｘ）、一酸化炭素（ＣＯ）、及び硫化水素（Ｈ_２Ｓ）など）の濃度に関する情報は、ボイラ１０１の下流側に設けた濃度計測器１５４で計測することができる。

即ち、本発明の制御装置２００を上記火力発電プラントに用いた場合に、計測データ項目には、上記計測器によって計測した燃料流量、空気流量、給水流量、蒸気温度、ガス温度、給水圧力、ガス濃度、及び排ガス再循環流量等が含まれる。これらの計測データ項目は、制御信号１５（図１参照）により決定される量である。

尚、一般的には図１１に図示した以外にも多数の計測器が火力発電プラントに配置されるが、ここでは図示を省略する。

次に、ボイラ１０１の内部に投入される空気の経路、すなわちバーナー１０２から投入される１次空気と２次空気の経路、及びアフタエアポート１０３から投入される空気の経路について説明する。

１次空気は、ファン１２０から配管１３０に導かれ、途中でボイラ１０１の下流側に設置されたエアーヒーター１０４を通過する配管１３２とこれを通過せずにバイパスする配管１３１とに分岐して、再び配管１３３にて合流し、バーナー１０２の上流側に設置されたミル１１０に導かれる。エアーヒーター１０４を通過する空気は、ボイラ１０１を流下する燃焼ガスにより加熱される。この１次空気と共に、ミル１１０において粉砕した微分炭をバーナー１０２に搬送する。

ファン１２１を用いて配管１４０から投入された空気は、エアーヒーター１０４で同様にして加熱された後に、２次空気用の配管１４１とアフタエアポート用の配管１４２とに分岐して、夫々バーナー１０２とアフタエアポート１０３とに導かれる。

本実施例では、ファン１２１から送られてボイラ１０１内へ投入される空気流量を制御する例として、本発明の制御装置２００を配管１４１と配管１４２の上流側に設けている。制御装置２００は、他の計測データ項目を制御することもでき、設置場所を制御対象に応じて変えてもよい。

図１２は、図１１に示した火力発電プラントにおけるエアーヒーター１０４と関連する配管部の拡大図である。配管１３０、１４０と、これらの配管から分岐する配管１３１、１３２、１４１、１４２と、配管１３１、１３２が合流する配管１３３と、エアーヒーター１０４とを示してある。図１２に示すように、配管１３１、１３２、１４１、１４２には、エアダンパ１６０、１６１、１６２、１６３が夫々配置される。これらのエアダンパを操作することにより、配管１３１、１３２、１４１、１４２を空気が通過する面積を変更することができるので、配管１３１、１３２、１４１、１４２を通過する空気流量を個別に調整できる。

ボイラ１０１では、制御装置２００によって生成された制御信号１５（図１参照）を用いて、エアダンパ１６０、１６１、１６２、１６３などの機器を操作する。尚、本実施例では、エアダンパ１６０、１６１、１６２、１６３などの機器のことを操作端と呼び、これを操作するのに必要な指令信号を操作信号と呼ぶ。

以降では、本発明の制御装置２００を上記火力発電プラントに用い、操作端をバーナー１０２のエアダンパ１６２及びアフタエアポート１０３のエアダンパ１６３とし、被制御量をボイラより排出されるＣＯ、ＮＯｘ、及びＨ_２Ｓの濃度とする場合について説明する。尚、本実施例では、操作端の操作量（エアダンパ１６２、１６３の開度）がモデル入力に、ＮＯｘ、ＣＯ及びＨ_２Ｓ濃度がモデル出力になり、モデル出力夫々の最小化が学習及び探索の目的となる。

図１３は、本発明の制御装置２００を火力発電プラントに用いた場合に、画像表示装置９２０に表示される画面の一実施例であり、実施例１で示した図９に対応する画面である。

火力発電プラントでは、ＮＯｘ、ＣＯといった排ガスの排出量に環境規制が課せられており、プラントはその環境規制値を満足するように運転することが望まれる。また、運用コストの面からも、ＮＯｘの還元処理に要するコストや、ボイラ１０１のＨ_２Ｓ腐食による劣化を防ぐという目的から、ＮＯｘ、及びＨ_２Ｓ等をできるだけ低減することも望まれる。そのような要求に鑑み、図１３では、被制御量であるＮＯｘ、ＣＯ、及びＨ_２Ｓ濃度に対し、制御上の目標を（１）制御保証値以下、及び（２）可能な限り低減、の２通りに設定できるようになっている。ここで、制御保証値は、前述のＮＯｘ等に対する環境規制値を考慮して設定される。

この制御上の目標は、最適解探索の目的関数設定、及び学習の評価値設定に反映させることができる。図１３では、制御保証値・モデル出力重み係数設定画面３２０７（図９のモデル出力重み係数設定画面３００７に対応）において、制御保証チェックボックス３２０８をチェックすることで、上記２種類の目標設定のうち、どちらを使用するかを選択することができる。チェックした項目に対しては、（１）制御保証値以下、の目標設定を使用し、制御保証値を数値ボックス３２０９より入力する。チェックされない項目については、（２）可能な限り低減、の目標設定を使用し、目的関数ｆの値を計算するための重み係数パラメータＣｉを数値ボックス３２１０より入力する。

図１３に示すように制御保証値と重み係数を設定した場合、式（４）の最適解探索の目的関数ｆは、式（５）のように表される。

ここで、ｆ_ＮＯｘはＮＯｘ濃度、ｆ_ＣＯはＣＯ濃度、ｆ_Ｈ２ＳはＨ_２Ｓ濃度（単位：ｐｐｍ）を示す。即ち式（５）では、ＣＯ濃度が制御保証値（１００ｐｐｍ）以下の制約条件のもとで、計算した目的関数ｆが最小となるモデル入力条件が最適解となる。以上のように最適化の目的関数ｆを計算することにより、最適解探索部８００（図１参照）は、ＣＯ濃度が制御保証値以下で、ＮＯｘ濃度、及びＨ_２Ｓ濃度が最小となるモデル入力条件を探索し、操作方法学習部７００（図１参照）は、探索したモデル入力条件へ到達する操作方法を学習することができる。尚、図１３において、数値ボックス３２００、３２０１、３２０２、３２０５、及び３２０６、チェックボックス３２０３、及び３２０４、並びにボタン３２１１、及び３２１２の機能については、図９の場合と同様である。

図１４は、本発明の制御装置２００を火力発電プラントに用いた場合に、画像表示装置９２０に表示される画面の一実施例であり、実施例１で示した図１０に対応する画面である。図１４では、図１３で設定したモデル出力の制御保証値等の制御目標値に対して、それを満足する学習結果が得られているかどうかを判断できるようになっている。

プラント運転員は、学習結果表示画面３３０２に表示されるＣＯ濃度が制御保証値以下で、ＮＯｘ、及びＨ_２Ｓ濃度が充分に低減されているかどうかを確認し、これらを満足する場合は、ボタン３３０３を選択することで学習を終了させることができる。尚、図１４において、探索結果表示画面３３００、及びボタン３３０１の機能については、図１０の場合と同様である。

以上説明したように、本発明のプラントの制御装置２００を火力発電プラントに適用すれば、環境規制や運用コストに対する要求を満たす操作方法を学習することにより、火力発電プラントから排出されるＮＯｘ、ＣＯ、及びＨ_２Ｓ濃度の目標値を達成することができる。

本発明の実施例１によるプラントの制御装置の構成を示すブロック図である。本発明の実施例１によるプラントの制御装置における、操作方法の学習時の動作フローチャートである。本発明の実施例１によるプラントの制御装置における、操作方法学習部の構成を示すブロック図である。本発明の実施例１によるプラントの制御装置における、モデル入力操作量決定アルゴリズムの概念図である。本発明の実施例１によるプラントの制御装置における、モデル入力操作量決定時のパラメータ設定による影響を説明する図面である。本発明の実施例１によるプラントの制御装置における、モデル入力操作量を決定するパラメータ特性を示す図面である。本発明の実施例１によるプラントの制御装置における、モデル入力操作量決定の動作フローチャートである。本発明の実施例１によるプラントの制御装置における、最適解探索の動作フローチャートである。本発明の実施例１によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。本発明の実施例１によるプラントの制御装置において、学習及び探索の終了を判定する際に、画像表示装置に表示される画面の一例である。火力発電プラントの構成を説明する図である。火力発電プラントにおいて、エアーヒーター部分の拡大図である。本発明の実施例２によるプラントの制御装置において、学習を実行する際に、画像表示装置に表示される画面の一例である。本発明の実施例２によるプラントの制御装置において、学習及び探索の終了を判定する際に、画像表示装置に表示される画面の一例である。

符号の説明

１…計測信号、１５…制御信号、９０…入出力データ情報、１００…プラント、２００…制御装置、２０１…外部入力インターフェース、２０２…外部出力インターフェース、２１０…計測信号データベース、２２０…モデル構築データベース、２３０…学習情報データベース、２４０…探索情報データベース、２５０…制御ロジックデータベース、２６０…制御信号データベース、３００…計測信号変換部、４００…数値解析部、５００…モデル、６００…制御信号生成部、７００…操作方法学習部、８００…最適解探索部、９００…外部入力装置、９０１…キーボード、９０２…マウス、９１０…保守ツール、９１１…外部入力インターフェース、９１２…データ送受信処理部、９１３…外部出力インターフェース、９２０…画像表示装置。

Claims

制御・計測対象のプラントに制御信号を与えた時に取得する計測信号の値を推定するモデルと、
前記モデルを用いて、前記計測信号に相当するモデル出力が目標値を達成するように、前記制御信号に相当するモデル入力の生成方法を学習する操作方法学習部と、
前記操作方法学習部における学習の制約条件及び学習結果に関する情報を保存する学習情報データベースと、を備え、
前記計測信号を用いてプラントの制御信号を計算し、この制御信号をプラントに送信するプラントの制御装置において、
前記モデルを用いて、予め設定した制御目標及び制約条件を満足する所望のモデル出力が得られる運転条件に相当するモデル入力を探索する最適解探索部と、
前記最適解探索部における探索の制約条件及び最適解探索に関する情報を保存する探索情報データベースと、を備え、
前記操作方法学習部は、前記最適解探索部の探索結果である最適な運転条件に関する情報を用いてモデル入力を生成する、ことを特徴とするプラントの制御装置。
請求項１記載のプラントの制御装置において、
前記操作方法学習部は、前記学習情報データベース及び前記探索情報データベースに保存された情報を用いて前記モデル入力の操作方法を決定するモデル入力生成機能と、前記モデルを操作した結果得られるプラントの特性値に相当するモデル出力を用いて前記モデルの操作に対する評価値を計算する評価値計算機能と、前記学習情報データベースに保存された情報を用いてモデル入力の操作方法を学習する操作学習機能のうち、少なくとも１つを備えるプラントの制御装置。
請求項２記載のプラントの制御装置において、
前記モデル入力生成機能は、前記学習情報データベースに保存された学習結果を基に試行錯誤的に決定される基準操作量ベクトルを算出する機能と、前記探索情報データベースに保存された所望の運転条件に関する情報を基に決定された最良解移動ベクトルを算出する機能と、前記基準操作量ベクトルと前記最良解移動ベクトルとを基に所望の運転条件への指向性を持つ操作量ベクトルを算出する機能のうち、少なくとも１つを備えるプラントの制御装置。
請求項３記載のプラントの制御装置において、
前記モデル入力生成機能は、前記操作量ベクトルを算出する際に、予め定めた一定のパラメータに基づいて算出する機能と、現在の運転条件から所望の運転条件までの距離情報を用いて適応的に調整して算出する機能のうち、少なくとも１つを備えるプラントの制御装置。
請求項１記載のプラントの制御装置において、
画像表示装置と接続され、
前記学習情報データベース及び前記探索情報データベースに保存された情報を前記画像表示装置に表示する機能と、前記操作方法学習部及び前記最適解探索部で用いる学習・探索条件が前記画像表示装置を介して設定される機能と、所望の運転条件の探索結果及び操作方法の学習結果を前記画像表示装置に表示する機能のうち、少なくとも１つを備えるプラントの制御装置。
火力発電プラントから取得する計測信号を用いて、前記火力発電プラントに与える制御信号を導出する制御信号生成部を備えた火力発電プラントの制御装置であって、
前記計測信号は、前記火力発電プラントから排出されるガスに含まれる窒素酸化物、一酸化炭素、及び硫化水素の夫々の濃度のうち少なくとも１つを表す信号を含み、
前記制御信号は、空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量のうち少なくとも１つを決定する信号を含み、
前記制御装置が、
前記火力発電プラントに前記制御信号を与えた時の、前記計測信号の値を推定するモデルと、
前記モデルを用いて、前記計測信号に相当するモデル出力が目標値を達成するように、前記制御信号に相当するモデル入力の生成方法を学習する操作方法学習部と、
前記操作方法学習部における学習の制約条件及び学習結果に関する情報を保存する学習情報データベースと、
前記モデルを用いて、予め設定した制御目標及び制約条件を満足する所望のモデル出力が得られる運転条件に相当するモデル入力を探索する最適解探索部と、
前記最適解探索部における探索の制約条件及び最適解探索に関する情報を保存する探索情報データベースと、を備える、ことを特徴とする火力発電プラントの制御装置。
請求項６記載の火力発電プラントの制御装置において、
前記探索情報データベースに保存される情報は、火力発電プラントの空気ダンパの開度、空気流量、燃料流量、排ガス再循環流量のうち少なくとも１つに関する所望のモデル出力が得られる運転条件を決定する信号を含み、
前記操作方法学習部は、前記学習情報データベース及び前記探索情報データベースに保存された情報を用いて前記モデル入力の操作方法を決定するモデル入力生成機能と、前記モデルを操作した結果得られる火力発電プラントの特性値に相当するモデル出力を用いて前記モデルの操作に対する評価値を計算する評価値計算機能と、前記学習情報データベースに保存された情報を用いてモデル入力の操作方法を学習する操作学習機能のうち、少なくとも１つを備える火力発電プラントの制御装置。
請求項７記載の火力発電プラントの制御装置において、
前記モデル入力生成機能は、前記学習情報データベースに保存された学習結果を基に試行錯誤的に決定される基準操作量ベクトルを算出する機能と、前記探索情報データベースに保存された所望の運転条件に関する情報を基に決定された最良解移動ベクトルを算出する機能と、前記基準操作量ベクトルと前記最良解移動ベクトルとを基に所望の運転条件への指向性を持つ操作量ベクトルを算出する機能のうち、少なくとも１つを備える火力発電プラントの制御装置。
請求項８記載の火力発電プラントの制御装置において、
前記モデル入力生成機能は、前記操作量ベクトルを算出する際に、予め定めた一定のパラメータに基づいて算出する機能と、現在の運転条件から所望の運転条件までの距離情報を用いて適応的に調整して算出する機能のうち、少なくとも１つを備える火力発電プラントの制御装置。
請求項６記載の火力発電プラントの制御装置において、
画像表示装置と接続され、
前記学習情報データベース及び前記探索情報データベースに保存された情報を前記画像表示装置に表示する機能と、前記操作方法学習部及び前記最適解探索部で用いる学習・探索条件が前記画像表示装置を介して設定される機能と、所望の運転条件の探索結果及び操作方法の学習結果を前記画像表示装置に表示する機能のうち、少なくとも１つを備える火力発電プラントの制御装置。
請求項６記載の火力発電プラントの制御装置において、
前記最適解探索部は、前記火力発電プラントから排出されるガスに含まれる窒素酸化物、一酸化炭素、及び硫化水素の夫々の濃度に対して、予め定めた制御保証値以下となるモデル入力条件と、最小となるモデル入力条件のうち、少なくとも１つを探索する機能を備える火力発電プラントの制御装置。
請求項６記載の火力発電プラントの制御装置において、
前記操作方法学習部は、前記火力発電プラントから排出されるガスに含まれる窒素酸化物、一酸化炭素、及び硫化水素の夫々の濃度に対して、予め定めた制御保証値以下となる操作方法と、最小値となる操作方法のうち、少なくとも１つを学習する機能を備える火力発電プラントの制御装置。