JP7505328B2

JP7505328B2 - 運転支援装置、運転支援方法及びプログラム

Info

Publication number: JP7505328B2
Application number: JP2020141193A
Authority: JP
Inventors: 智志桐生; 吉雄丹下; 友哉関段
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Filing date: 2020-08-24
Publication date: 2024-06-25
Anticipated expiration: 2040-08-24

Description

本発明は、運転支援装置、運転支援方法及びプログラムに関する。

最適化技術や強化学習を使用して、プラントや設備、機器等の効率的な運用を行う手法が従来から知られている。

例えば、非特許文献１や非特許文献２には、エネルギーマネジメントに強化学習を使用してシステムな最適な運用方法を提示する手法が開示されている。例えば、特許文献１には、自動車の自動運転に強化学習を適用する手法が開示されている。また、例えば、特許文献２には、オンラインで構築し直した統計モデルに対して強化学習を行ってプラントの運転を支援する手法が開示されている。また、非特許文献３には、最適化技術を使用してエネルギーの供給計画を計算する手法が開示されている。

特開２０１８－３７０６４号公報特開２０１２－１４１８６２号公報

高橋賢二郎，佐藤繭子，福山良和，「エネルギープラント運用計画への群強化学習の適用におけるパラメータ感度解析」，平成31年電気学会全国大会，Vol. 4，pp-380-381 曽我部東馬，Dinesh Malla，高山将太，坂本克好，山口浩一，Singh Thakur，曽我部完，「離散および連続的動作空間における深層強化学習を用いたスマートアネルギーシステムの最適化」，2018年度人工知能学会全国大会論文集，Vol.32, No.4 北村聖一，森一之，進藤静一，泉井良夫，「改良MOPSOによる工場エネルギー供給計画の多目的最低化」，電気学会論文誌Ｃ，Vol.125，No.1，pp-21-28

しかしながら、例えば、非特許文献３に開示されている手法のように、最適化技術を使用する手法の場合、対象（プラントや設備、機器等）のモデルが変わった際には最適解を再計算する必要があり、モデル変更に対して柔軟に対応することができない。また、オンラインに適用する前にすべての制約条件や目的関数を事前に想定してモデルに組み込むことは現実的に困難である。

一方で、非特許文献１及び２並びに特許文献１及び２のように、強化学習を使用した手法では、オンラインに適用する前にシミュレータを用いて予め十分に学習を行っておく必要がある。このため、シミュレータの精度が悪い場合にはオンラインで最適な運用を行うことができない。また、シミュレータで予期しない状況でも最適な運用を行うことができない。これらに対して、様々状況を高い精度でシミュレーション可能なシミュレータを構築することも考えられるが、このようなシミュレータを構築するには高いコストが必要になる。

本発明の一実施形態は、上記の点に鑑みてなされたもので、オンラインでも学習することにより対象の最適な運用を支援することを目的とする。

上記目的を達成するため、一実施形態に係る運転支援装置は、プラントの運転を支援する運転支援装置であって、前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第１の計算部と、前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第１の学習部と、を有する。

オンラインでも学習することにより対象の最適な運用を支援することができる。

本実施形態に係るプラント運転支援装置の全体構成の一例を示す図である。本実施形態に係るプラント運転支援処理の流れの一例を示すフローチャートである。オフライン時の学習の一例を説明するための図である。オンライン時の学習の一例を説明するための図である。本実施形態に係るプラント運転支援装置のハードウェア構成の一例を示す図である。実施例における需給系統モデルを示す図である。実施例におけるオフラインでの報酬の推移を示す図である。実施例におけるオンラインでの学習結果を示す図である。

以下、本発明の一実施形態について説明する。本実施形態では、需給系統等のプラントを対象として、シミュレータ上で学習した強化学習エージェントをオンライン（つまり、実運用時）でも学習することで、プラントの最適な運用又は運転を支援することが可能なプラント運転支援装置１０について説明する。ただし、最適な運用を支援する対象はプラントに限られず、エネルギーマネジメントの分野等で用いられる様々な設備、機器、システム等を対象とすることが可能である。なお、オンライン以外（例えば、プラントの運用開始前又は運用停止時等）はオフラインとも称される。また、厳密にはプラントの最適な運転が行われることでその最適な運用が実現されるが、本明細書では「運転」との用語と「運用」との用語を厳密には区別せずに、運転と運用を同一の意味で使用する。

＜プラント運転支援装置１０の全体構成＞
まず、本実施形態に係るプラント運転支援装置１０の全体構成について、図１を参照しながら説明する。図１は、本実施形態に係るプラント運転支援装置１０の全体構成の一例を示す図である。

図１に示すように、本実施形態に係るプラント運転支援装置１０は、シミュレーション部１０１と、強化学習エージェント部１０２とを有する。また、本実施形態に係るプラント運転支援装置１０は、オンライン時に、プラント３０のオペレータ等が操作するオペレータ端末２０と任意の通信ネットワークにより接続される。なお、プラント３０のオペレータは、オペレータ端末２０を操作することで、当該プラント３０に対して操作量（例えば、需要家設備が需要する資源に対して各生産設備が生産する資源の配分等）を設定することができる。

シミュレーション部１０１はプラントシミュレータ等であり、プラント３０のモデル（以下、「プラントモデル」ともいう。）に基づいて当該プラント３０の動作をシミュレーションする。

強化学習エージェント部１０２は強化学習におけるエージェントとして機能し、オフラインにおいてはプラントモデルに対する操作量をシミュレーション部１０１に出力すると共に、この操作量に対するシミュレーション結果を用いて学習を行う。また、強化学習エージェント部１０２は、オンラインにおいてはプラント３０に対する操作量をオペレータ端末２０に出力すると共に、このオペレータ端末２０における実際の操作量とプラント３０の状態量とを用いて学習を行う。このように、強化学習エージェント部１０２は、オフラインにおいてプラント３０をシミュレーションすることで事前に学習を行った上で、オンラインにおいてもプラント３０の実際の運用から学習を行う。ここで、学習対象は、強化学習エージェントが最適な操作量を計算する際に使用する関数（例えば、強化学習における価値関数等）又は関数テーブルである（より正確には、その関数のパラメータである。）。このとき、強化学習における価値関数は、ニューラルネットワーク等で表される関数であってもよい（この場合、ニューラルネットワークの重みやバイアス等のパラメータが学習対象である。）。なお、関数テーブルとは、所定の関数の入力と出力の関係をルックアップテーブル等で表現したデータのことである。以下、学習対象となる関数又は関数テーブルをまとめて「関数」と表記する。

これにより、オンラインにおけるオペレータの実際の操作量との違いを学習することが可能となり、オペレータが妥当と感じる操作量を提示することが可能となる。また、シミュレータが予期しないプラント３０の動作もオンラインで学習することが可能になると共に、プラントモデルが変化した場合にもメンテナンス等を行うことなく対応が可能になる。更に、プラント３０の運用を評価するための評価関数の詳細や、プラント３０の制約条件等が事前に不明（つまり、オフライン時に不明）であっても、オンラインにて学習することで対応が可能となる。

なお、図１に示すプラント運転支援装置１０の全体構成は一例であって、他の構成であってもよい。例えば、プラント運転支援装置１０とオペレータ端末２０とが一体で構成されていてもよい。また、例えば、プラント運転支援装置１０は、シミュレーション部１０１を有するシミュレーション装置と、強化学習エージェント部１０２を有する学習装置とで構成されていてもよい。

＜プラント運転支援処理の流れ＞
次に、本実施形態に係るプラント運転支援装置１０が実行するプラント運転支援処理の流れについて、図２を参照しながら説明する。図２は、本実施形態に係るプラント運転支援処理の流れの一例を示すフローチャートである。ここで、図２のステップＳ１０１はオフライン時の処理、ステップＳ１０２はオンライン時の処理である。なお、オンラインでは、操作量を計算するための関数の初期状態としてオフラインで学習された関数が設定される。

ステップＳ１０１：プラント運転支援装置１０は、シミュレーション部１０１によるシミュレーションを行って、強化学習エージェント部１０２により学習を行う。

ここで、オフライン時における学習について、図３を参照しながら説明する。図３は、オフライン時の学習の一例を説明するための図である。

図３に示すように、オフライン時の学習では、プラント運転支援装置１０は、シミュレーション時刻ｔ毎に、強化学習における状態の観測、行動の決定、報酬の獲得及び学習を繰り返し実行する。すなわち、シミュレーション時刻ｔ－１における操作量が強化学習エージェント部１０２からシミュレーション部１０１に入力されたものとする。このとき、シミュレーション部１０１は、入力された操作量とプラントモデルを用いてプラント３０の運用をシミュレーションし、そのシミュレーション結果としてシミュレーション時刻ｔにおける状態量とシミュレーション時刻ｔにおける運用の評価結果である報酬とを強化学習エージェント部１０２に出力する。なお、シミュレーションにおけるプラントの運用を評価するための評価関数は予め設定される。

そして、強化学習エージェント部１０２は、シミュレーション時刻ｔにおける状態量を用いて、所定の関数（学習対象の関数）からシミュレーション時刻ｔにおける操作量を計算し、その操作量をシミュレーション部１０１に出力する。これにより、シミュレーション時刻ｔが次の時刻に更新される。なお、操作量が、強化学習における行動に相当する。

また、強化学習エージェント部１０２は、シミュレーション時刻ｔにおける状態量と操作量と報酬とに基づいて、学習対象の関数を学習する。すなわち、強化学習エージェント部１０２は、将来にわたって得られる報酬の和（割引き和）が最大となるように当該関数を更新する。

以上を繰り返すことで、強化学習エージェント部１０２は、最適な操作量を計算することができるようになる。なお、状態量とは、例えば、プラント３０又はプラントモデルの需要家設備が需要する総資源量のことである。

ステップＳ１０２：プラント運転支援装置１０は、オペレータ端末２０によって実際にプラント３０の運用が行われている間、強化学習エージェント部１０２によりオペレータ端末２０に対して最適な操作量を提示すると共に学習（再学習）を行う。なお、オンラインは所定の終了条件を満たした場合（例えば、オペレータによる終了操作が行われた場合、所定の時刻となった場合、所定の量の生産物が生産された場合等）に終了する。

ここで、オンライン時における学習について、図４を参照しながら説明する。図４は、オンライン時の学習の一例を説明するための図である。

図４に示すように、オンライン時の学習では、プラント運転支援装置１０は、オペレータが操作量を設定する時間幅である制御時刻ｔ毎に、強化学習における状態の観測、行動の決定及び学習を繰り返し実行する。すなわち、制御時刻ｔ－１における操作量が強化学習エージェント部１０２からオペレータ端末２０に提示されたものとする。このとき、オペレータ端末２０のオペレータは、強化学習エージェント部１０２から提示された操作量を参考に実際の操作量を決定し、その操作量（実際の操作量）をプラント３０に設定する。これにより、その操作量でプラント３０が運用される。

そして、オペレータ端末２０は、プラント３０の運用結果として制御時刻ｔにおける状態量と実際の操作量とを強化学習エージェント部１０２に出力する。強化学習エージェント部１０２は、制御時刻ｔにおける状態量を用いて、所定の関数（学習対象の関数）から制御時刻ｔにおける操作量を計算し、オペレータ端末２０に出力する。これにより、制御時刻ｔが次の時刻に更新される。

また、強化学習エージェント部１０２は、実際の操作量を用いて制御時刻ｔにおける報酬を計算する。報酬としては、実際の操作量と制御時刻ｔ－１における操作量（つまり、実際の操作量をオペレータが決定する際に、当該オペレータに提示された操作量）との誤差に負数（例えば、－１）を乗じたものとすればよい。更に、強化学習エージェント部１０２は、制御時刻ｔにおける状態量と操作量と報酬とに基づいて、学習対象の関数を学習（再学習）する。すなわち、強化学習エージェント部１０２は、将来にわたって得られる報酬の和（割引き和）が最大となるように当該関数を更新する。

以上を繰り返すことで、強化学習エージェント部１０２は、最適な操作量を計算することができるようになる。これにより、実際に操作量を決定したオペレータの経験も踏まえて、最適な操作量を計算することが可能となる。このため、例えば、シミュレータが予期したない状況における最適な操作量やオペレータ自身も気付かないような暗黙知から決定される最適な操作量等も計算することが可能となる。

なお、報酬としては、実際の操作量と制御時刻ｔ－１における操作量との誤差に負数を乗じたものとしたが、これに限られず、このような誤差を表すものであれば任意に設計することが可能である。また、報酬はオペレータによって入力されてもよいが、上記の誤差を用いることでオペレータの入力が不要となり、自動的に学習を行うことが可能となる。

＜プラント運転支援装置１０のハードウェア構成＞
次に、本実施形態に係るプラント運転支援装置１０のハードウェア構成について、図５を参照しながら説明する。図５は、本実施形態に係るプラント運転支援装置１０のハードウェア構成の一例を示す図である。

図５に示すように、本実施形態に係るプラント運転支援装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置２０１と、表示装置２０２と、外部Ｉ／Ｆ２０３と、通信Ｉ／Ｆ２０４と、プロセッサ２０５と、メモリ装置２０６とを有する。これら各ハードウェアは、それぞれがバス２０７を介して通信可能に接続されている。

入力装置２０１は、例えば、キーボードやマウス、タッチパネル、各種ボタン等である。表示装置２０２は、例えば、ディスプレイや表示パネル等である。なお、プラント運転支援装置１０は、入力装置２０１及び表示装置２０２のうちの少なくとも一方を有していなくてもよい。

外部Ｉ／Ｆ２０３は、記録媒体２０３ａ等の外部装置とのインタフェースである。プラント運転支援装置１０は、外部Ｉ／Ｆ２０３を介して、記録媒体２０３ａの読み取りや書き込み等を行うことができる。記録媒体２０３ａには、例えば、プラント運転支援装置１０が有する各機能部（シミュレーション部１０１及び強化学習エージェント部１０２）を実現する１以上のプログラムが格納されていてもよい。なお、記録媒体２０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

通信Ｉ／Ｆ２０４は、プラント運転支援装置１０を通信ネットワークに接続するためのインタフェースである。なお、プラント運転支援装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ２０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

プロセッサ２０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。プラント運転支援装置１０が有する各機能部は、例えば、メモリ装置２０６に格納されている１以上のプログラムがプロセッサ２０５に実行させる処理により実現される。

メモリ装置２０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。

本実施形態に係るプラント運転支援装置１０は、図５に示すハードウェア構成を有することにより、上述したプラント運転支援処理を実現することができる。なお、図５に示すハードウェア構成は一例であって、プラント運転支援装置１０は、他のハードウェア構成を有していてもよい。例えば、プラント運転支援装置１０は、複数のプロセッサ２０５を有していてもよいし、複数のメモリ装置２０６を有していてもよい。

＜実施例＞
次に、本実施形態に係るプラント運転支援装置１０の一実施例について説明する。本実施例では、プラント３０のプラントモデルとして図６に示す需給系統モデルを構築し、この需給系統モデルによりオフラインでシミュレーションを行うものとする。

図６に示す需給系統モデルには、供給設備と、３台の生産設備（生産設備Ｎｏ．１、生産設備Ｎｏ．２及び生産設備Ｎｏ．２）と、需要家設備とが含まれる。

各生産設備は、需要家設備が需要する資源の需要量Ｌに対してそれぞれＬ_１，Ｌ_２及びＬ_３の量の資源を生産する。すなわち、Ｌ≦Ｌ_１＋Ｌ_２＋Ｌ_３の関係を満たす必要があるものとする。なお、生産設備としては、例えば、資源として冷熱を生産する冷凍機、資源として酸素を生成する酸素プラント等が挙げられる。

また、各生産設備はＬ_１，Ｌ_２及びＬ_３の資源を生産する際にその生産量に応じたコストｃ_１，ｃ_２及びｃ_３を消費するものとし、それらの合計をプラント全体のコストｃとする。すなわち、ｃ＝ｃ_１＋ｃ_２＋ｃ_３とする。供給設備は、各生産設備が消費するコストｃ_１，ｃ_２及びｃ_３を供給する設備であるものとする。なお、コストとしては、例えば、電力や燃料等が挙げられる。

また、各生産設備の生産量Ｌ_１，Ｌ_２及びＬ_３とコストｃ_１，ｃ_２及びｃ_３はそれぞれ以下の関係があるものとする。

ｃ_１＝１．０Ｌ_１
ｃ_２＝２．０Ｌ_２
ｃ_３＝３．０Ｌ_３
また、各生産設備の生産量Ｌ_１，Ｌ_２及びＬ_３には以下の上下限が設定されているものとする。

０≦Ｌ_１≦１００
０≦Ｌ_２≦１００
０≦Ｌ_３≦１００
このとき、オフラインで学習する際は、状態量を需要量Ｌ、操作量を各生産設備の生産量Ｌ_１，Ｌ_２及びＬ_３（つまり、各生産設備の生産量の配分）、報酬を以下で定義されるｒとして、図２のステップＳ１０１及び図３で説明した学習を行う。

ｒ＝－（ｃ＋α×ｖ）
ここで、ｖは需要量Ｌを満たせなかった場合のペナルティ量、αは重み係数である。ペナルティ量ｖとしては、Ｌ≦Ｌ_１＋Ｌ_２＋Ｌ_３の場合はｖ＝０、そうでない場合はｖ＝Ｌ－（Ｌ_１＋Ｌ_２＋Ｌ_３）とした。ただし、Ｌはシミュレーション時刻ｔにおける需要量（つまり、シミュレーション時刻ｔにおける需要量をＬ_ｔとすれば、Ｌ＝Ｌ_ｔ）である。また、αとしては、α＝５０とした。

また、強化学習の手法としてはSoft Actor-Criticと呼ばれる手法を用いて、価値関数（各生産設備の生産量Ｌ_１，Ｌ_２及びＬ_３の配分を計算する際に使用する関数）はニューラルネットワークとした。

これにより、強化学習エージェント部１０２は、需要量Ｌを満たし、かつ、コストｃを最小化する生産量の配分Ｌ_１、Ｌ_２及びＬ_３を計算できるような価値関数を学習することができる。

なお、オフラインで学習する際には、強化学習エージェント部１０２で計算した生産量の配分と既知の最適化技術によって計算された最適化結果との差の総和を報酬ｒとしてもよい。すなわち、

を報酬としてもよい。ここで、Ｌ_ｉ ^ｏｐｔ（ｉ＝１，２，３）は既知の最適化技術により計算された各生産設備の最適な生産量の配分であり、

である。ただし、制約条件として以下を持つ。

ｃ＝ｃ_１＋ｃ_２＋ｃ_３
Ｌ≦Ｌ_１ ^ｏｐｔ＋Ｌ_２ ^ｏｐｔ＋Ｌ_３ ^ｏｐｔ
ｃ_１＝１．０Ｌ_１ ^ｏｐｔ，０≦Ｌ_１ ^ｏｐｔ≦１００
ｃ_２＝２．０Ｌ_２ ^ｏｐｔ，０≦Ｌ_２ ^ｏｐｔ≦１００
ｃ_３＝３．０Ｌ_３ ^ｏｐｔ，０≦Ｌ_３ ^ｏｐｔ≦１００
本実施例において、０≦Ｌ≦３の範囲の需要量に対して１０万回の学習を行った結果を図７に示す。図７では、学習回数に対するマイナス１倍した報酬の推移を表している。図７に示されるように、学習回数が少ない間はマイナス１倍した報酬が大きく、需要量Ｌを満たす生産量の配分を計算することができていないが、学習回数が多くなると、マイナス１倍した報酬を小さくすることができている（つまり、コストを小さくすることができている）ことがわかる。

ここで、オペレータ端末２０のオペレータは、一般に、需要量Ｌを満たし、かつ、コストｃを最小化するだけでなく、様々な条件を踏まえて各生産設備の生産量の配分を決定している。また、最適化技術を用いる場合、一般に、完全な最適化モデル（目的関数、制約条件、決定変数等）を事前に構築することは困難である。例えば、最適化モデル構築時は目的関数がコストの最小化のみであったが、実際の運用ではオペレータが各生産設備の負荷の平滑化も考慮する、ということもあり得る。また、プラントに含まれる設備の特性が、実際の運用では事前の想定と異なっていることもある。

そこで、本実施例では、オペレータ端末２０を操作するオペレータは、需要量Ｌを満たし、かつ、コストｃを最小化するだけでなく、生産設備の負荷の平滑化も考えて各生産設備の生産量の配分を決定するものとする。すなわち、オペレータは、生産量の最大値と最小値の差の加重和を最適化して、各生産設備の生産量の配分を決定しているものとする。具体的には、生産量の最大値と最小値との差が０．５よりもなるべく大きくならないように、以下の評価値が最小になるようにプラントを運用しているものとする。

ここで、ｐ＝ｍａｘ（｛Ｌ_１，Ｌ_２，Ｌ_３｝）－ｍｉｎ（｛Ｌ_１，Ｌ_２，Ｌ_３｝）として、ｐ≦ｔｈの場合はｐ´＝０、そうでない場合はｐ´＝ｐである。また、β＝１．５、ｔｈ＝０．５とする。更に、ｃ´＝ｃ_１＋ｃ_２＋ｃ_３´、Ｌ≦Ｌ_１＋Ｌ_２＋Ｌ_３、ｃ_１＝１．０Ｌ_１、０≦Ｌ_１≦１００、ｃ_２＝２．０Ｌ_２、０≦Ｌ_２≦１００、ｃ_３´＝４．０Ｌ_３、０≦Ｌ_３≦１００とする。

すなわち、生産設備Ｎｏ．３の特性が実際の運用では事前の想定（つまり、オフラインで系統モデルを構築した時）と異なっていたものとする。具体的には、事前の想定ではｃ_３＝３．０Ｌ_３であったが、実際の運用ではｃ_３´＝４．０Ｌ_３であったものとする。

このとき、オンラインで学習する際は、状態量を需要量Ｌ、オペレータに提示される操作量を各生産設備の生産量Ｌ_１，Ｌ_２及びＬ_３（つまり、各生産設備の生産量の配分）、報酬ｒを以下で定義されるｒとして、図２のステップＳ１０２及び図４で説明した学習を行う。

ここで、Ｌ_ｉ ^ａｃｔ（ｉ＝１，２，３）はオペレータが実際に決定した生産量の配分（つまり、実際の操作量）であり、上記の評価値が最小になるように決定、つまり

と決定される。これらの実際の操作量がプラント３０に設定される。

本実施例において、オンラインで学習を行った結果を図８に示す。図８は、本実施形態に係るプラント運転支援装置１０を用いた場合（図８では「提案手法」）において、オペレータの実際の操作量とオペレータに提示した操作量との誤差の推移を示している。また、最適化技術や一般的な強化学習を使用した場合（図８では「既存手法」）の当該誤差の推移も示している。図８に示されるように、既存手法ではオンラインでの学習ができないため、オペレータの真の評価値やオンライン運用時のプラントモデル等に沿った運用を計算することができない。このため、オペレータの実際の操作量との誤差が、時間が経過しても小さくならない。一方で、提案手法では、オンラインでも学習するため、時間の経過とともにオペレータの実際の操作量との誤差が小さくなる。このため、提案手法を用いることで、オペレータが妥当と感じる（つまり、評価値が良い）操作量を提示することができるようになると共に、オフライン時とオンライン時でプラントモデルが変化したような場合であっても時間の経過とともに最適な操作量を提示することができるようになる。したがって、このような最適操作量の提示により、オペレータのプラント運用又は運転を支援することができるようになる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

１０プラント運転支援装置
２０オペレータ端末
３０プラント
１０１シミュレーション部
１０２強化学習エージェント部
２０１入力装置
２０２表示装置
２０３外部Ｉ／Ｆ
２０３ａ記録媒体
２０４通信Ｉ／Ｆ
２０５プロセッサ
２０６メモリ装置
２０７バス

Claims

プラントの運転を支援する運転支援装置であって、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第１の計算部と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第１の学習部と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション部と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第２の計算部と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第２の学習部と、
を有し、
前記第２の学習部は、
前記第１の計算部による計算と前記第１の学習部による学習とを行う前に、前記シミュレーション部によるシミュレーションと前記第２の計算部による計算と前記第２の学習部による学習とをオフラインで行う、運転支援装置。
前記第１の学習部は、
前記操作量と前記実際の操作量との差が小さくなるように、前記関数を学習する、請求項１に記載の運転支援装置。
前記関数は、強化学習における価値関数であり、
前記第１の計算部は、
前記強化学習における行動として前記操作量を計算し、
前記第１の学習部は、
前記差によって定義される報酬の割引き和が最大となるように、前記価値関数を学習する、請求項２に記載の運転支援装置。
前記第２の学習部は、
前記評価として既知の最適化技術により最適化された最適操作量を用いて、前記関数を学習する、請求項１乃至３の何れか一項に記載の運転支援装置。
前記第２の学習部は、
前記最適操作量と前記モデルに出力された操作量との差が小さくなるように、前記関数を学習する、請求項４に記載の運転支援装置。
プラントの運転を支援する運転支援装置が、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第１の計算手順と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第１の学習手順と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション手順と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第２の計算手順と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第２の学習手順と、
を実行し、
前記第２の学習手順は、
前記第１の計算手順による計算と前記第１の学習手順による学習とを行う前に、前記シミュレーション手順によるシミュレーションと前記第２の計算手順による計算と前記第２の学習手順による学習とをオフラインで行う、運転支援方法。
プラントの運転を支援する運転支援装置に、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第１の計算手順と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第１の学習手順と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション手順と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第２の計算手順と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第２の学習手順と、
を実行させ、
前記第２の学習手順は、
前記第１の計算手順による計算と前記第１の学習手順による学習とを行う前に、前記シミュレーション手順によるシミュレーションと前記第２の計算手順による計算と前記第２の学習手順による学習とをオフラインで行う、プログラム。