JP7505328B2 - 運転支援装置、運転支援方法及びプログラム - Google Patents
運転支援装置、運転支援方法及びプログラム Download PDFInfo
- Publication number
- JP7505328B2 JP7505328B2 JP2020141193A JP2020141193A JP7505328B2 JP 7505328 B2 JP7505328 B2 JP 7505328B2 JP 2020141193 A JP2020141193 A JP 2020141193A JP 2020141193 A JP2020141193 A JP 2020141193A JP 7505328 B2 JP7505328 B2 JP 7505328B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- plant
- operation amount
- function
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000006870 function Effects 0.000 claims description 50
- 230000002787 reinforcement Effects 0.000 claims description 44
- 238000004088 simulation Methods 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 description 41
- 239000003795 chemical substances by application Substances 0.000 description 28
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- NUFBIAUZAMHTSP-UHFFFAOYSA-N 3-(n-morpholino)-2-hydroxypropanesulfonic acid Chemical compound OS(=O)(=O)CC(O)CN1CCOCC1 NUFBIAUZAMHTSP-UHFFFAOYSA-N 0.000 description 1
- 206010011968 Decreased immune responsiveness Diseases 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010206 sensitivity analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Description
本発明は、運転支援装置、運転支援方法及びプログラムに関する。
最適化技術や強化学習を使用して、プラントや設備、機器等の効率的な運用を行う手法が従来から知られている。
例えば、非特許文献1や非特許文献2には、エネルギーマネジメントに強化学習を使用してシステムな最適な運用方法を提示する手法が開示されている。例えば、特許文献1には、自動車の自動運転に強化学習を適用する手法が開示されている。また、例えば、特許文献2には、オンラインで構築し直した統計モデルに対して強化学習を行ってプラントの運転を支援する手法が開示されている。また、非特許文献3には、最適化技術を使用してエネルギーの供給計画を計算する手法が開示されている。
高橋 賢二郎,佐藤 繭子,福山 良和,「エネルギープラント運用計画への群強化学習の適用におけるパラメータ感度解析」,平成31年電気学会全国大会,Vol. 4,pp-380-381
曽我部 東馬,Dinesh Malla,高山 将太,坂本 克好,山口 浩一,Singh Thakur,曽我部 完,「離散および連続的動作空間における深層強化学習を用いたスマートアネルギーシステムの最適化」,2018年度人工知能学会全国大会論文集,Vol.32, No.4
北村 聖一,森 一之,進藤 静一,泉井 良夫,「改良MOPSOによる工場エネルギー供給計画の多目的最低化」,電気学会論文誌C,Vol.125,No.1,pp-21-28
しかしながら、例えば、非特許文献3に開示されている手法のように、最適化技術を使用する手法の場合、対象(プラントや設備、機器等)のモデルが変わった際には最適解を再計算する必要があり、モデル変更に対して柔軟に対応することができない。また、オンラインに適用する前にすべての制約条件や目的関数を事前に想定してモデルに組み込むことは現実的に困難である。
一方で、非特許文献1及び2並びに特許文献1及び2のように、強化学習を使用した手法では、オンラインに適用する前にシミュレータを用いて予め十分に学習を行っておく必要がある。このため、シミュレータの精度が悪い場合にはオンラインで最適な運用を行うことができない。また、シミュレータで予期しない状況でも最適な運用を行うことができない。これらに対して、様々状況を高い精度でシミュレーション可能なシミュレータを構築することも考えられるが、このようなシミュレータを構築するには高いコストが必要になる。
本発明の一実施形態は、上記の点に鑑みてなされたもので、オンラインでも学習することにより対象の最適な運用を支援することを目的とする。
上記目的を達成するため、一実施形態に係る運転支援装置は、プラントの運転を支援する運転支援装置であって、前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第1の計算部と、前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第1の学習部と、を有する。
オンラインでも学習することにより対象の最適な運用を支援することができる。
以下、本発明の一実施形態について説明する。本実施形態では、需給系統等のプラントを対象として、シミュレータ上で学習した強化学習エージェントをオンライン(つまり、実運用時)でも学習することで、プラントの最適な運用又は運転を支援することが可能なプラント運転支援装置10について説明する。ただし、最適な運用を支援する対象はプラントに限られず、エネルギーマネジメントの分野等で用いられる様々な設備、機器、システム等を対象とすることが可能である。なお、オンライン以外(例えば、プラントの運用開始前又は運用停止時等)はオフラインとも称される。また、厳密にはプラントの最適な運転が行われることでその最適な運用が実現されるが、本明細書では「運転」との用語と「運用」との用語を厳密には区別せずに、運転と運用を同一の意味で使用する。
<プラント運転支援装置10の全体構成>
まず、本実施形態に係るプラント運転支援装置10の全体構成について、図1を参照しながら説明する。図1は、本実施形態に係るプラント運転支援装置10の全体構成の一例を示す図である。
まず、本実施形態に係るプラント運転支援装置10の全体構成について、図1を参照しながら説明する。図1は、本実施形態に係るプラント運転支援装置10の全体構成の一例を示す図である。
図1に示すように、本実施形態に係るプラント運転支援装置10は、シミュレーション部101と、強化学習エージェント部102とを有する。また、本実施形態に係るプラント運転支援装置10は、オンライン時に、プラント30のオペレータ等が操作するオペレータ端末20と任意の通信ネットワークにより接続される。なお、プラント30のオペレータは、オペレータ端末20を操作することで、当該プラント30に対して操作量(例えば、需要家設備が需要する資源に対して各生産設備が生産する資源の配分等)を設定することができる。
シミュレーション部101はプラントシミュレータ等であり、プラント30のモデル(以下、「プラントモデル」ともいう。)に基づいて当該プラント30の動作をシミュレーションする。
強化学習エージェント部102は強化学習におけるエージェントとして機能し、オフラインにおいてはプラントモデルに対する操作量をシミュレーション部101に出力すると共に、この操作量に対するシミュレーション結果を用いて学習を行う。また、強化学習エージェント部102は、オンラインにおいてはプラント30に対する操作量をオペレータ端末20に出力すると共に、このオペレータ端末20における実際の操作量とプラント30の状態量とを用いて学習を行う。このように、強化学習エージェント部102は、オフラインにおいてプラント30をシミュレーションすることで事前に学習を行った上で、オンラインにおいてもプラント30の実際の運用から学習を行う。ここで、学習対象は、強化学習エージェントが最適な操作量を計算する際に使用する関数(例えば、強化学習における価値関数等)又は関数テーブルである(より正確には、その関数のパラメータである。)。このとき、強化学習における価値関数は、ニューラルネットワーク等で表される関数であってもよい(この場合、ニューラルネットワークの重みやバイアス等のパラメータが学習対象である。)。なお、関数テーブルとは、所定の関数の入力と出力の関係をルックアップテーブル等で表現したデータのことである。以下、学習対象となる関数又は関数テーブルをまとめて「関数」と表記する。
これにより、オンラインにおけるオペレータの実際の操作量との違いを学習することが可能となり、オペレータが妥当と感じる操作量を提示することが可能となる。また、シミュレータが予期しないプラント30の動作もオンラインで学習することが可能になると共に、プラントモデルが変化した場合にもメンテナンス等を行うことなく対応が可能になる。更に、プラント30の運用を評価するための評価関数の詳細や、プラント30の制約条件等が事前に不明(つまり、オフライン時に不明)であっても、オンラインにて学習することで対応が可能となる。
なお、図1に示すプラント運転支援装置10の全体構成は一例であって、他の構成であってもよい。例えば、プラント運転支援装置10とオペレータ端末20とが一体で構成されていてもよい。また、例えば、プラント運転支援装置10は、シミュレーション部101を有するシミュレーション装置と、強化学習エージェント部102を有する学習装置とで構成されていてもよい。
<プラント運転支援処理の流れ>
次に、本実施形態に係るプラント運転支援装置10が実行するプラント運転支援処理の流れについて、図2を参照しながら説明する。図2は、本実施形態に係るプラント運転支援処理の流れの一例を示すフローチャートである。ここで、図2のステップS101はオフライン時の処理、ステップS102はオンライン時の処理である。なお、オンラインでは、操作量を計算するための関数の初期状態としてオフラインで学習された関数が設定される。
次に、本実施形態に係るプラント運転支援装置10が実行するプラント運転支援処理の流れについて、図2を参照しながら説明する。図2は、本実施形態に係るプラント運転支援処理の流れの一例を示すフローチャートである。ここで、図2のステップS101はオフライン時の処理、ステップS102はオンライン時の処理である。なお、オンラインでは、操作量を計算するための関数の初期状態としてオフラインで学習された関数が設定される。
ステップS101:プラント運転支援装置10は、シミュレーション部101によるシミュレーションを行って、強化学習エージェント部102により学習を行う。
ここで、オフライン時における学習について、図3を参照しながら説明する。図3は、オフライン時の学習の一例を説明するための図である。
図3に示すように、オフライン時の学習では、プラント運転支援装置10は、シミュレーション時刻t毎に、強化学習における状態の観測、行動の決定、報酬の獲得及び学習を繰り返し実行する。すなわち、シミュレーション時刻t-1における操作量が強化学習エージェント部102からシミュレーション部101に入力されたものとする。このとき、シミュレーション部101は、入力された操作量とプラントモデルを用いてプラント30の運用をシミュレーションし、そのシミュレーション結果としてシミュレーション時刻tにおける状態量とシミュレーション時刻tにおける運用の評価結果である報酬とを強化学習エージェント部102に出力する。なお、シミュレーションにおけるプラントの運用を評価するための評価関数は予め設定される。
そして、強化学習エージェント部102は、シミュレーション時刻tにおける状態量を用いて、所定の関数(学習対象の関数)からシミュレーション時刻tにおける操作量を計算し、その操作量をシミュレーション部101に出力する。これにより、シミュレーション時刻tが次の時刻に更新される。なお、操作量が、強化学習における行動に相当する。
また、強化学習エージェント部102は、シミュレーション時刻tにおける状態量と操作量と報酬とに基づいて、学習対象の関数を学習する。すなわち、強化学習エージェント部102は、将来にわたって得られる報酬の和(割引き和)が最大となるように当該関数を更新する。
以上を繰り返すことで、強化学習エージェント部102は、最適な操作量を計算することができるようになる。なお、状態量とは、例えば、プラント30又はプラントモデルの需要家設備が需要する総資源量のことである。
ステップS102:プラント運転支援装置10は、オペレータ端末20によって実際にプラント30の運用が行われている間、強化学習エージェント部102によりオペレータ端末20に対して最適な操作量を提示すると共に学習(再学習)を行う。なお、オンラインは所定の終了条件を満たした場合(例えば、オペレータによる終了操作が行われた場合、所定の時刻となった場合、所定の量の生産物が生産された場合等)に終了する。
ここで、オンライン時における学習について、図4を参照しながら説明する。図4は、オンライン時の学習の一例を説明するための図である。
図4に示すように、オンライン時の学習では、プラント運転支援装置10は、オペレータが操作量を設定する時間幅である制御時刻t毎に、強化学習における状態の観測、行動の決定及び学習を繰り返し実行する。すなわち、制御時刻t-1における操作量が強化学習エージェント部102からオペレータ端末20に提示されたものとする。このとき、オペレータ端末20のオペレータは、強化学習エージェント部102から提示された操作量を参考に実際の操作量を決定し、その操作量(実際の操作量)をプラント30に設定する。これにより、その操作量でプラント30が運用される。
そして、オペレータ端末20は、プラント30の運用結果として制御時刻tにおける状態量と実際の操作量とを強化学習エージェント部102に出力する。強化学習エージェント部102は、制御時刻tにおける状態量を用いて、所定の関数(学習対象の関数)から制御時刻tにおける操作量を計算し、オペレータ端末20に出力する。これにより、制御時刻tが次の時刻に更新される。
また、強化学習エージェント部102は、実際の操作量を用いて制御時刻tにおける報酬を計算する。報酬としては、実際の操作量と制御時刻t-1における操作量(つまり、実際の操作量をオペレータが決定する際に、当該オペレータに提示された操作量)との誤差に負数(例えば、-1)を乗じたものとすればよい。更に、強化学習エージェント部102は、制御時刻tにおける状態量と操作量と報酬とに基づいて、学習対象の関数を学習(再学習)する。すなわち、強化学習エージェント部102は、将来にわたって得られる報酬の和(割引き和)が最大となるように当該関数を更新する。
以上を繰り返すことで、強化学習エージェント部102は、最適な操作量を計算することができるようになる。これにより、実際に操作量を決定したオペレータの経験も踏まえて、最適な操作量を計算することが可能となる。このため、例えば、シミュレータが予期したない状況における最適な操作量やオペレータ自身も気付かないような暗黙知から決定される最適な操作量等も計算することが可能となる。
なお、報酬としては、実際の操作量と制御時刻t-1における操作量との誤差に負数を乗じたものとしたが、これに限られず、このような誤差を表すものであれば任意に設計することが可能である。また、報酬はオペレータによって入力されてもよいが、上記の誤差を用いることでオペレータの入力が不要となり、自動的に学習を行うことが可能となる。
<プラント運転支援装置10のハードウェア構成>
次に、本実施形態に係るプラント運転支援装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本実施形態に係るプラント運転支援装置10のハードウェア構成の一例を示す図である。
次に、本実施形態に係るプラント運転支援装置10のハードウェア構成について、図5を参照しながら説明する。図5は、本実施形態に係るプラント運転支援装置10のハードウェア構成の一例を示す図である。
図5に示すように、本実施形態に係るプラント運転支援装置10は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置201と、表示装置202と、外部I/F203と、通信I/F204と、プロセッサ205と、メモリ装置206とを有する。これら各ハードウェアは、それぞれがバス207を介して通信可能に接続されている。
入力装置201は、例えば、キーボードやマウス、タッチパネル、各種ボタン等である。表示装置202は、例えば、ディスプレイや表示パネル等である。なお、プラント運転支援装置10は、入力装置201及び表示装置202のうちの少なくとも一方を有していなくてもよい。
外部I/F203は、記録媒体203a等の外部装置とのインタフェースである。プラント運転支援装置10は、外部I/F203を介して、記録媒体203aの読み取りや書き込み等を行うことができる。記録媒体203aには、例えば、プラント運転支援装置10が有する各機能部(シミュレーション部101及び強化学習エージェント部102)を実現する1以上のプログラムが格納されていてもよい。なお、記録媒体203aには、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等がある。
通信I/F204は、プラント運転支援装置10を通信ネットワークに接続するためのインタフェースである。なお、プラント運転支援装置10が有する各機能部を実現する1以上のプログラムは、通信I/F204を介して、所定のサーバ装置等から取得(ダウンロード)されてもよい。
プロセッサ205は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。プラント運転支援装置10が有する各機能部は、例えば、メモリ装置206に格納されている1以上のプログラムがプロセッサ205に実行させる処理により実現される。
メモリ装置206は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ等の各種記憶装置である。
本実施形態に係るプラント運転支援装置10は、図5に示すハードウェア構成を有することにより、上述したプラント運転支援処理を実現することができる。なお、図5に示すハードウェア構成は一例であって、プラント運転支援装置10は、他のハードウェア構成を有していてもよい。例えば、プラント運転支援装置10は、複数のプロセッサ205を有していてもよいし、複数のメモリ装置206を有していてもよい。
<実施例>
次に、本実施形態に係るプラント運転支援装置10の一実施例について説明する。本実施例では、プラント30のプラントモデルとして図6に示す需給系統モデルを構築し、この需給系統モデルによりオフラインでシミュレーションを行うものとする。
次に、本実施形態に係るプラント運転支援装置10の一実施例について説明する。本実施例では、プラント30のプラントモデルとして図6に示す需給系統モデルを構築し、この需給系統モデルによりオフラインでシミュレーションを行うものとする。
図6に示す需給系統モデルには、供給設備と、3台の生産設備(生産設備No.1、生産設備No.2及び生産設備No.2)と、需要家設備とが含まれる。
各生産設備は、需要家設備が需要する資源の需要量Lに対してそれぞれL1,L2及びL3の量の資源を生産する。すなわち、L≦L1+L2+L3の関係を満たす必要があるものとする。なお、生産設備としては、例えば、資源として冷熱を生産する冷凍機、資源として酸素を生成する酸素プラント等が挙げられる。
また、各生産設備はL1,L2及びL3の資源を生産する際にその生産量に応じたコストc1,c2及びc3を消費するものとし、それらの合計をプラント全体のコストcとする。すなわち、c=c1+c2+c3とする。供給設備は、各生産設備が消費するコストc1,c2及びc3を供給する設備であるものとする。なお、コストとしては、例えば、電力や燃料等が挙げられる。
また、各生産設備の生産量L1,L2及びL3とコストc1,c2及びc3はそれぞれ以下の関係があるものとする。
c1=1.0L1
c2=2.0L2
c3=3.0L3
また、各生産設備の生産量L1,L2及びL3には以下の上下限が設定されているものとする。
c2=2.0L2
c3=3.0L3
また、各生産設備の生産量L1,L2及びL3には以下の上下限が設定されているものとする。
0≦L1≦100
0≦L2≦100
0≦L3≦100
このとき、オフラインで学習する際は、状態量を需要量L、操作量を各生産設備の生産量L1,L2及びL3(つまり、各生産設備の生産量の配分)、報酬を以下で定義されるrとして、図2のステップS101及び図3で説明した学習を行う。
0≦L2≦100
0≦L3≦100
このとき、オフラインで学習する際は、状態量を需要量L、操作量を各生産設備の生産量L1,L2及びL3(つまり、各生産設備の生産量の配分)、報酬を以下で定義されるrとして、図2のステップS101及び図3で説明した学習を行う。
r=-(c+α×v)
ここで、vは需要量Lを満たせなかった場合のペナルティ量、αは重み係数である。ペナルティ量vとしては、L≦L1+L2+L3の場合はv=0、そうでない場合はv=L-(L1+L2+L3)とした。ただし、Lはシミュレーション時刻tにおける需要量(つまり、シミュレーション時刻tにおける需要量をLtとすれば、L=Lt)である。また、αとしては、α=50とした。
ここで、vは需要量Lを満たせなかった場合のペナルティ量、αは重み係数である。ペナルティ量vとしては、L≦L1+L2+L3の場合はv=0、そうでない場合はv=L-(L1+L2+L3)とした。ただし、Lはシミュレーション時刻tにおける需要量(つまり、シミュレーション時刻tにおける需要量をLtとすれば、L=Lt)である。また、αとしては、α=50とした。
また、強化学習の手法としてはSoft Actor-Criticと呼ばれる手法を用いて、価値関数(各生産設備の生産量L1,L2及びL3の配分を計算する際に使用する関数)はニューラルネットワークとした。
これにより、強化学習エージェント部102は、需要量Lを満たし、かつ、コストcを最小化する生産量の配分L1、L2及びL3を計算できるような価値関数を学習することができる。
なお、オフラインで学習する際には、強化学習エージェント部102で計算した生産量の配分と既知の最適化技術によって計算された最適化結果との差の総和を報酬rとしてもよい。すなわち、
c=c1+c2+c3
L≦L1 opt+L2 opt+L3 opt
c1=1.0L1 opt,0≦L1 opt≦100
c2=2.0L2 opt,0≦L2 opt≦100
c3=3.0L3 opt,0≦L3 opt≦100
本実施例において、0≦L≦3の範囲の需要量に対して10万回の学習を行った結果を図7に示す。図7では、学習回数に対するマイナス1倍した報酬の推移を表している。図7に示されるように、学習回数が少ない間はマイナス1倍した報酬が大きく、需要量Lを満たす生産量の配分を計算することができていないが、学習回数が多くなると、マイナス1倍した報酬を小さくすることができている(つまり、コストを小さくすることができている)ことがわかる。
L≦L1 opt+L2 opt+L3 opt
c1=1.0L1 opt,0≦L1 opt≦100
c2=2.0L2 opt,0≦L2 opt≦100
c3=3.0L3 opt,0≦L3 opt≦100
本実施例において、0≦L≦3の範囲の需要量に対して10万回の学習を行った結果を図7に示す。図7では、学習回数に対するマイナス1倍した報酬の推移を表している。図7に示されるように、学習回数が少ない間はマイナス1倍した報酬が大きく、需要量Lを満たす生産量の配分を計算することができていないが、学習回数が多くなると、マイナス1倍した報酬を小さくすることができている(つまり、コストを小さくすることができている)ことがわかる。
ここで、オペレータ端末20のオペレータは、一般に、需要量Lを満たし、かつ、コストcを最小化するだけでなく、様々な条件を踏まえて各生産設備の生産量の配分を決定している。また、最適化技術を用いる場合、一般に、完全な最適化モデル(目的関数、制約条件、決定変数等)を事前に構築することは困難である。例えば、最適化モデル構築時は目的関数がコストの最小化のみであったが、実際の運用ではオペレータが各生産設備の負荷の平滑化も考慮する、ということもあり得る。また、プラントに含まれる設備の特性が、実際の運用では事前の想定と異なっていることもある。
そこで、本実施例では、オペレータ端末20を操作するオペレータは、需要量Lを満たし、かつ、コストcを最小化するだけでなく、生産設備の負荷の平滑化も考えて各生産設備の生産量の配分を決定するものとする。すなわち、オペレータは、生産量の最大値と最小値の差の加重和を最適化して、各生産設備の生産量の配分を決定しているものとする。具体的には、生産量の最大値と最小値との差が0.5よりもなるべく大きくならないように、以下の評価値が最小になるようにプラントを運用しているものとする。
すなわち、生産設備No.3の特性が実際の運用では事前の想定(つまり、オフラインで系統モデルを構築した時)と異なっていたものとする。具体的には、事前の想定ではc3=3.0L3であったが、実際の運用ではc3´=4.0L3であったものとする。
このとき、オンラインで学習する際は、状態量を需要量L、オペレータに提示される操作量を各生産設備の生産量L1,L2及びL3(つまり、各生産設備の生産量の配分)、報酬rを以下で定義されるrとして、図2のステップS102及び図4で説明した学習を行う。
本実施例において、オンラインで学習を行った結果を図8に示す。図8は、本実施形態に係るプラント運転支援装置10を用いた場合(図8では「提案手法」)において、オペレータの実際の操作量とオペレータに提示した操作量との誤差の推移を示している。また、最適化技術や一般的な強化学習を使用した場合(図8では「既存手法」)の当該誤差の推移も示している。図8に示されるように、既存手法ではオンラインでの学習ができないため、オペレータの真の評価値やオンライン運用時のプラントモデル等に沿った運用を計算することができない。このため、オペレータの実際の操作量との誤差が、時間が経過しても小さくならない。一方で、提案手法では、オンラインでも学習するため、時間の経過とともにオペレータの実際の操作量との誤差が小さくなる。このため、提案手法を用いることで、オペレータが妥当と感じる(つまり、評価値が良い)操作量を提示することができるようになると共に、オフライン時とオンライン時でプラントモデルが変化したような場合であっても時間の経過とともに最適な操作量を提示することができるようになる。したがって、このような最適操作量の提示により、オペレータのプラント運用又は運転を支援することができるようになる。
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
10 プラント運転支援装置
20 オペレータ端末
30 プラント
101 シミュレーション部
102 強化学習エージェント部
201 入力装置
202 表示装置
203 外部I/F
203a 記録媒体
204 通信I/F
205 プロセッサ
206 メモリ装置
207 バス
20 オペレータ端末
30 プラント
101 シミュレーション部
102 強化学習エージェント部
201 入力装置
202 表示装置
203 外部I/F
203a 記録媒体
204 通信I/F
205 プロセッサ
206 メモリ装置
207 バス
Claims (7)
- プラントの運転を支援する運転支援装置であって、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第1の計算部と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第1の学習部と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション部と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第2の計算部と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第2の学習部と、
を有し、
前記第2の学習部は、
前記第1の計算部による計算と前記第1の学習部による学習とを行う前に、前記シミュレーション部によるシミュレーションと前記第2の計算部による計算と前記第2の学習部による学習とをオフラインで行う、運転支援装置。 - 前記第1の学習部は、
前記操作量と前記実際の操作量との差が小さくなるように、前記関数を学習する、請求項1に記載の運転支援装置。 - 前記関数は、強化学習における価値関数であり、
前記第1の計算部は、
前記強化学習における行動として前記操作量を計算し、
前記第1の学習部は、
前記差によって定義される報酬の割引き和が最大となるように、前記価値関数を学習する、請求項2に記載の運転支援装置。 - 前記第2の学習部は、
前記評価として既知の最適化技術により最適化された最適操作量を用いて、前記関数を学習する、請求項1乃至3の何れか一項に記載の運転支援装置。 - 前記第2の学習部は、
前記最適操作量と前記モデルに出力された操作量との差が小さくなるように、前記関数を学習する、請求項4に記載の運転支援装置。 - プラントの運転を支援する運転支援装置が、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第1の計算手順と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第1の学習手順と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション手順と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第2の計算手順と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第2の学習手順と、
を実行し、
前記第2の学習手順は、
前記第1の計算手順による計算と前記第1の学習手順による学習とを行う前に、前記シミュレーション手順によるシミュレーションと前記第2の計算手順による計算と前記第2の学習手順による学習とをオフラインで行う、運転支援方法。 - プラントの運転を支援する運転支援装置に、
前記プラントの状態量と所定の関数とに基づいて、前記プラントのオペレータに提示される操作量を計算する第1の計算手順と、
前記オペレータに提示された操作量と、前記オペレータが前記プラントに設定した実際の操作量とに基づいて、前記関数を学習する第1の学習手順と、
前記プラントのモデルを用いて、前記プラントの運転をシミュレーションするシミュレーション手順と、
前記モデルの状態量と前記関数とに基づいて、前記モデルに出力される操作量を計算する第2の計算手順と、
前記モデルに出力された操作量の評価に基づいて、前記関数を学習する第2の学習手順と、
を実行させ、
前記第2の学習手順は、
前記第1の計算手順による計算と前記第1の学習手順による学習とを行う前に、前記シミュレーション手順によるシミュレーションと前記第2の計算手順による計算と前記第2の学習手順による学習とをオフラインで行う、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020141193A JP7505328B2 (ja) | 2020-08-24 | 運転支援装置、運転支援方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020141193A JP7505328B2 (ja) | 2020-08-24 | 運転支援装置、運転支援方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022036809A JP2022036809A (ja) | 2022-03-08 |
JP7505328B2 true JP7505328B2 (ja) | 2024-06-25 |
Family
ID=
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178492A (ja) | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | 強化学習法を用いたプラントシミュレーション方法 |
JP2019197315A (ja) | 2018-05-08 | 2019-11-14 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
JP2020095352A (ja) | 2018-12-10 | 2020-06-18 | 富士電機株式会社 | 制御装置、制御方法及びプログラム |
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178492A (ja) | 2002-11-29 | 2004-06-24 | Mitsubishi Heavy Ind Ltd | 強化学習法を用いたプラントシミュレーション方法 |
JP2019197315A (ja) | 2018-05-08 | 2019-11-14 | 千代田化工建設株式会社 | プラント運転条件設定支援システム、学習装置、及び運転条件設定支援装置 |
JP2020095352A (ja) | 2018-12-10 | 2020-06-18 | 富士電機株式会社 | 制御装置、制御方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Intelligent multi-zone residential HVAC control strategy based on deep reinforcement learning | |
Pinto et al. | Adaptive learning in agents behaviour: A framework for electricity markets simulation | |
Schreiber et al. | Application of two promising Reinforcement Learning algorithms for load shifting in a cooling supply system | |
Pinto et al. | Adaptive portfolio optimization for multiple electricity markets participation | |
Rahimiyan et al. | An adaptive $ Q $-learning algorithm developed for agent-based computational modeling of electricity market | |
Yu et al. | An intelligent quick prediction algorithm with applications in industrial control and loading problems | |
JP6902487B2 (ja) | 機械学習システム | |
CN115168027A (zh) | 一种基于深度强化学习的算力资源度量方法 | |
US20220269835A1 (en) | Resource prediction system for executing machine learning models | |
JP7060130B1 (ja) | 運用支援装置、運用支援方法及びプログラム | |
JP7505328B2 (ja) | 運転支援装置、運転支援方法及びプログラム | |
US20230342626A1 (en) | Model processing method and related apparatus | |
CN111695967A (zh) | 一种报价的确定方法、装置、设备及存储介质 | |
CN111882062A (zh) | 一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法 | |
CN113112311B (zh) | 训练因果推断模型的方法、信息提示方法以装置 | |
Pinto et al. | Strategic bidding methodology for electricity markets using adaptive learning | |
CN115827225A (zh) | 异构运算的分配方法、模型训练方法、装置、芯片、设备及介质 | |
JP2022036809A (ja) | 運転支援装置、運転支援方法及びプログラム | |
KR102614446B1 (ko) | 실시간 시뮬레이터를 이용한 강화학습 기반 공장 에너지 관리 방법 및 이를 이용한 시스템 | |
Grosch et al. | A framework for researching energy optimization of factory operations | |
CN115392113A (zh) | 一种跨工况条件复杂机电系统剩余寿命预测系统及方法 | |
CN113887816A (zh) | 一种家用电器社会保有量的智能预测方法、装置及设备 | |
CN113822441A (zh) | 决策模型训练方法、装置、终端设备及存储介质 | |
Wang et al. | Human–Machine Collaborative Reinforcement Learning for Power Line Flow Regulation | |
CN116227571B (zh) | 模型的训练、动作确定方法、装置、电子设备及存储介质 |