JP7384311B1 - Driving support device, driving support method and program - Google Patents

Driving support device, driving support method and program Download PDF

Info

Publication number
JP7384311B1
JP7384311B1 JP2023109143A JP2023109143A JP7384311B1 JP 7384311 B1 JP7384311 B1 JP 7384311B1 JP 2023109143 A JP2023109143 A JP 2023109143A JP 2023109143 A JP2023109143 A JP 2023109143A JP 7384311 B1 JP7384311 B1 JP 7384311B1
Authority
JP
Japan
Prior art keywords
target plant
recommended setting
model
setting value
plant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023109143A
Other languages
Japanese (ja)
Inventor
智志 桐生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP2023109143A priority Critical patent/JP7384311B1/en
Application granted granted Critical
Publication of JP7384311B1 publication Critical patent/JP7384311B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術を提供すること。【解決手段】本開示の一態様による運転支援装置は、対象プラントの運転を支援するための運転支援装置であって、前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、を有する。【選択図】図3An object of the present invention is to provide a technology that can realize highly accurate operation support even when sufficient data regarding a target plant does not exist. [Solution] An operation support device according to one aspect of the present disclosure is an operation support device for supporting the operation of a target plant, and represents the state of the plant using operation performance data of plants other than the target plant. a pre-learning unit that learns a model that receives operating data as input and outputs recommended setting values for the plant; and a fine-tuning unit that fine-tunes the model learned by the pre-learning unit using operating performance data of the target plant. and a recommended setting value calculation unit that calculates recommended setting values using the model from the operation data of the target plant each time operation data is acquired from the target plant, and recommended settings calculated by the recommended setting value calculation unit. and a proposal unit that proposes the value to the operator of the target plant. [Selection diagram] Figure 3

Description

本開示は、運転支援装置、運転支援方法及びプログラムに関する。 The present disclosure relates to a driving support device, a driving support method, and a program.

燃焼炉等のプラントでは炉の燃焼状態等の計測値を踏まえて、オペレータが過去の状況を考慮しながら設定値を変更することにより安定した運転を実現している。このため、オペレータの負荷が大きく、オペレータの運転を支援するための様々な技術が提案されている。例えば、特許文献1には、ニューラルネットワークにより作成されたモデルを利用して、プラントの運転状態に応じた推奨操作を出力する技術が記載されている。 In plants such as combustion furnaces, stable operation is achieved by operators changing set values while taking past conditions into account, based on measured values such as the combustion state of the furnace. This places a heavy burden on the operator, and various techniques have been proposed to support the operator's operation. For example, Patent Document 1 describes a technique that uses a model created by a neural network to output recommended operations according to the operating state of a plant.

特開2019-159675号公報JP2019-159675A

しかしながら、運転支援の対象とするプラント(以下、対象プラント)によっては対象プラントの状態の計測値や設定値等を表すデータが十分に存在しない場合がある。このため、例えば、特許文献1に記載されている技術では精度の良いモデルを作成することができない場合がある。 However, depending on the plant targeted for operation support (hereinafter referred to as the target plant), there may be insufficient data representing the measured values, set values, etc. of the state of the target plant. For this reason, for example, the technique described in Patent Document 1 may not be able to create a highly accurate model.

本開示は、上記の点に鑑みてなされたもので、対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術を提供する。 The present disclosure has been made in view of the above points, and provides a technology that can realize highly accurate operation support even when there is insufficient data regarding the target plant.

本開示の一態様による運転支援装置は、対象プラントの運転を支援するための運転支援装置であって、前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、を有する。 An operation support device according to one aspect of the present disclosure is an operation support device for supporting the operation of a target plant, and inputs operation data representing the state of the plant using operation record data of plants other than the target plant. a pre-learning unit that learns a model that outputs recommended setting values for the plant as a target plant; a fine-tuning unit that fine-tunes the model learned by the pre-learning unit using operation record data of the target plant; a recommended setting value calculating section that calculates recommended setting values using the model from the operating data of the target plant each time operating data is acquired from the plant; It has a proposal department that makes proposals to plant operators.

対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術が提供される。 Provided is a technology that can realize highly accurate operation support even when sufficient data regarding a target plant does not exist.

本実施形態に係るプラント制御システムの全体構成の一例を示す図である。1 is a diagram showing an example of the overall configuration of a plant control system according to the present embodiment. 本実施形態に係る運転支援装置のハードウェア構成の一例を示す図である。1 is a diagram illustrating an example of a hardware configuration of a driving support device according to an embodiment. 本実施形態に係る運転支援装置の機能構成の一例を示す図である。1 is a diagram illustrating an example of a functional configuration of a driving support device according to an embodiment. 本実施形態に係るオフライン処理の一例を示すフローチャートである。It is a flowchart which shows an example of offline processing concerning this embodiment. 本実施形態に係るオンライン処理の一例を示すフローチャートである。3 is a flowchart illustrating an example of online processing according to the present embodiment. モデル出力の順位付けの一例を示す図(その1)である。FIG. 3 is a diagram (part 1) showing an example of ranking of model outputs. モデル出力の順位付けの一例を示す図(その2)である。FIG. 7 is a diagram (part 2) showing an example of ranking of model outputs. 一実施例におけるごみ焼却プラントを模式的に示す図である。FIG. 1 is a diagram schematically showing a waste incineration plant in one embodiment. 一実施例における各モデルの推奨設定値を模式的に示す図である。FIG. 3 is a diagram schematically showing recommended setting values for each model in an example. 一実施例におけるオペレータの設定値を模式的に示す図である。FIG. 3 is a diagram schematically showing operator setting values in one embodiment. 一実施例における報酬関数の学習を模式的に示す図である。FIG. 3 is a diagram schematically showing learning of a reward function in an example. 一実施例におけるモデル学習を模式的に示す図である。FIG. 3 is a diagram schematically showing model learning in an example. 一実施例におけるモデル学習の結果を模式的に示す図である。FIG. 3 is a diagram schematically showing the results of model learning in an example.

以下、本発明の一実施形態について説明する。以下の実施形態では、対象プラントに関するデータ(対象プラントの状態を計測した計測値、対象プラントの設定値)が十分に存在しない場合であっても精度の良い運転支援を実現できる運転支援装置10が含まれるプラント制御システム1について説明する。なお、対象プラントとは、運転支援装置10による運転支援の対象とするプラントのことである。 An embodiment of the present invention will be described below. In the following embodiments, an operation support device 10 that can realize highly accurate operation support even when there is insufficient data regarding the target plant (measured values of the state of the target plant, set values of the target plant) is provided. The included plant control system 1 will be explained. Note that the target plant is a plant targeted for operational support by the operational support device 10.

以下、プラントの状態を計測した計測値で構成されるデータのことを「運転データ」と呼ぶことにする。運転データは、プラントの様々な状態を表す物理量(例えば、温度、圧力、流量、ガス濃度等)を各種センサで計測した計測値で構成される。すなわち、運転データは、各物理量を表す変数(これは「状態変数」とも呼ばれる。)で構成される多変量データである。 Hereinafter, data composed of measured values of the state of the plant will be referred to as "operating data." The operation data is composed of measured values obtained by measuring physical quantities (for example, temperature, pressure, flow rate, gas concentration, etc.) representing various states of the plant using various sensors. That is, the operation data is multivariate data composed of variables (also called "state variables") representing each physical quantity.

また、以下では、或る時刻の運転データと、その運転データが得られたときにオペレータによってプラントに設定された設定値(つまり、当該時刻の設定値)との組を「プラント運転実績データ」と呼ぶことにする。例えば、時刻tの運転データをx、その運転データxが得られたときにオペレータによってプラントに設定された設定値をyとしたとき、プラント運転実績データは(x,y)と表される。なお、時刻tの運転データxは、時刻t-1~時刻tの間に計測された状態変数の時系列データを表す多変量データであってもよい。 In addition, in the following, a set of operating data at a certain time and a setting value set in the plant by an operator when the operating data was obtained (that is, a setting value at the relevant time) will be referred to as "plant operating performance data". I will call it. For example, when the operating data at time t is x t and the setting value set in the plant by the operator when the operating data x t was obtained is y t , the plant operating performance data is (x t , y t ) It is expressed as Note that the driving data x t at time t may be multivariate data representing time-series data of state variables measured between time t-1 and time t.

更に、以下では、対象プラント以外のプラントのプラント運転実績データ等を利用するため、対象プラントとそれ以外のプラントを区別する記号として、対象プラントをp'、対象プラント以外のプラントをp∈[P]で表すことにする。ここで、Pは対象プラント以外のプラントの総数である。 Furthermore, in the following, since we will use plant operation performance data of plants other than the target plant, we will use p' for the target plant and p∈[P ]. Here, P is the total number of plants other than the target plant.

<プラント制御システム1の全体構成例>
本実施形態に係るプラント制御システム1の全体構成例を図1に示す。図1に示すように、本実施形態に係るプラント制御システム1には、運転支援装置10と、オペレータ端末20と、対象プラント30とが含まれる。ここで、運転支援装置10とオペレータ端末20は任意の通信ネットワークを介して通信可能に接続されている。同様に、オペレータ端末20と対象プラント30は任意の通信ネットワークを介して通信可能に接続されており、対象プラント30と運転支援装置10は任意の通信ネットワークを介して通信可能に接続されている。
<Example of overall configuration of plant control system 1>
FIG. 1 shows an example of the overall configuration of a plant control system 1 according to this embodiment. As shown in FIG. 1, the plant control system 1 according to the present embodiment includes an operation support device 10, an operator terminal 20, and a target plant 30. Here, the driving support device 10 and the operator terminal 20 are communicably connected via an arbitrary communication network. Similarly, the operator terminal 20 and the target plant 30 are communicably connected via any communication network, and the target plant 30 and the operation support device 10 are communicably connected via any communication network.

運転支援装置10は、対象プラント30の運転データから推奨設定値を算出するモデル(以下、「推奨設定値算出モデル」ともいう。)をオフラインで学習する。また、運転支援装置10は、オンラインで対象プラント30から運転データを取得する毎に、学習済みの推奨設定値算出モデルにより推奨設定値を算出してオペレータに提案すると共に推奨設定値算出モデルを動的に再学習する。ここで、推奨設定値とは、オペレータに推奨する設定値のことである。また、推奨設定値算出モデルは、運転データを入力として推奨設定値を算出及び出力する機械学習モデルである。なお、オンラインとは、対象プラント30が運用中の状態のことである。一方で、オフラインとは、オンライン以外の状態のことであり、例えば、対象プラント30の運用開始前や運用停止中の状態のことである。 The operation support device 10 learns a model (hereinafter also referred to as a "recommended setting value calculation model") that calculates recommended setting values from operating data of the target plant 30 offline. In addition, each time the operation support device 10 acquires operational data from the target plant 30 online, the operation support device 10 calculates recommended setting values using the learned recommended setting value calculation model, proposes them to the operator, and operates the recommended setting value calculation model. Re-learn the basics. Here, the recommended setting value is a setting value recommended to the operator. Further, the recommended setting value calculation model is a machine learning model that calculates and outputs recommended setting values using operating data as input. Note that online refers to a state in which the target plant 30 is in operation. On the other hand, offline refers to a state other than online, and is, for example, a state before the target plant 30 starts operating or while the operation is stopped.

オペレータ端末20は、対象プラント30のオペレータが操作する各種端末(例えば、PC(パーソナルコンピュータ)、スマートフォン、タブレット端末、ウェアラブルデバイス等)である。オペレータは、運転支援装置10から提案された推奨設定値を参考にして対象プラント30に実際に設定する設定値を決定した上で、オペレータ端末20を操作して当該設定値を対象プラント30に設定する。これにより、当該設定値によって対象プラント30の運転が制御される。なお、設定値とは、対象プラント30に設定される操作量等の値のことである。 The operator terminal 20 is a variety of terminals (for example, a PC (personal computer), a smartphone, a tablet terminal, a wearable device, etc.) operated by an operator of the target plant 30. The operator refers to the recommended setting values proposed by the operation support device 10 and determines the setting values to actually be set in the target plant 30, and then operates the operator terminal 20 to set the setting values in the target plant 30. do. Thereby, the operation of the target plant 30 is controlled by the set value. Note that the set value refers to a value such as a manipulated variable set to the target plant 30.

対象プラント30は、運転支援の対象となる各種プラントである。対象プラント30は特定のプラントに限定されるものではないが、一例として、ごみ焼却プラント等が挙げられる。また、対象プラント30は、必ずしもプラントに限定されるものではなく、例えば、エネルギーマネジメントシステム等といった需給系統であってもよい。 The target plants 30 are various plants that are targets of operational support. Although the target plant 30 is not limited to a specific plant, an example is a garbage incineration plant. Further, the target plant 30 is not necessarily limited to a plant, and may be a supply and demand system such as an energy management system, for example.

なお、図1に示すプラント制御システム1の全体構成は一例であって、他の構成であってもよい。例えば、運転支援装置10とオペレータ端末20とが一体で構成されていてもよい。また、複数のオペレータ端末20が存在してもよい。 Note that the overall configuration of the plant control system 1 shown in FIG. 1 is an example, and other configurations may be used. For example, the driving support device 10 and the operator terminal 20 may be integrated. Further, a plurality of operator terminals 20 may exist.

<運転支援装置10のハードウェア構成例>
本実施形態に係る運転支援装置10のハードウェア構成例を図2に示す。図2に示すように、本実施形態に係る運転支援装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続される。
<Example of hardware configuration of driving support device 10>
FIG. 2 shows an example of the hardware configuration of the driving support device 10 according to this embodiment. As shown in FIG. 2, the driving support device 10 according to the present embodiment includes an input device 101, a display device 102, an external I/F 103, a communication I/F 104, a RAM (Random Access Memory) 105, and a ROM. (Read Only Memory) 106, an auxiliary storage device 107, and a processor 108. Each of these pieces of hardware is communicably connected via a bus 109.

入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、運転支援装置10は、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。 The input device 101 is, for example, a keyboard, a mouse, a touch panel, a physical button, or the like. The display device 102 is, for example, a display, a display panel, or the like. Note that the driving support device 10 does not need to include at least one of the input device 101 and the display device 102.

外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。記録媒体103aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。 The external I/F 103 is an interface with an external device such as the recording medium 103a. Examples of the recording medium 103a include a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.

通信I/F104は、運転支援装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性の記憶装置であり、プログラムやデータが格納される。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。 Communication I/F 104 is an interface for connecting driving support device 10 to a communication network. The RAM 105 is a volatile semiconductor memory (storage device) that temporarily holds programs and data. The ROM 106 is a nonvolatile semiconductor memory (storage device) that can retain programs and data even when the power is turned off. The auxiliary storage device 107 is, for example, a nonvolatile storage device such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores programs and data. The processor 108 is, for example, various arithmetic devices such as a CPU (Central Processing Unit) or a GPU (Graphics Processing Unit).

なお、図2に示すハードウェア構成は一例であって、運転支援装置10は、他のハードウェア構成を有していてもよい。例えば、運転支援装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェア以外の種々のハードウェアを有していてもよい。 Note that the hardware configuration shown in FIG. 2 is an example, and the driving support device 10 may have other hardware configurations. For example, the driving support device 10 may include multiple auxiliary storage devices 107 and multiple processors 108, or may include various hardware other than the illustrated hardware.

<運転支援装置10の機能構成例>
本実施形態に係る運転支援装置10の機能構成例を図3に示す。図3に示すように、本実施形態に係る運転支援装置10は、オフライン処理部201と、オンライン処理部202とを有する。これら各部は、例えば、運転支援装置10にインストールされた1以上のプログラムが、プロセッサ108等に実行させる処理により実現される。また、本実施形態に係る運転支援装置10は、プラント運転実績記憶部203と、対象プラント運転実績記憶部204とを有する。これら各記憶部は、例えば、補助記憶装置107等といった記憶装置の記憶領域により実現される。なお、プラント運転実績記憶部203及び対象プラント運転実績記憶部204の少なくとも一方の記憶部が、運転支援装置10と通信ネットワークを介して接続される記憶装置の記憶領域により実現されていてもよい。
<Example of functional configuration of driving support device 10>
FIG. 3 shows an example of the functional configuration of the driving support device 10 according to this embodiment. As shown in FIG. 3, the driving support device 10 according to this embodiment includes an offline processing section 201 and an online processing section 202. Each of these units is realized, for example, by one or more programs installed in the driving support device 10 causing the processor 108 or the like to execute the process. Further, the operation support device 10 according to the present embodiment includes a plant operation record storage section 203 and a target plant operation record storage section 204. Each of these storage units is realized by a storage area of a storage device such as the auxiliary storage device 107, for example. Note that at least one of the plant operation record storage unit 203 and the target plant operation record storage unit 204 may be realized by a storage area of a storage device connected to the operation support device 10 via a communication network.

オフライン処理部201は、対象プラント30以外のプラントのプラント運転実績データと、対象プラント30の過去のプラント運転実績データ(以下、「対象プラント運転実績データ」ともいう。)とを用いて、オフラインで推奨設定値算出モデルを学習する。ここで、オフライン処理部201には、事前学習部211と、ファインチューニング部212とが含まれる。事前学習部211は、対象プラント30以外のプラントのプラント運転実績データを用いて、推奨設定値算出モデルを事前学習する。ファインチューニング部212は、対象プラント運転実績データを用いて、事前学習済みの推奨設定値算出モデルをファインチューニングする。これにより、事前学習済みの推奨設定値算出モデルが対象プラント30用にファインチューニングされ、学習済みの推奨設定値算出モデルが得られる。 The offline processing unit 201 uses plant operation record data of plants other than the target plant 30 and past plant operation record data of the target plant 30 (hereinafter also referred to as "target plant operation record data") to perform offline processing. Learn the recommended setting value calculation model. Here, the offline processing section 201 includes a preliminary learning section 211 and a fine tuning section 212. The pre-learning unit 211 uses plant operation record data of plants other than the target plant 30 to pre-learn a recommended setting value calculation model. The fine-tuning unit 212 fine-tunes the pre-trained recommended setting value calculation model using target plant operation performance data. As a result, the pre-trained recommended setting value calculation model is fine-tuned for the target plant 30, and a learned recommended setting value calculation model is obtained.

オンライン処理部202は、オンラインで対象プラント30から運転データが取得される毎に、その運転データと、学習済みの推奨設定値算出モデルとを用いて、推奨設定値を算出すると共に当該推奨設定値算出モデルを再学習する。ここで、オンライン処理部202には、推奨設定値算出部221と、提案部222と、報酬関数学習部223と、モデル学習部224とが含まれる。推奨設定値算出部221は、対象プラント30から取得された運転データと学習済みの推奨設定値算出モデルとを用いて、推奨設定値を算出する。提案部222は、推奨設定値算出部221によって算出された推奨設定値をオペレータ端末20に送信する。これにより、当該推奨設定値がオペレータに提案される。報酬関数学習部223は、オンライン中に得られた対象プラント運転実績データを用いて、推奨設定値が、オペレータが対象プラント30に実際に設定した設定値と近いほど高い報酬を出力する報酬関数を学習する。モデル学習部224は、オンライン中に得られた対象プラント運転実績データと、報酬関数学習部223によって学習された報酬関数とを用いて、当該報酬関数によって計算される報酬を最大化するように、推奨設定値算出モデルを再学習する。 Every time operating data is acquired online from the target plant 30, the online processing unit 202 calculates recommended setting values using the operating data and the learned recommended setting value calculation model, and also calculates the recommended setting values. Retrain the calculation model. Here, the online processing section 202 includes a recommended setting value calculation section 221, a proposal section 222, a reward function learning section 223, and a model learning section 224. The recommended setting value calculation unit 221 calculates recommended setting values using the operating data acquired from the target plant 30 and the learned recommended setting value calculation model. The proposal unit 222 transmits the recommended setting values calculated by the recommended setting value calculation unit 221 to the operator terminal 20. Thereby, the recommended setting value is proposed to the operator. The reward function learning unit 223 uses target plant operation performance data obtained while online to develop a reward function that outputs a higher reward as the recommended setting value is closer to the setting value actually set by the operator in the target plant 30. learn. The model learning unit 224 uses target plant operation performance data obtained while online and the reward function learned by the reward function learning unit 223 to maximize the reward calculated by the reward function. Retrain the recommended setting value calculation model.

プラント運転実績記憶部203は、対象プラント30以外のプラントのプラント運転実績データを記憶する。これらのプラント運転実績データはオフライン時に運転支援装置10に与えられる。 The plant operation record storage unit 203 stores plant operation record data of plants other than the target plant 30. These plant operation performance data are given to the operation support device 10 when offline.

対象プラント運転実績記憶部204は、対象プラント30の対象プラント運転実績データを記憶する。これらの対象プラント運転実績データはオフライン時に運転支援装置10に与えられると共に、オンライン時に収集された運転データ及び設定値から作成される。なお、オフライン時に運転支援装置10に与えられる対象プラント運転実績データは、プラント運転実績記憶部203に記憶されているプラント運転実績データと比べて少量であることを想定する。言い換えれば、オフライン時には、精度の良い推奨設定値算出モデルを学習するには不十分な量の対象プラント運転実績データしか与えられないものとする。 The target plant operation record storage unit 204 stores target plant operation record data of the target plant 30. These target plant operation performance data are given to the operation support device 10 when offline, and are created from operation data and set values collected when online. Note that it is assumed that the target plant operation performance data given to the operation support device 10 during offline is a small amount compared to the plant operation performance data stored in the plant operation performance storage unit 203. In other words, when offline, only an insufficient amount of target plant operation performance data is provided to learn an accurate recommended setting value calculation model.

<オフライン処理>
以下、本実施形態に係るオフライン処理について、図4を参照しながら説明する。なお、オフライン処理は、後述するオンライン処理よりも前に実行される。
<Offline processing>
The offline processing according to this embodiment will be described below with reference to FIG. 4. Note that offline processing is executed before online processing, which will be described later.

オフライン処理部201の事前学習部211は、対象プラント30以外のプラントのプラント運転実績データを用いて、推奨設定値算出モデルを事前学習する(ステップS101)。例えば、事前学習部211は、既知の最適化手法を利用して、以下の式(1)により推奨設定値算出モデルのパラメータを算出する。これにより、このパラメータが設定された推奨設定値算出モデルが事前学習済み推奨設定値算出モデルとして得られる。 The pre-learning unit 211 of the offline processing unit 201 pre-learns a recommended setting value calculation model using plant operation record data of plants other than the target plant 30 (step S101). For example, the pre-learning unit 211 uses a known optimization method to calculate the parameters of the recommended setting value calculation model using the following equation (1). Thereby, a recommended setting value calculation model in which this parameter is set is obtained as a pre-trained recommended setting value calculation model.

Figure 0007384311000002

ここで、
Figure 0007384311000002

here,

Figure 0007384311000003
はn番目の推奨設定値算出モデルである。また、w(n∈[N])はn番目の推奨設定値算出モデルのパラメータ、Nは推奨設定値算出モデルの総数である。tはプラントpの時刻インデックスを表す変数、Tはプラントpのプラント運転実績データの最終時刻を表す時刻インデックスである。なお、以下では、パラメータwを明示せずに、n番目の推奨設定値算出モデルを単にfと記載することもある。また、時刻インデックスを単に時刻ともいう。
Figure 0007384311000003
is the nth recommended setting value calculation model. Further, w n (n∈[N]) is a parameter of the n-th recommended setting value calculation model, and N is the total number of recommended setting value calculation models. t p is a variable representing the time index of the plant p, and T p is a time index representing the final time of the plant operation performance data of the plant p. Note that hereinafter, the n-th recommended setting value calculation model may be simply written as f n without explicitly specifying the parameter w n . Further, the time index is also simply referred to as time.

また、 Also,

Figure 0007384311000004
はプラントpの時刻tにおけるプラント運転実績データに含まれる運転データである。更に、
Figure 0007384311000004
is the operation data included in the plant operation performance data of the plant p at time tp . Furthermore,

Figure 0007384311000005
はプラントpの時刻tにおけるプラント運転実績データに含まれる設定値である。上記の式(1)は、対象プラント30以外の各プラントpの各時刻t=1~Tにおける運転データから推奨設定値算出モデルによって算出された推奨設定値とそのときの実際の設定値との誤差を最小化するように、各推奨設定値算出モデルを学習することを意味している。
Figure 0007384311000005
is a set value included in the plant operation performance data of the plant p at time tp . The above equation (1) is based on the recommended setting value calculated by the recommended setting value calculation model from the operating data at each time t p =1 to T p of each plant p other than the target plant 30, and the actual setting value at that time. This means learning each recommended setting value calculation model so as to minimize the error between.

なお、Nは1以上の整数値であるが、2以上であることが好ましい。これは、N個の推奨設定値算出モデルによってそれぞれ算出されたN個の推奨設定値がオペレータに提案されるため、N≧2である場合、オペレータは、複数個の推奨設定値を比較しながら実際の設定値を決定することができるためである。 Note that N is an integer value of 1 or more, preferably 2 or more. This is because N recommended setting values each calculated by N recommended setting value calculation models are proposed to the operator, so if N≧2, the operator can compare multiple recommended setting values and This is because the actual set value can be determined.

次に、オフライン処理部201のファインチューニング部212は、対象プラント運転実績データを用いて、上記のステップS101で得られた事前学習済み推奨設定値算出モデルをファインチューニングする(ステップS102)。例えば、ファインチューニング部212は、既知の最適化手法を利用して、以下の式(2)により推奨設定値算出モデルのパラメータを算出する。これにより、このパラメータが設定された推奨設定値算出モデルが学習済み推奨設定値算出モデルとして得られる。 Next, the fine-tuning unit 212 of the offline processing unit 201 fine-tunes the pre-learned recommended setting value calculation model obtained in step S101 above using the target plant operation performance data (step S102). For example, the fine tuning unit 212 uses a known optimization method to calculate the parameters of the recommended setting value calculation model using the following equation (2). Thereby, a recommended setting value calculation model in which this parameter is set is obtained as a learned recommended setting value calculation model.

Figure 0007384311000006
ここで、tp'は対象プラント30の時刻インデックスを表す変数、-Tp' は対象プラント30の対象プラント運転実績データの最初の時刻を表す時刻インデックスである。また、
Figure 0007384311000006
Here, t p' is a variable representing the time index of the target plant 30, and -T p' 1 is a time index representing the first time of the target plant operation performance data of the target plant 30. Also,

Figure 0007384311000007
は対象プラント30の時刻tp'における対象プラント運転実績データに含まれる運転データである。更に、
Figure 0007384311000007
is the operation data included in the target plant operation performance data at time tp ' of the target plant 30. Furthermore,

Figure 0007384311000008
は対象プラント30の時刻tp'における対象プラント運転実績データに含まれる設定値である。上記の式(2)は、対象プラント30の各時刻tp'=-Tp' ~0における運転データから推奨設定値算出モデルによって算出された推奨設定値とそのときの実際の設定値との誤差を最小化するように、各推奨設定値算出モデルを学習することを意味している。
Figure 0007384311000008
is a setting value included in the target plant operation performance data of the target plant 30 at time tp ' . The above equation (2) is based on the recommended setting value calculated by the recommended setting value calculation model from the operating data at each time t p' = -T p' 1 to 0 of the target plant 30 and the actual setting value at that time. This means that each recommended setting value calculation model is learned so as to minimize the error.

以上のように、本実施形態に係る運転支援装置10では、対象プラント30以外のプラントのプラント運転実績データを用いて推奨設定値算出モデルを事前学習した後、対象プラント30の対象プラント運転実績データを用いて推奨設定値算出モデルをファインチューニングする。これにより、対象プラント30以外のプラントの知識が推奨設定値算出モデルに転移されるため、対象プラント運転実績データが少量しかない場合(例えば、対象プラント30が運用開始後間もない場合等)であっても、精度の良い推奨設定値算出モデルを得ることができる。 As described above, in the operation support device 10 according to the present embodiment, after pre-learning the recommended setting value calculation model using the plant operation record data of plants other than the target plant 30, the target plant operation record data of the target plant 30 is used. Fine-tune the recommended setting value calculation model using As a result, the knowledge of plants other than the target plant 30 is transferred to the recommended setting value calculation model. Even if there is, a highly accurate recommended setting value calculation model can be obtained.

<オンライン処理>
以下、本実施形態に係るオンライン処理について、図5を参照しながら説明する。図5のステップS201~ステップS205は、対象プラント30から運転データが取得される毎に繰り返し実行する。以下、オンラインの開始時刻をtp'=1として、対象プラント運転実績記憶部204には時刻tp'=1~Tp' -1までの対象プラント運転実績データが記憶されており、時刻tp'=Tp' の運転データが対象プラント30から取得された場合について説明する。
<Online processing>
Online processing according to this embodiment will be described below with reference to FIG. 5. Steps S201 to S205 in FIG. 5 are repeatedly executed every time operation data is acquired from the target plant 30. Hereinafter, assuming that the online start time is t p' = 1, target plant operation performance data from time t p' = 1 to T p' 2 -1 is stored in the target plant operation performance storage unit 204. A case will be described in which the operation data of t p' =T p' 2 is acquired from the target plant 30.

オンライン処理部202の推奨設定値算出部221は、対象プラント30から取得された運転データと、学習済み推奨設定値算出モデルとを用いて、推奨設定値を算出する(ステップS201)。すなわち、推奨設定値算出部221は、n=1,・・・,Nに対して、 The recommended setting value calculation unit 221 of the online processing unit 202 calculates recommended setting values using the operating data acquired from the target plant 30 and the learned recommended setting value calculation model (step S201). That is, the recommended setting value calculation unit 221 calculates, for n=1,...,N,

Figure 0007384311000009
によりN個の推奨設定値を算出する。なお、wは、オフライン処理が実行された直後の場合は上記のステップS102で算出された値であり、一方で後述するステップS205が実行された後は当該ステップS205で更新された値である。
Figure 0007384311000009
N recommended setting values are calculated. Note that w n is the value calculated in step S102 above immediately after offline processing is executed, and on the other hand, after step S205 described below is executed, it is the value updated in step S205. .

次に、オンライン処理部202の提案部222は、上記のステップS201で算出されたN個の推奨設定値をオペレータ端末20に送信する(ステップS202)。これにより、これらN個の推奨設定値がオペレータに提案される。 Next, the proposal unit 222 of the online processing unit 202 transmits the N recommended setting values calculated in step S201 above to the operator terminal 20 (step S202). As a result, these N recommended setting values are proposed to the operator.

以下、オペレータは、N個の推奨設定値を参考にして対象プラント30に実際に設定する設定値を決定した上で、オペレータ端末20を操作して当該設定値を対象プラント30に設定したものとする。また、当該設定値は、時刻tp'=Tp' の設定値としてオペレータ端末20から運転支援装置10に送信されたものとする。これにより、時刻tp'=Tp' の運転データと時刻tp'=Tp' の設定値との組が、時刻tp'=Tp' の対象プラント運転実績データとして対象プラント運転実績記憶部204に記憶される。 Hereinafter, it is assumed that the operator refers to the N recommended setting values and determines the setting values to be actually set in the target plant 30, and then operates the operator terminal 20 to set the setting values in the target plant 30. do. Further, it is assumed that the set value is transmitted from the operator terminal 20 to the driving support device 10 as a set value at time t p' =T p' 2 . As a result, the set of the operating data at time t p' = T p' 2 and the set value at time t p' = T p' 2 is targeted as the target plant operation performance data at time t p' = T p' 2 . It is stored in the plant operation record storage unit 204.

次に、オンライン処理部202の報酬関数学習部223は、オンライン中に得られた対象プラント運転実績データ(つまり、時刻tp'=1~Tp' までの対象プラント運転実績データ)を用いて、報酬関数を学習する(ステップS203)。例えば、報酬関数学習部223は、既知の最適化手法を利用して、以下の式(3)により報酬関数のパラメータを算出する。これにより、このパラメータが設定された報酬関数が学習済み報酬関数として得られる。 Next, the reward function learning unit 223 of the online processing unit 202 uses the target plant operation performance data obtained while online (that is, the target plant operation performance data from time t p' = 1 to T p' 2 ). Then, the reward function is learned (step S203). For example, the reward function learning unit 223 uses a known optimization method to calculate the parameters of the reward function using the following equation (3). Thereby, a reward function in which this parameter is set is obtained as a learned reward function.

Figure 0007384311000010
ここで、rθは報酬関数、θは報酬関数のパラメータである。報酬関数rθは、運転データと設定値(又は推奨設定値)とを入力として、報酬を表す値を出力する関数である。上記の式(3)により、推奨設定値が、オペレータが対象プラント30に実際に設定した設定値と近いほど高い報酬を出力する報酬関数rθを獲得できる。
Figure 0007384311000010
Here, r θ is a reward function, and θ is a parameter of the reward function. The reward function r θ is a function that receives driving data and a set value (or recommended set value) as input, and outputs a value representing the reward. Using the above equation (3), it is possible to obtain a reward function r θ that outputs a higher reward as the recommended setting value is closer to the setting value actually set by the operator in the target plant 30.

次に、オンライン処理部202のモデル学習部224は、オンライン中に得られた対象プラント運転実績データ(つまり、時刻tp'=1~Tp' までの対象プラント運転実績データ)と、上記のステップS204で学習された報酬関数とを用いて、推奨設定値算出モデルを再学習する(ステップS204)。例えば、モデル学習部224は、n=1,・・・,Nに対して、φ←wとした上で、既存の最適化手法や強化学習手法を利用して、以下の式(4)により推奨設定値算出モデルのパラメータφを算出する。これにより、このパラメータφが設定された推奨設定値算出モデルが再学習済み推奨設定値算出モデルとして得られる。 Next, the model learning unit 224 of the online processing unit 202 uses the target plant operation performance data obtained while online (that is, the target plant operation performance data from time t p' = 1 to T p' 2 ) and the above-mentioned The recommended setting value calculation model is retrained using the reward function learned in step S204 (step S204). For example, the model learning unit 224 sets φ n ←w n for n = 1, ..., N, and then uses the existing optimization method or reinforcement learning method to calculate the following equation (4 ) to calculate the parameter φ n of the recommended setting value calculation model. As a result, a recommended setting value calculation model in which this parameter φ n is set is obtained as a relearned recommended setting value calculation model.

Figure 0007384311000011
上記の(4)により、n=1,・・・,Nに対して、報酬を最大化するような推奨設定値算出モデルf(つまり、オペレータの実際の運転を模擬するような推奨設定値算出モデルf)が獲得できる。
Figure 0007384311000011
According to (4) above, for n = 1, ..., N, a recommended setting value calculation model f n that maximizes the reward (that is, a recommended setting value that simulates the actual operation of the operator A calculation model f n ) can be obtained.

そして、オンライン処理部202のモデル学習部224は、n=1,・・・,Nに対して、w←φと更新する(ステップS205)。なお、φは、上記のステップS204で算出されたパラメータである。これにより、対象プラント30から新たな運転データが取得された後、本ステップで更新されたパラメータwを用いてステップS201以降の処理が実行される。 Then, the model learning unit 224 of the online processing unit 202 updates w n ←φ n for n=1, . . . , N (step S205). Note that φ n is the parameter calculated in step S204 above. As a result, after new operation data is acquired from the target plant 30, the processes from step S201 onwards are executed using the parameters w n updated in this step.

以上のように、本実施形態に係る運転支援装置10では、オンライン中に運転データが取得される毎に、推奨設定値をオペレータに提案すると共に、対象プラント30に実際に設定された設定値を用いて報酬関数と推奨設定値算出モデルとを動的に学習する。これにより、オペレータの運転を精度良く模擬する推奨設定値算出モデルが獲得され、精度の良い推奨設定値をオペレータに提案することができるようになる。 As described above, in the operation support device 10 according to the present embodiment, each time operation data is acquired while online, recommended setting values are proposed to the operator, and setting values actually set in the target plant 30 are proposed to the operator. The reward function and recommended setting value calculation model are dynamically learned using the method. As a result, a recommended setting value calculation model that accurately simulates the operator's driving is obtained, and highly accurate recommended setting values can be proposed to the operator.

なお、図5に示すオンライン処理では繰り返し毎に報酬関数と推奨設定値算出モデルを学習したが、例えば、或る所定の条件を満たした以降は報酬関数と推奨設定値算出モデルの学習は行わずに、ステップS201~ステップS202のみが実行されてもよい。当該条件としては、例えば、ステップS201~ステップS205の繰り返し回数が所定の回数(1回である場合も含む。)を超えた場合、各パラメータwが収束した場合等が挙げられる。 Note that in the online process shown in Figure 5, the reward function and recommended setting value calculation model were learned in each iteration, but for example, after a certain predetermined condition is met, the reward function and recommended setting value calculation model are not learned. Alternatively, only steps S201 and S202 may be executed. Examples of such conditions include, for example, when the number of repetitions of steps S201 to S205 exceeds a predetermined number of times (including the case of 1 time), when each parameter w n converges, etc.

<報酬関数の学習方法の他の例>
以下、図5のステップS203における報酬関数の学習方法の他の例について説明する。
<Other examples of reward function learning methods>
Another example of the reward function learning method in step S203 of FIG. 5 will be described below.

・報酬関数の学習方法の他の例その1
上記の式(3)の代わりに、以下の式(5)により報酬関数のパラメータが算出されてもよい。
・Other examples of reward function learning method part 1
Instead of the above equation (3), the parameters of the reward function may be calculated using the following equation (5).

Figure 0007384311000012
ここで、σはシグモイド関数である。上記の式(5)により、より安定した学習が期待できる。
Figure 0007384311000012
Here, σ is a sigmoid function. More stable learning can be expected with the above equation (5).

・報酬関数の学習方法の他の例その2
各時刻tp'で任意の2つの推奨設定値算出モデルの組み合わせ毎にその2つの推奨設定値算出モデルの出力(つまり、推奨設定値)を或る所定の基準で順位付けを行って報酬関数を学習してもよい。
・Other example of reward function learning method part 2
At each time t p', for each combination of two arbitrary recommended setting value calculation models, the outputs (that is, recommended setting values) of the two recommended setting value calculation models are ranked based on a certain predetermined standard, and a reward function is calculated. You can also learn.

より具体的には、各時刻tp'で任意の2つの推奨設定値算出モデルの出力を比較したときに順位が高い方の推奨設定値をfgood、順位が低い方の推奨設定値をfbadとして、fgoodとfbadの組に対してその組を識別するインデックスdを1から順に付与する。そして、{(d,fgood,fbad)|d=1,・・・,D}(ただし、Dはfgoodとfbadの組の総数)を用いて、以下の式(6)により報酬関数のパラメータを算出する。 More specifically, when comparing the outputs of any two recommended setting value calculation models at each time t p', the recommended setting value with a higher rank is f good , and the recommended setting value with a lower rank is f good As bad , an index d for identifying the pair of f good and f bad is sequentially assigned starting from 1. Then, using {(d, f good , f bad ) | d=1,...,D} (where D is the total number of pairs of f good and f bad ), the reward is calculated by the following formula (6). Calculate the parameters of the function.

Figure 0007384311000013
上記の式(6)により、オペレータが対象プラント30に実際に設定した設定値を用いることなく、各時刻tp'における任意の2つの推奨設定値算出モデルの順位付けのみで報酬関数を学習することができる。
Figure 0007384311000013
According to the above equation (6), the reward function is learned only by ranking two arbitrary recommended setting value calculation models at each time tp' , without using the setting values actually set by the operator in the target plant 30. be able to.

ここで、順位付けの基準としては様々な基準を採用し得るが、例えば、推奨設定値が大きい方の順位を高い方の順位とすることが考えられる。 Here, various criteria can be adopted as the criteria for ranking, but for example, it is conceivable to rank the one with a larger recommended setting value as the higher one.

一例として、N=3、推奨設定値が大きい方の順位を高い方の順位とする。このとき、tp'=1でf>f>f、tp'=2でf>f>fである場合における(d,fgood,fbad)を図6に示す。図6に示すように、tp'=1のとき、f>f>fであるため、(d,fgood,fbad)=(1,f,f),(2,f,f),(3,f,f)となる。同様に、tp'=2のとき、f>f>fであるため、(d,fgood,fbad)=(4,f,f),(5,f,f),(6,f,f)となる。 As an example, if N=3, the higher the recommended setting value, the higher the rank. At this time, (d, f good , f bad ) in the case where f 2 > f 3 > f 1 when t p ' = 1 and f 1 > f 3 > f 2 when t p' = 2 is shown in Fig. 6. . As shown in FIG. 6, when t p' = 1, since f 2 > f 3 > f 1 , (d, f good , f bad ) = (1, f 2 , f 1 ), (2, f 3 , f 1 ), (3, f 2 , f 3 ). Similarly, when t p' = 2, since f 1 > f 3 > f 2 , (d, f good , f bad ) = (4, f 1 , f 2 ), (5, f 1 , f 3 ), (6, f 3 , f 2 ).

・報酬関数の学習方法の他の例その3
上記の報酬関数の学習方法の他の例その2において、2つの推奨設定値算出モデルの出力の順位が同順位となることを許容してもよい。また、或る時刻tp'で特定の2つの推奨設定値算出モデルの出力のみが順位付けできてもよい(言い換えれば、或る時刻tp'で順位付けできない推奨設定値算出モデルの組み合わせがあってもよい。)。
・Other example of reward function learning method part 3
In the second example of the reward function learning method described above, it may be possible to allow the output rankings of the two recommended setting value calculation models to be the same. Furthermore, only the outputs of two specific recommended setting value calculation models may be ranked at a certain time tp ' (in other words, a combination of recommended setting value calculation models that cannot be ranked at a certain time tp ' may be ).

このとき、{(d,a,fgood,fbad)|d=1,・・・,D}を用いて、以下の式(7)により報酬関数のパラメータを算出してもよい。 At this time, the parameters of the reward function may be calculated using the following equation (7) using {(d, a, f good , f bad ) | d=1, . . . , D}.

Figure 0007384311000014
ここで、aは同一時刻tp'で得られたfgoodとfbadの組の数の逆数であり、各時刻tp'でfgoodに関する報酬とfbadに関する報酬との差の期待値(平均)を取るためのパラメータである。
Figure 0007384311000014
Here, a is the reciprocal of the number of pairs of f good and f bad obtained at the same time t p' , and the expected value ( This is a parameter for taking the average).

一例として、N=3、推奨設定値が大きい方の順位を高い方の順位とする。このとき、tp'=1でf>f=f、tp'=2でf>f>fであり、またtp'=3ではfとfのみが順位付け可能でf>fである場合における(d,a,fgood,fbad)を図7に示す。図7に示すように、tp'=1のとき、f>f=fであるため、(d,a,fgood,fbad)=(1,1/2,f,f),(2,1/2,f,f)となる。同様に、tp'=2のとき、f>f>fであるため、(d,a,fgood,fbad)=(3,1/3,f,f),(4,1/3,f,f),(5,1/3,f,f)となる。また、tp'=3のときはfとfのみが順位付け可能でf>fであるため、(d,a,fgood,fbad)=(6,1,f,f)となる。 As an example, if N=3, the higher the recommended setting value, the higher the rank. At this time, f 2 > f 3 = f 1 at t p' = 1, f 1 > f 3 > f 2 at t p' = 2 , and only f 1 and f 2 are ranked at t p' = 3. FIG. 7 shows (d, a, f good , f bad ) in the case where f 1 >f 2 and f 1 can be attached. As shown in FIG. 7, when t p' = 1, f 2 > f 3 = f 1 , so (d, a, f good , f bad ) = (1,1/2, f 2 , f 1 ), (2,1/2, f 2 , f 3 ). Similarly, when t p' = 2, since f 1 > f 3 > f 2 , (d, a, f good , f bad ) = (3,1/3, f 1 , f 2 ), ( 4,1/3, f 1 , f 3 ), (5,1/3, f 3 , f 2 ). Furthermore, when t p' = 3, only f 1 and f 2 can be ranked and f 1 > f 2 , so (d, a, f good , f bad ) = (6, 1, f 1 , f 2 ).

<推奨設定値算出モデルの学習方法の他の例>
以下、図5のステップS204における推奨設定値算出モデルの再学習方法の他の例について説明する。
<Other examples of learning methods for recommended setting value calculation model>
Hereinafter, another example of the method for relearning the recommended setting value calculation model in step S204 of FIG. 5 will be described.

・推奨設定値算出モデルの学習方法その1
推奨設定値算出モデルを再学習する際は、実際の運転データと推奨設定値ではなく、仮想的な運転データとその仮想的な運転データを推奨設定値算出モデルに入力することによって得られた推奨設定値とを用いてもよい。このとき、仮想的な運転データの作成方法としては、例えば、実際の運転データの分布からサンプリング等によって作成されてもよい。
・Learning method for recommended setting value calculation model part 1
When relearning the recommended setting value calculation model, use virtual operating data and the recommendations obtained by inputting that virtual operating data into the recommended setting value calculation model, rather than actual operating data and recommended setting values. A set value may also be used. At this time, the virtual driving data may be created by, for example, sampling from the distribution of actual driving data.

・推奨設定値算出モデルの学習方法その2 ・Learning method for recommended setting value calculation model part 2

xを実際の運転データの分布として、上記の式(4)の代わりに、以下の式(8)により推奨設定値算出モデルのパラメータφを算出してもよい。 The parameter φ n of the recommended setting value calculation model may be calculated using the following equation (8) instead of the above equation (4), where x is the distribution of actual operating data.

Figure 0007384311000015
ここで、KLはカルバック・ライブラー情報量、Lは対数尤度である。また、β及びγは予め決められたパラメータ(ハイパーパラメータ)である。
Figure 0007384311000015
Here, KL is the Kullback-Leibler information amount, and L is the log likelihood. Further, β and γ are predetermined parameters (hyper parameters).

<実施例>
以下、本実施形態の一実施例について説明する。
<Example>
An example of this embodiment will be described below.

本実施例では、対象プラント30としてごみ焼却プラントを想定する。ごみ焼却プラントの模式図を図8に示す。図8に示すように、ごみ焼却プラントでは、ごみと空気を燃焼炉に投入し、その燃焼によって発生した熱が蒸気に変換され、蒸気と一酸化炭素(CO)等といった排気ガスとが出力される。一般に蒸気は発電等に利用されるため、蒸気の生成量を増やすと共にそれを安定化させることが求められる。一方で、蒸気の生成量を増やすためにはごみの投入量と空気の流量を増やす必要があるが、それにより不完全燃焼が発生し、その結果、CO濃度が高くなる可能性がある。このため、ごみの投入量と空気の流量とを適切に操作する必要がある。なお、ごみの投入量はフィーダと呼ばれる設備の動作速度により操作され、空気流量はバルブ等の開閉角度により操作される。また、蒸気流量と排ガス濃度(CO濃度)はセンサ等により計測される。 In this embodiment, a garbage incineration plant is assumed as the target plant 30. A schematic diagram of the waste incineration plant is shown in Figure 8. As shown in Figure 8, in a waste incineration plant, waste and air are input into a combustion furnace, and the heat generated by the combustion is converted into steam, and steam and exhaust gases such as carbon monoxide (CO) are output. Ru. Since steam is generally used for power generation, etc., it is required to increase the amount of steam generated and to stabilize it. On the other hand, in order to increase the amount of steam produced, it is necessary to increase the amount of waste input and the flow rate of air, which may lead to incomplete combustion and, as a result, higher CO concentrations. For this reason, it is necessary to appropriately control the amount of garbage input and the flow rate of air. Note that the amount of garbage input is controlled by the operating speed of equipment called a feeder, and the air flow rate is controlled by the opening/closing angle of a valve or the like. Further, the steam flow rate and the exhaust gas concentration (CO concentration) are measured by a sensor or the like.

このため、ごみ焼却プラントの状態変数は、x:フィーダ速度、x:空気流量、x:蒸気流量、x:排ガス濃度となる。本実施例では、時刻tp'の運転データは、時刻tp'-1~時刻tp'までの間の各状態変数x,x,x,xの時系列データを表すものとする。また、推奨設定値算出モデルとしては、時刻tp'の運転データを入力として、将来の時刻の推奨設定値x,xの時系列データを算出する2つのモデルf及びfを想定する。 Therefore, the state variables of the waste incineration plant are x 1 : feeder speed, x 2 : air flow rate, x 3 : steam flow rate, and x 4 : exhaust gas concentration. In this embodiment, the operation data at time t p' represents time series data of each state variable x 1 , x 2 , x 3 , x 4 between time t p' -1 and time t p'. shall be. In addition, as recommended setting value calculation models, two models f 1 and f 2 are assumed, which calculate time series data of recommended setting values x 1 and x 2 at future times using operating data at time t p' as input. do.

本実施例で事前学習及びファインチューニングしたモデルf及びfの入出力を図9に示す。図9に示すように、モデルf及びfは、時刻tp'の運転データを入力として、将来の時刻の推奨設定値x,x(つまり、フィーダ速度及び空気流量)の時系列データを算出及び出力する。図9に示すように、モデルfでは過去の設定値を維持した推奨設定値が算出されている一方で、モデルfでは過去の設定値を上昇させた推奨設定値が算出されている。 FIG. 9 shows the input and output of models f 1 and f 2 that were pre-trained and fine-tuned in this example. As shown in FIG. 9, the models f 1 and f 2 are a time series of recommended setting values x 1 and x 2 (that is, feeder speed and air flow rate) at future times using the operating data at time t p' as input. Calculate and output data. As shown in FIG. 9, model f 1 calculates recommended setting values that maintain the past settings, while model f 2 calculates recommended settings that increase the past settings.

本実施例でオペレータがごみ焼却プラントに設定した設定値を図10に示す。図10に示すように、オペレータは、モデルfの推奨設定値とfの推奨設定値とを参考にして、自身の経験等に基づいてフィーダ速度と空気流量の両方を下げる運転を選択している。 FIG. 10 shows the setting values set in the waste incineration plant by the operator in this embodiment. As shown in Fig. 10, the operator selects an operation that reduces both the feeder speed and the air flow rate based on his own experience, referring to the recommended setting values of model f1 and f2 . ing.

本実施例で報酬関数rθを学習した様子を図11に示す。図11に示すように、報酬関数rθの学習では、オペレータが実際に設定した設定値では報酬が高くなるように報酬関数のパラメータθが学習される。 FIG. 11 shows how the reward function r θ is learned in this example. As shown in FIG. 11, in learning the reward function r θ , the parameter θ of the reward function is learned such that the reward is higher at the set value actually set by the operator.

本実施例で推奨設定値算出モデルfを再学習した様子を図12に示す。図12に示すように、パラメータφの初期値をwとした上で、報酬関数rθを用いて、モデルfのパラメータφが学習される。なお、推奨設定値算出モデルfについても同様に、パラメータφの初期値をwとした上で、報酬関数rθを用いて、モデルfのパラメータφが学習される。 FIG. 12 shows how the recommended setting value calculation model f1 is retrained in this embodiment. As shown in FIG. 12, the parameter φ 1 of the model f 1 is learned using the reward function r θ with the initial value of the parameter φ 1 set to w 1 . Similarly, regarding the recommended setting value calculation model f 2 , the parameter φ 2 of the model f 2 is learned using the reward function r θ after setting the initial value of the parameter φ 2 to w 2 .

本実施例で推奨設定値算出モデルf及びfを学習した結果を図13に示す。図13に示すように、オンラインで再学習が行われるため、その後、同一の状態を表す運転データが取得されるとモデルfはオペレータが実際に設定する設定値に近い推奨設定値を算出できるようになる。これにより、オペレータの実際の運転を模擬するような推奨設定値算出モデルが得られることがわかる。 FIG. 13 shows the results of learning the recommended setting value calculation models f 1 and f 2 in this embodiment. As shown in Figure 13, since relearning is performed online, when operating data representing the same condition is obtained thereafter, model f1 can calculate recommended settings close to the settings actually set by the operator. It becomes like this. It can be seen that this allows a recommended setting value calculation model that simulates the actual operation of the operator to be obtained.

<まとめ>
以上のように、本実施形態に係る運転支援装置10は、オフラインにおいて、対象プラント30以外のプラントのプラント運転実績データを用いて推奨設定値算出モデルを事前学習した後、対象プラント30の対象プラント運転実績データを用いて推奨設定値算出モデルをファインチューニングする。また、本実施形態に係る運転支援装置10は、オンラインにおいて、運転データが取得される毎に、推奨設定値算出モデルによって算出された推奨設定値をオペレータに提案すると共に、対象プラント30に実際に設定された設定値を用いて報酬関数と推奨設定値算出モデルとを動的に学習する。
<Summary>
As described above, the operation support device 10 according to the present embodiment pre-learns the recommended setting value calculation model offline using the plant operation record data of plants other than the target plant 30, and then Fine-tune the recommended setting value calculation model using operational performance data. Further, the operation support device 10 according to the present embodiment not only proposes recommended setting values calculated by the recommended setting value calculation model to the operator online every time operation data is acquired, but also proposes recommended settings values calculated by the recommended setting value calculation model to the operator. A reward function and a recommended setting value calculation model are dynamically learned using the set setting values.

これにより、本実施形態に係る運転支援装置10では、対象プラント運転実績データが少量しかない場合であっても、オフラインで精度の良い推奨設定値算出モデルを得ることができる。また、本実施形態に係る運転支援装置10では、オンラインで対象プラント30に実際に設定された設定値から推奨設定値算出モデルを再学習するため、オペレータの実際の運転を精度良く模擬する推奨設定値算出モデルを得ることができる。更に、本実施形態に係る運転支援装置10では、オンラインで報酬関数を推定することにより、推奨設定値算出モデルの再学習を安定化させることができる。 Thereby, in the operation support device 10 according to the present embodiment, even if there is only a small amount of target plant operation performance data, an accurate recommended setting value calculation model can be obtained off-line. In addition, in the operation support device 10 according to the present embodiment, since the recommended setting value calculation model is re-learned online from the setting values actually set in the target plant 30, the recommended settings that accurately simulate the operator's actual operation are performed. A value calculation model can be obtained. Furthermore, in the driving support device 10 according to the present embodiment, relearning of the recommended setting value calculation model can be stabilized by estimating the reward function online.

本発明、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。 The present invention is not limited to the above-described embodiments specifically disclosed, and various modifications and changes, combinations with known techniques, etc. are possible without departing from the scope of the claims. .

1 プラント制御システム
10 運転支援装置
20 オペレータ端末
30 対象プラント
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 オフライン処理部
202 オンライン処理部
203 プラント運転実績記憶部
204 対象プラント運転実績記憶部
211 事前学習部
212 ファインチューニング部
221 推奨設定値算出部
222 提案部
223 報酬関数学習部
224 モデル学習部
1 Plant control system 10 Operation support device 20 Operator terminal 30 Target plant 101 Input device 102 Display device 103 External I/F
103a Recording medium 104 Communication I/F
105 RAM
106 ROM
107 Auxiliary storage device 108 Processor 109 Bus 201 Offline processing unit 202 Online processing unit 203 Plant operation record storage unit 204 Target plant operation record storage unit 211 Preliminary learning unit 212 Fine tuning unit 221 Recommended setting value calculation unit 222 Proposal unit 223 Reward function learning Section 224 Model learning section

Claims (10)

対象プラントの運転を支援するための運転支援装置であって、
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、
前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、
前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習部と、
を有する運転支援装置。
An operation support device for supporting the operation of a target plant,
a pre-learning unit that uses operating record data of plants other than the target plant to learn a model that receives operating data representing the state of the plant as input and outputs recommended setting values for the plant;
a fine-tuning unit that fine-tunes the model learned by the preliminary learning unit using operation record data of the target plant;
a recommended setting value calculation unit that calculates a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposal unit that proposes the recommended setting values calculated by the recommended setting value calculation unit to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning section for learning,
A driving support device with
前記対象プラントから取得された運転データと、前記推奨設定値算出部によって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値とを用いて、前記報酬関数を学習する報酬関数学習部
を有する請求項1に記載の運転支援装置。
The report is generated using the operating data acquired from the target plant, the recommended setting values calculated by the recommended setting value calculation unit, and the setting values actually set in the target plant by the operator of the target plant. a reward function learning unit that learns a reward function ;
The driving support device according to claim 1, comprising:
前記モデル学習部は、
前記対象プラントから取得された運転データの代わりに、前記対象プラントから取得された運転データの分布からサンプリングされた仮想的な運転データを用いると共に、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値の代わりに、前記仮想的な運転データ前記モデルに入力することによって算出された推奨設定値を用いて、前記モデルを再学習する、請求項2に記載の運転支援装置。
The model learning section includes:
Instead of the operation data acquired from the target plant, virtual operation data sampled from the distribution of the operation data acquired from the target plant is used, and the operation data acquired from the target plant is applied to the model. 3. The model is re-learned using the recommended setting values calculated by inputting the virtual driving data to the model instead of the recommended setting values calculated by inputting the virtual driving data to the model. Driving support equipment.
前記モデル学習部は、
更に、前記モデルの再学習の前後で前記運転データの分布間のカルバック・ライブラー情報量を最小化し、かつ、前記モデルの対数尤度を最大化するように、前記モデルを再学習する、請求項2に記載の運転支援装置。
The model learning section includes:
Further, the model is re-trained so as to minimize the amount of Kullback-Leibler information between the distributions of the driving data before and after re-learning the model, and to maximize the log likelihood of the model. The driving support device according to item 2.
前記報酬関数学習部は、
前記対象プラントから取得された運転データと前記推奨設定値から前記報酬関数によって算出された報酬と、前記対象プラントから取得された運転データと前記設定値から前記報酬関数によって算出された報酬との差を最大化するように、前記報酬関数を学習する、請求項2乃至4の何れか一項に記載の運転支援装置。
The reward function learning unit is
the difference between the reward calculated by the reward function from the operation data acquired from the target plant and the recommended setting value, and the reward calculated by the reward function from the operation data acquired from the target plant and the setting value; The driving support device according to any one of claims 2 to 4, which learns the reward function so as to maximize.
前記報酬関数学習部は、
前記差のシグモイド関数値に対して対数を取った値を最大化するように、前記報酬関数を学習する、請求項5に記載の運転支援装置。
The reward function learning unit is
The driving support device according to claim 5, wherein the reward function is learned so as to maximize a value obtained by taking the logarithm of the sigmoid function value of the difference.
前記報酬関数学習部は、
複数の前記モデルのうちの2つの前記モデルの組み合わせに対して、前記モデルによって算出される推奨設定値を順位付けし、
順位が高い推奨設定値から前記報酬関数によって算出された報酬と、順位が低い推奨設定値から前記報酬関数によって算出された報酬との差を最大化するように、前記報酬関数を学習する、請求項2乃至4の何れか一項に記載の運転支援装置。
The reward function learning unit is
Ranking recommended setting values calculated by the models for a combination of two of the plurality of models,
Learning the reward function so as to maximize the difference between the reward calculated by the reward function from recommended setting values with a high ranking and the reward calculated by the reward function from recommended setting values with a low ranking. The driving support device according to any one of items 2 to 4.
前記報酬関数学習部は、
前記差の期待値又は平均を最大化するように、前記報酬関数を学習する、請求項7に記載の運転支援装置。
The reward function learning unit is
The driving support device according to claim 7, wherein the reward function is learned so as to maximize an expected value or an average of the differences.
対象プラントの運転を支援するための運転支援装置が、
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習手順と、
前記対象プラントの運転実績データを用いて、前記事前学習手順によって学習されたモデルをファインチューニングするファインチューニング手順と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出手順と、
前記推奨設定値算出手順によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案手順と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習手順と、
を実行する運転支援方法。
The operation support equipment to support the operation of the target plant is
a pre-learning procedure for learning a model that uses operating record data of plants other than the target plant to input operating data representing the state of the plant and outputs recommended setting values for the plant;
a fine-tuning procedure of fine-tuning the model learned by the pre-learning procedure using operating performance data of the target plant;
a recommended setting value calculation procedure of calculating a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposing step of proposing the recommended setting value calculated by the recommended setting value calculating step to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning procedure to be learned;
A driving assistance method that performs.
対象プラントの運転を支援するための運転支援装置に、
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習手順と、
前記対象プラントの運転実績データを用いて、前記事前学習手順によって学習されたモデルをファインチューニングするファインチューニング手順と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出手順と、
前記推奨設定値算出手順によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案手順と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習手順と、
を実行させるプログラム。
Operation support equipment to support the operation of the target plant,
a pre-learning procedure for learning a model that uses operating record data of plants other than the target plant to input operating data representing the state of the plant and outputs recommended setting values for the plant;
a fine-tuning procedure of fine-tuning the model learned by the pre-learning procedure using operating performance data of the target plant;
a recommended setting value calculation procedure of calculating a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposing step of proposing the recommended setting value calculated by the recommended setting value calculating step to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning procedure to be learned;
A program to run.
JP2023109143A 2023-07-03 2023-07-03 Driving support device, driving support method and program Active JP7384311B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023109143A JP7384311B1 (en) 2023-07-03 2023-07-03 Driving support device, driving support method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023109143A JP7384311B1 (en) 2023-07-03 2023-07-03 Driving support device, driving support method and program

Publications (1)

Publication Number Publication Date
JP7384311B1 true JP7384311B1 (en) 2023-11-21

Family

ID=88833352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023109143A Active JP7384311B1 (en) 2023-07-03 2023-07-03 Driving support device, driving support method and program

Country Status (1)

Country Link
JP (1) JP7384311B1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325601A (en) * 1989-06-23 1991-02-04 Toshiba Corp Process controller
WO2019159883A1 (en) * 2018-02-13 2019-08-22 三菱日立パワーシステムズ株式会社 Model creation method, plant operation support method, model creating device, model, program, and recording medium having program recorded thereon
JP2021086283A (en) * 2019-11-26 2021-06-03 横河電機株式会社 Device, method and program
WO2021130915A1 (en) * 2019-12-25 2021-07-01 日本電気株式会社 Learning device, learning method, and learning program
JP2021152702A (en) * 2020-03-24 2021-09-30 株式会社日立製作所 Apparatus for assisting plant-operation optimization, and apparatus and method for controlling plant-operation optimization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0325601A (en) * 1989-06-23 1991-02-04 Toshiba Corp Process controller
WO2019159883A1 (en) * 2018-02-13 2019-08-22 三菱日立パワーシステムズ株式会社 Model creation method, plant operation support method, model creating device, model, program, and recording medium having program recorded thereon
JP2021086283A (en) * 2019-11-26 2021-06-03 横河電機株式会社 Device, method and program
WO2021130915A1 (en) * 2019-12-25 2021-07-01 日本電気株式会社 Learning device, learning method, and learning program
JP2021152702A (en) * 2020-03-24 2021-09-30 株式会社日立製作所 Apparatus for assisting plant-operation optimization, and apparatus and method for controlling plant-operation optimization

Similar Documents

Publication Publication Date Title
Nian et al. A review on reinforcement learning: Introduction and applications in industrial process control
US20210383041A1 (en) In-situ thermodynamic model training
Gauci et al. Horizon: Facebook's open source applied reinforcement learning platform
Jeerige et al. Comparison of deep reinforcement learning approaches for intelligent game playing
CN109992921B (en) On-line soft measurement method and system for thermal efficiency of boiler of coal-fired power plant
JPH03164804A (en) Process control system and power plant process control system
Lughofer et al. Self-adaptive evolving forecast models with incremental PLS space updating for on-line prediction of micro-fluidic chip quality
TW202232356A (en) Computer-implemented method for training a reinforcement learning model to provide operating instructions for thermal control of a blast furnace as well as corresponding computer system
JPWO2016047118A1 (en) Model evaluation apparatus, model evaluation method, and program recording medium
JP7081728B1 (en) Driving support equipment, driving support methods and programs
JP2004178492A (en) Plant simulation method using enhanced learning method
JP6962042B2 (en) Simulation equipment and simulation method
JP2018528511A (en) Optimizing output efficiency in production systems
WO2019086760A1 (en) Generation of a control system for a target system
CN113614743A (en) Method and apparatus for operating a robot
JP6730340B2 (en) Causal estimation device, causal estimation method, and program
Wang et al. Fault feature selection based on modified binary PSO with mutation and its application in chemical process fault diagnosis
JP2023183577A (en) Driving support device, driving support method and program
Guo et al. A review on data-driven approaches for industrial process modelling
Zhou et al. Aero-engine prognosis strategy based on multi-scale feature fusion and multi-task parallel learning
JP7384311B1 (en) Driving support device, driving support method and program
JP5125875B2 (en) PID controller tuning apparatus, PID controller tuning program, and PID controller tuning method
JPWO2016203757A1 (en) Control apparatus, information processing apparatus using the same, control method, and computer program
JP7088427B1 (en) Driving support equipment, driving support methods and programs
JPH06332506A (en) Nonlinear controller

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230703

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R150 Certificate of patent or registration of utility model

Ref document number: 7384311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150