JP7384311B1 - Driving support device, driving support method and program - Google Patents
Driving support device, driving support method and program Download PDFInfo
- Publication number
- JP7384311B1 JP7384311B1 JP2023109143A JP2023109143A JP7384311B1 JP 7384311 B1 JP7384311 B1 JP 7384311B1 JP 2023109143 A JP2023109143 A JP 2023109143A JP 2023109143 A JP2023109143 A JP 2023109143A JP 7384311 B1 JP7384311 B1 JP 7384311B1
- Authority
- JP
- Japan
- Prior art keywords
- target plant
- recommended setting
- model
- setting value
- plant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000004364 calculation method Methods 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 claims description 63
- 238000009826 distribution Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 3
- 241000196324 Embryophyta Species 0.000 description 151
- 238000004891 communication Methods 0.000 description 8
- 238000002485 combustion reaction Methods 0.000 description 5
- 238000004056 waste incineration Methods 0.000 description 5
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 4
- 229910002091 carbon monoxide Inorganic materials 0.000 description 4
- 239000007789 gas Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Abstract
【課題】対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術を提供すること。【解決手段】本開示の一態様による運転支援装置は、対象プラントの運転を支援するための運転支援装置であって、前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、を有する。【選択図】図3An object of the present invention is to provide a technology that can realize highly accurate operation support even when sufficient data regarding a target plant does not exist. [Solution] An operation support device according to one aspect of the present disclosure is an operation support device for supporting the operation of a target plant, and represents the state of the plant using operation performance data of plants other than the target plant. a pre-learning unit that learns a model that receives operating data as input and outputs recommended setting values for the plant; and a fine-tuning unit that fine-tunes the model learned by the pre-learning unit using operating performance data of the target plant. and a recommended setting value calculation unit that calculates recommended setting values using the model from the operation data of the target plant each time operation data is acquired from the target plant, and recommended settings calculated by the recommended setting value calculation unit. and a proposal unit that proposes the value to the operator of the target plant. [Selection diagram] Figure 3
Description
本開示は、運転支援装置、運転支援方法及びプログラムに関する。 The present disclosure relates to a driving support device, a driving support method, and a program.
燃焼炉等のプラントでは炉の燃焼状態等の計測値を踏まえて、オペレータが過去の状況を考慮しながら設定値を変更することにより安定した運転を実現している。このため、オペレータの負荷が大きく、オペレータの運転を支援するための様々な技術が提案されている。例えば、特許文献1には、ニューラルネットワークにより作成されたモデルを利用して、プラントの運転状態に応じた推奨操作を出力する技術が記載されている。
In plants such as combustion furnaces, stable operation is achieved by operators changing set values while taking past conditions into account, based on measured values such as the combustion state of the furnace. This places a heavy burden on the operator, and various techniques have been proposed to support the operator's operation. For example,
しかしながら、運転支援の対象とするプラント(以下、対象プラント)によっては対象プラントの状態の計測値や設定値等を表すデータが十分に存在しない場合がある。このため、例えば、特許文献1に記載されている技術では精度の良いモデルを作成することができない場合がある。
However, depending on the plant targeted for operation support (hereinafter referred to as the target plant), there may be insufficient data representing the measured values, set values, etc. of the state of the target plant. For this reason, for example, the technique described in
本開示は、上記の点に鑑みてなされたもので、対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術を提供する。 The present disclosure has been made in view of the above points, and provides a technology that can realize highly accurate operation support even when there is insufficient data regarding the target plant.
本開示の一態様による運転支援装置は、対象プラントの運転を支援するための運転支援装置であって、前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、を有する。 An operation support device according to one aspect of the present disclosure is an operation support device for supporting the operation of a target plant, and inputs operation data representing the state of the plant using operation record data of plants other than the target plant. a pre-learning unit that learns a model that outputs recommended setting values for the plant as a target plant; a fine-tuning unit that fine-tunes the model learned by the pre-learning unit using operation record data of the target plant; a recommended setting value calculating section that calculates recommended setting values using the model from the operating data of the target plant each time operating data is acquired from the plant; It has a proposal department that makes proposals to plant operators.
対象プラントに関するデータが十分に存在しない場合であっても精度の良い運転支援を実現できる技術が提供される。 Provided is a technology that can realize highly accurate operation support even when sufficient data regarding a target plant does not exist.
以下、本発明の一実施形態について説明する。以下の実施形態では、対象プラントに関するデータ(対象プラントの状態を計測した計測値、対象プラントの設定値)が十分に存在しない場合であっても精度の良い運転支援を実現できる運転支援装置10が含まれるプラント制御システム1について説明する。なお、対象プラントとは、運転支援装置10による運転支援の対象とするプラントのことである。
An embodiment of the present invention will be described below. In the following embodiments, an
以下、プラントの状態を計測した計測値で構成されるデータのことを「運転データ」と呼ぶことにする。運転データは、プラントの様々な状態を表す物理量(例えば、温度、圧力、流量、ガス濃度等)を各種センサで計測した計測値で構成される。すなわち、運転データは、各物理量を表す変数(これは「状態変数」とも呼ばれる。)で構成される多変量データである。 Hereinafter, data composed of measured values of the state of the plant will be referred to as "operating data." The operation data is composed of measured values obtained by measuring physical quantities (for example, temperature, pressure, flow rate, gas concentration, etc.) representing various states of the plant using various sensors. That is, the operation data is multivariate data composed of variables (also called "state variables") representing each physical quantity.
また、以下では、或る時刻の運転データと、その運転データが得られたときにオペレータによってプラントに設定された設定値(つまり、当該時刻の設定値)との組を「プラント運転実績データ」と呼ぶことにする。例えば、時刻tの運転データをxt、その運転データxtが得られたときにオペレータによってプラントに設定された設定値をytとしたとき、プラント運転実績データは(xt,yt)と表される。なお、時刻tの運転データxtは、時刻t-1~時刻tの間に計測された状態変数の時系列データを表す多変量データであってもよい。 In addition, in the following, a set of operating data at a certain time and a setting value set in the plant by an operator when the operating data was obtained (that is, a setting value at the relevant time) will be referred to as "plant operating performance data". I will call it. For example, when the operating data at time t is x t and the setting value set in the plant by the operator when the operating data x t was obtained is y t , the plant operating performance data is (x t , y t ) It is expressed as Note that the driving data x t at time t may be multivariate data representing time-series data of state variables measured between time t-1 and time t.
更に、以下では、対象プラント以外のプラントのプラント運転実績データ等を利用するため、対象プラントとそれ以外のプラントを区別する記号として、対象プラントをp'、対象プラント以外のプラントをp∈[P]で表すことにする。ここで、Pは対象プラント以外のプラントの総数である。 Furthermore, in the following, since we will use plant operation performance data of plants other than the target plant, we will use p' for the target plant and p∈[P ]. Here, P is the total number of plants other than the target plant.
<プラント制御システム1の全体構成例>
本実施形態に係るプラント制御システム1の全体構成例を図1に示す。図1に示すように、本実施形態に係るプラント制御システム1には、運転支援装置10と、オペレータ端末20と、対象プラント30とが含まれる。ここで、運転支援装置10とオペレータ端末20は任意の通信ネットワークを介して通信可能に接続されている。同様に、オペレータ端末20と対象プラント30は任意の通信ネットワークを介して通信可能に接続されており、対象プラント30と運転支援装置10は任意の通信ネットワークを介して通信可能に接続されている。
<Example of overall configuration of
FIG. 1 shows an example of the overall configuration of a
運転支援装置10は、対象プラント30の運転データから推奨設定値を算出するモデル(以下、「推奨設定値算出モデル」ともいう。)をオフラインで学習する。また、運転支援装置10は、オンラインで対象プラント30から運転データを取得する毎に、学習済みの推奨設定値算出モデルにより推奨設定値を算出してオペレータに提案すると共に推奨設定値算出モデルを動的に再学習する。ここで、推奨設定値とは、オペレータに推奨する設定値のことである。また、推奨設定値算出モデルは、運転データを入力として推奨設定値を算出及び出力する機械学習モデルである。なお、オンラインとは、対象プラント30が運用中の状態のことである。一方で、オフラインとは、オンライン以外の状態のことであり、例えば、対象プラント30の運用開始前や運用停止中の状態のことである。
The
オペレータ端末20は、対象プラント30のオペレータが操作する各種端末(例えば、PC(パーソナルコンピュータ)、スマートフォン、タブレット端末、ウェアラブルデバイス等)である。オペレータは、運転支援装置10から提案された推奨設定値を参考にして対象プラント30に実際に設定する設定値を決定した上で、オペレータ端末20を操作して当該設定値を対象プラント30に設定する。これにより、当該設定値によって対象プラント30の運転が制御される。なお、設定値とは、対象プラント30に設定される操作量等の値のことである。
The
対象プラント30は、運転支援の対象となる各種プラントである。対象プラント30は特定のプラントに限定されるものではないが、一例として、ごみ焼却プラント等が挙げられる。また、対象プラント30は、必ずしもプラントに限定されるものではなく、例えば、エネルギーマネジメントシステム等といった需給系統であってもよい。
The
なお、図1に示すプラント制御システム1の全体構成は一例であって、他の構成であってもよい。例えば、運転支援装置10とオペレータ端末20とが一体で構成されていてもよい。また、複数のオペレータ端末20が存在してもよい。
Note that the overall configuration of the
<運転支援装置10のハードウェア構成例>
本実施形態に係る運転支援装置10のハードウェア構成例を図2に示す。図2に示すように、本実施形態に係る運転支援装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続される。
<Example of hardware configuration of
FIG. 2 shows an example of the hardware configuration of the
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、運転支援装置10は、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。
The
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。記録媒体103aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
The external I/
通信I/F104は、運転支援装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性の記憶装置であり、プログラムやデータが格納される。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の各種演算装置である。
Communication I/
なお、図2に示すハードウェア構成は一例であって、運転支援装置10は、他のハードウェア構成を有していてもよい。例えば、運転支援装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェア以外の種々のハードウェアを有していてもよい。
Note that the hardware configuration shown in FIG. 2 is an example, and the driving
<運転支援装置10の機能構成例>
本実施形態に係る運転支援装置10の機能構成例を図3に示す。図3に示すように、本実施形態に係る運転支援装置10は、オフライン処理部201と、オンライン処理部202とを有する。これら各部は、例えば、運転支援装置10にインストールされた1以上のプログラムが、プロセッサ108等に実行させる処理により実現される。また、本実施形態に係る運転支援装置10は、プラント運転実績記憶部203と、対象プラント運転実績記憶部204とを有する。これら各記憶部は、例えば、補助記憶装置107等といった記憶装置の記憶領域により実現される。なお、プラント運転実績記憶部203及び対象プラント運転実績記憶部204の少なくとも一方の記憶部が、運転支援装置10と通信ネットワークを介して接続される記憶装置の記憶領域により実現されていてもよい。
<Example of functional configuration of driving
FIG. 3 shows an example of the functional configuration of the driving
オフライン処理部201は、対象プラント30以外のプラントのプラント運転実績データと、対象プラント30の過去のプラント運転実績データ(以下、「対象プラント運転実績データ」ともいう。)とを用いて、オフラインで推奨設定値算出モデルを学習する。ここで、オフライン処理部201には、事前学習部211と、ファインチューニング部212とが含まれる。事前学習部211は、対象プラント30以外のプラントのプラント運転実績データを用いて、推奨設定値算出モデルを事前学習する。ファインチューニング部212は、対象プラント運転実績データを用いて、事前学習済みの推奨設定値算出モデルをファインチューニングする。これにより、事前学習済みの推奨設定値算出モデルが対象プラント30用にファインチューニングされ、学習済みの推奨設定値算出モデルが得られる。
The
オンライン処理部202は、オンラインで対象プラント30から運転データが取得される毎に、その運転データと、学習済みの推奨設定値算出モデルとを用いて、推奨設定値を算出すると共に当該推奨設定値算出モデルを再学習する。ここで、オンライン処理部202には、推奨設定値算出部221と、提案部222と、報酬関数学習部223と、モデル学習部224とが含まれる。推奨設定値算出部221は、対象プラント30から取得された運転データと学習済みの推奨設定値算出モデルとを用いて、推奨設定値を算出する。提案部222は、推奨設定値算出部221によって算出された推奨設定値をオペレータ端末20に送信する。これにより、当該推奨設定値がオペレータに提案される。報酬関数学習部223は、オンライン中に得られた対象プラント運転実績データを用いて、推奨設定値が、オペレータが対象プラント30に実際に設定した設定値と近いほど高い報酬を出力する報酬関数を学習する。モデル学習部224は、オンライン中に得られた対象プラント運転実績データと、報酬関数学習部223によって学習された報酬関数とを用いて、当該報酬関数によって計算される報酬を最大化するように、推奨設定値算出モデルを再学習する。
Every time operating data is acquired online from the
プラント運転実績記憶部203は、対象プラント30以外のプラントのプラント運転実績データを記憶する。これらのプラント運転実績データはオフライン時に運転支援装置10に与えられる。
The plant operation
対象プラント運転実績記憶部204は、対象プラント30の対象プラント運転実績データを記憶する。これらの対象プラント運転実績データはオフライン時に運転支援装置10に与えられると共に、オンライン時に収集された運転データ及び設定値から作成される。なお、オフライン時に運転支援装置10に与えられる対象プラント運転実績データは、プラント運転実績記憶部203に記憶されているプラント運転実績データと比べて少量であることを想定する。言い換えれば、オフライン時には、精度の良い推奨設定値算出モデルを学習するには不十分な量の対象プラント運転実績データしか与えられないものとする。
The target plant operation
<オフライン処理>
以下、本実施形態に係るオフライン処理について、図4を参照しながら説明する。なお、オフライン処理は、後述するオンライン処理よりも前に実行される。
<Offline processing>
The offline processing according to this embodiment will be described below with reference to FIG. 4. Note that offline processing is executed before online processing, which will be described later.
オフライン処理部201の事前学習部211は、対象プラント30以外のプラントのプラント運転実績データを用いて、推奨設定値算出モデルを事前学習する(ステップS101)。例えば、事前学習部211は、既知の最適化手法を利用して、以下の式(1)により推奨設定値算出モデルのパラメータを算出する。これにより、このパラメータが設定された推奨設定値算出モデルが事前学習済み推奨設定値算出モデルとして得られる。
The
ここで、
here,
また、 Also,
なお、Nは1以上の整数値であるが、2以上であることが好ましい。これは、N個の推奨設定値算出モデルによってそれぞれ算出されたN個の推奨設定値がオペレータに提案されるため、N≧2である場合、オペレータは、複数個の推奨設定値を比較しながら実際の設定値を決定することができるためである。 Note that N is an integer value of 1 or more, preferably 2 or more. This is because N recommended setting values each calculated by N recommended setting value calculation models are proposed to the operator, so if N≧2, the operator can compare multiple recommended setting values and This is because the actual set value can be determined.
次に、オフライン処理部201のファインチューニング部212は、対象プラント運転実績データを用いて、上記のステップS101で得られた事前学習済み推奨設定値算出モデルをファインチューニングする(ステップS102)。例えば、ファインチューニング部212は、既知の最適化手法を利用して、以下の式(2)により推奨設定値算出モデルのパラメータを算出する。これにより、このパラメータが設定された推奨設定値算出モデルが学習済み推奨設定値算出モデルとして得られる。
Next, the fine-
以上のように、本実施形態に係る運転支援装置10では、対象プラント30以外のプラントのプラント運転実績データを用いて推奨設定値算出モデルを事前学習した後、対象プラント30の対象プラント運転実績データを用いて推奨設定値算出モデルをファインチューニングする。これにより、対象プラント30以外のプラントの知識が推奨設定値算出モデルに転移されるため、対象プラント運転実績データが少量しかない場合(例えば、対象プラント30が運用開始後間もない場合等)であっても、精度の良い推奨設定値算出モデルを得ることができる。
As described above, in the
<オンライン処理>
以下、本実施形態に係るオンライン処理について、図5を参照しながら説明する。図5のステップS201~ステップS205は、対象プラント30から運転データが取得される毎に繰り返し実行する。以下、オンラインの開始時刻をtp'=1として、対象プラント運転実績記憶部204には時刻tp'=1~Tp'
2-1までの対象プラント運転実績データが記憶されており、時刻tp'=Tp'
2の運転データが対象プラント30から取得された場合について説明する。
<Online processing>
Online processing according to this embodiment will be described below with reference to FIG. 5. Steps S201 to S205 in FIG. 5 are repeatedly executed every time operation data is acquired from the
オンライン処理部202の推奨設定値算出部221は、対象プラント30から取得された運転データと、学習済み推奨設定値算出モデルとを用いて、推奨設定値を算出する(ステップS201)。すなわち、推奨設定値算出部221は、n=1,・・・,Nに対して、
The recommended setting
次に、オンライン処理部202の提案部222は、上記のステップS201で算出されたN個の推奨設定値をオペレータ端末20に送信する(ステップS202)。これにより、これらN個の推奨設定値がオペレータに提案される。
Next, the
以下、オペレータは、N個の推奨設定値を参考にして対象プラント30に実際に設定する設定値を決定した上で、オペレータ端末20を操作して当該設定値を対象プラント30に設定したものとする。また、当該設定値は、時刻tp'=Tp'
2の設定値としてオペレータ端末20から運転支援装置10に送信されたものとする。これにより、時刻tp'=Tp'
2の運転データと時刻tp'=Tp'
2の設定値との組が、時刻tp'=Tp'
2の対象プラント運転実績データとして対象プラント運転実績記憶部204に記憶される。
Hereinafter, it is assumed that the operator refers to the N recommended setting values and determines the setting values to be actually set in the
次に、オンライン処理部202の報酬関数学習部223は、オンライン中に得られた対象プラント運転実績データ(つまり、時刻tp'=1~Tp'
2までの対象プラント運転実績データ)を用いて、報酬関数を学習する(ステップS203)。例えば、報酬関数学習部223は、既知の最適化手法を利用して、以下の式(3)により報酬関数のパラメータを算出する。これにより、このパラメータが設定された報酬関数が学習済み報酬関数として得られる。
Next, the reward
次に、オンライン処理部202のモデル学習部224は、オンライン中に得られた対象プラント運転実績データ(つまり、時刻tp'=1~Tp'
2までの対象プラント運転実績データ)と、上記のステップS204で学習された報酬関数とを用いて、推奨設定値算出モデルを再学習する(ステップS204)。例えば、モデル学習部224は、n=1,・・・,Nに対して、φn←wnとした上で、既存の最適化手法や強化学習手法を利用して、以下の式(4)により推奨設定値算出モデルのパラメータφnを算出する。これにより、このパラメータφnが設定された推奨設定値算出モデルが再学習済み推奨設定値算出モデルとして得られる。
Next, the
そして、オンライン処理部202のモデル学習部224は、n=1,・・・,Nに対して、wn←φnと更新する(ステップS205)。なお、φnは、上記のステップS204で算出されたパラメータである。これにより、対象プラント30から新たな運転データが取得された後、本ステップで更新されたパラメータwnを用いてステップS201以降の処理が実行される。
Then, the
以上のように、本実施形態に係る運転支援装置10では、オンライン中に運転データが取得される毎に、推奨設定値をオペレータに提案すると共に、対象プラント30に実際に設定された設定値を用いて報酬関数と推奨設定値算出モデルとを動的に学習する。これにより、オペレータの運転を精度良く模擬する推奨設定値算出モデルが獲得され、精度の良い推奨設定値をオペレータに提案することができるようになる。
As described above, in the
なお、図5に示すオンライン処理では繰り返し毎に報酬関数と推奨設定値算出モデルを学習したが、例えば、或る所定の条件を満たした以降は報酬関数と推奨設定値算出モデルの学習は行わずに、ステップS201~ステップS202のみが実行されてもよい。当該条件としては、例えば、ステップS201~ステップS205の繰り返し回数が所定の回数(1回である場合も含む。)を超えた場合、各パラメータwnが収束した場合等が挙げられる。 Note that in the online process shown in Figure 5, the reward function and recommended setting value calculation model were learned in each iteration, but for example, after a certain predetermined condition is met, the reward function and recommended setting value calculation model are not learned. Alternatively, only steps S201 and S202 may be executed. Examples of such conditions include, for example, when the number of repetitions of steps S201 to S205 exceeds a predetermined number of times (including the case of 1 time), when each parameter w n converges, etc.
<報酬関数の学習方法の他の例>
以下、図5のステップS203における報酬関数の学習方法の他の例について説明する。
<Other examples of reward function learning methods>
Another example of the reward function learning method in step S203 of FIG. 5 will be described below.
・報酬関数の学習方法の他の例その1
上記の式(3)の代わりに、以下の式(5)により報酬関数のパラメータが算出されてもよい。
・Other examples of reward function
Instead of the above equation (3), the parameters of the reward function may be calculated using the following equation (5).
・報酬関数の学習方法の他の例その2
各時刻tp'で任意の2つの推奨設定値算出モデルの組み合わせ毎にその2つの推奨設定値算出モデルの出力(つまり、推奨設定値)を或る所定の基準で順位付けを行って報酬関数を学習してもよい。
・Other example of reward function
At each time t p', for each combination of two arbitrary recommended setting value calculation models, the outputs (that is, recommended setting values) of the two recommended setting value calculation models are ranked based on a certain predetermined standard, and a reward function is calculated. You can also learn.
より具体的には、各時刻tp'で任意の2つの推奨設定値算出モデルの出力を比較したときに順位が高い方の推奨設定値をfgood、順位が低い方の推奨設定値をfbadとして、fgoodとfbadの組に対してその組を識別するインデックスdを1から順に付与する。そして、{(d,fgood,fbad)|d=1,・・・,D}(ただし、Dはfgoodとfbadの組の総数)を用いて、以下の式(6)により報酬関数のパラメータを算出する。 More specifically, when comparing the outputs of any two recommended setting value calculation models at each time t p', the recommended setting value with a higher rank is f good , and the recommended setting value with a lower rank is f good As bad , an index d for identifying the pair of f good and f bad is sequentially assigned starting from 1. Then, using {(d, f good , f bad ) | d=1,...,D} (where D is the total number of pairs of f good and f bad ), the reward is calculated by the following formula (6). Calculate the parameters of the function.
ここで、順位付けの基準としては様々な基準を採用し得るが、例えば、推奨設定値が大きい方の順位を高い方の順位とすることが考えられる。 Here, various criteria can be adopted as the criteria for ranking, but for example, it is conceivable to rank the one with a larger recommended setting value as the higher one.
一例として、N=3、推奨設定値が大きい方の順位を高い方の順位とする。このとき、tp'=1でf2>f3>f1、tp'=2でf1>f3>f2である場合における(d,fgood,fbad)を図6に示す。図6に示すように、tp'=1のとき、f2>f3>f1であるため、(d,fgood,fbad)=(1,f2,f1),(2,f3,f1),(3,f2,f3)となる。同様に、tp'=2のとき、f1>f3>f2であるため、(d,fgood,fbad)=(4,f1,f2),(5,f1,f3),(6,f3,f2)となる。 As an example, if N=3, the higher the recommended setting value, the higher the rank. At this time, (d, f good , f bad ) in the case where f 2 > f 3 > f 1 when t p ' = 1 and f 1 > f 3 > f 2 when t p' = 2 is shown in Fig. 6. . As shown in FIG. 6, when t p' = 1, since f 2 > f 3 > f 1 , (d, f good , f bad ) = (1, f 2 , f 1 ), (2, f 3 , f 1 ), (3, f 2 , f 3 ). Similarly, when t p' = 2, since f 1 > f 3 > f 2 , (d, f good , f bad ) = (4, f 1 , f 2 ), (5, f 1 , f 3 ), (6, f 3 , f 2 ).
・報酬関数の学習方法の他の例その3
上記の報酬関数の学習方法の他の例その2において、2つの推奨設定値算出モデルの出力の順位が同順位となることを許容してもよい。また、或る時刻tp'で特定の2つの推奨設定値算出モデルの出力のみが順位付けできてもよい(言い換えれば、或る時刻tp'で順位付けできない推奨設定値算出モデルの組み合わせがあってもよい。)。
・Other example of reward function
In the second example of the reward function learning method described above, it may be possible to allow the output rankings of the two recommended setting value calculation models to be the same. Furthermore, only the outputs of two specific recommended setting value calculation models may be ranked at a certain time tp ' (in other words, a combination of recommended setting value calculation models that cannot be ranked at a certain time tp ' may be ).
このとき、{(d,a,fgood,fbad)|d=1,・・・,D}を用いて、以下の式(7)により報酬関数のパラメータを算出してもよい。 At this time, the parameters of the reward function may be calculated using the following equation (7) using {(d, a, f good , f bad ) | d=1, . . . , D}.
一例として、N=3、推奨設定値が大きい方の順位を高い方の順位とする。このとき、tp'=1でf2>f3=f1、tp'=2でf1>f3>f2であり、またtp'=3ではf1とf2のみが順位付け可能でf1>f2である場合における(d,a,fgood,fbad)を図7に示す。図7に示すように、tp'=1のとき、f2>f3=f1であるため、(d,a,fgood,fbad)=(1,1/2,f2,f1),(2,1/2,f2,f3)となる。同様に、tp'=2のとき、f1>f3>f2であるため、(d,a,fgood,fbad)=(3,1/3,f1,f2),(4,1/3,f1,f3),(5,1/3,f3,f2)となる。また、tp'=3のときはf1とf2のみが順位付け可能でf1>f2であるため、(d,a,fgood,fbad)=(6,1,f1,f2)となる。
As an example, if N=3, the higher the recommended setting value, the higher the rank. At this time, f 2 > f 3 = f 1 at t p' = 1, f 1 > f 3 >
<推奨設定値算出モデルの学習方法の他の例>
以下、図5のステップS204における推奨設定値算出モデルの再学習方法の他の例について説明する。
<Other examples of learning methods for recommended setting value calculation model>
Hereinafter, another example of the method for relearning the recommended setting value calculation model in step S204 of FIG. 5 will be described.
・推奨設定値算出モデルの学習方法その1
推奨設定値算出モデルを再学習する際は、実際の運転データと推奨設定値ではなく、仮想的な運転データとその仮想的な運転データを推奨設定値算出モデルに入力することによって得られた推奨設定値とを用いてもよい。このとき、仮想的な運転データの作成方法としては、例えば、実際の運転データの分布からサンプリング等によって作成されてもよい。
・Learning method for recommended setting value
When relearning the recommended setting value calculation model, use virtual operating data and the recommendations obtained by inputting that virtual operating data into the recommended setting value calculation model, rather than actual operating data and recommended setting values. A set value may also be used. At this time, the virtual driving data may be created by, for example, sampling from the distribution of actual driving data.
・推奨設定値算出モデルの学習方法その2
・Learning method for recommended setting value
xを実際の運転データの分布として、上記の式(4)の代わりに、以下の式(8)により推奨設定値算出モデルのパラメータφnを算出してもよい。 The parameter φ n of the recommended setting value calculation model may be calculated using the following equation (8) instead of the above equation (4), where x is the distribution of actual operating data.
<実施例>
以下、本実施形態の一実施例について説明する。
<Example>
An example of this embodiment will be described below.
本実施例では、対象プラント30としてごみ焼却プラントを想定する。ごみ焼却プラントの模式図を図8に示す。図8に示すように、ごみ焼却プラントでは、ごみと空気を燃焼炉に投入し、その燃焼によって発生した熱が蒸気に変換され、蒸気と一酸化炭素(CO)等といった排気ガスとが出力される。一般に蒸気は発電等に利用されるため、蒸気の生成量を増やすと共にそれを安定化させることが求められる。一方で、蒸気の生成量を増やすためにはごみの投入量と空気の流量を増やす必要があるが、それにより不完全燃焼が発生し、その結果、CO濃度が高くなる可能性がある。このため、ごみの投入量と空気の流量とを適切に操作する必要がある。なお、ごみの投入量はフィーダと呼ばれる設備の動作速度により操作され、空気流量はバルブ等の開閉角度により操作される。また、蒸気流量と排ガス濃度(CO濃度)はセンサ等により計測される。
In this embodiment, a garbage incineration plant is assumed as the
このため、ごみ焼却プラントの状態変数は、x1:フィーダ速度、x2:空気流量、x3:蒸気流量、x4:排ガス濃度となる。本実施例では、時刻tp'の運転データは、時刻tp'-1~時刻tp'までの間の各状態変数x1,x2,x3,x4の時系列データを表すものとする。また、推奨設定値算出モデルとしては、時刻tp'の運転データを入力として、将来の時刻の推奨設定値x1,x2の時系列データを算出する2つのモデルf1及びf2を想定する。 Therefore, the state variables of the waste incineration plant are x 1 : feeder speed, x 2 : air flow rate, x 3 : steam flow rate, and x 4 : exhaust gas concentration. In this embodiment, the operation data at time t p' represents time series data of each state variable x 1 , x 2 , x 3 , x 4 between time t p' -1 and time t p'. shall be. In addition, as recommended setting value calculation models, two models f 1 and f 2 are assumed, which calculate time series data of recommended setting values x 1 and x 2 at future times using operating data at time t p' as input. do.
本実施例で事前学習及びファインチューニングしたモデルf1及びf2の入出力を図9に示す。図9に示すように、モデルf1及びf2は、時刻tp'の運転データを入力として、将来の時刻の推奨設定値x1,x2(つまり、フィーダ速度及び空気流量)の時系列データを算出及び出力する。図9に示すように、モデルf1では過去の設定値を維持した推奨設定値が算出されている一方で、モデルf2では過去の設定値を上昇させた推奨設定値が算出されている。 FIG. 9 shows the input and output of models f 1 and f 2 that were pre-trained and fine-tuned in this example. As shown in FIG. 9, the models f 1 and f 2 are a time series of recommended setting values x 1 and x 2 (that is, feeder speed and air flow rate) at future times using the operating data at time t p' as input. Calculate and output data. As shown in FIG. 9, model f 1 calculates recommended setting values that maintain the past settings, while model f 2 calculates recommended settings that increase the past settings.
本実施例でオペレータがごみ焼却プラントに設定した設定値を図10に示す。図10に示すように、オペレータは、モデルf1の推奨設定値とf2の推奨設定値とを参考にして、自身の経験等に基づいてフィーダ速度と空気流量の両方を下げる運転を選択している。 FIG. 10 shows the setting values set in the waste incineration plant by the operator in this embodiment. As shown in Fig. 10, the operator selects an operation that reduces both the feeder speed and the air flow rate based on his own experience, referring to the recommended setting values of model f1 and f2 . ing.
本実施例で報酬関数rθを学習した様子を図11に示す。図11に示すように、報酬関数rθの学習では、オペレータが実際に設定した設定値では報酬が高くなるように報酬関数のパラメータθが学習される。 FIG. 11 shows how the reward function r θ is learned in this example. As shown in FIG. 11, in learning the reward function r θ , the parameter θ of the reward function is learned such that the reward is higher at the set value actually set by the operator.
本実施例で推奨設定値算出モデルf1を再学習した様子を図12に示す。図12に示すように、パラメータφ1の初期値をw1とした上で、報酬関数rθを用いて、モデルf1のパラメータφ1が学習される。なお、推奨設定値算出モデルf2についても同様に、パラメータφ2の初期値をw2とした上で、報酬関数rθを用いて、モデルf2のパラメータφ2が学習される。
FIG. 12 shows how the recommended setting value calculation model f1 is retrained in this embodiment. As shown in FIG. 12, the parameter φ 1 of the model f 1 is learned using the reward function r θ with the initial value of the parameter φ 1 set to w 1 . Similarly, regarding the recommended setting value calculation model f 2 , the parameter φ 2 of the
本実施例で推奨設定値算出モデルf1及びf2を学習した結果を図13に示す。図13に示すように、オンラインで再学習が行われるため、その後、同一の状態を表す運転データが取得されるとモデルf1はオペレータが実際に設定する設定値に近い推奨設定値を算出できるようになる。これにより、オペレータの実際の運転を模擬するような推奨設定値算出モデルが得られることがわかる。 FIG. 13 shows the results of learning the recommended setting value calculation models f 1 and f 2 in this embodiment. As shown in Figure 13, since relearning is performed online, when operating data representing the same condition is obtained thereafter, model f1 can calculate recommended settings close to the settings actually set by the operator. It becomes like this. It can be seen that this allows a recommended setting value calculation model that simulates the actual operation of the operator to be obtained.
<まとめ>
以上のように、本実施形態に係る運転支援装置10は、オフラインにおいて、対象プラント30以外のプラントのプラント運転実績データを用いて推奨設定値算出モデルを事前学習した後、対象プラント30の対象プラント運転実績データを用いて推奨設定値算出モデルをファインチューニングする。また、本実施形態に係る運転支援装置10は、オンラインにおいて、運転データが取得される毎に、推奨設定値算出モデルによって算出された推奨設定値をオペレータに提案すると共に、対象プラント30に実際に設定された設定値を用いて報酬関数と推奨設定値算出モデルとを動的に学習する。
<Summary>
As described above, the
これにより、本実施形態に係る運転支援装置10では、対象プラント運転実績データが少量しかない場合であっても、オフラインで精度の良い推奨設定値算出モデルを得ることができる。また、本実施形態に係る運転支援装置10では、オンラインで対象プラント30に実際に設定された設定値から推奨設定値算出モデルを再学習するため、オペレータの実際の運転を精度良く模擬する推奨設定値算出モデルを得ることができる。更に、本実施形態に係る運転支援装置10では、オンラインで報酬関数を推定することにより、推奨設定値算出モデルの再学習を安定化させることができる。
Thereby, in the
本発明、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。 The present invention is not limited to the above-described embodiments specifically disclosed, and various modifications and changes, combinations with known techniques, etc. are possible without departing from the scope of the claims. .
1 プラント制御システム
10 運転支援装置
20 オペレータ端末
30 対象プラント
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 オフライン処理部
202 オンライン処理部
203 プラント運転実績記憶部
204 対象プラント運転実績記憶部
211 事前学習部
212 ファインチューニング部
221 推奨設定値算出部
222 提案部
223 報酬関数学習部
224 モデル学習部
1
103a Recording medium 104 Communication I/F
105 RAM
106 ROM
107
Claims (10)
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習部と、
前記対象プラントの運転実績データを用いて、前記事前学習部によって学習されたモデルをファインチューニングするファインチューニング部と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出部と、
前記推奨設定値算出部によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案部と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習部と、
を有する運転支援装置。 An operation support device for supporting the operation of a target plant,
a pre-learning unit that uses operating record data of plants other than the target plant to learn a model that receives operating data representing the state of the plant as input and outputs recommended setting values for the plant;
a fine-tuning unit that fine-tunes the model learned by the preliminary learning unit using operation record data of the target plant;
a recommended setting value calculation unit that calculates a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposal unit that proposes the recommended setting values calculated by the recommended setting value calculation unit to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning section for learning,
A driving support device with
を有する請求項1に記載の運転支援装置。 The report is generated using the operating data acquired from the target plant, the recommended setting values calculated by the recommended setting value calculation unit, and the setting values actually set in the target plant by the operator of the target plant. a reward function learning unit that learns a reward function ;
The driving support device according to claim 1, comprising:
前記対象プラントから取得された運転データの代わりに、前記対象プラントから取得された運転データの分布からサンプリングされた仮想的な運転データを用いると共に、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値の代わりに、前記仮想的な運転データ前記モデルに入力することによって算出された推奨設定値を用いて、前記モデルを再学習する、請求項2に記載の運転支援装置。 The model learning section includes:
Instead of the operation data acquired from the target plant, virtual operation data sampled from the distribution of the operation data acquired from the target plant is used, and the operation data acquired from the target plant is applied to the model. 3. The model is re-learned using the recommended setting values calculated by inputting the virtual driving data to the model instead of the recommended setting values calculated by inputting the virtual driving data to the model. Driving support equipment.
更に、前記モデルの再学習の前後で前記運転データの分布間のカルバック・ライブラー情報量を最小化し、かつ、前記モデルの対数尤度を最大化するように、前記モデルを再学習する、請求項2に記載の運転支援装置。 The model learning section includes:
Further, the model is re-trained so as to minimize the amount of Kullback-Leibler information between the distributions of the driving data before and after re-learning the model, and to maximize the log likelihood of the model. The driving support device according to item 2.
前記対象プラントから取得された運転データと前記推奨設定値から前記報酬関数によって算出された報酬と、前記対象プラントから取得された運転データと前記設定値から前記報酬関数によって算出された報酬との差を最大化するように、前記報酬関数を学習する、請求項2乃至4の何れか一項に記載の運転支援装置。 The reward function learning unit is
the difference between the reward calculated by the reward function from the operation data acquired from the target plant and the recommended setting value, and the reward calculated by the reward function from the operation data acquired from the target plant and the setting value; The driving support device according to any one of claims 2 to 4, which learns the reward function so as to maximize.
前記差のシグモイド関数値に対して対数を取った値を最大化するように、前記報酬関数を学習する、請求項5に記載の運転支援装置。 The reward function learning unit is
The driving support device according to claim 5, wherein the reward function is learned so as to maximize a value obtained by taking the logarithm of the sigmoid function value of the difference.
複数の前記モデルのうちの2つの前記モデルの組み合わせに対して、前記モデルによって算出される推奨設定値を順位付けし、
順位が高い推奨設定値から前記報酬関数によって算出された報酬と、順位が低い推奨設定値から前記報酬関数によって算出された報酬との差を最大化するように、前記報酬関数を学習する、請求項2乃至4の何れか一項に記載の運転支援装置。 The reward function learning unit is
Ranking recommended setting values calculated by the models for a combination of two of the plurality of models,
Learning the reward function so as to maximize the difference between the reward calculated by the reward function from recommended setting values with a high ranking and the reward calculated by the reward function from recommended setting values with a low ranking. The driving support device according to any one of items 2 to 4.
前記差の期待値又は平均を最大化するように、前記報酬関数を学習する、請求項7に記載の運転支援装置。 The reward function learning unit is
The driving support device according to claim 7, wherein the reward function is learned so as to maximize an expected value or an average of the differences.
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習手順と、
前記対象プラントの運転実績データを用いて、前記事前学習手順によって学習されたモデルをファインチューニングするファインチューニング手順と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出手順と、
前記推奨設定値算出手順によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案手順と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習手順と、
を実行する運転支援方法。 The operation support equipment to support the operation of the target plant is
a pre-learning procedure for learning a model that uses operating record data of plants other than the target plant to input operating data representing the state of the plant and outputs recommended setting values for the plant;
a fine-tuning procedure of fine-tuning the model learned by the pre-learning procedure using operating performance data of the target plant;
a recommended setting value calculation procedure of calculating a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposing step of proposing the recommended setting value calculated by the recommended setting value calculating step to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning procedure to be learned;
A driving assistance method that performs.
前記対象プラント以外のプラントの運転実績データを用いて、プラントの状態を表す運転データを入力としてプラントに対する推奨設定値を出力するモデルを学習する事前学習手順と、
前記対象プラントの運転実績データを用いて、前記事前学習手順によって学習されたモデルをファインチューニングするファインチューニング手順と、
前記対象プラントから運転データが取得される毎に、前記対象プラントの運転データから前記モデルにより推奨設定値を算出する推奨設定値算出手順と、
前記推奨設定値算出手順によって算出された推奨設定値を前記対象プラントのオペレータに提案する提案手順と、
前記対象プラントから取得された運転データと、前記対象プラントから取得された運転データを前記モデルに入力することによって算出された推奨設定値と、前記対象プラントのオペレータが前記対象プラントに実際に設定した設定値に対して前記推奨設定値が近いほど高い報酬を出力するように学習された報酬関数とを用いて、前記報酬関数によって出力される報酬の和を最大化するように、前記モデルを再学習するモデル学習手順と、
を実行させるプログラム。 Operation support equipment to support the operation of the target plant,
a pre-learning procedure for learning a model that uses operating record data of plants other than the target plant to input operating data representing the state of the plant and outputs recommended setting values for the plant;
a fine-tuning procedure of fine-tuning the model learned by the pre-learning procedure using operating performance data of the target plant;
a recommended setting value calculation procedure of calculating a recommended setting value using the model from the operation data of the target plant each time operation data is acquired from the target plant;
a proposing step of proposing the recommended setting value calculated by the recommended setting value calculating step to the operator of the target plant;
The operating data acquired from the target plant, the recommended setting values calculated by inputting the operational data acquired from the target plant into the model, and the settings actually set in the target plant by the operator of the target plant. Using a reward function that has been learned to output a higher reward as the recommended setting value is closer to the setting value, the model is re-run so as to maximize the sum of rewards output by the reward function. A model learning procedure to be learned;
A program to run.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023109143A JP7384311B1 (en) | 2023-07-03 | 2023-07-03 | Driving support device, driving support method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023109143A JP7384311B1 (en) | 2023-07-03 | 2023-07-03 | Driving support device, driving support method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7384311B1 true JP7384311B1 (en) | 2023-11-21 |
Family
ID=88833352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023109143A Active JP7384311B1 (en) | 2023-07-03 | 2023-07-03 | Driving support device, driving support method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7384311B1 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0325601A (en) * | 1989-06-23 | 1991-02-04 | Toshiba Corp | Process controller |
WO2019159883A1 (en) * | 2018-02-13 | 2019-08-22 | 三菱日立パワーシステムズ株式会社 | Model creation method, plant operation support method, model creating device, model, program, and recording medium having program recorded thereon |
JP2021086283A (en) * | 2019-11-26 | 2021-06-03 | 横河電機株式会社 | Device, method and program |
WO2021130915A1 (en) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | Learning device, learning method, and learning program |
JP2021152702A (en) * | 2020-03-24 | 2021-09-30 | 株式会社日立製作所 | Apparatus for assisting plant-operation optimization, and apparatus and method for controlling plant-operation optimization |
-
2023
- 2023-07-03 JP JP2023109143A patent/JP7384311B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0325601A (en) * | 1989-06-23 | 1991-02-04 | Toshiba Corp | Process controller |
WO2019159883A1 (en) * | 2018-02-13 | 2019-08-22 | 三菱日立パワーシステムズ株式会社 | Model creation method, plant operation support method, model creating device, model, program, and recording medium having program recorded thereon |
JP2021086283A (en) * | 2019-11-26 | 2021-06-03 | 横河電機株式会社 | Device, method and program |
WO2021130915A1 (en) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | Learning device, learning method, and learning program |
JP2021152702A (en) * | 2020-03-24 | 2021-09-30 | 株式会社日立製作所 | Apparatus for assisting plant-operation optimization, and apparatus and method for controlling plant-operation optimization |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nian et al. | A review on reinforcement learning: Introduction and applications in industrial process control | |
US20210383041A1 (en) | In-situ thermodynamic model training | |
Gauci et al. | Horizon: Facebook's open source applied reinforcement learning platform | |
Jeerige et al. | Comparison of deep reinforcement learning approaches for intelligent game playing | |
CN109992921B (en) | On-line soft measurement method and system for thermal efficiency of boiler of coal-fired power plant | |
JPH03164804A (en) | Process control system and power plant process control system | |
Lughofer et al. | Self-adaptive evolving forecast models with incremental PLS space updating for on-line prediction of micro-fluidic chip quality | |
TW202232356A (en) | Computer-implemented method for training a reinforcement learning model to provide operating instructions for thermal control of a blast furnace as well as corresponding computer system | |
JPWO2016047118A1 (en) | Model evaluation apparatus, model evaluation method, and program recording medium | |
JP7081728B1 (en) | Driving support equipment, driving support methods and programs | |
JP2004178492A (en) | Plant simulation method using enhanced learning method | |
JP6962042B2 (en) | Simulation equipment and simulation method | |
JP2018528511A (en) | Optimizing output efficiency in production systems | |
WO2019086760A1 (en) | Generation of a control system for a target system | |
CN113614743A (en) | Method and apparatus for operating a robot | |
JP6730340B2 (en) | Causal estimation device, causal estimation method, and program | |
Wang et al. | Fault feature selection based on modified binary PSO with mutation and its application in chemical process fault diagnosis | |
JP2023183577A (en) | Driving support device, driving support method and program | |
Guo et al. | A review on data-driven approaches for industrial process modelling | |
Zhou et al. | Aero-engine prognosis strategy based on multi-scale feature fusion and multi-task parallel learning | |
JP7384311B1 (en) | Driving support device, driving support method and program | |
JP5125875B2 (en) | PID controller tuning apparatus, PID controller tuning program, and PID controller tuning method | |
JPWO2016203757A1 (en) | Control apparatus, information processing apparatus using the same, control method, and computer program | |
JP7088427B1 (en) | Driving support equipment, driving support methods and programs | |
JPH06332506A (en) | Nonlinear controller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230703 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230703 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230822 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7384311 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |