JP2013168020A - State prediction method for process - Google Patents

State prediction method for process Download PDF

Info

Publication number
JP2013168020A
JP2013168020A JP2012030901A JP2012030901A JP2013168020A JP 2013168020 A JP2013168020 A JP 2013168020A JP 2012030901 A JP2012030901 A JP 2012030901A JP 2012030901 A JP2012030901 A JP 2012030901A JP 2013168020 A JP2013168020 A JP 2013168020A
Authority
JP
Japan
Prior art keywords
vector
data
local model
vectors
prediction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012030901A
Other languages
Japanese (ja)
Inventor
Norihiro Tanaka
規博 田中
Hidehiko Furuya
秀彦 古家
Yuhei Akaike
裕平 赤池
Masatoshi Ogawa
雅俊 小川
Harutoshi Okai
晴俊 大貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Nippon Steel Engineering Co Ltd
Original Assignee
Waseda University
Nippon Steel and Sumikin Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Nippon Steel and Sumikin Engineering Co Ltd filed Critical Waseda University
Priority to JP2012030901A priority Critical patent/JP2013168020A/en
Publication of JP2013168020A publication Critical patent/JP2013168020A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide the state prediction method of a process of structuring an appropriate local model by optimizing the number of explanatory variables and the number of past events.SOLUTION: A state prediction method of a process for creating a database in which input vectors and output vectors consisting of observation data representing the operation states of processes are accumulated as pairs, and for acquiring a proximity data vector which is similar to a request point vector consisting of the input vector corresponding to the output vector at a desired point of time of prediction from the database, and for structuring a local model from the proximity data vector to search the output vectors at the desired point of time of prediction includes: structuring a plurality of local models by using the number M of explanatory variables constituting the input vector and the maximum number NNof the proximity data vector as parameters; and selecting the local model in which an error between the predicted value and measured value of the local model is minimized.

Description

本発明は、プラント設備におけるプロセスの状態予測方法に関する。   The present invention relates to a process state prediction method in a plant facility.

あるプロセスについて、その状態を把握する必要があるとき、通常の計測機器では分析に時間がかかり、リアルタイムにプロセス状態を把握できないことがある。また、計測環境や計測対象によっては、計測機器の設置自体が困難な場合もある。プロセスの状態を示す明確な物理モデルが得られる場合は、高精度な予測値を計算によって求めることができるが、プラント設備におけるプロセスは複雑な物理化学現象が複合した形で発現することが殆どであるため、物理モデルで表せない場合が多い。   When it is necessary to grasp the state of a process, it may take time to analyze with a normal measuring instrument, and the process state may not be grasped in real time. Also, depending on the measurement environment and measurement target, installation of the measurement device itself may be difficult. When a clear physical model showing the process state can be obtained, a highly accurate predicted value can be obtained by calculation, but the process in the plant equipment is often expressed in a complex form of complex physicochemical phenomena. In many cases, it cannot be represented by a physical model.

そこで、近年、計算機ハードウェアやデータベースシステム技術の進歩に伴い、大量データの蓄積と高速検索が可能になったこと等を背景に、“Just-In-Time(JIT)モデリング”と呼ばれる局所モデリング手法が注目されている。JITモデリングでは、観測したデータをデータベースに蓄積しておき、システムの予測等の必要が生じるたびに、入力である“要求点ベクトル”と関連性の高いデータベクトルをデータベースから近傍データベクトルとして検索し、検索した近傍データベクトルの出力を補間する局所モデルを構成して、“要求点ベクトル”の出力を予測する。この手法では、観測データの更なる蓄積があるたびに既存の局所モデルを廃棄し、再び新たな局所モデルを構築する。   Therefore, a local modeling method called “Just-In-Time (JIT) modeling” against the backdrop of recent advances in computer hardware and database system technology, which enabled the storage of large amounts of data and high-speed retrieval. Is attracting attention. In JIT modeling, observed data is stored in a database, and whenever a system prediction or the like becomes necessary, a data vector highly related to the input “request point vector” is searched as a neighborhood data vector from the database. Then, a local model that interpolates the output of the searched neighborhood data vector is constructed, and the output of the “request point vector” is predicted. In this method, whenever there is further accumulation of observation data, the existing local model is discarded and a new local model is constructed again.

JITモデリングでは、予測を行うたびに、データベースから要求点ベクトルと類似するデータベクトルを検索するため、データベースが大規模になると、計算負荷が大きくなりすぎるという問題がある。そのため、JITモデリングにステップワイズ法を適用して変数の低次元化を行う大規模データベースオンラインモデリング(LOM)という手法が開発されている。例えば、特許文献1、2では、熱反応炉の操業データからなる大規模データベースについて、ステップワイズ法を用いて炉頂ガス温度に対する寄与率が高い変数を選択して当該変数からなる新たなデータベースを作成し、新たなデータベースから取得した近傍データベクトルに基づいて構築した局所モデルを用いて炉頂ガス温度の予測を行っている。   In JIT modeling, every time a prediction is made, a data vector similar to a request point vector is searched from the database. Therefore, when the database becomes large, the calculation load becomes too large. For this reason, a technique called large-scale database online modeling (LOM) has been developed in which a stepwise method is applied to JIT modeling to reduce variables. For example, in Patent Documents 1 and 2, for a large-scale database composed of operation data of a thermal reactor, a variable having a high contribution rate to the furnace top gas temperature is selected using a stepwise method, and a new database composed of the variable is created. The top gas temperature is predicted using a local model that is created and constructed based on the neighborhood data vector obtained from a new database.

なお、本明細書では、「要求点」と「近傍データ」がそれぞれベクトル量であることを明確にするため、「要求点」を「要求点ベクトル」、「近傍データ」を「近傍データベクトル」と記載する。また、データベクトルの集合である「データベクトル集合」を「データセット」と呼ぶことがある。   In this specification, in order to clarify that “request point” and “neighbor data” are vector quantities, “request point” is “request point vector” and “neighbor data” is “neighbor data vector”. It describes. Also, a “data vector set” that is a set of data vectors may be referred to as a “data set”.

特開2009−076036号公報JP 2009-076036 A 特開2009−076037号公報JP 2009-076037 A

特許文献1、2において開示されているプロセスの状態予測方法では、ステップワイズ法を用いて、目的変数に対する寄与率が高い説明変数を選択している。具体的には、寄与率の指標であるF値に対する限界値を予め設定し、F値が限界値以上となるように説明変数が選択される。従って、ステップワイズ法では、限界値の設定が重要となるが、理論的に限界値を決定する方法が無く、経験的に限界値を決定しているという問題がある。
また、データベースを構成する過去事例数についても、採用する説明変数の数が変わると、それに応じて過去事例の最適数も変化するため、適切な局所モデルを構築するためには、説明変数の数と過去事例数を併せて最適化する必要がある。
In the process state prediction methods disclosed in Patent Documents 1 and 2, an explanatory variable having a high contribution rate to the objective variable is selected using a stepwise method. Specifically, a limit value for the F value that is an index of the contribution rate is set in advance, and the explanatory variable is selected so that the F value is equal to or greater than the limit value. Therefore, in the stepwise method, setting of the limit value is important, but there is no method for theoretically determining the limit value, and there is a problem that the limit value is determined empirically.
In addition, regarding the number of past cases that make up the database, if the number of explanatory variables to be adopted changes, the optimum number of past cases also changes accordingly, so in order to build an appropriate local model, the number of explanatory variables And the number of past cases need to be optimized.

本発明はかかる事情に鑑みてなされたもので、説明変数の数と過去事例数を併せて最適化することにより適切な局所モデルを構築することが可能なプロセスの状態予測方法を提供することを目的とする。   The present invention has been made in view of such circumstances, and provides a process state prediction method capable of constructing an appropriate local model by optimizing the number of explanatory variables and the number of past cases together. Objective.

上記目的を達成するため、本発明は、プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを予測するプロセスの状態予測方法において、
前記入力ベクトルを構成する説明変数の数Mと前記近傍データベクトルの最大数NNMAXをパラメータとして、前記近傍データベクトルが格納された近傍データベクトル集合を複数作成して前記各近傍データベクトル集合について主成分分析を実施し、前記要求点ベクトルに対するQ統計量が最小となる前記局所モデルを前記各近傍データベクトル集合ごとに構築して、前記局所モデルによる予測値と実測値との誤差を算出する工程と、
前記説明変数の数M及び前記近傍データベクトルの最大数NNMAXをパラメータとして構築された複数の前記局所モデルのなかで、前記誤差が最小となる前記局所モデルを選択する工程とを備えることを特徴としている。
In order to achieve the above-mentioned object, the present invention creates a database in which a data vector in which an input vector and an output vector composed of observation data indicating the operation state of a process in a plant facility are paired is accumulated and is to be predicted At least one of the data vectors similar to the request point vector consisting of input vectors corresponding to the output vector in FIG. 5 is obtained as a neighborhood data vector from the database, a local model is constructed from the neighborhood data vector, and the prediction time point In the process state prediction method for predicting the output vector at
Using the number M of explanatory variables constituting the input vector and the maximum number NN MAX of the neighborhood data vectors as parameters, a plurality of neighborhood data vector sets in which the neighborhood data vectors are stored are created, and each neighborhood data vector set is Performing component analysis, constructing the local model having a minimum Q statistic for the request point vector for each set of neighboring data vectors, and calculating an error between a predicted value and an actual measurement value of the local model When,
Selecting the local model that minimizes the error among a plurality of the local models constructed using the number M of the explanatory variables and the maximum number NN MAX of the neighboring data vectors as parameters. It is said.

本発明では、入力ベクトルを構成する説明変数の数Mと近傍データベクトルの最大数NNMAX(過去事例数)の値を変えながら、各M値及び各NNMAX値ごとに局所モデルを構築し、各局所モデルによる予測値と実測値との誤差が最小となる局所モデルを選択するので、説明変数の数と過去事例数が併せて最適化され、適切な局所モデルを構築することが可能となる。 In the present invention, a local model is constructed for each M value and each NN MAX value while changing the number M of explanatory variables constituting the input vector and the maximum number NN MAX (number of past cases) of neighboring data vectors. Since the local model that minimizes the error between the predicted value and the actual measurement value of each local model is selected, the number of explanatory variables and the number of past cases are optimized together, and an appropriate local model can be constructed. .

なお、局所モデルを構築する際に使用する主成分分析及びQ統計量は以下のような特徴を有している。
主成分分析では、変数間の相関関係を捉えるため、変数の線形結合によって主成分と呼ばれる新たな合成変数を作り出す。この主成分によって、対象とするデータベクトル集合の特徴を最も良く表現する部分空間を得ることができる。Q統計量は、主成分によって張られる部分空間では表現できない部分を表している。つまり、Q統計量は、対象とするデータベクトル集合と要求点ベクトルとの相関関係の非類似度を表し、Q統計量が小さいほど、要求点ベクトルに類似するデータベクトル集合であると判断できる。
The principal component analysis and Q statistic used when constructing the local model have the following characteristics.
In principal component analysis, in order to capture the correlation between variables, a new synthetic variable called a principal component is created by linear combination of variables. With this principal component, it is possible to obtain a partial space that best represents the characteristics of the target data vector set. The Q statistic represents a portion that cannot be expressed in the subspace spanned by the principal components. That is, the Q statistic represents the degree of dissimilarity between the target data vector set and the requested point vector, and it can be determined that the smaller the Q statistic, the more similar the data vector set is to the requested point vector.

図1は、要求点ベクトルと近傍データベクトルとの相関関係を表した模式図である。図1(A)は、JITモデリングやLOMの場合を示しており、ベクトル間距離に基づいて近傍データベクトルを選択するため、異なる相関関係を有する近傍データベクトルが選択されるおそれがある。一方、図1(B)は、主成分分析及びQ統計量を用いた状態予測方法の場合を示しており、Q統計量を用いて、要求点ベクトルとデータベクトル集合(データセット)の相関関係を測るため、相関関係の高い○印のデータベクトル集合のみ選択される。   FIG. 1 is a schematic diagram showing a correlation between a request point vector and a neighborhood data vector. FIG. 1A shows the case of JIT modeling or LOM. Since neighboring data vectors are selected based on the distance between vectors, neighboring data vectors having different correlations may be selected. On the other hand, FIG. 1 (B) shows the case of the state prediction method using principal component analysis and Q statistics, and the correlation between request point vectors and data vector sets (data sets) using Q statistics. Therefore, only a set of data vectors marked with ○ having a high correlation is selected.

また、本発明に係るプロセスの状態予測方法では、前記局所モデルによる予測値と実測値との誤差は、二乗平均平方根誤差によって算出してもよく、評価区間全域に亘る誤差が単一の数値で示される。   In the process state prediction method according to the present invention, the error between the predicted value and the actual measurement value by the local model may be calculated by a root mean square error, and the error over the entire evaluation interval is a single numerical value. Indicated.

本発明に係るプロセスの状態予測方法では、入力ベクトルを構成する説明変数の数Mと近傍データベクトルの最大数NNMAX(過去事例数)をパラメータとして作成した複数の近傍データベクトル集合それぞれについて主成分分析を実施し、要求点ベクトルに対するQ統計量が最小となる局所モデルを各近傍データベクトル集合ごとに構築して局所モデルによる予測値と実測値との誤差が最小となる局所モデルを選択するので、説明変数の数と過去事例数が併せて最適化され、適切な局所モデルを構築することが可能となる。 In the process state prediction method according to the present invention, the principal component for each of a plurality of neighborhood data vector sets created using the number M of explanatory variables constituting the input vector and the maximum number of neighborhood data vectors NN MAX (the number of past cases) as parameters. Analysis is performed, and a local model that minimizes the Q statistic for the requested point vector is constructed for each set of neighboring data vectors, and a local model that minimizes the error between the predicted value and the actual measurement value of the local model is selected. The number of explanatory variables and the number of past cases are optimized together, and an appropriate local model can be constructed.

要求点ベクトルと近傍データベクトルとの相関関係を表す模式図であって、(A)はJITモデリングやLOMの場合、(B)は主成分分析及びQ統計量を用いた状態予測方法の場合をそれぞれ示している。FIG. 4 is a schematic diagram showing the correlation between a request point vector and a neighborhood data vector, where (A) shows the case of JIT modeling and LOM, and (B) shows the case of a state prediction method using principal component analysis and Q statistics. Each is shown. 本発明の一実施の形態に係るプロセスの状態予測方法を説明するためのフローチャートである。It is a flowchart for demonstrating the process state prediction method which concerns on one embodiment of this invention. 同プロセスの状態予測方法を説明するためのフローチャートである。It is a flowchart for demonstrating the state prediction method of the process. データセットの構成を示すテーブルである。It is a table which shows the structure of a data set. 要求点ベクトルの構成を示すテーブルである。It is a table which shows the structure of a request point vector. 近傍データ数がNNMAXである近傍データセットAの構成を示すテーブルである。It is a table which shows the composition of neighborhood data set A where the number of neighborhood data is NN MAX . 近傍データ数がNNMINである近傍データセットBの構成を示すテーブルである。Number of neighbors data is a table showing the structure of a neighboring data set B 0 is NN MIN. Q統計量が格納されたQ値テーブルである。It is a Q value table in which Q statistics are stored. 説明変数の数と過去事例数をパラメータとしたときのRMSETOTALの一覧を示したテーブルである。It is the table which showed the list of RMSE TOTAL when the number of explanatory variables and the number of past cases are used as parameters. 同プロセスの状態予測方法によって構築された局所モデルによる予測値を実測値と対比した時刻歴グラフである。It is the time history graph which contrasted the predicted value by the local model constructed | assembled with the state prediction method of the process with the measured value. 従来の予測方法によって構築された局所モデルによる予測値を実測値と対比した時刻歴グラフである。It is the time history graph which contrasted the predicted value by the local model built by the conventional prediction method with the actual measurement value. 従来の予測方法によって構築された局所モデルによる予測値を実測値と対比した時刻歴グラフである。It is the time history graph which contrasted the predicted value by the local model built by the conventional prediction method with the actual measurement value.

続いて、添付した図面を参照しつつ、本発明を具体化した実施の形態に付き説明し、本発明の理解に供する。   Next, embodiments of the present invention will be described with reference to the accompanying drawings for understanding of the present invention.

[プロセスの状態予測方法の概略手順]
先ず、本発明の一実施の形態に係るプロセスの状態予測方法の概略手順を以下に示す。
(A1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースに関し、入力ベクトルを構成する説明変数の数Mの範囲と、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する近傍データベクトルの最大数NNMAX(過去事例数)の範囲を設定する。
[Outline of process status prediction method]
First, a schematic procedure of a process state prediction method according to an embodiment of the present invention will be described below.
(A1) Regarding a database in which a data vector in which an input vector and an output vector composed of observation data indicating the operation state of a process in a plant facility are paired is stored, a range of the number M of explanatory variables constituting the input vector; Then, the range of the maximum number NN MAX (the number of past cases) of the neighborhood data vectors similar to the request point vector composed of the input vector corresponding to the output vector at the time of the prediction is set.

(A2)説明変数の数M及び近傍データセットの最大数NNMAXの各範囲内において、M及びNNMAXを変化させながら、選択したM及びNNMAXそれぞれについて以下の処理を行う。
(A2−1)近傍データベクトルが格納された近傍データセット(近傍データベクトル集合)を近傍データベクトルの数を変えて(ただし、最大数NNMAXが上限である。)複数作成する。
(A2−2)作成した複数の近傍データセットについて主成分分析を実施して各近傍データセットごとに要求点ベクトルに対するQ統計量を算出し、Q統計量が最小となる近傍データセットを選択して局所モデルを構築する。
(A2−3)構築した局所モデルを用いて、予測したい時点における出力ベクトルの予測値を求め、実測値と比較してその誤差を算出する。
(A2) in each range of the maximum number NN MAX number M and the vicinity dataset explanatory variables, while changing the M and NN MAX, carries out the following process for each selected M and NN MAX.
(A2-1) A plurality of neighborhood data sets (neighboring data vector sets) storing neighborhood data vectors are created by changing the number of neighborhood data vectors (however, the maximum number NN MAX is the upper limit).
(A2-2) Principal component analysis is performed on the plurality of generated neighborhood data sets, the Q statistic for the request point vector is calculated for each neighborhood data set, and the neighborhood data set that minimizes the Q statistic is selected. To build a local model.
(A2-3) Using the constructed local model, the predicted value of the output vector at the time point to be predicted is obtained, and the error is calculated by comparing with the actually measured value.

(A3)説明変数の数M及び近傍データセットの最大数NNMAXの各範囲内において構築された複数の局所モデルのなかで、実測値との誤差が最小となる局所モデルを選択する。 (A3) A local model that minimizes an error from an actual measurement value is selected from among a plurality of local models constructed within each range of the number M of explanatory variables and the maximum number NN MAX of neighboring data sets.

ここで、本実施の形態に係るプロセスの状態予測方法を構成する主要な手法について基本的な説明をしておく。
[JITモデリング]
現在の挙動と近似した挙動が過去に観測されていたならば、現在の挙動が進展する様子は過去のものと近似したものになるであろうと考えることができる。この考え方を再現した予測手法の1つがJust-In-Time(JIT)モデリングである。JITモデリングは決まったモデルを持たない代わりに、過去のデータベクトルをそのままデータベースとして保持する。プロセスの予測が必要となったとき、過去データが蓄積されたデータベースから、要求点ベクトルと類似性の高いデータベクトルを検索し、局所モデルを構築して出力の予測を行う手法である。
Here, a basic description will be given of main methods constituting the process state prediction method according to the present embodiment.
[JIT modeling]
If a behavior that approximates the current behavior has been observed in the past, it can be considered that the progress of the current behavior will be an approximation of the past. One prediction method that reproduces this idea is Just-In-Time (JIT) modeling. JIT modeling does not have a fixed model, but retains past data vectors as a database. In this method, when a process needs to be predicted, a data vector having high similarity to a request point vector is searched from a database in which past data is accumulated, a local model is constructed, and an output is predicted.

対象とするプロセスが非線形かつ動的なプロセスであるとき、次式の回帰モデルでそのプロセスを表すことができる。   When the target process is a non-linear and dynamic process, the process can be represented by the following regression model.

Figure 2013168020
Figure 2013168020

ここで、プロセスの入力ベクトルxと出力ベクトルyを以下のように定義する。つまり、出力ベクトルyは、k時における入力ベクトルxに対する(k+p)時における出力、即ち予測値となる。 Here, an input vector x k and an output vector y k of the process are defined as follows. That is, the output vector y k is an output at (k + p) with respect to the input vector x k at k, that is, a predicted value.

Figure 2013168020
Figure 2013168020

時間の経過と共に、入力ベクトルxと出力ベクトルyのデータベクトルの組が(x,y),(x,y),…のように、対象とするプロセスから大量に得られ、データベクトル集合{(x,y)}(k=1,2,…)としてデータベースに蓄積される。kは離散化時間である。 Over time, a large number of sets of data vectors of the input vector x k and the output vector y k can be obtained from the target process, such as (x 1 , y 1 ), (x 2 , y 2 ),. , Data vector set {(x k , y k )} (k = 1, 2,...) Is stored in the database. k is the discretization time.

予測したい時点における出力ベクトルykqに対応する入力ベクトルxkqを要求点ベクトルとし、要求点ベクトルと類似性が高い近傍データベクトルを上記データベースから取得する。要求点ベクトルと類似性が高い近傍データベクトルを選択する際の指標としては、次式で示すようなベクトル間距離(ユークリッド距離)などを用いることができる。 An input vector x kq corresponding to the output vector y kq at the time point to be predicted is set as a request point vector, and a neighborhood data vector having high similarity to the request point vector is acquired from the database. As an index for selecting a neighborhood data vector having high similarity to the requested point vector, an intervector distance (Euclidean distance) as shown by the following equation can be used.

Figure 2013168020
Figure 2013168020

近傍データベクトル群{(xki,yki)}(i=1,2,…,m)が取得されると、この近傍データベクトル群を用いて局所モデルの構築を行い、出力ベクトルykqの予測を行う。局所モデルとしては、重回帰モデルや、以下に示す相加平均法あるいは重み付き線形平均法などが用いられる。 When the neighborhood data vector group {(x ki , y ki )} (i = 1, 2,..., M) is acquired, a local model is constructed using the neighborhood data vector group, and the output vector y kq Make a prediction. As the local model, a multiple regression model, an arithmetic average method or a weighted linear average method shown below, or the like is used.

Figure 2013168020
Figure 2013168020

[主成分分析]
主成分分析は、データの特徴抽出及び低次元化を目的とする多変量解析手法であり、変数間の相関関係を捉えるため、変数の線形結合によって得られる主成分と呼ばれる合成変数を使用する。主成分分析では、データを最も良く表現できる方向に第1主成分を設定し、第1主成分と直交する空間上で、第1主成分では表現できないデータの変動を最も良く表現できる方向に第2主成分を設定するという手順で、主成分を次々と設定していく。ここで、データを最も良く表現する方向というのは、主成分得点の分散が最大となる方向という意味である。また、主成分得点とは、主成分が張る部分空間へデータを射影した値である。
[Principal component analysis]
Principal component analysis is a multivariate analysis method for the purpose of data feature extraction and reduction in dimensions, and uses synthetic variables called principal components obtained by linear combination of variables in order to capture correlations between variables. In the principal component analysis, the first principal component is set in the direction in which the data can be best expressed, and the variation in the data that cannot be expressed in the first principal component in the direction orthogonal to the first principal component is in the direction in which the first principal component can be expressed best. The principal components are set one after another by the procedure of setting two principal components. Here, the direction in which the data is best expressed means the direction in which the variance of the principal component scores is maximized. The principal component score is a value obtained by projecting data to a partial space spanned by the principal component.

[Q統計量]
Q統計量は、データベクトルのうち、主成分によって張られる部分空間では表現できない部分を表す。Q統計量は二乗予測誤差とも呼ばれ、以下のように定義されている。
I行×J列のデータ行列Xがあるものとする。ここで、Jは変数の数、Iはサンプル数であり、各変数は標準化されている。
データ行列Xを特異値分解すると次式のようになる。
[Q statistics]
The Q statistic represents a portion of the data vector that cannot be expressed in the subspace spanned by the principal components. The Q statistic is also called a square prediction error and is defined as follows.
Assume that there is a data matrix X of I rows × J columns. Here, J is the number of variables, I is the number of samples, and each variable is standardized.
When the singular value decomposition of the data matrix X is performed, the following equation is obtained.

Figure 2013168020
Figure 2013168020

UとVは直交行列であり、対角行列Sの対角要素には特異値sが降順に並んでいる。採用する主成分の数をRとすると、第r主成分は負荷量行列Vの第r列vで与えられる。
第r主成分得点tは(9)式で与えられ、第R主成分得点までをまとめて表現すると、(10)式となる。
U and V are orthogonal matrices, singular values s r is the diagonal elements of the diagonal matrix S are arranged in descending order. When the number of employed principal component is R, the r principal component is given by the first r columns v r loadings matrix V R.
The r-th principal component score tr is given by the equation (9), and when the R-th principal component score is collectively expressed, the equation (10) is obtained.

Figure 2013168020
Figure 2013168020

を元のJ次元空間上の座標で表すと、再構築データ行列X^は次のようになる。 Expressing T R with the coordinates on the original J-dimensional space, reconstructed data matrix X ^ is as follows.

Figure 2013168020
Figure 2013168020

このとき、Q統計量は次式で与えられる。   At this time, the Q statistic is given by the following equation.

Figure 2013168020
Figure 2013168020

[誤差評価方法]
局所モデルによる予測値と実測値との誤差評価は、二乗平均平方根誤差(以下では、「RMSE」と呼ぶことがある。)によって行う。RMSEの定義式を(13)式に示す。
[Error evaluation method]
The error evaluation between the predicted value and the actual measurement value based on the local model is performed using a root mean square error (hereinafter, sometimes referred to as “RMSE”). The formula for defining RMSE is shown in equation (13).

Figure 2013168020
Figure 2013168020

本実施の形態では、時刻t=tからt=tMAXまでに亘る二乗平均平方根誤差RMSE((14)式参照)を算出し、さらにデータ群による偏りを平均化するため、H個のデータ群それぞれについてRMSEを算出して、そのトータル量RMSETOTAL((15)式参照)で評価する。例えば、RMSEを24時間に亘って算出した誤差とし、RMSETOTALをH日間に亘って算出した誤差とするなどが考えられる。 In the present embodiment, the root mean square error RMSE I (see equation (14)) from time t = t 1 to t = t MAX is calculated, and the bias due to the data group is averaged. RMSE I is calculated for each data group and evaluated by the total amount RMSE TOTAL (see equation (15)). For example, RMSE I may be an error calculated over 24 hours, and RMSE TOTAL may be an error calculated over H days.

Figure 2013168020
Figure 2013168020

[プロセスの状態予測方法の詳細手順]
続いて、図2及び図3のフローチャートに基づいて本実施の形態に係るプロセスの状態予測方法の手順について詳細に説明する。
(C1)プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトルx及び出力ベクトルyのデータベクトルの組(x,y)(k=1,2,…)が蓄積された大規模データベース10を作成する。
(C2)入力ベクトルを構成する説明変数の数Mの最小値MMIN、最大値MMAX、増分値MINCと、近傍データベクトルの最大数NNMAX(過去事例数)の最小値NMIN、最大値NMAX、増分値NINCを設定する(ST10)。
[Detailed procedure for predicting process status]
Next, the procedure of the process state prediction method according to the present embodiment will be described in detail based on the flowcharts of FIGS.
(C1) A set of data vectors (x k , y k ) (k = 1, 2,...) Of the input vector x k and the output vector y k composed of observation data indicating the operation state of the process in the plant equipment is accumulated. The created large-scale database 10 is created.
(C2) Minimum value M MIN , maximum value M MAX , increment value M INC of the number M of explanatory variables constituting the input vector, and minimum value N MIN , maximum of the maximum number NN MAX (number of past cases) of neighboring data vectors A value N MAX and an increment value N INC are set (ST10).

(C3)説明変数の数Mの初期値をMMIN、近傍データセットの最大数NNMAXの初期値をNMINとする(ST11)。
(C4)出力ベクトルを構成する目的変数との単相関係数が大きな、即ち目的変数に対する寄与率が大きな上位M個の説明変数を選択し(ST12)、当該変数からなる新たなデータベース11を大規模データベース10から作成する。なお、目的変数と説明変数の間に時間遅れが存在する可能性がある場合は、見込まれる最大の時間遅れ変数も説明変数に加える。
作成されるデータベース11の構成を図4に示す。このデータベース11では、入力変数の数がM個、出力変数の数がL個、各変数のサンプル数がK個とされている。各データは日時に応じたIDが付けられ、同じIDに属するデータは1つのデータベクトルとして扱われる。
(C3) The initial value of the number M of explanatory variables is M MIN , and the initial value of the maximum number NN MAX of neighboring data sets is N MIN (ST11).
(C4) The top M explanatory variables having a large single correlation coefficient with the objective variable constituting the output vector, that is, the contribution ratio with respect to the objective variable is selected (ST12), and the new database 11 composed of the variable is enlarged. Created from the scale database 10. If there is a possibility that a time delay exists between the objective variable and the explanatory variable, the maximum expected time delay variable is also added to the explanatory variable.
The configuration of the database 11 to be created is shown in FIG. In this database 11, the number of input variables is M, the number of output variables is L, and the number of samples of each variable is K. Each data is given an ID according to the date and time, and data belonging to the same ID is handled as one data vector.

(C5)予測したい時点における出力ベクトルYに対応する入力ベクトルXからなる要求点ベクトルを設定する(ST13)。図5に要求点ベクトルの構成を示す。
(C6)データベース11に格納されている各データベクトルと要求点ベクトルとのベクトル間距離を(4)式や(5)式を用いて計算し、ベクトル間距離が小さいものから順にNNMAX個の近傍データベクトルを全て収集する。そして、収集した近傍データベクトルを、ベクトル間距離が近い順に近傍データセットAとして保存する(ST14)。図6に近傍データセットAの構成を示す。図6において「No.」が近傍データ数を表している。
(C7)近傍データセットAの中から近傍データ数(No.)が1〜NNMINまでの近傍データベクトルを選択して近傍データセットBを作成する(ST15)。即ち、要求点ベクトルとのベクトル間距離が近いものから順にNNMIN個の近傍データベクトルを選択する。図7に近傍データセットBの構成を示す。
(C5) sets the required point vector and an input vector X q corresponding to the output vector Y q at the time to be predicted (ST13). FIG. 5 shows the configuration of the request point vector.
(C6) The inter-vector distance between each data vector stored in the database 11 and the requested point vector is calculated using the formulas (4) and (5), and the NN MAX pieces are calculated in order from the smallest vector distance. Collect all neighborhood data vectors. Then, the collected neighborhood data vectors are stored as the neighborhood data set A in order of increasing distance between vectors (ST14). FIG. 6 shows the configuration of the neighborhood data set A. In FIG. 6, “No.” represents the number of neighboring data.
(C7) number of neighbors data from neighboring data set A (No.) creates a neighboring data set B 0 Select neighborhood data vector to 1~NN MIN (ST15). That is, NN MIN neighboring data vectors are selected in order from the shortest vector distance to the requested point vector. It shows the structure of a neighboring data set B 0 in Fig.

(C8)近傍データセットBに対して主成分分析を実施し、負荷量行列Vを求める(ST16)。具体的には、近傍データセットBをデータ行列Xとして特異値分解すればよい。
(C9)要求点ベクトルxが(16)式で表されるとすると、要求点ベクトルxを再構築した再構築ベクトルx^は、負荷量行列Vを用いて(17)式により算出される。従って、近傍データセットBに対するQ統計量は、(18)式より得ることができる(ST17)。算出されたQ統計量は、図8に示すQ値テーブルに保存される。
(C8) The principal component analysis was performed on the proximate data sets B 0, obtains the loading matrix V R (ST16). Specifically, the singular value decomposition may be performed using the neighborhood data set B 0 as the data matrix X.
(C9) the request point vector x q is to be expressed by equation (16), reconstructed vector x ^ q to a reconstructed request point vector x q is the using load matrix V R (17) below Calculated. Therefore, the Q statistic for the neighborhood data set B 0 can be obtained from the equation (18) (ST17). The calculated Q statistic is stored in the Q value table shown in FIG.

Figure 2013168020
Figure 2013168020

(C10)Q統計量が算出された近傍データセットBの近傍データ数がNNMAX以上であるかどうか判断される(ST18)。近傍データ数がNNMAX未満である場合は、近傍データセットAの内、近傍データセットBに含まれていない近傍データベクトルの中から、さらにS個の近傍データベクトルを、近傍データ数(No.)が小さいほうから(要求点ベクトルとのベクトル間距離が近いものから)選択し、近傍データセットBに追加して新たな近傍データセットBを作成する(ST19)。そして、ST16のステップに戻る。
(C11)一方、近傍データ数がNNMAX以上になった場合は、Q値テーブルに基づいて、Q統計量が最小となったデータセットBをデータセットAから選択する。そして、データセットBに対応する出力ベクトルを、データセットBのIDに基づいてデータベース11から取得して、重回帰モデルや重み付き線形平均法などを用いて局所モデルを構築する(ST20)。
(C10) It is determined whether or not the number of neighboring data in the neighboring data set B 0 for which the Q statistic is calculated is greater than or equal to NN MAX (ST18). When the number of neighboring data is less than NN MAX , among the neighboring data sets that are not included in the neighboring data set B 0 in the neighboring data set A, S neighboring data vectors are further converted into the number of neighboring data (No .) those from) selecting (close inter-vector distance between the request point vector from the smaller, in addition to the vicinity of the data set B 0 to create a new neighborhood data set B 1 (ST19). Then, the process returns to step ST16.
(C11) On the other hand, when the number of neighboring data becomes NN MAX or more, the data set B k having the minimum Q statistic is selected from the data set A based on the Q value table. Then, an output vector corresponding to the data set B k, acquired from the database 11 based on the ID of the data set B k, to construct a local model by using a multiple regression model and weighted linear average method (ST20) .

(C12)時刻t=tからt=tMAXまでに亘る二乗平均平方根誤差RMSEを(14)式により算出し、H日間のトータル量であるRMSETOTALを(15)式により算出する(ST21)。
(C13)NNMAXがNMAX以上かどうかチェックが行われ(ST22)、NNMAXがNMAX未満の場合は、NNMAX+NINCを新規NNMAXに更新(ST25)してST14に戻る。
(C14)一方、NNMAXがNMAX以上の場合は、MがMMAX以上かどうかチェックが行われ(ST23)、MがMMAX未満の場合は、M+MINCを新規Mに更新(ST26)してST12に戻る。
(C15)MがMMAX以上の場合は、構築された複数の局所モデルのなかで、RMSETOTALが最小となる局所モデルを選択する(ST24)。
(C12) The root mean square error RMSE I from time t = t 1 to t = t MAX is calculated by equation (14), and RMSE TOTAL , which is the total amount for H days, is calculated by equation (15) (ST21). ).
(C13) NN MAX is whether a check is made whether more than N MAX (ST22), if NN MAX is less than N MAX, update the NN MAX + N INC to the new NN MAX (ST25) to return to ST14 is.
(C14) On the other hand, if NN MAX is greater than or equal to N MAX , it is checked whether M is greater than or equal to M MAX (ST23). If M is less than M MAX , M + M INC is updated to a new M (ST26). Return to ST12.
(C15) If M is greater than or equal to M MAX , a local model with the smallest RMSE TOTAL is selected from among the plurality of constructed local models (ST24).

以上、本発明の一実施の形態について説明してきたが、本発明は何ら上記した実施の形態に記載の構成に限定されるものではなく、特許請求の範囲に記載されている事項の範囲内で考えられるその他の実施の形態や変形例も含むものである。例えば、上記実施の形態では、局所モデルによる予測値と実測値との誤差評価に、二乗平均平方根誤差を使用しているが、平均二乗誤差や平均絶対誤差等、他の評価方法を使用してもよい。   Although one embodiment of the present invention has been described above, the present invention is not limited to the configuration described in the above-described embodiment, and is within the scope of matters described in the claims. Other possible embodiments and modifications are also included. For example, in the above embodiment, the root mean square error is used for the error evaluation between the predicted value and the actual measurement value by the local model, but other evaluation methods such as the mean square error and the average absolute error are used. Also good.

本実施の形態に係るプロセスの状態予測方法の効果について検証するため、熱反応炉の炉頂ガス温度の予測を行い、実測値との比較を行った。   In order to verify the effect of the process state prediction method according to the present embodiment, the top gas temperature of the thermal reactor was predicted and compared with the actual measurement value.

検証に使用したデータは、2年間に亘るごみ処理プロセスにおいて測定された観測データである。取り込んだデータは、ノイズ除去のため、1時間の移動平均フィルタを掛けて平滑化した。サンプリング時間は20分、総データ数は38809個である。   The data used for the verification is observation data measured in a waste disposal process over 2 years. The acquired data was smoothed by applying a moving average filter for 1 hour to remove noise. The sampling time is 20 minutes and the total number of data is 38809.

図9は、検証時に設定した説明変数の数M及び過去事例数NNMAXに対して算出されたRMSETOTALの一覧を示したものである。本検証では、説明変数の数Mの最小値を20個、最大値を46個、増分値を2個とし、過去事例数NNMAXの最小値を100個、最大値を200個、増分値を50個として、RMSETOTALを算出した。その結果、説明変数の数Mが30個、過去事例数NNMAXが150個のときにRMSETOTALは最小となった。
なお、局所モデルの構築には重回帰モデルを使用した。
FIG. 9 shows a list of RMSE TOTALs calculated for the number M of explanatory variables and the number of past cases NN MAX set at the time of verification. In this verification, the minimum value of the number M of explanatory variables is 20, the maximum value is 46, the increment value is 2, the minimum value of the past case number NN MAX is 100, the maximum value is 200, and the increment value is As 50, RMSE TOTAL was calculated. As a result, when the number M of explanatory variables was 30 and the number of past cases NN MAX was 150, the RMSE TOTAL was minimized.
A multiple regression model was used to construct the local model.

本実施の形態に係るプロセスの状態予測方法によって構築された局所モデル(M=30、NNMAX=150)による予測値を実測値と対比した時刻歴グラフを図10に、従来の予測方法によって構築された局所モデル(M=20、NNMAX=150)による予測値を実測値と対比した時刻歴グラフを図11に、従来の予測方法によって構築された局所モデル(M=40、NNMAX=150)による予測値を実測値と対比した時刻歴グラフを図12にそれぞれ示す。
これらの図より、本実施の形態に係るプロセスの状態予測方法によって構築された局所モデルによる予測値が最も実測値に近く、従来の予測方法によって構築された局所モデルの場合、誤差が徐々に大きくなっていくことがわかる。
FIG. 10 shows a time history graph in which a predicted value based on a local model (M = 30, NN MAX = 150) constructed by the process state prediction method according to the present embodiment is compared with an actual measurement value, and is constructed by a conventional prediction method. FIG. 11 shows a time history graph in which the predicted value based on the local model (M = 20, NN MAX = 150) is compared with the actual measurement value, and FIG. 11 shows the local model (M = 40, NN MAX = 150) constructed by the conventional prediction method. FIG. 12 shows time history graphs in which the predicted values obtained by) are compared with the actually measured values.
From these figures, the prediction value by the local model constructed by the process state prediction method according to the present embodiment is the closest to the actual measurement value, and the error gradually increases in the case of the local model constructed by the conventional prediction method. I understand that it will become.

10:大規模データベース、11:データベース 10: Large database, 11: Database

Claims (2)

プラント設備におけるプロセスの操業状態を示す観測データから構成される入力ベクトル及び出力ベクトルが対となったデータベクトルが蓄積されたデータベースを作成し、予測したい時点における出力ベクトルに対応する入力ベクトルからなる要求点ベクトルに類似する前記データベクトルを近傍データベクトルとして前記データベースから少なくとも1つ以上取得し、前記近傍データベクトルから局所モデルを構築して、前記予測したい時点における出力ベクトルを予測するプロセスの状態予測方法において、
前記入力ベクトルを構成する説明変数の数Mと前記近傍データベクトルの最大数NNMAXをパラメータとして、前記近傍データベクトルが格納された近傍データベクトル集合を複数作成して前記各近傍データベクトル集合について主成分分析を実施し、前記要求点ベクトルに対するQ統計量が最小となる前記局所モデルを前記各近傍データベクトル集合ごとに構築して、前記局所モデルによる予測値と実測値との誤差を算出する工程と、
前記説明変数の数M及び前記近傍データベクトルの最大数NNMAXをパラメータとして構築された複数の前記局所モデルのなかで、前記誤差が最小となる前記局所モデルを選択する工程とを備えることを特徴とするプロセスの状態予測方法。
A request that consists of an input vector corresponding to an output vector at the point in time when you want to create a database in which data vectors that consist of input vectors and output vectors consisting of observation data indicating the operational status of the process in the plant equipment are stored A process state prediction method for obtaining at least one or more data vectors similar to a point vector from the database as neighboring data vectors, constructing a local model from the neighboring data vectors, and predicting an output vector at the time point to be predicted In
Using the number M of explanatory variables constituting the input vector and the maximum number NN MAX of the neighborhood data vectors as parameters, a plurality of neighborhood data vector sets in which the neighborhood data vectors are stored are created, and each neighborhood data vector set is Performing component analysis, constructing the local model having a minimum Q statistic for the request point vector for each set of neighboring data vectors, and calculating an error between a predicted value and an actual measurement value of the local model When,
Selecting the local model that minimizes the error among a plurality of the local models constructed using the number M of the explanatory variables and the maximum number NN MAX of the neighboring data vectors as parameters. The process state prediction method.
請求項1記載のプロセスの状態予測方法において、前記局所モデルによる予測値と実測値との誤差は、二乗平均平方根誤差によって算出することを特徴とするプロセスの状態予測方法。   2. The process state prediction method according to claim 1, wherein an error between the predicted value and the actual measurement value of the local model is calculated by a root mean square error.
JP2012030901A 2012-02-15 2012-02-15 State prediction method for process Pending JP2013168020A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012030901A JP2013168020A (en) 2012-02-15 2012-02-15 State prediction method for process

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012030901A JP2013168020A (en) 2012-02-15 2012-02-15 State prediction method for process

Publications (1)

Publication Number Publication Date
JP2013168020A true JP2013168020A (en) 2013-08-29

Family

ID=49178375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012030901A Pending JP2013168020A (en) 2012-02-15 2012-02-15 State prediction method for process

Country Status (1)

Country Link
JP (1) JP2013168020A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913157A (en) * 2016-04-27 2016-08-31 熊运轩 Fire-fighting emergency illumination and evacuation indication system intelligent escape logic vector searching algorithm
KR20170079159A (en) * 2015-12-30 2017-07-10 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof
CN110702889A (en) * 2019-09-23 2020-01-17 常州大学 Method, apparatus and medium for predicting toxic effect of phthalate ester on water fleas

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170079159A (en) * 2015-12-30 2017-07-10 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof
KR102044205B1 (en) * 2015-12-30 2019-11-13 주식회사 솔리드웨어 Target information prediction system using big data and machine learning and method thereof
CN105913157A (en) * 2016-04-27 2016-08-31 熊运轩 Fire-fighting emergency illumination and evacuation indication system intelligent escape logic vector searching algorithm
CN110702889A (en) * 2019-09-23 2020-01-17 常州大学 Method, apparatus and medium for predicting toxic effect of phthalate ester on water fleas

Similar Documents

Publication Publication Date Title
JP6536295B2 (en) Prediction performance curve estimation program, prediction performance curve estimation device and prediction performance curve estimation method
JP5707230B2 (en) Process state prediction method
JP6525002B2 (en) Maintenance time determination apparatus, deterioration prediction system, deterioration prediction method, and recording medium
JP5373870B2 (en) Prediction device, prediction method, and program
JP5434837B2 (en) Quality prediction apparatus, quality prediction method, program, and computer-readable recording medium
TW201224812A (en) Probabilistic data mining model comparison engine
JP5176206B2 (en) Process state similar case search method and process control method
KR20190072652A (en) Information processing apparatus and information processing method
JPWO2007091359A1 (en) Variation simulation system, variation determination model method and apparatus, and program
JP7144676B2 (en) Information processing device, quality-related expression generation method, and quality-related expression generation program
JP5966836B2 (en) Evaluation support method, information processing apparatus, and program
JP4488964B2 (en) Process operating state control method and computer program
Ramya et al. Environment change prediction to adapt climate-smart agriculture using big data analytics
JP2013168020A (en) State prediction method for process
KR20190072292A (en) Apparatus and method for body growth prediction modeling
KR101884908B1 (en) Big Data Analytics Based Reliability Prediction Apparatus
JP2013137774A (en) Method for predicting state of process and system for predicting state of process
CN113743453A (en) Population quantity prediction method based on random forest
KR101884907B1 (en) Big Data Analytics Based Reliability Prediction Method
TWI802294B (en) Test site recommendation device, test site recommendation method, and semiconductor device manufacturing system
JP6247777B2 (en) Abnormality diagnosis apparatus and abnormality diagnosis method
JP7353940B2 (en) Transferability determination device, transferability determination method, and transferability determination program
JP5842704B2 (en) Estimation apparatus, program, and estimation method
JP4230890B2 (en) Model identification device, model identification program, and method of operating model identification device
JP2006195542A (en) Model identification device, and model identification program