JP2013175108A

JP2013175108A - クラスタリング装置及びクラスタリングプログラム

Info

Publication number: JP2013175108A
Application number: JP2012040134A
Authority: JP
Inventors: Makoto Imamura; 誠今村; Yutaka Saito; 裕齋藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-02-27
Filing date: 2012-02-27
Publication date: 2013-09-05
Anticipated expiration: 2032-02-27
Also published as: JP5868216B2

Abstract

【課題】計装システムの時系列データを活用し、プラント設備の故障等の異常予兆を検知する装置の検知精度を向上させる。
【解決手段】局所時系列データ抽出部１０２が、複数の時系列データの組を入力し、この組に対して所定の時間区分の手法を適用して複数の時系列データの組を時間で区分し、時間区分された各時系列データを局所時系列データを抽出し、局所時系列データモデル推定部１０３が、抽出された各局所時系列データを、所定のモデル推定手法を用いてモデル推定し、局所時系列データクラスタリング部１０４が、モデル推定された各局所時系列データを複数のクラスタに分割すると共にクラスタ毎にクラスタを代表する代表局所パラメータを求める。そして、外れ値検出部１０６が、代表局所パラメータに基づき、所定期間の評価対象データに対して、いずれかの代表局所パラメータとの距離として予め定義された値が閾値を超える外れ値かどうかを検出する。
【選択図】図１

Description

本発明は、プラントを構成する機器の故障や性能劣化等の異常の予兆を検知するためのプラントの異常検知装置に関する。

火力、水力、原子力などの発電プラント、化学プラント、鉄鋼プラント、上下水道プラントなどでは、プラントのプロセスを制御するための計装システムが導入されている。これらのプラントの計装システムでは、装置に取り付けられたセンサが取得した種々の時系列データが蓄積されている。この時系列データを用いて、プラントの監視や保守に役立てたいというニーズがある。

例えば、以下に示した特許文献１では、過去のプラントのセンサ信号のデータと、観測データとの類似度を計算することにより、観測データの外れ度合いを出力することにより、異常検知する方法が記載されている。しかし、プラントでは、起動、定常、停止などの運転モード、燃料の成分による発熱効率の差異、設備の劣化などにより、過去のプラントのセンサ信号のデータのばらつきが大きいため、学習の対象となるセンサ信号のデータを、運転条件毎に集める必要があり、この負荷が大きいという課題があった。

上記の課題を解決する方法として、以下に示した特許文献２では、時系列データを時間的な変化に基づいて、データ空間の軌跡を複数の軌跡区分に分割して、各々の軌跡区分毎に対象をモデル化することにより、プラントを構成する機器の性能劣化状態を定常的に評価する方法が記載されている。

特表２００４−５３１８１５、「予測的状態監視のための診断システムおよび方法」特開２０１０−９２３５５「異常検知方法及びシステム」

上記の特許文献２の方法では、対象データを時間に沿ってデータ間の距離が定めたしきい値を超えれば、別のクラスタとし、しきい値を超えなければ、同じクラスタとして扱うという方法に分割している。このため、プラントの起動、定常、停止などの運転条件に起因する複数のセンサ信号間の関係を捉えることができるため、過去のデータを運転条件毎に集める作業を不要としている。しかし、異常の判定時には、過去に類似した分割区分があるかどうかで判定するので、その分割区分の異常がどの程度まれに生じるものかといった統計的な偏りについては、判定することができないという課題がある。したがって、収集したデータ中に、センサ故障等による異常データや、異常となる直前のデータが混入している場合には、そのデータに起因して、異常検知の精度が低下する可能性がある。

また、統計的な処理に基づく異常検知は、検知精度は１００％にはならないので、プラントの保守員や監視員が対処をとる際には、異常とする判断の根拠をわかりやすく説明する機能が求められる。しかし、従来技術（特許文献２）では、区分された軌跡によりプラントシステムを部分空間法によりモデル化しているので、数学的に変換した結果に対する異常判定となっており、センサ信号間の関係や異常判断の根拠の説明が難しいという課題がある。

この発明は、計装システムが蓄積する時系列データを活用することにより、プラントを構成する設備や機器の故障や性能劣化等の異常の予兆を検知する装置の、異常検知の精度を向上させることを目的とする。

この発明のクラスタリング装置は、
種類の異なる複数の時系列データから、第１時間範囲から第Ｎ時間範囲の異なるＮ個（Ｎは２以上の整数）の時間範囲ごとにその時間範囲に属する時系列データを抽出し、その時間範囲における複数の時系列データの組からなるＮ個の局所時系列データを生成する局所時系列データ抽出部と、
前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを、初期クラスタ分割の規則として予め設定された初期クラスタ分割規則に従って、予め設定された初期クラスタ数の初期クラスタに分割し、分割した初期クラスタごとに初期クラスタの特性を指標する代表情報を生成し、生成した代表情報ごとにＮ個の局所時系列データを再クラスタリングの規則として予め設定された再クラスタリング規則に従って分配することによりＮ個の局所時系列データをクラスタに分割する再クラスタリングを実行し、再クラスタリングしたクラスタごとに代表情報を再生成し、再生成した代表情報ごとに前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを再クラスタリングし、
以降同様に、
Ｎ個の局所時系列データの再クラスタリングと、代表情報の再生成とを繰り返すと共に、代表情報を再生成するたびに、今回生成した代表情報が直前に生成した代表情報に対して変化があるかどうかを判定し、変化があるときには次回の代表情報の再生成処理を継続し、変化がないときには次回の代表情報の再生成処理を継続することなくＮ個の局所時系列データの再クラスタリングと代表情報の再生成との処理を終了する局所時系データクラスタリング部と
を備えたことを特徴とする。

この発明により、プラントを構成する設備や機器の故障や性能劣化等の異常の予兆を検知する装置において、検知精度を向上させることができる。

実施の形態１におけるプラント異常検知装置１００の構成を示すブロック図。実施の形態１における時系列データを説明する図。実施の形態１における局所時系列データ抽出の説明図。実施の形態１におけるセンサ信号間の相関関係の変化の一例（連続的な変化）を示す説明図。実施の形態１におけるセンサ信号間の相関関係の変化の一例（不連続な変化）を示す説明図。実施の形態１におけるセンサ信号間の相関関係の変化の一例（値の区間への依存性）を示す説明図。実施の形態１における局所時系列データクラスタリングの一例を示す説明図。実施の形態１における大域的時系列データモデルの推定の一例を示す説明図。実施の形態１におけるプラント異常検知装置１００の処理の全体の流れを説明するフロー。実施の形態１における局所時系列データクラスタリング部１０４の処理の流れを説明するフロー。実施の形態１におけるデータの値のレンジで区分する場合の局所時系列データを説明する図。実施の形態１における局所時系列データモデル推定部１０３の処理を概念的に示す図。実施の形態１における「Ｎ×Ｋ」個の局所構造Ｓ（Ｌ_ｋｉ）を概念的に示す図。実施の形態１における（式５）の意味を示す図。図１０のＳ１００４の処理を概念的に示す図。図１０のＳ１００５の処理を概念化した図。図１０の最初のＳ１００６からＳ１００４に戻った場合を説明する図。図１０のｋ＝２、ｋ＝３の実行後を示す概念図。図１０のｋ＝１〜Ｋの実行後を示す概念図。図１０の全体処理概要を示す図。実施の形態１における大域的時系列データモデル推定部１０５の処理の流れを説明するフロー図。実施の形態２におけるプラント異常検知装置１００の外観の一例を示す図。実施の形態２におけるプラント異常検知装置１００のハードウェア構成例を示す図。

実施の形態１．
図１は、本実施の形態１に係るプラント異常検知装置１００の一実施例の構成を示すブロック図である。各構成要素の機能概要を説明する。以下の実施の形態の説明では、ｔは時間を示す。
（１）プラント時系列データベース１０１は、異常検知の対象となるプラント機器等について、時間の経過に従って順次観測して得た複数の時系列データを格納するデータベースである。
（２）局所時系列データ抽出部１０２は、プラント時系列データベース１０１中の多次元時系列データを入力とする。例えば後述の図２のような、投入燃料に対する発熱量ｙ（ｔ）、燃料投入量ｘ１（ｔ）、及び温度ｘ２（ｔ）の組、（ｙ（ｔ）、ｘ１（ｔ）、ｘ２（ｔ））のような多次元時系列データを入力とする。局所時系列データ抽出部１０２は、その入力データの時間的な変化の仕方に従って、この入力データを「時間」や「データの値」で区分することにより、区分された時系列データを抽出する。この区分された時系列データを「局所時系列データ３０１」と呼ぶ。
（３）局所時系列データモデル推定部１０３は、局所時系列データ抽出部１０２が抽出した局所時系列データ３０１を、多変量解析、または、時系列解析手法によりモデル推定する。モデル推定とは、例えば、「局所時系列データ３０１」ごとに、回帰式を求める処理である。
（４）局所時系列データクラスタリング部１０４は、局所時系列データモデル推定部１０３が推定した局所時系列データ３０１の「モデルの集合」をクラスタに分割すると共に、クラスタ毎にクラスタを代表する「代表局所パラメータ」を推定（算出）する。
（５）大域的時系列データモデル推定部１０５は、局所時系列データクラスタリング部１０４が推定したモデルを接続することにより、大域的な代表時系列データモデルを推定する。
（６）外れ値検出部１０６は、別途与えられた区分データに対して、局所時系列データクラスタリング部１０４あるいは、大域的時系列データモデル推定部１０５により得られた代表局所時系列データモデルの集合における外れ値が大きいものを異常として検出する。

（多次元時系列データの例）
図２は、局所時系列データ抽出部１０２が入力する時系列データの説明図である。時系列データとは、時刻ｔに対して、時刻ｔのセンサ信号値を対応させる関数ｘ（ｔ）として表現できるものである。時刻ｔは、連続であってもよいし、サンプリングによって一定周期ごとに記録されるものであってもよい。本明細書では、上記のように、複数の時系列データの組み（多次元時系列データ）を扱う。
図２は、
（ａ）時系列データｙ（ｔ）、
（ｂ）時系列データｘ_１（ｔ）、
（ｃ）時系列データｘ_２（ｔ）、
の三組の時系列データの例を示している。複数の時系列データの組は、時刻ｔのベクトル値関数（ｙ（ｔ），ｘ_１（ｔ），ｘ_２（ｔ））とみなすことができる。

（時系列データの区分けの例：その１）
図３は、局所時系列データ抽出部１０２による時系列データの区分けの例を示す図であり、局所時系列データ抽出部１０２の動作の一例を示す説明図である。
（ａ）は、プラント時系列データベース１０１に格納されている元データである時系列データｘ（ｔ）の例である。
（ｂ）は、局所時系列データ抽出部１０２が時系列データ（ａ）を平滑化することにより得られた「平滑化処理後の時系列データ」の例である。
（ｃ）は、時系列データ（ｂ）に対して、時間差分（ｘ（ｔ_ｉ＋１）−ｘ（ｔ_ｉ））をとった値をもつ時系列データの例である。つまり（ｃ）はΔｘ／Δｔを示す。
（ｄ）は、（ｃ）の値の絶対値がある閾値以上である時刻で、元信号データ（ａ）を区分することにより得られた、局所時系列データ３０１の例である。（ｄ）では、元信号データ（ａ）が、８つの区分に分割されている。つまり、（ｄ）では（ａ）の時系列データｘ（ｔ）が、８つの局所時系列データ３０１に区分された場合を示している。

（時系列データの区分けの例：その２）
図４は、局所時系列データ抽出部１０２による時系列データの区分けの別の例を示す図であり、センサ信号間の相関関係の変化の一例（連続的な変化）を示す説明図である。（ａ）と（ｂ）は、時系列データの例である。（ａ）をｙ（ｔ）、（ｂ）をｘ（ｔ）とする。（ｃ）は、ｙ（ｔ）とｘ（ｔ）との相関関係を示す時系列データの例である。（ｃ）の例では、相関関係を時系列データｙ（ｔ）とｘ（ｔ）を回帰分析した際の係数としてとらえており、時間の経過と共に少しずつ連続的に値が小さくなっている。設備の劣化などにより、設備の効率が少しずつ低下している場合には、このように連続的に値が変化する。例えば、ｙ（ｔ）を発熱量、ｘ（ｔ）を燃料投入量とすると、設備の劣化により、設備の効率が少しずつ低下していることを表している。局所時系列データ抽出部１０２は図４（ｃ）の５つの区間を、それぞれ局所時系列データ３０１とすることができる。

（時系列データの区分けの例：その３）
図５は、局所時系列データ抽出部１０２による時系列データの区分けの別の例を示す図であり、センサ信号間の相関関係の変化の一例（不連続な変化）を示す説明図である。（ａ）と（ｂ）は、時系列データの例である。各々、ｙ（ｔ）、ｘ（ｔ）とする。（ｃ）は、ｙ（ｔ）とｘ（ｔ）の相関関係を示す時系列データの例である。（ｃ）の例では、相関関係を時系列データｙ（ｔ）とｘ（ｔ）を回帰分析した際の係数としてとらえており、時間の経過と共に、値が不連続に二つの値をとっている。区間１、区間２、区間５は、高い値であり、区間３、区間４、区間６は低い値になっている。例えば、ｙ（ｔ）を発熱量、ｘ（ｔ）を燃料投入量とすると、燃料の種別により、設備の効率が異なる場合には、このような相関関係になる。区間１、区間２、区間５のグループと、区間３、区間４、区間６のグループでは、燃料の種別が異なり、前者のグループは、後者のグループに対して、同じ燃料量での発熱効率がよいことを表している。局所時系列データ抽出部１０２は、（ｃ）において、区間１，２、５からなる局所時系列データ３０１と、区間３，４、６からなる局所時系列データ３０１との二つの局所時系列データを区分けすることができる。

（時間で区分した時系列データを、さらに時系列データの値のレンジで区分する例）
図６は、局所時系列データ抽出部１０２による時系列データの区分けの別の例を示す図であり、センサ信号間の相関関係の変化の一例（値の区間への依存性）を示す説明図である。図６は、時間で区分した時系列データを、さらに時系列データの値のレンジで区分する場合を説明する。（ａ）と（ｂ）は、時系列データの例である。各々、ｙ（ｔ）、ｘ（ｔ）とする。（ｃ）は、ｙ（ｔ）とｘ（ｔ）の相関関係を示す時系列データの例である。（ｃ）の例では、相関関係を時系列データｙ（ｔ）とｘ（ｔ）とを回帰分析した際の係数としてとらえており、時間の経過に対して、相関値の変化傾向が変化している。区間１と区間３は、係数は一定の値であり、区間２では、係数がその一定の値の間を連続的に変化している。この相関関係の変化は、時刻に依存するのではなく、時系列データｘ（ｔ）の値への依存性を表していると解釈することができる。例えば、ｙ（ｔ）を発熱量、ｘ（ｔ）を燃料投入量とするとき、設備の制御システムにより、燃料を多く投入しても、ある一定の発熱量以上にはあがらないように制御されている場合には、このような挙動を示す。このような挙動を示すセンサ信号間の関係をとらえるためには、時系列データ（ｙ（ｔ）あるいはｘ（ｔ））を、値のレンジにより区分することが有効である。（ｄ）に、相関値の値の変動する点を、値ｙの区分として抽出した場合の、局所信号データを示す。（ｄ）では、時系列データｙを値の区分Ａ、区分Ｂ、および、区分Ｃに分割している。（ｄ）では、区間１、２、３がそれぞれ局所時系列データ３０１となる。このとき局所時系列データ抽出部１０２は、時間で区分した得た局所時系列データ３０１を、さらに時系列データの値（この例では（ａ）のｙ（ｔ）の値を採用している）のレンジで区分することで、区間２の局所時系列データ３０１については、局所時系列データ３０１を、さらに、区間２−１と区間２−２とのデータとに分けている。

（局所クラスタと大域クラスタ）
図７は、局所時系列データクラスタリングの一例を示す説明図である。図７は、局所時系列データモデル推定部１０３、局所時系列データクラスタリング部１０４、及び大域的時系列データモデル推定部１０５の処理結果を概念的に示す図である。図７のグラフは、縦軸を発熱量ｙ、横軸を燃料投入量ｘとする散布図である。
「散布図」とは、ある時刻の時系列データｘ（ｔ）とｙ（ｔ）の組を点＜ｘ（ｔ），ｙ（ｔ）＞として、２次元のグラフにマッピングしたものである。図５に示したような信号間の関係がある場合には、散布図上の時系列データの組は、クラスタ７０１とクラスタ７０２との二つのクラスタに分類できる。以下に図７を説明する。

図７では、クラスタとして小さなクラスタ７０３、７０４と、大きなクラスタ７０１、７０２とを示した。小さなクラスタ７０３、７０４等を局所クラスタ（局所時系列クラスタともいう）と呼び、大きなクラスタ７０１、７０２等を大域クラスタと呼ぶこととする。大域クラスタ７０１は、効率のよい燃料を使用した場合のｘとｙの値の組に対応している。大域クラスタ７０２は、効率のよくない燃料を使用した場合のｘとｙの値の組に対応している。大域クラスタ７０１は上昇傾向が頭打ちになっているが、大域クラスタ７０２は直線になっている。これは、図６に示したような信号間の関係がなりたつ例を示している。

局所クラスタ７０３、７０４の範囲（枠線）は、局所時系列データクラスタリング部１０４による局所時系列データ３０１のクラスタリングの結果得られたクラスタの例である。時間区分と値のレンジの区分で分割された局所時系列データ３０１に対応している。この局所時系列データ３０１において、回帰分析やＡＲモデル等により推定された回帰式（代表局所パラメータ）が各々回帰式７０５、７０６である。異常判定対象データ７０７、７０８は、異常判定対象の時系列データの例である。異常検知では、最も近い回帰式からの距離がある閾値以上であるものを異常と判定する。７０７は、最も近い回帰式７０４と近いため、正常と判定する。７０８は、最も近い回帰式７０４からある一定以上は離れているため、異常と判定する。

図８は、大域的時系列データモデルの推定の一例を示す説明図である。（ａ）の８０１、８０２、８０３、８０４は、局所時系列データ３０１の集合をクラスタリングすることにより得られた代表回帰式である。（ｂ）の８０９は、（ａ）の８０１、８０２、８０３、８０４を接続して得られる大域的な代表回帰式である。同様に、（ｂ）の８１０は、（ａ）の８０５、８０６、８０７、８０８を接続して得られる大域的な代表回帰式である。

（動作の説明）
以下、図９〜図２１のフロー図を用いて、本実施の形態１の動作を説明する。図９は、プラント異常検知装置の処理の全体の流れを説明するフロー図である。図１０は、局所時系列データクラスタリング部１０４の処理の流れを説明するフロー図である。図１１〜図２０は、図１０の処理説明を補足する図である。
図２１は、大域的時系列データモデル推定部１０５の処理の流れを説明するフロー図である。

（Ｓ９０１，Ｓ９０２：局所時系列データ抽出部１０２の処理）
Ｓ９０１は、局所時系列データ抽出部１０２が実行する局所時系列データ抽出処理である。Ｓ９０１では、複数の時系列データの組を入力として、入力データの時間的な変化の仕方に従って、入力データを区分する。入力区分を求める手順（所定の局所時系列データ生成規則）は、例えば、複数の入力データ中の一つを目的変数とし、それ以外を説明変数として、
（１）参考文献（河口至商著，多変量解析２ｐｐ．６０〜６４，森北出版）に記載の「区分的な回帰分析」や、
（２）参考文献（北川源四郎著，時系列解析入門，ｐｐ１１３−１２４，岩波書店）の局所定常ＡＲモデルを用いる。
（３）あるいは、初等的に、図３に示すように、時系列データを平滑化処理と時間差分処理を作用させた後に、閾値で区分を抽出してもよい。Ｓ９０２も局所時系列データ抽出部１０２が実行する処理である。

Ｓ９０２では、局所時系列データ抽出部１０２は、Ｓ９０１で得られた局所区分時系列データを、データの値のレンジでさらに区分することにより、新たな時系列データを抽出する処理である。具体的には、時間で区分された時系列データの集合

を入力として、区分として注目する変数ｙｉの区間の分割

により分割された時系列データの集合

を抽出する。
但し、（Ｔ_ｉｓ，，Ｔ_ｉｅ］は、Ｓ９０１で得られた区間区分とする。
以下では、Ｌ_ｋｉを局所時系列データ３０１として、局所時系列データＬ_ｋｉと呼ぶ。なお、以下では、Ｌ_ｋｉを局所時系列データと呼んで説明するが、データ区分を含まない時間範囲のみで分割したものも局所時系列データ（広義）である。

図１１を参照して、上記（式１）〜（式３）の意味を具体的に説明する。図１１は、時系列データｙ（ｔ）、時系列データｘ_１（ｔ）、時系列データｘ_２（ｔ）の３つの場合の例である。以下、時系列データｙ（ｔ）を単にｙ（ｔ）のように記載する場合もある。ｘ_１（ｔ）、ｘ_２（ｔ）と２つなので（式１）において「Ｍ＝２」である。（式１）は時間区分を示すｉに関する１〜ＮのＮ個の時系列データの集合を示すが、「ｉ＝１」の場合の（式１）の示す時系列データは、図１１のＴ_１ｓ，＜ｔ≦Ｔ_２ｅの範囲に含まれる
ｙ（ｔ）、ｘ_１（ｔ）、ｘ_２（ｔ）
である。
また（式２）のデータの値のレンジでの分割は、図１１のｙ（ｔ）の縦軸に関する、Ｙ１〜Ｙ２、Ｙ２〜Ｙ３のような分割を意味する。ｙ（ｔ）のＹ１〜Ｙ２の範囲は、（式３）におけるｋ＝１の場合に相当する。つまり（式３）において、
Ｙ１＜ｙ_ｉ＝１≦Ｙ２
の場合である。
（式３）においてｋ＝１、ｉ＝１の場合、つまりＬ_１１の例を以下に説明する。ｉ＝１の場合は図１１のＴ_１ｓ，＜ｔ≦Ｔ_２ｅの時間の帯（縦の帯）に含まれるｙ（ｔ）、ｘ_１（ｔ）、ｘ_２（ｔ）のグラフ部分が対応する。またｉ＝１の下でのｋ＝１の場合は、ｙ（ｔ）のグラフのうち、Ｙ１〜Ｙ２のデータ範囲に属する部分のｙ（ｔ）のグラフがＬ_１１に属する部分である。これを図１１のｙ（ｔ）の太線部分（時間範囲の両側のＹ左側、Ｙ右側）として示した。またＬ_１１に属するｘ_１（ｔ）、ｘ_２（ｔ）は、Ｌ_１１に属するｙ（ｔ）決まり、図１１ではそれぞれ、
ｘ_１左側、ｘ_１右側、ｘ_２左側、ｘ_２右側である。
同様にして、ｋ＝２、ｉ＝１の場合のＬ_２１は、図１１に示す斜線で示すグラフ部分である。

（Ｓ９０３：局所時系列データモデル推定部１０３の処理）
Ｓ９０３では、局所時系列データモデル推定部１０３（局所時系列データ回帰式生成部の一例）が、局所時系列データＬ_ｋｉを、多変量解析、または、時系列解析手法によりモデル推定する。「モデル推定」とは例えば、回帰式を求める処理である。例えば、Ｓ９０２でセンサ信号（注目変数ｙ）の値のレンジで分割した区間ｋ毎にＮ個存在する局所時系列データ３０１の要素である時系列データ

のすべてに対して、多変量解析、または、時系列データによりモデル推定する。
以下では、多変量解析の例として線形回帰分析を用いて説明するが、因子分析、特異値分解、ＡＲモデル、状態空間モデルなどでもよい。時系列データＬ_ｋｉ（ｔ）に対して回帰分析を実施すると、
回帰式ｙ（ｔ）＝Ｆ_ｋｉ（ｘ_１，ｘ_２，…，ｘ_Ｍ）と、残差の平方和Ｅ_ｋｉを得る。
以下では、（ｘ_１，ｘ_２，…，ｘ_Ｍ）をベクトルｘとして記載し、
Ｆ_ｋｉ（ｘ_１，ｘ_２，…，ｘ_Ｍ）をＦ_ｋｉ（ｘ）と記載する。
以下では、
時系列データＬ_ｋｉ（ｔ）、
ｙの区間（Ｙｋ，Ｙｋ＋１］、
回帰式Ｆ_ｋｉ（ｘ）、
残差の平方和Ｅ_ｋｉの
四つ組（Ｌ_ｋｉ（ｔ），（Ｙｋ，Ｙｋ＋１］，Ｆ_ｋｉ（ｘ），Ｅ_ｋｉ）を、
局所時系列データ３０１の集合Ｌ_ｋｉに対する局所構造Ｓ（Ｌ_ｋｉ）と呼ぶ。

（局所構造）
つまり、
局所構造Ｓ（Ｌ_ｋｉ）＝｛Ｌ_ｋｉ（ｔ），（Ｙｋ，Ｙｋ＋１］，Ｆ_ｋｉ（ｘ），Ｅ_ｋｉ｝
である。

図１２は、上記で述べた局所時系列データモデル推定部１０３の処理を概念的に示す。局所時系列データモデル推定部１０３は、局所時系列データ抽出部１０２の抽出した、ある（ｋ、ｉ）の一つの局所時系列データＬ_ｋｉに、Ｓ（Ｌ_ｋｉ）を対応させる。この場合、時間の区分数を示す「ｉ」は（式１）に示すように１〜ＮまでのＮ個である。また、注目変数ｙ（ｔ）（指定時系列データ）についてのデータ区分数を示すｋは１〜Ｋとする（（式２）においてｍ＝１〜Ｋに対応）。
つまり、ｉ＝１〜Ｎ、ｋ＝１〜Ｋ
であるので、局所時系列データＬ_ｋｉは「Ｎ×Ｋ」個できる。
よって、局所構造Ｓ（Ｌ_ｋｉ）も「Ｎ×Ｋ」個できる。図１３は、「Ｎ×Ｋ」個の局所構造Ｓ（Ｌ_ｋｉ）を概念的に示す。図１３は、横軸を時間の区分数「ｉ」、縦軸をデータ区分数「ｋ」とした。その場合、一つのセルが、あるＳ（Ｌ_ｋｉ）に対応する。

（Ｓ９０４：局所時系列データクラスタリング部１０４の動作）
Ｓ９０４は、局所時系列データクラスタリング部１０４が実行する局所データクラスタリング処理である。Ｓ９０４では、局所時系列データモデル推定部１０３が推定した局所時系列データモデルの集合（つまりＮ・Ｋ個のＳ（Ｌ_ｋｉ））をクラスタに分割すると共に、クラスタ毎にクラスタを代表する代表局所パラメータを推定する。
図１０は、局所時系列データクラスタリング部１０４が実行する、Ｓ９０４の処理の流れの詳細を示すフローチャートである。図１０の動作の主語は局所時系列データクラスタリング部１０４であるが、煩雑になるので省略する。Ｓ９０４は、Ｓ９０３により得られた局所構造
Ｓ（Ｌ_ｉ）＝（Ｌ_ｉ（ｔ），（Ｙｋ，Ｙｋ＋１］，Ｆ_ｉ（ｘ），Ｅ_ｉ）
の集合を入力とする。ただし、ｋ毎（データ区分ごと）に実行するので、簡潔さのために、Ｌ，Ｆ，Ｅの添え字ｋは省略して説明する。また、大文字のＮは、局所時系列データ（Ｌ_ｉ）の数とし（つまり、時間範囲の数）、上記のようにデータ区分数「ｉ」は、１からＮの値をとるとする。

このことを図１３で説明すれば、局所時系列データクラスタリング部１０４がｋ毎にＳ（Ｌ_ｉ）を実行するとは、例えば「ｋ＝２」とする場合、図１３の斜線部のデータである、Ｓ（Ｌ_１）〜Ｓ（Ｌ_Ｎ）を実行するという意味である。

（Ｓ１００１）
Ｓ１００１では、Ｓ_ｉの中から、最小のＥ_ｉをもつＳ_ｉを探す。最小のＥ_ｉをもつＳ_ｉはＳ_３であるとする。ｋ＝２とすれば、図１３において局所時系列データクラスタリング部１０４は、Ｓ_１〜Ｓ_Ｎの中から、最小のＥ_ｉをもつＳ_ｉを探す。
次に、代表局所パラメータの候補変数ｍ_１にＦ_ｉを代入する。この場合は、最小のＥ_ｉをもつＳ_３に属するＦ_３（回帰式）を代表局所パラメータの候補変数ｍ_１に代入する。
この場合、
ｍ_１＝Ｆ_３
である。
次に、変数ｃに１を代入する。
つまり
ｃ＝１
である。
なお、後述のＳ１００３で登場する局所クラスタ数の設定数を変数ｃとの区別するため「Ｃ＊」とする。

（Ｓ１００２）

ここで、ｄｉｓｔ_ｌｍ（Ｓ（Ｌ_ｉ），｛ｍ_１，・・ｍ_Ｃ＊｝）はＳ（Ｌ_ｉ）と｛ｍ_１，・・ｍ_Ｃ＊｝との距離を示し、また回帰式間の距離ｄｉｓｔ_ｒは、回帰式の係数をベクトルとみなした場合のベクトル間の距離とする。距離ｄｉｓｔ（Ｆ_ｉ（ｘ），ｍ_１）はＦ_ｉとｍ_１との距離であるが、予め設定された計算式に基づき算出する。なお回帰式Ｆ_ｉ（ｘ）は簡略化してＦ_ｉ（ｘ）とも表記する。図１４の「ｃ＝１」は、Ｓ１００１でｃ＝１となった場合の（式５）の意味を示している。
変数ｃ＝１の場合、
ｄｉｓｔ（Ｆ_１，ｍ_１）〜ｄｉｓｔ（Ｆ_Ｎ，ｍ_１）のＮ個の距離のなかから、最大の距離を探す。例えば、ｄｉｓｔ（Ｆ_５，ｍ_１）が最大とする（ｉ＝５）。
つまり、
ｍａｘ＝ｄｉｓｔ（Ｆ_５，ｍ_１）次に、ｍ_ｃ＋１に、Ｆ_ｉ（ｘ）を代入する。次に、ｃに、ｃ＋１を代入する。
この設例では、
ｍ_１＋１＝ｍ_２＝Ｆ_５，
ｃ＝１＋１＝２
となる。

（Ｓ１００３）
Ｓ１００３では、変数ｃが定数Ｃ＊に等しいかどうかを判定する。
但し、上述のように定数Ｃ＊は、局所クラスタ数を示す数として、あらかじめパラメータとして与えられているものとする。等しい場合は、Ｓ１００４に進む。等しくない場合は、Ｓ１００２に戻る。

この設例では、現在、ｃ＝２なのでＳ１００２に戻るとする。
Ｓ１００２に戻った状態では、
ｃ＝２、
ｍ_２＝Ｆ_５，
である。
また、Ｓ１００１より、
ｍ_１＝Ｆ_３，
である。
そして、最初のＳ１００２（ｃ＝１のとき）と同様に、（式５）に基づき、最大の距離を探す。
図１４の「ｃ＝２」は、Ｓ１００２でｃ＝２の場合の（式５）の意味を示している。
変数ｃ＝２の場合、
「ｄｉｓｔ（Ｆ_１，ｍ_１）＋（Ｆ_１，ｍ_２）」〜「ｄｉｓｔ（Ｆ_Ｎ，ｍ_１）＋（Ｆ_Ｎ，ｍ_２）」のＮ個の距離の中から最大の距離を探す。
後の動作は前回のＳ１００２と同じである。
そして、
ｃ＝Ｃ＊となると、処理はＳ１００４に進む。
この例では、ｃ＝２０（局所クラスタ数）となった場合である。

以上のＳ１００２、Ｓ１００３の処理でＣ＊個のｍが求まるが、これを以下では、
ｍｊ、ｊ＝１，２，・・・，Ｃ＊、
としている。

以下、後述するＤ_ｊ，ｊ＝１，２，・・・，Ｃ＊を、局所構造をクラスタリングすることにより得られたＣ＊個のクラスタとする。

（Ｓ１００４）
Ｓ１００４では、クラスタＤ_ｊの初期化処理を実施する。例えば、図１３（ｋ＝２）のＮ個のＬ_ｉ（Ｓ_ｉはＬ_ｉを要素に持つ）に対して、Ｃ＊個のｄｉｓｔ_ｌｍ（Ｌ_ｉ，ｍ_ｊ）（所定の距離定義式）が最小となるｍ_ｊを探す。
次に、クラスタＤ_ｊに、Ｌ_ｉを代入する。
図１５はこの処理を概念的に示す図である。
例えばＬ_１を考える。Ｌ_１と、ｍ_１〜ｍ_ｃ＊のそれぞれとの距離ｄｉｓｔ_ｌｍ（Ｌ_ｉ，ｍ_ｊ）を計算し、距離が最小となるｍ_ｊを探す。距離を求める式は、Ｓ１００２で用いたように回帰式の係数をベクトルとみなした場合のベクトル間の距離とする方式でもよいし、それ以外の式でもよい。
この場合の距離ｄｉｓｔ_ｌｍ（Ｌ_ｉ，ｍ_ｊ）は、
時系列データＬ_ｉと同一の局所構造Ｓ_ｉに所属する回帰式Ｆ_ｉを意味する。これは（式５）の距離式の場合と同様である。
つまり、
ｄｉｓｔ_ｌｍ（Ｌ_ｉ，ｍ_ｊ）＝ｄｉｓｔ_ｌｍ（Ｆ_ｉ，ｍ_ｊ）
であり、Ｆ_ｉ，ｍ_ｊとも回帰式であるから、回帰式どうしの距離が求まる。
ただし、クラスタリングの対象は時系列データであるのでＬ_ｉを用いて表現している。
例えば、Ｌ_１（Ｆ_１）はｍ_１との距離が最小であったとすると、時系列データＬ_１はクラスタＤ_１に所属する。
同様に、図１５のようにＬ_２（Ｆ_２）もｍ_１との距離が最小であったとすると、時系列データＬ_２もクラスタＤ_１に所属する。
同様に、Ｌ_３（Ｆ_３）はｍ_２との距離が最小であったとすると、時系列データＬ_３はクラスタＤ_２に所属する。
以下、Ｌ_４〜Ｌ_Ｎまで同様である。
以上のＳ１００４の処理によって、Ｌ_１〜Ｌ_ＮはＤ_１〜Ｄ_ｃ＊のいずれかのクラスタＤ_ｊに所属することになる。

（Ｓ１００５）
Ｓ１００５以降（Ｓ１００５，Ｓ１００６、Ｓ１００４のループ）は、Ｓ１００３→Ｓ１００４で設定された初期クラスタをもとに、局所時系列データＬｉ（ｉ＝１〜Ｎ）を再クラスタリングする処理である。Ｓ１００５では、Ｃ＊個のＤ_ｊに対して、あるｊであるクラスタＤ_ｊに属する局所時系列データＬ_ｊｋ（この例ではｋ＝２）の和集合∪Ｌ_ｊｋ∈Ｄ_ｊに対して、回帰分析する。この回帰分析により、そのクラスタＤ_ｊの回帰式Ｆ_ｊ（ｘ）を求める。
次に、そのクラスタＤ_ｊの代表回帰式の候補ｍ_ｊに、求めた回帰式Ｆ_ｊ（ｘ）を代入する。
図１６はＳ１００５の処理を概念化した図であり、再クラスタリング規則を示している。
最初のＳ１００４の処理が終わった段階で、
クラスタＤ_１には局所時系列データＬ_１、Ｌ_２が所属し、
クラスタＤ_２には局所時系列データＬ_３〜Ｌ_５が所属し、
・・・とする。
その場合、
クラスタＤ_１については、和集合Ｌ_１∪Ｌ_２に対して回帰式Ｆ_ｊ＝１を求め、
クラスタＤ_２については、和集合Ｌ_１∪Ｌ_２∪Ｌ_３に対して回帰式Ｆ_ｊ＝２を求める。他のクラスタに関しても同様である。
この処理によって、クラスタＤ_１〜Ｄ_Ｃ＊のＣ＊個の各クラスタに回帰式が定まる。
このＣ＊個の回帰式を、図１５（Ｓ１００２，Ｓ１００３）で求めたｍ_１〜ｍ_Ｃ＊に対して、新たなｍ_１〜ｍ_Ｃ＊とする。

Ｓ１００６では、「Ｃ＊個のｍ_ｉのすべてに変化がない」かどうかを判定する。
最初のＳ１００６では、前回の「ｍ_１〜ｍ_Ｃ＊」はＳ１００２、Ｓ１００３のループで作成された、いわゆる初期値である。よって、通常、最初のＳ１００５で求めた「ｍ_１〜ｍ_Ｃ＊」との間に変化がある。
変化がある場合は、Ｓ１００４に戻る。
変化がない場合は、終了する。
終了した際のＤ_１，Ｄ_２，…，Ｄ_Ｃ＊のＣ＊個のクラスタが、局所時系列クラスタである。終了時点での「ｍ_１〜ｍ_Ｃ＊」を大文字を用いて「Ｍ_１，Ｍ_２，…，Ｍ_Ｃ＊」と記載するが、これらが局所時系列クラスタ「Ｄ_１〜Ｄ_Ｃ＊」のそれぞれの代表局所パラメータである。

(複数回目のＳ１００４)
最初のＳ１００６からＳ１００４に戻った場合を説明する。図１７は、２回目（３回目以上も同様）の処理を示す概念図である。２回目が最初のＳ１００４と異なるのは、「ｍ_１〜ｍ_Ｃ＊」が、Ｓ１００５で求められた「新たなｍ_１〜ｍ_Ｃ＊」になっている点のみある。つまり、複数回目のＳ１００４では、直前のＳ１００５で求められた「新たなｍ_１〜ｍ_Ｃ＊」を使用し、「Ｌ_１〜Ｌ_Ｎ」のクラスタリングのやり直しを行う。つまり新たな「新たなｍ_１〜ｍ_Ｃ＊」を使用し、「Ｌ_１〜Ｌ_Ｎ」の再クラスタリングを行う。

図１０はｋ毎の処理であるので、ｋ＝２、ｋ＝３のような順に実行された場合、図１８に示すように、ｋ＝２についてＳ_ｉ（ｉ：１〜Ｎ）が処理され、次にｋ＝３についてＳ_ｉ（ｉ：１〜Ｎ）が処理される。したがって図１８に示すように、ｋ＝２について局所クラスタＤ_１〜Ｄ_Ｃ＊が決まり、ｋ＝３について局所クラスタＤ_１〜Ｄ_Ｃ＊が決まる。よって、１〜Ｋについて実行すれば、図１９に示すように、１〜Ｋのそれぞれに、局所クラスタＤ_１〜Ｄ_Ｃ＊が決まる。そして局所クラスタＤ_１〜Ｄ_Ｃ＊のそれぞれについて代表局所パラメータが定まっている。これを図示したものが図７であり、クラスタ７０３、７０４等が局所クラスタを示す。また、回帰式７０５，７０６が各局所クラスタの代表局所パラメータである。図１９のｋ違いの場合は、図７において、ｋごとの局所クラスタ、代表局所パラメータとして表示されるが、図７にはｋ違いは表現していない。

（外れ値検出部１０６）
外れ値検出部１０６は、図７に示す局所クラスタ、代表局所パラメータを対象として、別途与えられた区分データが外れ値に該当するかどうかを判定する。即ち、外れ値検出部１０６は、局所時系列データクラスタリング部１０４が決定した代表局所パラメータに基づき、評価対象として別途与えられた評価対象データであって、局所時系列データの生成の元になる種類の異なる複数の時系列データと種類を同じくする複数の時系列データの組からなる所定期間の評価対象データに対して、距離として定義された値が、いずれかの代表局所パラメータとの間で閾値を超えるかどうかを検出する。外れ値検出部１０６は、閾値を超えた場合、その評価対象データ（図７で異常と判定されたで異常判定対象データ７０８）を外れ値と判定する。

なお、以上の局所クラスタリング（図１０）の説明では注目変数をｙとし、データ区分を考慮した場合を説明したが、データ区分を反映することは必須ではない。データ区分を反映しない場合（広義の局所時系列データ）は、例えば図１３、図１９等でｋ＝１のみの場合に対応する。

なお、Ｓ１００１、Ｓ１００２、Ｓ１００３は、局所時系列データクラスタリングの初期クラスタを設定する方法（初期クラスタ分割規則）の一例を示している。この初期クラスタの選択方法は、ランダムに選択するなど、クラスタリングの既知の選択方法に置き換えてもよい。

図２０、及び図１０のフローチャートを参照してランダムに選択する場合を説明する。
初期クラスタをＤ_ｊ ^（０）（ｊ＝１〜Ｃ＊）と表記する。
図１０ではｋ＝２とする。
説明の単純化のため、局所時系列データＬ_iは１０個とし、
局所クラスタの設定数Ｃ＊は、３とする。
ランダムに選択する場合、局所時系列データクラスタリング部１０４は、
局所時系列データＬ₁〜Ｌ_１０を、たとえば次のように初期クラスタに分割する（Ｓ０１，Ｓ０２）。
Ｄ_１ ^（０）＝Ｌ₁〜Ｌ_３、
Ｄ_２ ^（０）＝Ｌ_４〜Ｌ_６、
Ｄ_３ ^（０）＝Ｌ_７〜Ｌ_１０。
これは、図１０のＳ１００４（１回目）の処理が終了した状態である。
つぎに、Ｓ１００５（１回目）でＤ_１ ^（０）〜Ｄ_３ ^（０）の回帰式を求め、これを
「ｍ_１ ^（１）〜ｍ_３ ^（１）」（代表情報である第１回帰式）とする（Ｓ０２）。
次にＳ１００４（２回目）で各Ｌ_ｉとの距離がＳ１００４の定義式（所定の距離定義式）に基づき最小となるｍ_ｊ ^（１）を特定する（Ｓ０３）。
そして、Ｓ１００５（２回目）で、特定したｍ_ｊ ^（１）（第１回帰式）を同じくする「時系列データ回帰式（Ｓ（Ｌ_ｋｉ）に属するＦ（ｘ））」の元になる局所時系列データから構成されるクラスタである第１クラスタＤ_１ ^（１）〜Ｄ_３ ^（１）を、ｍ_１ ^（１）〜ｍ_３ ^（１）に対応させて生成する。
Ｄ_１ ^（１）＝Ｌ_２〜Ｌ_４、
Ｄ_２ ^（１）＝Ｌ_５〜Ｌ_７、
Ｄ_３ ^（１）＝Ｌ_８〜Ｌ_１０、Ｌ_１、
とする。
そして、第１クラスタＤ_１ ^（１）〜Ｄ_３ ^（１）に対して回帰分析を実施することにより第１クラスタＤ_１ ^（１）〜Ｄ_３ ^（１）ごとにｍ_１ ^（２）〜ｍ_３ ^（２）（代表情報である第２回帰式）を生成する（Ｓ０４）。
そして、Ｓ１００６において、今回生成のｍ_１ ^（２）〜ｍ_３ ^（２）が前回生成のｍ_１ ^（１）〜ｍ_３ ^（１）に対して変化があるかどうかを判定する。変化がなければ処理は終了し、変化があればＳ１００４（３回目）に進む。
Ｓ１００４（３回目）では、各Ｌ_ｉについてｍ_１ ^（２）〜ｍ_３ ^（２）との距離がＳ１００４の定義式に基づき最小となるｍ_ｊ ^（２）を特定する（Ｓ０５）。
そして、Ｓ１００５（３回目）で、特定したｍ_ｊ ^（２）（第１回帰式）を同じくする「時系列データ回帰式（Ｓ（Ｌ_ｋｉ）に属するＦ（ｘ））」の元になる局所時系列データから構成されるクラスタである第２クラスタＤ_１ ^（２）〜Ｄ_３ ^（２）を、ｍ_１ ^（２）〜ｍ_３ ^（２）に対応させて生成する。
Ｄ_１ ^（２）＝Ｌ_３〜Ｌ_５、
Ｄ_２ ^（２）＝Ｌ_６〜Ｌ_８、
Ｄ_３ ^（２）＝Ｌ_９〜Ｌ_１０、Ｌ_１〜Ｌ_２、
とする。
そして、
第２クラスタＤ_１ ^（２）〜Ｄ_３ ^（２）に対して回帰分析を実施することにより第２クラスタＤ_１ ^（２）〜Ｄ_３ ^（２）ごとにｍ_１ ^（３）〜ｍ_３ ^（３）（代表情報である第３回帰式）を生成する（Ｓ０６）。
そして、Ｓ１００６において、今回生成のｍ_１ ^（３）〜ｍ_３ ^（３）が前回生成のｍ_１ ^（２）〜ｍ_３ ^（２）に対して変化があるかどうかを判定する。変化がなければ処理は終了し、
変化があればＳ１００４（４回目）に進む。
Ｓ１００４（４回目）を経て（Ｓ０７）、Ｓ１００５（４回目）では、上記と同様にして、今回のｍ_１ ^（４）〜ｍ_３ ^（４）が生成される（Ｓ０８）。
そして、Ｓ１００６において、今回生成のｍ_１ ^（４）〜ｍ_３ ^（４）が前回生成のｍ_１ ^（３）〜ｍ_３ ^（３）に対して変化がなければ処理は終了するが、ｍ_１ ^（４）〜ｍ_３ ^（４）は前回生成のｍ_１ ^（３）〜ｍ_３ ^（３）に対して変化がないとする。この場合、処理は終了する。
この場合、処理が終了した時点の第３クラスタＤ_１ ^（３）〜Ｄ_３ ^（３）が局所クラスタであり、
ｍ_１ ^（４）〜ｍ_３ ^（４）が各局所クラスタを代表する代表局所パラメータ（局所クラスタ代表情報）である。

図１０のＳ１００１、Ｓ１００２、Ｓ１００３、Ｓ１００４、Ｓ１００５は、回帰式を生成する回帰式生成処理であり、Ｓ１００６は、新たな回帰式を生成するたびに前回生成した回帰式から変化があるかどうかを判定し、変化があるときには次の新たな回帰式の回帰式生成処理を継続し、変化がないときには次の新たな回帰式の回帰式生成処理を継続することなく、回帰式生成処理を終了する判定処理である。

また、Ｓ１００２におけるｄｉｓｔ_ｌｍ（Ｓ（Ｌ_ｉ），｛ｍ_１，…，ｍ_Ｃ｝の定義も一例を示している。この距離では、クラスタリング分野でいう誤差２乗和基準を用いたが、最小分散、散布基準、トレース基準、行列式基準、不変量基準などを用いてもよい（参考文献：ＲｉｃｈａｒｄＯ．Ｄｕｄａ他著、尾上守夫監訳，パターン識別，ｐｐ．５４３−５４８，株式会社新技術コミュニケーション）。

（Ｓ９０５：大域的時系列データモデル推定部１０５の動作）
Ｓ９０５は、大域的時系列データモデル推定部１０５が実行する大域的データモデル推定である。Ｓ９０５では、局所時系列データクラスタリング部１０４が推定したモデルを接続することにより大域的な代表時系列データモデルを推定する。
図２１は、Ｓ９０５の処理の流れの詳細を示すフローチャートである。

Ｓ１１０１で、大域的時系列データ候補の初期集合Ｇを作り、Ｓ１１０２以降で集合の要素を併合しながら、最終的な大域的データ推定モデルを得る。Ｓ１１０１は、局所時系列データクラスタリングの結果得られるクラスタＤｉを順に取り出し、大域的時系列データ候補の初期集合Ｇを作る。初期集合Ｇは、Ｓ９０４の処理により得られたクラスタＤｉの局所構造Ｓ（Ｄｉ）の
集合｛Ｓ（Ｄ_１），Ｓ（Ｄ_２），…，Ｓ（Ｄ_Ｎ）｝
とする。
局所時系列データクラスタは、Ｙの区間ｌ毎にＣ_ｌ個あり、
全部でＮ＝ΣＣ_ｌ個ある。以下では、Ｓ（Ｄｉ）は、クラスタ併合後の局所構造を表現できるように、
目的変数の区間（ｙ_ｉｓ，ｙ_ｉｅ］、
クラスタの代表回帰式Ｆｉｋ（ｘ）の集合、
残差の平方和Ｅｉｌ、
局所時系列データＬｉ、
Ｌｉが定義されている時間区間Ｔｉｌの
５つ組（（ｙ_ｉｓ，ｙ_ｉｅ］，｛Ｆｉｋ（ｘ）｝，｛Ｅｉｋ｝，Ｌｉ，｛Ｔｉｌ｝）とする。
ここで、目的変数の区間
（ｙ_ｉｓ，ｙ_ｉｅ］は、
ｙ_ｉｓ＜ｙ≦ｙ_ｉｅを示している。

Ｓ１１０２では、大域的時系列推定処理における接続処理を終了するかどうかを判定する。接続処理は、目的変数の区分が隣り合っており、かつ、クラスタの要素である局所時系列データ３０１の時間区間と代表回帰関数が近い組み合わせを含むという条件を満たす場合に、実行する。

例えば、集合Ｇのすべての要素Ｄｉ，Ｄｊの組に対して、
条件Ｄｉｓｔ（Ｓ（Ｄｉ），Ｓ（Ｄｊ））＜δ
を満たすかどうかを判定する。条件を満たす場合には、Ｓ１１０５に進む。条件を満たさない場合は、Ｓ１１０３に進む。
ここで、
Ｄｉｓｔ（Ｓ（Ｄｉ），Ｓ（Ｄｊ））は、例えば、以下で定義する。

但し、｜｜ｘ｜｜は、ユークリッド距離とする。Ｓ（Ｄｉ）には、複数の局所構造をもつので、代表回帰式Ｆｉｋは複数存在するので、Ｓ（Ｄｉ）とＳ（Ｄｊ）では、すべてｉｋとｊｌの組を比較した際の最小値をとるように定義する。

Ｓ１１０３では、大域的時系列推定処理における併合処理を実行する。例えば、集合ＧのすべてのＤｉ，Ｄｊの組に対して、Ｄｉｓｔ（Ｓ（Ｄｉ），Ｓ（Ｄｊ））が最小となるＤｉ，Ｄｊを求める。

Ｓ１１０４では、大域的時系列データの候補集合Ｇを更新する。集合Ｇから、Ｓ（Ｄｉ）とＳ（Ｄｊ）を削除し、Ｓ（Ｄｉ＋Ｄｊ）を追加する。但し、Ｓ（Ｄｉ＋Ｄｊ）は、例えば、下記で定義する。

Ｄｉｓｔ（Ｓ（Ｄｉ），Ｓ（Ｄｊ））がｙ_ｉｅ＝ｙ_ｊｓ
の場合にしか定義されないので、併合後のｙの区間は連続した一つの区間
（ｙ_ｉｓ，ｙ_ｊｅ］になる。

Ｓ１１０５では、集合ＧのすべてのＤｉに対して、区分的な回帰分析を実施する。このときの区分数は、自由に選択してもよいし、クラスタＤｉの構成要素となるＧ初期化時のクラスタ数（すなわち、Ｓ（Ｄｉ）に含まれる代表回帰式の数に等しい）としてもよい。Ｓ１１０５で得られた区分的な回帰式が、推定された大域的な時系列データモデルである。

（Ｓ９０６：外れ値検出部１０６の動作）
Ｓ９０６は、外れ値検出部１０６が実行する外れ値検出処理である。別途与えられた区分データに対して、大域的時系列データモデル推定部１０５により得られた代表局所時系列データモデルの集合における外れ値が大きいものを異常として検出する。

以上のように、実施の形態１のプラント異常検知装置１００では、時間やセンサ信号の値で区分された局所時系列データの集合をクラスタリングするＳ９０４の処理により、頻度の少ない局所時系列データは代表局所パラメータにはあまり影響されてないため、収集したデータ中に、設備の劣化に起因するデータのばらつきや、異常となる直前のデータが混入している場合でも、それらの頻度が少ない場合には、異常検知の精度低下を防ぐ効果が得られる。
また、Ｓ９０４で得られた局所時系列データクラスタリング部１０４が推定したモデルを接続することにより大域的な代表時系列データモデルを生成することで、センサ信号間の大域的な関係式を求めることができるようになる。したがって、この大域的な関係グラフからの偏差により異常と判定したことをユーザに示すことで、異常判断の根拠の説明をわかりやすく説明することができるようになる。
この大域的な関係式を求める処理は、図８に示すように、信号間の関係があらかじめ不明である非線形な関係にある場合でも、局所的に線形で表現された関係を接続しているので、大域的な関係式を求めることができるという効果も持つ。

（１）本実施の形態のプラント異常検出装置は、時間区分に分割して得られた軌跡区分をクラスタリングすることにより、軌跡区分の中で頻度が多いという意味で代表的な軌跡区分を抽出する。これにより、まれにしか生じない軌跡区分の影響を小さくすることにより、異常検知の精度を向上させることができる。
（２）また、大域的時系列データモデル推定部１０５が、上記の代表的な軌跡区分を接続することにより、大域的な代表的な軌跡を生成する。従って、センサ信号間の大域的な関係グラフを求め、この大域的な関係グラフからの偏差により異常と判定したことをユーザに示すことができるため、異常判断の根拠の説明をユーザにわかりやすく説明することができる。

実施の形態２．
図２２、図２３を参照して実施の形態４を説明する。実施の形態２は、コンピュータであるプラント異常検知装置１００のハードウェア構成を説明する。図２２は、コンピュータであるプラント異常検知装置１００の外観の一例を示す図である。図２３は、実施の形態１で述べたＣＰＵ割当時間管理装置１０００のハードウェア資源の一例を示す図である。

外観を示す図２２において、プラント異常検知装置１００は、システムユニット８３０、ＣＲＴ（Ｃａｔｈｏｄｅ・Ｒａｙ・Ｔｕｂｅ）やＬＣＤ（液晶）の表示画面を有する表示装置８１３、キーボード８１４（Ｋｅｙ・Ｂｏａｒｄ：Ｋ／Ｂ）、マウス８１５、コンパクトディスク装置８１８（ＣＤＤ：ＣｏｍｐａｃｔＤｉｓｋＤｒｉｖｅ）などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。システムユニット８３０はネットワークに接続している。

またハードウェア資源を示す図２３において、プラント異常検知装置１００は、プログラムを実行するＣＰＵ８１０（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備えている。ＣＰＵ８１０は、バス８２５を介してＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８１２、表示装置８１３、キーボード８１４、マウス８１５、通信ボード８１６、ＣＤＤ８１８、磁気ディスク装置８２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置８２０の代わりに、光ディスク装置、フラッシュメモリなどの記憶装置でもよい。

ＲＡＭ８１２は、揮発性メモリの一例である。ＲＯＭ８１１、ＣＤＤ８１８、磁気ディスク装置８２０等の記憶媒体は、不揮発性メモリの一例である。これらは、「記憶装置」あるいは記憶部、格納部、バッファの一例である。通信ボード８１６、キーボード８１４などは、入力部、入力装置の一例である。また、通信ボード８１６、表示装置８１３などは、出力部、出力装置の一例である。通信ボード８１６は、ネットワークに接続されている。

磁気ディスク装置８２０には、オペレーティングシステム８２１（ＯＳ）、ウィンドウシステム８２２、プログラム群８２３、ファイル群８２４が記憶されている。プログラム群８２３のプログラムは、ＣＰＵ８１０、オペレーティングシステム８２１、ウィンドウシステム８２２により実行される。

上記ＯＳ８２１，プログラム群８２３には、以上の実施の形態の説明において「〜部」として説明した機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ８１０により読み出され実行される。

ファイル群８２４には、以上の実施の形態の説明において、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明した情報や、データや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」（例えばプラント時系列データベース１０１）は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ８１０によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。

また、以上に述べた実施の形態の説明において、データや信号値は、ＲＡＭ８１２のメモリ、ＣＤＤ８１８のコンパクトディスク、磁気ディスク装置８２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｋ）等の記録媒体に記録される。また、データや信号は、バス８２５や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、以上の実施の形態の説明において、「〜部」として説明したものは、「〜手段」、であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明したものは、ソフトウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ８１０により読み出され、ＣＰＵ８１０により実行される。すなわち、プログラムは、以上に述べた「〜部」としてコンピュータを機能させるものである。あるいは、以上に述べた「〜部」の手順や方法をコンピュータに実行させるものである。

以上の実施の形態では、プラント異常検知装置１００を説明したが、プラント異常検知装置１００の動作を、コンピュータに実行させるためのプログラムとしても把握できることは以上の説明から当然である。また、以上の実施の形態で説明したプラント異常検知装置１００の動作を、プラント異常検知装置１００の各部が行う検出方法、検知方法と把握することも可能である。

以上の実施の形態では、
時間の経過に従って順次観測して得た複数の時系列データの組を入力データとして、入力データの時間的な変化の仕方に従って、前記入力データを時間で区分することにより、時間で区分された時系列データを抽出する局所時系列データ抽出部と、
前記の区分されたデータを、多変量解析、または、時系列解析手法によりモデル推定する局所時系列データモデル推定部と、
前記により推定された局所時系列データのモデルの集合をクラスタに分割すると共に、クラスタ毎にクラスタを代表する代表局所パラメータを推定する局所時系列データクラスタリング部と、
別途与えられた区分データに対して、前記により得られた代表局所時系列データモデルの集合における外れ値が大きいものを異常として検出する外れ値検出部
とを有するプラント異常検知装置を説明した。

以上の実施の形態では、
時間で区分された時系列データを、さらに、時系列データの値のレンジで区分することにより得られる時系列データを抽出することを特徴とする局所時系列データ抽出部を備えたプラント異常検知装置を説明した。

以上の実施の形態では、
代表局所時系列データの推定モデルを接続することにより得られる大域的な代表時系列データの候補を生成する大域的時系列データモデル推定部を備えたこプラント異常検知装置を説明した。

１００プラント異常検知装置、１０１プラント時系列データベース、１０２局所時系列データ抽出部、１０３局所時系列データモデル推定部、１０４局所時系列データクラスタリング部、１０５大域的時系列データモデル推定部、１０６外れ値検出部、３０１局所時系列データ、７０１クラスタ、７０２クラスタ、７０３クラスタ、７０４クラスタ、７０５回帰式（代表局所パラメータ）、７０６回帰式（代表局所パラメータ）、７０７，７０８異常判定対象データ、９０１，９０２局所時系列データの対応範囲。

Claims

種類の異なる複数の時系列データから、第１時間範囲から第Ｎ時間範囲の異なるＮ個（Ｎは２以上の整数）の時間範囲ごとにその時間範囲に属する時系列データを抽出し、その時間範囲における複数の時系列データの組からなるＮ個の局所時系列データを生成する局所時系列データ抽出部と、
前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを、初期クラスタ分割の規則として予め設定された初期クラスタ分割規則に従って、予め設定された初期クラスタ数の初期クラスタに分割し、分割した初期クラスタごとに初期クラスタの特性を指標する代表情報を生成し、生成した代表情報ごとにＮ個の局所時系列データを再クラスタリングの規則として予め設定された再クラスタリング規則に従って分配することによりＮ個の局所時系列データをクラスタに分割する再クラスタリングを実行し、再クラスタリングしたクラスタごとに代表情報を再生成し、再生成した代表情報ごとに前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを再クラスタリングし、
以降同様に、
Ｎ個の局所時系列データの再クラスタリングと、代表情報の再生成とを繰り返すと共に、代表情報を再生成するたびに、今回生成した代表情報が直前に生成した代表情報に対して変化があるかどうかを判定し、変化があるときには次回の代表情報の再生成処理を継続し、変化がないときには次回の代表情報の再生成処理を継続することなくＮ個の局所時系列データの再クラスタリングと代表情報の再生成との処理を終了する局所時系データクラスタリング部と
を備えたクラスタリング装置。
前記クラスタリング装置は、
前記局所時系列データ抽出部が生成したＮ個の局所時系列データに対応する回帰式である局所時系列データ回帰式をＮ個の局所時系列データごとに生成する局所時系列データ回帰式生成部を備え、
前記局所時系データクラスタリング部は、
分割した各初期クラスタに所属する局所時系列データの和集合に対して回帰分析を実施することにより初期クラスタごとに代表情報として第１回帰式を生成し、Ｎ個の局所時系列データのそれぞれの時系列データ回帰式に対して初期クラスタごとに生成したそれぞれの第１回帰式のうち再クラスタリング規則である所定の距離定義式に従って計算した距離が最短になる第１回帰式を特定し、特定した第１回帰式を同じくする時系列データ回帰式の元になる局所時系列データから構成されるクラスタである第１クラスタを、互いに異なる第１回帰式に対応させて生成することで再クラスタリングし、各第１クラスタに所属する局所時系列データの和集合に対して回帰分析を実施することにより第１クラスタごとに代表情報である第２回帰式を生成する回帰式生成処理を実行し、
以下同様にして、
Ｎ個の局所時系列データのそれぞれの時系列データ回帰式に対して第ｐクラスタ（ｐは１以上の整数）ごとに生成した代表情報であるそれぞれの第ｐ＋１回帰式のうち前記所定の距離定義式に従って計算した距離が最短になる第ｐ＋１回帰式を特定し、特定された第ｐ＋１回帰式を同じくする時系列データ回帰式の元になる局所時系列データから構成されるクラスタである第ｐ＋１クラスタを、互いに異なる第ｐ＋１回帰式ごとに対応させて生成することで再クラスタリングし、各第ｐ＋１クラスタに所属する局所時系列データの和集合に対して回帰分析を実施することにより第ｐ＋１クラスタごとに代表情報である第ｐ＋２回帰式を生成する回帰式生成処理を実行すると共に、
新たな第ｐ＋１回帰式を生成するたびに前回生成した第ｐ回帰式から変化があるかどうかを判定し、変化があるときには次の新たな第ｐ＋２回帰式の回帰式生成処理を継続し、変化がないときには次の新たな第ｐ＋２回帰式の回帰式生成処理を継続することなく、回帰式生成処理を終了する判定処理を実行することを特徴とする請求項１記載のクラスタリング装置。
前記局所時系列データ抽出部は、
種類の異なる複数の時系列データのうち予め指定されている指定時系列データのデータ値の範囲を、第１データ範囲から第Ｋ個データ範囲（Ｋは２以上の整数）の異なるＫ個のデータ範囲に区分し、区分したＫ個のデータ範囲ごとに、所定の局所時系列データ生成規則を用いてＮ個の局所時系列データを生成し、
前記局所時系列データ回帰式生成部は、
前記局所時系列データ抽出部が、区分されたＫ個のデータ範囲ごとに生成した総数Ｋ×Ｎの個数の局所時系列データに対応する局所時系列データ回帰式をＫ×Ｎの個数の局所時系列データごとに生成し、
前記局所時系データクラスタリング部は、
前記局所時系列データ抽出部が区分したＫ個のデータ範囲ごとに、回帰式生成処理と判定処理とを、前記局所時系列データ抽出部が生成したデータ範囲に対応する局所時系列データと、前記局所時系列データ回帰式生成部が生成した局所時系列データ回帰式であって前記局所時系列データ抽出部が生成したデータ範囲を局所時系列データと同じくする局所時系列データ回帰式とを用いて実行することを特徴とする請求項２記載のクラスタリング装置。
前記局所時系列データクラスタリング部は、
判定処理において回帰式生成処理を終了すると判定したときは、最後に生成した回帰式の生成の元になるクラスタを局所クラスタと決定し、決定した局所クラスタに対応する回帰式を、そのクラスタを代表する局所クラスタ代表情報と決定することを特徴とする請求項２または３のいずれかに記載のクラスタリング装置。
前記クラスタリング装置は、
前記局所時系列データクラスタリング部が決定した局所クラスタ代表情報に基づき、評価対象として別途与えられた評価対象データであって、局所時系列データの生成の元になる種類の異なる複数の時系列データと種類を同じくする複数の時系列データの組からなる所定期間の評価対象データに対して、距離として定義された値がいずれかの局所クラスタ代表情報との間で閾値を超えるかどうかを検出する外れ値検出部を備えたことを特徴とする請求項２〜４のいずれかに記載のクラスタリング装置。
コンピュータを、
種類の異なる複数の時系列データから、第１時間範囲から第Ｎ時間範囲の異なるＮ個（Ｎは２以上の整数）の時間範囲ごとにその時間範囲に属する時系列データを抽出し、その時間範囲における複数の時系列データの組からなるＮ個の局所時系列データを生成する局所時系列データ抽出部、
前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを、初期クラスタ分割の規則として予め設定された初期クラスタ分割規則に従って、予め設定された初期クラスタ数の初期クラスタに分割し、分割した初期クラスタごとに初期クラスタの特性を指標する代表情報を生成し、生成した代表情報ごとにＮ個の局所時系列データを再クラスタリングの規則として予め設定された再クラスタリング規則に従って分配することにより、Ｎ個の局所時系列データをクラスタに分割する再クラスタリングを実行し、再クラスタリングしたクラスタごとに代表情報を再生成し、再生成した代表情報ごとに前記局所時系列データ抽出部が抽出したＮ個の局所時系列データを再クラスタリングし、
以降同様に、
Ｎ個の局所時系列データの再クラスタリングと、代表情報の再生成とを繰り返すと共に、
代表情報を再生成するたびに、今回生成した代表情報が直前に生成した代表情報に対して変化があるかどうかを判定し、変化があるときには次回の代表情報の再生成処理を継続し、変化がないときには次回の代表情報の再生成処理を継続することなくＮ個の局所時系列データの再クラスタリングと、代表情報の再生成との処理を終了する局所時系データクラスタリング部、
として機能させるためのクラスタリングプログラム。