JP5715261B2

JP5715261B2 - 時系列データ管理システム，および方法

Info

Publication number: JP5715261B2
Application number: JP2013537307A
Authority: JP
Inventors: 啓朗室; 室　　啓朗; 勲軽部; 西澤　格; 格西澤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2011-10-04
Filing date: 2011-10-04
Publication date: 2015-05-07
Anticipated expiration: 2031-10-04
Also published as: JPWO2013051101A1; WO2013051101A1

Description

観測値時系列データから異常予兆や異常原因を推測する予防保全システム，特に装置に配備された多数のセンサからの観測値時系列データの管理・解析技術に関する。

プラント保全システムの実装形態として，環境に配備された多数のセンサからの観測値時系列データを収集し，履歴として管理する時系列データ管理システムや，時系列データ管理システム上で構築され，管理された時系列データを解析し，異常予兆の検知や異常原因の推定を行う時系列データ解析システムが存在する。

大量の時系列データを管理するために時系列データ管理システムが備えるべき機能として，時系列を可逆ないし非可逆圧縮してデータ量を削減する機能，時系列データを複数のストレージやサーバに分散管理する機能，重要度の低い時系列データを低コストのバックアップストレージやクラウドシステムへ転送する，時間方向のまびき等の精度低減操作を行い，データ量を削減する，過去の不要な時系列データを削除する，などのLCM(Life Cycle Management)機能が提案されている。時系列データの性質を利用した圧縮方式としては，合同な時系列パタンを辞書化して可逆圧縮するLZW（Lempel-Ziv-Welch）圧縮方式，時系列をDCT(Discrete Cosine Transform)ないしWavelet変換を行った結果の高周波成分を除去することによるJPEGやJPEG2000非可逆圧縮方式が提案されている。

また，時系列データ解析システムは，時系列データをあらかじめ与えられた判定規則を用いて評価することにより異常を検知する，あるいは異常原因を判定するなど何らかの判定を行う時系列データ判定システムと，時系列データから該判定規則を抽出・生成する判定規則生成システムに分類できる。時系列データ判定システムで与えられる判定規則は，たとえば時系列データやその加工データと閾値との超過判定，これらの論理和・論理積で構成されるFTA(Fault Tree Analysis)，プラント正常稼働時の時系列をクラスタリングして生成したクラスタ集合を学習データとして管理して，このクラスタ集合からの乖離から異常を判定するクラスタ判定などが存在する。特許文献1，特許文献2では，あらかじめ異常と特定できる時系列パタンを蓄積し，入力時系列とこれらの時系列パタンの類似度を比較することにより，異常を検知し，あるいは異常原因を特定する方式が提案されている。また，判定規則生成システムは，主成分分析，k-means法，階層クラスタ分析，Wavelet解析等の分析アルゴリズムを提供することにより，分析者が試行錯誤で判定規則を生成することを補助する機能を提供している。

特開2007-11686号公報特開2003-132088号公報

図28に従来のプラント保全システムの概念図を示す。プラント保全システム2800は，センサからの時系列データを時系列ストアに格納し，診断規則に従い異常の検知を行い，警報を発行することにより，状態基準保全を行うという目的を持つ。

保全システム2800のユーザは，保全担当者，時系列解析者，システム運用者という三種類に分類される。保全担当者は，保全システムからの警報を受け取り，保全計画の立案を行う。時系列解析者は，未知な障害を解析して，診断規則の作成・更新を行う。システム運用者は，大量の時系列データを管理する保全システム自体のメンテナンスを担当し，データ圧縮・データ移動・データ削除などの時系列データのライフサイクル管理を行う。

従来の保全システムでは，保全担当者，時系列解析者，システム運用者間の情報共有手段がシステムとして提供されていなかった。未知の異常事例発見が保全担当者の責任範囲となり，保全担当者と時系列解析者間では，保全担当者が異常の誤検知・未検知を発見した時点で，文書やメール等で時系列解析者に解析を依頼するという形式となっていた。しかし一般に，保全担当者は多忙であり，時系列データを日常的に参照して異常パタンを発見することが困難であり，また診断知識に習熟しているわけでもない。そのため，保全担当者が，発生した時系列データの異常パタンを全て網羅的に収集し，タイムリーに時系列解析者に異常事例を報告することができなかった。一方，時系列解析者は，判定閾値の調整や，診断アルゴリズム自体の変更を行い，システム改変という形で診断規則の更新を行っている。そのため，異常発生から診断規則修正までの期間が長期間となり，日常的に診断規則を修正することができなかった。

また，大量の時系列データを効率的に管理するためには，従来の時間を基準としたライフサイクル管理ではなく，診断に必要となる重要なデータを残し，重要度の低い平常時のデータについてはデータの精度低減による非可逆圧縮，低コストストレージへの移動，データ削除等，状態を基準としたライフサイクル管理が必要となる。しかし，従来，システム運用者は，保全担当者，時系列解析者との情報共有の機会がなく，時系列解析結果をシステム運用者にフィードバックする手段が存在しなかった。そのため，システム運用者は，全てのデータの精度低減・削除等を全く行わないか，あるいはシステム構築時に決定したLCM(Life Cycle Management)規則に従い，たとえば秒単位のデータは１日分保存し，それ以降は分単位のデータに間引いて３ヶ月保存し，それ以降は削除する，などの，時間基準でのライフサイクル管理を行っていた。しかし一般にプラントは建設件数がたとえば自動車と比較して少なく，事例収集が困難であるため，重要度の高い異常パタンについては，過去データであっても精度低減や削除を行わずに事例として管理する必要がある。従来ではこの事例収集は，時系列解析者の責任として文書等で管理しており，そのため時間基準のライフサイクル管理により，過去データの事例の収集漏れが発生するという課題があった。

本発明の目的は，上述した課題を解決し，異常パタンの発見や管理を容易にし，重要度別のライグサイクル管理を行うことを可能とする時系列データ管理システム，およびその方法を提供することにある。

上記の目的を達成するため，本発明においては，処理部と記憶部とを備え，時系列データを管理する時系列データ管理システムであって，処理部は，時系列データを特徴区間に分割し，記憶部に，当該特徴区間のデータ，開始時刻，終了時刻，特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し，特徴区間同士の類似度を算出し，算出した特徴区間の類似度に応じて，特徴区間を階層的にクラスタリングし，得られる特徴区間のクラスタ間の類似度を枝クラスタに，当該特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより，時系列データを管理する時系列データ管理システムを提供する。

また，上記の目的を達成するため，本発明においては，処理部と入出力部とを備え，時系列データを管理する時系列データ管理システムにおける時系列データ管理方法であって，処理部は，時系列データを特徴区間に分割し，当該特徴区間のデータ，開始時刻，終了時刻，特徴区間を識別する識別子とを管理し，特徴区間の類似度を算出し，算出した特徴区間の類似度に応じて，特徴区間を階層的にクラスタリングし，得られる特徴区間のクラスタ間の類似度を枝クラスタに，特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより，時系列データを管理する時系列データ管理方法を提供する。

時系列データを類似度・重要度で分類し，未知異常パタンや既知の重要度の高い異常パタンに対してアクションを実行する手段を提供することにより，漏れのない保全計画の立案や，診断規則の改良を，日常的にかつ対応忘れ等の漏れがなく実行できる。

また，時系列データを類似度・重要度で分類し，重要度別に時系列データを非可逆圧縮・削除・分散管理等のアクションを定義することが可能となるため，時間基準ではなく重要度等の状態基準でのライフサイクル管理を行うことが可能となる。これにより，診断に必要となる時系列データの蓄積と，大量の時系列データの効率的な管理を両立することが可能となる。

第１の実施例に係る，時系列データプラットフォームのシステムの概要を示すブロック図である。第１の実施例に係る，時系列ストア装置とストレージ装置の構成を示すブロック図である。第１の実施例に係る，時系列データの構造を示す図である。第１の実施例に係る，登録プログラム，検索プログラム，及びデータの構成を示すプログラム構成図である。第１の実施例に係る，分類機能の構成を示すプログラム構成図である。第１の実施例に係る，特徴抽出機能の動作の一例を示す概念図である。第１の実施例に係る，特徴インデクスの構成図である。第１の実施例に係る，ファクトテーブルの構造を示す図である。第１の実施例に係る，クラスタリング機能の動作を示すフローチャート図である。第１の実施例に係る，類似度算出機能の動作を説明する図である。第１の実施例に係る，登録機能の構成を示すプログラム構成図である。第１の実施例に係る，特徴区間データ，および時系列データの構造を示す図である。第１の実施例に係る，検索機能の構成を示すプログラム構成図である。第１の実施例に係る，GUI(Graphical User Interface)機能が提供する類似事例検索画面の一例を示す図である。第１の実施例に係る，類似検索機能の動作を示すフローチャート図である。第１の実施例に係る，事例報告管理テーブルの構造を示す図である。第１の実施例に係る，インデクス管理機能の構成を示すプログラム構成図である。第１の実施例に係る，GUI機能が提供する特徴インデクス表示画面の一例を示す図である。第１の実施例に係る，ファクト位置管理機能の使用方法を示すシーケンス図である。第１の実施例に係る，吸収閾値管理機能の動作を説明する特徴インデクスの図である。第１の実施例に係る，異常範囲算出機能の適用するファクト位置移動の規則を説明した図である。第１の実施例に係る，異常範囲算出機能の動作を説明するフローチャート図である。第１の実施例に係る，平常範囲算出機能の動作を説明するフローチャート図である。第１の実施例に係る，時系列管理機能の構成を示すプログラム構成図である。第１の実施例に係る，時系列更新機能の動作を説明するフローチャート図である。第２の実施例に係る，時系列データプラットフォームの分散形態におけるシステムの概要を示すブロック図である。第２の実施例に係る，時系列移動機能の動作を説明する特徴インデクスの図である。従来のプラント保全システムの概念図である。

以下，本発明の一実施形態を図面に基づいて説明する。なお，本明細書において，時系列データ管理システムという場合，ネットワークを介して相互に接続される，1個または複数のセンサ，時系列ストア装置，ストレージ装置，及び1個または複数のユーザ端末105で構成されるシステム全体を呼ぶ場合と，時系列ストア装置とストレージ装置からなる構成を呼ぶ場合がある点留意されたい。

図1は，第１の実施例に係る，時系列データプラットフォームのシステム全体の概要を示すブロック図である。本実施例の時系列データプラットフォームは，1個または複数のセンサ101，時系列ストア装置103，ストレージ装置106，ユーザが使用する1個または複数のユーザ端末105を備え，ネットワーク102，104を介して相互に接続される自毛列データ管理システムである。ネットワークとしては，例えば専用線やいわゆるインターネットなどの広域網，LAN(Local Aria Network)などのローカルなネットワークを用いて良い。

センサ101は，時間の経過に伴ってデータを発生するものをいう，例えば，プラントの設備や機器に取り付けられたセンサや，データセンタ内のサーバのログ，中央処理部(Central Processing Unit：CPU)やメモリ使用率等のパフォーマンスデータ，RFID(Radio Frequency Identification)，自動車や列車等の車両センサ等が考えられるが，これに限定されるものではない。センサ101で発生した時系列データは，ネットワーク102を経由して時系列ストア装置103に入力される。時系列データは，時系列データが発生する毎に入力してもよいし，センサ101側で一時的に蓄積し，例えば1日毎など一定分蓄積された時系列データをまとめて入力してもよい。時系列ストア103は，入力した時系列データを処理した後，ストレージ装置106にデータとして保存する。ストレージ装置106は，図示の様に時系列ストア装置103と直接接続されていてもよいし，ネットワーク経由で接続されていてもよい。ユーザ端末105は，ネットワーク104を介して時系列ストア装置103に対して検索等のリクエストを発行し，センサ101からネットワーク102を介して収集され，ストレージ装置106に蓄積された時系列データを取得する。

図2は，図1の時系列データプラットフォームの一実施形態に関して，特に時系列データ管理システムの処理部として機能する時系列ストア装置103と，記憶部であるストレージ装置106の構成をより詳細に示すブロック図である。本実施形態の時系列ストア装置103は，時系列データの蓄積と検索を行う処理部である。時系列ストア装置103は，通常のコンピュータで構成でき，相互に接続されたメモリ206，プロセッサ205，入出力装置212，及び各種のインタフェース部からなる。このインタフェース部は，ディスクインタフェース(I/F)208，センサインタフェース204，ユーザインタフェース207を備える。なお，本明細書において，入出力装置212とインタフェース部を，更にはユーザ端末105を纏めて本システムの入出力部と呼ぶ場合がある。同様に，ストレージ装置106とメモリ206を総称して記憶部と呼ぶ場合がある。

この処理部である時系列ストア装置103は，センサインタフェース204を介してセンサ101と接続され，センサ101から時系列データ201を取得して，各種の処理を実行する。なお，本実施例において用いる時系列データとは，時間の経過に伴って連続または断続的に発生するデータを意味する。また時系列ストア装置103は，ユーザインタフェース207を介してユーザ端末105と接続され，ユーザ端末からの検索クエリ202を受け付け，検索結果203を返戻する。また時系列ストア装置103は，ディスクインタフェース208を介して，ストレージ装置106と接続され，センサ101からの時系列データ201やその処理結果をストレージ装置106に格納し，また取得する。

メモリ206は，例えばRAM(Random Access Memory)のような記憶媒体で構成される。入出力装置212は，例えばキーボードやマウスなどの入力部，及び液晶モニタなどの表示部で構成される。この液晶モニタなどの表示部は，ユーザ端末105の表示部と一体化されることにより，後で説明するGUI(Graphical User Interface)機能を実現するための表示手段として用いることもできる。

メモリ206には，時系列データ201の蓄積と特徴量の算出および蓄積を行う時系列データ登録プログラム209と，ユーザ端末105から入力された検索クエリ202に基づいて時系列データの検索を行う時系列データ検索プログラム210が格納されており，時系列データ201やその処理結果を一時的に格納できる領域であるバッファ211を有している。本実施例において，後述する時系列データ登録プログラム209や時系列データ検索プログラム210の各処理は，プロセッサ205が，メモリ206に格納されたこれらのプログラムを実行することにより実現される。ただしこれらの処理は，その一部ないし全てを集積回路化するなどしてハードウェアで実現することもできる。

ユーザ端末105は，時系列ストア装置103に対して，検索の実行を要求するユーザの端末であり，検索要求を示す検索クエリ202を送信し，検索結果203を受信する。また，ユーザ端末105は，時系列データ201の格納指示や，データ管理に関する各種設定を行うことも行う。ユーザ端末105は，図示していないが，同様にプロセッサ，メモリ，入出力装置を保持したコンピュータ構成を有している。またユーザ端末105は，時系列ストア装置103と同一装置，例えば一代のコンピュータ等で構成されても構わない。

ストレージ装置106は，類似した特徴区間を木構造で管理する特徴インデクス213，時系列データの特徴量を格納する特徴区間データテーブル214，時系列データを格納する時系列データテーブル215，特徴量算出方法を格納する特徴抽出規則テーブル216，ユーザにとって意味のある分類をファクトとして管理するファクトテーブル217を備える。本実施形態では，処理の対象となるデータを永続的に保持する記憶部として，ストレージ装置106を使用するものを例示して説明するが，記憶媒体としてフラッシュメモリを用いた半導体ディスク装置や，光ディスク装置など，永続的にデータを保持することのできる記憶装置であればどのようなものを用いても構わない。また，テーブル214，215，216等は，例えばリレーショナルデータベースのテーブルとして説明するが，ファイルシステム上に格納された1個ないし複数個のファイルとこれらのファイルにアクセスするためのプログラムなど，テーブルとして表現できる手法であれば，どのようなものをテーブルとして用いても構わない。

図3は，図2における複数のセンサ101からの時系列データ201の構造の一例を示す図である。時系列データは，センシングデバイスや設備・機器等から取得したセンサ観測値が，その観測時刻と観測センサを示す構造を取る。図3では，秒単位で変化する観測時刻301と，0個以上のセンサ観測値302の集合が1つのレコード303を構成し，このレコードが複数並ぶ，という構成を取る。観測時刻，観測センサ，観測値が一意に決定される構造を取ればよく，実際のデータ構造は複数の形式で表現可能である。例えばセンサ観測間隔が一定間隔であることが保証される場合，全てのレコード303から時刻301を省略し，時系列データ全体のヘッダに開始時刻と観測間隔を1個のみ格納することができる。観測センサについては，時系列データ全体のヘッダに観測センサを一意に識別する識別子を記載してもよいし，センサ101と時系列ストア装置103間で合意が取られている場合，レコード303における観測値の出現位置をもってセンサを識別してもよい。またセンサ101が単独の観測値しか発行しない場合，列302は1列となり，センサ101が観測を行うたびに時系列データを発行する場合，レコード303は1個となる。

図4は，図2の登録プログラム209，検索プログラム210，およびストレージ装置106に格納されたデータ213〜215の関係を示すプログラム構成図である。登録プログラム209は，収集機能401，分類機能402，およびアクション機能群403から構成される。

センサ101から到来した時系列データは，登録プログラム209中の収集機能401により収集され，分類機能402により特徴量を抽出され，特徴インデクス213に基づき分類され，その結果，分類毎に定義される規則に従い，アクション機能群403のいずれかの機能が実行される。アクション機能群403はプラグイン形式で追加可能な機能の集合であり，例えば図4に示すように，転送機能408，登録機能409，警報機能410，解析機能411から構成される。

登録機能409は，分類機能402により生成された特徴区間データテーブル214や，時系列データテーブル215をデータベースに登録する機能を有する。警報機能410は，異常が発生したことを適切なユーザに提示する機能を有する。解析機能411は，FTA(Fault Tree Analysis)等の解析プログラムに解析を依頼する機能を有する。なお，転送機能408は，図26，図27を用いて詳述する第２の実施例に係るものであり，ネットワーク上に分散して配置される複数の第二の時系列ストア装置のいずれかに時系列を転送する機能を有する。

一方，検索プログラム210は，GUI機能405，検索機能404，インデクス管理機能406，時系列管理機能407から構成される。GUI機能405は，ユーザ端末105に対し，画面を提示し，またユーザ端末からのクエリを受け付けるために利用される。また，このGUI機能405は，それ自身の入出力装置212の表示部への画面提示にも利用することが可能である。検索機能404は，センサ識別子や時刻指定で時系列データの検索を行う機能，類似する時系列データを検索する機能を有する。インデクス管理機能406は，特徴インデクスの分類に，人間にとって意味あるラベルを付与し，アクションを定義する機能を有する。時系列管理機能407は，特徴インデクスに従い，時系列データの精度低減，分散配置，削除などのライフサイクル管理を行う機能を有する。

図5は，図4の登録プログラム209における分類機能402の詳細な機能ブロックを示すプログラム構成図である。分類機能402は，特徴区間抽出機能503，クラスタリング機能504，アクション実行機能506から構成される。収集機能301から入力される時系列データ501は，特徴区間抽出機能503において，特徴抽出規則216に従い，特徴量に加工され，図6で後述される特徴区間データに分割される。特徴抽出規則216はスクリプト言語で記載され，特徴区間抽出機能503は，特徴抽出規則216を解釈して実行するスクリプトパーサである。次に，特徴区間抽出機能503において生成された特徴区間データは，クラスタリング機能504において，特徴インデクス213を参照しながら分類される。

特徴インデクス213は，後で図7を用いて詳述するように，これまで本システムに登録された全ての特徴区間を階層的にクラスタリングした木構造を取る。本実施例における特徴インデクスとは，特徴区間を階層的にクラスタリングし，得られる特徴区間のクラスタ間の類似度を枝クラスタに，特徴区間を識別する識別子を葉クラスタに持つ木構造である。新たに到来された特徴区間データ602は，特徴インデクス213に登録された特徴区間データの時系列パタンと類似度を比較され，最も類似したクラスタに吸収されるか，新たな特徴区間データとして特徴インデクスの木構造に追加される。なお，特徴インデクス内の特徴区間データと，到来した特徴区間データとの時系列パタンの類似度は，図5の類似度算出機能505により算出される。その後，アクション実行機能506において，特徴インデクスで定められる後述する規則に従い，図8で後述するファクトテーブル217から実行するアクション502を取得し，アクション機能群403のいずれかの機能を呼び出し，アクション502を実行する。

図6は，図5の特徴区間抽出機能503の動作の一例を模式的に示す概念図である。特徴区間抽出機能503は，連続した時系列データ601を順次入力し，その時系列データ601の特徴を表す特徴量に変換し，さらに開始時刻Ts 606，終了時刻Te 607で区切られた特徴区間603に分割するという動作を行う。特徴量の算出式は対象分野毎に異なる可能性があるが，一例として以下のような方式を取ることができる。秒単位時系列データの1分間毎の分散σを算出し，その値が値方向の閾値604を下回る値を除去する。そして時間方向の閾値605の期間に閾値604を上回る値が存在しない時点で分割を行う。他の例としては，時系列データを固定区間で分割し，Wavelet変換を行った特定レベルのデータを特徴量とするなどを取ることができる。本明細書において，時系列データを特徴量に変換し，さらに特徴区間に分割したデータのことを特徴区間データと呼ぶことにする。

図7は，本実施例のストレージ装置106に格納され，クラスタリング機能504で使用される特徴インデクス213の構造の一例を示す図である。特徴インデクス213は，階層型クラスタリング手法においてデンドログラムとして知られる構造と類似した2分木構造を取り，例えばストレージ上では，XML(Extensible Markup Language)言語にて格納することが可能である。特徴インデクス213は，単独の根クラスタ701の下方に枝クラスタあるいは葉クラスタが2つ接続され，枝クラスタ702の下方には別の枝クラスタあるいは葉クラスタが2つ接続される，という再帰的な構造を取る。

なお本文書では，以降,子クラスタ，子孫クラスタ群，親クラスタ，先祖クラスタ群，兄弟クラスタを以下の意味で用いる。あるクラスタに対する「子クラスタ」とは，該クラスタに下方に接続される2つのクラスタのいずれかの事である。また「子孫クラスタ群」とは，該子クラスタおよび該子クラスタの子クラスタを再帰的に含む全てのクラスタ群である。「親クラスタ」とは，該クラスタの上方に接続されるクラスタである。「先祖クラスタ群」とは，該親クラスタおよびその該親クラスタの親クラスタを再帰的に含む全てのクラスタ群である。また「兄弟クラスタ」とは，該クラスタと同じ親クラスタを持つ該クラスタとは異なるクラスタを意味する。

図7の葉クラスタ703は類似した特徴区間の集合であるクラスタを表し，当該葉クラスタを一意に識別する識別子であるCID 704と葉属性705から構成される。葉属性705は，該葉クラスタ内の特徴区間を類似とみなす閾値である吸収閾値D 711，該葉クラスタ内に登録された特徴区間数である登録数n 712，該葉クラスタを代表する特徴区間の識別子である代表区間のIID 713，ファクトテーブルへの識別子であるFID 714を持つ。葉クラスタは0個以上のFIDを持つことができる。

枝クラスタ702は，葉クラスタを再帰的に類似度に応じてまとめた階層型クラスタを表し，枝クラスタを一意に識別する識別子であるCID 706と枝属性707から構成される。枝属性707は，枝クラスタが保有する2つの部分クラスタの類似度である類似度D 708，枝クラスタを代表する葉クラスタのCID 709，ファクトテーブルへの識別子であるFID 710を持つ。葉クラスタは0個以上のFIDを持つことができる。根クラスタ701は，初期段階では葉クラスタであり，葉クラスタが複数登録された時点で枝クラスタとなる。

図8は，アクション実行機能506において使用されるファクトテーブル217の構造の一例を示す図である。ファクトテーブル217は，ユーザにとって意味のある分類をファクトとして管理する。ファクトテーブルの1行をファクトと呼ぶ。各ファクトは，ファクトを一意に示す識別子であるFID801と，本分類のラベル802，本ファクトに対して実行すべき，後述するアクション803から構成される。ラベル802とは，例えば二行目に示すように，「異常起動A」であり，アクション803は例えば「重要度Aランクで警報発行」という内容が記載される。アクション803はスクリプト言語で記載され，アクション実行機能506は，アクション803を解釈して実行するスクリプトパーサである。詳細は図7を用いて後述するが，新たに到来した特徴区間データが，特徴インデクス213の特定の葉クラスタに最も類似するとして吸収される時，該当の葉クラスタおよびその先祖クラスタである複数の枝クラスタをサーチし，それぞれのクラスタにファクトテーブル217のファクトに対する識別子FID710あるいは714が登録されている場合，図8のファクトテーブル217内の該当FID 801に対応するアクション803を順次実行する。

図9のフローチャートを用いて，図5に示した本実施例の時系列データ管理システムにおけるクラスタリング機能504について説明する。クラスタリング機能504の概略動作としては，特徴区間データ602を入力し，該特徴区間603が特徴インデクス213のどの葉クラスタに属するかを判定し，判定された葉クラスタに対応するアクションを実行する。また該当葉クラスタが存在しない場合は，特徴インデクス213に新たな枝クラスタと葉クラスタを挿入する，さらにその先祖クラスタ群に対応するアクションを順次実行する，という動作を行う。以下、Step 1〜Step 9順次詳述する。

＜Step 1＞類似葉クラスタ探索
特徴インデクス213の全ての葉クラスタ703に対し，入力された特徴区間603との類似度算出を行い，類似度が最も小さい葉クラスタ703を類似葉クラスタとして選択する。類似度算出は，類似度算出機能505に対し，葉クラスタ703の葉属性705の代表区間のIID 713が示す特徴区間データと，特徴区間データ602を入力することにより得る。なお類似度は正の値を取り，０に近いほど類似しているものとする。

＜Step 2＞葉クラスタ吸収判定
Step 1で選択された葉クラスタと，入力された特徴区間603との類似度が，当該葉クラスタの吸収閾値D 711よりも小さい値である場合，該入力された特徴区間が該葉クラスタに吸収されたと判定し，Step 5に進む。

＜Step 3＞挿入枝探索
本ステップでは，入力された特徴区間603が，特徴インデクスのどの枝クラスタに挿入されるかを探索する。Step 1で選択された葉クラスタの親クラスタから根クラスタ701までの各枝クラスタ702について再帰的にクラスタ内包判定を行い，クラスタ内包される最も上位の枝クラスタの下部に枝クラスタを挿入する。このクラスタ内包判定のアルゴリズムは複数考えられる。第一の方法では，Step 1で選択した葉クラスタと，入力された特徴区間との類似度が，枝クラスタの類似度Dよりも小さい場合にクラスタに内包されるとする。第二の方法では，内包判定対象の枝クラスタと，入力された特徴区間との類似度が，該当枝クラスタの親クラスタの類似度よりも小さい場合にクラスタに内包されるとする。

各枝クラスタと入力された特徴区間との類似度の算出は，下式で示される Ward法で算出できる。(G.N.Lance and W.T.Williams, "A general theory of classificatory sorting strategies. I. Hierarchical systems." Computer Journal, vol.9, pp.373-80 (1967)参照)すなわち2つの子クラスタ（クラスタi，クラスタj）から構成される枝クラスタと，入力された特徴区間oとの距離Dは，クラスタiとクラスタjとの距離Dij，クラスタiと入力された特徴区間oとの距離Dio，クラスタjと入力された特徴区間oとの距離Djo，クラスタiの格納データ数ni，クラスタjの格納データ数nj，入力された特徴区間の格納データ数no(=1)を用いて，以下の式で再帰的に計算できる。

（数１）

子クラスタが葉クラスタの場合，子クラスタと入力された特徴区間との類似度は，step 1の方法で類似度算出機能405を使用して算出できる。また枝クラスタの格納データ数は，その子孫クラスタである葉クラスタの登録数712の合計値で算出できる。

＜Step 4＞枝クラスタ挿入
本ステップでは，枝クラスタを挿入する。図7の701に特徴インデクスの部分木を示す。木構造701において，枝クラスタaがStep 3で算出した「クラスタ内包される最も上位の枝クラスタ」で，クラスタbの子孫クラスタにStep 1で算出した葉クラスタが存在するとする。枝クラスタ挿入操作では，葉クラスタeを生成し，葉クラスタeと該枝クラスタbを子に持つ枝クラスタdを生成し，クラスタaの子であるクラスタbと枝クラスタdを置換することにより木構造702を得る。葉クラスタeの属性として，図5の吸収閾値511はあらかじめ与えられた初期値を，登録数512は1を格納する。また，入力された特徴区間データのIIDとして，既存の特徴区間データと重複しない値を生成し，代表区間IID 513に格納する。また，FID 514は空集合を格納する。

＜Step 5＞未知葉クラスタのアクション実行
葉クラスタが新規登録された場合，未知葉クラスタに対応するファクト情報として図7には図示していないが特徴インデクスに対してあらかじめ設定しておくFIDの値に従い，該当ファクトテーブル217からファクトを探索し，対応するアクションを実行する。

＜Step 6＞葉クラスタのアクション実行
Step 1で吸収判定された葉クラスタ，あるいはStep 4で新規作成された葉クラスタeのFID 714が空集合ではない場合，登録されている全てのFIDをファクトテーブル217から探索し，対応するアクションを実行する。

＜Step 7＞枝クラスタ属性更新
Step 1で判定された葉クラスタ，あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて，類似度D 708と，代表葉のCID 709を更新する。計算方法としては，あるクラスタCの子孫にあたる全ての特徴区間iについて，他特徴区間との距離の総和を算出した下式の集合の中で，最も小さい値を取るクラスタiを代表の葉とする。ここで，njはクラスタjの格納特徴区間数，dijはクラスタi，j間の距離である。また，類似度Dは，子の2つのクラスタの代表葉クラスタ間の距離として，類似度算出機能405により下式で再帰的に算出する。

（数２）

＜step 8＞枝クラスタのアクション実行
Step 1で判定された葉クラスタ，あるいはStep 4で新規作成された葉クラスタeの先祖クラスタに当たる全ての枝クラスタについて，FID 710が空集合ではない場合，登録されている全てのFIDをファクトテーブル217から探索し，対応するアクションを実行する。

＜step 9＞再帰処理
Step 7，Step 8を根クラスタまで繰り返す。

図10は，図5に示した本実施例の類似度算出機能505の動作を説明する図である。一般に時系列データ同士のパタンの類似度比較のためには，時間軸方向の伸縮を考慮する必要がある。時間軸方向の伸縮を考慮した時系列データのパタンの類似度算出のためには，動的計画法（DPマッチング）をベースとしたDTW(Dynamic Time Warping)がよく知られている。DTWは，図10のように，比較対象となる２つの時系列A 1001と時系列B 1002を固定長フレームに分割し，各フレームの全ての組み合わせにおける類似度を算出し，マッチング行列1003を作成する。ここで各フレーム毎の類似度は，たとえばそのフレームにおける値や平均値の差を使用する。そして時系列A 1001の始点であり時系列B 1002の始点であるマッチング行列1003の左下の行列要素から，時系列A 1001の終点であり時系列B 1002の終点である図7右上の行列要素へ至る経路を選択し，その経路のコストを算出することにより時系列A 1001と時系列B 1002の類似度とする。なおその際の経路選択においては，斜め・右・上方向の移動のみに制限する。例えば図7の黒塗りの行列要素が経路の一つである。また経路のコストは，経路状の行列要素の類似度と，斜め・右・上方向の移動ペナルティの合計とし，右方向，上方向の移動ペナルティは，時系列の伸縮に関するペナルティとして，斜め方向の移動ペナルティよりも大きな値を持たせる。このような経路コスト計算において，最小のコストとなる経路コストを取る経路を最適な経路とし，その経路コストを時系列A 1001と時系列B 1002の類似度とする。

図11は，図4の登録機能409の詳細な機能ブロックを示すプログラム構成図である。登録機能409は，特徴区間データ214を登録する特徴区間登録機能1102と，時系列データ215を登録する時系列登録機能1103の2機能を有する。図5の分類機能402のアクション実行機能506が発行したアクション502は，アクション実行機能1101により解釈され，特徴区間登録1102，時系列登録1103，あるいはその両方を実行する。時系列登録機能1103は，アクションで指定がある場合，登録時に非可逆圧縮機能1104を利用し，アクションにて指定された精度で時系列データの精度を低減した非可逆圧縮を行う。

図12は，ストレージ装置106に格納される特徴区間データ214，および時系列データ215を管理するテーブルの構造の一例を示す図である。本例では，特徴区間データ214，時系列データ215を同じテーブル上の同じレコード1208で管理する例を示しているが，別テーブル，すなわち特徴区間管理テーブル，及び時系列データ管理テーブルとして管理しても構わない。本テーブルは，特徴区間である時系列区間に対して1レコードが格納される。レコード1208は，センサを一意に識別する識別子であるSID 1201，本特徴区間が分類される特徴インデクス213における葉クラスタを一意に識別するCID 1202，特徴区間自身を一意に識別するIID 1203，特徴区間の開始時刻Ts 1204，特徴区間の終了時刻Te 1205，特徴区間データ1206，時系列データ1207から構成される。特徴区間管理テーブルとしては，少なくとも特徴区間自身を一意に識別するIID 1203，特徴区間の開始時刻Ts 1204，特徴区間の終了時刻Te 1205，特徴区間データ1206を記憶している。

ここで時系列データ1207は，図6の時系列データ601を，開始時刻Ts 606から終了時刻Te 607までの範囲で分割したものであり，特徴区間データ1206は，図6の特徴区間データ602のことであり，IID 1203は図6の特徴区間603の識別子である。特徴区間データ1206および時系列データ1207は，時系列ブロックとして，関係データベースのBLOB(Binary Large Object)の形式で格納される。時系列ブロックは，ファイル名で識別されるファイルとしてデータベースの外側のファイルシステムで管理してもよい。図12の下部に時系列ブロックのデータ構造の例1209および1210を示す。時系列データの観測間隔が例えば1秒間隔などの固定値であり，システムで定義されている場合，時系列ブロックの構造としては，例えばfloat型の観測値のみを連続して格納する例1209のような構造を取ることができる。

時系列データに欠損が存在する場合，例えばfloat型NaN値を欠損値nullとして定義することにより管理することができる。また，時系列データの観測間隔が固定ではない場合，時系列データを，前の観測値からの相対秒数と観測値のペアで表す例1210のような構造を取ることもできる。時系列ブロックは，構造例1209や1210をさらにgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。また時系列ブロックを，非可逆圧縮機能904で非可逆圧縮し，構造例1209や1210で管理してもよく，さらにこれをgzipやlzmaなどの既存のデータ圧縮機能を利用して可逆圧縮しても構わない。

図13は，図4の検索機能404の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される検索機能404は，センサ識別子SID 1201と時間範囲を指定して該当センサ，時間範囲の時系列データ215の検索を行う時間指定検索機能1302と，時間範囲と類似度閾値を指定して，該当時間範囲内の時系列データのパタンと類似度閾値以下で類似する時系列パタンの集合の検索を行う類似検索機能1301から構成される。類似検索機能1301は，特徴インデクス213と特徴区間データ214，時間指定検索機能1302を利用している。

図14は，本実施例のGUI機能405が提供する画面イメージの一例である，類似事例検索の画面である。図14を用いて，検索機能404の動作を説明する。

グラフ1401は時間指定検索機能1302により取得した時系列データをグラフ化したものである。保全担当者は時間範囲1402のプラント起動過渡状態に異常を発見したとする。この時，保全管理者は時間範囲1402をマウス1403で選択し，類似度閾値をスライドバー1404で指定した後，類似度検索ボタン1405を押下する。その結果，画面下部に類似する時系列パタン1406が複数個グラフとして表示される。また，検索された類似時系列パタンに関連して障害事例報告書が存在する場合，事例報告書表示ボタンを表示させる。保全担当者は事例報告書表示ボタンを押下することにより，該当する事例報告書1407を画面に呼び出すことが可能となる。保全担当者は，該当報告書を参考にすることにより，今回の異常パタンと類似した過去事例を効率よくアクセスすることができるため，過去事例に則した保全アクション計画を迅速に立案することができるようになる。

次に，図15のフローチャートを用いて，本実施例の類似検索機能1301について説明する。

＜Step 1＞特徴区間の検索
図12の特徴区間時系列テーブルの開始時刻1204，終了時刻1205と，ユーザが指定した時間範囲とを比較することにより，ユーザ指定時間範囲に存在する特徴区間レコードを検索し，CID 1202とIID 1203を取得する。

＜Step 2＞葉クラスタの検索
図7の特徴インデクス213から，Step 1で取得したCIDと一致する葉クラスタを取得する。

＜Step 3＞枝クラスタの検索
Step 2で取得した葉クラスタから開始し，再帰的に親クラスタを取得し，枝クラスタの類似度D 708がユーザが指定した類似度閾値を超過しない最上位の枝クラスタを探索する。

＜Step 4＞類似葉クラスタの検索
Step 3で取得した枝クラスタの子孫クラスタとなる全ての葉クラスタを検索し，そのCID 704を全て取得する。

＜Step 5＞特徴区間の開始・終了時刻の取得
図12の特徴区間時系列テーブルから，Step 4で取得した全CIDを持つ全ての特徴区間レコードを検索し，その開始時刻1204と終了時刻1205を取得する。

＜Step 6＞時系列データの取得
図12の時系列テーブルの開始時刻1204，終了時刻1205と，Step 5で取得した検索結果時間範囲の集合とを比較することにより，検索結果時間範囲に存在する全ての時系列データを取得し，グラフ表示を行う。これにより，図14の画面下部の類似時系列パタン1406の集合を表示することができる。

図16は，図14で使用される障害事例報告書等の管理を行うための事例報告管理テーブル1601の構造を示す例である。例えば，障害事例管理テーブルとして機能する事例報告管理テーブル1601は，時刻1602，異常種類を示すFID 1603，当該事例の事例報告書へアクセスするポインタであるURL(Uniform Resource Locator)1604から構成される。

FID 1603は，図8のファクトテーブル217のFID 801と同じものであり，このFIDをキーにファクトテーブル217を参照することにより，異常のラベル802を取得すことが出来る。図15のStep 6で取得した特徴区間レコードの開始時刻・終了時刻と，事例報告管理テーブル1601の各レコードの時刻1602とを比較することにより，検索した特徴区間の時系列データに対応した事例報告書がもし存在すれば表示することができる。これにより，障害を発見した時に，特徴区間の時系列データの類似パタンを調べ，それに対する事例報告書等を参考にアクションを決めることができる。

図17は，図4のインデクス管理機能406の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出されるインデクス管理機能406は，ユーザ操作に応じて特徴インデクス213およびファクトテーブル217の更新を行う。インデクス管理機能406は，特徴インデクス213を木構造グラフとして可視化するインデクス可視化機能1701，特徴インデクス上の各枝クラスタ，葉クラスタでFID 710，714で管理されるファクトの登録・削除・位置変更を行うファクト位置管理機能1702，下位のクラスタを持つ特定の枝クラスタを葉クラスタに変換する吸収閾値管理機能1703，図8のファクトテーブルにおけるラベルやアクションを更新するファクト更新機能，重要度の低い平常データに対する吸収閾値を自動で設定する平常範囲算出機能1706，図16の事例報告管理テーブルから異常範囲を自動で設定する異常範囲算出機能1705から構成される。

図18は，インデクス可視化機能1701が生成し，GUI機能405で表示される画面イメージの一例である，特徴インデクス表示画面である。図18は，図7で定義される特徴インデクス213の構造をそのまま木構造グラフで可視化したものである。根クラスタ1801の下に枝クラスタ，葉クラスタが表示される構造を取る。図18では，枝クラスタの情報として，画面上に類似度708を表示し，葉クラスタの情報として，CID 704を表示しているが，ユーザの選択する任意の属性を表示して構わない。

また，破線による矩形部1802，1803，1804，1805は，FIDに値が格納されている枝クラスタと，その全ての子孫クラスタを囲んだものであり，ファクトテーブル217で分類された集合を表す。それぞれ図8のファクトテーブルのラベル802を表示してもよいし，ファクトテーブルで分類された集合の件数を表示してもよい。該集合の件数は，該FIDに値が格納された枝クラスタの子孫クラスタである全ての葉クラスタの登録数712を合計することで算出できる。また，ファクトテーブルで分類された集合を代表する特徴区間のグラフ1806,1807,1808を表示してもよい。該グラフ1806,1807,1808は，ファクトが登録された枝クラスタ702から代表葉クラスタのCID 709を取得し，該CIDを持つ葉クラスタ703を探索し，該葉クラスタの代表区間のIID 713を取得し，図12の特徴区間データテーブル214から該当IIDを持つレコードを取得し，該当レコードの開始時刻・終了時刻を用いて時系列データテーブルから時系列データを取得し，グラフ描画することで得られる。

特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタないし葉クラスタに対し，ファクト位置管理機能1702を適用することにより，ファクトの登録・削除を行うことができる。また，図8のファクトテーブルのラベル802，アクション803を編集することができる。また，枝クラスタに登録されているファクトを，その上位ないし下位の枝ノードの位置に移動させることができる。これにより，時系列解析者は，分類機能402により類似度別に自動分類された時系列パタンに対し，通常起動パタン，通常停止パタン，異常起動パタン等のラベルを付与することができ，さらに対策不要である，対策が必要であり，保全担当者へ警報を発行するなどのアクションを付与していくことができる。

図18の特徴インデクス表示画面において，定義済みのファクトに分類される枝クラスタ・葉クラスタを矩形1803，1804，1805のように囲んで表示することにより，対応の定義されていない未知の時系列パタンが発生したことが確認できるため，漏れの内事例収集と対策を行うことが可能となる。

特徴インデクス表示画面においてユーザがマウス等で選択した枝クラスタに対し，吸収閾値管理機能1703を適用することにより，該枝クラスタより詳細な分類が不要であることを指示することができる，吸収閾値管理機能1703は，指定した枝クラスタを葉クラスタに置換する。葉クラスタの吸収閾値711は，指定した枝クラスタの類似度708となる。

図19を用いて，図17のファクト位置管理機能1702の利用目的について説明する。ファクト位置管理機能は，特徴インデクス上の各枝クラスタ，葉クラスタで，FID710，714で管理されるファクトの登録・削除・位置変更を行う。ファクト位置管理機能を用いることにより，未知の異常パタンが発生した場合には必ず時系列解析者1906に警報が発生し，時系列解析者1906が未知パタンを通常パタンか，保全担当者1907に警告すべき異常パタンかを分類することにより，以降の類似パタンは保全担当者1907に警報が発生するようになる。これにより，日常的に網羅的な異常事例収集と診断規則の更新を行うことが可能となる。

＜Case 1＞
時系列パタンAが収集機能401から分類機能402に渡された時，特徴インデクス213に該当パタンが登録されていない場合，図9のStep 5で示した通り，特徴インデクスの部分木1901のように，未知葉クラスタAが登録され，未知葉クラスタに対するアクションが実行される。ここであらかじめアクションとして，ファクトが定義されていない枝ノードの子孫に位置する未知葉クラスタが登録された際，時系列解析者1906のユーザ端末105に対して警報を発行すると定義しておくことにより，時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906はGUI機能405により，図18に示す特徴インデクス画面を表示し，時系列パタンAは平常パタンであるというファクトを領域1901の葉クラスタAの位置に登録する。時系列パタンAに類似する時系列パタンA’が到来した場合，特徴インデクスは領域1902のように変化し，再び未知パタン警報が時系列解析者1906に発行される。時系列解析者1906はファクト情報を葉クラスタAの位置から，葉クラスタAと葉クラスタA’の共通の枝に移動する。これを複数回繰り返すことにより，類似パタンA’’が到来した段階で未知異常警報が発行されなくなる。

＜Case 2＞
時系列パタンBが収集機能401から分類機能402に渡された時，Case 1と同様に時系列解析者1906に対して未知パタン警報が発行される。時系列解析者1906が，時系列パタンBが異常パタンXであるというファクトを葉クラスタBの位置に登録し，保全担当者1907に警報を発行するというアクションを登録する。Case 1と同様に，類似パタンB’に対してファクトの位置移動を複数回繰り返すことにより，類似パタンB’’が到来した時点で保全担当者1907に警報が発行されるようになる。

図20を用いて，図17の吸収閾値管理機能1703の動作について説明する。吸収閾値管理機能1703は，これ以上詳細な分類が不要であるということをユーザが指示するために使用する。吸収閾値管理機能1703は，ユーザが指定した枝クラスタ2001を新たに生成した葉クラスタ2003に置換する。その際，葉クラスタ2003の吸収閾値D 2011は，枝クラスタ2001の類似度D 2004を代入する。登録数n 2012は，枝クラスタ2001の子孫クラスタ群の全ての葉クラスタの登録数nの合計値を格納する。代表区間のIID 2013は，枝クラスタ2001の代表葉のCID 2005が示す葉クラスタの代表区間のIIDを格納する。FID 2014は，枝クラスタ2001のFID 2006のFIDを格納する。

図21，図22を用いて，図17の異常範囲算出機能1705の動作について説明する。異常範囲算出機能1705は，図16の事例報告管理テーブルから登録すべきファクトを取得し，ファクト位置管理機能1702を利用し，ユーザの操作なしで自動的にファクト位置の変更を行うことを目的とする。図21は，異常範囲算出機能1705の適用するファクト位置移動のルールである。

＜Case 1＞
同じ葉クラスタ2101に，異なる識別子F1，F2を持つファクトが重複して登録されている場合，それぞれのファクトが異なる葉クラスタに登録されるように葉クラスタ2102，2103に再分類する。

＜Case 2＞
同じ異常事例であり，共通の識別子F1を持つファクトが葉クラスタ2104および2105に登録されている場合，それぞれの葉クラスタの共通の先祖となる最初の枝クラスタ2106にファクトを移動する。

＜Case 3＞
Case 2の例外として，共通の識別子F1を持つファクトが葉クラスタ2107および2108の共通の先祖となる最初の枝クラスタの子孫クラスタ群に，異なる識別子F2を持つ葉ノード2109が存在する場合，ファクトの移動を行わず，競合警報を発行する。この競合警報が発行されるのは，時系列パタンの分類方法が障害事例を分類するという目的を達成していないことになる。時系列解析者は本競合警報を受け付け，図5の特徴区間抽出機能503で使用される抽出規則を改良することができる。本警報機能により，漏れのない日常的な時系列解析機能の更新を行うことができる。

図22に，本実施例において，図21のルールの適用を行うためのフローチャートを示す。

＜Step 1＞時刻の取得
図16の事例報告管理テーブル1601に新たに登録されたレコードから，時刻1602を取得する。

＜Step 2＞ CIDの取得
図12の特徴区間データテーブル214の開始時刻1204，終了時刻1205と，Step 1で取得した時刻とを比較することにより対応する特徴区間データを取得し，CID 1202を取得する。

＜Step 3＞ FIDの登録
図7の特徴インデクス213から，Step 2で取得したCIDを持つ葉クラスタを探索し，Step 1で求めたレコードのFID1603を葉クラスタのFID 714として格納する。

＜Step 4＞ FID重複判定
Step 3で探索した葉クラスタに，異なる値のFIDが既に登録されている場合，Step 5,6,7を実行する。

＜Step 5＞既存特徴区間データの取得
Step 4で既に登録されているFIDに対応する特徴区間データを取得する。具体的には，図16の事例報告管理テーブル1601から該当FIDに対応する時刻1602を取得し，図12の特徴区間データテーブル214の開始時刻1204，終了時刻1205と比較することにより対応する特徴区間データを取得する。

＜Step 6＞類似度の算出
Step 5で取得した特徴区間データと，Step 2で取得した特徴区間データを，図5の類似度算出機能505で評価することにより，類似度を算出する。

＜Step 7＞特徴インデクスの再構築
Step 2で取得したCIDを持つ全ての特徴区間データを特徴区間データテーブル214から取得し，図9で示すクラスタリング機能504を利用して差異クラスタリングを行い，Step 3の葉クラスタと置換する。その際，図9のStep4における吸収閾値511を，Step 6で取得した類似度とする。Step 5,6,7により，図21のCase1のルールが実現できる。

＜Step 8＞
特徴インデクスに対し，同じFIDを持つ葉クラスタの集合を取得する。

＜Step 9＞枝クラスタの探索
それぞれの葉クラスタの親クラスタを再帰的に辿ることにより，共通の先祖を持つ最初の枝クラスタを探索する。

＜Step 10＞
Step 9で探索した枝クラスタの子孫クラスタ群の全ての葉クラスタを参照し，FIDがStep 3で求めたFIDと異なる値を取る葉クラスタが存在するかどうかを判定する。

＜Step 11＞
異なる値を取る葉クラスタが存在しない場合，FIDをStep 9で探索した枝クラスタに移動する。これにより，Case 2のルールが実現できる。

＜Step 12＞異なる値を取る葉クラスタが存在する場合，FIDの移動を行わずに競合警報を発行する。これにより，Case 3のルールが実現できる。

＜Step 13＞
Step 9-12の処理を，Step 8で取得した全ての葉クラスタの集合に対して繰返す。

図23を用いて，本実施例の図17の平常範囲算出機能1706の動作について説明する。平常範囲算出機能1706は，特徴インデクスから，重要度の低い平常データを抽出する。一般に，「不良全体の80%は，20%の原因に由来する」等，さまざまな現象において，その大勢が少数の要因によって決定されるという経験則，パレートの法則，80対20の法則として知られている。本発明ではこの法則を平常範囲の算出に適用する。

＜Step 1＞閾値THを増加
閾値THを，0から開始し，あらかじめ停止した一定間隔で増加させる。

＜Step 2＞閾値THを超過する枝クラスタの抽出
特徴インデクス213の，類似度Dが閾値THを超過する最下層の枝クラスタを抽出する。具体的には，特徴インデクス213の根クラスタから全ての下位の枝クラスタを探索し，その類似度D 708が閾値THより下回った枝クラスタを発見場合，その枝の探索を終了し，その枝クラスタの親クラスタをリストに追加する。

＜Step 3＞上位20%の枝クラスタを抽出
Step 2で取得した枝クラスタの集合を，枝クラスタに分類される特徴区間データ数でソートし，上位20%の枝クラスタを抽出する。枝クラスタに分類される特徴区間データ数は，枝クラスタの子孫クラスタである全ての葉クラスタの登録数n 712を合計することで得られる。

＜Step 4＞含有比Nの算出
Step 3で取得した枝クラスタ集合に分類される特徴区間データ数を合計し，特徴インデクスに登録された全特徴区間データ数で割ることにより，含有比Nを算出する。

＜Step 5＞判定
Step 4で算出した含有比が，80%より小さければ，Step 1に戻る。

＜Step 6＞枝クラスタ除去
Step 3で取得した枝クラスタ集合から，枝クラスタに分類される特徴区間データ数が，あらかじめ指定した閾値よりも小さい枝クラスタ群を除去する。

図23のアルゴリズムで算出した枝クラスタ群に対し，吸収閾値管理機能1703を適用し，それぞれの枝クラスタの類似度D 708を吸収閾値D 711とする葉クラスタに置換することにより，重要度の低い平常データに対する特徴インデクスの枝クラスタ登録数を自動で削減することができる。なお，図23では，固定値80%，20%を用いて説明したが，この値はシステムであらかじめ定義した任意の値で構わない。

図24は，図4の時系列管理機能407の詳細な機能ブロックを示すプログラム構成図である。GUI機能405から呼び出される時系列管理機能407は，ユーザ操作に応じて時系列データ215の移動・削除・精度低減による更新を行う。時系列管理機能407は，時系列データ215を別システムへ移動させる時系列移動機能2401，過去の不要な時系列データを削除する時系列削除機能2402，非可逆圧縮機能1104を用いて過去の不要なデータの精度を低減させる時系列更新機能2403から構成される。

時系列削除機能2402は，図8に示すファクトテーブル217において，葉クラスタ703に対し，「指定期間経過後に削除」と記載されている場合，該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し，終了時刻1205が現在時刻と比べ該指定期間より古い場合，該当時系列データ215を削除する。従来のライフサイクル管理機能は，指定期間を経過した全ての時系列データを削除するのに対し，本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に削除することができるため，異常パタンなどの過去事例を削除しないという効果がある。また，時系列削除機能2402が対象とする時系列パタンを，図23で説明した平常範囲算出機能1706で算出した葉クラスタに適用すれば，削除対象時刻より古い全データにおける80%のデータが削除対象となるため，ストレージ容量低減の効果がある。

図25を用いて，時系列更新機能2403の動作を説明する。時系列更新機能2403は，図8に示すファクトテーブル217において，葉クラスタ703に対し，「指定期間経過後に非可逆圧縮」と記載されている場合，該当葉クラスタ703のCID 704を持つ時系列データ215を図12に示す時系列データテーブルから抽出し，終了時刻1205が現在時刻と比べ該指定期間より古い場合，該当時系列データ215から適切な誤差許容率を算出して時系列データを非可逆圧縮する。

＜Step 1＞誤差許容率THを増加
誤差許容率THを，0から開始し，あらかじめ停止した一定間隔で増加させる。

＜Step 2＞非可逆圧縮
Step 1で算出した誤差許容率THで該葉クラスタ703に属する時系列データの非可逆圧縮を行う。非可逆圧縮方法は，たとえば3点の観測値が閾値以下の誤差で直線で近似できる場合，中点をまびく線形近似圧縮方法などが存在するが，Wavelet圧縮等，圧縮方式は問わない。

＜Step 3＞類似度dの算出
Step 2で非可逆圧縮した時系列データを再度展開し，図5の特徴区間抽出機能503で特徴区間データとしたものと，葉クラスタ703の代表区間のIID 713で示される特徴区間データとの類似度dを，類似度算出機能505で算出する。

＜Step 4＞類似度比較
Step 3で算出した類似度dと，該葉クラスタ703の吸収閾値D 711とを比較し，類似度dが吸収閾値Dよりも小さければ再びStep 1を実行する。

＜Step 5＞非可逆圧縮
Step 2で算出した誤差許容率THを用いて，時系列データを圧縮する。

従来のライフサイクル管理機能は，指定期間を経過した全ての時系列データを一定の誤差許容率で非可逆圧縮するのに対し，本方式によれば時系列の特徴に合わせて重要度の低いデータのみを選択的に非可逆圧縮することができ，また時系列パタンのバラツキに合わせて許容誤差率を変更して圧縮することができる。

次に，図26，図27を用いて，第２の実施例として，複数個の時系列ストア装置を接続した構成の時系列データ管理システムの実施例を説明する。このシステムは，上述した実施例１の時系列移動機能2401が有効に利用される。

図26は図1の時系列データプラットフォームにおいて，第一の時系列ストア103にさらに第二の時系列ストア装置2601，第二のストレージ装置2602を複数個接続した時系列データ管理システムの概要を示すブロック図である。実施例２の構成においては，複数の時系列ストア装置を分散配置することにより，大量の時系列データを分散管理することができる。以下，実施例１の構成と比較しながら実施例２の構成を説明する。

本実施例においては，時系列移動機能2401は，図8に示すファクトテーブル217のアクション803において，枝クラスタ702に対し，「指定する時系列ストア装置に分割」と記載されている場合，該当枝クラスタ702およびその子孫クラスタ群を，第二の時系列ストア装置2601に移動させる。また，該枝クラスタ702の子孫クラスタである全ての葉クラスタ703のCID 704を持つ全ての時系列データ215を図12に示す時系列データテーブルから抽出し，同じく全ての特徴区間データ214を特徴区間データテーブルかた抽出し，第二の時系列ストア装置に移動させる。

図27は，時系列ストア装置103および第二の時系列ストア装置2601に格納される特徴インデクス213の構造を示す模式図である。図27の上図が分割前，すなわち実施例１の時系列ストア装置103の特徴インデクスの構造である。ここで，枝クラスタ2701において分割を行う場合，特徴インデクスは第一の時系列ストア装置103と第二の時系列ストア装置2601のように分割される。ここで，分割前の枝クラスタ2701は，葉クラスタ2702に置換され，枝クラスタ2701およびその子孫クラスタ群は第二の時系列ストア装置2601に移動される。ここで，枝クラスタ2701を葉クラスタ2702へ置換するための規則は，図20に示す吸収閾値管理機能1703の動作と同じとなる。さらに新たに生成した葉クラスタ2702のFID 714に，「指定する時系列ストア装置に時系列データを転送する」と記載したファクトのFIDを登録する。

図4を用いて，転送機能408の説明を行う。図5のアクション実行機能506が発行したアクションが「指定する時系列ストア装置に時系列データを転送する」である場合，アクション機能群403の転送機能408が実行される。その結果，第一の時系列ストア103の収集機能401に到来した時系列データは，第二の時系列ストア装置2601における第二の収集機能へと転送される。そして，第二の分類機能402により枝クラスタ2703を根クラスタとする第二の特徴インデクスを用いて分類され，第二のアクション機能群403の機能，例えば解析機能411により処理される。

ここで，分割する枝ノードを，図23で説明した平常範囲算出機能1706で算出した枝ノード群と，それ以外のノードとすることにより，出現頻度の高い，重要度の低い平常パタンの時系列データと，重要度の高い，それ以外のパタンの時系列データを異なる第二の時系列ストア装置に分配することが可能となる。これにより，時系列ストア装置の負荷バランスを取ることができる。重要度の低い平常パタンの時系列データが転送される時系列ストア装置には，図23で説明したとおり，80%の時系列データが到来し，データ登録処理を行うことになる。一方，平常パタン以外の時系列データには，残りの20%の時系列データが到来することにより，登録負荷が低くなる。一般に，時系列解析者や保全担当者は，異常パタンの時系列データに対する検索クエリが多くなる傾向となる。また，異常パタンが到来する時系列データストア装置の負荷を軽減することにより，処理負荷の高い解析機能411を実行するための負荷バランスに貢献することができる。

なお，本発明は上記した実施例に限定されるものではなく，様々な変形例が含まれる。例えば，上記した実施例は本発明を分かりやすく説明するために詳細に説明したのであり，必ずしも説明の全ての構成を備えるものに限定されものではない。また，実施例の構成の一部について，他の構成の追加・削除・置換をすることが可能である。

また，上記の各構成，機能，処理部，処理手段等は，それらの一部又は全部を，例えば集積回路で設計する等によりハードウェアで実現してもよい。また，上記の各構成，機能等は，それぞれの機能を実現するプログラムを実行することによりソフトウェアで実現する場合を例示して説明したが，各機能を実現するプログラム，テーブル，ファイル等の情報はメモリのみならず，ハードディスク，ＳＳＤ（Solid State Drive）等の記録装置，または，ＩＣカード，ＳＤカード，ＤＶＤ等の記録媒体におくことができるし，必要に応じてネットワーク等を介してダウンロード，インストールすることも可能である。

101 センサ
102，104 ネットワーク
103，2601 時系列ストア装置
105 ユーザ端末
106，2602 ストレージ装置
201 時系列データ
202 検索クリエ
203 検索結果
204 センサインタフェース
205 プロセッサ
206 メモリ
207 ユーザＩ／Ｆ
208 ディスクＩ／Ｆ
209 登録プログラム
210 検索プログラム
211 バッファ
212 入出力装置
213 特徴インデクス
214 特徴区間データ
215，501，601 時系列データ
216 特徴抽出規則
217 ファクトテーブル
301 観測時刻
302 センサ観測値
303 レコード
401 収集機能
402 分類機能
403 アクション機能群
404 検索機能
405 GUI機能
406 インデクス管理機能
407 時系列管理機能
408 転送機能
409 登録機能
410 警報機能
411 解析機能
502，803 アクション
503 特徴区間抽出機能
504 クラスタリング機能
505 類似度算出機能
506 アクション実行機能
602 特徴区間データ
603 特徴区間
604，605 閾値
701，1801 根クラスタ
702，2001，2701，2703 枝クラスタ
703，2003，2702 葉クラスタ
704，706 CID
705，2002 葉属性
707 枝属性
708，2004 類似度Ｄ
709，2005 代表葉のCID
710，714，801，1603，2006，2010，2014 FID
711，2007，2011 吸収閾値Ｄ
712，2008，2012 登録数ｎ
713，2009，2013 代表区間のIID
802 ラベル
1401 グラフ
1402 時間範囲
1403 マウス
1405 類似度検索ボタン
1406 時系列パタン
1407 事例報告書
1601 事例報告管理テーブル
1602 時刻
1604 URL
1802，1803，1804，1805 矩形部
1806，1807，1808 グラフ
1901，1902，1903 領域
1906 時系列解析者
1907 保全担当者

Claims

処理部と記憶部とを備え，時系列データを管理する時系列データ管理システムであって，
前記処理部は，
前記時系列データをその特徴に応じた特徴区間に分割し，前記記憶部に，当該特徴区間のデータ，開始時刻，終了時刻，特徴区間を識別する識別子とを管理する特徴区間管理テーブルを形成し，
前記特徴区間同士の類似度を算出し，算出した前記特徴区間の類似度に応じて，前記特徴区間を階層的にクラスタリングし，得られる前記特徴区間のクラスタ間の類似度を枝クラスタに，前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより，前記時系列データを管理する，
ことを特徴とする時系列データ管理システム。
請求項1に記載の時系列データ管理システムであって，
表示部と入力部とを更に備え，
前記表示部は，前記特徴インデクスを表示し，
前記入力部は，前記枝クラスタないし前記葉クラスタの属性として，前記特徴区間の時系列パタンの意味付けを行うラベルと，対応するアクションを入力可能である，ことを特徴とする時系列データ管理システム。
請求項2に記載の時系列データ管理システムであって，
前記処理部は，
前記記憶部に，前記ラベルに係る時刻，及び事例内容を管理する事例報告管理テーブルを形成し，
前記事例報告管理テーブルの時刻と関連する前記特徴区間と関連した葉クラスタに，前記ラベルを付与し，同種類のラベルが複数のクラスタに存在する場合，複数の前記クラスタの共通の先祖となる最初の枝クラスタに当該ラベルを移動し，
異なる種類のラベルが同一の葉クラスタに存在する場合，当該葉クラスタに属する前記特徴区間を再分類し，当該異なるラベルが分離される最初の子孫クラスタに当該ラベルを移動する，ことを特徴とする時系列データ管理システム。
請求項3に記載の時系列データ管理システムであって，
前記処理部は，
前記特徴区間を前記類似度により分類し，前記時系列パタンの出現頻度から平常データと異常データを分離し，前記平常データに重要度の低いラベルを付与する，ことを特徴とする時系列データ管理システム。
請求項1に記載の時系列データ管理システムであって，
前記処理部は，
入力された前記時系列データと，前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行い，前記類似度を算出することにより最も類似した葉クラスタを選択し，
当該葉クラスタの吸収閾値と前記類似度とを比較することにより，当該葉クラスタへの吸収判定を行い，
当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し，
入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し，挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラス
タを再帰的に更新する，ことを特徴とする時系列データ管理システム。
請求項5に記載の時系列データ管理システムであって，
前記処理部は，警報発生機能を備え，前記警報発生機能により警報を発行することにより，ラベルの付与されていない時系列パタンの出現をユーザに提示し，ラベル付けの要求を行い，全ての未知異常を収集することを保証する，ことを特徴とする時系列データ管理システム。
請求項5に記載の時系列データ管理システムであって，
前記処理部は，
前記枝クラスタないし葉クラスタの属性としてラベル，および実行すべきアクションを管理し，
入力された前記時系列データが，分類された前記葉クラスタ，およびその上位の枝クラスタ群に記載された前記アクションを再帰的に実行し，
前記時系列データを前記類似度に応じて前記時系列データの精度低減，削除，警報発行，分散システムへの転送の少なくとも一つを行う，ことを特徴とする時系列データ管理システム。
請求項7に記載の時系列データ管理システムであって，
前記処理部は，
前記葉クラスタに属する前記時系列データの精度を低減する時，特定の許容誤差率でもって前記時系列データの精度低減を行うことにより，前記時系列データの類似度を算出し，
精度低減結果である時系列データが同じ葉クラスタに分類されることをもって該許容誤差率が妥当であると判定する，ことを特徴とする時系列データ管理システム。
請求項7に記載の時系列データ管理システムであって，
前記処理部は，
前記時系列データをその類似度により分類し，出現頻度の高いデータを平常データとして重要度を低く設定し，重要度の高い少数データと重要度の低い多数データを別システムにて管理することにより，検索や解析処理を中心に行うシステムと登録を中心に行うシステムとの負荷バランスを取る，ことを特徴とする時系列データ管理システム。
請求項２に記載の時系列データ管理システムであって，
前記処理部は，
前記特徴区間管理テーブルから，ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し，前記特徴インデクスから当該識別子を持つ葉クラスタを探索し，探索した前記葉クラスタの上位ノードに対し，類似度閾値を超過する最初の枝クラスタを探索し，探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し，
前記特徴区間管理テーブルから，前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し，検索結果を前記表示部に表示するよう制御する，
ことを特徴とする時系列データ管理システム。
処理部と入出力部とを備え，時系列データを管理する時系列データ管理システムにおける時系列データ管理方法であって，
前記処理部は，
時系列データをその特徴に応じた特徴区間に分割し，当該特徴区間のデータ，開始時刻，終了時刻，特徴区間を識別する識別子とを管理し，
前記特徴区間同士の類似度を算出し，算出した前記特徴区間の類似度に応じて，前記特徴区間を階層的にクラスタリングし，得られる前記特徴区間のクラスタ間の類似度を枝クラスタに，前記特徴区間を識別する識別子を葉クラスタに持つ木構造の特徴インデクスを構成することにより，前記時系列データを管理する，ことを特徴とする時系列データ管理方法。
請求項11に記載の時系列データ管理方法であって，
前記処理部は，
前記特徴インデクスを前記入出力部に表示し，
前記入出力部から，前記枝クラスタないし前記葉クラスタの属性として，前記特徴区間の時系列パタンの意味付けを行うラベルと，対応するアクションを入力させるよう制御する，ことを特徴とする時系列データ管理方法。
請求項12に記載の時系列データ管理方法であって，
前記処理部は，
前記特徴区間を前記類似度により分類し，前記時系列パタンの出現頻度から平常データと異常データを分離し，前記平常データに重要度の低いラベルを付与する，ことを特徴とする時系列データ管理方法。
請求項11に記載の時系列データ管理方法であって，
前記処理部は，
入力された前記時系列データと，前記葉クラスタの識別子により識別される前記特徴区間の時系列パタンとの類似判定を行うことにより前記類似度を算出して，最も類似した葉クラスタを選択し，
当該葉クラスタの吸収閾値と前記類似度とを比較することにより，当該葉クラスタへの吸収判定を行い，
当該葉クラスタの上位の前記枝クラスタの類似度との比較を再帰的に行うことにより枝クラスタへの挿入位置を決定し，
入力された前記時系列データを管理する葉クラスタを当該枝クラスタへ挿入し，挿入した前記葉クラスタの上位の枝クラスタの類似度と代表葉クラス
タを再帰的に更新する，ことを特徴とする時系列データ管理方法。
請求項11に記載の時系列データ管理方法であって，
前記処理部は，
前記特徴区間のデータ，前記開始時刻，前記終了時刻，及び前記特徴区間を識別する識別子を特徴区間管理テーブルで管理し，
前記特徴区間管理テーブルから，ユーザ指定時間範囲における前記特徴区間を識別する識別子を抽出し，前記特徴インデクスから当該識別子を持つ葉クラスタを探索し，探索した前記葉クラスタの上位ノードに対し，類似度閾値を超過する最初の枝クラスタを探索し，探索された該枝クラスタの下位クラスタの全ての葉クラスタを探索し，
前記特徴区間管理テーブルから，前記全ての葉クラスタに記載の識別子に対応する全ての前記特徴区間の開始時刻・終了時刻を検索し，検索結果を前記入出力部に表示するよう制御する，ことを特徴とする時系列データ管理方法。